CN107086040B

CN107086040B - 语音识别能力测试方法和装置

Info

Publication number: CN107086040B
Application number: CN201710488838.3A
Authority: CN
Inventors: 柳燕飞; 王秀芬
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2021-03-02
Anticipated expiration: 2037-06-23
Also published as: CN107086040A

Abstract

本发明实施例提供了一种语音识别能力测试方法和装置，包括：接收测试命令，所述测试命令中包括测试词语和测试模式；获取与所述测试词语和所述测试模式对应的测试音频文件；对所述测试音频文件进行语音识别；将所述识别结果与所述测试词语进行相似度比较，以输出测试结果。通过实施本方案对应的实施例，可以提高语音识别能力测试的测试结果的准确率。

Description

语音识别能力测试方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别能力测试方法和装置。

背景技术

语音识别技术使机器听懂人类说话，在机器智能化过程中起着重要作用。因此，需要对语音识别系统的语音识别能力进行测评，以保证机器准确识别语音命令。

现有语音识别能力测评方式为人工发音，具体为如下过程：测试人员人工说出语音命令，并由测试人员观察机器的识别结果，进而判断机器能否准确识别语音命令，此处的识别结果为：机器对语音进行分析后所输出的语音内容对应的文字。

人工发音虽然可以测评机器识别语音命令的能力，但是，人工发音的测试过程具有局限性。例如，人工发音的局限性可以表现为，发音人员通常清楚地按照语言的语法顺序发出测试语音，但使用过程中，用户未必按照发音人员在测试中朗读测试词语时遵循的语法形式发出命令。人工发音的局限性，导致测试语音与用户实际发音匹配度低，进而导致测试结果与现实中机器语音识别能力不符的问题，使得测试结果准确率低。

发明内容

有鉴于此，本发明实施例提一种语音识别能力测试方法和装置，用以提高语音识别能力测试结果的准确率。

本发明实施例提供的一种语音识别能力测试方法，包括：

接收测试命令，所述测试命令中包括测试词语和测试模式；

获取与所述测试词语和所述测试模式对应的测试音频文件；

对所述测试音频文件进行语音识别；

将所述识别结果与所述测试词语进行相似度比较，以输出测试结果。

本发明实施例提供的一种语音识别能力测试装置，包括：

接收模块，用于接收测试命令，所述测试命令中包括测试词语和测试模式；

获取模块，用于获取与所述测试词语和所述测试模式对应的测试音频文件；

识别模块，用于对所述测试音频文件进行语音识别；

比较模块，用于将所述识别结果与所述测试词语进行相似度比较，以输出测试结果。

本发明实施例提供的一种语音识别能力测试方法和装置，根据测试命令中的测试模式选择测试命令中测试词语对应的测试音频文件，以进行语音识别能力测试。其中的测试模式可以有多种选择，多种模式尽可能地模拟了使用过程中用户的实际发音，即不同用户的不同发音习惯，打破了现有人工发音进行测试的局限性，提高了测试音频与用户实际的发音匹配度，进而提高了语音识别能力测试的测试结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别能力测试方法的可选实施例的步骤流程图；

图2为本发明实施例提供的语音识别能力测试方法的另一可选实施例的步骤流程图；

图3为本发明实施例提供的语音识别能力测试装置的可选实施例的结构图；

图4为本发明实施例提供的语音识别能力测试装置的另一可选实施例的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX，但这些XXX不应限于这些术语。这些术语仅用来将XXX区分开。例如，在不脱离本发明实施例范围的情况下，第一XXX也可以被称为第二XXX，类似地，第二XXX也可以被称为第一XXX。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

进一步值得说明的是，本发明各实施例中各步骤之间的顺序是可以调整的，不是必须按照以下举例的顺序执行。

首先介绍本发明实施例提供的语音识别能力测试方法，该方法应用于语音识别设备，具体的，语音识别设备可以为智能手机、智能机器人等。进一步地，上述方法还可以应用于语音识别能力测试装置，该装置具体可以为语音识别软件，还可以为语音识别功能插件，本发明实施例不做具体限定。

如图1所示，本发明实施提供的一种语音识别能力测试方法，包括如下步骤：

S101：接收测试命令，测试命令中包括测试词语和测试模式。

当需要对语音识别系统的语音识别能力进行测试时，测试人员通过交互设备输入测试命令。

测试命令具体可以包括测试词语和测试模式，以下分别对测试词语和测试模式做详细介绍。

测试词语可以为通过外设输入的文本。举例来说，测试词语可以为“打开视频播放器”，那么当接收到“打开视频播放器”时，则意味着需要播放“打开视频播放器”对应的音频，以对机器的语音识别能力进行测试。输入测试词语的外设可以为键盘、触摸屏等。

测试模式可以由用户通过外设输入，输入方式可以为通过鼠标点击、或者通过触摸屏点击。可选地，测试模式包括发音地域性测试和词语改变性测试等不同的测试模式。实际测试中，可以选择任意一种模式进行测试，也可以同时选中几种模式进行测试。

本发明实施例中，之所以对语音识别系统进行不同测试模式的测试，是为了测试语音识别系统的抗干扰能力。比如，发音地域性测试模式，用于测试语音识别系统对不同发音特征的识别能力；词语改变性测试模式，用于测试语音识别系统对不同表达习惯的识别能力。

S102：获取与测试词语和测试模式对应的测试音频文件。

可选的，可以先获取与测试词语对应的所有音频文件，再从获取的音频文件中选取与测试模式相对应的测试音频文件；当然，还可以先获取与测试模式对应的所有音频文件，再从获取的音频文件中选取与测试词语对应的测试音频文件。

所获取的测试音频文件可以从本地预设的音频数据库中获取。

其中，音频数据库是由多个地区具有不同口音的工作人员预先录制的，工作人员包括不同年龄、不同性别的发音人员。

需要说明的是，本实施例可能存在多个测试词语、且每一测试词语对应多个测试模式的情况，此时可以逐个获取各测试词语在每个测试模式下的音频，也可以针对每一测试词语随机选取部分测试模式进而获取所选取模式下的各测试词语的音频等，这都是合理的。

S103：对测试音频文件进行语音识别。

获取测试音频文件后，需要播放测试音频，以使得语音识别系统对测试音频进行识别。在播放音频时，可以以不同的速度进行播放，例如快速、中速、慢速。

对于每一个被播放的测试音频文件，可选地将其播放多次，假设播放次数为N。当语音识别设备对所播放的测试音频文件进行识别后，对于每一个所播放的测试音频文件，可以获得N个识别结果。

需要说明的是，识别结果体现为文字，具体体现为所播放音频内容所对应的文字。例如，当播放的音频为“开启闹钟”的音频时，在语音识别设备识别正确的情况下，识别结果为“开启闹钟”。

S104：将识别结果与测试词语进行相似度比较，以输出测试结果。

可选地，针对每一个所播放的测试音频文件，将其N个识别结果分别与测试音频文件所对应的测试词语进行对比，计算各识别结果与测试词语的相似度。相似度可以体现为百分数、分数、小数等，例如，相似度可以为60％、0.6、6/10、100％等。当相似度数值为1时，将识别结果标记为正确结果。计算正确结果n与播放次数之间N的比例，作为测试结果输出。

由此可见，本发明实施例提供的一种语音识别能力测试方法，打破了现有人工发音进行测试的局限性，从而在最大程度上模拟了使用过程中用户的实际发音，即不同用户的不同发音习惯，提高了测试音频与用户实际的发音匹配度，进而提高了语音识别能力测试的测试结果的准确率。

如图2所示，在一种可选实施例中，获得测试音频文件的方式可以包括如下步骤：

S201：将测试词语拆分为多个文字。

例如，当获取到的测试词语为“预报天气”时，将“预报天气”拆分为“预”“报”“天”“气”四个文字。

具体拆分方法，可以为现有技术，本实施例不做赘述。

S202：从音频数据库中获取多个文字在测试模式下分别对应的音频文件。

本实施例的音频数据库中，音频以测试语言的最小组成单元为单位进行存储。例如，当测试语言为汉语，则音频数据库中的音频以汉字为单位存储。

具体地，本实施例的音频数据库中各音频文件唯一对应一个录音标识，以便音频文件的获取。录音标识中可以包含音频文件的序列码、声母标识、音频录制过程中录音人员标识、口音方言标识等。当然，上述录音标识还可以包含音频录制时间、地点、录音设备、发音者距设备的距离等信息。

可选地，若测试模式为发音地域性测试，则根据发音地域性测试所指示的地域信息，从音频数据库中获取与多个文字分别对应的音频文件。假设当前测试模式的地域信息为北京，那么，分别获取“预”“报”“天”“气”四个文字对应的北京口音的音频文件。

进一步地，若测试模式为词语改变性测试，则根据词语改变性测试所指示的改变类型，对多个文字进行处理；并从音频数据库中获取与处理后的多个文字分别对应的音频文件。需要说明的是，本实施例的词语改变性测试中的改变类型可以包括测试词语换序测试、测试词语少词测试、测试词语多词测试、测试词语错词测试、测试词语发音相似性测试中的至少一种。

以下分别介绍词语改变性测试的改变类型。

测试词语换序测试中，将测试词语的顺序改变。可选的，通过以下步骤完成：将所述测试词语拆分为多个文字；对所述多个文字进行排列组合处理，以获得多组排列结果；获取与所述多组排列结果分别对应的测试音频文件。例如，测试词语为“开启地图应用”，在测试词语换序测试中，将“开启地图应用”中各文字进行排列组合，获得对应的多组排列结果。多组排列结果中的一组排列结果可以为“开启应用地图”，还可以为“应用地图开启”等。接着获取各组排列结果对应的测试音频文件。

在测试词语少词测试中，删除测试词语中一定数量的文字。可选的，通过以下步骤完成：将所述测试词语拆分为多个文字；删除所述多个文字中的至少一个文字；从音频数据库中获取与剩余文字分别对应的音频文件；将所述剩余文字分别对应的音频文件合成为所述测试音频文件。例如，删除测试词语“开启地图应用”中“应用”二字，将测试词语变为“开启地图”，接着获取“开启地图”中各文字对应的音频文件并合成。

测试词语多词测试中，将某文字插入到测试词语中任意两个文字之间。可选的，通过以下步骤完成：将所述测试词语拆分为多个文字；从音频数据库中选出至少一个文字增加到所述多个文字中；从音频数据库中获取与增加后的多个文字分别对应的音频文件；将所述增加后的多个文字分别对应的音频文件合成为所述测试音频文件。例如，将文字“那”加入到测试词语“开启地图应用”中，组成新的测试词语“开启那地图应用”，并获取相应音频文件进行合成。

测试词语错词测试中，以任一文字替换测试词语中的某一文字。可选的，通过以下步骤完成：将所述测试词语拆分为多个文字；从音频数据库中选出至少一个文字以替换所述多个文字中的至少一个文字；从音频数据库中获取与替换后的多个文字分别对应的音频文件；将所述替换后的多个文字分别对应的音频文件合成为所述测试音频文件。例如，将“开启地图应用”中的“启”替换为“始”，获得测试词语“开始地图应用”，并获取相应测试音频文件。

测试词语发音相似性测试中，选取与测试词语中某一个文字具有相似发音的文字替换测试词语中的该文字。可选地，将所述测试词语拆分为多个文字；对所述多个文字中的至少一个文字进行拼音替换；从音频数据库中获取与替换后的多个文字分别对应的音频文件；将所述替换后的多个文字分别对应的音频文件合成为所述测试音频文件。具体的，拼音替换的步骤可以包括：获取测试词语中各个文字的声母和韵母；以与测试词语中某文字的声母/韵母相异的文字替换测试词语中的该文字。例如，测试词语为“打电话给劳拉”，获取其中的“劳”字的声母为“l”，以声母“b”替换“l”，则选择发音为“bao”的文字替换“劳”。

S203：将多个文字在测试模式下分别对应的音频文件合成为测试音频文件。

将所获取的多个音频文件合成，获得测试音频文件。

本实施例中的方法，将测试词语拆分为多个文字，并从以单个文字为存储单位的音频数据库中选取相应音频文件合成测试音频文件。由于本实施例的选取单位为文字，因此本实施例的方法可以提高音频测试过程的灵活性。

如图3所示，相应于上述方法实施例，本发明实施例还提供了一种语音识别能力测试装置，包括：接收模块310、获取模块320、识别模块330、比较模块340。

接收模块310，用于接收测试命令，所述测试命令中包括测试词语和测试模式。

获取模块320，用于获取与所述测试词语和所述测试模式对应的测试音频文件。

识别模块330，用于对所述测试音频文件进行语音识别。

比较模块340，将所述识别结果与所述测试词语进行相似度比较，以输出测试结果。

由此可见，本发明实施例提供的一种语音识别能力测试装置，打破了现有人工发音进行测试的局限性，从而在最大程度上模拟了使用过程中用户的实际发音，提高了测试音频与用户实际发的音匹配度，进而提高了语音识别能力测试的测试结果的准确率。

在一中可选实施方式中，在图3的基础上，如图4所示，所述获取模块320，包括：拆分子模块321、第一获取子模块322、合成子模块323。

拆分子模块321，用于将所述测试词语拆分为多个文字。

第一获取子模块322，用于从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件。

合成子模块323，用于将所述多个文字在所述测试模式下分别对应的音频文件合成为所述测试音频文件。

在一中可选实施方式中，所述测试模式包括发音地域性测试，所述第一获取子模块322，具体用于：

根据所述发音地域性测试所指示的地域信息，从音频数据库中获取与所述多个文字分别对应的音频文件。

在一中可选实施方式中，所述测试模式包括词语改变性测试，所述第一获取子模块322，包括：处理子模块3221、第二获取子模块3222。

处理子模块3221，用于根据所述词语改变性测试所指示的改变类型，对所述多个文字进行处理。

第二获取子模块3222，用于从音频数据库中获取与处理后的多个文字分别对应的音频文件。

在一中可选实施方式中，所述词语改变性测试包括如下测试中的至少一种：

测试词语换序测试、测试词语少词测试、测试词语多词测试、测试词语错词测试、测试词语发音相似性测试。

需要说明的是，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得较为简单，相关之处参见方法实施例的部分说明即可。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别能力测试方法，其特征在于，包括：

接收测试命令，所述测试命令中包括测试词语和测试模式；

获取与所述测试词语和所述测试模式对应的测试音频文件；

对所述测试音频文件进行语音识别；

将所述识别结果与所述测试词语进行相似度比较，以输出测试结果，包括：

针对每一个所播放的测试音频文件，将其N个识别结果分别与测试音频文件所对应的测试词语进行对比，计算各识别结果与测试词语的相似度，当相似度数值为1时，将识别结果标记为正确结果n，计算正确结果n与播放次数之间N的比例，作为测试结果输出；

所述获取与所述测试词语和所述测试模式对应的测试音频文件，包括：

将所述测试词语拆分为多个文字；从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件；将所述多个文字在所述测试模式下分别对应的音频文件合成为所述测试音频文件；

其中，所述测试模式包括发音地域性测试、词语改变性测试；所述词语改变性测试包括测试词语换序测试、测试词语少词测试、测试词语多词测试、测试词语错词测试、测试词语发音相似性测试中的至少一种。

2.根据权利要求1所述的方法，其特征在于，所述测试模式包括发音地域性测试，所述从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件，包括：

3.根据权利要求1所述的方法，其特征在于，所述测试模式包括词语改变性测试，所述从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件，包括：

根据所述词语改变性测试所指示的改变类型，对所述多个文字进行处理；

从音频数据库中获取与处理后的多个文字分别对应的音频文件。

4.一种语音识别能力测试装置，其特征在于，包括：

识别模块，用于对所述测试音频文件进行语音识别；

比较模块，用于将所述识别结果与所述测试词语进行相似度比较，以输出测试结果，针对每一个所播放的测试音频文件，将其N个识别结果分别与测试音频文件所对应的测试词语进行对比，计算各识别结果与测试词语的相似度，当相似度数值为1时，将识别结果标记为正确结果n，计算正确结果n与播放次数之间N的比例，作为测试结果输出；

所述获取模块，包括：拆分子模块、第一获取子模块及合成子模块，其中，所述拆分模块，用于将所述测试词语拆分为多个文字；所述第一获取子模块，用于从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件；所述合成子模块，用于将所述多个文字在所述测试模式下分别对应的音频文件合成为所述测试音频文件；

5.根据权利要求4所述的装置，其特征在于，所述测试模式包括发音地域性测试，所述第一获取子模块，具体用于：

6.根据权利要求4所述的装置，其特征在于，所述测试模式包括词语改变性测试，所述第一获取子模块，包括：

处理子模块，用于根据所述词语改变性测试所指示的改变类型，对所述多个文字进行处理；

第二获取子模块，用于从音频数据库中获取与处理后的多个文字分别对应的音频文件。