CN107039050A

CN107039050A - 对待测试语音识别系统的自动测试方法和装置

Info

Publication number: CN107039050A
Application number: CN201610081167.4A
Authority: CN
Inventors: 李宏言
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-02-04
Filing date: 2016-02-04
Publication date: 2017-08-11
Anticipated expiration: 2036-02-04
Also published as: CN107039050B

Abstract

本申请提供了一种对待测试语音识别系统的自动测试方法和装置。该方法包括：对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；将得到的不同的测试语音输入待测试语音识别系统，得到所述待测试语音识别系统对所述测试语音的识别结果；将所述识别结果与所述测试文本比对，得到所述待测试语音识别系统的测试结果。本申请满足了语音识别系统的自动、快速的测试需求。

Description

对待测试语音识别系统的自动测试方法和装置

技术领域

本申请涉及计算机领域，尤其涉及一种对待测试语音识别系统的自动测试方法和装置。

背景技术

语音识别(Automatic speech recognition，ASR)是从语音波形中识别出对应的文字内容的技术，是人工智能领域的重要技术之一。目前，语音识别技术已应用于各场景，例如，导航系统中利用语音识别技术识别用户的语音输入命令；搜索引擎或电商平台中利用语音识别技术识别用户语音输入的搜索关键字；利用语音识别技术识别用户输入的语音以实现机器人对话等等场景。针对任一应用场景开发的语音识别系统在上线使用前，均需要对该语音识别系统进行性能测试，也就是对语音识别系统的识别准确率进行测试，从而根据性能测试情况确定当前语音识别系统是否达到上线使用标准，并可根据识别准确率对语音识别系统进行适当的改进。

目前，对语音识别系统的性能测试方法为：将用户可能发出的语音命令让具有不同音色的男人、女人、小孩等来读，录制成测试集，将该人工录制的测试集输入待测试的语音识别系统中，以确定待测试的语音识别系统的识别准确率。该语音识别系统的性能测试方法在测试集规模比较小的情况下，能够快速完成。但是，当人工录制测试集的规模比较大的情况下，则耗时耗力，很难快速得到满足要求的测试集，从而影响语音识别系统的测试效率，无法满足语音识别系统快速测试的需求。

发明内容

本申请解决的技术问题之一是，提供一种语音识别系统的自动测试技术，满足语音识别系统的自动、快速的测试需求。

根据本申请的一个实施例，提供了一种对待测试语音识别系统的自动测试方法，包括：

对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

将得到的不同的测试语音输入待测试语音识别系统，得到所述待测试语音识别系统对所述测试语音的识别结果；

将所述识别结果与所述测试文本比对，得到所述待测试语音识别系统的测试结果。

根据本申请的一个实施例，提供了一种对电子导航语音搜索命令识别系统的自动测试方法，包括：

根据用户在电子地图中发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

将得到的不同的测试语音输入电子导航语音搜索命令识别系统，得到所述电子导航语音搜索命令识别系统对所述测试语音的识别结果；

将所述识别结果与所述测试文本比对，得到所述电子导航语音搜索命令识别系统的测试结果。

根据本申请的一个实施例，提供了一种对电子商务平台上的物品语音搜索命令识别系统的自动测试方法，包括：

根据用户在电子商务平台上发出对物品的语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

将得到的不同的测试语音输入所述物品语音搜索命令识别系统，得到所述物品语音搜索命令识别系统对所述测试语音的识别结果；

将所述识别结果与所述测试文本比对，得到所述物品语音搜索命令识别系统的测试结果。

根据本申请的一个实施例，提供了一种对语音搜索引擎上的语音搜索命令识别系统的自动测试方法，包括：

根据用户在语音搜索引擎上发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

将得到的不同的测试语音输入所述语音搜索命令识别系统，得到所述语音搜索命令识别系统对所述测试语音的识别结果；

将所述识别结果与所述测试文本比对，得到所述语音搜索命令识别系统的测试结果。

根据本申请的一个实施例，提供了一种对待测试语音识别系统的自动测试装置，包括：

文语转换单元，用于对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

输入单元，用于将得到的不同的测试语音输入待测试语音识别系统，得到所述待测试语音识别系统对所述测试语音的识别结果；

比对单元，用于将所述识别结果与所述测试文本比对，得到所述待测试语音识别系统的测试结果。

根据本申请的一个实施例，提供了一种对电子导航语音搜索命令识别系统的自动测试装置，包括：

电子导航语音搜索测试文本生成单元，用于根据用户在电子地图中发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

电子导航语音搜索文语转换单元，用于对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

电子导航语音搜索测试语音输入单元，用于将得到的不同的测试语音输入电子导航语音搜索命令识别系统，得到所述电子导航语音搜索命令识别系统对所述测试语音的识别结果；

电子导航语音搜索识别结果比对单元，用于将所述识别结果与所述测试文本比对，得到所述电子导航语音搜索命令识别系统的测试结果。

根据本申请的一个实施例，提供了一种对电子商务平台上的物品语音搜索命令识别系统的自动测试装置，包括：

物品语音搜索测试文本生成单元，用于根据用户在电子商务平台上发出对物品的语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

物品语音搜索测试语音输入单元，用于对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

物品语音搜索测试语音输入单元，用于将得到的不同的测试语音输入所述物品语音搜索命令识别系统，得到所述物品语音搜索命令识别系统对所述测试语音的识别结果；

物品语音搜索识别结果比对单元，用于将所述识别结果与所述测试文本比对，得到所述物品语音搜索命令识别系统的测试结果。

根据本申请的一个实施例，提供了一种对语音搜索引擎上的语音搜索命令识别系统的自动测试装置，包括：

语音搜索引擎测试文本生成单元，用于根据用户在语音搜索引擎上发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

语音搜索引擎文语转换单元，用于对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

语音搜索引擎测试语音输入单元，用于将得到的不同的测试语音输入所述语音搜索命令识别系统，得到所述语音搜索命令识别系统对所述测试语音的识别结果；

语音搜索引擎识别结果比对单元，用于将所述识别结果与所述测试文本比对，得到所述语音搜索命令识别系统的测试结果。

本申请实施例利用文语转换方式对测试文本进行具有不同转换参数的文语转换，再将测试语音输入待测试语音识别系统中，从而测试该待测试语音识别系统的识别准确率。由于可以设置不同的转换参数，就可以转换成各种各样的声音效果，如男声、女声、童声、各种音色的声音、各种语速的声音、各种语调的声音、加入不同噪声的声音、不同混响的声音等，因而，就不用象现有技术那样让不同声音的人在不同噪声、混响情况下用不同语速、语调去读测试文本造成费时费人工。本申请实施例大大提高了语音识别系统测试的效率，满足了语音识别系统自动、快速的测试需求。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本申请并不仅限于这些实施例。而是，本申请的范围是广泛的，且意在仅通过后附的权利要求限定本申请的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请一个实施例的一种对待测试语音识别系统的自动测试方法的流程图。

图2是根据本申请另一个实施例的一种对待测试语音识别系统的自动测试方法的流程图。

图3是图2实施例中步骤S105的一种具体实现的流程图。

图4是根据本申请一个实施例的一种对电子导航语音搜索命令识别系统的自动测试方法的流程图。

图5是根据本申请一个实施例的一种对电子商务平台上的物品语音搜索命令识别系统的自动测试方法的流程图。

图6是根据本申请一个实施例的对语音搜索引擎上的语音搜索命令识别系统的自动测试方法的流程图。

图7是根据本申请一个实施例的一种对待测试语音识别系统的自动测试装置的框图。

图8是根据本申请另一个实施例的一种对待测试语音识别系统的自动测试装置的框图。

图9是图8实施例中生成单元105的一种具体实现的框图。

图10是根据本申请一个实施例的一种对电子导航语音搜索命令识别系统的自动测试装置的流程图。

图11是根据本申请一个实施例的一种对电子商务平台上的物品语音搜索命令识别系统的自动测试装置的流程图。

图12是根据本申请一个实施例的对语音搜索引擎上的语音搜索命令识别系统的自动测试装置的流程图。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本申请，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本申请，也应包含在本申请保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是，当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。与此相对，当一个单元被称为“直接连接”或“直接耦合”到另一单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

由于在大多数的语音识别系统的应用场景中，需要语音识别系统识别的语音的形式、内容等均比较广泛，而不同音色、性别、年龄的人用不同的语速和语调讲出该内容时语音也有差别，因此在针对语音识别系统进行测试时，为准确测试出语音识别系统的识别准确率，需要搜集大量的测试集。若采用人工录制测试集的方案，很难满足测试时效性，且耗费大量的人力物力资源。针对此种情况，本申请实施例提供一种语音识别系统的自动测试方法，利用文语转换(Text to Speech,TTS)技术获取测试集，避免了人工录制测试集耗费人力物力以及耗时长的问题，满足了语音识别系统的快速测试需求。

所述的文语转换是一种将文字转换成语音的技术，也可以称为语音合成。

下面结合附图对本申请的技术方案作进一步详细描述。

图1是根据本申请一个实施例的对待测试语音识别系统的自动测试方法的流程图，该方法可用于对待测试语音识别系统进行快速、准确的测试，该方法主要包括如下步骤：

S110、对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

S120、将得到的不同的测试语音输入待测试语音识别系统，得到所述待测试语音识别系统对所述测试语音的识别结果；

S130、将所述识别结果与所述测试文本比对，得到所述待测试语音识别系统的测试结果。

为进一步理解本申请技术方案，下面对上述各步骤做进一步详细介绍。

S110、对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音。

测试文本是测试语音识别系统使用的文本。例如，对于一个歌曲点播系统所用的语音识别系统，由于用户可能在语音搜索时说出“我要听……”、“我想听……”、“给我来一首……”，因此可以把歌曲点播系统中的歌曲名前面加上“我要听……”、“我想听……”、“给我来一首……”等，形成若干测试文本。

文语转换即文字到该文字的语音的转换，它通常是根据设置的转换参数将文字转换成该文字的语音。转换参数包括以下至少一种类别：声库参数、语音特征参数、环境特征参数。

声库参数是发出语音的人的声音固有的参数，例如男人和女人发出的声音不同，不同年龄段的人发出的声音不同，不同音色发出的人的声音也不同。包括性别、年龄段、音色中的至少一种子类别。文字的读音形成的声音波形有一定变化规律。不同的性别的人去读该文字，会使该声音波形发生变化。不同年龄段的人去读该文字，也会使该声音波形发生变化。不同音色的人去读该文字，也会使该声音波形发生变化。这些变化是有规律的。文语转换利用了声音波形随性别、年龄段、音色等固定的固化规律，在文字的读音形成的波形上施加随性别、年龄段、音色等的变化，即对测试文本按照不同性别和/或不同年龄段和/或不同音色的人的说话声音进行文语转换，得到不同性别和/或不同年龄段和/或不同音色的测试语音。

语音特征参数不是人的声带条件具有的，而是人在特定情境之下说一句话所体现出的具体形态，如语速快慢、是激动地说还是平静地说等。它包括语速、语调中的至少一种子类别。文字的读音形成的声音波形有一定变化规律。但如果以快的语速读它，和以慢的语速读它相比，波形肯定是不一样的。以激动的语速读它，和以平静的语速读它相比，波形肯定是不一样的。这些变化是有规律的。文语转换利用了声音波形随语速、语调等固定的固化规律，在文字的读音形成的波形上施加随语速、语调等的变化，即对测试文本按照不同语速和/或不同语调进行文语转换，得到不同语速和/或不同语调的测试语音。

环境特征参数不是描述说话的人或说话本身的特性，它描述的是人说话时的环境因素对最后的听感造成的影响，如在噪声很大的环境中说还是在噪声很小的环境中说，离收音器的远近等。它包括噪声、混响、听感远近中的至少一种子类别。环境的因素也会在收音器收录的波形上具有一定影响，因为收音器收录的是人的说话的声音与环境噪声的叠加，房屋的回响、离收音器的远近也会对收录的波形有影响。这些影响是有规律的。文语转换利用了规律，对测试文本文语转换成的语音混以不同噪声和/或混以不同混响和/或进行不同听感远近处理，得到不同噪声和/或不同混响和/或不同听感远近的测试语音。

在一种实施方式中，可以对于每一子类别的转换参数，考虑其所有可能取值，再将不同子类别的转换参数的各种取值逐一相互组合。对测试文本进行每一得到的各子类别转换参数取值组合下的文语转换，得到各子类别转换参数取值组合下的测试语音。它的优点是快速自动地取得了各种子类型转换参数取值下进行文语转换得到的所有可能的测试语音，与现有技术仅找几个不同的人、用几种特定的语速/语调、在几种特定的噪声/混响等环境下说几句话收集的测试语音相比，大大提高了测试语音收集的全面性。由于整个过程自动进行，使得能够快速地全面覆盖到各种人在各种不同环境中以各种不同语音特征来说话的全部情况。

例如，假设性别子类别的可能取值有2种：男、女；年龄段子类别的可能取值有5种：0-3岁、3-7岁、7-18岁、18-50岁、50岁以上；音色子类别的可能取值有4种：明亮、中等、晦暗、沙哑；语速子类别的可能取值有3种：快、中、慢；语调子类别的可能取值有4种：激昂、平静、沮丧、责问；噪声子类别的可能取值有3种：高噪声、中噪声、低噪声；混响子类别的可能取值有3种：大混响、中混响、小混响；听感远近子类别的可能取值有3种：远、中、近。最后得到的各子类别转换参数取值组合有2×5×4×3×4×3×3×3＝12960种。对同一测试文本分别进行这12960种子类别转换参数取值组合下的文语转换，得到12960种测试语音。与现有技术仅找几个不同的人、用几种特定的语速/语调、在几种特定的噪声/混响等环境下来说该测试文本并录制相比，本实施例的方式大大提高了测试语音收集的全面性，提高了测试效果。

另外，在一个实施例中，步骤S110包括：依次变换所述转换参数，以依次得到测试语音。

例如，在上述对同一测试文本分别进行12960种文语转换的例子中，这12960种文语转换是依次进行的，得到的测试语音时逐个得到的。

S120、将得到的不同的测试语音输入待测试语音识别系统，得到所述待测试语音识别系统对所述测试语音的识别结果。

在步骤S110中依次变换所述转换参数以依次得到测试语音的情况下，步骤S120包括：将已经得到的测试语音输入待测试语音识别系统，而不用等待对所述转换参数的依次变换全部完成。它的优点是，大大提高了自动测试的效率、减少了测试时间。例如，在上述对同一测试文本分别进行12960种文语转换的例子中，如果等得到了12960种测试语音后再分别输入待测试语音识别系统，将会有非常大的测试延迟。本实施例的方式大大减少了等待时间。

测试结果即待测试语音识别系统的识别准确率。其中，语音识别系统的识别准确率一般分为字准确率和句子准确率两种。字准确率是指识别结果相对测试文本在字层面的正确比例。句子准确率是指识别结果相对测试文本在句子层面的正确比例。本申请实施例可判断语音识别系统的识别结果与对应的未经文语转换系统转换前的测试文本是否一致，从而确定该语音识别系统识别字准确率和识别句子准确率。其中，可分别针对语音识别系统的识别字准确率和识别句子准确率确定对应的阈值，在识别字准确率达到对应的字准确率阈值和/或识别句子准确率达到句子准确率阈值情况下，该语音识别系统可上线使用。

图1的实施例是针对已经得到测试文本的情况的。例如，一个天气预报询问应用，客户能够向它提的问题非常有限，用的句式也非常有限，在这种情况下就将客户可能发出的所有语音命令作成测试文本。在对于更复杂些的应用，例如电子导航中的语音识别，用户可能询问的地名有很多，用户的提问的句式也有很多。在这种情况下，如图2所示，本实施例的方法还包括：S105、根据用户发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本。

例如，对于一个歌曲点播系统所用的语音识别系统，由于用户可能在语音搜索时说出“我要听……”、“我想听……”、“给我来一首……”，用户发出语音搜索命令时使用的句式模板就包括“我要听……”、“我想听……”、“给我来一首……”。用户搜索时使用的关键词，即“我要听……”、“我想听……”、“给我来一首……”的后面接的词是歌名，将歌曲点播系统中的歌名与“我要听……”、“我想听……”、“给我来一首……”分别组合，生成各种测试文本。

在一个实施例中，步骤S105包括：S1051、生成用户发出语音搜索命令时使用的句式模板的集合；S1052、生成用户发出语音搜索命令时使用的关键词的集合；S1053、将所述句式模板的集合中的句式模板和所述关键词的集合中的关键词相互组合，生成测试文本。

S1051、生成用户发出语音搜索命令时使用的句式模板的集合。

以上述歌曲点播系统所用的语音识别系统为例，假设用户可能在语音搜索时只能说出或规定只能说“我要听……”、“我想听……”、“给我来一首……”，用户发出语音搜索命令时使用的句式模板的集合就是“我要听……”、“我想听……”、“给我来一首……”的集合。

S1052、生成用户发出语音搜索命令时使用的关键词的集合。

以上述歌曲点播系统所用的语音识别系统为例，用户发出语音搜索命令时使用的关键词的集合就是歌名点播系统中包含的所有歌名。

S1053、将所述句式模板的集合中的句式模板和所述关键词的集合中的关键词相互组合，生成测试文本。

具体地，步骤S1053包括：将所述句式模板的集合中的每一句式模板都与所述关键词的集合中的每一关键词逐一相互组合。

以上述歌曲点播系统所用的语音识别系统为例，假设歌曲点播系统中有1053首歌曲，即关键词的集合有1053个关键词，用户发出语音搜索命令时使用的句式模板的集合包括“我要听……”、“我想听……”、“给我来一首……”，则可能的组合方式有1053×3＝3159种。由于整个过程是自动的，因此它的好处是快速地生成了用户可能发出的所有语音命令的测试文本而无遗漏，而现有技术中是由人随机选取一些关键词，并加入一些句式中，它不是穷举的，如果现有技术要穷举的话，整个过程就会非常缓慢。本申请实施例快速自动地产生了用户可能用到的所有测试文本，提高了数据收集的全面性，从而提高了测试的准确率。

根据本申请一个应用到电子导航语音搜索命令识别系统的实施例，如图4所示，一种对电子导航语音搜索命令识别系统的自动测试方法包括：

S205、根据用户在电子地图中发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

S210、对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

S220、将得到的不同的测试语音输入电子导航语音搜索命令识别系统，得到所述电子导航语音搜索命令识别系统对所述测试语音的识别结果；

S230、将所述识别结果与所述测试文本比对，得到所述电子导航语音搜索命令识别系统的测试结果。

在步骤S205中，用户在电子地图中发出语音搜索命令时使用的句式模板例如包括“请给我找……”、“我想搜……”、“查一下……”等。所述关键词包括地理位置名称、建筑物名称、单位名称、搜索类别中的至少一个，因为用户在电子地图中不仅可能会查询某个地理位置，还可能查询一个建筑物名(例如鼎好大厦、远洋天地、奥林匹克森林公园等)，还可能查询一个单位(包括企业、事业、社会组织或团体等)名称，还能在不确定想要去什么地方的情况下查询搜索类别，例如查找“美食”、“ktv”、“密室逃脱”等。将这些可能的地理位置名称、建筑物名称、单位名称、搜索类别等分别加到上述句式模板中，得到所有测试文本。

步骤S210-S230比较类似于图1中的步骤S110-S130，是待测试语音识别系统是电子导航语音搜索命令识别系统情况下的一种应用。

根据本申请应用到电子商务平台上的物品语音搜索命令识别系统的一个实施例，如图5所示，一种对电子商务平台上的物品语音搜索命令识别系统的自动测试方法包括：

S305、根据用户在电子商务平台上发出对物品的语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

S310、对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

S320、将得到的不同的测试语音输入所述物品语音搜索命令识别系统，得到所述物品语音搜索命令识别系统对所述测试语音的识别结果；

S330、将所述识别结果与所述测试文本比对，得到所述物品语音搜索命令识别系统的测试结果。

在步骤S305中，用户在电子商务平台上发出对物品的语音搜索命令时使用的句式模板例如包括“我想买……”、“我想搜……”、“我想查……”等。所述关键词包括物品名称、物品型号、物品分类、物品品牌中的至少一个。用户在电子商品平台上可能说出想买或想看什么物品；更细一点，有可能直接说出什么型号的该物品或者什么品牌的该物品；当然，也有可能用户只想在某个品牌的物品中搜索，这时会仅说出想要买或看的品牌名；还有时候用户连想买或看什么物品都不知道，只知道物品所属的分类。因此，物品名称、物品型号、物品分类、物品品牌等，都有可能成为关键词。将这些可能的物品名称、物品型号、物品分类、物品品牌等分别加到上述句式模板中，得到所有测试文本。

步骤S310-S330比较类似于图1中的步骤S110-S130，是待测试语音识别系统是电子商务平台上的物品语音搜索命令识别系统情况下的一种应用。

根据本申请应用于语音搜索引擎上的语音搜索命令识别系统的一个实施例，如图6所示，一种对语音搜索引擎上的语音搜索命令识别系统的自动测试方法包括：

S405、根据用户在语音搜索引擎上发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

S410、对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

S420、将得到的不同的测试语音输入所述语音搜索命令识别系统，得到所述语音搜索命令识别系统对所述测试语音的识别结果；

S430、将所述识别结果与所述测试文本比对，得到所述语音搜索命令识别系统的测试结果。

在步骤S405中，用户在语音搜索引擎上发出语音搜索命令时使用的句式模板例如包括“我想搜……”、“我想查……”等。所述关键词是可能成为语音搜索引擎上可能的搜索关键词。也可能统计搜索引擎上搜索次数较多，例如超过一定阈值的关键词，作为步骤S405中的关键词。将这些关键词分别加到上述句式模板中，得到所有测试文本。

步骤S410-S430比较类似于图1中的步骤S110-S130，是待测试语音识别系统是语音搜索引擎上的语音搜索命令识别系统情况下的一种应用。

图7示出了根据本申请一个实施例的对待测试语音识别系统的自动测试装置100，包括：

文语转换单元110，用于对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

输入单元120，用于将得到的不同的测试语音输入待测试语音识别系统，得到所述待测试语音识别系统对所述测试语音的识别结果；

比对单元130，用于将所述识别结果与所述测试文本比对，得到所述待测试语音识别系统的测试结果。

可选地，所述转换参数包括以下至少一种类别：声库参数、语音特征参数、环境特征参数。

可选地，所述声库参数包括性别、年龄段、音色中的至少一种子类别。所述文语转换单元用于:对测试文本按照不同性别和/或不同年龄段和/或不同音色的人的说话声音进行文语转换，得到不同性别和/或不同年龄段和/或不同音色的测试语音。

可选地，所述语音特征参数包括语速、语调中的至少一种子类别。所述文语转换单元用于：对测试文本按照不同语速和/或不同语调进行文语转换，得到不同语速和/或不同语调的测试语音。

可选地，所述环境特征参数包括噪声、混响、听感远近中的至少一种子类别。所述文语转换单元用于：对测试文本文语转换成的语音混以不同噪声和/或混以不同混响和/或进行不同听感远近处理，得到不同噪声和/或不同混响和/或不同听感远近的测试语音。

可选地，所述文语转换单元用于：依次变换所述转换参数，以依次得到测试语音。所述输入单元用于：将已经得到的测试语音输入待测试语音识别系统，而不用等待对所述转换参数的依次变换全部完成。

可选地,如图8所示，所述装置包括：生成单元105，用于根据用户发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本。

可选地，如图9所示，所述生成单元105包括：

第一生成子单元1051，用于生成用户发出语音搜索命令时使用的句式模板的集合；

第二生成子单元1052，用于生成用户发出语音搜索命令时使用的关键词的集合；

组合单元1053，用于将所述句式模板的集合中的句式模板和所述关键词的集合中的关键词相互组合，生成测试文本。

可选地，所述组合单元用于：将所述句式模板的集合中的每一句式模板都与所述关键词的集合中的每一关键词逐一相互组合。

图10示出了根据本申请一个实施例的对电子导航语音搜索命令识别系统的自动测试装置200，包括：

电子导航语音搜索测试文本生成单元205，用于根据用户在电子地图中发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

电子导航语音搜索文语转换单元210，用于对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

电子导航语音搜索测试语音输入单元220，用于将得到的不同的测试语音输入电子导航语音搜索命令识别系统，得到所述电子导航语音搜索命令识别系统对所述测试语音的识别结果；

电子导航语音搜索识别结果比对单元230，用于将所述识别结果与所述测试文本比对，得到所述电子导航语音搜索命令识别系统的测试结果。

可选地，所述关键词包括地理位置名称、建筑物名称、单位名称、搜索类别中的至少一个。

图11示出了根据本申请一个实施例的一种对电子商务平台上的物品语音搜索命令识别系统的自动测试装置300，包括：

物品语音搜索测试文本生成单元305，用于根据用户在电子商务平台上发出对物品的语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

物品语音搜索测试语音输入单元310，用于对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

物品语音搜索测试语音输入单元320，用于将得到的不同的测试语音输入所述物品语音搜索命令识别系统，得到所述物品语音搜索命令识别系统对所述测试语音的识别结果；

物品语音搜索识别结果比对单元330，用于将所述识别结果与所述测试文本比对，得到所述物品语音搜索命令识别系统的测试结果。

可选地，所述关键词包括物品名称、物品型号、物品分类、物品品牌中的至少一个。

图12示出了根据本申请一个实施例的一种对语音搜索引擎上的语音搜索命令识别系统的自动测试装置400，包括：

语音搜索引擎测试文本生成单元405，用于根据用户在语音搜索引擎上发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本；

语音搜索引擎文语转换单元410，用于对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音；

语音搜索引擎测试语音输入单元420，用于将得到的不同的测试语音输入所述语音搜索命令识别系统，得到所述语音搜索命令识别系统对所述测试语音的识别结果；

语音搜索引擎识别结果比对单元430，用于将所述识别结果与所述测试文本比对，得到所述语音搜索命令识别系统的测试结果。

综上所述，本申请实施例的语音识别系统的自动测试方法及装置利用文语转换方式将测试文本转换为测试语音，再将测试语音输入待测试语音识别系统中，从而测试该待测试语音识别系统的识别准确率。该方案无需人工录制语音，不但降低了人员成本，而且大大提高了语音识别系统测试的效率，满足了语音识别系统自动、快速的测试需求。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种对待测试语音识别系统的自动测试方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述转换参数包括以下至少一种类别：

声库参数、语音特征参数、环境特征参数。

3.如权利要求2所述的方法，其特征在于，所述声库参数包括性别、年龄段、音色中的至少一种子类别，且

所述对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音的步骤包括:对测试文本按照不同性别和/或不同年龄段和/或不同音色的人的说话声音进行文语转换，得到不同性别和/或不同年龄段和/或不同音色的测试语音。

4.如权利要求2所述的方法，其特征在于，所述语音特征参数包括语速、语调中的至少一种子类别，且

所述对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音的步骤包括：对测试文本按照不同语速和/或不同语调进行文语转换，得到不同语速和/或不同语调的测试语音。

5.如权利要求2所述的方法，其特征在于，所述环境特征参数包括噪声、混响、听感远近中的至少一种子类别，且

所述对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音的步骤包括：对测试文本文语转换成的语音混以不同噪声和/或混以不同混响和/或进行不同听感远近处理，得到不同噪声和/或不同混响和/或不同听感远近的测试语音。

6.如权利要求1所述的方法，其特征在于，所述对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音的步骤包括：依次变换所述转换参数，以依次得到测试语音；

所述将得到的不同的测试语音输入待测试语音识别系统，得到所述待测试语音识别系统对所述测试语音的识别结果的步骤包括：将已经得到的测试语音输入待测试语音识别系统，而不用等待对所述转换参数的依次变换全部完成。

7.如权利要求1-6任一个所述的方法，其特征在于，在所述对测试文本进行具有不同转换参数的文语转换，得到不同的测试语音的步骤之前，所述方法包括：

根据用户发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本。

8.如权利要求7所述的方法，其特征在于，所述生成测试文本的步骤包括：

生成用户发出语音搜索命令时使用的句式模板的集合；

生成用户发出语音搜索命令时使用的关键词的集合；

将所述句式模板的集合中的句式模板和所述关键词的集合中的关键词相互组合，生成测试文本。

9.如权利要求8所述的方法，其特征在于，所述将所述句式的集合中的句式模板和所述关键词的集合中的关键词相互组合的步骤包括：将所述句式模板的集合中的每一句式模板都与所述关键词的集合中的每一关键词逐一相互组合。

10.一种对电子导航语音搜索命令识别系统的自动测试方法，其特征在于，包括：

11.如权利要求10所述的方法，其特征在于，所述关键词包括地理位置名称、建筑物名称、单位名称、搜索类别中的至少一个。

12.一种对电子商务平台上的物品语音搜索命令识别系统的自动测试方法，其特征在于，包括：

13.如权利要求12所述的方法，其特征在于，所述关键词包括物品名称、物品型号、物品分类、物品品牌中的至少一个。

14.一种对语音搜索引擎上的语音搜索命令识别系统的自动测试方法，其特征在于，包括：

15.一种对待测试语音识别系统的自动测试装置，其特征在于，包括：

16.如权利要求15所述的装置，其特征在于，所述转换参数包括以下至少一种类别：

声库参数、语音特征参数、环境特征参数。

17.如权利要求16所述的装置，其特征在于，所述声库参数包括性别、年龄段、音色中的至少一种子类别，且

所述文语转换单元用于:对测试文本按照不同性别和/或不同年龄段和/或不同音色的人的说话声音进行文语转换，得到不同性别和/或不同年龄段和/或不同音色的测试语音。

18.如权利要求16所述的装置，其特征在于，所述语音特征参数包括语速、语调中的至少一种子类别，且

所述文语转换单元用于：对测试文本按照不同语速和/或不同语调进行文语转换，得到不同语速和/或不同语调的测试语音。

19.如权利要求16所述的装置，其特征在于，所述环境特征参数包括噪声、混响、听感远近中的至少一种子类别，且

所述文语转换单元用于：对测试文本文语转换成的语音混以不同噪声和/或混以不同混响和/或进行不同听感远近处理，得到不同噪声和/或不同混响和/或不同听感远近的测试语音。

20.如权利要求15所述的装置，其特征在于，所述文语转换单元用于：依次变换所述转换参数，以依次得到测试语音；

所述输入单元用于：将已经得到的测试语音输入待测试语音识别系统，而不用等待对所述转换参数的依次变换全部完成。

21.如权利要求15-20任一个所述的装置，其特征在于,所述装置包括：

生成单元，用于根据用户发出语音搜索命令时使用的句式模板、以及用户发出语音搜索命令时使用的关键词的组合，生成测试文本。

22.如权利要求21所述的装置，其特征在于，所述生成单元包括：

第一生成子单元，用于生成用户发出语音搜索命令时使用的句式模板的集合；

第二生成子单元，用于生成用户发出语音搜索命令时使用的关键词的集合；

组合单元，用于将所述句式模板的集合中的句式模板和所述关键词的集合中的关键词相互组合，生成测试文本。

23.如权利要求22所述的装置，其特征在于，所述组合单元用于：将所述句式模板的集合中的每一句式模板都与所述关键词的集合中的每一关键词逐一相互组合。

24.一种对电子导航语音搜索命令识别系统的自动测试装置，其特征在于，包括：

25.如权利要求24所述的装置，其特征在于，所述关键词包括地理位置名称、建筑物名称、单位名称、搜索类别中的至少一个。

26.一种对电子商务平台上的物品语音搜索命令识别系统的自动测试装置，其特征在于，包括：

27.如权利要求26所述的装置，其特征在于，所述关键词包括物品名称、物品型号、物品分类、物品品牌中的至少一个。

28.一种对语音搜索引擎上的语音搜索命令识别系统的自动测试装置，其特征在于，包括：