CN106548772A

CN106548772A - 语音识别测试系统及方法

Info

Publication number: CN106548772A
Application number: CN201710032433.9A
Authority: CN
Inventors: 陈晓禾; 邬凯
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2017-03-29

Abstract

本发明提供了一种语音识别测试系统，包括：音频生成模块，用于基于测试参数由测试文本生成音频文件；语音输出模块，用于播放该音频文件以向待测试的语音识别器提供语音输入；以及信息处理模块，用于处理来自该语音识别器的语音识别结果以获得关于该语音识别器的测试报表，该测试报表包括该语音识别器在与该测试参数相关联的不同条件下的识别性能参数。

Description

语音识别测试系统及方法

技术领域

本发明涉及语音识别技术，尤其涉及一种语义识别测试系统及方法。

背景技术

随着语音识别技术的不断发展，语音识别服务也逐渐走进人们的日常生活。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

在一款语音识别系统正式投入应用之前，测试人员通常需要对该语音识别系统的各项指标进行测试。

目前针对语音识别系统的测试有两类:客观测试和主观测试。客观测试即用事先准备好的音频测试集，使用系统批量测试工具进行识别，再统计出识别率，这种方式并不能很好确认录音系统的好坏，另外也不利于同类不同厂商产品的移植测试。主观测试，又分模拟测试和现场口呼两种方式。模拟测试需要一个人操作放音设备，一个人操作收音设备，一个进行结果记录，这极大浪费了人力，并容易操作引入错误。现场口呼即组织几个发音人，手拿测试语料，头带录音设备，对识别系统进行效果测试，这种方式不利于测试的复现，在测试过程中，测试人在语料的多次朗读中也会不可避免的出现朗读错误，导致测试的重复进行。另外，发音人现场口呼的测试也极大的受说话人情绪波动和发音清晰度的影响。

以上两种测试方式都耗费太多人力，测试周期长，结果不够准确和稳定。所以研发一种自动测试系统十分必要，以解决现有技术中需要测试人员多次人工输入语音样本，操作步骤繁琐、测试周期长且人工成本高的问题，以及测试结果受多种外部因素影响而准确度不高的缺陷。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明涉及了一种语义识别测试系统及方法，以解决语音识别系统的测试周期长的问题。

根据本发明的一方面，提供了一种语音识别测试系统，包括：

音频生成模块，用于基于测试参数由测试文本生成音频文件；

语音输出模块，用于播放该音频文件以向待测试的语音识别器提供语音输入；以及

信息处理模块，用于处理来自该语音识别器的语音识别结果以获得关于该语音识别器的测试报表，该测试报表包括该语音识别器在与该测试参数相关联的不同条件下的识别性能参数。

在一实例中，该系统还包括参数配置模块，用于供用户输入该测试参数和该测试文本。

在一实例中，该测试参数包括音源参数，其中该音频生成模块包括：TTS单元，用于基于该音源参数通过文本到语言转换过程将该测试文本转换成测试音频，以获得该音频文件。

在一实例中，该音源参数包括以下至少一项：音色、音调、音强和语速，该测试报表包括该语音识别器在不同音源参数下的识别性能参数。

在一实例中，该测试参数还包括噪声参数，该音频生成模块还包括：噪声单元，用于基于该噪声参数对该测试音频进行噪声化处理以获得有噪的该音频文件，其中，该测试报表包括该语音识别器在不同噪声条件下的识别性能参数。

在一实例中，该噪声单元基于该噪声参数在该测试音频中掺杂噪声信号以调节该音频文件的信噪比，该测试报表包括该语音识别器在不同信噪比下的识别性能参数，该噪声参数包括噪声信号类型。

在一实例中，该噪声信号类型包括以下至少一者：白噪声、粉红色噪声、稳态噪声、非稳态噪声、脉冲噪声、低频噪声、中频噪声、高频率噪声。

在一实例中，该噪声单元基于该噪声参数将该测试音频与预设的环境噪声相合成以获得该音频文件，该噪声参数包括环境噪声类型和噪声分贝，该测试报表包括该语音识别器在不同噪声背景下的识别性能参数。

在一实例中，该环境噪声类型包括以下之一：机场噪声、办公环境噪声、候车室噪声。

在一实例中，该信息处理模块控制该语音输出模块以逐句播放该音频文件，存储并记录每条语音的识别响应时间，其中该测试报表所包括的性能参数包括识别响应时间相关信息。

在一实例中，该信息处理模块响应于收到来自该语音识别器的语音识别结果或者响应于语音识别超时控制该语音输出模块输出下一条语音，该测试参数包括超时时间。

在一实例中，该信息处理模块将该语音识别结果与该测试文本执行相似度计算以获得每一条语音识别的匹配率，其中该测试报表所包括的性能参数包括语音识别匹配率相关信息。

在一实例中，该信息处理模块控制该语音输出模块以逐句播放该音频文件，存储并记录每条语音的字数，其中该测试报表所包括的性能参数包括不同字数范围条件下的语音识别匹配率相关信息。

根据本发明的另一方面，提供了一种语音识别测试方法，包括：

基于测试参数由测试文本生成音频文件；

播放该音频文件以向待测试的语音识别器提供语音输入；以及

处理来自该语音识别器的语音识别结果以获得关于该语音识别器的测试报表，该测试报表包括该语音识别器在与该测试参数相关联的不同条件下的识别性能参数。

在一实例中，该方法还包括：接收用户输入的该测试参数和该测试文本。

在一实例中，该测试参数包括音源参数，其中该基于测试参数由测试文本生成音频文件包括：基于该音源参数通过文本到语言转换过程将该测试文本转换成测试音频，以获得该音频文件。

在一实例中，该测试参数还包括噪声参数，该基于测试参数由测试文本生成音频文件还包括：基于该噪声参数对该测试音频进行噪声化处理以获得有噪的该音频文件，其中，该测试报表包括该语音识别器在不同噪声条件下的识别性能参数。

在一实例中，该噪声化处理包括：基于该噪声参数在该测试音频中掺杂噪声信号以调节该音频文件的信噪比，该测试报表包括该语音识别器在不同信噪比下的识别性能参数，该噪声参数包括噪声信号类型。

在一实例中，该噪声化处理包括：基于该噪声参数将该测试音频与预设的环境噪声相合成以获得该音频文件，该噪声参数包括环境噪声类型和噪声分贝，该测试报表包括该语音识别器在不同噪声背景下的识别性能参数。

在一实例中，该方法还包括：控制该音频文件的播放以逐句播放该音频文件，存储并记录每条语音的识别响应时间，其中该测试报表所包括的性能参数包括识别响应时间相关信息。

在一实例中，该控制该音频文件的播放包括：响应于收到来自该语音识别器的语音识别结果或者响应于语音识别超时控制该语音输出模块输出下一条语音，该测试参数包括超时时间。

在一实例中，该处理来自该语音识别器的语音识别结果包括：将该语音识别结果与该测试文本执行相似度计算以获得每一条语音识别的匹配率，其中该测试报表所包括的性能参数包括语音识别匹配率相关信息。

在一实例中，该方法还包括：控制该音频文件的播放以逐句播放该音频文件，存储并记录每条语音的字数，其中该测试报表所包括的性能参数包括不同字数范围条件下的语音识别匹配率相关信息。

与现有技术相比，具有以下有益效果：

本发明的方案可实现大规模测试，测试过程中无需人工操作，避免了人工误差，提升了测试效率和准确度。测试结束后，自动生成测试报表，内容丰富、直观，包含了在不同条件下的语音识别性能参数，例如每条语句的发送时间、接收时间、服务器响应时间、单句匹配率、超时率、匹配率分布等内容，用图表显示统计数据，测试者可直观获得语音识别效果。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是示出了根据本发明的一方面的语音识别测试系统的框图；

图2是示出了根据本发明的一实施例的音频生成模块的框图；

图3是示出了根据本发明的另一实施例的音频生成模块的框图；以及

图4是示出了根据本发明的一方面的语音识别测试方法的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了根据本发明的一方面的语音识别测试系统100的框图。图1中还示出了语音识别测试的对象，即语音识别器200。语音识别器200可用于各个领域，例如工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别测试系统100的作用在于测试语音识别器200的语音识别性能。

语音识别器200可包括语音接收部分(例如，麦克风)和核心处理部分(例如，执行语音识别算法的芯片)，出于简洁并未示出这些部分。核心处理部分可以与语音接收部分同处一地，例如在语音识别器用于机器人时，语音接收部分和核心处理部分两者都安装于机器人身上。另一方面，核心处理部分可以与语音接收部分分别处在不同位置，例如语音接收部分位于机器人身上，而核心处理部分可以处于云端的服务器上。

语音识别测试系统100可包括参数配置模块110、音频生成模块120、语音输出模块130、信息处理模块140几个部分。

测试者通过参数配置模块110输入测试参数，以实现对测试方案的参数配置。测试参数可包括音源参数、噪声参数等等，这将在下文详细描述。

参数配置模块110还可供测试者输入测试文本。测试文本即为语音识别器200需要测试的语音的文字基础。

音频生成模块120可基于测试参数从测试文本生成音频文件。语音输出模块130可播放该音频文件以向语音识别器200提供语音输入。语音识别器200可将语音识别结果提供给信息处理模块140，信息处理模块140可基于该语音识别结果获得测试报表，测试报表可包括语音识别器在与测试参数相关联的不同条件下的识别性能参数。

在本发明中，通过配置不同的测试参数，可以获得语音识别器200多方面的语音识别性能。

在一实施例中，音频生成模块120可包括TTS(Text-to-Speech，文本转语言)单元121，如图2所示。

TTS技术通过神经网络的设计，把文字智能地转化为自然语音流。根据目前的TTS发展水平，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。目前TTS可实现120-150个汉字/分钟的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。

在此实施例中，测试参数可包括音源参数。音源参数可包括音色、音调、音强、以及语速。例如，音色可选择男声、女声、童声等；音调、音强和语速分为20个等级，这些参数传递给TTS单元121以基于这些音源参数通过文本到语言过程将测试文本转换成测试音频，以获得音频文件。例如，TTS单元121可以生成WAV格式的音频文件。

在此配置下，可以测试语音识别器200在不同的音源参数下的识别性能，例如在不同语速或者不同音强下的识别性能。

在另一实施例中，音频生成模块120除了TTS单元121外，还可包括噪声单元122，如图3所示.

在此实施例中，测试参数可包括噪声参数，从而噪声单元122可基于噪声参数对TTS单元121生成的测试音频进行噪声化处理以获得有噪的音频文件。简言之，噪声单元122可以在音频中引入噪声。

实际生活中，产品不可能始终在绝对安静的情况下使用。为了更准确的分析产品性能，通过音源与噪声相融合，可以具体分析产品在不同噪声下的识别性能。

在一实例中，噪声单元122可基于噪声参数在测试音频中掺杂噪声信号以调节最终得到的音频文件的信噪比。例如，噪声信号的类型可以是白噪声、粉红色噪声、稳态噪声、非稳态噪声、脉冲噪声、低频噪声、中频噪声、高频率噪声等等。

在另一实例中，噪声单元122可以基于噪声参数将TTS单元121生成的测试音频与预设的环境噪声相合成以获得最终的音频文件。例如，噪声参数可包括环境噪声类型和噪声分贝。环境噪声的类型可以为机场噪声、办公环境噪声、候车室噪声等等。

通过在测试音频中引入噪声，可以获得语音识别器200在不同的噪声调节下的识别性能，例如在不同信噪比的或者背景混有环境噪声的情况下识别性能。

在获得音频文件后，信息处理模块140可控制语音输出模块130播放音频文件，以向语音识别器200提供语音输入。

在一实例中，信息处理模块140可控制语音输出模块130逐句地播放音频文件。语音输出模块130每输出一条语音，语音识别器200对该语音进行识别，向信息处理模块140返回识别结果。信息处理模块140记录每一条语音的识别时间。在收到识别结果后，再控制语音输出模块130输出下一条语音，如此重复直至对音频文件的所有语句完成语音识别。

在特定实施例中，测试参数还可包括超时时间，例如3秒钟，即当语音输出模块130输出一条语音后，语音识别器200如果在该超时时间内未能返回识别结果，则认为语音识别超时，信息处理模块140控制语音输出模块130输出下一条语音。

语音识别器200返回至信息处理模块140的识别结果为文字形式，信息处理模块140可将识别出的文字与测试文本执行相似度计算以获得每一条语音识别的匹配率。

在一实例中，信息处理模块140可以记录每条语音的字数，由此可以获得对应于不同字数的语音识别性能。

信息处理模块140可基于语音识别结果获得关于语音识别器200的测试报表。通过测试参数的设置，测试报表可以包括语音识别器200在与测试参数相关联的不同条件下的识别性能参数。

通过音源参数的设置，测试报表可以包括语音识别器200在不同音源参数下的识别性能参数。通过噪声参数的设置，测试报表可以包括语音识别器200在不同噪声条件下的识别性能参数。

通过统计每条语句发送后的响应时间，计算平均响应时间，单条语句最长时间和最短时间。测试报表可以包括识别响应时间相关信息。通过统计不同字数的语音的识别匹配率，测试报表可包括不同字数范围条件下的语音识别匹配率相关信息。

统计报表可以是可视化图表的形式，例如扇形图、柱形图等等，

图4是示出了根据本发明的一方面的语音识别测试方法400的流程图。

如图4所示，语音识别测试方法400可包括以下步骤：

步骤401：基于测试参数由测试文本生成音频文件。

测试参数和测试文本可由用户输入，通过接收测试参数和测试文本完成对测试的参数配置。

在一实例中，测试参数可包括音源参数。例如，音源参数可包括音色、音调、音强和语速。例如，音色可选择男声、女声、童声等；音调、音强和语速分为20个等级。

在此实例中，可基于音源参数通过文本到语言转换过程将该测试文本转换成测试音频，以获得作为播放的音频文件。

在另一实例中，测试参数还可包括噪声参数。

在此实例中，可基于噪声参数对测试音频进行噪声化处理以获得有噪的音频文件。

例如，可基于噪声参数在测试音频中掺杂噪声信号以调节所述音频文件的信噪比。此时，噪声参数可包括噪声信号类型，例如白噪声、粉红色噪声、稳态噪声、非稳态噪声、脉冲噪声、低频噪声、中频噪声、高频率噪声等等。

再例如，可基于噪声参数将测试音频与预设的环境噪声相合成以获得音频文件。此时，噪声参数可包括环境噪声类型和噪声分贝。环境噪声类型可以为例如机场噪声、办公环境噪声、候车室噪声等。

步骤402：播放该音频文件以向待测试的语音识别器提供语音输入。

该播放可以是由语音输出模块在信息处理模块的控制下进行的。

具体地，可控制音频文件的播放以逐句播放音频文件。在一实施例中，可以只有在收到来自语音识别器的语音识别结果的情况下才输出下一条语音，或者在测试参数包括超时时间的情况下，可以在语音识别超时的时候输出下一条语音。

步骤403：处理来自语音识别器的语音识别结果以获得关于语音识别器的测试报表，该测试报表包括语音识别器在与测试参数相关联的不同条件下的识别性能参数。

在一实例中，可将来自语音识别器的语音识别结果与相应的测试文本进行相似度计算，以获得每一条语音识别的匹配率。在此情形下，测试报表所包括的性能参数包括语音识别匹配率相关信息。

在一实例中，在逐条播放语音时，存储并记录每条语音的识别响应时间。在此情形下，测试报表所包括的性能参数可包括识别响应时间相关信息，例如，平均响应时间，单条语句最长时间和最短时间等等。

在一实例中，在逐条播放语音时，存储并记录每条语音的字数。在此情形下，测试报表所包括的性能参数包括不同字数范围条件下的语音识别匹配率相关信息。

例如，比如测试1000句，两字句200条，五字句200条，七字句200条，分别统计它们的识别情况，并在测试报表中显示出统计数据。实现方法为在测试过程中自动计算语句长度，存入不同的列表中，测量结束后，统计不同长度的词条的识别情况，如两字词的整体识别率、服务器反应时间、超时率等。

通过配置音源参数，可对不同音色、音调、音强和语速的音源进行测试。测试报表可包括语音识别器在不同音源参数下的识别性能参数。

通过配置噪声参数，可对不同的噪声调节进行测试。测试报表可包括语音识别器在不同噪声条件下的识别性能参数。

在其他实施例中，可使音源和识别器处于不同的距离，分析识别器的性能。利用本发明可测得识别器能够保证较高识别率情况下，用户与识别器的最远距离。将多个识别器分别放置于1m、2m、3m、5m、10m等任意距离，在配置文件中选择同一音源信息(音调、音色、音强)，测试结束后，测试者直接查看多份测试报表，分析在识别器能够工作的前提下与用户的最远距离。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将可理解，信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如，以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种语音识别测试系统，包括：

语音输出模块，用于播放所述音频文件以向待测试的语音识别器提供语音输入；以及

信息处理模块，用于处理来自所述语音识别器的语音识别结果以获得关于所述语音识别器的测试报表，所述测试报表包括所述语音识别器在与所述测试参数相关联的不同条件下的识别性能参数。

2.如权利要求1所述的语音识别测试系统，其特征在于，还包括：

参数配置模块，用于供用户输入所述测试参数和所述测试文本。

3.如权利要求1所述的语音识别测试系统，其特征在于，所述测试参数包括音源参数，其中所述音频生成模块包括：

TTS单元，用于基于所述音源参数通过文本到语言转换过程将所述测试文本转换成测试音频，以获得所述音频文件。

4.如权利要求3所述的语音识别测试系统，其特征在于，所述音源参数包括以下至少一项：音色、音调、音强和语速，所述测试报表包括所述语音识别器在不同音源参数下的识别性能参数。

5.如权利要求3所述的语音识别测试系统，其特征在于，所述测试参数还包括噪声参数，所述音频生成模块还包括：

噪声单元，用于基于所述噪声参数对所述测试音频进行噪声化处理以获得有噪的所述音频文件，

其中，所述测试报表包括所述语音识别器在不同噪声条件下的识别性能参数。

6.如权利要求5所述的语音识别测试系统，其特征在于，所述噪声单元基于所述噪声参数在所述测试音频中掺杂噪声信号以调节所述音频文件的信噪比，所述测试报表包括所述语音识别器在不同信噪比下的识别性能参数，所述噪声参数包括噪声信号类型。

7.如权利要求6所述的语音识别测试系统，其特征在于，所述噪声信号类型包括以下至少一者：白噪声、粉红色噪声、稳态噪声、非稳态噪声、脉冲噪声、低频噪声、中频噪声、高频率噪声。

8.如权利要求5所述的语音识别测试系统，其特征在于，所述噪声单元基于所述噪声参数将所述测试音频与预设的环境噪声相合成以获得所述音频文件，所述噪声参数包括环境噪声类型和噪声分贝，所述测试报表包括所述语音识别器在不同噪声背景下的识别性能参数。

9.如权利要求8所述的语音识别测试系统，其特征在于，所述环境噪声类型包括以下之一：机场噪声、办公环境噪声、候车室噪声。

10.如权利要求1所述的语音识别测试系统，其特征在于，所述信息处理模块控制所述语音输出模块以逐句播放所述音频文件，存储并记录每条语音的识别响应时间，其中所述测试报表所包括的性能参数包括识别响应时间相关信息。

11.如权利要求10所述的语音识别测试系统，其特征在于，所述信息处理模块响应于收到来自所述语音识别器的语音识别结果或者响应于语音识别超时控制所述语音输出模块输出下一条语音，所述测试参数包括超时时间。

12.如权利要求1所述的语音识别测试系统，其特征在于，所述信息处理模块将所述语音识别结果与所述测试文本执行相似度计算以获得每一条语音识别的匹配率，其中所述测试报表所包括的性能参数包括语音识别匹配率相关信息。

13.如权利要求12所述的语音识别测试系统，其特征在于，所述信息处理模块控制所述语音输出模块以逐句播放所述音频文件，存储并记录每条语音的字数，其中所述测试报表所包括的性能参数包括不同字数范围条件下的语音识别匹配率相关信息。

14.一种语音识别测试方法，包括：

基于测试参数由测试文本生成音频文件；

播放所述音频文件以向待测试的语音识别器提供语音输入；以及

处理来自所述语音识别器的语音识别结果以获得关于所述语音识别器的测试报表，所述测试报表包括所述语音识别器在与所述测试参数相关联的不同条件下的识别性能参数。

15.如权利要求14所述的语音识别测试方法，其特征在于，还包括：

接收用户输入的所述测试参数和所述测试文本。

16.如权利要求14所述的语音识别测试方法，其特征在于，所述测试参数包括音源参数，其中所述基于测试参数由测试文本生成音频文件包括：

基于所述音源参数通过文本到语言转换过程将所述测试文本转换成测试音频，以获得所述音频文件。

17.如权利要求16所述的语音识别测试方法，其特征在于，所述音源参数包括以下至少一项：音色、音调、音强和语速，所述测试报表包括所述语音识别器在不同音源参数下的识别性能参数。

18.如权利要求16所述的语音识别测试方法，其特征在于，所述测试参数还包括噪声参数，所述基于测试参数由测试文本生成音频文件还包括：

基于所述噪声参数对所述测试音频进行噪声化处理以获得有噪的所述音频文件，

19.如权利要求18所述的语音识别测试方法，其特征在于，所述噪声化处理包括：

基于所述噪声参数在所述测试音频中掺杂噪声信号以调节所述音频文件的信噪比，所述测试报表包括所述语音识别器在不同信噪比下的识别性能参数，所述噪声参数包括噪声信号类型。

20.如权利要求19所述的语音识别测试方法，其特征在于，所述噪声信号类型包括以下至少一者：白噪声、粉红色噪声、稳态噪声、非稳态噪声、脉冲噪声、低频噪声、中频噪声、高频率噪声。

21.如权利要求18所述的语音识别测试方法，其特征在于，所述噪声化处理包括：

基于所述噪声参数将所述测试音频与预设的环境噪声相合成以获得所述音频文件，所述噪声参数包括环境噪声类型和噪声分贝，所述测试报表包括所述语音识别器在不同噪声背景下的识别性能参数。

22.如权利要求21所述的语音识别测试方法，其特征在于，所述环境噪声类型包括以下之一：机场噪声、办公环境噪声、候车室噪声。

23.如权利要求14所述的语音识别测试方法，其特征在于，还包括：

控制所述音频文件的播放以逐句播放所述音频文件，存储并记录每条语音的识别响应时间，其中所述测试报表所包括的性能参数包括识别响应时间相关信息。

24.如权利要求23所述的语音识别测试方法，其特征在于，所述控制所述音频文件的播放包括：

响应于收到来自所述语音识别器的语音识别结果或者响应于语音识别超时控制所述语音输出模块输出下一条语音，所述测试参数包括超时时间。

25.如权利要求14所述的语音识别测试方法，其特征在于，所述处理来自所述语音识别器的语音识别结果包括：

将所述语音识别结果与所述测试文本执行相似度计算以获得每一条语音识别的匹配率，其中所述测试报表所包括的性能参数包括语音识别匹配率相关信息。

26.如权利要求25所述的语音识别测试方法，其特征在于，还包括：

控制所述音频文件的播放以逐句播放所述音频文件，存储并记录每条语音的字数，其中所述测试报表所包括的性能参数包括不同字数范围条件下的语音识别匹配率相关信息。