CN108564966B

CN108564966B - 语音测试的方法及其设备、具有存储功能的装置

Info

Publication number: CN108564966B
Application number: CN201810109423.5A
Authority: CN
Inventors: 杨帆; 高斯金
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2021-02-09
Anticipated expiration: 2038-02-02
Also published as: CN108564966A

Abstract

本发明公开了一种语音测试的方法及其设备、具有存储功能的装置，该方法包括：检测设备将原始待测文本信息转为第一音频信号；将通过第一播放设备播放的第一音频信号与通过其他播放设备播放的至少一个第二音频信号的混合音频信号发送至被测设备，以通过被测设备将第一音频信号从混合音频信号分离出来后转换成文本信息；将转换后的文本信息与原始待测文本信息进行比对，根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能。本发明通过多个播放设备播放多个音频信号的混合信号对被测设备进行语音测试，替代高昂的高端声卡，在降低成本的前提下实现复合音频测试的效果。

Description

语音测试的方法及其设备、具有存储功能的装置

技术领域

本发明涉及语音测试领域，特别是涉及一种语音测试的方法及其设备、具有存储功能的装置。

背景技术

越来越多的设备开始使用语音技术，但目前行业内并没有一种很有效的语音测试方法，大多都是人工在手动执行测试，测试效率低，测试结果统计也会花费较多时间，造成整个测试体系效率低下，不能很好地响应研发的测试需求。而已有的自动化测试技术，使用了一些高端声卡来进行测试，高端声卡通过多个声道形成混合音效，便于测试被测设备在不同音效下的工作状态。但是由于高端声卡成本高昂，大大增加了测试设备的成本。

因此提供一种新的语音测试的方法显得尤为必要。

发明内容

本发明主要解决的技术问题是提供一种语音测试的方法及其设备、具有存储功能的装置，能够实现复合音频测试的效果且降低生产成本。

为解决上述技术问题，本发明采用的第一个技术方案是：提供一种语音测试的方法，包括：检测设备将原始待测文本信息转为第一音频信号；对所述第一音频信号的播放参数进行配置，其中，所述播放参数包括所述第一音频信号播放的速度、音色、音量以及播放方式中的至少一种；将通过第一播放设备播放的所述第一音频信号与通过其他播放设备播放的至少一个第二音频信号的混合音频信号发送至被测设备，以通过所述被测设备将所述第一音频信号从所述混合音频信号分离出来后转换成文本信息，其中，所述至少一个第二音频信号为模拟环境的音频信息；将转换后的文本信息与所述原始待测文本信息进行比对，根据所述转换后的文本信息与所述原始待测文本信息的相似度确定所述被测设备的性能。

为解决上述技术问题，本发明采用的第二个技术方案是：提供一种语音测试的方法，包括：被测设备接收第一播放设备播放的第一音频信号与通过其他播放设备播放的至少一个第二音频信号的混合音频信号，其中，所述至少一个第二音频信号为模拟环境的音频信息；其中，所述第一音频信号是通过检测设备将原始待测文本信息转换得到的，所述第一音频信号是检测设备将原始待测文本信息转换且对播放参数进行配置后得到的，其中，所述播放参数包括所述第一音频信号播放的速度、音色、音量以及播放方式中的至少一种；将所述第一音频信号从所述混合音频信号分离出来，并转换成文本信息；将所述转换后的文本信息发送至所述检测设备，以通过所述检测设备将转换后的文本信息与所述原始待测文本信息进行比对，根据所述转换后的文本信息与所述原始待测文本信息的相似度确定所述被测设备的性能。

为解决上述技术问题，本发明采用的第三个技术方案是：提供一种语音测试的检测设备，所述检测设备包括：通信电路、存储器及处理器；所述通信电路用于传输指令；所述存储器用于存储所述处理器执行的计算机程序以及在执行所述计算机程序时所产生的中间数据；所述处理器执行所述计算机程序时，实现上述的语音测试的方法。

为解决上述技术问题，本发明采用的第四个技术方案是：提供一种语音测试的被测设备，所述被测设备包括：通信电路、存储器及处理器；所述通信电路用于传输指令；所述存储器用于存储所述处理器执行的计算机程序以及在执行所述计算机程序时所产生的中间数据；所述处理器执行所述计算机程序时，实现上述的语音测试的方法。

为解决上述技术问题，本发明采用的第五个技术方案是：提供一种具有存储功能的装置，所述具有存储功能的装置存储有程序数据，所述程序数据能够被执行以实现上述语音测试的方法。

本发明的有益效果是：区别于现有技术，本发明通过多个播放设备播放多个音频信号的混合信号对被测设备进行语音测试，替代高昂的高端声卡，在降低成本的前提下实现复合音频测试的效果。

附图说明

图1是本发明测试系统一实施方式的结构示意图；

图2是本发明语音测试的方法一实施方式的流程示意图；

图3是本发明语音测试的方法另一实施方式的流程示意图；

图4是本发明检测设备一实施方式的结构示意图；

图5是本发明被测设备一实施方式的结构示意图；

图6是本发明具有存储功能的装置一实施方式的结构示意图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，均属于本发明保护的范围。

参阅图1，图1是本发明测试系统一实施方式的结构示意图。

如图1，本实施方式的测试系统包括测试设备10、被测设备11、第一播放设备12以及第二播放设备13。

第一播放设备12将原始待测文本信息转为第一音频信号，第一播放设备12播放第一音频信号，第二播放设备13播放第二音频信号，第一被测设备11接收第一音频信号和第二音频信号的混合音频信号。将第一音频信号从混合音频信号分离出来后转换成文本信息。测试设备10将转换后的文本信息与原始待测文本信息进行比对，根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能。需要说明的是，本实施方式中，播放设备的数量可以是2个，还可以是3个或3个以上，本发明对此不作限定。

为了清楚说明上述检测系统的工作方式，进一步请参阅图2和图3对应的实施方式。

请参阅图2，图2是本发明语音测试的方法一实施方式的流程示意图。

如图2所示，本实施方式的语音测试的方法包括如下步骤：

S201：检测设备将原始待测文本信息转为第一音频信号。

其中，检测设备包括智能手机、PC、ipad等，本发明对此不作限定。检测设备与播放设备连接，播放设备主要包括文字转语音TTS播放和音频文件播放2个功能，并能接收外部指令即可，例如只具备少量功能的安卓手机。多个播放设备用来模拟嘈杂的音频信息，可以替代高端声卡，在实现复合音频的测试效果同时降低生产成本。

在一个具体的实施方式中，第一播放设备获取原始待测文本信息，通过第一播放设备将原始待测文本信息转为第一音频信号。第一播放设备可以通过TTS功能将原始待测文本信息转为第一音频信号，也可以通过获取原始待测文本信息对应的录音文件来将原始待测文本信息转为第一音频信号，本发明对此不作限定。

S202：将通过第一播放设备播放的第一音频信号与通过其他播放设备播放的至少一个第二音频信号的混合音频信号发送至被测设备，以通过被测设备将第一音频信号从混合音频信号分离出来后转换成文本信息。

其中，被测设备包括包括智能手机、PC、ipad等，本发明对此不作限定。被测设备具有STT(语音转文本)功能，本发明检测设备即为检测被测设备的STT性能。STT性能包括安静环境下的性能和嘈杂环境中的性能，为了检测被测设备在各种嘈杂环境下的的STT性能，除了要向被测设备输入原始待测文本信息对应的音频信号外，还需要向被测设备输入混合有外部环境音频信息的音频信号，以便于测试被测设备在嘈杂环境下的STT性能。

在一个具体的实施方式中，通过第一播放设备将原始待测文本信息转为第一音频信号后，对第一音频信号的播放参数进行配置，其中，播放参数包括第一音频信号播放的速度、音色、音量以及播放方式中的至少一种。由于可以调整第一音频信号的播放参数，可以测试在原始待测文本信息对应第一音频信号播放参数变化时被测设备的STT性能，满足不同的测试需求。

在另一个具体的实施方式中，通过第一播放设备将原始待测文本信息转为第一音频信号后，通过第一播放设备播放第一音频信号。同时通过第二播放设备播放第二音频信号，第二音频信号包括含有语音的音频信号或者不含语音的音频信号，例如说话声、哭声、笑声以及音乐声等等，第一音频信号和第二音频信号混合形成混合音频信号。被测设备接收第一音频信号和第二音频信号混合形成的混合音频信号，将第一音频信号从混合音频信号中分离出来转换成文本信息。

在其他实施方式中，检测设备还可以包括第三播放设备、第四播放设备以及第五播放设备等，第三播放设备、第四播放设备以及第五播放设备分别播放第三音频信号、第四音频信号以及第五音频信号，多个音频信号即可模拟各种环境的音频信息，例如模拟火车站、机场以及商场等环境。由于多个播放设备可以模拟各种环境的音频信息，可以有效测试在不同音频信息下被测设备的STT性能。多个播放设备可以替代高端声卡，在测试完毕后多个播放设备还可以用作其他用途，提高了测试设备利用率的同时，大大降低了测试成本。

S203：将转换后的文本信息与原始待测文本信息进行比对，根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能。

在被测设备将第一音频信号从混合音频信号中分离出来转换成文本信息后，检测设备通过设定接口获取被测设备输出的转换后的文本信息，其中，设定接口包括被测设备的本地接口和云端接口。将转换后的文本信息与原始待测文本信息进行比对，根据比对结果对转换后的文本信息进行差异删除。将进行差异删除后的文本信息与原始待测文本信息进行比对，根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能在根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能之后，根据比对结果生成检测报告。由于检测设备可自动生成检测报告，替代了传统的人工测试方法，提高了效率。

在一个具体的实施方式中，按照以下规则消除对比差异：(1)去掉转换后的文本信息与原始待测文本信息中包含的标点符号；(2)去掉转换后的文本信息与原始待测文本信息中的所有空格；(3)对特殊符号进行转义，比如原始待测文本信息中的文本为％，转换后的文本信息为percent，则认为识别正确。通过删除差异信息可以提高文本对比的效率，可以更快的获得测试结果，提高测试效率。

在另一个具体的实施方式中，按照以下规则消除对比差异：(1)删除转换后的文本信息与原始待测文本信息中不同的标点符号、空格；(2)对特殊符号进行转义，比如原始待测文本信息中的文本为％，转换后的文本信息为percent，则认为识别正确。通过优化删除差异信息的步骤，可以提高消除对比差异步骤的时间，进而提高测试效率。

区别于现有技术，本发明通过多个播放设备播放多个音频信号的混合信号对被测设备进行语音测试，替代高昂的高端声卡，在降低成本的前提下实现复合音频测试的效果。

参阅图3，图3是本发明语音测试的方法另一实施方式的流程示意图。

如图3所示，本实施方式的语音测试的方法包括如下步骤：

S301：被测设备接收第一播放设备播放的第一音频信号与通过其他播放设备播放的至少一个第二音频信号的混合音频信号；其中，第一音频信号是通过检测设备将原始待测文本信息转换得到的。

其中，被测设备包括包括智能手机、PC、ipad等，被测设备具有STT(语音转文本)功能和收发信号的功能，本发明对此不作限定。

S302：将第一音频信号从混合音频信号分离出来，并转换成文本信息。

具体的，被测设备通过STT功能将从混合音频信号分离出来的第一音频信号转换为文本信息。

S303：将转换后的文本信息发送至检测设备，以通过检测设备将转换后的文本信息与原始待测文本信息进行比对，根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能。

具体的，被测设备包括本地接口和云端接口的至少一种，被测设备通过本地接口和云端接口的至少一种将转换后的文本信息发送至检测设备。

区别于现有技术，本发明通过多个播放设备播放多个音频信号的混合信号对进行被测设备进行语音测试，替代高昂的高端声卡，可以实现复合音频测试的效果且降低生产成本。

参阅图4，图4是本发明检测设备一实施方式的结构示意图。检测设备40包括：通信电路43、存储器41及处理器42；通信电路43用于传输指令；存储器41用于存储处理器42执行的计算机程序以及在执行计算机程序时所产生的中间数据；处理器42执行计算机程序时，实现下述任一的语音测试的方法。

其中，检测设备40包括智能手机、PC、ipad等，本发明对此不作限定。播放设备包括TTS(文字转语音)播放和音频文件播放2个功能，并能接收外部指令即可，例如只具备少量功能的安卓手机。被测设备包括包括智能手机、PC、ipad等，本发明对此不作限定。被测设备具有STT(语音转文本)功能，检测设备40即为检测被测设备的STT性能。STT性能包括安静环境下的性能和嘈杂环境中的性能，为了检测被测设备在各种嘈杂环境下的的STT性能，除了要向被测设备输入原始待测文本信息对应的音频信号外，还需要向被测设备输入混合有外部环境音频信息的音频信号，以便于测试被测设备在嘈杂环境下的STT性能。多个播放设备用来模拟嘈杂的音频信息，可以替代高端声卡，在实现复合音频的测试效果同时降低生产成本。

在一个具体的实施方式中，处理器42获取原始待测文本信息，通过处理器42将原始待测文本信息转为第一音频信号。处理器42可以通过TTS功能将原始待测文本信息转为第一音频信号，也可以通过获取原始待测文本信息对应的录音文件来将原始待测文本信息转为第一音频信号，本发明对此不作限定。

在一个具体的实施方式中，通过处理器42将原始待测文本信息转为第一音频信号后，对第一音频信号的播放参数进行配置，其中，播放参数包括第一音频信号播放的速度、音色、音量以及播放方式中的至少一种。由于可以调整第一音频信号的播放参数，可以测试在原始待测文本信息对应第一音频信号播放参数变化时被测设备的STT性能，满足不同的测试需求。

在一个具体的实施方式中，通过处理器42将原始待测文本信息转为第一音频信号后，处理器42通过第一播放设备播放第一音频信号。同时通过第二播放设备播放第二音频信号，第二音频信号包括含有语音的音频信号或者不含语音的音频信号，例如说话声、哭声、笑声以及音乐声等等，第一音频信号和第二音频信号混合形成混合音频信号。处理器42通过通信电路43将第一音频信号和第二音频信号混合形成的混合音频信号发送给被测设备，被测设备将第一音频信号从混合音频信号中分离出来转换成文本信息。在其他实施方式中，检测设备还可以包括第三播放设备、第四播放设备以及第五播放设备等，第三播放设备、第四播放设备以及第五播放设备分别播放第三音频信号、第四音频信号以及第五音频信号，多个音频信号即可模拟各种环境的音频信息，例如模拟火车站、机场以及商场等环境。由于多个播放设备可以模拟各种环境的音频信息，可以有效测试在不同音频信息下被测设备的STT性能。多个播放设备可以替代高端声卡，在测试完毕后多个播放设备还可以用作其他用途，提高了测试设备利用率的同时，大大降低了测试成本。

在被测设备将第一音频信号从混合音频信号中分离出来转换成文本信息后，处理器42通过通信电路43通过设定接口获取被测设备输出的转换后的文本信息，其中，设定接口包括被测设备的本地接口和云端接口。处理器42将转换后的文本信息与原始待测文本信息进行比对，根据比对结果对转换后的文本信息进行差异删除。处理器42将进行差异删除后的文本信息与原始待测文本信息进行比对，根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能。在根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能之后，处理器42根据比对结果生成检测报告。由于检测设备20可自动生成检测报告，替代了传统的人工测试方法，提高了效率。

在一个具体的实施方式中，按照以下规则消除对比差异：(1)去掉转换后的文本信息与原始待测文本信息中包含的标点符号；(2)去掉转换后的文本信息与原始待测文本信息中的所有空格；(3)对特殊符号进行转义，比如原始待测文本信息中的文本为％，转换后的文本信息为percent，则认为识别正确。通过删除差异信息可以提高文本对比的效率，减小对比误差，提高测试准确度。

参阅图5，图5是本发明被测设备一实施方式的结构示意图。

被测设备50包括：通信电路53、存储器51及处理器52；通信电路53用于传输指令；存储器51用于存储处理器52执行的计算机程序以及在执行计算机程序时所产生的中间数据；处理器52执行计算机程序时，实现下述任一的语音测试的方法。

处理器52通过通信电路53接收第一播放设备播放的第一音频信号与通过其他播放设备播放的至少一个第二音频信号的混合音频信号；其中，第一音频信号是通过检测设备将原始待测文本信息转换得到的。

其中，被测设备50包括包括智能手机、PC、ipad等，被测设备具有STT(语音转文本)功能和收发信号的功能，本发明对此不作限定。

处理器52将第一音频信号从混合音频信号分离出来，并转换成文本信息。

具体的，被测设备50通过STT功能将从混合音频信号分离出来的第一音频信号转换为文本信息。

处理器52将转换后的文本信息通过通信电路53发送至检测设备，以通过检测设备将转换后的文本信息与原始待测文本信息进行比对，根据转换后的文本信息与原始待测文本信息的相似度确定被测设备的性能。

具体的，被测设备50包括本地接口和云端接口的至少一种，被测设备50通过本地接口和云端接口的至少一种将转换后的文本信息发送至检测设备。

请参阅图6，图6是本发明具有存储功能的装置一实施方式的结构示意图。具有存储功能的装置60中存储有至少一个程序或指令51，程序或指令61用于实现上述任一机器人的控制方法。在一个实施方式中，具有存储功能的装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音测试的方法，其特征在于，包括：

检测设备将原始待测文本信息转为第一音频信号；

对所述第一音频信号的播放参数进行配置，其中，所述播放参数包括所述第一音频信号播放的速度、音色、音量以及播放方式中的至少一种；

将通过第一播放设备播放的所述第一音频信号与通过其他播放设备播放的至少一个第二音频信号的混合音频信号发送至被测设备，以通过所述被测设备将所述第一音频信号从所述混合音频信号分离出来后转换成文本信息，其中，所述至少一个第二音频信号为模拟环境的音频信息；

将转换后的文本信息与所述原始待测文本信息进行比对，通过设定接口获取所述被测设备输出的转换后的文本信息；将所述转换后的文本信息与所述原始待测文本信息进行比对，删除所述转换后的文本信息与所述原始待测文本信息中不同的标点符号、空格，并对特殊符号进行转义，根据比对结果对所述转换后的文本信息进行差异删除；将进行差异删除后的文本信息与所述所述原始待测文本信息进行比对，根据所述转换后的文本信息与所述原始待测文本信息的相似度确定所述被测设备的性能根据比对结果对所述转换后的文本信息进行差异删除；将进行差异删除后的文本信息与所述所述原始待测文本信息进行比对，根据所述转换后的文本信息与所述原始待测文本信息的相似度确定所述被测设备的性能。

2.根据权利要求1所述的语音测试的方法，其特征在于，所述测设备将原始待测文本信息转为第一音频信号的步骤具体包括：

获取所述原始待测文本信息；

通过所述第一播放设备将所述原始待测文本信息转为所述第一音频信号。

3.根据权利要求1所述的语音测试的方法，其特征在于，所述将转换后的文本信息与所述原始待测文本信息进行比对，根据所述转换后的文本信息与所述原始待测文本信息的相似度确定所述被测设备的性能的步骤之后还包括：

根据比对结果生成检测报告。

4.一种语音测试的方法，其特征在于，包括：

被测设备接收第一播放设备播放的第一音频信号与通过其他播放设备播放的至少一个第二音频信号的混合音频信号，其中，所述至少一个第二音频信号为模拟环境的音频信息；其中，所述第一音频信号是通过检测设备将原始待测文本信息转换得到的，所述第一音频信号是检测设备将原始待测文本信息转换且对播放参数进行配置后得到的，其中，所述播放参数包括所述第一音频信号播放的速度、音色、音量以及播放方式中的至少一种；

将所述第一音频信号从所述混合音频信号分离出来，并转换成文本信息；

将所述转换后的文本信息发送至所述检测设备，以通过所述检测设备将转换后的文本信息与所述原始待测文本信息进行比对，通过设定接口获取所述被测设备输出的转换后的文本信息；将所述转换后的文本信息与所述原始待测文本信息进行比对，删除所述转换后的文本信息与所述原始待测文本信息中不同的标点符号、空格，并对特殊符号进行转义，根据比对结果对所述转换后的文本信息进行差异删除；将进行差异删除后的文本信息与所述所述原始待测文本信息进行比对，根据所述转换后的文本信息与所述原始待测文本信息的相似度确定所述被测设备的性能根据比对结果对所述转换后的文本信息进行差异删除；将进行差异删除后的文本信息与所述所述原始待测文本信息进行比对，根据所述转换后的文本信息与所述原始待测文本信息的相似度确定所述被测设备的性能。

5.一种语音测试的检测设备，其特征在于，所述检测设备包括：通信电路、存储器及处理器；

所述通信电路用于传输指令；

所述存储器用于存储所述处理器执行的计算机程序以及在执行所述计算机程序时所产生的中间数据；

所述处理器执行所述计算机程序时，实现如权利要求1-3任一所述的语音测试的方法。

6.一种语音测试的被测设备，其特征在于，所述被测设备包括：通信电路、存储器及处理器；

所述通信电路用于传输指令；

所述处理器执行所述计算机程序时，实现如权利要求4所述的语音测试的方法。

7.一种具有存储功能的装置，其特征在于，所述具有存储功能的

装置存储有程序数据，所述程序数据能够被执行以实现如权利要求1-3任一所述的语音测试的方法或实现如权利要求4所述的语音测试的方法。