CN110415681A

CN110415681A - 一种语音识别效果测试方法及系统

Info

Publication number: CN110415681A
Application number: CN201910859341.7A
Authority: CN
Inventors: 陈孝良; 艾文; 冯大航; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2019-11-05
Anticipated expiration: 2039-09-11
Also published as: CN110415681B

Abstract

本发明提供了一种语音识别效果测试方法及系统，将目标测试语料通过被测设备的数据采集接口发送至所述被测设备，所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据；获取所述被测设备对所述目标测试语料的识别结果；依据所述目标测试语料的原始文本和所述识别结果，检测所述被测设备的语音识别效果。本发明实现了自动化测试被测设备的语音识别效果，提高了语音识别效果的测试效率。

Description

一种语音识别效果测试方法及系统

技术领域

本发明涉及软件测试技术领域，更具体的，涉及一种语音识别效果测试方法及系统。

背景技术

在语音识别技术领域，语音识别效果测试是一种重要的技术手段。目前对语音识别效果的测试有两类方式：客观测试和主观测试。

客观测试直接在系统上对音频测试集进行处理和识别，再统计出识别率，但是这种测试方法是独立于被测设备的，由于实际场景中不同设备的硬件和性能都不一样，不能很好的确认语音识别效果。

主观测试，又分为现场口呼和模拟测试两种方式，对设备进行现场测试。其中，现场口呼需要组织几个发音人，手拿测试语料，站在指定位置，对设备进行效果测试。模拟测试需要一个人操作放音设备，一个人操作收音设备，一个进行结果记录。

可见，现有的测试方式，人工参与较多，极大浪费了人力成本，测试效率低下。

发明内容

有鉴于此，本发明提供了一种语音识别效果测试方法及系统，减少人力物力的投入，提高了测试效率。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种语音识别效果测试方法，包括：

将目标测试语料通过被测设备的数据采集接口发送至所述被测设备，所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据；

获取所述被测设备对所述目标测试语料的识别结果；

依据所述目标测试语料的原始文本和所述识别结果，检测所述被测设备的语音识别效果。

可选的，所述方法还包括：

生成原始语音数据和噪声；

向预设的与所述被测设备相同配置的设备播放所述原始语音数据和所述噪声；

获取预设的与所述被测设备相同配置的设备采集到的语音数据，作为所述目标测试语料；

将所述目标测试语料以及所述目标测试语料与目标配置参数的对应关系进行存储，其中，所述目标配置参数为所述被测设备的配置参数。

可选的，所述生成原始语音数据，包括：

利用预设神经网络模型随机生成原始文本；

通过语音合成服务将所述原始文本转换为所述原始语音数据。

可选的，所述方法还包括：

在通过语音合成服务将所述原始文本转换为所述原始语音数据的过程中，设置所述原始语音数据的音色和音调。

可选的，所述方法还包括：

获取预设的与所述被测设备相同配置的设备的目标测试场景；

将所述目标测试语料、所述目标配置参数与所述目标测试场景的对应关系进行存储。

可选的，所述方法还包括：

利用预设仿真方法，模拟所述原始语音数据和所述噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据，作为相应配置参数的被测设备在相应测试场景下的测试语料；

记录测试语料、配置参数与测试场景之间的对应关系。

可选的，所述方法还包括：

获取所述被测设备的所述目标配置参数；

确定所述被测设备的所述目标测试场景；

根据测试语料、配置参数和测试场景之间的对应关系，获取与所述目标配置参数和所述目标测试场景相对应的所述目标测试语料。

可选的，配置参数包括SDK版本。

可选的，所述获取所述被测设备对所述目标测试语料的识别结果，包括：

通过读取所述被测设备的日志文件，获取所述被测设备对所述目标测试语料的识别结果，所述识别结果包括语义识别结果、声纹识别结果和唤醒词识别结果。

可选的，所述依据所述目标测试语料的原始文本和所述识别结果，检测所述被测设备的语音识别效果，包括：

对所述原始文本与所述识别结果进行对比，得到所述原始文本中每个字的识别结果和每句话的识别结果；

依据所述原始文本中每个字的识别结果和每句话的识别结果，计算所述被测设备对所述测试语料的字准确率和句准确率。

一种语音识别效果测试系统，包括：

测试语料发送单元，用于将目标测试语料通过被测设备的数据采集接口发送至所述被测设备，所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据；

识别结果获取单元，用于获取所述被测设备对所述目标测试语料的识别结果；

识别效果检测单元，用于依据所述目标测试语料的原始文本和所述识别结果，检测所述被测设备的语音识别效果。

可选的，所述系统还包括：

语音数据生成单元，用于生成原始语音数据和噪声；

语音数据播放单元，用于向预设的与所述被测设备相同配置的设备播放所述原始语音数据和所述噪声；

测试语料获取单元，用于获取预设的与所述被测设备相同配置的设备采集到的语音数据，作为所述目标测试语料；

对应关系存储单元，用于将所述目标测试语料以及所述目标测试语料与目标配置参数的对应关系进行存储，其中，所述目标配置参数为所述被测设备的配置参数。

可选的，所述语音数据生成单元，具体用于：

利用预设神经网络模型随机生成原始文本；

可选的，所述语音数据生成单元，还用于在通过语音合成服务将所述原始文本转换为所述原始语音数据的过程中，设置所述原始语音数据的音色和音调。

可选的，所述对应关系存储单元，还用于：

可选的，所述系统还包括：

仿真模拟单元，用于利用预设仿真方法，模拟所述原始语音数据和所述噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据，作为相应配置参数的被测设备在相应测试场景下的测试语料；记录测试语料、配置参数与测试场景之间的对应关系。

可选的，所述系统还包括：

测试语料获取单元，用于获取所述被测设备的所述目标配置参数；确定所述被测设备的所述目标测试场景；根据测试语料、配置参数和测试场景之间的对应关系，获取与所述目标配置参数和所述目标测试场景相对应的所述目标测试语料。

可选的，配置参数包括SDK版本。

可选的，所述识别结果获取单元，具体用于通过读取所述被测设备的日志文件，获取所述被测设备对所述目标测试语料的识别结果，所述识别结果包括语义识别结果、声纹识别结果和唤醒词识别结果。

可选的，所述识别效果检测单元，具体用于：

依据所述原始文本中每个字的识别结果和每句话的识别结果，计算所述被测设备对所述目标测试语料的字准确率和句准确率。

相对于现有技术，本发明的有益效果如下：

本发明公开的语音识别效果测试方法，测试过程完全不需要人工参与，系统自动将测试语料通过被测设备的数据采集接口发送至被测设备，其中，测试语料可以多次用于对相同配置的设备进行测试，提高了语音识别效果测试的可重复性，不需要对被测设备播放预测语料，直接将测试语料发送至被测设备，可同时对多个设备进行测试，不依赖于测试房间的测试环境，减少空间的占用。同时自动化获取被测设备对测试语料的识别结果，依据测试语料的原始文本和识别结果，检测被测设备的语音识别效果，提高了语音识别效果测试效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种语音识别效果测试方法的流程示意图；

图2为本发明实施例公开的一种识别效果检测方法的流程示意图；

图3为本发明实施例公开的一种测试语料生成方法的流程示意图；

图4为本发明实施例公开的另一种语音识别效果测试方法的流程示意图；

图5为本发明实施例公开的一种语音识别效果测试系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人通过研究发现，相对于客观测试方法，主观测试的语音识别效果相对较准确，但是，不管主观测试中的现场口呼方式还是模拟测试方式，都存在如下缺陷：

1、需要人工参与，造成了人力资源的浪费。

2、需要在指定的场景下进行测试，例如需要占用专业的测听室，不能实现大规模测试。

3、若需要在不同测试场景下进行测试，需要人工搭建不同的测试场景，需要耗费的成本较大。

4、由于被测设备的硬件配置或软件配置不同，测试具有不可复现性。

为了解决上述技术问题，本实施例公开了一种语音识别效果测试方法，应用于具有存储器和处理器的语音识别效果测试系统，请参阅图1，具体包括以下步骤：

S101：将目标测试语料通过被测设备的数据采集接口发送至所述被测设备，所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据；

目标测试语料为被测设备进行语音识别效果测试所需的测试语料，不同配置的被测设备对应的测试语料不同。测试系统预先获得预设的与被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据，作为被测设备的目标测试语料，可见，该目标测试语料可以多次用于对具有相同配置的被测设备进行语音识别效果测试。

其中，被测设备为具有语音识别功能的设备，如智能音箱、智能电视、智能空调、智能空调、智能安防、智能照明设备等。

被测设备的配置参数包括软件配置参数，如SDK(英文全称：SoftwareDevelopment Kit，中文名称：软件开发工具包)版本号，被测设备的配置参数还可以包括硬件配置参数，如麦克风型号、扬声器型号等，被测设备的配置参数还可以包括物理参数，如功率、信噪比、被测设备大小、最高分贝、最高识别分贝、麦克风阵列位置等。

系统与被测设备之间的交互可以采用netcat工具、采用ftp传输、使用串口线传输、蓝牙或其他网络传输协议进行传输，测试语料通过被测设备的数据采集接口传输至被测设备，模拟实际测试语料的信号输入。

系统可以同时将测试语料发送至多个被测设备，可以实现大规模语音识别效果测试。

可选的，目标测试语料也可以为通过预设仿真方法，通过模拟原始语音数据和噪声播放时与被测设备相同配置的设备接收到的语音数据得到的。

S102：获取所述被测设备对所述目标测试语料的识别结果；

被测设备对目标测试语料进行处理和识别，识别结果可以存储在本地日志文件中，系统通过读取被测设备的日志文件，可以获取被测设备对目标测试语料的识别结果。

系统可以通过netcat工具、采用ftp传输、使用串口线传输、蓝牙或其他网络传输协议访问被测设备的日志文件。

需要说明的是，被测设备的语音识别功能不同，得到的语音识别结果也不同，识别结果可以包括语义识别结果、声纹识别结果和唤醒词识别结果等。

S103：依据所述目标测试语料的原始文本和所述识别结果，检测所述被测设备的语音识别效果。

具体的，目标测试语料的原始文本为测试语料的语音数据对应的文本数据。

请参阅图2，语音识别效果的检测方法包括如下步骤：

S201：对目标测试语料的原始文本与识别结果进行对比，得到原始文本中每个字的识别结果和每句话的识别结果；

具体的，可以对目标测试语料的原始文本与识别结果逐字进行对比，得到原始文本中每个字的识别结果，其中，可以对标点符号进行对比，也可以不对标点符合进行对比，如果标点符号不同，不计为识别错误。

然后再通过断句标识进行断句，判断原始文本中每句话的识别结果。

S202：依据原始文本中每个字的识别结果和每句话的识别结果，计算被测设备对所述测试语料的字准确率和句准确率。

优选的，还可以对原始文本和识别结果进行分词处理，对原始文本与识别结果逐词进行对比，得到原始文本中每个词的识别结果，其中，如果词不同但是词的发音相同，如“辨认”和“辩认”，则将该词作为提示项，并通过语义识别技术，结合上下文判断是否属于识别错误；如果词不同发音也不同，如“辩认”和“边缘”，则直接将该词标记为识别错误，并将错误识别结果的相关数据加入附加测试语料库，对其再次进行语音识别，并获得识别结果，供后续问题分析。

为了便于后续查看语音识别效果，可以将被测设备对测试语料的字准确率和句准确率进行存储，可以存储在excel表格中，当被测设备数量很多时，可以将各个被测设备对测试语料的字准确率和句准确率存储在数据库中，为了便于对被测设备进行区分，可以为被测设备设置设备标识，将设备标识作为数据库表的主键。

进一步的，还可以存储不同配置的被测设备在不同测试场景下的语音识别效果，通过查看不同配置的被测设备在不同测试场景下的语音识别效果，对测试方式进行调整，如可以选择语音识别效果最佳的一组被测设备，作为后续调整目标，当然这仅为一种可选的测试调整方式，本发明并不以此为限。

本实施例公开的语音识别效果测试方法，适用于不同配置参数的被测设备，如不同SDK版本的被测设备，不同硬件配置参数的被测设备，不同物理配置参数的被测设备等。不同配置参数的被测设备对应的测试语料不同，如不同SDK版本、不同麦克风个数、不同麦克风阵列位置、不同麦克风性能的被测设备对应的测试语料不同。因此，需要预先为不同配置参数的被测设备生成测试语料，请参阅图3，一种可选的生成测试语料的方法如下：

S301：生成原始语音数据和噪声；

其中一种可选的生成原始语音数据的方法可以为：利用预设神经网络模型随机生成原始文本，通过语音合成服务，如TTS将原始文本转换为原始语音数据。

还可以采用其他机器学习模型生成原始文本，再通过语音合成服务将原始文本转换为原始语音数据。

为了进一步使原始语音数据更加贴合人实际发出的语音数据，还可以在通过语音合成服务将所述原始文本转换为所述原始语音数据的过程中，设置所述原始语音数据的音色和音调。如从性别上可以设置男性音色、女性音色，在同一性别还可以进一步依据年龄段设置儿童音色、少年音色、青年音色、中年音色和老年音色等。

生成噪声的方法可以为通过采集电视剧、音乐等作为测试语料的噪声。

S302：向预设的与被测设备相同配置的设备播放原始语音数据和噪声；

具体的，为了便于描述，预设的与被测设备相同配置的设备以下简称为预设的被测设备。预设的被测设备可以为首个与被测设备相同配置的设备，当然，预设的被测设备也可以为其他与被测设备相同配置的设备。

向预设的被测设备播放原始语音数据和噪声可以有多种实现方式，如利用预设的被测设备自身的扬声器播放原始语音数据和噪声。作为一种优选的实施方式，还可以通过控制高保真音箱向预设的被测设备播放原始语音数据和噪声，如通过设置高保真音箱与预设的被测设备的距离和角度，搭建不同的测试场景，保证原始语音数据和噪声的播放质量。

S303：获取预设的与被测设备相同配置的设备采集到的语音数据，作为目标测试语料；

由于播放环境混响大小、声源距离和声源角度的影响，播放的原始语音数据和噪声与被测设备采集到的语音数据不同，为了使相同配置的被测设备的测试语料相同，系统获取预设的与被测设备相同配置的设备采集到的语音数据，作为目标测试语料。

系统可以通过netcat工具、采用ftp传输、使用串口线传输、蓝牙或其他网络传输协议获取预设的与被测设备相同配置的设备采集的语音数据。

S304：将目标测试语料以及目标测试语料与目标配置参数的对应关系进行存储，其中，所述目标配置参数为所述被测设备的配置参数。

进一步，为了实现在不同测试场景下对被测设备进行测试，还可以获取预设的与被测设备相同配置的设备的测试场景；将测试语料、配置参数和测试场景的对应关系进行存储。

通过存储测试语料、配置参数和测试场景之间的对应关系，可以实现在不同测试场景下对不同配置参数的被测设备进行语音识别效果的测试。

为了提高测试语料的生成效率，降低人工搭建测试场景所需时间和人力成本，本实施例还提供了另一种可选的生成测试语料的方法，利用预设仿真方法，如房间模拟技术，模拟原始语音数据和噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据，作为相应配置参数的被测设备在相应测试场景下的测试语料。

其中，测试场景的设置包括声源的数量、声源与被测设备之间的距离和声源与被测设备之间的角度。如模拟单声源与被测设备距离2米，声源与被测设备之间的角度为60°时，被测设备接收到的语音数据。

利用房间模拟技术可以在Python面向对象的界面快速构建3D房间中任意数量的声源播放语音数据的模拟场景，快速C实现多面体房间的图像源模型，有效的产生房间脉冲响应并模拟声源与接收器之间的音频传播，以实现模拟原始语音数据和噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据。

当采用房间模拟技术模拟原始语音数据和噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据，作为相应配置参数的被测设备在相应测试场景下的测试语料时，被测设备的配置参数还包括STFT、波束成形、侧向、自适应滤波、源分离和单通道去噪等算法参数。

需要说明的是，房间模拟技术仅为本发明可选的一种仿真方法，现有任意一种可以实现模拟原始语音数据和噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据的仿真方法均在本发明的保护范围之内。

在此基础上，请参阅图4，本实施例公开了一种语音识别效果测试方法包括以下步骤：

S401：获取被测设备的目标配置参数；

S402：确定被测设备的目标测试场景；

S403：根据测试语料、配置参数和测试场景的对应关系，获取与被测设备的目标配置参数和目标测试场景相对应的目标测试语料；

S404：将目标测试语料通过被测设备的数据采集接口发送至被测设备；

S405：获取被测设备对目标测试语料的识别结果；

S406：依据目标测试语料的原始文本和识别结果，检测被测设备的语音识别效果。

本实施例公开的语音识别效果测试方法，测试过程完全不需要人工参与，系统自动将测试语料通过被测设备的数据采集接口发送至被测设备，其中，测试语料可以多次用于对相同配置的设备进行测试，提高了语音识别效果测试的可重复性，不需要对被测设备播放预测语料，直接将测试语料发送至被测设备，可同时对多个设备进行测试，不依赖于测试房间的测试环境，减少空间的占用。同时自动化获取被测设备对测试语料的识别结果，依据测试语料的原始文本和识别结果，检测被测设备的语音识别效果，提高了语音识别效果测试效率。

基于上述实施例公开的一种语音识别效果测试方法，本实施例对应公开了一种语音识别效果测试系统，请参阅图5，该语音识别效果测试系统具体包括：

测试语料发送单元501，用于将目标测试语料通过被测设备的数据采集接口发送至所述被测设备，所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据；

识别结果获取单元502，用于获取所述被测设备对所述目标测试语料的识别结果；

识别效果检测单元503，用于依据所述目标测试语料的原始文本和所述识别结果，检测所述被测设备的语音识别效果。

可选的，所述系统还包括：

语音数据生成单元，用于生成原始语音数据和噪声；

可选的，所述语音数据生成单元，具体用于：

利用预设神经网络模型随机生成原始文本；

可选的，所述对应关系存储单元，还用于：

可选的，所述系统还包括：

可选的，配置参数包括SDK版本。

可选的，所述识别结果获取单元502，具体用于通过读取所述被测设备的日志文件，获取所述被测设备对所述目标测试语料的识别结果，所述识别结果包括语义识别结果、声纹识别结果和唤醒词识别结果。

可选的，所述识别效果检测单元503，具体用于：

本实施例公开的语音识别效果测试系统，测试过程完全不需要人工参与，系统自动将测试语料通过被测设备的数据采集接口发送至被测设备，其中，测试语料可以多次用于对相同配置的设备进行测试，提高了语音识别效果测试的可重复性，不需要对被测设备播放预测语料，直接将测试语料发送至被测设备，可同时对多个设备进行测试，不依赖于测试房间的测试环境，减少空间的占用。同时自动化获取被测设备对测试语料的识别结果，依据测试语料的原始文本和识别结果，检测被测设备的语音识别效果，提高了语音识别效果测试效率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别效果测试方法，其特征在于，包括：

获取所述被测设备对所述目标测试语料的识别结果；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

生成原始语音数据和噪声；

3.根据权利要求2所述的方法，其特征在于，所述生成原始语音数据，包括：

利用预设神经网络模型随机生成原始文本；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

记录测试语料、配置参数与测试场景之间的对应关系。

7.根据权利要求3或6所述的方法，其特征在于，所述方法还包括：

获取所述被测设备的所述目标配置参数；

确定所述被测设备的所述目标测试场景；

8.根据权利要求7所述的方法，其特征在于，配置参数包括SDK版本。

9.根据权利要求1所述的方法，其特征在于，所述获取所述被测设备对所述目标测试语料的识别结果，包括：

10.根据权利要求1所述的方法，其特征在于，所述依据所述目标测试语料的原始文本和所述识别结果，检测所述被测设备的语音识别效果，包括：

11.一种语音识别效果测试系统，其特征在于，包括：