CN110415681A - 一种语音识别效果测试方法及系统 - Google Patents
一种语音识别效果测试方法及系统 Download PDFInfo
- Publication number
- CN110415681A CN110415681A CN201910859341.7A CN201910859341A CN110415681A CN 110415681 A CN110415681 A CN 110415681A CN 201910859341 A CN201910859341 A CN 201910859341A CN 110415681 A CN110415681 A CN 110415681A
- Authority
- CN
- China
- Prior art keywords
- under test
- equipment under
- target detection
- recognition result
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 310
- 230000000694 effects Effects 0.000 title claims abstract description 51
- 238000001514 detection method Methods 0.000 claims abstract description 99
- 239000000463 material Substances 0.000 claims description 63
- 238000000034 method Methods 0.000 claims description 38
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 7
- 235000013399 edible fruits Nutrition 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000004088 simulation Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000366 juvenile effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013522 software testing Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种语音识别效果测试方法及系统,将目标测试语料通过被测设备的数据采集接口发送至所述被测设备,所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据;获取所述被测设备对所述目标测试语料的识别结果;依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果。本发明实现了自动化测试被测设备的语音识别效果,提高了语音识别效果的测试效率。
Description
技术领域
本发明涉及软件测试技术领域,更具体的,涉及一种语音识别效果测试方法及系统。
背景技术
在语音识别技术领域,语音识别效果测试是一种重要的技术手段。目前对语音识别效果的测试有两类方式:客观测试和主观测试。
客观测试直接在系统上对音频测试集进行处理和识别,再统计出识别率,但是这种测试方法是独立于被测设备的,由于实际场景中不同设备的硬件和性能都不一样,不能很好的确认语音识别效果。
主观测试,又分为现场口呼和模拟测试两种方式,对设备进行现场测试。其中,现场口呼需要组织几个发音人,手拿测试语料,站在指定位置,对设备进行效果测试。模拟测试需要一个人操作放音设备,一个人操作收音设备,一个进行结果记录。
可见,现有的测试方式,人工参与较多,极大浪费了人力成本,测试效率低下。
发明内容
有鉴于此,本发明提供了一种语音识别效果测试方法及系统,减少人力物力的投入,提高了测试效率。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种语音识别效果测试方法,包括:
将目标测试语料通过被测设备的数据采集接口发送至所述被测设备,所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据;
获取所述被测设备对所述目标测试语料的识别结果;
依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果。
可选的,所述方法还包括:
生成原始语音数据和噪声;
向预设的与所述被测设备相同配置的设备播放所述原始语音数据和所述噪声;
获取预设的与所述被测设备相同配置的设备采集到的语音数据,作为所述目标测试语料;
将所述目标测试语料以及所述目标测试语料与目标配置参数的对应关系进行存储,其中,所述目标配置参数为所述被测设备的配置参数。
可选的,所述生成原始语音数据,包括:
利用预设神经网络模型随机生成原始文本;
通过语音合成服务将所述原始文本转换为所述原始语音数据。
可选的,所述方法还包括:
在通过语音合成服务将所述原始文本转换为所述原始语音数据的过程中,设置所述原始语音数据的音色和音调。
可选的,所述方法还包括:
获取预设的与所述被测设备相同配置的设备的目标测试场景;
将所述目标测试语料、所述目标配置参数与所述目标测试场景的对应关系进行存储。
可选的,所述方法还包括:
利用预设仿真方法,模拟所述原始语音数据和所述噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据,作为相应配置参数的被测设备在相应测试场景下的测试语料;
记录测试语料、配置参数与测试场景之间的对应关系。
可选的,所述方法还包括:
获取所述被测设备的所述目标配置参数;
确定所述被测设备的所述目标测试场景;
根据测试语料、配置参数和测试场景之间的对应关系,获取与所述目标配置参数和所述目标测试场景相对应的所述目标测试语料。
可选的,配置参数包括SDK版本。
可选的,所述获取所述被测设备对所述目标测试语料的识别结果,包括:
通过读取所述被测设备的日志文件,获取所述被测设备对所述目标测试语料的识别结果,所述识别结果包括语义识别结果、声纹识别结果和唤醒词识别结果。
可选的,所述依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果,包括:
对所述原始文本与所述识别结果进行对比,得到所述原始文本中每个字的识别结果和每句话的识别结果;
依据所述原始文本中每个字的识别结果和每句话的识别结果,计算所述被测设备对所述测试语料的字准确率和句准确率。
一种语音识别效果测试系统,包括:
测试语料发送单元,用于将目标测试语料通过被测设备的数据采集接口发送至所述被测设备,所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据;
识别结果获取单元,用于获取所述被测设备对所述目标测试语料的识别结果;
识别效果检测单元,用于依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果。
可选的,所述系统还包括:
语音数据生成单元,用于生成原始语音数据和噪声;
语音数据播放单元,用于向预设的与所述被测设备相同配置的设备播放所述原始语音数据和所述噪声;
测试语料获取单元,用于获取预设的与所述被测设备相同配置的设备采集到的语音数据,作为所述目标测试语料;
对应关系存储单元,用于将所述目标测试语料以及所述目标测试语料与目标配置参数的对应关系进行存储,其中,所述目标配置参数为所述被测设备的配置参数。
可选的,所述语音数据生成单元,具体用于:
利用预设神经网络模型随机生成原始文本;
通过语音合成服务将所述原始文本转换为所述原始语音数据。
可选的,所述语音数据生成单元,还用于在通过语音合成服务将所述原始文本转换为所述原始语音数据的过程中,设置所述原始语音数据的音色和音调。
可选的,所述对应关系存储单元,还用于:
获取预设的与所述被测设备相同配置的设备的目标测试场景;
将所述目标测试语料、所述目标配置参数与所述目标测试场景的对应关系进行存储。
可选的,所述系统还包括:
仿真模拟单元,用于利用预设仿真方法,模拟所述原始语音数据和所述噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据,作为相应配置参数的被测设备在相应测试场景下的测试语料;记录测试语料、配置参数与测试场景之间的对应关系。
可选的,所述系统还包括:
测试语料获取单元,用于获取所述被测设备的所述目标配置参数;确定所述被测设备的所述目标测试场景;根据测试语料、配置参数和测试场景之间的对应关系,获取与所述目标配置参数和所述目标测试场景相对应的所述目标测试语料。
可选的,配置参数包括SDK版本。
可选的,所述识别结果获取单元,具体用于通过读取所述被测设备的日志文件,获取所述被测设备对所述目标测试语料的识别结果,所述识别结果包括语义识别结果、声纹识别结果和唤醒词识别结果。
可选的,所述识别效果检测单元,具体用于:
对所述原始文本与所述识别结果进行对比,得到所述原始文本中每个字的识别结果和每句话的识别结果;
依据所述原始文本中每个字的识别结果和每句话的识别结果,计算所述被测设备对所述目标测试语料的字准确率和句准确率。
相对于现有技术,本发明的有益效果如下:
本发明公开的语音识别效果测试方法,测试过程完全不需要人工参与,系统自动将测试语料通过被测设备的数据采集接口发送至被测设备,其中,测试语料可以多次用于对相同配置的设备进行测试,提高了语音识别效果测试的可重复性,不需要对被测设备播放预测语料,直接将测试语料发送至被测设备,可同时对多个设备进行测试,不依赖于测试房间的测试环境,减少空间的占用。同时自动化获取被测设备对测试语料的识别结果,依据测试语料的原始文本和识别结果,检测被测设备的语音识别效果,提高了语音识别效果测试效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种语音识别效果测试方法的流程示意图;
图2为本发明实施例公开的一种识别效果检测方法的流程示意图;
图3为本发明实施例公开的一种测试语料生成方法的流程示意图;
图4为本发明实施例公开的另一种语音识别效果测试方法的流程示意图;
图5为本发明实施例公开的一种语音识别效果测试系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人通过研究发现,相对于客观测试方法,主观测试的语音识别效果相对较准确,但是,不管主观测试中的现场口呼方式还是模拟测试方式,都存在如下缺陷:
1、需要人工参与,造成了人力资源的浪费。
2、需要在指定的场景下进行测试,例如需要占用专业的测听室,不能实现大规模测试。
3、若需要在不同测试场景下进行测试,需要人工搭建不同的测试场景,需要耗费的成本较大。
4、由于被测设备的硬件配置或软件配置不同,测试具有不可复现性。
为了解决上述技术问题,本实施例公开了一种语音识别效果测试方法,应用于具有存储器和处理器的语音识别效果测试系统,请参阅图1,具体包括以下步骤:
S101:将目标测试语料通过被测设备的数据采集接口发送至所述被测设备,所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据;
目标测试语料为被测设备进行语音识别效果测试所需的测试语料,不同配置的被测设备对应的测试语料不同。测试系统预先获得预设的与被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据,作为被测设备的目标测试语料,可见,该目标测试语料可以多次用于对具有相同配置的被测设备进行语音识别效果测试。
其中,被测设备为具有语音识别功能的设备,如智能音箱、智能电视、智能空调、智能空调、智能安防、智能照明设备等。
被测设备的配置参数包括软件配置参数,如SDK(英文全称:SoftwareDevelopment Kit,中文名称:软件开发工具包)版本号,被测设备的配置参数还可以包括硬件配置参数,如麦克风型号、扬声器型号等,被测设备的配置参数还可以包括物理参数,如功率、信噪比、被测设备大小、最高分贝、最高识别分贝、麦克风阵列位置等。
系统与被测设备之间的交互可以采用netcat工具、采用ftp传输、使用串口线传输、蓝牙或其他网络传输协议进行传输,测试语料通过被测设备的数据采集接口传输至被测设备,模拟实际测试语料的信号输入。
系统可以同时将测试语料发送至多个被测设备,可以实现大规模语音识别效果测试。
可选的,目标测试语料也可以为通过预设仿真方法,通过模拟原始语音数据和噪声播放时与被测设备相同配置的设备接收到的语音数据得到的。
S102:获取所述被测设备对所述目标测试语料的识别结果;
被测设备对目标测试语料进行处理和识别,识别结果可以存储在本地日志文件中,系统通过读取被测设备的日志文件,可以获取被测设备对目标测试语料的识别结果。
系统可以通过netcat工具、采用ftp传输、使用串口线传输、蓝牙或其他网络传输协议访问被测设备的日志文件。
需要说明的是,被测设备的语音识别功能不同,得到的语音识别结果也不同,识别结果可以包括语义识别结果、声纹识别结果和唤醒词识别结果等。
S103:依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果。
具体的,目标测试语料的原始文本为测试语料的语音数据对应的文本数据。
请参阅图2,语音识别效果的检测方法包括如下步骤:
S201:对目标测试语料的原始文本与识别结果进行对比,得到原始文本中每个字的识别结果和每句话的识别结果;
具体的,可以对目标测试语料的原始文本与识别结果逐字进行对比,得到原始文本中每个字的识别结果,其中,可以对标点符号进行对比,也可以不对标点符合进行对比,如果标点符号不同,不计为识别错误。
然后再通过断句标识进行断句,判断原始文本中每句话的识别结果。
S202:依据原始文本中每个字的识别结果和每句话的识别结果,计算被测设备对所述测试语料的字准确率和句准确率。
优选的,还可以对原始文本和识别结果进行分词处理,对原始文本与识别结果逐词进行对比,得到原始文本中每个词的识别结果,其中,如果词不同但是词的发音相同,如“辨认”和“辩认”,则将该词作为提示项,并通过语义识别技术,结合上下文判断是否属于识别错误;如果词不同发音也不同,如“辩认”和“边缘”,则直接将该词标记为识别错误,并将错误识别结果的相关数据加入附加测试语料库,对其再次进行语音识别,并获得识别结果,供后续问题分析。
为了便于后续查看语音识别效果,可以将被测设备对测试语料的字准确率和句准确率进行存储,可以存储在excel表格中,当被测设备数量很多时,可以将各个被测设备对测试语料的字准确率和句准确率存储在数据库中,为了便于对被测设备进行区分,可以为被测设备设置设备标识,将设备标识作为数据库表的主键。
进一步的,还可以存储不同配置的被测设备在不同测试场景下的语音识别效果,通过查看不同配置的被测设备在不同测试场景下的语音识别效果,对测试方式进行调整,如可以选择语音识别效果最佳的一组被测设备,作为后续调整目标,当然这仅为一种可选的测试调整方式,本发明并不以此为限。
本实施例公开的语音识别效果测试方法,适用于不同配置参数的被测设备,如不同SDK版本的被测设备,不同硬件配置参数的被测设备,不同物理配置参数的被测设备等。不同配置参数的被测设备对应的测试语料不同,如不同SDK版本、不同麦克风个数、不同麦克风阵列位置、不同麦克风性能的被测设备对应的测试语料不同。因此,需要预先为不同配置参数的被测设备生成测试语料,请参阅图3,一种可选的生成测试语料的方法如下:
S301:生成原始语音数据和噪声;
其中一种可选的生成原始语音数据的方法可以为:利用预设神经网络模型随机生成原始文本,通过语音合成服务,如TTS将原始文本转换为原始语音数据。
还可以采用其他机器学习模型生成原始文本,再通过语音合成服务将原始文本转换为原始语音数据。
为了进一步使原始语音数据更加贴合人实际发出的语音数据,还可以在通过语音合成服务将所述原始文本转换为所述原始语音数据的过程中,设置所述原始语音数据的音色和音调。如从性别上可以设置男性音色、女性音色,在同一性别还可以进一步依据年龄段设置儿童音色、少年音色、青年音色、中年音色和老年音色等。
生成噪声的方法可以为通过采集电视剧、音乐等作为测试语料的噪声。
S302:向预设的与被测设备相同配置的设备播放原始语音数据和噪声;
具体的,为了便于描述,预设的与被测设备相同配置的设备以下简称为预设的被测设备。预设的被测设备可以为首个与被测设备相同配置的设备,当然,预设的被测设备也可以为其他与被测设备相同配置的设备。
向预设的被测设备播放原始语音数据和噪声可以有多种实现方式,如利用预设的被测设备自身的扬声器播放原始语音数据和噪声。作为一种优选的实施方式,还可以通过控制高保真音箱向预设的被测设备播放原始语音数据和噪声,如通过设置高保真音箱与预设的被测设备的距离和角度,搭建不同的测试场景,保证原始语音数据和噪声的播放质量。
S303:获取预设的与被测设备相同配置的设备采集到的语音数据,作为目标测试语料;
由于播放环境混响大小、声源距离和声源角度的影响,播放的原始语音数据和噪声与被测设备采集到的语音数据不同,为了使相同配置的被测设备的测试语料相同,系统获取预设的与被测设备相同配置的设备采集到的语音数据,作为目标测试语料。
系统可以通过netcat工具、采用ftp传输、使用串口线传输、蓝牙或其他网络传输协议获取预设的与被测设备相同配置的设备采集的语音数据。
S304:将目标测试语料以及目标测试语料与目标配置参数的对应关系进行存储,其中,所述目标配置参数为所述被测设备的配置参数。
进一步,为了实现在不同测试场景下对被测设备进行测试,还可以获取预设的与被测设备相同配置的设备的测试场景;将测试语料、配置参数和测试场景的对应关系进行存储。
通过存储测试语料、配置参数和测试场景之间的对应关系,可以实现在不同测试场景下对不同配置参数的被测设备进行语音识别效果的测试。
为了提高测试语料的生成效率,降低人工搭建测试场景所需时间和人力成本,本实施例还提供了另一种可选的生成测试语料的方法,利用预设仿真方法,如房间模拟技术,模拟原始语音数据和噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据,作为相应配置参数的被测设备在相应测试场景下的测试语料。
其中,测试场景的设置包括声源的数量、声源与被测设备之间的距离和声源与被测设备之间的角度。如模拟单声源与被测设备距离2米,声源与被测设备之间的角度为60°时,被测设备接收到的语音数据。
利用房间模拟技术可以在Python面向对象的界面快速构建3D房间中任意数量的声源播放语音数据的模拟场景,快速C实现多面体房间的图像源模型,有效的产生房间脉冲响应并模拟声源与接收器之间的音频传播,以实现模拟原始语音数据和噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据。
当采用房间模拟技术模拟原始语音数据和噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据,作为相应配置参数的被测设备在相应测试场景下的测试语料时,被测设备的配置参数还包括STFT、波束成形、侧向、自适应滤波、源分离和单通道去噪等算法参数。
需要说明的是,房间模拟技术仅为本发明可选的一种仿真方法,现有任意一种可以实现模拟原始语音数据和噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据的仿真方法均在本发明的保护范围之内。
在此基础上,请参阅图4,本实施例公开了一种语音识别效果测试方法包括以下步骤:
S401:获取被测设备的目标配置参数;
S402:确定被测设备的目标测试场景;
S403:根据测试语料、配置参数和测试场景的对应关系,获取与被测设备的目标配置参数和目标测试场景相对应的目标测试语料;
S404:将目标测试语料通过被测设备的数据采集接口发送至被测设备;
S405:获取被测设备对目标测试语料的识别结果;
S406:依据目标测试语料的原始文本和识别结果,检测被测设备的语音识别效果。
本实施例公开的语音识别效果测试方法,测试过程完全不需要人工参与,系统自动将测试语料通过被测设备的数据采集接口发送至被测设备,其中,测试语料可以多次用于对相同配置的设备进行测试,提高了语音识别效果测试的可重复性,不需要对被测设备播放预测语料,直接将测试语料发送至被测设备,可同时对多个设备进行测试,不依赖于测试房间的测试环境,减少空间的占用。同时自动化获取被测设备对测试语料的识别结果,依据测试语料的原始文本和识别结果,检测被测设备的语音识别效果,提高了语音识别效果测试效率。
基于上述实施例公开的一种语音识别效果测试方法,本实施例对应公开了一种语音识别效果测试系统,请参阅图5,该语音识别效果测试系统具体包括:
测试语料发送单元501,用于将目标测试语料通过被测设备的数据采集接口发送至所述被测设备,所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据;
识别结果获取单元502,用于获取所述被测设备对所述目标测试语料的识别结果;
识别效果检测单元503,用于依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果。
可选的,所述系统还包括:
语音数据生成单元,用于生成原始语音数据和噪声;
语音数据播放单元,用于向预设的与所述被测设备相同配置的设备播放所述原始语音数据和所述噪声;
测试语料获取单元,用于获取预设的与所述被测设备相同配置的设备采集到的语音数据,作为所述目标测试语料;
对应关系存储单元,用于将所述目标测试语料以及所述目标测试语料与目标配置参数的对应关系进行存储,其中,所述目标配置参数为所述被测设备的配置参数。
可选的,所述语音数据生成单元,具体用于:
利用预设神经网络模型随机生成原始文本;
通过语音合成服务将所述原始文本转换为所述原始语音数据。
可选的,所述语音数据生成单元,还用于在通过语音合成服务将所述原始文本转换为所述原始语音数据的过程中,设置所述原始语音数据的音色和音调。
可选的,所述对应关系存储单元,还用于:
获取预设的与所述被测设备相同配置的设备的目标测试场景;
将所述目标测试语料、所述目标配置参数与所述目标测试场景的对应关系进行存储。
可选的,所述系统还包括:
仿真模拟单元,用于利用预设仿真方法,模拟所述原始语音数据和所述噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据,作为相应配置参数的被测设备在相应测试场景下的测试语料;记录测试语料、配置参数与测试场景之间的对应关系。
可选的,所述系统还包括:
测试语料获取单元,用于获取所述被测设备的所述目标配置参数;确定所述被测设备的所述目标测试场景;根据测试语料、配置参数和测试场景之间的对应关系,获取与所述目标配置参数和所述目标测试场景相对应的所述目标测试语料。
可选的,配置参数包括SDK版本。
可选的,所述识别结果获取单元502,具体用于通过读取所述被测设备的日志文件,获取所述被测设备对所述目标测试语料的识别结果,所述识别结果包括语义识别结果、声纹识别结果和唤醒词识别结果。
可选的,所述识别效果检测单元503,具体用于:
对所述原始文本与所述识别结果进行对比,得到所述原始文本中每个字的识别结果和每句话的识别结果;
依据所述原始文本中每个字的识别结果和每句话的识别结果,计算所述被测设备对所述目标测试语料的字准确率和句准确率。
本实施例公开的语音识别效果测试系统,测试过程完全不需要人工参与,系统自动将测试语料通过被测设备的数据采集接口发送至被测设备,其中,测试语料可以多次用于对相同配置的设备进行测试,提高了语音识别效果测试的可重复性,不需要对被测设备播放预测语料,直接将测试语料发送至被测设备,可同时对多个设备进行测试,不依赖于测试房间的测试环境,减少空间的占用。同时自动化获取被测设备对测试语料的识别结果,依据测试语料的原始文本和识别结果,检测被测设备的语音识别效果,提高了语音识别效果测试效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种语音识别效果测试方法,其特征在于,包括:
将目标测试语料通过被测设备的数据采集接口发送至所述被测设备,所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据;
获取所述被测设备对所述目标测试语料的识别结果;
依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
生成原始语音数据和噪声;
向预设的与所述被测设备相同配置的设备播放所述原始语音数据和所述噪声;
获取预设的与所述被测设备相同配置的设备采集到的语音数据,作为所述目标测试语料;
将所述目标测试语料以及所述目标测试语料与目标配置参数的对应关系进行存储,其中,所述目标配置参数为所述被测设备的配置参数。
3.根据权利要求2所述的方法,其特征在于,所述生成原始语音数据,包括:
利用预设神经网络模型随机生成原始文本;
通过语音合成服务将所述原始文本转换为所述原始语音数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在通过语音合成服务将所述原始文本转换为所述原始语音数据的过程中,设置所述原始语音数据的音色和音调。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预设的与所述被测设备相同配置的设备的目标测试场景;
将所述目标测试语料、所述目标配置参数与所述目标测试场景的对应关系进行存储。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
利用预设仿真方法,模拟所述原始语音数据和所述噪声在不同测试场景下播放时不同配置参数的被测设备接收到的语音数据,作为相应配置参数的被测设备在相应测试场景下的测试语料;
记录测试语料、配置参数与测试场景之间的对应关系。
7.根据权利要求3或6所述的方法,其特征在于,所述方法还包括:
获取所述被测设备的所述目标配置参数;
确定所述被测设备的所述目标测试场景;
根据测试语料、配置参数和测试场景之间的对应关系,获取与所述目标配置参数和所述目标测试场景相对应的所述目标测试语料。
8.根据权利要求7所述的方法,其特征在于,配置参数包括SDK版本。
9.根据权利要求1所述的方法,其特征在于,所述获取所述被测设备对所述目标测试语料的识别结果,包括:
通过读取所述被测设备的日志文件,获取所述被测设备对所述目标测试语料的识别结果,所述识别结果包括语义识别结果、声纹识别结果和唤醒词识别结果。
10.根据权利要求1所述的方法,其特征在于,所述依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果,包括:
对所述原始文本与所述识别结果进行对比,得到所述原始文本中每个字的识别结果和每句话的识别结果;
依据所述原始文本中每个字的识别结果和每句话的识别结果,计算所述被测设备对所述目标测试语料的字准确率和句准确率。
11.一种语音识别效果测试系统,其特征在于,包括:
测试语料发送单元,用于将目标测试语料通过被测设备的数据采集接口发送至所述被测设备,所述目标测试语料为对预设的与所述被测设备相同配置的设备进行语音识别效果测试时采集到的语音数据;
识别结果获取单元,用于获取所述被测设备对所述目标测试语料的识别结果;
识别效果检测单元,用于依据所述目标测试语料的原始文本和所述识别结果,检测所述被测设备的语音识别效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910859341.7A CN110415681B (zh) | 2019-09-11 | 2019-09-11 | 一种语音识别效果测试方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910859341.7A CN110415681B (zh) | 2019-09-11 | 2019-09-11 | 一种语音识别效果测试方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110415681A true CN110415681A (zh) | 2019-11-05 |
CN110415681B CN110415681B (zh) | 2022-02-18 |
Family
ID=68370581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910859341.7A Active CN110415681B (zh) | 2019-09-11 | 2019-09-11 | 一种语音识别效果测试方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110415681B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008130A (zh) * | 2019-11-28 | 2020-04-14 | 中国银行股份有限公司 | 智能问答系统测试方法和装置 |
CN111031463A (zh) * | 2019-11-20 | 2020-04-17 | 福建升腾资讯有限公司 | 麦克风阵列性能评测方法、装置、设备和介质 |
CN111061598A (zh) * | 2019-12-06 | 2020-04-24 | 安徽芯智科技有限公司 | 一种自动化语音引擎效果测试系统及其方法 |
CN111081252A (zh) * | 2019-12-03 | 2020-04-28 | 深圳追一科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN111179908A (zh) * | 2020-01-03 | 2020-05-19 | 苏宁智能终端有限公司 | 智能语音设备的测试方法及系统 |
CN112102813A (zh) * | 2020-07-31 | 2020-12-18 | 南京航空航天大学 | 基于用户评论中上下文的语音识别测试数据生成方法 |
CN112261214A (zh) * | 2020-10-21 | 2021-01-22 | 广东商路信息科技有限公司 | 网络语音通信自动化测试方法及系统 |
CN112349290A (zh) * | 2021-01-08 | 2021-02-09 | 北京海天瑞声科技股份有限公司 | 一种基于三元组的语音识别准确率计算方法 |
CN112420019A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 设备的测试方法及装置 |
CN112599137A (zh) * | 2020-12-16 | 2021-04-02 | 康键信息技术(深圳)有限公司 | 验证声纹模型识别效果的方法、装置和计算机设备 |
CN113257247A (zh) * | 2021-06-16 | 2021-08-13 | 科大讯飞(苏州)科技有限公司 | 一种测试方法及系统 |
CN113593564A (zh) * | 2021-09-02 | 2021-11-02 | 北京声智科技有限公司 | 设备测试的处理方法、测试系统、电子设备和存储介质 |
WO2021232710A1 (zh) * | 2020-05-20 | 2021-11-25 | 思必驰科技股份有限公司 | 用于全双工语音交互系统的测试方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102723080A (zh) * | 2012-06-25 | 2012-10-10 | 惠州市德赛西威汽车电子有限公司 | 一种语音识别测试系统及方法 |
CN103745731A (zh) * | 2013-12-31 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
US20150120289A1 (en) * | 2013-10-30 | 2015-04-30 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN108597503A (zh) * | 2018-05-09 | 2018-09-28 | 科大讯飞股份有限公司 | 测试语料生成方法、装置、设备及可读写存储介质 |
CN108806666A (zh) * | 2018-05-28 | 2018-11-13 | 成都昊铭科技有限公司 | 无需接口的语音识别测试装置、系统及方法 |
CN109102797A (zh) * | 2018-07-06 | 2018-12-28 | 平安科技(深圳)有限公司 | 语音识别测试方法、装置、计算机设备及存储介质 |
CN109256115A (zh) * | 2018-10-22 | 2019-01-22 | 四川虹美智能科技有限公司 | 一种智能家电的语音检测系统及方法 |
CN109493852A (zh) * | 2018-12-11 | 2019-03-19 | 北京搜狗科技发展有限公司 | 一种语音识别的评测方法及装置 |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及系统 |
CN110211567A (zh) * | 2019-05-13 | 2019-09-06 | 中国信息通信研究院 | 语音识别终端测评系统及方法 |
-
2019
- 2019-09-11 CN CN201910859341.7A patent/CN110415681B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102723080A (zh) * | 2012-06-25 | 2012-10-10 | 惠州市德赛西威汽车电子有限公司 | 一种语音识别测试系统及方法 |
US20150120289A1 (en) * | 2013-10-30 | 2015-04-30 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
CN103745731A (zh) * | 2013-12-31 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN108597503A (zh) * | 2018-05-09 | 2018-09-28 | 科大讯飞股份有限公司 | 测试语料生成方法、装置、设备及可读写存储介质 |
CN108806666A (zh) * | 2018-05-28 | 2018-11-13 | 成都昊铭科技有限公司 | 无需接口的语音识别测试装置、系统及方法 |
CN109102797A (zh) * | 2018-07-06 | 2018-12-28 | 平安科技(深圳)有限公司 | 语音识别测试方法、装置、计算机设备及存储介质 |
CN109256115A (zh) * | 2018-10-22 | 2019-01-22 | 四川虹美智能科技有限公司 | 一种智能家电的语音检测系统及方法 |
CN109493852A (zh) * | 2018-12-11 | 2019-03-19 | 北京搜狗科技发展有限公司 | 一种语音识别的评测方法及装置 |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及系统 |
CN110211567A (zh) * | 2019-05-13 | 2019-09-06 | 中国信息通信研究院 | 语音识别终端测评系统及方法 |
Non-Patent Citations (1)
Title |
---|
YANG LIU ET AL.: "Automatic Pronunciation Scoring for Mandarin Proficiency Test based on Speech Recognition", 《2009 INTERNATIONAL SYMPOSIUM ON INTELLIGENT UBIQUITOUS COMPUTING AND EDUCATION》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111031463B (zh) * | 2019-11-20 | 2021-08-17 | 福建升腾资讯有限公司 | 麦克风阵列性能评测方法、装置、设备和介质 |
CN111031463A (zh) * | 2019-11-20 | 2020-04-17 | 福建升腾资讯有限公司 | 麦克风阵列性能评测方法、装置、设备和介质 |
CN111008130B (zh) * | 2019-11-28 | 2023-11-17 | 中国银行股份有限公司 | 智能问答系统测试方法和装置 |
CN111008130A (zh) * | 2019-11-28 | 2020-04-14 | 中国银行股份有限公司 | 智能问答系统测试方法和装置 |
CN111081252A (zh) * | 2019-12-03 | 2020-04-28 | 深圳追一科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN111061598A (zh) * | 2019-12-06 | 2020-04-24 | 安徽芯智科技有限公司 | 一种自动化语音引擎效果测试系统及其方法 |
CN111179908A (zh) * | 2020-01-03 | 2020-05-19 | 苏宁智能终端有限公司 | 智能语音设备的测试方法及系统 |
WO2021232710A1 (zh) * | 2020-05-20 | 2021-11-25 | 思必驰科技股份有限公司 | 用于全双工语音交互系统的测试方法及装置 |
CN112102813A (zh) * | 2020-07-31 | 2020-12-18 | 南京航空航天大学 | 基于用户评论中上下文的语音识别测试数据生成方法 |
CN112102813B (zh) * | 2020-07-31 | 2023-10-03 | 南京航空航天大学 | 基于用户评论中上下文的语音识别测试数据生成方法 |
CN112261214A (zh) * | 2020-10-21 | 2021-01-22 | 广东商路信息科技有限公司 | 网络语音通信自动化测试方法及系统 |
CN112420019A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 设备的测试方法及装置 |
CN112599137A (zh) * | 2020-12-16 | 2021-04-02 | 康键信息技术(深圳)有限公司 | 验证声纹模型识别效果的方法、装置和计算机设备 |
CN112349290A (zh) * | 2021-01-08 | 2021-02-09 | 北京海天瑞声科技股份有限公司 | 一种基于三元组的语音识别准确率计算方法 |
CN113257247A (zh) * | 2021-06-16 | 2021-08-13 | 科大讯飞(苏州)科技有限公司 | 一种测试方法及系统 |
CN113257247B (zh) * | 2021-06-16 | 2023-08-29 | 科大讯飞(苏州)科技有限公司 | 一种测试方法及系统 |
CN113593564A (zh) * | 2021-09-02 | 2021-11-02 | 北京声智科技有限公司 | 设备测试的处理方法、测试系统、电子设备和存储介质 |
CN113593564B (zh) * | 2021-09-02 | 2024-05-14 | 北京声智科技有限公司 | 设备测试的处理方法、测试系统、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110415681B (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415681A (zh) | 一种语音识别效果测试方法及系统 | |
Richey et al. | Voices obscured in complex environmental settings (voices) corpus | |
Cristoforetti et al. | The DIRHA simulated corpus. | |
CN108847215B (zh) | 基于用户音色进行语音合成的方法及装置 | |
CN107221319A (zh) | 一种语音识别测试系统和方法 | |
US9449613B2 (en) | Room identification using acoustic features in a recording | |
Ratnarajah et al. | IR-GAN: Room impulse response generator for far-field speech recognition | |
CN106548772A (zh) | 语音识别测试系统及方法 | |
CN107507625B (zh) | 声源距离确定方法及装置 | |
Fraj et al. | Development and perceptual assessment of a synthesizer of disordered voices | |
Luizard et al. | Perceptual thresholds for realistic double-slope decay reverberation in large coupled spaces | |
CN107124647A (zh) | 一种全景视频录制时自动生成字幕文件的方法及装置 | |
Lundén et al. | On urban soundscape mapping: A computer can predict the outcome of soundscape assessments | |
Hall et al. | Evidence for auditory feature integration with spatially distributed items | |
Lindau | Binaural resynthesis of acoustical environments: Technology and perceptual evaluation | |
Peltonen et al. | Recognition of everyday auditory scenes: potentials, latencies and cues | |
Choi et al. | A proposal for foley sound synthesis challenge | |
KR101145401B1 (ko) | 로봇의 음성인식 성능 평가장치 및 평가 방법 | |
Lopez-Ballester et al. | AI-IoT platform for blind estimation of room acoustic parameters based on deep neural networks | |
Rouvier et al. | Far-field speaker recognition benchmark derived from the DiPCo corpus | |
Hummersone et al. | Ideal binary mask ratio: a novel metric for assessing binary-mask-based sound source separation algorithms | |
Srivastava | Realism in virtually supervised learning for acoustic room characterization and sound source localization | |
JP7493412B2 (ja) | 音声処理装置、音声処理システムおよびプログラム | |
Løvstad | Evaluation of objective echo criteria | |
Mahdavi | Computational modeling in architectural acoustics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |