CN109326305B - 一种批量测试语音识别和文本合成的方法和测试系统 - Google Patents
一种批量测试语音识别和文本合成的方法和测试系统 Download PDFInfo
- Publication number
- CN109326305B CN109326305B CN201811087317.8A CN201811087317A CN109326305B CN 109326305 B CN109326305 B CN 109326305B CN 201811087317 A CN201811087317 A CN 201811087317A CN 109326305 B CN109326305 B CN 109326305B
- Authority
- CN
- China
- Prior art keywords
- result
- voice
- test
- recognition
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 149
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 43
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000012805 post-processing Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 3
- 238000011990 functional testing Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种批量测试语音识别和文本合成的方法和测试系统,所述方法包括以下步骤:(1)将现有ASR与TTS技术的jar包(so包)集成到测试系统;(2)选择待测试的功能;(3)根据所选择的待测试功能将PC中已配置好的Config配置文件push到测试设备;(4)检查配置文件中的信息;(5)功能测试;(6)运行对应脚本进行结果计算,并与对应的标准测试结果进行对比;所述测试系统包括控制模块,以及存储模块、输入模块、文件发送模块、语音输出模块、文件接收模块、测试比较模块和测试结果输出模块等技术特征。本发明整合了语音识别和文本合成从送测试数据到结果统计的整个流程,极大地提高了工作效率。
Description
技术领域
本发明属于测试方法和系统相关领域,具体涉及一种批量测试语音识别和文本合成的方法和测试系统。
背景技术
随着语音技术的成熟,很多通过语音进行控制的智能音箱,手机语音助手,智能家居,智能汽车等产品越来越多,基于语音进行设备控制更为方便,体验上更具有优势。然而对于语音识别的产品测试也成了一个难点,目前对于大批量语音识别的测试,TTS文本合成的测试没有一个完整的测试方法及测试工具,因此,只能将语音识别和文字转语音的割裂开来进行测试;举个例子如果想要判断文字识别后的发音是否正确,只能先把语音输入测试一遍文字识别ASR,然后把识别对的文字送给TTS做测试;另外TTS的测试现阶段更多的还是靠人耳去听,是不是读错了,是不是有停顿,是不是直接没有读等等;而靠人耳进行听则非常耗费时间和人力进行人工判断。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种批量测试语音识别和文本合成的方法和测试工具。
为了实现上述目的,本发明采取的技术方案如下:
技术方案一:
一种批量测试语音识别和文本合成的方法,包括以下步骤:
步骤1、将现有ASR与TTS技术的jar包或so包集成到测试系统;
步骤2、启动测试脚本,根据测试设备的序列号选择待测试的功能,所述供选择的待测试的功能包括ASR功能,TTS功能;当输入不正确的值时提示输入值不正确,弹出提示要求输入正确的值;
步骤3、根据所选择的待测试功能将PC中已配置好的Config配置文件推送/拷贝到测试设备;当本地配置文件不存在时提醒配置文件不存在停止运行;
步骤4、启动测试系统,读取测试系统中存储的配置文件,并检查配置文件中的信息是否正常,当配置文件不正确时打印错误信息并停止运行;
步骤5、配置文件检查通过后,开始进行对应的功能测试;
步骤5.1、ASR功能测试
步骤5.1.1、根据配置文件中的语音识别模式和语音信息获取语音识别模式以及语音数据文件,将语音数据文件进行播放形成语音,待测系统将接收的语音按照实际使用情况进行分割分段送入语音识别系统的app进行识别;如果语音识别模式是识别则进入识别模式,如果语音识别模式是唤醒则进行唤醒模式;所述语音数据文件采用的是已经录制好的16K或48k的wav或pcm格式的语音数据;
步骤5.1.2、当有识别或唤醒的结果返回时,获取识别或唤醒结果,并保存到测试设备;当语音识别错误无结果返回时,使用空值并保存相关信息。
步骤5.2 TTS功能测试
步骤5.2.1、根据配置文件中TTS文本信息,前端模型,后端模型信息,加载TTS相关的信息到文本合成系统的app中,然后将文本信息送入进行合成;当合成失败时打印合成失败的信息,再继续合成下一条数据;
步骤5.2.2、文本合成之后,获取文本合成的语音保存到测试设备,将合成的语音再进行ASR语音识别;
步骤5.2.3、获取经TTS合成后语音的ASR语音识别结果保存到本地,并运行对应脚本进行结果计算;
步骤6、所选择的测试功能均测试完毕后,将ASR测试中间结果保存到PC,运行对应脚本进行结果计算,并与对应的标准测试结果进行对比;
步骤6.1、ASR功能结果处理并保存
步骤6.1.1、识别功能:通过标准文本的格式判断语音是长语音还是短语音,然后将识别的结果与标准文本进行对比,获取到本次识别结果的字错误率WER、句错误率SER或者词错误率;
步骤6.1.2、唤醒功能:通过语音集信息判断是正常唤醒还是误唤醒,如果是正常唤醒,将正常唤醒的测试结果与标准文本进行对比,剔除误唤醒数据,得到唤醒率;如果是误唤醒,根据误唤醒测试得到数据及时长,得到单位时间内的误唤醒值;
得到测试结果后将测试结果按照测试的文件名加时间进行保存,再将步骤3~6重复一遍后,进行下一轮测试;
步骤6.2、TTS功能以及后处理
步骤6.2.1、将TTS功能识别后的结果保存到PC上,然后与送入TTS进行合成的原始文本进行对比,将TTS进行合成的原始文本中与经ASR语音识别后结果不同的内容,进行保存,再将步骤3~6重复一遍后,进行下一轮测试;
步骤6.2.2、将步骤6.2.1的语音识别结果与步骤5.1.2中的ASR结果进行对比,判断是否有不一致的结果;
步骤6.2.3、挑出所有不一致的语音文件id或文本文件id;
步骤6.2.4、根据两次识别不一致的结果进行分析,判断具体问题。
进一步的,步骤3所述config配置文件所包含的配置信息包括:对于ASR功能:Config配置文件中包含有识别语音的采样率,语音使用领域,是否有vad功能处理语音,nlu后处理,进行识别的服务器识别引擎版本,或离线识别引擎版本等参数信息;对于TTS功能:Config配置文件中包含有前端模型,后端模型,合成采样率,合成语速,使用场景,合成音效等参数信息。
进一步的,步骤4中需要检查的配置文件中的信息包括:待测试的功能的服务器地址,使用时的关键key值;当待测试功能为ASR功能时,还需要检查配置的识别的语音信息、包含识别和唤醒的语音识别模式,并将配置文件按照对应的语音集文件名进行存储;当待测功能为TTS功能时,还需要检查配置的TTS合成的文本信息,TTS的前端模型和后端模型。
技术方案二:
一种批量测试语音识别和文本合成的测试系统,包括控制模块,以及分别与所述控制模块相连接的存储模块、输入模块、文件发送模块、语音输出模块、文件接收模块和测试结果输出模块;
所述存储模块用于存储配置文件以及测试所用的语音数据文件;
所述输入模块用于选择待测试功能;
所述文件发送模块用于向测试设备发送配置文件;
所述控制模块分别用于接收所述输入模块选择的待测功能结果,并调取存储模块存储的所选待测功能的相应配置文件,并通过文件发送模块将其发送至测试设备;
所述控制模块用于调取存储模块存储的语音数据文件,并通过语音输出模块进行语音播放;
所述文件接收模块用于接收待测系统的识别结果;
所述结果输出模块用于输出测试结果并显示;
所述控制模块用于分析对比所述文件接收模块接收的识别结果得出测试结果,并将测试结果通过所述结果输出模块进行输出和显示。
进一步的,所述控制模块还包括自检模块,所述自检模块用于检查配置文件中的信息是否正常。
与现有技术相比,本发明所取得的有益效果如下:
本发明整合了语音识别和文本合成从送测试数据到结果统计的整个流程,可以覆盖语音识别多场景,文本合成多个场景的测试,有效提高语音识别测试速度和测试范围;此外本发明在文字转语音的过程中引入了识别模式,只需要对转出的语音进行再次识别判断是否有错误的文字,错误的断句(断句则停止识别)等,配合少量甚至零人工听来进行测试判断TTS功能性能。
本发明配合少量的人工后处理后分析,把所有ASR结果到TTS再到ASR结果两次文本不能匹配的文件id(语音id)穷举,进行少量的人工试听,以及ASR识别的中间结果查看,方便在一个测试系统内进行问题搜集和问题快速分析,极大地提高了工作效率。
附图说明
图1为本发明一种批量测试语音识别和文本合成的方法的工作流程图;
图2为本发明实现语音识别和文本合成测试的框图;
图3为本发明测试系统的系统结构图。
具体实施方式
ASR指的是自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。
TTS是Text To Speech的缩写,是一种将文本文件转换为语音文件的技术,其可以实现120-150个汉字/秒的快速语音合成。
ASR和TTS均为目前较为成熟的一种技术,因此,本发明中不再赘述。
以下结合实施例对本发明进行进一步详细的叙述。
如图1~2所示的一种校准无线终端产品的方法,包括如下步骤:
步骤1、将现有ASR与TTS技术的jar包或so包集成到测试系统;
步骤2、启动测试脚本,根据测试设备的序列号选择待测试的功能(ASR功能,TTS功能,skip跳过);当输入不正确的值时提示输入值不正确,弹出提示要求输入正确的值;
步骤3、根据所选择的待测试功能将PC中已配置好的Config配置文件推送/拷贝到测试设备;当本地配置文件不存在时提醒配置文件不存在停止运行;(对于ASR功能:Config配置文件中包含有识别语音的采样率,语音使用领域,是否有vad功能处理语音,nlu后处理,进行识别的服务器识别引擎版本,或离线识别引擎版本等参数信息;对于TTS功能:Config配置文件中包含有前端模型,后端模型,合成采样率,合成语速,使用场景,合成音效等参数信息;)
步骤4、启动测试系统,读取测试系统中存储的配置文件,并检查配置文件中的信息是否正常,当配置文件不正确时打印错误信息并停止运行;【需要检查的配置文件中的信息包括:待测试的功能的服务器地址,使用时的关键key值,当待测试功能为ASR功能时,还需要配置识别的语音信息、包含识别和唤醒的语音识别模式,并将配置文件按照对应的语音集文件名进行存储;当待测功能为TTS功能时,还需要配置TTS合成的文本信息,TTS的前端模型和后端模型】。
步骤5、配置文件检查通过后,开始进行对应的功能测试。
步骤5.1、ASR功能测试
步骤5.1.1、根据配置文件中的语音识别模式和语音信息获取语音识别模式以及语音数据文件,将语音数据文件进行播放形成语音,待测系统将接收的语音按照实际使用情况进行分割(每次默认送入数据大约10ms,此参数可在配置文件中配置)分段送入语音识别系统的app进行识别;如果语音识别模式是识别则进入识别模式,如果语音识别模式是唤醒则进行唤醒模式;(所述语音数据文件采用的是已经录制好的16K或48k的wav或pcm格式的语音数据;)
步骤5.1.2、当有识别或唤醒的结果返回时,获取识别或唤醒结果,并保存到测试设备;【识别结果文件保存格式为:当前进行识别的语音文件路径加文件名 语音开始识别的时间 语音结束识别的时间 语音识别的结果;识别结果文件保存格式为:第几次唤醒个数统计 返回结果的时间点】;当语音识别错误无结果返回时,使用空值并保存相关信息;
步骤5.2 TTS功能测试
步骤5.2.1、根据配置文件中TTS文本信息,前端模型,后端模型信息,加载TTS相关的信息到文本合成系统的app中,然后将文本信息送入进行合成;当合成失败时打印合成失败的信息,再继续合成下一条数据;
步骤5.2.2、文本合成之后,获取文本合成的语音保存到测试设备,将合成的语音再进行ASR语音识别;
步骤5.2.3、获取经TTS合成后语音的ASR语音识别结果保存到本地,并运行对应脚本进行结果计算;(如果PC获取测试设备数据失败,则需要手动获取数据到PC);
步骤6、所选择的测试功能均测试完毕后,将ASR测试中间结果保存到PC,运行对应脚本进行结果计算,并与对应的标准测试结果进行对比;(如果PC获取移动设备数据失败,则需要手动获取数据到PC);
步骤6.1、ASR功能结果处理并保存
步骤6.1.1、识别功能:通过标准文本的格式判断语音是长语音还是短语音,然后将识别的结果与标准文本进行对比,获取到本次识别结果的字错误率WER、句错误率SER或者词错误率;
步骤6.1.2、唤醒功能:通过语音集信息判断是正常唤醒还是误唤醒,如果是正常唤醒,将正常唤醒的测试结果与标准文本进行对比,剔除误唤醒数据,得到唤醒率;如果是误唤醒,根据误唤醒测试得到数据及时长,得到单位时间内的误唤醒值;
得到测试结果后将测试结果按照测试的文件名加时间进行保存,再将步骤3~6重复一遍后,进行下一轮测试;
步骤6.2、TTS功能以及后处理
步骤6.2.1、将TTS功能识别后的结果保存到PC上,然后与送入TTS进行合成的原始文本进行对比,将TTS进行合成的原始文本中与经ASR语音识别后结果不同的内容,进行保存,再将步骤3~6重复一遍后,进行下一轮测试;
步骤6.2.2、将步骤6.2.1的语音识别结果与步骤5.1.2中的ASR结果进行对比,判断是否有不一致的结果;
步骤6.2.3、挑出所有不一致的语音文件id或文本文件id;
步骤6.2.4、根据两次识别不一致的结果进行分析,判断具体问题。
为实现上述工作,如图3所示,本发明还公开了一种批量测试语音识别和文本合成的测试系统,其特征在于,包括控制模块1,以及分别与所述控制模块1相连接的存储模块2、输入模块3、文件发送模块4、语音输出模块5、文件接收模块6和测试结果输出模块7;
所述存储模块2用于存储配置文件以及测试所用的语音数据文件;
所述输入模块3用于选择待测试功能;
所述文件发送模块4用于向测试设备发送配置文件;
所述控制模块1分别用于接收所述输入模块3选择的待测功能结果,并调取存储模块存储2的所选待测功能的相应配置文件,并通过文件发送模块4将其发送至测试设备;
所述控制模块1用于调取存储模块2存储的语音数据文件,并通过语音输出模块5进行语音播放;
所述文件接收模块6用于接收待测系统的识别结果;
所述结果输出模块7用于输出测试结果并显示;
所述控制模块1用于分析对比所述文件接收模块6接收的识别结果得出测试结果,并将测试结果通过所述结果输出模块7进行输出和显示。
进一步的,所述控制模块1还包括自检模块,所述自检模块用于检查配置文件中的信息是否正常。
以上所述实施方式仅为本发明的优选实施例,而并非本发明可行实施的穷举。对于本领域一般技术人员而言,在不背离本发明原理和精神的前提下对其所作出的任何显而易见的改动,都应当被认为包含在本发明的权利要求保护范围之内。
Claims (5)
1.一种批量测试语音识别和文本合成的方法,其特征在于,包括以下步骤:
步骤1、将现有ASR与TTS技术的jar包或so包集成到测试系统;
步骤2、启动测试脚本,根据测试设备的序列号选择待测试的功能,所述待测试的功能包括ASR功能,TTS功能;当输入不正确的值时提示输入值不正确,弹出提示要求输入正确的值;
步骤3、根据所选择的待测试功能将PC中已配置好的Config配置文件推送/拷贝到测试设备;当本地配置文件不存在时提醒配置文件不存在停止运行;
步骤4、启动测试系统,读取测试系统中存储的配置文件,并检查配置文件中的信息是否正常,当配置文件不正确时打印错误信息并停止运行;
步骤5、配置文件检查通过后,开始进行对应的功能测试;
步骤5.1、ASR功能测试
步骤5.1.1、根据配置文件中的语音识别模式和语音信息获取语音识别模式以及语音数据文件,将语音数据文件进行播放形成语音,待测系统将接收的语音按照实际使用情况进行分割分段送入语音识别系统的app进行识别;如果语音识别模式是识别则进入识别模式,如果语音识别模式是唤醒则进行唤醒模式;所述语音数据文件采用的是已经录制好的16K或48k的wav或pcm格式的语音数据;
步骤5.1.2、当有识别或唤醒的结果返回时,获取识别或唤醒结果,并保存到测试设备;当语音识别错误无结果返回时,使用空值并保存相关信息;
步骤5.2TTS功能测试
步骤5.2.1、根据配置文件中TTS文本信息,前端模型,后端模型信息,加载TTS相关的信息到文本合成系统的app中,然后将文本信息送入进行合成;当合成失败时打印合成失败的信息,再继续合成下一条数据;
步骤5.2.2、文本合成之后,获取文本合成的语音保存到测试设备,将合成的语音再进行ASR语音识别;
步骤5.2.3、获取经TTS合成后语音的ASR语音识别结果保存到本地,并运行对应脚本进行结果计算;
步骤6、所选择的测试功能均测试完毕后,将ASR测试中间结果保存到PC,运行对应脚本进行结果计算,并与对应的标准测试结果进行对比;
步骤6.1、ASR功能结果处理并保存
步骤6.1.1、识别功能:通过标准文本的格式判断语音是长语音还是短语音,然后将识别的结果与标准文本进行对比,获取到本次识别结果的字错误率WER、句错误率SER或者词错误率;
步骤6.1.2、唤醒功能:通过语音集信息判断是正常唤醒还是误唤醒,如果是正常唤醒,将正常唤醒的测试结果与标准文本进行对比,剔除误唤醒数据,得到唤醒率;如果是误唤醒,根据误唤醒测试得到数据及时长,得到单位时间内的误唤醒值;
得到测试结果后将测试结果按照测试的文件名加时间进行保存,再将步骤3~6重复一遍后,进行下一轮测试;
步骤6.2、TTS功能以及后处理
步骤6.2.1、将TTS功能识别后的结果保存到PC上,然后与送入TTS进行合成的原始文本进行对比,将TTS进行合成的原始文本中与经ASR语音识别后结果不同的内容,进行保存,再将步骤3~6重复一遍后,进行下一轮测试;
步骤6.2.2、将步骤6.2.1的语音识别结果与步骤5.1.2中的ASR结果进行对比,判断是否有不一致的结果;
步骤6.2.3、挑出所有不一致的语音文件id或文本文件id;
步骤6.2.4、根据两次识别不一致的结果进行分析,判断具体问题。
2.根据权利要求1所述的一种批量测试语音识别和文本合成的方法,其特征在于,步骤3所述Config配置文件所包含的配置信息包括:对于ASR功能:Config配置文件中包含有识别语音的采样率,语音使用领域,是否有vad功能处理语音,nlu后处理,进行识别的服务器识别引擎版本,或离线识别引擎版本参数信息;对于TTS功能:Config配置文件中包含有前端模型,后端模型,合成采样率,合成语速,使用场景,合成音效参数信息。
3.根据权利要求1所述的一种批量测试语音识别和文本合成的方法,其特征在于,步骤4中需要检查的配置文件中的信息包括:待测试的功能的服务器地址,使用时的关键key值;当待测试功能为ASR功能时,还需要检查配置的识别的语音信息、包含识别和唤醒的语音识别模式,并将配置文件按照对应的语音集文件名进行存储;当待测功能为TTS功能时,还需要检查配置的TTS合成的文本信息,TTS的前端模型和后端模型。
4.一种批量测试语音识别和文本合成的测试系统,其特征在于,包括控制模块(1),以及分别与所述控制模块(1)相连接的存储模块(2)、输入模块(3)、文件发送模块(4)、语音输出模块(5)、文件接收模块(6)和结果输出模块(7);
所述存储模块(2)用于存储配置文件以及测试所用的语音数据文件;
所述输入模块(3)用于选择待测试功能;
所述文件发送模块(4)用于向测试设备发送配置文件;
所述控制模块(1)分别用于接收所述输入模块(3)选择的待测功能结果,并调取存储模块(2)存储的所选待测功能的相应配置文件,并通过文件发送模块(4)将其发送至测试设备;
所述控制模块(1)用于调取存储模块(2)存储的语音数据文件,并通过语音输出模块(5)进行语音播放;
所述文件接收模块(6)用于接收待测系统的识别结果;
所述结果输出模块(7)用于输出测试结果并显示;
所述控制模块(1)用于分析对比所述文件接收模块(6)接收的识别结果得出测试结果,并将测试结果通过所述结果输出模块(7)进行输出和显示;
利用所述测试系统进行批量测试语音识别和文本合成的方法,包括以下步骤:
步骤1、将现有ASR与TTS技术的jar包或so包集成到测试系统;
步骤2、启动测试脚本,根据测试设备的序列号选择待测试的功能,所述待测试的功能包括ASR功能,TTS功能;当输入不正确的值时提示输入值不正确,弹出提示要求输入正确的值;
步骤3、根据所选择的待测试功能将PC中已配置好的Config配置文件推送/拷贝到测试设备;当本地配置文件不存在时提醒配置文件不存在停止运行;
步骤4、启动测试系统,读取测试系统中存储的配置文件,并检查配置文件中的信息是否正常,当配置文件不正确时打印错误信息并停止运行;
步骤5、配置文件检查通过后,开始进行对应的功能测试;
步骤5.1、ASR功能测试
步骤5.1.1、根据配置文件中的语音识别模式和语音信息获取语音识别模式以及语音数据文件,将语音数据文件进行播放形成语音,待测系统将接收的语音按照实际使用情况进行分割分段送入语音识别系统的app进行识别;如果语音识别模式是识别则进入识别模式,如果语音识别模式是唤醒则进行唤醒模式;所述语音数据文件采用的是已经录制好的16K或48k的wav或pcm格式的语音数据;
步骤5.1.2、当有识别或唤醒的结果返回时,获取识别或唤醒结果,并保存到测试设备;当语音识别错误无结果返回时,使用空值并保存相关信息;
步骤5.2TTS功能测试
步骤5.2.1、根据配置文件中TTS文本信息,前端模型,后端模型信息,加载TTS相关的信息到文本合成系统的app中,然后将文本信息送入进行合成;当合成失败时打印合成失败的信息,再继续合成下一条数据;
步骤5.2.2、文本合成之后,获取文本合成的语音保存到测试设备,将合成的语音再进行ASR语音识别;
步骤5.2.3、获取经TTS合成后语音的ASR语音识别结果保存到本地,并运行对应脚本进行结果计算;
步骤6、所选择的测试功能均测试完毕后,将ASR测试中间结果保存到PC,运行对应脚本进行结果计算,并与对应的标准测试结果进行对比;
步骤6.1、ASR功能结果处理并保存
步骤6.1.1、识别功能:通过标准文本的格式判断语音是长语音还是短语音,然后将识别的结果与标准文本进行对比,获取到本次识别结果的字错误率WER、句错误率SER或者词错误率;
步骤6.1.2、唤醒功能:通过语音集信息判断是正常唤醒还是误唤醒,如果是正常唤醒,将正常唤醒的测试结果与标准文本进行对比,剔除误唤醒数据,得到唤醒率;如果是误唤醒,根据误唤醒测试得到数据及时长,得到单位时间内的误唤醒值;
得到测试结果后将测试结果按照测试的文件名加时间进行保存,再将步骤3~6重复一遍后,进行下一轮测试;
步骤6.2、TTS功能以及后处理
步骤6.2.1、将TTS功能识别后的结果保存到PC上,然后与送入TTS进行合成的原始文本进行对比,将TTS进行合成的原始文本中与经ASR语音识别后结果不同的内容,进行保存,再将步骤3~6重复一遍后,进行下一轮测试;
步骤6.2.2、将步骤6.2.1的语音识别结果与步骤5.1.2中的ASR结果进行对比,判断是否有不一致的结果;
步骤6.2.3、挑出所有不一致的语音文件id或文本文件id;
步骤6.2.4、根据两次识别不一致的结果进行分析,判断具体问题。
5.根据权利要求4所述的一种批量测试语音识别和文本合成的测试系统,其特征在于,所述控制模块(1)还包括自检模块,所述自检模块用于检查配置文件中的信息是否正常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811087317.8A CN109326305B (zh) | 2018-09-18 | 2018-09-18 | 一种批量测试语音识别和文本合成的方法和测试系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811087317.8A CN109326305B (zh) | 2018-09-18 | 2018-09-18 | 一种批量测试语音识别和文本合成的方法和测试系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109326305A CN109326305A (zh) | 2019-02-12 |
CN109326305B true CN109326305B (zh) | 2023-04-07 |
Family
ID=65265536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811087317.8A Active CN109326305B (zh) | 2018-09-18 | 2018-09-18 | 一种批量测试语音识别和文本合成的方法和测试系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109326305B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060667B (zh) * | 2019-03-15 | 2023-05-30 | 平安科技(深圳)有限公司 | 语音信息的批量处理方法、装置、计算机设备及存储介质 |
CN112329457B (zh) * | 2019-07-17 | 2024-07-23 | 北京声智科技有限公司 | 输入语音的识别方法及相关设备 |
CN110728975A (zh) * | 2019-10-10 | 2020-01-24 | 南京创维信息技术研究院有限公司 | 一种asr识别率自动化测试的系统及方法 |
CN111739512A (zh) * | 2020-06-18 | 2020-10-02 | 中汽院智能网联科技有限公司 | 一种基于实车的语音唤醒率测试方法、系统、设备及介质 |
CN112071305A (zh) * | 2020-11-16 | 2020-12-11 | 成都启英泰伦科技有限公司 | 一种本地离线智能语音批量识别模组及方法 |
CN113140217B (zh) * | 2021-04-08 | 2022-11-22 | 青岛歌尔智能传感器有限公司 | 语音指令测试方法、测试装置及可读存储介质 |
CN113223559A (zh) * | 2021-05-07 | 2021-08-06 | 北京有竹居网络技术有限公司 | 一种合成语音的评测方法、装置和设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578463A (zh) * | 2012-07-27 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 自动化测试方法及测试装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
CN102723080B (zh) * | 2012-06-25 | 2014-06-11 | 惠州市德赛西威汽车电子有限公司 | 一种语音识别测试系统及方法 |
US9734821B2 (en) * | 2015-06-30 | 2017-08-15 | International Business Machines Corporation | Testing words in a pronunciation lexicon |
CN107039050B (zh) * | 2016-02-04 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 对待测试语音识别系统的自动测试方法和装置 |
CN106548772A (zh) * | 2017-01-16 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | 语音识别测试系统及方法 |
CN107516510B (zh) * | 2017-07-05 | 2020-12-18 | 百度在线网络技术(北京)有限公司 | 一种智能设备自动化语音测试方法及装置 |
CN108540796A (zh) * | 2018-06-29 | 2018-09-14 | 易诚高科(大连)科技有限公司 | 一种拍摄终端测试设备 |
-
2018
- 2018-09-18 CN CN201811087317.8A patent/CN109326305B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578463A (zh) * | 2012-07-27 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 自动化测试方法及测试装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109326305A (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326305B (zh) | 一种批量测试语音识别和文本合成的方法和测试系统 | |
JP6857699B2 (ja) | 音声対話設備のウェイクアップ方法、装置、設備、記憶媒体、及びプログラム | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN102723080B (zh) | 一种语音识别测试系统及方法 | |
CN103021409B (zh) | 一种语音启动拍照系统 | |
CN109147761B (zh) | 一种基于批量语音识别和tts文本合成的测试方法 | |
CN111798833B (zh) | 一种语音测试方法、装置、设备和存储介质 | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN110675857A (zh) | 一种语音识别自动化测试系统及方法 | |
CN111724781B (zh) | 音频数据的存储方法、装置、终端及存储介质 | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
CN111179907B (zh) | 语音识别测试方法、装置、设备及计算机可读存储介质 | |
CN109637536B (zh) | 一种自动化识别语义准确性的方法及装置 | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN112509568A (zh) | 一种语音唤醒方法及装置 | |
CN110808050A (zh) | 语音识别方法及智能设备 | |
CN113782026A (zh) | 一种信息处理方法、装置、介质和设备 | |
CN109065024B (zh) | 异常语音数据检测方法及装置 | |
CN113129902B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN117351959A (zh) | 基于拼音纠错的多重模型语音识别与指令召回方法及装置 | |
CN111048068B (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN114999457A (zh) | 语音系统的测试方法、装置、存储介质及电子设备 | |
CN115019788A (zh) | 语音交互方法、系统、终端设备及存储介质 | |
CN114121038A (zh) | 音响语音测试方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liao Zhiliang Inventor after: Tao Liang Inventor after: Wang Daoning Inventor after: Zhang Yadong Inventor after: Ma Limin Inventor before: Ma Yongfei Inventor before: Wang Daoning Inventor before: Ma Limin |
|
GR01 | Patent grant | ||
GR01 | Patent grant |