CN109192193B - 一种语音识别产品测试方法和测试装置 - Google Patents

一种语音识别产品测试方法和测试装置 Download PDF

Info

Publication number
CN109192193B
CN109192193B CN201810924371.7A CN201810924371A CN109192193B CN 109192193 B CN109192193 B CN 109192193B CN 201810924371 A CN201810924371 A CN 201810924371A CN 109192193 B CN109192193 B CN 109192193B
Authority
CN
China
Prior art keywords
command
playing
voice recognition
audio file
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810924371.7A
Other languages
English (en)
Other versions
CN109192193A (zh
Inventor
荣霞芳
袁龙刚
彭浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Hongmei Intelligent Technology Co Ltd
Original Assignee
Sichuan Hongmei Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Hongmei Intelligent Technology Co Ltd filed Critical Sichuan Hongmei Intelligent Technology Co Ltd
Priority to CN201810924371.7A priority Critical patent/CN109192193B/zh
Publication of CN109192193A publication Critical patent/CN109192193A/zh
Application granted granted Critical
Publication of CN109192193B publication Critical patent/CN109192193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

本发明提供了一种语音识别产品测试方法和测试装置,该测试方法包括:获取待测试的语音识别产品所对应语音命令的命令音频文件,并确定至少一个命令播放距离以及命令标准声强范围;针对每一个命令播放距离,在与语音识别产品之间距离等于命令该播放距离的第一目标位置对命令音频文件进行播放,将对命令音频文件进行播放的音量调节至第一目标音量,以使语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,按照第一目标音量在第一目标位置对命令音频文件进行至少一次播放,并获取每一次播放时语音识别产品产生的动作指令;根据语音识别产品对应于各个命令播放距离产生的动作指令确定其语音识别概率。本方案能够提高测试结果的可信度。

Description

一种语音识别产品测试方法和测试装置
技术领域
本发明涉及产品测试技术领域,特别涉及一种语音识别产品测试方法和测试装置。
背景技术
语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),其本质是将人类语音中的词汇内容转换为计算机可读的输入,被广泛应用于语音拨号、语音导航、室内设备控制等。在开发具有语音识别功能的语音识别产品时,为了保证语音识别产品在相应使用环境中能够正常识别用户发出的语音命令,需要对语音识别产品的语音识别功能进行测试。
目前,在对语音识别产品的语音识别功能进行测试时,由人工发出语音命令,根据语音识别产品是否执行与语音命令相对应的操作来判断语音识别产品的语音识别率是否达标。
针对目前对语音识别产品的语音识别功能进行测试的方法,在测试过程中由人工发出语音命令,但是不同测试人员所发出语音命令的声调和声强各不相同,即使同一测试人员在不同测试中所发出语音命令的声调和声强也不尽相同,因此测试过程对语音命令没有统一的标准要求,从而导致测试结果的可信度较低。
发明内容
本发明实施例提供了一种语音识别产品测试方法和测试装置,能够提高测试结果的可信度。
第一方面,本发明实施例提供了一种语音识别产品测试方法,包括:
获取待测试的语音识别产品所对应语音命令的命令音频文件,并确定至少一个命令播放距离以及命令标准声强范围;
针对每一个所述命令播放距离均执行:
在与所述语音识别产品之间距离等于所述命令播放距离的第一目标位置对所述命令音频文件进行播放;
将对所述命令音频文件进行播放的音量调节至第一目标音量,以使所述语音识别产品所在位置处所述语音命令的声强位于所述命令标准声强范围内;
按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放,并获取每一次播放时所述语音识别产品产生的动作指令;
根据所述语音识别产品对应于各个所述命令播放距离产生的所述动作指令,确定所述语音识别产品的语音识别概率。
可选地,
在所述按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放之前,进一步包括:
获取所述语音识别产品对应的噪声音频文件,并确定噪声播放距离、噪声标准声强范围和标准信噪比;
在与所述语音识别产品之间距离等于所述噪声播放距离的第二目标位置对所述噪声音频文件进行播放;
将对所述噪声音频文件进行播放的音量调节至第二目标音量,以使所述语音识别产品所在位置处所述噪声音频文件所对应噪声的声强位于所述噪声标准声强范围内,且使所述语音命令与所述噪声的信噪比大于所述标准信噪比;
所述按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放,包括:
按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放,并在每一次播放所述命令音频文件的同时按照所述第二目标音量在所述第二目标位置对所述噪声音频文件进行播放。
可选地,
所述根据所述语音识别产品对应于各个所述命令播放距离产生的所述动作指令,确定所述语音识别产品的语音识别概率,包括:
将所述语音识别产品对应于各个所述命令播放距离产生的各个所述动作指令上传至服务器;
通过所述服务器确定各个所述动作指令中与预设标准动作指令相匹配的所述动作指令的个数,并通过如下公式计算所述语音识别产品的语音识别概率;
Figure BDA0001765006860000031
其中,所述P表征所述语音识别产品的语音识别概率;所述k表征所述命令播放距离的个数;所述li表征第i个所述命令播放距离的值,所述Mi表征在第i个所述命令播放距离对应的所述第一目标位置播放所述命令音频文件的次数;所述mi表征所述语音识别产品对应于第i个所述命令播放距离所产生各个所述动作指令中与所述预设标准动作指令相匹配的所述动作指令的个数。
可选地,
所述至少一个命令播放距离包括:1m、3m和5m;
所述噪声播放距离包括1.5m。
可选地,
所述命令标准声强范围包括60-70dBA;
所述噪声标准声强范围包括0-60dBA;
所述标准信噪比包括10dBA。
可选地,
所述对所述命令音频文件进行播放,包括:通过人工嘴对所述命令音频文件进行播放。
可选地,
所述对所述命令音频文件进行至少一次播放,包括:通过人工嘴对所述命令音频文件进行至少一次播放。
第二方面,本发明实施例提供了一种语音识别产品测试装置,包括:预处理单元、命令播放单元和结果处理单元;
所述预处理单元,用于获取待测试的语音识别产品所对应语音命令的命令音频文件,并确定至少一个命令播放距离以及命令标准声强范围;
所述命令播放单元,用于针对所述预处理单元确定的每一个所述命令播放距离,在与所述语音识别产品之间距离等于所述命令播放距离的第一目标位置对所述命令音频文件进行播放,并将对所述命令音频文件进行播放的音量调节至第一目标音量,以使所述语音识别产品所在位置处所述语音命令的声强位于所述命令标准声强范围内,以及按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放,并获取每一次播放时所述语音识别产品产生的动作指令;
所述结果处理单元,用于根据所述命令播放单元获取到的所述语音识别产品对应于各个所述命令播放距离产生的所述动作指令,确定所述语音识别产品的语音识别概率。
可选地,
该语音识别产品测试装置进一步包括:噪声播放单元;
所述预处理单元,进一步用于获取所述语音识别产品对应的噪声音频文件,并确定噪声播放距离、噪声标准声强范围和标准信噪比;
所述噪声播放单元,用于在与所述语音识别产品之间距离等于所述噪声播放距离的第二目标位置对所述噪声音频文件进行播放,并将对所述噪声音频文件进行播放的音量调节至第二目标音量,以使所述语音识别产品所在位置处所述噪声音频文件所对应噪声的声强位于所述噪声标准声强范围内,且所述语音命令与所述噪声的信噪比大于所述标准信噪比,以及在所述命令播放单元每一次按照所述第一目标音量播放所述命令音频文件的同时按照所述第二目标音量在所述第二目标位置对所述噪声音频文件进行播放。
可选地,
所述结果处理单元,用于将所述语音识别产品对应于各个所述命令播放距离产生的各个所述动作指令上传至服务器,并通过所述服务器确定各个所述动作指令中与预设标准动作指令相匹配的所述动作指令的个数,以及通过如下公式计算所述语音识别产品的语音识别概率;
Figure BDA0001765006860000051
其中,所述P表征所述语音识别产品的语音识别概率;所述k表征所述命令播放距离的个数;所述li表征第i个所述命令播放距离的值,所述Mi表征在第i个所述命令播放距离对应的所述第一目标位置播放所述命令音频文件的次数;所述mi表征所述语音识别产品对应于第i个所述命令播放距离所产生各个所述动作指令中与所述预设标准动作指令相匹配的所述动作指令的个数。
可选地,
所述命令播放单元,用于通过人工嘴对所述命令音频文件进行播放。
本发明实施例提供的语音识别产品测试方法和测试装置,为每一个命令播放距离定义相对应的命令标准声强范围,针对每一个命令播放距离,将对命令音频文件进行播放的音量调节至第一目标音量,使得在与语音识别产品距离等于该命令播放距离的第一目标位置播放音频文件时语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,之后在第一目标位置按照第一目标音量对命令音频文件进行播放并获取语音识别产品产生的动作指令,最后根据语音识别产品对应于各个命令播放距离产生的动作指令来确定其与语音识别概率。在每一个命令播放距离对应的位置播放命令音频文件时,保证语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,通过播放命令音频文件保证测试过程中语音识别产品接收到的语音命令具有相同的声调,因此针对每一次命令音频文件播放都对声强和声调进行了统一的标准要求,从而可以提高语音识别产品测试结果的可信度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种语音识别产品测试方法的流程图;
图2是本发明一个实施例提供的另一种语音识别产品测试方法的流程图;
图3是本发明一个实施例提供的一种语音识别产品测试装置所在设备的示意图;
图4是本发明一个实施例提供的一种语音识别产品测试装置的示意图;
图5是本发明一个实施例提供的另一种语音识别产品测试装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种语音识别产品测试方法,该方法可以包括以下步骤:
步骤101:获取待测试的语音识别产品所对应语音命令的命令音频文件,并确定至少一个命令播放距离以及命令标准声强范围;
步骤102:针对每一个命令播放距离,在与语音识别产品之间距离等于当前命令播放距离的第一目标位置对命令音频文件进行播放;
步骤103:将对命令音频文件进行播放的音量调节至第一目标音量,以使语音识别产品所在位置处语音命令的声强位于命令标准声强范围内;
步骤104:按照第一目标音量在第一目标位置对命令音频文件进行至少一次播放,并获取每一次播放时语音识别产品产生的动作指令;
步骤105:根据语音识别产品对应于各个命令播放距离产生的动作指令,确定语音识别产品的语音识别概率。
本发明实施例提供了一种语音识别产品测试方法,为每一个命令播放距离定义相对应的命令标准声强范围,针对每一个命令播放距离,将对命令音频文件进行播放的音量调节至第一目标音量,使得在与语音识别产品距离等于该命令播放距离的第一目标位置播放音频文件时语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,之后在第一目标位置按照第一目标音量对命令音频文件进行播放并获取语音识别产品产生的动作指令,最后根据语音识别产品对应于各个命令播放距离产生的动作指令来确定其与语音识别概率。在每一个命令播放距离对应的位置播放命令音频文件时,保证语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,通过播放命令音频文件保证测试过程中语音识别产品接收到的语音命令具有相同的声调,因此针对每一次命令音频文件播放都对声强和声调进行了统一的标准要求,从而可以提高语音识别产品测试结果的可信度。
可选地,语音识别产品在接收到语音命令后,会对语音命令进行解析,通过将解析结果与指令数据中存储的动作指令进行匹配,当成功匹配到动作指令后,语音识别产品会根据匹配到的动作指令执行相应的动作。本发明实施例通过获取每一次播放命令音频文件时语音识别产品所匹配到的动作指令,进而根据获取到的动作指令正确与否来确定语音识别产品的语音识别概率,这样,无需通过人工记录每一次播放命令音频文件后语音识别产品的动作,一方面可以减小测试过程中人工参与的程度,另一方面可以避免人工记录错误对测试结果造成影响。
至于获取语音识别产品所产生动作指令的方法,可以通过语音识别产品上的串口将语音识别产品所产生的动作指令导出,还可以通过读取语音识别产品的工作日志来确定每次播放命令音频文件后语音识别产品所产生的动作指令。
需要说明的是,在每一次播放命令音频文件之后,如果语音识别产品没有成功识别该音频文件对应的语音命令,则语音识别产品可能不会产生动作指令,但是最终根据动作指令与语音命令相匹配的占比来确定语音识别产品的语音识别概率,没有产生动作指令即为与相应的语音命令不匹配,因此不会影响测试过程的正常进行。
可选地,在图1所示语音识别产品测试方法的基础上,在每一次播放命令音频文件时,可以同时播放相对应的噪声音频文件,以模拟语音识别产品的真实使用环境,进一步提高语音识别产品测试结果的可信度,具体可以通过如下方式实现:
在步骤104之前:
获取语音识别产品对应的噪声音频文件,并确定噪声播放距离、噪声标准声强范围和标准信噪比;
在与语音识别产品之间距离等于噪声播放距离的第二目标位置对噪声音频文件进行播放;
将对噪声音频文件进行播放的音量调节至第二目标音量,以使语音识别产品所在位置处噪声音频文件所对应噪声的声强位于噪声标准声强范围内,并且使语音命令与噪声的信噪比大于标准信噪比;
相应地,在执行步骤105时:
针对每一个命令播放距离,按照与该命令播放距离相对应的第一目标音量在相对应的第一目标位置对命令音频文件进行至少一次播放,并在每一次播放命令音频文件的同时按照第二目标音量在第二目标位置对噪声音频文件进行播放。
根据待测试语音识别产品的实际使用环境获得相对应的噪声音频文件后,确定噪声播放距离、噪声标准声强范围和标准信噪比,根据噪声标准声强范围确定播放噪声音频文件的第二目标位置和第二目标音量,在每一次播放命令音频文件的同时,在第二目标位置按照第二目标音量对噪声音频文件进行播放,模拟语音识别产品的真实使用环境,从而可以进一步提升对语音识别产品的语音识别功能进行测试的准确性。
通过确定播放噪声音频文件的第二目标位置和第二目标音量,使得播放噪声音频文件的声强也具有统一的标准要求,保证每一个对语音识别产品的语音识别功能进行测试都具有相同的测试条件,从而可以保证模拟真实使用环境对语音识别产品进行测试时测试结果的可信度。
可选地,在图1所述语音识别产品测试方法的基础上,步骤105根据获取到的各个动作指令确定语音识别产品的语音识别概率时,可以通过如下方式实现:
将语音识别产品对应于各个命令播放距离所产生的各个动作指令上传至服务器;
通过服务器确定各个动作指令中与预设标准动作指令相匹配的动作指令的个数,并通过如下公式计算语音识别产品的语音识别概率;
Figure BDA0001765006860000091
其中,P表征语音识别产品的语音识别概率;k表征命令播放距离的个数;li表征第i个命令播放距离的值,Mi表征在第i个命令播放距离对应的第一目标位置播放命令音频文件的次数;mi表征语音识别产品对应于第i个命令播放距离所产生各个动作指令中与预设标准动作指令相匹配的动作指令的个数。
获取到每一次播放命令音频文件后语音识别产品所产生的各个动作指令后,将获取到的各个动作指令上传至服务器进行处理。服务器首先确定各个动作指令中与预设标准动作指令相匹配的动作指令的个数,之后将确定出的个数代入上述公式计算语音识别产品的语音识别概率。由于命令音频文件可能对应有多个语音命令,根据语音命令的播放顺序预先确定标准动作指令,进而服务器可以确定所上传动作指令中与标准动作指令相匹配的动作指令的个数。
考虑不同命令播放距离的值,以及所获取动作指令中与标准动作指令相匹配的动作指令的个数,通过上述公式计算语音识别产品的语音识别概率,保证计算出的语音识别概率能够更加客观地反映语音识别产品对语音命令进行识别的能力。
可选地,在上述涉及噪声音频文件播放的语音识别产品测试方法实施例的基础上,确定的至少一个命令播放距离可以为1m、3m和5m,相应地,噪声播放距离可以为1.5m。
通过确定多个命令播放距离,进而可以确定多个命令播放距离对应的多个第一目标位置,通过在不同的第一目标位置播放命令音频文件对语音识别产品的语音识别功能进行测试,以模拟用户在相对于语音识别产品的不同位置发出语音命令,使得测试过程更加贴近语音识别产品的展示使用场景,进一步提升测试结果的可信度。
可选地,在上述实施例所提供语音识别产品测试方法的基础上,命令标准声强范围可以是60-70dBA,噪声标准声强范围可以是0-60dBA,标准信噪比可以是10dBA。
需要说明的是,命令标准声强范围可以是一个区间,比如上述实施例提供的60-70dBA,除此之外,命令标准声强还可以是一个值,比如命令标准声强可以是65dBA。
可选地,在上述各个实施例所提供语音识别产品测试方法的基础上,在对命令音频文件进行播放时,可以通过人工嘴对命令音频文件进行播放。
人工嘴又被称为仿真嘴,可以模拟人嘴的平均指向性和辐射图案,通过人工嘴播放命令音频文件,使得播放命令音频文件所发出的语音命令更加接近人的真实发声,使对语音识别产品进行测试的测试环境更加贴近语音识别产品的真实使用环境,进一步提高对语音识别产品的语音识别功能进行测试的准确性。
下面以同时播放命令音频文件和噪声音频文件为例,对本发明实施例提供的语音识别产品测试方法作进一步详细说明,如图2所示,该方法可以包括以下步骤:
步骤201:获取待测语音识别产品相对应的命令音频文件和噪声音频文件。
在本发明实施例中,在需要对一个语音识别产品的语音识别功能进行测试时,获取对应于该语音识别产品的各个语音命令的命令音频文件,并获取对应于该语音识别产品使用环境的噪声音频文件。其中,命令音频文件被播放时可以依次形成多个语音命令,各个语音命令均是可以对语音识别产品进行相应的控制;另外,噪声音频文件被播放时可以形成模拟语音识别产品真是使用环境下的噪声。
例如,在需要求对具有语音识别功能的烟机的语音识别功能进行测试时,获取到的命令音频文件播放时可以形成“开机”、“关机”、“高速”、“低速”等语音命令,获取到的噪声音频文件播放时可以形成切菜声、炒菜声、流水声等厨房噪声。
步骤202:确定至少一个命令播放距离,以及确定命令标准声强范围、噪声播放距离、噪声标准声强范围和标准信噪比。
在本发明实施例中,确定一个或多个命令播放距离,并确定命令标准声强范围、噪声播放距离、噪声标准声强范围和标准信噪比。其中,命令播放距离是播放命令音频文件的位置距待测试语音识别产品的距离,噪声播放距离是播放噪声音频文件的位置距待测试语音识别产品的距离,命令标准声强范围是衡量语音识别产品所在位置处语音命令声强的声强阈值范围,噪声标准声强范围是衡量语音识别产品所在位置处噪声声强的声强阈值范围,标准信噪比是衡量语音识别产品所在位置处语音命令与噪声信噪比的信噪比阈值。
例如,确定3个命令播放距离,命令播放距离1为1m,命令播放距离2为3m,命令播放距离3为5m,确定噪声播放距离为1.5m,确定命令标准声强范围为60-70dBA,确定噪声标准声强范围为0-60dBA,确定标准信噪比为10dBA。
步骤203:针对每一个命令播放距离,确定该命令播放距离对应的第一播放音量。
在本发明实施例中,针对确定出的每一个命令播放距离,在与语音识别产品之间距离等于该命令播放距离的第一目标位置对命令音频文件进行播放,对命令音频文件的播放音量进行调节,使语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,记录此时命令音频文件的播放音量为第一目标音量。其中,第一目标位置是与语音识别产品正面相对,通过人工嘴对命令音频文件进行播放,人工嘴与语音识别产品底面之间的高度差为30cm。
例如,针对数值为1m的命令播放距离1,在距离语音识别产品1m的第一目标位置1通过人工嘴播放命令音频文件,通过分贝仪测量待测试烟机的麦克风位置的声强,调节人工嘴播放命令音频文件的音量直至分贝仪测量到的声强位于60-70dBA内,记录此时人工嘴播放命令音频文件的音量为命令播放距离1对应的第一目标音量1。相应地,获得命令播放距离2对应的第一目标音量2和命令播放距离3对应的第一目标音量3。
步骤204:确定播放噪声音频文件时的第二目标音量。
在本发明实施例中,在与语音识别产品之间距离等于噪声播放距离的第二目标位置对噪声音频文件进行播放,通过对噪声音频文件的播放音量进行调节,使语音识别产品所在位置处噪声的声强位于噪声标准声强范围内,记录此时噪声音频文件的播放音量为第二目标音量。其中,通过多个扬声器同时播放噪声音频文件,各个扬声器环绕语音识别产品布置,且各个扬声器与语音识别产品之间的距离均等于噪声播放距离。
例如,在待测试烟机的周围布置5个扬声器,每个扬声器与语音识别产品之间的距离均等于1.5m,通过各个扬声器播放噪声音频文件,通过分贝仪测量待测试烟机的麦克风位置的声强,调节扬声器播放噪声音频文件的音量直至分贝仪测量到的声强位于0-60dBA内,且使信噪比大于10dBA,记录此时扬声器播放噪声音频文件的音量为第二目标音量。
步骤205:针对每一个命令播放距离,在相对应第一目标位置按照相对应的第一目标音量对命令音频文件进行播放,同时在第二目标位置按照第二目标音量对噪声音频文件进行播放,并获得语音识别产品产生的动作指令。
在本发明实施例中,针对每一个命令播放距离,在该命令播放距离对应的第一目标位置,按照该命令播放距离对应的第一目标音量对命令音频文件进行一次或多次播放,在播放命令音频文件的同时在第二目标位置按照第二目标音量对噪声音频文件进行播放。每次播放命令音频文件后,获取语音识别产品所生成的动作指令。
例如,在第一目标位置1按照第一目标音量1,通过人工嘴对命令音频文件播放10次,每次播放命令音频文件的同时在第二目标位置按照第二目标音量,通过扬声器对噪声音频文件进行播放。在每次播放命令音频文件后,获取待测试烟机根据语音命令所生成的动作指令。
步骤206:将获取到的各个动作指令上传到服务器。
在本发明实施例中,在各个命令播放距离对应的第一目标位置完成命令音频文件播放后,获取语音识别产品针对每一次播放命令音频文件所产生的动作指令,并将获取到的各个动作指令上传到服务器。
例如,通过待测试烟机上的串口,将待测试烟机产生的各个动作指令上传到服务器上。
步骤207:在服务器上根据各个动作指令确定语音识别产品的语音识别概率。
在本发明实施例中,服务器将上传来的各个动作指令与预先设定的标准动作指令进行匹配,确定匹配成功的动作指令的个数,然后通过如下公式计算语音识别产品的语音识别率;
Figure BDA0001765006860000131
其中,P表征语音识别产品的语音识别概率;k表征命令播放距离的个数;li表征第i个命令播放距离的值,Mi表征在第i个命令播放距离对应的第一目标位置播放命令音频文件的次数;mi表征语音识别产品对应于第i个命令播放距离所产生各个动作指令中与预设标准动作指令相匹配的动作指令的个数。
例如,在第一目标位置1按照第一目标音量1对命令音频文件播放了5000次,获取到了4900个动作指令,其中有4800个动作指令与相对应的标准动作指令匹配成功。在第一目标位置2按照第一目标音量2对命令音频文件播放了5000次,获取到4800个动作指令,其中有4750个动作指令与相对应的标准动作指令匹配成功。在第一目标位置3按照第一目标音量3对命令音频文件播放了5000次,获取到4850个动作指令,其中有4800个动作指令与相对应的标准动作指令匹配成功。则将k=3,l1=1,l2=3,l3=5,M1=M2=M3=5000,m1=4800,m2=4750,m3=4800代入上述公式,计算出待测试烟机的语音识别概率。
如图3、图4所示,本发明实施例提供了一种语音识别产品测试装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的语音识别产品测试装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的语音识别产品测试装置,包括:预处理单元401、命令播放单元402和结果处理单元403;
预处理单元401,用于获取待测试的语音识别产品所对应语音命令的命令音频文件,并确定至少一个命令播放距离以及命令标准声强范围;
命令播放单元402,用于针对预处理单元401确定的每一个命令播放距离,在与语音识别产品之间距离等于命令播放距离的第一目标位置对命令音频文件进行播放,并将对命令音频文件进行播放的音量调节至第一目标音量,以使语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,以及按照第一目标音量在第一目标位置对命令音频文件进行至少一次播放,并获取每一次播放时语音识别产品产生的动作指令;
结果处理单元403,用于根据命令播放单元402获取到的语音识别产品对应于各个命令播放距离产生的动作指令,确定语音识别产品的语音识别概率。
可选地,在图4所示语音识别产品测试装置的基础上,如图5所示,该语音识别产品测试装置进一步包括:噪声播放单元504;
预处理单元401,进一步用于获取语音识别产品对应的噪声音频文件,并确定噪声播放距离、噪声标准声强范围和标准信噪比;
噪声播放单元504,用于在与语音识别产品之间距离等于噪声播放距离的第二目标位置对噪声音频文件进行播放,并将对噪声音频文件进行播放的音量调节至第二目标音量,以使语音识别产品所在位置处噪声音频文件所对应噪声的声强位于噪声标准声强范围内,且语音命令与噪声的信噪比大于标准信噪比,以及在命令播放单元402每一次按照第一目标音量播放命令音频文件的同时按照第二目标音量在第二目标位置对噪声音频文件进行播放。
可选地,在图4所示语音识别产品测试装置的基础上,
结果处理单元403,用于将语音识别产品对应于各个命令播放距离产生的各个动作指令上传至服务器,并通过服务器确定各个动作指令中与预设标准动作指令相匹配的动作指令的个数,以及通过如下公式计算语音识别产品的语音识别概率;
Figure BDA0001765006860000151
其中,P表征语音识别产品的语音识别概率;k表征命令播放距离的个数;li表征第i个命令播放距离的值,Mi表征在第i个命令播放距离对应的第一目标位置播放命令音频文件的次数;mi表征语音识别产品对应于第i个命令播放距离所产生各个动作指令中与预设标准动作指令相匹配的动作指令的个数。
可选地,在上述各实施例所提供语音识别产品测试装置的基础上,
命令播放单元402,用于通过人工嘴对命令音频文件进行播放。
需要说明的是,上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述各个实施例提供的语音识别产品测试方法。
本发明实施例还提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述各个实施例提供的语音识别产品测试方法。
综上所述,本发明各个实施例提供的语音识别产品测试方法和测试装置,至少具有如下有益效果:
1、在本发明实施例中,为每一个命令播放距离定义相对应的命令标准声强范围,针对每一个命令播放距离,将对命令音频文件进行播放的音量调节至第一目标音量,使得在与语音识别产品距离等于该命令播放距离的第一目标位置播放音频文件时语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,之后在第一目标位置按照第一目标音量对命令音频文件进行播放并获取语音识别产品产生的动作指令,最后根据语音识别产品对应于各个命令播放距离产生的动作指令来确定其与语音识别概率。在每一个命令播放距离对应的位置播放命令音频文件时,保证语音识别产品所在位置处语音命令的声强位于命令标准声强范围内,通过播放命令音频文件保证测试过程中语音识别产品接收到的语音命令具有相同的声调,因此针对每一次命令音频文件播放都对声强和声调进行了统一的标准要求,从而可以提高语音识别产品测试结果的可信度。
2、在本发明实施例中,通过获取每一次播放命令音频文件时语音识别产品所匹配到的动作指令,进而根据获取到的动作指令正确与否来确定语音识别产品的语音识别概率,这样,无需通过人工记录每一次播放命令音频文件后语音识别产品的动作,一方面可以减小测试过程中人工参与的程度,另一方面可以避免人工记录错误对测试结果造成影响。
3、在本发明实施例中,根据待测试语音识别产品的实际使用环境获得相对应的噪声音频文件后,确定噪声播放距离、噪声标准声强范围和标准信噪比,根据噪声标准声强范围确定播放噪声音频文件的第二目标位置和第二目标音量,在每一次播放命令音频文件的同时,在第二目标位置按照第二目标音量对噪声音频文件进行播放,模拟语音识别产品的真实使用环境,从而可以进一步提升对语音识别产品的语音识别功能进行测试的准确性。
4、在本发明实施例中,考虑不同命令播放距离的值,以及所获取动作指令中与标准动作指令相匹配的动作指令的个数,通过上述公式计算语音识别产品的语音识别概率,保证计算出的语音识别概率能够更加客观地反映语音识别产品对语音命令进行识别的能力。
5、在本发明实施例中,通过确定多个命令播放距离,进而可以确定多个命令播放距离对应的多个第一目标位置,通过在不同的第一目标位置播放命令音频文件对语音识别产品的语音识别功能进行测试,以模拟用户在相对于语音识别产品的不同位置发出语音命令,使得测试过程更加贴近语音识别产品的展示使用场景,进一步提升测试结果的可信度。
6、在本发明实施例中,人工嘴又被称为仿真嘴,可以模拟人嘴的平均指向性和辐射图案,通过人工嘴播放命令音频文件,使得播放命令音频文件所发出的语音命令更加接近人的真实发声,使对语音识别产品进行测试的测试环境更加贴近语音识别产品的真实使用环境,进一步提高对语音识别产品的语音识别功能进行测试的准确性。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种语音识别产品测试方法,其特征在于,包括:
获取待测试的语音识别产品所对应语音命令的命令音频文件,并确定至少一个命令播放距离以及命令标准声强范围;
针对每一个所述命令播放距离均执行:
在与所述语音识别产品之间距离等于所述命令播放距离的第一目标位置对所述命令音频文件进行播放;
将对所述命令音频文件进行播放的音量调节至第一目标音量,以使所述语音识别产品所在位置处所述语音命令的声强位于所述命令标准声强范围内;
按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放,并获取每一次播放时所述语音识别产品产生的动作指令;
根据所述语音识别产品对应于各个所述命令播放距离产生的所述动作指令,确定所述语音识别产品的语音识别概率;
所述根据所述语音识别产品对应于各个所述命令播放距离产生的所述动作指令,确定所述语音识别产品的语音识别概率,包括:
将所述语音识别产品对应于各个所述命令播放距离产生的各个所述动作指令上传至服务器;
通过所述服务器确定各个所述动作指令中与预设标准动作指令相匹配的所述动作指令的个数,并通过如下公式计算所述语音识别产品的语音识别概率;
Figure FDA0002418815020000011
其中,所述P表征所述语音识别产品的语音识别概率;所述k表征所述命令播放距离的个数;所述li表征第i个所述命令播放距离的值,所述Mi表征在第i个所述命令播放距离对应的所述第一目标位置播放所述命令音频文件的次数;所述mi表征所述语音识别产品对应于第i个所述命令播放距离所产生各个所述动作指令中与所述预设标准动作指令相匹配的所述动作指令的个数。
2.根据权利要求1所述的方法,其特征在于,
在所述按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放之前,进一步包括:
获取所述语音识别产品对应的噪声音频文件,并确定噪声播放距离、噪声标准声强范围和标准信噪比;
在与所述语音识别产品之间距离等于所述噪声播放距离的第二目标位置对所述噪声音频文件进行播放;
将对所述噪声音频文件进行播放的音量调节至第二目标音量,以使所述语音识别产品所在位置处所述噪声音频文件所对应噪声的声强位于所述噪声标准声强范围内,且使所述语音命令与所述噪声的信噪比大于所述标准信噪比;
所述按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放,包括:
按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放,并在每一次播放所述命令音频文件的同时按照所述第二目标音量在所述第二目标位置对所述噪声音频文件进行播放。
3.根据权利要求2所述的方法,其特征在于,
所述至少一个命令播放距离包括:1m、3m和5m;
所述噪声播放距离包括1.5m。
4.根据权利要求3所述的方法,其特征在于,
所述命令标准声强范围包括60-70dBA;
所述噪声标准声强范围包括0-60dBA;
所述标准信噪比包括10dBA。
5.根据权利要求1至4中任一所述的方法,其特征在于,
所述对所述命令音频文件进行播放,包括:通过人工嘴对所述命令音频文件进行播放;
和/或,
所述对所述命令音频文件进行至少一次播放,包括:通过人工嘴对所述命令音频文件进行至少一次播放。
6.一种语音识别产品测试装置,其特征在于,包括:预处理单元、命令播放单元和结果处理单元;
所述预处理单元,用于获取待测试的语音识别产品所对应语音命令的命令音频文件,并确定至少一个命令播放距离以及命令标准声强范围;
所述命令播放单元,用于针对所述预处理单元确定的每一个所述命令播放距离,在与所述语音识别产品之间距离等于所述命令播放距离的第一目标位置对所述命令音频文件进行播放,并将对所述命令音频文件进行播放的音量调节至第一目标音量,以使所述语音识别产品所在位置处所述语音命令的声强位于所述命令标准声强范围内,以及按照所述第一目标音量在所述第一目标位置对所述命令音频文件进行至少一次播放,并获取每一次播放时所述语音识别产品产生的动作指令;
所述结果处理单元,用于根据所述命令播放单元获取到的所述语音识别产品对应于各个所述命令播放距离产生的所述动作指令,确定所述语音识别产品的语音识别概率;
所述结果处理单元,用于将所述语音识别产品对应于各个所述命令播放距离产生的各个所述动作指令上传至服务器,并通过所述服务器确定各个所述动作指令中与预设标准动作指令相匹配的所述动作指令的个数,以及通过如下公式计算所述语音识别产品的语音识别概率;
Figure FDA0002418815020000031
其中,所述P表征所述语音识别产品的语音识别概率;所述k表征所述命令播放距离的个数;所述li表征第i个所述命令播放距离的值,所述Mi表征在第i个所述命令播放距离对应的所述第一目标位置播放所述命令音频文件的次数;所述mi表征所述语音识别产品对应于第i个所述命令播放距离所产生各个所述动作指令中与所述预设标准动作指令相匹配的所述动作指令的个数。
7.根据权利要求6所述的装置,其特征在于,进一步包括:噪声播放单元;
所述预处理单元,进一步用于获取所述语音识别产品对应的噪声音频文件,并确定噪声播放距离、噪声标准声强范围和标准信噪比;
所述噪声播放单元,用于在与所述语音识别产品之间距离等于所述噪声播放距离的第二目标位置对所述噪声音频文件进行播放,并将对所述噪声音频文件进行播放的音量调节至第二目标音量,以使所述语音识别产品所在位置处所述噪声音频文件所对应噪声的声强位于所述噪声标准声强范围内,且所述语音命令与所述噪声的信噪比大于所述标准信噪比,以及在所述命令播放单元每一次按照所述第一目标音量播放所述命令音频文件的同时按照所述第二目标音量在所述第二目标位置对所述噪声音频文件进行播放。
8.根据权利要求6或7所述的装置,其特征在于,
所述命令播放单元,用于通过人工嘴对所述命令音频文件进行播放。
CN201810924371.7A 2018-08-14 2018-08-14 一种语音识别产品测试方法和测试装置 Active CN109192193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810924371.7A CN109192193B (zh) 2018-08-14 2018-08-14 一种语音识别产品测试方法和测试装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810924371.7A CN109192193B (zh) 2018-08-14 2018-08-14 一种语音识别产品测试方法和测试装置

Publications (2)

Publication Number Publication Date
CN109192193A CN109192193A (zh) 2019-01-11
CN109192193B true CN109192193B (zh) 2020-05-05

Family

ID=64921720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810924371.7A Active CN109192193B (zh) 2018-08-14 2018-08-14 一种语音识别产品测试方法和测试装置

Country Status (1)

Country Link
CN (1) CN109192193B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223689A (zh) * 2019-06-10 2019-09-10 秒针信息技术有限公司 语音信息的优化能力的确定方法及装置、存储介质
CN111798852B (zh) * 2019-06-27 2024-03-29 深圳市豪恩声学股份有限公司 语音唤醒识别性能测试方法、装置、系统及终端设备
CN112233654A (zh) * 2019-07-15 2021-01-15 成都启英泰伦科技有限公司 一种本地离线智能语音识别模组识别率检测系统及方法
CN110379410A (zh) * 2019-07-22 2019-10-25 苏州思必驰信息科技有限公司 语音响应速度自动分析方法及系统
CN110415726A (zh) * 2019-08-09 2019-11-05 四川虹美智能科技有限公司 一种语音测试系统及其应用方法
CN110475181B (zh) * 2019-08-16 2021-04-30 北京百度网讯科技有限公司 设备配置方法、装置、设备和存储介质
CN110728975A (zh) * 2019-10-10 2020-01-24 南京创维信息技术研究院有限公司 一种asr识别率自动化测试的系统及方法
CN110808029A (zh) * 2019-11-20 2020-02-18 斑马网络技术有限公司 车机语音测试系统及方法
CN111179907A (zh) * 2019-12-31 2020-05-19 深圳Tcl新技术有限公司 语音识别测试方法、装置、设备及计算机可读存储介质
CN111613248A (zh) * 2020-05-07 2020-09-01 北京声智科技有限公司 拾音测试方法、设备及系统
CN111883030B (zh) * 2020-06-11 2022-06-03 大众问问(北京)信息科技有限公司 一种导览播报方法、装置及电子设备
CN111739512A (zh) * 2020-06-18 2020-10-02 中汽院智能网联科技有限公司 一种基于实车的语音唤醒率测试方法、系统、设备及介质
CN111899733A (zh) * 2020-07-02 2020-11-06 北京如影智能科技有限公司 一种确定音量的方法及装置
CN111653269A (zh) * 2020-08-05 2020-09-11 江苏清微智能科技有限公司 一种语音识别的测试环境控制系统和方法
CN112908298B (zh) * 2021-01-18 2022-12-09 杭州国芯科技股份有限公司 一种语音识别测试项目中自动转录和测试方法
CN114115794A (zh) * 2021-12-02 2022-03-01 四川虹美智能科技有限公司 语音播放的音量调整方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1096475A2 (en) * 1999-10-26 2001-05-02 Nec Corporation Frequency warping for speaker recognition
CN102723080A (zh) * 2012-06-25 2012-10-10 惠州市德赛西威汽车电子有限公司 一种语音识别测试系统及方法
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
CN107086040A (zh) * 2017-06-23 2017-08-22 歌尔股份有限公司 语音识别能力测试方法和装置
CN107221319A (zh) * 2017-05-16 2017-09-29 厦门盈趣科技股份有限公司 一种语音识别测试系统和方法
CN107680613A (zh) * 2017-08-13 2018-02-09 惠州市德赛西威汽车电子股份有限公司 一种声控设备语音识别能力测试方法及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5052449B2 (ja) * 2008-07-29 2012-10-17 日本電信電話株式会社 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP5882403B2 (ja) * 2014-06-25 2016-03-09 株式会社カプコン 効果音加工プログラム及びゲーム装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1096475A2 (en) * 1999-10-26 2001-05-02 Nec Corporation Frequency warping for speaker recognition
CN102723080A (zh) * 2012-06-25 2012-10-10 惠州市德赛西威汽车电子有限公司 一种语音识别测试系统及方法
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
CN107221319A (zh) * 2017-05-16 2017-09-29 厦门盈趣科技股份有限公司 一种语音识别测试系统和方法
CN107086040A (zh) * 2017-06-23 2017-08-22 歌尔股份有限公司 语音识别能力测试方法和装置
CN107680613A (zh) * 2017-08-13 2018-02-09 惠州市德赛西威汽车电子股份有限公司 一种声控设备语音识别能力测试方法及设备

Also Published As

Publication number Publication date
CN109192193A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109192193B (zh) 一种语音识别产品测试方法和测试装置
US11270707B2 (en) Analysing speech signals
US11042616B2 (en) Detection of replay attack
CN111798852B (zh) 语音唤醒识别性能测试方法、装置、系统及终端设备
US20210256971A1 (en) Detection of replay attack
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
US7454340B2 (en) Voice recognition performance estimation apparatus, method and program allowing insertion of an unnecessary word
CN103745731A (zh) 一种语音识别效果自动化测试系统及测试方法
CN110602624A (zh) 音频测试方法、装置、存储介质及电子设备
CN110503941B (zh) 语言能力评测方法、装置、系统、计算机设备及存储介质
US10839810B2 (en) Speaker enrollment
CN104732984B (zh) 一种快速检测单频提示音的方法及系统
CN110739006B (zh) 音频处理方法、装置、存储介质及电子设备
US10818298B2 (en) Audio processing
KR101791907B1 (ko) 위치 기반의 음향 처리 장치 및 방법
CN110310664A (zh) 设备降噪功能的测试方法及相关设备
CN113257247B (zh) 一种测试方法及系统
CN109121068A (zh) 音效控制方法、装置及电子设备
CN113413613A (zh) 一种游戏内语音聊天的优化方法、装置、电子设备及介质
CN113948109A (zh) 一种基于声音识别生理现象的系统
WO2019073233A1 (en) ANALYSIS OF VOICE SIGNALS
CN112233654A (zh) 一种本地离线智能语音识别模组识别率检测系统及方法
CN113270099B (zh) 智能语音提取方法、装置、电子设备及存储介质
EP3879184A1 (en) Noise reduction method and apparatus for household appliance, household appliance, and cooker hood
CN101625261A (zh) 发声装置检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant