CN111243625A - 设备的清晰度测试方法、装置、设备及可读存储介质 - Google Patents

设备的清晰度测试方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111243625A
CN111243625A CN202010005950.9A CN202010005950A CN111243625A CN 111243625 A CN111243625 A CN 111243625A CN 202010005950 A CN202010005950 A CN 202010005950A CN 111243625 A CN111243625 A CN 111243625A
Authority
CN
China
Prior art keywords
chinese character
signal
calculating
feature
test result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010005950.9A
Other languages
English (en)
Other versions
CN111243625B (zh
Inventor
宫博
杨万里
唐小超
方四安
徐承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Ustc Iflytek Co ltd
Original Assignee
Hefei Ustc Iflytek Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Ustc Iflytek Co ltd filed Critical Hefei Ustc Iflytek Co ltd
Priority to CN202010005950.9A priority Critical patent/CN111243625B/zh
Publication of CN111243625A publication Critical patent/CN111243625A/zh
Application granted granted Critical
Publication of CN111243625B publication Critical patent/CN111243625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提供了一种设备的清晰度测试方法、装置、设备及可读存储介质,获取第一信号,第一信号为预设的语音中目标汉字的样本发音,并计算目标汉字在第一信号中的各个特征。计算第一距离值和第二距离值,第一距离值为目标汉字在第一信号中的特征与参考特征之间的距离,第二距离值为目标汉字在第一信号中的特征与相对特征之间的距离。依据预设的规则,将第一距离值和第二距离值,映射为目标汉字的正确似然概率值和错误似然概率值。进一步,依据预设的汉语辅音类型的各个汉字的正确似然概率值和错误似然概率值,计算待测设备的清晰度测试结果。对比与现有技术,本方法大大提高了清晰度测试结果的准确性,并提高了清晰度测试的效率。

Description

设备的清晰度测试方法、装置、设备及可读存储介质
技术领域
本申请涉及信息识别领域,更具体地说,涉及一种设备的清晰度测试方法、装置、设备及可读存储介质。
背景技术
现有的设备的清晰度测试由人工执行,例如由发音人读出汉字,并通过待测设备传输后,由听音人从待测设备获取汉字的读音,并记录听到的汉字,将读出的汉字与听到的汉字进行对比,确定测试结果。现有的人工测试方法的准确性和效率均不高。
发明内容
有鉴于此,本申请提供了一种设备的清晰度测试方法、装置、设备及可读存储介质。用于提高测试的准确性以及效率。如下:
一种设备的清晰度测试方法,包括:
获取第一信号,所述第一信号为预设的语音中目标汉字的样本发音,经放音模块发出,并由收音模块采集得到,所述放音模块以及所述收音模块中的至少一个模块为待测设备的组件;所述预设的语音包括预设的汉语辅音类型的汉字的发音,所述目标汉字为所述预设的汉语辅音类型的汉字中的任意一个汉字;
计算所述目标汉字在所述第一信号中的各个特征,所述特征依据所述汉语辅音类型设置;
计算第一距离值和第二距离值,所述第一距离值为所述特征与参考特征之间的距离,所述第二距离值为所述特征与相对特征之间的距离,所述参考特征为所述目标汉字的样本发音的所述特征,所述相对特征为所述目标汉字在所述汉语辅音类型中的对应汉字的样本发音的所述特征;
依据预设的规则,将所述第一距离值和所述第二距离值,映射为所述目标汉字的正确似然概率值和错误似然概率值;
依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果。
可选地,计算所述目标汉字在所述第一信号中的各个特征,包括:
通过计算所述第一信号的辅音段的高频、中频和低频的能量分布参数,得到所述目标汉字在所述第一信号中的浊音性特征;
通过计算所述第一信号的第二共振峰的平均能量与所有共振峰的平均能量的比值,得到所述目标汉字在所述第一信号中的鼻音性特征;
通过计算所述第一信号的辅音段的平均振幅与韵母段的平均振幅的比值,得到所述目标汉字在所述第一信号中的送气性特征;
通过计算所述第一信号的辅音段频谱质心,得到所述目标汉字在所述第一信号中的低沉性特征;
通过计算所述第一信号的辅音段的窄带能量最大值与频谱能量总和的比值,得到所述目标汉字在所述第一信号中的紧密性特征;
通过计算所述第一信号的辅音的结束时间和开始时间之差,得到所述目标汉字在所述第一信号中的持续性特征。
可选地,预设的语音的获取过程包括:
获取所述预设的汉语辅音类型的汉字对;
获取样本语音库,所述样本语音库中包括所述汉字对中的汉字的发音;
从每种所述汉语辅音类型的汉字对中,挑选至少一对,作为待选字对;
从每个所述待选字对中,挑选一个汉字,构成发音表;
从所述样本语音库中,获取所述发音表中的汉字的发音,作为所述预设的语音。
可选地,计算第一距离值和第二距离值,包括:
将所述目标汉字在所述样本语音库中的发音,作为所述样本发音,并将所述目标汉字在所述待选字对中对应的汉字,在所述样本语音库中的发音,作为相对发音;
计算所述样本发音的所述特征,得到所述参考特征;
计算所述特征与所述参考特征间的加权距离值,得到所述第一距离值;
计算所述相对发音的所述特征,得到所述相对特征;
计算所述特征与所述相对特征间的加权距离值,得到所述第二距离值。
可选地,依据预设的规则,将所述第一距离值和所述第二距离值映射为所述目标汉字的正确似然概率值和错误似然概率值,包括:
通过对所述第一距离值和所述第二距离值进行预设运算,得到比较参数;
依据所述比较参数与预设阈值的大小关系、以及所述第一距离值与所述第二距离值的大小关系,确定所述目标汉字的所述正确似然概率值;
由所述正确似然概率值,确定目标汉字的所述错误似然概率值。
可选地,依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果,包括以下至少一项:
计算第一清晰度测试结果,所述第一清晰度测试结果为,第一数值与第二数值之差,与所述预设的汉语辅音类型的汉字的数量的比值,所述第一数值为所述预设的汉语辅音类型的各个汉字的所述正确似然概率值之和,所述第二数值为所述预设的汉语辅音类型的各个汉字的所述错误似然概率值之和;
计算第二清晰度测试结果,所述第二清晰度测试结果为所述各个汉字在各个测试条件下的清晰度得分,所述测试条件包括所属的听音点、所属的预设发音表、所属的所述汉语辅音类型、以及所属的预设汉字对中的至少一项;其中,任意一个测试条件下的清晰度得分为,该测试条件下的所述正确似然概率值与所述错误似然概率值之差的百分比值;
计算第三清晰度测试结果,所述第三清晰度测试结果为,各个所述类型的汉字在各个所述听音点的特征分,其中,任意一个所述类型在任意一个所述听音点的特征分为,该类型在该听音点的所有的所述第二清晰度测试结果的平均值;
计算第四清晰度测试结果,所述第四清晰度测试结果为,全部所述发音表中全部所述汉语辅音类型的全部汉字在各个所述听音点的特征分,其中,任意一个所述听音点的特征分为,在该听音点的所有的所述第二清晰度测试结果的均值;
计算第五清晰度测试结果,所述第五清晰度测试结果为,各个预设音色的第四清晰度测试结果的平均值;
计算第六清晰度测试结果,所述第六清晰度测试结果为,全部听音点的所述第四清晰度测试结果,或所述第五清晰度测试结果的平均值;
计算第七清晰度测试结果,所述第七清晰度测试结果为所述第一清晰度测试结果、所述第二清晰度测试结果、所述第三清晰度测试结果、所述第四清晰度测试结果、所述第五清晰度测试结果、和所述第六清晰度测试结果的均值。
一种设备的清晰度测试装置,包括:
第一信号获取单元,用于获取第一信号,所述第一信号为预设的语音中目标汉字的发音,经放音模块发出,并由收音模块采集得到,所述放音模块以及所述收音模块中的至少一个模块为待测设备的组件;所述预设的语音包括预设的汉语辅音类型的汉字的发音,所述目标汉字为所述预设的汉语辅音类型的汉字中的任意一个汉字;
特征计算单元,用于计算所述目标汉字在所述第一信号中的各个特征,所述特征依据所述汉语辅音类型设置;
距离值计算单元,用于计算第一距离值和第二距离值,所述第一距离值为所述特征与参考特征之间的距离,所述第二距离值为所述特征与相对特征之间的距离,所述参考特征为所述目标汉字的样本发音的所述特征,所述相对特征为所述目标汉字在所述汉语辅音类型中的对应汉字的样本发音的所述特征;
映射单元,用于依据预设的规则,将所述第一距离值和所述第二距离值,映射为所述目标汉字的正确似然概率值和错误似然概率值;
测试结果计算单元,用于依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果。
可选地,特征计算单元用于计算所述目标汉字在所述第一信号中的各个特征,包括:所述特征计算单元具体用于以下至少一项:
通过计算所述第一信号的辅音段的高频、中频和低频的能量分布参数,得到所述目标汉字在所述第一信号中的浊音性特征;
通过计算所述第一信号的第二共振峰的平均能量与所有共振峰的平均能量的比值,得到所述目标汉字在所述第一信号中的鼻音性特征;
通过计算所述第一信号的辅音段的平均振幅与韵母段的平均振幅的比值,得到所述目标汉字在所述第一信号中的送气性特征;
通过计算所述第一信号的辅音段频谱质心,得到所述目标汉字在所述第一信号中的低沉性特征;
通过计算所述第一信号的辅音段的窄带能量最大值与频谱能量总和的比值,得到所述目标汉字在所述第一信号中的紧密性特征;
通过计算所述第一信号的辅音的结束时间和开始时间之差,得到所述目标汉字在所述第一信号中的持续性特征。
一种设备的清晰度测试设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的设备的清晰度测试方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上所述的设备的清晰度测试方法的各个步骤。
从上述技术方案可以看出,本申请实施例提供的设备的清晰度测试方法,应用于包括放音模块和/或收音模块的待测设备。依据获取的第一信号计算目标汉字在第一信号中的特征,并计算该特征和参考特征之间的距离,得到第一距离值,计算该特征和相对特征之间的距离,得到第二距离值。因为第一距离值可以表征目标汉字在收音模块采集到的第一信号中的发音,与目标汉字的标准发音之间的差异程度,第二距离值可以表征目标汉字在收音模块采集到的第一信号中的发音,与目标汉字对应的汉字的标准发音之间的差异程度。所以,依据第一距离值和第二距离值映射得到的正确似然概率值和错误似然概率值可以反映待测设备针对该目标汉字发音的清晰度。因此,本方法基于各个汉字的正确似然概率值和错误似然概率值,计算得到的待测设备的清晰度测试结果可以准确的反映待测设备的清晰度。综上,本申请实施例提供的设备的清晰度测试方法的实现过程为自动化测试过程,无需人工发音或听音,相对于现有的基于人工的测试方法,本申请大大减少了人力成本开销,提高了测试效率。并且有效降低了人为主观原因导致的误差,由此提高了测试结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种设备的清晰度测试方法的流程示意图;
图2示例了一种放音模块与收音模块的结构示意图;
图3示例了一种映射关系示意图;
图4示例了本申请实施例提供的一种预设的语音的获取方法的流程示意图;
图5为本申请实施例提供的获取第一信号的各个特征的方法的流程图;图6为本申请实施例提供的一种设备的清晰度测试装置的结构示意图;
图7为本申请实施例提供的一种设备的清晰度测试设备的结构示意图。
具体实施方式
本申请实施例提供的一种设备的清晰度测试方法适用于对电声设备进行清晰度测试的场景。电声设备中一般包括放音模块以及收音模块,一般的,放音模块包括数模转换器(D/A)和扬声器,用于发出声音信号;收音模块包括模数转换器(A/D)和麦克风,用于采集声音信号。可选地,本申请实施例可以对放音模块或收音模块中任一个模块进行清晰度测试,也可以将放音模块以及收音模块作为整体进行测试。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种设备的清晰度测试方法的流程示意图,具体可以包括以下步骤:
S101、获取第一信号。
第一信号为预设的语音中目标汉字的样本发音,经放音模块发出,并由收音模块采集并输出,得到的信号。
其中,目标汉字为预设的汉语辅音类型的汉字中的任意一个汉字。具体地,汉语辅音可划分为多种类型。每一预设的汉语辅音类型可以包括多个汉字,样本发音是指汉语辅音类型的汉字标准发音,在测评前预先进行设置和校准。
而样本发音经过电声设备传输后,存在一定失真,显而易见地,第一信号是目标汉字的非样本发音。
图2示例了一种放音模块与收音模块的结构示意图,其中,放音模块20包括数模转换器(D/A)201和扬声器202。收音模块21包括麦克风211和模数转换器(A/D)212。其中,扬声器和麦克风设置于测试环境中。
本实施例中,通过将目标汉字的标准发音的数字电信号输入至数模转换器,将其转化为模拟电信号,并使用扬声器将该模拟电信号转化为声音信号。进一步,声音信号在测评环境中传播后,通过麦克风对声音信号进行采集,将该声音信号转化为模拟电信号,并通过模数转换器将该模拟电信号转化为数字电信号,由此得到第一信号。
本实施例中,放音模块以及收音模块中的至少一个模块为待测设备的组件。可选地,当放音模块以及收音模块为待测设备的组件时,将该放音模块以及收音模块作为整体进行清晰度测试。
可选地,当放音模块为待测设备的组件时,仅对该放音模块的清晰度进行测试。此时,图2所示的收音模块为陪测的收音模块,该陪测的收音模块接收声音信号并将声音信号转化为第一信号的过程中保证信号的高保真。进一步,本实施例可以将测试环境中的环境噪声设置为放音模块日常使用的环境噪声声级,以使得测试结果更贴近实际使用环境。可选地,陪测的收音模块可以包括多个,例如,当放音模块为开放型装置时,可以在N个听音点布置N个收音模块,用来模拟听音人和待测的受话器之间不同的相对位置。
可选地,当收音模块为待测设备的组件时,仅对该收音模块的清晰度进行测试。此时,图2所示的放音模块为陪测的放音模块,该陪测的放音模块接收数字电信号并将数字电信号转化为声音信号的过程中保证信号的高保真。本实施例进一步可以预设测试环境的环境参数,以提高测试的准确性。例如,控制测试环境的声场不均匀度在±3dB内,声压级为65dB,背景噪声低于40dB。可选地,陪测的放音模块可以包括多个,例如,当收音模块为开放型装置时,可以在X个发音点布置至少X个放音模块,用来模拟发音人和待测的送话器之间不同的相对位置。
可选地,预设的语音中目标汉字的发音可以包括多个音色,例如,可以包括青年男声、青年女声、和/或童声。实际测试过程中,可以依据需要选择其中一种或多种音色。
S102、计算目标汉字在第一信号中的各个特征。
具体地,目标汉字在第一信号中的各个特征(以下简称第一信号的特征)为目标汉字的非样本发音的特征。需要理解的是,非样本发音为样本发音经过电声设备传输后,存在一定失真的非标准发音。本步骤计算第一信号特征时,可以依据预设的汉语辅音类型设置多种类型的第一信号特征,例如,浊音性特征、鼻音性特征、送气性特征、低沉性特征、紧密性特征、和/或持续性特征。其中,每一种类型可以表征汉语辅音的一项声学特征。
需要理解的是,任一汉字发音前半部分声母、后半部分韵母组成。显而易见的,第一信号的起始段也就是非样本发音的起始段,该段时间内的发音为非样本发音的辅音段。第一信号的结束段也就是非样本发音的结束段,该段时间内的发音为非样本发音的韵母段。本实施例可以依据获取的第一信号的各个时间段的数字信号参数值,计算上述任一类型的第一信号特征。例如,第一信号的数字信号参数值可以包括能量分布参数,本实施例可以依据第一信号的辅音段的高频、中频和低频的能量分布参数,得到第一信号的浊音性特征。
需要说明的是,第一信号的各个特征的具体计算方法,可以参照以下S501~S506。
S103、计算第一距离值和第二距离值。
具体地,第一距离值为第一信号特征与参考特征之间的距离,第二距离值为第一信号特征与相对特征之间的距离。
其中,参考特征为目标汉字的样本发音的特征,相对特征为目标汉字在汉语辅音类型中的对应汉字的样本发音的特征。一般地,目标汉字在汉语辅音类型中的对应汉字为预设的针对该目标汉字的易混淆的汉字。例如,目标汉字“法(fa)”在汉语辅音类型中的对应汉字为易与“fa”混淆的汉字“瓦(wa)”。
需要理解的是,任一对应汉字的样本发音为汉语辅音类型的汉字标准发音,在测评前预先进行设置和校准。可以理解的是,第一距离值表征了第一信号的特征与参考特征之间的差异程度,以及第二距离值表征了第一信号的特征与相对特征之间的差异程度。因此,第一距离值可以表征经电声设备传输后的目标汉字的非样本发音与目标汉字的标准发音之间的差异程度,第二距离值可以表征经电声设备传输后的目标汉字的非样本发音与目标汉字对应的汉字的标准发音之间的差异程度。
需要说明的是,参考特征和相对特征的具体计算方法,可以参照以下S501~S506。S104、依据预设的规则,将第一距离值和第二距离值,映射为目标汉字的正确似然概率值和错误似然概率值。
具体地,映射过程可以包括S1~S5,如下:
S1、通过对第一距离值d1和第二距离值d2进行预设运算,得到比较参数M。比较参数M表征了:第二距离值d2、第一距离值d1之间的相对差异程度。可选地,预设运算可以参考下述公式(1)。
M=(d2-d1)/(d1+d2) (1)
S2、判断比较参数的绝对值|M|的与预设阈值M0的大小关系。其中,预设阈值M0可以依据历史测试数据得到。
S3、当|M|<M0时,目标汉字的正确似然概率值Ptrue的计算方法可以参考下述公式(2)。
Ptrue=(1+M/M0)/2 (2)
S4、当|M|≥M0时,判断第一距离值d1与第二距离值d2的大小关系。
若d1<d2,则得到目标汉字的正确似然概率值Ptrue=1。
若d1≥d2,则得到目标汉字的正确似然概率值Ptrue=0。
S5、由正确似然概率值,确定目标汉字的错误似然概率值。
其中,目标汉字的错误似然概率值Pfalse=1-Ptrue
需要说明的是,本方法还可以根据预设阈值生成目标汉字的正确似然概率值与比较参数之间的关系。如图3所示,图3示例了一种映射关系。因此,本方法对第一距离值和第二距离值进行预设运算,得到比较参数M后,可以通过查询该映射曲线,得到目标汉字的正确似然概率值。
由上可以看出,目标汉字的正确似然概率值表征将第一信号判断为目标汉字的标准读音的概率,目标汉字的错误似然概率值表征将第一信号判断为目标汉字在汉语辅音类型中对应的汉字的标准读音的概率。其中,正确似然概率值+错误似然概率值=1。
S105、依据预设的汉语辅音类型的各个汉字的正确似然概率值和错误似然概率值,计算待测设备的清晰度测试结果。
具体地,预设的汉语辅音类型包括多个汉字,预设的语音包括预设的汉语辅音类型的汉字的发音,本实施例可以基于上述各个步骤将获取多个汉字的正确似然概率值以及错误似然概率值。依据各个汉字的正确似然概率值和错误似然概率值,计算待测设备的清晰度测试结果。
可选地,可以依据各个汉字的正确似然概率值和错误似然概率值,使用不同的计算方法计算清晰度测试结果。由于,任一汉字的正确似然概率值均能表征该汉字的第一信号是该汉字的标准读音的概率。所以本步骤得到的清晰度测试结果能反应待测设备的清晰度。
现有方案进行人工发音-听音实验,考虑到汉语辅音的数量与特点,需要大量重复实施该测试过程,人力成本较大,测评效率低。此外,人工测评方案中存在较大的个人主观性因素影响,例如,发音人的发音准确性、听音人之间存在的个体差异,往往会导致测评结果中存在较大的系统误差以及偶然误差,由此造成测试结果的准确性低。
现有的测试方法中,需要提前开展对发音人与听音人的发音测试或听力测试、基本字表的培训、预测试的校准,且对于发声环境、听声环境均有严格的技术标准限制,所有前期准备符合要求后才能开展测试工作。这些前期的准备过程需要花费大量的时间与人力,大大增加了测评工作的成本开销。
现有的测评方法,需要调整发音人或听音人与待测设备间的相对位置,模拟待测设备的实际工况。在测试开放型设备时,往往存在多个工作位置。因此需要多次重复测试过程,导致测试耗费的工时成倍增加,测评效率将大大降低。
从上述技术方案可以看出,本申请实施例提供的设备清晰度测试方法,应用于包括放音模块和/或收音模块的待测设备。依据获取的第一信号计算目标汉字在第一信号中的特征,并计算该特征和参考特征之间的距离,得到第一距离值,计算该特征和相对特征之间的距离,得到第二距离值。因为第一距离值可以表征第一信号与目标汉字的标准发音之间的差异程度,第二距离值可以表征第一信号与目标汉字对应的汉字的标准发音之间的差异程度。所以,依据第一距离值和第二距离值映射得到的正确似然概率值和错误似然概率值可以反映待测设备针对该目标汉字的发音的清晰度。因此,本方法基于各个汉字的正确似然概率值和错误似然概率值,计算得到的待测设备的清晰度测试结果可以准确的反映待测设备的清晰度。
综上,本申请实施例提供的设备的清晰度测试方法的实现过程为自动化测试过程,无需人工发音或听音,相对于现有的基于人工的测试方法,本申请大大减少了人力成本开销,提高了测试效率。并且有效降低了人为主观原因导致的误差,由此提高了测试结果的准确性。
进一步,本方法支持单独对放音模块或收音模块进行清晰度测试,并且相对于现有技术,本方法可以在多个听音点布置陪测的放音模块或收音模块,无需重复放音-听音,进一步提高了测试的效率以及准确性。
由S101可知,预设的语音中包括预设的汉语辅音类型中的汉字的发音。本申请实施例以预设汉语辅音类型包括浊音性、鼻音性、送气性、低沉性、紧密性、以及持续性六种汉语辅音类型为例,对预设的语音的获取过程进行说明。
图4示例了本申请实施例提供的一种预设的语音的获取方法的流程示意图,如图4所示,本方法可以包括以下步骤:
S401、获取预设的汉语辅音类型的汉字对。
具体地,任一种汉语辅音类型包括多个汉字对,其中,任一汉字对包括两个汉字。本步骤分别获取属于浊音性、鼻音性、送气性、低沉性、紧密性、以及持续性汉语辅音类型的汉字对。可选地,本实施例基于国家标准GB/T13504-2008《汉语清晰度诊断押韵测试(DRT)法》,获取该国家标准中的基本字表1和/或基本字表2。以基本字表1为例,基本字表1基于汉语辅音的六个特征编排而成,其中包括属于上述每一汉语辅音类型的汉字对。
S402、获取样本语音库。
具体地,样本语音库中包括S401获取的汉字对中的每一汉字的发音。
本实施例中,获取样本语音库的方法包括:
首先,合成汉字对中的汉字的语音信号。合成语音信号可以使用语音合成引擎,具体可以参照现有技术。
由于语音信号合成可能存在误差,所以,本实施例可以对语音信号进行人工测评。即,由多个听音人测听语音信号,并给出人工测听结果。
对于汉字对中的任一汉字的语音信号,本实施例获取该语音信号的人工测听结果,并对比该汉字与人工测听结果是否相同。
在人工测听结果均为正确汉字的情况下,将语音信号作为该汉字的发音,加入样本语音库。在任一人工测听结果与汉字不同的情况下,舍弃该语音信号。
例如,对于汉字“法”,由100个听音人测听“法”的语音信号,并给出人工测听结果。当100个人工测听结果均为“fa”,则将该语音信号作为汉字“法”的发音,加入到样本语音库中。
可选地,可以获取每一汉字的不同音色的语音信号,例如,每一汉字的发音包括青年男声、青年女声、和/或童声。针对汉字对中的每一汉字进行上述过程,得到最终的样本语音库。
S403、从每种汉语辅音类型的汉字对中,挑选至少一对,作为待选字对。
本实施例获取的标准字表1中,包括属于每一汉语辅音类型的9个汉字对组,每一汉字对组包括2对汉字对,任一汉字对包括2个汉字。优选地,针对任意一种汉语辅音类型,从该汉语辅音类型的每一汉字对组中,挑选出任意一对汉字对作为待选字对。因此,本步骤可以获取每一汉语辅音类型的9对待选字对,一共可以获取6×9对待选字对。
S404、从每个待选字对中,挑选一个汉字,构成发音表。
可以理解的是,一共可以挑选出6×9个汉字,构成一张发音表。可选的,可以按照上述过程生成多张不同的发音表,每一发音表中包括的汉字不全相同。
S405、从样本语音库中,获取发音表中的汉字的发音,作为预设的语音。
可以理解的是,样本语音库中的汉字发音为标准发音,所以本步骤中的预设的语音包括发音表中所有汉字的发音,并且,该发音为标准发音。
需要说明的是,本实施例仅以预设汉语辅音类型包括上述六种语辅音类型为例,对获取预设的语音的可选的一种实现方式进行介绍。可以理解的是,预设汉语辅音类型还可以包括其他类型,并且预设的语音的获取方法的实现方式还可以包括其他多种方式,对此本申请实施例不作限定。
图5为本申请实施例提供的获取第一信号的各个特征的方法的流程图,如图5所示,S102中计算目标汉字在第一信号中的特征可以包括六种类型的汉语辅音特征:第一信号的浊音性特征、第一信号的鼻音性特征、第一信号的送气性特征、第一信号的低沉性特征、第一信号的紧密性特征、以及第一信号的持续性特征。
需要理解的是,第一信号是一种数字音频信号。数字音频信号按照固定较短的时间间隔选取采样点,每个采样点对应了该时刻声音信号的振幅。所述的汉字发音会持续一定的时间,其中起始时间段为辅音段,结束的时间段为韵母段,每个时间段内存在不止一个采样点。基于此,每种特征的计算方法如下:
S501、通过计算第一信号的辅音段的高频、中频和低频的能量分布参数,得到第一信号的浊音性特征。
需要说明的是,任一汉字发音中的辅音按照浊音性分为:浊辅音和清辅音。其中,浊辅音在低频(0.1~0.4kHz)能量较高,中频(0.64~2.8kHz)能量较低,清辅音在高频(>3.5kHz)能量较高。所以,本步骤中针对第一信号中辅音段的音频信号,计算三个频谱能量分布参数,记为高频能量分布参数RVo.1,中频能量分布参数RVo.2,低频能量分布参数RVo.3。其中,RVo.1代表辅音段信号在高频上能量分布的特性,RVo.2代表辅音段信号在中频上能量分布的特性,RVo.3代表辅音段信号在低频上能量分布的特性。因此本实施例将RVo.1、RVo.2、以及RVo.3作为第一信号的浊音性特征。
可选地,基于第一信号中辅音段的音频信号,计算第一信号的浊音性特征RVo.1、RVo.2、以及RVo.3的方法可参考下述公式(3)~(5)。
Figure BDA0002355295160000141
Figure BDA0002355295160000142
Figure BDA0002355295160000143
式中:f为经过傅里叶变换后的辅音段信号的频率,单位为kHz。E(f)为频率f下信号的能量。
S502、通过计算第一信号的第二共振峰的平均能量与所有共振峰的平均能量的比值,得到第一信号的鼻音性特征。
其中,鼻音是一种浊塞音,由于鼻音在频谱中第二共振峰减弱或消失,所以可以通过分析频谱中第二共振峰,计算鼻音性特征。
可选地,计算第一信号的鼻音性特征RNa的方法可参考下述公式(6)。
Figure BDA0002355295160000144
式中:E(Fv)为第v共振峰的平均能量,V为共振峰个数。
S503、通过计算第一信号中辅音段的平均振幅与韵母段的平均振幅的比值,得到第一信号的送气性特征。
可选地,计算第一信号的送气性特征为RAs的方法可参考下述公式(7)。
Figure BDA0002355295160000145
式中:
Figure BDA0002355295160000146
为第一信号的辅音段平均振幅强度,
Figure BDA0002355295160000147
为第一信号的韵母段平均振幅强度。需要理解的是,任一时间段的平均振幅强度,是将该时段内每个采样点振幅取绝对值后,再将所有的振幅绝对值取平均值得到的,具体可以参照下述公式(8)。
Figure BDA0002355295160000151
公式(8)中:
Figure BDA0002355295160000152
为任一时段内的平均振幅强度,Nsampies为该时段内采样点个数,Aα为第α(1≤α≤Nsampies)个采样点的振幅,本步骤中
Figure BDA0002355295160000153
可以为
Figure BDA0002355295160000154
Figure BDA0002355295160000155
S504、通过计算第一信号的辅音段的频谱质心,得到第一信号的低沉性特征。
其中,由于低沉音的频谱能量在低频端较为集中。所以本实施例将频谱质心作为低沉性特征RGr。可选地,计算第一信号的送气性特征为RGr的方法可参考下述公式(9)
Figure BDA0002355295160000156
式中,f为第一信号的辅音段的频率,fmin、fmax为频率的最小值以最大值,E(f)为频率f下的语音能量。
S505、通过计算第一信号的辅音段的窄带能量最大值与频谱能量总和的比值,得到第一信号的紧密性特征。
需要理解的是,根据辅音的紧密性特征,可以将辅音分为紧密音与分散音。可以理解的是,伴随着能量的增加,紧密音在语音频谱中频段的一个窄带内能量集中。本实施例中,计算第一信号的辅音段的能量最高的窄带作为第一信号的紧密性特征RCo,可选地,计算第一信号的紧密性特征RCo的方法可参考下述公式(10)
Figure BDA0002355295160000157
式中,max(Enarrow)为第一信号的辅音段的窄带能量的最大值,Etotal为频谱能量的总和。
S506、通过计算第一信号的辅音段的结束时间和开始时间之差,得到第一信号的的持续性特征。
根据辅音的持续性特征,可以将辅音分为持续音与短暂音。可选地,持续音为持续时间较长、能量逐渐增加、并且高频成分能量较强的一类发音。针对第一信号的辅音段,可以计算信号的持续时间作为持续性特征RSu。可选地,计算持续性特征RSu的方法可参考下述公式(11)
RSu=tend-tbegin (11)
式中:tend、tbegin分别为第一信号辅音段的结束时间与开始时间。
需要说明的是,依据上述S501~S506的方法,计算得到第一信号的浊音性、鼻音性、送气性、低沉性、紧密性、以及持续性六种类型的汉语辅音特征。本实施例中,将目标汉字在样本语音库中的发音作为样本发音,并将目标汉字在待选字对中对应的汉字在样本语音库中的发音作为相对发音。将上述S501~S506中的第一信号样本发音,可以得到目标汉字的浊音性、鼻音性、送气性、低沉性、紧密性、以及持续性六种类型的参考特征。将第一信号替换为相对发音,可以得到目标汉字的浊音性、鼻音性、送气性、低沉性、紧密性、以及持续性六种类型的相对特征。
进一步地,本实施例分别将第一信号特征、参考特征、以及相对特征记为第一信号特征向量R、参考特征向量R1、相对特征向量R2。
进一步,本实施例计算第一信号特征向量R与参考特征向量R1间的加权距离值,得到第一距离值。并且,计算第一信号特征与相对特征间的加权距离值,得到所述第二距离值。
可选地,计算方法可以参考下述公式(12)以及公式(13)。
d1=∑i∈Iwi|Ri-Ri,1| (12)
d2=∑i∈Iwi|Ri-Ri,2| (13)
式中,d1为第一距离值,d2为第二距离值。为便于描述,记I为上文所述特征的下标集合,即I={Vo1,Vo2,Vo3,Na,As,Gr,Co,Su},记i为特征的种类,且i∈I。Ri为第一信号特征,Ri∈R。Ri,1为目标汉字的参考特征,Ri,1∈R1。Ri,2为目标汉字的相对特征,Ri,2∈R2。wi为特征Ri对应的距离加权的权重,可选地,wi依据目标汉字所属于的汉语辅音类型设置。一般地,目标汉字所属于的汉语辅音类型对应的特征的权重较大。
例如,目标汉字为基本字表1中汉语辅音类型为浊音性的汉字对“瓦(wǎ)-法(fǎ)”中的汉字“瓦”。依据第一信号,计算得到“瓦”的特征向量R。依据“瓦”的样本发音,计算得到参考特征向量R1。依据“法”的样本发音,计算得到相对特征向量R2。由于,汉字对“瓦(wǎ)-法(fǎ)”属于浊音性字对,则浊音性特征的权重较大,其他五类特征的权重较小。
需要说明的是,各类别特征的权重具体数值,可以按照历史数据预设,例如,基于人工清晰度测试的数据,经过拟合校准获得权重。
需要说明的是,由于参考特征向量R1、相对特征向量R2依据汉字的样本发音得到,样本发音是预先设置的,所以,可以预先计算参考特征向量R1和相对特征向量R2并存储,设备清晰度的测评过程中可以直接获取并使用目标汉字的参考特征和相对特征,只需要计算测评过程中获得的第一信号的特征。
本实施例可以依据S101~S104获取每一汉字的正确似然概率值以及错误似然概率值,进一步,依据所有正确似然概率值以及错误似然概率值计算清晰度测试结果。可选地,清晰度测试结果可以包括第一清晰度测试结果(所有汉字的清晰度得分)、第二清晰度测试结果(各个汉字在各个测试条件下的清晰度得分)、第三清晰度测试结果(各个类型的汉字在各个听音点的特征分)、第四清晰度测试结果(全部发音表中全部汉语辅音类型的全部汉字在各个听音点的特征分)、第五清晰度测试结果(各个预设音色的第四清晰度测试结果的平均值)、第六清晰度测试结果(全部听音点的第四清晰度测试结果,或第五清晰度测试结果的平均值)或第七清晰度测试结果(所有清晰度结果的均值)中的一项或多项。
本实施例记发音表的个数为K,听音点的个数X,预设的汉语辅音类型个数为J,每个发音表中属于任一汉语辅音类型的汉字个数记为L。则每一发音表中包括J类汉语辅音类型,每一类汉语辅音类型包括L个汉字。测试的汉字的总个数为T。进一步对上述每一清晰度测试结果的计算方法的实现方式进行说明,如下:
A1、计算第一清晰度测试结果。
第一清晰度测试结果为,第一数值与第二数值之差,与预设的汉语辅音类型的汉字的数量的比值。其中,第一数值为预设的汉语辅音类型的各个汉字的正确似然概率值之和,第二数值为预设的汉语辅音类型的各个汉字的错误似然概率值之和。具体可以参考下述公式(14)。
Figure BDA0002355295160000181
式中:
Figure BDA0002355295160000182
为第一数值,其中Ptrue(t)为第t(1≤t≤T)个汉字的正确似然概率值;
Figure BDA0002355295160000183
为第二数值,其中Pfalse(t)为第t个汉字的错误似然概率值;T为总的测试次数,即汉字的总个数,A1为第一清晰度测试结果。
可以理解的是,本申请可以计算得到1个第一清晰度测试结果。
A2、计算第二清晰度测试结果。
第二清晰度测试结果为各个汉字在各个测试条件下的清晰度得分,测试条件包括所属的听音点、所属的发音表、所属的类型、以及所属的汉字对中的至少一项。其中,任意一个测试条件下的清晰度得分为,该测试条件下的正确似然概率值与错误似然概率值之差的百分比值。例如,属于第x个听音点、第k个发音表,第j个汉语辅音类型,第l对汉字对中的汉字的第二清晰度测试结果可以参考下述公式(15)计算得到。
Figure BDA0002355295160000184
式中,Ptrue(x,j,k,l)为属于第x(1≤x≤X)个听音点、第k(1≤k≤K)个发音表,第j(1≤j≤J)个汉语辅音类型,第l(1≤l≤L)对汉字对中的汉字的正确似然概率值,Pfalse(x,j,k,l)为该汉字的错误似然概率值。
可以理解的是,本申请实施例可以计算得到X*J*K*L个第二清晰度测试结果。
需要说明的是,基于任一汉字计算得到一个第二清晰度测试结果A2。在X*J*K*L个第二清晰度测试结果中可能存在少量结果明显偏离正常结果,本实施例将偏离正常结果的第二清晰度测试结果判断为异常值,并将异常值舍弃。可选地,使用95%置信水平的t-检验,将落在置信区间内部的第二清晰度测试结果作为正常值,将落在置信区间之外的第二清晰度测试结果作为异常值。
A3、计算第三清晰度测试结果。
第三清晰度测试结果为,各个类型的汉字在各个听音点的特征分,其中,任意一个类型在任意一个听音点的特征分为,该类型在该听音点的所有的第二清晰度测试结果的均值。例如,第三清晰度测试结果为属于第x个听音点、第j个汉语辅音类型的所有汉字的第二清晰度测试结果的均值,该第三清晰度测试结果的计算方法可以参照下述公式(16)。
Figure BDA0002355295160000191
可以理解的是,本申请实施例可以计算得到X*J个第三清晰度测试结果。
需要说明的是,第二清晰度测试结果可以为经过检验之后的正常值,并且,本实施例可以进一步对X*J个第三清晰度测试结果进行检验,得到第三清晰度测试结果的正常值。
A4、计算第四清晰度测试结果。
第四清晰度测试结果为汉字在各个听音点的特征分,其中,汉字在任意一个听音点的特征分为,全部发音表中的全部类型的全部汉字在该听音点的第二清晰度测试结果的平均值。例如,第四清晰度测试结果为全部发音表中的全部类型的全部汉字在第x个听音点的第二清晰度测试结果的均值,该第四清晰度测试结果的计算方法可以参照下述公式(17)。
Figure BDA0002355295160000192
可以理解的是,本申请实施例可以计算得到X个第四清晰度测试结果。
需要说明的是,第二清晰度测试结果可以为经过检验之后的正常值,并且,本实施例可以进一步对X个第三清晰度测试结果进行检验,得到第四清晰度测试结果的正常值。
A5、计算第五清晰度测试结果。
可选的,可根据实际测评需要,决定是否进行各音色的清晰度测评。第五清晰度测试结果为,各个预设音色的第四清晰度测试结果的平均值。其中,预设音色可以包括青年男声、青年女声、以及童声。则,第五清晰度测试结果的计算方法可以参照下述公式(17)。
Figure BDA0002355295160000193
式中,Amale(x)为音色为青年男声时,得到的第四清晰度测试结果;Afemale(x)为音色为青年女声时,得到的第四清晰度测试结果;Akid(x)为音色为童声时,得到的第四清晰度测试结果。
可以理解的是,本申请实施例可以计算得到X个第五清晰度测试结果。
A6、计算第六清晰度测试结果。
若未进行各音色的清晰度测评,则第六清晰度测试结果为,全部听音点的第四清晰度测试结果。若进行各音色的清晰度测评,则第六清晰度测试结果为,第五清晰度测试结果的均值。第六清晰度测试结果的计算方法可以参照下述公式(19)或(20)。
Figure BDA0002355295160000201
Figure BDA0002355295160000202
可以理解的是,本申请实施例可以按照公式(19)计算得到1个第六清晰度测试结果。或按照公式(19)计算得到1个第六清晰度测试结果。
A7、计算第七清晰度测试结果。
第七清晰度测试结果为第一清晰度测试结果、第二清晰度测试结果、第三清晰度测试结果、第四清晰度测试结果、第五清晰度测试结果、第六清晰度测试结果和第七清晰度测试结果的均值。
需要说明的是,本申请实施例可以进一步按照上述任一种清晰度测试结果,对待测设备的清晰度性能进行分级。可选的一种分级方法为:清晰度测试结果A(A1、A2、A3、A4、A5、A6、或A7)的大小将清晰度性能分为优、良好、中等、差、和不可接受五种等级。具体的等级划分方法可参照下表。
Figure BDA0002355295160000203
可以看出基于上表的晰度性能分类方法,能够直观的评价待测设备的清晰度。
本申请实施例还提供了一种设备的清晰度测试装置,下面对本申请实施例提供的设备的清晰度测试装置进行描述,下文描述的设备的清晰度测试装置与上文描述的设备的清晰度测试方法可相互对应参照。
请参阅图6,示出了本申请实施例提供的一种设备的清晰度测试装置的结构示意图,如图6所示,该装置可以包括:
第一信号获取单元601,用于获取第一信号,所述第一信号为预设的语音中目标汉字的发音,经放音模块发出,并由收音模块采集得到,所述放音模块以及所述收音模块中的至少一个模块为待测设备的组件;所述预设的语音包括预设的汉语辅音类型的汉字的发音,所述目标汉字为所述预设的汉语辅音类型的汉字中的任意一个汉字;
特征计算单元602,用于计算所述目标汉字在所述第一信号中的各个特征,所述特征依据所述汉语辅音类型设置;
距离值计算单元603,用于计算第一距离值和第二距离值,所述第一距离值为所述特征与参考特征之间的距离,所述第二距离值为所述特征与相对特征之间的距离,所述参考特征为所述目标汉字的样本发音的所述特征,所述相对特征为所述目标汉字在所述汉语辅音类型中的对应汉字的样本发音的所述特征;
映射单元604,用于依据预设的规则,将所述第一距离值和所述第二距离值,映射为所述目标汉字的正确似然概率值和错误似然概率值;
测试结果计算单元605,用于依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果。
可选地,特征计算单元用于计算所述目标汉字在所述第一信号中的各个特征时,具体用于以下至少一项:
所述计算所述目标汉字在所述第一信号中的各个特征,包括:
通过计算所述第一信号的辅音段的高频、中频和低频的能量分布参数,得到所述目标汉字在所述第一信号中的浊音性特征;
通过计算所述第一信号的第二共振峰的平均能量与所有共振峰的平均能量的比值,得到所述目标汉字在所述第一信号中的鼻音性特征;
通过计算所述第一信号的辅音段的平均振幅与韵母段的平均振幅的比值,得到所述目标汉字在所述第一信号中的送气性特征;
通过计算所述第一信号的辅音段频谱质心,得到所述目标汉字在所述第一信号中的低沉性特征;
通过计算所述第一信号的辅音段的窄带能量最大值与频谱能量总和的比值,得到所述目标汉字在所述第一信号中的紧密性特征;
通过计算所述第一信号的辅音的结束时间和开始时间之差,得到所述目标汉字在所述第一信号中的持续性特征。
可选地,本装置还包括语音获取单元,语音获取单元用于获取预设的语音时,具体可以用于:
获取所述预设的汉语辅音类型的汉字对;
获取样本语音库,所述样本语音库中包括所述汉字对中的汉字的发音;
从每种所述汉语辅音类型的汉字对中,挑选至少一对,作为待选字对;
从每个所述待选字对中,挑选一个汉字,构成发音表;
从所述样本语音库中,获取所述发音表中的汉字的发音,作为所述预设的语音。
可选地,距离值计算单元用于计算第一距离值和第二距离值时,具体可以用于:
将所述目标汉字在所述样本语音库中的发音,作为所述样本发音,并将所述目标汉字在所述待选字对中对应的汉字,在所述样本语音库中的发音,作为相对发音;
计算所述样本发音的所述特征,得到所述参考特征;
计算所述特征与所述参考特征间的加权距离值,得到所述第一距离值;
计算所述相对发音的所述特征,得到所述相对特征;
计算所述特征与所述相对特征间的加权距离值,得到所述第二距离值。
可选地,映射单元用于依据预设的规则,将所述第一距离值和所述第二距离值映射为所述目标汉字的正确似然概率值和错误似然概率值时,具体可以用于:
通过对所述第一距离值和所述第二距离值进行预设运算,得到比较参数;
依据所述比较参数与预设阈值的大小关系、以及所述第一距离值与所述第二距离值的大小关系,确定所述目标汉字的所述正确似然概率值;
由所述正确似然概率值,确定目标汉字的所述错误似然概率值。
可选地,测试结果计算单元,用于依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果时,具体可以用于以下至少一项:
计算第一清晰度测试结果,所述第一清晰度测试结果为,第一数值与第二数值之差,与所述预设的汉语辅音类型的汉字的数量的比值,所述第一数值为所述预设的汉语辅音类型的各个汉字的所述正确似然概率值之和,所述第二数值为所述预设的汉语辅音类型的各个汉字的所述错误似然概率值之和;
计算第二清晰度测试结果,所述第二清晰度测试结果为所述各个汉字在各个测试条件下的清晰度得分,所述测试条件包括所属的听音点、所属的预设发音表、所属的所述汉语辅音类型、以及所属的预设汉字对中的至少一项;其中,任意一个测试条件下的清晰度得分为,该测试条件下的所述正确似然概率值与所述错误似然概率值之差的百分比值;
计算第三清晰度测试结果,所述第三清晰度测试结果为,各个所述类型的汉字在各个所述听音点的特征分,其中,任意一个所述类型在任意一个所述听音点的特征分为,该类型在该听音点的所有的所述第二清晰度测试结果的平均值;
计算第四清晰度测试结果,所述第四清晰度测试结果为,全部所述发音表中全部所述汉语辅音类型的全部汉字在各个所述听音点的特征分,其中,任意一个所述听音点的特征分为,在该听音点的所有的所述第二清晰度测试结果的均值;
计算第五清晰度测试结果,所述第五清晰度测试结果为,各个预设音色的第四清晰度测试结果的平均值;
计算第六清晰度测试结果,所述第六清晰度测试结果为,全部听音点的所述第四清晰度测试结果,或所述第五清晰度测试结果的平均值;
计算第七清晰度测试结果,所述第七清晰度测试结果为所述第一清晰度测试结果、所述第二清晰度测试结果、所述第三清晰度测试结果、所述第四清晰度测试结果、所述第五清晰度测试结果、和所述第六清晰度测试结果的均值。
本申请实施例还提供了一种设备的清晰度测试设备,请参阅图7,示出了该设备的清晰度测试设备的结构示意图,该设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;
在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取第一信号,所述第一信号为预设的语音中目标汉字的样本发音,经放音模块发出,并由收音模块采集得到,所述放音模块以及所述收音模块中的至少一个模块为待测设备的组件;所述预设的语音包括预设的汉语辅音类型的汉字的发音,所述目标汉字为所述预设的汉语辅音类型的汉字中的任意一个汉字;
计算所述目标汉字在所述第一信号中的各个特征,所述特征依据所述汉语辅音类型设置;
计算第一距离值和第二距离值,所述第一距离值为所述第一信号特征与参考特征之间的距离,所述第二距离值为所述第一信号特征与相对特征之间的距离,所述参考特征为所述目标汉字的样本发音的所述特征,所述相对特征为所述目标汉字在所述汉语辅音类型中的对应汉字的样本发音的所述特征;
依据预设的规则,将所述第一距离值和所述第二距离值,映射为所述目标汉字的正确似然概率值和错误似然概率值;
依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取第一信号,所述第一信号为预设的语音中目标汉字的样本发音,经放音模块发出,并由收音模块采集得到,所述放音模块以及所述收音模块中的至少一个模块为待测设备的组件;所述预设的语音包括预设的汉语辅音类型的汉字的发音,所述目标汉字为所述预设的汉语辅音类型的汉字中的任意一个汉字;
计算所述目标汉字在所述第一信号中的各个特征,所述特征依据所述汉语辅音类型设置;
计算第一距离值和第二距离值,所述第一距离值为所述第一信号特征与参考特征之间的距离,所述第二距离值为所述第一信号特征与相对特征之间的距离,所述参考特征为所述目标汉字的样本发音的所述特征,所述相对特征为所述目标汉字在所述汉语辅音类型中的对应汉字的样本发音的所述特征;
依据预设的规则,将所述第一距离值和所述第二距离值,映射为所述目标汉字的正确似然概率值和错误似然概率值;
依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种设备的清晰度测试方法,其特征在于,包括:
获取第一信号,所述第一信号为预设的语音中目标汉字的样本发音,经放音模块发出,并由收音模块采集得到,所述放音模块以及所述收音模块中的至少一个模块为待测设备的组件;所述预设的语音包括预设的汉语辅音类型的汉字的发音,所述目标汉字为所述预设的汉语辅音类型的汉字中的任意一个汉字;
计算所述目标汉字在所述第一信号中的各个特征,所述特征依据所述汉语辅音类型设置;
计算第一距离值和第二距离值,所述第一距离值为所述特征与参考特征之间的距离,所述第二距离值为所述特征与相对特征之间的距离,所述参考特征为所述目标汉字的样本发音的所述特征,所述相对特征为所述目标汉字在所述汉语辅音类型中的对应汉字的样本发音的所述特征;
依据预设的规则,将所述第一距离值和所述第二距离值,映射为所述目标汉字的正确似然概率值和错误似然概率值;
依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果。
2.根据权利要求1所述的方法,其特征在于,所述计算所述目标汉字在所述第一信号中的各个特征,包括:
通过计算所述第一信号的辅音段的高频、中频和低频的能量分布参数,得到所述目标汉字在所述第一信号中的浊音性特征;
通过计算所述第一信号的第二共振峰的平均能量与所有共振峰的平均能量的比值,得到所述目标汉字在所述第一信号中的鼻音性特征;
通过计算所述第一信号的辅音段的平均振幅与韵母段的平均振幅的比值,得到所述目标汉字在所述第一信号中的送气性特征;
通过计算所述第一信号的辅音段频谱质心,得到所述目标汉字在所述第一信号中的低沉性特征;
通过计算所述第一信号的辅音段的窄带能量最大值与频谱能量总和的比值,得到所述目标汉字在所述第一信号中的紧密性特征;
通过计算所述第一信号的辅音的结束时间和开始时间之差,得到所述目标汉字在所述第一信号中的持续性特征。
3.根据权利要求1或2所述的方法,其特征在于,所述预设的语音的获取过程包括:
获取所述预设的汉语辅音类型的汉字对;
获取样本语音库,所述样本语音库中包括所述汉字对中的汉字的发音;
从每种所述汉语辅音类型的汉字对中,挑选至少一对,作为待选字对;
从每个所述待选字对中,挑选一个汉字,构成发音表;
从所述样本语音库中,获取所述发音表中的汉字的发音,作为所述预设的语音。
4.根据权利要求3所述的方法,其特征在于,所述计算第一距离值和第二距离值,包括:
将所述目标汉字在所述样本语音库中的发音,作为所述样本发音,并将所述目标汉字在所述待选字对中对应的汉字,在所述样本语音库中的发音,作为相对发音;
计算所述样本发音的所述特征,得到所述参考特征;
计算所述特征与所述参考特征间的加权距离值,得到所述第一距离值;
计算所述相对发音的所述特征,得到所述相对特征;
计算所述特征与所述相对特征间的加权距离值,得到所述第二距离值。
5.根据权利要求1所述的方法,其特征在于,所述依据预设的规则,将所述第一距离值和所述第二距离值映射为所述目标汉字的正确似然概率值和错误似然概率值,包括:
通过对所述第一距离值和所述第二距离值进行预设运算,得到比较参数;
依据所述比较参数与预设阈值的大小关系、以及所述第一距离值与所述第二距离值的大小关系,确定所述目标汉字的所述正确似然概率值;
由所述正确似然概率值,确定目标汉字的所述错误似然概率值。
6.根据权利要求1所述的方法,其特征在于,所述依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果,包括以下至少一项:
计算第一清晰度测试结果,所述第一清晰度测试结果为,第一数值与第二数值之差,与所述预设的汉语辅音类型的汉字的数量的比值,所述第一数值为所述预设的汉语辅音类型的各个汉字的所述正确似然概率值之和,所述第二数值为所述预设的汉语辅音类型的各个汉字的所述错误似然概率值之和;
计算第二清晰度测试结果,所述第二清晰度测试结果为所述各个汉字在各个测试条件下的清晰度得分,所述测试条件包括所属的听音点、所属的预设发音表、所属的所述汉语辅音类型、以及所属的预设汉字对中的至少一项;其中,任意一个测试条件下的清晰度得分为,该测试条件下的所述正确似然概率值与所述错误似然概率值之差的百分比值;
计算第三清晰度测试结果,所述第三清晰度测试结果为,各个所述类型的汉字在各个所述听音点的特征分,其中,任意一个所述类型在任意一个所述听音点的特征分为,该类型在该听音点的所有的所述第二清晰度测试结果的平均值;
计算第四清晰度测试结果,所述第四清晰度测试结果为,全部所述发音表中全部所述汉语辅音类型的全部汉字在各个所述听音点的特征分,其中,任意一个所述听音点的特征分为,在该听音点的所有的所述第二清晰度测试结果的均值;
计算第五清晰度测试结果,所述第五清晰度测试结果为,各个预设音色的第四清晰度测试结果的平均值;
计算第六清晰度测试结果,所述第六清晰度测试结果为,全部听音点的所述第四清晰度测试结果,或所述第五清晰度测试结果的平均值;
计算第七清晰度测试结果,所述第七清晰度测试结果为所述第一清晰度测试结果、所述第二清晰度测试结果、所述第三清晰度测试结果、所述第四清晰度测试结果、所述第五清晰度测试结果、和所述第六清晰度测试结果的均值。
7.一种设备的清晰度测试装置,其特征在于,包括:
第一信号获取单元,用于获取第一信号,所述第一信号为预设的语音中目标汉字的发音,经放音模块发出,并由收音模块采集得到,所述放音模块以及所述收音模块中的至少一个模块为待测设备的组件;所述预设的语音包括预设的汉语辅音类型的汉字的发音,所述目标汉字为所述预设的汉语辅音类型的汉字中的任意一个汉字;
特征计算单元,用于计算所述目标汉字在所述第一信号中的各个特征,所述特征依据所述汉语辅音类型设置;
距离值计算单元,用于计算第一距离值和第二距离值,所述第一距离值为所述特征与参考特征之间的距离,所述第二距离值为所述特征与相对特征之间的距离,所述参考特征为所述目标汉字的样本发音的所述特征,所述相对特征为所述目标汉字在所述汉语辅音类型中的对应汉字的样本发音的所述特征;
映射单元,用于依据预设的规则,将所述第一距离值和所述第二距离值,映射为所述目标汉字的正确似然概率值和错误似然概率值;
测试结果计算单元,用于依据所述预设的汉语辅音类型的各个汉字的所述正确似然概率值和所述错误似然概率值,计算所述待测设备的清晰度测试结果。
8.根据权利要求7所述的装置,其特征在于,所述特征计算单元用于计算所述目标汉字在所述第一信号中的各个特征,包括:所述特征计算单元具体用于以下至少一项:
通过计算所述第一信号的辅音段的高频、中频和低频的能量分布参数,得到所述目标汉字在所述第一信号中的浊音性特征;
通过计算所述第一信号的第二共振峰的平均能量与所有共振峰的平均能量的比值,得到所述目标汉字在所述第一信号中的鼻音性特征;
通过计算所述第一信号的辅音段的平均振幅与韵母段的平均振幅的比值,得到所述目标汉字在所述第一信号中的送气性特征;
通过计算所述第一信号的辅音段频谱质心,得到所述目标汉字在所述第一信号中的低沉性特征;
通过计算所述第一信号的辅音段的窄带能量最大值与频谱能量总和的比值,得到所述目标汉字在所述第一信号中的紧密性特征;
通过计算所述第一信号的辅音的结束时间和开始时间之差,得到所述目标汉字在所述第一信号中的持续性特征。
9.一种设备的清晰度测试设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~6中任一项所述的设备的清晰度测试方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~6中任一项所述的设备的清晰度测试方法的各个步骤。
CN202010005950.9A 2020-01-03 2020-01-03 设备的清晰度测试方法、装置、设备及可读存储介质 Active CN111243625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010005950.9A CN111243625B (zh) 2020-01-03 2020-01-03 设备的清晰度测试方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010005950.9A CN111243625B (zh) 2020-01-03 2020-01-03 设备的清晰度测试方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111243625A true CN111243625A (zh) 2020-06-05
CN111243625B CN111243625B (zh) 2023-03-24

Family

ID=70864495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010005950.9A Active CN111243625B (zh) 2020-01-03 2020-01-03 设备的清晰度测试方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111243625B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1238058A (zh) * 1996-11-18 1999-12-08 英国国防部 语音处理系统
EP1128693A1 (en) * 2000-02-28 2001-08-29 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Testing acoustic properties of a mobile terminal
US20040249639A1 (en) * 2001-10-11 2004-12-09 Bernhard Kammerer Method for producing reference segments describing voice modules and method for modelling voice units of a spoken test model
CN101147192A (zh) * 2005-02-23 2008-03-19 霍尼韦尔国际公司 用于音频通知系统的清晰度测量的方法与装置
US20090276220A1 (en) * 2008-04-30 2009-11-05 Shreyas Paranjpe Measuring double talk performance
CN102157147A (zh) * 2011-03-08 2011-08-17 公安部第一研究所 一种拾音系统语音质量客观评价的测试方法
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法
US20160277859A1 (en) * 2015-03-16 2016-09-22 Boe Technology Group Co., Ltd. Method and Device for Detecting Function of Loudspeaker Module
CN109168120A (zh) * 2018-11-16 2019-01-08 深圳市爱培科技术股份有限公司 一种扬声器和麦克风测试方法、智能终端及存储介质
CN109275084A (zh) * 2018-09-12 2019-01-25 北京小米智能科技有限公司 麦克风阵列的测试方法、装置、系统、设备和存储介质
CN110519680A (zh) * 2019-10-28 2019-11-29 展讯通信(上海)有限公司 音频器件测试方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1238058A (zh) * 1996-11-18 1999-12-08 英国国防部 语音处理系统
EP1128693A1 (en) * 2000-02-28 2001-08-29 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Testing acoustic properties of a mobile terminal
US20040249639A1 (en) * 2001-10-11 2004-12-09 Bernhard Kammerer Method for producing reference segments describing voice modules and method for modelling voice units of a spoken test model
CN101147192A (zh) * 2005-02-23 2008-03-19 霍尼韦尔国际公司 用于音频通知系统的清晰度测量的方法与装置
US20090276220A1 (en) * 2008-04-30 2009-11-05 Shreyas Paranjpe Measuring double talk performance
CN102157147A (zh) * 2011-03-08 2011-08-17 公安部第一研究所 一种拾音系统语音质量客观评价的测试方法
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法
US20160277859A1 (en) * 2015-03-16 2016-09-22 Boe Technology Group Co., Ltd. Method and Device for Detecting Function of Loudspeaker Module
CN109275084A (zh) * 2018-09-12 2019-01-25 北京小米智能科技有限公司 麦克风阵列的测试方法、装置、系统、设备和存储介质
CN109168120A (zh) * 2018-11-16 2019-01-08 深圳市爱培科技术股份有限公司 一种扬声器和麦克风测试方法、智能终端及存储介质
CN110519680A (zh) * 2019-10-28 2019-11-29 展讯通信(上海)有限公司 音频器件测试方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUDITH A. MORRISON ET AL.: "Articulation Testing Versus Conversational Speech Sampling", 《JOURNAL OF SPEECH LANGUAGE AND HEARING RESEARCH》 *
王炳锡等: "利用语音的上升过零间隔的语音识别研究", 《信息工程大学学报》 *
韩捷 等: "国家标准《扬声器主要性能测试方法》解读", 《电声技术》 *

Also Published As

Publication number Publication date
CN111243625B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US11270707B2 (en) Analysing speech signals
Bele The speaker's formant
US8972255B2 (en) Method and device for classifying background noise contained in an audio signal
Mustafa et al. Robust formant tracking for continuous speech with speaker variability
US4809332A (en) Speech processing apparatus and methods for processing burst-friction sounds
EP2083417B1 (en) Sound processing device and program
Ba et al. BaNa: A hybrid approach for noise resilient pitch detection
CN109257687A (zh) 具有非侵入式语音清晰度的听力设备和方法
CN106997765A (zh) 人声音色的定量表征方法
Nathwani et al. Formant shifting for speech intelligibility improvement in car noise environment
US9020818B2 (en) Format based speech reconstruction from noisy signals
CN111243625B (zh) 设备的清晰度测试方法、装置、设备及可读存储介质
Kostić et al. The Evaluation of Speech Intelligibility in the Orthodox Church on the Basis of MOS Test Intelligibility Logatom Type CCV
CN111757235A (zh) 一种具有教室语言清晰度测量功能的扩声系统
CN110931037A (zh) 改进的Mel频率尺度与耳语音共振峰结合的耳语音增强算法
Noh et al. How does speaking clearly influence acoustic measures? A speech clarity study using long-term average speech spectra in Korean language
Kirkov et al. Formant analysis of traditional bulgarian singing from rhodope region
Sharma et al. Singing characterization using temporal and spectral features in indian musical notes
Islam GFCC-based robust gender detection
CN112037759A (zh) 抗噪感知敏感度曲线建立及语音合成方法
Steeneken Quality evaluation of speech processing systems
Cox et al. Towards speech recognizer assessment using a human reference standard
Friedrichs et al. Reorganization of the auditory-perceptual space across the human vocal range
CN110691296B (zh) 一种麦克风内置耳机的信道映射方法
Strömbergsson Segmental Re-synthesis of Child Speech Using Unit Selection.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant