CN111276161B

CN111276161B - 一种语音质量评分系统及方法

Info

Publication number: CN111276161B
Application number: CN202010148801.8A
Authority: CN
Inventors: 戎玲; 胡融
Original assignee: Shanghai Jinghui Electronic Equipment Minhang Co ltd; Third Research Institute of the Ministry of Public Security
Current assignee: Shanghai Jinghui Electronic Equipment Minhang Co ltd; Third Research Institute of the Ministry of Public Security
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2023-03-10
Anticipated expiration: 2040-03-05
Also published as: CN111276161A

Abstract

本发明涉及一种语音质量评分系统及方法，通过对采样语音信号切片、频域转换之后得到的语音特征值与标准语音信号比较评分了解输出后的语音质量与标准语音信号之间的差异，直接用真人语音作为信号源对终端产品进行测试，提高测试准确度，能够为人们接受。

Description

一种语音质量评分系统及方法

技术领域

本发明涉及一种语音传输检测领域，尤其涉及一种语音质量评分系统及方法。

背景技术

在现有技术中，需要对语音或视频传输使用的设备进行语音传输、视频传输等性能是否符合规定的各项指标做检测(检验)或测试，只有当这些检测或测试所获得结果符合规定的各项标准要求，才能保证这些语音或视频设备是可用且好用、质量是有保障的，进而，才能将这些设备进行生产和实际应用。随着语音、视频传输设备的各项技术的不断进步，对设备以及设备配合使用时的各方面的性能要求也在不断更新进步中。因此，对于设备检测(检验)的技术，也随之不断改进以便提高检测检验结果的准确性和精确度。以应用于住宅楼宇出入口控制的楼宇对讲系统为例，对其使用的设备以及系统整体上的音频传输特性的检测(检验)或测试就是整个对讲系统检测最为重要的部分。已知的楼宇对讲系统的音频传输质量测试的试验方法是评价楼宇对讲系统产品语音传输质量的一整套全程声测试的试验方法，其包括了5项技术参数(如：响度评定值、频率响应/频响、失真、信噪比、侧音掩蔽评定值)的测试和计算。该已有的测试方法中，对输出端的音频信号检测则专注于对其频响、失真及振幅特性的技术特性的评测。其中，还原度，是指信号源输入的原片频谱的形状与输出端的采样片频谱形状的一致性，其是音频测量中评测设备和系统整体性能尤其是输出性能的一个重要技术参数。而由于现有技术缺少对输出端的输出信号还原度进行直接测试和判断，导致对设备和系统性能尤其输出性能的测评并不精确。并且，现有的测试方式中还存在以下缺陷：用频响来判断设备的性能太粗燥，测试结果和实际使用有差异，测试结果有局限性，实际设备和系统应用时，实际存在的语音信号都是多频点信号(如：人发声为N个频点/频率的各种叠加)，而现有的失真测试是使用单频点(即单纯的200Hz、400Hz等)进行，与实际的多频点的失真情况并不一致，导致利用该测试的失真来判别还原度也不准确。因而，最终导致现有的音频信号的检测结果并不准确或者说精确度不高，与实际的主观评测差距较大。

随着人工智能的出现，对终端产品测试要求也相应提高，用传统测试方法不能满足现终端产品要求。

发明内容

基于现有技术中存在的上述缺陷，本申请的主要目的是提供一种音频信号还原度检测系统及方法，以提高音频信号还原度测试的准确度、精确度。进一步，提高了对设备、系统等的音频信号性能测试整体的精确度。为了解决上述现有技术中的技术缺陷，本申请的目的是通过以下技术方案来实现的。

一种语音质量评分系统，其特征在于：

包括语音采集装置和语音质量分析装置，二者电性连接；

其中，预设一标准语音信号,所述标准语音信号在被测设备中传输，最后作为被测输出的语音信号由被测设备的输出端输出；

所述语音采集装置用于采集所述被测设备输出的语音信号得到采样语音信号，并将采样语音信号发给语音质量分析装置；

所述语音质量分析装置用于接收所述采样语音信号以及接收标准语音信号，对所述采样语音信号和所述标准语音信号做同步处理，并将所述采样语音信号和所述标准语音信号按照相同的时间间隔进行切片和比对分析，得出评分结果。

其特征在于，所述语音质量分析装置包括：

接收模块，用于获取所述标准语音信号，并与所述语音采集装置连接，从所述语音采集装置接收所述采样语音信号，将所述标准语音信号和所述采样语音信号发送给延时处理模块；

延时处理模块，与接收模块连接，用于扣除所述采样语音信号与所述标准语音信号相比的延迟时间，使所述采样语音信号与所述标准语音信号同步；

切片模块，分别与延时处理模块连接，用于对从延时处理模块处接收与所述标准语音信号同步后的所述采样语音信号按照预设的时间间隔进行切片，获得所述采样语音碎片；

频域转换模块，与所述切片模块连接，用于对所述采样语音碎片进行频谱转换，在频域中获取所述采样语音碎片的声音特征值；

所述分离标记模块，与所述频域转换模块连接，用于分析每一片所述采样语音碎片的声音特征值，将声音强度大于阈值的所述采样语音碎片标记成话音信号，将声音强度小于等于阈值的所述采样语音碎片标记成间隙信号；

所述评分模块，与分离标记模块连接，用于将属于话音信号的每一片所述采样语音碎片的声音特征值与存储的对应的标准语音碎片的声音特征值进行比较评分，属于间隙信号的所有所述采样语音碎片不参与评分，所述评分模块将所有属于话音信号的每一片所述采样语音碎片的评分进行累加，求平均得到平均分数值。

其特征在于，所述切片模块与所述接收模块连接并从所述接收模块接收所述标准语音信号并按照所述预设的时间间隔进行切片，获得标准语音碎片；所述频域转换模块对所述标准语音碎片进行频谱转换，在频域中获取所述标准语音碎片的声音特征值；一存储模块，存储所述标准语音碎片的声音特征值。

其特征在于，所述预设的时间间隔是20ms。

一种语音质量评分方法，其特征在于：使用如上述的一种语音质量评分系统，具有如下步骤：

步骤S1，预设一标准语音信号,所述标准语音信号在被测设备中传输，最后作为被测输出的语音信号由被测设备的输出端输出；

步骤S2，语音采集装置采集所述被测设备输出的语音信号得到采样语音信号，并将采样语音信号发给语音质量分析装置；

步骤S3，所述语音质量分析装置接收所述采样语音信号以及标准语音信号，对所述采样语音信号和所述标准语音信号做同步处理，并将所述采样语音信号和所述标准语音信号按照相同的时间间隔进行切片和比对分析，得出评分结果。

其特征在于，

步骤S3包括如下步骤：

步骤S31，接收模块获取所述标准语音信号，并从所述语音采集装置接收所述采样语音信号，将所述标准语音信号和所述采样语音信号发送给延时处理模块；

步骤S32，所述延时处理模块扣除所述采样语音信号与所述标准语音信号相比的延迟时间，使所述采样语音信号与所述标准语音信号同步；

步骤S33，切片模块对从延时处理模块处接收与所述标准语音信号同步后的所述采样语音信号按照预设的时间间隔进行切片，获得所述采样语音碎片；

步骤S34,频域转换模块对所述采样语音碎片进行频谱转换，在频域中获取所述采样语音碎片的声音特征值；

步骤S35，分离标记模块分析每一片所述采样语音碎片的声音特征值，将声音强度大于一阈值的所述采样语音碎片标记成话音信号，将声音强度小于等于所述阈值的所述采样语音碎片标记成间隙信号；

步骤S36，评分模块将被标记成话音信号的每一片所述采样语音碎片的声音特征值与存储的对应的标准语音碎片的声音特征值进行比较评分，被标记成间隙信号的所有所述采样语音碎片不参与评分，所述评分模块将所有标记成话音信号的每一片所述采样语音碎片的评分进行累加，求平均得到平均分数值。

其特征在于，所述标准语音碎片的获取步骤如下：

步骤S41，所述切片模块从所述接收模块接收所述标准语音信号并按照所述预设的时间间隔进行切片，获得标准语音碎片；

步骤S42,所述频域转换模块对所述标准语音碎片进行频谱转换，在频域中获取所述标准语音碎片的声音特征值；

此外还包括步骤S43：存储所述标准语音碎片的声音特征值；

其中所述步骤S41-S43在所述步骤S32之前进行。

其特征在于，所述预设的时间间隔是20ms。

本发明的有益技术效果是：直接用真人语音作为信号源对终端产品进行测试，用软件方法算出与标准语音信号差异，给出评分。这样的结果更加精确，更为人们接受。

附图说明

图1为本发明的一种实施例系统结构示意图。

图2为本发明的采样语音信号的延迟示意图。

图3-5为本发明的实施例方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。参见图1-2以对楼宇对讲系统的音频传输特性进行采样测试为例，基于采样信号的频谱分析以及声源信号进行还原度分析，确定该被测系统的声音输出性能。该实施例的检测系统中，主要可以包括：语音采集装置2、语音质量分析装置33。

预设一标准语音信号，例如语音输入模块，产生标准语音信号。此标准语音信号可以为标准的人说话的声音，即真人语音信号。该真人语音信号作为被测设备1的音频传输特性的测试用传输语音。该标准语音信号可以经由语音输入模块作为输入语音信号(例如：信号源)，输入到被测设备1的输入端，在被测设备1中传输，最后作为被测输出语音信号由被测设备1的输出端(例如：喇叭、听筒等)输出。

被测设备1，在本实施例中，可以是楼宇对讲系统，接收来自语音输入模块的输入语音信号，经过功放装置、被测通路、功放装置，传输该输入语音信号直到被测系统的输出端，由该输出端将经过被测系统的该输入的语音信号作为被测输出语音信号而输出。其中，被测通路，可以是被测系统(如被测的楼宇对讲系统)中需要检测的通话通路。

语音采集装置2，采集被测设备1输出的语音信号，把采集到的采样语音信号进行转换后传送到语音质量分析装置3进行处理分析。如在输出端设置传声器。

语音采集装置2可以包括MIC、功放、音频信号采集仪等等。

例如：由MIC接收被测系统的输出端喇叭播放的经过被测设备1统传输过来的语音信号，具体地，这些从输入端进入的连续语音信号经过被测设备1后，通过输出端作为输出的连续语音信号被MIC所接收；连续的语音信号，通过功放，传递到音频信号采集仪，由语音采集装置2将这些连续的语音信号采集到的并传送给语音质量分析装置3。

进一步，例如：由MIC接收被测设备1的输出端喇叭播放的经过该被测系统传输过来的采样语音信号，可以由MIC将输出的语音信号转换成电信号，再由MIC中的CPU等处理器进行A/D转换等处理，形成数字信号，再将对应语音信号的数字信号传送到语音质量分析装置3进行数字信号的处理和分析。由于语音输入模块的输入语音是连续的，通过被测设备1输出的语音信号也是连续的，因而，这些由语音采集装置2采集到的连续的采样语音信号所对应的连续的数字信号可以传送到语音质量分析装置3。语音质量分析装置3，接收到从语音采集装置2传送来的连续语音信号，或者说，连续语音信号所转换成的相应的连续数字信号，并进行处理和分析，进而，可以对语音质量进行评分。

具体地，语音质量分析装置3可以包括内置的处理器(如CPU等)或者具有分析处理性能的PC机等等。当接收到连续语音信号时，通过CPU对连续的语音信号做转换形成连续的数字信号或者说语音的数字信号流；当接收到已经转换成的连续数字信号时，该连续数字信号即为语音的数字信号流。这里，将连续语音信号对应的数字信号流称为语音信号的信号流。

在本发明的一种具体实施例中，语音质量采集模块具体包括接收模块4、延时处理模块5、切片模块6、频域转换模块7、分离标记模块8以及评分模块9。

其中，延时处理模块5用于比较采样语音信号与标准语音信号的延迟时间，将采样语音信号扣除延迟时间使得采样语音信号与标准语音信号同步。

其中，切片模块6用于分别对标准语音信号以及采样语音信号进行切片，得到采样语音碎片和标准语音碎片。具体而言，将语音信号流按照时间间隔划分成N片，例如，时间间隔为20ms，则每一片的时间为20ms。由于语音输入模块的输入标准语音信号是连续的，通过被测设备1输出的语音信号也是连续的，因而，这些由语音采集装置2采集到的采样语音信号也是连续的，并和且标准语音信号和采样语音信号具有随着时间具有对应的关系。因此，采样语音信号被切片之后的每一采样语音碎片在标准语音信号被切片后具有相对应的标准语音碎片。

其中，频域转换模块7用于对采样语音碎片和标准语音碎片的每一片做傅立叶频谱转换，获取每一片语音信号转换后在频域中的声音特征值。

其中，分离标记模块8用于分离标记模块8分析采样语音碎片每一片的声音特征值，对采样语音碎片的每一片分类标记成话音信号和间隙信号，其中话音信号是指声音强度大于一阈值的碎片信号，间隙信号是指声音强度小于等于所述阈值的碎片信号。作为优选的实时方式，阈值一般选为10-40dB，优选的，为10dB,优选的,为20dB、30dB或者40dB。实际而言，话音信号便是真人在讲话时的声音信号，人在讲话时声音强度一般比不讲话时强度要高。间隙信号就是没有人在讲话时的声音，例如停顿时，一般存在的环境的噪音等即底噪。此时分理出人讲话和不讲话分别做处理，更加有利于语音质量的分析提高语音质量的分析精度。在本发明中，可以将是话音信号的片标记为1，间隔信号的片标记为0，以此分离开来。

其中，评分模块9，将属于话音信号的采样语音碎片的每一片声音特征值与标准语音碎片的对应片的对应声音特征值进行比较评分，将属于间隙信号的采样语音碎片的每一片不参与评分，之后将评分进行累加求平均得到平均分数值。间隙信号是真人不讲话时例如停顿时的声音，如果参与评分会影响平均分数值，影响测试结果的精确度，因此不参与评分。具体而言，将采样语音碎片的每一片的声音特征值和标准语音碎片的对应片的声音特征值进行比较，首先进行判断，如果判断是话音信号例如被分离标记模块8标记为1时，该片参与评分，而被分离标记模块8标记为0的间隙信号直接略过，不参与评分。在本发明中，将比较采样语音碎片的每一片的声音特征值和标准语音碎片的对应片的声音特征值的相似程度得出评分，声音特征值例如是波形特征或/和频率特征信息，波形特征或/和频率特征信息相似度越高，得分越高。具体的，可以根据真人语音信号的频域特特征选择不同的频域比较范围，一般在窄频域范围内例300-3400赫兹，一般宽频域选择100-7000赫兹。

进一步的，所述切片模块6与所述接收模块4连接并从所述接收模块4接收所述标准语音信号并按照所述预设的时间间隔进行切片，获得标准语音碎片；所述频域转换模块7对所述标准语音碎片进行频谱转换，在频域中获取所述标准语音碎片的声音特征值；一存储模块10，存储所述标准语音碎片的声音特征值。

下面将结合图3-5所示本申请的音频信号还原度检测方法一实施例的流程图，对本申请的音频信号还原度检测方法进行更具体的描述。

步骤S1，预设一标准语音信号,标准语音信号在被测设备1中传输，最后作为被测输出的语音信号由被测设备1的输出端输出。

语音输入模块产生标准语音信号，该标准语音信号可以是标准的人说话的声音，例如真人语音信号。该真人语音信号作为被测设备1的音频传输特性的测试用传输语音信号。该语音信号可以经由语音输入模块作为输入语音信号，输入到被测设备1的输入端，在被测设备1中传输，最后作为被测输出语音信号由被测设备1的输出端输出。真人语音信号包含所有的交条失真，采用其作为输入信号，更符合被测系统的使用环境，其测试更准确客观。被测设备1，例如：楼宇对讲系统。本步骤的具体实施可以参见对系统中关于语音输入模块及其被测设备1的描述。

步骤S2，语音采集装置2采集被测设备1输出的语音信号得到采样语音信号，并将采样语音信号发给语音质量分析装置3；

步骤S3，语音质量分析装置3接收采样语音信号以及标准语音信号，对采样语音信号和标准语音信号做同步处理，并将采样语音信号和标准语音信号按照相同的时间间隔进行切片和比对分析，得出评分结果。

进一步的，步骤S3包括如下步骤：

步骤S31，接收模块4获取标准语音信号，并从语音采集装置2接收采样语音信号，将标准语音信号和采样语音信号发送给延时处理模块5；

步骤S32，延时处理模块5扣除采样语音信号与标准语音信号相比的延迟时间，使采样语音信号与标准语音信号同步；

步骤S33，切片模块6对从延时处理模块5处接收与标准语音信号同步后的采样语音信号按照预设的时间间隔进行切片，获得采样语音碎片；

步骤S34,频域转换模块7对采样语音碎片进行频谱转换，在频域中获取采样语音碎片的声音特征值；

步骤S35，分离标记模块8分析每一片采样语音碎片的声音特征值，将声音强度大于一阈值的采样语音碎片标记成话音信号，将声音强度小于等于所述阈值的采样语音碎片标记成间隙信号；

步骤S36，评分模块9将被标记成话音信号的每一片采样语音碎片的声音特征值与存储的对应的标准语音碎片的声音特征值进行比较评分，被标记成间隙信号的所有采样语音碎片不参与评分，评分模块9将所有标记成话音信号的每一片采样语音碎片的评分进行累加，求平均得到平均分数值。

进一步的，标准语音碎片的获取步骤如下：

步骤S41，切片模块6从接收模块4接收标准语音信号并按照所述预设的时间间隔进行切片，获得标准语音碎片；

步骤S42,频域转换模块7对标准语音碎片进行频谱转换，在频域中获取标准语音碎片的声音特征值；

此外还包括步骤S43：存储标准语音碎片的声音特征值；

其中所述步骤S41-S43在步骤S32之前进行。

预设的时间间隔是20ms。

所述阈值为10-40dB。

分离标记模块8分析采样语音信号每一片的声音特征值，对采样语音信号的每一片分类标记成话音信号和间隙信号，其中话音信号是指声音强度大于一阈值的信号，间隙信号是指声音强度小于等于所述阈值的信号。作为优选的实时方式，阈值一般选为10-40dB，优选的，为10dB,优选的,为20dB、30dB或者40dB。实际而言，话音信号便是真人在讲话时的声音信号，人在讲话时声音强度一般比不讲话时强度要高。间隙信号就是没有人在讲话时的声音，例如停顿时，一般存在的环境的噪音等即底噪。此时分理出人讲话和不讲话分别做处理，更加有利于语音质量的分析提高语音质量的分析精度。在本发明中，可以将是话音信号的片标记为1，间隔信号的片标记为0，以此分离开来。

评分模块9，将属于话音信号的采样语音信号的每一片声音特征值与标准语音信号的对应片对应的声音特征值进行比较评分，将属于间隙信号的采样语音信号的每一片不参与评分，之后将评分进行累加求平均得到平均分数值。间隙信号是真人不讲话时例如停顿时的声音，如果参与评分会影响平均分数值，影响测试结果的精确度，因此不参与评分。具体而言，将采样语音信号的每一片的声音特征值和标准语音信号的对应片的声音特征值进行比较，首先进行判断，如果判断是话音信号例如被分离标记模块8标记为1时，该片参与评分，而被分离标记模块8标记为0的间隙信号直接略过，不参与评分。在本发明中，将比较采样语音信号的每一片的声音特征值和标准语音信号的对应片的声音特征值的相似程度得出评分，声音特征值例如是波形特征或/和频率特征信息，波形特征或/和频率特征信息相似度越高，得分越高。具体的，可以根据真人语音信号的频域特特征选择不同的频域比较范围，一般在窄频域范围内例300-3400赫兹，一般宽频域选择100-7000赫兹。

其中，对标准语音信号的切片处理以及频域转换处理在步骤S2或S3之前进行，由语音质量分析装置3预先处理得到相应的声音特征值，并进行存储。

在声音特征值比较过程中，将采样语音信号每片对应的声音特征值和标准语音信号的对应片对应的声音特征值，基于诸如相似性原理/相似度计算等方式。如：采样语音信号的第一片P1的声音特征值A、B、C、D、…,与对应于标准语音信号的第一片p1的声音特征值a、b、c、d、…之间的相似度计算，得到相似度值0～1(0相似或100％相似)，为了更清晰的确定分析结果，可以对该值的范围同乘以倍数如100，采用百分制，即0～100分，从而每片都能得到一个对比分析的分数。最后，累计所有话音信号的片的分数并获得该输出语音信号的平均得分。

利用本申请的方案，通过在检测过程中检测用的声源信号采用真人语音，以保证被测系统在检测过程中处于实际工作环境，并且，由于信号是真人语音，其失真包含所有交调失真；进而，通过对信号的切片处理，包括了对连续频率的测试，符合真人语音的信号状况，更能充分显现被测系统的声音输出特性，因此，直接对还原度的连续信号切片检测方式，能获得更准确、更精确的被测系统、设备的检测结果。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种语音质量评分系统，其特征在于：

包括语音采集装置和语音质量分析装置，二者电性连接；

2.如权利要求1所述的一种语音质量评分系统，其特征在于，所述语音质量分析装置包括：

切片模块，分别与延时处理模块连接，用于对从延时处理模块处接收与所述标准语音信号同步后的所述采样语音信号按照预设的时间间隔进行切片，获得采样语音碎片；

分离标记模块，与所述频域转换模块连接，用于分析每一片所述采样语音碎片的声音特征值，将声音强度大于一阈值的所述采样语音碎片标记成话音信号，将声音强度小于等于所述阈值的所述采样语音碎片标记成间隙信号；

评分模块，与所述分离标记模块连接，用于将属于话音信号的每一片所述采样语音碎片的声音特征值与存储的对应的标准语音碎片的声音特征值进行比较评分，属于间隙信号的所有所述采样语音碎片不参与评分，所述评分模块将所有属于话音信号的每一片所述采样语音碎片的评分进行累加求平均得到平均分数值。

3.如权利要求2所述的一种语音质量评分系统，其特征在于，所述切片模块与所述接收模块连接并从所述接收模块接收所述标准语音信号并按照所述预设的时间间隔进行切片，获得标准语音碎片；所述频域转换模块对所述标准语音碎片进行频谱转换，在频域中获取所述标准语音碎片的声音特征值；一存储模块，存储所述标准语音碎片的声音特征值。

4.如权利要求3所述的一种语音质量评分系统，其特征在于，所述预设的时间间隔是20ms。

5.一种语音质量评分方法，其特征在于：使用如权利要求1的一种语音质量评分系统，具有如下步骤：

6.如权利要求5所述的一种语音质量评分方法，其特征在于，

步骤S3包括如下步骤：

步骤S33，切片模块对从延时处理模块处接收与所述标准语音信号同步后的所述采样语音信号按照预设的时间间隔进行切片，获得采样语音碎片；

步骤S36，评分模块将被标记成话音信号的每一片所述采样语音碎片的声音特征值与存储的对应的标准语音碎片的声音特征值进行比较评分，被标记成间隙信号的所有所述采样语音碎片不参与评分，所述评分模块将所有标记成话音信号的每一片所述采样语音碎片的评分进行累加求平均得到平均分数值。

7.如权利要求6所述的一种语音质量评分方法，其特征在于，所述标准语音碎片的获取步骤如下：

此外还包括步骤S43：存储所述标准语音碎片的声音特征值；

其中所述步骤S41、步骤S42、步骤S43在所述步骤S32之前进行。

8.如权利要求7所述的一种语音质量评分方法，其特征在于，所述预设的时间间隔是20ms。