CN106558308B

CN106558308B - 一种互联网音频数据质量自动打分系统及方法

Info

Publication number: CN106558308B
Application number: CN201611099420.5A
Authority: CN
Inventors: 蔡钢林
Original assignee: Shenzhen Sahala Data Technology Co ltd
Current assignee: Shenzhen Sahala Data Technology Co ltd
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2020-05-15
Anticipated expiration: 2036-12-02
Also published as: CN106558308A

Abstract

本发明提出一种音频数据质量自动打分系统及方法，系统包括特征提取模块，基础打分系统模块，系统更新模块；系统更新模块用于获取一组第二语音数据，提取第二语音数据的特征，使用所述基础打分系统模块对第二语言数据进行评分，获得第二评分值，根据评分值对第二语音数据进行分类，得到较大值，中间值，较小值三类语音数据，使用较大值和较小值两类数据进行系统训练，并对所述基础打分系统进行更新。本发明针对智能语音交互这一新的需求，设计一组能反映噪音干扰程度的听觉特征，通过实时评估对语音交互准确率的改善程度，自适应修正质量打分模型，实现比较准确的选择高质量的互联网数据以提高语音交互准确性这一目的。

Description

一种互联网音频数据质量自动打分系统及方法

技术领域

本发明涉及到语音技术领域，特别是涉及到一种互联网音频数据质量自动打分系统及方法。

背景技术

近年来随着互联网技术、智能硬件的蓬勃发展，语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。这些语言信号处理技术通常基于一个涵盖基本应用的数据库，通过相关的机器学习技术，进行数学建模。数据库越充分，数学模型的准确性越高。互联网上的海量语音数据，相比于人工采集的数据库，更加真实、充分，充分利用这些海量数据会显著提升现有语音信号处理技术的准确性。然而，互联网上的海量数据因为实际录制的随意性，掺杂了很大的信道噪声和环境噪声。

通常来讲噪音主要有两个来源：(1)麦克风信号采集系统自带的信道噪声，信道噪声因麦克风的敏感性而不同，麦克风敏感性越高，通常信道噪声越高；(2)不可忽略的环境噪声干扰，比如电视机、空调噪声等等。这些噪声严重影响互联网上语音数据的质量。因此，在利用互联网音频数据进行改善相关智能语音交互技术之前，需要首先对互联网数据进行筛选。采用人工筛选的方法，效率低、成本高。

语音数据质量打分技术具体分为单端和双端评估两大类。所谓单端评估，又叫非侵入式语音评估，是指只有被噪音干扰的语音数据，没有纯净信号做对比信号。主要通过设计一组基于调制谱的声学特征，建立语音数据与客观得分直接的关联模型。所谓双端评估，又叫侵入式语音评估，是指既有被噪音干扰的语音数据，又有纯净信号做对比。和单端评估相比，双端评估主要是基于频谱域或者倒谱域被干扰信号与纯净信号的距离作为评估特征，通过机器学习的方法建立音频数据与客观得分之间的关联模型。目前，语音质量打分主要用于评估语音通讯系统的语音质量、评估相关语音降噪相关算法的有效性。这两类技术都是通过一定的音频数据库来模拟人的主观打分，评估的准确性由相关数据库和机器学习技术而定。在有新的数据加入的情况下，无法更新模型，很难适应于互联网海量音频数据处理这种应用场景。

由国际电信通讯联盟(ITU)发明的P.563是最常用的单端语音质量打分方法。该方法将语音信号干扰与失真分为6个类型，包括强背景噪声、信号静音与间断、卷积噪声等。该技术通过二类分类方法判定当前语音的主要失真类型，并对所有失真类型进行优先级排序，利用8个关键听觉特征做最终的失真程度评估。该方法比较适用于评估窄带信号。在该方法的基础上，还有一些改进方案，比如采用时域包络信息作为听觉特征；利用支持向量机、高斯混合模型等机器学习方法改进二类或多类分类的准确性。

由ITU发明的P.862是最常用的双端语音质量打分方法。该技术打分区间为-0.5-4.5分，分数越高说明语音质量越高。该方法首先将原纯净信号和被干扰信号进行幅度调整，再用输入滤波器模拟标准的电话通讯系统。通过幅度调整和滤波后的信号做时间对准，再次经过听觉变换度量这二个信号的增益变化，变化的幅度作为失真参数映射到质量打分。其他改进技术包括，不通过模拟电话通讯系统的滤波器，直接根据衡量信噪比增益、倒谱距离等特征参数，通过高斯混合模型、人工神经网络等机器学习算法建立特征参数到质量打分的映射模型；还有一些改进的技术引入了更符合人耳感知特性的听觉滤波器，分别评估各个频带的失真程度，并统一汇总作为全局的失真参数参与评估。

目前，语音质量打分方法大部分基于电话通讯数据，侧重于评估信道噪声大小、语音的失真程度、是否有丢帧等因素。而互联网音频数据则完全不同，比如环境噪声更大、采样率更高等特点。也就是说，现有技术评估互联网语音数据会出现不匹配，准确度低的缺点。其次，现有技术无法实现面向海量数据自适应更新模型，即模型经过一定的数据库训练之后就确定，如果新的数据被引入数据库，需要重新训练模型，效率低。此外，现有技术侧重于评估语音的感知质量。而语音识别、声纹识别等智能语音交互技术则完全不同，存在部分数据感知质量比较高，但是计算机识别性能很低的可能。也就是说，需要建立语音智能交互准确率与评估准确率之间的数学模型，并实现改进语音智能交互准确率的目的。而现有技术无法实现这一目的。

发明内容

本发明的主要目的为提供一种互联网音频数据质量自动打分系统和方法，解决现有技术评估互联网语音数据不匹配，准确度低的问题。

本发明提出一种互联网音频数据质量自动打分系统，包括：

特征提取模块，用于提取语音数据的多个声音特征；

基础打分系统模块，用于通过预设一组第一语音数据，获取第一语音数据的多个第一评分值，使用所述特征提取模块对第一语音数据进行特征提取并进行预白化，获得第一语音数据的多个第一预白化声音特征，拟合第一声音特征与第一评分值的数据，建立基础打分系统；

系统更新模块，用于获取一组第二语音数据，提取第二语音数据的特征，使用所述基础打分系统模块对第二语言数据进行评分，获得第二评分值，根据评分值对第二语音数据进行分类，得到较大值，中间值，较小值三类语音数据，使用较大值和较小值两类数据进行系统训练，并对所述基础打分系统进行更新。

优选地，所述特征提取模块包括：

单帧信噪比计算单元，用于计算单帧信噪比指标；

单帧梳状滤波能量残留比计算单元，用于计算单帧梳状滤波能量残留比指标；

语音存在段与语音缺失段平均指标计算单元，用于计算语音存在段与语音缺失段平均指标。

优选地，所述单帧信噪比计算单元包括：

对语音数据进行傅里叶变换；

初始化噪音功率谱估算为λ_V(0)＝0，目标信号功率谱估算为λ_X(0)＝0，先验信噪比ε(0)＝0，后验信噪比为γ(k)＝0；

对所有时间帧，依次更新噪音单帧功率谱：

其中，α为平滑因子，取值范围为0到1之间；

l为时间帧坐标；

k为频率坐标；

K为最大频率；

Y(l,k)为语音数据的频谱域数据；

X为目标信号；

V为噪音信号；

对所有时间帧，依次计算先验信噪比和后验信噪比指标：

ε(l)为先验信噪比；

γ(l)为后验信噪比；

更新语音信号功率谱估算：

优选地，所述单帧梳状滤波能量残留比计算单元包括：

根据自相关信息，估算每一帧时域信号的基频：

其中，F_s是采样率，T是单帧长度，F₀为基频估算结果；

构造一对梳状滤波器，滤波器频率响应函数为：

H_comb(k)＝1+βexp(-j2πkF_s/F₀)

H_shift(k)＝1+βexp(-j(2πkF_s/F₀+π))

其中，β为控制参数，H_comb(k)用以抓取谐波结构上的能量，H_shift(k)用以抓取谐波结构之外的能量；

计算单帧梳状能量比指标：

优选地，所述语音存在段与语音缺失段计算单元包括：

假定麦克风采集信号的前1秒没有语音信号，即前1秒所有时间帧假设为静音帧，计算静音帧能量的平均值和方差：

其中，N_e代表前1秒时间帧的数量；

根据阈值判断语音存在时间帧和语音缺失时间帧，阈值由静音帧能量平均值和方差决定，即如果当前帧能量

大于μ_Y+2σ_Y，则判定该时间帧为语音存在帧；否则判定为语音缺失帧；

计算语音存在段和语音缺失段各特征均值，分别计算语音存在时间帧和语音缺失时间帧各个特征的平均值，计算如下：

其中，N_V,N_X分别代表语音缺失帧和语音存在帧的数量，Θ_V,Θ_X分别代表语音缺失和语音存在帧的集合。

优选地，所述基础打分系统模块中对第一语音数据预白化过程包括：

假定第i个音频数据对应特征表示为：Zⁱ＝[zⁱ(1),zⁱ(2),...,zⁱ(3×(L+2))]，共有M个音频，对每一个特征计算M个音频的均值和方差：

预白化后数据为：

优选地，所述基础打分系统模块中拟合第一声音特征与第一评分值的数据，建立基础打分系统的过程包括：

假定音频得分qⁱ和白化后特征服从线性模型，即

线性回归系数为：B＝[θ,b(1),b(2),...,b(3*(L+2))]^T，根据M个音频数据构造特征矩阵为：

其中特征矩阵Z为维度矩阵M×(3*(L+2)+1)，Q为M×1维度向量，由所述评分值数据构成，线性回归系数为：B_O＝(Z^TZ)^-1Z^TQ。

优选地，所述系统更新模块包括：

打分单元，用于采用所述基础打分系统对一组预设数据进行打分，根据打分结果进行分类，划分为较大值，中间值，较小值；

数据选取单元，用于选取自适应数据库中较大值和较小值的数据参与模型训练，这两类数据特征分别为Z₊和Z_-，分别用较大值和较小值标定这两类数据，即Q₊和Q_-；

数据训练单元，用于分别用上述两类数据参与相关语音交互系统的训练，并调用独立的语音交互测试集，测试识别率增益值；假设在没有增加上述新的数据情况下，语音交互识别率为Ι，融合新的数据进行训练后的识别率分别为Ι₊和Ι_-，识别率增益分别为ΔΙ₊＝Ι₊-Ι和ΔΙ_-＝Ι-Ι_-；

计算打分系统自适应系数；

对所述基础打分系统进行修正，其线性回归修正系数可由如下公式求得：

数据迭代单元，用于重新随机选择一组数据，按上述步骤对数据进行迭代。

优选地，所述打分系统自适应系数可由以下公式获得：

本发明还提出了一种互联网音频数据质量自动打分方法，包括：

步骤S1、提取语音数据的多个声音特征；

步骤S2、预设一组第一语音数据，获取第一语音数据的多个第一评分值，利用步骤S1的方法对第一语音数据进行特征提取并进行预白化，获得第一语音数据的多个第一预白化声音特征，拟合第一声音特征与第一评分值的数据，建立基础打分系统；

步骤S3、获取一组第二语音数据，利用步骤S1的方法提取第二语音数据的特征，使用步骤S2的基础打分系统对第二语言数据进行评分，获得第二评分值，根据评分值对第二语音数据进行分类，得到较大值，中间值，较小值三类语音数据，使用较大值和较小值两类数据进行系统训练，并对所述基础打分系统进行更新。

本发明提出一种音频数据质量自动打分系统，包括：特征提取模块，用于提取语音数据的多个声音特征；基础打分系统模块，用于通过预设一组第一语音数据，获取第一语音数据的多个第一评分值，使用所述特征提取模块对第一语音数据进行特征提取并进行预白化，获得第一语音数据的多个第一预白化声音特征，拟合第一声音特征与第一评分值的数据，建立基础打分系统；系统更新模块，用于获取一组第二语音数据，提取第二语音数据的特征，使用所述基础打分系统模块对第二语言数据进行评分，获得第二评分值，根据评分值对第二语音数据进行分类，得到较大值，中间值，较小值三类语音数据，使用较大值和较小值两类数据进行系统训练，并对所述基础打分系统进行更新。本项发明方法，针对智能语音交互这一新的需求，设计一组能反映噪音干扰程度的听觉特征，通过实时评估对语音交互准确率的改善程度，自适应修正质量打分模型，可以代替人工打分，选择得分高的部分音频数据用以改进相关智能语音交互技术，实现比较准确的选择高质量的互联网数据以提高语音交互准确性这一目的。本发明采用监督学习与无监督学习综合的方法，既有效利用了互联网数据，提高了打分系统的准确性，又降低了数据标注的人工成本，提高了效率。

附图说明

图1为本发明一种互联网音频数据质量自动打分系统实施例的结构示意图；

图2为本发明一种互联网音频数据质量自动打分系统实施例的数据流程图；

图3为本发明一种互联网音频数据质量自动打分系统实施例特征提取模块的基频为400Hz的梳状滤波器频率响应函数图；

图4为本发明一种互联网音频数据质量自动打分系统实施例系统更新模块的数据流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提出一种互联网音频数据质量自动打分系统，包括：

特征提取模块10，用于提取语音数据的多个声音特征；

基础打分系统模块20，用于通过预设一组第一语音数据，获取第一语音数据的多个第一评分值，使用所述特征提取模块对第一语音数据进行特征提取并进行预白化，获得第一语音数据的多个第一预白化声音特征，拟合第一声音特征与第一评分值的数据，建立基础打分系统；

系统更新模块30，用于获取一组第二语音数据，提取第二语音数据的特征，使用所述基础打分系统模块对第二语言数据进行评分，获得第二评分值，根据评分值对第二语音数据进行分类，得到较大值，中间值，较小值三类语音数据，使用较大值和较小值两类数据进行系统训练，并对所述基础打分系统进行更新。

由于噪声的大小、语音的失真程度是反映语音质量最重要的指标，特征提取模块10旨在挖掘能客观反映这两个因素的听觉特征。具体包括单帧信噪比指标、单帧梳状滤波能量残留比指标、语音存在段平均信噪比指标、语音缺失段信噪比平均指标、语音存在段梳状滤波能量残留比平均指标、语音缺失段梳状滤波能量残留比平均指标。其中，前2个指标为局部指标，反映噪音、扭曲在一个音频文件中的分布特性，后4个指标为全局指标，分别刻画语音出现的时间段和语音缺失的时间段噪音、扭曲的平均值。

如图2所示，图2为本发明一种互联网音频数据质量自动打分系统的流程示意图。基础打分系统模块20通过从基础模型数据库选取的一定数量语音数据进行人工打分，此语音数据即为第一语音数据，然后通过拟合数据特征与人工打分，基于最小误差代价函数构建基础打分系统。基础打分系统使用线性回归建模。基础打分系统模块20通过特征提取模块10获取语音数据的声音特征，然后在每一句语音数据通过人工打分的形式对数据进行标注，再采用线性回归模型对声音特征数据与评分值数据进行拟合，以均方误差作为拟合代价函数，建立基础打分系统。通过该基础打分系统，可对语音数据进行评分。

系统更新模块30，目的在于对基础打分系统模块20进行修正更新。在图2中，系统更新模块30调用自适应模型数据库中的一组数据，此数据即为第二语音数据，使用特征提取模块10对数据进行特征提取，然后利用基础打分系统模块20的线性回归模型对数据打分，将数据分类，选取高分值和低分值两部分数据进行语音交互系统性能评估，计算增益值，若数据产生正向增益，则将数据融合进线性回归模型。自适应模型数据库中的语音数据可定期向互联网获取。这样，本模块可实现对大量的数据进行评分计算，避免了用人工打分的成本太高、效率低，在现实情况下实现并不经济的情况。本模块可充分利用利用互联网新的数据，在无人工打分的情况下进行模型打分并对基础打分系统进行更新。本模块通过从互联网随机抓取一部分语音数据，调用初始模型进行初打分，根据打分结果对数据库进行分类，选择得分最高的一类数据，参与语音交互系统(语音识别、语音唤醒、声纹识别等系统)模型训练，根据交互系统增益修正基础打分系统。如果对语音交互系统的提高越显著，说明打分模型越准确，线性回归模型的自适应更新幅度越小；否则选择较大的更新幅度。

下面对互联网音频数据质量自动打分系统进行详细描述。

特征提取模块10

单帧信噪比计算单元

在特征提取模块10中，单帧信噪比指标可通过以下步骤获得：

(a)假设互联网语音数据为y(t)＝x(t)+v(t)，其中x(t)为语音信号，v(t)为信道噪声。首先对时域信号做傅里叶变换至频谱域：

其中，w(t)为长度512的汉宁窗，l为时间帧坐标，k为频率坐标。

(b)初始化噪音功率谱估算为λ_V(0)＝0，目标信号功率谱估算为λ_X(0)＝0，先验信噪比ε(0)＝0，后验信噪比为γ(k)＝0。

(c)对所有时间帧，依次更新噪音单帧功率谱：

其中，α为平滑因子，取值范围为0到1之间，实施例中平滑因子设定为0.86。

(d)对所有时间帧，依次计算先验信噪比和后验信噪比指标：

计算出的先验信噪比和后验信噪比即为单帧信噪比指标。

(e)更新语音信号功率谱估算：

该更新步骤用以实现下一时间帧信噪比计算。

单帧梳状滤波能量残留比计算单元

在特征提取模块10中，由于语音信号能量集中分布在浊音帧的谐波结构，因此检测能量分布在谐波结构和谐波结构之外的比率，可以反映谐波被破坏的程度，进而反映语音客观质量。单帧梳状滤波能量残留比指标可通过以下步骤获得：

根据自相关信息，估算每一帧时域信号的基频：

其中，F_s是采样率，T是单帧长度，本项发明中T＝512，F₀为基频估算结果。

(a)构造一对梳状滤波器，滤波器频率响应函数为：

H_comb(k)＝1+βexp(-j2πkF_s/F₀)

H_shift(k)＝1+βexp(-j(2πkF_s/F₀+π)) (6)

其中，β为控制参数，本项发明采用β＝0.7。H_comb(k)用以抓取谐波结构上的能量，H_shift(k)用以抓取谐波结构之外的能量。图3为本实施例所采用的基频对应400Hz的梳状滤波器频率响应函数。

(b)单帧梳状能量比指标，即上述滤波器输出的能量比值：

该比值越大，说明能量分布在谐波结构上越集中，语音失真程度越小，否则说明失真高。

语音存在段与语音缺失段平均指标计算单元

一段音频信号，有可能只有一段信号属于语音信号，剩下一部分是背景噪音，在进行语音质量打分，对这两段信号进行区分，会改进语音打分的准确性。在特征提取模块10中，语音存在段与语音缺失段平均指标可通过以下步骤获得：

(a)假定麦克风采集信号的前1秒没有语音信号，即前1秒所有时间帧假设为静音帧，计算静音帧能量的平均值和方差：

其中，N_e代表前1秒时间帧的数量，假设采样率为16KHz，本实施例采用的帧长为512，帧移256，则N_e＝62。

(b)根据阈值判断语音存在时间帧和语音缺失时间帧，阈值由静音帧能量平均值和方差决定。即如果当前帧能量

大于μ_Y+2σ_Y，则判定该时间帧为语音存在帧；否则判定为语音缺失帧。

(c)计算语音存在段和语音缺失段各特征均值。分别计算语音存在时间帧和语音缺失时间帧各个特征的平均值，计算如下：

最终的特征向量由各帧局部特征和语音缺失、语音存在段共同组成，最终的特征向量为：

特征维度为3×(L+2)，L为一个音频的时间帧数量。

经过特征提取模块10的处理，L帧的音频数据转化为一个特征向量Z，特征向量Z可作为打分系统评分的依据。

基础打分系统模块20

在本模块中，预设一组第一语音数据是指经人工打分的语音数据，在下文中第一语音数据简称为语音数据或数据。

基础打分系统模块20通过对互联网选取的一定量数据库进行人工打分，然后通过拟合数据特征与人工打分，基于最小误差代价函数构建基础打分系统。打分系统通过一个线性回归模型进行数学建模。基础打分系统模块20的建立过程如下所示：

(1)随机选取互联网语音数据，每一句数据由若干志愿者进行打分，并且均值作为最终的人工打分。本项发明每一句数据由40个志愿者进行评估，分值从1到5，分值越高语音质量越高。评估的标准包括，噪音的大小、语音谱失真程度、语音可懂度。

(2)特征预白化处理。由于线性回归模型会受到各个特征取值范围的影响，而各个特征的取值范围有很大的不同。因此需要对数据进行预白化处理。假定第i个音频数据对应特征表示为：Zⁱ＝[zⁱ(1),zⁱ(2),...,zⁱ(3×(L+2))]，共有M个音频，对每一个特征计算M个音频的均值和方差：

特征预白化就是把每一维度特征归一化到0均值1方差，预白化后数据为：

(3)线性回归模型。假定音频得分qⁱ和白化后特征服从线性模型，即

线性回归系数为：B＝[θ,b(1),b(2),...,b(3*(L+2))]^T。根据M个音频数据构造特征矩阵为：

其中特征矩阵Z为维度矩阵M×(3*(L+2)+1)，Q为M×1维度向量，由人工打分数据构成。线性回归系数为：B_O＝(Z^TZ)^-1Z^TQ。其中Z^T为向量Z的转置向量。该回归系数可以保证在拟合误差在均方误差意义上最小。

本模块通过对音频数据的特征数据与人工打分数据进行拟合，建立线性回归打分系统，获得线性回归系数。这样，音频数据经本模块处理可得到其相应的评分值。

系统更新模块30

在本模块中，获取一组第二语音数据是指从自适应模型数据库中选取的一组数据，在下文中第二语音数据简称为语音数据或数据。

系统更新模块30的执行流程如图4所示。系统更新模块30的处理流程详述如下：

(1)从自适应模型数据库中选取一组数据，采用基础打分系统该组数据进行打分，根据打分结果进行分类。

(2)选取自适应数据库中打分大于4分和小于2分的数据参与模型训练，这两类数据特征分别为Z₊和Z_-，分别用4分和2分标定这两类数据，即Q₊和Q_-。

(3)分别用上述两类数据参与相关语音交互系统的训练，并调用独立的语音交互测试集，测试识别率增益值。交互测试集和训练集为不同的数据，可提高测试训练模型的泛化能力，避免训练系统过拟合于训练数据而导致在实际应用中评判失误。假设在没有增加上述新的数据情况下，语音交互识别率为Ι。融合新的数据进行训练后的识别率分别为Ι₊和Ι_-。在基础打分模型准确的情况下，则融合大于4分的数据会提高识别率，融合小于2分的数据后识别率会降低。识别率增益分别为ΔΙ₊＝Ι₊-Ι和ΔΙ_-＝Ι-Ι_-。

(4)计算打分系统自适应系数为：

(5)修正打分系统线性回归模型为：

如果打分系统足够准确，则随着数据的增加对语音交互系统增益渐渐降低，进而说明线性回归模型不需要大的增益，否则需要大的增益。即语音识别的增益作为权重，调节打分系统的自适应幅度，代替人工打分。

(6)随机选择新的互联网数据，重复步骤(1)-(5)，重复迭代数据，对打分模型不断更新。

系统更新模块30包括打分单元，数据选取单元，数据训练单元，数据迭代单元。打分单元对应步骤(1)，数据选取单元对应步骤(2)，数据训练单元对应步骤(3)-(5)，数据迭代单元对应步骤(6)。

步骤S1、提取语音数据的多个声音特征；

本发明提出了一种音频数据质量自动打分系统及方法，系统包括：特征提取模块，用于提取语音数据的多个声音特征；基础打分系统模块，用于通过预设一组第一语音数据，获取第一语音数据的多个第一评分值，使用所述特征提取模块对第一语音数据进行特征提取并进行预白化，获得第一语音数据的多个第一预白化声音特征，拟合第一声音特征与第一评分值的数据，建立基础打分系统；系统更新模块，用于获取一组第二语音数据，提取第二语音数据的特征，使用所述基础打分系统模块对第二语言数据进行评分，获得第二评分值，根据评分值对第二语音数据进行分类，得到较大值，中间值，较小值三类语音数据，使用较大值和较小值两类数据进行系统训练，并对所述基础打分系统进行更新。本发明针对智能语音交互这一新的需求，设计一组能反映噪音干扰程度的听觉特征，通过实时评估对语音交互准确率的改善程度，自适应修正质量打分模型，可以代替人工打分，选择得分高的部分音频数据用以改进相关智能语音交互技术，实现比较准确的选择高质量的互联网数据以提高语音交互准确性这一目的。本项发明采用监督学习与无监督学习综合的方法，既有效利用了互联网数据，提高了打分系统的准确性，又降低了数据标注的人工成本，提高了效率。

本发明公开可在设备、系统、方法和/或计算机程序产品中体现。所述计算机程序产品可包括计算机可读存储媒介(或介质)，其上具有计算机可读程序指令，用于致使处理器进行本公开的方面。

计算机可读存储媒介可为可保持和存储指令供指令执行装置使用的有形装置。计算机可读存储媒介可例如为但不限于电子存储装置、磁性存储装置、光学存储装置、电磁存储装置、半导体存储装置，或前述各项的任何合适组合。计算机可读存储媒介的较具体实例的非详尽列表包括以下各项：便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、静态随机存取存储器(SRAM)、便携式压缩光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、存储棒、软磁盘、例如上面记录有指令的穿孔卡片或凹槽中的凸起结构等机械编码的装置，以及前述各项的任何合适组合。如本文所使用，并不将计算机可读存储媒介解释为暂时性信号本身，例如无线电波或其它自由传播的电磁波、传播穿过波导管或其它传输介质的电磁波(例如，穿过光纤缆线的光脉冲)，或穿过电线传输的电信号。

可将本文所描述的计算机可读程序指令从计算机可读存储媒介下载到相应的计算/处理装置，或经由例如因特网、局域网、广域网和/或无线网络等网络下载到外部计算机或外部存储装置。所述网络可包括铜传输缆线、光学传输光纤、无线传输、路由器、防火墙、交换器、网关计算机和/或边缘服务器。每一计算/处理装置中的网络适配卡或网络接口接收来自网络的计算机可读程序指令，并转发所述计算机可读程序指令，以供存储在相应计算/处理装置内的计算机可读存储媒介中。

用于进行本公开的操作的计算机可读程序指令可为汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据，或以一个或多个编程语言的任何组合编写的任何源代码或目标代码，所述编程语言包括以目标为导向的编程语言，例如Smalltalk、C++等；以及常规程序编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上、部分地在用户的计算机上、作为独立软件封装、部分地在用户的计算机上和部分地在遥远计算机上或完全在遥远计算机或服务器上执行。在后者场景中，遥远计算机可通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或可进行到外部计算机的连接(例如，使用因特网服务提供商通过因特网)。在一些实施方案中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个人化电子电路，以便执行本公开的方面。

本文根据本公开的实施方案，参考方法、设备(系统)以及计算机程序产品的流程图说明和/或框图来描述本公开的方面。将理解，流程图说明和/或框图中的每个框，以及流程图说明和/或框图中的框的组合可由计算机可读程序指令实施。

可将这些计算机可读程序指令提供给生产机器的通用计算机、专用计算机或其它可编程数据处理设备的处理器，使得经由所述计算机或其它可编程数据处理设备执行的指令创建用于实施流程图和/或框图框中所指定的功能/动作的构件。这些计算机可读程序指令也可存储在计算机可读存储媒介中，其可指导计算机、可编程数据处理设备和/或其它装置以特定方式起作用，使得里面存储有指令的计算机可读存储媒介包括制品，所述制品包括实施流程图和/或框图框中所指定的功能/动作的方面的指令。

计算机可读程序指令也可加载到计算机、其它可编程数据处理设备或其它装置上，以致使一系列操作步骤在计算机、其它可编程设备或其它装置上执行，以产生计算机实施的过程，使得在计算机、其它可编程设备或其它装置上执行的指令实施流程图和/或框图框中所指定的功能/动作。

图中的流程图和框图示出了根据本公开各种实施方案的系统、方法和计算机程序产品的可能实施方式的架构、功能性和操作。在这点上，流程图或框图中的每一框可表示指令的模块、片段或部分，其包括用于实施指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中，框中所述的功能可以与图中所述的次序不同的次序发生。举例来说，连续示出的两个框事实上可大体上同时执行，或所述框可有时以反向次序执行，取决于所涉及的功能性。还将注意，框图和/或流程图说明的每一框，以及框图和/或流程图说明中的框的组合，可由执行指定功能或动作或进行专用硬件和计算机指令的组合的基于专用硬件的系统来实施。

虽然前述内容是针对本公开的实施方案，但在不脱离本公开的基本范围的情况下，设想本公开的其它和另外的实施方案，且本公开的范围由所附权利要求书决定。

Claims

1.一种互联网音频数据质量自动打分系统，其特征在于，包括：

特征提取模块，用于提取语音数据的多个声音特征；

系统更新模块，用于获取一组第二语音数据，提取第二语音数据的特征，使用所述基础打分系统模块对第二语言数据进行评分，获得第二评分值，根据评分值对第二语音数据进行分类，得到较大值，中间值，较小值三类语音数据，使用较大值和较小值两类数据进行系统训练，并对所述基础打分系统进行更新，其中将第二语音数据分类，选取高分值和低分值两部分数据进行语音交互系统性能评估，计算增益值，若数据产生正向增益，则将数据融合进线性回归模型。

2.根据权利要求1所述的互联网音频数据质量自动打分系统，其特征在于，所述特征提取模块包括：

单帧信噪比计算单元，用于计算单帧信噪比指标；

3.根据权利要求2所述的互联网音频数据质量自动打分系统，其特征在于，所述单帧信噪比计算单元包括：

对语音数据进行傅里叶变换；

对所有时间帧，依次更新噪音单帧功率谱：

其中，α为平滑因子，取值范围为0到1之间；

l为时间帧坐标；

k为频率坐标；

K为最大频率；

Y(l,k)为语音数据的频谱域数据；

X为目标信号；

V为噪音信号；

对所有时间帧，依次计算先验信噪比和后验信噪比指标：

ε(l)为先验信噪比；

γ(l)为后验信噪比；

更新语音信号功率谱估算：

4.根据权利要求2所述的互联网音频数据质量自动打分系统，其特征在于，所述单帧梳状滤波能量残留比计算单元包括：

根据自相关信息，估算每一帧时域信号的基频：

其中，F_s是采样率，T是单帧长度，F₀为基频估算结果；

构造一对梳状滤波器，滤波器频率响应函数为：

H_comb(k)＝1+βexp(-j2πkF_s/F₀)

H_shift(k)＝1+βexp(-j(2πkF_s/F₀+π))

计算单帧梳状能量比指标：

5.根据权利要求2所述的互联网音频数据质量自动打分系统，其特征在于，所述语音存在段与语音缺失段平均指标计算单元包括：

其中，N_e代表前1秒时间帧的数量；

6.根据权利要求1所述的互联网音频数据质量自动打分系统，其特征在于，所述基础打分系统模块中对第一语音数据预白化过程包括：

预白化后数据为：

7.根据权利要求6所述的互联网音频数据质量自动打分系统，其特征在于，所述基础打分系统模块中拟合第一声音特征与第一评分值的数据，建立基础打分系统的过程包括：

假定音频得分qⁱ和白化后特征服从线性模型，即

8.根据权利要求1所述的互联网音频数据质量自动打分系统，其特征在于，所述系统更新模块包括：

数据训练单元，用于分别用上述两类数据参与相关语音交互系统的训练，并调用独立的语音交互测试集，测试识别率增益值；假设在没有增加新的关于上述数据选取单元中自适应数据库中较大值和较小值的数据的情况下，语音交互识别率为Ι，融合新的数据进行训练后的识别率分别为Ι₊和Ι_-，识别率增益分别为ΔΙ₊＝Ι₊-Ι和ΔΙ_-＝Ι-Ι_-；

计算打分系统自适应系数；

数据迭代单元，用于重新随机选择一组数据，并把此数据按照上述打分单元、数据选取单元和数据训练单元的顺序步骤进行数据迭代。

9.根据权利要求8所述的互联网音频数据质量自动打分系统，其特征在于，所述打分系统自适应系数可由以下公式获得：

10.一种互联网音频数据质量自动打分方法，其特征在于，包括：

步骤S1、提取语音数据的多个声音特征；

步骤S3、获取一组第二语音数据，利用步骤S1的方法提取第二语音数据的特征，使用步骤S2的基础打分系统对第二语言数据进行评分，获得第二评分值，根据评分值对第二语音数据进行分类，得到较大值，中间值，较小值三类语音数据，使用较大值和较小值两类数据进行系统训练，并对所述基础打分系统进行更新，其中将第二语音数据分类，选取高分值和低分值两部分数据进行语音交互系统性能评估，计算增益值，若数据产生正向增益，则将数据融合进线性回归模型。