CN106935248A

CN106935248A - 一种语音相似度检测方法及装置

Info

Publication number: CN106935248A
Application number: CN201710080153.5A
Authority: CN
Inventors: 赵志宏; 叶生
Original assignee: Guangzhou Children's Education Circle Information Polytron Technologies Inc
Current assignee: Guangzhou Children's Education Circle Information Polytron Technologies Inc
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2017-07-07
Anticipated expiration: 2037-02-14
Also published as: CN106935248B

Abstract

本发明公开了一种语音相似度检测方法，包括：采集语音的音频数据；从所述音频数据中提取音频特征参数；所述音频特征参数包括频谱系数和声音强度；将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比，获取所述语音与所述原始音频之间的相似度。相应的，本发明还公开了一种语音相似度检测装置。采用本发明实施例，能够提高语音相似度检测的准确率。

Description

一种语音相似度检测方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音相似度检测方法及装置。

背景技术

现有技术中，通常采用的语音相似度评分方法基本原理是对原始音频和输入音频数据分别进行频谱分析，得到语音的频谱特征，然后对两个频谱特征进行比较，从而得出两个语音相似度的分值。但是，这种方法存在着难以精确区分音调变化，对音量大小和不同人体的声带特色差异很敏感，模仿跟读的完整度对评分结果影响很大等缺点，从而导致语音相似度评分准确率低。

发明内容

本发明实施例提出一种语音相似度检测方法及装置，能够提高语音相似度检测的准确率。

本发明实施例提供一种语音相似度检测方法，包括：

采集语音的音频数据；

从所述音频数据中提取音频特征参数；所述音频特征参数包括频谱系数和声音强度；

将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比，获取所述语音与所述原始音频之间的相似度。

进一步地，所述音频特征参数还包括基音轨迹；

其中，所述基音轨迹的提取方法具体包括：

从所述音频数据中计算获取基音序列；

从所述基音序列中获取候选拐点；

将曲率值大于预设阈值的候选拐点作为拐点；

获取所有相邻两个拐点的线段，并保存到折线序列中；

计算所有相邻两个线段之间的夹角值，并保存到夹角序列中；

将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。

进一步地，所述频谱系数包括但不限于：梅尔倒频谱系数或倒傅里叶频谱系数；

所述梅尔倒频谱系数的提取方法具体包括：

将所述音频数据等比例划分为至少一个音频帧；

对所述至少一个音频帧进行离散变换和滤波，获得至少一个自然对数；

分别计算所述至少一个自然对数的离散预选变换，并去除变换后的第一个参数，将剩余的参数作为所述梅尔倒频谱系数。

进一步地，所述声音强度的提取方法具体包括：

将所述音频数据划分为N个音频帧；其中，N≥1；

计算每个音频帧的平均声音强度；

根据所述每个音频帧的平均声音强度，计算所述每个音频帧的声音强度。

进一步地，所述平均声音强度的计算公式为其中，AveMag(n)为音频帧n的平均声音强度，M为音频帧n的采样点个数，S_n(m)为音频帧n中的采样点m的信号幅度值；

所述声音强度的计算公式为其中，Mag(n)为音频帧n的声音强度，Min为所有音频帧中的最小平均声音强度，Max为所有音频帧中的最大平均声音强度。

进一步地，在所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比之前，还包括：

采用平移公式，对提取的所述基音轨迹进行线性平移；

所述平移公式如下：

其中，f′₂(x)为所述语音平移后的基音轨迹，f₂(x)为从所述语音中提取的基音轨迹，f₁(k)为原始音频的基音轨迹，N为基音轨迹的长度。

进一步地，所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比，获取所述语音与所述原始音频之间的相似度，具体包括：

根据所述语音的音频特征参数和所述原始音频的音频特征参数，计算所述语音与所述原始音频之间的相关系数；

根据所述相关系数，获取所述语音与所述原始音频之间的相似度。

进一步地，所述相关系数包括但不限于：欧式距离、皮尔森相关系数或似然分数值；

其中，所述欧式距离的计算公式如下：

其中，D为语音与原始音频之间的欧氏距离，A_mn为M×N的第一矩阵，B_mn为M×N的第二矩阵。

进一步地，在所述从所述音频数据中提取音频特征参数之前，还包括：

对所述语音的音频数据进行预处理；所述预处理包括预滤波、高通滤波、低通滤波、采样、量化、语音端点检测处理。

进一步地，在所述获取所述语音与所述原始音频之间的相似度之后，还包括：

根据所述语音与所述原始音频之间的相似度，计算所述语音的得分。

进一步地，所述音频特征参数还包括文本语音匹配相关特征参数。

相应地，本发明实施例还提供一种语音相似度检测装置，包括：

采集模块，用于采集语音的音频数据；

参数提取模块，用于从所述音频数据中提取音频特征参数；所述音频特征参数包括频谱系数和声音强度；以及，

对比模块，用于将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比，获取所述语音与所述原始音频之间的相似度。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的语音相似度检测方法及装置，能够从语音的音频数据中提取出频谱系数和声音强度两种音频特征参数，进而将提取的音频特征参数与原始音频的音频特征参数进行对比，获取语音与原始音频的相似度，克服了传统方法中对音量大小敏感、对人体声带特色敏感的缺点，加强对音调匹配度的考察，有效提高相似度检测的准确性；在提取基音轨迹后，对语音的基音轨迹进行线性平移后再与原始音频进行对比，减小由麦克风、人体声带特征等引起的差异问题，进一步提高相似度检测的准确性。

附图说明

图1是本发明提供的语音相似度检测方法的一个实施例的流程示意图；

图2是本发明提供的语音相似度检测方法中基音轨迹的提取方法的一个实施例的流程示意图；

图3是本发明提供的语音相似度检测方法中梅尔倒频谱系数的提取方法的一个实施例的流程示意图；

图4是本发明提供的语音相似度检测装置的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的语音相似度检测方法的一个实施例的流程示意图，包括：

S1、采集语音的音频数据；

S2、从所述音频数据中提取音频特征参数；所述音频特征参数包括频谱系数和声音强度；

S3、将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比，获取所述语音与所述原始音频之间的相似度。

需要说明的是，在对语音相似度进行检测时，采集待检测的语音的音频数据，从该音频数据中提取出频谱系数和声音强度两种音频特征参数。其中，频谱系数符合人对低频信号更敏感的听觉特征，而声音强度可以刻画语音中音量的大小，其为声波在单位时间内作用在与其传递方向垂直的单位面积上的能量。采用语音的这两种音频特征参数与原始音频的音频特征参数进行对比，可使该对比对音量大小、不同人体的声带特色不敏感，同时考虑到音调因素，更有效地评估待检测的语音与原始音频的相似度，以提高语音检测的准确率。

进一步地，所述音频特征参数还包括基音轨迹；

其中，所述基音轨迹的提取方法具体包括：

从所述音频数据中计算获取基音序列；

从所述基音序列中获取候选拐点；

将曲率值大于预设阈值的候选拐点作为拐点；

获取所有相邻两个拐点的线段，并保存到折线序列中；

更具体地，如图2所示，所述基音轨迹的提取方法具体包括：

S21、从所述音频数据中计算获取能量过零率、自相关函数和线性预测系数的均方预测误差，并通过人工神经网络计算出基音序列；

S22、根据曲线链码的差分码，从所述基音序列中获取候选拐点；

S23、将曲率值大于预设阈值的候选拐点作为拐点，并保存所述拐点的位置值；

S24、根据所有拐点的位置值获取所有相邻两个拐点的线段，并保存到折线序列中；

S25、计算所有相邻两个线段之间的夹角值，并保存到夹角序列中；

S26、将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。

需要说明的是，基音轨迹决定了语音中音调的变化，是用来区分声音相似度的重要因素，基音频率反映了说话人的声音特征，包括音量高低、语速快慢、性别、年龄等。对基音曲线进行平滑处理后就可得到基音轨迹，基音轨迹决定了语音中的音调变化，是可以用来区分声音相似度的重要因素。

在提取语音音频数据中的基音轨迹时，先从音频数据中提取基音轨迹，即选取能量过零率、自相关函数、线性预测系数LPC的均方预测误差，共4组特征值作为输入，通过BP人工神经网络计算出基音序列。进而，根据曲线Freeman链码的差分码，从基因序列中寻找候选拐点，如果候选拐点的曲率值大于给定的阈值，表示成功找到了一个拐点，保存该拐点的位置值，并继续寻找下一个拐点，直到找出所有拐点为止。在找出所有拐点后，根据拐点的位置值，获得每个拐点与上一个拐点的线段，即相邻两个拐点的线段，并保存到折线序列中，进而计算每个线段与上一条线段，即相邻两条线段之间的夹角值，并保存到夹角序列中。采用折线序列和夹角序列来表征基音轨迹，在后续对比中，通过对比折线序列和夹角序列即可得到语音的基音轨迹曲线与原始音频的基音轨迹曲线之间的相似度。将夹角和折线作为因子应用到语音相似度评估中，在曲线局部上的小偏差有很好的鲁棒性，同时匹配结果不受语音信号的音量大小影响。另外，在不同的应用场景下，可以适当增减、替换相关的特征参数。例如，要准确区分人的声带特色，可取消使用基音轨迹特征参数。

所述梅尔倒频谱系数的提取方法具体包括：

将所述音频数据等比例划分为至少一个音频帧；

更具体地，如图3所示，所述梅尔倒频谱系数的提取方法具体包括：

S31、将所述音频数据等比例划分为P个音频帧；其中，P≥1；

S32、分别对所述P个音频帧进行离散快速傅里叶变换并取模的二次方，获得离散功率谱；

S33、采用Q个带通滤波器对所述离散功率谱进行滤波，获得Q个自然对数；其中，Q≥2；

S34、分别计算所述Q个自然对数的离散预选变换，并去除变换后的第一个参数，将剩余的Q-1个参数作为所述梅尔倒频谱系数。

需要说明的是，人类听觉系统是一个非线性的系统，对不同频率的声音有着不同的敏感度，人对低频信号更敏感，梅尔倒频谱系数刚好符合人耳的这种听觉特征，因此使用梅尔倒频谱系数作为语音相似度评估中的重要系数，使语音评估结果更接近于人类的主观感受。另外，在对语音相似度评估的准确度要求不高的情况，可使用倒傅里叶频谱系数代替梅尔倒频谱系数，也可使用其他频谱系数。

在提取梅尔倒频谱系数时，先将语音的音频数据等比例划分为P个音频帧s(n)，n＝1,2,…P。对每个音频帧s(n)，通过离散FFT变换(离散快速傅里叶变换)以及取模的二次方，得到离散功率谱S(n)。根据Q个带通滤波器对S(n)进行滤波，得到Q个自然对数P_m，m＝1,2,…Q。再对P_m计算其离散余弦变换，得到D_m，m＝0,2,…Q-1，去除D₀，得到D₁，D₂，...，D_Q-1作为梅尔倒频谱系数特征参数。

进一步地，所述声音强度的提取方法具体包括：

将所述音频数据划分为N个音频帧；其中，N≥1；

采用平均声音强度的计算公式，计算每个音频帧的平均声音强度；所述平均声音强度的计算公式为其中，AveMag(n)为音频帧n的平均声音强度，M为音频帧n的采样点个数，S_n(m)为音频帧n中的采样点m的信号幅度值；

采用声音强度的计算公式，对所述每个音频帧的平均声音强度进行归一化处理，获取所述每个音频帧的声音强度；所述声音强度的计算公式为其中，Mag(n)为音频帧n的声音强度，Min为所有音频帧中的最小平均声音强度，Max为所有音频帧中的最大平均声音强度。

需要说明的是，语音信号中音量的大小是由声音强度来刻画的，它是声波在单位时间内作用在与其传递方向垂直的单位面积上的能量。在提取声音强度时，先采用声音强度计算公式计算每个音频帧的平均声音强度。而语音录音时的整体音量大小设置不应该影响语音相似度检测结果，因此需对计算出的声音强度进行归一化处理，以减轻录音时音量大小设置对语音相似度检测的结果。

采用平移公式，对提取的所述基音轨迹进行线性平移；

所述平移公式如下：

需要说明的是，由于人体声带的固有特征，人与人之间的声音强度有差异，对此还需采用线性平移的方法对基音轨迹f₂(x)进行平移，将基音轨迹f₂(x)调整为f′₂(x)，以减小这种差异，从而解决了麦克风差异、人体声带特征差异引起的评分差异问题。

根据所述语音的音频特征参数构建M×N的第一矩阵，根据所述原始音频的音频特征参数构建M×N的第二矩阵；

根据所述第一矩阵和所述第二矩阵，计算所述语音与所述原始音频之间的相关系数；

根据所述相关系数获取所述语音与所述原始音频之间的相似度。

其中，所述相关系数包括但不限于：欧式距离、皮尔森相关系数或似然分数值。

其中，所述欧式距离的计算公式如下：

其中，D为语音与原始音频之间的欧氏距离，A_mn为第一矩阵，B_mn为第二矩阵。

需要说明的是，在提取语音的音频特征参数和原始音频的音频特征参数后，分别将两组音频的音频特征参数构建为M×N的矩阵A和B，进而计算矩阵A和B之间的欧式距离，欧式距离越小，则两组音频之间的差异越小，反之亦然，从而最终确定两组音频之间的相似度。采用欧氏距离来描述两组音频之间的相似度，具有简单、高效等优点。计算两组特征参数的相似度使用了欧氏距离，以达到简单高效的目标。在具体应用中，也可以替换或者增加其他相关性计算方法，例如皮尔森相关系数、似然分数值等。

需要说明的是，在使用麦克风采集录制的语音后，将录制语音的音频数据转换为wav格式，以便后续流程中处理。由于人声中的高频部分在传播过程中会出现较多衰减，因此需要对音频数据补偿高频率部分，采用滤波器对语音的音频数据进行预滤波的预处理，其公式为H(z)＝1-uz^-1，其中，常量u的值决定语音高频部分的幅度大小，一般根据经验取值为0.94。由于音频数据往往受到直流电流干扰和环境声音干扰，使其存在一定的噪声，因此在预滤波后采用高通滤波器有效去除直流和部分环境噪声，再通过低通滤波器以配合高通滤波器有效去除噪声。滤波后，把音频信号在时域上进行等间隔抽样，抽样后对音频信号进行量化，即将信号幅度等比例划分为不同区域，相同区域的幅值设为相同。进而，检测语音端点，即检测音频数据中每一段人声的开始位置和结束位置，以便于排除静音，其中，语音端点检测的依据是音频信号短时间内平稳且能量低于一定阈值。语音端点检测完后，即完成语音的音频数据的预处理。将预处理后的音频数据保存两份以便后续步骤处理，一份用于基音轨迹的提取，另一份用于频谱系数和声音强度的提取。

需要说明的是，在输入语音时，可根据语音端点检测，识别出每段语音，再分别检测每段语音与原始音频的相似度，进而根据相似度计算每段语音的分值，以及整个语音的综合得分，可使用于模仿跟读类型产品，如K歌、英语模仿秀、配音模仿秀等，可提高语音评分的准确度。

需要说明的是，在标准的阅读口语评分应用中，也可以加入文本语音匹配相关特征参数以辅助达到更准确的识别效果。

另外，在不同应用场景下，可适当增减、替换相关的音频特征参数。例如，要准确区分人的声带特色，可取消使用基音轨迹特征参数；在对评分准确度要求不高的情况，可使用倒傅里叶频谱系数代替梅尔倒频谱系数；在标准的阅读口语评分应用中，也可以加入文本语音匹配相关特征参数以辅助达到更准确的识别效果。在具体应用中，也可采用替换或者增加其他相关性计算方法来计算语音与原始音频的相似度，例如皮尔森相关系数、似然分数值等。此外，对于基音轨迹、梅尔倒频谱系数、声音强度三种特征参数的具体计算方法也可以进行适当的修改，还可以加入人工神经网络模型，应用到特征提取、特征匹配步骤中，以达到同样甚至更好的识别效果。

本发明实施例提供的语音相似度检测方法，能够从语音的音频数据中提取出频谱系数和声音强度两种音频特征参数，进而将提取的音频特征参数与原始音频的音频特征参数进行对比，获取语音与原始音频的相似度，克服了传统方法中对音量大小敏感、对人体声带特色敏感的缺点，加强对音调匹配度的考察，有效提高相似度检测的准确性；在提取基音轨迹后，对语音的基音轨迹进行线性平移后再与原始音频进行对比，减小由麦克风、人体声带特征等引起的差异问题，进一步提高相似度检测的准确性。

相应的，本发明还提供一种语音相似度检测装置，能够实现上述实施例中的语音相似度检测方法的所有流程。

参见图4，是本发明提供的语音相似度检测装置的一个实施例的结构示意图，包括：

采集模块1，用于采集语音的音频数据；

参数提取模块2，用于从所述音频数据中提取音频特征参数；所述音频特征参数包括频谱系数和声音强度；以及，

对比模块3，用于将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比，获取所述语音与所述原始音频之间的相似度。

进一步地，所述音频特征参数还包括基音轨迹；

所述参数提取模块具体包括：

基音序列获取单元，用于从所述音频数据中计算获取基音序列；

候选拐点获取单元，用于从所述基音序列中获取候选拐点；

拐点获取单元，用于将曲率值大于预设阈值的候选拐点作为拐点；

折线序列获取单元，用于获取所有相邻两个拐点的线段，并保存到折线序列中；

夹角序列获取单元，用于计算所有相邻两个线段之间的夹角值，并保存到夹角序列中；以及，

基音轨迹获取单元，用于将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。

所述参数提取模块具体包括：

划分单元，用于将所述音频数据等比例划分为至少一个音频帧；变换单元，用于对所述至少一个音频帧进行离散变换和滤波，获得至少一个自然对数；以及，

系数获取单元，用于分别计算所述至少一个自然对数的离散预选变换，并去除变换后的第一个参数，将剩余的参数作为所述梅尔倒频谱系数。

进一步地，所述参数提取模块具体包括：

音频帧划分单元，用于将所述音频数据划分为N个音频帧；其中，N≥1；

计算单元，用于计算每个音频帧的平均声音强度；以及，

声音强度获取单元，用于根据所述每个音频帧的平均声音强度，计算所述每个音频帧的声音强度。

进一步地，所述语音相似度检测装置还包括：

平移模块，用于采用平移公式，对提取的所述基音轨迹进行线性平移；

所述平移公式如下：

进一步地，所述对比模块具体包括：

相干系数计算模块，用于根据所述语音的音频特征参数和所述原始音频的音频特征参数，计算所述语音与所述原始音频之间的相关系数；以及，

相似度获取模块，用于根据所述相关系数，获取所述语音与所述原始音频之间的相似度。

进一步地，所述相关系数包括但不限于：欧式距离、皮尔森相关系数或似然分数值。

本发明实施例提供的语音相似度检测装置，能够从语音的音频数据中提取出频谱系数和声音强度两种音频特征参数，进而将提取的音频特征参数与原始音频的音频特征参数进行对比，获取语音与原始音频的相似度，克服了传统方法中对音量大小敏感、对人体声带特色敏感的缺点，加强对音调匹配度的考察，有效提高相似度检测的准确性；在提取基音轨迹后，对语音的基音轨迹进行线性平移后再与原始音频进行对比，减小由麦克风、人体声带特征等引起的差异问题，进一步提高相似度检测的准确性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种语音相似度检测方法，其特征在于，包括：

采集语音的音频数据；

2.如权利要求1所述的语音相似度检测方法，其特征在于，所述音频特征参数还包括基音轨迹；

其中，所述基音轨迹的提取方法具体包括：

从所述音频数据中计算获取基音序列；

从所述基音序列中获取候选拐点；

将曲率值大于预设阈值的候选拐点作为拐点；

获取所有相邻两个拐点的线段，并保存到折线序列中；

3.如权利要求1所述的语音相似度检测方法，其特征在于，所述频谱系数包括但不限于：梅尔倒频谱系数或倒傅里叶频谱系数；

所述梅尔倒频谱系数的提取方法具体包括：

将所述音频数据等比例划分为至少一个音频帧；

4.如权利要求1所述的语音相似度检测方法，其特征在于，所述声音强度的提取方法具体包括：

将所述音频数据划分为N个音频帧；其中，N≥1；

计算每个音频帧的平均声音强度；

根据所述每个音频帧的平均声音强度，计算所述每个音频帧的声音强度；

其中，所述平均声音强度的计算公式为n＝0，1，2，...，N-1，其中，AveMag(n)为音频帧n的平均声音强度，M为音频帧n的采样点个数，S_n(m)为音频帧n中的采样点m的信号幅度值；

5.如权利要求2所述的语音相似度检测方法，其特征在于，在所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比之前，还包括：

采用平移公式，对提取的所述基音轨迹进行线性平移；

所述平移公式如下：

f_{2}^{'} (x) = f_{2} (x) - \frac{1}{N} Σ_{k = 0}^{N - 1} f_{2} (k) + \frac{1}{N} Σ_{k = 0}^{N - 1} f_{1} (k);

6.如权利要求1所述的语音相似度检测方法，其特征在于，所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比，获取所述语音与所述原始音频之间的相似度，具体包括：

根据所述相关系数，获取所述语音与所述原始音频之间的相似度；

其中，所述相关系数包括但不限于：欧式距离、皮尔森相关系数或似然分数值；

其中，所述欧式距离的计算公式如下：

D = \sqrt{Σ_{m - 1}^{M} Σ_{n - 1}^{N} {(A_{m n} - B_{m n})}^{2}};

7.如权利要求1所述的语音相似度检测方法，其特征在于，在所述从所述音频数据中提取音频特征参数之前，还包括：

8.如权利要求1至7任一项所述的语音相似度检测方法，其特征在于，在所述获取所述语音与所述原始音频之间的相似度之后，还包括：

9.如权利要求1所述的语音相似度检测方法，其特征在于，所述音频特征参数还包括文本语音匹配相关特征参数。

10.一种语音相似度检测装置，其特征在于，包括：

采集模块，用于采集语音的音频数据；