CN102592589B

CN102592589B - 一种动态归一化数字特征的语音评分方法与装置

Info

Publication number: CN102592589B
Application number: CN 201210042642
Authority: CN
Inventors: 宁更新; 林广超; 韦岗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2012-02-23
Filing date: 2012-02-23
Publication date: 2013-12-25
Anticipated expiration: 2032-02-23
Also published as: CN102592589A

Abstract

本发明公开一种动态归一化数字特征的语音评分方法与装置，所述评分方法包括：对目标音进行数字化处理后进行分帧；提取原音和目标音的动态特征，得到若干组动态特征序列，对这些序列进行归一化操作得到归一化的动态特征；计算原音与目标音各个共振峰的相似度，计算出原音与目标音之间的误差，由各个共振峰的误差能判断总体的误差，根据总体误差进行评分。所述装置包括顺次信号连接的数字化模块、分帧模块、计算模块、比较模块和显示模块。本发明装置结构简单，按照方便，从频域的角度出发，提取原音与目标声音的归一化共振峰动态特征，进行语音评分，来消除现有评分系统采用静态特征评分带来的不足，评分结果更为客观。

Description

一种动态归一化数字特征的语音评分方法与装置

技术领域

本发明涉及声音信号处理，具体涉及利用动态归一化数字特征对跟读或模仿的语音进行评分的方法和装置。

背景技术

语音评分系统在实际生活中有许多应用。比如说某些KTV会装有评分系统，当用户演唱完毕会给用户打分。无论是怎样的应用，基本上都是把用户的信号输入到系统后与原声进行比较，根据某个准则判断两段语音信号的相似度，给用户打分。

实际应用中判断准则有很多种。目前常见的比较准则有基于音量的方法(如CN 102110435A)，基于能量的方法，还有基于音调的方法等等。基于音量的方法采集目标声音的模拟信号，将模拟信号转变为数字信号。然后计算用户声音数字信号与原音数字信号之间音量的差值，根据这个差值进行打分。差值越小则分数越高。基于能量的方法则是比较数字化的目标声音信号的能量与原唱能量之间的差距。基于音调的准则从频域的角度来考虑，比较目标声音的频率与原音频率之间的偏离程度。除此之外，还可以比较目标声音与原唱之间的相关函数的差距(如CN 102103852A)。

但是，从现实的角度上讲，无论声音的音量或是能量都是对原音和目标声音之间的幅度进行比较，是从时域的角度进行比较，而语音的特性在频域上体现，因此从时域上进行比较误差较大，不足以客观地衡量原唱与目标声音之间的相似度。图1为三段相同语音不同人跟读的基音变化图，曲线1表示原音，曲线2和3表示两个目标跟读语音。若根据现有的音量、能量、频率偏差等方法来进行评分，结果是曲线2较曲线3与曲线1的相似度较高。然而实际情况是曲线3与曲线1的读音更接近，两者的动态变化规律相似。因此，用常用的音量、能量、频率偏差等静态特征来评分就不够客观。

本发明针对这些不足提出了一种利用原音与目标声音的归一化动态特征进行评分的技术。声音的一个重要的声学特征是共振峰。声道可以看成是一根具有非均匀截面的声管，在发音时起共鸣器的作用。当激励进入声道时会引起共振特性，产生一组共振频率，称为共振峰频率或简称为共振峰。如图2所示一帧语音的频谱图，实线的局部最大值即是共振峰频率，是共振峰语音的一个重要的特征参数。本发明从频域的角度出发，提取原音与目标声音的归一化共振峰动态特征，进行语音评分，来消除现有评分系统采用静态特征评分带来的不足。

发明内容

本发明的目的在于克服现有评分系统采用静态特征评分带来的不足，提出了一种动态归一化数字特征的语音评分方法与装置，使用语音的归一化动态特征对目标声音进行评分，提高了评分的科学性。本发明通过如下技术方案实现。

一种动态归一化数字特征的语音评分方法，包括以下步骤：

步骤1：对目标音进行数字化处理，处理结束后进行定位，确定目标音的最小评判单元的起终点，分帧后目标音一共有K帧，原音以帧为单位一共有L帧；

步骤2：对原音和目标音分别使用共振峰检测算法或频率估计算法进行特征提取，得到原音和目标音的前N个共振峰频率值，分别用ω_原(i，n)(1≤i≤L，1≤n≤N)和ω_目标(i，n)(1≤i≤K，1≤n≤N)表示原音和目标音第i帧的第n个共振峰频率值；

步骤3：判断原音与目标音的帧数是否相同，若相同则跳过此步骤，若不同则进行抽取和内插；取任意一个共振峰，则对于原音，这个共振峰对应一个长度为L的序列，对于目标音则对应一个长度为K的序列，利用内插和抽取消除帧数的不同，经内插和抽取之后的序列长度为M，对其它共振峰对应的序列进行相同的处理，分别用ω′_原(i，n)(1≤i≤M，1≤n≤N)和ω′_目标(i，n)(1≤i≤M，1≤n≤N)表示帧数归一化后原音和目标音第i帧的第n个共振峰频率值；

步骤4：由步骤3中帧数归一化后的频率值获取原音和目标音的动态特征，用Δω_原(i，n)和Δω_目标(i，n)分别表示原音和目标音共振峰的变化，计算原音和目标音前后两个频率之间的差值：

Δω_原(i，n)＝ω′_原(i+1，n)-ω′_原(i，n)

(公式1)

Δω_目标(i，n)＝ω′_目标(i+1，n)-ω′_目标(i，n) (公式2)

其中1≤i≤M-1，1≤n≤N；

步骤5：对频率进行归一化，对于原音的第n个共振峰，归一化后的动态特征Δω′_原(i，n)，对于目标音的第n个共振峰，归一化的动态特征Δω′_目标(i，n)，同理，对原音和目标音的其它N-1个共振峰对应的动态特征序列进行频率归一化处理；

步骤6：计算原音与目标音第n个共振峰的相似度d_n，并计算原音与目标音其他各个共振峰的相似度，当d_n越小时说明原音与目标音的第n个共振峰的动态特征相似度越高；反之，当d_n越大时动态特征相似度越低；

步骤7：由各个共振峰的误差能判断总体的误差，实际情况下，各个共振峰的重要程度不一，不同共振峰的误差对总体的误差所造成的影响并不相等，根据各个共振峰的重要程度设置不同的权值，使用(公式6)计算总体误差：

D = \frac{1}{N} Σ_{n = 1}^{N} λ_{n} d_{n}

(公式6)

，根据D的值给用户打分，其中λ_n即为d_n对应的权重，λ_n越大表示该共振峰的重要程度越高，λ_n的具体取值由实际情况决定，λ_n满足

Σ_{n = 1}^{N} λ_{n} = C

(公式7)

当i＜j时，λ_i≥λ_j (公式8)

上式中C为一个常数，根据实际应用取值。

上述的一种动态归一化数字特征的语音评分方法，步骤2中，采用倒谱法检测峰值，由于倒谱会出现相位卷绕的情况，因此采用同态解卷技术，经过同态滤波后得到平滑的谱，这样简单地检测峰值就能直接提取共振峰参数。

上述的一种动态归一化数字特征的语音评分方法，步骤3中，抽取与内插的方法采用线性插值或高次样条插值。

上述的一种动态归一化数字特征的语音评分方法，步骤3中抽取与内插的方法采用线性插值，对原音和目标音先进行内插操作，取每一帧的第i个共振峰频率，得到关于原音的一个长度为L的序列，根据目标音得到一个长度为K的序列；在序列每两个点之间插入M-1个点，则内插后原音的第i个共振峰对应的序列长度为L×M，目标音的长度为K×M，对内插后的数据进行抽取；对原音的序列每L个点取一个值，对目标音每K个点取一个值；经过内插和抽取后原音和目标音的长度相同，均为M；1≤i≤M；对每一个共振峰对应的序列都进行相同的操作。

上述的一种动态归一化数字特征的语音评分方法，步骤5中所述归一化的方法采用最大值归一化、均值归一化或能量归一化。

上述的一种动态归一化数字特征的语音评分方法，步骤5中所述归一化的方法采用最大值归一化，先对第n个共振峰的动态特征序列进行处理，选取原音的动态特征序列中的最大值，以这个最大值为基准，其它频率值按其与最大频率的比值取值：

(公式3)

其中1≤i≤M-1，1≤n≤N，

同理，对目标音来说，Δω_目标(i，n)整个序列进行归一化后得到归一化目标音动态特征Δω′_目标(i，n)为：

(公式4)

其中1≤i≤M-1，1≤n≤N，对原音和目标音的其它共振峰对应的序列进行相同的归一化操作。

上述的一种动态归一化数字特征的语音评分方法，步骤6中由于取前N个共振峰，故原音与目标音各有N个长度为M-1的归一化动态特征序列，比较这N个序列之间的相似度即可给用户打分，使用(公式5)进行相似度评判：

(公式5)

其中1≤i≤M-1，1≤n≤N。

上述评分方法步骤1中，使用端点检测算法确定最小评判单元(一个音节，一个字或一句话等)的起终点。

实现上述评分方法的评分装置，其包括顺次信号连接的数字化模块、分帧模块、计算模块、比较模块和显示模块，所述数字化模块接收目标音信号，目标音经过数字化模块和分帧模块后进入计算模块，计算模块接收原音信号，原音和目标音在计算模块中分别提取归一化的动态特征，将这些归一化后的动态特征输入到比较模块进行比较，最终结果输出到显示模块。

上述的评分装置中，还包括USB模块和目标音输入模块，目标音从输入模块输入，原音通过USB模块输入。

上述的评分装置中，所述分帧模块、计算模块、比较模块采用DSP或ARM芯片实现，所述输入模块包括麦克风，所述数字化模块采用A/D转换芯片，原音通过USB模块直接输入到DSP或ARM芯片中，目标音则从麦克风输入，先经A/D转换芯片输入到DSP或ARM芯片中，经DSP或ARM芯片对目标音分帧、特征提取、帧数归一化、动态特征提取和频率归一化，得到两组动态特征数据再进行误差估计和评分，结果最终输出到显示模块上。

与现有技术相比，本发明本发明具有如下优点和技术效果：

1.适应范围广。本发明可以比较任意两段声音信号之间的相似度，对声音信号没有特殊要求。可应用于卡拉OK、学习机等各类语音评分领域。

2.评分客观。由于选取了动态特征进行比较，避免由于年龄、性别等差异造成的发音相同但音量、频率不一致而导致的评分不客观。

3.成本低。使用一个普通的DSP或ARM芯片即可完成所有的运算。

4.使用便捷。装置构成简单，本装置可以插到任何有USB接口的设备上，即插即用，非常方便。

5.适应性强。对使用环境没有特殊要求，可以在大部分环境中正常工作。

附图说明

图1是一段语音不同人跟读的对比图。

图2是一帧语音的频谱示意图。

图3是实施方式中评分装置的模块框图。

图4是评分装置的一种实例硬件结构图。

图5是动态归一化数字特征的语音评分方法的流程图。

具体实施方法

以下结合附图对本发明的实施作进一步说明，但本发明的实施和保护不限于此。

本实施方式的动态归一化数字特征的语音评分装置原理框图如图3所示，目标音在进入分帧模块之前还要进行数字化和分帧，故需先经过数字化模块和分帧模块。原音直接输入到计算模块。原音和目标音在计算模块中分别提取归一化的动态特征。将这些归一化后的动态特征输入到比较模块进行比较，最终结果输出到显示模块。

上述装置的硬件实例如图4所示。用户选择要进行比较的声音信号后，原音通过USB直接输入到DSP或ARM7芯片中。目标音则从麦克风输入，先经A/D转换输入到DSP或ARM7芯片中。使用DSP或ARM7芯片对目标音分帧，特征提取，帧数归一化，动态特征提取和频率归一化，得到两组动态特征数据再进行误差估计和评分，结果最终输出到显示模块上。

本装置的主要工作流程如下：目标音经过数字化模块输入到分帧模块中，分帧结束后分别进入计算模块，而原音则直接输入到计算模块中。在计算模块中，对每一帧信号都进行特征提取得到若干组特征序列。经内插和抽取可以消除原音和目标音帧数可能存在的差异。接着提取原音和目标音的动态特征，得到若干组动态特征序列，对这些序列进行归一化操作得到归一化的动态特征。将这些序列输入到比较模块后，比较模块计算出原音与目标音之间的误差，进行评分，最后输出结果。

如图4所示，目标音从麦克风中输入后必须进行数字化处理。可以采用ADC0832芯片实现A/D转换。原音从USB模块直接输入。对原音和目标音的动态特征提取、归一化和比较评分等操作均在DSP或ARM7芯片中，可以使用TI公司的TMS 320C6711或三星的ARM7 S3C44B0实现。

如图5所示，评分装置的具体实现步骤如下：

步骤1：对目标音进行数字化处理，处理结束后进行定位，确定目标音的最小评判单元的起终点，分帧结束后目标音一共有K帧。原音则以帧为单位直接从USB输入，一共有L帧。

步骤2：提取各帧的数字特征。使用共振峰估计方法获取每一帧前N个共振峰的频率值。共振峰估计方法有很多，在这里采用倒谱法。由于倒谱会出现相位卷绕的情况，因此可以采用同态解卷技术，经过同态滤波后得到平滑的谱，这样简单地检测峰值就可以直接提取共振峰参数。分别用ω_原(i，n)(1≤i≤L，1≤n≤N)和ω_目标(i，n)(1≤i≤K，1≤n≤N)表示原音和目标音的第i帧的第n个共振峰频率值。

步骤3：判断原音与目标音的帧数是否相同，若相同则跳过此步骤。若不同则进行抽取和内插。抽取与内插的方法有多种，比如线性插值或高次样条插值。以线性插值为例，对原音和目标音先进行内插操作。取每一帧的第i个共振峰频率，可以得到关于原音的一个长度为L的序列，根据目标音得到一个长度为K的序列。在序列每两个点之间插入M-1个点，则内插后原音的第i个共振峰对应的序列长度为L×M，目标音的长度为K×M。对内插后的数据进行抽取。对原音的序列每L个点取一个值，对目标音每K个点取一个值。经过内插和抽取后原音和目标音的长度相同，均为M。可以看到1≤i≤M。对每一个共振峰对应的序列都进行相同的操作。帧数归一化后的结果分别用ω′_原(i，n)(1≤i≤M，1≤n≤N)和ω′_目标(i，n)(1≤i≤M，1≤n≤N)表示。

步骤4：根据(公式1)和(公式2)分别计算原音和目标音的动态特征，结果分别用Δω_原(i，n)(1≤i≤M-1，1≤n≤N)和Δω_目标(i，n)(1≤i≤M-1，1≤n≤N)表示。

步骤5：对频率进行归一化。对于原音的第n个共振峰，以这个共振峰对应的动态特征序列的最大值为基准，其它序列值按其与最大值的比率取值。由(公式3)可以计算出归一化后的动态特征Δω′_原(i，n)。同理，取目标音的第n个共振峰序列的最大值作为基准，利用(公式4)计算出归一化的动态特征Δω′_目标(i，n)。同理，对其它N-1个共振峰对应的动态特征序列进行频率归一化处理。

步骤6：计算原音与目标音归一化动态特征的相似度。利用(公式5)估计原音与目标音第n个共振峰的相似度。同理，计算其它各个共振峰的相似度。当d_n越小时说明原音与目标音的第n个共振峰的动态特征相似度越高；反之，当d_n越大时动态特征相似度越低。

步骤7：根据(公式6)的结果对目标音评分。其中，λ_n的取值满足(公式7)和(公式8)。假设N＝3，这里可以取λ₁＝0.5，λ₂＝0.3，λ₃＝0.2。代入(公式6)即可计算出原音与目标音之间的总体误差。根据D的值给用户打分。假设评分制度为百分值，则D＝0时表明目标音与原音完全一致，判断为100分。接下来以D＝0为起点划定多个区间，每个区间表示一个分数。当D落在某个区间时，表示用户得到的这个区间表示的那个分数。表6是一个参考评分表格，具体评分准则根据实际情况而定。

表6

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权力要求的保护范围为准。

Claims

1.一种动态归一化数字特征的语音评分方法，其特征在于包括以下步骤：

步骤2：对原音和目标音分别使用共振峰检测算法或频率估计算法进行特征提取，得到原音和目标音的前N个共振峰频率值，分别用ω_原(i,n)和ω_目标(i,n)表示原音和目标音第i帧的第n个共振峰频率值；ω_原(i,n)中1≤i≤L,1≤n≤N，ω_目标(i,n)中1≤i≤K,1≤n≤N，

步骤3：判断原音与目标音的帧数是否相同，若相同则跳过此步骤，若不同则进行抽取和内插；取任意一个共振峰，则对于原音，这个共振峰对应一个长度为L的序列，对于目标音则对应一个长度为K的序列，利用内插和抽取消除帧数的不同，经内插和抽取之后的序列长度为M，对其它共振峰对应的序列进行相同的处理，分别用ω′_原(i,n)和ω′_目标(i,n)表示帧数归一化后原音和目标音第i帧的第n个共振峰频率值；所述ω′_原(i,n)中1≤i≤M,1≤n≤N，ω′_目标(i,n)中1≤i≤M,1≤n≤N；

步骤4：由步骤3中帧数归一化后的频率值获取原音和目标音的动态特征，用Δω_原(i,n)和Δω_目标(i,n)分别表示原音和目标音共振峰的变化，计算原音和目标音前后两个频率之间的差值：

Δω_原(i,n)=ω′_原(i+1,n)-ω′_原(i,n) 公式1

Δω_目标(i,n)=ω′_目标(i+1,n)-ω′_目标(i,n) 公式2

其中1≤i≤M-1，1≤n≤N；

步骤5：对频率进行归一化，对于原音的第n个共振峰，归一化后的动态特征Δω′_原(i,n)，对于目标音的第n个共振峰，归一化的动态特征Δω′_目标(i,n)，同理，对原音和目标音的其它N-1个共振峰对应的动态特征序列进行频率归一化处理；

步骤7：由各个共振峰的误差能判断总体的误差，实际情况下，各个共振峰的重要程度不一，不同共振峰的误差对总体的误差所造成的影响并不相等，根据各个共振峰的重要程度设置不同的权值，使用公式6计算总体误差：

D = \frac{1}{N} Σ_{n = 1}^{N} λ_{n} d_{n}

公式6

Σ_{n = 1}^{N} λ_{n} = C

公式7

当i<j时,λ_i≥λ_j 公式8

上式中C为一个常数，根据实际应用取值。

2.根据权利要求1所述一种动态归一化数字特征的语音评分方法，其特征在于步骤2中，采用倒谱法检测峰值，由于倒谱会出现相位卷绕的情况，因此采用同态解卷技术，经过同态滤波后得到平滑的谱，这样简单地检测峰值就能直接提取共振峰参数。

3.根据权利要求1所述一种动态归一化数字特征的语音评分方法，其特征在于步骤3中，抽取与内插的方法采用线性插值或高次样条插值。

4.根据权利要求3所述一种动态归一化数字特征的语音评分方法，其特征在于步骤3中抽取与内插的方法采用线性插值，对原音和目标音先进行内插操作，取每一帧的第i个共振峰频率，得到关于原音的一个长度为L的序列，根据目标音得到一个长度为K的序列；在序列每两个点之间插入M-1个点，则内插后原音的第i个共振峰对应的序列长度为L×M，目标音的长度为K×M，对内插后的数据进行抽取；对原音的序列每L个点取一个值，对目标音每K个点取一个值；经过内插和抽取后原音和目标音的长度相同，均为M；1≤i≤M；对每一个共振峰对应的序列都进行相同的操作。

5.根据权利要求1所述一种动态归一化数字特征的语音评分方法，其特征在于步骤5中所述归一化的方法采用最大值归一化、均值归一化或能量归一化。

6.根据权利要求5所述一种动态归一化数字特征的语音评分方法，其特征在于步骤5中所述归一化的方法采用最大值归一化，先对第n个共振峰的动态特征序列进行处理，选取原音的动态特征序列中的最大值

以这个最大值为基准，其它频率值按其与最大频率的比值取值：

公式3

其中1≤i≤M-1，1≤n≤N，

同理，对目标音来说，Δω_目标(i,n)整个序列进行归一化后得到归一化目标音动态特征Δω′_目标(i,n)为：

公式4

7.根据权利要求1所述一种动态归一化数字特征的语音评分方法，其特征在于步骤6中由于取前N个共振峰，故原音与目标音各有N个长度为M-1的归一化动态特征序列，比较这N个序列之间的相似度即可给用户打分，使用公式5进行相似度评判：

公式5

其中1≤i≤M-1，1≤n≤N。

8.实现权利要求1所述评分方法的评分装置，其特征在于包括顺次信号连接的数字化模块、分帧模块、计算模块、比较模块和显示模块，所述数字化模块接收目标音信号，目标音经过数字化模块和分帧模块后进入计算模块，计算模块接收原音信号，原音和目标音在计算模块中分别提取归一化的动态特征，将这些归一化后的动态特征输入到比较模块进行比较，最终结果输出到显示模块。

9.根据权利要求8所述的评分装置，其特征在于还包括USB模块和目标音输入模块，目标音从输入模块输入，原音通过USB模块输入。

10.根据权利要求9所述的评分装置，其特征在于所述分帧模块、计算模块、比较模块采用DSP或ARM芯片实现，所述输入模块包括麦克风，所述数字化模块采用A/D转换芯片，原音通过USB模块直接输入到DSP或ARM芯片中，目标音则从麦克风输入，先经A/D转换芯片输入到DSP或ARM芯片中，经DSP或ARM芯片对目标音分帧、特征提取、帧数归一化、动态特征提取和频率归一化，得到两组动态特征数据再进行误差估计和评分，结果最终输出到显示模块上。