CN103054586B

CN103054586B - 一种基于汉语言语测听动态词表的汉语言语自动测听方法

Info

Publication number: CN103054586B
Application number: CN201210549152.8A
Authority: CN
Inventors: 田业; 贾珈; 蔡莲红
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-12-17
Filing date: 2012-12-17
Publication date: 2014-07-23
Anticipated expiration: 2032-12-17
Also published as: CN103054586A

Abstract

一种基于汉语言语测听动态词表的汉语言语自动测听方法属于言语测听技术领域，其特征在于使用一种由指定长度的必测词表和不定长度的隐含词表组成的言语测听词表。必测词表是指从语音文件的声学特征的角度对声韵母进行听感分类和清晰度计算，并以此为核心而编制的言语测听词表。隐含词表是对必测词表的扩充，是受试者对必测词表项听辨错误时所选择的补充测试项的集合，补充测试项与该必测词表听辨错误项的声韵母属于同一声韵母分类。从而组成多个等价的言语测听动态词表并通过隐含词表项对必测词表听辨错误项进行补偿测试的言语测听软件，测听过程在一个汉语言语测听系统中通过软件系统自动化完成，相比传统测听系统，具有更高的测试效率、测试信度和等价性。

Description

一种基于汉语言语测听动态词表的汉语言语自动测听方法

技术领域

本发明属于言语测听技术领域，涉及一种言语测听动态词表的设计方法和汉语言语测听系统。所述的言语测听动态词表，是一种由指定长度的必测词表和不定长度的隐含词表组成的言语测听词表。所述的指定长度的必测词表是指从语音文件的声学特征的角度对声韵母进行听感分类和清晰度计算，并以此为核心而编制的言语测听词表。所述的不定长度的隐含词表是对必测词表的扩充，是指在测听过程中，当受试者对必测词表项听辨错误时所选择的补充测试项的集合，所选择的补充测试项与该必测词表听辨错误项的声韵母属于同一声韵母分类。所述的汉语言语测听系统是指存储有多个等价的言语测听动态词表并通过隐含词表项对必测词表听辨错误项进行补偿测试的言语测听系统，测听过程能通过软件系统自动化完成，相比传统测听系统，具有更高的测试效率、测试信度和等价性。

背景技术

60年代中期，张家騄先生通过分析大量主观听辨测试结果，并依据音位平衡原则编制了10张“语言清晰度测试音节表”，每张表75个单音节字，从主观上研究了汉语的清晰度问题。

21世纪初，从事言语测听领域的研究者们基于上述清晰度测试音节表编制了多套言语测听词表，并用于言语测听。言语测听方法是基于言语测听识别率来评价受试者听力情况的方法。具体做法是先按照一定原则制定统一的词表，然后让受试者听完一个或多个词表的所有项，记录并统计所有听辨正确的项，最终以正确项数与对应一个或多个表中项的总数的比值，即言语识别率，作为最终听力评价指标。其中词表的设计遵循三个原则：挑常用字，考虑音位平衡，保证词表间的等价性。词表长度的发展趋势是由长变短，先后设计了75字/表、50字/表、25字/表和20字/表。但是，已有方法存在一些不足：（1）词表长度固定，词表越长，测试时间越长，受试者疲劳，测试效率低，信度差；词表越短，词表间的等价性越低，测听结果的离散度越大；（2）词表设计未考虑语音声学特征之间的差异，词表在录音中语音信号声学特征（频谱、音高、音长和能量）的变化会引起听辨误差；（3）已有测试方法未考虑到随机性因素的干扰，比如受试者的情绪以及注意力不集中等因素的影响，最终会导致降低测试结果的信度。

本发明从声学特征的角度分别对韵母和声母进行了听感分析。通过提取韵母线性预测编码LPC谱，经过层次聚类，最终对韵母进行听感上的分类。通过对声母时域和频域特征的分析，经过层次聚类，最终对声母进行听感上的分类，并提出了一种声母清晰度计算方法。基于以上听感分析，本发明提出了一种新的言语测听动态词表设计方法和汉语言语测听系统。

发明内容

本发明提出了一种言语测听系统，涉及一种言语测听动态词表的设计方法和汉语言语测听系统。与已有方法相比，该方法主要有三个创新点：1）在已有词表设计方法的基础上，以词表录音的声学特征评估词表的清晰度，以此编制的词表具有高信度和高等价性；2）设计了动态词表，词表长度不再固定，从而在测试周期上能表现出更高的灵活性，同时能在保证较高信度的基础上缩短测试时间，提高测试效率；3）设计的汉语言语测听系统的测试方法可对听辨错误项进行补偿，并设计了一套基于多维特征的计分规则，能提高测试结果的信度。该方法克服了已有言语测听中测试周期与词表长度之间难以平衡的矛盾以及测试信度偏低的缺陷，同时通过评估词表清晰度及测试方法中对听辨错误项的修正，提高测试结果的信度。其特征在于，是在一个汉语言语测听系统中依次按以下步骤实现的：

步骤(1)，构建一个包括中央处理器、鼠标、键盘、图形显示器、外存设备和听力计的汉语言语测听系统，所述中央处理器的各输入端分别与所述键盘、鼠标及听力计的输出端相连，所述听力计的输入端与扬声器的输出端相连，所述中央处理器的各其他输出/输入端与图形显示器和外存设备分别互连；

步骤(2)，在所述中央处理器中，依次按以下步骤构造一个汉语普通话言语测听动态词表，其中包括一个指定长度的必测词表和一个不定长度的隐含词表：

步骤（2.1），依次按以下步骤构造一个所述的指定长度的必测词表：

步骤（2.1.1），选择测试文件方式的测试项，每个所述测试项在汉语口语交流中出现的频次都排名在前2000以内，所述测试项的集合要覆盖汉语普通话所有声韵调的组合，并为每个所述测试项录制成一个相应语音文件；

步骤（2.1.2），对步骤（2.1.1）得到的语音文件分别标注每个音节中声母和韵母的起始位置，并把声母部分的语音信号重新存储为一个声母语音文件，把韵母部分的语音信号重新存储为一个韵母语音文件；

步骤（2.1.3），依次按以下步骤在听感上对声母进行分类：

步骤（2.1.3.1），按以下步骤从步骤（2.1.2）得到的声母语音文件中提取如下所述声学特征参数：声母过零率参数ZCR、声母MFCC参数M以及声母Bark频带能量比率参数B_r，所述的ZCR，M及B_r是按照以下步骤得到的：

步骤（2.1.3.1.1），所述的声母过零率参数ZCR按以下公式计算：

ZCR = \frac{1}{2 K} Σ_{k = 2}^{K} | sgn (x (k)) - sgn (x (k - 1)) |

，

其中K为声母时域语音信号采样点个数，k为声母时域语音信号采样点的索引，k=2,3,…,K，x(k)为第k个声母时域语音信号采样值，sgn(x(k))表示取x(k)的符号，x(k)为正数时取1，x(k)为负数时取-1，否则取0，ZCR为声母过零率参数；

步骤（2.1.3.1.2），所述的声母Bark频带能量比率参数B_r按以下步骤得到：

步骤（2.1.3.1.2.1），把声母语音信号分帧、加窗后按下列公式求声母FFT能量谱：

F [n] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] + {(- 1)}^{m} x [k + \frac{K}{2}]) e^{- \frac{j 2 πnk}{K}}

，

F [2 n^{'}] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] + x [k + \frac{K}{2}]) e^{- \frac{j 2 π n^{'} k}{K / 2}}

，

F [2 n^{'} + 1] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] - x [k + \frac{K}{2}]) e^{- \frac{j 2 π k}{K / 2}} e^{- \frac{j 2 π n^{'} k}{K / 2}}

，

其中，K为声母时域语音信号采样点个数，k为声母时域语音信号采样点的索引，k=0,1,…,K-1，x(k)为第k个声母时域语音信号采样值，n为声母频域信号的索引，计算中声母频域信号总数与时域信号总数相同，n=0,1,…,K-1，j为频数单位，e为自然对数的底，为谐波频率，为第n次谐波序列，F[n]为转换后的第n个FFT频域值，取其幅值的对数值作为FFT能量值，所有FFT能量值组成该声母语音信号的FFT能量谱，F[2n＇]为偶数项频域值，F[2n＇+1]为奇数项频域值，；

步骤（2.1.3.1.2.2），令x₁,x₂,…,x₂₁分别为所述声学FFT能量谱中，每一个Bark频带i的累计能量分量和，共有21个，i=1,2,…,21；

步骤（2.1.3.1.2.3），按下式计算频带i的累计能量分量和占全部频带能量的比例y_i：

y_{i} = x_{i} / Σ_{j = 1}^{21} x_{j}, j = 1,2, . . ., 21

，

步骤（2.1.3.1.2.4），令y_i=y₁,y₂,…,y_i,…,y₂₁，得到以y₁,y₂,…,y₂₁作为声母的21维Bark频带能量比率参数；

步骤（2.1.3.1.3），声母MFCC参数M按以下步骤得到：

步骤（2.1.3.1.3.1），按步骤（2.1.3.1.2.1）对声母语音信号做FFT变换，得到FFT变换后的频谱，计算该频谱的幅值的平方，得到离散的功率谱；

步骤（2.1.3.1.3.2），采用如下三角滤波器组在频域内对步骤（2.1.3.1.3.1）得到的离散的功率谱进行带通滤波，并将滤波后的结果取对数：

T_{u} = \{\begin{matrix} 0, v < f (u - 1) \\ \frac{2 (v - f (u - 1))}{(f (u + 1) - f (u - 1)) (f (u) - f (u - 1))}, f (u - 1) \leq v \leq f (u) \\ \frac{2 (f (u + 1) - v)}{(f (u + 1) - f (u - 1)) (f (u + 1) - f (u))}, f (u) \leq v \leq f (u + 1) \\ 0, v &GreaterEqual; f (u + 1) \end{matrix}

，

其中f(u)为第u个频带的中心频率，u为频带的索引，u=0,1,…,U-1，U为频带总数，取U=24，v为离散频率分量值，v=0,1,…, T_u(v)为第u个频带对应的滤波器组对频率v的频率响应；

步骤（2.1.3.1.3.3），将步骤（2.1.3.1.3.2）得到的结果通过以下离散余弦变换DCT公式计算，得到12阶的MFCC系数M：

M_{u} = Σ_{u^{'} = 0}^{U - 1} w (u^{'}) \cos [\frac{π (u - 1) (u^{'} - 0.5)}{U}], u^{'} = 0,1, . . ., U - 1, u = 1,2, . . ., 12,

其中，w(u＇)为步骤（2.1.3.1.3.2）得到的对数值序列，表示第u＇个余弦分量，M_u为第u个MFCC参数，(M₁,M₂,…,M₁₂)构成12阶MFCC参数；

步骤（2.1.3.2），对步骤（2.1.3.1.1）至步骤（2.1.3.1.3）得到的声学特征参数按下式进行归一化处理：

f_{new} = \frac{f_{source} - \min (F_{source})}{\max (F_{source}) - \min (F_{source})}

，

其中，f_new是归一化处理后的包括ZCR、M_u、y_i在内的各声学特征参数，f_source是归一化处理之前的声学特征参数，F_source为同一维度i的未处理时的声学特征参数集合；

步骤（2.1.3.3），按下式计算每个语音对应的清晰度ATL_h：

{ATL}_{h} = C_{a} + c_{0} ZCR + Σ_{i = 1}^{21} b_{i} B_{ri} + Σ_{u = 1}^{12} m_{u} M_{u}

，

其中C_a为常值，取值为C_a=0.9027，c₀为参数ZCR的系数，取值为c₀=-0.0585，B_ri表示第i维Bark频带能量比率参数，B_ri=y_i，b_i为参数B_ri的系数，取值分别为b₉=0.0648，b₁₀=0.0312，b₁₂=0.0834，b₁₃=-0.0493，b₁₄=-0.0950，b₁₆=-0.1663，b₁₉=-0.0711，b₂₀=-0.1178，b₂₁=-0.1143，M_u表示第u维MFCC参数，m_u为参数M_u的系数，取值分别为m₁=-0.2620，m₄=0.0525，m₅=-0.1337，m₈=0.0525，m₁₁=-0.0330，其余b_i=0以及m_u=0， h表示测试项的索引，h=1,2,…,H，H为测试项总数，取H=20；

步骤（2.1.3.4），按以下步骤得到声母必测词表：

步骤（2.1.3.4.1），设定每一个所述声母语音文件为一类，S_h＇={X_h＇}，其中S_h＇为第h＇个分类，X_h＇为第h＇个声母语音的特征参数向量；

步骤（2.1.3.4.2），把H＇个分类中欧氏距离最近的向量与类归并为一个子类，构成欧式距离最近的向量声母语音的集合；

步骤（2.1.3.4.3），分别计算步骤（2.1.3.4.2）得到的各个集合内所有向量的平均值，作为该集合的中心向量，再计算任何两个所述声母语音集合的中心向量的欧氏距离作为任意两个所述声母语音集合的距离；

步骤（2.1.3.4.4），重复步骤（2.1.3.4.2）和步骤（2.1.3.4.3），直到只剩下一个子类；

步骤（2.1.3.4.5），根据步骤（2.1.3.4.4）得到的结果构造一棵叶子节点为21个声母语音的聚类树，最终把声母语音分成八类：

第一类声母语音为b, d, f, 分类频率为19.60%，分类个数为4，

第二类声母语音为p, t, ch, 分类频率为7.26%，分类个数为1，

第三类声母语音为g, k, h, 分类频率为11.75%，分类个数为2，

第四类声母语音为j, q, x, 分类频率为14.95%，分类个数为3，

第五类声母语音为z, c, s, 分类频率为5.24%，分类个数为1，

第六类声母语音为l, m. n, r, 分类频率为13.90%，分类个数为3，

第七类声母语音为zh, sh, 分类频率为14.84%，分类个数为3，

第八类声母语音为零声母, 分类频率为12.45%，分类个数为3，

分类频率为该声母子类在口语中出现频次占上述所有声母分类在口语中出现的总频次的百分比，分类个数为以单个必测词表测试项总数H=20为例，将该测试总数乘以分类的频率然后四舍五入得到的该分类在词表中的个数，零声母是指，在汉语普通话中只由一个韵母组成的音节，由于该音节没有声母，声学上将该类音节的声母称之为零声母；

步骤（2.1.4），依次按照以下步骤在听感上对韵母语音进行分类：

步骤（2.1.4.1），对步骤（2.1.2）得到的每个韵母语音文件，选择时序上位于每个韵母语音文件上韵母总时长的1/6、3/6、5/6三个时刻的语音帧，按如下步骤计算生成三条LPC谱曲线，每个韵母语音文件均有三条线性预测LPC谱曲线：

步骤（2.1.4.1.1），对每个韵母语音帧按下式进行预加重处理：

s(k＇)=x(k＇)-0.94x(k＇-1)

其中，k＇为韵母语音采样信号的索引，x(k＇)为原始韵母语音文件中第k＇个韵母语音采样信号的幅值，s(k＇)为预加重处理后的韵母语音信号幅值；

步骤（2.1.4.1.2），对步骤（2.1.4.1.1）预加重处理得到的韵母语音信号采用如下汉明窗进行加窗处理：

W (m) = 0.54 - 0.46 \cos \frac{2 πm}{M - 1}, 0 \leq m \leq M - 1

，

其中M为预先指定的窗长，W(m)为第m个窗序列值，m为窗序列的索引，m=0,1,…,M-1，取M=256，

加窗处理公式为：

z (m) = Σ_{k = - \infty}^{+ \infty} s (k^{'}) W (m - k^{'})

其中，s(k＇)为步骤（2.1.4.1.1）得到的语音，W(m-k＇)为汉明窗的第m-k＇个值，z(m)为加窗处理后的语音；

步骤（2.1.4.1.3），对步骤（2.1.4.1.2）得到的语音信号z(m)，按如下方程组计算指定阶数为P的P个LPC系数，P的取值范围为15≤P≤60且P为整数：

令

r (p) = Σ_{m = 0}^{P - 1 - p} z (m) z (m + p)

，p=0,1,2,…,P，则有

，

ϵ_{P} = r (0) - Σ_{p = 1}^{P} α_{p} r (p)

，

其中，z(m)z(m+p)表示两个时域信号的乘积，r(p)是中间变量，ε_P为实际信号与线性预测信号的最小均方误差，α_p为第p个LPC系数，p为LPC系数的索引，且p=1,2,…,P，(α₁,α₂,…,α_p)即为所求的P个LPC系数；

步骤（2.1.4.1.4），按步骤（2.1.3.1.1）计算由步骤（2.1.4.1.3）得到的LPC系数(α₁,α₂,…,α_p)的FFT能量谱，该能量谱对应的曲线即为LPC谱曲线；

步骤（2.1.4.2），对于每条所述的LPC谱线，以500Hz，1000Hz，2000Hz为中心，分别计算[450,550]、[950,1050]和[1950,2050]三个频率段内LPC谱曲线的积分，由此得到一个九维特征向量，作为韵母的特征向量；

步骤（2.1.4.3），对所有的韵母语音文件执行步骤（2.1.4.1）到步骤（2.1.4.2），各九维特征向量之间的欧氏距离为韵母语音感知距离；

步骤（2.1.4.4），把步骤（2.1.4.3）的结果聚成一个韵母语音的聚类树，把韵母语音分成八类：

第一类韵母语音为o, ou, ong, iong, er, uo, 分类频率为11.70%，分类个数为2，

第二类韵母语音为ia, iao, iang, ai, an, üan, eng, uan, 分类频率为16.37%，分类个数为3，

第三类韵母语音为a, ao, ang, ua, uang, uai, 分类频率为11.27%，分类个数为2，

第四类韵母语音为en, iu, ui, uen, 分类频率为9.40%，分类个数为2，

第五类韵母语音为i, in, ing, ie, ian, ei, ün, 分类频率为28.53%，分类个数为6，

第六类韵母语音为ü, üe, 分类频率为2.81%，分类个数为1，

第七类韵母语音为u, 分类频率为7.11%，分类个数为1，

第八类韵母语音为e, 分类频率为12.38%，分类个数为3;

步骤（2.1.5），设定：所述汉语普通话言语测听动态词表中音位q的出现频率与口语交流中去除轻声音节之后的声韵调的统计频率相同，为f_q，按如下步骤计算每个声母语音分类、韵母语音分类及声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数：

步骤（2.1.5.1），按如下公式计算每个声母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数：

其中q₁为声母音位，为q₁的统计频率，S_a为第a类声母音位集合，a为声母类的索引，为声母类S_a在所述汉语普通话言语测听动态词表中的实际分配个数，H为测试项总数；

步骤（2.1.5.2），按如下公式计算每个韵母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数：

其中q2为韵母音位，为q₂的统计频率，S_b为第b类韵母音位集合，b为声母类的索引，为韵母类S_b在所述汉语普通话言语测听动态词表中的实际分配个数；

步骤（2.1.5.3），按如下公式计算每个声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数：

其中q₃为声调音位，为q₃的统计频率，S_c为第c类声调音位集合，c为声调类的索引，为声调类S_c在所述汉语普通话言语测听动态词表中的实际分配个数；

步骤（2.1.6），根据步骤（2.1.5）中的声母语音、韵母语音及声调语音的分类及各类的实际分配个数搭配组词编制成所述设定长度的必测词表；

步骤（2.1.7），按下式计算所述必测词表的清晰度ATL_TB：

ATL_TB = Σ_{h = 1}^{H} {ATL}_{h}

，

并按所述必测词表清晰度ATL_TB调整词表项，使各个语音文件所对应的必测词表的清晰度相等或相近，以减少各个必测词表在听感上的差异，步骤如下：

步骤（2.1.7.1），计算步骤（2.1.7）生成的所有所述必测词表的词表清晰度的平均值ATL_TB_mean及标准差ATL_TB_SD：

ATL_{TB}_{mean} = \frac{1}{Q} Σ_{q = 1}^{Q} ATL_{TB}_{q}

ATL_{TB}_{SD} = \sqrt{\frac{1}{Q} Σ_{q = 1}^{Q} {(ATL_{TB}_{q} - ATL_{TB}_{mean})}^{2}}

其中，q表示所述必测词表的索引，q=1,2,…,Q，Q为所制定的所述必测词表的总张数， ATL_TB_q为第q张所述必测词表的清晰度；

步骤（2.1.7.2），设定：步骤（2.1.7.1）中各必测词表与词表清晰度平均值ATL_TB_mean之差的绝对值的阈值Δ(ATL_TB)≤0.1：

Δ(ATL_TB)=|ATL_TB-ATL_TB_mean|；

步骤（2.1.7.3），把步骤（2.1.7.1）中各必测词表的清晰度ATL_TB与ATL_TB_mean进行比较，若Δ(ATL_TB)≤0.1，则可不必对该词表进行调整，否则：

若ATL_TB＜ATL_TB_mean，则删掉该必测词表ATL_TB中清晰度ATL较小语音测试项，

若ATL_TB＞ATL_TB_mean，则删掉该必测词表ATL_TB中清晰度ATL较大语音测试项；

步骤（2.1.7.4），按以下方式对步骤（2.1.7.3）中被删去的项进行替代：

若ATL_TB＜ATL_TB_mean，则用清晰度大于所述删去项且由和该删去项的相同声母、同类韵母项搭配组成的项代替，

若ATL_TB＞ATL_TB_mean，则用清晰度小于所述删去项且由与该被删去项相同声母、同类韵母搭配组成的项代替；

步骤（2.1.7.5），重复执行步骤（2.1.7.4）直至步骤（2.1.7.4）中的各必测词表的清晰度ATL_TB与ATL_TB_mean之差的绝对值小于预先设定的阈值Δ(ATL_TB)≤0.1为止，从而组成一个有多个等价的言语测听动态词表的言语测听系统；

步骤（2.2），不定长度的隐含词表是当受试者对必测词表项听辨错误时所选择的补充测试项的集合，其中，两者的声母语音属于同一个声母语音分类，韵母语音也属于同一韵母语音分类，共同组成隐含词表同质项；

步骤（3），测试者在一个隔音房间中对被测试者进行言语测听，由计算机随机播放测试项，用听力计对音强进行调节。

汉语言语测听系统是按照如下测试步骤测听的：

步骤（1），选择一个必测词表，并固定播放声强；

步骤（2），若必测词表中的所有测试项都已被测试过，则转步骤（4），否则选择该必测词表中未被测试的一个测试项播放，并标记该测试项为已测试；

步骤（3），受试者对上述测试项进行反馈，测试员记录反馈结果，反馈结果包括听辨正误及该测试项是属于必测词表项还是隐含词表项，下同:

步骤（3.1），若受试者听辨正确，则记录反馈结果，转步骤（2）；

步骤（3.2），若受试者听辨错误，则从隐含词表中选择同一声母分类的另一声母和同一韵母分类的另一韵母搭配的测试项（即隐含词表同质项）继续进行测试并记录反馈结果，直至所有同质项中听辨正确项与错误项的比例不等于1:1为止，则转步骤（2）；

步骤（4），测试结束；

步骤（5），此次测试的识别率结果计算方法如下：

步骤（5.1），若必测项答对，则该项得分为1；

步骤（5.2），若必测项答错，且隐含项连续两次都答对，则该项得分为α；

步骤（5.3），若必测项答错，隐含项第一项答错或隐含项一对一错，则该项得分为-β；

步骤（5.4），测试最终得分由必测词表项和隐含词表项的听辨结果共同决定，最终得分为F=p+rα-(q-r)β,其中p为必测项听辨正确的总次数，q为出现要使用隐含词表的总次数，r为出现步骤（5.2）情况的次数，且p与q之和为必测词表项的总和。

本发明的优越性在于：采用基于声韵母声学特征参数的层次聚类及听感实测数据的统计分析对声韵母进行听觉感知分类，以该听觉感知分类及词表清晰度为原则编制的词表，具有较高的等价性；通过隐含词表项的补偿，能保证测试结果具有较高的信度；不定长度的动态词表的设计，能保证在较高信度的基础上，缩短测试时间，提高测试效率。

附图说明

图1 适用于本发明实施例的计算机言语测听系统。

图2 基于动态词表的言语测听系统测听流程图。

图3基于动态词表的汉语言语自动测听方法流程图。

具体实施方式

以汉语普通话言语测听动态词表的设计方法和汉语普通话言语测听系统为例，本发明的详细设计过程描述如下：

图1为适用于本发明实施例的计算机言语测听系统。图2为本发明提出的基于动态词表的言语测听系统测听流程图。图3为摘要附图，是基于动态词表的汉语言语自动测听方法流程图。

该发明的详细设计步骤为：

步骤（2.1.3），依次按以下步骤在听感上对声母进行分类：

ZCR = \frac{1}{2 K} Σ_{k = 2}^{K} | sgn (x (k)) - sgn (x (k - 1)) |

，

F [n] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] + {(- 1)}^{m} x [k + \frac{K}{2}]) e^{- \frac{j 2 πnk}{K}}

，

F [2 n^{'}] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] + x [k + \frac{K}{2}]) e^{- \frac{j 2 π n^{'} k}{K / 2}}

，

F [2 n^{'} + 1] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] - x [k + \frac{K}{2}]) e^{- \frac{j 2 π k}{K / 2}} e^{- \frac{j 2 π n^{'} k}{K / 2}}

，

y_{i} = x_{i} / Σ_{j = 1}^{21} x_{j}, j = 1,2, . . ., 21

，

步骤（2.1.3.1.3），声母MFCC参数M按以下步骤得到：

T_{u} = \{\begin{matrix} 0, v < f (u - 1) \\ \frac{2 (v - f (u - 1))}{(f (u + 1) - f (u - 1)) (f (u) - f (u - 1))}, f (u - 1) \leq v \leq f (u) \\ \frac{2 (f (u + 1) - v)}{(f (u + 1) - f (u - 1)) (f (u + 1) - f (u))}, f (u) \leq v \leq f (u + 1) \\ 0, v &GreaterEqual; f (u + 1) \end{matrix}

，

M_{u} = Σ_{u^{'} = 0}^{U - 1} w (u^{'}) \cos [\frac{π (u - 1) (u^{'}) - 0.5}{U}], u^{'} = 0,1, . . ., U - 1, u = 1,2, . . ., 12,

中，w(u＇)为步骤（2.1.3.1.3.2）得到的对数值序列，表示第u＇个余弦分量，M_u为第u个MFCC参数，(M₁,M₂,…,M₁₂)构成12阶MFCC参数；

f_{new} = \frac{f_{source} - \min (F_{source})}{\max (F_{source}) - \min (F_{source})}

，

步骤（2.1.3.3），按下式计算每个语音对应的清晰度ATL_h：

{ATL}_{h} = C_{a} + c_{0} ZCR + Σ_{i = 1}^{21} b_{i} B_{ri} + Σ_{u = 1}^{12} m_{u} M_{u}

，

步骤（2.1.3.4），按以下步骤得到声母必测词表：

第一类声母语音为b, d, f, 分类频率为19.60%，分类个数为4，

第二类声母语音为p, t, ch, 分类频率为7.26%，分类个数为1，

第三类声母语音为g, k, h, 分类频率为11.75%，分类个数为2，

第四类声母语音为j, q, x, 分类频率为14.95%，分类个数为3，

第五类声母语音为z, c, s, 分类频率为5.24%，分类个数为1，

第六类声母语音为l, m. n, r, 分类频率为13.90%，分类个数为3，

第七类声母语音为zh, sh, 分类频率为14.84%，分类个数为3，

第八类声母语音为零声母, 分类频率为12.45%，分类个数为3，

s(k＇)=x(k＇)-0.94x(k＇-1)

其中，k＇为韵母语音采样信号的索引，x(k＇)为原始韵母语音文件中第k＇个韵母语音采样信号的幅值，x(k＇)为预加重处理后的韵母语音信号幅值；

W (m) = 0.54 - 0.46 \cos \frac{2 πm}{M - 1}, 0 \leq m \leq M - 1

，

加窗处理公式为：

z (m) = Σ_{k = - \infty}^{+ \infty} s (k^{'}) W (m - k^{'})

步骤（2.1.4.1.3），对步骤（2.1.4.1.2）得到的语音信号z(m)，按如下方程组计算指定阶数为P的P个LPC系数，P的取值范围为15≤P≤60且P为整数，本例中取P=40：

令

r (p) = Σ_{m = 0}^{P - 1 - p} z (m) z (m + p)

，p=0,1,2,…,P，则有

，

ϵ_{P} = r (0) - Σ_{p = 1}^{P} α_{p} r (p)

，

第六类韵母语音为ü, üe, 分类频率为2.81%，分类个数为1，

第七类韵母语音为u, 分类频率为7.11%，分类个数为1，

第八类韵母语音为e, 分类频率为12.38%，分类个数为3;

n_{S_{a}} = H \times \underset{q_{1} &Element; S_{a}}{Σ} f_{q_{1}}, a = 1,2, . . ., 8,

其中q₁为声母音位，为q₁的统计频率，S_a为第a类声母音位集合，a为声母类的索引，为声母类S_b在所述汉语普通话言语测听动态词表中的实际分配个数，H为测试项总数；

n_{S_{b}} = H \times \underset{q_{2} &Element; S_{b}}{Σ} f_{q_{2}}, b = 1,2, . . ., 8

其中q₂为韵母音位，为q₂的统计频率，S_b为第b类韵母音位集合，b为声母类的索引，为韵母类S_b在所述汉语普通话言语测听动态词表中的实际分配个数；

n_{S_{c}} = H \times \underset{q_{3} &Element; S_{c}}{Σ} f_{q_{3}}, c = 1,2,3,4

其中q₃为声调音位，为q₃的统计频率，S_c为第c类声调音位集合，c为声调类的索引，为声调类S_c在所述汉语普通话言语测听动态词表中的实际分配个数，

综合起来，各声母、韵母及声调的分类、分类频率及实际分配个数如表1、表2和表3所示；

声母分类	声母	分类频率	分类个数（N=20）
				第一类	b,d,f	19.60%	4
第二类	p,t,ch	7.26%	1
				第三类	g,k,h	11.75%	2
第四类	j,q,x	14.95%	3
				第五类	z,c,s	5.24%	1
第六类	l,m,n,r	13.90%	3
				第七类	zh,sh	14.84%	3
第八类	零声母	12.45%	3

表1

韵母分类	韵母	分类频率	分类个数（N=20）
				第一类	o, ou, ong, iong, er, uo	11.70%	2
第二类	ia, iao, iang, ai, an, üan, eng, uan	16.37%	3
				第三类	a, ao, ang, ua, uang, uai	11.27%	2
第四类	en, iu, ui, uen	9.40%	2
				第五类	i, in, ing, ie, ian, ei, ün	28.53%	6
第六类	ü, üe	2.81%	1
				第七类	u	7.11%	1
第八类	e	12.38%	3

表2

声调	频率	个数（N=20）
			阴平	18.71%	4
阳平	19.37%	4
			上声	17.51%	4
去声	35.78%	8

表3

步骤（2.1.7），按下式计算所述必测词表的清晰度ATL_TB：

ATL_TB = Σ_{h = 1}^{H} {ATL}_{h}

，

ATL_{TB}_{mean} = \frac{1}{Q} Σ_{q = 1}^{Q} ATL_{TB}_{q}

ATL_{TB}_{SD} = \sqrt{\frac{1}{Q} Σ_{q = 1}^{Q} {(ATL_{TB}_{q} - ATL_{TB}_{mean})}^{2}}

Δ(ATL_TB)=|ATL_TB-ATL_TB_mean|；

汉语言语测听系统是按照如下测试步骤测听的：

步骤（1），选择一个必测词表，并固定播放声强；

步骤（4），测试结束；

步骤（5），此次测试的识别率结果计算方法如下：

步骤（5.1），若必测项答对，则该项得分为1；

步骤（5.4），测试最终得分由必测词表项和隐含词表项的听辨结果共同决定，最终得分为F=p+rα-(q-r)β,其中p为必测项听辨正确的总次数，q为出现要使用隐含词表的总次数，r为出现步骤（5.2）情况的次数，且p与q之和为必测词表项的总和，如p=10，q=10，r=4，则此次得分为F=10+4α-6β。

表4为一个动态词表的必测词表的设计实例。

汉字	声母	韵母	声调
				东	d	ong	阴平
把	b	a	上声
				费	f	ei	去声
底	d	i	上声
				飘	p	iao	阴平
贵	g	uei	去声
				克	k	e	去声
卷	j	üan	上声
				穷	q	iong	阳平
秀	x	iu	去声
				词	c	i	阳平
乐	l	e	去声
				民	m	in	阳平
热	r	e	去声
				专	zh	uan	阴平
十	sh	i	阳平
				书	sh	u	阴平
也	0	ie	上声
				袜	0	ua	去声
月	0	üe	去声

表4

Claims

1.一种基于汉语言语测听动态词表的汉语言语自动测听方法，其特征在于，是在一个汉语言语测听系统中依次按以下步骤实现的：

步骤（2.1.3），依次按以下步骤在听感上对声母进行分类：

ZCR = \frac{1}{2 K} Σ_{k = 2}^{K} | sgn (x (k)) - sgn (x (k - 1)) |,

其中K为声母时域语音信号采样点个数，k为声母时域语音信号采样点的索引，k=2,3,...,K，x(k)为第k个声母时域语音信号采样值，sgn(x(k))表示取x(k)的符号，x(k)为正数时取1，x(k)为负数时取-1，否则取0，ZCR为声母过零率参数；

F [n] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] + {(- 1)}^{m}) x [k + \frac{K}{2}] e^{- \frac{j 2 πnk}{K}},

F [2 n^{'}] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] + x [k + \frac{K}{2}]) e^{- \frac{j 2 π n^{'} k}{K / 2}},

F [2 n^{'} + 1] = Σ_{k = 0}^{\frac{K}{2} - 1} (x [k] + x [k + \frac{K}{2}]) e^{- \frac{j 2 πk}{K}} e^{- \frac{j 2 π n^{'} k}{K / 2}},

其中，K为声母时域语音信号采样点个数，k为声母时域语音信号采样点的索引，k=0,1,...,K-1，x(k)为第k个声母时域语音信号采样值，n为声母频域信号的索引，计算中声母频域信号总数与时域信号总数相同，n=0,1,...,K-1，j为频数单位，e为自然对数的底，为谐波频率，为第n次谐波序列，F[n]为转换后的第n个FFT频域值，取其幅值的对数值作为FFT能量值，所有FFT能量值组成该声母语音信号的FFT能量谱，F[2n']为偶数项频域值，F[2n'+1]为奇数项频域值，

步骤（2.1.3.1.2.2），令x₁,x₂,...,x₂₁分别为所述声学FFT能量谱中，每一个Bark频带i的累计能量分量和，共有21个，i=1,2,...,21；

y_{i} = x_{i} / Σ_{j = 1}^{21} x_{j}, j = 1,2, . . ., 21,

步骤（2.1.3.1.2.4），令y_i=y₁,y₂,...,y_i,...,y₂₁，得到以y₁,y₂,...,y₂₁作为声母的21维Bark频带能量比率参数；

步骤（2.1.3.1.3），声母MFCC参数M按以下步骤得到：

T_{u} (v) = \{\begin{matrix} 0, v < f (u - 1) \\ \frac{2 (v - f (u - 1))}{(f (u + 1) - f (u - 1)) (f (u) - f (u - 1))}, f (u - 1) \leq v \leq f (u) \\ \frac{2 (f (u + 1) - v)}{(f (u + 1) - f (u - 1)) (f (u + 1) - f (u))}, f (u) \leq v \leq f (u + 1) \\ 0, v &GreaterEqual; f (u + 1) \end{matrix},

其中f(u)为第u个频带的中心频率，u为频带的索引，u=0,1,...,U-1，U为频带总数，取U=24，v为离散频率分量值，v=0,1,...,T_u(v)为第u个频带对应的滤波器组对频率v的频率响应；

M_{u} = Σ_{u^{'} = 0}^{U - 1} w (u^{'}) \cos [\frac{π (u - 1) (u^{'} - 0.5)}{U}], u^{'} = 0,1, . . ., U - 1, u = 1,2, . . ., 12,

其中，w(u')为步骤（2.1.3.1.3.2）得到的对数值序列，表示第u'个余弦分量，M_u为第u个MFCC参数，(M₁,M₂,...,M₁₂)构成12阶MFCC参数；

f_{new} = \frac{f_{source} - \min (F_{source})}{\max (F_{source}) - \min (F_{source})},

步骤（2.1.3.3），按下式计算每个语音对应的清晰度ATL_h：

{ATL}_{h} = C_{a} + c_{0} ZCR + Σ_{i = 1}^{21} b_{i} B_{ri} + Σ_{u = 1}^{12} m_{u} M_{u},

其中C_a为常值，取值为C_a=0.9027，c₀为参数ZCR的系数，取值为c₀=-0.0585，B_ri表示第i维Bark频带能量比率参数，B_ri=y_i，b_i为参数B_ri的系数，取值分别为b₉=0.0648，b₁₀=0.0312，b₁₂=0.0834，b₁₃=-0.0493，b₁₄=-0.0950，b₁₆=-0.1663，b₁₉=-0.0711，b₂₀=-0.1178，b₂₁=-0.1143，M_u表示第u维MFCC参数，m_u为参数M_u的系数，取值分别为m₁=-0.2620，m₄=0.0525，m₅=-0.1337，m₈=0.0525，m₁₁=-0.0330，其余b_i=0以及m_u=0，h表示测试项的索引，h=1,2,...,H，H为测试项总数，取H=20；

步骤（2.1.3.4），按以下步骤得到声母必测词表：

步骤（2.1.3.4.1），设定每一个所述声母语音文件为一类，S_h'={X_h'}，其中S_h'为第h'个分类，X_h'为第h'个声母语音的特征参数向量；

步骤（2.1.3.4.2），把H'个分类中欧氏距离最近的向量与类归并为一个子类，构成欧式距离最近的向量声母语音的集合；

第一类声母语音为b,d,f,分类频率为19.60%，分类个数为4，

第二类声母语音为p,t,ch,分类频率为7.26%，分类个数为1，

第三类声母语音为g,k,h,分类频率为11.75%，分类个数为2，

第四类声母语音为j,q,x,分类频率为14.95%，分类个数为3，

第五类声母语音为z,c,s,分类频率为5.24%，分类个数为1，

第六类声母语音为l,m.n,r,分类频率为13.90%，分类个数为3，

第七类声母语音为zh,sh,分类频率为14.84%，分类个数为3，

第八类声母语音为零声母,分类频率为12.45%，分类个数为3，

s(k')=x(k')-0.94x(k'-1)

其中，k'为韵母语音采样信号的索引，x(k')为原始韵母语音文件中第k'个韵母语音采样信号的幅值，s(k')为预加重处理后的韵母语音信号幅值；

W (m) = 0.54 - 0.46 \cos \frac{2 πm}{M - 1}, 0 \leq m \leq M - 1,

其中M为预先指定的窗长，W(m)为第m个窗序列值，m为窗序列的索引，m=0,1,...,M-1，

加窗处理公式为：

z (m) = Σ_{k = - \infty}^{+ \infty} s (k^{'}) W (m - k^{'})

其中，s(k')为步骤（2.1.4.1.1）得到的语音，W(m-k')为汉明窗的第m-k'个值，z(m)为加窗处理后的语音；

令

r (p) = Σ_{m = 0}^{P - 1 - p} z (m) z (m + p), p = 0,1,2, . . ., P,

则有

ϵ_{P} = r (0) - Σ_{p = 1}^{P} α_{p} r (p),

其中，z(m)z(m+p)表示两个时域信号的乘积，r(p)是中间变量，ε_P为实际信号与线性预测信号的最小均方误差，α_p为第p个LPC系数，p为LPC系数的索引，且p=1,2,...,P，(α₁,α₂,...,α_P)即为所求的P个LPC系数；

步骤（2.1.4.1.4），按步骤（2.1.3.1.1）计算由步骤（2.1.4.1.3）得到的LPC系数(α₁,α₂,...,α_p)的FFT能量谱，该能量谱对应的曲线即为LPC谱曲线；

第一类韵母语音为o,ou,ong,iong,er,uo,分类频率为11.70%，分类个数为2，

第二类韵母语音为ia,iao,iang,ai,an,üan,eng,uan,分类频率为16.37%，分类个数为3，

第三类韵母语音为a,ao,ang,ua,uang,uai,分类频率为11.27%，分类个数为2，

第四类韵母语音为en,iu,ui,uen,分类频率为9.40%，分类个数为2，

第五类韵母语音为i,in,ing,ie,ian,ei,ün,分类频率为28.53%，分类个数为6，

第六类韵母语音为ü,üe,分类频率为2.81%，分类个数为1，

第七类韵母语音为u,分类频率为7.11%，分类个数为1，

第八类韵母语音为e,分类频率为12.38%，分类个数为3;

步骤（2.1.5.1），按如下公式计算每个声母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数

步骤（2.1.5.2），按如下公式计算每个韵母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数

n_{S_{b}} = H \times \underset{q_{2} &Element; S_{b}}{Σ} f_{q_{2}}, b = 1,2, . . ., 8,

步骤（2.1.5.3），按如下公式计算每个声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数

n_{S_{c}} = H \times \underset{q_{3} &Element; S_{c}}{Σ} f_{q_{3}}, c = 1,2,3,4,

步骤（2.1.6），根据步骤（2.1.5）中的声母语音、韵母语音及声调语音的分类及各类的实际分配个数搭配组词编制成设定长度的必测词表；

步骤（2.1.7），按下式计算所述必测词表的清晰度ATL_TB：

ATL_TB = Σ_{h = 1}^{H} {ATL}_{h},

ATL_{TB}_{mean} = \frac{1}{Q} Σ_{q = 1}^{Q} ATL_{TB}_{q}

ATL_{TB}_{SD} = \sqrt{\frac{1}{Q} Σ_{q = 1}^{Q} {(ATL_{TB}_{q} - ATL_{TB}_{mean})}^{2}}

其中，q表示所述必测词表的索引，q=1,2,...,Q，Q为所制定的所述必测词表的总张数，ATL_TB_q为第q张所述必测词表的清晰度；

Δ(ATL_TB)=|ATL_TB-ATL_TB_mean|；

若ATL_TB<ATL_TB_mean，则删掉该必测词表ATL_TB中清晰度ATL较小语音测试项，

若ATL_TB>ATL_TB_mean，则删掉该必测词表ATL_TB中清晰度ATL较大语音测试项；

若ATL_TB<ATL_TB_mean，则用清晰度大于所述删去项且由和该删去项的相同声母、同类韵母项搭配组成的项代替，

若ATL_TB>ATL_TB_mean，则用清晰度小于所述删去项且由与该被删去项相同声母、同类韵母搭配组成的项代替；