CN103054586B - 一种基于汉语言语测听动态词表的汉语言语自动测听方法 - Google Patents

一种基于汉语言语测听动态词表的汉语言语自动测听方法 Download PDF

Info

Publication number
CN103054586B
CN103054586B CN201210549152.8A CN201210549152A CN103054586B CN 103054586 B CN103054586 B CN 103054586B CN 201210549152 A CN201210549152 A CN 201210549152A CN 103054586 B CN103054586 B CN 103054586B
Authority
CN
China
Prior art keywords
initial consonant
vocabulary
atl
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210549152.8A
Other languages
English (en)
Other versions
CN103054586A (zh
Inventor
田业
贾珈
蔡莲红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210549152.8A priority Critical patent/CN103054586B/zh
Publication of CN103054586A publication Critical patent/CN103054586A/zh
Application granted granted Critical
Publication of CN103054586B publication Critical patent/CN103054586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

一种基于汉语言语测听动态词表的汉语言语自动测听方法属于言语测听技术领域,其特征在于使用一种由指定长度的必测词表和不定长度的隐含词表组成的言语测听词表。必测词表是指从语音文件的声学特征的角度对声韵母进行听感分类和清晰度计算,并以此为核心而编制的言语测听词表。隐含词表是对必测词表的扩充,是受试者对必测词表项听辨错误时所选择的补充测试项的集合,补充测试项与该必测词表听辨错误项的声韵母属于同一声韵母分类。从而组成多个等价的言语测听动态词表并通过隐含词表项对必测词表听辨错误项进行补偿测试的言语测听软件,测听过程在一个汉语言语测听系统中通过软件系统自动化完成,相比传统测听系统,具有更高的测试效率、测试信度和等价性。

Description

一种基于汉语言语测听动态词表的汉语言语自动测听方法
技术领域
本发明属于言语测听技术领域,涉及一种言语测听动态词表的设计方法和汉语言语测听系统。所述的言语测听动态词表,是一种由指定长度的必测词表和不定长度的隐含词表组成的言语测听词表。所述的指定长度的必测词表是指从语音文件的声学特征的角度对声韵母进行听感分类和清晰度计算,并以此为核心而编制的言语测听词表。所述的不定长度的隐含词表是对必测词表的扩充,是指在测听过程中,当受试者对必测词表项听辨错误时所选择的补充测试项的集合,所选择的补充测试项与该必测词表听辨错误项的声韵母属于同一声韵母分类。所述的汉语言语测听系统是指存储有多个等价的言语测听动态词表并通过隐含词表项对必测词表听辨错误项进行补偿测试的言语测听系统,测听过程能通过软件系统自动化完成,相比传统测听系统,具有更高的测试效率、测试信度和等价性。
背景技术
60年代中期,张家騄先生通过分析大量主观听辨测试结果,并依据音位平衡原则编制了10张“语言清晰度测试音节表”,每张表75个单音节字,从主观上研究了汉语的清晰度问题。
21世纪初,从事言语测听领域的研究者们基于上述清晰度测试音节表编制了多套言语测听词表,并用于言语测听。言语测听方法是基于言语测听识别率来评价受试者听力情况的方法。具体做法是先按照一定原则制定统一的词表,然后让受试者听完一个或多个词表的所有项,记录并统计所有听辨正确的项,最终以正确项数与对应一个或多个表中项的总数的比值,即言语识别率,作为最终听力评价指标。其中词表的设计遵循三个原则:挑常用字,考虑音位平衡,保证词表间的等价性。词表长度的发展趋势是由长变短,先后设计了75字/表、50字/表、25字/表和20字/表。但是,已有方法存在一些不足:(1)词表长度固定,词表越长,测试时间越长,受试者疲劳,测试效率低,信度差;词表越短,词表间的等价性越低,测听结果的离散度越大;(2)词表设计未考虑语音声学特征之间的差异,词表在录音中语音信号声学特征(频谱、音高、音长和能量)的变化会引起听辨误差;(3)已有测试方法未考虑到随机性因素的干扰,比如受试者的情绪以及注意力不集中等因素的影响,最终会导致降低测试结果的信度。
本发明从声学特征的角度分别对韵母和声母进行了听感分析。通过提取韵母线性预测编码LPC谱,经过层次聚类,最终对韵母进行听感上的分类。通过对声母时域和频域特征的分析,经过层次聚类,最终对声母进行听感上的分类,并提出了一种声母清晰度计算方法。基于以上听感分析,本发明提出了一种新的言语测听动态词表设计方法和汉语言语测听系统。
发明内容
本发明提出了一种言语测听系统,涉及一种言语测听动态词表的设计方法和汉语言语测听系统。与已有方法相比,该方法主要有三个创新点:1)在已有词表设计方法的基础上,以词表录音的声学特征评估词表的清晰度,以此编制的词表具有高信度和高等价性;2)设计了动态词表,词表长度不再固定,从而在测试周期上能表现出更高的灵活性,同时能在保证较高信度的基础上缩短测试时间,提高测试效率;3)设计的汉语言语测听系统的测试方法可对听辨错误项进行补偿,并设计了一套基于多维特征的计分规则,能提高测试结果的信度。该方法克服了已有言语测听中测试周期与词表长度之间难以平衡的矛盾以及测试信度偏低的缺陷,同时通过评估词表清晰度及测试方法中对听辨错误项的修正,提高测试结果的信度。其特征在于,是在一个汉语言语测听系统中依次按以下步骤实现的:
步骤(1),构建一个包括中央处理器、鼠标、键盘、图形显示器、外存设备和听力计的汉语言语测听系统,所述中央处理器的各输入端分别与所述键盘、鼠标及听力计的输出端相连,所述听力计的输入端与扬声器的输出端相连,所述中央处理器的各其他输出/输入端与图形显示器和外存设备分别互连;
步骤(2),在所述中央处理器中,依次按以下步骤构造一个汉语普通话言语测听动态词表,其中包括一个指定长度的必测词表和一个不定长度的隐含词表:
步骤(2.1),依次按以下步骤构造一个所述的指定长度的必测词表:
步骤(2.1.1),选择测试文件方式的测试项,每个所述测试项在汉语口语交流中出现的频次都排名在前2000以内,所述测试项的集合要覆盖汉语普通话所有声韵调的组合,并为每个所述测试项录制成一个相应语音文件;
步骤(2.1.2),对步骤(2.1.1)得到的语音文件分别标注每个音节中声母和韵母的起始位置,并把声母部分的语音信号重新存储为一个声母语音文件,把韵母部分的语音信号重新存储为一个韵母语音文件;
步骤(2.1.3),依次按以下步骤在听感上对声母进行分类:
步骤(2.1.3.1),按以下步骤从步骤(2.1.2)得到的声母语音文件中提取如下所述声学特征参数:声母过零率参数ZCR、声母MFCC参数M以及声母Bark频带能量比率参数Br,所述的ZCR,M及Br是按照以下步骤得到的:
步骤(2.1.3.1.1),所述的声母过零率参数ZCR按以下公式计算:
ZCR = 1 2 K Σ k = 2 K | sgn ( x ( k ) ) - sgn ( x ( k - 1 ) ) |
其中K为声母时域语音信号采样点个数,k为声母时域语音信号采样点的索引,k=2,3,…,K,x(k)为第k个声母时域语音信号采样值,sgn(x(k))表示取x(k)的符号,x(k)为正数时取1,x(k)为负数时取-1,否则取0,ZCR为声母过零率参数;
步骤(2.1.3.1.2),所述的声母Bark频带能量比率参数Br按以下步骤得到:
步骤(2.1.3.1.2.1),把声母语音信号分帧、加窗后按下列公式求声母FFT能量谱:
F [ n ] = Σ k = 0 K 2 - 1 ( x [ k ] + ( - 1 ) m x [ k + K 2 ] ) e - j 2 πnk K
F [ 2 n ′ ] = Σ k = 0 K 2 - 1 ( x [ k ] + x [ k + K 2 ] ) e - j 2 π n ′ k K / 2
F [ 2 n ′ + 1 ] = Σ k = 0 K 2 - 1 ( x [ k ] - x [ k + K 2 ] ) e - j 2 π k K / 2 e - j 2 π n ′ k K / 2
其中,K为声母时域语音信号采样点个数,k为声母时域语音信号采样点的索引,k=0,1,…,K-1,x(k)为第k个声母时域语音信号采样值,n为声母频域信号的索引,计算中声母频域信号总数与时域信号总数相同,n=0,1,…,K-1,j为频数单位,e为自然对数的底,为谐波频率,为第n次谐波序列,F[n]为转换后的第n个FFT频域值,取其幅值的对数值作为FFT能量值,所有FFT能量值组成该声母语音信号的FFT能量谱,F[2n']为偶数项频域值,F[2n'+1]为奇数项频域值,
步骤(2.1.3.1.2.2),令x1,x2,…,x21分别为所述声学FFT能量谱中,每一个Bark频带i的累计能量分量和,共有21个,i=1,2,…,21;
步骤(2.1.3.1.2.3),按下式计算频带i的累计能量分量和占全部频带能量的比例yi
y i = x i / Σ j = 1 21 x j , j = 1,2 , . . . , 21
步骤(2.1.3.1.2.4),令yi=y1,y2,…,yi,…,y21,得到以y1,y2,…,y21作为声母的21维Bark频带能量比率参数;
步骤(2.1.3.1.3),声母MFCC参数M按以下步骤得到:
步骤(2.1.3.1.3.1),按步骤(2.1.3.1.2.1)对声母语音信号做FFT变换,得到FFT变换后的频谱,计算该频谱的幅值的平方,得到离散的功率谱;
步骤(2.1.3.1.3.2),采用如下三角滤波器组在频域内对步骤(2.1.3.1.3.1)得到的离散的功率谱进行带通滤波,并将滤波后的结果取对数:
T u = 0 , v < f ( u - 1 ) 2 ( v - f ( u - 1 ) ) ( f ( u + 1 ) - f ( u - 1 ) ) ( f ( u ) - f ( u - 1 ) ) , f ( u - 1 ) &le; v &le; f ( u ) 2 ( f ( u + 1 ) - v ) ( f ( u + 1 ) - f ( u - 1 ) ) ( f ( u + 1 ) - f ( u ) ) , f ( u ) &le; v &le; f ( u + 1 ) 0 , v &GreaterEqual; f ( u + 1 )
其中f(u)为第u个频带的中心频率,u为频带的索引,u=0,1,…,U-1,U为频带总数,取U=24,v为离散频率分量值,v=0,1,…, Tu(v)为第u个频带对应的滤波器组对频率v的频率响应;
步骤(2.1.3.1.3.3),将步骤(2.1.3.1.3.2)得到的结果通过以下离散余弦变换DCT公式计算,得到12阶的MFCC系数M:
M u = &Sigma; u &prime; = 0 U - 1 w ( u &prime; ) cos [ &pi; ( u - 1 ) ( u &prime; - 0.5 ) U ] , u &prime; = 0,1 , . . . , U - 1 , u = 1,2 , . . . , 12 ,
其中,w(u')为步骤(2.1.3.1.3.2)得到的对数值序列,表示第u'个余弦分量,Mu为第u个MFCC参数,(M1,M2,…,M12)构成12阶MFCC参数;
步骤(2.1.3.2),对步骤(2.1.3.1.1)至步骤(2.1.3.1.3)得到的声学特征参数按下式进行归一化处理:
f new = f source - min ( F source ) max ( F source ) - min ( F source )
其中,fnew是归一化处理后的包括ZCR、Mu、yi在内的各声学特征参数,fsource是归一化处理之前的声学特征参数,Fsource为同一维度i的未处理时的声学特征参数集合;
步骤(2.1.3.3),按下式计算每个语音对应的清晰度ATLh
ATL h = C a + c 0 ZCR + &Sigma; i = 1 21 b i B ri + &Sigma; u = 1 12 m u M u
其中Ca为常值,取值为Ca=0.9027,c0为参数ZCR的系数,取值为c0=-0.0585,Bri表示第i维Bark频带能量比率参数,Bri=yi,bi为参数Bri的系数,取值分别为b9=0.0648,b10=0.0312,b12=0.0834,b13=-0.0493,b14=-0.0950,b16=-0.1663,b19=-0.0711,b20=-0.1178,b21=-0.1143,Mu表示第u维MFCC参数,mu为参数Mu的系数,取值分别为m1=-0.2620,m4=0.0525,m5=-0.1337,m8=0.0525,m11=-0.0330,其余bi=0以及mu=0, h表示测试项的索引,h=1,2,…,H,H为测试项总数,取H=20;
步骤(2.1.3.4),按以下步骤得到声母必测词表:
步骤(2.1.3.4.1),设定每一个所述声母语音文件为一类,Sh'={Xh'},其中Sh'为第h'个分类,Xh'为第h'个声母语音的特征参数向量;
步骤(2.1.3.4.2),把H'个分类中欧氏距离最近的向量与类归并为一个子类,构成欧式距离最近的向量声母语音的集合;
步骤(2.1.3.4.3),分别计算步骤(2.1.3.4.2)得到的各个集合内所有向量的平均值,作为该集合的中心向量,再计算任何两个所述声母语音集合的中心向量的欧氏距离作为任意两个所述声母语音集合的距离;
步骤(2.1.3.4.4),重复步骤(2.1.3.4.2)和步骤(2.1.3.4.3),直到只剩下一个子类;
步骤(2.1.3.4.5),根据步骤(2.1.3.4.4)得到的结果构造一棵叶子节点为21个声母语音的聚类树,最终把声母语音分成八类:
第一类声母语音为b, d, f, 分类频率为19.60%,分类个数为4,
第二类声母语音为p, t, ch, 分类频率为7.26%,分类个数为1,
第三类声母语音为g, k, h, 分类频率为11.75%,分类个数为2,
第四类声母语音为j, q, x, 分类频率为14.95%,分类个数为3,
第五类声母语音为z, c, s, 分类频率为5.24%,分类个数为1,
第六类声母语音为l, m. n, r, 分类频率为13.90%,分类个数为3,
第七类声母语音为zh, sh, 分类频率为14.84%,分类个数为3,
第八类声母语音为零声母, 分类频率为12.45%,分类个数为3,
分类频率为该声母子类在口语中出现频次占上述所有声母分类在口语中出现的总频次的百分比,分类个数为以单个必测词表测试项总数H=20为例,将该测试总数乘以分类的频率然后四舍五入得到的该分类在词表中的个数,零声母是指,在汉语普通话中只由一个韵母组成的音节,由于该音节没有声母,声学上将该类音节的声母称之为零声母;
步骤(2.1.4),依次按照以下步骤在听感上对韵母语音进行分类:
 步骤(2.1.4.1),对步骤(2.1.2)得到的每个韵母语音文件,选择时序上位于每个韵母语音文件上韵母总时长的1/6、3/6、5/6三个时刻的语音帧,按如下步骤计算生成三条LPC谱曲线,每个韵母语音文件均有三条线性预测LPC谱曲线:
步骤(2.1.4.1.1),对每个韵母语音帧按下式进行预加重处理:
s(k')=x(k')-0.94x(k'-1)
其中,k'为韵母语音采样信号的索引,x(k')为原始韵母语音文件中第k'个韵母语音采样信号的幅值,s(k')为预加重处理后的韵母语音信号幅值;
步骤(2.1.4.1.2),对步骤(2.1.4.1.1)预加重处理得到的韵母语音信号采用如下汉明窗进行加窗处理:
W ( m ) = 0.54 - 0.46 cos 2 &pi;m M - 1 , 0 &le; m &le; M - 1
其中M为预先指定的窗长,W(m)为第m个窗序列值,m为窗序列的索引,m=0,1,…,M-1,取M=256,
加窗处理公式为:
z ( m ) = &Sigma; k = - &infin; + &infin; s ( k &prime; ) W ( m - k &prime; )
其中,s(k')为步骤(2.1.4.1.1)得到的语音,W(m-k')为汉明窗的第m-k'个值,z(m)为加窗处理后的语音;
步骤(2.1.4.1.3),对步骤(2.1.4.1.2)得到的语音信号z(m),按如下方程组计算指定阶数为P的P个LPC系数,P的取值范围为15≤P≤60且P为整数:
r ( p ) = &Sigma; m = 0 P - 1 - p z ( m ) z ( m + p ) ,p=0,1,2,…,P,则有
&epsiv; P = r ( 0 ) - &Sigma; p = 1 P &alpha; p r ( p )
其中,z(m)z(m+p)表示两个时域信号的乘积,r(p)是中间变量,εP为实际信号与线性预测信号的最小均方误差,αp为第p个LPC系数,p为LPC系数的索引,且p=1,2,…,P,(α12,…,αp)即为所求的P个LPC系数;
步骤(2.1.4.1.4),按步骤(2.1.3.1.1)计算由步骤(2.1.4.1.3)得到的LPC系数(α12,…,αp)的FFT能量谱,该能量谱对应的曲线即为LPC谱曲线;
步骤(2.1.4.2),对于每条所述的LPC谱线,以500Hz,1000Hz,2000Hz为中心,分别计算[450,550]、[950,1050]和[1950,2050]三个频率段内LPC谱曲线的积分,由此得到一个九维特征向量,作为韵母的特征向量;
步骤(2.1.4.3),对所有的韵母语音文件执行步骤(2.1.4.1)到步骤(2.1.4.2),各九维特征向量之间的欧氏距离为韵母语音感知距离;
步骤(2.1.4.4),把步骤(2.1.4.3)的结果聚成一个韵母语音的聚类树,把韵母语音分成八类:
第一类韵母语音为o, ou, ong, iong, er, uo, 分类频率为11.70%,分类个数为2,
第二类韵母语音为ia, iao, iang, ai, an, üan, eng, uan, 分类频率为16.37%,分类个数为3,
第三类韵母语音为a, ao, ang, ua, uang, uai, 分类频率为11.27%,分类个数为2,
第四类韵母语音为en, iu, ui, uen, 分类频率为9.40%,分类个数为2,
第五类韵母语音为i, in, ing, ie, ian, ei, ün, 分类频率为28.53%,分类个数为6,
第六类韵母语音为ü, üe, 分类频率为2.81%,分类个数为1,
第七类韵母语音为u, 分类频率为7.11%,分类个数为1,
第八类韵母语音为e, 分类频率为12.38%,分类个数为3;
步骤(2.1.5),设定:所述汉语普通话言语测听动态词表中音位q的出现频率与口语交流中去除轻声音节之后的声韵调的统计频率相同,为fq,按如下步骤计算每个声母语音分类、韵母语音分类及声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数:
步骤(2.1.5.1),按如下公式计算每个声母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
其中q1为声母音位,为q1的统计频率,Sa为第a类声母音位集合,a为声母类的索引,为声母类Sa在所述汉语普通话言语测听动态词表中的实际分配个数,H为测试项总数;
步骤(2.1.5.2),按如下公式计算每个韵母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
其中q2为韵母音位,为q2的统计频率,Sb为第b类韵母音位集合,b为声母类的索引,为韵母类Sb在所述汉语普通话言语测听动态词表中的实际分配个数;
步骤(2.1.5.3),按如下公式计算每个声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
其中q3为声调音位,为q3的统计频率,Sc为第c类声调音位集合,c为声调类的索引,为声调类Sc在所述汉语普通话言语测听动态词表中的实际分配个数;
步骤(2.1.6),根据步骤(2.1.5)中的声母语音、韵母语音及声调语音的分类及各类的实际分配个数搭配组词编制成所述设定长度的必测词表;
步骤(2.1.7),按下式计算所述必测词表的清晰度ATL_TB:
ATL _ TB = &Sigma; h = 1 H ATL h
并按所述必测词表清晰度ATL_TB调整词表项,使各个语音文件所对应的必测词表的清晰度相等或相近,以减少各个必测词表在听感上的差异,步骤如下:
步骤(2.1.7.1),计算步骤(2.1.7)生成的所有所述必测词表的词表清晰度的平均值ATL_TBmean及标准差ATL_TBSD
ATL _ TB mean = 1 Q &Sigma; q = 1 Q ATL _ TB q
ATL _ TB SD = 1 Q &Sigma; q = 1 Q ( ATL _ TB q - ATL _ TB mean ) 2
其中,q表示所述必测词表的索引,q=1,2,…,Q,Q为所制定的所述必测词表的总张数, ATL_TBq为第q张所述必测词表的清晰度;
步骤(2.1.7.2),设定:步骤(2.1.7.1)中各必测词表与词表清晰度平均值ATL_TBmean之差的绝对值的阈值Δ(ATL_TB)≤0.1:
Δ(ATL_TB)=|ATL_TB-ATL_TBmean|;
步骤(2.1.7.3),把步骤(2.1.7.1)中各必测词表的清晰度ATL_TB与ATL_TBmean进行比较,若Δ(ATL_TB)≤0.1,则可不必对该词表进行调整,否则:
若ATL_TB<ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较小语音测试项,
若ATL_TB>ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较大语音测试项;
步骤(2.1.7.4),按以下方式对步骤(2.1.7.3)中被删去的项进行替代:
若ATL_TB<ATL_TBmean,则用清晰度大于所述删去项且由和该删去项的相同声母、同类韵母项搭配组成的项代替,
若ATL_TB>ATL_TBmean,则用清晰度小于所述删去项且由与该被删去项相同声母、同类韵母搭配组成的项代替;
步骤(2.1.7.5),重复执行步骤(2.1.7.4)直至步骤(2.1.7.4)中的各必测词表的清晰度ATL_TB与ATL_TBmean之差的绝对值小于预先设定的阈值Δ(ATL_TB)≤0.1为止,从而组成一个有多个等价的言语测听动态词表的言语测听系统;
步骤(2.2),不定长度的隐含词表是当受试者对必测词表项听辨错误时所选择的补充测试项的集合,其中,两者的声母语音属于同一个声母语音分类,韵母语音也属于同一韵母语音分类,共同组成隐含词表同质项;
步骤(3),测试者在一个隔音房间中对被测试者进行言语测听,由计算机随机播放测试项,用听力计对音强进行调节。
汉语言语测听系统是按照如下测试步骤测听的:
步骤(1),选择一个必测词表,并固定播放声强;
步骤(2),若必测词表中的所有测试项都已被测试过,则转步骤(4),否则选择该必测词表中未被测试的一个测试项播放,并标记该测试项为已测试;
步骤(3),受试者对上述测试项进行反馈,测试员记录反馈结果,反馈结果包括听辨正误及该测试项是属于必测词表项还是隐含词表项,下同:
步骤(3.1),若受试者听辨正确,则记录反馈结果,转步骤(2);
步骤(3.2),若受试者听辨错误,则从隐含词表中选择同一声母分类的另一声母和同一韵母分类的另一韵母搭配的测试项(即隐含词表同质项)继续进行测试并记录反馈结果,直至所有同质项中听辨正确项与错误项的比例不等于1:1为止,则转步骤(2);
步骤(4),测试结束;
步骤(5),此次测试的识别率结果计算方法如下:
步骤(5.1),若必测项答对,则该项得分为1;
步骤(5.2),若必测项答错,且隐含项连续两次都答对,则该项得分为α;
步骤(5.3),若必测项答错,隐含项第一项答错或隐含项一对一错,则该项得分为-β;
步骤(5.4),测试最终得分由必测词表项和隐含词表项的听辨结果共同决定,最终得分为F=p+rα-(q-r)β,其中p为必测项听辨正确的总次数,q为出现要使用隐含词表的总次数,r为出现步骤(5.2)情况的次数,且p与q之和为必测词表项的总和。
本发明的优越性在于:采用基于声韵母声学特征参数的层次聚类及听感实测数据的统计分析对声韵母进行听觉感知分类,以该听觉感知分类及词表清晰度为原则编制的词表,具有较高的等价性;通过隐含词表项的补偿,能保证测试结果具有较高的信度;不定长度的动态词表的设计,能保证在较高信度的基础上,缩短测试时间,提高测试效率。
附图说明
图1 适用于本发明实施例的计算机言语测听系统。
图2 基于动态词表的言语测听系统测听流程图。
图3基于动态词表的汉语言语自动测听方法流程图。
具体实施方式
以汉语普通话言语测听动态词表的设计方法和汉语普通话言语测听系统为例,本发明的详细设计过程描述如下:
图1为适用于本发明实施例的计算机言语测听系统。图2为本发明提出的基于动态词表的言语测听系统测听流程图。图3为摘要附图,是基于动态词表的汉语言语自动测听方法流程图。
该发明的详细设计步骤为:
步骤(1),构建一个包括中央处理器、鼠标、键盘、图形显示器、外存设备和听力计的汉语言语测听系统,所述中央处理器的各输入端分别与所述键盘、鼠标及听力计的输出端相连,所述听力计的输入端与扬声器的输出端相连,所述中央处理器的各其他输出/输入端与图形显示器和外存设备分别互连;
步骤(2),在所述中央处理器中,依次按以下步骤构造一个汉语普通话言语测听动态词表,其中包括一个指定长度的必测词表和一个不定长度的隐含词表:
步骤(2.1),依次按以下步骤构造一个所述的指定长度的必测词表:
步骤(2.1.1),选择测试文件方式的测试项,每个所述测试项在汉语口语交流中出现的频次都排名在前2000以内,所述测试项的集合要覆盖汉语普通话所有声韵调的组合,并为每个所述测试项录制成一个相应语音文件;
步骤(2.1.2),对步骤(2.1.1)得到的语音文件分别标注每个音节中声母和韵母的起始位置,并把声母部分的语音信号重新存储为一个声母语音文件,把韵母部分的语音信号重新存储为一个韵母语音文件;
步骤(2.1.3),依次按以下步骤在听感上对声母进行分类:
  步骤(2.1.3.1),按以下步骤从步骤(2.1.2)得到的声母语音文件中提取如下所述声学特征参数:声母过零率参数ZCR、声母MFCC参数M以及声母Bark频带能量比率参数Br,所述的ZCR,M及Br是按照以下步骤得到的:
步骤(2.1.3.1.1),所述的声母过零率参数ZCR按以下公式计算:
ZCR = 1 2 K &Sigma; k = 2 K | sgn ( x ( k ) ) - sgn ( x ( k - 1 ) ) |
其中K为声母时域语音信号采样点个数,k为声母时域语音信号采样点的索引,k=2,3,…,K,x(k)为第k个声母时域语音信号采样值,sgn(x(k))表示取x(k)的符号,x(k)为正数时取1,x(k)为负数时取-1,否则取0,ZCR为声母过零率参数;
步骤(2.1.3.1.2),所述的声母Bark频带能量比率参数Br按以下步骤得到:
步骤(2.1.3.1.2.1),把声母语音信号分帧、加窗后按下列公式求声母FFT能量谱:
F [ n ] = &Sigma; k = 0 K 2 - 1 ( x [ k ] + ( - 1 ) m x [ k + K 2 ] ) e - j 2 &pi;nk K
F [ 2 n &prime; ] = &Sigma; k = 0 K 2 - 1 ( x [ k ] + x [ k + K 2 ] ) e - j 2 &pi; n &prime; k K / 2
F [ 2 n &prime; + 1 ] = &Sigma; k = 0 K 2 - 1 ( x [ k ] - x [ k + K 2 ] ) e - j 2 &pi; k K / 2 e - j 2 &pi; n &prime; k K / 2
其中,K为声母时域语音信号采样点个数,k为声母时域语音信号采样点的索引,k=0,1,…,K-1,x(k)为第k个声母时域语音信号采样值,n为声母频域信号的索引,计算中声母频域信号总数与时域信号总数相同,n=0,1,…,K-1,j为频数单位,e为自然对数的底,为谐波频率,为第n次谐波序列,F[n]为转换后的第n个FFT频域值,取其幅值的对数值作为FFT能量值,所有FFT能量值组成该声母语音信号的FFT能量谱,F[2n']为偶数项频域值,F[2n'+1]为奇数项频域值,
步骤(2.1.3.1.2.2),令x1,x2,…,x21分别为所述声学FFT能量谱中,每一个Bark频带i的累计能量分量和,共有21个,i=1,2,…,21;
步骤(2.1.3.1.2.3),按下式计算频带i的累计能量分量和占全部频带能量的比例yi
y i = x i / &Sigma; j = 1 21 x j , j = 1,2 , . . . , 21
步骤(2.1.3.1.2.4),令yi=y1,y2,…,yi,…,y21,得到以y1,y2,…,y21作为声母的21维Bark频带能量比率参数;
步骤(2.1.3.1.3),声母MFCC参数M按以下步骤得到:
步骤(2.1.3.1.3.1),按步骤(2.1.3.1.2.1)对声母语音信号做FFT变换,得到FFT变换后的频谱,计算该频谱的幅值的平方,得到离散的功率谱;
步骤(2.1.3.1.3.2),采用如下三角滤波器组在频域内对步骤(2.1.3.1.3.1)得到的离散的功率谱进行带通滤波,并将滤波后的结果取对数:
T u = 0 , v < f ( u - 1 ) 2 ( v - f ( u - 1 ) ) ( f ( u + 1 ) - f ( u - 1 ) ) ( f ( u ) - f ( u - 1 ) ) , f ( u - 1 ) &le; v &le; f ( u ) 2 ( f ( u + 1 ) - v ) ( f ( u + 1 ) - f ( u - 1 ) ) ( f ( u + 1 ) - f ( u ) ) , f ( u ) &le; v &le; f ( u + 1 ) 0 , v &GreaterEqual; f ( u + 1 )
其中f(u)为第u个频带的中心频率,u为频带的索引,u=0,1,…,U-1,U为频带总数,取U=24,v为离散频率分量值,v=0,1,…, Tu(v)为第u个频带对应的滤波器组对频率v的频率响应;
  步骤(2.1.3.1.3.3),将步骤(2.1.3.1.3.2)得到的结果通过以下离散余弦变换DCT公式计算,得到12阶的MFCC系数M:
M u = &Sigma; u &prime; = 0 U - 1 w ( u &prime; ) cos [ &pi; ( u - 1 ) ( u &prime; ) - 0.5 U ] , u &prime; = 0,1 , . . . , U - 1 , u = 1,2 , . . . , 12 ,
中,w(u')为步骤(2.1.3.1.3.2)得到的对数值序列,表示第u'个余弦分量,Mu为第u个MFCC参数,(M1,M2,…,M12)构成12阶MFCC参数;
步骤(2.1.3.2),对步骤(2.1.3.1.1)至步骤(2.1.3.1.3)得到的声学特征参数按下式进行归一化处理:
f new = f source - min ( F source ) max ( F source ) - min ( F source )
其中,fnew是归一化处理后的包括ZCR、Mu、yi在内的各声学特征参数,fsource是归一化处理之前的声学特征参数,Fsource为同一维度i的未处理时的声学特征参数集合;
步骤(2.1.3.3),按下式计算每个语音对应的清晰度ATLh
ATL h = C a + c 0 ZCR + &Sigma; i = 1 21 b i B ri + &Sigma; u = 1 12 m u M u
其中Ca为常值,取值为Ca=0.9027,c0为参数ZCR的系数,取值为c0=-0.0585,Bri表示第i维Bark频带能量比率参数,Bri=yi,bi为参数Bri的系数,取值分别为b9=0.0648,b10=0.0312,b12=0.0834,b13=-0.0493,b14=-0.0950,b16=-0.1663,b19=-0.0711,b20=-0.1178,b21=-0.1143,Mu表示第u维MFCC参数,mu为参数Mu的系数,取值分别为m1=-0.2620,m4=0.0525,m5=-0.1337,m8=0.0525,m11=-0.0330,其余bi=0以及mu=0, h表示测试项的索引,h=1,2,…,H,H为测试项总数,取H=20;
步骤(2.1.3.4),按以下步骤得到声母必测词表:
步骤(2.1.3.4.1),设定每一个所述声母语音文件为一类,Sh'={Xh'},其中Sh'为第h'个分类,Xh'为第h'个声母语音的特征参数向量;
步骤(2.1.3.4.2),把H'个分类中欧氏距离最近的向量与类归并为一个子类,构成欧式距离最近的向量声母语音的集合;
步骤(2.1.3.4.3),分别计算步骤(2.1.3.4.2)得到的各个集合内所有向量的平均值,作为该集合的中心向量,再计算任何两个所述声母语音集合的中心向量的欧氏距离作为任意两个所述声母语音集合的距离;
步骤(2.1.3.4.4),重复步骤(2.1.3.4.2)和步骤(2.1.3.4.3),直到只剩下一个子类;
步骤(2.1.3.4.5),根据步骤(2.1.3.4.4)得到的结果构造一棵叶子节点为21个声母语音的聚类树,最终把声母语音分成八类:
第一类声母语音为b, d, f, 分类频率为19.60%,分类个数为4,
第二类声母语音为p, t, ch, 分类频率为7.26%,分类个数为1,
第三类声母语音为g, k, h, 分类频率为11.75%,分类个数为2,
第四类声母语音为j, q, x, 分类频率为14.95%,分类个数为3,
第五类声母语音为z, c, s, 分类频率为5.24%,分类个数为1,
第六类声母语音为l, m. n, r, 分类频率为13.90%,分类个数为3,
第七类声母语音为zh, sh, 分类频率为14.84%,分类个数为3,
第八类声母语音为零声母, 分类频率为12.45%,分类个数为3,
分类频率为该声母子类在口语中出现频次占上述所有声母分类在口语中出现的总频次的百分比,分类个数为以单个必测词表测试项总数H=20为例,将该测试总数乘以分类的频率然后四舍五入得到的该分类在词表中的个数,零声母是指,在汉语普通话中只由一个韵母组成的音节,由于该音节没有声母,声学上将该类音节的声母称之为零声母;
步骤(2.1.4),依次按照以下步骤在听感上对韵母语音进行分类:
步骤(2.1.4.1),对步骤(2.1.2)得到的每个韵母语音文件,选择时序上位于每个韵母语音文件上韵母总时长的1/6、3/6、5/6三个时刻的语音帧,按如下步骤计算生成三条LPC谱曲线,每个韵母语音文件均有三条线性预测LPC谱曲线:
步骤(2.1.4.1.1),对每个韵母语音帧按下式进行预加重处理:
s(k')=x(k')-0.94x(k'-1)
其中,k'为韵母语音采样信号的索引,x(k')为原始韵母语音文件中第k'个韵母语音采样信号的幅值,x(k')为预加重处理后的韵母语音信号幅值;
   步骤(2.1.4.1.2),对步骤(2.1.4.1.1)预加重处理得到的韵母语音信号采用如下汉明窗进行加窗处理:
W ( m ) = 0.54 - 0.46 cos 2 &pi;m M - 1 , 0 &le; m &le; M - 1
其中M为预先指定的窗长,W(m)为第m个窗序列值,m为窗序列的索引,m=0,1,…,M-1,取M=256,
加窗处理公式为:
z ( m ) = &Sigma; k = - &infin; + &infin; s ( k &prime; ) W ( m - k &prime; )
其中,s(k')为步骤(2.1.4.1.1)得到的语音,W(m-k')为汉明窗的第m-k'个值,z(m)为加窗处理后的语音;
步骤(2.1.4.1.3),对步骤(2.1.4.1.2)得到的语音信号z(m),按如下方程组计算指定阶数为P的P个LPC系数,P的取值范围为15≤P≤60且P为整数,本例中取P=40:
r ( p ) = &Sigma; m = 0 P - 1 - p z ( m ) z ( m + p ) ,p=0,1,2,…,P,则有
&epsiv; P = r ( 0 ) - &Sigma; p = 1 P &alpha; p r ( p )
其中,z(m)z(m+p)表示两个时域信号的乘积,r(p)是中间变量,εP为实际信号与线性预测信号的最小均方误差,αp为第p个LPC系数,p为LPC系数的索引,且p=1,2,…,P,(α12,…,αp)即为所求的P个LPC系数;
步骤(2.1.4.1.4),按步骤(2.1.3.1.1)计算由步骤(2.1.4.1.3)得到的LPC系数(α12,…,αp)的FFT能量谱,该能量谱对应的曲线即为LPC谱曲线;
步骤(2.1.4.2),对于每条所述的LPC谱线,以500Hz,1000Hz,2000Hz为中心,分别计算[450,550]、[950,1050]和[1950,2050]三个频率段内LPC谱曲线的积分,由此得到一个九维特征向量,作为韵母的特征向量;
步骤(2.1.4.3),对所有的韵母语音文件执行步骤(2.1.4.1)到步骤(2.1.4.2),各九维特征向量之间的欧氏距离为韵母语音感知距离;
步骤(2.1.4.4),把步骤(2.1.4.3)的结果聚成一个韵母语音的聚类树,把韵母语音分成八类:
第一类韵母语音为o, ou, ong, iong, er, uo, 分类频率为11.70%,分类个数为2,
第二类韵母语音为ia, iao, iang, ai, an, üan, eng, uan, 分类频率为16.37%,分类个数为3,
第三类韵母语音为a, ao, ang, ua, uang, uai, 分类频率为11.27%,分类个数为2,
第四类韵母语音为en, iu, ui, uen, 分类频率为9.40%,分类个数为2,
第五类韵母语音为i, in, ing, ie, ian, ei, ün, 分类频率为28.53%,分类个数为6,
第六类韵母语音为ü, üe, 分类频率为2.81%,分类个数为1,
第七类韵母语音为u, 分类频率为7.11%,分类个数为1,
第八类韵母语音为e, 分类频率为12.38%,分类个数为3;
步骤(2.1.5),设定:所述汉语普通话言语测听动态词表中音位q的出现频率与口语交流中去除轻声音节之后的声韵调的统计频率相同,为fq,按如下步骤计算每个声母语音分类、韵母语音分类及声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数:
步骤(2.1.5.1),按如下公式计算每个声母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
n S a = H &times; &Sigma; q 1 &Element; S a f q 1 , a = 1,2 , . . . , 8 ,
其中q1为声母音位,为q1的统计频率,Sa为第a类声母音位集合,a为声母类的索引,为声母类Sb在所述汉语普通话言语测听动态词表中的实际分配个数,H为测试项总数;
步骤(2.1.5.2),按如下公式计算每个韵母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
n S b = H &times; &Sigma; q 2 &Element; S b f q 2 , b = 1,2 , . . . , 8
其中q2为韵母音位,为q2的统计频率,Sb为第b类韵母音位集合,b为声母类的索引,为韵母类Sb在所述汉语普通话言语测听动态词表中的实际分配个数;
步骤(2.1.5.3),按如下公式计算每个声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
n S c = H &times; &Sigma; q 3 &Element; S c f q 3 , c = 1,2,3,4
其中q3为声调音位,为q3的统计频率,Sc为第c类声调音位集合,c为声调类的索引,为声调类Sc在所述汉语普通话言语测听动态词表中的实际分配个数,
综合起来,各声母、韵母及声调的分类、分类频率及实际分配个数如表1、表2和表3所示;
声母分类 声母 分类频率 分类个数(N=20)
第一类 b,d,f 19.60% 4
第二类 p,t,ch 7.26% 1
第三类 g,k,h 11.75% 2
第四类 j,q,x 14.95% 3
第五类 z,c,s 5.24% 1
第六类 l,m,n,r 13.90% 3
第七类 zh,sh 14.84% 3
第八类 零声母 12.45% 3
表1
韵母分类 韵母 分类频率 分类个数(N=20)
第一类 o, ou, ong, iong, er, uo 11.70% 2
第二类 ia, iao, iang, ai, an, üan, eng, uan 16.37% 3
第三类 a, ao, ang, ua, uang, uai 11.27% 2
第四类 en, iu, ui, uen 9.40% 2
第五类 i, in, ing, ie, ian, ei, ün 28.53% 6
第六类 ü, üe 2.81% 1
第七类 u 7.11% 1
第八类 e 12.38% 3
表2
声调 频率 个数(N=20)
阴平 18.71% 4
阳平 19.37% 4
上声 17.51% 4
去声 35.78% 8
表3
步骤(2.1.6),根据步骤(2.1.5)中的声母语音、韵母语音及声调语音的分类及各类的实际分配个数搭配组词编制成所述设定长度的必测词表;
步骤(2.1.7),按下式计算所述必测词表的清晰度ATL_TB:
ATL _ TB = &Sigma; h = 1 H ATL h
并按所述必测词表清晰度ATL_TB调整词表项,使各个语音文件所对应的必测词表的清晰度相等或相近,以减少各个必测词表在听感上的差异,步骤如下:
步骤(2.1.7.1),计算步骤(2.1.7)生成的所有所述必测词表的词表清晰度的平均值ATL_TBmean及标准差ATL_TBSD
ATL _ TB mean = 1 Q &Sigma; q = 1 Q ATL _ TB q
ATL _ TB SD = 1 Q &Sigma; q = 1 Q ( ATL _ TB q - ATL _ TB mean ) 2
其中,q表示所述必测词表的索引,q=1,2,…,Q,Q为所制定的所述必测词表的总张数, ATL_TBq为第q张所述必测词表的清晰度;
步骤(2.1.7.2),设定:步骤(2.1.7.1)中各必测词表与词表清晰度平均值ATL_TBmean之差的绝对值的阈值Δ(ATL_TB)≤0.1:
Δ(ATL_TB)=|ATL_TB-ATL_TBmean|;
步骤(2.1.7.3),把步骤(2.1.7.1)中各必测词表的清晰度ATL_TB与ATL_TBmean进行比较,若Δ(ATL_TB)≤0.1,则可不必对该词表进行调整,否则:
若ATL_TB<ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较小语音测试项,
若ATL_TB>ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较大语音测试项;
步骤(2.1.7.4),按以下方式对步骤(2.1.7.3)中被删去的项进行替代:
若ATL_TB<ATL_TBmean,则用清晰度大于所述删去项且由和该删去项的相同声母、同类韵母项搭配组成的项代替,
若ATL_TB>ATL_TBmean,则用清晰度小于所述删去项且由与该被删去项相同声母、同类韵母搭配组成的项代替;
步骤(2.1.7.5),重复执行步骤(2.1.7.4)直至步骤(2.1.7.4)中的各必测词表的清晰度ATL_TB与ATL_TBmean之差的绝对值小于预先设定的阈值Δ(ATL_TB)≤0.1为止,从而组成一个有多个等价的言语测听动态词表的言语测听系统;
步骤(2.2),不定长度的隐含词表是当受试者对必测词表项听辨错误时所选择的补充测试项的集合,其中,两者的声母语音属于同一个声母语音分类,韵母语音也属于同一韵母语音分类,共同组成隐含词表同质项;
步骤(3),测试者在一个隔音房间中对被测试者进行言语测听,由计算机随机播放测试项,用听力计对音强进行调节。
汉语言语测听系统是按照如下测试步骤测听的:
步骤(1),选择一个必测词表,并固定播放声强;
步骤(2),若必测词表中的所有测试项都已被测试过,则转步骤(4),否则选择该必测词表中未被测试的一个测试项播放,并标记该测试项为已测试;
步骤(3),受试者对上述测试项进行反馈,测试员记录反馈结果,反馈结果包括听辨正误及该测试项是属于必测词表项还是隐含词表项,下同:
步骤(3.1),若受试者听辨正确,则记录反馈结果,转步骤(2);
步骤(3.2),若受试者听辨错误,则从隐含词表中选择同一声母分类的另一声母和同一韵母分类的另一韵母搭配的测试项(即隐含词表同质项)继续进行测试并记录反馈结果,直至所有同质项中听辨正确项与错误项的比例不等于1:1为止,则转步骤(2);
步骤(4),测试结束;
步骤(5),此次测试的识别率结果计算方法如下:
步骤(5.1),若必测项答对,则该项得分为1;
步骤(5.2),若必测项答错,且隐含项连续两次都答对,则该项得分为α;
步骤(5.3),若必测项答错,隐含项第一项答错或隐含项一对一错,则该项得分为-β;
步骤(5.4),测试最终得分由必测词表项和隐含词表项的听辨结果共同决定,最终得分为F=p+rα-(q-r)β,其中p为必测项听辨正确的总次数,q为出现要使用隐含词表的总次数,r为出现步骤(5.2)情况的次数,且p与q之和为必测词表项的总和,如p=10,q=10,r=4,则此次得分为F=10+4α-6β。
表4为一个动态词表的必测词表的设计实例。
汉字 声母 韵母 声调
d ong 阴平
b a 上声
f ei 去声
d i 上声
p iao 阴平
g uei 去声
k e 去声
j üan 上声
q iong 阳平
x iu 去声
c i 阳平
l e 去声
m in 阳平
r e 去声
zh uan 阴平
sh i 阳平
sh u 阴平
0 ie 上声
0 ua 去声
0 üe 去声
表4

Claims (1)

1.一种基于汉语言语测听动态词表的汉语言语自动测听方法,其特征在于,是在一个汉语言语测听系统中依次按以下步骤实现的:
步骤(1),构建一个包括中央处理器、鼠标、键盘、图形显示器、外存设备和听力计的汉语言语测听系统,所述中央处理器的各输入端分别与所述键盘、鼠标及听力计的输出端相连,所述听力计的输入端与扬声器的输出端相连,所述中央处理器的各其他输出/输入端与图形显示器和外存设备分别互连;
步骤(2),在所述中央处理器中,依次按以下步骤构造一个汉语普通话言语测听动态词表,其中包括一个指定长度的必测词表和一个不定长度的隐含词表:
步骤(2.1),依次按以下步骤构造一个所述的指定长度的必测词表:
步骤(2.1.1),选择测试文件方式的测试项,每个所述测试项在汉语口语交流中出现的频次都排名在前2000以内,所述测试项的集合要覆盖汉语普通话所有声韵调的组合,并为每个所述测试项录制成一个相应语音文件;
步骤(2.1.2),对步骤(2.1.1)得到的语音文件分别标注每个音节中声母和韵母的起始位置,并把声母部分的语音信号重新存储为一个声母语音文件,把韵母部分的语音信号重新存储为一个韵母语音文件;
步骤(2.1.3),依次按以下步骤在听感上对声母进行分类:
步骤(2.1.3.1),按以下步骤从步骤(2.1.2)得到的声母语音文件中提取如下所述声学特征参数:声母过零率参数ZCR、声母MFCC参数M以及声母Bark频带能量比率参数Br,所述的ZCR,M及Br是按照以下步骤得到的:
步骤(2.1.3.1.1),所述的声母过零率参数ZCR按以下公式计算:
ZCR = 1 2 K &Sigma; k = 2 K | sgn ( x ( k ) ) - sgn ( x ( k - 1 ) ) | ,
其中K为声母时域语音信号采样点个数,k为声母时域语音信号采样点的索引,k=2,3,...,K,x(k)为第k个声母时域语音信号采样值,sgn(x(k))表示取x(k)的符号,x(k)为正数时取1,x(k)为负数时取-1,否则取0,ZCR为声母过零率参数;
步骤(2.1.3.1.2),所述的声母Bark频带能量比率参数Br按以下步骤得到:
步骤(2.1.3.1.2.1),把声母语音信号分帧、加窗后按下列公式求声母FFT能量谱:
F [ n ] = &Sigma; k = 0 K 2 - 1 ( x [ k ] + ( - 1 ) m ) x [ k + K 2 ] e - j 2 &pi;nk K ,
F [ 2 n &prime; ] = &Sigma; k = 0 K 2 - 1 ( x [ k ] + x [ k + K 2 ] ) e - j 2 &pi; n &prime; k K / 2 ,
F [ 2 n &prime; + 1 ] = &Sigma; k = 0 K 2 - 1 ( x [ k ] + x [ k + K 2 ] ) e - j 2 &pi;k K e - j 2 &pi; n &prime; k K / 2 ,
其中,K为声母时域语音信号采样点个数,k为声母时域语音信号采样点的索引,k=0,1,...,K-1,x(k)为第k个声母时域语音信号采样值,n为声母频域信号的索引,计算中声母频域信号总数与时域信号总数相同,n=0,1,...,K-1,j为频数单位,e为自然对数的底,为谐波频率,为第n次谐波序列,F[n]为转换后的第n个FFT频域值,取其幅值的对数值作为FFT能量值,所有FFT能量值组成该声母语音信号的FFT能量谱,F[2n']为偶数项频域值,F[2n'+1]为奇数项频域值,
步骤(2.1.3.1.2.2),令x1,x2,...,x21分别为所述声学FFT能量谱中,每一个Bark频带i的累计能量分量和,共有21个,i=1,2,...,21;
步骤(2.1.3.1.2.3),按下式计算频带i的累计能量分量和占全部频带能量的比例yi
y i = x i / &Sigma; j = 1 21 x j , j = 1,2 , . . . , 21 ,
步骤(2.1.3.1.2.4),令yi=y1,y2,...,yi,...,y21,得到以y1,y2,...,y21作为声母的21维Bark频带能量比率参数;
步骤(2.1.3.1.3),声母MFCC参数M按以下步骤得到:
步骤(2.1.3.1.3.1),按步骤(2.1.3.1.2.1)对声母语音信号做FFT变换,得到FFT变换后的频谱,计算该频谱的幅值的平方,得到离散的功率谱;
步骤(2.1.3.1.3.2),采用如下三角滤波器组在频域内对步骤(2.1.3.1.3.1)得到的离散的功率谱进行带通滤波,并将滤波后的结果取对数:
T u ( v ) = 0 , v < f ( u - 1 ) 2 ( v - f ( u - 1 ) ) ( f ( u + 1 ) - f ( u - 1 ) ) ( f ( u ) - f ( u - 1 ) ) , f ( u - 1 ) &le; v &le; f ( u ) 2 ( f ( u + 1 ) - v ) ( f ( u + 1 ) - f ( u - 1 ) ) ( f ( u + 1 ) - f ( u ) ) , f ( u ) &le; v &le; f ( u + 1 ) 0 , v &GreaterEqual; f ( u + 1 ) ,
其中f(u)为第u个频带的中心频率,u为频带的索引,u=0,1,...,U-1,U为频带总数,取U=24,v为离散频率分量值,v=0,1,...,Tu(v)为第u个频带对应的滤波器组对频率v的频率响应;
步骤(2.1.3.1.3.3),将步骤(2.1.3.1.3.2)得到的结果通过以下离散余弦变换DCT公式计算,得到12阶的MFCC系数M:
M u = &Sigma; u &prime; = 0 U - 1 w ( u &prime; ) cos [ &pi; ( u - 1 ) ( u &prime; - 0.5 ) U ] , u &prime; = 0,1 , . . . , U - 1 , u = 1,2 , . . . , 12 ,
其中,w(u')为步骤(2.1.3.1.3.2)得到的对数值序列,表示第u'个余弦分量,Mu为第u个MFCC参数,(M1,M2,...,M12)构成12阶MFCC参数;
步骤(2.1.3.2),对步骤(2.1.3.1.1)至步骤(2.1.3.1.3)得到的声学特征参数按下式进行归一化处理:
f new = f source - min ( F source ) max ( F source ) - min ( F source ) ,
其中,fnew是归一化处理后的包括ZCR、Mu、yi在内的各声学特征参数,fsource是归一化处理之前的声学特征参数,Fsource为同一维度i的未处理时的声学特征参数集合;
步骤(2.1.3.3),按下式计算每个语音对应的清晰度ATLh
ATL h = C a + c 0 ZCR + &Sigma; i = 1 21 b i B ri + &Sigma; u = 1 12 m u M u ,
其中Ca为常值,取值为Ca=0.9027,c0为参数ZCR的系数,取值为c0=-0.0585,Bri表示第i维Bark频带能量比率参数,Bri=yi,bi为参数Bri的系数,取值分别为b9=0.0648,b10=0.0312,b12=0.0834,b13=-0.0493,b14=-0.0950,b16=-0.1663,b19=-0.0711,b20=-0.1178,b21=-0.1143,Mu表示第u维MFCC参数,mu为参数Mu的系数,取值分别为m1=-0.2620,m4=0.0525,m5=-0.1337,m8=0.0525,m11=-0.0330,其余bi=0以及mu=0,h表示测试项的索引,h=1,2,...,H,H为测试项总数,取H=20;
步骤(2.1.3.4),按以下步骤得到声母必测词表:
步骤(2.1.3.4.1),设定每一个所述声母语音文件为一类,Sh'={Xh'},其中Sh'为第h'个分类,Xh'为第h'个声母语音的特征参数向量;
步骤(2.1.3.4.2),把H'个分类中欧氏距离最近的向量与类归并为一个子类,构成欧式距离最近的向量声母语音的集合;
步骤(2.1.3.4.3),分别计算步骤(2.1.3.4.2)得到的各个集合内所有向量的平均值,作为该集合的中心向量,再计算任何两个所述声母语音集合的中心向量的欧氏距离作为任意两个所述声母语音集合的距离;
步骤(2.1.3.4.4),重复步骤(2.1.3.4.2)和步骤(2.1.3.4.3),直到只剩下一个子类;
步骤(2.1.3.4.5),根据步骤(2.1.3.4.4)得到的结果构造一棵叶子节点为21个声母语音的聚类树,最终把声母语音分成八类:
第一类声母语音为b,d,f,分类频率为19.60%,分类个数为4,
第二类声母语音为p,t,ch,分类频率为7.26%,分类个数为1,
第三类声母语音为g,k,h,分类频率为11.75%,分类个数为2,
第四类声母语音为j,q,x,分类频率为14.95%,分类个数为3,
第五类声母语音为z,c,s,分类频率为5.24%,分类个数为1,
第六类声母语音为l,m.n,r,分类频率为13.90%,分类个数为3,
第七类声母语音为zh,sh,分类频率为14.84%,分类个数为3,
第八类声母语音为零声母,分类频率为12.45%,分类个数为3,
分类频率为该声母子类在口语中出现频次占上述所有声母分类在口语中出现的总频次的百分比,分类个数为以单个必测词表测试项总数H=20为例,将该测试总数乘以分类的频率然后四舍五入得到的该分类在词表中的个数,零声母是指,在汉语普通话中只由一个韵母组成的音节,由于该音节没有声母,声学上将该类音节的声母称之为零声母;
步骤(2.1.4),依次按照以下步骤在听感上对韵母语音进行分类:
步骤(2.1.4.1),对步骤(2.1.2)得到的每个韵母语音文件,选择时序上位于每个韵母语音文件上韵母总时长的1/6、3/6、5/6三个时刻的语音帧,按如下步骤计算生成三条LPC谱曲线,每个韵母语音文件均有三条线性预测LPC谱曲线:
步骤(2.1.4.1.1),对每个韵母语音帧按下式进行预加重处理:
s(k')=x(k')-0.94x(k'-1)
其中,k'为韵母语音采样信号的索引,x(k')为原始韵母语音文件中第k'个韵母语音采样信号的幅值,s(k')为预加重处理后的韵母语音信号幅值;
步骤(2.1.4.1.2),对步骤(2.1.4.1.1)预加重处理得到的韵母语音信号采用如下汉明窗进行加窗处理:
W ( m ) = 0.54 - 0.46 cos 2 &pi;m M - 1 , 0 &le; m &le; M - 1 ,
其中M为预先指定的窗长,W(m)为第m个窗序列值,m为窗序列的索引,m=0,1,...,M-1,
加窗处理公式为:
z ( m ) = &Sigma; k = - &infin; + &infin; s ( k &prime; ) W ( m - k &prime; )
其中,s(k')为步骤(2.1.4.1.1)得到的语音,W(m-k')为汉明窗的第m-k'个值,z(m)为加窗处理后的语音;
步骤(2.1.4.1.3),对步骤(2.1.4.1.2)得到的语音信号z(m),按如下方程组计算指定阶数为P的P个LPC系数,P的取值范围为15≤P≤60且P为整数:
r ( p ) = &Sigma; m = 0 P - 1 - p z ( m ) z ( m + p ) , p = 0,1,2 , . . . , P , 则有
&epsiv; P = r ( 0 ) - &Sigma; p = 1 P &alpha; p r ( p ) ,
其中,z(m)z(m+p)表示两个时域信号的乘积,r(p)是中间变量,εP为实际信号与线性预测信号的最小均方误差,αp为第p个LPC系数,p为LPC系数的索引,且p=1,2,...,P,(α12,...,αP)即为所求的P个LPC系数;
步骤(2.1.4.1.4),按步骤(2.1.3.1.1)计算由步骤(2.1.4.1.3)得到的LPC系数(α12,...,αp)的FFT能量谱,该能量谱对应的曲线即为LPC谱曲线;
步骤(2.1.4.2),对于每条所述的LPC谱线,以500Hz,1000Hz,2000Hz为中心,分别计算[450,550]、[950,1050]和[1950,2050]三个频率段内LPC谱曲线的积分,由此得到一个九维特征向量,作为韵母的特征向量;
步骤(2.1.4.3),对所有的韵母语音文件执行步骤(2.1.4.1)到步骤(2.1.4.2),各九维特征向量之间的欧氏距离为韵母语音感知距离;
步骤(2.1.4.4),把步骤(2.1.4.3)的结果聚成一个韵母语音的聚类树,把韵母语音分成八类:
第一类韵母语音为o,ou,ong,iong,er,uo,分类频率为11.70%,分类个数为2,
第二类韵母语音为ia,iao,iang,ai,an,üan,eng,uan,分类频率为16.37%,分类个数为3,
第三类韵母语音为a,ao,ang,ua,uang,uai,分类频率为11.27%,分类个数为2,
第四类韵母语音为en,iu,ui,uen,分类频率为9.40%,分类个数为2,
第五类韵母语音为i,in,ing,ie,ian,ei,ün,分类频率为28.53%,分类个数为6,
第六类韵母语音为ü,üe,分类频率为2.81%,分类个数为1,
第七类韵母语音为u,分类频率为7.11%,分类个数为1,
第八类韵母语音为e,分类频率为12.38%,分类个数为3;
步骤(2.1.5),设定:所述汉语普通话言语测听动态词表中音位q的出现频率与口语交流中去除轻声音节之后的声韵调的统计频率相同,为fq,按如下步骤计算每个声母语音分类、韵母语音分类及声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数:
步骤(2.1.5.1),按如下公式计算每个声母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
其中q1为声母音位,为q1的统计频率,Sa为第a类声母音位集合,a为声母类的索引,为声母类Sa在所述汉语普通话言语测听动态词表中的实际分配个数,H为测试项总数;
步骤(2.1.5.2),按如下公式计算每个韵母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
n S b = H &times; &Sigma; q 2 &Element; S b f q 2 , b = 1,2 , . . . , 8 ,
其中q2为韵母音位,为q2的统计频率,Sb为第b类韵母音位集合,b为声母类的索引,为韵母类Sb在所述汉语普通话言语测听动态词表中的实际分配个数;
步骤(2.1.5.3),按如下公式计算每个声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数
n S c = H &times; &Sigma; q 3 &Element; S c f q 3 , c = 1,2,3,4 ,
其中q3为声调音位,为q3的统计频率,Sc为第c类声调音位集合,c为声调类的索引,为声调类Sc在所述汉语普通话言语测听动态词表中的实际分配个数;
步骤(2.1.6),根据步骤(2.1.5)中的声母语音、韵母语音及声调语音的分类及各类的实际分配个数搭配组词编制成设定长度的必测词表;
步骤(2.1.7),按下式计算所述必测词表的清晰度ATL_TB:
ATL _ TB = &Sigma; h = 1 H ATL h ,
并按所述必测词表清晰度ATL_TB调整词表项,使各个语音文件所对应的必测词表的清晰度相等或相近,以减少各个必测词表在听感上的差异,步骤如下:
步骤(2.1.7.1),计算步骤(2.1.7)生成的所有所述必测词表的词表清晰度的平均值ATL_TBmean及标准差ATL_TBSD
ATL _ TB mean = 1 Q &Sigma; q = 1 Q ATL _ TB q
ATL _ TB SD = 1 Q &Sigma; q = 1 Q ( ATL _ TB q - ATL _ TB mean ) 2
其中,q表示所述必测词表的索引,q=1,2,...,Q,Q为所制定的所述必测词表的总张数,ATL_TBq为第q张所述必测词表的清晰度;
步骤(2.1.7.2),设定:步骤(2.1.7.1)中各必测词表与词表清晰度平均值ATL_TBmean之差的绝对值的阈值Δ(ATL_TB)≤0.1:
Δ(ATL_TB)=|ATL_TB-ATL_TBmean|;
步骤(2.1.7.3),把步骤(2.1.7.1)中各必测词表的清晰度ATL_TB与ATL_TBmean进行比较,若Δ(ATL_TB)≤0.1,则可不必对该词表进行调整,否则:
若ATL_TB<ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较小语音测试项,
若ATL_TB>ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较大语音测试项;
步骤(2.1.7.4),按以下方式对步骤(2.1.7.3)中被删去的项进行替代:
若ATL_TB<ATL_TBmean,则用清晰度大于所述删去项且由和该删去项的相同声母、同类韵母项搭配组成的项代替,
若ATL_TB>ATL_TBmean,则用清晰度小于所述删去项且由与该被删去项相同声母、同类韵母搭配组成的项代替;
步骤(2.1.7.5),重复执行步骤(2.1.7.4)直至步骤(2.1.7.4)中的各必测词表的清晰度ATL_TB与ATL_TBmean之差的绝对值小于预先设定的阈值Δ(ATL_TB)≤0.1为止,从而组成一个有多个等价的言语测听动态词表的言语测听系统;
步骤(2.2),不定长度的隐含词表是当受试者对必测词表项听辨错误时所选择的补充测试项的集合,其中,两者的声母语音属于同一个声母语音分类,韵母语音也属于同一韵母语音分类,共同组成隐含词表同质项;
步骤(3),测试者在一个隔音房间中对被测试者进行言语测听,由计算机随机播放测试项,用听力计对音强进行调节。
CN201210549152.8A 2012-12-17 2012-12-17 一种基于汉语言语测听动态词表的汉语言语自动测听方法 Active CN103054586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210549152.8A CN103054586B (zh) 2012-12-17 2012-12-17 一种基于汉语言语测听动态词表的汉语言语自动测听方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210549152.8A CN103054586B (zh) 2012-12-17 2012-12-17 一种基于汉语言语测听动态词表的汉语言语自动测听方法

Publications (2)

Publication Number Publication Date
CN103054586A CN103054586A (zh) 2013-04-24
CN103054586B true CN103054586B (zh) 2014-07-23

Family

ID=48097708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210549152.8A Active CN103054586B (zh) 2012-12-17 2012-12-17 一种基于汉语言语测听动态词表的汉语言语自动测听方法

Country Status (1)

Country Link
CN (1) CN103054586B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106859660B (zh) * 2017-02-10 2019-11-08 清华大学 一种闭合式言语测听词表的设计方法与应用
CN110610695B (zh) * 2018-05-28 2022-05-17 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN109327785B (zh) * 2018-10-09 2020-10-20 北京大学 一种基于言语测听的助听增益适配方法及设备
CN111883169B (zh) * 2019-12-12 2021-11-23 马上消费金融股份有限公司 一种音频文件切割位置处理方法及装置
CN111667838B (zh) * 2020-06-22 2022-10-14 清华大学 一种用于声纹识别的低功耗模拟域特征向量提取方法
CN112002304B (zh) * 2020-08-27 2024-03-29 上海添力网络科技有限公司 语音合成方法及装置
CN112426150A (zh) * 2020-12-04 2021-03-02 湖南省医疗器械检验检测所 一种多功能听力计及其相应的用于验配助听器的方法
CN113286243A (zh) * 2021-04-29 2021-08-20 佛山博智医疗科技有限公司 一种自测言语识别的纠错系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0938069A (ja) * 1995-08-02 1997-02-10 Nippon Telegr & Teleph Corp <Ntt> 語音聴力検査方法およびこの方法を実施する装置
CN101246685A (zh) * 2008-03-17 2008-08-20 清华大学 计算机辅助语言学习系统中的发音质量评价方法
CN102112051A (zh) * 2008-12-22 2011-06-29 松下电器产业株式会社 语音清晰度评价系统、其方法以及其计算机程序
CN102202570A (zh) * 2009-07-03 2011-09-28 松下电器产业株式会社 语音清晰度评价系统、其方法以及其程序

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102781321B (zh) * 2010-06-11 2015-04-08 松下电器产业株式会社 听力判定系统及其方法
WO2011155196A1 (ja) * 2010-06-11 2011-12-15 パナソニック株式会社 語音聴取の評価システム、その方法およびそのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0938069A (ja) * 1995-08-02 1997-02-10 Nippon Telegr & Teleph Corp <Ntt> 語音聴力検査方法およびこの方法を実施する装置
CN101246685A (zh) * 2008-03-17 2008-08-20 清华大学 计算机辅助语言学习系统中的发音质量评价方法
CN102112051A (zh) * 2008-12-22 2011-06-29 松下电器产业株式会社 语音清晰度评价系统、其方法以及其计算机程序
CN102202570A (zh) * 2009-07-03 2011-09-28 松下电器产业株式会社 语音清晰度评价系统、其方法以及其程序

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
任竹等.关键词识别中置信度评估方法的研究.《第七届和谐人机环境联合学术会议(HHME2011)论文集[poster]》.2011,第320-326页. *
任竹等.关键词识别中置信度评估方法的研究.《第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】》.2011,第320-326页.
基于LPC 谱的汉语韵母感知度量的研究;黄高扬等;《第九届中国语音学学术会议论文集》;20100528;第767-771 *
田业等.汉语普通话声调增强算法的研究.《第十一届全国人机语音通讯学术会议论文集(一)》.2011,第188-194页. *
贾珈等.汉语声母感知清晰度计算方法的探讨.《第十届中国语音学学术会议(PCC2012)论文集》.2012, *
黄高扬等.基于LPC 谱的汉语韵母感知度量的研究.《第九届中国语音学学术会议论文集》.2010,第767-771.
黄高扬等.计算机辅助汉语言语测听软件的研究与实现.《第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集》.2009,第192-197页. *

Also Published As

Publication number Publication date
CN103054586A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN103054586B (zh) 一种基于汉语言语测听动态词表的汉语言语自动测听方法
Sroka et al. Human and machine consonant recognition
v. Latoszek et al. A meta-analysis: acoustic measurement of roughness and breathiness
Phatak et al. Consonant confusions in white noise
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
CN109147765A (zh) 音频质量综合评测方法及系统
CN106997765B (zh) 人声音色的定量表征方法
Yin et al. Automatic cognitive load detection from speech features
Matveev The problem of voice template aging in speaker recognition systems
Gontier et al. Estimation of the perceived time of presence of sources in urban acoustic environments using deep learning techniques
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN103258537A (zh) 利用特征结合对语音情感进行识别的方法及其装置
Wang Detecting pronunciation errors in spoken English tests based on multifeature fusion algorithm
CN107910019B (zh) 一种人体声音信号处理及分析方法
Sen et al. Objective evaluation of speech signal quality by the prediction of multiple foreground diagnostic acceptability measure attributes
Zwan et al. System for automatic singing voice recognition
CN112233693B (zh) 一种音质评估方法、装置和设备
CN114678039A (zh) 一种基于深度学习的歌唱评价方法
CN114302301A (zh) 频响校正方法及相关产品
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
CN111210845A (zh) 一种基于改进自相关特征的病理语音检测装置
Tesic et al. An experimental study on the phase importance in digital processing of speech signal
Apandi et al. An analysis of Malay language emotional speech corpus for emotion recognition system
Yao et al. Estimation of vocal tract parameters for the classification of speech under stress

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant