CN1042790A

CN1042790A - 认人与不认人实时语音识别的方法和装置

Info

Publication number: CN1042790A
Application number: CN88107791A
Authority: CN
Inventors: 俞铁城; 毕宁; 荣美玲; 张恩耀
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 1988-11-16
Filing date: 1988-11-16
Publication date: 1990-06-06
Also published as: MY104270A; CN1013525B; US5056150A; GB8925873D0; GB2225142A

Abstract

一种认人与不认人实时语音识别的方法和装置，属于语音识别领域。其基本方法是：提取语音信号的频谱变化量为参数，并将其在时域上作平滑和非线性规正，得到时域上等长的语音特征参数矢量；对每一桢语音特征参数矢量做二值化处理或做幅值规正；语音特征参数矢量经优化生成按时间顺序排列的子码书序列作为语音参考样本。以这种方法设计的语音识别装置，不仅可用于认人识别，也可用于不认人识别。

Description

本发明属于语音识别领域，涉及一种用于快速和准确地识别各种语音的方法和装置。现有的语音识别系统绝大部分是用高速运算器件（如TMS320系列）来开发并实现的，这主要是由于这些系统采用了线性预测（LPC）参数及动态规划（DP）等运算量极大的方案，使得只有借助高速运算器件才能实现实时处理。另一类系统采用滤波器组各通道的能量作为参数桢序列，如北方电信有限公司的专利“语音识别”（专利申请号：CN86100298A）和清华大学的专利“一种语音特征的提取和识别方法”（专利申请号：CN85100083A），它虽然避免了提取谱参数的大量运算，但在待测音与基准样型音的匹配识别方法上，或用动态时间卷曲（DTW）、或用所谓特征分块识别方案，前者所需运算量依旧很大，后者将语音在时序上的信息量模糊过甚，实际上类似于不适用于语音识别的长时谱参数。抗噪音能力的强弱是检验一个语音识别系统性能的重要标准，由于LPC和倒谱等参数对频谱的变化很敏感，故以上述参数为基础的识别系统在背景噪音较高时误识别次数明显增多。现有的识别系统一般均要求使用者发音规范、平稳，自由度较小，这造成语音识别系统使用不便，增加了使用者的心理负担。究其原因，主要是设计者采用了线性时域压缩、以时长判定字数或不完善的DP方案。作为参考样本的语音码本所占用的体积，决定了系统可能的字表大小、也在一定程度上影响着系统的实时性能。如北京祥云电脑公司的一套语音识别系统，一个语音码本占用4K字内存，字表大小仅限于50左右。

本发明的目的是提供一种识别精度高、实时性能强、可扩字表大、抗噪音能力强、发音自由度大和可多人共用一套参考样本，即不认人识别的语音识别方法和装置。

图1为用于识别语音的装置和方法：

（Ⅰ）原始语音参数提取：

原始语音参数提取利用将语音信号转化为一系列原始语谱参数桢的装置。原始语音参数桢序列可根据需要选用以下形式的参数：带通滤波器组各通道的能量输出、频谱斜率或变化量参数、Bark刻度或Mel刻度的倒谱参数、以及LPC参数等。采样周期以10～20毫秒为宜。本发明采用的是带通滤波器各通道的能量输出和频谱变化量参数，其中频谱变化量参数指的是带通滤波器组相信通道能量的差值。

（Ⅱ）语音始、终点判定

依据原始语音参数提取（Ⅰ）所提供的一系列参数桢来判定语音始、终点的装置。由全通或接近全通的C网络通道的能量超过某个阈值，如20分贝，并持续了一定的时间，如200毫秒，则判定一个音开始;由该通道的能量连续低于某个阈值，如25分贝，并达到一定的时间，如250毫秒，则判定一个音结束。如当原始语音参数桢序列的采样周期为10毫秒、量化精度为8比特，可将判定语音始、终点的时间阈值分别定为20桢和25桢，将能量阈值分别定为30和37。上述的时间和能量阈值均可根据使用该设备时的背景噪音情况而重新设定，背景噪音大时可提高阈值。

（Ⅲ）语音特征参数提取

语音特征参数提取是从原始语音参数提取（Ⅰ）和语音始、终点判定（Ⅱ）所提供的原始语音参数桢序列中，运用进一步优化了的声刺激量非线性时域规正方法，提取用于建立语音参考样本和匹配识别的语音特征参数矢量的装置。利用声刺激量参数对原始语音参数桢序列进行非线性时域规正的目的，是充分强调过渡音段的重要性、压缩掉元音的稳态部分，以获得在时域上等长的语音特征参数矢量序列。这样可以减少必须存贮的信息量并避免繁复的DP运算以大大提高识别速度。方法如下：若在T_i时刻的原始语音参数桢为B（T_i）＝｛A_i，l…A_i，j，…A_i，L｝，A_i，j表示L维语音参数矢量的一个分量，则将其在时域上做30毫秒光滑得到B′（T_i）＝｛P_i，l，…P_i，j，…P_i，L｝，P_ij表示光滑后的L维语音参数矢量的分量，其中P_ij＝ 1/4 A_{（i-l），j}+ 1/2 A_i，j+ 1/4 A_{（i+l），j}。定义在T_i时刻的声刺激量为：

δ_{i} = Σ_{j = 1}^{L} {｜P}_{i , j} - P_{(i - 1) , j} ｜

= \frac{1}{4} Σ_{j = 1}^{L} {｜A}_{(i + 1) , j} + A_{i , j} - A_{(i - 1 ) , j} -A_{(i - 2 ) , j} ｜。

当采样精度为8比特时，若上式中｜P_i，j-P_{（i-l），j}｜≤2，则令其为零。若一段语音的采样桢数为N，则该段语音的总声刺激量便是

△ = Σ_{i = 1}^{N} δ_{i} 。

若要选出M个参数桢矢量来标征这段语音，即将该段语音规正为M桢长，则可定义平均声刺激量（ △）为：

△＝Δ/（M+1）。

以 △作为选谱阈值，确定M个语音特征参数桢矢量的方法如下：

（1）声刺激量累加器（W）置零：W＝0;

（2）顺序取下一个声刺激量δ_i，加进声刺激量累加器W＝W+δ_i;

（3）如果W≥ △，则选中此第i桢，转往（5）;

（4）否则，不选此第i桢，转往（2）;

（5）将选中的第i桢矢量赋以选中桢序号m，声刺激量累加器减少 △：W＝W- △;

（6）检查是否已选中M桢矢量，即m≥M;若是，则结束;否则，转往（3）。

语音特征参数桢矢量的个数M一般选为20左右，可根据字表内容的音节数目做适当调整，约为音节数的4～6倍。

（Ⅳ）语音特征参数幅值的量化规正

对语音特征参数（Ⅲ）所提供的语音特征参数矢量进行幅值量化规正的装置。为了进一步压缩必须存贮的信息量，也为了克服说话声音大小和距话筒远近所造成的输入信号能量的差别，我们对特征参数矢量的幅值进行量化规正。量化精度可根据需要选为1-8比特。1比特量化法如下：

对于经非线性时域规正的语音特征参数桢C（i）＝｛P_i，l，P_i，2，…P_i，L｝，可求得它的平均值 P_i = 1/(L)

P_i(j)值对该参数桢的各分量进行1比特量化：

以频谱变化量为参数时，根据下式进行1比特量化：

当量化精度选为8比特时，对每桢谱进行幅值规正，即

{P ′}_{i , j} = \frac{P_{i j}}{{max ｛P}_{i , j} ｝} ·2551≤j≤ L

利用规正后的特征参数去识别，减少了由于话音电平的大小不同所造成的误识别次数。

（Ⅴ）语音参考样本的优化

经过以上步骤，已生成了用于认人识别的等长的语音特征参数矢量序列。进行不认人语音识别时，还需对上述特征参数矢量再优化，以建立不依赖于特定使用人的语音参考样本。具体方法和步骤如下：

（1）由多个发音人念字表多遍，对于每一次发音均用上述（Ⅰ）～（Ⅳ）步骤进行时域和能域规正。字表中的每个项目均被分桢处理，即字表中同一个项目的多次发音，按在语音特征参数桢序列上的顺序，被分别生成一个子码书序列。由此序列所构成的码书，是严格按照时间顺序排列的。

（2）每个子码书由小到大地生成，每次增大1。由N个码字构成的码书B_N生成N+1个码字的码书B_N+1的方法是：由B_N中具有多于2个成员的码字中选出平均距离最大的那个码字，作微扰产生两个初始中心，其余不变。对N+1个初始中心进行聚类循环得到B_N+1。

（3）对于偶然发生的空白子空间，我们将其消去，采用（2）中的办法补生成一个码字。

另外，在码书生成过程中，可考虑将男女声或不同语系的语音样本分别各自生成一个子码书序列，识别时再将其合并使用。试验测试证明此方法优于将所有语音一起生成一个子码书序列，提高了识别准确率。

这些步骤也可用于优化认人识别系统的语音参考样本。

（Ⅵ）待测音与参考样本之差距的计量

用于将一个未知语音特征参数矢量序列与参考样本相比较，并确定哪个参考样本与之最相匹配的装置。

在认人语音识别系统中，当字表大小为N，每个语音特征参数桢序列的桢数为M，每个参数桢的分量数为L时，可用下式表示语音参考样本：

j＝1，2，…L，

R^（k）＝｛r′_i，j ^（k）｝，i＝1，2，…M，

k＝1，2，…N。

用X表示待识别语音样本：

j＝1，2，…L，

X＝｛x′_i，j｝ i＝1，2，…M。

当参数精度为1比特时，用Hamming距离计量待识别语音和参考样本之间的差距：

d^(k)=

Σ_{i = 1}^{M} Σ_{i = 1}^{L}

(x′_i,_j

r′_i,_j ^(k)),k=1,2,…N。

其中“ ”为异或运算。该种运算较之乘法或加法运算节省很多运算时间。当用2～8比特量化参数矢量时，用city-block距离或欧氏距离计量差距，即：

d^{(k )} = Σ_{i = 1}^{M} Σ_{j = 1}^{L} {｜x ′}_{i , j} - r ′_{i , j}^{(k )} ｜, k = 1,2,…N;

{或 d}^{(k )} = Σ_{i = 1}^{M} Σ_{j = 1}^{L} {(x ′}_{i, j} - r ′_{i , j}^{(k )})^{2}, k = 1,2,…N 。

用最小距离原则判定识别结果，即将待测语音判为第n项，如果d^（n）≤d（k），k＝1，2，…N。

在不认人语音识别系统中，每个参考样本都是由一个码书所表示，该码书之严格按时间顺序排列的每个子码书均包含V个码字。将待测语音特征参数矢量与参考样本的子码书序列比较时，选择与待测音参数矢量最相似的码字为准，来累计待测音与参考样本的相似度。其余与认人识别过程相同。

（Ⅶ）待测语音音节数的判定

用于判定未知语音音节数目的装置。判定未知语音的音节数主要依据声刺激量的变化情况，设

δ^{1}_{i} = Σ_{j = 1}^{L} {(P}_{i , j} - P_{(i - 1) , j})

，当δ¹ _i连续8桢以上为负值，或

Σ_{i = L_{1}}^{L_{1}} {δ :}_{i}

连续8组以上为负值，则判定一个音节结束。以上参数可根据采样率和呼音的速度作相应的调整。

（Ⅷ）识别结果判决

利用（Ⅵ）和（Ⅶ）所提供的结果，再加上离散度阈值的限定，用于判定最终识别结果的装置。如果待测语音与字表中的第n₁项最相匹配，与第n₂项次最相匹配，即有差距参数

d (n_{1}) \leq d (n_{1}) \leq d (k), k = 1,2, \cdot \cdot \cdot N,

K≠n₁，n₂

则定义离散度为

\frac{d^{(n_{1})} - d^{(n_{1})}}{d^{(n_{1})}}

，其阈值一般定为0.1。如果离散度小于该阈值，则拒绝识别。如果大于或等于该阈值，则看第n₁项的字数是否与字数判定装置所给出的结果基本相符。若是，则输出识别结果;若否，则考虑第n₂项;如此推移，直至得到识别结果。

一种用于将语音信号转化为一系列原始语谱参数桢的装置-语音信号预处理器。其工作原理如图2所示的方框图。

语音信号通过传声器变成电信号，电信号经高低频提升、放大、带通滤波、RMS检波和16路模拟开关，至A/D变换器（参见图2）。至此，完成了原始语音数字能谱的采集过程。

（1）传声器：完成声-电变换工作。

（2）高低频提升：对语音信号中的高频成份加权，以克服辅音信息较弱的现象，有助于加强本装置对辅音的敏感程度，为了改善识别系统对女声的识别率，除高频提升外，在低频端也作了提升，图4是它的频率特性曲线。

（3）放大器：根据所用A/D变换器的最大容许输入动态范围和所用传声器的灵敏度来选定恰当的放大量。充分利用A/D变换器的输入动态范围，有利于后端的语音数字信号处理，

（4）滤波器：共17路。其中16路是窄带通滤波器，1路是宽带通滤波器。窄带通滤波器的中心频率在200～6300Hz之间按1/3倍频程划分，用于提取语谱信号;宽带通滤波器的带宽是窄带通滤波器的总和，用于音量显示。

（5）RMS检波器：完成对模拟信号的如下运算：

RMS = \sqrt{\frac{1}{T} {&Integral;}_{0}^{T} {[f (t)]}^{2} dt}

从而得到语音信号在各通道的能量值。

（6）A/D变换器：将模拟信号变为数字信号。

（7）接口：完成语音信号预处理器与后端数字信号处理部分的连接，并完成后端对A/D采样控制的传递工作。

（8）音量显示：由比较电路和7列电平显示器组成，供用户监视和控制自己的发音音量。可根据音量显示随时调正放大器的放大倍数。

本发明所构成的认人和不认人语音识别方法和设备所具备的优点在于：

对于认人语音识别系统具有：

（1）实时处理能力强：将原来需要大量的乘法和加法运算的过程，改为仅需异或运算的过程。使得既使不用高速数字处理器件也能实现2000字表大小的实时处理。

（2）识别率高，一般字表（200条口令）时，正确识别率达99%。

（3）占用存贮量小：识别执行运算匹配部分仅2KB，每条语音样本30字节。

（4）抗噪音能力强：在噪声较大的环境下也能正常工作。

（5）发音自由度大：对发音的速度和音量无十分严格的要求，允许一定程度上的非线性发音。

对于不认人语音识别系统具有：

（1）实时性能强：字表大小为200时能够实时处理。

（2）识别率高：用包括“0-9”十字数字的31条口令测试时，参与训练者的正确识别率为99%，未参与训练者的正确识别率为95%。

其它特点与认人语音识别系统相同。

本发明可应用于军事口令指挥，工业语音自动控制、声控文献检索以及汉字语音输入等领域。它适用于任何自然语言的声控装置。

图1是认人与不认人语音识别方框图。

图2是提取原始语音参数装置的方框图。它包含了十六个通道带通滤波器和检波器，以及相应的放大器，跟随器、缓冲器、高低频提升、A/D转换器及其接口。还包括了用于检测音量的宽带滤波器、衰减器、检波器、缓冲器和音量显示。

图3是语音信号预处理器的局部电路图。它由集成块A₁，A₂，电阻R₁至R₈以及电容C₁至C₃所组成的高低频提升电路。

图4是高低频提升电路的频率特性曲线。

Claims

1、一种认人与不认人的语音识别方法，其特征在于：

a.将语音信号转化为一系列原始语谱参数桢；

b.判定语音的始、终点；

c.运用进一步优化了的声刺激量非线性时域规正来提取用于建立语音参数样本和匹配识别的语音特征参数矢量，以获得在时域上等长的语音特征参数矢量序列；

d.对语音特征参数矢量进行幅值量化规正；

e.对特征参数矢量再优化；

f.比较待测语音特征参数矢量序列与参考样本，从而确定哪一个参考样本与之最相匹配；

g.根据声刺激量的变化，判定语音音节数目；

h.判定识别结果。

2、按照权利要求1所说的方法，其特征在于所说的语谱参数是包括有频谱斜率或变化量参数。

3、按照权利要求1所说的方法，其特征在于所说的语音特征参数矢量，在进行非线性时域规正时，需要将其在时域上做30毫秒的光滑处理，其中

δ_{i} = \frac{1}{4} Σ_{j = 1}^{L} {｜A}_{(i + 1) j} + A_{i j} - A_{(i - 1) j} - A_{( i - 2 ) j} ｜ 。

4、按照权利要求1所说的方法，其特征在于所说的对特征参数矢量优化所产生的码书序列是严格按照时间顺序排列的。

5、按照权利要求1所说的方法，其特征在于所说的对特征参数矢量优化，是包括了在码书生成过程中，采用将男女声或不同语系的语音样本分别各自生成一个子码书序列，识别时再将其合并使用。

6、按照权利要求1所说的方法，其特征在于所说的待测语音特征参数矢量序列与参考样本的最相匹配是指在参考样本子码书中选择与待测音最相似的码字为准来累计待测音与参考样本的相似度。

7、一种适用于权利要求1所述方法的装置，其特征在于采用了由集成块A₁，A₂，电阻R₁至R₈以及电容C₁至C₃所组成的高低频提升电路。