CN1123863C

CN1123863C - 基于语音识别的信息校核方法

Info

Publication number: CN1123863C
Application number: CN00130298A
Authority: CN
Inventors: 刘加; 单翼翔; 刘润生
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2000-11-10
Filing date: 2000-11-10
Publication date: 2003-10-08
Anticipated expiration: 2020-11-10
Also published as: CN1293428A

Abstract

本发明属于语音技术领域，涉及基于语音识别的信息校核方法。包括：非特定人语音识别模型的预先训练、语音信号的端点检测、语音识别参数提取、基于多子树三元词对文法的帧同步束搜索Viterbi语音识别方法、语音识别置信测度与拒识模型、非特定人语音识别模型的说话人自适应学习、语音提示。本发明的基于语音识别的信息校核方法具有识别率高、稳健性好等特点。构成的语音识别系统可以用于信息查询、语音命令识别、学习机，以及生产环节的控制系统中。

Description

基于语音识别的信息校核方法

技术领域本发明属于语音技术领域，尤其涉及采用大词表非特定人语音识别技术用于信息校核、查询以及命令控制的方法。

背景技术目前邮政服务系统中，邮包信息校核过程采用大量的人力，通过人工对邮包进行校核。其校核过程为：(1)首先将邮包根据一定的车次或运送方向进行分类。(2)从计算机中输出相应的邮包信息校核单。(3)通过人工将每件邮包上信息与校核单上的邮包的信息进行校核。校核信息为邮包起始邮局名、邮包到达邮局名、邮包编号、邮包种类等。通过校核确保所有邮包没有在运输过程中出现丢包或多包。丢包为校核单上有该邮包，而实际上该邮包不存在；多包为校核单上没有该邮包，而实际上该邮包存在。根据校核情况还要对丢包、多包情况进行特殊处理。对丢包的需要追回；对多包的需要根据包上信息确认是运送错误，还是校核单漏掉该包。如果是运送错误要将错误邮包退回前面的发送站。由于在主要的邮政中转局，每天发送、接收的邮包达到几百万包以上的数量，因此人工校核过程非常繁重和劳累，而且易于出错。

语音识别技术逐步成熟，已经能够用于工业系统信息校核、查询、控制。在国外一些订票系统、信息查询系统、电话服务系统已经开始使用语音识别技术。语音识别为人机交互提供最有效、最便捷的工具。

发明内容本发明的目的是为克服已有技术的不足之处，提出一种基于语音识别的信息校核方法。将语音识别技术用于信息校核系统，具有劳动效率高、校核精度高，以及劳动强度小等特点。

本发明提出的一种基于语音识别的信息校核方法，包括语音信号的端点检测及语音识别参数提取、非特定人语音识别模型的预先训练、非特定人语音识别、语音识别置信测度与拒识模型、语音识别置信测度与拒识模型、非特定人语音识别的说话人自适应学习、语音识别词条的生成、语音提示各部分，其特征在于，各部分具体包括以下步骤：

A、语音信号的端点检测及语音识别参数提取：

(1)语音信号通过计算机的声卡A/D进行采样成为原始数字语音信号；

(2)对所说的原始数字语音信号进行频谱整形及分帧加窗处理，以保证分帧语音的准平稳性；

(3)使用语音信号的短时能量、波形走势特征进行端点检测，去除无声区的语音帧，以保证各帧语音特征的有效性；

(4)对分帧加窗处理后的语音信号进行语音(识别)特征提取；

B、非特定人语音识别模型的预先训练：

(1)预先采集大量的语音数据，建立训练语音数据库，采集的语音与要识别的语音的语言种类相一致；

(2)从所说的数据库中的语音信号提取语音特征参数，然后在PC机上通过预先的学习过程将这些特征参数转变成识别模型的参数；识别模型采用基于音素隐含马尔柯夫模型(Hidden Markov Model，HMM)，训练的方法是根据最大似然准则，对HMM模型参数(包均值与方差)进行估值；

C、非特定人语音识别：

(1)将所说的语音特征与语音识别模型进行模式匹配，通过N-best维特比(Viterbi)帧同步束搜索算法，实时地提取前三选最好识别结果，在识别搜索过程中保留了所有有用“关键词”信息，不需要再进行回溯；

(2)输入语音信息，每校核一条该语音信息，就自动剪掉该词条对应的语音发音模板，减少搜索空间，以提高校核过程的语音识别速度与识别精度；识别过程的语言模型采用基于多子树三元词对文法；

D、语音识别置信测度与拒识模型：

在维特比(Viterbi)帧同步束搜索过程中结合置信测度与拒识模型的计算；通过判定识别语音的置信度的大小，确定是否接受或拒识该语音识别结果，同时拒掉在操作过程的无关语音；

E、非特定人语音识别的说话人自适应学习：

采用说话人自适应方法对识别模型进行调整；所说的自适应方法采用最大后验概率方法，通过迭代方法逐步修正识别模板参数；

F、语音识别词条的生成：

根据需要校核的数据文本信息，借助发音字典自动生成要识别词条的语音发音模板；输入的语音信息与这些发音模板信息通过所说的非特定人语音识别进行比较；发音字典由识别词汇汉字与对应的汉语拼音构成，预先存放在计算机中；

G、语音提示：

采用语音合成技术进行语音提示，语音合成模型参数分析提取过程在计算机上通过预先处理后完成，并存储在计算机的硬盘中用于语音合成，语音合成模型使用码激励语音编码模型；语音提示用于回放识别结果，若回放语音与输入语音一致，则表示识别结果正确；若不一致，则要求使用者读入语音命令，重新进行该语音命令的识别。

所说的语音信号的端点检测及语音识别参数提取特征可采用结合语音/噪声最大似然判决器与波形走势判决器的检测方法；语音识别特征参数提取是根据人耳的听觉特性计算出来的一种特征矢量，即MFCC(Mel-Frequency Cepstrum Coefficients)参数。

所说的非特定人语音识别模型的预先训练特征可采用分三步逐步细化训练HMM模型方法，模型参数包括均值、协方差矩阵、混合高斯加权系数。

所说的非特定人语音识别可采用了多子树三元词对文法的帧同步束搜索方法。在识别搜索过程中保留了字串的所有有用信息，不需要再进行回溯，可以实时地提取前三选最好识别结果。

所说语音识别置信测度与拒识模型可采用基于整词置信测度估值方法以及在线的垃圾模型作为无关语音的拒识模型，提高了识别模型的稳健性，吸收了无关语音与噪声。

所说的非特定人语音识别的说话人自适应学习可采用基于最大后验概率的自适应方法，通过迭代分别对语音识别参数进行调整，使模型之间鉴别测度保持最大鉴别性。

所说语音识别词条的生成可采用基于多子树三元词对文法的结构，根据要校核的文本信息生成对应的语音词条发音模板，语音词条发音模板是以音素为基本单元组成的树状模板。

本发明提出并采用一种基于大词汇量、非特定人、稳健、连续语音识别技术通过语音对信息进行校核的方法。利用该方法可以构成一个基于语音识别的信息校核软件系统。该校核系统可以在计算机上实现实时操作。该系统的软件模块包括通过声卡的语音数据采样，语音信号的端点检测及语音识别参数提取，非特定人语音识别，置信测度与拒识模型，说话人自适应，语音提示。校核系统的输出为前三选的最好识别结果。操作过程与识别结果都有语音提示。

本发明具有如下优点：

(1)本发明为基于PC机的大词汇量非特定人连续语音识别方法。这些方法具有识别精度高、稳健性好、系统资源开销小等特点；

(2)考虑到系统的实用性，在识别算法中增加置信测度与拒识模型，增加了说话人自适应方法；

(3)采用基于音素语音识别模型，使系统可以方便的通过文本文件增加语音识别词条，不需要重新训练识别系统；

(4)使用语音信号的短时能量、波形走势等特征进行端点检测，提高语音信号的端点检测的精确性；

(5)采用基于多子树三元词对文法，结合帧同步束搜索的剪枝方法，能够保证很高的识别率；

(6)模型中增加了稳健语音识别方法，能够针对信道失真自动调整识别参数。

(7)本发明的基于语音识别的信息校核方法不仅可以用于邮包信息的校核，而且能够应用于铁路、航空、电信、医药等领域中的信息校核与语音查询系统中，成为各种信息系统中不可缺少的重要工具之一。

附图说明

图1为本发明实施例语音/噪声最大似然判决器估值模型示意图。

图2为本发明实施例端点检测判决器对不同噪声抗干扰示意图。

图3本发明实施例基于语音识别HMM模型拓扑结构。

图4为本发明实施例多子树三元词对文法结构图。

图5为本实施例的识别词条树状语音模型结构。

图6为本实施例系统整体框图。

具体实施方式本发明结合基于语音识别的邮包信息校核实施例进行详细说明，本发明实施例整个方法构成可以分为(1)A/D采样及采样后语音的预加重，提高高频信号的能量，并进行加窗分帧处理；(2)端点检测，确定有效的语音参数；(3)语音特征参数的提取；(4)采用帧同步束搜索Viterbi剪枝算法对识别模板进行比较，并将最佳的语音识别结果输出。每个步骤的细节说明如下。

1、端点检测：

(1)语音信号通过麦克风进入计算机的声卡，然后通过16-位线性A/D进行采样，成为原始的数字语音。采样频率为16kHz。

(2)对原始数字语音信号进行频谱整形及分帧加窗(采用哈明窗)处理，保证分帧语音的准平稳性。其中帧长为32ms，帧移为16ms，预加重滤波器取为H(z)＝1-0.98z^-1。

(3)端点检测方法由语音/噪声最大似然判决器与波形走势判决器组成。本实施例的语音/噪声最大似然判决器和波形走势判决器详细说明如下：

A、语音/噪声最大似然判决器：

最大似然判决器的工作原理如图1所示。其中s(n)为输入干净的原始语音信号。h(n)为由于信道引入的失真函数。d(n)为输入的加性噪声。y(n)为真实接收到的语音信号。判决方法根据公式(1)来计算：

\log (σ_{ey}) + \frac{{(e_{ty} - μ_{ey})}^{2}}{{2 σ}_{ey}^{2}} < \log (σ_{ed}) + \frac{{(e_{ty} - μ_{ed})}^{2}}{{2 σ}_{ed}^{2}} - - - (1)

若公式(1)条件满足，则输入信号为语音和噪声之和，反之，输入的信号为噪声。公式(1)即为语音/噪声最大似然判决器。其中e_ty为信号y(n)的能量。μ_ed为噪声能量的均值，它可以通过对输入信号的几个初始帧估计得出，并且随着对噪声帧的增加同时不断地更新。

μ_{ed} = E [\frac{1}{K_{s}} \cdot Σ_{n = 1}^{K_{s}} d_{t} (n) \cdot d_{t} (n)] = \frac{1}{K_{s}} \cdot Σ_{n = 1}^{K_{S}} E [d_{t}^{2} (n)] - - - (2)

同噪声的均值估值方法相类似，噪声能量的方差σ_ed ²的估值方法为：

σ_{ed}^{2} = D [\frac{1}{K_{s}} \cdot Σ_{n = 1}^{K_{s}} d_{t} (n) \cdot d_{t} (n)] = \frac{1}{K_{s}^{2}} \cdot Σ_{n = 1}^{K_{s}} (E [d_{t}^{4} (n)] - {(E [d_{t}^{2} (n)])}^{2}) - - - (3)

B、波形走势判决器：

为了提高起终点判决的文件性，本发明实施例还利用到语音信号的波形特点。人们声道的运动是有惯性的，任何语音信号的变化都有一个渐变过程，不会出现类似于冲击响应的波形；而对于信道上的机械声或信道噪声来说，其形状往往类似于冲击响应或者是没有渐变过程。如果不考虑语音信号的波形特点，很难把它们区分开来。在起终点检测方法中将波形的走势与前面的最大似然判决方法结合起来，取得很好的试验结果。如果连续三帧的能量(e_t-2，e_t-1，e_t)满足公式(1)，那么就计算t帧后连续5帧的平均能量：

\overset{&OverBar;}{e_{5}} = (e_{t + 1} + e_{t + 2} + e_{t + 3} + e_{t + 4} + e_{t + 5}) / 5 - - - (4)

如果：

\overset{&OverBar;}{e_{5}} &GreaterEqual; e_{t - 2} + e_{t - 1} + e_{t}

则从认为已经检测到语音信号的起点，否则，继续检测起点。该检测方法称为波形走势(WT，Waveform Tendency)判决器。

结合两种端点检测方法后，可以有效地去除图2中出现的两种主要的干扰噪声。其中(a)为平稳的噪声，(b)为突发性噪声。

2、语音识别特征参数提取：

(1)语音的短时频域特征能精确描述语音的变化。MEL频率倒谱系数(Mel-Frequency Cepstrum Coefficients-MFCC)是根据人耳的听觉特性计算出来的一种特征矢量，MFCC是建立在富立叶频谱分析基础上的。

(2)MFCC的计算方法为：首先根据MEL频率把信号频谱等分成若干个带通组，其带通的频率响应是三角形或正弦形的。然后计算相应滤波器组的信号能量，再通过离散余弦变换计算对应倒谱系数。MFCC特征主要反映语音的静态特征，语音信号的动态特征可以用静态特征的一阶差分谱和二阶差分谱来描述。这些动态信息和静态信息相互补充，能很大程度提高语音识别的性能。整个语音特征用MFCC参数、MFCC差分系数、归一化能量系数及其差分系数来构成。

3、非特定人语音识别模板的训练：

(1)隐含马尔柯夫模型(HMM)是目前最成熟最有效的语音识别算法。HMM从左向右的状态转移模型，它能很好的描叙了语音发音特点。本实施例采用的模型为3状态隐含马尔柯夫模型。其结构如图3所示。其中q_i表示HMM的状态。a_ij表示HMM的跳转概率。b_j(O_t)为HMM模型的状态输出的多流混合高斯密度概率分布函数。如公式(5)所示。

b_{j} (O_{t}) = Π_{s = 1}^{S} {[Σ_{m = 1}^{M_{S}} C_{jsm} N (O_{st}; μ_{jsm}; φ_{jsm})]}^{γ_{s}} - - - (5)

其中S是数据的流数，M_s是每一数据流中的混合高斯密度分布的个数；N为高维高斯分布：

N (o; μ; φ) = \frac{1}{\sqrt{{(2 π)}^{n} | φ |}} e^{- \frac{1}{2} (o - μ) φ^{- 1} (o - μ)} - - - (6)

(2)HMM模型采用三步逐步细化的训练方法

A.首先，使用孤立字的语音数据，采用改进分段K平均算法，对识别模型进行初始化，对内部状态进行初步分割，然后用Viterbi算法对分割的状态进行迭代调整，通常迭代10左右就可以完成。

B.对每个初始化模型利用Baum-Welch算法进行再估值，通过此次训练能得到较精确HMM模型参数。

C.嵌套的模型细化训练：应用大量语音数据根据训练语句标号文件将语音子模型构成复合模型进行细化训练，通过此步之后就可以得到精致的HMM模型参数。

4、非特定人语音识别：

(1)本实施例采用多子树三元词对文法帧同步束搜索方法。多子树三元词对文法结构如图4所示。其中第一，第二子树为要识别的邮包起始与终点地名。第三子树为要识别的邮包编号。该搜索算法属于广度优先搜索算法，每识别到新的一帧，就要对所有可能的候选路径的匹配距离进行比较和排序，保留前面的若干条较好的路径作为活跃路径，将其它路径剪除，然后继续进行下一帧语音的识别，这就是所谓的“剪枝”处理。根据计算机的硬件条件(存储空间、运算速度等)保持一定数量的活跃路径，活跃路径K_ActBeam一般在几十条到数百条之间，故称为“束搜索”算法。

(2)结合多子树三元词对文法模型，本实施例的语音识别方法采用计算模型为：

\hat{R} = \arg {\min_{(A, W)} [\log P (O / A) + \log P (A / W)]}

= \arg {\min_{(A, W)} {Σ_{m = 1}^{M} {[Σ_{t = d_{m - ty} + 1}^{d_{m_{C}}} \log P (O_{t} / C_{m})] + [Σ_{t = d_{m_{C}} + 1}^{d_{m_{V}}} \log P (O_{t} / V_{m})]} - - - (7)

+ Σ_{i = 1}^{N_{W}} Σ_{m = 1}^{M} [\log P (C_{m} / w_{i}) + \log P (V_{m} / w_{i}) + \log P (T_{m} / w_{i})]}}

其中P(·)为概率。O是语音的特征矢量。A是语音发音模型，也就是HMM模型。C_m是声母发音模型。V_m是韵母发音模型。T_m是语调模型。W是有词序列。M是全音节的个数，M为408。N_w为要识别识别词的数量。P(A/W)模糊发音模型。

(3)搜索流程如下：

A.语音帧号nFrameNo＝0时，初始化所有路径结构：

1)辅音类路径CactBeam的初始化：由于搜索是从发送站子树开始展开的，所以CactBeam要按照发送站子树第一层的所有辅音节点进行初始化，则初始化的辅音类路径数目CactBeamNum为发送站子树第一层的辅音节点数，具体的初始化操作如下：

for(BeamNo＝0；BeamNo＜CactBeamNum；BeamNo++){

NodeNum设为1；

WordList[0]设为对应的辅音半音节序号；

WordState[0]设为0，即该节点对应发送站子树；

CurNode设为相应节点在发送站子树中的序号；

CheckSum设为对应的辅音半音节序号；

按公式(5)计算初始距离Dist[0]；

其它结构项目前没有意义，设为0或-1或无穷大(实际上是一个足够大的数)。

2)元音类路径VactBeam的初始化：由于汉字是辅音一元音结构，搜索都是从辅音开始的，所以VactBeam的各个结构项目前没有意义，根据其各自的意义分别设为0或-1或无穷大(实际上是一个足够大的数)。初始化的元音类路径数目VactBeamNum为K_VTone＝1254。

B.当开始对第nFrameNo帧语音进行识别前，先根据剪枝策略决定是否改变活跃路径的数目，即CactBeamNum和VactBeamNum的值。

C.对CactBeam和VactBeam中的所有活跃路径做第t帧语音内的Viterbi匹配，字内不允许状态跳越。

D.利用三元词对文法检查上一帧语音生成的可跳转路径HeadTail是否合理，根据跳转的位置采用相应的语法信息：

1)如果跳转发生在子树内部，则主要根据对应跳转弧上计数器的值决定是否跳转：若计数器值大于0，可以跳转；否则不能跳转。

2)如果跳转发生在发送站子树与接收站子树之间，则根据语法关系数组OutInRelation中的相关信息判断是否跳转。

3)如果跳转发生在接收站子树与邮包编号子树之间，则根据语法关系数组Relation中的相关信息判断是否跳转。

根据判断，如果可以跳转，则执行第E步，否则执行第G步。

E.路径跳转处理：

1)CurNoce对应的半音节进入WordList；

2)如果CurNode是某个子树(发送站子树、接收站子树或邮包编号子树)的一个叶子节点，则其对应的子树词条序号进入OutInCodeNo；

3)跳转后路径的累积匹配距离Dist等于跳转前路径的累积距离加上前面第(3)步计算出的距离之和；

4)对跳转路径的其它结构项进行相应处理，生成新的路径；

5)对路径结构队列进行插入修改：

a)若路径结构队列中已经有此路径，则留下距离小的；

b)若路径结构队列中无此路径，则根据其积累距离及已有活跃路径数决定是否插入。

F.检查当前的活跃路径是否可以向新的单元跳转，为下一帧语音的处理做好准备。跳转条件是该路径是否到达半音节的最后一个状态，具体方法是检测Dist[STATENUM]是否更新过。如果可以跳转，则将该路径存入跳转路径结构HeadTail，否则执行第G步。

G.若nFrameNo＝FRAMENUM(输入语音的总帧数)，执行第H步；否则nFrameNo++，执行第B步。

H.将以元音结尾的活跃路径VactBeam进行排序，将最优的若干条路径输出作为识别结果；同时在识别结果得到确认后，对相应的语法信息进行修改，为识别下一句语音输入做好准备。

5、语音识别置信测度与拒识模型：

(1)置信测度的估值在语音识别中有很重要的作用。本实施例采用基于词置信测度似然比估值方法。通过在线的垃圾模型构成拒识模型，进行置信测度的估值。利用通过判定识别语音的置信程度确定是否接受识别结果；

(2)利用N个侯选词表中所包含的有用信息，在识别过程中建立在线垃圾模型，将每一帧N侯选词表的似然度的某种平均值作为在线垃圾模型的似然度。若语音段O＝{o₁，...，o_t，..，o_T}对应的第一候选结果为模型W¹，对应的第n选结果为模型串{W_t ⁿ}_{t＝1，2，...，T}，则n选结果的t帧得分

S_{t}^{n} = \log (P (o_{t} | W_{t}^{n}))

。此时的似然比检验为：

LLR (O) = \log P (O / W^{1}) - \frac{1}{N - 1} \log Σ_{n = 2}^{N} P (O / W^{n})

\approx Σ_{t = 1}^{T} S_{t}^{1} - \frac{1}{N - 1} Σ_{n = 2}^{N} Σ_{t = 1}^{T} S_{t}^{n} - - - (8)

= LL (O, W^{1}) - \frac{1}{N - 1} Σ_{n = 2}^{N} Σ_{t = 1}^{T} LL (o_{t}, W_{t}^{n})

(3)在本实施例中，N为3。通过置信测度与拒识模型，识别模型能够拒掉95％的非相关语音噪声与其它噪声。

6、说话人语音识别模型的自适应：

(1)本实施例采用基于最大后验概率(Maximum a posteriori，MAP)的方法，利用Bayes学习理论，将非特定人的识别码本作为先验信息与被适应人的信息相结合实现自适应。MAP算法基于以下准则：

{\hat{θ}}_{i} = \underset{θ_{i}}{\arg \max} P (θ_{i} | χ) - - - (9)

其中x为训练样本，θ_i为第i个语音模型的参数，

为模型参数的Bayes估计值。

MAP算法的优点在于，该算法基于最大后验概率准则，具有理论上的最优性。

(2)公式(9)可以得到HMM模型均值参数重估公式：

\overset{&RightArrow;}{μ} = \frac{Σ_{t = 1}^{T} γ (t) {\overset{&RightArrow;}{x}}_{t} + τ \overset{&RightArrow;}{m}}{Σ_{t = 1}^{T} γ (t) + τ} - - - (10)

通过重新估值语音特征矢量分布的状态序列就可以得到γ(t)的估值。先验参数

与τ很难获得其理论估计值，因此本发明设置先验参数

为非特定人语音识别模型的均值矢量，先验参数τ＝4.0。

7、语音识别词条的构成：

(1)本实施例校核条目的在每一子树下的树状语音模型结构如图5所示。其中每一个圆圈表示一个半音节语音识别单元模型。通过音节之间的级联形成完整的语音识别词条。语音识别词条的生成过程如下：

A.从数据库读出有关文件记录；

B.将记录中简写、合并的信息条目分别展开，计算邮包的总条目；

C.根据发送站集、接收站集和邮包编号集中的音节数目统计各音节出现的次数；

D.生成发送站集的拼音文件、代码文件和树文件；

E.生成接收站集的拼音文件、代码文件和树文件；

F.生成邮包编号集的拼音文件、代码文件和树文件；

G.生成整个邮包条目集的拼音文件和代码文件；

H.统计邮包条目各部分之间的语法约束信息，并将其以数组方式存入语法信息文件。

8、语音提示处理：

(1)采用码激励LPC语音编码模型；模型参数在计算机上预先进行处理，编辑，压缩。语音编解码算法可以采用标准的ITUG.723.1方法。

(2)需要压缩的语音为4000多个邮政地名与数码串，存储的语音用于识别结果的回放。

本实施例将以上各个步骤编制成软件处理模块，综合在一起可以构成基于语音识别的邮包信息校核软件系统。整个系统的总流程框图如图6所示，包括：(1)首先将邮包校核路单数据装载到校核系统中。(2)系统自动将路单数据转换成为要识别的语音词条模板。(3)通过声卡输入语音，对语音信号进行加窗、端点检测，以及语音识别特征参数提取。(4)系统根据预先确定的功能进行判决，如果当前系统处于说话人自适应的工作状态，则自动更新的语音识别模型。如果系统处于信息校核工作状态，则进行相应的语音识别。(5)在识别的过程中，同时通过拒识模型判断识别结果的置信程度，确保系统识别结果的可靠性。(6)将语音信息与已经存入邮包信息校核系统中由校核路单数据构成的识别词条进行模式比较。对正确识别的邮包条目进行勾核，对错误识别的邮包可以重新读入语音或在相应的条目上打上标记等待后面处理。(7)识别结果采用合成语音回放反馈给用户，对于用户的语音命令，系统将自动完成校核的任务。

本实施例基于上述方法开发的基于语音识别的邮包信息校核系统，采用语音识别技术可以大大地减轻了目前邮包校核过程中的劳动强度，提高劳动效率与校核的准确性，实现无纸操作。本实施例可以识别的语音为汉语普通话与四川话。识别邮包信息为全国4000多个邮政地名，以及数码串。对汉语普通话首选识别率为97.7％，前三选识别率为99.5％。对四川话首选识别率为98％，前三选识别率为99.9％。

Claims

1、本发明提出的一种基于语音识别的信息校核方法，包括语音信号的端点检测及语音识别参数提取、非特定人语音识别模型的预先训练、非特定人语音识别、语音识别置信测度与拒识模型、非特定人语音识别的说话人自适应学习、语音识别词条的生成、语音提示各部分，具体包括以下步骤：

A、语音信号的端点检测及语音识别参数提取：

(4)对分帧加窗处理后的语音信号进行语音(识别)特征提取；

B、非特定人语音识别模型的预先训练：

(2)从所说的数据库中的语音信号提取语音特征参数，然后在PC机上通过预先的学习过程将这些特征参数转变成识别模型的参数；识别模型采用基于音素隐含马尔柯夫模型，训练的方法是根据最大似然准则，对马尔柯夫模型参数进行估值；

C、非特定人语音识别：

(2)输入语音信息，每校核一条该语音信息，就自动剪掉该词条对应的语音发音模板，减少搜索空间，以提高校核过程的语音识别速度与识别精度，识别过程的语言模型采用基于多子树三元词对文法；

D、语音识别置信测度与拒识模型：

在维特比(Viterbi)帧同步束搜索过程中结合置信测度与拒识模型的计算，通过判定识别语音的置信度的大小，确定是否接受或拒识该语音识别结果，同时拒掉在操作过程的无关语音；

E、非特定人语音识别的说话人自适应学习：

F、语音识别词条的生成：

根据需要校核的数据文本信息，借助发音字典自动生成要识别词条的语音发音模板，输入的语音信息与这些发音模板信息通过前面的非特定人语音识别进行比较；发音字典由识别词汇汉字与对应的汉语拼音构成，预先存放在计算机中；

G、语音提示：

2、如权利要求1所述的基于语音识别的信息校核方法，其特征在于，所说的语音信号的端点检测及语音识别参数提取采用语音/噪声最大似然判决器与波形走势判决器结合的检测方法；所说的语音识别特征参数提取是根据人耳的听觉特性计算出来的一种美尔频标倒谱参数。

3、如权利要求1所述的基于语音识别的信息校核方法，其特征在于，所说的非特定人语音识别模型的预先训练为：采用分三步逐步细化训练马尔柯夫模型方法，模型参数包括均值、协方差矩阵、混合高斯加权系数。

4、如权利要求1所述的基于语音识别的信息校核方法法，其特征在于，所说的非特定人语音识别采用了多子树三元词对文法的帧同步束搜索方法，在识别搜索过程中保留了字串的所有有用信息，不需要再进行回溯，可以实时地提取前三选最好识别结果。

5、如权利要求1所述的基于语音识别的信息校核方法，其特征在于，所说置信测度估值与拒识模型采用基于整词置信测度估值方法以及在线的垃圾模型作为无关语音的拒识模型，提高了识别模型的稳健性，吸收了无关语音与噪声。

6、如权利要求1所述的基于语音识别的信息校核方法，其特征在于，所说的非特定人语音识别的说话人自适应学习采用基于最大后验概率的自适应方法，通过迭代分别对语音识别参数进行调整，使模型之间鉴别测度保持最大鉴别性。

7、如权利要求1所述的基于语音识别的信息校核方法，其特征在于，所说语音识别词条采用基于多子树三元词对文法的结构，根据要校核的文本信息生成对应的语音词条发音模板，语音词条发音模板是以音素为基本单元组成的树状模板。