CN1538381A

CN1538381A - 语言验证方法及系统

Info

Publication number: CN1538381A
Application number: CNA031231446A
Authority: CN
Inventors: 张森嘉; 简世杰
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2003-04-17
Filing date: 2003-04-17
Publication date: 2004-10-20
Anticipated expiration: 2023-04-17
Also published as: CN1262989C

Abstract

本发明有关一种词语验证方法及系统，其首先抽取出语音信号中的特征参数向量序列，再经过语音辨识后可取得至少一候选词，依照候选词的词汇内容所对应的验证单元将该语音信号切割为对应于验证单元的语音音段，并求出这些语音音段的验证用特征参数向量序列，之后依序使用这些验证用特征参数向量序列进行验证，以产生验证分数；这个验证方法是使用语音音段所相对应验证单元的类神经网络来计算验证分数，而这个类神经网络为一多层感知，验证分数是使用验证用特征参数向量序列对比多层感知进行前馈动作求得；在合并所有语音音段验证分数以取得词语验证分数后，即可根据一预先定义好的门槛值来决定接受或拒绝该候选词。

Description

语言验证方法及系统

技术领域

本发明有关于一种词语验证方法及系统，尤指一种具有高可靠度的词语争证方法及系统，其可适用于噪音环境下。

背景技术

按，词语验证(utterance verification)技术是用于验证一段语音信号经过语音辨识蜂所得到的候选词的正确性，使系统根据验证无误的候选词加以作动。例如应用于语音拨号系统中，当系统接收到包含电话号码的语音信号时，将会辨识并验证语音信号中所包含的数字，以根据验证无误后的数字来进行拨接。

公知的词语验证技术中，最被广泛使用的方法主要包括两大类，分别为使用解译(decoding)技术来进行词语验证、以及以假说检定(hypothesistesting)为基础的词语验证方法。

请参阅图1关于公知解译技术应用于词语验证的方块图，显示自输入的语音信号51中辨识出英文单字(word)“Hi”，包含有“h”及“ai”两个部分。由于在解译技术中通常都是将“Hi”视为一个单元来考虑，因此这种解译技术所使用的参数52是以“Hi”为单元来计算，并且常使用一个以上的参数来进行验证分数的计算；包括“Hi”的声学分数(acousticscore)521、语言模型分数(language model score)522、以及词语的辨识排名资讯(N-Best informgtion)523…等。之后，透过解译器(decoder)53将上述分数结合、以计算出“Hi”的验证分数(verification score)54，最后再由比较验证分数54与预设的门槛值来决定接受或拒绝该辨识结果。其中，上述解译技术可使用例如线性验证分析(Linear Discriminative Analysis，LDA)、决策树分析(decision tree analysis)、或类神经网络(neural networks)等方法来进行。然而，由于这类方法需使用到各种不同的参数，且参数求取的复杂度较高，因此，对系统资源的要求也较高。

图2则为公知以假说检定为基础来进行词语验证的方块图，语音信号61被辨识且得到英文单字“Hi”。根据假说检定的方法，必须先把语音信号依据辨识出的词汇内容切割成对应于辨识单元(recognition unit)的语音音段(speech segment)后再加以验证。例如图1所示的单字“Hi”，即依据“Hi”的词汇内容将该语音信号切割为对应于以次词(subword)为辨识单元的语音音段，即“h”及“ai”音段。接著，分别使用次词“h”及“ai”验证模型(verification model)621，623与反向模型(anti-modcl)622，624，来对次词“h“及“ai”所对应的语音音段进行检定，以根据两两模型的机率比值来计算出“h”的检测分数631与“ai”的检测分数632。最后再由结合检测分数631，632以形成“Hi”的验证分数64，并与预设的门槛值相比较来决定接受或拒绝该辨识结果。然而，上述以假说检定为基础的验证方法必须分别为每个辨识单元建立验证模型与反向模型；且每个语音音段的验证都必须经过两次检定，将大幅增加系统负荷。

此外，上述解译方法及假说检定方法多半实施于无噪音干扰的环境，因此一旦应用在噪音环境中时，将严重影响词语验证的正确率，并降低辨识结果的可靠性，继而失去语音辨识系统的亲和力。以上均非十分理想。

发明内容

本发明的主要目的在于提供一种词语验证方法及系统，使其具有抗噪能力以适用于噪音环境中，能增进语音辨识系统在噪音环境下的可靠度以及系统的亲和性。

本发明的另一目的在于提供一种词语验证方法及系统，其对于每一验证单元仅需建立一个类神经网络，能降低系统负荷，并提高词语验证效能。

本发明的再一目的在于提供一种词语验证方法及系统，能轻易转用于各种不同应用领域的语音辨识系统上，以提高这种验证方法的可携性。

为实现上述目的，本发明提供的词语验证方法中，包含下列步骤：

(A)由一输入语音信号中抽取出一特征参数向量序列；

(B)将该特征参数向量序列输入至一语音辨识器中，并辨识出至少一候选词；

(C)依照侯选词的词汇内容所对应的验证单元将该输入语音信号切割为对应于验证单元的语音音段；

(D)使用该等语音音段所对应的验证单元的正规化参数对该等语音音段的特征参数向量序列进行正规化，以产生验证用特征参数向量序列；

(E)使用该等语音音段所相对应的验证单元的类神经网络，根据该等语音音段的验证用特征参数向量序列来计算出该等语音音段的验证分数；

(F)合并所有语音音段的验证分数，以取得一词语验证分数；以及

(G)将该词语验证分数与一预设的门槛值比较，当该词语验证分数大于该门槛值时，接受该候选词，反之则拒绝该候选词。

所述的方法，其中于步骤(D)中，该验证单元的正规化参数为一组特征参数向量的平均值及标准差，是预先统计训练语料中对应到该验证单元的语音音段的特征参数向量序列而得到。

所述的方法，其中于步骤(E)中，每一验证单元对应至一类神经网络，且该类神经网络为一多层感知。

所述的方法，其中该多层感知使用该语音音段的验证用特征参数向量序列作为输入，以一前馈动作求出序列中每一验证用特征参数向量的验证结果，并取该等验证结果的平均值为该语音音段的验证分数。

所述的方法，其中该多层感知是使用一错误回传学习演算法来缩小由该多层感知所输出的验证分数与一目标值间的均方根误差，来训练该多层感知。

所述的方法，训练对应到一个验证单元的多层感知是由输入对应到该验证单元的语音音段的验证用特征参数向量序列及非对应到该验证单元的语音音段的验证用特征参数向量序列来训练该多层感知，其中，训练所使用的语音音段若对应到该验证单元，则目标值为1，反之，则目标值为0。

所述的方法，步骤(F)是取所有语音音段的验证分数的平均值为该词语验证分数。

所述的方法，该输入语音信号为一受噪音干扰的语音信号。

所述的方法，该些为训练所使用的语音音段为受噪音干扰的语音音段。

本发明提供的一种词语验证系统，包括：

一特征参数抽取模组，用以由一输入语音信号中抽取出一特征参数向量序列；

一语音辨识模组，自该特征参数向量序列中辨识出至少一候选词；

一语音切割棋组，依照候选词内容所对应的验证单元将该输入语音信号切割为对应于验证单元的语音音段；

一验证用特征参数制作模组，是根据该等语音音段所对应的验证单元的正规化参数对该等语音音段的特征参数向量序列进行正规化，以产生验证用特征参数向量序列；

一验证分数计算模组，使用该等语音音段所相对应的验证单元的类神经网络，根据该等语音音段的验证用特征参数向量序列来计算出该等语音音段的验证分数；

一验证分数合并模组，合并所有语音音段的验证分数，以取得一词语验证分数；以及

一决策模组，用以比较该词语验证分数与一预设的门槛值，当该词语验证分数大于该门槛值时，接受该候选词，反之则拒绝该候选词。

所述的系统，其中该验证用特征参数制作模组所使用的验证单元的正规化参数为一组特征参数向量的平均值及标准差，且预先统计训练语料中对应到该验证单元的语音音段的特征参数向量序列而得到。

所述的系统，每一验证单元对应至一类神经网络，且该类神经网络为一多层感知。

所述的系统，该多层感知使用该语音音段的验证用特征参数向量序列作为输入，以一前馈动作以求出序列中每一验证用特征参数向量的验证结果，并取该等验证结果的平均值为该语音音段的验证分数。

所述的系统，该多层感知为一使用一错误回传学习演算法来缩小由该多层感知所输出的验证分数与一目标值间的均方根误差，来训练该多层感知。

所述的系统，训练对应到一个验证单元的多层感知由输入对应到该验证单元的语音音段的验证用特征参数向量序列及非对应到该验证单元的语音音段的验证用特征参数向量序列来训练该多层感知，其中，训练所使用的语音音段若对应到该验证单元，则目标值为1，反之，则目标值为0。

所述的系统，该验证分数合并模组取所有语音音段的验证分数的平均值为该词语验证分数。

所述的系统，该输入语音信号为一受噪音干扰的语音信号。

所述的系统，该些为训练所使用的语音音段为受噪音干扰的语音音段。

附图说明

图1为公知使用解译技术进行词语验证的功能方块图。

图2为公知使用假说检定进行词语验证的功能方块图。

图3为本发明实施例词语验证系统的功能方块图。

图4为本发明实施例词语验证方法的流程图。

图5为本发明实施例类神经网络的示意图。

具体实施方式

有关本发明的词语验证方法及系统的较佳实施例，请先参阅图3的功能方块图，其显示本实施例是使用一电脑系统20以对所输入的语令信号10进行词语验证，其中，电脑系统20包括有一特征参数抽取模组21、一语音辨识模组22、一声学模型资料库28、一存有至少一个词汇的词汇资料库29、一语音切割模组23、一验证用特征参数制作模组24、一正规化参数资料库11、—验证分数合并模组26、一决策模组27、以及一验证分数计算模组25，并使用复数个类神经网络121、122、123来进行验证分数计算。其中，本实施例的类神经网络为一多层感知(Multi-LayerPerceptron)。

靖一并参阅图4的流程图，当电脑系统20接收到一由外界所输入的语音信号10时，便通过特征参数抽取模组21将语音信号10视窗化(windowing)为复数个长度相同的音框(frame)，以抽取出特征参数向量序列211(步骤S401)，以利于进行语音辨识与词语验证，在序列211中，每一特征参数向量包括有复数个维度的特征值。于本实施例中，用以求取特征参数向量序列211所使用的音框长度为160点(20ms)，音框重叠长度为80点(10ms)，并以汉明视窗(Hamming Window)做平滑化处理；且每一个特征参数向量具有二十六个维度的特征值，分别为十二维的梅氏倒频谱系数(Mcl-ceptral coefficient)、十二维的差分(delta)倒频谱系数、与对数能量的一次及二次差分(delta-log-energy及delta-delta-log-energy)；此外，本实施例还采用倒频谱均值正规化(ceptral mean normalization)来补偿通道效应。

之后将所抽取出的特征参数向量序列211输入至语音辨识模组22，以辨识出至少一候选词221(步骤S402)。该语音辨识模组22是使用一以隐藏式马可夫模型(Hidden Markov Model，HMM)为基础的声学模型资料库28及一存有至少一个词汇的词汇资料库29来对前述的特征参数向量序列211进行辨识动作，以输出至少一候选词。其后，通过语音切割模组23依据候选词221的词汇内容所对应的验证单元，将语音信号10切割为对应于验证单元的语音音段231，232，233(步骤S403)。其中，若候选词221为中文，则切割出来的语音音段231，232，233为对应到次音节验证单元的次音节音段(subsyllable segment)，例如当候选词221为“书”时，根据“书”的词汇内容所切割出来的语音音段为对应到次音节验证单元“ㄕ”“ㄨ”等两个次音节音段；若候选词221为英文字，则切割出来的语音音段231，232，233为对应到次词验证单元的次词音段(subwordsegment)，例如“sky”将会根据“sky”的词汇内容而切割出“s”、“k”、及“ai”等对应到次词验证单元的次词音段。

再来分别将每一语音音段231，232，233的特征参数向量序列传送至验证用特征参数制作模组24，进行验证用特征参数向量序列的制作。其中，验证用特征参数向量序列的制作是以每一语音音段所对应的验证单元的正规化参数来对该语音音段的特征参数向量序列进行正规化后求得。其中验证单元的正规化参数为一组特征参数向量的平均值及标准差，该正规化参数是预先统计训练语料中对应到该验证单元的语音音段的特征参数向量序列而得到，并储存于正规化参数资料库11中。以语音音段231为例，其验证用特征参数向量序列241是自正规化参数资料库11中取出该语音音段所对应的验证单元的正规化参数来对该语音音段231的特征参数向量序列进行正规化而求得(步骤S404)，其中241的每一验证用特征参数向量亦包括有复数个维度的特征值。同理，可依序制作出语音音段232及233的验证用特征参数向量序列242及243。

接著，依序将前述验证用特征参数向量序列241，242，243输入至验证分数计算模组25，依照各语音音段231，232，233所相对应的验证单元的类神经网络121，122，123进行验证分数的计算。该些类神经网络121，122，123为多层感知，验证分数251，252，253的计算是使用类神经网络121，122，123对验证用特征参数向量序列241，242，243进行前馈(feed-forward)动作而求得(步骤S405)。为清楚描述验证分数的计算，以下举本实施例使用类神经网络121计算验证分数251的过程来详加描述。

请一并参阅图5本实施例类神经网络121的示意图，其为一多层感知，包括有一输入层31、一隐藏层32、以及一输出层33，且每一验证单元对应至一类神经网络。其中，输入层31的输入神经元(input neuron)311用以依序接收验证用特征参数向量序列241里每个验证用特征参数向量的特征值Di，并将其输出至隐藏层32，隐藏层32的隐藏神经元(hiddenneuron)321用以接收输入层31里所有的输入神经元的输出，并将结果输出至输出层33，输出层33仅使用一输出神经元(output neuron)331来接收隐藏层32里所有的隐蔽神经元的输出，并输出该验证用特征参数向量的验证结果。因此，通过上述的前馈动作，即可求出验证用特征参数向量序列241里每个向量的验证结果。验证分数251即是取这些验证结果的平均值而得到。

至于类神经网络121中各个神经元的输出，除了输入神经元是直接输出验证用特征参数向量的特征值外，其他神经元的输出(隐藏神经元及输出神经元)则是使用下列公式来计算：

{out}_{j} = \frac{1}{1 + \exp (- \underset{I}{Σ} w_{ji} {out}_{i} + b_{j})}

其中，out_j为奉层(隐藏层或输出层)中第j个神经元的输出值，out_i为前一层(输入层或隐藏层)中第i个神经元的输出值，w_ji为前一层第j个神经元至本层第j个神经元的权重(Weight)，b_j为本层第j个神经元的偏移量(bias)。

在完成验证分数251，252，253的计算后，接著，通过验证分数合并模组26来计算出这些验证分数的平均值，以取得候选词221的词语验证分数261(步骤406)。最后决策模组27使用一预设的门槛值(threshold)与词语验证分数261进行比较(步骤407)，当词语验证分数261大于门槛值时，电脑系统20接受此候选词221(步骤S408)，反之则拒绝(步骤S409)。

而为了使本实施例所使用的多层感知能够由使用前述验证用特征参数向量序列来分辨所属的语音音段是否为对应的验证单元，用于训练某个验证单元的多层感知的训练资料包含了对应到该验证单元的语音音段及不是对应到该验证单元的语音音段，以使多层感知能够学习到其间的差异，进而分辨。在训练上，必须先为这些验证用特征参数向量序列所属的语音音段设定相对应的目标值，之后，再通过错误回传(error back-propagtion)学习演算法来进行训练，由缩小实际输出的验证分数与目标值间的均方根误差(mean square error)来调整多层感知里的权重和偏移量。例如，训练一个验证单元为“ㄨ”的多层感知时，训练所使用的语音音段包括了对应到验证单元为“ㄨ”的语音音段和不是对应到验证单元“ㄨ”的语音音段。对于对应到验证单元为“ㄨ”的语音音段，其目标值为1，反之，其目标值为0。经由这样的设定及使用上述的训练方法进行反覆训练，将使该多层感知实际输出的验证分数逼近目标值，而使该多层感知能够由使用验证用特征参数向量序列来分辨所属的语音音段是否为对应的验证单元。

而为了使本实施例的词语验证方法及其系统能够适用于噪音环境，上述训练多层感知所使用的训练资料为受到噪音干扰且具各种不同讯嗓比(Signal Noise Ration，SNR)的语音音段，例如使用受车内噪音(In-Carnoise)干扰复具讯噪比为9dB、3dB，0dB、-3dB、或-9dB的语音音段，以使多层感知能够学习受到不同程度的车内噪音所干扰的语音特性，以期在实际应用时，亦能够分辨出受封噪音干扰的语音音段是否为对应的验证单元。

由以上说明可知，本发明以次音节或次词作为验证单元，因此能够被广泛且容易地应用到以次音节或次词为辨识单元的语音辨识系统上，且每个验证单元仅需建立一个多层感知，故语音音段是否对应到正确的验证单元只要使用其所属的验证用特征参数向量序列对其相对应的验证单元的多层感知进行前馈动作即可完成，将可大幅降低电脑系统的负荷。此外，本发明使用受到噪音干扰的语音音段来训练多层感知，因此能增进语音辩识系统在噪音环境下的可靠度与亲和性，提高了使用便利性。

应注意的是，上述诸多实施例仅是为了便于说明而举例而已，本发明所主张的权利范围自应以申请专利范围所述为准，而非仅限于上述实施例。

Claims

1、一种词语验证方法，包含下列步骤：

(A)由一输入语音信号中抽取出一特征参数向量序列；

2、如权利要求1所述的方法，其特征在于，其中于步骤(D)中，该验证单元的正规化参数为一组特征参数向量的平均值及标准差，是预先统计训练语料中对应到该验证单元的语音音段的特征参数向量序列而得到。

3、如权利要求1所述的方法，其特征在于，其中于步骤(E)中，每一验证单元对应至一类神经网络，且该类神经网络为一多层感知。

4、如权利要求3所述的方法，其特征在于，其中该多层感知使用该语音音段的验证用特征参数向量序列作为输入，以一前馈动作求出序列中每一验证用特征参数向量的验证结果，并取该等验证结果的平均值为该语音音段的验证分数。

5、如权利要求3所述的方法，其特征在于，其中该多层感知是使用一错误回传学习演算法来缩小由该多层感知所输出的验证分数与一目标值间的均方根误差，来训练该多层感知。

6、如权利要求5所述的方法，其特征在于，训练对应到一个验证单元的多层感知是由输入对应到该验证单元的语音音段的验证用特征参数向量序列及非对应到该验证单元的语音音段的验证用特征参数向量序列来训练该多层感知，其中，训练所使用的语音音段若对应到该验证单元，则目标值为1，反之，则目标值为0。

7、如权利要求1所述的方法，其特征在于，步骤(F)是取所有语音音段的验证分数的平均值为该词语验证分数。

8、如权利要求1所述的方法，其特征在于，该输入语音信号为一受噪音干扰的语音信号。

9、如权利要求6所述的方法，其特征在于，该些为训练所使用的语音音段为受噪音千扰的语音音段。

10、一种词语验证系统，包括：

11、如权利要求10所述的系统，其特征在于，其中该验证用特征参数制作模组所使用的验证单元的正规化参数为一组特征参数向量的平均值及标准差，且预先统计训练语料中对应到该验证单元的语音音段的特征参数向量序列而得到。

12、如权利要求10所述的系统，其特征在于，每一验证单元对应至一类神经网络，且该类神经网络为一多层感知。

13、如权利要求12所述的系统，其特征在于，该多层感知使用该语音音段的验证用特征参数向量序列作为输入，以一前馈动作以求出序列中每一验证用特征参数向量的验证结果，并取该等验证结果的平均值为该语音音段的验证分数。

14、如权利要求12所述的系统，其特征在于，该多层感知为一使用一错误回传学习演算法来缩小由该多层感知所输出的验证分数与一目标值间的均方根误差，来训练该多层感知。

15、如权利要求14所述的系统，其特征在于，训练对应到一个验证单元的多层感知由输入对应到该验证单元的语音音段的验证用特征参数向量序列及非对应到该验证单元的语音音段的验证用特征参数向量序列来训练该多层感知，其中，训练所使用的语音音段若对应到该验证单元，则目标值为1，反之，则目标值为0。

16、如权利要求10所述的系统，其特征在于，该验证分数合并模组取所有语音音段的验证分数的平均值为该词语验证分数。

17、如权利要求10所述的系统，其特征在于，该输入语音信号为一受噪音干扰的语音信号。

18、如权利要求15所述的系统，其特征在于，该些为训练所使用的语音音段为受噪音干扰的语音音段。