CN100458913C

CN100458913C - 语音识别系统的发音验证方法

Info

Publication number: CN100458913C
Application number: CNB2005100330017A
Authority: CN
Inventors: 郑斗景
Original assignee: LG Electronics Huizhou Co Ltd
Current assignee: LG Electronics Huizhou Co Ltd
Priority date: 2005-01-24
Filing date: 2005-01-24
Publication date: 2009-02-04
Anticipated expiration: 2025-01-24
Also published as: CN1811916A

Abstract

本发明是有关语音识别系统的发音验证方法，包括：一旦接收到用户输入的语音命令，就会检测相应语音的末端，并提取语音存在的部分；在提取的语音部分中，继续提取需要进行语音识别的特征，并通过维特比搜索，进行语音识别；然后求出识别出的语音数据的可信值；并确认求出的可信值是否大于事先设定的临界值；根据判断结果，求出的可信值大于临界值，将向用户传送识别出的语音数据的确认命令，并在未接到用户输入的ACK命令时，将更新上述临界值。本发明使所有相应词汇的临界值并非拥有某一特定值，而是取决于用户的发音方法或发音态度，以防误识别的结果被误认为是正确识别的结果。

Description

语音识别系统的发音验证方法

(1)技术领域

本发明是有关在语音识别系统中，对误识别单词或文章进行取消处理的一种语音识别系统的发音验证方法的技术。

(2)背景技术

作为HCI的核心技术，语音识别技术与信息化时代同步发展，其必要性正逐渐加大，并开始广泛使用于很多应用领域中。

从产业方面观之，在信息通信产业、信息处理产业、家电产业、汽车产业等多种产业领域中，语音识别技术正逐渐发展成为下一代用户界面的基础技术，其本身的市场规模，也将急速扩大，而且对其它产业领域创造高附加值，也将做出不可磨灭的贡献。

随着最近语音识别技术逐渐趋于实用化，作为可信值高的语音识别核心技术，取消非识别相应词汇，并对识别相应文章，也能取消误识别结果的发音验证技术，其重要性逐渐得到广泛认可，而对该技术的研究也在得以广泛开展。目前在韩国，对语音识别技术的研究活动也在紧锣密鼓地进行，各大学以及企业正在对连接数字识别技术和发音验证技术进行广泛的研究，但其研究成果仍落后于其他发展国家。

由于当前水准的语音识别性能尚达不到100％，因此经常会导致误识别的结果。假如允许通过上述那些误差，那么实用语音识别系统的用户，便会对使用装置的性能感到不满，这将直接导致语音市场的竞争力下跌。为了解决上述问题，研究出来的结果便是发音验证技术。

上述发音验证技术利用某一特定的可信值，对接受或拒绝语音识别的结果进行判断。在此，可信值是衡量语音识别结果是否可信的尺度。如果可信值越高，便认定识别结果可以信赖，并应接受该识别结果。相反，可信值越低，那么认定识别结果不可信赖，并应拒绝识别结果。

根据实际语音识别的测试结果，大部分的误差出自于用户的发音模糊所致。因此，不使用发音验证的识别系统，在用户发出模糊音的情况下，也会将误识别的结果直接放行。

使用发音验证方法是指，并非将上述误识别的结果直接传送给系统装置，而是通过某种可信值测定，判断语音识别系统的误识别与否的问题，在判定是正常识别的结果时，放行上述识别结果，否则将其取消的机械装置。

上述发音验证方法有模式分类(pattern classification)和统计假设的验证方法。其中，模式分类方法的目的是指，在设有任意观测值O＝{O₁，O₂，…，O_T}的情况下，判定0属于哪种级别，即决定C(O)∈{C_k；k＝1，2，…，K}。假设附带条件概率P(O/C_k)和词典概率P(C_k)已确定，那么降低分类误差至最小的最佳分类级别(optimalclass decision)C(o)，就相当于数学式1中将后验概率最大化的Bayes decisionrule。

【数学式1】

C(o)＝argmaxP(C_k/O)＝argmaxP(O/C_k)P(C_k)

相反，在统计假设验证中，对已确定的观测值0为识别结果的假设H₁，将验证0为正确识别结果的虚假设H_o。假设虚假设和假设的概率已确定，那么在通过Neyman-Pearson Lemma，最佳验证法便为数学式2时，将采用虚假设的方法测定类似值。

【数学式2】

LR (k) = \frac{P_{k} (O / H_{o})}{P_{k} (O / H_{1})} {> τ}_{k}

在此，P_k(O/H_o)代表虚假设的概率密度函数，P_k(O/H₁)代表假设的概率密度函数，τ_k是指临界极限(critical threshold)。在基于HMM的语音识别系统中，H₀根据如何定义，在电话(phone)中显示文章级别的C_k，而H₁则显示与其不同的级别{C_j}。在此，级别C_k的参数λ_k是指状态转移概率、状态观测值概率和状态初步概率。

为将发音验证适用于HMM基础上的语音识别方法中，需要推算P(O/H₀)和P(O/H₁)，而这些概率中应假定事先设定的假设分布和附带条件概率分布的参数。上述假设因不充分的数据而有可能导致真值与推算出的分布之间产生误差。

上述统计假设验证性能大致通过两个误差率得以评估。其一、在虚假设为真值时，将其取消的误拒绝(false rejection)(Type I：α)，其二、在虚假设为虚值时，采用该假设的误接受(false acceptance)〔Type II或误警告(falsealarm：β)〕。根据如何选择α和β，τ_k值也会有所不同。在此，可利用τ_A值选择α＝β的equal error rate(EER)，还可选择两个误差率之和为最小的α+β。下面将参照附图1中的柱状图，对发音验证中最合适的τ_k。

图1是现有技术中可信值的柱状图。

如图1所示，两个柱状图分别指相应于C_k的所有训练数据和不相应于C_k的所有训练数据的类似柱状图。在图1中，τ_k的右侧部分〔类型(Type)II)〕代表β的量，而左侧部分〔类型(Type)I〕则代表α的量。

如上所述，在测定可信值后，将测定的可信值和临界值进行比较，并以此判定相应语音的误识别与否问题。下面将参照附图2，对该方法进行简单说明。

图2是现有式语音识别方法的流程图。

S200、S202，如图2所示，一旦接收到用户输入的语音识别命令，语音识别系统便将检测语音末端，并只提取语音存在的部分。

S204、S206，然后，语音识别系统将从上述提取的语音部分中，提取语音识别所需的特征，并对上述提取的语音数据，经过维特比搜索过程，进行语音识别。

S208，然后，语音识别系统针对上述语音识别的语音数据，计算可信值，并进行发音验证。

S210，最后，语音识别系统确认求出的可信值是否大于事先设定的临界值。

S212，根据上述判断结果，假如可信值大于临界值，那么识别系统将判定识别相应语音成功。

S214，根据第210步骤的判断结果，假如可信值不大于上述临界值，那么语音识别系统将取消相应语音的识别结果。

但具有如上特点的现有式发音验证方式，虽然对输入的语音进行正常识别与否的问题进行判断，但这一方式很难从实际上充分体现多样化的语音，而且在汽车等杂音很重的环境中，很难确保系统的正常性能。

此外在发音模糊的情况下，假设可信值小于特定取消率，那么将其判定为误识别的结果，并对其予以取消处理，但也有可能判定其为正常发音的误识别结果。

(3)发明内容

本发明的目的是为了解决上述问题，提供一种可使用户不受识别系统性能的影响，在不受环境限制的范围内，轻松使用识别系统的语音识别系统的发音验证方法。

本发明的另一目的是，提供一种可在语音识别系统中添加录音重放的功能，以使每在进行语音识别时，均可确认是否正常进行识别的语音识别系统的发音验证方法。

为了实现上述目的，本发明的语音识别系统的发音验证方法包括：第一步骤，在接收到用户输入的语音命令后，将检测相应语音的末端，并提取语音存在的部分；第二步骤，在上述提取的语音部分中，继续提取需要进行语音识别的特征，并通过维特比搜索，进行语音识别；第三步骤，然后求出上述识别出的语音数据的可信值；第四步骤，并确认求出的可信值是否大于事先设定的临界值；第五步骤，根据上述判断结果，假如求出的可信值大于临界值，那么将向用户传送识别出的语音数据的确认命令；第六步骤，并在未接到用户输入的ACK命令时，将更新上述临界值。

在接收到用户输入的ACK命令后，本发明将判定语音识别成功。

根据上述判断结果，如果可信值不大于临界值，那么将重新向用户提出语音命令。

上述可信值将通过下面的数学式求出：

S (O; Λ) = - \log {[\frac{1}{j} Σexp {- {η \cdot LR}_{q} (O; Λ)}]}^{\frac{1}{η}}

在更新临界值时，上述临界值将利用(1+α)*旧临界值进行更新，而α是0和1之间的值。

本发明的效果：

如上所述，通过本发明的语音识别系统的发音验证方法，所有相应词汇的临界值并非拥有某一特定值，而是取决于用户的发音方法或发音态度，以防误识别的结果被误认为是正确识别的结果。

此外，通过本发明的语音识别系统的发音验证方法，用户在使用语音识别系统时，音较低的语音识别性能，而经常会碰到不必要的麻烦，而本发明中的发音验证方法，恰能解决上述问题，并在产品生产以及产品测试时，能够自动更新调谐参数，因此无需对每个仪器都进行调谐，这给开发商带来了多方面的便利。

为进一步说明本发明的上述目的、结构特点和效果，以下将结合附图对本发明进行详细的描述。

(4)附图说明

图1是现有技术中可信值的柱状图，

图2是现有的语音识别方法的流程图，

图3是在本发明的实施例中，语音识别系统的结构模块概略图，

图4是在本发明的实施例中，发音验证方法的流程图，

图5是在本发明的实施例中，false acceptance error的示意图。

附图中主要部分的符号说明：

300：语音检测器 310：特征提取器

320：维特比搜索器 330：发音词典

340：音素模型数据库 350：发音验证器

360：半音素模型数据库

(5)具体实施方式

下面将参照附图，对本发明的语音识别系统的发音验证方法的实施例进行详细说明。

图3是在本发明的实施例中，语音识别系统的结构模块概略图。

如图3所示，本发明中的语音识别系统由如下结构组成：即，检测输入语音区间的语音检测器300；从上述语音检测器300中提取特征的特征提取器310；对从上述特征提取器310中提取的信号和发音词典进行维特比搜索的维特比搜索器320；从维特比搜索器320中识别关键词，并参照半音素模型数据库360，验证发音的发音验证器350。

也就是说，在输入语音信息后，将在语音检测器300中，搜索除了语音前后区间的语音区间。此后，特征提取器310将从上述语音区间的语音信号中，提取语音特征。

然后，在维特比搜索器320中，利用语音特征值，对由音素模型数据库340组成的发音词典330中的单词，选定类似值最相近的单词。

最后，由发音验证器350利用在维特比搜索器320中选定的单词，将特征区间划分为音素单位，并利用半音素模型360，求出音素单位的类似可信值。

在由可变词汇识别器，对定义为域名的名签进行发音验证时，加入每个语音的模型已设定为Λ＝λ_i，那么虚假设P_k(O/H_o)和P_k(O/H₁)假设的类似值，即g_k(O；Λ)和G_k(O；Λ)将分别通过数学式3和数学式4来计算。

【数学式3】

g_{k} (O; Λ) = \frac{1}{T} \log [P (O / λ_{k})]

【数学式4】

G_{k} (O; Λ) = \log [\frac{1}{N - 1} Σexp {{kg}_{k} (O / Λ)}]

在此，

g_{j} (O; Λ) = \frac{1}{T_{j}} \log [P (O / λ_{j})] .

在上述计算公式中，N代表音素模型的总个数，通常有46个左右。

在此，k是任意的正数，而T_A是分配到数字k中的帧数。假如k等于1，半音素模型便为45个，即这是除了自己以外的其它音素的所有个数，当k为无限值时，半音素模型的个数为1，即显示最有可能与自己的音素混淆的音素。为了基于上述计算出的类似值，判断是否取消音素的问题，可在数学式5中，使用音素列基础的可信值，进行发音验证。

【数学式5】

S (O; Λ) = - \log {[\frac{1}{j} Σexp {- {η \cdot LR}_{q} (O; Λ)}]}^{\frac{1}{η}}

在此，LR_q(O；Λ)是第q个个别音素的LLR，其中的η是与k相等的常数。

然后，上述发音验证器对上述求出的可信值与临界值进行比较。此时，假如可信值大于临界值，那么就识别语言，向用户传送确认命令，并在接收到用户输入的ACK回应后，将接受识别的结果。在此，假如未接到用户的ACk回应，那么发音验证器将利用数学式6，对上述临界值进行更新处理。

【数学式6】

新临界值＝(1+α)旧临界值

在此，α等于0和1之间的值。上述旧临界值是更新前的临界值，新临界值意味着在用户输入语音命令后，得出误识别的结果时，所更新的临界值。

如图5所示，在更新临界值后，接受误差(acceptance error)将逐渐减少。

假如上述可信值小于临界值，那么发音验证器将向用户提出重新输入语音命令的请求，并拒绝识别的结果。

图4是在本发明的实施例中，发音验证方法的流程图。

S400、S402，如图4所示，一旦接收到用户输入的语音识别命令，上述语音识别系统便将检测语音的末端，并只提取语音存在的部分。

S404、S406，然后，上述语音识别系统在提取的语音部分中，提取语音识别所需的特征，并经过维特比搜索过程，对提取的语音数据进行语音识别。

S408，然后，上述语音识别系统将对语音识别的语音数据，计算可信值，并进行发音验证。

S410，最后，上述语音识别系统将判断求出的可信值是否大于事先设定的临界值。

S412，根据S410步骤的判断结果，假如上述可信值大于事先设定的临界值，那么语音识别系统将就识别出的语言，向用户传送确认命令。例如，上述语音识别系统将向用户传送“XXX是否正确？”等形式的确认命令。

上述用户将针对确认命令，发送ACk、NAK等回应。

S414，此后，上述语音识别系统将判断是否接收到用户输入的ACK回应的问题。

S416，根据S414步骤的判断结果，一旦接收到用户输入的ACK回应，上述语音识别系统便判定语音识别成功。

S418，根据S414步骤的判断结果，假如未接收到用户输入的ACk回应，那么上述语音识别系统将对临界值进行更新处理。

S420，然后，上述语音识别系统将向用户提出重新输入语音命令的请求。此后，上述语音识别系统将从S400步骤开始重新进行操作。

例如，在用户输入“音频”的命令时，假如上述语音识别系统进行正常识别，并发送“是音频吗？”的信息，那么无需再对临界值进行更新处理。

但在上述语音识别系统做出误识别，如用户输入了“音频”的命令，而语音识别系统却发出“无线电广播”的信息时，语音识别系统就会断定，使用该系统的用户所输入的“音频”，经常会被误识别为“无线电广播”。

因此，上述语音识别系统要求用户输入正确的发音，同时为确保不出现误识别的现象，而经常更新临界值，以提高取消率。据此，假如下次重新输入语音命令，语音识别系统便对误识别的语言，只有在比更新可信值的取消率时，才会将其视作正常识别的结果。

在此，由于用户输入的发音模糊，故其可信值较低，因此对该发音，就会本能地做出正确的发音，那么可信值自然就会提高。此外，取消也为减少falseacceptanee error而被提高，因此可有效排除误识别的结果，并由于每个词汇的临界值都不同，所以从整体上给使用语音识别系统的用户带来了极大的方便。

图5是在本发明的实施例中，误接受误差(false acceptance error)的示意图。

如图5所示，图中的黑色部分便是误接受误差(false acceptance error)。

假如增加上述临界值，接受误差(acceptance error)就会减少。

本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明权利要求书的范围内。

Claims

1、一种语音识别系统的发音验证方法，其特征在于由如下几个步骤组成：

第一步骤、在接收到用户输入的语音命令后，将检测相应语音的末端，并提取语音存在的部分；

第二步骤、在上述提取的语音部分中，继续提取需要进行语音识别的特征，并通过维特比搜索，进行语音识别；

第三步骤、求出上述识别出的语音数据的可信值；

第四步骤、确认求出的可信值是否大于事先设定的临界值；

第五步骤、根据上述判断结果，假如求出的可信值大于临界值，那么将向用户传送识别出的语音数据的确认命令；

第六步骤、在未接到用户输入的ACK命令时，将更新上述临界值，所述的可信值应通过下面的数学式计算。

S (O; Λ) = - \log {[\frac{1}{j} Σexp {- η \cdot {LR}_{q} (O; Λ)}]}^{\frac{1}{η}},

其中，LR_q(O；Λ)是第q个个别音素的对数似然比，其中的η是任意的正数。

2、如权利要求1所述的语音识别系统的发音验证方法，其特征在于还包括：

一旦接收到用户输入的ACK命令，语音识别系统便应判定语音识别成功。

3、如权利要求1所述的语音识别系统的发音验证方法，其特征在于还包括：

根据所述的判断结果，假如可信值不大于临界值，便向用户提出重新输入语音命令的请求。

4、如权利要求1所述的语音识别系统的发音验证方法，其特征在于：

在更新所述的临界值时，应利用临界值(1+α)*旧临界值的方式予以更新，其中所述的α应是0和1之间的值。