CN1144173C

CN1144173C - 概率导向的容错式自然语言理解方法

Info

Publication number: CN1144173C
Application number: CNB00122686XA
Authority: CN
Inventors: 林一中
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2000-08-16
Filing date: 2000-08-16
Publication date: 2004-03-31
Anticipated expiration: 2020-08-16
Also published as: CN1338721A

Abstract

一种概率导向的容错式自然语言理解方法，将语言理解过程分为概念剖析及概念序列典范对比。前者利用以概念文法驱动的剖析器，将语音识别的结果剖析构建为概念剖析树群集合；后者以容错的解译器将概念剖析树群集合所含的概念序列与系统的概念序列典范做对比，找出最有可能的概念序列并转换成代表语者意图的语意框架。整个过程以概率导向的评分函数导引。当语音识别错误致使无法产生正确的概念序列时，藉此评分函数判断错误所在并尝试修复。

Description

概率导向的容错式自然语言理解方法

技术领域

本发明涉及一种利用语音识别将语音数据转换成文字的方法，特别涉及一种当语音识别发生错误致使无法产生正确的概念序列时，藉由概率导向的评分函数判断错误之所在并且修复成为正确的概念序列的方法。

背景技术

自然语言理解(Natural Language Understanding)技术是将人类的语言文字转换成为电脑能够理解的数据格式，藉此，在不同的应用系统中，电脑能提供使用者不同需求的服务。例如，在机器翻译的应用中，将本国的文字翻译成他国的文字。自然语言理解技术除了可用于文字输入输出的自然语言应用系统外，亦可用于与语音相关的应用系统。普遍的做法是利用语音识别器先将语音数据转换成文字，再做自然语言理解的处理。

一般而言，与语音相关的应用系统(例如口语交谈系统)都包含语音识别(Speech Recognition)模块与语言理解模块。语音识别模块是将使用者所说的话语(Utterance)转换成可能的语句集合(Word Sequence Set)，语言理解模块利用语言与应用领域的知识，分析此语句集合以判定使用者的意图，并表示成代表使用者意图的语意框架(Semantic Frame)。

图1绘示理解使用者话语的流程图。举例“请问新竹今天早上会不会下雨”是使用者所说的话语信号(S100)，利用语音识别模块将话语信号转换成可能的语句集合(S102)，这些可能的语句集合即成为一组语句列表(S104)，如例句“请问新竹今天早上会不会下雨”所形成的语句列表有“请问新竹今天早上会不会下雨”、“气温新竹今天早上会不会下雨”与“请问新竹晴天早上会不会下雨”。

接着，语言理解模块利用语言及应用领域的知识来分析这些语句列表(S106)，判定语句列表哪一个语句是使用者的意图，并将此语句表示成代表使用者意图的语意框架(S108)。

在传统的自然语言理解处理中，会依应用领域的特性设计分析语句的文法(Grammar)，藉以剖析语句的结构并标注必要的消息，再转换为电脑能够理解的数据格式，例如语意框架。然而，在实际的应用中常常遇到不合系统文法的语句，尤其是在口语交谈系统的应用中，无法预测语音识别错误，更是令传统的文法分析无用武之地。

为了能够分析不合法语句，剖析器(Parser)的强健性(Robustness)渐渐地受到重视。一般的作法是部分剖析(Partial Parsing)不合法语句，再由部分剖析的结果中选择特定的结构做后处理。采用这类方法的系统或多或少都会使用一些经验法则(Heuristics)来选择部分结构及做必要的后处理，这些经验法则往往都与应用系统本身紧密相关，难以被其他系统所利用。此外，部分剖析结构仅能提供粗浅的语言信息，在一些需要完整语言分析的应用中并不十分合用。因此，对不合法语句做错误修正便成为重要的课题。

错误修正是将部分剖析结构修补成符合文法规范的结构，藉此能够根据错误的种类及内容做更好的后处理。错误修正的研究早期以规则导向(Rule-base)为主，近年来有利用统计模型的方法提出。

以往的研究主要都是在系统文法定义的空间中搜寻最接近的完整剖析(Full Parse)结构，使用这类方法的前提是系统文法必须有很高的精确度，否则因包含许多合法但不合理的剖析结构使搜寻的空间变得非常大，修正后的完整剖析结构也可能是一个不合理的结果，即是在实际的应用中不可能出现的结果。然后，在一般系统文法的设计中，为了提高文法的涵盖率(Coverage)而牺牲精确度，使传统的错误修正方法无法充分发挥。

有鉴于利用传统文法分析理解语音识别结果有上述困难，在口语交谈系统的应用中，近年来已扬弃传统文法分析中以句子为单位的完整剖析观念，已经采用词组概念分析的趋势。

图2绘示概念剖析树群及对应的概念序列。词组概念分析是利用定义概念结构的概念文法(Concept Grammar)，将不同的词组代换成不同的概念。例如，词组“请问”对应于概念“Query”，词组“新竹”对应于概念“City”，亦对应于概念“Location”以形成概念剖析树群(Forest of Concept Parses)122。再利用N-gram的统计方法，为语音识别的结果找出最有可能的概念序列(Concept Sequence)120。最后，根据这些阶段性的结果产生语意框架。

一般而言，上述概念驱动式的语言理解方法中，系统文法仅规范如何构成个别的概念剖析树，对于概念序列的组合并不以文法规则去限定，而是以N-gram的概率模型来估算各种概念序列的可能性，因此，并无不合法语句(Ill-formed Sentence)或不合法概念序列(Ill-formed Concept Sequence)的问题。此种做法的前提是正确的概念序列是包含在搜寻空间内，并且根据概率模型而被挑选出来。

然而，由于语音识别技术的不完美，其所提供的语句集合未包含正确语词序列的错误是在所难免，而造成识别错误，尤其是识别即席语音(Spontaneous Speech)时，识别错误的情况更是严重。当语音识别错误发生时，语言理解模块只能在众多错误的概念序列中挑选一个错误的概念序列。例如，当识别“请问新竹今天早上会不会下雨”时，因语音识别模块错误而输出的语句集合仅包含“气温新竹今天早上会不会下雨”及“请问新竹晴天早上会不会下雨”，那么语音识别模块只能在“Topic(气温)Location(新竹)Date(今天早上)Topic(会不会下雨)”及“Query(请问)Location(新竹)Topic(晴天)Date(早上会不会)Topic(下雨)”两个错误的概念序列中选择其一。

上述概念驱动式的语言理解方法主要的问题是来自对概念序列没有做明确的规范，因此无法得知语音识别是否发生错误，更遑论修正错误。

发明内容

因此本发明提供一种概率导向的容错式自然语言理解方法，利用语料构建正确概念序列的知识库，藉由对比的方式，修复错误的概念序列。整个语言理解的过程是以一个概率导向的评分函数引导。此评分函数整合语音知识、文法知识与概念序列典范知识，用以检测语音识别是否发生错误，并在错误发生时，找出最佳的修正方法。

本发明提供一种概率导向的容错式自然语言理解方法，其方法包括：首先，利用语音识别模块将使用者所说的话语转换成可能的语句集合。其次，利用概念文法将语句集合剖析成为概念剖析树群集合(Concept ForestSet)，此概念剖析树群集合包括概念序列。再者，加入概念序列典范，其代表概念文法所认知的合法的概念序列。以及，将概念剖析树群集合所包括的概念序列与概念序列典范做对比，找出最有可能的概念序列，并将概念序列转换成为代表语者意图的语意框架。其中在剖析概念文法与对比概念序列的过程是以一个概率公式表示。

附图说明：

为让本发明的上述目的、特征、和优点能更明显易懂，下文特举较佳实施例，并配合附图，作详细说明如下：

图1绘示理解使用者话语的流程图；

图2绘示概念剖析树群及对应的概念序列；

图3绘示将概念序列典范“Query Location Date Topic”修改为“TopicLocation Date Topic”的两种可能的修改动作序列；

图4绘示概率导向的容错式语言理解方法的方块图；

图5绘示各语词的语音分数；

图6绘示静态文法(Statical Grammar)与动态文法(Dynamical Grammar)；

图7绘示概念剖析树群的图例；

图8绘示概念序列典范的非环式有向图形；

图9绘示根据概念剖析树群集合构建的概念图网；

图10绘示解译器藉由对比概念序列典范及概念序列而构建的语意框架；

具体实施方式

为了能够判定语音识别是否发生错误，本实施例所设计的语言理解方法，除了包含剖析概念的文法外，另加入一个概念序列典范(ConceptSequence Example)的知识库。概念序列典范知识库是由剖析文字语料所获得，每个典范代表一个系统所认知的合法概念序列。概念序列典范知识库可加入人为定义的合法概念序列，以补文字语料(Text Corpus)库的不足。

如此，在理解使用者话语的过程是以下面的概率公式表示：

(\hat{W}, \hat{F}, \hat{C}, \hat{K}, \hat{E}) = \underset{(W, F, C, K, E)}{\arg \max} P (W, F, C, K, E | U),

其中U为使用者话语的语音特征，W为语音识别模块输出语句集合中某一可能的语词序列，F为系统文法定义中W的某一可能的概念剖析树群，C为F对应的概念序列，K为某一概念序列典范，E为可将K修改为C的某一修改动作序列(Edit Operation Sequence)。则为代表使用者话语最有可能的语词序列、概念剖析树群、概念序列、概念序列典范与修改动作序列的组合。

表1

条件	动作	动作类别
条件	动作	动作类别	x＝ε，y≠ε	插入y	插入
x≠ε，y＝ε	删除x	删除	x＝ε，y≠ε	插入y	插入
x≠ε，y＝ε	删除x	删除	x≠ε，y≠ε，x≠y	以y取代x	取代
x≠ε，x＝y	接受	接受	x≠ε，y≠ε，x≠y	以y取代x	取代

表1是修改动作<x，y>的分类，修改动作序列由不定个数的修改动作所构成．修改动作可以<x，y>表示，并可分为插入(Insert)、删除(Delete)、取代(Substitute)及接受(Accept)等四大类。例如图3绘示将概念序列典范“QueryLocation Date Topic”修改为“Topic Location Date Topic”的两种可能的修改动作序列。要将“Query Location Date Topic”修改为“Topic Location DateTopic”，则“<Query，Topic><Location，Location><Date，Date><Topic，Topic>”与“<ε，Topic><Query，ε><Location，Location><Date，Date><Topic，Topic>”是可能的修改动作序列中的两种。其中ε表示空物件。

在概率公式中，若是

\hat{K} = \hat{C},

代表是系统所能认知的正确概念序列，可直接构建语意框架。若是

\hat{K} &NotEqual; \hat{C},

代表系统判定语音识别发生错误，为使用者欲表达的正确概念序列，则为剖析语音识别结果而所能得到与最为接近的错误概念序列，则是将

转换为

的修改动作。

在概率公式中的概率项P(W，F，C，K，E|U)进一步推导如下：

P (W, F, C, K, E | U) = P (F, C, K, E | W, U) P (W | U) \approx P (F, C, K, E | W) P (W | U)

= \frac{P (W, F, C, K, E)}{P (W)} \frac{P (U | W) P (W)}{P (U)} = \frac{P (W, F, C, K, E) P (U | W)}{P (U)}

其中假设P(E，G，K，E|W，U)≈P(F，C，K，E|W)，即在给定语词序列的状况下，概念剖析树群、概念序列、概念序列典范及修改动作序列与语音特征的关联性可以忽略。又由于在对使用者话语选择最可能的概念序列时，概率项P(U)的值是固定常数，可以被忽略。因此，仅需计算概率项P(U|W)与P(W，F，C，K，E)即可。

所以，将理解使用话语的过程由概率公式改写成修改型概率公式为：

(\hat{W}, \hat{F}, \hat{C}, \hat{K}, \hat{E}) = \underset{(W, F, C, K, E)}{\arg \max} P (W, F, C, K, E) P (U | W)

上式概率项P(U|W)代表由语词序列W得到语音特征U的可能性，此概率项可由语音识别模块利用隐马尔可夫模型(Hidden Mardov Model)或是其他的方法估算。语言理解模块仅需估算概率项P(W，F，C，K，E)即可。

由于概率项P(W，F，C，K，E)的参数量过于庞大而无法直接估算，因此做以下的化简：

P(W，F，C，K，E)＝P(W，F|C，K，E)P(C，E|K)P(K)

又由于概念剖析树群的终端节点(Terminal Node)即为语句序列W，因此，P(W，F|C)＝P(F|C)。同样地，因修改动作序列中包含概念序列C的消息，所以，概率项P(C，E|K)＝P(E|K)。

其中概率项P(F|C)可由剖析器利用SCFG(Stochastic Context-free，随机上下文无关)的概率模型，在剖析语音识别模块所产生的语句集合时，以下式估算：

P (F | C) \approx \underset{T &Element; F, A &RightArrow; α &Element; T}{Π} P (α | A)

其中T为概念剖析树群中的一个概念剖析树，A→α为组成T的某一文法规则，A为左端符号，α为右端符号群。例如：Query→请问，<Query>即为A，<请问>即为α。

概率项P(K)可由N-gram的概率模型估算如下：

P (K = k_{1}^{m}) = Π_{i = 1}^{m} P (k_{i} | k_{1}^{i - 1}) \approx Π_{i = 1}^{m} P (k_{i} | k_{i - N + 1}^{i - 1})

其中m为K的概念个数，k_i为第i个该概念，k_l ^m表示k_l，...，k_m。

概率项P(E|K)则化简如下：

P (E = e_{1}^{n} | K = k_{1}^{m}) = Π_{i = 1}^{n} P (e_{i} | e_{1}^{i - 1}, k_{1}^{m})

\approx Π_{i = 1}^{n} P (e_{i} | k_{1}^{m}) \approx Π_{i = 1}^{n} P (e_{i} | e_{L (e_{i}) - X + 1}^{L (e_{i})}, k_{R (e_{i}) - Y + 1}^{R (e_{i})})

其中n为E的修改动作个数，e_i为第i个修改动作，L(e_i)是在概念序列典范K中紧邻e_i左边的概念的位置，

为紧邻e_i左边的概念，相同地，R(e_i)是在概念序列典范K中紧邻e_i右边的概念的位置，表示在概念序列典范K中位于e_i左边的X个概念，与

表示在概念序列典范K中位于e_i右边的Y个概念。

在理解使用者话语的过程由修改型概率公式改写为：

(\hat{W}, \hat{F}, \hat{C}, \hat{K}, \hat{E}) = \underset{(W, F, C, K, E)}{\arg \max} \log {P (U | W) \times \underset{T &Element; F, A &RightArrow; α &Element; T}{Π} P (α | A) \times Π_{i = 1}^{m} P (k_{i} | k_{i - N + 1}^{i - 1})

\times Π_{i = 1}^{n} P (e_{i} | k_{L (e_{i}) - X + 1}^{L (e_{i})}, k_{R (e_{i}) - Y + 1}^{R (e_{i})})}

= \underset{(W, F, C, K, E)}{\arg \max} {S_{W} + S_{F} + S_{K} + S_{E}}

其中S_W＝logP(U|W)称为语音分数，

S_{F} = \underset{T &Element; F, A &RightArrow; α &Element; T}{Σ} \log P (α | A)

称为文法分数，

S_{K} = Σ_{i = 1}^{m} \log P (k_{i} | k_{i - N + 1}^{i - 1})

称为概念序列典范分数，

S_{E} = Σ_{i = 1}^{n} \log P (e_{i} | k_{L (e_{i}) - X + 1}^{L (e_{i})}, k_{R (e_{i}) - Y + 1}^{R (e_{i})})

称为修改动作分数。然而，在公式推导的过程，因为各种假设所产生的模型误差与在实际应用时的估算误差会造成不同种类的概率参数，而有不同的鉴别力与可靠度。为弥补这个问题，对不同种类的概率参数的分数给予适当的权重，因此，以评分函数做为理解使用者话语的过程中，寻找最有可能的语词序列、概念剖析树群、概念序列、概念序列典范与修改动作序列的依据为：S(W，F，C，K，E)＝w₁×S_W+w₂×S_F+w₃×S_K+w₄×S_E其中w₁表示语音分数权重，w₂表示文法分数权重，w₃表示概念序列典范分数权重，w₄表示修改动作分数权重，这些权重的值都是大于零。

上述参数N、X与Y的值可视训练的数据而定。一般而言，以N＝2的设定值估算概念序列典范的可能性是可行的。但在一般的应用中，修改动作序列的训练数据明显不易获得，再加上修改动作的概率参数量众多，因此，以X＝0，Y＝0的设定值估算修改动作序列仍有困难。

在这种情况下，可以用修改动作的类别取代修改动作本身，即以下面数学式子来估算概率项P(E|K)：

P (E = e_{1}^{n} | K = k_{1}^{m}) \approx Π_{i = 1}^{n} P (f (e_{i}))

其中f(.)为动作根据表1映射至动作类别的函数。换句话说，当修改动作序列的训练数据不足时，应将概念序列典范分数与该修改动作分数定义如下：

S_{K} = Σ_{i = 1}^{m} \log p (k_{i} | k_{i - 1})

S_{E} = Σ_{i = 1}^{n} \log P (f (e_{i}))

图4绘示概率导向的容错式语言理解方法的方块图。使用者的话语经由语音识别后产生一语句集合140，这个语句集合140可以用语句列表(Sentence List)或是语词图网(Word Graph)的形式表示。在语句集合140内的每一语词w都标注着语音识别模块根据隐马尔可夫模型或是其他方法所估算的分数，称为此语词的语音分数并以S_w表示。评分函数中的语词序列的语音分数S_W就是由语词序列中所有的语词的语音分数相加而成，即

S_{W} = \underset{w &Element; W}{Σ} S_{w} .

图5绘示各语词的语音分数。假设使用者的话语“请问新竹今天早上会不会下雨”经语音识别后所产生的语句集合，如图5所示的“<气温>(-1)<新竹>(-1)<今天>(-1)<早上>(-1)<会不会>(-1)<下雨>(-1)”与“<气温>(-1)<心情>(-2)<晴天>(-2)<操场>(-2)<会不会>(-1)<下雨>(-1)”的语句集合，每一语词都标注着语音识别模块根据隐马尔可夫模型或是其他方法所估算的分数。

在图4中，剖析器142根据CFG(Context-free Grammar，上下文无关文法)的形式，以表示概念文法150将语句集合140剖析成为概念剖析树群集合144。在概念文法150中，每一个非终结符号(Nonterminal Symbol)代表一个概念，例如：Query，Location，Date及Topic。

图6绘示静态文法与动态文法。概念文法分为静态文法160(以G_S表示)与动态文法162(G_D表示)两部分，静态文法160是预先设定的，并且不随输入的语句集合而改变文法规则，动态文法162是以输入的语句集合与静态文法160比较所产生的。

动态文法162产生的方式如下：

G_{D} = {\underset{&OverBar;}{w} &RightArrow; w | w &Element; I, A &RightArrow; w &NotElement; G_{S}}

其中I表示输入的语句集合中所有语词所形成的集合，A为G_S中任一个非终结符号， w为动态产生的非终结符号(用以代表语辞w的概念)，例如：心情与操场， w→w则为动态产生的文法规则，例如：心情→心情。动态文法162中的每一个规则 w→w的概率P(w| w)设定为1。动态文法162的设计是弥补静态文法160的不足，避免有任何语词无法形成概念。

图7绘示概念剖析树群的图例。剖析器在构建概念剖析树T时，同时为概念剖析树T标注下列分数：

w_{1} \times \underset{w &Element; T}{Σ} S_{w} + w_{2} \times \underset{A &RightArrow; α &Element; T}{Σ} \log P (α | A) = w_{1} \times \underset{w &Element; T}{Σ} S_{w} + w_{2} \times \underset{A &RightArrow; α &Element; T}{Σ} S_{A &RightArrow; α}

其中S_A→α＝logP(α|A)表示文法规则A→α的分数。图7中，括号内的分数是设定权重w₁＝w₂＝1的状况下各概念剖析树的分数，并且包含所属的语音分数及文法规则分数。

在图4中，容错解译器(Error-tolerant Interpreter)146将概念剖析树群集合144内所包含的概念序列与概念序列典范152做对比，找出最有可能的概念序列，并将此概念序列转换成为代表语者意图的语意框架148。其中构建概念序列典范时，可以人力剖析文字语料来获得正确的概念序列典范。此外，概念序列典范知识库亦可加入人为定义的合法概念序列，以补文字语料库的不足。

图8绘示概念序列典范的非环式有向图形。概念序列典范可由剖析文字语料获得，并以非环式有向图形(Directed Acyclic Graph)的型式表示，以利解译器快速对比结果。如图8绘示，Query→Location→Date→Topic或Query→Date→Location→Topic等四种的概念序列典范。

图9绘示根据概念剖析树群集合构建的概念图网。在做对比之前，解译器根据概念剖析树群集合构建概念图网(Concept Graph)，如图9所示，Topic(-1.7)→Location(-1)→day(-1)→time(-1)→T9pic(-2.3)、Topic(-1.7)→ 心情(-2)→Topic(-2.5)→ 操场(-2)→Topic(-2.3)或Topic(-1.7)→Location(-1)→Date(-2)→Topic(-2.3)的概念图网形式，其中括号内的分数为各概念来自概念剖析树的分数。

然后，利用有向网路对比(Directed Network Comparison)的方法(Kruskal，J.B.，and D.Sankoff，“An anthology of algorithms and concepts for sequencecomparison(序列比较算法和概念文集)”in Time Watps，String Edits，andMacromolecules：The Theory and Pratice of Sequence Comparsion(序列比较的理论和实践)，D.Sankoff and J.B.Kruskal(Eds.)，Addison-Wesley PublishingCompany，1983，pp.265-310.)，以所选定的评分函数做为距离量度(DistanceMeasure)的依据，对比概念图网及概念序列典范，找出概念图网中最有可能的概念序列及相对应的概念序列典范，并据以构建语意框架。

图10绘示解译器藉由对比概念序列典范及概念序列而构建的语意框架。例如，假设当图8的概念序列典范与图9的概念图网做对比后，在图10产生最有可能概念序列典范及修改动作序列分别为“Query Location DateTopic”及“<Query，Topic><Location，Location><Date，Date><Topic，Topic>”，如此解译器就能判定使用者欲表达的概念序列应为“QueryLocation Date Topic”，并尝试修正对应于概念图网中“Topic Location DateTopic”的概念剖析树群，以构建语意框架。

验证概率导向的容错式语言理解方法(以下简称ET模型)在语音识别发生错误时的效能，与广为一般系统采用的Concept-bigram模型(以下简称CB模型)做为比较对象。CB模型是以下面的评分函数做挑选概念序列的依据：

S (W, F, C) &equiv; w_{1} \times \log {P (U | W)} + w_{2} \times \log {\underset{A &RightArrow; α &Element; F}{Π} P (α | A) + w_{3} \times \log {Π_{i = 1}^{n} P (c_{i} | c_{i - 1})}

其中c_i为C的第i个概念。本实施例所提的ET模型则以公式(W,F,C,K,E)＝w₁×S_w+w₂×S_F+w₃×S_K+w₄×S_E、

S_{K} = Σ_{i = 1}^{m} \log p (k_{i} | k_{i - 1})

及

S_{E} = Σ_{i = 1}^{n} \log p (f (e_{i}))

为评分函数，整体考量语音识别、概念文法及概念序列典范所能提供的信息。

以一个中文口语气象查询系统做为测试的环境，将上述二个不同的语言理解模型嵌入同一个中文口语气象查询系统，以422句气象查询语句做测试．为了能够明显看出本实施例在处理语音识别错误语句的效能，以容错模型是否察觉语音识别错误发生为标准，将测试语句分为合法集合(Well一formed Set)及不合法集合(III-formed Set)。合法集合的语句是经语音识别后所产生的语句集合，这些语句集合可以剖析出合法的概念序列，因此，系统判定并无语音识别错误发生。不合法集合是经语音识别后所产生的语句集合，这些语句集合则无法剖析出合法的概念序列，因此，被判定有语音识别错误发生，必须要进一步对比概念序列典范，以修正语音识别的错误．

在422句测试语句中，有288句属于合法集合(占68％)，134句属于不合法集合(占32％)。由于ET模型判定合法集合内的语句并无语音识别错误发生，因此，无须做错误修正，所以，对合法集合而言，ET模型与CB模型的效能是相同的，语意框架的格位精确率(Precision)及召回率(Recall)皆分别为98.8％及96.O％。

表2

条件	格位精确率	格位召回率
条件	格位精确率	格位召回率	CB模型(习知)	73.O％	60.1％
ET模型(本发明)	83.9％	70.2％	CB模型(习知)	73.O％	60.1％
ET模型(本发明)	83.9％	70.2％	改进幅度	40.3％	25.4％

然而，对不合法集合而言，ET模型与CB模型的效能就大不相同，如表2的CB模型及ET模型对不合法集合的效能及相对的改进幅度所示，ET模型无论格位精确率或是召回率都大幅的改进．若以错误减少率(EmorReduction Rate)做为效能改进的量度依据，本实施例所提的ET模型在格位精确度及召回率分别有40.3％与25.4％的改进幅度。

因此，本发明的优点是利用语料构建正确概念序列的知识库，藉由对比的方式，修复错误的概念序列。整个语言理解的过程是以一个概率导向的评分函数引导。此评分函数整合语音知识、文法知识与概念序列典范知识，用以检测语音识别是否发生错误，并在错误发生时，找出最佳的修正方法。

综上所述，虽然本发明已以较佳实施例公开如上，然其并非用以限定本发明，任何本领域的技术人员，在不脱离本发明的精神和范围内，当可作各种更动与润饰，因此本发明的保护范围当视后附权利要求书所界定者为准。

Claims

1.一种概率导向的容错式自然语言理解方法，包括：

利用一语音识别模块将使用者所说的话语转换成可能的一语句集合；

利用一概念文法将该语句集合剖析成为一概念剖析树群集合，该概念剖析树群集合包括一概念序列；

加入一概念序列典范，其代表该概念文法所认知的合法的该概念序列；以及

将该概念剖析树群集合所包括的该概念序列与该概念序列典范做对比，找出最有可能的该概念序列，并将该概念序列转换成为代表语者意图的一语意框架；

其中在剖析该概念文法与对比该概念序列的过程是以一概率公式表示。

2.如权利要求1所述的概率导向的容错式自然语言理解方法，其中将该概念文法分为一静态文法与一动态文法，其中该静态文法是预先设定的且不随输入的该语句集合而改变的文法规则，该动态文法是以输入的该语句集合与该静态文法比较而产生的。

3.如权利要求1所述的概率导向的容错式自然语言理解方法，其中使用一语句列表与一语词图网中二者择其一的形式以表示该语句集合。

4.如权利要求1所述的概率导向的容错式自然语言理解方法，其中利用该概念序列典范所构建的一概念序列典范知识库可以人力确认剖析结果的正确性，亦可加入人为定义的合法的该概念序列，以补充一文字语料库的不足。

5.如权利要求1所述的概率导向的容错式自然语言理解方法，其中该概率公式为

(\hat{W}, \hat{F}, \hat{C}, \hat{K}, \hat{E}) = \underset{(W, F, C, K, E)}{\arg \max} P (W, F, C, K, E | U),

其中U表示使用者话语的一语音特征，W表示该语音识别模块输出的该语句集合中可能的一语词序列，F表示该系统文法定义中该语词序列的可能的一概念剖析树群，C表示对应于该概念剖析树群的该概念序列，K表示该概念序列典范，E表示将该概念序列典范修改为该概念序列的修改动作序列，

表示使用者话语最有可能的该语词序列、该概念剖析树群、该概念序列、该概念序列典范与该修改动作序列的组合。

6.如权利要求5所述的概率导向的容错式自然语言理解方法，其中该概率公式中的概率项P(W，F，C，K，E|U)进一步推导为：

P (W, F, C, K, E | U) = P (F, C, K, E | W, U) P (W | U) \approx P (F, C, K, E | W) P (W | U)

= \frac{P (W, F, C, K, E)}{P (W)} \frac{P (U | W) P (W)}{P (U)} = \frac{P (W, F, C, K, E) P (U | W)}{P (U)} .

7.如权利要求6所述的概率导向的容错式自然语言理解方法，其中藉由该语音识别模块利用一隐马尔可夫模型估算概率项P(W，F，C，K，E|U)中的概率项P(U|W)。

8.如权利要求6所述的概率导向的容错式自然语言理解方法，其中概率项P(W，F，C，K，E|U)中的概率项P(W，F，C，K，E)的参数量过于庞大而无法直接估算，因此做以下的化简：

9.如权利要求8所述的概率导向的容错式自然语言理解方法，其中在概率项P(W，F|C)与概率项P(F|C)由于该概念剖析树群的一终端节点为该语句序列，因此P(W，F|C)＝P(F|C)。

10.如权利要求9所述的概率导向的容错式自然语言理解方法，其中利用一随机上下文无关语法概率模型在剖析该语音识别模块所产生的该语句集合时，概率项P(F|C)以下式估算：

P (F | C) \approx \underset{T &Element; F, A &RightArrow; α &Element; T}{Π} P (α | A)

其中T表示该概念剖析树群中的一概念剖析树，A→α为组成该概念剖析树的一文法规则，A表示一左端符号，α表示一右端符号群。

11.如权利要求8所述的概率导向的容错式自然语言理解方法，其中在概率项P(W，F，C，K，E)中的概率项P(C，E|K)与概率项P(E|K)，因该修改动作序列中包含该概念序列的消息，所以P(C，E|K)＝P(E|K)。

12.如权利要求11所述的概率导向的容错式自然语言理解方法，其中利用一N-gram概率模型化简概率项P(E|K)如下：

P (E = e_{1} | K = k_{1}) = Π_{i = 1}^{n} P (e_{i} | e_{1}^{i - 1}, k_{1}^{m})

\approx Π_{i = 1}^{n} P (e_{i} | k_{1}^{m}) \approx Π_{i = 1}^{n} P (e_{i} | e_{L (e_{i}) - X + 1}^{L (e_{i})}, k_{R (e_{i}) - Y + 1}^{R (e_{i})})

其中n表示该修改动作序列的一修改动作个数，e_i表示第i个修改动作，L(e_i)表示在该概念序列典范中紧邻e_i左边的一概念的位置，为紧邻e_i左边的该概念，相同地，R(e_i)表示在该概念序列典范中紧邻e_i右边的该概念的位置，表示在该概念序列典范中位于e_i左边的X个该概念，与表示在该概念序列典范中位于e_i右边的Y个该概念。

13.如权利要求8所述的概率导向的容错式自然语言理解方法，其中利用该N-gram概率模型估算概率项P(W，F，C，K，E|U)中的概率项P(K)如下：

P (K = k_{1}^{m}) = Π_{i = 1}^{m} P (k_{i} | k_{1}^{i - 1}) \approx Π_{i = 1}^{m} P (k_{i} | k_{i - N + 1}^{i - 1})

其中m表示该概念序列典范的一概念个数，k_i为第i个该概念，k_l ^m表示k_l，…，k_m。

14.如权利要求5所述的概率导向的容错式自然语言理解方法，其中该概率导向的容错式自然语言理解方法在理解使用者话语的过程可以概率导向的一评分函数来替代该概率公式，该评分函数为

(\hat{W}, \hat{F}, \hat{C}, \hat{K}, \hat{E}) = \underset{(W, F, C, K, E)}{\arg \max} {S_{W} + S_{F} + S_{K} + S_{E}},

其中S_W表示一语音分数，S_F表示一文法分数，S_k表示一概念序列典范分数，S_E表示一修改动作分数，因为各种假设所产生的一模型误差与在应用时的一估算误差会造成不同种类的一概率参数，而有不同的一鉴别力与一可靠度，为弥补这个问题，对不同种类的该概率参数的该分数给予适当的一权重，该权重的值是大于零，因此以该评分函数做为理解使用者话语的过程中，寻找最有可能的该语词序列、该概念剖析树群、该概念序列、该概念序列典范与该修改动作序列的依据为S(W，F，C，K，E)＝w₁×S_w+w₂×S_F+w₃×S_K+w₄×S_E，其中w₁表示一语音分数权重，w₂表示一文法分数权重，w₃表示一概念序列典范分数权重，w₄表示一修改动作分数权重。

15.如权利要求14所述的概率导向的容错式自然语言理解方法，其中估算该评分函数中各分数为该语音分数S_W＝logP(U|W)，该文法分数

S_{F} = \underset{T &Element; F, A &RightArrow; α &Element; T}{Σ} \log P (α | A),

该概念序列典范分数

S_{K} = Σ_{i = 1}^{m} \log p (k_{i} | k_{i - N + 1}^{i - 1}),

该修改动作分数

S_{E} = Σ_{i = 1}^{n} \log P (e_{i} | k_{L (e_{i}) - X + 1}^{L (e_{i})}, k_{R (e_{i}) - Y + 1}^{R (e_{i})}) .

16.如权利要求15所述的概率导向的容错式自然语言理解方法，其中当该修改动作序列的训练数据不足时，将该概念序列典范分数定义为

S_{K} = Σ_{i = 1}^{m} \log p (k_{i} | k_{i - 1}),

与该修改动作分数定义为

S_{E} = Σ_{i = 1}^{n} \log P (f (e_{i})),

其中f(.)表示一动作类别函数。