CN1570921A

CN1570921A - 基于统计模型的口语解析方法

Info

Publication number: CN1570921A
Application number: CN 03147549
Authority: CN
Inventors: 宗成庆; 解国栋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2003-07-22
Filing date: 2003-07-22
Publication date: 2005-01-26

Abstract

一种基于统计模型的口语解析方法，包括步骤：语义表示定义；进行统计解析模型参数的训练；解析句子。本发明的特点是具有较高的鲁棒性，能够较好的处理口语中存在的非规范语言现象。另外，采用统计解析方法，能够快速的实现解析系统在不同领域间的移植，这两个特点，使得这一技术能够很快的在不同领域实现产品化。

Description

基于统计模型的口语解析方法

技术领域

本发明属于计算机科学与技术领域，特别涉及自然语言理解和口语翻译。

背景技术

科学技术的不断进步加快了世界全球化进程，使不同母语的人们在旅游、贸易等更多场合有了日常交流的机会，随之，语言上的障碍也变得日益突出，人们对应用计算机实现口语自动翻译——以达到自由通讯的目的，提出了更为迫切的要求。另一方面，在日常的应用领域中，如电话咨询、自动寻呼、旅馆预定、电话订票、会议预约等等，服务人员所做的只是一些简单的智能工作，而计算机存的信息存储量比人要大的多，信息检索的速度也比人快，动态更新信息的能力也比人强。在这些领域中计算机完全有可能代替人做这些工作，甚至将来会比人做的更好。因此，发展口语机器翻译技术和口语对话系统蕴含着巨大的社会和经济效益。

口语自动解析技术是口语机器翻译和人机对话系统的关键技术之一。国际上开始口语自动解析技术研究的时间可以追溯到八十年代末期，十几年来，以美国、德国、法国和日本为代表的发达国家，对口语理解方法做了大量的研究工作。美国麻省理工学院(MIT)曾于八十年代末期和九十年代初期，先后开发了用于地理信息咨询的VOYAGER系统、用于地理和气象信息库查询的GALAXY系统以及用于在线民航信息咨询的PEGACUS系统和机票预订系统ATIS，MIT为这些对话系统设计了专门的口语解析器TINA；在1993年，欧盟设立了LRE(语言研究和工程)计划，日本文部省也同时设立了UGD(对话的理解和产生)计划，这些计划都是专门用于资助口语解析方法研究的。

目前常见的口语解析技术有规则的方法、关键词匹配的方法、模板匹配的方法等待。这些方法的一个共同的缺点是鲁棒性不够好，对于口语中的非规范语言现象不能够很好的解决。而统计方法在自然语言处理中发挥着越来也重要的作用，这种方法利用大规模语料库作为其知识的来源，能够自动获取知识，因此，能够在很大程度上减轻人的负担，并且其知识来源于真实的文本，所以，统计的方法往往有比较好的鲁棒性和领域可移植性。然而，在口语解析的技术上，统计方法的应用目前尚属空白，本发明就是采用了统计的方法来进行口语的解析。

发明内容

本发明的目的是提供一种基于统计模型的口语自动解析方法，该方法具有较高的鲁棒性、正确率和较好的领域可移植性。

为实现上述目的，一种基于统计模型的口语解析方法，包括步骤：

语义表示的定义；

进行统计解析模型参数的训练；

解析句子。

本发明的特点是具有较高的鲁棒性，能够较好的处理口语中存在的非规范语言现象。另外，采用统计解析方法，能够快速的实现解析系统在不同领域间的移植，这两个特点，使得这一技术能够很快的在不同领域实现产品化。

附图说明

图1是本发明的结构框图，包括训练和解析两个部分；

图2是标注符号序列到框架表示的映射；

图3是统计解析模型HMM的原理示意图。

具体实施方式

下面详细说明本发明技术方案中所涉及的各个细节问题。需要说明的是，我们的方法是独立于某个特定领域的对话解析。但是为了易于理解，我们以旅馆预定领域的口语对话解析为例来说明本发明，因此，文中所涉及的一些数据和符号都和旅馆预定领域相关。

1、语义表示的定义

所谓语义表示就是事先定义的一种能够代表句子语义的、格式统一、为计算机所能接受的符号体系。自然语言是千变万化的，同一个意思，可以有很多种说法，而自然语言解析的任务就是要把各种不同的说法映射成为统一的表示，从而计算机能够根据这种表示，做出相应的响应。常用的语义表示方式有语义网络、配价理论，格语法等等。这些表示方法都是与领域无关的，结构比较复杂，而以目前的技术水平，开发领域无关的翻译技术和对话系统还不够现实；另一方面，我们采用的是统计解析方法，这涉及到一个将语义表示序列化以及由此序列恢复原来的语义表示的过程，因此，我们希望的语义表示格式在结构上尽可能的简单。针对这种情况，我们定义了一种框架表示法，作为本发明的语义表示，这种表示方法适用于限定领域的口语解析，根据需要，可以针对不同领域定义不同的框架表示。

框架表示法的核心是框架，每个句子的语义由一个或多个框架来表示。框架主要由四部分组成，框架名、槽、主题和属性。框架名表示句子的主要意思；槽则表示句子中具体的信息。在实际的句子中，槽往往有相应的槽值，通过槽及其对应的槽值可以表达具体信息。我们以框架reserve_room为例，该框架的框架名为reserve_room，包含who、for_whom、room_type、quantity等槽。reserve_room表示某个句子的主要意思是预定房间；who表示谁预定；for_whom表示为谁预定；room_type表示预定的房间类型；quantity表示预定的数量。主题用来表示句子类型，比如陈述句、一般疑问句，特殊疑问句，反意疑问句等等。属性用来表示一些特殊的句子成分，比如否定、情态动词等等；

表1是框架和槽的例子，后面给出的句子是对应的例句。槽对应的槽值通过“＝”引出，如果一个句子是针对某个槽提问，那么该槽值就用“question”来填充。

表1.句子和对应的框架

框架名称	槽及其值	句子
框架名称	槽及其值	句子	arrival	who＝he，time＝tomorrow	他明天到达。
reserve_room	who＝you，room_type＝question	你要预定什么房间？	arrival	who＝he，time＝tomorrow	他明天到达。
reserve_room	who＝you，room_type＝question	你要预定什么房间？	come_here	who＝you，time＝question	你什么时候过来？

框架表示法在结构上很简单，可以认为有两个层次，框架，属性和主题属于一个层次而所有的槽处于一个层次。在旅馆预定领域，我们定义了170个不同的框架，共有230种槽分属于这些框架。

2、标注符号和手工标注。

我们用框架来表示句子的语义，而我们使用的方法是统计解析方法，其中的统计解析模型的参数是利用手工标注的语料，经过训练获取。手工标注语料的过程是指给出语料中每一个句子对应的语义表示，然后把语义表示离散为一个个符号，并且把这些符号分配给句子中的词汇，实现符号和词汇的对齐，这些符号我们称之为标注符号。对于一个需要解析的句子，经过统计模型解析以后，解析结果也是一个标注符号序列，而我们需要的是框架表示，因此，需要把这个标注符号序列还原为框架表示，这给标注符号的形式提出了要求，也就是说，标注符号应当包含原来框架表示的符号信息和结构信息，这样才能保证标注符号序列能够被正确的转化为原来的框架。而在我们定义的框架表示法里面，只有四种类型的符号，框架、槽、主题和属性，分属于两个层次之上，因此，在定义标注符号的时候，不用考虑复杂的位置和层次信息，只需标志出该符号是框架名、槽名、主题或者是属性。我们定义前缀“f：”来表示某个标注符号是框架名称，定义前缀“c：”来表示某个标注符号是槽名，定义前缀“t：”表示某个标注符号是框架的主题，定义前缀“p：”表示某个标注符号是框架的属性。而对于那些无法对应到框架表示的原句子中的词汇，则给它们分配一个空的标注符号，不代表任何意思，只起占位的作用。所有标注符号都用大括号“{}”括起来。表2是一个句子对应的语义符号和标注符号。一个句子，经过解析后，结果是一个标注符号序列，利用上述的前缀信息，可以很容易的把这些标注符号转换成为框架表示。图2表示了从表2中的标注符号映射到框架表示。

表2.句子、语义符号和标注符号

句子	我预订一个单人间
句子	我预订一个单人间	语义符号序列	PEOPLE V_RESERVE QUANTITY U_GEROOM_TYPE
标注	{c：who} {f：reserve_room} {c：quantity} {}{c：room_type}	语义符号序列	PEOPLE V_RESERVE QUANTITY U_GEROOM_TYPE

3、对句子进行分词汇

无论是对于收集的语料或者是对于一个需要解析的句子，首先都需要对之进行分词。常用的分词方法是最大匹配，并可以辅之于规则和概率等方法。由于我们本发明是针对特定领域的口语解析，所遇到的词汇量是十分有限的，因此，我们采用了正向最大匹配方法来进行分词，其正确率可以满足系统的需要。

4、词汇的语义归类

对词汇进行语义归类，就是把每个词汇归属到不同的语义类里面去，这类似于词性标注，不过此时标注的不是词性，而是词汇所属的语义类。

表3.语义类和语义类包含的词汇

语义类	语义类包含的词汇
语义类	语义类包含的词汇	N_C_COST	费用收费经费费花费
N_C_BED	床床位铺位床铺榻榻密大床	N_C_COST	费用收费经费费花费
N_C_BED	床床位铺位床铺榻榻密大床	N_O_COUNTRY_PERSON	英国人日本人美国人德国人
N_C_NAME	姓名名字全名大名	N_O_COUNTRY_PERSON	英国人日本人美国人德国人
N_C_NAME	姓名名字全名大名	V_INCLUDE	包括带有加上加
V_RESERVE	预订订预约单订	V_INCLUDE	包括带有加上加

语义的归类是按照词典进行。我们定义了一个语义类词典，该词典对特定领域内的词汇进行了语义分类。分类的原则是按照词汇在句子中的语义功能进行的，语义功能相同的词汇归为一类。比如“单人间”和“单人房”，它们的词义是相同的，其语义功能必然相同，所以这两个词汇属于一类。又比如“大”和“小”，它们的词义不同，但在句子中的语义功能基本是相同的，所以把它们归为一类。一个句子中的词汇经过语义归类后，就得到一个语义类序列。表3给出了旅馆预定领域内的部分语义类。

4、统计解析模型

我们采用隐马尔可夫模型(HMM，Hidden Markov Model)作为我们的统计解析模型。隐马尔可夫模型描述了一类重要的随机过程，在该模型中，观察到的事件是模型内部状态的随机函数。模型内部的状态转换是不可观察(隐蔽)的，而可观察的事件的随机过程是隐蔽状态转换过程的随机函数。

隐马尔可夫模型可以记做<S，O，A，B，л>，它由五部分组成：

(1)模型的状态S，状态数记为N

(2)模型的输出0(从每个状态可能输出的符号)，输出数记为M.

(3)状态转移概率矩阵A＝a_ij。其中，

a_ij＝P(q_t＝S_j|q_t-1＝S_i)，1≤i，j≤N

a_ij≥0，

\underset{j = 1}{Σ} a_{ij} = 1

(4)从状态s_j输出观察v_k的概率分布矩阵B＝b_j(k)其中，

b_j(k)＝P(o_t＝v_k|q_t＝S_j)，1≤j≤N，1≤k≤M

b_j(k)≥0，

\underset{k = 1}{Σ} b_{j} (k) = 1

(5)初始状态概率分布向量π＝π_i，其中

π_i＝P(q₁＝S_i)，1≤i≤N

π_i≥0，

\underset{i = 1}{Σ} π_{i} = 1

每一个句子都有它的语义，任何语义都要通过一个或多个的句子来体现，句子和其语义之间的关系可以用隐马尔可夫模型来体现。对于一个需要解析的句子，其对应的语义类序列相当于HMM的观察状态，而标注符号序列——即句子的语义表示相当于HMM的内部状态。HMM的参数可以通过手工标注的语料进行训练得到。解析的过程相当于给定一个HMM的观察序列O₁O₂......O_T——即语义类序列，如何选择一个最优的状态序列Q＝q₁q₂......q_T。这一过程可以利用韦特比算法来实现。该算法首先定义了一个韦特比变量δ_t(i)，表示在t步HMM沿着某一条路经到达状态s_i，并输出观察序列O₁O₂......O_t的最大概率：

δ_{t} (i) = \max_{q_{1} q_{2}, . . . q_{i - 1}} p (q_{1} q_{2}, . . . q_{t} = S_{i}, O_{1} O_{2} . . . O_{t} | λ)

δ_t(i)有如下的递归关系：

δ_{t + 1} (i) = [\max_{j} δ_{t} (j) a_{ji}] \cdot b_{i} (O_{t + 1})

除了δ_t(i)外，韦特比算法利用变量ψ_t(i)来记忆在第t步HMM是通过哪一条概率最大的路径到达状态S_i前面一个状态。

在我们的系统中，我们采用了一个各态遍历的二阶HMM作为解析模型，它允许所有标注符号之间能够相互转换。图2表示了一个实际的解析过程中，HMM内部的状态和外部的观察的情况。

实施例

整个方案主要包含训练和解析两个过程，为了详细说明该发明的具体实施方式，我们以旅馆预定领域口语对话翻译系统为例，加以说明。

训练过程：

我们通过相关的渠道，收集旅馆预定领域内一定数量的语料，然后对这些语料进行分词和语义类归类；分析语料，并根据旅馆预定领域口语对话语义的特定，定义具体的框架表示和相应的标注符号，在此基础之上，对语料进行手工标注，得到一批经过标注的语料，然后，利用这些语料对统计解析模型的参数进行训练，得到统计解析模型。

解析过程：

对于一个需要解析的句子，首先对它进行分词，然后对其中的词汇进行语义类归类，这样，就得到了句子对应的语义类序列，将这个语义类序列作为统计解析模型HMM的输入，利用韦特比算法，可以求出该句子对应的标注符号序列，最后把标注符号转化为框架表示，即完成了口语的解析。

Claims

1.一种基于统计模型的口语解析方法，包括步骤：

语义表示的定义；

进行统计解析模型参数的训练；

解析句子。

2.按权利要求1所述的方法，其特征在于所述的语义表示的定义包括：定义能够表示出该领域对话句子的语义的表示格式；

将语义表示格式离散化为一个个独立的符号，这些符号包含着语义表示格式的所有信息，包括结构信息和符号信息。

3.按权利要求2所述的方法，其特征在于所述语义的表示格式包括：框架名、槽、主题和属性。

4.按权利要求1所述的方法，其特征在于所述的进行统计解析模型参数的训练包括：

收集相关领域的口语对话语料；

对语料中的每一个句子进行分词；

对句子中的词汇进行语义归类；

按照定义的标注符号，对句子中的每个词汇分配一个标注符号。

5.按权利要求1所述的方法，其特征在于所述的解析句子包括：

对句子进行分词；

对句子中的词汇进行语义归类；

利用统计解析模型，对经过上述两步处理得到的数据进行处理，从而得到句子对应的标注符号序列；

将标注符号序列转换为语义表示格式。

6.按权利要求5所述的方法，其特征在于解析句子采用隐马尔可夫模型。