CN1271550C

CN1271550C - 口语会话中句子边界识别方法

Info

Publication number: CN1271550C
Application number: CN 03147553
Authority: CN
Inventors: 宗成庆; 刘丁
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2003-07-22
Filing date: 2003-07-22
Publication date: 2006-08-23
Anticipated expiration: 2023-07-22
Also published as: CN1570923A

Abstract

口语会话中句子边界识别方法，包括：获得口语语料库；对口语语料库进行替代处理；统计n-gram模型的n元同现频率；估计n元正向依存概率和n元逆向依存概率，其中，所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计；获得n元正、逆向依存概率数据库；设定Maximum Entropy模型的特征函数；循环计算特征函数参数，其中，采用Generalized Iterative Scaling算法计算特征函数参数；获得特征函数参数数据库；所述切分过程包括步骤：用基于正向n-gram模型的切分方法对文本进行切分；用基于逆向n-gram模型的切分方法对文本进行切分；抽取切分点的上下文，用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。本发明不受语言的限制，通过更换训练语料库，可以运用于任何一种语言的句子边界切分。

Description

口语会话中句子边界识别方法

技术领域

本发明涉及语音识别，特别涉及口语句子的边界识别方法。

背景技术

随着计算机硬件条件的飞速发展和语音识别技术的不断提高，以语音为接口的语言理解以及生成系统(以下简称为语音语言联合系统)如人机接口、人机对话系统、同声翻译系统等开始走向实用化。这些系统有着广阔的应用前景。比如人机语音界面，它的完善将使人们不再为学习繁琐的计算机操作而苦恼，因为任何事情你只需“说”给计算机听，它便会按你的要求执行。再如同声翻译技术，它将消除不同种语言使用者之间的交流障碍，这将极大地方便人们跨国旅行，以及在大型国际盛会(奥运会，亚运会等)中让来自不同国度的成员进行方便自如地交流成为可能。在军事上，语音语言联合系统也有着重要的应用。美国已着手研发士兵用同声翻译机，以方便其在异域作战时向当地居民了解情况。另外电话窃听一直是获取军事情报的有效手段，而从大量语音信息中虑取有效信息一直以来完全依赖人工，如果实现机器的自动虑取，将极大地提高效率和节省人力。

从图1可以看出，语音语言联合系统一般由三个模块组成：语音识别模块、句子边界切分模块和语言分析与生成模块。由于语音识别的结果是没有任何标点的连续文本，要进行下一步的分析、转换和生成处理必须先断句，也就是把连续文本分割成一个个的句子，而句子边界切分模块正是行使这样一种功能，它处于语音识别模块和语言分析生成模块的中间，是连接它们的一道桥梁。语音识别技术和语言分析与生成技术一直是计算机科学领域的研究热点，而句子边界切分技术在语音语言联合系统的初步实用化以前并没有受到广泛关注，见参考文献1(Stolcke A.and E.Shriberg.1996.Automatic linguistic segmentation ofconversational speech.Proc.Intl.Conf.On spoken languageprocessing，vol.2，PP.1005-1008，Philadelphia，PA)。如今随着语音语言联合系统的应用的不断扩展，句子边界切分技术作为支撑这种联合应用的核心技术之一，日益受到重视。

发明内容

本发明的目的是提供一种口语会话中句子边界识别方法，其解决了将语音识别后的连续文本转化为后续分析模块可处理的句子的问题。

为实现上述目的，一种口语会话中句子边界识别方法，包括步骤：

获得口语语料库；

对口语语料库进行替代处理；

统计n-gram模型的n元同现频率；

估计n元正向依存概率和n元逆向依存概率，其中，所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计；

获得n元正、逆向依存概率数据库；

设定Maximum Entropy模型的特征函数；

循环计算特征函数参数，其中，采用Generalized Iterative Scaling算法计算特征函数参数；

获得特征函数参数数据库；

用基于正向n-gram模型的切分方法对文本进行切分；

用基于逆向n-gram模型的切分方法对文本进行切分；

抽取切分点的上下文，用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。

口语会话中句子边界识别方法属于纯统计方法，其实施只需要一个后台口语语料库，语料库不需要进行任何深层地切分或者标注等处理。该方法不受语言的限制，通过更换训练语料库，可以运用于任何一种语言的句子边界切分。

附图说明

图1是语音语言应用系统的一般模式。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。

口语语料的预处理

获取的口语语料不能直接拿来训练，必须经过一些预处理。句子边界切分，就是在连续文本中寻找句子的结束点，也即预测那些句末标点的出现位置，因而只要是句末标点，对切分而言都没有区别。预处理的主要工作就是将语料中的句末标点用统一的符号代替，为方便叙述，本文中的替代符号用“SB”表示；而对于非句末标点的其他标点，则要删除，因为语音识别出的文本中是不可能含有这样的标点符号的。对于中文而言，这项工作很容易，直接将句号、问号、感叹号等句末标点替换成统一的符号，再将逗号、冒号、引号等非句末标点删除即可。但有些语言的标点具有歧义，例如，英文的句号“.”，它也用来表示缩写形式，比如“Mr.”，“Dr.”等，这时我们必须先将这些缩写形式替换成不含“.”的形式，然后再用统一的符号替换掉“.”。

N元同现频率的统计和N元依存概率估计

N元同现概率的统计建立在经过预处理的口语语料库的基础上。首先我们要统计出一个基元词表，对于中文而言，这个词表就是语料库中出现的所有字和“SB”，对于英文，这个词表包括所有语料库中出现的单词和缩写等的替换形式以及“SB”。在根据语料库统计出的N元组频率的基础上，我们用Modified Kneser-Ney Smoothing算法对词典中所有条目的N元组合的依存概率进行估计。Modified Kneser-Ney Smoothing对不同出现次数的N元组给予不同程度的消减来补偿那些出现次数为零的N元组，这种平滑方法经Stanley F.Chen等人的评测，性能超过其他平滑方法。

Maximum Entropy模型特征函数设定及参数训练

Maximum Entropy模型是用来估算联合概率的一种统计模型，其中心思想是在满足训练语料约束的情况下使联合事件的熵，也就是不确定性达到最大。在自然语言处理中，联合概率一般表示为：P(b，c)，b表示可能的情况，c表示所在的上下文。在本文所描述的句子边界切分方法中，b被设定为一个布尔型变量，其为真表示判断位置为句子边界，为假则表示判断位置不是句子边界。相应的特征函数成组出现，如下所示：

从上面的公式可以看出，每一组特征函数和一个S_j对应，S_j表示某一长度的字组(中文)或词组(英文)，在本方法中S_j设定为训练语料库中出现的所有三元、二元和一元组。公式里prefix(c)、suffix(c)分别表示判断位置的所有前缀和后缀的集合，举例而言，比如句子“请<1>明<2>天<3>再<4>来<5>”，对于位置<3>，其前缀的集合为{天，明天，请明天}，后缀的集合为{再，再来}；include(prefix(c)，S_j)表示S_j属于prefix(c)。每一个特征函数都有一个权值与之对应，权值表明了特征函数所属的特征对结果影响程度的大小。在本方法中，权值也成组出现，表示为α_j10，α_j11，α_j20，α_j21，这些权值通过Generalized Iterative Scaling算法计算得到，并储存于最大熵参数数据库中。对于某一上下文环境下，某种情况出现的概率计算如下：

P (c, b) = π Π_{j = 1}^{k} (α_{j 10}^{f_{j 10} (b, c)} \times α_{j 11}^{f_{j 11} (b, c)} \times α_{j 20}^{f_{j 20} (b, c)} \times α_{j 21}^{f_{j 21} (b, c)})

k为所设的特征函数的组数，π为归一化变量，在本例中其值为：

π＝P(c，0)+P(c，1)

特别地，有时我们只想考虑左边的上下文或者右边上下文和某种情况出现的联合概率，这时计算公式分别为：

P (c_left, b) = π Π_{j = 1}^{k} (α_{j 10}^{f_{j 10} (b, c)} \times α_{j 11}^{f_{j 11} (b, c)})

P (c_right, b) = π Π_{j = 1}^{k} (α_{j 20}^{f_{j 20} (b, c)} \times α_{j 21}^{f_{j 21} (b, c)})

基于双向n-gram模型和Maximum Entropy模型的句子边界切分方法

对于给定的连续文本“W₁<1>W₂<2>...<n-1>W_n”，其中W_i(1≤i≤n-1)表示基元，句子边界切分就是判断所示的n-1个位置是否为句子边界。用P_is(i)表示位置i是句子边界的概率，用P_no(i)表示位置i不是句子边界的概率，那么位置i被判定是一个句子边界当且仅当P_is(i)＞P_no(i)。

在本方法中，P_is(i)和P_no(i)分别由四部分组成：正向n-gram概率、逆向n-gram概率、最大熵正向修正概率和最大熵逆向修正概率。用公式描述如下：

P_is(i)＝W_{n_is}(C_i)×P_is(i|NN)×W_{r_is}(C_i)×P_is(i|RN)

P_no(i)＝W_{n_no}(C_i)×P_no(i|NN)×W_{r_no}(C_i)×P_no(i|RN)

其中P_is(i|NN)、P_no(i|NN)和P_is(i|RN)、P_no(i|RN)分别表示正、逆向n-gram概率，W_{n_is}(C_i)、W_{n_no}(C_i)和W_{r_is}(C_i)，W_{r_no}(C_i)分别表示对正、逆向n-gram概率的加权值，下面我们分别描述上述各项的计算方法。

正向n-gram切分概率

正向n-gram模型将文本视为从左至右的马尔可夫序列。我们用W₁W₂...W_m(m为自然数)来表示一个输入文字序列，W_i(1≤i≤m)表示基元，根据马尔可夫特性，某一基元出现的概率只和它左边n-1个基元相关，也就是P(W_m|W₁W₂...W_m-1)＝P(W_m|W_m-n+1...W_m-1)。由条件概率公式，文字序列出现的概率可写为：P(W₁W₂...W_m)＝P(W₁W₂...W_m-1)×P(W_m|W₁W₂...W_m-1)，综合起来我们得到：

P(W₁W₂...W_m)＝P(W₁W₂...W_m-1)×P(W_m|W_m-n+1...W_m-1)

将表示句子的边界的符号“SB”加入字符序列中，判断位置i是否为一个句子的边界，即计算P(W₁W₂...W_iSBW_i+1)(即P_is(i|NN))和P(W₁W₂...W_iW_i+1)(即P_no(i|NN))的大小。以3-gram模型为例，考虑到位置i-1有两种情况，一是其为句子边界，二是其不为句子边界，计算P(W₁W₂...W_iSBW_i+1)和P(W₁W₂...W_iW_i+1)的迭带公式为：

P(W₁W₂...W_iSBW_i+1)＝P(W₁W₂...SBW_i)×P(SB|SBW_i)×P(W_i+1|W_iSB)+P(W₁W₂...W_i-1W_i)×P(SB|W_i-1W_i)×P(W_i+1|W_iSB)

P(W₁W₂...W_iW_i+1)＝P(W₁W₂...W_i-1SBW_i)×P(W_i+1|SBW_i)+P(W₁W₂...W_i-1W_i)×P(W_i+1|W_i-1W_i)

假设W₁左边的位置编号为0，那么迭带的初始值为：

P_is(0|NN)＝1

P_no(0|NN)＝0

逆向n-gram切分概率

逆向n-gram模型和正向n-gram模型类似，只是它将字符序列W₁W₂...W_m看成一个从右到左的马尔可夫序列，也就是将他们出现的先后顺序看成是W_mW_m-1...W₁。同样，通过条件概率公式和马尔可夫特性我们得到：

P(W_mW_m-1...W₁)＝P(W_mW_m-1...W₂)×P(W₁|W_nW_n-1...W₂)

W_i为一个句子的终结点，当且仅当P(W_mW_m-1...W_i+1SBW_i)＞P(W_mW_m-1...W_i+1W_i)。

同样，我们给出迭带计算P(W_mW_m-1...W_i+1SBW_i)(即P_is(i+1|RN))和P(W_mW_m-1...W_i+1W_i)即(P_no(i+1|RN))的公式(3-gram)：

P(W_mW_m-1...W_i+1SBW_i)＝P(W_mW_m-1...W_i+2SBW_i+1)×P(SB|SBW_i+1)×P(W_i|W_i+1SB)+P(W_mW_m-1...W_i+2W_i+1)×P(SB|W_i+2W_i+1)×P(W_i|W_i+1SB) 以

P(W_mW_m-1...W_i+1W_i)＝P(W_mW_m-1...W_i+2SBW_i+1)×P(W_i|SBW_i+1)+P(W_mW_m-1...W_i+2W_i+1)×P(W_i|W_i+2W_i+1)

及初始条件：P(SBW_m)＝1，P(W_m)＝0。

逆向n-gram模型从右向左迭带计算每个位置为句子边界的概率，这样做可以避免正向模型的一些错误，比如下面这个句子“小张病了一个星期”，如果采用正向切分，很可能输出如下的结果“小张病了SB一个星期”，因为从左往右搜索，“小张病了”就是一个完整的句子；而如果采用逆向切分，从右往左搜索，我们显然不会把“一个星期”认为是一个完整的句子，那么搜索继续向右，直到句子真正的边界。

最大熵修正权值

通过上面的叙述，基于逆向n-gram切分对正向n-gram的有益补充，我们考虑将正、逆向n-gram概率加权综合起来，而权值的确定即依靠本方法所述的最大熵模型的参数。

如上文所述，W_{n_is}(C_i)，W_{n_no}(C_i)，表示对正向n-gram概率的加权，其计算等同于P(c_left，1)和P(c_left，0)，如下所示：

W_{n_is} (C_{i}) = π Π_{j = 1}^{k} α_{j 11}^{f_{j 11} (1, c_{i})}

W_{n_no} (C_{i}) = π Π_{j = 1}^{k} α_{j 10}^{f_{j 10} (0, c_{i})}

W_{r_is}(C_i)，W_{r_no}(C_i)分别表示对正向n-gram概率的加权，其计算等同于P(c_right，1)和P(c_right，0)，如下所示：

W_{r_is} (C_{i}) = π Π_{j = 1}^{k} α_{j 21}^{f_{j 21} (1, c_{i})}

W_{n_no} (C_{i}) = π Π_{j = 1}^{k} α_{j 20}^{f_{j 20} (0, c_{i})}

为了验证本方法的切分性能，我们利用收集的汉语和英语口语语料进行了句子边界切分实验，并和参考文献中的语言模型(正向n-gram模型)进行了对比。训练语料和测试语料以及切分结果如下所示，需要说明的一点是，测试结果中的准确率为正确切分数目占总切分数目的比率，召回率为正确切分数目占原有句数的比率，而F-Score是综合衡量正确率和召回率的指标，其计算公式为：

表1.训练语料的详细情况

语言	大小	句子数目	平均句长
语言	大小	句子数目	平均句长	汉语	4.02MB	148967	8字
英语	4.49MB	149311	6词	汉语	4.02MB	148967	8字

表2.测试语料的详细情况

语言	大小	句子数目	平均句长
语言	大小	句子数目	平均句长	汉语	412KB	12032	10字
英语	391KB	10518	7词	汉语	412KB	12032	10字

表3.汉语切分实验结果

方法	准确率	召回率	F-Score
方法	准确率	召回率	F-Score	文献[1]	79.4％	84.5％	81.9％
本方法	86.7％	86.0％	86.3％	文献[1]	79.4％	84.5％	81.9％

表4.英语切分实验结果

方法	准确率	召回率	F-Score
方法	准确率	召回率	F-Score	文献[1]	73.4％	83.0％	77.9％
本方法	78.8％	84.9％	81.7％	文献[1]	73.4％	83.0％	77.9％

从实验结果可以看出，我们提出的基于双向n-gram模型和maximumentropy模型的句子边界切分方法在性能上明显超过文献[1]中所用的单纯基于正向n-gram模型的方法，这是因为我们的方法在判断某一位置是否为句子边界时，综合考虑了正、逆向搜索对切分结果的影响，并通过最大熵参数对正、逆向概率进行合理地调整。

Claims

1.一种口语会话中句子边界识别方法，包括步骤：