CN1271550C - 口语会话中句子边界识别方法 - Google Patents

口语会话中句子边界识别方法 Download PDF

Info

Publication number
CN1271550C
CN1271550C CN 03147553 CN03147553A CN1271550C CN 1271550 C CN1271550 C CN 1271550C CN 03147553 CN03147553 CN 03147553 CN 03147553 A CN03147553 A CN 03147553A CN 1271550 C CN1271550 C CN 1271550C
Authority
CN
China
Prior art keywords
probability
reverse
sentence
model
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 03147553
Other languages
English (en)
Other versions
CN1570923A (zh
Inventor
宗成庆
刘丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN 03147553 priority Critical patent/CN1271550C/zh
Publication of CN1570923A publication Critical patent/CN1570923A/zh
Application granted granted Critical
Publication of CN1271550C publication Critical patent/CN1271550C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

口语会话中句子边界识别方法,包括:获得口语语料库;对口语语料库进行替代处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;获得特征函数参数数据库;所述切分过程包括步骤:用基于正向n-gram模型的切分方法对文本进行切分;用基于逆向n-gram模型的切分方法对文本进行切分;抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。本发明不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。

Description

口语会话中句子边界识别方法
技术领域
本发明涉及语音识别,特别涉及口语句子的边界识别方法。
背景技术
随着计算机硬件条件的飞速发展和语音识别技术的不断提高,以语音为接口的语言理解以及生成系统(以下简称为语音语言联合系统)如人机接口、人机对话系统、同声翻译系统等开始走向实用化。这些系统有着广阔的应用前景。比如人机语音界面,它的完善将使人们不再为学习繁琐的计算机操作而苦恼,因为任何事情你只需“说”给计算机听,它便会按你的要求执行。再如同声翻译技术,它将消除不同种语言使用者之间的交流障碍,这将极大地方便人们跨国旅行,以及在大型国际盛会(奥运会,亚运会等)中让来自不同国度的成员进行方便自如地交流成为可能。在军事上,语音语言联合系统也有着重要的应用。美国已着手研发士兵用同声翻译机,以方便其在异域作战时向当地居民了解情况。另外电话窃听一直是获取军事情报的有效手段,而从大量语音信息中虑取有效信息一直以来完全依赖人工,如果实现机器的自动虑取,将极大地提高效率和节省人力。
从图1可以看出,语音语言联合系统一般由三个模块组成:语音识别模块、句子边界切分模块和语言分析与生成模块。由于语音识别的结果是没有任何标点的连续文本,要进行下一步的分析、转换和生成处理必须先断句,也就是把连续文本分割成一个个的句子,而句子边界切分模块正是行使这样一种功能,它处于语音识别模块和语言分析生成模块的中间,是连接它们的一道桥梁。语音识别技术和语言分析与生成技术一直是计算机科学领域的研究热点,而句子边界切分技术在语音语言联合系统的初步实用化以前并没有受到广泛关注,见参考文献1(Stolcke A.and E.Shriberg.1996.Automatic linguistic segmentation ofconversational speech.Proc.Intl.Conf.On spoken languageprocessing,vol.2,PP.1005-1008,Philadelphia,PA)。如今随着语音语言联合系统的应用的不断扩展,句子边界切分技术作为支撑这种联合应用的核心技术之一,日益受到重视。
发明内容
本发明的目的是提供一种口语会话中句子边界识别方法,其解决了将语音识别后的连续文本转化为后续分析模块可处理的句子的问题。
为实现上述目的,一种口语会话中句子边界识别方法,包括步骤:
获得口语语料库;
对口语语料库进行替代处理;
统计n-gram模型的n元同现频率;
估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;
获得n元正、逆向依存概率数据库;
设定Maximum Entropy模型的特征函数;
循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;
获得特征函数参数数据库;
用基于正向n-gram模型的切分方法对文本进行切分;
用基于逆向n-gram模型的切分方法对文本进行切分;
抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。
口语会话中句子边界识别方法属于纯统计方法,其实施只需要一个后台口语语料库,语料库不需要进行任何深层地切分或者标注等处理。该方法不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。
附图说明
图1是语音语言应用系统的一般模式。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。
口语语料的预处理
获取的口语语料不能直接拿来训练,必须经过一些预处理。句子边界切分,就是在连续文本中寻找句子的结束点,也即预测那些句末标点的出现位置,因而只要是句末标点,对切分而言都没有区别。预处理的主要工作就是将语料中的句末标点用统一的符号代替,为方便叙述,本文中的替代符号用“SB”表示;而对于非句末标点的其他标点,则要删除,因为语音识别出的文本中是不可能含有这样的标点符号的。对于中文而言,这项工作很容易,直接将句号、问号、感叹号等句末标点替换成统一的符号,再将逗号、冒号、引号等非句末标点删除即可。但有些语言的标点具有歧义,例如,英文的句号“.”,它也用来表示缩写形式,比如“Mr.”,“Dr.”等,这时我们必须先将这些缩写形式替换成不含“.”的形式,然后再用统一的符号替换掉“.”。
N元同现频率的统计和N元依存概率估计
N元同现概率的统计建立在经过预处理的口语语料库的基础上。首先我们要统计出一个基元词表,对于中文而言,这个词表就是语料库中出现的所有字和“SB”,对于英文,这个词表包括所有语料库中出现的单词和缩写等的替换形式以及“SB”。在根据语料库统计出的N元组频率的基础上,我们用Modified Kneser-Ney Smoothing算法对词典中所有条目的N元组合的依存概率进行估计。Modified Kneser-Ney Smoothing对不同出现次数的N元组给予不同程度的消减来补偿那些出现次数为零的N元组,这种平滑方法经Stanley F.Chen等人的评测,性能超过其他平滑方法。
Maximum Entropy模型特征函数设定及参数训练
Maximum Entropy模型是用来估算联合概率的一种统计模型,其中心思想是在满足训练语料约束的情况下使联合事件的熵,也就是不确定性达到最大。在自然语言处理中,联合概率一般表示为:P(b,c),b表示可能的情况,c表示所在的上下文。在本文所描述的句子边界切分方法中,b被设定为一个布尔型变量,其为真表示判断位置为句子边界,为假则表示判断位置不是句子边界。相应的特征函数成组出现,如下所示:
Figure C0314755300061
Figure C0314755300064
从上面的公式可以看出,每一组特征函数和一个Sj对应,Sj表示某一长度的字组(中文)或词组(英文),在本方法中Sj设定为训练语料库中出现的所有三元、二元和一元组。公式里prefix(c)、suffix(c)分别表示判断位置的所有前缀和后缀的集合,举例而言,比如句子“请<1>明<2>天<3>再<4>来<5>”,对于位置<3>,其前缀的集合为{天,明天,请明天},后缀的集合为{再,再来};include(prefix(c),Sj)表示Sj属于prefix(c)。每一个特征函数都有一个权值与之对应,权值表明了特征函数所属的特征对结果影响程度的大小。在本方法中,权值也成组出现,表示为αj10,αj11,αj20,αj21,这些权值通过Generalized Iterative Scaling算法计算得到,并储存于最大熵参数数据库中。对于某一上下文环境下,某种情况出现的概率计算如下:
P ( c , b ) = &pi; &Pi; j = 1 k ( &alpha; j 10 f j 10 ( b , c ) &times; &alpha; j 11 f j 11 ( b , c ) &times; &alpha; j 20 f j 20 ( b , c ) &times; &alpha; j 21 f j 21 ( b , c ) )
k为所设的特征函数的组数,π为归一化变量,在本例中其值为:
              π=P(c,0)+P(c,1)
特别地,有时我们只想考虑左边的上下文或者右边上下文和某种情况出现的联合概率,这时计算公式分别为:
P ( c _ left , b ) = &pi; &Pi; j = 1 k ( &alpha; j 10 f j 10 ( b , c ) &times; &alpha; j 11 f j 11 ( b , c ) )
P ( c _ right , b ) = &pi; &Pi; j = 1 k ( &alpha; j 20 f j 20 ( b , c ) &times; &alpha; j 21 f j 21 ( b , c ) )
基于双向n-gram模型和Maximum Entropy模型的句子边界切分方法
对于给定的连续文本“W1<1>W2<2>...<n-1>Wn”,其中Wi(1≤i≤n-1)表示基元,句子边界切分就是判断所示的n-1个位置是否为句子边界。用Pis(i)表示位置i是句子边界的概率,用Pno(i)表示位置i不是句子边界的概率,那么位置i被判定是一个句子边界当且仅当Pis(i)>Pno(i)。
在本方法中,Pis(i)和Pno(i)分别由四部分组成:正向n-gram概率、逆向n-gram概率、最大熵正向修正概率和最大熵逆向修正概率。用公式描述如下:
Pis(i)=Wn_is(Ci)×Pis(i|NN)×Wr_is(Ci)×Pis(i|RN)
Pno(i)=Wn_no(Ci)×Pno(i|NN)×Wr_no(Ci)×Pno(i|RN)
其中Pis(i|NN)、Pno(i|NN)和Pis(i|RN)、Pno(i|RN)分别表示正、逆向n-gram概率,Wn_is(Ci)、Wn_no(Ci)和Wr_is(Ci),Wr_no(Ci)分别表示对正、逆向n-gram概率的加权值,下面我们分别描述上述各项的计算方法。
正向n-gram切分概率
正向n-gram模型将文本视为从左至右的马尔可夫序列。我们用W1W2...Wm(m为自然数)来表示一个输入文字序列,Wi(1≤i≤m)表示基元,根据马尔可夫特性,某一基元出现的概率只和它左边n-1个基元相关,也就是P(Wm|W1W2...Wm-1)=P(Wm|Wm-n+1...Wm-1)。由条件概率公式,文字序列出现的概率可写为:P(W1W2...Wm)=P(W1W2...Wm-1)×P(Wm|W1W2...Wm-1),综合起来我们得到:
P(W1W2...Wm)=P(W1W2...Wm-1)×P(Wm|Wm-n+1...Wm-1)
将表示句子的边界的符号“SB”加入字符序列中,判断位置i是否为一个句子的边界,即计算P(W1W2...WiSBWi+1)(即Pis(i|NN))和P(W1W2...WiWi+1)(即Pno(i|NN))的大小。以3-gram模型为例,考虑到位置i-1有两种情况,一是其为句子边界,二是其不为句子边界,计算P(W1W2...WiSBWi+1)和P(W1W2...WiWi+1)的迭带公式为:
P(W1W2...WiSBWi+1)=P(W1W2...SBWi)×P(SB|SBWi)×P(Wi+1|WiSB)+P(W1W2...Wi-1Wi)×P(SB|Wi-1Wi)×P(Wi+1|WiSB)
P(W1W2...WiWi+1)=P(W1W2...Wi-1SBWi)×P(Wi+1|SBWi)+P(W1W2...Wi-1Wi)×P(Wi+1|Wi-1Wi)
假设W1左边的位置编号为0,那么迭带的初始值为:
Pis(0|NN)=1
Pno(0|NN)=0
逆向n-gram切分概率
逆向n-gram模型和正向n-gram模型类似,只是它将字符序列W1W2...Wm看成一个从右到左的马尔可夫序列,也就是将他们出现的先后顺序看成是WmWm-1...W1。同样,通过条件概率公式和马尔可夫特性我们得到:
P(WmWm-1...W1)=P(WmWm-1...W2)×P(W1|WnWn-1...W2)
Wi为一个句子的终结点,当且仅当P(WmWm-1...Wi+1SBWi)>P(WmWm-1...Wi+1Wi)。
同样,我们给出迭带计算P(WmWm-1...Wi+1SBWi)(即Pis(i+1|RN))和P(WmWm-1...Wi+1Wi)即(Pno(i+1|RN))的公式(3-gram):
P(WmWm-1...Wi+1SBWi)=P(WmWm-1...Wi+2SBWi+1)×P(SB|SBWi+1)×P(Wi|Wi+1SB)+P(WmWm-1...Wi+2Wi+1)×P(SB|Wi+2Wi+1)×P(Wi|Wi+1SB)    以
P(WmWm-1...Wi+1Wi)=P(WmWm-1...Wi+2SBWi+1)×P(Wi|SBWi+1)+P(WmWm-1...Wi+2Wi+1)×P(Wi|Wi+2Wi+1)
及初始条件:P(SBWm)=1,P(Wm)=0。
逆向n-gram模型从右向左迭带计算每个位置为句子边界的概率,这样做可以避免正向模型的一些错误,比如下面这个句子“小张病了一个星期”,如果采用正向切分,很可能输出如下的结果“小张病了SB一个星期”,因为从左往右搜索,“小张病了”就是一个完整的句子;而如果采用逆向切分,从右往左搜索,我们显然不会把“一个星期”认为是一个完整的句子,那么搜索继续向右,直到句子真正的边界。
最大熵修正权值
通过上面的叙述,基于逆向n-gram切分对正向n-gram的有益补充,我们考虑将正、逆向n-gram概率加权综合起来,而权值的确定即依靠本方法所述的最大熵模型的参数。
如上文所述,Wn_is(Ci),Wn_no(Ci),表示对正向n-gram概率的加权,其计算等同于P(c_left,1)和P(c_left,0),如下所示:
W n _ is ( C i ) = &pi; &Pi; j = 1 k &alpha; j 11 f j 11 ( 1 , c i )
W n _ no ( C i ) = &pi; &Pi; j = 1 k &alpha; j 10 f j 10 ( 0 , c i )
Wr_is(Ci),Wr_no(Ci)分别表示对正向n-gram概率的加权,其计算等同于P(c_right,1)和P(c_right,0),如下所示:
W r _ is ( C i ) = &pi; &Pi; j = 1 k &alpha; j 21 f j 21 ( 1 , c i )
W n _ no ( C i ) = &pi; &Pi; j = 1 k &alpha; j 20 f j 20 ( 0 , c i )
为了验证本方法的切分性能,我们利用收集的汉语和英语口语语料进行了句子边界切分实验,并和参考文献中的语言模型(正向n-gram模型)进行了对比。训练语料和测试语料以及切分结果如下所示,需要说明的一点是,测试结果中的准确率为正确切分数目占总切分数目的比率,召回率为正确切分数目占原有句数的比率,而F-Score是综合衡量正确率和召回率的指标,其计算公式为:
表1.训练语料的详细情况
  语言   大小   句子数目   平均句长
  汉语   4.02MB   148967   8字
  英语   4.49MB   149311   6词
表2.测试语料的详细情况
  语言  大小   句子数目   平均句长
  汉语  412KB   12032   10字
  英语  391KB   10518   7词
表3.汉语切分实验结果
方法   准确率   召回率   F-Score
  文献[1] 79.4% 84.5% 81.9%
  本方法 86.7% 86.0% 86.3%
表4.英语切分实验结果
方法   准确率   召回率   F-Score
  文献[1]   73.4%   83.0%   77.9%
  本方法 78.8% 84.9% 81.7%
从实验结果可以看出,我们提出的基于双向n-gram模型和maximumentropy模型的句子边界切分方法在性能上明显超过文献[1]中所用的单纯基于正向n-gram模型的方法,这是因为我们的方法在判断某一位置是否为句子边界时,综合考虑了正、逆向搜索对切分结果的影响,并通过最大熵参数对正、逆向概率进行合理地调整。

Claims (1)

1.一种口语会话中句子边界识别方法,包括步骤:
获得口语语料库;
对口语语料库进行替代处理;
统计n-gram模型的n元同现频率;
估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;
获得n元正、逆向依存概率数据库;
设定Maximum Entropy模型的特征函数;
循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;
获得特征函数参数数据库;
用基于正向n-gram模型的切分方法对文本进行切分;
用基于逆向n-gram模型的切分方法对文本进行切分;
抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。
CN 03147553 2003-07-22 2003-07-22 口语会话中句子边界识别方法 Expired - Fee Related CN1271550C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 03147553 CN1271550C (zh) 2003-07-22 2003-07-22 口语会话中句子边界识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 03147553 CN1271550C (zh) 2003-07-22 2003-07-22 口语会话中句子边界识别方法

Publications (2)

Publication Number Publication Date
CN1570923A CN1570923A (zh) 2005-01-26
CN1271550C true CN1271550C (zh) 2006-08-23

Family

ID=34471977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 03147553 Expired - Fee Related CN1271550C (zh) 2003-07-22 2003-07-22 口语会话中句子边界识别方法

Country Status (1)

Country Link
CN (1) CN1271550C (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915B (zh) * 2005-09-29 2010-05-05 国际商业机器公司 训练语料扩充系统和方法
CN1945693B (zh) * 2005-10-09 2010-10-13 株式会社东芝 训练韵律统计模型、韵律切分和语音合成的方法及装置
CN103902524A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子边界识别方法
CN107680584B (zh) * 2017-09-29 2020-08-25 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
CN112036174B (zh) * 2019-05-15 2023-11-07 南京大学 一种标点标注方法及装置
CN111222331B (zh) * 2019-12-31 2021-03-26 北京捷通华声科技股份有限公司 辅助解码方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN1570923A (zh) 2005-01-26

Similar Documents

Publication Publication Date Title
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
CN111125334B (zh) 一种基于预训练的搜索问答系统
CN1135485C (zh) 利用计算机系统的日文文本字的识别
CN1303582C (zh) 自动语音归类方法
Gildea et al. Topic-based language models using EM
US9336771B2 (en) Speech recognition using non-parametric models
CN1177313C (zh) 带方言背景的汉语语音识别方法
CN1667699A (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
EP1922653A1 (en) Word clustering for input data
CN111291188A (zh) 一种智能信息抽取方法及系统
CN101079044A (zh) 一种音频片断之间相似度度量的方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN112231451B (zh) 指代词恢复方法、装置、对话机器人及存储介质
CN113590778A (zh) 智能客服意图理解方法、装置、设备及存储介质
CN108491407B (zh) 一种面向代码检索的查询扩展方法
CN102999533A (zh) 一种火星文识别方法和系统
CN107341188A (zh) 基于语义分析的高效数据筛选方法
CN1271550C (zh) 口语会话中句子边界识别方法
CN1879148A (zh) 用于语法产生的语义标记到短语的分配
CN1916904A (zh) 一种基于文档扩展的单文档摘要方法
CN108595413B (zh) 一种基于语义依存树的答案抽取方法
Minkov et al. Learning graph walk based similarity measures for parsed text
CN1193304C (zh) 切分非切分语言的输入字符序列的方法
CN116756346A (zh) 一种信息检索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060823

Termination date: 20190722

CF01 Termination of patent right due to non-payment of annual fee