CN108491383A

CN108491383A - 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法

Info

Publication number: CN108491383A
Application number: CN201810209087.1A
Authority: CN
Inventors: 王红斌; 沈强; 线岩团; 余正涛; 郭剑毅; 文永华
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2018-09-04

Abstract

本发明涉及一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，属于自然语言处理技术领域。本发明对泰语中空格符的分类起到了很好的分类效果，对泰语句子切分和泰语句子边界识别的研究工作起到了良好的促进作用；本发明在泰语句子切分研究中取得了很好的句子切分效果，为机器翻译、命名实体识别、句子相似度计算、快速构建大型语料库技术、信息抽取和信息检索等研究工作提供强有力的支撑。

Description

一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法

技术领域

本发明涉及一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，属于自然语言处理技术领域。

背景技术

泰语句子切分是泰语自然语言处理研究工作的基础。大部分自然语言处理的研究成果都需求语言的输入或输出是句子而不是整个段落，例如，机器翻译、命名实体识别、句子相似度计算和快速构建大型语料库技术等研究。在自然语言处理研究的句子切分研究中主要可以分为两个方面，一方面为识别缺乏句末标识或弱句末标识语言的句末边界，例如维吾尔语、藏语和泰语等；另一方面为对有句末标识语言的句末边界识别进行歧义消除，例如汉语和英语等。因此泰语句子切分研究是泰语自然语言处理研究的重要基石，与分词和词性标注等研究工作具有同等重要的地位，能够为后续自然语言处理的研究工作带来巨大价值。

发明内容

本发明提供了一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，用于解决泰语句子边界模糊，不易于计算机进行快速的智能处理等问题。

本发明的技术方案是：一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，所述方法的具体步骤如下：

所述方法的具体步骤如下：

Step1、对泰语句子切分语料采集和预处理，构建出泰语文本语料库；对泰语文本语料库进行泰语分词和词性标注，构建泰语句子切分研究所需的结构化泰语文本语料库；

Step2、设b∈{sb,nsb}为结构化泰语文本语料库中泰语文本里空格符的标记值，sb标记泰语句末空格符，nsb标记非泰语句末空格符；然后根据结构化泰语文本语料库中泰语文本空格符周围的上下文情况，选择上下文窗口windows＝t，并依据上下文窗口大小制定泰语文本中空格符上下文的抽取模板S和泰语文本空格符上下文内容的取值规范；其中，t表示窗口大小；

Step3、根据泰语文本中句子边界的相关语言特点，制定代表泰语空格符约束条件的二值约束特征函数集合F＝(f₁(v,b),f₂(v,b),…,f_j(v,b),…,f_k(v,b))；其中，k为二值约束特征函数的总数，v是空格符的上下文向量，b是空格符的类别；

Step4、根据泰语文本中空格符上下文的抽取模板S对结构化泰语文本语料库中泰语文本的空格符上下文进行抽取，获得泰语文本中空格符上下文c＝(t₁,t₂,…,t_i,…,t_m)，t_i为泰语空格符上下文抽取模板的第i项内容，m为泰语文本空格符上下文抽取模板的长度，从而在结构化泰语文本语料库的基础上获得泰语文本空格符上下文的集合C＝{c₁,c₂,…,c_i,…,c_n}，n为结构化泰语文本语料库中所有空格符的总数；

Step5、根据制定的泰语文本空格符上下文内容的取值规范，对结构化泰语文本语料库中所有的空格符上下文c进行数字化抽象和数值规范，获得泰语文本中每一个空格符的上下文向量v＝{d₁,d₂,…,d_i,…,d_m}，从而构建结构化泰语文本语料库中关于泰语文本空格符的上下文向量空间V＝{v₁,v₂,…,v_i,…,v_n}；

Step6、按照训练集、测试集的比例，对泰语文本空格符的上下文向量空间进行随机抽样，划分出关于泰语文本空格符上下文的训练集向量空间V_train和测试集向量空间V_test，V_train+V_test＝V；

Step7、在训练集向量空间V_train上，使用最大熵分类算法进行最大熵分类模型训练，从而获得能对泰语文本中空格符进行分类的最大熵分类模型；

Step8、使用最大熵分类模型对测试集向量空间V_test中的所有样本进行分类，从而获得测试集向量空间中所有样本的待校正泰语标记序列；

Step9、构建对待校正泰语标记序列进行校正的正则表达式规则集；

Step10、使用所构建的正则表达式规则集对测试集向量空间中所有样本的待校正泰语标记序列进行规则校正，从而获得泰语文本中关于句子切分的最终标记序列集合，实现泰语句子的切分。

所述步骤Step1具体为：

Step1.1、利用网络爬虫技术，从互联网上收集泰语新闻和电子书籍的泰语文本，并对获得的泰语文本进行过滤、去重和去噪音的预处理操作，从而构建出泰语文本语料库；

Step1.2、通过泰语分词工具和泰语词性标注工具对泰语文本语料库进行泰语分词和词性标注，并进行人工校对，从而构建泰语句子切分研究所需的结构化泰语文本语料库。

所述二值约束特征函数的总数k＝7，二值约束特征函数f_j为：

此约束特征能帮助学习英文之后的空格符通常为非句末空格符的现象；

此约束特征学习的是在泰语中的阿拉伯数字或者量词之后，通常会出现非句末空格符的现象；

此约束特征帮助学习引号或者括号等成对出现的标点之中的空格符更可能为非句末空格的现象；

此约束特征帮助学习在泰语中固有重叠符号的前后出现的空格符更可能为非句末空格的现象；

此约束特征帮助学习在泰语中的小省略符号之后的出现的空格符更可能为非句末空格的现象；

此约束特征帮助学习人称敬词和人名之间的空格符更可能为非句末空格的现象；

此约束特征帮助学习泰语文本中逗号之后出现的空格符更可能为非句末空格的现象。

所述训练集、测试集的比例9:1。

所述步骤Step9具体为：

Step9.1、统计泰语的句子成分、结构和相关语法现象及关于泰语书写系统的习惯约定；

Step9.2、统计分析泰语文本语料库中句子边界的具体组合和固定搭配的情况；

Step9.3、总结对泰语文本语料库中句子边界的研究分析，构建对待校正泰语标记序列进行校正的正则表达式规则集A和正则表达式规则集B；其中正则表达式规则集A为针对泰语文本中句末空格符的校正规则集，正则表达式规则集B为针对泰语文本中非句末空格符的校正规则集。

本发明的有益效果是：

1、本发明对泰语中空格符的分类起到了很好的分类效果，对泰语句子切分和泰语句子边界识别的研究工作起到了良好的促进作用；

2、本发明在泰语句子切分研究中取得了很好的句子切分效果，为机器翻译、命名实体识别、句子相似度计算、快速构建大型语料库技术、信息抽取和信息检索等研究工作提供强有力的支撑。

附图说明

图1为本发明的原理流程图；

图2为本发明的应用流程图。

具体实施方式

实施例1：如图1-2所示，一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，所述方法具体步骤如下：

Step1.2、通过泰语分词工具和泰语词性标注工具对泰语文本语料库进行泰语分词和词性标注，并进行人工校对，从而构建泰语句子切分研究所需的结构化泰语文本语料库；

构建结构化泰语文本语料库时使用的是Orchid泰语词性标记集，如表1所示。然后根据泰语空格符的实际位置，将其标记修改为句末空格符标记(sb)和非句末空格符标记(nsb)，如表1所示(表1仅仅只是举例说明，本实施例的实施以表5中的内容为准)；

表1泰语输入序列构成示例

表中<space>表示泰语中空格符所在的位置，sb为句末空格符标记，nsb为非句末空格符标记，RPRE为介词的标记，NCMN为普通名词的标记，XVAM为否定词之后的前置助动词的标记，VACT为主动动词的标记，XVAE为后置助动词的标记。

Step2、设b∈{sb,nsb}为结构化泰语文本语料库中泰语文本里空格符的标记值，sb标记泰语句末空格符，nsb标记非泰语句末空格符；然后根据结构化泰语文本语料库中泰语文本空格符周围的上下文情况，选择合适的上下文窗口windows＝3，并依据上下文窗口大小制定泰语文本中空格符上下文的抽取模板S和泰语文本空格符上下文内容的取值规范，具体过程，如表2和表3所示，泰语空格符的上下文取值以表3中从上至下的第一匹配类型为主。然后为了保证位于输入中最末尾的空格符能够抽取右边的上下文，将其同时添加到输入的最开始位置并视为同一个空格符标记，如下表4中的阴影部分所示。

表2泰语空格符上下文的选择模板

上下文内容	上下文描述
		b	被观察的泰语空格符的标记类型
l_-3	被观察的泰语空格符左侧第三个词的标记
		l_-2	被观察的泰语空格符左侧第二个词的标记
l_-1	被观察的泰语空格符左侧第一个词的标记
		r₁	被观察的泰语空格符右侧第一个词的标记
r₂	被观察的泰语空格符右侧第二个词的标记
		r₃	被观察的泰语空格符右侧第三个词的标记
p	被观察的泰语空格符与前一个空格符的距离(词数)
		n	被观察的泰语空格符与后一个空格符的距离(词数)

表3泰语空格符上下文内容的描述

表4泰语输入中末尾空格符调整结果

Step3、根据泰语文本中句子边界的相关语言特点，制定代表泰语空格符约束条件的二值约束特征函数集合F＝(f₁(v,b),f₂(v,b),…,f_j(v,b),…,f_k(v,b))，k＝7为二值约束特征函数的总数，二值约束特征函数f_j的示例如下所示：

此约束特征学习的是在泰语中的阿拉伯数字或者量词之后，通常会出现非句末空格符的现象。

此约束特征帮助学习人称敬词(Mr.)，(Mrs.)，(Miss)和人名之间的空格符更可能为非句末空格的现象；

此约束特征帮助学习泰语文本中逗号之后出现的空格符更可能为非句末空格的现象；

根据表2和表3制定的泰语文本空格符上下文抽取模板进行上下文抽取的具体过程示例，如下表5和表6所示：

表5待上下文特征抽取的内容

表6泰语空格符上下文特征抽取结果

B

c＝l_-3

c＝l_-2

c＝l_-1

c＝r₁

c＝r₂

c＝r₃

c＝p

c＝n

Nsb

PREL

VSTA

NCMN

NUM

SP

CMTR

4

1

Nsb

NCMN

SP

NUM

CMTR

SP

XVBM

1

Nsb

NUM

SP

CMTR

XVBM

VACT

RPRE

1

3

Nsb

XVBM

VACT

RPRE

NCMN

SP

NCMN

3

1

Nsb

RPRE

SP

NCMN

SP

NCMN

1

Nsb

NCMN

SP

NCMN

SP

JSBR

1

Nsb

NCMN

SP

NCMN

JSBR

VSTA

NCMN

1

3

Nsb

JSBR

VSTA

NCMN

NUM

SP

CMTR

3

1

Nsb

NCMN

SP

NUM

CMTR

SP

NCMN

1

Sb

NUM

SP

CMTR

NCMN

PREL

VSTA

1

4

Step5、根据制定的泰语文本空格符上下文内容的取值规范，对结构化泰语文本语料库中所有的空格符上下文c进行数字化抽象和数值规范，获得泰语文本中每一个空格符的上下文向量v＝{d₁,d₂,…,d_i,…,d_m}，从而构建结构化泰语文本语料库中关于泰语文本空格符的上下文向量空间V＝{v₁,v₂,…,v_i,…,v_n}，n为结构化泰语文本语料库中所有空格符的总数；

Step6、按照训练集:测试集＝9:1的比例，对泰语文本空格符的上下文向量空间进行随机抽样，划分出关于泰语文本空格符上下文的训练集向量空间V_train和测试集向量空间V_test，即V_train:V_test＝9:1，V_train+V_test＝V；

Step7、在训练集向量空间V_train上，使用最大熵分类算法进行最大熵分类模型训练，从而获得能对泰语文本中空格符进行分类的最大熵模型；

最大熵分类算法的目标是获得满足所有约束条件F时，条件概率分布p(b|v)的条件熵H(p)为最大值时的概率分布，即：

其中，b为泰语文本里空格符的标记值，v为泰语文本中每一个空格符的上下文向量，为满足条件概率分布p(b|v)的条件熵，式中的对数为自然对数，为关于v的经验分布；表示某一样本v的条件下，在b的取值范围内，b为各个合法值的条件概率和；E_p(f_j)代表二值约束特征函数f_j(v,b)关于概率p(b|v)和的期望值，代表二值约束特征函数f_j(v,b)关于联合概率期望值，即：

由于最大熵分类模型的训练等价于对最大熵分类模型的极大似然估计这一事实，因此通过求解对数似然函数的极大化，可以将最大熵分类模型的更一般形式，表达如下：

其中，

W＝{w₁,w₂,…,w_j,…w_k}为最大熵分类模型的权值参数向量，Z_w(v)为归一化因子，w_j∈W为第j个二值约束特征函数的权值；

Step7.1、最大熵分类算法首先需要对训练集向量空间V_train进行统计，从而得到联合概率p(v,b)的经验分布和边缘概率p(v)的经验分布具体定义如下所示：

其中Rows为训练集向量空间V_train的行数，即训练集样本总数；count(b,v)为训练集向量空间V_train中样本(b,v)出现的频数，count(v)为训练集向量空间V_train中样本v出现的频数；

Step7.2、将权值向量w中的所有权值参数初始化为0；

Step7.3、通过IIS(Improved Iterative Scaling，IIS)算法对权值向量w中的权值参数进行更新，更新公式如下所示：

f^*(v,b)代表所有二值约束特征在样本(v,b)出现的频数，θ＝{θ₁,θ₂,…,θ_j,…θ_k}为权值向量W的更新向量，θ_j为权值向量W中第j个权值参数的更新参数，即w_j＝w_j+θ_j；

迭代上述步骤，直到所有权值参数都收敛或达到截止条件，即获得一组满足需求的权值向量W，从而获得能对泰语文本中空格符进行分类的最大熵分类模型；

Step9.1、统计泰语的句子成分、结构和相关语法现象及关于泰语书写系统的习惯约定；Step9.2、统计分析泰语文本语料库中句子边界的具体组合和固定搭配的情况；Step9.3、总结对泰语文本语料库中句子边界的研究分析，构建对待校正泰语标记序列进行校正的正则表达式规则集A和正则表达式规则集B，其中正则表达式规则集A为针对泰语文本中句末空格符的校正规则集，正则表达式规则集B为针对泰语文本中非句末空格符的校正规则集；具体内容，如表7所示；

表7泰语空格符校正规则

Step10、使用所构建的正则表达式规则集对测试集向量空间中所有样本的待校正泰语标记序列进行规则校正，从而获得泰语文本中关于句子切分的最终标记序列集合，实现泰语句子的切分。所述步骤Step10进行的规则校正过程中，首先使用正则表达式规则集B对最大熵模型分类的句末(sb)空格符进行校正，然后在使用正则表达式规则集A对最大熵模型分类的非句末(nsb)空格符进行校正。

在本发明基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法中，关于本发明的性能使用的评价指标分别为对泰语输入序列中空格符的识别准确率(space-correct)、对泰语输入序列中句末空格符的识别错误率(false-break)和对泰语输入序列中句末空格符的召回率(sb-recall)，评价指标的具体定义和公式如下所示：

设测试集语料中，

1)所有空格符的总数为T；

2)正确识别的句末空格符和非句末空格符的总和为TC；

3)FSB为错误识别的句末空格符的数目；

4)TCB为正确识别的句末空格符的数目；

5)TSB为所有句末空格符的总数。

space-correct＝TC/T

false-break＝FSB/T

sb-recall＝TCB/TSB

为了验证本发明的实际应用效果，分别对比包括本发明方法在内的三种泰语句子切分方法的性能，从而对本发明方法的有效性进行了检验。首先使用在自然语言处理和连续语音识别问题中针对字母、单词或者符号标签的预测任务所常用的Ngram语言模型，此方法简单实用且易于实现，作为此次对比的基准；然后将仅简单使用通用特征模板的最大熵泰语句子切分方法作为对比中的另一个对比。具体的对比设置如下表8所示：

表8泰语句子切分对比实验设置

在未使用本发明所构建的泰语句子边界校正规则库对本发明最大熵分类模型的空格符分类结果进行校正时，各个方法的模型在泰语测试语料上获得的结果如下表9所示：

表9未使用规则校正时的性能对比结果

然后在最大熵分类模型对泰语测试语料中空格符的分类结果上，使用本发明所构建的校正规则对最大熵分类后的空格符类型及其上下文进行规则匹配，从而对本发明最大熵空格符分类结果进行校正。在规则校正的过程中，首先使用正则表达式规则集B对本发明最大熵模型分类的句末(sb)空格符进行校正，然后在使用正则表达式规则集A对本发明最大熵模型分类的非句末(nsb)空格符进行校正。最后获得的最终性能对比结果，如下表10所示：

表10泰语句子切分性能对比结果

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，其特征在于：所述步骤Step1具体为：

3.根据权利要求1所述的基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，其特征在于：所述二值约束特征函数的总数k＝7，二值约束特征函数f_j为：

4.根据权利要求1所述的基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，其特征在于：所述训练集、测试集的比例9:1。

5.根据权利要求1所述的基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法，其特征在于：所述步骤Step9具体为：