CN108491383A - 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 - Google Patents
一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 Download PDFInfo
- Publication number
- CN108491383A CN108491383A CN201810209087.1A CN201810209087A CN108491383A CN 108491383 A CN108491383 A CN 108491383A CN 201810209087 A CN201810209087 A CN 201810209087A CN 108491383 A CN108491383 A CN 108491383A
- Authority
- CN
- China
- Prior art keywords
- thai
- sentence
- space character
- space
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012937 correction Methods 0.000 title claims description 19
- 238000011160 research Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 39
- 238000012360 testing method Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 239000000463 material Substances 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000009472 formulation Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013519 translation Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 3
- 101100353161 Drosophila melanogaster prel gene Proteins 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241000233855 Orchidaceae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,属于自然语言处理技术领域。本发明对泰语中空格符的分类起到了很好的分类效果,对泰语句子切分和泰语句子边界识别的研究工作起到了良好的促进作用;本发明在泰语句子切分研究中取得了很好的句子切分效果,为机器翻译、命名实体识别、句子相似度计算、快速构建大型语料库技术、信息抽取和信息检索等研究工作提供强有力的支撑。
Description
技术领域
本发明涉及一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,属于自然语言处理技术领域。
背景技术
泰语句子切分是泰语自然语言处理研究工作的基础。大部分自然语言处理的研究成果都需求语言的输入或输出是句子而不是整个段落,例如,机器翻译、命名实体识别、句子相似度计算和快速构建大型语料库技术等研究。在自然语言处理研究的句子切分研究中主要可以分为两个方面,一方面为识别缺乏句末标识或弱句末标识语言的句末边界,例如维吾尔语、藏语和泰语等;另一方面为对有句末标识语言的句末边界识别进行歧义消除,例如汉语和英语等。因此泰语句子切分研究是泰语自然语言处理研究的重要基石,与分词和词性标注等研究工作具有同等重要的地位,能够为后续自然语言处理的研究工作带来巨大价值。
发明内容
本发明提供了一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,用于解决泰语句子边界模糊,不易于计算机进行快速的智能处理等问题。
本发明的技术方案是:一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,所述方法的具体步骤如下:
所述方法的具体步骤如下:
Step1、对泰语句子切分语料采集和预处理,构建出泰语文本语料库;对泰语文本语料库进行泰语分词和词性标注,构建泰语句子切分研究所需的结构化泰语文本语料库;
Step2、设b∈{sb,nsb}为结构化泰语文本语料库中泰语文本里空格符的标记值,sb标记泰语句末空格符,nsb标记非泰语句末空格符;然后根据结构化泰语文本语料库中泰语文本空格符周围的上下文情况,选择上下文窗口windows=t,并依据上下文窗口大小制定泰语文本中空格符上下文的抽取模板S和泰语文本空格符上下文内容的取值规范;其中,t表示窗口大小;
Step3、根据泰语文本中句子边界的相关语言特点,制定代表泰语空格符约束条件的二值约束特征函数集合F=(f1(v,b),f2(v,b),…,fj(v,b),…,fk(v,b));其中,k为二值约束特征函数的总数,v是空格符的上下文向量,b是空格符的类别;
Step4、根据泰语文本中空格符上下文的抽取模板S对结构化泰语文本语料库中泰语文本的空格符上下文进行抽取,获得泰语文本中空格符上下文c=(t1,t2,…,ti,…,tm),ti为泰语空格符上下文抽取模板的第i项内容,m为泰语文本空格符上下文抽取模板的长度,从而在结构化泰语文本语料库的基础上获得泰语文本空格符上下文的集合C={c1,c2,…,ci,…,cn},n为结构化泰语文本语料库中所有空格符的总数;
Step5、根据制定的泰语文本空格符上下文内容的取值规范,对结构化泰语文本语料库中所有的空格符上下文c进行数字化抽象和数值规范,获得泰语文本中每一个空格符的上下文向量v={d1,d2,…,di,…,dm},从而构建结构化泰语文本语料库中关于泰语文本空格符的上下文向量空间V={v1,v2,…,vi,…,vn};
Step6、按照训练集、测试集的比例,对泰语文本空格符的上下文向量空间进行随机抽样,划分出关于泰语文本空格符上下文的训练集向量空间Vtrain和测试集向量空间Vtest,Vtrain+Vtest=V;
Step7、在训练集向量空间Vtrain上,使用最大熵分类算法进行最大熵分类模型训练,从而获得能对泰语文本中空格符进行分类的最大熵分类模型;
Step8、使用最大熵分类模型对测试集向量空间Vtest中的所有样本进行分类,从而获得测试集向量空间中所有样本的待校正泰语标记序列;
Step9、构建对待校正泰语标记序列进行校正的正则表达式规则集;
Step10、使用所构建的正则表达式规则集对测试集向量空间中所有样本的待校正泰语标记序列进行规则校正,从而获得泰语文本中关于句子切分的最终标记序列集合,实现泰语句子的切分。
所述步骤Step1具体为:
Step1.1、利用网络爬虫技术,从互联网上收集泰语新闻和电子书籍的泰语文本,并对获得的泰语文本进行过滤、去重和去噪音的预处理操作,从而构建出泰语文本语料库;
Step1.2、通过泰语分词工具和泰语词性标注工具对泰语文本语料库进行泰语分词和词性标注,并进行人工校对,从而构建泰语句子切分研究所需的结构化泰语文本语料库。
所述二值约束特征函数的总数k=7,二值约束特征函数fj为:
此约束特征能帮助学习英文之后的空格符通常为非句末空格符的现象;
此约束特征学习的是在泰语中的阿拉伯数字或者量词之后,通常会出现非句末空格符的现象;
此约束特征帮助学习引号或者括号等成对出现的标点之中的空格符更可能为非句末空格的现象;
此约束特征帮助学习在泰语中固有重叠符号的前后出现的空格符更可能为非句末空格的现象;
此约束特征帮助学习在泰语中的小省略符号之后的出现的空格符更可能为非句末空格的现象;
此约束特征帮助学习人称敬词和人名之间的空格符更可能为非句末空格的现象;
此约束特征帮助学习泰语文本中逗号之后出现的空格符更可能为非句末空格的现象。
所述训练集、测试集的比例9:1。
所述步骤Step9具体为:
Step9.1、统计泰语的句子成分、结构和相关语法现象及关于泰语书写系统的习惯约定;
Step9.2、统计分析泰语文本语料库中句子边界的具体组合和固定搭配的情况;
Step9.3、总结对泰语文本语料库中句子边界的研究分析,构建对待校正泰语标记序列进行校正的正则表达式规则集A和正则表达式规则集B;其中正则表达式规则集A为针对泰语文本中句末空格符的校正规则集,正则表达式规则集B为针对泰语文本中非句末空格符的校正规则集。
本发明的有益效果是:
1、本发明对泰语中空格符的分类起到了很好的分类效果,对泰语句子切分和泰语句子边界识别的研究工作起到了良好的促进作用;
2、本发明在泰语句子切分研究中取得了很好的句子切分效果,为机器翻译、命名实体识别、句子相似度计算、快速构建大型语料库技术、信息抽取和信息检索等研究工作提供强有力的支撑。
附图说明
图1为本发明的原理流程图;
图2为本发明的应用流程图。
具体实施方式
实施例1:如图1-2所示,一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,所述方法具体步骤如下:
Step1、对泰语句子切分语料采集和预处理,构建出泰语文本语料库;对泰语文本语料库进行泰语分词和词性标注,构建泰语句子切分研究所需的结构化泰语文本语料库;
Step1.1、利用网络爬虫技术,从互联网上收集泰语新闻和电子书籍的泰语文本,并对获得的泰语文本进行过滤、去重和去噪音的预处理操作,从而构建出泰语文本语料库;
Step1.2、通过泰语分词工具和泰语词性标注工具对泰语文本语料库进行泰语分词和词性标注,并进行人工校对,从而构建泰语句子切分研究所需的结构化泰语文本语料库;
构建结构化泰语文本语料库时使用的是Orchid泰语词性标记集,如表1所示。然后根据泰语空格符的实际位置,将其标记修改为句末空格符标记(sb)和非句末空格符标记(nsb),如表1所示(表1仅仅只是举例说明,本实施例的实施以表5中的内容为准);
表1泰语输入序列构成示例
表中<space>表示泰语中空格符所在的位置,sb为句末空格符标记,nsb为非句末空格符标记,RPRE为介词的标记,NCMN为普通名词的标记,XVAM为否定词之后的前置助动词的标记,VACT为主动动词的标记,XVAE为后置助动词的标记。
Step2、设b∈{sb,nsb}为结构化泰语文本语料库中泰语文本里空格符的标记值,sb标记泰语句末空格符,nsb标记非泰语句末空格符;然后根据结构化泰语文本语料库中泰语文本空格符周围的上下文情况,选择合适的上下文窗口windows=3,并依据上下文窗口大小制定泰语文本中空格符上下文的抽取模板S和泰语文本空格符上下文内容的取值规范,具体过程,如表2和表3所示,泰语空格符的上下文取值以表3中从上至下的第一匹配类型为主。然后为了保证位于输入中最末尾的空格符能够抽取右边的上下文,将其同时添加到输入的最开始位置并视为同一个空格符标记,如下表4中的阴影部分所示。
表2泰语空格符上下文的选择模板
上下文内容 | 上下文描述 |
b | 被观察的泰语空格符的标记类型 |
l-3 | 被观察的泰语空格符左侧第三个词的标记 |
l-2 | 被观察的泰语空格符左侧第二个词的标记 |
l-1 | 被观察的泰语空格符左侧第一个词的标记 |
r1 | 被观察的泰语空格符右侧第一个词的标记 |
r2 | 被观察的泰语空格符右侧第二个词的标记 |
r3 | 被观察的泰语空格符右侧第三个词的标记 |
p | 被观察的泰语空格符与前一个空格符的距离(词数) |
n | 被观察的泰语空格符与后一个空格符的距离(词数) |
表3泰语空格符上下文内容的描述
表4泰语输入中末尾空格符调整结果
Step3、根据泰语文本中句子边界的相关语言特点,制定代表泰语空格符约束条件的二值约束特征函数集合F=(f1(v,b),f2(v,b),…,fj(v,b),…,fk(v,b)),k=7为二值约束特征函数的总数,二值约束特征函数fj的示例如下所示:
此约束特征能帮助学习英文之后的空格符通常为非句末空格符的现象;
此约束特征学习的是在泰语中的阿拉伯数字或者量词之后,通常会出现非句末空格符的现象。
此约束特征帮助学习引号或者括号等成对出现的标点之中的空格符更可能为非句末空格的现象;
此约束特征帮助学习在泰语中固有重叠符号的前后出现的空格符更可能为非句末空格的现象;
此约束特征帮助学习在泰语中的小省略符号之后的出现的空格符更可能为非句末空格的现象;
此约束特征帮助学习人称敬词(Mr.),(Mrs.),(Miss)和人名之间的空格符更可能为非句末空格的现象;
此约束特征帮助学习泰语文本中逗号之后出现的空格符更可能为非句末空格的现象;
Step4、根据泰语文本中空格符上下文的抽取模板S对结构化泰语文本语料库中泰语文本的空格符上下文进行抽取,获得泰语文本中空格符上下文c=(t1,t2,…,ti,…,tm),ti为泰语空格符上下文抽取模板的第i项内容,m为泰语文本空格符上下文抽取模板的长度,从而在结构化泰语文本语料库的基础上获得泰语文本空格符上下文的集合C={c1,c2,…,ci,…,cn},n为结构化泰语文本语料库中所有空格符的总数;
根据表2和表3制定的泰语文本空格符上下文抽取模板进行上下文抽取的具体过程示例,如下表5和表6所示:
表5待上下文特征抽取的内容
表6泰语空格符上下文特征抽取结果
B | c=l-3 | c=l-2 | c=l-1 | c=r1 | c=r2 | c=r3 | c=p | c=n |
Nsb | PREL | VSTA | NCMN | NUM | SP | CMTR | 4 | 1 |
Nsb | NCMN | SP | NUM | CMTR | SP | XVBM | 1 | 1 |
Nsb | NUM | SP | CMTR | XVBM | VACT | RPRE | 1 | 3 |
Nsb | XVBM | VACT | RPRE | NCMN | SP | NCMN | 3 | 1 |
Nsb | RPRE | SP | NCMN | NCMN | SP | NCMN | 1 | 1 |
Nsb | NCMN | SP | NCMN | NCMN | SP | JSBR | 1 | 1 |
Nsb | NCMN | SP | NCMN | JSBR | VSTA | NCMN | 1 | 3 |
Nsb | JSBR | VSTA | NCMN | NUM | SP | CMTR | 3 | 1 |
Nsb | NCMN | SP | NUM | CMTR | SP | NCMN | 1 | 1 |
Sb | NUM | SP | CMTR | NCMN | PREL | VSTA | 1 | 4 |
Step5、根据制定的泰语文本空格符上下文内容的取值规范,对结构化泰语文本语料库中所有的空格符上下文c进行数字化抽象和数值规范,获得泰语文本中每一个空格符的上下文向量v={d1,d2,…,di,…,dm},从而构建结构化泰语文本语料库中关于泰语文本空格符的上下文向量空间V={v1,v2,…,vi,…,vn},n为结构化泰语文本语料库中所有空格符的总数;
Step6、按照训练集:测试集=9:1的比例,对泰语文本空格符的上下文向量空间进行随机抽样,划分出关于泰语文本空格符上下文的训练集向量空间Vtrain和测试集向量空间Vtest,即Vtrain:Vtest=9:1,Vtrain+Vtest=V;
Step7、在训练集向量空间Vtrain上,使用最大熵分类算法进行最大熵分类模型训练,从而获得能对泰语文本中空格符进行分类的最大熵模型;
最大熵分类算法的目标是获得满足所有约束条件F时,条件概率分布p(b|v)的条件熵H(p)为最大值时的概率分布,即:
其中,b为泰语文本里空格符的标记值,v为泰语文本中每一个空格符的上下文向量,为满足条件概率分布p(b|v)的条件熵,式中的对数为自然对数,为关于v的经验分布;表示某一样本v的条件下,在b的取值范围内,b为各个合法值的条件概率和;Ep(fj)代表二值约束特征函数fj(v,b)关于概率p(b|v)和的期望值,代表二值约束特征函数fj(v,b)关于联合概率期望值,即:
由于最大熵分类模型的训练等价于对最大熵分类模型的极大似然估计这一事实,因此通过求解对数似然函数的极大化,可以将最大熵分类模型的更一般形式,表达如下:
其中,
W={w1,w2,…,wj,…wk}为最大熵分类模型的权值参数向量,Zw(v)为归一化因子,wj∈W为第j个二值约束特征函数的权值;
Step7.1、最大熵分类算法首先需要对训练集向量空间Vtrain进行统计,从而得到联合概率p(v,b)的经验分布和边缘概率p(v)的经验分布具体定义如下所示:
其中Rows为训练集向量空间Vtrain的行数,即训练集样本总数;count(b,v)为训练集向量空间Vtrain中样本(b,v)出现的频数,count(v)为训练集向量空间Vtrain中样本v出现的频数;
Step7.2、将权值向量w中的所有权值参数初始化为0;
Step7.3、通过IIS(Improved Iterative Scaling,IIS)算法对权值向量w中的权值参数进行更新,更新公式如下所示:
f*(v,b)代表所有二值约束特征在样本(v,b)出现的频数,θ={θ1,θ2,…,θj,…θk}为权值向量W的更新向量,θj为权值向量W中第j个权值参数的更新参数,即wj=wj+θj;
迭代上述步骤,直到所有权值参数都收敛或达到截止条件,即获得一组满足需求的权值向量W,从而获得能对泰语文本中空格符进行分类的最大熵分类模型;
Step8、使用最大熵分类模型对测试集向量空间Vtest中的所有样本进行分类,从而获得测试集向量空间中所有样本的待校正泰语标记序列;
Step9、构建对待校正泰语标记序列进行校正的正则表达式规则集;
Step9.1、统计泰语的句子成分、结构和相关语法现象及关于泰语书写系统的习惯约定;Step9.2、统计分析泰语文本语料库中句子边界的具体组合和固定搭配的情况;Step9.3、总结对泰语文本语料库中句子边界的研究分析,构建对待校正泰语标记序列进行校正的正则表达式规则集A和正则表达式规则集B,其中正则表达式规则集A为针对泰语文本中句末空格符的校正规则集,正则表达式规则集B为针对泰语文本中非句末空格符的校正规则集;具体内容,如表7所示;
表7泰语空格符校正规则
Step10、使用所构建的正则表达式规则集对测试集向量空间中所有样本的待校正泰语标记序列进行规则校正,从而获得泰语文本中关于句子切分的最终标记序列集合,实现泰语句子的切分。所述步骤Step10进行的规则校正过程中,首先使用正则表达式规则集B对最大熵模型分类的句末(sb)空格符进行校正,然后在使用正则表达式规则集A对最大熵模型分类的非句末(nsb)空格符进行校正。
在本发明基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法中,关于本发明的性能使用的评价指标分别为对泰语输入序列中空格符的识别准确率(space-correct)、对泰语输入序列中句末空格符的识别错误率(false-break)和对泰语输入序列中句末空格符的召回率(sb-recall),评价指标的具体定义和公式如下所示:
设测试集语料中,
1)所有空格符的总数为T;
2)正确识别的句末空格符和非句末空格符的总和为TC;
3)FSB为错误识别的句末空格符的数目;
4)TCB为正确识别的句末空格符的数目;
5)TSB为所有句末空格符的总数。
space-correct=TC/T
false-break=FSB/T
sb-recall=TCB/TSB
为了验证本发明的实际应用效果,分别对比包括本发明方法在内的三种泰语句子切分方法的性能,从而对本发明方法的有效性进行了检验。首先使用在自然语言处理和连续语音识别问题中针对字母、单词或者符号标签的预测任务所常用的Ngram语言模型,此方法简单实用且易于实现,作为此次对比的基准;然后将仅简单使用通用特征模板的最大熵泰语句子切分方法作为对比中的另一个对比。具体的对比设置如下表8所示:
表8泰语句子切分对比实验设置
在未使用本发明所构建的泰语句子边界校正规则库对本发明最大熵分类模型的空格符分类结果进行校正时,各个方法的模型在泰语测试语料上获得的结果如下表9所示:
表9未使用规则校正时的性能对比结果
然后在最大熵分类模型对泰语测试语料中空格符的分类结果上,使用本发明所构建的校正规则对最大熵分类后的空格符类型及其上下文进行规则匹配,从而对本发明最大熵空格符分类结果进行校正。在规则校正的过程中,首先使用正则表达式规则集B对本发明最大熵模型分类的句末(sb)空格符进行校正,然后在使用正则表达式规则集A对本发明最大熵模型分类的非句末(nsb)空格符进行校正。最后获得的最终性能对比结果,如下表10所示:
表10泰语句子切分性能对比结果
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,其特征在于:所述方法的具体步骤如下:
Step1、对泰语句子切分语料采集和预处理,构建出泰语文本语料库;对泰语文本语料库进行泰语分词和词性标注,构建泰语句子切分研究所需的结构化泰语文本语料库;
Step2、设b∈{sb,nsb}为结构化泰语文本语料库中泰语文本里空格符的标记值,sb标记泰语句末空格符,nsb标记非泰语句末空格符;然后根据结构化泰语文本语料库中泰语文本空格符周围的上下文情况,选择上下文窗口windows=t,并依据上下文窗口大小制定泰语文本中空格符上下文的抽取模板S和泰语文本空格符上下文内容的取值规范;其中,t表示窗口大小;
Step3、根据泰语文本中句子边界的相关语言特点,制定代表泰语空格符约束条件的二值约束特征函数集合F=(f1(v,b),f2(v,b),…,fj(v,b),…,fk(v,b));其中,k为二值约束特征函数的总数,v是空格符的上下文向量,b是空格符的类别;
Step4、根据泰语文本中空格符上下文的抽取模板S对结构化泰语文本语料库中泰语文本的空格符上下文进行抽取,获得泰语文本中空格符上下文c=(t1,t2,…,ti,…,tm),ti为泰语空格符上下文抽取模板的第i项内容,m为泰语文本空格符上下文抽取模板的长度,从而在结构化泰语文本语料库的基础上获得泰语文本空格符上下文的集合C={c1,c2,…,ci,…,cn},n为结构化泰语文本语料库中所有空格符的总数;
Step5、根据制定的泰语文本空格符上下文内容的取值规范,对结构化泰语文本语料库中所有的空格符上下文c进行数字化抽象和数值规范,获得泰语文本中每一个空格符的上下文向量v={d1,d2,…,di,…,dm},从而构建结构化泰语文本语料库中关于泰语文本空格符的上下文向量空间V={v1,v2,…,vi,…,vn};
Step6、按照训练集、测试集的比例,对泰语文本空格符的上下文向量空间进行随机抽样,划分出关于泰语文本空格符上下文的训练集向量空间Vtrain和测试集向量空间Vtest,Vtrain+Vtest=V;
Step7、在训练集向量空间Vtrain上,使用最大熵分类算法进行最大熵分类模型训练,从而获得能对泰语文本中空格符进行分类的最大熵分类模型;
Step8、使用最大熵分类模型对测试集向量空间Vtest中的所有样本进行分类,从而获得测试集向量空间中所有样本的待校正泰语标记序列;
Step9、构建对待校正泰语标记序列进行校正的正则表达式规则集;
Step10、使用所构建的正则表达式规则集对测试集向量空间中所有样本的待校正泰语标记序列进行规则校正,从而获得泰语文本中关于句子切分的最终标记序列集合,实现泰语句子的切分。
2.根据权利要求1所述的基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,其特征在于:所述步骤Step1具体为:
Step1.1、利用网络爬虫技术,从互联网上收集泰语新闻和电子书籍的泰语文本,并对获得的泰语文本进行过滤、去重和去噪音的预处理操作,从而构建出泰语文本语料库;
Step1.2、通过泰语分词工具和泰语词性标注工具对泰语文本语料库进行泰语分词和词性标注,并进行人工校对,从而构建泰语句子切分研究所需的结构化泰语文本语料库。
3.根据权利要求1所述的基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,其特征在于:所述二值约束特征函数的总数k=7,二值约束特征函数fj为:
此约束特征能帮助学习英文之后的空格符通常为非句末空格符的现象;
此约束特征学习的是在泰语中的阿拉伯数字或者量词之后,通常会出现非句末空格符的现象;
此约束特征帮助学习引号或者括号等成对出现的标点之中的空格符更可能为非句末空格的现象;
此约束特征帮助学习在泰语中固有重叠符号的前后出现的空格符更可能为非句末空格的现象;
此约束特征帮助学习在泰语中的小省略符号之后的出现的空格符更可能为非句末空格的现象;
此约束特征帮助学习人称敬词和人名之间的空格符更可能为非句末空格的现象;
此约束特征帮助学习泰语文本中逗号之后出现的空格符更可能为非句末空格的现象。
4.根据权利要求1所述的基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,其特征在于:所述训练集、测试集的比例9:1。
5.根据权利要求1所述的基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法,其特征在于:所述步骤Step9具体为:
Step9.1、统计泰语的句子成分、结构和相关语法现象及关于泰语书写系统的习惯约定;
Step9.2、统计分析泰语文本语料库中句子边界的具体组合和固定搭配的情况;
Step9.3、总结对泰语文本语料库中句子边界的研究分析,构建对待校正泰语标记序列进行校正的正则表达式规则集A和正则表达式规则集B;其中正则表达式规则集A为针对泰语文本中句末空格符的校正规则集,正则表达式规则集B为针对泰语文本中非句末空格符的校正规则集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810209087.1A CN108491383A (zh) | 2018-03-14 | 2018-03-14 | 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810209087.1A CN108491383A (zh) | 2018-03-14 | 2018-03-14 | 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108491383A true CN108491383A (zh) | 2018-09-04 |
Family
ID=63339188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810209087.1A Pending CN108491383A (zh) | 2018-03-14 | 2018-03-14 | 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491383A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871537A (zh) * | 2019-01-31 | 2019-06-11 | 沈阳雅译网络技术有限公司 | 一种高精度的泰语分句方法 |
CN110427619A (zh) * | 2019-07-23 | 2019-11-08 | 西南交通大学 | 一种基于多通道融合与重排序的中文文本自动校对方法 |
CN110717341A (zh) * | 2019-09-11 | 2020-01-21 | 昆明理工大学 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256556A (zh) * | 2008-03-17 | 2008-09-03 | 无敌科技(西安)有限公司 | 一种泰文数据检测方法 |
CN101661462A (zh) * | 2009-07-17 | 2010-03-03 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
CN104978311A (zh) * | 2015-07-15 | 2015-10-14 | 昆明理工大学 | 一种基于条件随机场的越南语分词方法 |
CN106202037A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 基于组块的越南语短语树构建方法 |
-
2018
- 2018-03-14 CN CN201810209087.1A patent/CN108491383A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256556A (zh) * | 2008-03-17 | 2008-09-03 | 无敌科技(西安)有限公司 | 一种泰文数据检测方法 |
CN101661462A (zh) * | 2009-07-17 | 2010-03-03 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
CN104978311A (zh) * | 2015-07-15 | 2015-10-14 | 昆明理工大学 | 一种基于条件随机场的越南语分词方法 |
CN106202037A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 基于组块的越南语短语树构建方法 |
Non-Patent Citations (2)
Title |
---|
沈强: "融合泰语特征的句子级实体关系抽取研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
黄建年: "《古籍计算机自动断句标点与自动分词标引研究》", 30 November 2013 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871537A (zh) * | 2019-01-31 | 2019-06-11 | 沈阳雅译网络技术有限公司 | 一种高精度的泰语分句方法 |
CN109871537B (zh) * | 2019-01-31 | 2022-12-27 | 沈阳雅译网络技术有限公司 | 一种高精度的泰语分句方法 |
CN110427619A (zh) * | 2019-07-23 | 2019-11-08 | 西南交通大学 | 一种基于多通道融合与重排序的中文文本自动校对方法 |
CN110427619B (zh) * | 2019-07-23 | 2022-06-21 | 西南交通大学 | 一种基于多通道融合与重排序的中文文本自动校对方法 |
CN110717341A (zh) * | 2019-09-11 | 2020-01-21 | 昆明理工大学 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
CN110717341B (zh) * | 2019-09-11 | 2022-06-14 | 昆明理工大学 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114139610B (zh) * | 2021-11-15 | 2024-04-26 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562717B (zh) | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 | |
CN108491383A (zh) | 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 | |
CN108959258B (zh) | 一种基于表示学习的特定领域集成实体链接方法 | |
CN107861947B (zh) | 一种基于跨语言资源的柬语命名实体识别的方法 | |
CN107247739B (zh) | 一种基于因子图的金融公报文本知识提取方法 | |
CN102411563A (zh) | 一种识别目标词的方法、装置及系统 | |
CN109522547B (zh) | 基于模式学习的中文同义词迭代抽取方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN104573046A (zh) | 一种基于词向量的评论分析方法及系统 | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN107943824A (zh) | 一种基于lda的大数据新闻分类方法、系统及装置 | |
CN110705247B (zh) | 基于χ2-C的文本相似度计算方法 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN112948543A (zh) | 基于加权TextRank的多语言多文档摘要抽取方法 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN107133212A (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN101882136A (zh) | 文本情感倾向性分析方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Yatim et al. | A corpus-based lexicon building in Indonesian political context through Indonesian online news media | |
CN111522945A (zh) | 一种基于卡方检验的诗词风格分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |