CN107797994A

CN107797994A - 基于约束条件随机场的越南语名词组块识别方法

Info

Publication number: CN107797994A
Application number: CN201710883347.9A
Authority: CN
Inventors: 郭剑毅; 李佳; 余正涛; 毛存礼; 线岩团; 陈玮
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-03-13

Abstract

本发明涉及基于约束条件随机场的越南语名词组块识别方法，属于自然语言处理技术领域。本发明首先构建越南语名词组块语料库；从语料库中统计出名词组块的词性特点，制定出约束条件；其次运用条件随机场对名词组块语料进行训练，得到初步的条件随机场识别模型；再加入制定的约束条件，获得最终的约束条件随机场识别模型；根据名词组块识别模型参数序列来对越南语名词组块进行识别，得到最终识别结果序列。本发明对越南语名词组块实现了有效的识别，为词法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑。

Description

基于约束条件随机场的越南语名词组块识别方法

技术领域

本发明涉及基于约束条件随机场的越南语名词组块识别方法，属于自然语言处理技术领域。

背景技术

名词组块识别是自然语言处理(Natural language processing，简称“NLP”)过程中一项基础且重要的任务,其可以降低句法分析的复杂性，对提高机器翻译的性能和效率有着极其重要的作用。名词短语识别是为了从非结构化的文本中自动抽取特定的结构化信息，其作用至关重要；组块识别最初是由Stenven Abney提出的，其首次发现了组块比单词更能体现文本内所含信息。直到1995年Lance Ramshaw和Mitch Marcus提出了使用机器学习的方法解决分块的方法，取得了很好的效果。随后有大批学者进行了深入地研究后发现，如果掌握了文本中的名词短语，就可以在很大程度上把握文本的主要意思，从而可以由简到繁，循序渐进地进行句法分析，大大降低句法分析的难度。名词短语识别对于句子的各种分析都得到了简化；名词短语识别与分析对于自然语言处理领域中的许多应用研究都具有重要的实践意义，例如关键词识别、命名实体识别、自动文摘、语义分析、机器翻译、问答系统等等。因此，对于自然语言处理中的名词短语识别工作显得更加迫在眉睫。

发明内容

本发明提供了基于约束条件随机场的越南语名词组块识别方法，以用于解决越南语名词组块的识别的问题，降低了句法分析的复杂性，提高后续任务的性能和效率。

本发明的技术方案是：基于约束条件随机场的越南语名词组块识别方法，所述基于方法的具体步骤如下：

Step1、构建名词组块语料库：首先从越南语网站爬取文本语料，经过分词、词性标注、人工标记名词短语，然后再经过人工校对、标记、去重形成越南语名词组块语料库；越南语名词组块语料库中部分语料用于构建约束条件、作为训练语料及测试语料；

Step2、构建约束条件：从越南语名词组块语料库中，根据越南语语法特点挑选名词组块的词性特点，结合特点构造约束条件；

Step3、构建基于约束条件随机场的越南语名词组块识别模型：首先用条件随机场通过训练语料进行训练，得到标记序列模型，在观察序列进行解码时加入约束条件，得到越南语名词组块识别模型参数序列，从而建立基于约束条件随机场的越南语名词组块识别模型；

Step4、把待识别的越南语名词组块测试语料，放入基于约束条件随机场的越南语名词组块识别模型中，根据名词组块识别模型参数序列来对越南语名词组块进行识别，得到最终识别结果。

所述步骤Step1中，获得越南语名词组块的具体步骤为：

Step1.1、使用分词工具对越南语分词句子级语料进行分词，得到分词语料；

Step1.2、使用词性标注工具对Step1.1中获得的分词语料进行标注，得到含有词性标注语料；

Step1.3、使用组块标记工具对Step1.2中获得的词性标注语料进行组块标记，结合从VLSP 网站搜集的一部分组块语料，通过越南专家，人工从语料中挑选出名词组块，构建出越南语名词组块语料库。

所述步骤Step1.1中，获取越南语分词句子级语料的具体步骤为：

Step1.1.1、构建爬虫程序，爬取出网页信息；

Step1.1.2、对网页信息数据进行预处理，包括：去重处理，去除垃圾广告，构建出越南语文本语料库；

Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词，并进行人工校对，形成越南语分词句子级语料。

所述步骤Step2中，从越南语名词组块语料库中，根据越南语语法特点挑选名词组块的词性特点，结合特点构造约束条件，具体步骤为；

Step2.1、通过收集、筛选Step1中获得的越南语名词组块语料，导入到数据库中保存；

Step2.2、在数据库中保存到语料，通过去重、去杂操作，得到单一的越南语名词组块，即在查找数据表中每个组块只出现一次，在出现的名词组块列表中，经过人工统计分析，得到最常出现的9种名词组块组合形式；

本发明考虑到得到的越南语名词组块语料中存在一些重复、无效标签等噪音，这些噪音是无效的。因此，要通过去重、去杂等操作去除，得到只含有越南语的高质量的文本级名词组块语料，存放在数据库是为了能方便数据的管理和下一步工作使用。制定约束条件过程，是越南语名词组块识别工作的基础，是不可缺少的一步。从网上搜集到越南语组块之后，需要人工校对，之后存放到数据库为了能方便数据的管理和统计分析，总结出名词组块组合形式。

本发明中制定约束条件，是越南语命名实体识别工作的基础，是不可缺少的一步，名词组块类型有利于识别名词组块构成的形式，因此，本发明需要对名词组块语料库中名词组块形式进行统计分析。

Step2.3、然后根据统计分析的9种名词组块形式，制定出9种约束条件：名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、名词+动词、名词+代词、副词+连词+ 形容词、数词+名词、代词+连词+代词。

所述步骤Step1中，越南语名词组块语料库中全部语料按照4:1的比例分别得到训练语料、测试语料。

所述步骤Step3中，在用条件随机场训练过程中，在观察序列进行解码时加入约束的 Viterbi算法，即该序列经过Viterbi算法计算之后，最终得到一条全局最优状态序列。

本发明的有益效果是：

1、本发明对越南语的名词组块的识别做了较好的识别效果，特别是构建的越南语名词组块条件，做了大量的实验前准备工作，提出的9种名词组块组合规则，最终通过本发明提出的实验方法，能对越南语名词组块进行有效的识别；

2、本发明能对越南语名词组块进行有效的识别，提升实体识别、搜索引擎等应用的准确率，同时能提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果。

附图说明

图1为本发明中的整体流程图；

图2为本发明中约束条件随机场(CCRF)解码示意图。

具体实施方式

实施例1：如图1-2所示，基于约束条件随机场的越南语名词组块识别方法，所述方法的具体步骤如下：

作为本发明的进一步方案，所述步骤Step1中，获得越南语名词组块的具体步骤为：

本发明考虑到由于不同的网页结构，爬虫程序中爬取的位置和标签也不同，且没有现成的程序，因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同方面的题材的语料，例如：新闻、政治、经济和文化等方面，这样做因为没有公布的越南语名词组块语料，只能通过这些步骤才能得到，实验所需的名词组块语料。

作为本发明的进一步方案，所述步骤Step1.1中，获取越南语分词句子级语料的具体步骤为：

Step1.1.1、构建爬虫程序，爬取出网页信息；

本发明考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签、无效字符等噪音，这些噪音是无效的。因此，要通过过滤、去噪音等操作去除，得到只含有越南语的高质量的文本级语料。

作为本发明的进一步方案，所述步骤Step2中，从越南语名词组块语料库中，根据越南语语法特点挑选名词组块的词性特点，结合特点构造约束条件，具体步骤为；

Step2.3、然后根据统计分析的9种名词组块形式，制定出9种约束条件：

如表1所示：

表1制定约束条件列表

本发明中根据越南语言和名词组块构成特点，提取出有效的名词组块组合规则。主要包含9中约束条件：名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、名词 +动词、名词+代词、副词+连词+形容词、数词+名词、代词+连词+代词。

所述步骤Step2.2中，提取的越南语名词组块9种条件特征主要是从其语法特点获得，其中越南语名词组块语法特点包含4种，如表2所示：

表2越南语名词组块语法特点

本发明中为了得到较好对约束条件，对越南语名词组块语法特点进行了详细的分析，主要总结了4个语法特点：1、前面一般能加数词；2、后面一般能加指示代词；3、一般不与副词结合；4、经常做主语和补语。并对这些语法特点进行了详细对解释及举例。

作为本发明的进一步方案，所述步骤Step1中，越南语名词组块语料库中全部语料按照 4:1的比例分别得到训练语料、测试语料。

作为本发明的进一步方案，所述步骤Step3中，在用条件随机场训练过程中，在观察序列进行解码时加入约束的Viterbi算法，这种约束体现在必须包含一些子路径C＝<y_i,y_i+1,......>，即该序列应经过y_t，最终找到一条全局最优状态序列。对于所有的y_q∈C，如下公式所示：

其中，符号y_j＝y_q表示y_j满足约束y_q，该式均成立；当某一时刻状态不受C限制时，式成立。约束的Viterbi算法如图2所示。其中，n代表观察序列x的个数，m代表每个x元素可取的标签种类，w_ij(1≤i≤n,1≤j≤m)代表x_i取标签y_j，Start和End代表路径的起点和重点。图2中，w_ij即为用户词典中x_i指定类别y_j的命名实体。该序列经过Viterbi算法计算之后，最终得到一条全局最优状态序列。得到越南语名词组块识别模型参数序列，从而建立基于约束条件随机场的越南语名词组块识别模型。

在本发明中，此设计是本发明的重要组成部分，主要结合越南语名词组块特性，生成基于约束条件随机场的识别模型。主要包括语料的预处理过程；越南语语料进行分词、词性标注、名词组块标注语料，根据越南语言和语法特点，选取制定有效的约束条件；根据已标记的语料和选取的有效规则，生成模型训练时所需要的样式；使用约束条件随机场的方法进行建模。

从名词组块语料库中取出名词组块测试语料；这些待识别的名词组块最好是没有包含在训练语料当中，这样为了测试识别模型的正确率，

正确率是评价一个模型被识别出来的正确个数与总个数的比值，可以用来衡量模型的好坏；本发明主要从三个方面来评价本次实验的效果：正确率(Precision,简称P)、召回率(Recall, 简称R)、F值，将35864条词语料主要分为五份，其中80％用于约束条件随机场的训练，20％用于模型的测试，实验评价标准定义如下：

为了将约束条件随机场模型与条件随机场模型对比，以检验所添加的约束条件有效果。随机挑选5万词越南语名词组块语料，其余15万词做为训练语料，分别用约束条件随机场与条件随机场进行实验，最终结果如表3所示。

表3条件随机场与约束条件随机场对比实验(％)

	P	R	F
				CRF	82.72	82.62	82.67
CCRF	86.34	87.11	86.72

由表3可以看出，添加约束条件的CCRF的准确率、召回率、F值都比CRF结果要好，结果表明所添加的约束条件能提高越南语名词组块识别率，同时也表明了，所构建的约束条件的有效性，约束条件对名词组块的识别有一定的影响。

为了评估所使用的约束条件随机场识别越南语名词组块的效果，将所获取到的约20万词越南语名词组块词语料，每组分成五份，其中一份做测试语料，其他四份做为训练语料，分别做约束条件随机场模型(CCRF)、支持向量机模型(SVM)、最大熵模型(ME)做五倍交叉实验，然后求各组平均准确率。三类分类器识别结果如表4所示。

表4约束条件随机场与各分类器对比实验(％)

	P	R	F
				SVM	81.47	80.64	81.04
ME	79.75	76.58	78.12
				CCRF	86.34	87.11	86.72

由表4可以看出，CRF比ME和SVM实验效果好，ME不如CRF是因为，ME存在标注偏置问题，是因为由于分支数不同，概率的分布不均衡，导致状态的转移存在不公平的情况。CRF则解决了这种标注偏置问题；而SVM不如CRF的原因是因为SVM只能引入单一特征，而不能引入二元特征所以才导致了标注序列结果差，而CRF能简单的融入二元特征甚至是三元特征，所以输出结果稍好于SVM。此实验表明所运用的CCRF可以较好的解决越南语名词组块标注问题。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于约束条件随机场的越南语名词组块识别方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于约束条件随机场的越南语名词组块识别方法，其特征在于：

所述步骤Step1中，获得越南语名词组块的具体步骤为：

Step1.3、使用组块标记工具对Step1.2中获得的词性标注语料进行组块标记，结合从VLSP网站搜集的一部分组块语料，通过越南专家，人工从语料中挑选出名词组块，构建出越南语名词组块语料库。

3.根据权利要求2所述的基于约束条件随机场的越南语名词组块识别方法，其特征在于：所述步骤Step1.1中，获取越南语分词句子级语料的具体步骤为：

Step1.1.1、构建爬虫程序，爬取出网页信息；

4.根据权利要求1所述的基于约束条件随机场的越南语名词组块识别方法，其特征在于：所述步骤Step2中，从越南语名词组块语料库中，根据越南语语法特点挑选名词组块的词性特点，结合特点构造约束条件，具体步骤为；

名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、名词+动词、名词+代词、副词+连词+形容词、数词+名词、代词+连词+代词。

5.根据权利要求1所述的基于约束条件随机场的越南语名词组块识别方法，其特征在于：所述步骤Step1中，越南语名词组块语料库中全部语料按照4:1的比例分别得到训练语料、测试语料。

6.根据权利要求1所述的基于约束条件随机场的越南语名词组块识别方法，其特征在于：所述步骤Step3中，在用条件随机场训练过程中，在观察序列进行解码时加入约束的Viterbi算法，即该序列经过Viterbi算法计算之后，最终得到一条全局最优状态序列。