CN106776560A

CN106776560A - 一种柬埔寨语组织机构名识别方法

Info

Publication number: CN106776560A
Application number: CN201611157511.XA
Authority: CN
Inventors: 严馨; 王若兰; 余正涛; 郭剑毅
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2017-05-31

Abstract

本发明涉及一种柬埔寨语组织机构名识别方法，属于自然语言处理技术领域。本发明首先对抽取的柬埔寨语篇章进行切分，切分后的句子进行分词和词性标注，通过人工校对，然后标注柬埔寨语命名实体，得到相当规模的柬埔寨语组织机构名语料；通过标注的语料提取命名实体指示词，构建指示词库，构建特征模板，通过改进的Tri‑training算法学习得到组织机构名识别模型；对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。本发明对柬埔寨语组织机构名进行有效的识别，为信息抽取和机器翻译等工作提供强有力的支撑；目前没有发现柬埔寨语做相关的组织机构名识别的报告，本发明取得了很好的效果。

Description

一种柬埔寨语组织机构名识别方法

技术领域

本发明涉及一种柬埔寨语组织机构名识别方法，特别是一种基于Tri-training算法的柬埔寨语组织机构名识别方法，属于自然语言处理技术领域。

背景技术

柬埔寨语又称高棉语，属南亚语系孟高棉语族高棉语支语言，是柬埔寨现今的官方语言。由于我国与柬埔寨国家在各个领域之间的交流日趋频繁，而目前，有关柬语文本的词法分析工作比较匮乏，因此进行柬埔寨语的命名实体识别研究对柬埔寨的政治经济分析、舆情把握等具有非常重要的意义。针对柬语的词法分析工作，特别是柬语的命名实体识别更是需要投入大量精力进行研究。命名实体识别是信息处理中最为基础的关键技术之一，其中，组织机构名识别是命名实体识别研究的重点，也是难点。组织机构名是泛指机关、团体等实体的名称。虽然组织机构名没有人名、地名那样明确的特点和固定的用词，但也有一定的组成特点。完整的组织机构名通常由一个或一个以上的机构名前部词加上一个机构名后缀词(如大学、协会等)组成。因此本发明只讨论柬埔寨语组织机构名识别问题。

发明内容

本发明要解决的技术问题是提供一种柬埔寨语组织机构名识别方法，用于解决柬埔寨语组织机构名的识别、提高柬埔寨语组织机构名识别的准确率等问题。

本发明的技术方案是：一种柬埔寨语组织机构名识别方法，具体步骤如下：

Step1、首先对抽取的柬埔寨语篇章进行切分，切分后的句子进行分词和词性标注，通过人工校对，然后标注柬埔寨语命名实体，得到相当规模的柬埔寨语组织机构名语料；

Step2、通过标注的语料提取命名实体指示词，构建指示词库，构建特征模板，通过改进的Tri-training算法学习得到组织机构名识别模型；

Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。

所述步骤Step1中组织机构名标注语料获取的具体步骤如下：

Step1.1、首先利用爬虫程序，从柬埔寨新闻网上爬取出网页信息；

Step1.2、把爬取出的网页信息，经过过滤处理，构建出柬埔寨语篇章语料库；

Step1.3、通过柬埔寨语的句子结束符等将篇章切分为句子，形成柬埔寨语句子级语料库，并把柬埔寨语句子级语料库的语料存放到数据库中；

Step1.4、从数据库中取出柬埔寨语句子级的语料，通过柬埔寨语分词和词性标注系统进行分词和词性标注，并进行人工校对，得到含有正确结果的柬埔寨语词性标注分词库，并把柬埔寨语词性标注分词库的词语存放到数据库中；

Step1.5、根据柬埔寨语命名实体特点和标注规则，从数据库中取出柬埔寨语词性标注分词库的语料，通过人工标注柬埔寨语命名实体，得到含有正确标注结果的柬埔寨语命名实体语料库，并把柬埔寨语命名实体标注语料库的结果存放在数据库中。

所述步骤Step2组织机构名识别模型构建的具体步骤：

Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔寨语命名实体的语料；

Step2.2、对Step2.1中的语料提取命名实体指示词，构建命名实体指示词库，其中提取的命名实体包括人名、地名和组织机构名；

Step2.3、通过组织机构名的词和词性特种构建基本特征模板，基本特征模板描述了当前词及其上下文中若干个词的词性；

Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板，复合特征能够利用远距离的依存关系和丰富的上下文信息；

Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点，这些复杂的特点为柬埔寨语组织机构名识别提供非常丰富的外部信息，因此基于这个特点，结合Step2.2构建的命名实体指示词库，构建实体特征模板；

Step2.6、根据分类器的特点，选取条件随机场、支持向量机和最大熵模型三个不同的分类器作为Tri-training算法中的三个基分类器；

Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板，利用已标注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。

所述步骤Step1.2的具体步骤为：

Step1.2.1、对爬取的网页信息进行有效的过滤，去除无效网页；

Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。

所述步骤Step2.7的具体步骤为：

Step2.7.1、对原始的Tri-training算法中对于基分类器的选择进行改进，将原始算法中的单个分类器通过对已标注语料的可重复采样来训练出三个不同的分类器模型，改进为通过三个不同的分类器对已标注语料进行可重复采样来训练出三个不同的分类器模型；

Step2.7.2、通过Step2.7.1得到的三个分类器模型对未标注语料进行标注，并按照最优化样本选择策略选择样本子集，生成三个分类器的新训练集，并重新训练模型，直到未标注语料为空；

Step2.7.3、通过Step2.7.2得到联合分类器生成的模型按投票规则对测试语料进行分类标注，最终生成组织机构名标注结果。

所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。

本发明的有益效果是：

1、本发明的柬埔寨语组织机构名识别方法，对柬埔寨语组织机构名识别的问题做了前所未有的工作，目前没有发现柬埔寨语做相关的组织机构名识别的报告，本发明取得了很好的效果；

2、本发明的柬埔寨语组织机构名识别方法，对柬埔寨语组织机构名进行有效的识别，为信息抽取和机器翻译等工作提供强有力的支撑。

附图说明

图1为本发明中的总流程图；

图2为本发明中的建模流程图；

图3为本发明中的组织机构名识别方法应用的流程图。

具体实施方式

实施例1：如图1-3所示，一种柬埔寨语组织机构名识别方法，具体步骤如下：

进一步地，所述步骤Step1中组织机构名标注语料获取的具体步骤如下：

其中得到的语料规模为5000句，含有2863个组织机构名，通过人工标注获得2000句的标注语料，1000句用于训练语料和1000句用于测试语料，其余3000句为未标注语料用于Tri-training训练中。

进一步地，所述步骤Step2组织机构名识别模型构建的具体步骤：

进一步地，所述步骤Step1.2的具体步骤为：

所述步骤Step2.7的具体步骤为：

进一步地，所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。

所述步骤Step2.2中：

构建的命名实体指示词库：

针对柬埔寨语人名、地名、组织机构名所具有的实体特性，人工收集命名实体指示词并构建命名实体指示词库如表1所示。

表1 命名实体指示词库

所述步骤Step2中：

1)支持向量机的特征选择

对于支持向量机的特征选择，本发明主要考虑词本身的词形或词性特征和词相邻的上下文特征，以及组织机构名的BISO标注等特征，上下文窗口大小定为[-2,2]。最终的样本特征为X＝{p_i-2,t_i-2,p_i-1,t_i-1,p_i,p_i+1,p_i+2,}，其中p_i表示该词的词性标注，p_i-k、t_i-k(k＝1、2)表示前k个位置的词的词性标注及BISO标注；p_i+k(k＝1、2)表示后k个位置的词的词性标注。

2)构建基本特征模板

根据条件随机场和最大熵模型依据对特征模板的构建来进行实验，其中基本特征模板描述了当前词及其上下文中若干个词的词性如下表2所示。

表2 基本特征模板

序号	模板形式	模板含义
			1	Word(0)	当前词
2	Word(-1)	当前词左边第一个词
			3	Word(-2)	当前词左边第二个词
4	Word(1)	当前词右边第一个词
			5	Word(2)	当前词右边第二个词
6	POS(0)	当前词的词性
			7	POS(-1)	当前词左边第一个词的词性
8	POS(-2)	当前词左边第二个词的词性
			9	POS(1)	当前词右边第一个词的词性
10	POS(2)	当前词右边第二个词的词性

3)构建的复合特征模板

复合特征模板就是将基本特征模板中的特征进行组合，能够利用依存关系和丰富的上下文信息，本文采用由两个基本特征模板所构成的复合特征模板，复合特征模板如下表3所示。

表3 复合特征模板

4)构建的实体特征模板：

柬埔寨语组织机构名具有非常复杂的构成特点，这些复杂的特点为柬埔寨语组织机构名识别提供非常丰富的外部信息，柬埔寨语中组织机构名的书写顺序与汉语相反，如“昆明理工大学”对应的柬语为“大学理工昆明”。柬埔寨语的组织机构名一般是定中结构，且定语为后置，前缀表明组织机构所属类型，绝大多数的机构名指示词均以前缀的形式出现在机构名中。结合构建的命名实体指示词库，构建实体特征模板如表4所示。

表4 实体特征模板

所述步骤Step2.7中：改进的Tri-training算法流程

输入：初始已标注样本集L，未标注样本集U，测试集T，分类器H₁、H₂、H₃；

输出对测试集T的标注结果S；

步骤1初始化：选取初始已标注样本集L中的样本放入样本集中，将样本加入分类器H₁、H₂、H₃中进行第一次训练得到模型

步骤2：对已标注样本集L进行重复采样即Bootstrap sampling，并由三个分类器H₁、H₂、H₃训练得到模型。

步骤3：由对未标注样本集U进行标注，并按照最优化样本选择策略选择样本子集{P₁}、{P₂}、{P₃}。

步骤4：将样本子集{P₁}、{P₂}、{P₃}分别加入到样本集生成三个分类器的新训练集并重新进行训练得到模型

步骤5：判断未标注样本集U是否为空，若不为空，则转步骤2；若为空，则转步骤6。

步骤6：联合分类器生成的模型{Model₁、Model₂、Model₃}，按投票规则对测试集T进行分类标注，最终生成标注结果S。

所述步骤Step2.7.2中：

最优化样本选择策略：

对于任意给定的数据序列X＝{x₁,x₂,...,x_n}，通过三个分类器{H₁，H₂，H₃}训练生成三个模型{Model₁，Model₂，Model₃}，以此来对U进行标注，得到三个标注序列S₁＝{s₁₁,s₂₁,s₃₁,....,s_n1}，S₂＝{s₁₂,s₂₂,s₃₂,....,s_n2}，S₃＝{s₁₃,s₂₃,s₃₃,....,s_n3}，那么定义H_i和H_j(其中i、j取1、2、3，且i≠j)之间的一致性评价函数F为：

其中：

当F(H_i,H_j)值越大，说明两者差异性越小。

采用的原则是:若H₁和H₂对某一样本U标注结果一致，则认为该标注正确；若H₁对U的标注与其他两个分类器不一致，则认为该样本U可以改善H₁的分类效果。因此对由三个分类器{H_i，H_j，H_k}每轮迭代后标注的结果{S_i，S_j，S_k}进行如下选择：

a)计算S_i和S_j的样本一致性，按30％的比例选择出一致性评价函数F值最低的样本子集；

b)计算S_j和S_k的样本一致性，按30％的比例选择出一致性评价函数F值最高的样本子集；

c)取这两个子集的交集，交给分类器H_j重新标注，生成样本集添加到分类器Hi的训练集中；

采用同样的方法对另外两个分类器扩充训练集，因此采用这个策略来对每次迭代后样本集的扩充进行样本选择。

所述步骤Step2.7.3中：

投票规则：

由于考虑到基分类器的差异性，投票规则采用少数服从多数投票与加权投票相结合的投票规则。

对于分类器H₁、H₂、H₃，如果三个分类器的标注结果相同，则选择该标注结果；如果两个分类器的标注结果相同，与第三个分类器的标注结果不同，则按照少数服从多数原则选择标注结果；对于三个分类器标注结果不同的情况，采用加权投票规则进行标注结果的选择。

加权投票规则采用公式(2)对训练所得联合分类器进行类别标记，在集成时考虑每个分类器的性能权重，权重H(1,2,3)由三个分类器在初始已标注语料L上的分类准确率P_i(L)所决定，其中y代表B、I、S、O标记，H_i(x)表示在H_i分类器中第x个样本的标注结果。

其中：

衡量命名实体识别系统性能的主要性能指标包括准确率P、召回率R以及综合反映两者的综合指标F值。

具体定义为：

为了证明改进的Tri-training算法对组织机构名识别模型的识别效果更好，我们进行了三个基分类器的识别结果与Co-training算法和Tri-training算法通过10轮迭代后的识别结果的比较，如表5所示。

表5 三个基分类器与Co-training算法、Tri-training算法的识别结果

识别模型	P	R	F
				条件随机场	60.56％	62.23％	61.38％
支持向量机	55.68％	57.35％	56.50％
				最大熵模型	57.25％	55.83％	56.53％
Co-training	62.43％	64.59％	63.49％
				Tri-training	65.68％	67.83％	66.74％

从表5可以看出，利用Tri-training算法的识别结果相比三个基分类器的效果有明显的提升，相比Co-training算法识别效果也有一定的提升，因此证明采用该方法进行柬埔寨语组织机构名的识别达到了更好的效果。其中三个基分类器的识别效果中，条件随机场的准确率和召回率最高，因此F值最高的是条件随机场模型。由于三个基分类器的识别效果不同，表明特征模板对三个基分类器的影响各不同。

为了进一步观察Tri-training算法对于每一轮迭代后的识别效果，我们列举了10轮Tri-training算法迭代后的识别结果。实验结果如表6所示。

表6 Tri-training算法每轮迭代结果

迭代次数	P	R	F
				1	68.69％	60.27％	64.24％
2	67.53％	62.95％	65.17％
				3	66.85％	64.56％	65.69％
4	66.20％	65.83％	66.01％
				5	65.98％	66.67％	66.32％
6	65.83％	67.13％	66.47％
				7	65.75％	67.41％	66.57％
8	65.71％	67.63％	66.66％
				9	65.68％	67.79％	66.72％
10	65.68％	67.83％	66.74％

从表6中可以看出，在第一轮训练结束后，准确率最高，与基分类器的准确率较高有关，召回率相对较低，通过多轮的训练，准确率有所下降，召回率逐渐提升，F值一直在增加，但随着迭代次数的增加，F值增加的幅度逐渐减小，趋于一致。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种柬埔寨语组织机构名识别方法，其特征在于：具体步骤如下：

2.根据权利要求1所述的柬埔寨语组织机构名识别方法，其特征在于：所述步骤Step1中组织机构名标注语料获取的具体步骤如下：

Step1.3、通过柬埔寨语的句子结束符将篇章切分为句子，形成柬埔寨语句子级语料库，并把柬埔寨语句子级语料库的语料存放到数据库中；

3.根据权利要求1所述的柬埔寨语组织机构名识别方法，其特征在于：所述步骤Step2组织机构名识别模型构建的具体步骤：

4.根据权利要求2所述的柬埔寨语组织机构名识别方法，其特征在于：所述步骤Step1.2的具体步骤为：

5.根据权利要求3所述的柬埔寨语组织机构名识别方法，其特征在于：所述步骤Step2.7的具体步骤为：

6.根据权利要求3所述的柬埔寨语组织机构名识别方法，其特征在于：所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。