CN106021225B

CN106021225B - 一种基于汉语简单名词短语的汉语最长名词短语识别方法

Info

Publication number: CN106021225B
Application number: CN201610317795.8A
Authority: CN
Inventors: 黄德根; 田雪
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-05-12
Filing date: 2016-05-12
Publication date: 2018-12-21
Anticipated expiration: 2036-05-12
Also published as: CN106021225A

Abstract

本发明属于人工智能的自然语言处理子领域，提供了一种基于汉语简单名词短语的汉语最长名词短语识别方法。包括如下步骤：S1数据预处理；S2选用SVM方法，训练汉语SNP识别模型，识别出汉语SNP；S3使用缩略替换方法简化文本，得到新的训练及测试语料；S4在经S3处理得到的新语料中，再次提取样本集，针对简化后的汉语MNP进行模型训练、识别；S5还原语料，还原后的汉语MNP为本方法最终识别结果。本发明的汉语MNP识别方法可以降低汉语MNP在自动识别中因其长度过长、语义及结构复杂等因素带来的不利影响，因此能有效提高汉语MNP的识别效果。

Description

一种基于汉语简单名词短语的汉语最长名词短语识别方法

技术领域

本发明涉及自然语言处理、机器学习等领域，是一种适用于汉语最长名词短语识别的方法。

背景技术

随着互联网技术的不断发展，世界各国之间的线上经济贸易活动日益频繁，大量文本信息在互联网上以爆炸式速度传播，自然语言处理及其相关方面的研究迫在眉睫。其中，MNP(maximal noun phrase，最长名词短语)的识别是自然语言处理中的一个基本任务。

自然语言处理包括词法分析、句法分析、语义分析和语用分析几个层次。目前，词法分析技术已较为成熟，分词和词性标注都已达到较高准确率，而句法的分析结果仍然不理想，为了最终可以达到计算机对自然语言的充分理解，句法分析性能的提高尤为关键。目前的句法分析往往是用先局部后整体的分析方法，先对句子进行浅层句法分析，再构建完全句法树。短语识别属浅层句法分析范畴，是句法分析的基础。短语中，名词短语最为广泛存在。特别地，MNP是指不被其他任何名词短语包含的名词短语，常常担任主语、宾语或定语等重要语法角色，其准确识别不仅有利于简化句子结构，辅助提高机器翻译的质量，而且对信息检索、实体识别以及微博情感对象识别、情感倾向分析等热门领域作用显著。

目前，MNP的识别主要包括以下两类：

一类是基于规则的方法，语言学家研究短语内部结构的特征和边界特征，并编写大量语法规则，再根据规则定义模式或正则表达式，识别短语。该方法有较高的准确率，但耗费研究者大量时间和脑力，尤其对汉语显然无法得到完备、有效的规则库，因此召回率难以保证。

另一类是基于机器学习的方法，该方法将MNP的识别问题看作一个标注或多元分类问题，如使用MaxEnt(Maximum Entropy Mdels，最大熵)、CRF(Conditional RandomField，条件随机场)、SVM(Support Vector Machine，支持向量机)等模型将一个词归类到短语的内部或外部，其中基于SVM的方法性能和识别效果更好。总的来说，使用机器学习的方法，识别MNP的整体性能明显优于基于规则的方法，且易于移植及广泛应用，但汉语MNP的内部结构过于复杂，携带语义信息过多，长度过长，复杂修饰时无需结构和词形的变化，将机器学习方法直接使用于汉语MNP的识别任务，识别效果并不理想。

发明内容

本发明要解决的技术问题是，使用机器学习方法识别汉语MNP时，因短语长度及语义、结构复杂性带来的识别率过低问题。

本发明的技术方案：

本发明将汉语MNP的识别分为两阶段，先识别汉语SNP(simple noun phrase,简单名词短语)，用其降低汉语MNP的语义和结构复杂度，再构建模型识别MNP。其中，汉语SNP是一种内部不含短句及“的”，由若干词语黏合而成，语义核心为名词性质，并担当独立句法功能的名词短语。

一种基于汉语简单名词短语的汉语最长名词短语识别方法，步骤如下：

步骤1、确定语料并进行预处理

步骤(a)：使用中文词法分析工具对训练语料及测试语料进行分词和词性标注；

步骤(b)：对步骤(a)得到的每个词分别分配汉语SNP和汉语MNP的分类标签，每个词都有两个分类标签；

步骤2、建立基于SVM的汉语SNP识别模型

步骤a)：对步骤(b)得到的语料中的每个词提取样本，对当前词及其左右各3词共7词的词和词性进行数字化，构成特征向量x，当前词的汉语SNP分类标签设为y，则将得到样本集(x_i,y_i)，i＝1,2,…n，n为样本数；

步骤b)：训练识别模型，使用SVM训练识别模型就是对样本集(x_i,y_i)求几何间隔最大平面的过程，其中x为特征向量，y为分类标签；

设所求分类超平面表示为：

w^Tx+b＝0

其中，w和b都是向量；

所求超平面应满足以下约束，且最满足大分类间隔为

y_i[w^Tx+b]≥1,i＝1,2…n

约束最优化问题由拉格朗日函数的鞍点给出，引入拉格朗日算子a_i(a_i>0)，则构造函数表示为：

且鞍点处满足：

最终，最优分类函数即为所训练的模型，表示为：

其中，x_i为支持向量，y_i是第i个样本的分类标签，为其对应拉格朗日乘子，b^*为常数；

步骤c)：用步骤b)中得到的识别模型对测试语料进行分类，识别出汉语SNP；

步骤3：用汉语SNP简化文本：对训练语料及测试语料中识别出的汉语SNP使用缩略替换方法简化，降低文本中汉语MNP的复杂度和长度，构成新的训练语料和测试语料；

所述的缩略替换方法如下：

(1)对于被识别为汉语SNP的词串，将其作一个整体处理：首词对应的汉语MNP的分类作为整体的汉语MNP分类；尾词作为整体的语义核心；尾词词性作为整体的词性；词语个数作为整体的长度信息；

(2)对于步骤(1)以外的词，语义核心为其本身，汉语SNP长度信息记作0，保持其原有的汉语MNP分类标签；

步骤4：针对步骤3得到的语料进行汉语MNP训练和识别

步骤1)：针对步骤3得到语料，对每个词提取样本，将当前词及其左右各5词共11词的语义核心、词性、汉语SNP长度信息数字化，构成特征向量x′，当前词的汉语MNP分类标签设为y′，则将得到样本集(x′_i,y′_i)，i＝1,2,…n，n为样本数；

步骤2)：使用步骤1)中提取得到的样本进行模型训练，具体方法与步骤2中步骤b)相同；

步骤3)：使用步骤2)中训练得到的模型在步骤3得到的测试语料上识别汉语MNP。

步骤5：结合步骤1得到的语料，对步骤4的识别结果进行填充、还原，还原后的汉语MNP为本方法最终识别结果。

本发明的有益效果：本发明能有效的降低汉语MNP识别时由于句法结构和语义复杂度过高以及长度过长带来的不利影响，提高汉语MNP的识别效果。

附图说明

图1为本发明一种基于汉语简单名词短语识别汉语最长名词短语方法的流程图。

图2为本发明实验效果图。

具体实施方式

图1基于汉语简单名词短语识别最长名词短语方法的流程图。

以下结合附图和技术方案，以中文宾州树库5.0版本作为数据集，用一个具体实例对本发明加以详细说明。

1、对中文宾州树库5.0版本数据预处理

本发明选择的语料为中文宾州树库5.0版本，将语料按1:4划分为测试语料和训练语料，用中文词法分析工具ctbparser对语料进行分词和词性标注，对语料中的每个词，使用IOB方法分别分配汉语SNP和汉语MNP的分类标签。(以句子“确保了浦东开发的有序进行”为例)：

词	词性	SNP的分类标签	MNP的分类标签
				确保	VV	O	O
了	AS	O	O
				浦东	NR	B	B
开发	NN	I	I
				的	DEG	O	I
有序	JJ	B	I
				进行	NN	I	I

2、识别汉语SNP

使用yamcha工具建立基于SVM的汉语SNP识别模型，并使用训练出的模型对测试语料中的每个词进行分类，识别出数据中的汉语SNP。对每个词来说，对应样本由当前词和其左右各3词的词、词性、对应汉语SNP分类标签共同构成，具体的模板参数为“F:-3..3:0..T：-3..-1”。步骤1中的例句将被识别出汉语SNP“浦东开发”和“有序进行”。

3、利用汉语SNP，使用缩略替换方法简化语料。

所述的缩略替换方法如下：

(1)对于被识别为汉语SNP的词串，将其作一个整体处理：首词对应的汉语MNP的分类作为整体的汉语MNP分类；尾词作为整体的语义核心；尾词词性作为整体的词性；词语个数作为整体的长度信息。

(2)对于(1)以外的词，语义核心为其本身，汉语SNP长度信息记作0，保持其原有的汉语MNP分类标签。

对1中例句进行缩略替换的结果如下：

语义核心	词性	SNP长度信息	MNP的分类标签
				确保	VV	0	O
了	AS	0	O
				开发	NN	2	B
的	DEG	0	I
				进行	NN	2	I

4、使用步骤3得到的语料，针对汉语MNP进行模型训练和识别。使用yamcha工具训练模型时，对每个词来说，对应样本由当前词和其左右各5词的语义核心、词性、汉语SNP长度信息、汉语MNP分类标签共同构成，具体的模板参数为“F:-5..5:0..T：-5..-1”。步骤3中的例句将被识别出汉语MNP“开发的进行”。

5、针对步骤4的识别结果，结合步骤1的原语料，对其进行还原，还原后的短语“浦东开发的有序进行”即为例句的汉语MNP识别结果。

Claims

1.一种基于汉语简单名词短语的汉语最长名词短语识别方法，其特征在于，步骤如下：

步骤1、确定语料并进行预处理

步骤2、建立基于SVM的汉语SNP识别模型

步骤a)：对步骤b)得到的语料中的每个词提取样本，对当前词及其左右各3词共7词的词和词性进行数字化，构成特征向量x，当前词的汉语SNP分类标签设为y，则将得到样本集(x_i,y_i)，i＝1,2,…n，n为样本数；

设所求分类超平面表示为：

w^Tx+b＝0

其中，w和b都是向量；

所求超平面应满足以下约束，且最满足大分类间隔为

y_i[w^Tx+b]≥1,i＝1,2…n

约束最优化问题由拉格朗日函数的鞍点给出，引入拉格朗日算子a_i，其中，a_i＞0，则构造函数表示为：

且鞍点处满足：

最终，最优分类函数即为所训练的模型，表示为：

所述的缩略替换方法如下：

步骤4：针对步骤3得到的语料进行汉语MNP训练和识别

步骤3)：使用步骤2)中训练得到的模型在步骤3得到的测试语料上识别汉语MNP；