CN105005557A

CN105005557A - 一种基于依存分析的中文兼类词处理方法

Info

Publication number: CN105005557A
Application number: CN201510475708.7A
Authority: CN
Inventors: 刘峤; 刘瑶; 秦志光; 其他发明人请求不公开姓名
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-08-06
Filing date: 2015-08-06
Publication date: 2015-10-28

Abstract

中文兼类词的词性标注是当前影响中文信息处理系统性能的主要问题之一。兼类词是指中文中存在的一词具有多种词性的语法现象，如动名词同形。本发明公开了一种基于依存分析的中文兼类词处理方法，该方法包括如下三个部分：首先选择大量包含兼类词的语句作为训练语料，通过依存分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则；然后对待处理文本进行句子划分、分词、词性标注和依存分析预处理，并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注；最后采用预先得到的兼类词语义角色统计规则，通过依存分析进一步准确识别兼类词在不同上下文环境下的词性。该方法能够有效提高中文文本处理的词性标注准确度，可广泛应用于各种中文信息处理系统。

Description

一种基于依存分析的中文兼类词处理方法

技术领域

本发明涉及自然语言处理领域，确切地说，涉及中文信息处理的词性一致性检查和中文兼类词处理。

背景技术

兼类词是指某个词在不同上下文中具有两类或多类语法功能，即该词汇在不同上下文中具有不同的词性。具体说来，兼类词具有相同的读音和相同的符号形式，而且词汇意义存在一定的联系，即同音，同形，意义不完全相同但密切相关。兼类词是中文特有的语法现象，英文中词根相同但词性不同的单词通常具有不同的词形，而中文语境下，一词多词性的词性兼类现象则较为常见。

常见的中文兼类词有三种类型。一种是名词与动词的兼类现象，例如在“奥巴马赢得总统选举”，“公民通过投票选举出总统”的语境下“选举”分别是名词和动词；另一种是名词与形容词的兼类现象，例如在“他正在进行秘密的实验”，“我知道你的秘密”的语境下“秘密”分别是形容词和名词；还有一种是形容词与动词的兼类词，例如在“阅读丰富我的生活”，“他的经验很丰富”的语境下“丰富”分别是动词和形容词。常见的词性标注工具如Stanford NLP、LTP和Zpar等并未对中文兼类词现象进行专门考虑，因此对兼类词的词性识别准确率较低。

由于中文词性兼类现象的普遍性，因此兼类词的处理能够有效提高文本预处理阶段词性标注准确度，可广泛应用于各种中文信息处理系统。

发明内容

本发明的目的是提供一种提高兼类词词性识别准确度的方法，在使用词法、句法和语境规则库识别兼类词词性的基础上进一步使用语义角色统计规则识别兼类词词性。

为实现上述目的，本发明实施例公开了一种基于依存分析语义角色统计规则的中文兼类词处理方法。其特征在于，包括如下三个主要的功能模块：

兼类词语义角色统计规则抽取模块：构建大量包含兼类词的语句作为训练语料，通过依存分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则；

词法、句法和语境规则库兼类词处理模块：对待处理文本进行自然语言预处理，并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注；

语义角色统计规则兼类词处理模块：采用预先得到的兼类词语义角色统计规则，通过依存分析进一步准确识别兼类词在不同上下文环境下的词性。

本发明的发明目的是这样实现的：本发明首先通过统计获得高覆盖率和高准确率的兼类词依存分析语义规则，然后在使用词法、句法、语境规则识别兼类词词性的基础上结合使用依存分析语义规则进一步识别兼类词词性。与现有技术相比，本发明的有益效果是通过在词法、句法和语境特征的基础上引入语义特征，提高了兼类词词性识别准确度,因此进一步提高了词性标注的准确度。

附图说明

图1为基于依存分析的中文兼类词处理方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的基于依存分析的兼类词处理方法流程图，具体包括如下步骤：首先构建大量包含兼类词的语句作为训练语料并通过分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则；然后对待处理文本进行自然语言预处理，并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注；最后使用兼类词语义角色统计规则进一步准确识别兼类词在不同上下文环境下的词性。本方法通过结合词法、句法、语境规则库和语义角色统计规则提高了兼类词词性识别准确度。

为便于理解，首先对下文中使用的英文符号和术语进行说明：

(1)词性标注标签：v表示动词，nr表示人名，n表示名词，ns表示地名，p表示介词。

(2)依存分析标签：VOB(direct object)表示直接宾语，POB(prepositional object)表示介词宾语，IOB(indirect object)表示间接宾语，ATT(attribute)表示属性。

(3)依存分析：指利用依存语法将句子分析为描述各词语间依赖关系的依存句法树，即表明了词语间的句法搭配关系，这种搭配关系是与语义相关联的。

步骤101、兼类词语义角色统计规则获取

首先，利用自然语言处理工具对大规模文本语料进行预处理。通过比较现有自然语言处理工具并选择其中准确率和效率相对较高的工具(如Zpar)对输入文本中的语句进行分词、词性标注、依存分析一系列自然语言预处理。然后，通过人工统计语料中兼类词依存分析结果，得到如下中文兼类词语义角色统计规则。

(1)兼类词语义角色规则1：若一个词语的词性标签标记为v，且其依存分析语义角色为ATT，则该词的词性应调整为名词。

(2)兼类词语义角色规则2：若一个词语词性标签为非名词性，且其依存标签为VOB，POB或者IOB，且没有依存标签为VOB，POB或者IOB的节点与之直接相连或者通过介词相连，则该词的词性应调整为名词。

步骤102、词法、句法和语境规则库兼类词词性处理；

使用步骤101中的自然语言预处理方法对待处理文本语句进行分词、词性标注、依存分析。

例如语句“奥巴马总统与中国驻美国大使进行会谈”，使用分词、词性标注工具，为其中的兼类词赋予初始的词性，例句的初始词性标注结果为“奥巴马_nr总统_n与_p中国_ns驻_v美国_ns大使_n进行_v会谈_v”。其中，分词的结果以空格分隔，词语后面的下划线之后所跟的符号表示该单词的词性。得到分词结果之后，使用依存分析工具对分词和词性标注结果进行依存分析，得到例句的依存分析树，为兼类词词性的识别提供基础。

在自然语言预处理基础上，使用统计得到的词法、句法、语境规则库初步识别待抽取语句中兼类词词性。本发明主要使用并列类推、同语境类推、“有”的宾语是名词等规则识别兼类词词性。

并列类推规则是指并列词汇的词性相同，因此可以依据其中一个词汇的词性得出另外一个词汇的词性，如“人民的要求和愿望”，依据并列规则得到兼类词“要求”在此上下文中的词性与“愿望”的词性相同，因此兼类词“要求”的词性是名词；

同语境类推规则是指对于相同语境下的词汇其词性相同，因此可以依据其中一个词汇的词性得到另外一个词汇的词性，如“好材料、好设计”，依据该规则兼类词“设计”的词性和“材料”的词性相同，因此兼类词“设计”的词性是名词；

“有”的宾语是名词，如“有希望”则其中“希望”的词性为名词。

步骤103、依存分析语义角色兼类词词性处理。

在词法、句法和语境规则库初步识别语句中兼类词词性的基础上，进一步使用预先得到的兼类词语义角色规则识别该语句中兼类词的词性。具体的是将语句中的所有词汇的依存分析结果、词性分别与兼类词语义角色统计规则进行匹配，若符合其中任意一条规则，则对兼类词词性做相应的调整。

如例句“奥巴马总统与中国驻美国大使进行会谈”中“驻”的词性标注结果是v且其依存分析结果为ATT，则其符合兼类词依存分析语义角色统计规则1，所以应将其调整为n。

其中“会谈”的词性标注结果为v且其依存分析结果为VOB，且没有依存标签为VOB，POB或者IOB的节点与之直接相连或者通过介词相连，则其符合兼类词依存分析语义角色规则2，所以应将其调整为n。本例句通过兼类词处理后得到“奥巴马_nr总统_n与_p中国_ns驻_n美国_ns大使_n进行_v会谈_n”，该词性标注结果更加准确。

本发明公布的基于依存分析的中文兼类词处理方法具有以下特点：本发明通过统计得到高覆盖率和高准确率的兼类词依存分析语义角色规则，并基于此结合词法、句法、语境规则提高了中文兼类词词性识别准确度，因此词性标注的准确度也得到进一步提高。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于依存分析的中文兼类词处理方法，所述方法包括：

兼类词依存分析语义角色统计规则获取；

对输入文本进行自然语言预处理以及使用词法、句法、语境规则库识别语句中兼类词词性；

使用预先得到的兼类词依存分析语义角色统计规则识别语句中兼类词词性。

2.根据权利要求1所述的方法，其特征在于，兼类词依存分析语义角色统计规则获取，所述方法包括：

选择大量包含兼类词的语句作为训练语料。通过比较现有自然语言处理工具并选择其中准确率和效率相对较高的工具对输入文本语句进行分词、词性标注、依存分析一系列的自然语言预处理。

通过人工统计包含兼类词语句的依存分析结果，得到具有较高准确率和高覆盖率的兼类词依存分析语义角色统计规则。

3.根据权利要求1所述的方法，其特征在于，对待处理文本语句进行自然语言预处理以及使用词法、句法、语境规则库识别语句中兼类词词性，所述方法包括：

使用自然语言处理对待处理文本语句进行分词、词性标注、依存分析一系列的自然语言预处理。

使用统计得到的大量词法、句法、语境规则库识别语句中兼类词词性，如并列类推规则，同语境类推规则等。

4.根据权利要求1所述的方法，其特征在于使用依存分析语义角色识别兼类词词性，所述方法包括：

若一个词的词性标签为v(动词)且其依存分析语义角色为ATT(attribute)，则该词的词性应调整为名词。

若一个词的词性标签为非名词且其依存分析角色为VOB(direct object)，POB(propositional object)或者IOB(indirect object)，同时没有依存分析角色为VOB，POB或者IOB的节点与之直接相连或者通过介词相连，则该词的词性应调整为名词。