CN105005557A - 一种基于依存分析的中文兼类词处理方法 - Google Patents

一种基于依存分析的中文兼类词处理方法 Download PDF

Info

Publication number
CN105005557A
CN105005557A CN201510475708.7A CN201510475708A CN105005557A CN 105005557 A CN105005557 A CN 105005557A CN 201510475708 A CN201510475708 A CN 201510475708A CN 105005557 A CN105005557 A CN 105005557A
Authority
CN
China
Prior art keywords
speech
parts
conversion
dependency analysis
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510475708.7A
Other languages
English (en)
Inventor
刘峤
刘瑶
秦志光
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510475708.7A priority Critical patent/CN105005557A/zh
Publication of CN105005557A publication Critical patent/CN105005557A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

中文兼类词的词性标注是当前影响中文信息处理系统性能的主要问题之一。兼类词是指中文中存在的一词具有多种词性的语法现象,如动名词同形。本发明公开了一种基于依存分析的中文兼类词处理方法,该方法包括如下三个部分:首先选择大量包含兼类词的语句作为训练语料,通过依存分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则;然后对待处理文本进行句子划分、分词、词性标注和依存分析预处理,并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注;最后采用预先得到的兼类词语义角色统计规则,通过依存分析进一步准确识别兼类词在不同上下文环境下的词性。该方法能够有效提高中文文本处理的词性标注准确度,可广泛应用于各种中文信息处理系统。

Description

一种基于依存分析的中文兼类词处理方法
技术领域
本发明涉及自然语言处理领域,确切地说,涉及中文信息处理的词性一致性检查和中文兼类词处理。
背景技术
兼类词是指某个词在不同上下文中具有两类或多类语法功能,即该词汇在不同上下文中具有不同的词性。具体说来,兼类词具有相同的读音和相同的符号形式,而且词汇意义存在一定的联系,即同音,同形,意义不完全相同但密切相关。兼类词是中文特有的语法现象,英文中词根相同但词性不同的单词通常具有不同的词形,而中文语境下,一词多词性的词性兼类现象则较为常见。
常见的中文兼类词有三种类型。一种是名词与动词的兼类现象,例如在“奥巴马赢得总统选举”,“公民通过投票选举出总统”的语境下“选举”分别是名词和动词;另一种是名词与形容词的兼类现象,例如在“他正在进行秘密的实验”,“我知道你的秘密”的语境下“秘密”分别是形容词和名词;还有一种是形容词与动词的兼类词,例如在“阅读丰富我的生活”,“他的经验很丰富”的语境下“丰富”分别是动词和形容词。常见的词性标注工具如Stanford NLP、LTP和Zpar等并未对中文兼类词现象进行专门考虑,因此对兼类词的词性识别准确率较低。
由于中文词性兼类现象的普遍性,因此兼类词的处理能够有效提高文本预处理阶段词性标注准确度,可广泛应用于各种中文信息处理系统。
发明内容
本发明的目的是提供一种提高兼类词词性识别准确度的方法,在使用词法、句法和语境规则库识别兼类词词性的基础上进一步使用语义角色统计规则识别兼类词词性。
为实现上述目的,本发明实施例公开了一种基于依存分析语义角色统计规则的中文兼类词处理方法。其特征在于,包括如下三个主要的功能模块:
兼类词语义角色统计规则抽取模块:构建大量包含兼类词的语句作为训练语料,通过依存分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则;
词法、句法和语境规则库兼类词处理模块:对待处理文本进行自然语言预处理,并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注;
语义角色统计规则兼类词处理模块:采用预先得到的兼类词语义角色统计规则,通过依存分析进一步准确识别兼类词在不同上下文环境下的词性。
本发明的发明目的是这样实现的:本发明首先通过统计获得高覆盖率和高准确率的兼类词依存分析语义规则,然后在使用词法、句法、语境规则识别兼类词词性的基础上结合使用依存分析语义规则进一步识别兼类词词性。与现有技术相比,本发明的有益效果是通过在词法、句法和语境特征的基础上引入语义特征,提高了兼类词词性识别准确度,因此进一步提高了词性标注的准确度。
附图说明
图1为基于依存分析的中文兼类词处理方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的基于依存分析的兼类词处理方法流程图,具体包括如下步骤:首先构建大量包含兼类词的语句作为训练语料并通过分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则;然后对待处理文本进行自然语言预处理,并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注;最后使用兼类词语义角色统计规则进一步准确识别兼类词在不同上下文环境下的词性。本方法通过结合词法、句法、语境规则库和语义角色统计规则提高了兼类词词性识别准确度。
为便于理解,首先对下文中使用的英文符号和术语进行说明:
(1)词性标注标签:v表示动词,nr表示人名,n表示名词,ns表示地名,p表示介词。
(2)依存分析标签:VOB(direct object)表示直接宾语,POB(prepositional object)表示介词宾语,IOB(indirect object)表示间接宾语,ATT(attribute)表示属性。
(3)依存分析:指利用依存语法将句子分析为描述各词语间依赖关系的依存句法树,即表明了词语间的句法搭配关系,这种搭配关系是与语义相关联的。
步骤101、兼类词语义角色统计规则获取
首先,利用自然语言处理工具对大规模文本语料进行预处理。通过比较现有自然语言处理工具并选择其中准确率和效率相对较高的工具(如Zpar)对输入文本中的语句进行分词、词性标注、依存分析一系列自然语言预处理。然后,通过人工统计语料中兼类词依存分析结果,得到如下中文兼类词语义角色统计规则。
(1)兼类词语义角色规则1:若一个词语的词性标签标记为v,且其依存分析语义角色为ATT,则该词的词性应调整为名词。
(2)兼类词语义角色规则2:若一个词语词性标签为非名词性,且其依存标签为VOB,POB或者IOB,且没有依存标签为VOB,POB或者IOB的节点与之直接相连或者通过介词相连,则该词的词性应调整为名词。
步骤102、词法、句法和语境规则库兼类词词性处理;
使用步骤101中的自然语言预处理方法对待处理文本语句进行分词、词性标注、依存分析。
例如语句“奥巴马总统与中国驻美国大使进行会谈”,使用分词、词性标注工具,为其中的兼类词赋予初始的词性,例句的初始词性标注结果为“奥巴马_nr总统_n与_p中国_ns驻_v美国_ns大使_n进行_v会谈_v”。其中,分词的结果以空格分隔,词语后面的下划线之后所跟的符号表示该单词的词性。得到分词结果之后,使用依存分析工具对分词和词性标注结果进行依存分析,得到例句的依存分析树,为兼类词词性的识别提供基础。
在自然语言预处理基础上,使用统计得到的词法、句法、语境规则库初步识别待抽取语句中兼类词词性。本发明主要使用并列类推、同语境类推、“有”的宾语是名词等规则识别兼类词词性。
并列类推规则是指并列词汇的词性相同,因此可以依据其中一个词汇的词性得出另外一个词汇的词性,如“人民的要求和愿望”,依据并列规则得到兼类词“要求”在此上下文中的词性与“愿望”的词性相同,因此兼类词“要求”的词性是名词;
同语境类推规则是指对于相同语境下的词汇其词性相同,因此可以依据其中一个词汇的词性得到另外一个词汇的词性,如“好材料、好设计”,依据该规则兼类词“设计”的词性和“材料”的词性相同,因此兼类词“设计”的词性是名词;
“有”的宾语是名词,如“有希望”则其中“希望”的词性为名词。
步骤103、依存分析语义角色兼类词词性处理。
在词法、句法和语境规则库初步识别语句中兼类词词性的基础上,进一步使用预先得到的兼类词语义角色规则识别该语句中兼类词的词性。具体的是将语句中的所有词汇的依存分析结果、词性分别与兼类词语义角色统计规则进行匹配,若符合其中任意一条规则,则对兼类词词性做相应的调整。
如例句“奥巴马总统与中国驻美国大使进行会谈”中“驻”的词性标注结果是v且其依存分析结果为ATT,则其符合兼类词依存分析语义角色统计规则1,所以应将其调整为n。
其中“会谈”的词性标注结果为v且其依存分析结果为VOB,且没有依存标签为VOB,POB或者IOB的节点与之直接相连或者通过介词相连,则其符合兼类词依存分析语义角色规则2,所以应将其调整为n。本例句通过兼类词处理后得到“奥巴马_nr总统_n与_p中国_ns驻_n美国_ns大使_n进行_v会谈_n”,该词性标注结果更加准确。
本发明公布的基于依存分析的中文兼类词处理方法具有以下特点:本发明通过统计得到高覆盖率和高准确率的兼类词依存分析语义角色规则,并基于此结合词法、句法、语境规则提高了中文兼类词词性识别准确度,因此词性标注的准确度也得到进一步提高。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于依存分析的中文兼类词处理方法,所述方法包括:
兼类词依存分析语义角色统计规则获取;
对输入文本进行自然语言预处理以及使用词法、句法、语境规则库识别语句中兼类词词性;
使用预先得到的兼类词依存分析语义角色统计规则识别语句中兼类词词性。
2.根据权利要求1所述的方法,其特征在于,兼类词依存分析语义角色统计规则获取,所述方法包括:
选择大量包含兼类词的语句作为训练语料。通过比较现有自然语言处理工具并选择其中准确率和效率相对较高的工具对输入文本语句进行分词、词性标注、依存分析一系列的自然语言预处理。
通过人工统计包含兼类词语句的依存分析结果,得到具有较高准确率和高覆盖率的兼类词依存分析语义角色统计规则。
3.根据权利要求1所述的方法,其特征在于,对待处理文本语句进行自然语言预处理以及使用词法、句法、语境规则库识别语句中兼类词词性,所述方法包括:
使用自然语言处理对待处理文本语句进行分词、词性标注、依存分析一系列的自然语言预处理。
使用统计得到的大量词法、句法、语境规则库识别语句中兼类词词性,如并列类推规则,同语境类推规则等。
4.根据权利要求1所述的方法,其特征在于使用依存分析语义角色识别兼类词词性,所述方法包括:
若一个词的词性标签为v(动词)且其依存分析语义角色为ATT(attribute),则该词的词性应调整为名词。
若一个词的词性标签为非名词且其依存分析角色为VOB(direct object),POB(propositional object)或者IOB(indirect object),同时没有依存分析角色为VOB,POB或者IOB的节点与之直接相连或者通过介词相连,则该词的词性应调整为名词。
CN201510475708.7A 2015-08-06 2015-08-06 一种基于依存分析的中文兼类词处理方法 Pending CN105005557A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510475708.7A CN105005557A (zh) 2015-08-06 2015-08-06 一种基于依存分析的中文兼类词处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510475708.7A CN105005557A (zh) 2015-08-06 2015-08-06 一种基于依存分析的中文兼类词处理方法

Publications (1)

Publication Number Publication Date
CN105005557A true CN105005557A (zh) 2015-10-28

Family

ID=54378233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510475708.7A Pending CN105005557A (zh) 2015-08-06 2015-08-06 一种基于依存分析的中文兼类词处理方法

Country Status (1)

Country Link
CN (1) CN105005557A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630971A (zh) * 2015-12-25 2016-06-01 黑龙江大学 一种中文信息处理装置及信息处理方法
CN106202035A (zh) * 2016-06-30 2016-12-07 昆明理工大学 基于组合方法的越南语兼类词消歧方法
CN107844476A (zh) * 2017-10-19 2018-03-27 广州索答信息科技有限公司 一种增强的词性标注方法
CN109582975A (zh) * 2019-01-31 2019-04-05 北京嘉和美康信息技术有限公司 一种命名实体的识别方法及装置
CN109815333A (zh) * 2019-01-14 2019-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN109992651A (zh) * 2019-03-14 2019-07-09 广州智语信息科技有限公司 一种问题目标特征自动识别和抽取方法
CN110309513A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN110309507A (zh) * 2019-05-30 2019-10-08 深圳壹账通智能科技有限公司 测试语料生成方法、装置、计算机设备和存储介质
CN110610007A (zh) * 2019-09-20 2019-12-24 广州穗圣信息科技有限公司 基于nlp的维保车况智能识别方法及装置
CN110750989A (zh) * 2019-10-28 2020-02-04 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
CN110929501A (zh) * 2019-11-21 2020-03-27 苏州跃盟信息科技有限公司 文本分析方法和装置
CN111581950A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 同义名称词的确定方法和同义名称词的知识库的建立方法
CN112528629A (zh) * 2019-08-29 2021-03-19 上海卓繁信息技术股份有限公司 语句通顺度判别方法及系统
CN114707489A (zh) * 2022-03-29 2022-07-05 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN116306663A (zh) * 2022-12-27 2023-06-23 华润数字科技有限公司 语义角色标注方法、装置、设备以及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071519A1 (en) * 2006-09-19 2008-03-20 Xerox Corporation Labeling of work of art titles in text for natural language processing
CN104750779A (zh) * 2015-03-04 2015-07-01 华东师范大学 一种基于条件随机场的中文兼类词识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071519A1 (en) * 2006-09-19 2008-03-20 Xerox Corporation Labeling of work of art titles in text for natural language processing
CN104750779A (zh) * 2015-03-04 2015-07-01 华东师范大学 一种基于条件随机场的中文兼类词识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONGZHENG LI ET AL.: "Identifying Verb-Preposition Multi-Category Words in Chinese-English Patent Machine Translation", 《AUSTRALASIAN CONFERENCE ON ARTIFICIAL LIFE AND COMPUTATIONAL INTELLIGENCE》 *
夏静 等: "基于统计和规则的常用词的兼类识别研究", 《计算机工程与设计》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630971A (zh) * 2015-12-25 2016-06-01 黑龙江大学 一种中文信息处理装置及信息处理方法
CN106202035B (zh) * 2016-06-30 2019-07-05 昆明理工大学 基于组合方法的越南语兼类词消歧方法
CN106202035A (zh) * 2016-06-30 2016-12-07 昆明理工大学 基于组合方法的越南语兼类词消歧方法
CN107844476A (zh) * 2017-10-19 2018-03-27 广州索答信息科技有限公司 一种增强的词性标注方法
CN109815333A (zh) * 2019-01-14 2019-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN109582975A (zh) * 2019-01-31 2019-04-05 北京嘉和美康信息技术有限公司 一种命名实体的识别方法及装置
CN109582975B (zh) * 2019-01-31 2023-05-23 北京嘉和海森健康科技有限公司 一种命名实体的识别方法及装置
CN109992651A (zh) * 2019-03-14 2019-07-09 广州智语信息科技有限公司 一种问题目标特征自动识别和抽取方法
CN109992651B (zh) * 2019-03-14 2024-01-02 广州智语信息科技有限公司 一种问题目标特征自动识别和抽取方法
CN110309507A (zh) * 2019-05-30 2019-10-08 深圳壹账通智能科技有限公司 测试语料生成方法、装置、计算机设备和存储介质
CN110309513A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN110309513B (zh) * 2019-07-09 2023-07-25 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN112528629A (zh) * 2019-08-29 2021-03-19 上海卓繁信息技术股份有限公司 语句通顺度判别方法及系统
CN110610007A (zh) * 2019-09-20 2019-12-24 广州穗圣信息科技有限公司 基于nlp的维保车况智能识别方法及装置
CN110750989A (zh) * 2019-10-28 2020-02-04 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
CN110750989B (zh) * 2019-10-28 2023-09-19 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
CN110929501A (zh) * 2019-11-21 2020-03-27 苏州跃盟信息科技有限公司 文本分析方法和装置
CN110929501B (zh) * 2019-11-21 2023-11-03 苏州跃盟信息科技有限公司 文本分析方法和装置
CN111581950A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 同义名称词的确定方法和同义名称词的知识库的建立方法
CN111581950B (zh) * 2020-04-30 2024-01-02 支付宝(杭州)信息技术有限公司 同义名称词的确定方法和同义名称词的知识库的建立方法
CN114707489B (zh) * 2022-03-29 2023-08-18 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN114707489A (zh) * 2022-03-29 2022-07-05 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN116306663A (zh) * 2022-12-27 2023-06-23 华润数字科技有限公司 语义角色标注方法、装置、设备以及介质
CN116306663B (zh) * 2022-12-27 2024-01-02 华润数字科技有限公司 语义角色标注方法、装置、设备以及介质

Similar Documents

Publication Publication Date Title
CN105005557A (zh) 一种基于依存分析的中文兼类词处理方法
Garg et al. Rule based Hindi part of speech tagger
Das et al. Part of speech tagging in odia using support vector machine
CN103365838A (zh) 基于多元特征的英语作文语法错误自动纠正方法
Gómez-Adorno et al. A graph based authorship identification approach
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
Jayaweera et al. Hidden markov model based part of speech tagger for sinhala language
Khanam et al. Named Entity Recognition using Machine learning techniques for Telugu language
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
Hasan et al. Comparison of Unigram, Bigram, HMM and Brill's POS tagging approaches for some South Asian languages
Albogamy et al. Unsupervised stemmer for Arabic tweets
Raulji et al. Sanskrit-Gujarati constituency mapper for machine translation system
CN105183807A (zh) 一种基于结构句法的情绪原因事件识别方法及系统
Govilkar et al. Part of speech tagger for Marathi language
Li et al. Intelligent braille conversion system of Chinese characters based on Markov model
Reddy et al. POS Tagger for Kannada Sentence Translation
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Ali et al. Urdu noun phrase chunking: HMM based approach
KR102152086B1 (ko) 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법
Ariaratnam et al. A shallow parser for Tamil
Bindu et al. Named entity identifier for malayalam using linguistic principles employing statistical methods
Altenbek et al. Identification of basic phrases for kazakh language using maximum entropy model
Mesmia et al. Arabic named entity recognition process using transducer cascade and Arabic Wikipedia
Radhika et al. Semantic role extraction and general concept understanding in malayalam using Paninian grammar
CN110569510A (zh) 一种对用户请求数据的命名实体识别的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151028