CN105718442A - 一种基于句法分析的词义消歧方法 - Google Patents
一种基于句法分析的词义消歧方法 Download PDFInfo
- Publication number
- CN105718442A CN105718442A CN201610033077.8A CN201610033077A CN105718442A CN 105718442 A CN105718442 A CN 105718442A CN 201610033077 A CN201610033077 A CN 201610033077A CN 105718442 A CN105718442 A CN 105718442A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- related term
- ambiguity
- meaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Abstract
本发明涉及到一种基于句法分析的词义消歧方法,属于自然语言处理技术领域。其步骤为:1.对歧义词所在的句子进行预处理,主要包括去除乱码字符、特殊符号等;2.对歧义词所在的句子进行短语结构句法分析,获得其短语结构句法树;3.对歧义词所在的句子进行依存句法分析,获得其依存句法树;4.收集句子中除歧义词之外的全部实词,作为相关词,根据步骤2、3所得的短语结构句法树、依存句法树和句子,计算其与歧义词的距离并赋予消歧权重,构建相关词集合;5.根据歧义词各词义与相关词集合的整体相关度,确定歧义词的正确词义。本发明提出的基于句法分析的词义消歧方法,可强化句法关系密切的相关词的消歧权重,能够改善词义消歧的正确率。
Description
技术领域
本发明涉及一种词义消歧方法,特别涉及一种基于句法分析的词义消歧方法,属于自然语言处理技术领域。
背景技术
词义消歧是指根据歧义词所处的上下文环境而自动判定其正确词义。词义消歧属于自然语言处理的底层技术,其对机器翻译、信息检索、自动问答、情感分析等自然语言处理任务均具有直接的影响。
所谓“观其伴,知其义”,歧义词的词义可由其上下文相关词而确定。上下文相关词的选择及消歧权重的确定对词义消歧的效果具有决定性影响。传统的词义消歧方法通常利用滑动窗口来选择上下文相关词,即以歧义词为中心,选择其左右一定范围内的词语作为相关词,并为其赋予等同的消歧权重。这种方法简单易行,但它忽视了句子中所蕴含的语法及语义关系,忽视了相关词与歧义词的距离的差异给词义表决所产生的影响。传统的词义消歧方法在上下文相关词的选择及赋权上存在很大的不足。短语结构句法分析和依存句法分析技术的发展,为解决这一问题提供了一种可行的思路。以短语结构句法树、依存句法树为依据进行上下文相关词的选择及赋权,将有利于提高上下文相关词选择及赋权的准确性,有利于改善词义消歧的效果。
发明内容
本发明的目的是针对传统词义消歧方法的不足,为提高其相关词选择及赋权的精度,提出一种基于句法分析的词义消歧方法。
本发明的目的是通过如下技术方案实现的。
一种基于句法分析的词义消歧方法,其具体操作步骤如下。
步骤一、对歧义词所在的句子进行预处理,主要包括去除乱码字符、特殊符号等;具体如下。
步骤1.1:用符号S表示待处理的句子,用符号wt表示待消歧的目标歧义词。
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号等,获得预处理后的句子S’。
步骤1.3:对句子S’中的词语进行词形还原。
步骤二、对歧义词所在的句子进行短语结构句法分析,获得其短语结构句法树;具体如下。
使用短语结构句法分析工具,对句子S’进行短语结构句法分析,获得其短语结构句法树PhraseTree。
步骤三、对歧义词所在的句子进行依存句法分析,获得其依存句法树;具体如下。
步骤3.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet。
步骤3.2:根据依存元组集合DSet中的元组信息,构建依存句法树DependTree。
步骤四、收集句子中除歧义词之外的全部实词,作为相关词,并根据其与歧义词的距离赋予消歧权重,构建相关词集合;具体如下。
步骤4.1:收集句子中除歧义词wt之外的全部实词,构建相关词集合R。
步骤4.2:根据依存句法树DependTree、短语结构句法树PhraseTree、句子S’,统计R中各个相关词w与歧义词wt在依存句法树上的路径距离d1、在短语结构句法树上的路径距离d2、在句子中的直接距离d3。
步骤4.3:根据各个相关词w与歧义词wt的距离信息,由公式(1),为其赋予消歧权重。
(1)
其中,d1是相关词w与歧义词wt在依存句法树上的路径距离、d2是两者在短语结构句法树上的路径距离、d3是两者在句子中的直接距离;α、β、γ是权重调节因子。
步骤五、根据歧义词各词义与相关词集合的整体相关度,确定歧义词的正确词义;具体如下。
步骤5.1:计算歧义词的各个词义si与相关词集合R中的相关词wj的词义相关度rela(wj,si)。
步骤5.2:由公式(2),根据步骤4.3和步骤5.1的数据,计算歧义词各个词义si与相关词集合R的整体相关度。
(2)
其中,si是歧义词的某一个词义,R是相关词集合,wj是某一个相关词。
步骤5.3:根据步骤5.2所得的整体相关度,选择相关度最大的词义作为正确词义。
经过以上步骤的操作,即可判定歧义词的词义,完成词义消歧任务。
有益效果
本发明提出基于句法分析的词义消歧方法与传统的词义消歧方法相比较,其在相关词的选择与赋权上,引入了依存句法树和短语结构句法树;全面考虑相关词与歧义词在依存句法树上的路径距离、在短语结构句法树上的路径距离、在句子中的直接距离,为相关词赋予适当的消歧权重;具有密切依存句法关系或短语结构句法关系的相关词将被赋予较大的权重。本发明能够强化句法关系密切的相关词的消歧权重,提高相关词的赋权精度,能够改善词义消歧的正确率。
附图说明
图1为本发明具体实施方式中的短语结构句法树。
图2为本发明具体实施方式中的依存句法树。
图3为本发明具体实施方式中的相关词与歧义词的距离及其消歧权重表。
图4为本发明具体实施方式中的歧义词词义与相关词的词义相关度表。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步的详细描述。
以句子“Thebusin?thiscomputercan‘transmitdatabetweenanytwoelectrical】systems.”为例,对其中的歧义词bus进行消歧处理。
根据WordNet3.0词典,歧义词bus的词义如表1所示。
表1bus#n的词义表
词义编号 | 词义说明 |
bus#n#1 | bus, autobus, coach, charabanc, double-decker, jitney, motorbus, motorcoach, omnibus, passenger vehicle -- (a vehicle carrying manypassengers; used for public transport; "he always rode the bus to work") |
bus#n#2 | bus topology, bus -- (the topology of a network whose components are connected by a busbar) |
bus#n#3 | busbar, bus -- (an electrical conductor that makes a common connection between several circuits; "the busbar in this computer can transmit dataeither way between any two components of the system") |
bus#n#4 | bus, jalopy, heap -- (a car that is old and unreliable; "the fenders had fallen off that old bus") |
其中,#n表示词性为名词;#1,#2,#3,#4表示在WordNet3.0中的词义序号。
步骤一、对歧义词所在的句子进行预处理,主要包括去除乱码字符、特殊符号等;具体如下。
步骤1.1:用符号S表示待处理的句子,用符号wt表示待消歧的目标歧义词。
此例中,S=“Thebusin?thiscomputercan‘transmitdatabetweenanytwoelectrical】systems.”,wt=“bus”。
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号等,获得预处理后的句子S’。
此例中,S’=“Thebusinthiscomputercantransmitdatabetweenanytwoelectricalsystems.”。
步骤1.3:对句子S’中的词语进行词形还原。
此例中借助于WordNet3.0和美国西北大学所提供的MorphAdorner工具包,完成词形还原工作。此例中仅涉及一个词语“systems”,其将被还原为“system”。
步骤二、对歧义词所在的句子进行短语结构句法分析,获得其短语结构句法树;具体如下。
使用短语结构句法分析工具,对句子S’进行短语结构句法分析,获得其短语结构句法树PhraseTree。
此例中使用斯坦福大学所提供的StanfordParser句法分析器,使用englishPCFG.ser.gz语言模型,结合步骤1.3中的词形还原信息,可得到如附图1所示的短语结构句法树。
步骤三、对歧义词所在的句子进行依存句法分析,获得其依存句法树;具体如下。
步骤3.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet。
此例中使用斯坦福大学所提供的StanfordParser句法分析器,使用englishPCFG.ser.gz语言模型,并对依存关系进行折叠和传递处理,结合步骤1.3中的词形还原信息,可得到如下依存元组集合DSet,DSet={
det(bus-2,The-1)、nsubj(transmit-7,bus-2)、det(computer-5,this-4)、prep_in(bus-2,computer-5)、aux(transmit-7,can-6)、dobj(transmit-7,data-8)、det(system-13,any-10)、num(system-13,two-11)、amod(system-13,electrical-12)、prep_between(data-8,system-13)}。
步骤3.2:根据依存元组集合DSet中的元组信息,构建依存句法树DependTree。
此例中,由DSet中的依存元组数据,可得其依存元组句法树如附图2所示。
步骤四、收集句子中除歧义词之外的全部实词,作为相关词,并根据其与歧义词的距离赋予消歧权重,构建相关词集合;具体如下。
步骤4.1:收集句子中除歧义词wt之外的全部实词,构建相关词集合R。
此例中可得R={computer,transmit,data,electrical,system}。
步骤4.2:根据依存句法树DependTree、短语结构句法树PhraseTree、句子S’,统计R中各个相关词w与歧义词wt在依存句法树上的路径距离d1、在短语结构句法树上的路径距离d2、在句子中的直接距离d3。
此例中,可得各个相关词与歧义词的距离信息如附图3所示。
步骤4.3:根据各个相关词w与歧义词wt的距离信息,由公式(1),为其赋予消歧权重。
(1)
其中,d1是相关词w与歧义词wt在依存句法树上的路径距离、d2是两者在短语结构句法树上的路径距离、d3是两者在句子中的直接距离;α、β、γ是权重调节因子。
此例中,根据经验,将α、β、γ分别置为2、0.6、0.3,可得各个相关词的消歧权重如附图3所示。
步骤五、根据歧义词各词义与相关词集合的整体相关度,确定歧义词的正确词义;具体如下。
步骤5.1:计算歧义词的各个词义si与相关词集合R中的相关词wj的词义相关度rela(wj,si)。
此例中使用TedPederson所编写的WordNet::Similarity工具包来进行计算,可得各词义相关度如附图4所示。(图表中的#v表示词性为动词,#n表示词性为名词,#a表示词性为形容词)。
步骤5.2:由公式(2),根据步骤4.3和步骤5.1的数据,计算歧义词各个词义si与相关词集合R的整体相关度。
(2)
其中,si是歧义词的某一个词义,R是相关词集合,wj是某一个相关词。
此例中,可得bus#n#1、bus#n#2、bus#n#3、bus#n#4与相关词集的整体相关度分别为:0.3016952472555122、0.231764238446931、0.6091991622296178、0.20566305453344766。
步骤5.3:根据步骤5.2所得的整体相关度,选择相关度最大的词义作为正确词义。
此例中,bus的第三个词义bus#n#3的整体相关度最大,将被作为正确词义。
经过以上步骤的操作,即可判定歧义词的词义,完成词义消歧任务。
如上所述,本发明提供了一种基于句法分析的词义消歧方法。通过用户输入真实的句子并指定目标歧义词,系统将自动对目标歧义词的词义进行判定。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于句法分析的词义消歧方法,其特征在于:其具体操作步骤为:
步骤一、对歧义词所在的句子进行预处理,主要包括去除乱码字符、特殊符号等;具体为:
步骤1.1:用符号S表示待处理的句子,用符号wt表示待消歧的目标歧义词;
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号等,获得预处理后的句子S’;
步骤1.3:对句子S’中的词语进行词形还原;
步骤二、对歧义词所在的句子进行短语结构句法分析,获得其短语结构句法树;具体为:
使用短语结构句法分析工具,对句子S’进行短语结构句法分析,获得其短语结构句法树PhraseTree;
步骤三、对歧义词所在的句子进行依存句法分析,获得其依存句法树;具体为:
步骤3.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet;
步骤3.2:根据依存元组集合DSet中的元组信息,构建依存句法树DependTree;
步骤四、收集句子中除歧义词之外的全部实词,作为相关词,并根据其与歧义词的距离赋予消歧权重,构建相关词集合;具体为:
步骤4.1:收集句子中除歧义词wt之外的全部实词,构建相关词集合R;
步骤4.2:根据依存句法树DependTree、短语结构句法树PhraseTree、句子S’,统计R中各个相关词w与歧义词wt在依存句法树上的路径距离d1、在短语结构句法树上的路径距离d2、在句子中的直接距离d3;
步骤4.3:根据各个相关词w与歧义词wt的距离信息,由公式(1),为其赋予消歧权重;
(1)
其中,d1是相关词w与歧义词wt在依存句法树上的路径距离、d2是两者在短语结构句法树上的路径距离、d3是两者在句子中的直接距离;α、β、γ是权重调节因子;
步骤五、根据歧义词各词义与相关词集合的整体相关度,确定歧义词的正确词义;具体为:
步骤5.1:计算歧义词的各个词义si与相关词集合R中的相关词wj的词义相关度rela(wj,si);
步骤5.2:由公式(2),根据步骤4.3和步骤5.1的数据,计算歧义词各个词义si与相关词集合R的整体相关度;
(2)
其中,si是歧义词的某一个词义,R是相关词集合,wj是某一个相关词;
步骤5.3:根据步骤5.2所得的整体相关度,选择相关度最大的词义作为正确词义;
经过以上步骤的操作,即可判定歧义词的词义,完成词义消歧任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610033077.8A CN105718442A (zh) | 2016-01-19 | 2016-01-19 | 一种基于句法分析的词义消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610033077.8A CN105718442A (zh) | 2016-01-19 | 2016-01-19 | 一种基于句法分析的词义消歧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105718442A true CN105718442A (zh) | 2016-06-29 |
Family
ID=56147925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610033077.8A Pending CN105718442A (zh) | 2016-01-19 | 2016-01-19 | 一种基于句法分析的词义消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105718442A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106705974A (zh) * | 2016-12-30 | 2017-05-24 | 华北电力大学(保定) | 一种非受限路径自然语言的语义角色标注及语义提取方法 |
WO2019085640A1 (zh) * | 2017-10-31 | 2019-05-09 | 株式会社Ntt都科摩 | 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
-
2016
- 2016-01-19 CN CN201610033077.8A patent/CN105718442A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
Non-Patent Citations (4)
Title |
---|
HEYAN HUANG,ETC: "Knowledge-based Word Sense Disambiguation with Feature Words Based on Dependency Relation and Syntax Tree", 《INTERNATIONAL JOURNAL OF ADVANCEMENTS IN COMPUTING TECHNOLOGY》 * |
WENPENG LU: "Comparative study on weight function for word sense disambiguation", 《2011 INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》 * |
郎倩雨 等: "电力专业英语语料库在电力专业学习中的应用", 《学理论》 * |
鹿文鹏: "基于依存和领域知识的词义消歧方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106705974A (zh) * | 2016-12-30 | 2017-05-24 | 华北电力大学(保定) | 一种非受限路径自然语言的语义角色标注及语义提取方法 |
CN106705974B (zh) * | 2016-12-30 | 2020-05-12 | 华北电力大学(保定) | 一种非受限路径自然语言的语义角色标注及语义提取方法 |
WO2019085640A1 (zh) * | 2017-10-31 | 2019-05-09 | 株式会社Ntt都科摩 | 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
CN102214166B (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN104317846A (zh) | 一种语义分析与标注方法及系统 | |
CN103885938A (zh) | 基于用户反馈的行业拼写错误检查方法 | |
CN103020230A (zh) | 一种语义模糊匹配方法 | |
CN104756100A (zh) | 意图估计装置以及意图估计方法 | |
CN101655837A (zh) | 一种对语音识别后文本进行检错并纠错的方法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN111209363B (zh) | 语料数据处理方法、装置、服务器和存储介质 | |
CN111104803B (zh) | 语义理解处理方法、装置、设备及可读存储介质 | |
CN105975455A (zh) | 基于双向递归神经网络的信息分析系统 | |
CN111652006A (zh) | 一种计算机辅助翻译方法及装置 | |
CN105677639A (zh) | 一种基于短语结构句法树的英文词义消歧方法 | |
CN104750676B (zh) | 机器翻译处理方法及装置 | |
CN103714053B (zh) | 一种面向机器翻译的日语动词识别方法 | |
CN105718442A (zh) | 一种基于句法分析的词义消歧方法 | |
CN109325243A (zh) | 字符级基于序列模型的蒙古文切词方法及其切词系统 | |
Misu et al. | A bootstrapping approach for SLU portability to a new language by inducting unannotated user queries | |
CN102135957A (zh) | 一种翻译短句的方法及装置 | |
CN108959253A (zh) | 核心短语的提取方法、装置及可读存储介质 | |
Ghosh et al. | Clause identification and classification in bengali | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
CN110362673B (zh) | 基于摘要语义分析的计算机视觉类论文内容判别方法及系统 | |
CN109446537B (zh) | 一种针对机器翻译的译文评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160629 |
|
RJ01 | Rejection of invention patent application after publication |