CN105302796A - 一种基于依存树的语义分析方法 - Google Patents
一种基于依存树的语义分析方法 Download PDFInfo
- Publication number
- CN105302796A CN105302796A CN201510809638.4A CN201510809638A CN105302796A CN 105302796 A CN105302796 A CN 105302796A CN 201510809638 A CN201510809638 A CN 201510809638A CN 105302796 A CN105302796 A CN 105302796A
- Authority
- CN
- China
- Prior art keywords
- semantic analysis
- chinese
- dependency tree
- speech tagging
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 description 11
- 238000000605 extraction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002828 fuel tank Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000010720 hydraulic oil Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于依存树的语义分析方法,以分词、词性标注、依存关系处理为基础,以汉语句法、语法、语义为基准,对不同专业领域的文本信息进行语义分析,提取文本信息中的关联关系。本发明可以作为一个通用型工具,只需构造相应的专业词库、特征词库等,即可对目标信息进行语义分析。
Description
技术领域
本发明涉及自然语言处理中的语义分析方法,具体涉及一种基于依存树的语义分析方法。
背景技术
自然语言中存在大量的数据信息,通过语义分析工具,旨在挖掘自然语言中所包含的内在关联。根据不同的数据样本、研究目标,结合现有的汉语语法、语义/语用的内在规律,借助句法依存树来构造文本中不同句子成分之间的依存关系,自然语言处理,尤其是语义分析,一直是文本挖掘的难点。英文文本的语义分析已经有一定的研究成果,但是对于博大精深的汉语语义分析,则没有较为理想的工具。
作为一个在人工智能和计算语言学的方法,语义分析为知识推理和语言分析提供了一个结构和过程。社会网络中节点间的信息交流都是通过各种语言进行的,通过人工智能的方法,对目标信息进行语义挖掘一直是技术瓶颈,没有一个统一的挖掘工具给予支持。
发明内容
本发明的技术任务是针对现有技术的不足,提供一种基于依存树的语义分析方法。将英文依存树优化、改造成为汉语依存树,对语料进行分词、词性标注、命名实体识别等步骤之后,抽取文本中的实体,结合句型、特征词及依存关系类型,挖掘实体间的关联关系。
本发明解决其技术问题所采用的技术方案是:
一种基于依存树的语义分析方法,以分词、词性标注、依存关系处理为基础,以汉语句法、语法、语义为基准,对不同专业领域的文本信息进行语义分析,提取文本信息中的关联关系。
以文本分词、词性标注和依存关系处理为基础,对不同专业领域的文本信息挖掘提供统一的分析流程。
以汉语句法、语法、语义为基准,通过中英文的无缝对应,将英文语义分析切实的应用到汉语语义分析中,并加以改造,提高了语义分析的准确率。
借鉴英文的语义分析思想,以依存树为基础,将中英文语法、语义等对应,将英文依存树优化、改造成为汉语依存树,对语料进行分词、词性标注、命名实体识别等步骤之后,抽取文本中的实体,结合句型、特征词及依存关系类型,挖掘实体间的关联关系。
依存树有五种重要特性:
(1)一个句子中只有一个成分是独立的;
(2)其它成分直接依存于某一成分;
(3)任何一个成分都不能依存与两个或两个以上的成分;
(4)如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;
(5)中心成分左右两面的其它成分相互不发生关系。
本发明的一种基于依存树的语义分析方法与现有技术相比,所产生的有益效果是:
(1)借鉴英文语义分析思想,结合汉语分词、词性标注、句法、语法、语义及语用实际进行方法改造,有一定的实践标准。
(2)分词系统、词性标注习惯的汉化,依存关系的对应,较现有中文语义分析工具,在准确性方面有明显的提高。
(3)鉴于中文句型的多样性和复杂性,对不同的句型有不同的处理方法。
(4)不同的研究目标,只需更换专业词库,即可进行语义分析处理,有较高的通用性。
附图说明
附图1是本发明的句法分析依存树实例图。
具体实施方式
下面结合附图对本发明的一种基于依存树的语义分析方法作以下详细地说明。
一种基于依存树的语义分析方法,以分词、词性标注、依存关系处理为基础,以汉语句法、语法、语义为基准,对不同专业领域的文本信息进行语义分析,提取文本信息中的关联关系。
以文本分词、词性标注和依存关系处理为基础,对不同专业领域的文本信息挖掘提供统一的分析流程。
以汉语句法、语法、语义为基准,通过中英文的无缝对应,将英文语义分析切实的应用到汉语语义分析中,并加以改造,提高了语义分析的准确率。
借鉴英文的语义分析思想,以依存树为基础,将中英文语法、语义等对应,将英文依存树优化、改造成为汉语依存树,对语料进行分词、词性标注、命名实体识别等步骤之后,抽取文本中的实体,结合句型、特征词及依存关系类型,挖掘实体间的关联关系。
下面以设备故障现象文本信息为样本进行语义分析。
技术方案:
1、构造设备库。
根据业务目标,需要提取出设备件之间的关联关系。因此,应首先构建包含所有设备件的设备库,即将所有的设备名称所构成的信息作为设备库。如“应急液压油泵”、“柱塞式液压泵”、“舱环控管处”、“TPU”、“起落架”、“液压系统II”等等,且这些设备件之间可以标识层次关系。应该说明的是,首先应该规定好需要进行语义分析的设备件层级,如“液压泵”由“泵体”、“油箱”等部分构成,而“泵体”也有不同的组成部分,需指明需要进行语义分析的设备件层次,并提供不同设备件之间的层级关系。
把含有“设备件”的句子称为关系样例,无特殊说明,关系样例都是指句子。“设备件”间的关系是建立在每对“设备件”之间的。鉴于语义分析对象的特殊性(部分信息只包含一种设备件),舍弃分析对象中“设备件个数<1”的关系样例(或句子)。
2、构造特征词库。
特征词是指示某些设备之间特殊关系的词,如“导致”、“致使”等可以指示句子中设备i与设备j的之间故障关联的词。
现有的分析对象中,很少有类似于上述特征词,但大部分都包含有“发现”、“反映”,或直接叙述“‘设备’+‘正常/非正常状态’”。设备件与特征词是紧密相关的,若设备件与特征词都存在,则不难提取设备件的关联关系,因此仍有必要构建特征词库。
3、提供“指代”词典。
分析对象中的同一个设备件名称有不同的描述方法或简称,须提供同一设备件不同名称的词典,以完成更好的设备识别。
4、句型分类。
分析对象的描述方法有很强的规律性,可以据此将所有的分析对象做分类处理,不同类型的句式结构可以应用不同的关系抽取规则。
5、借助斯坦福Parser生成依存树。
Parser可以找出句子中词语之间的“依存”关联信息,并且以“依存”格式输出,包括有向图及树等形式,为了能更直观的看到词语之间的依存关系,一般选取依存树。Parser提供分词、词性标注和语法分析过程,鉴于其对中文的处理能力不能满足现代汉语语法、语义分析的目标要求,可以将其分词程序更换为适用的中文分词工具。同样的,也可以将词性标注进行调整。需要注意的是,使用汉语词性标注工具时,需要做好词性标注集合的匹配和对接,如Parser中“人名”、“组织机构名”等的词性标注为“NR”,中文的“人名”实体标注为“nr”,这时需要将中文的“组织机构名”“nt”与“nr”一起对应英文的“NR”。
Parser的输入信息是句子,输出信息是该句子的依存关系集合。输入分析对象(句子),选取适当的分析模型之后,显示相应的分析结果,如“安全整顿大检查时发现油箱的指示灯不亮。”的依存树如附图1所示。
对于较复杂的句子,可以制定详细的关系抽取规则,规则的制定需要根据词语(设备件)之间的依存路径。词语(设备件)之间的依存路径指的是句中任意两个词之间的依存关系及经过结点的有序路径,最简单的依存路径就是相邻结点之间的依存关系。如本例中,“检查”和“指示灯”之间的依存路径为(检查-dobj-整顿-loc-发现-ccomp-亮-nsubj-指示灯),当然,这两个词在本例中无特殊语义关系可以提取。
Claims (3)
1.一种基于依存树的语义分析方法,其特征在于以分词、词性标注、依存关系处理为基础,以汉语句法、语法、语义为基准,对不同专业领域的文本信息进行语义分析,提取文本信息中的关联关系。
2.根据权利要求1所述的一种基于依存树的语义分析方法,其特征在于以文本分词、词性标注和依存关系处理为基础,对不同专业领域的文本信息挖掘提供统一的分析流程。
3.根据权利要求1所述的一种基于依存树的语义分析方法,其特征在于以汉语句法、语法、语义为基准,通过中英文的无缝对应,将英文语义分析切实的应用到汉语语义分析中,并加以改造,提高了语义分析的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510809638.4A CN105302796A (zh) | 2015-11-23 | 2015-11-23 | 一种基于依存树的语义分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510809638.4A CN105302796A (zh) | 2015-11-23 | 2015-11-23 | 一种基于依存树的语义分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105302796A true CN105302796A (zh) | 2016-02-03 |
Family
ID=55200075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510809638.4A Pending CN105302796A (zh) | 2015-11-23 | 2015-11-23 | 一种基于依存树的语义分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105302796A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776544A (zh) * | 2016-11-24 | 2017-05-31 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN107544955A (zh) * | 2016-06-24 | 2018-01-05 | 汇仕电子商务(上海)有限公司 | 自然语言句法分析方法及系统 |
CN107632974A (zh) * | 2017-08-08 | 2018-01-26 | 夏振宇 | 适用于多领域的中文分析平台 |
CN107807917A (zh) * | 2017-09-27 | 2018-03-16 | 风变科技(深圳)有限公司 | 文本内容提取方法、装置、系统及存储介质 |
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
CN109524121A (zh) * | 2018-11-09 | 2019-03-26 | 贵州医渡云技术有限公司 | 医疗文件处理方法与装置 |
CN109960789A (zh) * | 2017-12-22 | 2019-07-02 | 广州帷策智能科技有限公司 | 基于自然语言处理的人物关系分析方法 |
CN110113492A (zh) * | 2019-05-06 | 2019-08-09 | 三角兽(北京)科技有限公司 | 基于通知信息的信息显示方法及装置 |
CN110825839A (zh) * | 2019-11-07 | 2020-02-21 | 成都国腾实业集团有限公司 | 一种对文本信息中目标的关联关系分析方法 |
CN111027312A (zh) * | 2019-12-12 | 2020-04-17 | 中金智汇科技有限责任公司 | 文本扩充方法、装置、电子设备及可读存储介质 |
CN111083861A (zh) * | 2019-11-20 | 2020-04-28 | 万翼科技有限公司 | 路灯优化控制方法、装置、计算机设备和存储介质 |
CN111401034A (zh) * | 2018-12-28 | 2020-07-10 | 深圳市优必选科技有限公司 | 文本的语义分析方法、语义分析装置及终端 |
CN112989055A (zh) * | 2021-04-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
-
2015
- 2015-11-23 CN CN201510809638.4A patent/CN105302796A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544955A (zh) * | 2016-06-24 | 2018-01-05 | 汇仕电子商务(上海)有限公司 | 自然语言句法分析方法及系统 |
CN106776544A (zh) * | 2016-11-24 | 2017-05-31 | 四川无声信息技术有限公司 | 人物关系识别方法及装置和分词方法 |
CN107632974A (zh) * | 2017-08-08 | 2018-01-26 | 夏振宇 | 适用于多领域的中文分析平台 |
CN107807917A (zh) * | 2017-09-27 | 2018-03-16 | 风变科技(深圳)有限公司 | 文本内容提取方法、装置、系统及存储介质 |
CN109960789A (zh) * | 2017-12-22 | 2019-07-02 | 广州帷策智能科技有限公司 | 基于自然语言处理的人物关系分析方法 |
CN109960789B (zh) * | 2017-12-22 | 2023-01-24 | 广州帷策智能科技有限公司 | 基于自然语言处理的人物关系分析方法 |
CN108446266B (zh) * | 2018-02-01 | 2022-03-22 | 创新先进技术有限公司 | 一种语句拆分的方法、装置及设备 |
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
CN109524121A (zh) * | 2018-11-09 | 2019-03-26 | 贵州医渡云技术有限公司 | 医疗文件处理方法与装置 |
CN111401034B (zh) * | 2018-12-28 | 2023-10-10 | 深圳市优必选科技有限公司 | 文本的语义分析方法、语义分析装置及终端 |
CN111401034A (zh) * | 2018-12-28 | 2020-07-10 | 深圳市优必选科技有限公司 | 文本的语义分析方法、语义分析装置及终端 |
CN110113492A (zh) * | 2019-05-06 | 2019-08-09 | 三角兽(北京)科技有限公司 | 基于通知信息的信息显示方法及装置 |
CN110825839A (zh) * | 2019-11-07 | 2020-02-21 | 成都国腾实业集团有限公司 | 一种对文本信息中目标的关联关系分析方法 |
CN111083861A (zh) * | 2019-11-20 | 2020-04-28 | 万翼科技有限公司 | 路灯优化控制方法、装置、计算机设备和存储介质 |
CN111027312A (zh) * | 2019-12-12 | 2020-04-17 | 中金智汇科技有限责任公司 | 文本扩充方法、装置、电子设备及可读存储介质 |
CN111027312B (zh) * | 2019-12-12 | 2024-04-19 | 中金智汇科技有限责任公司 | 文本扩充方法、装置、电子设备及可读存储介质 |
CN112989055A (zh) * | 2021-04-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105302796A (zh) | 一种基于依存树的语义分析方法 | |
Elallaoui et al. | Automatic transformation of user stories into UML use case diagrams using NLP techniques | |
US20160275180A1 (en) | System and method for storing and searching data extracted from text documents | |
CN108763195B (zh) | 一种基于依存句法和模式规则的非限定型关系挖掘方法 | |
Cunningham | A definition and short history of Language Engineering | |
CN104657463A (zh) | 应用于自动问答系统的问句分类方法及装置 | |
Abdelnabi et al. | Generating uml class diagram from natural language requirements: A survey of approaches and techniques | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
Dwarakanath et al. | Litmus: Generation of test cases from functional requirements in natural language | |
Azzopardi et al. | Integrating natural language and formal analysis for legal documents | |
Ngo et al. | EVBCorpus-a multi-layer English-Vietnamese bilingual corpus for studying tasks in comparative linguistics | |
Souteh et al. | SAFAR platform and its morphological layer | |
Stålhane et al. | The DODT tool applied to sub-sea software | |
Sinhal et al. | A pure EBMT approach for English to Hindi sentence translation system | |
Hua et al. | Using two formal strategies to eliminate ambiguity in poetry text | |
Asano et al. | Detecting bad smells of refinement in goal-oriented requirements analysis | |
Spiliopoulou et al. | Intelligent search for biologically inspired design | |
Bogatyrev et al. | Application of conceptual structures in requirements modeling | |
Verma et al. | Representation of knowledge from software requirements expressed in natural language | |
Blessing et al. | Fine-Grained Geographical Relation Extraction from Wikipedia. | |
Specia | A hybrid model for word sense disambiguation in English-Portuguese machine translation | |
Vo et al. | VietSentiLex: A sentiment dictionary that considers the polarity of ambiguous sentiment words | |
Wang et al. | Using workflow patterns to model and validate service requirements | |
Martín-Valdivia et al. | Call for discussion: Building a new standard dataset for relation extraction tasks | |
Hou et al. | Event argument extraction based on crf |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160203 |