CN105302796A

CN105302796A - 一种基于依存树的语义分析方法

Info

Publication number: CN105302796A
Application number: CN201510809638.4A
Authority: CN
Inventors: 于晓晨; 邵兵; 娄海凤; 郝伟
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-02-03

Abstract

本发明提供一种基于依存树的语义分析方法，以分词、词性标注、依存关系处理为基础，以汉语句法、语法、语义为基准，对不同专业领域的文本信息进行语义分析，提取文本信息中的关联关系。本发明可以作为一个通用型工具，只需构造相应的专业词库、特征词库等，即可对目标信息进行语义分析。

Description

一种基于依存树的语义分析方法

技术领域

本发明涉及自然语言处理中的语义分析方法，具体涉及一种基于依存树的语义分析方法。

背景技术

自然语言中存在大量的数据信息，通过语义分析工具，旨在挖掘自然语言中所包含的内在关联。根据不同的数据样本、研究目标，结合现有的汉语语法、语义/语用的内在规律，借助句法依存树来构造文本中不同句子成分之间的依存关系，自然语言处理，尤其是语义分析，一直是文本挖掘的难点。英文文本的语义分析已经有一定的研究成果，但是对于博大精深的汉语语义分析，则没有较为理想的工具。

作为一个在人工智能和计算语言学的方法，语义分析为知识推理和语言分析提供了一个结构和过程。社会网络中节点间的信息交流都是通过各种语言进行的，通过人工智能的方法，对目标信息进行语义挖掘一直是技术瓶颈，没有一个统一的挖掘工具给予支持。

发明内容

本发明的技术任务是针对现有技术的不足，提供一种基于依存树的语义分析方法。将英文依存树优化、改造成为汉语依存树，对语料进行分词、词性标注、命名实体识别等步骤之后，抽取文本中的实体，结合句型、特征词及依存关系类型，挖掘实体间的关联关系。

本发明解决其技术问题所采用的技术方案是：

一种基于依存树的语义分析方法，以分词、词性标注、依存关系处理为基础，以汉语句法、语法、语义为基准，对不同专业领域的文本信息进行语义分析，提取文本信息中的关联关系。

以文本分词、词性标注和依存关系处理为基础，对不同专业领域的文本信息挖掘提供统一的分析流程。

以汉语句法、语法、语义为基准，通过中英文的无缝对应，将英文语义分析切实的应用到汉语语义分析中，并加以改造，提高了语义分析的准确率。

借鉴英文的语义分析思想，以依存树为基础，将中英文语法、语义等对应，将英文依存树优化、改造成为汉语依存树，对语料进行分词、词性标注、命名实体识别等步骤之后，抽取文本中的实体，结合句型、特征词及依存关系类型，挖掘实体间的关联关系。

依存树有五种重要特性：

（1）一个句子中只有一个成分是独立的；

（2）其它成分直接依存于某一成分；

（3）任何一个成分都不能依存与两个或两个以上的成分；

（4）如果A成分直接依存于B成分，而C成分在句中位于A和B之间，那么C或者直接依存于B，或者直接依存于A和B之间的某一成分；

（5）中心成分左右两面的其它成分相互不发生关系。

本发明的一种基于依存树的语义分析方法与现有技术相比，所产生的有益效果是：

(1)借鉴英文语义分析思想，结合汉语分词、词性标注、句法、语法、语义及语用实际进行方法改造，有一定的实践标准。

(2)分词系统、词性标注习惯的汉化，依存关系的对应，较现有中文语义分析工具，在准确性方面有明显的提高。

(3)鉴于中文句型的多样性和复杂性，对不同的句型有不同的处理方法。

(4)不同的研究目标，只需更换专业词库，即可进行语义分析处理，有较高的通用性。

附图说明

附图1是本发明的句法分析依存树实例图。

具体实施方式

下面结合附图对本发明的一种基于依存树的语义分析方法作以下详细地说明。

下面以设备故障现象文本信息为样本进行语义分析。

技术方案：

1、构造设备库。

根据业务目标，需要提取出设备件之间的关联关系。因此，应首先构建包含所有设备件的设备库，即将所有的设备名称所构成的信息作为设备库。如“应急液压油泵”、“柱塞式液压泵”、“舱环控管处”、“TPU”、“起落架”、“液压系统II”等等，且这些设备件之间可以标识层次关系。应该说明的是，首先应该规定好需要进行语义分析的设备件层级，如“液压泵”由“泵体”、“油箱”等部分构成，而“泵体”也有不同的组成部分，需指明需要进行语义分析的设备件层次，并提供不同设备件之间的层级关系。

把含有“设备件”的句子称为关系样例，无特殊说明，关系样例都是指句子。“设备件”间的关系是建立在每对“设备件”之间的。鉴于语义分析对象的特殊性（部分信息只包含一种设备件），舍弃分析对象中“设备件个数＜1”的关系样例（或句子）。

2、构造特征词库。

特征词是指示某些设备之间特殊关系的词，如“导致”、“致使”等可以指示句子中设备i与设备j的之间故障关联的词。

现有的分析对象中，很少有类似于上述特征词，但大部分都包含有“发现”、“反映”，或直接叙述“‘设备’+‘正常/非正常状态’”。设备件与特征词是紧密相关的，若设备件与特征词都存在，则不难提取设备件的关联关系，因此仍有必要构建特征词库。

3、提供“指代”词典。

分析对象中的同一个设备件名称有不同的描述方法或简称，须提供同一设备件不同名称的词典，以完成更好的设备识别。

4、句型分类。

分析对象的描述方法有很强的规律性，可以据此将所有的分析对象做分类处理，不同类型的句式结构可以应用不同的关系抽取规则。

5、借助斯坦福Parser生成依存树。

Parser可以找出句子中词语之间的“依存”关联信息，并且以“依存”格式输出，包括有向图及树等形式，为了能更直观的看到词语之间的依存关系，一般选取依存树。Parser提供分词、词性标注和语法分析过程，鉴于其对中文的处理能力不能满足现代汉语语法、语义分析的目标要求，可以将其分词程序更换为适用的中文分词工具。同样的，也可以将词性标注进行调整。需要注意的是，使用汉语词性标注工具时，需要做好词性标注集合的匹配和对接，如Parser中“人名”、“组织机构名”等的词性标注为“NR”，中文的“人名”实体标注为“nr”，这时需要将中文的“组织机构名”“nt”与“nr”一起对应英文的“NR”。

Parser的输入信息是句子，输出信息是该句子的依存关系集合。输入分析对象（句子），选取适当的分析模型之后，显示相应的分析结果，如“安全整顿大检查时发现油箱的指示灯不亮。”的依存树如附图1所示。

对于较复杂的句子，可以制定详细的关系抽取规则，规则的制定需要根据词语（设备件）之间的依存路径。词语（设备件）之间的依存路径指的是句中任意两个词之间的依存关系及经过结点的有序路径，最简单的依存路径就是相邻结点之间的依存关系。如本例中，“检查”和“指示灯”之间的依存路径为（检查-dobj-整顿-loc-发现-ccomp-亮-nsubj-指示灯），当然，这两个词在本例中无特殊语义关系可以提取。

Claims

1.一种基于依存树的语义分析方法，其特征在于以分词、词性标注、依存关系处理为基础，以汉语句法、语法、语义为基准，对不同专业领域的文本信息进行语义分析，提取文本信息中的关联关系。

2.根据权利要求1所述的一种基于依存树的语义分析方法，其特征在于以文本分词、词性标注和依存关系处理为基础，对不同专业领域的文本信息挖掘提供统一的分析流程。

3.根据权利要求1所述的一种基于依存树的语义分析方法，其特征在于以汉语句法、语法、语义为基准，通过中英文的无缝对应，将英文语义分析切实的应用到汉语语义分析中，并加以改造，提高了语义分析的准确率。