CN105653522A

CN105653522A - 一种针对植物领域的非分类关系识别方法

Info

Publication number: CN105653522A
Application number: CN201610041747.0A
Authority: CN
Inventors: 赵明; 杜会芳; 杜亚茹; 陈瑛; 张家军; 彭珺
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2016-01-21
Filing date: 2016-01-21
Publication date: 2016-06-08
Anticipated expiration: 2036-01-21
Also published as: CN105653522B

Abstract

本发明公开了属于计算机中文信息处理领域的一种针对植物领域的非分类关系识别方法。根据对植物领域关系的分类，对分类关系和非分类关系进行定义；获取相关词条的非结构化网页内容，作为语料并进行预处理，获得预处理模块；然后再进行基于词汇-语法的非分类关系的初步抽取，对获得的结果，进行改进，获得改进抽取模块；最后基于百度百科半结构化文本的非分类关系抽取，获得非分类关系抽取模块，对其进行形式化表达，获得可视性结果。该方法在对文本进行自然语言处理的基础上，直接用非分类关系词汇-语法模式进行抽取，准确率在70％左右，取得了较好的结果，为植物领域知识图谱构建奠定了基础，且为农民提供了更专业的植物领域技术和知识。

Description

一种针对植物领域的非分类关系识别方法

技术领域

本发明属于计算机中文信息处理领域，特别涉及一种针对植物领域的非分类关系识别方法。

背景技术

公开号为CN104933027A的中国专利申请，公开了一种利用依存分析的开放式中文实体关系抽取方法，该方法首先对句子进行依存分析，再结合中文语法启发式规则和依存分析的结果抽取关系词语，然后根据距离确定命名实体位置，最后进行三元组输出。但是该发明适用于大规模语料库，不仅没有涉及到网页的语义信息，而且丝毫不涉及到特定领域，实用性差。

公开号为CN103823868A的中国专利申请，公开了一种面向在线百科的事件识别方法和事件关系抽取方法，所述事件识别方法包括：从在线百科的分类体系中得到事件类分类标签；所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条，根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率，判断所述词条是否是事件类词条，其过程比较繁琐，没有有效利用大规模的非结构化和半结构化的文本信息，且涉及面较广，对特定领域的针对性差。

发明内容

针对现有技术中存在的不足，本发明的目的在于提供一种针对植物领域的非分类关系识别方法。

为实现上述目的，本发明采用如下技术方案：

一种针对植物领域的非分类关系识别方法，所述方法为：

(1)根据对植物领域关系的分类，对分类关系和非分类关系进行定义；

所述分类关系的定义为：分类关系表示概念与概念之间的上下位的关系；非分类关系的定义为：非分类关系表示除了上下位关系以外的其它关系；

所述的分类关系包括层级关系和is-a关系；非分类关系包括整体部分关系及概念之间的依赖关系、关联关系、因果关系和相似关系；比如植物领域就涉及植物生长发育的方方面面，具有农业价值的关系包括：生长规律及其与外界环境条件的关系、别名信息、地理分布、病虫害防治、土壤与营养、栽培技术、轮作套种、遗传育种和经济价值等，表现出知识量大、关系复杂多变等特点；

(2)获取相关词条的非结构化网页内容，作为语料，对语料进行预处理，获得预处理模块；

(3)对获得的预处理模块，进行基于词汇-语法的非分类关系的初步抽取，获得初步抽取模块；

(4)对获得的初步抽取模块，采用基于词表过滤和给模式添加限制的方法进行改进，获得改进抽取模块；所述的限制为单个限制或用约束组合对象表示多个限制的组合；

(5)对获得的改进抽取模块，基于百度百科半结构化文本的非分类关系抽取，获得非分类关系抽取模块；

(6)对获得的非分类关系抽取模块，进行形式化表达，获得形式化表达模块，最终获得可视性结果。

所述步骤(2)的具体步骤为：

S1、利用语料采集脚本程序，从百度百科的植物分类下，获取词条作为语料；

所述语料采集脚本程序是根据每一个植物百科的url地址，寻找规律，一次性爬取下来；

S2、将获取的语料，以GBK编码的文本文件的形式，进行存储；

S3、借助自然语言处理的开源工具LTP，对存储好的语料进行第一阶段的预处理，即分词，该预处理基于条件随机场模型，进行训练和解码；

S4、借助自然语言处理的开源工具LTP，对存储好的语料进行第二阶段的预处理，即词性标注，该预处理基于支持向量机模型，进行训练和解码；

S5、借助自然语言处理的开源工具LTP，对存储好的语料进行第三阶段预处理，即依存句法分析，该预处理基于图模型的方法，将依存分析问题归结为在一个有向图中寻找最大生成树的问题，获得预处理模块；获得预处理模块；其中，边权重使用OnlineLearning算法获得，解码算法使用的是Eisner算法。

所述步骤(3)的具体步骤为：

S1、从获得的预处理模块中，选取一小批植物百科中的植物品种词条，找出表达非分类关系的语句；

S2、对找出的非分类关系语句进行依存句法分析；

S3、对依存句法分析的结果，进行标注，即找出并标明句子中存在的非分类关系的概念，以及非分类关系的名称，记为Ri(X_i,Y_i)；

其中，Ri为非分类关系名称，X_i，Y_i分别为该非分类关系名称所对应的实体与属性；

S4、统计X_i、R_i、Y_i之间的依存关系序列，在其他标注X_j、R_j、Y_j(i≠j)中出现的次数；

S5、人工剔除不符合语法的依存关系序列后，得到出现多次的依存关系序列，即为表达非分类关系的词汇-语法模式；

S6、手工总结一些表达非分类关系的词汇-语法模式，作为补充；

S7、其中，非分类关系的词汇-语法模式采用：依存关系，即关节点，依存节点，对应非分类关系名称集，即施事概念，受事概念的形式表示；形式化为公式(1)：

公式中，D_i为依存关系，s_i为关节点，t_i为依存节点，L为非分类关系名称集，A为施事概念，B为受事概念；

其中，L、A、B为s_i和t_i中指定的元素，公式表示：当所有依存关系D_i都满足时，L(A,B)关系成立；

S8、对待提取的文档利用LTP进行预处理，然后将非分类关系的词汇-语法模式匹配归结为，在依存树中寻找子树的问题，即对句子的依存树进行检测，如果依存树中存在这些关节点和依存节点，其满足非分类关系的词汇-语法模式前件中的每项约束，则非分类关系的词汇-语法模式匹配成功，并将这些关节点和依存节点，按照词汇-语法模式的后件，转化为非分类关系名称集L，获得初步抽取模块。

所述步骤(4)的具体步骤为：

S1、对初步抽取模块进行过滤，当非分类关系名称集L的施事概念A与受事概念B都在词表中出现时，则保留该非分类关系名称集L；

S2、为手工设定的词汇-语法模式增加限制；

S3、首先采用手工设定的词汇-语法模式，在标注集上进行初步抽取；

S4、对于抽取成功的实例，将其施事概念A、非分类关系名称集L、受事概念B的词性和词中的字，用图的方式表示为限制；

S5、计算这些限制的所有子集在标注集上的Laplacian值；Laplacian值用公式(2)计算：

L a p l a c i a n = \frac{e + 1}{n + 1} - - - (2)

公式中，e为抽取的错误数，n为抽取的总数；其中Laplacian值越低，表示该限制组合在标注集上抽取的表现越好；

所述步骤(5)的具体步骤为：

S1、分别对网页的DOM树进行解析处理，查找出其中表示百度百科名片中，词条基本信息栏表格和正文中表示表格的HTML标签，获取表格中表示非分类关系的表项；

S2、对表示非分类关系的表项进行LTP分词、命名实体识别处理；

S3、将处理结果转化为对应的非分类关系三元组，其中，非分类关系名称集L转化为表格中表项的名称，施事概念A转化为为词条名称，受事概念B转化为表项的内容。

所述的形式化表达模块借助Protégé可视化插件OWLPropViz，进行抽取结果的显示。

本发明的有益效果为：本发明在对文本进行自然语言处理的基础上，直接用非分类关系词汇-语法模式进行抽取，准确率在70％左右，在非分类关系抽取上取得了较好的结果，为植物领域知识图谱构建奠定了基础，且为农民提供了更专业的植物领域技术和知识。

附图说明

图1为本发明实施例的一种针对植物领域的非分类关系识别方法的步骤流程图。

图2为本发明实施例的一种针对植物领域的非分类关系识别方法得到的部分结果可视化展示示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明根据对植物领域关系的分类，对分类关系和非分类关系进行定义：

分类关系：分类关系表示概念与概念之间的上下位的关系；包括层级关系和is-a关系；

非分类关系：非分类关系表示除了上下位层次关系以外的其它关系；包括整体部分关系以及概念之间的依赖关系、关联关系、因果关系、相似关系；植物领域涉及植物生长发育的方方面面，具有农业价值的关系包括：生长规律及其与外界环境条件的关系、别名信息、地理分布、病虫害防治、土壤与营养、栽培技术、轮作套种、遗传育种和经济价值等，表现出知识两大、关系复杂多变等特点。

本实施例中，提供了一种针对植物领域的非分类关系识别方法，步骤流程图如图1所示，具体包括如下步骤：

(1)根据对植物领域关系的分类，对分类关系和非分类关系进行定义，确定出要筛选的非分类关系的种类。

(2)利用计算机编程进行数据获取，并借助自然语言处理的开源工具LTP，对获取的数据进行预处理，获得预处理模块；

具体步骤包括：

步骤S1：利用语料采集脚本程序，从百度百科的植物分类下，获取了9623个词条作为语料；

步骤S2：将获取的语料，以GBK编码的文本文件的形式，进行存储；

步骤S3：借助LTP对存储好的语料，进行第一阶段的预处理—分词，该预处理基于条件随机场模型，进行训练和解码；采用1998年1-6月人民日报的文本作为训练集；

步骤S4：借助自然语言处理的开源工具LTP，对存储好的语料进行第二阶段的预处理—词性标注，该预处理基于支持向量机模型，进行训练和解码；采用1998年1-6月人民日报的文本作为训练集；

步骤S5：借助自然语言处理的开源工具LTP，对存储好的语料进行第三阶段的预处理—依存句法分析，该预处理基于图模型的方法，将依存分析问题归结为在一个有向图中，寻找最大生成树的问题；边权重使用OnlineLearning算法学习获得，解码算法使用的是Eisner算法；其数据来源为HIT-CDT，前8000句训练，8001-9000开发，后1000句测试。

(3)对获得的预处理模块，进行基于词汇-语法的本体非分类关系的初步抽取，获得初步抽取模块；

具体步骤包括：

步骤S1：从获得的预处理模块中，选取一小批具有代表性的词条(在19个分类下共选取了97个词条)，找出表达非分类关系的语句；

步骤S2：对找出的非分类关系的语句进行依存句法分析，采用手工总结与统计分析相结合的方式，总结表达非分类关系的词汇-语法模式；主要集中在具有农业价值的非分类关系上，如植物的地理分布、适生环境、病虫害、经济价值等；

步骤S3：对依存句法分析的结果进行标注，即找出并标明句子中存在非分类关系的概念，以及非分类关系的名称，记为R_i(X_i,Y_i)；

步骤S4：统计X_i、R_i、Y_i之间的依存关系序列，在其他标注X_j、R_j、Y_j(i≠j)中的出现次数；

步骤S5：在人工剔除不符合语法的依存序列后，得到出现多次的依存关系序列，即为表达非分类关系的词汇-语法模式；

步骤S6：人为总结出一些表达非分类关系的词汇-语法模式，作为补充；

步骤S7：其中，非分类关系的词汇-语法模式采用：依存关系，即头节点，依存节点，对应非分类关系名称集，即施事概念，受事概念的形式表示；形式化为公式(1)：

步骤S8：对待提取的文档利用LTP进行预处理，然后将非分类关系的词汇-语法模式匹配归结为，在依存树中寻找子树的问题，即对句子的依存树进行检测，如果依存树中存在这些关节点和依存节点，其满足词汇-语法模式前件中的每项约束，则非分类关系的词汇-语法模式匹配成功，并将这些节点和依存节点，按照非分类关系的词汇-语法模式的后件，转化为非分类关系名称集L，获得初步抽取模块。

(4)对获得的初步抽取模块，进行改进，获得改进抽取模块；

具体步骤包括：

步骤S1：对初步抽取模块进行过滤，非分类关系名称集L的施事概念A与受事概念B都在词表中出现时，则保留该非分类关系名称集L；

步骤S2：为手工设定的词汇-语法模式增加限制；所述的限制为单个限制或用约束组合对象表示多个限制的组合，所述单个限制的数据结构图，如表1所示；

表1：单个限制的数据结构

步骤S3：首先采用手工设定的词汇-语法模式，如SBV-HED-VOB在标注集上进行初步抽取；

步骤S4：对于抽取成功的实例，将施事概念A、非分类关系名称L、受事概念B的词性和词中的字，用图的方式表示为限制；

步骤S5：计算这些限制的所有子集在标注集上的Laplacian值，Laplacian值采用公式(2)计算：

L a p l a c i a n = \frac{e + 1}{n + 1} - - - (2)

公式中，e为抽取的错误数，n为抽取的总数；Laplacian用来估计所添加的限制性能的好坏，Laplacian值越低，表示该限制组合在标注集上抽取的表现越好。

(5)对改进抽取模块，基于百度百科半结构化文本的非分类关系抽取，获得非分类关系抽取模块；

具体步骤包括：

步骤S1：分别对网页的DOM树进行解析处理，查找出其中表示百科名片中，词条基本信息栏表格和正文中表示表格的HTML标签，获取表格中“分布区域”等表示非分类关系的表项；

步骤S2：对非分类关系的表项进行LTP分词、命名实体识别处理；

步骤S3：将处理结果转化为对应的非分类关系三元组，其中，非分类关系名称集L转化为表格中表项的名称，施事概念A转化为为词条名称，受事概念B转化为表项的内容。

步骤S4：经过总结，发现此步骤抽取的非分类关系均处于表示营养成分的主题列表中，故非分类名称取为“营养成分”。

(6)对获得的非分来关系抽取模块，形式化表达，获得形式化表达模块；形式化表达模块借组Protégé可视化插件OWLPropViz进行抽取结果的显示，表达结果如图2所示。

Claims

1.一种针对植物领域的非分类关系识别方法，其特征在于，所述方法为：

所述的分类关系包括层级关系和is-a关系；非分类关系包括整体部分关系及概念之间的依赖关系、关联关系、因果关系和相似关系；

2.根据权利要求1所述的一种针对植物领域的非分类关系识别方法，其特征在于，所述步骤(2)的具体步骤为：

S5、借助自然语言处理的开源工具LTP，对存储好的语料进行第三阶段预处理，即依存句法分析，该预处理基于图模型的方法，获得预处理模块；其中，边权重使用OnlineLearning算法获得，解码算法使用的是Eisner算法。

3.根据权利要求1所述的一种针对植物领域的非分类关系识别方法，其特征在于，所述步骤(3)的具体步骤为：

S2、对找出的非分类关系语句进行依存句法分析；

4.根据权利要求1所述的一种针对植物领域的非分类关系识别方法，其特征在于，所述步骤(4)的具体步骤为：

S2、为手工设定的词汇-语法模式增加限制；

L a p l a c i a n = \frac{e + 1}{n + 1} - - - (2)

公式中，e为抽取的错误数，n为抽取的总数；其中Laplacian值越低，表示该限制组合在标注集上抽取的表现越好。

5.根据权利要求1所述的一种针对植物领域的非分类关系识别方法，其特征在于，所述步骤(5)的具体步骤为：

6.根据权利要求1所述的一种针对植物领域的非分类关系识别方法，其特征在于，所述的形式化表达模块借助Protégé可视化插件OWLPropViz，进行抽取结果的显示。