CN106649264A

CN106649264A - 一种基于篇章信息的中文水果品种信息抽取方法及装置

Info

Publication number: CN106649264A
Application number: CN201611043050.3A
Authority: CN
Inventors: 陈瑛; 程碧霄; 程曦瑶
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2016-11-21
Filing date: 2016-11-21
Publication date: 2017-05-10
Anticipated expiration: 2036-11-21
Also published as: CN106649264B

Abstract

本发明提供一种基于篇章信息的中文水果品种信息抽取方法及装置。通过获取语料，在搜索引擎网站爬取下载与水果相关的页面；对所述与水果相关的页面进行语料标注；对所述与水果相关的页面进行词项对提取，将词项对分为训练语料和测试语料；对所述语料进行基于篇章结构的远距离特征提取；利用训练语料特征训练得到基于深度学习的组合分类器；利用组合分类器从测试语料中抽取水果品种信息；将与水果相关的页面随机分为N组，重复执行，获得评估结果。改进目前的信息抽取技术，使其更加适应于农业领域，提高了水果品种名称识别与抽取的准确率。

Description

一种基于篇章信息的中文水果品种信息抽取方法及装置

技术领域

本发明涉及自然语言处理领域，更具体地，涉及基于篇章信息的中文水果品种信息抽取方法及装置。

背景技术

随着中国农产品电商的发展，农产品知识库的构建和完善对于农产品的管理极为重要。我国水果产业经过80年代中期至90年代中后期的快速发展，成为种植业中仅次于粮食和蔬菜的第三大产业，在农业及国民经济中占有非常重要的地位。相比粮食和蔬菜，水果物种更多，种植区域性更强，国家标准管理更松散，因此水果知识库的构建和完善更有难度。

我国农作物种质资源研究工作取得了显著成绩，建立了国家农作物种质资源数据库、中国作物种质信息网等种质资源库。虽然种质资源数据库含有水果品种名称信息，但是这些水果品种名称信息过于学术化，不符合面向销售的水果农产品管理的需要，因此需要构建通俗性的水果知识库。

要达到以上目的，要进行信息抽取，信息抽取又包括：专有名词识别和关系识别。目前的英文专有名词识别技术已经达到了较高的水平，有些系统已经实用化。其中，词项提取主要是利用效果较好的英文词法分析结果进行提取；词项分类可以视为一种特殊的is-a关系识别，主要采用关系识别技术。而中文专有名词识别比英文难度更大，其原因是词项提取需要依赖中文分词。由于领域(包括农业)词汇大多是词库外词(Out-Of-Vocabulary，OOV词)，而OOV词的识别一直是中文分词的研究难点，因此面向农业领域的中文词项提取效果不佳。因此，中文专有名词的识别尚需进一步的研究。

当前大多数关系识别研究只是关注句子内的关系实例(即判断句子内出现的两个实体是否存在特定关系)，其特征提取往往是针对句子内的文本进行。而在网络百科的词条描述中，水果品种关系实例经常是跨句乃至跨段的。这种远距离的关系识别意味着其特征提取往往针对更大范围的文本进行，更容易产生带噪音的特征信息。

发明内容

本发明要解决的技术问题是改进现有的信息抽取技术，使其能够更好的应用于农业领域，能够从网络中自动识别出水果品种的相关信息，构建通俗性的水果知识库，解决现有的种质资源库中的水果品种名称信息过于学术化，不符合面向销售的水果农产品管理需要的问题。

一方面，本发明提出一种基于篇章信息的中文水果品种信息抽取方法，所述方法包括：

步骤S1，获取语料；

步骤S2，标注语料；

步骤S3，对与水果相关的页面进行词项对提取，将词项对分为训练语料和测试语料；对所述语料进行基于篇章结构的远距离特征提取；

步骤S4，利用训练语料特征训练得到基于深度学习的组合分类器，利用组合分类器从测试语料中抽取水果品种信息；

步骤S5，将与水果相关的页面随机分为N组，重复执行步骤S1至S4N次，获得评估结果。

进一步地，所述步骤S1，具体包括：

获取语料，在百度网站中查询水果相关网页，利用网络爬虫爬取下载与水果相关的百度百科页面。

进一步地，所述步骤S2，具体包括：

对于所述与水果相关的页面，人工标注出每个水果品种名称、所属的水果大类名称的关系，将每个标注信息记录为三元组：水果大类名称、水果品种名称、is-a关系；

进一步地，所述步骤S3中词项对提取，具体包括：

对所述与水果相关的页面进行基于语言结构的词项对<上位词、下位词>提取；

词项对提取结果随机被分为训练语料和测试语料；

对于所述训练语料，若其包含标注的水果品种名称，则语料为正样本，否则，语料为负样本。

进一步地，所述步骤S3中对所述语料进行基于篇章结构的远距离特征提取，具体包括：

对词项对提取得到的语料，

若上位词与下位词在同一标题下，且在同一段落中，则选择其父节点所在句以及其子节点所在句作为特征信息；

若上位词与下位词在同一标题下，但不在同一段落中，则选择其父节点所在句、其子节点所在句、父子节点中间的所有段落的首句和尾句作为特征信息；

若上位词与下位词不在同一标题下，则选择其父节点所在句、其子节点所在句、父子节点中间的所有标题作为特征信息。

进一步地，所述步骤S4中利用训练语料特征训练得到基于深度学习的组合分类器，具体包括：

负样本语料数量为正样本语料的N倍；

将所述负样本语料分为N组，每组负样本语料同正样本语料为一个训练子集，得到N个训练子集；

对于每个训练子集通过支持向量机SVM深度分类算法进行学习，得到N个基分类器；

将所述N个基分类器通过集成学习方法得到组合分类器。

进一步地，所述步骤S4中利用组合分类器从测试语料中抽取水果品种信息，具体包括：

对训练语料中的每个测试实例，一个基分类器分类得到一个标签，N个基分类器得到N个分类标签，按照多数投票制进行投票，投票结果作为该测试实例的最终分类标签，最终分类标签为1的测试实例为is-a关系，最终分类标签为0的测试实例为非is-a关系，若票数1:1则标签为0。

另一方面，本发明提出一种基于篇章信息的中文水果品种信息抽取装置，所述装置包括：

获取单元，用于获取语料，在搜索引擎网站爬取下载与水果相关的页面；

标注单元，用于对所述与水果相关的页面进行语料标注；

特征提取单元，用于对所述与水果相关的页面进行词项对提取，将词项对分为训练语料和测试语料；对所述语料进行基于篇章结构的远距离特征提取；

训练单元，用于利用训练语料特征训练得到基于深度学习的组合分类器；

测试单元，用于利用组合分类器从测试语料中抽取水果品种信息；

评估单元，用于将与水果相关的页面随机分为N组，重复执行如权利要求1所述的步骤S1至S4N次，获得评估结果。

进一步地，所述特征提取单元包括：

特征提取子单元，用于：

对所述词项对提取得到的语料，

进一步地，所述训练单元包括：

训练子单元，用于：

设置负样本语料数量为正样本语料的N倍；

将所述N个基分类器通过集成学习方法得到组合分类器。

本发明与现有技术相比，具有的优点为：能够判断词项对之间的关系是否为is-a关系，并且改进目前的信息抽取技术，使其更加适应于农业领域，提高了水果品种名称识别与抽取的准确率。

附图说明

图1为本发明基于篇章信息的中文水果品种信息抽取方法原理示意图；

图2为本发明基于篇章信息的中文水果品种信息抽取方法中训练测试阶段示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明基于篇章信息的中文水果品种信息抽取方法原理示意图。所述方法包括：

步骤1，获取语料，在百度网站中爬取下载与水果相关的百度百科页面，具体包括：

在百度网站中查询水果相关网页，利用网络爬虫爬取下载与水果相关的百度百科页面；

步骤2，对所述与水果相关的百度百科页面进行人工语料标注，具体包括：

对于所述每个与水果相关的百度百科页面，人工标注出每个水果品种名称与其所属的水果大类名称(给定的28种水果大类名称)的关系，每个标注信息记录为三元组：(水果大类名称，水果品种名称，is-a关系)，共标注213篇水果相关百度百科词条页面，其中100篇词条网页有水果品种信息；

可选地，对所述与水果相关的百度百科页面进行语料标注采用工具标注的方式。

步骤3，对所述百度百科页面进行词项对提取，将所述词项对分为训练语料和测试语料，具体包括：

对所述每个与水果相关的百度百科页面进行基于语言结构的词项对<上位词、下位词>提取；

所述词项对提取结果随机被分为训练语料和测试语料；

其中，对于所述训练语料，若其包含人工标注的得到的水果品种名称，则这个语料为正样本，共520个，否则，这个语料为负样本，共2357个；

步骤4，对所述语料进行基于篇章结构的远距离特征提取，具体包括：

对所述词项对提取得到的语料，

若上位词与下位词在同一标题下，且在同一段落中，则这组实例选择其父节点所在句以及其子节点所在句作为特征信息；

若上位词与下位词在同一标题下，但不在同一段落中，则这组实例选择其父节点所在句、其子节点所在句、父子节点中间的所有段落的首句和尾句作为特征信息；

若上位词与下位词不在同一标题下，则这组实例选择其父节点所在句、其子节点所在句、父子节点中间的所有标题作为特征信息。

对所述语料进行普适化特征提取，具体步骤为：

利用所述训练语料中的人工标注语料，构建一个水果品种库；

将该组训练语料特征中已在库内的水果品种名称替换为“品种”两个字；

步骤5，利用所述训练语料特征训练一个基于深度学习的组合分类器，具体包括：

负样本总数约是正样本总数的N(比如等于6)倍，在训练阶段，负样本随机被分成N组；

每组的负样本和正样本组合成一个训练语料子集，每个训练语料子集中的样本分布均衡，得到N个训练子集；

利用所述的一个训练语料子集通过SVM模型利用深度学习方法生成一个基分类器，进行N次后N个训练子集得到N个基分类器，将所述N个基分类器进行组合即得到组合分类器；

步骤6，利用所述基于深度学习的组合分类器从所述测试语料中抽取水果品种信息，具体包括：

利用所述N个基分类器对测试语料进行分类得到N个分类结果；

按照多数投票制(若票数1:1则标签设为“0”)对所述N个分类结果进行投票，投票结果作为该测试文档的最终分类结果：如果是“1”，所述测试文档是一个“is-a”关系；如果是“0”，所述测试文档是一个非“is-a”关系。

图2为本发明基于篇章信息的中文水果品种信息抽取方法中训练测试阶段示意图。图中，分为训练阶段和测试阶段两个阶段。这两个阶段的具体过程如上述步骤S5、S6所述。

步骤7，将所述与水果相关的百度百科页面随机分为N组，进行N次实验，最终综合评价，作为实验最终评估结果，具体包括：

因为由于实验语料规模较小，为消除测试集数据的特殊性，故将所述得到的与水果相关的百度百科页面随机分为N(比如等于6)组，重复以上所述过程，进行N次实验，最终综合评价，得到实验最终评估结果。

为了检测本发明公开的基于篇章信息的中文水果品种信息抽取方法的有效性，本专利对不同的三种特征提取方法：Basic features、Topic-structure-based features、Document-level features分别进行实验，并进行实验结果比较，如表1所示。Precision ofpositive label、Recall of positive label、F1of positive label分别代表正样本的查准率、查全率和F值，Precision of negative label、Recall of negative label、F1ofnegative label分别代表负样本的查准率、查全率和F值，Average F1综合F中综合考虑两类字词识别效果，由F1和F0取平均得到，Accuracy代表正确率。

表1

由表1中第二列和第三列比较可知，Topic-structure-based features特征提取方法在正样本的各项评价指标上都明显提高，其中Recall of positive label提高86.5％，F1of positive label值提高53.0％，整体来看，Average F1提高23.8％。这表明采用Topic-structure-based features方法提取的特征更有效，同时降低了特征维度，能发现更有意义的潜在的变量，帮助对数据产生更深入的了解。由表1中第三列和第四列比较可得，Document-level features特征提取方法在正样本的各项评价指标上也均有提高，其中Precision of positive label提高1.9％，Recall of positive label提高1.1％，F1ofpositive label值提高1.2％。同时Document-level features特征提取方法在负样本的各项评价指标上也均有提高，其中Recall of negative label提高0.8％，Recall ofnegative label值提高0.6％，整体来看，F1of negative label提高0.9％，Accuracy提高了0.9％。这表明采用Document-level features方法提取的特征更有效。

同时对比了传统的SVM分类模型和基于集成方法的SVM分类模型的分类效果，实验结果分别如表2和表3所示。+、-分别代表正负实例样本实验结果，Precision、Recall、F1分别代表查准率、查全率和F值，Average F1综合F中综合考虑两类字词识别效果，由F1和F0取平均得到，Accuracy代表正确率。

表2

表3

通过表2和表3比较得知，综合来看，相比传统的SVM分类模型，基于SVM集成学习的分类模型在各项评价指标上都有所提高，其中Average F1提高4.2％，Accuracy提高2.5％。这表明集成学习方法可以有效解决数据分布中的不平衡问题问题。具体而言，对正样本来说，相比传统的SVM分类模型，基于SVM集成学习的分类模型Precision提高了7.3％，Recall提高了3％，F1提高了6.6％。对负样本来说，相比基线状态，基于SVM集成学习的分类模型Precision提高了0.5％，Recall提高了2.5％，F1提高了1.6％。所以从比较结果可以看出，相比传统的SVM分类模型，基于SVM集成学习的分类模型在各方面的效果都有明显提高。

从以上两种比较结果可以看出，本发明中基于SVM集成学习的分类模型在各方面都有很大的优势，可以自动地较准确地实现对水果品种名称的信息抽取。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于篇章信息的中文水果品种信息抽取方法，其特征在于，所述方法包括：

步骤S1，获取语料；

步骤S2，标注语料；

2.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法，其特征在于，所述步骤S1，具体包括：

3.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法，其特征在于，所述步骤S2，具体包括：

对于所述与水果相关的页面，人工标注出每个水果品种名称、所属的水果大类名称的关系，将每个标注信息记录为三元组：水果大类名称、水果品种名称、is-a关系。

4.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法，其特征在于，所述步骤S3中词项对提取，具体包括：

词项对提取结果随机被分为训练语料和测试语料；

5.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法，其特征在于，所述步骤S3中对所述语料进行基于篇章结构的远距离特征提取，具体包括：

对词项对提取得到的语料，

6.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法，其特征在于，所述步骤S4中利用训练语料特征训练得到基于深度学习的组合分类器，具体包括：

负样本语料数量为正样本语料的N倍；

将所述N个基分类器通过集成学习方法得到组合分类器。

7.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法，其特征在于，所述步骤S4中利用组合分类器从测试语料中抽取水果品种信息，具体包括：

8.一种基于篇章信息的中文水果品种信息抽取装置，其特征在于，所述装置包括：

标注单元，用于对所述与水果相关的页面进行语料标注；

9.如权利要求8所述的基于篇章信息的中文水果品种信息抽取装置，其特征在于，所述特征提取单元包括：

特征提取子单元，用于：

对所述词项对提取得到的语料，

10.如权利要求8所述的基于篇章信息的中文水果品种信息抽取装置，其特征在于，所述训练单元包括：

训练子单元，用于：

设置负样本语料数量为正样本语料的N倍；

将所述N个基分类器通过集成学习方法得到组合分类器。