CN104679836B

CN104679836B - 一种农业本体自动扩充方法

Info

Publication number: CN104679836B
Application number: CN201510065207.1A
Authority: CN
Inventors: 陈瑛; 季烜; 高万林; 张港红; 陈雪瑞
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2018-11-20
Anticipated expiration: 2035-02-06
Also published as: CN104679836A

Abstract

本发明公开了一种农业本体自动扩充方法，包括如下步骤：通过网络终端设备收集互联网中的农业本体数据信息，对收集的数据进行预处理；从维基百科的结构化信息中抽取出需要添加到给定农业领域本体中的候选词项；进行基于本体的上位词候选集抽取，对于每一个候选词项抽取出其所有可能的上位词；进行基于混合排序的上位词定位，对于每一个候选词项，对其上位词候选集中的词项进行排序，从而确定该候选词项在现存农业本体中的上位词。本发明的方法实现进行农业本体自动搜集与扩充，解决目前领域本体自动扩充方法中的大量人工问题，实现了自动化。

Description

一种农业本体自动扩充方法

技术领域

本发明涉及自然语言处理领域，更具体涉及一种农业本体自动扩充方法。

背景技术

随着我国当前市场经济改革的不断深入，农产品价格受到特定的市场经营和流通环境的影响因素越来越严重，产品价格的波动加剧，给当地政府的宏观经济调控，合理规划产业发展带来更多要求。因此，掌握和了解我国各地区农产品价格差异，将有利于正确引导农业生产和农产品流通，实现农产品供求平衡；有利于政府部门调整农业结构，有效解决三农问题。

其实，中国已经存在很多网络报价平台，但是其存在如下几个问题：没有品种上的差别。例如，报价平台往往只会给出西瓜的价格，不会具体到各个西瓜品种的价格；没有区域上的差别，报价平台往往不会给出农产品的产地。这些数据都无法为商业决策提供足够的信息，所以需要细粒度的农产品价格挖掘研究。

细粒度的农产品价格挖掘首先需要一个细粒度的农产品本体。在农业领域中，联合国粮农组织2000年实施了农业本体服务研究计划，其主要目标是构建和集成多种语言的农业本体集合(即AGROVOC)，提供各国的农业信息系统使用，从而为在农业领域开展数据挖掘、知识表示、自动标引、信息分类、智能检索、多语互译、知识发现等应用创造条件。

但是农业本体是一种特定领域的本体，目前大部分现存的农业本体(即使是AGROVOC)都是通过手工来进行创建和维护的，需要大量的背景知识和大量的人力劳动。随着本体粒度的深化，创建过程变得极其繁杂，正确率难以得到保证，最终导致本体构建的成本费用极其高昂。另外，随着互联网的发展，农业领域知识日新月异，这些知识一般都无法在现存本体中得到，农业本体的更新问题变得极为迫切，因此需要进行农业领域本体自动扩充方法与装置。

目前本体扩展方法主要有两大类：基于规则的本体扩展和基于统计的本体扩展。基于规则的方法根据具体的领域本体特征人工构建扩展规则，其特点是方法结构简单，但是需要大量人工来构建规则。基于统计的方法主要采用机器学习方法，其特点是整个方法基本自动化，但是需要大量的人工标注的数据作为输入。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是提供一种农业本体自动扩充方法，能够进行农业本体自动搜集与扩充，解决目前本体自动扩充方法中的大量人工问题，实现自动化。

(二)技术方案

为了解决上述技术问题，本发明提供了一种农业本体自动扩充方法，所述方法包括如下步骤：

S1、收集农业本体数据信息，并进行预处理；其中，农业本体数据信息包括维基百科中无结构化文本信息、Infobox文本信息、Category文本信息，现存农业本体信息；

S2、从维基百科的Infobox文本信息和Category文本信息中，抽取农业领域的词项作为候选词项集；

S3、基于所述现存的农业本体信息，对于所述候选词项集中的每一个候选词项，从维基百科的无结构化文本信息、Infobox文本信息、Category文本信息中抽取可能的上位词，形成对应的上位词选集；

S4、对于每一个所述候选词项，将其上位词选集中的词项进行排序，并确定所述候选词项在现存农业本体中的上位词。

优选地，所述步骤S1中，对所述农业本体数据信息进行预处理具体为：

对于维基百科无结构化文本信息，经过单词识别、形态还原以及词性标注后抽取中心词；

对于维基百科中Infobox文本信息和Category文本信息，进行形态还原和中心词去抽取；

对于现存农业本体信息，将现存农业本体中的每个词项进行形态还原和抽取中心词，并将中心词相同的词项归为一类；其中，所述中心词的列表记为TH＝{th_j，j＝1,2,3…，m}。

优选地，所述步骤S3中，抽取上位词具体为：

利用现存农业本体中的中心词，从对应于候选词项的维基百科篇章中的无结构化文本，抽取出候选词项的上位词，形成第一上位词选集；

利用现存农业本体中的中心词，从对应于候选词项的维基百科篇章中的category文本信息中抽取出候选词项的上位词，形成第二上位词选集；

利用现存农业本体中的中心词，从对应于候选词项的维基百科篇章中的infobox文本信息中抽取出候选词项的上位词，形成第三上位词选集；

所述第一上位词选集、第二上位词选集和第三上位词选集合合并形成所述候选词项对应的上位词选集。

优选地，所述步骤S3之后，将所述中心词的列表中的每一个中心词，统计其在维基百科无结构化文本中出现的次数，记录进频数集合中。

优选地，步骤S4具体包括：

S41、如果候选词项是一个短语，则采用基于短语的排序策略对对应的上位词选集中的上位词进行排序，并确定所述候选词项在现存农业本体中的上位词；

S42、如果候选词项是一个词，则采用基于词的排序策略对对应的上位词选集中的上位词进行排序，并确定所述候选词项在现存农业本体中的上位词。

优选地，所述步骤S41具体包括：

(1)初始化候选上位词收集器；

(2)采用基于修饰图的排序方法对所述第一上位词选集中的上位词进行排序，选择前k个上位词，形成第四上位词选集；

(3)对于所述第四上位词选集，第二上位词选集和第三上位词选集中的每个上位词，用下列公式(1)计算其分值，如果所述上位词出现在所述第四上位词选集中，则将score(A，TCGR)＝1；如果所述候选上位词出现在所述第二上位词选集中，则将score(A，TCCN)＝1；如果所述候选上位词出现在所述第第三上位词选集中，则score(A，TCIB)＝1

Score(A)＝score(A,TCGR)+score(A,TCCN)+score(A,TCIB) (1)

(4)候选上位词抽取，对于所述第四上位词选集，第二上位词选集和第三上位词选集中的每一个上位词，如果其利用公式(1)计算的分值大于1，则将对应的上位词添加到候选上位词收集器中；如果候选上位词收集器为空的话，那么将所述第四上位词选集中第一个上位词添加到候选上位词收集器中。

优选地，采用修饰图的排序方法对所述第一上位词选集中的上位词进行排序，具体包括：

(1)对于所述第二上位词选集中的每一个上位词，根据U(B，n)构建修饰图，其中U(B，n)是上位词B在现存农业本体的N层范围内所有上位词的集合；

(2)对于所述修饰图中每个节点采用如下公式(2)和公式(3)进行计算：

其中，Vi代表节点i，In(Vi)代表出度为Vi的所有节点的集合；Out(Vi)代表入度为Vi的所有节点的集合；e_ij是从节点i到节点j的边上的权重，对于所述修饰图中每个节点i，其中心度Hub(V_i)值和权威度Authority(V_i)值都初始化为1，进行迭代计算，在每次迭代计算中，利用上述公式(2)和公式(3)，对修饰图中每个节点计算其Hub值和Authority值，一直迭代到所有节点的Hub值和Authority值没有明显变化；公式(2)中，Authority(Vi)值为所有指向节点i的节点的Hub值的加权之和，公式(3)中，Hub(Vi)值为节点i为所指向的所有节点的Authority值的加权之和；

(3)采用公式(4)计算上位词B的分值Score(B)，其中mod(B)是上位词B的修饰词的词项集合，其中，score(B)是其Authority值，score(b)是其Hub值：

公式4

(4)依据步骤(4)中计算出来的分值对所述第一上位词选集中的上位词按照从大到小的顺序进行排序。

优选地，采用基于短语的排序策略对对应的上位词选集中的上位词进行排序，具体包括：

如果所述候选词项中的词出现在所述频数集合中，则采用频率最高的那个词作为其上位词；否则，对该词项中的所有词，采用基于词的排序策略提取其上位词。

优选地，所述步骤S4之后还包括S5：

S5、在服务器中建立农业本体数据库，构建服务器与各客户端设备的链接网络，所述服务器通过网络协议向各客户端提供农业本体服务，即提供其所需的上位词数据。

(三)有益效果

本发明提供了一种农业本体自动扩充方法，其综合利用网络终端设备、服务器和数据库技术，以及维基百科中的结构化信息、半结构化信息和非结构化信息，结合农业领域本体这一领域本体的特性，进行农业领域本体自动搜集与扩充，解决目前领域本体自动扩充方法中的大量人工问题，实现了自动化。

附图说明

图1是本发明的一种农业本体自动扩充方法流程图；

图2为本发明的一个较佳实施例的一种农业本体自动扩充方法流程图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

本发明提供的农业领域本体自动扩充方法与装置，能够取得较好的准确率和召回率，其流程图如图1所示。

所述方法包括如下步骤：

S1、收集农业本体数据信息，并进行预处理；其中，农业本体数据信息包括维基百科中无结构化文本信息、Infobox文本信息、Category文本信息，现存农业本体信息；现存农业本体信息即农业词汇表AGROVOC；

实施例：

步骤一、通过网络终端设备收集互联网中的农业本体数据信息，对收集的数据进行预处理，包括：

步骤1：维基百科数据预处理，具体包括：

对维基百科中无结构化文本信息经过单词识别，形态还原，词性标注，抽取中心词；

分别对维基百科中Infobox文本信息和Category文本信息进行形态还原和中心词抽取；

步骤2：给定农业领域本体中(现有农业本体)的词项归类，具体包括：

对于现存的农业领域本体中的每个词项，先进行形态还原，抽取中心词；

根据中心词，对给定农业领域本体中的词项进行归类，即中心词相同的词项归为一类，这些中心词的列表被标记为TH＝{thj，j＝1,2,3…，m}；

由于农业领域的实体并非一种正常的表示方式，因此在进行head抽取的时候只针对概念。例如，对于概念“plant products”的中心词是“products”，实例“abies alba”的中心词是abies。

步骤二：从维基百科中抽取出候选词项

利用维基百科的结构化信息，如标签，分类等，抽取出一些植物领域的词项，生成候选词项集，这些候选词项集记为TC＝{tci，i＝1,2,3…n}，相应的维基百科的篇章记为WA＝{wai，i＝1,2,3…n}；

步骤三：进行基于本体的上位选集的抽取

对于每一个候选词项tci∈TC(相应的维基百科的篇章是wai∈WA)，基于中心词匹配的方法，从维基百科相对应的篇章wai中抽取出对应的本体词项。由于维基百科使用的用户群是普通的用户，他们的文字表达方式比较口语化，某种程度上不具有专业水平。为了捕获这种由于口语化的词项导致专业词项的缺失，则选择中心词匹配的方法。

有三种本体的上位词选集，它们分别来自于无结构化的文本，category名词和infobox中的名称。

从无结构化文本中抽取的上位词候选集，即第一上位词选集(TCUT)：根据维基百科的篇章中无结构的文本，有四个步骤检查一个本体词项是不是一个本体上位词候选词。

第一步，初始化：初始化集合THUT为空集(初始化频数集合)。

第二步，本体的中心词抽取：对于每一个给定农业领域本体词项的中心词thi∈TH，如果它出现在维基百科的无结构化文本中，那么上位词候选wt_i和本体的中心词th_i。那么，本体的中心词th_i和它的出现频数装入到THUT。

第三步，本体的中心词的选择：由于在THUT中的中心词集是有噪音的，故需要对它进行筛选处理。首先，依据他们的频数对THUT中的中心词进行排序。其次，设置一个阀值，如果中心词的频数低于阀值，就将它删除。这么做的一个原因是由于维基百科中无结构的文本存在噪音，仅仅一些本体的中心词能保留下来。

第四步，本体上位词集抽取：经过第三步处理后，THUT中剩下的词项我们记为TCUT。

从category中抽取上位词集，第二上位词选集(TCCN)：前面提到的第一步到第二步被应用到维基百科篇章中category的名字上，生成了中心词集THCN。由于在维基百科的category中出现的数量比较少，用处理无结构化文本的方法来处理category是不可取的，因此跳过前面提到的第三步，在第四步中生成了第二上位词选集TCCN，TCCN是本体词项，这些词项的中心词均在THCN上。

从infobox中抽取上位词集，第三上位词选集(TCIB)：将处理TCCN的方法用在infobox上，生成了一个上位词候选词集(TCIB)。

步骤四：进行基于混合排序的上位词定位，包括：

如果候选词项tc_i是一个短语，则采用基于短语的排序策略；

如果候选词项tc_i是一个词，则采用基于词的排序策略；

其中，基于词的排序策略，具体包括：

初始化：初始化BTTC作为空集，BTTC是最好的候选上位词收集器；

基于修饰图的排序：采用基于修饰图的排序算法来对TCUT中的候选上位词进行排序，选择前k个候选上位词，生成集合第四上位词选集TCGR。

基于多资源的排序：对于TCGR，TCCN和TCIB中的每一个候选上位词，用公式1计算其分值。如果该候选上位词出现在TCGR中，则将score(A，TCGR)＝1；如果该候选上位词出现在TCCN中，则将score(A，TCCN)＝1；如果该候选上位词出现在TCIB中，则score(A，TCIB)＝1。

其中公式1为：

Score(A)＝score(A,TCGR)+score(A,TCCN)+score(A,TCIB) (1)

候选上位词抽取：对于TCGR，TCCN和TCIB中的每一个候选上位词，如果其分值大于1，则将该候选上位词添加到BTTC中；如果BTTC为空的话，那么将TCGR中排序为在第一个的候选上位词添加到BTTC中。

其中，采用基于修饰图的排序算法来对TCUT中的候选上位词进行排序，具体包括：

基于修饰图的排序算法是一种基于HITS的图排序算法，其计算两个词项之间is-a关系<A，B>的分数。如果这个分数比较优于其他分数，那么<A，B>就被判为is-a关系，否则不是。本算法主要分为下列四步：

a)通过U(B，n)构建修饰图。U(B，n)是词项B在给定农业领域本体中的N层中所有上位词的集合。例如，如果两个词项链接<almond，nuts>，<nuts，fruit>存在于本体的结构中，集合U(nuts，1)包含fruit。

在修饰图中，每一个节点代表U(B，n)中的每个词，其边是有向边，每条边代表着修饰词指向中心词的关系。

b)对于修饰图中每个节点采用了HITS算法的改进版进行计算，具体采用公式2和公式3。

Vi代表着节点i；In(Vi)代表着出度为Vi的所有节点；Out(Vi)代表着入度为Vi的所有节点；In(Vi)和Out(Vi)是跟Vi相关的集合；eij是从节点i到节点j的边上的权重。

c)对于词项A，对于与A相连的每一个词项，采用公式4计算<A，B，is-a>的分值。

其中mod(B)是B的修饰词的词项集合，其中，score(B)是其Authority值，score(b)是其Hub值：

d)所有与A相连的词项都依据c)中计算出来的分值进行排序

基于短语的排序策略，具体包括：

在农业领域本体中，对短语形式的候选词项tc_i，其上位词很可能是这个候选词项中的某个词。所以，对于候选词项tc_i，如果该词项中的词出现在THUT中，则采用频率最高的那个词作为其上位词；否则，对该词项中的所有词，采用基于词的排序策略提取其上位词。

步骤五：在服务器中建立定位好的上位词构成的数据库，构建服务器与各客户端设备的链接网络，所述服务器通过网络协议向各客户端提供上位词数据。

为了检测本发明公开的基于混合排序的上位词定位的有效性，本专利对维基百科中的植物词条进行了测试，测试记过如表1和表2所示。其中，

TCUT：使用维基百科中的无结构化文本信息；

TCCN：使用的是维基百科的category信息；

TCIB：使用的是维基百科的infobox信息；

TCGR：使用基于修饰图的排序；

HyRank：使用的是基于多资源的排序。

表1

	准确率	召回率	F
				TCUT	23.79	25.25	24.50
TCCN	11.16	23.53	15.14
				TCIB	12.34	57.66	20.33
TCGR	36.88	36.88	36.88
				HyRank	68.06	77.86	72.26

在表1中，对于上面提到的方法(TCUT，TCCN，TCIB，TCGR和CascaRank)。从表1中，可以发现TCUT，TCGR，TCIB表现较差。这表明TCUT、TCGR和TCIB中的任意一个信息源都不能使用它们各自的信息独立本体扩展的问题，或者说表现偏差。从数据分析的角度来看，它们中的每一个都缺乏数据的良好分布。TCUT是从维基百科中的无结构化文本中抽取出来的，包含很多不相关的上位词候选词；TCCN是从维基百科的category中抽取出来的，包含了多个领域的知识信息；TCIB是从维基百科的infobox中抽取出来的，在生物学分类上比较专业；TCGR相比于TCCN获得了更好的效果，但是并不多。本发明在TCGR的基础上，提出了基于多资源的排序，这种方法能有效利用维基百科中的各种信息源的信息。

表2

表2展示了Hyrank的详细细节，从数据的分析来看，我们发现无论是对基于词还是基于短语的词项，HyRank获得了更好的表现。这表明本发明提出的基于多资源的排序能有效地综合维基百科中的infobox，category和无结构文本信息。

图2为上述实施例的流程图，开始之后首先进行数据收集和预处理，之后候选词项抽取，之后上位词候选集抽取(上位词选集)抽取，之后判断每一个上位词是词还是短语，若是词，则采用基于词的排序策略进行排序，确定上位词，若为短语则采用基于短语的排序策略进行排序，确定上位词；上位词确定之后，提供本体服务。

以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种农业本体自动扩充方法，其特征在于，所述方法包括如下步骤：

S4、对于每一个所述候选词项，将其上位词选集中的词项进行排序，并确定所述候选词项在现存农业本体中的上位词；

其中，步骤S1中，对所述农业本体数据信息进行预处理具体为：

2.根据权利要求1所述的方法，其特征在于，所述步骤S3中，抽取上位词具体为：

3.根据权利要求2所述的方法，其特征在于，所述步骤S3之后，将所述中心词的列表中的每一个中心词，统计其在维基百科无结构化文本中出现的次数，记录进频数集合中。

4.根据权利要求3所述的方法，其特征在于，步骤S4具体包括：

5.根据权利要求4所述的方法，其特征在于，所述步骤S41具体包括：

(1)初始化候选上位词收集器；

(3)对于所述第四上位词选集，第二上位词选集和第三上位词选集中的每个上位词，用下列公式(1)计算其分值，如果所述上位词出现在所述第四上位词选集中，则将score(A，TCGR)＝1；如果所述候选上位词出现在所述第二上位词选集中，则将score(A，TCCN)＝1；如果所述候选上位词出现在所述第三上位词选集中，则score(A，TCIB)＝1

Score(A)＝score(A,TCGR)+score(A,TCCN)+score(A,TCIB) (1)

6.根据权利要求5所述的方法，其特征在于，采用修饰图的排序方法对所述第一上位词选集中的上位词进行排序，具体包括：

7.根据权利要求6所述方法，其特征在于，采用基于短语的排序策略对对应的上位词选集中的上位词进行排序，具体包括：

8.根据权利要求7所述方法，其特征在于，所述步骤S4之后还包括S5：