CN114595344A

CN114595344A - 面向农作物品种管理的知识图谱构建方法及装置

Info

Publication number: CN114595344A
Application number: CN202210496103.6A
Authority: CN
Inventors: 潘守慧; 王开义; 王书锋; 杨锋; 韩焱云; 张秋思
Original assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Current assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-06-07
Anticipated expiration: 2042-05-09
Also published as: CN114595344B

Abstract

本发明提供一种面向农作物品种管理的知识图谱构建方法及装置，该方法包括：根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；根据领域本体，获取对应的农作物品种管理数据，并对品种管理数据进行知识抽取；对抽取出的知识采用三元组进行表示，并建立复合索引；通过知识推理对三元组进行扩充；根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面。该方法降低了知识图谱构建过程中的人工参与程度，提升了自动化构建水平，有助于解决农作物品种管理知识图谱构建过程中效率低、自动化程度低、可拓展性差等问题，提供了直观和便捷的知识组织、管理和展现方式。

Description

面向农作物品种管理的知识图谱构建方法及装置

技术领域

本发明涉及智能农业信息处理领域，尤其涉及一种面向农作物品种管理的知识图谱构建方法及装置。

背景技术

知识图谱（Knowledge Graph）概念是最早由美国的谷歌公司于2012年正式提出。知识图谱是由一系列节点和边组成的语义网络图。通过描述实体之间的关系，可将本领域内的多源异构知识进行语义融合。因此，知识图谱为互联网时代海量、异构、动态的大数据表达、组织、管理与利用提供了一种新的有效途径，提升了领域知识管理的智能化水平。目前，知识图谱已在智能搜索、自动问答、信息推荐等领域得到了较为广泛的应用。

近年来，随着商业化育种技术与进程的不断发展，如何对农作物品种数据进行有效地管理已成为一个亟待解决的基础性问题。农作物品种管理的涉及业务，主要包括：品种区域试验、品种审定、品种登记、品种保护、品种推广、种子生产经营、种子进出口等业务。由于其涉及的业务种类和数据来源渠道较多，导致其数据呈现出分散化、种类多、连贯性差等特征。通过构建农作物品种知识图谱，可以将多源异构品种信息与可视语义网络进行关联，并以图的形式直观清晰地展示错综复杂的品种信息。如何基于知识图谱推理从多源异构品种数据中挖掘有价值的信息，已成为当前研究的热点。然而，传统完全依赖人工的知识图谱构建方法，耗时耗力。因此，在知识图谱构建过程中，如何降低人工参与度和提升自动化构建水平，已成为种业信息化进程中一个亟待解决的关键问题。

发明内容

针对现有技术存在的问题，本发明提供一种面向农作物品种管理的知识图谱构建方法及装置。

本发明提供一种面向农作物品种管理的知识图谱构建方法，包括：根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取；对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引；通过知识推理对所述三元组进行扩充；根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面；其中，若满足预设更新条件，则重复上述获取对应的农作物品种管理数据，直至为每一用户生成不同的知识图谱数据展示界面的过程。

根据本发明提供的一种面向农作物品种管理的知识图谱构建方法，根据所述领域本体，利用主题爬虫从多个数据源获取对应的农作物品种管理数据，包括：确定初始统一资源定位符URL地址列表；利用网页排名PageRank算法计算所述URL地址列表中所有URL的综合得分值，按综合得分值由大到小顺序对所述URL地址列表中所有URL进行排序；从所述URL地址列表中取出综合得分值最大的URL，并下载URL综合得分值最大的当前网页，并将当前网页URL移出所述URL地址列表，加入到已访问地址集合中；计算当前网页与所述领域本体中农作物品种管理主题词的相关性；若相关性值高于预设阈值，则将当前网页预处理后进行存储，以用于获取对应的农作物品种管理数据，否则将当前网页丢弃；利用正则表达式，抽取当前网页中的所有URL，得到当前网页URL集合，剔除当前网页URL集合中在已访问地址集合中存在的URL后，将当前网页URL集合中所有的URL加入到所述URL地址列表中；重复上述计算所述URL地址列表中所有URL的综合得分值，至将当前网页URL集合中所有的URL加入到URL地址列表中的过程，直至URL地址列表中的元素为空。

根据本发明提供的一种面向农作物品种管理的知识图谱构建方法，所述计算当前网页与所述领域本体中农作物品种管理主题词的相关性，包括：基于XPath或正则表达式对当前网页中的HTML标签进行解析，获取当前网页的文档对象DOM树或渲染树；根据当前网页结构树中的可见标签元素，对当前网页进行分块处理，得到当前网页的页面分块；从页面的底层最小分块开始，按照预设的合并层级和分块的标签类型，逐渐对页面分块进行合并，得到待识别分块；根据待识别分块的宽度、高度、字体格式、在网页中位置和规则模板，识别网页主体内容块；利用正则表达式，分别抽取所述主体内容块以及标题标签、关键词标签和描述标签中的文本，经文本预处理后，分别提取所述文本的特征词；基于文本向量模型，将当前网页表示为所述特征词构成的向量A，将农作物品种管理的主题词表示为向量T；计算向量A和向量T之间夹角的余弦值，得到当前网页与农作物品种管理主题词的相关性值。

根据本发明提供的一种面向农作物品种管理的知识图谱构建方法，所述计算向量A和向量T之间夹角的余弦值，包括结合每一特征词的权重计算向量A和向量T之间夹角的余弦值，所述权重的计算方法包括：

；

；

其中，

为第

个网页文档中第

个特征词的权重；

为第

个网页文档，

为特征词

在文档

中的加权频率，

为特征词

的逆向文档频率，

为归一化常量，

为当前网页的逻辑分块数，

为特征词

在文档

的第

个文本块中实际出现的次数，

为第

个文本块的位置权重，

为文档

中第

个文本块的文本长度，

为网页集合中包含特征词

的网页数，

为网页的数量。

根据本发明提供的一种面向农作物品种管理的知识图谱构建方法，对所述品种管理数据进行知识抽取，包括：对于结构化数据，根据数据库的实体关系图，将数据表中字段之间的关系映射为三元组；对于半结构化数据，采用规则模板或基于包装器归纳法，进行实体抽取、属性抽取和关系抽取；对于非结构化数据，采用基于规则或/和基于机器学习的方法进行实体抽取、属性抽取、关系抽取和事件抽取。

根据本发明提供的一种面向农作物品种管理的知识图谱构建方法，所述对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引，包括：将抽取的知识表示为三元组（S, P, O），其中S的取值为实体、事件或概念中的任何一个，P的取值为关系或属性，O的取值为实体、事件、概念或普通的值；对三元组中的三个元素进行排列，得到六种不同排列方式，分别为所述不同排列方式，建立B+树索引或哈希索引。

根据本发明提供的一种面向农作物品种管理的知识图谱构建方法，所述根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的数据展示界面，包括：按业务主题，对农作物品种管理领域涉及的所有业务进行分类，根据用户选择类别或随机指定若干种业务，作为最感兴趣的业务主题；根据用户最感兴趣的业务主题，生成若干个关键词发送到用户界面，并接收用户选择的关键词作为用户的兴趣特征标签；获取用户使用搜索引擎或浏览指定网站时输入的关键词，确定用户的输入行为特征标签；获取用户在指定网站上浏览页面的时间，对浏览时间进行标准化处理后，得到浏览时间系数，对浏览时间系数大于预设阈值的页面进行解析，提取页面的关键词，以确定用户的浏览行为特征标签；选择用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签中综合评分最高的若干个关键词与三元组中的实体名称进行匹配，将匹配成功前若干个实体作为图谱中的初始中心节点，可视化展示初始中心节点的属性以及所述中心节点与其他实体之间的关系，并将初始中心节点在页面中放大显示；

其中，所述浏览时间系数的计算公式包括：

；

其中，

为用户相对浏览速度的权重系数，

为区间

内的常数，

为实际浏览时间，

为页面中的正文长度；

其中，所述综合评分的计算公式包括：

；

其中，

表示第

类标签的得分对应的权重，

表示第

个关键词第

类标签中的得分，

分别对应兴趣标签、输入标签和浏览标签。

根据本发明提供的一种面向农作物品种管理的知识图谱构建方法，所述对所述品种管理数据进行知识抽取，包括：基于标注语料训练后的BERT模型，确定所述品种管理数据语料中每个字的语义表示，得到包含上下文信息的字向量；将所述字向量输入到训练后的双向长短时记忆神经网络，得到每个字的双向编码；利用条件随机场模型对所述双向编码进行解码，得到概率最大标签序列，对所述序列中的各个实体进行提取分类；其中，条件随机场模型包括：

；

其中，

为输出标记序列

的第

个特征在位置

和

之间的转移特征函数，

为特征函数

的权重，

为第

位置的状态特征函数，

为特征函数

的权重，

为输入观察序列

的值，

为输出标记序列

在第

位置上的取值，

为输出标记序列

在第

位置上的取值，

为输出标记序列

的特征数。

本发明还提供一种面向农作物品种管理的知识图谱构建装置，包括：本体构建模块，用于根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；知识抽取模块，用于根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取；数据表示模块，用于对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引；知识扩充模块，用于通过知识推理对所述三元组进行扩充；数据展示模块，用于根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面；其中，若满足预设更新条件，所述装置还用于则重复上述获取对应的农作物品种管理数据，直至为每一用户生成不同的知识图谱数据展示界面的过程。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述面向农作物品种管理的知识图谱构建方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述面向农作物品种管理的知识图谱构建方法。

本发明提供的面向农作物品种管理的知识图谱构建方法及装置，可从多种信息渠道获取农作物品种管理数据，自动完成作物品种知识的抽取、表示、推理和存储，支持个性化展示图谱数据，为农作物品种管理提供了一个更直观和便捷的知识组织、管理和展现方式。该方法降低了知识图谱构建过程中的人工参与程度，提升了其自动化构建水平，有助于解决农作物品种管理知识图谱构建过程中普遍存在的效率低、自动化程度低、可拓展性差等问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的面向农作物品种管理的知识图谱构建方法的流程示意图；

图2是本发明提供的面向农作物品种管理的知识图谱构建装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图3描述本发明的面向农作物品种管理的知识图谱构建方法及装置。图1是本发明提供的面向农作物品种管理的知识图谱构建方法的流程示意图，如图1所示，本发明提供面向农作物品种管理的知识图谱构建方法，包括：

S1、根据农作物品种管理的主题词词典构建农作物品种管理的领域本体。

其中，所述主题词词典包括：品种名称词典、性状名称词典、育种企业名称词典、生态区组名称词典、审定编号/登记编号词典、检测机构名称词典、常用关键词词典，可预先构建。

可选地，还包括结合专家知识构建面向农作物品种管理的领域本体。

S2、根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取。

其中，所述数据接口包括Web服务接口、RPC调用接口、专用API接口和数据导入接口中至少一个，数据交换格式包括普通文本、XML和JSON中至少一种。

农作物品种管理信息的主要来源渠道包括：全国及各地的品种区域试验系统、品种区域试验报告、中国种业大数据平台、各级政府部门网站、专业网站、社交媒体；农作物品种信息，包括：品种区域试验信息、品种审定信息、品种登记信息、品种保护信息、品种推广信息、种子生产经营信息、种子进出口信息、行政处罚信息、司法判决信息、网络舆情信息。

在实际应用中，为全面获取农作物品种管理信息，可综合采用多种技术手段从多个渠道获取数据，相关技术手段包括：调用专用数据接口、利用主题爬虫软件、数据文件导入等。其中，知识抽取包括：实体抽取、属性抽取、关系抽取、事件抽取和实体连接。

获取对应的农作物品种管理数据之后，还包括对所获取到的数据进行数据清洗、预处理、中英文语义转换与关联。

实体抽取，又称为命名实体识别，是指从文本中识别出具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。本发明实施例中的实体，主要包括：品种名称、作物名称、性状名称、育种者、申请者、培育者、品种权人、审定单位、推广单位、生产经营许可证、发证机关、种子质量检测机构、种子承储企业、种子出口单位、种子供种单位、省份、进口/出口国家。

关系抽取，是指提取出实体之间的关联关系，通过关系将实体（概念）联系起来。本发明实施例中的实体关系，主要包括：品种与育种者之间的关系，品种与申请者者之间的关系、品种与培育者之间的关系、品种与品种权人之间的关系、品种与审定单位之间的关系、品种与检测机构之间的关系、品种与推广单位之间的关系、品种与种子承储企业之间的关系、品种与进出口单位之间的关系、品种与进出口国家之间的关系、品种与相关省份之间的隶属关系、推广单位与育种者之间的关系、推广单位与品种权人之间的关系、生产经营许可证与作物、生产企业、发证机构、副证等之间的关系、品种与司法判决案例之间的关系等。

属性抽取，是指是从数据中识别出特定实体的属性信息，类似于关系抽取。本发明实施例中的属性，主要包括：品种的产量性状（亩产、比对照增产率、穗重、粒重等）、生物学性状（生育期、感光性、感温性等）、农艺性状（株高、穗长、千粒重、结实率等）、品种审定详情（审定编号、审定年份、品种来源、特征特性、栽培技术要点、产量表现、审定意见等）、品种生产经营详情（许可证编号、生产经营范围、发证日期、有效期限、生产经营方式、有效区域等）、品种推广详情（地区、年份、推广面积等）、种子储备详情（储备年份、储备级别、所在省份、作物种类、承储企业、储备量等）等。

事件抽取，是指从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来，包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。例如：通过事件抽取，把与某品种相关的新闻报道、政府通告、社交媒体舆情等有机地串联起来。

实体连接，是指对于从文本中抽取得到的实体对象，将其链接到知识库中对应的正确实体对象的操作。其操作思路是，首先根据给定的实体指称项，从知识库中选出一组候选实体对象，然后通过相似度计算将指称项链接到正确的实体对象。

S3、对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引。

对抽取出的知识采用三元组进行表示之前，还包括对抽取出的知识进行验证，验证通过后，采用三元组形式进行知识表示。

通常，三元组具体的展现情形为：（实体，关系，实体）、（实体，属性，属性值）、（实体，关系，事件）、（事件，关系，事件）。例如：玉米品种“郑单958”的“株高”为240厘米，可以用三元组表示为：（郑单958，株高，240厘米），其中郑单958为实体，株高为属性（性状），240厘米为属性值。

在对三元组建立复合索引之前，还包括：对语义内容重复的三元组进行去重合并。所述建立复合索引的方法，包括：对三元组中的三个元素进行排列，得到六种排列方式，分别为：SPO、SOP、PSO、POS、OSP、OPS；分别为上述六种排列方式，建立B+树索引或哈希索引。

S4、通过知识推理对所述三元组进行扩充；

通过知识推理对现有三元组进行扩充，包括：基于确定性逻辑推理和/或概率推理技术进行三元组分类和链接预测，以实现知识补全。

其中，基于概率推理技术进行三元组分类和链接预测的方法，包括：基于有向图的贝叶斯网络、基于无向图的马尔科夫网络、马尔科夫逻辑网模型、基于关联规则的频繁项挖掘、基于深度学习的实体关系预测中的至少一种。

S5、根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面。

即基于三元组数据集、用户兴趣、用户输入行为和浏览行为特征，分别为每一用户绘制个性化的数据展示界面，即生成面向农作物品种管理的知识图谱。用户兴趣特征、用户输入行为特征和浏览行为特征，分别可以为用户选取的关键词、用户通过搜索引擎输入的关键词和用户浏览网页的关键词。

其中，若满足预设更新条件，则重复上述获取对应的农作物品种管理数据，直至为每一用户生成不同的知识图谱数据展示界面的过程。

具体而言，为每一用户生成不同的数据展示界面之后，还包括重复S2-S5的方法基于增量数据对知识图谱进行更新。

基于增量数据对知识图谱进行更新，以下情况可触发更新操作，即预设更新条件可以为以下任意一种：

（1）根据预先设定的时间间隔，定期基于增量数据对知识图谱进行更新；例如：可每隔3天、5天、10天、1个月更新一次知识图谱。

（2）根据预先设定的增量数据的大小，及时对知识图谱进行更新；例如：每当增量数据大于500M时，将触发更新操作。

（3）基于新获取的增量数据，实时对知识图谱进行更新。

在实际应用中，为了提高系统的运行效率，可以综合考虑时间间隔长短和增量数据大小，设定具体的更新规则。例如：当时间间隔大于5天或增量数据大于500M时，将启动知识图谱的更新动作。

本发明的农作物品种管理的知识图谱构建方法，可从多种信息渠道获取农作物品种管理数据，自动完成作物品种知识的抽取、表示、推理和存储，支持个性化展示图谱数据，为农作物品种管理提供了一个更直观和便捷的知识组织、管理和展现方式。该方法降低了知识图谱构建过程中的人工参与程度，提升了其自动化构建水平，有助于解决农作物品种管理知识图谱构建过程中普遍存在的效率低、自动化程度低、可拓展性差等问题。

在一个实施例中，根据所述领域本体，利用主题爬虫从多个数据源获取对应的农作物品种管理数据，包括：

S21：确定初始URL地址列表

；

S22：利用PageRank算法计算

中所有URL的综合得分值，即 PR值，按PR值由大到小顺序对

中所有URL进行排序；

S23：从

中取出综合得分值最大的URL，利用爬虫下载URL综合得分值最大的当前网页，并将当前网页URL移出所述URL地址列表

，加入到已访问地址集合

中；

S24：计算当前网页与农作物品种管理主题的相关性；若相关性值高于指定阈值，则将当前网页预处理后进行存储，如存储到本地服务器，以及建立组合索引，否则将当前网页丢弃；

S25：利用正则表达式，抽取当前网页中的所有URL，得到该当前网页的URL集合

，剔除集合

中的已在集合

中存在的URL，然后将集合

中所有的URL加入到

中；

S26：重复步骤S22-S25，直至

中的元素为空。

在一个实施例中，所述计算当前网页与所述领域本体中农作物品种管理主题词的相关性，包括：基于DOM模型或渲染树模型解析当前网页，识别出当前网页中的主体内容块；利用正则表达式，分别抽取主体内容块中以及标题标签、关键词标签和描述标签（<title>、<meta name=”keywords”>、<meta name=”description”>标签）中的文本，经文本预处理后，分别提取所述文本的特征词；基于文本向量模型，将当前网页表示为由所述特征词构成的向量A，将农作物品种管理的主题词表示为向量T；计算向量A和向量T之间夹角的余弦值，得到当前网页与农作物品种管理主题词的相关性值。

其中，基于DOM模型或渲染树模型解析当前网页，识别出当前网页中的主体内容块，包括：使用XPath或正则表达式对网页中的HTML标签进行解析，获取该网页的结构树，即DOM（Document Object Model）树或渲染树，根据网页结构树中的可见标签元素，对网页进行分块处理，得到网页的页面分块；从页面的底层最小分块开始，按照预设的合并层级和分块的标签类型，逐渐对页面分块进行合并，得到待识别分块；根据待识别分块的宽度、高度、字体格式、在网页中位置和规则模板，完成网页主体内容块的识别。

在实际应用中，以下逻辑均可综合用于判断待识别分块是否合理，包括：待识别分块的位置是否在网页的中部或左中部或右中部、待识别分块的宽度占页面的比例、待识别分块的高度是否大于指定阈值、待识别分块的字体大小或字体样式是否与正文字号相同、待识别分块的结构是否与常用的正文模板匹配等判断逻辑中的至少一种。

在一个实施例中，所述计算向量A和向量T之间夹角的余弦值，包括结合每一特征词的权重计算向量A和向量T之间夹角的余弦值，所述权重的计算方法包括：

；

；

其中，

为第

个网页文档中第

个特征词的权重；

为第

个网页文档，

为特征词

在文档

中的加权频率，

为特征词

的逆向文档频率，

为归一化常量，

为当前网页的逻辑分块数，

为特征词

在文档

的第

个文本块中实际出现的次数，

为第

个文本块的位置权重，

为文档

中第

个文本块的文本长度，

为网页集合中包含特征词

的网页数，

为网页的数量。

具体地，可使用信息增益法（Information Gain，IG）、文档频率法（Document Frequency, DF）、卡方校验法(CHI)、互信息法（Mutual Information, MI）等方法选取文本特征，然后利用改进的TF-IDF模型将每个网页表示成由所述特征词构成的向量，记为

。由于网页中不同位置的文本，在一定程度上反映了其信息的重要程度。因此，在计算向量值时，本实施例考虑了特征词在文档中的位置（如<title> 标签、<meta>标签、主体内容块等），并将每个网页在逻辑上划分为若干种不同类型的文本块。令特征词集合为

,网页集合为

，第

个网页的特征向量为

。其中，

为特征词

在文档

中的权重值，权重计算公式如上式。

在一个实施例中，对所述品种管理数据进行知识抽取，包括：对于结构化数据，根据数据库的实体关系图，将数据表中字段之间的关系映射为三元组；对于半结构化数据，采用规则模板或基于包装器归纳法，进行实体抽取、属性抽取和关系抽取；对于非结构化数据，采用基于规则或/和基于机器学习的方法进行实体抽取、属性抽取、关系抽取和事件抽取。

具体地，可使用D2RQ Engine工具和自定义的D2RQ Mapping 文件将关系型数据库中的数据换成RDF文件，进而转换为三元组。

其中，基于机器学习的方法包括：卷积神经网络、循环神经网络、条件随机场、支持向量机、隐马尔可夫模型、决策树中的至少一种。

优选地，为了提高信息抽取的准确率和性能，在实际应用中需要综合运用多种方法从非结构化文本中进行知识抽取。基于机器学习的实体识别的主要思路为：利用预先标注好的语料训练模型，使模型学习到某个字或词作为命名实体组成部分的概率，进而计算一个候选字段作为命名实体的概率值。若大于某一阈值，则识别为命名实体。在实际应用中，既可以预先选取一系列的特征并利用传统的机器学习模型进行实体抽取，也可以利用各种不同结构的神经网络自动捕获特征而进行实体抽取。

具体地，在实体抽取时，需要首先将输入文本中的每个字可能对应的标注标签集合定义为

。

（Begin）表示一个命名实体的开始位置，

（Internal）表示一个命名实体的中间部分，

（Other）表示句子中的非命名实体部分。此外，可以为某些类型的命名实体加上相应的标签。例如：品种名（VTY）、地名（LOC）、性状名（TRT）、组织机构名（ORG）、省份名（PROV）、国家名（CTY）。

在一个实施例中，所述对所述品种管理数据进行知识抽取，包括：基于标注语料训练后的BERT模型，确定所述品种管理数据语料中每个字的语义表示，得到包含上下文信息的字向量；将所述字向量输入到训练后的双向长短时记忆神经网络，得到每个字的双向编码；利用条件随机场模型对所述双向编码进行解码，得到概率最大标签序列，对所述序列中的各个实体进行提取分类。

具体地，可以构建机器学习与规则相结合的方法进行农作物品种管理领域的实体抽取，具体步骤包括：

（1）利用BERT（Bidirectional Encoder Representations from Transformers）模型对标注语料进行特征提取，获得输入语料中每个字的语义表示，得到包含上下文信息的字向量；

（2）将字向量输入到双向长短时记忆神经网络中进一步处理，以获得更多的语义信息，得到每个字的双向编码；

（3）利用条件随机场模型对上一步的输出结果进行解码，输出概率最大标签序列，对序列中的各个实体进行提取分类；其中，条件随机场模型可以表示为：

其中，

为输出标记序列

的第

个特征在位置

和

之间的转移特征函数，

为特征函数

的权重，

为第

位置的状态特征函数，

为特征函数

的权重，

为输入观察序列

的值，

为输出标记序列

在第

位置上的取值，

为输出标记序列

在第

位置上的取值，

为输出标记序列

的特征数。

（4）还可基于未识别实体样本的特点和上下文特征，设计抽取规则，利用已设计的规则，对未识别出的实体进行二次识别。

在一个实施例中，所述对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引，包括：将抽取的知识表示为三元组（S, P, O），其中S的取值为实体、事件或概念中的任何一个，P的取值为关系或属性，O的取值为实体、事件、概念或普通的值；对三元组中的三个元素进行排列，得到不同排列方式；分别为所述不同排列方式，建立B+树索引或哈希索引。其中，六种排列方式为：SPO、SOP、PSO、POS、OSP、OPS。上述实施例已举例说明，此处不再赘述。

在一个实施例中，所述根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述六重复合索引查找三元组数据集，为每一用户生成不同的数据展示界面，包括：按业务主题，对农作物品种管理领域涉及的所有业务进行分类，根据用户选择类别或随机指定若干种业务，作为最感兴趣的业务主题；根据用户最感兴趣的业务主题，生成若干个关键词发送到用户界面，并接收用户选择的关键词作为用户的兴趣特征标签；获取用户使用搜索引擎或浏览指定网站时输入的关键词，确定用户的输入行为特征标签；获取用户在指定网站上浏览页面的时间，对浏览时间进行标准化处理后，得到浏览时间系数，对浏览时间系数大于预设阈值的页面进行解析，提取页面的关键词，以确定用户的浏览行为特征标签；选择用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签中综合评分最高的若干个关键词与三元组中的实体名称进行匹配，将匹配成功前若干个实体作为图谱中的初始中心节点，可视化展示初始中心节点的属性以及所述中心节点与其他实体之间的关系，并将初始中心节点在页面中放大显示。

在一个实施例中，上述浏览时间系数的计算公式包括：

；

其中，

为用户相对浏览速度的权重系数，

为区间

内的常数，

为实际浏览时间，

为页面中的正文长度；

在一个实施例中，对用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签中的每一关键词进行综合评分的计算方法包括：

；

其中，

表示第

类标签的得分对应的权重，

表示第

个关键词第

类标签中的得分，

分别对应用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签；优选地，

的值可分别设为0.5、0.25、0.25；

优选地，

的计算方法为：若第

个关键词出现在用户兴趣特征标签中，则其值为：

；否则，其值为0。其中，

为用户兴趣特征标签中的关键词个数。

优选地，

的计算方法为：若第

个关键词出现在用户输入行为特征标签中，则其值为：

；否则，其值为0。其中，

为用户输入行为特征标签中的关键词个数，

为一定时间段内第

个关键词的输入次数。

优选地，

的计算方法为：若第

个关键词出现在浏览行为特征标签中，则其值为：

；否则，其值为0。其中，

为浏览行为特征标签中的关键词个数，

为一定时间段内第

个关键词的浏览时间系数。

上述农作物品种管理的主题词词典构建时，农作物品种管理涉及的字段包括如下：

品种名称、作物名称、审定编号、审定年份、审定单位、申请者、育种者、品种来源、特征特性、栽培技术要点、产量表现、审定意见、是否转基因、是否撤销、引种备案（省内、省外）。

适宜种植区域及季节、注意事项（优点、缺陷、风险及预防措施）；

申请日、申请公告日。

生产经营许可（许可证详情）。

品种推广详情（作物名称、品种名称、地区、年份、面积-万亩、企业名称、品种权详情、生产经营备案）。

品种权-作物名称、品种名称、申请号、申请日、申请人、申请状态、申请公告日、授权号、授权日、公告号、品种权人、品种权地址。

生产经营许可证：许可证编号、申请企业、作物名称、生产经营范围（大豆、南瓜、西葫芦、绿豆、赤豆种子）、发证机关、发证日期、有效期至、主证、副证；生产经营方式、有效区域、统一社会信用代码。

种子储备查询：年份、级别、省份、作物种类、品种名称、品种权详情、承储企业、储备量（万公斤）；

种子质量检测机构：机构名称、所属地区、省内序号、机构地址、检验项目范围、最后更新时间、联系电话、备注。

种子进口查询：审批单编号、申请单位、作物名称、品种名称、供种单位、进口国家、用途、申请日期。

种子出口查询：审批单编号、申请单位、作物名称、品种名称、出口单位、出口国家、用途、申请日期。

行政处罚、司法判决。

下面对本发明提供的面向农作物品种管理的知识图谱构建装置进行描述，下文描述的面向农作物品种管理的知识图谱构建装置与上文描述的面向农作物品种管理的知识图谱构建方法可相互对应参照。

图2是本发明提供的面向农作物品种管理的知识图谱构建装置的结构示意图，如图2所示，该面向农作物品种管理的知识图谱构建装置包括：本体构建模块201、知识抽取模块202、数据表示模块203、知识扩充模块204和数据展示模块205。其中，本体构建模块201用于根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；知识抽取模块202用于根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取；数据表示模块203用于对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引；知识扩充模块204用于通过知识推理对所述三元组进行扩充；数据展示模块205用于根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述六重复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面；其中，若满足预设更新条件，则重复上述获取对应的农作物品种管理数据，直至为每一用户生成不同的知识图谱数据展示界面的过程。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例所提供的面向农作物品种管理的知识图谱构建装置，其实现原理及产生的技术效果和前述面向农作物品种管理的知识图谱构建方法实施例相同，为简要描述，面向农作物品种管理的知识图谱构建装置实施例部分未提及之处，可参考前述面向农作物品种管理的知识图谱构建方法实施例中相应内容。

图3是本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器（processor）301、通信接口（Communications Interface）302、存储器（memory）303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行面向农作物品种管理的知识图谱构建方法，该方法包括：根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取；对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引；通过知识推理对所述三元组进行扩充；根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面；其中，若满足预设更新条件，则重复上述获取对应的农作物品种管理数据，直至为每一用户生成不同的知识图谱数据展示界面的过程。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的面向农作物品种管理的知识图谱构建方法，该方法包括：根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取；对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引；通过知识推理对所述三元组进行扩充；根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面；其中，若满足预设更新条件，则重复上述获取对应的农作物品种管理数据，直至为每一用户生成不同的知识图谱数据展示界面的过程。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向农作物品种管理的知识图谱构建方法，其特征在于，包括：

根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；

根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取；

对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引；

通过知识推理对所述三元组进行扩充；

根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面；

2.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，根据所述领域本体，利用主题爬虫从多个数据源获取对应的农作物品种管理数据，包括：

确定初始统一资源定位符URL地址列表；

利用网页排名PageRank算法计算所述URL地址列表中所有URL的综合得分值，按综合得分值由大到小顺序对所述URL地址列表中所有URL进行排序；

从所述URL地址列表中取出综合得分值最大的URL，并下载URL综合得分值最大的当前网页，并将当前网页URL移出所述URL地址列表，加入到已访问地址集合中；

计算当前网页与所述领域本体中农作物品种管理主题词的相关性；若相关性值高于预设阈值，则将当前网页预处理后进行存储，以用于获取对应的农作物品种管理数据，否则将当前网页丢弃；

利用正则表达式，抽取当前网页中的所有URL，得到当前网页URL集合，剔除当前网页URL集合中在已访问地址集合中存在的URL后，将当前网页URL集合中所有的URL加入到所述URL地址列表中；

重复上述计算所述URL地址列表中所有URL的综合得分值，至将当前网页URL集合中所有的URL加入到URL地址列表中的过程，直至URL地址列表中的元素为空。

3.根据权利要求2所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述计算当前网页与所述领域本体中农作物品种管理主题词的相关性，包括：

基于XPath或正则表达式对当前网页中的HTML标签进行解析，获取当前网页的文档对象DOM树或渲染树；

根据当前网页结构树中的可见标签元素，对当前网页进行分块处理，得到当前网页的页面分块；

从页面的底层最小分块开始，按照预设的合并层级和分块的标签类型，逐渐对页面分块进行合并，得到待识别分块；

根据待识别分块的宽度、高度、字体格式、在网页中位置和规则模板，识别网页主体内容块；

利用正则表达式，分别抽取所述主体内容块以及标题标签、关键词标签和描述标签中的文本，经文本预处理后，分别提取所述文本的特征词；

基于文本向量模型，将当前网页表示为所述特征词构成的向量A，将农作物品种管理的主题词表示为向量T；

计算向量A和向量T之间夹角的余弦值，得到当前网页与农作物品种管理主题词的相关性值。

4.根据权利要求3所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述计算向量A和向量T之间夹角的余弦值，包括结合每一特征词的权重计算向量A和向量T之间夹角的余弦值，所述权重的计算方法包括：

；

；

其中，

为第

个网页文档中第

个特征词的权重，

为第

个网页文档，

为特征词

在文档

中的加权频率，

为特征词

的逆向文档频率，

为归一化常量，

为当前网页的逻辑分块数，

为特征词

在文档

的第

个文本块中实际出现的次数，

为第

个文本块的位置权重，

为文档

中第

个文本块的文本长度，

为网页集合中包含特征词

的网页数，

为网页的数量。

5.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述对所述品种管理数据进行知识抽取，包括：

对于结构化数据，根据数据库的实体关系图，将数据表中字段之间的关系映射为三元组；

对于半结构化数据，采用规则模板或基于包装器归纳法，进行实体抽取、属性抽取和关系抽取；

对于非结构化数据，采用基于规则或/和基于机器学习的方法进行实体抽取、属性抽取、关系抽取和事件抽取。

6.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引，包括：

将抽取的知识表示为三元组（S, P, O），其中S的取值为实体、事件或概念中的任何一个，P的取值为关系或属性，O的取值为实体、事件、概念或普通的值；

对三元组中的三个元素进行排列，得到六种不同排列方式，分别为所述不同排列方式，建立B+树索引或哈希索引。

7.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的数据展示界面，包括：

按业务主题，对农作物品种管理领域涉及的所有业务进行分类，根据用户选择类别或随机指定若干种业务，作为最感兴趣的业务主题；

根据用户最感兴趣的业务主题，生成若干个关键词发送到用户界面，并接收用户选择的关键词作为用户的兴趣特征标签；

获取用户使用搜索引擎或浏览指定网站时输入的关键词，确定用户的输入行为特征标签；

获取用户在指定网站上浏览页面的时间，对浏览时间进行标准化处理后，得到浏览时间系数，对浏览时间系数大于预设阈值的页面进行解析，提取页面的关键词，以确定用户的浏览行为特征标签；

选择用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签中综合评分最高的若干个关键词与三元组中的实体名称进行匹配，将匹配成功前若干个实体作为图谱中的初始中心节点，可视化展示初始中心节点的属性以及所述中心节点与其他实体之间的关系，并将初始中心节点在页面中放大显示；

其中，所述浏览时间系数的计算公式包括：

；

其中，

为用户相对浏览速度的权重系数，

为区间

内的常数，

为实际浏览时间，

为页面中的正文长度；

其中，所述综合评分的计算公式包括：

；

其中，

表示第

类标签的得分对应的权重，

表示第

个关键词第

类标签中的得分，

分别对应兴趣标签、输入标签和浏览标签。

8.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述对所述品种管理数据进行知识抽取，包括：

基于标注语料训练后的BERT模型，确定所述品种管理数据语料中每个字的语义表示，得到包含上下文信息的字向量；

将所述字向量输入到训练后的双向长短时记忆神经网络，得到每个字的双向编码；

利用条件随机场模型对所述双向编码进行解码，得到概率最大标签序列，对所述序列中的各个实体进行提取分类；

其中，条件随机场模型包括：

；

其中，

为输出标记序列

的第

个特征在位置

和

之间的转移特征函数，

为特征函数

的权重，

为第

位置的状态特征函数，

为特征函数

的权重，

为输入观察序列

的值，

为输出标记序列

在第

位置上的取值，

为输出标记序列

在第

位置上的取值，

为输出标记序列

的特征数。

9.一种面向农作物品种管理的知识图谱构建装置，其特征在于，包括：

本体构建模块，用于根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；

知识抽取模块，用于根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取；

数据表示模块，用于对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引；

知识扩充模块，用于通过知识推理对所述三元组进行扩充；

数据展示模块，用于根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面；

其中，若满足预设更新条件，所述装置还用于则重复上述获取对应的农作物品种管理数据，直至为每一用户生成不同的知识图谱数据展示界面的过程。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述面向农作物品种管理的知识图谱构建方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述面向农作物品种管理的知识图谱构建方法。