CN114595344A - 面向农作物品种管理的知识图谱构建方法及装置 - Google Patents

面向农作物品种管理的知识图谱构建方法及装置 Download PDF

Info

Publication number
CN114595344A
CN114595344A CN202210496103.6A CN202210496103A CN114595344A CN 114595344 A CN114595344 A CN 114595344A CN 202210496103 A CN202210496103 A CN 202210496103A CN 114595344 A CN114595344 A CN 114595344A
Authority
CN
China
Prior art keywords
knowledge
data
crop variety
user
variety management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210496103.6A
Other languages
English (en)
Other versions
CN114595344B (zh
Inventor
潘守慧
王开义
王书锋
杨锋
韩焱云
张秋思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Original Assignee
Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences filed Critical Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority to CN202210496103.6A priority Critical patent/CN114595344B/zh
Publication of CN114595344A publication Critical patent/CN114595344A/zh
Application granted granted Critical
Publication of CN114595344B publication Critical patent/CN114595344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mining & Mineral Resources (AREA)
  • Marketing (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Agronomy & Crop Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Animal Husbandry (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向农作物品种管理的知识图谱构建方法及装置,该方法包括:根据农作物品种管理的主题词词典构建农作物品种管理的领域本体;根据领域本体,获取对应的农作物品种管理数据,并对品种管理数据进行知识抽取;对抽取出的知识采用三元组进行表示,并建立复合索引;通过知识推理对三元组进行扩充;根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面。该方法降低了知识图谱构建过程中的人工参与程度,提升了自动化构建水平,有助于解决农作物品种管理知识图谱构建过程中效率低、自动化程度低、可拓展性差等问题,提供了直观和便捷的知识组织、管理和展现方式。

Description

面向农作物品种管理的知识图谱构建方法及装置
技术领域
本发明涉及智能农业信息处理领域,尤其涉及一种面向农作物品种管理的知识图谱构建方法及装置。
背景技术
知识图谱(Knowledge Graph)概念是最早由美国的谷歌公司于2012年正式提出。知识图谱是由一系列节点和边组成的语义网络图。通过描述实体之间的关系,可将本领域内的多源异构知识进行语义融合。因此,知识图谱为互联网时代海量、异构、动态的大数据表达、组织、管理与利用提供了一种新的有效途径,提升了领域知识管理的智能化水平。目前,知识图谱已在智能搜索、自动问答、信息推荐等领域得到了较为广泛的应用。
近年来,随着商业化育种技术与进程的不断发展,如何对农作物品种数据进行有效地管理已成为一个亟待解决的基础性问题。农作物品种管理的涉及业务,主要包括:品种区域试验、品种审定、品种登记、品种保护、品种推广、种子生产经营、种子进出口等业务。由于其涉及的业务种类和数据来源渠道较多,导致其数据呈现出分散化、种类多、连贯性差等特征。通过构建农作物品种知识图谱,可以将多源异构品种信息与可视语义网络进行关联,并以图的形式直观清晰地展示错综复杂的品种信息。如何基于知识图谱推理从多源异构品种数据中挖掘有价值的信息,已成为当前研究的热点。然而,传统完全依赖人工的知识图谱构建方法,耗时耗力。因此,在知识图谱构建过程中,如何降低人工参与度和提升自动化构建水平,已成为种业信息化进程中一个亟待解决的关键问题。
发明内容
针对现有技术存在的问题,本发明提供一种面向农作物品种管理的知识图谱构建方法及装置。
本发明提供一种面向农作物品种管理的知识图谱构建方法,包括:根据农作物品种管理的主题词词典构建农作物品种管理的领域本体;根据所述领域本体,利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据,并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取;对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引;通过知识推理对所述三元组进行扩充;根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面;其中,若满足预设更新条件,则重复上述获取对应的农作物品种管理数据,直至为每一用户生成不同的知识图谱数据展示界面的过程。
根据本发明提供的一种面向农作物品种管理的知识图谱构建方法,根据所述领域本体,利用主题爬虫从多个数据源获取对应的农作物品种管理数据,包括:确定初始统一资源定位符URL地址列表;利用网页排名PageRank算法计算所述URL地址列表中所有URL的综合得分值,按综合得分值由大到小顺序对所述URL地址列表中所有URL进行排序;从所述URL地址列表中取出综合得分值最大的URL,并下载URL综合得分值最大的当前网页,并将当前网页URL移出所述URL地址列表,加入到已访问地址集合中;计算当前网页与所述领域本体中农作物品种管理主题词的相关性;若相关性值高于预设阈值,则将当前网页预处理后进行存储,以用于获取对应的农作物品种管理数据,否则将当前网页丢弃;利用正则表达式,抽取当前网页中的所有URL,得到当前网页URL集合,剔除当前网页URL集合中在已访问地址集合中存在的URL后,将当前网页URL集合中所有的URL加入到所述URL地址列表中;重复上述计算所述URL地址列表中所有URL的综合得分值,至将当前网页URL集合中所有的URL加入到URL地址列表中的过程,直至URL地址列表中的元素为空。
根据本发明提供的一种面向农作物品种管理的知识图谱构建方法,所述计算当前网页与所述领域本体中农作物品种管理主题词的相关性,包括:基于XPath或正则表达式对当前网页中的HTML标签进行解析,获取当前网页的文档对象DOM树或渲染树;根据当前网页结构树中的可见标签元素,对当前网页进行分块处理,得到当前网页的页面分块;从页面的底层最小分块开始,按照预设的合并层级和分块的标签类型,逐渐对页面分块进行合并,得到待识别分块;根据待识别分块的宽度、高度、字体格式、在网页中位置和规则模板,识别网页主体内容块;利用正则表达式,分别抽取所述主体内容块以及标题标签、关键词标签和描述标签中的文本,经文本预处理后,分别提取所述文本的特征词;基于文本向量模型,将当前网页表示为所述特征词构成的向量A,将农作物品种管理的主题词表示为向量T;计算向量A和向量T之间夹角的余弦值,得到当前网页与农作物品种管理主题词的相关性值。
根据本发明提供的一种面向农作物品种管理的知识图谱构建方法,所述计算向量A和向量T之间夹角的余弦值,包括结合每一特征词的权重计算向量A和向量T之间夹角的余弦值,所述权重的计算方法包括:
Figure 862439DEST_PATH_IMAGE001
Figure 137563DEST_PATH_IMAGE002
其中,
Figure 249875DEST_PATH_IMAGE003
为第
Figure 585042DEST_PATH_IMAGE004
个网页文档中第
Figure 782805DEST_PATH_IMAGE005
个特征词的权重;
Figure 360154DEST_PATH_IMAGE006
为第
Figure 326973DEST_PATH_IMAGE007
个网页文档,
Figure 833041DEST_PATH_IMAGE008
为特征词
Figure 518100DEST_PATH_IMAGE009
在文档
Figure 135026DEST_PATH_IMAGE010
中的加权频率,
Figure 221931DEST_PATH_IMAGE011
为特征词
Figure 898900DEST_PATH_IMAGE012
的逆向文档 频率,
Figure 71256DEST_PATH_IMAGE013
为归一化常量,
Figure 491873DEST_PATH_IMAGE014
为当前网页的逻辑分块数,
Figure 433284DEST_PATH_IMAGE015
为特征词
Figure 281154DEST_PATH_IMAGE016
在文档
Figure 940805DEST_PATH_IMAGE017
的 第
Figure 899534DEST_PATH_IMAGE018
个文本块中实际出现的次数,
Figure 961031DEST_PATH_IMAGE019
为第
Figure 714224DEST_PATH_IMAGE020
个文本块的位置权重,
Figure 861171DEST_PATH_IMAGE021
为文档
Figure 122126DEST_PATH_IMAGE022
中第
Figure 38129DEST_PATH_IMAGE020
个文本块的文本长度,
Figure 227802DEST_PATH_IMAGE023
为网页集合中包含特征词
Figure 596467DEST_PATH_IMAGE024
的网页数,
Figure 896998DEST_PATH_IMAGE025
为网页的数量。
根据本发明提供的一种面向农作物品种管理的知识图谱构建方法,对所述品种管理数据进行知识抽取,包括:对于结构化数据,根据数据库的实体关系图,将数据表中字段之间的关系映射为三元组;对于半结构化数据,采用规则模板或基于包装器归纳法,进行实体抽取、属性抽取和关系抽取;对于非结构化数据,采用基于规则或/和基于机器学习的方法进行实体抽取、属性抽取、关系抽取和事件抽取。
根据本发明提供的一种面向农作物品种管理的知识图谱构建方法,所述对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引,包括:将抽取的知识表示为三元组(S, P, O),其中S的取值为实体、事件或概念中的任何一个,P的取值为关系或属性,O的取值为实体、事件、概念或普通的值;对三元组中的三个元素进行排列,得到六种不同排列方式,分别为所述不同排列方式,建立B+树索引或哈希索引。
根据本发明提供的一种面向农作物品种管理的知识图谱构建方法,所述根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的数据展示界面,包括:按业务主题,对农作物品种管理领域涉及的所有业务进行分类,根据用户选择类别或随机指定若干种业务,作为最感兴趣的业务主题;根据用户最感兴趣的业务主题,生成若干个关键词发送到用户界面,并接收用户选择的关键词作为用户的兴趣特征标签;获取用户使用搜索引擎或浏览指定网站时输入的关键词,确定用户的输入行为特征标签;获取用户在指定网站上浏览页面的时间,对浏览时间进行标准化处理后,得到浏览时间系数,对浏览时间系数大于预设阈值的页面进行解析,提取页面的关键词,以确定用户的浏览行为特征标签;选择用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签中综合评分最高的若干个关键词与三元组中的实体名称进行匹配,将匹配成功前若干个实体作为图谱中的初始中心节点,可视化展示初始中心节点的属性以及所述中心节点与其他实体之间的关系,并将初始中心节点在页面中放大显示;
其中,所述浏览时间系数的计算公式包括:
Figure 933087DEST_PATH_IMAGE026
其中,
Figure 293661DEST_PATH_IMAGE027
为用户相对浏览速度的权重系数,
Figure 149622DEST_PATH_IMAGE028
为区间
Figure 253844DEST_PATH_IMAGE029
内的常数,
Figure 144440DEST_PATH_IMAGE030
为实际浏 览时间,
Figure 675915DEST_PATH_IMAGE031
为页面中的正文长度;
其中,所述综合评分的计算公式包括:
Figure 19172DEST_PATH_IMAGE032
其中,
Figure 661506DEST_PATH_IMAGE033
表示第
Figure 406608DEST_PATH_IMAGE020
类标签的得分对应的权重,
Figure 108985DEST_PATH_IMAGE034
表示第
Figure 939537DEST_PATH_IMAGE035
个关键词第
Figure 884097DEST_PATH_IMAGE018
类标签中 的得分,
Figure 483706DEST_PATH_IMAGE036
分别对应兴趣标签、输入标签和浏览标签。
根据本发明提供的一种面向农作物品种管理的知识图谱构建方法,所述对所述品种管理数据进行知识抽取,包括:基于标注语料训练后的BERT模型,确定所述品种管理数据语料中每个字的语义表示,得到包含上下文信息的字向量;将所述字向量输入到训练后的双向长短时记忆神经网络,得到每个字的双向编码;利用条件随机场模型对所述双向编码进行解码,得到概率最大标签序列,对所述序列中的各个实体进行提取分类;其中,条件随机场模型包括:
Figure 356984DEST_PATH_IMAGE037
其中,
Figure 674833DEST_PATH_IMAGE038
为输出标记序列
Figure 924549DEST_PATH_IMAGE039
的第
Figure 378664DEST_PATH_IMAGE040
个特征在位置
Figure 422843DEST_PATH_IMAGE041
Figure 227988DEST_PATH_IMAGE042
之间 的转移特征函数,
Figure 15815DEST_PATH_IMAGE043
为特征函数
Figure 855596DEST_PATH_IMAGE044
的权重,
Figure 70676DEST_PATH_IMAGE045
为第
Figure 363117DEST_PATH_IMAGE046
位置 的状态特征函数,
Figure 423477DEST_PATH_IMAGE047
为特征函数
Figure 852184DEST_PATH_IMAGE048
的权重,
Figure 769325DEST_PATH_IMAGE049
为输入观察序列
Figure 283483DEST_PATH_IMAGE050
的值,
Figure 413113DEST_PATH_IMAGE051
为输出标记序列
Figure 460441DEST_PATH_IMAGE052
在第
Figure 17324DEST_PATH_IMAGE053
位置上的取值,
Figure 18778DEST_PATH_IMAGE054
为输出标记序列
Figure 952099DEST_PATH_IMAGE039
在第
Figure 355399DEST_PATH_IMAGE004
位置上的取值,
Figure 83183DEST_PATH_IMAGE055
为输出标记序列
Figure 571934DEST_PATH_IMAGE052
的特征数。
本发明还提供一种面向农作物品种管理的知识图谱构建装置,包括:本体构建模块,用于根据农作物品种管理的主题词词典构建农作物品种管理的领域本体;知识抽取模块,用于根据所述领域本体,利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据,并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取;数据表示模块,用于对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引;知识扩充模块,用于通过知识推理对所述三元组进行扩充;数据展示模块,用于根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面;其中,若满足预设更新条件,所述装置还用于则重复上述获取对应的农作物品种管理数据,直至为每一用户生成不同的知识图谱数据展示界面的过程。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向农作物品种管理的知识图谱构建方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向农作物品种管理的知识图谱构建方法。
本发明提供的面向农作物品种管理的知识图谱构建方法及装置,可从多种信息渠道获取农作物品种管理数据,自动完成作物品种知识的抽取、表示、推理和存储,支持个性化展示图谱数据,为农作物品种管理提供了一个更直观和便捷的知识组织、管理和展现方式。该方法降低了知识图谱构建过程中的人工参与程度,提升了其自动化构建水平,有助于解决农作物品种管理知识图谱构建过程中普遍存在的效率低、自动化程度低、可拓展性差等问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的面向农作物品种管理的知识图谱构建方法的流程示意图;
图2是本发明提供的面向农作物品种管理的知识图谱构建装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的面向农作物品种管理的知识图谱构建方法及装置。图1是本发明提供的面向农作物品种管理的知识图谱构建方法的流程示意图,如图1所示,本发明提供面向农作物品种管理的知识图谱构建方法,包括:
S1、根据农作物品种管理的主题词词典构建农作物品种管理的领域本体。
其中,所述主题词词典包括:品种名称词典、性状名称词典、育种企业名称词典、生态区组名称词典、审定编号/登记编号词典、检测机构名称词典、常用关键词词典,可预先构建。
可选地,还包括结合专家知识构建面向农作物品种管理的领域本体。
S2、根据所述领域本体,利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据,并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取。
其中,所述数据接口包括Web服务接口、RPC调用接口、专用API接口和数据导入接口中至少一个,数据交换格式包括普通文本、XML和JSON中至少一种。
农作物品种管理信息的主要来源渠道包括:全国及各地的品种区域试验系统、品种区域试验报告、中国种业大数据平台、各级政府部门网站、专业网站、社交媒体;农作物品种信息,包括:品种区域试验信息、品种审定信息、品种登记信息、品种保护信息、品种推广信息、种子生产经营信息、种子进出口信息、行政处罚信息、司法判决信息、网络舆情信息。
在实际应用中,为全面获取农作物品种管理信息,可综合采用多种技术手段从多个渠道获取数据,相关技术手段包括:调用专用数据接口、利用主题爬虫软件、数据文件导入等。其中,知识抽取包括:实体抽取、属性抽取、关系抽取、事件抽取和实体连接。
获取对应的农作物品种管理数据之后,还包括对所获取到的数据进行数据清洗、预处理、中英文语义转换与关联。
实体抽取,又称为命名实体识别,是指从文本中识别出具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。本发明实施例中的实体,主要包括:品种名称、作物名称、性状名称、育种者、申请者、培育者、品种权人、审定单位、推广单位、生产经营许可证、发证机关、种子质量检测机构、种子承储企业、种子出口单位、种子供种单位、省份、进口/出口国家。
关系抽取,是指提取出实体之间的关联关系,通过关系将实体(概念)联系起来。本发明实施例中的实体关系,主要包括:品种与育种者之间的关系,品种与申请者者之间的关系、品种与培育者之间的关系、品种与品种权人之间的关系、品种与审定单位之间的关系、品种与检测机构之间的关系、品种与推广单位之间的关系、品种与种子承储企业之间的关系、品种与进出口单位之间的关系、品种与进出口国家之间的关系、品种与相关省份之间的隶属关系、推广单位与育种者之间的关系、推广单位与品种权人之间的关系、生产经营许可证与作物、生产企业、发证机构、副证等之间的关系、品种与司法判决案例之间的关系等。
属性抽取,是指是从数据中识别出特定实体的属性信息,类似于关系抽取。本发明实施例中的属性,主要包括:品种的产量性状(亩产、比对照增产率、穗重、粒重等)、生物学性状(生育期、感光性、感温性等)、农艺性状(株高、穗长、千粒重、结实率等)、品种审定详情(审定编号、审定年份、品种来源、特征特性、栽培技术要点、产量表现、审定意见等)、品种生产经营详情(许可证编号、生产经营范围、发证日期、有效期限、生产经营方式、有效区域等)、品种推广详情(地区、年份、推广面积等)、种子储备详情(储备年份、储备级别、所在省份、作物种类、承储企业、储备量等)等。
事件抽取,是指从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。例如:通过事件抽取,把与某品种相关的新闻报道、政府通告、社交媒体舆情等有机地串联起来。
实体连接,是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其操作思路是,首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
S3、对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引。
对抽取出的知识采用三元组进行表示之前,还包括对抽取出的知识进行验证,验证通过后,采用三元组形式进行知识表示。
通常,三元组具体的展现情形为:(实体,关系,实体)、(实体,属性,属性值)、(实体,关系,事件)、(事件,关系,事件)。例如:玉米品种“郑单958”的“株高”为240厘米,可以用三元组表示为:(郑单958,株高,240厘米),其中郑单958为实体,株高为属性(性状),240厘米为属性值。
在对三元组建立复合索引之前,还包括:对语义内容重复的三元组进行去重合并。所述建立复合索引的方法,包括:对三元组中的三个元素进行排列,得到六种排列方式,分别为:SPO、SOP、PSO、POS、OSP、OPS;分别为上述六种排列方式,建立B+树索引或哈希索引。
S4、通过知识推理对所述三元组进行扩充;
通过知识推理对现有三元组进行扩充,包括:基于确定性逻辑推理和/或概率推理技术进行三元组分类和链接预测,以实现知识补全。
其中,基于概率推理技术进行三元组分类和链接预测的方法,包括:基于有向图的贝叶斯网络、基于无向图的马尔科夫网络、马尔科夫逻辑网模型、基于关联规则的频繁项挖掘、基于深度学习的实体关系预测中的至少一种。
S5、根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面。
即基于三元组数据集、用户兴趣、用户输入行为和浏览行为特征,分别为每一用户绘制个性化的数据展示界面,即生成面向农作物品种管理的知识图谱。用户兴趣特征、用户输入行为特征和浏览行为特征,分别可以为用户选取的关键词、用户通过搜索引擎输入的关键词和用户浏览网页的关键词。
其中,若满足预设更新条件,则重复上述获取对应的农作物品种管理数据,直至为每一用户生成不同的知识图谱数据展示界面的过程。
具体而言,为每一用户生成不同的数据展示界面之后,还包括重复S2-S5的方法基于增量数据对知识图谱进行更新。
基于增量数据对知识图谱进行更新,以下情况可触发更新操作,即预设更新条件可以为以下任意一种:
(1)根据预先设定的时间间隔,定期基于增量数据对知识图谱进行更新;例如:可每隔3天、5天、10天、1个月更新一次知识图谱。
(2)根据预先设定的增量数据的大小,及时对知识图谱进行更新;例如:每当增量数据大于500M时,将触发更新操作。
(3)基于新获取的增量数据,实时对知识图谱进行更新。
在实际应用中,为了提高系统的运行效率,可以综合考虑时间间隔长短和增量数据大小,设定具体的更新规则。例如:当时间间隔大于5天或增量数据大于500M时,将启动知识图谱的更新动作。
本发明的农作物品种管理的知识图谱构建方法,可从多种信息渠道获取农作物品种管理数据,自动完成作物品种知识的抽取、表示、推理和存储,支持个性化展示图谱数据,为农作物品种管理提供了一个更直观和便捷的知识组织、管理和展现方式。该方法降低了知识图谱构建过程中的人工参与程度,提升了其自动化构建水平,有助于解决农作物品种管理知识图谱构建过程中普遍存在的效率低、自动化程度低、可拓展性差等问题。
在一个实施例中,根据所述领域本体,利用主题爬虫从多个数据源获取对应的农作物品种管理数据,包括:
S21:确定初始URL地址列表
Figure 43366DEST_PATH_IMAGE056
S22:利用PageRank算法计算
Figure 301172DEST_PATH_IMAGE057
中所有URL的综合得分值,即 PR值,按PR值由大到小顺序对
Figure 465437DEST_PATH_IMAGE058
中所有URL进行排序;
S23:从
Figure 441484DEST_PATH_IMAGE059
中取出综合得分值最大的URL,利用爬虫下载URL综 合得分值最大的当前网页,并将当前网页URL移出所述URL地址列表
Figure 451028DEST_PATH_IMAGE060
, 加入到已访问地址集合
Figure 828920DEST_PATH_IMAGE061
中;
S24:计算当前网页与农作物品种管理主题的相关性;若相关性值高于指定阈值,则将当前网页预处理后进行存储,如存储到本地服务器,以及建立组合索引,否则将当前网页丢弃;
S25:利用正则表达式,抽取当前网页中的所有URL,得到该当前网页的URL集合
Figure 898507DEST_PATH_IMAGE062
,剔除集合
Figure 361849DEST_PATH_IMAGE062
中的已在集合
Figure 175084DEST_PATH_IMAGE063
中存在的URL,然后将集合
Figure 673062DEST_PATH_IMAGE064
中 所有的URL加入到
Figure 412085DEST_PATH_IMAGE065
中;
S26:重复步骤S22-S25,直至
Figure 362724DEST_PATH_IMAGE066
中的元素为空。
在一个实施例中,所述计算当前网页与所述领域本体中农作物品种管理主题词的相关性,包括:基于DOM模型或渲染树模型解析当前网页,识别出当前网页中的主体内容块;利用正则表达式,分别抽取主体内容块中以及标题标签、关键词标签和描述标签(<title>、<meta name=”keywords”>、<meta name=”description”>标签)中的文本,经文本预处理后,分别提取所述文本的特征词;基于文本向量模型,将当前网页表示为由所述特征词构成的向量A,将农作物品种管理的主题词表示为向量T;计算向量A和向量T之间夹角的余弦值,得到当前网页与农作物品种管理主题词的相关性值。
其中,基于DOM模型或渲染树模型解析当前网页,识别出当前网页中的主体内容块,包括:使用XPath或正则表达式对网页中的HTML标签进行解析,获取该网页的结构树,即DOM(Document Object Model)树或渲染树,根据网页结构树中的可见标签元素,对网页进行分块处理,得到网页的页面分块;从页面的底层最小分块开始,按照预设的合并层级和分块的标签类型,逐渐对页面分块进行合并,得到待识别分块;根据待识别分块的宽度、高度、字体格式、在网页中位置和规则模板,完成网页主体内容块的识别。
在实际应用中,以下逻辑均可综合用于判断待识别分块是否合理,包括:待识别分块的位置是否在网页的中部或左中部或右中部、待识别分块的宽度占页面的比例、待识别分块的高度是否大于指定阈值、待识别分块的字体大小或字体样式是否与正文字号相同、待识别分块的结构是否与常用的正文模板匹配等判断逻辑中的至少一种。
在一个实施例中,所述计算向量A和向量T之间夹角的余弦值,包括结合每一特征词的权重计算向量A和向量T之间夹角的余弦值,所述权重的计算方法包括:
Figure 979650DEST_PATH_IMAGE067
Figure 800976DEST_PATH_IMAGE068
其中,
Figure 477944DEST_PATH_IMAGE069
为第
Figure 650300DEST_PATH_IMAGE070
个网页文档中第
Figure 70917DEST_PATH_IMAGE005
个特征词的权重;
Figure 277907DEST_PATH_IMAGE071
为第
Figure 125778DEST_PATH_IMAGE072
个网页文档,
Figure 785429DEST_PATH_IMAGE073
为特征词
Figure 744158DEST_PATH_IMAGE024
在文档
Figure 540075DEST_PATH_IMAGE006
中的加权频率,
Figure 558847DEST_PATH_IMAGE074
为特征词
Figure 705795DEST_PATH_IMAGE075
的逆向文档频 率,
Figure 468214DEST_PATH_IMAGE076
为归一化常量,
Figure 384218DEST_PATH_IMAGE077
为当前网页的逻辑分块数,
Figure 818565DEST_PATH_IMAGE078
为特征词
Figure 452809DEST_PATH_IMAGE012
在文档
Figure 753340DEST_PATH_IMAGE079
的第
Figure 789429DEST_PATH_IMAGE080
个文本块中实际出现的次数,
Figure 884424DEST_PATH_IMAGE081
为第
Figure 5964DEST_PATH_IMAGE082
个文本块的位置权重,
Figure 110186DEST_PATH_IMAGE083
为文档
Figure 735203DEST_PATH_IMAGE022
中第
Figure 266678DEST_PATH_IMAGE082
个 文本块的文本长度,
Figure 609935DEST_PATH_IMAGE084
为网页集合中包含特征词
Figure 783427DEST_PATH_IMAGE024
的网页数,
Figure 528529DEST_PATH_IMAGE085
为网页的数量。
具体地,可使用信息增益法(Information Gain,IG)、文档频率法(Document Frequency, DF)、卡方校验法(CHI)、互信息法(Mutual Information, MI)等方法选取文本 特征,然后利用改进的TF-IDF模型将每个网页表示成由所述特征词构成的向量,记为
Figure 230906DEST_PATH_IMAGE086
。由于网页中不同位置的文本,在一定程度上反映了其信 息的重要程度。因此,在计算向量值时,本实施例考虑了特征词在文档中的位置(如<title> 标签、<meta>标签、主体内容块等),并将每个网页在逻辑上划分为若干种不同类型的文本 块。令特征词集合为
Figure 61459DEST_PATH_IMAGE087
,网页集合为
Figure 507484DEST_PATH_IMAGE088
,第
Figure 107092DEST_PATH_IMAGE089
个网页的特征向量为
Figure 980370DEST_PATH_IMAGE090
。其中,
Figure 796754DEST_PATH_IMAGE091
为特征词
Figure 780891DEST_PATH_IMAGE016
在文档
Figure 500585DEST_PATH_IMAGE092
中的权重值,权重计算公式如上式。
在一个实施例中,对所述品种管理数据进行知识抽取,包括:对于结构化数据,根据数据库的实体关系图,将数据表中字段之间的关系映射为三元组;对于半结构化数据,采用规则模板或基于包装器归纳法,进行实体抽取、属性抽取和关系抽取;对于非结构化数据,采用基于规则或/和基于机器学习的方法进行实体抽取、属性抽取、关系抽取和事件抽取。
具体地,可使用D2RQ Engine工具和自定义的D2RQ Mapping 文件将关系型数据库中的数据换成RDF文件,进而转换为三元组。
其中,基于机器学习的方法包括:卷积神经网络、循环神经网络、条件随机场、支持向量机、隐马尔可夫模型、决策树中的至少一种。
优选地,为了提高信息抽取的准确率和性能,在实际应用中需要综合运用多种方法从非结构化文本中进行知识抽取。基于机器学习的 实体识别的主要思路为:利用预先标注好的语料训练模型,使模型学习到某个字或词作为命名实体组成部分的概率,进而计算一个候选字段作为命名实体的概率值。若大于某一阈值,则识别为命名实体。在实际应用中,既可以预先选取一系列的特征并利用传统的机器学习模型进行实体抽取,也可以利用各种不同结构的神经网络自动捕获特征而进行实体抽取。
具体地,在实体抽取时,需要首先将输入文本中的每个字可能对应的标注标签集 合定义为
Figure 544765DEST_PATH_IMAGE093
Figure 349910DEST_PATH_IMAGE094
(Begin)表示一个命名实体的开始位置,
Figure 137737DEST_PATH_IMAGE095
(Internal)表示一个命 名实体的中间部分,
Figure 711938DEST_PATH_IMAGE096
(Other)表示句子中的非命名实体部分。此外,可以为某些类型的命 名实体加上相应的标签。例如:品种名(VTY)、地名(LOC)、性状名(TRT)、组织机构名(ORG)、 省份名(PROV)、国家名(CTY)。
在一个实施例中,所述对所述品种管理数据进行知识抽取,包括:基于标注语料训练后的BERT模型,确定所述品种管理数据语料中每个字的语义表示,得到包含上下文信息的字向量;将所述字向量输入到训练后的双向长短时记忆神经网络,得到每个字的双向编码;利用条件随机场模型对所述双向编码进行解码,得到概率最大标签序列,对所述序列中的各个实体进行提取分类。
具体地,可以构建机器学习与规则相结合的方法进行农作物品种管理领域的实体抽取,具体步骤包括:
(1)利用BERT(Bidirectional Encoder Representations from Transformers)模型对标注语料进行特征提取,获得输入语料中每个字的语义表示,得到包含上下文信息的字向量;
(2)将字向量输入到双向长短时记忆神经网络中进一步处理,以获得更多的语义信息,得到每个字的双向编码;
(3)利用条件随机场模型对上一步的输出结果进行解码,输出概率最大标签序列,对序列中的各个实体进行提取分类;其中,条件随机场模型可以表示为:
Figure 927019DEST_PATH_IMAGE097
其中,
Figure 953880DEST_PATH_IMAGE098
为输出标记序列
Figure 545399DEST_PATH_IMAGE039
的第
Figure 974106DEST_PATH_IMAGE099
个特征在位置
Figure 563350DEST_PATH_IMAGE100
Figure 343087DEST_PATH_IMAGE101
之间的 转移特征函数,
Figure 971253DEST_PATH_IMAGE102
为特征函数
Figure 254466DEST_PATH_IMAGE103
的权重,
Figure 76929DEST_PATH_IMAGE104
为第
Figure 78383DEST_PATH_IMAGE105
位置的状 态特征函数,
Figure 11704DEST_PATH_IMAGE106
为特征函数
Figure 149424DEST_PATH_IMAGE107
的权重,
Figure 142788DEST_PATH_IMAGE108
为输入观察序列
Figure 631538DEST_PATH_IMAGE109
的值,
Figure 368550DEST_PATH_IMAGE110
为输出 标记序列
Figure 626356DEST_PATH_IMAGE052
在第
Figure 790621DEST_PATH_IMAGE111
位置上的取值,
Figure 501088DEST_PATH_IMAGE112
为输出标记序列
Figure 776212DEST_PATH_IMAGE039
在第
Figure 154103DEST_PATH_IMAGE113
位置上的取值,
Figure 223691DEST_PATH_IMAGE114
为输出 标记序列
Figure 687033DEST_PATH_IMAGE052
的特征数。
(4)还可基于未识别实体样本的特点和上下文特征,设计抽取规则,利用已设计的规则,对未识别出的实体进行二次识别。
在一个实施例中,所述对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引,包括:将抽取的知识表示为三元组(S, P, O),其中S的取值为实体、事件或概念中的任何一个,P的取值为关系或属性,O的取值为实体、事件、概念或普通的值;对三元组中的三个元素进行排列,得到不同排列方式;分别为所述不同排列方式,建立B+树索引或哈希索引。其中,六种排列方式为:SPO、SOP、PSO、POS、OSP、OPS。上述实施例已举例说明,此处不再赘述。
在一个实施例中,所述根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述六重复合索引查找三元组数据集,为每一用户生成不同的数据展示界面,包括:按业务主题,对农作物品种管理领域涉及的所有业务进行分类,根据用户选择类别或随机指定若干种业务,作为最感兴趣的业务主题;根据用户最感兴趣的业务主题,生成若干个关键词发送到用户界面,并接收用户选择的关键词作为用户的兴趣特征标签;获取用户使用搜索引擎或浏览指定网站时输入的关键词,确定用户的输入行为特征标签;获取用户在指定网站上浏览页面的时间,对浏览时间进行标准化处理后,得到浏览时间系数,对浏览时间系数大于预设阈值的页面进行解析,提取页面的关键词,以确定用户的浏览行为特征标签;选择用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签中综合评分最高的若干个关键词与三元组中的实体名称进行匹配,将匹配成功前若干个实体作为图谱中的初始中心节点,可视化展示初始中心节点的属性以及所述中心节点与其他实体之间的关系,并将初始中心节点在页面中放大显示。
在一个实施例中,上述浏览时间系数的计算公式包括:
Figure 500268DEST_PATH_IMAGE115
其中,
Figure 231202DEST_PATH_IMAGE116
为用户相对浏览速度的权重系数,
Figure 471690DEST_PATH_IMAGE117
为区间
Figure 422329DEST_PATH_IMAGE118
内的常数,
Figure 39255DEST_PATH_IMAGE119
为实际浏 览时间,
Figure 126159DEST_PATH_IMAGE120
为页面中的正文长度;
在一个实施例中,对用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签中的每一关键词进行综合评分的计算方法包括:
Figure 803128DEST_PATH_IMAGE121
其中,
Figure 975484DEST_PATH_IMAGE122
表示第
Figure 130522DEST_PATH_IMAGE123
类标签的得分对应的权重,
Figure 337512DEST_PATH_IMAGE124
表示第
Figure 919803DEST_PATH_IMAGE101
个关键词第
Figure 579454DEST_PATH_IMAGE125
类标签中 的得分,
Figure 803762DEST_PATH_IMAGE126
分别对应用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标 签;优选地,
Figure 599680DEST_PATH_IMAGE127
的值可分别设为0.5、0.25、0.25;
优选地,
Figure 884031DEST_PATH_IMAGE128
的计算方法为:若第
Figure 30979DEST_PATH_IMAGE089
个关键词出现在用户兴趣特征标签中,则其值 为:
Figure 527819DEST_PATH_IMAGE129
;否则,其值为0。其中,
Figure 443822DEST_PATH_IMAGE130
为用户兴趣特征标签中的关键词个数。
优选地,
Figure 132030DEST_PATH_IMAGE131
的计算方法为:若第
Figure 766274DEST_PATH_IMAGE035
个关键词出现在用户输入行为特征标签中,则 其值为:
Figure 66805DEST_PATH_IMAGE132
;否则,其值为0。其中,
Figure 837315DEST_PATH_IMAGE133
为用户输入行为特征标签中 的关键词个数,
Figure 197889DEST_PATH_IMAGE134
为一定时间段内第
Figure 319429DEST_PATH_IMAGE135
个关键词的输入次数。
优选地,
Figure 158072DEST_PATH_IMAGE136
的计算方法为:若第
Figure 48668DEST_PATH_IMAGE004
个关键词出现在浏览行为特征标签中,则其值 为:
Figure 580143DEST_PATH_IMAGE137
;否则,其值为0。其中,
Figure 923400DEST_PATH_IMAGE138
为浏览行为特征标签中的关键词 个数,
Figure 831313DEST_PATH_IMAGE139
为一定时间段内第
Figure 576415DEST_PATH_IMAGE140
个关键词的浏览时间系数。
上述农作物品种管理的主题词词典构建时,农作物品种管理涉及的字段包括如下:
品种名称、作物名称、审定编号、审定年份、审定单位、申请者、育种者、品种来源、特征特性、栽培技术要点、产量表现、审定意见、是否转基因、是否撤销、引种备案(省内、省外)。
适宜种植区域及季节、注意事项(优点、缺陷、风险及预防措施);
申请日、申请公告日。
生产经营许可(许可证详情)。
品种推广详情(作物名称、品种名称、地区、年份、面积-万亩、企业名称、品种权详情、生产经营备案)。
品种权-作物名称、品种名称、申请号、申请日、申请人、申请状态、申请公告日、授权号、授权日、公告号、品种权人、品种权地址。
生产经营许可证:许可证编号、申请企业、作物名称、生产经营范围(大豆、南瓜、西葫芦、绿豆、赤豆种子)、发证机关、发证日期、有效期至、主证、副证;生产经营方式、有效区域、统一社会信用代码。
种子储备查询:年份、级别、省份、作物种类、品种名称、品种权详情、承储企业、储备量(万公斤);
种子质量检测机构:机构名称、所属地区、省内序号、机构地址、检验项目范围、最后更新时间、联系电话、备注。
种子进口查询:审批单编号、申请单位、作物名称、品种名称、供种单位、进口国家、用途、申请日期。
种子出口查询:审批单编号、申请单位、作物名称、品种名称、出口单位、出口国家、用途、申请日期。
行政处罚、司法判决。
下面对本发明提供的面向农作物品种管理的知识图谱构建装置进行描述,下文描述的面向农作物品种管理的知识图谱构建装置与上文描述的面向农作物品种管理的知识图谱构建方法可相互对应参照。
图2是本发明提供的面向农作物品种管理的知识图谱构建装置的结构示意图,如图2所示,该面向农作物品种管理的知识图谱构建装置包括:本体构建模块201、知识抽取模块202、数据表示模块203、知识扩充模块204和数据展示模块205。其中,本体构建模块201用于根据农作物品种管理的主题词词典构建农作物品种管理的领域本体;知识抽取模块202用于根据所述领域本体,利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据,并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取;数据表示模块203用于对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引;知识扩充模块204用于通过知识推理对所述三元组进行扩充;数据展示模块205用于根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述六重复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面;其中,若满足预设更新条件,则重复上述获取对应的农作物品种管理数据,直至为每一用户生成不同的知识图谱数据展示界面的过程。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例所提供的面向农作物品种管理的知识图谱构建装置,其实现原理及产生的技术效果和前述面向农作物品种管理的知识图谱构建方法实施例相同,为简要描述,面向农作物品种管理的知识图谱构建装置实施例部分未提及之处,可参考前述面向农作物品种管理的知识图谱构建方法实施例中相应内容。
图3是本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行面向农作物品种管理的知识图谱构建方法,该方法包括:根据农作物品种管理的主题词词典构建农作物品种管理的领域本体;根据所述领域本体,利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据,并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取;对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引;通过知识推理对所述三元组进行扩充;根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面;其中,若满足预设更新条件,则重复上述获取对应的农作物品种管理数据,直至为每一用户生成不同的知识图谱数据展示界面的过程。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的面向农作物品种管理的知识图谱构建方法,该方法包括:根据农作物品种管理的主题词词典构建农作物品种管理的领域本体;根据所述领域本体,利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据,并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取;对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引;通过知识推理对所述三元组进行扩充;根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面;其中,若满足预设更新条件,则重复上述获取对应的农作物品种管理数据,直至为每一用户生成不同的知识图谱数据展示界面的过程。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种面向农作物品种管理的知识图谱构建方法,其特征在于,包括:
根据农作物品种管理的主题词词典构建农作物品种管理的领域本体;
根据所述领域本体,利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据,并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取;
对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引;
通过知识推理对所述三元组进行扩充;
根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面;
其中,若满足预设更新条件,则重复上述获取对应的农作物品种管理数据,直至为每一用户生成不同的知识图谱数据展示界面的过程。
2.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法,其特征在于,根据所述领域本体,利用主题爬虫从多个数据源获取对应的农作物品种管理数据,包括:
确定初始统一资源定位符URL地址列表;
利用网页排名PageRank算法计算所述URL地址列表中所有URL的综合得分值,按综合得分值由大到小顺序对所述URL地址列表中所有URL进行排序;
从所述URL地址列表中取出综合得分值最大的URL,并下载URL综合得分值最大的当前网页,并将当前网页URL移出所述URL地址列表,加入到已访问地址集合中;
计算当前网页与所述领域本体中农作物品种管理主题词的相关性;若相关性值高于预设阈值,则将当前网页预处理后进行存储,以用于获取对应的农作物品种管理数据,否则将当前网页丢弃;
利用正则表达式,抽取当前网页中的所有URL,得到当前网页URL集合,剔除当前网页URL集合中在已访问地址集合中存在的URL后,将当前网页URL集合中所有的URL加入到所述URL地址列表中;
重复上述计算所述URL地址列表中所有URL的综合得分值,至将当前网页URL集合中所有的URL加入到URL地址列表中的过程,直至URL地址列表中的元素为空。
3.根据权利要求2所述的面向农作物品种管理的知识图谱构建方法,其特征在于,所述计算当前网页与所述领域本体中农作物品种管理主题词的相关性,包括:
基于XPath或正则表达式对当前网页中的HTML标签进行解析,获取当前网页的文档对象DOM树或渲染树;
根据当前网页结构树中的可见标签元素,对当前网页进行分块处理,得到当前网页的页面分块;
从页面的底层最小分块开始,按照预设的合并层级和分块的标签类型,逐渐对页面分块进行合并,得到待识别分块;
根据待识别分块的宽度、高度、字体格式、在网页中位置和规则模板,识别网页主体内容块;
利用正则表达式,分别抽取所述主体内容块以及标题标签、关键词标签和描述标签中的文本,经文本预处理后,分别提取所述文本的特征词;
基于文本向量模型,将当前网页表示为所述特征词构成的向量A,将农作物品种管理的主题词表示为向量T;
计算向量A和向量T之间夹角的余弦值,得到当前网页与农作物品种管理主题词的相关性值。
4.根据权利要求3所述的面向农作物品种管理的知识图谱构建方法,其特征在于,所述计算向量A和向量T之间夹角的余弦值,包括结合每一特征词的权重计算向量A和向量T之间夹角的余弦值,所述权重的计算方法包括:
Figure 261687DEST_PATH_IMAGE001
Figure 92240DEST_PATH_IMAGE002
其中,
Figure 272685DEST_PATH_IMAGE003
为第
Figure 137873DEST_PATH_IMAGE004
个网页文档中第
Figure 11151DEST_PATH_IMAGE005
个特征词的权重,
Figure 329000DEST_PATH_IMAGE006
为第
Figure DEST_PATH_IMAGE007
个网页文档,
Figure 47557DEST_PATH_IMAGE008
为特征词
Figure 767252DEST_PATH_IMAGE009
在文档
Figure 811431DEST_PATH_IMAGE010
中的加权频率,
Figure 616576DEST_PATH_IMAGE011
为特征词
Figure 404403DEST_PATH_IMAGE012
的逆向文档频率,
Figure 978604DEST_PATH_IMAGE013
为 归一化常量,
Figure 193685DEST_PATH_IMAGE014
为当前网页的逻辑分块数,
Figure 220547DEST_PATH_IMAGE015
为特征词
Figure 310600DEST_PATH_IMAGE016
在文档
Figure 739308DEST_PATH_IMAGE017
的第
Figure 125290DEST_PATH_IMAGE018
个文本块中 实际出现的次数,
Figure 905027DEST_PATH_IMAGE019
为第
Figure 34657DEST_PATH_IMAGE018
个文本块的位置权重,
Figure 317871DEST_PATH_IMAGE020
为文档
Figure 140333DEST_PATH_IMAGE006
中第
Figure 141787DEST_PATH_IMAGE018
个文本块的文 本长度,
Figure 809529DEST_PATH_IMAGE021
为网页集合中包含特征词
Figure 212828DEST_PATH_IMAGE009
的网页数,
Figure 471771DEST_PATH_IMAGE022
为网页的数量。
5.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法,其特征在于,所述对所述品种管理数据进行知识抽取,包括:
对于结构化数据,根据数据库的实体关系图,将数据表中字段之间的关系映射为三元组;
对于半结构化数据,采用规则模板或基于包装器归纳法,进行实体抽取、属性抽取和关系抽取;
对于非结构化数据,采用基于规则或/和基于机器学习的方法进行实体抽取、属性抽取、关系抽取和事件抽取。
6.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法,其特征在于,所述对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引,包括:
将抽取的知识表示为三元组(S, P, O),其中S的取值为实体、事件或概念中的任何一个,P的取值为关系或属性,O的取值为实体、事件、概念或普通的值;
对三元组中的三个元素进行排列,得到六种不同排列方式,分别为所述不同排列方式,建立B+树索引或哈希索引。
7.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法,其特征在于,所述根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的数据展示界面,包括:
按业务主题,对农作物品种管理领域涉及的所有业务进行分类,根据用户选择类别或随机指定若干种业务,作为最感兴趣的业务主题;
根据用户最感兴趣的业务主题,生成若干个关键词发送到用户界面,并接收用户选择的关键词作为用户的兴趣特征标签;
获取用户使用搜索引擎或浏览指定网站时输入的关键词,确定用户的输入行为特征标签;
获取用户在指定网站上浏览页面的时间,对浏览时间进行标准化处理后,得到浏览时间系数,对浏览时间系数大于预设阈值的页面进行解析,提取页面的关键词,以确定用户的浏览行为特征标签;
选择用户兴趣特征标签、用户输入行为特征标签和浏览行为特征标签中综合评分最高的若干个关键词与三元组中的实体名称进行匹配,将匹配成功前若干个实体作为图谱中的初始中心节点,可视化展示初始中心节点的属性以及所述中心节点与其他实体之间的关系,并将初始中心节点在页面中放大显示;
其中,所述浏览时间系数的计算公式包括:
Figure 694942DEST_PATH_IMAGE023
其中,
Figure 431954DEST_PATH_IMAGE024
为用户相对浏览速度的权重系数,
Figure 689760DEST_PATH_IMAGE025
为区间
Figure 588446DEST_PATH_IMAGE026
内的常数,
Figure 564492DEST_PATH_IMAGE027
为实际浏览时 间,
Figure 839616DEST_PATH_IMAGE028
为页面中的正文长度;
其中,所述综合评分的计算公式包括:
Figure 450463DEST_PATH_IMAGE029
其中,
Figure 785630DEST_PATH_IMAGE030
表示第
Figure 983393DEST_PATH_IMAGE018
类标签的得分对应的权重,
Figure 796628DEST_PATH_IMAGE031
表示第
Figure 294606DEST_PATH_IMAGE032
个关键词第
Figure 269515DEST_PATH_IMAGE018
类标签中的得 分,
Figure 220153DEST_PATH_IMAGE033
分别对应兴趣标签、输入标签和浏览标签。
8.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法,其特征在于,所述对所述品种管理数据进行知识抽取,包括:
基于标注语料训练后的BERT模型,确定所述品种管理数据语料中每个字的语义表示,得到包含上下文信息的字向量;
将所述字向量输入到训练后的双向长短时记忆神经网络,得到每个字的双向编码;
利用条件随机场模型对所述双向编码进行解码,得到概率最大标签序列,对所述序列中的各个实体进行提取分类;
其中,条件随机场模型包括:
Figure 102659DEST_PATH_IMAGE034
其中,
Figure 923984DEST_PATH_IMAGE035
为输出标记序列
Figure 600953DEST_PATH_IMAGE036
的第
Figure 773309DEST_PATH_IMAGE037
个特征在位置
Figure 193926DEST_PATH_IMAGE038
Figure 869758DEST_PATH_IMAGE039
之间的转 移特征函数,
Figure 717628DEST_PATH_IMAGE040
为特征函数
Figure 642859DEST_PATH_IMAGE041
的权重,
Figure 601587DEST_PATH_IMAGE042
为第
Figure 161619DEST_PATH_IMAGE043
位置的状态 特征函数,
Figure 180391DEST_PATH_IMAGE044
为特征函数
Figure 61759DEST_PATH_IMAGE045
的权重,
Figure 824179DEST_PATH_IMAGE046
为输入观察序列
Figure 740182DEST_PATH_IMAGE047
的值,
Figure 929855DEST_PATH_IMAGE048
为输出 标记序列
Figure 564099DEST_PATH_IMAGE036
在第
Figure 864630DEST_PATH_IMAGE038
位置上的取值,
Figure 635140DEST_PATH_IMAGE049
为输出标记序列
Figure 995714DEST_PATH_IMAGE036
在第
Figure 851675DEST_PATH_IMAGE050
位置上的取值,
Figure 955897DEST_PATH_IMAGE051
为输出标 记序列
Figure 846493DEST_PATH_IMAGE036
的特征数。
9.一种面向农作物品种管理的知识图谱构建装置,其特征在于,包括:
本体构建模块,用于根据农作物品种管理的主题词词典构建农作物品种管理的领域本体;
知识抽取模块,用于根据所述领域本体,利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据,并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取;
数据表示模块,用于对抽取出的知识采用三元组进行表示,并建立对应的六重复合索引;
知识扩充模块,用于通过知识推理对所述三元组进行扩充;
数据展示模块,用于根据用户兴趣特征、用户输入行为特征和浏览行为特征,基于所述复合索引查找三元组数据集,为每一用户生成不同的知识图谱数据展示界面;
其中,若满足预设更新条件,所述装置还用于则重复上述获取对应的农作物品种管理数据,直至为每一用户生成不同的知识图谱数据展示界面的过程。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述面向农作物品种管理的知识图谱构建方法。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述面向农作物品种管理的知识图谱构建方法。
CN202210496103.6A 2022-05-09 2022-05-09 面向农作物品种管理的知识图谱构建方法及装置 Active CN114595344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210496103.6A CN114595344B (zh) 2022-05-09 2022-05-09 面向农作物品种管理的知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210496103.6A CN114595344B (zh) 2022-05-09 2022-05-09 面向农作物品种管理的知识图谱构建方法及装置

Publications (2)

Publication Number Publication Date
CN114595344A true CN114595344A (zh) 2022-06-07
CN114595344B CN114595344B (zh) 2022-07-19

Family

ID=81813324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210496103.6A Active CN114595344B (zh) 2022-05-09 2022-05-09 面向农作物品种管理的知识图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN114595344B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818720A (zh) * 2022-06-23 2022-07-29 北京惠每云科技有限公司 一种专病数据集构建方法、装置、电子设备及存储介质
CN115618021A (zh) * 2022-12-19 2023-01-17 北京市农林科学院信息技术研究中心 农作物品种适宜种植区域推荐方法及装置
CN115936114A (zh) * 2022-11-28 2023-04-07 中国科学院空天信息创新研究院 一种知识图谱构建方法、装置及存储介质
CN116089748A (zh) * 2022-11-11 2023-05-09 之江实验室 一种药物深度知识图谱渲染与更新方法、系统及装置
CN116150407A (zh) * 2023-04-24 2023-05-23 中国科学技术大学 基于种子集扩展的领域知识图谱构建方法及系统
CN116564408A (zh) * 2023-04-28 2023-08-08 上海科技大学 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质
CN117494811A (zh) * 2023-11-20 2024-02-02 南京大经中医药信息技术有限公司 中医典籍的知识图谱构建方法及系统
CN117573893A (zh) * 2024-01-15 2024-02-20 中国医学科学院医学信息研究所 一种本体构建方法、装置及计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
US20190108452A1 (en) * 2017-10-06 2019-04-11 General Electric Company System and method for knowledge management
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及系统
CN112527999A (zh) * 2020-12-22 2021-03-19 江苏省农业科学院 引入农业领域知识的抽取式智能问答方法及系统
CN113127731A (zh) * 2021-03-16 2021-07-16 西安理工大学 一种基于知识图谱的个性化试题推荐方法
CN113569050A (zh) * 2021-09-24 2021-10-29 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
US20190108452A1 (en) * 2017-10-06 2019-04-11 General Electric Company System and method for knowledge management
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及系统
CN112527999A (zh) * 2020-12-22 2021-03-19 江苏省农业科学院 引入农业领域知识的抽取式智能问答方法及系统
CN113127731A (zh) * 2021-03-16 2021-07-16 西安理工大学 一种基于知识图谱的个性化试题推荐方法
CN113569050A (zh) * 2021-09-24 2021-10-29 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张博凯 等: "基于知识图谱的Android端农技智能问答系统研究", 《农业机械学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818720A (zh) * 2022-06-23 2022-07-29 北京惠每云科技有限公司 一种专病数据集构建方法、装置、电子设备及存储介质
CN116089748A (zh) * 2022-11-11 2023-05-09 之江实验室 一种药物深度知识图谱渲染与更新方法、系统及装置
CN116089748B (zh) * 2022-11-11 2023-08-08 之江实验室 一种药物深度知识图谱渲染与更新方法、系统及装置
CN115936114A (zh) * 2022-11-28 2023-04-07 中国科学院空天信息创新研究院 一种知识图谱构建方法、装置及存储介质
CN115618021A (zh) * 2022-12-19 2023-01-17 北京市农林科学院信息技术研究中心 农作物品种适宜种植区域推荐方法及装置
CN116150407A (zh) * 2023-04-24 2023-05-23 中国科学技术大学 基于种子集扩展的领域知识图谱构建方法及系统
CN116564408A (zh) * 2023-04-28 2023-08-08 上海科技大学 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质
CN116564408B (zh) * 2023-04-28 2024-03-01 上海科技大学 基于知识图谱推理的合成致死基因对预测方法、装置、设备及介质
CN117494811A (zh) * 2023-11-20 2024-02-02 南京大经中医药信息技术有限公司 中医典籍的知识图谱构建方法及系统
CN117494811B (zh) * 2023-11-20 2024-05-28 南京大经中医药信息技术有限公司 中医典籍的知识图谱构建方法及系统
CN117573893A (zh) * 2024-01-15 2024-02-20 中国医学科学院医学信息研究所 一种本体构建方法、装置及计算机可读介质
CN117573893B (zh) * 2024-01-15 2024-04-09 中国医学科学院医学信息研究所 一种本体构建方法、装置及计算机可读介质

Also Published As

Publication number Publication date
CN114595344B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN114595344B (zh) 面向农作物品种管理的知识图谱构建方法及装置
Lerman et al. Using the structure of web sites for automatic segmentation of tables
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
CN104216913B (zh) 问题回答方法、系统和计算机可读介质
CN108182262A (zh) 基于深度学习和知识图谱的智能问答系统构建方法和系统
TWI695277B (zh) 自動化網站資料蒐集方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN102119383A (zh) 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统
CN102609512A (zh) 异构信息知识挖掘与可视化分析系统及方法
Löffler et al. Dataset search in biodiversity research: Do metadata in data repositories reflect scholarly information needs?
Abdulhayoglu et al. Use of ResearchGate and Google CSE for author name disambiguation
Zhao et al. Mining templates from search result records of search engines
CN111626568B (zh) 自然灾害领域知识库构建方法以及知识搜索方法、系统
Peters et al. Tag gardening for folksonomy enrichment and maintenance
Feldman Mining unstructured data
Armentano et al. NLP-based faceted search: Experience in the development of a science and technology search engine
Vavpetič et al. Semantic data mining of financial news articles
WO2020075062A1 (en) Method and system to perform text-based search among plurality of documents
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
CN116450776A (zh) 基于知识图谱的油气管网法律法规及技术标准检索系统
Zhu et al. Question answering on agricultural knowledge graph based on multi-label text classification
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification
Sharef et al. Text fragment extraction using incremental evolving fuzzy grammar fragments learner
Johnny et al. Key phrase extraction system for agricultural documents
Chi et al. Concepts recommendation for searching scientific papers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant