CN116975311B - 一种农业病虫害知识图谱优化方法、系统及计算机 - Google Patents
一种农业病虫害知识图谱优化方法、系统及计算机 Download PDFInfo
- Publication number
- CN116975311B CN116975311B CN202311188651.3A CN202311188651A CN116975311B CN 116975311 B CN116975311 B CN 116975311B CN 202311188651 A CN202311188651 A CN 202311188651A CN 116975311 B CN116975311 B CN 116975311B
- Authority
- CN
- China
- Prior art keywords
- node
- codes
- code
- relation
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000607479 Yersinia pestis Species 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 238000005065 mining Methods 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000009412 basement excavation Methods 0.000 claims description 87
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 241000238631 Hexapoda Species 0.000 claims description 6
- 201000010099 disease Diseases 0.000 claims description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 241000209094 Oryza Species 0.000 description 4
- 235000007164 Oryza sativa Nutrition 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 235000009566 rice Nutrition 0.000 description 4
- 238000012271 agricultural production Methods 0.000 description 3
- 241001466042 Fulgoromorpha Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000575 pesticide Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种农业病虫害知识图谱优化方法、系统及计算机,方法包括:自初始知识图谱中提取信息元素,以获取节点张量单元组及关系张量单元组;构建训练模型,通过损失函数对训练模型进行优化,以获取预测模型;自节点张量单元组内选定头节点编码,自关系张量单元组内选定第一关系编码,通过预测模型选定尾节点编码,组成第一链接;提取与第一关系编码相似的若干个第二关系编码,基于自适应相似关系挖掘于若干个第二关系编码中选定相似编码,组成第二链接;自第一链接及第二链接中确定预测链接。引入自适应相似关系挖掘的概念,有效的利用了关系间的关联性,提供了精准的预测依据,提高链接预测的可靠性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种农业病虫害知识图谱优化方法、系统及计算机。
背景技术
随着农业领域与农业技术的高速发展,农业智能信息化是目前农业领域发展的热点方向,农业智能信息化是指将信息技术应用于农业,旨在提高农业的效率、生产力和可持续性。近年来,农业信息化在传统农业中的作用越来越重要,它为解决传统农业面临的挑战和问题提供了新的方法。
知识图谱是一种用于描述和组织知识的技术,它可以将农业相关的信息和数据组织成一种结构化的形式。通过使用知识图谱,农业信息化可以更好地管理和应用农业知识,从而提高农业生产的效率和可持续性。
在农业病虫害知识图谱的应用中,其中一种知识表示方法是转换知识图谱中三元组中的节点与关系,变成便于识别、处理的低维度且稠密聚拢的张量单元,并基于张量单元完成链接预测。但其在转换节点过程中,通常会忽略节点与节点之间的关联关系,进而影响农业病虫害知识图谱链接预测的可靠性。
发明内容
本申请实施例提供了一种农业病虫害知识图谱优化方法、系统及计算机,以解决现有技术中在转换节点的过程中,因忽略了节点与节点之间的关联关系,影响农业病虫害知识图谱链接预测的可靠性的技术问题。
第一方面,本申请实施例提供了一种农业病虫害知识图谱优化方法,包括以下步骤:
自初始知识图谱中提取信息元素,对所述信息元素进行优化处理,以获取包含若干个节点编码的节点张量单元组及包含若干个关系编码的关系张量单元组;
构建训练模型,通过损失函数对所述训练模型进行优化,以获取预测模型;
自所述节点张量单元组内选定某一节点编码为头节点编码,自所述关系张量单元组内选定某一关系编码为第一关系编码,基于所述头节点编码、所述第一关系编码及所述预测模型于所述节点张量单元组内选定另一节点编码为尾节点编码,所述头节点编码、所述第一关系编码及所述尾节点编码构成第一链接;
提取与所述第一关系编码相似的若干个第二关系编码,分别提取与所述第一关系编码及所述第二关系编码关联的节点编码,以形成挖掘空间;
设置初始挖掘范围,所述初始挖掘范围覆盖所述挖掘空间,通过所述初始挖掘范围内的节点编码的密度,对所述初始挖掘范围进行一次调节判定,通过所述初始挖掘范围内的节点编码的相似度,对所述初始挖掘范围进行二次调节判定,通过所述一次调节判定及所述二次调节判定,将所述初始挖掘范围调节至终选挖掘范围;
基于所述终选挖掘范围,于所述挖掘空间内的节点编码中确定终选节点编码,以所述终选节点编码自若干个所述第二关系编码中确定相似编码,所述头节点编码、所述相似编码及所述尾节点编码构成第二链接;
自所述第一链接及所述第二链接中确定预测链接。
进一步地,所述自初始知识图谱中提取信息元素,对所述信息元素进行优化处理,以获取包含若干个节点编码的节点张量单元组及包含若干个关系编码的关系张量单元组的步骤包括:
自初始知识图谱中的节点集合内提取节点信息元素,对所述节点信息元素进行编码赋予,以获取若干个节点编码,若干个所述节点编码形成所述节点张量单元组;
自初始知识图谱中的关系集合内提取关系信息元素,对所述关系信息元素进行编码赋予,以获取若干个关系编码,若干个所述关系编码形成所述关系张量单元组。
进一步地,所述损失函数的公式为:
,
其中,表示损失函数,/>表示逻辑回归函数,/>表示固定差值,/>表示节点张量单元组内某一正样本头节点编码,/>表示关系张量单元组内某一正样本关系编码,/>表示节点张量单元组内某一正样本尾节点编码,/>表示节点张量单元组内某一负样本头节点编码,/>表示关系张量单元组内某一负样本关系编码,/>表示节点张量单元组内某一负样本尾节点编码,/>表示阿达玛乘积,n、i均表示计算参数。
进一步地,所述通过所述初始挖掘范围内的节点编码的密度,对所述初始挖掘范围进行一次调节判定的步骤包括:
判断所述初始挖掘范围内的节点编码的密度是否大于密度阈值;
若所述初始挖掘范围内的节点编码的密度大于所述密度阈值,则缩小挖掘范围;
若所述初始挖掘范围内的节点编码的密度小于所述密度阈值,则扩大挖掘范围;
所述通过所述初始挖掘范围内的节点编码的相似度,对所述初始挖掘范围进行二次调节判定的步骤包括:
判断所述初始挖掘范围内的节点编码的相似度是否大于相似度阈值;
若所述初始挖掘范围内的节点编码的相似度大于所述相似度阈值,则扩大挖掘范围;
若所述初始挖掘范围内的节点编码的相似度小于所述相似度阈值,则缩小挖掘范围。
进一步地,所述初始挖掘范围内的节点编码的密度的计算公式为:
,
其中,表示初始挖掘范围内的节点编码的密度,/>表示初始挖掘范围内的某一节点编码,/>表示初始挖掘范围内全部的节点编码的数量,/>表示初始挖掘范围内全部的节点编码的均值,/>表示初始挖掘范围内全部的节点编码的标准差,/>表示指数函数;
所述初始挖掘范围内的节点编码的相似度的计算公式为:
,
其中,表示初始挖掘范围内的节点编码的相似度,表示调节前的初始挖掘范围内的节点编码的集合,/>表示调节后的初始挖掘范围内的节点编码的集合,/>表示调节前的初始挖掘范围内的某一节点编码,/>表示调节后的初始挖掘范围内的某一节点编码,/>表示概率计算公式。
进一步地,所述自所述第一链接及所述第二链接中确定预测链接的步骤包括:
计算所述第一链接的源区域得分;
计算所述第二链接的相关区域得分;
判断所述源区域得分是否高于所述相关区域得分。
进一步地,所述源区域得分的计算公式为:
,
其中,表示源区域得分,/>表示头节点编码,/>表示第一关系编码,表示尾节点编码,/>表示范数,/>表示阿达玛乘积;
所述相关区域得分的计算公式为:
,
其中,表示相关区域得分,/>表示相似编码,/>表示相似度权重。
进一步地,所述基于所述源区域得分及所述相关区域得分确定预测链接的步骤包括:
将所述源区域得分与所述相关区域得分进行比对;
若所述源区域得分高于所述相关区域得分,则将所述第一链接判定为所述预测链接;
若所述源区域得分低于所述相关区域得分,则将所述第二链接判定为所述预测链接。
第二方面,本申请实施例提供了一种农业病虫害知识图谱优化系统,应用如上述第一方面所述的农业病虫害知识图谱优化方法,所述系统包括:
提取模块,用于自初始知识图谱中提取信息元素,对所述信息元素进行优化处理,以获取包含若干个节点编码的节点张量单元组及包含若干个关系编码的关系张量单元组;
组建模块,用于构建训练模型,通过损失函数对所述训练模型进行优化,以获取预测模型;
第一推算模块,用于自所述节点张量单元组内选定某一节点编码为头节点编码,自所述关系张量单元组内选定某一关系编码为第一关系编码,基于所述头节点编码、所述第一关系编码及所述预测模型于所述节点张量单元组内选定另一节点编码为尾节点编码,所述头节点编码、所述第一关系编码及所述尾节点编码构成第一链接;
第二推算模块,用于提取与所述第一关系编码相似的若干个第二关系编码,分别提取与所述第一关系编码及所述第二关系编码关联的节点编码,以形成挖掘空间;
调节模块,用于设置初始挖掘范围,所述初始挖掘范围覆盖所述挖掘空间,通过所述初始挖掘范围内的节点编码的密度,对所述初始挖掘范围进行一次调节判定,通过所述初始挖掘范围内的节点编码的相似度,对所述初始挖掘范围进行二次调节判定,通过所述一次调节判定及所述二次调节判定,将所述初始挖掘范围调节至终选挖掘范围;
筛选模块,用于基于所述终选挖掘范围,于所述挖掘空间内的节点编码中确定终选节点编码,以所述终选节点编码自若干个所述第二关系编码中确定相似编码,所述头节点编码、所述相似编码及所述尾节点编码构成第二链接;
选择模块,用于自所述第一链接及所述第二链接中确定预测链接。
第三方面,本申请实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的农业病虫害知识图谱优化方法。
相较于现有技术,本发明的有益效果在于:通过构建所述预测模型,可将所述头节点编码、所述第一关系编码及所述尾结点编码组合为所述第一链接,进而完成初步的链接预测,于此基础上,引入自适应相似关系挖掘的概念,确定与所述第一关系编码关系相近的所述相似编码,有效的利用了关系间的关联性,通过计算所述源区域得分及所述相关区域得分,确定所述第一关系编码与所述相似编码之间的耦合关系,以提供更为精准的预测依据,并完成最终的链接预测,提高了链接预测的可靠性,为农业病虫害防治提供了更精确的知识图谱,对提高农业生产质量和促进农业信息化发展具有一定作用。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
图1为本发明第一实施例中农业病虫害知识图谱优化方法的流程图;
图2为本发明第二实施例中农业病虫害知识图谱优化系统的结构框图;
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
请参阅图1,本发明第一实施例提供的农业病虫害知识图谱优化方法,所述方法包括步骤S10至步骤S70:
步骤S10:自初始知识图谱中提取信息元素,对所述信息元素进行优化处理,以获取包含若干个节点编码的节点张量单元组及包含若干个关系编码的关系张量单元组;
所述初始知识图谱中包含大量的农业病虫害文本语义数据,文本语义数据又可细分为节点类型数据集合及关系类型数据集合,所述初始知识图谱的知识表示方法体现为三元组结构,如:(水稻,虫害,稻飞虱),水稻属于头节点、稻飞虱属于尾节点,其共同概念为节点,虫害属于关系,一般情况下,关系用于表示头节点与尾节点之间的关联,其对应的现实事例一般为农作物与疾病之间的关联。可以理解地,节点类型数据集合内包含了若干个节点,而关系类型数据集合内包含了若干个关系。而所述信息元素的提取,即是提取所述初始知识图谱内全部的节点及关系。
具体地,所述步骤S10包括:
S110:自初始知识图谱中的节点集合内提取节点信息元素,对所述节点信息元素进行编码赋予,以获取若干个节点编码,若干个所述节点编码形成所述节点张量单元组;
所述节点信息元素即节点,分别对每一个所述节点信息元素进行独立编码的赋予,可将所述节点信息元素转换为数字代码形式,以便于后续对其进行处理。可以理解地,部分所述节点编码为头节点编码,其他的所述节点编码为尾节点编码,需要说明的是,仅在一组三元组结构内才可将所述节点编码定义为头节点编码或尾节点编码,其需根据关系编码来确定。
S120:自初始知识图谱中的关系集合内提取关系信息元素,对所述关系信息元素进行编码赋予,以获取若干个关系编码,若干个所述关系编码形成所述关系张量单元组;
步骤S20:构建训练模型,通过损失函数对所述训练模型进行优化,以获取预测模型;
所述预测模型的目的,是使得在理想状态下一个三元组结构内的头节点编码等于尾节点编码与关系编码之间的阿达玛乘积,即可简单理解为,所述头节点编码为起点,所述关系编码为中间路程,而所述尾结点编码为终点。
而获取所述预测模型后,即可将某一所述节点编码定义为所述头节点编码,并通过某一所述关系编码而寻找另一所述节点编码,将另一所述节点编码确定为所述尾节点编码。
在所述训练模型的优化过程中,需要使所述训练模型的收束趋近于零,因此,需要通过所述损失函数对所述训练模型进行优化。
所述损失函数的公式为:
,
其中,表示损失函数,/>表示逻辑回归函数,/>表示固定差值,/>表示节点张量单元组内某一正样本头节点编码,/>表示关系张量单元组内某一正样本关系编码,/>表示节点张量单元组内某一正样本尾节点编码,/>表示节点张量单元组内某一负样本头节点编码,/>表示关系张量单元组内某一负样本关系编码,/>表示节点张量单元组内某一负样本尾节点编码,/>表示阿达玛乘积,n、i均表示计算参数。
将所述节点张量单元组内的全部的所述节点编码及所述关系张量内全部的所述关系编码进行对应,以形成若干个三元组结构,并将若干个三元组结构拆分为正样本结构及负样本结构,正样本结构内的头节点编码、关系编码及尾节点编码的对应关系正确,而负样本结构内的头节点编码、关系编码及尾节点编码的对应关系错误。将若干个三元组结构作为训练模型的训练数据,所述损失函数的期望是使正样本头节点编码与正样本关系编码之间的阿达玛乘积不断逼近正样本尾节点编码,同时,使负样本头节点编码与负样本关系编码之间的阿达玛乘积不断远离负样本尾节点编码。通过重复的训练,直至所述损失函数的值迭代至一个较低值后,即可完成所述训练模型的优化,获取所述预测模型。
步骤S30:自所述节点张量单元组内选定某一节点编码为头节点编码,自所述关系张量单元组内选定某一关系编码为第一关系编码,基于所述头节点编码、所述第一关系编码及所述预测模型于所述节点张量单元组内选定另一节点编码为尾节点编码,所述头节点编码、所述第一关系编码及所述尾节点编码构成第一链接;
通过构建所述预测模型,可将所述头节点编码、所述第一关系编码及所述尾结点编码组合为所述第一链接,进而完成初步的链接预测。即初步完成一组三元组结构的组件:(头节点编码、第一关系编码、尾节点编码)。但仅通过所述预测模型进行预测,该三元组结构不能完全确保其准确性。
步骤S40:提取与所述第一关系编码相似的若干个第二关系编码,分别提取与所述第一关系编码及所述第二关系编码关联的节点编码,以形成挖掘空间;
自适应相似关系挖掘的目的是根据所述第一关系编码及若干个所述第二关系编码的相似性分布,动态地选择相似关系的范围,可避免固定范围的局限性和不稳定性。固定范围对数据分布不均匀的知识图谱,将会获取到可能不是相似关系的关系,对准确性造成扰动,而自适应相似关系挖掘可有效的规避此问题。
所述第一关系编码存在多个与其对应的头节点编码及尾节点编码,同理,所述第二关系编码也存在多个与其对应的头节点编码及尾节点编码。因其均为编码形式,因此,所述节点编码均存在于低维度的张量空间内,所述第一关系编码与所述第二关系编码存在相似关系,因此,其在张量空间内的空间位置关系也将较为贴近。将与所述第一关系编码及所述第二关系编码关联的节点编码的覆盖范围定义为所述挖掘空间。
步骤S50:设置初始挖掘范围,所述初始挖掘范围覆盖所述挖掘空间,通过所述初始挖掘范围内的节点编码的密度,对所述初始挖掘范围进行一次调节判定,通过所述初始挖掘范围内的节点编码的相似度,对所述初始挖掘范围进行二次调节判定,通过所述一次调节判定及所述二次调节判定,将所述初始挖掘范围调节至终选挖掘范围;
所述初始挖掘范围内的节点编码的密度的计算公式为:
,
其中,表示初始挖掘范围内的节点编码的密度,/>表示初始挖掘范围内的某一节点编码,/>表示初始挖掘范围内全部的节点编码的数量,/>表示初始挖掘范围内全部的节点编码的均值,/>表示初始挖掘范围内全部的节点编码的标准差,/>表示指数函数;
在获取所述初始挖掘范围内的节点编码的密度后,判断所述初始挖掘范围内的节点编码的密度是否大于密度阈值;
若所述初始挖掘范围内的节点编码的密度大于所述密度阈值,则缩小挖掘范围;
若所述初始挖掘范围内的节点编码的密度小于所述密度阈值,则扩大挖掘范围;
所述初始挖掘范围内的节点编码的密度过低,可能会导致学习到错误的知识,降低精度,而密度过高,则将导致过拟合,影响鲁棒性。
所述初始挖掘范围内的节点编码的相似度的计算公式为:
,
其中,表示初始挖掘范围内的节点编码的相似度,表示调节前的初始挖掘范围内的节点编码的集合,/>表示调节后的初始挖掘范围内的节点编码的集合,/>表示调节前的初始挖掘范围内的某一节点编码,/>表示调节后的初始挖掘范围内的某一节点编码,/>表示概率计算公式。
在获取所述初始挖掘范围内的节点编码的相似度后,判断所述初始挖掘范围内的节点编码的相似度是否大于相似度阈值;
若所述初始挖掘范围内的节点编码的相似度大于所述相似度阈值,则扩大挖掘范围;
若所述初始挖掘范围内的节点编码的相似度小于所述相似度阈值,则缩小挖掘范围;
所述初始挖掘范围内的节点编码的相似度过高,说明挖掘出的相似关系极为相似,或数据处理过程中产生了偏差数据,通过扩大挖掘范围,可获得更广泛的相似关系,而相似度过低,则代表所述挖掘出的关系不是相似关系,通过缩小挖掘范围,保证精确性。因所述相似度的判定是基于所述初始挖掘范围调节前及调节后的数据对比,因此,在第一次进行调节时,所述初始挖掘范围内的节点编码的相似度为1。对所述初始挖掘范围重复进行多次调节后,直至范围趋近稳定,即可获取所述终选挖掘范围。
步骤S60:基于所述终选挖掘范围,于所述挖掘空间内的节点编码中确定终选节点编码,以所述终选节点编码自若干个所述第二关系编码中确定相似编码,所述头节点编码、所述相似编码及所述尾节点编码构成第二链接;
被所述终选挖掘范围覆盖的部分所述挖掘空间内,其存在的所述节点编码即为所述终选节点编码,而与所述终选节点编码对应的关系编码即为所述相似编码。假定所述第一关系编码为ra,则所述相似编码为ra2、ra3...ran。
进而将所述步骤S30中的头节点编码及尾结点编码与所述相似编码组合,以形成第二链接,所述第二链接可以为多个。
步骤S70:自所述第一链接及所述第二链接中确定预测链接。
具体地,所述步骤S70包括:
S710:计算所述第一链接的源区域得分;
所述源区域得分的计算公式为:
,
其中,表示源区域得分,/>表示头节点编码,/>表示第一关系编码,表示尾节点编码,/>表示范数,/>表示阿达玛乘积。
S720:计算所述第二链接的相关区域得分;
所述相关区域得分的计算公式为:
,
其中,表示相关区域得分,/>表示相似编码,/>表示相似度权重。
若存在若干个所述第二链接,则分别计算若干个所述第二链接的相关区域得分。
进一步地,所述相似度权重的计算公式为:
,
其中,表示相似编码的数量,/>表示某一相似编码,i表示相似编码的序号,/>表示范数。
S730:基于所述源区域得分及所述相关区域得分确定预测链接;
具体地,通过所述源区域得分与所述相关区域得分的高低确定所述预测链接,即将所述源区域得分与所述相关区域得分进行比对,若所述源区域得分高于所述相关区域得分,则将所述第一链接判定为所述预测链接,若所述源区域得分低于所述相关区域得分,则将所述第二链接判定为所述预测链接。如存在若干个所述相关区域得分的情况下,还需将若干个所述相关区域得分进行比对,将得分最高的所述相关区域得分对应的所述第二链接判定为所述预测链接。可以理解地,所述预测链接即为一组三元组结构。
通过引入自适应相似关系挖掘的概念,确定与所述第一关系编码关系相近的所述相似编码,有效的利用了关系间的关联性,通过计算所述源区域得分及所述相关区域得分,确定所述第一关系编码与所述相似编码之间的耦合关系,以提供更为精准的预测依据,并完成最终的链接预测,提高了链接预测的可靠性,为农业病虫害防治提供了更精确的知识图谱,对提高农业生产质量和促进农业信息化发展具有一定作用。
请参阅图2,本发明第二实施例提供了一种农业病虫害知识图谱优化系统,该系统应用如上述实施例中的农业病虫害知识图谱优化方法,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
所述系统包括:
提取模块10,用于自初始知识图谱中提取信息元素,对所述信息元素进行优化处理,以获取包含若干个节点编码的节点张量单元组及包含若干个关系编码的关系张量单元组;
所述提取模块10包括:
第一单元,用于自初始知识图谱中的节点集合内提取节点信息元素,对所述节点信息元素进行编码赋予,以获取若干个节点编码,若干个所述节点编码形成所述节点张量单元组;
第二单元,用于自初始知识图谱中的关系集合内提取关系信息元素,对所述关系信息元素进行编码赋予,以获取若干个关系编码,若干个所述关系编码形成所述关系张量单元组;
组建模块20,用于构建训练模型,通过损失函数对所述训练模型进行优化,以获取预测模型;
第一推算模块30,用于自所述节点张量单元组内选定某一节点编码为头节点编码,自所述关系张量单元组内选定某一关系编码为第一关系编码,基于所述头节点编码、所述第一关系编码及所述预测模型于所述节点张量单元组内选定另一节点编码为尾节点编码,所述头节点编码、所述第一关系编码及所述尾节点编码构成第一链接;
第二推算模块40,用于提取与所述第一关系编码相似的若干个第二关系编码,分别提取与所述第一关系编码及所述第二关系编码关联的节点编码,以形成挖掘空间;
调节模块50,用于设置初始挖掘范围,所述初始挖掘范围覆盖所述挖掘空间,通过所述初始挖掘范围内的节点编码的密度,对所述初始挖掘范围进行一次调节判定,通过所述初始挖掘范围内的节点编码的相似度,对所述初始挖掘范围进行二次调节判定,通过所述一次调节判定及所述二次调节判定,将所述初始挖掘范围调节至终选挖掘范围;
所述调节模块50包括:
第三单元,用于判断所述初始挖掘范围内的节点编码的密度是否大于密度阈值;若所述初始挖掘范围内的节点编码的密度大于所述密度阈值,则缩小挖掘范围;若所述初始挖掘范围内的节点编码的密度小于所述密度阈值,则扩大挖掘范围;
第四单元,用于判断所述初始挖掘范围内的节点编码的相似度是否大于相似度阈值;若所述初始挖掘范围内的节点编码的相似度大于所述相似度阈值,则扩大挖掘范围;若所述初始挖掘范围内的节点编码的相似度小于所述相似度阈值,则缩小挖掘范围;
筛选模块60,用于基于所述终选挖掘范围,于所述挖掘空间内的节点编码中确定终选节点编码,以所述终选节点编码自若干个所述第二关系编码中确定相似编码,所述头节点编码、所述相似编码及所述尾节点编码构成第二链接;
选择模块70,用于自所述第一链接及所述第二链接中确定预测链接。
所述选择模块70包括:
第五单元,用于计算所述第一链接的源区域得分;
第六单元,用于计算所述第二链接的相关区域得分;
第七单元,用于基于所述源区域得分及所述相关区域得分确定预测链接;
所述第七单元具体用于将所述源区域得分与所述相关区域得分进行比对;若所述源区域得分高于所述相关区域得分,则将所述第一链接判定为所述预测链接;若所述源区域得分低于所述相关区域得分,则将所述第二链接判定为所述预测链接。
本发明还提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述技术方案中所述的农业病虫害知识图谱优化方法。
本发明还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述技术方案中所述的农业病虫害知识图谱优化方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种农业病虫害知识图谱优化方法,其特征在于,包括以下步骤:
自初始知识图谱中提取信息元素,对所述信息元素进行优化处理,以获取包含若干个节点编码的节点张量单元组及包含若干个关系编码的关系张量单元组;
构建训练模型,通过损失函数对所述训练模型进行优化,以获取预测模型;
自所述节点张量单元组内选定某一节点编码为头节点编码,自所述关系张量单元组内选定某一关系编码为第一关系编码,基于所述头节点编码、所述第一关系编码及所述预测模型于所述节点张量单元组内选定另一节点编码为尾节点编码,所述头节点编码、所述第一关系编码及所述尾节点编码构成第一链接;
提取与所述第一关系编码相似的若干个第二关系编码,分别提取与所述第一关系编码及所述第二关系编码关联的节点编码,以形成挖掘空间;
设置初始挖掘范围,所述初始挖掘范围覆盖所述挖掘空间,通过所述初始挖掘范围内的节点编码的密度,对所述初始挖掘范围进行一次调节判定,通过所述初始挖掘范围内的节点编码的相似度,对所述初始挖掘范围进行二次调节判定,通过所述一次调节判定及所述二次调节判定,将所述初始挖掘范围调节至终选挖掘范围;
基于所述终选挖掘范围,于所述挖掘空间内的节点编码中确定终选节点编码,以所述终选节点编码自若干个所述第二关系编码中确定相似编码,所述头节点编码、所述相似编码及所述尾节点编码构成第二链接;
自所述第一链接及所述第二链接中确定预测链接。
2.根据权利要求1所述的农业病虫害知识图谱优化方法,其特征在于,所述自初始知识图谱中提取信息元素,对所述信息元素进行优化处理,以获取包含若干个节点编码的节点张量单元组及包含若干个关系编码的关系张量单元组的步骤包括:
自初始知识图谱中的节点集合内提取节点信息元素,对所述节点信息元素进行编码赋予,以获取若干个节点编码,若干个所述节点编码形成所述节点张量单元组;
自初始知识图谱中的关系集合内提取关系信息元素,对所述关系信息元素进行编码赋予,以获取若干个关系编码,若干个所述关系编码形成所述关系张量单元组。
3.根据权利要求1所述的农业病虫害知识图谱优化方法,其特征在于,所述损失函数的公式为:
,
其中,表示损失函数,/>表示逻辑回归函数,/>表示固定差值,/>表示节点张量单元组内某一正样本头节点编码,/>表示关系张量单元组内某一正样本关系编码,/>表示节点张量单元组内某一正样本尾节点编码,/>表示节点张量单元组内某一负样本头节点编码,/>表示关系张量单元组内某一负样本关系编码,/>表示节点张量单元组内某一负样本尾节点编码,/>表示阿达玛乘积,n、i均表示计算参数。
4.根据权利要求1所述的农业病虫害知识图谱优化方法,其特征在于,所述通过所述初始挖掘范围内的节点编码的密度,对所述初始挖掘范围进行一次调节判定的步骤包括:
判断所述初始挖掘范围内的节点编码的密度是否大于密度阈值;
若所述初始挖掘范围内的节点编码的密度大于所述密度阈值,则缩小挖掘范围;
若所述初始挖掘范围内的节点编码的密度小于所述密度阈值,则扩大挖掘范围;
所述通过所述初始挖掘范围内的节点编码的相似度,对所述初始挖掘范围进行二次调节判定的步骤包括:
判断所述初始挖掘范围内的节点编码的相似度是否大于相似度阈值;
若所述初始挖掘范围内的节点编码的相似度大于所述相似度阈值,则扩大挖掘范围;
若所述初始挖掘范围内的节点编码的相似度小于所述相似度阈值,则缩小挖掘范围。
5.根据权利要求1所述的农业病虫害知识图谱优化方法,其特征在于,所述初始挖掘范围内的节点编码的密度的计算公式为:
,
其中,表示初始挖掘范围内的节点编码的密度,/>表示初始挖掘范围内的某一节点编码,/>表示初始挖掘范围内全部的节点编码的数量,/>表示初始挖掘范围内全部的节点编码的均值,/>表示初始挖掘范围内全部的节点编码的标准差,/>表示指数函数;
所述初始挖掘范围内的节点编码的相似度的计算公式为:
,
其中,表示初始挖掘范围内的节点编码的相似度,/>表示调节前的初始挖掘范围内的节点编码的集合,/>表示调节后的初始挖掘范围内的节点编码的集合,/>表示调节前的初始挖掘范围内的某一节点编码,/>表示调节后的初始挖掘范围内的某一节点编码,/>表示概率计算公式。
6.根据权利要求1所述的农业病虫害知识图谱优化方法,其特征在于,所述自所述第一链接及所述第二链接中确定预测链接的步骤包括:
计算所述第一链接的源区域得分;
计算所述第二链接的相关区域得分;
基于所述源区域得分及所述相关区域得分确定预测链接。
7.根据权利要求6所述的农业病虫害知识图谱优化方法,其特征在于,所述源区域得分的计算公式为:
,
其中,表示源区域得分,/>表示头节点编码,/>表示第一关系编码,表示尾节点编码,/>表示范数,/>表示阿达玛乘积;
所述相关区域得分的计算公式为:
,
其中,表示相关区域得分,/>表示相似编码,/>表示相似度权重。
8.根据权利要求6所述的农业病虫害知识图谱优化方法,其特征在于,所述基于所述源区域得分及所述相关区域得分确定预测链接的步骤包括:
将所述源区域得分与所述相关区域得分进行比对;
若所述源区域得分高于所述相关区域得分,则将所述第一链接判定为所述预测链接;
若所述源区域得分低于所述相关区域得分,则将所述第二链接判定为所述预测链接。
9.一种农业病虫害知识图谱优化系统,应用如权利要求1~8任一项所述的农业病虫害知识图谱优化方法,其特征在于,所述系统包括:
提取模块,用于自初始知识图谱中提取信息元素,对所述信息元素进行优化处理,以获取包含若干个节点编码的节点张量单元组及包含若干个关系编码的关系张量单元组;
组建模块,用于构建训练模型,通过损失函数对所述训练模型进行优化,以获取预测模型;
第一推算模块,用于自所述节点张量单元组内选定某一节点编码为头节点编码,自所述关系张量单元组内选定某一关系编码为第一关系编码,基于所述头节点编码、所述第一关系编码及所述预测模型于所述节点张量单元组内选定另一节点编码为尾节点编码,所述头节点编码、所述第一关系编码及所述尾节点编码构成第一链接;
第二推算模块,用于提取与所述第一关系编码相似的若干个第二关系编码,分别提取与所述第一关系编码及所述第二关系编码关联的节点编码,以形成挖掘空间;
调节模块,用于设置初始挖掘范围,所述初始挖掘范围覆盖所述挖掘空间,通过所述初始挖掘范围内的节点编码的密度,对所述初始挖掘范围进行一次调节判定,通过所述初始挖掘范围内的节点编码的相似度,对所述初始挖掘范围进行二次调节判定,通过所述一次调节判定及所述二次调节判定,将所述初始挖掘范围调节至终选挖掘范围;
筛选模块,用于基于所述终选挖掘范围,于所述挖掘空间内的节点编码中确定终选节点编码,以所述终选节点编码自若干个所述第二关系编码中确定相似编码,所述头节点编码、所述相似编码及所述尾节点编码构成第二链接;
选择模块,用于自所述第一链接及所述第二链接中确定预测链接。
10.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的农业病虫害知识图谱优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311188651.3A CN116975311B (zh) | 2023-09-15 | 2023-09-15 | 一种农业病虫害知识图谱优化方法、系统及计算机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311188651.3A CN116975311B (zh) | 2023-09-15 | 2023-09-15 | 一种农业病虫害知识图谱优化方法、系统及计算机 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116975311A CN116975311A (zh) | 2023-10-31 |
CN116975311B true CN116975311B (zh) | 2023-12-01 |
Family
ID=88481729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311188651.3A Active CN116975311B (zh) | 2023-09-15 | 2023-09-15 | 一种农业病虫害知识图谱优化方法、系统及计算机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975311B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399180A (zh) * | 2017-02-08 | 2018-08-14 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及服务器 |
CN112487168A (zh) * | 2020-12-11 | 2021-03-12 | 润联软件系统(深圳)有限公司 | 知识图谱的语义问答方法、装置、计算机设备及存储介质 |
CN113420163A (zh) * | 2021-06-25 | 2021-09-21 | 中国人民解放军国防科技大学 | 基于矩阵融合的异构信息网知识图谱补全方法和装置 |
CN113535984A (zh) * | 2021-08-11 | 2021-10-22 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN113609306A (zh) * | 2021-08-04 | 2021-11-05 | 北京邮电大学 | 对抗残差图变分自编码器的社交网络链接预测方法及系统 |
CN114154758A (zh) * | 2021-12-30 | 2022-03-08 | 华中科技大学 | 基于知识图谱的分子调控关系预测方法及系统 |
CN114491084A (zh) * | 2022-04-12 | 2022-05-13 | 平安科技(深圳)有限公司 | 基于自编码器的关系网络信息挖掘方法、装置及设备 |
CN114528971A (zh) * | 2021-12-13 | 2022-05-24 | 中国人民解放军海军工程大学 | 一种基于异质图神经网络的图谱频繁关系模式挖掘方法 |
CN116368484A (zh) * | 2020-10-21 | 2023-06-30 | 北京沃东天骏信息技术有限公司 | 使用自适应阈值和本地上下文池化提取关系的系统和方法 |
CN116401455A (zh) * | 2023-03-31 | 2023-07-07 | 支付宝(杭州)信息技术有限公司 | 链接关系预测方法、实体知识图谱生成方法及装置 |
CN116451788A (zh) * | 2023-04-26 | 2023-07-18 | 燕山大学 | 基于合作多智能体的知识图谱元路径和元图自动挖掘算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11687570B2 (en) * | 2020-02-03 | 2023-06-27 | Samsung Electronics Co., Ltd. | System and method for efficient multi-relational entity understanding and retrieval |
-
2023
- 2023-09-15 CN CN202311188651.3A patent/CN116975311B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399180A (zh) * | 2017-02-08 | 2018-08-14 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及服务器 |
CN116368484A (zh) * | 2020-10-21 | 2023-06-30 | 北京沃东天骏信息技术有限公司 | 使用自适应阈值和本地上下文池化提取关系的系统和方法 |
CN112487168A (zh) * | 2020-12-11 | 2021-03-12 | 润联软件系统(深圳)有限公司 | 知识图谱的语义问答方法、装置、计算机设备及存储介质 |
CN113420163A (zh) * | 2021-06-25 | 2021-09-21 | 中国人民解放军国防科技大学 | 基于矩阵融合的异构信息网知识图谱补全方法和装置 |
CN113609306A (zh) * | 2021-08-04 | 2021-11-05 | 北京邮电大学 | 对抗残差图变分自编码器的社交网络链接预测方法及系统 |
CN113535984A (zh) * | 2021-08-11 | 2021-10-22 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN114528971A (zh) * | 2021-12-13 | 2022-05-24 | 中国人民解放军海军工程大学 | 一种基于异质图神经网络的图谱频繁关系模式挖掘方法 |
CN114154758A (zh) * | 2021-12-30 | 2022-03-08 | 华中科技大学 | 基于知识图谱的分子调控关系预测方法及系统 |
CN114491084A (zh) * | 2022-04-12 | 2022-05-13 | 平安科技(深圳)有限公司 | 基于自编码器的关系网络信息挖掘方法、装置及设备 |
CN116401455A (zh) * | 2023-03-31 | 2023-07-07 | 支付宝(杭州)信息技术有限公司 | 链接关系预测方法、实体知识图谱生成方法及装置 |
CN116451788A (zh) * | 2023-04-26 | 2023-07-18 | 燕山大学 | 基于合作多智能体的知识图谱元路径和元图自动挖掘算法 |
Also Published As
Publication number | Publication date |
---|---|
CN116975311A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704636B (zh) | 一种改进的基于Node2vec的知识图谱向量表示方法 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN112714032B (zh) | 无线网络协议知识图谱构建分析方法、系统、设备及介质 | |
CN110210625B (zh) | 基于迁移学习的建模方法、装置、计算机设备和存储介质 | |
CN111988614B (zh) | 哈希编码优化方法、设备及可读存储介质 | |
CN112487168A (zh) | 知识图谱的语义问答方法、装置、计算机设备及存储介质 | |
CN109284860A (zh) | 一种基于正交反向樽海鞘优化算法的预测方法 | |
WO2018036547A1 (zh) | 一种数据处理的方法以及装置 | |
JP6325762B1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
CN116975311B (zh) | 一种农业病虫害知识图谱优化方法、系统及计算机 | |
CN113515540A (zh) | 一种数据库的查询重写方法 | |
US11853858B2 (en) | Chart building user interface providing machine learned chart recommendations | |
CN114974400B (zh) | 一种全局生物网络比对方法 | |
CN114997360A (zh) | 神经架构搜索算法的演化参数优化方法、系统及存储介质 | |
CN114254117A (zh) | 一种基于数据增强和自适应负采样技术的知识图谱推理方法 | |
CN108415783B (zh) | 一种基于改进蜂群算法的异构多核任务分配方法 | |
CN114722211A (zh) | 网络优化知识图谱的质量评估方法、装置及电子设备 | |
CN117097624B (zh) | 一种网络拓扑结构增强方法、装置、电子设备及存储介质 | |
CN113407532A (zh) | Spark SQL多表连接优化方法、装置、计算机设备和存储介质 | |
CN112381226B (zh) | 一种基于粒子群算法的深度卷积神经网络架构搜索方法 | |
CN116187446B (zh) | 基于自适应注意力机制的知识图谱补全方法、装置和设备 | |
CN115796054B (zh) | 一种情景发现和脆弱性分析方法、系统、终端及存储介质 | |
CN115017255B (zh) | 一种基于树状结构的知识库构建和搜索方法 | |
CN117093844B (zh) | 工业大数据多模态特征选择方法、装置、设备及介质 | |
CN110895567A (zh) | 一种实体嵌入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |