CN115936114B - 一种知识图谱构建方法、装置及存储介质 - Google Patents

一种知识图谱构建方法、装置及存储介质 Download PDF

Info

Publication number
CN115936114B
CN115936114B CN202211505747.3A CN202211505747A CN115936114B CN 115936114 B CN115936114 B CN 115936114B CN 202211505747 A CN202211505747 A CN 202211505747A CN 115936114 B CN115936114 B CN 115936114B
Authority
CN
China
Prior art keywords
triples
triplet
information data
data
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211505747.3A
Other languages
English (en)
Other versions
CN115936114A (zh
Inventor
王寅达
彭玲
李玮超
张雯悦
杨丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202211505747.3A priority Critical patent/CN115936114B/zh
Publication of CN115936114A publication Critical patent/CN115936114A/zh
Application granted granted Critical
Publication of CN115936114B publication Critical patent/CN115936114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种知识图谱构建方法、装置、电子设备、芯片及计算机可读存储介质。其中,所述方法包括:以地方名品通用本体为核心节点构建本体层,所述地方名品通用本体,其下包括:环境对象实体,用于表征特定地理范围内的环境条件;生长条件对象实体:用于表征地方农产物的适宜生长条件;地方产物对象实体:用于表征地方产物自身的通用属性特点;版本管理对象实体:用于表征存在歧义的三元组;获取产物数据,基于所述产物数据提取三元组;基于所提取的三元组和所述本体层,构建实例层;所述本体层和所述实例层表征所述知识图谱。

Description

一种知识图谱构建方法、装置及存储介质
技术领域
本申请涉及农业信息技术领域,尤其涉及一种知识图谱构建方法、装置、电子设备、芯片及计算机可读存储介质。
技术背景
一方水土养一方人,地方农业产物亦然。地方农业名品是由于当地得天独厚的环境和气候条件,使得该地农作物或养殖物生长好、质量高、口感独特及数量珍稀等,因而远近闻名。同样,农业名品数据与知识来源也十分广泛,网络媒体能贡献大量地方农业名品数据及知识,但是将公众零碎的知识、经验采集并以知识图谱形式存储及应用尚未多见。
地方农特产品种类繁多,各个地方都会有自己的农业名品,其产品特色、特性各不相同。同种农作物往往因为地域生长环境条件不同,口感、特色、质量也各有不同。利用人工智能、大数据分析手段,替地方农业名品代言,将其地理位置、地形、地貌、地势、海拔特征以数字化形式表达;将反映其生长环境的雨水、阳光等气候特征和农作物赖以生存生长的土壤地质、营养条件等也数字化表达,在很大程度上是在为地方农业名品提供数字画像。
进一步,还可以利用遥感影像精准描述地方农业名品。基于遥感影像获得农作物或养殖物生长区域精确矢量位置信息,再针对具体有矢量位置信息地块的农特产品进行相关特性数字化表达。
本申请意在通过知识图谱人工智能技术将与全国地方农业名品相关的地理信息和非地理信息聚集进一个系统,使得用户可以快速基于该系统一站式、比较全面地获知所需了解地方农业名品信息。本文基于时空知识图谱共性基础框架,设计一个汇聚全国各地农业名品信息、动态存储名品数据及知识的知识图谱。由于本知识图谱系统具有动态发展与存储及更新特征,对于持续进入知识图谱的各类源文本数据(描述地方农业名品特性的文本文档)以及需要转换成文本数据的视频和图像数据(介绍地方农业名品特性的图片、视频),需及时将其转换成三元组存入知识图谱;当新的三元组和已有三元组存在冲突时,就需要对两者进行对比和判断,保留相对正确的三元组,目前没有很好的动态版本管理和歧义消除方法。现有方法是获取相同实体多个版本的知识图谱数据,利用二元表格的形式计算不同图谱之间的差异,打上时间戳后,将错误的数据删除,知识图谱保存相对正确的数据。该方法既不能做到完全意义上的动态版本管理更新,而且当出现相同主语和谓语但宾语不同的三元组时,也没有很好的方法来判断孰对孰错。
发明内容
本申请实施例提供了一种知识图谱构建方法,包括:技术手段、装置、电子设备、芯片及计算机可读存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种知识图谱构建方法,包括:
以地方名品通用本体为核心节点构建本体层,所述地方名品通用本体,其下包括:环境对象实体,用于表征特定地理范围内的环境条件,生长条件对象实体:用于表征地方农产物的适宜生长条件,地方产物对象实体:用于表征地方产物自身的通用属性特点;版本管理对象实体:用于表征存在歧义的三元组;
获取产物数据,基于所述产物数据提取三元组;
基于所提取的三元组和所述本体层,构建实例层;所述本体层和所述实例层表征所述知识图谱。
第二方面,本申请实施例提供了一种知识图谱构建装置,包括:
构建单元:用于以地方名品通用本体为核心节点构建本体层,所述地方名品通用本体,其下包括:环境对象实体,用于表征特定地理范围内的环境条件,生长条件对象实体:用于表征地方农产物的适宜生长条件,地方产物对象实体:用于表征地方产物自身的通用属性特点;版本管理对象实体:用于表征存在歧义的三元组;
获取单元:用于获取产物数据,基于所述产物数据提取三元组;
所述构建单元:还用于基于所提取的三元组和所述本体层,构建实例层,所述本体层和所述实例层表征所述知识图谱。
第三方面,本申请提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行本申请实施例所提供的任意一种知识图谱构建方法。
第四方面,本申请提供一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行本申请实施例所提供的任意一种知识图谱构建方法。
通过本申请实施例所提供的知识图谱构建方法,在本体的构建上,不仅包括地方农业名品的特性,而且还将它的生长环境和该种农作物最适宜的生长条件包含在内。将地方农业名品的生长环境、产品类型、气候数据等数据有机地组织起来,将地方农业名品的全方位信息合理地存储在知识图谱中,并且在地方农业名品数据更新出现歧义时,歧义信息以版本管理的形式存入图谱中,可以将歧义数据的筛选权交给用户,节省了构建者人工筛选浪费人力物力的缺陷。
附图说明
图1为本申请实施例提供的知识图谱构建方法的实现流程示意图;
图2为本申请实施例提供的版本管理对象实体200示意图;
图3为本申请实施例提供的版本管理对象示例图;
图4为本申请实施例提供的环境对象实体400示意图;
图5为本申请实施例提供的生长条件对象实体500示意图;
图6为本申请实施例提供的地方产物对象实体600示意图;
图7为本申请实施例提供的时间对象实体700示意图;
图8为本申请实施例提供的空间对象实体800示意图;
图9为本申请实施例提供的地方农业名品通用本体900示意图;
图10为本申请实施例提供的从地理信息数据中提取三元组的流程示意图;
图11为本申请实施例提供的从非地理信息数据中提取三元组的流程示意图;
图12为本申请实施例提供的三元组入库的流程示意图;
图13为本申请实施例提供的知识图谱构建装置的结构示意图;
图14为本申请实施例提供的电子设备示意性结构图;
图15为本申请实施例提供的芯片的示意性结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请实施例中,字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
需要说明的是,本申请的知识图谱可以应用于地方农业名品领域,也可以应用于其他非农业名品领域,本申请对此并不做限定。
为了能够更加详尽地了解本申请的特点与技术内容,下面结合附图对本申请的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请。
图1为本申请实施例提供的一种知识图谱构建方法的实现流程示意图,如图1所示,本申请实施例提供一种知识图谱构建方法,所述方法包括以下步骤:
步骤101:以地方名品通用本体为核心节点构建本体层,所述地方名品通用本体,其下包括:环境对象实体,用于表征特定地理范围内的环境条件,生长条件对象实体:用于表征地方农产物的适宜生长条件,地方产物对象实体:用于表征地方产物自身的通用属性特点;版本管理对象实体:用于表征存在歧义的三元组。
这里,版本管理对象实体为了解决三元组知识歧义而被提出,比如,当入库三元组存在相同的主语和谓语但宾语不同时,这条知识就出现了歧义。分别为这两个三元组创建两个版本管理对象,当用户搜索到这两个三元组时,分别展示这两个三元组的相关信息供用户判断两个三元组的可信度。这里,相关信息包括三元组的信息来源、三元组是否被审核、三元组的入库次数等。
基于此,本申请另一实施例所提供的知识图谱构建方法,所述版本管理对象实体,其下包括:
源实体:用于表征三元组的信息来源;
审核实体:用于表征三元组是否被审核;
计数实体:用于表征同一三元组的入库次数。
具体的,源实体用于记录三元组的信息来源;审核实体用于记录三元组的真实性,比如,是否经过专家核实审核;计数实体用于当有相同的地方农业名品知识三元组要重复导入图谱时,在版本管理器的计数属性上加1。这表示了该条地方农业名品三元组知识被其它渠道知识源认同的次数。由于三元组数量庞大,使用人工逐个核实真伪费时费力,所以对三元组重复出现次数的计数是一种便捷的知识核实方法,计数高的三元组更加可靠。
当待输入三元组和图谱中已存的三元组有相同主语和谓语但宾语不相同时,出现了知识歧义的问题。本申请实施例引入了版本管理器方法,在地方农业名品通用本中增加版本管理对象本体。每当有新的三元组存入知识图谱时,都会创建一个“主语—谓语—版本管理”形式的版本管理三元组。
参考图2,图2为本申请一实施例所提供的版本管理对象实体200示意图,如图2所示,该实施例中,所述版本管理对象实体200,其下包括:原始信息实体、入库时间实体、源实体、审核实体、计数实体、真实对象实体。
这里,原始信息实体用于存储三元组的原始信息,当三元组对应的主语的属性是数据属性dataproperty时,宾语是string,double,boolean等数据类型,原始信息中直接存储宾语的数值;当三元组主语的属性是对象属性objectproperty时,宾语则是本体中的实体对象而不是数值,原始信息中存储指向该实体的统一资源标识符(Uniform ResourceIdentifier,URI);入库时间实体用于记录三元组进入知识图谱的时间,也是其对应的版本管理三元组的创建时间;真实对象用于表征有真实对象的三元组,例如,当地方农业名品知识三元组对应实体中的属性为对象属性时,创建一个“版本管理——has real object(有真实对象)——真实对象”的三元组。规定该三元组的主语是版本管理器,谓语是has realobject(有真实对象),宾语是指向该实体的URI。当属性为datapropeerty(数据属性)时,不创建真实对象三元组;源实体、审核实体、计数实体可参考前述实施例的相关描述进行理解,此处不再赘述。
下面结合图3进一步说明当宾语为对象实体或数据实体的三元组时的不同存储方法,示例性的,图3为本申请实施例所提供的版本管理对象示例图,当入库两条三元组“XX樱桃是酸”和“XX樱桃是甜”时,这两条三元组虽然存在歧义,但是都存入了知识图谱,并额外分别创建了两个与XX樱桃的口味有关的版本管理对象三元组分支。当认为“甜”和“酸”都是字符串时,形成了“XX樱桃——口味是——酸”、“XX樱桃——口味是——甜”、“XX樱桃——口味是——版本管理1(版本管理1所包含的属性及属性值为:原始信息:酸。入库时间:2022-08-01-10-01-01。源:文库。审核:否。计数:1.)”、“XX樱桃——口味是——版本管理2(版本管理2所包含的属性及属性值为:原始信息:甜。入库时间:2022-08-02-14-01-01。源:论坛评论。审核:否。计数:1。)”这四个三元组。然后以版本管理1和版本管理2为主与分别创建五个以上述括号内属性和属性值为谓语和宾语的三元组;当认为“甜”和“酸”都是对象属性(真实对象)时,在前述创建的三元组的基础上,还需要给版本管理对象1和版本管理对象2分别创建三元组“版本管理1——has real object(有真实对象)——URI(“酸”实体的URI)”和“版本管理2——has real object(有真实对象)——URI(“甜”实体的URI)”。
本申请实施例本体层的构建中引入版本管理对象实体,当知识图谱中存在于待入库的三元组的主语、谓语相同但宾语不同的三元组时,可以认为针对这条知识产生了歧义。由于三元组数量庞大,当产生大量歧义时,人工逐条审核是不现实的。本申请实施例将歧义信息以版本管理的形式存入图谱中,为三元组逐条打上入库时间、源、原始信息、计数等属性。当用户查询信息时,歧义信息会以版本管理的形式返回结果,而且计数属性越高,代表该三元组重复出现次数多,即被认同度高。使用户可以根据经验知识和计数值自行判断正确的三元组结果。
实际应用时,环境对象实体可以用于描述一个地理范围内客观存在的环境条件,参考图4,图4为本申请一实施例所提供的环境对象实体400示意图,在该实施例中,环境对象实体400,其下包括:
土壤对象实体:用于描述土壤性质;地形对象实体:用于描述地形条件;气候对象实体:用于描述气候条件。
实际应用时,土壤对象实体其下可包括:“土壤类型”、“PH值”、“透水性”、“透气性”、“土壤特性”实体;地形对象实体其下可包括:“海拔”、“地貌”实体;气候对象实体其下可包括:“气候特点”、“日光能系数”、“年有效积温”、“全年日照时数”、“年平均风速”、“年平均降水量”、“无霜期”、“年平均温度”、“气候类型”实体。
实际应用时,生长条件对象实体可以用于描述某种农作物的最适宜生长条件,参考图5,图5为本申请一实施例所提供的生长条件对象实体500示意图,在该实施例中,生长条件对象实体500,其下包括:光照因子实体,用于表征最适宜的光照条件、温度因子实体:用于表征最适宜的温度条件、土壤因子实体:用于表征最适宜的土壤条件、灾害因子实体用于表征对长势影响大的灾害、降水因子实体:用于表征最适宜的降水条件和人为因子:用于表征人工促进生长的条件。
具体的,光照因子实体其下可包括:“光照强度”、“光照时长”实体,温度因子实体其下可包括:“气温”、“年有效积温”等实体,土壤因子实体其下可包括:“环境条件”、“营养因素”实体,灾害因子实体其下可包括:“气象灾害”、“病虫药害”、“应对措施”实体,降水因子实体其下可包括:“降水时长”、“降水量”实体。
实际应用时,地方产物对象实体可以用于描述农作物自身的特点,参考图6,图6为本申请一实施例所提供的地方产物对象实体600示意图,在该实施例中,地方产物对象实体600,其下包括:未加工产品实体:用于表征农作物不需要经过加工的直接产物、副产品实体:用于表征经过加工后农作物的衍生物、作物特质实体:用于表征农作物的优势特点)和须知本体:用于表征针对农作物的补充性描述。
具体的,未加工产品实体其下可包括:“名称”、“品种”、“产地”、“伙伴”等、“历史典故”实体,副产品实体其下可包括:“食用类产品”、“观赏类产品”、“533B用药用类产品”实体;作物特质实体其下可包括:“外形”、“营养成分”、“口感”、“价值”实体,外形实体其下可包括:“平均体积”、“颜色”、“形状”、“平均重量”、“平均果皮厚度”实体,营养成分实体其下可包括:“糖分”、“维生素”、“矿物质”、“纤维素”、“水分”实体,口感实体其下可包括:“苦度”、“酸度”、“核儿”、“甜度”实体;须知实体其下可包括:“品性”、“产销”、“采存运”、“安全标准”实体,品性实体其下可包括:“寒凉”、“温热”、“甘平”实体,产销实体其下可包括:“产量”、“销量”、“零售价”、“批发价”实体,采存运实体其下可包括:“运输”、“存储”、“采摘”实体。
地方农业名品种类品种繁多,难以数字化管理,而且目前的农业知识图谱不支持时空维度的查询和定位。
在本申请另一实施例中,所述地方农业名品通用本体,其下还包括:
时间对象本体:用于表征三元组的时间属性;
空间对象本体:用于表征产物的空间属性。
在实际应用时,时间对象本体可以提供统一的时间语义表示规范,这样可以保证实体的时间信息具有可比性和可计算性。示例性的,三元组的时间属性可以是三元组的入库时间;也可以同一个地理位置的环境参数的时间属性,因为同一个地理位置在不同时间其环境参数可能是不同的。参考图7,图7为本申请一实施例所提供的时间对象实体700示意图,在该实施例中,所述时间对象实体700,其下包括:“有效时间”和“时间粒度”实体;有效时间实体其下可包括:“有效时刻”和“有效时段”实体。
需要说明的是,本申请实施例中的可采用的SWRL时间本体来表示指示图谱的时间本体概念,时间本体规定具有时间特征的实体需要用SWRLTO:hasValidTime对象属性来关联有效时间。由有效时间类表示的时间粒度由与SWRLTO:hasGranularity关联的Granularity类表示。Granularity类具有年、月、日、小时、分钟、秒和毫秒级别的表达式实体。ValidTime类具有ValidInstance和ValidPeriod子类,分别表示记录的时间和周期数据。时间数据表示为xsd:DataTime。
在实际应用时,时间对象本体为多源异构数据在地方农业名品预测计算的空间分析提供了基础,基于空间对象本体可以描述经纬度坐标、几何中心点位置和面积等。参考图8,图8为本申请一实施例所提供的空间对象实体800示意图,在该实施例中,所述空间对象实体800,其下包括:“地物”和“几何形态描述”实体;地物实体其下可包括:“耕地空间范围”、“地方农业名品空间范围”和“气象空间范围”实体,几何形态描述实体其下可包括:“点”、“线”和“面”实体。
需要说明的是,空间对象本体的表达可以应用由开放地理空间联盟(OpenGeospatial Consortium,OGC)提出的地理语义查询规范GeoSPARQL。
本申请实施例在本体层中增加了空间对象本体和时间对象本体来进行地方农业名品相关语义本体的空间和时间表达,从而建立了地方农业名品涉及的多源异构数据蕴含的多元地理实体之间的时空语义关系,进而打破了多源异构数据协同的时空分析计算隔阂,能够基于时空知识图谱的统一时空数据基底,实现面向地方农业名品的的时空计算。
参考图9,图9为本申请实施例所提供的地方农业名品通用本体900示意图,其下包括:空间对象实体800、时间对象实体700、版本管理对象实体200、环境对象实体400、生长条件对象实体500、地方产物对象实体600。
本申请实施例所提供的知识图谱中添加了空间属性和时间属性,满足在时间和空间维度上的推理计算。环境对象和生长条件对象表面上看起来全是在描述环境条件,但是他们存在本质上的区别:前者是任意一处的地理环境,后者是最适宜该种作物生长的环境条件,使得作物在此条件下能成为地方农业名品。这两种与环境有关的本体的设计,为后续基于规则的推理奠定了基础。版本管理对象是知识审核和溯源的基础。本申请实施例所提供的本体层用于为知识实例提取、存储和应用提供统一完备规范的语义标准和结构约束,为多元知识的管理提供分门别类的逻辑容器。
需要说明的是,在实际应用时,在本体层构建的过程中可以使用Protégé软件等RDF语言编辑工具将概念树转换为本体。示意性的,以protégé工具为例说明实施方式,它是一种广泛使用的工具,可以帮众用户创建和编辑本体。它提供了一个模型构建器来定义实体、实体之间的关系以及目标领域中的实体属性。在本申请实施例中,使用protégé创建地方农业名品本分解树中的概念,包括类的层次关系,对象属性和类的数据属性,将构建的本体导出为RDF文件。
步骤102:获取产物数据,基于所述产物数据提取三元组。
实际应用时,针对知识图谱数据来源单一的问题,我们可以从遥感影像提取地物、获得位置信息。本申请使用深度学习的方法,提取遥感影像中的耕地地块。通过人工目视纠错、形态学等方法对提取结果做后处理,获得相对准确的栅格化二值耕地信息,其中255值代表耕地像素,0值代表非耕地像素。通过栅格矢量转化,获得面状矢量耕地信息及其配套的地理坐标,实现名品研究区域定位。或利用机器学习的方法,例如,将目视解译到葡萄像素的光谱值作为变量送入模型中,直接提取种植葡萄区域的像素,经过后处理,栅格矢量转换,获得研究区域地理空间位置并存入知识图谱。也可以从视频、音频、文字等结构、非结构化数据中,采取人工+智能的手段从上述来源中获取信息。其中,人工方法可以采用搜索引擎人工获取实例,存入知识图谱;智能方法可以利用自然语言处理(Natural LanguageProcessing,NLP)技术,对地方农业名品描述的结构、半结构、非结构化文本数据做知识抽取,转换为三元组。计算谓语与图谱中属性的相似度,依据属性推算出头实体与尾实体的位置,从而将实例存入知识图谱。
具体的,产物数据包括地理信息数据和非地理信息数据,所述非地理信息包括以下数据至少之一:文本信息数据、图片信息数据、视频信息数据和音频信息数据。
基于此,本申请另一实施例中,所述产物数据包括地理信息数据和非地理信息数据;
所述基于所述产物数据提取三元组,包括:
从所述地理信息数据中和/或所述非地理信息数据中提取三元组;其中,所述非地理信息包括以下数据至少之一:文本信息数据、图片信息数据、视频信息数据和音频信息数据。
地理信息数据主要可以分为矢量数据和栅格数据两种类型。为了实现多源异构时空数据的协同分析,首先要实现不同类型地理信息数据的统一矢量化表达。示例性的,本申请实施例采用OGC国际空间信息标准化组织提出的GeoJSON标准,作为多源异构时空数据的统一矢量化表达方式。其中针对常用的矢量地理信息数据格式,可以使用Arcpy或GDAL库直接转换为GeoJSON格式。针对常用的栅格地理信息数据格式,可以使用Arcpy或GDAL库分别将栅格数据包含的栅格灰度值转换为矢量数据中的属性,进而从矢量格式转换为GeoJSON格式。某些以离散点形态分布的原始数据,例如气象站数据,不便与其他空间现象的分布模式进行比较。因此需要采用合适的空间插值模型,根据点数据的分布情况生成栅格类型的插值结果,然后再转换为GeoJSON格式。
参考图10,图10为本申请实施例所提供的从地理信息数据中提取三元组的流程示意图,如图10所示,地理信息数据包括结构化数据、半结构化数据以及非结构化数据。
示例性的,以行政区划数据为例说明从结构化数据中提取三元组的流程。首先,判断地方农业名品所在城市的行政区划数据、土壤类型数据是结构化数据,与时空属性和专业属性有着直接的映射关系。本申请实施例将行政区划等矢量数据转换为三元组。将生成的三元组存储在支持RDF语义表示规范的图结构数据库中,需要说明的是,土壤数据可以为栅格数据,也可以是矢量数据。
示例性的,以地形数据为例说明从半结构化数据中提取三元组的流程。地方农业名品环境对象中的地形、海拔等数据和气象数据的来源是GeoTIFF格式的栅格地理数据,属于半结构化数据。本申请实施例将所有类型的栅格数据转换为面要素的矢量数据,将高程等各类矢量数据统一转换成GeoJSON格式的矢量地理信息。对于所有类型的矢量地理信息,本申请将空间信息和特征属性转换为三元组存储在支持RDF语义表示规范的图结构数据库中。需要说明的是,气象数据分为预测数据和往期数据,本申请实施例中使用的环境条件气候数据均为往期数据。气象数据通常是从气象站采样测量而得,转换为产品数据时需要经过插值将站点数据转换为栅格数据。目前栅格的气象数据有国外的开源全球9公里分辨率栅格数据和国内付费的1公里分辨率栅格气象数据。
示例性的,遥感影像数据属于非结构化数据,以遥感影像数据说明从非结构化数据中提取三元组的流程。地方农业名品空间分析和决策需要获取耕地、名品作物位置信息。本申请实施例以高分辨率卫星遥感影像为数据源,通过深度学习语义分割的方法提取耕地、水体、牧场等地物的空间分布,以及利用光谱特征的方法提取农作物的种植面积、生长状况及估产等。将不同来源的遥感影像非结构化数据提取获得的信息,根据本体层定义的时空和专业属性表示规范转化为三元组。三元组存储在支持RDF语义表示规范的图结构数据库中。
基于此,本申请另一实施例中,所述从所述地理信息数据中提取三元组,包括:
将所述地理信息数据中的非结构化数据、半结构化数据或结构化数据转化为GeoJSON格式的结构化地理信息数据,基于所述本体层中的实体和属性定义,从所述GeoJSON的结构化地理信息数据中提取三元组。
在本申请另一实施例中,所述从所述非地理信息数据中提取三元组中提取三元组,包括:
基于所述本体层中的实体和属性定义,从所述非地理信息数据中抽取三元组;其中,当所述非地理信息数据为图片信息数据、视频信息数据或音频信息数据时,在从所述非地理信息数据中抽取三元组前将其转换为对应的文本信息数据。
在实际应用时,非地理信息数据包括:文本、图片、文本、视频、音频等不包含精确地理信息的数据。可以使用语音识别软件、图像理解、视频理解的方法将视频、音频数据均转化为文本信息。
参考图11,图11为本申请实施例所提供的从非地理信息数据中提取三元组的流程示意图,如图11所示,从非地理信息数据中提取三元组可以采用人工方法和/或智能方法。其中,示意性的,人工方法可以在搜索引擎中搜索需要存储进知识图谱的地方民品词条,词条中对地方农业名品的生长环境、品质特性等实体都做了结构化的描述。按照本体中的实体和属性定义,在词条信息中人工抽取出实例,转换为三元组的形式导入知识图谱中。该方法提取的三元组质量较高但效率较低。
在实际应用时,在从非地理信息数据之前需要把图片信息数据、视频信息数据或音频信息数据先转化为文本信息数据,文本信息数据包括结构化、半结构化、非结构化文本信息数据。具体的,对于文本信息数据使用三元组事件抽取的方法,从文本信息中抽取三元组,并导入图数据库中构建知识图谱;对于图片、视频数据,我们采用图像理解、视频理解的方法,为图片、视频生成一段描述语句,然后使用三元组事件抽取的方法抽取三元组,存入知识图谱;对于音频数据,使用语音文字转换器,将音频数据转化为文本数据,再利用与文本信息数据相同的方法抽取三元组。
示例性的,使用智能方法从结构化文本信息数据中提取三元组的流程如下:使用关系型数据库表示和存储的地方农业名品文本信息,可以用二维表来逻辑表达实现的数据。数据一般以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的;能够用统一的结构加以表示。结构化数据经过数据清洗,语义信息明确,所以本申请实施例按照文本结构规则直接抽取三元组,与本体的属性直接的映射,将三元组存储在支持RDF语义表示规范的图结构数据库中。
基于此,在本申请实施例中,所述基于所述本体层中的实体和属性定义,从所述非地理信息数据中抽取三元组,包括:
基于所述本体层中的实体和属性定义,通过预设的规则从所述非地理信息数据中的结构化数据中提取三元组。
地方农业名品的知识来源离不开百科引擎的搜索结果,这种数据属于半结构化文本数据。地方农业名品介绍丛书、人们对名品的文字描述都属于非结构化文本数据。本申请实施例中使用一种半结构化、非结构化文本知识抽取工具,从半结构化、非结构化文本中抽取三元组。关系实体抽取方法分为两类:一种是将关系分类和实体抽取分成两个任务,分别计算损失,互不影响;另一种是将关系和实体抽取合并为一个多任务工作,统一计算损失。示例性的,本申请实施例以第二种方法举例说明,使用三元组事件抽取的方法提取三元组。
具体的,基于三元组事件抽取的方法抽取地方农业名品半结构、非结构化信息的实体与关系,获得三元组抽取结果集合,集合中的每个三元组都带有置信度(三元组预测概率)数值;基于置信度对判断抽取得到的三元组的合理性,排除不符合常理认知的三元组。遍历所有的三元组,当其置信度大于第一预设阈值时,将它保留,小于等于第一预设阈值时,认为该三元组抽取结果错误,在抽取结果中丢弃它;余下的三元组将与本体层做匹配。由于抽取出的三元组存在噪声,所以谓词在大部分情况下不会与本体中的属性完全匹配。例如:三元组是“XX葡萄在XX县”,但本体中仅有“位于”这个属性。谓词“在”和属性“位于”应指代相同的属性,但表达方式不同,因此采用相似度计算方法判断二者是否代表相同的语义;现存大量词汇间相似度计算方法,示例性的,本申请实施例中使用基于余弦算法的词汇相似度比较方法:利用BERT对属性(rdfs:label)词和谓词词嵌入,将中文映射为包含语义信息相同长度的两个数值特征向量,使用余弦相似度计算两词向量间的相似度;计算公式如下:
Figure BDA0003968117370000081
其中,uT表示词向量1转置,v表示词向量2,u2表示词向量1的二范数,v2表示词向量2的二范数,i表示词向量的第几个数值,n表示词向量长度,sim(u,v)表示两个词向量间的相似度,值域为[-1,1];遍历本体中的所有属性(rdfs:label),计算与三元组谓词的相似度,取相似度大于第二预设阈值且最大的属性作为匹配结果。若所有属性(rdfs:label)的相似度均小于等于第二预设阈值,那么认为该三元组不是地方农业名品知识库所关注的三元组,丢弃它;当属性(rdfs:label)匹配时,该三元组的主语和宾语在本体中对应的头实体和尾实体也随之确定(在构建本体时,规定相同的属性不能重复出现)。从而将该三元组转换为RDFS形式,存入支持RDFS语义表示规范的图结构数据库中。
基于此,本申请一实施例中,所述基于所述本体层中的实体和属性定义,从所述非地理信息数据中抽取三元组,包括:
基于所述本体层中的实体和属性定义,通过三元组事件抽取方法抽取所述非地理信息数据中的半结构化数据和/或非结构化数据中的实体和关系,基于所抽取的实体和关系提取三元组。
本申请另一实施例所提供的知识图谱构建方法,还包括:删除从所述非地理信息数据中的半结构化数据和/或非结构化数据中提取的三元组中置信度小于或等于第一预设阈值的三元组;保留置信度大于第一预设阈值的三元组。
本申请另一实施例所提供的知识图谱构建方法,还包括:
通过相似度算法计算所述置信度大于第一预设阈值的三元组中的各个三元组的谓词与所述本体层中属性的相似度;
删除所述置信度大于第一预设阈值的三元组中谓词与所述本体中的所有属性的相似度都小于等于第二预设阈值的三元组,保留谓词与所述本体中的属性相似度大于第二预设阈值的三元组。
综上,实现了从结构化、半结构化和非结构化文本中抽取出RDF格式的三元组,并将其转换为RDFS格式,与本体适配,从而能满足后续的查询功能。
步骤103:基于所提取的三元组和所述本体层,构建实例层,所述本体层和所述实例层表征所述知识图谱。
具体的,基于所提取的三元组和所述本体层的匹配关系,将所提取的三元组存储在数据库中,得到所述实例层。
参考图12,图12为本申请实施例所提供的三元组入库的流程示意图,如图12所示,每当有三元组要输入知识图谱时候,判断该三元组的主语和宾语在知识图谱中是否已经存在。当主语和宾语均存在时,说明图谱中有一个与待输入三元组信息完全相同的实例,而且已经存在该三元组的版本管理实体,因此丢弃该三元组防止重复输入。并且在该三元组的版本管理对象实体的的计数节点上加1。
图谱中存在三元组的宾语时,我们为图谱构建一个新的主语节点和一个基于该三元组的版本管理三元组。
图谱中存在三元组的主语时,我们为图谱创建一个新的基于该三元组的版本管理三元组和一个宾语节点。
图谱中不存在三元组的主语和宾语时,创建主语节点、宾语节点和该三元组的版本管理三元组。
基于此,本申请另一实施例所提供的知识图谱构建方法,所述将所提取到的三元组存储在数据库中,包括:
当新的三元组输入数据库时,判断该三元组的主语和宾语在所述数据库中是否已经存在;
当所述数据库中存在该三元组的主语和宾语时,丢弃该三元组,并且在该三元组的版本管理器的计数节点上加1;
当所述数据库中仅存在该三元组的宾语时,新建针对该三元组的主语节点和/或基于该三元组的版本管理三元组,并将该三元组的版本管理三元组的计数节点设置为1;
当所述数据库中仅存在该三元组的主语时,新建针对该三元组的宾语节点和/或基于该三元组的版本管理三元组,并将该三元组的版本管理三元组的计数节点设置为1;
当所述数据库中不存在该三元组的主语和宾语时,新建针对该三元组的宾语节点和宾语节点和/或基于该三元组的版本管理三元组,并将该三元组的版本管理三元组的计数节点设置为1。
本申请实施例所提供的知识图谱构建方法,还包括查询操作,示例性的,查询语言可以使用OGC提出的地理语义查询规范GeoSPARQL。基于空间本体的空间数据组织可以描述经纬度坐标、几何中心点位置和面积。它为多源异构时空数据的融合的地方农业名品信息检索分析提供了基础。需要说明的是,引用OGC提出的地理语义查询规范GeoSPARQL知识本申请构建空间本体的一种实施方式,也可以引用其它的空间本体标准,只要在同一个实施例中保持空间本体标准的一致性即可。
基于此,本申请实施例所提供的知识图谱构建方法,还包括:
获取用户的输入查询操作;
基于所述用户输入的内容,返回查询结果。
具体的,在知识图谱中查询目标信息时,我们可以直接给出想要查询的实体,然后知识图谱返回被查询节点及其周围的属性信息。
在本申请另一实施例中,所述基于所述用户输入的内容,返回查询结果,包括:
将所述用户输入的内容进行分词,通过相似度算法计算各个词与所述本体层各个实体的属性的相似度;
返回相似度最高的节点信息作为所述查询结果;其中,所述查询结果包括:与该节点相连接的所有属性信息。
实际应用时,用户在搜索框内键入想要查询的关键词。当输入多个词时,可以将用户输入的内容进行分词处理;当然,用户也可以在输入搜索内容时将各个词之间用空格分隔开。输入一句话时,将主谓宾以空格分隔开再填入搜索框。
逐个计算被查询实体与库中各个实体节点的rdfs:label属性的相似度(rdfs:label是每个实体都有的标签属性,通常指代实体的名称)。相似度计算方法与前述实施例中所述的方法相同,此处不再赘述,先利用Bert对待查询实体和rdfs:label的值做词嵌入,再使用余弦相似度计算方法来判断库中实体与待查询实体相似度最高的节点。
返回相似度最高的节点信息作为查询结果,结果中包含与该节点相连接的所有属性信息。例如,查询“XX樱桃”时,计算知识图谱中与“XX樱桃”相似度最高的rdfs:label的属性值,返回该节点及其周围属性作为查询结果。包括但不限于:产地、种植条件、医药用价值等结果。
本申请实施例所提供的知识图谱构建方法,构建了首个地方农业名品本体,并且分别引入了环境对象和生长条件对象,分别从农业名品当前环境条件和最适宜生长条件两个角度切入构建本体。提出了一种大规模从结构化、半结构化和非结构化文本数据中抽取农业名品信息的方法;利用置信度和属性相似度两次判断三元组的正确性和三元组在本体中的位置。提供了一套从三元组抽取到进入知识图谱指定实体位置的定位方法。这套流程将不适配本体的三元组集合(RDF)转换成了适配于本体的三元组集合(RDFS),从而为后续的查询提供了条件;提出了一种基于版本管理对象实体的三元组歧义处理方法。利用版本管理对象实体,为相同主语谓语但宾语不同的歧义三元组提供了一个歧义储存节点。把消歧的任务交给用户,节省了人力物力;为带有精确坐标的地理信息数据和文本数据分别提供了一种入库流程,使得两种数据的结构化、半结构化、非结构化数据都能经过本申请中的数据处理流程,以三元组的形式进入知识图谱。为多源数据入库提供了接口。
本申请一实施例还提供了一种知识图谱构建装置,参考图13,该实施例中的知识图谱构建装置1300,包括:
构建单元1310:用于以地方名品通用本体为核心节点构建本体层,所述地方名品通用本体,其下包括:环境对象实体,用于表征特定地理范围内的环境条件,生长条件对象实体:用于表征地方农产物的适宜生长条件,地方产物对象实体:用于表征地方产物自身的通用属性特点;版本管理对象实体:用于表征存在歧义的三元组;
获取产物数据,基于所述产物数据提取三元组;
获取单元1320:用于获取产物数据,基于所述产物数据提取三元组;
所述构建单元1310:基于所提取的三元组和所述本体层,构建实例层,所述本体层和所述实例层表征所述知识图谱。
在本申请一些实施例中,所述版本对象管理对象实体,其下包括:源实体:用于表征三元组的信息来源;审核实体:用于表征三元组是否被审核;计数实体:用于表征三元组的入库次数。
在本申请一些实施例中,所述地方农业名品通用本体,其下还包括:时间对象本体:用于表征三元组的时间属性;空间对象本体:用于表征产物的空间属性。
在本申请一些实施例中,所述产物数据包括地理信息数据和非地理信息数据;所述获取单元1320:具体用于从所述地理信息数据中和/或所述非地理信息数据中提取三元组;其中,所述非地理信息包括以下数据至少之一:文本信息数据、图片信息数据、视频信息数据和音频信息数据。
在本申请一些实施例中,所述获取单元1320:具体用于将所述地理信息数据中的非结构化数据、半结构化数据或结构化数据转化为GeoJSON格式的结构化地理信息数据,基于所述本体层中的实体和属性定义,从所述GeoJSON的结构化地理信息数据中提取三元组。
在本申请一些实施例中,所述获取单元1320:具体用于基于所述本体层中的实体和属性定义,从所述非地理信息数据中抽取三元组;其中,当所述非地理信息数据为图片信息数据、视频信息数据或音频信息数据时,在从所述非地理信息数据中抽取三元组前将其转换为对应的文本信息数据。
在本申请一些实施例中,所述获取单元1320:具体用于基于所述本体层中的实体和属性定义,通过预设的规则从所述非地理信息数据中的结构化数据中提取三元组。
在本申请一些实施例中,所述获取单元1320:具体用于基于所述本体层中的实体和属性定义,通过三元组事件抽取方法抽取所述非地理信息数据中的半结构化数据和/或非结构化数据中的实体和关系,基于所抽取的实体和关系提取三元组。
在本申请一些实施例中,所述获取单元1320:具体用于删除从所述非地理信息数据中的半结构化数据和/或非结构化数据中提取的三元组中置信度小于或等于第一预设阈值的三元组;保留置信度大于第一预设阈值的三元组。
在本申请一些实施例中,所述获取单元1320:具体用于通过相似度算法计算所述置信度大于第一预设阈值的三元组中的各个三元组的谓词与所述本体层中属性的相似度;删除所述置信度大于第一预设阈值的三元组中谓词与所述本体中的所有属性都不相似的的三元组,保留谓词与所述本体中的属性相似的三元组。
在本申请一些实施例中,所述构建单元1310:具体用于基于所提取的三元组和所述本体层的匹配关系,将所提取的三元组存储在数据库中,得到所述实例层。
在本申请一些实施例中,所述构建单元1310:具体用于当新的三元组输入数据库时,判断该三元组的主语和宾语在所述数据库中是否已经存在;当所述数据库中存在该三元组的主语和宾语时,丢弃该三元组,并且在该三元组的版本管理器的计数节点上加1;当所述数据库中仅存在该三元组的宾语时,新建针对该三元组的主语节点和/或基于该三元组的版本管理三元组,并将该三元组的版本管理三元组的计数节点设置为1;当所述数据库中仅存在该三元组的主语时,新建针对该三元组的宾语节点和/或基于该三元组的版本管理三元组,并将该三元组的版本管理三元组的计数节点设置为1;当所述数据库中不存在该三元组的主语和宾语时,新建针对该三元组的宾语节点和宾语节点和/或基于该三元组的版本管理三元组,并将该三元组版本管理三元组计数节点设置为1。
在本申请一些实施例中,所述知识图谱构建装置1300,还包括:查询单元1330:用于获取用户的输入查询操作;基于所述用户输入内容,返回查询结果。
在本申请一些实施例中,所述查询单元1330:具体用于将所述用户输入的内容进行分词,通过相似度算法计算各个词与所述本体层各个实体的属性的相似度;返回相似度最高的节点信息作为所述查询结果;其中,所述查询结果包括:与该节点相连接的所有属性信息。
本领域技术人员应当理解,图13所示的知识图谱构建装置中的各单元的实现功能可参照前述方法的相关描述而理解。图13所示的知识图谱构建装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
图14是本申请实施例提供的一种电子设备1400示意性结构图。图14所示的电子设备1400包括处理器1410,处理器1410可以从存储器中调用并运行计算机程序,以实现本申请实施例中的方法。
可选地,如图14所示,电子设备1400还可以包括存储器1420。其中,处理器1410可以从存储器1420中调用并运行计算机程序,以实现本申请实施例中的方法。
其中,存储器1420可以是独立于处理器1410的一个单独的器件,也可以集成在处理器1410中。
可选地,如图14所示,电子设备1400还可以包括收发器1430,处理器1410可以控制该收发器1430与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。
其中,收发器1430可以包括发射机和接收机。收发器1430还可以进一步包括天线,天线的数量可以为一个或多个。
该电子设备1400具体可为本申请实施例的知识图谱构建装置,并且该电子设备1400可以实现本申请实施例的各个方法中由知识图谱构建装置实现的相应流程,为了简洁,在此不再赘述。
图15是本申请实施例的芯片的示意性结构图。图15所示的芯片1500包括处理器1510,处理器1510可以从存储器中调用并运行计算机程序,以实现本申请实施例中的方法。
可选地,如图15所示,芯片1500还可以包括存储器1520。其中,处理器1510可以从存储器1520中调用并运行计算机程序,以实现本申请实施例中的方法。
其中,存储器1520可以是独立于处理器1510的一个单独的器件,也可以集成在处理器1510中。
可选地,该芯片1500还可以包括输入接口1530。其中,处理器1510可以控制该输入接口1530与其他设备或芯片进行通信,具体地,可以获取其他设备或芯片发送的信息或数据。
可选地,该芯片1500还可以包括输出接口1540。其中,处理器1510可以控制该输出接口1540与其他设备或芯片进行通信,具体地,可以向其他设备或芯片输出信息或数据。
该芯片可应用于本申请实施例中的知识图谱构建装置,并且该芯片可以实现本申请实施例的各个方法中由知识图谱构建装置实现的相应流程,为了简洁,在此不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片,系统芯片,芯片系统或片上系统芯片等。
应理解,本申请实施例的处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,上述存储器为示例性但不是限制性说明,例如,本申请实施例中的存储器还可以是静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)等等。也就是说,本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序。该计算机可读存储介质可应用于本申请实施例中的知识图谱构建装置,并且该计算机程序使得计算机执行本申请实施例的各个方法中由知识图谱构建装置实现的相应流程,为了简洁,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者知识图谱构建装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,)ROM、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种知识图谱构建方法,其特征在于,包括:
以地方名品通用本体为核心节点构建本体层,所述地方名品通用本体,其下包括:环境对象实体,用于表征特定地理范围内的环境条件,生长条件对象实体:用于表征地方农产物的适宜生长条件,地方产物对象实体:用于表征地方产物自身的通用属性特点;版本管理对象实体:用于表征存在歧义的三元组;
获取产物数据,基于所述产物数据提取三元组;
基于所提取的三元组和所述本体层,构建实例层;所述本体层和所述实例层表征所述知识图谱;所述产物数据包括地理信息数据和非地理信息数据;
所述基于所述产物数据提取三元组,包括:
从所述地理信息数据中和/或所述非地理信息数据中提取三元组;其中,所述非地理信息包括以下数据至少之一:文本信息数据、图片信息数据、视频信息数据和音频信息数据;
其中,从所述地理信息数据中提取三元组,包括:
将所述地理信息数据中的非结构化数据、半结构化数据或结构化数据转化为GeoJSON格式的结构化地理信息数据,基于所述本体层中的实体和属性定义,从所述GeoJSON的结构化地理信息数据中提取三元组;
从所述非地理信息数据中提取三元组,包括:
基于所述本体层中的实体、属性和关系定义,从所述非地理信息数据中抽取三元组;其中,当所述非地理信息数据为图片信息数据、视频信息数据或音频信息数据时,在从所述非地理信息数据中抽取三元组前将其转换为对应的文本信息数据;
所述基于所述本体层中的实体、属性和关系定义,从所述非地理信息数据中抽取三元组,包括:
基于所述本体层中的实体、属性和关系定义,通过预设的规则从所述非地理信息数据中的结构化数据中提取三元组;
基于所述本体层中的实体、属性和关系定义,通过三元组事件抽取的方法抽取非地理信息数据中的半结构化数据和/或非结构化数据中的实体、属性和关系,基于所抽取的实体、属性和关系提取三元组;
删除从所述非地理信息数据中的半结构化数据和/或非结构化数据中提取的三元组中置信度小于或等于第一预设阈值的三元组;保留置信度大于第一预设阈值的三元组;
通过相似度算法计算所述置信度大于第一预设阈值的三元组中的各个三元组的谓词与所述本体层中属性的相似度;
删除所述置信度大于第一预设阈值的三元组中谓词与所述本体中的所有属性都不相似的三元组,保留谓词与所述本体中的属性相似的三元组。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,
所述地方名品通用本体,其下还包括:
时间对象本体:用于表征三元组的时间属性;空间对象本体:用于表征产物的空间属性;
所述版本管理对象实体,其下包括:
源实体:用于表征三元组的信息来源;
审核实体:用于表征三元组是否被审核;
计数实体:用于表征同一三元组的入库次数。
3.根据权利要求1-2中任一项所述的知识图谱构建方法,其特征在于,所述基于所提取的三元组和所述本体层构建实例层,包括:
基于所提取的三元组和所述本体层的匹配关系,将所提取的三元组存储在数据库中,得到所述实例层。
4.根据权利要求3所述的知识图谱构建方法,其特征在于,所述将所提取到的三元组存储在数据库中,包括:
当新的三元组输入数据库时,判断该三元组的主语和宾语在所述数据库中是否已经存在;
当所述数据库中存在该三元组的主语和宾语时,丢弃该三元组,并且在该三元组的版本管理器的计数节点上加1;
当所述数据库中仅存在该三元组的宾语时,新建针对该三元组的主语节点和/或基于该三元组的版本管理三元组,并将该三元组的版本管理三元组的计数节点设置为1;
当所述数据库中仅存在该三元组的主语时,新建针对该三元组的宾语节点和/或基于该三元组的版本管理三元组,并将该三元组的版本管理三元组的计数节点设置为1;
当所述数据库中不存在该三元组的主语和宾语时,新建针对该三元组的宾语节点和宾语节点和/或基于该三元组的版本管理三元组,并将该三元组的版本管理三元组的计数节点设置为1。
5.根据权利要求1-2、4中任一项所述的知识图谱构建方法,其特征在于,还包括:
获取用户的输入查询操作;
将用户输入的内容进行分词,通过相似度算法计算各个词与所述本体层各个实体的属性的相似度;
返回相似度最高的节点信息作为查询结果;其中,所述查询结果包括:与该节点相连接的所有属性信息。
6.一种知识图谱构建装置,其特征在于,包括:
构建单元:用于以地方名品通用本体为核心节点构建本体层,所述地方名品通用本体,其下包括:环境对象实体,用于表征特定地理范围内的环境条件,生长条件对象实体:用于表征地方农产物的适宜生长条件,地方产物对象实体:用于表征地方产物自身的通用属性特点;版本管理对象实体:用于表征存在歧义的三元组;
获取单元:用于获取产物数据,基于所述产物数据提取三元组;
所述构建单元:还用于基于所提取的三元组和所述本体层,构建实例层,所述本体层和所述实例层表征所述知识图谱;其中,
所述产物数据包括地理信息数据和非地理信息数据;
所述获取单元:具体用于从所述地理信息数据中和/或所述非地理信息数据中提取三元组;其中,所述非地理信息包括以下数据至少之一:文本信息数据、图片信息数据、视频信息数据和音频信息数据;将所述地理信息数据中的非结构化数据、半结构化数据或结构化数据转化为GeoJSON格式的结构化地理信息数据,基于所述本体层中的实体和属性定义,从所述GeoJSON的结构化地理信息数据中提取三元组;基于所述本体层中的实体、属性和关系定义,从所述非地理信息数据中抽取三元组;其中,当所述非地理信息数据为图片信息数据、视频信息数据或音频信息数据时,在从所述非地理信息数据中抽取三元组前将其转换为对应的文本信息数据;
所述获取单元:还具体用于基于所述本体层中的实体、属性和关系定义,通过预设的规则从所述非地理信息数据中的结构化数据中提取三元组;基于所述本体层中的实体、属性和关系定义,通过三元组事件抽取的方法抽取非地理信息数据中的半结构化数据和/或非结构化数据中的实体、属性和关系,基于所抽取的实体、属性和关系提取三元组;删除从所述非地理信息数据中的半结构化数据和/或非结构化数据中提取的三元组中置信度小于或等于第一预设阈值的三元组;保留置信度大于第一预设阈值的三元组;通过相似度算法计算所述置信度大于第一预设阈值的三元组中的各个三元组的谓词与所述本体层中属性的相似度;删除所述置信度大于第一预设阈值的三元组中谓词与所述本体中的所有属性都不相似的三元组,保留谓词与所述本体中的属性相似的三元组。
7.一种电子设备,其特征在于,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1-5中任一项所述的知识图谱构建方法。
8.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1-5中任一项所述的知识图谱构建方法。
CN202211505747.3A 2022-11-28 2022-11-28 一种知识图谱构建方法、装置及存储介质 Active CN115936114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211505747.3A CN115936114B (zh) 2022-11-28 2022-11-28 一种知识图谱构建方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211505747.3A CN115936114B (zh) 2022-11-28 2022-11-28 一种知识图谱构建方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115936114A CN115936114A (zh) 2023-04-07
CN115936114B true CN115936114B (zh) 2023-06-20

Family

ID=86698702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211505747.3A Active CN115936114B (zh) 2022-11-28 2022-11-28 一种知识图谱构建方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115936114B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611700A (zh) * 2023-04-08 2023-08-18 湖南省水利水电勘测设计规划研究总院有限公司 基于知识图谱的区域水土流失动态监测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150169758A1 (en) * 2013-12-17 2015-06-18 Luigi ASSOM Multi-partite graph database
CN113282762B (zh) * 2021-05-27 2023-06-02 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113505234B (zh) * 2021-06-07 2023-11-21 中国科学院地理科学与资源研究所 一种生态文明地理知识图谱的构建方法
CN114595344B (zh) * 2022-05-09 2022-07-19 北京市农林科学院信息技术研究中心 面向农作物品种管理的知识图谱构建方法及装置
CN115269751B (zh) * 2022-05-10 2023-05-30 泰瑞数创科技(北京)股份有限公司 地理实体时空知识图谱本体库构建方法

Also Published As

Publication number Publication date
CN115936114A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Gong et al. A new research paradigm for global land cover mapping
Koukoulas et al. Quantifying the spatial properties of forest canopy gaps using LiDAR imagery and GIS
Zaragozí et al. Modelling farmland abandonment: A study combining GIS and data mining techniques
CN114860884A (zh) 一种面向动态分析的时空知识图谱构建系统和方法
Gevana et al. Land use characterization and change detection of a small mangrove area in Banacon Island, Bohol, Philippines using a maximum likelihood classification method
Aragoneses et al. Generation and mapping of fuel types for fire risk assessment
CN115936114B (zh) 一种知识图谱构建方法、装置及存储介质
Badr et al. Spatial suitability assessment for vineyard site selection based on fuzzy logic
Young et al. Exploring a big data approach to building a list frame for urban agriculture: A pilot study in the city of Baltimore
Wondie et al. Modelling the dynamics of landscape transformations and population growth in the highlands of Ethiopia using remote-sensing data
Ovakoglou et al. Downscaling of MODIS leaf area index using landsat vegetation index
Li et al. Mapping spatiotemporal decisions for sustainable productivity of bamboo forest land
Hussain et al. A systematic review on crop-yield prediction through unmanned aerial vehicles
Eshetae et al. Spatial characterization and distribution modelling of Ensete ventricosum (wild and cultivated) in Ethiopia
CN115878826A (zh) 多源遥感影像元数据溯源信息组织方法与管理系统
Jäger et al. Data, information & knowledge sources in the agricultural domain
CN114996474A (zh) 一种葡萄种植知识图谱数据库的构建方法
Bratic et al. High-resolution land cover classification: cost-effective approach for extraction of reliable training data from existing land cover datasets
Tran et al. Towards a semantic framework for exploiting heterogeneous environmental data
CN106503088A (zh) 一种基于本体的遥感影像应用案例时空语义表达方法
Yang et al. Remote sense image classification based on CART algorithm
Khatib et al. Mapping the spatial distribution and potential expansion of agricultural plastic greenhouses in Tartus, Syria using GIS and remote sensing techniques
CN113032504A (zh) 村镇社区公共服务时空数据汇聚方法及装置
Sun et al. Crop classification in cloudy and rainy areas based on the optical-synthetic aperture radar response mechanism
CN117972116B (zh) 融合时序知识图谱的农作物遥感影像智能样本库构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant