CN116226408A

CN116226408A - 农产品生长环境知识图谱构建方法及装置、存储介质

Info

Publication number: CN116226408A
Application number: CN202310311784.9A
Authority: CN
Inventors: 彭玲; 李兆博; 张雯悦; 覃沧
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-06-06
Anticipated expiration: 2043-03-27
Also published as: CN116226408B

Abstract

本申请提供了一种农产品生长环境知识图谱构建方法及装置、存储介质，包括：将生长环境文本数据转换为第一字符向量和词性向量；根据第一字符向量，在生长环境文本数据中确定第一位置数据，并根据第一位置数据从生长环境文本数据中确定头实体；利用预设自注意力函数对第一位置数据进行处理，得到头实体的第二字符向量；遍历预设关系类型，基于词性向量、第一字符向量和第二字符向量，在生长环境文本数据中确定第一位置数据，并根据第一位置数据从生长环境文本数据中确定尾实体；将头实体、尾实体和第一关系类型组成三元组数据，并按照农产品的生长环境模型将三元组数据构建成农产品生长环境知识图谱。

Description

农产品生长环境知识图谱构建方法及装置、存储介质

技术领域

本申请涉及知识图谱领域，尤其涉及一种农产品生长环境知识图谱构建方法及装置、存储介质。

背景技术

农业是我国的第一产业，全国各地有许多彰显本地环境特征的农产品，各地为了宣传当地特产，开发了大量宣传网站，互联网上因此存在海量的关于地方农产品相关描述的文本知识。然而，目前网络上表述农产品生长环境方面的文本信息都是都以非结构化数据形式集中在百科全书或开放领域的百科网站，并存在知识数据信息化程度低、聚合能力差、利用效率低、知识共建共享困难等问题，用户对这些分散于各大平台的文本知识只能进行简单浏览，无法进行深度、多维度查询、检索；进而导致农产品信息检索的智能性低的问题。

发明内容

本申请实施例提出一种农产品生长环境知识图谱构建方法及装置、存储介质，能够提高农产品信息检索的智能性。

本申请的技术方案是这样实现的：

第一方面，本申请实施例提出一种农产品生长环境知识图谱构建方法，所述方法包括：获取农产品的生长环境文本数据；并将生长环境文本数据转换为第一字符向量和词性向量；根据第一字符向量，在生长环境文本数据中确定第一位置数据，并根据第一位置数据从生长环境文本数据中确定头实体；利用预设自注意力函数对第一位置数据进行处理，得到头实体的第二字符向量；遍历预设关系类型，基于词性向量、第一字符向量和第二字符向量，在生长环境文本数据中确定第一位置数据，并根据第一位置数据从生长环境文本数据中确定与头实体存在第一关系类型的尾实体；其中，第一关系类型为预设关系类型中将头实体和尾实体联系起来的关系类型；将头实体、尾实体和第一关系类型组成三元组数据，并按照农产品的生长环境模型将三元组数据构建成农产品生长环境知识图谱。

第二方面，本申请实施例提出一种农产品生长环境知识图谱构建装置，所述装置包括：处理器和存储器，所述处理器执行存储器存储的运行程序时上述任一项所述的农产品生长环境知识图谱构建方法。

第三方面，本申请实施例提出一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述的农产品生长环境知识图谱构建方法。

本申请实施例提供了一种农产品生长环境知识图谱构建方法及装置、存储介质，该方法包括：获取农产品的生长环境文本数据；并将生长环境文本数据转换为第一字符向量和词性向量；根据第一字符向量，在生长环境文本数据中确定第一位置数据，并根据第一位置数据从生长环境文本数据中确定头实体；利用预设自注意力函数对第一位置数据进行处理，得到头实体的第二字符向量；遍历预设关系类型，基于词性向量、第一字符向量和第二字符向量，在生长环境文本数据中确定第一位置数据，并根据第一位置数据从生长环境文本数据中确定与头实体存在第一关系类型的尾实体；其中，第一关系类型为预设关系类型中将头实体和尾实体联系起来的关系类型；将头实体、尾实体和第一关系类型组成三元组数据，并按照农产品的生长环境模型将三元组数据构建成农产品生长环境知识图谱。采用上述方法实现方案，通过从农产品的生长环境文本数据提取出头实体和与头实体存在第一关系类型的尾实体来构建农产品生长环境知识图谱，其中，将词性向量融入实体标注过程，并引用自注意力函数对不同头实体赋予不同的权重，抽取得到能更好地表示头实体的第二字符向量，能够提高农产品信息检索的智能性。

附图说明

图1为本申请实施例提供的一种农产品生长环境知识图谱构建方法的流程图；

图2为本申请实施例提供的一种示例性的标注策略示意图；

图3为本申请实施例提供的一种示例性的知识抽取框架示意图；

图4为本申请实施例提供的一种农产品生长环境知识图谱构建框架示意图；

图5为本申请实施例提供的一种农产品生长环境知识图谱构建装置的结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。还需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本申请实施例提出一种农产品生长环境知识图谱构建方法，如图1所示，该方法包括：

S101、获取农产品的生长环境文本数据；并将生长环境文本数据转换为第一字符向量和词性向量。

本申请实施例提供的一种农产品生长环境知识图谱构建方法可以适用于基于网络文本媒体进行农产品生长环境图谱构建的场景下。

在本申请实施例中，从百度百科词条中整理关于农产品生长环境的气候、地形地貌、土壤、地理位置以及农产品类型和所属地理标志的语句作为农产品的生长环境文本数据。

在本申请实施例中，在获取到农产品的生长环境文本数据后，对生长环境文本数据进行数据预处理，之后，将预处理后的生长环境文本数据转换为第一字符向量和词性向量。

在本申请实施例中，数据预处理包括数据清洗和数据去重，由于农产品的生长环境文本数据多为从百度百科词条中收集的文本，其对不同农产品的同一属性的表达形式多种多样，且收集的数据中有许多重复，须经过数据预处理再进行进一步的知识抽取。考虑到生长环境模型对单句长度的限制和为了使生长环境模型能够得到更好的训练，通过分析文本数据，发现单个气候描述语句中常常出现多个气候属性，并且在气候属性后会伴随对该气候属性的描述。所以按照各个气候属性所在的文本中的位置，将复杂的气候描述文本进行细分，同时去除不属于上述农产品生长环境建模中的内容来帮助模型更好地学习语义信息。之后手动去除文本中的重复数据。

在本申请实施例中，提出一种CasRel与POS标注的联合模型对三元组进行联合抽取，将常常被忽视的词性特征向量融入级联二元标注模型，增强语义特征表示，提高模型的学习效果。

需要说明的是，CasRel模型是一种主要针对传统的Pipline模型(流水线学习模型)处理重叠关系效果较差、容易造成误差累计问题而改进的级联二元标注框架，其基本思想是利用两级级联步骤提取三元组。首先，从输入句子中检测出头实体s。然后，对于每个候选头实体检查所有可能的关系p，确定是否有一个关系p可以将句子中的尾实体o与该头实体s联系起来。与这两个步骤相对应，级联解码器由头实体标注器和特定关系的尾实体标注器组成。头实体标注器模块通过直接解码编码器产生的编码词向量来识别输入句子中所有可能的头实体，特定关系的尾实体标注器模块同时识别尾实体以及与头实体标注器获得的头实体的关系类型。

需要说明的是，POS(Part-of-Speech，词性)指的是词在句子中的语法功能。POS标注是对句子中每个词进行语法分类的过程，其目的是帮助我们理解词语在句子中的功能和意义。POS标注是自然语言处理领域中非常重要的一个任务，它对于语言模型的训练和其他NLP任务都至关重要。在POS标注时会给句子中的每个词语打上一个词性标记，以指示该词语在句子中的语法功能。为了增强语义特征表示，我们将词性特征向量引入级联二元标注模型。

在本申请实施例中，因为中文文本中的字符和词语都包含完整语义，所以本文采取字词融合的方式，将每句生长环境文本数据转换为

和/>

其中/>

表示字符向量，_n为字符在句子中的位置，/>

表示词性向量，_m为词语在句子中的位置。

在本申请实施例中，对生长环境文本数据进行POS标注，得到生长环境文本数据中每个词语对应的词性向量。

具体的，依据jieba词性表分别构建jieba程序标注辅助人工检查的方式进行词性标注，例如句子“延川县属于温带大陆性季风气候。”可用表一所示的词性标注样本示例表示。由于词性标注规则的覆盖率有限，不能完全覆盖所有句式，所以部分标注效果欠佳的语句在利用jieba程序标注后人工对照jieba词性表修正标注结果。

表一

S102、根据第一字符向量，在生长环境文本数据中确定第一位置数据，并根据第一位置数据从生长环境文本数据中确定头实体。

在本申请实施例中，将第一字符向量输入公式(1)和公式(2)中，得到组成第一位置数据的第一起始位置和第一结束位置；

其中，c_i为第一字符向量，

为第一起始位置，/>

为第一结束位置，σ为sigmoid激活函数，W_start和W_end为预训练权重参数，t_start和t_end为预训练偏置参数。

在本申请实施例中，使用了头尾实体分离标注、“01”标注与词性标注的标注方法。其中，头尾实体分离标注方式为将标注序列数组分为头实体序列数组和尾实体序列数组，相较于传统单序列数组标注头尾实体的方式，将头尾实体分为2个独立数组单独标注，解决了嵌套头尾实体、重叠头尾实体标注的问题。“01”标注方式为创建两列数组，实体起始数组和实体结束数组分别来表示实体的起始位置和结束位置。

示例性的，首先对于输入的文本数据，创建2个数组长度与输入文本长度相同且元素全为“0”的数组进行初始化，再根据预先标注的实体内容，分别将实体的头尾位置在对应数组中分别标为“1”，当一个句子中有多个可能的实体时，依据就近原则，起始数组中的“1”到最近的结束数组的“1”之间的部分看成是一个实体。以句子“白河县气候属北亚热带湿润季风气候，年平均无霜期264天”为例，标注策略如图2所示。

S103、利用预设自注意力函数对第一位置数据进行处理，得到头实体的第二字符向量。

在本申请实施例中，首先根据第一位置数据、查询矩阵参数、键矩阵参数和值矩阵参数，生成查询矩阵、键矩阵和值矩阵；之后将查询矩阵、键矩阵和值矩阵输入公式(3)(预设自注意力函数)中，得到第二字符向量；

其中，Q，K，V分别表征查询矩阵、键矩阵和值矩阵。

需要说明的是，每个头实体建立起和每一个特定关系标注器的映射，在这个过程中引入Self-Attention自注意力函数应用于头实体解码器，对头实体的编码位置向量(第一位置数据)进行特征提取，进而对整个句子进行加权处理，力图降低噪声数据的权重。每个实体词向量的重要性各不相同，因此对不同实体赋予不同的权重，可以抽取得到能更好地表示实体的向量。具体为将头实体解码器中所得到的每一个头实体对应的编码位置向量

根据自注意力函数计算后加权求和后得到第m个头实体的第二字符向量表示/>

需要说明的是，第一位置数据分别与查询矩阵参数、键矩阵参数和值矩阵参数相乘，得到查询矩阵、键矩阵和值矩阵。再使用预设自注意力函数计算得到不同位置的注意力大小，最后通过线性变换得到第二字符向量。本发明使用的自注意力函数为点积乘法注意力函数，在运算过程中更快，节省运行空间，比例因子为

作用为抵消点积过大带来的影响。

S104、遍历预设关系类型，基于词性向量、第一字符向量和第二字符向量，在生长环境文本数据中确定第一位置数据，并根据第一位置数据从生长环境文本数据中确定与头实体存在第一关系类型的尾实体；其中，第一关系类型为预设关系类型中将头实体和尾实体联系起来的关系类型。

在本申请实施例中，将词性向量、第一字符向量、第二字符向量和预设关系类型输入下述公式(4)和(5)中，得到组成第二位置数据的第二起始位置和第二结束位置；

其中，

为第二起始位置，/>

为第二结束位置，r为预设关系类型；c_i为第一字符向量；/>

为第二字符向量；pos_i为第i个字符所在词的词性向量。

基于S101-S104的描述，本申请实施例提出一种知识抽取框架，参见图3。使用Word2Vec词向量预训练模型作为Word2Vec词向量编码层，通过Word2Vec词向量预训练模型对生长环境文本数据“白河县气候属北亚热带湿润季风气候，年平均无霜期264天”进行特征提取，得到word2vec编码向量；将word2vec编码向量输入句子语义特征表示层，以对word2vec编码向量进行句子语义特征提取，得到第一字符向量

之后将第一字符向量输入头实体标注层，计算最有可能为头实体的边界，起始和结束位置分别在起始数组和结束数组中用“1”表示，得到头实体“白河县”；在头实体中引入自注意力函数，得到第二字符向量/>

另一侧，将生长环境文本数据输入词性特征嵌入层，得到词性向量/>

将第一字符向量、第二字符向量和词性向量输入尾实体标注层，根据输入头实体“白河县”，在表示“气候_类型”关系的关系标注器得到尾实体“北亚热带湿润季风气候”，在表示“气候_无霜期”关系的关系标注器得到尾实体“264天”，最终输出(白河县,气候_类型,北亚热带湿润季风气候)和(白河县,气候_无霜期,264天)二个三元组，完成抽取过程。

可以理解的是，提出了一种基于网络文本的全国性(大范围)农业名品生长环境非结构化数据提取农业名品信息的NLP技术方法，利用一种基于CasRel与POS标注联合模型将词性特征向量融入级联二元标注模型，增强语义特征表示，并引入预设自注意力函数，对不同实体赋予不同的权重，抽取得到能更好地表示实体的向量，最终较好的解决了文本数据中重叠实体关系三元组的提取问题。

S105、将头实体、尾实体和第一关系类型组成三元组数据，并按照农产品的生长环境模型将三元组数据构建成农产品生长环境知识图谱。

在本申请实施例中，利用环境类型，环境类型对应的属性数据以及属性数据的数据类型构建农产品的生长环境模型；属性数据表征预设关系类型；将生长环境模型和三元组分别导入GraphDB三元组存储平台中；在GraphDB三元组存储平台中，按照模型存储三元组。

可选的，环境类型包括以下至少一种：土壤、气候、地形地貌、水文、地质、农产品类别和地理标志；具体的可以根据实际情况进行选择，本申请实施例不做具体的限定。

可选的，土壤的属性数据包括以下至少一种：土壤_类型、土壤_PH值、土壤_透水性、土壤_透气性、土壤_肥力；具体的可以根据实际情况进行选择，本申请实施例不做具体的限定。

可选的，气候的属性数据包括以下至少一种：气候_类型、气候_年平均温度、气候_无霜期、气候_年平均降水量；具体的可以根据实际情况进行选择，本申请实施例不做具体的限定。

可选的，地形地貌的属性数据包括以下至少一种：地形地貌_地势、地形地貌_地形、地形地貌_海拔；具体的可以根据实际情况进行选择，本申请实施例不做具体的限定。

可选的，农产品类别的属性数据包括以下至少一种：茶叶类、果品类、蔬菜类，具体的可以根据实际情况进行选择，本申请实施例不做具体的限定。

示例性的，参见表二，为农产品的生长环境模型。

表二

/>

/>

在本申请实施例中，采用知识图谱可视化技术，以图结构形式实现名品生长环境数据画像表示。

可以理解的是，通过结合农业专家和地学专家经验构建了首个全国性的农业地方名品生长环境本体，将农产品生长环境知识图谱细分为包括土壤、气候、地形地貌、水文、地质5大类生长环境和名品所属类别实体的一级图谱，每一大类一级图谱下细分出多个二级图谱，同时定义出每个二级图谱的实体、关系和属性。与普通前述相关知识图谱相比，本发明在通用语义本体基础上，构建了涉及农产品生长环境多个相关语义本体的表达，从而建立了农产品生长环境涉及的多源异构数据蕴含的多元地理文本之间的语义关系。

基于上述实施例，本申请实施例提出一种农产品生长环境知识图谱构建框架，如图4所示，包括：知识来源模块、数据预处理模块、本体建模模块、知识抽取模块、知识存储模块和知识表达模块；其中，知识来源模块中包括从网络媒体获取到的农产品所属地理标志名称、农产品生长地理位置、农产品生长地形地貌、农产品生长土壤、农产品生长气候、农产品生长海拔等。数据预处理模块包括数据清洗模块和数据去重模块、本体建模模块用于实现农产品地理文本数据建模，以生成包括地理标志名称、地理位置、地形地貌、土壤、气候、海拔的本体模型。知识抽取模块包括数据标注模块、模型训练模块、三元组抽取模块和数据后处理模块。知识存储模块包括本体导入模块和实例集合导入模块，分别用于从本体建模模块中导入本体模型，从知识抽取模块中导入实例集合。知识表达模块用于实现实例集合的可视化表达。

可以理解的是，通过从农产品的生长环境文本数据提取出头实体和与头实体存在第一关系类型的尾实体来构建农产品生长环境知识图谱，其中，将词性向量融入实体标注过程，并引用自注意力函数对不同头实体赋予不同的权重，抽取得到能更好地表示头实体的第二字符向量，能够提高农产品信息检索的智能性。

基于上述实施例，本申请实施例提出一种农产品生长环境知识图谱构建装置10，在实际应用中，基于上述实施例的同一公开构思下，如图5所示，本实施例的农产品生长环境知识图谱构建装置10包括：处理器100、存储器101及通信总线102。

在具体的实施例的过程中，上述处理器100可以为特定用途集成电路(ASIC，Application Specific Integrated Circuit)、数字信号处理器(DSP，Digital SignalProcessor)、数字信号处理图像处理装置(DSPD，Digital Signal Processing Device)、可编程逻辑图像处理装置(PLD，Programmable Logic Device)、现场可编程门阵列(FPGA，Field Programmable Gate Array)、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本实施例不作具体限定。

在本申请实施例中，上述通信总线102用于实现处理器100和存储器101之间的连接通信；上述处理器100执行存储器101中存储的运行程序时实现如下的农产品生长环境知识图谱构建方法：

获取农产品的生长环境文本数据；并将所述生长环境文本数据转换为第一字符向量和词性向量；根据所述第一字符向量，在所述生长环境文本数据中确定第一位置数据，并根据所述第一位置数据从所述生长环境文本数据中确定头实体；利用预设自注意力函数对所述第一位置数据进行处理，得到所述头实体的第二字符向量；遍历预设关系类型，基于所述词性向量、所述第一字符向量和所述第二字符向量，在所述生长环境文本数据中确定第一位置数据，并根据所述第一位置数据从所述生长环境文本数据中确定与所述头实体存在第一关系类型的尾实体；其中，所述第一关系类型为所述预设关系类型中将所述头实体和所述尾实体联系起来的关系类型；将所述头实体、所述尾实体和所述第一关系类型组成三元组数据，并按照农产品的生长环境模型将所述三元组数据构建成农产品生长环境知识图谱。

可选的，所述处理器100，还用于将所述第一字符向量输入下述公式中，得到组成所述第一位置数据的第一起始位置和第一结束位置；

其中，c_i为第一字符向量，

为第一起始位置，/>

可选的，所述处理器100，还用于根据所述第一位置数据、查询矩阵参数、键矩阵参数和值矩阵参数，生成查询矩阵、键矩阵和值矩阵；将所述查询矩阵、所述键矩阵和所述值矩阵输入下述预设自注意力函数中，以得到所述第二字符向量；

其中，Q，K，V分别表征查询矩阵、键矩阵和值矩阵，

为比例因子。

可选的，所述处理器100，还用于将所述词性向量、所述第一字符向量、所述第二字符向量和所述预设关系类型输入下述公式中，得到组成所述第二位置数据的第二起始位置和第二结束位置；

其中，

为第二起始位置，/>

为第二结束位置，r为预设关系类型；c_i为第一字符向量；/>

为第二字符向量；pos_i为第i个字符所在词的词性向量。

可选的，所述处理器100，还用于对所述生长环境文本数据进行POS标注，得到所述生长环境文本数据中每个词语对应的所述词性向量。

可选的，所述处理器100，还用于通过Word2Vec词向量预训练模型对生长环境文本数据进行特征提取，得到word2vec编码向量；对所述word2vec编码向量进行句子语义特征提取，得到所述第一字符向量。

可选的，所述处理器100，还用于利用环境类型，所述环境类型对应的属性数据以及所述属性数据的数据类型构建农产品的生长环境模型；所述属性数据表征预设关系类型；将所述生长环境模型和所述三元组分别导入GrapphDB三元组存储平台中；在GraphDB三元组存储平台中，按照所述模型存储所述三元组。

可选的，所述环境类型包括以下至少一种：土壤、气候、地形地貌、水文、地质、农产品类别和所述地理标志；所述土壤的属性数据包括以下至少一种：土壤_类型、土壤_PH值、土壤_透水性、土壤_透气性、土壤_肥力；所述气候的属性数据包括以下至少一种：气候_类型、气候_年平均温度、气候_无霜期、气候_年平均降水量；所述地形地貌的属性数据包括以下至少一种：地形地貌_地势、地形地貌_地形、地形地貌_海拔；所述农产品类别的属性数据包括以下至少一种：茶叶类、果品类、蔬菜类。

本申请实施例提供一种存储介质，其上存储有计算机程序，上述计算机可读存储介质存储有一个或者多个程序，上述一个或者多个程序可被一个或者多个处理器执行，应用于农产品生长环境知识图谱构建装置中，该计算机程序实现如上述的农产品生长环境知识图谱构建方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台图像显示设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本公开各个实施例所述的方法。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。