CN115658911A

CN115658911A - 一种食品安全标准关联知识图谱构建方法及系统

Info

Publication number: CN115658911A
Application number: CN202211087778.1A
Authority: CN
Inventors: 段敏; 刘鹏; 刘�文; 戴岳; 刘朴真; 黄蓉
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-01-31

Abstract

本发明公开了一种食品安全标准关联知识图谱构建方法及系统，涉及食品安全技术领域，首先获取食品安全标准数据源；对食品安全标准数据源中的结构化数据和非结构化数据进行语义识别，得到知识数据集；对每条知识进行分词处理；基于TF‑IDF算法，计算每条知识中每个分词所占权重；将每条知识中每个分析的权重和预设阈值进行比较，将符合阈值条件的分词作为该条知识的标签；依据标签所代表的实体之间的关系，构建食品安全标准关联知识图谱。本发明能够提高食品安全标准关联知识图谱构建过程的工作效率，同时还能够提高每条知识所带标签的科学性和准确性。

Description

一种食品安全标准关联知识图谱构建方法及系统

技术领域

本发明涉及食品安全技术领域，更具体的说是涉及一种食品安全标准关联知识图谱构建方法及系统。

背景技术

食品安全领域的数据量庞大，有海量的相关法律法规、国家标准、地方标准等，知识图谱的兴起对数据的存储方式产生了极大地改变，真实世界的数据也往往以知识图谱的形式进行展现，知识图谱可以更加丰富的展现重大活动食品安全数据信息，现有技术中通常是将所有的法律法规、国家标准、地方标准的知识都关联起来，形成食品安全知识图谱，以表示食品生产过程中各类因果关联。对于食品从业者来说，可以代替很大一部分专家，减少花费；对于消费者来说，可以查询产品的安全性，便于分辨变质食品。

在知识图谱的构建过程中，通常需要对数据库中的每条知识进行打标签处理，而现有技术中，通常是由人工根据经验对每条知识进行打标签，为知识图谱的构建提供数据基础，进而可以通过索引的方式查询到想要的食品安全知识。而人工进行打标签的方式不仅效率低、时间周期长，而且由于每个人的主观意识不同，对于标签的赋予具有一定的误判性。

因此，如何克服食品安全图谱构建过程中人工打标签所带来的时间周期长、效率低以及主观因素的误判性缺陷，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种食品安全标准关联知识图谱构建方法及系统。

为了实现上述目的，本发明提供如下技术方案：

一种食品安全标准关联知识图谱构建方法，包括以下步骤：

步骤1、获取食品安全标准数据源；

步骤2、对食品安全标准数据源中的结构化数据和非结构化数据进行语义识别，得到知识数据集；

步骤3、对知识数据集中的每条知识打标签；

步骤4、依据标签所代表的实体之间的关系，构建食品安全标准关联知识图谱。

可选的，食品安全标准数据源的获取途径包括从国家标准文件中获取的结构化数据，以及通过网络爬虫从网络中获取的结构化数据和非结构化数据。

可选的，所述步骤2中，语义识别包括文本语义识别、图像语义识别、语音语义识别等。

可选的，在所述步骤2中，得到知识数据集之后，需要进行数据预处理，包括数据的合并、去重等，减少后续打标签过程的数据处理量，提高数据处理效率。

可选的，所述步骤3中对每条知识打标签的具体方法为：

步骤3.1、对每条知识进行分词处理；

步骤3.2、基于TF-IDF算法，计算每条知识中每个分词所占权重；

步骤3.3、将每条知识中每个分析的权重和预设阈值进行比较，将符合阈值条件的分词作为该条知识的标签。

可选的，在所述步骤3.1中，对每条知识进行分词处理的方法为：

步骤3.1.1、依据食品安全词典或开源的词法工具，采用正向最大匹配法、反向最大匹配法、TextRank算法中的至少一种方法，对每条知识进行分词；

步骤3.1.2、依据分词结果，获取每个分词的词频，将各个分词按照词频进行递减排序，将累计词频之和≥80％的前面若干个分词作为最终分词结果。

由于分词过程中是基于食品安全词典或词法工具进行分词的，因此最终分词结果必然属于实体，为后续依据实体之间的关系构建知识图谱提供了数据基础。

通过上述方法对每条知识进行打标签处理，替代人工逐条知识打标签的过程，极大提高了图谱构建过程的工作效率。

可选的，在所述步骤4中，所述实体之间的关系通过食品安全关系提取模型来获得，所述食品安全关系提取模型是基于训练样本数据及机器学习算法通过训练得到的。

可选的，在所述步骤4中，在获得标签所代表的实体之间的关系之后，依据标签所代表的实体之间的关系，建立知识图谱模式层，并将知识数据集中的每条知识依据所打的标签，融入到知识图谱模式层中，得到带有“标签-知识”映射关系的食品安全标准关联知识图谱。

一种食品安全标准关联知识图谱构建系统，包括：

数据源获取模块，用于获取食品安全标准数据源；

知识提取模块，用于对食品安全标准数据源中的结构化数据和非结构化数据进行语义识别，得到知识数据集；

标签标定模块，用于对知识数据集中的每条知识打标签；

图谱构建模块，用于依据标签所代表的实体之间的关系，构建食品安全标准关联知识图谱。

经由上述的技术方案可知，本发明公开提供了一种食品安全标准关联知识图谱构建方法及系统，与现有技术相比，具有以下有益效果：

本发明方案能够克服食品安全图谱构建过程中人工打标签所带来的时间周期长、效率低以及主观因素的误判性缺陷，结合分词算法和TF-IDF算法，为每条知识赋予合适的标签，提高了工作效率，同时提高了每条知识所带标签的科学性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法步骤示意图；

图2为本发明的系统模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种食品安全标准关联知识图谱构建方法，参见图1，包括以下步骤：

步骤1、获取食品安全标准数据源，包括从国家标准文件中获取的结构化数据和半结构化数据，大多为国家相关规定和法条等文本数据以及数据库数据，以及通过网络爬虫从网络中获取的半结构化数据和非结构化数据等，多数为互联网上关于食品安全的图片、文本等形式的数据。

步骤2、对食品安全标准数据源中的结构化数据和非结构化数据进行语义识别，包括文本语义识别、图像语义识别、语音语义识别等，得到知识数据集；

得到知识数据集之后，需要进行数据预处理，包括数据的合并、去重等。

步骤3、对知识数据集中的每条知识打标签，具体方法为：

步骤3.1、对每条知识进行分词处理；

举例说明，可以同时结合正向最大匹配法和反向最大匹配法进行分词。具体的，首先使用正向最大匹配法将待分词的知识与食品安全词典或开源的词法工具进行匹配，得到第一匹配结果，所述第一匹配结果中包含有第一数量的第一词组和第二数量的单字；进一步的，根据反向最大匹配法将待分词的知识与食品安全词典或开源的词法工具进行匹配，得到第二匹配结果，所述第二匹配结果中包含有第三数量的第二词组和第四数量的单字。若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量，或者，若所述第一数量小于所述第三数量，则将所述第一匹配结果作为待分词的知识的分词结果；若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量，或者，若所述第一数量大于所述第三数量，则将所述第二匹配结果作为待分词的知识的分词结果。

步骤3.1.2、依据分词结果，获取每个分词的词频，将各个分词按照词频进行递减排序，将累计词频之和刚好≥80％的前面较大词频的若干个分词作为最终分词结果，而出现次数极少的分词则作为无用分词而被丢弃；

在其他实施例中，还可以用其他百分比阈值作为分水岭进行划分，得到最终分词结果，本发明对此不做限制。

步骤3.3、将每条知识中每个分析的权重和预设阈值进行比较，将符合阈值条件的分词作为该条知识的标签，所述预设阈值可根据具体实施情况所设置。

步骤4、通过食品安全关系提取模型获得实体之间的关系，所述食品安全关系提取模型是基于训练样本数据及机器学习算法通过训练得到的。

在具体实施例中，所述食品安全关系提取模型的模型基础可以是Transformer模型。

在获得标签所代表的实体之间的关系之后，依据标签所代表的实体之间的关系，建立知识图谱模式层，并将知识数据集中的每条知识依据所打的标签，融入到知识图谱模式层中，得到带有“标签-知识”映射关系的食品安全标准关联知识图谱。

在另一种实施例中，还公开一种食品安全标准关联知识图谱构建系统，参见图2，包括：

数据源获取模块，用于获取食品安全标准数据源；

标签标定模块，用于对知识数据集中的每条知识打标签；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种食品安全标准关联知识图谱构建方法，其特征在于，包括以下步骤：

步骤1、获取食品安全标准数据源；

步骤3、对知识数据集中的每条知识打标签；

2.根据权利要求1所述的一种食品安全标准关联知识图谱构建方法，其特征在于，所述步骤1中，食品安全标准数据源的获取途径包括从国家标准文件中获取的结构化数据，以及通过网络爬虫从网络中获取的结构化数据和非结构化数据。

3.根据权利要求1所述的一种食品安全标准关联知识图谱构建方法，其特征在于，所述步骤2中，语义识别包括文本语义识别、图像语义识别、语音语义识别。

4.根据权利要求1所述的一种食品安全标准关联知识图谱构建方法，其特征在于，在所述步骤2中，得到知识数据集之后，需要进行数据预处理，包括数据的合并、去重。

5.根据权利要求1所述的一种食品安全标准关联知识图谱构建方法，其特征在于，所述步骤3中对每条知识打标签的具体方法为：

步骤3.1、对每条知识进行分词处理；

6.根据权利要求5所述的一种食品安全标准关联知识图谱构建方法，其特征在于，在所述步骤3.1中，对每条知识进行分词处理的方法为：

7.根据权利要求1所述的一种食品安全标准关联知识图谱构建方法，其特征在于，在所述步骤4中，所述实体之间的关系通过食品安全关系提取模型来获得，所述食品安全关系提取模型是基于训练样本数据及机器学习算法通过训练得到的。

8.根据权利要求1所述的一种食品安全标准关联知识图谱构建方法，其特征在于，在所述步骤4中，在获得标签所代表的实体之间的关系之后，依据标签所代表的实体之间的关系，建立知识图谱模式层，并将知识数据集中的每条知识依据所打的标签，融入到知识图谱模式层中，得到带有“标签-知识”映射关系的食品安全标准关联知识图谱。

9.一种食品安全标准关联知识图谱构建系统，其特征在于，包括：

数据源获取模块，用于获取食品安全标准数据源；

标签标定模块，用于对知识数据集中的每条知识打标签；