CN111694968B

CN111694968B - 基于半结构化数据的生鲜食品供应链知识图谱构建方法

Info

Publication number: CN111694968B
Application number: CN202010543066.0A
Authority: CN
Inventors: 刘新亮; 谷情; 张梦琪; 高圣乔; 张腾
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2024-02-09
Anticipated expiration: 2040-06-15
Also published as: CN111694968A

Abstract

本发明提供一种基于半结构化数据的生鲜食品供应链知识图谱构建方法，对半结构化数据进行收集和处理，达到有效整合现有数据资源、发掘海量信息内在数据价值的目的，从而构建出结构严谨、系统完备的高质量知识图谱。利用网页爬虫技术爬取目标所在网页中的半结构化数据，提高数据获取的效率；借助正则表达式获取多条包含实体名称及实体属性的结构化数据，使所构建的知识图谱更加科学、准确；使用方便用户使用和理解的结构化数据映射工具D2RML将结构化转化为RDF三元组形式；实现RDF三元组数据到图数据结构的映射，将生鲜食品供应链数据存储于Neo4j图数据库，解决生鲜食品供应链数据量大、数据价值密度低、更新速度快的问题。

Description

基于半结构化数据的生鲜食品供应链知识图谱构建方法

技术领域

本发明涉及知识图谱构建技术领域，具体涉及一种基于半结构化数据的生鲜食品供应链知识图谱构建方法。

背景技术

随着中国经济的快速发展，人民的生活水平和生活品质得了改善，与此同时，对食品的质量安全问题也越来越重视。生鲜食品作为人们生活领域的主要食品来源，也受到人们越来越多的关注。相继地，部分生鲜食品品牌也推出了溯源功能，将生鲜食品所经过的生产、仓储、运输、销售等环节的供应链信息放到追溯平台供消费者查询使用。然而，这些信息大多都是存在于网页中的非结构化或半结构化数据，难以使消费者能够快速准确地找到自己所需要的信息。如何构建一个平台使消费者能够清楚地知道生鲜食品供应链上数据信息，以及它们之间的关系，快速准确地找到自己需要的信息，成为该领域需要解决的一个关键问题。

当前，知识图谱快速发展，其概念最初在2012年正式由谷歌提出，并于2013年以后开始在学术界和业界普及，在智能问答、情报分析、反欺诈等都有着重要的应用。通过构建知识图谱，将生鲜食品供应链信息存储在Neo4j图数据库中，能够方便用户快速甄别生鲜食品供应链信息。然而，现有的知识图谱多是基于多数据源融合形成的，所收集的资源信息存在分布涣散、杂乱无章的特点，虽然在一定程度上提高了知识图谱的广度，但是所构建知识图谱的质量普遍不高。

发明内容

为克服上述现有技术的不足，本发明提供一种基于半结构化数据的生鲜食品供应链知识图谱构建方法。通过对半结构化数据的采集和处理，提高了所构建知识图谱的质量；采用Neo4j图数据库对数据进行存储解决了生鲜食品供应链数据价值密度低、数据量大、更新速度快的问题。基于半结构化的知识图谱能够将生鲜食品供应链领域碎片化的信息进行有机整合，将其变成集简洁、高效、结构完备于一身的高质量知识库，供用户在此基础上查询学习生鲜食品供应链数据信息，还可以通过它来推理出实体之间存在的潜在关系，从而增加用户对产品的信任、满足了用户需求。

本发明的技术方案是：一种基于半结构化数据的生鲜食品供应链知识图谱构建方法，使用网络爬虫技术获取网页中的半结构化数据，提高数据获取效率；通过对爬取的半结构化数据进行正则化规则处理，得到结构化数据，并储存到Mysql数据库中；采用D2RML结构化数据映射工具，将结构化数据转化成RDF三元组的形式；采用Neo4j图数据库构建知识图谱，并将RDF三元组数据存储到其中，很好地解决了生鲜食品供应链数据价值密度低、数量大、更新速度快的问题。该方法的具体步骤如下：

步骤1、爬虫爬取网页半结构化数据

通过爬虫技术对相关网站进行爬取，获取生鲜食品供应链上的半结构化数据；其中，爬虫采用Scrapy框架，先用Spider进行主抓取得到目标网页的文本信息；

步骤2、借助正则表达式获取结构化数据

设计与所爬取半结构化数据相匹配的语义模板，再通过编写正则表达式规则将步骤1中的半结构化数据转换成结构化数据，抽取构建知识图谱所需的实体及其属性，存放到Mysql数据库中；

步骤3、将结构化数据转换成RDF三元组数据

使用结构化数据映射工具D2RML将结构化数据转换成RDF三元组的形式，为构建知识图谱做铺垫；在从结构化数据中进行知识映射前，首先，根据解结构化数据中的基本数据结构，包括表与表之间的联系以及每个表的含义，同时理解知识图谱的结构，然后使用D2RML语言把表中的结构化数据与知识图谱中的实体、关系关联起来；

步骤4、构建生鲜食品供应链知识图谱

采用知识存储映射算法将生鲜食品供应链结构化数据映射到Neo4j图数据库中，实现生鲜食品供应链数据的存储及可视化展示。

进一步的，所述步骤1中，采用Scrapy框架进行爬虫工作，其步骤如下：

(1.1)引擎获取最初的请求，用Spider进行主抓取；

(1.2)引擎在调度器发出调度请求，并要求对下一个请求进行采集；

(1.3)调度器将下一个请求返回给引擎；

(1.4)引擎通过下载器中间件将请求传送给下载器；

(1.5)页面完成下载，下载器会生成一个响应并通过下载器中间件发送给引擎；

(1.6)引擎从下载器收到响应并将其发送给Spider中间件进行传递；

(1.7)Spider处理响应，并通过Spider中间件将抓取的项目和新的请求返回给引擎；

(1.8)引擎将处理后的项目发送到项目管道，然后将处理后的请求发送给调度器，然后对下一个请求进行采集；

(1.9)重复该过程，直到调度器没有更多请求。

进一步的，所述步骤2中，编写正则表达式将半结构化数据处理成结构化数据，其具体步骤如下：

(2.1)输入半结构化数据文本文档；

(2.2)开始读取半结构化数据，并对其进行去噪、去冗、清洗处理，放入text中；

(2.3)编写正则规则找出文档中的所有实体名称，放到matcher类中；

(2.4)依次编写实体和实体对应属性的正则表达规则，并设置循环条件，抽取所有实体和属性；

(2.5)将抽取出的每个实体名称以及属性保存。

进一步的，所述步骤3中，D2RML中的关键词及相应的功能如下：

dbtype：源数据库类型，包括mysql、sqlserver、oral，源数据库的类型决定了进行连接时需要使用的驱动；

Dburl：数据库连接字符串，指定数据库地址、端口和使用的数据库信息；

Dbuser：数据库用户名；

Dbpwd：数据库密码；

Table：源数据表；

Concept：导入目标概念；

Name的colname属性：实体名来源列；

synonym的colname属性：同一实体来源列；

Parent的tablename属性：父概念的表名；

Attribute的colname指定属性来源列，attrname则指定属性名。

进一步的，所述步骤3中，定义好映射配置文件后，接下来依据配置资源实现源数据库的知识转换；知识转换引擎连接配置文件中配置的目标数据库，读取数据库中相应表格里的数据，把关系数据库中的表和列数据分别映射成知识图谱的实体及实体的属性，然后把这些映射得到的知识存储到Neo4j图数据库中。

进一步的，所述步骤4中，知识存储具体实现过程：

(4.1)采用Jena API对生鲜食品供应链文件进行读取、解析，并在Neo4j图数据库中建立一个图数据库，然后将解析后的所有RDF三元组数据存储在此图数据库中；

(4.2)Neo4j中存储结构部分包括节点和关系，除了两者之间的映射关系外，还依据实际情况为其添加属性(properties)；

(4.3)经前两个步骤，Neo4j中会产生相应的存储文件，包括三部分构成：nodes存储文件、relationships存储文件以及properties文件；

(4.4)通过Neo4j将存储的生鲜食品供应链数据进行可视化展示。

与现有技术相比，本发明的有益效果是：

通过采集半结构化数据解决了此前基于多数据源所构建的知识图谱存在的数据不够准确问题；利用网页爬虫技术爬取目标所在网页的半结构化数据，并通过编写相应的正则表达式得到构建生鲜食品供应链知识图谱所需的结构化数据，提高数据获取效率；相比于传统的结构化数据映射工具D2R，使用D2RML结构化数据映射工具，更加方便用户地理解和使用；采用Neo4j图数据库构建知识图谱，能够根据生鲜食品供应链数据密度低、更新速度快等特点，对所构建知识图谱进行及时地更新。

通过运用本发明提出的方法，能够有效整合互联网中存在的海量半结构化数据，将生鲜食品供应链上的所有有用信息放到知识图谱上，构建一个系统完备、结构严谨的高质量知识图谱，从而帮助消费者通过知识图谱了解生鲜食品从生产到销售的整个供应链轨迹，了解各个实体之间的关系，从而大大增强消费者对食品安全的信心。

附图说明

图1为本发明中基于半结构化数据的生鲜食品供应链知识图谱构建方法流程图；

图2为本发明中Scrapy架构图；

图3为本发明中知识存储算法流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，下面结合附图，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。

根据本发明的一个实施例，参见图1-2，一种基于半结构化数据的生鲜食品供应链知识图谱构建方法，具体包括如下步骤：

步骤1：由于存在于网页中的生鲜食品供应链数据为半结构化的且数据量大，使用爬虫技术能够大大提升数据获取的效率。因此，生鲜食品供应链数据的获取是通过爬虫技术对相关网站进行爬取而得到的，爬虫采用Scrapy框架。首先，引擎打开一个网站，找到处理该网站的Spider，引擎获取第一个请求(第一个要爬取的URL)，用Spider进行主抓取；然后引擎在调度器中调度请求，并要求对下一个要抓取的URL进行采集；此时调度器将下一个请求返回给引擎，将URL通过中间件转发给下载器；一旦页面下载完成，下载器会生成一个响应，并通过下载中间件发送给引擎；之后，引擎从下载器收到响应并将其发送给Spider中间件传递；Spider处理响应并通过Spider中间件将抓取的项目和新的请求返回给引擎；最后引擎将处理后的项目发送到项目管道，然后将请求发送到调度器；重复该过程，直到调度器没有更多地请求，关闭系统(网站)。至此，便能获取有关生鲜食品供应链数据的初步文本信息。

步骤2：由于通过爬虫爬取出来的文本信息是基于网页中的半结构化数据，存在很多构建知识图谱不需要的字符串。因此，本发明需要借助语义模板和正则表达式来获取结构化数据。通过编写正则表达式提前定义好一些特定的字符和一些特定字符的组合，组成一个“规则字符串”，便可以从文本字符串中获取我们想要的特定部分，达到匹配和过滤的目的。

半结构化数据表示的是具有一定结构，但相比于结构化数据数据更自由，通常以HTML和XML等标记语言形式呈现，典型的半结构化数据就是百度百科中的信息框(infoBox)。若想将半结构化数据转换成结构化数据，则需要借助一定的语义模板和正则化表达式对半结构化数据进行处理，在处理过程中，首先需要输入已经爬取好的生鲜食品供应链半结构化数据，然后对其进行数据处理放入text文档中，再编写的正则规则找出文档中的所有实体名称及实体属性，放入列表matcher类中；接下来，再依次编写生鲜食品所对应的实体和属性的正则表达规则；同时设置循环条件，抽取每个实体以及相应的属性。最后一步则是将抽取出的每个实体名称以及相对的属性保存并输出，存储在Mysql数据库中。

步骤3：传统的结构化数据映射工具D2R Server提供了一种将关系数据库中的数据转化成RDF形式语义数据的方法。然而，D2R Server所完成的工作是把结构化数据进行虚拟和映射，通常情况下并没有形式真实的RDF数据，因此，难以直接用于本发明知识图谱的转化；另一方面，使用D2R Server时需要理解所使用的映射语言RDQL和D2RQ Mapping，这两个文件在使用时需要掌握一定的RDF和SPARQL相关的知识，对于普通用户来说难度比较高。区别于D2RQ，D2RML使用XML语言描述。基于该映射工具使用XML语言描述，因此具有易用性和通用性的特点，使得D2RML能够很容易地被普通用户理解和使用。使用此语言时，不要求用户掌握和使用RDF和SPARQL的相关知识，降低了会用门槛很容易上手。因此，本发明提出一组从关系数据库映射到语义数据的映射规范D2RML，使用结构化数据映射工具D2RML将存放在Mysql数据库中的结构化数据转换成RDF三元组的形式，为下面构建知识图谱做铺垫，其中，三元组＝<主语，谓语，宾语>。从结构化数据中进行映射时，首先充分了解Mysql数据库中结构化数据中的基本结构，包括每个表格的含义以及表之间的联系，同时了解知识图谱的结构，即以RDF三元组形式进行存储的数据结构，然后使用D2RML语言把结构化数据中的表格与知识图谱中的概念或实体关联起来，便可以根据配置从源数据库中进行转知识的转换。知识转换引擎连接配置文件中配置的目标数据库，读取相应表格中的数据，把关系数据库中的表和列数据分别映射成知识图谱所需的实体以及实体的属性，然后把这些映射得到的知识储存到Neo4j图数据库中。

D2RML中的主要关键词及相应的功能如下：

dbtype：源数据库类型，如mysql、sqlserver、oral等，源数据库的类型决定了进行连接时需要使用的驱动；

Dburl：数据库连接字符串，指定数据库地址、端口和使用的数据库等信息；

Dbuser：数据库用户名；

Dbpwd：数据库密码；

Table：源数据表；

Concept：导入目标概念；

Name的colname属性：实体名来源列；

synonym的colname属性：同一实体来源列；

Parent的tablename属性：父概念的表名；

Attribute的colname指定属性来源列，attrname则指定属性名。

步骤4：构建的生鲜食品供应链知识图谱中的实体和关系是需要被频繁地查询和更新的。Neo4j是一个典型的、高性能NOSQL图数据库，它的存储方式是以网络结构图对结构化数据进行存储的，不同于普通数据库的表格存储方式。与其他NOSQL图数据库相比，Neo4j具有很多优势。如：支持ACID事务，支持海量数据存储，具有成熟数据库的所有特性，能够很好地解决生鲜食品供应链数据价值密度低、数据量大、更新速度快的问题。采用知识存储映射算法将生鲜食品供应链结构化数据映射到Neo4j图数据库中，实现RDF三元组数据到图数据的转换与生鲜食品供应链数据的存储。即先读取数据存储所在的RDF文件，然后对每一个三元组进行遍历，最后根据存储映射规则实现知识的存储。通过Neo4j图数据库实现对生鲜食品供应链数据的可视化展示。

参见图3，涉及到的知识存储映射算法如下：

输入：RDF文件，Neo4j图数据库地址(dbURI)

输出：Neo4j图数据库中存储的本体内容

(1)用Jena API对RDF文件进行读取，获取全部三元组R，并将三元组Ri(共n个三元组，i≤n)解析得Triple＝{s，p，o}，式中：s表示主语，p表示谓语，o表示宾语。

(2)经RestAPIFacade访问连接Neo4j图数据库(dbURI)，使用Transation开启事务，并为节点和边建立索引RestNode、RestRealationship。

(3)从索引RestNode中获取主语Triple.s及宾语Triple.o的图数据库中对应节点Vs和Vo，判断Vs和Vo是否已经存在于数据库中，若不存在，则创建新节点并将其添加到索引RestNode中。

(4)从索引RestRealitionship中获取谓语Triple.p的图数据库对应边Ep，判断Ep是否已经存在于数据库中，若不存在，则创建一条由Vs指向Vo的有向边，并将其加入到索引RestRelationgship中。

(5)判断三元组Ri是否已经全部遍历，若i≥n，则已全部遍历，继续下一步操作；若i<n，则存在三元组没有遍历，转第(1)步。

(6)Neo4j图数据库中得到已存储的本体内容。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于半结构化数据的生鲜食品供应链知识图谱构建方法，其特征在于，包括如下步骤：

步骤1、爬虫爬取网页半结构化数据

步骤2、借助正则表达式获取结构化数据

步骤3、将结构化数据转换成RDF三元组数据

步骤4、构建生鲜食品供应链知识图谱

采用知识存储映射算法将生鲜食品供应链结构化数据映射到Neo4j图数据库中，实现生鲜食品供应链数据的存储及可视化展示；

所述步骤1中，采用Scrapy框架进行爬虫工作，其步骤如下：

（1.1）引擎获取最初的请求，用Spider进行主抓取；

（1.2）引擎在调度器发出调度请求，并要求对下一个请求进行采集；

（1.3）调度器将下一个请求返回给引擎；

（1.4）引擎通过下载器中间件将请求传送给下载器；

（1.5）页面完成下载，下载器会生成一个响应并通过下载器中间件发送给引擎；

（1.6）引擎从下载器收到响应并将其发送给Spider中间件进行传递；

（1.7）Spider处理响应，并通过Spider中间件将抓取的项目和新的请求返回给引擎；

（1.8）引擎将处理后的项目发送到项目管道，然后将处理后的请求发送给调度器，然后对下一个请求进行采集；

（1.9）重复该过程，直到调度器没有更多请求。

2.根据权利要求1所述的一种基于半结构化数据的生鲜食品供应链知识图谱构建方法，其特征在于：所述步骤2中，编写正则表达式将半结构化数据处理成结构化数据，其具体步骤如下：

（2.1）输入半结构化数据文本文档；

（2.2）开始读取半结构化数据，并对其进行去噪、去冗、清洗处理，放入text中；

（2.3）编写正则规则找出文档中的所有实体名称，放到matcher类中；

（2.4）依次编写实体和实体对应属性的正则表达规则，并设置循环条件，抽取所有实体和属性；

（2.5）将抽取出的每个实体名称以及属性保存。

3.根据权利要求1中所述的一种基于半结构化数据的生鲜食品供应链知识图谱构建方法，其特征在于：所述步骤3中，D2RML中的关键词及相应的功能如下：

Dbuser：数据库用户名；

Dbpwd：数据库密码；

Table：源数据表；

Concept：导入目标概念；

Name的colname属性：实体名来源列；

synonym的colname属性：同一实体来源列；

Parent的tablename属性：父概念的表名；

Attribute的colname指定属性来源列，attrname则指定属性名。

4.根据权利要求1中所述的一种基于半结构化数据的生鲜食品供应链知识图谱构建方法，其特征在于：所述步骤3中，定义好映射配置文件后，接下来依据配置资源实现源数据库的知识转换；知识转换引擎连接配置文件中配置的目标数据库，读取数据库中相应表格里的数据，把关系数据库中的表和列数据分别映射成知识图谱的实体及实体的属性，然后把这些映射得到的知识存储到Neo4j图数据库中。

5.根据权利要求1中所述的一种基于半结构化数据的生鲜食品供应链知识图谱构建方法，其特征在于：所述步骤4中，知识存储具体实现过程：

（4.1）采用Jena API对生鲜食品供应链文件进行读取、解析，并在Neo4j图数据库中建立一个图数据库，然后将解析后的所有RDF三元组数据存储在此图数据库中；

（4.2）Neo4j中存储结构部分包括节点和关系，除了两者之间的映射关系外，还依据实际情况为其添加属性（properties）；

（4.3）经前两个步骤，Neo4j中会产生相应的存储文件，包括三部分构成：nodes存储文件、relationships存储文件以及properties文件；

（4.4）通过Neo4j将存储的生鲜食品供应链数据进行可视化展示。