CN108446367A

CN108446367A - 一种基于知识图谱的包装行业数据搜索方法及设备

Info

Publication number: CN108446367A
Application number: CN201810211759.2A
Authority: CN
Inventors: 李长云; 吴岳忠; 丁军; 朱俊杰
Original assignee: Shanghai Hai Zhi Zhi Mdt Infotech Ltd; Hunan University of Technology
Current assignee: Shanghai Hai Zhi Zhi Mdt Infotech Ltd; Hunan University of Technology
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-08-24

Abstract

本发明提供了一种基于知识图谱的包装行业数据搜索方法及设备，本发明的包装行业垂直领域搜索引擎可以实现包装行业领域最佳的检索效率及效果，能够对自然语言查询进行深入的理解，并从语义层面解析用户查询意图，能够利用海量的结构化知识库，针对用户查询提供准确的答案，另外可以自由灵活的扩充同义词词库。

Description

一种基于知识图谱的包装行业数据搜索方法及设备

技术领域

本发明涉及一种基于知识图谱的包装行业数据搜索方法及设备。

背景技术

包装行业数据分散在多个系统中，并且不同来源的数据拥有不一样的结构，现有技术难以对这些信息进行聚合，存在对包装行业数据融合的需求。同时互联网上大部分数据均为非结构化数据，计算机无法理解。同时当存在新的业务认知时，传统的关系数据库构建的模式变迁困难，修改数据结构及业务逻辑很困难，会带来扩展性差、维护成本高等不良情况。

当前通用搜索引擎已经发展得较为成熟，其功能已经能满足用户的基本搜索需求，但用户使用搜索引擎进行检索时，搜索任何关键词得到的都是海量的信息，采用通用搜索引擎对包装行业数据搜索，存在搜索结果信息量大、查询不准确、深度不够等问题。

发明内容

本发明的目的在于提供一种基于知识图谱的包装行业数据搜索方法及设备，能够解决采用通用搜索引擎对包装行业数据搜索，存在搜索结果信息量大、查询不准确、深度不够等问题。

为解决上述问题，本发明提供一种基于知识图谱的包装行业数据搜索方法，包括：

将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台，建立对应数据索引库，所述数据索引库是一套独立的数据结构，内容与包装行业元数据库中的数据对应一致，所述数据索引库采用ETL技术同步包装行业元数据库中的数据，并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中，其中，所述数据索引库构建在ElasticSearch集群基础上，采用分布式加热备方式进行部署，所述当数据加入到数据索引库的时候，数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引，并同时将数据同步到该节点对应的热备节点中；其中，所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括：将数据索引库中每个包装商品的数据结构定义成一个文档，文档由多个字段组成，根据字段的搜索、统计需求，为每一个字段选择不同的分词算法，其中，对于提供全文检索功能的字段，采用基于所述包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器进行分词；采用所选择的分词算法对文档的各个字段进行分词之后，文档即转变成词向量，然后对向量空间中的词进行语义处理，包括同义词扩充、上位下位词扩充；按照包装数据维度，对分词和语义处理后得到的词进行合并，得到词对应文档ID的倒排链表，将持久化之后的倒排链表写到数据索引库中，所述倒排链表包含：包装商品的数据结构、词的数量、词在文档中的位置信息、词在文档中的词频信息、词关联的文档数量和文档总数量；

对数据索引库中的字段的权重进行按照加权规则进行调整，所述加权的规则包括：利用意图识别的结果加权、利用同义词进行加权、利用搜索词的长度、位置信息进行加权利用用户搜索日志的反馈信息进行加权；

获取搜索词，对所述搜索词进行分词和语义处理，根据所述数据索引库中倒排链表和字段的权重，获取经过分词和语义处理后的搜索词在包装行业知识图谱对应的搜索结果位置；

根据所述搜索结果位置，从所述包装行业知识图谱中获取经过分词和语义处理后的搜索词对应的搜索结果。

根据本发明的另一面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

本发明还提供一种计算器设备，其中，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

与现有技术相比，本发明的包装行业垂直领域搜索引擎可以实现包装行业领域最佳的检索效率及效果，能够对自然语言查询进行深入的理解，并从语义层面解析用户查询意图，能够利用海量的结构化知识库，针对用户查询提供准确的答案，另外可以自由灵活的扩充同义词词库。

附图说明

图1是本发明一实施例的行业数据源自动发现算法流程图；

图2是本发明一实施例的信息模块示例图；

图3是本发明一实施例的索引架构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

基于本体(Ontology)技术，对包装工程知识体系进行描述，并保存在数据库中，以允许随技术发展对知识体系进行动态调整和扩展。

1.包装工程知识描述语言

根据包装工程知识体系的特点，采用本体技术对包装工程知识体系进行描述；需要设计一种适合包装工程知识描述的本体描述，描述语言基于OWL2.0，能被主流OWL2.0兼容的编辑器打开。采用RDF(S)和SKOS进行包装工程知识体系的本体描述语言过于简单，而OWL是当前最流行的一种通用本体描述方法，这种方法不仅包含了类、属性与个体的定义，还包括了基于之上的逻辑推理机制，但由于提供的机制过于庞杂，用于描述包装工程知识体系，过于复杂。因此，本发明需要参考SKOS，基于RDF、RDFS、以及OWL，设计一种简单实用的包装工程知识体系的本体描述方法。

2.包装工程本体知识库结构元素

本体描述需要支持概念、属性、实例、实例关系、上下位关系。能够处理同名概念，相似概念。具体而言，包装工程本体知识库包括以下元素：

(1)知识点(Knowledge Point)：指一段知识的抽象。

(2)实例(instance)：代表现实中的一个个存在的实体。

(3)知识点之间的层次关系(taxonomy)：通过层次结构更好的组织领域知识。

(4)属性(attribute)：属性是概念或实例的特征，采用三元组形式表示<object-attribute-value>；属性分为对象属性(object property)和数值属性(data typeproperty)；属性都有其对应的域范围(domain)和值范围(range)。

(5)知识点、实例和属性的别称(alias)：同一实体的不同称谓。

(6)知识点、实例和属性的他国语言名称(label)：同一实体在不同语言中的相应名称。

(7)数据类型：简单类型包括整数、浮点数、字符串；集合类型；对象类型。

(8)介绍(introduction)：每个知识点或实例有相应的文字简介。

构建包装产业大数据知识图谱的主要目的是获取大量的，让计算机可读的包装知识，在互联网飞速发展的今天，知识大量存在于非结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。本发明主要介绍如何从结构化数据和半结构化数据中获取知识，其次如何将不同数据源获取的知识进行融合构建数据之间的关联，最终形成包装产业大数据知识图谱。

基于本体(Ontology)和知识图谱相关技术，对包装知识体系框架和包装产业大数据知识图谱进行描述，并保存在相应的存储数据库中，以允许随技术发展对知识本体进行动态调整和扩展。

知识体系(Body of Knowledge)是由特定专业领域专家定义的一个知识框架，表明该专业领域合格人才应掌握的基本知识和技能，涉及相关产业的重要流程活动和关键性技术。为确保包装知识组织的科学性和完整性，本项目采用基于领域知识体系的资源组织建设方针。

知识图谱(knowledge graph)是刻画了现实世界中的实体以及他们之间的相互关系的知识网络。例如包装知识图谱主要描述了包装企业、包装人物、包装产品等，将人、产品、企业等进行关联起来。

本发明提供一种包装产业大数据知识图谱的构建方法，包括：

步骤S1，获取包装行业的结构化数据，包括：

步骤S11，利用一些能够代表包装行业的种子词汇，在搜索引擎和在线百科的搜索接口中进行搜索，对于所述搜索引擎返回的网页文档，选取排列在前面的预设个数据结果作为目标网页，添加到目标网页列表；对于所述在线百科返回的页面，先进入到相应的文章页，然后在文章页面中寻找两类链接，包括外部链接和参考文献的外链，将找到的外部链接和参考文献的外链作为目标网页，添加到所述目标网页列表中；

步骤S12，对所述目标网页列表中目标网页依据网站进行第一归类；

步骤S13，按所述第一归类对目标网页对应的各个网站进行站内的网页内容采集，每个网站采集的最大深度设置为3层，即从网站首页开始，使用深度优先采集策略，总共采集每个网站的3层网页内容；

步骤S14，对每个网站已经采集到的网页内容进行提取保存，对于包含行业关键词的频度小于预设阈值的网页内容，将其从保存的网页内容中删除；

在此，对于包装行业知识图谱的构建，行业的内部结构化数据以及一些开放的行业知识库或行业垂直网站会起非常关键的作用。这些行业数据源由于与行业业务结合紧密，因此通常具有如下优点：

(1)具备良好的行业覆盖面和行业深度，行业数据由于描述目标的专一性，通常在行业内部的覆盖面方面会比较广，通常包含所描述行业的大多数信息，例如IMDB中是互联网的数据集中拥有最全电影信息的网站。

(2)可靠性高：对于行业的内部结构化数据，通常情况下用于支撑企业本身的业务，因此可靠性非常高；对于开放的行业知识库数据，有些是企业的结构数据经过一定形式的转化发布到网上的，而有些则是经过行业专业人员的编辑和审核后发布到网上的，因此，可靠性也可以得到保证；。

(3)结构性强：对于内部结构化数据，绝大多数是通过关系数据库进行存储的；而对于开放的行业知识库，通常是以网页的形式使用同样的模板生成的，因而结构基本相同，解析非常方便；

因此，在进行包装行业知识图谱构建时，会优先考虑使用行业中的内部结构化数据和开放的行业知识库；

行业的结构化数据固然是知识图谱构建最优质的数据来源，然而在很多情形下，这些结构化的数据通常不公开发布，因此仅仅对于数据的拥有者来说是宝贵的资源，其他人员很难获取，因此，还需要尽可能充分的利用互联网中公开发布的行业知识库和行业网站，要使用这些公开的行业数据，首先需要找到这些数据源，这项工作对于普通的用户来说，也是一项艰难的工作。因此，本发明提出了一种基于搜索引擎和在线百科的行业知识库与行业网站自动发现算法。

人们在互联网中获取信息时，最常用的途径为互联网搜索引擎；随着互联网中开放的百科的流行，在线百科也逐渐成为信息获取的重要来源；

在使用搜索引擎检索信息时，先输入代表搜索意图的关键词，搜索引擎返回结果文档，用户从这些结果文档中选取合适的结果文档；搜索引擎使用专业的算法(如Hits算法和PageRank算法)对网站及网页都进行了评分，搜索结果再依据这个评分进行排序。在进行行业信息检索时，那些点击量高的行业知识库或专业网站通常会被排序在前面，因此从搜索引擎开始寻找行业数据以及进行数据抽取是一种可用的方法；

然而，使用搜索引擎获取行业数据的方法有两个缺陷，一是它们进行排序的主要依据是网页的点击和网站的影响力，但有些行业数据，尤其是针对一些稀有实体的数据，由于点击不高，可能会被搜索引擎置后；另一方面，搜索引擎也不是包含互联网中的全部数据，有些行业数据属于深网的数据，搜索引擎可能不一定收录；

百科的编辑者在编辑时，尤其是在行业知识的编辑时，通常需要查阅很多的参考资料，此时，一些开放的行业知识库和专业网站往往是他们参考的主要依据，一些位于深网的但价值相对较高的特殊资料也可能被添加，因此，一些基于百科的语料挖掘和发现算法也被很多研究者提出。

以上两种知识来源寻找方法，一种是通过机器自动地对海量的互联网文档进行排序，而另一种则是人为地为特定目标选取参考知识，如果能够结合起来，则能够获得更加全面的行业数据集，本发明的行业数据自动发现算法正是集合了这两种方法的优势，算法的流程框架如图1所示。

算法的基本过程如下：

(1)利用一些能够代表包装行业的种子词汇，在搜索引擎和在线百科的搜索接口中进行搜索，对于所述搜索引擎返回的网页文档，选取排列在前面的预设个数据结果直接添加到目标网页列表；对于所述在线百科返回的页面，先进入到相应的文章页，然后在文章页面中寻找两类链接，包括普通的外部链接和参考文献的外链，将找到的普通的外部链接和参考文献的外链添加到所述目标网页列表中；

(2)对所述目标网页列表中目标网页依据网站进行第一归类；

(3)按所述第一归类对目标网页对应的各个网站进行站内数据采集，每个网站采集的最大深度设置为3层，即从网站首页开始，使用深度优先采集策略，总共采集每个网站的3层数据，通常行业数据网站在3层的深度下即可遍历完到整个网站的结构；

(4)网站的内容分析，对每个网站已经采集到的网页内容进行提取保存；对于网页内容，如果其中包含行业关键词的频度很高，则说明该网站的确是和行业相关的，后续可选取作为目标数据源，否则说明其中仅包含少量的实例而摒弃；

步骤S2，从所述包装行业的结构化数据获取构建包装行业知识图谱的数据源，包括：

步骤S21，使用聚类算法对网页内容依据结构进行第二归类，所述第二归类的目的在于把相同结构的网页聚集到一起，所述聚类所使用的特征包括：(a)网页URL的深度；(b)URL中去除域名后的部分使用″/″分割得到的词；(c)网页的长度；(d)网页的标签个数；(e)网页中主要标签包括<div>、<table>、<a>各自的个数及其所占的比例；

步骤S22，对于所述第二归类后的网页内容数量大于预设阈值的类别，对所述类别中的网页内容进行过滤；

步骤S23，通过预设的每个第二归类后的每个类对应的匹配模板，对所述过滤后的每个类中的网页内容进行解析，得到构建包装行业知识图谱的数据源，其中，所述每个类对应的匹配模板用于：

步骤S231，对于所述过滤后的每个类中的网页内容中每个元素，通过利用网页内容在页面中XPath来进行定位；

步骤S232，通过包括<synonym><attribute>的标签把XPath对应的元素中的信息映射成知识图谱中的元素；

通常情况下，行业网站中描述同一类目标实体的网页都具有相似的结构，例如在中国包装网中，所有包装产品页面的结构基本都类似，因为它们是使用统一的模板生成的，对于选取为目标数据源的网站，接下来需要对它们的页面进行分析，以抽取其中的结构化的内容。这个过程是半自动的，基本流程如下：

(1)首先使用聚类算法对网页内容依据结构进行第二归类，所述第二归类的目的在于把相同结构的网页聚集到一起，所述聚类所使用的特征包括：(a)网页URL的深度；(b)URL中去除域名后的部分使用″/″分割得到的词；(c)网页的长度；(d)网页的标签个数；(e)网页中主要标签包括<div>、<table>、<a>各自的个数及其所占的比例；

(2)对于那些网页数量很大的类别，通过人工进行选取，确认是否是表示一类实体信息的网页集合；

(3)对于那些大类别，为保证知识抽取的正确性，通过人工编写模板的方法以对目标数据源进行针对性的解析；

虽然有许多的研究者提出了自动或半自动的从网页中抽取结构化信息的方法，但是这些方法的准确率通常难以达到知识图谱的要求(必须高于90％)；因此，本发明使用人工配置模板对目标网站进行特定解决的方法，提高知识的准确率；由于在一个行业中，目标网站通常不会太多，而且属于同一类型的网页都使用了相同的模板，因此使用人工配置的工作量是可以接受的；

为了简化模板的定义，本发明定义了一套描述模板的正则语言，命名为DWPL(Domain Websites Parse Language)，该语言中定义了从半结构化的网页中把信息转化成为知识图谱形式知识的机制，主要包括：

(1)对于所述过滤后的每个类中的网页内容中每个元素，通过利用网页内容在页面中XPath来进行定位；

(2)通过包括<synonym><attribute>的标签把XPath对应的元素中的信息映射成知识图谱中的元素；

本发明提供了每个类对应的匹配模板，即批量处理的定义方法，主要使用通配符对同一个集合中网页的URL进行匹配；

一个典型的模板文件如下：

定义好模板后，数据的抽取过程非常方便，只需要依据模块对目标网页进行解析即可完成；有一个需要考虑的问题是模板的失效问题，如果目标网站进行了升级，此时模板失效；此时，当抽取不到目标数据时，系统通过内置的警报机制通知用户需要对模板进行更新；

另外，对于相当复杂或者使用了特殊技术(如Ajax动态网页、反抓取等)的行业网站，还提供了可以自由接入复杂适配器的接口(使用type＝″customize″进行标记)，用户可以针对这些复杂的网站开发单独的抽取引擎，然后接入到本平台中；

步骤S3，获取构建包装行业知识图谱对应的人工专家定义的数据模式，所述数据模式采用自顶向下的知识图谱方式；

步骤S4，理解包装行业的结构化数据中的基本结构，包括包装行业的结构化数据中每个表格的含义以及表之间的关联，同时理解所述数据模式对应的待构建的包装行业知识图谱的结构，通过D2R Server结构化数据映射工具，根据预设的关系数据库映射到语义数据的映射规范D2RML，把所述包装行业的结构化数据中的表格与待构建的包装行业知识图谱中的概念或实体关联起来，以将所述数据源填充至包装行业知识图谱中，构建包装行业知识图谱，其中，关系数据库映射到语义数据的映射规范D2RML的主要关键词及相应的描述功能如下：

(a)dbtype：源数据库的类型，包括mysql、oracle、sqlserver，类型决定了连接时使用的驱动；

(b)dburl：数据库连接字符串，指定包括数据库的地址、端口和使用的数据库的信息。

(c)dbuser：数据库的用户名；

(d)dbpwd：数据库的密码；

(e)table：源数据表；

(f)concept：导入目标概念；

(g)name的colname属性：实体名称来源列；

(h)synonym的colname属性：同义实体来源列；

(i)parent的tablename属性：父概念的表名；

(j)attribute的colname指定属性来源列，attmame则指定属性名；

在此，在构建包装行业知识图谱时，会首先由人工专家定义数据模式，采用自顶向下的知识图谱方式，数据模式是知识图谱中最核心的部分，因而通过人工定义可以提高知识图谱数据的完整性和准确性，定义好数据模式后，接下来可以从各种数据源中进行数据层面的填充；

在从结构化数据中进行包装行业知识图谱中知识映射时，首先需要理解包装行业内部结构化数据中的基本结构，包括包装行业内部结构化数据中每个表格的含义以及表之间的关联，同时理解待构建的包装行业知识图谱的结构，然后使用D2RML语言把所述包装行业内部结构化数据中的表格与待构建的包装行业知识图谱中的概念或实体关联起来；

定义好映射配置文件后，接下来便可以依据配置从源数据库中转换知识了，知识转换引擎连接配置文件(关系数据库映射到语义数据的映射规范D2RML)中配置的目标数据库，读取相应表格中的数据，把关系数据库中的表和列数据分别映射成概念的实体以及实体的属性，然后把这些映射得到的知识存储到知识图谱中；

1.D2R

D2R，全称为relation database to RDF，即指把关系数据库中的数据转换成为RDF形式的语义数据并发布在互联网中，D2R的先驱者Christian Bizer和Andy Seaborne，于2004年提出了一种用于描述关系数据库的数据模式与RDF模式及OWL映射关系的声明式语言D2RQ，通过使用D2RQ进行描述后，用户可以把非RDF形式的数据(如关系数据库中的数据)看作虚拟的RDF数据，并能够使用RDF数据查询语言(RDF Data Query Language，RDQL)进行查询，随后，Christian Bizer又与Richard Cyganiak在2006年提取了一个名为″D2RServer″的工具，用于把关系数据库中的数据发布到语义网中；该工具首先通过D2RQMapping文件将关系型数据虚拟成RDF格式，然后使用D2RQ对虚拟得到的RDF形式的数据进行查询；查询时，通过将RDF数据的查询语言SPARQL转换为RDB数据的查询语言SQL以完成关系数据的查询；

2.结构化数据映射工具

D2R Server提供了一种将关系数据库中的数据转换成RDF形式语义数据的方法；然而，D2R Server所完成的工作是把关系型数据进行虚拟和映射，通常情况下并没有形式真实的RDF数据，因此，难以直接用于本发明知识图谱的转化；另一方面，使用D2R Server时需要理解所使用的映射语言RDQL和D2RQ Mapping，这两个文件在使用时需要掌握一定的RDF和SPARQL相关的知识，这对于普通的用户来说难度比较高；

本发明制定了一组从关系数据库映射到语义数据的映射规范，命名为D2RML(relation database to RDF mapping language)，该规范使用XML语言描述；基于XML语言的易用性和通用性，使得D2RML能够轻易地被普通用户理解与使用；使用该语言时，并不要求用户使用RDF和SPARQL相关的知识，降低了使用门槛，此外，本发明还设计了一种可视化的规范配置工具，用户在此工具上仅需要通常一些简单的配置即可完成映射规律的制定。

D2RML中的主要关键词及相应的描述功能如下：

(a)dbtype：源数据库的类型，有mysql、oracle、sqlserver等，类型决定了连接时使用的驱动；

(b)dburl：数据库连接字符串，指定数据库的地址、端口和使用的数据库等信息。

(c)dbuser：数据库的用户名；

(d)dbpwd：数据库的密码；

(e)table：源数据表；

(f)concept：导入目标概念；

(g)name的colname属性：实体名称来源列；

(h)synonym的colname属性：同义实体来源列；

(i)parent的tablename属性：父概念的表名；

(j)attribute的colname指定属性来源列，attrname则指定属性名；

一个典型的映射文件如下所示，它描述了本发明后续章节将使用的从鱼类数据库中映射鱼类知识图谱的配置。

步骤S5，将开放链接数据和在线百科中的实体与已构建的包装行业知识图谱中的实体进行合并，包括：

步骤S51，把开放链接数据和在线百科中的实体的名称及同义集合与已构建的包装行业知识图谱中的实体的名称及同义集合进行匹配，把匹配的结果作为实体合并的候选实体对；

步骤S52，对于候选实体对，比较它们的父概念，如果父概念相同的候选实体对，将他们合并到所述已构建的包装行业知识图谱中；

步骤S6，将不存在于已构建的包装行业知识图谱中的实体，但存在于开放链接数据和在线百科中的实体，添加至已构建的包装行业知识图谱中。

在此，虽然行业知识图谱在构建过程中使用了行业的内部结构化数据和行业知识库等，但是开放的链接数据和知识库、百科和文本仍然是行业知识图谱的重要数据来源。一方面，这些数据源可以对行业知识图谱进行补充；另一方面，当行业中缺乏内部结构化数据和开放行业知识库或行业网站时，行业知识图谱的学习将使用和通用知识图谱相同的数据源。

在从开放链接数据和百科中学习知识时，首先需要把其中的实体与已构建的包装行业知识图谱中的实体进行实体合并，合并时同样存在同名不同义、同义不同名等问题，因此，需要一种合理的实体对齐方法。本发明进行实体对齐的过程如下：(1)对于开放链接数据和百科中的实体，实体的对齐工作已经完成，都使用了一定的方式来描述同义实体或概念。具体而言，DBpedia中同义关系是使用″owl：sameAs″描述的，而YAGO中则使用″means″描述。它们包含的同义关系，仅需要对整个数据集进行遍历，找到对应的描述机制后进行解析即可获得。(2)把开放链接数据和在线百科中的实体的名称及同义集合与已构建图谱中的实体的名称及同义集合进行匹配，把匹配的结果作为实体合并的候选实体对；(3)对于候选实体对，比较它们的父概念，如果父概念相同，则认为它们是需要合并的实体。

开放链接数据和百科还存在新的实体，此时需要把这些实体添加到知识图谱中。添加的主要依据为实体对应的概念，即把这些新实体添加到所属概念的实体集合中。

根据开放链接数据和百科中所包含的实体的属性信息，可以进一步对识图谱中实体详细知识进行填充。由于属性已经通过人工定义好，因此，第一步需要对属性进行映射；

百科中的信息模块中包含了大量以″属性-值″对出现的信息。需要注意的是，百科中的信息模块虽然基于概念定义的，但是在概念对应的百科文章页面中并没有直接显示，而是在属于这些概念的实体中体现的。例如，图2中的展示了文章页″中国″的属性，在前面的学习过程中已经确定它是一个实体，他所属的概念有很多，包括″国家″、″金砖四国″、″金砖五国″、″文明古国″等，但在这些概念对应的文章页面中，都没有信息模块包含这些属性的呈现。因此，要确定概念的属性，需要自底往上，首先要确定其包含的实体的属性，然后进行规约，得到概念应有的属性。

从实体对应的页面中抽取属性非常简单，只需要对页面中信息模块的格式针对性的编写适配器进行解析即可完成。从同一实体对应的不同百科的页面中合并属性可能会碰到两个问题：

(a)在不同的百科之间表示同一属性的名称不相同，例如两个信息模块中，第1个中的″政治体制″和第2个中的″政体″其实是同一属性。此问题主要通过两种方法解决：一是借助已经抽取的同义关系进行合并，如果两个不同的属性名称具有同义关系，那么它们是同一属性的不同名称，进行合并即可；另一种方法是通过属性值来确定，如果在拥有两个属性的大部分实体中，它们的值是一致的，那么它们表示的应该是同一属性。

(b)同一属性在不同的百科中有不同的值，如″主要城市″属性，在百度百科中的值为″北京、上海、香港、深圳等″，而在互动百科中则是″北京、上海、重庆、广州、深圳等″，这并不是属性的冲突，而是应该把这些值合并。

所有在实体级别的属性和值，均不通过人工校验，一方面因为实体的数目实在过于庞大；另一方面，即使少部分实体的属性不合理，所影响的范围也只是这些属性自身而已，不会对其它实体或概念造成影响。

对于行业知识图谱的属性映射，还提供了人工定义映射的方式进一步提高准确性。

属性映射完成后，下一步工作为实体值的填充，主要为那些尚未学习到属性值的属性进行补充。

本节以包装知识图谱的构建为例，验证行业知识图谱构建中的各种方法。

具体的，中国包装联合会教育委员会网拥有一个包装网站数据库，其中包含包装行业产品信息，存储于关系数据库的数据表中。对于每个包装产品，包含名称、生产企业、生产地和简介等字段。

通过本发明所定义的D2RML规范，可以非常容易的地将这个表的数据导入到知识图谱中。通过此步骤，成功地从关系数据库中导入了51620个产品信息。由于这些数据基本都是由人工编辑的，而且已经经过长时间的使用，因此，可以认为这些知识是准确可靠的。

首先选取种子词汇集合，此处选取的比较高层次的关键词为″包装设计、包装制造、包装材料、包装装备″等，同时在从关系数据库中导入的产品信息中选取部分产品名称作为关键词列表。

然后在搜索引擎和在线百科中进行搜索，以关键词″包装设计″在维基百科中的搜索结构为例进行说明。在维基百科进行搜索后会直接进入标题为″包装设计″的文章面，在此页面中，先观察相关网站部分，第1个链接的标题为″中国包装网″，这是一个国内领先的包装行业门户网站；通过″中国包装网″的首页的″友情链接″部分，可从这个页面中得到的链接还有″中国包装联合会″、″中国包联电商委″和″中国包装人才网″等链接，这些数据源均是质量良好、信息丰富的包装产业知识库。当使用算法自动分析时，这些网站内容由于包含丰富的包装类信息，因此，在算法的分析结果排序时也位于前列。

实验过程证明了本发明所提出的行业知识库或网站自动发现算法的有效性。

对于所获取的行业数据源，接下来以互动百科(http：//fenlei.baike.com/category/treeManage.jsp)为例说明如何从这些行业网站中抽取知识。

首先，该网站中包装分类的完整分类系统，以树状形式展示；同时对于许多包装产品，还有详细的信息面。其中树状形式展示的分类树是使用Ajax技术来实现的，因此，需要针对其开发适配器，命名为″BaikePackagingTaxoWrapper″，使用DWPL的外接适配器机制接入到行业网站的解析系统中。而对于包装产品的信息面，是使用模板生成的网页，因此，非常容易使用DWPL完成解析配置。

解析配置完成之后，接下来系统自动地依据配置文件从该网站抽取知识。

知识图谱在语义检索、数据挖掘、人工智能、知识组织和智能问答等领域的应用非常广泛。在当前互联网大数据背景下，如何有效地组织和利用结构化数据、半结构化数据和非结构化数据等各种类型的数据，使这些数据更好的为包装工程服务，成为大数据时代的新挑战。本发明提出的包装产业知识图谱构建技术，旨在从各种不同结构的数据源中获取结果化的知识，为各种类型数据的有效利用提供了一种解决方案。

综上所述，本发明可以在构建包装知识图谱的同时将非结构化数据进行结构化，为进一步语义分析计算打下基础。另外，利用知识图谱对包装行业的数据进行建模，可以自由扩展数据模式。

本发明还提供另一种基于知识图谱的包装行业数据搜索方法，包括：

步骤S101，将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台，建立对应数据索引库，所述数据索引库是一套独立的数据结构，内容与包装行业元数据库中的数据对应一致，所述数据索引库采用ETL技术同步包装行业元数据库中的数据，并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中，其中，所述数据索引库构建在ElasticSearch集群基础上，采用分布式加热备方式进行部署，所述当数据加入到数据索引库的时候，数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引，并同时将数据同步到该节点对应的热备节点中；

其中，所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括：

将数据索引库中每个包装商品的数据结构定义成一个文档(Document)，文档有多个字段(Field)组成，根据字段的搜索、统计需求，为每一个字段选择不同的分词算法，其中，对于提供全文检索功能的字段，采用基于所述包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器(Tokenizer)进行分词；

采用所选择的分词算法对文档的各个字段进行分词之后，文档即转变成词向量，然后对向量空间中的词(Term)进行语义处理，包括同义词扩充、上位下位词扩充；

按照包装数据维度，对分词和语义处理后得到的词(Term)进行合并，得到词(Term)对应文档ID(Document ID)的倒排链表，将持久化之后的倒排链表写到数据索引库中，所述倒排链表包含：包装商品的数据结构、词(Term)的数量、词(Term)在文档(Document)中的位置信息、词(Term)在文档(Document)中的词频信息、词(Term)关联的文档(Document)数量和文档(Document)总数量；

在此，为使系统具有较高的并发性、容错性和可扩展性，索引库构建在ElasticSearch集群基础上，采用分布式加热备方式进行部署，索引库部署架构如下：

当数据加入到数据索引库的时候，数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引，并同时将数据同步到该节点对应的热备节点中，将数据分布在多个节点中可以减轻各个节点的数据压力；采用热备节点可以在分布式系统中一些节点出现故障的时候，索引库依然可以对外提供完整的搜索、统计服务；

数据索引库包含的数据库表、表类字段、表之间的关联关系严格按照索引时的逻辑进行建库，对字段进行划分，索引库与包装行业数据库的的关系最终能够一一对应；

分词和语义处理过程在两个业务场景出现，一是在搜素引擎功能模块对索引数据的分词和语义处理；二是对用户在使用搜索功能时提交的搜索词进行分词和语义处理。

两个业务场景不同，处理的方式与原理类似。这里主要是针对第一种业务场景也就是基于知识图谱的搜索数据库建设工程中的分词和语义处理。

数据索引库是按照包装数据维度建设的数据结构，数据索引库中每个包装商品数据结构可以定义成一个文档(Document)，文档有多个字段(Field)组成，根据字段的搜索、统计需求，为每一个字段设计不同的分词算法，其中，对于需要提供全文检索功能的字段，采用基于所术包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器(Tokenizer)等进行分词，采用所设计的分词算法对文档的各个字段进行分词之后，文档即转变成词向量，然后对向量空间中的词(Term)进行语义处理，包括同义词扩充、上位下位词扩充等；

ElasticSearch：它是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口；

ETL(Extract-Transform-Load)，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程，ETL一词较常用在数据仓库，但其对象并不限于数据仓库；

IKAnalyzer：是一个开源的，基于java语言开发的轻量级的中文分词工具包；

步骤S102，对数据索引库中的字段的权重进行按照加权规则进行调整，所述加权的规则包括：利用意图识别的结果加权、利用同义词进行加权、利用搜索词的长度、位置信息进行加权利用用户搜索日志的反馈信息进行加权；

在此，字段的权重主要用于影响搜索排序时的相关度计算，权重较高的字段，当用户搜索词意图识别在某文档的该字段命中时，该文档的相关度打分会比较高；

步骤S103，获取搜索词，对所述搜索词进行分词和语义处理，根据所述数据索引库中倒排链表和字段的权重，获取经过分词和语义处理后的搜索词在包装行业知识图谱对应的搜索结果位置；

步骤S104，根据所述搜索结果位置，从所述包装行业知识图谱中获取经过分词和语义处理后的搜索词对应的搜索结果。

在此，知识图谱从本质上讲是一个知识库，基于知识图谱的搜索服务则可以看作是一个典型的自动问答系统。与传统网页搜索相比，基于知识图谱的搜索能够更好地理解用户的搜索意图，并对相关内容和主题进行总结。知识图谱还能够提供搜索结果的详细知识体系，帮助用户从更多角度了解搜索结果的相关信息。

采用机械的关键词匹配实现的搜索，缺乏知识处理能力和理解能力，搜索引擎无法从语义角度理解用户的搜索意图以及返回用户满意的检索结果，因此，基于知识图谱的技术的智能搜索引擎将信息检索从关键词层面提升到知识(或概念)层面，是解决问题的根本和关键。本发明的包装行业垂直领域搜索引擎可以实现包装行业领域最佳的检索效率及效果。

搜索词存储方面，采用元数据仓储的方式，将所有资源的元数据信息放在统一的数据仓库内，通过对包装资源元数据信息和用户搜索词的管理与存储，包括元数据模板的定制、元数据项的定制、元数据库的创建等使包装行业数据能够更加清晰和有条理的进行管理和存储，为灵活的组织、创建和展示包装行业资源信息提供数据结构基础。

在搜索词日志管理与导出方面，对用户请求的搜索词日志进行记录，支持脚本导出，支持对相关包装行业资源访问的日统计、月统计；支持对用户的检索关键词、资源类别的访问量、在线浏览资源数的具体内容做详细的统计；支持针对不同用户组进行基本的用户行为统计，以改进用户体验。

另外，基于知识图谱的同义词拓展方面，同义关系拓展的方法包括：

1)基于词典的方法

2)基于词法模式的方法

3)浅层语义分析的方法

本发明主要运用基于CRF的开放同义学习，数据源以百度百科、互动百科及行业网站为主，包装数据的标题、描述、属性等数据结合互联网开放数据，进行同义词学习，并导入知识图谱，由此形成的同义词库即更新及时又易于维护，也使得检索结果更加精确，提升了用户的检索体验。

本发明基于结构化数据(知识库)和语义理解的搜索技术在一定程度上代表了搜索引擎技术的发展趋势，所具有的特点能够更好地满足用户对搜索服务新的需求：

1.能够对自然语言查询进行深入的理解，并从语义层面解析用户查询意图。

2.能够利用海量的结构化知识库，针对用户查询提供准确的答案。

3启由灵活的扩充同义词词库。

本发明还提供一种计算器设备，其中，包括：

处理器；以及

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于知识图谱的包装行业数据搜索方法，其特征在于，包括：

2.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

3.一种计算器设备，其中，包括：

处理器；以及