CN114661856A

CN114661856A - 一种融合图谱构建方法

Info

Publication number: CN114661856A
Application number: CN202011535773.1A
Authority: CN
Inventors: 杜振军; 陈烁; 曲道奎; 卢裕; 杜威; 王海鹏
Original assignee: Shenyang Siasun Robot and Automation Co Ltd
Current assignee: Shenyang Siasun Robot and Automation Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-06-24

Abstract

本发明属于数据处理技术领域，具体涉及一种融合图谱构建方法，包括如下步骤：获取语料数据，对语料数据进行预处理后构件语料数据库；构建知识图谱，从语料数据库中抽取实体和实体关系，根据实体和实体关系构建知识图谱；构建事理图谱，从语料数据库中抽取事件和事件关系表示，并根据事件和事件关系构建事理图谱；图谱融合，将事理图谱中与事件相关的实体与知识图谱中的实体进行关联融合，形成融合图谱并进行存储。本发明主要是将知识图谱和事理图谱进行融合，通过融合构建将知识图谱中实体的“静”和事理图谱中事件的“动”进行了有效的结合，起到了优势互补的作用，更加完整的覆盖了领域内所涉及的知识体系和内容。

Description

一种融合图谱构建方法

技术领域

本发明属于数据处理技术领域，具体涉及一种融合图谱构建方法。

背景技术

目前出行领域的技术以及应用越来越多的依赖于数据，对数据的需求越来越大，而数据的存储表达形式也多种多样，但是所有技术手段基本都是对数据中的个体信息进行存储，也就是多为名词，以及名词属性和名词关系，目前比较热门的技术手段是知识图谱，在其中将存储的个体信息表述为实体、实体属性和实体关系。但是以上的数据存储表达技术只是将“静”的部分描述出来，并没有将“动”信息表示出来，而且对于现实中的应用来说“动”的数据又是极其重要的依据和来源，特别是对出行领域的应用来说，涉及很多动态事件的发展，所以静态数据和动态数据对于出行领域前端应用来说重要性可见一斑，也更加符合人类对现实世界的认知，所以在出行领域将数据进行全方位的表达和存储对该领域应用的发展尤为重要，也将是其它领域数据存储表达技术发展的一个趋势。

发明内容

针对以上问题，本发明旨在提供一种融合知识图谱和事理图谱的融合图谱构建方法。

为解决上述技术问题，本发明采用的一个技术方案是：一种融合图谱构建方法，包括如下步骤：

获取语料数据，对语料数据进行预处理后构件语料数据库；

构建知识图谱，从语料数据库中抽取实体和实体关系，根据实体和实体关系构建知识图谱；

构建事理图谱，从语料数据库中抽取事件和事件关系，并根据事件和事件关系构建事理图谱；

图谱融合，将事理图谱中与事件相关的实体与知识图谱中的实体进行关联融合，形成融合图谱并进行存储。

可选的，所述语料数据从网站和开源数据库中进行爬取。

可选的，所述预处理具体包括：剔除噪声数据和无效数据、重复数据，形成结构化和半结构的语料数据。

可选的，所述实体的抽取包括：

直接从语料数据库中获取领域内的专有名词或常用名称作为实体；

通过人工制定规则和模式匹配生成构建的实词字典以及利用开源的实词字典及命名实体识别系统抽取实体。

可选的，所述实体的抽取还包括：

通过构建向量空间，基于特征向量方法将语料数据映射成特征向量，将训练集和测试集中的语料数据按照预设的特征项赋予特征值，之后根据选定的分类器进行训练得到实体抽取模型，运用训练出来的实体抽取模型从语料数据库中抽取出与之具有相似特征的实体。

可选的，所述实体关系的抽取包括：

对于数据规则明显的数据，直接使用爬虫技术抓取语料数据库中的语料数据并组成关系和属性；

直接从开源数据库中直接获取相关结构化的关系数据；

对于一些半结构化的数据，结合领域特点构造语法和语义规则，采用模式匹配的方法来识别实体之间的实体关系。

可选的，所述实体关系的抽取还包括：

采用远程监督方法，将每种关系的三元组作为种子集,即<实体，关系，实体>,然后回标出同时包含种子集中三元组的两个实体的句子作为表征这一关系的训练数据，再从文本中找出实体和实体之间符合这一关系的其他句子，由此训练出来的实体关系抽取模型来抽取实体关系。

可选的，所述抽取事件和事件关系具体包括：

所述事件抽取包括采用动名词词组的方式表示事件，提取出的事件对中的语句提取动名词，并组织成“动词#名词”形式，对整个事件进行了结构化表示，作为事理图谱中的节点；

所述事件关系抽取包括根据事件的顺承逻辑关系，采用<模式，约束，优先级>规则模板的方法，其中模式表示句子的匹配规则，采用正则表达式；约束包含匹配的约束规则；优先级是当多个模板匹配上时，匹配模板的优先级；创建多条规则模板，通过规则模板判断语料数据中的具有顺承逻辑关系的语句，当获取大量的顺承事件对时，对语句中的事件进行抽取，获取具有顺承关系的前后两个事件的事件关系。

可选的，所述图谱融合具体包括：

所以通过将事理图谱中事件包含的名词与知识图谱中包含实体的名词进行匹配和判断，将含有相同的名词词汇的事件与实体进行关联融合。

可选的，所述图谱融合还包括：

当事理图谱中事件包含的名词与知识图谱中包含实体的名词并没有文字级别上的相同之处，但二者具有同样的含义，采用语义相似度计算进行关联，相似度计算后得的概率作为事件与实体之间关联的置信度。

本发明方法用于在构建领域图谱方面，从现实应用的角度选择贴近居民生活的出行领域作为图谱领域，将知识和事件融合到同一个图谱当中，即是将知识图谱和事理图谱进行融合，构建出一个统一的图谱不仅包含知识图谱中的实体和实体关系，以及事理图谱中的事件和事件关系，还包含实体和事件中的关系，由此通过统一融合后的图谱为上层应用提供数据服务。

本发明主要是将知识图谱和事理图谱进行融合，通过融合构建将知识图谱中实体的“静”和事理图谱中事件的“动”进行了有效的结合，起到了优势互补的作用，更加完整的覆盖了领域内所涉及的知识体系和内容。二者相辅相成，不仅充分利用了两种图谱各自的优势，更加起到了相互补充的作用，可以更好的为上层应用提供数据服务。同时图谱的融合构建不仅在知识内容提供方面有着一定的优势，可以更加好的服务于搜索、推理等应用，而且对于可视化显示方面事件与实体的融合后同时显示对于用户来说更加直观、全面，使人机交互更加友好。

附图说明

图1是本发明一种融合图谱构建方法流程示意图。

具体实施方式

首先，本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。本领域技术人员可以根据需要对其作出调整，以便适应具体的应用场合。

其次，需要说明的是，在本发明的描述中，术语“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示装置或构件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个构件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

另外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例性的”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本发明方法针对现有出行领域对数据的存储和表达技术所实现的结果比较片面、维度不够、而且效率低，影响了后续应用的问题，提出了基于出行领域将知识实体和事件进行融合构建的方法，对数据进行存储组织和表示呈现，图谱涵盖的是出行领域的实体和事件相关信息，主要包括语料数据获取、实体和实体关系抽取、事件抽取、事件表示、实体和事件融合、数据存储等；通过融合后的图谱不仅能够从两个维度为相关应用提供服务，而且通过二者相互辅助，互补不足大大提升了应用效果，同时两类图谱的融合也是图谱发展的一个方向，在此过程当中需要解决的重点难点是实体抽取模型构建，在实体提取过程当中不同以往方式，在字典模型构建过程中要结合事件的模型，同时对事件的提取和表示也要将实体字典模型结合进来，采用词向量和句向量的形式，另外对于实体和事件的融合是重点难点，确定事件与实体之间的联系，以事件为主体，将与事件相关的实体构建关系，组成融合图谱型结构。

以下结合图1具体说明本发明提供的一种融合知识图谱和事理图谱的融合图谱构建方法。

一种融合图谱构建方法，包括如下步骤：

获取语料数据，对语料数据进行预处理后构件语料数据库；知识获取即收集要处理的数据对象，收集的数据要尽可能保证完整性和可靠性。随着出行旅游已经成为居民消遣和消费的热门方式，越来越多的公司关注于此方面的业务，通过网站提供相关的信息数据服务，同时有许多信息，例如地点、人物等等有许多开源的数据提供。数据来源主要是领域内的一些信息服务类网站和一些开源的数据库，例如“携程旅游网社区版”、“马蜂窝”和openkg上提供的开源数据库等。作为一种优选实施方式，所述语料数据从网站和开源数据库中进行爬取，由于数据获取所采用的技术方案是多来源、多形式结合的方式，数据来源主要包括网站和开源数据库，数据初始形式有网页中的数据和数据库存储的数据，其过程根据所选取的数据网站的网页形式编写爬虫程序，爬取所需的网页中的数据信息。

可选的，所述预处理具体包括：剔除噪声数据和无效数据、重复数据，形成结构化和半结构的语料数据。具体的，将相关领域已经开源的数据库中所需信息进行提取，提取出来的数据可能存在多种表达形式，无法统一进行处理，所以将两部分信息根据设定的数据形式进行重新组织，通过人工设定规则的方法对数据进行整理，剔除噪声数据和无效数据、重复数据，最后形成结构化和半结构的语料数据，以保证数据的完整性和可靠性。此处技术关键点是根据数据来源结合使用爬虫技术和搜索查找程序，同时应用网络数据和开源数据库中的数据，将多个来源不同形式的数据进行了整合形成语料数据库。

构建知识图谱，从语料数据库中抽取实体和实体关系，根据实体和实体关系构建知识图谱；图谱网络是由节点和边组成，实体即是网络中的节点，关系是其边，构建图谱中的静态数据，即对实体和关系进行抽取，即对实体和关系进行抽取，实体指的是具体的事物，关系则是事物之间的关系。实体抽取也称命名实体识别，是从文本数据集中识别出命名实体，即以名称为标识的实体，例如“颐和园”、“故宫”等，即图谱中的节点。实体关系抽取是在得到一系列实体后，从文本语料信息中提取出实体中的关系，将实体联系在一起，即图谱中的边。由此，点和边共同组成图谱的网状结构。本方法针对在数据获取中所得到的语料数据的特点，即数据的组织形式有结构化和半结构化，网络数据中有许多网络用语即缩写等，针对这些特点对于实体和实体关系抽取都采用多种方法结合的方式，首先对于实体抽取针对语料特性包括但不限于以下三种方法及其结合：

直接从语料数据库中获取领域内的专有名词或常用名称作为实体；具体的，获取的数据语料中大部分数据采用爬虫技术抓取，所以有些网页里的数据是比较规则化的，例如整个网页信息就是对一个城市景点信息的目录，所以就可以直接获取这些城市景点名称作为实体。且由于构建的是领域图谱，所以可以明确知道领域内的一些专有名词，例如地名、人名、交通工具等等。

通过人工制定规则和模式匹配生成构建的实词字典以及利用开源的实词字典及命名实体识别系统，如Standford NER等来抽取实体。

由于数据主要来源是互联网，互联网的内容是动态变化的，所以有些词汇是创新的，例如食物的名称、景点的代称等等，所以针对这些实体词汇采用统计机器学习的方法。通过构建向量空间，基于特征向量方法将语料数据映射成特征向量，将训练集和测试集中的语料数据按照预设的特征项赋予特征值，之后根据选定的分类器进行训练得到实体抽取模型，运用训练出来的实体抽取模型从语料数据库中抽取出与之具有相似特征的实体，从而实现实体的分类和聚类。

在获取一系列离散的实体后，即获取了节点，但是节点之间的联系并没有获取所以是离散的，对实体之间的关系进行抽取，采用包括如下方法：

直接从开源数据库中直接获取相关结构化的关系数据。由于使用爬虫技术抓取的语料数据中，有些数据规则非常明显。这些规则明显的数据抓取后就可以直接组成关系和属性，另外，对于使用开源数据库中的数据，只要在其中搜索实词，可以获取相关结构化的关系数据。然后对于一些半结构化的数据，结合领域特点构造语法和语义规则，采用模式匹配的方法来识别实体之间的关系；对于数据规则明显的数据，直接使用爬虫技术抓取语料数据库中的语料数据并组成关系和属性；对于一些半结构化的数据，结合领域特点构造语法和语义规则，采用模式匹配的方法来识别实体之间的实体关系。

人为制定的规则和语法其拓展性并不强，因为大部分是互联网数据，采用远程监督方法(Bootstrapping)，将每种关系的三元组作为种子集, 即<实体，关系，实体>,然后回标出同时包含种子集中三元组的两个实体的句子作为表征这一关系的训练数据，再从文本中找出实体和实体之间符合这一关系的其他句子，由此训练出来的实体关系抽取模型来抽取实体关系。

所述抽取事件和事件关系具体包括：

具体的，根据出行领域事件的发展多为顺序发展的特点，收集的文本数据语料可以推出事件的逻辑关系为顺承关系，因为语料中的攻略、游记等都是按事件发生的先后顺序去叙述的，本文采用规则模板的方法，模板形如<模式，约束，优先级>，即<Pattern,Constraint,Priority>。其中 Pattern表示句子的匹配规则，采用正则表达式；Constraint包含匹配的一些约束规则，例如“接着[sentence1][sentence2]”这个模板中sentence 不能是数字打头的句子；Priority是当多个模板匹配上时，匹配模板的优先级。规则模板的生成是基于汉语文本顺承语句的特征以及语言叙述手法形成的，例如常见的顺承语句就包含“其次、接着、然后、随后、接下来”等语句中的承接词，由此共创建了30余条模板规则，通过这些规则模板就可以判断语料中的具有顺承关系的语句，获取大量的顺承事件对，例如<预定完门票,顺承，去坐地铁>。在获取具有顺承关系的语句后，需要对语句中的事件进行抽取，获取顺承关系前后两个事件。通常情况下一个完整的句子是由主谓宾组成的，但由于获取的语料来源于网络，数据结构性并不强，句子成分可能会缺失，所以本文采用动名词词组的方式表示事件，例如语句“要在网上预订酒店”这个事件可以表示为“预订#酒店”，所以对以上提取出的事件对中的语句提取动名词，然后组织成特定形式，这样对整个事件进行了结构化表示，作为图谱中的节点。事件抽取之后，以事件为节点，以事件之间的关系为边，构建出事理图谱来描述出行领域事件的演化规律。此处技术关键点是根据语言叙述方式通过规则的方式进行事件对抽取，并通过动名词的方式对事件进行表示构成图谱中的节点

图谱融合，将事理图谱中与事件相关的实体与知识图谱中的实体进行关联融合，形成融合图谱并进行存储。所述图谱融合具体包括：所以通过将事理图谱中事件包含的名词与知识图谱中包含实体的名词进行匹配和判断，将含有相同的名词词汇的事件与实体进行关联融合。当事理图谱中事件包含的名词与知识图谱中包含实体的名词并没有文字级别上的相同之处，但二者具有同样的含义，采用语义相似度计算进行关联，相似度计算后得的概率作为事件与实体之间关联的置信度。

通过上述方法和过程已经获取了知识图谱和事理图谱各自所需的三元组信息，所以两种图谱的融合关键就是将事件中包含的实体和与事件相关的实体与知识图谱中的实体进行关联。事理图谱中所抽取的事件的表示是通过动名词组的方式，而实体主要也是名词性，所以通过将事件中的名词与实体词进行匹配判断，含有相同的名词词汇的事件与实体进行关联。另一种情况，事件信息与实体之间并没有文字级别上的相同之处，但二者具有同样的含义，比如说“高铁站”和“火车站”，对于这种情况下采用语义相似度计算进行关联，相似度计算后得的概率作为事件与实体之间关联的置信度。此处技术关键点在于从文字和语义两个维度去进行实体和事件的关联，构建出融合了实体、事件和两者关系的出行领域融合图谱，将该领域的知识图谱和事理图谱进行融合

由于事理图谱中所抽取的事件通过动名词组的方式进行表示，知识图谱中的实体主要也是名词性，

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种融合图谱构建方法，其特征在于，包括如下步骤：

获取语料数据，对语料数据进行预处理后构件语料数据库；

构建事理图谱，从语料数据库中抽取事件和事件关系表示，并根据事件和事件关系表示构建事理图谱；

2.如权利要求1所述的融合图谱构建方法，其特征在于，所述语料数据从网站和开源数据库中进行爬取。

3.如权利要求1所述的融合图谱构建方法，其特征在于，所述预处理具体包括：剔除噪声数据和无效数据、重复数据，形成结构化和半结构的语料数据。

4.如权利要求1所述的融合图谱构建方法，其特征在于，所述实体的抽取包括：

5.如权利要求4所述的融合图谱构建方法，其特征在于，所述实体的抽取还包括：

6.如权利要求1所述的融合图谱构建方法，其特征在于，所述实体关系的抽取包括：

直接从开源数据库中直接获取相关结构化的关系数据；

7.如权利要求6所述的融合图谱构建方法，其特征在于，所述实体关系的抽取还包括：

8.如权利要求1所述的融合图谱构建方法，其特征在于，所述抽取事件和事件关系表示具体包括：

9.如权利要求1所述的融合图谱构建方法，其特征在于，所述图谱融合具体包括：

10.如权利要求1所述的融合图谱构建方法，其特征在于，所述图谱融合还包括：