CN111026862A

CN111026862A - 一种基于形式概念分析技术的增量式实体摘要方法

Info

Publication number: CN111026862A
Application number: CN201911262369.9A
Authority: CN
Inventors: 郝飞; 杨二贺; 高杰; 张立臣; 李黎; 王小明
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-17
Anticipated expiration: 2039-12-10
Also published as: CN111026862B

Abstract

一种基于形式概念分析技术的增量式实体摘要生成方法，包括如下步骤：S100：分别构造初始知识图谱RDF数据的初始形式背景k₁及新增知识图谱RDF数据的新增形式背景k₂；S200：分别构造初始形式背景k₁的概念格C₁及新增形式背景k₂的概念格C₂；S300：对概念格C₁的外延和概念格C₂的外延求交集，得到集合T；S400：由集合T中的外延元素，得到对应的内涵，构成最终的概念格；S500：基于所形成的最终的概念格，利用排序算法，得到实体摘要。该方法能够挖掘出最重要、最具代表性的三元组且在动态知识图谱背景下，能够有很好的处理性能。

Description

一种基于形式概念分析技术的增量式实体摘要方法

技术领域

本公开属于人工智能、数据挖掘、互联网技术领域，具体涉及一种基于形式概念分析技术的增量式实体摘要生成方法。

背景技术

目前，随着语义网的蓬勃发展，互联网中积累了越来越多的以非结构化形式存储的信息。然而，由于计算机擅于处理结构化数据，为了让计算机能够处理这些非结构化形式存储的信息，将其用知识图谱的形式进行存储，可以很好的理解和应用这些非结构化数据的语义和关系。因此，知识图谱，作为新一代人工智能的基础设施之一，得到了学术界和工业界广泛的关注。

知识图谱，是结构化的语义知识库，用“实体-关系-实体”三元组、实体和其相关的“属性-值”对的形式，来描述物理世界中的概念及其相互关系，实体间通过关系相互联结，构成网状的知识结构。知识图谱中的实体可以用资源描述框架(Resource DescriptionFramework)来进行统一描述，具体地，是由多个“主语-谓语-宾语”形式的三元组进行表示。然而，在当今互联网、物联网、云计算等技术不断发展的背景下，用户产生了海量的数据，且在不断增加。因此，用户在浏览不断增长的大量知识图谱信息的同时，不可避免地会陷入信息过载的境地。例如，最近版本的知识图谱DBpedia就包含了17亿的RDF三元组、660万实体，相当于平均每个实体包含258个描述信息。因此，有必要为用户提供一个简洁的实体摘要信息，从而能够有效避免用户陷入信息过载。

实体摘要技术，旨在从大量冗长的知识图谱数据中，为用户提取出简洁而又具有代表性的信息。其实质是对“属性-值”对进行排序后取前k个代表作为实体特征描述。目前，对于知识图谱的实体摘要技术有很多，但是和基准数据依然存在较大差距，仍存在较大的提升空间。并且，当前的实体摘要方法大多没有考虑到数据的动态增长特性，仅仅考虑针对某一时间点的某一版本的知识图谱的实体摘要，这种情况导致在含有大量知识图谱数据背景下，得到相应的实体摘要的效率就会降低。

形式概念分析(Formal Concept Analysis)是一种有力的反应“对象”和“属性”二元关系的完备的数学工具，目前已经被广泛应用于数据挖掘、软件工程、语义网等领域。FCA擅长于分析二元关系数据，而知识图谱中的RDF三元组中某个实体的“谓语”和“宾语”能够被转化为二元表关系。

发明内容

鉴于此，本公开提供了一种基于形式概念分析技术的增量式实体摘要生成方法，包括如下步骤：

S100：分别构造初始知识图谱RDF数据的初始形式背景k₁及新增知识图谱RDF数据的新增形式背景k₂；

S200：分别构造初始形式背景k₁的概念格C₁及新增形式背景k₂的概念格C₂；

S300：对概念格C₁的外延和概念格C₂的外延求交集，得到集合T；

S400：由集合T中的外延元素，得到对应的内涵，构成最终的概念格；

S500：基于所形成的最终的概念格，利用排序算法，得到实体摘要。

通过上述技术方案，首先，本方法能够在构造概念格的形式背景过程中，将“对象”按照一定规则分割，能够挖掘出“对象”和“属性”的潜在的关联关系，使得最终的概念格得到的排序结果更能符合实际情况；其次，本方法利用概念格的“外延”基数进行排序，有很好的概念格理论支撑，能够挖掘出最重要、最具代表性的三元组；总之，本方法是一种增量式的构造概念格的方法，在动态知识图谱背景下，能够有很好的数据处理性能。

附图说明

图1是本公开一个实施例中所提供的一种基于形式概念分析技术的增量式实体摘要生成方法的流程示意图；

图2是本公开一个实施例中初始知识图谱RDF数据、新增知识图谱RDF数据，以及对应的形式背景的示意图；

图3(a)和图3(b)是本公开一个实施例中得到的概念格C₁、C₂示意图；

图4(a)是本公开一个实施例中最终知识图谱的概念格；

图4(b)是本公开一个实施例中得到的最终排序结果示意图；

图5是本公开一个实施例中本方法与非增量式的实体摘要方法的数据处理性能对比图。

具体实施方式

下面结合附图1至附图5对本发明进行进一步的详细说明。

在一个实施例中，参见图1，其公开了一种基于形式概念分析技术的增量式实体摘要生成方法，包括如下步骤：

就该实施例而言，本方法利用的形式概念分析技术，将知识图谱中实体的RDF三元组的“谓语”和“宾语”分别转化为形式概念分析技术中的“属性”和“对象”，构造出“属性”和“对象”的形式背景，然后构造概念格，利用概念格结构特征，对RDF三元组排序，得到相应的实体摘要。其中，在构造“属性”和“对象”的形式背景时，将“对象”按照一定规则分割后，得到其与“属性”的关联关系，能够最大程度地挖掘出两者之间的关系。利用生成的概念格的外延基数的大小，对外延中所有的“对象”进行评分，即可得到对应的RDF三元组的评分，输出最重要和最有代表性的三元组，即：当前实体的摘要信息。与传统实体摘要方法不同，本方法利用一种增量式构造概念格的方法，构造概念格，然后利用概念格结构特征，对概念格中的概念进行排序，最后生成实体摘要，能够解决在动态知识图谱中的实体摘要问题。

在另一个实施例中，所述步骤S100进一步包括如下子步骤：

S101：将知识图谱RDF中的三元组的“谓语”和“宾语”分别作为形式概念分析技术中形式背景的“属性”和“对象”；

S102：将“对象”按照一定规则分割后，找出所有的其与“属性”的关联关系；

S103：按照子步骤S101的方式，将初始知识图谱RDF三元组和新增知识图谱RDF三元组，根据子步骤S102得到的“属性”和“对象”的关联关系，分别构造初始形式背景k₁和新增形式背景k₂。

就该实施例而言，初始知识图谱是指未新增RDF三元组数据的知识图谱，新增知识图谱是指新增的RDF三元组数据构成的知识图谱。

此处的一定规则可以是特殊字符，也可以是字符的大小写。特殊字符包括：

“/”、“#”等，按照这种规则进行分割，一个长字符串最后被分割为几个字符串。比如：“JapaneseMysteryWriters”可以分割成“Japanese”“Mystery”“Writers”三个字符；“Japanese_people”可以分割成“Japanese”“people”两个字符。

在另一个实施例中，所述步骤S200进一步包括：

遍历初始形式背景k₁及新增形式背景k₂中的所有“对象”和“属性”，按照初始形式背景k₁及新增形式背景k₂中已有的关联关系，通过形式概念分析技术中的“下运算”↓和“上运算”↑，分别得到概念格中概念的“外延”和“内涵”，最终得到初始形式背景k₁的概念格C₁及新增形式背景k₂的概念格C₂。

就该实施例而言，利用形式背景构造概念格，是通过分别求概念格中概念的“外延”和“内涵”得到。

在另一个实施例中，所述步骤S400进一步包括：对所述集合T中每个元素取“上运算”↑，得到集合T中的每个外延对应的内涵。

就该实施例而言，根据得到的概念外延集，利用形式背景中“对象”和“属性”的关联关系，对外延集中的元素取“上运算”个，得到概念外延对应的内涵，即：最终的概念格中的所有概念。

在另一个实施例中，所述步骤S500进一步包括如下子步骤：

S501：所述排序算法是利用概念格中概念的外延的基数从小到大进行排序；

S502：遍历排序好的概念的外延，对所有的三元组进行评分；

S503：按照评分从大到小输出实体的前k个三元组作为实体所对应的实体摘要，其中k为正整数。

就该实施例而言，外延中“对象”元素对应的是三元组中的“宾语”，外延基数越小，对外延中的“对象”的评分就越高，该“宾语”所对应的三元组也就越重要。

一般会根据实际情况确定这个k的数量，k是5的话，就输出5条RDF三元组，作为实体的摘要。

比如有15个概念(包括外延和内涵)，也就是有15个外延，外延基数(也就是外延中对象的个数)越小，这个外延的评分越高。实际上，假如我们给最小外延基数的外延评分15，第2小的外延基数的外延评分是14这样进行评分。这个评分，也就是每个外延中所有“对象”的评分，也就是RDF三元组的评分，因为这个“对象”(宾语)对应一个RDF三元组(主-谓-宾)。接下来，按照评分从大到小输出三元组。

在另一个实施例中，概念的外延基数越小，概念越重要。

在另一个实施例中，如图2所示，左边的部分为初始RDF三元组和新增的RDF三元组，右边部分为对应的形式背景k₁、k₂。可以看到，在该实施例中，形式背景中“对象”和“属性”关联关系是在对“对象”(对应于三元组中的“宾语”)进行分割后的其与“属性”的关系。例如，在初始RDF数据的形式背景中，“predicate 3”与“tokenized object 2”的关联关系在初始RDF数据中并不存在，而是将“object2”分割后挖掘的潜在关系，这里假设“object2”分割后的片段包含“object1”。这种潜在关联关系和原有的关联关系共同构成最终的形式背景中“对象”和“属性”的关系。

如图3(a)和图3(b)所示，为上一步骤中得到的形式背景的概念格。概念格构造是利用概念格构造的基本定义实现，即：分别对形式背景中的“属性”P和“对象”O，分别取“下运算”↓和“上运算”↑，满足P↓＝O和O↑＝P条件时，得到概念格的“外延”和“内涵”，最终得到初始形式背景和新增形式背景的概念格C₁、C₂。

对概念格C₁的外延EL(k₁)和C₂的外延EL(k₂)求交集，得到集合T：在概念格C₁的外延集EL(k₁)为：

概念格C₂的外延集EL(k₂)为：

对两部分外延集取交集，得到的集合T为：{{o1}，{o2}，{o3}，{o4}，{o1，o2}，{o1，o3}，{o2，o4}，{o1，o2，o3，o4}}。

其中，比如{o1}是EL(k₁)中的{o1}和EL(k₂)中的{o1，o2，o3，o4}集合的交集得到的。这个属于概念格一个特殊的性质。

如图4(a)所示，为得到的最终概念格。由上一步骤得到的外延交集T中的每个外延，利用概念格理论中的“上运算”↑，得到每个外延对应的内涵，即得到了最终的概念格。

如图4(b)所示，即为得到的最终排序结果。具体地，图4(a)中的所有概念，按照外延基数从大到小排序后，得到：

({o1}，{p1，p3})，({o2}，{p2，p3})，({o3}，{p1，p4})，({o4}，{p2，p5})，({o1，o2}，{p3})，({o1，o3}，{p1})，({o2，o4}，{p2})，

于是最终得到的排序后的RDF三元组如图4(b)。

其中，在形式背景和概念格中，o2和p3的关系是挖掘出来的潜在关系，所以在最终排序输出的RDF三元组中并不会体现。

就该实施例而言，本方法的关键点是利用形式概念分析技术解决知识图谱领域的实体摘要问题。与传统实体摘要方法相比，本方法利用形式概念分析技术完备的理论基础和强大的数据挖掘特性，将知识图谱RDF三元组中的“谓语”和“宾语”巧妙地转化为形式概念分析技术中的“属性”和“对象”，并且利用分割后的“对象”最大程度地挖掘出其与“属性”的关系；本方法中所利用的形式概念分析技术是一种增量式的概念格构造算法，能够适应在动态知识图谱背景下的实体摘要问题；本方法中所利用的形式概念分析技术中的排序方式是利用外延基数进行排序，思想是：外延基数越小，其外延越重要。该思想具有完备的理论支撑。

在另一个实施例中，为了验证该方法的有效性，我们选取了现有的基准数据(取自知识图谱DBpedia和LinkedMDB中的131个实体)进行实验，并与非增量式的实体摘要方法进行对比。这里我们测试了在RDF三元组“谓语”(即形式背景中的“属性”)增加时，生成实体摘要的时间性能对比。横坐标为对应的“属性”增量，纵坐标为对应的执行时间。实验结果如图5所示。从该结果可以看出，增量式的实体摘要算法在时间性能上，优于非增量的实体摘要生成方法。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于形式概念分析技术的增量式实体摘要生成方法，包括如下步骤：

2.根据权利要求1所述的方法，其中，优选的，所述步骤S100进一步包括如下子步骤：

3.根据权利要求1所述的方法，其中，所述步骤S200进一步包括：

4.根据权利要求1所述的方法，其中，所述步骤S400进一步包括：对所述集合T中每个元素取“上运算”个，得到集合T中的每个外延对应的内涵。

5.根据权利要求1所述的方法，其中，所述步骤S500进一步包括如下子步骤：

S502：遍历排序好的概念的外延，对所有的三元组进行评分；

6.根据权利要求5所述的方法，其中，概念的外延基数越小，概念越重要。