CN111026862A - 一种基于形式概念分析技术的增量式实体摘要方法 - Google Patents
一种基于形式概念分析技术的增量式实体摘要方法 Download PDFInfo
- Publication number
- CN111026862A CN111026862A CN201911262369.9A CN201911262369A CN111026862A CN 111026862 A CN111026862 A CN 111026862A CN 201911262369 A CN201911262369 A CN 201911262369A CN 111026862 A CN111026862 A CN 111026862A
- Authority
- CN
- China
- Prior art keywords
- concept
- background
- lattice
- concept lattice
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:S100:分别构造初始知识图谱RDF数据的初始形式背景k1及新增知识图谱RDF数据的新增形式背景k2;S200:分别构造初始形式背景k1的概念格C1及新增形式背景k2的概念格C2;S300:对概念格C1的外延和概念格C2的外延求交集,得到集合T;S400:由集合T中的外延元素,得到对应的内涵,构成最终的概念格;S500:基于所形成的最终的概念格,利用排序算法,得到实体摘要。该方法能够挖掘出最重要、最具代表性的三元组且在动态知识图谱背景下,能够有很好的处理性能。
Description
技术领域
本公开属于人工智能、数据挖掘、互联网技术领域,具体涉及一种基于形式概念分析技术的增量式实体摘要生成方法。
背景技术
目前,随着语义网的蓬勃发展,互联网中积累了越来越多的以非结构化形式存储的信息。然而,由于计算机擅于处理结构化数据,为了让计算机能够处理这些非结构化形式存储的信息,将其用知识图谱的形式进行存储,可以很好的理解和应用这些非结构化数据的语义和关系。因此,知识图谱,作为新一代人工智能的基础设施之一,得到了学术界和工业界广泛的关注。
知识图谱,是结构化的语义知识库,用“实体-关系-实体”三元组、实体和其相关的“属性-值”对的形式,来描述物理世界中的概念及其相互关系,实体间通过关系相互联结,构成网状的知识结构。知识图谱中的实体可以用资源描述框架(Resource DescriptionFramework)来进行统一描述,具体地,是由多个“主语-谓语-宾语”形式的三元组进行表示。然而,在当今互联网、物联网、云计算等技术不断发展的背景下,用户产生了海量的数据,且在不断增加。因此,用户在浏览不断增长的大量知识图谱信息的同时,不可避免地会陷入信息过载的境地。例如,最近版本的知识图谱DBpedia就包含了17亿的RDF三元组、660万实体,相当于平均每个实体包含258个描述信息。因此,有必要为用户提供一个简洁的实体摘要信息,从而能够有效避免用户陷入信息过载。
实体摘要技术,旨在从大量冗长的知识图谱数据中,为用户提取出简洁而又具有代表性的信息。其实质是对“属性-值”对进行排序后取前k个代表作为实体特征描述。目前,对于知识图谱的实体摘要技术有很多,但是和基准数据依然存在较大差距,仍存在较大的提升空间。并且,当前的实体摘要方法大多没有考虑到数据的动态增长特性,仅仅考虑针对某一时间点的某一版本的知识图谱的实体摘要,这种情况导致在含有大量知识图谱数据背景下,得到相应的实体摘要的效率就会降低。
形式概念分析(Formal Concept Analysis)是一种有力的反应“对象”和“属性”二元关系的完备的数学工具,目前已经被广泛应用于数据挖掘、软件工程、语义网等领域。FCA擅长于分析二元关系数据,而知识图谱中的RDF三元组中某个实体的“谓语”和“宾语”能够被转化为二元表关系。
发明内容
鉴于此,本公开提供了一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:
S100:分别构造初始知识图谱RDF数据的初始形式背景k1及新增知识图谱RDF数据的新增形式背景k2;
S200:分别构造初始形式背景k1的概念格C1及新增形式背景k2的概念格C2;
S300:对概念格C1的外延和概念格C2的外延求交集,得到集合T;
S400:由集合T中的外延元素,得到对应的内涵,构成最终的概念格;
S500:基于所形成的最终的概念格,利用排序算法,得到实体摘要。
通过上述技术方案,首先,本方法能够在构造概念格的形式背景过程中,将“对象”按照一定规则分割,能够挖掘出“对象”和“属性”的潜在的关联关系,使得最终的概念格得到的排序结果更能符合实际情况;其次,本方法利用概念格的“外延”基数进行排序,有很好的概念格理论支撑,能够挖掘出最重要、最具代表性的三元组;总之,本方法是一种增量式的构造概念格的方法,在动态知识图谱背景下,能够有很好的数据处理性能。
附图说明
图1是本公开一个实施例中所提供的一种基于形式概念分析技术的增量式实体摘要生成方法的流程示意图;
图2是本公开一个实施例中初始知识图谱RDF数据、新增知识图谱RDF数据,以及对应的形式背景的示意图;
图3(a)和图3(b)是本公开一个实施例中得到的概念格C1、C2示意图;
图4(a)是本公开一个实施例中最终知识图谱的概念格;
图4(b)是本公开一个实施例中得到的最终排序结果示意图;
图5是本公开一个实施例中本方法与非增量式的实体摘要方法的数据处理性能对比图。
具体实施方式
下面结合附图1至附图5对本发明进行进一步的详细说明。
在一个实施例中,参见图1,其公开了一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:
S100:分别构造初始知识图谱RDF数据的初始形式背景k1及新增知识图谱RDF数据的新增形式背景k2;
S200:分别构造初始形式背景k1的概念格C1及新增形式背景k2的概念格C2;
S300:对概念格C1的外延和概念格C2的外延求交集,得到集合T;
S400:由集合T中的外延元素,得到对应的内涵,构成最终的概念格;
S500:基于所形成的最终的概念格,利用排序算法,得到实体摘要。
就该实施例而言,本方法利用的形式概念分析技术,将知识图谱中实体的RDF三元组的“谓语”和“宾语”分别转化为形式概念分析技术中的“属性”和“对象”,构造出“属性”和“对象”的形式背景,然后构造概念格,利用概念格结构特征,对RDF三元组排序,得到相应的实体摘要。其中,在构造“属性”和“对象”的形式背景时,将“对象”按照一定规则分割后,得到其与“属性”的关联关系,能够最大程度地挖掘出两者之间的关系。利用生成的概念格的外延基数的大小,对外延中所有的“对象”进行评分,即可得到对应的RDF三元组的评分,输出最重要和最有代表性的三元组,即:当前实体的摘要信息。与传统实体摘要方法不同,本方法利用一种增量式构造概念格的方法,构造概念格,然后利用概念格结构特征,对概念格中的概念进行排序,最后生成实体摘要,能够解决在动态知识图谱中的实体摘要问题。
在另一个实施例中,所述步骤S100进一步包括如下子步骤:
S101:将知识图谱RDF中的三元组的“谓语”和“宾语”分别作为形式概念分析技术中形式背景的“属性”和“对象”;
S102:将“对象”按照一定规则分割后,找出所有的其与“属性”的关联关系;
S103:按照子步骤S101的方式,将初始知识图谱RDF三元组和新增知识图谱RDF三元组,根据子步骤S102得到的“属性”和“对象”的关联关系,分别构造初始形式背景k1和新增形式背景k2。
就该实施例而言,初始知识图谱是指未新增RDF三元组数据的知识图谱,新增知识图谱是指新增的RDF三元组数据构成的知识图谱。
此处的一定规则可以是特殊字符,也可以是字符的大小写。特殊字符包括:“/”、“#”等,按照这种规则进行分割,一个长字符串最后被分割为几个字符串。比如:“JapaneseMysteryWriters”可以分割成“Japanese”“Mystery”“Writers”三个字符;“Japanese_people”可以分割成“Japanese”“people”两个字符。
在另一个实施例中,所述步骤S200进一步包括:
遍历初始形式背景k1及新增形式背景k2中的所有“对象”和“属性”,按照初始形式背景k1及新增形式背景k2中已有的关联关系,通过形式概念分析技术中的“下运算”↓和“上运算”↑,分别得到概念格中概念的“外延”和“内涵”,最终得到初始形式背景k1的概念格C1及新增形式背景k2的概念格C2。
就该实施例而言,利用形式背景构造概念格,是通过分别求概念格中概念的“外延”和“内涵”得到。
在另一个实施例中,所述步骤S400进一步包括:对所述集合T中每个元素取“上运算”↑,得到集合T中的每个外延对应的内涵。
就该实施例而言,根据得到的概念外延集,利用形式背景中“对象”和“属性”的关联关系,对外延集中的元素取“上运算”个,得到概念外延对应的内涵,即:最终的概念格中的所有概念。
在另一个实施例中,所述步骤S500进一步包括如下子步骤:
S501:所述排序算法是利用概念格中概念的外延的基数从小到大进行排序;
S502:遍历排序好的概念的外延,对所有的三元组进行评分;
S503:按照评分从大到小输出实体的前k个三元组作为实体所对应的实体摘要,其中k为正整数。
就该实施例而言,外延中“对象”元素对应的是三元组中的“宾语”,外延基数越小,对外延中的“对象”的评分就越高,该“宾语”所对应的三元组也就越重要。
一般会根据实际情况确定这个k的数量,k是5的话,就输出5条RDF三元组,作为实体的摘要。
比如有15个概念(包括外延和内涵),也就是有15个外延,外延基数(也就是外延中对象的个数)越小,这个外延的评分越高。实际上,假如我们给最小外延基数的外延评分15,第2小的外延基数的外延评分是14这样进行评分。这个评分,也就是每个外延中所有“对象”的评分,也就是RDF三元组的评分,因为这个“对象”(宾语)对应一个RDF三元组(主-谓-宾)。接下来,按照评分从大到小输出三元组。
在另一个实施例中,概念的外延基数越小,概念越重要。
在另一个实施例中,如图2所示,左边的部分为初始RDF三元组和新增的RDF三元组,右边部分为对应的形式背景k1、k2。可以看到,在该实施例中,形式背景中“对象”和“属性”关联关系是在对“对象”(对应于三元组中的“宾语”)进行分割后的其与“属性”的关系。例如,在初始RDF数据的形式背景中,“predicate 3”与“tokenized object 2”的关联关系在初始RDF数据中并不存在,而是将“object2”分割后挖掘的潜在关系,这里假设“object2”分割后的片段包含“object1”。这种潜在关联关系和原有的关联关系共同构成最终的形式背景中“对象”和“属性”的关系。
如图3(a)和图3(b)所示,为上一步骤中得到的形式背景的概念格。概念格构造是利用概念格构造的基本定义实现,即:分别对形式背景中的“属性”P和“对象”O,分别取“下运算”↓和“上运算”↑,满足P↓=O和O↑=P条件时,得到概念格的“外延”和“内涵”,最终得到初始形式背景和新增形式背景的概念格C1、C2。
对概念格C1的外延EL(k1)和C2的外延EL(k2)求交集,得到集合T:在概念格C1的外延集EL(k1)为:概念格C2的外延集EL(k2)为:对两部分外延集取交集,得到的集合T为:{{o1},{o2},{o3},{o4},{o1,o2},{o1,o3},{o2,o4},{o1,o2,o3,o4}}。
其中,比如{o1}是EL(k1)中的{o1}和EL(k2)中的{o1,o2,o3,o4}集合的交集得到的。这个属于概念格一个特殊的性质。
如图4(a)所示,为得到的最终概念格。由上一步骤得到的外延交集T中的每个外延,利用概念格理论中的“上运算”↑,得到每个外延对应的内涵,即得到了最终的概念格。
如图4(b)所示,即为得到的最终排序结果。具体地,图4(a)中的所有概念,按照外延基数从大到小排序后,得到:({o1},{p1,p3}),({o2},{p2,p3}),({o3},{p1,p4}),({o4},{p2,p5}),({o1,o2},{p3}),({o1,o3},{p1}),({o2,o4},{p2}),于是最终得到的排序后的RDF三元组如图4(b)。
其中,在形式背景和概念格中,o2和p3的关系是挖掘出来的潜在关系,所以在最终排序输出的RDF三元组中并不会体现。
就该实施例而言,本方法的关键点是利用形式概念分析技术解决知识图谱领域的实体摘要问题。与传统实体摘要方法相比,本方法利用形式概念分析技术完备的理论基础和强大的数据挖掘特性,将知识图谱RDF三元组中的“谓语”和“宾语”巧妙地转化为形式概念分析技术中的“属性”和“对象”,并且利用分割后的“对象”最大程度地挖掘出其与“属性”的关系;本方法中所利用的形式概念分析技术是一种增量式的概念格构造算法,能够适应在动态知识图谱背景下的实体摘要问题;本方法中所利用的形式概念分析技术中的排序方式是利用外延基数进行排序,思想是:外延基数越小,其外延越重要。该思想具有完备的理论支撑。
在另一个实施例中,为了验证该方法的有效性,我们选取了现有的基准数据(取自知识图谱DBpedia和LinkedMDB中的131个实体)进行实验,并与非增量式的实体摘要方法进行对比。这里我们测试了在RDF三元组“谓语”(即形式背景中的“属性”)增加时,生成实体摘要的时间性能对比。横坐标为对应的“属性”增量,纵坐标为对应的执行时间。实验结果如图5所示。从该结果可以看出,增量式的实体摘要算法在时间性能上,优于非增量的实体摘要生成方法。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。
Claims (6)
1.一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:
S100:分别构造初始知识图谱RDF数据的初始形式背景k1及新增知识图谱RDF数据的新增形式背景k2;
S200:分别构造初始形式背景k1的概念格C1及新增形式背景k2的概念格C2;
S300:对概念格C1的外延和概念格C2的外延求交集,得到集合T;
S400:由集合T中的外延元素,得到对应的内涵,构成最终的概念格;
S500:基于所形成的最终的概念格,利用排序算法,得到实体摘要。
2.根据权利要求1所述的方法,其中,优选的,所述步骤S100进一步包括如下子步骤:
S101:将知识图谱RDF中的三元组的“谓语”和“宾语”分别作为形式概念分析技术中形式背景的“属性”和“对象”;
S102:将“对象”按照一定规则分割后,找出所有的其与“属性”的关联关系;
S103:按照子步骤S101的方式,将初始知识图谱RDF三元组和新增知识图谱RDF三元组,根据子步骤S102得到的“属性”和“对象”的关联关系,分别构造初始形式背景k1和新增形式背景k2。
3.根据权利要求1所述的方法,其中,所述步骤S200进一步包括:
遍历初始形式背景k1及新增形式背景k2中的所有“对象”和“属性”,按照初始形式背景k1及新增形式背景k2中已有的关联关系,通过形式概念分析技术中的“下运算”↓和“上运算”↑,分别得到概念格中概念的“外延”和“内涵”,最终得到初始形式背景k1的概念格C1及新增形式背景k2的概念格C2。
4.根据权利要求1所述的方法,其中,所述步骤S400进一步包括:对所述集合T中每个元素取“上运算”个,得到集合T中的每个外延对应的内涵。
5.根据权利要求1所述的方法,其中,所述步骤S500进一步包括如下子步骤:
S501:所述排序算法是利用概念格中概念的外延的基数从小到大进行排序;
S502:遍历排序好的概念的外延,对所有的三元组进行评分;
S503:按照评分从大到小输出实体的前k个三元组作为实体所对应的实体摘要,其中k为正整数。
6.根据权利要求5所述的方法,其中,概念的外延基数越小,概念越重要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911262369.9A CN111026862B (zh) | 2019-12-10 | 2019-12-10 | 一种基于形式概念分析技术的增量式实体摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911262369.9A CN111026862B (zh) | 2019-12-10 | 2019-12-10 | 一种基于形式概念分析技术的增量式实体摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026862A true CN111026862A (zh) | 2020-04-17 |
CN111026862B CN111026862B (zh) | 2022-09-13 |
Family
ID=70205524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911262369.9A Active CN111026862B (zh) | 2019-12-10 | 2019-12-10 | 一种基于形式概念分析技术的增量式实体摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026862B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597296A (zh) * | 2020-12-17 | 2021-04-02 | 中山大学 | 一种基于计划机制和知识图谱引导的摘要生成方法 |
CN114358062A (zh) * | 2021-12-23 | 2022-04-15 | 河南大学 | 一种基于形式概念分析的黄河岸坝险情识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227805A (zh) * | 2016-07-17 | 2016-12-14 | 河南理工大学 | 一种基于形式概念分析理论的术语定义方法及系统 |
CN109376248A (zh) * | 2018-09-04 | 2019-02-22 | 梁怀新 | 一种基于增量学习的知识库构建及偏序结构图生成方法 |
-
2019
- 2019-12-10 CN CN201911262369.9A patent/CN111026862B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227805A (zh) * | 2016-07-17 | 2016-12-14 | 河南理工大学 | 一种基于形式概念分析理论的术语定义方法及系统 |
CN109376248A (zh) * | 2018-09-04 | 2019-02-22 | 梁怀新 | 一种基于增量学习的知识库构建及偏序结构图生成方法 |
Non-Patent Citations (6)
Title |
---|
EUN-KYUNG KIM: "Entity Summarization Based on Formal Concept Analysis", 《SEMANTIC SCHOLAR》 * |
FEI HAO等: "Measuring similarity between graphs based on formal concept analysis", 《SPRINGER LINK》 * |
LARRY GONZALEZ等: "Modelling Dynamics in Semantic Web Knowledge Graphs with Formal Concept Analysis", 《ACM》 * |
周文: "基于概念的若干知识表示模型及相关方法研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
朱佳等: "基于形式概念分析的煤矿事故本体构建", 《工矿自动化》 * |
田维等: "结合FCA与Jena的领域本体半自动构建方法研究", 《计算机工程与科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597296A (zh) * | 2020-12-17 | 2021-04-02 | 中山大学 | 一种基于计划机制和知识图谱引导的摘要生成方法 |
CN114358062A (zh) * | 2021-12-23 | 2022-04-15 | 河南大学 | 一种基于形式概念分析的黄河岸坝险情识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111026862B (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Afrati et al. | Fuzzy joins using mapreduce | |
Lee et al. | Efficient incremental high utility pattern mining based on pre-large concept | |
Duong et al. | An efficient method for mining frequent itemsets with double constraints | |
Nam et al. | Efficient approach for damped window-based high utility pattern mining with list structure | |
CN111026862B (zh) | 一种基于形式概念分析技术的增量式实体摘要方法 | |
Wu et al. | Generalized association rule mining using an efficient data structure | |
Lin et al. | Incrementally updating the discovered sequential patterns based on pre-large concept | |
Lin et al. | Mining fuzzy frequent itemsets based on UBFFP trees | |
Niu et al. | Scaling inference for markov logic via dual decomposition | |
CN106844445B (zh) | 基于语义的资源描述框架rdf图划分方法 | |
Woon et al. | A support-ordered trie for fast frequent itemset discovery | |
CN106648636A (zh) | 一种基于图挖掘的软件函数变更预测系统及方法 | |
Ma et al. | Two-level clustering of UML class diagrams based on semantics and structure | |
CN109101530B (zh) | 高效用事件序列模式挖掘方法 | |
Consoli et al. | A quartet method based on variable neighborhood search for biomedical literature extraction and clustering | |
Le et al. | An efficient incremental mining approach based on IT-tree | |
Nguyen et al. | Learning on hypergraphs with sparsity | |
Lin et al. | An UBMFFP tree for mining multiple fuzzy frequent itemsets | |
Lin et al. | Mining of high average-utility patterns with item-level thresholds | |
Wu | Data association rules mining method based on improved apriori algorithm | |
Lin et al. | Efficient updating of sequential patterns with transaction insertion | |
Wen et al. | PSubCLUS: A parallel subspace clustering algorithm based on spark | |
Hou et al. | RedTrees: A relational decision tree algorithm in streams | |
Hellal et al. | Nodar: mining globally distributed substructures from a single labeled graph | |
Wang et al. | Document-specific keyphrase candidate search and ranking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |