CN111061923B - 一种基于图依赖规则和监督学习的图数据实体识别系统 - Google Patents

一种基于图依赖规则和监督学习的图数据实体识别系统 Download PDF

Info

Publication number
CN111061923B
CN111061923B CN201911280249.1A CN201911280249A CN111061923B CN 111061923 B CN111061923 B CN 111061923B CN 201911280249 A CN201911280249 A CN 201911280249A CN 111061923 B CN111061923 B CN 111061923B
Authority
CN
China
Prior art keywords
graph
data
conf
matching key
supervised learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911280249.1A
Other languages
English (en)
Other versions
CN111061923A (zh
Inventor
邓婷
侯蕾
韩紫燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201911280249.1A priority Critical patent/CN111061923B/zh
Publication of CN111061923A publication Critical patent/CN111061923A/zh
Application granted granted Critical
Publication of CN111061923B publication Critical patent/CN111061923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明通过特征提取和特征选择的方法,设计了一种基于图依赖规则和监督学习的图数据实体识别系统,其方法主要是将图匹配键作为实体识别依赖的规则,提出的一种监督学习的实体识别方法,其包含四个步骤:给出定义、图匹配键特征提取、图匹配键特征选择、分类器训练和测试。上述步骤构成的方法,可以将图数据与已知数据标签对应,获得高质量的匹配规则,对给定测试数据获得高准确率的分类结果,并使得模型和得到的结果具备可解释性,并在模型方法的基础上实现一个可以对图数据库依据实体内容和拓扑结构进行去除冗余、分类的系统。

Description

一种基于图依赖规则和监督学习的图数据实体识别系统
技术领域
本发明涉及图数据质量领域,尤其涉及一种基于图依赖规则和监督学习的图数据实体识别系统。
背景技术
图数据是一种具备直观表达形式的数据结构,在研究和商业领域均有着广泛的应用。随着社交网络数据量的急剧增长,图数据的规模也越来越大,使得高效处理图数据变得异常困难。此外,图数据规模的增大,也随之带来了图数据的一系列质量问题,例如数据冗余、数据不一致、错误数据、缺失数据等。实体识别(又叫实体解析、实体匹配、冗余检测、记录链接)作为一种提升数据质量的重要方法,被用来查找给定数据集中表示同一实体的记录并消除数据冗余,同时在数据清洗、数据整合、信息检索等领域有着很重要的应用。
其中,数据冗余体现在,数据集中若干不同的数据记录描述的是现实世界中的同一个实体对象,而这些数据记录对应的某些属性或者拓扑结构存在细微差别,因此它们是近似的重复的记录。当数据库中存储的数据出现冗余时,会存在以下一些问题:(1)数据不一致性。数据库中存储多个不同的数据记录来表示现实世界同一实体,也就是说表示同一实体的记录包含的属性或拓扑结果不尽相同,这使得数据出现不一致性,也导致数据库查询、更新等操作出现异常。(2)内存消耗。表示同一实体的记录在数据库中存储了多次,会导致内存占用增加,浪费存储空间。并且数据量越大,占据的存储空间越大。尤其在大数据时代,图数据规模很大的情况下,数据冗余带来的额外内存消耗是不可忽视的。因此,为了保证数据的质量,通常需要对冗余的数据记录进行检测并消除。
实体识别(又叫实体解析、实体匹配、冗余检测、记录链接)是一种检测数据冗余的有效手段,用于判断数据集中的数据记录是否描述的是现实世界中的同一实体对象。其作为一种提升数据质量的重要方法,在数据清洗、数据整合、信息检索等领域有着很重要的应用。
图数据上的实体识别不同于关系数据上的实体识别,虽然已经有了一定程度的研究,但是由于识别过程中需要考虑到图结构中包含的实体依赖等信息,仍存在很多问题有待解决和改进。
当前在图数据上做实体识别的方法主要包括两类:基于规则的和基于机器学习的方法。
现有技术主要存在以下问题:
(1)基于规则的方法:GKeys对节点的属性值进行比较时使用的是相等性,也就是说对于两个节点,只有需要比较的属性值完全相等,才认为它们表示同一实体。GDDLs仅仅考虑比较节点的属性,没有涉及到图模式的匹配,因此不能用来解决集体实体识别,此外,由于没有考虑使用节点的拓扑结构信息,得到的结果准确度也有待提升。值得注意的是,基于规则的方法最大的一个障碍是规则的发现问题,一般情况下需要领域专家根据经验给出规则,或者采用自动发现的方法。依靠领域专家给出规则是不现实的,因为图数据种类繁多且规模很大;然而采用自动发现的方法也比较困难,尤其对于键keys的发现更困难,因为既需要发现有意义的图模式,又要发现值的依赖规则。
(2)基于机器学习的方法:绝大部分的机器学习模型都是不可解释的。在实践中使用这些基于机器学习的方法的主要障碍是,终端用户仅仅是得到了输出结果,却没有获得为什么某些节点表示同一实体的合理解释,因此很难信任模型和其输出结果。
发明内容
为了提高图数据的实体识别的准确性,本发明提供了一种基于图依赖规则和监督学习的图数据实体识别算法。通过结合图依赖规则和监督学习,既解决了基于规则的实体识别方法准确率低的问题,又解决了基于机器学习的实体识别方法的不可解释性。
为达到上述目的,本发明采用了下列技术方案:
一种基于图依赖规则和监督学习的图数据实体识别系统,包括:
信息输入模块,用于将外部数据库所获取的图数据和带标签的数据集进行标准化后导入;
基于图依赖规则和监督学习的图数据实体识别模块,应用一种基于图依赖规则和监督学习的图数据实体识别方法,对输入的图数据进行实体识别;
信息输出模块,依据所述基于图依赖规则和监督学习的图数据实体识别模块中所识别的图数据与标签是否为同一实体的结果,将识别为同一实体的图数据分别打包输出为新的图数据库,并生成一个对同一标签仅保留一个图数据的去除冗余后的图数据库。
具体地,一种基于图依赖规则和监督学习的图数据实体识别方法,包括:
通过图匹配键(Graph Matching Keys,GMKs)作为实体识别依赖的规则,并提出一种监督学习的实体识别方法(Graph Matching Keys and Supervised Learning basedEntity Matching,GMKSLEM),所述使用图匹配键作为特征,以此来达到高的准确率和可解释性;
所述监督学习的实体识别方法对给定的一组节点对,将其表示成向量的形式,输入到分类器中,输出的结果为1或0,分别表示为同一实体或不同实体,具体包括:
步骤一:给出图匹配键的定义、支持度的定义、可信度的定义;
步骤二:图匹配键特征提取:根据步骤一定义的内容,生成候选图匹配键集合,将数据集中的节点对集合表示成向量;
步骤三:图匹配键特征选择:计算第2步得到的候选图匹配键的重要性,并进行排序和筛选,过滤掉对分类贡献不大的特征,得到最终高质量的图匹配键集合,并将数据集中的节点对集合重新计算表示成向量,训练得到最终性能高的分类器;
步骤四:分类器训练和测试:将测试集中的节点对根据步骤三得到的图匹配键集合表示成一组向量,输入步骤三得到的所述分类器中进行测试,并计算准确率precision、召回率recall、以及F1
Figure GDA0003670868030000031
进行评测。
所述图匹配键中,一个图匹配键ψ的定义为:
Figure GDA0003670868030000034
所述支持度的定义为:
Figure GDA0003670868030000032
所述可信度的定义为:
(1)当(v,v’)∈Q(x0,y0,G)时,即(v,v’)可以通过Q(G)匹配到(x0,y0)时:
Figure GDA0003670868030000033
conf(li,v,v′)=max{conf(liv,v′,h)|h∈Q(x0,y0,G),h(x0)=v,h(y0)=v′},其中Q为图模式。
conf(Xψ,v,v′,h)=(conf(l1,v,v′,h),conf(l2,v,v′,h),...,conf(lk,v,v′,h))
conf(Xψ,v,v′)=(conf(l1,v,v′),conf(l2,v,v′),...,conf(lk,v,v′))
(2)否则,conf(Xψ,v,v',h)和conf(Xψ,v,v')均为k维的零向量
步骤二包括:
在带标签的所述数据集上查找频繁的所述图模式,并通过添加属性依赖来生成图匹配键;
通过在所述图模式和属性依赖两个层次来降低枚举的复杂性,具体地:在枚举生成所述图模式的同时,丢弃支持度低于一定阈值的所述图模式;设定所述图模式的大小边界值,当生成的所述图模式到达一定大小时则终止;对于得到的每个频繁的所述图模式,将其潜在的属性依赖全部加到所述图模式上,得到一个候选的图匹配键;
将所述图匹配键的集合作为特征,引入可信度的定义,然后将带标签的数据集中的每个节点对表示为向量输入到分类器中进行训练和测试。
步骤三包括:
特征排序:对得到的候选所述图匹配键进行排序,得到一个重要性从高到低排列的特征序列;
特征过滤:对经过特征排序得到的特征序列,初始化一个集合F,每次依次加入序列中的一个特征,分别使用所述集合和所述集合并所述特征的新集合作为特征去训练并测试分类器,若后者训练的分类器在测试时的性能比前者的强,则保留所述特征在所述集合中;否则剔除所述特征,同时将所属特征对应的属性依赖从该图匹配键中删掉,当某个图匹配键的所有属性依赖都被删掉之后,这个图匹配键也将从图匹配键集合中删除;重复这个过程,直到每个特征都被遍历过之后,则终止。
步骤四包括:
根据得到的所述图匹配键集合和所述分类器,将测试集中的节点对表示成一组向量,输入到所述分类器中进行测试,并计算准确率、召回率、F1值进行评测,表征模型的性能好坏。
本发明通过上述技术方案,在图数据的实体匹配的方法中实现了如下技术效果:
(1)获得高质量的匹配规则;
(2)获得高准确率的结果;
(3)使得模型和得到的结果具备可解释性。
并基于上述方法,实现了一种基于图依赖规则和监督学习的图数据实体识别系统,通过这一系统,实现对输入图数据的高准确高质量实体匹配,进而减少图数据的冗余问题。
附图说明
图1:GMKSLEM方法的总体流程
具体实施方式
以下是本发明的优选实施例,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本实施例中一种基于图依赖规则和监督学习的图数据实体识别方法提出了图匹配键(Graph Matching Keys,简称GMKs)作为实体识别依赖的规则,同时提出了一种监督学习的实体识别方法GMKSLEM(Graph Matching Keys and Supervised Learning basedEntity Matching),该方法使用GMKs作为特征,以此来达到高的准确率和可解释性。给定一个数据图G,一个带标签的数据集D={(v,v’,r)},其中v和v’表示需要识别的两个节点,r=0表示v和v’不属于同一实体,r=1表示属于同一实体。数据集D表示已知标签的代表同一实体或不同实体的节点对集合。GMKSLEM方法的总体流程如图1所示。
该方法将实体识别问题看作是二分类问题,给定一组节点对,将其表示成向量的形式,输入到分类器中,输出的结果为1或0,分别表示为同一实体或不同实体。其主要包括四个步骤:
步骤一:给出图匹配键GMKs的定义、支持度support的定义、可信度confidence的定义;
步骤二:GMKs特征提取:生成候选GMKs集合Σc,将数据集D中的节点对集合表示成向量VectorD
步骤三:GMKs特征选择:计算第2步得到的候选GMKs的重要性,并进行排序和筛选,过滤掉对分类贡献不大的特征,得到最终高质量的GMKs集合Σ,并将数据集D中的节点对集合重新计算表示成向量Vector'D,训练得到最终性能高的分类器
Figure GDA0003670868030000051
步骤四:分类器训练和测试:将测试集中的节点对根据第3步得到的GMKs集合Σ表示成一组向量,输入第3步得到的分类器
Figure GDA0003670868030000061
中进行测试,并计算准确率precision、召回率recall、F1值进行评测
Figure GDA0003670868030000062
步骤一:定义
图匹配键GMKs的定义
一个GMKψ被定义为
Figure GDA0003670868030000063
其中,
(1)
Figure GDA0003670868030000064
具备对称的结构,即:
Figure GDA0003670868030000065
可拆分成
Figure GDA0003670868030000066
Figure GDA0003670868030000067
并且
Figure GDA0003670868030000068
相当于通过一个双射函数对
Figure GDA0003670868030000069
使得
Figure GDA00036708680300000610
Figure GDA00036708680300000611
不相交,且从Q1到Q2存在同构f。直观的讲,
Figure GDA00036708680300000612
相当于将
Figure GDA00036708680300000613
进行复制后,更改了变量的名称而得到的;
(2)
Figure GDA00036708680300000614
Figure GDA00036708680300000615
Figure GDA00036708680300000616
组成,其中x0和y0是指定的节点,即需要判断是否为同一实体的节点;
(3)Xψ是一组关于
Figure GDA00036708680300000617
的属性依赖集合,这些属性依赖具备以下两种形式:(a)变量属性依赖:x.A≈y.B,其中y=f(x),A和B是x和y的非id属性;(b)id属性依赖:x.id≈y.id,其中y=f(x)。
GMKψ使用图模式Q,属性的相似性和节点标识来指定拓扑结构约束。当id属性依赖出现在Xψ中的时候,可以递归的定义GMK,因此,GMK可应用在集体实体识别。
支持度support的定义
给定一个数据图G,一个带标签的数据集D={(v,v’,r)},和一个由
Figure GDA00036708680300000618
Figure GDA00036708680300000619
组成的
Figure GDA00036708680300000620
指定的节点为x0和y0,则定义支持度support为:
Figure GDA00036708680300000621
其中,Q(x0,y0,G)表示Q在属性图G上匹配到(x0,y0)的节点对的集合,Dpair表示D中的所有节点对(v,v’)。因此,support的定义表示的是数据集D中能匹配到Q(G)的节点对占数据集的比例。support描述的是图模式Q提供的拓扑结构约束被D中的节点对满足的频率。此处,support的定义是为了在生成候选GMKs时,过滤掉低质量的GMKs,从而减少计算复杂度。
可信度confidence的定义
给定Dpair中的一个节点对(v,v’)和一个GMK
Figure GDA0003670868030000071
其中Xψ包含k个属性依赖l1,l2,…,lk,每个属性依赖li的形式为xi.Aiiyi.Bi或xi.id=yi.id,i∈[1,k],则
(1)当(v,v’)∈Q(x0,y0,G),也就是说(v,v’)可以通过Q(G)匹配到(x0,y0)时,记h为任意满足h(x0)=v且h(y0)=v'的匹配,则定义
Figure GDA0003670868030000072
其中,s≈(h(xi).Ai,h(yi).Bi)表示用相似性度量函数≈计算相似性s(h(xi).Ai,h(yi).Bi);
进一步定义
conf(li,v,v')=max{conf(li,v,v',h)|h∈Q(x0,y0,G),h(x0)=v,h(y0)=v′}
conf(Xψ,v,v′,h)=(conf(l1,v,v′,h),conf(l2,v,v′,h),…,conf(lk,v,v′,h))
conf(Xψ,v,v′)=(conf(l1,v,v′),conf(l2,v,v′),…,conf(lk,v,v′))
可看出,conf(Xψ,v,v',h)描述的是当(v,v’)通过h满足Q的拓扑结构约束时,(v,v’)满足Xψ中的所有属性依赖的可能性;conf(Xψ,v,v')描述的是对于所有满足h(x0)=v和h(y0)=v'的匹配h,(v,v’)满足Xψ中的所有属性依赖的最大可能性。
(2)当
Figure GDA0003670868030000073
时,也就是说(v,v’)不可以通过Q(G)匹配到(x0,y0)时,conf(Xψ,v,v',h)和conf(Xψ,v,v')均为k维的零向量。
此处,可信度confidence的定义,旨在后续将节点对表示成向量。
步骤二:GMKs特征提取
生成候选GMKs
我们在带标签的数据集D上查找频繁图模式Q,并通过添加属性依赖来生成GMKs。但是,枚举所有的GMKs的成本很高,因为一组候选GMKs的集合在Q的大小和潜在属性依赖的数量上呈指数增长。因此,本发明通过在图模式和属性依赖两个层次来降低枚举的复杂性,具体做法如下:
(1)在枚举生成图模式Q的同时,丢弃支持度低于一定阈值的Q;设定Q的大小边界值,当生成的Q到达一定大小时则终止,这样做可以丢弃尺寸过大的Q,因为尺寸过大的Q通常是不频繁的(支持度较低),并且很难向用户进行解释;这两个策略都可以使得Q在枚举生成时的扩张可以提前结束,降低枚举的复杂度。
(2)对于第(1)步得到的每个频繁图模式Q,将其潜在的属性依赖全部加到Q上,得到一个候选的GMK。将最终得到的所有候选GMKs的集合记为CGKMs(Candidate GMKs),记为Σc。而现有的枚举方法,在这一步会将所有潜在的属性依赖进行排列组合,得到的候选结果数量很多,导致计算量很大。
向量表示
我们将GMKs作为特征,引入可信度confidence的定义,然后将带标签的数据集D中的每个节点对(v,v’)表示为向量vector(v,v’)输入到分类器中进行训练和测试,以此将GMKs和监督学习的方法进行结合。
具体做法如下:若CGKMs包含n个候选GMKψ12,…ψn,每个ψi包含mi个属性依赖
Figure GDA0003670868030000081
那么对于D中的每个节点对(v,v’)和任意一个ψi,计算一个mi维的向量,即可信度
Figure GDA0003670868030000082
其中第j个元素为
Figure GDA0003670868030000083
最后,将某个节点对和每个ψi,i∈[1,n],计算得到的结果进行串接,就得到了该节点对的向量表示。即,
Figure GDA0003670868030000084
Figure GDA0003670868030000085
因此,对于整个数据集D,通过对其中每个节点对进行向量表示,最终可将该数据集表示成向量的集合VectorD
步骤三:GMKs特征选择
特征排序
我们对得到的候选GMKs进行特征选择,过滤掉对分类贡献不大的特征,得到一组高质量的GMKs用到分类中去,从而提高实体识别的准确率,并增加了模型和分类结果的可解释性。这里将CGMKs中每个GMK的图模式和一个属性依赖的组合作为一个特征,若某个GMKψ有k个属性依赖l1,l2,…,lk,则此处对应k个特征,分别为Q&l1,Q&l2,…,Q&lk,记为θ12,…,θk,。首先,对每个特征计算对应的基尼系数,然后从高到低进行排序,就得到了一个重要性从高到低的特征序列。
特征过滤
根据上一步特征排序得到的特征序列,来进行特征过滤。初始化一个集合F,每次依次加入序列中的一个特征θi,分别使用F和F∪{θi,}作为特征去训练并测试分类器。若后者训练的分类器在测试时的性能比前者的强,则保留θi在F中;否则剔除θi,同时将θi对应的属性依赖从该GMK中删掉,当某个GMK的所有属性依赖都被删掉之后,这个GMK也将从CGMKs中删除。重复这个过程,直到每个特征都被遍历过之后,则终止。最终,将得到一组高质量、有意义的GMKs,将其构成的集合记为Σ,与此同时,也将获得数据集D被重新计算表示成的向量Vector'D以及训练得到的最终性能高的分类器
Figure GDA0003670868030000091
步骤四:分类器训练和测试
根据上一步得到的GMKs集合Σ和分类器
Figure GDA0003670868030000092
将测试集中的节点对表示成一组向量,输入到
Figure GDA0003670868030000093
中进行测试,并计算准确率、召回率、F1值进行评测,表征模型的性能好坏。

Claims (4)

1.一种基于图依赖规则和监督学习的图数据实体识别系统,其特征在于:包括:
信息输入模块,用于将外部数据库所获取的图数据和带标签的数据集进行标准化后导入;
基于图依赖规则和监督学习的图数据实体识别模块,应用一种基于图依赖规则和监督学习的图数据实体识别方法,对输入输图数据进行实体识别;
信息输出模块,依据所述基于图依赖规则和监督学习的图数据实体识别模块中所识别的图数据与标签是否为同一实体的结果,将识别为同一实体的图数据分别打包输出为新的图数据库,并生成一个同一标签仅保留一个图数据的去除冗余后的图数据库;
所述一种基于图依赖规则和监督学习的图数据实体识别方法,其特征在于:包括:
通过图匹配键(Graph Matching Keys,GMKs)作为实体识别依赖的规则,并提出一种监督学习的实体识别方法(Graph Matching Keys and Supervised Learning based EntityMatching,GMKSLEM),- 使用所述 图匹配键作为特征,以此来达到高的准确率和可解释性;
所述监督学习的实体识别方法对给定的一组节点对,将其表示成向量的形式,输入到分类器中,输出的结果为1或0,分别表示为同一实体或不同实体,具体包括:
步骤一:给出图匹配键的定义、支持度的定义、可信度的定义;
步骤二:图匹配键特征提取:根据步骤一定义的内容,生成候选图匹配键集合,将数据集中的节点对集合表示成向量;
步骤三:图匹配键特征选择:计算第2步得到的候选图匹配键的重要性,并进行排序和筛选,过滤掉对分类贡献不大的特征,得到最终高质量的图匹配键集合,并将数据集中的节点对集合重新计算表示成向量,训练得到最终性能高的分类器;
步骤四:分类器训练和测试:将测试集中的节点对根据步骤三得到的图匹配键集合表示成一组向量,输入步骤三得到的所述分类器中进行测试,并计算准确率precision、召回率recall、以及F1值进行评测;
所述图匹配键中,一个图匹配键ψ的定义为:
Figure FDA0003670868020000011
所述支持度的定义为:
Figure FDA0003670868020000012
所述可信度的定义为:
(1)当(v,v’)∈Q(x0,y0,G)时,即(v,v’)可以通过Q(G)匹配到x0,y0)时:
Figure FDA0003670868020000013
conf(li,v,v′)=max{conf(li,v,v′,h)|h∈Q(x0,y0,G),h(x0)=v,h(y0)=v′},其中Q为图模式,
conf(Xψ,v,v′,h)=(conf(l1,v,v′,h),conf(l2,v,v′,h),...,conf(lk,v,v′,h))
conf(Xψ,v,v′)=(conf(l1,v,v′),conf(l2,v,v′),...,conf(lk,v,v′));
(2)否则,conf(Xψ,v,v′,h)和conf(Xψ,v,v′)均为k维的零向量。
2.根据权利要求1所述的一种基于图依赖规则和监督学习的图数据实体识别系统,其特征在于:所述图匹配键特征提取步骤包括:
在带标签的所述数据集上查找频繁的所述图模式,并通过添加属性依赖来生成图匹配键;
通过在所述图模式和属性依赖两个层次来降低枚举的复杂性,具体地:在枚举生成所述图模式的同时,丢弃支持度低于一定阈值的所述图模式;设定所述图模式的大小边界值,当生成的所述图模式到达一定大小时则终止;对于得到的每个频繁的所述图模式,将其潜在的属性依赖全部加到所述图模式上,得到一个候选的图匹配键;
将所述图匹配键的集合作为特征,引入可信度的定义,然后将带标签的数据集中的每个节点对表示为向量输入到分类器中进行训练和测试。
3.根据权利要求2所述的一种基于图依赖规则和监督学习的图数据实体识别系统,其特征在于:所述图匹配键特征选择步骤包括:
特征排序:对得到的候选所述图匹配键进行排序,得到一个重要性从高到低排列的特征序列;
特征过滤:对经过特征排序得到的特征序列,初始化一个集合F,每次依次加入序列中的一个特征,分别使用所述集合和所述集合并所述特征的新集合作为特征去训练并测试分类器,若后者训练的分类器在测试时的性能比前者的强,则保留所述特征在所述集合中;否则剔除所述特征,同时将所属特征对应的属性依赖从该图匹配键中删掉,当某个图匹配键的所有属性依赖都被删掉之后,这个图匹配键也将从图匹配键集合中删除;重复这个过程,直到每个特征都被遍历过之后,则终止。
4.根据权利要求3所述的一种基于图依赖规则和监督学习的图数据实体识别系统,其特征在于:所述分类器训练和测试步骤为:根据得到的所述图匹配键集合和所述分类器,将测试集中的节点对表示成一组向量,输入到所述分类器中进行测试,并计算准确率、召回率、F1值进行评测,表征模型的性能好坏。
CN201911280249.1A 2019-12-13 2019-12-13 一种基于图依赖规则和监督学习的图数据实体识别系统 Active CN111061923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911280249.1A CN111061923B (zh) 2019-12-13 2019-12-13 一种基于图依赖规则和监督学习的图数据实体识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911280249.1A CN111061923B (zh) 2019-12-13 2019-12-13 一种基于图依赖规则和监督学习的图数据实体识别系统

Publications (2)

Publication Number Publication Date
CN111061923A CN111061923A (zh) 2020-04-24
CN111061923B true CN111061923B (zh) 2022-08-02

Family

ID=70300961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911280249.1A Active CN111061923B (zh) 2019-12-13 2019-12-13 一种基于图依赖规则和监督学习的图数据实体识别系统

Country Status (1)

Country Link
CN (1) CN111061923B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522866B (zh) * 2020-07-03 2020-11-03 支付宝(杭州)信息技术有限公司 一种可信子图的挖掘方法、装置以及设备
CN112395442B (zh) * 2020-10-12 2022-06-14 杭州电子科技大学 移动互联网上的低俗图片自动识别与内容过滤方法
CN114726800B (zh) * 2022-03-12 2024-05-03 北京工业大学 一种基于模型解释的规则式应用流量分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294762A (zh) * 2016-08-11 2017-01-04 齐鲁工业大学 一种基于学习的实体识别方法
CN106844338A (zh) * 2017-01-03 2017-06-13 北京交通大学 基于属性间依赖关系的网络表格的实体列的检测方法
CN109635288A (zh) * 2018-11-29 2019-04-16 东莞理工学院 一种基于深度神经网络的简历抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682074B2 (en) * 2018-04-13 2023-06-20 Gds Link Llc Decision-making system and method based on supervised learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294762A (zh) * 2016-08-11 2017-01-04 齐鲁工业大学 一种基于学习的实体识别方法
CN106844338A (zh) * 2017-01-03 2017-06-13 北京交通大学 基于属性间依赖关系的网络表格的实体列的检测方法
CN109635288A (zh) * 2018-11-29 2019-04-16 东莞理工学院 一种基于深度神经网络的简历抽取方法

Also Published As

Publication number Publication date
CN111061923A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
Wang et al. Linkage based face clustering via graph convolution network
CN111061923B (zh) 一种基于图依赖规则和监督学习的图数据实体识别系统
CN111612039B (zh) 异常用户识别的方法及装置、存储介质、电子设备
Zandkarimi et al. A generic framework for trace clustering in process mining
CN108959395B (zh) 一种面向多源异构大数据的层次约减联合清洗方法
Shahbazi et al. A survey on techniques for identifying and resolving representation bias in data
CN114757302A (zh) 一种文本处理用聚类方法系统
CN112540973A (zh) 一种基于关联规则的网络可视化方法
Reas et al. SuperPart: Supervised graph partitioning for record linkage
Akondi et al. Novel K-means clustering-based undersampling and feature selection for drug discovery applications
Lawrence et al. Explaining neural matrix factorization with gradient rollback
CN114912458A (zh) 一种情感分析方法、装置和计算机可读介质
CN110502669B (zh) 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置
CN117273060A (zh) 一种基于影响函数的数据优化方法
JP5716966B2 (ja) データ分析装置、データ分析方法及びプログラム
CN113159976B (zh) 一种微博网络重要用户的识别方法
JP4460417B2 (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
US8037002B2 (en) Property description coverage measuring apparatus
Zamfirescu-Pereira et al. Trucks Don’t Mean Trump: Diagnosing Human Error in Image Analysis
Radha et al. Multiple time series clinical data with frequency measurement and feature selection
CN115545125B (zh) 一种软件缺陷关联规则网络剪枝方法及系统
Greau-Hamard et al. Performance analysis and comparison of sequence identification algorithms in iot context
CN116070120B (zh) 一种多标签时序电生理信号的自动识别方法及系统
CN115617698B (zh) 一种基于关联规则网络的软件缺陷度量元选择方法
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant