CN109543712A - 时态数据集上的实体识别方法 - Google Patents

时态数据集上的实体识别方法 Download PDF

Info

Publication number
CN109543712A
CN109543712A CN201811200645.4A CN201811200645A CN109543712A CN 109543712 A CN109543712 A CN 109543712A CN 201811200645 A CN201811200645 A CN 201811200645A CN 109543712 A CN109543712 A CN 109543712A
Authority
CN
China
Prior art keywords
class
record
attribute
entity
temporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811200645.4A
Other languages
English (en)
Other versions
CN109543712B (zh
Inventor
王宏志
丁小欧
李建中
高宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201811200645.4A priority Critical patent/CN109543712B/zh
Publication of CN109543712A publication Critical patent/CN109543712A/zh
Application granted granted Critical
Publication of CN109543712B publication Critical patent/CN109543712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,提供一种时态数据集上的实体识别方法。该方法主要包括以下步骤:S1:基于规则对数据进行预处理;S2:框架聚类;S3:类融合。本发明首次针对无时间戳的时态数据集合上实体识别问题上提出了解决方法,定义了时态数据集上属性的不确定性,并相应地对记录之间的相似度计算采用了动态权重的计算方法,这种动态权重计算方法的效果是明显优于固定权重的。本发明有效地结合了否定匹配依赖规则和时序约束规则,减少了算法运行的时间并保证了算法输出的结果,对于实体识别中的聚类分析阶段,提出了新颖的时态聚类算法。

Description

时态数据集上的实体识别方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种时态数据集上的实体识别方法。
背景技术
现实世界中的数据往往存在诸多质量问题:不一致、重复、不精确、不完整、过时等。有效的数据质量管理有助于这些问题的解决。而实体识别技术在数据质量管理过程中具有基础性作用,实体识别的结果可以在数据质量管理的其他环节得到广泛应用,如冗余消除、错误检测、不一致检测、冲突消解等。
实体识别技术的目的是,发现数据集中同一现实世界实体的不同表现形式。实体识别中使用最广泛的方法即基于阈值的方法。基于阈值的方法分为两步:首先,对集合中的记录两两计算相似度;然后,按相似度进行聚类,将相似度高的聚为一类。那么相同类别中的记录即指向同一实体。
基于阈值的方法主要有两个问题。首先,同一个实体的某些属性会随着时间而改变,在不同时间点观测的两条记录之间会有较低的相似度。于是,较高的阈值会导致召回率过低,而较低的阈值会导致误报率偏高。此外,由于需要对初始集合中的所有记录之间计算相似度,基于阈值的方法运行时间极为漫长,效率低下。
发明内容
本发明要解决的技术问题是提供一种时态数据集上的实体识别方法,能够提高时态数据集上实体识别的效率和准确率。
(二)技术方案
为了解决上述技术问题,本发明提供了一种时态数据集上的实体识别方法,包括以下步骤:
S1:基于规则对数据进行预处理,根据否定匹配依赖规则将初始数据集合S分成多个小集合,利用时序约束规则对不可能指向同一实体的记录对之间标记符号“-”,每个小集合中未被标记符号“-”的记录之间使用符号“·”进行连接并计算它们的相似度sim(t1,t2);
S2:框架聚类,当两条记录t1,t2之间有符号“·”连接且它们的相似度sim(t1,t2)大于阈值θh时,使用符号“+”连接这两条记录,在存在“+”关系的记录对上计算传递闭包以得到初始数据集S的框架聚类结果Q;
S3:类融合,定义所述框架聚类结果Q中只包含一条记录的类为单体类,包含多条记录的类为实体类,将所述单体类选择性地融合到所述实体类中转化为候选类,所述实体类直接转化为候选类,进一步对所述候选类进行融合。
进一步的,所述步骤S1中,利用式(1)中的否定匹配依赖规则划分初始数据集S:
此规则表明当任意两条记录t1与t2,在属性Aj上不相同时,它们一定指向不同实体。
进一步的,步骤S1中的所述初始数据集合S为职员信息管理数据,所述时序约束规则为式(2)、(3)、(4)
其中,salary表示职员的报酬,status表示职员的婚姻状态,address表示职员的家庭住址,对于同一职员在数据集合中的两条记录t1和t2,规则ψ1表示如果t1在报酬属性上的值低于t2,则判定t2在报酬属性上时效性高于t1;规则ψ2表示如果记录t1在婚姻状态属性上的值为单身,记录t2的值为已婚,则判定t2在婚姻状态属性上时效性高于t1;规则ψ3表明,如果t2在婚姻状态属性上时效性高于t1,则判定t2在家庭住址属性上时效性高于t1
进一步的,所述步骤S1中,按照下述步骤计算两条记录t1,t2之间的相似度sim(t1,t2):
①根据所述时序约束规则确定记录t1,t2在属性上的时序;
②对于每个属性,按照式(5)计算不确定性U(Ai):
其中,<Ai表示在属性Ai上的时效性关系运算符;
③对于每个属性,按照式(6)计算其权重W(Ai):
④按照式(7)计算两条记录t1,t2之间的相似度sim(t1,t2):
进一步的,所述步骤S3中,所述将所述单体类选择性地融合到所述实体类中转化为候选类包括:计算所述单体类与所有实体类的相似度,如果所述单体类与某个实体类的相似度大于已设定的阈值θu,那么将所述单体类融合到所述某个实体类中;如果小于已设定的阈值θu,那么将所述单体类转化为一个新的候选类。
进一步的,所述步骤S3中,所述进一步对所述候选类进行融合包括:通过构造二分图G=(NS,NC,E)使得到的所述候选类整体上的存在概率最大化,其中,NS为当前计算的候选类,NC为其他候选类,E为两个候选类的绑定概率。
进一步的,所述步骤S3中,进行类融合之前将数据按观测时间递增的顺序排列。
(三)有益效果
本发明的上述技术方案具有如下优点:首次针对无时间戳的时态数据集合上实体识别问题上提出了解决方法,定义了时态数据集上属性的不确定性,并相应地对记录之间的相似度计算采用了动态权重的计算方法,这种动态权重计算方法的效果是明显优于固定权重的。本发明有效地结合了否定匹配依赖(negative MDs)规则和时序约束规则,减少了算法运行的时间并保证了算法输出的结果。对于实体识别中的聚类分析阶段,提出了新颖的时态聚类算法。
附图说明
图1为本发明时态数据集上的实体识别方法的流程框图;
图2为数据集NBA采用本发明方法的效果实验结果示意图;
图3为数据集DBLP采用本发明方法的效果实验结果示意图;
图4为数据集Patent采用本发明方法的效果实验结果示意图;
图5为数据集EIM采用本发明方法的效果实验结果示意图;
图6为数据集NBA采用本发明方法的效率实验结果示意图;
图7为数据集EIM采用本发明方法的效率实验结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明时态数据集上的实体识别方法的流程框图。如图1所示,本发明的时态数据集上的实体识别方法包括以下步骤:
S1:基于规则对数据进行预处理,根据否定匹配依赖(negativeMDs)规则将初始数据集合S分成多个小集合,利用时序约束规则对不可能指向同一实体的记录对之间标记符号“-”,以减少误报率,每个小集合中未被标记符号“-”的记录之间使用符号“·”进行连接并计算它们的相似度sim(t1,t2)。
在步骤S1中,例如可利用式(1)中的negative MDs规则划分初始数据集S:
此规则表明当任意两条记录t1与t2,在属性Aj上不相同时,它们一定指向不同实体。在这里,属性Aj通常为分类属性,如“性别”等。在这一步中,可根据数据属性之间的分析人工导出一些negative MDs规则,然后利用这些规则将初始数据集S分为许多小的集合s0,…,sk。对每个小集合中的记录,使用符号“·”连接它们。
针对时序约束规则的利用举例进行说明,对于一个职员信息管理系统而言,职员的工资(salary)总是随着时间而增长(或者不变),而婚姻状况(status)也随时间按单身、已婚、离婚的方向变化。于是导出式(2)、(3)、(4)表示的三条时序约束规则
其中,salary表示职员的报酬,status表示职员的婚姻状态,address表示职员的家庭住址,<salary表示在属性“salary”上的时效关系运算符,以ψ1为例,表示t2在“salary”属性上时效性高于t1。对于同一职员在数据集合中的两条记录t1和t2,规则ψ1表示如果t1在报酬属性上的值低于t2,则判定t2在报酬属性上时效性高于t1;规则ψ2表示如果记录t1在婚姻状态属性上的值为单身,记录t2的值为已婚,则判定t2在婚姻状态属性上时效性高于t1;规则ψ3表明,如果t2在婚姻状态属性上时效性高于t1,则判定t2在家庭住址属性上时效性高于t1。在这一步中,可根据数据属性之间的分析人工导出一些时序约束规则,然后得到不相容的记录对,并使用符号“-”连接它们。如果它们之间已有符号“·”,则改为符号“-”。
针对计算相似度举例进行说明,主要是计算同在一个小集合si中,但未被符号“-”标记的记录对之间的相似度。其基本思路如下:两条记录间相似度由其属性间的相似度乘以相应权重后累加得到,属性Ai的不确定性表明了它随时间改变的变化程度,不确定性大的属性,在计算记录间相似度时,应分配较低的权重。
具体来说,两条记录t1,t2之间的相似度的计算如下:
①根据时序约束规则确定记录在属性上的时序;
②对于每个属性,按照式(5)计算不确定性U(Ai):
其中,<Ai表示在属性Ai上的时效性关系运算符。
③对于每个属性,按照式(6)计算其权重W(Ai):
④按照式(7)计算两条记录t1,t2之间的相似度sim(t1,t2):
S2:框架聚类,当两条记录t1,t2之间有符号“·”连接,并且它们的相似度sim(t1,t2)大于阈值θh时,则认为它们属于同一实体,使用符号“+”连接这两条记录,在存在“+”关系的记录对上计算传递闭包以得到初始数据集S的框架聚类结果Q。
在步骤S2中,可使用较大的阈值θh以减少误报率,但同时会造成较低的召回率,即两条指向同一个实体的记录可能会划分到不同的类中。
S3:类融合,定义框架聚类结果Q中只包含一条记录的类为单体类,包含多条记录的类为实体类,将单体类选择性地融合到实体类中转化为候选类,实体类直接转化为候选类,进一步对候选类进行融合。
在步骤S3中,由于时态记录具有随时间的演化性,因此在步骤S2中采用较高阈值才能区分指向不同实体的记录,但这样可能将本该指向同一实体的记录分割到不同的类中,因此步骤S3对各数据类别进行融合来减小演化性对实体识别的准确度以及召回率的影响。通过步骤S2会得到一些不同的类,可定义只包含一条记录的类称为单体类,包含多条记录的类为实体类。为了减小类融合的计算次数并提高效率,可首先判定单体类的融合,通过阈值计算,将单体类融合到某一个实体类中变成一个候选类,或者将该单体类记为一个新的候选类,实体类直接转化为候选类。候选类是指通过相似度计算,对数据执行完类融合之后得到的类。
根据时态记录的演化性,相近的观测时间点上的记录的值可能具有较高的相似度,因此可将初始数据按着观测时间递增的顺序排列。类融合的步骤如下:计算一个单体类与所有实体类的相似度,如果该单体类与某个实体类的相似度大于已设定的阈值θu,那么将该单体类融合到该某个实体类中;如果小于已设定的阈值θu,那么将该单体类转化为一个新的候选类,对于实体类可直接将其转变为候选类。最后通过构造二分图G=(NS,NC,E),使得到的候选类整体上的存在概率最大化,完成最终的类融合,其中,NS为当前计算的候选类,NC为其他候选类,E为两个候选类的绑定概率。
本实施例针对无时间戳的时态数据集合上实体识别问题提出了解决方法,定义了时态数据集上属性的不确定性,并相应地对记录之间的相似度计算采用了动态权重的计算方法,这种动态权重计算方法的效果是明显优于固定权重的。同时,有效地结合了否定匹配依赖(negative MDs)规则和时序约束规则,减少了算法运行的时间并保证了算法输出的结果。对于实体识别中的聚类分析阶段,提出了新颖的时态聚类算法。
运用本发明的方法在四个数据集合上做了实验,验证了本方法的实体识别效果和执行效率两方面指标,数据集合的信息如表1所示。
表1实验数据集合总结
(1)效果实验
表1所示的四个数据集上,分别测量了本发明基于规则的方法(RuleBased)执行的准确率(Precision)、召回率(Recall)和F-1量度(F-1是根据准确率Precision和召回率Recall二者给出的一个综合的评价指标,具体定义如下:F-1=2rp/(r+p))。结果如图2、3、4、5所示,其中,图2为数据集NBA采用本发明方法的效果实验结果示意图,图3为数据集DBLP采用本发明方法的效果实验结果示意图,图4为数据集Patent采用本发明方法的效果实验结果示意图,图5为数据集EIM采用本发明方法的效果实验结果示意图,图中横坐标表示方法中的阈值θh取值范围从0.3变化到0.9,纵坐标表示以上三个度量指标的取值。可以看出,当阈值θh在[0.7,0.9]之间时,本方法的执行效果很好,F-1值在四个数据集上均达到0.9以上。
(2)效率实验
选取NBA球员数据和EIM员工信息数据做了执行时间分析的实验,如图6、7所示,其中,图6为数据集NBA采用本发明方法的效率实验结果示意图,图7为数据集EIM采用本发明方法的效率实验结果示意图,横坐标表示数据集合中的记录条数,纵坐标表示方法执行时间(单位:秒)。通过图6、7可以看出,本方法执行可在2.8分钟内对760个实体进行识别,可在18分钟内对3566个实体进行有效识别。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种时态数据集上的实体识别方法,其特征在于,包括以下步骤:
S1:基于规则对数据进行预处理,根据否定匹配依赖规则将初始数据集合S分成多个小集合,利用时序约束规则对不可能指向同一实体的记录对之间标记符号“-”,每个小集合中未被标记符号“-”的记录之间使用符号“·”进行连接并计算它们的相似度sim(t1,t2);
S2:框架聚类,当两条记录t1,t2之间有符号“·”连接且它们的相似度sim(t1,t2)大于阈值θh时,使用符号“+”连接这两条记录,在存在“+”关系的记录对上计算传递闭包以得到初始数据集S的框架聚类结果Q;
S3:类融合,定义所述框架聚类结果Q中只包含一条记录的类为单体类,包含多条记录的类为实体类,将所述单体类选择性地融合到所述实体类中转化为候选类,所述实体类直接转化为候选类,进一步对所述候选类进行融合。
2.根据权利要求1所述的一种时态数据集上的实体识别方法,其特征在于,所述步骤S1中,利用式(1)中的否定匹配依赖规则划分初始数据集S:
此规则表明当任意两条记录t1与t2,在属性Aj上不相同时,它们一定指向不同实体。
3.根据权利要求1所述的一种时态数据集上的实体识别方法,其特征在于,步骤S1中的所述初始数据集合S为职员信息管理数据,所述时序约束规则为式(2)、(3)、(4)
其中,salary表示职员的报酬,status表示职员的婚姻状态,address表示职员的家庭住址,对于同一职员在数据集合中的两条记录t1和t2,规则ψ1表示如果t1在报酬属性上的值低于t2,则判定t2在报酬属性上时效性高于t1;规则ψ2表示如果记录t1在婚姻状态属性上的值为单身,记录t2的值为已婚,则判定t2在婚姻状态属性上时效性高于t1;规则ψ3表明,如果t2在婚姻状态属性上时效性高于t1,则判定t2在家庭住址属性上时效性高于t1
4.根据权利要求1所述的一种时态数据集上的实体识别方法,其特征在于,所述步骤S1中,按照下述步骤计算两条记录t1,t2之间的相似度sim(t1,t2):
①根据所述时序约束规则确定记录t1,t2在属性上的时序;
②对于每个属性,按照式(5)计算不确定性U(Ai):
其中,<Ai表示在属性Ai上的时效性关系运算符;
③对于每个属性,按照式(6)计算其权重W(Ai):
④按照式(7)计算两条记录t1,t2之间的相似度sim(t1,t2):
5.根据权利要求1所述的一种时态数据集上的实体识别方法,其特征在于,所述步骤S3中,所述将所述单体类选择性地融合到所述实体类中转化为候选类包括:计算所述单体类与所有实体类的相似度,如果所述单体类与某个实体类的相似度大于已设定的阈值θu,那么将所述单体类融合到所述某个实体类中;如果小于已设定的阈值θu,那么将所述单体类转化为一个新的候选类。
6.根据权利要求5所述的一种时态数据集上的实体识别方法,其特征在于,所述步骤S3中,所述进一步对所述候选类进行融合包括:通过构造二分图G=(NS,NC,E)使得到的所述候选类整体上的存在概率最大化,其中,NS为当前计算的候选类,NC为其他候选类,E为两个候选类的绑定概率。
7.根据权利要求1所述的一种时态数据集上的实体识别方法,其特征在于,所述步骤S3中,进行类融合之前将数据按观测时间递增的顺序排列。
CN201811200645.4A 2018-10-16 2018-10-16 时态数据集上的实体识别方法 Active CN109543712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811200645.4A CN109543712B (zh) 2018-10-16 2018-10-16 时态数据集上的实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811200645.4A CN109543712B (zh) 2018-10-16 2018-10-16 时态数据集上的实体识别方法

Publications (2)

Publication Number Publication Date
CN109543712A true CN109543712A (zh) 2019-03-29
CN109543712B CN109543712B (zh) 2023-04-07

Family

ID=65843715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811200645.4A Active CN109543712B (zh) 2018-10-16 2018-10-16 时态数据集上的实体识别方法

Country Status (1)

Country Link
CN (1) CN109543712B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110412428A (zh) * 2019-08-29 2019-11-05 南方电网科学研究院有限责任公司 一种基于时序约束网络的配电网时间表示方法
CN113487193A (zh) * 2020-09-19 2021-10-08 杨伟深 基于云计算的大数据处理方法及云计算平台

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038671A1 (en) * 2003-08-15 2005-02-17 Frank Naeymi-Rad Identification mapping and translation method
EP1724703A1 (en) * 2005-05-19 2006-11-22 Siemens Aktiengesellschaft Method and system for finding ellipsoidal clusters in relational data
US20110316697A1 (en) * 2010-06-29 2011-12-29 General Electric Company System and method for monitoring an entity within an area
CN103106279A (zh) * 2013-02-21 2013-05-15 浙江大学 一种同时基于节点属性以及结构关系相似度的聚类方法
CN104133836A (zh) * 2014-06-24 2014-11-05 腾讯科技(深圳)有限公司 一种实现变更数据检测的方法及装置
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法
CN105095306A (zh) * 2014-05-20 2015-11-25 阿里巴巴集团控股有限公司 基于关联对象进行操作的方法及装置
CN105718184A (zh) * 2014-12-05 2016-06-29 北京搜狗科技发展有限公司 一种数据处理方法和装置
CN105740380A (zh) * 2016-01-27 2016-07-06 北京邮电大学 数据融合方法及系统
FR3031641A1 (fr) * 2015-01-08 2016-07-15 Morpho Procede d'identification d'une entite
CN106067029A (zh) * 2016-05-24 2016-11-02 哈尔滨工程大学 面向数据空间的实体分类方法
CN106164897A (zh) * 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于寄存内存数据库的系统及方法
CN106294762A (zh) * 2016-08-11 2017-01-04 齐鲁工业大学 一种基于学习的实体识别方法
CN108492276A (zh) * 2018-01-29 2018-09-04 中国人民解放军战略支援部队信息工程大学 一种基于相似性度量的矢量道路变化检测方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038671A1 (en) * 2003-08-15 2005-02-17 Frank Naeymi-Rad Identification mapping and translation method
EP1724703A1 (en) * 2005-05-19 2006-11-22 Siemens Aktiengesellschaft Method and system for finding ellipsoidal clusters in relational data
US20110316697A1 (en) * 2010-06-29 2011-12-29 General Electric Company System and method for monitoring an entity within an area
CN103106279A (zh) * 2013-02-21 2013-05-15 浙江大学 一种同时基于节点属性以及结构关系相似度的聚类方法
CN106164897A (zh) * 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于寄存内存数据库的系统及方法
CN105095306A (zh) * 2014-05-20 2015-11-25 阿里巴巴集团控股有限公司 基于关联对象进行操作的方法及装置
CN104133836A (zh) * 2014-06-24 2014-11-05 腾讯科技(深圳)有限公司 一种实现变更数据检测的方法及装置
CN105718184A (zh) * 2014-12-05 2016-06-29 北京搜狗科技发展有限公司 一种数据处理方法和装置
FR3031641A1 (fr) * 2015-01-08 2016-07-15 Morpho Procede d'identification d'une entite
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法
CN105740380A (zh) * 2016-01-27 2016-07-06 北京邮电大学 数据融合方法及系统
CN106067029A (zh) * 2016-05-24 2016-11-02 哈尔滨工程大学 面向数据空间的实体分类方法
CN106294762A (zh) * 2016-08-11 2017-01-04 齐鲁工业大学 一种基于学习的实体识别方法
CN108492276A (zh) * 2018-01-29 2018-09-04 中国人民解放军战略支援部队信息工程大学 一种基于相似性度量的矢量道路变化检测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LINGLI LI, JIANZHONG LI, AND HONG GAO: "Rule-Based Method for Entity Resolution", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
何峰权,李建中: "基于属性模式的实体识别框架", 《智能计算机与应用》 *
王宏志,梵文飞: "复杂数据上的实体识别技术研究", 《计算机学报》 *
陈波: "征信系统中实体匹配方法及应用研究", 《中国博士学位论文全文数据库 经济与管理科学辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110412428A (zh) * 2019-08-29 2019-11-05 南方电网科学研究院有限责任公司 一种基于时序约束网络的配电网时间表示方法
CN110412428B (zh) * 2019-08-29 2020-08-04 南方电网科学研究院有限责任公司 一种基于时序约束网络的配电网时间表示方法
CN113487193A (zh) * 2020-09-19 2021-10-08 杨伟深 基于云计算的大数据处理方法及云计算平台
CN113487193B (zh) * 2020-09-19 2022-07-01 重庆华唐云树科技有限公司 基于云计算的大数据处理方法及云计算平台

Also Published As

Publication number Publication date
CN109543712B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN103092911B (zh) 一种融合社会标签相似度基于k近邻的协同过滤推荐系统
CN104756106B (zh) 表征数据存储系统中的数据源
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN107103100B (zh) 一种容错的基于图谱架构的智能语义搜索方法
CN108710663B (zh) 一种基于本体模型的数据匹配方法及系统
CN104573130B (zh) 基于群体计算的实体解析方法及装置
US8224805B2 (en) Method for generating context hierarchy and system for generating context hierarchy
CN107885760A (zh) 一种基于多种语义的知识图谱表示学习方法
CN104699818A (zh) 一种多源异构的多属性poi融合方法
CN106991447A (zh) 一种嵌入式多类别属性标签动态特征选择算法
CN104866471B (zh) 一种基于局部敏感哈希策略的实例匹配方法
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
CN109949176A (zh) 一种基于图嵌入的社交网络中异常用户检测方法
CN102298663A (zh) 中医自动识别证型的检测方法
CN105138577A (zh) 一种基于大数据的事件演化分析方法
CN111597331A (zh) 一种基于贝叶斯网络的裁判文书分类方法
Rousi et al. Semantically enriched crop type classification and linked earth observation data to support the common agricultural policy monitoring
CN109543712A (zh) 时态数据集上的实体识别方法
CN111191099A (zh) 一种基于社交媒体的用户活动类型识别方法
CN106611016B (zh) 一种基于可分解词包模型的图像检索方法
CN114491082A (zh) 基于网络安全应急响应知识图谱特征提取的预案匹配方法
CN116578654A (zh) 一种面向领域知识图谱的实体对齐方法
CN114519107A (zh) 一种联合实体关系表示的知识图谱融合方法
CN102193928B (zh) 基于多层文本分类器的轻量级本体匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant