CN107480130B

CN107480130B - 基于web信息的关系数据的属性值同一性判定方法

Info

Publication number: CN107480130B
Application number: CN201710608887.6A
Authority: CN
Inventors: 刘海龙; 成阿茹; 李战怀; 张陶然; 张国荣; 刘文洁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2020-09-08
Anticipated expiration: 2037-07-25
Also published as: CN107480130A

Abstract

本发明公开了一种基于WEB信息的关系数据的属性值同一性判定方法，用于解决现有属性值同一性判定方法准确率差的技术问题。技术方案是采用查询算法产生查询关键字，利用WEB对数据库中的信息进行扩展，利用自然语言处理方法和命名实体识别方法提取相关的实体；使用FPTree算法在检索的片段中提取出频繁项目集，并把其当做图的节点；通过共现和语义关系两种方法提取实体键间的关系并构建边；使用Durand‑Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图；使用Durand‑Pasari提取最大公共子图的公共模式；根据关系模式匹配的结果判定属性值的相似度，提高了属性值同一性判定方法的准确率。

Description

基于WEB信息的关系数据的属性值同一性判定方法

技术领域

本发明涉及一种属性值同一性判定方法，特别涉及一种基于WEB信息的关系数据的属性值同一性判定方法。

背景技术

实体同一性判定又称重复实体检测或记录匹配，是改善数据质量的一种重要技术。属性值的同一性判定是关系数据实体同一性判定的重要基础。

文献“《计算机学报》2015年第38卷第10期:2028-2040页”中使用了一种仅依靠属性特征进行同一性判定的方法，首先对属性同一性判定问题进行形式化描述，属性特征分为直观特征和对比特征两类，对属性特征的概率分布进行量化分析，以判定属性同一性。但在实际属性同一性判定中仅根据单一属性的特征不能准确的判定属性的同一性。

发明内容

为了克服现有属性值同一性判定方法准确率差的不足，本发明提供一种基于WEB信息的关系数据的属性值同一性判定方法。该方法采用基于规则的查询算法和基于遗传的查询算法产生查询关键字，利用WEB对数据库中的信息进行扩展，利用现有的 NLP自然语言处理方法和命名实体识别方法提取相关的实体；使用FPTree算法在检索的片段中提取出频繁项目集，并把其当做图的节点；通过共现和语义关系两种方法提取实体键间的关系并构建边；使用Durand-Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图，要求节点类型相同和节点值相同；使用Durand-Pasari提取最大公共子图的公共模式只要求节点类型相同；根据关系模式匹配的结果判定属性值的相似度，可以提高属性值同一性判定方法的准确率。

本发明解决其技术问题所采用的技术方案：一种基于WEB信息的关系数据的属性值同一性判定方法，其特点是包括以下步骤：

步骤一、利用WEB搜索引擎获取WEB信息对实体进行扩展，采用两种算法生成有效的查询关键字。一种是基于规则的查询算法，函数依赖规则fd:X→Y，即属性集合 X唯一决定属性集合Y。使用属性集合X中的属性值作为查询关键字，通过搜索引擎检索相关的信息。在一张关系表中，存在多条函数依赖规则，同时也将得到多组查询关键字。选择出FITNESS值最高的查询关键字作为最终的查询关键字。另一种是基于遗传的查询算法，首先设定阈值FT，在所选择元组中随机的将每一个属性值设置为0或1，产生固定数量的随机组合P,其中1表示被选择为查询关键字，0表示不被选择为查询关键字。通过这种方法得到多组查询关键字，并且计算每一组查询关键字的FITNESS值，从中挑选出FITNESS值最大的查询关键字。如果最大的FITNESS没有超过FT，执行选择操作产生一个新的P_new，在选择操作过程中使用轮盘赌策略，FITNESS值越大被选择的可能性越大。选择查询关键字I的可能性表示为

在交叉阶段，使用统一交叉策略并且在P_new中随机交叉两个随机组合。在突变阶段随机逆转随机组合中的一位。当FITNESS的最大值超过阈值，则算法结束。FITNESS值最高的查询关键字作为最终的查询关键字。使用FITNESS定义查询关键字的有效性：

FITNESS(QP(A_m))＝α×SUPPORT+(1-α)×CONFIDENCE (1)

式中，QP(A_m)表示查询关键字，α和(1-α)表示SUPPORT和CONFIDENCE的系数，SUPPORT表示支持查询模型的元组的比率，n表示通过查询模式检索出目标值的元组数量，N表示总的查询元组的数量。

CONFIDENCE指检索的结果片段中包含目标值的平均比率，n_i表示检索结果中包含元组i的目标值的片段数量，N_s表示检索结果中片段返回的数量。

步骤二、利用现有的自然语言处理方法和命名实体识别方法收集相关的实体，收集的实体分为三类：

Context Entities(CE)：和查询关键字相关的实体。

TargetEntities(TE)：和目标属性同一类的实体。

Intermediate Entities(iE):既不是查询关键字也不同于目标实体。

步骤三、构建实体关系图，利用实体关系图描述实体之间的关系。节点的构建：使用FPTree算法检索的片段中挑选出频繁项目集，并当做图的节点。实体关系的提取：考虑两种实体关系。共现，两个实体多次共同出现在同一检索片段中，这两个实体相关；语义关系，两个实体的上下文中存在“is the member of”“belongs to”语义关系，两个实体之间彼此相关。边的构建：通过提取实体间关系构建边，两个实体多次共现或在两个实体之间存在语义关系，构建边连接两个实体。

步骤四、人工选取n组元组作为训练样例，要求每一组元组待判定属性值含义相同但是表示形式不同，然后根据训练样例提取决定待判定目标属性值的公共的子图。按照步骤一、二、三为n组元组的每一个元组构建实体关系图，n组构建的实体关系图表示为：G₁₁,G₁₂,...,G_1j；G₂₁,G₂₂,...,G_2m；...；G_n1,G_n2,...,G_nl。其中，j表示第一组中有j个元组， m表示第二组元组中有m个元组，l表示第n组中有l个元组。使用Durand-Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图。提取公共子图时，要求节点类型相同、节点值相同。提取的最大公共子图表示为：G₁,G₂,...,G_n。

步骤五、从步骤四中提取的n最大公共子图G₁,G₂,...,G_n提取公共模式，实体关系模式提取的目的是提取决定目标属性值的实体及其关系。使用Durand-Pasari算法提取最大公共子图的最大公共子图模式G，只要求节点类型相同。

步骤六、属性值同一性的判定：根据关系模式匹配的结果判定属性值的相似度。假设需判定t₁,t₂的某一个属性的值是否同一。按照步骤一、二、三为待判定的两个元组构建实体关系图P₁、P₂。根据步骤四提取实体关系图P₁、P₂的最大公共子图P，要求节点类型相同、节点值相同。计算P与步骤五得到的最大公共子图模式G的相似度，根据相似度的值判定t₁,t₂的某一个属性的值是否同一。

本发明的有益效果是：该方法采用基于规则的查询算法和基于遗传的查询算法产生查询关键字，利用WEB对数据库中的信息进行扩展，利用现有的NLP自然语言处理方法和命名实体识别方法提取相关的实体；使用FPTree算法在检索的片段中提取出频繁项目集，并把其当做图的节点；通过共现和语义关系两种方法提取实体键间的关系并构建边；使用Durand-Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图，要求节点类型相同和节点值相同；使用Durand-Pasari提取最大公共子图的公共模式只要求节点类型相同；根据关系模式匹配的结果判定属性值的相似度，提高了属性值同一性判定方法的准确率。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明方法中的标识说明图。

图2是本发明方法实施例表1中元组1构建的实体关系图。

图3是本发明方法实施例表1中元组2构建的实体关系图。

图4是本发明方法实施例表1中元组3构建的实体关系图。

图5是本发明方法实施例表1中元组4构建的实体关系图。

图6是图2和图3的最大公共子图。

图7是图4和图5的最大公共子图。

图8是本发明方法的实体关系图的公共模式。

图9是本发明方法实施例表1中元组5构建的实体关系图。

图10是本发明方法实施例表1中元组6构建的实体关系图。

图11是图9和图10的最大公共子图。

具体实施方式

参照图1-11。本发明基于WEB信息的关系数据的属性值同一性判定方法具体步骤如下：

步骤一、提取查询关键字。

以关系表1为例，元组1、元组2、元组3和元组4根据基于规则的算法和基于遗传的算法分别得到FITNESS最高的查询关键字：论文标题和会议时间。通过查询关键字在 WEB中检索，得到扩展后的查询片段。

关系表1

利用WEB搜索引擎获取WEB信息对实体进行扩展，采用两种算法生成有效的查询关键字。基于规则的查询算法，函数依赖规则fd:X→Y意思是属性集合X唯一决定属性集合Y。使用属性集合X中的属性值作为查询关键字通过搜索引擎检索相关的信息。在一张关系表中，存在多条函数依赖规则，同时也将得到多组查询关键字。选择出 FITNESS值最高的查询关键字作为最终的查询关键字。基于遗传的查询算法，遗传算法主要包括四步：遗传、突变、选择、交叉。首先设定阈值FT，在所选择元组中随机的将每一个属性值设置为0或1，产生固定数量的随机组合P,其中1表示被选择为查询关键字，0表示不被选择为查询关键字。通过这种方法得到多组查询关键字，并且计算每一组查询关键字的FITNESS值，从中挑选出FITNESS值最大的查询关键字。如果最大的FITNESS没有超过FT，执行选择操作产生一个新的P_new，在选择操作过程中使用轮盘赌策略，FITNESS值越大被选择的可能性越大。选择查询关键字I的可能性表示为

FITNESS(QP(A_m))＝α×SUPPORT+(1-α)×CONFIDENCE (1)

步骤二、从检索结果中抽取实体。

对扩展后的查询片段进行实体抽取，利用现有的NLP等自然语言处理技术和命名实体识别技术收集相关的实体。对元组1进行扩展后，抽取到的实体有：论文标题、作者、会议所在城市、会议所在学校、会议主席、会议时间、论文第二作者、会议名称等。对元组2进行扩展后，抽取到的实体有：论文标题、作者、会议所在城市、会议所在学校、会议主席、会议时间、论文第二作者、论文第三作者、会议名称等。对元组3 进行扩展后，抽取到的实体有：论文标题、作者、会议所在城市、会议所在学校、会议主席、程序主席、会议时间、论文第二作者、会议名称等。对元组4进行扩展后，抽取到的实体有：论文标题、作者、会议所在城市、会议所在学校、会议主席、会议时间、论文第二作者、会议名称、赞助商等。

利用现有的NLP等自然语言处理技术和命名实体识别技术收集相关的实体。这些技术可以帮助提取154种实体，收集的实体分为三类：

Context Entities(CE)：和查询关键字相关的实体。

TargetEntities(TE)：和目标属性同一类的实体。

Intermediate Entities(iE):既不是查询关键字也不同于目标实体。

步骤三、构建实体关系图。

分别对抽取出的每一组实体构建实体关系图，节点的构建：使用FPTree算法检索的片段中挑选出频繁项目集，并当做图的节点。实体关系的提取：主要考虑两种实体关系。共现，两个实体多次共同出现在同一检索片段中，这两个实体相关；语义关系，两个实体的上下文中存在“is the member of”“belongs to”等语义关系，两个实体之间彼此相关。边的构建：通过提取实体间关系构建边，两个实体多次共现或在两个实体之间存在语义关系，构建边连接两个实体。构建得到的实体关系图如图2、图3、图4、图 5所示。

利用实体关系图描述实体之间的关系。节点的构建：使用FPTree算法检索的片段中挑选出频繁项目集，并当做图的节点。实体关系的提取：主要考虑两种实体关系。共现，两个实体多次共同出现在同一检索片段中，这两个实体相关；语义关系，两个实体的上下文中存在“is the member of”“belongs to”等语义关系，两个实体之间彼此相关。边的构建：通过提取实体间关系构建边，两个实体多次共现或在两个实体之间存在语义关系，构建边连接两个实体。

步骤四、提取实体关系图的最大公共子图。

选取元组1-4 作为训练样例，使用Durand-Pasari算法从构建的实体关系图：图2、图3、图4、图5中提取包含待判定属性的最大公共子图。提取公共子图时，要求节点类型相同、节点值相同。提取得到的最大公共子图如图6、图7所示。

人工选取n组元组作为训练样例，要求每一组元组待判定属性值含义相同但是表示形式不同，然后根据训练样例提取决定待判定目标属性值的公共的子图。按照步骤一、二、三为n组元组的每一个元组构建实体关系图，n组构建的实体关系图表示为： G₁₁,G₁₂,...,G_1j；G₂₁,G₂₂,...,G_2m；...；G_n1,G_n2,...,G_nl其中j表示第一组中有j个元组，m表示第二组元组中有m个元组，l表示第n组中有l个元组。使用Durand-Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图。提取公共子图时，要求节点类型相同、节点值相同。提取的最大公共子图表示为：G₁,G₂,...,G_n。

步骤五、提取最大公共子图模式。

从步骤四中提取的最大公共子图(图6、图7)这提取公共模式，使用Durand-Pasari算法提取最大公共子图的最大公共子图模式，只要求节点类型相同，如图8所示。

具体的，从步骤四中提取的n最大公共子图G₁,G₂,...,G_n提取公共模式，实体关系模式提取的目的是提取决定目标属性值的实体及其关系。使用Durand-Pasari算法提取最大公共子图的最大公共子图模式G，只要求节点类型相同。

步骤六、属性值同一性的判定。

根据关系模式匹配的结果判定属性值的相似度。假设需判定元组5、元组6的会议名称属性的值是否同一。按照步骤一、二、三为待判定的元组5、元组6构建实体关系图(图9、图10)。根据步骤四提取实体关系图(图9、图10)的最大公共子图(图11)，要求节点类型相同、节点值相同。计算最大公共子图(图11)与步骤5中得到的最大公共子图模式(图8 )的相似度，判定元组5、元组6的会议名称属性的值同一性。

具体的，根据关系模式匹配的结果判定属性值的相似度。假设需判定t₁,t₂的某一个属性的值是否同一。按照步骤一、二、三为待判定的两个元组构建实体关系图P₁、P₂。根据步骤四提取实体关系图P₁、P₂的最大公共子图P，要求节点类型相同、节点值相同。计算P与步骤五得到的最大公共子图模式G的相似度，根据SIM(G,P)的值来判定t₁,t₂的某一个属性的值是否同一。

式中NDis用于计算节点相似性。

EDis用于计算边的相似性。

Claims

1.一种基于WEB信息的关系数据的属性值同一性判定方法，其特征在于包括以下步骤：

步骤一、利用WEB搜索引擎获取WEB信息对实体进行扩展，采用两种算法生成有效的查询关键字；一种是基于规则的查询算法，函数依赖规则fd:X→Y，即属性集合X唯一决定属性集合Y；使用属性集合X中的属性值作为查询关键字，通过搜索引擎检索相关的信息；在一张关系表中，存在多条函数依赖规则，同时也将得到多组查询关键字；选择出FITNESS值最高的查询关键字作为最终的查询关键字；另一种是基于遗传的查询算法，首先设定阈值FT，在所选择元组中随机的将每一个属性值设置为0或1，产生固定数量的随机组合P,其中1表示被选择为查询关键字，0表示不被选择为查询关键字；通过这种方法得到多组查询关键字，并且计算每一组查询关键字的FITNESS值，从中挑选出FITNESS值最大的查询关键字；如果最大的FITNESS没有超过FT，执行选择操作产生一个新的P_new，在选择操作过程中使用轮盘赌策略，FITNESS值越大被选择的可能性越大；选择查询关键字I的可能性表示为

在交叉阶段，使用统一交叉策略并且在P_new中随机交叉两个随机组合；在突变阶段随机逆转随机组合中的一位；当FITNESS的最大值超过阈值，则算法结束；FITNESS值最高的查询关键字作为最终的查询关键字；使用FITNESS定义查询关键字的有效性：

FITNESS(QP(A_m))＝α×SUPPORT+(1-α)×CONFIDENCE (1)

式中，QP(A_m)表示查询关键字，α和(1-α)表示SUPPORT和CONFIDENCE的系数，SUPPORT表示支持查询模式的元组的比率，n表示通过查询模式检索出目标值的元组数量，N表示总的查询元组的数量；

CONFIDENCE指检索的结果片段中包含目标值的平均比率，n_i表示检索结果中包含元组i的目标值的片段数量，N_s表示检索结果中片段返回的数量；

Context Entities(CE)：和查询关键字相关的实体；

TargetEntities(TE)：和目标属性同一类的实体；

Intermediate Entities(iE):既不是查询关键字也不同于目标实体；

步骤三、构建实体关系图，利用实体关系图描述实体之间的关系；节点的构建：使用FPTree算法检索的片段中挑选出频繁项目集，并当做图的节点；实体关系的提取：考虑两种实体关系；共现，两个实体多次共同出现在同一检索片段中，这两个实体相关；语义关系，两个实体的上下文中存在“is the member of”“belongs to”语义关系，两个实体之间彼此相关；边的构建：通过提取实体间关系构建边，两个实体多次共现或在两个实体之间存在语义关系，构建边连接两个实体；

步骤四、人工选取n组元组作为训练样例，要求每一组元组待判定属性值含义相同但是表示形式不同，然后根据训练样例提取决定待判定目标属性值的公共的子图；按照步骤一、二、三为n组元组的每一个元组构建实体关系图，n组构建的实体关系图表示为：G₁₁,G₁₂,...,G_1j；G₂₁,G₂₂,...,G_2m；...；G_n1,G_n2,...,G_nl；其中，j表示第一组中有j个元组，m表示第二组元组中有m个元组，l表示第n组中有l个元组；使用Durand-Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图；提取公共子图时，要求节点类型相同、节点值相同；提取的最大公共子图表示为：G₁,G₂,...,G_n；

步骤五、从步骤四中提取的n最大公共子图G₁,G₂,...,G_n提取公共模式，实体关系模式提取的目的是提取决定目标属性值的实体及其关系；使用Durand-Pasari算法提取最大公共子图的最大公共子图模式G，只要求节点类型相同；

步骤六、属性值同一性的判定：根据关系模式匹配的结果判定属性值的相似度；假设需判定t₁,t₂的某一个属性的值是否同一；按照步骤一、二、三为待判定的两个元组构建实体关系图P₁、P₂；根据步骤四提取实体关系图P₁、P₂的最大公共子图P，要求节点类型相同、节点值相同；计算P与步骤五得到的最大公共子图模式G的相似度，根据相似度的值判定t₁,t₂的某一个属性的值是否同一。