CN105512484B

CN105512484B - 一种采用特征值相似度的数据关联方法

Info

Publication number: CN105512484B
Application number: CN201510905286.2A
Authority: CN
Inventors: 裴廷睿; 叶学辉; 田淑娟; 吴相润; 崔荣埈; 关屋大雄; 李哲涛
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2019-03-19
Anticipated expiration: 2035-12-10
Also published as: CN105512484A

Abstract

本发明提出了一种采用特征值相似度的数据关联方法。本发明步骤：首先，获得数个包含多个属性的数据源并对其进行预处理；其次根据用户要求确定属性优先级列表；然后，每个数据源根据优先级列表形成多个相似属性群，数据源中没有存在相似属性群的属性形成一个剩余属性群；再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联。本发明改善了传统数据关联方法的效能，提高了数据关联的准确性。

Description

一种采用特征值相似度的数据关联方法

技术领域

本发明涉及数据库信息处理领域，具体的说是一种采用特征值相似度的数据关联方法。

背景技术

数据关联通过将分散领域中的数据通过结构化描述以及数据之间的链接关联起来，形成全球巨大数据空间，即数据网络。这种数据网络资源环境为信息的最大限度共享、重用以及发行提供了保障，也为人们的知识发现活动提供了新的机遇。随着语义网技术的不断成熟，网络资源环境向智能化、语义化和结构化方向发展。语义网通过给万维网上的文档添加形式化语义信息，使计算机可以理解和处理这些文档，实现数据的自动化处理，提高信息检索的效率，数据关联的提出使语义网有了实质性的发展。

目前数据关联技术体系主要包括了四个部分：数据内容组织、数据关联的创建与发布、数据关联的浏览与检索、数据关联的互联和维护。其中数据关联的创建与发布是实现数据关联的关键环节，需要满足以下三个要求：1)用规范形式来描述内容对象的内部结构及其内含内容的语义，这个描述的深度取决于内容对象本身的内容深度和所依据元数据格式的丰富程度；2)在上述描述信息里建立这个内容对象与其他内容对象的关联描述，与其他内容对象的不同的关联关系则需要根据不同的关联种类来分析和确定，这属于整个数据关联体系中最富有挑战性的工作；3)以某种系统体制存储所建立描述信息，支持以公共方法进行检索解析。数据关联作为一种折中的语义化知识组织与发现机制，对上层的概念模型以及知识的表达能力尚存不足，而传统的相似度计算主要依靠的是实例对象特征的外在表现形式，也忽略了其之间的相关性。

发明内容

本发明的目的在于克服上述已有技术的缺点，提出了一种采用特征值相似度的数据关联方法，以实例对象的相关性为前提，能准确计算两个实例之间的相似度，以此来进行数据关联。

本发明步骤：首先，获得数个包含多个属性的数据源并对其进行预处理；其次根据用户要求确定属性优先级列表list；然后，每个数据源根据优先级列表形成多个相似属性群，数据源中没有存在相似属性群的属性形成一个剩余属性群；再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联，其具体步骤包括如下：

步骤一：获得i个包含多个属性的数据源λ，记为λ_i(i∈[1,M])，对λ_i进行预处理；

步骤二：确定属性优先级列表list＝{P_m,P_n,…}，m,n表示属性的编号m≠n，m,n∈[1,N]；

步骤三：各数据源按属性优先级列表list，以优先级从高到低形成相似属性群记为ω_ik，同时获得剩余属性群η_i，其中i表示数据源λ_i的编号，k表示优先级列表list中属性的编号；

步骤四：以相似属性群为基础计算各数据源之间的相似度，进行数据关联。

本发明具有如下优点：

1、本发明将同一数据源属性以相似属性群来进行相似度计算，提高了相似度计算结果的客观性和准确性。

2、本发明按照用户设定的优先级来进行相似度计算的相关操作，使数据关联的结果更加适应了用户的要求。

附图说明

图1是本发明流程图；

图2是本发明建立相似属性群过程的流程图；

图3是本发明一实施例(对数据库书籍进行关联)优先级列表示意图。

具体实施方式

为了更清楚地说明本发明，根据用户要求对数据库中书籍进行关联这一实施例来进行具体描述，用户对书本的需求优先考虑的属性为类型、作者，其次为销量。

结合附图和实施例，本发明的具体步骤如下：

步骤一：获得M个包含多个属性的数据源λ，记为λ_i(i∈[1,M])，对λ_i进行预处理；

本例中每本书为数据源λ，单本书记为λ_i，每本书上传至数据库的属性即为数据源中的属性，单个属性记为P_ia，表示数据源λ_i中编号为a的属性a∈[1,N]。数据源λ₁的属性有类型(特征值表示为t₁₁)，作者(特征值为t₁₂)，出版次数(特征值为t₁₉)。数据源λ₆的属性有类型(特征值为t₆₁)，作者(特征值为t₆₂)，篇幅(t₆₇)。其中类型在该数据库内属性编号为1，即表示为P₁，同理作者为P₂，出版次数为P₉，篇幅为P₇，销量为P₄。数据源λ₁中属性P₁₁相似链接域中存在属性P₁₃的链接，属性P₁₃相似链接域中存在属性P₁₁的链接。数据源λ₆中属性P₆₁相似链接域中存在属性P₆₃的链接，属性P₆₃相似链接域存在属性P₆₁的链接。

根据用户要求来确定优先级列表list。类型以及作者优先级为一级，销量优先级为二级。实施例优先级列表见附图3。

步骤三：各数据源按属性优先级列表list，以优先级从高到低形成相似属性群记为ω_ik，同时获得剩余属性群η_i，其中i表示数据源λ_i的编号，k表示优先级列表list中属性的编号，具体步骤如下：建立数据源λ₁的相似属性群和剩余属性群；

1)在优先级列表list中找到一个最高优先级的属性，在本例中为P₁；

2)在数据源λ₁中寻找和P₁对应的属性P₁₁，P₁₁存在，以该属性开始建立相似属性群ω₁₁，将P₁₁放入相似属性群ω₁₁；

3)将P₁₁链接域中的属性P₁₃的链接压入栈link₁中；

4)link₁不为空，自link₁中弹出一个节点，为P₁₃的链接，跳转至P₁₃；

5)P₁₃在优先级列表中没有对应的属性并且不存在于同数据源的其他属性的相似属性群中，把P₁₃放入相似属性群ω₁₁中；

6)P₁₃的链接域中存在P₁₁的链接，将P₁₁的链接压入栈link₁中；

7)link₁不为空，自link₁中弹出一个节点，为P₁₁的链接，跳转至P₁₁；P₁₁已存在相似属性群中，不用将其放入相似属性群中；

8)link₁为空，在list中删除P₁，找到下一个优先级最高的属性，为P₂；

9)在数据源λ₁中寻找和P₂对应的属性P₁₂，P₁₂存在，以该属性开始建立相似属性群ω₁₂，将P₁₂放入相似属性群ω₁₂；

10)将P₁₂的相似属性链接压入link₁中；

11)link₁为空，在优先级列表中删除P₂，优先级列表中不为空，在优先级列表中找到优先级高的属性P₄；

12)在数据源λ₁中寻找和P₄对应的属性P₁₄，P₁₄不存在，以该属性开始建立相似属性群ω₁₄，将P₁₄放入相似属性群ω₁₄；优先级列表为空，最终形成相似属性群ω₁₁(包括P₁₁，P₁₃)，ω₁₂(包括P₁₂)，ω₁₄(不包含属性)；

13)在数据源λ₁中不存在于任何相似属性群的属性存放在剩余属性群η₁中。η₁中包括属性P₁₉；同理可建立数据源λ₆的相似属性群ω₆₁(包括属性P₆₁，P₆₃)，ω₆₂(包括P₆₂)ω₆₄(不包括属性)，剩余属性群η₆(包括属性P₆₇)。

步骤四：以相似属性群为基础计算各数据源之间的相似度，进行数据关联，具体步骤如下：

1)建立P₁相似度计算矩阵X₁，其中相似属性群ω₁₁内的属性特征值组成相似度计算矩阵X₁的列向量x₁，相似属性群ω₆₁内的属性特征值组成相似度计算矩阵X₆的列向量x₁。同理建立P₂和P₄的相似度计算矩阵X₂和X₄。η₁和η₆中的属性特征值组成剩余属性群的相似度计算矩阵Y₁和Y₆；

2)计算两个数据源λ₁，λ₆之间关于属性P₁的相似度同样计算关于属性P₂和P₄的的相似度；计算两个数据源λ₁，λ₆之间剩余属性群的相似度

3)数据源λ₁，λ₆之间的相似度为其中的权值δ_gj的计算公式为θ_g为优先级为g的属性相似度计算的阈值；例如，在本例中δ₁₁满足条件

Claims

1.一种采用特征值相似度的数据关联方法，其特征在于，首先获得数个包含多个属性的数据源并对其进行预处理；其次根据用户要求确定属性优先级列表list；然后，每个数据源根据优先级列表形成多个相似属性群，数据源中没有存在相似属性群的属性形成一个剩余属性群；再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联，所述方法至少包括以下步骤：

步骤一：获得M个包含多个属性的数据源λ，记为λ_i，i∈[1,M]，对λ_i进行预处理；

步骤四：以相似属性群为基础计算各数据源之间的相似度，进行数据关联，具体方式是：

1)建立一个向量x，其向量的维度为N×1；假设获得一个数据源λ_i对于list中的属性P_a的相似属性群为ω_ia，其相似属性群会对应其属性的索引集S_i，其索引集中的元素值的范围[1,N]，则进行如下操作：

其中t_ih为属性P_ih的特征值；

2)建立关于属性P_a的相似度计算矩阵X_a＝{x₁ x₂ … x_M}，X_a∈R^N×M，x_i表示第i个数据源由步骤1)方法所得的一个列向量；

3)转步骤1)建立list列表中其他属性的相似度计算矩阵；

4)计算各数据源间关于属性的相似度：计算两个数据源λ_c，λ_d之间关于属性P_a的相似度

5)建立一个向量y，其向量的维度为N×1，根据步骤三获得一个数据源λ_i的剩余属性群为η_i，其剩余属性群会对应其属性的索引集S_i，其索引集中的元素值的范围[1,N]，则进行如下操作：

其中t_ih为属性P_ih所具有特征值；

6)建立数据源λ_i的剩余属性群的相似度计算矩阵Y＝{y₁ y₂ … y_M}，Y∈R^N×M，y_i表示第i个数据源由步骤5)方法所得的一个列向量；

7)计算各数据源间剩余属性群的相似度：计算两个数据源λ_c，λ_d之间剩余属性群的相似度

8)数据源λ_c，λ_d之间的相似度为其中δ_gj为权重，g为属性P_j的优先级级数，j为list中相似属性的编号；

9)优先级列表list中优先级为g的属性，其中g∈[1，N]，假设为P_t，它在两个数据源λ_e和λ_f中的相似属性集为ω_et和ω_ft，则θ_g为优先级为g的属性相似度计算的阈值。

2.根据权利要求1所述的方法，其特征在于各数据源中属性的存储方式：

属性P_jr在数据源λ_j中的存储形式包括一个数据域和一个链接域；数据域中存放的是该属性的特征值t_jr，链接域中存放的是该属性的相似属性的指针链接，其中j表示数据源λ_j的编号，r表示数据源λ_j中属性的编号。

3.根据权利要求1所述的方法，其特征在于属性优先级列表list的确定：

按照用户要求设定特定属性的优先级，优先级最高为一级；优先级列表list中存放的是属性编号和其对应的优先级。

4.根据权利要求1所述的方法，其特征在于根据优先级列表list形成相似属性群ω_ik和剩余属性群η_i，至少包括以下步骤：

1)在优先级列表list中找到一个最高优先级的属性，假设为P_a，a∈[1,N]；

2)在数据源λ_i中寻找和P_a对应的属性P_ia，若P_ia存在，以该属性开始建立相似属性群ω_ia将P_ia放入相似属性群ω_ia，转至步骤3)，否则建立相似属性群ω_ia，将P_ia放入相似属性群ω_ia并转至步骤9)；

3)将P_ia链接域中的相似属性链接压入栈link_a中；

4)判断link_a是否为空，为空转步骤9)，否则转步骤5)；

5)自link_a中弹出一个属性链接，并经链接跳转至该属性；

6)判断当前属性是否在优先级列表中有对应的属性以及是否已经存在于同数据源的其他属性的相似属性群中，如是，则不将该相似属性放入相似属性群ω_ia中并且转步骤4)，否则把相似属性放入相似属性群ω_ia中，转步骤7)；

7)判断当前属性的链接域是否为空，为空则转步骤4)，不为空转步骤8)；

8)将当前属性的相似属性链接压入link_a中，转步骤4)；

9)在优先级列表list中删除属性P_a并判断优先级列表list是否为空，不为空转步骤1)，为空则结束；

10)数据源λ_i中不属于相似属性群的属性存放在剩余属性群η_i。