CN105512484B - 一种采用特征值相似度的数据关联方法 - Google Patents

一种采用特征值相似度的数据关联方法 Download PDF

Info

Publication number
CN105512484B
CN105512484B CN201510905286.2A CN201510905286A CN105512484B CN 105512484 B CN105512484 B CN 105512484B CN 201510905286 A CN201510905286 A CN 201510905286A CN 105512484 B CN105512484 B CN 105512484B
Authority
CN
China
Prior art keywords
attribute
data source
list
group
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510905286.2A
Other languages
English (en)
Other versions
CN105512484A (zh
Inventor
裴廷睿
叶学辉
田淑娟
吴相润
崔荣埈
关屋大雄
李哲涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201510905286.2A priority Critical patent/CN105512484B/zh
Publication of CN105512484A publication Critical patent/CN105512484A/zh
Application granted granted Critical
Publication of CN105512484B publication Critical patent/CN105512484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种采用特征值相似度的数据关联方法。本发明步骤:首先,获得数个包含多个属性的数据源并对其进行预处理;其次根据用户要求确定属性优先级列表;然后,每个数据源根据优先级列表形成多个相似属性群,数据源中没有存在相似属性群的属性形成一个剩余属性群;再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联。本发明改善了传统数据关联方法的效能,提高了数据关联的准确性。

Description

一种采用特征值相似度的数据关联方法
技术领域
本发明涉及数据库信息处理领域,具体的说是一种采用特征值相似度的数据关联方法。
背景技术
数据关联通过将分散领域中的数据通过结构化描述以及数据之间的链接关联起来,形成全球巨大数据空间,即数据网络。这种数据网络资源环境为信息的最大限度共享、重用以及发行提供了保障,也为人们的知识发现活动提供了新的机遇。随着语义网技术的不断成熟,网络资源环境向智能化、语义化和结构化方向发展。语义网通过给万维网上的文档添加形式化语义信息,使计算机可以理解和处理这些文档,实现数据的自动化处理,提高信息检索的效率,数据关联的提出使语义网有了实质性的发展。
目前数据关联技术体系主要包括了四个部分:数据内容组织、数据关联的创建与发布、数据关联的浏览与检索、数据关联的互联和维护。其中数据关联的创建与发布是实现数据关联的关键环节,需要满足以下三个要求:1)用规范形式来描述内容对象的内部结构及其内含内容的语义,这个描述的深度取决于内容对象本身的内容深度和所依据元数据格式的丰富程度;2)在上述描述信息里建立这个内容对象与其他内容对象的关联描述,与其他内容对象的不同的关联关系则需要根据不同的关联种类来分析和确定,这属于整个数据关联体系中最富有挑战性的工作;3)以某种系统体制存储所建立描述信息,支持以公共方法进行检索解析。数据关联作为一种折中的语义化知识组织与发现机制,对上层的概念模型以及知识的表达能力尚存不足,而传统的相似度计算主要依靠的是实例对象特征的外在表现形式,也忽略了其之间的相关性。
发明内容
本发明的目的在于克服上述已有技术的缺点,提出了一种采用特征值相似度的数据关联方法,以实例对象的相关性为前提,能准确计算两个实例之间的相似度,以此来进行数据关联。
本发明步骤:首先,获得数个包含多个属性的数据源并对其进行预处理;其次根据用户要求确定属性优先级列表list;然后,每个数据源根据优先级列表形成多个相似属性群,数据源中没有存在相似属性群的属性形成一个剩余属性群;再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联,其具体步骤包括如下:
步骤一:获得i个包含多个属性的数据源λ,记为λi(i∈[1,M]),对λi进行预处理;
步骤二:确定属性优先级列表list={Pm,Pn,…},m,n表示属性的编号m≠n,m,n∈[1,N];
步骤三:各数据源按属性优先级列表list,以优先级从高到低形成相似属性群记为ωik,同时获得剩余属性群ηi,其中i表示数据源λi的编号,k表示优先级列表list中属性的编号;
步骤四:以相似属性群为基础计算各数据源之间的相似度,进行数据关联。
本发明具有如下优点:
1、本发明将同一数据源属性以相似属性群来进行相似度计算,提高了相似度计算结果的客观性和准确性。
2、本发明按照用户设定的优先级来进行相似度计算的相关操作,使数据关联的结果更加适应了用户的要求。
附图说明
图1是本发明流程图;
图2是本发明建立相似属性群过程的流程图;
图3是本发明一实施例(对数据库书籍进行关联)优先级列表示意图。
具体实施方式
为了更清楚地说明本发明,根据用户要求对数据库中书籍进行关联这一实施例来进行具体描述,用户对书本的需求优先考虑的属性为类型、作者,其次为销量。
结合附图和实施例,本发明的具体步骤如下:
步骤一:获得M个包含多个属性的数据源λ,记为λi(i∈[1,M]),对λi进行预处理;
本例中每本书为数据源λ,单本书记为λi,每本书上传至数据库的属性即为数据源中的属性,单个属性记为Pia,表示数据源λi中编号为a的属性a∈[1,N]。数据源λ1的属性有类型(特征值表示为t11),作者(特征值为t12),出版次数(特征值为t19)。数据源λ6的属性有类型(特征值为t61),作者(特征值为t62),篇幅(t67)。其中类型在该数据库内属性编号为1,即表示为P1,同理作者为P2,出版次数为P9,篇幅为P7,销量为P4。数据源λ1中属性P11相似链接域中存在属性P13的链接,属性P13相似链接域中存在属性P11的链接。数据源λ6中属性P61相似链接域中存在属性P63的链接,属性P63相似链接域存在属性P61的链接。
步骤二:确定属性优先级列表list={Pm,Pn,…},m,n表示属性的编号m≠n,m,n∈[1,N];
根据用户要求来确定优先级列表list。类型以及作者优先级为一级,销量优先级为二级。实施例优先级列表见附图3。
步骤三:各数据源按属性优先级列表list,以优先级从高到低形成相似属性群记为ωik,同时获得剩余属性群ηi,其中i表示数据源λi的编号,k表示优先级列表list中属性的编号,具体步骤如下:建立数据源λ1的相似属性群和剩余属性群;
1)在优先级列表list中找到一个最高优先级的属性,在本例中为P1
2)在数据源λ1中寻找和P1对应的属性P11,P11存在,以该属性开始建立相似属性群ω11,将P11放入相似属性群ω11
3)将P11链接域中的属性P13的链接压入栈link1中;
4)link1不为空,自link1中弹出一个节点,为P13的链接,跳转至P13
5)P13在优先级列表中没有对应的属性并且不存在于同数据源的其他属性的相似属性群中,把P13放入相似属性群ω11中;
6)P13的链接域中存在P11的链接,将P11的链接压入栈link1中;
7)link1不为空,自link1中弹出一个节点,为P11的链接,跳转至P11;P11已存在相似属性群中,不用将其放入相似属性群中;
8)link1为空,在list中删除P1,找到下一个优先级最高的属性,为P2
9)在数据源λ1中寻找和P2对应的属性P12,P12存在,以该属性开始建立相似属性群ω12,将P12放入相似属性群ω12
10)将P12的相似属性链接压入link1中;
11)link1为空,在优先级列表中删除P2,优先级列表中不为空,在优先级列表中找到优先级高的属性P4
12)在数据源λ1中寻找和P4对应的属性P14,P14不存在,以该属性开始建立相似属性群ω14,将P14放入相似属性群ω14;优先级列表为空,最终形成相似属性群ω11(包括P11,P13),ω12(包括P12),ω14(不包含属性);
13)在数据源λ1中不存在于任何相似属性群的属性存放在剩余属性群η1中。η1中包括属性P19;同理可建立数据源λ6的相似属性群ω61(包括属性P61,P63),ω62(包括P6264(不包括属性),剩余属性群η6(包括属性P67)。
步骤四:以相似属性群为基础计算各数据源之间的相似度,进行数据关联,具体步骤如下:
1)建立P1相似度计算矩阵X1,其中相似属性群ω11内的属性特征值组成相似度计算矩阵X1的列向量x1,相似属性群ω61内的属性特征值组成相似度计算矩阵X6的列向量x1。同理建立P2和P4的相似度计算矩阵X2和X4。η1和η6中的属性特征值组成剩余属性群的相似度计算矩阵Y1和Y6
2)计算两个数据源λ1,λ6之间关于属性P1的相似度同样计算关于属性P2和P4的的相似度;计算两个数据源λ1,λ6之间剩余属性群的相似度
3)数据源λ1,λ6之间的相似度为 其中的权值δgj的计算公式为θg为优先级为g的属性相似度计算的阈值;例如,在本例中δ11满足条件

Claims (4)

1.一种采用特征值相似度的数据关联方法,其特征在于,首先获得数个包含多个属性的数据源并对其进行预处理;其次根据用户要求确定属性优先级列表list;然后,每个数据源根据优先级列表形成多个相似属性群,数据源中没有存在相似属性群的属性形成一个剩余属性群;再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联,所述方法至少包括以下步骤:
步骤一:获得M个包含多个属性的数据源λ,记为λi,i∈[1,M],对λi进行预处理;
步骤二:确定属性优先级列表list={Pm,Pn,…},m,n表示属性的编号m≠n,m,n∈[1,N];
步骤三:各数据源按属性优先级列表list,以优先级从高到低形成相似属性群记为ωik,同时获得剩余属性群ηi,其中i表示数据源λi的编号,k表示优先级列表list中属性的编号;
步骤四:以相似属性群为基础计算各数据源之间的相似度,进行数据关联,具体方式是:
1)建立一个向量x,其向量的维度为N×1;假设获得一个数据源λi对于list中的属性Pa的相似属性群为ωia,其相似属性群会对应其属性的索引集Si,其索引集中的元素值的范围[1,N],则进行如下操作:
其中tih为属性Pih的特征值;
2)建立关于属性Pa的相似度计算矩阵Xa={x1 x2 … xM},Xa∈RN×M,xi表示第i个数据源由步骤1)方法所得的一个列向量;
3)转步骤1)建立list列表中其他属性的相似度计算矩阵;
4)计算各数据源间关于属性的相似度:计算两个数据源λc,λd之间关于属性Pa的相似度
5)建立一个向量y,其向量的维度为N×1,根据步骤三获得一个数据源λi的剩余属性群为ηi,其剩余属性群会对应其属性的索引集Si,其索引集中的元素值的范围[1,N],则进行如下操作:
其中tih为属性Pih所具有特征值;
6)建立数据源λi的剩余属性群的相似度计算矩阵Y={y1 y2 … yM},Y∈RN×M,yi表示第i个数据源由步骤5)方法所得的一个列向量;
7)计算各数据源间剩余属性群的相似度:计算两个数据源λc,λd之间剩余属性群的相似度
8)数据源λc,λd之间的相似度为其中δgj为权重,g为属性Pj的优先级级数,j为list中相似属性的编号;
9)优先级列表list中优先级为g的属性,其中g∈[1,N],假设为Pt,它在两个数据源λe和λf中的相似属性集为ωet和ωft,则θg为优先级为g的属性相似度计算的阈值。
2.根据权利要求1所述的方法,其特征在于各数据源中属性的存储方式:
属性Pjr在数据源λj中的存储形式包括一个数据域和一个链接域;数据域中存放的是该属性的特征值tjr,链接域中存放的是该属性的相似属性的指针链接,其中j表示数据源λj的编号,r表示数据源λj中属性的编号。
3.根据权利要求1所述的方法,其特征在于属性优先级列表list的确定:
按照用户要求设定特定属性的优先级,优先级最高为一级;优先级列表list中存放的是属性编号和其对应的优先级。
4.根据权利要求1所述的方法,其特征在于根据优先级列表list形成相似属性群ωik和剩余属性群ηi,至少包括以下步骤:
1)在优先级列表list中找到一个最高优先级的属性,假设为Pa,a∈[1,N];
2)在数据源λi中寻找和Pa对应的属性Pia,若Pia存在,以该属性开始建立相似属性群ωia将Pia放入相似属性群ωia,转至步骤3),否则建立相似属性群ωia,将Pia放入相似属性群ωia并转至步骤9);
3)将Pia链接域中的相似属性链接压入栈linka中;
4)判断linka是否为空,为空转步骤9),否则转步骤5);
5)自linka中弹出一个属性链接,并经链接跳转至该属性;
6)判断当前属性是否在优先级列表中有对应的属性以及是否已经存在于同数据源的其他属性的相似属性群中,如是,则不将该相似属性放入相似属性群ωia中并且转步骤4),否则把相似属性放入相似属性群ωia中,转步骤7);
7)判断当前属性的链接域是否为空,为空则转步骤4),不为空转步骤8);
8)将当前属性的相似属性链接压入linka中,转步骤4);
9)在优先级列表list中删除属性Pa并判断优先级列表list是否为空,不为空转步骤1),为空则结束;
10)数据源λi中不属于相似属性群的属性存放在剩余属性群ηi
CN201510905286.2A 2015-12-10 2015-12-10 一种采用特征值相似度的数据关联方法 Active CN105512484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510905286.2A CN105512484B (zh) 2015-12-10 2015-12-10 一种采用特征值相似度的数据关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510905286.2A CN105512484B (zh) 2015-12-10 2015-12-10 一种采用特征值相似度的数据关联方法

Publications (2)

Publication Number Publication Date
CN105512484A CN105512484A (zh) 2016-04-20
CN105512484B true CN105512484B (zh) 2019-03-19

Family

ID=55720461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510905286.2A Active CN105512484B (zh) 2015-12-10 2015-12-10 一种采用特征值相似度的数据关联方法

Country Status (1)

Country Link
CN (1) CN105512484B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521376B (zh) * 2018-04-02 2021-07-13 湘潭大学 软件定义网络中基于属性相似性的流表设计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030217A (zh) * 2007-03-22 2007-09-05 华中科技大学 一种语义网信息的索引与获取方法
US20130031133A1 (en) * 2009-12-30 2013-01-31 Jovanka Adzic Method and system for carrying out searches in a database comprising taxonomic classification of digital information contents
CN103257981A (zh) * 2012-06-12 2013-08-21 苏州大学 基于查询接口属性特征的Deep Web数据表面化方法
CN103823879A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030217A (zh) * 2007-03-22 2007-09-05 华中科技大学 一种语义网信息的索引与获取方法
US20130031133A1 (en) * 2009-12-30 2013-01-31 Jovanka Adzic Method and system for carrying out searches in a database comprising taxonomic classification of digital information contents
CN103257981A (zh) * 2012-06-12 2013-08-21 苏州大学 基于查询接口属性特征的Deep Web数据表面化方法
CN103823879A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
关联数据资源集相似度计算方法研究;邓兰兰,等;《情报理论与实践》;20120531;第35卷(第5期);第112-116页
灰色理论在有杆抽油井故障诊断中的应用;许广繁,等;《合肥工业大学学报(自然科学版)》;20131031;第36卷(第10期);第1265-1268页

Also Published As

Publication number Publication date
CN105512484A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN103631929B (zh) 一种用于搜索的智能提示的方法、模块和系统
JP6216467B2 (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN103106285B (zh) 一种基于信息安全专业社交网络平台的推荐算法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN110674318A (zh) 一种基于引文网络社区发现的数据推荐方法
CN109947987B (zh) 一种交叉协同过滤推荐方法
CN103577579A (zh) 基于用户潜在需求的资源推荐方法及系统
Zhang et al. Hotel recommendation based on user preference analysis
Lu et al. Scalable news recommendation using multi-dimensional similarity and Jaccard–Kmeans clustering
CN103678618A (zh) 一种基于社交网络平台的Web服务推荐方法
CN106776869A (zh) 基于神经网络的搜索优化方法、装置以及搜索引擎
RU2731658C2 (ru) Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения
CN104090971A (zh) 面向个性化应用的跨网络行为关联方法
CN109815383A (zh) 基于lstm的微博谣言检测及其资源库构建方法
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN105893585A (zh) 一种结合标签数据的二部图模型学术论文推荐方法
CN104915405A (zh) 一种基于多层次的微博查询扩展方法
CN104156431B (zh) 一种基于实体图社团结构的rdf关键词查询方法
KR101301077B1 (ko) 온톨로지 정렬 방법 및 이를 적용한 온톨로지 정렬 시스템
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
CN105608118B (zh) 基于用户交互信息的结果推送方法
An et al. A heuristic approach on metadata recommendation for search engine optimization
CN103279580A (zh) 基于新型语义空间的视频检索方法
CN105205075B (zh) 基于协同自扩展的命名实体集合扩展方法及查询推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant