CN103886049A - 数据空间中异质异构相关数据集合挖掘方法 - Google Patents
数据空间中异质异构相关数据集合挖掘方法 Download PDFInfo
- Publication number
- CN103886049A CN103886049A CN201410090732.4A CN201410090732A CN103886049A CN 103886049 A CN103886049 A CN 103886049A CN 201410090732 A CN201410090732 A CN 201410090732A CN 103886049 A CN103886049 A CN 103886049A
- Authority
- CN
- China
- Prior art keywords
- correlation
- data
- hidden
- hidden object
- heterogeneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种数据空间中异质异构相关数据集合挖掘方法,首先,根据用户活动日志文件,计算出两个活动对象之间的相关值,并将活动对象之间相关值大于第一阈值的活动对象关系保存在活动相关性分析文件中;根据活动相关性分析文件中的对象关系构造数据关联图G;根据数据关联图构造隐对象图GS;当隐对象所代表的数据对象集的相关值满足限定的条件时,根据所述隐对象图GS构造一个新的隐对象图Gs';输出新隐对象图Gs'中的每一个隐对象所代表的数据对象集合。本发明可以发现异质异构数据的关联,挖掘出异质异构相关数据对象集合。
Description
技术领域
本发明涉及一种数据空间中异质异构相关数据集合挖掘方法。
背景技术
数据空间是与主体相关的数据及其关系的集合,关联数据查询是数据空间重要的查询技术,而数据空间中的数据可能来自多个不同的数据源,其格式可能多种多样,因此,挖掘数据空间中异质异构相关数据集合是实现关联数据查询的重要基础。
目前对数据空间的研究主要在个人数据空间(PSD),国外主要有Dittrich等人研发的iMeMex[3-5]和Xin Dong等人研发的SEMEX原型系统,国内主要有孟小峰等人研发的OrientSpace的个人数据空间。其中,Dittrich等用一个单一逻辑图模型iDM表示内部的无结构数据,半结构化数据和结构化数据,通过iMeMex的AJAX接口为用户提供导航,查询和搜索功能。提出用pay-as-you-go的信息集成思想,在搜索引擎中加入权重hint来丰富松散的数据源间的关联,定义了iTrails的查询模型和查询策略,iTrails可执行简单的关键词查询和语义查询。Xin Dong等提出了逻辑三元组Triples(object,attribute,value)来表示异构数据和不同对象之间的关联关系,并为数据空间中的异构数据建立一个基于图模型的全局数据视图,以管理多源异构数据;在查询方向,SEMEX不仅考虑了上下文语义信息等数据集成机制,还提出了利用用户反馈来进化数据集成匹配和查询结果。孟小峰等根据用户的习惯来组织数据,提出一种活动静态模型TaskSpace,用于描述活动的组成要素;同时根据在用户数据集合中,只有一部分核心任务的数据项被经常使用,引入了核心数据空间模型CoreSpace(只包括与用户紧密联系的相关任务及所涉及的数据项)。该原型系统主要特点是引入了任务空间和核心空间,提供了基于任务的查询、XML关键词查询及基于串匹配的近似搜索。寇月等提出一种基于语义的数据空间资源搜索策略,将数据资源搜索过程分为:查询预处理,资源对象关联评估和语义关联评估,实现不同级别的语义查询,现有的语义分析,或图像分析等方法只能发现同一类型数据对象的关联,不能发现异质异构数据的关联,所以不能挖掘出异质异相关数据对象集合。
发明内容
本发明要解决的技术问题,在于提供一种数据空间中异质异构相关数据集合挖掘方法,可以发现异质异构数据的关联,挖掘出异质异构相关数据对象集合。
本发明是这样实现的:一种数据空间中异质异构相关数据集合挖掘方法,包括如下步骤:
步骤10、根据用户活动日志文件,分别计算两个活动窗口的相关度,再根据相关度计算出两个活动对象之间的相关值,并将活动对象之间相关值大于第一阈值的活动对象关系保存在活动相关性分析文件中,所述一个活动窗口包括一个活动对象;
步骤20、根据活动相关性分析文件中的对象关系构造数据关联图G;
步骤30、根据数据关联图构造隐对象图GS;
步骤40、当隐对象所代表的数据对象集的相关值满足限定的条件时,根据所述隐对象图GS构造一个新的隐对象图Gs';
步骤50、输出新隐对象图Gs'中的隐对象所代表的相关数据对象集合。
进一步地,所述步骤10中相关度包括:活动窗口的标题语义相关度、内容交互相关度、窗口切换相关度及活动时间相关度,所述活动对象关系为两个活动对象及其相关值。
进一步地,所述步骤20进一步具体为:
步骤21、对于结构化和半结构化数据对象,根据其内部结构建立连接相应节点的边,并赋予权重;
步骤22、依次读取活动相关性分析文件中所保存的对象关系,建立连接相应节点的边,并将该对象之间的相关值作为边权重。
进一步地,所述步骤30进一步具体为:
步骤31、创建隐对象:以数据对象为节点,对于数据关联图G的每一个节点vp,在与其相关值大于第二阈值并且不属于其他隐对象的节点中找出相关值最大的节点vq,创建一个隐对象表示{vp,vq};
步骤32、建立连接隐对象的边:对于GS中任意两个不同的隐对象si和sj,根据它们所代表的数据对象之间的相关度,计算隐对象si和sj之间的相关值,若si和sj之间的相关值大于0,则建立连接节点si和sj的边;否则不建立。
进一步地,所述步骤40进一步具体为:
步骤41、创建Gs'的隐对象:对于隐对象图GS中的每一个隐对象sp,在与其相关值大于第三阈值并且不属于Gs'的隐对象的其他隐对象中找出相关值最大的隐对象sq,在Gs'中创建一个隐对象代表sp和sp所代表的所有数据对象。
步骤42、建立连接Gs'的隐对象的边:对于GS'中任意两个不同的隐对象s'i和s'j,根据它们所代表的数据对象之间的相关度,计算隐对象s'i和s'j之间的相关值,若s'i和s'j之间的相关值大于0,则建立连接节点si和sj的边,否则不建立。
进一步地,所述隐对象为数据对象集,即相关的异质异构数据集合。
进一步地,所述相关数据对象集合为相关的异质异构数据集合。
本发明具有如下优点:通过捕获用户活动信息,发现不同数据对象的关联,包括异质异构数据的关联,然后利用所发现的关联,挖掘出异质异相关数据对象集合。
具体实施方式
一种数据空间中异质异构相关数据集合挖掘方法,包括如下步骤:
步骤10、根据用户活动日志文件,分别计算两个活动窗口的相关度,再根据相关度计算出两个活动对象之间的相关值,并将活动对象之间相关值大于第一阈值的活动对象关系保存在活动相关性分析文件中,所述一个活动窗口包括一个活动对象;所述两个活动窗口的相关度包括:活动窗口的标题语义相关度、内容交互相关度、窗口切换相关度及活动时间相关度,所述活动对象关系为两个活动对象及其相关值。
步骤20、根据活动相关性分析文件中的对象关系构造数据关联图G;所述步骤20进一步具体为:
步骤21、对于结构化和半结构化数据对象,根据其内部结构建立连接相应节点的边,并赋予权重;
步骤22、依次读取活动相关性分析文件中所保存的对象关系,建立连接相应节点的边,并将该对象之间的相关值作为边权重。
步骤30、根据数据关联图构造隐对象图GS;所述步骤30进一步具体为:
步骤31、创建隐对象:以数据对象为节点,对于数据关联图G的每一个节点vp,在与其相关值大于第二阈值并且不属于其他隐对象的节点中找出相关值最大的节点vq,创建一个隐对象表示{vp,vq};
步骤32、建立连接隐对象的边:对于GS中任意两个不同的隐对象si和sj,根据它们所代表的数据对象之间的相关度,计算隐对象si和sj之间的相关值,若si和sj之间的相关值大于0,则建立连接节点si和sj的边;否则不建立。
步骤40、当隐对象所代表的数据对象集的相关值满足限定的条件时,根据所述隐对象图GS构造一个新的隐对象图Gs',所述步骤40进一步具体为:
步骤41、创建Gs'的隐对象:对于隐对象图GS中的每一个隐对象sp,在与其相关值大于第三阈值并且不属于Gs'的隐对象的其他隐对象中找出相关值最大的隐对象sq,在Gs'中创建一个隐对象代表sp和sp所代表的所有数据对象。
步骤42、建立连接Gs'的隐对象的边:对于GS'中任意两个不同的隐对象s'i和s'j,根据它们所代表的数据对象之间的相关度,计算隐对象s'i和s'j之间的相关值,若s'i和s'j之间的相关值大于0,则建立连接节点si和sj的边,否则不建立。;
步骤50、输出新隐对象图Gs'中的每一个隐对象所代表的数据对象集合,所述相关数据对象集合为相关的异质异构数据集合。
所述数据对象包括结构化数据对象、半结构化数据对象及无结构数据对象。
设有数据空间的数据对象集合V和用户活动日志文件A。其中,每一个数据对象用一个三元组v(vid,vtype,vvalue)表示,其中vid表示数据对象的ID,vtype表示数据对象的数据类型,vvalue表示数据对象的描述。对于结构化的数据对象,vvalue用元组的属性值表示;半结构化数据对象的vvalue用标签和元素值共同表示,无结构的文本文档则将文档标题作为此数据对象的vvalue。每一个用户活动日志记录包含活动时间(开始和结束时间)、活动窗口标题和用户的粘贴复制操作。
首先,根据用户活动日志文件A,分别计算两个活动窗口的标题语义相关度、内容交互相关度、窗口切换相关度和活动时间相关度,然后综合这四个相关度,计算出两两活动对象之间的相关值,并将活动对象之间相关值大于指定阈值的活动对象关系保存在活动相关性分析文件中。
第二步,构造数据关联图G。以数据对象为节点,分两步建立连接节点的边:
(1)对结构化和半结构化数据,根据其内部结构,如关系数据库中元组和元组之间的引用关系、XML文档中元素之间的父子关系,建立连接相应节点的边,并赋予权重。
(2)依次读取活动相关性分析文件中所保存的对象关系,建立连接相应节点的边,并将该对象之间的相关值作为边权重。
第三步,构造隐对象图GS。构造过程分为下列两步:
(1)创建隐对象:对于数据关联图G的每一个节点vp,在与其相关值大于指定阈值并且不属于其他隐对象的节点中,找出相关值最大的节点vq,创建一个隐对象代表{vp,vq}。
(2)建立连接隐对象的边:对于GS中任意两个不同的隐对象si和sj,根据它们所代表的数据对象之间的相关度,计算隐对象si和sj之间的相关值。如果si和sj之间的相关值大于0,则建立连接节点si和sj的边。
第四步,当隐对象所代表的数据对象集的相关度满足指定的条件时,用下列迭代方法,由隐对象图GS,构造一个新的隐对象图Gs’。
(1)创建Gs’的隐对象:对于隐对象图GS的每一个隐对象sp,在与其相关度大于指定阈值并且不属于Gs’的新隐对象的隐对象中,找出相关度最大的隐对象sq,创建一个Gs’的新隐对象代表sp和sp所代表的所有数据对象。
(2)建立连接新隐对象的边:对于GS'中任意两个不同的隐对象s'i和s'j,根据它们所代表的数据对象之间的相关度,计算隐对象s'i和s'j之间的相关度。如果s'i和s'j之间的相关值大于0,则建立连接节点s'i和s'j的边。
最后,输出相关的数据对象集合:上一步所得到的隐对象图中,每一个隐对象所代表的数据对象集就是一个相关的异质异构数据集合。取出并输出每一个隐对象所代表的数据对象集。
本发明为挖掘异质异构相关数据集合提供了一种有效选择解决方案,为实现数据空间关联数据查询打下基础。
要实现数据空间关联数据查询,必须挖掘异质异构相关数据集合。本发明利用结构化和半结构化数据内部的关联关系,结合用户活动中蕴涵的潜在的数据之间的关联关系,来挖掘异质异构相关数据集合。
收集数据空间的用户活动信息:为了捕获用户活动信息,本文开发了一个用户活动信息收集子系统。该子系统捕获数据空间的用户活动信息,并将这些信息保存在一个用户活动日志文件中。保存的用户活动信息包括活动的开始和结束时间、活动所涉及的数据对象(窗口标题内容)和用户对数据对象的粘贴复制操作。
数据准备:在数据空间中加入下列结构化、半结构化和无结构数据:
结构化数据:Microsoft SQL SERVER自带的关系数据库pubs和Northwind。
半结构化数据:http://research.cs.wisc.edu/niagara/data.html网站‘XMLdata bank’提供的XML文档及一些网页(HTML文档)
无结构数据:文本文档20-Newsgroup data,一些JPEG文件、BMP文件、Window Media音频文件等多媒体文件。
以上述用户活动日志文件和数据空间中的数据对象集合作为输入,按下列处理步骤挖掘相关的异质异构数据集合:
可以表示如下:
步骤1:执行算法1,从用户活动日志文件中发现潜在的数据对象之间的关联关系。
活动相关性分析
输入:用户活动日志文件A
输出:活动相关性分析文件B
对于日志文件任意两个不同的活动对象vi和vj,作下列处理:
根据两个对象活动窗口标题内容,计算vi和vj的语义相关度sim(vi,vj);
根据两个对象活动窗口粘贴复制动作,计算vi和vj的内容交互相关度intact(vi,vj);
根据两个对象活动窗口互相切换的次数,计算vi和vj的切换相关度toggle(vi,vj);
根据两个对象活动时间的重叠,计算vi和vj的时间相关度time(vi,vj);
计算vi和vj的相关值:
r(vi,vj)=w1*sim(vi,vj)+w2*intact(vi,vj)+w3*toggle(vi,vj)+w4*time(vi,vj),其中w1为sim(vi,vj)的权重,w2为intact(vi,vj)的权重,w3为toggle(vi,vj)的权重,w4为time(vi,vj)的权重。
如果r(vi,vj)大于第一阈值δ,则将活动对象vi和vj及其相关值r(vi,vj)写入活动相关性分析文件B;
步骤2:构造一个以数据对象为节点,以数据关系为边,以[0,1]区间实数为边权重的赋权图。
构造数据关联图
输入:数据空间的数据对象集V,活动相关性分析文件B
输出:数据关联图G
对于数据对象集V中的每一个数据对象vi,作下列处理:
如果vi是关系元组,则获取与vi存在引用关系的数据对象vj,将e(vi,vj)的权重设置为1,其中e(vi,vj)表示节点vi和节点之间vj的边;
如果vi是XML或HTML元素,则获取vi的父结点vj,设置e(vj,vi)相应的权重,其中e(vi,vj)表示节点vi和节点之间vj的边;
对于活动相关性分析文件B的每一个记录,作下列处理:
读取数据对象vi和vj的活动相关值r(vi,vi);在e(vp,vq)的权重加入r(vi,vi)(权重最大取1);
步骤3:构造隐对象图GS。
构造隐对象图
输入:数据关联图G
输出:隐对象图GS
对于G的每一个数据对象vp,作下列处理:
在与vp邻接且边权大于指定阈值并且不属于其他隐对象的节点中,取出边权最大的节点vq,创建一个隐对象si代替{vp,vq}。
对于Gs中的每一对隐对象si和sj(i≠j),作下列处理:
根据si和sj所代表的数据对象之间的边权,计算e(si,sj)的权重,其中e(si,sj)表示节点si和节点之间sj的边;
如果e(si,sj)的权重大于0,则建立连接节点si和sj的边;
步骤4:在隐对象所代表的数据对象集的相关值满足指定的条件的情况下,用迭代方法由一个隐对象图GS,构造一个更优的新隐对象图Gs'(新的隐对象代表更多的相关数据对象)。完成迭代后,新隐对象图的每一个隐对象代表一个相关数据对象集合。
从隐对象图挖掘相关数据对象集合
输入:隐对象图GS
输出:相关数据对象集
当隐对象代表的相关数据对象集满足指定条件时,作下列处理:
对于Gs的每一个sp,作下列处理:
在与sp相关值大于指定阈值并且不属于Gs’的新隐对象的隐对象中,找出相关值最大的隐对象sq,创建Gs’的一个新隐对象来代表sp和sp所代表的所有数据对象;
对于Gs'的每一对隐对象s'i,和s'j(i≠j),作下列处理:
根据它们所代表的数据对象之间的相关度,计算隐对象s'i和s'j之间的相关值;
如果s'i和s'j之间的相关值大于0,则建立连接s'i和s'j的边;
将Gs'存入Gs;
对于Gs的每一个sp,取出sp所代表的所有数据对象,作为一个相关数据对象集输出。
也可以表示如下:
步骤1:执行算法1,从用户活动日志文件中发现潜在的数据对象之间的关联关系:
算法1:活动相关性分析
输入:用户活动日志文件A
输出:活动相关性分析文件B
1、for(日志文件任意两个不同的活动对象vi和vj)
2、{根据两个对象活动窗口标题内容,计算vi和vj的语义相关度sim(vi,vj);
3、根据两个对象活动窗口粘贴复制动作,计算vi和vj的内容交互相关度intact(vi,vj);
4、根据两个对象活动窗口互相切换的次数,计算vi和vj的切换相关度toggle(vi,vj);
5、根据两个对象活动时间的重叠,计算vi和vj的时间相关度time(vi,vj);
6、计算vi和vj的相关值:r(vi,vj)=w1*sim(vi,vj)+w2*intact(vi,vj)+w3*toggle(vi,vj)+w4*time(vi,vj),,其中w1为sim(vi,vj)的权重,w2为intact(vi,vj)的权重,w3为toggle(vi,vj)的权重,w4为time(vi,vj)的权重
7、if(r(vi,vj)>δ){将活动对象vi和vj及其相关值r(vi,vj)写入活动相关性分析文件B};
8、}
步骤2:执行算法2,构造一个以数据对象为节点,以数据关系为边,以[0,1]区间实数为边权重的赋权图。
算法2:构造数据关联图
输入:数据空间的数据对象集V,活动相关性分析文件B
输出:数据关联图G
1、for(每一个数据对象vi∈V)
2、{if(vi是关系元组){获取与vi存在引用关系的数据对象vj;设e(vi,vj)的权重为1,其中e(vi,vj)表示节点vi和节点之间vj的边};
3、if(vi是XML或HTML元素){获取vi的父结点vj;设置e(vj,vi)相应的权重};
4、};
5、for(活动相关性分析文件B的每一个记录)
6、{读取数据对象vi和vj的活动相关值r(vi,vi);在e(vp,vq)的权重加入r(vi,vi)(权重最大取1)};
步骤3:执行算法3,构造隐对象图GS。
算法3:构造隐对象图
输入:数据关联图G
输出:隐对象图GS
1、for(G的每一个数据对象vp)
2、{在与vp邻接且边权大于第二阈值并且不属于其他隐对象的节点中,取出边权最大的节点vq,创建一个隐对象si代替{vp,vq}。
3、for(每一个Gs中的隐对象si)
4、for(每一个sj且i≠j)
5、{根据si和sj所代表的数据对象之间的边权,计算e(si,sj)的权重,其中e(si,sj)表示节点si和节点之间sj的边;
6、if(e(si,sj)的权重>0){建立连接节点si和sj的边}
7、}
步骤4:执行算法4,在隐对象所代表的数据对象集的相关值满足指定的条件的情况下,用迭代方法由一个隐对象图GS,构造一个更优的新隐对象图Gs'(新的隐对象代表更多的相关数据对象)。完成迭代后,新隐对象图的每一个隐对象代表一个相关数据对象集合。
算法4:从隐对象图挖掘相关数据对象集合
输入:隐对象图GS
输出:相关数据对象集
1、While(隐对象代表的相关数据对象集满足指定条件)do
2、{for(Gs的每一个sp)
3、{在与sp相关值大于第三阈值并且不属于Gs'的新隐对象的隐对象中,找出相关值最大的
4、隐对象sq,创建Gs'的一个新隐对象来代表sp和sp所代表的所有数据对象};
5、for(Gs'的每一个s'i)
6、for(Gs'中的每一个s'j且i≠j)
7、{根据它们所代表的数据对象之间的相关度,计算隐对象s'i和s'j之间的相关值;
8、If(s'i和s'j之间的相关值>0){建立连接s'i和s'j的边}
9、}
10、Gs=Gs';
11、}
12、for(Gs的每一个sp){取出sp所代表的所有数据对象,作为一个相关数据对象集输出}
对于如上所述的实例数据的挖掘结果,本文通过计算被加入到相关数据集的数据的正确率进行评估。当迭代次数大于8时,正确率趋于稳定,达到98.45%。为测试算法的时间性能,本文对不同数量的数据对象集进行测试。对于包含999个数据对象和11250条关联边的数据集合,算法的执行时间约3.7秒。当据增加到1779个数据对象和23755条关联边时,算法的执行时间增加约1秒。还测试了包含2000多个数据对象和3000多个数据对象的数据集合,算法的执行时间都没有随着数据对象数量的增长而成倍增长。实验结果表明了本算法的可行性。
本发明具有如下优点:通过捕获用户活动信息,发现不同数据对象的关联,包括异质异构数据的关联,然后利用所发现的关联,挖掘出异质异相关数据对象集合。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (7)
1.一种数据空间中异质异构相关数据集合挖掘方法,其特征在于:包括如下步骤:
步骤10、根据用户活动日志文件,分别计算两个活动窗口的相关度,再根据相关度计算出两个活动对象之间的相关值,并将活动对象之间相关值大于第一阈值的活动对象关系保存在活动相关性分析文件中;
步骤20、根据活动相关性分析文件中的对象关系构造数据关联图G;
步骤30、根据数据关联图构造隐对象图GS;
步骤40、当隐对象所代表的数据对象集的相关值满足限定的条件时,根据所述隐对象图GS构造一个新的隐对象图Gs';
步骤50、输出新隐对象图Gs'中的隐对象所代表的相关数据对象集合。
2.根据权利要求1所述的数据空间中异质异构相关数据集合挖掘方法,其特征在于:所述步骤10中相关度包括:活动窗口的标题语义相关度、内容交互相关度、窗口切换相关度及活动时间相关度,所述活动对象关系为两个活动对象及其相关值。
3.根据权利要求1所述的数据空间中异质异构相关数据集合挖掘方法,其特征在于:所述步骤20进一步具体为:
步骤21、对于结构化和半结构化数据对象,根据其内部结构建立连接相应节点的边,并赋予权重;
步骤22、依次读取活动相关性分析文件中所保存的活动对象关系,建立连接相应节点的边,并将该对象之间的相关值作为边权重。
4.根据权利要求1所述的数据空间中异质异构相关数据集合挖掘方法,其特征在于:所述步骤30进一步具体为:
步骤31、创建隐对象:以数据对象为节点,对于数据关联图G的每一个节点vp,在与其相关值大于第二阈值并且不属于其他隐对象的节点中找出相关值最大的节点vq,创建一个隐对象表示{vp,vq};
步骤32、建立连接隐对象的边:对于GS中任意两个不同的隐对象si和sj,根据它们所代表的数据对象之间的相关度,计算隐对象si和sj之间的相关值,若si和sj之间的相关值大于0,则建立连接节点si和sj的边;否则不建立。
5.根据权利要求1所述的数据空间中异质异构相关数据集合挖掘方法,其特征在于:所述步骤40进一步具体为:
步骤41、创建Gs'的隐对象:对于隐对象图GS中的每一个隐对象sp,在与其相关值大于第三阈值并且不属于Gs'的隐对象的其他隐对象中找出相关值最大的隐对象sq,在Gs'中创建一个隐对象代表sp和sp所代表的所有数据对象。
步骤42、建立连接Gs'的隐对象的边:对于GS'中任意两个不同的隐对象s'i和s'j,根据它们所代表的数据对象之间的相关度,计算隐对象s'i和s'j之间的相关值,若s'i和s'j之间的相关值大于0,则建立连接节点si和sj的边,否则不建立。
6.根据权利要求1所述的数据空间中异质异构相关数据集合挖掘方法,其特征在于:所述相关数据对象集合为相关的异质异构数据集合。
7.根据权利要求1、2、3、4或5所述的数据空间中异质异构相关数据集合挖掘方法,其特征在于:所述数据对象包括结构化数据对象、半结构化数据对象及无结构数据对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410090732.4A CN103886049B (zh) | 2014-03-12 | 2014-03-12 | 数据空间中异质异构相关数据集合挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410090732.4A CN103886049B (zh) | 2014-03-12 | 2014-03-12 | 数据空间中异质异构相关数据集合挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103886049A true CN103886049A (zh) | 2014-06-25 |
CN103886049B CN103886049B (zh) | 2017-02-15 |
Family
ID=50954941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410090732.4A Expired - Fee Related CN103886049B (zh) | 2014-03-12 | 2014-03-12 | 数据空间中异质异构相关数据集合挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886049B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168989A (zh) * | 2017-03-27 | 2017-09-15 | 华南师范大学 | 一种多源异构割裂结构化数据转化方法及系统 |
CN107463382A (zh) * | 2017-08-10 | 2017-12-12 | 上海庄生机电工程设备有限公司 | 一种导航网页模块方法 |
CN112506913A (zh) * | 2021-02-02 | 2021-03-16 | 广东工业大学 | 一种面向制造业数据空间的大数据体系结构构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090164412A1 (en) * | 2007-12-21 | 2009-06-25 | Robert Joseph Bestgen | Multiple Result Sets Generated from Single Pass Through a Dataspace |
CN103049464A (zh) * | 2012-03-30 | 2013-04-17 | 北京峰盛博远科技有限公司 | 基于空间对象类化模型及网格体索引的异构地理空间数据管理技术 |
CN103116636A (zh) * | 2013-02-07 | 2013-05-22 | 中国科学院软件研究所 | 基于特征空间分解的文本大数据主题挖掘方法和装置 |
-
2014
- 2014-03-12 CN CN201410090732.4A patent/CN103886049B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090164412A1 (en) * | 2007-12-21 | 2009-06-25 | Robert Joseph Bestgen | Multiple Result Sets Generated from Single Pass Through a Dataspace |
CN103049464A (zh) * | 2012-03-30 | 2013-04-17 | 北京峰盛博远科技有限公司 | 基于空间对象类化模型及网格体索引的异构地理空间数据管理技术 |
CN103116636A (zh) * | 2013-02-07 | 2013-05-22 | 中国科学院软件研究所 | 基于特征空间分解的文本大数据主题挖掘方法和装置 |
Non-Patent Citations (2)
Title |
---|
刘莉等: "一种基于基本信息单元的索引", 《计算机工程与科学》 * |
崔晨等: "用户活动信息相关方法", 《福建电脑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168989A (zh) * | 2017-03-27 | 2017-09-15 | 华南师范大学 | 一种多源异构割裂结构化数据转化方法及系统 |
CN107463382A (zh) * | 2017-08-10 | 2017-12-12 | 上海庄生机电工程设备有限公司 | 一种导航网页模块方法 |
CN112506913A (zh) * | 2021-02-02 | 2021-03-16 | 广东工业大学 | 一种面向制造业数据空间的大数据体系结构构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103886049B (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Knoth et al. | CORE: three access levels to underpin open access | |
CN105808696B (zh) | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 | |
Fan et al. | Research of Chinese intangible cultural heritage knowledge graph construction and attribute value extraction with graph attention network | |
Liu et al. | An improved association rules mining method | |
CN103116657B (zh) | 一种网络教学资源的个性化搜索方法 | |
Yan et al. | A spatially explicit reinforcement learning model for geographic knowledge graph summarization | |
CN102122291A (zh) | 一种基于树形日志模式分析的博客好友推荐方法 | |
CN104850632A (zh) | 一种通用的基于异构信息网络的相似度计算方法与系统 | |
Wu et al. | Mining compact high utility itemsets without candidate generation | |
CN105389329A (zh) | 一种基于群体评论的开源软件推荐方法 | |
Novikov et al. | Querying big data | |
CN109447261A (zh) | 一种基于多阶邻近相似度的网络表示学习的方法 | |
Lin et al. | A Cost‐Effective Planning Graph Approach for Large‐Scale Web Service Composition | |
CN110321446A (zh) | 相关数据推荐方法、装置、计算机设备及存储介质 | |
Hikmawati et al. | How to determine minimum support in association rule | |
CN103886049A (zh) | 数据空间中异质异构相关数据集合挖掘方法 | |
Zhao et al. | An improved user identification method across social networks via tagging behaviors | |
Guo et al. | Cross-domain scientific collaborations prediction with citation information | |
CN107391690B (zh) | 一种处理文献信息的方法 | |
CN101308499A (zh) | 一种基于关联分析的文献检索方法 | |
CN105354339A (zh) | 基于上下文的内容个性化提供方法 | |
US8965910B2 (en) | Apparatus and method of searching for instance path based on ontology schema | |
Sack et al. | The Semantic Web. Latest Advances and New Domains: 13th International Conference, ESWC 2016, Heraklion, Crete, Greece, May 29--June 2, 2016, Proceedings | |
Singh et al. | High utility itemsets mining with negative utility value: A survey | |
Liu et al. | Significant-attributed Community Search in Heterogeneous Information Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170215 Termination date: 20200312 |
|
CF01 | Termination of patent right due to non-payment of annual fee |