CN107886107B - 一种大数据的融合方法、系统和装置 - Google Patents
一种大数据的融合方法、系统和装置 Download PDFInfo
- Publication number
- CN107886107B CN107886107B CN201710880855.1A CN201710880855A CN107886107B CN 107886107 B CN107886107 B CN 107886107B CN 201710880855 A CN201710880855 A CN 201710880855A CN 107886107 B CN107886107 B CN 107886107B
- Authority
- CN
- China
- Prior art keywords
- graph
- data
- data fusion
- concept
- complex entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Abstract
本发明公开了一种大数据的融合方法、系统和装置,本发明的方法包括以下步骤:根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合;系统包括数据重构模块和复杂实体概念识别模块;装置包括存储器和处理器。本发明以图为核心,增设了通过中心连通子图法对数据融合图进行识别的步骤,使得数据融合方法可以将复杂实体概念以及描述复杂实体概念的潜在数据结构从数据融合图中挖掘出来,克服了现有技术不能挖掘更复杂的实体概念的缺点。本发明可以广泛应用于数据挖掘领域。
Description
技术领域
本发明涉及数据挖掘领域,尤其是一种大数据的融合方法、系统和装置。
背景技术
名词解释:
DFS算法:深度优先搜索属于图算法的一种,英文缩写为DFS即Depth FirstSearch。其过程简要来说是对每一个可能的分支路径深入到不能再深入为止,而且每个节点只能访问一次,DFS算法遍历图的方法是,从图中某顶点v出发:
(1)访问顶点v;
(2)依次从v的未被访问的邻接点出发,对图进行深度优先遍历;直至图中和v有路径相通的顶点都被访问;
(3)若此时图中尚有顶点未被访问,则从一个未被访问的顶点出发,重新进行深度优先遍历,直到图中所有顶点均被访问过为止。
中心连通子图:子图中存在一个中心节点,对于子图中的任何一个节点,都存在一条从该节点到中心节点的路径。
实体概念:是对业务逻辑中一类事物的抽象模型,实体概念e由多个侧面特征组成。实体概念可形式化表示为e=(Attributes,Relations),其中Attributes是属性的集合,Relations是关系集合。attr∈Attributes是一个属性,属性attr=<name,attrClass>包括属性名和属性类型,属性类型只有两种分别是值类型value和实体概念类型entity。即attr可以表示为<name,value>或者是<name,entity>。Relations是属性之间的关系。
简单实体概念:是在业务逻辑中,属性集合中每个元素的类型都是值类型value,即实体概念es=(Attributes,Relations)是简单实体概念当且仅当attr.attrClass=value。由于属性是值类型,所以
复杂实体概念:是在业务逻辑中,属性集合中存在一个元素的类型是实体概念类型entity,即实体概念es=(Attributes,Relations)是复杂实体概念当且仅当 attr.attrClass=entity。由于属性存在实体概念类型,所以实体概念与数据表的映射是指存在一个关系R,对于所有实体概念e,都有一个二元组(Ge<Ve,Ee>,A2S)与之对应;形式化表达为:R:e→(Ge<Ve,Ee>,A2S)。
数据融合最初是由于军事作战需求而提出,为使多种作战设备上的多传感器的数据信息能够协调、整合与集成而形成的一种数据横向综合信息处理技术。因而,国内早期研究数据融合的研究者,从技术的观点,把数据融合理解为一种技术思路,视为多源信息协调处理技术的总称。随着计算机科学技术的迅猛发展,数据融合概念已经不再局限于多传感器数据融合技术领域,概念的覆盖领域进一步扩充。在计算机领域,随着硬件设备性能和软件服务能力的不断提升,面对多源数据系统的数据融合,数据集成的技术手段不再缺乏。
目前大部分的数据融合的研究主要集中于针对数据对象或实例的融合。在实体识别方面,针对关系型数据库大部分研究都是基于数据的记录(元组)进行识别和匹配的。但是基于这种情况的方法和模型存在以下不足:基于数据的记录(元组)进行识别,只能识别出表与表之间重叠部分的实体概念,无法在融合后的数据中挖掘出更为复杂的实体概念。
发明内容
为解决上述技术问题,本发明的第一目的在于:提供一种可以挖掘复杂实体概念的大数据的融合方法。
本发明的第二目的在于:提供一种可以挖掘复杂实体概念的大数据的融合系统。
本发明的第三目的在于:提供一种可以挖掘复杂实体概念的大数据的融合装置。
本发明所采用的第一种技术方案是:
一种大数据的融合方法,包括以下步骤:
根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;
通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
进一步,所述根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图,这一步骤包括:
根据实体概念与原始数据的映射关系,将原始数据结构图中描述同一实体概念的数据进行链接,得到实体概念表;
建立以实体概念表作为节点的图;
将业务逻辑图中的关系映射到以实体概念表作为节点的图中;
将存在于原始数据结构图中但不存在于业务逻辑图中的关系映射到以实体概念表作为节点的图,得到数据融合图。
进一步,所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤包括:
采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图;
通过中心连通子图判断算法,在数据融合图的子图中筛选出中心连通子图;
根据筛选出的中心连通子图,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
进一步,所述采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图的步骤具体为:用DFS算法枚举数据融合图中所有的子图。
进一步,所述通过中心连通子图判断算法,在数据融合图的子图中筛选出中心连通子图,这一步骤包括:
遍历子图的中心节点的所有链接节点,并在访问后对该链接节点进行标记;
遍历子图中所有的节点,若存在一个没有标记的节点,则判定该子图不是中心连通子图,反之,则是中心连通子图。
进一步,所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤还包括:
采用迭代数据融合算法,对复杂实体概念进行迭代,得到更多复杂实体概念。
进一步,所述迭代数据融合算法包括以下步骤:
将当前的复杂实体概念加入到当前的实体概念与原始数据的映射关系中,得到新的映射关系;
将当前的数据融合图作为新的业务逻辑图;
将当前复杂实体概念所对应的数据作为新的数据结构图;
根据新的映射关系,将新的数据结构图中描述同一实体概念的数据进行链接,得到复杂实体概念表;
建立以复杂实体概念表为节点的图;
将新的业务逻辑图中的关系映射到以复杂实体概念表为节点的图中;
将存在于新的数据结构图中但不存在于新的业务逻辑图中的关系映射到以复杂实体概念表作为节点的图中,得到新的数据融合图;
采用中心连通子图搜寻算法,寻找出新的数据融合图中所有的子图;
通过中心连通子图判断算法,在新的数据融合图的子图中筛选出新的中心连通子图;
根据新的中心连通子图,得到新的复杂实体概念以及描述新的复杂实体概念的数据结构图集合;
根据需要采用迭代数据融合算法,对新的复杂实体概念进行迭代。
本发明所采用的第二种技术方案是:
一种大数据的融合系统,包括:
数据重构模块,用于根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;
复杂实体概念识别模块,用于通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
本发明所采用的第三种技术方案是:
一种大数据的融合装置,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,以用于:
根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;
通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
进一步,所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤包括:
采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图;
通过中心连通子图判断算法,在数据融合图的子图中筛选出中心连通子图;
根据筛选出的中心连通子图,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
本发明方法的有益效果是:包括根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;和通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合的步骤,以图为核心,增设了通过中心连通子图法对数据融合图进行识别的步骤,使得数据融合方法可以将复杂实体概念以及描述复杂实体概念的潜在数据结构从数据融合图中挖掘出来,克服了现有技术不能挖掘更复杂的实体概念的缺点。
本发明系统的有益效果是:包括数据重构模块和复杂实体概念识别模块,增设了数据重构模块,使得数据融合系统可以得到数据融合图,增设了复杂实体概念识别模块,使得数据融合系统可以从数据融合图中挖掘出复杂实体概念以及描述复杂实体概念的潜在数据结构,克服了现有技术不能挖掘更复杂的实体概念的缺点。
本发明装置的有益效果是:包括存储器和处理器,处理器通过执行存储器中的程序,以图为核心,通过中心连通子图法对数据融合图进行识别,使得数据融合方法可以将复杂实体概念以及描述复杂实体概念的潜在数据结构从数据融合图中挖掘出来,克服了现有技术不能挖掘更复杂的实体概念的缺点。
附图说明
图1是本发明的流程图;
图2是本发明实施例1的流程示意图;
图3是本发明实施例2简单实体概念识别阶段的流程图;
图4是本发明实施例2实体概念数据链接过程的示意图;
图5是本发明实施例2生成数据融合图过程的示意图;
图6是本发明实施例2复杂实体概念识别阶段的流程图;
图7是本发明实施例2从数据融合图识别复杂实体概念过程的示意图。
具体实施方式
参照图1,一种大数据的融合方法,包括以下步骤:
根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;
通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
进一步作为优选的实施方式,所述根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图,这一步骤包括:
根据实体概念与原始数据的映射关系,将原始数据结构图中描述同一实体概念的数据进行链接,得到实体概念表;
建立以实体概念表作为节点的图;
将业务逻辑图中的关系映射到以实体概念表作为节点的图中;
将存在于原始数据结构图中但不存在于业务逻辑图中的关系映射到以实体概念表作为节点的图,得到数据融合图。
进一步作为优选的实施方式,所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤包括:
采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图;
通过中心连通子图判断算法,在数据融合图的子图中筛选出中心连通子图;
根据筛选出的中心连通子图,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
进一步作为优选的实施方式,所述采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图的步骤具体为:用DFS算法枚举数据融合图中所有的子图。
进一步作为优选的实施方式,所述通过中心连通子图判断算法,在数据融合图的子图中筛选出中心连通子图,这一步骤包括:
遍历子图的中心节点的所有链接节点,并在访问后对该链接节点进行标记;
遍历子图中所有的节点,若存在一个没有标记的节点,则判定该子图不是中心连通子图,反之,则是中心连通子图。
进一步作为优选的实施方式,所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤还包括:
采用迭代数据融合算法,对复杂实体概念进行迭代,得到更多复杂实体概念。
进一步作为优选的实施方式,所述迭代数据融合算法包括以下步骤:
将当前的复杂实体概念加入到当前的实体概念与原始数据的映射关系中,得到新的映射关系;
将当前的数据融合图作为新的业务逻辑图;
将当前复杂实体概念所对应的数据作为新的数据结构图;
根据新的映射关系,将新的数据结构图中描述同一实体概念的数据进行链接,得到复杂实体概念表;
建立以复杂实体概念表为节点的图;
将新的业务逻辑图中的关系映射到以复杂实体概念表为节点的图中;
将存在于新的数据结构图中但不存在于新的业务逻辑图中的关系映射到以复杂实体概念表作为节点的图中,得到新的数据融合图;
采用中心连通子图搜寻算法,寻找出新的数据融合图中所有的子图;
通过中心连通子图判断算法,在新的数据融合图的子图中筛选出新的中心连通子图;
根据新的中心连通子图,得到新的复杂实体概念以及描述新的复杂实体概念的数据结构图集合;
根据需要采用迭代数据融合算法,对新的复杂实体概念进行迭代。
一种大数据的融合系统,包括:
数据重构模块,用于根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;
复杂实体概念识别模块,用于通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
一种大数据的融合装置,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,以用于:
根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;
通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
进一步作为优选的实施方式,所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤包括:
采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图;
通过中心连通子图判断算法,在数据融合图的子图中筛选出中心连通子图;
根据筛选出的中心连通子图,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
实施例1
参照图2,图2中的圆圈表示节点,节点代表业务逻辑图中的实体概念或者数据库中的数据表。而图中链接节点的边表示关系,如边a或b表示实体概念之间的关系,如边u1和u2表示原始数据结构图中两个数据表之间的关系,有些链接关系,在进行数据融合前已经存在于原始数据结构图或者业务逻辑图中,其中子图P1为业务逻辑图,子图P2为数据结构图。
为使业务逻辑上实体概念的关系与原始数据结构图中的关系对应起来,简单实体概念识别的过程中,需要构建一种映射f,将业务上的实体概念映射为原始数据结构图中数据表与数据表之间的关系,如子图P3和P4之间的边t1、t2和t3。实体概念AE可能映射到数据结构上A′和A″两个数据表,将这两个数据表中描述实体概念AE的数据链接起来(边P),在具体操作中是将A′和A″两个数据表描述实体概念的数据汇集存入实体概念表节点A。完成这种映射关系即完成实体概念的数据链接。在已知的业务环境下,特别是跨数据源情景下,理解实体概念,针对业务逻辑上实体概念之间的关系,将业务逻辑图中将边a、b和c映射到在数据融合模型中,即如子图P5中新增的边a′、b′和c′,构成数据融合图,完成简单实体概念识别。
为了识别出业务逻辑中复杂实体概念,以及描述该实体概念的数据结构,本实施例需要对数据融合图结构进行分析,如子图P7中实体概念A、B和C之间是一种特殊的图结构,根据这种图的结构特点,将以实体概念表A、B和C为节点的子图作为复杂实体概念所映射的数据结构,其节点中的数据为复杂实体概念的潜在数据映射,从而找出复杂实体概念及其映射的数据结构。
实施例2
本实施例中的数据融合方法包括以下步骤:
简单实体概念识别阶段:将实体概念与原始数据的映射关系R、原始数据结构图Gs和业务逻辑图Gb进行重构,得到数据融合图Gfusion;
复杂实体概念识别阶段:通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合GcomplexE。
参照图3,简单实体概念识别阶段包括以下步骤:
A1、根据实体概念与原始数据的映射关系R,将原始数据结构图Data中描述同一实体概念的数据进行链接,得到实体概念表;
根据实体概念与数据表的映射关系R,通过对一个实体概念对应的二元组(Ge<Ve,Ee>,A2S)进行分析,将A2S的二元组(attr,S)进行数据重组,实现实体概念的数据链接。即如图4所示,将数据表(节点)T1,T2,T3,T4,T5,T6和T7中描述实体概念的数据项链接起来,形成实体概念表Te。以实体概念e的属性attr1为例,在映射关系R中,有A2S的二元组(attr1,S1),其中S1={T1.S3,T2.S1,T5.S8}。因此,将数据链接后,实体概念属性attr1的数据表现形式为T1.S3∪T2.S1∪T5.S8。将所有实体概念的属性进行数据链接后,形成一个新的表节点e,对应数据表Te,从而构建完整描述实体概念e的数据结构,即实体概念表。
A2、建立以实体概念表作为节点的图;
A3、将业务逻辑图中的关系映射到以实体概念表作为节点的图中;
A4、将存在于原始数据结构图中但不存在于业务逻辑图中的关系映射到以实体概念表作为节点的图,得到数据融合图。
简单实体概念的数据链接的过程已经建立了实体概念与数据结构的映射,每一个实体概念表节点包括了描述实体概念的底层数据。但是实体概念表节点之间的关系是缺失的。实体概念表节点的关系来自两个方面:
1)业务逻辑图中实体概念之间的关系;
2)数据结构图中数据表之间的关系。因此,为了建立业务逻辑图到数据结构图的关系f,本实施例以实体概念表Te为节点构建数据融合图Gfusion<Vfusion,Efusion>。从而建立了实体概念与数据结构图的映射关系,实现业务逻辑图到数据结构图的映射,输出了一个信息更丰富、完整的图Gfusion<Vfusion,Efusion>,如图5所示,图5中数据结构图的圆圈代表数据表节点,其中圆圈之间的边代表数据表间的外键引用关系。业务逻辑图的圆圈代表业务逻辑图中的实体概念节点,其中圆圈之间的边是代表实体概念间的关联关系;在数据融合图中的圆圈代表实体概念表节点,此节点是通过对实体概念进行数据链接后生成的,是一个实体概念数据表,如图5中实体概念Vb1映射到实体概念表节点Vf1,而Vf1表节点的内容由中心连通子图Gc1和Gc2数据链接而成。同理,Vf3表节点的内容由中心连通子图Gc3数据链接而成。数据融合图的边代表实体概念表之间的外键引用关系。数据融合图的形成过程有两步:
1)将业务逻辑图中实体概念节点之间的关联关系映射到数据融合图中。如图5所示,业务逻辑图中存在关系(Vb1,Vb2),映射到数据融合图中为边a。
2)将数据结构图中存在而在业务逻辑图中不存在的关系映射到数据融合图中。如图5所示,数据结构图中存在边b,但业务逻辑图中Vb1和Vb3不存在关联关系。因此需要在数据融合图中将边b映射为r。
参照图6,复杂实体概念识别阶段包括以下步骤:
B1、采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图;
B2、通过中心连通子图判断算法,在所得的子图中筛选出中心连通子图;
B3、根据筛选出的中心连通子图得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
B4、通过按需迭代数据融合算法,对所得的复杂实体概念进行迭代融合,得到更多的复杂实体概念。
复杂实体概念也是一种实体概念,因此,在底层数据结构中的表现形式应是一个中心连通子图。由于复杂实体概念是由其他实体概念所解释的,所以复杂实体概念的侧面信息是其他实体概念。因此复杂实体概念在数据融合图中的映射图也是一个中心连通子图。
为了搜寻出复杂实体概念,我们使用中心连通子图搜寻算法,在图Gfusion<Vfusion,Efusion>中找出所有中心连通子图的Gcenter。求出图Gfusion(Vfusion,Efusion)中的所有中心连通子图的集合作为复杂实体概念的数据结构图集合GcomplexE。
参照图7,通过中心连通子图搜寻算法计算后,获得以Vf1,Vf2,Vf3为节点的中心连通子图。但是由于实体概念是中心连通子图的充分不必要条件。因此,以Vf1,Vf2,Vf3为节点的中心连通子图可能是Vb1的映射图。
当识别出描述复杂实体概念的数据结构图集合GcomplexE后,为了识别复杂实体概念,我们引入用户逻辑。本实施例将可能描述复杂实体概念的数据结构挖掘出来,将数据结构转化成实体概念的属性及关系,按照节点对应属性、边对应关系整理后提交给用户。用户根据其业务逻辑,分析这些属性与关系,识别出复杂实体概念。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种大数据的融合方法,其特征在于:包括以下步骤:
根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;
通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合;
所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤还包括:
采用迭代数据融合算法,对复杂实体概念进行迭代,得到更多复杂实体概念;
所述迭代数据融合算法包括以下步骤:
将当前的复杂实体概念加入到当前的实体概念与原始数据的映射关系中,得到新的映射关系;
将当前的数据融合图作为新的业务逻辑图;
将当前复杂实体概念所对应的数据作为新的数据结构图;
根据新的映射关系,将新的数据结构图中描述同一实体概念的数据进行链接,得到复杂实体概念表;
建立以复杂实体概念表为节点的图;
将新的业务逻辑图中的关系映射到以复杂实体概念表为节点的图中;
将存在于新的数据结构图中但不存在于新的业务逻辑图中的关系映射到以复杂实体概念表作为节点的图中,得到新的数据融合图;
采用中心连通子图搜寻算法,寻找出新的数据融合图中所有的子图;
通过中心连通子图判断算法,在新的数据融合图的子图中筛选出新的中心连通子图;
根据新的中心连通子图,得到新的复杂实体概念以及描述新的复杂实体概念的数据结构图集合;
根据需要采用迭代数据融合算法,对新的复杂实体概念进行迭代。
2.根据权利要求1所述的一种大数据的融合方法,其特征在于:所述根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图,这一步骤包括:
根据实体概念与原始数据的映射关系,将原始数据结构图中描述同一实体概念的数据进行链接,得到实体概念表;
建立以实体概念表作为节点的图;
将业务逻辑图中的关系映射到以实体概念表作为节点的图中;
将存在于原始数据结构图中但不存在于业务逻辑图中的关系映射到以实体概念表作为节点的图,得到数据融合图。
3.根据权利要求1所述的一种大数据的融合方法,其特征在于:所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤包括:
采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图;
通过中心连通子图判断算法,在数据融合图的子图中筛选出中心连通子图;
根据筛选出的中心连通子图,得到复杂实体概念以及描述复杂实体概念的数据结构图集合。
4.根据权利要求3所述的一种大数据的融合方法,其特征在于,所述采用中心连通子图搜寻算法,寻找出数据融合图中所有的子图的步骤具体为:用DFS算法枚举数据融合图中所有的子图。
5.根据权利要求3所述的一种大数据的融合方法,其特征在于,所述通过中心连通子图判断算法,在数据融合图的子图中筛选出中心连通子图,这一步骤包括:
遍历子图的中心节点的所有链接节点,并在访问后对该链接节点进行标记;
遍历子图中所有的节点,若存在一个没有标记的节点,则判定该子图不是中心连通子图,反之,则是中心连通子图。
6.一种大数据的融合系统,其特征在于,包括:
数据重构模块,用于根据实体概念与原始数据的映射关系、原始数据结构图和业务逻辑图,构建数据融合图;
复杂实体概念识别模块,用于通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合;
所述通过中心联通子图法对数据融合图中的复杂实体概念进行识别,得到复杂实体概念以及描述复杂实体概念的数据结构图集合,这一步骤还包括:
采用迭代数据融合算法,对复杂实体概念进行迭代,得到更多复杂实体概念;
所述迭代数据融合算法包括以下步骤:
将当前的复杂实体概念加入到当前的实体概念与原始数据的映射关系中,得到新的映射关系;
将当前的数据融合图作为新的业务逻辑图;
将当前复杂实体概念所对应的数据作为新的数据结构图;
根据新的映射关系,将新的数据结构图中描述同一实体概念的数据进行链接,得到复杂实体概念表;
建立以复杂实体概念表为节点的图;
将新的业务逻辑图中的关系映射到以复杂实体概念表为节点的图中;
将存在于新的数据结构图中但不存在于新的业务逻辑图中的关系映射到以复杂实体概念表作为节点的图中,得到新的数据融合图;
采用中心连通子图搜寻算法,寻找出新的数据融合图中所有的子图;
通过中心连通子图判断算法,在新的数据融合图的子图中筛选出新的中心连通子图;
根据新的中心连通子图,得到新的复杂实体概念以及描述新的复杂实体概念的数据结构图集合;
根据需要采用迭代数据融合算法,对新的复杂实体概念进行迭代。
7.一种大数据的融合装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,以用于实现如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710880855.1A CN107886107B (zh) | 2017-09-26 | 2017-09-26 | 一种大数据的融合方法、系统和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710880855.1A CN107886107B (zh) | 2017-09-26 | 2017-09-26 | 一种大数据的融合方法、系统和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107886107A CN107886107A (zh) | 2018-04-06 |
CN107886107B true CN107886107B (zh) | 2021-03-30 |
Family
ID=61780846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710880855.1A Active CN107886107B (zh) | 2017-09-26 | 2017-09-26 | 一种大数据的融合方法、系统和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886107B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210103827A1 (en) * | 2019-10-07 | 2021-04-08 | International Business Machines Corporation | Ontology-based data storage for distributed knowledge bases |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573039A (zh) * | 2015-01-19 | 2015-04-29 | 北京航天福道高技术股份有限公司 | 一种关系数据库的关键词查询方法 |
CN106529323A (zh) * | 2016-01-21 | 2017-03-22 | 华南师范大学 | 一种多级安全模型访问控制数据融合方法 |
CN107133257A (zh) * | 2017-03-21 | 2017-09-05 | 华南师范大学 | 一种基于中心连通子图的相似实体识别方法及系统 |
CN107168989A (zh) * | 2017-03-27 | 2017-09-15 | 华南师范大学 | 一种多源异构割裂结构化数据转化方法及系统 |
CN107180024A (zh) * | 2017-03-27 | 2017-09-19 | 华南师范大学 | 一种中心连通子图的多源异构数据实体识别方法及系统 |
-
2017
- 2017-09-26 CN CN201710880855.1A patent/CN107886107B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573039A (zh) * | 2015-01-19 | 2015-04-29 | 北京航天福道高技术股份有限公司 | 一种关系数据库的关键词查询方法 |
CN106529323A (zh) * | 2016-01-21 | 2017-03-22 | 华南师范大学 | 一种多级安全模型访问控制数据融合方法 |
CN107133257A (zh) * | 2017-03-21 | 2017-09-05 | 华南师范大学 | 一种基于中心连通子图的相似实体识别方法及系统 |
CN107168989A (zh) * | 2017-03-27 | 2017-09-15 | 华南师范大学 | 一种多源异构割裂结构化数据转化方法及系统 |
CN107180024A (zh) * | 2017-03-27 | 2017-09-19 | 华南师范大学 | 一种中心连通子图的多源异构数据实体识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107886107A (zh) | 2018-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Floriani et al. | Morse complexes for shape segmentation and homological analysis: discrete models and algorithms | |
US11693833B2 (en) | Computer-implemented method for storing unlimited amount of data as a mind map in relational database systems | |
US10176245B2 (en) | Semantic query by example | |
CN111506950B (zh) | Bim结构变换增量信息的生成和存储系统和方法 | |
CN111563103B (zh) | 一种用于数据血缘检测方法和系统 | |
Athanasiou et al. | Big POI data integration with Linked Data technologies. | |
WO2022056955A1 (zh) | 一种基于不确定图的社区发现方法 | |
CN110321446B (zh) | 相关数据推荐方法、装置、计算机设备及存储介质 | |
Alyas et al. | Query Optimization Framework for Graph Database in Cloud Dew Environment | |
CN107886107B (zh) | 一种大数据的融合方法、系统和装置 | |
Petermann et al. | Graph mining for complex data analytics | |
US11422984B2 (en) | Clustering within database data models | |
CN116628228A (zh) | 一种rpa流程推荐方法以及计算机可读存储介质 | |
Johnpaul et al. | A Cypher query based NoSQL data mining on protein datasets using Neo4j graph database | |
CN108595588B (zh) | 一种科学数据存储关联方法 | |
De Floriani et al. | A semantic web environment for digital shapes understanding | |
Pfaltz | Finding the Mule in the Network | |
Mou et al. | Visflow: A visual database integration and workflow querying system | |
CN114706558A (zh) | 基于K-Truss的复杂软件关键模块识别方法 | |
Ren et al. | Joint graph layouts for visualizing collections of segmented meshes | |
CN109086373B (zh) | 一种构建公平的链接预测评估系统的方法 | |
Sharma | Design of formal query languages and schemas for graph databases | |
Hamzei et al. | Deriving place graphs from spatial databases. | |
Verbeek et al. | Visualizing state spaces with Petri nets | |
Lehmann et al. | The geoknow handbook |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |