CN106909689A - 一种数据融合方法及装置 - Google Patents
一种数据融合方法及装置 Download PDFInfo
- Publication number
- CN106909689A CN106909689A CN201710131605.8A CN201710131605A CN106909689A CN 106909689 A CN106909689 A CN 106909689A CN 201710131605 A CN201710131605 A CN 201710131605A CN 106909689 A CN106909689 A CN 106909689A
- Authority
- CN
- China
- Prior art keywords
- field
- data
- major key
- fused
- aiming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据融合方法及装置,预先构建至少一组关联字段主键,包括:获取目标业务对象的至少两个待融合数据;针对于每一个所述待融合数据,均执行A1至A2:A1:确定所述待融合数据对应的至少一个参考字段主键;A2:根据确定的每一个所述参考字段主键,将所述待融合数据拆分为至少一个字段,其中,所述至少一个参考字段主键和所述至少一个字段一一对应;根据所述至少一组关联字段主键,从确定的至少两个参考字段主键中确定出至少两个目标字段主键,其中,至少两个目标字段主键中的任意两个目标字段主键均不在同一组所述关联字段主键中;利用每一个目标字段主键分别对应的字段组合成融合数据。本方案能够降低数据冗余。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种数据融合方法及装置。
背景技术
随着信息技术与互联网的不断发展,同一业务对象(如企事业单位)在不同组织(如政府部门)中均可能会生成如图像、视频、音频、文本等大规模的数据。与此同时,为能够更加全面的实现对同一业务对象的监管,如何对各个组织中存储的同一业务对象的数据进行融合已成为目前比较关注的问题。
目前,在对同一业务对象的数据进行融合时,主要是通过将各个组织中分别存储的有关同一业务对象的数据都集中在一起。
但是,在某些组织中,虽然针对同一业务对象使用的字段主键不同,然而这些字段主键对应的数据却是相同的,因此,如果只是将各个组织中存储的相关数据全部集中在一起,将会造成数据冗余。
发明内容
本发明实施例提供了一种数据融合方法及装置,能够有效降低数据冗余。
第一方面,本发明实施例提供了一种数据融合方法,预先构建至少一组关联字段主键,包括:
获取目标业务对象的至少两个待融合数据;
针对于每一个所述待融合数据,均执行A1至A2:
A1:确定所述待融合数据对应的至少一个参考字段主键;
A2:根据确定的每一个所述参考字段主键,将所述待融合数据拆分为至少一个字段,其中,所述至少一个参考字段主键和所述至少一个字段一一对应;
根据所述至少一组关联字段主键,从确定的至少两个所述参考字段主键中确定出至少两个目标字段主键,其中,所述至少两个目标字段主键中的任意两个所述目标字段主键均不在同一组所述关联字段主键中;
利用每一个所述目标字段主键分别对应的字段组合成融合数据。
优选地,
在所述根据所述至少一组关联字段主键,从确定的至少两个所述参考字段主键中确定出至少两个目标字段主键之后,进一步包括:
检测每一个所述目标字段主键分别对应的字段是否为结构化数据,如果是,则执行N1,否则,执行N2;
N1:确定所述字段为第一字段;
N2:确定所述字段为第二字段;
确定所述第二字段的第一数量;
所述利用每一个所述目标字段主键分别对应的字段组合成融合数据,包括:
当所述第一数量为0时,利用各个所述第一字段组合成融合数据。
优选地,
进一步包括:
所述确定所述第二字段的第一数量,进一步包括:确定所述第一字段的第二数量;
所述利用每一个所述目标字段主键分别对应的字段组合成融合数据,包括:
当所述第二数量为0时,确定各个所述第二字段分别对应的至少一个第一索引信息;
利用各个所述第二字段分别对应的所述至少一个第一索引信息和对应的目标字段主键组合成融合数据。
优选地,
进一步包括:
所述确定所述第二字段的第一数量,进一步包括:确定所述第一字段的第二数量;
所述利用每一个所述目标字段主键分别对应的字段组合成融合数据,包括:
当所述第一数量不小于1且所述第二数量不小于1时,确定各个所述第二字段分别对应的至少一个第二索引信息;
利用所述至少一个所述第一字段、各个所述第二字段分别对应的所述至少一个第二索引信息及对应的目标字段主键组合成融合数据。
优选地,
进一步包括:
根据预设的至少一种数据转换规则,分别将每一个所述目标字段主键对应的字段转换为目标字段;
所述利用每一个所述目标字段主键分别对应的字段组合成融合数据,包括:
利用各个所述目标字段组合成融合数据。
优选地,
在所述利用每一个所述目标字段主键分别对应的字段组合成融合数据之后,进一步包括:
根据预设的至少一种展示模型,对所述融合数据进行展示;其中,所述至少一种展示模型包括关系图、合弦图、力导向图、树状图、列表和时间轴中的任意一种或多种。
第二方面,本发明实施例提供了一种数据融合装置,包括:
构建单元,用于预先构建至少一组关联字段主键;
获取单元,用于获取目标业务对象的至少两个待融合数据;
第一确定单元,用于针对于每一个所述待融合数据,确定所述待融合数据对应的至少一个参考字段主键;
拆分单元,用于根据确定的每一个所述参考字段主键,将所述待融合数据拆分为至少一个字段,其中,所述至少一个参考字段主键和所述至少一个字段一一对应;
第二确定单元,用于根据所述至少一组关联字段主键,从确定的至少两个所述参考字段主键中确定出至少两个目标字段主键,其中,所述至少两个目标字段主键中的任意两个所述目标字段主键均不在同一组所述关联字段主键中;
融合单元,用于利用每一个所述目标字段主键分别对应的字段组合成融合数据。
优选地,
进一步包括:
第三确定单元,用于检测每一个所述目标字段主键分别对应的字段是否为结构化数据,如果是,则确定所述字段为第一字段,否则,确定所述字段为第二字段;
字段数量确定单元,用于确定所述第二字段的第一数量;
所述融合单元,具体用于当所述第一数量为0时,利用各个所述第一字段组合成融合数据。
优选地,
进一步包括:
所述字段数量确定单元,进一步用于确定所述第一字段的第二数量;
所述融合单元,具体用于当所述第二数量为0时,确定各个所述第二字段分别对应的至少一个第一索引信息;利用各个所述第二字段分别对应的所述至少一个第一索引信息和对应的目标字段主键组合成融合数据;
优选地,
所述字段数量确定单元,进一步用于确定所述第一字段的第二数量;
所述融合单元,具体用于当所述第一数量不小于1且所述第二数量不小于1时,确定各个所述第二字段分别对应的至少一个第二索引信息;利用所述至少一个所述第一字段、各个所述第二字段分别对应的所述至少一个第二索引信息及对应的目标字段主键组合成融合数据。
优选地,
进一步包括:
数据展示单元,用于根据预设的至少一种展示模型,对所述融合数据进行展示;其中,所述至少一种展示模型包括关系图、合弦图、力导向图、树状图、列表和时间轴中的任意一种。
本发明实施例提供了一种数据融合方法及装置,首先是构建出至少一组关联字段主键,其中,每一组关联字段主键中包括的各个关联字段主键相互关联,也即表示对应相同的数据,其次在获取目标业务对象对应的各个待融合数据后,通过确定出每一个待融合数据对应的参考字段主键,一方面,可根据预先构建的至少一组关联字段主键,从各个参考字段主键中确定出不再同一组关联字段主键中的各个目标字段主键,另一方面可通过参考字段主键将对应的待融合数据拆分成字段,最终,只将所有目标字段主键分别对应的字段融合在一起,而避免将参考字段主键不同当对应相同数据的字段融合进去,因此,有效降低了数据冗余。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种数据融合方法的流程图;
图2是本发明另一个实施例提供的一种数据融合方法的流程图;
图3是本发明实施例提供的数据融合装置所在设备的硬件架构图;
图4是本发明实施例提供的一种数据融合装置的结构示意图;
图5是本发明另一个实施例提供的一种数据融合装置的结构示意图;
图6是本发明又一个实施例提供的一种数据融合装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据融合方法,该方法可以包括以下步骤:
步骤101:预先构建至少一组关联字段主键。
步骤102:获取目标业务对象的至少两个待融合数据。
步骤103:针对于每一个所述待融合数据,确定所述待融合数据对应的至少一个参考字段主键。
步骤104:根据确定的每一个所述参考字段主键,将所述待融合数据拆分为至少一个字段,其中,所述至少一个参考字段主键和所述至少一个字段一一对应。
步骤105:根据所述至少一组关联字段主键,从确定的至少两个所述参考字段主键中确定出至少两个目标字段主键,其中,所述至少两个目标字段主键中的任意两个所述目标字段主键均不在同一组所述关联字段主键中。
步骤106:利用每一个所述目标字段主键分别对应的字段组合成融合数据。
在本发明实施例中,首先是构建出至少一组关联字段主键,其中,每一组关联字段主键中包括的各个关联字段主键相互关联,也即表示对应相同的数据,其次在获取目标业务对象对应的各个待融合数据后,通过确定出每一个待融合数据对应的参考字段主键,一方面,可根据预先构建的至少一组关联字段主键,从各个参考字段主键中确定出不再同一组关联字段主键中的各个目标字段主键,另一方面可通过参考字段主键将对应的待融合数据拆分成字段,最终,只将所有目标字段主键分别对应的字段融合在一起,而避免将参考字段主键不同当对应相同数据的字段融合进去,因此,有效降低了数据冗余。
在本发明一个实施例中,在所述步骤105之后,进一步包括:检测每一个所述目标字段主键分别对应的字段是否为结构化数据,如果是,则执行N1,否则,执行N2;
N1:确定所述字段为第一字段;
N2:确定所述字段为第二字段;
确定所述第二字段的第一数量;
所述步骤106的具体实施方式包括:当所述第一数量为0时,利用各个所述第一字段组合成融合数据。
在本发明实施例中,每个字段包含一个字段主键及该字段主键对应的数据,如,字段a(如该字段为工商局的数据库表格中的待融合数据拆分而来)中包含字段主键“企业注册日期”及“2012/9/3/08:00”,其中,“2012/9/3/08:00”为结构化数据;再如,字段b(如该字段为税务局的数据库表格中的待融合数据拆分而来)中包含字段主键“企业缴税金额”及“5万元”,其中数据“5万元”为结构化数据。由于第二字段的数量为0,字段a和字段b为非关联字段,且如果每个字段均对应一列,那么最终组合而成的融合数据即为字段a和字段b组成的两列。
在本发明一个实施例中,所述确定所述第二字段的第一数量,进一步包括:确定所述第一字段的第二数量;所述步骤106的具体实施方式包括:当所述第二数量为0时,确定各个所述第二字段分别对应的至少一个第一索引信息;利用各个所述第二字段分别对应的所述至少一个第一索引信息和对应的目标字段主键组合成融合数据。
例如,字段c(如该字段来源于互联网数据)中包含字段主键“企业信用”及对应的一段播放视频,其中该播放视频为非结构化数据;再如字段d(如该字段来源于某委办局)中包含字段主键“企业新闻”及对应的一张图像,其中该图像为非结构化数据。由于第一字段的数量为0,字段c和字段d为非关联的字段,那么最终在进行数据融合时,应分别针对字段c中的播放视频及字段d中的图像分别提取出至少一个索引信息,例如,针对播放视频共提取出两个索引信息,并分别为“视频提交人:张某某”和“提交日期:2013/1/1/08:00”,针对图像共提取出一个索引信息,为“图像提交人:李某”,这样,最终组合而成的融合数据,即为“企业信用”与对应的“视频提交人:张某某”、“提交日期:2013/1/1/08:00”,以及“企业新闻”与对应的“图像提交人:李某”。
在本发明一个实施例中,所述确定所述第二字段的第一数量,进一步包括:确定所述第一字段的第二数量;所述步骤106的具体实施方式包括:当所述第一数量不小于1且所述第二数量不小于1时,确定各个所述第二字段分别对应的至少一个第二索引信息;利用所述至少一个所述第一字段、各个所述第二字段分别对应的所述至少一个第二索引信息及对应的目标字段主键组合成融合数据。
例如,以上述实施例中的字段a及字段c为例,在进行数据融合时,由于字段a属于结构化数据,而字段c属于非结构化数据,也即第一字段的数量为1,第二字段的数量为1,因此,应先将字段c按照上述实施例提取出索引信息,那么在本发明实施例中,最终由字段a,以及字段主键“企业信用”与对应的两个索引信息“视频提交人:张某某”、“提交日期:2013/1/1/08:00”组合而成。其中,字段a及字段c也为非关联的字段,且可把字段a作为融合数据的第1列(第一行为企业注册日期、第二行为2012/9/3/08:00),而将企业信用作为第2列的第一行,视频提交人:张某某作为第2列的第二行,提交日期:2013/1/1/08:00作为第2列的第三行。针对多个字段融合,可依次类推…
需要说明的是,融合数据的组成形式并不局限于上述各个实施例,还可包括其他多种可以实现的组成形式。
在本发明一个实施例中,为了能够使数据的格式统一,进一步包括:根据预设的至少一种数据转换规则,分别将每一个所述目标字段主键对应的字段转换为目标字段;所述步骤106的具体实施方式可包括:利用各个所述目标字段组合成融合数据。
例如,针对日期设置的数据转换规则为年/月/日/时分:秒毫秒,假设拆分得到的字段e中记录的企业注册日期为00:00/2/3/2016,字段f中记录的企业缴税日期为2016/3/1/09:00,那么为使融合数据中所有日期的格式统一,则需将字段e中记录的企业注册日期按照设置的标准:年/月/日/时分:秒毫秒,转换为2016/3/2/00:00,由于字段f中记录的日期格式与规则相同,因此,无需在进行转换。之后,由完成转换的字段e与字段f组合成融合数据(字段e与字段f为非关联的字段)。那么针对其他的各个字段中记录的与标准不相同的日期,与字段e的转换原理相同,不再赘述。
再如,针对性别设置的数据转换规则为M(表示男)、F(表示女),假设拆分得到的字段g中记录的企业合法人的性别用0(表示男)、1表示(表示女),字段h中记录的企业纳税人的性别用M(表示男)、F(表示女)表示,那么为使融合数据中所有性别表示统一,则需按照设置的标准M和F,将字段g中记录的企业合法人的性别0转换为M,将性别1转换为F,但是由于字段h中记录的性别表示与规则相同,因此,无需在进行转换。之后,由完成转换的字段g及符合标准的字段h组合成融合数据(字段g和字段h为非关联的字段)。
在本发明一个实施例中,在所述步骤106之后,可进一步包括:根据预设的至少一种展示模型,对所述融合数据进行展示;其中,所述至少一种展示模型包括关系图、合弦图、力导向图、树状图、列表和时间轴中的任意一种。
在本发明实施例中,在将各个待融合数据实现融合之后,可向每一个组织内部人员(如政府管理人员)提供一个数据检索系统,如,政府管理人员可通过输入关键字,如企业名称、法人姓名、企业注册号以及组织机构代码等以列表的形式将某企业的所有融合数据进行展示。例如,针对某企业的股东、投资、高管、法院判决公告、历史股东等维度的文字信息可以关系图、合弦图、力导向图、树状图等关联图的形式进行展示,而且还可实现不同关联图之间的转换。再如,针对企业的荣誉事件、财资事件、违规事件、经营事件、资本运作事件等类列,系统可对每个类别的事件设立一个时间轴,最终将企业的事件以在时间轴上散点的形式展示。
除此之外,针对目标业务对象的融合数据的展示模型,并不局限于上述实施例中提到的关系图、合弦图、力导向图、树状图、列表和时间轴,还可包括其他多种展示模型。
下面将以目标业务对象为企业A、企业A共包括3个待融合数据为例,详细说明本发明实施例提供的一种数据融合方法,如图2所示,该方法可以包括以下步骤:
步骤201:预先构建N(≥1)组关联字段主键。
预先构建出N(≥1)组关联字段主键,那么无论是本次针对企业A的数据进行融合,还是之后针对其它业务对象的数据进行融合,均可以利用这N组关联字段主键。可见,N的值应不宜过小,且每一组中的关联字段主键的数量也不宜太小。
在本发明实施例中,例如,共构建了3组关联字段主键,且这3组关联字段主键可以囊括企业A的相关待融合数据的所有可能关联的字段主键,其中,第1组关联字段主键包括X、M、P;第2组关联字段主键包括R、Z;第3组关联字段主键包括K、L。
步骤202:分别获取企业A的待融合数据1、待融合数据2及待融合数据3。
例如,待融合数据1的来源可能是工商局、税务局、住建局、环保局及食药监局中的任意一个委办局,那么,如利用ETL(Extract-Transform-Load,数据抽取工具)工具从相应委办局对应的数据源中抽取出有关企业A的所有待融合数据,而且还可通过对抽取出的待融合数据进行简单的清洗加工,以对一些异常数据进行检测与剔除,最后将剩余得到的待融合数据1加载至预先定义的数据仓库模型中。
再如,待融合数据2的来源可能是类似党政机关、行政机构、司法机关等数据保密性要求较高的部门,此时,可通过与相应的政务外网进行连接,使用特定的安全系统接口采集相关部门中的待融合数据。而且还可通过安全系统接口实现待融合数据的更新及待融合数据质量校验的功能。
又如,待融合数据3的来源可能是互联网,此时可借助大型互联网搜索引擎,通过爬取关键字的方式实现待融合数据3的获取。
步骤203:确定待融合数据1对应的参考字段主键为X、Y、Z,待融合数据2对应M、N,待融合数据3对应P、Q、R。
步骤204:根据X、Y、Z,将待融合数据1拆分为字段x、y及z,根据M、N,将待融合数据2拆分为字段m及n,根据P、Q、R,将待融合数据3拆分为字段p、q及r。
以待融合数据1为例,待融合数据1中包括X、Y、Z共三个参考字段主键,其中,每一个参考字段主键均会对应一部分数据,例如,参考字段主键X为“缴税日期”,相对应的数据可能包括“2016/1/1/08:00”、“2017/1/1/08:00”,则将待融合数据1拆分出的字段x(视为一列)中的这一列的第一行为缴税日期,第二行和第三行分别为2016/1/1/08:00和2017/1/1/08:00。
步骤205:根据构建的N组关联字段主键,确定出不再同一组的5个目标字段主键X、Y、Z、N及Q。
根据步骤201中的3组关联字段主键,可以得出,待融合数据1中的参考字段主键X、待融合数据2中的参考字段主键M及待融合数据3中的参考字段主键P是关联字段主键,也就是说,这三个参考字段主键对应的数据是相同的,根据上述步骤204,对应的均是2016/1/1/08:00和2017/1/1/08:00这两个缴税日期,因此,只需保留这三个参考字段主键中的任意一个即可,但具体是保留哪一个,可在根据实际需要在上述步骤201中设置出来。
另外,待融合数据1中的参考字段主键Z与待融合数据3中的参考字段主键R是关联的,因此与上述方法相同,保留其中一个。
在本发明实施例中,最终在参考字段主键X、M、P中保留的是X,在参考字段主键Z和P中保留的是Z,因此最后确定出的目标字段主键为待融合数据1中的X、Y、Z,待融合数据2中的N及待融合数据3中的Q。
步骤206:检测出字段x、y及z均为结构化数据,字段n及q为非结构化数据。
在本发明实施例中,是以既包括结构化数据以及非结构化数据为例。
步骤207:确定字段n对应的两个索引信息,字段q对应的一个索引信息。
针对字段n及字段q中分别对应的非结构化数据,并不能直接进行融合,而是需要通过在每一个非结构化数据中抽取出相对应的索引要素。
例如,针对字段n中抽取的两个索引信息分别是“提交人:王某”及“提交日期2016/1/1/08:00”。
另外,为保证数据格式的统一,还可预先针对日期、性别等其它的数据转换规则,以将字段x、字段y、字段z中的相应数据,以及字段n及字段q分别对应的索引信息进行相应的数据转换。
步骤208:将字段x、y、z,字段n的两个索引信息和X,字段q的一个索引信息及Q组合成融合数据。
在本发明实施例中,以字段x、字段y、字段z分别对应一列为例,那么在进行最终的数据融合时,可预先设置一个融合数据表,然后将字段x、字段y、字段z作为该融合数据表的前三列,且每一列的第一行分别为目标字段主键X、Y、Z,每一列的第二行、第三行…放置X、Y、Z分别对应的数据,那么第4列的第一行可为目标字段主键N,第4列的第二行和第三行可分别放置字段n的两个索引信息“提交人:王某”及“提交日期2016/1/1/08:00”,第5列的第一行可为目标字段主键Q,第5列的第二行可为Q对应的一个索引信息。
如图3、图4所示,本发明实施例提供了一种一种数据融合装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的数据融合装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种数据融合装置,包括:
构建单元401,用于预先构建至少一组关联字段主键;
获取单元402,用于获取目标业务对象的至少两个待融合数据;
第一确定单元403,用于针对于每一个所述待融合数据,确定所述待融合数据对应的至少一个参考字段主键;
拆分单元404,用于根据确定的每一个所述参考字段主键,将所述待融合数据拆分为至少一个字段,其中,所述至少一个参考字段主键和所述至少一个字段一一对应;
第二确定单元405,用于根据所述至少一组关联字段主键,从确定的至少两个所述参考字段主键中确定出至少两个目标字段主键,其中,所述至少两个目标字段主键中的任意两个所述目标字段主键均不在同一组所述关联字段主键中;
融合单元406,用于利用每一个所述目标字段主键分别对应的字段组合成融合数据;
如图5所示,在本发明一个实施例中,进一步包括:
进一步包括:
第三确定单元501,用于检测每一个所述目标字段主键分别对应的字段是否为结构化数据,如果是,则确定所述字段为第一字段,否则,确定所述字段为第二字段;
字段数量确定单元502,用于确定所述第二字段的第一数量;
所述融合单元406,具体用于当所述第一数量为0时,利用各个所述第一字段组合成融合数据。
在本发明一个实施例中,所述字段数量确定单元502,进一步用于确定所述第一字段的第二数量;
所述融合单元406,具体用于当所述第二数量为0时,确定各个所述第二字段分别对应的至少一个第一索引信息;利用各个所述第二字段分别对应的所述至少一个第一索引信息和对应的目标字段主键组合成融合数据;
在本发明一个实施例中,所述字段数量确定单元502,进一步用于确定所述第一字段的第二数量;
所述融合单元406,具体用于当所述第一数量不小于1且所述第二数量不小于1时,确定各个所述第二字段分别对应的至少一个第二索引信息;利用所述至少一个所述第一字段、各个所述第二字段分别对应的所述至少一个第二索引信息及对应的目标字段主键组合成融合数据。
如图6所示,在本发明一个实施例中,
进一步包括:
数据展示单元601,用于根据预设的至少一种展示模型,对所述融合数据进行展示;其中,所述至少一种展示模型包括关系图、合弦图、力导向图、树状图、列表和时间轴中的任意一种。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述各个实施例中的任意一个方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述各个实施例中的任意一个方法。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上,本发明各个实施例至少具有如下有益效果:
1、在本发明实施例中,首先是构建出至少一组关联字段主键,其中,每一组关联字段主键中包括的各个关联字段主键相互关联,也即表示对应相同的数据,其次在获取目标业务对象对应的各个待融合数据后,通过确定出每一个待融合数据对应的参考字段主键,一方面,可根据预先构建的至少一组关联字段主键,从各个参考字段主键中确定出不再同一组关联字段主键中的各个目标字段主键,另一方面可通过参考字段主键将对应的待融合数据拆分成字段,最终,只将所有目标字段主键分别对应的字段融合在一起,而避免将参考字段主键不同当对应相同数据的字段融合进去,因此,有效降低了数据冗余,而且也便于对数据进行查看。
2、在本发明实施例中,通过将目标业务对象的来自不同数据源的待融合数据进行融合,打破了各个数据源之间孤立的数据存储,从而也可提高对目标业务对象监管的准确性。
3、在本发明实施例中,在将目标业务对象的各个待融合数据融合之后,向各个组织内部人员提供了展示系统,该展示系统可根据接收到的不同的点击触发,以不同的展示模型展示目标业务对象的相关数据。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃·····”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种数据融合方法,其特征在于,预先构建至少一组关联字段主键,包括:
获取目标业务对象的至少两个待融合数据;
针对于每一个所述待融合数据,均执行A1至A2:
A1:确定所述待融合数据对应的至少一个参考字段主键;
A2:根据确定的每一个所述参考字段主键,将所述待融合数据拆分为至少一个字段,其中,所述至少一个参考字段主键和所述至少一个字段一一对应;
根据所述至少一组关联字段主键,从确定的至少两个所述参考字段主键中确定出至少两个目标字段主键,其中,所述至少两个目标字段主键中的任意两个所述目标字段主键均不在同一组所述关联字段主键中;
利用每一个所述目标字段主键分别对应的字段组合成融合数据。
2.根据权利要求1所述的数据融合方法,其特征在于,
在所述根据所述至少一组关联字段主键,从确定的至少两个所述参考字段主键中确定出至少两个目标字段主键之后,进一步包括:
检测每一个所述目标字段主键分别对应的字段是否为结构化数据,如果是,则执行N1,否则,执行N2;
N1:确定所述字段为第一字段;
N2:确定所述字段为第二字段;
确定所述第二字段的第一数量;
所述利用每一个所述目标字段主键分别对应的字段组合成融合数据,包括:
当所述第一数量为0时,利用各个所述第一字段组合成融合数据。
3.根据根据权利要求2所述的数据融合方法,其特征在于,
所述确定所述第二字段的第一数量,进一步包括:确定所述第一字段的第二数量;
所述利用每一个所述目标字段主键分别对应的字段组合成融合数据,包括:
当所述第二数量为0时,确定各个所述第二字段分别对应的至少一个第一索引信息;
利用各个所述第二字段分别对应的所述至少一个第一索引信息和对应的目标字段主键组合成融合数据。
4.根据根据权利要求2所述的数据融合方法,其特征在于,
所述确定所述第二字段的第一数量,进一步包括:确定所述第一字段的第二数量;
所述利用每一个所述目标字段主键分别对应的字段组合成融合数据,包括:
当所述第一数量不小于1且所述第二数量不小于1时,确定各个所述第二字段分别对应的至少一个第二索引信息;
利用所述至少一个所述第一字段、各个所述第二字段分别对应的所述至少一个第二索引信息及对应的目标字段主键组合成融合数据。
5.根据权利要求1所述的数据融合方法,其特征在于,
进一步包括:
根据预设的至少一种数据转换规则,分别将每一个所述目标字段主键对应的字段转换为目标字段;
所述利用每一个所述目标字段主键分别对应的字段组合成融合数据,包括:
利用各个所述目标字段组合成融合数据。
6.根据权利要求1至5中任一所述的数据融合方法,其特征在于,
在所述利用每一个所述目标字段主键分别对应的字段组合成融合数据之后,进一步包括:
根据预设的至少一种展示模型,对所述融合数据进行展示;其中,所述至少一种展示模型包括关系图、合弦图、力导向图、树状图、列表和时间轴中的任意一种。
7.一种数据融合装置,其特征在于,包括:
构建单元,用于预先构建至少一组关联字段主键;
获取单元,用于获取目标业务对象的至少两个待融合数据;
第一确定单元,用于针对于每一个所述待融合数据,确定所述待融合数据对应的至少一个参考字段主键;
拆分单元,用于根据确定的每一个所述参考字段主键,将所述待融合数据拆分为至少一个字段,其中,所述至少一个参考字段主键和所述至少一个字段一一对应;
第二确定单元,用于根据所述至少一组关联字段主键,从确定的至少两个所述参考字段主键中确定出至少两个目标字段主键,其中,所述至少两个目标字段主键中的任意两个所述目标字段主键均不在同一组所述关联字段主键中;
融合单元,用于利用每一个所述目标字段主键分别对应的字段组合成融合数据。
8.根据权利要求7所述的数据融合装置,其特征在于,
进一步包括:
第三确定单元,用于检测每一个所述目标字段主键分别对应的字段是否为结构化数据,如果是,则确定所述字段为第一字段,否则,确定所述字段为第二字段;
字段数量确定单元,用于确定所述第二字段的第一数量;
所述融合单元,具体用于当所述第一数量为0时,利用各个所述第一字段组合成融合数据。
9.根据权利要求8所述的数据融合装置,其特征在于,
所述字段数量确定单元,进一步用于确定所述第一字段的第二数量;
所述融合单元,具体用于当所述第二数量为0时,确定各个所述第二字段分别对应的至少一个第一索引信息;利用各个所述第二字段分别对应的所述至少一个第一索引信息和对应的目标字段主键组合成融合数据;
或,
所述字段数量确定单元,进一步用于确定所述第一字段的第二数量;
所述融合单元,具体用于当所述第一数量不小于1且所述第二数量不小于1时,确定各个所述第二字段分别对应的至少一个第二索引信息;利用所述至少一个所述第一字段、各个所述第二字段分别对应的所述至少一个第二索引信息及对应的目标字段主键组合成融合数据。
10.根据权利要求7至9中任一所述的数据融合装置,其特征在于,
进一步包括:
数据展示单元,用于根据预设的至少一种展示模型,对所述融合数据进行展示;其中,所述至少一种展示模型包括关系图、合弦图、力导向图、树状图、列表和时间轴中的任意一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710131605.8A CN106909689A (zh) | 2017-03-07 | 2017-03-07 | 一种数据融合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710131605.8A CN106909689A (zh) | 2017-03-07 | 2017-03-07 | 一种数据融合方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106909689A true CN106909689A (zh) | 2017-06-30 |
Family
ID=59186235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710131605.8A Pending CN106909689A (zh) | 2017-03-07 | 2017-03-07 | 一种数据融合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106909689A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967313A (zh) * | 2017-11-21 | 2018-04-27 | 中科宇图科技股份有限公司 | 一种基于字段数据和坐标共性合并不同行业数据的方法 |
CN108875384A (zh) * | 2018-06-06 | 2018-11-23 | 国云科技股份有限公司 | 一种企业风险数据安全融合系统及其实现方法 |
CN109063151A (zh) * | 2018-08-08 | 2018-12-21 | 中国建设银行股份有限公司 | 一种商业银行数据融合方法及装置 |
CN110347688A (zh) * | 2019-07-10 | 2019-10-18 | 星环信息科技(上海)有限公司 | 多元信息的特征融合方法、装置、设备及存储介质 |
CN110928867A (zh) * | 2018-08-31 | 2020-03-27 | 杭州海康威视数字技术股份有限公司 | 一种数据融合的方法及装置 |
CN110955661A (zh) * | 2019-11-29 | 2020-04-03 | 北京明略软件系统有限公司 | 数据融合方法、装置、可读存储介质及电子设备 |
CN111198910A (zh) * | 2018-11-16 | 2020-05-26 | 杭州海康威视数字技术股份有限公司 | 数据融合方法及装置 |
CN111210027A (zh) * | 2018-11-22 | 2020-05-29 | 横河电机株式会社 | 数据生成装置、数据生成方法、数据生成程序及存储介质 |
CN111831629A (zh) * | 2019-04-15 | 2020-10-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN112612462A (zh) * | 2020-12-29 | 2021-04-06 | 平安科技(深圳)有限公司 | 话术配置调整方法、装置、电子设备及存储介质 |
CN113626482A (zh) * | 2021-08-17 | 2021-11-09 | 北京深演智能科技股份有限公司 | 基于系统融合id表的查询方法和装置 |
CN113761185A (zh) * | 2021-01-06 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 主键提取方法、设备及存储介质 |
CN113990068A (zh) * | 2021-10-27 | 2022-01-28 | 阿波罗智联(北京)科技有限公司 | 交通数据的处理方法、装置、设备以及存储介质 |
CN115114465A (zh) * | 2022-07-19 | 2022-09-27 | 重庆紫光华山智安科技有限公司 | 图像记录关联存储方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067814A (zh) * | 2007-05-10 | 2007-11-07 | 浪潮集团山东通用软件有限公司 | 数据访问层Xml格式数据与关系数据间的映射转换方法 |
CN103425780A (zh) * | 2013-08-19 | 2013-12-04 | 曙光信息产业股份有限公司 | 一种数据的查询方法和装置 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和系统 |
-
2017
- 2017-03-07 CN CN201710131605.8A patent/CN106909689A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067814A (zh) * | 2007-05-10 | 2007-11-07 | 浪潮集团山东通用软件有限公司 | 数据访问层Xml格式数据与关系数据间的映射转换方法 |
CN103425780A (zh) * | 2013-08-19 | 2013-12-04 | 曙光信息产业股份有限公司 | 一种数据的查询方法和装置 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和系统 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967313B (zh) * | 2017-11-21 | 2022-02-01 | 中科宇图科技股份有限公司 | 一种基于字段数据和坐标共性合并不同行业数据的方法 |
CN107967313A (zh) * | 2017-11-21 | 2018-04-27 | 中科宇图科技股份有限公司 | 一种基于字段数据和坐标共性合并不同行业数据的方法 |
CN108875384A (zh) * | 2018-06-06 | 2018-11-23 | 国云科技股份有限公司 | 一种企业风险数据安全融合系统及其实现方法 |
CN109063151B (zh) * | 2018-08-08 | 2022-07-12 | 中国建设银行股份有限公司 | 一种商业银行数据融合方法及装置 |
CN109063151A (zh) * | 2018-08-08 | 2018-12-21 | 中国建设银行股份有限公司 | 一种商业银行数据融合方法及装置 |
CN110928867A (zh) * | 2018-08-31 | 2020-03-27 | 杭州海康威视数字技术股份有限公司 | 一种数据融合的方法及装置 |
CN111198910B (zh) * | 2018-11-16 | 2023-09-26 | 杭州海康威视数字技术股份有限公司 | 数据融合方法及装置 |
CN111198910A (zh) * | 2018-11-16 | 2020-05-26 | 杭州海康威视数字技术股份有限公司 | 数据融合方法及装置 |
CN111210027A (zh) * | 2018-11-22 | 2020-05-29 | 横河电机株式会社 | 数据生成装置、数据生成方法、数据生成程序及存储介质 |
CN111831629A (zh) * | 2019-04-15 | 2020-10-27 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN111831629B (zh) * | 2019-04-15 | 2024-05-03 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN110347688B (zh) * | 2019-07-10 | 2020-09-11 | 星环信息科技(上海)有限公司 | 多元信息的特征融合方法、装置、设备及存储介质 |
CN110347688A (zh) * | 2019-07-10 | 2019-10-18 | 星环信息科技(上海)有限公司 | 多元信息的特征融合方法、装置、设备及存储介质 |
CN110955661A (zh) * | 2019-11-29 | 2020-04-03 | 北京明略软件系统有限公司 | 数据融合方法、装置、可读存储介质及电子设备 |
CN110955661B (zh) * | 2019-11-29 | 2023-03-21 | 北京明略软件系统有限公司 | 数据融合方法、装置、可读存储介质及电子设备 |
CN112612462A (zh) * | 2020-12-29 | 2021-04-06 | 平安科技(深圳)有限公司 | 话术配置调整方法、装置、电子设备及存储介质 |
WO2022142012A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 话术配置调整方法、装置、电子设备及存储介质 |
CN113761185A (zh) * | 2021-01-06 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 主键提取方法、设备及存储介质 |
CN113626482A (zh) * | 2021-08-17 | 2021-11-09 | 北京深演智能科技股份有限公司 | 基于系统融合id表的查询方法和装置 |
CN113990068B (zh) * | 2021-10-27 | 2023-02-24 | 阿波罗智联(北京)科技有限公司 | 交通数据的处理方法、装置、设备以及存储介质 |
CN113990068A (zh) * | 2021-10-27 | 2022-01-28 | 阿波罗智联(北京)科技有限公司 | 交通数据的处理方法、装置、设备以及存储介质 |
CN115114465A (zh) * | 2022-07-19 | 2022-09-27 | 重庆紫光华山智安科技有限公司 | 图像记录关联存储方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909689A (zh) | 一种数据融合方法及装置 | |
Menzies et al. | Local versus global lessons for defect prediction and effort estimation | |
US10095747B1 (en) | Similar document identification using artificial intelligence | |
US7933843B1 (en) | Media-based computational influencer network analysis | |
Monti | Automated journalism and freedom of information: Ethical and juridical problems related to AI in the press field | |
CN106021389A (zh) | 基于模板自动生成新闻的系统和方法 | |
CN111190881A (zh) | 一种数据治理方法和系统 | |
Lammers et al. | Towards a novel framework of barriers and drivers for digital transformation in industrial supply chains | |
CN111061679B (zh) | 一种基于rete和drools规则的科技创新政策速配的方法和系统 | |
Al-Abdulkarim et al. | Noise induced hearing loss: Building an application using the ANGELIC methodology | |
Jallan et al. | Text mining of the securities and exchange commission financial filings of publicly traded construction firms using deep learning to identify and assess risk | |
Casanovasabc et al. | Legal compliance by design (LCbD) and through design (LCtD): preliminary survey | |
US20230289730A1 (en) | Platform for investigative analysis | |
Olszak et al. | Information technology tools for Business Intelligence development in organizations | |
Crouch | The Judicial Reform Landscape in Indonesia: Innovation, Specialisation and the Legacy of Dan S Lev | |
Bhatta | Emerging ethical challenges of leadership in the digital era: a multi-vocal literature review | |
Monterrubio et al. | Coronavirus fake news detection via MedOSINT check in health care official bulletins with CBR explanation: The way to find the real information source through OSINT, the verifier tool for official journals | |
Oladejo et al. | Electronic records management–a state of the art review | |
Loureiro et al. | Culture, heritage looting, and tourism: A text mining review approach | |
US20140222655A1 (en) | Method and System for Automatic Regulatory Compliance | |
Walters | Data-driven law: data analytics and the new legal services | |
JP2008287303A (ja) | 法令順守支援システム | |
US10776399B1 (en) | Document classification prediction and content analytics using artificial intelligence | |
Feldmann et al. | Service innovation analytics: Towards an approach for validating frameworks for service innovation capabilities via text mining | |
US20110246532A1 (en) | System for managing electronically stored information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170630 |