CN107066534A - 多源数据聚合方法及系统 - Google Patents

多源数据聚合方法及系统 Download PDF

Info

Publication number
CN107066534A
CN107066534A CN201710122175.3A CN201710122175A CN107066534A CN 107066534 A CN107066534 A CN 107066534A CN 201710122175 A CN201710122175 A CN 201710122175A CN 107066534 A CN107066534 A CN 107066534A
Authority
CN
China
Prior art keywords
data source
strategy
original
list
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710122175.3A
Other languages
English (en)
Other versions
CN107066534B (zh
Inventor
张新星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Man Valley Technology (beijing) Co Ltd
Original Assignee
Man Valley Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Man Valley Technology (beijing) Co Ltd filed Critical Man Valley Technology (beijing) Co Ltd
Priority to CN201710122175.3A priority Critical patent/CN107066534B/zh
Publication of CN107066534A publication Critical patent/CN107066534A/zh
Application granted granted Critical
Publication of CN107066534B publication Critical patent/CN107066534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据处理领域,尤其涉及一种多源数据聚合方法及系统。该方法包括:获取原始数据源;基于原始数据源,获取原始策略列表;对原始策略列表中的原始策略进行排序,形成数据源间策略列表;对原始策略列表中的关联域进行聚合,生成数据源内聚合列表;依次获取数据源间策略列表中的每一原始策略,根据数据源内聚合列表确定与所述原始策略相对应的左侧目标数据源和右侧目标数据源;将与左侧目标数据源相对应的数据和与右侧数据源相对应的数据聚合输出。在本发明中,通过提供一种多源数据聚合方法及系统,将来自不同数据库的数据,通过规定的策略搜索和聚合,使得金融系统可以在相对较短的时间内将涉及多个数据库的交易流水组合起来。

Description

多源数据聚合方法及系统
技术领域
本发明属于数据处理领域,尤其涉及多源数据聚合方法及系统。
背景技术
在金融业中,一笔交易(如ATM跨行取款业务)的完成需要经过多个系统(如ATMP系统、渠道系统、银联前置系统、银联处理中心及本行核心系统等),各个系统分别记录交易流水。银行对账系统从各个业务系统收集交易流水,然后根据交易中的关联域,将来自同一笔交易的流水进行匹配,最终还原出完整的交易链路,从而识别出差错交易。
对账流程主要分为收集数据、触发对账、匹配流水及识别差错等步骤。匹配流水是对账流程中的核心步骤,决定了整个对账系统的处理性能。匹配流水是指通过相邻两系统间的关联域(如S1与S2之间的关联域是字段A和字段B的组合),将同一笔交易在不同系统中记录的流水聚合到一起。
在传统方案中,聚合涉及不同系统数据库的交易流水通常采取以下步骤:
1)将所有系统数据库(如数据库S1、S2、S3、S4、S5)的流水分别导入对应的交易流水表;2)在数据库S1流水表上,打开游标;3)获取S1流水表中一条待匹配的流水记录R1;4)从R1中提取关联域A+B,以此为条件从S2流水表中查询对应的流水记录R2;5)从R2中提取关联域C,以此为条件从S3流水表中查询对应的流水记录R3;6)依此方式,找到所有系统的交易流水,然后进行差错识别;7)重复步骤3-6,直到S1流水表中无更多待匹配的记录。
现有的聚合涉及不同系统数据库的交易流水的操作,只是简单得依次对各个系统数据库中的数据逐条进行搜索和聚合,这样会导致在处理复杂交易时,聚合数据的时间过长。并且当系统数据库之间的关联方式变化时需要修改代码,因而影响整个系统的灵活性。除此之外,数据聚合程序与业务处理程序绑定在一起也导致了现有聚合交易流水方法的复用性差。
发明内容
有鉴于此,本发明提供了多源数据聚合方法及系统,以解决现有的方法在聚合不同系统数据库的交易流水时,遇到的聚合处理时间过长、处理性能较低的问题。
第一方面,提供了一种多源数据聚合方法,包括:获取至少两个原始数据源,每一所述原始数据源包括数据源名称和至少一个关联域;
基于所述原始数据源,获取原始策略列表;所述原始策略列表包括至少一个原始策略,每一原始策略包括左侧数据源和右侧数据源,所述左侧数据源和所述右侧数据源包括至少一个相同的关联域;
对所述原始策略列表中的所述原始策略进行排序,形成数据源间策略列表;
对所述原始策略列表中的关联域进行聚合,生成数据源内聚合列表;所述数据源内聚合列表包括至少两个目标数据源,所述目标数据源包括数据源名称和关联域集合;
依次获取所述数据源间策略列表中的每一所述原始策略,根据所述数据源内聚合列表确定与所述原始策略相对应的左侧目标数据源和右侧目标数据源;
将与所述左侧目标数据源相对应的数据作为第一数据组,获取与所述右侧数据源相对应的数据作为第二数据组;将所述第一数据组和所述第二数据组作为与所述原始策略相对应的聚合结果。
第二方面,提供了一种多源数据聚合装置,包括:数据接收模块,用于获取至少两个原始数据源,每一所述原始数据源包括数据源名称和至少一个关联域;
策略接收模块,用于基于所述原始数据源,获取原始策略列表;所述原始策略列表包括至少一个原始策略,每一原始策略包括左侧数据源和右侧数据源,所述左侧数据源和所述右侧数据源包括至少一个相同的关联域;
第一列表生成模块,用于对所述原始策略列表中的所述原始策略进行排序,形成数据源间策略列表;
第二列表生成模块,用于对所述原始策略列表中的关联域进行聚合,生成数据源内聚合列表;所述数据源内聚合列表包括至少两个目标数据源,所述目标数据源包括数据源名称和关联域集合;
策略提取模块,用于依次获取所述数据源间策略列表中的每一所述原始策略,根据所述数据源内聚合列表确定与所述原始策略相对应的左侧目标数据源和右侧目标数据源;
聚合输出模块,用于将与所述左侧目标数据源相对应的数据作为第一数据组,获取与所述右侧数据源相对应的数据作为第二数据组;将所述第一数据组和所述第二数据组作为与所述原始策略相对应的聚合结果。
在本发明实施例中,通过提供一种多源数据聚合方法及系统,在对多源数据进行聚合过程中,通过对数据源间策略列表中有序的每一原始策略,在数据源内策略列表中确定左侧目标数据源和右侧目标数据源,并基于左侧目标数据源和右侧目标数据源确定聚合结果。该多源数据聚合方法及系统,在多源数据聚合过程中,所需聚合时间较短,处理性能较高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多源数据聚合方法的实现流程图;
图2是本发明实施例提供的多源数据聚合方法S30的具体实现流程图;
图3是本发明实施例提供的多源数据聚合方法S40的具体实现流程图;
图4是本发明实施例提供的多源数据聚合方法S60的具体实现流程图;
图5是本发明实施例提供的多源数据聚合系统的结构框图;
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1示出了本发明实施例提供的多源数据聚合方法的实现流程。如图1所示,该多源数据聚合方法包括:
步骤S10:获取至少两个原始数据源,每一原始数据源包括数据源名称和至少一个关联域。
在现有的金融系统中,一笔交易往往需要经过很多业务系统处理,每个业务系统有自己独立的数据库,数据库中存储着经所属的业务系统处理的数据。在本发明实施例中,我们称业务系统的数据库为原始数据源,每个原始数据源有区别于其他原始数据源的唯一的数据源名称。
由于本发明实施例采用的是关系型数据库,因此原始数据源可以通过关联域联系在一起。
每个原始数据源包括数据源名称和至少一个关联域,为方便介绍,在下文中将每个数据源以S1(A,B)的形式描述。S1(A,B)表示一个数据源的数据源名称是S1,且与另一个数据源连接在一起的关联域是A和B。值得注意的是,同一个原始数据源可能与不同的其他的原始数据源关联,而且由于关联的原始数据源的不同,同一个原始数据源可能出现不同的关联域。例如当原始数据源S1与S2关联时,S1的关联域可能是A和B,而当原始数据源S1与S3关联时,S1的关联域可能是A和C。
具体地,在本发明实施例中一个ATM的跨行取款业务的完成就会涉及多个业务系统如:ATMP系统、渠道系统、银联前置系统、银联处理中心及本行核心系统等,各个系统业务都有属于自己的数据库,这些数据库分别记录各自处理的交易数据。
在本发明实施例中,银行通过对账系统从各个原始数据源中收集交易数据。例如:提取渠道系统的数据库作为一个原始数据源并赋予数据源名称为S1,提取银联前置系统的数据库作为另一个原始数据源并赋予数据源名称为S2。若原始数据源S1和原始数据源S2是通过流水号以及时间联系在一起,那么流水号和时间就是S1和S2的关联域。值得注意的是,关联域是一类数据的数据类型,每一个关联域在各自的原始数据源中有对应的数据。
步骤S20:基于原始数据源,获取原始策略列表;原始策略列表包括至少一个原始策略,每一原始策略包括左侧数据源和右侧数据源,左侧数据源和右侧数据源包括至少一个相同的关联域。
在本发明实施例中,由于金融系统采用的是关系型数据库,因此各个原始数据源在构建之初已经存在预设的原始策略通过关联域将两两原始数据源联系在一起。这些反应两两原始数据源关系的原始策略被存放在原始策略列表中。原始策略列表包括至少一个原始策略。
上文提到,每个原始数据源以S1(流水,时间)的形式描述。S1(流水,时间)表示一个数据源的数据源名称是S1,且与另一个数据源连接在一起的关联域是流水和时间。
在本发明实施例中,原始策略列表中的每条原始策略描述两个原始数据源以何种关联域联系在一起。例如:一个原始策略可以写成S1(流水,时间)=S2(流水,时间)的形式,这个原始策略表示:原始数据源S1与原始数据域S2通过流水和时间这两个关联域联系在一起。在这个例子中原始数据源S1即是原始策略的左侧数据源,原始数据源S2即是原始策略的右侧数据源。
例如一个原始策略列表可以为:
S1(流水,时间)=S2(流水,时间);
S3(字段A)=S2(字段A);
S4(字段D)=S3(字段D);
S5(字段E)=S2(字段E)。
由于下文还将提到此原始策略列表,因此将此原始策略列表命名为原始策略列表Y。
步骤S30:对原始策略列表中的原始策略进行排序,形成数据源间策略列表。
图2示出了本发明实施例提供的多源数据聚合方法中S30的具体实现流程,步骤S30具体包括如下步骤:
步骤S301:从原始数据源中确定起始数据源。
在原始数据源中随机选择一个原始数据源作为起始数据源。例如在上文提到的原始策略列表Y中可以选择原始数据源S1作为起始数据源。
步骤S302:从原始策略列表中确定与起始数据源相对应的原始策略作为第一策略;第一策略的左侧数据源与起始数据源的数据源名称相同。
进一步地,在选择原始数据源S1作为起始数据源后,在原始策略列表Y中搜索包含起始数据源S1的策略,因此在上述原始策略列表中搜索出S1(流水,时间)=S2(流水,时间)作为第一策略。
进一步地,由于起始数据源为原始数据源S1,因此需将原始数据源S1放在第一策略的左侧,作为第一策略的左侧数据源。
步骤S303:从原始策略列表中广度搜索与第一策略的右侧数据源相对应的原始策略作为第二策略;第二策略的左侧数据源与第一策略的右侧数据源的数据源名称相同。
进一步地,在从原始策略列表Y中选择S1(流水,时间)=S2(流水,时间)作为第一策略后,在原始策略列表Y中广度搜索包含第一策略的右侧数据源S2的原始策略作为第二策略。在原始策略列表Y中S3(字段A)=S2(字段A)以及S5(字段E)=S2(字段E)符合条件。
进一步地,在找出符合第二策略条件的原始策略之后,由于第二策略的左侧数据源需要与第一策略的右侧数据源的数据源名称相同,因此需将原始数据源S2调整为第二策略的左侧数据源,最终第二策略被调整为S2(字段A)=S3(字段A);S2(字段E)=S5(字段E)。
步骤S304:将第二策略的右侧数据源更新为起始数据源,遍历原始策略列表,基于依序形成的第一策略和第二策略形成数据源间策略列表。
由于本发明实施例采用的是广度搜索,因此若确定S1(流水,时间)=S2(流水,时间)为第一策略以及S2(字段A)=S3(字段A);S2(字段E)=S5(字段E)为第二策略后,由于S2(字段A)=S3(字段A)和S2(字段E)=S5(字段E)在广度搜索中属于同一层,所以S2(字段A)=S3(字段A)和S2(字段E)=S5(字段E)的优先级是相同的,因此可以任意选择原始数据源S3或者S5作为新的起始数据源。
进一步地,如果选择原始数据源S3为新的起始数据源,则在原始策略列表中的未被搜索出的原始策略中搜索出包含原始数据源S3的原始策略。在原始策略列表Y中选择S4(字段D)=S3(字段D)作为第一策略,之后选择原始数据源S5为新的起始数据源,在原始策略列表中的未被搜索出的原始策略中搜索出包含原始数据源S5的原始策略,在这次搜索中,原始策略列表Y中没有符合条件的原始策略。因此只有S4(字段D)=S3(字段D)符合条件可以作为第一策略。
进一步地,由于起始数据源为原始数据源S3,因此需将原始数据源S1放在第一策略的左侧,作为第一策略的左侧数据源,因此最终的第一策略被调整为S3(字段D)=S4(字段D)。
进一步地,在原始策略列表Y中广度搜索包含第一策略的右侧数据源S4的原始策略作为第二策略。在原始策略列表Y中没有未被搜索出的原始策略符合条件,因此整个搜索过程结束。
进一步地,基于依序形成的第一策略和第二策略形成数据源间策略列表。在本实施例中,根据原始策略列表Y以及被搜索出的先后顺序,得到的数据源间策略列表为S1(流水,时间)=S2(流水,时间),S2(字段A)=S3(字段A),S2(字段E)=S5(字段E),S3(字段D)=S4(字段D)。
步骤S40:对原始策略列表中的关联域进行聚合,生成数据源内聚合列表;数据源内聚合列表包括至少两个目标数据源,目标数据源包括数据源名称和关联域集合。
图3示出了本发明实施例提供的多源数据聚合方法S04的具体实现流程,步骤S40具体包括:
步骤S401:对所有原始策略列表中的所有原始策略的左侧数据源和右侧数据源进行聚合处理,将基于同一数据源名称的所有左侧数据源和右侧数据源聚合为目标数据源。
在本发明实施例中,由于原始策略列表Y为S1(流水,时间)=S2(流水,时间);S3(字段A)=S2(字段A);S4(字段D)=S3(字段D);S5(字段E)=S2(字段E)。将基于同一数据源名称的所有左侧数据源和右侧数据源聚合为目标数据源。例如:将基于S1的所有左侧数据源和右侧数据源聚合为目标数据源S1:(流水,时间);将基于S2的所有左侧数据源和右侧数据源聚合为目标数据源S2:(流水,时间,字段A,字段E);将基于S3的所有左侧数据源和右侧数据源聚合为目标数据源S3:(字段A,字段D);将基于S4的所有左侧数据源和右侧数据源聚合为目标数据源S4:(字段D);将基于S5的所有左侧数据源和右侧数据源聚合为目标数据源S5:(字段E)。
在本发明实施例中,目标数据源包括数据源名称和关联域集合。
步骤S402:基于至少两个目标数据源,形成数据源内聚合列表。在本发明实施例中,将所有目标数据源聚合后得到数据源内聚合列表:
S1:(流水,时间);
S2:(流水,时间,字段A,字段E);
S3:(字段A,字段D);
S4:(字段D)
S5:(字段E)。
步骤S403:依次获取数据源间策略列表中的每一原始策略,根据数据源内聚合列表确定与原始策略相对应的左侧目标数据源和右侧目标数据源。
具体地,在S50中,依次获取数据源间策略列表中的每一原始策略后,根据数据源内聚合列表确定与原始策略中左侧数据源的数据源名称一致的的目标数据源作为左侧目标数据源;根据数据源内聚合列表确定与原始策略中右侧数据源的数据源名称一致的目标数据源作为右侧目标数据源。
在本发明实施例中,首先从根据原始策略列表Y得到的数据源间策略列表中获取第一条原始策略S1(流水,时间)=S2(流水,时间),根据数据源内聚合列表可知原始策略S1对应的目标数据源为S1:(流水,时间),因此S1:(流水,时间)为原始策略S1(流水,时间)=S2(流水,时间)的左侧目标数据源;原始策略S2对应的目标策略为S2:(流水,时间,字段A,字段E),因此S2:(流水,时间,字段A,字段E)为原始策略S1(流水,时间)=S2(流水,时间)的右侧目标数据源。此后在一次确定数据源间策略列表中其他原始策略的对应左侧目标数据源和右侧目标数据源,方法与确定第一条原始策略的对应左侧目标数据源和右侧目标数据源的方法相同,因此不再赘述。
步骤S60:将与左侧目标数据源相对应的数据作为第一数据组,获取与右侧数据源相对应的数据作为第二数据组;将第一数据组和第二数据组作为与原始策略相对应的聚合结果。
图4示出了本发明实施例提供的多源数据聚合方法S60的具体实现流程,详述如下:
步骤S601:获取聚合指令,所述聚合指令包括关键值和与所述关联域相对应的具体参数值。在本发明实施例中,原始数据源S1存储的数据为:
原始数据源S2存储的数据为:
在本发明实施例中,系统获取的聚合指令中的与所述关联域相对应的具体参数值为:流水=010001,时间=1116135231,字段A为92010000,字段D为02105411,字段E为100|12345678;系统获取的聚合指令中的关键值为:卡号=6266661116135232。
步骤S602:在所述左侧目标数据源中基于所述聚合指令,获取包括所述关键值和所述具体参数值的数据作为所述第一数据组。
在本发明实施例中,在接收到聚合指令后,根据数据源间策略列表中的每一条策略进行数据搜索及聚合的过程如下:
以数据源间策略列表中第一条原始策略S1(流水,时间)=S2(流水,时间)为例,S1(流水,时间)=S2(流水,时间)对应的左侧目标数据源为S1:(流水,时间),由于关键值为:卡号,因此在数据源S1中搜索卡号=6266661116135232,流水=010001,时间=1116135231的数据。
在本发明实施例中第一数据组为:
步骤S603:在所述右侧目标数据源中基于所述聚合指令,获取包括所述关键值和所述具体参数值的数据作为所述第二数据组。
以数据源间策略列表中第一条原始策略S1(流水,时间)=S2(流水,时间)为例,S1(流水,时间)=S2(流水,时间)对应的右侧目标数据源为S2:(流水,时间,字段A,字段E),由于关键值为:卡号,因此在数据源S2中搜索卡号=6266661116135232,流水=010001,时间=1116135231,字段A=92010000,字段E=100|12345678的数据。
在本发明实施例中第二数据组为:
并将第一数据组和第二数据组聚合输出。
在本发明实施例中,根据数据源间策略列表中的其他策略搜索以及聚合数据的方式与根据数据源间策略列表中第一条策略搜索以及聚合数据的方式相同,因此不再赘述。
对应于上文实施例的多源数据聚合方法,图5示出了本发明实施例提供的多源数据聚合系统的结构框图,为了便于说明,仅示出了与本实施例相关的部分。
参见图5,该多源数据聚合系统包括:
数据接收模块501,用于获取至少两个原始数据源,每一原始数据源包括数据源名称和至少一个关联域;
策略接收模块502,用于基于原始数据源,获取原始策略列表;原始策略列表包括至少一个原始策略,每一原始策略包括左侧数据源和右侧数据源,左侧数据源和右侧数据源包括至少一个相同的关联域;
第一列表生成模块503,用于对原始策略列表中的原始策略进行排序,形成数据源间策略列表;
第二列表生成模块504,用于对原始策略列表中的关联域进行聚合,生成数据源内聚合列表;数据源内聚合列表包括至少两个目标数据源,目标数据源包括数据源名称和关联域集合;
策略提取模块505,用于依次获取数据源间策略列表中的每一原始策略,根据数据源内聚合列表确定与原始策略相对应的左侧目标数据源和右侧目标数据源;
聚合输出模块506,用于将与左侧目标数据源相对应的数据作为第一数据组,获取与右侧数据源相对应的数据作为第二数据组;将第一数据组和第二数据组作为与原始策略相对应的聚合结果。
进一步地,第一列表生成模块,包括:
初选子模块,用于从原始数据源中确定起始数据源;
搜索子模块,用于从原始策略列表中确定与起始数据源相对应的原始策略作为第一策略;第一策略的左侧数据源与起始数据源的数据源名称相同;
整理子模块,用于从原始策略列表中广度搜索与第一策略的右侧数据源相对应的原始策略作为第二策略;第二策略的左侧数据源与第一策略的右侧数据源的数据源名称相同;
循环子模块,用于将第二策略的右侧数据源更新为起始数据源,遍历原始策略列表,基于依序形成的第一策略和第二策略形成数据源间策略列表。
进一步地,第二列表生成模块,包括:
统计子模块,用于对所有原始策略列表中的所有原始策略的左侧数据源和右侧数据源进行聚合处理,将基于同一数据源名称的所有左侧数据源和右侧数据源聚合为目标数据源;
组合子模块,用于基于至少两个目标数据源,形成数据源内聚合列表。
进一步地策略提取模块,包括:
调整子模块,用于根据数据源内聚合列表确定与原始策略中左侧数据源的数据源名称一致的的目标数据源作为左侧目标数据源;根据数据源内聚合列表确定与原始策略中右侧数据源的数据源名称一致的目标数据源作为右侧目标数据源。
进一步地,聚合输出模块,包括:
指令获取子模块,用于获取聚合指令,聚合指令包括用户指定的数据源内聚合列表中目标数据的关联域对应的具体参数值;
第一数据搜索子模块,用于在原始策略的左侧数据源中,搜索出符合聚合指令的数据,生成第一数据组;
第二数据搜索子模块,用于在原始策略的右侧数据源中,搜索出符合聚合指令的数据,生成第二数据组。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(pro字段Aessor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random A字段A字段Aess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多源数据聚合方法,其特征在于,包括:
获取至少两个原始数据源,每一所述原始数据源包括数据源名称和至少一个关联域;
基于所述原始数据源,获取原始策略列表;所述原始策略列表包括至少一个原始策略,每一原始策略包括左侧数据源和右侧数据源,所述左侧数据源和所述右侧数据源包括至少一个相同的关联域;
对所述原始策略列表中的所述原始策略进行排序,形成数据源间策略列表;
对所述原始策略列表中的关联域进行聚合,生成数据源内聚合列表;所述数据源内聚合列表包括至少两个目标数据源,所述目标数据源包括数据源名称和关联域集合;
依次获取所述数据源间策略列表中的每一所述原始策略,根据所述数据源内聚合列表确定与所述原始策略相对应的左侧目标数据源和右侧目标数据源;
将与所述左侧目标数据源相对应的数据作为第一数据组,获取与所述右侧数据源相对应的数据作为第二数据组;将所述第一数据组和所述第二数据组作为与所述原始策略相对应的聚合结果。
2.如权利要求1所述的方法,其特征在于,所述对所述原始策略列表中的所述原始策略进行排序,形成数据源间策略列表,包括:
从所述原始数据源中确定起始数据源;
从所述原始策略列表中确定与所述起始数据源相对应的原始策略作为第一策略;所述第一策略的左侧数据源与所述起始数据源的数据源名称相同;
从所述原始策略列表中广度搜索与所述第一策略的右侧数据源相对应的原始策略作为第二策略;所述第二策略的左侧数据源与所述第一策略的右侧数据源的数据源名称相同;将所述第二策略的右侧数据源更新为所述起始数据源,遍历所述原始策略列表,基于依序形成的第一策略和第二策略形成所述数据源间策略列表。
3.如权利要求1所述的方法,其特征在于,所述对所述原始策略列表中的关联域进行聚合,生成数据源内聚合列表,包括:
对所有原始策略列表中的所有原始策略的左侧数据源和右侧数据源进行聚合处理,将基于同一数据源名称的所有左侧数据源和右侧数据源聚合为所述目标数据源;
基于至少两个所述目标数据源,形成所述数据源内聚合列表。
4.如权利要求1所述的方法,其特征在于,所述根据所述数据源内聚合列表确定与所述原始策略相对应的左侧目标数据源和右侧目标数据源,包括:
根据所述数据源内聚合列表确定与所述原始策略中左侧数据源的数据源名称一致的的目标数据源作为所述左侧目标数据源;根据所述数据源内聚合列表确定与所述原始策略中右侧数据源的数据源名称一致的目标数据源作为所述右侧目标数据源。
5.如权利要求1所述的方法,其特征在于,所述将与所述左侧目标数据源相对应的数据作为第一数据组,获取与所述右侧数据源相对应的数据作为第二数据组,包括:
获取聚合指令,所述聚合指令包括关键值和与所述关联域相对应的具体参数值;
在所述左侧目标数据源中基于所述聚合指令,获取包括所述关键值和所述具体参数值的数据作为所述第一数据组;
在所述右侧目标数据源中基于所述聚合指令,获取包括所述关键值和所述具体参数值的数据作为所述第二数据组。
6.一种多源数据聚合装置,其特征在于,包括:
数据接收模块,用于获取至少两个原始数据源,每一所述原始数据源包括数据源名称和至少一个关联域;
策略接收模块,用于基于所述原始数据源,获取原始策略列表;所述原始策略列表包括至少一个原始策略,每一原始策略包括左侧数据源和右侧数据源,所述左侧数据源和所述右侧数据源包括至少一个相同的关联域;
第一列表生成模块,用于对所述原始策略列表中的所述原始策略进行排序,形成数据源间策略列表;
第二列表生成模块,用于对所述原始策略列表中的关联域进行聚合,生成数据源内聚合列表;所述数据源内聚合列表包括至少两个目标数据源,所述目标数据源包括数据源名称和关联域集合;
策略提取模块,用于依次获取所述数据源间策略列表中的每一所述原始策略,根据所述数据源内聚合列表确定与所述原始策略相对应的左侧目标数据源和右侧目标数据源;
聚合输出模块,用于将与所述左侧目标数据源相对应的数据作为第一数据组,获取与所述右侧数据源相对应的数据作为第二数据组;将所述第一数据组和所述第二数据组作为与所述原始策略相对应的聚合结果。
7.根据权利要求6所述的装置,其特征在于,所述第一列表生成模块,包括:
初选子模块,用于从所述原始数据源中确定起始数据源;
搜索子模块,用于从所述原始策略列表中确定与所述起始数据源相对应的原始策略作为第一策略;所述第一策略的左侧数据源与所述起始数据源的数据源名称相同;
整理子模块,用于从所述原始策略列表中广度搜索与所述第一策略的右侧数据源相对应的原始策略作为第二策略;所述第二策略的左侧数据源与所述第一策略的右侧数据源的数据源名称相同;
循环子模块,用于将所述第二策略的右侧数据源更新为所述起始数据源,遍历所述原始策略列表,基于依序形成的第一策略和第二策略形成所述数据源间策略列表。
8.根据权利要求6所述的系统,其特征在于,所述第二列表生成模块,包括:
统计子模块,用于对所有原始策略列表中的所有原始策略的左侧数据源和右侧数据源进行聚合处理,将基于同一数据源名称的所有左侧数据源和右侧数据源聚合为所述目标数据源;
组合子模块,用于基于至少两个所述目标数据源,形成所述数据源内聚合列表。
9.根据权利要求6所述的系统,其特征在于,所述策略提取模块,包括:
调整子模块,用于根据所述数据源内聚合列表确定与所述原始策略中左侧数据源的数据源名称一致的的目标数据源作为所述左侧目标数据源;根据所述数据源内聚合列表确定与所述原始策略中右侧数据源的数据源名称一致的目标数据源作为所述右侧目标数据源。
10.根据权利要求6所述的系统,其特征在于,所述聚合输出模块,包括:
指令获取子模块,用于获取聚合指令,所述聚合指令包括关键值和与所述关联域相对应的具体参数值;
在所述左侧目标数据源中基于所述聚合指令,获取包括所述关键值和所述具体参数值的数据作为所述第一数据组;
在所述右侧目标数据源中基于所述聚合指令,获取包括所述关键值和所述具体参数值的数据作为所述第二数据组。
CN201710122175.3A 2017-03-02 2017-03-02 多源数据聚合方法及系统 Active CN107066534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710122175.3A CN107066534B (zh) 2017-03-02 2017-03-02 多源数据聚合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710122175.3A CN107066534B (zh) 2017-03-02 2017-03-02 多源数据聚合方法及系统

Publications (2)

Publication Number Publication Date
CN107066534A true CN107066534A (zh) 2017-08-18
CN107066534B CN107066534B (zh) 2019-08-20

Family

ID=59621525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710122175.3A Active CN107066534B (zh) 2017-03-02 2017-03-02 多源数据聚合方法及系统

Country Status (1)

Country Link
CN (1) CN107066534B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717418A (zh) * 2018-04-13 2018-10-30 五维引力(上海)数据服务有限公司 一种基于不同数据源的数据关联方法和装置
CN110096553A (zh) * 2019-03-28 2019-08-06 北京华成智云软件股份有限公司 一种跨数据库的大数据分析系统和分析方法
CN110147357A (zh) * 2019-05-07 2019-08-20 浙江科技学院 一种基于大数据环境下的多源数据聚合抽样方法及系统
CN111400569A (zh) * 2020-03-13 2020-07-10 重庆特斯联智慧科技股份有限公司 一种多源聚合结构的大数据分析方法和系统
CN111723142A (zh) * 2020-06-24 2020-09-29 厦门海迈科技股份有限公司 一种数据处理方法及装置
CN111985578A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 多源数据融合方法、装置、计算机设备及存储介质
CN112749189A (zh) * 2019-10-29 2021-05-04 北京国双科技有限公司 数据查询方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870455A (zh) * 2012-12-07 2014-06-18 阿里巴巴集团控股有限公司 一种多数据源的数据集成处理方法和装置
CN103970905A (zh) * 2014-05-27 2014-08-06 重庆大学 一种多源矢量地理信息数据的自动构图整合方法
CN105760404A (zh) * 2014-12-19 2016-07-13 富士通株式会社 数据集成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870455A (zh) * 2012-12-07 2014-06-18 阿里巴巴集团控股有限公司 一种多数据源的数据集成处理方法和装置
CN103970905A (zh) * 2014-05-27 2014-08-06 重庆大学 一种多源矢量地理信息数据的自动构图整合方法
CN105760404A (zh) * 2014-12-19 2016-07-13 富士通株式会社 数据集成方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717418A (zh) * 2018-04-13 2018-10-30 五维引力(上海)数据服务有限公司 一种基于不同数据源的数据关联方法和装置
CN110096553A (zh) * 2019-03-28 2019-08-06 北京华成智云软件股份有限公司 一种跨数据库的大数据分析系统和分析方法
CN110096553B (zh) * 2019-03-28 2021-05-18 北京华成智云软件股份有限公司 一种跨数据库的大数据分析系统和分析方法
CN110147357A (zh) * 2019-05-07 2019-08-20 浙江科技学院 一种基于大数据环境下的多源数据聚合抽样方法及系统
CN112749189A (zh) * 2019-10-29 2021-05-04 北京国双科技有限公司 数据查询方法及装置
CN111400569A (zh) * 2020-03-13 2020-07-10 重庆特斯联智慧科技股份有限公司 一种多源聚合结构的大数据分析方法和系统
CN111723142A (zh) * 2020-06-24 2020-09-29 厦门海迈科技股份有限公司 一种数据处理方法及装置
CN111985578A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 多源数据融合方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN107066534B (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN107066534A (zh) 多源数据聚合方法及系统
Conitzer Eliciting single-peaked preferences using comparison queries
Oukil Embedding OWA under preference ranking for DEA cross‐efficiency aggregation: Issues and procedures
US20100022752A1 (en) Identifying components of a network having high importance for network integrity
CN108280365A (zh) 数据访问权限管理方法、装置、终端设备及存储介质
CN102982416A (zh) 一种绩效考核的通用实现模型
Ca Technological capability and learning in firms: Vietnamese industries in transition
CN103562905B (zh) 改进的数据可视化配置系统及方法
CN109299220A (zh) 职工在线考试试卷生成方法及终端设备
Kraker et al. Open knowledge maps: Creating a visual interface to the world’s scientific knowledge based on natural language processing
Lackner Incomplete preferences in single-peaked electorates
CN106326475A (zh) 一种高效的静态哈希表实现方法及系统
CN106446000A (zh) 基于边界交互的区组合拓扑相似性度量方法
CN103488672B (zh) 在关联存储器内创建优化比较标准
CN107908733A (zh) 一种全球贸易数据的查询方法,装置及系统
CN109716321A (zh) N路散列连接
Vin et al. A multiple-objective grouping genetic algorithm for the cell formation problem with alternative routings
CN107256132A (zh) 一种基于性能测试的异构Redis集群存储分配方法
CN104050291B (zh) 一种账户余额数据的并行处理方法和系统
Anand et al. Knowledge sharing in organization: Reviewing the foundations of the field and current themes using bibliometrics
Notheisen et al. Requirement-driven Taxonomy Development–A Classification of Blockchain Technologies for Securities Post-Trading
CN106599291A (zh) 数据分组方法及装置
Sim Consolidation of success factors in data mining projects
Chua et al. CB-contract: Case-based reasoning approach to construction contract strategy formulation
CN104572880B (zh) 基于用户的协同过滤的并行实现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant