CN103870455B - 一种多数据源的数据集成处理方法和装置 - Google Patents

一种多数据源的数据集成处理方法和装置 Download PDF

Info

Publication number
CN103870455B
CN103870455B CN201210525979.5A CN201210525979A CN103870455B CN 103870455 B CN103870455 B CN 103870455B CN 201210525979 A CN201210525979 A CN 201210525979A CN 103870455 B CN103870455 B CN 103870455B
Authority
CN
China
Prior art keywords
data
data item
data source
integrated
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210525979.5A
Other languages
English (en)
Other versions
CN103870455A (zh
Inventor
庄卓然
张俊
王蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210525979.5A priority Critical patent/CN103870455B/zh
Publication of CN103870455A publication Critical patent/CN103870455A/zh
Application granted granted Critical
Publication of CN103870455B publication Critical patent/CN103870455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种多数据源的数据集成处理方法和装置,其中所述方法包括:获得当前数据集成处理所需的目标数据项的信息;依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项;将所述目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算。本申请可以降低多数据源的数据集成处理的开发和维护的难度,提高多数据源的数据集成处理的效率。

Description

一种多数据源的数据集成处理方法和装置
技术领域
本申请涉及网络应用系统的技术领域,特别是涉及一种多数据源的数据集成处理方法,以及,一种多数据源的数据集成装置。
背景技术
目前,随着互联网的高速发展,网络应用系统呈现出高复杂性的特点。单一系统的功能实现不再仅仅依赖于一个数据源,随着分布式思想在互联网领域的广泛应用,网络应用系统可以支持不同的数据源,如网络应用系统的远程服务、数据库直读、数据仓库等数据源。
与多数据源对应的应用场景随之出现,一个典型的应用场景是:某一个数据项(目标数据项)的具体值依赖于其它N(N>1)个数据项的相互集成计算,并且这N个数据项分别来自不同的数据源。
现有技术中,基于多数据源的数据集成处理方法具体可以包括如下步骤:
步骤1、针对所需的数据项,根据业务场景从各数据源获取相应的各数据,具体可以包括:向数据源A请求数据、向数据源B请求数据、向数据源C请求数据等等;
步骤2、将从各数据源获取的各数据进行集成;
步骤3、根据业务场景对获取的各数据进行数据集成处理(例如对各数据进行相加操作的等);
步骤4、输出数据集成处理结果。
由于上述方法流程是面向特定的业务场景的,如果业务场景发生变化,则需要修改步骤1-步骤4对应的计算机程序代码,并在修改完成后重新发布;并且,随着应用场景的增多,只能通过重新开发计算机程序代码的方式来实现多数据源的数据集成处理,因此,现有技术中基于多数据源的数据集成处理方法增加了开发和维护的难度,严重影响了数据集成处理的效率。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够降低多数据源的数据集成处理的开发和维护的难度,提高多数据源的数据集成处理的效率。
发明内容
本申请所要解决的技术问题是提供一种多数据源的数据集成处理方法,用以降低多数据源的数据集成处理的开发和维护的难度,提高多数据源的数据集成处理的效率。
相应的,本申请还提供了一种多数据源的数据集成处理装置,用以保证上述方法在实际中的应用。
为了解决上述问题,本申请公开了一种多数据源的数据集成处理方法,包括:
获得当前数据集成处理所需的目标数据项的信息;
依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项;
将所述目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算。
优选地,所述数据项与数据源的映射关系预置在多数据源模型中,所述数据源为n个,所述n为大于1的正整数。
优选地,所述依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项的步骤包括:
将所述当前数据集成处理所需的目标数据项的信息输入所述多数据源模型;
由所述多数据源模型依据预置的数据项与数据源的映射关系,获得所述目标数据项的信息对应的多个数据源并输出;
向所述多个数据源发起对应数据项的获取请求;
接收所述多个数据源依据该请求返回的数据项,所述返回的数据项组成目标数据项。
优选地,所述目标数据项的集成计算规则预置在集成计算模型中。
优选地,所述将目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算的步骤包括:
将所述目标数据项输入所述集成计算模型;
由所述集成计算模型采用所述集成计算规则对所述目标数据项进行相应的集成计算,获得集成计算结果并输出。
优选地,所述目标数据项为多个数据项的集合,所述各个数据项分别来自不同的数据源。
本发明实施例还公开了一种多数据源的数据集成装置,包括:
目标数据项信息获取模块,用于获得当前数据集成处理所需的目标数据项的信息;
目标数据项提取模块,用于依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项;
集成计算模块,用于将所述目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算。
优选地,所述装置还包括:
所述数据项与数据源的映射关系预置在多数据源模型中,所述数据源为n个,所述n为大于1的正整数。
优选地,所述目标数据项提取模块包括:
多数据源模型输入子模块,用于将所述当前数据集成处理所需的目标数据项的信息输入所述多数据源模型;
多数据源模型输出子模块,用于由所述多数据源模型依据预置的数据项与数据源的映射关系,获得所述目标数据项的信息对应的多个数据源并输出;
请求子模块,用于向所述多个数据源发起对应数据项的获取请求;
目标数据项组织子模块,用于接收所述多个数据源依据该请求返回的数据项,所述返回的数据项组成目标数据项。
优选地,所述目标数据项的集成计算规则预置在集成计算模型中。
与现有技术相比,本申请具有以下优点:
本申请可以将业务场景的功能编译成为相应的业务模型,并且,所述业务模型对于所述业务核心功能而言是透明的,在业务核心功能需要的地方可以方便加载相应的业务场景的功能;这样,应用本申请,只需通过修改业务场景的功能,即可将所述业务核心功能应用到不同的业务场景,相对于现有技术,能够有效减少反复修改并发布所述数据集成处理的代码所花费的时间,从而能够有效提高数据集成处理的效率。
另外,本申请采用动态脚本语言描述业务模型,以及,开发能够动态添加功能的数据集成处理框架以实现所述业务核心功能;由于动态脚本语言的最大优点是能够运行时编译执行,即依据动态脚本语言生成的模型能随时被加载至所述集成处理框架,并且,在被加载至所述集成处理框架中时,所述业务模型能够在已发布的数据集成处理框架的基础上,通过动态脚本语言实现相应的功能,实现热部署,并达到解耦的目的;因此,本申请的数据集成处理框架具有高效的扩展性,能够实现不停机地热部署,获得即插即用的效果。
附图说明
图1示出了本申请的一种多数据源的组成形成示例的示意图;
图2示出了本申请的一种多数据源的数据集成处理方法实施例的步骤流程图;
图3示出了本申请的一种多数据源的数据集成装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为使本领域技术人员更好地理解本申请,可以参考图1所示的一种多数据源的组成形成示例的示意图,在图1中,应用系统A可以支持不同的数据源,例如,可以从应用系统B获得远程服务的数据,从数据库获得从数据库直接读取的数据,从应用系统C获取数据仓库的数据。
在这种数据的高度耦合应用场景下,某一个目标数据项的具体值依赖于其它N(N>1)个数据项的相互集成计算,并且这些数据项可能来自不同的数据源。本申请实施例即针对这种数据的高度耦合应用场景提出的多数据源数据集成处理机制。
本申请实施例的核心构思之一在于,提供一种业务核心功能和业务场景松散耦合的数据源的数据集成处理方案,具体而言,该方案针对业务核心功能构建数据集成处理框架,并将面向不同业务场景的业务逻辑抽象为相应的业务模型,所述业务模型对于所述数据集成处理框架而言是透明的,可根据实际需求被加载至所述数据集成处理框架中;应用本申请,只需通过修改业务模型,即可将所述数据集成处理框架应用到不同的业务场景中。
参照图2,其示出了本申请的一种多数据源的数据集成处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,获得当前数据集成处理所需的目标数据项的信息;
在本申请实施例中,所述当前数据集成处理是针对当前业务场景下的数据集成处理而言的。在各种业务场景下,某一个目标数据项的具体值往往依赖于其它N(N>1)个数据项的相互集成计算,并且这N个数据项分别来自不同的数据源。因而,当前数据集成处理所需的目标数据项的信息即可以理解为,当前业务场景所依赖的目标数据项的信息,所述目标数据项通常为包括N个数据项的集合。作为本申请实施例具体应用的一种示例,所述目标数据项可以采用多维数组或多维向量的形式表示。
所述业务场景是指与业务需求相关的系统应用环境,从数据处理角度而言,即针对业务需求所需的相应数据源中的目标数据项进行集成计算的需求,以下举例说明。
例1:某电子商务网站中的业务场景为,对一些数据项进行集成计算,而这些数据项源自网站内部不同的业务系统,包括安全系统、搜索系统、广告系统、处罚系统、营销系统等等。该电子商务网站的安全系统会记录某些异常账号(包括买家账号和卖家账号)的信息,例如,某个卖家账号因为涉嫌诈骗被标记为异常账号,该异常账号以及相应的异常行为信息会在安全系统中有所记录。另外,该电子商务网站的处罚系统也会记录一些账号的处罚信息。目前的业务需求是,基于广告系统中的P4P(按效果付费,Pay for performance)子系统让广告主不是按照广告投放时间,而是按照广告投放后带来的实际效果也即实际的用户数量来付费的功能,提高P4P子系统的安全性,避免有过不良历史记录的账号继续进行更大规模地诈骗。在这种业务需求下,此业务场景中的目标数据项的信息即可以包括:安全系统中的异常账号的信息,以及,处罚系统中有处罚信息的账号的信息。
例2:某电子商务网站中的搜索系统中会记录用户的行为信息,包括买家账号及相应的点击商品信息,买家账号及相应的购买商品信息等。另外,该电子商务网站的广告系统也会记录用户的行为信息,包括买家账号、点击广告的信息及相应的商品信息等。目前的业务需求是,营销系统欲针对用户个性化的需求进行商品推荐,则相应的业务场景为,在获取营销推荐对象的过程中从搜索系统和广告系统获取相应的数据项,并进行相应的数据集成处理,在这种业务场景下,目标数据项的信息即可以包括:搜索系统中的用户的行为信息,以及,广告系统中的用户的行为信息。
例3:某电子商务网站中包括用户评价系统和商品搜索系统,当前的业务场景为:将用户评价系统中差评较多的用户的商品,在商品搜索系统中排序权重调低。在这种业务场景下,目标数据项的信息可以包括用户评价系统中评价分值低于一定阈值的用户(差评用户),商品搜索系统中所述差评用户对应的商品信息及对应的排序权重(决定商品搜索时的排序位置)。
当然,上述示例仅仅用于说明所述步骤101,并不要求本申请限定在本示例的相关情形中,本领域技术人员依据实际情况采用任一种方式获得当前数据集成处理所需的目标数据项的信息均是可行的,本申请对此不作限制。
步骤102,依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项;
如前所述,所述N个数据项分别来自不同的数据源,即可体现出所述N个数据项与n个数据源的映射关系,其中,所述N,n均为大于1的正整数。作为本申请实施例具体应用的一种示例,所述数据源可以为网站,也可以网站内的不同系统等,本申请对此不作限制。
基于所述数据项与数据源的映射关系,根据所述目标数据项的信息可以获得对应的多个数据源。通过预设的与数据源(系统,网站或平台等)的接口,可以向所述多个数据源发起对应数据项的获取请求,所述各个数据源将依据该请求返回相应的数据项,所述多个数据源返回的数据项即组成目标数据项。
在本申请的一种优选实施例中,所述数据项与数据源的映射关系可以设置在多数据源模型中,其中,所述数据源为n个,所述n为大于1的正整数。
所述多数据源模型为描述各业务场景的数据项与数据源的映射关系(目标数据项可视作多个数据项的集合,各个数据项分别来自于不同的数据源,也有可能目标数据项中的几个数据项来自于同一个数据源)的数据模型。
在具体实现中,所述多数据源模型可以设置为单输入,可变个数输出的数据结构。其输入即为当前数据集成处理所需的目标数据项的信息;其输出即为所述目标数据项所依赖的各数据源的信息。在实际中,所述多数据源模型输出的数量(即指可变个数)也可由本领域技术员依据具体的业务场景设置,本申请对此不作限制。
在所述本申请的优选实施例中,所述步骤102具体可以包括如下子步骤:
子步骤S12,将所述当前数据集成处理所需的目标数据项的信息输入所述多数据源模型;
子步骤S14,由所述多数据源模型依据预置的数据项与数据源的映射关系,获得所述目标数据项的信息对应的多个数据源并输出;
子步骤S16,向所述多个数据源发起对应数据项的获取请求;
子步骤S18,接收所述多个数据源依据该请求返回的数据项,所述返回的数据项组成目标数据项。
例如,对于前述例1,可以将当前业务场景所需的目标数据的信息:异常账号的信息,有处罚信息的账号的信息,输入多数据源模型,由该模型根据其预定义的数据项与数据源的映射关系,获得异常账号的信息对应的数据源为安全系统,有处罚信息的账号的信息对应的数据源为处罚系统,具体可以参考以下表1所示:
表1:
数据项 数据源
异常账号 安全系统
有处罚信息的账号 处罚系统
在本例中,从所述安全系统中提取出异常账号,从所述处罚系统中提取出有处罚信息的账号,组成例1业务场下的目标数据项。
对于前述例2,可以将当前业务场景所需的目标数据的信息:不同业务系统中用户的行为信息的信息,输入多数据源模型,由该模型根据其预定义的数据项与数据源的映射关系,获得用户的行为信息的信息对应的数据源为搜索系统和广告系统,具体可以参考以下表2所示:
表2:
数据项 数据源
用户的行为信息 搜索系统
用户的行为信息 广告系统
在本例中,从所述搜索系统中提取出用户的行为信息(包括买家账号及相应的点击商品信息,买家账号及相应的购买商品信息等),从所述广告系统中提取出用户的行为信息(包括买家账号、点击广告的信息及相应的商品信息等),组成例2业务场景下的目标数据项。
对于前述例3,可以将当前业务场景所需的目标数据的信息:用户评价系统中评价分值低于一定阈值的用户(差评用户)的信息,商品搜索系统中所述差评用户对应的商品信息及对应的排序权重的信息,输入多数据源模型,由该模型根据预定义的数据项与数据源的映射关系,获得用户的行为信息的信息对应的数据源为用户评价系统和商品搜索系统,具体可以参考以下表3所示:
表3:
数据项 数据源
差评用户 用户评价系统
差评用户对应的商品信息及对应的排序权重 商品搜索系统
在本例中,从所述用户评价系统中提取出用户评价系统中评价分值低于一定阈值的用户(差评用户),从所述商品搜索系统中提取出所述差评用户对应的商品信息及对应的排序权重,组成例3业务场景下的目标数据项。
对于所述子步骤S16而言,具体可以采用线程池技术实现多线程并发地向所述多个数据源发起对应数据项的获取请求的操作。公知的是,线程池是一种多线程处理形式,处理过程中将任务添加到队列,然后在创建线程后自动启动这些任务。线程池线程都是后台线程.每个线程都使用默认的堆栈大小,以默认的优先级运行,并处于多线程单元中.如果某个线程在托管代码中空闲(如正在等待某个事件),则线程池将插入另一个辅助线程来使所有处理器保持繁忙。如果所有线程池线程都始终保持繁忙,但队列中包含挂起的工作,则线程池将在一段时间后创建另一个辅助线程但线程的数目永远不会超过最大值。超过最大值的线程可以排队,但他们要等到其他线程完成后才启动。应用本实施例,通过多线程技术并发向各个数据源请求对应的数据项,由于多线程并发执行所述数据项的获取请求,任意两个请求之间互不影响,因此能够大大缩短数据集成处理的时间,提高数据集成处理的效率。
作为本申请实施例在具体应用中的一种示例,可以基于已有的数据集成处理框架(新生成的数据集成处理框架亦可,该框架主要用于执行本申请的多数据源的数据集成处理过程)运行本申请实施例。具体可以在所述数据集成处理框架中设置若干连接点(开放的接口,包括第一连接点,第二连接点等),在这种情况下,所述步骤102还可以包括如下子步骤:
子步骤S10、获取所述多数据源模型的代码;
子步骤S11、将所述多数据源模型的代码插入到所述数据集成处理框架上预置的第一连接点处。
上述子步骤S10和S11可部署在子步骤S12执行,可以实现在数据集成处理框架中加载所述多数据源模型的处理。
作为本实施例具体应用的一种示例,所述多数据源模型可以依据动态脚本语言生成。动态脚本语言的特点是能够运行时(Runtime)编译执行。即本实施例中依据动态脚本语言生成的多数据源模型可以随时被加载至所述数据集成处理流程中,并且,在被加载至所述数据集成处理流程中时,动态脚本语言能够实现相应的功能,实现热部署,达到解耦的目的。具体而言,所述动态脚本语言可以包括Groovy动态脚本语言,Groovy动态脚本语言为解释性语言,能够将传统高级语言的编译阶段透明化,实现即插即用的效果。
当然,所述Groovy动态脚本语言并不作为本申请的应用限制,实际上,本申请的动态脚本语言还可以包括MVEL(MVFLEX表达式语言)、OGNL(对象图导航语言)等。
在具体实现中,可以采用spring开源框架、aspect J(方面J)等技术的面向过程编程方法进行数据集成处理框架的开发。优选的是,所述数据集成处理框架可为依据面向切面编程技术开发得到。AOP(面向切面编程,Aspect Oriented Programming),可以通过预编译方式和运行期动态代理实现在不修改源代码的情况下给程序动态统一添加功能的一种技术;其主要实现的目的是针对业务处理过程(本申请的数据集成处理流程)中的切面进行提取,其面对数据集成处理流程中的某个节点,以获得逻辑过程中各部分之间低耦合性的隔离效果。具体到本申请实施例中,AOP开发的数据集成处理框架欲要提取的切面就是多数据源模型,数据集成处理流程中的相应节点就是切面插入数据集成处理框架相应连接点的位置。
当然除了AOP外,本领域技术人员还可以采用其它技术开发所述数据集成处理框架以实现动态加载业务模型的功能,例如,Pipeline(管线)技术等,本申请对此不作限制。
在本申请的一种优选实施例中,为了能够让各个应用系统更方便地使用,同时提升稳定性,节约网络消耗,可以将所述数据集成处理框架开发成为jar(二方包),随时、随地、随心用。二方包(jar)的部署使数据集成处理框架调用编程本地服务,而非远程数据。不需要网络带宽消耗,同时方便调试升级。
步骤103,将所述目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算。
在实际中,由于多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了"信息孤岛"。应用本申请实施例的数据集成处理即可对已有的信息进行整合,联通“信息孤岛”,共享信息。数据集成是指通过应用,系统或平台间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题。所述集成计算的规则(即集成计算的方式)可以根据实际应用场景设置,例如多个数据项相加求和,对目标数据项按条件筛选过滤,对不同数据项分配不同权重,计算加权平均值等。
在本申请的一种优选实施例中,所述目标数据项的集成计算规则可以设置在集成计算模型中。
所述集成计算模型为描述目标数据项的集成计算规则的数据模型,在具体实现中,可以设置为单输入单输出的数据结构。即该模型的输入为目标数据项,输出为所述目标数据项的集成计算结果。
在本申请的一种优选实施例中,所述步骤103具体可以包括如下子步骤:
子步骤S22,将所述目标数据项输入所述集成计算模型;
子步骤S24,由所述集成计算模型采用所述集成计算规则对所述目标数据项进行相应的集成计算,获得集成计算结果并输出。
例如,对于前述例1,可以将目标数据项:从安全系统中提取的异常账号,以及,从处罚系统中提取的处罚信息的账号,输入所述集成计算模型,由该模型依据预定义的集成计算规则:过滤异常账号和有处罚信息的账号,在广告系统中的P4P子系统中对所述异常账号和有处罚信息的账号进行过滤处理,获得过滤掉异常账号和有处罚信息的账号的处理结果。
对于前述例2,可以将目标数据项:从搜索系统中提取的用户的行为信息,以及,从广告系统中提取的用户的行为信息,输入所述集成计算模型,由该模型依据预定义的协同过滤推荐的集成计算规则,根据搜索系统和广告系统中用户点击商品的行为数据,计算同类用户感兴趣的商品,获得需要在营销系统中使用的各用户的商品推荐内容。
对于前述例3,可以将目标数据项:从用户评价系统中提取的评价分值低于一定阈值的用户(差评用户),从商品搜索系统中提取的所述差评用户对应的商品信息及对应的排序权重,输入所述集成计算模型,由该模型依据预定义的集成计算规则:降低差评用户对应商品的排序权重,在商品搜索系统中将差评用户对应的商品排序权重进行调低处理。
当然,上述集成计算的方式仅仅用作示例,本领域技术人员依据实际情况设置任一种集成计算方式均是可行的,本申请对此无需加以限制。
作为本申请实施例具体实现的一种示例,当在数据集成处理框架运行本实施例时,所述步骤103还可以进一步包括如下子步骤:
步骤S20、获取所述集成计算模型的代码;
步骤S21、将所述集成处理模型的代码插入到所述数据集成处理框架上预置的第二连接点处。
上述子步骤S20和S21可部署在子步骤S22执行,可以实现在数据集成处理框架中加载所述集成计算模型的处理。在本申请的一种优选实施例中,所述集成处理模型也可以依据动态脚本语言生成。
需要说明的是,本申请实施例中所指“业务模型”即包括所述多数据源模型和集成计算模型。具体而言,本申请的业务模型主要适用于各种基于多数据源的数据集成处理场景,在这些基于多数据源的数据集成处理场景中,某一个目标数据项的具体值往往依赖于其它N(N>1)个数据项的相互集成计算,并且这N个数据项分别来自不同的数据源。这些基于多数据源的数据集成处理场景的业务逻辑具体可以包括:要获得某一个目标数据项的具体值,需要首先向该目标数据项所依赖的多个数据源分别请求相应的数据项,然后,针对目标数据项按照预置的集成计算规则进行集成计算,获得相应的集成计算结果。
在具体实现中,所述多数据源模型和集成计算模型对于本申请的数据集成处理流程来说是逻辑透明的,可以根据需要在数据集成处理框架中的相应节点加载多数据源模型和集成计算模型,例如,可以在预处理节点定制所述多数据源模型和集成计算模型,然后在处理节点(第一连接点,第二连接点)加载多数据源模型和集成计算模型等等。
本申请实施例具有如下优点:
通过采用动态脚本语言描述业务模型,以及,开发能够动态添加功能的数据集成处理框架;由于动态脚本语言的最大优点是能够运行时编译执行,即依据动态脚本语言生成的模型能随时被加载至所述集成处理框架,并且,在被加载至所述集成处理框架中时,所述业务模型能够在已发布的数据集成处理框架的基础上,通过动态脚本语言实现相应的功能,实现热部署,并达到解耦的目的;因此,本申请能够实现在不改动数据集成处理框架的前提下,只需修改业务模型,就能将数据集成处理框架复用到其它类似的业务场景,并且,所述数据集成处理框架具有高效的扩展性,能够实现不停机地热部署,获得即插即用的效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
参照图3,示出了一种数据搜索的装置实施例的结构框图,具体可以包括如下模块:
目标数据项信息获取模块301,用于获得当前数据集成处理所需的目标数据项的信息;
目标数据项提取模块302,用于依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项;
集成计算模块303,用于将所述目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算。
其中,所述目标数据项为多个数据项的集合,所述各个数据项分别来自不同的数据源。
在本申请的一种优选实施例中,所述数据项与数据源的映射关系可以设置在多数据源模型中,在这种情况下,所述目标数据项提取模块302可以进一步包括如下子模块:
多数据源模型输入子模块,用于将所述当前数据集成处理所需的目标数据项的信息输入所述多数据源模型;
多数据源模型输出子模块,用于由所述多数据源模型依据预置的数据项与数据源的映射关系,获得所述目标数据项的信息对应的多个数据源并输出;
请求子模块,用于向所述多个数据源发起对应数据项的获取请求;
目标数据项组织子模块,用于接收所述多个数据源依据该请求返回的数据项,所述返回的数据项组成目标数据项。
在本申请的一种优选实施例中,所述目标数据项的集成计算规则可以设置在集成计算模型中。在这种情况下,所述集成计算模块303可以包括如下子模块:
集成计算模型输入子模块,用于将所述目标数据项输入所述集成计算模型;
集成计算模型输出子模块,用于由所述集成计算模型采用所述集成计算规则对所述目标数据项进行相应的集成计算,获得集成计算结果并输出。
在具体实现中,所述多数据源模型和集成计算模型可以采用动态脚本语言生成。
由于所述装置实施例基本相应于前述方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种多数据源的数据集成处理方法,以及,一种多数据源的数据集成装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种多数据源的数据集成处理方法,其特征在于,包括:
获得当前数据集成处理所需的目标数据项的信息;
依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项;
将所述目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算;
其中,所述方法在数据集成处理框架上运行,所述数据项与数据源的映射关系预置在多数据源模型中,所述目标数据项的集成计算规则预置在集成计算模型中,在所述数据集成处理框架中加载不同业务场景所对应的所述多数据源模型和所述集成计算模型,所述多数据源模型为描述所述业务场景的数据项与数据源的映射关系的数据模型。
2.如权利要求1所述的方法,其特征在于,所述数据源为n个,所述n为大于1的正整数。
3.如权利要求1所述的方法,其特征在于,所述依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项的步骤包括:
将所述当前数据集成处理所需的目标数据项的信息输入所述多数据源模型;
由所述多数据源模型依据预置的数据项与数据源的映射关系,获得所述目标数据项的信息对应的多个数据源并输出;
向所述多个数据源发起对应数据项的获取请求;
接收所述多个数据源依据该请求返回的数据项,所述返回的数据项组成目标数据项。
4.如权利要求1所述的方法,其特征在于,所述将目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算的步骤包括:
将所述目标数据项输入所述集成计算模型;
由所述集成计算模型采用所述集成计算规则对所述目标数据项进行相应的集成计算,获得集成计算结果并输出。
5.如权利要求1或2或3或4所述的方法,其特征在于,所述目标数据项为多个数据项的集合,所述各个数据项分别来自不同的数据源。
6.一种多数据源的数据集成装置,其特征在于,包括:
目标数据项信息获取模块,用于获得当前数据集成处理所需的目标数据项的信息;
目标数据项提取模块,用于依据预置的数据项与数据源的映射关系,按照所述目标数据项的信息从对应的多个数据源中分别提取相应的数据项,以形成目标数据项;
集成计算模块,用于将所述目标数据项按照预置的目标数据项集成计算规则进行相应的集成计算;
其中,所述装置在数据集成处理框架上运行,所述数据项与数据源的映射关系预置在多数据源模型中,所述目标数据项的集成计算规则预置在集成计算模型中,在所述数据集成处理框架中加载不同业务场景所对应的所述多数据源模型和所述集成计算模型,所述多数据源模型为描述所述业务场景的数据项与数据源的映射关系的数据模型。
7.如权利要求6所述的装置,其特征在于,
所述数据源为n个,所述n为大于1的正整数。
8.如权利要求6或7所述的装置,其特征在于,所述目标数据项提取模块包括:
多数据源模型输入子模块,用于将所述当前数据集成处理所需的目标数据项的信息输入所述多数据源模型;
多数据源模型输出子模块,用于由所述多数据源模型依据预置的数据项与数据源的映射关系,获得所述目标数据项的信息对应的多个数据源并输出;
请求子模块,用于向所述多个数据源发起对应数据项的获取请求;
目标数据项组织子模块,用于接收所述多个数据源依据该请求返回的数据项,所述返回的数据项组成目标数据项。
CN201210525979.5A 2012-12-07 2012-12-07 一种多数据源的数据集成处理方法和装置 Active CN103870455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210525979.5A CN103870455B (zh) 2012-12-07 2012-12-07 一种多数据源的数据集成处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210525979.5A CN103870455B (zh) 2012-12-07 2012-12-07 一种多数据源的数据集成处理方法和装置

Publications (2)

Publication Number Publication Date
CN103870455A CN103870455A (zh) 2014-06-18
CN103870455B true CN103870455B (zh) 2017-10-24

Family

ID=50908999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210525979.5A Active CN103870455B (zh) 2012-12-07 2012-12-07 一种多数据源的数据集成处理方法和装置

Country Status (1)

Country Link
CN (1) CN103870455B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360879B (zh) * 2014-10-29 2019-03-01 中国建设银行股份有限公司 一种数据处理方法及装置
CN104750787B (zh) * 2015-03-12 2018-10-12 国家电网公司 数据集成处理系统和集成处理方法
CN105760515A (zh) * 2016-02-24 2016-07-13 国家电网公司 一种多数据源的同一对象数据的融合方法
CN105893526A (zh) * 2016-03-30 2016-08-24 上海坤士合生信息科技有限公司 多源数据融合系统和方法
CN106874335B (zh) * 2016-08-19 2020-08-04 阿里巴巴集团控股有限公司 行为数据处理方法、装置及服务器
US10650048B2 (en) * 2016-09-09 2020-05-12 Baidu Usa Llc Managing complex service dependencies in a data integration system
CN106383901B (zh) * 2016-09-29 2019-05-14 航天科工智慧产业发展有限公司 一种多数据源之间单向数据同步方法
CN107066534B (zh) * 2017-03-02 2019-08-20 人谷科技(北京)有限责任公司 多源数据聚合方法及系统
CN108021369B (zh) * 2017-12-21 2020-10-16 马上消费金融股份有限公司 一种数据集成处理方法及相关装置
CN108764674B (zh) * 2018-05-16 2021-02-09 普信恒业科技发展(北京)有限公司 一种基于规则引擎的风险控制方法和装置
CN109684367B (zh) * 2018-12-20 2020-12-11 四川新网银行股份有限公司 一种动态调整多数据源数据集成处理方法与装置
CN109753508A (zh) * 2018-12-29 2019-05-14 上海点硕网络科技有限公司 一种多平台信息投放和数据统计系统
CN110262854A (zh) * 2019-05-21 2019-09-20 深圳壹账通智能科技有限公司 多源数据处理方法及终端设备
CN111159311B (zh) * 2019-12-19 2023-09-15 远光软件股份有限公司 一种数据映射集成的方法、装置、设备及存储介质
CN111143461B (zh) * 2019-12-31 2024-04-19 中国银行股份有限公司 映射关系处理系统、方法和电子设备
CN111581305B (zh) * 2020-05-18 2023-08-08 抖音视界有限公司 特征处理方法、装置、电子设备和介质
CN111984657B (zh) * 2020-09-04 2023-07-25 河北幸福消费金融股份有限公司 数据归集方法、装置、存储介质及计算机设备
CN115811634B (zh) * 2023-02-06 2023-06-23 天翼云科技有限公司 一种视频用户行为数据的处理方法、系统、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1374606A (zh) * 2001-03-06 2002-10-16 时睿软件公司 通过计算机网络从数据库获取和集成数据的方法及系统
CN1811772A (zh) * 2005-01-25 2006-08-02 翁托普里塞有限公司 企业信息集成平台
CN102542027A (zh) * 2011-12-22 2012-07-04 北京航空航天大学深圳研究院 一种基于关系模式学习本体的数据集成系统的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1374606A (zh) * 2001-03-06 2002-10-16 时睿软件公司 通过计算机网络从数据库获取和集成数据的方法及系统
CN1811772A (zh) * 2005-01-25 2006-08-02 翁托普里塞有限公司 企业信息集成平台
CN102542027A (zh) * 2011-12-22 2012-07-04 北京航空航天大学深圳研究院 一种基于关系模式学习本体的数据集成系统的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
分布式异构数据源集成研究;张亚栋;《中国优秀硕士学位论文全文数据库》;20050915(第05期);全文 *
异构数据源集成方法的设计与研究;王连泽;《全国优秀硕士学位论文全文数据库》;20021215(第02期);全文 *

Also Published As

Publication number Publication date
CN103870455A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
CN103870455B (zh) 一种多数据源的数据集成处理方法和装置
AU2019284002B2 (en) Data processing method and related products
Luo et al. Cloudrank-d: benchmarking and ranking cloud computing systems for data processing applications
CN104090886A (zh) 构建用户实时画像的方法及装置
CN108415832A (zh) 接口自动化测试方法、装置、设备及存储介质
CN107045503A (zh) 一种特征集确定的方法及装置
TWI650650B (zh) 第三方應用的執行方法及系統
DE102018003221A1 (de) Unterstützung gelernter Sprungprädiktoren
US20170124492A1 (en) System for automated capture and analysis of business information for reliable business venture outcome prediction
Phillips et al. Snow white clouds and the seven dwarfs
Zhang et al. MrHeter: improving MapReduce performance in heterogeneous environments
CN103701906B (zh) 分布式实时计算系统及其数据处理方法
CN108920948A (zh) 一种反欺诈流式计算装置及方法
KR102672533B1 (ko) 퀸트 투자 기반의 금융 자산 자동 투자 시스템 및 방법
CN106354729A (zh) 一种图数据处理方法、装置和系统
CN107590736A (zh) 业务场景化实现方法及装置、计算机设备及可读存储介质
JP2021508903A (ja) フレキシブル・パイプライン生成のための方法及びシステム
CN109588054A (zh) 使用分布式模拟引擎对具有大型复杂数据集的系统的精确且详细的建模
US20240202834A1 (en) Modeling of complex systems using a distributed simulation engine
CN114266281A (zh) 一种图神经网络训练的方法、装置及系统
Mustafee et al. Distributed Approaches to Supply Chain Simulation: A Review
Park et al. Analyzing process-aware information system updates using digital twins of organizations
CN104346720A (zh) 一种跨境支付方式限制方法和系统
WO2019079054A1 (en) DETECTION OF ANOMALY IN DATA TRANSACTIONS
Dai et al. Refactoring business process models with process fragments substitution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211115

Address after: Room 554, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Taobao (China) Software Co., Ltd

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited