CN115203339A - 多数据源整合方法、装置、计算机设备及存储介质 - Google Patents

多数据源整合方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115203339A
CN115203339A CN202210731448.5A CN202210731448A CN115203339A CN 115203339 A CN115203339 A CN 115203339A CN 202210731448 A CN202210731448 A CN 202210731448A CN 115203339 A CN115203339 A CN 115203339A
Authority
CN
China
Prior art keywords
data
integration
data source
service
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210731448.5A
Other languages
English (en)
Inventor
牛煜超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210731448.5A priority Critical patent/CN115203339A/zh
Publication of CN115203339A publication Critical patent/CN115203339A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种多数据源整合方法、装置、计算机设备及存储介质,该方法获取对数据仓库的数据源整合请求,数据源整合请求中包含待处理业务数据和整合参数,通过服务单元对数据源整合请求进行校验,在校验通过的情况下,通过解析单元和整合参数对待处理业务数据进行解析,确定整合指标和数据源类型,从引擎单元的多个组件中确定与数据源类型匹配的目标组件,根据整合指标,通过目标组件和服务单元对待处理业务数据进行整合,得到标准整合数据,实现了对不同数据源的数据的规范化和统一处理,提高了对多数据源的整合效率,提升了数据仓库的可维护性和扩展性,提高了对数据快速接入和消费能力。

Description

多数据源整合方法、装置、计算机设备及存储介质
技术领域
本申请涉及网络数据库技术领域,具体涉及一种多数据源整合方法、装置、计算机设备及存储介质。
背景技术
随着信息技术的发展,企业或单位的数据量在高速增加,以银行信用卡类的业绩指标数据为例,在搭建信用卡OLAP系统时,往往需要对接多种数据源,如Oracle数据、SQLServer数据、API数据等,并且不同数据源的存储的规范不同,难以达到OLAP系统的快速对接新的数据源及快速消费数据的要求,因此,有必要提供高效的多数据源数据整合方法,以提高对多数据源数据的处理效率。
申请内容
本申请实施例提供一种多数据源整合方法、装置、计算机设备及存储介质,以解决不同数据源的存储的规范不同导致的对多数据源数据的处理性能较低的技术问题。
一方面,本申请提供一种多数据源整合方法,应用于云平台服务器,所述云平台服务器包括数据仓库,所述数据仓库配置为用于对数据进行校验和聚合的服务单元、用于对数据进行解析的解析单元和用于路由到目标组件的引擎单元,且所述引擎单元包含多个组件,每个组件对应一种数据源,所述方法包括:
获取对所述数据仓库的数据源整合请求,所述数据源整合请求中包含待处理业务数据和整合参数;
通过所述服务单元对所述数据源整合请求进行校验;
在校验通过的情况下,通过所述解析单元和所述整合参数对所述待处理业务数据进行解析,确定整合指标和数据源类型;
从所述引擎单元的多个组件中确定与所述数据源类型匹配的目标组件;
根据所述整合指标,通过所述目标组件和所述服务单元对待处理业务数据进行整合,得到标准整合数据。
一方面,本申请提供一种多数据源整合装置,所述多数据源整合装置应用于云平台服务器,所述云平台服务器包括数据仓库,所述数据仓库配置为用于对数据进行校验和聚合的服务单元、用于对数据进行解析的解析单元和用于路由到目标组件的引擎单元,且所述引擎单元包含多个组件,每个组件对应一种数据源,所述装置包括:
接收模块,用于获取对所述数据仓库的数据源整合请求,所述数据源整合请求中包含待处理业务数据和整合参数;
校验模块,用于通过所述服务单元对所述数据源整合请求进行校验;
解析模块,用于在校验通过的情况下,通过所述解析单元和所述整合参数对所述待处理业务数据进行解析,确定整合指标和数据源类型;
确定模块,用于从所述引擎单元的多个组件中确定与所述数据源类型匹配的目标组件;
整合模块,用于根据所述整合指标,通过所述目标组件和所述服务单元对待处理业务数据进行整合,得到标准整合数据。
一方面,本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述多数据源整合方法中的步骤。
一方面,本申请提供一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述多数据源整合方法中的步骤。
本申请实施例提供了一种多数据源整合方法,获取对数据仓库的数据源整合请求,数据源整合请求中包含待处理业务数据和整合参数,通过服务单元对数据源整合请求进行校验,在校验通过的情况下,通过解析单元和整合参数对待处理业务数据进行解析,确定整合指标和数据源类型,从引擎单元的多个组件中确定与数据源类型匹配的目标组件,根据整合指标,通过目标组件和服务单元对待处理业务数据进行整合,得到标准整合数据,实现了对不同数据源的数据的规范化和统一处理,提高了对多数据源的整合效率,并且由于服务单元、解析单元、引擎单元分别配置分离,各单元相互独立工作,且每个组件之间相互独立,简化了各个组件的内部代码,且对待处理业务数据进行处理过程中,其它单元和组件无感知,提升了数据仓库的可维护性和扩展性,提高了对数据快速接入和消费能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中多数据源整合方法的应用场景示意图;
图2为一个实施例中多数据源整合方法的流程图;
图3为一个实施例中云平台服务器的结构示意图
图4为一个实施例中多数据源整合装置的结构框图;
图5为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的多数据源整合方法,可应用在如图1的应用环境中,其中,终端设备通过网络与云平台服务器进行通信。其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。云平台服务器可以用独立的云平台服务器或者是多个云平台服务器组成的服务器集群来实现。
系统框架100可以包括终端设备101、102、103、网络104和云平台服务器105。网络104用以在终端设备和服务器之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备通过网络与云平台服务器交互,以接收或者发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
云平台服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本发明实施例所提供的多数据源整合方法由云平台服务器执行,相应地,多数据源整合装置设置于云平台服务器中。
应该理解,图1中的终端设备、网络和云平台服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和云平台服务器,本发明实施例中的终端设备具体可以对应的是实际生产中的应用系统。
如图2所示,在一个实施例中,提供了一种多数据源整合方法,该多数据源整合方法应用于云平台服务器,该云平台服务器包括数据仓库,数据仓库配置为用于对数据进行校验和聚合的服务单元、用于对数据进行解析的解析单元和用于路由到目标组件的引擎单元,且引擎单元包含多个组件,每个组件对应一种数据源。该多数据源整合方法具体包括以下步骤:
步骤201,获取对数据仓库的数据源整合请求,数据源整合请求中包含待处理业务数据和整合参数。
其中,云平台服务器一种具有处理能力可弹性伸缩的计算服务器。如图3所示,为本实施例中的云平台服务器的结构示意图,该云平台服务器包括数据仓库,数据仓库配置为服务单元、解析单元和引擎单元,引擎单元包含多个组件,一个组件对应一种类型的数据源。可以理解地,本实施例中通过将数据仓库配置为相互独立的多层结构,即服务单元、解析单元、引擎单元分别配置分离,各单元相互独立工作,使得其他层无感知,从而避免了其中的一层或者多层发生变化时,对其他层产生干扰。
数据源整合请求是指终端向云平台服务器的发送的用于对数据仓库中不同类型的数据源的数据进行整合的指令,该数据源整合请求中包含待处理业务数据和整合参数,整合参数是指需要整合后的数据的属性,例如,对于银行信用卡类的业绩指标数据的待处理数据,其整合参数可以是同一业务员、信用卡类型、办理方式的信用卡的账单总额。
步骤202,通过服务单元对数据源整合请求进行校验。
其中,校验用于对客户端发送的数据源整合请求是否标准的验证方式,例如,验证数据源整合请求中的待处理业务数据是否存在缺失,具体地,可以通过预设的正则表达式进行校验,如,Regexp(REGEXP_INSTR、REGEXP_SUBSTR和REGXP_REPLACE),其中的REGEXP_INSTR扩展了INSTR函数的功能,支持搜索字符串的正则表达式模式,且DSC可迁移含有2到6个参数的REGEXP_INSTR,以判断数据源整合请求是否标准,若数据源整合请求的格式满足标准要求,如待处理业务数据是完整的,判定为校验通过,否则,判定为检验不通过,以避免对不标准的数据源整合请求的冗余操作,提高多数据源整合效率。
步骤203,在校验通过的情况下,通过解析单元和整合参数对待处理业务数据进行解析,确定整合指标和数据源类型。
其中,整合指标是指按照整合参数的属性逻辑进行关联整合后的待处理业务数据的指标属性,例如,当整合参数A为一个时间段T、业务员标识ID、账单总额ID的组合时,其表示形式为A=(T,ID,S),则对应的整合指标L可以是将同一个业务员办理的信用卡,在这个时间段的账单总额,则L=sum(S)。
具体地,当数据源整合请求校验通过,表明待处理业务数据完整,满足整合的条件,可以通过将待处理业务数据中的各个业务数据的类型和预设标准数据进行匹配,确定待处理业务数据的数据源,也可以在数据源整合请求中包含地址的情况下,对数据源整合请求中的地址与各种数据源类型对应的地址进行比对,确定待处理业务数据的数据源类型。
步骤204,从引擎单元的多个组件中确定与数据源类型匹配的目标组件。
其中,组件是用于处理不同数据源类型的数据的插件,一种数据源类型对应一个组件。目标组件是用于处理与数据源类型对应的数据的插件,也即一种数据模型,如数据分析的机器学习模型,如Data Science或者Vertica,Vertica使用大规模并行运算处理PB级数据,并通过数据并行进行内部机器学习,有8个用于数据准备的内置算法、3个回归算法、4个分类算法、2个聚类算法以及多个模型管理函数,具备将已训练的TensorFlow和PMML模型导入至其他地方的功能,也可以是数据分析的数学模型,即预先通过数据建模方式构建的数学模型。具体地,根据数据源类型,路由到与数据源对应的组件,即目标组件,以便通过与数据源类型匹配的目标组件对相应的不同规范的待处理业务数据进行规范处理,提高待处理业务数据的统一性和规范性,提升多种数据源类型的数据的容错性能。
步骤205,根据整合指标,通过目标组件和服务单元对待处理业务数据进行整合,得到标准整合数据。
其中,整合是指对数据进行整理和聚合计算的一种数据处理方式,例如,根据整合指标对应的字段,采用数据库查询语句,如SQL语法对待处理业务数据进行聚合分析,更具体地,例如整合指标为ES明细,则通过目标组件将整合指标转化为DSL语句,并发送至服务单元,服务单元根据接收到的DSL语句对待处理业务数据进行整合,其中的DSL包含的语法为:通过query查询符合条件的数据,然后通过nested-aggs进行聚合分析,得到标准整合数据。作为本实施例的优选,采用painless对聚合分析后的数据进行格式化,得到标准整合数据,实现了对不同数据源的数据的规范化和统一处理,提高了对多数据源的整合效率,并且由于服务单元、解析单元、引擎单元分别配置分离,各单元相互独立工作,且每个组件之间相互独立,简化了各个组件的内部代码,且对待处理业务数据进行处理过程中,其它单元和组件无感知,提升了数据仓库的可维护性和扩展性,提高了对数据快速接入和消费能力。
上述多数据源整合方法,获取对数据仓库的数据源整合请求,数据源整合请求中包含待处理业务数据和整合参数,通过服务单元对数据源整合请求进行校验,在校验通过的情况下,通过解析单元和整合参数对待处理业务数据进行解析,确定整合指标和数据源类型,从引擎单元的多个组件中确定与数据源类型匹配的目标组件,根据整合指标,通过目标组件和服务单元对待处理业务数据进行整合,得到标准整合数据,实现了对不同数据源的数据的规范化和统一处理,提高了对多数据源的整合效率,并且由于服务单元、解析单元、引擎单元分别配置分离,各单元相互独立工作,且每个组件之间相互独立,简化了各个组件的内部代码,且对待处理业务数据进行处理过程中,其它单元和组件无感知,提升了数据仓库的可维护性和扩展性,提高了对数据快速接入和消费能力。
在一个实施例中,服务单元包括多个标准数据源整合请求或各自对应的校验表达式中的至少一项,校验表达式用于指示数据源整合请求的校验规则;通过服务单元对数据源整合请求进行校验,包括:将数据源整合请求与各个标准数据源整合请求进行比对,根据比对结果判断是否校验通过;或,利用校验表达式对数据源整合请求进行校验,判断是否校验通过。
其中,标准数据源整合请求是指预先存储在云平台服务器中的标准数据源整合请求,如标准的请求网址。校验表达式是指与标准数据源整合请求匹配的表达式,如正则表达式,用于指示数据源整合请求的校验规则。
具体地,将数据源整合请求与各个标准数据源整合请求进行比对,当比对结果为数据源整合请求与其中一个标准数据源整合请求一致时,判定校验通过;当比对结果为数据源整合请求与所有标准数据源整合请求均不一致时,判定校验不通过;或者,利用校验表达式中的校验规则对数据源整合请求进行校验,当校验表达式的结果返回true时,判定校验通过,当校验表达式的结果返回false时,判定校验不通过。本实施例中通过服务单元中的标准数据源整合请求或各自对应的校验表达式对数据源整合请求进行校验,避免对校验不通过的数据源整合请求的冗余处理,提高了多数据源的整合效率。
在一个实施例中,解析单元包括数据库地址识别工具和指标解析逻辑表达式,其中,指标解析逻辑表达式用于指示整合参数的解析规则;在校验通过的情况下,通过解析单元和整合参数对待处理业务数据进行解析,确定整合指标和数据源类型,包括:利用数据库地址识别工具对待处理业务数据进行识别,得到数据源类型;通过指标解析逻辑表达式对整合参数的定义进行逻辑解析,得到整合指标。
其中,数据库地址识别工具是一种用于识别数据库地址的插件,例如,mysqlbinlog工具、LogMiner工具、fn_dblog工具等。若通过mysqlbinlog工具实现识别,则确定数据源为MySQL数据库,若通过LogMiner工具实现识别,则确定数据源为Oracle数据库,若通过fn_dblog工具实现识别,则确定数据源为SQL Server数据库。
指标解析逻辑表达式是一种用于指示整合参数的解析规则,例如,指标解析表达式为sum(X),其中的X为整合参数中的一个参数,其中的逻辑为求和运算。
具体地,利用数据库地址识别工具对待处理业务数据进行识别,得到数据源类型,通过指标解析逻辑表达式对整合参数的定义进行逻辑解析,得到整合指标,实现了对待处理业务数据的解析。
在一个实施例中,从引擎单元的多个组件中确定与数据源类型匹配的目标组件,包括:将数据源类型、待处理业务数据和整合指标输入路由匹配模型,得到目标组件。
其中,路由匹配模型是预先训练的用于确定数据源类型对应的目标组件的机器学习模型。具体地,将数据源类型、待处理业务数据和整合指标作为路由匹配模型的输入,路由匹配模型的输出结果即为目标组件。可以理解地,本实施例中通过机器学习模型,并结合数据源类型、待处理业务数据和整合指标的信息,确定与数据源类型匹配的目标组件,进一步提高了目标组件的准确性。
在一个实施例中,根据解析整合指标,通过目标组件和服务单元对待处理业务数据进行整合,得到标准整合数据,包括:根据整合指标,通过服务单元获取待处理业务数据包含的字段;从字段中获取待处理业务数据包含的相同字段;根据相同字段,将多个待处理业务数据进行关联合并,得到初始整合数据;通过目标组件对初始整合数据进行标准化处理,得到标准整合数据。
其中,标准化处理是指对整合数据进行规范化处理,例如,如将相同含义的整合指标、名称不同的字段进行统一,实现标准化。具体地,根据整合指标,通过服务单元获取待处理业务数据包含的字段,然后,从字段中获取待处理业务数据包含的相同字段,接着,将相同字段的多个待处理业务数据中进行关联合并,得到初始整合数据,最后,通过目标组件对初始整合数据进行标准化处理,得到标准整合数据,实现了对待处理业务数据的整合,使得标准整合数据更加规范化和标准化,实现了对多数据源数据的统一。
在一个实施例中,每个组件包括与各个字段对应的结构化查询语句;通过目标组件对初始整合数据进行标准化处理,得到标准整合数据,包括:将初始整合数据作为结构化查询语句的输入参数,生成标准整合数据。
其中,每个组件包括与各个字段对应的结构化查询语句,在目标组件的结构化查询语句中输入初始整合数据,结构化查询语句输出标准整合数据,本实施例中,通过结构化查询语句实现了对初始整合数据的标准化处理,简单便捷,且代码简单,提高了多数据源标准化处理效率。
在一个实施例中,该多数据源整合方法还包括:在检测到待处理业务数据的数据源类型为新增的数据源类型时,则在引擎单元中构建与新增的数据源类型匹配的数据模型;确定数据模型的脚本;执行脚本,得到与新增的数据源类型匹配的目标组件。
其中,数据模型的脚本是指数据模型的代码,具体地,当待处理业务数据的数据源类型为新增的数据类型时,则需要构建对应的目标组件,因此,在引擎单元中构建与新增的数据源类型匹配的数据模型,根据数据模型确定对应的脚本,并执行脚本,从而生成与新增的数据源类型匹配的目标组件,从而实现了快速增加新的数据源的目标组件。
在一个实施例中,该多数据源整合方法还包括:若检测到引擎单元中,在预设时间段内不为目标组件的组件时,确定组件为待删除组件;从引擎单元中删除待删除组件。
具体地,当在预设时间段内,例如,一个月,引擎单元的一个或者多个组件不为目标组件,表明在较长时间内,待处理业务数据的数据源类型与组件不匹配,也即该组件为冗余组件,因此,将这类组件作为待删除组件并进行删除,提高了数据仓库的内存,从而进一步提高对数据的处理效率。
如图4所示,在一个实施例中,提出了一种多数据源整合装置,所述多数据源整合装置应用于云平台服务器,所述云平台服务器包括数据仓库,所述数据仓库配置为用于对数据进行校验和聚合的服务单元、用于对数据进行解析的解析单元和用于路由到目标组件的引擎单元,且所述引擎单元包含多个组件,每个组件对应一种数据源,所述装置包括:
接收模块,用于获取对所述数据仓库的数据源整合请求,所述数据源整合请求中包含待处理业务数据和整合参数;
校验模块,用于通过所述服务单元对所述数据源整合请求进行校验;
解析模块,用于在校验通过的情况下,通过所述解析单元和所述整合参数对所述待处理业务数据进行解析,确定整合指标和数据源类型;
确定模块,用于从所述引擎单元的多个组件中确定与所述数据源类型匹配的目标组件;
整合模块,用于根据所述整合指标,通过所述目标组件和所述服务单元对待处理业务数据进行整合,得到标准整合数据。
在一个实施例中,所述服务单元包括多个标准数据源整合请求或各自对应的校验表达式中的至少一项,校验模块包括:
比对单元,用于将所述数据源整合请求与各个所述标准数据源整合请求进行比对,根据比对结果判断是否校验通过;或,
检验单元,用于利用所述校验表达式对所述数据源整合请求进行校验,判断是否校验通过。
在一个实施例中,所述解析单元包括数据库地址识别工具和指标解析逻辑表达式,解析模块包括:
识别单元,用于利用所述数据库地址识别工具对所述待处理业务数据进行识别,得到所述数据源类型;
解析单元,用于通过所述指标解析逻辑表达式对所述整合参数的定义进行逻辑解析,得到所述整合指标。
在一个实施例中,确定模块包括:匹配单元,用于将所述数据源类型、所述待处理业务数据和所述整合指标输入路由匹配模型,得到所述目标组件。
在一个实施例中,整合模块包括:
第一获取单元,用于根据所述整合指标,通过所述服务单元获取所述待处理业务数据包含的字段;
第二获取单元,用于从所述字段中获取所述待处理业务数据包含的相同字段;
合并单元,用于根据所述相同字段,将多个所述待处理业务数据进行关联合并,得到初始整合数据;
标准化单元,用于通过所述目标组件对所述初始整合数据进行标准化处理,得到所述标准整合数据。
在一个实施例中,每个所述组件包括与各个所述字段对应的结构化查询语句;标准化单元包括:生成子单元,用于将所述初始整合数据作为所述结构化查询语句的输入参数,生成所述标准整合数据。
在一个实施例中,该多数据源整合装置还包括:
检测模块,用于在检测到所述待处理业务数据的数据源类型为新增的数据源类型时,则在所述引擎单元中构建与所述新增的数据源类型匹配的数据模型;
第一确定模块,用于确定所述数据模型的脚本;
执行模块,用于执行所述脚本,得到与所述新增的数据源类型匹配的目标组件。
在一个实施例中,该多数据源整合装置还包括:
第二确定模块,用于若检测到所述引擎单元中,在预设时间段内不为所述目标组件的组件时,确定所述组件为待删除组件;
删除模块,用于从所述引擎单元中删除所述待删除组件。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器,所述服务器包括但不限于高性能计算机和高性能计算机集群。如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现多数据源整合方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行多数据源整合方法。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的多数据源整合方法可以实现为一种计算机程序的形式,计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成多数据源整合装置的各个程序模板。比如,获取模块301,分析模块302,融合模块303,提取模块304,确定模块305。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多数据源整合方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多数据源整合方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种多数据源整合方法,其特征在于,应用于云平台服务器,所述云平台服务器包括数据仓库,所述数据仓库配置为用于对数据进行校验和聚合的服务单元、用于对数据进行解析的解析单元和用于路由到目标组件的引擎单元,且所述引擎单元包含多个组件,每个组件对应一种数据源,所述方法包括:
获取对所述数据仓库的数据源整合请求,所述数据源整合请求中包含待处理业务数据和整合参数;
通过所述服务单元对所述数据源整合请求进行校验;
在校验通过的情况下,通过所述解析单元和所述整合参数对所述待处理业务数据进行解析,确定整合指标和数据源类型;
从所述引擎单元的多个组件中确定与所述数据源类型匹配的目标组件;
根据所述整合指标,通过所述目标组件和所述服务单元对待处理业务数据进行整合,得到标准整合数据。
2.如权利要求1所述的多数据源整合方法,其特征在于,所述服务单元包括多个标准数据源整合请求或各自对应的校验表达式中的至少一项,所述校验表达式用于指示数据源整合请求的校验规则;
所述通过所述服务单元对所述数据源整合请求进行校验,包括:
将所述数据源整合请求与各个所述标准数据源整合请求进行比对,根据比对结果判断是否校验通过;或,
利用所述校验表达式对所述数据源整合请求进行校验,判断是否校验通过。
3.如权利要求1所述的多数据源整合方法,其特征在于,所述解析单元包括数据库地址识别工具和指标解析逻辑表达式,其中,所述指标解析逻辑表达式用于指示所述整合参数的解析规则;
所述在校验通过的情况下,通过所述解析单元和所述整合参数对所述待处理业务数据进行解析,确定整合指标和数据源类型,包括:
利用所述数据库地址识别工具对所述待处理业务数据进行识别,得到所述数据源类型;
通过所述指标解析逻辑表达式对所述整合参数的定义进行逻辑解析,得到所述整合指标。
4.如权利要求3所述的多数据源整合方法,其特征在于,所述从所述引擎单元的多个组件中确定与所述数据源类型匹配的目标组件,包括:
将所述数据源类型、所述待处理业务数据和所述整合指标输入路由匹配模型,得到所述目标组件。
5.如权利要求1所述的多数据源整合方法,其特征在于,所述根据所述整合指标,通过所述目标组件和所述服务单元对待处理业务数据进行整合,得到标准整合数据,包括:
根据所述整合指标,通过所述服务单元获取所述待处理业务数据包含的字段;
从所述字段中获取所述待处理业务数据包含的相同字段;
根据所述相同字段,将多个所述待处理业务数据进行关联合并,得到初始整合数据;
通过所述目标组件对所述初始整合数据进行标准化处理,得到所述标准整合数据。
6.如权利要求5所述的多数据源整合方法,其特征在于,每个所述组件包括与各个所述字段对应的结构化查询语句;
所述通过所述目标组件对所述初始整合数据进行标准化处理,得到所述标准整合数据,包括:
将所述初始整合数据作为所述结构化查询语句的输入参数,生成所述标准整合数据。
7.如权利要求1-6任一项所述的多数据源整合方法,其特征在于,所述方法还包括:
在检测到所述待处理业务数据的数据源类型为新增的数据源类型时,则在所述引擎单元中构建与所述新增的数据源类型匹配的数据模型;
确定所述数据模型的脚本;
执行所述脚本,得到与所述新增的数据源类型匹配的目标组件。
8.如权利要求7所述的多数据源整合方法,其特征在于,所述方法还包括:
若检测到所述引擎单元中,在预设时间段内不为所述目标组件的组件时,确定所述组件为待删除组件;
从所述引擎单元中删除所述待删除组件。
9.一种多数据源整合装置,其特征在于,所述多数据源整合装置应用于云平台服务器,所述云平台服务器包括数据仓库,所述数据仓库配置为用于对数据进行校验和聚合的服务单元、用于对数据进行解析的解析单元和用于路由到目标组件的引擎单元,且所述引擎单元包含多个组件,每个组件对应一种数据源,所述装置包括:
接收模块,用于获取对所述数据仓库的数据源整合请求,所述数据源整合请求中包含待处理业务数据和整合参数;
校验模块,用于通过所述服务单元对所述数据源整合请求进行校验;
解析模块,用于在校验通过的情况下,通过所述解析单元和所述整合参数对所述待处理业务数据进行解析,确定整合指标和数据源类型;
确定模块,用于从所述引擎单元的多个组件中确定与所述数据源类型匹配的目标组件;
整合模块,用于根据所述整合指标,通过所述目标组件和所述服务单元对待处理业务数据进行整合,得到标准整合数据。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述多数据源整合方法的步骤。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述多数据源整合方法的步骤。
CN202210731448.5A 2022-06-24 2022-06-24 多数据源整合方法、装置、计算机设备及存储介质 Pending CN115203339A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210731448.5A CN115203339A (zh) 2022-06-24 2022-06-24 多数据源整合方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210731448.5A CN115203339A (zh) 2022-06-24 2022-06-24 多数据源整合方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115203339A true CN115203339A (zh) 2022-10-18

Family

ID=83577638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210731448.5A Pending CN115203339A (zh) 2022-06-24 2022-06-24 多数据源整合方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115203339A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303380A (zh) * 2023-01-10 2023-06-23 浪潮智慧科技有限公司 一种监测业务中的数据质量校验方法、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303380A (zh) * 2023-01-10 2023-06-23 浪潮智慧科技有限公司 一种监测业务中的数据质量校验方法、设备及介质
CN116303380B (zh) * 2023-01-10 2024-01-23 浪潮智慧科技有限公司 一种监测业务中的数据质量校验方法、设备及介质

Similar Documents

Publication Publication Date Title
CN109947789B (zh) 一种多数据库的数据处理的方法、装置、计算机设备及存储介质
WO2020186786A1 (zh) 文件处理方法、装置、计算机设备和存储介质
WO2020057022A1 (zh) 关联推荐方法、装置、计算机设备和存储介质
WO2021217846A1 (zh) 接口数据处理方法、装置、计算机设备和存储介质
CN111709527A (zh) 运维知识图谱库的建立方法、装置、设备及存储介质
CN112052138A (zh) 业务数据质量检测方法、装置、计算机设备及存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN110674131A (zh) 财务报表数据处理方法、装置、计算机设备和存储介质
CN113946690A (zh) 潜在客户挖掘方法、装置、电子设备及存储介质
CN113204621A (zh) 文档入库、文档检索方法,装置,设备以及存储介质
CN113760891A (zh) 一种数据表的生成方法、装置、设备和存储介质
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN114385722A (zh) 接口属性的一致性校验方法、装置、电子设备和存储介质
CN115544007A (zh) 标签预处理方法、装置、计算机设备和存储介质
CN113434542B (zh) 数据关系识别方法、装置、电子设备及存储介质
CN115203339A (zh) 多数据源整合方法、装置、计算机设备及存储介质
CN113806492A (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
US20240095219A1 (en) Techniques for discovering and updating semantic meaning of data fields
CN116304891B (zh) 基于多源数据迁移学习的类别预测方法和装置
CN117251777A (zh) 数据处理方法、装置、计算机设备和存储介质
CN116860311A (zh) 脚本分析方法、装置、计算机设备及存储介质
CN115470861A (zh) 数据处理方法、装置和电子设备
CN115481026A (zh) 测试案例的生成方法、装置、计算机设备、存储介质
CN114416847A (zh) 一种数据转换的方法、装置、服务器及存储介质
CN114064976A (zh) 一种数据特征计算的方法、系统、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination