CN114138758A - 一种基于多源系统的数据清洗合并方法、装置及可读介质 - Google Patents

一种基于多源系统的数据清洗合并方法、装置及可读介质 Download PDF

Info

Publication number
CN114138758A
CN114138758A CN202110909880.4A CN202110909880A CN114138758A CN 114138758 A CN114138758 A CN 114138758A CN 202110909880 A CN202110909880 A CN 202110909880A CN 114138758 A CN114138758 A CN 114138758A
Authority
CN
China
Prior art keywords
information
warehousing
task scheduling
source system
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110909880.4A
Other languages
English (en)
Inventor
李卫江
陈军
刘龙辉
庄祖川
卢衍科
严璐琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Information Port Construction Development Co ltd
Original Assignee
Xiamen Information Port Construction Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Information Port Construction Development Co ltd filed Critical Xiamen Information Port Construction Development Co ltd
Priority to CN202110909880.4A priority Critical patent/CN114138758A/zh
Publication of CN114138758A publication Critical patent/CN114138758A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多源系统的数据清洗合并方法、装置及可读介质,通过构建业务库,监听多个源系统的数据变更信息,生成任务调度单;根据业务库的入库配置获取任务调度单以生成信息任务调度队列,对信息任务调度队列进行清洗,得到有效的信息任务调度队列;根据有效的信息调度任务队列生成入库表,在入库表中建立源系统与业务库之间的转移关系和信息入库类型;根据任务调度单获取源系统的数据,基于源系统与业务库之间的信息映射关系得到变更信息,将变更信息写入入库表中的入库信息;根据入库信息和信息入库类型对业务库的元模型中的元数据进行变更。因此可以对多源系统中变更数据进行有效地清洗,方便对源系统的数据进行统一管理。

Description

一种基于多源系统的数据清洗合并方法、装置及可读介质
技术领域
本发明涉及数据清洗领域,具体涉及一种基于多源系统的数据清洗合并方法、装置及可读介质。
背景技术
目前,为使事务办理变得更加方便快捷,很多地方都会建立多个线上业务管理系统,随着各个业务系统的建立和使用,“数据孤岛”的问题影响了用户和管理单位的日常使用。目前面临如下痛点:
1、重复录入信息:各个系统各自维护数据,导致重复维护工作量,并且由于业务不同办理人员不同,导致了数据不全、数据错误概率高。
2、信息不互通:信息未统一管理,导致业务上无法把控,例如不知道企业迁入迁出状态,迁出企业仍享受园区企业服务、楼宇管理员不清楚有哪些新增注册企业信息,不能及时核实企业入驻情况等。
3、对用户的了解比较零散:从多个系统获得的零散信息,不能清晰知道用户的所有情况,无法为多维度数据分析提供支撑。例如企业处于什么阶段、存在什么困难、是否有迁出园区的意向等。
4、对违规行为管控较为困难:企业违规行为如拖欠费用、乱停车等,多次劝导无效的,无法进行进一步有效管控。
5、改善方向不清晰:缺乏数字化支撑,现有对地区的提升更多依赖人为经验,没有办法全貌的了解地区的核心优势在哪里,短板在哪里。
6、运营效率跟进不及时无法快速的了解地区的资产、资源的使用情况及服务的效率,运营分析数据量不足。
7、用户体验差:各个业务系统拥有独立数据库,数据无法互通,导致用户办理业务时需要切换不同系统反复登录,用户体验差。
因此,要满足各部门信息共享、数据分析的需要,不但要在统一的数据标准下建立起基础信息数据库,而且要建立起对这个基础库的管理、维护、更新和使用的长效管理机制,使数据库能够不断的扩展、完善,保证数据的一致性、鲜活性和准确性,为地区整体信息资源的规划和建设奠定一个良好的基础。
有鉴于此,设计一种创新的基于多源系统的数据清洗合并方法是至关重要的。
发明内容
针对上述提到的多个业务系统数据不统一、信息零散等问题。本申请的实施例的目的在于提出了一种基于多源系统的数据清洗合并方法、装置及可读介质,来解决以上背景技术部分提到的技术问题。
第一方面,本申请的实施例提供了一种基于多源系统的数据清洗合并方法,包括以下步骤:
S1,构建以元模型为基础的业务库,监听多个源系统的数据变更信息,基于数据变更信息生成任务调度单;
S2,根据业务库的入库配置获取任务调度单以生成信息任务调度队列,对信息任务调度队列进行清洗,得到有效的信息任务调度队列;
S3,根据有效的信息调度任务队列生成入库表,在入库表中建立源系统与业务库之间的转移关系和信息入库类型;
S4,根据有效的信息调度任务队列中的任务调度单获取源系统的数据,基于源系统与业务库之间的信息映射关系得到变更信息,将变更信息写入入库表中的入库信息;以及
S5,根据入库信息和信息入库类型对业务库的元模型中的元数据进行变更。
在一些实施例中,步骤S1具体包括:在源系统中产生数据变更信息后通过触发器生成任务调度单,并通过任务调度单建立源系统与业务库之间的通讯。
在一些实施例中,业务库的入库配置包括入库频率和入库规则。
在一些实施例中,步骤S2具体包括:
根据入库频率获取任务调度单并形成信息任务调度队列;
将信息任务调度队列中无效的任务调度单进行清除,冗余的任务调度单进行合并,得到有效的信息任务调度队列。
在一些实施例中,业务库包括基础库和基准数据库,基础库存储基准数据库中信息所对应的支持数据。
在一些实施例中,信息入库类型包括变更信息的新建、修改或删除。
在一些实施例中,步骤S4和S5之间还包括:通过入库规则对入库表进行清洗,入库规则包括入库权重和/或入库审批。
在一些实施例中,入库表清洗过程具体包括:
S41:根据入库规则判断入库表是否经过审批流程,若是,则按照审批流程对入库表进行审批,并在审批流程中判断是否对入库表进行调整,若是则对入库表进行调整,然后再进行步骤S5,否则直接进行步骤S5;和/或
S42:将入库规则中的入库表所对应的入库权重进行比较,根据比较结果筛选出有效的入库表进行步骤S5。
第二方面,本申请的实施例提供了一种基于多源系统的数据清洗合并装置,包括:
任务调度模块,被配置为构建以元模型为基础的业务库,监听多个源系统的数据变更信息,基于数据变更信息生成任务调度单;
队列清洗模块,被配置为根据业务库的入库配置获取任务调度单以生成信息任务调度队列,对信息任务调度队列进行清洗,得到有效的信息任务调度队列;
入库表生成模块,被配置为根据有效的信息调度任务队列生成入库表,在入库表中建立源系统与业务库之间的转移关系和信息入库类型;
入库信息生成模块,被配置为根据有效的信息调度任务队列中的任务调度单获取源系统的数据,基于源系统与业务库之间的信息映射关系得到变更信息,将变更信息写入入库表中的入库信息;以及
入库模块,根据入库信息和信息入库类型对业务库的数据进行更新。
第三方面,本申请的实施例提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
与现有技术相比,本发明的有益效果为:
1、本发明可以对多个源系统的数据进行高效的清洗,并转移到以元模型建立的业务库中,清洗的基准数据可通过元模型和元数据动态维护,能完整动态地存储基准数据。
2、将数据库当作实际仓库对象来管理,所有清洗完需要的入库信息都会转成入库表形式,能清楚地标注信息来源、更新时间、变更内容等。并可对信息入库表进行审批,审批时可手动调整入库表。通过入库表可追溯数据的整个历史生命周期的动态变化。
3、可根据业务库的入库配置中更新规则动态设置数据更新频率、更新规则、更新的信息权重等。
4、可以将多个源系统的数据整合成规范数据,并且围绕区域建设规划,搭建基础信息数据平台,完善智慧区域整体架构,解决痛点问题,提升对地区企业的管控能力,为科学管理、数字经营提供支撑。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例可以应用于其中的示例性装置架构图;
图2为本发明的实施例的基于多源系统的数据清洗合并方法的流程示意图;
图3为本发明的实施例的基于多源系统的数据清洗合并方法的元模型构建的示意图;
图4为本发明的实施例的基于多源系统的数据清洗合并方法的入库表的示意图;
图5为本发明的实施例的基于多源系统的数据清洗合并装置的示意图;
图6是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了可以应用本申请实施例的基于多源系统的数据清洗合并方法或基于多源系统的数据清洗合并装置的示例性装置架构100。
如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
需要说明的是,本申请实施例所提供的基于多源系统的数据清洗合并方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,数据清洗转移装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
本申请的实施例以园区内的企业数据作为示例,源系统包括现有系统的数据、第三方数据、园区录入数据及企业维护数据等,现有系统的数据包括楼宇系统数据库,停车系统数据库、物业系统数据库、房屋租赁系统数据库,第三方系统包括工商信息数据库等。业务库包括企业库、人员库、资源库和基础库。
图2示出了本申请的实施例提供的一种基于多源系统的数据清洗合并方法,包括以下步骤:
S1,构建以元模型为基础的业务库,监听多个源系统的数据变更信息,基于数据变更信息生成任务调度单。
在具体的实施例中,如图3所示,业务库包括基础库和基准数据库,基准数据库包括企业库、人员库和资源库,基础库存储基准数据库中信息所对应的支持数据。通过在基准数据库中建立以元模型为框架的数据结构,并且设置数据来源和更新规则,将不同源系统出现的同一企业、个人、资产数据合并成基准数据库。基准数据库中元模型的元数据包含信息名称、信息编码、信息类型、来源(源系统)、操作等。经过数据清洗合并之后的元模型和元数据如图3所示,企业库中包含工商数据、办公地址、员工信息、入园时间等企业数据,在个人库中存储包括性别、专业、归属企业、停车位信息、联系电话等个人数据,在资产库中存储包括园区信息、入驻企业、楼宇信息、租赁状态、广告位信息等资产信息。
在具体的实施例中,步骤S1具体包括:在源系统中产生数据变更信息后通过触发器生成任务调度单,并通过任务调度单建立源系统与业务库之间的通讯。可以通过API接口管理系统或其他数据抽取系统将源系统的任务调度单传回业务库,并通过回调接口告知源系统,源系统接收到回调信息后清除源系统任务调度队列。数据通讯频率可通过设置监听频率或源系统通过业务库定义的API接口主动将任务调度单实时推送给业务库。
S2,根据业务库的入库配置获取任务调度单以生成信息任务调度队列,对信息任务调度队列进行清洗,得到有效的信息任务调度队列。
在具体的实施例中,步骤S2具体包括:将信息任务调度队列中无效的任务调度单进行清除,冗余的任务调度单进行合并,得到有效的信息任务调度队列。
在具体的实施例中,业务库的入库配置包括入库频率和入库规则,根据业务库中的入库配置中设置的入库频率对信息任务调度队列中的任务调度单进行清洗,将冗余无效的任务清除出信息任务调度队列,入库频率根据需求可以设置为每天或每周等,例如同一个企业信息被变更了N次,会出现N个调度任务,但需将最后一次变更信息与在业务库中已存储的企业信息进行比对,保存最后一次变更信息的任务调度单。
S3,根据有效的信息调度任务队列生成入库表,在入库表中建立源系统与业务库之间的转移关系和信息入库类型。
在具体的实施例中,任务调度单顺利完成入库后,会将任务调度单从信息调度任务队列移除,进入历史任务,保持任务队列的高性能。若任务调度单入库失败,则调度任务次数加1,任务调度次数超过3次没有成功,将不会再执行操作,并给予预警。因此在有效的信息调度任务队列中获取调用次数3次以下的任务调度单,判断任务调度单中源系统的数据和业务库的数据之间是否有映射关系,若不存在映射关系,则需要根据任务调度单所获取的数据之间的对应关系规则构建映射关系,建立映射关系后就可以通过有效的信息调度任务队列按照业务库、源系统和信息入库类型转成入库表,其中映射关系包括报文映射、数据映射和转换映射。信息入库类型包括新建、修改或删除,入库表中记载了源系统(需入库的数据来源)以及将要入库的业务库,因此建立了业务库与源系统之间的转移关系。此时生成入库表时并无入库信息,需要根据映射关系将数据变更信息进行变更比较后才可以获得入库信息。
S4,根据有效的信息调度任务队列中的任务调度单获取源系统的数据,基于源系统与业务库之间的信息映射关系得到变更信息,将变更信息写入入库表中的入库信息。
入库信息包括源信息值和宿信息值。源信息值为该数据变更信息在源系统中的信息值(变更后的信息值),宿信息值为该数据变更信息在业务库中的信息值(变更前的信息值)。源信息值与宿信息值之间存在信息映射关系。根据有效的信息调度任务队列中的任务调度单进行数据抽取获取源系统的源信息值,通过信息映射关系获取业务库中的宿信息值,通过变更比较生成入库表的入库信息,入库表的配置及入库信息如图4所示。
在具体的实施例中,步骤S4和S5之间还包括:通过业务库所设置的入库规则对入库表进行清洗,入库规则包括入库权重和/或入库审批。
在具体的实施例中,入库表清洗的步骤具体包括:
S41:根据入库规则判断入库表是否经过审批流程,若是,则按照审批流程对入库表进行审批,并在审批流程中判断是否对入库表进行调整,若是则对入库表进行调整,然后再进行步骤S5,否则直接进行步骤S5;和/或
S42:将入库规则中的入库表所对应的入库权重进行比较,根据比较结果筛选出有效的入库表进行步骤S5。
在具体的实施例中,根据入库表的入库规则判断入库表是否需要进行审批或者直接入库,若需要进行审批,则根据审批流程对入库表进行审批,并在审批过程中对入库表中信息进行调整,将调整后的入库表再进行步骤S5。因为源系统有多个,所以业务库中所对应的入库表也有多个,因此对从不同源系统中获取的入库表设置入库权重,根据入库权重进行比较,选择合适的入库表进行步骤S5。例如可以根据每条入库信息所对应的入库权重的高低进行排序,入库权重大的优先进行入库。
S5,根据入库信息和信息入库类型对业务库的元模型中的元数据进行变更。
在具体的实施例中,获取入库信息,根据信息入库类型判断是新增、修改或删除,若是新增,则在业务库表单中插入新增的数据,并绑定外键与业务主表建立映射关系,根据入库信息更新业务库;若是修改,则直接根据入库信息更新业务库;若是删除,则对该数据解除源系统与业务系统之间的映射关系,并删除基础库信息。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种基于多源系统的数据清洗合并装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
本申请的实施例提供了一种基于多源系统的数据清洗合并装置,包括:
任务调度模块1,被配置为构建以元模型为基础的业务库,监听多个源系统的数据变更信息,基于数据变更信息生成任务调度单;
队列清洗模块2,被配置为根据业务库的入库配置获取任务调度单以生成信息任务调度队列,对信息任务调度队列进行清洗,得到有效的信息任务调度队列;
入库表生成模块3,被配置为根据有效的信息调度任务队列生成入库表,在入库表中建立源系统与业务库之间的转移关系和信息入库类型;
入库信息生成模块4,被配置为根据有效的信息调度任务队列中的任务调度单获取源系统的数据,基于源系统与业务库之间的信息映射关系得到变更信息,将变更信息写入入库表中的入库信息;以及
入库模块5,根据入库信息和信息入库类型对业务库的数据进行更新。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机装置600包括中央处理单元(CPU)601和图形处理器(GPU)602,其可以根据存储在只读存储器(ROM)603中的程序或者从存储部分609加载到随机访问存储器(RAM)604中的程序而执行各种适当的动作和处理。在RAM 604中,还存储有装置600操作所需的各种程序和数据。CPU 601、GPU602、ROM 603以及RAM 604通过总线605彼此相连。输入/输出(I/O)接口606也连接至总线605。
以下部件连接至I/O接口606:包括键盘、鼠标等的输入部分607;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分608;包括硬盘等的存储部分609;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分610。通信部分610经由诸如因特网的网络执行通信处理。驱动器611也可以根据需要连接至I/O接口606。可拆卸介质612,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器611上,以便于从其上读出的计算机程序根据需要被安装入存储部分609。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分610从网络上被下载和安装,和/或从可拆卸介质612被安装。在该计算机程序被中央处理单元(CPU)601和图形处理器(GPU)602执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:构建以元模型为基础的业务库,监听多个源系统的数据变更信息,基于数据变更信息生成任务调度单;根据业务库的入库配置获取任务调度单以生成信息任务调度队列,对信息任务调度队列进行清洗,得到有效的信息任务调度队列;根据有效的信息调度任务队列生成入库表,在入库表中建立源系统与业务库之间的转移关系和信息入库类型;根据有效的信息调度任务队列中的任务调度单获取源系统的数据,基于源系统与业务库之间的信息映射关系得到变更信息,将变更信息写入入库表中的入库信息;根据入库信息和信息入库类型对业务库的元模型中的元数据进行变更。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于多源系统的数据清洗合并方法,其特征在于,包括以下步骤:
S1,构建以元模型为基础的业务库,监听多个源系统的数据变更信息,基于所述数据变更信息生成任务调度单;
S2,根据所述业务库的入库配置获取所述任务调度单以生成信息任务调度队列,对所述信息任务调度队列进行清洗,得到有效的信息任务调度队列;
S3,根据所述有效的信息调度任务队列生成入库表,在所述入库表中建立所述源系统与所述业务库之间的转移关系和信息入库类型;
S4,根据所述有效的信息调度任务队列中的任务调度单获取源系统的数据,基于所述源系统与所述业务库之间的信息映射关系得到变更信息,将所述变更信息写入所述入库表中的入库信息;以及
S5,根据所述入库信息和所述信息入库类型对所述业务库的元模型中的元数据进行变更。
2.根据权利要求1所述的基于多源系统的数据清洗合并方法,其特征在于,所述步骤S1具体包括:在所述源系统中产生所述数据变更信息后通过触发器生成所述任务调度单,并通过所述任务调度单建立所述源系统与所述业务库之间的通讯。
3.根据权利要求1所述的基于多源系统的数据清洗合并方法,其特征在于,所述业务库的入库配置包括入库频率和入库规则。
4.根据权利要求3所述的基于多源系统的数据清洗合并方法,其特征在于,所述步骤S2具体包括:
根据所述入库频率获取所述任务调度单并形成所述信息任务调度队列;
将所述信息任务调度队列中无效的任务调度单进行清除,冗余的任务调度单进行合并,得到所述有效的信息任务调度队列。
5.根据权利要求1所述的基于多源系统的数据清洗合并方法,其特征在于,所述业务库包括基础库和基准数据库,所述基础库存储所述基准数据库中信息所对应的支持数据,所述信息入库类型包括所述变更信息的新建、修改或删除。
6.根据权利要求3所述的基于多源系统的数据清洗合并方法,其特征在于,所述步骤S4和S5之间还包括:通过所述入库规则对所述入库表进行清洗,所述入库规则包括入库权重和/或入库审批。
7.根据权利要求6所述的基于多源系统的数据清洗合并方法,其特征在于,所述入库表清洗过程具体包括:
S41:根据所述入库规则判断所述入库表是否经过审批流程,若是,则按照所述审批流程对所述入库表进行审批,并在所述审批流程中判断是否对所述入库表进行调整,若是则对所述入库表进行调整,然后再进行步骤S5,否则直接进行步骤S5;和/或
S42:将所述入库规则中的所述入库表所对应的所述入库权重进行比较,根据比较结果筛选出有效的入库表进行步骤S5。
8.一种基于多源系统的数据清洗合并装置,其特征在于,包括:
任务调度模块,被配置为构建以元模型为基础的业务库,监听多个源系统的数据变更信息,基于所述数据变更信息生成任务调度单;
队列清洗模块,被配置为根据所述业务库的入库配置获取所述任务调度单以生成信息任务调度队列,对所述信息任务调度队列进行清洗,得到有效的信息任务调度队列;
入库表生成模块,被配置为根据所述有效的信息调度任务队列生成入库表,在所述入库表中建立所述源系统与所述业务库之间的转移关系和信息入库类型;
入库信息生成模块,被配置为根据所述有效的信息调度任务队列中的任务调度单获取源系统的数据,基于所述源系统与所述业务库之间的信息映射关系得到变更信息,将所述变更信息写入所述入库表中的入库信息;以及
入库模块,根据所述入库信息和所述信息入库类型对所述业务库的数据进行更新。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202110909880.4A 2021-08-09 2021-08-09 一种基于多源系统的数据清洗合并方法、装置及可读介质 Pending CN114138758A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110909880.4A CN114138758A (zh) 2021-08-09 2021-08-09 一种基于多源系统的数据清洗合并方法、装置及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110909880.4A CN114138758A (zh) 2021-08-09 2021-08-09 一种基于多源系统的数据清洗合并方法、装置及可读介质

Publications (1)

Publication Number Publication Date
CN114138758A true CN114138758A (zh) 2022-03-04

Family

ID=80394150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110909880.4A Pending CN114138758A (zh) 2021-08-09 2021-08-09 一种基于多源系统的数据清洗合并方法、装置及可读介质

Country Status (1)

Country Link
CN (1) CN114138758A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115145992A (zh) * 2022-09-05 2022-10-04 深圳市明源云科技有限公司 多源数据处理方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115145992A (zh) * 2022-09-05 2022-10-04 深圳市明源云科技有限公司 多源数据处理方法、装置、电子设备及可读存储介质
CN115145992B (zh) * 2022-09-05 2022-12-27 深圳市明源云科技有限公司 多源数据处理方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109446274B (zh) 大数据平台bi元数据管理的方法和装置
CN109522751B (zh) 访问权限控制方法、装置、电子设备及计算机可读介质
CN109033113B (zh) 数据仓库和数据集市的管理方法及装置
CN109298948B (zh) 分布式计算方法和系统
CN110866040B (zh) 用户画像生成方法、装置和系统
CN112989156A (zh) 一种基于大数据的政策与企业匹配的方法和系统
CN112801607A (zh) 一种管理服务平台及构建方法
CN111126948A (zh) 用于审批流程的处理方法和装置
CN112783887A (zh) 一种基于数据仓库的数据处理方法及装置
CN116450622B (zh) 数据入库的方法、装置、设备和计算机可读介质
CN114138758A (zh) 一种基于多源系统的数据清洗合并方法、装置及可读介质
CN113190517A (zh) 数据集成方法、装置、电子设备和计算机可读介质
CN113190558A (zh) 一种数据加工方法和系统
CN111191050B (zh) 知识图谱本体模型构建的方法和装置
CN113159694A (zh) 一种物资仓储管理方法和装置
US11392411B2 (en) Background job scheduling restrictions
CN113378346A (zh) 模型仿真的方法和装置
CN107679096B (zh) 数据集市间指标共享的方法和装置
CN115033574A (zh) 信息生成方法、信息生成装置、电子设备及存储介质
CN113468244A (zh) 大气环境污染源管理系统、方法、电子设备及存储介质
CN114357280A (zh) 一种信息推送方法、装置、电子设备及计算机可读介质
CN113760928A (zh) 一种缓存数据更新系统和方法
CN111143408B (zh) 一种基于业务规则的事件处理方法和装置
CN111723088B (zh) 一种推送汇总层表的方法和装置
CN113362097B (zh) 一种用户确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination