CN112734525A - 一种多源数据处理方法、系统、设备及可读存储介质 - Google Patents
一种多源数据处理方法、系统、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112734525A CN112734525A CN202110038323.XA CN202110038323A CN112734525A CN 112734525 A CN112734525 A CN 112734525A CN 202110038323 A CN202110038323 A CN 202110038323A CN 112734525 A CN112734525 A CN 112734525A
- Authority
- CN
- China
- Prior art keywords
- data
- archive
- collector
- data processing
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000008569 process Effects 0.000 claims abstract description 36
- 230000008520 organization Effects 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 210000001503 joint Anatomy 0.000 claims abstract description 7
- 238000003032 molecular docking Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 239000008186 active pharmaceutical agent Substances 0.000 claims 2
- 230000008859 change Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0609—Buyer or seller confidence or verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种多源数据处理方法、系统、设备及可读存储介质,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务;基于每个数据处理任务,采集器DC根据数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE;档案收集器AE通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中;报告生成器RG根据设定的取舍规则处理所述数据集合,输出目标数据产出。避免多源数据差距过大对后续流程造成的困扰,尽可能的减少了因为需求变化导致的代码变更以及重新上线部署。
Description
技术领域
本申请实施例涉及大数据处理技术领域,具体涉及一种多源数据处理方法、系统、设备及可读存储介质。
背景技术
目前,我国由金融行业牵头各行业都在逐步建立各行业内的信用体系。在物流行业中,多家企业均基于自身的相关业务数据建立了自身的信用服务体系。总体上说,物流行业的信用体系主要分为两个方面,一是针对物流企业的信用评价,二是针对货运司机的信用评价。目前已有的技术方案均是基于自身企业内部数据,如:由平台撮合的运单数据,本系统内注册的车辆信息,由车载终端上传的驾驶行为信息等。再通过一系列算法对上述数据进行整合,最终生成对于物流企业或者司机的信用评价。
但是目前的解决方案中,获取数据的来源往往来自于各个企业自身生态中的相关数据。对于其他企业,甚至其他行业的数据基本上没有进行采集和加工。这就导致了各个企业中对于相同主体(物流企业,货运司机)的信用评价存在较强的局限性。会出现相同主体在不同企业的系统中的信用评价结果差异巨大的情况。同时,物流行业中各个公司的信用系统均处于初步建设阶段,整体需求尚不稳定,随时可能对于采集的数据源,各个数据源的优先级关系均存在变化。现有的技术方案对于这种变化的应对能力较弱。一旦发生变化,就需要对代码进行修改,并重新上线。在需求不稳定的阶段频繁的代码修改以及重新部署上线将会花费高昂的时间成本。
发明内容
为此,本申请实施例提供一种多源数据处理方法、系统、设备及可读存储介质,通过多种方式整合多个来源对数据进行采集,避免多源数据差距过大对后续流程造成的困扰。尽可能的减少因为需求变化导致的代码变更以及重新上线部署。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种多源数据处理方法,所述方法包括:
接收数据处理任务,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务;
基于每个数据处理任务,具体包括如下步骤:
采集器DC根据所述数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE;
所述档案收集器AE通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中;
报告生成器RG根据设定的取舍规则处理所述数据集合,输出目标数据产出。
可选地,所述采集器的采集原始数据的方式包括对接restful接口、通过jdbc连接数据库和通过rRG接口调用;
所述采集器DC根据所述数据处理任务对接对应的各个数据源,包括:
对于不同的数据来源进行划分;
根据不同的数据来源确定采集插件;
配置相应的数据结构,以完成对不同数据源的对接。
可选地,所述将采集到的原始数据发送至档案收集器AE之后,所述方法还包括:
所有的任务采集到的数据均会被存入数据解决区DS中,以供后续的stage使用;所述数据解决区DS是采集数据的集结区,数据以JSON结构存储在MongoDB中,作为档案项提取的原始数据;所述存储方式的主键为采集stage的job id和主体id的结合,数据内容按照采集数据源分别存储。
可选地,所述档案库AR以主体为粒度记录每个主体的档案信息;所述档案信息分为明细列表和元组信息;其中所述元组信息保留变更的历史数据,所述明细列表不断追加,所述档案信息的数据项统一为JsonArray,每个数据项单独配置对存档数据的更新动作。
可选地,所述报告生成器RG根据设定的取舍规则处理所述数据集合,包括:
对于冲突数据根据不同数据来源的优先级进行取舍,对于相同数据来源的数据依据采集时间进行取舍;
将档案库中不同来源的相同数据通过整合、取舍为唯一数据进入报告库。
根据本申请实施例的第二方面,提供了一种多源数据处理系统,所述系统用于接收数据处理任务,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务,针对每个数据处理任务,所述系统包括:
采集器DC,用于根据所述数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE;
所述档案收集器AE,用于通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中;
报告生成器RG,用于根据设定的取舍规则处理所述数据集合,输出目标数据产出。
可选地,所述采集器的采集原始数据的方式包括对接restful接口、通过jdbc连接数据库和通过rRG接口调用;
所述采集器DC具体用于:
对于不同的数据来源进行划分;
根据不同的数据来源确定采集插件;
配置相应的数据结构,以完成对不同数据源的对接。
可选地,所述报告生成器RG具体用于:
对于冲突数据根据不同数据来源的优先级进行取舍,对于相同数据来源的数据依据采集时间进行取舍;
将档案库中不同来源的相同数据通过整合、取舍为唯一数据进入报告库。
根据本申请实施例的第三方面,提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行第一方面任一项所述的方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如第一方面任一项所述的方法。
综上所述,本申请实施例提供了一种多源数据处理方法、系统、设备及可读存储介质,通过接收数据处理任务,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务;基于每个数据处理任务,采集器DC根据所述数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE;所述档案收集器AE通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中;报告生成器RG根据设定的取舍规则处理所述数据集合,输出目标数据产出。通过多种方式整合多个来源对数据进行采集,避免多源数据差距过大对后续流程造成的困扰。尽可能的减少因为需求变化导致的代码变更以及重新上线部署。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的一种多源数据处理方法流程示意图;
图2为本申请实施例提供的stage之间处理示意图;
图3为本申请实施例提供的采集器处理示意图;
图4为本申请实施例提供的档案收集器处理示意图;
图5为本申请实施例提供的报告生成器示意图;
图6为本申请实施例提供的一种多源数据处理系统框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术的评价体系中存在的评价结果局限性问题,本申请的技术方案需要从几个方面入手,解决问题。
一、对于数据来源的扩展,对于相同数据,不能局限于单一来源,而是通过多种方式整合多个来源对数据进行采集。
二、当从不同来源获取到了相同数据时,系统将对数据进行取舍,保证最终数据的信用数据是通过整合之后的唯一数据,避免多源数据差距过大对后续流程造成的困扰。
三、从采集到数据生成,均采用了插件以及配置的方式来体现业务逻辑。尽可能的减少因为需求变化导致的代码变更以及重新上线部署。
本申请实施例提供的方案主要在大数据处理,分布式计算领域有较多的涉及。通过分布式的方式将不同的处理步骤解耦,划分为不同的stage,每个Stage只需要关心自身业务逻辑和上下游数据即可。同时,基于分布式的实现方式,所有的运算节点均可以通过平行扩展的方式加强处理能力,最终达到快速的对大数据量数据进行处理的目的。
针对背景技术中所涉及的现有技术中的多数据源采集以及数据整合的问题。本申请实施例的技术方案设置了两个不同的环节,以对数据进行处理。一是采集器(DataCollection,下称DC),二是档案收集器(Archive Entry Extraction,下称AE),三则是报告生成器(Report Generator,下称RG)。
图1示出了本申请实施例提供的多源数据处理方法流程示意图,接收数据处理任务,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务;基于每个数据处理任务,具体包括如下步骤:
步骤101:采集器DC根据所述数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE。
步骤102:所述档案收集器AE通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中。
步骤103:报告生成器RG根据设定的取舍规则处理所述数据集合,输出目标数据产出。
在一种可能的实施方式中,所述采集器的采集原始数据的方式包括对接restful接口、通过jdbc连接数据库和通过rRG接口调用;所述采集器DC根据所述数据处理任务对接对应的各个数据源,包括:对于不同的数据来源进行划分;根据不同的数据来源确定采集插件;配置相应的数据结构,以完成对不同数据源的对接。
在一种可能的实施方式中,所述将采集到的原始数据发送至档案收集器AE之后,所述方法还包括:所有的任务采集到的数据均会被存入数据解决区DS中,以供后续的stage使用;所述数据解决区DS是采集数据的集结区,数据以JSON结构存储在MongoDB中,作为档案项提取的原始数据;所述存储方式的主键为采集stage的job id和主体id的结合,数据内容按照采集数据源分别存储。
在一种可能的实施方式中,所述档案库AR以主体为粒度记录每个主体的档案信息;所述档案信息分为明细列表和元组信息;其中所述元组信息保留变更的历史数据,所述明细列表不断追加,所述档案信息的数据项统一为JsonArray,每个数据项单独配置对存档数据的更新动作。
在一种可能的实施方式中,所述报告生成器RG根据设定的取舍规则处理所述数据集合,包括:对于冲突数据根据不同数据来源的优先级进行取舍,对于相同数据来源的数据依据采集时间进行取舍;将档案库中不同来源的相同数据通过整合、取舍为唯一数据进入报告库。
总体流程:DC对接各个数据源,并将采集到的原始数据汇总发送给AE,AE首先对数据进行整理,剔除明显存在问题的数据,同时整理数据规格,汇总生成最为全面的数据集合。最后则是RG通过一定的取舍规则,将所有的数据进行处理,最终得到唯一、可信的数据产出。没一个环节在本技术方案中称为一个stage。每个stage之间以流水线的方式进行处理,加快处理进度。
图2示出了任务处理流转示意图。每个任务依次在每个stage中流转,不同的stage可以并行的处理不同的任务,以此加快处理的效率。如果后续随着需求的变更,则需要新增stage或减少stage,只需要通过配置的方式修改每个stage的上下游对应stage则可以快速的完成stage的添加和移除。除此之外,整个数据加载过程还包含数据采集区(DS)、档案库(AR)以及调度中心。
目前已有的stage具体处理流程如下:
一、采集器(DC)
DC从横向和纵向两个方向对数据的采集进行划分。具体的DC处理示意图如图3所示。横向说的是对于获取的不同技术手段。比如,对接restful接口的数据获取方式;通过jdbc连接数据库的获取方式;通过rRG接口调用的数据获取方式等等。每种不同的技术手段均体现为不同的采集插件。不同的插件可以通过jar包引入的方式进行导入。如果后续如果新增了数据的采集方式,开发者只需要新增对应的插件即可,而无需对其他的流程代码进行变更。而纵向的划分则说的是对于不同的数据来源进行划分,比如来自银行的数据,来自各物流数据提供商(如中交兴路),来自各地市的管理系统等。横纵相结合则会出现多种多样的组合,比如针对银行的restful采集任务。针对公司内大数据平台jdbc的采集任务。用户通过配置的方式,对不同的数据来源选择合适的采集插件,并配置相应的数据结构则可以快速的完成对不同数据源的对接工作。
从数据采集的角度解决了目前已有解决方案数据来源单一的问题。所有的任务采集到的数据均会被存入数据解决区(DS)中,方便后续的STAGE使用。
二、数据集结区(Data Staging,DS)
DS是采集数据的集结区,数据以JSON结构存储在MongoDB中,作为档案项提取的原始数据。Data Staging中的数据暂定不会进行清理和归档,后续视数据的增长速度和性能情况决定是否进行归档操作。数据存储在MongoDB的stagings集合中,主键为采集stage的job id+主体id,数据内容按照采集数据源分别存储。存储的大致数据结构如下:
{
id:“object id”,
dcTime:"数据采集时间时间字串",
subject:“主题信息”,
source:“数据来源”,
data:{
……
}
}
三、档案收集器(AE)
AE工作相对简单,本质上是数据从数据集结区到档案库的ETL过程。由于DC获取的数据是以数据提供者为标识进行获取的。AE则通过维度的转换将采集来的数据变更成以主体标识(如:身份证、组织机构代码)为标识的组织方式。此外,档案采集器还将明显错误的信息进行剔除,比如数据为000000的邮政编码,月份为13的贷款日期等。最后,档案收集器还对数据规格进行了整理。比如不同来源对于时间的描述分别是“2020/10/21”“2020-10-21”,AE则需要将这些时间统一规整为相同的格式存储在档案库中。档案收集流程如图4所示,包括E(MongoDB查询语句)、T(利用javaScript编写的维度转换脚本)、T(利用javaScript编写的清洗和标准化脚本)和L(MongoDB写操作)几个步骤。至此,可以通过主体标识查询到所有系统内部持有的相关数据。
四、档案库(Archive Repository,AR)
档案库以主体为粒度按照文档的形式记录了每个主体的完整档案信息,主体包括企业和个人两种。本系统中各项信用指标均由档案衍生获得,是本系统的基础性数据。主体档案还可以单独使用,满足用户对主体档案的查询需要。
档案数据项分为两类:明细列表(如交通违章记录,诉讼信息,运单信息)、信息元组(如居住信息、当前职业信息)。元组信息需要保留变更的历史数据,明细列表可能会不断追加,因此档案数据项统一为JsonArray。每个档案项可以单独配置对存档数据的更新动作:替换、追加。
五、报告库(Report Repository,RR)
报告的数据结构为:报告>>组件>>数据项(档案数据项、指标项、信用评估记录)。数据项定义在MariaDB中,有单独表进行存储,该表作用是将档案数据项、指标数据项归纳起来,通过外键与具体表做关联。信用评估库的信用的分数和分级数据为固定项,每个报告都要包含该内容。
由于采用了报告>>组件>>数据项的组织方式,用户可以通过配置的方式新增组件,决定组件包含哪些数据项,进而决定报告内部包含哪些组件。当数据项发生变化时,用户可以快速的修改报告所包含的组件或者组件与数据项的对应方式。达到快速修改报告数据内容的目的。
六、报告生成器(Report Generator,RG)
报告生成器的主要逻辑与档案收集器的实现方式类似,本质是对从档案库到报告库的ETL过程。同样适用JavaScript脚本对ETL逻辑进行配置。目前主要应用的逻辑在于冲突数据依据不同数据来源的优先级进行取舍,相同数据来源的数据依据采集时间进行取舍的逻辑;数据整合统计的逻辑等。结合上述的档案库和报告库,报告生成器在数据整理上所做的工作如图5所示。
从图5可以看出,数据项在从档案库到报告库的ETL过程中有的是直接数据迁移(如图中的配偶、身份证号等),有的则是经过加工处理的(如首贷日、和常跑路线等)。在迁移过程中,还将档案库中多来源的相同数据通过整合、取舍为唯一数据进入报告库。
由此看出,本申请实施例提供的系统采用技术插件+数据任务的方式,可配置的完成各类数据源的对接。减轻新的数据源出现时的开发压力。在技术插件已有的情况下,完全可以无编码的实现新数据源的对接。以及,档案收集以及报告生成的逻辑多采用JavaScript脚本的形式,再由java程序运行对应的脚本进行逻辑处理。当业务需求或市场需求发生变化时,可以通过修改脚本的形式快速适应变化。减少重新上线部署的人力开销和时间开销。以及,采用组件+数据项的方式组织最终的信用报告。用户通过配置的方式选取组件内包含的数据项以及报告内包含的组件。达到灵活配置报告内容,快速定义报告模板的目的。
综上所述,本申请实施例提供了一种多源数据处理方法,通过接收数据处理任务,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务;基于每个数据处理任务,采集器DC根据所述数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE;所述档案收集器AE通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中;报告生成器RG根据设定的取舍规则处理所述数据集合,输出目标数据产出。通过多种方式整合多个来源对数据进行采集,避免多源数据差距过大对后续流程造成的困扰。尽可能的减少因为需求变化导致的代码变更以及重新上线部署。
基于相同的技术构思,本申请实施例还提供了一种多源数据处理系统,如图6所示,所述系统用于接收数据处理任务,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务,针对每个数据处理任务,所述系统包括:
采集器DC,用于根据所述数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE。
所述档案收集器AE,用于通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中。
报告生成器RG,用于根据设定的取舍规则处理所述数据集合,输出目标数据产出。
在一种可能的实施方式中,所述采集器的采集原始数据的方式包括对接restful接口、通过jdbc连接数据库和通过rRG接口调用;所述采集器DC具体用于:对于不同的数据来源进行划分;根据不同的数据来源确定采集插件;配置相应的数据结构,以完成对不同数据源的对接。
在一种可能的实施方式中,所述报告生成器RG具体用于:对于冲突数据根据不同数据来源的优先级进行取舍,对于相同数据来源的数据依据采集时间进行取舍;将档案库中不同来源的相同数据通过整合、取舍为唯一数据进入报告库。
基于相同的技术构思,本申请实施例还提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行所述的方法。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行所述的方法。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种多源数据处理方法,其特征在于,所述方法包括:
接收数据处理任务,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务;
基于每个数据处理任务,具体包括如下步骤:
采集器DC根据所述数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE;
所述档案收集器AE通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中;
报告生成器RG根据设定的取舍规则处理所述数据集合,输出目标数据产出。
2.如权利要求1所述的方法,其特征在于,所述采集器的采集原始数据的方式包括对接restful接口、通过jdbc连接数据库和通过rRG接口调用;
所述采集器DC根据所述数据处理任务对接对应的各个数据源,包括:
对于不同的数据来源进行划分;
根据不同的数据来源确定采集插件;
配置相应的数据结构,以完成对不同数据源的对接。
3.如权利要求1所述的方法,其特征在于,所述将采集到的原始数据发送至档案收集器AE之后,所述方法还包括:
所有的任务采集到的数据均会被存入数据解决区DS中,以供后续的stage使用;所述数据解决区DS是采集数据的集结区,数据以JSON结构存储在MongoDB中,作为档案项提取的原始数据;所述存储方式的主键为采集stage的jobid和主体id的结合,数据内容按照采集数据源分别存储。
4.如权利要求1所述的方法,其特征在于,所述档案库AR以主体为粒度记录每个主体的档案信息;所述档案信息分为明细列表和元组信息;其中所述元组信息保留变更的历史数据,所述明细列表不断追加,所述档案信息的数据项统一为JsonArray,每个数据项单独配置对存档数据的更新动作。
5.如权利要求1所述的方法,其特征在于,所述报告生成器RG根据设定的取舍规则处理所述数据集合,包括:
对于冲突数据根据不同数据来源的优先级进行取舍,对于相同数据来源的数据依据采集时间进行取舍;
将档案库中不同来源的相同数据通过整合、取舍为唯一数据进入报告库。
6.一种多源数据处理系统,其特征在于,所述系统用于接收数据处理任务,每个数据处理任务依次在每个stage中流转,不同的stage并行处理不同的任务,针对每个数据处理任务,所述系统包括:
采集器DC,用于根据所述数据处理任务对接对应的各个数据源,并将采集到的原始数据发送至档案收集器AE;
所述档案收集器AE,用于通过维度的转换将所述原始数据变更成以主体标识为标识的组织方式,并根据基本规则对所述原始数据进行过滤,根据数据规格将过滤后的数据整理为数据集合,以使得数据以相同的格式存储在档案库AR中;
报告生成器RG,用于根据设定的取舍规则处理所述数据集合,输出目标数据产出。
7.如权利要求6所述的系统,其特征在于,所述采集器的采集原始数据的方式包括对接restful接口、通过jdbc连接数据库和通过rRG接口调用;
所述采集器DC具体用于:
对于不同的数据来源进行划分;
根据不同的数据来源确定采集插件;
配置相应的数据结构,以完成对不同数据源的对接。
8.如权利要求6所述的系统,其特征在于,所述报告生成器RG具体用于:
对于冲突数据根据不同数据来源的优先级进行取舍,对于相同数据来源的数据依据采集时间进行取舍;
将档案库中不同来源的相同数据通过整合、取舍为唯一数据进入报告库。
9.一种设备,其特征在于,所述设备包括:数据采集装置、处理器和存储器;
所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038323.XA CN112734525A (zh) | 2021-01-12 | 2021-01-12 | 一种多源数据处理方法、系统、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038323.XA CN112734525A (zh) | 2021-01-12 | 2021-01-12 | 一种多源数据处理方法、系统、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112734525A true CN112734525A (zh) | 2021-04-30 |
Family
ID=75590587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110038323.XA Pending CN112734525A (zh) | 2021-01-12 | 2021-01-12 | 一种多源数据处理方法、系统、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734525A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113485894A (zh) * | 2021-07-14 | 2021-10-08 | 深信服科技股份有限公司 | 一种数据采集方法、装置、设备及可读存储介质 |
CN115145992A (zh) * | 2022-09-05 | 2022-10-04 | 深圳市明源云科技有限公司 | 多源数据处理方法、装置、电子设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975772A (zh) * | 2006-12-22 | 2007-06-06 | 中国建设银行股份有限公司 | 整合多个系统中的信息的方法和装置 |
CN103092980A (zh) * | 2013-01-31 | 2013-05-08 | 中国科学院自动化研究所 | 一种数据自动转换与存储的方法及系统 |
US20170046409A1 (en) * | 2015-08-10 | 2017-02-16 | International Business Machines Corporation | Using cloud processing to integrate etl into an analytic reporting mechanism |
CN106789436A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种征信报告生成方法及系统 |
CN108520073A (zh) * | 2018-04-13 | 2018-09-11 | 深圳壹账通智能科技有限公司 | 风控数据整合方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-01-12 CN CN202110038323.XA patent/CN112734525A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975772A (zh) * | 2006-12-22 | 2007-06-06 | 中国建设银行股份有限公司 | 整合多个系统中的信息的方法和装置 |
CN103092980A (zh) * | 2013-01-31 | 2013-05-08 | 中国科学院自动化研究所 | 一种数据自动转换与存储的方法及系统 |
US20170046409A1 (en) * | 2015-08-10 | 2017-02-16 | International Business Machines Corporation | Using cloud processing to integrate etl into an analytic reporting mechanism |
CN106789436A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种征信报告生成方法及系统 |
CN108520073A (zh) * | 2018-04-13 | 2018-09-11 | 深圳壹账通智能科技有限公司 | 风控数据整合方法、装置、设备及计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113485894A (zh) * | 2021-07-14 | 2021-10-08 | 深信服科技股份有限公司 | 一种数据采集方法、装置、设备及可读存储介质 |
CN115145992A (zh) * | 2022-09-05 | 2022-10-04 | 深圳市明源云科技有限公司 | 多源数据处理方法、装置、电子设备及可读存储介质 |
CN115145992B (zh) * | 2022-09-05 | 2022-12-27 | 深圳市明源云科技有限公司 | 多源数据处理方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765337B (zh) | 一种基于互联网大数据的服务提供方法 | |
US20230041672A1 (en) | Enterprise data processing | |
US9442979B2 (en) | Data analysis using multiple systems | |
US20140358845A1 (en) | Data warehouse compatibility | |
CN103733195A (zh) | 管理用于基于范围的搜索的数据的存储 | |
CN112734525A (zh) | 一种多源数据处理方法、系统、设备及可读存储介质 | |
CN105354239A (zh) | 一种基于配置数据加工模型的加工中心数据流式处理方法 | |
CN103077192A (zh) | 一种数据处理方法及其系统 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN106777265B (zh) | 一种业务数据的处理方法及装置 | |
Zhang et al. | Logistics service supply chain order allocation mixed K-Means and Qos matching | |
CN113918532A (zh) | 画像标签聚合方法、电子设备及存储介质 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN116719799A (zh) | 环保数据治理方法、装置、计算机设备和存储介质 | |
CN109426576B (zh) | 容错处理方法以及容错组件 | |
CN111159213A (zh) | 一种数据查询方法、装置、系统和存储介质 | |
CN109446263A (zh) | 一种数据关系关联方法及装置 | |
CN109033196A (zh) | 一种分布式数据调度系统及方法 | |
CN114416807A (zh) | 一种客户账户的数据合并方法、装置及系统 | |
CN111563178A (zh) | 规则逻辑图对比方法、装置、介质及电子设备 | |
CN112580950A (zh) | 基于知识图谱的知识管理及数据管理方法、系统和装置 | |
CN111951081A (zh) | 一种让每个材料都附上信息属性用数据构建场景的系统 | |
CN105448099A (zh) | 一种基于大数据的机动车套牌识别方法 | |
CN111368550A (zh) | 一种舆情信息管理系统 | |
CN112395277B (zh) | 一种车辆信息筛选方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210430 |
|
RJ01 | Rejection of invention patent application after publication |