CN112597223B - 一种一致性数据采集方法和系统 - Google Patents
一种一致性数据采集方法和系统 Download PDFInfo
- Publication number
- CN112597223B CN112597223B CN202011493494.3A CN202011493494A CN112597223B CN 112597223 B CN112597223 B CN 112597223B CN 202011493494 A CN202011493494 A CN 202011493494A CN 112597223 B CN112597223 B CN 112597223B
- Authority
- CN
- China
- Prior art keywords
- data
- acquisition
- supervision
- consistency
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000013500 data storage Methods 0.000 claims abstract description 31
- 238000012544 monitoring process Methods 0.000 claims description 16
- 230000001105 regulatory effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000007726 management method Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种一致性数据采集方法和系统,所述方法包括:步骤S1:采集前端采用对应的采集方式采集监管数据;步骤S2:将采集到的数据按照第一方式保存在数据存储单元中;步骤S3:报送单元按照第二方式获取数据;步骤S4:监管单元基于步骤S3获取的数据进行数据处理。本发明通过物理采集一致性和非语义一致性判断,能保障数据获取的准确性、公平性、安全性和一致性,同时还能保障数据处理效率。
Description
【技术领域】
本发明属于数据处理技术领域,尤其涉及一种一致性数据采集方法和系统。
【背景技术】
物联网是在计算机互联网的基础上,把任何物品与互联网相连接,进行信息交换和通信,以实现对物品的智能化识别、定位、跟踪、监控和管理的一种网络。而网络数据传输技术在各个行业普遍使用,某些时候需要对网络数据进行监管,有时在对数据进行跨行业或跨地区传输的监管过程中,由于行业或地区政策,导致监管原则方法法规不匹配,造成无法监管的现象。基于物联网而进行数据采集的方式,能够对各个行业的行业数据进行后端处理;例如:在公积金行业中,还没有很好的监管方法,某些时候需要对网络数据进行监管,有时在对数据进行跨行业或跨地区传输的监管过程中,由于行业或地区政策,导致监管原则方法法规不匹配,造成无法监管的现象。又例如:银行领域中包含有外汇业务,按照相关规定,银行需要将各自的外汇交易数据上报至国家外汇管理系统。国家外汇管理系统对外汇数据进行监管,并对上报的外汇数据具有一定要求,需要外汇数据上报满足及时性、准确性及完整性。为了确保满足相关要求,各个银行均开发了报送监管系统,以对待上报的外汇数据进行检查并上报。但是现有的数据采集方法固化,采集前端往往采用比较原始的方式被动的进行采集方式,采集内容也会因为采集方式不同而改变,不同的监管需求对应大量的重复数据;例如:在发现监管需求发生变化后,人为的作采集方式的变化;另外一个更为严重的问题是,数据采集缺乏一致性,数据的采集具有很大的主观性,导致监管实际效果差;那么如何使得数据内部一致也就是数据实质和采集到的数据一致,数据获取方式保障数据内容不产生变化,如何保障采集数据和最终的处理需求一致,如何充分领用重复数据,如何使得处理流程每个节点及其对应的用户一致,如何保障数据获取范围和用户功能一致,均是需要解决的问题,这涉及了数据安全,数据获取架构,数据利用等多个方面的内容。针对现有技术中存在上述问题,本发明通过物理采集一致性和非语义一致性判断,能保障数据获取的准确性、公平性、安全性和一致性,同时还能保障数据处理效率;具体包括:(1)通过在采集终端中选择一个采集终端接收采集任务,经过整体监控处理需求来整体决定采集任务的完成方式,从而大大的提高了采集任务处理效率降低了重叠度;(2)每个采集终端仅能够通过汇总的采集方式是否能够满足监管需求任务,而不能够得知其他采集终端的情况,通过采集任务的反复下达最终使得下达成功,且监管单元本身也不能够了解到因为其他监管任务而导致的业务终端采集情况,从而从架构上保障了数据的安全性;同时,监管单元也能够根据下达次数了解到采集难度;(3)使得通过数据存储单元提供的数据集使得采集到的数据能够满足不同的监管需求,从而提高了数据的复用度,提高了数据采集的效率;(4)设置了科学的一致性条件减少机制和精确调整机制,降低对采集份数的要求,使得在不增加过多通信开销和保障安全性的基础上,大数据的重复利用成为可能。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种一致性数据采集方法和系统,
步骤S1:采集前端采用对应的采集方式采集监管数据;
步骤S2:将采集到的数据按照第一方式保存在数据存储单元中;
步骤S3:报送单元按照第二方式获取数据;
步骤S4:监管单元基于步骤S3获取的数据进行数据处理。
进一步的,第一方式不同于第二方式而采用直接精确查询获取数据。
进一步的,采集终端的采集方式可根据监管需求来动态调整。
进一步的,采集前端的工作是并行的。
进一步的,采集到的数据为一个或者多个监管需求来服务。
进一步的,采集前端的数据采集所服务的监管任务对采集前端来说是透明的。
进一步的,监管单元为多个,采集前端同时服务一个监管单元的多个监管需求或多个监管单元一个或者多个监管需求。
一种一致性数据采集系统,包括:采集前端、数据存储单元、报送单元和监管单元;
所述数据存储单元用于存储采集前端采集的数据;数据存储单元作为数据集市,能够支持多个报送单元并行报送;
所述报送单元为一个多个,用于根据管理需求从数据存储单元获取满足采集条件的数据;
监管单元用于获取报送单元发送的数据并进行数据处理;。
进一步的,其中:报送单元是并行工作的。
进一步的,报送单元同时服务一个监管单元的多个监管需求或多个监管单元一个或者多个监管需求。
本发明通过物理采集一致性和非语义一致性判断,能保障数据获取的准确性、公平性、安全性和一致性,同时还能保障数据处理效率;具体包括:(1)通过在采集终端中选择一个采集终端接收采集任务,经过整体监控处理需求来整体决定采集任务的完成方式,从而大大的提高了采集任务处理效率降低了重叠度;(2)每个采集终端仅能够通过汇总的采集方式是否能够满足监管需求任务,而不能够得知其他采集终端的情况,通过采集任务的反复下达最终使得下达成功,且监管单元本身也不能够了解到因为其他监管任务而导致的业务终端采集情况,从而从架构上保障了数据的安全性;同时,监管单元也能够根据下达次数了解到采集难度;(3)使得通过数据存储单元提供的数据集使得采集到的数据能够满足不同的监管需求,从而提高了数据的复用度,提高了数据采集的效率;(4)设置了科学的一致性条件减少机制和精确调整机制,降低对采集份数的要求,使得在不增加过多通信开销和保障安全性的基础上,大数据的重复利用成为可能。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1为本发明的一致性数据采集方法的示意图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
先对本发明所应用的一种一致性数据采集系统进行详细说明。本发明所应用的一种一致性数据采集系统,包括:采集前端、数据存储单元、报送单元和监管单元;
所述采集前端为一个或多个,用于根据从源业务系统采集数据至数据存储单元;例如:通过ETL工具定时从各业务系统采集数据;
所述数据存储单元用于存储采集前端采集的数据;数据存储单元作为数据集市,能够支持多个报送单元并行报送;
所述报送单元为一个多个,用于根据管理需求从数据存储单元获取满足采集条件的数据;
监管单元用于获取报送单元发送的数据并进行数据处理,这里的处理可以是监管处理;报送单元能够根据处理需求、监管需求选择数据报送;这里的数据处理需求可以是:数据监管需求、数据提供需求等;涉及数据类型、时间范围、一致性条件等;
所述监管单元还包括配置模块,所述配置模块用于根据采集数据的报送完成情况对采集单元的数据采集进行重新配置;例如:对于单个监管需求进行数据的重新采集和生成处理。
接下来,对本发明的一种一致性数据采集方法作介绍,所述方法包括:
步骤S1:采集前端采用对应的采集方式采集监管数据;具体为:每个采集终端对应其自身的采集方式,采集方式涉及采集目标、数据类型、采集时间等;基于所述采集方式进行监管数据采集;例如:对A类型对象采集B类型数据,采集时间为2019年全年;
这里,每个采集前端基于各自的采集方式采集监管数据,也就是说采集前端的工作是并行的;各自按照各自独立的不同的采集任务采集,而且采集到的数据可能是为一个或者多个监管需求来服务,采集前端并不知道自己服务的是一个整体还是部分的监管需求任务;采集前端的功能划分符合他的用户角色从而保障了数据的安全性;
每个采集终端的采集方式可根据监管需求来动态调整;具体分为如下步骤:
步骤SA1:监管单元根据监管需求形成监管需求任务;
优选的:该步骤有监管单元的配置模块来完成;
步骤SA2:监管单元从采集前端中选择第一采集前端,将监管需求任务发送到所述第一采集前端;其中:所述第一采集前端未被针对当前监管需求任务选择过;
所述从采集前端中选择第一采集前端,具体为:从未被针对当前监管需求任务选择过的采集前端中选一个作为第一采集前端;在没有可选采集前端时重置选择记录;
优选的:根据采集前端的处理能力选择第一采集前端;
可替换的:在所有采集前端中选择和监管需求任务的归属人和采集前端之间的信任关系满足信任条件的采集前端放入候选采集前端集合;将候选采集前端集合中采集前端被选择的频次从小到达排序得到候选采集前端序列,截取采集前端序列中频次小于频次阈值的部分作为随机候选序列,从随机候选序列中随机选择一个采集前端作为第一采集前端;现有技术中对任务的委派往往是指定选择或者按照使用情况选择,现有选择方式缺乏公平、安全性,本发明在兼顾使用情况和信任关系的基础上,保障了选择公平性;随机选择算法是可替换的,或者由不同于监管单元的可信第三方提供;
步骤SA3:第一采集前端获取监管需求任务,分析监管需求以获取需求参数;其中:需求参数包括:采集目标、数据类型、采集时间、一致性条件等;其中:一致性条件包含针对同样数据需要采集的份数等;
优选的:第一采集终端是采集终端中的一个;
优选的:第一采集终端主动或者被动的获取监管需求;现有技术中往往是采集终端零散无组织的去获取监管需求并分散的来接受并完成数据采集,不管是主动还是被动的方式都会导致到大量的冗余操作;集中式解析监管需求会让一个采集终端来来完成采集需求的接收也会导致安全性等一系列问题;本发明的通过在采集终端选择一个采集终端接受并经过整体监控处理需求来整体决定采集任务的完成方式,从而大大的提高了采集任务处理效率降低了重叠度;
由于设置了数据集市作用的数据存储单元,因此,在数据集市中很有可能已经存在了监管需求所需要的数据,本发明还设置了科学的一致性条件减少机制,降低对采集份数的要求,使得在不增加过多通信开销和保障安全性的基础上,大数据的重复利用成为可能;
分析监管需求以获取需求参数,还包括:分析监管需求以获取其中的一致性要求,根据数据存储单元中数据的重复情况调整一致性要求,当重复度较高时,降低一致性要求以形成一致性条件,反之亦然;
对重复的判断可以是基于因为不一致性条件未得到满足而受到下达失败响应的统计数据来得到;当下达失败响应少时,对一致性要求降低的较多,从而形成较简单的一致性条件,反之亦然;例如:针对一个监管需求平均收到3次下达失败而处于较高水平时,使得一致性条件等于一致性要求;而当从未收到或者几乎未收到下达失败时,可以大幅下降一致性条件,例如:将要求中的4份,下降为2份等;
优选的:一致性条件的设置上限为一致性要求;
可替换的:数据存储单元通过对数据表的抽样比对以确定重复度;当然也可以采用多种方式相结合的方式;
步骤SA4:判断所有采集终端的采用其当前采集方式是否能够满足监管需求任务,如果是,保持所有采集终端当前采集方式不变,否则,调整第一采集终端的采集方式以使得监管需求任务得到最大满足;具体的:根据需求参数判断针对每组采集目标和数据类型,监管需求任务中相应的采集时间是否能够被覆盖,如果是,则继续判断下一组;否则,调整第一采集终端的采集方式,使得当前采集终端在采集限制条件下,最大情况满足所述采集目标和数据类型组合及其采集时间;如果下一采集目标和数据类型组合及其采集时间未满足,则确定监管需求任务未被满足,并继续采集目标和数据类型组合的判断;直到当前监管需求任务所涉及的所有采集目标和数据类型组合均处理完毕为止;
优选的:采集限制是指软硬件资源和人的限制;
针对现有数据采集方式中数据安全性从架构上没有得到保障,本发明每个采集终端仅能够通过汇总的采集方式是否能够满足监管需求任务,而不能够得知其他采集终端的情况,通过采集任务的反复下达最终使得下达成功,且监管单元本身也不能够了解到因为其他监管任务而导致的业务终端采集情况,从而从架构上保障了数据的安全性;同时,监管单元也能够根据下达次数了解到采集难度;
每次第一采集前端都能够根据被下发到的监管需求任务做自身采集方式的调整,这里的调整是兼容其之前采集方式,例如:第一采集前端正在针对用户A的B类型数据做采集,这时候因为调整而需要对用户A的C类型数据采集,这个时候做兼容式调整而同时采集用户A的A类型和B类型数据,从而提高了采集前端的采集效率;
步骤SA5:根据监管需求任务满足情况对监管单元作出响应;当监管需求任务被满足时,向监管单元反馈下达成功,否则,反馈下达失败响应;
步骤S2:将采集到的数据按照第一方式保存在数据存储单元中;具体的:数据存储单元按照采集目标管理数据;为采集目标创建第一索引,为采集目标和数据类型组合的创建第二索引,采集前端基于第一索引找到采集目标对应的存储区域,并基于第二索引定位采集目标和数据类型组合对应的数据表,获取数据的数据属性并将数据按照数据属性插入到数据表中;该第一方式不同于后续的第二方式,通过方式的不同剥离的采集和报送两个步骤的关联性,通过联合索引的方式加快存储速度并支撑了当前的保存方式;
数据属性包含需求参数,但是多于或者等于需求参数的数量;不同的需求可能包含同样的数据,但是需求参数本身是片面的,不同的需求对数据的描述不同,而实际上同样的数据因为属性的多样性可能能够满足多个不同的需求,正是利用这一特性,使得通过数据存储单元提供的数据集使得采集到的数据能够满足不同的监管需求,从而提高了数据的复用度,提高了数据采集的效率;例如:需求参数中包含时间这个数据属性,但是不包含业务细分类型,在将数据插入到数据表中时,因为抽取了时间和业务细分类型这两个数据属性,从而使得数据不仅能够被当前监管需求任务使用,还能够被另一个业务需求中包含该业务细分类型的重复使用;
这里获取数据的数据属性可以通过采集前端在采集时根据当前的采集环境、采集上下文等方式获取,还可以是通过数据存储单元对采集数据的语义和组成等进行分析获取;例如:获取到的数据是消费详情;采集需求仅仅包含了消费详情的要求,通过分析获取,得到消费详情中包含消费商家、消费金额等信息;而数据属性中也包含消费商家和消费金额,可以将得到数据填充到数据存储单元表格中,使得后续的重复利用率更高;其实一种最常见的重复利用方式是很多监管单元会发布针对类似数据不同方面或相似数据不同监管目的的数据监管需求,这就大大制造了数据重复利用的可能性;
优选的:数据存储单元设置有缓冲单元,采集前端将数据发送给数据存储单元而数据存储单元做后续的处理和具体的保存到数据表中的操作;
步骤S3:报送单元按照第二方式获取数据;具体的:报送单元基于需求参数确定第二索引值,基于第二索引定位采集目标和数据类型组合对应的数据表,基于需求参数填写数据属性,基于填写的数据属性在数据表中查询以得到候选数据;判断候选数据是否符合需求参数中的一致性条件,如果符合,则将满足一致性条件的候选数据作为所获取的数据;否则,记录不满足情况,并将包含不满足情况的下达失败响应发送给监管单元;
第一方式不同于第二方式而采用直接精确查询获取数据,通过一致性判断真正的满足监管需求对数据获取的要求,还侧重于一致性获取;而在不满足时,还是通过监管单元下达监管需求,明确了单元智能降低了数据盗取可能性;
优选的,在收到下达失败响应后,监管单元根据不满足情况修改修改监管需求,进入步骤SA1;其中:不满足情况包含:不满足一致性条件的候选数据对应的需求参数及其一致性条件的不满足情况;一致性条件包含:针对相同数据所要求的备份数目;
所述监管单元根据不满足情况修改监管需求,具体为:将不满足一致性条件的候选数据的需求参数值作为填入监管需求并为其设置一致性条件;这样将监管需求针对的数据范围缩小到不满足一致性条件的部分数据从而缩小采集范围;设置一致性条件为根据一致性条件不满足情况设置其所对应的一致性条件来使得再次采集完全匹配监管需求;例如:使得一致性条件中的份数等于本次一致性条件不满足时缺少的份数;从而使得初始的采集需求中对一致性要求完全被满足;例如:不满足情况为针对目标A的数据类型B1,采集B2数据段,一致性条件要求备份数是2;但是获取到的备份数仅仅是1份,因此,一致性条件不满足,修改监管需求为对针对目标A的数据类型B1,采集B2数据段,一致性条件要求备份数是1;这个时候精确的要求一致性条件,避免反复震荡降低监管效率;该步骤可以由配置模块来完成;
优选的:监管单元将监管需求任务发送给报送单元,报送单元分析监管需求以获取需求参数;按照第二方式获取数据;在报送单元发送下达失败响应后需要再次执行数据获取和报送的步骤,一直到终止条件满足或者报送成功为止;
优选的:在将监管需求任务发送给第一采集前端的同时发送给报送单元;这里报送单元也是多个,其选择方式仅仅是根据报送单元自身的繁忙程度来选择;报送单元对数据的选择本身是随机的,因此隔离安全性自始有保障;
步骤S4:监管单元用于进行数据处理;具体的:监管单元接收报送单元发送的数据,并基于监管需求查找对应的监管步骤,采用和所述监管需求对应的监管步骤对发送的数据做处理;也就是针对报送单元报送的数据做监管处理;
优选的:监管单元根据监管需求中一致性要求对数据做预处理,并基于预处理后的数据作后续处理;例如:一致性要求为数据份数2份,当两份数据不一致时,删除其中一份,或者直接将相关数据全部删除,又或者重新发起监管需求任务;还可以基于一致性判断结果做数据信任度的降低;
优选的;监管单元对接收到的数据做非语义一致性判断,在非语义一致性判断通过后对数据做下一步的处理;这里的非语义一致性判断为根据特定条件获取和所述特定条件对应的数据,对数据做数据统计,将统计结果和历史数据作比较以判断是否一致;例如:获取通过年龄查询获取所有的年龄数据,判断年龄数据是否符合历史规律;
为了进一步判断数据的一致性,本发明提出数据组查询条件,将特定条件限定为查询组合,其中查询组合包含第一元条件和第二元条件,采用第一元条件查询获取第一元条件符合所有数据,并统计所有数据中第二元条件对应的数据,将所述统计结果和历史数据作比较以判断是否一致;例如:查询张姓(第一元)的年龄,统计所有张姓数据第二元值-年龄的平均值,将所述平均值和历史数据比较判断是否一致;
通过该物理采集一致性和非语义一致性判断,能保障数据获取的准确性、公平性、安全性和一致性,同时还能保障数据处理效率;
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种一致性数据采集方法,其特征在于,所述方法包含:
步骤S1:采集前端采用对应的采集方式采集监管数据;具体为:每个采集终端对应其自身的采集方式,采集方式涉及采集目标、数据类型、采集时间;
每个采集终端的采集方式可根据监管需求来动态调整;具体分为如下步骤:
步骤SA1:监管单元根据监管需求形成监管需求任务;
步骤SA2:监管单元从采集前端中选择第一采集前端,将监管需求任务发送到所述第一采集前端;所述从采集前端中选择第一采集前端,具体为:从未被针对当前监管需求任务选择过的采集前端中选一个作为第一采集前端;在没有可选采集前端时重置选择记录;
或在所有采集前端中选择和监管需求任务的归属人和采集前端之间的信任关系满足信任条件的采集前端放入候选采集前端集合;将候选采集前端集合中采集前端被选择的频次从小到达排序得到候选采集前端序列,截取采集前端序列中频次小于频次阈值的部分作为随机候选序列,从随机候选序列中随机选择一个采集前端作为第一采集前端;
步骤SA3:第一采集前端获取监管需求任务,分析监管需求以获取需求参数;分析监管需求以获取需求参数,还包括:分析监管需求以获取其中的一致性要求,根据数据存储单元中数据的重复情况调整一致性要求,当重复度较高时,降低一致性要求以形成一致性条件,反之亦然;
步骤SA4:判断所有采集终端的采用其当前采集方式是否能够满足监管需求任务,如果是,保持所有采集终端当前采集方式不变,否则,调整第一采集终端的采集方式以使得监管需求任务得到最大满足;具体的:根据需求参数判断针对每组采集目标和数据类型,监管需求任务中相应的采集时间是否能够被覆盖,如果是,则继续判断下一组;否则,调整第一采集终端的采集方式;如果下一采集目标和数据类型组合及其采集时间未满足,则确定监管需求任务未被满足,并继续采集目标和数据类型组合的判断;直到当前监管需求任务所涉及的所有采集目标和数据类型组合均处理完毕为止;
步骤SA5:根据监管需求任务满足情况对监管单元作出响应;当监管需求任务被满足时,向监管单元反馈下达成功,否则,反馈下达失败响应;
步骤S2:将采集到的数据按照第一方式保存在数据存储单元中;具体的:数据存储单元按照采集目标管理数据;为采集目标创建第一索引,为采集目标和数据类型组合的创建第二索引,采集前端基于第一索引找到采集目标对应的存储区域,并基于第二索引定位采集目标和数据类型组合对应的数据表,获取数据的数据属性并将数据按照数据属性插入到数据表中;该第一方式不同于后续的第二方式;
步骤S3:报送单元按照第二方式获取数据;具体的:报送单元基于需求参数确定第二索引值,基于第二索引定位采集目标和数据类型组合对应的数据表,基于需求参数填写数据属性,基于填写的数据属性在数据表中查询以得到候选数据;判断候选数据是否符合需求参数中的一致性条件,如果符合,则将满足一致性条件的候选数据作为所获取的数据;否则,记录不满足情况,并将包含不满足情况的下达失败响应发送给监管单元;
在收到下达失败响应后,监管单元根据不满足情况修改修改监管需求,进入步骤SA1;其中:不满足情况包含:不满足一致性条件的候选数据对应的需求参数及其一致性条件的不满足情况;一致性条件包含:针对相同数据所要求的备份数目;
所述监管单元根据不满足情况修改监管需求,具体为:将不满足一致性条件的候选数据的需求参数值作为填入监管需求并为其设置一致性条件;这样将监管需求针对的数据范围缩小到不满足一致性条件的部分数据从而缩小采集范围;设置一致性条件为根据一致性条件不满足情况设置其所对应的一致性条件来使得再次采集完全匹配监管需求;
步骤S4:监管单元基于步骤S3获取的数据进行数据处理;具体的:监管单元接收报送单元发送的数据,并基于监管需求查找对应的监管步骤,采用和所述监管需求对应的监管步骤对发送的数据做处理;也就是针对报送单元报送的数据做监管处理。
2.根据权利要求1所述的一致性数据采集方法,其特征在于,第一方式不同于第二方式而采用直接精确查询获取数据。
3.根据权利要求2所述的一致性数据采集方法,其特征在于,采集前端的工作是并行的。
4.根据权利要求3所述的一致性数据采集方法,其特征在于,采集到的数据为一个或者多个监管需求来服务。
5.根据权利要求4所述的一致性数据采集方法,其特征在于,采集前端的数据采集所服务的监管任务对采集前端来说是透明的。
6.根据权利要求5所述的一致性数据采集方法,其特征在于,监管单元为多个,采集前端同时服务一个监管单元的多个监管需求或多个监管单元一个或者多个监管需求。
7.一种基于权利要求1-6中任一项所述一致性数据采集方法的一致性数据采集系统,包括:采集前端、数据存储单元、报送单元和监管单元;
所述数据存储单元用于存储采集前端采集的数据;数据存储单元作为数据集市,能够支持多个报送单元并行报送;
所述报送单元为一个多个,用于根据管理需求从数据存储单元获取满足采集条件的数据;
监管单元用于获取报送单元发送的数据并进行数据处理。
8.根据权利要求7所述的一致性数据采集系统,其特征在于,其中:报送单元是并行工作的。
9.根据权利要求8所述的一致性数据采集系统,其特征在于,报送单元同时服务一个监管单元的多个监管需求或多个监管单元一个或者多个监管需求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011493494.3A CN112597223B (zh) | 2020-12-16 | 2020-12-16 | 一种一致性数据采集方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011493494.3A CN112597223B (zh) | 2020-12-16 | 2020-12-16 | 一种一致性数据采集方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597223A CN112597223A (zh) | 2021-04-02 |
CN112597223B true CN112597223B (zh) | 2023-11-14 |
Family
ID=75196680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011493494.3A Active CN112597223B (zh) | 2020-12-16 | 2020-12-16 | 一种一致性数据采集方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597223B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1556490A (zh) * | 2004-01-08 | 2004-12-22 | 上海复旦光华信息科技股份有限公司 | 基于状态转换表的多源审计数据业务一致性判断方法 |
CN102340791A (zh) * | 2010-07-21 | 2012-02-01 | 中国移动通信集团福建有限公司 | 一种用于实现数据一致性的系统和方法 |
CN108647217A (zh) * | 2017-12-27 | 2018-10-12 | 广东智政信息科技有限公司 | 基于安监应用的大数据平台集成管理系统 |
CN208207930U (zh) * | 2018-05-23 | 2018-12-07 | 西北工业大学 | 车辆环保装置一致性核查及监管系统 |
CN110502514A (zh) * | 2019-08-15 | 2019-11-26 | 中国平安财产保险股份有限公司 | 数据采集方法、装置、设备及计算机可读存储介质 |
CN110796470A (zh) * | 2019-08-13 | 2020-02-14 | 广州中国科学院软件应用技术研究所 | 一种面向市场主体监管和服务的数据分析系统 |
CN111124673A (zh) * | 2019-12-11 | 2020-05-08 | 中盈优创资讯科技有限公司 | 数据采集系统及方法 |
CN111198914A (zh) * | 2019-12-12 | 2020-05-26 | 山西云时代技术有限公司 | 基于oracle数据库归档日志的整库实时数据采集方法 |
CN111459908A (zh) * | 2020-03-08 | 2020-07-28 | 中国科学院城市环境研究所 | 一种基于数据湖的多源异构生态环境大数据处理方法及系统 |
WO2020177441A1 (zh) * | 2019-03-04 | 2020-09-10 | 北京工业大学 | 一种单向隔离数据采集与离线算法验证系统 |
CN111651442A (zh) * | 2020-05-15 | 2020-09-11 | 京东数字科技控股有限公司 | 一种数据报送方法、装置、电子设备及存储介质 |
CN111881093A (zh) * | 2020-07-22 | 2020-11-03 | 中国工商银行股份有限公司 | 一种数据报送方法、装置及报送系统 |
CN111967850A (zh) * | 2020-08-19 | 2020-11-20 | 支付宝(杭州)信息技术有限公司 | 一种数据报送监测方法、装置及电子设备 |
-
2020
- 2020-12-16 CN CN202011493494.3A patent/CN112597223B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1556490A (zh) * | 2004-01-08 | 2004-12-22 | 上海复旦光华信息科技股份有限公司 | 基于状态转换表的多源审计数据业务一致性判断方法 |
CN102340791A (zh) * | 2010-07-21 | 2012-02-01 | 中国移动通信集团福建有限公司 | 一种用于实现数据一致性的系统和方法 |
CN108647217A (zh) * | 2017-12-27 | 2018-10-12 | 广东智政信息科技有限公司 | 基于安监应用的大数据平台集成管理系统 |
CN208207930U (zh) * | 2018-05-23 | 2018-12-07 | 西北工业大学 | 车辆环保装置一致性核查及监管系统 |
WO2020177441A1 (zh) * | 2019-03-04 | 2020-09-10 | 北京工业大学 | 一种单向隔离数据采集与离线算法验证系统 |
CN110796470A (zh) * | 2019-08-13 | 2020-02-14 | 广州中国科学院软件应用技术研究所 | 一种面向市场主体监管和服务的数据分析系统 |
CN110502514A (zh) * | 2019-08-15 | 2019-11-26 | 中国平安财产保险股份有限公司 | 数据采集方法、装置、设备及计算机可读存储介质 |
CN111124673A (zh) * | 2019-12-11 | 2020-05-08 | 中盈优创资讯科技有限公司 | 数据采集系统及方法 |
CN111198914A (zh) * | 2019-12-12 | 2020-05-26 | 山西云时代技术有限公司 | 基于oracle数据库归档日志的整库实时数据采集方法 |
CN111459908A (zh) * | 2020-03-08 | 2020-07-28 | 中国科学院城市环境研究所 | 一种基于数据湖的多源异构生态环境大数据处理方法及系统 |
CN111651442A (zh) * | 2020-05-15 | 2020-09-11 | 京东数字科技控股有限公司 | 一种数据报送方法、装置、电子设备及存储介质 |
CN111881093A (zh) * | 2020-07-22 | 2020-11-03 | 中国工商银行股份有限公司 | 一种数据报送方法、装置及报送系统 |
CN111967850A (zh) * | 2020-08-19 | 2020-11-20 | 支付宝(杭州)信息技术有限公司 | 一种数据报送监测方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
保险软件系统的整体性和数据的一致性探讨;洪岩;;中国高新技术企业(第14期);32-33 * |
基于数据驱动的司法公开信息化监管系统;李明;刘滨;;河北科技大学学报(第04期);96-104 * |
Also Published As
Publication number | Publication date |
---|---|
CN112597223A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110417591B (zh) | 投票节点配置方法及系统 | |
US20040093351A1 (en) | System and method for controlling task assignment and work schedules | |
JP2019517748A (ja) | エージェント割振りの方法、装置、サーバーおよび記録媒体 | |
CN106528280A (zh) | 一种任务分配方法和系统 | |
US11455640B2 (en) | Transaction indicator monitoring methods, apparatuses, and devices | |
CN112187512B (zh) | 一种基于流量监控的端口自动扩容方法、装置和设备 | |
CN110297746A (zh) | 一种数据处理方法及系统 | |
CN113204692A (zh) | 数据处理任务执行进度的监测方法及装置 | |
CN110363381B (zh) | 一种信息处理方法和装置 | |
CN110909129B (zh) | 异常投诉事件的识别方法及装置 | |
CN112597223B (zh) | 一种一致性数据采集方法和系统 | |
CN113673822B (zh) | 一种弹性调度方法及系统 | |
CN110069565A (zh) | 一种分布式数据库数据批量处理的方法及装置 | |
CN114238328A (zh) | 数据分页查询方法、装置、设备及存储介质 | |
CN116188050A (zh) | 基于数据分析的外卖平台信息处理系统 | |
CN112269660B (zh) | 一种海量数据处理并发任务自适应测控方法及系统 | |
CN108683551B (zh) | 一种管道式流控的方法及装置 | |
CN110457344B (zh) | 预计算模型生成、预计算方法、装置、设备及存储介质 | |
CN110363515B (zh) | 权益卡账户信息查询方法、系统、服务器及可读存储介质 | |
CN113419852A (zh) | 微服务的请求响应方法、装置、设备及存储介质 | |
CN111786821A (zh) | 异常定位方法、服务器及存储介质 | |
CN111127065A (zh) | 用户职住地的获取方法和装置 | |
CN113608909B (zh) | 数据处理方法、装置、设备、系统、存储介质及程序产品 | |
CN114219501B (zh) | 样本标注资源分配方法、装置及应用 | |
CN115146261B (zh) | 应对数字云服务的数据威胁处理方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |