CN117390007A - 大数据量去重接口数据采集方法、装置、设备及存储介质 - Google Patents
大数据量去重接口数据采集方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117390007A CN117390007A CN202311677011.9A CN202311677011A CN117390007A CN 117390007 A CN117390007 A CN 117390007A CN 202311677011 A CN202311677011 A CN 202311677011A CN 117390007 A CN117390007 A CN 117390007A
- Authority
- CN
- China
- Prior art keywords
- data
- interface
- identification
- deduplication
- bitset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003780 insertion Methods 0.000 claims description 15
- 230000037431 insertion Effects 0.000 claims description 15
- 238000013480 data collection Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 3
- 230000008030 elimination Effects 0.000 abstract 1
- 238000003379 elimination reaction Methods 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/542—Event management; Broadcasting; Multicasting; Notifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据量去重接口数据采集方法、装置、设备及存储介质,该方法包括:采集接口数据、数据标识、建立数据索引和数据去重;本发明通过配置的接口信息,以分片广播的任务执行方式循环获取接口数据,再通过计算每条数据的散列值,用以生成每条数据的唯一标识,最后利用位图数据结构建立数据索引,以此判断数据是否重复,由此,能够提高数据质量,节省存储空间,提高数据采集效率,具有空间利用率高、时间效率高等优点,能够快速准确地判断重复数据,提高了数据采集的效率和准确性,特别适合大数据量的去重判断。
Description
技术领域
本发明涉及计算机软件技术领域,尤其涉及到一种大数据量去重接口数据采集方法、装置、设备及存储介质。
背景技术
随着信息技术的迅猛发展和互联网的广泛应用,大数据量的信息产生和传输已经成为日常生活和商业活动的重要组成部分。众多应用场景需要采集来自各种数据接口的信息,包括但不限于传感器、网络服务、社交媒体、物联网设备、数据库查询等。
然而,随着数据量的增加,数据采集过程面临一系列挑战。其中之一是数据的重复和冗余,即相同或类似的数据可能会被多次采集,导致数据存储和传输的浪费。另一个挑战是数据质量的问题,包括数据的完整性、准确性和一致性。因此,开发一种高效的大数据量后去重的接口数据采集方法具有重要意义。
发明内容
本发明的主要目的在于提供一种大数据量去重接口数据采集方法、装置、设备及存储介质,用于从不同来源的数据接口中采集数据并去除冗余信息,以提高数据质量和分析效率。
为实现上述目的,本发明提供一种大数据量去重接口数据采集方法,所述方法包括以下步骤:
采集接口数据,根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;
数据标识,使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;
建立数据索引,创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;
数据去重,对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。
可选的,采集接口数据步骤中,具体包括:对于大数据量,采用分页返回的接口数据,支持多个执行器以分布式的方式同时对该接口循环获取数据,并将数据暂存到消息中间件,以此方式来应对大数据量,高并发的接口数据获取。
可选的,数据去重步骤,具体包括:在数据去重过程中的插入队列,是一个ArrayList,用于暂时缓存去重后的数据,达到一定量后,统一批量存储到数据库。
可选的,建立数据索引步骤之后,所述方法,还包括:
数据比对,从消息中间件读取新采集的数据,并将其数据标识作为下标获取BitSet中对应位置的数据进行判断。
可选的,数据去重步骤之后,所述方法,还包括:
数据存储,从插入队列读取去重后的数据,每当插入对接的数据条数达到2000条,将数据批量存储到数据库中。
此外,为了实现上述目的,本发明还提供了一种大数据量去重接口数据采集装置,包括:
接口数据采集模块,用于根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;
数据标识模块,用于使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;
数据索引建立,用于创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;
数据去重模块,用于对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。
此外,为了实现上述目的,本发明还提供了一种大数据量去重接口数据采集设备,所述大数据量去重接口数据采集设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被所述处理器执行时实现如上所述的大数据量去重接口数据采集方法的步骤。
此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被处理器执行时实现上述的大数据量去重接口数据采集方法的步骤。
本发明的有益效果在于:
(1)提高数据质量:通过去除重复和冗余数据,本方法可以显著提高采集的数据质量,使得分析更加准确和可靠。
(2)节省存储空间:去重后的数据占用更少的存储空间,降低了存储成本。
(3)提高效率:去重操作可以减少数据处理和分析的时间,提高了数据采集的效率。
(4)适用广泛:本方法可以应用于各种数据类型和领域,为各行业的数据分析提供了强大的支持。
(5)采用BitSet的位图数据结构进行去重标识存储,具有空间利用率高、时间效率高等优点,能够快速准确地判断重复数据,提高了数据采集的效率和准确性,特别适合大数据量的去重判断。
(6)适用于大数据量的接口数据采集,能够满足大规模数据采集的需求。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明大数据量去重接口数据采集方法实施例的流程示意图;
图3为本发明大数据量去重接口数据采集方法的处理流程实例示意图;
图4为本发明实施例中一种大数据量去重接口数据采集装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。
如图1所示,该装置可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的装置的结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及大数据量去重接口数据采集程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的大数据量去重接口数据采集程序,并执行以下操作:
采集接口数据,根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;
数据标识,使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;
建立数据索引,创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;
数据去重,对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。
本发明应用于装置的具体实施例与下述应用大数据量去重接口数据采集方法的各实施例基本相同,在此不作赘述。
本发明实施例提供了一种大数据量去重接口数据采集方法,参照图2,图2为本发明大数据量去重接口数据采集方法实施例的流程示意图。
本实施例中,所述大数据量去重接口数据采集方法,包括以下步骤:
S100:采集接口数据,根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;
S200:数据标识,使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;
S300:建立数据索引,创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;
S400:数据去重,对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。
在优选的实施例中,采集接口数据步骤中,具体包括:对于大数据量,采用分页返回的接口数据,支持多个执行器以分布式的方式同时对该接口循环获取数据,并将数据暂存到消息中间件,以此方式来应对大数据量,高并发的接口数据获取。
在优选的实施例中,数据去重步骤,具体包括:在数据去重过程中的插入队列,是一个ArrayList,用于暂时缓存去重后的数据,达到一定量后,统一批量存储到数据库。
在优选的实施例中,建立数据索引步骤之后,所述方法,还包括:
数据比对,从消息中间件读取新采集的数据,并将其数据标识作为下标获取BitSet中对应位置的数据进行判断。
在优选的实施例中,数据去重步骤之后,所述方法,还包括:
数据存储,从插入队列读取去重后的数据,每当插入对接的数据条数达到2000条,将数据批量存储到数据库中。
在本实施例中,提供了一种大数据量去重接口数据采集方法,通过配置的接口信息,以分片广播的任务执行方式循环获取接口数据,再通过计算每条数据的散列值,用以生成每条数据的唯一标识,最后利用位图数据结构建立数据索引,以此判断数据是否重复,由此,能够提高数据质量,节省存储空间,提高数据采集效率,具有空间利用率高、时间效率高等优点,能够快速准确地判断重复数据,提高了数据采集的效率和准确性,特别适合大数据量的去重判断。
为了更清楚的解释本申请,下面提供大数据量去重接口数据采集的具体实例,如图3所示。一种大数据量后去重的接口数据采集方法的处理流程,包括以下步骤:
步骤一:接口信息配置,对需要采集的接口的请求地址信息、请求参数、响应参数进行配置。
步骤二:采集接口数据,根据步骤一中配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;
步骤三:数据标识,使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识。
步骤四:建立数据索引,创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标。将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立。
步骤五:数据比对,从消息中间件读取新采集的数据,并将其数据标识作为下标获取BitSet中对应位置的数据进行判断。
步骤六:数据去重,对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。
步骤七:数据存储,从插入队列读取去重后的数据,每当插入对接的数据条数达到2000条,将数据批量存储到数据库中。
参照图4,图4为本发明大数据量去重接口数据采集装置实施例的结构框图。
如图4所示,本发明实施例提出的大数据量去重接口数据采集装置包括:
接口数据采集模块10,用于根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;
数据标识模块20,用于使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;
数据索引建立30,用于创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;
数据去重模块40,用于对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。
本发明大数据量去重接口数据采集装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,本发明还提出一种大数据量去重接口数据采集设备,所述大数据量去重接口数据采集设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被所述处理器执行时实现如上所述的大数据量去重接口数据采集方法的步骤。
本申请大数据量去重接口数据采集设备的具体实施方式与上述大数据量去重接口数据采集方法各实施例基本相同,在此不再赘述。
此外,本发明还提出一种可读存储介质,所述可读存储介质包括计算机可读存储介质,其上存储有大数据量去重接口数据采集程序。所述可读存储介质可以是图1的终端中的存储器1005,也可以是如ROM(Read-Only Memory,只读存储器)/RAM(Random AccessMemory,随机存取存储器)、磁碟、光盘中的至少一种,所述可读存储介质包括若干指令用以使得一台具有处理器的大数据量去重接口数据采集设备执行本发明各个实施例所述的大数据量去重接口数据采集方法。
本申请可读存储介质中的具体实施方式与上述大数据量去重接口数据采集方法各实施例基本相同,在此不再赘述。
可以理解的是,在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种大数据量去重接口数据采集方法,其特征在于,所述方法包括以下步骤:
采集接口数据,根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;
数据标识,使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;
建立数据索引,创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;
数据去重,对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。
2.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,采集接口数据步骤中,具体包括:对于大数据量,采用分页返回的接口数据,支持多个执行器以分布式的方式同时对该接口循环获取数据,并将数据暂存到消息中间件,以此方式来应对大数据量,高并发的接口数据获取。
3.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,数据去重步骤,具体包括:在数据去重过程中的插入队列,是一个ArrayList,用于暂时缓存去重后的数据,达到一定量后,统一批量存储到数据库。
4.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,建立数据索引步骤之后,所述方法,还包括:
数据比对,从消息中间件读取新采集的数据,并将其数据标识作为下标获取BitSet中对应位置的数据进行判断。
5.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,数据去重步骤之后,所述方法,还包括:
数据存储,从插入队列读取去重后的数据,每当插入对接的数据条数达到2000条,将数据批量存储到数据库中。
6.一种大数据量去重接口数据采集装置,其特征在于,包括:
接口数据采集模块,用于根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;
数据标识模块,用于使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;
数据索引建立,用于创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;
数据去重模块,用于对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。
7.一种大数据量去重接口数据采集设备,其特征在于,所述大数据量去重接口数据采集设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被所述处理器执行时实现如权利要求1至5中任一项所述的大数据量去重接口数据采集方法的步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被处理器执行时实现如权利要求1至5中任一项所述的大数据量去重接口数据采集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311677011.9A CN117390007B (zh) | 2023-12-08 | 2023-12-08 | 大数据量去重接口数据采集方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311677011.9A CN117390007B (zh) | 2023-12-08 | 2023-12-08 | 大数据量去重接口数据采集方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117390007A true CN117390007A (zh) | 2024-01-12 |
CN117390007B CN117390007B (zh) | 2024-03-12 |
Family
ID=89463389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311677011.9A Active CN117390007B (zh) | 2023-12-08 | 2023-12-08 | 大数据量去重接口数据采集方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117390007B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120036146A1 (en) * | 2010-10-26 | 2012-02-09 | ParElastic Corporation | Apparatus for elastic database processing with heterogeneous data |
WO2015007187A1 (en) * | 2013-07-18 | 2015-01-22 | Tencent Technology (Shenzhen) Company Limited | Method, device and storage medium for providing data statistics |
US8972337B1 (en) * | 2013-02-21 | 2015-03-03 | Amazon Technologies, Inc. | Efficient query processing in columnar databases using bloom filters |
CN104486777A (zh) * | 2014-12-01 | 2015-04-01 | 中国联合网络通信集团有限公司 | 一种实现数据处理的方法及装置 |
CN107832341A (zh) * | 2017-10-12 | 2018-03-23 | 千寻位置网络有限公司 | Agnss用户去重统计方法 |
CN114416751A (zh) * | 2022-03-29 | 2022-04-29 | 中建电子商务有限责任公司 | 一种基于倍增位图的rbac优化算法 |
CN115554705A (zh) * | 2022-10-21 | 2023-01-03 | 福建天晴数码有限公司 | 一种分布式高性能游戏服务取名不重复的方法及其系统 |
-
2023
- 2023-12-08 CN CN202311677011.9A patent/CN117390007B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120036146A1 (en) * | 2010-10-26 | 2012-02-09 | ParElastic Corporation | Apparatus for elastic database processing with heterogeneous data |
US8972337B1 (en) * | 2013-02-21 | 2015-03-03 | Amazon Technologies, Inc. | Efficient query processing in columnar databases using bloom filters |
WO2015007187A1 (en) * | 2013-07-18 | 2015-01-22 | Tencent Technology (Shenzhen) Company Limited | Method, device and storage medium for providing data statistics |
CN104486777A (zh) * | 2014-12-01 | 2015-04-01 | 中国联合网络通信集团有限公司 | 一种实现数据处理的方法及装置 |
CN107832341A (zh) * | 2017-10-12 | 2018-03-23 | 千寻位置网络有限公司 | Agnss用户去重统计方法 |
CN114416751A (zh) * | 2022-03-29 | 2022-04-29 | 中建电子商务有限责任公司 | 一种基于倍增位图的rbac优化算法 |
CN115554705A (zh) * | 2022-10-21 | 2023-01-03 | 福建天晴数码有限公司 | 一种分布式高性能游戏服务取名不重复的方法及其系统 |
Non-Patent Citations (2)
Title |
---|
TAN APAYDIN等: "Approximate Encoding for Direct Access and Query Processing over Compressed Bitmaps", PROCEEDINGS OF THE 32ND INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASES, 15 September 2006 (2006-09-15), pages 1 - 12 * |
谢黎明: "对象存储系统中数据管理策略研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), 15 May 2009 (2009-05-15), pages 138 - 177 * |
Also Published As
Publication number | Publication date |
---|---|
CN117390007B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115133A (zh) | 分布式全局唯一id生成方法和系统、存储介质、设备 | |
CN109033295B (zh) | 超大数据集的合并方法及装置 | |
CN107659473A (zh) | 接入控制方法、系统、路由服务器及计算机可读存储介质 | |
CN111246406A (zh) | 一种短信发送方法、系统、存储介质及终端设备 | |
CN113010542A (zh) | 业务数据处理方法、装置、计算机设备及存储介质 | |
CN110737655B (zh) | 用于上报数据的方法和装置 | |
CN117390007B (zh) | 大数据量去重接口数据采集方法、装置、设备及存储介质 | |
CN112612790B (zh) | 卡号配置方法、装置、设备及计算机存储介质 | |
CN116795069B (zh) | 一种基于边缘计算的智能制造方法 | |
CN111078975B (zh) | 一种多节点增量式数据采集系统及采集方法 | |
CN116340363B (zh) | 一种基于关系型数据库的数据存储、加载方法及相关装置 | |
CN111552663A (zh) | 文件一致性验证方法、装置、计算机设备及存储介质 | |
CN115022289B (zh) | 一种连续可用ip地址检测方法、装置、设备及存储介质 | |
CN112148705A (zh) | 数据迁移的方法和装置 | |
CN115905151A (zh) | 基于备份日志的流转信息查询方法、系统和装置 | |
CN114461575A (zh) | 大批量文件处理方法、装置、设备及存储介质 | |
CN109710569B (zh) | 一种文件在线浏览方法 | |
CN112507193A (zh) | 数据更新方法、装置、设备和存储介质 | |
CN113704203A (zh) | 一种日志文件的处理方法及装置 | |
CN112650964A (zh) | 一种业务处理方法、设备及机器可读存储介质 | |
CN110932896A (zh) | 日志倒排索引的创建方法、装置、设备及可读存储介质 | |
CN113609165B (zh) | 数据请求方法、数据处理方法和数据管理系统 | |
CN114679471B (zh) | 一种基于云端业务处理的数据匹配方法 | |
CN113806575B (zh) | 仓库拆分中图片信息获取方法及装置 | |
CN112600918B (zh) | 一种基于bs架构的工控边缘大数据高效处理方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |