CN111061719B - 数据收集方法、装置、设备和存储介质 - Google Patents

数据收集方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111061719B
CN111061719B CN201911369301.0A CN201911369301A CN111061719B CN 111061719 B CN111061719 B CN 111061719B CN 201911369301 A CN201911369301 A CN 201911369301A CN 111061719 B CN111061719 B CN 111061719B
Authority
CN
China
Prior art keywords
data
service
service data
reading
task information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911369301.0A
Other languages
English (en)
Other versions
CN111061719A (zh
Inventor
张浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Baiguoyuan Information Technology Co Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201911369301.0A priority Critical patent/CN111061719B/zh
Publication of CN111061719A publication Critical patent/CN111061719A/zh
Application granted granted Critical
Publication of CN111061719B publication Critical patent/CN111061719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种数据收集方法、装置、设备和存储介质。其中,该方法包括根据预设的任务信息表收集至少一个存储节点内的业务数据;删除所述业务数据中的重复数据;将删除重复数据后的所述业务数据作为业务端收集的目标数据。本发明实施例的技术方案,实现了收集的收集,通过任务信息表实现各存储节点同时进行数据处理,提高了数据处理性能,保障了数据的一致性。

Description

数据收集方法、装置、设备和存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据收集方法、装置、设备和存储介质。
背景技术
随着互联网技术的发展,数据已经更为生活中重要的组成部分。随着数据的日益增长,分布式技术应用而生,多个处理节点通过通信线路互联而构成的系统,各个处理节点在地域上分散,可以散布在一个单位、一个城市、一个国家甚至全球范围内,数据在各处理节点内被存储和处理。数据获取装置需要从系统外部采集数据并输入到系统内部。数据收集广泛应用在各个领域,对分布式数据收集的要求也提出了挑战。
传统数据收集方法通常为集中式数据收集和分散集中式数据收集两种,两者的特定如下:1)集中式数据收集是将所有数据都输入到同一个计算机做处理;2)分散集中式数据收集是将数据集输入到不同的几个计算机分布进行处理,各计算机之间的数据收集独立。然而上述两种收集收集方法都存在明显缺点,集中式数据采集,由单点计算机处理,当该计算机出现故障或者超出处理能力时,整个收集系统将无法工作;分散集中式数据采集在集中式数据采集的基础上解决了单点处理的问题,但由于各计算机单独处理无法保证事务的一致性。
发明内容
本发明提供一种数据收集方法、装置、设备和存储介质,以实现海量数据的收集,增强数据处理能力,保证数据的一致性。
第一方面,本发明实施例提供了一种数据收集方法,该方法包括:
根据预设的任务信息表收集至少一个存储节点内的业务数据;
删除所述业务数据中的重复数据;
将删除重复数据后的所述业务数据作为业务端收集的目标数据。
第二方面,本发明实施例提供了一种数据收集装置,该装置包括:
数据读取模块,用于根据预设的任务信息表收集至少一个存储节点内的业务数据;
数据去重模块,用于删除所述业务数据中的重复数据;
数据收集模块,用于将删除重复数据后的所述业务数据作为业务端收集的目标数据。
第三方面,本发明实施提供了一种设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的数据收集方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,该程序被处理器执行时实现如本发明实施例中任一所述的数据收集方法。
本发明实施例的技术方案,通过预设的任务信息表收集各存储节点内的业务数据,删除所述业务数据中重复数据,将去重后的业务数据作为业务端收集的目标数据,通过任务信息表实现了各存储节点内数据的并行收集,提高了数据处理性能,通过去重操作保障了收集到的目标数据的一致性。
附图说明
图1是本发明实施例一提供的一种数据收集方法的流程图;
图2是本发明实施例二提供的一种数据收集方法的流程图;
图3是本发明实施例二提供的一种数据收集方法的示例图;
图4是本发明实施例三提供的一种数据收集装置的结构示意图;
图5是本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构,此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
由于现有数据机房分布在全球各大洲的多个城市,由于业务逻辑需要处理下单、发奖和更新订单状态等不可重复操作的需求,现有数据收集方法常出现数据丢失和重复收集的问题,导致业务端在根据收集到的数据实现业务逻辑时,极容易出现错误,本发明实施例提供的数据收集方法旨在解决数据收集的延迟和一致性问题。
实施例一
图1是本发明实施例一提供的一种数据收集方法的流程图,参见图1,本发明实施例可适用于收集分布式存储数据的情况,该方法可以由数据收集装置来执行,该装置可以采用硬件和/或软件的方式来实现,参见图1,本发明实施例提供的方法具体包括如下步骤:
步骤101、根据预设的任务信息表收集至少一个存储节点内的业务数据。
其中,任务信息表可以存储有数据读取任务的数据表,任务信息表中可以存储多个数据读取任务,任务信息表中的数据读取任务可以用于读取存储节点内的业务数据;存储节点可以是存储集群的组成节点,不同的存储节点存储的数据可以相同,也可以不同,例如,若两个存储节点互为冗余节点,则两个存储节点内存储的数据相同,若两个存储节点用于提供不同的业务功能,则两个存储节点内存储的数据不同,业务数据可以是用于实现业务功能的数据,可以包括订单数据、用户信息和奖金信息等。
具体的,可以提取到任务信息表中数据获取任务,可以根据数据获取任务在各存储节点内读取业务数据,可以理解的是,不同数据获取任务要求获取的业务数据可以不同。进一步的,在执行任务信息表中的数据获取任务时,可以对数据获取任务进行加锁,一个数据获取任务可以由一个存储节点执行,当数据获取任务被枷锁后,其他存储节点不可以执行该数据获取任务,可以降低后续去重过程的数据处理量,提高数据收集的效率。
步骤102、删除所述业务数据中的重复数据。
其中,重复数据可以是不同存储节点中存储的相同业务数据,例如,存储节点A被读取到业务数据a、b和c,存储节点B可以被读取到业务数据a和d,其中,读取到的业务数据中可以存在两条业务数据a,则业务数据a可以为重复数据。
在本发明实施例中,可以将从各存储节点内读取到的业务数据存储到缓存中,可以对缓存中的业务数据进行去重操作,例如,可以对业务数据生成哈希值,可以若存在哈希值相同的业务数据,则可以删除多于的重复数据,仅保留一个该哈希值的业务数据。进一步的,在处理海量数据时,可以将业务数据读取到分布式集群中进行缓存,可以在分布式集群中删除业务数据中的重复数据。
步骤103、将删除重复数据后的所述业务数据作为业务端收集的目标数据。
其中,业务端可以是需要获取业务数据的应用端,业务端可以根据读取到的业务数据实现业务功能,例如,可以进行订单状态更新和奖金发放等,目标数据可以是业务端实现业务功能对应的业务数据,可以在业务数据中查询获得。
具体的,业务端可以根据数据种类或者数据标识在业务数据中查找,查询依据可以是业务数据的种类或者业务数据的数据标识,业务端可以将查询到的业务数据作为需要收集的目标数据。
本发明实施例的技术方案,通过预设的任务信息表收集各存储节点内的业务数据,删除所述业务数据中重复数据,将去重后的业务数据作为业务端收集的目标数据,通过任务信息表实现了各存储节点内数据的快速收集,提高了数据处理性能,通过去重操作保障了收集到的目标数据的一致性,降低了数据丢失和重复收集的发生机率。
实施例二
图2是本发明实施例二提供的一种数据收集方法的流程图,本实施例以上述实施例为基础进行具体化,本发明实施例的技术方案适用于收集海量数据的情况,参见图2,本发明实施例的数据收集方法包括:
步骤201、根据业务端发送的数据获取请求建立任务信息表。
其中,数据获取请求可以是获取业务数据的请求,数据获取请求可以包括业务端请求获取的业务数据种类和业务数据标识等信息。
在本发明实施例中,可以提取数据获取请求中业务数据的数据种类和数据标识等信息,可以将获取到信息作为任务信息存储到任务信息表中,进一步的,任务信息表可以存储到各存储节点内。
一种实施方式中,任务信息表中任务信息至少包括数据读取接口和读取频率中一种。
具体的,任务信息表中可以包括获取业务数据的方式,可以包括在存储节点内获取业务数据调用的数据读取接口和业务数据获取速度对应的读取频率信息。可以根据存储节点内的信息进行业务数据的读取。示例性的,任务信息表中存储的任务信息的数据字典可以如下表所示:
本发明实施例的技术方案中,还可以将任务ID、任务名称、任务负责人、业务数据收集接口、频率、任务状态和版本号等信息存储到任务信息表中作为读取存储节点内业务信息的任务信息。
步骤202、将所述任务信息表存储到各所述存储节点内,并提取所述任务信息表中的数据读取接口和读取频率。
其中,数据读取接口可以是用于获取业务数据的程序接口,数据读取接口可以通过软件方式实现,数据读取接口可以预先设置在存储节点内,可以用户获取存储节点内的业务数据,可以理解的是,数据读取接口内可以存储有获取业务数据的规则,调用不同的数据读取接口获取到的业务数据可以不同,进一步的,存储节点可以是多主存储集群的存储节点,具体可以是Myshard、Galera Cluster和RocketMQ等多主存储集群。
在本发明实施例中,读取频率可以是在存储节点内读取业务数据的速度,例如,可以是每5秒读取一次存储节点内的业务数据。可以理解的是,读取频率可以是按照固定时间间隔读取业务数据,时间间隔的时间单位具体可以是秒、分钟、小时和天等。具体的,可以将任务信息表存储到数据存储集群中各存储节点内部,进一步的,各存储节点内的任务信息表可以仅存储本地对应的任务信息,可以在存储节点存储的任务信息表中提取到各数据读取任务对应的数据读取接口和读取频率。
步骤203、按照所述读取频率在所述存储节点内调用所述数据读取接口读取所述业务数据。
具体的,可以在存储节点内每隔读取频率对应的时间间隔调用一次数据读取接口以获取到存储节点内的业务数据,可以理解的是,数据读取接口可以是通过软件方式生成的数据提取规则,可以通过调用数据读取接口在存储节点内获取到不同的业务数据。可以理解的是,在本发明实施例中,可以通过读取频率和数据读取接口持续获取存储节点内的业务数据。
一种实施方式中,存储节点内包括至少一个数据读取接口,所述数据读取接口根据数据类型读取业务数据。
具体的,存储节点可以预先设置有多个数据读取接口,一个数据读取接口可以仅读取一种数据类型的业务数据,例如,数据接口A预先设置有读取视频数据的提取规则,调用数据接口A仅能获取到视频类型的业务数据。其中,数据类型按照存储格式可以划分为文字、语音、视频和图片等类型,按照业务功能可以划分为用户信息、商品信息、订单信息和状态信息等等类型。
步骤204、通过流处理队列汇总业务数据,其中,所述业务数据对应至少两个所述存储节点。
其中,流处理队列可以是对随时获取到业务数据进行处理的队列,由于可以持续从存储节点内获取业务数据,因此可以通过流处理队列提高业务数据的处理效率,从而提高数据收集速度。
在本发明实施例中,流处理队列具体可以是kakfa流处理集群,可以将从各存储节点内源源不断读取的业务数据存储到kafka流处理集群中,实现各业务数据的汇总,卡夫卡流处理集群可以与各存储节点建立联系,可以将读取到的业务数据发送给kafka流处理集群。
步骤205、将所述业务数据读取到缓存数据集群,并获取所述业务数据的数据标识。
其中,缓存数据集群具体可以是分布式的缓存集群,可以将大量的业务数据存储到缓存中,可以便于业务端获取目标数据,提高数据的获取速度,从而提升数据收集效率,在本发明实施例中,缓存数据集群具体可以是Codis集群,可以是一种分布式的内存数据库解决方案,底层单机基于Redis实现,分布式消息基于zookeeper实现。
具体的,可以由缓存数据集群订阅流处理队列中的话题,当流处理队列中存在业务数据时,可以由缓存数据集群主动读取该业务数据,在将获取的业务数据存储在缓存数据集群之前,可以提取该业务数据的数据标识,其中,数据标识可以是业务数据的唯一标识号,不同的业务数据对应的数据标识不同。
步骤206、若在所述缓存数据集群内查找到所述数据标识,则将所述业务数据丢弃,否则,将所述业务数据存储到所述缓存数据集群。
在本发明实施例中,可以使用业务数据的数据标识判断该业务数据是否与缓存数据集群中已缓存的业务数据重复,可以在缓存数据集群中查找该业务数据对应的数据标识,若查找到,可以确定缓存数据集群中已经存储了该业务数据,新获取到的业务数据与已缓存的业务数据重复,不能将刚获取到的业务数据存储到缓存数据集群中,可以将该业务数据删除;若在缓存数据集群中查找不到该业务数据的数据标识,则确定该业务数据未进行存储,可以将该业务数据存储到缓存数据集群中。
步骤207、将删除重复数据后的所述业务数据作为业务端收集的目标数据。
具体的,业务端可以在存储业务数据的缓存数据集群中查找目标数据,可以根据数据类型、数据格式和业务场景收集实现业务功能需要的业务数据。例如,业务端用于实现订单状态更新的业务功能,可以在缓存数据集群中查找为订单信息的业务数据作为目标数据。
本发明实施例的技术方案,通过根据业务端发送的数据获取请求建立任务信息表,提取任务信息表中的数据读取接口和读取频率等任务信息,执行任务信息对应的数据获取任务以获取业务数据,可以将获取到的业务数据通过流处理队列汇总,在将业务数据由流处理队列通过缓存数据集群进行去重操作,将删除重复数据后的业务数据作为业务端收集的目标数据,通过去重操作保障了收集到的目标数据的一致性,实现了业务数据的快速收集,增强了数据处理性能,降低了数据丢失和重复收集的发生机率。
示例性的,图3是本发明实施例二提供的一种数据收集方法的示例图,参见图3,以通过myshard集群、kafka集群和codis集群共同实现数据收集为例,可以首先通过后台输入任务信息形成任务信息表,可以将任务信息表存储到myshard中。可以根据myshard集群存储的任务信息创建扫表进程,在扫表进程创建过程中可以对该任务信息进行加锁,防止有多个机器生成相同的任务。创建成功的扫表进程可以按照任务信息的读取频率定时的去读取业务数据收集接口产生的业务数据,可以将读取到的业务数据写入kafka集群中。可以由各个业务对应的业务进程去读取kafka中存放的业务数据,读取后可以通过codis集群根据业务数据的标识号order_id去除重复读取的数据,再将业务数据发往到业务层。
实施例三
图4是本发明实施例三提供的一种数据收集装置的结构示意图;可执行本发明任意实施例所提供的数据收集方法,具备执行方法相应的功能模块和有益效果。该装置可以由软件和/或硬件实现,具体包括:数据读取模块301、数据去重模块302和数据收集模块303。
数据读取模块301,用于根据预设的任务信息表收集至少一个存储节点内的业务数据。
数据去重模块302,用于删除所述业务数据中的重复数据。
数据收集模块303,用于将删除重复数据后的所述业务数据作为业务端收集的目标数据。
本发明实施例的技术方案,数据读取模块通过预设的任务信息表收集各存储节点内的业务数据,数据去重模块删除所述业务数据中重复数据,数据收集模块将去重后的业务数据作为业务端收集的目标数据,通过任务信息表实现了各存储节点内数据的并行收集,提高了数据处理性能,通过去重操作保障了收集到的目标数据的一致性。
进一步的,在上述发明实施例的基础上,还包括:
信息表模块,用于根据业务端发送的数据获取请求建立任务信息表。
进一步的,在上述发明实施例的基础上,数据读取模块301包括:
信息提取单元,用于将所述任务信息表存储到各所述存储节点内,并提取所述任务信息表中的数据读取接口和读取频率。
任务执行单元,用于按照所述读取频率在所述存储节点内调用所述数据读取接口读取所述业务数据。
进一步的,在上述发明实施例的基础上,数据读取模块301的任务信息表中任务信息至少包括数据读取接口和读取频率中一种。
进一步的,在上述发明实施例的基础上,数据读取模块301的所述存储节点内包括至少一个数据读取接口,所述数据读取接口根据数据类型读取业务数据。
进一步的,在上述发明实施例的基础上,数据去重模块302包括:
标识获取单元,用于将所述业务数据读取到缓存数据集群,并获取所述业务数据的数据标识。
数据去重单元,用于若在所述缓存数据集群内查找到所述数据标识,则将所述业务数据丢弃,否则,将所述业务数据存储到所述缓存数据集群。
进一步的,在上述发明实施例的基础上,还包括:
数据汇总模块,用于通过流处理队列汇总业务数据,其中,所述业务数据对应至少两个所述存储节点。
实施例四
图5是本发明实施例四提供的一种设备的结构示意图,如图5所示,该设备包括处理器40、存储器41、输入装置42和输出装置43;设备中处理器40的数量可以是一个或多个,图5中以一个处理器40为例;设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据收集方法对应的程序模块(例如,数据收集装置中的数据读取模块301、数据去重模块302和数据收集模块303)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据收集方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据收集方法,该方法包括:
根据预设的任务信息表收集至少一个存储节点内的业务数据;
删除所述业务数据中的重复数据;
将删除重复数据后的所述业务数据作为业务端收集的目标数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据收集方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据收集装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种数据收集方法,其特征在于,包括:
根据预设的任务信息表收集至少一个存储节点内的业务数据,包括:将所述任务信息表存储到各所述存储节点内,并提取所述任务信息表中的数据读取接口和读取频率;按照所述读取频率在所述存储节点内调用所述数据读取接口读取所述业务数据;
删除所述业务数据中的重复数据,包括:将所述业务数据读取到缓存数据集群,并获取所述业务数据的数据标识;若在所述缓存数据集群内查找到所述数据标识,则将所述业务数据丢弃,否则,将所述业务数据存储到所述缓存数据集群;
将删除重复数据后的所述业务数据作为业务端收集的目标数据。
2.根据权利要求1所述的方法,其特征在于,在所述根据预设的任务信息表收集至少一个存储节点内的业务数据之前,还包括:
根据业务端发送的数据获取请求建立任务信息表。
3.根据权利要求1-2中任一所述的方法,其特征在于,所述任务信息表中任务信息至少包括数据读取接口和读取频率中一种。
4.根据权利要求1所述的方法,其特征在于,所述存储节点内包括至少一个数据读取接口,所述数据读取接口根据数据类型读取业务数据。
5.根据权利要求1所述的方法,其特征在于,在所述删除所述业务数据中的重复数据之前,还包括:
通过流处理队列汇总业务数据,其中,所述业务数据对应至少两个所述存储节点。
6.一种数据收集装置,其特征在于,包括:
数据读取模块,用于根据预设的任务信息表收集至少一个存储节点内的业务数据;所述数据读取模块,包括:信息提取单元,用于将所述任务信息表存储到各所述存储节点内,并提取所述任务信息表中的数据读取接口和读取频率;任务执行单元,用于按照所述读取频率在所述存储节点内调用所述数据读取接口读取所述业务数据;
数据去重模块,用于删除所述业务数据中的重复数据;所述数据去重模块包括:标识获取单元,用于将所述业务数据读取到缓存数据集群,并获取所述业务数据的数据标识;数据去重单元,用于若在所述缓存数据集群内查找到所述数据标识,则将所述业务数据丢弃,否则,将所述业务数据存储到所述缓存数据集群;
数据收集模块,用于将删除重复数据后的所述业务数据作为业务端收集的目标数据。
7.一种数据收集设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的数据收集方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的数据收集方法。
CN201911369301.0A 2019-12-26 2019-12-26 数据收集方法、装置、设备和存储介质 Active CN111061719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911369301.0A CN111061719B (zh) 2019-12-26 2019-12-26 数据收集方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911369301.0A CN111061719B (zh) 2019-12-26 2019-12-26 数据收集方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111061719A CN111061719A (zh) 2020-04-24
CN111061719B true CN111061719B (zh) 2023-08-29

Family

ID=70302935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911369301.0A Active CN111061719B (zh) 2019-12-26 2019-12-26 数据收集方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111061719B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112350921A (zh) * 2020-09-30 2021-02-09 北京大米科技有限公司 消息处理方法、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408751A (zh) * 2018-09-27 2019-03-01 腾讯科技(成都)有限公司 一种数据处理方法、终端、服务器及存储介质
CN109783512A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408751A (zh) * 2018-09-27 2019-03-01 腾讯科技(成都)有限公司 一种数据处理方法、终端、服务器及存储介质
CN109783512A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111061719A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN109034993B (zh) 对账方法、设备、系统及计算机可读存储介质
CN111143382B (zh) 数据处理方法、系统和计算机可读存储介质
CN107977396B (zh) 一种KeyValue数据库的数据表的更新方法与表数据更新装置
CN110928851B (zh) 处理日志信息的方法、装置、设备及存储介质
CN111625552B (zh) 数据收集方法、装置、设备和可读存储介质
CN112491609A (zh) 基于业务服务的系统应用架构发现方法及系统
CN109522282B (zh) 图片管理方法、装置、计算机装置及存储介质
CN111061719B (zh) 数据收集方法、装置、设备和存储介质
CN111026709A (zh) 基于集群访问的数据处理方法及装置
CN112559913B (zh) 一种数据处理方法、装置、计算设备及可读存储介质
CN113051460A (zh) 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN112433757A (zh) 一种确定接口调用关系的方法和装置
CN109947759A (zh) 一种数据索引建立方法、索引检索方法及装置
CN109165259B (zh) 基于网络附属存储的索引表更新方法、处理器及存储装置
CN109739883B (zh) 提升数据查询性能的方法、装置和电子设备
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN109684331A (zh) 一种基于Kudu的对象存储元数据管理装置及方法
CN112002130B (zh) 一种数据管理方法、装置、服务器及计算机可读存储介质
CN113704203A (zh) 一种日志文件的处理方法及装置
CN110515979B (zh) 数据查询方法、装置、设备和存储介质
CN114138786A (zh) 一种联机交易消息去重方法、装置、介质、产品和设备
CN111176901B (zh) 一种hdfs删除文件恢复方法、终端设备及存储介质
CN111782886A (zh) 元数据管理的方法和装置
CN111694801A (zh) 一种应用于故障恢复的数据去重方法和装置
KR101638048B1 (ko) 맵리듀스를 이용한 sql 질의처리방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant