CN113778502A - 一种数据处理的方法、装置、系统和存储介质 - Google Patents

一种数据处理的方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN113778502A
CN113778502A CN202010629623.0A CN202010629623A CN113778502A CN 113778502 A CN113778502 A CN 113778502A CN 202010629623 A CN202010629623 A CN 202010629623A CN 113778502 A CN113778502 A CN 113778502A
Authority
CN
China
Prior art keywords
information
processed
data
layer
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010629623.0A
Other languages
English (en)
Inventor
马东
周默
王云涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010629623.0A priority Critical patent/CN113778502A/zh
Publication of CN113778502A publication Critical patent/CN113778502A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种数据处理的方法、装置、系统和存储介质,具体为首先加载至少一个数据源接口,其次,基于数据源接口获取待处理信息,进一步地,基于待处理信息携带的分类标签,加载信息处理插件,并生成待处理信息经过处理后对应的已处理信息,最后,将已处理信息转换为相应的存储格式并进行存储。本申请实施例通过快速接入数据源接口,配置完成数据的接收、处理和存储,适应了小而多的数据处理需求,提升了计算和存储效率。

Description

一种数据处理的方法、装置、系统和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理的方法、装置、系统和存储介质。
背景技术
在实时数据处理工程化部署领域,目前业界一般会使用Spark Streaming、Flink、Kafka、Pulsar等工具用于实时数据的计算。但是这些工具都需要在特定环境下部署。在开发时,不同的工具需要熟悉不同的应用程序接口(Application Programming Interface,API),以及了解相关的知识与调优方法,有一定的学习门槛。同时,大多数的开源工具都会依赖众多的开源软件包,由于软件版本太多,极易导致版本冲突。
发明内容
本申请实施例提供了一种数据处理的方法,克服了实时计算中软件版本不具有普适性的问题,提升了数据的计算与存储效率。
该方法包括:
加载至少一个数据源接口;
基于所述数据源接口获取待处理信息;
基于所述待处理信息携带的分类标签,加载信息处理插件,并生成所述待处理信息经过处理后对应的已处理信息;
将所述已处理信息转换为相应的存储格式并进行存储。
可选地,记录在预设时间段内获取的所述待处理信息的第一数量,以及记录在所述预设时间段内获取的所述已处理信息的第二数量;
比较所述第一数量和所述第二数量的数值大小,并在当所述第二数量小于所述第一数量且第二数量与所述第一数量的差值小于预设阈值时,调整对所述待处理信息的获取速度和第一线程数量,和/或对所述待处理信息的获取速度和第二线程数量。
可选地,加载过滤器,并通过所述过滤器对标记有过滤标签的所述已处理信息进行过滤。
在本发明的另一个实施例中,提供了一种数据处理的装置,该装置包括:
加载模块,用于加载至少一个数据源接口;
获取模块,用于基于所述数据源接口获取待处理信息;
生成模块,用于基于所述待处理信息携带的分类标签,加载信息处理插件,并生成所述待处理信息经过处理后对应的已处理信息;
存储模块,用于将所述已处理信息转换为相应的存储格式并进行存储。
可选地,所述装置进一步包括:
采集模块,用于记录在预设时间段内获取的所述待处理信息的第一数量,以及记录在所述预设时间段内获取的所述已处理信息的第二数量;
调整模块,用于比较所述第一数量和所述第二数量的数值大小,并在当所述第二数量小于所述第一数量且第二数量与所述第一数量的差值小于预设阈值时,调整对所述待处理信息的获取速度和第一线程数量,和/或对所述待处理信息的获取速度和第二线程数量。
可选地,所述装置进一步包括:
过滤模块,用于加载过滤器,并通过所述过滤器对标记有过滤标签的所述已处理信息进行过滤。
在本发明的另一个实施例中,提供了一种数据处理的系统,该系统包括数据源层、数据通道层、数据处理层、数据适应层和数据存储层,其中,所述数据源层用于提供至少一个数据源接口,并通过所述数据通道层传输待处理信息;
所述数据处理层用于对通过所述数据通道层获取的所述待处理信息进行处理,以生成已处理信息;
所述数据适应层用于将所述已处理信息转换为相应的存储格式;
所述数据存储层用于将所述已处理信息存储于与所述存储格式对应的存储介质中。
可选地,所述数据处理系统进一步包括系统管理层,所述数据管理层用于:
与所述数据源层和所述数据通道层进行交互以记录在预设时间段内获取的所述待处理信息的第一数量,以及与所述数据通道层进行交互以记录在所述预设时间段内获取的所述已处理信息的第二数量;
比较第一数量和所述第二数量的数值大小,并在当所述第二数量小于所述第一数量且第二数量与所述第一数量的差值小于预设阈值时,通过所述数据通道层调整对所述待处理信息的获取速度和第一线程数量,和/或对所述待处理信息的获取速度和第二线程数量。
可选地所述数据处理系统进一步包括数据过滤层,所述数据过滤层用于加载过滤器,并通过所述过滤器对经过所述数据处理层处理后的标记有过滤标签的所述已处理信息进行过滤。
在本发明的另一个实施例中,提供了一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行上述一种数据处理的方法中的各个步骤。
在本发明的另一个实施例中,提供了一种终端设备,包括处理器,所述处理器用于执行上述一种数据处理的方法中的各个步骤。
基于上述实施例,首先加载至少一个数据源接口,其次,基于数据源接口获取待处理信息,进一步地,基于待处理信息携带的分类标签,加载信息处理插件,并生成待处理信息经过处理后对应的已处理信息,最后,将已处理信息转换为相应的存储格式并进行存储。本申请实施例通过快速接入数据源接口,配置完成数据的接收、处理和存储,适应了小而多的数据处理需求,提升了计算和存储效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例100所提供的一种数据处理的方法的流程示意图;
图2示出了本申请实施例200提供的一种数据处理的方法的具体流程的示意图;
图3示出了本申请实施例300提供的数据处理所在的系统交互的示意图;
图4示出了本申请实施例400还提供一种数据处理的装置的示意图;
图5示出了本申请实施例500所提供的一种终端设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
基于现有技术中的问题,本申请实施例提供了一种数据处理的方法,主要适用于计算机技术领域。通过为数据处理系统构架数据处理框架,接入已有数据源,简单配置完成数据的接收、处理和存储,适应小而多的数据处理需求,简化开发流程,以实现一种数据处理的方法。以下几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。如图1所示,为本申请实施例100提供的一种数据处理的方法的流程示意图。其中,详细步骤如下:
S11,加载至少一个数据源接口。
本步骤中,数据处理系统提供多种常见数据源接口,如JMS、Kafka、FileSystem、hdfsSystem等。选择至少一个数据源接口进行数据交互。
S12,基于数据源接口获取待处理信息。
本步骤中,读取数据源接口的配置文件,通过读取的配置文件在至少一个数据源接口拉取待处理信息,并为待处理信息标记分类标签。其中,分类标签用于区分消息的业务类型。
S13,基于待处理信息携带的分类标签,加载信息处理插件,并生成待处理信息经过处理后对应的已处理信息。
本步骤中,数据处理系统提供至少一种信息处理插件,通过分类标签为待处理信息加载对应的信息处理插件。进一步地,通过信息处理插件对待处理信息进行解析和发序列化,生成与待处理信息对应的已处理信息。
S14,将已处理信息转换为相应的存储格式并进行存储。
本步骤中,数据处理系统通过将已处理信息转换为对应的存储所需要的存储格式,如针对数据存储层Redis的Key-value存储格式,则需要经已处理信息转换为(Key,Value)的二元组的存储格式,最后批量的写入存储介质。
如上所述,基于上述实施例,首先加载至少一个数据源接口,其次,基于数据源接口获取待处理信息,进一步地,基于待处理信息携带的分类标签,加载信息处理插件,并生成待处理信息经过处理后对应的已处理信息,最后,将已处理信息转换为相应的存储格式并进行存储。本申请实施例通过快速接入数据源接口,配置完成数据的接收、处理和存储,适应了小而多的数据处理需求,提升了计算和存储效率。
如图2所示,为本申请实施例200提供的一种数据处理的方法的具体流程的示意图。其中,该具体流程的详细过程如下:
S201,加载至少一个数据源接口。
这里,数据处理系统启动并加载数据源接口的配置文件,根据配置数据源接口的配置文件加载至少一个数据源接口,并进行初始化。
S202,通过数据源接口获取待处理信息。
S203,为待处理信息标记分类标签。
这里,数据源接口定时获取待处理信息,并标记分类标签。其中,分类标签可以基于业务需求,如在电子商务领域,可以为待处理信息设置订单类型、购物车类型、点击类型和浏览类型等分类标签。
S204,基于待处理信息携带的分类标签,加载信息处理插件,并生成待处理信息经过处理后对应的已处理信息。
这里,数据处理系统中设置与待处理信息的类型对应的信息处理插件。进一步地,基于待处理信息携带的分类标签,加载不同的信息处理插件,对获取的待处理信息进行解析和反序列化,生成与待处理信息对应的已处理信息。
S205,进行信息过滤。
这里,加载过滤器,并通过过滤器对标记有过滤标签的已处理信息进行过滤。其中,为不需要进行进一步处理的已处理信息添加过滤标签,并使用串行外设接口(SerialPeripheral Interface,SPI)的方式加载过滤器(如果没有配置过滤器,则默认不过滤)以对不满足条件的已处理信息进行过滤。
S206,将已处理信息转换为相应的存储格式并进行存储。
这里,数据处理系统加载数据存储层的配置文件,并给予配置文件生成数据源存储层。数据存储层提供与Redis、Hbase、ElasticSearch、mysql、JMS、FileSystem、hdfs等存储介质的通信接口以及默认实现。进一步地,通过SPI将已处理信息转换为对应的存储介质所需要的存储格式,并进行存储。
S207,记录在预设时间段内获取的待处理信息的第一数量。
这里,数据处理系统在预设时间段内采集已经获取的待处理信息的第一数量计算上游的生产速度。
S208,记录在预设时间段内获取的已处理信息的第二数量。
这里,数据处理系统在预设时间段内采集已经获取的处已理信息的第二数量计算下游的消费速度。
S209,比较第一数量和第二数量的数值大小。
这里,若第一数量大于第二数量的数值,则继续执行数据处理流程。
S210,当第二数量小于第一数量且第二数量与第一数量的差值小于预设阈值时,调整对待处理信息的获取速度和第一线程数量,和/或对待处理信息的获取速度和第二线程数量。
这里,当第二数量小于第一数量且第二数量与第一数量的差值小于预设阈值时,可以确定下游的消费速度明显低于上游的生产速度。此时可以根据上游生产速度与下游消费速度确定变化率,并调节待处理信息的获取速度和第一线程数量,和/或对待处理信息的获取速度和第二线程数量。
本申请基于上述步骤实现一种数据处理的方法。通过数据处理系统启动,加载配置文件,根据配置文件生成对应的数据源接口与数据存储层,完成初始化后,会定时数据源接口拉取待处理信息,然后打上分类标签(如订单、购物车等)直接放入数据通道层中;数据处理层也不断检查数据通道层中是否有待处理信息,如果有则批量拉取,然后根据待处理信息的类型,加载不同的信息处理插件进行反序列化生成已处理信息,使用SPI的方式加载过滤器(如果没有配置过滤器,则默认不过滤),过滤已处理信息,然后再次放入到数据通道层中;数据存储层不断检查数据通道层是否有已处理信息,如果有则批量拉取,然后则通过SPI加载的数据适应层,将已处理信息转换为对应的存储所需要的存储格式,最后批量写入存储介质。
本申请实施例300还提供了一种数据处理的系统。其中,如图3所示,为本申请实施例300提供的数据处理所在的系统交互的示意图。其中,该系统包括数据源层301、数据通道层302、数据处理层303、数据适应层304和数据存储层305,其中,数据源层301用于提供至少一个数据源接口,并通过数据通道层302传输待处理信息;数据处理层303用于对通过数据通道层302获取的待处理信息进行处理,以生成已处理信息;数据适应层304用于将已处理信息转换为相应的存储格式;数据存储层305用于将已处理信息存储于与存储格式对应的存储介质中。该数据处理系统进一步包括系统管理层306,数据管理层306用于与数据源层301和数据通道层302进行交互以记录在预设时间段内获取的待处理信息的第一数量,以及与数据通道层302进行交互以记录在预设时间段内获取的已处理信息的第二数量;比较第一数量和第二数量的数值大小,并在当第二数量小于第一数量且第二数量与第一数量的差值小于预设阈值时,通过数据通道层302调整对待处理信息的获取速度和第一线程数量,和/或对待处理信息的获取速度和第二线程数量。数据处理系统进一步包括数据过滤层307,数据过滤层307用于加载过滤器,并通过过滤器对经过数据处理层303处理后的标记有过滤标签的已处理信息进行过滤。
具体的,数据源层(Source)301:该层负责系统管理层306与数据源层301的交互,提供了与各种数据源(如:JMS、Kafka、FileSystem、hdfsSystem等)接口以及实现。
数据通道层(Channel)302:该层为数据通道,联通各个组件,用于缓存生产数据。默认为堆内存实现(也可以扩展为其他存储实现),可开启堆外内存存储。而且在Channel中也实现对消息处理速度的监控:上游生产速度与下游消费速度和内存占用大小。将这些监控信息汇报与SystemManager,供调优决策使用。
数据处理层(Handler)303:该层的功能实现了在不同业务域使用信息处理插件对待处理信息进行解析与反序列化的实现。
数据过滤层(Filter)307:该层负责过滤消息,如过滤品类、加购消息等。
数据适应层(Adapter)304:该层负责消息的转换,将统一的消息模型转换为对应的存储介质所需的格式。
数据存储层(Sink)305:该层负责系统与各种数据存储介质的交互,封装了与存储介质相适应的模型,提供了与Redis、Hbase、ElasticSearch、mysql、JMS、FileSystem、hdfs等存储介质的通信接口以及默认实现。
系统管理层(SystemManager)306:该层负责对系统内存管理,动态调优以及性能监控。
进一步地,系统设计上采用了基于规则自适应调优,由系统管理层(SystemManager)间隔采集上游生产速度与下游消费速度,根据变化率,调节上下游批次的大小以及线程数量。同时开启堆外内存。其中,判定是否开启堆外内存主要由两个规则决定:一定时间内,消息被阻塞的次数以及full GC的次数。另外,监控与外部系统通信的速度,调节批次大小,平衡速度与效率。以及,提供对外系统监控信息展示,以及支持用户自定义优化设置。
为能够平衡资源与效率的问题,系统整体上采用基于事件驱动的Reactor模式,在各个模块内采用异步多线程的方式,线程池的大小,由SystemManager动态调整。由于SystemManager信息的采集具有滞后性,为了防止在峰值时段,系统被流量压垮的可能,所以才有阻塞队列的方式实现了Channel的内存通道模型,当存在下游消费慢,而上游生产过快的情况时,会阻塞上游的生产,从而保证Channel不会出现内存溢出而导致系统崩溃;同时记录阻塞次数以及被阻塞的上游模块,汇报给SystemManager,以方便系统自适应优化调整。
本申请实施例通过通用模板化的开发流程,快速接入常见数据源,实现数据的计算与存储,只需要简单的配置即可完成数据的接收、处理与存储;适应小而多的数据需求,简化开发流程,降低调优学习的成本,提升效率;且自适应性能调优,动态内存管理,图形化界面监控信息展示以及参数设置。
基于同一发明构思,本申请实施例400还提供一种数据处理的装置,其中,如图4所示,该装置包括:
加载模块41,用于加载至少一个数据源接口;
获取模块42,用于基于数据源接口获取待处理信息;
生成模块43,用于基于待处理信息携带的分类标签,加载信息处理插件,并生成待处理信息经过处理后对应的已处理信息;
存储模块44,用于将已处理信息转换为相应的存储格式并进行存储。
本实施例中,加载模块41、获取模块42、生成模块43和存储模块44的具体功能和交互方式,可参见图1对应的实施例的记载,在此不再赘述。
可选地,该装置进一步包括:
采集模块45,用于记录在预设时间段内获取的待处理信息的第一数量,以及记录在预设时间段内获取的已处理信息的第二数量;
调整模块46,用于比较第一数量和第二数量的数值大小,并在当第二数量小于第一数量且第二数量与第一数量的差值小于预设阈值时,调整对待处理信息的获取速度和第一线程数量,和/或对待处理信息的获取速度和第二线程数量。
可选地,该装置进一步包括:
过滤模块47,用于加载过滤器,并通过过滤器对标记有过滤标签的已处理信息进行过滤。
如图5所示,本申请的又一实施例500还提供一种终端设备,包括处理器501,其中,处理器501用于执行上述一种数据处理的方法的步骤。从图5中还可以看出,上述实施例提供的终端设备还包括非瞬时计算机可读存储介质502,该非瞬时计算机可读存储介质502上存储有计算机程序,该计算机程序被处理器501运行时执行上述一种数据处理的方法的步骤。实际应用中,该终端设备可以是一台或多台计算机,只要包括上述计算机可读介质和处理器即可。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘和FLASH等,该存储介质上的计算机程序被运行时,能够执行上述的一种数据处理的方法中的各个步骤。实际应用中,所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,能够执行上述的一种数据处理的方法中的各个步骤。
根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些变更、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据处理的方法,其特征在于,包括:
加载至少一个数据源接口;
基于所述数据源接口获取待处理信息;
基于所述待处理信息携带的分类标签,加载信息处理插件,并生成所述待处理信息经过处理后对应的已处理信息;
将所述已处理信息转换为相应的存储格式并进行存储。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述数据源接口获取待处理信息的步骤之后,所述方法进一步包括:
记录在预设时间段内获取的所述待处理信息的第一数量,以及记录在所述预设时间段内获取的所述已处理信息的第二数量;
比较所述第一数量和所述第二数量的数值大小,并在当所述第二数量小于所述第一数量且第二数量与所述第一数量的差值小于预设阈值时,调整对所述待处理信息的获取速度和第一线程数量,和/或对所述待处理信息的获取速度和第二线程数量。
3.根据权利要求1所述的方法,其特征在于,所述并生成所述待处理信息经过处理后对应的已处理信息的步骤和所述将所述已处理信息转换为相应的存储格式并进行存储的步骤之间,所述方法进一步包括:
加载过滤器,并通过所述过滤器对标记有过滤标签的所述已处理信息进行过滤。
4.一种数据处理的装置,其特征在于,所述装置包括:
加载模块,用于加载至少一个数据源接口;
获取模块,用于基于所述数据源接口获取待处理信息;
生成模块,用于基于所述待处理信息携带的分类标签,加载信息处理插件,并生成所述待处理信息经过处理后对应的已处理信息;
存储模块,用于将所述已处理信息转换为相应的存储格式并进行存储。
5.根据权利要求4所述的装置,其特征在于,所述装置进一步包括:
采集模块,用于记录在预设时间段内获取的所述待处理信息的第一数量,以及记录在所述预设时间段内获取的所述已处理信息的第二数量;
调整模块,用于比较所述第一数量和所述第二数量的数值大小,并在当所述第二数量小于所述第一数量且第二数量与所述第一数量的差值小于预设阈值时,调整对所述待处理信息的获取速度和第一线程数量,和/或对所述待处理信息的获取速度和第二线程数量。
6.根据权利要求4所述的装置,其特征在于,所述装置进一步包括:
过滤模块,用于加载过滤器,并通过所述过滤器对标记有过滤标签的所述已处理信息进行过滤。
7.一种数据处理系统,其特征在于,所述系统包括数据源层、数据通道层、数据处理层、数据适应层和数据存储层,其中,所述数据源层用于提供至少一个数据源接口,并通过所述数据通道层传输待处理信息;
所述数据处理层用于对通过所述数据通道层获取的所述待处理信息进行处理,以生成已处理信息;
所述数据适应层用于将所述已处理信息转换为相应的存储格式;
所述数据存储层用于将所述已处理信息存储于与所述存储格式对应的存储介质中。
8.根据权利要求7所述的系统,其特征在于,所述数据处理系统进一步包括系统管理层,所述数据管理层用于:
与所述数据源层和所述数据通道层进行交互以记录在预设时间段内获取的所述待处理信息的第一数量,以及与所述数据通道层进行交互以记录在所述预设时间段内获取的所述已处理信息的第二数量;
比较第一数量和所述第二数量的数值大小,并在当所述第二数量小于所述第一数量且第二数量与所述第一数量的差值小于预设阈值时,通过所述数据通道层调整对所述待处理信息的获取速度和第一线程数量,和/或对所述待处理信息的获取速度和第二线程数量。
9.根据权利要求7所述的系统,其特征在于,所述数据处理系统进一步包括数据过滤层,所述数据过滤层用于加载过滤器,并通过所述过滤器对经过所述数据处理层处理后的标记有过滤标签的所述已处理信息进行过滤。
10.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如权利要求1至3任一项所述的一种数据处理的方法中的各个步骤。
CN202010629623.0A 2020-06-29 2020-06-29 一种数据处理的方法、装置、系统和存储介质 Pending CN113778502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010629623.0A CN113778502A (zh) 2020-06-29 2020-06-29 一种数据处理的方法、装置、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010629623.0A CN113778502A (zh) 2020-06-29 2020-06-29 一种数据处理的方法、装置、系统和存储介质

Publications (1)

Publication Number Publication Date
CN113778502A true CN113778502A (zh) 2021-12-10

Family

ID=78835104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010629623.0A Pending CN113778502A (zh) 2020-06-29 2020-06-29 一种数据处理的方法、装置、系统和存储介质

Country Status (1)

Country Link
CN (1) CN113778502A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416206A (zh) * 2022-01-20 2022-04-29 四维创智(北京)科技发展有限公司 一种插件热加载方法、系统、终端设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468638A (zh) * 2013-09-12 2015-03-25 北大方正集团有限公司 一种分布式数据处理方法及系统
CN106484857A (zh) * 2016-10-09 2017-03-08 珠海经济特区远宏科技有限公司大连分公司 数据采集系统及其方法
CN107391532A (zh) * 2017-04-14 2017-11-24 阿里巴巴集团控股有限公司 数据过滤的方法和装置
CN109656989A (zh) * 2018-10-29 2019-04-19 平安科技(深圳)有限公司 多数据源整合方法、装置、计算机设备和存储介质
CN109901885A (zh) * 2019-01-22 2019-06-18 中电和瑞科技有限公司 一种数据交互方法、插件管理器与计算机可读存储介质
CN110119480A (zh) * 2019-05-23 2019-08-13 北京小米移动软件有限公司 信息处理方法、装置、设备和存储介质
CN110209549A (zh) * 2018-05-22 2019-09-06 腾讯科技(深圳)有限公司 数据处理方法、相关装置、相关设备和系统
CN110750562A (zh) * 2018-07-20 2020-02-04 武汉烽火众智智慧之星科技有限公司 基于Storm的实时数据比对预警方法及系统
CN110851513A (zh) * 2019-10-16 2020-02-28 中盈优创资讯科技有限公司 基于Spark计算引擎的多源异构数据读取方法及装置
CN110880146A (zh) * 2019-11-21 2020-03-13 上海中信信息发展股份有限公司 区块链上链方法、装置、电子设备及存储介质
CN110909061A (zh) * 2019-11-27 2020-03-24 恩亿科(北京)数据科技有限公司 数据源处理方法、装置、电子设备及存储介质
CN111080243A (zh) * 2019-12-05 2020-04-28 北京百度网讯科技有限公司 业务处理的方法、装置、系统、电子设备及存储介质
CN111190609A (zh) * 2018-11-14 2020-05-22 广东万丈金数信息技术股份有限公司 业务的处理方法、装置、设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468638A (zh) * 2013-09-12 2015-03-25 北大方正集团有限公司 一种分布式数据处理方法及系统
CN106484857A (zh) * 2016-10-09 2017-03-08 珠海经济特区远宏科技有限公司大连分公司 数据采集系统及其方法
CN107391532A (zh) * 2017-04-14 2017-11-24 阿里巴巴集团控股有限公司 数据过滤的方法和装置
CN110209549A (zh) * 2018-05-22 2019-09-06 腾讯科技(深圳)有限公司 数据处理方法、相关装置、相关设备和系统
CN110750562A (zh) * 2018-07-20 2020-02-04 武汉烽火众智智慧之星科技有限公司 基于Storm的实时数据比对预警方法及系统
CN109656989A (zh) * 2018-10-29 2019-04-19 平安科技(深圳)有限公司 多数据源整合方法、装置、计算机设备和存储介质
CN111190609A (zh) * 2018-11-14 2020-05-22 广东万丈金数信息技术股份有限公司 业务的处理方法、装置、设备和存储介质
CN109901885A (zh) * 2019-01-22 2019-06-18 中电和瑞科技有限公司 一种数据交互方法、插件管理器与计算机可读存储介质
CN110119480A (zh) * 2019-05-23 2019-08-13 北京小米移动软件有限公司 信息处理方法、装置、设备和存储介质
CN110851513A (zh) * 2019-10-16 2020-02-28 中盈优创资讯科技有限公司 基于Spark计算引擎的多源异构数据读取方法及装置
CN110880146A (zh) * 2019-11-21 2020-03-13 上海中信信息发展股份有限公司 区块链上链方法、装置、电子设备及存储介质
CN110909061A (zh) * 2019-11-27 2020-03-24 恩亿科(北京)数据科技有限公司 数据源处理方法、装置、电子设备及存储介质
CN111080243A (zh) * 2019-12-05 2020-04-28 北京百度网讯科技有限公司 业务处理的方法、装置、系统、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416206A (zh) * 2022-01-20 2022-04-29 四维创智(北京)科技发展有限公司 一种插件热加载方法、系统、终端设备及存储介质

Similar Documents

Publication Publication Date Title
US10585698B2 (en) Template-driven multi-tenant workflow processing
US20180365085A1 (en) Method and apparatus for monitoring client applications
US20200410164A1 (en) Methods and systems using cognitive artifical intelligence to implement adaptive linguistic models to process data
US9886311B2 (en) Job scheduling management
US8392936B2 (en) Complex event processing (CEP) adapters for CEP systems for receiving objects from a source and outputing objects to a sink
CN111694677A (zh) 消息队列的管理方法、装置、终端和计算机可读存储介质
US20200026877A1 (en) Detecting personally identificable information (pii) in telemetry data
CN110908870B (zh) 一种大型机的资源监控方法、装置、存储介质及设备
CN111177237B (zh) 一种数据处理系统、方法及装置
CN113778502A (zh) 一种数据处理的方法、装置、系统和存储介质
CN114911615A (zh) 微服务运行时智能预测调度的方法及应用
CN108804563B (zh) 一种数据标注方法、装置以及设备
CN114168297A (zh) 一种归集任务调度方法、装置、设备及介质
US20240028830A1 (en) Machine learning -based selection of metrics for anomaly detection
CN108845794B (zh) 一种流式运算系统、方法、可读介质和存储控制器
US11360702B2 (en) Controller event queues
US11601326B1 (en) Problem detection and categorization for integration flows
CN115237399A (zh) 用于采集数据的方法、存储介质、处理器及工程车辆
US8495033B2 (en) Data processing
CN111447086A (zh) 业务处理方法、装置及电子设备
CN111651194B (zh) 基于iOS的适配方法及装置
CN111194009B (zh) Gps信息提取方法、装置、设备及存储介质
CN113094250B (zh) 日志预警方法、装置、电子设备及存储介质
US8495314B2 (en) Source side weak event implementation
CN114153793A (zh) 一种Windows系统中的文件全面遍历方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination