CN115794382A - 数据处理方法、装置及非易失性存储介质 - Google Patents

数据处理方法、装置及非易失性存储介质 Download PDF

Info

Publication number
CN115794382A
CN115794382A CN202211402079.1A CN202211402079A CN115794382A CN 115794382 A CN115794382 A CN 115794382A CN 202211402079 A CN202211402079 A CN 202211402079A CN 115794382 A CN115794382 A CN 115794382A
Authority
CN
China
Prior art keywords
data
tasks
task
executed
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211402079.1A
Other languages
English (en)
Inventor
王宗文
曹璞
孙张琦
王文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Jereh Petroleum Equipment and Technologies Co Ltd
Original Assignee
Yantai Jereh Petroleum Equipment and Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Jereh Petroleum Equipment and Technologies Co Ltd filed Critical Yantai Jereh Petroleum Equipment and Technologies Co Ltd
Priority to CN202211402079.1A priority Critical patent/CN115794382A/zh
Publication of CN115794382A publication Critical patent/CN115794382A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置及非易失性存储介质。其中,该方法包括:确定任务队列中的多个待执行任务,以及多个待执行任务分别对应的子任务数量;基于多个待执行任务分别对应的任务类型,确定多个待执行任务分别对应的第一执行时长,其中,第一执行时长为预设历史时段内任务类型对应的执行时间计算值;基于多个待执行任务分别对应的子任务数量、滞留时长、第一执行时长,确定多个待执行任务中的目标任务;对目标任务对应的实时采集数据进行处理,得到目标任务对应的目标处理结果。本发明解决了相关技术中存在的数据处理效率不理想,数据处理任务调度效率低的技术问题。

Description

数据处理方法、装置及非易失性存储介质
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法、装置及非易失性存储介质。
背景技术
工业互联网数据尤其是设备数据,由于其设备千差万别、作业环境复杂,设备数据尤其是高速往复采集的设备数据,数据量极其庞大但又与一般意义上的大数据有所不同,特点在于采集频率超高,百万条数据传输存储面临极大的硬件性能要求,难以保证数据的完整性和时效性。另一个特点是采集不连续,宏观上数据分布极不均匀,这导致数据高峰时性能不够,空闲时性能浪费,相关技术中对此类任务调度方式效率低,降级算法的降级能力不理想,导致对高频大量数据的处理能力不足。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、装置及非易失性存储介质,以至少解决相关技术中存在的数据处理效率不理想,数据处理任务调度效率低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:确定任务队列中的多个待执行任务,以及所述多个待执行任务分别对应的子任务数量;基于所述多个待执行任务分别对应的任务类型,确定所述多个待执行任务分别对应的第一执行时长,其中,所述第一执行时长为预设历史时段内所述任务类型对应的执行时间计算值;基于所述多个待执行任务分别对应的所述子任务数量、滞留时长、所述第一执行时长,确定所述多个待执行任务中的目标任务,其中,所述滞留时长为所述多个待执行任务分别在所述任务队列中等待处理的时长;对所述目标任务对应的实时采集数据进行处理,得到所述目标任务对应的目标处理结果。
可选地,所述确定所述多个待执行任务分别对应的第一执行时长,包括:按照所述多个待执行任务分别对应的所述任务类型,对所述多个待执行任务进行任务划分,得到多个任务集合;在所述预设历史时段内,确定所述任务类型对应的多个历史执行任务分别对应的历史执行时长;基于所述多个历史执行任务分别对应的历史执行时长,确定所述多个任务集合分别对应的历史平均时长;确定所述预设历史时段内,所述任务类型对应的所述多个历史执行任务中最后一个执行任务的第二执行时长;确定所述历史平均时长对应的第一权重值,所述第二执行时长对应的第二权重值;基于所述多个任务集合分别对应的所述历史平均时长,所述第二执行时长,所述第一权重值,以及所述第二权重值,得到所述多个待执行任务分别对应的所述第一执行时长。
可选地,所述基于所述多个待执行任务分别对应的所述子任务数量、滞留时长、所述第一执行时长,确定所述多个待执行任务中的目标任务,包括:确定所述多个待执行任务分别对应的采集设备类型,以及所述采集设备类型对应的类型序号;确定所述多个待执行任务分别对应的所述子任务数量对应的第三权重值,所述多个待执行任务分别对应的所述滞留时长对应的第四权重值,所述多个待执行任务分别对应的所述第一执行时长对应的第五权重值,所述多个待执行任务分别对应的所述类型序号对应的第六权重值;基于所述多个待执行任务分别对应的所述子任务数量,所述第三权重值,所述多个待执行任务分别对应的所述滞留时长,所述第四权重值,所述多个待执行任务分别对应的所述第一执行时长,所述第五权重值,所述多个待执行任务分别对应的所述类型序号,所述第六权重值,确定所述多个待执行任务分别对应的任务评分值;将所述多个待执行任务中任务评分值最大的作为所述目标任务。
可选地,所述基于所述实时采集数据,得到所述目标任务对应的目标处理结果,包括:对所述实时采集数据进行预处理,得到第一数据集合;采用预设的特征处理方法,对所述第一数据集合进行数据特征提取处理,得到所述目标任务对应的第一处理结果;对所述第一数据集合进行数据剔除处理,得到所述目标任务对应的第二处理结果;基于所述第一处理结果和第二处理结果,得到所述目标任务对应的所述目标处理结果。
可选地,所述采用预设的特征处理方法,对所述第一数据集合进行数据特征提取,得到所述目标任务对应的第一处理结果,包括:采用所述特征处理方法,确定所述第一数据集合对应的第一特征值;采用预设的第一分段方法,对所述第一数据集合进行分段,得到所述第一数据集合对应的多个第一数据段;采用所述特征处理方法,确定所述多个第一数据段分别对应的第二特征值;基于所述第一特征值和所述多个第一数据段分别对应的所述第二特征值,确定所述多个第一数据段分别对应的误差值;将所述多个第一数据段中误差值最小的第一数据段作为所述第一处理结果。
可选地,所述对所述第一数据集合进行数据剔除处理,得到所述目标任务对应的第二处理结果,包括:确定所述第一数据集合中包括的多个第一数据对应的极差,以及所述多个第一数据分别对应的波动值,其中,所述波动值表征所述多个第一数据在预设的数据范围中的偏离程度;基于所述极差,以及所述多个第一数据分别对应的所述波动值,确定所述多个第一数据分别对应的波动比例;剔除所述多个第一数据中所述波动比例小于预设的波动阈值的第一数据,得到处理后的第一数据集合;将所述处理后的第一数据集合作为所述目标任务对应的所述第二处理结果。
可选地,所述将所述处理后的第一数据集合作为所述目标任务对应的所述第二处理结果,包括:采用预设的第二分段方法,对所述处理后的第一数据集合进行分段处理,得到所述处理后的第一数据集合对应的多个第二数据段;确定所述多个第二数据段分别包括的多个第二数据之间的相似度;在所述多个第二数据段中,确定所述多个第二数据段分别包括的所述多个第二数据之间的所述相似度大于预设的相似度阈值的目标数据段;对所述目标数据段包括的多个第二数据进行合并处理,得到所述目标任务对应的所述第二处理结果。
可选地,所述确定任务队列中的多个待执行任务,以及所述多个待执行任务分别对应的子任务数量之前,所述方法还包括:确定用于执行所述多个待执行任务的线程对应的目标数量,包括:确定所述任务队列中的所述多个待执行任务对应的待执行任务数量,以及在预设第一时间间隔前,所述任务队列中的历史任务对应的历史任务数量;基于所述待执行任务数量和所述历史任务数量,确定所述任务队列中的任务趋势;在所述任务趋势为上升状态的情况下,确定当前内存状态;在所述当前内存状态不大于预设的内存阈值的情况下,采用预设的增加数量,增加所述任务队列对应的当前线程数量,得到第一数量,其中,所述第一数量不大于预设的线程数量上限;将所述第一数量作为所述目标数量;在所述任务趋势为下降状态的情况下,采用预设的减少数量,减少所述任务队列对应的所述当前线程数量,得到第二数量,其中,所述第二数量不小于预设的线程数量下限;将所述第二数量作为所述目标数量。
根据本发明实施例的另一方面,提供了一种数据处理装置,包括:第一确定模块,用于确定任务队列中的多个待执行任务,以及所述多个待执行任务分别对应的子任务数量;第二确定模块,用于基于所述多个待执行任务分别对应的任务类型,确定所述多个待执行任务分别对应的第一执行时长,其中,所述第一执行时长为预设历史时段内所述任务类型对应的执行时间计算值;第三确定模块,用于基于所述多个待执行任务分别对应的所述子任务数量、滞留时长、所述第一执行时长,确定所述多个待执行任务中的目标任务,其中,所述滞留时长为所述多个待执行任务分别在所述任务队列中等待处理的时长;获取模块,用于对所述目标任务对应的实时采集数据进行处理,得到所述目标任务对应的目标处理结果。
根据本发明实施例的另一方面,提供了一种非易失性存储介质,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行任意一项所述的数据处理方法。
在本发明实施例中,通过确定任务队列中的多个待执行任务,以及所述多个待执行任务分别对应的子任务数量;基于所述多个待执行任务分别对应的任务类型,确定所述多个待执行任务分别对应的第一执行时长,其中,所述第一执行时长为预设历史时段内所述任务类型对应的执行时间计算值;基于所述多个待执行任务分别对应的所述子任务数量、滞留时长、所述第一执行时长,确定所述多个待执行任务中的目标任务,其中,所述滞留时长为所述多个待执行任务分别在所述任务队列中等待处理的时长;对所述目标任务对应的实时采集数据进行处理,得到所述目标任务对应的目标处理结果。达到了提高数据处理任务调度效率,进而提高数据处理效率的目的,实现了提高处理能力和处理效率的技术效果,进而解决了相关技术中存在的数据处理效率不理想,数据处理任务调度效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的一种可选的数据处理方法的流程图;
图2是根据本发明实施例提供的一种可选的数据处理方法的应用示意图;
图3是根据本发明实施例提供的一种可选的数据处理方法的应用处理示意图;
图4是根据本发明实施例提供的一种可选的数据处理方法的处理流程示意图;
图5是根据本发明实施例提供的一种可选的数据处理方法的子任务示意图;
图6是根据本发明实施例提供的一种可选的数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种数据处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,确定任务队列中的多个待执行任务,以及上述多个待执行任务分别对应的子任务数量。
可以理解,在任务队列中存在多个待执行任务,用于对实时采集的数据进行处理,多个待执行任务中的每一个任务与其他任务之间存在依赖关系,依赖关系表示了每一个待执行任务对应的子任务,即后置任务。确定多个待执行任务分别对应的子任务数量,可以从一定程度上表征待执行任务的重要程度,子任务多的待执行任务不完成的情况下,后续多个子任务均无法执行,因此,为了提高处理效率,优先考虑子任务数量多的待执行任务的处理。
步骤S104,基于上述多个待执行任务分别对应的任务类型,确定上述多个待执行任务分别对应的第一执行时长,其中,上述第一执行时长为预设历史时段内上述任务类型对应的执行时间计算值。
可以理解,多个待执行任务分别对应了各自的任务类型,基于任务类型,确定上述多个待执行任务在预设历史时段内,对应的任务类型对应的执行时间计算值。
为了便于理解进行具体举例,例如:多个待执行任务中存在两种类型的任务,一种为获取最大值任务,另一种为基于预设算法进行处理的任务,对于数据量很大的样本,显然基于预设算法进行处理的任务需要执行的步骤更复杂,耗费处理时间更长,因此,通过预设历史时段内的对应任务类型对应的执行时间计算值,可以从一定程度上表征对应任务类型的常规处理时间,提供处理时长的参考。
在一种可选的实施例中,上述确定上述多个待执行任务分别对应的第一执行时长,包括:按照上述多个待执行任务分别对应的上述任务类型,对上述多个待执行任务进行任务划分,得到多个任务集合;在上述预设历史时段内,确定上述任务类型对应的多个历史执行任务分别对应的历史执行时长;基于上述多个历史执行任务分别对应的历史执行时长,确定上述多个任务集合分别对应的历史平均时长;确定上述预设历史时段内,上述任务类型对应的上述多个历史执行任务中最后一个执行任务的第二执行时长;确定上述历史平均时长对应的第一权重值,上述第二执行时长对应的第二权重值;基于上述多个任务集合分别对应的上述历史平均时长,上述第二执行时长,上述第一权重值,以及上述第二权重值,得到上述多个待执行任务分别对应的上述第一执行时长。
可以理解,基于多个待执行任务分别对应的任务类型,对多个待执行任务进行任务划分,得到多个任务集合。在预设历史时间段内,确定任务类型对应的多个历史执行任务分别对应的历史执行时长,换言之,预设历史时间段内的多个历史执行任务,可以从一定程度上表征同一任务类型的任务的特点。基于多个历史执行任务分别对应的历史执行时长,确定多个任务集合分别对应的历史平均时长,即确定多个历史执行任务分别对应的历史执行时长的平均值,按照任务类型,确定对应的任务集合,将多个历史执行任务分别对应的历史执行时长的平均值作为对应任务集合对应的历史平均时长。之后,确定预设历史时段内,任务类型对应的多个历史执行任务中最后一个执行任务的第二执行时长,视为最后一个执行任务所处的状态与当前状态最为接近,相比历史平均时长对近期处理状态的表征能力更好。为了灵活配置历史平均时长和第二执行时长对第一执行时长的影响,确定历史平均时长对应的第一权重值,第二执行时长对应的第二权重值。基于多个任务集合分别对应的历史平均时长,第二执行时长,第一权重值,以及第二权重值,得到多个待执行任务分别对应的第一执行时长。
可选地,获得第一执行时长的方式有多种,例如:第一权重值设置为0.2,第二权重值设置为0.8,第一执行时长=历史平均时长×0.8+第二执行时长×0.2。
可选地,上述预设历史时间段可以为多种,例如:预设历史时间段为当前时间的之前的预设时长,即预设历史时间段为随着当前时间变化而改变的,如当前日期为12号,预设历史时间段为当前日期前一周,即由5号至12号的一个时间段。在当前日期变为13号,预设历史时间段仍为当前日期前一周,对应改变为6号至13号。
需要说明的是,第一执行时间是随着当前时间的变化而动态变化的,随着数据处理的过程继续,历史平均时长在动态变化,最后一个执行任务的第二执行时长也是变化,显而易见,得到第一执行时长不是一个固定数值,而是随着处理状况变化而动态变化的。
步骤S106,基于上述多个待执行任务分别对应的上述子任务数量、滞留时长、上述第一执行时长,确定上述多个待执行任务中的目标任务,其中,上述滞留时长为上述多个待执行任务分别在上述任务队列中等待处理的时长。
可以理解,基于多个待执行任务分别对应的子任务数量,多个待执行任务分别在上述任务队列中等待处理的滞留时长,以及多个待执行任务分别对应的第一执行时长,在多个待执行任务中确定目标任务。
在一种可选的实施例中,上述基于上述多个待执行任务分别对应的上述子任务数量、滞留时长、上述第一执行时长,确定上述多个待执行任务中的目标任务,包括:确定上述多个待执行任务分别对应的采集设备类型,以及上述采集设备类型对应的类型序号;确定上述多个待执行任务分别对应的上述子任务数量对应的第三权重值,上述多个待执行任务分别对应的上述滞留时长对应的第四权重值,上述多个待执行任务分别对应的上述第一执行时长对应的第五权重值,上述多个待执行任务分别对应的上述类型序号对应的第六权重值;基于上述多个待执行任务分别对应的上述子任务数量,上述第三权重值,上述多个待执行任务分别对应的上述滞留时长,上述第四权重值,上述多个待执行任务分别对应的上述第一执行时长,上述第五权重值,上述多个待执行任务分别对应的上述类型序号,上述第六权重值,确定上述多个待执行任务分别对应的任务评分值;将上述多个待执行任务中任务评分值最大的作为上述目标任务。
可以理解,多个待执行任务分别对应的采集设备类型,采集类型可能是不同的,对于不同的设备的重要程度或对时效性的敏感程度不相同,因此需要,确定采集设备类型对应的类型序号。并且为了灵活配置子任务数量,滞留时长,第一执行时长,类型序号对确定目标任务的影响,进行权重赋予处理。基于多个待执行任务分别对应的子任务数量,第三权重值,多个待执行任务分别对应的滞留时长,第四权重值,多个待执行任务分别对应的第一执行时长,第五权重值,多个待执行任务分别对应的类型序号,第六权重值,确定多个待执行任务分别对应的任务评分值,选取任务评分值最高的作为目标任务。
可选地,目标任务可以为多个,在多个目标任务的情况下,进行并发处理。
可选地,上述任务评分值可以有多种,例如:任务评分值=子任务数量×第三权重值+滞留时长×第四权重值+类型序号×第六权重值-第一执行时长×第五权重值。
需要说明的是,滞留时长越长的任务权重越高,子任务数量越大的任务权重越高,第一执行时间越长的权重越低,采集设备类型对应的权重是依照类型序号预先设置的。
步骤S108,对上述目标任务对应的实时采集数据进行处理,得到上述目标任务对应的目标处理结果。
可以理解,获取目标任务对应的实时采集数据并进行处理,得到目标任务对应的目标处理结果。
可选地,获取实时采集数据的方式可以有多种,例如:确定实时采集数据的数据源,基于数据源的类型,确定接收方式。具体为如,工业通信协议会主动建立连接拉取数据,消息中间件则被动接收数据,而对于数据源为数据文件,则扫描文件路径读取数据。
在一种可选的实施例中,上述基于上述实时采集数据,得到上述目标任务对应的目标处理结果,包括:对上述实时采集数据进行预处理,得到第一数据集合;采用预设的特征处理方法,对上述第一数据集合进行数据特征提取处理,得到上述目标任务对应的第一处理结果;对上述第一数据集合进行数据剔除处理,得到上述目标任务对应的第二处理结果;基于上述第一处理结果和第二处理结果,得到上述目标任务对应的上述目标处理结果。
可以理解,首先对实时采集数据进行预处理,得到第一数据集合。对于第一数据集合进行两种处理,采用预设的特征处理方法,对第一数据集合进行数据特征提取处理,得到目标任务对于的第一处理结果,以及对第一数据集合进行数据剔除处理,得到目标任务对应的第二处理结果。根据第一处理结果和第二处理结果,得到目标任务对应的目标处理结果。通过上述处理,将第一数据集合中的大量数据进行简化处理,通过特征处理方法和数据剔除处理两个步骤,得到数据量小于第一数据集合的第一处理结果和第二处理结果,在保留第一数据集合特征的情况下,达到减少数据量,减少资源占用的效果。
可选地,上述预处理方法可以有多种,例如:对实时采集数据进行滤波器滤波,滤波手段包括:高通滤波、低通滤波、带通滤波等,还可以对实时采集数据进行去噪,补样,标准化等处理。
可选的,上述预设的特征处理方法可以有多种,例如:求取最大值,最小值,平均值,峰峰值,标准方差,峭度,裕度等等,或是预设算法进行特征处理。
可选地,上述目标处理结果可以有多种存储方式,例如:将第一处理结果存储于关系型数据库中,将第二处理结果存储于远程字典服务器(Remote Dictionary Server,Redis)中,并且可以将第一数据集合作为原始数据,存储于关系型数据库中。
在一种可选的实施例中,上述采用预设的特征处理方法,对上述第一数据集合进行数据特征提取,得到上述目标任务对应的第一处理结果,包括:采用上述特征处理方法,确定上述第一数据集合对应的第一特征值;采用预设的第一分段方法,对上述第一数据集合进行分段,得到上述第一数据集合对应的多个第一数据段;采用上述特征处理方法,确定上述多个第一数据段分别对应的第二特征值;基于上述第一特征值和上述多个第一数据段分别对应的上述第二特征值,确定上述多个第一数据段分别对应的误差值;将上述多个第一数据段中误差值最小的第一数据段作为上述第一处理结果。
可以理解,为了达到缩小第一数据集合的数据量,并且保留数据的特征。首先采用预设的特征处理方法,确定第一数据集合对应的第一特征值,用于表征第一数据集合在预设的特征处理方法下的数据特征。采用预设的第一分段方法,对第一数据集合进行分段,得到第一数据集合对应的多个第一数据段,将分段作为一种缩小第一数据集合数据量的手段,依然采用预设的特征处理方法,分别确定多个第一数据段中的每一段对应的第二特征值,即确定多个第一数据段在减少数据量的情况下,是否保留了数据的特征。基于第一特征值和多个第一数据段分别对应的第二特征值,确定多个第一数据段分别对应的误差值,将误差值最小的视为多个第一数据段中保留数据特征最好的第一数据段,将多个第一数据段中误差值最小的第一数据段作为第一处理结果。
为了便于理解进行具体举例,例如:按照预设顺序将第一数据集合分为三部分,第一个是将第一数据集合的前一半作为数据段1,第二个是将第一数据集合的后一半作为数据段2,第三个是将第一数据集合的四分之一至四分之三之间的作为数据段3。确定第一数据集合的第一特征值为10,数据段1对应的第二特征值为1,数据段2对应的第二特征值为2,数据段3对应的第二特征值为9。可以计算得到数据段1对应的误差值为0.9,数据段2对应的误差值为0.8,数据段3对应的误差值为0.1,取数据段3作为第一处理结果。
在一种可选的实施例中,上述对上述第一数据集合进行数据剔除处理,得到上述目标任务对应的第二处理结果,包括:确定上述第一数据集合中包括的多个第一数据对应的极差,以及上述多个第一数据分别对应的波动值,其中,上述波动值表征上述多个第一数据在预设的数据范围中的偏离程度;基于上述极差,以及上述多个第一数据分别对应的上述波动值,确定上述多个第一数据分别对应的波动比例;剔除上述多个第一数据中上述波动比例小于预设的波动阈值的第一数据,得到处理后的第一数据集合;将上述处理后的第一数据集合作为上述目标任务对应的上述第二处理结果。
可以理解,在实际采集设备进行高频采集时,可能存在大量重复的数据,数据量大且重复无意义,因此,为了减少对存储能力要求,对第一数据集合进行数据剔除处理,将重复的数据去除,达到更好的数据处理效果。首先确定第一数据集合中包括的多个第一数据对应的极差,极差为最大值与最小值之间的差值,用于表征第一数据集合之间的波动状况,确定多个第一数据分别对应的波动值,用于表征多个第一数据分别在预设的数据范围中的偏离程度。基于极差和多个第一数据分别对应的波动值,确定多个第一数据分别对应的波动比例。将多个第一数据中波动比例小于预设的波动阈值的第一数据视为是重复数据,可以进行剔除来减少数据量,剔除多个第一数据中波动比例小于预设的波动阈值的第一数据,得到处理后的第一数据集合。将处理后的第一数据集合作为目标任务对应的第二处理结果。
可选地,得到上述波动值的方法可以有多种,例如:预设的数据范围为第一数据前后预设数量的数据,获取第一数据在预设的数据范围内的极大值和极小值,确定第一数据与极大值的第一绝对差值,以及第二数据与极小值的第二绝对差值,将第一绝对差值与第二绝对差值进行比较,确定较大的作为波动值。
在一种可选的实施例中,上述方法还包括:采用预设的第三分段方法,对上述第一数据集合进行分段,得到多个第三数据段;确定上述多个第三数据段分别对应的分段极差;基于上述多个第三数据段分别对应的分段极差,以及上述多个第三数据段分别对应的第一数据对应的波动值,确定上述多个第三数据段分别对应的第一数据对应的第一比例;剔除上述多个第三数据段分别对应的第一数据中上述第一比例小于预设的波动阈值的第一数据,得到新的处理后的第一数据集合;将上述新的处理后的第一数据集合作为上述目标任务对应的上述第二处理结果。
可以理解,第一数据集合包括的数据量很大,数据的特征不仅相同,通过对第一数据集合进行分段,保留多个第三数据段分别对应的数据特征,有利于在减少数据量的情况下,减少数据特征的损失。采用预设的第三分段方法,对第一数据集合进行分段,得到多个第三数据段。确定多个第三数据段分别对应的分段极差,分段极差为多个第三数据段分别对应的极差,基于多个第三数据段分别对应的分段极差,以及多个第三数据段分别对应的第一数据对应的波动值,确定多个第三数据段分别对应的第一数据对应的第一比例,即对于多个第三数据段中的每一段,确定每一段内第一数据对应的第一比例,将多个第三数据段分别对应的第一数据中第一比例小于预设的波动阈值的第一数据,视为在同一个第三数据段中第一数据重复,可以进行剔除,剔除多个第三数据段分别对应的第一数据中第一比例小于预设的波动阈值的第一数据,得到新的处理后的第一数据集合;将新的处理后的第一数据集合作为目标任务对应的第二处理结果。
为了便于理解进行具体举例,例如:将第一数据集合分为10段,对于每一段去极大值点和极小值点,得到每一段对应的分段极差。确定每一段内包括的第一数据对应的波动值,基于每一段对应的分段极差和每一段内包括的第一数据对应的波动值,确定每一段对应的第一比例,对于同一段中,在第一比例为未超过分段极差的10%(百分之)的情况下,认为第一数据存在重复性,需要进行剔除。对上述10段继续剔除处理后,得到新的处理后的第一数据集合作为目标任务对应的第二处理结果。
在一种可选的实施例中,上述将上述处理后的第一数据集合作为上述目标任务对应的上述第二处理结果,包括:采用预设的第二分段方法,对上述处理后的第一数据集合进行分段处理,得到上述处理后的第一数据集合对应的多个第二数据段;确定上述多个第二数据段分别包括的多个第二数据之间的相似度;在上述多个第二数据段中,确定上述多个第二数据段分别包括的上述多个第二数据之间的上述相似度大于预设的相似度阈值的目标数据段;对上述目标数据段包括的多个第二数据进行合并处理,得到上述目标任务对应的上述第二处理结果。
可以理解,在进行数据剔除处理之后,数据中仍然可能存在着关联性较高的点,可以进一步进行合并,用以减少数据量。采用预设的第二分段方法,对处理后的第一数据集合进行分段处理,得到处理后的第一数据集合对应的多个第二数据段。确定多个第二数据段分别包括的多个第二数据之间的相似度。在多个第二数据段中,确定多个第二数据段分别包括的多个第二数据之间的相似度大于预设的相似度阈值的目标数据段,视为选中多个第二数据之间的关联性较高的第二数据段作为目标数据段。对目标数据段包括的多个第二数据进行合并处理,用以减少第二处理结果对应的数据量,得到目标任务对应的第二处理结果。
可选地,确定上述相似度的方法可以有种,例如:基于多个第二数据分别对应的采集时间和参数值,确定多个第二数据之间的相似度,具体如,对于两个第二数据,数据A和数据B,对应的参数值均为10,但是采集时间相差1天,参数值差小于了预设的数值差阈值,采集时间差大于了预设的时间跨度阈值,数据A和数据B之间的相似度小于或等于预设的相似度阈值,不可进行合并。数据C和数据D,采集时间相差1s,数据C对应参数值为1,是数据D对应参数值为2,参数值差小于了预设的数值差阈值,采集时间差小于或等于预设的时间跨度阈值,数据C和数据D之间的相似度大于预设的相似度阈值,视为可以进行合并。
可选地,上述合并方式可以为多种,例如:将目标数据段包括的多个第二数据进行选取,如选取并保留前两个第二数据,并求取平均值。
在一种可选的实施例中,上述确定任务队列中的多个待执行任务,以及上述多个待执行任务分别对应的子任务数量之前,上述方法还包括:确定用于执行上述多个待执行任务的线程对应的目标数量,包括:确定上述任务队列中的上述多个待执行任务对应的待执行任务数量,以及在预设第一时间间隔前,上述任务队列中的历史任务对应的历史任务数量;基于上述待执行任务数量和上述历史任务数量,确定上述任务队列中的任务趋势;在上述任务趋势为上升状态的情况下,确定当前内存状态;在上述当前内存状态不大于预设的内存阈值的情况下,采用预设的增加数量,增加上述任务队列对应的当前线程数量,得到第一数量,其中,上述第一数量不大于预设的线程数量上限;将上述第一数量作为上述目标数量;在上述任务趋势为下降状态的情况下,采用预设的减少数量,减少上述任务队列对应的上述当前线程数量,得到第二数量,其中,上述第二数量不小于预设的线程数量下限;将上述第二数量作为上述目标数量。
可以理解,由于实际的采集设备的采集存在不连续的情况,宏观上数据分布极不均匀,空闲时线程浪费。为提高数据处理效率,对待执行任务的线程进行调度,确定目标数量的线程,首先,需要确定任务队列中的多个待执行任务对应的待执行任务数量,以及在预设第一时间间隔前,任务队列中的历史任务对应的历史任务数量,即考量待执行任务数量以及历史任务数量,确定任务队列中的任务趋势。在任务趋势为上升状态的情况下,视为需要增加线程的数量,然而线程增加需要有足够的内存,需要确定当前内存状态。在当前内存状态不大于预设的内存阈值的情况下,采用预设的增加数量,增加任务队列对应的当前线程数量,得到第一数量,第一数量不大于预设的线程数量上限。将第一数量作为目标数量,在任务趋势为下降状态的情况下,采用预设的减少数量,减少任务队列对应的当前线程数量,得到第二数量,其中,第二数量不小于预设的线程数量下限,将第二数量作为目标数量。
通过上述步骤,可以实现提高数据处理任务调度效率,进而提高数据处理效率的目的,实现了提高处理能力和处理效率的技术效果,进而解决了相关技术中存在的数据处理效率不理想,数据处理任务调度效率低的技术问题。
基于上述实施例和可选实施例,本发明提出一种可选实施方式,以下具体说明:
图2是根据本发明实施例提供的一种可选的数据处理方法的应用示意图,如图2所示,应用场景为信号采集设备用于实时采集数据,将实时采集数据传输至第三方设备或应用进行处理或存储。通过应用本方法的软件组件或硬件设备获取信号采集设备中的实时采集数据进行处理,得到目标处理结果,将目标处理结果发送至第三方设备或应用中,采用旁路接入方法通过交互机连接信号采集设备和第三方设备或应用,可以起到即插即用,不影响原始链路的作用。图3是根据本发明实施例提供的一种可选的数据处理方法的应用处理示意图,如图3所示,在上述应用场景中,信号采集设备得到实时采集数据,应用本方法的软件组件或硬件设备接收数据之后进行任务调度,确定并执行目标任务,将目标处理结果进行储存,为第三方设备或应用的接入留有查询接口,方便进行查询和调用。
图4是根据本发明实施例提供的一种可选的数据处理方法的处理流程示意图,如图4所示,为了高效处理多种数据来源的实时采集数据,通过任务调度和对数据进行处理得到目标处理结果,将目标处理结果进行存储,便于其它系统进行查询或监控,以下具体展开说明。
首先基于数据源的类型,确定实时采集数据的接收方式,工业通信协议会主动建立连接拉取数据,消息中间件则被动接收数据,而对于数据源为数据文件,则扫描文件路径读取数据。
由于实际的采集设备的采集存在不连续的情况,宏观上数据分布极不均匀,空闲时线程浪费。为提高数据处理效率,对待执行任务的线程进行调度,首先,需要确定任务队列中的多个待执行任务对应的待执行任务数量,以及在预设第一时间间隔前,任务队列中的历史任务对应的历史任务数量,即考量待执行任务数量以及历史任务数量,确定任务队列中的任务趋势。在任务趋势为上升状态的情况下,视为需要增加线程的数量,然而线程增加需要有足够的内存,需要确定当前内存状态。在当前内存状态不大于预设的内存阈值的情况下,采用预设的增加数量,增加任务队列对应的当前线程数量,得到第一数量,第一数量不大于预设的线程数量上限。将第一数量作为目标数量,在任务趋势为下降状态的情况下,采用预设的减少数量,减少任务队列对应的当前线程数量,得到第二数量,其中,第二数量不小于预设的线程数量下限,将第二数量作为目标数量。
在确定采用目标数量的线程之后,确定任务队列中的状态,在任务队列中存在多个待执行任务,用于对实时采集的数据进行处理,多个待执行任务中的每一个任务与其他任务之间存在依赖关系,依赖关系表示了每一个待执行任务对应的子任务,即后置任务。图5是根据本发明实施例提供的一种可选的数据处理方法的子任务示意图,如图5所示,待执行任务存在着多个子任务,并且子任务分为多级,对于存在大量子任务的待执行任务,若不能及时处理,会导致对应的多个子任务的滞留时间过长,确定多个待执行任务分别对应的子任务数量,可以从一定程度上表征待执行任务的重要程度,子任务多的待执行任务不完成的情况下,后续多个子任务均无法执行,因此,为了提高处理效率,优先考虑子任务数量多的待执行任务的处理。
需要确定多个待执行任务分别对应的第一执行时长,多个待执行任务分别对应了各自的任务类型,基于任务类型,确定多个待执行任务在预设历史时段内,对应的任务类型对应的执行时间计算值作为第一执行时长。按照多个待执行任务分别对应的任务类型,对多个待执行任务进行任务划分,得到多个任务集合。基于多个历史执行任务分别对应的历史执行时长,确定多个任务集合分别对应的历史平均时长,即确定多个历史执行任务分别对应的历史执行时长的平均值,按照任务类型,确定对应的任务集合,将多个历史执行任务分别对应的历史执行时长的平均值作为对应任务集合对应的历史平均时长。之后,确定预设历史时段内,任务类型对应的多个历史执行任务中最后一个执行任务的第二执行时长,视为最后一个执行任务所处的状态与当前状态最为接近,相比历史平均时长对近期处理状态的表征能力更好。确定历史平均时长对应的第一权重值为0.2,第二执行时长对应的第二权重值为0.8。通过建立表达,第一执行时长=历史平均时长×0.8+第二执行时长×0.2,得到多个待执行任务分别对应的第一执行时长。
还需要确定多个待执行任务分别对应的采集设备类型,采集类型可能是不同的,对于不同的设备的重要程度或对时效性的敏感程度不相同,因此需要确定采集设备类型对应的类型序号。确定多个待执行任务分别对应的子任务数量、滞留时长、第一执行时长、类型序号对确定目标任务的影响,进行权重赋予处理。基于多个待执行任务分别对应的子任务数量,第三权重值,多个待执行任务分别对应的滞留时长,第四权重值,多个待执行任务分别对应的第一执行时长,第五权重值,多个待执行任务分别对应的类型序号,第六权重值,确定多个待执行任务分别对应的任务评分值。可以建立表达为:任务评分值=子任务数量×第三权重值+滞留时长×第四权重值+类型序号×第六权重值-第一执行时长×第五权重值。选取多个待执行任务中任务评分值最高的作为目标任务。
在确定目标任务之后,获取目标任务对应的实时采集数据并进行处理,得到目标任务对应的目标处理结果。首先对实时采集数据进行预处理,预处理手段包括:滤波器滤波,去噪,补样,标准化等处理,得到第一数据集合。设置预设的特征处理方法可以为求取最大值,最小值,平均值,峰峰值,标准方差,峭度,裕度等等,或是预设算法进行特征处理。
为了达到缩小第一数据集合的数据量,并且保留数据的特征。首先采用预设的特征处理方法,确定第一数据集合对应的第一特征值,用于表征第一数据集合在预设的特征处理方法下的数据特征。采用预设的第一分段方法,对第一数据集合进行分段,得到第一数据集合对应的多个第一数据段,将分段作为一种缩小第一数据集合数据量的手段,依然采用预设的特征处理方法,分别确定多个第一数据段中的每一段对应的第二特征值,即确定多个第一数据段在减少数据量的情况下,是否保留了数据的特征。基于第一特征值和多个第一数据段分别对应的第二特征值,确定多个第一数据段分别对应的误差值,将误差值最小的视为多个第一数据段中保留数据特征最好的第一数据段,将多个第一数据段中误差值最小的第一数据段作为第一处理结果。
在实际采集设备进行高频采集时,可能存在大量重复的数据,数据量大且重复无意义,因此,为了减少对存储能力要求,对第一数据集合进行数据剔除处理,将重复的数据去除,达到更好的数据处理效果。首先确定第一数据集合中包括的多个第一数据对应的极差,极差为最大值与最小值之间的差值,用于表征第一数据集合之间的波动状况,确定多个第一数据分别对应的波动值,用于表征多个第一数据分别在预设的数据范围中的偏离程度。基于极差和多个第一数据分别对应的波动值,确定多个第一数据分别对应的波动比例。将多个第一数据中波动比例小于预设的波动阈值的第一数据视为是重复数据,可以进行剔除来减少数据量,剔除多个第一数据中波动比例小于预设的波动阈值的第一数据,得到处理后的第一数据集合。
在进行数据剔除处理之后,数据中仍然可能存在着关联性较高的点,可以进一步进行合并,用以减少数据量。采用预设的第二分段方法,对处理后的第一数据集合进行分段处理,得到处理后的第一数据集合对应的多个第二数据段。确定多个第二数据段分别包括的多个第二数据之间的相似度。在多个第二数据段中,确定多个第二数据段分别包括的多个第二数据之间的相似度大于预设的相似度阈值的目标数据段,视为选中多个第二数据之间的关联性较高的第二数据段作为目标数据段。对目标数据段包括的多个第二数据进行合并处理,用以减少第二处理结果对应的数据量,得到目标任务对应的第二处理结果。
基于第一处理结果和第二处理结果,得到目标任务对应的目标处理结果。将第一处理结果存储于关系型数据库中,将第二处理结果存储于远程字典服务器中,并且可以将第一数据集合作为原始数据,存储于关系型数据库中,便于其他系统进行查询。
还可以将预设存储时间内的数据进行打包压缩,按照预设发送时间周期性向对应的外部系统(如监控系统或云平台)进行发送,提高采集设备于监控系统的交互性。
由上述可选实施方式实现效果为:采用旁路接入的方式,可以独立运行处理,也可以嵌入其他系统或硬件中使用,通过任务调度和减少数据量的处理,达到提高数据处理效率,并且减少存储资源占用的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中还提供了一种数据处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”“装置”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
根据本发明实施例,还提供了一种用于实施数据处理方法的装置实施例,图6是根据本发明实施例的一种数据处理装置的示意图,如图6所示,上述数据处理装置,包括:第一确定模块602、第二确定模块604,第三确定模块606,获取模块608,下面对该装置进行说明。
第一确定模块602,用于确定任务队列中的多个待执行任务,以及上述多个待执行任务分别对应的子任务数量;
第二确定模块604,与第一确定模块602连接,用于基于上述多个待执行任务分别对应的任务类型,确定上述多个待执行任务分别对应的第一执行时长,其中,上述第一执行时长为预设历史时段内上述任务类型对应的执行时间计算值;
第三确定模块606,与第二确定模块604连接,用于基于上述多个待执行任务分别对应的上述子任务数量、滞留时长、上述第一执行时长,确定上述多个待执行任务中的目标任务,其中,上述滞留时长为上述多个待执行任务分别在上述任务队列中等待处理的时长;
获取模块608,与第三确定模块606连接,用于对上述目标任务对应的实时采集数据进行处理,得到上述目标任务对应的目标处理结果。
本发明实施例提供的一种数据处理装置中,通过第一确定模块602,用于确定任务队列中的多个待执行任务,以及上述多个待执行任务分别对应的子任务数量;第二确定模块604,与第一确定模块602连接,用于基于上述多个待执行任务分别对应的任务类型,确定上述多个待执行任务分别对应的第一执行时长,其中,上述第一执行时长为预设历史时段内上述任务类型对应的执行时间计算值;第三确定模块606,与第二确定模块604连接,用于基于上述多个待执行任务分别对应的上述子任务数量、滞留时长、上述第一执行时长,确定上述多个待执行任务中的目标任务,其中,上述滞留时长为上述多个待执行任务分别在上述任务队列中等待处理的时长;获取模块608,与第三确定模块606连接,用于对上述目标任务对应的实时采集数据进行处理,得到上述目标任务对应的目标处理结果。达到了提高数据处理任务调度效率,进而提高数据处理效率的目的,实现了提高处理能力和处理效率的技术效果,进而解决了相关技术中存在的数据处理效率不理想,数据处理任务调度效率低的技术问题。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述第一确定模块602、第二确定模块604,第三确定模块606,获取模块608对应于实施例中的步骤S102至步骤S108,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例中的相关描述,此处不再赘述。
上述数据处理装置还可以包括处理器和存储器,第一确定模块602、第二确定模块604,第三确定模块606,获取模块608等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种非易失性存储介质,其上存储有程序,该程序被处理器执行时实现数据处理方法。
本发明实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:确定任务队列中的多个待执行任务,以及上述多个待执行任务分别对应的子任务数量;基于上述多个待执行任务分别对应的任务类型,确定上述多个待执行任务分别对应的第一执行时长,其中,上述第一执行时长为预设历史时段内上述任务类型对应的执行时间计算值;基于上述多个待执行任务分别对应的上述子任务数量、滞留时长、上述第一执行时长,确定上述多个待执行任务中的目标任务,其中,上述滞留时长为上述多个待执行任务分别在上述任务队列中等待处理的时长;对上述目标任务对应的实时采集数据进行处理,得到上述目标任务对应的目标处理结果。本文中的设备可以是服务器、PC等。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:确定任务队列中的多个待执行任务,以及上述多个待执行任务分别对应的子任务数量;基于上述多个待执行任务分别对应的任务类型,确定上述多个待执行任务分别对应的第一执行时长,其中,上述第一执行时长为预设历史时段内上述任务类型对应的执行时间计算值;基于上述多个待执行任务分别对应的上述子任务数量、滞留时长、上述第一执行时长,确定上述多个待执行任务中的目标任务,其中,上述滞留时长为上述多个待执行任务分别在上述任务队列中等待处理的时长;对上述目标任务对应的实时采集数据进行处理,得到上述目标任务对应的目标处理结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而己,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
确定任务队列中的多个待执行任务,以及所述多个待执行任务分别对应的子任务数量;
基于所述多个待执行任务分别对应的任务类型,确定所述多个待执行任务分别对应的第一执行时长,其中,所述第一执行时长为预设历史时段内所述任务类型对应的执行时间计算值;
基于所述多个待执行任务分别对应的所述子任务数量、滞留时长、所述第一执行时长,确定所述多个待执行任务中的目标任务,其中,所述滞留时长为所述多个待执行任务分别在所述任务队列中等待处理的时长;
对所述目标任务对应的实时采集数据进行处理,得到所述目标任务对应的目标处理结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个待执行任务分别对应的第一执行时长,包括:
按照所述多个待执行任务分别对应的所述任务类型,对所述多个待执行任务进行任务划分,得到多个任务集合;
在所述预设历史时段内,确定所述任务类型对应的多个历史执行任务分别对应的历史执行时长;
基于所述多个历史执行任务分别对应的历史执行时长,确定所述多个任务集合分别对应的历史平均时长;
确定所述预设历史时段内,所述任务类型对应的所述多个历史执行任务中最后一个执行任务的第二执行时长;
确定所述历史平均时长对应的第一权重值,所述第二执行时长对应的第二权重值;
基于所述多个任务集合分别对应的所述历史平均时长,所述第二执行时长,所述第一权重值,以及所述第二权重值,得到所述多个待执行任务分别对应的所述第一执行时长。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个待执行任务分别对应的所述子任务数量、滞留时长、所述第一执行时长,确定所述多个待执行任务中的目标任务,包括:
确定所述多个待执行任务分别对应的采集设备类型,以及所述采集设备类型对应的类型序号;
确定所述多个待执行任务分别对应的所述子任务数量对应的第三权重值,所述多个待执行任务分别对应的所述滞留时长对应的第四权重值,所述多个待执行任务分别对应的所述第一执行时长对应的第五权重值,所述多个待执行任务分别对应的所述类型序号对应的第六权重值;
基于所述多个待执行任务分别对应的所述子任务数量,所述第三权重值,所述多个待执行任务分别对应的所述滞留时长,所述第四权重值,所述多个待执行任务分别对应的所述第一执行时长,所述第五权重值,所述多个待执行任务分别对应的所述类型序号,所述第六权重值,确定所述多个待执行任务分别对应的任务评分值;
将所述多个待执行任务中任务评分值最大的作为所述目标任务。
4.根据权利要求1所述的方法,其特征在于,所述基于所述实时采集数据,得到所述目标任务对应的目标处理结果,包括:
对所述实时采集数据进行预处理,得到第一数据集合;
采用预设的特征处理方法,对所述第一数据集合进行数据特征提取处理,得到所述目标任务对应的第一处理结果;
对所述第一数据集合进行数据剔除处理,得到所述目标任务对应的第二处理结果;
基于所述第一处理结果和第二处理结果,得到所述目标任务对应的所述目标处理结果。
5.根据权利要求4所述的方法,其特征在于,所述采用预设的特征处理方法,对所述第一数据集合进行数据特征提取,得到所述目标任务对应的第一处理结果,包括:
采用所述特征处理方法,确定所述第一数据集合对应的第一特征值;
采用预设的第一分段方法,对所述第一数据集合进行分段,得到所述第一数据集合对应的多个第一数据段;
采用所述特征处理方法,确定所述多个第一数据段分别对应的第二特征值;
基于所述第一特征值和所述多个第一数据段分别对应的所述第二特征值,确定所述多个第一数据段分别对应的误差值;
将所述多个第一数据段中误差值最小的第一数据段作为所述第一处理结果。
6.根据权利要求4所述的方法,其特征在于,所述对所述第一数据集合进行数据剔除处理,得到所述目标任务对应的第二处理结果,包括:
确定所述第一数据集合中包括的多个第一数据对应的极差,以及所述多个第一数据分别对应的波动值,其中,所述波动值表征所述多个第一数据在预设的数据范围中的偏离程度;
基于所述极差,以及所述多个第一数据分别对应的所述波动值,确定所述多个第一数据分别对应的波动比例;
剔除所述多个第一数据中所述波动比例小于预设的波动阈值的第一数据,得到处理后的第一数据集合;
将所述处理后的第一数据集合作为所述目标任务对应的所述第二处理结果。
7.根据权利要求6所述的方法,其特征在于,所述将所述处理后的第一数据集合作为所述目标任务对应的所述第二处理结果,包括:
采用预设的第二分段方法,对所述处理后的第一数据集合进行分段处理,得到所述处理后的第一数据集合对应的多个第二数据段;
确定所述多个第二数据段分别包括的多个第二数据之间的相似度;
在所述多个第二数据段中,确定所述多个第二数据段分别包括的所述多个第二数据之间的所述相似度大于预设的相似度阈值的目标数据段;
对所述目标数据段包括的多个第二数据进行合并处理,得到所述目标任务对应的所述第二处理结果。
8.根据权利要求1至7中任意一项所述的方法,其特征在于,所述确定任务队列中的多个待执行任务,以及所述多个待执行任务分别对应的子任务数量之前,所述方法还包括:
确定用于执行所述多个待执行任务的线程对应的目标数量,包括:
确定所述任务队列中的所述多个待执行任务对应的待执行任务数量,以及在预设第一时间间隔前,所述任务队列中的历史任务对应的历史任务数量;
基于所述待执行任务数量和所述历史任务数量,确定所述任务队列中的任务趋势;
在所述任务趋势为上升状态的情况下,确定当前内存状态;
在所述当前内存状态不大于预设的内存阈值的情况下,采用预设的增加数量,增加所述任务队列对应的当前线程数量,得到第一数量,其中,所述第一数量不大于预设的线程数量上限;
将所述第一数量作为所述目标数量;
在所述任务趋势为下降状态的情况下,采用预设的减少数量,减少所述任务队列对应的所述当前线程数量,得到第二数量,其中,所述第二数量不小于预设的线程数量下限;
将所述第二数量作为所述目标数量。
9.一种数据处理装置,其特征在于,包括:
第一确定模块,用于确定任务队列中的多个待执行任务,以及所述多个待执行任务分别对应的子任务数量;
第二确定模块,用于基于所述多个待执行任务分别对应的任务类型,确定所述多个待执行任务分别对应的第一执行时长,其中,所述第一执行时长为预设历史时段内所述任务类型对应的执行时间计算值;
第三确定模块,用于基于所述多个待执行任务分别对应的所述子任务数量、滞留时长、所述第一执行时长,确定所述多个待执行任务中的目标任务,其中,所述滞留时长为所述多个待执行任务分别在所述任务队列中等待处理的时长;
获取模块,用于对所述目标任务对应的实时采集数据进行处理,得到所述目标任务对应的目标处理结果。
10.一种非易失性存储介质,其特征在于,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行权利要求1至8中任意一项所述的数据处理方法。
CN202211402079.1A 2022-11-09 2022-11-09 数据处理方法、装置及非易失性存储介质 Pending CN115794382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211402079.1A CN115794382A (zh) 2022-11-09 2022-11-09 数据处理方法、装置及非易失性存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211402079.1A CN115794382A (zh) 2022-11-09 2022-11-09 数据处理方法、装置及非易失性存储介质

Publications (1)

Publication Number Publication Date
CN115794382A true CN115794382A (zh) 2023-03-14

Family

ID=85436496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211402079.1A Pending CN115794382A (zh) 2022-11-09 2022-11-09 数据处理方法、装置及非易失性存储介质

Country Status (1)

Country Link
CN (1) CN115794382A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116679878A (zh) * 2023-05-31 2023-09-01 珠海妙存科技有限公司 闪存数据处理方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116679878A (zh) * 2023-05-31 2023-09-01 珠海妙存科技有限公司 闪存数据处理方法、装置、电子设备及可读存储介质
CN116679878B (zh) * 2023-05-31 2024-04-19 珠海妙存科技有限公司 闪存数据处理方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109918184B (zh) 图片处理系统、方法及相关装置和设备
US20190317808A1 (en) Distributed Multiple Tier Multi-Node Serverless Framework for Complex Analytics Task Execution
CN115794382A (zh) 数据处理方法、装置及非易失性存储介质
CN112163468A (zh) 基于多线程的图像处理方法及装置
CN112748993A (zh) 任务执行方法、装置、存储介质及电子设备
CN111338787A (zh) 一种数据处理方法及装置、存储介质、电子装置
CN112631754A (zh) 数据处理方法、装置、存储介质及电子装置
CN107493315B (zh) 一种行为数据的收集方法、资源服务器及存储介质
CN107748711B (zh) 自动优化Storm并行度的方法、终端设备及存储介质
CN115664992A (zh) 网络运行数据的处理方法、装置、电子设备及介质
CN115438007A (zh) 一种文件合并方法、装置、电子设备及介质
CN110362387A (zh) 分布式任务的处理方法、装置、系统和存储介质
CN111683296B (zh) 视频切分方法、装置、电子设备及存储介质
CN111125161B (zh) 数据的实时处理方法、装置、设备及存储介质
CN110728838B (zh) 抄表方法、装置和电力采集终端
CN111339422A (zh) 推荐系统任务管理平台、推荐方法及系统
CN110825493A (zh) 一种虚拟机调优的方法及装置
CN112540842A (zh) 动态调整系统资源的方法及装置
CN116170321B (zh) 一种链路追踪的数据收集方法、装置、设备和存储介质
CN116450120B (zh) 实时操作系统内核分析方法、装置、设备及介质
CN113420170B (zh) 大数据图像的多线程存储方法、装置、设备和介质
CN109729393B (zh) 数据的处理方法及装置
CN116661966A (zh) 一种线性池管理方法和相关装置
CN114281540A (zh) 业务的执行方法、装置、存储介质及电子装置
CN113204374A (zh) 流水线任务组件输入参数配置方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination