CN113886199A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN113886199A
CN113886199A CN202111011154.7A CN202111011154A CN113886199A CN 113886199 A CN113886199 A CN 113886199A CN 202111011154 A CN202111011154 A CN 202111011154A CN 113886199 A CN113886199 A CN 113886199A
Authority
CN
China
Prior art keywords
rule
rule set
rules
log
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111011154.7A
Other languages
English (en)
Other versions
CN113886199B (zh
Inventor
陆明
张心怡
聂志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202111011154.7A priority Critical patent/CN113886199B/zh
Publication of CN113886199A publication Critical patent/CN113886199A/zh
Application granted granted Critical
Publication of CN113886199B publication Critical patent/CN113886199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种数据处理方法,包括:基于第一数据集合,生成第一规则集合;基于所述第一规则集合中的规则的参数,确定第二规则集合;基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;基于所述第三规则集合,派发日志数据;本申请还提供一种数据处理装置。

Description

一种数据处理方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
在对复杂事物处理(CEP)日志数据进行处理时,常常会出现某一分区(Partition)的日志数据流量相比其他分区更大,甚至还出现消息队列反压的情形,使得处理不同分区下的作业和数据处理可能超时;部分作业负载过大,影响整体日志数据处理效率。
发明内容
本申请提供一种数据处理方法及装置,以至少解决现有技术中存在的以上技术问题。
本申请一方面提供一种数据处理方法,包括:
基于第一数据集合,生成第一规则集合;
基于所述第一规则集合中的规则的参数,确定第二规则集合;
基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;
基于所述第三规则集合,派发日志数据。
上述方案中,所述基于第一数据集合,生成第一规则集合包括:
获取所述第一数据集合中数量大于第一阈值的第一关键字;
基于所述第一关键字确认第一频繁项集;
基于所述第一频繁项集生成所述第一规则集合。
上述方案中,所述基于所述第一规则集合中各个规则的参数,确定第二规则集合包括:
基于所述第一规则集合中各个规则对应的支持度、置信度和提升度中至少一种,确定所述第二规则集合。
上述方案中,所述基于所述第一规则集合中各个规则对应的支持度、置信度和提升度中至少一种,确定所述第二规则集合,包括:
确认所述第一规则集合中各个规则对应的支持度、置信度以及提升度;
确认所述第一规则集合中,满足第一预设条件的规则为所述第二规则集合中的规则;
其中,所述第一预设条件包括以下至少之一:
所述支持度大于第二阈值、所述置信度大于第三阈值以及所述提升度大于第四阈值。
上述方案中,所述基于所述第一规则集合中各个规则的参数,确定第二规则集合包括:
若所述第一规则集合中第一规则包括基于第一日志数据推导第二日志数据;则基于所述第一日志数据对应的支持度和所述第二日志数据对应的支持度,确认所述第一规则的有效程度;
若所述第一规则的有效程度大于第五阈值,则确认所述第一规则为所述第二规则集合中的规则。
上述方案中,所述基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合,包括:
确定所述第二规则集合与所述日志规则集合的直积;
基于所述直积的结果,确定所述第三规则集合。
上述方案中,所述基于所述直积的结果,确定所述第三规则集合包括:
若所述直积的结果中不包括重复的元素,则确认所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确认所述重复的元素对应的日志数据在所述全部第一数据集合中的占比;若所述占比大于或等于第六阈值,则删除所述第二规则集合中,与所述重复的元素对应的规则;删除所述重复的元素对应的规则的所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确定所述重复的元素在所述日志规则集合中对应的关键字;若所述第二规则集合中删除所述关键字对应的至少一个规则之后,所述第二规则集合与所述日志规则集合的直积的结果中不包括重复的元素,并且所述第二规则集合能够覆盖第一数据集合中第一占比的日志数据,则确定删除所述关键字对应的至少一个规则的所述第二规则集合为所述第三规则集合。
上述方案中,所述基于所述第三规则集合,派发日志数据之前,所述方法还包括:
基于所述第三规则集合中第一子规则集合派发所述第一数据集合中的日志数据;
若派发至各个窗口分区的所述日志数据的数量的标准差小于第七阈值,则确认所述第一子规则集合为日志派发规则。
上述方案中,所述方法还包括:
若派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则基于所述第三规则集合中第二子规则集合派发所述第一数据集合中的所述日志数据;
若基于所述第三规则集合中的全部规则派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则重新生成所述第一规则集合;
其中,所述第一子规则集合中的规则与所述第二子规则集合中的规则相同或不同。
本申请另一方面提供一种数据处理装置,包括:
第一确定单元,用于基于所述第一规则集合中的规则的参数,确定第二规则集合;
第二确定单元,用于基于所述第二规则集合和时间分区对应的日志规则集合,确定第三规则集合;
派发单元,用于基于所述第三规则集合,派发日志数据。
如此,通过本申请提供的数据处理装置,基于第一数据集合,生成第一规则集合;基于所述第一规则集合中的规则的参数,确定第二规则集合;基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;基于所述第三规则集合,派发日志数据;可以将日志数据均匀地派发到各个分区,提升日志数据的处理效率。
附图说明
图1示出了示出了相关技术中CEP日志数据处理的基本架构示意图;
图2示出了使用相关技术对日志数据进行派发各个分区中需处理的日志数据示意图;
图3示出了本申请实施例提供的数据处理方法的一种可选流程示意图;
图4示出了本申请实施例提供的数据处理方法的另一种可选流程示意图;
图5示出了本申请实施例提供的数据处理方法的又一种可选流程示意图;
图6示出了本申请实施例提供的数据处理方法的再一种可选流程示意图;
图7示出了本申请实施例提供的数据处理方法的还一种可选流程示意图;
图8示出了本申请实施例提供的数据处理方法的可选应用示意图;
图9示出了本申请实施例提供的数据处理装置的可选结构示意图;
图10示出了本申请实施例提供的数据处理装置的硬件组成结构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了相关技术中CEP日志数据处理的基本架构示意图。
结合图1,以Kafka集群或CEP集群为例,常常会出现派发到某一分区的日志流量巨大的情况,甚至会出现消息队列反压的情景。这是因为相关技术中,基于特定的分区条件进行日志数据派发,在不同的业务场景下,可能会出现将大量日志数据派发到同一个分区的情况,使得处理不同分区的作业负载差异巨大;并且,处理某一分区的作业复杂过大,会影响整体日志处理效率。
图2示出了使用相关技术对日志数据进行派发各个分区中需处理的日志数据示意图。
图2是使用相关技术(如图1)对日志数据进行派发,各个分区中日志数据的数量的示意图,从图2中可以看出,由于在日志数据派发的过程中,由于是以特定的分区条件进行流量派发,可能导致根据某种规则必须派发到某一分区的日志数据,和可以派发至任一分区的日志数据都被派发至某一分区,导致某一分区的日志数据量远远大于其他分区;例如,分区序号对应0、14、13、12、11的分区中日志数据的数量远远大于其他分区,此时需要根据某种规则将各个分区中的日志数据进行均匀的分配;由于日志数据遵循二八分布,即只有小部分的日志数据需要根据相关规则派发到特定分区中,而大部分的日志数据可以均匀地派发到各个分区,因此,如果能够确定出相应的规则,根据规则能够识别出不同场景下可以均匀地派发到各个分区的日志数据,可以解决现有技术中存在的问题。
然而,日志数据分配过程会影响CEP的处理逻辑,例如日志数据分配过程会影响某个时间窗口内聚合计算的结果,导致处理错误。
因此,针对日志数据派发中存在的缺陷,本申请提供一种数据处理方法,能够克服现有技术的部分或全部缺点,一方面确保不同业务场景下的日志数据分派到相应的分区;另一方面确定日志派发规则,确保与分区派发规则的相关性不强的日志数据均匀派发到各个分区。
图3示出了本申请实施例提供的数据处理方法的一种可选流程示意图,将根据各个步骤进行说明。
步骤S101,基于第一数据集合,生成第一规则集合。
在一些实施例中,数据处理装置(以下简称装置)基于第一数据集合,生成第一规则集合。其中,所述第一数据集合可以包括历史日志数据。
具体实施时,所述装置获取所述第一数据集合中数量大于第一阈值的第一关键字;基于所述第一关键字确认第一频繁项集;基于所述第一频繁项集生成所述第一规则集合。
具体的,可以基于相关技术生成第一规则集合(如使用频繁项集算法),本申请不做具体限制。
步骤S102,基于所述第一规则集合中的规则的参数,确定第二规则集合。
在一些实施例中,所述规则的参数可以包括:支持度、置信度和提升度中至少之一。
在一些实施例中,所述装置确认所述第一规则集合中各个规则对应的支持度、置信度和提升度中至少一种;确认所述第一规则集合中,满足第一预设条件的规则为所述第二规则集合中的规则;其中,所述第一预设条件包括以下至少之一:所述支持度大于第二阈值、所述置信度大于第三阈值以及所述提升度大于第四阈值。
例如,规则参数仅包括支持度的情况下,所述装置确认所述第一规则集合中各个规则对应的支持度;确认所述第一规则集合中,满足支持度大于第二阈值的规则为所述第二规则集合中的规则;或者,规则参数仅包括置信度的情况下,所述装置确认所述第一规则集合中各个规则对应的置信度;确认所述第一规则集合中,满足置信度大于第三阈值的规则为所述第二规则集合中的规则;或者,规则参数仅包括提升度的情况下,所述装置确认所述第一规则集合中各个规则对应的提升度;确认所述第一规则集合中,满足提升度大于第四阈值的规则为所述第二规则集合中的规则。
又例如,规则参数包括支持度和置信度的情况下,所述装置确认所述第一规则集合中各个规则对应的支持度和置信度;确认所述第一规则集合中,满足支持度大于第二阈值,且置信度大于第三阈值的规则为所述第二规则集合中的规则。类似的,规则参数包括支持度和提升度、置信度和提升度的情况下,所述装置可以基于类似的方式确认第二规则集合。
再例如,规则参数包括支持度、置信度和提升度的情况下,所述装置确认所述第一规则集合中各个规则对应的支持度、置信度和提升度;确认所述第一规则集合中,满足支持度大于第二阈值、置信度大于第三阈值且提升度大于第四预知的规则为所述第二规则集合中的规则。
需要说明的是,所述第二阈值、第三阈值和第四阈值可以根据规则参数的数量或实际需求进行调整。例如规则参数仅包括提升度的情况下,为了提升规则的有效性,可以适当提升第四阈值;规则参数包括支持度和置信度的情况下,为了保留更多规则,可以适当减小第二阈值和/或第三阈值。
其中,所述基于规则的支持度,确定第二规则集合,可以确定频繁程度大于第二阈值的规则;若所述第一规则集合中的第一规则包括基于第一日志数据推导第二日志数据,基于规则的置信度确定第二规则集合,可以确定第二日志数据在第一日志数据中出现的频繁程度;基于规则的提升度确定第二规则集合,可以确定有效性更高的规则(遵循提升度更高的规则后,相比其他提升度较低的规则,分派日志数据的结果的有效性更高)。
步骤S103,基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合。
在一些实施例中,所述装置基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合。其中,所述时间窗口对应的日志规则集合包括需要将遵循特定规则的日志数据发送到对应的时间窗口(分区)时,所使用的规则的集合。
具体实施时,所述装置确定所述第二规则集合与所述日志规则集合的直积;基于所述直积的结果,确定所述第三规则集合。其中,搜索直积的结果中包括所述第二规则集合中的规则与所述日志规则集合中的规则的组合,如(第二规则集合中的规则1,日志规则集合中的规则2);所述直接结果中重复的元素是指组合中两个规则完全相同,如规则1与规则2相同,则确定(第二规则集合中的规则1,日志规则集合中的规则2)为重复的元素。
若所述直积的结果中不包括重复的元素,则确认所述第二规则集合为所述第三规则集合;将需要派发至特定分区的日志数据(小部分日志数据)称之为第一日志数据集合;将不需要派发至特定分区的日志数据(大部分日志数据)称之为第二日志数据集合;此时,若所述直积的结果中不包括重复的元素,说明派发第二日志数据集合的规则(第二规则集合)中不包括时间窗口对应的规则,基于第二规则集合不可能将第二日志数据集合派发至特定窗口,进一步可以避免不需要派发到特定分区的日志数据派发到了特定分区,导致特定分区的日志数据量相比其他分区大的情况。
或者,若所述直积的结果中包括重复的元素,则确认所述重复的元素对应的日志数据在所述全部第一数据集合中的占比;若所述占比大于或等于第六阈值,则删除所述第二规则集合中,与所述重复的元素对应的规则;删除所述重复的元素对应的规则的所述第二规则集合为所述第三规则集合;若所述直积的结果中包括重复的元素,说明派发第二日志数据集合的规则中包括时间窗口对应的规则,基于第二规则集合可能将第二日志数据集合派发至特定窗口;因此,确认所述重复的元素对应的日志数据在所述全部第一数据集合中的占比,若所述占比小于所述第六阈值,说明重复的元素对派发结果的影响较小,可以忽略或删除;若所述占比大于或等于所述第六阈值,说明重复的元素对派发结果的影响较大,可能会出现特定分区的日志数据量相比其他分区大的情况;此时,从第二规则集合中删除重复的元素对应的规则,可以避免由于所述重复的元素对应的规则将不需要派发到特定分区的日志数据派发到了特定分区,导致特定分区的日志数据量相比其他分区大的情况。其中,所述第六阈值可以根据实际需求设置。
或者,若所述直积的结果中包括重复的元素,则确定所述重复的元素在所述日志规则集合中对应的关键字;若所述第二规则集合中删除所述关键字对应的至少一个规则之后,所述第二规则集合与所述日志规则集合的直积的结果中不包括重复的元素,并且所述第二规则集合能够覆盖第一数据集合中第一占比的日志数据,则确定删除所述关键字对应的至少一个规则的所述第二规则集合为所述第三规则集合。若所述直积的结果中包括重复的元素,说明派发第二日志数据集合的规则中包括时间窗口对应的规则,基于第二规则集合可能将第二日志数据集合派发至特定窗口;因此,确定所述重复的元素在所述日志规则集合中对应的关键字,进而确定与所述关键字对应的至少一个规则;若在所述第二规则集合中删除所述关键字对应的至少一个规则之后,所述第二规则集合与所述日志规则集合的直积的结果中不包括重复的元素;说明派发第二日志数据集合的规则中不包括时间窗口对应的规则,基于第二规则集合不可能将第二日志数据集合派发至特定窗口,进一步可以避免不需要派发到特定分区的日志数据派发到了特定分区,导致特定分区的日志数据量相比其他分区大的情况。
步骤S104,基于所述第三规则集合,派发日志数据。
在一些实施例中,所述装置基于所述第三规则集合,派发日志数据。使得遵循特定规则的日志数据发送到对应的时间窗口(分区);不需要遵循特定规则的日志数据平均分配到各个分区。
如此,通过本申请实施例提供的数据处理方法,基于第一数据集合,生成第一规则集合;基于所述第一规则集合中的规则的参数,确定第二规则集合;基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;基于所述第三规则集合,派发日志数据。使得不同的业务场景下,可以根据第三规则集合,将不需要发送至指定分区的大量日志数据均匀派发到不同分区,减小处理不同分区的作业负载之间的差异,提升日志处理效率,避免作业和数据处理可能带来的超时。
图4示出了本申请实施例提供的数据处理方法的另一种可选流程示意图,将根据各个步骤进行说明。
步骤S201,基于第一数据集合,生成第一规则集合。
在一些实施例中,数据处理装置(以下简称装置)基于第一数据集合,生成第一规则集合。其中,所述第一数据集合可以包括历史日志数据。
具体实施时,所述装置获取所述第一数据集合中数量大于第一阈值的第一关键字;基于所述第一关键字确认第一频繁项集;基于所述第一频繁项集生成所述第一规则集合。
具体的,可以基于相关技术生成第一规则集合(如使用频繁项集算法),本申请不做具体限制。
步骤S202,基于所述第一规则集合中的规则的有效程度,确定第二规则集合。
在一些实施例中,所述规则的参数可以包括规则的有效程度。所述规则的有效程度,可以基于与所述规则对应的至少两个日志数据(事件)的支持度确定。
具体实施时,若所述第一规则集合中第一规则包括基于第一日志数据推导第二日志数据;则基于所述第一日志数据对应的支持度和所述第二日志数据对应的支持度,确认所述第一规则的有效程度;若所述第一规则的有效程度大于第五阈值,则确认所述第一规则为所述第二规则集合中的规则。
在另一些实施例中,所述规则的参数还可以包括:支持度、置信度和提升度中至少之一。
在一些实施例中,所述装置基于所述第一规则集合中规则的有效程度,以及各个规则对应的支持度、置信度和提升度中至少一种,确认所述第一规则集合中,满足第一预设条件的规则为所述第二规则集合中的规则;其中,所述第一预设条件包括以下至少之一:所述有效程度大于第五阈值,以及满足所述支持度大于第二阈值、所述置信度大于第三阈值和所述提升度大于第四阈值至少之一。
可选的,若第一规则可以基于第一日志数据和第二日志数据确定(基于第一日志数据可以推导出第二日志数据),则所述第一规则的有效程度可以基于第一日志数据对应的支持度和第二日志数据对应的支持度确定。
步骤S203,基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合。
在一些实施例中,所述装置基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合。其中,所述时间窗口对应的日志规则集合包括需要将遵循特定规则的日志数据发送到对应的时间窗口(分区)时,所使用的规则的集合。
具体实施时,所述装置确定所述第二规则集合与所述日志规则集合的直积;基于所述直积的结果,确定所述第三规则集合。
若所述直积的结果中不包括重复的元素,则确认所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确认所述重复的元素对应的日志数据在所述全部第一数据集合中的占比;若所述占比大于或等于第六阈值,则删除所述第二规则集合中,与所述重复的元素对应的规则;删除所述重复的元素对应的规则的所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确定所述重复的元素在所述日志规则集合中对应的关键字;若所述第二规则集合中删除所述关键字对应的至少一个规则之后,所述第二规则集合与所述日志规则集合的直积的结果中不包括重复的元素,并且所述第二规则集合能够覆盖第一数据集合中第一占比的日志数据,则确定删除所述关键字对应的至少一个规则的所述第二规则集合为所述第三规则集合。
步骤S204,基于所述第三规则集合,派发日志数据。
在一些实施例中,所述装置基于所述第三规则集合,派发日志数据。使得遵循特定规则的日志数据发送到对应的时间窗口(分区);不需要遵循特定规则的日志数据平均分配到各个分区。
如此,通过本申请实施例提供的数据处理方法,基于第一数据集合,生成第一规则集合;基于所述第一规则集合中的规则的参数,确定第二规则集合;基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;基于所述第三规则集合,派发日志数据。使得不同的业务场景下,将大量日志数据均匀派发到不同分区,减小处理不同分区的作业负载之间的差异,提升日志处理效率。
图5示出了本申请实施例提供的数据处理方法的又一种可选流程示意图,将根据各个步骤进行说明。
步骤S301,基于第一数据集合,生成第一规则集合。
步骤S301的具体流程与步骤S101或步骤S201相同,此处不再重复赘述。
步骤S302,基于所述第一规则集合中的规则的参数,确定第二规则集合。
步骤S302的具体流程与步骤S102或步骤S202相同,此处不再重复赘述。
步骤S303,基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合。
步骤S303的具体流程与步骤S103或步骤S203相同,此处不再重复赘述。
步骤S304,对所述第三规则集合进行验证,基于验证结果派发日志数据。
在一些实施例中,所述装置确定所述第三规则结合之后,还可以对所述第三规则集合进行验证。
具体实施时,所述装置基于所述第三规则集合中第一子规则集合派发所述第一数据集合中的日志数据;若派发至各个分区的所述日志数据的数量的标准差小于第七阈值,则确认所述第一子规则集合为日志派发规则。可选的,所述装置基于所述第一子规则集合派发日志数据。其中,所述第七阈值可以根据实际需求设置。
或者,若派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则基于所述第三规则集合中第二子规则集合派发所述第一数据集合中的所述日志数据;
若基于所述第三规则集合中的全部规则派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则重新生成所述第一规则集合,执行步骤S301至步骤S304;其中,所述第一子规则集合中的规则与所述第二子规则集合中的规则相同或不同。
如此,通过本申请实施例提供的数据处理方法,基于第一数据集合,生成第一规则集合;基于所述第一规则集合中的规则的参数,确定第二规则集合;基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;基于所述第三规则集合,派发日志数据。使得不同的业务场景下,将大量日志数据均匀派发到不同分区,减小处理不同分区的作业负载之间的差异,提升日志处理效率。并且,生成第三规则集合后,对所述第三规则集合进行验证,确定第三规则集合中部分规则或全部规则为日志派发规则,并基于日志派发规则派发日志数据,可以减少数据处理方法的运算量,同时也可以简化后续日志数据派发过程。
图6示出了本申请实施例提供的数据处理方法的再一种可选流程示意图,将根据各个步骤进行说明。
步骤S401,基于第一数据集合,生成第二规则集合。
在一些实施例中,所述装置获取第一数据集合中第二占比的日志数据(第一数据子集),将所述第一数据子集作为规则生成模型的输入,生成第三规则子集。
确定所述第三规则子集中各个规则的参数,若所述第三规则子集中第四占比的规则满足第一预设条件,则确认所述第三规则子集为所述第二规则集合;
或者,以所述第一数据集合中第三占比的日志数据作为规则生成模型的输入,生成第四规则子集;确定所述第四规则子集中各个规则的参数,若所述第四规则子集中第五占比的规则满足第一预设条件,则以所述第四规则子集为所述第二规则集合。
其中,所述第一预设条件包括以下至少之一:所述有效程度大于第五阈值,以及满足所述支持度大于第二阈值、所述置信度大于第三阈值和所述提升度大于第四阈值至少之一。第二占比小于或等于第三占比;第一数据集合中第三占比的日志数据可以包括第一数据集合中第二占比的日志数据。
步骤S402,基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合。
在一些实施例中,步骤S402的具体流程可以与步骤S103、步骤S203或步骤S303相同,此处不再重复赘述。
在另一些实施例中,所述装置可以基于对时间窗口对应的日志规则集合,对相应的日志数据进行标注,删除第二规则集合中,被标注的数据对应的规则,删除相应规则后的规则集合为所述第三规则集合。
步骤S403,基于所述第三规则集合,派发日志数据。
步骤S403的具体流程与步骤S104、步骤S204或步骤S304相同,此处不再重复赘述。
如此,通过本申请实施例提供的数据处理方法,基于第一数据集合,生成第一规则集合;基于所述第一规则集合中的规则的参数,确定第二规则集合;基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;基于所述第三规则集合,派发日志数据。使得不同的业务场景下,将大量日志数据均匀派发到不同分区,减小处理不同分区的作业负载之间的差异,提升日志处理效率。
图7示出了本申请实施例提供的数据处理方法的还一种可选流程示意图,将根据各个步骤进行说明。
步骤S501,确认第一数据集合。
在一些实施例中,所述装置确认第一时间阈值内的历史日志数据未所述第一数据集合。
步骤S502,基于第一数据集合,生成第二规则集合。
在一些实施例中,所述装置解析所述第一数据集合包括的日志模板,确定所述日志模板中数量大于第七阈值的至少一个关键字,基于所述至少一个关键字确定频繁项集并生成第二规则集合。
在一些实施例中,所述装置可以基于所述至少一个关键字生成第一规则集合;基于支持度、置信度、提升度和有效程度,确定第二规则集合(步骤S101至步骤S102、步骤S201至步骤S202或步骤S301至步骤S303)。可选的,所述装置还可以基于其他参数确认第二规则集合,本申请不做具体限制。
在另一些实施例中,所述装置可以基于第一数据集合和规则生成模型,确定第二规则集合(步骤S401)。
在一些可选实施例中,可以不需要对所述频繁项集的所有日志模式进行分析确定第二规则结合,可以基于覆盖量较大的部分日志模式确定第二规则集合。
步骤S503,基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合。
在一些实施例中,所述装置将时间窗口对应的日志规则集合中的规则与所述第二规则集合中的规则匹配,确认第三规则集合。其中,所述时间窗口对应的日志规则集合包括需要将遵循特定规则的日志数据发送到对应的时间窗口(分区)时,所使用的规则的集合。
具体实施时,所述装置确定所述第二规则集合与所述日志规则集合的直积(也称为笛卡尔积);基于所述直积的结果,确定所述第三规则集合。
若所述直积的结果中不包括重复的元素(第二规则集合与日志规则集合无交集),则确认所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素(第二规则集合与日志规则集合有交集),则确认所述重复的元素对应的日志数据在所述全部第一数据集合中的占比;若所述占比大于或等于第六阈值,则删除所述第二规则集合中,与所述重复的元素对应的规则;删除所述重复的元素对应的规则的所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确定所述重复的元素在所述日志规则集合中对应的关键字;若所述第二规则集合中删除所述关键字对应的至少一个规则之后,所述第二规则集合与所述日志规则集合的直积的结果中不包括重复的元素,并且所述第二规则集合能够覆盖第一数据集合中第一占比的日志数据,则确定删除所述关键字对应的至少一个规则的所述第二规则集合为所述第三规则集合。
步骤S504,对所述第三规则集合进行验证,基于验证结果派发日志数据。
在一些实施例中,所述装置确定所述第三规则结合之后,还可以对所述第三规则集合进行验证。
具体实施时,所述装置基于所述第三规则集合中第一子规则集合派发所述第一数据集合中的日志数据;若派发至各个分区的所述日志数据的数量的标准差小于第七阈值,则确认所述第一子规则集合为日志派发规则。可选的,所述装置基于所述第一子规则集合派发日志数据。
或者,若派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则基于所述第三规则集合中第二子规则集合派发所述第一数据集合中的所述日志数据;
若基于所述第三规则集合中的全部规则派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则重新生成所述第一规则集合,执行步骤S501至步骤S504;其中,所述第一子规则集合中的规则与所述第二子规则集合中的规则相同或不同。
图8示出了本申请实施例提供的数据处理方法的可选应用示意图。
在一些可选实施例中,所述装置确定日志派发规则(第一子规则集合、第二子规则集合或第三规则集合)之后,还可以将所述日志派发规则存储至流量派发数据库中,以便CEP程序加载和使用;或者,在日志派发的过程中,从所述数据库中获取日志派发规则,今天日志派发。
如此,通过本申请实施例提供的数据处理方法,基于第一数据集合,生成第一规则集合;基于所述第一规则集合中的规则的参数,确定第二规则集合;基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;基于所述第三规则集合,派发日志数据。使得不同的业务场景下,将大量日志数据均匀派发到不同分区,减小处理不同分区的作业负载之间的差异,提升日志处理效率。如果日志属于时间窗口聚合分析所需,则按照规则派发到特定分区;如果不属于,则随机派发到相应分区,或者根据规则不再派发;未知类型的日志,按照规则派发到指定分区。并且,生成第三规则集合后,对所述第三规则集合进行验证,确定第三规则集合中部分规则或全部规则为日志派发规则,并基于日志派发规则派发日志数据,可以减少数据处理方法的运算量,同时也可以简化后续日志数据派发过程。
上述所述的数据处理方法,可以应用于Kafka集群或CEP集群中,在应用于Kafka集群中的情况下,可以将日志数据派发到各个分区;还可以将日志数据派发到Kafka集群对应的不同队列中。
图9示出了本申请实施例提供的数据处理装置的可选结构示意图,将根据各个部分进行说明。
在一些实施例中,数据处理装置600包括:生成单元601、第一确定单元602、第二确定单元603和派发单元604。
所述生成单元601,用于基于第一数据集合,生成第一规则集合;
所述第一确定单元602,用于基于所述第一规则集合中的规则的参数,确定第二规则集合;
所述第二确定单元603,用于基于所述第二规则集合和时间分区对应的日志规则集合,确定第三规则集合;
所述派发单元604,用于基于所述第三规则集合,派发日志数据。
所述生成单元601,具体用于获取所述第一数据集合中数量大于第一阈值的第一关键字;基于所述第一关键字确认第一频繁项集;基于所述第一频繁项集生成所述第一规则集合。
所述第一确定单元602,具体用于基于所述第一规则集合中各个规则对应的支持度、置信度和提升度中至少一种,确定所述第二规则集合。
所述第一确定单元602,具体用于确认所述第一规则集合中各个规则对应的支持度、置信度以及提升度;确认所述第一规则集合中,满足第一预设条件的规则为所述第二规则集合中的规则;其中,所述第一预设条件包括以下至少之一:所述支持度大于第二阈值、所述置信度大于第三阈值以及所述提升度大于第四阈值。
所述第一确定单元602,具体用于若所述第一规则集合中第一规则包括基于第一日志数据推导第二日志数据;则基于所述第一日志数据对应的支持度和所述第二日志数据对应的支持度,确认所述第一规则的有效程度;若所述第一规则的有效程度大于第五阈值,则确认所述第一规则为所述第二规则集合中的规则。
所述第二确定单元603,具体用于确定所述第二规则集合与所述日志规则集合的直积;基于所述直积的结果,确定所述第三规则集合。
所述第二确定单元603,具体用于若所述直积的结果中不包括重复的元素,则确认所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确认所述重复的元素对应的日志数据在所述全部第一数据集合中的占比;若所述占比大于或等于第六阈值,则删除所述第二规则集合中,与所述重复的元素对应的规则;删除所述重复的元素对应的规则的所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确定所述重复的元素在所述日志规则集合中对应的关键字;若所述第二规则集合中删除所述关键字对应的至少一个规则之后,所述第二规则集合与所述日志规则集合的直积的结果中不包括重复的元素,并且所述第二规则集合能够覆盖第一数据集合中第一占比的日志数据,则确定删除所述关键字对应的至少一个规则的所述第二规则集合为所述第三规则集合。
在一些实施例中,所述派发单元604基于所述第三规则集合,派发日志数据之前,还用于基于所述第三规则集合中第一子规则集合派发所述第一数据集合中的日志数据;若派发至各个分区的所述日志数据的数量的标准差小于第七阈值,则确认所述第一子规则集合为日志派发规则。
在一些实施例中,所述派发单元604,还用于若派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则基于所述第三规则集合中第二子规则集合派发所述第一数据集合中的所述日志数据;
若基于所述第三规则集合中的全部规则派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则重新生成所述第一规则集合;
其中,所述第一子规则集合中的规则与所述第二子规则集合中的规则相同或不同。
图10示出了本申请实施例提供的数据处理装置的硬件组成结构示意图,数据处理装置700包括:至少一个处理器701、存储器702和至少一个网络单元704。数据处理装置700中的各个组件通过总线系统705耦合在一起。可理解,总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线系统705。
可以理解,存储器702可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagneticrandom access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例中的存储器702用于存储各种类型的数据以支持数据处理装置700的操作。这些数据的示例包括:用于在数据处理装置700上操作的任何计算机程序,如应用程序722。实现本申请实施例方法的程序可以包含在应用程序722中。
所述本申请实施例揭示的方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,所述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。所述的处理器701可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,数据处理装置700可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、FPGA、通用处理器、控制器、MCU、MPU、或其他电子元件实现,用于执行前述方法。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种数据处理方法,包括:
基于第一数据集合,生成第一规则集合;
基于所述第一规则集合中的规则的参数,确定第二规则集合;
基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合;
基于所述第三规则集合,派发日志数据。
2.根据权利要求1所述的方法,所述基于第一数据集合,生成第一规则集合包括:
获取所述第一数据集合中数量大于第一阈值的第一关键字;
基于所述第一关键字确认第一频繁项集;
基于所述第一频繁项集生成所述第一规则集合。
3.根据权利要求1所述的方法,所述基于所述第一规则集合中各个规则的参数,确定第二规则集合包括:
基于所述第一规则集合中各个规则对应的支持度、置信度和提升度中至少一种,确定所述第二规则集合。
4.根据权利要求3所述的方法,所述基于所述第一规则集合中各个规则对应的支持度、置信度和提升度中至少一种,确定所述第二规则集合,包括:
确认所述第一规则集合中各个规则对应的支持度、置信度以及提升度;
确认所述第一规则集合中,满足第一预设条件的规则为所述第二规则集合中的规则;
其中,所述第一预设条件包括以下至少之一:
所述支持度大于第二阈值、所述置信度大于第三阈值以及所述提升度大于第四阈值。
5.根据权利要求1所述的方法,所述基于所述第一规则集合中各个规则的参数,确定第二规则集合包括:
若所述第一规则集合中第一规则包括基于第一日志数据推导第二日志数据;则基于所述第一日志数据对应的支持度和所述第二日志数据对应的支持度,确认所述第一规则的有效程度;
若所述第一规则的有效程度大于第五阈值,则确认所述第一规则为所述第二规则集合中的规则。
6.根据权利要求1所述的方法,所述基于所述第二规则集合和时间窗口对应的日志规则集合,确定第三规则集合,包括:
确定所述第二规则集合与所述日志规则集合的直积;
基于所述直积的结果,确定所述第三规则集合。
7.根据权利要求6所述的方法,所述基于所述直积的结果,确定所述第三规则集合包括:
若所述直积的结果中不包括重复的元素,则确认所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确认所述重复的元素对应的日志数据在所述全部第一数据集合中的占比;若所述占比大于或等于第六阈值,则删除所述第二规则集合中,与所述重复的元素对应的规则;删除所述重复的元素对应的规则的所述第二规则集合为所述第三规则集合;
或者,若所述直积的结果中包括重复的元素,则确定所述重复的元素在所述日志规则集合中对应的关键字;若所述第二规则集合中删除所述关键字对应的至少一个规则之后,所述第二规则集合与所述日志规则集合的直积的结果中不包括重复的元素,并且所述第二规则集合能够覆盖第一数据集合中第一占比的日志数据,则确定删除所述关键字对应的至少一个规则的所述第二规则集合为所述第三规则集合。
8.根据权利要求1所述的方法,所述基于所述第三规则集合,派发日志数据之前,所述方法还包括:
基于所述第三规则集合中第一子规则集合派发所述第一数据集合中的日志数据;
若派发至各个分区的所述日志数据的数量的标准差小于第七阈值,则确认所述第一子规则集合为日志派发规则。
9.根据权利要求8所述的方法,所述方法还包括:
若派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则基于所述第三规则集合中第二子规则集合派发所述第一数据集合中的所述日志数据;
若基于所述第三规则集合中的全部规则派发至各个分区的所述日志数据的数量的标准差大于或等于所述第七阈值,则重新生成所述第一规则集合;
其中,所述第一子规则集合中的规则与所述第二子规则集合中的规则相同或不同。
10.一种数据处理装置,包括:
生成单元,用于基于第一数据集合,生成第一规则集合;
第一确定单元,用于基于所述第一规则集合中的规则的参数,确定第二规则集合;
第二确定单元,用于基于所述第二规则集合和时间分区对应的日志规则集合,确定第三规则集合;
派发单元,用于基于所述第三规则集合,派发日志数据。
CN202111011154.7A 2021-08-31 2021-08-31 一种数据处理方法及装置 Active CN113886199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111011154.7A CN113886199B (zh) 2021-08-31 2021-08-31 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111011154.7A CN113886199B (zh) 2021-08-31 2021-08-31 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN113886199A true CN113886199A (zh) 2022-01-04
CN113886199B CN113886199B (zh) 2024-04-19

Family

ID=79011843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111011154.7A Active CN113886199B (zh) 2021-08-31 2021-08-31 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN113886199B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309716A (zh) * 2022-10-10 2022-11-08 杭州中电安科现代科技有限公司 一种日志的分析方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253966A (zh) * 2011-06-03 2011-11-23 用友软件股份有限公司 数据处理装置和数据处理方法
US20160342668A1 (en) * 2015-05-18 2016-11-24 Robert Naja Haddad Data conversion and distribution systems
CN110515912A (zh) * 2019-07-18 2019-11-29 湖南星汉数智科技有限公司 日志处理方法、装置、计算机装置及计算机可读存储介质
CN112182025A (zh) * 2020-10-28 2021-01-05 深圳前海微众银行股份有限公司 日志分析方法、装置、设备与计算机可读存储介质
CN112199344A (zh) * 2020-10-14 2021-01-08 杭州安恒信息技术股份有限公司 一种日志分类的方法和装置
CN112800095A (zh) * 2021-04-13 2021-05-14 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253966A (zh) * 2011-06-03 2011-11-23 用友软件股份有限公司 数据处理装置和数据处理方法
US20160342668A1 (en) * 2015-05-18 2016-11-24 Robert Naja Haddad Data conversion and distribution systems
CN110515912A (zh) * 2019-07-18 2019-11-29 湖南星汉数智科技有限公司 日志处理方法、装置、计算机装置及计算机可读存储介质
CN112199344A (zh) * 2020-10-14 2021-01-08 杭州安恒信息技术股份有限公司 一种日志分类的方法和装置
CN112182025A (zh) * 2020-10-28 2021-01-05 深圳前海微众银行股份有限公司 日志分析方法、装置、设备与计算机可读存储介质
CN112800095A (zh) * 2021-04-13 2021-05-14 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309716A (zh) * 2022-10-10 2022-11-08 杭州中电安科现代科技有限公司 一种日志的分析方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113886199B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN108462760B (zh) 电子装置、集群访问域名自动生成方法及存储介质
US11036491B1 (en) Identifying and resolving firmware component dependencies
US10642801B2 (en) System for determining the impact to databases, tables and views by batch processing
CN111124917B (zh) 公共测试用例的管控方法、装置、设备及存储介质
WO2020151320A1 (zh) 数据存储方法、装置、计算机设备及存储介质
CN110069217B (zh) 一种数据存储方法及装置
CN113886199A (zh) 一种数据处理方法及装置
CN112363814A (zh) 任务调度方法、装置、计算机设备及存储介质
CN112799791A (zh) 分布式锁的调用方法、装置、电子设备和存储介质
CN116049109A (zh) 一种基于过滤器的文件校验方法、系统、设备和介质
CN109284193B (zh) 一种基于多线程的分布式数据处理方法及服务器
KR20190094096A (ko) 문서 정보 입력 방법, 장치, 서버, 그리고 저장 매체
CN110442466B (zh) 防止请求重复访问方法、装置、计算机设备及存储介质
CN112732367A (zh) 事件流程的处理方法、装置、设备及可读存储介质
CN109298928B (zh) 业务的处理方法及装置
CN111767126A (zh) 分布式批量处理的系统和方法
CN110928941A (zh) 一种数据分片抽取方法及装置
CN113138772B (zh) 数据处理平台的构建方法、装置、电子设备和存储介质
CN113722295A (zh) 数据处理方法及装置
CN110969430B (zh) 可疑用户的识别方法、装置、计算机设备和存储介质
CN110209512B (zh) 基于多数据源的数据核对方法及装置
CN114936187A (zh) 数据文件的处理方法、装置、设备及存储介质
CN116418829A (zh) 系统的处理方法、装置、设备和存储介质
CN113761866A (zh) 事件处理方法、装置、服务器及介质
CN112181640A (zh) 一种任务处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant