CN110908972B - 一种日志数据预处理方法、装置、电子设备和存储介质 - Google Patents

一种日志数据预处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110908972B
CN110908972B CN201911132134.8A CN201911132134A CN110908972B CN 110908972 B CN110908972 B CN 110908972B CN 201911132134 A CN201911132134 A CN 201911132134A CN 110908972 B CN110908972 B CN 110908972B
Authority
CN
China
Prior art keywords
data
log data
row
memory
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911132134.8A
Other languages
English (en)
Other versions
CN110908972A (zh
Inventor
姜昆
尹子杰
王可攀
彭喜喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Addnewer Corp
Original Assignee
Addnewer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Addnewer Corp filed Critical Addnewer Corp
Priority to CN201911132134.8A priority Critical patent/CN110908972B/zh
Publication of CN110908972A publication Critical patent/CN110908972A/zh
Application granted granted Critical
Publication of CN110908972B publication Critical patent/CN110908972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例涉及一种日志数据预处理方法、装置、电子设备和存储介质,包括:依次遍历日志数据的列表;确定日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;若确定某一行的日志数据在存储器数据结构中不存在;将行的日志数据的数据键添加至存储器数据结构中,所述数据键对应的数字值计为一;若确定某一行的日志数据在所述存储器数据结构中已存在;则把所述数据键对应的数字值加一,本申请实施例中通过引进存储器数据结构对日志数据进行预处理,提前将相同的行日志数据进行统计,提升了数据处理的效率,优化了日志数据的处理过程,减少了日志数据处理过程中依次处理行数据时资源的占用率。

Description

一种日志数据预处理方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及日志数据处理技术领域,具体涉及一种日志预处理方法、装置、电子设备和存储介质。
背景技术
广告业务中会产生海量日志数据,如何能将这些进行数据高效快速的统计,生成数据报表展现给用户是个很大的挑战。在进行数据统计过程中,由于数据量巨大,导致统计时间长,加大报表延时,并过多占用系统资源,使服务器处理效率和并发性降低。
发明人在实现本发明的过程中发现:目前的提高数据处理速度的方案主要是投入更多的服务器资源,以提高数据处理和查询的速度,减少客户等待时间,但是上述方法投入服务器资源大,并没有优化数据处理的过程,导致使部分投入的服务器资源得不到充分的利用,使数据处理效率不能达到预期的效果。
发明内容
本发明的至少一个实施例提供了一种日志数据预处理方法、装置、电子设备和存储介质,解决了数据处理效率不能达到预期效果的问题。
第一方面,本发明实施例提出了一种日志数据预处理方法,包括:
依次遍历日志数据的列表;
确定日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;
若确定某一行的日志数据在存储器数据结构中不存在;
将行的日志数据的数据键添加至存储器数据结构中,数据键对应的数字值计为一;
若确定某一行的日志数据在存储器数据结构中已存在;则把数据键对应的数字值加一。
在一些实施例中,上述日志数据预处理方法中,依次遍历日志数据的每一行之前,还包括:将日志数据的列表中的每一行的日志数据进行排序。
在一些实施例中,上述日志数据预处理方法中,将日志数据的列表中的每一行的日志数据进行排序,包括:
以数字键相同的行相邻为原则将日志数据的列表中的每一行的日志数据进行排序。
在一些实施例中,上述日志数据预处理方法还包括:若确定某一行的日志数据与对应的下一行的日志数据不相同,将行的日志数据对应的存储器数据结构中的数据键和数据键对应的数字值保存至目标表中,然后将存储器数据结构中的数据键和数据键对应的数字值删除。
在一些实施例中,上述日志数据预处理方法中的数字值位于数字键的后面。
第二方面,本发明实施例还提供了一种日志数据预处理装置,包括:
遍历模块:用于依次遍历日志数据的列表;
确定模块:用于确定日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;
计数模块:用于若确定某一行的日志数据在存储器数据结构中不存在;
将行的日志数据的数据键添加至存储器数据结构中,数据键对应的数字值计为一;
加法模块:用于若确定某一行的日志数据在存储器数据结构中已存在;则把数据键对应的数字值加一。
在一些实施例中,上述日志数据预处理装置还包括排序模块:用于依次遍历日志数据的每一行之前,将日志数据的列表中的每一行的日志数据进行排序。
在一些实施例中,上述预处理装置中将日志数据的列表中的每一行的日志数据进行排序,包括:
以数字键相同的行相邻为原则将日志数据的列表中的每一行的日志数据进行排序。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
处理器通过调用存储器存储的程序或指令,用于执行上述日志预处理方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述日志预处理方法的步骤。
本发明实施例的优点在于:依次遍历日志数据的列表;确定日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;若确定某一行的日志数据在存储器数据结构中不存在;将行的日志数据的数据键添加至存储器数据结构中,所述数据键对应的数字值计为一;若确定某一行的日志数据在所述存储器数据结构中已存在;则把所述数据键对应的数字值加一,通过引进存储器数据结构对日志数据进行预处理,提前将相同的行日志数据进行统计,提升了数据处理的效率,优化了日志数据的处理过程,减少了日志数据处理过程中依次处理行数据时资源的占用率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种日志数据预处理方法的流程示意图之一;
图2是本发明实施例提供的一种日志数据预处理方法的流程示意图之二;
图3是本发明实施例提供的一种日志数据预处理装置的结构示意图;
图4为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1是本发明实施例提供的一种日志数据预处理方法的流程示意图之一。
图2是本发明实施例提供的一种日志数据预处理方法的流程示意图之二。
第一方面,结合图1和图2,本发明实施例提出了一种日志数据预处理方法,包括:
S101:依次遍历日志数据的列表;
S102:确定日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;
S103:若确定某一行的日志数据在存储器数据结构中不存在,将行的日志数据的数据键添加至存储器数据结构中,数据键对应的数字值计为一;
S104:若确定某一行的日志数据在存储器数据结构中已存在;则把数据键对应的数字值加一。
具体的,本申请实施例中以如下列表中的日志数据为例进行说明:
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111
Push 2019-01-01 CD1C2379F453F2F44696501D3FCB271D 120.23.177.242
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111
Push 2019-01-01 C188FE01AFA004E33D0E26064AC05428 112.28.166.121
Push 2019-01-01 CD1C2379F453F2F44696501D3FCB271D 120.23.177.242
Push 2019-01-01 C188FE01AFA004E33D0E26064AC05428 112.28.166.121
本申请实施例中需要对上述日志数据列表中的数据聚合count操作,以生成新的数据结果用于后续数据处理,经过处理后的结果集样例如下:
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111 2
Push 2019-01-01 CD1C2379F453F2F44696501D3FCB271D 120.23.177.242 2
Push 2019-01-01 C188FE01AFA004E33D0E26064AC05428 112.28.166.121 2
最后一列为count结果,即数字键,表示与这行的每一列数据完全相同的日志一共有多少行,例如和第一行全部相同的数据行一共有2个。
为了取得数字值结果,本申请实施例在存储器数据结构中创建并维持一个如下的数据结构:
Figure BDA0002278617030000061
上面存储器数据结构中,以行作为数据键,后面数字为数字值,例如:
键:push,2019-01-01,C3753CAC7429786300962236BAD7B409,112.64.61.111
数字值:2
初始时,存储器数据结构是空的,如下:
本申请实施例从从第一行开始遍历log列表,一直到最后一行。
步骤如下:
第一步,处理第一行,将第一行的行数据作为数据键,然后确定行数据是否在存储器数据结构中存在,如果不存在,则将这行添加到存储器数据结构中,并将后面的数字值记为1。如果这行数据已经在存储器数据结构中了,就将存储器数据结构中的这行数据后面的数字值增加1,例如原来是1,再增加1就是2,将新的数字值2记到这行后面。
初始时,存储器数据结构为空,里面也不存在第一行的数据,所以将第一行的数据增加到存储器数据结构中,并将结果数字记为1。
如下:
第二步,处理第二行数据,第二行的数据处理操作跟第一步操作一样,到存储器数据结构中确定是否存在第二行的数据,若不存在,将第二行的行数据也添加到存储器数据结构中,如下:
Figure BDA0002278617030000071
第三步,处理第三行,方法和第一步一样,确定第三行的数据是否在存储器数据结构中存在,若存储器数据结构中已存在这行的数据,则直接将这行的数据后面的数据加1,得到数字值2,然后将数字值2存入对应行后面。如下:
Figure BDA0002278617030000072
第四步,依次对每一行都进行上述的操作,一直到数据的最后一行结束,最终得到以下的数据结构:
Figure BDA0002278617030000073
第五步,将最终得到的存储器数据结构中的结果保存,最终得到下表:
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111 2
Push 2019-01-01 CD1C2379F453F2F44696501D3FCB271D 120.23.177.242 2
Push 2019-01-01 C188FE01AFA004E33D0E26064AC05428 112.28.166.121 2
在一些实施例中,上述日志数据预处理方法中,S101依次遍历日志数据的每一行之前,还包括:将日志数据的列表中的每一行的日志数据进行排序。
在一些实施例中,上述日志数据预处理方法中,将日志数据的列表中的每一行的日志数据进行排序,包括:
以数字键相同的行相邻为原则将日志数据的列表中的每一行的日志数据进行排序。
在一些实施例中,上述日志数据预处理方法还包括:若确定某一行的日志数据与对应的下一行的日志数据不相同,将行的日志数据对应的存储器数据结构中的数据键和数据键对应的数字值保存至目标表中,然后将存储器数据结构中的数据键和数据键对应的数字值删除。
具体的,本申请实施例中在数据处理前,先对数据以数字键相同的行相邻为原则排序,得到排序后的数据如下:
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111
Push 2019-01-01 C188FE01AFA004E33D0E26064AC05428 112.28.166.121
Push 2019-01-01 C188FE01AFA004E33D0E26064AC05428 112.28.166.121
Push 2019-01-01 CD1C2379F453F2F44696501D3FCB271D 120.23.177.242
Push 2019-01-01 CD1C2379F453F2F44696501D3FCB271D 120.23.177.242
初始状态,存储器数据结构为空结构,如下:
Figure BDA0002278617030000091
最终数据结果表也为空,如下:
当日志数据经过处理排序之后,本申请实施例中优化了数据处理的步骤,将存储器数据结构的数据的大小降到最低,因为日志数据是经过排序的,所有相同的行都是相邻的,如果某行数据相邻的下一行跟自身行不同,则说明本行数据是自身相同行的最后一行,使得中间结果数据结构最少只保留1个键就能完成对数据结果统计。
第二步,处理第二行数据,将第二行数据与数据结构中唯一的一条跟比较。
如果相同,则将存储器数据结构中唯一的一个数字键,后面的结果加1,例如原来是1,再增加1就是2,将新的结果2记到这行后面。
如果不相同,则说明这条数据已经是自身相同行数据的最后一条,以后不会出现,自身相同行的所有数据已经统计完毕,可以将结果从存储器数据结构中保存到最终目标表,然后将存储器数据结构中的这条数据删除,此时存储器数据结构为空。然后按照第一步方法处理,将第二行的数据作为数据键,数字值为1,存入存储器数据结构。
此时处理第二行,对比的结果是相同,存储器数据结构的数字值2
存储器数据结构中只保留与第一行相同的结果,如下:
Figure BDA0002278617030000092
最终目标表结果是空,如下:
第三步,处理第三行,方法和第二步一样,将第三行的数据与存储器数据结构中唯一的一条跟比较。
第三行比较的结果是不相同,按照第二步的方法,不相同则说明,与第一行相同的所有行都已经统计完毕,将结果从存储器数据结构的唯一一条条数据,也就是第一行的行日志数据保存到最终目标表,然后将存储器数据结构中的数据删除。
此时存储器数据结构为空。然后按照第一步方法处理,将第三行的数据作为数据键,数字值为1,存入存储器数据结构。
此时存储器数据结构中,如下:
Figure BDA0002278617030000101
最终目标表存放从存储器数据结构中保存下来的第一行最终数据结果,如下:
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111 2
第四步,按照上面的处理流程一直按顺序处理到最后一行。
最后一行处理完成,此时,存储器数据结构和最终目标表中的数据如下:
数据结构中,如下:
Figure BDA0002278617030000102
最终目标表存放从存储器数据结构中保存下来的第一行最终数据结果,如下:
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111 2
Push 2019-01-01 C188FE01AFA004E33D0E26064AC05428 112.28.166.121 2
第五步,将存储器数据结构中的数据(1条)存入最终目标表,则最终目标表中将得到所有的结果,并将存储器数据结构中的数据删除。
此时存储器数据结构为空,如下:
Figure BDA0002278617030000111
最终得到下表:
Push 2019-01-01 C3753CAC7429786300962236BAD7B409 112.64.61.111 2
Push 2019-01-01 C188FE01AFA004E33D0E26064AC05428 112.28.166.121 2
Push 2019-01-01 CD1C2379F453F2F44696501D3FCB271D 120.23.177.242 2
进一步的,通过上述排序的处理过程,存储器数据结构始终保持很小的资源消耗即只有一条日志数据,有效的减少了服务器资源的占用。并且,在日志数据处理的过程中就能得到部分最终结果。
图3是本发明实施例提供的一种日志数据预处理装置的结构示意图。
第二方面,结合图3,本发明实施例还提供了一种日志数据预处理装置,包括:
遍历模块201:用于依次遍历日志数据的列表;
确定模块202:用于确定日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;
计数模块203:用于若确定某一行的日志数据在存储器数据结构中不存在;
将行的日志数据的数据键添加至存储器数据结构中,数据键对应的数字值计为一;
加法模块204:用于若确定某一行的日志数据在存储器数据结构中已存在;则把数据键对应的数字值加一。
在一些实施例中,上述日志数据预处理装置还包括排序模块:用于依次遍历日志数据的每一行之前,将日志数据的列表中的每一行的日志数据进行排序。
在一些实施例中,上述预处理装置中将日志数据的列表中的每一行的日志数据进行排序,包括:
以数字键相同的行相邻为原则将日志数据的列表中的每一行的日志数据进行排序。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
处理器通过调用存储器存储的程序或指令,用于执行上述日志预处理方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述日志预处理方法的步骤。
图4为本发明实施例提供的电子设备的硬件结构示意图,如图4所示,该电子设备可以包括手机、PAD的智能终端,该电子设备包括:
一个或多个处理器301,图4中以一个处理器301为例;
存储器302;
所述电子设备还可以包括:输入装置303和输出装置304。
所述电子设备中的处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器302作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的应用程序的界面显示方法对应的程序指令/模块(例如,附图2所示的遍历模块201、确定模块202、计数模块203和加法模块204)。处理器301通过运行存储在存储器302中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的界面显示方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。
本发明实施例还提供一种包含计算机可读存储介质,该计算机可读存储介质存储程序或指令,该程序或指令使计算机执行行时用于执行一种日志数据的预处理方法,该方法包括:
依次遍历日志数据的列表;
确定日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;
若确定某一行的日志数据在存储器数据结构中不存在;
将行的日志数据的数据键添加至存储器数据结构中,数据键对应的数字值计为一;
若确定某一行的日志数据在存储器数据结构中已存在;则把数据键对应的数字值加一。
可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本发明任意实施例所提供的日志数据的预处理方法的技术方案。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例所述的方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (5)

1.一种日志数据预处理方法,其特征在于,包括:
以数字键相同的行相邻为原则将日志数据的列表中的每一行的日志数据进行排序;
依次遍历所述日志数据的列表;
确定所述日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;
若确定某一行的日志数据在所述存储器数据结构中不存在;
将所述行的日志数据的数据键添加至所述存储器数据结构中,所述数据键对应的数字值计为一;
若确定某一行的日志数据在所述存储器数据结构中已存在;则把所述数据键对应的数字值加一;
若确定所述某一行的日志数据与对应的下一行的日志数据不相同,将所述行的日志数据对应的存储器数据结构中的数据键和所述数据键对应的数字值保存至目标表中,然后将所述存储器数据结构中的数据键和所述数据键对应的数字值删除。
2.根据权利要求1所述的数据预处理方法,其特征在于,所述数字值位于所述数字键的后面。
3.一种日志数据预处理装置,其特征在于,包括:
排序模块:用于以数字键相同的行相邻为原则将日志数据的列表中的每一行的日志数据进行排序;
遍历模块:用于依次遍历所述日志数据的列表;
确定模块:用于确定所述日志数据的列表中每一行的日志数据是否在存储器数据结构中存在;
计数模块:用于若确定某一行的日志数据在所述存储器数据结构中不存在;
将所述行的日志数据的数据键添加至所述存储器数据结构中,所述数据键对应的数字值计为一;
加法模块:用于若确定某一行的日志数据在所述存储器数据结构中已存在;则把所述数据键对应的数字值加一;
若确定所述某一行的日志数据与对应的下一行的日志数据不相同,将所述行的日志数据对应的存储器数据结构中的数据键和所述数据键对应的数字值保存至目标表中,然后将所述存储器数据结构中的数据键和所述数据键对应的数字值删除。
4.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至2任一项所述方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至2任一项所述方法的步骤。
CN201911132134.8A 2019-11-19 2019-11-19 一种日志数据预处理方法、装置、电子设备和存储介质 Active CN110908972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911132134.8A CN110908972B (zh) 2019-11-19 2019-11-19 一种日志数据预处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911132134.8A CN110908972B (zh) 2019-11-19 2019-11-19 一种日志数据预处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110908972A CN110908972A (zh) 2020-03-24
CN110908972B true CN110908972B (zh) 2022-09-02

Family

ID=69817929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911132134.8A Active CN110908972B (zh) 2019-11-19 2019-11-19 一种日志数据预处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110908972B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001263275A1 (en) * 2000-05-22 2002-02-21 Excalibur Ip, Llc Method and apparatus for identifying related searches in a database search system
CN103793293A (zh) * 2012-11-03 2014-05-14 上海欧朋软件有限公司 归档数据文件增量备份方法
CN107301203A (zh) * 2017-05-27 2017-10-27 北京思特奇信息技术股份有限公司 一种海量数据的比对方法及系统
JP2018060488A (ja) * 2016-09-30 2018-04-12 剛一 尾和 特許文献集合のスクリーニング方法
CN108628540A (zh) * 2017-03-22 2018-10-09 深圳市优朋普乐传媒发展有限公司 数据存储装置及方法
CN109408661A (zh) * 2018-10-12 2019-03-01 上海哔哩哔哩科技有限公司 基于大数据的歌曲收听记录统计方法、装置和存储介质
CN110362765A (zh) * 2018-04-02 2019-10-22 北京华泰德丰技术有限公司 信息显示方法、装置及计算机可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6876997B1 (en) * 2000-05-22 2005-04-05 Overture Services, Inc. Method and apparatus for indentifying related searches in a database search system
CN101950293B (zh) * 2010-08-11 2012-11-21 东软集团股份有限公司 日志萃取方法及装置
US8892586B2 (en) * 2011-12-23 2014-11-18 Sap Ag Accelerated query operators for high-speed, in-memory online analytical processing queries and operations
CN102567528B (zh) * 2011-12-29 2014-01-29 东软集团股份有限公司 一种读取海量数据的方法及装置
CN104424339B (zh) * 2013-09-11 2019-02-22 腾讯科技(深圳)有限公司 数据分析的方法、装置及系统
CN104836701B (zh) * 2015-05-04 2019-03-15 北京京东尚科信息技术有限公司 订单监控方法及装置
CN106777049B (zh) * 2016-12-09 2021-01-01 武汉斗鱼网络科技有限公司 一种避免重复日志输出的处理方法及系统
JP2019057172A (ja) * 2017-09-21 2019-04-11 東芝メモリ株式会社 メモリシステムおよび制御方法
CN108804661B (zh) * 2018-06-06 2023-04-28 湘潭大学 一种云存储系统中基于模糊聚类的重复数据删除方法
CN110427599A (zh) * 2019-06-06 2019-11-08 北京辰森世纪科技股份有限公司 报表小计的统计方法及装置、存储介质、电子装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001263275A1 (en) * 2000-05-22 2002-02-21 Excalibur Ip, Llc Method and apparatus for identifying related searches in a database search system
CN103793293A (zh) * 2012-11-03 2014-05-14 上海欧朋软件有限公司 归档数据文件增量备份方法
JP2018060488A (ja) * 2016-09-30 2018-04-12 剛一 尾和 特許文献集合のスクリーニング方法
CN108628540A (zh) * 2017-03-22 2018-10-09 深圳市优朋普乐传媒发展有限公司 数据存储装置及方法
CN107301203A (zh) * 2017-05-27 2017-10-27 北京思特奇信息技术股份有限公司 一种海量数据的比对方法及系统
CN110362765A (zh) * 2018-04-02 2019-10-22 北京华泰德丰技术有限公司 信息显示方法、装置及计算机可读存储介质
CN109408661A (zh) * 2018-10-12 2019-03-01 上海哔哩哔哩科技有限公司 基于大数据的歌曲收听记录统计方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Towards just-in-time suggestions for log changes;Heng Li等;《Empirical Software Engineering》;20161024;第22卷;1831-1865页 *
基于文本策略和SMCS的海量日志分析方法;张俊峰等;《计算机工程》;20120205;第38卷(第3期);43-45页 *

Also Published As

Publication number Publication date
CN110908972A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN105824813B (zh) 一种挖掘核心用户的方法及装置
CN110941598A (zh) 一种数据去重方法、装置、终端及存储介质
CN102724219A (zh) 网络数据的计算机处理方法及系统
CN108520471B (zh) 重叠社区发现方法、装置、设备及存储介质
CN108536544B (zh) 基于数据库消息队列的消费方法、装置、服务器和介质
CN108549688B (zh) 一种数据操作的优化方法、装置、设备和存储介质
CN108664492B (zh) 一种向用户推送内容的方法、装置、电子设备和存储介质
CN102915344A (zh) 一种sql语句处理方法及装置
CN117633116A (zh) 数据同步方法、装置、电子设备及存储介质
CN110908972B (zh) 一种日志数据预处理方法、装置、电子设备和存储介质
CN113904943A (zh) 账号检测方法、装置、电子设备和存储介质
CN107329832B (zh) 一种数据接收方法及装置
CN108243015B (zh) 一种话单信息提取方法、话单服务器及网管服务器
CN108572949A (zh) 一种房屋信息搜索处理方法及装置
CN112433757A (zh) 一种确定接口调用关系的方法和装置
CN115809265A (zh) 一种基于机器人流程自动化的风险客户筛查方法及装置
CN113590322A (zh) 一种数据处理方法和装置
CN113159178A (zh) 问题扩展方法、装置、服务器及介质
CN112416946A (zh) 播放内容管理方法、装置、设备和介质
CN111737036A (zh) 一种基于机器人流程自动化的业务处理方法及装置
CN103107936B (zh) 一种发送信息的方法及装置
CN112667627B (zh) 一种数据处理方法及装置
CN110597854A (zh) 基于fe工业互联网的数据分类方法及相关产品
CN111026835A (zh) 一种聊天主题检测方法、装置、存储介质
CN115599838B (zh) 基于人工智能的数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant