CN109902073A - 日志处理方法、装置、计算机设备和计算机可读存储介质 - Google Patents

日志处理方法、装置、计算机设备和计算机可读存储介质 Download PDF

Info

Publication number
CN109902073A
CN109902073A CN201910267995.0A CN201910267995A CN109902073A CN 109902073 A CN109902073 A CN 109902073A CN 201910267995 A CN201910267995 A CN 201910267995A CN 109902073 A CN109902073 A CN 109902073A
Authority
CN
China
Prior art keywords
log
processed
url
label
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910267995.0A
Other languages
English (en)
Other versions
CN109902073B (zh
Inventor
聂君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qianxin Technology Co Ltd
Original Assignee
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qianxin Technology Co Ltd filed Critical Beijing Qianxin Technology Co Ltd
Priority to CN201910267995.0A priority Critical patent/CN109902073B/zh
Publication of CN109902073A publication Critical patent/CN109902073A/zh
Application granted granted Critical
Publication of CN109902073B publication Critical patent/CN109902073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种日志处理方法、装置、计算机设备和计算机可读存储介质。该方法包括:采集待处理日志;将待处理日志与主正则表达式进行匹配;将日志主体内容与若干从正则表达式进行匹配,得到多个字段;将URL进行拆解,得到URL的各个组成部分;将文件名部分进行拆解,得到文件名称和文件后缀;根据文件名称确定待处理日志的标签;根据文件后缀确定待处理日志对应的网页访问类型;将各个字段、标签和网页访问类型映射到数据库,形成日志数据记录。通过本发明,能够减小后续日志分析的压力,形成日志之间基于标签、网页访问类型的关联关系。

Description

日志处理方法、装置、计算机设备和计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种日志处理方法、装置、计算机设备和计算机可读存储介质。
背景技术
服务器在运行过程中,会产生各种各样的日志,具体包括:运行日志,例如,当客户端发出请求后,服务端进行了正常处理,并最后将结果响应给客户端,比如“操作成功”,运行日志记录客户端的各类行为,为以后的系统逻辑错误提供依据;包括异常日志,例如客户端的操作请求不满足条件,比如,“参数不足”,或“没有相关权限”,这属于正常的异常情况,异常日志记录什么时间、什么人、什么条件、操作了什么内容,运行日志为解答客户疑问提供帮助;错误日志,例如当系统在测试阶段没有发现的各种bug,比如,“空指针错误”,“堆栈溢出”,“下标越界”等等,错误日志除了记录什么时间、什么人、什么条件、操作了什么内容外,还需要记录exception的详细信息,甚至代码位置等。
通过对日志内容的分析,能够了解到服务器的运行状态、安全状态等相关信息。但是,现有技术中日志通常单纯的存储为源始数据,日志之间也不具备关联关系,当日志内容较多,数据量庞大时,日志分析处理器的分析压力非常大。
因此,提供一种日志处理方法、装置、计算机设备和计算机可读存储介质,以将日志的袁术数据重新表达,从而达到减小后续日志分析的压力的目的,成为本领域需要解决的技术问题。
发明内容
本发明的目的是提供一种日志处理方法、装置、计算机设备和计算机可读存储介质,用于解决现有技术中的技术问题。
为实现上述目的,本发明提供了一种日志处理方法。
该日志处理方法包括:采集待处理日志;将待处理日志与主正则表达式进行匹配,得到待处理日志的采集时间、采集设备标识信息、产生待处理日志的服务端口号、待处理日志的日志类型以及待处理日志的日志主体内容;将日志主体内容与若干从正则表达式进行匹配,得到多个字段,其中,字段包括URL;将URL进行拆解,得到URL的各个组成部分,其中,组成部分包括协议部分、域名部分和文件名部分;将文件名部分进行拆解,得到文件名称和文件后缀;根据文件名称确定待处理日志的标签;根据文件后缀确定待处理日志对应的网页访问类型;将各个字段、标签和网页访问类型映射到数据库,形成日志数据记录。
进一步地,采集待处理日志的步骤包括:调用syslog函数采集日志;在采集到的日志中获取达预定日志种类的日志,以得到待处理日志。
进一步地,采集设备标识信息为采集设备的IP地址,syslog函数被配置为在采集日志之后,将日志中采集设备的主机名替换为采集设备的IP地址。
进一步地,日志处理方法还包括:根据标签、网页访问类型、URL中是否包括统一码、URL中是否包含“Case When”、URL中是否包含“Sleep和数字”和URL中是否包含符号“--”中的任意一个或多个条件对日志数据记录进行分类。
进一步地,字段包括HTTP请求的响应码,日志处理方法还包括:根据响应码对日志数据记录进行分类。
进一步地,字段包括表征待处理日志对应的操作行为信息,日志处理方法还包括:根据操作行为信息对日志数据记录进行分类。
进一步地,标签包括表征文件名称仅包括数字的标签和表征文件名称包括连续相同字母的标签。网页访问类型包括动态网页和静态网页。
为实现上述目的,本发明提供了一种日志处理装置。
该日志处理装置包括:采集模块,用于采集待处理日志;第一匹配模块,用于将待处理日志与主正则表达式进行匹配,得到待处理日志的采集时间、采集设备标识信息、产生待处理日志的服务端口号、待处理日志的日志类型以及待处理日志的日志主体内容;第二匹配模块,用于将日志主体内容与若干从正则表达式进行匹配,得到多个字段,其中,字段包括URL;第一拆解模块,用于将URL进行拆解,得到URL的各个组成部分,其中,组成部分包括协议部分、域名部分和文件名部分;第二拆解模块,用于将文件名部分进行拆解,得到文件名称和文件后缀;第一确定模块,用于根据文件名称确定待处理日志的标签;第二确定模块,用于根据文件后缀确定待处理日志对应的网页访问类型;映射模块,用于将各个字段、标签和网页访问类型映射到数据库,形成日志数据记录。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的日志处理方法、装置、计算机设备和计算机可读存储介质,形成的日志数据记录中,主体内容以字段的形式体现,可直接用于后续对日志的分析中,此外,通过文件名称确定的日志标签,能够区分日志相关操作行为在后续分析中需要被关注的程度,同时,后续对日志的分析过程可直接基于确定出的网页访问类型进行过滤,无需消耗相关的分析能力。形成的用于存储日志数据记录的数据库中,可以标签、网页访问类型或某一个字段对日数的主体内容进行分类获取,进一步有利于后续日志分析。
附图说明
图1为本发明实施例一提供的日志处理方法的流程图;
图2为本发明实施例二提供的日志处理装置的框图;
图3为本发明实施例三提供的计算机设备的硬件结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种日志处理方法,通过该方法,在采集到待处理日志后,首先将待处理日志与主正则表达式进行匹配,将待处理日志的基本描述信息(包括采集时间、采集设备标识信息、产生所述待处理日志的服务端口号和所述待处理日志的日志类型)和日志主体内容进行拆分,然后再对日志主体内容与若干从正则表达式进行匹配,将日志主体内容拆分为多个字段。针对拆分后字段中的URL,进一步进行拆解,拆解出URL的各个组成部分,然后再针对拆件后组成部分中的文件名部分,再进行拆解,拆解出文件名称和文件后缀,对于文件名称,根据文件名称确定待处理日志的标签,对于文件名后缀,根据文件名后缀确定待处理日至对应的网页访问类型,最后将拆分的字段、形成的标签和网页访问类型均映射到数据库,形成一条对应待处理日志的日志数据记录。从而,一方面,将日志处理为字段,可直接用于后续对日志的分析中,另一方面,通过文件名称确定的日志标签,能够区分日志相关操作行为在后续分析中需要被关注的程度,同时,后续对日志的分析过程可直接基于确定出的网页访问类型进行过滤,无需消耗相关的分析能力。具体地,图1为本发明实施例一提供的日志处理方法的流程图,如图1所示,该实施例提供的日志处理方法包括如下的步骤S101至步骤S108。
步骤S101:采集待处理日志。
在日志的数据源,设置数据采集工具,对日志进行采集,以得到待处理日志。在该步骤中,可针对后续分析需求采用特定种类的日志作为待处理日志,例如,需要后续UseCase分析的日志只需httplog和tcplog两类日志,因此,在该步骤中,只需要采集这两类日志。
可选地,该步骤具体可通过如下流程实现:
调用syslog函数采集日志;在采集到的日志中获取达预定日志种类的日志,以得到待处理日志。
具体地,在采集到的日志中获取达预定日志种类的日志时,可通过正则表达式形成解析器以实现日志种类的获取,例如,设置如下的正则表达式,实现对httplog和tcplog两类日志的采集:
line.include.regex=\\S+\\s+\\d+\\s+\\d+\:\\d+\:\\d+\\s+\\d+\\.\\d+\\.\\d+\\.\\d+\\s+haproxy\\[[^\\]]+\\]\:\\s+(httplog|tcplog)\\s+.*
步骤S102:将待处理日志与主正则表达式进行匹配,得到待处理日志的采集时间、采集设备标识信息、产生待处理日志的服务端口号、待处理日志的日志类型以及待处理日志的日志主体内容。
获取到待处理日志后,与主正则表达式进行匹配,例如,一种主正则表达式可设置如下:
regex=(\\S+\\s+\\d+\\s+\\d+\:\\d+\:\\d+)\\s+(\\d+\\.\\d+\\.\\d+\\.\\d+)\\s+haproxy\\[([^\\]]+)\\]\:\\s+(\\S+)\\s+(.*)
可将待处理日志分为五个部分,具体包括采集时间、采集设备标识信息、产生待处理日志的服务端口号、待处理日志的日志类型以及待处理日志的日志主体内容,对于调用syslog函数采集日志的情况,上述五个部分分别依次对应Syslog发送时间、Syslog发送者标识、日志来源的pid、日志类型(httplog或tcplog)以及日志的主体内容。
其中,对于调用syslog函数采集日志的情况,由于syslog函数的报文默认写入的Syslog送者是主机名,而当服务器主机名定义不规范时,仅根据主机名很难确定设备的信息,因此,syslog函数被配置为在采集日志之后,将日志中采集设备的主机名替换为采集设备的IP地址,也即采集设备标识信息为采集设备的IP地址,从而能够准确定位到设备,确定出设备的信息。
步骤S103:将日志主体内容与若干从正则表达式进行匹配,得到多个字段。
其中,在得到的字段中,包括内容为URL的字段。例如,一种内容为URL的字段如下所示:
URL=https://www.somesite.com/securitylog/encyclopedia/event.aspx?eventid=1104
步骤S104:将URL进行拆解,得到URL的各个组成部分。
一个完整的URL,包括以下几个部分:
(1)协议部分:对于上述URL,协议部分为“http:”,这代表网页使用的是HTTP协议。在Internet中可以使用多种协议,如HTTP,FTP等等本例中使用的是HTTP协议。在"HTTP"后面的“//”为分隔符。
(2)域名部分:该URL的域名部分为“www.somesite.com”。一个URL中,也可以使用IP地址作为域名使用。
(3)端口部分:跟在域名后面的是端口,域名和端口之间使用“:”作为分隔符。端口不是一个URL必须的部分,如果省略端口部分,将采用默认端口80,上述URL为省略端口部分的URL。
(4)虚拟目录部分:从域名后的第一个“/”开始到最后一个“/”为止,是虚拟目录部分。虚拟目录也不是一个URL必须的部分。本例中的虚拟目录是“/securitylog/encyclopedia/”
(5)文件名部分:从域名后的最后一个“/”开始到“?”为止,是文件名部分,如果没有“?”,则是从域名后的最后一个“/”开始到“#”为止,是文件部分,如果没有“?”和“#”,那么从域名后的最后一个“/”开始到结束,都是文件名部分。本例中的文件名是“event.aspx”。文件名部分也不是一个URL必须的部分,如果省略该部分,则使用默认的文件名
(6)锚部分:从“#”开始到最后,都是锚部分。锚部分也不是一个URL必须的部分
(7)参数部分:从“?”开始到“#”为止之间的部分为参数部分,又称搜索部分、查询部分。本例中的参数部分为“eventid=1104”。参数可以允许有多个参数,参数与参数之间用“&”作为分隔符。
设置多个解析器,将URL进行拆解,得到URL的各个组成部分。由于可通过资源扩充实现解析器的增加,因此,只需增加正则表达式即可实现对URL的拆解。
步骤S105:将文件名部分进行拆解,得到文件名称和文件后缀。
针对上述例子,将文件名部分进行拆解后,得到的文件名称为event,得到的文件后缀为.aspx。
步骤S106:根据文件名称确定待处理日志的标签。
具体地,可对文件名的模式进行判断,分别对重复的字符、纯数字打上相应的标签,利于后续UseCase定制,例如对上述例子中event的字符模式进行判断,直接给出模式结果,又如,设置标签包括表征文件名称仅包括数字的标签和表征文件名称包括连续相同字母的标签,具体地,例如,当文件名是6666时,则设置digital_only的标签,当文件名是aaaa时,则设置repeat_string的标签,从而后续分析服务器可以根据相应的标签提升相关的事件严重度,并重点关注检查。
步骤S107:根据文件后缀确定待处理日志对应的网页访问类型。
网页访问类型包括动态网页和静态网页,这样基于相应的后缀名,后续分析服务器比较好过滤出哪些支持动态网页、哪些支持静态网页,无需消耗相关的分析能力。
步骤S108:将各个字段、标签和网页访问类型映射到数据库,形成日志数据记录。
具体地,可在数据库设置多个日志数据记录,每个日志数据记录对应一个待处理日志,每个日志数据记录中包括字段记录,将待处理日志对应的各个字段相应写入至字段记录;每个日志数据记录中还包括标签记录,将待处理日志对应的标签写入标签记录;每个日志数据记录中还包括网页访问类型记录,将待处理日志对应的网页访问类型写入网页访问类型记录。
采用该实施例提供的日志处理方法,形成的日志数据记录中,主体内容以字段的形式体现,可直接用于后续对日志的分析中,此外,通过文件名称确定的日志标签,能够区分日志相关操作行为在后续分析中需要被关注的程度,同时,后续对日志的分析过程可直接基于确定出的网页访问类型进行过滤,无需消耗相关的分析能力。形成的用于存储日志数据记录的数据库中,可以标签、网页访问类型或某一个字段对日数的主体内容进行分类获取,进一步有利于后续日志分析。
可选地,日志处理方法还包括:根据标签、网页访问类型、URL中是否包括统一码、URL中是否包含“Case When”、URL中是否包含“Sleep和数字”和URL中是否包含符号“--”中的任意一个或多个条件对日志数据记录进行分类。可选地,字段包括HTTP请求的响应码,日志处理方法还包括:根据响应码对日志数据记录进行分类。可选地,字段包括表征待处理日志对应的操作行为信息,日志处理方法还包括:根据操作行为信息对日志数据记录进行分类。
通过对日志数据记录的分类,能够形成基于日志种类、行为、结果的分类信息,后续的Use Case可以基于这个分类信息编写,这样可以使Use Case与具体设备日志解耦。
实施例二
对应于上述实施例一,本发明实施例二提供了一种日志处理装置,相关的技术效果在该出不再赘述,具体可对应参照上述实施例一。具体地,图2为本发明实施例二提供的日志处理装置的框图,如图2所示,该日志处理装置包括:采集模块201、第一匹配模块202、第二匹配模块203、第一拆解模块204、第二拆解模块205、第一确定模块206、第二确定模块207和映射模块208。
其中,采集模块201用于采集待处理日志;第一匹配模块202用于将待处理日志与主正则表达式进行匹配,得到待处理日志的采集时间、采集设备标识信息、产生待处理日志的服务端口号、待处理日志的日志类型以及待处理日志的日志主体内容;第二匹配模块203用于将日志主体内容与若干从正则表达式进行匹配,得到多个字段,其中,字段包括URL;第一拆解模块204用于将URL进行拆解,得到URL的各个组成部分,其中,组成部分包括协议部分、域名部分和文件名部分;第二拆解模块205用于将文件名部分进行拆解,得到文件名称和文件后缀;第一确定模块206用于根据文件名称确定待处理日志的标签;第二确定模块207用于根据文件后缀确定待处理日志对应的网页访问类型;映射模块208用于将各个字段、标签和网页访问类型映射到数据库,形成日志数据记录。
可选地,采集模块201具体执行的步骤包括:调用syslog函数采集日志;在采集到的日志中获取达预定日志种类的日志,以得到待处理日志。
可选地,采集设备标识信息为采集设备的IP地址,syslog函数被配置为在采集日志之后,将日志中采集设备的主机名替换为采集设备的IP地址。
可选地,日志处理装置还包括第一分类模块,用于根据标签、网页访问类型、URL中是否包括统一码、URL中是否包含“Case When”、URL中是否包含“Sleep和数字”和URL中是否包含符号“--”中的任意一个或多个条件对日志数据记录进行分类。
可选地,字段包括HTTP请求的响应码,日志处理装置还包括第二分类模块,用于根据响应码对日志数据记录进行分类。
可选地,字段包括表征待处理日志对应的操作行为信息,日志处理装置还包括第三分类模块,用于根据操作行为信息对日志数据记录进行分类。
可选地,标签包括表征文件名称仅包括数字的标签和表征文件名称包括连续相同字母的标签;网页访问类型包括动态网页和静态网页。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,本实施例的计算机设备01至少包括但不限于:可通过装置总线相互通信连接的存储器011、处理器012,如图3所示。需要指出的是,图3仅示出了具有组件存储器011和处理器012的计算机设备01,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器011(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器011可以是计算机设备01的内部存储单元,例如该计算机设备01的硬盘或内存。在另一些实施例中,存储器011也可以是计算机设备01的外部存储设备,例如该计算机设备01上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器011还可以既包括计算机设备01的内部存储单元也包括其外部存储设备。本实施例中,存储器011通常用于存储安装于计算机设备01的操作装置和各类应用软件,例如实施例二的日志处理装置的程序代码等。此外,存储器011还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器012在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器012通常用于控制计算机设备01的总体操作。本实施例中,处理器012用于运行存储器011中存储的程序代码或者处理数据,例如日志处理方法等。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储日志处理方法,被处理器执行时实现实施例一的日志处理方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种日志处理方法,其特征在于,包括:
采集待处理日志;
将所述待处理日志与主正则表达式进行匹配,得到所述待处理日志的采集时间、采集设备标识信息、产生所述待处理日志的服务端口号、所述待处理日志的日志类型以及所述待处理日志的日志主体内容;
将所述日志主体内容与若干从正则表达式进行匹配,得到多个字段,其中,所述字段包括URL;
将所述URL进行拆解,得到所述URL的各个组成部分,其中,所述组成部分包括协议部分、域名部分和文件名部分;
将所述文件名部分进行拆解,得到文件名称和文件后缀;
根据所述文件名称确定所述待处理日志的标签;
根据所述文件后缀确定所述待处理日志对应的网页访问类型;
将各个所述字段、所述标签和所述网页访问类型映射到数据库,形成日志数据记录。
2.根据权利要求1所述的日志处理方法,其特征在于,采集待处理日志的步骤包括:
调用syslog函数采集日志;
在采集到的所述日志中获取达预定日志种类的日志,以得到所述待处理日志。
3.根据权利要求2所述的日志处理方法,其特征在于,所述采集设备标识信息为所述采集设备的IP地址,所述syslog函数被配置为在采集日志之后,将所述日志中所述采集设备的主机名替换为所述采集设备的IP地址。
4.根据权利要求1所述的日志处理方法,其特征在于,所述日志处理方法还包括:
根据所述标签、所述网页访问类型、所述URL中是否包括统一码、所述URL中是否包含“Case When”、所述URL中是否包含“Sleep和数字”和所述URL中是否包含符号“--”中的任意一个或多个条件对所述日志数据记录进行分类。
5.根据权利要求1所述的日志处理方法,其特征在于,所述字段包括HTTP请求的响应码,所述日志处理方法还包括:
根据所述响应码对所述日志数据记录进行分类。
6.根据权利要求1所述的日志处理方法,其特征在于,所述字段包括表征所述待处理日志对应的操作行为信息,所述日志处理方法还包括:
根据所述操作行为信息对所述日志数据记录进行分类。
7.根据权利要求1所述的日志处理方法,其特征在于,
所述标签包括表征所述文件名称仅包括数字的标签和表征所述文件名称包括连续相同字母的标签;
所述网页访问类型包括动态网页和静态网页。
8.一种日志处理装置,其特征在于,包括:
采集模块,用于采集待处理日志;
第一匹配模块,用于将所述待处理日志与主正则表达式进行匹配,得到所述待处理日志的采集时间、采集设备标识信息、产生所述待处理日志的服务端口号、所述待处理日志的日志类型以及所述待处理日志的日志主体内容;
第二匹配模块,用于将所述日志主体内容与若干从正则表达式进行匹配,得到多个字段,其中,所述字段包括URL;
第一拆解模块,用于将所述URL进行拆解,得到所述URL的各个组成部分,其中,所述组成部分包括协议部分、域名部分和文件名部分;
第二拆解模块,用于将所述文件名部分进行拆解,得到文件名称和文件后缀;
第一确定模块,用于根据所述文件名称确定所述待处理日志的标签;
第二确定模块,用于根据所述文件后缀确定所述待处理日志对应的网页访问类型;
映射模块,用于将各个所述字段、所述标签和所述网页访问类型映射到数据库,形成日志数据记录。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN201910267995.0A 2019-04-03 2019-04-03 日志处理方法、装置、计算机设备和计算机可读存储介质 Active CN109902073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910267995.0A CN109902073B (zh) 2019-04-03 2019-04-03 日志处理方法、装置、计算机设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910267995.0A CN109902073B (zh) 2019-04-03 2019-04-03 日志处理方法、装置、计算机设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109902073A true CN109902073A (zh) 2019-06-18
CN109902073B CN109902073B (zh) 2020-12-29

Family

ID=66954548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910267995.0A Active CN109902073B (zh) 2019-04-03 2019-04-03 日志处理方法、装置、计算机设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109902073B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362450A (zh) * 2019-07-16 2019-10-22 深圳市网心科技有限公司 一种日志数据采集方法、装置及计算机可读存储介质
CN112448849A (zh) * 2020-11-13 2021-03-05 中盈优创资讯科技有限公司 一种智能收集设备故障的方法及装置
CN113127767A (zh) * 2019-12-31 2021-07-16 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN113268464A (zh) * 2021-06-07 2021-08-17 平安科技(深圳)有限公司 日志展示方法、装置、电子设备及存储介质
CN114221860A (zh) * 2021-12-10 2022-03-22 广东省信息安全测评中心 一种从Web访问日志提取Web资产的方法
CN115208835A (zh) * 2022-05-31 2022-10-18 奇安信科技集团股份有限公司 Api分类方法、装置、电子设备、介质及产品
CN116048396A (zh) * 2022-12-30 2023-05-02 蜂巢科技(南通)有限公司 基于日志结构化合并树的数据存储装置和存储控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425728A (zh) * 2012-05-15 2013-12-04 国际商业机器公司 用于组书签的方法和系统
CN104935469A (zh) * 2015-06-30 2015-09-23 浪潮(北京)电子信息产业有限公司 一种日志信息分布式存储方法及系统
CN105528454A (zh) * 2015-12-25 2016-04-27 北京奇虎科技有限公司 日志处理方法及分布式集群的计算设备
US20160321252A1 (en) * 2003-07-03 2016-11-03 Google Inc. Anchor tag indexing in a web crawler system
CN108234245A (zh) * 2018-01-09 2018-06-29 上海帝联网络科技有限公司 日志内容及日志数据的筛选方法、装置、系统、可读介质
CN108875084A (zh) * 2018-07-17 2018-11-23 上海精数信息科技有限公司 项目声量排序方法、装置、电子设备、存储介质
CN109344138A (zh) * 2018-10-09 2019-02-15 广东网安科技有限公司 一种日志解析方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321252A1 (en) * 2003-07-03 2016-11-03 Google Inc. Anchor tag indexing in a web crawler system
CN103425728A (zh) * 2012-05-15 2013-12-04 国际商业机器公司 用于组书签的方法和系统
CN104935469A (zh) * 2015-06-30 2015-09-23 浪潮(北京)电子信息产业有限公司 一种日志信息分布式存储方法及系统
CN105528454A (zh) * 2015-12-25 2016-04-27 北京奇虎科技有限公司 日志处理方法及分布式集群的计算设备
CN108234245A (zh) * 2018-01-09 2018-06-29 上海帝联网络科技有限公司 日志内容及日志数据的筛选方法、装置、系统、可读介质
CN108875084A (zh) * 2018-07-17 2018-11-23 上海精数信息科技有限公司 项目声量排序方法、装置、电子设备、存储介质
CN109344138A (zh) * 2018-10-09 2019-02-15 广东网安科技有限公司 一种日志解析方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362450A (zh) * 2019-07-16 2019-10-22 深圳市网心科技有限公司 一种日志数据采集方法、装置及计算机可读存储介质
CN113127767A (zh) * 2019-12-31 2021-07-16 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN113127767B (zh) * 2019-12-31 2023-02-10 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN112448849A (zh) * 2020-11-13 2021-03-05 中盈优创资讯科技有限公司 一种智能收集设备故障的方法及装置
CN112448849B (zh) * 2020-11-13 2023-08-01 中盈优创资讯科技有限公司 一种智能收集设备故障的方法及装置
CN113268464A (zh) * 2021-06-07 2021-08-17 平安科技(深圳)有限公司 日志展示方法、装置、电子设备及存储介质
CN113268464B (zh) * 2021-06-07 2023-06-23 平安科技(深圳)有限公司 日志展示方法、装置、电子设备及存储介质
CN114221860A (zh) * 2021-12-10 2022-03-22 广东省信息安全测评中心 一种从Web访问日志提取Web资产的方法
CN114221860B (zh) * 2021-12-10 2024-01-30 广东省信息安全测评中心 一种从Web访问日志提取Web资产的方法
CN115208835A (zh) * 2022-05-31 2022-10-18 奇安信科技集团股份有限公司 Api分类方法、装置、电子设备、介质及产品
CN116048396A (zh) * 2022-12-30 2023-05-02 蜂巢科技(南通)有限公司 基于日志结构化合并树的数据存储装置和存储控制方法
CN116048396B (zh) * 2022-12-30 2024-03-08 蜂巢科技(南通)有限公司 基于日志结构化合并树的数据存储装置和存储控制方法

Also Published As

Publication number Publication date
CN109902073B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN109902073A (zh) 日志处理方法、装置、计算机设备和计算机可读存储介质
WO2019134226A1 (zh) 一种日志收集方法、装置、终端设备及存储介质
WO2019140828A1 (zh) 电子装置、分布式系统日志查询方法及存储介质
Mayer et al. An approach to extract the architecture of microservice-based software systems
WO2022126974A1 (zh) 基于Kafka的增量数据同步方法、装置、设备及介质
US8195931B1 (en) Application change control
EP3403187A1 (en) Single click delta analysis
US10210190B1 (en) Roll back of scaled-out data
CN108847977A (zh) 一种业务数据的监控方法、存储介质和服务器
MX2008011058A (es) Objeto de procesamiento de datos de sindicacion realmente simple (rss).
CN110427307A (zh) 日志解析方法、装置、计算机设备及存储介质
US11567735B1 (en) Systems and methods for integration of multiple programming languages within a pipelined search query
CN109005226A (zh) 服务器中传感器数据的获取方法、获取系统和相关装置
CN111258722A (zh) 一种集群的日志采集方法、系统、设备以及介质
CN107870850A (zh) 一种高效的互联网应用日志系统
CN112069384A (zh) 一种埋点数据处理方法、服务器及可读存储介质
CN111048164A (zh) 一种医学大数据长期保存系统
CN112860662B (zh) 自动化生产数据血缘关系建立方法、装置、计算机设备及存储介质
CN108228417A (zh) 车联网日志处理方法及处理装置
CN112187509A (zh) 多架构云平台执行日志管理方法、系统、终端及存储介质
CN110881030A (zh) 基于logstash的记录web服务管理员操作日志的方法及装置
CN111176987A (zh) 前端日志统一输出的方法、装置、计算机设备及存储介质
CN107643968A (zh) 崩溃日志处理方法及装置
CN116126808A (zh) 行为日志记录方法、装置、计算机设备和存储介质
CN110119335A (zh) 服务器ntp进程监控方法、电子装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant after: Qianxin Technology Group Co.,Ltd.

Address before: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant before: Beijing Qi'anxin Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant