CN109947728B - 一种日志文件的处理方法及装置 - Google Patents

一种日志文件的处理方法及装置 Download PDF

Info

Publication number
CN109947728B
CN109947728B CN201910181123.2A CN201910181123A CN109947728B CN 109947728 B CN109947728 B CN 109947728B CN 201910181123 A CN201910181123 A CN 201910181123A CN 109947728 B CN109947728 B CN 109947728B
Authority
CN
China
Prior art keywords
log
vector
log record
record
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910181123.2A
Other languages
English (en)
Other versions
CN109947728A (zh
Inventor
马平清
刘彬
宋泽锋
伍福生
简超
李兴锋
王鑫伟
王景隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201910181123.2A priority Critical patent/CN109947728B/zh
Publication of CN109947728A publication Critical patent/CN109947728A/zh
Application granted granted Critical
Publication of CN109947728B publication Critical patent/CN109947728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例公开了一种日志文件的处理方法及装置,其中方法包括:获取预设时间段内M个设备分别生成的M个日志文件后,根据M个日志文件包括的每条日志记录的关键字信息,确定每条日志记录对应的数值,并根据M*N条日志记录对应的数值生成第一向量,进而对第一向量进行降维处理得到第二向量,并使用第二向量对日志分析模型进行训练。本发明实施例中,通过对第一向量进行降维处理,可以降低模型输入的数据量,从而提高日志分析模型的训练效率;且,本发明实施例在输入数据中添加了M*N条日志记录的关联关系,使得模型训练的输入信息更加全面,可以提高模型的训练效果。

Description

一种日志文件的处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种日志文件的处理方法及装置。
背景技术
基于日志文件中的日志记录对设备的运行状态进行分析和预测,是一种常用的故障分析方式。具体地说,通过获取设备在预设时间段内生成的多个日志文件,可以使用多个日志文件包括的多条日志记录对日志分析模型进行训练,得到预测模型;相应地,在设备生成新的日志记录后,通过使用该预测模型对的新的日志记录进行预测,可以根据预测结果来确定设备是否发生故障。
一般来说,若想要训练出效果较好的预测模型,通常需要数万条日志数据。然而,数万条日志数据的数据量比较大,若将数万条日志数据作为输入来训练日志分析模型,可能会需要比较长的时间,使得模型的训练效率比较低。综上,目前亟需一种日志文件的处理方法,用以解决日志分析模型的训练效率较低的技术问题。
发明内容
本发明实施例提供一种日志文件的处理方法,用以解决日志分析模型的训练效率较低的技术问题。
本发明实施例提供的一种模型训练方法,所述方法包括:获取预设时间段内M个设备分别生成的M个日志文件后,根据所述M个日志文件包括的每条日志记录的关键字信息,确定所述每条日志记录对应的数值,进而根据M*N条日志记录对应的数值生成第一向量;所述M个日志文件中的每个日志文件可以包括N条日志记录,所述第一向量可以为N行M列的矩阵,所述第一向量中第i列的数值可以包括第i日志文件的日志记录对应的数值,相应地,所述第一向量中第j行的数值可以包括所述M个设备在第一时刻生成的日志记录对应的数值;进一步地,对所述第一向量进行降维处理得到第二向量,并使用所述第二向量对日志分析模型进行训练。
本发明实施例中,通过将M个设备生成的M*N条日志记录转换为第一向量,可以将M*N条日志记录的关联关系存储在第一向量中,比如,第一向量中可以存储有多条日志记录所属的设备、多条日志记录生成的时间先后顺序等;相应地,对第一向量降维得到的第二向量中也可以包括M*N条日志记录的关联关系。一方面,第二向量为对第一向量进行降维处理得到的,因此,第二向量对应的数据量可以小于第一向量对应的数据量,从而可以提高日志分析模型的训练效率;另一方面,本发明实施例采用第二向量训练模型,即在输入数据中添加了M*N条日志记录的关联关系,使得模型训练的输入信息更加全面,从而可以提高模型的训练效果。也就是说,本发明实施例中的方式可以解决日志分析模型的训练效率较低的技术问题。
在一种可能的实现方式中,所述根据所述M个日志文件包括的每条日志记录的关键字信息,确定所述每条日志记录对应的数值,包括:根据所述每条日志记录的关键字信息与多个预设类型分别对应的关键字信息,确定所述每条日志数据对应的类型,进而根据所述每条日志数据对应的类型和所述每条日志数据对应的类型在所述预设时间段内对应的频率,确定所述每条日志数据对应的数值。
本发明实施例中,每条日志记录对应的数值是根据每条日志数据对应的类型和该类型在预设时间段内对应的频率确定的,因此,每条日志记录对应的数值与每条日志数据对应的类型相关;也就是说,第一向量中可以包括M*N条日志记录的类型信息。由此可知,通过在输入数据中添加M*N条日志记录的类型信息,可以使得模型训练的过程更为精确,进一步提高训练得到的预测模型的效果。
在一种可能的实现方式中,所述第一向量中第j+1行的数值包括所述M个设备在第二时刻生成的日志记录对应的数值;其中,所述第一时刻可以位于所述第二时刻之前。
本发明实施例中,第一向量中第j行的数值对应的日志记录所生成的时刻早于为第j+1行的数值对应的日志记录所生成的时刻,也就是说,第一向量中可以包括M*N条日志记录的生成时间信息。由此可知,通过在输入数据中添加M*N条日志记录的生成时间信息,可以使得模型训练的过程更为精确,进一步提高训练得到的预测模型的效果。
在一种可能的实现方式中,所述第二向量的行数可以满足如下条件:
其中,T为所述第二向量的行数,L为预设阈值,λi为所述第一向量对应的第i个特征值,1≤i≤N。
本发明实施例中,通过对第一向量的行数进行降维处理,一方面,可以使得第二向量中包括M个设备中的任一设备生成的日志数据,从而可以避免损失M*N条日志数据对应的M个设备的信息;另一方面,可以降低每个设备生成的N条日志数据的数据量,提高模型训练的效率。
本发明实施例提供的一种日志文件的处理装置,所述装置包括:
获取模块,用于获取预设时间段内M个设备分别生成的M个日志文件,所述M个日志文件中的每个日志文件包括N条日志记录;
生成模块,用于根据所述M个日志文件包括的每条日志记录的关键字信息,确定所述每条日志记录对应的数值,根据M*N条日志记录对应的数值生成第一向量;所述第一向量为N行M列的矩阵,所述第一向量中第i列的数值包括第i日志文件的日志记录对应的数值,所述第一向量中第j行的数值包括所述M个设备在第一时刻生成的日志记录对应的数值;
训练模块,用于对所述第一向量进行降维处理得到第二向量,使用所述第二向量对日志分析模型进行训练。
可选地,所述生成模块具体用于:根据所述每条日志记录的关键字信息与多个预设类型分别对应的关键字信息,确定所述每条日志数据对应的类型;根据所述每条日志数据对应的类型和所述每条日志数据对应的类型在所述预设时间段内对应的频率,确定所述每条日志数据对应的数值。
可选地,所述第一向量中第j+1行的数值包括所述M个设备在第二时刻生成的日志记录对应的数值;所述第一时刻位于所述第二时刻之前。
可选地,所述第二向量的行数满足:
其中,T为所述第二向量的行数,L为预设阈值,λi为所述第一向量对应的第i个特征值,1≤i≤N。
本发明实施例提供的一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如本发明实施例提供的方法。
本发明实施例提供的一种计算机程序产品,当其在计算机上运行时,使得计算机执行如本发明实施例提供的方法。
本申请的这些实现方式或其他实现方式在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种故障分析系统的系统架构示意图;
图2为本发明实施例提供的一种日志文件的处理方法对应的流程示意图;
图3为本发明实施例中提供的一种日志文件的处理装置对应的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种故障分析系统的系统架构示意图,如图1所示,故障分析系统可以包括至少一个设备(如图1所示意出的设备101、设备102、设备103和设备104)和管理至少一个设备的中心服务器110。其中,至少一个设备可以为终端类型的电子设备,比如手机、平板电脑、摄像机等;或者也可以为家用电器类型的电子设备,比如液晶电视、投影仪、3D眼镜等;或者还可以为工业仪器类型的电子设备,比如数字机床、电子导航仪器、移动机器人等;至少一个设备的类型可以相同,或者也可以不同,具体不作限定。
具体实施中,中心服务器110可以与至少一个设备中的每个设备连接,从而实现与每个设备的通信。其中,实现连接的方式可以有多种,以中心服务器110与设备101的连接为例,在一个示例中,中心服务器110可以通过有线方式(比如网线、光纤)与设备101连接,此时,中心服务器110可以通过网线或光纤将数据发送给设备101,并可以通过网线或光纤接收设备101发送的数据。在另一个示例中,中心服务器110可以通过无线方式(比如微波通信、卫星通信)与设备101连接,此时,中心服务器110可以通过发送预设频率的信号将数据传输给设备101,并可以通过接收设备101发送的预设频率的信号。
需要说明的是,图1仅为故障分析系统的一种示意,如图1所示,中心服务器110可以与设备101~设备104中的任一设备通信连接;可以理解的,设备101、设备102、设备103和设备104之间也可以实现通信连接,该连接过程在图1中未示意出。
本发明实施例中,中心服务器110可以对设备101~设备104进行故障分析,具体地说,中心服务器110可以获取设备101~设备104在预设时间段内生成的多条日志记录,并可以基于多条日志记录确定设备101~设备104的运行状态,从而确定设备101~设备104是否发生故障。一种可能的故障分析方式为:中心服务器110从多条日志记录中提取出多个关键字信息,进而将多个关键字信息输入日志分析模型进行模型训练,得到预测模型。其中,每条日志记录对应的关键字信息中可以包括日志的信息。
然而,采用上述方案训练得到的预测模型通常不够准确。具体地说,多条日志数据之间通常具有一定的关联关系,比如多条日志数据是否为同一设备生成的、多条日志数据的生成时间顺序等。采用上述方式分析时,每条日志记录对应的关键字信息中并不包括多条日志数据之间,即上述方案是基于不相关的多个关键字信息对日志分析模型进行训练的,可能会导致模型训练的效果较差。举例来说明,中心服务器110获取到的十条日志数据分别为:设备101生成的日志记录a1~日志记录a5、设备103生成的日志记录b1~日志记录b5,日志记录a1~日志记录a3为设备101在与设备102通信的过程中生成的日志记录,日志记录a2与日志记录a4对应的类型不同,日志数据b1~日志数据b4生成的时间不同。在该示例中,日志记录a1~日志记录a5和日志记录b1~日志记录b5之间具有多种关联关系,若采用上述方式进行故障分析,会导致训练出的预测模型的效果不好。
相应地,若直接将多条日志记录输入日志分析模型,则中心服务器110可以根据多条日志记录之间的关联关系训练得到预测模型,然而,这种输入方式下的数据量较大,数据处理的效率较低。由此可知,如何从多条日志记录中提取出有效的信息,并保证不损失多条日志记录之间的关联关系,对于训练得到效果较好的预测模型,从而有效分析设备的故障状况是非常重要的。
综上,目前亟需一种日志文件的处理方法,用以解决日志分析模型的训练效率较低的技术问题。
基于图1所示意的系统架构,图2为本发明实施例提供的一种日志文件的处理方法对应的流程示意图,如图2所示,该方法包括:
步骤201,获取预设时间段内M个设备分别生成的M个日志文件。
此处,每个设备可以在预设时间段内生成一个日志文件,一个日志文件中可以包括N条日志记录,则M个设备在预设时间段内生成M*N条日志记录。其中,预设时间段可以由本领域技术人员根据经验进行设置,具体不作限定。
具体实施中,M个设备可以按照预设规则生成M*N条日志记录,其中,预设规则可以根据实际需要进行设置。在一个示例中,M个设备中的每个设备可以在相同的时刻生成一个日志记录,同一个设备生成的N个日志记录中任意两个相邻的日志记录可以具有相同的时间间隔。举例来说,预设时间段为10:00~10:05,设备101~设备104可以每间隔6秒生成一个日志记录,则在10:00~10:05对应的5分钟内,设备101~设备104可以分别生成50(即N为50)个日志记录,设备101~设备104生成的第y个日志记录可以均为同一时刻(即10:00之后的6*y秒对应的时刻)生成的。由此可知,在10:00~10:05的时间段内,设备101~设备104共生成4*50个日志记录,其中,设备101生成的50个日志记录为第一日志文件,设备102生成的50个日志记录为第二日志文件,设备103生成的50个日志记录为第三日志文件,设备104生成的50个日志记录为第四日志文件。
步骤202,根据M个日志文件包括的每条日志记录的关键字信息,确定每条日志记录对应的数值,并根据M*N条日志记录对应的数值生成第一向量。
本发明实施例中,获取到M*N条日志记录后,可以通过分析M*N条日志记录中的每条日志记录的信息,将每条日志记录转化为数值,进而根据M*N条日志记录分别对应的数值生成第一向量。
以第一日志记录为例,通过对第一日志记录包括的信息进行分析,可以提取第一日志记录的关键字信息。此处,可以采用多种方式提取第一日志记录的关键字信息,比如可以通过文本检测的方式提取关键字信息,或者可以通过机器学习的方式提取关键字信息等,具体不作限定。进一步地,可以将第一日志记录的关键字信息与多个预设类型分别对应的关键字信息进行匹配,确定第一日志数据对应的类型。其中,多个预设类型和每个预设类型对应的关键字信息可以由本领域技术人员根据经验进行设置,具体不作限定。
举例来进行说明,表1为一种预设类型和预设类型对应的关键字信息的示意表。如表1所示,预设类型可以包括E1类型、E2类型、E3类型和E4类型,其中,E1类型对应的关键字信息为a,E2类型对应的关键字信息为b,E3类型对应的关键字信息为c,E4类型对应的关键字信息为d。
表1:一种预设类型和预设类型对应的关键字信息的示意
预设类型 关键字信息
E1 a
E2 b
E3 c
E4 d
根据表1中的内容,若第一日志记录中包括关键字信息a,则可以确定第一日志记录的类型为E1;若第一日志记录中包括关键字信息b,则可以确定第一日志记录的类型为E2;若第一日志记录中包括关键字信息c,则可以确定第一日志记录的类型为E3;若第一日志记录中包括关键字信息d,则可以确定第一日志记录的类型为E4。通过将M*N条日志记录中的每条日志记录的关键字信息与类型E1~类型E4分别对应的关键字信息进行匹配,可以确定M*N条日志记录中每条日志记录的类型。
进一步地,可以根据M个设备在预设时间段内生成的M*N条日志记录分别对应的类型,确定多个预设类型分别在预设时间段内对应的频率。具体地说,若M*N条日志记录中属于E1类型的日志记录的数量为S1,则E1类型对应的频率可以为S1/M*N,若M*N条日志记录中属于E3类型的日志记录的数量为S3,则E1类型对应的频率可以为S3/M*N。
本发明实施例中,在确定M*N条日志记录分别对应的类型和多个预设类型在预设时间段内分别对应的频率后,可以根据第一日志数据对应的类型和第一日志记录对应的类型在预设时间段内对应的频率,确定第一日志数据对应的数值。
在一个示例中,第一日志数据对应的数值可以为:
其中,wo为第一日志数据对应的数值,to为第一日志数据对应的类型在预设时间段内对应的频率。
在该示例中,若第一日志记录对应的类型为E1类型,则第一日志数据对应的数值可以为对M*N条日志数据中类型为E1类型的日志数据的数量的倒数求对数得到的数值;相应地,若第一日志记录对应的类型为E2类型,则第一日志数据对应的数值可以为对M*N条日志数据中类型为E2类型的日志数据的数量的倒数求对数得到的数值。第一日志记录对应的类型为E3类型和E4类型的情况不再进行赘述。
由此可知,若第一日志记录对应的类型与第二日志记录对应的类型相同,则第一日志记录对应的数值与第二日志记录对应的数值也相同。本发明实施例中,每条日志记录对应的数值是根据每条日志数据对应的类型和该类型在预设时间段内对应的频率确定的,因此,每条日志记录对应的数值与每条日志数据对应的类型相关;也就是说,第一向量中可以包括M*N条日志记录的类型信息。由此可知,通过在输入数据中添加M*N条日志记录的类型信息,可以使得模型训练的过程更为精确,从而提高训练得到的预测模型的效果。
本发明实施例中,可以根据M*N个日志记录分别对应的数值生成第一向量。其中,第一向量可以为N行M列的矩阵,第一向量中第i列的数值可以包括第i日志文件的日志记录对应的数值;相应地,第一向量中第j行的数值可以包括M个设备在第一时刻生成的日志记录对应的数值。在一种可能的实现方式中,第一向量中第j+1行的数值包括M个设备在第二时刻生成的日志记录对应的数值;其中,第一时刻可以位于第二时刻之前。
具体实施中,可以预先生成M个设备分别对应的第三向量,以设备101为例,可以根据设备101在10:00~10:05的时间段内生成的50条日志记录对应的数值,生成第一设备对应的第三向量;其中,设备101对应的第三向量可以为50行1列的向量,第30列的数值可以为设备101在10:03的时刻生成的日志记录,第50列的数值可以为设备101在10:05的时刻生成的日志记录对应的数值。进一步地,可以将设备101对应的第三向量作为第一向量的第一列数据,设备102对应的第三向量作为第一向量的第二列数据,设备103对应的第三向量作为第一向量的第三列数据,设备104对应的第三向量作为第一向量的第四列数据,从而得到第一向量。其中,第一向量为50行4列的向量,第一向量的第30行包括的4个数值分别为设备101~设备104在10:03的时刻生成的日志记录对应的数值,第一向量的第3列包括的50个数值为设备103在10:00~10:05的时间段内生成的50条日志记录对应的数值。
本发明实施例中,第一向量中第j行的数值对应的日志记录所生成的时刻早于为第j+1行的数值对应的日志记录所生成的时刻,也就是说,第一向量中可以包括M*N条日志记录的生成时间信息。由此可知,通过在输入数据中添加M*N条日志记录的生成时间信息,可以使得模型训练的过程更为精确,进一步提高训练得到的预测模型的效果。
步骤203,对第一向量进行降维处理得到第二向量,并使用第二向量对日志分析模型进行训练。
本发明实施例中,对第一向量进行降维处理的方式可以有多种,在一种可能的实现方式中,可以采用主成分分析的方式对第一向量进行降维处理。需要说明的是,此处所述的降维是降低第一向量的行数,而并不对第一向量的列数进行降维,即第二向量的行数可以小于第一向量的行数,第一向量的列数与第一向量的列数可以相同。
在一种可能的实现方式中,可以对第一向量进行标准化处理,得到第一向量的N个特征值和N个特征值分别对应的特征向量;进一步地,可以根据第一向量的N个特征值确定第二向量的行数,并可以根据第一向量的N个特征值分别对应的特征向量和降维后的第二向量的行数,确定第二向量。通过对第一向量的行数进行降维处理,一方面,可以使得第二向量中包括M个设备中的任一设备生成的日志数据,从而可以避免损失M*N条日志数据对应的M个设备的信息;另一方面,可以降低每个设备生成的N条日志数据的数据量,提高数据处理的效率。
具体实施中,对第一向量进行标准化处理的过程可以为:预先确定第一向量中每一个列向量(即每个设备对应的第三向量)的平均值和方差,进而根据每个列向量的平均值和方差对第一向量中的每个元素进行标准化处理,得到标准化后的第四向量。以第一向量中的第k行第q列的元素Zk,q为例,对Zk,q进行标准化处理后的元素Ik,q可以满足如下要求:
其中,为Zk的平均值,sq为Zk的方差。
进一步地,可以计算第四向量的协方差矩阵和协方差矩阵对应的特征值(即第一向量对应的特征值),进而根据协方差矩阵对应的特征值,确定第二向量的行数。且,在确定协方差矩阵对应的特征值后,可以根据协方差矩阵对应的特征值确定特征值对应的单位特征向量,进而根据特征值对应的单位特征向量和第一向量,确定第二向量。
在一个示例中,第二向量的行数可以满足如下条件:
其中,T为第二向量的行数,L为预设阈值,λi为第一向量对应的第i个特征值,1≤i≤N。
优选地,若计算得到的T包括多个,则可以选择其中数值最小的一个T作为第二向量的行数。
本发明实施例中,第二向量可以满足如下条件:
Ur=ZiFr
其中,Ur可以为第二向量第r列对应的向量,Zi可以为第一向量第i行对应的向量,Fr可以为第i个特征值对应的单位特征向量。
需要说明的是,计算矩阵或向量的平均值、方差、协方差矩阵、协方差矩阵对应的特征值和特征值对应的单位特征向量的过程可以参照现有技术,本发明实施例不再进行赘述。
从上述内容可以看出:本发明的上述实施例中,获取预设时间段内M个设备分别生成的M个日志文件后,可以根据M个日志文件包括的每条日志记录的关键字信息,确定每条日志记录对应的数值,并根据M*N条日志记录对应的数值生成第一向量,进而对第一向量进行降维处理得到第二向量,并使用第二向量对日志分析模型进行训练。其中,第一向量为N行M列的矩阵,第一向量中第i列的数值包括第i日志文件的日志记录对应的数值,第一向量中第j行的数值包括M个设备在第一时刻生成的日志记录对应的数值。本发明实施例中,通过将M个设备生成的M*N条日志记录转换为第一向量,可以将M*N条日志记录的关联关系存储在第一向量中,比如,第一向量中可以存储有多条日志记录所属的设备、多条日志记录生成的时间先后顺序等;相应地,对第一向量降维得到的第二向量中也可以包括M*N条日志记录的关联关系。一方面,第二向量为对第一向量进行降维处理得到的,因此,第二向量对应的数据量可以小于第一向量对应的数据量,从而可以提高日志分析模型的训练效率;另一方面,本发明实施例采用第二向量训练模型,即在输入数据中添加了M*N条日志记录的关联关系,使得模型训练的输入信息更加全面,从而可以提高模型的训练效果。也就是说,本发明实施例中的方式可以解决日志分析模型的训练效率较低的技术问题。
针对上述方法流程,本发明实施例还提供一种日志文件的处理装置,该装置的具体内容可以参照上述方法实施。
图3为本发明实施例提供的一种日志文件的处理装置的结构示意图,包括:
获取模块301,用于获取预设时间段内M个设备分别生成的M个日志文件,所述M个日志文件中的每个日志文件包括N条日志记录;
生成模块302,用于根据所述M个日志文件包括的每条日志记录的关键字信息,确定所述每条日志记录对应的数值,根据M*N条日志记录对应的数值生成第一向量;所述第一向量为N行M列的矩阵,所述第一向量中第i列的数值包括第i日志文件的日志记录对应的数值,所述第一向量中第j行的数值包括所述M个设备在第一时刻生成的日志记录对应的数值;
训练模块303,用于对所述第一向量进行降维处理得到第二向量,使用所述第二向量对日志分析模型进行训练。
可选地,所述生成模块302具体用于:
根据所述每条日志记录的关键字信息与多个预设类型分别对应的关键字信息,确定所述每条日志数据对应的类型;
根据所述每条日志数据对应的类型和所述每条日志数据对应的类型在所述预设时间段内对应的频率,确定所述每条日志数据对应的数值。
可选地,所述第一向量中第j+1行的数值包括所述M个设备在第二时刻生成的日志记录对应的数值;
所述第一时刻位于所述第二时刻之前。
可选地,所述第二向量的行数满足如下条件:
其中,T为所述第二向量的行数,L为预设阈值,λi为所述第一向量对应的第i个特征值,1≤i≤N。
从上述内容可以看出:本发明的上述实施例中,获取预设时间段内M个设备分别生成的M个日志文件后,可以根据M个日志文件包括的每条日志记录的关键字信息,确定每条日志记录对应的数值,并根据M*N条日志记录对应的数值生成第一向量,进而对第一向量进行降维处理得到第二向量,并使用第二向量对日志分析模型进行训练。其中,第一向量为N行M列的矩阵,第一向量中第i列的数值包括第i日志文件的日志记录对应的数值,第一向量中第j行的数值包括M个设备在第一时刻生成的日志记录对应的数值。本发明实施例中,通过将M个设备生成的M*N条日志记录转换为第一向量,可以将M*N条日志记录的关联关系存储在第一向量中,比如,第一向量中可以存储有多条日志记录所属的设备、多条日志记录生成的时间先后顺序等;相应地,对第一向量降维得到的第二向量中也可以包括M*N条日志记录的关联关系。一方面,第二向量为对第一向量进行降维处理得到的,因此,第二向量对应的数据量可以小于第一向量对应的数据量,从而可以提高日志分析模型的训练效率;另一方面,本发明实施例采用第二向量训练模型,即在输入数据中添加了M*N条日志记录的关联关系,使得模型训练的输入信息更加全面,从而可以提高模型的训练效果。也就是说,本发明实施例中的方式可以解决日志分析模型的训练效率较低的技术问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种日志文件的处理方法,其特征在于,所述方法包括:
获取预设时间段内M个设备分别生成的M个日志文件,所述M个日志文件中的每个日志文件包括N条日志记录;所述M为大于1的整数;所述N为大于1的整数;
根据所述每条日志记录的关键字信息与多个预设类型分别对应的关键字信息,确定所述每条日志记录对应的类型;根据所述每条日志记录对应的类型和所述每条日志记录对应的类型在所述预设时间段内对应的频率,确定所述每条日志记录对应的数值;根据M*N条日志记录对应的数值生成第一向量;所述第一向量为N行M列的矩阵,所述第一向量中第i列的数值包括第i日志文件的日志记录对应的数值,所述第一向量中第j行的数值包括所述M个设备在第一时刻生成的日志记录对应的数值;
对所述第一向量进行降维处理得到第二向量,使用所述第二向量对日志分析模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述第一向量中第j+1行的数值包括所述M个设备在第二时刻生成的日志记录对应的数值;
所述第一时刻位于所述第二时刻之前。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述第二向量的行数满足:
其中,T为所述第二向量的行数,L为预设阈值,λi为所述第一向量对应的第i个特征值,1≤i≤N。
4.一种日志文件的处理装置,其特征在于,所述装置包括:
获取模块,用于获取预设时间段内M个设备分别生成的M个日志文件,所述M个日志文件中的每个日志文件包括N条日志记录;所述M为大于1的整数;所述N为大于1的整数;
生成模块,用于根据所述每条日志记录的关键字信息与多个预设类型分别对应的关键字信息,确定所述每条日志记录对应的类型;根据所述每条日志记录对应的类型和所述每条日志记录对应的类型在所述预设时间段内对应的频率,确定所述每条日志记录对应的数值;根据M*N条日志记录对应的数值生成第一向量;所述第一向量为N行M列的矩阵,所述第一向量中第i列的数值包括第i日志文件的日志记录对应的数值,所述第一向量中第j行的数值包括所述M个设备在第一时刻生成的日志记录对应的数值;
训练模块,用于对所述第一向量进行降维处理得到第二向量,使用所述第二向量对日志分析模型进行训练。
5.根据权利要求4所述的装置,其特征在于,所述第一向量中第j+1行的数值包括所述M个设备在第二时刻生成的日志记录对应的数值;
所述第一时刻位于所述第二时刻之前。
6.根据权利要求4至5中任一项所述的装置,其特征在于,所述第二向量的行数满足:
其中,T为所述第二向量的行数,L为预设阈值,λi为所述第一向量对应的第i个特征值,1≤i≤N。
7.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至3任一项所述的方法。
CN201910181123.2A 2019-03-11 2019-03-11 一种日志文件的处理方法及装置 Active CN109947728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910181123.2A CN109947728B (zh) 2019-03-11 2019-03-11 一种日志文件的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910181123.2A CN109947728B (zh) 2019-03-11 2019-03-11 一种日志文件的处理方法及装置

Publications (2)

Publication Number Publication Date
CN109947728A CN109947728A (zh) 2019-06-28
CN109947728B true CN109947728B (zh) 2023-09-05

Family

ID=67009595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910181123.2A Active CN109947728B (zh) 2019-03-11 2019-03-11 一种日志文件的处理方法及装置

Country Status (1)

Country Link
CN (1) CN109947728B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882907B (zh) * 2021-04-28 2021-07-20 北京芯盾时代科技有限公司 一种基于日志数据的用户状态确定方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694652A (zh) * 2009-09-30 2010-04-14 西安交通大学 一种基于极速神经网络的网络资源个性化推荐方法
CN103995828A (zh) * 2014-04-11 2014-08-20 西安电子科技大学宁波信息技术研究院 一种云存储日志数据分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9904893B2 (en) * 2013-04-02 2018-02-27 Patternex, Inc. Method and system for training a big data machine to defend

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694652A (zh) * 2009-09-30 2010-04-14 西安交通大学 一种基于极速神经网络的网络资源个性化推荐方法
CN103995828A (zh) * 2014-04-11 2014-08-20 西安电子科技大学宁波信息技术研究院 一种云存储日志数据分析方法

Also Published As

Publication number Publication date
CN109947728A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN110781960B (zh) 视频分类模型的训练方法、分类方法、装置及设备
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
CN111181757B (zh) 信息安全风险预测方法、装置以及计算设备、存储介质
CN110674331A (zh) 信息处理方法、相关设备及计算机存储介质
US20230066703A1 (en) Method for estimating structural vibration in real time
CN111178537A (zh) 一种特征提取模型训练方法及设备
CN114792089A (zh) 用于管理计算机系统的方法、设备和程序产品
CN110490304B (zh) 一种数据处理方法及设备
CN109947728B (zh) 一种日志文件的处理方法及装置
CN109271495B (zh) 问答识别效果检测方法、装置、设备及可读存储介质
CN105306252A (zh) 一种自动判别服务器故障的方法
CN115705413A (zh) 异常日志的确定方法及装置
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN110413750A (zh) 根据用户问句召回标准问句的方法和装置
CN113780666A (zh) 一种缺失值的预测方法及装置、可读存储介质
CN114385694A (zh) 一种数据加工处理方法、装置、计算机设备及存储介质
CN110674839B (zh) 异常用户识别方法、装置、存储介质及电子设备
CN115866235A (zh) 视频质量评估方法、装置、电子设备及存储介质
CN113537361B (zh) 联邦学习系统中的跨样本特征选择方法及联邦学习系统
CN116340831B (zh) 一种信息分类方法、装置、电子设备及存储介质
CN115858324B (zh) 基于ai的it设备故障处理方法、装置、设备和介质
CN115238805B (zh) 异常数据识别模型的训练方法及相关设备
CN112906729B (zh) 一种开关设备的故障分布确定方法、装置及系统
CN109766255B (zh) 设备状态分析方法、装置、存储介质及电子设备
CN116821724B (zh) 多媒体处理网络生成方法、多媒体处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant