CN109271356A - 日志文件格式处理方法、装置、计算机设备和存储介质 - Google Patents

日志文件格式处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109271356A
CN109271356A CN201811021418.5A CN201811021418A CN109271356A CN 109271356 A CN109271356 A CN 109271356A CN 201811021418 A CN201811021418 A CN 201811021418A CN 109271356 A CN109271356 A CN 109271356A
Authority
CN
China
Prior art keywords
log information
information
network model
neural network
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811021418.5A
Other languages
English (en)
Inventor
李季
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201811021418.5A priority Critical patent/CN109271356A/zh
Publication of CN109271356A publication Critical patent/CN109271356A/zh
Pending legal-status Critical Current

Links

Abstract

本申请涉及基于人工智能技术领域中的一种日志文件格式处理方法、装置、计算机设备和存储介质。所述方法包括:建立神经网络模型,对所述神经网络模型进行训练,所述神经网络模型用于对日志信息进行格式转换;接收多个用户终端上传的日志文件,对所述日志文件进行解析,得到多项日志信息;对每项日志信息进行分词处理,得到每项日志信息中的多个词,其中,每个词都具有对应的编码;获取每项日志信息中的多个词所对应的多个编码,基于每项日志信息将所述多个编码输入至训练后的神经网络模型;通过所述训练后的神经网络模型进行运算,输出预设格式的日志信息。采用本方法能够有效对日志文件进行格式统一的日志文件格式处理。

Description

日志文件格式处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种日志文件格式处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展以及移动终端的普及,人们通过移动终端中安装的应用程序即可随时随地办理各种业务。通过不同的应用程序可以办理不同的业务。在人们办理业务的过程中,移动终端通常会以日志文件记录用户对应用程序的操作数据。日志文件可以上传至服务器。服务器可以通过日志文件进行用户分析。然而,不同的应用程序对应的日志文件的格式可能会不同。不同格式的日志文件对服务器进行用户分析造成不便。因此,如何对多种格式的日志文件进行格式统一成为目前需要解决的一个技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效对日志文件进行格式统一的日志文件格式处理方法、装置、计算机设备和存储介质。
一种日志文件格式处理方法,所述方法包括:
建立神经网络模型,对所述神经网络模型进行训练,所述神经网络模型用于对日志信息进行格式转换;
接收多个用户终端上传的日志文件,对所述日志文件进行解析,得到多项日志信息;
对每项日志信息进行分词处理,得到每项日志信息中的多个词,其中,每个词都具有对应的编码;
获取每项日志信息中的多个词所对应的多个编码,基于每项日志信息将所述多个编码输入至训练后的神经网络模型;
通过所述训练后的神经网络模型进行运算,输出预设格式的日志信息。
在其中一个实施例中,所述对所述神经网络模型进行训练包括:
获取训练集,所述训练集中包括多项样本日志信息以及样本日志信息对应的多个训练词;
统计所述多项样本日志信息中训练词的词汇数量,得到最大词汇数量;
将所述最大词汇数量标记为最长输入参数;
获取所述样本日志信息对应的映射文件,所述映射文件中记录了样本日志信息中多个训练词的原始描述与预设格式的描述;
利用所述最长输入参数以及所述映射文件对神经网络模型进行训练,得到所述样本日志信息中多个训练词对应的预设格式的描述。
在其中一个实施例中,所述日志信息中包括用户标识;在所述通过所述训练后的神经网络模型进行运算,输出预设格式的日志信息之后,所述方法还包括:
在预设格式的日志信息中提取关键字段;根据所述关键字段查询是否存在相应的业务信息;
当存在与所述关键字段对应的业务信息时,将所述用户标识记录为留存用户;
当不存在与所述关键字中相对应的业务信息时,识别所述用户标识是否属于待沟通用户;若属于待沟通用户,则生成相应的提示信息,将所述提示信息发送至坐席终端。
在其中一个实施例中,所述识别所述用户标识是否属于待沟通用户包括:
根据所述用户标识获取相应的用户信息,所述用户信息包括多个维度;
获取每个维度的用户信息对应的权重;
利用多个维度的用户信息以及相应权重计算客户得分;
当所述客户得分达到第一阈值时,将所述用户标识记录为待沟通用户。
在其中一个实施例中,所述日志信息中包括用户标识;所述方法还包括:
在预设格式的日志信息中获取与用户标识对应的错误;
对预设时间内的错误数量进行统计,得到错误统计值;
当所述错误统计值达到第二阈值时,生成报警信息,将所述报警信息发送至开发终端。
一种日志文件格式处理装置,所述装置包括:
模型建立模块,用于建立神经网络模型,对所述神经网络模型进行训练,所述神经网络模型用于对日志信息进行格式转换;
日志获取模块,用于接收多个用户终端上传的日志文件,对所述日志文件进行解析,得到多项日志信息;
格式统一模块,用于对每项日志信息进行分词处理,得到每项日志信息中的多个词,其中,每个词都具有对应的编码;获取每项日志信息中的多个词所对应的多个编码,基于每项日志信息将所述多个编码输入至训练后的神经网络模型;通过所述训练后的神经网络模型进行运算,输出预设格式的日志信息。
在其中一个实施例中,所述模型建立模块还用于获取训练集,所述训练集中包括多项样本日志信息以及样本日志信息对应的多个训练词;统计所述多项样本日志信息中训练词的词汇数量,得到最大词汇数量;将所述最大词汇数量标记为最长输入参数;获取所述样本日志信息对应的映射文件,所述映射文件中记录了样本日志信息中多个训练词的原始描述与预设格式的描述;利用所述最长输入参数以及所述映射文件对神经网络模型进行训练,得到所述样本日志信息中多个训练词对应的预设格式的描述。
在其中一个实施例中,所述日志信息中包括用户标识;所述装置还包括:
用户分析模块,用于在预设格式的日志信息中提取关键字段;根据所述关键字段查询是否存在相应的业务信息;当存在与所述关键字段对应的业务信息时,将所述用户标识记录为留存用户;当不存在与所述关键字中相对应的业务信息时,识别所述用户标识是否属于待沟通用户;若属于待沟通用户,则生成相应的提示信息,将所述提示信息发送至坐席终端。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
上述日志文件格式处理方法、装置、计算机设备和存储介质,服务器中建立了对日志信息进行格式转换的神经网络模型,并且对神经网络模型进行了训练。多个用户终端可以分别向服务器上传不同格式的日志文件。服务器对接收的日志文件进行解析,得到相应的日志信息。服务器对日志信息进行分词处理,可以得到每项日志信息对应的多个词。其中,每个词都具有对应的编码。通过获取每项日志信息中的多个词所对应的多个编码,将相应编码输入至训练后的神经网络模型中。由于神经网络模型是经过训练的,由此可以通过训练后的神经网络模型输出与所述日志信息对应的预设格式的描述。从而实现了对多种格式的日志文件进行格式统一。
附图说明
图1为一个实施例中日志文件格式处理方法的应用场景图;
图2为一个实施例中日志文件格式处理方法的流程示意图;
图3为一个实施例中利用统一格式后的日志信息进行用户分析的步骤的流程示意图;
图4为一个实施例中日志文件格式处理装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的日志文件格式处理方法,可以应用于如图1所示的应用环境中。其中,用户终端102通过网络与服务器104进行通信。其中,用户终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104上建立了神经网络模型,以及对神经网络模型进行训练。用户终端102可以预先安装了应用程序。应用程序在用户终端102运行时,同时记录相应的日志文件。用户终端102将日志文件上传至服务器104。服务器104接收多个用户终端上传的日志文件,对日志文件进行解析,得到多项日志信息。服务器104对日志信息进行分词处理,得到每项日志信息中的多个词。其中,每个词都具有对应的编码。服务器104获取每项日志信息中的多个词所对应的多个编码,基于日志信息将多个编码输入至训练后的神经网络模型,通过训练后的神经网络模型进行运算,输出预设格式的日志信息。由此实现了对多种格式的日志文件进行格式统一。
在一个实施例中,如图2所示,提供了一种日志文件格式处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,建立神经网络模型,对神经网络模型进行训练,神经网络模型用于对日志信息进行格式转换。
服务器上建立了神经网络模型。神经网络模型用于对日志信息进行格式转换,以此将多种不同格式的日志信息转换为统一的预设格式。该神经网络模型包括输入层、隐含层和输出层。神经网络模型可以采用多层循环神经网络。其中,隐含层可以有多层,例如,可以是2层、4层或者6层等。服务器上部署了数据库,数据库中存储了大量的样本文件。样本文件中记录了日志信息。服务器可以按特定比例,将样本文件中的日志信息标记为训练数据。多个训练数据组成训练集。训练集中的每项日志信息都包含多个训练词。服务器中还预先存储了日志信息对应的映射文件。映射文件中记录了日志信息中多个训练词的原始描述与预设格式的描述。
在训练时,为了固定神经网络模型,使得训练后的神经网络模型具有通用性,可以适应于更多种日志格式,神经网络模型还可以被设置最长输入参数以及最长输出参数。最长输入参数与最长输出参数的值相同。服务器可以统计每项日志信息中训练词的词汇数量,得到最大词汇数量,将最大词汇数量标记为最长输入参数。对于词汇数量小于最长输入参数的日志信息,服务器可以根据该日志信息的词汇数量与最长输入参数增加相应数量的预设字符。预设字符可以是与日志信息不冲突的字符,如空字符等。服务器利用最长输入参数以及映射文件对神经网络模型进行训练,得到日志信息中多个训练词对应的预设格式的描述。
步骤204,接收多个用户终端上传的日志文件,对日志文件进行解析,得到多项日志信息。
步骤206,对每项日志信息进行分词处理,得到每项日志信息中的多个词,其中,每个词都具有对应的编码。
用户终端可以预先安装了应用程序。应用程序在用户终端运行时,同时记录相应的日志文件。日志文件可以按照一定频率由用户终端上传至服务器。服务器可以接收多个用户终端上传的多种不同应用程序生成的日志文件。服务器对日志文件进行解析,得到与应用程序对应格式的日志信息。不同应用程序生成的日志文件,可以解析得到不同格式的日志信息。例如,日志信息可以是“2018.3.3查询按钮被点击,用户张三”,也可以是“2018-3-3,张三,点击查询按钮”。
服务器对解析得到的每项日志信息进行分词处理,得到相应的多个词。分词处理后得到的词中包括时间,服务器可以时间进行标准化处理,即采用统一的时间格式。例如,2018.3.3被标准化为2018-3-3。
步骤208,获取每项日志信息中的多个词所对应的多个编码,基于每项日志信息将多个编码输入至训练后的神经网络模型。
步骤210,通过训练后的神经网络模型进行运算,输出预设格式的日志信息。
由于神经网络只接受数值输入,服务器器可以在神经网络模型训练时,预先生成一个词汇表,词汇表中包括多个词,每个词都预先进行了编码。服务器在对分词后,可以在词汇表中查询每项日志信息中的每个词对应的编码。服务器将每项日志信息中多个词对应的多个编码输入至训练后的神经网络模型。通过训练后的神经网络模型输出与日志信息对应的预设格式的描述。例如,原始的日志信息为“2018.3.3查询按钮被点击,用户张三”,通过训练后的神经网络模型运算之后,输出的日志信息为“用户:张三;操作:点击查询按钮;时间:2018-3-3”。由此将不同格式的日志文件转换为相同格式。
本实施例中,服务器中建立了对日志信息进行格式转换的神经网络模型,并且对神经网络模型进行了训练。多个用户终端可以分别向服务器上传不同格式的日志文件。服务器对接收的日志文件进行解析,得到相应的日志信息。服务器对日志信息进行分词处理,可以得到每项日志信息对应的多个词。其中,每个词都具有对应的编码。通过获取每项日志信息中的多个词所对应的多个编码,将相应编码输入至训练后的神经网络模型中。由于神经网络模型是经过训练的,由此可以通过训练后的神经网络模型输出与日志信息对应的预设格式的描述。从而实现了对多种格式的日志文件进行格式统一。
在一个实施例中,对神经网络模型进行训练包括:获取训练集,训练集中包括多项样本日志信息以及样本日志信息对应的多个训练词;统计多项样本日志信息中训练词的词汇数量,得到最大词汇数量;将最大词汇数量标记为最长输入参数;获取样本日志信息对应的映射文件,映射文件中记录了样本日志信息中多个训练词的原始描述与预设格式的描述;利用最长输入参数以及映射文件对神经网络模型进行训练,得到样本日志信息中多个训练词对应的预设格式的描述。
服务器的数据库中存储了大量的样本文件。样本文件中记录了样本日志信息。服务器对样本文件中的样本日志信息进行预处理之后,可以选出多个词,利用选出的词,建立相应的词汇表。词汇表中记录了每个词在词汇表中的位置。通过词汇表中的多个词可以生成相应的训练集。生成训练集的词又可以称为训练词。
神经网络模型中包括多层隐含层,每层隐含层包括向前推算层以及向后推算层,也可以称为是双向推算的隐含层。第一层的隐含层包括第一向前推算层和第一向后推算层,第二层的隐含层包括第二向前推算层和第二向后推算层,第三层的隐含层包括第三向前推算层和第三向后推算层,以此类推。
输入层与第一层的隐含层之间设置了相应的权重矩阵。即输入层与第一向前推算层以及输入层与第一向后推算层之间分别设置了相应的权重矩阵。在传统的方式中,第一向前推算层和第一向后推算层所对应的权重矩阵均被初始化为随机向量,但这可能会导致神经网络模型的收敛效果较差,输出结果无法满足要求。
在本实施例中,服务器采用样本日志信息中多个训练词对应的权重矩阵作为神经网络模型中输入层与第一隐含层之间的权重矩阵。其中,权重矩阵可以是服务器利用词向量模型对训练词计算所得到的。服务器中还建立了词向量模型,词向量模型可以采用Skip-Gram模型,即该模型可以采用神经网络结构,包括输入向量、隐含层以及输出层。在传统的方式中,是通过该模型的输出层输出最终结果,而最终结果是一个概率分布。这种概率分布并不适用于本实施例中的神经网络模型。因此,本实施例中,仅采用该模型的输入向量与隐含层的结构,通过隐含层输出多个训练词的权重向量即可,不再继续通过输出层进行运算。该权重向量能够反映样本日志信息中每个词的矢量,从而能够有效提高神经网络模型的收敛效率,进而能够提高输出结果的准确性。
其中,第一向前推算层和第一向后推算层各自对应的权重矩阵互不相同。服务器按照样本日志信息中多个训练词的描述顺序可以获取每个训练词对应的权重向量,每个训练词对应的权重向量可以是一个向量数组。服务器利用多个词对应的权重向量,生成多个训练词对应的向前推算的权重矩阵。服务器按照样本日志信息中多个训练词相反的描述顺序可以获取相应每个词的权重向量,进而生成多个训练词对应的向后推算的权重矩阵。向前推算的权重矩阵即为神经网络模型中输入层与第一向前推算层之间的权重矩阵。向后推算的权重矩阵即为神经网络模型中输入层与第一向后推算层之间的权重矩阵。
在对神经网络模型进行训练时,为了固定神经网络模型,使得训练后的神经网络模型具有通用性,可以适应于更多种日志格式,神经网络模型还可以被设置最长输入参数以及最长输出参数。最长输入参数与最长输出参数的值相同。服务器可以统计每项样本日志信息中训练词的词汇数量,得到最大词汇数量,将最大词汇数量标记为最长输入参数。对于词汇数量小于最长输入参数的样本日志信息,服务器可以根据该样本日志信息的词汇数量与最长输入参数增加相应数量的预设字符。预设字符可以是与样本日志信息不冲突的字符,如空字符等。服务器利用最长输入参数以及映射文件对神经网络模型进行训练,得到样本日志信息中多个训练词对应的预设格式的描述。
由于神经网络模型只接受数值输入,因此在训练时,服务器还会根据训练词生成相应的训练词汇表。训练词汇表中包含每个训练词对应的编码。在服务器对样本日志信息进行分词处理后,可以通过该训练词汇表查询每项样本日志信息中的训练词所对应的编码。服务器将样本日志信息的多个训练词的编码输入至神经网络模型的输入层。输入层通过激活函数激活第一向前推算层的权重矩阵,以及激活第一向后推算层的权重矩阵,结合第一向前推算层的初始权重矩阵以及第一向后推算层的初始权重矩阵开始进行运算,直至输出与映射文件中的预设格式相对应的描述。
在训练的过程中,由于采用了词向量模型计算得到的每个训练词权重向量,由此能够更加准确的反映每个训练词的矢量状况,有效提高神经网络模型的收敛效果,从而能够提高神经网络模型训练的准确性。通过设置最长输入参数,使得每项样本日志信息对应的词汇量均达到与最长数据参数相同的数量,即使得每项样本日志信息对应的词汇量均相同,由此使得训练后的神经网络模型具有通用性。无需训练多种模型,即可适应于更多种日志格式,有效减少了开发人员的工作量。
在一个实施例中,在通过训练后的神经网络模型进行运算,输出预设格式的日志信息之后,该方法还包括:利用统一格式后的日志信息进行用户分析的步骤。如图3所示,该步骤具体包括:
步骤302,在预设格式的日志信息中提取关键字段。
步骤304,根据关键字段查询是否存在相应的业务信息;若存在与关键字段对应的业务信息,则执行步骤306;否则,执行步骤308。
步骤306,将用户标识记录为留存用户。
步骤308,识别用户标识是否属于待沟通用户;若属于待沟通用户,则执行步骤310,否则,结束。
步骤310,生成相应的提示信息,将提示信息发送至坐席终端。
服务器可以利用统一格式后的日志信息进行用户分析。服务器在预设格式的日志信息中提取关键字段,例如,“用户”、“时间”“操作”等关键字段。其中,服务器可以通过预设时间段内的预设格式的日志信息进行用户类型识别。用户类型包括留存用户以及待沟通用户。其中,留存用户是指已经使用应用程序办理业务,经过一段时间后,仍然继续使用该应用程序办理业务的用户。待沟通用户是指已经按照了应用程序,但尚未成功办理业务的用户。
服务器可以针对每个用户标识,查询是否存在关键字段对应的业务信息。如果存在相应的业务信息,则将该用户标识记录为留存用户。否则,获取该用户标识对应的用户信息以便识别该用户是否为待沟通用户。例如,服务器可以对每个用户标识对应的近期1个月内的关键字段进行分析,若关键字段中包括险种测算、违章查询等,可以根据用户标识在其他业务系统对应的数据库中查询是否存在1月内该用户对应的业务信息。若存在相应的业务信息,如业务员、保单信息等,则确定该用户为留存用户。若根据用户的操作,在其他业务系统中未查询到相应的业务信息,则服务器在其他数据库中查询该用户的用户信息,以便判断该用户是否值得主动沟通。
在其中一个实施例中,识别用户标识是否属于待沟通用户包括:根据用户标识获取相应的用户信息,用户信息包括多个维度;获取每个维度的用户信息对应的权重;利用多个维度的用户信息以及相应权重计算客户得分;当客户得分达到第一阈值时,将用户标识记录为待沟通用户。
如果服务器根据客户标识未能查询到相应的业务信息,则服务器继续根据客户标识查询对应的用户信息。用户信息可以有多个维度,例如,职业、收入、年龄等。每个维度可以预先配置了相应的权重,也可以称为第一权重。每个维度可以包括多种范围,每个范围也可以预设设置相应的权重,也可以称为第二权重。
例如,职业这一维度的第一权重为1,收入这一维度的第一权重为3,年龄这一维度的第一权重为2等。而收入这一维度中,年收入在50万以上的,第二权重为50%,年收入在20万~50万之间的,第二权重为30%,年收入在10万~20万之间的,第二权重为20%,年收入在10万以下的,第二权重为10%。
服务器利用第一权重与第二权重的乘积,可以计算得到每个维度的分数,利用多个维度的分数进行累加,得到客户得分。当客户得到达到第一阈值时,该客户为值得主动沟通的客户,服务器将用户标识记录为待沟通用户。服务器可以利用多个待沟通用户生成待沟通用户名单,将待沟通用户名单发送至坐席终端。由此可以通过坐席与用户进行主动沟通,以便能够争取到更多客户。
在日志信息的格式统一为预设格式之后,服务器可以利用预设格式的日志信息进行用户分析,从而能够识别用户是留存用户还是需要主动沟通的用户。对于需要主动沟通的用户,可以由坐席主动联系用户,以便争取更多客户。
在一个实施例中,日志信息中包括用户标识;该方法还包括:在预设格式的日志信息中获取与用户标识对应的错误;对预设时间内的错误数量进行统计,得到错误统计值;当错误统计值达到第二阈值时,生成报警信息,将报警信息发送至开发终端。
用户终端按照预设频率将日志文件上传至服务器之后,服务器对日志文件进行格式统一。格式进行统一之后,服务器可以在预设格式的日志信息中获取用户标识对应的错误。错误可以包括服务器向用户终端返回数据出错的多种错误。服务器可以对预设时间内的错误数量进行统计,得到错误统计值。当错误统计值达到第二阈值时,生成相应的报警信息,并且将报警信息发送至开发人员对应的终端。由此可以方便开发人员及时对服务器的运行以及对应用程序进行维护。
进一步的,服务器还可以利用统一格式后的日志信息,提取同一用户在同一时间内的多次相同的操作数据。同一时间可以是一个非常短暂的时间间隔,例如1秒钟。如果在同一时间的相同的操作数据达到第三阈值,则表示用户终端中所安装的应用程序出现运行故障,从而可以对应用程序的健壮性进行分析。
应该理解的是,虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种日志文件格式处理装置,包括:模型建立模块402、日志获取模块404、格式统一模块406,其中:
模型建立模块402,用于建立神经网络模型,对神经网络模型进行训练,神经网络模型用于对日志信息进行格式转换。
日志获取模块404,用于接收多个用户终端上传的日志文件,对日志文件进行解析,得到多项日志信息。
格式统一模块406,用于对每项日志信息进行分词处理,得到每项日志信息中的多个词,其中,每个词都具有对应的编码;获取每项日志信息中的多个词所对应的多个编码,基于每项日志信息将多个编码输入至训练后的神经网络模型;通过训练后的神经网络模型进行运算,输出预设格式的日志信息。在一个实施例中,模型建立模块还用于获取训练集,训练集中包括多项样本日志信息以及样本日志信息对应的多个训练词;统计多项样本日志信息中训练词的词汇数量,得到最大词汇数量;将最大词汇数量标记为最长输入参数;获取样本日志信息对应的映射文件,映射文件中记录了样本日志信息中多个训练词的原始描述与预设格式的描述;利用最长输入参数以及映射文件对神经网络模型进行训练,得到样本日志信息中多个训练词对应的预设格式的描述。
在一个实施例中,日志信息中包括用户标识;该装置还包括:用户分析模块,用于在预设格式的日志信息中提取关键字段;根据关键字段查询是否存在相应的业务信息;当存在与关键字段对应的业务信息时,将用户标识记录为留存用户;当不存在与关键字中相对应的业务信息时,识别用户标识是否属于待沟通用户;若属于待沟通用户,则生成相应的提示信息,将提示信息发送至坐席终端。
在一个实施例中,用户分析模块还用于根据用户标识获取相应的用户信息,用户信息包括多个维度;获取每个维度的用户信息对应的权重;利用多个维度的用户信息以及相应权重计算客户得分;当客户得分达到第一阈值时,将用户标识记录为待沟通用户。
在一个实施例中,日志信息中包括用户标识;该装置还包括:预警模块,用于在预设格式的日志信息中获取与用户标识对应的错误;对预设时间内的错误数量进行统计,得到错误统计值;当错误统计值达到第二阈值时,生成报警信息,将报警信息发送至开发终端。
关于日志文件格式处理装置的具体限定可以参见上文中对于日志文件格式处理方法的限定,在此不再赘述。上述日志文件格式处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储日志文件等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种日志文件格式处理方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种日志文件格式处理方法,所述方法包括:
建立神经网络模型,对所述神经网络模型进行训练,所述神经网络模型用于对日志信息进行格式转换;
接收多个用户终端上传的日志文件,对所述日志文件进行解析,得到多项日志信息;
对每项日志信息进行分词处理,得到每项日志信息中的多个词,其中,每个词都具有对应的编码;
获取每项日志信息中的多个词所对应的多个编码,基于每项日志信息将所述多个编码输入至训练后的神经网络模型;
通过所述训练后的神经网络模型进行运算,输出预设格式的日志信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述神经网络模型进行训练包括:
获取训练集,所述训练集中包括多项样本日志信息以及样本日志信息对应的多个训练词;
统计所述多项样本日志信息中训练词的词汇数量,得到最大词汇数量;
将所述最大词汇数量标记为最长输入参数;
获取所述样本日志信息对应的映射文件,所述映射文件中记录了样本日志信息中多个训练词的原始描述与预设格式的描述;
利用所述最长输入参数以及所述映射文件对神经网络模型进行训练,得到所述样本日志信息中多个训练词对应的预设格式的描述。
3.根据权利要求1所述的方法,其特征在于,所述日志信息中包括用户标识;在所述通过所述训练后的神经网络模型进行运算,输出预设格式的日志信息之后,所述方法还包括:
在预设格式的日志信息中提取关键字段;根据所述关键字段查询是否存在相应的业务信息;
当存在与所述关键字段对应的业务信息时,将所述用户标识记录为留存用户;
当不存在与所述关键字中相对应的业务信息时,识别所述用户标识是否属于待沟通用户;若属于待沟通用户,则生成相应的提示信息,将所述提示信息发送至坐席终端。
4.根据权利要求3所述的方法,其特征在于,所述识别所述用户标识是否属于待沟通用户包括:
根据所述用户标识获取相应的用户信息,所述用户信息包括多个维度;
获取每个维度的用户信息对应的权重;
利用多个维度的用户信息以及相应权重计算客户得分;
当所述客户得分达到第一阈值时,将所述用户标识记录为待沟通用户。
5.根据权利要求1所述的方法,其特征在于,所述日志信息中包括用户标识;所述方法还包括:
在预设格式的日志信息中获取与用户标识对应的错误;
对预设时间内的错误数量进行统计,得到错误统计值;
当所述错误统计值达到第二阈值时,生成报警信息,将所述报警信息发送至开发终端。
6.一种日志文件格式处理装置,其特征在于,所述装置包括:
模型建立模块,用于建立神经网络模型,对所述神经网络模型进行训练,所述神经网络模型用于对日志信息进行格式转换;
日志获取模块,用于接收多个用户终端上传的日志文件,对所述日志文件进行解析,得到多项日志信息;
格式统一模块,用于对每项日志信息进行分词处理,得到每项日志信息中的多个词,其中,每个词都具有对应的编码;获取每项日志信息中的多个词所对应的多个编码,基于每项日志信息将所述多个编码输入至训练后的神经网络模型;通过所述训练后的神经网络模型进行运算,输出预设格式的日志信息。
7.根据权利要求6所述的装置,其特征在于,所述模型建立模块还用于获取训练集,所述训练集中包括多项样本日志信息以及样本日志信息对应的多个训练词;统计所述多项样本日志信息中训练词的词汇数量,得到最大词汇数量;将所述最大词汇数量标记为最长输入参数;获取所述样本日志信息对应的映射文件,所述映射文件中记录了样本日志信息中多个训练词的原始描述与预设格式的描述;利用所述最长输入参数以及所述映射文件对神经网络模型进行训练,得到所述样本日志信息中多个训练词对应的预设格式的描述。
8.根据权利要求6所述的装置,其特征在于,所述日志信息中包括用户标识;所述装置还包括:
用户分析模块,用于在预设格式的日志信息中提取关键字段;根据所述关键字段查询是否存在相应的业务信息;当存在与所述关键字段对应的业务信息时,将所述用户标识记录为留存用户;当不存在与所述关键字中相对应的业务信息时,识别所述用户标识是否属于待沟通用户;若属于待沟通用户,则生成相应的提示信息,将所述提示信息发送至坐席终端。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201811021418.5A 2018-09-03 2018-09-03 日志文件格式处理方法、装置、计算机设备和存储介质 Pending CN109271356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811021418.5A CN109271356A (zh) 2018-09-03 2018-09-03 日志文件格式处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811021418.5A CN109271356A (zh) 2018-09-03 2018-09-03 日志文件格式处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109271356A true CN109271356A (zh) 2019-01-25

Family

ID=65187796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811021418.5A Pending CN109271356A (zh) 2018-09-03 2018-09-03 日志文件格式处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109271356A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555007A (zh) * 2019-09-09 2019-12-10 成都西山居互动娱乐科技有限公司 盗号行为判别方法、装置、计算设备及存储介质
CN111177100A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 一种训练数据处理方法、装置及存储介质
CN112699010A (zh) * 2019-10-22 2021-04-23 北京沃东天骏信息技术有限公司 处理崩溃日志的方法和装置
CN113342742A (zh) * 2021-05-24 2021-09-03 浪潮软件股份有限公司 基于全文检索数据库的日志检索方法及系统
CN114328076A (zh) * 2021-09-18 2022-04-12 腾讯科技(深圳)有限公司 日志信息提取方法、装置、计算机设备和存储介质
CN115544975A (zh) * 2022-12-05 2022-12-30 济南丽阳神州智能科技有限公司 一种日志格式转换方法及设备
CN115579132A (zh) * 2022-12-09 2023-01-06 智慧中医科技(广东)有限公司 基于中医诊疗经验文件格式的验证方法、装置及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670708A (zh) * 2004-03-17 2005-09-21 联想(北京)有限公司 一种计算机日志的管理方法
CN103823811A (zh) * 2012-11-19 2014-05-28 北京百度网讯科技有限公司 用于处理日志的方法及其系统
CN105787100A (zh) * 2016-03-18 2016-07-20 浙江大学 一种基于深度神经网络的用户会话推荐方法
CN106649890A (zh) * 2017-02-07 2017-05-10 税云网络科技服务有限公司 数据存储方法和装置
US20170293543A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Mobile phone with system failure prediction using long short-term memory neural networks
CN107392024A (zh) * 2017-08-08 2017-11-24 微梦创科网络科技(中国)有限公司 一种恶意程序的识别方法及装置
CN107659566A (zh) * 2017-09-20 2018-02-02 深圳市创梦天地科技股份有限公司 对服务器异常访问的识别频率确定方法、装置及服务器
CN108306997A (zh) * 2018-01-25 2018-07-20 中国工商银行股份有限公司 域名解析监控方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1670708A (zh) * 2004-03-17 2005-09-21 联想(北京)有限公司 一种计算机日志的管理方法
CN103823811A (zh) * 2012-11-19 2014-05-28 北京百度网讯科技有限公司 用于处理日志的方法及其系统
CN105787100A (zh) * 2016-03-18 2016-07-20 浙江大学 一种基于深度神经网络的用户会话推荐方法
US20170293543A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Mobile phone with system failure prediction using long short-term memory neural networks
CN106649890A (zh) * 2017-02-07 2017-05-10 税云网络科技服务有限公司 数据存储方法和装置
CN107392024A (zh) * 2017-08-08 2017-11-24 微梦创科网络科技(中国)有限公司 一种恶意程序的识别方法及装置
CN107659566A (zh) * 2017-09-20 2018-02-02 深圳市创梦天地科技股份有限公司 对服务器异常访问的识别频率确定方法、装置及服务器
CN108306997A (zh) * 2018-01-25 2018-07-20 中国工商银行股份有限公司 域名解析监控方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555007A (zh) * 2019-09-09 2019-12-10 成都西山居互动娱乐科技有限公司 盗号行为判别方法、装置、计算设备及存储介质
CN110555007B (zh) * 2019-09-09 2023-09-05 成都西山居互动娱乐科技有限公司 盗号行为判别方法、装置、计算设备及存储介质
CN112699010A (zh) * 2019-10-22 2021-04-23 北京沃东天骏信息技术有限公司 处理崩溃日志的方法和装置
CN111177100A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 一种训练数据处理方法、装置及存储介质
CN111177100B (zh) * 2020-01-02 2023-05-12 腾讯科技(深圳)有限公司 一种训练数据处理方法、装置及存储介质
CN113342742A (zh) * 2021-05-24 2021-09-03 浪潮软件股份有限公司 基于全文检索数据库的日志检索方法及系统
CN114328076A (zh) * 2021-09-18 2022-04-12 腾讯科技(深圳)有限公司 日志信息提取方法、装置、计算机设备和存储介质
CN114328076B (zh) * 2021-09-18 2024-04-30 腾讯科技(深圳)有限公司 日志信息提取方法、装置、计算机设备和存储介质
CN115544975A (zh) * 2022-12-05 2022-12-30 济南丽阳神州智能科技有限公司 一种日志格式转换方法及设备
CN115544975B (zh) * 2022-12-05 2023-03-10 济南丽阳神州智能科技有限公司 一种日志格式转换方法及设备
CN115579132A (zh) * 2022-12-09 2023-01-06 智慧中医科技(广东)有限公司 基于中医诊疗经验文件格式的验证方法、装置及系统
CN115579132B (zh) * 2022-12-09 2023-08-22 智慧中医科技(广东)有限公司 基于中医诊疗经验文件格式的验证方法、装置及系统

Similar Documents

Publication Publication Date Title
CN109271356A (zh) 日志文件格式处理方法、装置、计算机设备和存储介质
CN109445842A (zh) 规则生成方法、装置、计算机设备和存储介质
CN109299094A (zh) 数据表处理方法、装置、计算机设备和存储介质
CN109977389A (zh) 表单录入方法、装置、计算机设备和存储介质
US20190392258A1 (en) Method and apparatus for generating information
CN109816503A (zh) 财务明细数据生成方法、装置、计算机设备和存储介质
CN111125598A (zh) 数据智能查询方法、装置、设备及存储介质
CN111475324B (zh) 日志信息的分析方法、装置、计算机设备和存储介质
CN109523117A (zh) 风险预测方法、装置、计算机设备和存储介质
CN109726372B (zh) 基于通话记录的工单的生成方法、装置及计算机可读介质
CN110674188A (zh) 一种特征提取方法、装置及设备
CN110471820A (zh) 一种基于循环神经网络的云存储系统磁盘故障预测方法
CN109800278A (zh) 数据资产图谱使用方法、装置、计算机设备和存储介质
CN109543073A (zh) 企业供销关系图谱生成方法、装置和计算机设备
CN110471838A (zh) 测试用例的校验方法、装置、计算机设备和存储介质
CN110046806A (zh) 用于客服派单的方法、装置和计算设备
CN106445815A (zh) 一种自动化测试方法及装置
CN109783788A (zh) 数据表填补方法、装置、计算机设备和存储介质
CN111143434A (zh) 数据智能核对方法、装置、设备及存储介质
CN110298007A (zh) 用户行为统计方法、装置、电子设备及计算机可读存储介质
CN107392560A (zh) 一种基于互联网的Excel表格数据发布采集方法及系统
CN116561003A (zh) 测试数据生成方法、装置、计算机设备和存储介质
CN106294115A (zh) 一种应用系统迁移性的测试方法及装置
CN110138743A (zh) 资源申请文件的获取方法、装置、计算机设备和存储介质
CN114358903A (zh) 基于rpa的多系统账务核对方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination