CN112364163A - 日志的缓存方法、装置以及计算机设备 - Google Patents

日志的缓存方法、装置以及计算机设备 Download PDF

Info

Publication number
CN112364163A
CN112364163A CN202011249541.XA CN202011249541A CN112364163A CN 112364163 A CN112364163 A CN 112364163A CN 202011249541 A CN202011249541 A CN 202011249541A CN 112364163 A CN112364163 A CN 112364163A
Authority
CN
China
Prior art keywords
log
real
time
category
logs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011249541.XA
Other languages
English (en)
Inventor
袁康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Innovation and Entrepreneurship Technology Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202011249541.XA priority Critical patent/CN112364163A/zh
Publication of CN112364163A publication Critical patent/CN112364163A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种日志的缓存方法、装置以及计算机设备,其中,方法包括:检测实时日志的数量是否达到了预设数量;若达到了预设数量,则检测各所述实时日志的类别;根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签;将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志;将所述目标日志保存缓存数据库中。本发明的有益效果:实现对实时日志的分类高效处理,加快了缓存数据库处理单个实时日志的速度,另外,通过对应的日志处理模型进行处理,也能提高处理结果的精确度。

Description

日志的缓存方法、装置以及计算机设备
技术领域
本发明涉及数据处理领域,特别涉及一种日志的缓存方法、装置以及计算机设备。
背景技术
目前,很多公司的风控系统,日志采用批量实时提交的方式存储到数据库,当系统并发高时产生大量日志,会占用大量数据库连接,数据库响应变慢,接口响应随之变慢,降低系统性能。目前,针对大量日志的处理方法仅仅是增加服务器的处理性能,但是仍未能很好的解决系统性能降低的问题,当产生大量日志时,进行日志记录会产生堵塞,从而使系统性能降低。因此亟需一种日志的缓存方法。
发明内容
本发明的主要目的为提供一种日志的缓存方法、装置以及计算机设备,旨在解决当产生大量日志时,进行日志记录会产生堵塞的问题。
本发明提供了一种日志的缓存方法,包括:
检测实时日志的数量是否达到了预设数量;
若达到了预设数量,则检测各所述实时日志的类别;
根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签;
将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志;其中,所述目标日志携带有所述实时日志对应的所述TOKEN标签;
根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中。
进一步地,所述检测各所述实时日志的类别的步骤,包括:
将所述实时日志输入至预设的向量机中,得到对应固定维度的实时日志向量X=(x1,x2,…,xi,…,xn);
根据公式
Figure BDA0002771164280000021
计算所述实时日志向量与每个消息队列对应的预存类别向量之间的匹配度;其中,所述Y为各消息队列对应的预存类别向量的多维坐标,Y=(y1,y2,…,yi,…,yn),xi表示实时日志向量中第i维的数值,yi表示消息队列对应的预存类别向量中第i维的数值,si为第i维数据所对应的系数,p为设定的参数值;
根据所述匹配度得到各所述实时日志的类别。
进一步地,所述将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志的步骤,包括:
获取接收了所述实时日志后的各消息队列的长度,并根据各消息队列的长度建立长度集合;
根据公式Δdmax=max(|li-lj|)计算所述长度集合中最大长度差;其中,所述Δdmax表示所述最大长度差,li和lj分别表示所述长度集合中任意两个不同的消息队列长度,max(|li-lj|)表示|li-lj|计算得到的最大值;
判断所述最大长度差是否超过了长度预设值;
若超过了长度预设值,则将处理所述长度集合中长度最小的消息队列的第一日志处理模型,在处理完毕长度最小的消息队列后,获取处理所述长度集合中长度最大的消息队列对应的第二日志处理模型中的参数数据;
将所述第二日志处理模型中的参数数据迁移至所述第一日志模型中,并接收长度最大的消息队列中未处理的实时日志进行处理。
进一步地,所述将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志的步骤之前,包括:
获取训练数据,并将所述训练数据中的各个样本数据进行分类处理;
将各类别的所述样本数据输入至对应的日志处理初始模型中进行训练,训练完毕后得到各类别对应的所述日志处理模型。
进一步地,所述获取训练数据,并将所述训练数据中的各个样本数据进行分类处理的步骤,包括:
从训练数据库中获取所述训练数据;
将所述训练数据中的各个样本数据进行向量化处理,得到各样本数据对应的样本向量;
根据公式
Figure BDA0002771164280000031
计算所述样本向量与各类别对应的类别向量的相似度;其中,所述
Figure BDA0002771164280000032
表示所述样本向量,所述
Figure BDA0002771164280000033
表示所述类别向量;
根据所述样本数据与各类别对应的类别向量的相似度,将所述样本数据进行分类处理。
进一步地,所述根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中的步骤,包括:
获取所述申请号对应的各所述目标日志的特征值;
将各所述目标日志的特征值与所述缓存数据库中的层级类别进行相似度比较;
根据所述相似度比较的结果将各所述目标日志缓存至各自相似度最高的层级目录下。
进一步地,所述根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签的步骤之后,还包括:
遍历所述消息队列中各实时日志的TOKEN标签,判断所述消息队列中的所述目标日志是否均已上传至所述消息队列中;
若存在有未上传至所述消息队列中的所述实时日志,则根据所述TOKEN标签检测未上传的所述实时日志;
将未上传的所述实时日志重新上传至所述消息队列中。
本发明提供了一种日志的缓存装置,包括:
预设数量检测模块,用于检测实时日志的数量是否达到了预设数量;
类别检测模块,用于若达到了预设数量,则检测各所述实时日志的类别;
实时日志接收模块,用于根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签;
解耦模块,用于将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志;其中,所述目标日志携带有所述实时日志对应的所述TOKEN标签;
保存模块,用于根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过监控实时日志的数量,当实时日志的数量达到预设数量时,则通过消息队列将实时日志分类接收,然后再发送至对应的日志处理模型中进行处理,对各个实时日志进行解耦处理,以缩小实时日志文件的大小,得到目标日志,然后根据标签将目标日志保存在对应申请号的缓存数据库中。从而实现对实时日志的分类高效处理,加快了缓存数据库处理单个实时日志的速度,另外,通过对应的日志处理模型进行处理,也能提高处理结果的精确度。
附图说明
图1是本发明一实施例的一种日志的缓存方法的流程示意图;
图2是本发明一实施例的一种日志的缓存方法的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种日志的缓存方法,包括:
S1:检测实时日志的数量是否达到了预设数量;
S2:若达到了预设数量,则检测各所述实时日志的类别;
S3:根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签;
S4:将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志;其中,所述目标日志携带有所述实时日志对应的所述TOKEN标签。
S5:根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中。
如上述步骤S1所述,当实时日志的数量比较多时,会占用大量的缓存数据库连接,导致接口响应变慢,甚至造成死机等情况,因此,可以检测实时日志的数量是否达到了预设数量,当没有达到时,可以对实时日志进行解耦,然后保存至缓存数据库中正常处理,具体的检测方式是,可以通过监控工具对每个申请号进行监控,监控工具可以是Prometheus,Graphite,InfluxDB等,然后通过计数器对实时日志进行统计,即得到了实时日志的数量。
如上述步骤S2所述,当达到了预设数量时,可以检测各实时日志的类别,由于各申请号对应的用户会使用不同的功能,进行不同的操作,因此可以根据其产生的实时日志中的内容,判断实时日志的类别,其中,类别为事先划分的类别,如访问的网站类别,操作类别等。
如上述步骤S3所述,根据日志的类别,通过对应的消息队列进行接收实时日志,由于每个实时日志是对应申请号产生的,故而可以根据实时日志的申请号设定TOKEN标签,以便于将实时日志处理之后,通过该TOKEN标签将实时日志保存在对应申请号的缓存数据库中。
如上述步骤S4所述,根据消息队列分别发送至对应类别的日志处理模型中进行处理,其中,不同类别的日志处理模型应当由对应类别的样本数据训练而成,以便于提高日志处理模型的精度,解耦的公式可以是
Figure BDA0002771164280000071
其中,α=h(‖τ‖,‖ω‖),h(‖τ‖,‖ω‖)为与ω以及τ相关的幅值函数,
Figure BDA0002771164280000072
ω表示需要解耦的第一实时日志向量,τ表示需要解耦的第二实时日志向量,ρ和β为日志处理模型根据训练得到的预设参数,θ(ω,τ)为ω与τ之间的夹角,‖τ‖表示第一实时日志向量的模,‖ω‖表示第二实时日志向量的模,fd(ω,τ)表示解耦函数。
如上述步骤S5所述,由于每个实时日志都通过TOKEN标签进行了标记,故而可以根据TOKEN标签将目标日志保存在对应申请号的缓存数据库中,从而完成对每个申请号实时日志的保存。另外需要说明的是,保存的方式可以是采用批量提交保存的方式,即将一个消息队列中的设定个数的日志批量上传至缓存数据库中,然后由对应的缓存数据库接收并保存设定个数的日志,从而完成对日志的批量保存,加快了日志的上传速度。应当理解的是,批量上传的日志数量不宜过多,否则缓存数据库的处理能力有限,容易造成崩溃。
在一个实施例中,所述检测各所述实时日志的类别的步骤S2,包括:
S201:将所述实时日志输入至预设的向量机中,得到对应固定维度的实时日志向量X=(x1,x2,…,xi,…,xn);
S202:根据公式
Figure BDA0002771164280000073
计算所述实时日志向量与每个消息队列对应的预存类别向量之间的匹配度;其中,所述Y为各消息队列对应的预存类别向量的多维坐标,Y=(y1,y2,…,yi,…,yn),xi表示实时日志向量中第i维的数值,yi表示消息队列对应的预存类别向量中第i维的数值,si为第i维数据所对应的系数,p为设定的参数值;
S203:根据所述匹配度得到各所述实时日志的类别。
如上述步骤S201-S203所述,实现了对实时日志类别的检测。具体地,可以根据实时日志的类别,将实时日志输入至对应的向量机中,得到固定维度的实时日志向量,其中固定维度是指只考虑实时日志中的维度的值,若实时日志中不包含该维度的值,则通过预设的值替代或者设该维度为0,然后再利用固定维度的实时日志向量通过公式计算与预存类别向量之间的匹配度,需要说明的是,公式是将每一维坐标进行单独比对,若前述没有获得固定维度的实时日志,则无法利用该匹配度公式进行计算,然后根据匹配度的结果,找出各实时日志对应匹配度最高的消息队列,通过匹配度最高的消息队列对应的类别作为该实时日志的类别,以便于后续对应的消息队列接收该实时日志。
在一个实施例中,所述将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志的步骤S4之前,还包括:
S311:获取接收了所述实时日志后的各消息队列的长度,并根据各消息队列的长度建立长度集合;
S312:根据公式Δdmax=max(|li-lj|)计算所述长度集合中最大长度差;其中,所述Δdmax表示所述最大长度差,li和lj分别表示所述长度集合中任意两个不同的消息队列长度,max(|li-lj|)表示|li-lj|计算得到的最大值;
S313:判断所述最大长度差是否超过了长度预设值;
S314:若超过了长度预设值,则将处理所述长度集合中长度最小的消息队列的第一日志处理模型,在处理完毕长度最小的消息队列后,获取处理所述长度集合中长度最大的消息队列对应的第二日志处理模型中的参数数据;
S315:将所述第二日志处理模型中的参数数据迁移至所述第一日志模型中,并接收长度最大的消息队列中未处理的实时日志进行处理。
如上述步骤S311-S315所述,在各消息队列接收了实时日志后,根据各消息队列的长度建立长度集合,应当理解的是,实时日志具备不同的信息量,故而也存在只有一个实时日志的消息队列的长度大于两个甚至更多实时日志的消息队列长度。因此,默认为日志处理模型处理的实时日志的速度与长度有关,然后根据公式计算最大长度差,当最大长度差大于预设值时,说明在处理过程中,短的消息队列对应的日志处理模型已处理完毕一段时间后,长的消息队列对应的日志处理模型仍在处理,此时短的消息队列对应的日志处理模型会存在相当多的一段时间空闲,因此会造成资源浪费,此时可以将长度最小的消息队列的第一日志处理模型,在处理完毕长度最小的消息队列后,获取处理所述长度集合中长度最大的消息队列对应的第二日志处理模型中的参数数据,对长度最大的消息队列中未处理的实时日志进行处理,从而有效避免了第一日志处理模型的处理时间的空缺,极大的提高了日志处理模型的综合处理效率。另外,还可以设置消息队列的监控工具,监控工具优选使用RabbitMQ,其支持查看状态与配置,健康检查,用户及权限管理,集群管理,虚拟主机/交换机/连接/队列/信道管理等操作。可以实现监控不同消息队列的处理情况,实时日志的积压情况,QPS(Queries Per Second,每秒查询率)指标等。便于对消息队列的实时调控,即实现通过第一日志处理模型处理第二日志处理模型中未处理的实时日志。
在一个实施例中,所述将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志的步骤S4之前,包括:
S321:获取训练数据,并将所述训练数据中的各个样本数据进行分类处理;
S322:将各类别的所述样本数据输入至对应的日志处理初始模型中进行训练,训练完毕后得到各类别对应的所述日志处理模型。
如上述步骤S321-S322所述,实现了对各个类别日志的训练。为了更好的训练各个类别的日志处理初始模型,使训练后的各个日志处理模型处理该类别的事情更加精确,可以将训练数据进行分类处理,分类的方法可以通过余弦相似度算法进行计算,然后将各类别的样本数据输入至对应的日志处理初始模型中进行训练,得到各类别对应的日志处理模型,使各类别的日志处理模型在处理对应类别的实时日志时更加的精确。
在一个实施例中,所述获取训练数据,并将所述训练数据中的各个样本数据进行分类处理的步骤S321,包括:
S3211:从训练数据库中获取所述训练数据;
S3212:将所述训练数据中的各个样本数据进行向量化处理,得到各样本数据对应的样本向量;
S3213:根据公式
Figure BDA0002771164280000101
计算所述样本向量与各类别对应的类别向量的相似度;其中,所述
Figure BDA0002771164280000102
表示所述样本向量,所述
Figure BDA0002771164280000103
表示所述类别向量;
S3214:根据所述样本数据与各类别对应的类别向量的相似度,将所述样本数据进行分类处理。
如上述步骤S3211-S3214所述,具体的分类方法可以是,先从训练数据库中获取大量的样本数据,然后将各个样本数据进行向量化处理,得到各样本数据对应的样本向量,然后根据公式计算样本向量与各类别对应的类别向量的相似度,然后找出各样本数据相似度最高的类别向量,将对应的样本数据归于该类别向量对应的类别中,以便于后续输入至对应类别的日志处理初始模型中进行训练,增加了训练的精度。
在一个实施例中,所述根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中的步骤S5,包括:
S501:获取所述申请号对应的各所述目标日志的特征值;
S502:将各所述目标日志的特征值与所述缓存数据库中的层级类别进行相似度比较;
S503:根据所述相似度比较的结果将各所述目标日志缓存至各自相似度最高的层级目录下。
如上述步骤S501-S503所述,实现了对目标日志的分类保存。在每个申请号对应的缓存数据库中,可以计算该目标日志与缓存数据库中的层级类别的相似度,然后将该目标日志保存至对应的缓存数据库的层级类别的目录下,完成对目标日志的分类保存处理,使后续查看该目标日志时,可以根据目标日志的类别进行查找,便于目标日志在缓存数据库中的定位,提高用户查找目标日志的效率。
在一个实施例中,所述根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签的步骤S3之后,还包括:
S401:遍历所述消息队列中各实时日志的TOKEN标签,判断所述消息队列中的所述目标日志是否均已上传至所述消息队列中;
S402:若存在有未上传至所述消息队列中的所述实时日志,则根据所述TOKEN标签检测未上传的所述实时日志;
S403:将未上传的所述实时日志重新上传至所述消息队列中。
如上述步骤S401-S403所述,实现了对消息队列接收的实时日志进行检测,判断消息队列是否接收了所有的实时日志,保证了实时日志都能上传至消息队列中。具体地,由于消息队列为每个实时日志都建立了TOKEN标签,故而可以通过初步检测TOKEN标签的数量与上传实时日志的数量是否对应,若不对应,则可以检测TOKEN标签中的内容,依次对比上传实时日志中的内容,检测出未上传成功的实时日志,再将该实时日志上传至对应的消息队列的位置处,从而保证实时日志均能上传至消息队列中。
参照图2,本发明还提供了一种日志的缓存装置,包括:
预设数量检测模块10,用于检测实时日志的数量是否达到了预设数量;
类别检测模块20,用于若达到了预设数量,则检测各所述实时日志的类别;
实时日志接收模块30,用于根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签;
解耦模块40,用于将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志;其中,所述目标日志携带有所述实时日志对应的所述TOKEN标签;
保存模块50,用于根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中。
在一个实施例中,类别检测模块20,包括:
输入子模块,用于将所述实时日志输入至预设的向量机中,得到对应固定维度的实时日志向量X=(x1,x2,…,xi,…,xn);
匹配度计算子模块,用于根据公式
Figure BDA0002771164280000121
Figure BDA0002771164280000122
计算所述实时日志向量与每个消息队列对应的预存类别向量之间的匹配度;其中,所述Y为各消息队列对应的预存类别向量的多维坐标,Y=(y1,y2,…,yi,…,yn),xi表示实时日志向量中第i维的数值,yi表示消息队列对应的预存类别向量中第i维的数值,si为第i维数据所对应的系数,p为设定的参数值;
类别计算子模块,用于根据所述匹配度得到各所述实时日志的类别。
在一个实施例中,解耦模块40,包括:
长度获取子模块,用于获取接收了所述实时日志后的各消息队列的长度,并根据各消息队列的长度建立长度集合;
最大长度差计算子模块,用于根据公式Δdmax=max(|li-lj|)计算所述长度集合中最大长度差;其中,所述Δdmax表示所述最大长度差,li和lj分别表示所述长度集合中任意两个不同的消息队列长度,max(|li-lj|)表示|li-lj|计算得到的最大值;
最大长度差判断子模块,用于判断所述最大长度差是否超过了长度预设值;
参数数据获取子模块,用于若超过了长度预设值,则将处理所述长度集合中长度最小的消息队列的第一日志处理模型,在处理完毕长度最小的消息队列后,获取处理所述长度集合中长度最大的消息队列对应的第二日志处理模型中的参数数据;
处理子模块,用于将所述第二日志处理模型中的参数数据迁移至所述第一日志模型中,并接收长度最大的消息队列中未处理的实时日志进行处理。
在一个实施例中,日志的缓存装置,还包括:
训练数据获取模块,用于获取训练数据,并将所述训练数据中的各个样本数据进行分类处理;
训练模块,用于将各类别的所述样本数据输入至对应的日志处理初始模型中进行训练,训练完毕后得到各类别对应的所述日志处理模型。
在一个实施例中,训练数据获取模块,包括:
训练数据获取子模块,用于从训练数据库中获取所述训练数据;
向量化处理子模块,用于将所述训练数据中的各个样本数据进行向量化处理,得到各样本数据对应的样本向量;
相似度计算子模块,用于根据公式
Figure BDA0002771164280000131
Figure BDA0002771164280000132
计算所述样本向量与各类别对应的类别向量的相似度;其中,所述
Figure BDA0002771164280000133
表示所述样本向量,所述
Figure BDA0002771164280000134
表示所述类别向量;
分类处理模块,用于根据所述样本数据与各类别对应的类别向量的相似度,将所述样本数据进行分类处理。
在一个实施例中,保存模块50,包括:
特征值获取子模块,用于获取所述申请号对应的各所述目标日志的特征值;
相似度比较模块,用于将各所述目标日志的特征值与所述缓存数据库中的层级类别进行相似度比较;
缓存子模块,用于根据所述相似度比较的结果将各所述目标日志缓存至各自相似度最高的层级目录下。
在一个实施例中,日志的缓存装置,还包括:
遍历模块,用于遍历所述消息队列中各实时日志的TOKEN标签,判断所述消息队列中的所述目标日志是否均已上传至所述消息队列中;
实时日志检测模块,用于若存在有未上传至所述消息队列中的所述实时日志,则根据所述TOKEN标签检测未上传的所述实时日志;
重新上传模块,用于将未上传的所述实时日志重新上传至所述消息队列中。
本发明的有益效果:通过监控实时日志的数量,当实时日志的数量达到预设数量时,则通过消息队列将实时日志分类接收,然后再发送至对应的日志处理模型中进行处理,对各个实时日志进行解耦处理,以缩小实时日志文件的大小,得到目标日志,然后根据标签将目标日志保存在对应申请号的缓存数据库中。从而实现对实时日志的分类高效处理,加快了缓存数据库处理单个实时日志的速度,另外,通过对应的日志处理模型进行处理,也能提高处理结果的精确度。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种目标日志等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的日志的缓存方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的日志的缓存方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种日志的缓存方法,其特征在于,包括:
检测实时日志的数量是否达到了预设数量;
若达到了预设数量,则检测各所述实时日志的类别;
根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签;
将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志;其中,所述目标日志携带有所述实时日志对应的所述TOKEN标签;
根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中。
2.如权利要求1所述的日志的缓存方法,其特征在于,所述检测各所述实时日志的类别的步骤,包括:
将所述实时日志输入至预设的向量机中,得到对应固定维度的实时日志向量X=(x1,x2,…,xi,…,xn);
根据公式
Figure FDA0002771164270000011
计算所述实时日志向量与每个消息队列对应的预存类别向量之间的匹配度;其中,所述Y为各消息队列对应的预存类别向量的多维坐标,Y=(y1,y2,…,yi,…,yn),xi表示实时日志向量中第i维的数值,yi表示消息队列对应的预存类别向量中第i维的数值,si为第i维数据所对应的系数,p为设定的参数值;
根据所述匹配度得到各所述实时日志的类别。
3.如权利要求1所述的日志的缓存方法,其特征在于,所述将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志的步骤,包括:
获取接收了所述实时日志后的各消息队列的长度,并根据各消息队列的长度建立长度集合;
根据公式Δdmax=max(|li-lj|)计算所述长度集合中最大长度差;其中,所述Δdmax表示所述最大长度差,li和lj分别表示所述长度集合中任意两个不同的消息队列长度,max(|li-lj|)表示|li-lj|计算得到的最大值;
判断所述最大长度差是否超过了长度预设值;
若超过了长度预设值,则将处理所述长度集合中长度最小的消息队列的第一日志处理模型,在处理完毕长度最小的消息队列后,获取处理所述长度集合中长度最大的消息队列对应的第二日志处理模型中的参数数据;
将所述第二日志处理模型中的参数数据迁移至所述第一日志模型中,并接收长度最大的消息队列中未处理的实时日志进行处理。
4.如权利要求1所述的日志的缓存方法,其特征在于,所述将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志的步骤之前,包括:
获取训练数据,并将所述训练数据中的各个样本数据进行分类处理;
将各类别的所述样本数据输入至对应的日志处理初始模型中进行训练,训练完毕后得到各类别对应的所述日志处理模型。
5.如权利要求4所述的日志的缓存方法,其特征在于,所述获取训练数据,并将所述训练数据中的各个样本数据进行分类处理的步骤,包括:
从训练数据库中获取所述训练数据;
将所述训练数据中的各个样本数据进行向量化处理,得到各样本数据对应的样本向量;
根据公式
Figure FDA0002771164270000021
计算所述样本向量与各类别对应的类别向量的相似度;其中,所述
Figure FDA0002771164270000031
表示所述样本向量,所述
Figure FDA0002771164270000032
表示所述类别向量;
根据所述样本数据与各类别对应的类别向量的相似度,将所述样本数据进行分类处理。
6.如权利要求1所述的日志的缓存方法,其特征在于,所述根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中的步骤,包括:
获取所述申请号对应的各所述目标日志的特征值;将各所述目标日志的特征值与所述缓存数据库中的层级类别进行相似度比较;
根据所述相似度比较的结果将各所述目标日志缓存至各自相似度最高的层级目录下。
7.如权利要求1所述的日志的缓存方法,其特征在于,所述根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签的步骤之后,还包括:
遍历所述消息队列中各实时日志的TOKEN标签,判断所述消息队列中的所述目标日志是否均已上传至所述消息队列中;若存在有未上传至所述消息队列中的所述实时日志,则根据所述TOKEN标签检测未上传的所述实时日志;
将未上传的所述实时日志重新上传至所述消息队列中。
8.一种日志的缓存装置,其特征在于,包括:
预设数量检测模块,用于检测实时日志的数量是否达到了预设数量;
类别检测模块,用于若达到了预设数量,则检测各所述实时日志的类别;
实时日志接收模块,用于根据各所述实时日志的类别,通过对应所述类别的消息队列接收对应的所述实时日志,并根据所述实时日志的申请号对所述实时日志设定TOKEN标签;
解耦模块,用于将各所述消息队列分别发送至对应类别的日志处理模型中进行解耦处理,得到解耦后的目标日志;其中,所述目标日志携带有所述实时日志对应的所述TOKEN标签;
保存模块,用于根据所述TOKEN标签将所述目标日志保存在对应所述申请号的缓存数据库中。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011249541.XA 2020-11-10 2020-11-10 日志的缓存方法、装置以及计算机设备 Pending CN112364163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011249541.XA CN112364163A (zh) 2020-11-10 2020-11-10 日志的缓存方法、装置以及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011249541.XA CN112364163A (zh) 2020-11-10 2020-11-10 日志的缓存方法、装置以及计算机设备

Publications (1)

Publication Number Publication Date
CN112364163A true CN112364163A (zh) 2021-02-12

Family

ID=74509519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011249541.XA Pending CN112364163A (zh) 2020-11-10 2020-11-10 日志的缓存方法、装置以及计算机设备

Country Status (1)

Country Link
CN (1) CN112364163A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282500A (zh) * 2021-06-01 2021-08-20 平安国际智慧城市科技股份有限公司 接收测试数据的方法、装置、设备及存储介质
CN113434310A (zh) * 2021-06-23 2021-09-24 未鲲(上海)科技服务有限公司 多线程任务分配方法、装置、设备及存储介质
CN113641579A (zh) * 2021-08-10 2021-11-12 中国平安人寿保险股份有限公司 数据处理方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870849A (zh) * 2016-09-28 2018-04-03 平安科技(深圳)有限公司 测试日志的处理方法和装置
CN109657125A (zh) * 2018-12-14 2019-04-19 平安城市建设科技(深圳)有限公司 基于网络爬虫的数据处理方法、装置、设备及存储介质
CN109726074A (zh) * 2018-08-31 2019-05-07 网联清算有限公司 日志处理方法、装置、计算机设备和存储介质
CN110262942A (zh) * 2019-06-13 2019-09-20 腾讯科技(成都)有限公司 一种日志分析方法及装置
CN111190876A (zh) * 2019-12-31 2020-05-22 天津浪淘科技股份有限公司 日志管理系统及其运行方法
CN111339186A (zh) * 2020-02-19 2020-06-26 平安科技(深圳)有限公司 工作流引擎数据同步方法、装置、介质及电子设备
CN111367873A (zh) * 2018-12-26 2020-07-03 深圳市优必选科技有限公司 日志数据的存储方法、装置、终端及计算机存储介质
CN111798047A (zh) * 2020-06-30 2020-10-20 平安普惠企业管理有限公司 风控预测方法、装置、电子设备及存储介质
CN111897790A (zh) * 2020-07-31 2020-11-06 平安普惠企业管理有限公司 风控日志采集方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870849A (zh) * 2016-09-28 2018-04-03 平安科技(深圳)有限公司 测试日志的处理方法和装置
CN109726074A (zh) * 2018-08-31 2019-05-07 网联清算有限公司 日志处理方法、装置、计算机设备和存储介质
CN109657125A (zh) * 2018-12-14 2019-04-19 平安城市建设科技(深圳)有限公司 基于网络爬虫的数据处理方法、装置、设备及存储介质
CN111367873A (zh) * 2018-12-26 2020-07-03 深圳市优必选科技有限公司 日志数据的存储方法、装置、终端及计算机存储介质
CN110262942A (zh) * 2019-06-13 2019-09-20 腾讯科技(成都)有限公司 一种日志分析方法及装置
CN111190876A (zh) * 2019-12-31 2020-05-22 天津浪淘科技股份有限公司 日志管理系统及其运行方法
CN111339186A (zh) * 2020-02-19 2020-06-26 平安科技(深圳)有限公司 工作流引擎数据同步方法、装置、介质及电子设备
CN111798047A (zh) * 2020-06-30 2020-10-20 平安普惠企业管理有限公司 风控预测方法、装置、电子设备及存储介质
CN111897790A (zh) * 2020-07-31 2020-11-06 平安普惠企业管理有限公司 风控日志采集方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282500A (zh) * 2021-06-01 2021-08-20 平安国际智慧城市科技股份有限公司 接收测试数据的方法、装置、设备及存储介质
CN113282500B (zh) * 2021-06-01 2023-09-22 深圳平安智慧医健科技有限公司 获取测试数据的方法、装置、设备及存储介质
CN113434310A (zh) * 2021-06-23 2021-09-24 未鲲(上海)科技服务有限公司 多线程任务分配方法、装置、设备及存储介质
CN113434310B (zh) * 2021-06-23 2024-03-22 深圳博瑞晶芯科技有限公司 多线程任务分配方法、装置、设备及存储介质
CN113641579A (zh) * 2021-08-10 2021-11-12 中国平安人寿保险股份有限公司 数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112364163A (zh) 日志的缓存方法、装置以及计算机设备
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN110807491A (zh) 车牌图像清晰度模型训练方法、清晰度检测方法及装置
CN110334702B (zh) 基于配置平台的数据传输方法、装置和计算机设备
AU2015203002B2 (en) Information processing apparatus, program, and information processing method
CN110912908A (zh) 网络协议异常检测方法、装置、计算机设备和存储介质
CN109343802B (zh) 保单打印数据生成方法、装置、计算机设备和存储介质
CN111860669A (zh) Ocr识别模型的训练方法、装置和计算机设备
CN116319777A (zh) 一种基于边缘计算的智能网关业务处理方法
CN111178203B (zh) 签名审核方法、装置、计算机设备和存储介质
CN110442764B (zh) 基于数据爬取的合约生成方法、装置和计算机设备
CN111858977A (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN112328822B (zh) 图片预标注方法、装置及终端设备
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN113506293A (zh) 一种图像处理方法、装置、设备及存储介质
CN112035664A (zh) 药品的归类方法、装置以及计算机设备
CN116340512A (zh) 虚假评论的认定方法、装置、设备及介质
CN115563275A (zh) 一种多维度自适应日志分类分级方法和装置
CN112989022B (zh) 虚拟文本智能选取方法、装置以及计算机设备
CN113569996B (zh) 病案信息的分类方法、装置、设备以及存储介质
CN115098679A (zh) 文本分类标注样本的异常检测方法、装置、设备及介质
CN114897588A (zh) 基于数据分析的订单管理方法和装置
CN114298204A (zh) 设备屏幕划痕检测模型训练方法及设备屏幕划痕检测方法
CN113312481A (zh) 基于区块链的文本分类方法、装置、设备以及存储介质
CN113392086A (zh) 基于物联网的医疗数据库构建方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240513

Address after: Room S02, 1036 Inspur Road, Jinan Area, China (Shandong) Pilot Free Trade Zone, Shandong Province, 250101

Applicant after: Shandong Inspur innovation and entrepreneurship Technology Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: PING AN PUHUI ENTERPRISE MANAGEMENT Co.,Ltd.

Country or region before: China