CN117033625A - 网关日志分类方法、装置、设备、介质和产品 - Google Patents

网关日志分类方法、装置、设备、介质和产品 Download PDF

Info

Publication number
CN117033625A
CN117033625A CN202310787919.9A CN202310787919A CN117033625A CN 117033625 A CN117033625 A CN 117033625A CN 202310787919 A CN202310787919 A CN 202310787919A CN 117033625 A CN117033625 A CN 117033625A
Authority
CN
China
Prior art keywords
log
gateway
algorithm
word
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310787919.9A
Other languages
English (en)
Inventor
吕硕
夏梦
张鑫
杨露峰
李冰叶
熊利花
陈永强
袁紫祎
刘利刚
张顺
梁栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202310787919.9A priority Critical patent/CN117033625A/zh
Publication of CN117033625A publication Critical patent/CN117033625A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种网关日志分类方法、装置、计算机设备、存储介质和计算机程序产品,可用于人工智能术领域。所述方法包括:获取多条网关日志;基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对网关日志进行预处理;基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。本申请提供的方法,利用集成学习算法对网关日志进行分类之后,能够提高对于网关日志分析的效率。

Description

网关日志分类方法、装置、设备、介质和产品
技术领域
本申请涉及人工智能技术领域,特别是涉及一种网关日志分类方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着银行交易规模越来越庞大,银行网关生产环境中会产生大量的日志文档,在生产过程中进行日志分析是必不可少的。目前,主要是由银行工作人员对网关日志进行分析,但是,由于网关日志文本具有数据量大、批次生产、日志内容复杂等特点,人工分析网关日志的效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高日志分析效率的网关日志分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种网关日志分类方法,所述方法包括:
获取多条网关日志;
基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理;
基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,所述集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
在其中一个实施例中,所述基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理,包括:
利用分词算法将所述网关日志切分为多个字词;
基于预设停用词表,判断字词切分后的网关日志中是否存在停用词,若存在,则将所述字词删除,并将所述网关日志中的剩余字词确定为所述网关日志相应的目标字词;
基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理。
在其中一个实施例中,所述基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理,包括:
利用词语表征算法将所有目标字词进行向量表示,得到每个字词相应的字词向量;
利用所述双向长短时记忆网络将所述网关日志相应的字词向量处理为所述网关日志相应的日志向量;
基于所述日志向量和样本平衡算法对所述网关日志进行预处理。
在其中一个实施例中,所述基于所述日志向量和样本平衡算法对所述网关日志进行预处理,包括:
基于样本平衡算法,确定每种预设日志类别相应的日志向量数量;
基于所述样本平衡算法、和不同预设日志类别相应的日志向量数量间的实际比例,生成多条日志向量,直至不同预设日志类别相应的日志向量数量间的实际比例等于预设比例,将所有日志向量确定为目标日志向量。
在其中一个实施例中,所述基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,包括:
基于所述第一基分类器和所述预设日志类别,对所有目标日志向量进行概率分类;
基于所述第二基分类器和所述预设日志类别,对概率分类后得到的分类结果进行平均概率分类;
基于所述元分类器和所述预设日志类别,对平均概率分类后得到的分类结果进行处理,并对处理结果进行加权平均,得到所有网关日志的分类结果。
在其中一个实施例中,所述预设日志类别包括上游请求日志、下游请求日志、上游响应日志以及下游响应日志。
第二方面,本申请还提供了一种网关日志分类装置,所述装置包括:
获取模块,用于获取多条网关日志;
预处理模块,用于基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理;
分类模块,用于基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,所述集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的任意一个实施例中的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
上述网关日志分类方法、装置、计算机设备、存储介质和计算机程序产品,获取多条网关日志;基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对网关日志进行预处理;基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。本申请提供的方法,利用集成学习算法对网关日志进行分类之后,能够提高对于网关日志分析的效率。
附图说明
图1为一个实施例中网关日志分类方法的流程示意图;
图2为一个实施例中网关日志预处理方法的流程示意图;
图3为一个实施例中网关日志分类装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种网关日志分类方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
S102、获取多条网关日志。
其中,网关日志是指记录网关服务运行情况和问题的日志文件。网关是一种网络设备,用于连接两个或多个不同网络,并在网络之间进行数据转发和路由选择。网关日志可以记录网络流量、连接信息、访问权限、安全事件等详细信息,帮助管理员监控网络安全和性能问题。
S104、基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对网关日志进行预处理。
其中,分词算法是一种将连续的文本序列分解为词或短语的自然语言处理技术;词语表征算法是一种将文本中的每个词语映射到一个固定维度的向量空间中的算法,也被称为词向量化算法或词嵌入算法,词语表征算法可以将文本中的每个词语转换为一个向量,使得相似的词语在向量空间中距离更近,不相似的词语距离更远;双向长短时记忆网络(Bidirectional Long Short-Term Memory Network,Bi-LSTM)是一种由长短时记忆网络(LSTM)发展而来的序列模型,Bi-LSTM可以有效地处理序列数据,例如自然语言处理中的句子,音频和视频信号等,Bi-LSTM具有双向传递的结构,可以同时从前向和后向获取信息,从而更好地理解和处理序列数据;样本平衡算法是一种在机器学习中用来处理数据不平衡问题的算法,在数据不平衡的情况下,机器学习模型容易出现偏差,导致预测结果不准确,样本平衡算法可以通过一系列的操作,使得数据集中的不同类别样本数目相对平衡,从而提高模型的预测准确性。
S106、基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
其中,集成学习算法是一种通过结合多个不同的基本学习器(弱分类器或弱回归器)来构建一个更强大的集成模型的方法,集成学习算法的核心思想是通过组合多个弱学习器,提高模型的泛化能力和预测准确性,从而达到比单个学习器更好的效果。
上述网关日志分类方法中,获取多条网关日志;基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对网关日志进行预处理;基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。本申请提供的方法,利用集成学习算法对网关日志进行分类之后,能够提高对于网关日志分析的效率。
在一些实施例中,如图2所示,基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对网关日志进行预处理,包括:
S202、利用分词算法将网关日志切分为多个字词。
其中,分词算法可以为jieba分词算法,使用jieba分词算法将每条网关日志均分为多个字词,在其他实施例中,分词算法也可以为其他的,本申请实施例对此不作具体限定。
S204、基于预设停用词表,判断字词切分后的网关日志中是否存在停用词,若存在,则将字词删除,并将网关日志中的剩余字词确定为网关日志相应的目标字词。
其中,利用jieba分词算法支持的用户自定义词典,设置预设停用词表,基于预设停用词表删除网关日志中的停用词。
S206、基于目标字词、词语表征算法、双向长短时记忆网络以及样本平衡算法对网关日志进行预处理。
其中,利用词语表征算法、双向长短时记忆网络以及样本平衡算法对每条网关日志包含的所有目标字词进行预处理。
本步骤中,利用分词算法对网关日志进行字词切分,能够提高后续对网关日志的处理效率。
在一些实施例中,基于目标字词、词语表征算法、双向长短时记忆网络以及样本平衡算法对网关日志进行预处理,包括:利用词语表征算法将所有目标字词进行向量表示,得到每个字词相应的字词向量;利用双向长短时记忆网络将网关日志相应的字词向量处理为网关日志相应的日志向量;基于日志向量和样本平衡算法对网关日志进行预处理。
其中,词语表征算法可以为Word2Vec,Word2Vec可以将字词表示成高维向量,使得字词之间的语义和语法关系可以通过向量之间的距离和角度来表达;双向长短时记忆网络可以将每条网关日志对应的所有字词向量处理为一条日志向量。
本步骤中,利用词语表征算法和双向长短时记忆网络将网关日志处理为日志向量,能够更有效的捕捉到网关日志中的上下文关系。
在一些实施例中,基于日志向量和样本平衡算法对网关日志进行预处理,包括:基于样本平衡算法,确定每种预设日志类别相应的日志向量数量;基于样本平衡算法、和不同预设日志类别相应的日志向量数量间的实际比例,生成多条日志向量,直至不同预设日志类别相应的日志向量数量间的实际比例等于预设比例,将所有日志向量确定为目标日志向量。
其中,预设比例是为了使不同类别的网关日志数量达到平衡状态,而预设的比例关系。
本步骤中,通过样本平衡算法来平衡数据集中的不同类别,可以使得模型更好地学习到各个类别之间的差异,从而提高模型的准确性。
在一些实施例中,基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,包括:基于所述第一基分类器和所述预设日志类别,对所有目标日志向量进行概率分类;基于所述第二基分类器和所述预设日志类别,对概率分类后得到的分类结果进行平均概率分类;基于所述元分类器和所述预设日志类别,对平均概率分类后得到的分类结果进行处理,并对处理结果进行加权平均,得到所有网关日志的分类结果。
其中,概率分类(Probabilistic Classification)是一种基于概率模型的分类方法,其预测结果是一个概率值,表示待分类样本属于不同类别的概率大小,概率分类方法通常基于贝叶斯理论或逻辑回归等模型,能够更好地描述分类问题的不确定性和可信度。平均概率分类是一种处理不平衡数据集的方法,它可以提高分类器对于少数类的识别准确率,平均概率分类的基本思想是将分类的决策阈值设置为正类和负类之间的中间值,而不是通常设定的0.5,从而实现类别分布的平衡。
本步骤中,基于第一基分类器、第二基分类器以及元分类器对网关日志进行分类,使得分类结果更加准确。
在一些实施例中,预设日志类别包括上游请求日志、下游请求日志、上游响应日志以及下游响应日志。
其中,上游请求日志是外网向网关发起请求时产生的网关日志,上游响应日志是网关响应外网的请求时产生的网关日志,下游请求日志是网关向内网发起请求时产生的网关日志,下游响应日志是内网响应网关的请求时产生的网关日志。
本步骤中,通过网关日志的生成来源,将网关日志分为上述4类,更有益于后续工作人员对网关日志进行分析。
在一个实施例中,提供了另一种网关日志分类方法,该方法对应的网关日志分类系统包括数据处理层、不平衡性处理层、集成学习层以及结果推荐层。该方法包括:
(1)数据处理层主要通过去停用词和jieba分词实现对网关日志的预处理,并通过Word2vec进行初步向量表示,最终利用Bi-LSTM实现文本向量化处理。
(2)不平衡性处理层利用改进后的KS-SMOTE算法,进行样本合成,并将错分的样本进行噪声过滤,最终减少不平衡性对分类结果的影响。
(3)集成学习层模块利用三层的Stacking算法,第一层基分类器选用RF、SVM、GBDT算法进行概率分类,并扩大样本数,对一个样本产生T(分类数)个相似样本,第二层继续选用上述基分类器进行平均概率分类,最后一层元分类器选用MLR进行分类,将T个分类结果加权投票输出分类结果。
(4)结果推荐层模块。通过上层的分类结果在同类样本集中利用KNN算法,推荐相似的失败原因,训练集包括日志类别和人工鉴别的失败原因,通过协同过滤进行结果推荐,组合并输出最终结果。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的网关日志分类方法的网关日志分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个网关日志分类装置实施例中的具体限定可以参见上文中对于网关日志分类方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种网关日志分类装置300,包括:获取模块301、预处理模块302和分类模块303,其中:
获取模块301,用于获取多条网关日志。
预处理模块302,用于基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理。
分类模块303,用于基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,所述集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
在一些实施例中,预处理模块302,包括:
字词切分子模块,用于利用分词算法将所述网关日志切分为多个字词。
判断子模块,用于基于预设停用词表,判断字词切分后的网关日志中是否存在停用词,若存在,则将所述字词删除,并将所述网关日志中的剩余字词确定为所述网关日志相应的目标字词。
预处理子模块,用于基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理。
在一些实施例中,预处理子模块,包括:
向量表示单元,用于利用词语表征算法将所有目标字词进行向量表示,得到每个字词相应的字词向量。
向量处理单元,用于利用所述双向长短时记忆网络将所述网关日志相应的字词向量处理为所述网关日志相应的日志向量。
预处理单元,用于基于所述日志向量和样本平衡算法对所述网关日志进行预处理。
在一些实施例中,预处理单元,还用于:基于样本平衡算法,确定每种预设日志类别相应的日志向量数量;基于所述样本平衡算法、和不同预设日志类别相应的日志向量数量间的实际比例,生成多条日志向量,直至不同预设日志类别相应的日志向量数量间的实际比例等于预设比例,将所有日志向量确定为目标日志向量。
在一些实施例中,分类模块303,还用于:基于所述第一基分类器和所述预设日志类别,对所有目标日志向量进行概率分类;基于所述第二基分类器和所述预设日志类别,对概率分类后得到的分类结果进行平均概率分类;基于所述元分类器和所述预设日志类别,对平均概率分类后得到的分类结果进行处理,并对处理结果进行加权平均,得到所有网关日志的分类结果。
在一些实施例中,网关日志分类装置300,具体用于:预设日志类别包括上游请求日志、下游请求日志、上游响应日志以及下游响应日志。
上述网关日志分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种网关日志分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取多条网关日志;基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理;基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,所述集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
在一个实施例中,处理器执行计算机程序时所实现的基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理,包括:利用分词算法将所述网关日志切分为多个字词;基于预设停用词表,判断字词切分后的网关日志中是否存在停用词,若存在,则将所述字词删除,并将所述网关日志中的剩余字词确定为所述网关日志相应的目标字词;基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理。
在一个实施例中,处理器执行计算机程序时所实现的基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理,包括:利用词语表征算法将所有目标字词进行向量表示,得到每个字词相应的字词向量;利用所述双向长短时记忆网络将所述网关日志相应的字词向量处理为所述网关日志相应的日志向量;基于所述日志向量和样本平衡算法对所述网关日志进行预处理。
在一个实施例中,处理器执行计算机程序时所实现的基于所述日志向量和样本平衡算法对所述网关日志进行预处理,包括:基于样本平衡算法,确定每种预设日志类别相应的日志向量数量;基于所述样本平衡算法、和不同预设日志类别相应的日志向量数量间的实际比例,生成多条日志向量,直至不同预设日志类别相应的日志向量数量间的实际比例等于预设比例,将所有日志向量确定为目标日志向量。
在一个实施例中,处理器执行计算机程序时所实现的基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,包括:基于所述第一基分类器和所述预设日志类别,对所有目标日志向量进行概率分类;基于所述第二基分类器和所述预设日志类别,对概率分类后得到的分类结果进行平均概率分类;基于所述元分类器和所述预设日志类别,对平均概率分类后得到的分类结果进行处理,并对处理结果进行加权平均,得到所有网关日志的分类结果。
在一个实施例中,处理器执行计算机程序时所实现的预设日志类别包括上游请求日志、下游请求日志、上游响应日志以及下游响应日志。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取多条网关日志;基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理;基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,所述集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
在一个实施例中,计算机程序被处理器执行时所实现的基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理,包括:利用分词算法将所述网关日志切分为多个字词;基于预设停用词表,判断字词切分后的网关日志中是否存在停用词,若存在,则将所述字词删除,并将所述网关日志中的剩余字词确定为所述网关日志相应的目标字词;基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理。
在一个实施例中,计算机程序被处理器执行时所实现的基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理,包括:利用词语表征算法将所有目标字词进行向量表示,得到每个字词相应的字词向量;利用所述双向长短时记忆网络将所述网关日志相应的字词向量处理为所述网关日志相应的日志向量;基于所述日志向量和样本平衡算法对所述网关日志进行预处理。
在一个实施例中,计算机程序被处理器执行时所实现的基于所述日志向量和样本平衡算法对所述网关日志进行预处理,包括:基于样本平衡算法,确定每种预设日志类别相应的日志向量数量;基于所述样本平衡算法、和不同预设日志类别相应的日志向量数量间的实际比例,生成多条日志向量,直至不同预设日志类别相应的日志向量数量间的实际比例等于预设比例,将所有日志向量确定为目标日志向量。
在一个实施例中,计算机程序被处理器执行时所实现的基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,包括:基于所述第一基分类器和所述预设日志类别,对所有目标日志向量进行概率分类;基于所述第二基分类器和所述预设日志类别,对概率分类后得到的分类结果进行平均概率分类;基于所述元分类器和所述预设日志类别,对平均概率分类后得到的分类结果进行处理,并对处理结果进行加权平均,得到所有网关日志的分类结果。
在一个实施例中,计算机程序被处理器执行时所实现的预设日志类别包括上游请求日志、下游请求日志、上游响应日志以及下游响应日志。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取多条网关日志;基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理;基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,所述集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
在一个实施例中,计算机程序被处理器执行时所实现的基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理,包括:利用分词算法将所述网关日志切分为多个字词;基于预设停用词表,判断字词切分后的网关日志中是否存在停用词,若存在,则将所述字词删除,并将所述网关日志中的剩余字词确定为所述网关日志相应的目标字词;基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理。
在一个实施例中,计算机程序被处理器执行时所实现的基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理,包括:利用词语表征算法将所有目标字词进行向量表示,得到每个字词相应的字词向量;利用所述双向长短时记忆网络将所述网关日志相应的字词向量处理为所述网关日志相应的日志向量;基于所述日志向量和样本平衡算法对所述网关日志进行预处理。
在一个实施例中,计算机程序被处理器执行时所实现的基于所述日志向量和样本平衡算法对所述网关日志进行预处理,包括:基于样本平衡算法,确定每种预设日志类别相应的日志向量数量;基于所述样本平衡算法、和不同预设日志类别相应的日志向量数量间的实际比例,生成多条日志向量,直至不同预设日志类别相应的日志向量数量间的实际比例等于预设比例,将所有日志向量确定为目标日志向量。
在一个实施例中,计算机程序被处理器执行时所实现的基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,包括:基于所述第一基分类器和所述预设日志类别,对所有目标日志向量进行概率分类;基于所述第二基分类器和所述预设日志类别,对概率分类后得到的分类结果进行平均概率分类;基于所述元分类器和所述预设日志类别,对平均概率分类后得到的分类结果进行处理,并对处理结果进行加权平均,得到所有网关日志的分类结果。
在一个实施例中,计算机程序被处理器执行时所实现的预设日志类别包括上游请求日志、下游请求日志、上游响应日志以及下游响应日志。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种网关日志分类方法,其特征在于,所述方法包括:
获取多条网关日志;
基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理;
基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,所述集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
2.根据权利要求1所述的方法,其特征在于,所述基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理,包括:
利用分词算法将所述网关日志切分为多个字词;
基于预设停用词表,判断字词切分后的网关日志中是否存在停用词,若存在,则将所述字词删除,并将所述网关日志中的剩余字词确定为所述网关日志相应的目标字词;
基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标字词、所述词语表征算法、所述双向长短时记忆网络以及所述样本平衡算法对网关日志进行预处理,包括:
利用词语表征算法将所有目标字词进行向量表示,得到每个字词相应的字词向量;
利用所述双向长短时记忆网络将所述网关日志相应的字词向量处理为所述网关日志相应的日志向量;
基于所述日志向量和样本平衡算法对所述网关日志进行预处理。
4.根据权利要求3所述的方法,其特征在于,所述基于所述日志向量和样本平衡算法对所述网关日志进行预处理,包括:
基于样本平衡算法,确定每种预设日志类别相应的日志向量数量;
基于所述样本平衡算法、和不同预设日志类别相应的日志向量数量间的实际比例,生成多条日志向量,直至不同预设日志类别相应的日志向量数量间的实际比例等于预设比例,将所有日志向量确定为目标日志向量。
5.根据权利要求4所述的方法,其特征在于,所述基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,包括:
基于所述第一基分类器和所述预设日志类别,对所有目标日志向量进行概率分类;
基于所述第二基分类器和所述预设日志类别,对概率分类后得到的分类结果进行平均概率分类;
基于所述元分类器和所述预设日志类别,对平均概率分类后得到的分类结果进行处理,并对处理结果进行加权平均,得到所有网关日志的分类结果。
6.根据权利要求1所述的方法,其特征在于,所述预设日志类别包括上游请求日志、下游请求日志、上游响应日志以及下游响应日志。
7.一种网关日志分类装置,其特征在于,所述装置包括:
获取模块,用于获取多条网关日志;
预处理模块,用于基于分词算法、词语表征算法、双向长短时记忆网络以及样本平衡算法,对所述网关日志进行预处理;
分类模块,用于基于集成学习算法和预设日志类别,对预处理后的网关日志进行分类,所述集成学习算法包括三层,依次为第一基分类器、第二基分类器以及元分类器。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310787919.9A 2023-06-29 2023-06-29 网关日志分类方法、装置、设备、介质和产品 Pending CN117033625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310787919.9A CN117033625A (zh) 2023-06-29 2023-06-29 网关日志分类方法、装置、设备、介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310787919.9A CN117033625A (zh) 2023-06-29 2023-06-29 网关日志分类方法、装置、设备、介质和产品

Publications (1)

Publication Number Publication Date
CN117033625A true CN117033625A (zh) 2023-11-10

Family

ID=88643713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310787919.9A Pending CN117033625A (zh) 2023-06-29 2023-06-29 网关日志分类方法、装置、设备、介质和产品

Country Status (1)

Country Link
CN (1) CN117033625A (zh)

Similar Documents

Publication Publication Date Title
EP3985578A1 (en) Method and system for automatically training machine learning model
US9449271B2 (en) Classifying resources using a deep network
US20220121906A1 (en) Task-aware neural network architecture search
WO2022174491A1 (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN112307770A (zh) 敏感信息的检测方法、装置、电子设备及存储介质
CN114860892B (zh) 层次类目预测方法、装置、设备和介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN116805039B (zh) 特征筛选方法、装置、计算机设备和数据扰动方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN117033625A (zh) 网关日志分类方法、装置、设备、介质和产品
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN114898339B (zh) 驾驶行为预测模型的训练方法、装置、设备、存储介质
CN114490996B (zh) 意图识别方法、装置、计算机设备和存储介质
CN117172632B (zh) 一种企业异常行为检测方法、装置、设备及存储介质
CN117132145A (zh) 服务评价方法、装置、计算机设备和存储介质
CN117407418A (zh) 信息获取方法、装置、计算机设备、存储介质和程序产品
CN116860972A (zh) 交互信息分类方法、装置、设备、存储介质和程序产品
CN115762530A (zh) 声纹模型训练方法、装置、计算机设备和存储介质
He et al. Determining the proper number of proposals for individual images
CN116562840A (zh) 邮件处理方法、装置、计算机设备和存储介质
CN115934394A (zh) 一种数据处理方法、装置、设备及存储介质
CN114239603A (zh) 业务需求匹配方法、装置、计算机设备和存储介质
CN117033554A (zh) 数据分析方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination