CN111143303A - 一种基于信息增益和改进knn算法的日志分类方法 - Google Patents

一种基于信息增益和改进knn算法的日志分类方法 Download PDF

Info

Publication number
CN111143303A
CN111143303A CN201911420744.8A CN201911420744A CN111143303A CN 111143303 A CN111143303 A CN 111143303A CN 201911420744 A CN201911420744 A CN 201911420744A CN 111143303 A CN111143303 A CN 111143303A
Authority
CN
China
Prior art keywords
training sample
log data
word
log
logs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911420744.8A
Other languages
English (en)
Other versions
CN111143303B (zh
Inventor
陈孝文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Communication Branch of Hainan Power Grid Co Ltd
Original Assignee
Information Communication Branch of Hainan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Communication Branch of Hainan Power Grid Co Ltd filed Critical Information Communication Branch of Hainan Power Grid Co Ltd
Priority to CN201911420744.8A priority Critical patent/CN111143303B/zh
Publication of CN111143303A publication Critical patent/CN111143303A/zh
Application granted granted Critical
Publication of CN111143303B publication Critical patent/CN111143303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于信息增益和改进KNN算法的日志分类方法,用于对日志进行自动分类,包括以下步骤:获取系统的日志数据;在日志中选择部分日志作为第一训练样本;对日志数据进行预处理;根据信息增益提取日志数据中的特征向量;结合日志数据中的特征向量和改进KNN算法对日志进行分类。本发明通过信息增益算法提取特征,可以有效降低特征的维度,减少了计算量;通过对日志进行自动分析和归类,改变了传统的人工分类的做法,大大提高了工作效率。

Description

一种基于信息增益和改进KNN算法的日志分类方法
技术领域
本发明涉及数据分析领域,更具体地,涉及一种基于信息增益和改进KNN算法的日志分类方法。
背景技术
随着信息技术的发展,出现了越来越多的信息化系统,为了实现各信息系统之间的业务融合,相应开发了大量集成数据接口,通过信息集成平台、数据资源管理平台,实现服务的共享、调用。在实际过程中,会产生的日志数据。由于涉及多个不同的信息系统,日志数据的格式不一,无法直接进行识别,需要人工在后台进行处理。其中,错误日志数据的问题尤为突出,通过人工分类后再寻找对应的厂商解决问题,严重拖慢了问题的解决速度。
发明内容
本发明克服了上述现有的技术不足,提供一种基于信息增益和改进KNN算法的日志分类方法。本发明能够对日志进行自动分析和归类,改变了传统的人工分类的做法,大大提高了工作效率。
为解决上述技术问题,本发明的技术方案如下:
一种基于信息增益和改进KNN算法的日志分类方法,用于对日志进行自动分类,包括以下步骤:
获取系统的日志数据;
在日志中选择部分日志作为第一训练样本;
对日志数据进行预处理;
根据信息增益提取日志数据中的特征向量;
结合日志数据中的特征向量和改进KNN算法对日志进行分类。
在一种优选的方案中,所述的“对日志数据进行预处理”包括以下子步骤:
对日志数据中的文本信息进行分词处理;
对日志数据中的停用词进行去除。
在一种优选的方案中,所述的“根据信息增益提取日志数据中的文本向量”包括以下子步骤:
计算第一训练样本的信息熵;
计算每个词语的条件熵;
根据第一训练样本的信息熵和词语的条件熵,得到每个词语的信息增益;
根据每个词语的信息增益,选取k个词语定义为文本特征;
根据每篇日志中包含k个文本特征的词频,组成一个k维特征向量。
在一种优选的方案中,所述的“计算第一训练样本的信息熵”包括以下内容:
对第一训练样本进行分类,定义为C1,C2,...,Cn,每一个类别出现的概率定义为P(C1),P(C2),...,P(Cn);其中,所述的n表示分类的类别总数;
第一训练样本的信息熵H(C)通过下式进行表达:
Figure BDA0002352320250000021
在一种优选的方案中,所述的词语的条件熵H(C|t)通过下式进行表达:
Figure BDA0002352320250000022
其中,所述的t表示词语,所述的P(Ci|t)表示包含词语t的Ci类中的日志数量占整体包含词语t的日志数量的比重;所述的
Figure BDA0002352320250000023
表示不包含词语t的Ci类中的日志数量占整体不包含词语t的日志数量的比重。
在一种优选的方案中,所述的词语的信息增益IG(t)通过下式进行表达:
IG(t)=H(C)-H(C|t)。
在一种优选的方案中,所述的“根据每个词语的信息增益,选取k个词语定义为文本特征”包括以下内容:
根据每个词语的信息增益值从大到小排序,选取前k个词语定义为文本特征;
或者
根据每个词语的信息增益值从小到大排序,选取后k个词语定义为文本特征。
在一种优选的方案中,所述的“结合日志数据中的特征向量和改进KNN算法对日志进行分类”包括以下子步骤:
对第一训练样本进行分类,定义为C1,C2,...,Cn,每一个类别出现的概率定义为P(C1),P(C2),...,P(Cn);其中,所述的n表示分类的类别总数;
对第一训练样本的各类分别通过k-means算法进行聚类,并提取出聚类结果;
为第一训练样本的每个类随机选择测试样本,计算其与聚类结果中的各个簇的簇中心向量的相似度;
根据相似度的值,筛选出若干数量簇,组成第二训练样本;
计算非第一训练样本的日志数据与第二训练样本的日志数据的欧氏距离;
根据欧氏距离选取与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据;
计算第二训练样本中各类的权重wi
计算与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据的各类数据的频率与其对应的权重的乘积,最大值对应的类定义为非第一训练样本的日志数据的类。
本优选方案中,由于训练样本可能存在不均衡的情况,因此每个类赋予权重,使得在训练样本不均衡的情况下,提升分类的准确率。
在一种优选的方案中,所述的欧氏距离通过下式进行表达:
Figure BDA0002352320250000031
其中,所述的xim为日志数据i的第m维特征,所述的xjm为日志数据j的第m维特征。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过信息增益算法提取特征,可以有效降低特征的维度,减少了计算量;通过对日志进行自动分析和归类,改变了传统的人工分类的做法,大大提高了工作效率。
附图说明
图1为实施例的流程图。
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
如图1所示,一种基于信息增益和改进KNN算法的日志分类方法,用于对日志进行自动分类,包括以下步骤:
获取系统的日志数据;
在日志中选择部分日志作为第一训练样本;
对日志数据进行预处理;
根据信息增益提取日志数据中的特征向量;
结合日志数据中的特征向量和改进KNN算法对日志进行分类。
在实施例中,还可以进行以下扩展:“对日志数据进行预处理”包括以下子步骤:
对日志数据中的文本信息进行分词处理;
对日志数据中的停用词进行去除。
在实施例及上述改进实施例中,还可以进行以下扩展:“根据信息增益提取日志数据中的文本特征”包括以下子步骤:
计算第一训练样本的信息熵;
计算每个词语的条件熵;
根据第一训练样本的信息熵和词语的条件熵,得到每个词语的信息增益;
根据每个词语的信息增益,选取k个词语定义为文本特征;
根据每篇日志中包含k个文本特征的词频,组成一个k维特征向量。
在实施例及上述改进实施例中,还可以进行以下扩展:“计算第一训练样本的信息熵”包括以下内容:
对第一训练样本进行分类,定义为C1,C2,...,Cn,每一个类别出现的概率定义为P(C1),P(C2),...,P(Cn);其中,n表示分类的类别总数;
第一训练样本的信息熵H(C)通过下式进行表达:
Figure BDA0002352320250000041
在实施例及上述改进实施例中,还可以进行以下扩展:词语的条件熵H(C|t)通过下式进行表达:
Figure BDA0002352320250000042
其中,t表示词语,P(Ci|t)表示包含词语t的Ci类中的日志数量占整体包含词语t的日志数量的比重;
Figure BDA0002352320250000043
表示不包含词语t的Ci类中的日志数量占整体不包含词语t的日志数量的比重。
在实施例及上述改进实施例中,还可以进行以下扩展:词语的信息增益IG(t)通过下式进行表达:
IG(t)=H(C)-H(C|t)。
在实施例及上述改进实施例中,还可以进行以下扩展:“根据每个词语的信息增益,选取k个词语定义为文本特征”包括以下内容:
根据每个词语的信息增益值从大到小排序,选取前k个词语定义为文本特征;
或者
根据每个词语的信息增益值从小到大排序,选取后k个词语定义为文本特征。
在实施例及上述改进实施例中,还可以进行以下扩展:“结合日志数据中的特征向量和改进KNN算法对日志进行分类”包括以下子步骤:
对第一训练样本进行分类,定义为C1,C2,...,Cn,每一个类别出现的概率定义为P(C1),P(C2),...,P(Cn);其中,n表示分类的类别总数;
对第一训练样本的各类分别通过k-means算法进行聚类,并提取出聚类结果;
为第一训练样本的每个类随机选择测试样本,计算其与聚类结果中的各个簇的簇中心向量的相似度;
根据相似度的值,筛选出若干数量簇,组成第二训练样本;
计算非第一训练样本的日志数据与第二训练样本的日志数据的欧氏距离;
根据欧氏距离选取与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据;
计算第二训练样本中各类的权重wi
计算与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据的各类数据的频率与其对应的权重的乘积,最大值对应的类定义为非第一训练样本的日志数据的类。
本改进方案中,由于训练样本可能存在不均衡的情况,因此每个类赋予权重,使得在训练样本不均衡的情况下,提升分类的准确率。
在实施例及上述改进实施例中,还可以进行以下扩展:欧氏距离通过下式进行表达:
Figure BDA0002352320250000051
其中,xim为日志数据i的第m维特征,xjm为日志数据j的第m维特征。
测试环境:
南方电网公司某一体化信息系统,包括了财务、资产、人资、营销平台等覆盖公司大部分业务的信息系统及数据处理平台,同时为了实现各信息系统之间的业务融合,相应开发了大量集成数据接口。在接口实用化的过程中前端业务系统数据传递至其他相关协同系统受多方因素影响出现异常情况,由于不能直观的看到系统接口异常信息,需要依靠厂商在后台进行监控,发现问题后由厂商组织分析后才能进行问题解决,现有模式效率低下。
一种基于信息增益和改进KNN算法的日志分类方法,包括以下步骤:
S1:获取系统的日志数据。
S2:在日志中选择部分日志作为第一训练样本;
S3:对日志数据中的文本信息进行分词处理;
对日志数据中的停用词进行去除。
对日志数据进行预处理;
S4:根据信息增益提取日志数据中的特征向量;
对第一训练样本进行分类,定义为C1,C2,...,Cn,每一个类别出现的概率定义为P(C1),P(C2),...,P(Cn);
计算第一训练样本的信息熵;H(C)通过下式进行表达:
Figure BDA0002352320250000061
计算每个词语的条件熵H(C|t)通过下式进行表达:
Figure BDA0002352320250000062
其中,t表示词语,P(Ci|t)表示包含词语t的Ci类中的日志数量占整体包含词语t的日志数量的比重;
Figure BDA0002352320250000063
表示不包含词语t的Ci类中的日志数量占整体不包含词语t的日志数量的比重;
根据第一训练样本的信息熵和词语的条件熵,得到每个词语的信息增益;词语的信息增益IG(t)通过下式进行表达:
IG(t)=H(C)-H(C|t)。
根据每个词语的信息增益值从大到小排序,选取前k个词语定义为文本特征;
根据每篇日志中包含k个文本特征的词频,组成一个k维特征向量;
S5:结合日志数据中的特征向量和改进KNN算法对日志进行分类;
对第一训练样本的各类分别通过k-means算法进行聚类,并提取出聚类结果;
为第一训练样本的每个类随机选择测试样本,计算其与聚类结果中的各个簇的簇中心向量的相似度;
根据相似度的值,筛选出若干数量簇,组成第二训练样本;
计算非第一训练样本的日志数据与第二训练样本的日志数据的欧氏距离,欧氏距离通过下式进行表达:
Figure BDA0002352320250000071
其中,xim为日志数据i的第m维特征,xjm为日志数据j的第m维特征;
根据欧氏距离选取与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据;
计算第二训练样本中各类的权重wi
计算与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据的各类数据的频率与其对应的权重的乘积,最大值对应的类定义为非第一训练样本的日志数据的类;
S6:系统根据自动分类的错误日志,直接联系厂家/搜索对应的解决方案。
本测试例采用数据挖掘技术思路,通过获取后台的错误日志信息,对错误日志信息进行分类,针对不同的错误类型,提供相应的解决方案;改变了传统的被动式场景应用错误问题为主动式问题管控模式,并在业务出现问题后可以及时快速的定位问题及处理问题。由此实现了全方位监控、分析,进一步提升了监控平台的实用性、易用性、可靠性和智能化,促进业务水平和企业精益化管理水平提升。
在上述具体实施方式的具体内容中,各技术特征可以进行任意不矛盾的组合,为使描述简洁,未对上述各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;例如实施例中水流量传感器的计算公式并不仅限于实施例中举例的公式,不同的种类的水流量传感器的计算公式各不相同。上述的是实施例的限定并不能理解为对本专利的限制。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于信息增益和改进KNN算法的日志分类方法,用于对日志进行自动分类,其特征在于,包括以下步骤:
获取系统的日志数据;
在日志中选择部分日志作为第一训练样本;
对日志数据进行预处理;
根据信息增益提取日志数据中的特征向量;
结合日志数据中的特征向量和改进KNN算法对日志进行分类。
2.根据权利要求1所述的日志分类方法,其特征在于,所述的“对日志数据进行预处理”包括以下子步骤:
对日志数据中的文本信息进行分词处理;
对日志数据中的停用词进行去除。
3.根据权利要求1或2所述的日志分类方法,其特征在于,所述的“根据信息增益提取日志数据中的文本向量”包括以下子步骤:
计算第一训练样本的信息熵;
计算每个词语的条件熵;
根据第一训练样本的信息熵和词语的条件熵,得到每个词语的信息增益;
根据每个词语的信息增益,选取k个词语定义为文本特征;
根据每篇日志中包含k个文本特征的词频,组成一个k维特征向量。
4.根据权利要求3所述的日志分类方法,其特征在于,所述的“计算第一训练样本的信息熵”包括以下内容:
对第一训练样本进行分类,定义为C1,C2,...,Cn,每一个类别出现的概率定义为P(C1),P(C2),...,P(Cn);其中,所述的n表示分类的类别总数;
第一训练样本的信息熵H(C)通过下式进行表达:
Figure FDA0002352320240000011
5.根据权利要求4所述的日志分类方法,其特征在于,所述的词语的条件熵H(C|t)通过下式进行表达:
Figure FDA0002352320240000021
其中,所述的t表示词语,所述的P(Ci|t)表示包含词语t的Ci类中的日志数量占整体包含词语t的日志数量的比重;所述的
Figure FDA0002352320240000022
表示不包含词语t的Ci类中的日志数量占整体不包含词语t的日志数量的比重。
6.根据权利要求5所述的日志分类方法,其特征在于,所述的词语的信息增益IG(t)通过下式进行表达:
IG(t)=H(C)-H(C|t)。
7.根据权利要求3所述的日志分类方法,其特征在于,所述的“根据每个词语的信息增益,选取k个词语定义为文本特征”包括以下内容:
根据每个词语的信息增益值从大到小排序,选取前k个词语定义为文本特征;或者
根据每个词语的信息增益值从小到大排序,选取后k个词语定义为文本特征。
8.根据权利要求1、2、4、5、6或7所述的日志分类方法,其特征在于,所述的“结合日志数据中的特征向量和改进KNN算法对日志进行分类”包括以下子步骤:
对第一训练样本进行分类,定义为C1,C2,...,Cn,每一个类别出现的概率定义为P(C1),P(C2),...,P(Cn);其中,所述的n表示分类的类别总数;
对第一训练样本的各类分别通过k-means算法进行聚类,并提取出聚类结果;
为第一训练样本的每个类随机选择测试样本,计算其与聚类结果中的各个簇的簇中心向量的相似度;
根据相似度的值,筛选出若干数量簇,组成第二训练样本;
计算非第一训练样本的日志数据与第二训练样本的日志数据的欧氏距离;
根据欧氏距离选取与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据;
计算第二训练样本中各类的权重wi
计算与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据的各类数据的频率与其对应的权重的乘积,最大值对应的类定义为非第一训练样本的日志数据的类。
9.根据权利要求8所述的日志分类方法,其特征在于,所述的欧氏距离通过下式进行表达:
Figure FDA0002352320240000031
其中,所述的xim为日志数据i的第m维特征,所述的xjm为日志数据j的第m维特征。
CN201911420744.8A 2019-12-31 2019-12-31 一种基于信息增益和改进knn算法的日志分类方法 Active CN111143303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911420744.8A CN111143303B (zh) 2019-12-31 2019-12-31 一种基于信息增益和改进knn算法的日志分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911420744.8A CN111143303B (zh) 2019-12-31 2019-12-31 一种基于信息增益和改进knn算法的日志分类方法

Publications (2)

Publication Number Publication Date
CN111143303A true CN111143303A (zh) 2020-05-12
CN111143303B CN111143303B (zh) 2023-06-02

Family

ID=70522941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911420744.8A Active CN111143303B (zh) 2019-12-31 2019-12-31 一种基于信息增益和改进knn算法的日志分类方法

Country Status (1)

Country Link
CN (1) CN111143303B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708681A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 一种日志处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
CN104408095A (zh) * 2014-11-15 2015-03-11 北京广利核系统工程有限公司 一种基于改进的knn文本分类方法
CN107248927A (zh) * 2017-05-02 2017-10-13 华为技术有限公司 故障定位模型的生成方法、故障定位方法和装置
CN110287328A (zh) * 2019-07-03 2019-09-27 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
US10437833B1 (en) * 2016-10-05 2019-10-08 Ontocord, LLC Scalable natural language processing for large and dynamic text environments

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
CN104408095A (zh) * 2014-11-15 2015-03-11 北京广利核系统工程有限公司 一种基于改进的knn文本分类方法
US10437833B1 (en) * 2016-10-05 2019-10-08 Ontocord, LLC Scalable natural language processing for large and dynamic text environments
CN107248927A (zh) * 2017-05-02 2017-10-13 华为技术有限公司 故障定位模型的生成方法、故障定位方法和装置
CN110287328A (zh) * 2019-07-03 2019-09-27 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
樊存佳;汪友生;边航;: "一种改进的KNN文本分类算法" *
王理冬;: "基于信息增益的文本特征选择方法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708681A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 一种日志处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111143303B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN112513851A (zh) 使用机器学习的敏感数据标识
US10467547B1 (en) Normalizing text attributes for machine learning models
CN106709349B (zh) 一种基于多维度行为特征的恶意代码分类方法
WO2016177069A1 (zh) 一种管理方法、装置、垃圾短信监控系统及计算机存储介质
US8560466B2 (en) Method and arrangement for automatic charset detection
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
US11727704B2 (en) Systems and methods for processing a table of information in a document
US20210263903A1 (en) Multi-level conflict-free entity clusters
US9177260B2 (en) Information classification device, information classification method, and computer readable recording medium
CN113515434A (zh) 异常分类方法、装置、异常分类设备及存储介质
CN109902731B (zh) 一种基于支持向量机的性能故障的检测方法及装置
CN115758183A (zh) 日志异常检测模型的训练方法及装置
CN111143303B (zh) 一种基于信息增益和改进knn算法的日志分类方法
CN114049508A (zh) 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
Zhang et al. Recognition of social interactions based on feature selection from visual codebooks
CN112685374A (zh) 日志分类方法、装置及电子设备
US10586046B1 (en) Automated security feed analysis for threat assessment
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
CN112395478B (zh) 一种双模型共用的数据筛选方法及系统
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN114528909A (zh) 一种基于流量日志特征提取的无监督异常检测方法
CN115048345A (zh) 异常日志检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant