CN105468677A - 一种基于图结构的日志聚类方法 - Google Patents

一种基于图结构的日志聚类方法 Download PDF

Info

Publication number
CN105468677A
CN105468677A CN201510781245.7A CN201510781245A CN105468677A CN 105468677 A CN105468677 A CN 105468677A CN 201510781245 A CN201510781245 A CN 201510781245A CN 105468677 A CN105468677 A CN 105468677A
Authority
CN
China
Prior art keywords
daily record
participle
dictionary
vector
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510781245.7A
Other languages
English (en)
Other versions
CN105468677B (zh
Inventor
吕雁飞
王树鹏
张鸿
丁煜
樊冬进
肖东方
郑亚松
周晓阳
何慧虹
史亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510781245.7A priority Critical patent/CN105468677B/zh
Publication of CN105468677A publication Critical patent/CN105468677A/zh
Application granted granted Critical
Publication of CN105468677B publication Critical patent/CN105468677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。

Description

一种基于图结构的日志聚类方法
技术领域
本发明涉及文本聚类领域,具体涉及一种基于图结构的日志聚类方法。
背景技术
随着信息技术的飞速发展和集群规模的不断扩大,随之产生海量日志数据,然而却没有对日志数据进行有效的分析与挖掘。日志数据记录了系统的运行信息,挖掘日志数据具有重要意义,例如通过分析日志数据我们可以构建智能运维系统,完成故障定位、故障预警等功能。对日志进行精准的类别标记,是日志数据挖掘的重要方向。基于此我们通过对海量日志聚类,自动识别日志合适的类别数目。通过提取各类别特征,生成日志类别特征库,并根据特征库对新日志进行类别标记。其中,日志聚类方法的选择是重中之重。传统的聚类算法并不能完成海量日志聚类的需求。例如传统的K-Means、K-Medoid聚类算法,要求指定聚类的个数,不能自动识别日志合适的类别数目。传统的Denclue聚类算法为了得到较佳的聚类效果,需要经过不断的实验来获得合适的聚类数目,参数难以控制,计算量过大,且聚类不能保证得到真实的类别数目。因此需要探索新的日志聚类模型。
发明内容
为克服上述缺陷,本发明提供一种基于图结构的日志聚类方法,依据类别特征知识库可对日志进行分类,大大提高了面对海量日志聚类的精确度。
为了实现上述发明目的,本发明采取如下技术方案:
一种基于图结构的日志聚类方法,所述方法包括:基于文本分词、向量相似度以及对最大连通子图日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记。
优选的,所述获取特征库包括下述步骤:
(1)将原始日志结构化,生成结构化日志数据;
(2)构建分词库;
(3)依据词库将结构化的日志向量化;
(4)删除重复的日志向量;
(5)确定日志相似关系图,生成各个类别包含的日志向量集合;
(6)构建特征库。
进一步地,所述步骤(1)中,生成结构化日志数据包括:输入原始日志,对半结构化的原始日志按列结构化,输出结构化日志数据。
进一步地,所述步骤(2)中,构建分词库包括,输入结构化日志数据,获取所述结构化日志数据包含的所有分词,并依据预设规则删除干扰词,生成日志数据分词库,该分词库中每个分词对应一个编号;其中,
所述干扰词,包括IP地址、端口号和16进制数字。
进一步地,所述步骤(3)中,日志向量化包括,将包含日志核心内容的字段进行分词,将获取的分词与词库相匹配,并用词库中分词编号代替分词,忽略未包含在词库中的分词,并保持分词原有的相对顺序,将文本转化为向量。
进一步地,所述步骤(5)中,确定日志相似关系图包括:将去重后的日志向量映射为图中的一个点,计算点与点之间的相似度;
若两个日志向量相似,则所述日志向量之间存在一条边。
进一步地,所述判定相似度包括,设A和B分别表征两个日志向量A=(a1,a2,…,am),B=(b1,b2,…,bn);LCS({A,B})为向量A和B的最长公共子序列;若该最长公共子序列的长度与日志向量A和B比值皆高于经验阈值TH,则为相似,其表达式为:
L C S . l e n g t h | A | ≥ T H a n d L C S . l e n g t h | B | ≥ T H - - - ( 1 ) .
进一步地,所述步骤(5)中,生成各个类别包含的日志向量集合包括;
将日志相似关系图中的每个最大连通子图定义为一个类,每一类包含的日志向量即该最大连通子图包含的点。
进一步地,所述步骤(6)中,构建特征库包括:各个日志类别的特征为该类别包含的所有日志向量的最长公共子序列;设第i类集合Ri={S1,S2,…,Sp},LCS(Ri)为第i类中所有日志向量的最长公共子串,wi为第i类的特征,其中wi=LCS(Ri);
输入每个日志类别所包含的日志向量集合,输出特征库。
优选的,所述对海量日志进行类标记,具体步骤包括:
实时采集日志数据,将日志结构化,输出结构化日志数据;
对日志核心内容的字段进行分词,按预设规则去除干扰词;将日志分词集合中的每个词和原词库相匹配,若存在新词,则将该新词添加至词库,并输出新词库;
所述对日志进行结构化包括:
输入新词库和日志数据;
将日志数据由文本转为向量;
将包含日志内容的字段进行分词,将所述分词与词库匹配,用词库中分词的编号代替分词,忽略未包含词库中的分词,并保持分词原有的相对顺序,将文本转化为向量并输出;
所述日志类别匹配包括:
输入日志向量和通过日志聚类获得的特征库;
计算日志向量与特征库中各类别特征的相似度;若日志向量和特征wi符合相似规则,则将该日志标记为第i类,输出携带标记的日志;
若日志与特征库中任意类别特征皆不相似,则匹配失败;将该日志存放于故障知识库,并定期重新进行聚类,生成新的类别特征,以更新特征库。
与最接近的现有技术相比,本发明达到的有益效果是:
该日志聚类方法,一方面无需人工指定聚类数目,自动识别海量日志中最合适的类别数目,并支持大规模的日志聚类问题。另一方面,该方法有效保障了对原始的日志的类别标记精准度,完成了日志的精准分类,并支持日志海量日志数据的实时分类以及离线分类,为海量日志数据挖掘奠定了基础。
附图说明
图1为一种基于图结构的日志聚类方法总流程图;
图2为日志聚类方法流程图;
图3为日志向量化结构示意图;
图4为日志相似关系示意图;
图5为日志类别标记方法流程图。
具体实施方式
以下将结合附图,对本发明的具体实施方式作进一步的详细说明。
如图1所示,一种基于图结构的日志聚类方法,所述方法包括:基于文本分词、向量相似度以及对最大连通子图日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记。
1、获取特征库包括下述步骤:
(1)将原始日志结构化,生成结构化日志数据;包括:输入原始日志,对半结构化的原始日志按列结构化,输出结构化日志数据。
例如Linuxsyslog日志形式如表1.1所示,按列结构化为Timestamp、Level、Source、Message等字段。原始syslog经结构化处理后变为表1.2中格式:
表1.1
表1.2
(2)构建分词库;包括:输入结构化日志数据,获取所述结构化日志数据包含的所有分词,并依据预设规则删除干扰词,生成日志数据分词库,该分词库中每个分词对应一个编号;其中,
所述干扰词,包括IP地址、端口号和16进制数字。
例如上表的Message字段中“255.255.255.255|62959|127.0.0.1|58656”等分词是日志影响日志聚类的干扰词,可选择按正则表达式定义规则将其去除,得到表1.3所示分词库:
表1.3
编号 Token
1 accepting
2 access
3 address
4 after
5 again
6 and
(3)依据词库将结构化的日志向量化;
将包含日志核心内容的字段进行分词,将获取的分词与词库相匹配,并用词库中分词编号代替分词,忽略未包含在词库中的分词,并保持分词原有的相对顺序,将文本转化为向量。例如:ConnectionfromUDP:[255.255.255.255]:62959向量化为(35,65,181),ReceivedSNMPpacket(s)fromUDP:[127.0.0.1]:58656向量化为(147,168,133,161,65,181)。
如图3所示,(4)删除重复的日志向量;日志向量中包含许多的相同向量;去除掉相同的向量,获得去除干扰词的无重复的日志向量集合。
(5)确定日志相似关系图,生成各个类别包含的日志向量集合;可以使用余弦相似性、最长公共子序列等。
其中,确定日志相似关系图包括:将去重后的日志向量映射为图中的一个点,判定其相似度;若两个日志向量相似,则所述日志向量之间存在一条边。
判定相似度:设A和B分别表征两个日志向量A=(a1,a2,…,am),B=(b1,b2,…,bn);LCS({A,B})为向量A和B的最长公共子序列;若该最长公共子序列的长度与日志向量A和B比值皆高于经验阈值TH,则为相似,其表达式为:
L C S . l e n g t h | A | ≥ T H a n d L C S . l e n g t h | B | ≥ T H - - - ( 1 ) .
例如将两个日志向量的相似性度量可定义为:设A、B代表两个日志向量,其中A=(a1,a2,…,am),B=(b1,b2,…,bn),LCS({A,B})表示A和B的最长公共子序列。如LCS({(1,2,1,2,3),(3,1,2,3,4)})=(1,2,3)表示日志向量(1,2,1,2,3)和(3,1,2,3,4)的最长公共子序列为(1,2,3)。如果最长公共子序列的长度与这两个日志向量长度的比值,都高于一个人工经验确定的阈值(TH),即如公式(1)所示,则判定两个日志向量相似。
生成各个类别包含的日志向量集合包括;将日志相似关系图中的每个最大连通子图定义为一个类,每一类包含的日志向量即该最大连通子图包含的点。如图4所示,图中包含4个最大连通子图,分别为{a,b,c},{g,h},{e,d,f},{i},即日志向量集合包含4个类,分别为{a,b,c},{g,h},{e,d,f},{i}。
(6)构建特征库。包括:各个日志类别的特征为该类别包含的所有日志向量的最长公共子序列;设第i类集合Ri={S1,S2,…,Sp},LCS(Ri)为第i类中所有日志向量的最长公共子串,wi为第i类的特征,其中wi=LCS(Ri);输入每个日志类别所包含的日志向量集合,输出特征库。例如wi=LCS({(a,b,a,b,e),(c,a,b,e),(a,b,e,d)})=(a,b,e),则表示第i类的特征为(a,b,e)。
如图5所示,2、对海量日志进行类标记,具体步骤包括:
实时采集日志数据,将日志结构化,输出结构化日志数据;
将当前词库中未包含的新日志中未出的分词,添加至词库;
对日志核心内容的字段进行分词,按预设规则去除干扰词;将日志分词集合中的每个词和原词库相匹配,若存在新词,则将该新词添加至词库,并输出新词库。
对日志进行结构化包括:
输入新词库和日志数据;
将日志数据由文本转为向量;
将包含日志内容的字段进行分词,将所述分词与词库匹配,用词库中分词的编号代替分词,忽略未包含词库中的分词,并保持分词原有的相对顺序,将文本转化为向量并输出。
日志类别匹配包括:
输入日志向量和通过日志聚类获得的特征库;
计算日志向量与特征库中各类别特征的相似度;若日志向量和特征wi符合相似规则,则将该日志标记为第i类,输出携带标记的日志;
若日志与特征库中任意类别特征皆不相似,则匹配失败;将该日志存放于故障知识库,并定期重新进行聚类,生成新的类别特征,以更新特征库。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (10)

1.一种基于图结构的日志聚类方法,其特征在于,所述方法包括:基于文本分词、向量相似度以及对最大连通子图日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记。
2.根据权利要求1所述的方法,其特征在于,所述获取特征库包括下述步骤:
(1)将原始日志结构化,生成结构化日志数据;
(2)构建分词库;
(3)依据词库将结构化的日志向量化;
(4)删除重复的日志向量;
(5)确定日志相似关系图,生成各个类别包含的日志向量集合;
(6)构建特征库。
3.根据权利要求2所述的方法,其特征在于,所述步骤(1)中,生成结构化日志数据包括:输入原始日志,对半结构化的原始日志按列结构化,输出结构化日志数据。
4.根据权利要求2所述的方法,其特征在于,所述步骤(2)中,构建分词库包括,输入结构化日志数据,获取所述结构化日志数据包含的所有分词,并依据预设规则删除干扰词,生成日志数据分词库,该分词库中每个分词对应一个编号;其中,
所述干扰词,包括IP地址、端口号和16进制数字。
5.根据权利要求2所述的方法,其特征在于,所述步骤(3)中,日志向量化包括,将包含日志核心内容的字段进行分词,将获取的分词与词库相匹配,并用词库中分词编号代替分词,忽略未包含在词库中的分词,并保持分词原有的相对顺序,将文本转化为向量。
6.根据权利要求2所述的方法,其特征在于,所述步骤(5)中,确定日志相似关系图包括:将去重后的日志向量映射为图中的一个点,计算点与点之间的相似度;
若两个日志向量相似,则所述日志向量之间存在一条边。
7.根据权利要求6所述的方法,其特征在于,所述判定相似度包括,设A和B分别表征两个日志向量A=(a1,a2,…,am),B=(b1,b2,…,bn);LCS({A,B})为向量A和B的最长公共子序列;若该最长公共子序列的长度与日志向量A和B比值皆高于经验阈值TH,则为相似,其表达式为:
L C S . l e n g t h | A | ≥ T H a n d L C S . l e n g t h | B | ≥ T H - - - ( 1 ) .
8.根据权利要求7所述的方法,其特征在于,所述步骤(5)中,生成各个类别包含的日志向量集合包括;
将日志相似关系图中的每个最大连通子图定义为一个类,每一类包含的日志向量即该最大连通子图包含的点。
9.根据权利要求2所述的方法,其特征在于,所述步骤(6)中,构建特征库包括:各个日志类别的特征为该类别包含的所有日志向量的最长公共子序列;设第i类集合Ri={S1,S2,…,Sp},LCS(Ri)为第i类中所有日志向量的最长公共子串,wi为第i类的特征,其中wi=LCS(Ri);
输入每个日志类别所包含的日志向量集合,输出特征库。
10.根据权利要求1所述的方法,其特征在于,所述对海量日志进行类标记,具体步骤包括:
实时采集日志数据,将日志结构化,输出结构化日志数据;
对日志核心内容的字段进行分词,按预设规则去除干扰词;将日志分词集合中的每个词和原词库相匹配,若存在新词,则将该新词添加至词库,并输出新词库;
所述对日志进行结构化包括:
输入新词库和日志数据;
将日志数据由文本转为向量;
将包含日志内容的字段进行分词,将所述分词与词库匹配,用词库中分词的编号代替分词,忽略未包含词库中的分词,并保持分词原有的相对顺序,将文本转化为向量并输出;
所述日志类别匹配包括:
输入日志向量和通过日志聚类获得的特征库;
计算日志向量与特征库中各类别特征的相似度;若日志向量和特征wi符合相似规则,则将该日志标记为第i类,输出携带标记的日志;
若日志与特征库中任意类别特征皆不相似,则匹配失败;将该日志存放于故障知识库,并定期重新进行聚类,生成新的类别特征,以更新特征库。
CN201510781245.7A 2015-11-13 2015-11-13 一种基于图结构的日志聚类方法 Active CN105468677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510781245.7A CN105468677B (zh) 2015-11-13 2015-11-13 一种基于图结构的日志聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510781245.7A CN105468677B (zh) 2015-11-13 2015-11-13 一种基于图结构的日志聚类方法

Publications (2)

Publication Number Publication Date
CN105468677A true CN105468677A (zh) 2016-04-06
CN105468677B CN105468677B (zh) 2019-11-19

Family

ID=55606378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510781245.7A Active CN105468677B (zh) 2015-11-13 2015-11-13 一种基于图结构的日志聚类方法

Country Status (1)

Country Link
CN (1) CN105468677B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227745A (zh) * 2016-07-14 2016-12-14 杭州数梦工场科技有限公司 一种数据项集间的数据梳理方法和装置
CN107103333A (zh) * 2017-04-11 2017-08-29 深圳大学 一种结构聚类的生成方法及系统
CN107368812A (zh) * 2017-07-21 2017-11-21 成都恒高科技有限公司 基于最大连通子图的人脸识别数据清洗方法
CN107995145A (zh) * 2016-10-26 2018-05-04 中国移动通信有限公司研究院 一种面向waf日志的攻击行为模式挖掘方法及装置
CN109902731A (zh) * 2019-02-21 2019-06-18 武汉大学 一种基于支持向量机的性能故障的检测方法及装置
CN109992666A (zh) * 2019-03-22 2019-07-09 阿里巴巴集团控股有限公司 用于处理特征库的方法、装置和非暂时性机器可读介质
CN109992476A (zh) * 2019-03-20 2019-07-09 网宿科技股份有限公司 一种日志的分析方法、服务器及存储介质
CN109992475A (zh) * 2019-03-20 2019-07-09 网宿科技股份有限公司 一种日志的处理方法、服务器及存储介质
CN110175158A (zh) * 2019-05-23 2019-08-27 湖南大学 一种基于向量化的日志模板提取方法和系统
CN110209809A (zh) * 2018-08-27 2019-09-06 腾讯科技(深圳)有限公司 文本聚类方法和装置、存储介质及电子装置
CN110389874A (zh) * 2018-04-20 2019-10-29 比亚迪股份有限公司 日志文件异常检测方法和装置
CN110457473A (zh) * 2019-07-16 2019-11-15 广州番禺职业技术学院 一种电力客服工单的问题聚合方法
CN111159413A (zh) * 2019-12-31 2020-05-15 深信服科技股份有限公司 日志聚类方法、装置、设备及存储介质
CN111400500A (zh) * 2020-03-25 2020-07-10 上海擎创信息技术有限公司 一种基于LCS的Chameleon实时日志聚类方法
CN112100025A (zh) * 2020-08-25 2020-12-18 北京明略昭辉科技有限公司 一种日志精简方法、装置、电子设备和计算机可读介质
CN112650853A (zh) * 2021-01-13 2021-04-13 拉卡拉支付股份有限公司 短文本聚类方法、装置、电子设备、存储介质及程序产品
CN113626400A (zh) * 2021-07-11 2021-11-09 南京理工大学 基于日志树和解析树的日志事件提取方法及系统
CN113836863A (zh) * 2021-09-30 2021-12-24 安徽大学 一种Logisim电路图的查重方法及系统
CN114169651A (zh) * 2022-02-14 2022-03-11 中国空气动力研究与发展中心计算空气动力研究所 一种基于应用相似性的超级计算机作业失败主动预测方法
CN114465875A (zh) * 2022-04-12 2022-05-10 北京宝兰德软件股份有限公司 故障处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5463768A (en) * 1994-03-17 1995-10-31 General Electric Company Method and system for analyzing error logs for diagnostics
CN102214241A (zh) * 2011-07-05 2011-10-12 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN104035983A (zh) * 2014-05-29 2014-09-10 西安理工大学 基于属性权重相似度的分类变量聚类方法
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
CN104461842A (zh) * 2013-09-23 2015-03-25 伊姆西公司 基于日志相似性来处理故障的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5463768A (en) * 1994-03-17 1995-10-31 General Electric Company Method and system for analyzing error logs for diagnostics
CN102214241A (zh) * 2011-07-05 2011-10-12 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN104461842A (zh) * 2013-09-23 2015-03-25 伊姆西公司 基于日志相似性来处理故障的方法和装置
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN104035983A (zh) * 2014-05-29 2014-09-10 西安理工大学 基于属性权重相似度的分类变量聚类方法
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227745A (zh) * 2016-07-14 2016-12-14 杭州数梦工场科技有限公司 一种数据项集间的数据梳理方法和装置
CN107995145A (zh) * 2016-10-26 2018-05-04 中国移动通信有限公司研究院 一种面向waf日志的攻击行为模式挖掘方法及装置
CN107103333A (zh) * 2017-04-11 2017-08-29 深圳大学 一种结构聚类的生成方法及系统
CN107103333B (zh) * 2017-04-11 2020-06-30 深圳大学 一种结构聚类的生成方法及系统
CN107368812A (zh) * 2017-07-21 2017-11-21 成都恒高科技有限公司 基于最大连通子图的人脸识别数据清洗方法
CN107368812B (zh) * 2017-07-21 2020-03-20 成都恒高科技有限公司 基于最大连通子图的人脸识别数据清洗方法
CN110389874A (zh) * 2018-04-20 2019-10-29 比亚迪股份有限公司 日志文件异常检测方法和装置
CN110209809A (zh) * 2018-08-27 2019-09-06 腾讯科技(深圳)有限公司 文本聚类方法和装置、存储介质及电子装置
CN109902731A (zh) * 2019-02-21 2019-06-18 武汉大学 一种基于支持向量机的性能故障的检测方法及装置
CN109902731B (zh) * 2019-02-21 2020-12-18 武汉大学 一种基于支持向量机的性能故障的检测方法及装置
CN109992476A (zh) * 2019-03-20 2019-07-09 网宿科技股份有限公司 一种日志的分析方法、服务器及存储介质
CN109992475B (zh) * 2019-03-20 2023-09-01 网宿科技股份有限公司 一种日志的处理方法、服务器及存储介质
CN109992475A (zh) * 2019-03-20 2019-07-09 网宿科技股份有限公司 一种日志的处理方法、服务器及存储介质
CN109992666A (zh) * 2019-03-22 2019-07-09 阿里巴巴集团控股有限公司 用于处理特征库的方法、装置和非暂时性机器可读介质
CN110175158A (zh) * 2019-05-23 2019-08-27 湖南大学 一种基于向量化的日志模板提取方法和系统
CN110457473A (zh) * 2019-07-16 2019-11-15 广州番禺职业技术学院 一种电力客服工单的问题聚合方法
CN111159413A (zh) * 2019-12-31 2020-05-15 深信服科技股份有限公司 日志聚类方法、装置、设备及存储介质
CN111400500A (zh) * 2020-03-25 2020-07-10 上海擎创信息技术有限公司 一种基于LCS的Chameleon实时日志聚类方法
CN112100025A (zh) * 2020-08-25 2020-12-18 北京明略昭辉科技有限公司 一种日志精简方法、装置、电子设备和计算机可读介质
CN112650853A (zh) * 2021-01-13 2021-04-13 拉卡拉支付股份有限公司 短文本聚类方法、装置、电子设备、存储介质及程序产品
CN113626400A (zh) * 2021-07-11 2021-11-09 南京理工大学 基于日志树和解析树的日志事件提取方法及系统
CN113836863A (zh) * 2021-09-30 2021-12-24 安徽大学 一种Logisim电路图的查重方法及系统
CN113836863B (zh) * 2021-09-30 2024-05-28 安徽大学 一种Logisim电路图的查重方法及系统
CN114169651A (zh) * 2022-02-14 2022-03-11 中国空气动力研究与发展中心计算空气动力研究所 一种基于应用相似性的超级计算机作业失败主动预测方法
CN114169651B (zh) * 2022-02-14 2022-04-19 中国空气动力研究与发展中心计算空气动力研究所 一种基于应用相似性的超级计算机作业失败主动预测方法
CN114465875A (zh) * 2022-04-12 2022-05-10 北京宝兰德软件股份有限公司 故障处理方法及装置
CN114465875B (zh) * 2022-04-12 2022-07-29 北京宝兰德软件股份有限公司 故障处理方法及装置

Also Published As

Publication number Publication date
CN105468677B (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN105468677A (zh) 一种基于图结构的日志聚类方法
CN104111973B (zh) 一种学者重名的消歧方法及其系统
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN102693299B (zh) 一种并行视频拷贝检测系统和方法
CN108509566B (zh) 一种基于云上95598数据发布服务业务系统网络拓扑可视化方法
CN111340063B (zh) 一种磨煤机数据异常检测方法
CN108388559A (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108268600A (zh) 基于ai的非结构化数据管理方法及装置
CN102799627B (zh) 一种基于一阶逻辑和神经网络的数据对应方法
CN114706559A (zh) 一种基于需求识别的软件规模度量方法
CN107491508A (zh) 一种基于循环神经网络的数据库查询时间预测方法
CN105574265B (zh) 面向模型检索的装配体模型定量描述方法
CN111860981A (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
WO2020118928A1 (zh) 一种面向海量设备运行数据的分布式时间序列模式检索方法
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
CN111079809B (zh) 电连接器智能统型方法
CN103116646B (zh) 一种基于云基因表达式编程的音乐情感识别方法
CN105426543A (zh) 基于贝塞尔统计模型的图像检索方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN116401338A (zh) 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法
CN116011564A (zh) 一种面向电力设备的实体关系补全方法、系统及应用
Chen Characteristic scales, scaling, and geospatial analysis
CN102789500B (zh) 一种音频比较方法
CN108764537B (zh) 一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant