CN111190873B - 一种用于云原生系统日志训练的日志模式提取方法及系统 - Google Patents

一种用于云原生系统日志训练的日志模式提取方法及系统 Download PDF

Info

Publication number
CN111190873B
CN111190873B CN201911350953.XA CN201911350953A CN111190873B CN 111190873 B CN111190873 B CN 111190873B CN 201911350953 A CN201911350953 A CN 201911350953A CN 111190873 B CN111190873 B CN 111190873B
Authority
CN
China
Prior art keywords
log
word
native system
tree
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911350953.XA
Other languages
English (en)
Other versions
CN111190873A (zh
Inventor
杜庆峰
赵亮
张双俐
韩永琦
徐锦程
殷康璘
邱娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911350953.XA priority Critical patent/CN111190873B/zh
Publication of CN111190873A publication Critical patent/CN111190873A/zh
Application granted granted Critical
Publication of CN111190873B publication Critical patent/CN111190873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种用于云原生系统日志训练的日志模式提取方法及系统,填补了云原生系统中大量日志有效地抽取为含有语义的词向量日志模式的空白,方法步骤包括:基于云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;基于领域内日志变量知识和通用规则,对日志进行预处理;基于领域内近反义词词典,对日志中单词进行基于语义的向量化;构建一颗定深日志模式提取树,对该树内部的匹配或处理节点进行定义;对每一条日志进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组。本方法的输出结果可以应用于云原生系统中日志分析、故障检测模型的训练及日志的画像构建等。

Description

一种用于云原生系统日志训练的日志模式提取方法及系统
技术领域
本发明涉及计算机技术领域,尤其是涉及一种用于云原生系统日志训练的日志模式提取方法及系统。
背景技术
日志是系统运维重要的信息来源,日志通过行文本的形式来记录系统运行过程中的事件轨迹。
随着5G网络、物联网系统的发展,计算机系统的规模越来越复杂,既可以扩展至数千台商用机器的云原生分布式系统(例如Hadoop,Spark),也可以扩展到具有数千个处理器的超级高性能计算机。由于这些系统全天候运行并为全球数以万计在线用户提供服务,因此必须具有高可用性和可靠性。为了达到这个目的,日志分析技术被广泛应用于服务管理与智能运维,例如故障检测等。这些技术通过数据挖掘模型或机器学习模型来分析系统行为,大多数模型都需要结构化输入。
如上所述,日志是通过行文本的形式来记录系统运行过程中的事件轨迹,并非结构化的输入,所以需要对日志进行结构化的处理,即日志模式提取(也可称为日志解析)。日志模式提取的目标是将原始日志消息转换为结构化日志消息,例如,将日志行“Receiveddata d1567 of size 173822from userA”提取为“Received data*of size*from*”。具体来说,原始日志消息是非结构化数据,包括时间戳和原始消息内容。提取过程就是在每个原始日志消息的固定部分和可变部分之间进行区分。固定部分用于描述系统日志事件,即日志模式(例如上面例子中的“Received data*of size*from*”);而可变部分是携带动态运行时系统信息的变量(例如“d1567”)。典型的结构化日志消息包含匹配的日志模式和感兴趣的变量信息,日志模式提取解决方案是将日志模式提取视为一个聚类问题,将具有相同日志模式的原始日志消息聚类到一个簇中。
目前,对日志的处理大多基于字符串信息的比对,提取出的日志模式也为字符串信息,这种方法有两个缺点:1.对于大型的云原生系统来说,日志模式的数量相当庞大,如果使用基于字符串提取,会提取出过量的日志模式类别,不利于日志分析方法使用;2.当一个日志分析技术需要将日志模式中的词进行词嵌入时,是先提取日志模式,再进行词嵌入。比如先得到“Received data*of size*from*”,再将其处理为“[a1…an],[b1…bn],[c1…cn],[d1..dn],[e1…en]”,与直接使用词嵌入的日志模式提取方法相比增加了中间的处理环节,效率和稳定性存在一定的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于云原生系统日志训练的日志模式提取方法及系统。
本发明的目的可以通过以下技术方案来实现:
一种用于云原生系统日志训练的日志模式提取方法,该方法包括以下步骤:
步骤1:针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;
步骤2:基于领域内的日志变量知识和通用规则,对日志进行预处理;
步骤3:基于领域内的近反义词词典,对经过预处理的日志中的单词进行基于语义的向量化表达;
步骤4:构建定深日志模式提取树,并对该树内部的匹配或处理节点进行定义;
步骤5:利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组。
进一步地,所述的步骤1具体包括:对云原生系统日志中特有的近义词反义词进行提取,使得具有相同上下文语义的近反义单词能够区别处理,并对云原生系统日志中特有的变量进行归纳,使其不会与日志模式中的单词混淆。
进一步地,所述的步骤2中的对日志进行预处理包括对日志特殊变量进行预处理、对日志行进行预处理和对日志单词进行预处理。
进一步地,所述的步骤3中基于语义的向量化表达采用的词嵌入方法为dLCE分布式词汇对比嵌入模型。
进一步地,所述的步骤5中的定深日志模式提取树的节点包括用于对日志所属的叶子节点进行匹配的非叶子节点和用于对日志的模式进行划分提取的叶子节点。
本发明还提供一种采用所述的用于云原生系统日志训练的日志模式提取方法的提取系统,该系统包括:
领域知识构建模块:用于通过领域经验知识库,对于云原生领域内特有的近义词与反义词构建词典;
预处理模块:用于通过对日志中的特殊变量与一般变量进行处理、对不符合要求的日志行使用一般性规则处理及对日志中不符合词嵌入标准的单词处理,将日志文本转为使用词嵌入算法的标准文本;
日志单词向量化模块:用于使用已有的词嵌入算法和已经构建的近义词反义词词典,得到每一个日志词的向量化表达;
日志模式抽取模块:用于根据不同的应用场景,构建固定深度的树结构,并且对非叶子节点定义匹配规则,对叶子节点定义划分提取日志模式规则,将向量化的日志行输入树中并按规则进行处理,得到存储的日志模式和其对应的日志行ID。
与现有技术相比,本发明具有以下优点:
(1)本发明方法通过对云原生系统大量日志数据进行处理,提取出日志模式和其对应的日志行ID,为云原生系统日志故障检测模型训练提供有效的数据基础,解决了:现有的方法提取的日志模式过多,且用于日志故障检测的效果不好的问题。
(2)本发明方法包括:步骤1:针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;步骤2:基于领域内的日志变量知识和通用规则,对日志进行预处理;步骤3:基于领域内的近反义词词典,对经过预处理的日志中的单词进行基于语义的向量化表达;步骤4:构建定深日志模式提取树,并对该树内部的匹配或处理节点进行定义;步骤5:利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组,现有的带有语义的日志模式的生成方法处理环节多,效率低且效果不好的问题,本发明方法解决当前云原生系统中大量日志缺乏有效地抽取为含有语义的词向量日志模式的问题,为故障检测模型训练提供数据基础。面对云原生系统中日志分析方法需要带语义日志模式的需求。
附图说明
图1为本发明的提取系统结构示意图;
图2为本发明与系统配套的提取方法流程图;
图3为本发明实施例中的定深日志模式提取树示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明提出了一种为云原生系统日志故障检测模型训练的日志模式提取方法。填补了云原生系统中大量日志有效地抽取为含有语义的词向量日志模式的空白,抽象出云原生系统日志领域近反义词词典及领域变量的知识表达。该方法包括:
1、基于云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;
2、基于领域内日志变量知识和通用规则,对日志进行预处理;
3、基于领域内近反义词词典,对日志中单词进行基于语义的向量化;
4、构建一颗定深日志模式提取树,对该树内部的匹配或处理节点进行定义;
5、对每一条日志进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组。
其中,步骤1中的领域内近反义词词典是对云原生系统日志中特有的近义词反义词进行提取,使得具有相同上下文语义的近反义单词能够区别处理。
步骤1中的领域内日志变量知识是对云原生系统日志中特有的变量进行归纳,使其不会与日志模式中的单词混淆。
步骤2中的对日志预处理主要分为三大类:对日志特殊变量预处理,对日志行预处理,对日志单词预处理。
步骤3中的日志向量化使用的词嵌入方法是由Nguyen提出的一种叫做dLCE的分布式词汇对比嵌入模型。
步骤5中根据日志模式的特点,构建一种基于定深树的日志模式提取算法,该树中的节点主要有两大类,非叶子节点对日志所属的叶子节点进行匹配,叶子节点对日志的模式进行划分提取。
本方法的输出结果可以应用于云原生系统中日志分析、故障检测模型的训练及日志的画像构建等。如图1所示主要包含4个模块:
1、领域知识构建模块:通过领域经验知识库,对于云原生领域内特有的近义词与反义词构建词典,同时对一部分特殊变量知识进行归纳。
2、预处理模块:通过对日志中的特殊变量与一般变量进行处理、对不符合要求的日志行使用一般性规则处理及对日志中不符合词嵌入(Word Embedding)标准的单词处理,将日志文本转为可以使用词嵌入算法的标准文本;
3、日志单词向量化模块:使用已有的词嵌入算法和已经构建的近义词反义词词典,得到每一个日志词的向量化表达。对于近义词词典中的日志单词,向量化的结果具有距离相近的特征(反义词相反);
4、日志模式抽取模块:根据不同的应用场景,构建一颗固定深度的树结构,并且对非叶子节点定义匹配规则,对叶子节点定义划分提取日志模式规则,将向量化的日志行输入树中并按规则进行处理。所有日志通过树处理以后即可从叶子节点中得到存储的日志模式和其对应的日志行ID。
参照图2所示流程图,本发明方法具体实施例包含以下步骤:
(1)用户通过日志收集工具从云原生系统中获取对应的日志文本,例如用户可以从Kubernetes系统中的ELK日志分析系统(Elasticsearch、Logstash、Kibana)中获取日志,需要包含所有或者大部分可能提取出的日志模式的日志。
(2)根据收集到的云原生系统的日志以及对该系统日志的经验知识,构建近义词和反义词的词典。一些单词在常规文本中并不体现近反义词特性,而在特定领域日志中存在相近的含义,例如crash和down,这两个单词在基于上下文语义的词嵌入方法中并不相近,因为在通常的文本里这两个单词并不具有相似的上下文,而在日志中这两个单词具有相近的含义。
(3)根据收集到的云原生系统的日志以及对该系统的经验知识,归纳特殊变量知识,例如IP地址、user ID与TimeStamp。特殊变量的特殊性是相对于被提取的日志而言的。例如日志模式“Received data*of size*from*”,如果一段时间内系统只有userA这一个用户,且文件大小变量只有一个值为128。在提取过程中可以对含有数字的单词进行特殊处理,而不变的字符串变量无法与日志模式中的单词进行区分,userA只会作为一个普通的单词计入日志模式中。在模式提取过程中对这类变量进行处理会增加模式提取错误的风险,因此归纳特殊变量知识有助于高精准地提取日志模式。
(4)收集的日志进行三大类预处理:对日志特殊变量预处理、对日志行预处理及对日志单词预处理。首先对上述总结出的特殊日志变量直接进行移除,日志模式中不会含有变量,且基于语义日志分析方法不会使用变量的位置信息;对日志行的预处理,将不完整的日志行删去;对日志单词进行处理,去除分隔符、运算符及标点符号等。之后再处理部分变量名,如将“User_data”这类下划线分割含义的变量处理为“User data”,将“isUp”这类驼峰式变量处理同样处理为“is Up”。
(5)对预处理过后的日志进行词嵌入,需要考虑上述提出的云原生系统中的领域近义词和反义词,这里使用由Nguyen提出的一种叫做dLCE的分布式词汇对比嵌入模型。
(6)对已经词嵌入的日志进行日志模式提取,构建一颗固定深度的树结构,并且对非叶子节点定义匹配规则。参照图3四层定深树的例子,第二层的匹配规则是长度。第二层的每一个节点匹配一种单词个数,例如处理完成后的日志具有n个词向量,则会匹配到某个第二层的非叶节点。第三层和第四层分别匹配第一个词向量和第二个词向量,使用余弦距离小于一定阈值来判断是否匹配。从意义上来说,这两层匹配了相同位置具有相近语义的日志行到叶子节点。对叶子节点定义划分提取日志模式规则,日志到了叶子节点后需要寻找或者创建一个日志组,一个日志组即对应一个日志模式。一条日志进入叶子节点后将和现在所有存在的日志组对应的日志模式进行相似度比较,相似度大于阈值将会把该日志分入该日志组。相似度公式如下。
相似度公式如下:
Figure BDA0002334654650000061
Figure BDA0002334654650000062
当每个日志都经过定深树被分配到日志组以后,对每个日志组对应得日志模式进行更新,更新方式如下:对应位置相同的或者距离极近的向量作为日志模式中的词向量,对应位置距离远的词向量合为“*”标志符,作为变量。在叶子节点存储最后更新的日志模式中的所有词向量,以及日志模式对应的日志组中的所有日志ID。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种用于云原生系统日志训练的日志模式提取方法,其特征在于,该方法包括以下步骤:
步骤1:针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达;
步骤2:基于领域内的日志变量知识和通用规则,对日志进行预处理;
步骤3:基于领域内的近反义词词典,对经过预处理的日志中的单词进行基于语义的向量化表达;
步骤4:构建定深日志模式提取树,并对该树内部的匹配或处理节点进行定义;
步骤5:利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取,对抽取的日志模式和对应的日志行ID进行存储,抽取的日志模式是含有语义的词向量数组;
其中,所述步骤4和步骤5具体包括以下内容:
对已经词嵌入的日志进行日志模式提取,构建一颗固定深度的树结构,并且对非叶子节点定义匹配规则,对于四层定深树,第二层的匹配规则是长度,第二层的每一个节点匹配一种单词个数,处理完成后的日志具有n个词向量,则会匹配到某个第二层的非叶节点,第三层和第四层分别匹配第一个词向量和第二个词向量,使用余弦距离小于一定阈值来判断是否匹配,这两层匹配了相同位置具有相近语义的日志行到叶子节点,对叶子节点定义划分提取日志模式规则,日志到了叶子节点后需要寻找或者创建一个日志组,一个日志组即对应一个日志模式,一条日志进入叶子节点后将和现在所有存在的日志组对应的日志模式进行相似度比较,相似度大于阈值将会把该日志分入该日志组;
当每个日志都经过定深树被分配到日志组以后,对每个日志组对应得日志模式进行更新,更新方式如下:对应位置相同的或者距离极近的向量作为日志模式中的词向量,对应位置距离远的词向量合为“*”标志符,作为变量,在叶子节点存储最后更新的日志模式中的所有词向量,以及日志模式对应的日志组中的所有日志ID。
2.根据权利要求1所述的一种用于云原生系统日志训练的日志模式提取方法,其特征在于,所述的步骤1具体包括:对云原生系统日志中特有的近义词反义词进行提取,使得具有相同上下文语义的近反义单词能够区别处理,并对云原生系统日志中特有的变量进行归纳,使其不会与日志模式中的单词混淆。
3.根据权利要求1所述的一种用于云原生系统日志训练的日志模式提取方法,其特征在于,所述的步骤2中的对日志进行预处理包括对日志特殊变量进行预处理、对日志行进行预处理和对日志单词进行预处理。
4.根据权利要求1所述的一种用于云原生系统日志训练的日志模式提取方法,其特征在于,所述的步骤3中基于语义的向量化表达采用的词嵌入方法为dLCE分布式词汇对比嵌入模型。
5.根据权利要求1所述的一种用于云原生系统日志训练的日志模式提取方法,其特征在于,所述的步骤5中的定深日志模式提取树的节点包括用于对日志所属的叶子节点进行匹配的非叶子节点和用于对日志的模式进行划分提取的叶子节点。
6.一种采用如权利要求1~5中任意一项所述的用于云原生系统日志训练的日志模式提取方法的提取系统,其特征在于,该系统包括:
领域知识构建模块:用于通过领域经验知识库,对于云原生领域内特有的近义词与反义词构建词典;
预处理模块:用于通过对日志中的特殊变量与一般变量进行处理、对不符合要求的日志行进行删除处理及对日志中不符合词嵌入标准的单词处理,将日志文本转为使用词嵌入算法的标准文本;
日志单词向量化模块:用于使用已有的词嵌入算法和已经构建的近义词反义词词典,得到每一个日志词的向量化表达;
日志模式抽取模块:用于根据不同的应用场景,构建固定深度的树结构,并且对非叶子节点定义匹配规则,对叶子节点定义划分提取日志模式规则,将向量化的日志行输入树中并按规则进行处理,得到存储的日志模式和其对应的日志行ID。
CN201911350953.XA 2019-12-24 2019-12-24 一种用于云原生系统日志训练的日志模式提取方法及系统 Active CN111190873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911350953.XA CN111190873B (zh) 2019-12-24 2019-12-24 一种用于云原生系统日志训练的日志模式提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911350953.XA CN111190873B (zh) 2019-12-24 2019-12-24 一种用于云原生系统日志训练的日志模式提取方法及系统

Publications (2)

Publication Number Publication Date
CN111190873A CN111190873A (zh) 2020-05-22
CN111190873B true CN111190873B (zh) 2022-08-16

Family

ID=70709403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911350953.XA Active CN111190873B (zh) 2019-12-24 2019-12-24 一种用于云原生系统日志训练的日志模式提取方法及系统

Country Status (1)

Country Link
CN (1) CN111190873B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286896B (zh) * 2020-11-19 2024-02-06 北京百家科技集团有限公司 一种日志文件处理方法、装置、计算机设备和存储介质
CN113254438A (zh) * 2020-11-20 2021-08-13 云智慧(北京)科技有限公司 一种基于树结构的日志解析方法和系统
CN112861478B (zh) * 2021-02-02 2022-07-05 广西师范大学 面向云服务事件联系的时变状态空间向量的构造方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122291A (zh) * 2011-01-18 2011-07-13 浙江大学 一种基于树形日志模式分析的博客好友推荐方法
CN107391353A (zh) * 2017-07-07 2017-11-24 西安电子科技大学 基于日志的复杂软件系统异常行为检测方法
CN109343990A (zh) * 2018-09-25 2019-02-15 江苏润和软件股份有限公司 一种基于深度学习的云计算系统异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10114148B2 (en) * 2013-10-02 2018-10-30 Nec Corporation Heterogeneous log analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122291A (zh) * 2011-01-18 2011-07-13 浙江大学 一种基于树形日志模式分析的博客好友推荐方法
CN107391353A (zh) * 2017-07-07 2017-11-24 西安电子科技大学 基于日志的复杂软件系统异常行为检测方法
CN109343990A (zh) * 2018-09-25 2019-02-15 江苏润和软件股份有限公司 一种基于深度学习的云计算系统异常检测方法

Also Published As

Publication number Publication date
CN111190873A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN108052659B (zh) 基于人工智能的搜索方法、装置和电子设备
CN107451126B (zh) 一种近义词筛选方法及系统
CN111625659B (zh) 知识图谱处理方法、装置、服务器及存储介质
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN114610515A (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
WO2018201600A1 (zh) 信息挖掘方法、系统、电子装置及可读存储介质
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
US11113470B2 (en) Preserving and processing ambiguity in natural language
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN108182523A (zh) 故障数据的处理方法和装置、计算机可读存储介质
CN104850574A (zh) 一种面向文本信息的敏感词过滤方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN103530429A (zh) 一种网页正文抽取的方法
CN115017268B (zh) 一种基于树结构的启发式日志抽取方法及系统
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN109885641A (zh) 一种数据库中文全文检索的方法及系统
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
CN103136221A (zh) 一种生成需求模板的方法、需求识别的方法及其装置
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
US9223833B2 (en) Method for in-loop human validation of disambiguated features
CN103544167A (zh) 一种基于中文检索的逆向分词方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant