CN114661684A - 基于条件随机场的日志报错信息处理方法及装置 - Google Patents

基于条件随机场的日志报错信息处理方法及装置 Download PDF

Info

Publication number
CN114661684A
CN114661684A CN202210299693.3A CN202210299693A CN114661684A CN 114661684 A CN114661684 A CN 114661684A CN 202210299693 A CN202210299693 A CN 202210299693A CN 114661684 A CN114661684 A CN 114661684A
Authority
CN
China
Prior art keywords
log
information
error reporting
text
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210299693.3A
Other languages
English (en)
Inventor
杨鑫
赵同
韩宏宇
李洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210299693.3A priority Critical patent/CN114661684A/zh
Publication of CN114661684A publication Critical patent/CN114661684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种基于条件随机场的日志报错信息处理方法及装置,涉及智能运维领域,可用于金融领域或其他领域。方法包括:利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息;根据日志报错信息,确定日志报错时间点,利用日志报错时间点,对日志文本进行划分,得到多个文本片段;根据文本片段,确定其对应的阶段信息,对文本片段的阶段信息进行链接,得到报错处理过程链集合;根据相似度算法与报错处理过程链集合,确定获取的待测报错信息对应的相似度,根据相似度对待测报错信息进行处理。本发明通过对日志文本信息提取挖掘,从日志文本中获取更多的有效信息,有效应用于日志报错信息分析的辅助处理,节省了程序员的时间和精力。

Description

基于条件随机场的日志报错信息处理方法及装置
技术领域
本发明涉及日志处理技术领域,尤指一种基于条件随机场的日志报错信息处理方法及装置。
背景技术
各种互联网服务提供商为广大用户提供网络服务时,服务平台需要进行数以百万计的计算作业,会产生海量的日志记录,其中,会存在大量的报错日志。有些报错原因可能是源自用户自身的问题,有些可能是服务平台侧的问题,很多情况下同一个原因产生的多个报错内容也有差异。
目前,运维人员常常淹没在海量报错日志中,要进行大量的人工排查的工作,导致系统问题的排查效率低,很难及时准确定位到为何报错以及应该如何解决异常问题。
发明内容
针对现有技术中存在的问题,本发明实施例的主要目的在于提供一种基于条件随机场的日志报错信息处理方法及装置,实现有效对日志报错信息分析,提高效率,节约人力成本。
为了实现上述目的,本发明实施例提供一种基于条件随机场的日志报错信息处理方法,方法包括:
利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息;
根据日志报错信息,确定日志报错时间点,并利用日志报错时间点,对日志文本进行划分,得到多个文本片段;
根据文本片段,确定其对应的阶段信息,并对文本片段的阶段信息进行链接,得到报错处理过程链集合;
根据相似度算法与报错处理过程链集合,确定获取的待测报错信息对应的相似度,并根据相似度对待测报错信息进行处理。
可选的,在本发明一实施例中,方法还包括:从报错日志数据库中获取多个日志文本。
可选的,在本发明一实施例中,利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息包括:
对获取的日志文本进行预处理;
利用预设的条件随机场特征模型,对预处理后的日志文本进行文本结构分析处理,得到日志报错信息。
可选的,在本发明一实施例中,对获取的日志文本进行预处理包括:去除日志文本中的报错线程编号及描述性信息。
可选的,在本发明一实施例中,根据日志报错信息,确定日志报错时间点,并利用日志报错时间点,对日志文本进行划分,得到多个文本片段包括:
根据日志报错信息,确定日志报错时间点及阶段过渡时间点;
根据日志报错时间点及阶段过渡时间点,对日志文本进行划分,得到多个文本片段。
可选的,在本发明一实施例中,对文本片段的阶段信息进行链接,得到报错处理过程链集合包括:
利用预设的评分模型对所述阶段信息进行评分,得到阶段评分结果,并根据所述阶段评分结果,对文本片段进行分类处理;
对分类处理后的文本片段的阶段信息进行链接,得到文本片段对应的报错处理过程链;
根据各文本片段对应的报错处理过程链,得到报错处理过程链集合。
可选的,在本发明一实施例中,根据相似度算法与报错处理过程链集合,确定获取的待测报错信息对应的相似度包括:
获取待测日志中的待测报错信息,并根据待测报错信息,得到待测特征向量;
根据报错处理过程链集合中属于相同阶段的阶段信息,得到阶段特征向量;
根据相似度算法,确定待测特征向量与阶段特征向量的相似度。
本发明实施例还提供一种基于条件随机场的日志报错信息处理装置,所述装置包括:
报错信息模块,用于利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息;
文本片段模块,用于根据日志报错信息,确定日志报错时间点,并利用日志报错时间点,对日志文本进行划分,得到多个文本片段;
处理过程链模块,用于根据述文本片段,确定其对应的阶段信息,并对文本片段的阶段信息进行链接,得到报错处理过程链集合;
信息处理模块,用于根据相似度算法与所述报错处理过程链集合,确定获取的待测报错信息对应的相似度,并根据相似度对所述待测报错信息进行处理。
可选的,在本发明一实施例中,装置还包括日志获取模块,用于从报错日志数据库中获取多个日志文本。
可选的,在本发明一实施例中,报错信息模块包括:
预处理单元,用于对获取的日志文本进行预处理;
报错信息单元,利用预设的条件随机场特征模型,对预处理后的日志文本进行文本结构分析处理,得到日志报错信息。
可选的,在本发明一实施例中,预处理单元还用于去除日志文本中的报错线程编号及描述性信息。
可选的,在本发明一实施例中,文本片段模块包括:
时间点单元,用于根据所述日志报错信息,确定日志报错时间点及阶段过渡时间点;
文本划分单元,用于根据日志报错时间点及阶段过渡时间点,对日志文本进行划分,得到多个文本片段。
可选的,在本发明一实施例中,处理过程链模块包括:
分类处理单元,用于利用预设的评分模型对所述阶段信息进行评分,得到阶段评分结果,并根据阶段评分结果,对文本片段进行分类处理;
处理过程链单元,用于对分类处理后的文本片段的阶段信息进行链接,得到文本片段对应的报错处理过程链;
过程链集合单元,用于根据各文本片段对应的报错处理过程链,得到报错处理过程链集合。
可选的,在本发明一实施例中,信息处理模块包括:
待测信息单元,用于获取待测日志中的待测报错信息,并根据待测报错信息,得到待测特征向量;
阶段信息单元,用于根据报错处理过程链集合中属于相同阶段的阶段信息,得到阶段特征向量;
相似度单元,用于根据相似度算法,确定待测特征向量与所述阶段特征向量的相似度。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明通过对日志文本的有用信息进行提取挖掘,使得原来沉睡的宝贵数据能够直观的显示出来,实现了日志文本信息的深度挖掘,能够从日志文本中获取更多的有效信息,并有效应用于日志报错信息分析的辅助处理决策中,节省了程序员在日志查找和阅读上花费的时间和精力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于条件随机场的日志报错信息处理方法的流程图;
图2为本发明实施例中获得日志报错信息的流程图;
图3为本发明实施例中获得多个文本片段的流程图;
图4为本发明实施例中获得报错处理过程链集合的流程图;
图5为本发明实施例中确定待测报错信息相似度的流程图;
图6为本发明一具体实施例中基于条件随机场的日志报错信息处理的流程图;
图7为本发明一具体实施例中条件随机场线性模型示意图;
图8为本发明一具体实施例中阶段信息存储单元的结构示意图;
图9为本发明实施例一种基于条件随机场的日志报错信息处理装置的结构示意图;
图10为本发明另一实施例中基于条件随机场的日志报错信息处理装置的结构示意图;
图11为本发明实施例中报错信息模块的结构示意图;
图12为本发明实施例中文本片段模块的结构示意图;
图13为本发明实施例中处理过程链模块的结构示意图;
图14为本发明实施例中信息处理模块的结构示意图;
图15为本发明一实施例所提供的电子设备的结构示意图。
具体实施方式
本发明实施例提供一种基于条件随机场的日志报错信息处理方法及装置,可用于金融领域及其他领域,需要说明的是,本发明的基于条件随机场的日志报错信息处理方法及装置可用于金融领域,也可用于除金融领域之外的任意领域,本发明的基于条件随机场的日志报错信息处理方法及装置应用领域不做限定。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明实施例一种基于条件随机场的日志报错信息处理方法的流程图,本发明实施例提供的基于条件随机场的日志报错信息处理方法的执行主体包括但不限于计算机。图1所示方法包括:
步骤S1,利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息。
其中,日志文本可以从CSDN等国际知名权威日志数据库中获取。采用预设的条件随机场特征模型,例如图7所示的条件随机场特征模型,对日志文本中的日志报错信息。日志报错信息包括用户IP、http请求方式、请求后台接口信息、接口参数、服务状态、传送字节数、上级页面、错误名称及错误描述信息等。
步骤S2,根据日志报错信息,确定日志报错时间点,并利用日志报错时间点,对日志文本进行划分,得到多个文本片段。
其中,从日志报错信息中识别日志中发生报错的时间节点,即日志报错时间点,将日志文本按照报错处理阶段进行片段划分,得到多个文本片段。
进一步的,从日志报错信息中识别日志中发生报错的时间节点还包括处理阶段过渡标注的时间节点,即阶段过渡时间点。利用日志报错时间点与阶段过渡时间点,将日志文本按照报错处理阶段进行片段划分。
步骤S3,根据文本片段,确定其对应的阶段信息,并对文本片段的阶段信息进行链接,得到报错处理过程链集合。
其中,从文本片段中确定其对应的阶段信息,具体的,在每一个文本片段中对该阶段报错表现、处理手段、所用方法和解决效果进行提取。进一步的,将提取得到的阶段信息存储为一个阶段信息单元,以便于后需处理。
步骤S4,根据相似度算法与报错处理过程链集合,确定获取的待测报错信息对应的相似度,并根据相似度对待测报错信息进行处理。
其中,利用预设的条件随机场评分特征模型对每个报错阶段处理的阶段信息进行评分,并存储到相应的阶段信息单元。利用评分结构,将阶段信息单元按照顺序链接起来,形成报错处理过程链。
进一步的,将大量报错日志文本抽取出的处理过程链形成处理过程链集合,使用相似度算法,例如常规推荐算法,扫描处理过程链集合。将获取的待测日志中的待测报错信息与集合中的报错信息做相似度计算,得到相似度。根据相似度结算结果,对待测报错信息进行处理,具体的,根据相似度对待测报错信息提供准确和有针对性的处理方案。
作为本发明的一个实施例,方法还包括:从报错日志数据库中获取多个日志文本。
其中,日志文本可以从CSDN等国际知名权威日志数据库中获取,具体可使用爬虫技术从互联网权威程序日志库中将日志文本信息爬取,再利用文本挖掘技术对日志文本的有用信息进行提取挖掘。
进一步的,对相关的日志报错信息及处理数据进行评估,筛选较为权威的日志报错信息处理数据,编写爬虫对目标文本进行爬取。
作为本发明的一个实施例,如图2所示,利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息包括:
步骤S21,对获取的日志文本进行预处理;
步骤S22,利用预设的条件随机场特征模型,对预处理后的日志文本进行文本结构分析处理,得到日志报错信息。
其中,预设的条件随机场特征模型可以为如图7所示的线性条件随机场的线性模型,图7是由结点及连接结点的边组成的集合。
在本实施例中,对获取的日志文本进行预处理包括:去除日志文本中的报错线程编号及描述性信息。
其中,得到日志报错信息的过程包括:文本预处理:分析文本结构特点;使用条件随机场特征模型对日志中的用户IP、http请求方式、请求后台接口信息、接口参数、服务状态、传送字节数、上级页面、错误名称、错误描述信息进行挖掘。
进一步的,文本预处理的具体包括:去掉日志基本信息中,报错线程的编号,且编号对挖掘的报错信息并没有实际作用;根据对日志文本结构的分析,删除日志文本开头和中间用来记录操作系统、浏览器版本、浏览器内核、程序语言版本等信息的描述性文字段落,提升挖掘方法的效率和准确率。
作为本发明的一个实施例,如图3所示,根据日志报错信息,确定日志报错时间点,并利用日志报错时间点,对日志文本进行划分,得到多个文本片段包括:
步骤S31,根据日志报错信息,确定日志报错时间点及阶段过渡时间点;
步骤S32,根据日志报错时间点及阶段过渡时间点,对日志文本进行划分,得到多个文本片段。
其中,从日志报错信息中确定日志报错时间点及阶段过渡时间点,可以通过时间描述词的探测方式,判断该时间节点是否为报错发生的节点,将文本按照时间节点进行片段的划分。进一步的,对文本片段按照顺序标记序号。
作为本发明的一个实施例,如图4所示,对文本片段的阶段信息进行链接,得到报错处理过程链集合包括:
步骤S41,利用预设的评分模型对阶段信息进行评分,得到阶段评分结果,并根据阶段评分结果,对文本片段进行分类处理;
步骤S42,对分类处理后的文本片段的阶段信息进行链接,得到文本片段对应的报错处理过程链;
步骤S43,根据各文本片段对应的报错处理过程链,得到报错处理过程链集合。
其中,预设的评分模型可以为现有条件随机场评分特征模型,具体评分过程包括:解决效果描述词的探测;使用解决效果评分模型(可以为现有条件随机场模块)对词语分类,找到该描述性词语的类别;将该类别对应的分值存储到该阶段信息单元。
具体的,主要将评分分数等级分为以下几类:很好3分,好2分,中等1分,较差-1分,差-2,很差-3分。
作为本发明的一个实施例,如图5所示,根据相似度算法与报错处理过程链集合,确定获取的待测报错信息对应的相似度包括:
步骤S51,获取待测日志中的待测报错信息,并根据待测报错信息,得到待测特征向量;
步骤S52,根据报错处理过程链集合中属于相同阶段的阶段信息,得到阶段特征向量;
步骤S53,根据相似度算法,确定待测特征向量与阶段特征向量的相似度。
其中,得到报错处理过程链的过程包括:在获取待测日志中的待测报错信息,将获得的待测报错信息组成待测特征向量;将待测特征向量与处理过程链集合中不同的过程链与同一个过程链不同处理阶段的报错信息组成的特征向量库进行相似度计算,公式如下:
Figure BDA0003565037590000081
其中,d1、d2是两个特征向量,ai和bi分别是两个特征向量中第i个特征值词分量。Sim(d1,d2)是d1与d2的相似度。进一步的,按照相似度顺序进行排序,形成推荐序列。
在本发明一具体实施例中,如图6所示的基于条件随机场的日志报错信息处理的流程图,具体包括以下步骤:
步骤(1)采用预设的条件随机场特征模型对文本中报错基本信息(用户IP、http请求方式、请求后台接口信息、接口参数、服务状态、传送字节数、上级页面、错误名称、错误描述信息)进行挖掘;
步骤(2)识别日志中发生报错的时间节点和处理阶段过渡标注的时间节点,将日志文本按照报错处理阶段进行片段划分;
步骤(3)在每一个文本片段中对该阶段报错表现、处理手段/所用方法和解决效果进行提取并存储为一个阶段信息单元;
步骤(4)依据条件随机场评分特征模型对每个处理阶段的效果进行评分并存储到相应的阶段信息单元,最后将阶段信息单元按照顺序链接起来,形成报错处理过程链;
步骤(5)将大量报错日志文本抽取出的处理过程链形成处理过程链集合,使用推荐算法扫描处理过程链集合,将日志中的报错信息与集合中的报错信息做相似度计算,提供准确和有针对性的处理方案。
上述步骤(1)之前需要进行数据的获取,实现对各大日志数据库网站进行评级,本例选着CSDN中报错日志数据库。
上述步骤(1)中采用条件随机场特征模型对文本中报错基本信息(用户IP、http请求方式、请求后台接口信息、接口参数、服务状态、传送字节数、上级页面、错误名称、错误描述信息)进行挖掘,具体原理如下:
如图7是线性条件随机场的线性模型,图是由结点及连接结点的边组成的集合。结点和边分别记作v和e,结点和边的集合分别记作V和E,图记作G=(V,E),无向图是指边没有方向的图。概率图模型是由图表示的概率分布。设有联合概率分布P(Y),Y∈y是一组随机变量。由无向图G表示概率分布,即在图G中,结点v∈V表示一个随机变量Yv,Y=Yv|v∈V;边e∈E表示随机变量之间的概率依赖关系。
通过观察序列x(x1,x2,…,xn)和状态序列y(y1,y2,…,yn),使用tm(yn-1,yn,x,n)表示观察序列标记位n-1与n之间的转移特征函数,sk(yn,x,n)表示观察序列标记位置n的状态特征函数,用一个函数fm(yn-1,yn,x,n)来将来个特征函数统一起来,根据随机场基本理论:
Figure BDA0003565037590000091
其中,M(x:△)为输入标准化后所有状态序列概率的归一化。公式(2)的等号左侧表示:给定输入序列x,对输出序列y预测的条件概率。公式(2)为预设的条件随机场特征模型,也称为条件概率分布。
进一步的,tm表示定义在观测序列的两个相邻标记位置上的转移特征函数,用于刻画相邻标记变量之间的相关关系以及观测序列对他们的影响。sk表示在观测序列的标记位置n上的状态特征函数,用于刻画观测序列对标记变量的影响。
具体的,例如,词性标注:如何判断给出的标注序列靠谱不靠谱,转移特征函数主要断定两个相邻的标注是否合理,例如,动词+动词语法不通,状态特征函数断定观测值与对应的标注是否合理,例如:ly结尾的词-->副词较合理。所以能够定义一个特征函数集合,用这个特征函数集合来为一个标准序列打分,根据此选出靠谱的标注序列。每个特征函数均可以用来为一个标准序列评分,把集合中全部特征函数对同一个标注序列的评分综合起来,就是这个标注序列最终的评分值。特征函数是一些经验的特性。
其中,利用预设的条件随机场特征模型进行信息挖掘的过程具体包括:对报错信息的各项分别进行标注;基于条件随机场模型的学习过程分别得到接口参数和错误名称识别模型;将接口参数及错误名称二者的标注结果直接作为特征,直接加入到报错信息抽取的基础特征中;基于条件随机场模型的学习过程得到报错信息抽取模型。面对一个新文本时,先通过接口参数和错误名称识别模型,对其接口参数和错误名称分别进行识别,然后将识别结果直接作为特征直接加入到目标文本中,再通过报错信息抽取模型结合条件随机场解码算法标识出报错信息。最后基于标注抽取报错信息。
进一步的,利用预设的条件随机场特征模型进行信息挖掘具体步骤为:文本预处理;分析文本结构特点;使用条件随机场特征模型对日志文本中的用户IP、http请求方式、请求后台接口信息、接口参数、服务状态、传送字节数、上级页面、错误名称、错误描述信息进行挖掘。
进一步的,文本预处理的具体步骤为:去掉日志基本信息中,报错线程的编号,且编号对挖掘的报错信息并没有实际作用;根据对日志文本结构的分析,删除日志文本开头和中间用来记录操作系统、浏览器版本、浏览器内核、程序语言版本等信息的描述性文字段落,提升挖掘方法的效率和准确率。
在本实施例中,上述步骤中识别日志中发生报错的时间节点和处理阶段过渡标注的时间节点,将日志文本按照报错处理阶段进行片段划分,顺序标记序号案例如表1处理阶段进行片段划分表所示。
表1
Figure BDA0003565037590000101
Figure BDA0003565037590000111
其中,文本分片划分的具体过程包括:时间描述词的探测;判断该时间节点是否为报错发生的节点;将文本按照时间节点进行片段的划分;对片段按照顺序标记序号。
其中,上述步骤(3)中提到的阶段信息存储单元如图8所示,表2为一个具体实施例。此外,上述步骤(4)具体的评分案例如表3(描述词得分表)所示。
表2
<u>ModuleNotFoundError</u>:No module named′<u>Cryptodome′</u> pip install <u>pycryptodomex</u> 34 3
<u>ModuleNotFoundError</u>:No module named′<u>gnupg′</u> pip install <u>gnupg</u> 22 3
<u>rosbag</u>.bag.<u>ROSBagException</u>:unsupported compression type:lz4 pip installlz4 45 -1
<u>rosbag</u>.bag.<u>ROSBagException</u>:unsupported compression type:lz4 python2 extract_bag_images.<u>py</u> 56 2
表3
句子 描述词 同义词1 得分
成功解决报错 成功 顺利 3
报错更严重 更严重 更多 -2
报错无法解决 无法 仍未 -1
其中,具体评分类别为:很好3分,好2分,中等1分,较差-1分,差-2,很差-3分。
上述步骤(5)将大量日志文本抽取出的处理过程链形成处理过程链集合,使用推荐算法扫描处理过程链集合,将日志中的报错信息与集合中的报错信息做相似度计算,提供准确和有针对性的解决方案,步骤具体为:获取日志中的报错信息(用户IP、http请求方式、请求后台接口信息、接口参数、服务状态、传送字节数、上级页面、错误名称、错误描述信息);将获得的新报错信息组成待测特征向量;将待测特征向量与处理过程链集合中不同的过程链与同一个过程链不同处理阶段的报错信息组成的特征向量库进行相似度计算,公式如公式(1)所示;按照相似度顺序进行排序,形成推荐序列。
具体的,举一个例子来说明,用上述理论计算文本的相似性。为了简单起见,先从句子着手。
句子A:这只皮靴号码大了。那只号码合适
句子B:这只皮靴号码不小,那只更合适
基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。
第一步,分词。
句子A:这只/皮靴/号码/大了。那只/号码/合适。
句子B:这只/皮靴/号码/不/小,那只/更/合适。
第二步,列出所有的词。
这只,皮靴,号码,大了。那只,合适,不,小,很
第三步,计算词频。
句子A:这只1,皮靴1,号码2,大了1。那只1,合适1,不0,小0,更0
句子B:这只1,皮靴1,号码1,大了0。那只1,合适1,不1,小1,更1
第四步,写出词频向量。
句子A:(1,1,2,1,1,1,0,0,0)
句子B:(1,1,1,0,1,1,1,1,1)
到这里,问题就变成了如何计算这两个向量的相似程度。可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。
使用上面的公式计算两个句子向量:
句子A:(1,1,2,1,1,1,0,0,0)和句子B:(1,1,1,0,1,1,1,1,1)的向量余弦值来确定两个句子的相似度。
计算结果中夹角的余弦值为0.81非常接近于1,所以,上面的句子A和句子B是基本相似的。
本发明通过对日志文本的有用信息进行提取挖掘,使得原来沉睡的宝贵数据能够直观的显示出来,实现了日志文本信息的深度挖掘,能够从日志文本中获取更多的有效信息,并有效应用于日志报错信息分析的辅助处理决策中,节省了程序员在日志查找和阅读上花费的时间和精力。通过报错解决效果评价,使推荐的处理手段和方法更加客观。
如图9所示为本发明实施例一种基于条件随机场的日志报错信息处理装置的结构示意图,图中所示装置包括:
报错信息模块10,用于利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息;
文本片段模块20,用于根据所述日志报错信息,确定日志报错时间点,并利用所述日志报错时间点,对所述日志文本进行划分,得到多个文本片段;
处理过程链模块30,用于根据所述文本片段,确定其对应的阶段信息,并对所述文本片段的阶段信息进行链接,得到报错处理过程链集合;
信息处理模块40,用于根据相似度算法与所述报错处理过程链集合,确定获取的待测报错信息对应的相似度,并根据所述相似度对所述待测报错信息进行处理。
作为本发明的一个实施例,如图10所示,装置还包括日志获取模块50,用于从报错日志数据库中获取多个日志文本。
作为本发明的一个实施例,如图11所示,报错信息模块10包括:
预处理单元11,用于对获取的日志文本进行预处理;
报错信息单元12,利用预设的条件随机场特征模型,对预处理后的日志文本进行文本结构分析处理,得到日志报错信息。
在本实施例中,预处理单元11还用于去除日志文本中的报错线程编号及描述性信息。
作为本发明的一个实施例,如图12所示,文本片段模块20包括:
时间点单元21,用于根据所述日志报错信息,确定日志报错时间点及阶段过渡时间点;
文本划分单元22,用于根据日志报错时间点及阶段过渡时间点,对日志文本进行划分,得到多个文本片段。
作为本发明的一个实施例,如图13所示,处理过程链模块30包括:
分类处理单元31,用于利用预设的评分模型对所述阶段信息进行评分,得到阶段评分结果,并根据阶段评分结果,对文本片段进行分类处理;
处理过程链单元32,用于对分类处理后的文本片段的阶段信息进行链接,得到文本片段对应的报错处理过程链;
过程链集合单元33,用于根据各文本片段对应的报错处理过程链,得到报错处理过程链集合。
作为本发明的一个实施例,如图14所示,信息处理模块40包括:
待测信息单元41,用于获取待测日志中的待测报错信息,并根据待测报错信息,得到待测特征向量;
阶段信息单元42,用于根据报错处理过程链集合中属于相同阶段的阶段信息,得到阶段特征向量;
相似度单元43,用于根据相似度算法,确定待测特征向量与所述阶段特征向量的相似度。
基于与上述一种基于条件随机场的日志报错信息处理方法相同的申请构思,本发明还提供了上述一种基于条件随机场的日志报错信息处理装置。由于该一种基于条件随机场的日志报错信息处理装置解决问题的原理与一种基于条件随机场的日志报错信息处理方法相似,因此该一种基于条件随机场的日志报错信息处理装置的实施可以参见一种基于条件随机场的日志报错信息处理方法的实施,重复之处不再赘述。
本发明通过对日志文本的有用信息进行提取挖掘,使得原来沉睡的宝贵数据能够直观的显示出来,实现了日志文本信息的深度挖掘,能够从日志文本中获取更多的有效信息,并有效应用于日志报错信息分析的辅助处理决策中,节省了程序员在日志查找和阅读上花费的时间和精力。通过报错解决效果评价,使推荐的处理手段和方法更加客观。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
如图15所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图15中所示的所有部件;此外,电子设备600还可以包括图15中没有示出的部件,可以参考现有技术。
如图15所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于条件随机场的日志报错信息处理方法,其特征在于,所述方法包括:
利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息;
根据所述日志报错信息,确定日志报错时间点,并利用所述日志报错时间点,对所述日志文本进行划分,得到多个文本片段;
根据所述文本片段,确定其对应的阶段信息,并对所述文本片段的阶段信息进行链接,得到报错处理过程链集合;
根据相似度算法与所述报错处理过程链集合,确定获取的待测报错信息对应的相似度,并根据所述相似度对所述待测报错信息进行处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从报错日志数据库中获取多个日志文本。
3.根据权利要求1所述的方法,其特征在于,所述利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息包括:
对获取的日志文本进行预处理;
利用预设的条件随机场特征模型,对预处理后的日志文本进行文本结构分析处理,得到日志报错信息。
4.根据权利要求3所述的方法,其特征在于,所述对获取的日志文本进行预处理包括:去除所述日志文本中的报错线程编号及描述性信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述日志报错信息,确定日志报错时间点,并利用所述日志报错时间点,对所述日志文本进行划分,得到多个文本片段包括:
根据所述日志报错信息,确定日志报错时间点及阶段过渡时间点;
根据所述日志报错时间点及阶段过渡时间点,对所述日志文本进行划分,得到多个文本片段。
6.根据权利要求1所述的方法,其特征在于,所述对所述文本片段的阶段信息进行链接,得到报错处理过程链集合包括:
利用预设的评分模型对所述阶段信息进行评分,得到阶段评分结果,并根据所述阶段评分结果,对所述文本片段进行分类处理;
对分类处理后的文本片段的阶段信息进行链接,得到所述文本片段对应的报错处理过程链;
根据各文本片段对应的报错处理过程链,得到报错处理过程链集合。
7.根据权利要求1所述的方法,其特征在于,所述根据相似度算法与所述报错处理过程链集合,确定获取的待测报错信息对应的相似度包括:
获取待测日志中的待测报错信息,并根据所述待测报错信息,得到待测特征向量;
根据所述报错处理过程链集合中属于相同阶段的阶段信息,得到阶段特征向量;
根据相似度算法,确定所述待测特征向量与所述阶段特征向量的相似度。
8.一种基于条件随机场的日志报错信息处理装置,其特征在于,所述装置包括:
报错信息模块,用于利用预设的条件随机场特征模型,对获取的日志文本进行处理,得到日志报错信息;
文本片段模块,用于根据所述日志报错信息,确定日志报错时间点,并利用所述日志报错时间点,对所述日志文本进行划分,得到多个文本片段;
处理过程链模块,用于根据所述文本片段,确定其对应的阶段信息,并对所述文本片段的阶段信息进行链接,得到报错处理过程链集合;
信息处理模块,用于根据相似度算法与所述报错处理过程链集合,确定获取的待测报错信息对应的相似度,并根据所述相似度对所述待测报错信息进行处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一项所述方法的计算机程序。
CN202210299693.3A 2022-03-25 2022-03-25 基于条件随机场的日志报错信息处理方法及装置 Pending CN114661684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210299693.3A CN114661684A (zh) 2022-03-25 2022-03-25 基于条件随机场的日志报错信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210299693.3A CN114661684A (zh) 2022-03-25 2022-03-25 基于条件随机场的日志报错信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN114661684A true CN114661684A (zh) 2022-06-24

Family

ID=82030577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210299693.3A Pending CN114661684A (zh) 2022-03-25 2022-03-25 基于条件随机场的日志报错信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN114661684A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757858A (zh) * 2023-08-23 2023-09-15 保大坊科技有限公司 保险信息处理方法、终端设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757858A (zh) * 2023-08-23 2023-09-15 保大坊科技有限公司 保险信息处理方法、终端设备和存储介质

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN108959559B (zh) 问答对生成方法和装置
CN112395420A (zh) 视频内容检索方法、装置、计算机设备及存储介质
CN110795919A (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN107102993B (zh) 一种用户诉求分析方法和装置
CN107463616B (zh) 一种企业信息分析方法及系统
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN109146625B (zh) 一种基于内容的多版本App更新评价方法及系统
CN111190946A (zh) 报告生成方法、装置、计算机设备和存储介质
CN114186019A (zh) 结合rpa和ai的企业项目的审核方法及装置
CN111414735A (zh) 文本数据的生成方法和装置
CN114491034B (zh) 一种文本分类方法及智能设备
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN113703773B (zh) 一种基于nlp的二进制代码相似性比对方法
CN114661684A (zh) 基于条件随机场的日志报错信息处理方法及装置
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
CN117216214A (zh) 一种问答抽取的生成方法、装置、设备及介质
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN107609094B (zh) 数据消歧方法、装置及计算机设备
CN110263123A (zh) 机构名简称的预测方法、装置和计算机设备
CN113822013B (zh) 用于文本数据的标注方法、装置、计算机设备及存储介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination