CN116089243A - 一种地图生产异常定位及处理方法、系统、介质及设备 - Google Patents

一种地图生产异常定位及处理方法、系统、介质及设备 Download PDF

Info

Publication number
CN116089243A
CN116089243A CN202310003808.4A CN202310003808A CN116089243A CN 116089243 A CN116089243 A CN 116089243A CN 202310003808 A CN202310003808 A CN 202310003808A CN 116089243 A CN116089243 A CN 116089243A
Authority
CN
China
Prior art keywords
log
abnormal
exception
abnormality
solution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310003808.4A
Other languages
English (en)
Inventor
徐心照
邹朋
张彦锋
苏龙强
韦力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navinfo Co Ltd
Original Assignee
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navinfo Co Ltd filed Critical Navinfo Co Ltd
Priority to CN202310003808.4A priority Critical patent/CN116089243A/zh
Publication of CN116089243A publication Critical patent/CN116089243A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Remote Sensing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种地图生产异常定位及处理方法、系统、介质及设备,属于地图生产技术领域,该方法包括:通过日志采集模块采集地图生产过程中的日志信息;通过日志分析模块对日志信息进行分析,并根据分析结果在规则库中确定对应的第一异常解决方案;若规则库中不存在异常对应的第一异常解决方案,则根据异常增加相应的第二异常解决方案,并建立第二异常解决方案与异常之间的关系,对规则库进行更新;根据第一异常解决方案或第二异常解决方案对地图生产过程中的异常进行处理。通过对地图生产过程中的日志信息进行分析,实现对地图生产中异常的准确定位,并且根据分析结果在规则库中找到对应的异常解决方案,实现对异常的自动处理。

Description

一种地图生产异常定位及处理方法、系统、介质及设备
技术领域
本申请涉及地图生产技术领域,特别涉及一种地图生产异常定位及处理方法、系统、介质及设备。
背景技术
在车辆的行驶以及自动驾驶过程中,都需要完整的地图或者高精地图,指示车辆的行驶过程。其中在地图的生产或更新过程中,往往会存在一些处理异常,如果不能对这些异常尽快定位和处理,将大大影响地图的生产效率,影响地图的更新效率。另外,在确定异常点后,因为没有统一的处理规则,通过人工解决问题的方式进行问题,也会大大影响地图的生产效率。
发明内容
针对在进行地图生产过程中,出现的异常无法快速定位和自动处理,导致地图生产效率低的问题,本申请提出一种地图生产异常定位及处理方法、系统、介质及设备。
第一方面,本申请提出一种地图生产异常定位及处理方法,包括:通过日志采集模块采集地图生产过程中的日志信息;通过日志分析模块对日志信息进行分析,并根据分析结果在规则库中确定对应的第一异常解决方案;若规则库中不存在异常对应的第一异常解决方案,则根据异常增加相应的第二异常解决方案,并建立第二异常解决方案与异常之间的关系,对规则库进行更新;根据第一异常解决方案或第二异常解决方案对地图生产过程中的异常进行处理。
可选的,通过日志分析模块对日志信息进行分析,包括:通过日志分析模块对日志信息中的异常关键字进行识别,筛选得到异常日志;对异常日志中的内容进行分词并提取,使得异常日志中仅存在字符串,并且相邻字符串之间用特定符号进行分割;对分割后的异常日志与数据库中已存异常日志进行匹配,得到匹配结果,并作为分析结果。
可选的,对分割后的异常日志与数据库中已存日志进行匹配运算,得到匹配结果,包括:对所述异常日志中字符串与已存异常日志中字符串的对比,得到第一匹配度;若第一匹配度小于第一预设阈值,则计算异常日志中的字符串与已存异常日志中字符串的字符串编辑距离,并作为第二匹配度;若第二匹配度小于第二预设阈值,则计算异常日志中错误字符串出现次序符合次序规则的概率,并作为第三匹配度,错误字符串为导致已存异常日志为异常日志的字符串,次序规则为错误字符串在已存异常日志中出现的次序,其中若第一匹配度不小于第一预设阈值,第二匹配度不小于第二预设阈值或第三匹配度不小于第三预设阈值,则异常日志与已存异常日志匹配,将规则库中已存异常日志对应的解决方案作为第一异常解决方案。
可选的,通过日志分析模块对日志信息进行分析,还包括:根据服务器地址对异常日志进行聚合,将服务器地址一致的异常日志聚合在一起,得到第一类异常日志;根据服务名称对第一类异常日志进行聚合,将服务名称一致的异常日志聚合在一起,得到第二类异常日志;根据异常内容对第二类异常日志进行聚合,将日志异常内容一致的异常日志聚合在一起,得到第三类异常日志。
可选的,还包括;通过指标采集模块采集地图生产过程中的指标信息;指标分析模块根据日志分析模块提供的日志分析信息,对任务指标信息进行分析,并将分析结果传输到日志分析模块中,并从规则库中调取相应的解决方案对指标异常进行处理。
可选的,规则库的建立过程包括:根据已有的历史异常日志信息,建立初期异常处理规则;根据新的异常日志,增加相应的异常处理规则,并对异常处理规则的使用频率和使用效果进行记录;建立规则库中日志与指标的关联关系,不同服务之间的关联关系,并进行代码化,进而得到规则库。
第二方面,本申请提出一种地图生产异常定位及处理系统,包括:日志采集模块,其采集地图生产过程中的日志信息;日志分析模块,其对日志信息进行分析,并根据分析结果在规则库中确定对应的第一异常解决方案;故障分析及自愈模块,若规则库中不存在异常对应的第一异常解决方案,则根据异常增加相应的第二异常解决方案,并建立第二异常解决方案与异常之间的关系,对规则库进行更新,并根据第一异常解决方案或第二异常解决方案对地图生产过程中的异常进行处理。
第三方面,本申请提供一种计算机可读存储介质,其中计算机可读存储介质存储有计算机执行指令,其中计算机执行指令被处理器执行,以实现方案一中的地图生产异常定位及处理方法。
第四方面,本申请提供一种计算机设备,包括处理器和存储器,存储器存储有计算机执行指令,其中处理器执行计算机执行指令以实现方案一中的地图生产异常定位及处理方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行以实现方案一中的地图生产异常定位及处理方法。
本申请的地图生产异常定位及处理方法、系统、介质及设备,通过对地图生产过程中的日志信息进行分析,实现对地图生产中异常的准确定位,并且根据分析结果在规则库中找到对应的异常解决方案,实现对异常的自动处理,提高地图生产的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图示例性的示出了本申请的一些实施例。
图1示出了本申请地图生产异常定位及处理方法的一个实施方式的示意图;
图2示出了本申请异常日志分词提取过程的一个实例;
图3示出了本申请规则库的一个结构实例的示意图;
图4示出了本申请异常日志处理过程的一个实例的示意图;
图5示出了本申请地图生产异常定位及处理系统的一个实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
在车辆的行驶以及自动驾驶过程中,都需要完整的地图或者高精地图,指示车辆的行驶过程。其中在地图的生产或更新过程中,往往会存在一些处理异常,如果不能对这些异常尽快定位和处理,将大大影响地图的生产效率,影响地图的更新效率。另外,在确定异常点后,因为没有统一的处理规则,通过人工解决问题的方式进行问题,也会大大影响地图的生产效率。
针对上述问题,本申请提出一种地图生产异常定位及处理方法、系统、介质及设备,该方法包括:通过日志采集模块采集地图生产过程中的日志信息;通过日志分析模块对日志信息进行分析,并根据分析结果在规则库中确定对应的第一异常解决方案;若规则库中不存在异常对应的第一异常解决方案,则根据异常增加相应的第二异常解决方案,并建立第二异常解决方案与异常之间的关系,对规则库进行更新;根据第一异常解决方案或第二异常解决方案对地图生产过程中的异常进行处理。
本申请的地图生产异常定位及处理方法通过对地图生产过程中的日志信息进行采集和分析,筛选得到地图生产过程中的异常对应的异常日志;通过发现的异常日志与规则库中已经存储的异常日志进行匹配,如果两者匹配,则直接通过已存异常日志对应的解决方案对新出现的异常日志对应的异常进行解决;若两者不匹配,对新出现的异常进行人工或系统自动处理,确定新的解决方法,并且将新出现的异常日志和对应的解决方案存储在规则库中,对规则库进行更新。当下一次在出现类似异常时,可通过规则库直接调用解决方案进行异常的解决。另外,在进行地图生产异常的定位时,结合日志信息和指标信息进行综合分析,实现对异常的快速定位,并通过规则库实现对异常的快速处理,保证地图的生产效率。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请地图生产异常定位及处理方法的一个实施方式的示意图。
在图1所示的实施方式中,本申请的地图生产异常定位及处理方法包括过程S101,通过日志采集模块采集地图生产过程中的日志信息。
在该实施方式中,为了对地图生产过程中出现的异常进行及早定位,通过日志采集模块对地图生产过程中产生的日志信息进行采集,进而进行后续的日志分析,进行异常的快速定位。
具体的,日志采集模块可采用通过filebeat处理模块、elk处理模块、kafka处理模块及python模块实现日志的自动采集。其中,filebeat采集工具专门用于采集系统的落盘日志并进行写出。在地图生产的业务场景中,涉及到多个服务及中间件多台服务器,例如42个服务及中间件,共100台服务器。为了简化部署,通过python处理过程中的paramiko包实现了filebeat采集工具的自动部署及运行验证,以确保采集客户端的完整性和正确性。Logstash是具有实时流水线能力的开源的数据收集引擎,其中logstash模块接收来自于filebeat的日志信息,对日志信息进行格式化后写入下游环节Kafka处理工具,其中Kafka处理工具为常用的高并发消息处理中间件,用来缓存日志消息。为了保证消息的顺序,本方法针对每个服务建立了日志主题,每个日志主题topic只有一个日志分区partition。通过选择kafka工具进行处理,可以保证消息的实时性。而通过kafka进行消费,程序因为只需要获取异常日志,对其它日志不进行处理,从而大大的减少了延时,几乎做到了实时分析及处理。
在图1所示的实施方式中,本申请的地图生产异常定位及处理方法包括过程S102,通过日志分析模块对日志信息进行分析,并根据分析结果在规则库中确定对应的第一异常解决方案。
在该实施方式中,通过日志分析模块对采集的日志信息进行分析,确定日志信息中的异常日志。然后通过异常日志与已存异常日志进行比较,若新出现的异常日志与已存异常日志为类似异常,则在规则库中提取已存异常日志对应的第一异常解决方案对新出现的异常日志对应的异常进行处理。
可选的,通过日志分析模块对日志信息进行分析,包括:通过日志分析模块对日志信息中的异常关键字进行识别,筛选得到异常日志;对异常日志中的内容进行分词并提取,使得异常日志中仅存在字符串,并且相邻字符串之间用特定符号进行分割;对分割后的异常日志与数据库中已存异常日志进行匹配,得到匹配结果,并作为分析结果。
在该可选实施例中,地图生产系统在地图生产过程中会产生数十万行日志,因此首先采集的日志信息中的异常关键字进行识别,若某一条日志中存在异常关键字,则将该条日志确定为异常日志,需要后续对该异常日志进行异常处理。
具体的,异常日志可分类为业务异常日志和中间件异常日志,其中中间件异常日志是服务在和kafka工具交互过程中,kafka工具返回的异常信息,打印到服务的error.log日志中。filebeat采集到error.log中的日志并写入kafka工具,日志分析模块通过分kafka中的日志信息,识别到异常关键字“exception”,此时可确定该条日志为异常日志。需要说明的是,关于异常关键字可根据不同的地图生产过程或者不同的地图生产任务等进行合理的设置,从而有效快速地将异常日志筛选出来,进行后续异常的解决。
在该可选实施例中,在筛选出异常日志后,需要对异常日志中的内容进行分词,使得异常日志中为一个一个彼此独立的字符串,通过提取将异常日志中的一些数字、特殊符号以及标点符号等进行忽略,仅保英文字符串,其中多个英文字符串之间通过特定的符号进行分割。
具体的,为了异常日志中英文字符串格式的统一,可将全部英文字符串转换为相同的书写格式,例如转换为英文小写,并且多个英文字符串之间通过逗号等特定符号进行分割。
具体的,图2示出了本申请异常日志分词提取过程的一个实例。
如图2(a)所示为处理前的异常日志,图2(b)为进行分词提取后的异常日志。从图2所示的实例中可看,经过分词提取处理后的异常日志中仅保留英文字符串,英文字符串均为小写,并且每个英文字符串之间通过逗号分割。
在该可选实施例中,对异常日志进行分词和提取后,对分割后的异常日志与数据库中已存异常日志进行匹配,得到相应的匹配结果,并将该匹配结果作为分析结果。
可选的,对分割后的异常日志与数据库中已存日志进行匹配运算,得到匹配结果,包括:对异常日志中字符串与已存异常日志中字符串的对比,得到第一匹配度;若第一匹配度小于第一预设阈值,则计算异常日志中的字符串与已存异常日志中字符串的字符串编辑距离,并作为第二匹配度;若第二匹配度小于第二预设阈值,则计算异常日志中错误字符串出现次序符合次序规则的概率,并作为第三匹配度,错误字符串为导致已存异常日志为异常日志的字符串,次序规则为错误字符串在已存异常日志中出现的次序,其中第一匹配度不小于第一预设阈值,第二匹配度不小于第二预设阈值或第三匹配度不小于第三预设阈值,则异常日志与已存异常日志匹配,将规则库中已存异常日志对应的解决方案作为第一异常解决方案。
在该可选实施例中,在进行异常日志与已存异常日志的匹配时,本申请按照匹配度递减的顺序进行多次匹配。其中,首先进行异常日志中的字符串与已存异常日志中字符串的直接对比,也就是字符串与字符串的直接比较,得到第一匹配度。
具体的,在进行异常日志中的字符串与已存异常日志中字符串的直接对比,是为了确定数据库中是否存在与当前异常日志完全相同的已存异常日志。当存在与当前异常日志完全相同的已存异常日志时,此时第一匹配度为100%,因此相应的,第一预设阈值可设置为100%。
在该可选实施例中,如果数据库中不存在与当前的异常日志安全一致的已存异常日志,则进行当前异常日志与已存异常日志的第二次匹配,也就是计算当前异常日志与已存异常日志中字符串的字符串编辑距离,其中字符串编辑距离表示两个字符串间的差异程度的字符串度量。
具体的,第二预设阈值可设置为90%,当异常日志与已存异常日志之间的字符串编辑距离大于90%,则认为该异常日志与已存异常日志匹配。
在该可选实施例中,若已存异常日志中仍然不存在满足字符串编辑距离不小于第二预设阈条件的日志,此时进行当前异常日志与已存异常日志的第三次匹配。在第三次匹配过程中,首先确定已存异常日志中,错误字符串出现的次序,然后在当前的异常日志中统计相同的错误字符串出现次序符合次序规则的概率,如果出现的概率不小于预设第三阈值,则认为当前异常日志与该已存异常日志匹配。其中,错误字符串为导致已存异常日志为异常日志的字符串,次序规则为错误字符串在已存异常日志中出现的次序。
具体的,第三预设阈值可设置为80%,其中需要说明的是,关于第一预设阈值、第二预设阈值以及第三预设阈值的设定,可根据实际的判断要求进行合理的取值和适当的调整,本申请对具体的数值不进行限制。
通过将异常日志与数据库中已存日常日志进行多次匹配,实现异常日志与已存异常日志的精准匹配,从而实现对异常进行有效地解决。
在该可选实施例中,在计算完异常日志与已存日志的匹配度后,若第一匹配度不小于第一预设阈值,或者第二匹配度不小于第二预设阈值,又或者或第三匹配度不小于第三预设阈值,则异常日志与已存异常日志匹配。则将已存异常日志对应的解决方案作为第一异常解决方案对出出现的异常进行自动处理。
在图1所示的实施方式中,本申请的地图生产异常定位及处理方法包括过程S103,若规则库中不存在异常对应的第一异常解决方案,则根据异常增加相应的第二异常解决方案,并建立第二异常解决方案与异常之间的关系,对规则库进行更新。
在该实施方式中,因为地图生产过程中,总会出现新的异常,因此也会存在筛选出来的异常日志与数据库中的已存异常日志不匹配的情况,此时需要对该异常进行专门处理,增加对应的第二异常解决方案。例如通过人工对出现的异常进行处理,得到对应的第二异常解决方案。并且,后续将第二异常解决方案和对应的异常日志进行存储,对规则库进行更新,当再次出现类似的异常时,通过与该异常日志进行匹配,可直接从规则库中调取好解决方案对出现的异常进行解决。
在图1所示的实施方式中,本申请的地图生产异常定位及处理方法包括过程S104,根据第一异常解决方案或第二异常解决方案对地图生产过程中的异常进行处理。
在该实施方式中,在对异常通过日志信息进行定位,然后通过规则库中提取相应的异常解决方案及相关异常的处理,实现对地图生产过程中,异常的快速定位和处理。
可选的,通过日志分析模块对日志信息进行分析,还包括:根据服务器地址对异常日志进行聚合,将服务器地址一致的异常日志聚合在一起,得到第一类异常日志;根据服务名称对第一类异常日志进行聚合,将服务名称一致的异常日志聚合在一起,得到第二类异常日志;根据异常内容对第二类异常日志进行聚合,将日志异常内容一致的异常日志聚合在一起,得到第三类异常日志。
在该可选实施例中,为了便于对异常日志进行统一管理,根据服务器的地址,将服务器的地址一样的异常日志进行聚合,目的是为了提取出由宿主机配置及运行故障导致的同类型异常问题,得到第一类异常日志。再根据异常日志对应的服务名进行第二次聚合,此类聚合也是根据标签直接进行聚合,目的是将同类服务产生的异常组织到一起,便于后续分析,得到第二类异常日志。最后根据异常内容进行最终聚合,得到第三类异常日志。可将聚合处理后的结果写入到规则表中进行存储,其中表中的每条记录都具有唯一ID编号。
可选的,本申请的地图生产异常定位及处理方法,还包括:通过指标采集模块采集地图生产过程中的指标信息;指标分析模块根据日志分析模块提供的日志分析信息,对任务指标信息进行分析,并将分析结果传输到日志分析模块中,并从规则库中调取相应的解决方案对指标异常进行处理。
在该可选实施例中,在异常的定位和处理的过程中,除了对日志信息进行采集和处理外,对指标信息也进行采集和分析。通过日志信息和指标信息的结合,实现对异常的快速定位和处理。通过异常日志的获取,并进行异常日志分析,是为了发现业务运行中的异常信息,然后根据异常信息,拉取相应的监控模块抓取指标,实现异常信息与指标的结合。例如,异常日志信息提示内存异常,那么根据异常日志的分析结果,拉取内存监控模块获取相应时间段的内存使用信息,从而定位出具体的内存异常。通过结合异常信息与指标信息,从而实现异常的快速定位。在业务执行过程中,其他的异常分析有着这相同原理,包括在CPU和磁盘的使用等硬件使用过程中,在服务与服务的调用中,均是使用以上方法进行综合分析。因为日志获取及分析和其它指标的获取一般被设计为独立的模块,统一由日志分析模块触发,以上异常日志结合指标分析的原理可适用于其他异常分析实例。
具体的,在指标信息采集过程中,通过指标采集模块,例如Prometheus工具是专门为云计算设计的监控软件,实现了指标的汇聚、运算、采集规则定义、告警规则定义。自身带有专门设计的时序数据库(TSDB)用于存储监控数据,可以通过pull/push两种方式获取监控指标并进行存储。同时,prometheus工具提供web端供数据查看、targets查看、promql查询等。它通过官方的exporters及开源的exporters采集到多种类的监控指标,本申请中主要使用的指标是微服务相关性能指标如微服务cpu、memory、disk,nginx的请求量,kafka工具的lag等。
具体的,下面语句为系统检测到的服务运行常见错误:OutOfMemoryError:javaheap space。从采集的日志信息中便可快速的识别出是java虚拟机的堆内存溢出导致的错误。导致此类错误的原因通常为两类:一是java虚拟机启动过程中没有配置相关启动参数;二是分配给java虚拟机的内存不够。
日志分析模块捕获到此类错误之后,触发指标分析模块。指标分析模块根据日志分析模块提供的时间点、ip、服务名之后,主动调取服务当前的配置情况及内存使用情况,如果是linux服务器运行就去zabbix中查询相关时间段的内存使用信息,如果是微服务就会去prometheus中查询相关时间段的内存使用信息。实现日志信息与指标信息的总和分析,查询到的内存信息会新增到日志分析模块当中,在获取到指标分析模块提供的信息之后,日志分析模块会进行报警或在规则库中调取已有的解决方案进行异常的解决。
可选的,规则库的建立过程包括:根据已有的历史异常日志信息,建立初期异常处理规则;根据新的异常日志,增加相应的异常处理规则,并对异常处理规则的使用频率和使用效果进行记录;建立规则库中日志与指标的关联关系,不同服务之间的关联关系,并进行代码化,进而得到规则库。
具体的,规则库在建立时,首先对以往的异常信息等历史经验进行梳理,制定出初期规则项,每个规则项通过唯一的id进行标识,同时还设有频率,命中率等字段,用以在运行过程中不断验证规则项的可用性及实用性。便于对后续已设规则的进一步优化。在系统运行过程中,规则项具备自动生成能力,对于新增的规则项,对于相应的代码完成初期分析之后,都会人工接入处理,接入的目的主要是关联日志同指标之间、不同的处理服务之间的关系,制定出复杂规则模板并代码化。对规则库中的信息进行记录和存储,实现为不同的地图生产业务提供智能的异常决策模型,在系统运行过程中不断自我学习完善规则库,为出现的异常提供准确的解决方案。
具体的,图3示出了本申请规则库的一个结构实例的示意图。
如图3所示,规则库分为日志规则库和指标规则库,日志规则库分为业务日志规则库和中间件规则库,通过服务名、拆分前后日志、是否告警、日志分类等进行存储。指标规则库存储系统中的linux异常指标、k8s异常指标及中间件异常指标。在产生异常日志后,会触发相关中间件的查询模块,模块到现有监控系统中查看相关时间段的监控是否存在异常。针对不同类型的系统日志,下面分别举例说明:
首先linux系统异常。在检索到的关键字“too many open files”,此关键字表示linux系统的可以打开的文件句柄数已经达到最大,无法再打开新的文件。该异常日志对应的是linux系统查询模块,在查询到当前的ulimit信息之后会将异常进行推送,数据库中对此类常见错误的处理手段为建议,内容为“确认是否需要调高ulimit或确认服务是否打开文件过多”。
其次,k8s异常。在检索到系统日志“pod pending”,此关键字标识k8s系统中存在无法完成调度的pod异常,该异常日志对应的是k8s异常定位模块。如果是kubelet异常,自动处理代码会将kubelet容器进行重启,如果是node节点异常,会根据错误类型提示出“磁盘不足|计算资源不足”。
最后为中间件异常,在检索到postgres数据库日志“can not connect***6379”,6379为默认的postgres数据库提供服务的端口,此类报错说明服务无法连接到数据库。该异常日志对应的是中间件查询模块。如果检索到postgres数据库异常关闭,会尝试通过代码进行恢复。如果无法恢复,会提示“数据库无法启动,请查看启动日志!
具体的,图4示出了本申请异常日志处理过程的一个实例的示意图。
如图4所示,对日志信息筛选得到的异常日志进行日志的分词及提取处理,从而便于与数据库中已存储的已存异常日志进行后续的匹配过程。通过聚合,对异常日志进行归类,实现对异常日志的有效管理。在匹配过程中,异常日志与已存异常日志的多次匹配,匹配ID额过程也就是判断新出现的异常日志与已存异常日志的相似度。计算得出的匹配结果并和相应的预设阈值进行比较,若不小于预设阈值,表明匹配成功,此时在规则库中调取已存异常日志对应的解决方案对该新出现的异常进行处理,相应的调取频率增加;若匹配结果小于预设阈值,则表明无法完成匹配,也就是说当前出现的异常为新异常,此时进行报警,并后续需要通过人工或系统自动生成解决方案,并进行代码化,此时需要在规则库中建立异常与服务,异常与新确定的解决方案的关系规则。此处的人工干预,还可以在出现复杂问题的时候,例如当前设置为大于等于3个服务的在5分钟内相继出现异常信息,据经验判断,多服务异常通常预示着系统可能会出现大面的功能异常,需要人工紧急干预解决,通过人工干预可避免给生产造成延误,之后再将解决方案新增入规则库中。在对异常日志处理完后,将异常日志中的完整内容和分词提取处理后的日志内容均写入数据库中进行存储,其中分词提取处理后的日志内容将作为已存异常日志进行后续的日志匹配过程。之后通过确定的解决方案对出现的异常进行处理。如图4所示,之后判断是否输出自愈规则,其中如果新出现的异常日志与已存储的异常日志匹配,且能够明确异常问题所在,则新出现日常日志对应的异常便可根据已经存储的解决方案进行异常的解决,此时可输出自愈规则,进行异常的自动处理,实现异常的自动修复。如果新出现的异常信息通过异常原因分析后,无法确定具体的异常原因,也就无法进行异常的自动修复处理,此时需要进行增加其他的关联指标规则,通过拉取其它监控信息进行异常原因的综合判断,通过将拉取的其他信息作为相关的关联指标规则,进一步进行异常原因的确定,加快异常原因的尽快定位,进而进行快速解决。
本申请的地图生产异常定位及处理方法通过对地图生产过程中的日志信息进行采集和分析,筛选得到地图生产过程中的异常对应的异常日志;通过发现的异常日志与规则库中已经存储的异常日志进行匹配,如果两者匹配,则直接通过已存异常日志对应的解决方案对新出现的异常日志对应的异常进行解决;若两者不匹配,对出现的异常进行标准处理,并且将出现的异常日志和对应的解决方案存储在规则库中,对规则库进行更新。当下一次在出现类似异常时,可通过规则库直接调用解决方案进行异常的解决。另外,在进行地图生产异常的定位时,结合日志信息和指标信息进行综合分析,实现对异常的快速定位,并通过规则库实现对异常的快速处理,保证地图的生产效率。
图5示出了本申请地图生产异常定位及处理系统的一个实施方式的示意图。
如图5所示,本申请的地图生产异常定位及处理系统包括:日志采集模块501,其采集地图生产过程中的日志信息;日志分析模块502,其对日志信息进行分析,并根据分析结果在规则库中确定对应的第一异常解决方案;故障分析及自愈模块503,若规则库中不存在异常对应的第一异常解决方案,则根据异常增加相应的第二异常解决方案,并建立第二异常解决方案与异常之间的关系,对规则库进行更新,并根据第一异常解决方案或第二异常解决方案对地图生产过程中的异常进行处理。
可选的,在日志分析模块中,通过日志分析模块对日志信息中的异常关键字进行识别,筛选得到异常日志;对异常日志中的内容进行分词并提取,使得异常日志中仅存在字符串,并且相邻字符串之间用特定符号进行分割;对分割后的异常日志与数据库中已存异常日志进行匹配,得到匹配结果,并作为分析结果。
可选的,在日志分析模块中,依次计算异常日志中单个字符串与已存异常日志中字符串的第一匹配度;若第一匹配度小于第一预设阈值,则计算异常日志中的字符串与已存异常日志中字符串的字符串编辑距离,并作为第二匹配度;若第二匹配度小于第二预设阈值,则计算异常日志中错误字符串出现次序符合次序规则的概率,并作为第三匹配度,错误字符串为导致已存异常日志为异常日志的字符串,次序规则为错误字符串在已存异常日志中出现的次序,其中若第一匹配度不小于第一预设阈值,第二匹配度不小于第二预设阈值或第三匹配度不小于第三预设阈值,则异常日志与已存异常日志匹配,将规则库中已存异常日志对应的解决方案作为第一异常处理方案解决方案。
可选的,在日志分析模块中,根据服务器地址对异常日志进行聚合,将服务器地址一致的异常日志聚合在一起,得到第一类异常日志;根据服务名称对第一类异常日志进行聚合,将服务名称一致的异常日志聚合在一起,得到第二类异常日志;根据异常内容对第二类异常日志进行聚合,将日志异常内容一致的异常日志聚合在一起,得到第三类异常日志。
可选的,还包括通过指标采集模块采集地图生产过程中的指标信息;指标分析模块根据日志分析模块提供的日志分析信息,对任务指标信息进行分析,并将分析结果传输到日志分析模块中,并从规则库中调取相应的处理方案解决方案对指标异常进行处理。
可选的,规则库的建立过程包括:根据已有的历史异常日志信息,建立初期异常处理规则;根据新的异常日志,增加相应的异常处理规则,并对异常处理规则的使用频率和使用效果进行记录;建立规则库中日志与指标的关联关系,不同服务之间的关联关系,并进行代码化,进而得到规则库。
本申请的地图生产异常定位及处理系统通过对地图生产过程中的日志信息进行采集和分析,筛选得到地图生产过程中的异常对应的异常日志;通过发现的异常日志与规则库中已经存储的异常日志进行匹配,如果两者匹配,则直接通过已存异常日志对应的解决方案对新出现的异常日志对应的异常进行解决;若两者不匹配,对出现的异常进行标准处理,并且将出现的异常日志和对应的解决方案存储在规则库中,对规则库进行更新。当下一次在出现类似异常时,可通过规则库直接调用解决方案进行异常的解决。另外,在进行地图生产异常的定位时,结合日志信息和指标信息进行综合分析,实现对异常的快速定位,并通过规则库实现对异常的快速处理,保证地图的生产效率。
在本申请的一个实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的地图生产异常定位及处理方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的地图生产异常定位及处理方法。
在本申请的一个具体实施方式中,一种计算机程序产品,包括计算机程序,其中计算机程序被处理器执行以实现任一实施例描述的地图生产异常定位及处理方法
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种地图生产异常定位及处理方法,其特征在于,包括:
通过日志采集模块采集地图生产过程中的日志信息;
通过日志分析模块对所述日志信息进行分析,并根据分析结果在规则库中确定对应的第一异常解决方案;
若所述规则库中不存在所述异常对应的所述第一异常解决方案,则根据所述异常增加相应的第二异常解决方案,并建立所述第二异常解决方案与所述异常之间的关系,对所述规则库进行更新;
根据所述第一异常解决方案或所述第二异常解决方案对地图生产过程中的异常进行处理。
2.根据权利要求1所述的地图生产异常定位及处理方法,其特征在于,所述通过日志分析模块对所述日志信息进行分析,包括:
通过日志分析模块对所述日志信息中的异常关键字进行识别,筛选得到异常日志;
对所述异常日志中的内容进行分词并提取,使得所述异常日志中仅存在字符串,并且相邻字符串之间用特定符号进行分割;
对分割后的所述异常日志与数据库中已存异常日志进行匹配,得到匹配结果,并作为所述分析结果。
3.根据权利要求2所述的地图生产异常定位及处理方法,其特征在于,所述对分割后的所述异常日志与数据库中已存日志进行匹配运算,得到匹配结果,包括:
对所述异常日志中字符串与所述已存异常日志中字符串的对比,得到第一匹配度;
若所述第一匹配度小于第一预设阈值,则计算所述异常日志中的字符串与所述已存异常日志中字符串的字符串编辑距离,并作为第二匹配度;
若所述第二匹配度小于第二预设阈值,则计算所述异常日志中错误字符串出现次序符合次序规则的概率,并作为第三匹配度,所述错误字符串为导致所述已存异常日志为异常日志的字符串,所述次序规则为所述错误字符串在所述已存异常日志中出现的次序,其中若所述第一匹配度不小于所述第一预设阈值,所述第二匹配度不小于所述第二预设阈值或所述第三匹配度不小于第三预设阈值,则所述异常日志与所述已存异常日志匹配,将所述规则库中所述已存异常日志对应的解决方案作为所述第一异常解决方案。
4.根据权利要求2所述的地图生产异常定位及处理方法,其特征在于,所述通过日志分析模块对所述日志信息进行分析,还包括:
根据服务器地址对所述异常日志进行聚合,将服务器地址一致的所述异常日志聚合在一起,得到第一类异常日志;
根据服务名称对所述第一类异常日志进行聚合,将服务名称一致的所述异常日志聚合在一起,得到第二类异常日志;
根据异常内容对所述第二类异常日志进行聚合,将日志异常内容一致的所述异常日志聚合在一起,得到第三类异常日志。
5.根据权利要求1所述的地图生产异常定位及处理方法,其特征在于,还包括:
通过指标采集模块采集地图生产过程中的指标信息;
指标分析模块根据所述日志分析模块提供的日志分析信息,对所述任务指标信息进行分析,并将分析结果传输到所述日志分析模块中,并从所述规则库中调取相应的解决方案对指标异常进行处理。
6.根据权利要求1所述的地图生产异常定位及处理方法,其特征在于,所述规则库的建立过程包括:
根据已有的历史异常日志信息,建立初期异常处理规则;
根据新的异常日志,增加相应的异常处理规则,并对所述异常处理规则的使用频率和使用效果进行记录;
建立规则库中日志与指标的关联关系,不同服务之间的关联关系,并进行代码化,进而得到所述规则库。
7.一种地图生产异常定位及处理系统,其特征在于,包括:
日志采集模块,其采集地图生产过程中的日志信息;
日志分析模块,其对所述日志信息进行分析,并根据分析结果在规则库中确定对应的第一异常解决方案;
故障分析及自愈模块,若所述规则库中不存在所述异常对应的所述第一异常解决方案,则根据所述异常增加相应的第二异常解决方案,并建立所述第二异常解决方案与所述异常之间的关系,对所述规则库进行更新,并根据所述第一异常解决方案或第二异常解决方案对地图生产过程中的异常进行处理。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机执行指令,其中所述计算机执行指令被处理器执行,以实现如权利要求1-6中任一项所述的地图生产异常定位及处理方法。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机执行指令,其中所述处理器执行所述计算机执行指令以实现如权利要求1-6中任一项所述的地图生产异常定位及处理方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行以实现如权利要求1-6中任一项所述的地图生产异常定位及处理方法。
CN202310003808.4A 2023-01-03 2023-01-03 一种地图生产异常定位及处理方法、系统、介质及设备 Pending CN116089243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310003808.4A CN116089243A (zh) 2023-01-03 2023-01-03 一种地图生产异常定位及处理方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310003808.4A CN116089243A (zh) 2023-01-03 2023-01-03 一种地图生产异常定位及处理方法、系统、介质及设备

Publications (1)

Publication Number Publication Date
CN116089243A true CN116089243A (zh) 2023-05-09

Family

ID=86213330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310003808.4A Pending CN116089243A (zh) 2023-01-03 2023-01-03 一种地图生产异常定位及处理方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN116089243A (zh)

Similar Documents

Publication Publication Date Title
CN110928718A (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN114168418A (zh) 用于在日志分析系统中实现日志解析器的方法和系统
US20180357214A1 (en) Log analysis system, log analysis method, and storage medium
CN110489317B (zh) 基于工作流的云系统任务运行故障诊断方法与系统
CN111078513A (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
US11822578B2 (en) Matching machine generated data entries to pattern clusters
CN112068981B (zh) Linux操作系统中基于知识库的故障扫描恢复方法及系统
CN111737203A (zh) 数据库历史日志回溯方法、装置、系统、设备及存储介质
CN114780370A (zh) 基于日志的数据修正方法、装置、电子设备及存储介质
CN109992476A (zh) 一种日志的分析方法、服务器及存储介质
CN109582504A (zh) 一种用于苹果设备的数据恢复方法和装置
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN112068979B (zh) 一种业务故障确定方法及装置
CN108228417A (zh) 车联网日志处理方法及处理装置
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN116089243A (zh) 一种地图生产异常定位及处理方法、系统、介质及设备
CN114996080A (zh) 数据处理方法、装置、设备及存储介质
CN109992475B (zh) 一种日志的处理方法、服务器及存储介质
CN114629786A (zh) 日志实时分析方法、装置、存储介质及系统
CN113868283A (zh) 数据测试方法、装置、设备及计算机存储介质
US8631391B2 (en) Method and a system for process discovery
CN117971605B (zh) 基于数据库异常的自动化日志信息收集方法及系统
CN111352818A (zh) 应用程序性能分析方法、装置、存储介质及电子设备
CN114598588B (zh) 服务器故障确定方法、装置及终端设备
CN116599822B (zh) 一种基于日志采集事件的故障告警治理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination