CN114416422A - 问题定位方法、装置、设备、介质和程序产品 - Google Patents

问题定位方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN114416422A
CN114416422A CN202210083838.6A CN202210083838A CN114416422A CN 114416422 A CN114416422 A CN 114416422A CN 202210083838 A CN202210083838 A CN 202210083838A CN 114416422 A CN114416422 A CN 114416422A
Authority
CN
China
Prior art keywords
production
monitoring data
log
alarm
grade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210083838.6A
Other languages
English (en)
Inventor
卜程伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210083838.6A priority Critical patent/CN114416422A/zh
Publication of CN114416422A publication Critical patent/CN114416422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种问题定位方法,可以应用于人工智能技术领域。该问题定位方法包括:实时获取生产环境中各个生产节点的监控数据和生产日志;当监控数据指示报警时,提取报警时段内的监控数据和生产日志的特征值;基于监控数据和生产日志的特征值对当前报警进行问题分类,得到当前报警的问题类型和问题等级;根据问题类型和问题等级进行对应的测试,以得到当前报警的定位。本公开还提供了一种问题定位装置、设备、存储介质和程序产品。

Description

问题定位方法、装置、设备、介质和程序产品
技术领域
本公开涉及人工智能领域,具体地涉及一种问题定位方法、装置、设备、介质和程序产品。
背景技术
在目前的信贷系统开发及相关工程在执行任务过程中,当出现异常问题时,很难实现快速、准确的定位问题和解决问题。传统的问题解决方法包括:由测试人员发现生产问题;测试人员通过登陆远程服务器下载日志,进行人工分析后,给开发人员提出问题;再由开发人员从架构、程序及配置等层面定位问题根因;最后由开发人员通过修改程序等方式解决问题。
上述方法主要存在以下缺点:第一,在分析问题根因的过程中经历了很多环节,尤以交流分析问题定位问题过程最为占用时间,大大增加了开发成本;第二,仅由测试人员根据日志进行简单的人工分析很难快速定位在生产环境中出现异常的原因,可能导致定位问题不准确;第三,开发人员解决问题时无法定位到程序级别,还要通过写单元测试等方法定位问题根因,进一步增加了时间投入。如何快速发现、定位并解决问题成为当前软件研发的瓶颈。
发明内容
鉴于上述问题,本公开提供了自动化的、快速的问题定位方法、装置、设备、介质和程序产品。
本公开的第一方面提供了一种问题定位方法,包括:实时获取生产环境中各个生产节点的监控数据和生产日志;当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值;基于所述监控数据和所述生产日志的特征值对当前报警进行问题分类,得到当前报警的问题类型和问题等级;根据所述问题类型和问题等级进行对应的测试,以得到当前报警的定位。
根据本公开的实施例,所述当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值包括:提取所述生产日志的日志关键字;将所述生产日志和所述监控数据包括的多个监控指标拼接后序列化,得到所述监控数据和所述生产日志的特征值。
根据本公开的实施例,在提取所述生产日志的日志关键字之前,还包括:清洗报警时段内的所述生产日志,从中提取生产权重超过预设阈值的日志数据,以从所述日志数据中提取所述日志关键字。
根据本公开的实施例,所述基于所述监控数据和所述生产日志的特征值对当前报警进行问题分类,得到当前报警的问题类型和问题等级包括:将所述监控数据和所述生产日志的特征值输入预设的随机森林模型中的多个决策树中,得到对应的决策结果;基于所述多个决策树各自的决策权重,计算所述多个决策树的决策结果的加权值,以基于所述加权值得到当前报警的问题类型和问题等级。
根据本公开的实施例,所述根据所述问题类型和问题等级进行对应的测试,以得到当前报警的定位包括:根据所述问题类型和所述问题等级,获取对应的测试案例;在所述生产环境的测试环境中运行所述测试案例,以得到当前报警的定位。
根据本公开的实施例,在获取所述监控数据后,包括:将所述监控数据持久化至时序数据库中,以分析所述监控数据是否指示报警。
根据本公开的实施例,包括:当所述监控数据存入所述时序数据库中的时长达到预设时长时,清除所述监控数据。
本公开的第二方面提供了一种问题定位装置,包括:数据获取模块,用于实时获取生产环境中各个生产节点的监控数据和生产日志;特征提取模块,用于当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值;类型划分模块,用于将所述监控数据和所述生产日志的特征值输入预设的随机森林模型中进行问题分类,得到当前报警的问题类型和问题等级;问题定位模块,用于在测试环境中进行与根据所述问题类型和问题等级对应的测试,以得到当前报警的定位。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述问题定位方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述问题定位方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述问题定位方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的问题定位方法、装置、设备、介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的问题定位方法的流程图;
图3示意性示出了根据本公开实施例的操作S220的流程图;
图4示意性示出了根据本公开实施例的操作S230的流程图;
图5示意性示出了根据本公开实施例的操作S240的流程图;
图6示意性示出了根据本公开实施例的问题定位装置的结构框图;以及
图7示意性示出了根据本公开实施例的适于实现问题定位方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
需要说明的是,本公开的问题定位方法和装置可用于金融领域在软件研发、运营、维护的场景中,也可用于除金融领域之外的任意领域的软件研发、运营、维护的场景,本公开的问题定位方法和装置的应用领域不做限定。
本公开的实施例提供了一种问题定位方法,通过格式化、标准化的日志,集合多项实时的普罗米修斯指标,进行问题分类,以实现快速定位问题。
图1示意性示出了根据本公开实施例的问题定位方法、装置、设备、介质和程序产品的的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括银行软件开发、运营、维护的场景。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种银行客户端应用,通过网络104将其生产日志传输、监控数据给服务器105。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的问题定位方法一般可以由服务器105执行。相应地,本公开实施例所提供的问题定位装置一般可以设置于服务器105中。本公开实施例所提供的问题定位方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的问题定位装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图5对公开实施例的问题定位方法进行详细描述。
图2示意性示出了根据本公开实施例的问题定位方法的流程图。
如图2所示,该实施例的问题定位方法包括操作S210~操作S240,该交易处理方法可以顺序执行。
在操作S210,实时获取生产环境中各个生产节点的监控数据和生产日志。
在操作S220,当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值。
在操作S230,基于所述监控数据和所述生产日志的特征值对当前报警进行问题分类,得到当前报警的问题类型和问题等级。
在操作S240,根据所述问题类型和问题等级进行对应的测试,以得到当前报警的定位。
在本实施例中,可以在生产环境的各个节点中,部署Prometheus监控系统,通过配置文件配置K8S中的Pod及容器ID,并对外提供API调用,以使PrometheusSQL获取实时监控数据。监控数据包括实时的CPU使用量、内存使用量、容器CPU使用率、容器内存使用率、JVM内存空闲量、线程池占用率、连接池使用率等等最影响当前应用节点执行可靠性、安全性、性能的黄金指标。
在本实施例中,将所述监控数据持久化至时序数据库中,以分析所述监控数据是否指示报警。将上述获取的实时监控指标持久化在时序数据库InfluxDB里,时序数据库具有实时性,且可以通过创建表时提前设置监控数据的保留时间或者通过Alter retentionpolicy‘promethes’on‘perf_cpu’duration 24h的方式配置持久化策略帮助提升存储及检出效率,当所述监控数据存入所述时序数据库中的时长达到预设时长时,清除所述监控数据,减少无效数据持久化带来的检出效率问题。
生产日志可以包含应用日志、Jenkins日志等。其中,为了减少噪声污染,提升问题定位的准确性,在抓取生产日志后,对生产日志进行清洗。执行问题定位方法的系统可以通过日志格式化筛选出来影响生产环境权重最重的日志信息,各种日志信息的生产环境权重可以由专家根据经验进行设定,也可以根据各种日志信息与各类报警问题的关联程度计算得到。
在本实施例中,基于报警时段内的监控数据和生产日志,可以分析问题所属类型,可选地,可以基于历史数据训练模型,以基于报警时段内的监控数据和生产日志进行快速的问题分类。进一步的,可以通过模型对问题分类进行等级划分,以进一步缩小问题范围,以针对性的进行问题定位。
根据本公开实施例提供的方法,摒弃传统运维的中间环节,在出现生产问题时,利用已经格式化的生产日志,实时获取索引库中文本格式的日志文档,结合监控指标,提取当前报警问题的特征,以结合特征分析问题类型,进而进行该问题类型的测试,以快速定位问题,节省了人工分析问题的时间成本,提升定位的准确度,也解放了人力资源,大大提升了开发测试效率。
图3示意性示出了根据本公开实施例的操作S220的流程图。
如图3所示,操作S220,当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值,包括操作S221~S222。
在操作S221,提取所述生产日志的日志关键字。
在提取日志关键字之前,清洗报警时段内的所述生产日志,从中提取生产权重超过预设阈值的日志数据,以从所述日志数据中提取所述日志关键字。
可选地,日志关键字可以包含日志类型、耗时、交易金额、上游应用名、上游节点IP、输入信息、输出信息、服务名、方法名、返回码、地区号等。
提取日志关键字,可以进一步的在保留问题分类准确度的条件下减少数据量,以提升问题定位效率。
在操作S222,将所述生产日志和所述监控数据包括的多个监控指标拼接后序列化,得到所述监控数据和所述生产日志的特征值。
将日志关键字和监控指标做文本文件的拼接处理,形成最终的特征值序列,使报警问题的问题分类按照统一格式的序列进行数学运算。用于问题分类的模型基于序列化的数据训练。数据中包括了黄金监控指标,使模型分类结果更准确。
图4示意性示出了根据本公开实施例的操作S230的流程图。
如图4所示,在操作S230中,基于所述监控数据和所述生产日志的特征值对当前报警进行问题分类,得到当前报警的问题类型和问题等级,包括操作S231~S232。
在操作S231,将所述监控数据和所述生产日志的特征值输入预设的随机森林模型中的多个决策树中,得到对应的决策结果。
由于特征值序列的组成结构较为复杂,同时包括多种监控指标和生产日志的特征值,每个特征的评价尺度不同,二元特征值和序列化特征值同时存在,归一化标准化难度较大。树状结构模型可以通过多组不同特征值层层筛选,得到最终的位于叶子节点上的问题类型分类结果。树状决策模型还可以实现分类过程可视化,便于监控。
在本实施例中,基于历史数据预先训练包括多个随机决策树的随机森林模型,其中,为保证泛化能力,通过随机特征采样、随机特征选择的二重随机性来进行建树,在建树完成后,通过训练得出的弱分类器利用Bagging模型通过对多棵弱分类器进行二次训练,多棵树放在一起并行执行最终筛选出最合适的树。在该随机森林模型中,训练了多棵随机决策树。每棵决策树均可以对报警问题进行决策计算,决策结果映射了相应的问题类型和问题等级。
在本实施例中,以熵作为节点选择的算法基础。通过计算熵值来判断经过不同特征进行分支选择后的分类情况,经过该特征值进行分支划分的不确定性越大,熵值也就越大,数据域的混乱程度就越大,区分度也就越低,理论上选择信息熵较小的作为树分支节点。通过不同特征进行分支选择后的分类情况找出最佳的特征作为根节点,以此类推。
进一步的,使用信息增益作为评价算法对进一步对树模型节点进行选择。在进行选择特征进行分类的时候选择信息增益较大的特征,这样具有更精确的分类能力,而对增益值不达标的节点进行剪枝处理减少干扰。
为保证泛化能力,可以通过随机特征采样、随机特征选择的二重随机性来进行建树。
在操作S232,基于所述多个决策树各自的决策权重,计算所述多个决策树的决策结果的加权值,以基于所述加权值得到当前报警的问题类型和问题等级。
可选地,计算多个决策树的决策结果的加权值的计算公式为:
Figure BDA0003486693210000081
其中,i表示决策树编号,T表示决策树总数,hi(x)表示第i棵决策树的决策结果,wi表示第i棵决策树的决策权重,x表示报警问题。
基于多个随机决策树的决策结果共同决策报警问题的问题类型和问题等级,可以提升决策结果的准确性。
图5示意性示出了根据本公开实施例的操作S240的流程图。
如图5所示,在操作S240中,根据所述问题类型和问题等级进行对应的测试,以得到当前报警的定位,可以包括操作S241~S242。
在操作S241,根据所述问题类型和所述问题等级,获取对应的测试案例。
在操作S242,在所述生产环境的测试环境中运行所述测试案例,以得到当前报警的定位。
在本实施例中,可以基于预设的高可用专家库提供一个支持各种异常场景的问题演练工厂,根据问题分析结束后得到的问题类型层次,通过字节码等技术注入相应的异常,进行测试,以精准定位问题。
根据本公开实施例提供的方法,可以此系统方法解决了生产上出现问题通过人工无法及时解决带来的风险,以及开发过程中出现系统异常开发测试人员沟通定位问题速度慢、凭经验定位问题不准确、处理问题效率低等问题。同时该方法还具有以下优点:线上化实时黄金指标,通过监控系统获取线上实时监控数据,有效填充特征空缺,保证问题分析结果更准确。通过树及森林模型训练,分析问题根因,节省了人工经验分析问题可能出现的考虑不周全,消耗时间久的问题。解放了人力资源,大大提升了开发测试效率。开发人员只需要将与问题相关的数据注入到系统中即可;使用专家库定位问题更精确,通过故障演练将已分析出的问题更加精准的定位,进一步解放了开发及测试人员投入。
基于上述问题定位方法,本公开还提供了一种问题定位装置。以下将结合图6对该装置进行详细描述。
图6示意性示出了根据本公开实施例的问题定位装置的结构框图。
如图6所示,该实施例的问题定位装置600包括数据获取模块610、特征提取模块620、类型划分模块630和问题定位模块640。
数据获取模块610用于实时获取生产环境中各个生产节点的监控数据和生产日志。在一实施例中,数据获取模块610可以用于执行前文描述的操作S210,在此不再赘述。
特征提取模块620用于当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值。在一实施例中,数据获取模块610可以用于执行前文描述的操作S220,在此不再赘述。
类型划分模块630用于将所述监控数据和所述生产日志的特征值输入预设的随机森林模型中进行问题分类,得到当前报警的问题类型和问题等级。在一实施例中,数据获取模块610可以用于执行前文描述的操作S230,在此不再赘述。
问题定位模块640用于在测试环境中进行与根据所述问题类型和问题等级对应的测试,以得到当前报警的定位。在一实施例中,数据获取模块610可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开实施例提供的装置,数据获取模块610用于获取生产环境的生产日志和监控数据,当用于获取监控数据的Prometheus监控系统发现生产问题时,特征提取模块620利用已经格式化的生产日志,实时获取索引库中文本格式的日志文档,结合监控指标,提取当前报警问题的特征,并提供给类型划分模块630判断当前问题的问题类型和问题等级,进而使问题定位模块640结合特征分析问题类型,进行该问题类型的测试,从而快速定位问题,节省了人工分析问题的时间成本,提升定位的准确度,也解放了人力资源,大大提升了开发测试效率。
根据本公开实施例提供的问题定位装置,解决了生产上出现问题通过人工无法及时解决带来的风险,以及开发过程中出现系统异常开发测试人员沟通定位问题速度慢、凭经验定位问题不准确、处理问题效率低等问题。同时该装置还具有以下优点:线上化实时黄金指标,通过监控系统获取线上实时监控数据,有效填充特征空缺,保证问题分析结果更准确。通过树及森林模型训练,分析问题根因,节省了人工经验分析问题可能出现的考虑不周全,消耗时间久的问题。解放了人力资源,大大提升了开发测试效率。开发人员只需要将与问题相关的数据注入到系统中即可;使用专家库定位问题更精确,通过故障演练将已分析出的问题更加精准的定位,进一步解放了开发及测试人员投入。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,数据获取模块610、特征提取模块620、类型划分模块630和问题定位模块640中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,数据获取模块610、特征提取模块620、类型划分模块630和问题定位模块640中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,数据获取模块610、特征提取模块620、类型划分模块630和问题定位模块640中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中问题定位装置部分与本公开的实施例中问题定位方法部分是相对应的问题定位装置部分的描述具体参考问题定位方法部分,在此不再赘述。
图7示意性示出了根据本公开实施例的适于实现问题定位方法的电子设备的方框图。
如图7所示,根据本公开实施例的电子设备700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有电子设备700操作所需的各种程序和数据。处理器701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。电子设备700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
在该计算机程序被处理器701执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分709被下载和安装,和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (11)

1.一种问题定位方法,包括:
实时获取生产环境中各个生产节点的监控数据和生产日志;
当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值;
基于所述监控数据和所述生产日志的特征值对当前报警进行问题分类,得到当前报警的问题类型和问题等级;
根据所述问题类型和问题等级进行对应的测试,以得到当前报警的定位。
2.根据权利要求1所述的方法,所述当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值包括:
提取所述生产日志的日志关键字;
将所述生产日志和所述监控数据包括的多个监控指标拼接后序列化,得到所述监控数据和所述生产日志的特征值。
3.根据权利要求2所述的方法,在提取所述生产日志的日志关键字之前,还包括:
清洗报警时段内的所述生产日志,从中提取生产权重超过预设阈值的日志数据,以从所述日志数据中提取所述日志关键字。
4.根据权利要求1所述的方法,所述基于所述监控数据和所述生产日志的特征值对当前报警进行问题分类,得到当前报警的问题类型和问题等级包括:
将所述监控数据和所述生产日志的特征值输入预设的随机森林模型中的多个决策树中,得到对应的决策结果;
基于所述多个决策树各自的决策权重,计算所述多个决策树的决策结果的加权值,以基于所述加权值得到当前报警的问题类型和问题等级。
5.根据权利要求1所述的方法,所述根据所述问题类型和问题等级进行对应的测试,以得到当前报警的定位包括:
根据所述问题类型和所述问题等级,获取对应的测试案例;
在所述生产环境的测试环境中运行所述测试案例,以得到当前报警的定位。
6.根据权利要求1所述的方法,在获取所述监控数据后,包括:
将所述监控数据持久化至时序数据库中,以分析所述监控数据是否指示报警。
7.根据权利要求1所述的方法,包括:
当所述监控数据存入所述时序数据库中的时长达到预设时长时,清除所述监控数据。
8.一种问题定位装置,包括:
数据获取模块,用于实时获取生产环境中各个生产节点的监控数据和生产日志;
特征提取模块,用于当所述监控数据指示报警时,提取报警时段内的所述监控数据和所述生产日志的特征值;
类型划分模块,用于将所述监控数据和所述生产日志的特征值输入预设的随机森林模型中进行问题分类,得到当前报警的问题类型和问题等级;
问题定位模块,用于在测试环境中进行与根据所述问题类型和问题等级对应的测试,以得到当前报警的定位。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202210083838.6A 2022-01-25 2022-01-25 问题定位方法、装置、设备、介质和程序产品 Pending CN114416422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210083838.6A CN114416422A (zh) 2022-01-25 2022-01-25 问题定位方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210083838.6A CN114416422A (zh) 2022-01-25 2022-01-25 问题定位方法、装置、设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN114416422A true CN114416422A (zh) 2022-04-29

Family

ID=81276636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210083838.6A Pending CN114416422A (zh) 2022-01-25 2022-01-25 问题定位方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN114416422A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117707831A (zh) * 2024-02-05 2024-03-15 云账户技术(天津)有限公司 一种前端接口错误的报警方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117707831A (zh) * 2024-02-05 2024-03-15 云账户技术(天津)有限公司 一种前端接口错误的报警方法和装置
CN117707831B (zh) * 2024-02-05 2024-04-09 云账户技术(天津)有限公司 一种前端接口错误的报警方法和装置

Similar Documents

Publication Publication Date Title
CN105283851B (zh) 用于选择跟踪目标的成本分析
Bento et al. Automated analysis of distributed tracing: Challenges and research directions
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
CN115061874A (zh) 日志信息验证方法、装置、设备及介质
CN115237804A (zh) 性能瓶颈的评估方法、装置、电子设备、介质和程序产品
CN113535577B (zh) 基于知识图谱的应用测试方法、装置、电子设备和介质
CN114416422A (zh) 问题定位方法、装置、设备、介质和程序产品
CN113191681A (zh) 网点选址方法、装置、电子设备及可读存储介质
CN116155628A (zh) 网络安全检测方法、训练方法、装置、电子设备和介质
CN116244146A (zh) 日志异常检测方法、日志异常检测模型的训练方法及装置
CN115292187A (zh) 无编码的页面自动测试方法、装置、电子设备和介质
CN113656314A (zh) 压力测试处理方法及装置
CN113037555B (zh) 风险事件标记方法、风险事件标记装置和电子设备
CN114493853A (zh) 信用等级评价方法、装置、电子设备及存储介质
CN113961441A (zh) 告警事件处理方法、审计方法、装置、设备、介质和产品
CN114358024A (zh) 日志分析方法、装置、设备、介质和程序产品
CN114301713A (zh) 风险访问检测模型的训练方法、风险访问检测方法及装置
CN114461499A (zh) 异常信息检测模型的构建方法和灰度环境异常检测方法
CN114218283A (zh) 异常检测方法、装置、设备、介质
CN113127362A (zh) 对象测试方法、对象测试装置、电子设备及可读存储介质
CN113254761A (zh) 特定行为信息智能预警系统及方法
CN114201410A (zh) 测试用例被执行程度的监测方法、装置、设备、介质
CN115934501A (zh) 应用程序检测方法及装置、存储介质、电子设备
CN114706856A (zh) 故障处理方法及装置、电子设备和计算机可读存储介质
CN117194127A (zh) 设备性能检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination