CN110875853A - 一种基于元数据的自动质量监测方法及终端 - Google Patents

一种基于元数据的自动质量监测方法及终端 Download PDF

Info

Publication number
CN110875853A
CN110875853A CN201810994502.9A CN201810994502A CN110875853A CN 110875853 A CN110875853 A CN 110875853A CN 201810994502 A CN201810994502 A CN 201810994502A CN 110875853 A CN110875853 A CN 110875853A
Authority
CN
China
Prior art keywords
fault
metadata
service
failure
evaluating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810994502.9A
Other languages
English (en)
Other versions
CN110875853B (zh
Inventor
刘德建
宋诗莹
宋全程
李长荣
林剑锋
钟开华
王柟
林存旅
俞发仁
林琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Tianquan Educational Technology Ltd
Original Assignee
Fujian Tianquan Educational Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Tianquan Educational Technology Ltd filed Critical Fujian Tianquan Educational Technology Ltd
Priority to CN201810994502.9A priority Critical patent/CN110875853B/zh
Publication of CN110875853A publication Critical patent/CN110875853A/zh
Application granted granted Critical
Publication of CN110875853B publication Critical patent/CN110875853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于元数据的自动质量监测方法及终端,通过采集待监测产品的元数据信息,根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认,分析确认的故障,基于元数据信息评估所述故障影响的服务范围,可以实现自动对产品的监测、故障排查,减少了产品监测与维护阶段的人工投入,提高效率,且基于元数据进行质量监测能胜任不同产品的监测任务,适用性广,尤其适用于快速迭代交付且结构复杂的产品。

Description

一种基于元数据的自动质量监测方法及终端
技术领域
本发明涉及互联网产品质量监测技术领域,尤其是涉及一种基于元数据的自动质量监测方法及终端。
背景技术
现今互联网时代,快速集成、快速交付、稳定运行贯穿整个产品的生命周期,其中监测产品稳定运行是其中最重要的一个环节,事前风险预测,事中及时预警排查故障,事后评估故障影响制定预防方案是非常有必要的。
一般软件监控产品是通过定时去拨测服务请求接口来实现监测可用性的,在发现异常的时候,及时推送通知给相关人员进行处理,以确保产品功能能够快速恢复正常使用,现有的人工测试方式存在多种问题:
(1)组件化产品,单一服务故障,可能影响范围较广,可能牵涉多层相关服务的调用,排查耗时,故障处理时间长;
(2)部分产品是快速迭代的,功能调整,第三方监测只能基于服务本身,场景级监测脚本需人工投入,维护成本较高、且时效性不高;
(3)故障恢复后的回归测试的影响范围不好定位,人工甄别可能存在漏测情况;
(4)功能调整后的影响范围可能发生变化,部分服务的依赖关系可能随之改变,但是这块人工评估可能存在漏洞。
发明内容
本发明所要解决的技术问题是:提供一种基于元数据的自动质量监测方法及终端,实现排查高效、适用性广的质量监测。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于元数据的自动质量监测方法,包括步骤:
S1、采集待监测产品的元数据信息;
S2、根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认;
S3、分析确认的故障,基于元数据信息评估所述故障影响的服务范围。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于元数据的自动质量监测终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、采集待监测产品的元数据信息;
S2、根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认;
S3、分析确认的故障,基于元数据信息评估所述故障影响的服务范围。
本发明的有益效果在于:通过采集待监测产品的元数据信息,根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认,分析确认的故障,基于元数据信息评估所述故障影响的服务范围,可以实现自动对产品的监测、故障排查,减少了产品监测与维护阶段的人工投入,提高效率,且基于元数据进行质量监测能胜任不同产品的监测任务,适用性广,尤其适用于快速迭代交付且结构复杂的产品。
附图说明
图1为本发明实施例的一种基于元数据的自动质量监测方法的流程图;
图2为本发明实施例的一种基于元数据的自动质量监测终端结构示意图;
图3为本发明实施例的一种基于元数据的自动质量监测方法的流程图;
图4为服务端故障分析的流程图;
图5为服务端回归测试的流程图;
图6为客户端故障分析的流程图;
图7为客户端回归测试的流程图;
标号说明:
1、基于元数据的自动质量监测终端; 2、存储器; 3、处理器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本发明最关键的构思在于:采集待监测产品的元数据信息,根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认及分析,基于元数据信息评估所述故障影响的服务范围。
请参照图1,一种基于元数据的自动质量监测方法,包括步骤:
S1、采集待监测产品的元数据信息;
S2、根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认;
S3、分析确认的故障,基于元数据信息评估所述故障影响的服务范围。
从上述描述可知,本发明的有益效果在于:通过采集待监测产品的元数据信息,根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认,分析确认的故障,基于元数据信息评估所述故障影响的服务范围,可以实现自动对产品进行监测,高效排查故障,分析故障影响的服务范围,减少了产品监测与维护阶段的人工投入,提高效率,且基于元数据进行质量监测能胜任不同产品的监测任务,适用性广。
进一步的,步骤S3中若确认的故障为服务端故障,则所述基于元数据信息评估所述故障影响的服务范围包括:
通过所述待监测产品的元数据血缘分析图和影响分析图确认与所述故障的元数据相关的所有分支节点;
根据确认出的每一个分支节点,确认引用所述分支节点的服务清单;
根据所述服务清单评估所述故障影响的服务范围。
由上述描述可知,本发明的质量监测方案利用元数据为主线,将复杂的产品程序结构进行逐一拆分,从业务层面到服务接口层面,再从服务接口对具体数据库的元数据引用关系,进行层层剥离,利用元数据血缘分析跟影响分析的特点,重现了整个产品数据家族的构建过程,清晰的绘制了每个家族成员彼此连接的脉络和途径,因此,当任何一个数据出现错误或者异常时,我们都能通过血缘关系图向上分析快速的锁定问题产生的源头;或者当对某些数据进行修改时,可通过影响关系图向下分析,得到哪些数据实体中的数据会受到影响,这样就算产品是通过众多组件拼装而来,也能通过脉络和关系图,快速的找到故障原因和评估影响,还能在故障恢复时,快速实现完整的测试覆盖,减少漏测。
进一步的,步骤S3中若确认的故障为客户端故障,则所述基于元数据信息评估所述故障影响的服务范围包括:
确认发生异常的堆栈信息;
根据所述发生异常的堆栈信息,判断出现故障的是外部引用的组件还是非引用组件;
若出现故障的是外部引用的组件,则根据该故障组件的元数据定位该故障组件的引用情况,通过所述故障组件的引用情况评估所述故障影响的服务范围;
若出现故障的是非引用组件,则直接定位所述故障的位置来评估其影响的服务范围。
由上述描述可知,客户端引用组件发生故障时利用了元数据中的引用信息来自动评估其影响的服务范围,避免了层层排查的耗时问题,能快速便捷地确定影响范围,提高效率。
进一步的,步骤S3之后还包括步骤:
S4、定时对监测结果进行评估,确认故障是否已恢复,若监测到故障已恢复,则对所述故障影响的服务范围进行回归测试。
由上述描述可知,可以自动监测故障是否恢复,并能自动确定恢复后回归测试的范围,免去了人工甄别的过程。
进一步的,步骤S4中的对所述故障影响的服务范围进行回归测试具体为:
若确认的故障为服务端故障,则执行以下步骤:
基于所述故障对应的服务所使用的元数据信息,通过比对故障前后的元数据信息,确认所述故障对应的服务的元数据结构是否发生变化;若是,则执行步骤S41,否则,执行步骤S42;
S41、更新所述待监测产品的元数据的影响分析图和血缘分析图,并根据最新的元数据的影响分析图和血缘分析图更新所述元数据引用的服务清单,根据所述服务清单重新评估所述故障影响的服务范围;
根据所述更新自动生成测试用例和测试用脚本;
S42、在评估的故障影响的服务范围内,对每一个服务调用对应的测试用脚本和测试用例进行回归测试;
若确认的故障为客户端故障,则执行以下步骤:
在评估的所述故障影响的服务范围内,逐一对每一个故障组件进行回归测试;
在对每一个故障组件进行回归测试的过程中,判断在评估的所述故障影响的服务范围内是否有引用所述故障组件的服务,若是,则对引用所述故障组件的服务进行回归测试。
由上述描述可知,本发明方案能够利用成熟的测试方法自动化匹配最简洁的测试方法进行智能验证,根据待测目标字段的属性,罗列所有待验证边界值情况进行逐一遍历测试,测试高效准确,且全流程自动化回归测试,不需人工测试过多的介入,即使功能依赖关系改变较多也能依靠元数据信息逐一检测,适用性广,避免了人工甄别漏测的情况,提高准确性。
请参照图2,基于元数据的自动质量监测终端1,包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现以下步骤:
S1、采集待监测产品的元数据信息;
S2、根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认;
S3、分析确认的故障,基于元数据信息评估所述故障影响的服务范围。
从上述描述可知,本发明的有益效果在于:通过采集待监测产品的元数据信息,根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认,分析确认的故障,基于元数据信息评估所述故障影响的服务范围,可以实现自动对产品进行监测,高效排查故障,分析故障影响的服务范围,减少了产品监测与维护阶段的人工投入,提高效率,且基于元数据进行质量监测能胜任不同产品的监测任务,适用性广。
进一步的,步骤S3中若确认的故障为服务端故障,则所述基于元数据信息评估所述故障影响的服务范围包括:
通过所述待监测产品的元数据血缘分析图和影响分析图确认与所述故障的元数据相关的所有分支节点;
根据确认出的每一个分支节点,确认引用所述分支节点的服务清单;
根据所述服务清单评估所述故障影响的服务范围。
由上述描述可知,本发明的质量监测方案利用元数据为主线,将复杂的产品程序结构进行逐一拆分,从业务层面到服务接口层面,再从服务接口对具体数据库的元数据引用关系,进行层层剥离,利用元数据血缘分析跟影响分析的特点,重现了整个产品数据家族的构建过程,清晰的绘制了每个家族成员彼此连接的脉络和途径,因此,当任何一个数据出现错误或者异常时,我们都能通过血缘关系图向上分析快速的锁定问题产生的源头;或者当对某些数据进行修改时,可通过影响关系图向下分析,得到哪些数据实体中的数据会受到影响,这样就算产品是通过众多组件拼装而来,也能通过脉络和关系图,快速的找到故障原因和评估影响,还能在故障恢复时,快速实现完整的测试覆盖,减少漏测。
进一步的,步骤S3中若确认的故障为客户端故障,则所述基于元数据信息评估所述故障影响的服务范围包括:
确认发生异常的堆栈信息;
根据所述发生异常的堆栈信息,判断出现故障的是外部引用的组件还是非引用组件;
若出现故障的是外部引用的组件,则根据该故障组件的元数据定位该故障组件的引用情况,通过所述故障组件的引用情况评估所述故障影响的服务范围;
若出现故障的是非引用组件,则直接定位所述故障的位置来评估其影响的服务范围。
由上述描述可知,客户端引用组件发生故障时利用了元数据中的引用信息来自动评估其影响的服务范围,避免了层层排查的耗时问题,能快速便捷地确定影响范围,提高效率。
进一步的,步骤S3之后还包括步骤:
S4、定时对监测结果进行评估,确认故障是否已恢复,若监测到故障已恢复,则对所述故障影响的服务范围进行回归测试。
由上述描述可知,可以自动监测故障是否恢复,并能自动确定恢复后回归测试的范围,免去了人工甄别的过程。
进一步的,步骤S4中的对所述故障影响的服务范围进行回归测试具体为:
若确认的故障为服务端故障,则执行以下步骤:
基于所述故障对应的服务所使用的元数据信息,通过比对故障前后的元数据信息,确认所述故障对应的服务的元数据结构是否发生变化;若是,则执行步骤S41,否则,执行步骤S42;
S41、更新所述待监测产品的元数据的影响分析图和血缘分析图,并根据最新的元数据的影响分析图和血缘分析图更新所述元数据引用的服务清单,根据所述服务清单重新评估所述故障影响的服务范围;
根据所述更新自动生成测试用例和测试用脚本;
S42、在评估的故障影响的服务范围内,对每一个服务调用对应的测试用脚本和测试用例进行回归测试;
若确认的故障为客户端故障,则执行以下步骤:
在评估的所述故障影响的服务范围内,逐一对每一个故障组件进行回归测试;
在对每一个故障组件进行回归测试的过程中,判断在评估的所述故障影响的服务范围内是否有引用所述故障组件的服务,若是,则对引用所述故障组件的服务进行回归测试。
由上述描述可知,本发明方案能够利用成熟的测试方法自动化匹配最简洁的测试方法进行智能验证,根据待测目标字段的属性,罗列所有待验证边界值情况进行逐一遍历测试,测试高效准确,且全流程自动化回归测试,不需人工测试过多的介入,即使功能依赖关系改变较多也能依靠元数据信息逐一检测,适用性广,避免了人工甄别漏测的情况,提高准确性。
实施例一
请参照图1,一种基于元数据的自动质量监测方法,包括步骤:
S1、采集待监测产品的元数据信息;
其中,具体采集待监测产品的元数据信息,如产品的所用的字段、库、表、引用关系,还有待监测产品引用其他组件的组件清单、运行日志等信息;
S2、根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认;
其中,不同类别的产品有不同的监测手段;
对于非引用组件拼装的产品,即自主研发的产品,利用服务端监测和日志分析对所述产品发起定时监测;服务端监测通过自动化拨测脚本模拟用户使用场景,定时对产品进行请求操作,来监测产品的可用性、运行性能等情况;日志分析通过采集组件,将产品端上报的日志进行收集和分析,确认产品端运行过程,各堆栈信息是否存在异常来监测产品运行情况;
对于组件化拼装产品,即引用外部组件的产品,利用采集到的组件清单和配置化信息,针对这些组件进行定时监测,如A产品由3个B、C、D组件产品拼装而来,则根据组件清单所述去依次收集B、C、D三个组件产品的场景拨测情况、服务可用性、日志分析情况等信息进行综合评估;
若各维度的监测均无异常,说明定时监测结果正常,这时则进入等待,下一个定时时间到达时再进行监测结果检测;
若监测结果出现异常,则自动进行故障确认,如A产品中的服务请求A1出现异常,则进一步确认导致服务A1出现异常的原因,需要确认A1本身及其所调用或者A1服务的功能所依赖的几个节点服务的状态来确认问题,如A1服务实际的状态或数据是通过A1调用A2返回的,因为A2出现异常,导致A1服务故障,此时故障定位将确认到异常节点A2,其过程还会根据TCP/IP某些最常见的错误原因码进行一轮故障排查,过滤误报的异常,如服务因为网络抖动,如服务返回10051,说明可能的是没有到达网络的可用路由,此时本案将自动进行异常过滤,并自动再次进行一次拨测确认,若第二次仍然出现异常,则说明非误报,确认故障;
又如,公司有多个产品,它们调用的基础服务可能是同一个基础组件,如多个产品的数据同步功能都是通过调用同一个基础组件MQ(A2)队列来实现同步功能,那么当数据同步服务出现问题,就需要确认业务服务本身A1是否出现问题,再确认下A1调用的基础服务MQ(A2)是否出现问题;
S3、分析确认的故障,基于元数据信息评估所述故障影响的服务范围;
若确认的故障为服务器故障,则请参照图4服务端的故障分析流程:
通过所述待监测产品的元数据血缘分析图和影响分析图确认与所述故障的元数据相关的所有分支节点;
根据确认出的每一个分支节点,确认引用所述分支节点的服务清单;
根据所述服务清单评估所述故障影响的服务范围;
具体的,已确认的故障为业务层中异常的服务A2,此时将根据A2去确认与A2相关的元数据信息,如将A2所用的元数据及对应元数据所在的库、表、字段、引用关系进行逐一可用性排查,确认业务调用这些元数据是否存在问题,进一步确认故障发生的原因,最后,通过元数据血缘分析图和影响分析图,可以清晰的发现与该元数据相关的所有分支节点,在根据对应的分支节点,确认所引用这些分支节点的服务清单,从而评估受故障影响的服务范围;
其中,服务所使用的字段、库、表都是一种元数据,服务调用这些字段、库、表的关系也是一种元数据,通过这些元数据,可以清晰的描绘出一个产品的数据关系,然后根据这些关系,可以验证每一个调用关系的可用性、稳定性、以及数据同步的有效性等等,以此来确认元数据是否存在问题来进一步分析故障;
其中,需要自行通过收集产品元数据来绘制元数据的血缘分析关系图和影响分析图,血缘分析关系图可以根据目标节点为起点,以目标分析节点为终点,按照转化的关系逐层进行扩展,然后只需展示目标节点的产品过程,包括从哪些表转换而来,经历了哪些转换,从而帮助推断出它产品的过程,从而确认会受到的潜在影响;影响分析图则是以当前分析的节点作为起点,然后按照影响关系逐层扩展,并反映出当前节点在统一数据集成平台中,参与了哪些元数据的形成,借助影响分析,可以看到该对象的影响能力,简单来说就是可以看出,如果这个数据发生变化,会对哪些末端子节点产生影响;
比如A2故障服务调用了元数据S1,而S1通过血缘分析跟影响分析图,可以查看到S1是通过S2和S3转化而来,期间S2还依赖了S4或者更多的其他对象,那么通过对这些影响范围的逐一排查,可以准确定位到具体发生故障的服务点,比如是因为S2调用S4的时候引发的故障,导致S1转换数据出现问题,从而引发A2服务无法成功调用到元数据S1出现问题;
只要充分运用这两个图表,可以帮助用户在海量的数据中进行分析,提高排查错误的效率,降低难度,并准确定位故障影响,从而提高质量;
若确认的故障为客户端故障,则请参照图6客户端的故障分析流程:
确认发生异常的堆栈信息,判断出现故障的是外部引用的组件还是非引用组件,若出现故障的是外部引用的组件,则根据该故障组件的元数据定位该故障组件的引用情况,通过所述故障组件的引用情况评估所述故障影响的服务范围;若出现故障的是非引用组件,则直接定位所述故障的位置来评估其影响的服务范围。
实施例二
请参照图3,本实施例与实施例一的不同在于还包括步骤:
在进行故障影响的服务范围的评估之后,进一步评估故障等级,根据上述评估出的故障影响的服务范围来确认故障等级,如待测产品的重要功能出现异常中断,则故障等级最高,需第一时间处理;如待测产品的重要功能出现异常,但影响范围是少量用户,或非重要功能出现异常,则故障等级高等;根据不同的故障等级,将同步推送不同职能范围的相关人员进行跟进和处理,以确保多方信息同步,协同处理;
S4、定时对监测结果进行评估,确认故障是否已恢复,若监测到故障已恢复,则对所述故障影响的服务范围进行回归测试;
若确认的故障为服务端故障,则请参照图5服务端的回归测试流程,进行回归测试具体为:
基于所述故障对应的服务所使用的元数据信息,通过比对故障前后的元数据信息,确认所述故障对应的服务的元数据结构是否发生变化;若是,则执行步骤S41,否则,执行步骤S42;
S41、更新所述待监测产品的元数据的影响分析图和血缘分析图,并根据最新的元数据的影响分析图和血缘分析图更新所述元数据引用的服务清单,根据所述服务清单重新评估所述故障影响的服务范围;
根据所述更新自动生成测试用例和测试用脚本;
S42、在评估的故障影响的服务范围内,对每一个服务调用对应的测试用脚本和测试用例进行回归测试;
若确认的故障为客户端故障,则参照图7客户端的回归测试流程,进行回归测试具体为:
在评估的所述故障影响的服务范围内,逐一对每一个故障组件进行回归测试;
在对每一个故障组件进行回归测试的过程中,判断在评估的所述故障影响的服务范围内是否有引用所述故障组件的服务,若是,则对引用所述故障组件的服务进行回归测试;
若所有测试用脚本和测试用例均通过,则说明故障已恢复,反之则未恢复;
通过回归测试确认故障已恢复后,解除故障预警,即根据之前确认故障等级进行恢复故障信息推送,告知各职能相关人员,故障已恢复;
通过阶段性故障数据收集,可以得到阶段性故障频发的常见原因,还可以确认到对应故障频发引用的元数据及依赖它的服务,为后续质量改进方案提供数据支持,如提出一个频发故障修改方案的时候,可以评估得到这个修改可能影响的业务服务,从而找到最优的解决方案。
实施例三
请参照图2,一种基于元数据的自动质量监测终端1,包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例一中的各个步骤。
实施例四
请参照图2,一种基于元数据的自动质量监测终端1,包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例二中的各个步骤。
综上所述,本发明提供的一种基于元数据的自动质量监测方法及终端,可以自动完成拨测监控、拨测预警、故障定位、故障影响排查、故障等级区分、故障回归测试、故障解除一系列自动化运维操作,对快速迭代交付且结构复杂的产品尤其适用,具体利用了元数据的特点,采集产品的元数据信息,通过元数据的血缘分析和影响分析,实现故障定位、故障影响范围分析、故障恢复情况监测、故障恢复的回归测试、故障解除等一系列自动化监测手段,自动完成从故障业务服务到数据层的故障定位,再利用数据层的影响分析推导出相关的数据层的影响范围,通过数据层之间的引用关系,找到引用这部分数据的业务服务,从而实现包含故障业务服务在内的所有相关业务功能的全面捕捉和定位,并针对这部分范围进行故障情况监测和回归测试,确保故障完整恢复,高效准确且全程自动化,减少了产品监测与维护阶段的人工投入,提高工作效率,且基于元数据进行质量监测能胜任不同产品的监测任务,适用性广。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于元数据的自动质量监测方法,其特征在于,包括步骤:
S1、采集待监测产品的元数据信息;
S2、根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认;
S3、分析确认的故障,基于元数据信息评估所述故障影响的服务范围。
2.根据权利要求1所述的基于元数据的自动质量监测方法,其特征在于,所述步骤S3中若确认的故障为服务端故障,则所述基于元数据信息评估所述故障影响的服务范围包括:
通过所述待监测产品的元数据血缘分析图和影响分析图确认与所述故障的元数据相关的所有分支节点;
根据确认出的每一个分支节点,确认引用所述分支节点的服务清单;
根据所述服务清单评估所述故障影响的服务范围。
3.根据权利要求1所述的基于元数据的自动质量监测方法,其特征在于,所述步骤S3中若确认的故障为客户端故障,则所述基于元数据信息评估所述故障影响的服务范围包括:
确认发生异常的堆栈信息;
根据所述发生异常的堆栈信息,判断出现故障的是外部引用的组件还是非引用组件;
若出现故障的是外部引用的组件,则根据该故障组件的元数据定位该故障组件的引用情况,通过所述故障组件的引用情况评估所述故障影响的服务范围;
若出现故障的是非引用组件,则直接定位所述故障的位置来评估其影响的服务范围。
4.根据权利要求2或3所述的基于元数据的自动质量监测方法,其特征在于,所述步骤S3之后还包括步骤:
S4、定时对监测结果进行评估,确认故障是否已恢复,若监测到故障已恢复,则对所述故障影响的服务范围进行回归测试。
5.根据权利要求4所述的基于元数据的自动质量监测方法,其特征在于,步骤S4中的对所述故障影响的服务范围进行回归测试具体为:
若确认的故障为服务端故障,则执行以下步骤:
基于所述故障对应的服务所使用的元数据信息,通过比对故障前后的元数据信息,确认所述故障对应的服务的元数据结构是否发生变化;若是,则执行步骤S41,否则,执行步骤S42;
S41、更新所述待监测产品的元数据的影响分析图和血缘分析图,并根据最新的元数据的影响分析图和血缘分析图更新所述元数据引用的服务清单,根据所述服务清单重新评估所述故障影响的服务范围;
根据所述更新自动生成测试用例和测试用脚本;
S42、在评估的故障影响的服务范围内,对每一个服务调用对应的测试用脚本和测试用例进行回归测试;
若确认的故障为客户端故障,则执行以下步骤:
在评估的所述故障影响的服务范围内,逐一对每一个故障组件进行回归测试;
在对每一个故障组件进行回归测试的过程中,判断在评估的所述故障影响的服务范围内是否有引用所述故障组件的服务,若是,则对引用所述故障组件的服务进行回归测试。
6.一种基于元数据的自动质量监测终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、采集待监测产品的元数据信息;
S2、根据所述元数据信息,对所述产品进行监测,若监测结果异常,则自动进行故障确认;
S3、分析确认的故障,基于元数据信息评估所述故障影响的服务范围。
7.根据权利要求6所述的基于元数据的自动质量监测终端,其特征在于,所述步骤S3中若确认的故障为服务端故障,则所述基于元数据信息评估所述故障影响的服务范围包括:
通过所述待监测产品的元数据血缘分析图和影响分析图确认与所述故障的元数据相关的所有分支节点;
根据确认出的每一个分支节点,确认引用所述分支节点的服务清单;
根据所述服务清单评估所述故障影响的服务范围。
8.根据权利要求6所述的基于元数据的自动质量监测终端,其特征在于,所述步骤S3中若确认的故障为客户端故障,则所述基于元数据信息评估所述故障影响的服务范围包括:
确认发生异常的堆栈信息;
根据所述发生异常的堆栈信息,判断出现故障的是外部引用的组件还是非引用组件;
若出现故障的是外部引用的组件,则根据该故障组件的元数据定位该故障组件的引用情况,通过所述故障组件的引用情况评估所述故障影响的服务范围;
若出现故障的是非引用组件,则直接定位所述故障的位置来评估其影响的服务范围。
9.根据权利要求7或8所述的基于元数据的自动质量监测终端,其特征在于,所述步骤S3之后还包括步骤:
S4、定时对监测结果进行评估,确认故障是否已恢复,若监测到故障已恢复,则对所述故障影响的服务范围进行回归测试。
10.根据权利要求9所述的基于元数据的自动质量监测终端,其特征在于,步骤S4中的对所述故障影响的服务范围进行回归测试具体为:
若确认的故障为服务端故障,则执行以下步骤:
基于所述故障对应的服务所使用的元数据信息,通过比对故障前后的元数据信息,确认所述故障对应的服务的元数据结构是否发生变化;若是,则执行步骤S41,否则,执行步骤S42;
S41、更新所述待监测产品的元数据的影响分析图和血缘分析图,并根据最新的元数据的影响分析图和血缘分析图更新所述元数据引用的服务清单,根据所述服务清单重新评估所述故障影响的服务范围;
根据所述更新自动生成测试用例和测试用脚本;
S42、在评估的故障影响的服务范围内,对每一个服务调用对应的测试用脚本和测试用例进行回归测试;
若确认的故障为客户端故障,则执行以下步骤:
在评估的所述故障影响的服务范围内,逐一对每一个故障组件进行回归测试;
在对每一个故障组件进行回归测试的过程中,判断在评估的所述故障影响的服务范围内是否有引用所述故障组件的服务,若是,则对引用所述故障组件的服务进行回归测试。
CN201810994502.9A 2018-08-29 2018-08-29 一种基于元数据的自动质量监测方法及终端 Active CN110875853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810994502.9A CN110875853B (zh) 2018-08-29 2018-08-29 一种基于元数据的自动质量监测方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810994502.9A CN110875853B (zh) 2018-08-29 2018-08-29 一种基于元数据的自动质量监测方法及终端

Publications (2)

Publication Number Publication Date
CN110875853A true CN110875853A (zh) 2020-03-10
CN110875853B CN110875853B (zh) 2022-04-01

Family

ID=69714536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810994502.9A Active CN110875853B (zh) 2018-08-29 2018-08-29 一种基于元数据的自动质量监测方法及终端

Country Status (1)

Country Link
CN (1) CN110875853B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100201A (zh) * 2020-09-30 2020-12-18 东莞市盟大塑化科技有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112882855A (zh) * 2021-02-08 2021-06-01 上海臣星软件技术有限公司 一种数据监测的方法、装置、设备及计算机存储介质
CN114143177A (zh) * 2021-12-01 2022-03-04 云赛智联股份有限公司 一种基于数据血缘的业务服务监控系统及监控方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127635A (zh) * 2007-09-26 2008-02-20 上海市信息网络有限公司 综合网管系统
CN103178991A (zh) * 2011-12-21 2013-06-26 中国移动通信集团黑龙江有限公司 一种多网络关系分析的方法和系统
CN104125085A (zh) * 2013-04-27 2014-10-29 中国移动通信集团黑龙江有限公司 一种基于esb的数据管控方法及装置
US20150081882A1 (en) * 2013-09-17 2015-03-19 Stackdriver, Inc. System and method of alerting on ephemeral resources from an iaas provider
CN104602139A (zh) * 2013-10-30 2015-05-06 上海沐风数码科技有限公司 一种新型的用于网络通讯技术装置
CN106470118A (zh) * 2015-08-21 2017-03-01 睿石网云(北京)科技有限公司 一种应用系统性能异常检测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127635A (zh) * 2007-09-26 2008-02-20 上海市信息网络有限公司 综合网管系统
CN103178991A (zh) * 2011-12-21 2013-06-26 中国移动通信集团黑龙江有限公司 一种多网络关系分析的方法和系统
CN104125085A (zh) * 2013-04-27 2014-10-29 中国移动通信集团黑龙江有限公司 一种基于esb的数据管控方法及装置
US20150081882A1 (en) * 2013-09-17 2015-03-19 Stackdriver, Inc. System and method of alerting on ephemeral resources from an iaas provider
CN104602139A (zh) * 2013-10-30 2015-05-06 上海沐风数码科技有限公司 一种新型的用于网络通讯技术装置
CN106470118A (zh) * 2015-08-21 2017-03-01 睿石网云(北京)科技有限公司 一种应用系统性能异常检测方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100201A (zh) * 2020-09-30 2020-12-18 东莞市盟大塑化科技有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112882855A (zh) * 2021-02-08 2021-06-01 上海臣星软件技术有限公司 一种数据监测的方法、装置、设备及计算机存储介质
CN114143177A (zh) * 2021-12-01 2022-03-04 云赛智联股份有限公司 一种基于数据血缘的业务服务监控系统及监控方法

Also Published As

Publication number Publication date
CN110875853B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
US11354219B2 (en) Machine defect prediction based on a signature
US11500757B2 (en) Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US20220187815A1 (en) Systems and methods for detecting and predicting faults in an industrial process automation system
CN110875853B (zh) 一种基于元数据的自动质量监测方法及终端
CN107807877B (zh) 一种代码性能测试的方法和装置
CN110716842B (zh) 集群故障检测方法和装置
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN107124289B (zh) 网络日志时间对齐方法、装置及主机
CN106951315B (zh) 一种基于etl的数据任务调度方法及系统
US20200117587A1 (en) Log File Analysis
JP7423942B2 (ja) 情報処理システム
CN115118621B (zh) 一种基于依赖关系图的微服务性能诊断方法及系统
JP3872412B2 (ja) 総合サービス管理システム及び方法
JP2018160186A (ja) 監視プログラム、監視方法および監視装置
CN111124724B (zh) 一种分布式块存储系统的节点故障测试方法及装置
CN112527619A (zh) 一种基于有向无环图结构的分析链路调用方法及系统
CN112235128A (zh) 一种交易路径分析方法、装置、服务器及存储介质
CN109274533B (zh) 一种基于规则引擎的Web服务故障的定位装置和方法
JP4575020B2 (ja) 障害解析装置
US20200391885A1 (en) Methods and systems for identifying aircraft faults
CN113495750B (zh) 一种设备的升级检测方法、装置及服务器
Schörgenhumer et al. Using crash frequency analysis to identify error-prone software technologies in multi-system monitoring
CN111176916B (zh) 数据存储故障诊断方法及系统
US20230216727A1 (en) Identification of root causes in data processing errors
CN112214409B (zh) 一种用于测试环境下的运维方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant