CN113760689A

CN113760689A - 接口故障的报警方法、装置、设备及存储介质

Info

Publication number: CN113760689A
Application number: CN202010505686.5A
Authority: CN
Inventors: 李德广; 曹向博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-12-07

Abstract

本申请公开了一种接口故障的报警方法、装置、设备及存储介质，涉及计算机程序领域。上述方法包括：通过在后台服务器中设置的监控代理采集监控数据，对监控数据进行分析运算，确定后台服务器接口的工作状态；若工作状态为请求掉底，则执行该后台服务器接口的测试用例，通过测试用例来测试后台服务器接口是否为故障；若测试结果为接口故障，发出警报；若测试结果为接口无故障，确定工作状态是小流量场景下的请求掉底。该方法在发现后台服务器请求掉底时，执行测试用例对后台服务器接口进行测试，从而得到准确的测试结果，能够避免小流量情况下对后台服务器接口的工作状态的误判。

Description

接口故障的报警方法、装置、设备及存储介质

技术领域

本申请涉及计算机程序领域，特别涉及一种接口故障的报警方法、装置、设备及存储介质。

背景技术

终端的后台服务是指提供指定功能的一组后台服务器接口，在终端上触发一个用户请求时，通过相应的后台服务器接口将该用户请求提交到后台服务器。

为了保证用户请求准确无误地提交至后台服务器，需要对终端的后台服务的工作状态进行监控。通常，用户请求在被提交到后台服务时，监控代理(agent)记录对后台服务器接口调用的数据，并将上述数据上传至数据库(DataBase，DB)，故障分析服务定时从DB中拉取数据，当分析数据发现后台服务器接口的请求掉底时，发出报警。其中，请求掉底是指在一段时间内后台服务器接口所上报的用户请求的请求数低于数量阈值。

在小流量的场景下，用户请求是不连续的，有时长达几分钟没有用户请求，这时故障分析服务会将其误判为后台服务器接口故障。

发明内容

本申请实施例提供了一种接口故障的报警方法、装置、设备及存储介质，可以在小流量的场景下，准确的判断出后台服务器接口存在故障或者不存在故障，能够避免由于用户请求不连续导致的对接口故障的误判。所述技术方案如下：

根据本申请的一方面，提供了一种接口故障的报警方法，该方法包括：

从数据库中获取目标时间段内的监控数据，监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据；

对监控数据进行分析运算，确定后台服务器接口的工作状态；

响应于工作状态为请求掉底，执行后台服务器接口的测试用例，请求掉底是指在目标时间段内后台服务器接口的被请求频率低于频率阈值；

响应于执行测试用例的测试结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于执行测试用例的测试结果为接口故障，发出警报。

根据本申请的另一方面，提供了一种接口故障的报警系统，该系统包括：报警装置和故障检测装置；

报警装置，用于从数据库中获取目标时间段内的监控数据，监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据；对监控数据进行分析运算，确定后台服务器接口的工作状态；

故障检测装置，用于响应于工作状态为请求掉底，执行后台服务器接口的测试用例，请求掉底是指在目标时间段内后台服务器接口的被请求频率低于频率阈值；

报警装置，用于响应于执行测试用例的测试结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于执行测试用例的测试结果为接口故障，发出警报。

根据本申请的另一方面，提供了一种接口故障的报警装置，该装置包括：

获取模块，用于从数据库中获取目标时间段内的监控数据，监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据；

分析模块，用于对监控数据进行分析运算，确定后台服务器接口的工作状态；

执行模块，用于响应于工作状态为请求掉底，执行后台服务器接口的测试用例，请求掉底是指在目标时间段内后台服务器接口的被请求频率低于频率阈值；

报警模块，用于响应于执行测试用例的测试结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于执行测试用例的测试结果为接口故障，发出警报。

根据本申请的另一方面，提供了一种电子设备，该电子设备包括：

存储器；

与存储器相连的处理器；

其中，处理器被配置为加载并执行可执行指令以实现如上一个方面及其可选实施例所述的接口故障的报警方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上一个方面及其可选实施例所述的接口故障的报警方法。

根据本申请的另一方面，提供了一种计算机程序产品，上述计算机程序产品由处理器加载并执行以实现如上一个方面及其可选实施例所述的接口故障的报警方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

该方法通过在后台服务器中设置的监控代理采集目标时间段内的监控数据，对监控数据进行分析运算，确定后台服务器接口的工作状态；若工作状态为请求掉底，则执行该后台服务器接口的测试用例，通过测试用例来测试后台服务器接口是否为故障；若执行测试用例的测试结果为接口故障，则发出警报；若执行测试用例的测试结果为接口无故障，则确定后台服务器接口的工作状态为小流量场景下的请求掉底，也就是说，并非是接口故障导致的请求掉底。该方法能够对导致请求掉底的原因做出准确的判断，那么，在小流量的场景下，若在一段时间内调用后台服务器接口传输用户请求出现请求掉底的情况，也不会被认定是接口故障导致的，避免了对后台服务器接口的工作状态的误判。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的结构示意图；

图2是本申请一个示例性实施例提供的接口故障的报警方法的流程图；

图3是本申请另一个示例性实施例提供的接口故障的报警方法的流程图；

图4是本申请另一个示例性实施例提供的接口故障的报警方法的流程图；

图5是本申请一个示例性实施例提供的故障识别模型的训练方法的流程图；

图6是本申请另一个示例性实施例提供的接口故障的报警方法的流程图；

图7是本申请一个示例性实施例提供的接口故障的报警系统的结构示意图；

图8是本申请一个示例性实施例提供的故障检测装置的结构示意图；

图9是本申请另一个示例性实施例提供的接口故障的报警装置的框图；

图10是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

对本申请中涉及的名词进行解释如下：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统的技术科学。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，包括硬件层面的技术与软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、类比学习等技术。

在本申请的一些可选实施例中，采用了机器学习的方式来识别后台服务器接口的工作状态。示例性的，本申请中提供的故障识别模型是采集样本对神经网络模型进行训练得到的模型。

监控代理(agent)：是指后台服务器中设置的监控后台服务器接口的工作状态的程序。

测试用例：是一段脚本，该段脚本被执行时模拟调用后台服务器接口向后台服务器发送用户请求，之后返回对后台服务器接口的调用结果，比如，调用成功或者失败，相应地，用户请求发送成功或者失败。

请参考图1，示出了本申请一个示例性实施例提供的计算机系统100的结构框图。计算机系统100包括：终端120和服务器140。

终端120上安装有操作系统；该操作系统上安装有应用程序，比如，上述应用程序可以包括即时通讯软件、金融软件、游戏软件、购物软件、视频播放软件、社区服务软件、音频软件、教育软件、支付软件等，本申请中对应用程序类型不做限定。示例性的，在终端120的操作系统上安装并运行有应用程序，终端120接收对应用程序的操作，执行上述操作请求实现的功能。

终端120通过无线网络或有线网络与服务器140相连。服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示例性的，服务器140包括处理器144和存储器142，其中，存储器142中存储有计算机程序，处理器读取并执行上述计算机程序可以实现计算机程序对应的功能。

服务器140为终端120上安装并运行的应用程序提供后台服务。服务器140提供有后台服务器接口，该后台服务器接口用于被终端120调用以传输用户请求。示例性的，在终端120的操作系统上安装并运行有应用程序，终端120接收对应用程序的操作，终端120调用该应用程序对应的后台服务器接口，通过该后台服务器接口将该操作触发的用户请求发送至服务器140，由服务器140对该用户请求进行处理，并向终端120反馈处理结果，以对上述操作进行响应。

可选地，服务器140承担主要计算工作，终端120承担次要计算工作；或者，服务器140承担次要计算工作，终端120承担主要计算工作；或者，服务器140和终端120二者之间采用分布式计算架构进行协同计算。

服务器140还对后台服务器接口的工作状态进行监控，以保证后台服务器接口无故障，能够及时响应终端120的调用。服务器140的存储器中存储的计算机程序被读取并执行时可以实现如本申请提供的接口故障的报警方法。

可选地，服务器140中设置有监控agent，监控agent用于采集监控数据，并将监控数据存储至数据库中。示例性的，在终端120上运行应用程序时，监控agent采集终端120调用后台服务器接口时产生的工作数据，即监控数据，比如，对该后台服务器接口调用成功或者调用失败、或者对该后台服务器接口实现调用的耗时等；监控agent将上述监控数据上报至服务器140，由服务器140将监控数据存储至数据库中。在周期性对后台服务器接口进行故障检测时，服务器140从数据库中获取目标时间段内的监控数据，对上述监控数据进行分析运算，确定后台服务器接口的工作状态；当上述工作状态为请求掉底时，执行后台服务器接口的测试用例，以对后台服务器接口的工作状态进行检测；当执行测试用例的测试结果为接口无故障时，确定后台服务器接口的工作状态为小流量场景下的请求掉底；当执行测试用例的测试结果为接口故障时，发出警报；其中，请求掉底是指在目标时间段内后台服务器接口的被请求频率低于频率阈值。

终端120可以泛指多个终端中的一个，本实施例仅以终端120来举例说明。该终端120可以包括：智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV，MP4)播放器、膝上型便携计算机和台式计算机中、笔记本电脑的至少一种。以下实施例以终端包括智能手机和个人计算机来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

请参考图2，示出了本申请一个示例性实施例提供的接口故障的报警方法的流程图，该方法应用于如图1所示的服务器中，该方法包括：

步骤201，从数据库中获取目标时间段内的监控数据。

上述监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据。该工作数据用于反映后台服务器接口的工作状态，进而可以由工作状态来确定后台服务器接口是否存在接口故障。工作状态包括请求掉底，请求掉底是指在目标时间段内后台服务器接口的被请求频率低于频率阈值；频率阈值可以是在后台服务器中预先设置的或者是自定义的。可选地，工作状态还包括接口故障和接口无故障；接口故障是指后台服务器接口无法成功传输用户请求的状态，接口无故障是指后台服务器接口在被终端调用后能够成功传输用户请求的状态。上述请求掉底是请求掉底的工作状态，即是指后台服务器接口的工作状态可能是接口故障，也可能是接口无故障的状态。

示例性的，后台服务器中设置有监控agent；在终端中运行应用程序的过程中，终端调用该应用程序对应的后台服务器接口向服务器发送用户请求，该用户请求用于实现指定功能；监控agent监控终端对后台服务器接口的调用，并将监控数据上传至服务器，由服务器存储至数据库中。

服务器中设置有对后台服务器接口的工作状态进行监控的监控程序，以对后台服务器接口的工作状态进行周期性检测，保证后台服务器接口处于接口无故障的状态，能够及时响应终端的调用，实现对用户请求的传输。

服务器按照检测周期从数据库中获取目标时间段内的监控数据。检测周期是指相邻两次工作状态检测之间间隔的时长，工作状态检测是指服务器对后台服务器接口的工作状态的检测。

示例性的，服务器每间隔3分钟从数据库中获取一次监控数据，服务器在第一时刻从数据库中获取第一时刻之前3分钟内的监控数据，比如，服务器在12:00时从数据库中获取11:57至12:00这一时间段内的监控数据，在12:03时从数据库中获取12:00至12:03这一时间段内的监控数据。

或者，服务器每间隔5分钟从数据库中获取一次监控数据，服务器在第二时刻从数据库中获取第二时刻之前4分钟内的监控数据，比如，服务器在13:00时从数据库中获取12:56至13:00这一时间段内的监控数据，在13:05时从数据库中获取13:01至13:05这一时间段内的监控数据。

或者，服务器每间隔6分钟从数据库中获取一次监控数据，服务器在第三时刻从数据库中获取第三时刻之前7分钟内的监控数据，比如，服务器在14:00时从数据库中获取13:53至14:00这一时间段内的监控数据，在14:06时从数据库中获取13:59至14:06这一时间段内的监控数据。需要说明的是，在本申请中对检测周期的时长不加以限定，对目标时间段的时长也不加以限定。

步骤202，对监控数据进行分析运算，确定后台服务器接口的工作状态。

服务器对监控数据进行分析运算，通过分析监控数据来预测后台服务器接口的工作状态，即预测后台服务器接口的工作状态为接口故障、或者请求掉底、或者接口无故障。

可选地，服务器对于工作状态的确认，可以包括以下至少一种方式：

1)根据监控数据计算后台服务器接口在目标时间段内的被请求频率；响应于被请求频率小于或者等于频率阈值，确定工作状态为请求掉底；响应于被请求频率大于频率阈值，确定工作状态为接口无故障。

在确定后台服务器接口的工作状态的过程中，服务器计算后台服务器接口在目标时间段内的被请求频率，通过被请求频率来确定后台服务器接口的工作状态；该被请求频率是指后台服务器接口在单位时间内被请求的次数。

示例性的，服务器统计目标时间段内一个后台服务器接口被请求的总次数，根据被请求的总次数与目标时间段的时长来计算被请求频率；比如，单位时间为1分钟，服务器统计得到11:57至12:00这一目标时间段内后台服务器接口的被请求的次数为99次，则计算得到被请求频率为33次/分钟，即每分钟被请求33次。

服务器中设置有被请求频率对应的频率阈值；若上述被请求频率小于或者等于频率阈值，确定后台服务器接口的工作状态为请求掉底，表示被请求的后台服务器接口可能是出现了接口故障，也可能是当前处于小流量场景，在一段时间内对该后台服务器接口的请求少，因此，服务器此时无法明确的确定后台服务器接口的工作状态，则确定该后台服务器接口的工作状态为请求掉底。若上述被请求频率大于频率阈值，表示后台服务器接口的被请求频率在合理范围内，则确定该后台服务器接口的工作状态为接口无故障。

2)对监控数据进行检测，响应于检测到监控数据中存在后台服务器接口对应的第一指定错误码，确定后台服务器接口的工作状态为请求掉底；响应于检测到监控数据中存在后台服务器接口对应的第二指定错误码，确定后台服务器接口的工作状态为接口故障；响应于从监控数据中未检测到后台服务器接口对应的第一指定错误码和第二指定错误码，确定后台服务器接口的工作状态为接口无故障。

当终端向服务器发送用户请求失败时会产生错误码，不同的错误码代表导致用户请求发送失败的不同错误原因。当监控数据中出现第一指定错误码时，表示后台服务器接口的工作状态为请求掉底，该请求掉底的原因可能是后台服务器接口出现接口故障，也可能是其他原因，比如，可能是小流量场景下的请求掉底，服务器无法明确的确定该后台服务器接口处于接口故障或者接口无故障的状态，因此，服务器在从监控数据中检测到后台服务器接口对应的第一指定错误码时，将工作状态确定为请求掉底，并不会将工作状态确定为接口故障。

当监控数据中出现第二指定错误码时，表示终端向服务器发送用户请求失败，且错误原因是后台服务器接口处于接口故障的状态，则服务器确定后台服务器接口的工作状态为接口故障。当监控数据中不存在第一指定错误码和第二指定错误码时，表示后台服务器接口的工作状态为接口无故障。需要说明的是，在服务器确定后台服务器接口存在接口故障之后，还可以执行后台服务器接口对应的测试用例，以确定导致接口故障的原因。

在步骤202中，若后台服务器接口的工作状态为接口故障，则服务器发出警报；若后台服务器接口的工作状态为请求掉底，则服务器执行步骤203；若后台服务器接口的工作状态为接口无故障，则服务器按照检测周期从步骤201开始重新执行本实施例提供的接口故障的方法流程，以继续对后台服务器接口的工作状态进行监控。

步骤203，响应于工作状态为请求掉底，执行后台服务器接口的测试用例。

当确定后台服务器接口的工作状态为请求掉底时，服务器从存储器中获取该后台服务器接口对应的测试用例，该测试用例用于测试该后台服务器接口的工作状态。

该测试用例中预先配置有该后台服务器接口支持的i个参数，i个参数组合成为j个参数组合，每一个参数组合定义有对应的期望返回；其中，i、j均为正整数。服务器在调用该测试用例对后台服务器接口进行工作状态测试时，将j个参数组合中的每一个参数组合依次作为输入数据来执行测试用例，以对后台服务器接口进行测试。可选地，每一个参数组合定义有至少两个期望返回，不同的期望返回代表不同的执行结果。

示例性的，以j取值为1进行举例说明，参数组合a定义有2个期望返回，分别为期望返回1和期望返回2，期望返回1表示对后台服务器接口的测试结果为接口无故障，期望返回2表示对后台服务器接口的测试结果为接口故障。服务器将上述一个参数组合作为输入数据来执行测试用例，从而对后台服务器接口进行工作状态的测试；若执行测试用例的返回结果(即测试结果)为期望返回1，则后台服务器接口处于接口无故障的状态；若执行测试用例的返回结果为期望返回2，则后台服务器接口处于接口故障的状态。

需要说明的是，期望返回采用了约定格式，示例性的，期望返回包括返回码和返回信息两个字段，返回码表示工作状态，返回信息用于指示测试的参数组合；比如，上述举例中返回结果为期望返回2时，期望返回2中返回信息即指示参数组合a。

还需要说明的是，一个测试用例可以对应有至少两个参数组合，若至少两个参数组合中的每一个参数组合对应的测试结果均为接口无故障时，则确定后台服务器接口处于接口无故障的状态；若至少两个参数组合对应的至少两个测试结果中存在接口故障的测试结果，则确定后台服务器接口处于接口故障的状态。

在步骤203中，若执行后台服务器接口的测试用例得到的测试结果为接口故障，则服务器执行步骤205；若执行后台服务器接口的测试用例得到的测试为接口无故障，则服务器执行步骤204，且服务器按照检测周期从步骤201开始重新执行本实施例提供的接口故障的方法流程，以继续对后台服务器接口的工作状态进行监控。

步骤204，响应于执行测试用例的测试结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底。

服务器响应于执行测试用例的测试结果为接口无故障，即后台服务器接口的工作状态为小流量场景下的请求掉底，并非是接口故障导致的后台服务器接口的请求掉底，服务器对此不进行报警。

步骤205，响应于执行测试用例的测试结果为接口故障，发出警报。

服务器响应于执行测试用例的测试结果为接口故障，则发出警报，以发出后台服务接口发生接口故障的警示。该警报用于提醒后台技术人员及时对后台服务器接口进行修复处理。

可选地，服务器发出警报的同时启动对后台服务器接口的自动修复系统，对后台服务器接口进行自动修复，该警报则用于提醒后台技术人员后台服务器接口处于自动修复状态，且需要关注修复结果以在自动修复失败时及时对后台服务器接口进行人工修复。

可选地，服务器还可以将该警报返回至终端，则该警报用于提醒该终端的用户该后台服务器接口对应的功能无法实现。

综上所述，本实施例提供的接口故障的报警方法，通过在后台服务器中设置的监控代理采集目标时间段内的监控数据，对监控数据进行分析运算，确定后台服务器接口的工作状态；若工作状态为请求掉底，则执行该后台服务器接口的测试用例，通过测试用例来测试后台服务器接口是否为故障；若执行测试用例的测试结果为接口故障，则发出警报；若执行测试用例的测试结果为接口无故障，则确定后台服务器接口的工作状态为小流量场景下的请求掉底，也就是说，并非是接口故障导致的请求掉底。该方法能够对导致请求掉底的原因做出准确的判断，那么，在小流量的场景下，若在一段时间内调用后台服务器接口传输用户请求出现请求掉底的情况，也不会被认定是接口故障导致的，避免了对后台服务器接口的工作状态的误判。

基于图2，一个后台服务器接口还可以对应设置多个测试用例，以全面的测试该后台服务器接口的工作状态，因此，步骤203可以包括步骤301至步骤302，相应地，步骤204可以包括步骤303，步骤205可以包括步骤304，如图3，示例性步骤如下：

步骤301，响应于工作状态为请求掉底，获取后台服务器接口的接口标识对应的标识列表。

其中，上述标识列表包括后台服务器接口的n个测试用例对应的n个用例标识，n为正整数。一个后台服务器对应有n个测试用例，每一个测试用例均是用于检测后台服务器接口的工作状态的用例；每一个后台服务器接口的接口标识与对应的n个测试用例的用例标识对应存储，即后台服务器接口对应的n个测试用例存储在该后台服务器接口的接口标识对应的标识列表中。

示例性的，如表1，后台服务器接口的接口标识为00，对应的标识列表中存储有000001、00 0010与00 0011三个用例标识；后台服务器接口的接口标识为01，对应的标识列表中存储有01 0001与01 0010两个用例标识。若后台服务器接口00的工作状态为请求掉底，服务器获取接口标识00对应的标识列表；若后台服务器接口01的工作状态为请求掉底，服务器获取接口标识01对应的标识列表。

表1

步骤302，按照标识列表中的n个用例标识依次执行n个测试用例。

服务器获取得到后台服务器接口对应的标识列表之后，按照标识列表中的n个用例标识依次执行n个测试用例。

示例性的，如表1，若后台服务器接口00的工作状态为请求掉底，在获得对应的标识列表之后，服务器执行00 0001、00 0010与00 0011三个用例标识对应的三个测试用例，以对后台服务器接口00进行工作状态的测试。若后台服务器接口01的工作状态为请求掉底，在获得对应的标识列表之后，服务器执行01 0001与01 0010两个用例标识对应的两个测试用例，以对后台服务器接口01进行工作状态的测试。需要说明的是，服务器通过测试用例对后台服务器接口进行测试，即是模仿终端调用后台服务器接口进行用户请求传输的过程，以测试后台服务器接口的工作状态。

服务器执行n个测试用例之后得到n个测试结果，若n个测试结果中存在m个测试结果为接口故障，表示测试的后台服务器接口的工作状态为接口故障，则服务器执行步骤303；若n个测试结果中不存在接口故障的测试结果，表示测试的后台服务器接口的工作状态为接口无故障，则服务器按照检测周期从步骤201开始重新执行本实施例提供的接口故障的方法流程，以继续对后台服务器接口的工作状态进行监控。其中，n为正整数，m为小于或者等于n的正整数。

可选地，对于上述n个测试用例，服务器按照指定周期以串行方式间隔执行n个用例标识对应的n个测试用例。示例性的，如表1，若对后台服务器接口01进行工作状态的测试，则服务器首先在第一个周期内执行完成用例标识01 0001对应的测试用例，在第二个周期内执行完成用例标识01 0010对应的测试用例。

步骤303，响应于n个测试结果均为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底。

步骤304，响应于n个测试结果中存在m个测试结果为接口故障，发出警报。

示例性的，以服务器对支付平台的支付接口进行监控为例进行说明，监控agent对支付接口进行监控，得到支付接口在22:30-22:35这一时间段内支付接口的被请求次数为4次，则被请求频率为0.8次/分钟；若频率阈值为30次/分钟，被请求频率远小于频率阈值，则服务器确定该支付接口的工作状态为请求掉底；之后服务器获取支付接口的接口标识10对应的标识列表，如表2，服务器以串行方式依次执行标识列表中10 0001、10 0010、10 0011、10 0100、以及10 0101这五个用例标识对应的测试用例，以对该支付接口的工作状态进行测试；上述5个测试用例对支付接口进行测试后，得到5个测试结果；若5个测试结果中存在至少一个接口故障的测试结果，服务器确定支付接口出现接口故障，发出警报；若5个测试结果均为接口无故障，服务器确定支付接口未出现接口故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底。

表2

接口标识	标识列表
		10	10 0001
10	10 0010
		10	10 0011
10	10 0100
		10	10 0101

综上所述，本实施例提供的接口故障的报警方法，通过为每一个后台服务器接口设置多个测试用例，更加全面的测试后台服务器接口的工作状态，使测试得到的后台服务器接口的工作状态更加准确；若存在接口故障，还能够通过多个测试用例精确地定位接口故障的故障原因。该方法还以串行方式依次执行n个测试用例，从而保证了对后台服务器接口的工作状态的测试的稳定性与可用性。

基于图2，对于后台服务器接口的工作状态，服务器除可以通过测试用例来测试之外，还可以通过机器学习模型分析监控数据来确定，因此，步骤203至步骤205可以替换为步骤401至步骤403，如图4，示例性步骤如下：

步骤401，响应于工作状态为请求掉底，调用故障识别模型对监控数据进行识别，得到识别结果。

其中，故障识别模型是用于对后台服务器接口进行接口故障识别的机器学习模型。可选地，上述机器学习模型可以是以下神经网络模型中至少一种：循环神经网络(Recurrent Neural Networks，RNN)模型、长短期记忆(Long Short Term Memory，LSTM)模型、以及卷积神经网络(Convolution Neural Networks，CNN)模型；本申请中对机器学习模型的种类不加以限定。

若确定后台服务器接口的工作状态为请求掉底，服务器调用故障识别模型对监控数据进行分析识别，得到对工作状态的识别结果；若上述识别结果为接口故障，服务器执行步骤403；若上述识别结果为接口无故障，服务器执行步骤402，且按照检测周期从步骤201开始重新执行本实施例提供的接口故障的方法流程，以继续对后台服务器接口的工作状态进行监控。

可选地，上述监控数据包括与工作状态相关的各个类型的工作数据。示例性的，上述监控数据包括硬盘读写数据、网络流量数据、接口请求数据、接口返回数据、系统响应数据、以及其他系统数据中的至少一种。

步骤402，响应于识别结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底。

步骤403，响应于识别结果为接口故障，发出警报。

综上所述，本实施例提供的接口故障的报警方法，在后台服务器接口处于请求掉底的状态时，服务器通过机器学习模型对后台服务器接口的工作状态进一步确认，在确定后台服务器接口的工作状态为接口故障时，发出警报；在识别出是小流量的场景导致的请求掉底，则确定后台服务器接口的工作状态为接口无故障，该方法通过机器学习模型进行识别，从而得到准确的工作状态，不会直接将导致请求掉底的原因定位为接口故障，避免了对后台服务器接口的工作状态的误判。

还需要说明的是，上述实施例中故障识别模型是通过采集训练样本对机器学习模型训练得到的。示例性的，如图5，上述故障识别模型的训练过程如下：

步骤501，采集训练样本。

服务器采集u组训练样本，u大于或者等于2的正整数。每一组训练样本包括v条监控数据样本，监控数据样本是采集的后台服务器接口的历史监控数据，其中，v为正整数。每一组训练样本标记有对应的后台服务器接口的实际工作状态，其中，实际工作状态包括接口故障和接口无故障。可选地，u组训练样本中不同组的训练样本中监控数据样本的条数v可以相同或者不同。

步骤502，将训练样本输入故障识别模型，由故障识别模型识别后台服务器接口的预测工作状态。

示例性的，服务器将一组训练样本输入故障识别模型，故障识别模型对v条监控数据进行综合分析识别，分析对应的识别后台服务器接口的工作状态，得到后台服务器接口的预测工作状态。其中，该预测工作状态包括接口故障和接口无故障。

步骤503，计算实际工作状态与预测工作状态之间的损失。

服务器通过损失函数计算实际工作状态与预测工作状态之间的损失，即通过损失函数计算故障识别模型输出的预测工作状态与对应的实际工作状态之间的损失。

步骤504，根据损失对故障识别模型进行反向传播训练，得到训练后的故障识别模型。

服务器根据计算得到的损失对故障识别模型进行反向传播训练，更新故障识别模型内的模型参数，即是对故障识别模型进行训练。需要说明的是，服务器将u组训练样本中每一组训练样本依次输入故障识别模型，对应循环执行u次步骤502至步骤504，对故障识别模型进行训练，最终得到训练后的故障识别模型。

综上所述，本实施例提供的故障识别模型的训练方法，通过采集多样的训练样本对故障识别模型进行训练，从而训练出能够基于监控数据准确地确定出后台服务器接口的工作状态的故障识别模型。

请参考图6，示出了本申请一个示例性实施例提供的接口故障的报警方法的流程图，该方法应用于如图1所示的服务器中，该方法包括：

步骤601，开始。

步骤602，从数据库中读取监控数据。

上述监控数据是由后台服务器中设置的监控agent采集的后台服务器接口的工作数据；上述监控agent采集到监控数据之后上报服务器，由服务器存储至数据库中。在按照检测周期后台服务器接口进行工作状态监控的过程中，服务器从数据库中获取目标时间段内的监控数据，以通过监控数据确定后台服务器接口的工作状态。

步骤603，基于监控数据确定后台服务器接口的工作状态。

服务器分析监控数据得到后台服务器接口的工作状态；可选地，该工作状态包括请求掉底与接口无故障。示例性的，服务器根据监控数据计算后台服务器接口在目标时间段内的被请求频率，若上述被请求频率小于或者等于频率阈值，则确定工作状态为请求掉底；若上述被请求频率大于频率阈值，则确定工作状态为接口无故障。

步骤604，判断工作状态是否为请求掉底。

若确定工作状态为请求掉底，服务器执行步骤605；若确定工作状态为接口无故障，服务器从步骤602开始重新执行本实施提供的接口故障的报警方法的流程。

步骤605，执行测试用例，得到对后台服务器接口的测试结果。

服务器执行后台服务器接口对应的测试用例，以对后台服务器接口进行故障测试，最终得到对后台服务器接口的测试结果；其中，该测试结果为接口故障或者接口无故障。

步骤606，判断测试结果是否为接口故障。

若确定测试结果为接口故障，服务器执行步骤607；若确定测试结果为接口无故障，服务器确定后台服务器接口的工作状态为小流量场景下的请求掉底，且从步骤602开始重新执行本实施提供的接口故障的报警方法的流程。

步骤607，发出报警。

步骤608，结束。

综上所述，本实施例提供的接口故障的报警方法，通过在后台服务器中设置的监控代理采集监控数据，对监控数据进行分析，得出后台服务器接口的工作状态；若工作状态为请求掉底，则执行该后台服务器接口的测试用例，通过测试用例来测试后台服务器接口是否为故障；若执行测试用例的测试结果为接口故障，则发出警报；若执行测试用例的测试结果为接口无故障，则确定后台服务器接口的工作状态为小流量场景下的请求掉底，并非是接口故障导致的请求掉底。该方法在发现后台服务器请求掉底时，执行测试用例对后台服务器接口进行测试，从而得到准确的测试结果：接口故障或者接口无故障；那么，在小流量的场景下，若在一段时间内调用后台服务器接口传输用户请求出现请求掉底的情况，服务器也不会存在将上述小流量场景导致的请求掉底定位为接口故障导致的请求掉底，避免了对后台服务器接口的工作状态的误判。

请参考图7，示出了本申请一个示例性实施例提供的接口故障的报警系统，该系统包括：报警装置710和故障检测装置720；

报警装置710，用于从数据库中获取目标时间段内的监控数据，所述监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据；对所述监控数据进行分析运算，确定所述后台服务器接口的工作状态；

故障检测装置720，用于响应于报警装置710得到的工作状态为请求掉底，执行后台服务器接口的测试用例，请求掉底是指在目标时间段内后台服务器接口的被请求频率低于频率阈值；

报警装置710，用于响应于故障检测装置执行测试用例的测试结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于故障检测装置执行测试用例的测试结果为接口故障，发出警报。

在一些实施例中，如图8所示，故障检测装置720包括：控制器721、用例推荐模块722、用例管理模块723、执行器724和数据库725；

控制器721，用于在工作状态为请求掉底时，调度用例推荐模块722从用例管理模块723中获取后台服务器接口的接口标识对应的标识列表，标识列表包括后台服务器接口的n个测试用例对应的n个用例标识，n为正整数；

控制器721，还用于调度执行器724按照标识列表中的n用例标识依次执行数据库725中的n个测试用例。

在一些实施例中，执行器724，用于按照指定周期以串行方式间隔执行n个用例标识对应的数据库725中的n个测试用例。

在一些实施例中，n个测试用例对应n个测试结果；

报警装置710，用于响应于控制器721返回的n个测试结果均为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于控制器721返回的n个测试结果中存在m个测试结果为接口故障，发出警报，m为小于或者等于n的正整数。

在一些实施例中，报警装置710，用于根据监控数据计算后台服务器接口在目标时间段内后台服务器接口的被请求频率；响应于被请求频率小于频率阈值，确定工作状态为请求掉底；

或，响应于检测到监控数据中存在第一指定错误码，确定工作状态为请求掉底。

在一些实施例中，该系统还包括：故障识别装置730；

故障识别装置730，用于在工作状态为请求掉底时，调用故障识别模型对监控数据进行识别，得到识别结果；故障识别模型是用于对后台服务器接口进行接口故障识别的机器学习模型；

报警装置710，还用于响应于识别结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于识别结果为接口故障，发出警报。

综上所述，本实施例提供的接口故障的报警系统，通过在后台服务器中设置的监控代理采集目标时间段内的监控数据，对监控数据进行分析运算，确定后台服务器接口的工作状态；若工作状态为请求掉底，则执行该后台服务器接口的测试用例，通过测试用例来测试后台服务器接口是否为故障；若执行测试用例的测试结果为接口故障，则发出警报；若执行测试用例的测试结果为接口无故障，则确定后台服务器接口的工作状态为小流量场景下的请求掉底，也就是说，并非是接口故障导致的请求掉底。该系统能够对导致请求掉底的原因做出准确的判断，那么，在小流量的场景下，若在一段时间内调用后台服务器接口传输用户请求出现请求掉底的情况，也不会被认定是接口故障导致的，避免了对后台服务器接口的工作状态的误判。

请参考图9，示出了本申请一个示例性实施例提供的接口故障的报警装置的框图，该装置通过软件、硬件或者二者的结合实现成为服务器的部分或者全部，该装置包括：

获取模块810，用于从数据库中获取目标时间段内的监控数据，监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据；

分析模块820，用于对监控数据进行分析运算，确定后台服务器接口的工作状态；

执行模块830，用于响应于工作状态为请求掉底，执行后台服务器接口的测试用例，请求掉底是指在目标时间段内后台服务器接口的被请求频率低于频率阈值；

报警模块840，用于响应于执行测试用例的测试结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于执行测试用例的测试结果为接口故障，发出警报。

在一些实施例中，执行模块830，包括：

获取子模块831，用于在工作状态为请求掉底时，获取后台服务器接口的接口标识对应的标识列表，标识列表包括后台服务器接口的n个测试用例对应的n个用例标识，n为正整数；

执行子模块832，用于按照标识列表中的n个用例标识依次执行n个测试用例。

在一些实施例中，执行子模块832，用于按照指定周期以串行方式间隔执行n个用例标识对应的n个测试用例。

在一些实施例中，n个测试用例对应n个测试结果；

报警模块840，用于响应于n个测试结果均为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于n个测试结果中存在m个测试结果为接口故障，发出警报，m为小于或者等于n的正整数。

在一些实施例中，分析模块820，包括：

计算子模块821，用于根据监控数据计算后台服务器接口在目标时间段内后台服务器接口的被请求频率；确定子模块822，用于响应于被请求频率小于频率阈值，确定工作状态为请求掉底；

或者，确定子模块822，用于响应于检测到监控数据中存在第一指定错误码，确定工作状态为请求掉底。

在一些实施例中，该装置还包括：

识别模块850，用于响应于工作状态为请求掉底，调用故障识别模型对监控数据进行识别，得到识别结果；故障识别模型是用于对后台服务器接口进行接口故障识别的机器学习模型；

报警模块840，用于响应于识别结果为接口无故障，确定后台服务器接口的工作状态为小流量场景下的请求掉底；响应于识别结果为接口故障，发出警报。

综上所述，本实施例提供的接口故障的报警装置，通过在后台服务器中设置的监控代理采集目标时间段内的监控数据，对监控数据进行分析运算，确定后台服务器接口的工作状态；若工作状态为请求掉底，则执行该后台服务器接口的测试用例，通过测试用例来测试后台服务器接口是否为故障；若执行测试用例的测试结果为接口故障，则发出警报；若执行测试用例的测试结果为接口无故障，则确定后台服务器接口的工作状态为小流量场景下的请求掉底，也就是说，并非是接口故障导致的请求掉底。该装置能够对导致请求掉底的原因做出准确的判断，那么，在小流量的场景下，若在一段时间内调用后台服务器接口传输用户请求出现请求掉底的情况，也不会被认定是接口故障导致的，避免了对后台服务器接口的工作状态的误判。

请参考图10，示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的接口故障的报警方法的步骤。具体来讲：

所述服务器900包括CPU(Central Processing Unit，中央处理器)901、包括RAM(Random Access Memory，随机存取存储器)902和ROM(Read-Only Memory，只读存储器)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output，输入/输出)系统906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存(Flash Memory)或其他固态存储其技术，CD-ROM、DVD(Digital VersatileDisc，数字通用光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本申请的各种实施例，所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本申请还提供了一种计算机程序产品，上述计算机程序产品由处理器加载并执行以实现如上一个方面及其可选实施例所述的接口故障的报警方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种接口故障的报警方法，其特征在于，所述方法包括：

从数据库中获取目标时间段内的监控数据，所述监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据；

对所述监控数据进行分析运算，确定所述后台服务器接口的工作状态；

响应于所述工作状态为请求掉底，执行所述后台服务器接口的测试用例，所述请求掉底是指在所述目标时间段内所述后台服务器接口的被请求频率低于频率阈值；

响应于执行所述测试用例的测试结果为接口无故障，确定所述后台服务器接口的工作状态为小流量场景下的请求掉底；响应于执行所述测试用例的测试结果为接口故障，发出警报。

2.根据权利要求1所述的方法，其特征在于，所述执行所述后台服务器接口的测试用例，包括：

获取所述后台服务器接口的接口标识对应的标识列表，所述标识列表包括所述后台服务器接口的n个测试用例对应的n个用例标识，n为正整数；

按照所述标识列表中的所述n个用例标识依次执行所述n个测试用例。

3.根据权利要求2所述的方法，其特征在于，所述按照所述标识列表中的所述n个用例标识依次执行所述n个测试用例，包括：

按照指定周期以串行方式间隔执行所述n个用例标识对应的所述n个所述测试用例。

4.根据权利要求2或3所述的方法，其特征在于，所述n个所述测试用例对应n个测试结果；

所述响应于执行所述测试用例的测试结果为接口无故障，继续监控所述后台服务器接口；响应于执行所述测试用例的测试结果为接口故障，发出警报，包括：

响应于所述n个测试结果均为所述接口无故障，确定所述后台服务器接口的工作状态为所述小流量场景下的请求掉底；

响应于所述n个测试结果中存在m个测试结果为所述接口故障，发出警报，m为小于或者等于n的正整数。

5.根据权利要求1至3任一所述的方法，其特征在于，所述对所述监控数据进行分析运算，确定所述后台服务器接口的工作状态，包括：

根据所述监控数据计算所述后台服务器接口在所述目标时间段内所述后台服务器接口的所述被请求频率；响应于所述被请求频率小于所述频率阈值，确定所述工作状态为所述请求掉底；

或，

响应于检测到所述监控数据中存在第一指定错误码，确定所述工作状态为所述请求掉底。

6.一种接口故障的报警系统，其特征在于，所述系统包括：报警装置和故障检测装置；

所述报警装置，用于从数据库中获取目标时间段内的监控数据，所述监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据；对所述监控数据进行分析运算，确定所述后台服务器接口的工作状态；

所述故障检测装置，用于响应于所述报警装置得到的所述工作状态为请求掉底，执行所述后台服务器接口的测试用例，所述请求掉底是指在所述目标时间段内所述后台服务器接口的被请求频率低于频率阈值；

所述报警装置，用于响应于所述故障检测装置执行所述测试用例的测试结果为接口无故障，确定所述后台服务器接口的工作状态为小流量场景下的请求掉底；响应于所述故障检测装置执行所述测试用例的测试结果为接口故障，发出警报。

7.根据权利要求6所述的系统，其特征在于，所述故障检测装置包括：控制器、用例推荐模块、用例管理模块、执行器和数据库；

所述控制器，用于在所述工作状态为所述请求掉底时，调度所述用例推荐模块从所述用例管理模块中获取所述后台服务器接口的接口标识对应的标识列表，所述标识列表包括所述后台服务器接口的n个测试用例对应的n个用例标识，n为正整数；

所述控制器，还用于调度所述执行器按照所述标识列表中的所述n用例标识依次执行所述数据库中的所述n个测试用例。

8.一种接口故障的报警装置，其特征在于，所述装置包括：

获取模块，用于从数据库中获取目标时间段内的监控数据，所述监控数据是由后台服务器中设置的监控代理采集的后台服务器接口的工作数据；

分析模块，用于对所述监控数据进行分析运算，确定所述后台服务器接口的工作状态；

执行模块，用于响应于所述工作状态为请求掉底，执行所述后台服务器接口的测试用例，所述请求掉底是指在所述目标时间段内所述后台服务器接口的被请求频率低于频率阈值；

报警模块，用于响应于执行所述测试用例的测试结果为接口无故障，确定所述后台服务器接口的工作状态为小流量场景下的请求掉底；响应于执行所述测试用例的测试结果为接口故障，发出警报。

9.一种电子设备，其特征在于，所述电子设备包括：

存储器；

与所述存储器相连的处理器；

其中，所述处理器被配置为加载并执行可执行指令以实现如权利要求1至5任一所述的接口故障的报警方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集；所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至5任一所述的接口故障的报警方法。