CN107729210B

CN107729210B - 分布式服务集群的异常诊断方法和装置

Info

Publication number: CN107729210B
Application number: CN201710911699.0A
Authority: CN
Inventors: 田�健; 杨阔; 王仁达; 覃安; 齐志宏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2020-09-25
Anticipated expiration: 2037-09-29
Also published as: CN107729210A

Abstract

本发明提出一种分布式服务集群的异常诊断方法和装置，其中，方法包括：实时监测每个服务节点的敏感日志，从敏感日志中提取关键信息，从关键信息中提取服务节点当前所执行的第一请求的标识码；根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图；根据标识码和服务拓扑图，获取第一请求的全链路信息；根据全链路信息识别请求所隶属的服务类型；根据全链路信息中每个服务节点的关键信息和服务类型，对第一请求进行异常诊断，得到诊断结果。该方法能够实现无需对所有的日志进行侵入式收集，仅通过监测敏感日志，在保证准全量信息诊断的同时，还可以保证系统的低开销。此外，通过实时监测敏感日志，可以实现问题诊断的实时性和全面性。

Description

分布式服务集群的异常诊断方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种分布式服务集群的异常诊断方法和装置。

背景技术

在互联网技术的飞速发展过程中，通过分布式服务集群化部署抵挡互联网服务业务量的快速增长的冲击，即将大量的服务节点进行功能的整合和拆分，以满足大量的业务使用。由于分布式服务集群化部署的规模较大、各个服务节点间访问链路较长，以及问题诊断的方式较为复杂，因此，对于分布式服务集群进行快速且实时的问题诊断显得尤为重要。

目前应用成熟的分布式服务集群的异常诊断系统主要为Google的Dapper系统以及Twitter的Zipkin系统。对于日益增加的异构系统的复杂性而言，Dapper和Zipkin系统，一方面，需要进行侵入式的日志收集，而后对接入的服务做对应的代码修改才能生效，这对于成熟且运行长久的分布式服务集群而言，成本太高；另一方面，通过对采样数据进行过滤，虽然对于大规模问题诊断而言，十分有效，但却难以发现低概率的错误，可能导致对问题跟踪的疏漏。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种分布式服务集群的异常诊断方法，以实现无需对所有的日志进行侵入式收集，仅通过监测敏感日志，在保证准全量信息诊断的同时，还可以保证系统的低开销。此外，通过实时监测敏感日志，可以实现问题诊断的实时性，以及问题诊断的全面性，用于解决现有对于日益增加的异构系统的复杂性而言，Dapper和Zipkin系统，一方面，需要进行侵入式的日志收集，而后对接入的服务做对应的代码修改才能生效，这对于成熟且运行长久的分布式服务集群而言，成本太高的技术问题；另一方面，通过对采样数据进行过滤，虽然对于大规模问题诊断而言，十分有效，但却难以发现低概率的错误，可能导致对问题跟踪的疏漏。

本发明的第二个目的在于提出一种分布式服务集群的异常诊断装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机程序产品。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种分布式服务集群的异常诊断方法，包括：

实时监测每个服务节点的敏感日志，从所述敏感日志中提取关键信息，从所述关键信息中提取所述服务节点当前所执行的第一请求的标识码；

根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图；

根据所述标识码和所述服务拓扑图，获取所述第一请求的全链路信息；其中，所述全链路信息中包括处理所述第一请求所需的所述服务节点以及所述服务节点之间的调用关系；

根据所述全链路信息识别所述第一请求所隶属的服务类型；

根据所述全链路信息中每个服务节点的所述关键信息和所述服务类型，对所述第一请求进行异常诊断，得到诊断结果。

本发明实施例的分布式服务集群的异常诊断方法，通过实时监测每个服务节点的敏感日志，从敏感日志中提取关键信息，从关键信息中提取服务节点当前所执行的第一请求的标识码；根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图；根据标识码和服务拓扑图，获取第一请求的全链路信息；根据全链路信息识别第一请求所隶属的服务类型；根据全链路信息中每个服务节点的关键信息和服务类型，对第一请求进行异常诊断，得到诊断结果。本实施例中，无需对所有的日志进行侵入式收集，仅通过监测敏感日志，在保证准全量信息诊断的同时，还可以保证系统的低开销。此外，通过实时监测敏感日志，可以实现问题诊断的实时性，以及问题诊断的全面性。

为达上述目的，本发明第二方面实施例提出了一种分布式服务集群的异常诊断装置，包括：

信息提取模块，用于实时监测每个服务节点的敏感日志，从所述敏感日志中提取关键信息，从所述关键信息中提取所述服务节点当前所执行的第一请求的标识码；

调度管理模块，用于根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图，根据所述标识码和所述服务拓扑图，获取所述第一请求的全链路信息；其中，所述全链路信息中包括处理所述第一请求所需的所述服务节点以及所述服务节点之间的调用关系；

诊断模块，用于根据所述全链路信息识别所述第一请求所隶属的服务类型，以及根据所述全链路信息中每个服务节点的所述关键信息和所述服务类型，对所述第一请求进行异常诊断，得到诊断结果。

本发明实施例的分布式服务集群的异常诊断装置，通过实时监测每个服务节点的敏感日志，从敏感日志中提取关键信息，从关键信息中提取服务节点当前所执行的第一请求的标识码；根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图；根据标识码和服务拓扑图，获取第一请求的全链路信息；根据全链路信息识别第一请求所隶属的服务类型；根据全链路信息中每个服务节点的关键信息和服务类型，对第一请求进行异常诊断，得到诊断结果。本实施例中，无需对所有的日志进行侵入式收集，仅通过监测敏感日志，在保证准全量信息诊断的同时，还可以保证系统的低开销。此外，通过实时监测敏感日志，可以实现问题诊断的实时性，以及问题诊断的全面性。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本发明第一方面实施例提出的分布式服务集群的异常诊断方法。

为了实现上述目的，本发明第四方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如本发明第一方面实施例提出的分布式服务集群的异常诊断方法。

为了实现上述目的，本发明第五方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明第一方面实施例提出的分布式服务集群的异常诊断方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的第一种分布式服务集群的异常诊断方法的流程示意图；

图2为本发明实施例所提供的服务拓扑图的示意图；

图3为本发明实施例所提供的第二种分布式服务集群的异常诊断方法的流程示意图；

图4为本发明实施例所提供的第三种分布式服务集群的异常诊断方法的流程示意图；

图5为本发明实施例所提供的第四种分布式服务集群的异常诊断方法的流程示意图；

图6为本发明实施例所提供的第五种分布式服务集群的异常诊断方法的流程示意图；

图7为本发明实施例所提供的一种分布式服务集群的异常诊断装置的结构示意图；

图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的分布式服务集群的异常诊断方法和装置。

图1为本发明实施例所提供的第一种分布式服务集群的异常诊断方法的流程示意图。

如图1所示，该分布式服务集群的异常诊断方法包括以下步骤：

步骤101，实时监测每个服务节点的敏感日志，从敏感日志中提取关键信息，从关键信息中提取服务节点当前所执行的第一请求的标识码。

本发明实施例中，关键信息为敏感日志中的关键字，第一请求的标识码用于唯一标识该第一请求。

对于分布式服务集群中的服务节点，在执行不同的请求过程中会打印大量的日志文件，对于诊断而言，分布式服务集群系统只需提取对诊断有帮助的日志文件，即异常日志，从而提高系统的处理效率。本实施例中，敏感日志即为上述异常日志。

由于分布式服务集群系统中存在大量异构的服务节点，不同的服务节点的敏感日志的提取规则不同。因此，本实施例中，可以预先设置每个服务节点的配置信息，该配置信息中有对异常日志的提取规则的描述信息。其中，每个服务节点的配置信息可以为可扩展的，当提取规则改变时，只需修改每个服务节点的配置信息，提高了系统的灵活性，免去二次开发的成本。

本实施例中，可以根据每个服务节点的配置信息，监测该服务节点的敏感日志。具体地，可以监控每个服务节点所有的日志文件，在匹配到配置信息中的提取规则的日志文件时，该匹配中的日志文件即为敏感日志。

需要说明的是，由于分布式服务集群系统中存在大量异构的服务节点，对于监测到的敏感日志，系统无法直接识别，因此，敏感日志无法直接用于异常诊断。本实施例中，可以对敏感日志进行解析处理，即对其进行格式化处理，使解析后的敏感日志变为系统可识别的结构化信息，从而可以用于系统的异常诊断。可选地，可以利用现有技术对敏感日志进行关键信息提取，而后可以利用正则表达式等技术，对关键信息进行结构化处理，得到结构化信息。

由于每个服务节点可以执行不同的请求，因此，本实施例中，为了区别每个请求，每个请求中可以包含该请求唯一的标识码。具体实现时，可以从结构化信息中提取服务节点当前所执行的第一请求的标识码。

步骤102，根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图。

对于分布式服务集群中的任一服务节点，可以利用服务发现规则查找该服务节点的地址信息，其中，地址信息包括服务节点的IP地址和端口号，而后，可以根据该服务节点的IP地址和端口号在分布式服务集群中进行轮询匹配，获取该服务节点的上下游服务节点。进而可以根据每个服务节点的上下游服务节点，形成分布式服务集群的服务拓扑图。其中，服务拓扑图中包括服务节点之间的调用关系。

举例说明，分布式服务器集群中包括有5个服务节点，分别为服务节点A、服务节点B、服务节点C、服务节点D和服务节点E。根据每个服务节点的IP地址和端口号进行轮询匹配后，可以形成一个包括服务节点之间调用关系的服务拓扑图，如图2所示。

本发明实施例中，当分布式服务集群中的服务节点发生变更时，分布式服务集群的服务拓扑图也随之改变，可以根据每个服务节点的IP地址和端口号在分布式服务集群中进行轮询匹配，获取每个服务节点的上下游服务节点。进而可以根据每个节点的上下游服务节点，更新分布式服务集群的服务拓扑图，以实现对分布式服务集群的服务拓扑图的动态维护和变更。

步骤103，根据标识码和服务拓扑图，获取第一请求的全链路信息；其中，全链路信息中包括处理第一请求所需的服务节点以及服务节点之间的调用关系。

对于分布式集群系统的服务而言，处理一次请求可能调用多个服务节点。因此，本实施例中，当提取服务节点当前所执行的第一请求的标识码后，可以获取处理第一请求所需的服务节点以及服务节点之间的调用关系，即获取该第一请求的全链路信息。可以理解的是，对于不同的请求而言，处理不同的请求所需的服务节点以及服务节点之间的调用关系可以相同或者不同，因此，不同的请求对应的全链路信息可以相同或者不同。

具体地，可以根据第一请求的标识码与服务拓扑图，获取该第一请求的全链路信息，其中，全链路信息中包括处理第一请求所需的服务节点以及服务节点之间的调用关系。

以图2为例，全链路信息中包括的服务节点A、B、C、D、E，调用关系为：服务节点C调用服务节点B，服务节点B调用服务节点D，服务节点D调用服务节点E。

步骤104，根据全链路信息识别第一请求所隶属的服务类型。

本发明实施例中，全链路信息中包括多个服务节点，例如可以将全链路中的服务节点命名为服务节点A、B、C、D、E等。对于不同的请求而言，每个请求对应一个全链路信息，多个请求可以隶属于同一个服务类型。

可选地，可以根据每个请求对应的全链路信息识别该请求所隶属的服务类型。

本实施例中，还可以将隶属于同一服务类型的不同的请求所对应的每个服务节点的关键信息进行归纳处理，而后统一进行诊断，提高系统的处理效率。

步骤105，根据全链路信息中每个服务节点的关键信息和服务类型，对第一请求进行异常诊断，得到诊断结果。

本发明实施例中，可以预先针对不同的服务类型，设置不同的诊断策略，从而在确定全链路信息中每个服务节点的服务类型后，可以获取与服务类型匹配的诊断策略，从而可以基于诊断策略对全链路信息中每个服务节点的关键信息进行诊断，得到诊断结果。

本实施例的分布式服务集群的异常诊断方法，通过实时监测每个服务节点的敏感日志，从敏感日志中提取关键信息，从关键信息中提取服务节点当前所执行的第一请求的标识码；根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图；根据标识码和服务拓扑图，获取第一请求的全链路信息；根据全链路信息识别第一请求所隶属的服务类型；根据全链路信息中每个服务节点的关键信息和服务类型，对第一请求进行异常诊断，得到诊断结果。本实施例中，无需对所有的日志进行侵入式收集，仅通过监测敏感日志，在保证准全量信息诊断的同时，还可以保证系统的低开销。此外，通过实时监测敏感日志，可以实现问题诊断的实时性，以及问题诊断的全面性。

作为本发明实施例的一种可能的实现方式，参见图3，在图1所示实施例的基础上，步骤105具体可以包括以下子步骤：

步骤201，获取全链路信息中每个服务节点的关键信息。

本发明实施例中，可以预先为每个标识码建立对应的存储空间，而后将每个服务节点的关键信息存储到该服务节点的标识码所对应的存储空间中。具体实现时，可以获取全链路信息中服务节点的标识码，而后根据标识码查询到存储空间，从存储空间获取到每个服务节点的关键信息，易于实现且操作简单。

步骤202，对所有的关键信息进行特征提取，利用提取出的特征构成特征集合。

可选地，关键信息中可以包括多个关键字，对所有的关键信息进行特征提取，例如可以通过0和1表征关键信息中的关键字是否出现，当关键字出现时，可以通过1进行表征，而当关键字未出现时，可以通过0进行表征，因此，上述0或1即为关键信息中关键字的特征。进而可以利用关键信息中所有的关键字的特征构成特征集合。

作为一种示例，关键信息中包括的关键字为：A、B、C、D、E、F、G，当关键信息中的A、B、D、E、F出现，而C和G未出现时，利用提取出的特征构成的特征集合为{1，1，0，1，1，1，0}。

步骤203，获取与服务类型匹配的诊断策略。

本发明实施例中，诊断策略可以包括人工规则、机器学习规则等。其中，人工规则为根据人工经验标注特征集合中的数字向量值为何种问题，机器学习规则根据最终服务的质量和异常日志文件的特征集合进行机器学习，自动捕获请求中的异常，并得到诊断结果。

本实施例中，诊断策略可以根据具体的服务特性进行定制，并通过配置生效。

可选地，可以预先针对不同的服务类型，设置不同的诊断策略，从而在确定全链路信息中每个服务节点的服务类型后，可以获取与服务类型匹配的诊断策略。

步骤204，基于诊断策略对特征集合进行诊断，得到诊断结果。

本实施例中，基于诊断策略对特征集合进行诊断，可以得到诊断结果。例如，当诊断策略为人工规则时，可以基于人工规则对特征集合进行诊断，得到诊断结果。或者，当诊断策略为机器学习规则时，可以基于机器学习规则对特征集合进行诊断，得到诊断结果。而对于未能匹配到诊断策略的敏感日志，即无法准确诊断的异常日志，可以将其进行人工干预补充或者训练。

本实施例的分布式服务集群的异常诊断方法，通过获取全链路信息中每个服务节点的关键信息，对所有的关键信息进行特征提取，利用提取出的特征构成特征集合，获取与服务类型匹配的诊断策略，基于诊断策略对特征集合进行诊断，得到诊断结果。本实施例中，由于诊断策略可以根据具体的服务特性进行定制，并通过配置生效，可以免去二次开发的成本。

为了清楚说明上一实施例，参见图4，在图1所示实施例的基础上，步骤101具体包括以下子步骤：

步骤301，根据服务节点的配置信息，在当前监测周期内实时监测服务节点的敏感日志。

本发明实施例中，为了提升请求异常诊断的效率，可以周期性地对每个服务节点的敏感日志进行监测。

由于分布式服务集群系统中存在大量异构的服务节点，不同的服务节点的敏感日志的提取规则不同。因此，本实施例中，可以预先设置每个服务节点的配置信息，该配置信息中有对异常日志的提取规则的描述信息。其中，每个服务节点的配置信息可以为可扩展的，当提取规则改变时，只需修改每个服务节点的配置信息，提高了系统的灵活性。

实际应用时，可以根据每个服务节点的配置信息，在当前监测周期内实时监测服务节点的敏感日志。具体地，可以在当前监测周期内对实时监控每个服务节点所有的日志文件，在匹配到配置信息中的提取规则的日志文件时，该匹配中的日志文件即为敏感日志。

步骤302，统计在当前监测周期内所监测到的敏感日志的数量。

本实施例中，可以统计当前监测周期内所监测到的敏感日志的数量，例如标记为N。

步骤303，如果数量超出预设的阈值，则在当前监测周期内暂停对敏感日志的监测。

出于对分布式服务集群系统的低开销以及配置容错的考虑，本发明实施例中，可以设置系统最大所能监测的敏感日志的数量。系统最大所能监测的敏感日志的数量，本实施例中记为预设的阈值，例如标记阈值为M。

可选地，在数量未超出阈值时，即N≤M，表明在当前监测周期内所监测到的敏感日志的数量未超出系统所能承受的最大值，此时，可以在当前监测周期内继续对敏感日志进行监测。而当数量超出预设的阈值时，即N>M时，表明在当前监测周期内所监测到的敏感日志的数量超出系统所能承受的最大值，因此，可以在当前监测周期内暂停对敏感日志的监测，从而可以实现对大量敏感日志进行限流处理，避免因敏感日志的数量过大，而造成系统和网络的额外开销。

步骤304，从敏感日志中提取关键信息。

由于分布式服务集群系统中存在大量异构的服务节点，对于监测到的敏感日志，系统无法直接识别，因此，敏感日志无法直接用于异常诊断。本实施例中，可以对敏感日志进行解析处理，即对其进行格式化处理，使解析后的敏感日志变为系统可识别的结构化信息，从而可以用于系统的异常诊断。

可选地，可以利用现有的相关技术从敏感日志中提取关键信息。

步骤305，利用正则表达式对关键信息进行结构化处理，得到结构化信息。

在提取到关键信息后，可以利用正则表达式对关键信息进行结构化处理，得到结构化信息，从而可以用于系统的异常诊断。

步骤306，从结构化信息中提取服务节点所对应的标识码。

由于每个服务节点可以执行不同的请求，因此，本实施例中，为了区别每个请求，每个请求中可以包含该请求唯一的标识码。具体实现时，可以从结构化信息中提取服务节点所对应的标识码。

本实施例的分布式服务集群的异常诊断方法，通过在当前监测周期内所监测到的敏感日志的数量超出预设的阈值时，在当前监测周期内暂停对敏感日志的监测，可以实现对大量敏感日志进行限流处理，避免因敏感日志的数量过大，而造成系统和网络的额外开销。此外，通过从敏感日志中提取关键信息，利用正则表达式对关键信息进行结构化处理，得到结构化信息，从结构化信息中提取服务节点所对应的标识码。由此，可以使得提取的敏感日志变为从结构化信息中提取服务节点所对应的标识码。

进一步地，为了降低对网络资源的消耗，本实施例中，从敏感日志中提取出关键信息后，不会立即回传关键信息，可以将关键信息缓存在本地，从而当满足特定条件时，可以将缓存的关键信息发送到与标识码对应的存储空间中，便于对相同的关键信息进行合并处理，减少网络的传输规模，降低对网络的资源消耗。下面结合图5，对上述过程进行详细说明。

图5为本发明实施例所提供的第四种分布式服务集群的异常诊断方法的流程示意图。

参见图5，该分布式服务集群的异常诊断方法还可以包括以下步骤：

步骤401，统计当前所提取出的关键信息的数据量。

可选地，统计当前所提取出的关键信息的数据量，例如标记为I。

步骤402，如果数据量未到达数据量阈值，则将提取出的关键信息缓存在服务节点上。

本实施例中，可以设置系统所能回传的关键信息的数据量阈值，例如标记数据量阈值为J。

在数据量未到达数据量阈值时，即I≤J，表明当前监测周期内所提取出的关键信息的数据量未超出系统所能承受的最大值，此时，可以将提取出的关键信息缓存在服务节点上，以便对相同的关键信息进行合并处理，减少网络的传输规模，降低对网络的消耗。

步骤403，在到达数据量阈值或者到达监测周期后，将缓存的关键信息发送到与标识码对应的存储空间中。

在数据量到达数据量阈值时，即I>J，表明当前监测周期内所提取出的关键信息的数据量超出系统所能承受的最大值，此时，可以将缓存的关键信息发送到与标识码对应的存储空间中。或者，当到达监测周期后，在当前监测周期内无需继续对敏感日志进行监测，此时，可以将缓存的关键信息发送到与标识码对应的存储空间中，以将合并处理后的关键信息发送至与标识码对应的存储空间中，从而实现将合并处理后的关键信息发送到与标识码对应的存储空间中，减少网络的传输规模。

本实施例的分布式服务集群的异常诊断方法，通过在当前所提取出的关键信息的数据量未到达数据量阈值时，将提取出的关键信息缓存在服务节点上，在到达数据量阈值或者到达监测周期后，将缓存的关键信息发送到与标识码对应的存储空间中，以便对相同的关键信息进行合并处理，减少网络的传输规模，降低对网络的消耗。

本实施例中，可以预先对不同的异常原因进行问题分类，具体地，可以预先建立一个标识码列表，其中，标识码列表中的不同的标识码所属的问题的类别不同。而后可以根据标识码，将敏感日志中的关键信息进行分类处理。具体地，在标识码存在于所述标识码列表中时，将关键信息存储到标识码对应的存储空间中，从而实现对属于同一问题类别的敏感日志中的关键信息存储至同一空间，进行合并处理，从而后续可以进行一起诊断，提升系统的诊断效率。下面结合图6，对上述过程进行详细说明。

图6为本发明实施例所提供的第五种分布式服务集群的异常诊断方法的流程示意图。

如图6所示，在步骤101后，该分布式服务集群的异常诊断方法还可以包括以下步骤：

步骤501，将标识码与预设的标识码列表进行比较。

本发明实施例中，可以预先对不同的异常原因进行问题分类，具体地，可以预先建立一个标识码列表，其中，标识码列表中的不同的标识码所属的类别不同。

本发明实施例中，可以将标识码与预设的标识码列表进行比较，以判断该标识码是否存在于标识码列表中。

步骤502，判断标识码是否存在于标识码列表中，若是，执行步骤503，否则，执行步骤504。

步骤503，将服务节点的关键信息存储到标识码对应的存储空间中；其中，具有相同标识码的服务节点的关键信息存储在同一存储空间中。

当服务节点当前所执行的第一请求的标识码存在于标识码列表时，表明第一请求所属的异常原因与标识码列表中的匹配的标识码所属的类别相同，因此，可以将服务节点的关键信息存储到该匹配的标识码对应的存储空间中，从而可以实现将相同标识码的服务节点的关键信息存储在同一存储空间中，进而可以实现对属于同一问题类别的敏感日志中的关键信息存储至同一空间，进行合并处理，从而后续可以进行一起诊断，提升系统的诊断效率。

步骤504，在标识码列表中增加标识码。

当服务节点当前所执行的第一请求的标识码未存在于标识码列表时，可以在标识码列表中增加标识码，即新建一个问题类别。

步骤505，增加与标识码对应的存储空间，将服务节点的关键信息存储到增加的存储空间中。

在标识码列表中增加标识码后，可以增加与标识码对应的存储空间，而后将服务节点的关键信息存储到增加的存储空间中，从而可以便于后续将相同标识码的服务节点的关键信息存储在同一存储空间中，进而实现对属于同一问题类别的敏感日志中的关键信息存储至同一空间，进行合并处理，从而后续可以进行一起诊断，提升系统的诊断效率。

本实施例的分布式服务集群的异常诊断方法，通过当服务节点当前所执行的第一请求的标识码存在于标识码列表时，当服务节点当前所执行的第一请求的标识码存在于标识码列表时，而在标识码未存在于标识码列表时，在标识码列表中增加标识码，而后增加与标识码对应的存储空间，将服务节点的关键信息存储到增加的存储空间中。由此，可以实现对属于同一问题类别的敏感日志中的关键信息存储至同一空间，进行合并处理，从而后续可以进行一起诊断，提升系统的诊断效率。

为了实现上述实施例，本发明还提出一种分布式服务集群的异常诊断装置。

图7为本发明实施例提供的一种分布式服务集群的异常诊断装置的结构示意图。

如图7所示，该分布式服务集群的异常诊断装置700包括：信息提取模块710、调度管理模块720，以及诊断模块730。其中，

分布式服务集群中包括多个服务节点，本实施例中以服务节点1、2，…，N示例，N为服务节点的个数。

信息提取模块710，用于实时监测每个服务节点的敏感日志，从敏感日志中提取关键信息，从关键信息中提取服务节点当前所执行的第一请求的标识码。

本发明实施例中，信息提取模块710，具体用于根据服务节点的配置信息，在当前监测周期内实时监测服务节点的敏感日志；统计在当前监测周期内所监测到的敏感日志的数量；如果数量超出预设的阈值，则在当前监测周期内暂停对敏感日志的监测；从敏感日志中提取关键信息；统计当前所提取出的关键信息的数据量；如果数据量未到达数据量阈值，则将提取出的关键信息缓存在服务节点上；在到达数据量阈值或者到达监测周期后，将缓存的关键信息发送到与标识码对应的存储空间中；利用正则表达式对关键信息进行结构化处理，得到结构化信息；从结构化信息中提取服务节点所对应的标识码。

可选地，信息提取模块710，还用于将标识码与预设的标识码列表进行比较；如果标识码存在于标识码列表中，将服务节点的关键信息存储到标识码对应的存储空间中；其中，具有相同标识码的服务节点的关键信息存储在同一存储空间中；如果标识码未存在于标识码列表中，则在标识码列表中增加标识码；增加与标识码对应的存储空间，将服务节点的关键信息存储到增加的存储空间中。

调度管理模块720，用于根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图，根据标识码和服务拓扑图，获取第一请求的全链路信息；其中，全链路信息中包括处理第一请求所需的服务节点以及服务节点之间的调用关系。

本发明实施例中，调度管理模块720，具体用于获取每个服务节点的地址信息，地址信息包括服务节点的IP地址和端口号；根据IP地址和端口号进行轮询匹配，获取到每个服务节点的上下游服务节点；根据每个服务节点的上下游服务节点，形成服务拓扑图。

诊断模块730，用于根据全链路信息识别第一请求所隶属的服务类型，以及根据全链路信息中每个服务节点的关键信息和服务类型，对第一请求进行异常诊断，得到诊断结果。

本发明实施例中，诊断模块730，具体用于获取全链路信息中每个服务节点的关键信息；对所有的关键信息进行特征提取，利用提取出的特征构成特征集合；获取与服务类型匹配的诊断策略；基于诊断策略对特征集合进行诊断，得到诊断结果。

可选地，诊断模块730，还用于获取全链路信息中服务节点的标识码；根据标识码查询到存储空间，从存储空间获取到每个服务节点的关键信息。

需要说明的是，前述对分布式服务集群的异常诊断方法实施例的解释说明也适用于该实施例的分布式服务集群的异常诊断装置700，此处不再赘述。

本实施例的分布式服务集群的异常诊断装置，通过实时监测每个服务节点的敏感日志，从敏感日志中提取关键信息，从关键信息中提取服务节点当前所执行的第一请求的标识码；根据每个服务节点的地址信息，获取分布式服务集群的服务拓扑图；根据标识码和服务拓扑图，获取第一请求的全链路信息；根据全链路信息识别第一请求所隶属的服务类型；根据全链路信息中每个服务节点的关键信息和服务类型，对第一请求进行异常诊断，得到诊断结果。本实施例中，无需对所有的日志进行侵入式收集，仅通过监测敏感日志，在保证准全量信息诊断的同时，还可以保证系统的低开销。此外，通过实时监测敏感日志，可以实现问题诊断的实时性，以及问题诊断的全面性。

为了实现上述实施例，本发明还提出一种计算机设备。

图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc ReadOnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc ReadOnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LocalAreaNetwork；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图8中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的分布式服务集群的异常诊断方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如前述实施例所述的分布式服务集群的异常诊断方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如前述实施例所述的分布式服务集群的异常诊断方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种分布式服务集群的异常诊断方法，其特征在于，包括以下步骤：

根据所述全链路信息识别所述第一请求所隶属的服务类型；

2.根据权利要求1所述的分布式服务集群的异常诊断方法，其特征在于，所述根据所述全链路信息中每个服务节点的所述关键信息和所述服务类型，对所述第一请求进行异常诊断，得到诊断结果，包括：

获取所述全链路信息中每个服务节点的所述关键信息；

对所有的所述关键信息进行特征提取，利用提取出的特征构成特征集合；

获取与所述服务类型匹配的诊断策略；

基于所述诊断策略对所述特征集合进行诊断，得到所述诊断结果。

3.根据权利要求2所述的分布式服务集群的异常诊断方法，其特征在于，所述从所述关键信息中提取所述服务节点当前所执行的第一请求的标识码之后，还包括：

将所述标识码与预设的标识码列表进行比较；

如果所述标识码存在于所述标识码列表中，将所述服务节点的所述关键信息存储到所述标识码对应的存储空间中；其中，具有相同标识码的所述服务节点的所述关键信息存储在同一存储空间中。

4.根据权利要求3所述的分布式服务集群的异常诊断方法，其特征在于，还包括：

如果所述标识码未存在于所述标识码列表中，则在所述标识码列表中增加所述标识码；

增加与所述标识码对应的所述存储空间，将所述服务节点的所述关键信息存储到增加的所述存储空间中。

5.根据权利要求3所述的分布式服务集群的异常诊断方法，其特征在于，所述获取所述全链路信息中每个服务节点的所述关键信息，包括：

获取所述全链路信息中所述服务节点的所述标识码；

根据所述标识码查询到所述存储空间，从所述存储空间获取到每个服务节点的所述关键信息。

6.根据权利要求1-5任一项所述的分布式服务集群的异常诊断方法，其特征在于，所述从所述敏感日志中提取关键信息，从所述关键信息中提取所述服务节点当前所执行第一请求的标识码，包括：

利用正则表达式对所述关键信息进行结构化处理，得到结构化信息；

从所述结构化信息中提取所述服务节点所对应的标识码。

7.根据权利要求1所述的分布式服务集群的异常诊断方法，其特征在于，所述根据每个服务节点的地址信息，获取分布式服务集群的上服务拓扑图，包括：

获取每个服务节点的地址信息，所述地址信息包括所述服务节点的IP地址和端口号；

根据所述IP地址和所述端口号进行轮询匹配，获取到每个服务节点的上下游服务节点；

根据每个服务节点的上下游服务节点，形成所述服务拓扑图。

8.根据权利要求1所述的分布式服务集群的异常诊断方法，其特征在于，所述实时监测每个服务节点的敏感日志，包括：

根据所述服务节点的配置信息，在当前监测周期内实时监测所述服务节点的所述敏感日志；

统计在当前监测周期内所监测到的所述敏感日志的数量；

如果所述数量超出预设的阈值，则在当前监测周期内暂停对所述敏感日志的监测。

9.根据权利要求8所述的分布式服务集群的异常诊断方法，其特征在于，所述从所述敏感日志中提取关键信息之后，还包括：

统计当前所提取出的所述关键信息的数据量；

如果所述数据量未到达数据量阈值，则将提取出的所述关键信息缓存在所述服务节点上；

在到达所述数据量阈值或者到达监测周期后，将缓存的所述关键信息发送到与所述标识码对应的存储空间中。

10.一种分布式服务集群的异常诊断装置，其特征在于，包括：

11.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-9中任一所述的分布式服务集群的异常诊断方法。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的分布式服务集群的异常诊断方法。