CN117608882A

CN117608882A - 风险识别方法及系统

Info

Publication number: CN117608882A
Application number: CN202311276419.5A
Authority: CN
Inventors: 吴佳红; 许文浩; 孙帆; 李海福; 朱海峰; 张丙昌; 张亮
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-02-27

Abstract

本说明书实施例公开了一种风险识别方法及系统。该方法包括：基于白皮书中的高可用指标，对采集的应用和业务的相关数据进行高可用指标提取；依据白皮书中的指标风险标准，检测得到异常指标，对应用和/或业务的风险贡献大的异常指标进行风险治理。其中，白皮书配置有归属不同应用和业务下的高可用指标、指标风险标准、风险等级。该系统基于上述方法实现。

Description

风险识别方法及系统

技术领域

本说明书的一个或多个实施例涉及互联网技术领域，特别的涉及风险识别方法及系统。

背景技术

为了保障业务的可用性，通常需要定期进行高可用性(High Availability)能力评估。高可用性通常描述一个实体(系统、业务或组织)经过专门的设计和观测，减少服务不能正常使用的时间，保持其服务的高度可用性。

现有高可用性能力需要投入大量人力进行人工和散点类评估。随着互联网行业的发展和业务场景的丰富，这种方式已经不能满足上百上千个业务场景的高可用评估。

发明内容

本说明书一个或多个实施例描述了风险识别方法及系统，能够对上百上千个业务场景进行自动化高可用评估，并对评估出的风险进行针对性治理。

第一方面，本说明书实施例提供了风险识别方法，包括：

采集应用和业务的相关数据；

基于白皮书中的高可用指标，从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标；

基于白皮书中的指标风险标准，检测得到所属应用下的异常指标和/或所属业务下的异常指标；

对所属应用和/或所属业务的风险贡献大的异常指标，基于白皮书中的风险等级和该指标的周期性数据，结合风险治理策略库，输出风险治理策略；

其中，所述白皮书配置有归属不同应用和业务下的高可用指标、指标风险标准、风险等级。

第二方面，本说明书实施例提供了风险识别系统，包括：

采集模块，用于采集应用和业务的相关数据；

提取模块，用于基于白皮书中的高可用指标，从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标；

检测模块，用于基于白皮书中的指标风险标准，检测得到所属应用下的异常指标和/或所属业务下的异常指标；

治理模块，用于对所属应用和/或所属业务的风险贡献大的异常指标，基于白皮书中的风险等级和该指标的周期性数据，结合风险治理策略库，输出风险治理策略；

第三方面，本说明书实施例提供了电子设备，包括处理器以及存储器；

所述处理器与所述存储器相连；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行上述任一方面所述的方法。

第四方面，本说明书实施例提供了计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方面所述的方法。

本说明书一些实施例提供的技术方案带来的有益效果至少包括：

在本说明书一个或多个实施例中，基于白皮书，可对采集的互联网业务和应用各个维度的数据，进行高可用指标提取，并对高可用指标进行风险自动化评估，对识别出的异常指标进行针对性风险治理；基于对治理结果的分析，可优化白皮书；还引入高可用分模型对业务、应用的高可用性能进行数据化表征。本说明书实施例能满足上百上千个业务场景的高可用性能评估，能全方面多维度发现风险、治理风险，有效保障业务、应用的高可用性。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种风险识别方法的流程图；

图2为本说明书实施例提供的一种风险识别系统的结构框图；

图3为本说明书实施例提供的一种风险识别系统的简易业务架构图；

图4为本说明书实施例提供的一种风险识别系统部署时的系统架构图；

图5为本说明书实施例提供的一种风险识别系统的交互界面的示意图；

图6为本说明书实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述。

本说明书中的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

随着互联网行业的发展和业务场景的丰富，现有的人工和散点类评估方式已无法适用。一方面评估低效，需要大量的人力成本；另一方面散点评估针对数据库或某个应用或某一类风险。实际上，风险数据存在于多种场景下且具有多个维度。

基于此，本说明书实施例提出风险识别方案，能够对上百上千个业务场景进行自动化高可用评估，并对评估出的风险进行针对性治理。

请参阅图1，图1示出了本说明书实施例提供的一种风险识别方法的流程图。该方法通过技术风险平台实现。

如图1所示，该风险识别方法具体可包括以下步骤：

步骤102，采集应用和业务的相关数据；

步骤104，基于白皮书中的高可用指标，从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标；

步骤106，基于白皮书中的指标风险标准，检测得到所属应用下的异常指标和/或所属业务下的异常指标；

步骤108，对所属应用和/或所属业务的风险贡献大的异常指标，基于白皮书中的风险等级和该指标的周期性数据，结合风险治理策略库，输出风险治理策略；

本说明书实施例基于预先构建的白皮书，对采集数据进行高可用指标提取，以及异常指标识别，针对所属应用和/或所属业务的风险贡献大的异常指标进行风险治理。该方法针对应用和业务数据，进行多源数据风险识别和治理。

本说明书实施例中提到的应用指的是系统，例如管理会员的基础信息的系统，管理交易核心的系统。

本说明书实施例中提到的业务，一般涉及多个应用。将各个应用的调用节点和节点各数据流转绘制成链路，该链路代表一个业务。

下面结合具体的例子及实施例对图1中的每一个步骤分别进行说明。

在步骤102中，上述数据通过各聚道采集而来，包括但不限于对接各技术风险平台(如数据库服务、中间件、变更管控等)，各应用服务器上获取服务器上的运维数据、代码数据等。上述数据可利用但不限于利用巡检引擎获得数据库或容量平台上的数据，还可利用其他方式获得数据。

所述采集应用和业务的相关数据包括实体基础数据、编码规范数据、中间件/DB数据、运维数据、客观数据，具体如下：

所述实体基础数据，包括应用和业务的基础数据，如应用和业务的名称、代码仓库、所属团队等信息。这些数据可以来自于实体本身或实体之外，可用于后续构建技术风险画像，帮助用户全面了解系统/业务的基本情况。其中，所述实体指可以被独立定义清楚的具体事物，如数据库、应用等。所述实体之外，可以理解为实体之间的联系，以应用和数据库之间的关系为例，实体之外的数据可包括应用A使用了数据库DB1的数据、应用A使用DB1的连接配置的数据、每分钟调用量、写入量等数据。

所述编码规范数据，根据专家经验产生的编码规范，针对应用进行代码扫描，获取应用维度的编码规范数据。通过分析这些数据，可以发现潜在的代码问题和风险，在代码设计层面提升系统的可靠性和维护性。

所述中间件/DB数据涵盖了中间件(如缓存等)和数据库在具体业务场景下服务使用和运行时态的明细数据，如中间件和数据库的调用次数、响应时间、异常情况等。

所述运维数据，是指业务在生产环境上整个相关的运行数据，包括应急处理、存储、启动耗时、监控等。

所述客观数据，是指与业务本身相关的客观数据，如机器数量、服务PV等。通过分析这些数据，可以对业务的整体情况有更直观地了解，为后续的服务调用等分析和处理提供更有利的支持。

步骤104～步骤108均采用白皮书。所述白皮书基于专家经验预先设置。所述白皮书内配置有多个高可用指标，该指标针对应用、业务进行特定性配置。所述高可用指标是基于应用和业务的相关数据确定的(例如，从实体基础数据、编码规范数据、中间件/DB数据、运维数据、客观数据中确定)，主要反映应用和/或业务的高可用性能的指标。

并且，所述白皮书中的高可用指标进行结构化存储，至少基于应用设计、存储设计、可观测性设计、变更设计、稳定性设计五方面进行分类存储。以图5为例，白皮书以图中五个方面示出结构化分布后的高可用指标。其中，应用设计作为第一方面，进一步包括容量设计、服务设计、编码规范、基础环境等；存储设计作为第二方面，进一步包括数据库设计、缓存设计等；可观测性设计作为第三方面，进一步包括日志设计、监控设计等；所述变更设计作为第四方面，进一步包括变更标准化、变更防御、灰度能力等；所述稳定性设计作为第五方面，进一步包括应急&快恢SLO、运维SLO等。

所述白皮书配置有针对各个高可用指标的标准，该标准用于判断高可用指标是否处于风险。例如，当高可用指标为应用自适应限流指标，该指标的标准为：若配置有该指标，则存在风险敞口较小的风险，若未配置有该指标，则存在流量风险。又例如，当高可用指标为CPU水位指标，当CPU水位超过80％，则认为风险敞口大。所述白皮书还配置有风险等级，该风险等级基于标准确定，当满足不同标准条件时，可确定不同风险等级，如高风险、低风险、中风险。

所述白皮书还配置有指标等级，例如在容量设计或某个方面，有多个高可用指标，这些高可用指标分为一级指标、二级指标、三级指标、四级指标等。以容量设计为例，容量设计中包括流量保护、压测设计、参数优化、性能设计、伸缩设计等，流量保护中包含限流保护指标、预热保护指标、网关限流指标、应用自适应限流指标等，其中限流保护指标、预热保护指标为三级指标，网关限流指标、应用自适应限流指标为四级指标。

在步骤104中，根据白皮书中确定的高可用指标，根据采集的数据归属于哪个业务或应用下后，可获取所属应用下的高可用指标和所属业务下的高可用指标。白皮书中涵盖了多种高可用指标，实际提取过程中数据可能包含部分高可用指标。例如，可根据指标的字段，获取对应指标的数据。

在获得高可用指标后，本说明书实施例方法还包括：基于提取的高可用指标，构建所属应用下的技术风险画像和所属业务下的技术风险画像。该技术画像可类似图5所示界面构建，该画像涵盖了所有统计、分级(风险/应用/业务等)、算法、人为经验等提取出来的高可用指标相关数据，以应用设计、存储设计、可观测性设计、变更设计、稳定性设计等多方面呈现。

在步骤106中，对提取到的高可用指标，利用白皮书中的指标风险标准进行自动化判断。当符合风险条件时，则确定该高可用指标为异常指标，同时还标引该风险等级和指标分数，在显示界面显示给用户。当不符合风险条件时，则确定该高可用指标为正常指标。

为明确风险水位，本说明书实施例方法，在所述从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标之后，还包括：将所属应用下的高可用指标输入应用度量模型，得到该应用的高可用分数；将所属业务下的高可用指标输入业务度量模型，得到该业务的高可用分数。

所述高可用分数对高可用指标的性能进行数据化呈现。所述应用度量模型和所述业务度量模型为简单的数学模型。在应用中其由存储在技术风险平台的基础模型为基础，针对不同应用或业务所需的高可用指标及其权重来调整对应业务/应用的度量模型。以容量设计中的流量保护的三级指标为例，三级指标包括限流保护和预热保护两种指标，权重各自为50。该度量模型的输入量为限流保护和预热保护两个指标的分数，在结合权重计算后，可得到三级指标的高可用性能分数。其中，限流保护和预热保护的两个指标的各自分数，可采用假定指标达到F时，其分数为100分时，则指标实测为A时，其分数为100*F/A。其中，权重基于历史故障、风险敞口、适用性和紧急程度等因素设置。在实际应用中，当度量模型得到的高可用分与实际高可用性能不匹配时，可通过用户端人工反馈数据回调权重。当检测到某些指标为正常指标或忽略了某个指标为高可用指标时，但实际该指标对高可用性能有风险影响，致使业务或应用出现中断，则通过用户端人工反馈数据回调权重。基于此，本说明书实施例方法还包括：在所述从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标之后，基于用户端反馈数据，更新所述应用度量模型和业务度量模型。此外，还对影响业务或应用的指标进行打标，调整白皮书中该业务或应用所需的高可用指标及其相关标准、等级。

在发现异常指标后，进一步需要确定该异常指标对所属应用或所属业务的影响程度，本说明书实施例以贡献来明确该指标对高可用性能的影响程度，也可以说该贡献会造成什么程度的风险。对于影响程度大的(即风险贡献大的)，需要进行风险治理。对于影响程度不大的(即风险贡献不大的)，可暂时不进行风险治理。本说明书实施例方法中对所属应用和/或所属业务的风险贡献大的异常指标通过如下过程确定：

步骤1071，计算异常指标的分数和该异常指标所属应用或所属业务下高可用分数；

步骤1073，通过计算异常指标的分数在所属应用或所属业务下高可用分数的占比，确定异常指标在所属应用下和/或所属业务下的贡献度值；

步骤1075，判断贡献度值大于风险阈值时，该异常指标为对所属应用和/或所属业务的风险贡献大的异常指标。

该过程中的高可用分数可利用对应应用或业务的度量模型获得。

在步骤108中，对所属应用和/或所属业务的风险贡献大的异常指标，基于白皮书中的风险等级和该指标的周期性数据分析，判断是否作为推荐治理项。该指标的周期性数据基于一段周期采集形成，可获知该指标在一段时间内的变化，是否持续处于风险，是否发生风险等级变化等等。可根据风险等级、持续恶化、线上问题分析等综合判定下，确定该指标为推荐治理项。该判断过程可基于预先设置的判断条件自动化判断，或由人工基于经验进行判断。例如，当该异常指标为高风险，且阶段频发且紧急指标时，则确定为推荐治理项。又例如，持续无人治理的指标且需要调整的，则确定为推荐治理项。

之后，结合风险治理策略库，产生风险治理策略。所述风险治理策略库基于历史数据形成的风险治理策略，预先存储在技术风险平台内。所述风险治理策略库包括风险触达渠道、自动和人工修复方案。该风险触达是将风险触达给响应人员/组织，进行风险修复。该触达流程需要通过流程流转工具实现，例如，通过机器人、钉群推送、查询等；工单、结合devops的卡点拦截等。所述自动和人工修复方案是基于历史风险确定的修复方案。例如，流量保护中网关限流指标和应用自适应限流存在高风险，其他指标为正常指标，结合风险治理策略库，输出治理修复方案为配置网关限流。

本说明书实施例方法还包括步骤110，分析风险治理后的应用和/或业务，基于风险治理策略治理后的结果，更新所述白皮书。

该步骤对风险治理后的应用和/或业务进行分析，通过采集该应用和/或业务下的相关数据，提取高可用指标，基于白皮书的标准判断各个指标是否存在风险，确定各个指标的分数以及该业务和/或应用的高可用分数(可以指整个业务和/或应用的高可用分数，也可以指其中一方面结构数据下的高可用分数，也可以指其中一方面结构数据下中某个等级指标的高可用分数)，分析在治理后异常指标是否仍存在风险或仍存在原先高等级风险，还分析在治理后高可用分数是否比治理前高可用分数高。若风险治理效果明显，则白皮书中对于该业务/或应用中的高可用指标设定是合适的，若风险治理效果不佳或不明显，则需要调整白皮书中对于该业务或应用中的高可用指标及其风险标准。

图3示出了利用本说明书实施例方法实现的业务架构图。图中，高可用白皮书基于应用设计、存储设计、可观测性设计、变更设计、稳定性设计五方面进行结构化指标存储。基于白皮书对采集数据提取高可用指标，高可用指标一方面基于白皮书中的风险标准判断是否存在风险以及风险等级，另一方面可送入度量模型确定高可用分数。之后，当异常指标在业务/应用中的贡献大时，则自动输出风险治理策略。在风险治理策略治理后，可基于治理结果，对白皮书进行反馈调整。该方法可客观公正地给出不同级别应用/业务的高可用水平评估，提升高可用分析、治理效率。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

请参阅图2示出的本说明书实施例的一种风险识别系统的结构示意图。

如图2所示，该系统1000至少可以包括采集模块1001、提取模块1002、检测模块1003、治理模块1004，其中：

所述采集模块1001，用于采集应用和业务的相关数据。上述数据通过各聚道采集而来，包括但不限于对接各技术风险平台(如数据库服务、中间件、变更管控等)，各应用服务器上获取服务器上的运维数据、代码数据等。上述数据可利用但不限于利用巡检引擎获得数据库或容量平台上的数据，还可利用其他方式获得数据。所述采集应用和业务的相关数据包括实体基础数据、编码规范数据、中间件/DB数据、运维数据、客观数据。

所述提取模块1002，用于基于白皮书中的高可用指标，从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标。

其中，所述白皮书基于专家经验预先设置。所述白皮书内配置有多个高可用指标，该指标针对应用、业务进行特定性配置。所述高可用指标是基于应用和业务的相关数据确定的(例如，从实体基础数据、编码规范数据、中间件/DB数据、运维数据、客观数据中确定)，主要反映应用和/或业务的高可用性能的指标。并且，所述白皮书中的高可用指标进行结构化存储，至少基于应用设计、存储设计、可观测性设计、变更设计、稳定性设计五方面进行分类存储。

根据白皮书中确定的高可用指标，根据采集的数据归属于哪个业务或应用下后，可获取所属应用下的高可用指标和所属业务下的高可用指标。白皮书中涵盖了多种高可用指标，实际提取过程中数据可能包含部分高可用指标。例如，可根据指标的字段，获取对应指标的数据。

检测模块1003，用于基于白皮书中的指标风险标准，检测得到所属应用下的异常指标和/或所属业务下的异常指标。

其中，所述白皮书配置有针对各个高可用指标的标准，该标准用于判断高可用指标是否处于风险。例如，当高可用指标为应用自适应限流指标，该指标的标准为：若配置有该指标，则存在风险敞口较小的风险，若未配置有该指标，则存在流量风险。又例如，当高可用指标为CPU水位指标，当CPU水位超过80％，则认为风险敞口大。所述白皮书还配置有风险等级，该风险等级基于标准确定，当满足不同标准条件时，可确定不同风险等级，如高风险、低风险、中风险。

对提取到的高可用指标，利用白皮书中的指标风险标准进行自动化判断。当符合风险条件时，则确定该高可用指标为异常指标，同时还标引该风险等级和指标分数，通过显示模块在显示界面显示给用户。当不符合风险条件时，则确定该高可用指标为正常指标。具体地，显示模块可显示所属组织、应用、业务下的高可用指标。所述组织指的企业架构，所述应用和所述业务对应归属在相关组织下。其中，所述业务由于涉及多个应用，可根据链路上的第一个应用归属于哪个组织的方式将该业务归属在入口应用所属的组织下。

治理模块1004，用于对所属应用和/或所属业务的风险贡献大的异常指标，基于白皮书中的风险等级和该指标的周期性数据，结合风险治理策略库，输出风险治理策略。

具体地，对所属应用和/或所属业务的风险贡献大的异常指标，基于白皮书中的风险等级和该指标的周期性数据分析，判断是否作为推荐治理项。该判断过程可基于预先设置的判断条件自动化判断，或由人工基于经验进行判断。例如，当该异常指标为高风险，且阶段频发且紧急指标时，则确定为推荐治理项。又例如，持续无人治理的指标且需要调整的，则确定为推荐治理项。之后，结合风险治理策略库，产生风险治理策略。所述风险治理策略库包括风险触达渠道、自动和人工修复方案。该风险触达是将风险触达给响应人员/组织，进行风险修复，该触达流程需要通过流程流转工具实现，例如，通过机器人、钉群推送、查询等；工单、结合devops的卡点拦截等。所述自动和人工修复方案是基于历史风险确定的修复方案。例如，流量保护中网关限流指标和应用自适应限流存在高风险，其他指标为正常指标，结合风险治理策略库，输出治理修复方案为配置网关限流。

本说明书实施例系统还包括画像模块，用于基于提取的高可用指标，构建所属应用下的技术风险画像和所属业务下的技术风险画像。该技术画像可类似图5所示界面构建，该画像涵盖了所有统计、分级(风险/应用/业务等)、算法、人为经验等提取出来的高可用指标相关数据，以应用设计、存储设计、可观测性设计、变更设计、稳定性设计等多方面呈现。

本说明书实施例系统中的检测模块1003包括：

异常检测单元，用于基于白皮书中的指标风险标准，检测得到所属应用下的异常指标和/或所属业务下的异常指标。

为明确风险水位，所述检测模块还包括：

高可用分计算单元，用于将所属应用下的高可用指标输入应用度量模型，得到该应用的高可用分数；将所属业务下的高可用指标输入业务度量模型，得到该业务的高可用分数。

所述应用度量模型和所述业务度量模型为简单的数学模型。在应用中其由存储在技术风险平台的基础模型为基础，针对不同应用或业务所需的高可用指标及其权重来调整对应业务/应用的度量模型。以容量设计中的流量保护的三级指标为例，三级指标包括限流保护和预热保护两种指标，权重各自为50。该度量模型的输入量为限流保护和预热保护两个指标的分数，在结合权重计算后，可得到三级指标的高可用性能分数。其中，限流保护和预热保护的两个指标的各自分数，可采用假定指标达到F时，其分数为100分时，则指标实测为A时，其分数为100*F/A。其中，权重基于历史故障、风险敞口、适用性和紧急程度等因素设置。在实际应用中，当度量模型得到的高可用分与实际高可用性能不匹配时，可通过用户端人工反馈数据回调权重。当检测到某些指标为正常指标或忽略了某个指标为高可用指标时，但实际该指标对高可用性能有风险影响，致使业务或应用出现中断，则通过用户端人工反馈数据回调权重。

基于此，本说明书实施例系统还包括：

反馈模块，用于基于用户端反馈数据，更新所述应用度量模型和业务度量模型。在所述从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标之后，基于用户端反馈数据，更新所述应用度量模型和业务度量模型。此外，该模块还可对影响业务或应用的指标进行打标，调整白皮书中该业务或应用所需的高可用指标及其相关标准、等级。

在发现异常指标后，进一步需要确定该异常指标对所属应用或所属业务的影响程度，本说明书实施例以贡献来明确该指标对高可用性能的影响程度，也可以说该贡献会造成什么程度的风险。对于影响程度大的(即风险贡献大的)，需要进行风险治理。对于影响程度不大的(即风险贡献不大的)，可暂时不进行风险治理。所述检测模块还包括：

贡献计算单元，用于通过计算异常指标的分数在所属应用或所属业务下高可用分数的占比，确定异常指标在所属应用下和/或所属业务下的贡献度值。

所述治理模块包括：

判断单元，用于判断贡献度值大于风险阈值时，该异常指标为对所属应用和/或所属业务的风险贡献大的异常指标；

策略输出单元，对所属应用和/或所属业务的风险贡献大的异常指标，基于白皮书中的风险等级和该指标的周期性数据，结合风险治理策略库，输出风险治理策略。

本说明书实施例系统还包括治理分析模块和白皮书配置模块。

所述治理分析模块，用于分析风险治理后的应用和/或业务。通过采集该应用和/或业务下的相关数据，提取高可用指标，基于白皮书的标准判断各个指标是否存在风险，确定各个指标的分数以及该业务和/或应用的高可用分数(可以指整个业务和/或应用的高可用分数，也可以指其中一方面结构数据下的高可用分数，也可以指其中一方面结构数据下中某个等级指标的高可用分数)，分析在治理后异常指标是否仍存在风险或仍存在原先高等级风险，还分析在治理后高可用分数是否比治理前高可用分数高。

所述白皮书配置模块，用于基于风险治理策略治理后的结果，更新所述白皮书。若风险治理效果明显，则白皮书中对于该业务/或应用中的高可用指标设定是合适的，若风险治理效果不佳或不明显，则需要调整白皮书中对于该业务或应用中的高可用指标及其风险标准。

图4示出了本说明书实施例一种风险识别系统在实际部署时的架构图。该系统架构分为交互层、服务层、基础支撑层。

所述显示模块设置在交互层，可以看板形式呈现，可展示组织/业务/应用的技术风险画像，包含高可用指标、高可用指标等级、高可用指标风险等级、高可用指标的高可用分数，还可展示风险治理推荐项、风险治理策略，风险治理结果等。

此外，所述交互层还可设置指标配置、治理策略配置、人工反馈、白皮书配置界面，以供用户进行指标、风险标准、策略的修改、增加、删除等操作。

所述服务层配置有采集模块、提取模块、检测模块、治理模块、画像模块、治理分析模块。所述服务层主要进行本说明书中一个或多个实施例中的风险识别流程。

所述基础支撑层配置有数据存储、巡检引擎、应用/业务风险等级、白皮书管理、指标池、治理策略池、元数据管理、流程管理等功能模块。采集的数据可利用巡检引擎采集获得。采集的数据可利用数据存储模块存储。所述应用/业务风险等级模块用于存储应用/业务风险等级。所述白皮书管理用于对白皮书进行更新、存储等管理。所述治理策略池用于存储风险治理策略库。所述指标池用于存储高可用指标。所述元数据管理模块用于存储各主体的基础数据信息。所述流程管理模块用于管理风险治理处理流转和指标反馈。

本说明书实施例系统在白皮书的基础上，结合度量模型，可对风险高效识别，并对风险贡献度大的异常指标进行针对性风险治理，大大提升风险评估、治理效率。

请参阅图6示出的本说明书实施例提供的一种电子设备的结构示意图。

如图6所示，该电子设备1100可以包括:至少一个处理器1101、至少一个网络接口1104、用户接口1103、存储器1105以及至少一个通信总线1102。

其中，通信总线1102可用于实现上述各个组件的连接通信。

其中，用户接口1103可以包括按键，可选用户接口还可以包括标准的有线接口、无线接口。

其中，网络接口1104可以但不局限于包括蓝牙模块、NFC模块、Wi-Fi模块等。

其中，处理器1101可以包括一个或者多个处理核心。处理器1101利用各种接口和线路连接整个电子设备1100内的各个部分，通过运行或执行存储在存储器1105内的指令、程序、代码集或指令集，以及调用存储在存储器1105内的数据，执行路由设备1100的各种功能和处理数据。可选的，处理器1101可以采用DSP、FPGA、PLA中的至少一种硬件形式来实现。处理器1101可集成CPU、GPU和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1101中，单独通过一块芯片进行实现。

其中，存储器1105可以包括RAM，也可以包括ROM。可选的，该存储器1105包括非瞬时性计算机可读介质。存储器1105可用于存储指令、程序、代码、代码集或指令集。存储器1105可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1105可选的还可以是至少一个位于远离前述处理器1101的存储装置。作为一种计算机存储介质的存储器1105中可以包括操作系统、网络通信模块、用户接口模块以及应用程序。处理器1101可以用于调用存储器1105中存储的应用程序，并执行上述一个或多个实施例中的方法。

本说明书实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述方法实施例中的一个或多个步骤。上述电子设备的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在所述计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本说明书实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(DigitalVersatile Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下，本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本说明书的优选实施例方式进行描述，并非对本说明书的范围进行限定，在不脱离本说明书的设计精神的前提下，本领域普通技术人员对本说明书的技术方案作出的各种变形及改进，均应落入本说明书的权利要求书确定的保护范围内。

Claims

1.风险识别方法，包括：

采集应用和业务的相关数据；

2.根据权利要求1所述的方法，所述采集应用和业务的相关数据包括：实体基础数据、编码规范数据、中间件/DB数据、运维数据、客观数据。

3.根据权利要求1所述的方法，所述白皮书中的高可用指标至少基于应用设计、存储设计、可观测性设计、变更设计、稳定性设计进行分类存储。

4.根据权利要求1或2或3所述的方法，还包括，基于提取的高可用指标，构建所属应用下的技术风险画像和所属业务下的技术风险画像。

5.根据权利要求1或2或3所述的方法，在所述从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标之后，还包括：将所属应用下的高可用指标输入应用度量模型，得到该应用的高可用分数；将所属业务下的高可用指标输入业务度量模型，得到该业务的高可用分数。

6.根据权利要求5所述的方法，所述对所属应用和/或所属业务的风险贡献大的异常指标通过如下过程确定：

计算异常指标的分数和该异常指标所属应用或所属业务下高可用分数；

通过计算异常指标的分数在所属应用或所属业务下高可用分数的占比，确定异常指标在所属应用下和/或所属业务下的贡献度值；

判断贡献度值大于风险阈值时，该异常指标为对所属应用和/或所属业务的风险贡献大的异常指标。

7.根据权利要求1或2或3所述的方法，在输出风险治理策略后，还包括：分析风险治理后的应用和/或业务，基于风险治理策略治理后的结果，更新所述白皮书。

8.根据权利要求5所述的方法，在所述从应用和业务的相关数据中提取所属应用下的高可用指标和所属业务下的高可用指标之后，还包括：基于用户端反馈数据，更新所述应用度量模型和业务度量模型。

9.风险识别系统，包括：

采集模块，用于采集应用和业务的相关数据；

10.根据权利要求9所述的系统，所述采集应用和业务的相关数据包括：实体基础数据、编码规范数据、中间件/DB数据、运维数据、客观数据。

11.根据权利要求9所述的系统，所述白皮书中的高可用指标至少基于应用设计、存储设计、可观测性设计、变更设计、稳定性设计进行分类存储。

12.根据权利要求9或10或11所述的系统，还包括画像模块，用于基于提取的高可用指标，构建所属应用下的技术风险画像和所属业务下的技术风险画像。

13.根据权利要求9或10或11所述的系统，所述检测模块包括：

异常检测单元，用于基于白皮书中的指标风险标准，检测得到所属应用下的异常指标和/或所属业务下的异常指标；

14.根据权利要求13所述的系统，所述检测模块还包括：

所述治理模块还用于判断贡献度值大于风险阈值时，该异常指标为对所属应用和/或所属业务的风险贡献大的异常指标；对所属应用和/或所属业务的风险贡献大的异常指标，基于白皮书中的风险等级和该指标的周期性数据，结合风险治理策略库，输出风险治理策略。

15.根据权利要求9或10或11所述的系统，还包括：

治理分析模块，用于分析风险治理后的应用和/或业务；

白皮书配置模块，用于基于风险治理策略治理后的结果，更新所述白皮书。

16.根据权利要求13所述的系统，还包括反馈模块，用于基于用户端反馈数据，更新所述应用度量模型和业务度量模型。

17.根据权利要求9或10或11所述的系统，还包括显示模块，用于显示所属组织、应用、业务下的高可用指标。

18.电子设备，包括处理器以及存储器；

所述处理器与所述存储器相连；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-8任一项所述的方法。

19.计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的方法。