CN109711165A

CN109711165A - 一种深度学习算法的可靠性评估方法及系统

Info

Publication number: CN109711165A
Application number: CN201811443377.9A
Authority: CN
Inventors: 薛云志; 孟令中; 武斌; 董乾; 师源
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-05-03

Abstract

本发明公开了一种深度学习算法的可靠性评估方法及系统。本方法为：1)建立深度学习算法的可靠性评估指标体系和深度学习算法的评估准则；2)根据深度学习算法的可靠性要求以及该深度学习算法所在系统的严重性等级，确定该深度学习算法的可靠性目标等级；3)根据该深度学习算法的可靠性目标等级，选择对应的评估指标；4)根据该深度学习算法对应的评估指标获取该深度学习算法的各评估指标值；5)根据所述评估准则和该深度学习算法的各评估指标值，评估该深度学习算法的可靠性。本发明对算法整个阶级开展可靠性评估工作，克服了只能在测试阶段利用失效数据开展可靠性评估工作的问题。

Description

一种深度学习算法的可靠性评估方法及系统

技术领域

本发明属于机器学习技术领域。涉及一种深度学习算法的可靠性评估方法及系统。

背景技术

近年来，深度学习作为机器学习领域一个重要的热点，已经在图像分析、语音识别、自然语言处理、视频分类等领域取得了令人瞩目的成功。深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习的基本思想是通过多层的网络结构和非线性变换，组合底层特征，形成抽象的、易于区分的高层表示，以发现数据的分布式特征。

传统的软件可靠性评估模型主要应用于软件测试、验证或运行阶段，将软件看作一个整体，仅仅考虑软件的输入与输出，而不考虑软件内部结构。而且目前的软件可靠性评估技术主要是基于失效数据的，只能在测试阶段进行。但是深度学习算法的模型结构会持续发生变化，主要由神经网络结构和所面对的数据空间所决定，且与运行的软硬件环境、训练数据的质量等有很强的相关性，原有的软件可靠性评估技术已经不再适用。而且越早发现软件中存在的各种错误，后期所花费的各种开销会越少。

发明内容

本发明的目的是解决现有深度学习算法的可靠性评估方法的缺乏，提出了提供一种深度学习算法的可靠性评估方法及系统。本发明提供了深度学习算法的可靠性评估指标体系，并建立算法各个阶段的可靠性评估活动。

本发明根据深度学习算法的特点建立深度学习算法可靠性评估指标体系，并结合算法的生命周期特点建立了各个阶段开展的不同可靠性评估活动。该方法考虑了算法不同阶段的可靠性影响因素。结果可为深度学习算法的可靠性评估提供分析方法，同时为提高算法的可靠性提供基础理论支持。

本发明采用的技术方案为：一种深度学习算法的可靠性评估方法，包括以下几个步骤：

S1：建立深度学习算法的可靠性评估指标体系；

S2：确定深度学习算法的可靠性目标等级；

S3：根据不同的深度学习算法的可靠性目标等级，选择评估指标；

S4：建立深度学习算法的评估准则；

S5：开展面向深度学习算法的可靠性评估工作；

S6：得出深度学习算法的可靠性评估结论。

进一步的，所述步骤S2具体为：

S21：分析深度学习算法可靠性的要求；

S22：分析深度学习算法所在系统的严重性等级；

S23：确定深度学习算法的可靠性目标等级。

进一步的，所述步骤S3具体为：

S31：建立面向可靠性目标等级的可靠性评估指标体系。

S32：依据评估对象的可靠性目标，选取评估指标。

本发明提供了一种深度学习算法的可靠性评估系统，其特征在于，包括可靠性目标等级确定模块、评估指标选取模块、评估指标值获取模块和可靠性评估模块；其中，

可靠性目标等级确定模块，用于根据深度学习算法的可靠性要求以及该深度学习算法所在系统的严重性等级，确定该深度学习算法的可靠性目标等级；

评估指标选取模块，用于根据该深度学习算法的可靠性目标等级，从一设定的可靠性评估指标体系中选择对应的评估指标；

评估指标值获取模块，用于根据该深度学习算法对应的评估指标获取该深度学习算法的各评估指标值；

可靠性评估模块，用于根据一设定的深度学习算法的评估准则和该深度学习算法的各评估指标值，评估该深度学习算法的可靠性。

进一步的，所述可靠性目标等级包括：灾难级、严重级、一般级和轻微级；其中，

灾难级对应的需求阶段的评估指标包括：任务指标、响应时间、深度学习框架的适用性、操作系统差异和硬件架构差异，灾难级对应的设计阶段的评估指标包括：任务指标、响应时间、欠拟合、数据集均衡性、数据集规模、数据集标注质量和数据集污染情况，灾难级对应的实现阶段的评估指标包括：任务指标、响应时间、代码规范性、代码漏洞、过拟合和对抗性样本的影响，灾难级对应的运行阶段的评估指标包括：任务指标、响应时间、深度学习框架的适用性、操作系统差异、硬件架构差异、干扰数据和数据集分布迁移；

严重级对应的需求阶段的评估指标包括：任务指标、响应时间、深度学习框架的适用性和操作系统差异，严重级对应的设计阶段的评估指标包括：任务指标、响应时间、欠拟合、数据集均衡性、数据集规模和数据集标注质量，严重级对应的实现阶段的评估指标包括：任务指标、响应时间、代码规范性、代码漏洞、过拟合和对抗性样本的影响，严重级对应的运行阶段的评估指标包括：任务指标、响应时间、深度学习框架的适用性、操作系统差异、干扰数据和数据集分布迁移；

一般级对应的需求阶段的评估指标包括：任务指标和深度学习框架的适用性，一般级对应的设计阶段的评估指标包括：任务指标、数据集均衡性和数据集规模，一般级对应的实现阶段的评估指标包括：任务指标、代码规范性和对抗性样本的影响，一般级对应的运行阶段的评估指标包括：任务指标、深度学习框架的适用性和干扰数据；

轻微级对应的需求阶段的评估指标包括：任务指标，轻微级对应的设计阶段的评估指标包括：任务指标和数据集均衡性，轻微级对应的实现阶段的评估指标包括：任务指标，轻微级对应的运行阶段的评估指标包括：任务指标。

进一步的，所述可靠性评估指标体系的一级指标包括算法功能实现的正确性、软硬件平台依赖的影响、训练数据集的影响、目标函数的影响、对抗性样本的影响、代码实现的正确性及环境数据的影响；每一一级指标包括若干二级指标，其中，算法功能实现的正确性的二级指标包括：任务指标和响应时间，软硬件平台依赖的影响的二级指标包括：代码规范性和代码漏洞，训练数据集的影响的二级指标包括：欠拟合和过拟合，目标函数的影响的二级指标包括：数据集均衡性、数据集规模、数据集标注质量和数据集污染情况，对抗性样本的影响的二级指标包括：对抗性样本的影响，代码实现的正确性的二级指标包括：深度学习框架的适用性、操作系统差异和硬件架构差异，环境数据的影响的二级指标包括：干扰数据和数据集分布迁移。

进一步的，所述任务指标包括查全率和查准率；其中，查全率：对于给定的数据集，预测为正例的样本占所有正样本的比率；查准率：对于给定的数据集，预测为正例的样本占所有预测出的样本的比率。

进一步的，所述评估准则为：当选取的属于同一一级指标下的二级指标全部通过时，判断该一级指标通过评估；当同一阶段对应的各一级指标全部通过时，判断该阶段通过评估；如果某一阶段评估为未通过，则本次可靠性评估未通过；如果所有阶段均为评估通过，则本次可靠性评估通过。

一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述所述方法中各步骤的指令。

本发明的优点在于：

(1)本发明建立了深度学习算法的可靠性评估指标体系，通过从算法功能实现的正确性、算法对软硬件平台的依赖、训练数据集的影响、目标函数的影响、对抗性样本的影响、代码实现的正确性及环境数据的影响等因素，运用到可靠性评估中。

(2)本发明面向算法的整个阶级开展可靠性评估工作，克服了只能在测试阶段利用失效数据开展可靠性评估工作的问题。

(3)本发明建立了面向不同可靠性目标等级的可靠性指标体系，从而便于实际评估工作中的评估指标的选取；

(4)本发明解决了深度学习算法的可靠性评估方法的缺失。

附图说明

图1为深度学习算法可靠性评估方法的流程图；

图2为深度学习算法的可靠性指标体系图。

具体实施方式

为了本领域普通技术人员理解和实施本发明，下面结合附图对本发明做进一步详细的描述，应当理解，此处所描述的实施仅用于说明和解释本发明，并不用于限定本发明。

本发明是一种深度学习算法的可靠性评估发方法，其流程如图1所示，包括以下几个步骤：

S1：建立深度学习算法的可靠性评估指标体系。从对深度学习算法可靠性的内部影响和外部影响的角度出发，建立深度学习算法的可靠性评估指标体系。主要从算法功能实现的正确性、软硬件平台依赖的影响、训练数据集的影响、目标函数的影响、对抗性样本的影响、代码实现的正确性及环境数据的影响等7个指标。同时每个指标建立相应的二级指标，建立如图2所示的深度学习算法的可靠性指标体系。

其中指标内容为：

1)算法功能实现的正确性用于评估深度学习算法实现的功能是否满足算法的需求：

a)任务基本指标，使用者可以根据深度学习算法的应用场景，选择与任务相关的基本指标，用于评估算法完成功能的能力；其中基本指标可以包括查全率、查准率等。

查全率：对于给定的数据集，预测为正例的样本占所有正样本的比率。

查准率：对于给定的数据集，预测为正例的样本占所有预测出的样本的比率。

对于分类问题，可以将数据集中的样例根据其真实类别与学习器预测类别的组合划分为真正例(True Positive)、假正例(False Positive)、真反例(True Negative)、假反例(False Negative)四种情况，同时令TP、FP、TN和FN分别表示对应的样例数。

b)响应时间(Running Time，RT)，在给定的软硬件环境下，深度学习算法对给定的数据进行运算并获得结果所需要的时间。

RT＝T_e-T_b

其中，T_e指深度学习算法运算并获得结果的时刻；T_b指深度算法开始运行的时刻。

2)软硬件平台依赖的影响，用于度量运行算法的软硬件平台对算法可靠性的影响，主要从深度学习框架的适用性，操作系统差异带来的影响，硬件架构差异带来的影响等方面进行分析。

a)深度学习框架的适用性(FA)，公式如下，

给定阈值FA_t，当FA≥FA_T，表示深度学习算法满足不同深度学习框架的适用性要求；当FA＜FA_T，表示深度学习算法无法满足不同深度学习框架的适用性要求。

b)操作系统差异带来的影响(OA)，公式如下，

给定阈值OA_t，当OA≥OA_T，表示深度学习算法满足不同操作系统的适用性要求；当OA＜OA_T，表示深度学习算法无法满足不同操作系统的适用性要求。

c)硬件架构差异带来的影响(HA)，公式如下，

给定阈值C_t，当C≥C_T，表示深度学习算法满足不同硬件架构差异的适用性要求；当C＜C_T，表示深度学习算法无法满足不同硬件架构差异的适用性要求。

3)训练数据集的影响，用于度量训练数据集带来的影响，主要从训练数据集的均衡程度、数据集规模、数据集质量及数据集污染程度进行分析；

a)均衡程度(EL)通常指在分类问题中，数据集中不同类别的样本数不相等的程度。设数据集的均衡程度EL，公式如下，

同时给定均衡程度的阈值为EL_t。当满足EL≤EL_t时，表示数据集的均衡程度可以接受；当EL＞EL_t时，表示数据集的均衡程度不能接受。

b)数据集规模(DN)指深度学习算法在训练阶段所需要的样本数量总和，其中1,2，……n表示不同类型样本的分类，公式如下，

DN＝DN₁+DN₂+…+DN_n

根据不同的算法需求，数据集的规模要求不同，可以给定数据集规模阈值DN_t。当DN＞DN_t时，表示数据集规模满足训练需求，当DN≤DN_t，表示数据集规模不满足训练需求。

c)数据集质量(DQ)指训练数据集中能够满足深度学习算法训练的样本数量所占百分比，公式如下，

给定数据集阈值DQ_t，当DQ＞DQ_t时，表示数据集的质量满足算法训练需求，当DQ≤DQ_t时，表示数据集的质量不满足算法训练需求。

d)数据集污染程度(DP)指训练数据集中混入的错误样本和异常样本等数量的百分比，公式如下，

给定数据集阈值DP_t，当DP≤DP_t时，表示数据集的质量满足算法训练需求，当DP＞DP_t时，表示数据集的质量不满足算法训练需求。

4)目标函数的影响，用于度量计算预测结果与真实结果之间的误差，主要从算法设计时优化目标不足或过多，算法实现是否存在过拟合或欠拟合等进行分析；

a)欠拟合(UF)，用于表示算法利用数据给出的部分性质进行拟合，拟合公式不能很好的反映所给数据的分布，用以表示学习能力不足造成的影响。

给定测试数据集阈值UF_t，当UF≤UF_t时，表示在给定测试数据集下测试结果满足算法需求，当UF>UFt时，表示在给定测试数据集下测试结果不满足算法需求。

b)过拟合(OF)，用于表示算法使用了一些根本不存在的性质进行拟合，仅仅完美的反应了所有数据的性质与分布情况等，不能更好的为以后做出预测的影响。

给定测试数据集阈值OFt，当OF≤OF_t时，表示在给定测试数据集下测试结果满足算法需求，当OF>OF_t时，表示在给定测试数据集下测试结果不满足算法需求。

5)对抗性样本的影响，用于度量对抗性样本对深度学习算法的影响；

对抗性样本的影响(AE)表示对抗性样本对深度学习算法带来的结果异常，公式如下，

给定数据集阈值AE_t，当AE≤AE_t时，表示可以接受对抗性样本带来的影响，当

AE>AE_t时，表示不能接受对抗性样本带来的影响。

6)代码实现的正确性，用于度量代码实现功能的正确性；主要从代码规范性，代码是否存在已知的漏洞进行分析；

a)代码规范性(CC)，考察深度学习算法的代码实现中满足国标、军标、行标或者内部规范或指南的程度。公式如下：

CC＝经过测试后发现实现算法的代码中不满足相应规范或指南的数量

给定数据集阈值CC_t，表示不满足规范或指南的数量。当CC≤CC_t时，表示代码满足相应的编写规范或指南，当CC＞CC_t时，表示代码不满足相应的编写规范或指南。

b)代码是否存在已知漏洞(CL)，可以利用漏洞扫描工具等对深度学习代码进行测试。

公式如下：

CL＝经过测试后发现实现算法的代码中已知漏洞的数量

给定数据集阈值CL_t，表示代码漏洞的数量。当Cl≤CL_t时，表示代码漏洞数量在可以接受的范围，当CL＞Cl_t时，表示代码漏洞数量在不可以接受的范围。

7)环境数据的影响，用于分析实际运行环境带来的对算法的影响。主要从干扰数据和数据集分布发生迁移对算法运行的影响进行分析。

a)干扰数据影响(ID)，指在算法实际运行中，由于使用环境的复杂性所产生的非预期的真实数据，如电磁干扰、使用环境异常等情况，从而导致算法在使用阶段的实际结果不满足用户需求。

给定数据集阈值ID_t，表示干扰数据影响。当ID≤ID_t时，表示干扰数据影响在可以接受的范围，当ID＞ID_t时，表示干扰数据影响在不可以接受的范围。

b)数据集分布迁移影响(DF)，指算法在实际运行中，真实运行场景下的数据集分布与原有训练数据集分布不再服从相同分布，从而导致算法从而导致算法在使用阶段的实际结果不满足用户需求。

给定数据集阈值DF_t，表示干扰数据影响。当DF≤DF_t时，表示数据集分布迁移影响在可以接受的范围，当DF＞DF_t时，表示数据集分布迁移影响在不可以接受的范围。

S2：确定深度学习算法的可靠性目标等级。首先分析深度学习算法的可靠性要求，并分析深度学习算法所在系统的严重性等级，从而确定深度学习算法的可靠性目标等级。

S21：分析深度学习算法场景。针对深度学习算法所应用的软件系统进行功能要求定义，依据算法的软件需求规格说明书确定算法运行的软硬件环境和算法运行模式；其次进行算法使用场景分析，包括算法正常运行场景和可预见的异常场景，可以利用历史数据或者专家讨论会的方式获得；

S22：分析深度学习算法所在系统的严重性等级。针对深度学习算法实现的功能发生失效从而导致软件系统产生一个危险时，需要对其所处的运行环境与运行模式进行描述，既要考虑软件系统正确使用的情况，也要考虑在可预见的不正确使用的情况。可以头脑风暴、专家评审会、质量历史记录和软件失效模式和影响分析等方式识别每一条算法发生失效的危害。

同时针对每一条失效的后果，基于确定的理由来预估潜在伤害的严重度。根据危险严重性制定等级，参见表1所示。

表1为危险严重性等级表

S23：确定深度学习算法的可靠性目标等级。根据算法失效的危险严重性等级，建立深度学习算法的可靠性目标，参见表2。其中可靠性目标等级从高到低依次分为A、B、C和D四个级别。

表1为深度学习算法的可靠性目标等级表

可靠性目标	危险严重性等级对应说明
		A	灾难级
B	严重级
		C	一般级
D	轻微级

不同可靠性目标级别的深度学习算法在各个阶段中选取的可靠性评估指标不同，因此在面向算法的需求阶段、设计阶段、实现阶段和运行阶段的可靠性评估过程中应确定与之对应的关键活动。

S31：建立面向可靠性目标等级的可靠性评估指标体系。

依据不同的可靠性目标等级，针对每一个二级指标建立可靠性评估的推荐选取规则，如所示。

表3为指标选择规则

其中，“●”表示对于指定的深度学习算法可靠性目标，必须选择的二级指标；“○”表示对于指定的深度学习算法可靠性目标，推荐选择的二级指标；“--”表示不适用。

S32：依据评估对象的可靠性目标，选取评估指标。

根据S2确定的深度学习算法的可靠性目标，依据S31建立的面向可靠性目标等级的可靠性评估指标体系，选择针对评估对象的所需可靠性评估指标。

S4：建立深度学习算法的评估准则；

针对选择的可靠性评估指标体系的指标，建立评估准则：1)当依据表3选取的某一个一级指标下的二级指标全部通过时，判断该一级指标通过评估；否则该一级指标为未通过；2)当依据表3选取的某个阶段的一级指标全部通过时，判断该阶段通过评估；否则该阶段为未通过。

S5：开展面向深度学习算法的可靠性评估工作；

将深度学习算法分为算法需求阶段、算法设计阶段、算法实现阶段和算法运行阶段。从深度学习算法的需求阶段开展可靠性评估工作。如果在实际可靠性评估工作中，算法已经经过前面的阶段，仍应从算法的需求阶段开展可靠性评估工作，并严格按照面向算法的需求阶段、设计阶段、实现阶段及运行的顺序过程依次开展可靠性评估工作。依据S4要求执行评估，判断该阶段是否通过可靠性评估。如果该阶段通过可靠性评估，则进入下一阶段开展相关工作；否则该阶段为未通过，同时本次可靠性评估未通过。如果所有阶段通过可靠性评估，则本次可靠性评估通过。

S6：得出深度学习算法的可靠性评估结论。

各个阶段可靠性评估结果均以评估报告的形式进行输出，其内容应包括以下内容：深度学习算法的可靠性目标；开展可靠性评估的阶段名称；针对算法在该阶段开展可靠性评估工作所选择的二级指标内容；逐条列出所选取的二级指标的评估结果；一级指标可靠性评估结果；该阶段的可靠性评估结果。最后输出本次可靠性评估的评估结论。

以上实施方示例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种深度学习算法的可靠性评估方法，其步骤包括：

1)根据深度学习算法的可靠性要求以及该深度学习算法所在系统的严重性等级，确定该深度学习算法的可靠性目标等级；

2)根据该深度学习算法的可靠性目标等级，从一设定的深度学习算法的可靠性评估指标体系中选择对应的评估指标；

3)根据该深度学习算法对应的评估指标获取该深度学习算法的各评估指标值；

4)根据一设定的深度学习算法的评估准则和该深度学习算法的各评估指标值，评估该深度学习算法的可靠性。

2.如权利要求1所述的方法，其特征在于，所述可靠性目标等级包括：灾难级、严重级、一般级和轻微级；其中，

3.如权利要求1所述的方法，其特征在于，所述可靠性评估指标体系的一级指标包括算法功能实现的正确性、软硬件平台依赖的影响、训练数据集的影响、目标函数的影响、对抗性样本的影响、代码实现的正确性及环境数据的影响；每一一级指标包括若干二级指标，其中，算法功能实现的正确性的二级指标包括：任务指标和响应时间，软硬件平台依赖的影响的二级指标包括：代码规范性和代码漏洞，训练数据集的影响的二级指标包括：欠拟合和过拟合，目标函数的影响的二级指标包括：数据集均衡性、数据集规模、数据集标注质量和数据集污染情况，对抗性样本的影响的二级指标包括：对抗性样本的影响，代码实现的正确性的二级指标包括：深度学习框架的适用性、操作系统差异和硬件架构差异，环境数据的影响的二级指标包括：干扰数据和数据集分布迁移。

4.如权利要求3所述的方法，其特征在于，所述任务指标包括查全率和查准率；其中，查全率：对于给定的数据集，预测为正例的样本占所有正样本的比率；查准率：对于给定的数据集，预测为正例的样本占所有预测出的样本的比率。

5.如权利要求1所述的方法，其特征在于，所述评估准则为：当选取的属于同一一级指标下的二级指标全部通过时，判断该一级指标通过评估；当同一阶段对应的各一级指标全部通过时，判断该阶段通过评估；如果某一阶段评估为未通过，则本次可靠性评估未通过；如果所有阶段均为评估通过，则本次可靠性评估通过。

6.一种深度学习算法的可靠性评估系统，其特征在于，包括可靠性目标等级确定模块、评估指标选取模块、评估指标值获取模块和可靠性评估模块；其中，

7.如权利要求6所述的系统，其特征在于，所述可靠性目标等级包括：灾难级、严重级、一般级和轻微级；其中，

8.如权利要求6所述的系统，其特征在于，所述可靠性评估指标体系的一级指标包括算法功能实现的正确性、软硬件平台依赖的影响、训练数据集的影响、目标函数的影响、对抗性样本的影响、代码实现的正确性及环境数据的影响；每一一级指标包括若干二级指标，其中，算法功能实现的正确性的二级指标包括：任务指标和响应时间，软硬件平台依赖的影响的二级指标包括：代码规范性和代码漏洞，训练数据集的影响的二级指标包括：欠拟合和过拟合，目标函数的影响的二级指标包括：数据集均衡性、数据集规模、数据集标注质量和数据集污染情况，对抗性样本的影响的二级指标包括：对抗性样本的影响，代码实现的正确性的二级指标包括：深度学习框架的适用性、操作系统差异和硬件架构差异，环境数据的影响的二级指标包括：干扰数据和数据集分布迁移。

9.如权利要求8所述的系统，其特征在于，所述任务指标包括查全率和查准率；其中，查全率：对于给定的数据集，预测为正例的样本占所有正样本的比率；查准率：对于给定的数据集，预测为正例的样本占所有预测出的样本的比率；所述评估准则为：当选取的属于同一一级指标下的二级指标全部通过时，判断该一级指标通过评估；当同一阶段对应的各一级指标全部通过时，判断该阶段通过评估；如果某一阶段评估为未通过，则本次可靠性评估未通过；如果所有阶段均为评估通过，则本次可靠性评估通过。

10.一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行权利要求1至5中任一所述方法中各步骤的指令。