CN107346448A

CN107346448A - 基于深度神经网络的识别装置、训练装置及方法

Info

Publication number: CN107346448A
Application number: CN201610298158.0A
Authority: CN
Inventors: 王淞; 范伟; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2017-11-14
Anticipated expiration: 2036-05-06
Also published as: US11049007B2; US20170323202A1; KR20170125720A; CN107346448B; JP2017201526A; JP6922387B2; KR102048390B1; EP3242255A1

Abstract

本发明实施例提供一种基于深度神经网络的识别装置、训练装置及方法，其中，所述深度神经网络是通过将包括正样本和负样本的训练样本输入到深度神经网络的输入层中进行训练而得到的，所述识别装置包括：判定单元，所述判定单元用于当所述深度神经网络的输出层输出的分类结果中各个正样本分类的置信度均小于预定阈值时，判定待识别样本是疑似异常样本。这样，能够有效的提高深度神经网络输出的分类结果置信度的可靠性。

Description

基于深度神经网络的识别装置、训练装置及方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于深度神经网络的识别装置、训练装置及方法。

背景技术

近年来，随着信息技术的不断发展，基于深度神经网络(Deep Neural Network，DNN)的识别方法在分类领域取得了巨大的成功。现有的深度神经网络是一种层级模型，图1是现有的深度神经网络的示意图，如图1所示，现有的深度神经网络由一个输入层101、若干个隐含层102和一个输出层103组成。其中，输入层101一般输入待处理的数据；隐含层102的类型可以包括卷积层、池化层或全连接层等；对于分类问题而言，输出层103可以是分类器，例如softmax分类器或支持向量机(SupportVector Machine，SVM)等。

现有的深度神经网络在进行训练时，一般以网络损失(又称为分类误差)最小化作为优化目标，优化方法为后向传播算法。图2是现有的对深度神经网络进行训练的示意图，如图2所示，首先，将训练样本输入到输入层101，并且信息随着深度神经网络做前向传播，经由各隐含层102传播到输出层103，输出层103所输出的分类结果与训练样本的类别的真值进行比较，得到网络损失；然后，该网络损失逐层回传，从而修正输出层103、隐含层102、以及输入层101中每一层的参数。重复进行上述步骤，直到该网络损失满足一定的收敛条件，则认为达到了深度神经网络的优化目标，训练结束。

图3是利用由现有训练方法训练后的深度神经网络进行识别的示意图。如图3所示，当输入的待识别样本是一个异常样本(例如，负样本)时，输出的各个正样本分类的置信度分别为3％、7％和90％。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

当利用由现有训练方法训练后的深度神经网络进行识别时，在输入的待识别样本为异常样本的情况下，输出分类结果中某一种正样本分类的置信度(例如图3中的90％)依然很高，从而导致该分类结果不可靠。

本发明实施例提供一种基于深度神经网络的识别装置、训练装置及方法，通过将包括正样本和负样本的训练样本输入到深度神经网络的输入层中进行训练，并且在输出的各个正样本分类的置信度均小于预定阈值时判定待识别样本是疑似异常样本，能够有效的提高深度神经网络输出的分类结果置信度的可靠性。

根据本发明实施例的第一方面，提供一种基于深度神经网络的识别装置，所述深度神经网络是通过将包括正样本和负样本的训练样本输入到深度神经网络的输入层中进行训练而得到的，所述装置包括：判定单元，所述判定单元用于当所述深度神经网络的输出层输出的分类结果中各个正样本分类的置信度均小于预定阈值时，判定待识别样本是疑似异常样本。

根据本发明实施例的第二方面，提供一种深度神经网络的训练装置，包括：输入单元，其用于将包括正样本和负样本的训练样本输入到深度神经网络的输入层中；设置单元，其用于对于所述训练样本中的正样本，将所述正样本所在正样本分类的真值标签设为1，并将其他正样本分类的真值标签设为0；对于所述训练样本中的负样本，将所有正样本分类的真值标签均设为0；输出单元，其用于使得所述深度神经网络的输出层输出所述训练样本与各个正样本分类的相似度。

根据本发明实施例的第三方面，提供一种电子设备，所述电子设备包括根据本发明实施例的第一方面所述的识别装置或本发明实施例的第二方面所述的训练装置。

本发明的有益效果在于：通过将包括正样本和负样本的训练样本输入到深度神经网络的输入层中进行训练，并且在输出的各个正样本分类的置信度均小于预定阈值时判定待识别样本是疑似异常样本，能够有效的提高深度神经网络输出的分类结果置信度的可靠性。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是现有的深度神经网络的示意图；

图2是现有的对深度神经网络进行训练的示意图；

图3是利用由现有训练方法训练后的深度神经网络进行识别的示意图；

图4是本发明实施例1基于深度神经网络的识别装置的示意图；

图5是本发明实施例1的利用深度神经网络进行识别的一个示意图；

图6是本发明实施例1的利用深度神经网络进行识别的另一个示意图；

图7是本发明实施例1的深度神经网络的训练装置的示意图；

图8是本发明实施例1的对深度神经网络进行训练的一个示意图；

图9是本发明实施例1的对深度神经网络进行训练的另一个示意图；

图10是本发明实施例1的将负样本分类及其置信度设置为无效的示意图；

图11是本发明实施例2的电子设备的示意图；

图12是本发明实施例2的电子设备的系统构成的示意框图；

图13是本发明实施例3的基于深度神经网络的识别方法的示意图；

图14是本发明实施例3的深度神经网络的训练方法的示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

图4是本发明实施例1基于深度神经网络的识别装置的示意图。如图4所示，该装置400包括：

判定单元401，用于当深度神经网络的输出层输出的分类结果中各个正样本分类的置信度均小于预定阈值时，判定待识别样本是疑似异常样本。

在本实施例中，该深度神经网络(DNN)是通过将包括正样本和负样本的训练样本输入到深度神经网络的输入层中进行训练而得到的。

在本实施例中，该装置400可以包括该深度神经网络，也可以不包括该深度神经网络，而是利用该深度神经网络的输出分类结果进行判定。

由上述实施例可知，通过将包括正样本和负样本的训练样本输入到深度神经网络的输入层中进行训练，并且在输出的各个正样本分类的置信度均小于预定阈值时判定待识别样本是疑似异常样本，能够有效的提高深度神经网络输出的分类结果置信度的可靠性。

在本实施例中，该深度神经网络可以是现有的任一种深度神经网络，例如，该深度神经网络是现有的卷积神经网络(Convolutional Neural Network，CNN)。该深度神经网络可以包括一个输入层、若干个隐含层和一个输出层。

在本实施例中，该深度神经网络的输出层输出的分类结果中仅包括各个正样本分类以及相应正样本分类的置信度，而不包括负样本分类及其置信度。

在本实施例中，该异常样本指的是不包括在该深度神经网络的输出层输出的各个正样本分类中的样本，即，该异常样本是负样本。而待识别样本是疑似异常样本，指的是该待识别样本有可能是异常样本。

在本实施例中，正样本分类的置信度可以用待识别样本与各个正样本分类的相似度来表示，也可以用待识别样本属于各个正样本分类的概率来表示，本发明实施例不对该置信度的表示方法进行限制。

在本实施例中，当输入的待识别样本为异常样本时，该深度神经网络的输出层输出的各个正样本分类的置信度之和可以不为1。

图5是本发明实施例1的利用深度神经网络进行识别的一个示意图。如图5所示，输入的待识别样本为五角星形样本，即，该待识别样本为异常样本，该深度神经网络输出的各个正样本分类的置信度用待识别样本与各个正样本分类的相似度来表示，其输出的分类结果分别为方形0.1、圆形0.15、三角形0.25。

图6是本发明实施例1的利用深度神经网络进行识别的另一个示意图。如图6所示，输入的待识别样本为五角星形样本，即，该待识别样本为异常样本，该深度神经网络输出的各个正样本分类的置信度以属于各个正样本分类的概率表示，其输出结果分别为方形5％、圆形10％、三角形20％。

在本实施例中，该预定阈值可根据实际需要而设置，例如，该预定阈值为0.3。这样，由于图5和图6中的该深度神经网络输出的各个正样本分类的置信度均小于0.3，判定单元401判定该待识别样本为异常样本。

在本实施例中，该深度神经网络(DNN)是通过将包括正样本和负样本的训练样本输入到深度神经网络的输入层中进行训练而得到的。下面，根据识别过程中正样本分类的置信度用待识别样本与各个正样本分类的相似度来表示或者用待识别样本属于各个正样本分类的概率来表示这两种情况，分别对本发明实施例的深度神经网络的训练装置以及训练方法进行示例性的说明。

图7是本发明实施例1的深度神经网络的训练装置的示意图。如图7所示，该装置700包括：

输入单元701，其用于将包括正样本和负样本的训练样本输入到深度神经网络的输入层中；

设置单元702，其用于对于该训练样本中的正样本，将该正样本所在正样本分类的真值标签设为1，并将其他正样本分类的真值标签设为0；对于该训练样本中的负样本，将所有正样本分类的真值标签均设为0；

输出单元703，其用于使得该深度神经网络的输出层输出该训练样本与各个正样本分类的相似度。

在本实施例中，将训练样本输入到深度神经网络中之后，设置单元702对该深度神经网络的各个正样本分类的真值标签进行设置。

图8是本发明实施例1的对深度神经网络进行训练的一个示意图。如图8所示，对于训练样本中的正样本方形，将该正样本所在正样本分类的真值标签设为1，并将其他正样本分类的真值标签设为0；对于该训练样本中的负样本五角星形，将所有正样本分类的真值标签均设为0。

这样，对于训练样本中的负样本直接将所有正样本分类的真值标签均设为0，并且仅输出该训练样本与各个正样本分类的相似度，能够提高识别时输出的相似度的可靠性。

在本实施例中，输出单元703可以使用现有方法使得该深度神经网络的输出层输出该训练样本与各个正样本分类的相似度，例如，使用sigmoid层作为输出层，在训练过程中，该深度神经网络输出的该训练样本与各个正样本分类的相似度的初始值可以使用现有方法设定，例如，随机设定该相似度的初始值。

在本实施例中，该训练样本与各个正样本分类的相似度例如可以用欧氏距离来表示，但是本发明实施例不对该相似度的表示方法进行限制。

在本实施例中，该相似度为小于1的正数，不需要对该相似度进行归一化。也就是说，该深度神经网络的输出层输出该训练样本与各个正样本分类的相似度之和可以不为1。

在本实施例中，如图7所示，该装置700还可以包括：

获取单元704，其用于根据该深度神经网络的输出层输出的该训练样本与各个正样本分类的相似度、以及根据该真值标签获得的该训练样本的真值，获得网络损失；

调整单元705，其用于对于该训练样本中的正样本，根据预设的权重对该网络损失进行调整；以及

后向传播单元706，其用于根据调整后的该网络损失进行该深度神经网络的后向传播。

在本实施例中，训练样本的真值通过设置单元702设置的真值标签而获得，获取单元704获得网络损失(又称为分类误差)的方法可以使用现有方法而获得，例如，将该深度神经网络输出的该训练样本与各个正样本分类的相似度与该训练样本的真值之差作为网络损失。

在本实施例中，调整单元705可以根据以下的公式(1)对网络损失进行调整：

其中，l′表示调整后的网络损失；l表示调整前的网络损失，w表示预设的权重，w为大于或小于1的正数，s∈{negative}表示当前训练样本为负样本，s∈{positive}表示当前训练样本为正样本。

在本实施例中，该预设的权重可根据实际情况而设置，例如，当负样本较为简单时，将预设的权重设置为小于1的正数，当负样本较为复杂时，将预设的权重设置为大于1的正数。

这样，通过设置正样本的权重而对网络损失进行调整，能够进一步提高深度神经网络输出的分类结果的可靠性。

在本实施例中，后向传播单元706根据调整后的该网络损失进行该深度神经网络的后向传播的方法可使用现有方法。

例如，修正该深度神经网络的输出层、隐含层以及输入层中每一层的参数，重复进行上述调整步骤，直到该网络损失满足一定的收敛条件为止。

上面是针对识别过程中正样本分类的置信度用待识别样本与各个正样本分类的相似度来表示的情况，对本发明实施例的深度神经网络的训练装置以及训练方法进行示例性的说明。下面，针对识别过程中正样本分类的置信度用待识别样本属于各个正样本分类的概率来表示的情况，对本发明实施例的深度神经网络的训练方法进行示例性的说明。

图9是本发明实施例1的对深度神经网络进行训练的另一个示意图。该深度神经网络的输出层例如为softmax层。如图9所示，其输出的分类结果包括各个正样本分类及该训练样本属于各个正样本分类的概率以及负样本分类以及该训练样本属于负样本分类的概率。

在本实施例中，对于识别过程中正样本分类的置信度用待识别样本属于各个正样本分类的概率来表示的情况，在对深度神经网络进行训练时，也可以使用调整单元705对网络损失进行调整，其调整方法与前面的记载相同，此处不再赘述。

在本实施例中，当训练过程中深度神经网络的输出结果包括负样本分类及其置信度时，如图4所示，该识别装置400还可以包括：

无效单元402，其用于当该深度神经网络的输出层输出分类结果时，将负样本分类以及负样本分类的置信度设置为无效。

在本实施例中，无效单元402为可选部件，在图4中用虚线框表示。

图10是本发明实施例1的将负样本分类及其置信度设置为无效的示意图。如图10所示，识别过程中输出的各个正样本分类及其概率分别为方形5％、圆形10％、三角形20％，负样本分类的概率为65％，将该负样本分类及其概率设置为无效，即不输出该负样本分类及其概率。这样，识别过程中输出的各个分类结果的概率之和小于100％。

这样，由于仅输出正样本分类及其置信度，能够进一步提高输出的分类结果置信度的可靠性。

实施例2

本发明实施例还提供了一种电子设备，图11是本发明实施例2的电子设备的示意图。如图11所示，电子设备1100包括基于深度神经网络的识别装置1101或深度神经网络的训练装置1102，其中，识别装置1101以及训练装置1102的结构和功能与实施例1中的记载相同，此处不再赘述。

图12是本发明实施例2的电子设备的系统构成的示意框图。如图12所示，电子设备1200可以包括中央处理器1201和存储器1202；存储器1202耦合到中央处理器1201。该图是示例性的；还可以使用其它类型的结构，来补充或代替该结构，以实现电信功能或其它功能。

如图12所示，该电子设备1200还可以包括：输入单元1203、显示器1204、电源1205。

在一个实施方式中，实施例1所述的基于深度神经网络的识别装置的功能可以被集成到中央处理器1201中。其中，中央处理器1201可以被配置为：当所述深度神经网络的输出层输出的分类结果中各个正样本分类的置信度均小于预定阈值时，判定待识别样本是疑似异常样本。

其中，所述各个正样本分类的置信度是所述待识别样本与各个正样本分类的相似度。

其中，中央处理器1201还可以被配置为：当所述深度神经网络的输出层输出所述分类结果时，将负样本分类以及所述负样本分类的置信度设置为无效。

在另一个实施方式中，实施例1所述的深度神经网络的训练装置的功能可以被集成到中央处理器1201中。其中，中央处理器1201可以被配置为：将包括正样本和负样本的训练样本输入到深度神经网络的输入层中；对于所述训练样本中的正样本，将所述正样本所在正样本分类的真值标签设为1，并将其他正样本分类的真值标签设为0；对于所述训练样本中的负样本，将所有正样本分类的真值标签均设为0；使得所述深度神经网络的输出层输出所述训练样本与各个正样本分类的相似度。

其中，中央处理器1201还可以被配置为：根据所述深度神经网络的输出层输出的所述训练样本与各个正样本分类的相似度、以及根据所述真值标签获得的所述训练样本的真值，获得网络损失；对于所述训练样本中的正样本，根据预设的权重对所述网络损失进行调整；根据调整后的所述网络损失进行所述深度神经网络的后向传播。

在本实施例中电子设备1200也并不是必须要包括图12中所示的所有部件。

如图12所示，中央处理器1201有时也称为控制器或操作控件，可以包括微处理器或其它处理器装置和/或逻辑装置，中央处理器1201接收输入并控制电子设备1200的各个部件的操作。

存储器1202，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且中央处理器1201可执行该存储器1202存储的该程序，以实现信息存储或处理等。其它部件的功能与现有类似，此处不再赘述。电子设备1200的各部件可以通过专用硬件、固件、软件或其结合来实现，而不偏离本发明的范围。

实施例3

本发明实施例还提供一种基于深度神经网络的识别方法，其对应于实施例1的基于深度神经网络的识别装置。图13是本发明实施例3的基于深度神经网络的识别方法的示意图。如图13所示，该方法包括：

步骤1301：当深度神经网络的输出层输出的分类结果中各个正样本分类的置信度均小于预定阈值时，判定待识别样本是疑似异常样本。

图14是本发明实施例3的深度神经网络的训练方法的示意图。如图14所示，该方法包括：

步骤1401：将包括正样本和负样本的训练样本输入到深度神经网络的输入层中；

步骤1402：对于训练样本中的正样本，将该正样本所在正样本分类的真值标签设为1，并将其他正样本分类的真值标签设为0；对于训练样本中的负样本，将所有正样本分类的真值标签均设为0；

步骤1403：使得该深度神经网络的输出层输出该训练样本与各个正样本分类的相似度。

在本实施例中，判定待识别样本的方法、设置真值标签的方法以及输出相似度的方法与实施例1中的记载相同，此处不再赘述。

本发明实施例还提供一种计算机可读程序，其中当在基于深度神经网络的识别装置、深度神经网络的训练装置或电子设备中执行所述程序时，所述程序使得计算机在所述基于深度神经网络的识别装置、深度神经网络的训练装置或电子设备中执行实施例3所述的识别方法或训练方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在基于深度神经网络的识别装置、深度神经网络的训练装置或电子设备中执行实施例3所述的识别方法或训练方法。

结合本发明实施例描述的在基于深度神经网络的识别装置、深度神经网络的训练装置或电子设备中执行识别方法或训练方法可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图4和图7中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图13和图14所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若设备(例如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对图4和图7描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图4和图7描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

Claims

1.一种基于深度神经网络的识别装置，所述深度神经网络是通过将包括正样本和负样本的训练样本输入到深度神经网络的输入层中进行训练而得到的，

所述装置包括：

判定单元，所述判定单元用于当所述深度神经网络的输出层输出的分类结果中各个正样本分类的置信度均小于预定阈值时，判定待识别样本是疑似异常样本。

2.根据权利要求1所述的装置，其中，所述各个正样本分类的置信度是所述待识别样本与各个正样本分类的相似度。

3.根据权利要求1所述的装置，其中，所述装置还包括：

无效单元，所述无效单元用于当所述深度神经网络的输出层输出所述分类结果时，将负样本分类以及所述负样本分类的置信度设置为无效。

4.一种深度神经网络的训练装置，包括：

输入单元，所述输入单元用于将包括正样本和负样本的训练样本输入到深度神经网络的输入层中；

设置单元，所述设置单元用于对于所述训练样本中的正样本，将所述正样本所在正样本分类的真值标签设为1，并将其他正样本分类的真值标签设为0；对于所述训练样本中的负样本，将所有正样本分类的真值标签均设为0；

输出单元，所述输出单元用于使得所述深度神经网络的输出层输出所述训练样本与各个正样本分类的相似度。

5.根据权利要求4所述的装置，其中，所述装置还包括：

获取单元，所述获取单元用于根据所述深度神经网络的输出层输出的所述训练样本与各个正样本分类的相似度、以及根据所述真值标签获得的所述训练样本的真值，获得网络损失；

调整单元，所述调整单元用于对于所述训练样本中的正样本，根据预设的权重对所述网络损失进行调整；

后向传播单元，其用于根据调整后的所述网络损失进行所述深度神经网络的后向传播。

6.根据权利要求5所述的装置，其中，所述调整单元根据以下的公式(1)对所述网络损失进行调整：

7.一种电子设备，包括根据权利要求1所述的识别装置或权利要求4所述的训练装置。