CN112132169B

CN112132169B - 信息处理装置和信息处理方法

Info

Publication number: CN112132169B
Application number: CN201910555707.1A
Authority: CN
Inventors: 沈伟; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2023-08-04
Anticipated expiration: 2039-06-25
Also published as: US20200410290A1; JP2021005369A; CN112132169A; US11328179B2

Abstract

公开了一种信息处理装置和信息处理方法。信息处理装置包括：分类损失计算单元，将训练集中的每个样本图像输入到至少两个特征提取部件从而获得样本图像的至少两个特征，并使分类部件基于至少两个特征来计算样本图像的分类损失；样本对抽取单元，从至少两个特征中的至少一对特征中的每对特征，抽取用于计算每对特征之间的互信息的多个样本对；信息损失计算单元，将多个样本对输入到与每对特征对应的机器学习架构，计算每对特征之间的信息损失；以及联合训练单元，以使训练集中的所有样本图像的分类损失和信息损失之和最小的方式来联合调节至少两个特征提取部件、分类部件和机器学习架构的参数，从而获得经训练的至少两个特征提取部件和分类部件。

Description

信息处理装置和信息处理方法

技术领域

本公开涉及图像分类领域，具体涉及一种能够学习到更具有泛化性、更鲁棒的特征的信息处理装置和信息处理方法、以及能够判断训练任务的难易的信息处理装置和信息处理方法。

背景技术

在传统的图像分类方法中，使用基于梯度的优化方式来进行训练，然而，基于梯度的优化训练方式会使提取出的特征的信息量在处理过程中减少，因此在一些场合下并不会学习图像中所有的可判别特征，而只学习那些简单的易于判别的特征，这使得训练得到的分类器的分类精度不理想。

此外，在现有技术中，很难度量训练任务的难易。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于以上问题，本公开的目的是提供能够解决现有技术中的一个或多个缺点的信息处理装置和信息处理方法。

根据本公开的一方面，提供了一种信息处理装置，包括：分类损失计算单元，被配置成将训练集中的每个样本图像输入到至少两个特征提取部件从而获得样本图像的至少两个特征，并使分类部件基于所述至少两个特征来计算样本图像的分类损失；样本对抽取单元，被配置成从所述至少两个特征中的至少一对特征中的每对特征，抽取用于计算每对特征之间的互信息的多个样本对；信息损失计算单元，被配置成将多个样本对输入到与每对特征对应的机器学习架构，计算每对特征之间的信息损失；以及联合训练单元，被配置成以使训练集中的所有样本图像的分类损失和信息损失之和最小的方式来联合调节所述至少两个特征提取部件、分类部件和机器学习架构的参数，从而获得经训练的所述至少两个特征提取部件和分类部件。

根据本公开的另一方面，提供了一种信息处理设备，包括根据上述信息处理装置得到的经训练的所述至少两个特征提取部件和分类部件，其中经训练的所述至少两个特征提取部件被配置成从待分类图像提取特征；以及经训练的分类部件被配置成基于特征对待分类图像进行分类。

根据本公开的另一方面，提供了一种信息处理装置，包括：样本对抽取单元，被配置成从由经训练的分类装置所获得的训练样本图像的至少两个特征中的至少一对特征中的每对特征，抽取用于计算所述每对特征之间的互信息的多个样本对；信息损失计算单元，被配置成将多个样本对输入到与每对特征对应的机器学习架构，计算每对特征之间的信息损失；训练单元，被配置成以使所有训练样本图像的所述信息损失之和最小的方式来调节机器学习架构的参数，从而获得经训练的机器学习架构；以及训练任务难易判断单元，被配置成利用经训练的机器学习架构计算每个训练样本图像的信息损失，并且基于所有训练样本图像的信息损失的均值，判断训练任务的难易。

根据本公开的其它方面，还提供了与上述信息处理装置对应的信息处理方法、用于实现根据本公开的方法的计算机程序代码和计算机程序产品。

在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示出根据本公开实施例的信息处理装置的功能配置示例的框图；

图2是示出根据本公开实施例的信息处理装置的一种示例性实现方式的示意图；

图3示出了根据本公开实施例的对特征图进行变换的示例；

图4(a)和4(b)是示出根据本公开实施例的互信息估计架构的输入和输出的示例的图；

图5是示出根据本公开实施例的信息处理方法的流程示例的流程图；

图6是示出根据本公开另一实施例的信息处理装置的功能配置示例的框图；

图7是示出根据本公开另一实施例的信息处理方法的流程示例的流程图；以及

图8是示出作为本公开实施例中可采用的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其它细节。

下面结合附图详细说明根据本公开的实施例。

首先，将参照图1描述根据本公开实施例的信息处理装置100的功能框图。图1是示出根据本公开实施例的信息处理装置100的功能配置示例的框图。如图1所示，根据本公开实施例的信息处理装置100包括分类损失计算单元102、样本对抽取单元104、信息损失计算单元106以及联合训练单元108。

分类损失计算单元102可以被配置成将训练集中的每个样本图像输入到至少两个特征提取部件从而获得样本图像的至少两个特征，并使分类部件基于至少两个特征来计算针对样本图像的分类损失。

例示而非限制，特征提取部件可以是卷积神经网络(CNN)的卷积层。本领域技术人员可以理解，特征提取部件可以是除了CNN的卷积层之外的其他形式，这里不再累述。在下文中，为了简便，以特征提取部件是CNN的卷积层为例来进行描述。

例示而非限制，上述每个特征可以是三维的特征图。作为示例，在CNN的每个卷积层处，特征图以三维形式存在，该特征图反映样本图像的高阶特征。

图2是示出根据本公开实施例的信息处理装置100的一种示例性实现方式的示意图。

CNN的每个卷积层可以提取每个样本图像的一个特征图，因此，CNN的至少两个卷积层可以提取样本图像的至少两个特征图。在图2中，假设一共有四个卷积层，由于每个卷积层提取出样本图像的一个特征图，因此，一共提取出四个特征图，作为示例，先提取到特征图1，然后提取到特征图2、特征图3以及特征图4。图2中示出的各特征图的长度、宽度以及厚度的尺寸的大小关系只是示意性示例，而不对各特征图的长度、宽度以及厚度的尺寸之间的大小关系进行限制。鉴于通过CNN的卷积层提取图像的特征图的处理是本领域技术人员已知的技术，因此为简洁起见，本文不对其技术细节进行进一步的描述。

作为示例，分类部件基于特征来计算softmax损失，作为分类损失。作为示例，可以利用softmax函数、基于特征图4来计算softmax损失。鉴于对于通过CNN的卷积层提取出的特征图、利用softmax函数来计算softmax损失是本领域技术人员已知的技术，因此为简洁起见，本文不对其技术细节进行进一步的描述。此外，本领域技术人员还可以想到其他方式来计算样本图像的分类损失，这里不再累述。

回到图1，样本对抽取单元104可以被配置成从至少两个特征中的至少一对特征中的每对特征，抽取用于计算每对特征之间的互信息的多个样本对。

CNN具有层次化的多个卷积层，通常情况下，信息每向前传递一层就会有信息损失。也就是说，在CNN的不同卷积层分别提取出的同一样本图像的不同特征图之间，存在前向信息量传递损失。例如，在图2中，特征图1、特征图2、特征图3以及特征图4所包括的信息量逐渐减少。作为示例，每对特征图之间的互信息反映该对特征图之间的相关性。

作为示例，所述至少一对特征包括由至少两个特征提取部件中的相邻两个特征提取部件所提取的一对特征。结合图2进行举例，所述至少一对特征可以包括通过CNN的相邻两个卷积层分别提取的一对特征图，例如，所述至少一对特征图可以包括特征图1和特征图2，或者可以包括特征图2和特征图3，或者可以包括特征图3和特征图4。然而，本公开不限于此。所述至少一对特征还可以是不同特征提取部件所提取出的特征图中的任意一对特征图。

作为示例，样本对抽取单元104可以被配置成将每对特征中的信息少的特征变换成与每对特征中的信息多的特征具有相同的尺寸，将从变换后的每对特征的相同位置抽取的样本对作为用于表征互信息大于预定阈值的正样本对以及将从不同位置抽取的样本对作为用于表征互信息小于或等于预定阈值的负样本对，以及多个样本对包括多个正样本对和多个负样本对。

图3示出了根据本公开实施例的对特征图进行变换的示例。在图3中，以图2中的特征图1和特征图2为例进行变换。如图3所示，特征图1的长度和宽度大于特征图2的长度和宽度。保持特征图1的长度和宽度以及厚度不变，通过上采样将特征图2的长度和宽度变换成与特征图1的长度和宽度相同、而不对特征图2的厚度进行变换，来得到变换后的特征图2’。如图3所示，将从特征图1和特征图2’的相同位置分别抽取的特征向量作为用于表征互信息大于预定阈值的一个正样本对。此外，将从特征图1和特征图2’的不同位置抽取的样本对作为用于表征互信息小于或等于预定阈值的负样本对。例如，在特征图1的一个位置抽取一个特征向量，然后在特征图2’上随机挑选与特征图1的上述一个位置不同的位置，并在特征图2’的所挑选的位置抽取一个特征向量，这样，从特征图1所抽取的特征向量和从特征图2’所抽取的特征向量构成了一个负样本对。作为示例，本领域技术人员可以根据经验设定预定阈值，另外，还可以通过其他方式设定预定阈值，这里不再累述。此外，本领域技术人员还可以想到以其他方式抽取多个样本对，这里不再累述。

作为示例，样本对抽取单元104可以被配置成通过上采样而对信息少的特征进行变换。除了上采样之外，本领域技术人员还可以想到通过其他映射和匹配等的方式将每对特征中的信息少的特征变换成与每对特征中的信息多的特征具有相同的尺寸，这里不再累述。

回到图1，信息损失计算单元106可以被配置成将通过样本对抽取单元104获得的多个样本对输入到与每对特征对应的机器学习架构，计算每对特征之间的信息损失。

例示而非限制，机器学习架构可以是神经网络架构，例如，机器学习架构可以是全连接神经网络。本领域技术人员可以理解，机器学习架构可以是除了神经网络架构之外的架构，这里不再累述。此外，在下文的描述中，为了描述清晰，有时将机器学习架构简称为互信息估计架构(MIE)。

下面结合图2描述信息损失的计算。在图2中，为了简便，示出了每对特征图包括通过CNN的相邻两个卷积层分别提取的一对特征图的示例，并且，在图2中，MIE1用于计算特征图1和特征图2之间的信息损失，MIE2用于计算特征图2和特征图3之间的信息损失，以及MIE3用于计算特征图3和特征图4之间的信息损失。尽管图2中示出了通过MIE1-MIE3计算每对相邻的特征图之间的信息损失，但本公开不限于此。在上文中提到，一对特征图可以是CNN的不同卷积层所提取出的特征图中的任意一对特征图，因此，可以只计算图2中的特征图1、特征图2、特征图3以及特征图4中的至少一对特征图之间的信息损失。

图4(a)和4(b)是示出根据本公开实施例的互信息估计架构的输入和输出的示例的图。在图4(a)和4(b)中，以图3中的特征图1和特征图2’为例进行说明。在图4(a)中，f₁(i,j)表示从特征图1的宽度方向的第i个位置和长度方向的第j个位置、沿着厚度方向所提取出的特征向量，f_2’(i,j)表示从特征图2’的宽度方向的第i个位置和长度方向的第j个位置、沿着厚度方向所提取出的特征向量，也就是说，f₁(i,j)和f_2’(i,j)表示一个正样本对；将该正样本对输入到MIE中，在训练过程中调整MIE等的参数使得MIE的输出为1。在图4(b)中，f₁(i,j)同样表示从特征图1的宽度方向的第i个位置和长度方向的第j个位置、沿着厚度方向所提取出的特征向量，而f_2’(k,l)表示从特征图2’的宽度方向的第k个位置和长度方向的第l个位置、沿着厚度方向所提取出的特征向量，其中，k≠i和/或者l≠j，也就是说，f₁(i,j)和f_2’(k,l)表示一个负样本对；将该负样本对输入到MIE中，在训练过程中调整MIE等的参数使得MIE的输出为0。

作为示例，每对特征图之间的信息损失可以由以下公式(1)计算：

L_d＝-(log(p₁)+log(1–p₀)) (1)

在公式(1)中，p₀为MIE输出为0的概率，p₁为MIE的输出为1的概率。

联合训练单元108可以被配置成以使针对训练集中的所有样本图像的分类损失和信息损失之和最小的方式来联合训练，以调节至少两个特征提取部件、分类部件和机器学习架构的参数，从而获得经训练的至少两个特征提取部件和分类部件。

作为示例，联合训练单元108以使所有样本图像的分类损失和信息损失之和最小的方式迭代地进行反向传播来更新至少两个特征提取部件、分类部件和机器学习架构的参数。在满足条件时迭代结束，从而获得经训练的至少两个特征提取部件、分类部件和机器学习架构。

在现有技术中，以分类器为CNN为例，如果一个训练集中有白色的猫和黑色的狗，当在这样的训练集上训练分类器时，在第一个卷积层会提取出颜色信息(例如，黑和白)和形状信息(例如，猫的形状和狗的形状)，但是，随着卷积层之间的前向信息量传递损失，后面的卷积层提取出的特征图的信息量不断减少，在最后一个卷积层中，可能只保留了颜色信息。因此分类器可能只学会了区分黑色和白色，而忽略了猫和狗的具体形状特征。当测试数据是一只黑色的猫的时候，分类器则会产生错误的判断，误以为是狗。因此，分类器只学习到了用颜色区分类别，而忽略了每个类别的其他潜在特征。

而在根据本公开实施例的信息处理装置100中，计算不同特征提取部件所提取出的特征之间的互信息并使该互信息最大化，减少了特征提取部件之间的信息损失，从而使得分类部件可以获得更多的具有判别性的特征，进而学习到更具有泛化性、更鲁棒的特征，因此可以提高分类精度。仍以包括白色的猫和黑色的狗的训练集为例，在根据本公开实施例的信息处理装置100中，第一个特征提取部件会提取出至少颜色信息(例如，黑和白)和形状信息(例如，猫的形状和狗的形状)。由于能够减少特征提取部件之间的信息损失，因此，第一个特征提取部件后面的特征提取部件所提取出的特征图还会保留上述颜色信息和形状信息，从而学习到更具有泛化性、更鲁棒的特征，进而可以提高分类精度。

与上述信息处理装置实施例相对应地，本公开还提供了信息处理方法的实施例。

图5是示出根据本公开实施例的信息处理方法500的流程示例的流程图。

如图5所示，根据本公开实施例的信息处理方法500包括分类损失计算步骤S502、样本对抽取步骤S504、信息损失计算步骤S506以及联合训练步骤S508。

根据本公开实施例的信息处理方法500在S501开始。

在分类损失计算步骤S502中，将训练集中的每个样本图像输入到至少两个特征提取部件从而获得样本图像的至少两个特征，并使分类部件基于至少两个特征来计算样本图像的分类损失。

作为示例，特征提取部件可以是CNN的卷积层。

作为示例，每个特征可以是三维的特征图。

有关特征提取部件和特征的说明可参见装置实施例中关于分类损失计算单元102和图2的描述，在此不再重复描述。

作为示例，在分类损失计算步骤S502中，分类部件基于特征来计算softmax损失，作为分类损失。

在样本对抽取步骤S504中，从至少两个特征中的至少一对特征中的每对特征，抽取用于计算每对特征之间的互信息的多个样本对。

作为示例，所述至少一对特征包括由至少两个特征提取部件中的相邻两个特征提取部件所提取的一对特征。

作为示例，在样本对抽取步骤S504中，将每对特征中的信息少的特征变换成与每对特征中的信息多的特征具有相同的尺寸，将从变换后的每对特征的相同位置抽取的样本对作为用于表征互信息大于预定阈值的正样本对以及将从不同位置抽取的样本对作为用于表征互信息小于或等于预定阈值的负样本对，以及多个样本对包括多个正样本对和多个负样本对。

作为示例，在样本对抽取步骤S504中，通过上采样而对信息少的特征进行变换。

有关样本对以及对特征图进行变换的说明可参见装置实施例中关于样本对抽取单元104和图3的描述，在此不再重复描述。

在信息损失计算步骤S506中，将多个样本对输入到与每对特征对应的机器学习架构，计算每对特征之间的信息损失。

作为示例，机器学习架构可以是神经网络架构。

有关机器学习架构以及计算特征对之间的信息损失的说明可参见装置实施例中关于信息损失计算单元106和图4的描述，在此不再重复描述。

在联合训练步骤S508中，以使训练集中的所有样本图像的分类损失和信息损失之和最小的方式来联合调节至少两个特征提取部件、分类部件和机器学习架构的参数，从而获得经训练的至少两个特征提取部件和分类部件。

作为示例，在联合训练步骤S508中，以使所有样本图像的分类损失和信息损失之和最小的方式迭代地进行反向传播来更新至少两个特征提取部件、分类部件和机器学习架构的参数。在满足条件时迭代结束，从而获得经训练的至少两个特征提取部件、分类部件和机器学习架构。

根据本公开实施例的信息处理方法500在S509结束。

在根据本公开实施例的信息处理方法500中，计算不同特征提取部件所提取出的特征之间的互信息并使该互信息最大化，减少了特征提取部件之间的信息损失，从而使得分类部件可以获得更多的具有判别性的特征，进而学习到更具有泛化性、更鲁棒的特征，因此可以提高分类精度。

本公开还提供了一种用于对待分类图像进行分类的信息处理装置。在下文中，为了与信息处理装置100相区分，将用于对待分类图像进行分类的信息处理装置称为分类装置。该分类装置包括由信息处理装置100得到的经训练的至少两个特征提取部件和分类部件。在该分类装置中，经训练的至少两个特征提取部件可以被配置成从待分类图像提取特征，其中，特征可以是三维的特征图。经训练的分类部件可以被配置成基于特征对待分类图像进行分类。

由于根据本公开实施例的信息处理装置100中，减少了不同特征提取部件所提取的特征之间的信息损失，使得分类部件可以获得更多的判别性特征，进而学习到更具有泛化性、更鲁棒的特征，因此上述分类装置可以提高分类精度。

与上述用于对待分类图像进行分类的信息处理装置实施例相对应地，本公开还提供了信息处理方法的实施例。

在下文中，为了与信息处理方法500相区分，将用于对待分类图像进行分类的信息处理方法称为分类方法。在该分类方法中，使用由信息处理方法500得到的经训练的至少两个特征提取部件，从待分类图像提取特征，以及，使用由信息处理方法500得到的经训练的分类部件，基于特征对待分类图像进行分类。

由于在根据本公开实施例的信息处理方法500中，减少了不同特征提取部件所提取的特征之间的信息损失，使得分类部件可以获得更多的判别性特征，进而学习到更具有泛化性、更鲁棒的特征，因此上述分类方法可以提高分类精度。

本公开还提供了一种用于判断训练任务的难易的信息处理装置600。图6是示出根据本公开实施例的信息处理装置600的功能配置示例的框图。如图6所示，根据本公开实施例的信息处理装置600包括样本对抽取单元602、信息损失计算单元604、训练单元606以及训练任务难易判断单元608。

样本对抽取单元602可以被配置成从由经训练的分类装置所获得的训练样本图像的至少两个特征中的至少一对特征中的每对特征，抽取用于计算每对特征之间的互信息的多个样本对。

作为示例，利用给定的所有训练样本图像来训练用于分类的分类装置，从而得到经训练的分类装置。作为示例，分类装置可以是CNN。本领域技术人员可以理解，分类装置可以是除了CNN之外的其他形式。分类装置可以从训练样本图像提取特征，例如，可以利用CNN的卷积层提取训练样本图像的特征。在下文中，为了简便，以分类装置是CNN为例来进行描述。

作为示例，上述每个特征可以是三维的特征图。CNN的每个卷积层可以提取每个训练样本图像的一个特征图，因此，CNN的至少两个卷积层可以提取每个训练样本图像的至少两个特征图。此外，假设分类装置经过训练之后，其分类准确度达到预期要求，例如分类准确度达到90％以上。如果没有达到预期要求，可通过增加CNN的网络大小来达到预期要求。

有关特征的具体示例可参见信息处理装置100实施例中关于图2的描述，在此不再重复描述。

CNN具有层次化的多个卷积层，通常情况下，信息每向前传递一层就会有信息损失。也就是说，在CNN的不同卷积层分别提取出的同一训练样本图像的不同特征图之间，存在前向信息量传递损失。作为示例，每对特征图之间的互信息反映该对特征图之间的相关性。

作为示例，所述至少一对特征包括由经训练的分类装置所获得的特征中的相邻特征。然而，本公开不限于此。所述至少一对特征还可以是由经训练的分类装置所获得的特征中的任意一对特征图。

作为示例，样本对抽取单元602可以被配置成将每对特征中的信息少的特征变换成与每对特征中的信息多的特征具有相同的尺寸，将从变换后的每对特征的相同位置抽取的样本对作为用于表征互信息大于预定阈值的正样本对以及将从不同位置抽取的样本对作为用于表征互信息小于或等于预定阈值的负样本对，以及多个样本对包括多个正样本对和多个负样本对。

作为示例，样本对抽取单元602可以被配置成通过上采样而对信息少的特征进行变换。除了上采样之外，本领域技术人员还可以想到通过其他映射和匹配等的方式将每对特征中的信息少的特征变换成与每对特征中的信息多的特征具有相同的尺寸，这里不再累述。

有关样本对以及对特征图进行变换的说明可参见关于样本对抽取单元104和图3的描述，在此不再重复描述。

信息损失计算单元604可以被配置成将多个样本对输入到与每对特征对应的机器学习架构，计算每对特征之间的信息损失。

例示而非限制，机器学习架构可以是神经网络架构，例如，机器学习架构可以是全连接神经网络。本领域技术人员可以理解，机器学习架构可以是除了神经网络架构之外的架构，这里不再累述。

有关计算每对特征之间的信息损失的说明可参见关于信息损失计算单元104和图4的描述，在此不再重复描述。

训练单元606可以被配置成以使所有训练样本图像的信息损失之和最小的方式来调节机器学习架构的参数，从而获得经训练的机器学习架构。

作为示例，训练单元606以使针对所有训练样本图像的信息损失之和最小的方式迭代地进行反向传播来更新机器学习架构的参数。在满足条件时迭代结束，从而获得经训练的机器学习架构。这里需要说明书的是，在训练单元606中，仅调整机器学习架构的参数，而保持经训练的分类装置的参数不变。

训练任务难易判断单元608可以被配置成利用经训练的机器学习架构计算每个训练样本图像的信息损失，并且基于所有训练样本图像的信息损失的均值，判断训练任务的难易。

作为示例，将所有训练样本图像输入到经训练的分类装置和经训练的机器学习架构，来计算每个训练样本图像的信息损失，并且计算有训练样本图像的信息损失的均值。如果该均值大于预定阈值，表示只需要很少的信息就可以完成较高的分类准确度，因此判断训练任务较简单；反之，如果该均值小于或等于预定阈值，表明需要更多信息才能实现较高的分类准确度，因此，判断训练任务较难。

从以上描述可知，根据本公开实施例的信息处理装置600可以根据所有训练样本图像的信息损失的均值容易地判断图像分类训练任务的难易。

与上述信息处理装置实施例相对应地，本公开还提供了用于判断训练任务的难易的信息处理方法的实施例。

图7是示出根据本公开实施例的信息处理方法700的流程示例的流程图。

如图7所示，根据本公开实施例的信息处理方法700包括样本对抽取步骤S702、信息损失计算步骤S704、训练步骤S706以及训练任务难易判断步骤S708。

根据本公开实施例的信息处理方法700在S701开始。

在样本对抽取步骤S702中，从由经训练的分类装置所获得的训练样本图像的至少两个特征中的至少一对特征中的每对特征，抽取用于计算每对特征之间的互信息的多个样本对。

作为示例，分类装置可以是CNN。本领域技术人员可以理解，分类装置可以是除了CNN之外的其他形式。

作为示例，上述每个特征可以是三维的特征图。

有关分类装置和特征的具体描述可参见装置实施例中关于样本对抽取单元602的描述，在此不再重复描述。

作为示例，每对特征图之间的互信息反映该对特征图之间的相关性。

作为示例，在样本对抽取步骤S702中，可以将每对特征中的信息少的特征变换成与每对特征中的信息多的特征具有相同的尺寸，将从变换后的每对特征的相同位置抽取的样本对作为用于表征互信息大于预定阈值的正样本对以及将从不同位置抽取的样本对作为用于表征互信息小于或等于预定阈值的负样本对，以及多个样本对包括多个正样本对和多个负样本对。

作为示例，在样本对抽取步骤S702中，可以通过上采样而对信息少的特征进行变换。除了上采样之外，本领域技术人员还可以想到通过其他映射和匹配等的方式将每对特征中的信息少的特征变换成与每对特征中的信息多的特征具有相同的尺寸，这里不再累述。

在信息损失计算步骤S704中，可以将多个样本对输入到与每对特征对应的机器学习架构，计算每对特征之间的信息损失。

在训练步骤S706中，以使所有训练样本图像的信息损失之和最小的方式来调节机器学习架构的参数，从而获得经训练的机器学习架构。

作为示例，在训练步骤S706中，以使所有训练样本图像的信息损失之和最小的方式迭代地进行反向传播来更新机器学习架构的参数。在满足条件时迭代结束，从而获得经训练的机器学习架构。这里需要说明书的是，在在训练步骤S706中，仅调整机器学习架构的参数，而保持经训练的分类装置的参数不变。

在训练任务难易判断步骤S708中，可以利用经训练的机器学习架构计算每个训练样本图像的信息损失，并且基于所有训练样本图像的信息损失的均值，判断训练任务的难易。

根据本公开实施例的信息处理方法700在S709结束。

从以上描述可知，根据本公开实施例的信息处理方法700可以根据所有训练样本图像的信息损失的均值容易地判断图像分类训练任务的难易。

应指出，尽管以上描述了根据本公开实施例的信息处理装置和方法，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

此外，还应指出，这里的方法实施例是与上述装置实施例相对应的，因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述，在此不再重复描述。

此外，本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述图像处理方法，因此在此未详细描述的内容可参考先前相应部分的描述，在此不再重复进行描述。

相应地，用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图8所示的通用个人计算机800安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图8中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中，也根据需要存储当CPU 801执行各种处理等时所需的数据。

CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805：输入部分806，包括键盘、鼠标等；输出部分807，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分808，包括硬盘等；和通信部分809，包括网络接口卡比如LAN卡、调制解调器等。通信部分809经由网络比如因特网执行通信处理。

根据需要，驱动器810也连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 802、存储部分808中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，根据本公开的技术还可以如下进行配置。

附记1.一种信息处理装置，包括：

分类损失计算单元，被配置成将训练集中的每个样本图像输入到至少两个特征提取部件从而获得所述样本图像的至少两个特征，并使分类部件基于所述至少两个特征来计算所述样本图像的分类损失；

样本对抽取单元，被配置成从所述至少两个特征中的至少一对特征中的每对特征，抽取用于计算所述每对特征之间的互信息的多个样本对；

信息损失计算单元，被配置成将所述多个样本对输入到与所述每对特征对应的机器学习架构，计算所述每对特征之间的信息损失；以及

联合训练单元，被配置成以使所述训练集中的所有样本图像的所述分类损失和所述信息损失之和最小的方式来联合调节所述至少两个特征提取部件、所述分类部件和所述机器学习架构的参数，从而获得经训练的所述至少两个特征提取部件和所述分类部件。

附记2.根据附记1所述的信息处理装置，其中，

所述样本对抽取单元被配置成将所述每对特征中的信息少的特征变换成与所述每对特征中的信息多的特征具有相同的尺寸，将从变换后的每对特征的相同位置抽取的样本对作为用于表征所述互信息大于预定阈值的正样本对以及将从不同位置抽取的样本对作为用于表征所述互信息小于或等于所述预定阈值的负样本对，以及

所述多个样本对包括多个所述正样本对和多个所述负样本对。

附记3.根据附记2所述的信息处理装置，其中，

所述样本对抽取单元被配置成通过上采样而对所述信息少的特征进行所述变换。

附记4.根据附记1所述的信息处理装置，其中，所述至少一对特征包括由所述至少两个特征提取部件中的相邻两个特征提取部件所提取的一对特征。

附记5.根据附记1所述的信息处理装置，其中，所述至少两个特征中的每个特征是三维特征。

附记6.根据附记1所述的信息处理装置，其中，所述机器学习架构是神经网络架构。

附记7.根据附记1所述的信息处理装置，其中，所述特征提取部件是卷积神经网络的卷积层。

附记8.根据附记1所述的信息处理装置，其中，所述分类部件基于所述至少两个特征来计算softmax损失，作为所述分类损失。

附记9.一种信息处理设备，包括根据附记1-8中任一项所述的信息处理装置得到的经训练的所述至少两个特征提取部件和所述分类部件，其中

经训练的所述至少两个特征提取部件被配置成从待分类图像提取特征；以及

经训练的所述分类部件被配置成基于所述特征对所述待分类图像进行分类。

附记10.一种信息处理装置，包括：

样本对抽取单元，被配置成从由经训练的分类装置所获得的训练样本图像的至少两个特征中的至少一对特征中的每对特征，抽取用于计算所述每对特征之间的互信息的多个样本对；

信息损失计算单元，被配置成将所述多个样本对输入到与所述每对特征对应的机器学习架构，计算所述每对特征之间的信息损失；

训练单元，被配置成以使所有训练样本图像的所述信息损失之和最小的方式来调节所述机器学习架构的参数，从而获得经训练的所述机器学习架构；以及

训练任务难易判断单元，被配置成利用经训练的所述机器学习架构计算每个训练样本图像的信息损失，并且基于所有训练样本图像的信息损失的均值，判断训练任务的难易。

附记11.根据附记10所述的信息处理装置，其中，

附记12.根据附记11所述的信息处理装置，其中，

附记13.根据附记10所述的信息处理装置，其中，所述至少一对特征包括由经训练的分类装置所获得的特征中的相邻特征。

附记14.根据附记10所述的信息处理装置，其中，所述至少两个特征中的每个特征是三维特征。

附记15.根据附记10所述的信息处理装置，其中，所述机器学习架构是神经网络架构。

Claims

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，其中，

3.根据权利要求2所述的信息处理装置，其中，

4.根据权利要求1所述的信息处理装置，其中，所述至少一对特征包括由所述至少两个特征提取部件中的相邻两个特征提取部件所提取的一对特征。

5.根据权利要求1所述的信息处理装置，其中，所述至少两个特征中的每个特征是三维特征。

6.根据权利要求1所述的信息处理装置，其中，所述机器学习架构是神经网络架构。

7.根据权利要求1所述的信息处理装置，其中，所述特征提取部件是卷积神经网络的卷积层。

8.根据权利要求1所述的信息处理装置，其中，所述分类部件基于所述至少两个特征来计算softmax损失，作为所述分类损失。

9.一种信息处理设备，包括根据权利要求1-8中任一项所述的信息处理装置得到的经训练的所述至少两个特征提取部件和所述分类部件，其中

10.一种信息处理装置，包括：