CN107273899A

CN107273899A - 对象分类方法和对象分类设备

Info

Publication number: CN107273899A
Application number: CN201610213567.6A
Authority: CN
Inventors: 贾晓飞; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-04-07
Filing date: 2016-04-07
Publication date: 2017-10-20
Anticipated expiration: 2036-04-07
Also published as: CN107273899B

Abstract

本发明公开了一种对象分类方法和对象分类设备。该方法包括：获得包含对象的输入图像中的每一个块的特征向量；基于预定义的字典，构建与每一个块的特征向量对应的稀疏向量，所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域；合并属于对象所在区域的块对应的稀疏向量，以得到表明对象所在区域的合并向量；以及根据所述合并向量，确定对象的种类。

Description

对象分类方法和对象分类设备

技术领域

本发明一般地涉及信息处理领域。具体而言，本发明涉及一种能够对图像中包含的对象进行检测、定位、分类的方法和设备。

背景技术

近年来，基于图像的目标检测和分析技术在各种领域中得到了迅猛的发展。例如，在医疗影像处理领域，可以基于输入的图像，分析组织和器官的病变情况，例如，检测和分类肺部肿瘤等。

目前较为流行的处理方式是基于卷积神经网络(CNN)的。CNN能够自动选择合适的特征进行提取，基于所提取的特征判断图像区域内是否存在目标物体以及目标物体的具体位置。

但是，CNN存在一些使用上的限制。例如，CNN需要针对给定的可能包含对象的矩形区域进行处理。以下为了方便理解，以肿瘤为对象进行描述，本领域技术人员通过阅读以下的说明文字应能理解，本发明所涉及的对象不限于肿瘤。肿瘤的大小和形状都是不确定的，如果设定较大矩形区域，则虽然可能完全包括肿瘤在内，但是也引入了相当多的非肿瘤区域，这会带来对肿瘤的分类的干扰信息，即噪声。另外，数据量的增大会带来效率的降低。如果设定较小矩形区域，则虽然噪声减少，但肿瘤可能不会完整地包含在矩形区域中，导致重要信息的丢失，对肿瘤分类结果造成影响，例如错检和漏检。即便在理想情况下，矩形区域恰好包含完整的肿瘤，但肿瘤区域不是矩形的，所以仍然会引入非肿瘤信息，造成干扰。

此外，CNN还需要全连接层的输入特征具有固定的长度。对象如肿瘤的大小不一、形状各异，当通过CNN自动获取特征时，可能会得到非固定长度的特征向量。

本发明着眼于基于CNN进行对象的检测和分类，但是能够克服以上CNN的不利限制，提高对象分类的准确度。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是提出了一种基于CNN的准确检测和分类对象的方法和设备。

为了实现上述目的，根据本发明的一个方面，提供了一种对象分类方法，该对象分类方法包括：获得包含对象的输入图像中的每一个块的特征向量；基于预定义的字典，构建与每一个块的特征向量对应的稀疏向量，所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域；合并属于对象所在区域的块对应的稀疏向量，以得到表明对象所在区域的合并向量；以及根据所述合并向量，确定对象的种类。

根据本发明的另一个方面，提供了一种对象分类设备，该对象分类设备包括：特征向量获得装置，被配置为：获得包含对象的输入图像中的每一个块的特征向量；稀疏向量构建装置，被配置为：基于预定义的字典，构建与每一个块的特征向量对应的稀疏向量，所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域；稀疏向量合并装置，被配置为：合并属于对象所在区域的块对应的稀疏向量，以得到表明对象所在区域的合并向量；以及对象种类确定装置，被配置为：根据所述合并向量，确定对象的种类。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明的实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了根据本发明的实施例的对象分类方法的流程图。

图2示出了根据本发明的实施例的对象分类设备的结构方框图。

图3示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

下面将参照图1描述根据本发明的实施例的对象分类方法的流程。

图1示出了根据本发明的实施例的对象分类方法的流程图。如图1所示，根据本发明的实施例的对象分类方法包括如下步骤：获得包含对象的输入图像中的每一个块的特征向量(步骤S1)；基于预定义的字典，构建与每一个块的特征向量对应的稀疏向量，所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域(步骤S2)；合并属于对象所在区域的块对应的稀疏向量，以得到表明对象所在区域的合并向量(步骤S3)；以及根据所述合并向量，确定对象的种类(步骤S4)。

在步骤S1中，获得包含对象的输入图像中的每一个块的特征向量。

本发明的基本思想是通过在块的级别上对输入图像进行分析，使得无论对象的大小、形状如何，都可以只取得组成对象的块，从而精确地构建对象区域。因此，CNN所要求的给定矩形区域只需要是包含对象的输入图像本身。CNN提取出的特征向量与输入图像中的每一个块对应。

由于CNN具有自动选择合适特征的能力，因此，可以利用CNN的卷积层，进行这一获得步骤S1。

本发明中利用的CNN的卷积层和目前已有的CNN模型，如Alex网络中的卷积层的网络结构和参数相同。

另外，CNN能够根据输入图像的大小将其切分为适当大小的块。

但是，步骤S1中获得的特征向量是块的特征向量，因此是局部信息，并不是包含完整对象的信息，因此，在后面的步骤S2、S3中，获得代表完整对象且不包含过多噪声信息的合并向量。

具体地，在步骤S2中，基于预定义的字典，构建与每一个块的特征向量对应的稀疏向量，所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域。

步骤S2的目的是为了获知哪些块属于对象所在的区域，从而针对构成对象所在的区域的块进行整合处理。

采取的做法是预先定义一个字典，以用于对块是否属于对象所在的区域进行判断。该预定义的字典由属于训练用输入图像的对象区域的块的特征向量与属于训练用输入图像的非对象区域的块的特征向量组成。这里应注意，构建预定义字典时提及的属于对象区域的块和属于非对象区域的块是训练用输入图像中的块。相应地，属于对象区域的块的特征向量与属于非对象区域的块的特征向量是从训练用输入图像中提取的。提取的方式也是通过CNN网络的卷积层。优选地，从训练用输入图像中随机选取相同数量的属于对象区域的块和属于非对象区域的块。也就是说，预定义的字典中一半的特征向量是属于对象区域的块的特征向量，另一半的特征向量是属于非对象区域的块的特征向量。

举例来说，字典可以包括1024个特征向量，其中，512个特征向量对应于对象所在的区域，512个特征向量对应于非对象区域。

另外，字典的每一列是一个特征向量。字典的列数是稀疏向量的维度，字典的行数是特征向量的维数。

有了字典，就可以对步骤S1中获得的特征向量进行稀疏表示，将其转换为稀疏向量。进而，可以根据稀疏向量，对输入图像进行分割，即分为基于块的对象区域和非对象区域。

基于字典，根据特征向量，构建对应的稀疏向量的公式如下所示。

其中，y_i表示稀疏向量，|| ||²表示求二范数，D表示预定义的字典，x_i表示特征向量，|| ||₀表示求0范数，即作为约束条件，要求y_i中的非零元素的个数最小。

通过上述公式，能够将特征向量转换为稀疏向量，并且稀疏向量中仅有少量元素不为零。

在字典为包括1024个特征向量且512个特征向量对应于对象所在的区域同时512个特征向量对应于非对象区域的字典时，稀疏向量为1024长度(维)的向量。该稀疏向量与块的特征向量对应。并且，该稀疏向量中的每一个元素对应于字典中的一个特征向量。另外，稀疏向量的维数应比特征向量的维数大，优选地，稀疏向量的维数为特征向量维数的几十倍。

稀疏向量的与预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数表明对应块是否属于对象所在的区域。

具体地，当稀疏向量的与预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数大于预定第一阈值时，稀疏向量对应的块属于对象所在的区域。否则，稀疏向量对应的块不属于对象所在的区域。

或者，当稀疏向量的与预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数占稀疏向量的非零元素的总数的比例大于预定第二阈值时，稀疏向量对应的块属于对象所在的区域。否则，稀疏向量对应的块不属于对象所在的区域。

这样，基于预定义的字典，能够确定输入图像的各个块中哪些块属于对象所在的区域，并且获得了这些块的稀疏向量。也就是说，至步骤S2，实现了对象的自动检测。下面，通过合并这些块的稀疏向量，得到了代表对象所在区域的向量。

在步骤S3中，合并属于对象所在区域的块对应的稀疏向量，以得到表明对象所在区域的合并向量。

合并的方法包括但不限于：将属于对象所在区域的块对应的稀疏向量求和，求和结果作为所述合并向量。这种求和式合并的方法的优点在于对象如肿瘤有大有小，通过求和可以保留关于对象大小的信息。与之相比，加和求平均的方法会失去关于对象大小的信息。

另外，通过加和方式得到的合并向量，可以以累加的方式综合各个稀疏向量的信息，类似于投票，因此更有鲁棒性，可靠性更高。

合并的方法还可以是：将属于对象所在区域的块对应的稀疏向量求平均，求平均的结果作为所述合并向量。对于不需要对象大小的信息的应用场景，求平均的方法也是适用的。

可见，至步骤S3，实现了对象的自动定位。

在步骤S4中，根据所述合并向量，确定对象的种类。

具体地，可以利用CNN的全连接层，进行步骤S4中的确定。

如上所述，稀疏向量具有固定的长度，所以合并向量也具有固定的长度。因此，符合CNN对固定长度特征的需求。

对象的种类根据具体的应用情形来确定。例如，当对象是肿瘤时，对象的种类可以包括良性肿瘤和恶性肿瘤。

应理解：全连接层的最后一层的神经元的个数等于对象的种类的数目。

另外，全连接层的其它网络结构与已有CNN网络，如Alex网络的相应部分相同。在训练阶段，可以通过已经标注对象类别的数据训练全连接层的参数。在应用阶段，通过全连接层可以直接输出对象的类别。

可见，至步骤S4，实现了对象的自动分类。

可以理解，对象不限于上述例示的肿瘤，对象也可以是其它适用的目标。例如，对象可以是细胞，对象的种类可以是细胞的类型。或者，对象是细菌，对象的种类是细菌的类型等。只需相应调整训练用图像即可。

下面，将参照图2描述根据本发明的实施例的对象分类设备。

图2示出了根据本发明的实施例的对象分类设备的结构方框图。如图2所示，根据本发明的对象分类设备200包括：特征向量获得装置21，被配置为：获得包含对象的输入图像中的每一个块的特征向量；稀疏向量构建装置22，被配置为：基于预定义的字典，构建与每一个块的特征向量对应的稀疏向量，所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域；稀疏向量合并装置23，被配置为：合并属于对象所在区域的块对应的稀疏向量，以得到表明对象所在区域的合并向量；以及对象种类确定装置24，被配置为：根据所述合并向量，确定对象的种类。

在一个实施例中，所述预定义的字典由属于对象区域的块的特征向量与属于非对象区域的块的特征向量组成，所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数表明对应块是否属于对象所在的区域。

在一个实施例中，当所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数大于预定第一阈值时，对应块属于对象所在的区域。

在一个实施例中，当所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数占所述稀疏向量的非零元素的总数的比例大于预定第二阈值时，对应块属于对象所在的区域。

在一个实施例中，所述属于对象区域的块的特征向量与属于非对象区域的块的特征向量从训练用输入图像获得。

在一个实施例中，从训练用输入图像中随机选取相同数量的属于对象区域的块和属于非对象区域的块。

在一个实施例中，所述稀疏向量合并装置23被进一步配置为：将属于对象所在区域的块对应的稀疏向量求和，求和结果作为所述合并向量。

在一个实施例中，所述稀疏向量合并装置23被进一步配置为：将属于对象所在区域的块对应的稀疏向量求平均，求平均的结果作为所述合并向量。

在一个实施例中，所述特征向量获得装置21利用卷积神经网络的卷积层实现。

在一个实施例中，所述对象种类确定装置24利用所述卷积神经网络的全连接层实现。

在一个实施例中，所述全连接层的最后一层的神经元的个数等于所述对象的种类的数目。

在一个实施例中，所述对象包括肿瘤，所述对象的种类包括良性肿瘤和恶性肿瘤。

由于在根据本发明的对象分类设备200中所包括的各个装置和单元中的处理分别与上面描述的对象分类方法中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些装置和单元的详细描述。

此外，这里尚需指出的是，上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图3所示的通用计算机300)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图3中，中央处理单元(CPU)301根据只读存储器(ROM)302中存储的程序或从存储部分308加载到随机存取存储器(RAM)303的程序执行各种处理。在RAM 303中，还根据需要存储当CPU 301执行各种处理等等时所需的数据。CPU 301、ROM 302和RAM 303经由总线304彼此连接。输入/输出接口305也连接到总线304。

下述部件连接到输入/输出接口305：输入部分306(包括键盘、鼠标等等)、输出部分307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分308(包括硬盘等)、通信部分309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分309经由网络比如因特网执行通信处理。根据需要，驱动器310也可连接到输入/输出接口305。可拆卸介质311比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器310上，使得从中读出的计算机程序根据需要被安装到存储部分308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图3所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质311。可拆卸介质311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 302、存储部分308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

1.一种对象分类方法，包括：

获得包含对象的输入图像中的每一个块的特征向量；

基于预定义的字典，构建与每一个块的特征向量对应的稀疏向量，所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域；

合并属于对象所在区域的块对应的稀疏向量，以得到表明对象所在区域的合并向量；以及

根据所述合并向量，确定对象的种类。

2.如附记1所述的方法，其中，所述预定义的字典由属于对象区域的块的特征向量与属于非对象区域的块的特征向量组成，所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数表明对应块是否属于对象所在的区域。

3.如附记2所述的方法，当所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数大于预定第一阈值时，或者当所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数占所述稀疏向量的非零元素的总数的比例大于预定第二阈值时，对应块属于对象所在的区域。

4.如附记2所述的方法，其中，所述属于对象区域的块的特征向量与属于非对象区域的块的特征向量从训练用输入图像获得。

5.如附记4所述的方法，其中，从训练用输入图像中随机选取相同数量的属于对象区域的块和属于非对象区域的块。

6.如附记1所述的方法，其中，所述合并属于对象所在区域的块对应的稀疏向量包括：

将属于对象所在区域的块对应的稀疏向量求和，求和结果作为所述合并向量。

7.如附记1所述的方法，其中，所述合并属于对象所在区域的块对应的稀疏向量包括：

将属于对象所在区域的块对应的稀疏向量求平均，求平均的结果作为所述合并向量。

8.如附记1所述的方法，其中，利用卷积神经网络的卷积层，进行所述获得步骤，并且利用所述卷积神经网络的全连接层，进行所述确定步骤。

9.如附记8所述的方法，其中，所述全连接层的最后一层的神经元的个数等于所述对象的种类的数目。

10.如附记1所述的方法，其中，所述对象包括肿瘤，所述对象的种类包括良性肿瘤和恶性肿瘤。

11.一种对象分类设备，包括：

特征向量获得装置，被配置为：获得包含对象的输入图像中的每一个块的特征向量；

稀疏向量构建装置，被配置为：基于预定义的字典，构建与每一个块的特征向量对应的稀疏向量，所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域；

稀疏向量合并装置，被配置为：合并属于对象所在区域的块对应的稀疏向量，以得到表明对象所在区域的合并向量；以及

对象种类确定装置，被配置为：根据所述合并向量，确定对象的种类。

12.如附记11所述的设备，其中，所述预定义的字典由属于对象区域的块的特征向量与属于非对象区域的块的特征向量组成，所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数表明对应块是否属于对象所在的区域。

13.如附记12所述的设备，当所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数大于预定第一阈值时，或者当所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数占所述稀疏向量的非零元素的总数的比例大于预定第二阈值时，对应块属于对象所在的区域。

14.如附记12所述的设备，其中，所述属于对象区域的块的特征向量与属于非对象区域的块的特征向量从训练用输入图像获得。

15.如附记14所述的设备，其中，从训练用输入图像中随机选取相同数量的属于对象区域的块和属于非对象区域的块。

16.如附记11所述的设备，其中，所述稀疏向量合并装置被进一步配置为：

17.如附记11所述的设备，其中，所述稀疏向量合并装置被进一步配置为：

18.如附记11所述的设备，其中，所述特征向量获得装置利用卷积神经网络的卷积层实现，并且所述对象种类确定装置利用所述卷积神经网络的全连接层实现。

19.如附记18所述的设备，其中，所述全连接层的最后一层的神经元的个数等于所述对象的种类的数目。

20.如附记11所述的设备，其中，所述对象包括肿瘤，所述对象的种类包括良性肿瘤和恶性肿瘤。

Claims

1.一种对象分类方法，包括：

获得包含对象的输入图像中的每一个块的特征向量；

根据所述合并向量，确定对象的种类。

2.如权利要求1所述的方法，其中，所述预定义的字典由属于对象区域的块的特征向量与属于非对象区域的块的特征向量组成，所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数表明对应块是否属于对象所在的区域。

3.如权利要求2所述的方法，当所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数大于预定第一阈值时，或者当所述稀疏向量的与所述预定义的字典中属于对象区域的块的特征向量对应的非零元素的个数占所述稀疏向量的非零元素的总数的比例大于预定第二阈值时，对应块属于对象所在的区域。

4.如权利要求2所述的方法，其中，所述属于对象区域的块的特征向量与属于非对象区域的块的特征向量从训练用输入图像获得。

5.如权利要求4所述的方法，其中，从训练用输入图像中随机选取相同数量的属于对象区域的块和属于非对象区域的块。

6.如权利要求1所述的方法，其中，所述合并属于对象所在区域的块对应的稀疏向量包括：

7.如权利要求1所述的方法，其中，所述合并属于对象所在区域的块对应的稀疏向量包括：

8.如权利要求1所述的方法，其中，利用卷积神经网络的卷积层，进行所述获得步骤，并且利用所述卷积神经网络的全连接层，进行所述确定步骤。

9.如权利要求1所述的方法，其中，所述全连接层的最后一层的神经元的个数等于所述对象的种类的数目。

10.一种对象分类设备，包括：