CN108875762A

CN108875762A - 分类器训练方法、图像识别方法和图像识别设备

Info

Publication number: CN108875762A
Application number: CN201710343028.9A
Authority: CN
Inventors: 于小亿; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2018-11-23
Anticipated expiration: 2037-05-16
Also published as: CN108875762B

Abstract

本公开涉及一种分类器训练方法、图像识别方法和图像识别设备。所述分类器训练方法包括：将训练图像与待匹配图像进行颜色空间转换以分别获得单通道训练图像和单通道待匹配图像；获得所述单通道训练图像的反色图像；将所述单通道训练图像、所述反色图像和所述单通道待匹配图像组合为三通道信息；对所述三通道信息进行标注；以及，用标注后的所述三通道信息训练分类器。

Description

分类器训练方法、图像识别方法和图像识别设备

技术领域

本申请涉及信息处理领域，具体地涉及一种分类器训练方法、图像识别方法和设备。

背景技术

需将一个图像与另一个图像的局部匹配时，传统方法利用传统的图像整体匹配技术。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本发明的一个方面，提供了一种分类器训练方法，包括：将训练图像与待匹配图像进行颜色空间转换以分别获得单通道训练图像和单通道待匹配图像；获得所述单通道训练图像的反色图像；将所述单通道训练图像、所述反色图像和所述单通道待匹配图像组合为三通道信息；对所述三通道信息进行标注；以及用标注后的所述三通道信息训练分类器。

根据本发明的另一个方面，提供了一种图像识别方法，用于判断测试图像是否与待匹配图像的局部匹配，包括：将测试图像与待匹配图像进行颜色空间转换以分别获得单通道测试图像和单通道待匹配图像；获得所述单通道测试图像的反色图像；将所述单通道测试图像、所述反色图像和所述单通道待匹配图像组合为三通道信息；和将所述三通道信息输入已训练好的分类器中以判断所述测试图像是否与所述待匹配图像的局部匹配。

根据本发明的又另一方面，提供了一种图像识别设备，包括其上存储有指令的存储器，所述指令在由处理器执行时实施上述图像识别方法。

根据本发明的其它方面，还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。

根据本发明的分类器训练方法、图像识别方法及设备和程序，通过对训练图像或测试图像和待匹配图像分别进行颜色空间转换并且获得单通道训练图像或测试图像的反色而得到的三通道信息来训练分类器，实现了更快的匹配速度、更好的匹配精度和鲁棒性。

通过以下结合附图对本发明的优选实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本申请的以上和其它优点和特征，下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本申请的典型示例，而不应看作是对本申请的范围的限定。在附图中：

图1是根据本公开的一个实施方式的图像识别方法的流程图；

图2是根据本公开的一个实施方式的分类器训练方法的流程图；

图3是根据本公开的一个实施方式的图像识别设备的示意性框图；

图4A示出了通过颜色空间转换所获得的图像的示例；

图4B示出了通过使经过颜色空间转换的图像中的文字笔画随机变形且拉伸成与待匹配图像相同的大小所获得的图像的示例；

图4C示出了通过将针对训练图像、训练图像的反色图像和待匹配图像的三通道信息合成所获得的图像的示例；

图4D示出了已标注的正样本和负样本的示例；和

图5是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其他细节。

下文中的描述按如下顺序进行：

1.图像识别方法

2.分类器训练方法

3.图像识别设备

4.本申请的方法和设备的应用

5.用以实施本申请的装置和方法的计算设备

[1.图像识别方法]

应理解，在本公开中，图像的识别是指识别图像中的任何特征，例如(但不限于)文字、人脸、车辆、建筑物或任何环境特征等等。下面以识别图像中的文字为例描述本公开的各实施方式。

图1示出了根据本公开的一个实施方式的图像识别方法的流程图。如图1所示，方法开始于步骤101，其中，将测试图像(以下称为图像A)与待匹配图像(以下称为图像B)进行颜色空间转换以分别获得单通道测试图像和单通道待匹配图像。具体地，在本实施方式中，例如，将图像A和图像B从RGB颜色空间转换到Lab-a(即Lab中的)颜色空间。如已知的，Lab颜色空间是由明度(L)和有关色彩的a、b三个要素组成，其中，L表示明度，a表示从洋红色至绿色的范围，以及b表示从黄色至蓝色的范围。应理解，本公开不限于Lab颜色空间，而是可以根据例如图像的颜色、亮度等因素将图像转换到任何合适的颜色空间，例如HSV颜色空间。

接着，在步骤102中，获得单通道测试图像的反色图像。在本实施方式中，例如，获得Lab-a图像A的反色图像。

注意，图1中以虚线框显示步骤102a表示该步骤是可选的，其中，将单通道测试图像转换成与单通道待匹配图像相同的尺寸。具体地，在本实施方式中，例如，将Lab-a图像A转换成与Lab-a图像B相同的尺寸。应理解，步骤102a只是为了在图像尺寸存在差异的情况下，使得图像大小匹配起来，以使三通道图像的信息更加完整，从而使分类器的训练和分类效果更佳。

然后，在步骤103中，将单通道测试图像、反色图像和单通道待匹配图像组合为三通道信息。具体地，在本实施方式中，例如，将Lab-a图像A及其反色图像和Lab-a图像B组合为三通道图像。应理解，在图像识别的领域中，传统上是将RGB(即红、绿、蓝三个色彩通道)颜色空间的图像即由RGB值构成的矩阵输入分类器中进行识别。因此，为了使本公开适用于传统的分类器，用单通道图像A及其反色图像和单通道图像B这三个维度来代替红、绿、蓝三个色彩通道。

接着，在步骤104中，将上述三通道信息输入已训练好的分类器中。具体地，在本实施方式中，例如，将由Lab-a图像A及其反色图像和Lab-a图像B组成的三通道信息输入到已训练好的分类器中。在本公开中，例如可以使用多层多通道卷积神经网络作为分类器。众所周知，卷积神经网络是一种高效识别方法，其能够在不对图像进行复杂的前期预处理的情况下直接输入原始图像，因而其对于本公开的各实施方式来说更为优选。然而，应理解，本公开不限于此，而是可以使用现有技术中已知的任何合适的分类器，例如SVM(支持向量机)等。

最后，在步骤105中，已训练好的分类器对上述三通道图像进行识别，以判断测试图像是否与待匹配图像的局部匹配。具体地，在本实施方式中，例如，如果图像B的局部包含图像A，则输出1；相反的情况则输出0。

应理解，虽然图1显示为依次执行可选的步骤102a和步骤102，但是本公开不限于此，而是可以根据需要任意安排步骤102和步骤102a的执行顺序。

[2.分类器训练方法]

下面参考图2描述根据本公开的一个实施方式的分类器训练方法。利用根据本实施方式的方法而训练的分类器模型如可以例如用于上述实施方式中的图像识别方法。

在本实施方式的方法中，步骤201至203类似于图1中的步骤101-103，且可选的步骤202b类似于图1中的步骤102a。因此，在这里不再赘述。

如图2所示，可以可选地执行步骤202a，其中，使单通道训练图像中的文字笔画随机变形。具体地，在本实施方式中，例如，使Lab-a图像A中的文字笔画随机变形。笔画随机变形是一种已知的技术，即使笔画的粗细、起伏程度等随机变化，因此在这里不再赘述。应理解，对Lab-a图像A进行笔画随机变形只是为了丰富训练分类器的样本的数量以增加分类器模型的普适性，因而该步骤是可选的。

在将单通道训练图像、反色图像和单通道待匹配图像组合为三通道信息的步骤203之后，执行步骤204，其中，对三通道信息进行标注，即判定待匹配图像(图像B)的局部是否与训练图像(图像A)匹配，是则标注为正样本；否则标注为负样本。

最后，在步骤205中，用所标注的正样本和负样本训练分类器。应理解，为了获得充足的训练样本，本实施方式的分类器训练方法可以迭代地进行以根据需要收集一定数量的样本来训练分类器，从而得到分类器模型。

应理解，本领域技术人员在实施本实施方式的方法时，可以根据需要执行步骤202a和202b二者，或者仅执行其中之一。

还应理解，虽然按照图2中的箭头顺序为依次执行可选的步骤202a、可选的202b和步骤202，但是这三个步骤的先后执行顺序并不影响本公开方案的实施效果。因此，步骤202a、202b和202不限于图2所示的顺序，而是可以根据需要任意安排这三个步骤的执行顺序。

[3.图像识别设备]

以上所讨论的方法可以完全由计算机可执行的程序来实现，也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时，或者将计算机可执行的程序载入可运行程序的硬件设备时，则实现了下文将要描述的图像识别设备。下文中，在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要，但是应当注意，虽然这些设备可以执行前文所描述的方法，但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。

图3示出了根据本公开的一个实施方式的图像识别设备300。其包括颜色空间转换单元301、可选的尺寸转换单元302a、获得单元302、组合单元303和输入单元304。其中，颜色空间转换单元301用于将测试图像与待匹配图像进行颜色空间转换以分别获得单通道测试图像和单通道待匹配图像；可选的尺寸转换单元302a用于将所述单通道测试图像转换成与所述单通道待匹配图像相同的尺寸；获得单元302用于获得所述单通道测试图像的反色图像；组合单元303用于将所述单通道测试图像、所述反色图像和所述单通道待匹配图像组合为三通道信息；输入单元304用于将所述三通道信息输入已训练的分类器C中以判断所述测试图像是否与所述待匹配图像的局部匹配。

图3所示的图像识别设备300对应于图1所示的方法。因此，图像识别设备300中的各单元的相关细节已经在对图1的图像识别方法的描述中详细给出，在此不再赘述。

[4.本申请的方法和设备的应用]

印章篆刻文化在中国有着悠久的历史。经过甲骨文、陶刻和铜刻，篆刻逐渐发展成一种中华汉字特有的艺术形式。传统的印章文字基本采用篆体，这些篆体文字和现代文字有非常大的差别。当用户需要知晓印章图片上某一个字时，传统方法是将该印章图像和印章数据库中所有的图像进行整体匹配，如果该印章图片或相似的印张图片恰好在数据库中，则可以返回该印章在数据库中记录的印章释文。方法利用了传统的图像整体匹配技术，然而，当数据库中并未存储该印章图片时，用户想要获取释文信息就非常困难。

也存在多种图像局部匹配技术，例如SIFT(Scale-invariant featuretransform，尺度不变特征转换)、SURF(Speeded-Up Robust Features，加速稳健特征)等。在传统的图像局部匹配技术中，用户将他感兴趣的文字单字切分下来并且在印章数据库中进行局部匹配，如果印章数据库中某一枚印章上的某一个字与用户所提供的单字接近，即可通过数据库中标记的释文获取该篆字的释文信息，从而在不扩充数据库的前提下实现更全面的印章文字检索。图像局部匹配算法通过一些数学模型从输入图像与待匹配图像中分别提取特征，从待匹配图像中找出特征最接近的区域，从而实现图像的局部匹配。然而，由于中国古代印章文字有各种各样的字体和颜色，因此传统图像局部匹配方法并不能很好的胜任印章局部匹配工作，从而会出现错误的匹配。

然而，利用根据本公开的上述实施方式的方法和设备，通过对训练图像或测试图像和待匹配图像分别进行颜色空间转换并且获得单通道训练图像或测试图像的反色而得到的三通道信息来训练分类器，实现了更快的匹配速度、更好的匹配精度和鲁棒性。

特别地，本开所使用的Lab颜色空间特别适合于传统印章，因为传统印章中的字体多为红色，而Lab颜色空间转换针对红色具有更好的效果。当然，如上文指出的，本公开不限于Lab颜色空间，而是可以使用各种各样的颜色空间对图像进行转换。

图4A至4D以印章中的字体为例，分别示出了利用根据上述实施方式的方法中的各步骤和设备中的各单元所得到的相应图像。具体地，图4A示出了通过对图像进行RGB颜色空间到Lab-a颜色空间转换而获得的单通道图像的示例。从图4A中可以看出，在经过颜色转换的图像中，印章上的字体被突显。图4B示出了通过使经颜色空间转换的训练图像或测试图像中的文字的笔画随机变形且将其拉伸成与待匹配图像相同的大小而获得的图像的示例。图4C示意性地示出了三通道信息的组合，其中，最右侧的图像为三通道合成图像。图4D示出了所标注的正样本和负样本的示例。

[5.用以实施本申请的装置和方法的计算设备]

上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中，也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可移除介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可移除介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质511。可移除介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是被配置为说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

通过上述的描述，本公开的实施方式提供了以下的技术方案，但不限于此。

附记1.一种分类器训练方法，包括以下步骤：

将训练图像与待匹配图像进行颜色空间转换以分别获得单通道训练图像和单通道待匹配图像；

获得所述单通道训练图像的反色图像；

将所述单通道训练图像、所述反色图像和所述单通道待匹配图像组合为三通道信息；

对所述三通道信息进行标注；以及

用标注后的所述三通道信息训练分类器。

附记2.如附记1所述的分类器训练方法，还包括在组合的步骤之前，将所述单通道训练图像转换成与所述单通道待匹配图像相同的尺寸。

附记3.如附记1所述的分类器训练方法，还包括对所述训练图像或所述单通道训练图像进行随机变形，以增加训练样本数量。

附记4.如附记1至3中任一项所述的分类器训练方法，其中，所述分类器用于判断测试图像是否与待匹配图像的局部匹配，其中所述标注步骤包括将训练图像与待匹配图像的局部匹配的三通道信息标注为正样本，否则标注为负样本。

附记5.如附记1至3中任一项所述的分类器训练方法，其中，在所述颜色空间转换步骤中，将所述训练图像和所述待匹配图像映射到能够区分颜色和亮度的颜色空间。

附记6.如附记5所述的分类器训练方法，其中，所述颜色空间转换将所述训练图像和所述待匹配图像映射到国际照明委员会Lab颜色空间或HSV颜色空间。

附记7.一种图像识别方法，用于判断测试图像是否与待匹配图像的局部匹配，包括：

将测试图像与待匹配图像进行颜色空间转换以分别获得单通道测试图像和单通道待匹配图像；

获得所述单通道测试图像的反色图像；

将所述单通道测试图像、所述反色图像和所述单通道待匹配图像组合为三通道信息；和

将所述三通道信息输入已训练的分类器中以判断所述测试图像是否与所述待匹配图像的局部匹配。

附记8.如附记7所述的图像识别方法，其中，所述分类器利用如附记1至6中任一项所述的方法来被训练。

附记9.如附记7所述的图像识别方法，还包括在组合的步骤之前，将所述单通道测试图像转换成与所述单通道待匹配图像相同的尺寸。

附记10.如附记7所述的图像识别方法，其中，在所述颜色空间转换步骤中，将所述测试图像和所述待匹配图像映射到能够区分颜色和亮度的颜色空间。

附记11.如附记7至10中任一项所述的图像识别方法，其中，所述颜色空间转换将所述测试图像和所述待匹配图像映射到国际照明委员会Lab颜色空间或HSV颜色空间。

附记12.一种图像识别设备，包括其上存储有指令的存储器，所述指令在由处理器执行时实施如附记7至11中任一项所述的方法。

附记13.如附记12所述的图像识别设备，用于匹配图像中的文字。

附记14.如附记12所述的图像识别设备，用于匹配印章文字，并且当所述文字为红色时将所述测试图像映射到国际照明委员会颜色空间Lab颜色模式a分量上。

附记15.如附记12所述的图像识别设备，用来匹配图像中的人脸、车辆、建筑物或任何环境特征。

附记16.如附记12至15中任一项所述的图像识别设备，其中，所述分类器是多层多通道卷积神经网络。

Claims

1.一种分类器训练方法，包括以下步骤：

获得所述单通道训练图像的反色图像；

对所述三通道信息进行标注；以及

用标注后的所述三通道信息训练分类器。

2.如权利要求1所述的分类器训练方法，还包括在组合的步骤之前，将所述单通道训练图像转换成与所述单通道待匹配图像相同的尺寸。

3.如权利要求1所述的分类器训练方法，还包括对所述训练图像或所述单通道训练图像进行随机变形，以增加训练样本数量。

4.如权利要求1至3中任一项所述的分类器训练方法，其中，所述分类器用于判断测试图像是否与待匹配图像的局部匹配，其中所述标注步骤包括将训练图像与待匹配图像的局部匹配的三通道信息标注为正样本，否则标注为负样本。

5.如权利要求1至3中任一项所述的分类器训练方法，其中，在所述颜色空间转换步骤中，将所述训练图像和所述待匹配图像映射到能够区分颜色和亮度的颜色空间。

6.如权利要求5所述的分类器训练方法，其中，所述颜色空间转换将所述训练图像和所述待匹配图像映射到国际照明委员会Lab颜色空间或HSV颜色空间。

7.一种图像识别方法，用于判断测试图像是否与待匹配图像的局部匹配，包括：

获得所述单通道测试图像的反色图像；

8.如权利要求7所述的图像识别方法，其中，所述分类器利用如权利要求1至6中任一项所述的方法来被训练。

9.如权利要求7或8所述的图像识别方法，还包括在组合的步骤之前，将所述单通道测试图像转换成与所述单通道待匹配图像相同的尺寸。

10.一种图像识别设备，包括其上存储有指令的存储器，所述指令在由处理器执行时实施如权利要求7至9中任一项所述的方法。