CN105825228B

CN105825228B - 图像识别方法及装置

Info

Publication number: CN105825228B
Application number: CN201610143523.0A
Authority: CN
Inventors: 刘国翌; 李广
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2019-04-30
Anticipated expiration: 2036-03-14
Also published as: CN105825228A; WO2017156864A1; US20190080195A1; US11455783B2

Abstract

本发明提供一种图像识别方法及装置。本发明实施例通过获取指定尺寸的待识别图像，进而从所述待识别图像中，提取差异区域图像，并根据所述差异区域图像，获得所述差异区域图像的图像特征，使得能够根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果，无需基于几十万甚至上百万个训练样本采用深度学习的方法，就能够实现对类别数量有限的图像进行识别处理。

Description

图像识别方法及装置

【技术领域】

本发明涉及图像处理技术，尤其涉及一种图像识别方法及装置。

【背景技术】

近些年来，采用深度学习的方法，在图像识别领域取得了很不错的结果。深度学习对于训练样本的数量要求较高，其数量往往在几十万甚至上百万个训练样本。

然而，对于图像的类别数量有限的情况，其训练样本的数量也是非常有限的，并不太适合采用深度学习的方法，对这些类别数量有限的图像进行识别处理。因此，亟需提供一种图像识别方法，对类别数量有限的图像进行识别处理。

【发明内容】

本发明的多个方面提供一种图像识别方法及装置，用以对类别数量有限的图像进行识别处理。

本发明的一方面，提供一种图像识别方法，包括：

获取指定尺寸的待识别图像；

从所述待识别图像中，提取差异区域图像；

根据所述差异区域图像，获得所述差异区域图像的图像特征；

根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取指定尺寸的待识别图像，包括：

利用仿射变换，将所获得的任意尺寸的待识别图像调整为所述指定尺寸的待识别图像。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述从所述待识别图像中，提取差异区域图像，包括：

根据预先指定的区域位置，从所述待识别图像中，提取所述差异区域图像。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述差异区域图像，获得所述差异区域图像的图像特征，包括：

根据所述差异区域图像，利用通用数据集合所训练的模型，获得所述差异区域图像的图像特征。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果之前，还包括：

获取至少两个指定类别的模板图像；

从至少两个指定类别中每个指定类别的模板图像，提取所述每个指定类别的模板区域图像；

根据所述每个指定类别的模板区域图像，获得所述每个指定类别的模板特征。

本发明的另一方面，提供一种图像识别装置，包括：

获取单元，用于获取指定尺寸的待识别图像；

提取单元，用于从所述待识别图像中，提取差异区域图像；

特征单元，用于根据所述差异区域图像，获得所述差异区域图像的图像特征；

识别单元，用于根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取单元，具体用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述提取单元，具体用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特征单元，具体用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特征单元，还用于

获取至少两个指定类别的模板图像；

从至少两个指定类别中每个指定类别的模板图像，提取所述每个指定类别的模板区域图像；以及

由上述技术方案可知，本发明实施例通过获取指定尺寸的待识别图像，进而从所述待识别图像中，提取差异区域图像，并根据所述差异区域图像，获得所述差异区域图像的图像特征，使得能够根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果，无需基于几十万甚至上百万个训练样本采用深度学习的方法，就能够实现对类别数量有限的图像进行识别处理。

另外，采用本发明所提供的技术方案，不需要专门采集大规模的训练样本，采用深度学习的方法，对这些训练样本进行训练获得模型，而是可以利用通用数据集合所训练的模型，使得去除了大规模训练样本的数据采集和模型训练的工作量，能够有效加快图像识别处理的算法开发时间。

另外，采用本发明所提供的技术方案，通过人工预先指定具有较大差异性的区域位置，能够有效保证图像识别处理的准确性。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的图像识别方法的流程示意图；

图2为本发明另一实施例提供的图像识别装置的结构示意图；

图3为图1对应的实施例中差异区域图像的示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer，PC)、MP3播放器、MP4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的图像识别方法的流程示意图，如图1所示。

101、获取指定尺寸的待识别图像。

所谓的图像，是指采用一定的图像格式，将图像数据即图像的像素按照一定的方式进行存储，所形成的文件，又可以称为图像文件。

其中，图像的图像格式即图像存储的格式，可以包括但不限于位图(Bitmap，BMP)格式、可移植网络图像格式(Portable Network Graphic Format，PNG)、联合图像专家组(Joint Photographic Experts Group，JPEG)格式、可交换图像文件格式(ExchangeableImage File Format，EXIF)，本实施例对此不进行特别限定。

102、从所述待识别图像中，提取差异区域图像。

103、根据所述差异区域图像，获得所述差异区域图像的图像特征。

104、根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果。

需要说明的是，101～104的执行主体可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行特别限定。

这样，通过获取指定尺寸的待识别图像，进而从所述待识别图像中，提取差异区域图像，并根据所述差异区域图像，获得所述差异区域图像的图像特征，使得能够根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果，无需基于几十万甚至上百万个训练样本采用深度学习的方法，就能够实现对类别数量有限的图像进行识别处理。

本发明中，所述待识别图像可以为利用图像传感器，所采集的。其中，所述图像传感器可以为电荷耦合元件(Charge Coupled Device，CCD)传感器，或者还可以为金属氧化物半导体元件(Complementary Metal-Oxide Semiconductor，CMOS)传感器，本实施例对此不进行特别限定。

由于所采集的图像中除了包含待识别图像所对应的目标物体之外，通常还会包含一些其他物体作为背景图像，例如，一个人手里拿着一张人民币的图像中，除了包含待识别图像所对应的目标物体即人民币之外，还可能会包含人手、收银台等一些其他物体作为背景图像，等等，因此，还需要进一步采用传统的图像检测的方法，例如，尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)算法等，找到图像中的目标物体的区域，以作为所述待识别图像。

可选地，在本实施例的一个可能的实现方式中，在101中，具体可以利用仿射变换，将所获得的任意尺寸的待识别图像调整为所述指定尺寸的待识别图像。

具体来说，所述仿射变换可以通过一系列的原子变换的复合来实现，具体可以包括但不限于平移(Translation)、缩放(Scale)、翻转(Flip)、旋转(Rotation)和错切(Shear)中的至少一项。

可选地，在本实施例的一个可能的实现方式中，在102中，具体可以根据预先指定的区域位置，从所述待识别图像中，提取所述差异区域图像。

在一个具体的实现过程中，在102之前，可以进一步由人工预先指定具有较大差异性的区域位置，如图3中的实线框所示，可以采用各种几何形状来对该区域位置进行标定。

例如，可以一个矩形框的位置来标定，即左上角(x1，y1)，右下角(x2，y2)。为了便于计算，可以采用比例来描述，将左上角(x1，y1)描述为(x1/width，y1/height)，将右下角(x2，y2)描述为(x2/width，y2/height)，其中width,height为模板图像的图像长度和模板图像的图像宽度。

这样，通过人工预先指定具有较大差异性的区域位置，能够有效保证图像识别处理的准确性。

在该实现方式中，在人工预先指定具有较大差异性的区域位置之后，具体可以根据预先指定的区域位置，从所述待识别图像中，定位该区域位置，进而，则可以将该区域位置所覆盖的图像提取出来，以作为所述差异区域图像。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述差异区域图像，利用通用数据集合所训练的模型，获得所述差异区域图像的图像特征。

在该实现方式中，在103之前，还需要基于现有的通用数据集合，采用深度学习算法，进行样本训练，获得一个模型，例如，采用深层神经网络(Deep Neural Network，CDNN)，基于ImageNet(图像识别目前最大的数据库)所公开的数据集合，训练所得到的模型，该模型一般很容易获取。

可选地，在本实施例的一个可能的实现方式中，在104之前，还可以进一步获取至少两个指定类别的模板图像，进而，则可以从至少两个指定类别中每个指定类别的模板图像，提取所述每个指定类别的模板区域图像。然后，则可以根据所述每个指定类别的模板区域图像，获得所述每个指定类别的模板特征。

在该实现方式中，具体可以根据预先指定的区域位置，从每个指定类别的模板图像，提取所述每个指定类别的模板区域图像。然后，则可以根据所述模板区域图像，利用所获得的所述模型，获得所述每个指定类别的模板特征。

具体来说，在104中，具体可以将对所述差异区域图像的图像特征和预先设置的模板特征进行度量距离，获得距离最近的模板特征，进而，则可以将该模板特征所属的模板图像的类别作为识别结果。

本实施例中，通过获取指定尺寸的待识别图像，进而从所述待识别图像中，提取差异区域图像，并根据所述差异区域图像，获得所述差异区域图像的图像特征，使得能够根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果，无需基于几十万甚至上百万个训练样本采用深度学习的方法，就能够实现对类别数量有限的图像进行识别处理。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的图像识别装置的结构示意图，如图2所示。本实施例的图像识别装置可以包括获取单元21、提取单元22、特征单元23和识别单元24。其中，获取单元21，用于获取指定尺寸的待识别图像；提取单元22，用于从所述待识别图像中，提取差异区域图像；特征单元23，用于根据所述差异区域图像，获得所述差异区域图像的图像特征；识别单元24，用于根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果。

需要说明的是，本实施例所提供的图像识别装置可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，所述获取单元21，具体可以用于利用仿射变换，将所获得的任意尺寸的待识别图像调整为所述指定尺寸的待识别图像。

可选地，在本实施例的一个可能的实现方式中，所述提取单元22，具体可以用于根据预先指定的区域位置，从所述待识别图像中，提取所述差异区域图像。

可选地，在本实施例的一个可能的实现方式中，所述特征单元23，具体可以用于根据所述差异区域图像，利用通用数据集合所训练的模型，获得所述差异区域图像的图像特征。

可选地，在本实施例的一个可能的实现方式中，所述特征单元23，还可以进一步用于获取至少两个指定类别的模板图像；从至少两个指定类别中每个指定类别的模板图像，提取所述每个指定类别的模板区域图像；以及根据所述每个指定类别的模板区域图像，获得所述每个指定类别的模板特征。

需要说明的是，图1对应的实施例中方法，可以由本实施例提供的图像识别装置实现。详细描述可以参见图1对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过获取单元获取指定尺寸的待识别图像，进而由提取单元从所述待识别图像中，提取差异区域图像，并由特征单元根据所述差异区域图像，获得所述差异区域图像的图像特征，使得识别单元能够根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果，无需基于几十万甚至上百万个训练样本采用深度学习的方法，就能够实现对类别数量有限的图像进行识别处理。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取指定尺寸的待识别图像；

从所述待识别图像中，提取差异区域图像；

根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果；其中，

所述从所述待识别图像中，提取差异区域图像，包括：

根据预先指定的区域位置，从所述待识别图像中，定位该区域位置，将该区域位置所覆盖的图像提取出来，以作为所述差异区域图像。

2.根据权利要求1所述的方法，其特征在于，所述获取指定尺寸的待识别图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述差异区域图像，获得所述差异区域图像的图像特征，包括：

4.根据权利要求1～3任一权利要求所述的方法，其特征在于，所述根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果之前，还包括：

获取至少两个指定类别的模板图像；

5.一种图像识别装置，其特征在于，包括：

获取单元，用于获取指定尺寸的待识别图像；

提取单元，用于从所述待识别图像中，提取差异区域图像；

识别单元，用于根据所述差异区域图像的图像特征和预先设置的模板特征，获得所述待识别图像的识别结果；其中，

所述提取单元，具体用于

6.根据权利要求5所述的装置，其特征在于，所述获取单元，具体用于利用仿射变换，将所获得的任意尺寸的待识别图像调整为所述指定尺寸的待识别图像。

7.根据权利要求5所述的装置，其特征在于，所述特征单元，具体用于根据所述差异区域图像，利用通用数据集合所训练的模型，获得所述差异区域图像的图像特征。

8.根据权利要求5～7任一权利要求所述的装置，其特征在于，所述特征单元，还用于

获取至少两个指定类别的模板图像；