CN107944447A

CN107944447A - 图像分类方法及装置

Info

Publication number: CN107944447A
Application number: CN201711353115.9A
Authority: CN
Inventors: 杨松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-04-20
Anticipated expiration: 2037-12-15
Also published as: CN107944447B

Abstract

本公开是关于一种图像分类方法及装置。该方法可以包括：通过对图像进行文字识别，得到图像中的文字的词向量；以及，对图像进行图像特征提取，得到图像的图像特征向量；将图像的词向量与图像的图像特征向量进行拼接，得到图像的联合特征向量；根据图像的联合特征向量对图像进行分类。由于图像的联合特征向量包含文字信息以及图像特征信息，对图像的描述更加准确，信息量更大，因此，根据图像的联合特征向量对图像进行分类，能够有效提高图像分类精度。

Description

图像分类方法及装置

技术领域

本公开涉及计算机领域，尤其涉及一种图像分类方法及装置。

背景技术

相关技术中，图像分类通常根据提取出的图像特征(如图像颜色、形状、纹理等视觉特征)来判断出图像属于预设类别中的哪一类，比如风景、人物、餐厅，礼堂等。

但是，随着对图像分类精度要求越来越高，目前的图像分类方式已不能满足精度需要。

发明内容

为克服相关技术中存在的问题，本公开提供一种图像分类方法及装置。

根据本公开实施例的第一方面，提供一种图像分类方法，该方法可以包括：通过对图像进行文字识别，得到所述图像中的文字的词向量；以及，对所述图像进行图像特征提取，得到所述图像的图像特征向量；将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量；根据所述图像的联合特征向量对所述图像进行分类。

根据本公开实施例的第一方面的一种可能的实施方式，所述通过对图像进行文字识别，得到所述图像中的文字的词向量包括：基于Adaboost算法对所述图像进行各种尺度的窗口扫描得到所述图像的各个文字区域的概率或基于第一卷积神经网络计算出所述图像的各个文字区域的概率，其中，所述第一卷积神经网络为已完成文字概率训练的卷积神经网络；从所述各个文字区域中，筛选出概率满足概率阈值要求的文字区域；基于第二卷积神经网络及循环神经网络对筛选出的文字区域进行文字识别，得到所述图像中的文字，其中，所述第二卷积神经网络为已完成文字提取训练的卷积神经网络；利用word2vec工具将所述图像中的文字转换为词向量，其中，所述word2vec工具为已利用CBOW模型和/或skip-gram模型完成词向量训练的word2vec工具。

根据本公开实施例的第一方面的一种可能的实施方式，所述对所述图像进行图像特征提取，得到所述图像的图像特征向量包括：基于第三卷积神经网络对所述图像进行图像特征提取，得到所述图像的图像特征向量，其中，所述第三卷积神经网络为已完成图像特征提取训练的卷积神经网络。

根据本公开实施例的第一方面的一种可能的实施方式，所述图像的词向量与所述图像的图像特征向量均为用数字串来表达的向量。所述将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量包括：将所述词向量与所述图像特征向量的数字串连接，得到用数字串表达的联合特征向量，所述联合特征向量的长度为所述词向量与所述图像特征向量的数字串长度之和。所述根据所述图像的联合特征向量对所述图像进行分类包括：将所述用数字串表达的联合特征向量输入softmax分类器，得到所述图像的分类结果，其中，所述softmax分类器为已完成分类训练的分类器。

根据本公开实施例的第二方面，提供一种图像分类装置，该装置可以包括：文字特征提取模块，被配置为通过对图像进行文字识别，得到所述图像中的文字的词向量。图像特征提取模块，被配置为对所述图像进行图像特征提取，得到所述图像的图像特征向量。特征拼接模块，被配置为将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量。分类模块，被配置为根据所述图像的联合特征向量对所述图像进行分类。

根据本公开实施例的第二方面的一种可能的实施方式，所述文字特征提取模块包括：

文字区域概率计算子模块，被配置为基于Adaboost算法对所述图像进行各种尺度的窗口扫描得到所述图像的各个文字区域的概率或基于第一卷积神经网络计算出所述图像的各个文字区域的概率，其中，所述第一卷积神经网络为已完成文字概率训练的卷积神经网络。文字区域筛选子模块，被配置为从所述各个文字区域中，筛选出概率满足概率阈值要求的文字区域。文字识别子模块，被配置为基于第二卷积神经网络及循环神经网络对筛选出的文字区域进行文字识别，得到所述图像中的文字，其中，所述第二卷积神经网络为已完成文字提取训练的卷积神经网络。向量转换子模块，被配置为利用word2vec工具将所述图像中的文字转换为词向量，其中，所述word2vec工具为已利用CBOW模型和/或skip-gram模型完成词向量训练的word2vec工具。

根据本公开实施例的第二方面的一种可能的实施方式，所述图像特征提取模块被配置为基于第三卷积神经网络对所述图像进行图像特征提取，得到所述图像的图像特征向量，其中，所述第三卷积神经网络为已完成图像特征提取训练的卷积神经网络。

根据本公开实施例的第二方面的一种可能的实施方式，所述图像的词向量与所述图像的图像特征向量均为用数字串来表达的向量。所述特征拼接模块被配置为将所述词向量与所述图像特征向量的数字串连接，得到用数字串表达的联合特征向量，所述联合特征向量的长度为所述词向量与所述图像特征向量的数字串长度之和。所述分类模块被配置为将所述用数字串表达的联合特征向量输入softmax分类器，得到所述图像的分类结果，其中，所述softmax分类器为已完成分类训练的分类器。

根据本公开实施例的第三方面，提供一种图像分类装置，该装置可以包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：通过对图像进行文字识别，得到所述图像中的文字的词向量；以及，对所述图像进行图像特征提取，得到所述图像的图像特征向量；将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量；根据所述图像的联合特征向量对所述图像进行分类。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的图像分类方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：由于本公开实施例将图像的词向量与图像的图像特征向量进行拼接，得到所述图像的联合特征向量，图像的联合特征向量包含文字信息以及图像特征信息，对图像的描述更加准确，信息量更大，根据图像的联合特征向量对所述图像进行分类，能够有效提高图像分类精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种图像分类方法的流程图。

图2是根据一示例性实施例示出的一种图像分类装置的框图。

图3是根据另一示例性实施例示出的一种图像分类装置的框图。

图4是根据又一示例性实施例示出的一种图像分类装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种图像分类方法的流程图，如图1所示，该方法可以包括以下步骤：

在步骤110中，通过对图像进行文字识别，得到所述图像中的文字的词向量。

一种可能的实施方式中，可以基于Adaboost算法对所述图像进行各种尺度的窗口扫描得到所述图像的各个文字区域的概率或基于第一卷积神经网络计算出所述图像的各个文字区域的概率，其中，所述第一卷积神经网络为已完成文字概率训练的卷积神经网络。从所述各个文字区域中，筛选出概率满足概率阈值要求的文字区域。例如，概率阈值要求可以包括阈值过滤和非最大值过滤。基于第二卷积神经网络及循环神经网络对筛选出的文字区域进行文字识别，得到所述图像中的文字，其中，所述第二卷积神经网络为已完成文字提取训练的卷积神经网络。更具体地，例如，可以先基于第二卷积神经网络提取图像特征，将图像特征转化为特征序列，再用循环神经网络对特征序列进行识别。利用word2vec工具将所述图像中的文字转换为词向量，其中，所述word2vec工具为已利用CBOW模型和/或skip-gram模型完成词向量训练的word2vec工具。文字转换为词向量就是将一个词语转换为一个向量表示，该向量蕴含着该词语的含义，从而有利于对图像进行描述。

在步骤120中，对所述图像进行图像特征提取，得到所述图像的图像特征向量。

一种可能的实施方式中，可以基于第三卷积神经网络对所述图像进行图像特征提取，得到所述图像的图像特征向量，其中，所述第三卷积神经网络为已完成图像特征提取训练的卷积神经网络。

在步骤130中，将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量。

可以理解的是，图像的词向量和图像的图像特征向量可以均为用串数字来表达的向量。可以将所述词向量与所述图像特征向量的数字串连接，得到用数字串表达的联合特征向量，所述联合特征向量的长度为所述词向量与所述图像特征向量的数字串长度之和。例如，词向量的长度是50，也即包括50个数字，而图像特征向量的长度是100，也即包括100个数字，两者的拼接就是直接将这两个数字串量进行连接，得到一个长度为150的数字串即联合特征向量。

在步骤140中，根据所述图像的联合特征向量对所述图像进行分类。

例如，可以将所述用数字串表达的联合特征向量输入softmax分类器，得到所述图像的分类结果，其中，所述softmax分类器为已完成分类训练的分类器。

由于本公开实施例将图像的词向量与图像的图像特征向量进行拼接，得到所述图像的联合特征向量，图像的联合特征向量包含文字信息如商店名、街道名等和图像特征信息如图像纹理等，对图像的描述更加准确，信息量更大，根据图像的联合特征向量对所述图像进行分类，能够有效提高图像分类精度。

图2是根据一示例性实施例示出的一种图像分类装置200的框图。参照图2，该装置包括文字特征提取模块210，图像特征提取模块220和特征拼接模块230、及分类模块240。

该文字特征提取模块210，可以被配置为通过对图像进行文字识别，得到所述图像中的文字的词向量。

该图像特征提取模块220，可以被配置为对所述图像进行图像特征提取，得到所述图像的图像特征向量。

该特征拼接模块230，可以被配置为将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量。

该分类模块240，可以被配置为根据所述图像的联合特征向量对所述图像进行分类。

图3是根据另一示例性实施例示出的一种图像分类装置300的框图。参照图3，该文字特征提取模块210可以包括：文字区域概率计算子模块2101、文字区域筛选子模块2102，文字识别子模块2103及向量转换子模块2104。

该文字区域概率计算子模块2101，可以被配置为基于Adaboost算法对所述图像进行各种尺度的窗口扫描得到所述图像的各个文字区域的概率或基于第一卷积神经网络计算出所述图像的各个文字区域的概率，其中，所述第一卷积神经网络为已完成文字概率训练的卷积神经网络。

该文字区域筛选子模块2102，可以被配置为从所述各个文字区域中，筛选出概率满足概率阈值要求的文字区域。

该文字识别子模块2103，可以被配置为基于第二卷积神经网络及循环神经网络对筛选出的文字区域进行文字识别，得到所述图像中的文字，其中，所述第二卷积神经网络为已完成文字提取训练的卷积神经网络。

该向量转换子模块2104，可以被配置为利用word2vec工具将所述图像中的文字转换为词向量，其中，所述word2vec工具为已利用CBOW模型和/或skip-gram模型完成词向量训练的word2vec工具。

一种可能的实施方式中，该图像特征提取模块220可以被配置为基于第三卷积神经网络对所述图像进行图像特征提取，得到所述图像的图像特征向量，其中，所述第三卷积神经网络为已完成图像特征提取训练的卷积神经网络。

一种可能的实施方式中，所述图像的词向量与所述图像的图像特征向量均为用数字串来表达的向量。所述特征拼接模块230可以被配置为将所述词向量与所述图像特征向量的数字串连接，得到用数字串表达的联合特征向量，所述联合特征向量的长度为所述词向量与所述图像特征向量的数字串长度之和。所述分类模块240可以被配置为将所述用数字串表达的联合特征向量输入softmax分类器，得到所述图像的分类结果，其中，所述softmax分类器为已完成分类训练的分类器。

由于本实施例基于卷积神经网络进行文字信息及图像特征信息的快速准确地提取，又将图像的词向量与图像的图像特征向量进行拼接，得到所述图像的联合特征向量，因此，能够有效提高图像分类精度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的图像分类方法的步骤。

图4是根据又一示例性实施例示出的一种图像分类装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的图像分类方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图像分类方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述图像分类方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像分类方法，其特征在于，包括：

通过对图像进行文字识别，得到所述图像中的文字的词向量；以及，对所述图像进行图像特征提取，得到所述图像的图像特征向量；

将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量；

根据所述图像的联合特征向量对所述图像进行分类。

2.根据权利要求1所述的图像分类方法，其特征在于，所述通过对图像进行文字识别，得到所述图像中的文字的词向量包括：

基于Adaboost算法对所述图像进行各种尺度的窗口扫描得到所述图像的各个文字区域的概率或基于第一卷积神经网络计算出所述图像的各个文字区域的概率，其中，所述第一卷积神经网络为已完成文字概率训练的卷积神经网络；

从所述各个文字区域中，筛选出概率满足概率阈值要求的文字区域；

基于第二卷积神经网络及循环神经网络对筛选出的文字区域进行文字识别，得到所述图像中的文字，其中，所述第二卷积神经网络为已完成文字提取训练的卷积神经网络；

利用word2vec工具将所述图像中的文字转换为词向量，其中，所述word2vec工具为已利用CBOW模型和/或skip-gram模型完成词向量训练的word2vec工具。

3.根据权利要求1所述的图像分类方法，其特征在于，所述对所述图像进行图像特征提取，得到所述图像的图像特征向量包括：

基于第三卷积神经网络对所述图像进行图像特征提取，得到所述图像的图像特征向量，其中，所述第三卷积神经网络为已完成图像特征提取训练的卷积神经网络。

4.根据权利要求1所述的图像分类方法，其特征在于，所述图像的词向量与所述图像的图像特征向量均为用数字串来表达的向量；

所述将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量包括：

将所述词向量与所述图像特征向量的数字串连接，得到用数字串表达的联合特征向量，所述联合特征向量的长度为所述词向量与所述图像特征向量的数字串长度之和；

所述根据所述图像的联合特征向量对所述图像进行分类包括：

将所述用数字串表达的联合特征向量输入softmax分类器，得到所述图像的分类结果，其中，所述softmax分类器为已完成分类训练的分类器。

5.一种图像分类装置，其特征在于，包括：

文字特征提取模块，被配置为通过对图像进行文字识别，得到所述图像中的文字的词向量；

图像特征提取模块，被配置为对所述图像进行图像特征提取，得到所述图像的图像特征向量；

特征拼接模块，被配置为将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量；

分类模块，被配置为根据所述图像的联合特征向量对所述图像进行分类。

6.根据权利要求5所述的图像分类装置，其特征在于，所述文字特征提取模块包括：

文字区域概率计算子模块，被配置为基于Adaboost算法对所述图像进行各种尺度的窗口扫描得到所述图像的各个文字区域的概率或基于第一卷积神经网络计算出所述图像的各个文字区域的概率，其中，所述第一卷积神经网络为已完成文字概率训练的卷积神经网络；

文字区域筛选子模块，被配置为从所述各个文字区域中，筛选出概率满足概率阈值要求的文字区域；

文字识别子模块，被配置为基于第二卷积神经网络及循环神经网络对筛选出的文字区域进行文字识别，得到所述图像中的文字，其中，所述第二卷积神经网络为已完成文字提取训练的卷积神经网络；

向量转换子模块，被配置为利用word2vec工具将所述图像中的文字转换为词向量，其中，所述word2vec工具为已利用CBOW模型和/或skip-gram模型完成词向量训练的word2vec工具。

7.根据权利要求5所述的图像分类装置，其特征在于，所述图像特征提取模块被配置为基于第三卷积神经网络对所述图像进行图像特征提取，得到所述图像的图像特征向量，其中，所述第三卷积神经网络为已完成图像特征提取训练的卷积神经网络。

8.根据权利要求5所述的图像分类装置，其特征在于，所述图像的词向量与所述图像的图像特征向量均为用数字串来表达的向量；

所述特征拼接模块被配置为将所述词向量与所述图像特征向量的数字串连接，得到用数字串表达的联合特征向量，所述联合特征向量的长度为所述词向量与所述图像特征向量的数字串长度之和；

所述分类模块被配置为将所述用数字串表达的联合特征向量输入softmax分类器，得到所述图像的分类结果，其中，所述softmax分类器为已完成分类训练的分类器。

9.一种图像分类装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述图像的联合特征向量对所述图像进行分类。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～4中任一项所述方法的步骤。