CN110942085B

CN110942085B - 一种图像分类方法、图像分类装置及终端设备

Info

Publication number: CN110942085B
Application number: CN201911023585.8A
Authority: CN
Inventors: 类衍乾; 郭志伟
Original assignee: Shenzhen Mengma Electric Technology Co ltd
Current assignee: Shenzhen Mengma Electric Technology Co ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2024-04-09
Anticipated expiration: 2039-10-25
Also published as: CN110942085A

Abstract

本申请适用于图像识别技术领域，提供了一种图像分类方法、图像分类装置及终端设备，所述方法包括：获取待分类图像；通过训练后的卷积神经网络对所述待分类图像进行筛选，得到正样本，其中，所述正样本为包含预设形状特征的图像；提取目标图像中的至少一个敏感词，其中，所述目标图像为所述正样本中的任一图像；根据所述至少一个敏感词确定所述目标图像的图像类型。通过上述方法，能够提高图像分类的准确率。

Description

一种图像分类方法、图像分类装置及终端设备

技术领域

本申请属于图像识别技术领域，尤其涉及一种图像分类方法、图像分类装置、终端设备及计算机可读存储介质。

背景技术

随着人工智能技术的兴起，用户对图像识别的准确率要求越来越高。

现有技术中，针对一些包含固定版式(文字和形状)的图像，用户往往会采用光学字符识别(Optical Character Recognition，OCR)技术提取图像中的文字，再根据所提取的文字所属类型对图像进行分类。但是，文字提取具有一定的误差，通过OCR技术对版式图像分类准确率会比较低。

因此，需要提供一种新的方法以解决上述技术问题。

发明内容

有鉴于此，本申请提供了一种图像分类方法、图像分类装置、终端设备及计算机可读存储介质，可以实现对版式图像的智能分类，提高了图像分类的准确率。

第一方面，本申请实施例提供了一种图像分类方法，包括：

获取待分类图像；

通过训练后的卷积神经网络对上述待分类图像进行筛选，得到正样本，其中，上述正样本为包含预设形状特征的图像；

提取目标图像中的至少一个敏感词，其中，上述目标图像为上述正样本中的任一图像；

根据上述至少一个敏感词确定上述目标图像的图像类型。

第二方面，本申请实施例提供了一种图像分类装置，包括：

图像获取单元，用于获取待分类图像；

图像分类单元，用于通过卷积神经网络对上述待分类图像进行筛选，得到正样本，其中，上述正样本为包含预设形状特征的图像；

敏感词提取单元，用于提取目标图像中的至少一个敏感词，其中，上述目标图像为上述正样本中的任一图像；

图像类型确定单元，用于根据上述至少一个敏感词确定上述目标图像的图像类型。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如第一方面所提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中所提供的方法。

本申请实施例与现有技术相比存在的有益效果是：本申请方案中首先获取待分类图像，然后将上述待分类图像输入至预先训练的卷积神经网络并基于上述卷积神经网络的输出结果将上述待分类图像分为正样本和负样本，其中，上述正样本为包含预设形状特征的图像，最后提取上述正样本中的敏感词并根据上述敏感词确定上述正样本的图像类型。此过程先识别版式图像中的形状，对具有预设形状的版式图像进行粗提取，再利用OCR技术识别经过粗提取的版式图像中的文字，对版式图像进行分类，提高了图像分类的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像分类方法所适用于的手机的结构示意图；

图2是本申请实施例提供的图像分类方法的流程示意图；

图3是本申请实施例提供的图像分类装置的结构示意图；

图4是本申请实施例提供的终端设备的结构示意图；

图5是本申请实施例中正样本图片的示例图；

图6是本申请实施例中卷积神经网络的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的图像分类方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，上述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box，STB)、用户驻地设备(customer premise equipment，CPE)和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当上述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

以上述终端设备为手机为例。图1示出的是与本申请实施例提供的手机的部分结构的框图。参考图1，手机包括：射频(Radio Frequency，RF)电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、无线保真(wireless fidelity，WiFi)模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对手机的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元130可用于接收输入的数字或字符信息，以及产生与手机100的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。

手机100还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与手机之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一手机，或者将音频数据输出至存储器120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块170，但是可以理解的是，其并不属于手机100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

手机100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机100还可以包括摄像头。可选地，摄像头在手机100的上的位置可以为前置的，也可以为后置的，本申请实施例对此不作限定。

可选地，手机100可以包括单摄像头、双摄像头或三摄像头等，本申请实施例对此不作限定。

例如，手机100可以包括三摄像头，其中，一个为主摄像头、一个为广角摄像头、一个为长焦摄像头。

可选地，当手机100包括多个摄像头时，这多个摄像头可以全部前置，或者全部后置，或者一部分前置、另一部分后置，本申请实施例对此不作限定。

另外，尽管未示出，手机100还可以包括蓝牙模块等，在此不再赘述。

图2示出了本申请实施例提供的一种图像分类方法的流程图，该图像分类方法可应用于终端设备中，详述如下：

步骤201，获取待分类图像；

在本申请实施例中，待分类图像可通过用户输入得到，此处不对上述待分类图像的数量作出限定。例如，若用户希望得到图像的类型，则打开安装在终端设备(如手机)上用于图像分类的应用程序，并将待分类图像输入至该应用程序中。具体地，用于图像分类的应用程序的输入界面上有一“导入图像”按钮，用户通过点击该按钮，可以从终端设备存储的图像中选择待分类图像；或者，终端设备也可以调用摄像头拍摄实时获取待分类图像；或者，终端设备还可以从互联网中获取图像作为待分类图像，此处不做限定。

步骤202，通过训练后的卷积神经网络对上述待分类图像进行筛选，得到正样本，其中，上述正样本为包含预设形状特征的图像；

在本申请实施例中，上述待分类图像分为两类，正样本和负样本，其中，正样本是一种包含有预设形状特征的图像，而负样本则是不包含预设形状特征的图像。以图5所示的公文(公务文件)图像为例，该公文图像为正样本，包含的预设形状特征有标题、正文、涉密级别、印章等，公文的格式都是固定的，公文中的不同内容分别具有对应的形状、尺寸。当待分类图像输入至训练后的卷积神经网络后，卷积神经网络会依据待分类图像中是否存在预设的形状特征判断待分类图像是否为正样本。当卷积神经网络检测到待分类图像中包含有预设形状特征时，则判定待分类图像为正样本；当卷积神经网络检测到待分类图像中不包含预设形状特征时，则判定待分类图像为负样本，从而将待分类图像中的正样本筛选出来。

可选地，上述步骤202具体包括：

A1、将上述待分类图像输入至上述卷积神经网络中，得到上述待分类图像为正样本的概率值；

A2、将上述概率值与预设的概率阈值进行比较；

A3、若上述概率值不小于上述概率阈值，则判定上述待分类图像为正样本；

A4、若上述概率值小于上述概率阈值，则判定上述待分类图像不是正样本。

其中，上述卷积神经网络如图6所示，包括：输入层，2个卷积层，2个全连接层，每个卷积层后面均设置一池化层和归一化层，最后是1个Softmax层。其中，输入层共有128个输入神经元；归一化层采用局部响应归一化(Local Response Normalization，LRN)；池化层采用最大池化法；卷积层采用的卷积核大小为3×3，卷积核的输出的通道数为16；全连接层的激活函数采用Rectified Linear Units(ReLU)。上述卷积神经网络相较以往的AlexNet层数有所减少，性能有所提高。

具体地，待分类图像输入至上述卷积神经网络的输入层，经过卷积层、池化层和归一化层、全连接层、Softmax层的计算输出待分类图像为正样本的概率值，然后将上述卷积神经网络输出的概率值与预设的概率阈值进行比较，如果上述概率值不小于概率阈值，就判定待分类图像是正样本，如果上述概率值小于概率阈值，就判定待分类图像不是正样本。例如，上述卷积神经网络输出的概率值为0.8，预设的概率阈值优选为0.5，由于0.8大于0.5，那么输入到上述卷积神经网络的待分类图像就被判定为正样本。

步骤203，提取目标图像中的至少一个敏感词，其中，上述目标图像为上述正样本中的任一图像；

在本申请实施例中，经过卷积神经网络筛选出的正样本还需要进一步处理，以实现对待分类图像的精准分类。考虑到本申请方案会对正样本中的各个待分类图像作相同或相似的处理，此处将上述正样本中的任意一张图像确定为目标图像，并基于该目标图像对后续步骤作进一步说明。具体地，可通过OCR技术识别目标图像中的文本，提取出目标图像文本中的敏感词，其中，敏感词为预设的敏感词库中的词语，敏感词库根据图像类型设置，提取出的敏感词至少为一个。以图5作为目标图像为例，OCR技术首先识别出图标图像中的文本区域，然后分别从标题、段首、段尾、正文等文本区域中提取出多个词汇作为敏感词。

步骤204，根据上述至少一个敏感词确定上述目标图像的图像类型。

在本申请实施例中，不同的敏感词分别对应不同的图像类型，从目标图像中提取出的若干个敏感词，每个都对应有一个图像类型，可以对各个敏感词所对应的图像类型进行分析，以确定目标图像的图像类型。

可选地，上述步骤204具体包括：

B1、分别确定每一个敏感词所对应的权重值；

B2、获取每一个敏感词所指向的图像类型；

B3、根据各个敏感词所指向的图像类型，以及各个敏感词所对应的权重值，计算上述目标图像属于各个不同图像类型的概率；

B4、根据上述目标图像属于各个不同图像类型的概率，确定上述目标图像所属的图像类型。

其中，对于所提取出的至少一个敏感词，分别为每个敏感词确定所对应的权重值，使得一个敏感词对应一个权重值，需要注意的是，不同敏感词所对应的权重值可能相同，也可能不同。然后将每一个敏感词分别与预设的词汇集进行相似性比较，上述词汇集中包含有不同的短语和段落，从词汇集中分别确定与各个敏感词相似度最高的目标词，每个目标词对应一个图像类型，各个目标词对应的图像类型即为对应各个敏感词所指向的图像类型。根据各个敏感词所指向的图像类型，以及各个敏感词所对应的权重值，计算出目标图像属于上述各个敏感词所指向的不同图像类型的概率。最后根据这几个概率就可以确定目标图像所属的图像类型。

例如，从目标图像中提取出有两个敏感词“A”和“B”，敏感词“A”和“B”分别对应的权重值为“W_a”和“W_b”，经过与预设的词汇集进行相似性比较，得到敏感词“A”指向的图像类型为“绝密文件”，敏感词“B”指向的图像类型为“机密文件”，根据权重值“W_a”和图像类型“绝密文件”，计算出目标图像的图像类型为“绝密文件”的概率为“P1”，同理，计算出目标图像的图像类型为“机密文件”的概率为“P2”，那么，根据概率“P1”和“P2”，就可以确定目标图像的图像类型是属于“绝密文件”和“机密文件”中的哪一个。

进一步的，在本申请的一些实施例中，上述步骤B1，包括：

B11、在上述目标图像中，定位目标敏感词，上述目标敏感词为上述目标图像的任一敏感词；

B12、获取上述目标敏感词在上述目标图像中的位置信息，其中，上述位置信息包括上述目标敏感词在上述目标图像中对应的行号和列号；

B13、根据上述位置信息确定上述目标敏感词对应的权重值。

其中，目标敏感词可以是上述目标图像中提取出的敏感词中的任意一个。在识别出上述目标图像中的文本，并通过该文本中查找到目标敏感词之后，获取该目标敏感词在目标图像中的位置信息。具体地，目标图像中对应有目标敏感词的行号和列号，该行号和列号即为上述位置信息。将该行号和列号与预设的位置范围进行比较，就可以得到目标敏感词在文本中所处的区域，区域可以包括段首区域、段尾区域、标题区域、正文区域、结尾区域等，此处不作限定。例如，通过对文本分析，得知段首区域的位置范围是1至3行，1至20列，结尾区域的位置范围是20至22行，1至20列，而获取到的上述目标敏感词的位置信息是2行5列，则目标敏感词落入1至3行，1至20列区域的位置范围，确定该目标敏感词落入段首区域，随即可根据目标敏感词在文本中所处的区域，就可以确定目标敏感词对应的权重值。

优选地，由于标题、结尾、段首、段尾通常包含文章的中心思想，需要特别关注，所以基于上述标题区域、结尾区域、段首区域、段尾区域、正文区域的顺序，其对应的敏感词权重值逐渐减小，即位于标题区域的敏感词对应的权重值最大，位于正文区域的敏感词对应的权重值最小。例如，设置标题区域、结尾区域、段首区域、段尾区域、正文区域的敏感词权重值分别为“5”、“4”、“3”、“2”、“1”，当一个敏感词“A”位于标题区域时，则将敏感词“A”的权重值确定为“5”。

进一步的，在本申请的一些实施例中，上述步骤B4，包括：

B41、确定上述目标图像属于各个不同图像类型的概率中的最大概率；

B42、将上述最大概率对应的图像类型确定为上述目标图像的图像类型。

具体地，将目标图像属于各个不同图像类型的概率比较大小，得到其中的最大概率，最大概率对应的图像类型就是目标图像的图像类型。例如，目标图像的图像类型为“绝密文件”的概率是0.6，为“机密文件”的概率是0.3，为“秘密文件”的概率是0.1，通过比较大小，得到目标图像的图像类型为“绝密文件”的概率最大，则确定目标图像的图像类型为“绝密文件”。

在本申请的一些实施例中，上述卷积神经网络的训练过程包括：

C1、设置待训练的卷积神经网络的训练参数，其中，上述训练参数包括：迭代次数、学习率、图片尺寸、分类类别；

C2、将训练图片输入至上述卷积神经网络，得到分类结果；

C3、计算上述分类结果与预设的预测结果的误差，通过反向传播算法更新上述卷积神经网络的网络参数。

具体地，在Docker容器上部署tensorflow镜像，通过调用Flask中提供的方法，获取待训练的卷积神经网络的训练参数，训练参数由开发人员设置，训练参数包括：迭代次数、学习率、图片尺寸、分类类别、预测结果的URL(Uniform Resource Locator，统一资源定位符)、训练图片的URL以及分类结果的URL。根据训练参数完成待训练的卷积神经网络的初始化，将训练图片按类别进行分类，训练图片包括两类：正样本和负样本。训练图片可以通过从网上爬取得到，也可以是开发人员项目积累的图片。将训练图片输入至待训练的卷积神经网络，得到分类结果，分类结果即训练图片分属于正样本和非正样本的概率。然后根据分类结果和预设的预测结果的误差，利用反向传播算法更新卷积神经网络的网络参数，网络参数即为卷积神经网络中各层之间的权重。优选地，损失函数使用交叉熵损失函数：其中，loss为损失值，n为训练样本个数，y为真实值，y’为预测值。优选地，通过Adam优化算法优化损失函数，使损失值最小。

由上可见，在本申请实施例中，首先将待分类图像进行粗分类得到正样本，其中，正样本是包含预设形状特征的图像；然后通过提取正样本中敏感词，根据敏感词对正样本进行细分类，得到最终的图像类型。不仅可以识别待分类图像中的文字，还可以识别待分类图像的形状特征。经过两步分类，大大提高了图像分类的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图3示出了本申请实施例提供的一种图像分类装置的结构示意图，该图像分类装置可应用于终端设备，为了便于说明，仅示出了与本申请实施例相关的部分。

该图像分类装置300包括：

图像获取单元301，用于获取待分类图像；

图像分类单元302，用于通过卷积神经网络对上述待分类图像进行筛选，得到正样本，其中，上述正样本为包含预设形状特征的图像；

敏感词提取单元303，用于提取目标图像中的至少一个敏感词，其中，上述目标图像为上述正样本中的任一图像；

图像类型确定单元304，用于根据上述至少一个敏感词确定上述目标图像的图像类型。

可选地，上述图像分类单元302还包括：

正样本概率计算子单元，用于将上述待分类图像输入至上述卷积神经网络中，得到上述待分类图像为正样本的概率值；

正样本概率比较子单元，用于将上述概率值与预设的概率阈值进行比较；若上述概率值不小于上述概率阈值，则判定上述待分类图像为正样本；若上述概率值小于上述概率阈值，则判定上述待分类图像不是正样本。

可选地，上述图像类型确定单元304还包括：

权重确定子单元，用于分别确定每一个敏感词所对应的权重值；

图像类型获取子单元，用于获取每一个敏感词所指向的图像类型；

图像类型概率计算子单元，用于根据各个敏感词所指向的图像类型，以及各个敏感词所对应的权重值，计算上述目标图像属于各个不同图像类型的概率；

目标图像类型确定子单元，用于根据上述目标图像属于各个不同图像类型的概率，确定上述目标图像所属的图像类型。

可选地，上述权重确定子单元还包括：

敏感词定位子单元，用于在上述目标图像中，定位目标敏感词，上述目标敏感词为上述目标图像的任一敏感词；

位置获取子单元，用于获取上述目标敏感词在上述目标图像中的位置信息，其中，上述位置信息包括上述目标敏感词在上述目标图像中对应的行号和列号；

目标敏感词权重确定子单元，用于根据上述位置信息确定上述目标敏感词对应的权重值。

可选地，上述目标图像类型确定子单元还包括：

最大概率确定子单元，用于确定上述目标图像属于各个不同图像类型的概率中的最大概率；

最大概率图像类型确定子单元，用于将上述最大概率对应的图像类型确定为上述目标图像的图像类型。

可选地，上述图像分类装置300还包括训练单元，用于对卷积神经网络进行训练；上述训练单元包括：

参数设置子单元，用于设置待训练的卷积神经网络的训练参数，其中，上述训练参数包括：迭代次数、学习率、图片尺寸、分类类别；

结果获取子单元，用于将训练图片输入至上述卷积神经网络，得到分类结果；

网络更新子单元，用于计算上述分类结果与预设的预测结果的误差，通过反向传播算法更新上述卷积神经网络的网络参数。

图4为本申请一实施例提供的终端设备的结构示意图。如图4所示，该实施例的终端设备4包括：至少一个处理器40(图4中仅示出一个)处理器、存储器41以及存储在上述存储器41中并可在上述至少一个处理器40上运行的计算机程序42，上述处理器40执行上述计算机程序42时实现以下步骤：

获取待分类图像；

根据上述至少一个敏感词确定上述目标图像的图像类型。

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，上述通过训练后的卷积神经网络对上述待分类图像进行筛选，得到正样本，包括：

将上述待分类图像输入至上述卷积神经网络中，得到上述待分类图像为正样本的概率值；

将上述概率值与预设的概率阈值进行比较；

若上述概率值不小于上述概率阈值，则判定上述待分类图像为正样本；

若上述概率值小于上述概率阈值，则判定上述待分类图像不是正样本。

在上述第一种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述根据上述至少一个敏感词确定上述目标图像的图像类型，包括：

分别确定每一个敏感词所对应的权重值；

获取每一个敏感词所指向的图像类型；

根据各个敏感词所指向的图像类型，以及各个敏感词所对应的权重值，计算上述目标图像属于各个不同图像类型的概率；

根据上述目标图像属于各个不同图像类型的概率，确定上述目标图像所属的图像类型。

在上述第三种可能的实施方式作为基础而提供的第四种可能的实施方式中，上述分别确定每一个敏感词所对应的权重值，包括：

在上述目标图像中，定位目标敏感词，上述目标敏感词为上述目标图像的任一敏感词；

获取上述目标敏感词在上述目标图像中的位置信息，其中，上述位置信息包括上述目标敏感词在上述目标图像中对应的行号和列号；

根据上述位置信息确定上述目标敏感词对应的权重值。

在上述第三种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述根据上述目标图像属于各个不同图像类型的概率，确定上述目标图像所属的图像类型，包括：

确定上述目标图像属于各个不同图像类型的概率中的最大概率；

将上述最大概率对应的图像类型确定为上述目标图像的图像类型。

在上述第一种可能的实施方式作为基础，或者上述第二种可能的实施方式作为基础，或者上述第三种可能的实施方式作为基础，或者上述第四种可能的实施方式作为基础，或者上述第五种可能的实施方式作为基础而提供的第六种可能的实施方式中，上述卷积神经网络的训练过程包括：

设置待训练的卷积神经网络的训练参数，其中，上述训练参数包括：迭代次数、学习率、图片尺寸、分类类别；

将训练图片输入至上述卷积神经网络，得到分类结果；

计算上述分类结果与预设的预测结果的误差，通过反向传播算法更新上述卷积神经网络的网络参数。

上述终端设备4可以是手机、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的举例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，该处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器41在一些实施例中可以是上述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。上述存储器41在另一些实施例中也可以是上述终端设备4的外部存储设备，例如上述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述存储器41还可以既包括上述终端设备4的内部存储单元也包括外部存储设备。上述存储器41用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如上述计算机程序的程序代码等。上述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像分类方法，其特征在于，包括：

获取待分类图像；

通过训练后的卷积神经网络对所述待分类图像进行筛选，得到正样本，其中，所述正样本为包含预设形状特征的图像，所述预设形状特征包括标题、正文、涉密级别或印章；

提取目标图像中的至少一个敏感词，其中，所述目标图像为所述正样本中的任一图像；

根据所述至少一个敏感词确定所述目标图像的图像类型；

所述根据所述至少一个敏感词确定所述目标图像的图像类型，包括：

分别确定每一个敏感词所对应的权重值；

获取每一个敏感词所指向的图像类型；

根据各个敏感词所指向的图像类型，以及各个敏感词所对应的权重值，计算所述目标图像属于各个不同图像类型的概率；

根据所述目标图像属于各个不同图像类型的概率，确定所述目标图像所属的图像类型；

所述分别确定每一个敏感词所对应的权重值，包括：

在所述目标图像中，定位目标敏感词，所述目标敏感词为所述目标图像的任一敏感词；

获取所述目标敏感词在所述目标图像中的位置信息，其中，所述位置信息包括所述目标敏感词在所述目标图像中对应的行号和列号；

根据所述位置信息确定所述目标敏感词对应的权重值；

所述根据所述目标图像属于各个不同图像类型的概率，确定所述目标图像所属的图像类型，包括：

确定所述目标图像属于各个不同图像类型的概率中的最大概率；

将所述最大概率对应的图像类型确定为所述目标图像的图像类型。

2.根据权利要求1所述的图像分类方法，其特征在于，所述通过训练后的卷积神经网络对所述待分类图像进行筛选，得到正样本，包括：

将所述待分类图像输入至所述卷积神经网络中，得到所述待分类图像为正样本的概率值；

将所述概率值与预设的概率阈值进行比较；

若所述概率值不小于所述概率阈值，则判定所述待分类图像为正样本；

若所述概率值小于所述概率阈值，则判定所述待分类图像不是正样本。

3.根据权利要求1至2任一项所述的图像分类方法，其特征在于，所述卷积神经网络的训练过程包括：

设置待训练的卷积神经网络的训练参数，其中，所述训练参数包括：迭代次数、学习率、图片尺寸、分类类别；

将训练图片输入至所述卷积神经网络，得到分类结果；

计算所述分类结果与预设的预测结果的误差，通过反向传播算法更新所述卷积神经网络的网络参数。

4.一种图像分类装置，其特征在于，包括：

图像获取单元，用于获取待分类图像；

图像分类单元，用于通过卷积神经网络对所述待分类图像进行筛选，得到正样本，其中，所述正样本为包含预设形状特征的图像，所述预设形状特征包括标题、正文、涉密级别或印章；

敏感词提取单元，用于提取目标图像中的至少一个敏感词，其中，所述目标图像为所述正样本中的任一图像；

图像类型确定单元，用于根据所述至少一个敏感词确定所述目标图像的图像类型；

分别确定每一个敏感词所对应的权重值；

获取每一个敏感词所指向的图像类型；

所述分别确定每一个敏感词所对应的权重值，包括：

根据所述位置信息确定所述目标敏感词对应的权重值；

5.根据权利要求4所述的图像分类装置，其特征在于，所述图像分类单元包括：

正样本概率计算子单元，用于将所述待分类图像输入至所述卷积神经网络中，得到所述待分类图像为正样本的概率值；

正样本概率比较子单元，用于将所述概率值与预设的概率阈值进行比较；若所述概率值不小于所述概率阈值，则判定所述待分类图像为正样本；若所述概率值小于所述概率阈值，则判定所述待分类图像不是正样本。

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的方法。