CN111126367A

CN111126367A - 一种图像分类方法及系统

Info

Publication number: CN111126367A
Application number: CN202010249118.3A
Authority: CN
Inventors: 赵丙镇; 王栋; 郑开发; 李宏伟; 郑尚卓; 王俊生; 吕梓童
Original assignee: Guowang Xiongan Finance Technology Group Co ltd; State Grid Blockchain Technology (beijing) Co Ltd; State Grid E Commerce Co Ltd
Current assignee: Guowang Xiongan Finance Technology Group Co ltd; State Grid Blockchain Technology (beijing) Co Ltd; State Grid E Commerce Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-05-08

Abstract

本发明公开了一种图像分类方法及系统，通过对目标图像组进行图像特征提取，得到第一图像特征；将第一图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到目标图像组的分类信息。由于预先建立的分类训练模型为通过对已分类的图像文件样本特征训练得到的，且已分类的图像文件样本包括预先提取到的已分类的图像文件的图像特征。实现了可以基于分类模型对混合在一起的图像进行分类，提升了对图像处理的效率以及降低人工处理成本的目的。

Description

一种图像分类方法及系统

技术领域

本发明涉及信息处理技术领域，特别是涉及一种图像分类方法及系统。

背景技术

场景图像分类是计算机视觉领域的一个重要问题，已经成为了当下图像研究的热门方向，在图像检索、图像分类、文字识别、视频分类等领域得到了广泛的应用。并且随着人工智能技术的发展，人们对图像处理的需求也越来越多，图像识别技术也随之发展。

但是随着图像处理业务的增加，也会遇到一些问题。例如，当各种类型的图像或者图片混合在一起时，若需要进行图像或模式处理，需要工程师们预先将混合在一起的图片分类整理，然后再传到相应的智能系统中进行OCR （Optical Character Recognition，光学字符识别），但是由于需要人工进行图像分类，会使得对图像的处理效率低，工作繁琐，成本较高。

发明内容

针对于上述问题，本发明提供一种图像分类方法及系统，实现提升图像的处理效率和降低处理成本的目的。

为了实现上述目的，本发明提供了如下技术方案：

一种图像分类方法，该方法包括：

获取目标图像组，所述目标图像组中的图像来源不同；

按照模式向量对所述目标图像组的图像进行图像特征描绘，获得第一图像特征；

将所述第一图像特征输入预先建立的分类训练模型中，通过所述分类训练模型的分类识别，得到所述目标图像组的分类信息；所述预先建立的分类训练模型为通过对已分类的图像文件样本特征训练得到的，且利用图像文件样本的特征进行决策模型训练和逐渐收敛法反复训练得到的模型，所述已分类的图像文件样本包括预先提取到的已分类的图像文件的图像特征，所述已分类的图像文件样本中的图像来源不同；

基于所述分类信息，输出所述目标图像组的每个图像的分类信息，所述目标图像组的每个图像的分类信息与所述目标图像组中的每个图像的来源相匹配。

可选地，所述方法还包括：

基于所述每个图像的分类信息，确定所述每个图像的类别标签；

依据与所述类别标签相匹配的文字提取模式，对所述每个图像进行文字提取，得到所述每个图像对应的文字信息。

可选地，该方法还包括创建分类训练模型，包括：

对已分类的图像文件样本进行图像特征提取，获得图像特征；

基于所述图像特征对决策模型进行训练，得到初始训练模型，所述决策模型表征通过模式向量来描述图像特征，且通过决策函数进行分类的模型；

基于初始训练模型对测试图集进行处理，得到处理结果；

根据测试图集对应的实际结果与所述处理结果之间的误差，对所述初始训练模型进行参数优化，得到分类训练模型。

可选地，所述基于所述图像特征对决策模型进行训练，得到初始训练模型，包括：

对所述图像特征进行模式向量转换，获得图像特征向量；

依据所述图像特征向量与预设决策函数的对应关系，获得所述图像特征向量对应的模式；

基于各个图像特征向量对应的模式，确定初始训练模型。

可选地，所述根据测试图集对应的实际结果与所述处理结果之间的误差，对所述初始训练模型进行参数优化，得到分类训练模型，包括：

获取测试图集对应的实际结果与所述处理结果之间的误差；

根据所述误差以及所述初始训练模型对应的初始权重值，计算得到权重值校正幅度值；

依据所述权重值校正幅度值对所述初始训练模型每层的权重值进行更新，获得分类训练模型。

一种图像分类系统，该系统包括：

图像获取单元，用于获取目标图像组，所述目标图像组中的图像来源不同；

特征描绘单元，用于按照模式向量对所述目标图像组的图像进行图像特征描绘，获得第一图像特征；

分类单元，用于将所述第一图像特征输入预先建立的分类训练模型中，通过所述分类训练模型的分类识别，得到所述目标图像组的分类信息；所述预先建立的分类训练模型为通过对已分类的图像文件样本特征训练得到的，且利用图像文件样本的特征进行决策模型训练和逐渐收敛法反复训练得到的模型，所述已分类的图像文件样本包括预先提取到的已分类的图像文件的图像特征，所述已分类的图像文件样本中的图像来源不同；

信息输出单元，用于基于所述分类信息，输出所述目标图像组的每个图像的分类信息，所述目标图像组的每个图像的分类信息与所述目标图像组中的每个图像的来源相匹配。

可选地，所述系统还包括：

标签确定单元，用于基于所述每个图像的分类信息，确定所述每个图像的类别标签；

文字提取单元，用于依据与所述类别标签相匹配的文字提取模式，对所述每个图像进行文字提取，得到所述每个图像对应的文字信息。

可选地，该系统还包括创建单元，包括：

第一提取子单元，用于对已分类的图像文件样本进行图像特征提取，获得图像特征；

第一训练子单元，用于基于所述图像特征对决策模型进行训练，得到初始训练模型，所述决策模型表征通过模式向量来描述图像特征，且通过决策函数进行分类的模型；

处理子单元，用于基于初始训练模型对测试图集进行处理，得到处理结果；

优化子单元，用于根据测试图集对应的实际结果与所述处理结果之间的误差，对所述初始训练模型进行参数优化，得到分类训练模型。

可选地，所述第一训练子单元包括：

转换子单元，用于对所述图像特征进行模式向量转换，获得图像特征向量；

模式获取子单元，用于依据所述图像特征向量与预设决策函数的对应关系，获得所述图像特征向量对应的模式；

模式确定子单元，用于基于各个图像特征向量对应的模式，确定初始训练模型。

可选地，所述优化子单元包括：

误差获取子单元，用于获取测试图集对应的实际结果与所述处理结果之间的误差；

计算子单元，用于根据所述误差以及所述初始训练模型对应的初始权重值，计算得到权重值校正幅度值；

更新子单元，用于依据所述权重值校正幅度值对所述初始训练模型每层的权重值进行更新，获得分类训练模型。

相较于现有技术，本发明提供了一种图像分类方法及系统，通过对目标图像组进行图像特征提取，得到第一图像特征；将第一图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到目标图像组的分类信息。由于预先建立的分类训练模型为通过对已分类的图像文件样本特征训练得到的，且已分类的图像文件样本包括预先提取到的已分类的图像文件的图像特征。由于目标图像组中的图像来源不同，实现了可以基于分类模型对混合在一起的图像进行分类，提升了对图像处理的效率以及降低人工处理成本的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种图像分类方法的流程示意图；

图2为本发明实施例提供的一种利用预创建的分类训练模型对图像进行识别的方法的流程示意图；

图3为本发明实施例提供的一种图像分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

为了便于对本申请实施例的描述，下面对本申请应用到的相关术语进行解释说明。

图像分类：通过基于深度学习的图像处理方法，确定图像或图像某个区域归为若干类别中的一种过程。

NCNN:深度学习中的一种计算框架，NCNN是一个极致优化的高性能神经网络前向计算框架。NCNN从设计之初深刻考虑终端的部署和使用。无第三方依赖，跨平台，手机端CPU的速度快于目前所有已知的开源框架。基于 NCNN开发者能够将深度学习算法轻松移植到终端高效执行，开发出人工智能 APP，将 AI 落地实现。

SVM:支持向量机（Support Vector Machine, SVM）简称SVM，于1964年被提出，在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法，在人像识别、文本分类等模式识别（pattern recognition）问题中有得到应用。它是一类按监督学习（supervisedlearning）方式对数据进行二元分类的广义线性分类器（generalized linearclassifier），其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane）。SVM使用铰链损失函数（hinge loss）计算经验风险（empirical risk）并在求解系统中加入了正则化项以优化结构风险（structural risk），是一个具有稀疏性和稳健性的分类器。SVM可通过核方法进行非线性分类，是常见核学习（kernel learning）方法之一。

OCR：光学字符识别（Optical Character Recognition），指终端设备（例如扫描仪或数码相机）或软件检查页面显示的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。其技术原理是采用光学的方式将文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

在本发明实施例中提供了一种图像分类方法，参见图1，其示出了图像分类方法的流程示意图，该方法包括：

S101、获取目标图像组。

所述目标图像组中的图像来源不同，即该目标图像组中的图像来源于不同的图像场景。图像场景是指产生图像的场景，例如，金融场景中对应的卡证图像，身份认证场景中对应的身份证图像。因此，目标图像组中的图像的种类是不同的，但是在未经过本方案处理时是无法准确获得各个图像场景的。

S102、按照模式向量对所述目标图像组的图像进行图像特征描绘，获得第一图像特征。

第一图像特征是指能够被预先建立的分类训练模型所识别的图像特征，在获得第一图像特征之前可以先对图像中的特征进行提取，判断该特征是否可以用于进行图像类别识别，若不可以则可以剔除该特征，然后可以继续获取图像中的其他特征，已获得能够被分类训练模型能够被利用的特征。例如，卡证图像的标识图像特征。

S103、将所述第一图像特征输入预先建立的分类训练模型中，通过所述分类训练模型的分类识别，得到所述目标图像组的分类信息。

预先建立的分类训练模型为通过对已分类的图像文件样本特征训练得到的，利用图像文件样本的特征进行决策模型训练和逐渐收敛法反复训练得到的模型。所述已分类的图像文件样本包括预先提取到的已分类的图像文件的图像特征，所述已分类的图像文件样本中的图像来源不同。图像文件样本包括不同种类的图像样本，即不是来源于同一个场景中的图像，来源于不同场景。

在本申请实施例中的分类训练模型为了能够更加准确地获得输出结果，为了使得分类模型预测结果更加准确，利用了决策模型训练和逐渐收敛法对模型进行训练，即通过决策函数对特征进行预测分类，得到初始模型，然后根据初始模型对图像预测的结果进行模型的反复训练，得到优化后的模型，该优化后的模型为最终训练得到分类训练模型，用于后续对图像的分类识别。

S104、基于所述分类信息，输出所述目标图像组的每个图像的分类信息。

需要说明的是，最终得到的目标图像组的每个图像分类信息与目标图像中的每个图像来源相匹配，即该分类信息可以得出目标图像组中各个图像的种类信息，其中每个图像均有与之对应的分类信息，而该分类信息可以表征每个图像的来源信息，例如，分类信息可以是银行卡、身份证、票据等表征图像来源类别的信息，具体的第N幅图像的分类信息可以为银行卡图像，即与该图像来源于银行系统的来源信息相匹配。

对应的，在本发明实施例中还提供了一种创建分类模型的方法，该方法包括：

基于初始训练模型对测试图集进行处理，得到处理结果；

需要说明的是在对初始训练模型进行优化的过程是一个反复训练的过程。即每次训练得到的模型都会对测试集图像进行预测，并用与其实际标注的结果进行分析，根据分析结果中的误差值对训练模型的参数进行调整。然后对调整后的参数进行再次训练得到模型，利用上述方法进行验证，直至得到的模型满足预测需求。

其中，所述基于所述图像特征对决策模型进行训练，得到初始训练模型，包括：

对所述图像特征进行模式向量转换，获得图像特征向量；

基于各个图像特征向量对应的模式，确定初始训练模型。

对应的，

根据测试图集对应的实际结果与所述处理结果之间的误差，对所述初始训练模型进行参数优化，得到分类训练模型，包括：

获取测试图集对应的实际结果与所述处理结果之间的误差；

这样可以基于预先建立的分类模型对图像进行分类，得到各个图像所属的类别信息，这样在对图像进行文字识别或者其他特征提取的时候可以更加准确。因此，在本发明中还包括：

以对证件图像进行分类识别为例，由于证件图像有多种类别，如身份证、驾驶证、社保卡、护照等。若要提取用户的唯一身份标识信息时，不同种类的证件对应的身份标识信息所处位置不同。通过本发明可以先识别到每个图像的类别，然后依据与该类别相匹配的文字识别模式进行文字提取。具体的，不同的文字识别模式其对应的唯一身份标识信息的识别框的位置不同。这样可以使得文字识别过程更加快速和准确。

当然也可以将文字识别的过程结合在通过神经网络训练分类训练模型的过程中，即可以将标注有分类信息、文字识别框的多张图像作为训练样本对学习模型进行训练，得到分类训练模式，实现了将图像输入到该分类训练模型后可以获得分类信息以及文字识别信息。

在对初始模型进行训练过程中使用了决策理论方法。

决策理论方法识别是使用（或判别）函数为技术的，以模式向量来描绘图像特征，模式向量有粗体小写字母表示，如x，y和z，并采用

表示一个n维模式向量。对于w个模式类w₁,w₂，…, w_n，决策理论模式识别的基本问题是依据如下属性找到w个决策函数d₁(x), d₂(x),...，d_n(x)：如果模式x属于w_i，则

即，将x带入所有决策函数后，如果d_i(x)得到最大值，则称未知模式x属于第i模式类。

并且在本发明中应用了支持向量机技术。支持向量机（support vector machine，SVM）的基本模型是定义在特征空间上间隔最大的线性分类器。是一种二分类模型，当采用了该技术后，支持向量机就可以用于非线性分类。

超平面——分类的决策边界。在SVM中，希望找到离分隔超平面最近的点（称为支持向量），确保它们离分隔超平面的距离尽可能的远。通过最大化支持向量到分隔超平面的距离来训练SVM。SVM主要分为以下三类：

线性可分支持向量机（也称为硬间隔支持向量机）：当训练数据线性可分时，通过硬间隔最大化，学得一个线性可分支持向量机。

线性支持向量机（也称为软间隔支持向量机）：当训练数据近似线性可分时，通过软间隔最大化，学得一个线性支持向量机。

非线性支持向量机：当训练数据不可分时，通过使用核技巧以及软间隔最大化，学得一个非线性支持向量机。

SVM本质上是非线性方法。缺点是计算代价比较大，SVM是将低维无序杂乱的数据通过核函数（RBF,poly，linear，sigmoid）映射到高维空间，通过超平面将其分开。优点是SVM是通过支撑面做分类的，也就是说不需要计算所有的样本，高维数据中只需去少量的样本，节省了内存。

神经网络模型的本质是优化问题，误差反向传播通过梯度下降算法，迭代处理训练集合中的样例。一次处理一个样例。对于样例d，如果它的预期输出和实际输出有“误差”，BP算法抓住这个信号L_d，以“梯度递减”的模式修改权值。也就是说，对于每个训练样例d，权值w_ji的校正幅度为Δw_ji（需要说明的是，w_ji和w_ij其实都是同一个权值，w_ji表示的是神经元j的第i个输入相关的权值，这里之所以把下标“j”置于“i”之前，仅仅表示这是一个反向更新过程而已）：

在这里，L_d表示的是训练集合中样例d的误差，分解到输出层的所有输出向量：

y_j表示的是第j个神经单元的预期输出值；

y_j ^/表示的是第j个神经单元的实际输出值；

outputs的范围是网络最后一层的神经元集合。

因此，参见图2，其示出了本发明实施例提供的一种利用预创建的分类训练模型对图像进行识别的方法，该方法的过程包括：

步骤1、由图像输入模块进行数据的读取；

步骤2、NCNN筛选模块判断是否是已有通用证件类型；

步骤3、SVM二次判断模块进行二次判断；

步骤4、OCR识别模块进行全文识别寻找关键词；

步骤5、结果输出模块进行结果输出以及区域图像数据输出。

即在本发明实施例中可以将一个文件夹中的所有图片进行分类，若单张导入，则会显示文件类型，如身份证类型、驾照类型等；若将文件夹图片批量导入，则自动进行分类，将同种类型的图片放进一个文件夹；若单张混合类型的图片导入，则边缘检测标出每个图像的类型。这种方法大大的提升了办公效率，避免了人工分类然后识别的问题。

在本申请实施例中进行图像分类时，以卡证图像，分类器支持类型：驾驶证正、副页，身份证正、反面，行驶证正、副页，火车票，机动车发票，营业执照，增值税发票，如果需要分类其他种类的图像对相应的图像样本进行训练即可。

单张分类只要点击打开分类界面的选择选项，然后选择要分类的图像（支持多选），然后点击分类对应的图像就会显示所属类型，无法区分的会显示未知类型；批量分类则点击批量分类按钮，点击打开按钮选择导入路径，点击选择按钮选择保存分类图像的路径，最后点击分类开始进行分类操作，并且会显示分类进度。

因此，本发明可应用的场景较为广泛，如裁剪应用，如在某个页面中包括身份证、火车票等多种类型图片，本方法可以代替图像边缘裁剪，直接将其中小图识别分类，即利用识别到的图像边缘进行裁剪。全自动识别场景，服务器端产品可以对自动上传的图像进行自动判断图像类别在进行识别，做到无需手动选择图像类别或者产品类别。当应用在财务报销方案时，可以实现自动分割贴票并做识别；还可以应用在图像分拣、资料分拣等应用场景。

本发明中图像识别的算法采用了计算欧式距离的方式，类似的计算方法还有余弦相似度等距离算法。如果特征向量模长是经过归一化处理，欧氏距离和余弦距离有着单调的关系，即两者效果相同，否则余弦相似度效果优于欧式距离；余弦相似度算法复杂度相对较高，效率上低于欧氏距离。本发明对此不做限定。

本发明提供了一种图像分类方法，通过对目标图像组进行图像特征提取，得到第一图像特征；将第一图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到目标图像组的分类信息。由于预先建立的分类训练模型为通过对已分类的图像文件样本特征训练得到的，且已分类的图像文件样本包括预先提取到的已分类的图像文件的图像特征。实现了可以基于分类模型对混合在一起的图像进行分类，提升了对图像处理的效率以及降低人工处理成本的目的。

对应的，在本发明实施例中还提供了一种图像分类系统，参见图3，该系统包括：

图像获取单元10，用于获取目标图像组，所述目标图像组中的图像来源不同；

特征描绘单元20，用于按照模式向量对所述目标图像组的图像进行图像特征描绘，获得第一图像特征；

分类单元30，用于将所述第一图像特征输入预先建立的分类训练模型中，通过所述分类训练模型的分类识别，得到所述目标图像组的分类信息；所述预先建立的分类训练模型为通过对已分类的图像文件样本特征训练得到的，且利用图像文件样本的特征进行决策模型训练和逐渐收敛法反复训练得到的模型，所述已分类的图像文件样本包括预先提取到的已分类的图像文件的图像特征，所述已分类的图像文件样本中的图像来源不同；

信息输出单元40，用于基于所述分类信息，输出所述目标图像组的每个图像的分类信息，所述目标图像组的每个图像的分类信息与所述目标图像组中的每个图像的来源相匹配。

在上述实施例的基础上，所述系统还包括：

在上述实施例的基础上，该系统还包括创建单元，包括：

在上述实施例的基础上，所述第一训练子单元包括：

在上述实施例的基础上，所述优化子单元包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像分类方法，其特征在于，该方法包括：

获取目标图像组，所述目标图像组中的图像来源不同；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，该方法还包括创建分类训练模型，包括：

基于初始训练模型对测试图集进行处理，得到处理结果；

4.根据权利要求3所述的方法，其特征在于，所述基于所述图像特征对决策模型进行训练，得到初始训练模型，包括：

对所述图像特征进行模式向量转换，获得图像特征向量；

基于各个图像特征向量对应的模式，确定初始训练模型。

5.根据权利要求3所述的方法，其特征在于，所述根据测试图集对应的实际结果与所述处理结果之间的误差，对所述初始训练模型进行参数优化，得到分类训练模型，包括：

获取测试图集对应的实际结果与所述处理结果之间的误差；

6.一种图像分类系统，其特征在于，该系统包括：

7.根据权利要求6所述的系统，其特征在于，所述系统还包括：

8.根据权利要求6所述的系统，其特征在于，该系统还包括创建单元，包括：

9.根据权利要求8所述的系统，其特征在于，所述第一训练子单元包括：

10.根据权利要求8所述的系统，其特征在于，所述优化子单元包括：