CN112365465B

CN112365465B - 合成图像类别确定方法、装置、存储介质及电子装置

Info

Publication number: CN112365465B
Application number: CN202011242730.4A
Authority: CN
Inventors: 王政军; 巫立峰
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2024-02-06
Anticipated expiration: 2040-11-09
Also published as: CN112365465A

Abstract

本发明提供了一种合成图像类别确定方法、装置、存储介质及电子装置，其中，该方法包括：将目标合成图像输入预先训练好的目标神经网络模型中，得到该目标神经网络模型输出的多个子图的坐标信息与该多个子图的特征向量；根据该多个子图的特征向量对该多个子图进行分组，得到分组结果；根据该分组结果确定该多个子图的图像类别，其中，该图像类别包括特写图与抓拍图，可以解决相关技术中需要预设行列组合，对于未知的合成图的图像类型无法识别，且对于噪声较多的合成图像识别准确率低的问题，可以识别任意组合的合成图的类型，并精准识别子图属于特写图或者抓拍图。

Description

合成图像类别确定方法、装置、存储介质及电子装置

技术领域

本发明涉及图像处理领域，具体而言，涉及一种合成图像类别确定方法、装置、存储介质及电子装置。

背景技术

违章抓拍是利用一系列声光设备，对现场违章人员的行为过程进行自动抓拍取证的一套技术手段。应用于道路交通领域时，能够实时获取交通违章的非机动车和行人违章行为的图像和视频，适用于目前道路上的非机动车和行人等违章行为的抓拍取证，具有声光警示功能，可以对违章的非机动车和行人进行提示，将并录像和图像进行存储，便于后期的数据统计、分析和调用。

一般情况下，违章判罚图片会以一组为单位传输到判断设备，一组图像会包含用于展示车辆特征(车牌、车内驾驶员等)的特写图和展示车辆在场景中位置及其周边信息的抓拍图(特写图与抓拍图的个数不固定，组成的合成图排列也不固定)，构成一个完整的违章证据链。现有的交通违章判罚很大程度上依赖于人工校验，需要人力读图判断违章与否，耗时较大。

相关技术中提出一种违章合成图的拆分方法，依据预设行列组合对违章合成图进行拆分，获得以预设行列组合排列的至少两个子图；确定预设行列组合下违章合成图中的特写图及位置图，将预设行列组合中预设位置处的子图作为特写子图，非预设位置处的子图作为抓拍子图；计算特写子图与抓拍子图的特写差异度，获取每个预设位置对应的特写差异度；比较所有预设位置对应的特写差异度，确定最大的特写差异度对应的预设位置处的子图为违章合成图中的特写图，其他子图作为抓拍图。需要预设行列组合，对于未知的合成图类型无法拆分，合成图中各个子图大小也可能不同，采用均分拆分方法无法解决此类问题；另外此方法区分特写图与抓拍图是直接利用像素均值做差，如果图中噪声较多，场景中信息变化较大，该方法准确率将大大降低。

针对相关技术中需要预设行列组合，对于未知的合成图的图像类型无法识别，且对于噪声较多的合成图像识别准确率低的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种合成图像类别确定方法、装置、存储介质及电子装置，以至少解决相关技术中需要预设行列组合，对于未知的合成图的图像类型无法识别，且对于噪声较多的合成图像识别准确率低的问题。

根据本发明的一个实施例，提供了一种合成图像类别确定方法，包括：

将目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量；

根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果；

根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图。

可选地，在根据所述分组结果确定所述多个子图的图像类别之后，所述方法还包括：

根据所述多个子图的坐标信息对所述多个子图进行定位；

根据所述分组结果与所述多个子图的坐标信息对所述多个子图进行拆分。

可选地，根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果包括：

确定所述多个子图中每两个子图的特征向量的余弦值；

将所述余弦值大于预设阈值的两个子图划分到同一组中，得到所述分组结果。

可选地，根据所述分组结果确定所述多个子图的图像类别包括：

若所述分组结果包括一组子图，确定所述多个子图均为抓拍图；

若所述分组结果包括第一组子图与第二组子图，分别确定所述第一组子图与所述第二组子图的特征向量的模值均值；在所述第一组子图的特征向量的模值均值大于所述第二组子图的特征向量的模值均值的情况下，确定所述第一组子图为特写图，所述第二组子图为抓拍图。

可选地，在将所述目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量之前，所述方法还包括：

将合成图按照预定比例进行缩放，得到目标合成图像，其中，所述预定比例小于1。

根据本发明的另一个实施例，还提供了一种合成图像类别确定装置，包括：

输入模块，用于将目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量；

分组模块，用于根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果；

确定模块，用于根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图。

可选地，所述装置还包括：

定位模块，用于根据所述多个子图的坐标信息对所述多个子图进行定位；

拆分模块，用于根据所述分组结果与所述多个子图的坐标信息对所述多个子图进行拆分。

可选地，所述分组模块包括：

第一确定子模块，用于确定所述多个子图中每两个子图的特征向量的余弦值；

划分子模块，用于将所述余弦值大于预设阈值的两个子图划分到同一组中，得到所述分组结果。

可选地，所述确定模块包括：

第二确定子模块，用于若所述分组结果包括一组子图，确定所述多个子图均为抓拍图；

第三确定子模块，用于若所述分组结果包括第一组子图与第二组子图，分别确定所述第一组子图与所述第二组子图的特征向量的模值均值；在所述第一组子图的特征向量的模值均值大于所述第二组子图的特征向量的模值均值的情况下，确定所述第一组子图为特写图，所述第二组子图为抓拍图。

可选地，所述装置还包括：

缩放模块，用于将合成图按照预定比例进行缩放，得到目标合成图像，其中，所述预定比例小于1。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，将目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量；根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果；根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图，可以解决相关技术中需要预设行列组合，对于未知的合成图的图像类型无法识别，且对于噪声较多的合成图像识别准确率低的问题，可以识别任意组合的合成图的类型，并精准识别子图属于特写图或者抓拍图。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的合成图像类别确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的合成图像类别确定方法的流程图；

图3是根据本发明实施例的合成图的图像类型确定与子图拆分的流程图；

图4是根据本发明实施例的检查子图的示意图一；

图5是根据本发明实施例的检查子图的示意图二；

图6是根据本发明实施例的合成图像类别确定装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的合成图像类别确定方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的合成图像类别确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的合成图像类别确定方法，图2是根据本发明实施例的合成图像类别确定方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，将目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量；

步骤S204，根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果；

步骤S206，根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图。

通过上述步骤S202至S206，将目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量；根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果；根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图，可以解决相关技术中需要预设行列组合，对于未知的合成图的图像类型无法识别，且对于噪声较多的合成图像识别准确率低的问题，可以识别任意组合的合成图的类型，并精准识别子图属于特写图或者抓拍图。

本发明实例中，在根据所述分组结果确定所述多个子图的图像类别之后，根据所述多个子图的坐标信息对所述多个子图进行定位，根据所述分组结果与所述多个子图的坐标信息对所述多个子图进行拆分，可以实现快速拆分子图，之后还可以将每个子图与该子图对应的图像类别一起存储到数据库中。

本发明实施例中，上述步骤S204具体可以包括：确定所述多个子图中每两个子图的特征向量的余弦值，将所述余弦值大于预设阈值的两个子图划分到同一组中，得到所述分组结果，即通过余弦值确定每两个子图的相似度，余弦值大于预设阈值，说明两个子图的相似度大于预设阈值，即可确定为同一组，最后便可得到分组结果。

本发明实施例中，上述步骤S206具体可以包括：若所述分组结果包括一组子图，确定所述多个子图均为抓拍图；若所述分组结果包括第一组子图与第二组子图，分别确定所述第一组子图与所述第二组子图的特征向量的模值均值；在所述第一组子图的特征向量的模值均值大于所述第二组子图的特征向量的模值均值的情况下，确定所述第一组子图为特写图，所述第二组子图为抓拍图。

在一可选的实施例中，在上述步骤S202之前，将合成图按照预定比例进行缩放，得到目标合成图像，其中，所述预定比例小于1，即将合成图按照预定比例缩小，再基于缩小后的目标合成图像确定图像类别，可以加快图像类别确定的时间。

本发明实施例可以拆分任意组合的合成图，并精准识别子图属于特写图或者抓拍图。由于违章判罚的自动化处理是在后台服务器上进行的。输入的图片存在图片配置不同的问题。即输入图片或为单张图片或为合成图，且合成方式也多种多样。因此自动判罚违章的首要前提就是对合成图进行拆分和不同类型的定位。

合成图的生成方式很多，有规则的1x2,1x3,1x4,2x1,2x2,2x3类型，这类合成图中的子图大小一致，另外也有不规则的2x3类型(第三列子图会比前两列窄)、上品字形(上面一张子图，下面两张或者三张子图)、下品字形(下面一张子图，上面两张或者三张子图)、左品字形(左边一张子图，右边两张或三张子图)、右品字形(右边一张子图，左边两张或三张子图)。合成图中的特写图个数也不固定，0～n-1(合成图n个子图)都有可能。同一张合成图中特写图与抓拍图的主要区别是他们拍摄的倍率不一致，特写图拍摄倍率高。

利用深度学习目标检测的方法对子图进行检测，获取子图坐标信息；同时获取同一张合成图中各个子图特征向量进行距离计算进行分组，比较不同组子图之间的特征向量模值均值判定子图属于特写图或者抓拍图。图3是根据本发明实施例的合成图的图像类型确定与子图拆分的流程图，如图3所示，包括：

步骤S301，将合成图缩放为小尺寸图像，合成图一般尺寸较大，缩放至小尺寸可以加速网络推理。

步骤S302，将小尺寸图像输入目标神经网络模型中，得到目标神经网络模型输出的多个子图的坐标信息与多个子图的特征向量。

神经网络模型基础采用YOLOV3-TINY，缩减通道并增加一个输出(下采样8倍)，最后会有三个输出层Feature1、Feature2、Feature3，在YOLO层的上一层输出Feature map个数是3*(4+1+classes+features)，其中3代表每个点匹配三个锚点框anchors，4代表子图坐标x,y,w,h的偏移量，1代表是目标的置信度，classes代表检测目标的个数，features代表每个目标所附带的特征。

神经网络模型的训练与一般检测网络训练过程类似，不同点在于因为不同合成图子图的拍摄倍率是不确定的，唯一能确定的是同一张合成图中特写图与抓拍图倍率不一致。且特写图倍率比场景图的高(可能合成图A的特写图拍摄倍率与合成图B中抓拍图拍摄倍率一致)。所以区分特写图与抓拍图仅仅通过分类无法解决，需要对比同一张合成图中的子图区别，因此在原YOLOV3-TINY输出层Feature上新增子图附属features，损失上新增对比损失与sign损失，对比损失的输入为两个检测目标(子图)附带的features，如果都是抓拍图或者都是特写图：label＝0；如果一张是特写图一张是抓拍图：label＝1。

新增对比损失计算公式如下：

d＝cos(features1，feature2)；

d计算的是两个子图附带特征的余弦值[0,1]，余弦值越大，代表特征越接近，两个子图越相似，label代表两个子图是否为同一类，同类：label＝0；不同类：label＝1。Margin为设置的阈值。

Sign的损失计算如下：两个子图属于同一类时,L＝0；

两个子图不属于同一类时，期望同一个合成图中的特写图模值更大。

|feature1|代表的特写图特征的模值，|feature2|代表的场景图特征的模值。

图4是根据本发明实施例的检查子图的示意图一，如图4所示，包括2*2的4个子图；图5是根据本发明实施例的检查子图的示意图二，如图5所示，包括品字形的3个子图。

步骤S303，根据多个子图的特征向量对子图进行分组，即利用子图特征进行分组,获取子图信息及子图特征后，计算两两子图之间的特征余弦值，设定阈值，特征余弦值大于阈值的两张图属于同一组，否则属于不同组。

例：设置阈值thresh＝0.4；四张子图(id＝1,2,3,4)中有一张特写图(id＝1)，得到子图特征后计算d(1,2)＝0.03,d(1,3)＝0.10；d(1,4)＝0.08；d(2,3)＝0.93；d(2,4)＝0.95；d(3,4)＝0.90；与阈值比较后(2,3)；(2,4)；(3,4)都是同一组，可以得到(2,3,4)是一组，(1)是一组。

步骤S304，判断是否为两组子图，在判断结果为是的情况下，执行步骤S305，否则执行步骤S306；

步骤S305,确定子图包括抓拍图和特写图，计算不同组子图特征的模值均值，模值均值大的属于特写图，模值均值小的属于抓拍图。

步骤S306,确定为抓拍图，如果只有一组，因为特写图存在0-3张，所以判定子图全部为抓拍图。

本发明实施例对合成图进行拆分处理，相对于其他专利突出的特点是能够使用一个CNN网络对任意类型的合成图进行拆分，且能够准确区分特写图与抓拍图。利用GPU资源，拆分能够达到10ms以内，实时性更高。自动拆图的功能实现可以为图片的二次处理应用提供了方便的技术支持手段，可以在很大程度上节省人工拆分图片或整理归档的难度。

实施例2

根据本发明的另一个实施例，还提供了一种合成图像类别确定装置，图6是根据本发明实施例的合成图像类别确定装置的框图，如图6所示，包括：

输入模块62，用于将目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量；

分组模块64，用于根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果；

确定模块66，用于根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图。

可选地，所述装置还包括：

可选地，所述分组模块64包括：

可选地，所述确定模块66包括：

可选地，所述装置还包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量；

S2，根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果；

S3，根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种合成图像类别确定方法，其特征在于，包括：

根据所述多个子图的特征向量对所述多个子图进行分组，得到分组结果，包括：确定所述多个子图中每两个子图的特征向量的余弦值；将所述余弦值大于预设阈值的两个子图划分到同一组中，得到分组结果；

根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图；若所述分组结果包括一组子图，确定所述多个子图均为抓拍图；若所述分组结果包括第一组子图与第二组子图，分别确定所述第一组子图与所述第二组子图的特征向量的模值均值；在所述第一组子图的特征向量的模值均值大于所述第二组子图的特征向量的模值均值的情况下，确定所述第一组子图为特写图，所述第二组子图为抓拍图；

其中，在神经网络模型训练过程中，损失上新增符号sign损失；sign的损失计算如下：两个子图属于同一类时,L＝0；两个子图不属于同一类时，|feature1|代表的特写图特征的模值，|feature2|代表的场景图特征的模值。

2.根据权利要求1所述的方法，其特征在于，在根据所述分组结果确定所述多个子图的图像类别之后，所述方法还包括：

根据所述多个子图的坐标信息对所述多个子图进行定位；

3.根据权利要求1至2中任一项所述的方法，其特征在于，在将所述目标合成图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的多个子图的坐标信息与所述多个子图的特征向量之前，所述方法还包括：

4.一种合成图像类别确定装置，其特征在于，包括：

确定模块，用于根据所述分组结果确定所述多个子图的图像类别，其中，所述图像类别包括特写图与抓拍图；

其中，分组模块包括：

划分子模块，用于将所述余弦值大于预设阈值的两个子图划分到同一组中，得到分组结果；

其中，所述确定模块包括：第二确定子模块，用于若所述分组结果包括一组子图，确定所述多个子图均为抓拍图；第三确定子模块，用于若所述分组结果包括第一组子图与第二组子图，分别确定所述第一组子图与所述第二组子图的特征向量的模值均值；在所述第一组子图的特征向量的模值均值大于所述第二组子图的特征向量的模值均值的情况下，确定所述第一组子图为特写图，所述第二组子图为抓拍图；

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

6.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3中任一项所述的方法。