CN108334878B

CN108334878B - 视频图像检测方法、装置、设备及可读存储介质

Info

Publication number: CN108334878B
Application number: CN201810121745.1A
Authority: CN
Inventors: 宋旭博
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2021-01-05
Anticipated expiration: 2038-02-07
Also published as: CN108334878A

Abstract

本申请公开了一种图像检测方法和装置，其中方法包括：输入步骤：将第一图像输入经过训练的神经网络；检测步骤：基于所述神经网络对所述第一图像中感兴趣区域进行检测，得到围绕所述感兴趣区域的多边形，检测所述多边形的各个边所在的直线；输出步骤：输出描述所述各个边所在的直线的参数。本申请采用线性标识方式对图像中的感兴趣区域进行了标识，与传统的标识方法相比，大大减小了神经网络的训练量和识别运算量。

Description

视频图像检测方法、装置、设备及可读存储介质

技术领域

本申请涉及图像处理领域，特别是涉及视频图像检测方法和装置。

背景技术

目前，在视频，例如电影、电视剧中植入广告已经屡见不鲜。其中，在视频画面中植入平面图案广告是植入广告的方式之一。通常，在视频中检测平面的方法是通过识别视频帧中的平面并利用坐标矩阵对平面进行标识，根据相邻帧中坐标矩阵的变化计算计算透视变换矩阵，从而检测到视频中平面存在的位置坐标。然而该方法数据计算量大，导致计算速度慢，识别效率低。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种图像检测方法，包括：

输入步骤：将第一图像输入经过训练的神经网络；

检测步骤：基于所述神经网络对所述第一图像中感兴趣区域进行检测，得到围绕所述感兴趣区域的多边形，检测所述多边形的各个边所在的直线；

输出步骤：输出描述所述各个边所在的直线的参数。

本申请采用线性标识方式对图像中的感兴趣区域进行了标识，与传统的标识方法相比，大大减小了神经网络的训练量和识别运算量。

可选地，所述经过训练的神经网络模型采用以下步骤获得：

训练数据集获取步骤：对多个第二图像的感兴趣区域进行标识，得到训练数据集；

SSD网络训练步骤：利用所述训练数据集训练SSD网络；

神经网络训练步骤：利用所述训练数据集训练神经网络，其中，所述神经网络通过如下方式获得：将训练后的所述SSD网络的检测(Detection)层的输入作为LSTM网络(长短期记忆神经网络)的输入，从而将所述SSD网络与所述LSTM网络组合形成所述神经网络。

本申请采用SSD+LSTM的神经网络方式，极大增强了对视频内容的人工智能处理能力。

可选地，所述神经网络训练步骤后还包括：

神经网络测试步骤：若所述神经网络训练步骤得到的所述神经网络不能达到预期效果，则重复所述SSD网络训练步骤；若所述神经网络训练步骤得到的所述神经网络能够达到预期效果，则在有新的训练数据时，利用所述新的训练数据训练所述神经网络。

可选地，在所述输入步骤前，该方法还包括：

视频帧调整步骤：将视频中的每一帧缩小到一定的尺寸，得到第一图像集合，将所述第一图像集合中的每一个第一图像，按照所述视频播放的顺序依次执行所述输入步骤。

可选地，在所述输出步骤后，该方法还包括：

直线参数转化步骤：将所述输出步骤输出的所述直线的参数转化为矩阵，所述矩阵用于描述所述多边形内各个像素点的位置。

本申请将直线参数转化为矩阵形式，为后续其他的处理方式提供另一种类型的数据形式，便于对多边形内的图像作进一步的分析。

可选地，所述感兴趣区域为平面。

可选地，所述多边形为四边形。

可选地，所述直线的参数为直线方程y＝kx+b的斜率k和截距b。

可选地，所述直线的参数为直线方程Ax+By+C＝0中的系数A、B和C。

根据本申请的另一个方面，提供了一种图像检测装置，包括：

输入装置，被配置成将第一图像输入经过训练的神经网络；

检测装置，被配置成基于所述神经网络对所述第一图像中感兴趣区域进行检测，得到围绕所述感兴趣区域的多边形，检测所述多边形的各个边所在的直线；

输出装置，被配置成输出描述所述各个边所在的直线的参数。

可选地，所述经过训练的神经网络模型采用以下模块获得：

训练数据集获取装置，被配置成对多个第二图像的感兴趣区域进行标识，得到训练数据集；

SSD网络训练装置，被配置成利用所述训练数据集训练SSD网络；

神经网络训练装置，被配置成利用所述训练数据集训练神经网络，其中，所述神经网络通过如下方式获得：将训练后的所述SSD网络的检测(Detection) 层的输入作为LSTM网络的输入，从而将所述SSD网络与所述LSTM网络组合形成所述神经网络。

可选地，所述神经网络训练装置后还包括：

神经网络测试装置，被配置成若所述神经网络训练装置得到的所述神经网络不能达到预期效果，则返回所述SSD网络训练装置；若所述神经网络训练装置得到的所述神经网络能够达到预期效果，则在有新的训练数据时，利用所述新的训练数据训练所述神经网络。

可选地，所述输入装置前还包括：

视频帧调整装置，被配置成将视频中的每一帧缩小到一定的尺寸，得到第一图像集合，将所述第一图像集合中的每一个第一图像，按照所述视频播放的顺序依次执行所述输入步骤。

可选地，所述输出装置后还包括：

直线参数转化装置，被配置成将所述输出装置输出的所述直线的参数转化为矩阵，所述矩阵用于描述所述多边形内各个像素点的位置。

可选地，所述感兴趣区域为平面。

可选地，所述多边形为四边形。

可选地，所述直线的参数为直线方程y＝kx+b的斜率k和截距b。

根据本申请的另一个方面，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的方法。

根据本申请的另一个方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述的方法。

根据本申请的另一个方面，还提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请的图像检测方法的一个实施例的流程图；

图2是根据本申请的神经网络模型获得步骤的一个实施例的流程图；

图3是根据本申请的图像检测方法的另一个实施例的流程图；

图4是根据本申请的图像检测装置的一个实施例的框图；

图5是根据本申请的神经网络模型训练装置的一个实施例的框图。

具体实施方式

根据本申请的一个方面，提供了一种图像检测方法，参见图1，该方法包括：S1输入步骤：将第一图像输入经过训练的神经网络。该方法还包括检测步骤：基于所述神经网络对所述第一图像中感兴趣区域进行检测，得到围绕所述感兴趣区域的多边形，检测所述多边形的各个边所在的直线。该方法还包括输出步骤：输出描述所述各个边所在的直线的参数。

可选地，参见图2，S1中所述经过训练的神经网络模型采用以下步骤获得：

S11，训练数据集获取步骤：对多个第二图像的感兴趣区域进行标识，得到训练数据集。其中，第二图像可以为现有的训练数据集中的图像，例如， PASCAL VOC、MS COCO、ILSVRC数据集等，也可以是视频中存在感兴趣区域的帧组成的数据集。

S12，SSD网络训练步骤：利用所述训练数据集训练SSD网络。

SSD是一种基于全卷积的网络的检测器，该算法使用单个的卷积神经网络对图像进行卷积后，在特征图像的每一个位置处预测一系列不同尺寸和长宽比的边界框。图2给出了SSD网络的结构示意图。SSD网络包括数据层、特征提取网络、检测层和非极大值抑制(NonMaximum Suppression，NMS)层。训练时，将第一图像和该图像中感兴趣区域的边界框输入SSD网络的数据层，该边界框也称真实边界框。可选地，所述感兴趣区域为平面。在一个优选实施方式中，如果感兴趣区域时视频中出现的平面，则边界框是围绕该平面的多边形。在训练时，将第一图像和将多边形各个边所在的直线的参数输入SSD网络的数据层。特征提取网络包括若干个卷积层。输入的数据依次经过特征提取网络的若干个卷积层进行数据处理。每个卷积层对应于不同尺度的特征图(feature map) 并且针对卷积层的特征图上的每一个位置，计算目标物体的默认边界框(例如， 4个)相对于真实边界框的偏差，得到特征图数据。该特征图数据的形式是张量(tensor)，也就是多维矩阵的形式。该卷积层将特征图和特征图数据传送给后一个卷积层，依次类推，直至最后一个卷积层。同时，每个卷积层将该层计算的特征图数据传动给检测层。检测层对每一个边界框中分别包含各个类别的物体的可能性进行预测，并且对边界框进行调整以适应目标物体的形状。非极大值抑制层对检测层的输出进行非极大值抑制就能得到每个目标的边界框位置和目标标签信息。

S13，神经网络训练步骤：利用所述训练数据集训练神经网络，其中，所述神经网络通过如下方式获得：将训练后的所述SSD网络的检测(Detection) 层的输入作为LSTM网络的输入，从而将所述SSD网络与所述LSTM网络组合形成所述神经网络。

优选地，将训练后的所述SSD网络的检测(Detection)层的输入作为高斯初始化后的LSTM网络的输入。

LSTM的神经元主要由三个门构成：遗忘门、输入门、输出门。其是通过门来控制丢弃或者增加信息，从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构，由一个s型曲线激活函数(sigmoid函数)和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间，0代表完全丢弃，1代表完全通过。

遗忘门：遗忘门是用上一单元的输出h_t-1和本单元的输入X_t为输入的sigmoid 函数，输出为[0,1]区间内的值，即，将数据映射为[0,1]区间的函数，为C_t-1中的每一项产生一个在[0,1]内的值，来控制上一单元状态被遗忘的程度。其中，C_t-1为上一单元状态。遗忘门的主要参数为W_F、b_F，其中W_F用于对输入进行权重的映射，b_F为偏置项。

输入门：输入门和双曲正切激活函数(tanh激活函数)配合控制被加入的新信息的输入。tanh激活函数产生一个新的候选向量

输入门为

中的每一项产生一个在[0,1]内的值，控制新信息被加入的多少。至此，得到遗忘门的输出F_t，用来控制上一单元被遗忘的程度，以及输入门的输出I_t，用来控制新信息被加入的多少，输入门有两组参数：第一组是W_I、b_I，其对输入进行映射，产生输入被遗忘的程度；第二组是W_C、b_C，其对输入进行非线性映射，产生新的候选向量。

输出门：输出门用来控制当前的单元状态有多少被过滤掉。先将单元状态激活，输出门为其中每一项产生一个在[0,1]内的值，控制单元状态被过滤的程度。O_t表示输入，可以理解为更新本记忆单元的单元状态。输出门的主要参数为W_O、b_O，用于对输入进行映射，产生用于控制过滤单元状态的矩阵。

前向长短期记忆网络(Forward LSTM)是长短期记忆网络按照卷积层的正向顺序依次记忆的网络应用形态。在该网络中，按照卷积层运算的顺序将各个特征图数据作为输入数据X，将上一个状态h_t-1和X输入前向长短期记忆网络，得到第一输出结果h_t。该第一输出结果表示当前状态，计算过程如下：

其中，F_t、I_t和O_t分别是长短期记忆单元中“遗忘门”、“输入门”、“输出门”的计算公式；

为当前词语向量D(w_ik)保存在记忆单元中的信息，当前最终记忆信息C_t由历史记忆信息C_t-1和

两部分组成；当前状态h_t根据“输出门”O_t和当前最终记忆信息C_t计算。σ为sigmoid激活函数，*表示矩阵点乘，W_F、W_I、 W_O、W_C和b_F、b_I、b_O、b_C为模型参数，利用训练数据学习获得，X为将卷积层的特征图数据。

后向长短期记忆(Backward LSTM)网络与Forward LSTM结构相同，只是这两个单元的输入不同。Backward LSTM的输入是Forward LSTM输入的逆序后的结果。按照卷积层运算的相反顺序将各个特征图数据作为输入数据，输入后向长短期记忆网络，得到第二输出结果。

LSTM网络将第一输出结果和第二输出结果进行运算处理后，最终输出描述所述各个边所在的直线的参数。

可选地，S13神经网络训练步骤后还包括：

S14，神经网络测试步骤：若所述神经网络训练步骤得到的所述神经网络不能达到预期效果，则重复所述SSD网络训练步骤；若所述神经网络训练步骤得到的所述神经网络能够达到预期效果，则在有新的训练数据时，利用所述新的训练数据训练所述神经网络。

可以通过人工校验判断神经网络的结果是否达到预期效果，也可以通过计算机算法实现。

可选地，该方法还包括：

S2检测步骤：基于所述神经网络对所述第一图像中感兴趣区域进行检测，得到围绕所述感兴趣区域的多边形，检测所述多边形的各个边所在的直线。

在一个优选实施方式中，所述多边形为四边形。该四边形可以是矩形或者任意形状的四边形。

可选地，该方法还包括：

S3输出步骤：输出描述所述各个边所在的直线的参数。

直线的参数为描述直线的数据。可选地，所述直线的参数为直线方程 y＝kx+b的斜率k和截距b。可选地，所述直线的参数为直线方程Ax+By+C＝0中的系数A、B和C。可以理解的是，直线的参数也包括其他能够描述直线的方式。如果多边形是矩形，直线的参数也可以是(x,y,w,h)，其中，x和y分别为矩形的一个顶点的坐标，w和h分别表示矩形的宽度和高度。

可选地，参见图3，在所述输入步骤前，该方法还包括：

S0视频帧调整步骤：将视频中的每一帧缩小到一定的尺寸，得到第一图像集合，将所述第一图像集合中的每一个第一图像，按照所述视频播放的顺序依次执行所述输入步骤。

由于现在的视频数据量很大，然而在对视频中的平面区域进行分析时，并不需要特别清晰的画面，因此将数据帧缩小，一方面能够减少计算量，一方面能够满足神经网络的数据输入要求。对视频帧按照顺序输入神经网络是考虑到镜头面画面的连续性，在训练时利用LSTM的记忆功能，对当前帧的前若干帧的感兴趣区域进行记忆，从而使得神经网络对当前帧中感兴趣区域的判断结果更加准确。根据连续的图片序列和直线参数，神经网络还能够对该平面进行追踪，进而预测下一帧中平面存在可能的位置。

可选地，参见图3，在所述S3输出步骤后，该方法还包括：

S4直线参数转化步骤：将所述输出步骤输出的所述直线的参数转化为矩阵，所述矩阵用于描述所述多边形内各个像素点的位置。

本申请可广泛应用于视频中指定目标(例如，平面)的识别，是一种具有通用性的深度神经网络自动化的核心方法。本申请采用SSD-LSTM卷积神经网络，能够对视频图像中的感兴趣区域进行检测识别。对于给定的视频，采用本申请的深度学习神经网络技术，能够自动找到视频中存在的平面，并且允许后续流程中自动或手动为平面附加给定的平面图案，例如，广告等操作。本申请采用线性标识对视频中平面进行标记，通过各个在帧中平面的线性标识能够得到对平面的移动进行跟踪。

根据本申请的另一个方面，参见图4，提供了一种图像检测装置，该装置包括：

输入装置1，被配置成将第一图像输入经过训练的神经网络。

该装置还包括检测装置2，被配置成基于所述神经网络对所述第一图像中感兴趣区域进行检测，得到围绕所述感兴趣区域的多边形，检测所述多边形的各个边所在的直线。

该装置还包括输出装置3，被配置成输出描述所述各个边所在的直线的参数。

可选地，该装置还包括神经网络模型训练装置，参见图5，该装置包括：

训练数据集获取装置11，被配置成对多个第二图像的感兴趣区域进行标识，得到训练数据集；

SSD网络训练装置12，被配置成利用所述训练数据集训练SSD网络；

神经网络训练装置13，被配置成利用所述训练数据集训练神经网络，其中，所述神经网络通过网络组合模块获得：

网络组合模块，被配置成将SSD网络训练装置12得到的训练后的所述SSD 网络的检测(Detection)层的输入作为LSTM网络的输入，从而将所述SSD网络与所述LSTM网络组合形成所述神经网络。优选地，将训练后的所述SSD 网络的检测(Detection)层的输入作为高斯初始化后的LSTM网络的输入。

可选地，所述神经网络训练装置13后还包括：

神经网络测试装置14，被配置成若所述神经网络训练装置得到的所述神经网络不能达到预期效果，则返回所述SSD网络训练装置；若所述神经网络训练装置得到的所述神经网络能够达到预期效果，则在有新的训练数据时，利用所述新的训练数据训练所述神经网络。

可选地，所述输入装置前还包括：

视频帧调整装置0，被配置成将视频中的每一帧缩小到一定的尺寸，得到第一图像集合，将所述第一图像集合中的每一个第一图像，按照所述视频播放的顺序依次执行所述输入步骤。

可选地，所述输出装置3后还包括：

直线参数转化装置4，被配置成将所述输出装置输出的所述直线的参数转化为矩阵，所述矩阵用于描述所述多边形内各个像素点的位置。

可选地，所述感兴趣区域为平面。

可选地，所述多边形为四边形。

可选地，所述直线的参数为直线方程y＝kx+b的斜率k和截距b。

本申请公开的装置中各个模块中数值的计算方式与本申请公开的方法中对应的各个步骤的计算方式相同或者相似。

根据本申请的另一个实施例，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的方法。

根据本申请的另一个实施例，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述的方法。

根据本申请的另一个实施例，还提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种图像检测方法，包括：

输入步骤：将第一图像输入经过训练的神经网络；

输出步骤：输出描述所述各个边所在的直线的参数；

其中，所述经过训练的神经网络模型采用以下步骤获得：

SSD网络训练步骤：利用所述训练数据集训练SSD网络；

神经网络训练步骤：利用所述训练数据集训练神经网络，其中，所述神经网络通过如下方式获得：将训练后的所述SSD网络的检测(Detection)层的输入作为高斯初始化后的LSTM网络的输入，从而将所述SSD网络与所述LSTM网络组合形成所述神经网络。

2.根据权利要求1所述的方法，其特征在于，所述神经网络训练步骤后还包括：

3.根据权利要求1所述的方法，其特征在于，在所述输入步骤前，该方法还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，在所述输出步骤后，该方法还包括：

5.一种图像检测装置，包括：

输入装置，被配置成将第一图像输入经过训练的神经网络；

输出装置，被配置成输出描述所述各个边所在的直线的参数；

其中，所述经过训练的神经网络模型采用以下模块获得：

神经网络训练装置，被配置成利用所述训练数据集训练神经网络，其中，所述神经网络通过如下方式获得：将训练后的所述SSD网络的检测(Detection)层的输入作为高斯初始化后的LSTM网络的输入，从而将所述SSD网络与所述LSTM网络组合形成所述神经网络。

6.一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质，为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1至4中任一项所述的方法。