CN110427819A

CN110427819A - 一种识别图像中ppt边框的方法及相关设备

Info

Publication number: CN110427819A
Application number: CN201910561844.6A
Authority: CN
Inventors: 管明雷; 汪驰升
Original assignee: Shenzhen Ronghui Technology Co ltd
Current assignee: Shenzhen Polytechnic
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-08
Anticipated expiration: 2039-06-26
Also published as: CN110427819B

Abstract

本发明提供了一种识别图像中PPT边框的方法及相关设备，通过获取含有PPT文档的多个图像帧；将所述多个图像帧输入卷积层中进行图像帧特征层的提取将提取出特征图输入到RPN候选区域提取网络中进行矩形区域候选框的提取；将提取出的所述特征图输入到所述预设神经网络模型中的深度卷积神经网络中进行图像语义分割，输出分割出的PPT区域；根据提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。本发明所提供的方法及设备，可以实现快捷的从视频文件中识别出PPT文档的边框，为从PPT文档中准确的提取PPT信息提供了前提，为用户从图像文件或者视频文件中提取PPT信息提供便利。

Description

一种识别图像中PPT边框的方法及相关设备

技术领域

本发明涉及信息处理技术领域，尤其涉及的是一种识别图像中PPT边框的方法及相关设备。

背景技术

目前，在大型会议还是内部讨论会中，参会者都会利用PPT文档进行报告。演讲者通过将PPT投影到投影幕或显示器上来将演讲主要内容呈现给观众。观众主要是通过呈现出来的PPT文档和演讲者口头汇报的内容来获知PPT文档的信息，因此在会议中最主要内容是PPT文档内容和演讲中口诉内容。

目前，观众或者主办方会利用录像设备来对会议中PPT文档内容、演讲者口头语言内容进行采集。这种视频录制方法能够有效地记录演讲者的PPT演示内容和口头演讲内容，但是针对录制好的视频文件可能会含有大量与PPT文档及其讲解不相关的内容，若未能参加现场会议的用户需要基于整个视频文件获取PPT文档的信息，则可能会因视频文件中含有的信息量大，并非是单一的关于PPT文档信息的视频文件，导致花费大量不必要的时间。而现有技术中，还未公开用于提取视频文件中的PPT文档内容或者演讲中的语言文字内容的方法，也未公开如何在提取视频文件中的PPT文档时准确识别其边框，从而实现准确的PPT画面的提取，因此如何快速的从图像帧中提取PPT文档相关信息的问题是亟待需要解决的问题。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种识别图像中PPT边框的方法及相关设备，克服现有技术中无法实现自动快速的从图像帧中识别出PPT边框的缺陷。

本发明提供了一种识别图像中PPT边框的方法，其中，包括步骤：

A、获取含有PPT文档的多个图像帧；

B、将所述多个图像帧输入预设神经网络模型的卷积层中进行图像帧特征层的提取，输出得到所述多个图像帧的特征图；

C、将各个所述特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取，输出提取到矩形区域候选框的特征图；

D、将所述提取到矩形区域候选框的特征图输入到所述神经网络模型中的深度卷积神经网络中进行图像语义分割，得到分割出的PPT区域；

E、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。

可选的，所述卷积层为VGGnet网络结构，其中插入有若干层Dropout层。

可选的，所述步骤C还包括：

C1、对所述RPN候选区域提取网络中提取出的矩形区域候选框进行二分类，获取含有矩形区域候选框的特征图。

可选的，所述步骤C1之后，还包括：

步骤C2、利用若干个回归模型对所述图像帧中的矩形区域候选框进行位置和大小的调整。

可选的，所述步骤C2之后，还包括：

C3、将所述特征图输入到全连接层中，输出图像特征向量；

C4、利用softmax函数对所述图像特征向量进行分类，分类出矩形区域候选框所属图像特征向量，并利用边框回归算法对分类出的所述图像特征向量对应的边框位置进行调整。

可选的，所述步骤D中图像语义分割包括：

D1、对所述图像上的每个像素值进行分类检测，将属于PPT区域分类的像素进行掩码。

可选的，所述深度卷积神经网络的结构依次包括:卷积层、激活层、若干个卷积层-归一化层-激活层和卷积层。

可选的，所述步骤A之前，还包括：

A0、基于条件随机场算法构建所述深度卷积神经网络。

在上述方法的基础上，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现所述方法的步骤。

在上述方法的基础上，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。

有益效果，本发明提供了一种识别图像中PPT边框的方法及相关设备，通过识获取含有PPT文档的多个图像帧；将所述多个图像帧输入已训练的用于识别PPT边框的预设神经网络模型的卷积层中进行图像帧特征层的提取，得到提取出的特征图；将提取出特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取；将提取出的所述特征图输入到所述预设神经网络模型中的深度卷积神经网络中进行图像语义分割，得到分割出的PPT区域；根据提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。本发明所提供的方法及设备，可以实现快捷的从图像帧中识别出PPT文档的边框，为从PPT文档中准确的提取PPT信息提供了前提，为用户获取PPT信息提供便利。

附图说明

图1是本发明提供的所述方法具体实施例的步骤流程图；

图2是本发明提供的所述方法的具体应用实施例步骤流程图；

图3是本发明提供的所述计算机设备的原理结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明提供了一种识别图像中PPT边框的方法，如图1所示，本发明所述方法包括：

步骤S1、获取含有PPT文档的一系列的多个图像帧。

本步骤中首先获取到含有PPT文档的一系列的多个图像帧，所述图像帧可以为对视频文件进行分帧处理得到的。将视频文件分割成处于同一时间轴序列的一系列图像帧，该一系列图像帧形成序列图库。具体的，对视频文件做分帧处理一般需要获取该视频文件的总时长，根据预定时间为间隔，将视频文件分割成独立的原始图像帧。其中，预设时间越小，则视频文件中分割出原始图像帧越多，非常视频文件中分割出的原始图像帧就越少。所述原始图像帧分割出的越多，则相似度高的图像帧就会越多，相邻图像帧之间的相似度就会越大，因此本步骤中视频文件的总时长，以及分割时间的设置均对分割出的图像帧个数及相邻图像帧之间的相似度有影响。该图像帧也可以是拍摄出的含有PPT画面的一系列图像，将拍摄出的一系列图像按照时间顺序进行排列，得到一系列的多个图像帧。

根据分割出的多个图像帧存储到一个新建图库，得到由多个图像帧组成的一序列图像帧。

步骤S2、将所述多个图像帧输入预设神经网络模型的卷积层中进行图像帧特征层的提取，输出得到所述多个图像帧的特征图。

结合图2所示，将上述步骤S1中得到的一系列图像帧输入卷积层中进行特征提取，得到图片特征层，也即所述特征图。本步骤中较佳的所述预设神经网络模型的卷积层为预训练好的VGGnet网络结构，通过将图像帧输入VGGnet网络，输出与各个图像帧相对应的特征图。

较佳的，为了防止过拟合，在所述VGGnet网络结构的中间插入了几层Dropout层，所述Dropout层以0.6的概率进行节点丢弃。

所述Dropout层为了实现在对神经网络模型训练的时候，避免验证集的拟合程度很差的情况出现。其原理为在每次迭代的更新网络参数时，按照一定的概率对网络参数层的参数进行随机采集，实现对参数的扩展，迭代出的子网络不重复，从而实现防止卷积层过拟合。

步骤S3、将各个所述特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取，输出提取到矩形区域候选框的特征图。

本步骤中利用RPN候选区域提取网络进行特征图中矩形区域候选框的提取。具体的，将提取出的一系列图像帧所对应的多个特征图输入到训练完成的RPN候选区域提取网络中，所述RPN候选区域提取网络输出所述特征图中识别出的矩形区域候选框。

进一步的，所述步骤S3还包括：

步骤S31、对所述RPN候选区域提取网络中提取出的矩形区域候选框进行二分类，获取含有矩形区域候选框的特征图。

根据所述RPN候选区域提取网络对特征图中矩形区域候选框的识别结果，对特征图中是否含有矩形区域候选框进行有无分类，获取含有矩形区域候选框的特征图。

步骤S32、利用若干个回归模型对所述特征图中的矩形区域候选框进行位置和大小的调整。

本步骤中使用的是线性回归模型，其作用为给定输入的特征向量X,学习一组参数W,使得经过线性回归后的值跟真实值Y(Ground Truth)非常接近.即Y≈WXY≈WX。因此本步骤中可利用线性回归模型对上述步骤中识别出的矩形区域候选框的位置和大小进行调整。具体的，本步骤中输入的是特征图中矩形区域候选框的特征向量，利用梯度下降法或者最小二乘法可以得到要学习的参数W。基于输入的特征向量X和学习的一组参数W，可以得到需要进行平移变换和尺度缩放的特征向量变量，从而实现对矩形区域候选框的调整。

步骤S33、将所述特征图输入到全连接层中，输出低维的图像特征向量。

将上述步骤中修改后的特征图输入到全连接层中，所述全连接层输出低维的图像特征向量。该低维的图像特征向量为一维的特征向量，并且该特征向量为1*1024的向量。

本步骤的操作是对每个输入的特征图都使用一个和图像大小一样的核卷积进行点积运算，对核卷积运算后的值求和，最终得到一个向量。

步骤S34、利用softmax函数对所述图像特征向量进行分类，分类出矩形区域候选框所属图像特征向量，并利用边框回归算法对分类出的所述图像特征向量对应的边框位置进行调整。

所述softmax函数为一种分类器，其用于输出向量中拥有最大权重的项，本步骤中利用softmax函数对图像特征向量进行分类，将特征图中属于矩形区域候选框的图像特征向量分类出，并利用边框回归算法对分类出的所述图像特征向量所对应的边框位置进行调整。

步骤S4、将所述提取到矩形区域候选框的特征图输入到所述神经网络模型中的深度卷积神经网络中进行图像语义分割，得到分割出的PPT区域。

上述步骤S1-S3中通过深度学习目标检测算法网络结构进行边框位置定位和分类，本步骤中利用深度卷积神经网络对特征图进行图像语义分割，以输出含有PPT区域和不含有PPT区域的分割图。

具体的，所述步骤S4中图像语义分割包括：

S41、对所述图像上的每个像素值进行分类检测，将属于PPT区域分类的像素进行掩码。

步骤S5、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。

根据上述步骤S3中获取的矩形区域候选框和上述步骤S4中获取到含有PPT区域的分割图，准确的识别出图像帧中的PPT边框。

具体的，所述深度卷积神经网络的结构依次包括:卷积层、激活层、若干个卷积层-归一化层-激活层和卷积层。

可选的，所述步骤S1之前，还包括：

S0、基于条件随机S1算法构建所述深度卷积神经网络。

因为是所述深度卷积神经网络全部为全卷积网络，为了避免空间不变性和降采样的问题，本步骤中使用了长距离的条件随机场以便还原更多的细节。由于分割神经网络的边界定位不够好，通过长距离的CRF使用能量函数来建模相邻节点，使边界划分的更好。

进一步的，在所述步骤S1之前还包括：

构建识别PPT边框的预设神经网络模型，并对其进行训练，使得其可以用于进行本方法中的PPT边框识别。

具体的，所述预设神经网络包括：用于提取特征图的卷积层提取特征图、用于提取矩形区域候选框的RPN网络和用于将图像特征向量转换为特定维度的全连接层和用于分割的卷积网络。

当设计好所述预设神经网络后，还需要对其进行训练，其训练步骤的实例如下：

制作数据集：搜集1500张在各种场景下的PPT图片，采用VGG image annotator工具标记了1200张图片，其中1000张为训练集，200张为验证集，然后分别将标记后的训练集和验证集保存成josn文件格式放在对应的目录下，剩下的300张为测试集。

训练数据：将标记好的训练集和验证集输入训练的网络中，采用小批次训练每个批次输入16张图片，一共训练30个轮次，训练优化器采用的是随机动量梯度下降法，迭代完成后将训练好的模型权重进行保存。

测试数据：测试图片依次输入预设神经网络模型中并进行可视化。

根据所述预设神经网络模型输出的识别结果与真实PPT边框的之间的差别计算总损失值，利用总损失值对预设神经网络模型的参数进行校正，重复将训练集输入预设神经网络模型进行训练，直至所述预设神经网络模型输出的PPT框所在位置与真实值之间的差别满足要求。

具体的，所述总损失值LOSS值和CFR值的计算：

(1)L＝L_cls+L_box+L_mask

本方法中总损失包括分类损失、回归损失和掩码损失，分类和回归是RPN网络和目标检测网络的损失之和，计算过程如下：

边框的预测属于回归问题采用分段函数，分类问题采用的交叉熵损失函数公式如下：

L_box(t_i，t_j)＝R(t_i-t_j)

L_cls(p_i，p_j)＝-log[p_jp_i+(1-p_j)(1-p_i)]

其中：p_i为anchor预测为目标的概率：

t_i是测量的位置偏移量，t_j是真实的位置偏移量，N_cls是总anchor的数量，N_box是特征图的大小。本发明中掩码损失是采用的平均二值交叉熵函数。

(2)CFR模型的能量函数如下：

其中x是像素点的分类，θ_i(x_i)＝-logP(x_i)；p(x_i)是DCNN计算出来的在i像素点的分类概率，第二项是二元势函数，当i和j的分类相同是，此项取值为0。

二元势函数定义如下：

其中p表示位置，I表示颜色，超参数σ_α、σ_β、σ_γ控制了高斯核的方差。

在上述方法的基础上，本发明还提供了一种计算机设备，如图3所示，包括存储器33、显示屏32和处理器31，还可以包括通信接口(Communications Interface)35和总线34。其中，处理器31、显示屏32、存储器33和通信接口35可以通过总线34完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口35可以传输信息。处理器31可以调用存储器33中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器33中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器31作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器31通过运行存储在存储器33中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器33可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器33可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

在上述方法的基础上，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明提供了一种识别图像中PPT边框的方法及相关设备，通过识别并截取视频文件中含有PPT文档的图像帧，得到的多个图像帧；将所述多个图像帧输入已训练的用于识别PPT边框的预设神经网络模型的卷积层中进行图像帧特征层的提取，得到提取出的特征图；将提取出特征图输入到所述预设神经网络模型中的RPN候选区域提取网络中进行矩形区域候选框的提取；将提取出的所述特征图输入到所述预设神经网络模型中的深度卷积神经网络中进行图像语义分割，得到分割出的PPT区域；根据提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。本发明所提供的方法及设备，可以实现快捷的从视频文件中识别出PPT文档的边框，为从PPT文档中准确的提取PPT信息提供了前提，为用户从视频文件中提取PPT信息提供便利。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种识别图像中PPT边框的方法，其特征在于，包括步骤：

A、获取含有PPT文档的多个图像帧；

2.根据权利要求1所述的识别图像中PPT边框的方法，其特征在于，所述卷积层为VGGnet网络结构，其中插入有若干层Dropout层。

3.根据权利要求1所述的识别图像中PPT边框的方法，其特征在于，所述步骤C还包括：

4.根据权利要求3所述的识别图像中PPT边框的方法，其特征在于，所述步骤C1之后，还包括：

5.根据权利要求4所述的识别图像中PPT边框的方法，其特征在于，所述步骤C2之后，还包括：

C3、将所述特征图输入到全连接层中，输出图像特征向量；

6.根据权利要求3所述的识别图像中PPT边框的方法，其特征在于，所述步骤D中图像语义分割包括：

7.根据权利要求1所述的识别图像中PPT边框的方法，其特征在于，所述深度卷积神经网络的结构依次包括:卷积层、激活层、若干个卷积层-归一化层-激活层和卷积层。

8.根据权利要求7所述的识别图像中PPT边框的方法，其特征在于，所述步骤A之前，还包括：

A0、基于条件随机场算法构建所述深度卷积神经网络。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。