CN110427820A

CN110427820A - 一种基于神经网络的ppt边框识别方法及相关设备

Info

Publication number: CN110427820A
Application number: CN201910562994.9A
Authority: CN
Inventors: 管明雷; 汪驰升
Original assignee: Shenzhen Ronghui Technology Co ltd
Current assignee: Shenzhen Polytechnic
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-08
Anticipated expiration: 2039-06-26
Also published as: CN110427820B

Abstract

本发明提供了一种基于神经网络的PPT边框识别方法及相关设备，通过将含有PPT文档信息的图片输入所述特征提取层中进行特征提取，得到所述特征提取层输出的图片的特征图；将所述图片的特征图输入到所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像；将所述轮廓分割图像输入到角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息；将所述角点位置信息输入角点回归层得到角点位置修正信息；根据所述四个角点的位置信息识别出所述PPT边框。本发明所提供的方法及设备，可以实现快捷的从图片文件中识别出PPT文档的边框，为从PPT文档中准确的提取PPT信息提供了前提，为用户从视频文件中提取PPT信息提供便利。

Description

一种基于神经网络的PPT边框识别方法及相关设备

技术领域

本发明涉及信息处理技术领域，尤其涉及的是一种基于神经网络的PPT边框识别方法及相关设备。

背景技术

目前，在大型会议还是内部讨论会中，参会者都会利用PPT文档进行报告。演讲者通过将PPT投影到投影幕或显示器上来将演讲主要内容呈现给观众。观众主要是通过呈现出来的PPT文档和演讲者口头汇报的内容来获知PPT文档的信息，因此在会议中最主要内容是PPT文档内容和演讲中口诉内容。

目前，观众或者主办方会利用录像设备来对会议中PPT文档内容、演讲者口头语言内容进行采集。这种视频录制方法能够有效地记录演讲者的PPT演示内容和口头演讲内容，但是针对录制好的视频文件可能会含有大量与PPT文档及其讲解不相关的内容，若未能参加现场会议的用户需要基于整个视频文件获取PPT文档的信息，则可能会因视频文件中含有的信息量大，并非是单一的关于PPT文档信息的视频文件，导致花费大量不必要的时间。而现有技术中，还未公开用于提取视频文件中的PPT文档内容或者演讲中的语言文字内容的方法，也未公开如何在提取视频文件中的PPT文档时准确识别其边框，从而实现准确的PPT画面的提取，因此如何快速的从视频文件中提取PPT文档相关信息的问题是亟待需要解决的问题。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种基于神经网络的PPT边框识别方法及相关设备，克服现有技术中存在的技术还不含有从图片文件中获取PPT文档方法的缺陷。

本发明提供了一种基于神经网络的PPT边框识别方法，其中，所述神经网络包括：特征提取层、轮廓分割层和角点定位层：

所述PPT边框识别方法包括：

将含有PPT文档信息的图片输入所述特征提取层中进行特征提取，得到所述特征提取层输出的图片的特征图；

将所述图片的特征图输入到所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像；

将所述轮廓分割图像输入到角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息；

根据所述四个角点的位置信息识别出所述PPT边框。

可选的，所述特征提取层包括：第一卷积层和反卷积层；

所述含有PPT文档信息的图片输入所述第一卷积层，所述第一卷积层输出所述图片所对应的图片特征层；

将所述图片特征层输入所述反卷积层，所述反卷积层输出所述图片特征层所对应的特征图。

可选的，所述轮廓分割层包括：第一卷积核；

所述特征图输入所述卷积核，经过卷积操作后，输出轮廓分割图像。

可选的，所述角点定位层包括：第二卷积核；

将所述轮廓分割图像依次输入所述第二卷积核，重复四次，分别得到四次卷积操作后输出的所述四个角点的位置信息。

可选的，所述神经网络还包括：全连接层；

所述方法还包括：

根据所述四个角点的位置信息，从特征图中提取出其所对应的特征向量；

将所述特征向量输入若干个全连接层，得到输出的四个角点在图片上的角点位置修正信息。

可选的，所述方法还包括：

对一系列含有PPT文档信息的图片进行预处理，将其缩放为尺寸的图片后，再输入到特征提取层。

可选的，所述特征提取层为已训练的Mobilenet v2网络结构和所述反卷积层的组成，或者所述特征提取层为编码-解码网络结构。

在上述方法的基础上，本发明还提供了一种基于神经网络的PPT边框识别装置，其中，所述神经网络包括：特征提取层、轮廓分割层和角点定位层：

所述PPT边框识别装置包括：

特征提取模块，用于将含有PPT文档信息的图片输入所述特征提取层中进行特征提取，得到所述特征提取层输出的图片的特征图；

轮廓分割模块，用于将所述一系列图片的特征图输入到所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像；

角点定位模块，用于将所述轮廓分割图像输入到角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息；

边框识别模块，用于根据所述四个角点的位置信息识别出所述PPT边框。

在上述方法的基础上，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现任一项所述方法的步骤。

在上述方法的基础上，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。

有益效果，本发明提供了一种基于神经网络的PPT边框识别方法及相关设备，通过将含有PPT文档信息的图片输入所述特征提取层中进行特征提取，得到所述特征提取层输出的图片的特征图；将所述图片的特征图输入到所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像；将所述轮廓分割图像输入到角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息；根据所述四个角点的位置信息识别出所述PPT边框。本发明所提供的方法及设备，可以实现快捷的从图片文件中识别出PPT文档的边框，为从PPT文档中准确的提取PPT信息提供了前提，为用户从视频文件中提取PPT信息提供便利。

附图说明

图1是本发明所述方法具体实施例的步骤流程图；

图2是本发明所述方法的具体应用实施例步骤流程图；

图3是本发明所述方法识别出所述边框的示意图；

图4是本发明所述装置的原理结构框图；

图5是本发明所述计算机设备的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明提供了一种基于神经网络的PPT边框识别方法，所述神经网络包括：特征提取层、轮廓分割层和角点定位层。

本发明所述方法利用神经网络对含有PPT边框的图片进行处理，分别通过特征提取、轮廓分割和PPT四个角点的定位实现从图片中识别出PPT边框。具体的，如图1所示，所述PPT边框识别方法包括：

步骤S1、将一系列含有PPT文档信息的图片输入所述特征提取层中进行特征提取，得到所述特征提取层输出的一系列图片的特征图。

本步骤中首先获取的含有PPT文档信息的图片，可以通过从视频文件中获取，或者拍摄图像得到，以及其他可以获取到含有PPT文档信息的图片的方式。

可以想到是，对于第一种方式，所述图片可以为对视频文件进行分帧处理得到的。将视频文件分割成处于同一时间轴序列的一系列图像帧，该一系列图像帧形成序列图库。可以想到的是，对视频文件做分帧处理一般需要获取该视频文件的总时长，根据预定时间为间隔，将视频文件分割成独立的原始图像帧。其中，预设时间越小，则视频文件中分割出原始图像帧越多，预设时间越大，则视频文件中分割出的原始图像帧就越少。而所述原始图像帧分割出的越多，则相似度高的图片就会越多，相邻图像帧之间的相似度就会越大，因此本步骤中视频文件的总时长，以及分割时间的设置均对分割出的图像帧个数及相邻图像帧之间的相似度有影响。

针对第二种，该一系列图片也可以是拍摄出的含有PPT画面的一系列图像，将拍摄出的一系列图像按照时间顺序进行排列，得到一系列的信息图像组成的图片集。

当获取到一系列含有PPT文档信息的图片后，利用神经网络的特征提取层提取各个图片的特征图。

具体的，所述特征提取层包括：第一卷积层和反卷积层；

所述一系列含有PPT文档信息的图片输入所述第一卷积层，所述第一卷积层输出所述图片所对应的图片特征层；

本步骤中所使用的第一卷积层和反卷积层为已训练，因此将图片集输入后，可以输出提取出的特征图。所述特征提取层可以为已训练的Mobilenet v2网络结构和所述反卷积层的组成，或者所述特征提取层为编码-解码网络结构。

所述特征提取层的训练步骤为：

(1)、先收集训练样本数据集，若使用的训练样本数据只有300张，为了通过少量的样本训练有效的泛化能力强的新模型，使用训练数据的生成器，通过旋转、平移、缩放、翻转等来进行数据增强，通过随机变化来增加样本数量。若收集到的训练样本数据有1000张，则不用进行数据增强，可以直接使用。

(2)、使用工具对上述训练样本数据进行标记，标记出训练样本数据的图片中含有的PPT边框。

(3)、输入的是512*512的RGB三通道彩色样本和标签，然后将所有的图片乘以1/255缩放，输入待训练的特征提取层中进行训练。

(4)、若使用的是Mobilenet v2网络结构，则特征提取层的前半部分为Mobilenetv2网络结构的13层，以及在mobilenet v2的第13个反转残差块(inverted residualblock)后接一个反卷积层组成网络结构，若采用编码-解码网络结构，则网络结构的前半部分用的是VVGnet-16的前10层，因为VGG-16的前半部分和网络结构是卷积-卷积-池化的结构，可以实现对网络进行初始化。

(5)、根据网络结构的输出结果和损失函数进行多次训练，训练优化器采用的是随机动量梯度下降法，学习率设置为0.0001，最后训练的准确率达到0.96，迭代完成后将训练好的模型权重进行保存。

通过上面的步骤实现了对特征提取层的训练，所述特征提取层基于标记出的特征图中含有的特征图信息，提取出未标记图片中含有的特征图。

步骤S2、将所述一系列图片的特征图输入到所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像。

将上述步骤S1中特征提取层输出的特征图输入到所述轮廓分割层，利用所述轮廓分割层对所述特征层进行图像分割，得到被分割出的含有多个区域的特征图。

所述轮廓分割层包括：第一卷积核；所述特征图输入所述第一卷积核，经过卷积操作后，输出轮廓分割图像。

所述轮廓分割层为预设尺寸的卷积核进行一次卷积操作，得到PPT轮廓分割图像。具体的，使用1*1尺寸的卷积核进行一次卷积操作得到28*28大小的PPT轮廓分割图像。

步骤S3、将所述轮廓分割图像输入所述角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息。

将生成的轮廓分割图像上使用大尺寸卷积核分别进行四次卷积以找出PPT的四个角点的位置。

所述角点定位层包括：第二卷积核；

所述神经网络还包括：全连接层。所述全连接层连接在所述第二卷积核之后，用于对所述四个角点的位置信息进行修正。

进而，本步骤中还包括：

使用角点位置信息在所述特征图中对应位置上提取出特征向量，最后得到4*96的特征向量。

将得到4*96的特征向量作为输入项，输入两个全连接层最后得到四个角点在224*224尺寸的图像上的角点位置修正信息。

步骤S4、根据所述四个角点的位置信息识别出所述PPT边框。

由于上述步骤S3中计算得到四个角点的位置信息，因此可以基于四个角点的位置信息识别出PPT边框，进而实现PPT文档边框的识别。

为了取得更佳的数据处理结果，所述方法还包括：

所述预处理可以是对图像进行去噪或者将其缩放为预设尺寸后，输入到特征提取层。

下面结合图2所述的所述方法的具体实施例的步骤流程图，对本发明所述方法的应用实施例做更为详细的说明。

H1、首先将一系列的图片输入到第一卷积层中进行图片特征层的提取，所述第一卷积层为已训练的提取图片特征层信息的Mobilenet v2网络结构；

H2、将上述步骤H1中提取到的所述图片特征层输入反卷积层，所述反卷积层输出特征图；

H3、使用1*1尺寸的卷积核对上述步骤H2中输出的特征图进行一次卷积操作得到28*28大小的PPT轮廓分割图像。

H4、在上述步骤H3中生成的轮廓分割图像上使用大尺寸卷积核分别进行四次卷积以找出PPT的四个角点的位置；

H5、使用步骤H4中得到的角点位置信息在2中的特征图中对应位置上提取出特征向量，最后得到4*96的特征向量；

H6、将步骤H5中的特征向量作为输入使用两个全连接层最后得到四个角点在224*224尺寸的图像上的角点位置修正信息，具体运算为：

gt_y＝reg_y+(p_y+0.5)×λ

gt_x＝reg_x+(p_x+0.5)×λ

其中，reg_y与reg_x分别表示一个角点在224*224尺寸图像上的纵向与横向修正量，gt_y与gt_x是该角点在224*224尺寸的Ground truth上的纵坐标与横坐标，p_y与p_x是POI层进行角点粗提取得到的在小尺寸m*m图像上的角点纵坐标与横坐标，λ是224与m的比值。

H7、根据步骤H6中修正后的角点位置信息，识别出图片中PPT文档的边框，其识别效果如图3所示。

在上述方法的基础上，本发明还提供了一种基于神经网络的PPT边框识别装置，所述神经网络包括：特征提取层、轮廓分割层和角点定位层：

如图4所述，所述PPT边框识别装置包括：

特征提取模块410，用于将一系列含有PPT文档信息的图片输入所述特征提取层中进行特征提取，得到所述特征提取层输出的一系列图片的特征图；其功能如步骤S1所述。

轮廓分割模块420，用于将所述一系列图片的特征图输入到所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像；其功能如步骤S2所述。

角点定位模块430，用于将所述轮廓分割图像输入角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息；其功能如步骤S3所述。

边框识别模块440，用于根据所述四个角点的位置信息识别出所述PPT边框，其功能如步骤S4所述。

本发明的所述方法及装置提供了一种可以检测PPT角点位置并识别出PPT文档边框的方法，所提出的卷积神将网络在FCN、角点粗提取和全连接位置回归相结合的PPT边框识别方法及装置，为准确快速的识别出图片中的PPT边框提供了便利。

在上述方法的基础上，本发明还提供了一种计算机设备，如图5所示，包括存储器53、显示屏52和处理器51，还可以包括通信接口(Communications Interface)55和总线54。其中，处理器51、显示屏52、存储器53和通信接口55可以通过总线54完成相互间的通信。显示屏52设置为显示初始设置模式中预设的用户引导界面。通信接口55可以传输信息。处理器51可以调用存储器53中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器53中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器51作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器51通过运行存储在存储器53中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器53可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器53可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

在上述方法的基础上，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明提供了一种基于神经网络的PPT边框识别方法及相关设备，通过将一系列含有PPT文档信息的图片输入所述特征提取层中进行特征提取，得到所述特征提取层输出的一系列图片的特征图；将所述一系列图片的特征图输入到所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像；将所述轮廓分割图像输入到角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息；根据所述四个角点的位置信息识别出所述PPT边框。本发明所提供的方法及设备，可以实现快捷的从图片文件中识别出PPT文档的边框，为从PPT文档中准确的提取PPT信息提供了前提，为用户从视频文件中提取PPT信息提供便利。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于神经网络的PPT边框识别方法，其特征在于，所述神经网络包括：特征提取层、轮廓分割层和角点定位层：

所述PPT边框识别方法包括：

将所述图片的特征图输入所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像；

将所述轮廓分割图像输入所述角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息；

根据所述四个角点的位置信息识别出所述PPT边框。

2.根据权利要求1所述的基于神经网络的PPT边框识别方法，其特征在于，所述特征提取层包括：第一卷积层和反卷积层；

3.根据权利要求2所述的基于神经网络的PPT边框识别方法，其特征在于，所述轮廓分割层包括：第一卷积核；

4.根据权利要求3所述的基于神经网络的PPT边框识别方法，其特征在于，所述角点定位层包括：第二卷积核；

5.根据权利要求4所述的基于神经网络的PPT边框识别方法，其特征在于，所述神经网络还包括：全连接层；

所述方法还包括：

6.根据权利要求1所述的基于神经网络的PPT边框识别方法，其特征在于，所述方法还包括：

对含有PPT文档信息的图片进行预处理，将其缩放为预设尺寸的图片后，再输入到特征提取层。

7.根据权利要求2所述的基于神经网络的PPT边框识别方法，其特征在于，所述特征提取层为已训练的Mobilenet v2网络结构和所述反卷积层的组成，或者所述特征提取层为编码-解码网络结构。

8.一种基于神经网络的PPT边框识别装置，其特征在于，所述神经网络包括：特征提取层、轮廓分割层和角点定位层：

所述PPT边框识别装置包括：

轮廓分割模块，用于将所述图片的特征图输入到所述轮廓分割层，得到所述轮廓分割层输出的轮廓分割图像；

角点定位模块，用于将所述轮廓分割图像输入所述角点定位层，得到所述角点定位层输出的PPT边框的四个角点的位置信息；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。