CN110414352B

CN110414352B - 从视频文件中提取ppt文件信息的方法及相关设备

Info

Publication number: CN110414352B
Application number: CN201910563385.5A
Authority: CN
Inventors: 管明雷; 汪驰升
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Polytechnic
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2022-11-29
Anticipated expiration: 2039-06-26
Also published as: CN110414352A

Abstract

本发明提供了一种从视频文件中提取PPT信息的方法及相关设备，通过识别并截取视频文件中含有PPT文档的图像帧，得到由截取得到的多个图像帧，并对其进行透视变化，组成图像帧集，并根据所述图像帧集的时间标记顺序形成PPT图集；从所述视频文件中分离出其演讲者语音信息，并将语音信息利用OCR技术转换成文字信息；根据PPT图集中各个所述图像帧所对应的时间戳，从文字信息中截取出与所述PPT图集所对应的文字片段集；将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。本发明所提供的方法及设备，可以实现快捷的从视频文件中获取PPT文档和该PPT文档所对应语音的文字信息，满足用户需求，为用户的信息收集提供便利。

Description

从视频文件中提取PPT文件信息的方法及相关设备

技术领域

本发明涉及信息处理技术领域，尤其涉及的是一种从视频文件中提取PPT信息的方法及相关设备。

背景技术

目前，在大型会议还是内部讨论会中，参会者都会利用PPT文档进行报告。演讲者通过将PPT投影到投影幕或显示器上来将演讲主要内容呈现给观众。观众主要是通过呈现出来的PPT文档和演讲者口头汇报的内容来获知PPT文档的信息。因此在会议中最主要内容是PPT文档内容和演讲中口诉内容。

目前，观众或者主办方会利用录像设备来对会议中PPT文档内容、演讲者口头语言内容进行采集。这种视频录制方法能够有效地记录演讲者的PPT演示内容和口头演讲内容，但是针对录制好的视频文件可能会含有大量与PPT文档及其讲解不相关的内容，若未能参加现场会议的用户需要基于整个视频文件获取PPT文档的信息，则可能会因视频文件中含有的信息量大，并非是单一的关于PPT文档信息的视频文件，导致花费大量不必要的时间。而现有技术中，还未公开用于提取视频文件中的PPT文档内容或者演讲中的语言文字内容的方法，因此如何快速的从视频文件中提取PPT文档及其语音文字信息的问题是亟待需要解决的问题。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种从视频文件中提取PPT信息的方法及相关设备，克服现有技术中存在的技术还不含有从视频文件中获取PPT文档及其相对应语音信息方法的缺陷。

本发明提供了一种实施例为一种从视频文件中提取PPT信息的方法，其中，包括步骤：

A、识别并截取视频文件中含有PPT文档的图像帧，对截取得到的多个图像帧进行透视变化后，得到图像帧集，并根据所述图像帧集的时间标记顺序形成PPT图集；

B、从所述视频文件中分离出其语音信息，并将所述语音信息转换成文字信息；

C、根据所述PPT图集中各个所述图像帧所对应的时间戳，从所述文字信息中截取出与所述PPT图集所对应的文字片段集；

D、将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。

作为本发明所述方法进一步的改进方案，所述步骤A包括：

A1、对视频文件进行分帧处理，得到同一时间序列上的多个图像帧组成的序列图库；

A2、使用等时间间隔抽取图像的方法抽取所述序列图库中的图像帧，得到抽取出的图像帧组成的稀释图集；

A3、利用目标检测算法对稀释图集中各个图像帧进行PPT文档边框识别，并根据识别出的所述PPT文档边框进行截图，得到含有PPT文档的图像帧集。

作为本发明所述方法进一步的改进方案，步骤A3还包括步骤：

A31、根据识别出的PPT文档边框对图像帧集中的各个截图进行矫正，得到截图的正视图。

作为本发明所述方法进一步的改进方案，步骤A31还包括步骤：

A311、根据识别出的PPT文档边框判断图像帧是否与水平方向存在倾斜角度，若含有，则对倾斜图像帧进行透视变换，将其投影到标准边框显示界面内；

A312、利用透视变换算法对所述倾斜图像帧进行矫正，得到矫正图集。

作为本发明所述方法进一步的改进方案，所述步骤A3之后，还包括：

A4、计算所述图像帧中各个正视图之间的相似度，并将相似度超出预设阈值的两幅正视图的任意一幅删除。

作为本发明所述方法进一步的改进方案，所述步骤B还包括：

B1、对所述文字信息进行清洗，识别出其中音译错误、前后文字丢失或者冗余的文字信息，得到清洗处理后的文字信息。

作为本发明所述方法进一步的改进方案，所述步骤D包括：

D1、新建一个PPT文档，按照标记时间顺序依次将所述PPT图像集中含有的图像帧设定为每一页PPT的背景；

D2、根据时间戳信息，将对应时间区间内的文字片段添加到相对应PPT的页面上，得到含有语音文字信息的PPT文档。

本发明提供的又一实施例为一种从视频文件中提取PPT信息的装置，其中，包括：

图集截取模块，用于识别并截取视频文件中含有PPT文档的图像帧，对截取得到的多个图像帧进行透视变化后，得到图像帧集，并根据所述图像帧集的时间标记顺序形成PPT图集；

音译模块，用于从所述视频文件中分离出其语音信息，并将所述语音信息转换成文字信息；

文字片段截取模块，用于根据所述PPT图集中各个所述图像帧所对应的时间戳，从所述文字信息中截取出与所述PPT图集所对应的文字片段集；

文件融合模块，用于将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。

本发明提供的又一实施例为一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现所述方法的步骤。

本发明提供的又一实施例为一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。

有益效果，本发明提供了一种从视频文件中提取PPT信息的方法及相关设备，通过识别并截取视频文件中含有PPT文档的图像帧，对截取得到的多个图像帧进行透视变化后，得到图像帧集，并根据所述图像帧集的时间标记顺序形成PPT图集；从所述视频文件中分离出其语音信息，并将所述语音信息转换成文字信息；根据所述PPT图集中各个所述图像帧所对应的时间戳，从所述文字信息中截取出与所述PPT图集所对应的文字片段集；将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。本发明所提供的方法及设备，可以实现快捷的从视频文件中获取PPT文档和该PPT文档所对应语音的文字信息，满足用户从视频文件中提取PPT文件的需求，为用户的信息收集提供便利。

附图说明

图1是本发明提供的所述方法具体实施例的步骤流程图；

图2是本发明提供的所述方法的具体应用实施例步骤流程图；

图3是本发明所述装置的原理结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明提供了一种实施例为一种从视频文件中提取PPT信息的方法，如图1所示，本发明所述方法包括：

步骤S1、识别并截取视频文件中含有PPT文档的图像帧，对截取得到的多个图像帧进行透视变化后，得到图像帧集，并根据所述图像帧集的时间标记顺序形成PPT图集。

本步骤中首先对视频文件中含有的图像帧进行分帧处理，将视频文件分割成处于同意时间轴序列的一系列图像帧，该一系列图像帧形成序列图库。具体的，对视频文件做分帧处理一般需要获取该视频文件的总时长，根据预定时间为间隔，将视频文件分割成独立的原始图像帧。其中，预设时间越小，则视频文件中分割出原始图像帧越多，非常视频文件中分割出的原始图像帧就越少。所述原始图像帧分割出的越多，则相似度高的图像帧就会越多，相邻图像帧之间的相似度就会越大，因此本步骤中视频文件的总时长，以及分割时间的设置均对分割出的图像帧个数及相邻图像帧之间的相似度有影响。

根据分割出的多个图像帧存储到一个新建图库，得到由多个图像帧组成的序列图库。

步骤S2、从所述视频文件中分离出其语音信息，并将所述语音信息转换成文字信息。

从视频文件的音频信息分离出其语音信息，并将视频文件的音频信息转换成文字信息。本步骤可以利用语音识别技术实现对音频信息中的语音进行识别，并将识别出的语音信息转换成的文字信息，将文字信息写入到一个新建文档中得到含有文字信息的文档文件。

步骤S3、根据所述PPT图集中各个所述图像帧所对应的时间戳，从所述文字信息中截取出与所述PPT图集所对应的文字片段集。

根据文字信息中各个文字片段在视频文件中出现的时间，以及PPT图集中各个图像帧出现的时间戳，对处于同一时间的文字片段与图像帧进行匹配，将图像帧与其同时间戳的文字片段相关联，并从文字信息中截取出与各个图像帧相关联的文字片段，得到与各个图像帧相匹配的文字片段集。

步骤S4、将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。

将PPT图集中的各个图像帧与其相关联的文字片段相融合，得到融合后形成的PPT文件。其中，所述融合的方法为：将文字片段写入到相应图像帧中去，也即是在图像帧中添加其同一时间戳的文字片段，便于用户在观看该页PPT时，可以同步获知该页PPT的讲解内容。

其中，所述步骤S1包括：

S11、对视频文件进行分帧处理，得到同一时间序列上的多个图像帧组成的序列图库；

上述步骤中为了获取到视频文件中含有PPT文档的图像帧集，先对视频文件中的图像画面进行分帧处理，得到同一个时间序列上的多个图像帧。其中，在分帧处理时，按照预设等时间间隔获取视频文件的图像画面，为了避免丢失视频文件中含有PPT文档的画面，所述预设等时间间隔一般为几秒或者更少的时间。

S12、使用等时间间隔抽取图像的方法抽取所述序列图库中的图像帧，得到抽取出的图像帧组成的稀释图集。

本步骤中使用等时间间隔抽取一个图像的方法，从序列图库中等预设时间间隔抽取一个图像帧，比如：设置为每间隔1秒抽取一次图像帧，由于一般视频为30帧/秒，因此1秒含有30帧图像，则为了减少序列图库中图像帧的处理个数，每隔预设等时间间隔从其中抽取图像帧，对抽取出的图像帧组成的稀释图集进行后期的相应处理。

本发明中将上述等时间间隔抽取图像的方法为对序列图库中含有的图像帧进行稀释处理，因此抽取到的图像帧组成的图集为稀释图集。具体的，所述稀释处理为：预先设置等时间间隔抽取图像的等时间值，可以为自定义设置，也可以为默认值。由于一般视频为30帧/秒，因此优选的，将等时间值设置为1秒。将所述序列图库中的图像帧通过稀释处理后，可将序列图库中含有图像帧的数量降低了30倍，以便降低后期处理运算压力。

S13、利用目标检测算法对稀释图集中各个图像帧进行PPT文档边框识别，并根据识别出的所述PPT文档边框进行截图，得到含有PPT文档的图像帧集。

本步骤中利用目标检测算法对各个图像帧中的PPT文档的边框进行识别。具体的，通过建立目标检测模型，通过目标检测模块识别出图像帧中PPT文档的边框。

具体的，通过建立目标检测模型识别出图像帧中PPT文档边框的的方法包括以下步骤：

S1311、将所述多个图像帧输入已训练的目标检测模型的卷积层中进行图像帧特征层的提取，输出得到所述多个图像帧的特征图；

S1312、将各个所述特征图输入到所述目标检测模型中的RPN候选区域提取网络中进行矩形区域候选框的提取，输出提取到矩形区域候选框的特征图；

S1313、将所述提取到矩形区域候选框的特征图输入到所述目标检测模型中的深度卷积神经网络中进行图像语义分割，得到分割出的PPT区域；

S1314、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。

本步骤中较佳的所述目标检测模型的卷积层为预训练好的VGGnet网络结构，通过将图像帧输入VGGnet网络，输出与各个图像帧相对应的特征图。

较佳的，为了防止过拟合，在所述VGGnet网络结构所述目标检测模型的中间插入了几层Dropout层，所述Dropout层以0.6的概率进行节点丢弃。

所述Dropout层为了实现在对神经网络模型训练的时候，避免验证集的拟合程度很差的情况出现。其原理为在每次迭代的更新网络参数时，按照一定的概率对网络参数层的参数进行随机采集，实现对参数的扩展，迭代出的子网络不重复，从而实现防止卷积层过拟合。

步骤S1312中利用RPN候选区域提取网络进行特征图中矩形区域候选框的提取。具体的，将提取出的一系列图像帧所对应的多个特征图输入到训练完成的RPN候选区域提取网络中，所述RPN候选区域提取网络输出所述特征图中识别出的矩形区域候选框。

最后通过深度学习目标检测算法进行边框位置定位和分类，从而实现对视频帧中PPT边框的识别。

另外，还可以基于OpenCV的PPT边框提取方法，包括步骤：

S1321、获取含有PPT文档的信息图像；

S1322、调用OpenCV库中的均值偏移算法对所述信息图像进行图像分割；

S1323、将进行图像分割后的所述信息图像转换成灰度图，得到信息灰度图；

S1324、检测所述信息灰度图中所含有的轮廓，计算检测到的各个轮廓的面积和周长，并根据所述各个轮廓的面积和周长筛选出四边形；

S1325、根据筛选出的四边形的四个角点的在所述信息图像中的位置信息，提取PPT边框。

以上述步骤S1321至步骤S1325在具体应用中的具体实施例，对上述基于OpenCV的PPT边框提取方法做更为详细的说明：

H1、首先对信息图像进行预处理，减少噪声信息，本次通过调用Mean-Shift函数实现对信息图像的去噪处理。

H2、对去噪后的信息图像的三通道彩色图像转换成单通道的灰度图。

H3、使用自适应阈值化函数对上述步骤H2中转换得到的灰度图进行修正；

H4、通过轮廓检测函数对上述步骤S3中修正后的灰度图进行轮廓检测，获取轮廓信息。

H5、利用轮廓处理函数计算上述步骤H4中检测出的各个轮廓的面积以及周长，并计算检测到的轮廓的平均面积，并将小于平均面积的轮廓剔除。

H6、使用多边形逼近算法，对剩下的轮廓进行第一次多边形逼近，得将逼近得出的轮廓的角点超出8个和低于3个轮廓删除。

H7、对删除掉角点个数为3-8之间的轮廓进行第二次多边形逼近，得到多边形逼近结果为四边形的多边形，将该四边形判定为PPT边框。

H8、将上述步骤中多边形逼近得到的四边形的四个角点判定为PPT边框的四个角点，根据该四个角点的位置信息输出PPT边框。

根据识别出的边框对视频帧进行截图，得到该视频帧中PPT文档的图像。

为了获取到便于观看的PPT文件，步骤S13还包括步骤：

S131、根据识别出的PPT文档边框对图像帧集中的各个截图进行矫正，得到截图的正视图。

由于视频帧图像中PPT文档边框不一定是正向的，即是该截图由于边框未正向显示导致截图与正向有一定的倾角，因此为了便于实现PPT文件中各个页面的规整，本步骤中对截图中的PPT文档边框是否倾斜进行判定，若判定出其相对水平面倾斜，则对其进行矫正，得到矫正后的PPT图像。

进一步的，步骤S131还包括步骤：

S1311、根据识别出的PPT文档边框

判断图像帧是否与水平方向存在倾斜角度，若含有，则对倾斜图像帧进行透视变换，将其投影到标准边框显示界面内；

S1312、利用透视变换算法对所述倾斜图像帧进行矫正，得到矫正图集。

具体的，步骤首先求取PPT边框的外界矩形得到4个点坐标。得到4组点坐标与原PPT边框4点坐标一一对应，利用4组点坐标求解以下方程

得到变换矩阵

再通矩阵运算得到校正后图像

其中u，v为原图像坐标，x/z、y/z为校正后图像坐标。

将待矫正的截图中各个像素点坐标变换到所述视平面上，完成对该截图的矫正。

对全部截图进行矫正后，得到矫正图集。

为了提高处理的图像帧效率，减少运算量，所述步骤S13之后，还包括：

S14、计算所述图像帧中各个正视图之间的相似度，并将相似度超出预设阈值的两幅正视图的任意一幅删除。

由于序列图库中的各个图像帧可能会出现相似度高的图像帧，因此本步骤中对各个图像帧进行相似度匹配，将两个相似度超出预设阈值的图像帧，保留一个即可。具体的图像的相似度匹配算法可以是：提取图像特征，并根据提取的图像特征进行匹配，也可以是依次对两个图像的各个像素点进行匹配，具体的，常见图片相似度算法有哈希算法、直方图算法、汉明距离算法、Siamese Network算法等，也可以是其他可以实现两幅图相似度匹配的算法。

在进行视频文件的音频信息转化成文字信息时，为了保证转化信息的准确性，所述步骤S2还包括：

S21、对所述文字信息进行清洗，识别出其中音译错误、前后文字丢失或者冗余的文字信息，并对识别出的音译错误进行更正，将前后文字丢失的文字信息补充完整，将冗余的内容删除，得到清洗处理后的文字信息。

对转化后的文字信息进行清洗处理，识别出其中可能出现的各种转化错误，并对可能出现的错误进行处理后，得到清洗后的文字信息。

本步骤中针对文字信息中出现的问题进行相应的修改，从而提高了文字信息的准确性和前后连贯性。

进一步的，所述步骤S4包括：

S41、新建一个PPT文档，按照标记时间顺序依次将所述PPT图像集中含有的图像帧设定为每一页PPT的背景；

S42、根据时间戳信息，将对应时间区间内的文字片段添加到相对应PPT的页面上，得到含有语音文字信息的PPT文档。

由于上述图像帧及其相对应的文字片段均为独立的信息，因此本步骤中需要新建一个PPT文档，将上述图像帧及其相对应的文字片段按照时间戳的顺序添加到PPT的各个页面上，从而实现图像帧与文字信息的融合，得到一个含有文字解释的PPT文件。

本发明提出了一针对PPT演讲录制视频的智能处理方法，将视频文件转换成高保真的PPT文档，并且该高保真PPT文档将演讲中的语言内容和PPT文档内容进行融合，形成一套完整的演讲文档，因此保存了演讲过程中针对该PPT文档的完整信息，为未参与演讲现场的用户对该演讲知识的学习提供了便利。

在上述方法的基础上，结合图2，下面以其具体应用实施例为例对本发明所公开的方法做更加详细的说明。该方法主要由三个部分组成：序列图集处理、录音文件处理和PPT文档生成。

1、序列图库处理：

序列图集处理主要分为四个步骤：

第一、对序列图库进行等时间间隔抽取图像的稀释处理，稀释规则是按照预设的等时间间隔从序列图库中抽取相应的图像帧。由于一般视频为30帧/秒，通过稀释处理，可将序列图数量降低了30倍，以便降低后期处理运算压力。

第二、对稀释图集进行PPT区域识别处理，目标检测算法采用了深度学习融合图像处理算法，可准确的识别稀释PPT页面边框，并进行准确截取。该目标检测算法中设置的目标检测对象为PPT页面边框。

第三、对截取图集中存在拍摄不规则的图片，进行透视变换。

利用特征数学模型依据截取图集中准确图片特征，对不规则图片的位置、形状、大小、尺寸、方位等特征进行矫正，形成矫正图集。

第四、对所有矫正图集进行时间序列排序，然后对其进行相似度处理，常见图片相似度算法有哈希算法、直方图算法、汉明距离算法、SiameseNetwork算法等。根据PPT的特点，相似度阈值设置为90％～95％。剔除规则是前后两张图片比较，相似超过阈值，保留最后一张图片。最后剔除冗余或相似度较高的图片后，形成PPT图集。

2、语音文件处理：

语音文件处理主要分为三个步骤：

第一、对从视频分离出来的语音文件进行语音识别处理，将语音文件转换成对应的长语音文字。语音识别可利用API接口、或者SDK包等工具。

第二、对语音信息转化成的文字信息进行语义处理，将文字信息中音译错误、丢失、冗余内容进行清洗，使得处理后的语音文字内容殷实、前后联通。

第三、对处理后的文字信息进行剪辑处理，剪辑规则是根据PPT图集中每张图片的时间戳，进行等间隔的文字段落截取。形成与PPT图集相对的文字片段集。

3、PPT文档生成：

新建一个PPT文档，然后按照PPT图集的时间顺序，将每页PPT图片设置为PPT页面的背景图，这样就可以得到与演讲PPT文档高度相似的图片版PPT文档。将与之对的音译段文字设置为该页PPT的备注文字。最后，形成带有演讲文字信息的PPT文档。

本发明提供的又一实施例为一种从视频文件中提取PPT信息的装置，如图3所示，所述装置30包括：

图集截取模块310，用于识别并截取视频文件中含有PPT文档的图像帧，对截取得到的多个图像帧进行透视变化后，得到图像帧集，并根据所述图像帧集的时间标记顺序形成PPT图集；其功能如步骤S1所述。

音译模块320，用于从所述视频文件中分离出其语音信息，并将所述语音信息转换成文字信息；其功能如步骤S2所述。

文字片段截取模块330，用于根据所述PPT图集中各个所述图像帧所对应的时间戳，从所述文字信息中截取出与所述PPT图集所对应的文字片段集；其功能如步骤S3所述。

文件融合模块340，用于将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件，其功能如步骤S4所述。

本发明提供所提供的方法和装置，通过对录制PPT演讲内容的视频文件进行处理，形成融合了演讲语言文字信息的独立PPT文档文件。

第一步，对视频文件进行预处理，形成同一时间轴的序列图库和语音文件。

第二步，依据等时间间隔进行稀释处理，形成稀释图集。再利用边框识别算法对稀释图中的PPT文档部分进行识别截取，对存在倾斜角度的截取图进行几何矫正，使所有截取图都成为正视图。然后，再对所有正视图进行相似度处理，剔除超过设定相似阈值的图片，按照时间标记顺序形成PPT图集。同时，利用语音识别技术对语音文件进行语音转文字识别，形成时间标记的长语音文字内容，在对长语音文字内容再进行深度语义解析，剔除计算机音译错误内容，形成具有时间标记的文字文档，然后根据PPT图集每张图片时间戳，对文字信息进行剪切，形成与PPT图集时间对应的文字片段集。

第三步，新建一个PPT文档，按照标记时间顺序将PPT图像设定为PPT每一页背景，同时根据时间标记信息，同步将对应时间区间内的音译片段文字信息添加到该页PPT的备注中。

最终，形成具有语言演讲内容的PPT文档。

另外，本发明还可以对PPT图集进行OCR识别，采用识别出的文字信息来新建PPT文档，或者还可以将文字片段不限于呈现为PPT备注，可以单独成一文件或者附在PPT页面上。

本发明提供了一种从视频文件中提取PPT信息的方法及相关设备，通过识别并截取视频文件中含有PPT文档的图像帧，得到由截取得到的多个图像帧组成的图像帧集，并根据所述图像帧集的时间标记顺序形成PPT图集；从所述视频文件中分离出其语音信息，并将所述语音信息转换成文字信息；根据所述PPT图集中各个所述图像帧所对应的时间戳，从所述文字信息中截取出与所述PPT图集所对应的文字片段集；将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。本发明所提供的方法及设备，可以实现快捷的从视频文件中获取PPT文档和该PPT文档所对应语音的文字信息，满足用户从视频文件中提取PPT文件的需求，为用户的信息收集提供便利。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种从视频文件中提取PPT信息的方法，其特征在于，包括步骤：

B、从所述视频文件中分离出演讲者的语音信息，并将所述语音信息转换成文字信息；

D、将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件；

所述步骤A包括：

A3、利用目标检测算法对稀释图集中各个图像帧进行PPT文档边框识别，并根据识别出的所述PPT文档边框进行截图，得到含有PPT文档的图像帧集；

步骤A3还包括步骤：

A31、根据识别出的PPT文档边框对图像帧集中的各个截图进行透视变换，得到截图的正视图；

利用目标检测算法对各个图像帧中的PPT文档的边框进行识别包括：通过建立目标检测模型，通过目标检测模型识别出图像帧中PPT文档的边框；

通过建立目标检测模型识别出图像帧中PPT文档的边框的方法包括以下步骤：

2.根据权利要求1所述的从视频文件中提取PPT信息的方法，其特征在于，步骤A31还包括步骤：

3.根据权利要求1所述的从视频文件中提取PPT信息的方法，其特征在于，所述步骤A3之后，还包括：

4.根据权利要求1所述的从视频文件中提取PPT信息的方法，其特征在于，所述步骤B还包括：

5.根据权利要求1所述的从视频文件中提取PPT信息的方法，其特征在于，所述步骤D包括：

D1、新建一个PPT文档，按照标记时间顺序依次将所述PPT图集中含有的图像帧设定为每一页PPT的背景；

6.一种从视频文件中提取PPT信息的装置，其特征在于，包括：

文件融合模块，用于将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件；

所述识别并截取视频文件中含有PPT文档的图像帧，对截取得到的多个图像帧进行透视变化后，得到图像帧集，并根据所述图像帧集的时间标记顺序形成PPT图集的步骤包括：

步骤A3还包括步骤：

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。