CN110414352B - 从视频文件中提取ppt文件信息的方法及相关设备 - Google Patents

从视频文件中提取ppt文件信息的方法及相关设备 Download PDF

Info

Publication number
CN110414352B
CN110414352B CN201910563385.5A CN201910563385A CN110414352B CN 110414352 B CN110414352 B CN 110414352B CN 201910563385 A CN201910563385 A CN 201910563385A CN 110414352 B CN110414352 B CN 110414352B
Authority
CN
China
Prior art keywords
ppt
image
frame
information
video file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910563385.5A
Other languages
English (en)
Other versions
CN110414352A (zh
Inventor
管明雷
汪驰升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Polytechnic
Original Assignee
Shenzhen Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Polytechnic filed Critical Shenzhen Polytechnic
Priority to CN201910563385.5A priority Critical patent/CN110414352B/zh
Publication of CN110414352A publication Critical patent/CN110414352A/zh
Application granted granted Critical
Publication of CN110414352B publication Critical patent/CN110414352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种从视频文件中提取PPT信息的方法及相关设备,通过识别并截取视频文件中含有PPT文档的图像帧,得到由截取得到的多个图像帧,并对其进行透视变化,组成图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集;从所述视频文件中分离出其演讲者语音信息,并将语音信息利用OCR技术转换成文字信息;根据PPT图集中各个所述图像帧所对应的时间戳,从文字信息中截取出与所述PPT图集所对应的文字片段集;将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。本发明所提供的方法及设备,可以实现快捷的从视频文件中获取PPT文档和该PPT文档所对应语音的文字信息,满足用户需求,为用户的信息收集提供便利。

Description

从视频文件中提取PPT文件信息的方法及相关设备
技术领域
本发明涉及信息处理技术领域,尤其涉及的是一种从视频文件中提取PPT信息的方法及相关设备。
背景技术
目前,在大型会议还是内部讨论会中,参会者都会利用PPT文档进行报告。演讲者通过将PPT投影到投影幕或显示器上来将演讲主要内容呈现给观众。观众主要是通过呈现出来的PPT文档和演讲者口头汇报的内容来获知PPT文档的信息。因此在会议中最主要内容是PPT文档内容和演讲中口诉内容。
目前,观众或者主办方会利用录像设备来对会议中PPT文档内容、演讲者口头语言内容进行采集。这种视频录制方法能够有效地记录演讲者的PPT演示内容和口头演讲内容,但是针对录制好的视频文件可能会含有大量与PPT文档及其讲解不相关的内容,若未能参加现场会议的用户需要基于整个视频文件获取PPT文档的信息,则可能会因视频文件中含有的信息量大,并非是单一的关于PPT文档信息的视频文件,导致花费大量不必要的时间。而现有技术中,还未公开用于提取视频文件中的PPT文档内容或者演讲中的语言文字内容的方法,因此如何快速的从视频文件中提取PPT文档及其语音文字信息的问题是亟待需要解决的问题。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种从视频文件中提取PPT信息的方法及相关设备,克服现有技术中存在的技术还不含有从视频文件中获取PPT文档及其相对应语音信息方法的缺陷。
本发明提供了一种实施例为一种从视频文件中提取PPT信息的方法,其中,包括步骤:
A、识别并截取视频文件中含有PPT文档的图像帧,对截取得到的多个图像帧进行透视变化后,得到图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集;
B、从所述视频文件中分离出其语音信息,并将所述语音信息转换成文字信息;
C、根据所述PPT图集中各个所述图像帧所对应的时间戳,从所述文字信息中截取出与所述PPT图集所对应的文字片段集;
D、将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。
作为本发明所述方法进一步的改进方案,所述步骤A包括:
A1、对视频文件进行分帧处理,得到同一时间序列上的多个图像帧组成的序列图库;
A2、使用等时间间隔抽取图像的方法抽取所述序列图库中的图像帧,得到抽取出的图像帧组成的稀释图集;
A3、利用目标检测算法对稀释图集中各个图像帧进行PPT文档边框识别,并根据识别出的所述PPT文档边框进行截图,得到含有PPT文档的图像帧集。
作为本发明所述方法进一步的改进方案,步骤A3还包括步骤:
A31、根据识别出的PPT文档边框对图像帧集中的各个截图进行矫正,得到截图的正视图。
作为本发明所述方法进一步的改进方案,步骤A31还包括步骤:
A311、根据识别出的PPT文档边框判断图像帧是否与水平方向存在倾斜角度,若含有,则对倾斜图像帧进行透视变换,将其投影到标准边框显示界面内;
A312、利用透视变换算法对所述倾斜图像帧进行矫正,得到矫正图集。
作为本发明所述方法进一步的改进方案,所述步骤A3之后,还包括:
A4、计算所述图像帧中各个正视图之间的相似度,并将相似度超出预设阈值的两幅正视图的任意一幅删除。
作为本发明所述方法进一步的改进方案,所述步骤B还包括:
B1、对所述文字信息进行清洗,识别出其中音译错误、前后文字丢失或者冗余的文字信息,得到清洗处理后的文字信息。
作为本发明所述方法进一步的改进方案,所述步骤D包括:
D1、新建一个PPT文档,按照标记时间顺序依次将所述PPT图像集中含有的图像帧设定为每一页PPT的背景;
D2、根据时间戳信息,将对应时间区间内的文字片段添加到相对应PPT的页面上,得到含有语音文字信息的PPT文档。
本发明提供的又一实施例为一种从视频文件中提取PPT信息的装置,其中,包括:
图集截取模块,用于识别并截取视频文件中含有PPT文档的图像帧,对截取得到的多个图像帧进行透视变化后,得到图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集;
音译模块,用于从所述视频文件中分离出其语音信息,并将所述语音信息转换成文字信息;
文字片段截取模块,用于根据所述PPT图集中各个所述图像帧所对应的时间戳,从所述文字信息中截取出与所述PPT图集所对应的文字片段集;
文件融合模块,用于将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。
本发明提供的又一实施例为一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现所述方法的步骤。
本发明提供的又一实施例为一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述的方法的步骤。
有益效果,本发明提供了一种从视频文件中提取PPT信息的方法及相关设备,通过识别并截取视频文件中含有PPT文档的图像帧,对截取得到的多个图像帧进行透视变化后,得到图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集;从所述视频文件中分离出其语音信息,并将所述语音信息转换成文字信息;根据所述PPT图集中各个所述图像帧所对应的时间戳,从所述文字信息中截取出与所述PPT图集所对应的文字片段集;将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。本发明所提供的方法及设备,可以实现快捷的从视频文件中获取PPT文档和该PPT文档所对应语音的文字信息,满足用户从视频文件中提取PPT文件的需求,为用户的信息收集提供便利。
附图说明
图1是本发明提供的所述方法具体实施例的步骤流程图;
图2是本发明提供的所述方法的具体应用实施例步骤流程图;
图3是本发明所述装置的原理结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明提供了一种实施例为一种从视频文件中提取PPT信息的方法,如图1所示,本发明所述方法包括:
步骤S1、识别并截取视频文件中含有PPT文档的图像帧,对截取得到的多个图像帧进行透视变化后,得到图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集。
本步骤中首先对视频文件中含有的图像帧进行分帧处理,将视频文件分割成处于同意时间轴序列的一系列图像帧,该一系列图像帧形成序列图库。具体的,对视频文件做分帧处理一般需要获取该视频文件的总时长,根据预定时间为间隔,将视频文件分割成独立的原始图像帧。其中,预设时间越小,则视频文件中分割出原始图像帧越多,非常视频文件中分割出的原始图像帧就越少。所述原始图像帧分割出的越多,则相似度高的图像帧就会越多,相邻图像帧之间的相似度就会越大,因此本步骤中视频文件的总时长,以及分割时间的设置均对分割出的图像帧个数及相邻图像帧之间的相似度有影响。
根据分割出的多个图像帧存储到一个新建图库,得到由多个图像帧组成的序列图库。
步骤S2、从所述视频文件中分离出其语音信息,并将所述语音信息转换成文字信息。
从视频文件的音频信息分离出其语音信息,并将视频文件的音频信息转换成文字信息。本步骤可以利用语音识别技术实现对音频信息中的语音进行识别,并将识别出的语音信息转换成的文字信息,将文字信息写入到一个新建文档中得到含有文字信息的文档文件。
步骤S3、根据所述PPT图集中各个所述图像帧所对应的时间戳,从所述文字信息中截取出与所述PPT图集所对应的文字片段集。
根据文字信息中各个文字片段在视频文件中出现的时间,以及PPT图集中各个图像帧出现的时间戳,对处于同一时间的文字片段与图像帧进行匹配,将图像帧与其同时间戳的文字片段相关联,并从文字信息中截取出与各个图像帧相关联的文字片段,得到与各个图像帧相匹配的文字片段集。
步骤S4、将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。
将PPT图集中的各个图像帧与其相关联的文字片段相融合,得到融合后形成的PPT文件。其中,所述融合的方法为:将文字片段写入到相应图像帧中去,也即是在图像帧中添加其同一时间戳的文字片段,便于用户在观看该页PPT时,可以同步获知该页PPT的讲解内容。
其中,所述步骤S1包括:
S11、对视频文件进行分帧处理,得到同一时间序列上的多个图像帧组成的序列图库;
上述步骤中为了获取到视频文件中含有PPT文档的图像帧集,先对视频文件中的图像画面进行分帧处理,得到同一个时间序列上的多个图像帧。其中,在分帧处理时,按照预设等时间间隔获取视频文件的图像画面,为了避免丢失视频文件中含有PPT文档的画面,所述预设等时间间隔一般为几秒或者更少的时间。
S12、使用等时间间隔抽取图像的方法抽取所述序列图库中的图像帧,得到抽取出的图像帧组成的稀释图集。
本步骤中使用等时间间隔抽取一个图像的方法,从序列图库中等预设时间间隔抽取一个图像帧,比如:设置为每间隔1秒抽取一次图像帧,由于一般视频为30帧/秒,因此1秒含有30帧图像,则为了减少序列图库中图像帧的处理个数,每隔预设等时间间隔从其中抽取图像帧,对抽取出的图像帧组成的稀释图集进行后期的相应处理。
本发明中将上述等时间间隔抽取图像的方法为对序列图库中含有的图像帧进行稀释处理,因此抽取到的图像帧组成的图集为稀释图集。具体的,所述稀释处理为:预先设置等时间间隔抽取图像的等时间值,可以为自定义设置,也可以为默认值。由于一般视频为30帧/秒,因此优选的,将等时间值设置为1秒。将所述序列图库中的图像帧通过稀释处理后,可将序列图库中含有图像帧的数量降低了30倍,以便降低后期处理运算压力。
S13、利用目标检测算法对稀释图集中各个图像帧进行PPT文档边框识别,并根据识别出的所述PPT文档边框进行截图,得到含有PPT文档的图像帧集。
本步骤中利用目标检测算法对各个图像帧中的PPT文档的边框进行识别。具体的,通过建立目标检测模型,通过目标检测模块识别出图像帧中PPT文档的边框。
具体的,通过建立目标检测模型识别出图像帧中PPT文档边框的的方法包括以下步骤:
S1311、将所述多个图像帧输入已训练的目标检测模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图;
S1312、将各个所述特征图输入到所述目标检测模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图;
S1313、将所述提取到矩形区域候选框的特征图输入到所述目标检测模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;
S1314、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。
本步骤中较佳的所述目标检测模型的卷积层为预训练好的VGGnet网络结构,通过将图像帧输入VGGnet网络,输出与各个图像帧相对应的特征图。
较佳的,为了防止过拟合,在所述VGGnet网络结构所述目标检测模型的中间插入了几层Dropout层,所述Dropout层以0.6的概率进行节点丢弃。
所述Dropout层为了实现在对神经网络模型训练的时候,避免验证集的拟合程度很差的情况出现。其原理为在每次迭代的更新网络参数时,按照一定的概率对网络参数层的参数进行随机采集,实现对参数的扩展,迭代出的子网络不重复,从而实现防止卷积层过拟合。
步骤S1312中利用RPN候选区域提取网络进行特征图中矩形区域候选框的提取。具体的,将提取出的一系列图像帧所对应的多个特征图输入到训练完成的RPN候选区域提取网络中,所述RPN候选区域提取网络输出所述特征图中识别出的矩形区域候选框。
最后通过深度学习目标检测算法进行边框位置定位和分类,从而实现对视频帧中PPT边框的识别。
另外,还可以基于OpenCV的PPT边框提取方法,包括步骤:
S1321、获取含有PPT文档的信息图像;
S1322、调用OpenCV库中的均值偏移算法对所述信息图像进行图像分割;
S1323、将进行图像分割后的所述信息图像转换成灰度图,得到信息灰度图;
S1324、检测所述信息灰度图中所含有的轮廓,计算检测到的各个轮廓的面积和周长,并根据所述各个轮廓的面积和周长筛选出四边形;
S1325、根据筛选出的四边形的四个角点的在所述信息图像中的位置信息,提取PPT边框。
以上述步骤S1321至步骤S1325在具体应用中的具体实施例,对上述基于OpenCV的PPT边框提取方法做更为详细的说明:
H1、首先对信息图像进行预处理,减少噪声信息,本次通过调用Mean-Shift函数实现对信息图像的去噪处理。
H2、对去噪后的信息图像的三通道彩色图像转换成单通道的灰度图。
H3、使用自适应阈值化函数对上述步骤H2中转换得到的灰度图进行修正;
H4、通过轮廓检测函数对上述步骤S3中修正后的灰度图进行轮廓检测,获取轮廓信息。
H5、利用轮廓处理函数计算上述步骤H4中检测出的各个轮廓的面积以及周长,并计算检测到的轮廓的平均面积,并将小于平均面积的轮廓剔除。
H6、使用多边形逼近算法,对剩下的轮廓进行第一次多边形逼近,得将逼近得出的轮廓的角点超出8个和低于3个轮廓删除。
H7、对删除掉角点个数为3-8之间的轮廓进行第二次多边形逼近,得到多边形逼近结果为四边形的多边形,将该四边形判定为PPT边框。
H8、将上述步骤中多边形逼近得到的四边形的四个角点判定为PPT边框的四个角点,根据该四个角点的位置信息输出PPT边框。
根据识别出的边框对视频帧进行截图,得到该视频帧中PPT文档的图像。
为了获取到便于观看的PPT文件,步骤S13还包括步骤:
S131、根据识别出的PPT文档边框对图像帧集中的各个截图进行矫正,得到截图的正视图。
由于视频帧图像中PPT文档边框不一定是正向的,即是该截图由于边框未正向显示导致截图与正向有一定的倾角,因此为了便于实现PPT文件中各个页面的规整,本步骤中对截图中的PPT文档边框是否倾斜进行判定,若判定出其相对水平面倾斜,则对其进行矫正,得到矫正后的PPT图像。
进一步的,步骤S131还包括步骤:
S1311、根据识别出的PPT文档边框
判断图像帧是否与水平方向存在倾斜角度,若含有,则对倾斜图像帧进行透视变换,将其投影到标准边框显示界面内;
S1312、利用透视变换算法对所述倾斜图像帧进行矫正,得到矫正图集。
具体的,步骤首先求取PPT边框的外界矩形得到4个点坐标。得到4组点坐标与原PPT边框4点坐标一一对应,利用4组点坐标求解以下方程
Figure BDA0002108878870000091
Figure BDA0002108878870000092
得到变换矩阵
Figure BDA0002108878870000101
再通矩阵运算得到校正后图像
Figure BDA0002108878870000102
其中u,v为原图像坐标,x/z、y/z为校正后图像坐标。
将待矫正的截图中各个像素点坐标变换到所述视平面上,完成对该截图的矫正。
对全部截图进行矫正后,得到矫正图集。
为了提高处理的图像帧效率,减少运算量,所述步骤S13之后,还包括:
S14、计算所述图像帧中各个正视图之间的相似度,并将相似度超出预设阈值的两幅正视图的任意一幅删除。
由于序列图库中的各个图像帧可能会出现相似度高的图像帧,因此本步骤中对各个图像帧进行相似度匹配,将两个相似度超出预设阈值的图像帧,保留一个即可。具体的图像的相似度匹配算法可以是:提取图像特征,并根据提取的图像特征进行匹配,也可以是依次对两个图像的各个像素点进行匹配,具体的,常见图片相似度算法有哈希算法、直方图算法、汉明距离算法、Siamese Network算法等,也可以是其他可以实现两幅图相似度匹配的算法。
在进行视频文件的音频信息转化成文字信息时,为了保证转化信息的准确性,所述步骤S2还包括:
S21、对所述文字信息进行清洗,识别出其中音译错误、前后文字丢失或者冗余的文字信息,并对识别出的音译错误进行更正,将前后文字丢失的文字信息补充完整,将冗余的内容删除,得到清洗处理后的文字信息。
对转化后的文字信息进行清洗处理,识别出其中可能出现的各种转化错误,并对可能出现的错误进行处理后,得到清洗后的文字信息。
本步骤中针对文字信息中出现的问题进行相应的修改,从而提高了文字信息的准确性和前后连贯性。
进一步的,所述步骤S4包括:
S41、新建一个PPT文档,按照标记时间顺序依次将所述PPT图像集中含有的图像帧设定为每一页PPT的背景;
S42、根据时间戳信息,将对应时间区间内的文字片段添加到相对应PPT的页面上,得到含有语音文字信息的PPT文档。
由于上述图像帧及其相对应的文字片段均为独立的信息,因此本步骤中需要新建一个PPT文档,将上述图像帧及其相对应的文字片段按照时间戳的顺序添加到PPT的各个页面上,从而实现图像帧与文字信息的融合,得到一个含有文字解释的PPT文件。
本发明提出了一针对PPT演讲录制视频的智能处理方法,将视频文件转换成高保真的PPT文档,并且该高保真PPT文档将演讲中的语言内容和PPT文档内容进行融合,形成一套完整的演讲文档,因此保存了演讲过程中针对该PPT文档的完整信息,为未参与演讲现场的用户对该演讲知识的学习提供了便利。
在上述方法的基础上,结合图2,下面以其具体应用实施例为例对本发明所公开的方法做更加详细的说明。该方法主要由三个部分组成:序列图集处理、录音文件处理和PPT文档生成。
1、序列图库处理:
序列图集处理主要分为四个步骤:
第一、对序列图库进行等时间间隔抽取图像的稀释处理,稀释规则是按照预设的等时间间隔从序列图库中抽取相应的图像帧。由于一般视频为30帧/秒,通过稀释处理,可将序列图数量降低了30倍,以便降低后期处理运算压力。
第二、对稀释图集进行PPT区域识别处理,目标检测算法采用了深度学习融合图像处理算法,可准确的识别稀释PPT页面边框,并进行准确截取。该目标检测算法中设置的目标检测对象为PPT页面边框。
第三、对截取图集中存在拍摄不规则的图片,进行透视变换。
利用特征数学模型依据截取图集中准确图片特征,对不规则图片的位置、形状、大小、尺寸、方位等特征进行矫正,形成矫正图集。
第四、对所有矫正图集进行时间序列排序,然后对其进行相似度处理,常见图片相似度算法有哈希算法、直方图算法、汉明距离算法、SiameseNetwork算法等。根据PPT的特点,相似度阈值设置为90%~95%。剔除规则是前后两张图片比较,相似超过阈值,保留最后一张图片。最后剔除冗余或相似度较高的图片后,形成PPT图集。
2、语音文件处理:
语音文件处理主要分为三个步骤:
第一、对从视频分离出来的语音文件进行语音识别处理,将语音文件转换成对应的长语音文字。语音识别可利用API接口、或者SDK包等工具。
第二、对语音信息转化成的文字信息进行语义处理,将文字信息中音译错误、丢失、冗余内容进行清洗,使得处理后的语音文字内容殷实、前后联通。
第三、对处理后的文字信息进行剪辑处理,剪辑规则是根据PPT图集中每张图片的时间戳,进行等间隔的文字段落截取。形成与PPT图集相对的文字片段集。
3、PPT文档生成:
新建一个PPT文档,然后按照PPT图集的时间顺序,将每页PPT图片设置为PPT页面的背景图,这样就可以得到与演讲PPT文档高度相似的图片版PPT文档。将与之对的音译段文字设置为该页PPT的备注文字。最后,形成带有演讲文字信息的PPT文档。
本发明提供的又一实施例为一种从视频文件中提取PPT信息的装置,如图3所示,所述装置30包括:
图集截取模块310,用于识别并截取视频文件中含有PPT文档的图像帧,对截取得到的多个图像帧进行透视变化后,得到图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集;其功能如步骤S1所述。
音译模块320,用于从所述视频文件中分离出其语音信息,并将所述语音信息转换成文字信息;其功能如步骤S2所述。
文字片段截取模块330,用于根据所述PPT图集中各个所述图像帧所对应的时间戳,从所述文字信息中截取出与所述PPT图集所对应的文字片段集;其功能如步骤S3所述。
文件融合模块340,用于将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件,其功能如步骤S4所述。
本发明提供所提供的方法和装置,通过对录制PPT演讲内容的视频文件进行处理,形成融合了演讲语言文字信息的独立PPT文档文件。
第一步,对视频文件进行预处理,形成同一时间轴的序列图库和语音文件。
第二步,依据等时间间隔进行稀释处理,形成稀释图集。再利用边框识别算法对稀释图中的PPT文档部分进行识别截取,对存在倾斜角度的截取图进行几何矫正,使所有截取图都成为正视图。然后,再对所有正视图进行相似度处理,剔除超过设定相似阈值的图片,按照时间标记顺序形成PPT图集。同时,利用语音识别技术对语音文件进行语音转文字识别,形成时间标记的长语音文字内容,在对长语音文字内容再进行深度语义解析,剔除计算机音译错误内容,形成具有时间标记的文字文档,然后根据PPT图集每张图片时间戳,对文字信息进行剪切,形成与PPT图集时间对应的文字片段集。
第三步,新建一个PPT文档,按照标记时间顺序将PPT图像设定为PPT每一页背景,同时根据时间标记信息,同步将对应时间区间内的音译片段文字信息添加到该页PPT的备注中。
最终,形成具有语言演讲内容的PPT文档。
本发明提供的又一实施例为一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现所述方法的步骤。
本发明提供的又一实施例为一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述的方法的步骤。
另外,本发明还可以对PPT图集进行OCR识别,采用识别出的文字信息来新建PPT文档,或者还可以将文字片段不限于呈现为PPT备注,可以单独成一文件或者附在PPT页面上。
本发明提供了一种从视频文件中提取PPT信息的方法及相关设备,通过识别并截取视频文件中含有PPT文档的图像帧,得到由截取得到的多个图像帧组成的图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集;从所述视频文件中分离出其语音信息,并将所述语音信息转换成文字信息;根据所述PPT图集中各个所述图像帧所对应的时间戳,从所述文字信息中截取出与所述PPT图集所对应的文字片段集;将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件。本发明所提供的方法及设备,可以实现快捷的从视频文件中获取PPT文档和该PPT文档所对应语音的文字信息,满足用户从视频文件中提取PPT文件的需求,为用户的信息收集提供便利。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种从视频文件中提取PPT信息的方法,其特征在于,包括步骤:
A、识别并截取视频文件中含有PPT文档的图像帧,对截取得到的多个图像帧进行透视变化后,得到图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集;
B、从所述视频文件中分离出演讲者的语音信息,并将所述语音信息转换成文字信息;
C、根据所述PPT图集中各个所述图像帧所对应的时间戳,从所述文字信息中截取出与所述PPT图集所对应的文字片段集;
D、将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件;
所述步骤A包括:
A1、对视频文件进行分帧处理,得到同一时间序列上的多个图像帧组成的序列图库;
A2、使用等时间间隔抽取图像的方法抽取所述序列图库中的图像帧,得到抽取出的图像帧组成的稀释图集;
A3、利用目标检测算法对稀释图集中各个图像帧进行PPT文档边框识别,并根据识别出的所述PPT文档边框进行截图,得到含有PPT文档的图像帧集;
步骤A3还包括步骤:
A31、根据识别出的PPT文档边框对图像帧集中的各个截图进行透视变换,得到截图的正视图;
利用目标检测算法对各个图像帧中的PPT文档的边框进行识别包括:通过建立目标检测模型,通过目标检测模型 识别出图像帧中PPT文档的边框;
通过建立目标检测模型识别出图像帧中PPT文档的边框 的方法包括以下步骤:
S1311、将所述多个图像帧输入已训练的目标检测模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图;
S1312、将各个所述特征图输入到所述目标检测模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图;
S1313、将所述提取到矩形区域候选框的特征图输入到所述目标检测模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;
S1314、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。
2.根据权利要求1所述的从视频文件中提取PPT信息的方法,其特征在于,步骤A31还包括步骤:
A311、根据识别出的PPT文档边框判断图像帧是否与水平方向存在倾斜角度,若含有,则对倾斜图像帧进行透视变换,将其投影到标准边框显示界面内;
A312、利用透视变换算法对所述倾斜图像帧进行矫正,得到矫正图集。
3.根据权利要求1所述的从视频文件中提取PPT信息的方法,其特征在于,所述步骤A3之后,还包括:
A4、计算所述图像帧中各个正视图之间的相似度,并将相似度超出预设阈值的两幅正视图的任意一幅删除。
4.根据权利要求1所述的从视频文件中提取PPT信息的方法,其特征在于,所述步骤B还包括:
B1、对所述文字信息进行清洗,识别出其中音译错误、前后文字丢失或者冗余的文字信息,得到清洗处理后的文字信息。
5.根据权利要求1所述的从视频文件中提取PPT信息的方法,其特征在于,所述步骤D包括:
D1、新建一个PPT文档,按照标记时间顺序依次将所述PPT图集中含有的图像帧设定为每一页PPT的背景;
D2、根据时间戳信息,将对应时间区间内的文字片段添加到相对应PPT的页面上,得到含有语音文字信息的PPT文档。
6.一种从视频文件中提取PPT信息的装置,其特征在于,包括:
图集截取模块,用于识别并截取视频文件中含有PPT文档的图像帧,对截取得到的多个图像帧进行透视变化后,得到图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集;
音译模块,用于从所述视频文件中分离出其语音信息,并将所述语音信息转换成文字信息;
文字片段截取模块,用于根据所述PPT图集中各个所述图像帧所对应的时间戳,从所述文字信息中截取出与所述PPT图集所对应的文字片段集;
文件融合模块,用于将所述PPT图集与所述文字片段集相融合得到含有文字信息的PPT文件;
所述识别并截取视频文件中含有PPT文档的图像帧,对截取得到的多个图像帧进行透视变化后,得到图像帧集,并根据所述图像帧集的时间标记顺序形成PPT图集的步骤包括:
A1、对视频文件进行分帧处理,得到同一时间序列上的多个图像帧组成的序列图库;
A2、使用等时间间隔抽取图像的方法抽取所述序列图库中的图像帧,得到抽取出的图像帧组成的稀释图集;
A3、利用目标检测算法对稀释图集中各个图像帧进行PPT文档边框识别,并根据识别出的所述PPT文档边框进行截图,得到含有PPT文档的图像帧集;
步骤A3还包括步骤:
A31、根据识别出的PPT文档边框对图像帧集中的各个截图进行透视变换,得到截图的正视图;
利用目标检测算法对各个图像帧中的PPT文档的边框进行识别包括:通过建立目标检测模型,通过目标检测模型 识别出图像帧中PPT文档的边框;
通过建立目标检测模型识别出图像帧中PPT文档的边框 的方法包括以下步骤:
S1311、将所述多个图像帧输入已训练的目标检测模型的卷积层中进行图像帧特征层的提取,输出得到所述多个图像帧的特征图;
S1312、将各个所述特征图输入到所述目标检测模型中的RPN候选区域提取网络中进行矩形区域候选框的提取,输出提取到矩形区域候选框的特征图;
S1313、将所述提取到矩形区域候选框的特征图输入到所述目标检测模型中的深度卷积神经网络中进行图像语义分割,得到分割出的PPT区域;
S1314、根据所述特征图中提取出的矩形区域候选框和分割出的PPT区域得到PPT边框。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201910563385.5A 2019-06-26 2019-06-26 从视频文件中提取ppt文件信息的方法及相关设备 Active CN110414352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910563385.5A CN110414352B (zh) 2019-06-26 2019-06-26 从视频文件中提取ppt文件信息的方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910563385.5A CN110414352B (zh) 2019-06-26 2019-06-26 从视频文件中提取ppt文件信息的方法及相关设备

Publications (2)

Publication Number Publication Date
CN110414352A CN110414352A (zh) 2019-11-05
CN110414352B true CN110414352B (zh) 2022-11-29

Family

ID=68359827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910563385.5A Active CN110414352B (zh) 2019-06-26 2019-06-26 从视频文件中提取ppt文件信息的方法及相关设备

Country Status (1)

Country Link
CN (1) CN110414352B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104913B (zh) * 2019-12-23 2023-03-24 福州大学 一种基于结构及相似度的视频提取ppt方法
CN111310747A (zh) * 2020-02-12 2020-06-19 北京小米移动软件有限公司 信息处理方法、信息处理装置及存储介质
CN111526382B (zh) * 2020-04-20 2022-04-29 广东小天才科技有限公司 一种直播视频文本生成方法、装置、设备及存储介质
CN111741359A (zh) * 2020-05-28 2020-10-02 杨伟 一种视频转pptx的方法及系统
CN111914760B (zh) * 2020-08-04 2021-03-30 华中师范大学 一种在线课程视频资源构成的解析方法及系统
CN112183249A (zh) * 2020-09-14 2021-01-05 北京神州泰岳智能数据技术有限公司 一种视频处理方法和装置
CN112287914B (zh) * 2020-12-27 2021-04-02 平安科技(深圳)有限公司 Ppt视频段提取方法、装置、设备及介质
CN112289321B (zh) * 2020-12-29 2021-03-30 平安科技(深圳)有限公司 讲解同步的视频高光处理方法、装置、计算机设备及介质
CN113706401B (zh) * 2021-07-05 2024-05-10 南京师范大学 一种基于手机摄像头的幻灯片自动拍摄及智能剪辑方法
CN113778595A (zh) * 2021-08-25 2021-12-10 维沃移动通信有限公司 文档生成方法、装置和电子设备
CN114494951B (zh) * 2022-01-12 2023-04-25 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质
CN114596882B (zh) * 2022-03-09 2024-02-02 云学堂信息科技(江苏)有限公司 一种可实现对课程内容快速定位的剪辑方法
CN115396726B (zh) * 2022-08-01 2024-05-07 陈兵 一种用于商务直播的演示文稿生成系统及方法
CN115438212B (zh) * 2022-08-22 2023-03-31 蒋耘晨 一种影像投射系统、方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177032A (zh) * 2011-12-23 2013-06-26 李云峰 一种将现有多媒体教程转成电纸书多媒体文件的方法
KR20160032960A (ko) * 2014-09-17 2016-03-25 한국산업기술대학교산학협력단 실시간 온라인 강의 지원 시스템 및 그 제어 방법
CN107920280A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 视频、讲义ppt和语音内容精准匹配的方法和系统
CN109582823A (zh) * 2018-11-21 2019-04-05 平安科技(深圳)有限公司 视频信息链式存储方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177032A (zh) * 2011-12-23 2013-06-26 李云峰 一种将现有多媒体教程转成电纸书多媒体文件的方法
KR20160032960A (ko) * 2014-09-17 2016-03-25 한국산업기술대학교산학협력단 실시간 온라인 강의 지원 시스템 및 그 제어 방법
CN107920280A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 视频、讲义ppt和语音内容精准匹配的方法和系统
CN109582823A (zh) * 2018-11-21 2019-04-05 平安科技(深圳)有限公司 视频信息链式存储方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110414352A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110414352B (zh) 从视频文件中提取ppt文件信息的方法及相关设备
CN109359575B (zh) 人脸检测方法、业务处理方法、装置、终端及介质
EP3882809A1 (en) Face key point detection method, apparatus, computer device and storage medium
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
US8280158B2 (en) Systems and methods for indexing presentation videos
US20140348394A1 (en) Photograph digitization through the use of video photography and computer vision technology
CN110267061B (zh) 一种新闻拆条方法及系统
JP7132654B2 (ja) レイアウト解析方法、読取り支援デバイス、回路および媒体
CN111985621A (zh) 口罩佩戴实时检测的神经网络模型的搭建方法及实施系统
CN110827432B (zh) 一种基于人脸识别的课堂考勤方法及系统
CN111160134A (zh) 一种以人为主体的视频景别分析方法和装置
CN113537801B (zh) 板书处理方法、装置、终端和存储介质
CN111813998A (zh) 一种视频数据处理方法、装置、设备及存储介质
JP2022133378A (ja) 顔生体検出方法、装置、電子機器、及び記憶媒体
Singh et al. Feature based method for human facial emotion detection using optical flow based analysis
CN113076860B (zh) 一种野外场景下的鸟类检测系统
WO2020244076A1 (zh) 人脸识别方法、装置、电子设备及存储介质
CN104166840A (zh) 一种基于视频会议系统的聚焦实现方法
CN111199050B (zh) 一种用于对病历进行自动脱敏的系统及应用
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN110427820B (zh) 一种基于神经网络的ppt边框识别方法及相关设备
US11462040B2 (en) Distractor classifier
Kalantari et al. Visual front-end wars: Viola-Jones face detector vs Fourier Lucas-Kanade

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221111

Address after: 518000 Xili street xilihu town xilihu bank, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: SHENZHEN POLYTECHNIC

Address before: R&D Building 405, Founder Science and Technology Industrial Park, north of Songbai Road, Longteng Community, Shiyan Street, Bao'an District, Shenzhen, Guangdong 518108

Applicant before: SHENZHEN RONGHUI TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant