CN109034117B

CN109034117B - 一种视频提取方法及装置

Info

Publication number: CN109034117B
Application number: CN201810963745.6A
Authority: CN
Inventors: 王晓珂
Original assignee: Beijing Muhua Information Technology Co ltd
Current assignee: Beijing Muhua Information Technology Co ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2020-11-17
Anticipated expiration: 2038-08-22
Also published as: CN109034117A

Abstract

本发明提供了一种视频提取方法及装置，涉及视频通信技术领域，包括获取待处理视频中的多个帧图像；分别计算所述多个帧图像中，每个帧图像所对应的教师外貌评价值；分别计算所述多个帧图像中，每个帧图像所对应的文字量评价值；根据所述教师外貌评价值和所述文字量评价值，选择所述多个帧图像中的指定图像作为输出图像。在教学视频的播放过程中，可以自动地对大量的教学视频进行分析截图，可以方便同学复习知识点而不需要再次观看视频，进而节省了学生时间。

Description

一种视频提取方法及装置

技术领域

本发明涉及视频通信技术领域，尤其是涉及一种视频提取方法及装置。

背景技术

目前，在线视频学习是较为常见的学习方式，一般在线学习的主要资源就是教师录制教学视频，这些教学的样式是：一个教师，对着PPT或者是黑板进行板书，或者是电脑后期把PPT与教师合成在一个视频中。其实教学是一个板书变化的动态过程，其中有些板书内容比较关键，比如关键的推导结论，要点总结等，学生会希望得到教师讲课过程中的一些关键信息，来方便自己课后总结笔记，或者复习知识点。同时学生会希望在没有查看视频前就可以通过一些关键的信息来获取视频的简要内容。

发明内容

有鉴于此，本发明的目的在于提供一种视频提取方法及装置，以解决现有技术中不能自动截取视频关键图片的问题。

第一方面，本发明实施例提供了一种视频提取方法，包括：获取待处理视频中的多个帧图像；分别计算多个帧图像中，每个帧图像所对应的教师外貌评价值；分别计算多个帧图像中，每个帧图像所对应的文字量评价值；根据教师外貌评价值和文字量评价值，选择多个帧图像中的指定图像作为输出图像。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，还包括按照如下方式计算教师外貌评价值：对每个帧图像的人脸进行检测，以确定每个帧图像所对应的眼睛的轮廓点和嘴巴的轮廓点；根据眼睛的轮廓点，利用拟合曲线算法，拟合出眼睛的形状；根据嘴巴的轮廓点，利用拟合曲线算法，拟合出嘴巴的形状；根据眼睛的形状计算头部的竖直程度；根据眼睛的形状计算眼睛张开程度的面积；根据嘴巴的形状计算嘴巴张开程度的面积；由头部的竖直程度、眼睛张开程度的面积和嘴巴张开程度的面积加权得到教师外貌评价值。

结合第一方面，本发明实施例还提供了第一方面的第二种可能的实施方式，还包括按照如下方式计算文字量评价值：对每个帧图像中的文本部分进行积分频谱能量的计算，以得到第一文字量评价值；对每个帧图像中的文本部分进行文本覆盖面积的计算，以得到第二文字量评价值；

对第一文字量评价值和第二文字量评价值进行加权计算，以得到每个帧图像所对应的文字量评价值。

结合第一方面，本发明实施例还提供了第一方面的第三种可能的实施方式，在步骤对每个帧图像中的文本部分进行积分频谱能量的计算和步骤对每个帧图像中的文本部分进行文本覆盖面积的计算前，还包括：针对多个帧图像中的每个帧图像，根据帧图像中左眼瞳孔和右眼瞳孔的相对位置，计算帧图像中的教师身体覆盖的几何区域；针对多个帧图像中的每个帧图像，从帧图像中抠除教师身体覆盖的几何区域。

结合第一方面，本发明实施例还提供了第一方面的第四种可能的实施方式，步骤选择多个帧图像中的指定图像作为输出图像包括：根据每个帧图像所对应的文字量评价值，确定第一目标帧图像所对应的生成时间；第一目标帧图像是文字量评价值数值最小的帧图像；选择生成时间符合预设要求的第二目标帧图像作为输出图像；第二目标帧图像是生成时间与第一目标帧图像的生成时间的差值符合预设的要求的帧图像中，教师外貌评价值最高的帧图像。

第二方面，本发明实施例提供了一种视频提取装置，包括获取模块、第一计算模块、第二计算模块及输出模块；获取模块，用于获取待处理视频中的多个帧图像；第一计算模块，用于分别计算多个帧图像中，每个帧图像所对应的教师外貌评价值；第二计算模块，用于分别计算多个帧图像中，每个帧图像所对应的文字量评价值；输出模块，用于根据教师外貌评价值和文字量评价值，选择多个帧图像中的指定图像作为输出图像。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，第一计算模块，包括：检测单元，用于对每个帧图像的人脸进行检测，以确定每个帧图像所对应的眼睛的轮廓点和嘴巴的轮廓点；第一拟合单元，用于根据眼睛的轮廓点，利用拟合曲线算法，拟合出眼睛的形状；第二拟合单元，用于根据嘴巴的轮廓点，利用拟合曲线算法，拟合出嘴巴的形状；第一计算单元，用于根据眼睛的形状计算头部的竖直程度；第二教计算单元，用于根据眼睛的形状计算眼睛张开程度的面积；第三计算单元，用于根据嘴巴的形状计算嘴巴张开程度的面积；第四计算单元，用于根据头部的竖直程度、眼睛张开程度的面积和嘴巴张开程度的面积加权得到教师外貌评价值。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，第二计算模块，包括：第一计算单元，用于对每个帧图像中的文本部分进行积分频谱能量的计算，以得到第一文字量评价值；第二计算单元，用于对每个帧图像中的文本部分进行文本覆盖面积的计算，以得到第二文字量评价值；第三计算单元，用于对第一文字量评价值和第二文字量评价值进行加权计算，以得到每个帧图像所对应的文字量评价值。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，还包括第三计算模块：第三计算模块，用于针对多个帧图像中的每个帧图像，根据帧图像中左眼瞳孔和右眼瞳孔的相对位置，计算帧图像中的教师身体覆盖的几何区域，针对多个帧图像中的每个帧图像，从帧图像中抠除教师身体覆盖的几何区域。

结合第二方面，本发明实施例提供了第二方面的第四种可能的实施方式，输出模块包括确定单元和选择单元；确定单元，用于根据每个帧图像所对应的文字量评价值，确定第一目标帧图像所对应的生成时间；第一目标帧图像是文字量评价值数值最小的帧图像；

选择单元，用于选择生成时间符合预设要求的第二目标帧图像作为输出图像；第二目标帧图像是生成时间与第一目标帧图像的生成时间的差值符合预设的要求的帧图像中，教师外貌评价值最高的帧图像。

本发明实施例提供了一种视频提取方法，包括：获取待处理视频中的多个帧图像；分别计算多个帧图像中，每个帧图像所对应的教师外貌评价值；分别计算多个帧图像中，每个帧图像所对应的文字量评价值；根据教师外貌评价值和文字量评价值，选择多个帧图像中的指定图像作为输出图像。在教学视频的播放过程中，可以自动地对大量的教学视频进行分析截图，可以方便同学复习知识点而不需要再次观看视频，进而节省了学生时间。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频提取方法的流程图；

图2为本发明实施例提供的一种计算教师外貌评价值的流程图；

图3为本发明实施例提供的一种计算文字量评价值的流程图；

图4为本发明实施例提供的一种视频提取装置的结构示意图；

图标：

101-处理器；102-存储器；103-总线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在线学习的主要资源就是教师录制的教学视频，现有的拍照截图方法，需要在观看视频的过程中暂停视频，手动拍照截图，这样会十分影响学习体验，经常需要打断思路影响思考，同时这是一个重复繁重的体力劳动，无法为大量的教学视频生成速览图片序列。基于此，本发明实施例提供的一种视频提取方法及装置，可以自动地对大量的教学视频进行分析截图，可以方便同学复习知识点而不需要再次观看视频，进而节省了学生的时间。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频提取方法进行介绍，

本发明实施例提供了一种视频提取方法，具体可参见图1所示的一种视频提取方法的流程图，步骤包括：

步骤S102，获取待处理视频中的多个帧图像；

步骤S104，分别计算多个帧图像中，每个帧图像所对应的教师外貌评价值；

步骤S106，分别计算多个帧图像中，每个帧图像所对应的文字量评价值；

步骤S108，根据教师外貌评价值和文字量评价值，选择多个帧图像中的指定图像作为输出图像。

步骤S102中，首先待处理的视频是指教师提前录制的视频，一般用于学生在线学习，待处理视频录制成功后，将待处理的视频加载入视频处理软件中，如可以通过软件OpenCV(Open Source Computer Vision Library,开源计算机视觉库)来处理视频软件，OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。

OpenCV用C++语言编写，它的主要接口也是C++语言，但是依然保留了大量的C语言接口。该库也有大量的Python、Java and MATLAB/OCTAVE(版本2.5)的接口。这些语言的API接口函数可以通过在线文档获得。如今也提供对于C#、Ch、Ruby,GO的支持。

所有新的开发和算法都是用C++接口。通过对视频进行循环采样帧处理，一般视频帧的帧率是25或者更高，当对视频进行循环采样处理时，将采样帧率降到5帧/秒，并且把每一帧图像转变成灰度图像，在节约内存的同时更易对每帧图像进行处理，处理后就得到多个帧图像，再对多个帧图像进行分析。

步骤S104中，在得到多个帧图像后，对每个帧图像进行分析计算，其中，每个帧图像中的教师外貌评价值是评定教师表情端庄程度的数值，帧图像中教师的嘴巴是闭合的，教师的眼睛是张开地朝向前方，教师的头部处于竖直的状态，此时教师外貌评价值最高。在教学视频的播放过程中，教师的表情是一个连续动态变化的过程，如果不考虑教师的外貌评价值，直接截取内容符合预设条件的帧图像，极大概率教师的表情比较奇怪，比如闭眼睛、嘴歪眼斜等，如果这样的图像对外分享会十分影响教师的形象，因此设定了教师外貌评价值这个参数对帧图像进行一定程度的筛选，能够使得每个帧图像中的教师表情端庄，身形挺拔垂直。

步骤S106中，在得到多个帧图像后，对每个帧图像进行分析计算，其中，每个帧图像中的文字量评价值是对帧图像中文字含量的一个评价指标，在多个帧图像中，每帧图像中文字量越多、文本之间完整的逻辑关系越清晰，对应的帧图像文字量评价值越高。帧图像的文字量评价值越高，获取的帧图像对学生来说参考价值越大。

步骤S108中，上述输出的图像是文字量评价值和教师外貌评价值均满足预设条件之后选择输出的图像，保证了帧图像文字量较多的同时教师的表情也是端庄的。

为了更好地说明，图2示出了一种计算教师外貌评价值的流程图，

步骤S202，对每个帧图像的人脸进行检测，以确定每个帧图像所对应的眼睛的轮廓点和嘴巴的轮廓点；

步骤S204，根据眼睛的轮廓点，利用拟合曲线算法，拟合出眼睛的形状；

步骤S206，根据嘴巴的轮廓点，利用拟合曲线算法，拟合出嘴巴的形状；

步骤S208，根据眼睛的形状计算头部的竖直程度；

步骤S210，根据眼睛的形状计算眼睛张开程度的面积；

步骤S212，根据嘴巴的形状计算嘴巴张开程度的面积；

步骤S214，由头部的竖直程度、眼睛张开程度的面积和嘴巴张开程度的面积加权得到教师外貌评价值。

步骤S202中，利用人脸识别的算法对每个帧图像的人脸进行检测后，判断是否有人脸，当判断出每个帧图像中有人脸时，识别帧图像中人脸的轮廓点并进行标记，其中也同时识别出眼睛的轮廓和嘴巴的轮廓并标记。

步骤S204中，当识别出眼睛的轮廓点后，通过误差函数不断逼近眼睛的轮廓，之后进一步地对眼睛的形状进行拟合，由于眼睛的形状近似于椭圆形，即可得到瞳孔的位置坐标。

步骤S206中，当识别出嘴巴的轮廓点后，通过误差函数不断逼近嘴巴的轮廓，之后进一步地对嘴巴的形状进行拟合，当嘴巴的形状拟合后可以对嘴巴不同张开程度的面积进行计算。

步骤S208中，计算头部竖直程度主要是判断帧图像中教师的头部端正，此时头部的竖直程度是借助于两个眼睛瞳孔之间的距离来进行判断。由于眼睛的形状近似于椭圆形，在确定眼睛瞳孔位置后，通过计算两个眼睛瞳孔的连线与水平线的夹角可以判断教师的头部站姿是否垂直端正。

步骤S210中，计算眼睛张开程度的面积，具体是为了在帧图像中使得教师的眼睛是达到张开的状态的，教师的眼睛张开的面积越大，教师评价值越高。由于步骤S204中已经得到瞳孔的位置坐标，通过瞳孔的位置坐标能够得到眼睛张开程度的面积，由于眼睛的形状近似于椭圆，在确定了两只眼睛瞳孔的坐标后，通过如基于最小二乘法定义的损失函数计算椭圆的长轴和短轴的数值，再通过优化算法可以得到眼睛的面积值，将眼睛张开程度的面积作为衡量教师外貌评价值中的一项指标。

步骤S212中，计算嘴巴闭合程度的面积，具体是为了在帧图像中使得教师的嘴巴是处于闭合状态的，由于嘴巴的形状近似于椭圆，在确定了嘴巴中心，通过如基于最小二乘法定义的损失函数计算椭圆的长轴和短轴的数值，再通过优化算法可以得到嘴巴的面积值，在教师讲课的过程中，嘴巴是会有张合的变化过程的，教师的嘴巴闭合时，帧图像中教师评价值越高。由于步骤S206中可以对嘴巴张开程度的面积进行计算，将嘴巴张开程度的面积作为教师评价值的一个指标。

步骤S214中，在加权计算教师外貌评价值时，两瞳孔的连线越水平，这个时候教师的头部越接近垂直状态，眼睛张开程度的面积越大教师评价值越符合要求，嘴巴张开程度的面积越小教师评价值越符合要求，这样在帧图像输出时不会影响教师的外在形象。

具体地，图3示出了一种计算文字量评价值的流程图，具体步骤如下：

步骤S302，对每个帧图像中的文本部分进行积分频谱能量的计算，以得到第一文字量评价值；

步骤S304，对每个帧图像中的文本部分进行文本覆盖面积的计算，以得到第二文字量评价值；

步骤S306，对第一文字量评价值和第二文字量评价值进行加权计算，以得到每个帧图像所对应的文字量评价值。

步骤S302中，积分频谱能量的计算可以通过如快速傅里叶变换算法来实现，快速傅里叶变换可以看作是数学上的棱镜，将函数基于频率分解为不同的成分。在帧图像中考虑帧图像的光谱或频率谱，图像的频率是表征图像中灰度变化剧烈程度的指标，是灰度在平面空间上的梯度.在噪声点和图像边缘处的频率为高频。快速傅立叶变换能通过频率成分来分析图像。快速傅里叶变换是在傅里叶变换上的改进，能够更好地应用在帧图像的分析中。第一文字量评价值的计算是将每个帧图像中的图像纹理密度进行积分频谱能量的计算，板书和PPT上有大量的表格、公式、推导和数学文字等字符，这些字符都由复杂的线条构成纹理，这些纹理正是频谱主要能量来源，就近似地代表了图像的文字含量。这种方法对图像的移动，旋转有很强的自适应性，得到的得分基本不变。文字量较多的部分，积分频谱的能量值越大。帧图像中的每个点通过傅里叶变换都成了谐波函数的组合，也就有了频率，这个频率则是在这一点上所有产生这个灰度的频率之和，也就是说傅里叶变换可以将这些频率分开来。当想除去图像背景时，只要去掉背景的频率就可以了。

步骤S304中，第二文字量评价值是通过识别文字所覆盖的面积来近似反应图像中的文字信息含量，先将帧图像中的文字部分进行检测，将有文字的地方选中，进一步调整不同大小文字的比例，将帧图像中不同文字大小通过归一化算法统一成统一字体和大小的文字。再进一步通过文字所覆盖的区域面积计算文字量，第二文字量评价值能够通过如CTPN(自然场景文本检测，Detecting Text inNatural Image with Connectionist TextProposal Network)深度神经网络来做文本检测，第一步，通过图像信息采集(一般就是相机)，得到包含了待识别字符的图像，分析结构。第二步，运用阈值操作等一些图像处理的方法对待测对象进行去噪和矫正。第三步，因为文本信息的特殊性质，需要进行行列分割，对单个字符，或者是连续几个字符进行检测。第四步，将分割后的字符图像导入识别模型中进行处理，进而得到原图中的字符信息。

上述通过积分频谱能量的计算和文字覆盖面积的计算，最终确定文字量评价值。

进一步地，在步骤对每个帧图像中的文本部分进行积分频谱能量的计算和步骤对每个帧图像中的文本部分进行文本覆盖面积的计算前，还包括：针对多个帧图像中的每个帧图像，根据帧图像中左眼瞳孔和右眼瞳孔的相对位置，计算帧图像中的教师身体覆盖的几何区域；针对多个帧图像中的每个帧图像，从帧图像中抠除教师身体覆盖的几何区域。

上述每个帧图像中教师身体所覆盖的几何区域是由左眼瞳孔和右眼瞳孔的相对坐标的预设倍数得到的。将帧图像中教师身体覆盖的几何区域去掉的原因在于教师因为穿衣风格，如条纹类衣服，或者经常在视频课程中移动，会在对每个帧图像中的文本部分进行积分频谱能量的计算和对每个帧图像中的文本部分进行文本覆盖面积的计算造成干扰，错误地将教师身体覆盖面积也算作文字量计算的一部分，因此在计算文字量评价值时需要将干扰项剔除。

进一步地，选择多个帧图像中的指定图像作为输出图像包括：根据每个帧图像所对应的文字量评价值，确定第一目标帧图像所对应的生成时间；第一目标帧图像是文字量评价值数值最小的帧图像；选择生成时间符合预设要求的第二目标帧图像作为输出图像；第二目标帧图像是生成时间与第一目标帧图像的生成时间的差值符合预设的要求的帧图像中，教师外貌评价值最高的帧图像。

第一目标帧图像是文字量评价值最小的图像，这个时候的帧图像一般是出现在PPT切换或者板书迅速变化的过程中，这个时候由于黑板空白的面积较大，此时黑板面积所在区域的积分频谱能量值就较小，使得第一文字量评价值数值较小，在加权计算后文字量评价值就会相应地变小，在这个时候帧图像前的预设时间内，第一文字量评价值是趋于一个相对稳定的高数值范围，在快速切换的过程中会出现一个数值瞬间变小的情况，在高数值范围内选择教师外貌评级值最高的帧图像就是第二目标图像，此时第二目标图像是满足教师外貌评价值最高的同时满足文字量评价值最小，这样就既能保证帧图像的文字信息含量，又能保证教师面容仪态端庄。将符合要求的图像按照图片生成时间排序，保存成本地图像，用生成时间命名，方便回看和查找，这些帧图像可以做成视频速览索引，当待处理视频是一个较长的视频时，提前对视频做一个大致的了解，这样能快速判断这个视频是否真的自己感兴趣或者在哪个时间段感兴趣，进而可以快进到指定的视频段，提高学生的效率。

本发明实施例还提供了一种视频提取装置，包括获取模块、第一计算模块、第二计算模块及输出模块；获取模块，用于获取待处理视频中的多个帧图像；第一计算模块，用于分别计算多个帧图像中，每个帧图像所对应的教师外貌评价值；第二计算模块，用于分别计算多个帧图像中，每个帧图像所对应的文字量评价值；输出模块，用于根据教师外貌评价值和文字量评价值，选择多个帧图像中的指定图像作为输出图像。

具体地，第一计算模块，包括：检测单元，用于对每个帧图像的人脸进行检测，以确定每个帧图像所对应的眼睛的轮廓点和嘴巴的轮廓点；第一拟合单元，用于根据眼睛的轮廓点，利用拟合曲线算法，拟合出眼睛的形状；第二拟合单元，用于根据嘴巴的轮廓点，利用拟合曲线算法，拟合出嘴巴的形状；第一计算单元，用于根据眼睛的形状计算头部的竖直程度；第二计算单元，用于根据眼睛的形状计算眼睛张开程度的面积；第三计算单元，用于根据嘴巴的形状计算嘴巴张开程度的面积；第四计算单元，用于根据头部的竖直程度、眼睛张开程度的面积和嘴巴张开程度的面积加权得到教师外貌评价值。

具体地，第二计算模块，包括：第一计算单元，用于对每个帧图像中的文本部分进行积分频谱能量的计算，以得到第一文字量评价值；第二计算单元，用于对每个帧图像中的文本部分进行文本覆盖面积的计算，以得到第二文字量评价值；第三计算单元，用于对第一文字量评价值和第二文字量评价值进行加权计算，以得到每个帧图像所对应的文字量评价值。

进一步地，还包括第三计算模块：第三计算模块，用于针对多个帧图像中的每个帧图像，根据帧图像中左眼瞳孔和右眼瞳孔的相对位置，计算帧图像中的教师身体覆盖的几何区域，针对多个帧图像中的每个帧图像，从帧图像中抠除教师身体覆盖的几何区域。

具体地，输出模块包括确定单元和选择单元；确定单元，用于根据每个帧图像所对应的文字量评价值，确定第一目标帧图像所对应的生成时间；第一目标帧图像是文字量评价值数值最小的帧图像；

本发明实施例提供的一种视频提取装置，与上述实施例提供的一种视频提取方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

参见图4，本发明实施例还提供另一种视频提取装置，包括：处理器101，存储器102和总线103，所述处理器101和存储器102通过总线103连接；处理器101用于执行存储器102中存储的可执行模块，例如计算机程序。

其中，存储器102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。

其中，存储器102用于存储程序，所述处理器101在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流程过程定义的装置所执行的方法可以应用于处理器101中，或者由处理器101实现。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的一种视频提取方法及装置的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频提取方法，其特征在于，包括：

获取待处理视频中的多个帧图像；

分别计算所述多个帧图像中，每个帧图像所对应的教师外貌评价值；其中，所述教师外貌评价值用于评定教师的表情端庄程度；

分别计算所述多个帧图像中，每个帧图像所对应的文字量评价值；

根据所述教师外貌评价值和所述文字量评价值，选择所述多个帧图像中的指定图像作为输出图像；

通过如下方式计算文字量评价值：

通过快速傅里叶变换算法对所述每个帧图像中的文本部分进行积分频谱能量的计算，以得到第一文字量评价值；

对所述每个帧图像中的文本部分进行文本覆盖面积的计算，以得到第二文字量评价值；

对所述第一文字量评价值和所述第二文字量评价值进行加权计算，以得到每个帧图像所对应的所述文字量评价值。

2.根据权利要求1所述的方法，其特征在于，还包括按照如下方式计算教师外貌评价值：

对所述每个帧图像的人脸进行检测，以确定所述每个帧图像所对应的眼睛的轮廓点和嘴巴的轮廓点；

根据所述眼睛的轮廓点，利用拟合曲线算法，拟合出眼睛的形状；

根据所述嘴巴的轮廓点，利用拟合曲线算法，拟合出嘴巴的形状；

根据所述眼睛的形状计算头部的竖直程度；

根据所述眼睛的形状计算眼睛张开程度的面积；

根据所述嘴巴的形状计算嘴巴张开程度的面积；

由所述头部的竖直程度、所述眼睛张开程度的面积和所述嘴巴张开程度的面积加权得到教师外貌评价值。

3.根据权利要求1所述的方法，其特征在于，在步骤对所述每个帧图像中的文本部分进行积分频谱能量的计算和步骤对所述每个帧图像中的文本部分进行文本覆盖面积的计算前，还包括：

针对所述多个帧图像中的每个帧图像，根据所述帧图像中左眼瞳孔和右眼瞳孔的相对位置，计算所述帧图像中的教师身体覆盖的几何区域；

针对所述多个帧图像中的每个帧图像，从所述帧图像中抠除所述教师身体覆盖的几何区域。

4.根据权利要求1所述的方法，其特征在于，步骤选择所述多个帧图像中的所述指定图像作为所述输出图像包括：

根据所述每个帧图像所对应的所述文字量评价值，确定第一目标帧图像所对应的生成时间；所述第一目标帧图像是所述文字量评价值数值最小的帧图像；

选择生成时间符合预设要求的第二目标帧图像作为所述输出图像；所述第二目标帧图像是生成时间与所述第一目标帧图像的生成时间的差值符合预设的要求的帧图像中，所述教师外貌评价值最高的帧图像。

5.一种视频提取装置，其特征在于，包括获取模块、第一计算模块、第二计算模块及输出模块；

获取模块，用于获取待处理视频中的多个帧图像；

第一计算模块，用于分别计算所述多个帧图像中，每个帧图像所对应的教师外貌评价值；其中，所述教师外貌评价值用于评定教师的表情端庄程度；

第二计算模块，用于分别计算所述多个帧图像中，每个帧图像所对应的文字量评价值；

输出模块，用于根据所述教师外貌评价值和所述文字量评价值，选择所述多个帧图像中的指定图像作为输出图像；

所述第二计算模块，包括：

第一计算单元，用于通过快速傅里叶变换算法对所述每个帧图像中的文本部分进行积分频谱能量的计算，以得到第一文字量评价值；

第二计算单元，用于对所述每个帧图像中的文本部分进行文本覆盖面积的计算，以得到第二文字量评价值；

第三计算单元，用于对所述第一文字量评价值和所述第二文字量评价值进行加权计算，以得到每个帧图像所对应的所述文字量评价值。

6.根据权利要求5所述的装置，其特征在于，所述第一计算模块，包括：

检测单元，用于对所述每个帧图像的人脸进行检测，以确定所述每个帧图像所对应的眼睛的轮廓点和嘴巴的轮廓点；

第一拟合单元，用于根据所述眼睛的轮廓点，利用拟合曲线算法，拟合出眼睛的形状；

第二拟合单元，用于根据所述嘴巴的轮廓点，利用拟合曲线算法，拟合出嘴巴的形状；

第一计算单元，用于根据所述眼睛的形状计算头部的竖直程度；

第二计算单元，用于根据所述眼睛的形状计算眼睛张开程度的面积；

第三计算单元，用于根据所述嘴巴的形状计算嘴巴张开程度的面积；

第四计算单元，用于根据所述头部的竖直程度、所述眼睛张开程度的面积和所述嘴巴张开程度的面积加权得到教师外貌评价值。

7.根据权利要求5所述的装置，其特征在于，还包括第三计算模块：

所述第三计算模块，用于针对所述多个帧图像中的每个帧图像，根据所述帧图像中左眼瞳孔和右眼瞳孔的相对位置，计算所述帧图像中的教师身体覆盖的几何区域，针对所述多个帧图像中的每个帧图像，从所述帧图像中抠除所述教师身体覆盖的几何区域。

8.根据权利要求5所述的装置，其特征在于，所述输出模块包括确定单元和选择单元；

确定单元，用于根据所述每个帧图像所对应的所述文字量评价值，确定第一目标帧图像所对应的生成时间；所述第一目标帧图像是所述文字量评价值数值最小的帧图像；

选择单元，用于选择生成时间符合预设要求的第二目标帧图像作为所述输出图像；所述第二目标帧图像是生成时间与所述第一目标帧图像的生成时间的差值符合预设的要求的帧图像中，所述教师外貌评价值最高的帧图像。