CN113095239A

CN113095239A - 一种关键帧提取方法、终端及计算机可读存储介质

Info

Publication number: CN113095239A
Application number: CN202110408821.9A
Authority: CN
Inventors: 陈志科; 蔺昊
Original assignee: Shenzhen Inveno Technology Co ltd
Current assignee: Shenzhen Inveno Technology Co ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-09

Abstract

本发明公开了一种关键帧提取方法、终端及计算机可读存储介质，其中，方法包括：获取预设识别训练模型，并获取预设视频图像数据库中的多个视频图像数据；通过预设识别训练模型分别对多个视频图像数据进行识别，得到各视频图像数据对应的关键帧；对各视频图像数据对应的关键帧进行检测，并根据检测结果提取并显示满足检测条件的关键帧。本发明通过预设识别训练模型分别对多个视频图像数据进行识别，以深度学习模型的方式快速地提取各视频图像数据的关键帧，提高了视频图像数据中关键帧的提取效率；并且，通过对各视频图像数据对应的关键帧进行检测，可根据检测结果提取并显示满足检测条件的关键帧，提高了视频图像数据中关键帧的提取质量。

Description

一种关键帧提取方法、终端及计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及的是一种关键帧提取方法、终端及计算机可读存储介质。

背景技术

视频图像随着互联网和多媒体技术的不断发展日益剧增，视频相比图像来说信息更加丰富，但是一个序列里冗余信息太多，在很多场景下，我们不想或者不能处理视频的每一帧图片，这时我们希望能够从视频中提取出一些重要的帧进行处理，这个过程我们称为视频关键帧提取，如何有效地提取出所需要的关键帧对于很多任务都是至关重要的，如：大数据时代将海量视频进行安全过滤、视频快速浏览等领域。

关键帧的提取方法丰富多样，根据各自场景不同的需求人们设计了许多解决方案，比较常用且相对有效的提取方法为：基于镜头的方法、基于运动分析的方法、基于视频聚类的方法和深度学习方法。

基于镜头的关键帧提取算法是视频检索领域中最先发展起来，也是目前最为成熟的一种通用方法，该算法的一般实现过程是：先按照某种技术手段把源视频文件按照镜头变化分割，然后在视频每个镜头中选择首、尾两帧作为关键帧，这种方法的使用场景存在很大的局限性，当视频中内容变化剧烈、场景非常复杂时，选取镜头中的首、尾两帧并不能代表视频的全部内容变化，所以，该方法远远不能满足当今社会人们对关键帧提取的标准和要求。

基于运动分析的方法提取关键帧的一般实现过程是：在视频镜头中分析物体运动的光流量，每次选择视频镜头中光流移动次数最少的视频帧作为提取到的关键帧，这种方法本身的算法鲁棒性较差，因为它不仅依赖于物体运动的局部特征，而且计算过程也较为复杂，导致关键帧的提取效率低下。

基于视频聚类的方法提取关键帧是通过聚类的方式来表达视频的主题，实现的方式比较多，大部分基于视频聚类的方法在划分聚类簇的过程中并没有充分考虑到各帧之间时间先后变化顺序，因此，基于视频聚类提取关键帧的方法在聚类之前，需要预先设定一定数量的簇，而簇的设定方式直接影响聚类效果，且簇的设定本身就基本做不到精确设定，因此，此算法在时间上的开销代价很大，导致漏帧现象严重，所以，该方法的适用性也受到一定程度的限制。

深度学习提取关键帧主要是用一些无监督学习、有监督学习来实现，目前有些人也尝试了在此基础上加入注意力机制来提升效果，这种提取关键帧的方法是近年来发展起来的新式方法，有很大的研究空间。

因此，现有技术还有待改进。

发明内容

本发明要解决的技术问题在于，针对现有技术缺陷，本发明提供一种关键帧提取方法、终端及计算机可读存储介质，以快速而精准地提取视频中的关键帧。

本发明解决技术问题所采用的技术方案如下：

第一方面，本发明提供一种关键帧提取方法，关键帧提取方法包括以下步骤：

获取预设识别训练模型，并获取预设视频图像数据库中的多个视频图像数据；

通过所述预设识别训练模型分别对所述多个视频图像数据进行识别，得到各视频图像数据对应的关键帧；

对各视频图像数据对应的关键帧进行检测，并根据检测结果提取并显示满足检测条件的关键帧。

在一种实现方式中，所述获取预设的识别训练模型，之前包括：

获取用于检测视频图像文字内容的预设文本识别模型，并通过所述预设文本识别模型对预设视频中的文字内容进行识别，以得到对应的识别训练模型。

在一种实现方式中，所述预设文本识别模型包括：场景文本数据集、数据集标注数据以及实时标注数据集。

在一种实现方式中，所述获取用于检测视频图像文字内容的预设文本识别模型，包括：

获取弯曲格式和/或多边形格式的场景文本数据集，并获取用于标注的数据集标注数据；

提取所述场景文本数据集中的预设高度的文字数据，并根据所述数据集标注数据中的标注代码将提取的文字数据制成矩形框式的标注数据，得到所述实时标注数据集。

在一种实现方式中，所述通过预设识别训练模型分别对所述多个视频图像数据进行识别，包括：

根据跳帧算法提取各视频图像数据中的多帧数据；

通过感知哈希算法对提取的数据帧进行相似度计算，得到各帧数据的相似度值；

通过所述预设识别训练模型对提取的数据帧进行文字检测，得到具有检测框的数据帧的交并比值；

根据所述相似度值和所述交并比值提取满足条件的数据帧，得到各视频图像数据对应的关键帧。

在一种实现方式中，所述通过感知哈希算法对提取的数据帧进行相似计算，包括：

根据预设尺寸对提取的数据帧进行缩小处理，得到缩小后的数据帧；

对所述缩小后的数据帧进行简化色彩处理，并计算简化色彩后的数据帧中的像素灰度平均值；

将所述简化色彩后的数据帧中每个像素点的灰度值与所述像素灰度平均值进行对比；

计算所述简化色彩后的数据帧中灰度值大于所述像素灰度平均值的像素点的数量，并根据所述像素点的数量计算哈希值；

根据所述哈希值计算各帧数据的相似度。

在一种实现方式中，所述通过预设识别训练模型对提取的数据帧进行文字检测，包括：

通过所述预设识别训练模型对提取的数据帧进行文字检测，得到各数据帧中文字检测框的数量；

获取所述文字检测框的数量相等的相邻数据帧；

计算所述相邻数据帧中各数据帧的交并比值。

在一种实现方式中，所述对各视频图像数据对应的关键帧进行检测，并根据检测结果提取并显示满足检测条件的关键帧，包括：

获取视频数据筛选过滤条件；

对各视频图像数据对应的关键帧进行检测，判断各视频图像数据对应的关键帧是否满足所述视频数据筛选过滤条件；

若为是，则选择满足所述视频数据筛选过滤条件的关键帧，并将选择的关键帧显示在对应的显示框中。

第二方面，本发明还提供一种终端，包括：处理器和存储器，所述存储器存储有关键帧提取程序，所述关键帧提取程序被所述处理器执行时用于实现如第一方面所述的关键帧提取方法。

第三方面，本发明还提供一种存储介质，所述存储介质存储有关键帧提取程序，所述关键帧提取程序被处理器执行时用于实现如第一方面所述的关键帧提取方法。

本发明采用上述技术方案具有以下效果：

本发明通过预设识别训练模型分别对多个视频图像数据进行识别，以深度学习模型的方式快速地提取各视频图像数据的关键帧，提高了视频图像数据中关键帧的提取效率；并且，通过对各视频图像数据对应的关键帧进行检测，可根据检测结果提取并显示满足检测条件的关键帧，提高了视频图像数据中关键帧的提取质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明的一种实现方式中关键帧提取方法的流程图。

图2是本发明的一种实现方式中终端的功能原理图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

示例性方法

如图1所示，本发明实施例提供一种关键帧提取方法，关键帧提取方法包括以下步骤：

步骤S100，获取预设识别训练模型，并获取预设视频图像数据库中的多个视频图像数据。

在本实施例中，所述关键帧提取方法应用于终端，所述终端包括但不限于计算机、移动终端以及平板电脑等设备。

在拥有海量视频的大数据平台中，网络上的电影以及电视剧等视频是少数的，绝大部分是短视频；针对大量的短视频数据，当需要提取这些短视频的关键帧时，可采用本实施例中的关键帧提取方法快速而准确地提取这些短视频的关键帧，以便于对这些大量的短视频进行安全性地过滤和筛查。

在本实施例中，采用哈希算法和文字检测的方式提取各视频的关键帧，并利用匹配检测框的方式联合提取这些短视频的关键帧，以解决视频安全过滤大数据领域提取关键帧的问题。

具体地，在本实施例中，提取视频图像关键帧的方式包括两个部分，第一部分是训练准确而快速的文字检测模型，该文字检测模型主要用于对视频图像数据中的文字进行检测，以获取带有需要文字的关键帧；第二部分是结合使用哈希算法、文字监测算法以及IOU(Intersection over Union，又称重叠度/交并比)匹配检测框算法，提取视频图像数据中的关键帧。

进一步地，对于模型训练阶段。

文字检测模型包括：ABCNet、DBNet、CTPN、EAST、Seglink、RRPN、TextBox、TextBox++和TextSnake等；其中，ABCNet利用贝塞尔曲线可灵活变形且可微的特点实现，在变形文字检测方面有一定的优势；DBNet在基于分割的文本检测网络中引入sigmoid函数对每一个像素点进行自适应二值化实现，不论速度还是准确性都是上述一系列算法中最强的，CTPN和EAST是近几年文字检测算法中的佼佼者，剩下的其它几个算法也是文字检测领域具有较大优势的选择，他们有的能检测水平文字，有的能检测任意多边形、旋转矩形、圆盘覆盖多边形等变形文字，越后面发布的算法，兼并的功能越多。

但是，实际应用时，即便其中速度最快的算法DBNet在大数据平台上还是太慢，若放在视频过滤的最前面提取帧，还得成为后面所有视频过滤算法的速度瓶颈，而以上这些算法有些在检测变形文字方面具备的一些优点又用不上，因为视频中绝大多数是水平、竖直文字，旋转、倾斜的文字不算多，同时，视频文字不像普通文本文字，往往字上重字等各种遮挡严重，经常出现水平或竖直的极端瘦长文本，一个句子从屏幕这一边直接穿透到另一边出头，同一句话颜色、字体、大小、语言类别等变化万千，有的字超级大有的字超级小，不同光照和远近条件下有的模糊得一塌糊涂，有时候文字还多得还密密麻麻，关键是实际场景还是上面这些所有问题的叠加，所以，上面提到的这一堆算法都难以在视频文字检测上面实际使用，尤其是网络上流行的短视频服务方面。

近年来，通用目标检测发展迅速，例如，比较典型的有EfficientDet、YOLO系列等，其中YOLOv5不论是最大的模型还是最小的模型速度、精度都强于EfficientDet，其最小的模型可以达到四百多帧每秒，ap50在COCO数据集上可以达到55以上，并且对于大中小目标都具备很强的检测能力，只是不能检测弯曲、多边形文字、不能检测过于瘦长的极端的文本、不能检测到过小过大的文字等，但这些都是可以通过一定的方法克服的，因此，YOLOv5s非常适合改进从而用于视频文字检测。

在本实施例中，主要针对YOLOv5s文字检测模型进行改进，得到预设文本识别模型；在改进YOLOv5s文字检测模型时，训练时所需要的数据集包括：COCO-Text场景文本识别数据集、ICDAR2019-LSVT数据集的精标注数据集以及在线视频平台的实时视频标注而成的数据集，即预设文本识别模型包括：场景文本数据集、数据集标注数据以及实时标注数据集；其中，场景文本数据集包括：大量英文数据和其它国家的文字数据；数据集标注数据包括：大量中文文字数据；场景文本数据集和数据集标注数据主要用于扩充训练数据，增加训练数据的多样性，以增强文字检测模型的泛化能力，实时标注数据集最接近现实场景中大数据平台上视频文字检测的实际数据分布情况。

进一步地，在对YOLOv5s文字检测模型进行改进后，通过获取用于检测视频图像文字内容的预设文本识别模型，并通过预设文本识别模型对预设视频中的文字内容进行识别，以得到对应的识别训练模型；通过不断学习的方式，对视频图像数据中的文字进行检测训练，在后续的正常使用场景中，可利用该识别训练模型对视频数据中的文字进行检测，以提高后续的使用场景中的文字检测识别效率和准确率，从而提高短视频数据中的关键帧的提取效率和提取质量。

即在本实施例的一种实现方式中，步骤100之前包括以下步骤：

步骤001，获取用于检测视频图像文字内容的预设文本识别模型，并通过所述预设文本识别模型对预设视频中的文字内容进行识别，以得到对应的识别训练模型。

在本实施例中，训练预设文本识别模型时，获取的场景文本数据集和数据集标注数据包含大量弯曲、多边形标注格式的文字，所以，根据数据集标注数据中的标注文件，以代码的形式获取每个标注目标的最小坐标点和最大坐标点，将获取的最小坐标点和最大坐标点围成最大矩形框，制作成新的标注文件，这样就只有水平框和竖直框，以便利用算法YOLOv5的优点，解决YOLO算法不能检测弯曲、多边形文字的问题；同时，更改YOLOv5数据处理部分，对YOLOv5的预测框长宽比的限制进行扩大，例如：范围为小于等于150-180，这样就能解决YOLO算法不能检测过于瘦长的极端目标的问题。

具体地，可获取弯曲格式和/或多边形格式的场景文本数据集，并获取用于标注的数据集标注数据；在制作新的标注时，通过提取场景文本数据集中的预设高度的文字数据，并根据提取的数据集标注数据中的标注代码将提取的文字数据制成矩形框式的标注数据，得到实时标注数据集。

即在本实施例的一种实现方式中，步骤S001具体包括以下步骤：

步骤S001a，获取弯曲格式和/或多边形格式的场景文本数据集，并获取用于标注的数据集标注数据；

步骤S001b，提取所述场景文本数据集中的预设高度的文字数据，并根据所述数据集标注数据中的标注代码将提取的文字数据制成矩形框式的标注数据，得到所述实时标注数据集。

在本实施例中，在训练得到文字检测模型后，在后续的实际应用场景中，即可通过该文字检测模型对大数据平台中的短视频的文字进行检测，并结合哈希算法以及IOU算法提取各短视频中的关键帧，从而方便对大数据平台中的视频数据进行筛选以及安全性检测。

如图1所示，在本发明实施例的一种实现方式中，关键帧提取方法还包括以下步骤：

步骤S200，通过所述预设识别训练模型分别对所述多个视频图像数据进行识别，得到各视频图像数据对应的关键帧。

在本实施例中，在提取视频图像数据的关键帧阶段，可通过预设识别训练模型分别对多个视频图像数据进行识别，得到各视频图像数据对应的关键帧。

具体地，先根据跳帧算法提取各视频图像数据中的多帧数据，即以一定的频率获取各视频图像数据中的数据帧；然后，通过感知哈希算法对提取的数据帧进行相似度计算，得到各帧数据的相似度值；在计算相似度的同时，还可通过预设识别训练模型对提取的数据帧进行文字检测，得到具有检测框的数据帧的交并比值，即获取具有检测框且交并比值大的数据帧；最后，通过筛选，选择相似度满足相似度要求且交并比值大于预设值的数据帧，以此作为各视频图像数据对应的关键帧。

即在本实施例的一种实现方式中，步骤S200具体包括以下步骤：

步骤S210，根据跳帧算法提取各视频图像数据中的多帧数据；

步骤S220，通过感知哈希算法对提取的数据帧进行相似度计算，得到各帧数据的相似度值；

步骤S230，通过所述预设识别训练模型对提取的数据帧进行文字检测，得到具有检测框的数据帧的交并比值；

步骤S240，根据所述相似度值和所述交并比值提取满足条件的数据帧，得到各视频图像数据对应的关键帧。

在本实施例中，通过感知哈希算法对提取的数据帧进行相似度计算，感知哈希算法即为pHash算法，这种算法主要是通过离散余弦变换(DCT)降低图片频率，相比aHash有更好鲁棒性。

具体地，在通过pHash算法处理视频时，可先根据预设尺寸对提取的数据帧进行缩小处理，得到缩小后的数据帧；然后，对缩小后的数据帧进行简化色彩处理，并计算简化色彩后的数据帧中的像素灰度平均值；最后，将简化色彩后的数据帧中每个像素点的灰度值与像素灰度平均值进行对比，计算简化色彩后的数据帧中灰度值大于像素灰度平均值的像素点的数量，并根据像素点的数量计算哈希值，以根据哈希值计算各帧数据的相似度。

举例来说，在通过pHash算法处理视频时，其计算过程主要包括以下步骤：

a、缩小尺寸：将图像缩小到8*8的尺寸，总共64个像素；

b、简化色彩：将缩小后的图像，转为64级灰度；

c、计算平均值：计算所有64个像素的灰度平均值；

d、比较像素的灰度：将每个像素的灰度，与平均值进行比较，大于或等于平均值记为1，小于平均值记为0；

e、计算哈希值；

f、计算前后两张图的相似度。

即在本实施例的一种实现方式中，步骤S220具体包括以下步骤：

步骤S221，根据预设尺寸对提取的数据帧进行缩小处理，得到缩小后的数据帧；

步骤S222，对所述缩小后的数据帧进行简化色彩处理，并计算简化色彩后的数据帧中的像素灰度平均值；

步骤S223，将所述简化色彩后的数据帧中每个像素点的灰度值与所述像素灰度平均值进行对比；

步骤S224，计算所述简化色彩后的数据帧中灰度值大于所述像素灰度平均值的像素点的数量，并根据所述像素点的数量计算哈希值；

步骤S225，根据所述哈希值计算各帧数据的相似度。

进一步地，在本实施例中，在通过pHash算法处理视频时，还可以通过IOU算法对跳帧提取的数据帧进行计算，得到该提取的数据帧中前后两帧的交并比值；IOU算法为交并比算法，是目标检测中最常用的指标，但本实施例中用于评价前一帧的各个文字检测框与后一帧的各个文字检测框的距离，以判断两帧图片上的文字是否完全相同，进而判断是否帧相同，最理想的情况是文字检测框完全重叠，即比值为1，这样的前后帧属于完全重复帧，直接去掉。经过训练后YOLOv5s的权重便可以用于线上视频文字检测，用来结合上述两种算法进行关键帧识别。

具体地，在计算各帧数据的交并比值时，通过预设识别训练模型对提取的数据帧进行文字检测，得到各数据帧中文字检测框的数量；然后，对比前后两帧数据中的字检测框的数量，获取文字检测框的数量相等的相邻数据帧，最后，计算相邻数据帧中各数据帧的交并比值。

即在本实施例的一种实现方式中，步骤S230具体包括以下步骤：

步骤S231，通过所述预设识别训练模型对提取的数据帧进行文字检测，得到各数据帧中文字检测框的数量；

步骤S232，获取所述文字检测框的数量相等的相邻数据帧；

步骤S233，计算所述相邻数据帧中各数据帧的交并比值。

进一步地，通过pHash算法计算得到前后两帧的相似度值后，而且，通过YOLOv5s模型检测各数据帧中的文字检测框的数量后，以及通过IOU算法计算得到交并比值后，选择满足条件的数据帧作为该视频的关键帧。

具体选取方式如下：

在通过pHash算法计算得到前后两帧的相似度值后，判断前后两帧的相似度是否大于相似度阈值，若为是，则去掉前后两帧数据；若为否，则保留前后两帧数据，以保留的数据帧作为该视频的关键帧。

在通过YOLOv5s模型进行文字检测后，对比前后两帧数据中文字检测框的数量；若前后两帧数据中都有文字检测框，且文字检测框的数量相等，则判断前后两帧数据的相似度是否大于相似度阈值，若前后两帧数据的相似度小于或等于相似度阈值，则保留相似度值不同的两帧数据，以保留的数据帧作为该视频的关键帧。

若前后两帧数据的相似度大于相似度阈值，则双重遍历后一帧数据与前一帧数据的所有检测框，并分别计算各数据帧的IOU值，获取每轮遍历的IOU值最大的数据帧，判断当前数据帧中IOU个数是否等于后一帧检测的数量，若当前数据帧中IOU个数等于后一帧检测的数量，则去掉IOU个数相同的两帧数据；若当前数据帧中IOU个数不等于后一帧检测的数量，则保留掉IOU个数不相同的两帧数据，以保留的数据帧作为该视频的关键帧。

若前后两帧数据中一帧有文字检测框，另一帧无文字检测框，则保留有文字检测框的数据帧和无文字检测框的数据帧，以保留的数据帧作为该视频的关键帧。

若前后两帧数据中均无文字检测框，则判断前后两帧的相似度是否大于相似度阈值，若为是，则去掉前后两帧数据；若为否，则保留前后两帧数据，以保留的数据帧作为该视频的关键帧。

步骤S300，对各视频图像数据对应的关键帧进行检测，并根据检测结果提取并显示满足检测条件的关键帧。

在本实施例中，得到各视频图像数据对应的关键帧，需要对得到的关键帧进行检测，以判断提取的关键帧是否满足视频数据筛选过滤条件，并根据检测结果提取并显示满足检测条件的关键帧。

具体地，先获取视频数据筛选过滤条件；其中，该视频数据筛选过滤条件可以是出现在视频中的某个文字，某个人物，某个场景，亦或者某个弹幕等；在获取视频数据筛选过滤条件后，对各视频图像数据对应的关键帧进行检测，判断各视频图像数据对应的关键帧是否满足视频数据筛选过滤条件；若满足视频数据筛选过滤条件，则选择满足视频数据筛选过滤条件的关键帧，并将选择的关键帧显示在对应的显示框中。

即在本实施例的一种实现方式中，步骤S300中，具体包括以下步骤：

步骤S310，获取视频数据筛选过滤条件；

步骤S320，对各视频图像数据对应的关键帧进行检测，判断各视频图像数据对应的关键帧是否满足所述视频数据筛选过滤条件；

步骤S330，若为是，则选择满足所述视频数据筛选过滤条件的关键帧，并将选择的关键帧显示在对应的显示框中。

进一步地，在本实施例的一种实现方式中，在实际应用时，提取视频图像数据关键帧方法包括以下步骤：

1、获取线上视频；

2、对获取的视频进行跳帧取帧操作，跳帧间隔根据第一公式计算：

skip＝fps/n；

每过skip帧取一帧，输入跳帧算法进行计算，fps为视频的帧率，n为自定义的参数，n的取值范围一般为2-6；

按此公式提取帧的优点是，不论视频的帧速是多少，每秒提取的帧数是一致的，防止提取速度随视频不同而不同而造成大量冗余提取或漏取帧的结果；

3、每取一帧，既通过pHash算法计算hash值，又输入YOLOv5s模型计算出图片上所有的文字检测框，分别用两个临时变量保存计算得到的hash值和图片上所有文字检测框，将当前帧的hash值与前一帧的hash值通过第二公式计算出相似度：

similarity＝1-(hash_pre-hash_cur)/len(hash_pre.hash)**2；

如果是视频的第一帧没有前一帧的情况，则将当前帧赋值给前一帧进行计算；

4、获得当前帧的文字检测框过后，比较当前帧与前一帧上文字框的个数，若都无检测框，则为普通的pHash计算相似度情形，判断上一步获得的相似度值是否大于第一阈值，若大于，则判断是否为相同帧，若为相同帧，则去掉相同帧；若小于，则认为帧内容出现变化，输出为关键帧；第一阈值的取值范围一般为0.5-0.95；

若当前帧与前一帧中，一帧有文字，另一帧无文字，或者前后两帧的文字框个数不一致等，则说明帧内容变化很大，则直接输出为关键帧；若前后两帧都有文字检测框，且检测框个数相等，则需要判断前后两帧的相似度值是否大于第一阈值，若相似度值小于第一阈值，则输出为关键帧；若相似度值大于第一阈值，则需要继续判断；

5、当前后帧都有检测框，且检测框个数相等，而且相似度值还大于第一阈值，则还需要判断这些框是否坐标位置一样，利用IOU来计算，双重遍历当前帧与前一帧所有的检测框，当前帧每一检测框遍历一遍前一帧的所有检测框后，获取最大IOU值，直到遍历完当前帧所有检测框后，提取这些最大IOU中大于第二阈值的个数；第二阈值的取值范围一般为0.5-0.95；

然后，判断剩下的最大IOU个数是否等于当前帧上所有的检测框个数，若相等，则去掉检测框相同的数据帧，若不相等则输出为关键帧。

6、循环执行前面的算法步骤，直到视频输出结束，即可获得该视频所有的关键帧，并且是按时序输出关键帧，不会出现关键帧乱序的情况，其中，第一公式中的n、第一阈值、第二阈值和进入GPU的batchsize这四个参数根据实际工程中的视频特点需要可以按需求调整，使得线上部署项目非常灵活方便。

7、视频的帧提取和pHash计算在CPU上执行，文字检测和IOU匹配检测框在GPU上执行，由于文字检测算法非常优秀，计算量很小，显存占用率也很小，当输入GPU的batchsize为50时，显存占用约1500-2000Mb，更大batchsize显存增长幅度很小，所以此方法提取关键帧的速度主要依赖于CPU的配置，通常CPU配置情况下单线程处理一个短视频的时间消耗约0.5-3s，海量视频的处理与单个视频处理方法同理，多线程处理会更快。

不同于现有的关键帧提取方法，在本实施例中，未采用文字检测领域中的专业文字检测算法作为文字检测的模型，而是自主设计了一种全新的关键帧提取方案，和常见的关键帧提取方法相比，不仅速度更快精度更高，而且能同时实现精准留下普通内容不重复的图片和文字内容发生变化的图片，因此，既满足了为大数据平台提供关键帧在高速度高精度条件下检测普通内容帧是否内容安全的要求，还同时满足了精准提供含文字的帧去进行文字内容安全过滤的要求，而现有的关键帧提取算法根本无法发现一些特别的安全性的视频问题，当然，由于此方式是按时序提取和输出关键帧的算法，可以用于很多常见领域进行关键帧提取，其实用范围较广。

由此可见，本实施例通过预设识别训练模型分别对多个视频图像数据进行识别，以深度学习模型的方式快速地提取各视频图像数据的关键帧，提高了视频图像数据中关键帧的提取效率；并且，通过对各视频图像数据对应的关键帧进行检测，可根据检测结果提取并显示满足检测条件的关键帧，提高了视频图像数据中关键帧的提取质量。

示例性设备

基于上述实施例，本发明还提供了一种终端，其原理框图可以如图2所示。

该终端包括：通过系统总线连接的处理器、存储器、接口、显示屏；其中，该终端的处理器用于提供计算和控制能力；该终端的存储器包括非易失性存储介质、内存储器；该非易失性存储介质存储有操作系统和计算机程序；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境；该终端的接口用于其他终端设备连接。

该计算机程序被处理器执行时用以实现一种关键帧提取方法。

本领域技术人员可以理解的是，图2中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端，其中，包括：处理器和存储器，存储器存储有关键帧提取程序，关键帧提取程序被处理器执行时用于实现如上的关键帧提取方法。

在一个实施例中，提供了一种存储介质，其中，存储介质存储有关键帧提取程序，关键帧提取程序被处理器执行时用于实现如上的关键帧提取方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。

综上，本发明提供了一种关键帧提取方法、终端及计算机可读存储介质，其中，方法包括：获取预设识别训练模型，并获取预设视频图像数据库中的多个视频图像数据；通过预设识别训练模型分别对多个视频图像数据进行识别，得到各视频图像数据对应的关键帧；对各视频图像数据对应的关键帧进行检测，并根据检测结果提取并显示满足检测条件的关键帧。本发明通过预设识别训练模型分别对多个视频图像数据进行识别，以深度学习模型的方式快速地提取各视频图像数据的关键帧，提高了视频图像数据中关键帧的提取效率；并且，通过对各视频图像数据对应的关键帧进行检测，可根据检测结果提取并显示满足检测条件的关键帧，提高了视频图像数据中关键帧的提取质量。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种关键帧提取方法，其特征在于，所述关键帧提取方法包括以下步骤：

2.根据权利要求1所述的关键帧提取方法，其特征在于，所述获取预设的识别训练模型，之前包括：

3.根据权利要求2所述的关键帧提取方法，其特征在于，所述预设文本识别模型包括：场景文本数据集、数据集标注数据以及实时标注数据集。

4.根据权利要求3所述的关键帧提取方法，其特征在于，所述获取用于检测视频图像文字内容的预设文本识别模型，包括：

5.根据权利要求1所述的关键帧提取方法，其特征在于，所述通过预设识别训练模型分别对所述多个视频图像数据进行识别，包括：

根据跳帧算法提取各视频图像数据中的多帧数据；

6.根据权利要求5所述的关键帧提取方法，其特征在于，所述通过感知哈希算法对提取的数据帧进行相似计算，包括：

根据所述哈希值计算各帧数据的相似度。

7.根据权利要求5所述的关键帧提取方法，其特征在于，所述通过预设识别训练模型对提取的数据帧进行文字检测，包括：

获取所述文字检测框的数量相等的相邻数据帧；

计算所述相邻数据帧中各数据帧的交并比值。

8.根据权利要求1所述的关键帧提取方法，其特征在于，所述对各视频图像数据对应的关键帧进行检测，并根据检测结果提取并显示满足检测条件的关键帧，包括：

获取视频数据筛选过滤条件；

9.一种终端，其特征在于，包括：处理器和存储器，所述存储器存储有关键帧提取程序，所述关键帧提取程序被所述处理器执行时用于实现如权利要求1-8中任意一项所述的关键帧提取方法。

10.一种存储介质，其特征在于，所述存储介质存储有关键帧提取程序，所述关键帧提取程序被处理器执行时用于实现如权利要求1-8中任意一项所述的关键帧提取方法。