CN112507842A

CN112507842A - 一种基于关键帧提取的视频文字识别方法和装置

Info

Publication number: CN112507842A
Application number: CN202011389843.7A
Authority: CN
Inventors: 周昌世
Original assignee: Ningbo Duoniu Big Data Network Technology Co ltd
Current assignee: Ningbo Duoniu Big Data Network Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-16

Abstract

本发明实施例涉及一种基于关键帧提取的视频文字识别方法和装置，该方法包括获取目标视频，对所述目标视频进行关键帧提取，以得到准关键帧；将所述准关键帧进行相似度检测，以得到关键帧；将所述关键帧进行文字定位检测，以得到文字区域；将所述文字区域进行文字识别，以得到文字内容。本发明通过提取准关键帧并进行相似度检测，能够对视频提取到关键帧，减少需要处理帧的数目，从而节省了视频检测的时间，加快了视频审核的速度，并且采用DB文字检测算法对得到的关键帧进行文字定位检测，可以检测任意形状的文字区域，提高了文字区域检测的召回率和准确率。

Description

一种基于关键帧提取的视频文字识别方法和装置

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于关键帧提取的视频文字识别方法和装置。

背景技术

随着移动4G普及、可预期的5G应用、互联网软件的高速发展，以塑造多元场景、满足社交需求的短视频软件如雨后春笋般涌现出来，接着短视频和网络直播进入蓬勃发展阶段。移动网络视频软件悄然进入大众视野，潜移默化的改变着信息的传播方式。网络短视频在移动端飞速增长，也有力地助推了互联网经济。在近年很多重要活动和突发事件中，媒体运用短视频、航拍等手段，策划新媒体作品，增强了报道感染力和传播效果。纵观网络视频行业，呈现出诸多新特点，散发着新鲜的血液。

与此同时短视频网站上的各种违规、低俗和不良内容问题也引发社会关注。

2018年，包括快手、抖音、美拍和秒拍在内的所有短视频行业平台进入整改期，自2018年3月起，已有多家平台被约谈或点名批评。如何对短视频内容进行审核防止敏感不良信息流入到互联网中造成不良的社会反映，成为了一件迫在眉睫需要解决的问题。

传统的视频文字检测方法一般是使用sobel边缘检测算法对每帧视频求到边缘图，然后经过形态学处理，连通域分析(连通域长宽比、连通域对应边缘点数量以及边缘方向分布)来得到文字区域，然后在将得到的文字区域送入到OCR软件中识别出文字的内容。然而这种方法会带来了大量的耗时，因为它需要对每一帧视频图像都要进行检测。一个7min的短视频，大概含有13000帧，对于数以百万计的短视频可想而知，检测速度远远不能满足需求。为了解决这个问题，本文提出了一种基于视频文字识别的算法，它能够对视频提取到关键帧，减少需要处理帧的数目。例如对7min短视频，经过平均帧间算法和感知哈希算法计算只得到320帧视频图像，并且在视频文字区域没有丢失相关帧。然后在采用DB文字检测算法对得到的视频图像进行文字定位检测，该文字检测算法不像传统方法通过连通域分析来得到文字区域，它能够检测任意形状的文字区域，所以提高了文字区域检测的召回率。因此本方法有效缓解了对每一帧视频处理所带来的时间压力，加快了视频文字审核的速度，提高了文字检测的准确率和召回率(查全率)。

发明内容

本发明实施例提供一种基于关键帧提取的视频文字识别方法和装置，以解决现有技术中视频检测速度慢、耗费时间长以及文字召回率低的问题。

为达到上述目的，一方面，本发明提供了一种基于关键帧提取的视频文字识别方法，该方法包括：

获取目标视频，对所述目标视频进行帧提取，以得到多个准关键帧；

对所述多个准关键帧进行相似度检测，以得到关键帧；

对所述关键帧进行文字定位检测，以得到文字区域；

对所述文字区域进行文字识别，以得到文字内容。

可选的，所述获取目标视频，对所述目标视频进行帧提取，以得到多个准关键帧包括：

对所述目标视频进行逐帧提取，以得到帧集合；

将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值；

将所述帧集合划分为多个子帧集合，选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。

可选的，所述将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值后包括：

将所有差分值保存为序列，并将所述序列进行序列数据平滑，得到经序列数据平滑后的差分值序列。

可选的，所述对所述多个准关键帧进行相似度检测，以得到关键帧包括：

计算得到所述多个准关键帧对应的哈希值；

将所述多个准关键帧两两进行组合以得到组合的准关键帧，计算所述组合的准关键帧的哈希值的汉明距离；

比较所述汉明距离与预设汉明距离，若所述汉明距离大于所述预设汉明距离，则保存该汉明距离对应的两个准关键帧；

若所述汉明距离小于所述预设汉明距离，则保存该汉明距离所对应的两个准关键帧中任一所述准关键帧。

可选的，所述计算得到所述多个准关键帧对应的哈希值包括：

将所述多个准关键帧进行图片转换，以得到多个灰度图；

通过DCT(离散余弦变换)降低所述多个灰度图的频率，以得到多个DCT图；

计算所述多个DCT图对应的哈希值。

另一方面，本发明提供了一种基于关键帧提取的视频文字识别装置，该装置包括：

帧提取单元，用于对获取的目标视频进行帧提取，以得到多个准关键帧；

相似度检测单元，用于对所述多个准关键帧进行相似度检测，以得到关键帧；

文字定位检测单元，用于对所述关键帧进行文字定位检测，以得到文字区域；

文字识别单元，用于对所述文字区域进行文字识别，以得到文字内容。

可选的，所述帧提取单元包括：

提取模块，用于对所述目标视频进行逐帧提取，以得到帧集合；

差分运算模块，将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值；

筛选模块，将所述帧集合划分为多个子帧集合，选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。

可选的，所述差分运算模块后包括：

数据平滑模块，将所有差分值保存为序列，并将所述序列进行序列数据平滑，得到经序列数据平滑后的差分值序列。

可选的，所述相似度检测单元包括:

第一计算模块，计算得到所述多个准关键帧对应的哈希值；

第二计算模块，将所述多个准关键帧两两进行组合以得到组合的准关键帧，计算所述组合的准关键帧的哈希值的汉明距离；

判断模块，比较所述汉明距离与预设汉明距离，若所述汉明距离大于所述预设汉明距离，则保存该汉明距离对应的两个准关键帧；

可选的，所述第一计算模块包括：

图片转换模块，将所述多个准关键帧进行图片转换，以得到多个灰度图；

离散余弦变换模块，通过DCT(离散余弦变换)降低所述多个灰度图的频率，以得到多个DCT图；

哈希值计算模块，计算所述多个DCT图对应的哈希值。

上述技术方案具有如下有益效果：本发明通过提取准关键帧并进行相似度检测，能够对视频提取到关键帧，减少需要处理帧的数目，从而节省了视频检测的时间，加快了视频审核的速度，并且采用DB文字检测算法对得到的关键帧进行文字定位检测，可以检测任意形状的文字区域，提高了文字区域检测的召回率和准确率。

附图说明

图1是本发明实施例的一种基于关键帧提取的视频文字识别方法的流程图；

图2是本发明实施例的提取准关键帧的流程图；

图3是本发明实施例的提取关键帧的流程图；

图4是本发明实施例的哈希值计算方法的流程图；

图5是本发明实施例的一种基于关键帧提取的视频文字识别装置的结构示意图；

图6是本发明实施例的文字识别中attention编码的流程图；

图7是本发明实施例的文字识别中attention解码的流程图。

帧提取单元-201，相似度检测单元-202，文字定位检测单元-203，文字识别单元-204，提取模块-2011，差分运算模块-2012，筛选模块-2013，数据平滑模块-2014，第一计算模块-2021，第二计算模块-2022，判断模块-2023，图片转换模块-20211，离散余弦变换模块-20212，哈希值计算模块-20213。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……，但这些……不应限于这些术语。这些术语仅用来将……区分开。例如，在不脱离本发明实施例范围的情况下，第一……也可以被称为第二……，类似地，第二……也可以被称为第一……。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本发明的具体实施例：

图1是本发明实施例的一种基于关键帧提取的视频文字识别方法的流程图，如图1所示，该方法包括：

101获取目标视频，对所述目标视频进行帧提取，以得到多个准关键帧；

102对所述多个准关键帧进行相似度检测，以得到关键帧；

103对所述关键帧进行文字定位检测，以得到文字区域；

104对所述文字区域进行文字识别，以得到文字内容。

现有技术中，视频文字检测方法一般将对每帧视频求到边缘图，然后经过形态学处理，连通域分析(连通域长宽比、连通域对应边缘点数量以及边缘方向分布)来得到文字区域，然后在将得到的文字区域送入到OCR软件中识别出文字的内容。然而这种方法会带来了大量的耗时，因为它需要对每一帧视频图像都要进行检测。

而本申请首先需要对获取到的视频文件采用平均帧间算法来提取视频的准关键帧，使得减少了视频冗余图像的生成，在此基础上，使用感知哈希算法对视频图像进行相似度检测，过滤掉相似度较高的视频图像，以得到关键帧，使得提取的准关键帧在不丢失视频重要信息的情况下更加的精简，大大的减少了图像的存储压力；接着使用DB文字检测算法，对关键帧进行文字定位检测，该文字检测算法不像传统方法通过连通域分析来得到文字区域，它能够检测任意形状的文字区域，所以提高了文字检测的准确率和召回率，最后将检测到的文字区域送入文字识别模块识别出其中的文字内容，得到识别结果。

所述文字定位检测是利用DB文字检测算法，该算法具体为：

将获取的关键帧图片通过特征金字塔结构的backbone，进行了五次卷积每次卷积得到了一张特征图，然后在通过上采样的方式将特征金字塔的每次卷积输出变换为同一尺寸，并级联(cascade)产生特征图F；然后，通过特征图F预测概率图(P)和阈值图(T)；最后，通过概率图P和阈值图T生成近似的二值图(B)；在训练阶段，监督被应用在阈值图、概率图和近似的二值图上，其中后两者共享同一个监督；在推理预测阶段，则可以从后两者轻松获取文字的边界框。

图6是本发明实施例的文字识别中attention编码的流程图，

图7是本发明实施例的文字识别中attention解码的流程图。

所述文字识别是利用Attention文字识别算法，该算法具体为：

Attention的原理就是计算当前输入序列与输出向量的匹配程度，匹配度高也就是注意力集中点其相对的得分越高。其中Attention计算得到的匹配度权重，只限于当前序列对，不是像网络模型权重这样的整体权重。它的算法流程如下：

(1)对于一个句子序列S，其由单词序列[w₁,w₂,w₃,…,w_n]构成，应用某种方法S的每个单词w_i编码为一个单独向量h_i，并且得到最后一个时间状态c，其中c也成为解码的初始状态z₀。

(2)如图6所示，对每个时间步的输出h与z0做score操作，求得每个时间步输出的得分向量a_ti计算公式如下：

a_ti＝score(h_i,z₀)

其中score(x,y)＝x^TWy

(3)对所有的得分向量a_ti,使用softmax做归一化处理，得到b_ti。

(4)求得解码输出c₀，并且将其作为解码的下一个时间步的输入z₁。

c₀＝h₁b_t1+h₂b_t2+h₃b_t3+h₄b_t4

(5)计算各个时间步的输出h_i与z₁的匹配度得到c₁作为decode下一个时间步的输入，如此一步一步重复下去，如图7所示。这样就可以把每个时间步信息传给decode中，以上就是Attention机制的处理过程，可以将文字实现编码解码的操作。

图2是本发明实施例的提取准关键帧的流程图，如图2所示:

可选的，所述获取目标视频，对读取到的所述目标视频进行关键帧提取，以得到准关键帧101包括：

1011对所述目标视频进行逐帧提取，以得到帧集合；

对所述目标视频进行逐帧提取，以得到每一帧的RGB图片，将每一帧的图片从RGB空间转到LUV色彩空间。L*表示物体亮度，u*和v*是色度。u*和v*的取值范围为-100到+100，亮度为0到100。转换公式如下：

(1)RGB to CIE XYZ

(2)CIE XYZ to CIE LUV

u^*＝13L^*(u′-u′_n)

v^*＝13L*(v′-v′_n)

其中，

假设RGB空间是彩色的,有三个通道的颜色，计算差分时，不易计算，需要转到LUV空间，LUV空间和RGB空间关注的重点不一样，只需关注色彩，饱和度和亮度即可。

1012将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值；

获取帧集合中第N帧LUV图片和第N-1帧LUV图片中的L，U，V值；通过所述第N帧和第N-1帧的L，U，V值进行差分运算以得到第N-1个差分值，以此方法将所述帧集合中每相邻两帧进行差分运算以获得多个差分值。

1014将所述帧集合划分为多个子帧集合，选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。

子帧集合优选为30帧一组，当一个视频一直停留在一个画面很长时间，比如：15s，30s，则第一子帧集合和第二子帧集合是相似的。

准关键帧的获取运用平均帧间算法，该算法是将视频中的每两帧图像进行差分，得到图像的平均像素强度，所述平均像素强度可以用来衡量两帧图像的变化大小。因此，基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，便认为该两帧中的后边一帧是关键帧，并将其提取出来。

可选的，所述将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值1012后包括：

1013将所有差分值保存为序列，并将所述序列进行序列数据平滑，得到经序列数据平滑后的差分值序列。

所述序列数据平滑是基于一个标准窗口与输入信号的卷积，通过在两端引入反射的信号副本(具有窗口大小)来准备信号，以使输出信号的开始和结束部分的瞬态部分最小。可以有效地去除噪声，以避免重复提取相似场景的帧，取经序列数据平滑后的差分值序列的局部极大值所对应的帧作为需要提取的视频的准关键帧图像。

图3是本发明实施例的提取关键帧的流程图，如图3所示：

可选的，所述对所述多个准关键帧进行相似度检测，以得到关键帧102包括：

1021计算得到所述多个准关键帧对应的哈希值；

1022将所述多个准关键帧两两进行组合以得到组合的准关键帧，计算所述组合的准关键帧的哈希值的汉明距离；

1023比较所述汉明距离与预设汉明距离，若所述汉明距离大于所述预设汉明距离，则保存该汉明距离对应的两个准关键帧；

图4是本发明实施例的哈希值计算方法的流程图，如图4所示：

10211将所述多个准关键帧进行图片转换，以得到多个灰度图；

10212通过DCT(离散余弦变换)降低所述多个灰度图的频率，以得到多个DCT图；

10213计算所述多个DCT图对应的哈希值。

相似度检测就是使用Hash算法进行图片相似度识别的本质，就是将图片进行Hash转化，生成一组二进制数字，然后通过比较不同图片的Hash值距离找出相似图片。

感知哈希算法具体流程包括以下步骤:

第一步：缩放图片

最快速的去除高频和细节，只保留结构明暗的方法就是缩小尺寸。统一将每张图片尺寸缩放为32*32像素大小，一共得到了1024个像素点。

第二步：转灰度图

简化色彩，将缩放后32*32大小的图片转成单通道灰度图。

第三步：计算DCT

计算32x32数据矩阵的离散余弦变换后对应的32x32数据矩阵，对于一个二维的离散序列A(即一个M行N列的矩阵)，它的DCT计算公式如下：

其中：0≤p≤M-1,

0≤q≤N-1,

B_pq的值被称为矩阵A的DCT系数，在得到所有的DCT系数后，便形成了一个与A同样大小的矩阵B。

第四步：缩小DCT

取经过DCT变换得到32x32数据矩阵左上角8x8子区域，DCT是一种特殊的傅立叶变换，将图片从像素域变换为频率域，并且DCT矩阵从左上角到右下角代表越来越高频率的系数，但是除左上角外，其他地方的系数为0或接近0，因此只保留左上角的低频区域。

第五步：计算DCT均值

通过上一步可得一个8x8的整数矩阵G,计算这个矩阵中所有元素的平均值，假设其值为a。

第六步：哈希值计算

将每个DCT值，从左至右一行一行的遍历矩阵G中每一个像素，将其值与平均值a进行比较。大于或等于平均值，记为1，小于平均值，记为0，由此生成二进制数组，只要保证所有图片都采用同样次序就行了(例如，自左到右、自顶向下、big-endian)。所述二进制组即为哈希值也叫做图像的指纹。结果并不能告诉我们真实性的低频率，只能粗略地告诉我们相对于平均值频率的相对比例。只要图片的整体结构保持不变，hash结果值就不变。能够避免伽马校正或颜色直方图被调整带来的影响。计算两张图片的哈希指纹的汉明距离，当汉明距离小于阈值时认为两张图片为重复图片，去除重复图片得到检测结果。优选的，如果汉明距离不超过5，就说明两张图片很相似；如果大于10，就说明这是两张不同的图片。

图5是本发明实施例的一种基于关键帧提取的视频文字识别装置的结构示意图，如图5所示，该装置包括：

帧提取单元201，用于对获取的目标视频进行帧提取，以得到多个准关键帧；

相似度检测单元202，用于对所述多个准关键帧进行相似度检测，以得到关键帧；

文字定位检测单元203，用于对所述关键帧进行文字定位检测，以得到文字区域；

文字识别单元204，用于对所述文字区域进行文字识别，以得到文字内容。

所述文字定位检测是利用DB文字检测算法，该算法具体为：

所述文字识别是利用Attention文字识别算法，该算法具体为：

a_ti＝score(h_i,z₀)

其中score(x,y)＝x^TWy

(3)对所有的得分向量a_ti,使用softmax做归一化处理，得到b_ti。

c₀＝h₁b_t1+h₂b_t2+h₃b_t3+h₄b_t4

可选的，所述帧提取单元201包括：

提取模块2011，用于对所述目标视频进行逐帧提取，以得到帧集合；

(1)RGB to CIE XYZ

(2)CIE XYZ to CIE LUV

u^*＝13L^*(u′-u′_n)

v^*＝13L^*(v′-v′_n)

其中，

假设RGB空间是彩色的,有三个通道的颜色，计算差分时，不易计算，需要转到LUV空间，LUV空间和RGB空间关注的重点不一样，只需关注色彩，饱和度和亮度即可

差分运算模块2012，将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值；

筛选模块2013，将所述帧集合划分为多个子帧集合，选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。

可选的，所述差分运算模块后包括：

数据平滑模块2014，将所有差分值保存为序列，并将所述序列进行序列数据平滑，得到经序列数据平滑后的差分值序列。

所述序列数据平滑是基于一个标准窗口与输入信号的卷积，通过在两端引入反射的信号副本(具有窗口大小)来准备信号，以使输出信号的开始和结束部分的瞬态部分最小。可以有效地去除噪声，以避免重复提取相似场景的帧，取经序列数据平滑后的差分值的局部极大值所对应的帧数作为需要提取的视频的准关键帧图像。

可选的，所述相似度检测单元202包括:

第一计算模块2021，计算得到所述多个准关键帧对应的哈希值；

第二计算模块2022，将所述多个准关键帧两两进行组合以得到组合的准关键帧，计算所述组合的准关键帧的哈希值的汉明距离；

判断模块2023，比较所述汉明距离与预设汉明距离，若所述汉明距离大于所述预设汉明距离，则保存该汉明距离对应的两个准关键帧；

可选的，所述第一计算模块2021包括：

图片转换模块20211，将所述多个准关键帧进行图片转换，以得到多个灰度图；

离散余弦变换模块20212，通过DCT(离散余弦变换)降低所述多个灰度图的频率，以得到多个DCT图；

哈希值计算模块20213，计算所述多个DCT图对应的哈希值。

感知哈希算法具体流程包括以下步骤:

第一步：缩放图片

第二步：转灰度图

简化色彩，将缩放后32*32大小的图片转成单通道灰度图。

第三步：计算DCT

其中：0≤p≤M-1,

0≤q≤N-1,

第四步：缩小DCT

第五步：计算DCT均值

第六步：哈希值计算

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键帧提取的视频文字识别方法，其特征在于，包括：

对所述多个准关键帧进行相似度检测，以得到关键帧；

对所述关键帧进行文字定位检测，以得到文字区域；

对所述文字区域进行文字识别，以得到文字内容。

2.根据权利要求1所述的方法，其特征在于，所述获取目标视频，对所述目标视频进行帧提取，以得到多个准关键帧包括：

对所述目标视频进行逐帧提取，以得到帧集合；

3.根据权利要求2所述的方法，其特征在于，所述将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值后包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述多个准关键帧进行相似度检测，以得到关键帧包括：

计算得到所述多个准关键帧对应的哈希值；

5.根据权利要求4所述的方法，其特征在于，所述计算得到所述多个准关键帧对应的哈希值包括：

将所述多个准关键帧进行图片转换，以得到多个灰度图；

计算所述多个DCT图对应的哈希值。

6.一种基于关键帧提取的视频文字识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述帧提取单元包括：

8.根据权利要求7所述的装置，其特征在于，所述差分运算模块后包括：

9.根据权利要求6所述的装置，其特征在于，所述相似度检测单元包括:

第一计算模块，计算得到所述多个准关键帧对应的哈希值；

10.根据权利要求9所述的装置，其特征在于，所述第一计算模块包括：

哈希值计算模块，计算所述多个DCT图对应的哈希值。