CN112507842A - 一种基于关键帧提取的视频文字识别方法和装置 - Google Patents

一种基于关键帧提取的视频文字识别方法和装置 Download PDF

Info

Publication number
CN112507842A
CN112507842A CN202011389843.7A CN202011389843A CN112507842A CN 112507842 A CN112507842 A CN 112507842A CN 202011389843 A CN202011389843 A CN 202011389843A CN 112507842 A CN112507842 A CN 112507842A
Authority
CN
China
Prior art keywords
quasi
frame
key frames
hamming distance
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011389843.7A
Other languages
English (en)
Inventor
周昌世
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Duoniu Big Data Network Technology Co ltd
Original Assignee
Ningbo Duoniu Big Data Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Duoniu Big Data Network Technology Co ltd filed Critical Ningbo Duoniu Big Data Network Technology Co ltd
Priority to CN202011389843.7A priority Critical patent/CN112507842A/zh
Publication of CN112507842A publication Critical patent/CN112507842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Discrete Mathematics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及一种基于关键帧提取的视频文字识别方法和装置,该方法包括获取目标视频,对所述目标视频进行关键帧提取,以得到准关键帧;将所述准关键帧进行相似度检测,以得到关键帧;将所述关键帧进行文字定位检测,以得到文字区域;将所述文字区域进行文字识别,以得到文字内容。本发明通过提取准关键帧并进行相似度检测,能够对视频提取到关键帧,减少需要处理帧的数目,从而节省了视频检测的时间,加快了视频审核的速度,并且采用DB文字检测算法对得到的关键帧进行文字定位检测,可以检测任意形状的文字区域,提高了文字区域检测的召回率和准确率。

Description

一种基于关键帧提取的视频文字识别方法和装置
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于关键帧提取的视频文字识别方法和装置。
背景技术
随着移动4G普及、可预期的5G应用、互联网软件的高速发展,以塑造多元场景、满足社交需求的短视频软件如雨后春笋般涌现出来,接着短视频和网络直播进入蓬勃发展阶段。移动网络视频软件悄然进入大众视野,潜移默化的改变着信息的传播方式。网络短视频在移动端飞速增长,也有力地助推了互联网经济。在近年很多重要活动和突发事件中,媒体运用短视频、航拍等手段,策划新媒体作品,增强了报道感染力和传播效果。纵观网络视频行业,呈现出诸多新特点,散发着新鲜的血液。
与此同时短视频网站上的各种违规、低俗和不良内容问题也引发社会关注。
2018年,包括快手、抖音、美拍和秒拍在内的所有短视频行业平台进入整改期,自2018年3月起,已有多家平台被约谈或点名批评。如何对短视频内容进行审核防止敏感不良信息流入到互联网中造成不良的社会反映,成为了一件迫在眉睫需要解决的问题。
传统的视频文字检测方法一般是使用sobel边缘检测算法对每帧视频求到边缘图,然后经过形态学处理,连通域分析(连通域长宽比、连通域对应边缘点数量以及边缘方向分布)来得到文字区域,然后在将得到的文字区域送入到OCR软件中识别出文字的内容。然而这种方法会带来了大量的耗时,因为它需要对每一帧视频图像都要进行检测。一个7min的短视频,大概含有13000帧,对于数以百万计的短视频可想而知,检测速度远远不能满足需求。为了解决这个问题,本文提出了一种基于视频文字识别的算法,它能够对视频提取到关键帧,减少需要处理帧的数目。例如对7min短视频,经过平均帧间算法和感知哈希算法计算只得到320帧视频图像,并且在视频文字区域没有丢失相关帧。然后在采用DB文字检测算法对得到的视频图像进行文字定位检测,该文字检测算法不像传统方法通过连通域分析来得到文字区域,它能够检测任意形状的文字区域,所以提高了文字区域检测的召回率。因此本方法有效缓解了对每一帧视频处理所带来的时间压力,加快了视频文字审核的速度,提高了文字检测的准确率和召回率(查全率)。
发明内容
本发明实施例提供一种基于关键帧提取的视频文字识别方法和装置,以解决现有技术中视频检测速度慢、耗费时间长以及文字召回率低的问题。
为达到上述目的,一方面,本发明提供了一种基于关键帧提取的视频文字识别方法,该方法包括:
获取目标视频,对所述目标视频进行帧提取,以得到多个准关键帧;
对所述多个准关键帧进行相似度检测,以得到关键帧;
对所述关键帧进行文字定位检测,以得到文字区域;
对所述文字区域进行文字识别,以得到文字内容。
可选的,所述获取目标视频,对所述目标视频进行帧提取,以得到多个准关键帧包括:
对所述目标视频进行逐帧提取,以得到帧集合;
将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值;
将所述帧集合划分为多个子帧集合,选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。
可选的,所述将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值后包括:
将所有差分值保存为序列,并将所述序列进行序列数据平滑,得到经序列数据平滑后的差分值序列。
可选的,所述对所述多个准关键帧进行相似度检测,以得到关键帧包括:
计算得到所述多个准关键帧对应的哈希值;
将所述多个准关键帧两两进行组合以得到组合的准关键帧,计算所述组合的准关键帧的哈希值的汉明距离;
比较所述汉明距离与预设汉明距离,若所述汉明距离大于所述预设汉明距离,则保存该汉明距离对应的两个准关键帧;
若所述汉明距离小于所述预设汉明距离,则保存该汉明距离所对应的两个准关键帧中任一所述准关键帧。
可选的,所述计算得到所述多个准关键帧对应的哈希值包括:
将所述多个准关键帧进行图片转换,以得到多个灰度图;
通过DCT(离散余弦变换)降低所述多个灰度图的频率,以得到多个DCT图;
计算所述多个DCT图对应的哈希值。
另一方面,本发明提供了一种基于关键帧提取的视频文字识别装置,该装置包括:
帧提取单元,用于对获取的目标视频进行帧提取,以得到多个准关键帧;
相似度检测单元,用于对所述多个准关键帧进行相似度检测,以得到关键帧;
文字定位检测单元,用于对所述关键帧进行文字定位检测,以得到文字区域;
文字识别单元,用于对所述文字区域进行文字识别,以得到文字内容。
可选的,所述帧提取单元包括:
提取模块,用于对所述目标视频进行逐帧提取,以得到帧集合;
差分运算模块,将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值;
筛选模块,将所述帧集合划分为多个子帧集合,选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。
可选的,所述差分运算模块后包括:
数据平滑模块,将所有差分值保存为序列,并将所述序列进行序列数据平滑,得到经序列数据平滑后的差分值序列。
可选的,所述相似度检测单元包括:
第一计算模块,计算得到所述多个准关键帧对应的哈希值;
第二计算模块,将所述多个准关键帧两两进行组合以得到组合的准关键帧,计算所述组合的准关键帧的哈希值的汉明距离;
判断模块,比较所述汉明距离与预设汉明距离,若所述汉明距离大于所述预设汉明距离,则保存该汉明距离对应的两个准关键帧;
若所述汉明距离小于所述预设汉明距离,则保存该汉明距离所对应的两个准关键帧中任一所述准关键帧。
可选的,所述第一计算模块包括:
图片转换模块,将所述多个准关键帧进行图片转换,以得到多个灰度图;
离散余弦变换模块,通过DCT(离散余弦变换)降低所述多个灰度图的频率,以得到多个DCT图;
哈希值计算模块,计算所述多个DCT图对应的哈希值。
上述技术方案具有如下有益效果:本发明通过提取准关键帧并进行相似度检测,能够对视频提取到关键帧,减少需要处理帧的数目,从而节省了视频检测的时间,加快了视频审核的速度,并且采用DB文字检测算法对得到的关键帧进行文字定位检测,可以检测任意形状的文字区域,提高了文字区域检测的召回率和准确率。
附图说明
图1是本发明实施例的一种基于关键帧提取的视频文字识别方法的流程图;
图2是本发明实施例的提取准关键帧的流程图;
图3是本发明实施例的提取关键帧的流程图;
图4是本发明实施例的哈希值计算方法的流程图;
图5是本发明实施例的一种基于关键帧提取的视频文字识别装置的结构示意图;
图6是本发明实施例的文字识别中attention编码的流程图;
图7是本发明实施例的文字识别中attention解码的流程图。
帧提取单元-201,相似度检测单元-202,文字定位检测单元-203,文字识别单元-204,提取模块-2011,差分运算模块-2012,筛选模块-2013,数据平滑模块-2014,第一计算模块-2021,第二计算模块-2022,判断模块-2023,图片转换模块-20211,离散余弦变换模块-20212,哈希值计算模块-20213。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的具体实施例:
图1是本发明实施例的一种基于关键帧提取的视频文字识别方法的流程图,如图1所示,该方法包括:
101获取目标视频,对所述目标视频进行帧提取,以得到多个准关键帧;
102对所述多个准关键帧进行相似度检测,以得到关键帧;
103对所述关键帧进行文字定位检测,以得到文字区域;
104对所述文字区域进行文字识别,以得到文字内容。
现有技术中,视频文字检测方法一般将对每帧视频求到边缘图,然后经过形态学处理,连通域分析(连通域长宽比、连通域对应边缘点数量以及边缘方向分布)来得到文字区域,然后在将得到的文字区域送入到OCR软件中识别出文字的内容。然而这种方法会带来了大量的耗时,因为它需要对每一帧视频图像都要进行检测。
而本申请首先需要对获取到的视频文件采用平均帧间算法来提取视频的准关键帧,使得减少了视频冗余图像的生成,在此基础上,使用感知哈希算法对视频图像进行相似度检测,过滤掉相似度较高的视频图像,以得到关键帧,使得提取的准关键帧在不丢失视频重要信息的情况下更加的精简,大大的减少了图像的存储压力;接着使用DB文字检测算法,对关键帧进行文字定位检测,该文字检测算法不像传统方法通过连通域分析来得到文字区域,它能够检测任意形状的文字区域,所以提高了文字检测的准确率和召回率,最后将检测到的文字区域送入文字识别模块识别出其中的文字内容,得到识别结果。
所述文字定位检测是利用DB文字检测算法,该算法具体为:
将获取的关键帧图片通过特征金字塔结构的backbone,进行了五次卷积每次卷积得到了一张特征图,然后在通过上采样的方式将特征金字塔的每次卷积输出变换为同一尺寸,并级联(cascade)产生特征图F;然后,通过特征图F预测概率图(P)和阈值图(T);最后,通过概率图P和阈值图T生成近似的二值图(B);在训练阶段,监督被应用在阈值图、概率图和近似的二值图上,其中后两者共享同一个监督;在推理预测阶段,则可以从后两者轻松获取文字的边界框。
图6是本发明实施例的文字识别中attention编码的流程图,
图7是本发明实施例的文字识别中attention解码的流程图。
所述文字识别是利用Attention文字识别算法,该算法具体为:
Attention的原理就是计算当前输入序列与输出向量的匹配程度,匹配度高也就是注意力集中点其相对的得分越高。其中Attention计算得到的匹配度权重,只限于当前序列对,不是像网络模型权重这样的整体权重。它的算法流程如下:
(1)对于一个句子序列S,其由单词序列[w1,w2,w3,…,wn]构成,应用某种方法S的每个单词wi编码为一个单独向量hi,并且得到最后一个时间状态c,其中c也成为解码的初始状态z0
(2)如图6所示,对每个时间步的输出h与z0做score操作,求得每个时间步输出的得分向量ati计算公式如下:
ati=score(hi,z0)
其中score(x,y)=xTWy
(3)对所有的得分向量ati,使用softmax做归一化处理,得到bti
Figure BDA0002810891140000061
(4)求得解码输出c0,并且将其作为解码的下一个时间步的输入z1
c0=h1bt1+h2bt2+h3bt3+h4bt4
(5)计算各个时间步的输出hi与z1的匹配度得到c1作为decode下一个时间步的输入,如此一步一步重复下去,如图7所示。这样就可以把每个时间步信息传给decode中,以上就是Attention机制的处理过程,可以将文字实现编码解码的操作。
图2是本发明实施例的提取准关键帧的流程图,如图2所示:
可选的,所述获取目标视频,对读取到的所述目标视频进行关键帧提取,以得到准关键帧101包括:
1011对所述目标视频进行逐帧提取,以得到帧集合;
对所述目标视频进行逐帧提取,以得到每一帧的RGB图片,将每一帧的图片从RGB空间转到LUV色彩空间。L*表示物体亮度,u*和v*是色度。u*和v*的取值范围为-100到+100,亮度为0到100。转换公式如下:
(1)RGB to CIE XYZ
Figure BDA0002810891140000071
(2)CIE XYZ to CIE LUV
Figure BDA0002810891140000072
u*=13L*(u′-u′n)
v*=13L*(v′-v′n)
其中,
Figure BDA0002810891140000073
Figure BDA0002810891140000074
假设RGB空间是彩色的,有三个通道的颜色,计算差分时,不易计算,需要转到LUV空间,LUV空间和RGB空间关注的重点不一样,只需关注色彩,饱和度和亮度即可。
1012将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值;
获取帧集合中第N帧LUV图片和第N-1帧LUV图片中的L,U,V值;通过所述第N帧和第N-1帧的L,U,V值进行差分运算以得到第N-1个差分值,以此方法将所述帧集合中每相邻两帧进行差分运算以获得多个差分值。
1014将所述帧集合划分为多个子帧集合,选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。
子帧集合优选为30帧一组,当一个视频一直停留在一个画面很长时间,比如:15s,30s,则第一子帧集合和第二子帧集合是相似的。
准关键帧的获取运用平均帧间算法,该算法是将视频中的每两帧图像进行差分,得到图像的平均像素强度,所述平均像素强度可以用来衡量两帧图像的变化大小。因此,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,便认为该两帧中的后边一帧是关键帧,并将其提取出来。
可选的,所述将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值1012后包括:
1013将所有差分值保存为序列,并将所述序列进行序列数据平滑,得到经序列数据平滑后的差分值序列。
所述序列数据平滑是基于一个标准窗口与输入信号的卷积,通过在两端引入反射的信号副本(具有窗口大小)来准备信号,以使输出信号的开始和结束部分的瞬态部分最小。可以有效地去除噪声,以避免重复提取相似场景的帧,取经序列数据平滑后的差分值序列的局部极大值所对应的帧作为需要提取的视频的准关键帧图像。
图3是本发明实施例的提取关键帧的流程图,如图3所示:
可选的,所述对所述多个准关键帧进行相似度检测,以得到关键帧102包括:
1021计算得到所述多个准关键帧对应的哈希值;
1022将所述多个准关键帧两两进行组合以得到组合的准关键帧,计算所述组合的准关键帧的哈希值的汉明距离;
1023比较所述汉明距离与预设汉明距离,若所述汉明距离大于所述预设汉明距离,则保存该汉明距离对应的两个准关键帧;
若所述汉明距离小于所述预设汉明距离,则保存该汉明距离所对应的两个准关键帧中任一所述准关键帧。
图4是本发明实施例的哈希值计算方法的流程图,如图4所示:
可选的,所述计算得到所述多个准关键帧对应的哈希值包括:
10211将所述多个准关键帧进行图片转换,以得到多个灰度图;
10212通过DCT(离散余弦变换)降低所述多个灰度图的频率,以得到多个DCT图;
10213计算所述多个DCT图对应的哈希值。
相似度检测就是使用Hash算法进行图片相似度识别的本质,就是将图片进行Hash转化,生成一组二进制数字,然后通过比较不同图片的Hash值距离找出相似图片。
感知哈希算法具体流程包括以下步骤:
第一步:缩放图片
最快速的去除高频和细节,只保留结构明暗的方法就是缩小尺寸。统一将每张图片尺寸缩放为32*32像素大小,一共得到了1024个像素点。
第二步:转灰度图
简化色彩,将缩放后32*32大小的图片转成单通道灰度图。
第三步:计算DCT
计算32x32数据矩阵的离散余弦变换后对应的32x32数据矩阵,对于一个二维的离散序列A(即一个M行N列的矩阵),它的DCT计算公式如下:
Figure BDA0002810891140000091
其中:0≤p≤M-1,
0≤q≤N-1,
Figure BDA0002810891140000092
Figure BDA0002810891140000093
Bpq的值被称为矩阵A的DCT系数,在得到所有的DCT系数后,便形成了一个与A同样大小的矩阵B。
第四步:缩小DCT
取经过DCT变换得到32x32数据矩阵左上角8x8子区域,DCT是一种特殊的傅立叶变换,将图片从像素域变换为频率域,并且DCT矩阵从左上角到右下角代表越来越高频率的系数,但是除左上角外,其他地方的系数为0或接近0,因此只保留左上角的低频区域。
第五步:计算DCT均值
通过上一步可得一个8x8的整数矩阵G,计算这个矩阵中所有元素的平均值,假设其值为a。
第六步:哈希值计算
将每个DCT值,从左至右一行一行的遍历矩阵G中每一个像素,将其值与平均值a进行比较。大于或等于平均值,记为1,小于平均值,记为0,由此生成二进制数组,只要保证所有图片都采用同样次序就行了(例如,自左到右、自顶向下、big-endian)。所述二进制组即为哈希值也叫做图像的指纹。结果并不能告诉我们真实性的低频率,只能粗略地告诉我们相对于平均值频率的相对比例。只要图片的整体结构保持不变,hash结果值就不变。能够避免伽马校正或颜色直方图被调整带来的影响。计算两张图片的哈希指纹的汉明距离,当汉明距离小于阈值时认为两张图片为重复图片,去除重复图片得到检测结果。优选的,如果汉明距离不超过5,就说明两张图片很相似;如果大于10,就说明这是两张不同的图片。
图5是本发明实施例的一种基于关键帧提取的视频文字识别装置的结构示意图,如图5所示,该装置包括:
帧提取单元201,用于对获取的目标视频进行帧提取,以得到多个准关键帧;
相似度检测单元202,用于对所述多个准关键帧进行相似度检测,以得到关键帧;
文字定位检测单元203,用于对所述关键帧进行文字定位检测,以得到文字区域;
文字识别单元204,用于对所述文字区域进行文字识别,以得到文字内容。
现有技术中,视频文字检测方法一般将对每帧视频求到边缘图,然后经过形态学处理,连通域分析(连通域长宽比、连通域对应边缘点数量以及边缘方向分布)来得到文字区域,然后在将得到的文字区域送入到OCR软件中识别出文字的内容。然而这种方法会带来了大量的耗时,因为它需要对每一帧视频图像都要进行检测。
而本申请首先需要对获取到的视频文件采用平均帧间算法来提取视频的准关键帧,使得减少了视频冗余图像的生成,在此基础上,使用感知哈希算法对视频图像进行相似度检测,过滤掉相似度较高的视频图像,以得到关键帧,使得提取的准关键帧在不丢失视频重要信息的情况下更加的精简,大大的减少了图像的存储压力;接着使用DB文字检测算法,对关键帧进行文字定位检测,该文字检测算法不像传统方法通过连通域分析来得到文字区域,它能够检测任意形状的文字区域,所以提高了文字检测的准确率和召回率,最后将检测到的文字区域送入文字识别模块识别出其中的文字内容,得到识别结果。
所述文字定位检测是利用DB文字检测算法,该算法具体为:
将获取的关键帧图片通过特征金字塔结构的backbone,进行了五次卷积每次卷积得到了一张特征图,然后在通过上采样的方式将特征金字塔的每次卷积输出变换为同一尺寸,并级联(cascade)产生特征图F;然后,通过特征图F预测概率图(P)和阈值图(T);最后,通过概率图P和阈值图T生成近似的二值图(B);在训练阶段,监督被应用在阈值图、概率图和近似的二值图上,其中后两者共享同一个监督;在推理预测阶段,则可以从后两者轻松获取文字的边界框。
所述文字识别是利用Attention文字识别算法,该算法具体为:
Attention的原理就是计算当前输入序列与输出向量的匹配程度,匹配度高也就是注意力集中点其相对的得分越高。其中Attention计算得到的匹配度权重,只限于当前序列对,不是像网络模型权重这样的整体权重。它的算法流程如下:
(1)对于一个句子序列S,其由单词序列[w1,w2,w3,…,wn]构成,应用某种方法S的每个单词wi编码为一个单独向量hi,并且得到最后一个时间状态c,其中c也成为解码的初始状态z0
(2)如图6所示,对每个时间步的输出h与z0做score操作,求得每个时间步输出的得分向量ati计算公式如下:
ati=score(hi,z0)
其中score(x,y)=xTWy
(3)对所有的得分向量ati,使用softmax做归一化处理,得到bti
Figure BDA0002810891140000111
(4)求得解码输出c0,并且将其作为解码的下一个时间步的输入z1
c0=h1bt1+h2bt2+h3bt3+h4bt4
(5)计算各个时间步的输出hi与z1的匹配度得到c1作为decode下一个时间步的输入,如此一步一步重复下去,如图7所示。这样就可以把每个时间步信息传给decode中,以上就是Attention机制的处理过程,可以将文字实现编码解码的操作。
可选的,所述帧提取单元201包括:
提取模块2011,用于对所述目标视频进行逐帧提取,以得到帧集合;
对所述目标视频进行逐帧提取,以得到每一帧的RGB图片,将每一帧的图片从RGB空间转到LUV色彩空间。L*表示物体亮度,u*和v*是色度。u*和v*的取值范围为-100到+100,亮度为0到100。转换公式如下:
(1)RGB to CIE XYZ
Figure BDA0002810891140000112
(2)CIE XYZ to CIE LUV
Figure BDA0002810891140000113
u*=13L*(u′-u′n)
v*=13L*(v′-v′n)
其中,
Figure BDA0002810891140000121
Figure BDA0002810891140000122
假设RGB空间是彩色的,有三个通道的颜色,计算差分时,不易计算,需要转到LUV空间,LUV空间和RGB空间关注的重点不一样,只需关注色彩,饱和度和亮度即可
差分运算模块2012,将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值;
获取帧集合中第N帧LUV图片和第N-1帧LUV图片中的L,U,V值;通过所述第N帧和第N-1帧的L,U,V值进行差分运算以得到第N-1个差分值,以此方法将所述帧集合中每相邻两帧进行差分运算以获得多个差分值。
筛选模块2013,将所述帧集合划分为多个子帧集合,选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。
子帧集合优选为30帧一组,当一个视频一直停留在一个画面很长时间,比如:15s,30s,则第一子帧集合和第二子帧集合是相似的。
准关键帧的获取运用平均帧间算法,该算法是将视频中的每两帧图像进行差分,得到图像的平均像素强度,所述平均像素强度可以用来衡量两帧图像的变化大小。因此,基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,便认为该两帧中的后边一帧是关键帧,并将其提取出来。
可选的,所述差分运算模块后包括:
数据平滑模块2014,将所有差分值保存为序列,并将所述序列进行序列数据平滑,得到经序列数据平滑后的差分值序列。
所述序列数据平滑是基于一个标准窗口与输入信号的卷积,通过在两端引入反射的信号副本(具有窗口大小)来准备信号,以使输出信号的开始和结束部分的瞬态部分最小。可以有效地去除噪声,以避免重复提取相似场景的帧,取经序列数据平滑后的差分值的局部极大值所对应的帧数作为需要提取的视频的准关键帧图像。
可选的,所述相似度检测单元202包括:
第一计算模块2021,计算得到所述多个准关键帧对应的哈希值;
第二计算模块2022,将所述多个准关键帧两两进行组合以得到组合的准关键帧,计算所述组合的准关键帧的哈希值的汉明距离;
判断模块2023,比较所述汉明距离与预设汉明距离,若所述汉明距离大于所述预设汉明距离,则保存该汉明距离对应的两个准关键帧;
若所述汉明距离小于所述预设汉明距离,则保存该汉明距离所对应的两个准关键帧中任一所述准关键帧。
可选的,所述第一计算模块2021包括:
图片转换模块20211,将所述多个准关键帧进行图片转换,以得到多个灰度图;
离散余弦变换模块20212,通过DCT(离散余弦变换)降低所述多个灰度图的频率,以得到多个DCT图;
哈希值计算模块20213,计算所述多个DCT图对应的哈希值。
相似度检测就是使用Hash算法进行图片相似度识别的本质,就是将图片进行Hash转化,生成一组二进制数字,然后通过比较不同图片的Hash值距离找出相似图片。
感知哈希算法具体流程包括以下步骤:
第一步:缩放图片
最快速的去除高频和细节,只保留结构明暗的方法就是缩小尺寸。统一将每张图片尺寸缩放为32*32像素大小,一共得到了1024个像素点。
第二步:转灰度图
简化色彩,将缩放后32*32大小的图片转成单通道灰度图。
第三步:计算DCT
计算32x32数据矩阵的离散余弦变换后对应的32x32数据矩阵,对于一个二维的离散序列A(即一个M行N列的矩阵),它的DCT计算公式如下:
Figure BDA0002810891140000131
其中:0≤p≤M-1,
0≤q≤N-1,
Figure BDA0002810891140000132
Figure BDA0002810891140000133
Bpq的值被称为矩阵A的DCT系数,在得到所有的DCT系数后,便形成了一个与A同样大小的矩阵B。
第四步:缩小DCT
取经过DCT变换得到32x32数据矩阵左上角8x8子区域,DCT是一种特殊的傅立叶变换,将图片从像素域变换为频率域,并且DCT矩阵从左上角到右下角代表越来越高频率的系数,但是除左上角外,其他地方的系数为0或接近0,因此只保留左上角的低频区域。
第五步:计算DCT均值
通过上一步可得一个8x8的整数矩阵G,计算这个矩阵中所有元素的平均值,假设其值为a。
第六步:哈希值计算
将每个DCT值,从左至右一行一行的遍历矩阵G中每一个像素,将其值与平均值a进行比较。大于或等于平均值,记为1,小于平均值,记为0,由此生成二进制数组,只要保证所有图片都采用同样次序就行了(例如,自左到右、自顶向下、big-endian)。所述二进制组即为哈希值也叫做图像的指纹。结果并不能告诉我们真实性的低频率,只能粗略地告诉我们相对于平均值频率的相对比例。只要图片的整体结构保持不变,hash结果值就不变。能够避免伽马校正或颜色直方图被调整带来的影响。计算两张图片的哈希指纹的汉明距离,当汉明距离小于阈值时认为两张图片为重复图片,去除重复图片得到检测结果。优选的,如果汉明距离不超过5,就说明两张图片很相似;如果大于10,就说明这是两张不同的图片。
上述技术方案具有如下有益效果:本发明通过提取准关键帧并进行相似度检测,能够对视频提取到关键帧,减少需要处理帧的数目,从而节省了视频检测的时间,加快了视频审核的速度,并且采用DB文字检测算法对得到的关键帧进行文字定位检测,可以检测任意形状的文字区域,提高了文字区域检测的召回率和准确率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于关键帧提取的视频文字识别方法,其特征在于,包括:
获取目标视频,对所述目标视频进行帧提取,以得到多个准关键帧;
对所述多个准关键帧进行相似度检测,以得到关键帧;
对所述关键帧进行文字定位检测,以得到文字区域;
对所述文字区域进行文字识别,以得到文字内容。
2.根据权利要求1所述的方法,其特征在于,所述获取目标视频,对所述目标视频进行帧提取,以得到多个准关键帧包括:
对所述目标视频进行逐帧提取,以得到帧集合;
将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值;
将所述帧集合划分为多个子帧集合,选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。
3.根据权利要求2所述的方法,其特征在于,所述将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值后包括:
将所有差分值保存为序列,并将所述序列进行序列数据平滑,得到经序列数据平滑后的差分值序列。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个准关键帧进行相似度检测,以得到关键帧包括:
计算得到所述多个准关键帧对应的哈希值;
将所述多个准关键帧两两进行组合以得到组合的准关键帧,计算所述组合的准关键帧的哈希值的汉明距离;
比较所述汉明距离与预设汉明距离,若所述汉明距离大于所述预设汉明距离,则保存该汉明距离对应的两个准关键帧;
若所述汉明距离小于所述预设汉明距离,则保存该汉明距离所对应的两个准关键帧中任一所述准关键帧。
5.根据权利要求4所述的方法,其特征在于,所述计算得到所述多个准关键帧对应的哈希值包括:
将所述多个准关键帧进行图片转换,以得到多个灰度图;
通过DCT(离散余弦变换)降低所述多个灰度图的频率,以得到多个DCT图;
计算所述多个DCT图对应的哈希值。
6.一种基于关键帧提取的视频文字识别装置,其特征在于,包括:
帧提取单元,用于对获取的目标视频进行帧提取,以得到多个准关键帧;
相似度检测单元,用于对所述多个准关键帧进行相似度检测,以得到关键帧;
文字定位检测单元,用于对所述关键帧进行文字定位检测,以得到文字区域;
文字识别单元,用于对所述文字区域进行文字识别,以得到文字内容。
7.根据权利要求6所述的装置,其特征在于,所述帧提取单元包括:
提取模块,用于对所述目标视频进行逐帧提取,以得到帧集合;
差分运算模块,将所述帧集合中每相邻两帧进行差分运算以获得每相邻两帧的差分值;
筛选模块,将所述帧集合划分为多个子帧集合,选取所述子帧集合中最大差分值对应的两帧中后边的一帧作为所述子帧集合的准关键帧。
8.根据权利要求7所述的装置,其特征在于,所述差分运算模块后包括:
数据平滑模块,将所有差分值保存为序列,并将所述序列进行序列数据平滑,得到经序列数据平滑后的差分值序列。
9.根据权利要求6所述的装置,其特征在于,所述相似度检测单元包括:
第一计算模块,计算得到所述多个准关键帧对应的哈希值;
第二计算模块,将所述多个准关键帧两两进行组合以得到组合的准关键帧,计算所述组合的准关键帧的哈希值的汉明距离;
判断模块,比较所述汉明距离与预设汉明距离,若所述汉明距离大于所述预设汉明距离,则保存该汉明距离对应的两个准关键帧;
若所述汉明距离小于所述预设汉明距离,则保存该汉明距离所对应的两个准关键帧中任一所述准关键帧。
10.根据权利要求9所述的装置,其特征在于,所述第一计算模块包括:
图片转换模块,将所述多个准关键帧进行图片转换,以得到多个灰度图;
离散余弦变换模块,通过DCT(离散余弦变换)降低所述多个灰度图的频率,以得到多个DCT图;
哈希值计算模块,计算所述多个DCT图对应的哈希值。
CN202011389843.7A 2020-12-01 2020-12-01 一种基于关键帧提取的视频文字识别方法和装置 Pending CN112507842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011389843.7A CN112507842A (zh) 2020-12-01 2020-12-01 一种基于关键帧提取的视频文字识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011389843.7A CN112507842A (zh) 2020-12-01 2020-12-01 一种基于关键帧提取的视频文字识别方法和装置

Publications (1)

Publication Number Publication Date
CN112507842A true CN112507842A (zh) 2021-03-16

Family

ID=74969859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011389843.7A Pending CN112507842A (zh) 2020-12-01 2020-12-01 一种基于关键帧提取的视频文字识别方法和装置

Country Status (1)

Country Link
CN (1) CN112507842A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095239A (zh) * 2021-04-15 2021-07-09 深圳市英威诺科技有限公司 一种关键帧提取方法、终端及计算机可读存储介质
CN113111823A (zh) * 2021-04-22 2021-07-13 广东工业大学 一种建筑施工地的异常行为检测方法和相关装置
CN113657218A (zh) * 2021-08-02 2021-11-16 上海影谱科技有限公司 一种能够减少冗余数据的视频对象检测方法及装置
CN113762040A (zh) * 2021-04-29 2021-12-07 腾讯科技(深圳)有限公司 视频识别方法、装置、存储介质及计算机设备
CN114155473A (zh) * 2021-12-09 2022-03-08 成都智元汇信息技术股份有限公司 基于帧补偿的切图方法、电子设备及介质
CN115567719A (zh) * 2022-08-23 2023-01-03 天津市国瑞数码安全系统股份有限公司 一种多层次卷积的视频压缩方法和系统
CN115661577A (zh) * 2022-11-01 2023-01-31 吉咖智能机器人有限公司 用于对象检测的方法、设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105025392A (zh) * 2015-06-25 2015-11-04 西北工业大学 基于摘要空间特征学习的视频摘要关键帧提取方法
CN106874443A (zh) * 2017-02-09 2017-06-20 北京百家互联科技有限公司 基于视频文本信息提取的信息查询方法以及装置
CN110674673A (zh) * 2019-07-31 2020-01-10 国家计算机网络与信息安全管理中心 一种关键视频帧抽取方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105025392A (zh) * 2015-06-25 2015-11-04 西北工业大学 基于摘要空间特征学习的视频摘要关键帧提取方法
CN106874443A (zh) * 2017-02-09 2017-06-20 北京百家互联科技有限公司 基于视频文本信息提取的信息查询方法以及装置
CN110674673A (zh) * 2019-07-31 2020-01-10 国家计算机网络与信息安全管理中心 一种关键视频帧抽取方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINGHUI LIAO ET AL.: "Real-time Scene Text Detection with Differentiable Binarization", 《ARXIV:1911.08947V2》, pages 1 - 8 *
达观数据: "《流媒体覆盖网络及其关键技术研究》", vol. 1, 中国传媒大学出版社, pages: 200 - 132 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095239A (zh) * 2021-04-15 2021-07-09 深圳市英威诺科技有限公司 一种关键帧提取方法、终端及计算机可读存储介质
CN113111823A (zh) * 2021-04-22 2021-07-13 广东工业大学 一种建筑施工地的异常行为检测方法和相关装置
CN113762040A (zh) * 2021-04-29 2021-12-07 腾讯科技(深圳)有限公司 视频识别方法、装置、存储介质及计算机设备
CN113762040B (zh) * 2021-04-29 2024-05-10 腾讯科技(深圳)有限公司 视频识别方法、装置、存储介质及计算机设备
CN113657218A (zh) * 2021-08-02 2021-11-16 上海影谱科技有限公司 一种能够减少冗余数据的视频对象检测方法及装置
CN114155473A (zh) * 2021-12-09 2022-03-08 成都智元汇信息技术股份有限公司 基于帧补偿的切图方法、电子设备及介质
CN115567719A (zh) * 2022-08-23 2023-01-03 天津市国瑞数码安全系统股份有限公司 一种多层次卷积的视频压缩方法和系统
CN115661577A (zh) * 2022-11-01 2023-01-31 吉咖智能机器人有限公司 用于对象检测的方法、设备和计算机可读存储介质
CN115661577B (zh) * 2022-11-01 2024-04-16 吉咖智能机器人有限公司 用于对象检测的方法、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112507842A (zh) 一种基于关键帧提取的视频文字识别方法和装置
Tang et al. DIVFusion: Darkness-free infrared and visible image fusion
CN112149619B (zh) 一种基于Transformer模型自然场景文字识别方法
JP3373008B2 (ja) 画像像域分離装置
WO2016082277A1 (zh) 一种视频认证方法及装置
CN110599486A (zh) 一种视频抄袭的检测方法及系统
Harraj et al. OCR accuracy improvement on document images through a novel pre-processing approach
CN113255659B (zh) 一种基于MSAFF-Yolov3的车牌校正检测识别方法
EP2862346A1 (en) A device and a method for color harmonization of an image
CN114529441A (zh) 一种图像频域数字水印方法、系统、装置及介质
CN113591831A (zh) 一种基于深度学习的字体识别方法、系统及存储介质
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN115019111A (zh) 用于互联网文创作品的数据处理方法
CN111259792B (zh) 基于dwt-lbp-dct特征的人脸活体检测方法
Zhang et al. A GPU-accelerated real-time single image de-hazing method using pixel-level optimal de-hazing criterion
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
JP5199349B2 (ja) 高性能画像識別
CN111027564A (zh) 基于深度学习一体化的低照度成像车牌识别方法及装置
Wang et al. Perception-guided multi-channel visual feature fusion for image retargeting
CN116798041A (zh) 图像识别方法、装置和电子设备
Duan et al. Image information hiding method based on image compression and deep neural network
CN110633705A (zh) 一种低照度成像车牌识别方法及装置
CN110458851A (zh) 红外图像处理方法、装置、计算机设备和存储介质
Zhang et al. Blind image quality assessment based on local quantized pattern
CN112837329A (zh) 一种藏文古籍文档图像二值化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination