CN110598622A - 视频字幕定位方法、电子设备以及计算机存储介质 - Google Patents

视频字幕定位方法、电子设备以及计算机存储介质 Download PDF

Info

Publication number
CN110598622A
CN110598622A CN201910843350.7A CN201910843350A CN110598622A CN 110598622 A CN110598622 A CN 110598622A CN 201910843350 A CN201910843350 A CN 201910843350A CN 110598622 A CN110598622 A CN 110598622A
Authority
CN
China
Prior art keywords
text box
video
sub
text
image frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910843350.7A
Other languages
English (en)
Other versions
CN110598622B (zh
Inventor
刘建平
王雷
黄家冕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN201910843350.7A priority Critical patent/CN110598622B/zh
Publication of CN110598622A publication Critical patent/CN110598622A/zh
Application granted granted Critical
Publication of CN110598622B publication Critical patent/CN110598622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种视频字幕定位方法、电子设备以及计算机存储介质,该视频字幕定位方法包括:获取视频的所有图像帧,并对所有图像帧进行文字检测,以得到所有图像帧的第一文本框集合,其中,第一文本框集合中包括每一图像帧的文本框;遍历第一文本框集合,获取每两帧图像帧中的文本框在第一方向上的第一相似度;基于多个第一相似度,构造关于第一文本框集合的第一图网络;对第一图网络进行聚类,以获取多个第一子网络,并从节点数量满足第一预设条件的第一子网络中提取视频字幕的文本框。通过上述视频字幕定位方法,本申请能够提高视频字幕定位的准确性,有效排除了视频中的其它干扰信息。

Description

视频字幕定位方法、电子设备以及计算机存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种视频字幕定位方法、电子设备以及计算机存储介质。
背景技术
网络上电影、短视频越来越丰富,观看视频已经成为人们娱乐、获取知识的主要窗口之一。播放视频的语言成为观看非母语国家视频的主要障碍,图片OCR(OpticalCharacter Recognition,光学字符识别)技术、机器翻译技术可以成为克服这个障碍的有力工具。
在现有技术中,要识别、翻译视频中的字幕,首先需求先检测到字幕在图像中的位置。在现有自然场景文字定位技术中,无法考虑到视频中字幕的时间和空间连续性,直接对图像进行文字识别会导致大量的视频图像中的背景文字被检测出来。因此,现有技术存在适应性不强,容易受到干扰等问题。
发明内容
本申请提供一种视频字幕定位方法、电子设备以及计算机存储介质,以解决现有技术中适应性不强,容易受到干扰的问题。
为解决上述技术问题,本申请采用的一个技术方案是提供一种视频字幕定位方法,所述视频字幕定位方法包括:
获取视频的所有图像帧,并对所有所述图像帧进行文字检测,以得到所有所述图像帧的第一文本框集合,其中,所述第一文本框集合中包括每一图像帧的文本框;
遍历所述第一文本框集合,获取每两帧所述图像帧中的文本框在第一方向上的第一相似度;
基于多个所述第一相似度,构造关于所述第一文本框集合的第一图网络;
对所述第一图网络进行聚类,以获取多个第一子网络,并从节点数量满足第一预设条件的所述第一子网络中提取所述视频字幕的文本框。
为解决上述技术问题,本申请采用的一个技术方案是提供一种电子设备,所述电子设备包括:
获取模块,用于获取视频的所有图像帧,并对所有所述图像帧进行文字检测,以得到所有所述图像帧的第一文本框集合,其中,所述第一文本框集合中包括每一图像帧的文本框;
处理模块,用于遍历所述第一文本框集合,获取每两帧所述图像帧中的文本框在第一方向上的第一相似度;
所述处理模块,还用于基于多个所述第一相似度,构造关于所述第一文本框集合的第一图网络;
提取模块,用于对所述第一图网络进行聚类,以获取多个第一子网络,并从节点数量满足第一预设条件的所述第一子网络中提取所述视频字幕的文本框。
为解决上述技术问题,本申请采用的另一个技术方案是提供另一种电子设备,所述电子设备包括存储器以及与所述存储器耦接的处理器;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的视频字幕定位方法。
为解决上述技术问题,本申请采用的另一个技术方案是提供一种计算机存储介质,其中存储有计算机程序,计算机程序被执行时实现如上述视频字幕定位方法的步骤。
区别于现有技术,本申请的有益效果是:电子设备获取视频的所有图像帧,并对所有图像帧进行文字检测,以得到所有图像帧的第一文本框集合,其中,第一文本框集合中包括每一图像帧的文本框;遍历第一文本框集合,获取每两帧所述图像帧中的文本框在第一方向上的第一相似度;基于多个第一相似度,构造关于第一文本框集合的第一图网络;对第一图网络进行聚类,以获取多个第一子网络,并从节点数量满足第一预设条件的第一子网络中提取视频字幕的文本框。通过上述视频字幕定位方法,本申请的电子设备可以基于不同图像帧之间的文本框相似度确定字幕的文本框,能够提高视频字幕定位的准确性,有效排除了视频中的其它干扰信息。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的视频字幕定位方法第一实施例的流程示意图;
图2是本申请提供的图网络示意图;
图3是本申请提供的视频字幕定位方法第二实施例的流程示意图;
图4是本申请提供的视频字幕定位方法第三实施例的流程示意图;
图5是本申请提供的电子设备一实施例的结构示意图;
图6是本申请提供的电子设备另一实施例的结构示意图;
图7是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决现有技术适应性不强,容易受到干扰的问题,本申请提出一种基于图网络的视频字幕定位方法,利用了视频字幕在视频时间和空间上具有一定连续性的性质,例如视频字幕会连续多次出现在视频图像中固定行高,以及同一行的字幕在不同图像帧中在X方向和/或Y方向上会有一定重合的特点;进而采用图网络聚类算法,排除掉不满足上述规律偶尔出现的干扰文本。
具体请参阅图1,图1是本申请提供的视频字幕定位方法第一实施例的流程示意图。本实施例的视频字幕定位方法应用于一种电子设备,可以为例如智能手机、平板电脑、笔记本电脑、台式电脑或者可穿戴设备等电子设备。
如图所示,本实施例的视频字幕定位方法具体可以包括以下步骤:
S101:获取视频的所有图像帧,并对所有图像帧进行文字检测,以得到所有图像帧的第一文本框集合,其中,第一文本框集合中包括每一图像帧的文本框。
其中,电子设备获取输入的视频,获取的视频可以是网络上传播的视频,也可以是网络直播中出现的视频。电子设备对输入的视频进行切帧,以获得组成视频的所有图像帧{f0,f1,f2,...fi,...},其中,上述图像帧按照视频的时间顺序进行切分得到。
进一步地,电子设备对每一帧图像帧fi分别进行文字检测,得到图像帧fi内的文本框,从而将所有图像帧的所有文本框组成第一文本框集合具体地,第一文本框集合中的每个文本框Bi,j表示为Bi,j=(xi,j,yi,j,wi,j,hi,j),其中,(xi,j,yi,j)为文本框的左上角坐标,wi,j为文本框的宽度,hi,j为文本框的高度。
S102:遍历第一文本框集合,获取每两帧图像帧中的文本框在第一方向上的第一相似度。
其中,电子设备遍历上述第一文本框集合,并求取第一文本框集合中任意两帧图像帧的任意文本框在第一方向上的相似度。若以图像帧的左上角像素点为坐标原点,并以图像帧的长度为X轴,以图像帧的宽度为Y轴,则本实施例的第一方向可以为Y轴方向,也可以为X轴方向。
由于在同一视频中,不同图像帧出现的视频字幕的位置与大小基本一致;而视频中出现的干扰信息,例如视频中出现的广告或者拍摄内容中包括文本信息等在不同图像帧中的位置与大小具有偶然性,具有很大的差异。因此,本申请通过计算不同图像帧中的文本框的相似度,用于评价文本框为视频字幕文本框的可能性。当相似度越高时,对应的文本框为视频字幕文本框的可能性越大。
具体地,不同图像帧的任意文本框在第一方向上的相似度也可以表现为任意两个文本框在第一方向上的重合率,即:
simy(Bi,j,Bl,m)=IOUy(Bi,j,Bl,m)
其中,simy为两个文本框在Y方向的相似度,IOUy为两个文本框在Y方向的重合率。
两个文本框在Y方向的重合率IOUy的具体计算方式如下:
S103:基于多个第一相似度,构造关于第一文本框集合的第一图网络。
其中,电子设备基于上述计算得到的多个第一相似度,即重合率,构造关于第一文本框集合的第一图网络。图网络(Graph Network,GN)是在拓扑空间(topological space)内按图(graph)结构组织以进行关系推理(relational reasoning)的函数集合。
具体请结合参阅图2,图2是本申请提供的图网络示意图。在本实施例中,图网络中包括多个节点11,每个文本框即为图网络中的节点11,每个节点11之间的连接线12为两个文本框之间的权重,权重设置为两两文本框之间在Y方向上的重合率IOUy
在图网络中,两个文本框之间的权重越大,说明这两个文本框的重合率IOUy越高,即相似度越大。
S104:对第一图网络进行聚类,以获取多个第一子网络,并从节点数量满足第一预设条件的第一子网络中提取视频字幕的文本框。
其中,电子设备对第一图网络使用Markov Clustering算法(马尔可夫聚类算法)进行聚类分析,以得到第一子网络集,第一子网络集中包括多个第一子网络。其中,在其它实施例中,电子设备也可以使用其它聚类算法对第一图网络进行聚类,在此不再赘述。
在聚类过程中,电子设备将重合率IOUy高于预设重合率的文本框归类到同一第一子网络中,即每个第一子网络中的节点(文本框)之间的权重大于与其它第一子网络中的节点的权重。通过该聚类过程,电子设备将在Y方向上重合率IOUy大的文本框归类到同一第一子网络中,并根据每个第一子网络的节点数量对第一子网络集中的所有第一子网络进行排序。
第一子网络的节点数量越多,说明具有在Y方向上重合率IOUy大于预设重合率的文本框的图像帧越多,该第一子网络中的文本框为视频字幕的文本框的可能性越高。
电子设备获取节点数量最多的第一子网络,并将该第一子网络中的文本框定义为视频字幕的文本框,即根据该第一子网络中的文本框的大小和位置定位视频字幕。
在本实施例中,电子设备获取视频的所有图像帧,并对所有图像帧进行文字检测,以得到所有图像帧的第一文本框集合,其中,第一文本框集合中包括每一图像帧的文本框;遍历第一文本框集合,获取每两帧所述图像帧中的文本框在第一方向上的第一相似度;基于多个第一相似度,构造关于第一文本框集合的第一图网络;对第一图网络进行聚类,以获取多个第一子网络集,并从节点数量满足第一预设条件的第一子网络集中提取视频字幕的文本框。通过上述视频字幕定位方法,本申请的电子设备可以基于不同图像帧之间的文本框相似度确定字幕的文本框,能够提高视频字幕定位的准确性,有效排除了视频中的其它干扰信息。
对于图1所示实施例中的S103和S104,本申请进一步提出了另一种具体的视频字幕定位方法。请继续参阅3,图3是本申请提供的视频字幕定位方法第二实施例的流程示意图。
如图所示,本实施例的视频字幕定位方法具体可以包括以下步骤:
S201:基于多个文本框在Y方向上的相似度,构造关于第一文本框集合的第一图网络,第一图网络包括文本框集合、文本框边集以及对应的权重。
其中,电子设备基于多个文本框在Y方向上的相似度,构造关于第一文本框集合的第一图网络G={N,E,W}。
其中,为节点集,即文本框集合,每个节点ni为第一文本框集中的一个文本框。E={(ni,nj)}(i,j)∈Ω为文本框边集,其中,若simy(ni,nj)>thy时,则(i,j)∈Ω,thy为预先设置的阈值。W={simy(ni,nj)}(i,j)∈Ω为文本框边集的权重。
S202:对第一图网络进行聚类,以获取多个第一子网络。
其中,本实施例的S202与上述实施例的S103相同,在此不再赘述。
S203:去除多个第一子网络中节点数量小于所有图像帧的帧数预设比例的第一子网络。
其中,电子设备在对多个第一子网络按照节点数量进行排序之前,为了去除聚类过程中偶然出现的干扰项,电子设备还可以去除第一子网络集中节点数量小于所有图像帧的帧数预设比例的第一子网络。例如,在本实施例中,电子设备可以将预设比例设置为30%。若视频切帧得到的所有图像帧的帧数为100帧,电子设备将第一子网络集中节点数量小于30的第一子网络丢弃。丢弃的第一子网络被认为是在聚类过程中产生的干扰项,此类干扰项会大大影响视频字幕定位的准确性。
在上述实施例中,电子设备只参考了不同图像帧之间的文本框在一个方向上的相似度。为了进一步提高视频字幕定位方法的准确性,本申请还可以参考不同文本框在多个方向上的相似度,进而聚类得到更准确的子网络。
具体地,对于图1所示实施例中的S104,本申请进一步提出了另一种具体的视频字幕定位方法。请继续参阅图4,图4是本申请提供的视频字幕定位方法第三实施例的流程示意图。
如图所示,本实施例的视频字幕定位方法具体可以包括以下步骤:
S301:将多个第一子网络按照节点数量从多到少进行排序,并从排序满足预设序号的第一子网络中提取对应的第二文本框集合。
其中,电子设备将节点数量小于所有图像帧帧数的30%的第一子网络去除后,将剩下的第一子网络按照节点数量从多到少进行排序。电子设备取排序前三的三个第一子网络,并对每个子网络提取所有节点对应的文本框,以形成第二文本框集合。
S302:遍历第二文本框集合,获取每两帧图像帧中的文本框在第二方向上的第二相似度。
其中,在基于多个文本框在Y方向上的相似度构造第一图网络,以及聚类筛选出符合条件的第一子网络的步骤之后,电子设备继续遍历符合条件的第一子网络的所有文本框形成的第二文本框集合,以求取第二文本框集合中任意两帧图像帧的任意文本框在X方向上的第二相似度。计算文本框在X方向上的第二相似度的过程与计算文本框在Y方向上的第一相似度的过程相同,在此不再赘述。
S303:基于多个第二相似度,构造关于第二文本框集合的第二图网络。
其中,电子设备获取文本框在X方向上的第二相似度后,基于第二相似度构造关于第二文本框集合的第二图网络G={N,E,W}。
其中,为节点集,即文本框集合,每个节点ni为第二文本框集中的某一个文本框。E={(ni,nj)}(i,j)∈Ω为文本框边集,其中,若simx(ni,nj)>thx时,则(i,j)∈Ω,thx为预先设置的阈值。W={simx(ni,nj)}(i,j)∈Ω为文本框边集的权重。
S304:对第二图网络进行聚类,以获取多个第二子网络,并从节点数量最多的第二子网络中提取视频字幕的文本框。
其中,电子设备对第二图网络G使用Markov Clustering算法(马尔可夫聚类算法)进行聚类分析,以得到第二子网络集{G0,G1,...},第二子网络集中包括多个第二子网络Gi
进一步地,电子设备对第二子网络集中的第二子网络根据各自包含的节点数量由多到少进行排序,以获得节点数量最多的第二子网络。电子设备将节点数量最多的第二子网络中的节点,即文本框,定义为视频字幕的文本框,即根据该第二子网络中的文本框的大小和位置定位视频字幕。
进一步地,在本实施例中,电子设备先计算文本框在Y方向上的相似度,然后再计算文本框在X方向上的相似度。在其它实施例中,电子设备也可以先计算文本框在X方向上的相似度,然后再计算文本框在Y方向上的相似度,在此不再赘述。
在本实施例中,电子设备为了进一步提高视频字幕定位方法的准确性,分别计算每两帧图像帧中文本框在Y方向和X方向的相似度,并分别以两个方向的相似度构造第一图网络和第二图网络,经过两次的图网络聚类以及条件筛选,电子设备可以得到最准确的第二子网络,该第二子网络中包括可以准确定位视频字幕的文本框。
为了实现上述实施例的视频字幕定位方法,本申请还提出了一种电子设备,具体请参阅图5,图5是本申请提供的电子设备一实施例的结构示意图。
本实施例的电子设备500包括获取模块51、处理模块52以及提取模块53。
其中,获取模块51,用于获取视频的所有图像帧,并对所有图像帧进行文字检测,以得到所有图像帧的第一文本框集合,其中,第一文本框集合中包括每一图像帧的文本框;
处理模块52,用于遍历第一文本框集合,获取每两帧图像帧中的文本框在第一方向上的第一相似度;
处理模块52,还用于基于多个第一相似度,构造关于第一文本框集合的第一图网络;
提取模块53,用于对第一图网络进行聚类,以获取多个第一子网络,并从节点数量满足第一预设条件的第一子网络中提取视频字幕的文本框。
为了实现上述实施例的视频字幕定位方法,本申请还提出了另一种电子设备,具体请参阅图6,图6是本申请提供的电子设备另一实施例的结构示意图。
电子设备600包括存储器61以及处理器62,其中,存储器61与处理器62耦接。
存储器61用于存储程序数据,处理器62用于执行程序数据以实现上述实施例的视频字幕定位方法。
在本实施例中,处理器62还可以称为CPU(Central Processing Unit,中央处理单元)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器62也可以是任何常规的处理器等。
本申请还提供一种计算机存储介质,请继续参阅图7,图7是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质700中存储有程序数据71,该程序数据71在被处理器执行时,用以实现上述实施例的视频字幕定位方法。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种视频字幕定位方法,其特征在于,所述视频字幕定位方法包括:
获取视频的所有图像帧,并对所有所述图像帧进行文字检测,以得到所有所述图像帧的第一文本框集合,其中,所述第一文本框集合中包括每一图像帧的文本框;
遍历所述第一文本框集合,获取每两帧所述图像帧中的文本框在第一方向上的第一相似度;
基于多个所述第一相似度,构造关于所述第一文本框集合的第一图网络;
对所述第一图网络进行聚类,以获取多个第一子网络,并从节点数量满足第一预设条件的所述第一子网络中提取所述视频字幕的文本框。
2.根据权利要求1所述的视频字幕定位方法,其特征在于,
所述从节点数量满足预设条件的所述第一子网络中提取所述视频字幕的文本框的步骤,包括:
从所述节点数量满足所述第一预设条件的所述第一子网络中提取对应的第二文本框集合;
遍历所述第二文本框集合,获取每两帧所述图像帧中的文本框在第二方向上的第二相似度;
基于多个所述第二相似度,构造关于所述第二文本框集合的第二图网络;
对所述第二图网络进行聚类,以获取多个第二子网络,并从所述节点数量最多的所述第二子网络中提取所述视频字幕的文本框。
3.根据权利要求2所述的视频字幕定位方法,其特征在于,
所述从节点数量满足所述第一预设条件的所述第一子网络中提取对应的第二文本框集合的步骤包括:
将多个所述第一子网络按照所述节点数量从多到少进行排序,并从排序满足预设序号的所述第一子网络中提取对应的所述第二文本框集合。
4.根据权利要求2所述的视频字幕定位方法,其特征在于,所述第二方向为X方向,所述获取每两帧所述图像帧中的文本框在第二方向上的第二相似度的步骤,包括:
获取每两帧所述图像帧中的文本框在所述X方向上的第二相似度。
5.根据权利要求1所述的视频字幕定位方法,其特征在于,所述第一方向为Y方向,所述获取每两帧所述图像帧中的文本框在预设方向上的第一相似度的步骤,包括:
获取每两帧所述图像帧中的文本框在所述Y方向上的第一相似度。
6.根据权利要求5所述的视频字幕定位方法,其特征在于,所述基于多个所述相似度,构造关于所述第一文本框集合的第一图网络的步骤,包括:
基于多个文本框在所述Y方向上的相似度,构造关于所述第一文本框集合的第一图网络,所述第一图网络包括第一文本框集合、文本框边集以及对应的权重;
其中,所述文本框边集为所述第一文本框集合中,满足预设条件的多组文本框对的集合,所述预设条件为所述文本框对在所述Y方向上的相似度大于预设相似度阈值。
7.根据权利要求6所述的视频字幕定位方法,其特征在于,
所述对所述第一图网络进行聚类,以获取多个第一子网络的步骤之后,包括:
去除多个所述第一子网络中节点数量小于所有所述图像帧的帧数预设比例的第一子网络。
8.一种电子设备,其特征在于,所述电子设备包括:
获取模块,用于获取视频的所有图像帧,并对所有所述图像帧进行文字检测,以得到所有所述图像帧的第一文本框集合,其中,所述第一文本框集合中包括每一图像帧的文本框;
处理模块,用于遍历所述第一文本框集合,获取每两帧所述图像帧中的文本框在第一方向上的第一相似度;
所述处理模块,还用于基于多个所述第一相似度,构造关于所述第一文本框集合的第一图网络;
提取模块,用于对所述第一图网络进行聚类,以获取多个第一子网络,并从节点数量满足第一预设条件的所述第一子网络中提取所述视频字幕的文本框。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1~7任一项所述的视频字幕定位方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1~7任一项所述的视频字幕定位方法。
CN201910843350.7A 2019-09-06 2019-09-06 视频字幕定位方法、电子设备以及计算机存储介质 Active CN110598622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910843350.7A CN110598622B (zh) 2019-09-06 2019-09-06 视频字幕定位方法、电子设备以及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910843350.7A CN110598622B (zh) 2019-09-06 2019-09-06 视频字幕定位方法、电子设备以及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110598622A true CN110598622A (zh) 2019-12-20
CN110598622B CN110598622B (zh) 2022-05-27

Family

ID=68858154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910843350.7A Active CN110598622B (zh) 2019-09-06 2019-09-06 视频字幕定位方法、电子设备以及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110598622B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444823A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 处理视频数据的方法、装置、计算机设备和存储介质
CN112036373A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 训练视频文本分类模型的方法、视频文本分类方法和装置
CN112101329A (zh) * 2020-11-19 2020-12-18 腾讯科技(深圳)有限公司 一种基于视频的文本识别方法、模型训练的方法及装置
WO2021134229A1 (zh) * 2019-12-30 2021-07-08 深圳市欢太科技有限公司 文字识别方法、装置、存储介质及电子设备
CN113435438A (zh) * 2021-06-28 2021-09-24 中国兵器装备集团自动化研究所有限公司 一种图像和字幕融合的视频报幕板提取及视频切分方法
CN115797921A (zh) * 2023-02-03 2023-03-14 北京探境科技有限公司 字幕识别方法、装置、电子设备及可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102419A (zh) * 2007-07-10 2008-01-09 北京大学 一种定位视频字幕区域的方法
CN101448100A (zh) * 2008-12-26 2009-06-03 西安交通大学 一种快速准确的视频字幕提取方法
US20090228948A1 (en) * 2008-03-10 2009-09-10 Sony Corporation Viewer selection of subtitle position on tv screen
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN104616295A (zh) * 2015-01-23 2015-05-13 河南理工大学 新闻图像中水平标题字幕的简单快速定位方法
US20150370435A1 (en) * 2014-06-20 2015-12-24 Google Inc. Displaying Information Related to Content Playing on a Device
CN107480670A (zh) * 2016-06-08 2017-12-15 北京新岸线网络技术有限公司 一种字幕检测及提取的方法及设备
US10015192B1 (en) * 2015-11-06 2018-07-03 Cisco Technology, Inc. Sample selection for data analysis for use in malware detection
CN108769776A (zh) * 2018-05-31 2018-11-06 北京奇艺世纪科技有限公司 标题字幕检测方法、装置及电子设备
EP3407612A1 (en) * 2017-05-22 2018-11-28 Vestel Elektronik Sanayi ve Ticaret A.S. Apparatus for a subtitle positioning and a method thereof
CN109918987A (zh) * 2018-12-29 2019-06-21 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102419A (zh) * 2007-07-10 2008-01-09 北京大学 一种定位视频字幕区域的方法
US20090228948A1 (en) * 2008-03-10 2009-09-10 Sony Corporation Viewer selection of subtitle position on tv screen
CN101448100A (zh) * 2008-12-26 2009-06-03 西安交通大学 一种快速准确的视频字幕提取方法
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
US20150370435A1 (en) * 2014-06-20 2015-12-24 Google Inc. Displaying Information Related to Content Playing on a Device
CN104616295A (zh) * 2015-01-23 2015-05-13 河南理工大学 新闻图像中水平标题字幕的简单快速定位方法
US10015192B1 (en) * 2015-11-06 2018-07-03 Cisco Technology, Inc. Sample selection for data analysis for use in malware detection
CN107480670A (zh) * 2016-06-08 2017-12-15 北京新岸线网络技术有限公司 一种字幕检测及提取的方法及设备
EP3407612A1 (en) * 2017-05-22 2018-11-28 Vestel Elektronik Sanayi ve Ticaret A.S. Apparatus for a subtitle positioning and a method thereof
CN108769776A (zh) * 2018-05-31 2018-11-06 北京奇艺世纪科技有限公司 标题字幕检测方法、装置及电子设备
CN109918987A (zh) * 2018-12-29 2019-06-21 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONGLI CHEN等: "Gaze inspired subtitle position evaluation for MOOCs videos", 《SPIE》 *
伍杰等: "基于量子神经网络的视频字幕定位方法研究", 《科学技术与工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021134229A1 (zh) * 2019-12-30 2021-07-08 深圳市欢太科技有限公司 文字识别方法、装置、存储介质及电子设备
CN111444823A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 处理视频数据的方法、装置、计算机设备和存储介质
CN112036373A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 训练视频文本分类模型的方法、视频文本分类方法和装置
CN112036373B (zh) * 2020-09-30 2024-04-16 北京百度网讯科技有限公司 训练视频文本分类模型的方法、视频文本分类方法和装置
CN112101329A (zh) * 2020-11-19 2020-12-18 腾讯科技(深圳)有限公司 一种基于视频的文本识别方法、模型训练的方法及装置
CN112101329B (zh) * 2020-11-19 2021-03-30 腾讯科技(深圳)有限公司 一种基于视频的文本识别方法、模型训练的方法及装置
CN113435438A (zh) * 2021-06-28 2021-09-24 中国兵器装备集团自动化研究所有限公司 一种图像和字幕融合的视频报幕板提取及视频切分方法
CN115797921A (zh) * 2023-02-03 2023-03-14 北京探境科技有限公司 字幕识别方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN110598622B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN110598622B (zh) 视频字幕定位方法、电子设备以及计算机存储介质
US10896349B2 (en) Text detection method and apparatus, and storage medium
US11062123B2 (en) Method, terminal, and storage medium for tracking facial critical area
EP3117369B1 (en) Detecting and extracting image document components to create flow document
CN106254933B (zh) 字幕提取方法及装置
CN102426647B (zh) 一种台标识别的方法、装置
US11914639B2 (en) Multimedia resource matching method and apparatus, storage medium, and electronic apparatus
CN108108731B (zh) 基于合成数据的文本检测方法及装置
RU2697649C1 (ru) Способы и системы сегментации документа
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
KR20180020724A (ko) 나선형 신경망 네트워크 기반의 딥러닝에서 특징맵의 계산을 위한 피라미드 히스토리 맵 생성 방법 및 특징맵 생성 방법
US20210034907A1 (en) System and method for textual analysis of images
CN109783680B (zh) 图像推送方法、图像获取方法、装置及图像处理系统
CN110765903A (zh) 行人重识别方法、装置及存储介质
CN104966109B (zh) 医疗化验单图像分类方法及装置
CN113435438A (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
WO2018120575A1 (zh) 网页主图识别方法和装置
JP2016012767A (ja) 画像処理装置
CN113010736A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN103578094A (zh) 镜头分割方法
CN113486881B (zh) 一种文本识别方法、装置、设备及介质
Yang et al. Caption detection and text recognition in news video
CN107729898B (zh) 检测文本图像中的文本行的方法和装置
Jamil et al. Local statistical features for multilingual artificial text detection from video images
Kumari et al. A three-layer approach for overlay text extraction in video stream

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20191220

Assignee: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Assignor: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

Contract record no.: X2021440000030

Denomination of invention: Video subtitle positioning method, electronic equipment and computer storage medium

License type: Common License

Record date: 20210125

GR01 Patent grant
GR01 Patent grant