CN110598622A

CN110598622A - 视频字幕定位方法、电子设备以及计算机存储介质

Info

Publication number: CN110598622A
Application number: CN201910843350.7A
Authority: CN
Inventors: 刘建平; 王雷; 黄家冕
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-20
Anticipated expiration: 2039-09-06
Also published as: CN110598622B

Abstract

本申请公开了一种视频字幕定位方法、电子设备以及计算机存储介质，该视频字幕定位方法包括：获取视频的所有图像帧，并对所有图像帧进行文字检测，以得到所有图像帧的第一文本框集合，其中，第一文本框集合中包括每一图像帧的文本框；遍历第一文本框集合，获取每两帧图像帧中的文本框在第一方向上的第一相似度；基于多个第一相似度，构造关于第一文本框集合的第一图网络；对第一图网络进行聚类，以获取多个第一子网络，并从节点数量满足第一预设条件的第一子网络中提取视频字幕的文本框。通过上述视频字幕定位方法，本申请能够提高视频字幕定位的准确性，有效排除了视频中的其它干扰信息。

Description

视频字幕定位方法、电子设备以及计算机存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种视频字幕定位方法、电子设备以及计算机存储介质。

背景技术

网络上电影、短视频越来越丰富，观看视频已经成为人们娱乐、获取知识的主要窗口之一。播放视频的语言成为观看非母语国家视频的主要障碍，图片OCR(OpticalCharacter Recognition，光学字符识别)技术、机器翻译技术可以成为克服这个障碍的有力工具。

在现有技术中，要识别、翻译视频中的字幕，首先需求先检测到字幕在图像中的位置。在现有自然场景文字定位技术中，无法考虑到视频中字幕的时间和空间连续性，直接对图像进行文字识别会导致大量的视频图像中的背景文字被检测出来。因此，现有技术存在适应性不强，容易受到干扰等问题。

发明内容

本申请提供一种视频字幕定位方法、电子设备以及计算机存储介质，以解决现有技术中适应性不强，容易受到干扰的问题。

为解决上述技术问题，本申请采用的一个技术方案是提供一种视频字幕定位方法，所述视频字幕定位方法包括：

获取视频的所有图像帧，并对所有所述图像帧进行文字检测，以得到所有所述图像帧的第一文本框集合，其中，所述第一文本框集合中包括每一图像帧的文本框；

遍历所述第一文本框集合，获取每两帧所述图像帧中的文本框在第一方向上的第一相似度；

基于多个所述第一相似度，构造关于所述第一文本框集合的第一图网络；

对所述第一图网络进行聚类，以获取多个第一子网络，并从节点数量满足第一预设条件的所述第一子网络中提取所述视频字幕的文本框。

为解决上述技术问题，本申请采用的一个技术方案是提供一种电子设备，所述电子设备包括：

获取模块，用于获取视频的所有图像帧，并对所有所述图像帧进行文字检测，以得到所有所述图像帧的第一文本框集合，其中，所述第一文本框集合中包括每一图像帧的文本框；

处理模块，用于遍历所述第一文本框集合，获取每两帧所述图像帧中的文本框在第一方向上的第一相似度；

所述处理模块，还用于基于多个所述第一相似度，构造关于所述第一文本框集合的第一图网络；

提取模块，用于对所述第一图网络进行聚类，以获取多个第一子网络，并从节点数量满足第一预设条件的所述第一子网络中提取所述视频字幕的文本框。

为解决上述技术问题，本申请采用的另一个技术方案是提供另一种电子设备，所述电子设备包括存储器以及与所述存储器耦接的处理器；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如上述的视频字幕定位方法。

为解决上述技术问题，本申请采用的另一个技术方案是提供一种计算机存储介质，其中存储有计算机程序，计算机程序被执行时实现如上述视频字幕定位方法的步骤。

区别于现有技术，本申请的有益效果是：电子设备获取视频的所有图像帧，并对所有图像帧进行文字检测，以得到所有图像帧的第一文本框集合，其中，第一文本框集合中包括每一图像帧的文本框；遍历第一文本框集合，获取每两帧所述图像帧中的文本框在第一方向上的第一相似度；基于多个第一相似度，构造关于第一文本框集合的第一图网络；对第一图网络进行聚类，以获取多个第一子网络，并从节点数量满足第一预设条件的第一子网络中提取视频字幕的文本框。通过上述视频字幕定位方法，本申请的电子设备可以基于不同图像帧之间的文本框相似度确定字幕的文本框，能够提高视频字幕定位的准确性，有效排除了视频中的其它干扰信息。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的视频字幕定位方法第一实施例的流程示意图；

图2是本申请提供的图网络示意图；

图3是本申请提供的视频字幕定位方法第二实施例的流程示意图；

图4是本申请提供的视频字幕定位方法第三实施例的流程示意图；

图5是本申请提供的电子设备一实施例的结构示意图；

图6是本申请提供的电子设备另一实施例的结构示意图；

图7是本申请提供的计算机存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术适应性不强，容易受到干扰的问题，本申请提出一种基于图网络的视频字幕定位方法，利用了视频字幕在视频时间和空间上具有一定连续性的性质，例如视频字幕会连续多次出现在视频图像中固定行高，以及同一行的字幕在不同图像帧中在X方向和/或Y方向上会有一定重合的特点；进而采用图网络聚类算法，排除掉不满足上述规律偶尔出现的干扰文本。

具体请参阅图1，图1是本申请提供的视频字幕定位方法第一实施例的流程示意图。本实施例的视频字幕定位方法应用于一种电子设备，可以为例如智能手机、平板电脑、笔记本电脑、台式电脑或者可穿戴设备等电子设备。

如图所示，本实施例的视频字幕定位方法具体可以包括以下步骤：

S101：获取视频的所有图像帧，并对所有图像帧进行文字检测，以得到所有图像帧的第一文本框集合，其中，第一文本框集合中包括每一图像帧的文本框。

其中，电子设备获取输入的视频，获取的视频可以是网络上传播的视频，也可以是网络直播中出现的视频。电子设备对输入的视频进行切帧，以获得组成视频的所有图像帧{f₀,f₁,f₂,...f_i,...}，其中，上述图像帧按照视频的时间顺序进行切分得到。

进一步地，电子设备对每一帧图像帧f_i分别进行文字检测，得到图像帧f_i内的文本框，从而将所有图像帧的所有文本框组成第一文本框集合具体地，第一文本框集合中的每个文本框B_i,j表示为B_i,j＝(x_i,j,y_i,j,w_i,j,h_i,j)，其中，(x_i,j,y_i,j)为文本框的左上角坐标，w_i,j为文本框的宽度，h_i,j为文本框的高度。

S102：遍历第一文本框集合，获取每两帧图像帧中的文本框在第一方向上的第一相似度。

其中，电子设备遍历上述第一文本框集合，并求取第一文本框集合中任意两帧图像帧的任意文本框在第一方向上的相似度。若以图像帧的左上角像素点为坐标原点，并以图像帧的长度为X轴，以图像帧的宽度为Y轴，则本实施例的第一方向可以为Y轴方向，也可以为X轴方向。

由于在同一视频中，不同图像帧出现的视频字幕的位置与大小基本一致；而视频中出现的干扰信息，例如视频中出现的广告或者拍摄内容中包括文本信息等在不同图像帧中的位置与大小具有偶然性，具有很大的差异。因此，本申请通过计算不同图像帧中的文本框的相似度，用于评价文本框为视频字幕文本框的可能性。当相似度越高时，对应的文本框为视频字幕文本框的可能性越大。

具体地，不同图像帧的任意文本框在第一方向上的相似度也可以表现为任意两个文本框在第一方向上的重合率，即：

sim_y(B_i,j,B_l,m)＝IOU_y(B_i,j,B_l,m)

其中，sim_y为两个文本框在Y方向的相似度，IOU_y为两个文本框在Y方向的重合率。

两个文本框在Y方向的重合率IOU_y的具体计算方式如下：

S103：基于多个第一相似度，构造关于第一文本框集合的第一图网络。

其中，电子设备基于上述计算得到的多个第一相似度，即重合率，构造关于第一文本框集合的第一图网络。图网络(Graph Network,GN)是在拓扑空间(topological space)内按图(graph)结构组织以进行关系推理(relational reasoning)的函数集合。

具体请结合参阅图2，图2是本申请提供的图网络示意图。在本实施例中，图网络中包括多个节点11，每个文本框即为图网络中的节点11，每个节点11之间的连接线12为两个文本框之间的权重，权重设置为两两文本框之间在Y方向上的重合率IOU_y。

在图网络中，两个文本框之间的权重越大，说明这两个文本框的重合率IOU_y越高，即相似度越大。

S104：对第一图网络进行聚类，以获取多个第一子网络，并从节点数量满足第一预设条件的第一子网络中提取视频字幕的文本框。

其中，电子设备对第一图网络使用Markov Clustering算法(马尔可夫聚类算法)进行聚类分析，以得到第一子网络集，第一子网络集中包括多个第一子网络。其中，在其它实施例中，电子设备也可以使用其它聚类算法对第一图网络进行聚类，在此不再赘述。

在聚类过程中，电子设备将重合率IOU_y高于预设重合率的文本框归类到同一第一子网络中，即每个第一子网络中的节点(文本框)之间的权重大于与其它第一子网络中的节点的权重。通过该聚类过程，电子设备将在Y方向上重合率IOU_y大的文本框归类到同一第一子网络中，并根据每个第一子网络的节点数量对第一子网络集中的所有第一子网络进行排序。

第一子网络的节点数量越多，说明具有在Y方向上重合率IOU_y大于预设重合率的文本框的图像帧越多，该第一子网络中的文本框为视频字幕的文本框的可能性越高。

电子设备获取节点数量最多的第一子网络，并将该第一子网络中的文本框定义为视频字幕的文本框，即根据该第一子网络中的文本框的大小和位置定位视频字幕。

在本实施例中，电子设备获取视频的所有图像帧，并对所有图像帧进行文字检测，以得到所有图像帧的第一文本框集合，其中，第一文本框集合中包括每一图像帧的文本框；遍历第一文本框集合，获取每两帧所述图像帧中的文本框在第一方向上的第一相似度；基于多个第一相似度，构造关于第一文本框集合的第一图网络；对第一图网络进行聚类，以获取多个第一子网络集，并从节点数量满足第一预设条件的第一子网络集中提取视频字幕的文本框。通过上述视频字幕定位方法，本申请的电子设备可以基于不同图像帧之间的文本框相似度确定字幕的文本框，能够提高视频字幕定位的准确性，有效排除了视频中的其它干扰信息。

对于图1所示实施例中的S103和S104，本申请进一步提出了另一种具体的视频字幕定位方法。请继续参阅3，图3是本申请提供的视频字幕定位方法第二实施例的流程示意图。

S201：基于多个文本框在Y方向上的相似度，构造关于第一文本框集合的第一图网络，第一图网络包括文本框集合、文本框边集以及对应的权重。

其中，电子设备基于多个文本框在Y方向上的相似度，构造关于第一文本框集合的第一图网络G＝{N,E,W}。

其中，为节点集，即文本框集合，每个节点n_i为第一文本框集中的一个文本框。E＝{(n_i,n_j)}_(i,j)∈Ω为文本框边集，其中，若sⁱm_y(n_i,n_j)>th_y时，则(i,j)∈Ω，th_y为预先设置的阈值。W＝{sim_y(n_i,n_j)}_(i,j)∈Ω为文本框边集的权重。

S202：对第一图网络进行聚类，以获取多个第一子网络。

其中，本实施例的S202与上述实施例的S103相同，在此不再赘述。

S203：去除多个第一子网络中节点数量小于所有图像帧的帧数预设比例的第一子网络。

其中，电子设备在对多个第一子网络按照节点数量进行排序之前，为了去除聚类过程中偶然出现的干扰项，电子设备还可以去除第一子网络集中节点数量小于所有图像帧的帧数预设比例的第一子网络。例如，在本实施例中，电子设备可以将预设比例设置为30％。若视频切帧得到的所有图像帧的帧数为100帧，电子设备将第一子网络集中节点数量小于30的第一子网络丢弃。丢弃的第一子网络被认为是在聚类过程中产生的干扰项，此类干扰项会大大影响视频字幕定位的准确性。

在上述实施例中，电子设备只参考了不同图像帧之间的文本框在一个方向上的相似度。为了进一步提高视频字幕定位方法的准确性，本申请还可以参考不同文本框在多个方向上的相似度，进而聚类得到更准确的子网络。

具体地，对于图1所示实施例中的S104，本申请进一步提出了另一种具体的视频字幕定位方法。请继续参阅图4，图4是本申请提供的视频字幕定位方法第三实施例的流程示意图。

S301：将多个第一子网络按照节点数量从多到少进行排序，并从排序满足预设序号的第一子网络中提取对应的第二文本框集合。

其中，电子设备将节点数量小于所有图像帧帧数的30％的第一子网络去除后，将剩下的第一子网络按照节点数量从多到少进行排序。电子设备取排序前三的三个第一子网络，并对每个子网络提取所有节点对应的文本框，以形成第二文本框集合。

S302：遍历第二文本框集合，获取每两帧图像帧中的文本框在第二方向上的第二相似度。

其中，在基于多个文本框在Y方向上的相似度构造第一图网络，以及聚类筛选出符合条件的第一子网络的步骤之后，电子设备继续遍历符合条件的第一子网络的所有文本框形成的第二文本框集合，以求取第二文本框集合中任意两帧图像帧的任意文本框在X方向上的第二相似度。计算文本框在X方向上的第二相似度的过程与计算文本框在Y方向上的第一相似度的过程相同，在此不再赘述。

S303：基于多个第二相似度，构造关于第二文本框集合的第二图网络。

其中，电子设备获取文本框在X方向上的第二相似度后，基于第二相似度构造关于第二文本框集合的第二图网络G＝{N,E,W}。

其中，为节点集，即文本框集合，每个节点n_i为第二文本框集中的某一个文本框。E＝{(n_i,n_j)}_(i,j)∈Ω为文本框边集，其中，若sim_x(n_i,n_j)>th_x时，则(i,j)∈Ω，th_x为预先设置的阈值。W＝{sim_x(n_i,n_j)}_(i,j)∈Ω为文本框边集的权重。

S304：对第二图网络进行聚类，以获取多个第二子网络，并从节点数量最多的第二子网络中提取视频字幕的文本框。

其中，电子设备对第二图网络G使用Markov Clustering算法(马尔可夫聚类算法)进行聚类分析，以得到第二子网络集{G₀,G₁,...}，第二子网络集中包括多个第二子网络G_i。

进一步地，电子设备对第二子网络集中的第二子网络根据各自包含的节点数量由多到少进行排序，以获得节点数量最多的第二子网络。电子设备将节点数量最多的第二子网络中的节点，即文本框，定义为视频字幕的文本框，即根据该第二子网络中的文本框的大小和位置定位视频字幕。

进一步地，在本实施例中，电子设备先计算文本框在Y方向上的相似度，然后再计算文本框在X方向上的相似度。在其它实施例中，电子设备也可以先计算文本框在X方向上的相似度，然后再计算文本框在Y方向上的相似度，在此不再赘述。

在本实施例中，电子设备为了进一步提高视频字幕定位方法的准确性，分别计算每两帧图像帧中文本框在Y方向和X方向的相似度，并分别以两个方向的相似度构造第一图网络和第二图网络，经过两次的图网络聚类以及条件筛选，电子设备可以得到最准确的第二子网络，该第二子网络中包括可以准确定位视频字幕的文本框。

为了实现上述实施例的视频字幕定位方法，本申请还提出了一种电子设备，具体请参阅图5，图5是本申请提供的电子设备一实施例的结构示意图。

本实施例的电子设备500包括获取模块51、处理模块52以及提取模块53。

其中，获取模块51，用于获取视频的所有图像帧，并对所有图像帧进行文字检测，以得到所有图像帧的第一文本框集合，其中，第一文本框集合中包括每一图像帧的文本框；

处理模块52，用于遍历第一文本框集合，获取每两帧图像帧中的文本框在第一方向上的第一相似度；

处理模块52，还用于基于多个第一相似度，构造关于第一文本框集合的第一图网络；

提取模块53，用于对第一图网络进行聚类，以获取多个第一子网络，并从节点数量满足第一预设条件的第一子网络中提取视频字幕的文本框。

为了实现上述实施例的视频字幕定位方法，本申请还提出了另一种电子设备，具体请参阅图6，图6是本申请提供的电子设备另一实施例的结构示意图。

电子设备600包括存储器61以及处理器62，其中，存储器61与处理器62耦接。

存储器61用于存储程序数据，处理器62用于执行程序数据以实现上述实施例的视频字幕定位方法。

在本实施例中，处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器62也可以是任何常规的处理器等。

本申请还提供一种计算机存储介质，请继续参阅图7，图7是本申请提供的计算机存储介质一实施例的结构示意图，该计算机存储介质700中存储有程序数据71，该程序数据71在被处理器执行时，用以实现上述实施例的视频字幕定位方法。

本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频字幕定位方法，其特征在于，所述视频字幕定位方法包括：

2.根据权利要求1所述的视频字幕定位方法，其特征在于，

所述从节点数量满足预设条件的所述第一子网络中提取所述视频字幕的文本框的步骤，包括：

从所述节点数量满足所述第一预设条件的所述第一子网络中提取对应的第二文本框集合；

遍历所述第二文本框集合，获取每两帧所述图像帧中的文本框在第二方向上的第二相似度；

基于多个所述第二相似度，构造关于所述第二文本框集合的第二图网络；

对所述第二图网络进行聚类，以获取多个第二子网络，并从所述节点数量最多的所述第二子网络中提取所述视频字幕的文本框。

3.根据权利要求2所述的视频字幕定位方法，其特征在于，

所述从节点数量满足所述第一预设条件的所述第一子网络中提取对应的第二文本框集合的步骤包括：

将多个所述第一子网络按照所述节点数量从多到少进行排序，并从排序满足预设序号的所述第一子网络中提取对应的所述第二文本框集合。

4.根据权利要求2所述的视频字幕定位方法，其特征在于，所述第二方向为X方向，所述获取每两帧所述图像帧中的文本框在第二方向上的第二相似度的步骤，包括：

获取每两帧所述图像帧中的文本框在所述X方向上的第二相似度。

5.根据权利要求1所述的视频字幕定位方法，其特征在于，所述第一方向为Y方向，所述获取每两帧所述图像帧中的文本框在预设方向上的第一相似度的步骤，包括：

获取每两帧所述图像帧中的文本框在所述Y方向上的第一相似度。

6.根据权利要求5所述的视频字幕定位方法，其特征在于，所述基于多个所述相似度，构造关于所述第一文本框集合的第一图网络的步骤，包括：

基于多个文本框在所述Y方向上的相似度，构造关于所述第一文本框集合的第一图网络，所述第一图网络包括第一文本框集合、文本框边集以及对应的权重；

其中，所述文本框边集为所述第一文本框集合中，满足预设条件的多组文本框对的集合，所述预设条件为所述文本框对在所述Y方向上的相似度大于预设相似度阈值。

7.根据权利要求6所述的视频字幕定位方法，其特征在于，

所述对所述第一图网络进行聚类，以获取多个第一子网络的步骤之后，包括：

去除多个所述第一子网络中节点数量小于所有所述图像帧的帧数预设比例的第一子网络。

8.一种电子设备，其特征在于，所述电子设备包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器以及与所述存储器耦接的处理器；

其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1～7任一项所述的视频字幕定位方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现如权利要求1～7任一项所述的视频字幕定位方法。