CN112954455B

CN112954455B - 一种字幕跟踪方法、装置及电子设备

Info

Publication number: CN112954455B
Application number: CN202110197363.9A
Authority: CN
Inventors: 王晨旭
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2023-01-20
Anticipated expiration: 2041-02-22
Also published as: CN112954455A

Abstract

本发明实施例提供了一种字幕跟踪方法、装置及电子设备。其中，所述方法包括：基于待处理视频中各视频帧的字幕位置信息与时序关系，对各视频帧进行第一聚类处理，得到多个第一视频帧集合，其中，任意一个所述第一视频帧集合中各视频帧的字幕位置信息相匹配；提取所述第一视频帧集合中各视频帧的文字特征；基于各视频帧的文字特征与所述时序关系，对各第一视频帧集合分别进行第二聚类处理，得到多个第二视频帧集合，其中，任意一个所述第二视频帧集合中各视频帧的文字特征相匹配。可以有效提字幕跟踪的准确性。

Description

一种字幕跟踪方法、装置及电子设备

技术领域

本发明涉及多媒体技术领域，特别是涉及一种字幕跟踪方法、装置及电子设备。

背景技术

在一些应用场景中，出于实际需求需要对视频进行字幕跟踪处理，以确定出具有相同字幕的视频帧。相关技术中，可以检测视频帧中字幕所处的图像区域，并提取图像区域的图像特征，通过计算图像特征的相似度判断不同视频帧中的字幕是否相同。

但是，视频帧中字幕往往是覆盖在视频画面之上的，因此字幕所处的图像区域中除了字幕还存在背景画面，由于不同的视频帧的视频画面不完全相同，因此在视频跟踪过程中，即使两个视频帧中的字幕相同，也可能由于字幕所处图像区域中背景画面的变化，使得该两个视频帧中字幕所处图像区域的图像特征差别较大，进而导致错误地将该两个视频帧判断为具有不同字幕的视频帧。

因此，如何准确地对视频中的字幕进行跟踪成为亟待解决的技术问题。

发明内容

本发明实施例的目的在于提供一种字幕跟踪方法、装置及电子设备，用以提高字幕跟踪的准确性。具体技术方案如下：

在本发明实施例的第一方面，提供了一种字幕跟踪方法，所述方法包括：

基于待处理视频中各视频帧的字幕位置信息与时序关系，对各视频帧进行第一聚类处理，得到多个第一视频帧集合，其中，任意一个所述第一视频帧集合中各视频帧的字幕位置信息相匹配；

提取所述第一视频帧集合中各视频帧的文字特征；

基于各视频帧的文字特征与所述时序关系，对各第一视频帧集合分别进行第二聚类处理，得到多个第二视频帧集合，其中，任意一个所述第二视频帧集合中各视频帧的文字特征相匹配。

在本发明实施例第二方面，提供了一种字幕跟踪装置，所述装置包括：

第一聚类模块，用于基于待处理视频中各视频帧的字幕位置信息与时序关系，对各视频帧进行第一聚类处理，得到多个第一视频帧集合，其中，任意一个所述第一视频帧集合中各视频帧的字幕位置信息相匹配；

特征提取模块，用于提取所述第一视频帧集合中各视频帧的文字特征；

第二聚类模块，用于基于各视频帧的文字特征与所述时序关系，对各第一视频帧集合分别进行第二聚类处理，得到多个第二视频帧集合，其中，任意一个所述第二视频帧集合中各视频帧的文字特征相匹配。

在本发明实施例的第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。

本发明实施例提供的字幕跟踪方法、装置及电子设备，可以根据字幕区域的位置对视频帧进行第一次聚类，由于理论上相同的字幕在不同视频帧中所处的位置应当相同，因此可以通过第一次聚类将可能具有相同字幕的视频帧划分至同一第一聚类组，降低将具有相同字幕的视频帧判断为具有不同字幕的视频帧的可能性；并在第一次聚类的基础上，利用同一第一视频帧集合中各视频帧的文字特征对视频帧进行第二次聚类，由于文字特征用于表征字幕所处图像区域的文字的特征，不会或者仅会较少的携带字幕所处图像区域中背景图像的图像特征，字幕所处图像区域中背景画面的变化对文字特征没有影响或影响较小，据此进行二次聚类，可以有效降低因背景画面变化导致错误地对视频帧进行分类的可能性，因此，也可以降低将具有不同字幕的视频帧判断为具有相同字幕的视频帧的可能性，可见，本发明实施例通过两次聚类处理，可以有效降低在字幕跟踪过程中发生错误判断的可能性，能够有效提高字幕跟踪的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的字幕跟踪方法的一种流程示意图；

图2a为本发明实施例提供的第二聚类处理的一种流程示意图；

图2b为本发明实施例提供的第二聚类处理的另一种流程示意图；

图3为本发明实施例提供的视频帧搜索方法的一种流程示意图；

图4为本发明实施例提供的视频帧搜索方法的另一种流程示意图；

图5为本发明实施例提供的第一聚类处理的一种流程示意图；

图6为本发明实施例提供的文字特征提取方法的一种流程示意图；

图7为本发明实施例提供的字幕跟踪方法的另一种流程示意图；

图8为本发明实施例提供的字幕跟踪装置的一种结构示意图；

图9为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

相关技术中，可以提取视频帧中字幕区域的图像特征，通过匹配图像特征的方式判断视频帧中的字幕是否相同。但是，字幕区域的图像特征受到字幕区域背景画面的影响，不同视频帧中的视频画面不完全相同，因此即使两个视频帧中的字幕相同，也可能由于字幕所处图像区域中背景画面的变化，使得该两个视频帧中字幕所处图像区域的图像特征差别较大，使得该两个视频帧中字幕所处图像区域的图像特征差别较大，进而导致错误地将该两个视频帧判断为具有不同字幕的视频帧，字幕跟踪的精确度较差，这也进一步导致基于字幕跟踪结果实现的后续处理的精确度也较差。

基于此，本发明实施例提供了一种字幕跟踪方法，可以参见图1，图1所示为本发明实施例提供的字幕跟踪方法的一种流程示意图，可以包括：

S101，基于待处理视频中各视频帧的字幕位置信息与时序关系，对各视频帧进行第一聚类处理，得到多个第一视频帧集合，其中，任意一个第一视频帧集合中各视频帧的字幕位置信息相匹配。

S102，提取第一视频帧集合中各视频帧的文字特征。

S103，基于各视频帧的文字特征与时序关系，对各第一视频帧集合分别进行第二聚类处理，得到多个第二视频帧集合，其中，任意一个第二视频帧集合中各视频帧的文字特征相匹配。

其中，在S101中，各视频帧可以是待处理视频中的所有视频帧，也可以是待处理视频中的部分视频帧，示例性的，各视频帧可以通过对待处理视频进行抽帧得到的。

抽帧的方式根据应用场景的不同可以不同。例如，可以是按照视频帧所属秒从待处理视频中进行抽帧，以使得抽取的各视频帧所属秒不同。示例性的，在一种可能的实施例中，可以是抽取待处理视频中每一秒的第预设顺位帧，例如可以是抽取待处理视频中每一秒的第一帧，也可以是抽取待处理视频中每一秒的最后一帧，还可以是抽取待处理视频中每一秒的第三帧。在另一种可能的实施例中，也可以是在待处理视频中每一秒内随机抽取一帧。在又一种可能的实施例中，还可以是在待处理视频中每间隔两秒或两秒以上抽取一帧。下文中为描述方便，将各视频帧中从第i秒抽取出的视频帧记为P_i，例如P₂即为从第2秒抽取出的视频帧。

又例如，还可以是在待处理视频中每间隔预设间隔帧(如每间隔20帧、 60帧等)抽取一帧视频帧，也可以是在待处理视频中随机抽取视频帧，本实施例对此不做任何限制。

视频帧的字幕位置信息用于表示该视频帧中字幕所处的位置，字幕位置信息可以是对视频帧进行字幕检测和/或文本检测得到的，进行字幕检测和文本检测的设备可以是本发明实施例提供的字幕跟踪方法的执行主体，也可以是本发明实施例提供的字幕跟踪方法的执行主体以外的其他设备。

在一种可能的实施例中，本实施例中字幕所处的位置可以是指字幕所在最小多边形区域所处的位置，示例性的，如果视频帧中包括一行字幕，则该视频帧中字幕所处的位置可以是指该一行字幕所在最小多边形区域所处的位置，可以是用该多边形的所有顶点的顶点坐标的形式表示字幕位置信息。如果视频帧中包括多行字幕，则该视频帧中字幕所处的位置可以是指每行字幕各自所在最小多边形区域所处的位置的集合，可以是用每个多边形的所有顶点的顶点坐标的形式表示字幕位置信息。其中，多边形可以是指矩形，也可以是指五边形、六边形等其他多边形。

各视频帧的时序关系用于表示各视频帧在待处理视频中的先后顺序，同一个第一视频帧集合中任意相邻两帧视频帧为各视频帧中相邻的两帧视频帧。其中，各视频帧中相邻的两帧视频帧是指各视频帧中不存在时序位于该两帧视频帧之间的视频帧。以各视频帧是通过从待处理视频中每一秒抽取一帧得到的为例，抽帧得到的各视频帧中不存在时序位于P₂和P₃之间的视频帧，因此P₂和P₃为相邻的两帧视频帧，而由于各视频帧中存在时序位于P₂和P₄之间的P₃，因此 P₂和P₄不为相邻的两帧视频帧。

字幕位置信息匹配是指字幕位置信息所表示的位置相近，关于如何判断字幕位置信息是否匹配将在下文进行示例性说明，在此不再赘述。可以理解的是，如果两帧视频帧中字幕相同，则理论上该两帧视频帧中的字幕所处的位置应当相同，即该两帧视频帧的字幕位置信息匹配。反之，如果两帧视频帧的字幕位置信息不匹配，则可以认为该两帧视频帧中的字幕所处的位置不同，即该两帧视频帧中的字幕不同。因此，理论上同一第一视频帧集合中的视频帧为可能具有相同字幕的视频帧，而不同第一视频帧集合中的视频帧为具有不同字幕的视频帧。

在S102中，文字特征为用于表示图像中的文字的特征，提取文字特征的方式根据实际需求的不同而不同，示例性的，在一种可能的实施例中，可以是利用预先经过训练的文字识别(Optical Character Recognition，OCR)模型提取文字特征，关于如何利用OCR模型提取文字特征将在下文中进行详细说明，在此不再赘述。在其他可能的实施例中，也可以是通过除卷积神经网络以外的其他算法模型提取文字特征的。

在S103中，第二视频帧集合中任意相邻两帧视频帧为各视频帧中相邻的两帧视频帧。根据应用场景的不同判断文字特征是否匹配的方式可以不同。则在一种可能的实施例中，文字特征可以是以特征向量的形式表示，如此，可以是计算两个文字特征之间的特征距离，如果特征距离小于第一预设距离阈值，则确定该两个文字特征之间匹配，其中，特征距离可以包括但不限于：余弦距离、欧式距离、马氏距离等。在另一种可能的实施例中，也可以是依次针对特征向量中的每个维度，判断两个文字特征在该维度上的取值是否相等，如果该两个文字特征在预设数目以上个维度上的取值相等，则判断该两个文字特征之间匹配，其中，特征向量每个维度上的取值可以是用于表示字幕区域中一个子区域内文字的特征。

由于文字特征是表示图像的文字的特征，因此理论上如果两帧视频帧的文字特征相匹配，则可以认为该两帧视频帧中字幕具有相同的文字，又由于同一第一视频帧集合中各视频帧中字幕区域所处的位置匹配，因此如果同一第一视频帧集合中的两帧视频帧的文字特征匹配，则可以认为该两帧视频帧中字幕区域所处的位置相同且字幕具有相同的文字，此时可以判定该两帧视频帧具有相同的字幕。

反之，如果两帧视频帧的文字特征不匹配，则可以认为该两帧视频帧中字幕具有不同的文字，此时可以判定该两帧视频帧具有不同字幕。

因此，可以认为同一第二视频帧集合中的视频帧具有相同字幕，而不同第二视频帧集合中的视频帧具有不同字幕，因此根据得到的第二视频帧集合可以确定各字幕在待处理视频中的位置，即得到的多个第二视频帧集合可以作为字幕跟踪结果。

选用该实施例，可以根据字幕区域的位置对视频帧进行第一次聚类，由于理论上相同的字幕在不同视频帧中所处的位置应当相同，因此可以通过第一次聚类将可能具有相同字幕的视频帧划分至同一第一聚类组，降低将具有相同字幕的视频帧判断为具有不同字幕的视频帧的可能性，并在第一次聚类的基础上，利用同一第一视频帧集合中各视频帧的文字特征对视频帧进行第二次聚类，由于文字特征用于表征字幕所处图像区域的文字的特征，不会或者仅会携带较少的表征字幕所处图像区域中背景图像的图像特征，字幕所处图像区域中背景画面的变化对文字特征没有影响或影响较小，据此进行二次聚类，可以有效降低因背景画面变化导致错误地对视频帧进行分类的可能性，因此，也可以降低将具有不同字幕的视频帧判断为具有相同字幕的视频帧的可能性，可见，本发明实施例通过结合两次聚类处理，可以有效降低在字幕跟踪过程中发生错误判断的可能性，能够有效提高字幕跟踪的准确性。

为了更清楚的对本发明实施例提供的字幕跟踪方法进行说明，下面将分别对第二聚类处理和第一聚类处理的方式进行示例性的说明，在其他可能的实施例中也可以通过以下示例以外的其他方式进行第二聚类处理和第一聚类处理，以下示例对此不做任何限制。

关于第二聚类处理，可以参见图2a，图2a所示为本发明实施例提供的第二聚类处理的一种流程示意图，可以包括：

S201，基于第一视频帧集合中各视频帧的时序关系，对第一视频帧集合中任意相邻两帧视频帧的文字特征进行匹配，得到匹配结果。

S202，基于匹配结果，确定第二视频帧集合，其中，第二视频帧集合中各视频帧的文字特征相匹配。

其中，在S201中，由于对各第一视频帧集合进行第二聚类处理的原理是相同的，因此下文为描述方便，仅对一个第一视频帧集合进行第二聚类处理为例进行说明，并且假设该一个第一视频帧集合为{P_j，P_j+1，P_j+2，…，P_j+m}。则在 S201中，可以是分别对P_j和P_j+1、P_j+1和P_j+2、…、P_j+m-1和P_j+m的文字特征进行匹配，得到匹配结果。

第一视频帧集合中各视频帧的时序关系用于表示各视频帧在第一视频帧集合中的先后顺序。并且，本文中第一视频帧集合中相邻的两帧视频帧是指第一视频帧集合中不存在时序位于该两帧视频帧之间的视频帧。示例性的，由于第一视频帧集合中不存在时序位于P_j和P_j+1之间的视频帧，因此P_j和P_j+1为第一视频帧集合中相邻的两帧视频帧，而由于该第一视频帧集合中存在时序位于P_j和 P_j+2之间的P_j+1，因此P_j和P_j+2不为该第一视频帧集合中相邻的两帧视频帧。

在S202中，在一种可能的实施例中，可以当第一视频帧集合中相邻的两帧视频帧的文字特征匹配时，将该两帧视频帧划分至同一视频帧集合，当第一视频帧集合中相邻的两帧视频帧的文字特征不匹配时，将该两帧视频帧划分至不同的视频帧集合，从而得到第二视频帧集合。

示例性的，假设P_j、P_j+1和P_j+2的文字特征相互匹配，P_j+3、…、P_j+m的文字特征相互匹配，并且P_j+2和P_j+3的文字特征不匹配，则可以将该第一视频帧集合聚类为两个第二视频帧集合，并且该两个第二视频帧集合分别为{P_j，P_j+1，P_j+2}和对{P_j+3，…，P_j+m}。

在另一种可能的实施例中，也可以如图2b所示，其中S2021和S2022是对上述S202的细化，图2b所示为本发明实施例提供的第二聚类处理的另一种流程示意图。

S2021，基于匹配结果，确定候选视频帧集合，其中，候选视频帧集合中各视频帧的文字特征相匹配。

S2022，对候选视频帧集合进行向外搜索，得到第二视频帧集合。

在S2021中，任意一个候选视频帧集合中任意相邻两帧视频帧为各视频帧中相邻的两帧视频帧，并且为第一视频帧集合中相邻的两帧视频帧。为描述方便，下文中假设确定得到的候选视频帧集合包括{P_j，P_j+1，P_j+2}和{P_j+3，…，P_j+m}。

在S2022中，由于对{P_j，P_j+1，P_j+2}和对{P_j+3，…，P_j+m}进行向外搜索的原理相同，因此在此仅对如何对{P_j，P_j+1，P_j+2}进行向外搜索进行说明，对{P_j+3，…， P_j+m}进行向外搜索的方式同理可得。

可以理解的是，在待处理视频中还存在位于P_j-1与P_j之间以及P_j+2与P_j+3之间的中间视频帧，且这些中间视频帧不属于任何候选视频帧集合的范围之内，并且由于视频中台词与台词之间可能存在停顿，并非每帧视频帧中均存在字幕，因此这些中间视频帧可能存在与{P_j，P_j+1，P_j+2}具有相同字幕的视频帧，也可能存在与{P_j，P_j+1，P_j+2}具有不同字幕的视频帧。可以对{P_j，P_j+1，P_j+2}进行向外搜索，以确定这些中间视频帧中哪些视频帧与{P_j，P_j+1，P_j+2}中的视频帧具有相同的字幕。本文中一个视频帧属于一个视频帧集合是指该视频帧位于该视频帧集合的两个端点帧之间。

可以是对候选视频帧集合的任意一个端点，在第一方向上进行视频帧搜索，直至搜索到目标端点帧，其中，目标端点帧的文字特征与候选视频帧集合中视频帧的文字特征匹配，第一方向为与第二方向相反的方向，第二方向为该端点指向候选视频帧集合的另一个端点的方向。

其中，与候选视频帧集合中视频帧的文字特征匹配，可以是指与候选视频帧集合中所有视频帧的文字特征匹配，也可以是指与候选视频帧集合中部分视频帧的文字特征匹配，在一种可能的实施例中可以是指与位于该任意一个端点的端点帧的文字特征匹配。

示例性的，仍以候选视频帧集合为{P_j，P_j+1，P_j+2}为例，该候选视频帧集合中包括两个端点，为描述方便分别记为左端点和右端点(或者，也可记为起始端与终止端)，其中位于左端点的端点帧(下文记为起始帧)为P_j，位于右端点的端点帧(下文记为终止帧)为P_j+2。应当理解，对于任意一个候选视频帧集合而言，该候选视频帧集合的左端点、右端点所对应的第一方向并不相同。对于左端点，第一方向为从P_j指向P_j-1的方向，即右端点指向左端点的方向；对于右端点，第一方向为P_j+2指向P_j+3的方向，即左端点指向右端点的方向。在对左端点进行视频帧搜索时，搜索到的目标端点帧的文字特征与P_j(或者，候选视频帧集合中的任意一帧)的文字特征匹配，在对右端点进行视频帧搜索时，搜索到的目标端点帧的文字特征与P_j+2(或者，候选视频帧集合中的任意一帧) 的文字特征匹配。

在一种可能的实施例中，为充分提高字幕跟踪的精度，可以是对每个候选视频帧集合的左端点和右端点进行向外搜索，以实现帧级的字幕跟踪。

在另一种可能的实施例中，可以是只对左端点和右端点中的一个端点搜索目标端点帧，在另一种可能的实施例中，也可以是分别对左端点和右端点分别搜索目标端点帧。并且在又一种可能的实施例中，如果一个候选视频帧集合的起始帧与另一个候选视频帧集合的终止帧所属秒相邻，则可以不对该一个候选视频帧集合的左端点进行向外搜索，并且可以不对该另一个候选视频帧集合的右端点进行向外搜索，示例性的，候选视频帧集合{P_j，P_j+1，P_j+2}的终止帧为P_j+2，与候选视频帧集合{P_j+3，…，P_j+m}的起始帧为P_j+3，由于P_j+2和P_j+3所属秒相邻，因此可以不对候选视频帧集合{P_j，P_j+1，P_j+2}的右端点进行向外搜索，并且可以不对候选视频帧集合{P_j+3，…，P_j+m}的左端点进行向外搜索。

基于目标端点帧对候选帧集合进行调整，可以是将候选帧集合的端点调整至该目标端点帧，示例性的，假设对左端点搜索到的目标端点帧为视频帧A，对右端点搜索到的目标端点帧为视频帧B，则可以将候选视频帧集合的左端点调整至视频帧A，并将候选视频帧集合的右端点调整至视频帧B，得到第二视频帧集合{视频帧A，视频帧B}。

在第一方向上进行视频帧搜索的方式可以是在第一方向上，确定候选视频帧集合的相邻秒的视频帧，并在候选视频帧集合与相邻秒的视频帧之间的中间视频帧中，确定目标端点帧，其中，目标端点帧的第一特征距离小于第二特征距离，目标端点帧在第一方向上的相邻帧的第一特征距离大于第二特征距离，第一特征距离为中间视频帧的文字特征与候选视频帧集合中视频帧的文字特征之间的特征距离，第二特征距离为中间视频帧的文字特征与相邻秒的视频帧的文字特征之间的特征距离。

其中，当第一方向为前向时，在第一方向上相邻的一秒是指前一秒，即此时相邻秒为视频帧所属秒的前一秒，当第一方向为后向时，在第一方向上相邻的一秒是指后一秒，即此时相邻秒为视频帧所属秒的后一秒。

例如，以候选视频帧集合为{P_j，P_j+1，P_j+2}，对右端点在第一方向进行视频帧搜索，此时相邻秒为第j+2秒的下一秒，即第j+3秒，相邻秒的视频帧可以是待处理视频中第j+3秒的任意视频帧，示例性的可以是P_j+3。中间视频帧为位于 P_j+2与第j+3秒的视频帧之间的视频帧，第一特征距离可以是指中间视频帧的文字特征与P_j+2的文字特征之间的特征距离，又由于相邻秒为第j+3秒，因此第二特征距离可以是指中间视频帧的文字特征与待处理视频中属于第j+3秒的视频帧的文字特征之间的特征距离，待处理视频中属于第j+3秒的视频帧可以是指前述的P_j+3，也可以是指待处理视频中除P_j+3以外其他属于第j+3秒的视频帧。

可以理解的是，由于目标端点帧的第一特征距离小于第二特征距离，因此可以认为相对于待处理视频中属于相邻秒的视频帧，目标端点帧的文字特征更接近于候选视频帧集合，因此可以认为目标端点帧与候选视频帧集合中的视频帧具有相同的字幕，而与相邻秒的视频帧具有不同的字幕。

选用该实施例，可以通过对候选视频帧集合进行向外搜索，进一步确定不属于各候选视频帧集合的视频帧所属的第二视频帧集合，从而实现帧级的字幕跟踪。

下面将对如何搜索到目标端点帧进行示例性说明，并且为描述方便仍以候选视频帧集合为{P_j，P_j+1，P_j+2}，对右端点在第一方向进行视频帧搜索为例。为便于说明，假设相邻秒的视频帧为P_j+3，此时，P_j+2为第j+2秒中抽取的一帧视频帧，P_j+3为第j+3秒中抽取的一帧视频帧。

在一种可能的实施例中，可以参见图3，图3所示为本发明实施例提供的视频帧搜索方法的一种流程示意图，可以包括：

S301，在第一端点帧和第二端点帧之间选取查找视频帧，其中，第一端点帧初始时为P_j+2，第二端点帧初始时为P_j+3。

S302，判断查找视频帧的第一特征距离是否小于第二特征距离，如果查找视频帧的第一特征距离小于第二特征距离，执行303，如果查找视频帧的第一特征距离不小于第二特征距离，执行S304。

S303，以查找视频帧作为新的第一端点帧返回执行S301。

S304，以查找视频帧作为新的第二端点帧返回执行S301。

S305，直至无法在第一端点帧和第二端点帧之间选取新的查找视频帧，将当前的第一端点帧确定为目标端点帧。

选用该实施例，可以通过迭代的方式逐步搜索至目标端点帧，无需提取P_j+2与P_j+3之间每帧视频帧的文字特征，因此可以有效节省搜索目标端点帧所消耗的系统资源。

其中在S301中，查找视频帧初始是为P_j+2与P_j+3之间的一帧视频帧，示例性的，可以是P_j+2与P_j+3之间的第1/2帧，其中，两帧视频帧之间的第1/2帧是指位于该两帧视频帧正中间的视频帧，例如，假设P_j+2与P_j+3之间存在2n+1个视频帧，则P_j+2与P_j+3之间的第1/2帧可以是指这2n+1个视频帧中的第n+1个视频帧，又例如，假设P_j+2与P_j+3之间存在2n个视频帧，则P_j+2与P_j+3之间的第1/2帧可以是指这 2n个视频帧中的第n个视频帧或第n+1个视频帧。

并且，每次在选取新的查找视频帧时，可以是选取第一端点帧和第二端点帧之间的第1/2帧，也可以是选取第一端点帧之后或第二端点帧之前的第预设步进数目个视频帧作为新的查找视频帧，其中预设步进数目可以为任意大于1 的正整数。

在S302中，可以理解的是，如果查找视频帧的第一特征距离小于第二特征距离，则可以认为在查找视频帧与第二端点帧之间可能还存在其他第一特征距离小于第二特征距离的视频帧，即可以认为此时目标端点帧位于查找视频帧与第二端点帧之间，因此可以将查找视频帧作为新的第一端点帧返回执行S301的步骤(即执行S303的步骤)，以进一步在查找视频帧与第二端点帧之间查找目标端点帧。

反之，如果查找视频帧的第一特征距离不小于第二特征距离，则可以认为查找视频帧与P_j+3之间不存在其他第一特征距离小于第二特征距离的视频帧，此时可以认为目标端点帧应当位于查找视频帧与第一端点帧帧之间，因此可以将查找视频帧作为新的第二端点帧返回执行S301的步骤(即执行S304的步骤)，以进一步在第一端点帧与查找视频帧之间查找目标端点帧。

在S305中，无法选取新的查找视频帧可以是指待处理视频中不存在时序位于第一端点帧和第二端点帧之间的视频帧。在另一种可能的实施例中，也可以是当执行S301的次数达到预设次数阈值时，将将当前的第一端点帧确定为目标端点帧。

例如，以待处理视频中P_j+2与P_j+3之间还包括视频帧1、视频帧2和视频帧3 为例，此时第一端点帧为P_j+2，第二端点帧为P_j+3。此时在第一端点帧和第二端点帧之间选取查找视频帧，即是在P_j+2与P_j+3之间选取查找视频帧，假设选取的查找视频帧为视频帧2。

则可以判断视频帧2的第一文字特征距离是否小于第二文字特征距离。

假设视频帧2的第一文字特征距离小于第二文字特征距离，则将视频帧2作为新的第一端点帧，此时第一端点帧为视频帧2，第二端点帧为P_j+3。此时在第一端点帧和第二端点帧之间选取查找视频帧，即是在视频帧2与P_j+3之间选取查找视频帧，此时选取的查找视频帧必然是视频帧3。

判断视频帧3的第一文字特征距离是否小于第二文字特征距离。假设视频帧3的第一文字特征距离不小于第二文字特征距离，则将视频帧3作为新的第二端点帧，此时第一端点帧为视频帧2，第二端点帧为视频帧3。

由于视频帧2与视频帧3之间不存在其他视频帧，此时无法在第一端点帧和第二端点帧之间选取新的查找视频帧，因此将第一端点帧确定为目标端点帧，即将视频帧2确定为目标端点帧。

又例如，仍以待处理视频中P_j+2与P_j+3之间还包括视频帧1、视频帧2和视频帧3为例，可以是在P_j+2与P_j+3之间选取视频帧，假设选取的视频帧为视频帧2。

如果视频帧2的第一文字特征距离小于第二文字特征距离，则进一步在视频帧2与P_j+3之间选取视频帧，此时选取的视频帧必然为视频帧3。并判断视频帧3的第一文字特征距离是否小于第二文字特征距离。

假设视频帧3的第一文字特征距离不小于第二文字特征距离，由于视频帧3 与视频帧2之间不存在其他视频帧，并且由于视频帧2的文字特征更接近于P_j+2，的文字特征，而视频帧3的文字特征P_j+3的文字特征，因此可以将视频帧2确定为目标端点帧。

对于对P_j在第一方向上进行视频帧搜索的方式，原理与对P_j+2在第一方向上进行视频帧搜索的方式相同，区别仅在于第一方向的指向不同，且第一端点帧和第二端点帧初始时不同，因此在此不再赘述。

在一种可能的实施例中，可以参见图4，图4所示为本发明实施例提供的视频帧搜索方法的另一种流程示意图，可以包括：

S401，针对P_j+2与P_j+3之间任意相邻两帧视频帧，计算该相邻两帧视频帧的文字特征之间的特征距离。

S402，判断计算得到的各特征距离是否小于第二预设距离阈值，得到判断结果。

S403，基于判断结果，在P_j+2与P_j+3之间确定目标端点帧。

选用该实施例，对P_j+2与P_j+3之间的各视频帧所采取的处理方式相同，因此可以采用批处理的方式提高频帧搜索的效率。

其中，在S401中，假设待处理视频中P_j+2与P_j+3之间还存在视频帧1、视频帧 2、…、视频帧n，其中视频帧1与P_j+2相邻，视频帧n与P_j+3相邻。则可以是分别提取视频帧1、视频帧2、…、视频帧n的文字特征，则可以计算出P_j+2与视频帧 1、视频帧1与视频帧2、视频帧2与视频帧3、…、视频帧n与P_j+3的文字特征之间的特征距离。实际实现过程中，可以逐帧进行计算；或者，也可以无需全部进行计算，而是在P_j+2与P_j+3之间选择任意相邻的两帧视频帧进行计算。

示例性的，可以是从第三端点帧和第四端点帧之间选取任一视频帧，计算该视频帧与该视频帧相邻的视频帧之间的特征距离，如果计算得到的特征距离小于第二预设距离阈值，则将所选取的视频帧作为新的第三端点帧返回执行从第三端点帧和第四端点帧之间选取任一视频帧的步骤；如果计算得到的特征距离不小于第二预设距离阈值，则将所选取的视频帧作为新的第四端点帧，并返回执行从第三端点帧和第四端点帧之间选取任一视频帧的步骤，直至无法从第三端点帧和第四端点帧之间选取新的视频帧，或者，从第三端点帧和第四端点帧之间选取视频帧的次数达到预设次数阈值，将第三端点帧确定为目标端点帧。

在S402中，第二预设距离阈值可以与前述第一预设距离阈值相同，也可以与前述第一预设距离阈值不同，

在S403中，可以理解的是，假设视频帧i与视频帧i+1的文字特征之间的特征距离大于第二预设距离阈值，则可以认为视频帧i与视频帧i+1之间的文字特征相差较大，即相较于视频帧i+1的文字特征，视频帧i的文字特征更接近于时序位于视频帧i之前的视频帧的文字特征，同理，相较于视频帧i的文字特征，视频帧i+1的文字特征更接近于时序位于视频帧i+1之后的视频帧的文字特征。

因此可以认为视频帧i之前的视频帧与视频帧i+1之后的视频帧具有不同的字幕，即视频帧i之前的视频帧的文字特征与视频帧i+1之后的视频帧的文字特征不匹配。因此可以根据判断结果，确定出具有与P_j+2的文字特征相匹配的文字特征的目标端点帧。

示例性的，假设P_j+2与视频帧1、视频帧1与视频帧2的文字特征之间的特征距离小于第二预设距离阈值，而视频帧2与视频帧3的文字特征之间的特征距离不小于第二预设距离阈值，则可以确定P_j+2、视频帧1以及视频帧2的文字特征相匹配，而P_j+2与视频帧3的文字特征不相匹配，因此可以将视频帧2确定为目标端点帧，也可以是将视频帧1确定为目标端点帧。

关于第一聚类处理，可以参见图5，图5所示为本发明实施例提供的第一聚类处理的一种流程示意图，可以包括：

S501，确定待处理视频中各视频帧的字幕位置信息，字幕位置信息包括目标行字幕所在最小矩形区域的位置信息。

S502，获取任意相邻两帧视频帧的字幕位置信息的重合程度。

S503，基于重合程度与各视频帧的时序关系，将各视频帧划分为多个第一视频帧集合，其中，任意一个第一视频帧集合中任意相邻两帧视频帧之间的重合程度大于预设的重合程度阈值。

选用该实施例，由于是基于目标行字幕所在最小矩形区域的重合程度对各视频帧进行聚类的，利用不同字幕中目标行字幕所处区域不同的特点，从而更准确地进行第一聚类处理。

其中，在S501中目标行字幕可以包括视频帧中的所有行的字幕，或者，视频帧中部分行的字幕。视频帧中可以包括一行或多行字幕，在一种可能的实施例中，可以是将视频帧中所有行的字幕作为目标行字幕；或者，在另一种可能的实施例中，也可以是将其中部分行的字幕作为目标行字幕，例如可以是将其中上数第一行的字幕作为目标行字幕。

可以理解的是，如果两个视频帧中的字幕相同，则两个视频帧中每一行的字幕均相同，因此即使目标行字幕只包括视频帧的部分行的字幕，当两个视频帧的目标行字幕所在最小矩形区域不同时，也可以确定该两个视频帧具有不同的字幕，并且由于只需比较视频帧中部分行的字幕，因此可以有效节省计算量。

在S502中，重合程度可以是通过交并比(Intersection-Over-Union，IOU) 的形式表示的，也可以是通过IOU以外的其他形式表示的。示例性的，假设两帧视频帧中一视频帧的字幕位置信息表示区域A，另一视频帧的字幕位置信息表示区域B，则可以是计算区域A与区域B的重叠区域的面积，记为area1，并计算区域A与区域B合并后所形成的合并区域的面积，记为area2，则可以是以 area1/area2作为该两帧视频帧的字幕位置信息的重合程度。

在S503中，重合程度阈值可以根据实际需求进行设置。如果相邻两帧视频帧中任意一帧视频帧内不存在字幕，则理论上重叠区域的面积为0，此时计算得到的重合程度理论上必然小于预设的重合程度阈值。在另一种可能的实施例中，在相邻两帧视频帧中任意一帧视频帧内不存在字幕时也可以无需计算重合程度，而是直接将该两帧视频帧划分至不同的第一视频帧集合中。

下面将对文字特征的提取进行说明，可以参见图6，图6所示为本发明实施例提供的文字特征提取方法的一种流程示意图，可以包括：

S601，获取第一视频帧集合中各视频帧的字幕区域图像。

S602，针对第一视频帧集合中各视频帧中任意一视频帧，利用预先训练的 OCR模型对该视频帧的字幕区域图像进行处理，得到OCR模型输出的卷积神经网络(Convolutional Neural Networks，CNN)特征，以作为该视频帧的文字特征。

选用该实施例，可以利用OCR模型提取到的CNN特征不会或仅会较少地反映字幕区域图像中图像的特征的特点，使得提取到的文字特征能够准确地表示字幕区域图像中的文字的特征，从而提高字幕跟踪的鲁棒性。

其中，OCR模型主要用于文字识别。OCR模型可以包括主干网络和分类网络，主干网络用于提取输入的图像的文字特征，并将提取到的文字特征输入至分类网络，分类网络基于提取到的文字特征识别输入的图像中存在的文字，得到文字识别结果。

在训练OCR模型时，可以是将预先标注有文字识别结果的样本图像输入至 OCR模型，并得到OCR模型输出的文字识别结果，基于OCR模型输出的文字识别结果与样本图像所标注的文字识别结果构建损失函数，并根据损失函数调整 OCR模型的模型参数。

在利用OCR模型提取文字特征时，可以是获取OCR模型中主干网络输出的文字特征，作为输入至OCR模型的图像的文字特征。可以理解的是，受限制于各种条件，OCR模型输出的文字识别结果可能存在一定误差，示例性的，OCR 模型可能将两个相似的文字识别为同一文字，即当两个视频帧中的文字相似时，该两个视频帧的文字识别结果可能完全相同，但是即使两个视频帧中的文字相似，该两个视频帧的文字特征也不会完全相同，因此相较于文字识别结果，文字特征能够更准确地反映出视频帧中是否具有不同的字幕。

参见图7，图7所示为本发明实施例提供的字幕跟踪方法的另一种流程示意图，可以包括：

S701，对待处理视频进行抽帧，得到待处理视频的各视频帧，其中，任意两帧视频帧所属秒不同。

S702，基于待处理视频中各视频帧的字幕位置信息与时序关系，对各视频帧进行第一聚类处理，得到多个第一视频帧集合，其中，任意一个第一视频帧集合中各视频帧的字幕位置信息相匹配。

S703，获取第一视频帧集合中各视频帧的字幕区域图像。

S704，针对第一视频帧集合中各视频帧中任意一视频帧，利用预先训练的 OCR模型对该视频帧的字幕区域图像进行处理，得到OCR模型输出的CNN特征，以作为该视频帧的文字特征。

S705，基于第一视频帧集合中各视频帧的时序关系，对第一视频帧集合中任意相邻两帧视频帧的文字特征进行匹配，得到匹配结果。

S706，基于匹配结果，确定候选视频帧集合，其中，候选视频帧集合中各视频帧的文字特征相匹配。

S707，对候选视频帧集合进行向外搜索，得到第二视频帧集合。

其中，关于S701-S707可以参见前述相关描述，在此不再赘述。

可以理解的是，得到的第二视频帧集合中各视频帧中字幕所处的位置匹配，且文字特征匹配，因此每个第二视频帧集合中各视频帧为具有相同字幕的视频帧，因此第二视频帧集合能够表示待处理视频中各字幕出现的视频片段，示例性的，假设一个第二视频帧集合为{视频帧A，…，视频帧B}，则可以确定待处理视频中从视频帧A直至视频帧B这一视频片段内的字幕相同。因此，第二视频帧集合可以反映字幕在待处理视频中的位置，即可以作为字幕跟踪结果。

在得到第二视频帧集合之后，根据应用场景的不同，可以采取不同的后续处理。为了更清楚的对本发明实施例提供的字幕跟踪方法进行说明，下面将对本发明实施例提供的字幕跟踪方法的可能的应用场景进行示例性的说明，以下示例仅是本发明实施例提供的字幕跟踪方法的一种可能的应用场景，在其他可能的实施例中本发明实施例提供的字幕跟踪方法也可以应用于其他可能的应用场景中，以下示例对此不做任何限制。

应用场景一：

在对视频帧中的字幕进行翻译时，具有相同字幕的视频帧可以采用相同的方式进行翻译，因此为提高翻译效率可以通过字幕跟踪在视频中确定出具有相同字幕的视频帧。

基于该应用场景，在一种可能的实施例中，可以是利用第二视频帧集合，对待处理视频进行视频帧截取，并按照各第二视频帧集合的时序关系，对截取的视频帧进行拼接，得到目标视频，其中，目标视频用于进行二次字幕处理。

选用该实施例，可以将具有相同字幕的视频帧拼接为目标视频，由于目标视频中各视频帧具有相同的字幕，因此可以对各视频帧进行相同的二次字幕处理，即可以有效提高二次字幕处理的效率。

示例性的，假设存在第二视频帧集合{视频帧A，视频帧B}，则可以是在待处理视频中截取视频帧A至视频帧B之间的所有视频帧，并将截取的视频帧按照与待处理视频中相同的先后顺序进行拼接，得到目标视频，该目标视频中的各视频帧具有相同的字幕。二次字幕处理包括但不限于翻译、转义、标注等处理。

应用场景二：

用户可能希望直接从视频中的指定位置开始继续观看，然而相关技术中用户可能无法直接在视频中定位该指定位置，需要以快进的方式浏览视频并确定出该指定位置，消耗的时间较多。

基于此，在另一种可能的实施例中，也可以是根据各第二视频帧集合，确定各字幕文本所对应的播放时间，并根据字幕文本所对应的播放时间，生成并存储字幕文件，其中，字幕文件中对应存储字幕文本与播放时间。

选用该实施例，可以生成能够表示字幕文本与播放时间之间对应关系的字幕文件，从而能够精确定位各字幕文本在待处理视频中的播放时间，以便于用户根据字幕文本定位待处理视频中的指定位置。

其中，各字幕文本所对应的播放时间，可以是以该字幕文本所对应的第二视频帧集合的端点帧的时间戳的形式表示的，字幕文本所对应的第二视频帧集合是指由具有包含该字幕文本的字幕的视频帧构成的第二视频帧集合。示例性的，假设一字幕文本所对应的第二视频帧集合为{视频帧A，视频帧B}，且视频帧A的时间戳为1:00:00，视频帧B的时间戳为1:03:08，则该字幕文本对应的播放时间为1:00:00-1:03:08。

在生成并存储字幕文件后，可以响应于接收到字幕检索指令，获取字幕检索指令对应的目标字幕文本，在字幕文件中对目标字幕文本进行检索，得到目标字幕文本对应的目标播放时间，将当前播放进度跳转至目标播放时间，并继续播放待处理视频。

选用该实施例，用户可以利用字幕检索指令在待处理视频中定位出目标字幕文本出现的位置，并从该位置继续观看待处理视频，无需以快进的方式浏览视频并确定出指定位置，消耗的时间较少。

参见图8，图8所示为本发明实施例提供的字幕跟踪装置的一种结构示意图，可以包括：

第一聚类模块801，用于基于待处理视频中各视频帧的字幕位置信息与时序关系，对各视频帧进行第一聚类处理，得到多个第一视频帧集合，其中，任意一个所述第一视频帧集合中各视频帧的字幕位置信息相匹配；

特征提取模块802，用于提取所述第一视频帧集合中各视频帧的文字特征；

第二聚类模块803，用于基于各视频帧的文字特征与所述时序关系，对各第一视频帧集合分别进行第二聚类处理，得到多个第二视频帧集合，其中，任意一个所述第二视频帧集合中各视频帧的文字特征相匹配。

在一种可能的实施例中，所述第二聚类模块803，具体用于基于第一视频帧集合中各视频帧的时序关系，对所述第一视频帧集合中任意相邻两帧视频帧的文字特征进行匹配，得到匹配结果；

基于匹配结果，确定候选视频帧集合，其中，所述候选视频帧集合中各视频帧的文字特征相匹配；

对所述候选视频帧集合进行向外搜索，得到所述第二视频帧集合。

在一种可能的实施例中，所述第二聚类模块803对所述候选视频帧集合进行向外搜索，得到所述第二视频帧集合，包括：

对所述候选视频帧集合的任意一个端点，在第一方向上进行视频帧搜索，直至搜索到目标端点帧，所述目标端点帧的文字特征与所述候选视频帧集合中视频帧的文字特征匹配；其中，所述第一方向为与第二方向相反的方向，所述第二方向为该端点指向所述候选视频帧集合的另一个端点的方向；

基于所述目标端点帧对所述候选帧集合进行调整，得到所述第二视频帧集合。

在一种可能的实施例中，所述第二聚类模块803在第一方向上进行视频帧搜索，直至搜索到目标端点帧，包括：

在第一方向上，确定所述候选视频帧集合的相邻秒的视频帧；

在所述候选视频帧集合与所述相邻秒的视频帧之间的中间视频帧中，确定所述目标端点帧，其中，所述目标端点帧的第一特征距离小于第二特征距离，所述目标端点帧在所述第一方向上的相邻帧的第一特征距离大于所述第二特征距离；其中，所述第一特征距离为中间视频帧的文字特征与所述候选视频帧集合中视频帧的文字特征之间的特征距离，所述第二特征距离为中间视频帧的文字特征与所述相邻秒的视频帧的文字特征之间的特征距离。

在一种可能的实施例中，所述第一聚类模块801，具体用于确定所述待处理视频中各视频帧的字幕位置信息，所述字幕位置信息包括：目标行字幕所在最小矩形区域的位置信息；

获取任意相邻两帧视频帧的字幕位置信息的重合程度；

基于所述重合程度与各视频帧的时序关系，将各视频帧划分为多个第一视频帧集合，其中，任意一个所述第一视频帧集合中任意相邻两帧视频帧之间的重合程度大于预设的重合程度阈值。

在一种可能的实施例中，所述目标行字幕包括：所述视频帧中的所有行的字幕；或者，所述视频帧中部分行的字幕。

在一种可能的实施例中，所述装置还包括抽帧模块，用于对所述待处理视频进行抽帧，得到所述待处理视频的各视频帧，其中，任意两帧所述视频帧所属秒不同。

在一种可能的实施例中，所述特征提取模块802，具体用于获取所述第一视频帧集合中各视频帧的字幕区域图像；

针对所述第一视频帧集合中各视频帧中任意一帧视频帧，利用预先训练的文字识别OCR模型对该视频帧的所述字幕区域图像进行处理，得到所述OCR 模型输出的卷积神经网络CNN特征，以作为该视频帧的所述文字特征。

在一种可能的实施例中，所述装置还包括字幕处理模块，用于利用所述第二视频帧集合，对所述待处理视频进行视频帧截取；

按照各所述第二视频帧集合的时序关系，对截取的视频帧进行拼接，得到目标视频，其中，所述目标视频用于进行二次字幕处理。

在一种可能的实施例中，所述装置还包括文件生成模块，用于根据各第二视频帧集合，确定各字幕文本所对应的播放时间；

根据各字幕文本所对应的播放时间，生成并存储字幕文件，其中，所述字幕文件中对应存储字幕文本与所述播放时间。

在一种可能的实施例中，所述装置还包括视频播放模块，用于响应于接收到字幕检索指令，获取所述字幕检索指令对应的目标字幕文本；

在所述字幕文件中对所述目标字幕文本进行检索，得到所述目标字幕文本对应的目标播放时间；

将当前播放进度跳转至所述目标播放时间，并继续播放所述待处理视频。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述任一所述的方法实施例的步骤：

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的字幕跟踪方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的字幕跟踪方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品的实施例，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种字幕跟踪方法，其特征在于，所述方法包括：

提取所述第一视频帧集合中各视频帧的文字特征；

基于各视频帧的文字特征与所述时序关系，对各第一视频帧集合分别进行第二聚类处理，得到多个第二视频帧集合，其中，任意一个所述第二视频帧集合中各视频帧的文字特征相匹配；

所述基于各视频帧的文字特征与所述时序关系，对各第一视频帧集合分别进行第二聚类处理，得到多个第二视频帧集合，包括：

基于第一视频帧集合中各视频帧的时序关系，对所述第一视频帧集合中任意相邻两帧视频帧的文字特征进行匹配，得到匹配结果；

对所述候选视频帧集合进行向外搜索，得到所述第二视频帧集合；

所述对所述候选视频帧集合进行向外搜索，得到所述第二视频帧集合，包括：

基于所述目标端点帧对所述候选视频帧集合进行调整，得到所述第二视频帧集合；

所述在第一方向上进行视频帧搜索，直至搜索到目标端点帧，包括：

在所述候选视频帧集合与所述相邻秒的视频帧之间的中间视频帧中，确定所述目标端点帧，其中，所述目标端点帧的第一特征距离小于第二特征距离，所述目标端点帧在所述第一方向上的相邻帧的第一特征距离大于第二特征距离；其中，所述第一特征距离为所述中间视频帧的文字特征与所述候选视频帧集合中视频帧的文字特征之间的特征距离，所述第二特征距离为所述中间视频帧的文字特征与所述相邻秒的视频帧的文字特征之间的特征距离。

2.根据权利要求1所述的方法，其特征在于，所述基于待处理视频中各视频帧的字幕位置信息与时序关系，对各视频帧进行第一聚类处理，得到多个第一视频帧集合，包括：

确定所述待处理视频中各视频帧的字幕位置信息，所述字幕位置信息包括：目标行字幕所在最小矩形区域的位置信息；

获取任意相邻两帧视频帧的字幕位置信息的重合程度；

3.根据权利要求2所述的方法，其特征在于，所述目标行字幕包括：所述视频帧中的所有行的字幕；或者，所述视频帧中部分行的字幕。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述待处理视频进行抽帧，得到所述待处理视频的各视频帧，其中，任意两帧所述视频帧所属秒不同。

5.根据权利要求1所述的方法，其特征在于，所述提取所述第一视频帧集合中各视频帧的文字特征，包括：

获取所述第一视频帧集合中各视频帧的字幕区域图像；

针对所述第一视频帧集合中各视频帧中任意一帧视频帧，利用预先训练的文字识别OCR模型对该视频帧的所述字幕区域图像进行处理，得到所述OCR模型输出的卷积神经网络CNN特征，以作为该视频帧的所述文字特征。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用所述第二视频帧集合，对所述待处理视频进行视频帧截取；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据各第二视频帧集合，确定各字幕文本所对应的播放时间；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

响应于接收到字幕检索指令，获取所述字幕检索指令对应的目标字幕文本；

9.一种字幕跟踪装置，其特征在于，所述装置包括：

第二聚类模块，用于基于各视频帧的文字特征与所述时序关系，对各第一视频帧集合分别进行第二聚类处理，得到多个第二视频帧集合，其中，任意一个所述第二视频帧集合中各视频帧的文字特征相匹配；

所述第二聚类模块，具体用于基于第一视频帧集合中各视频帧的时序关系，对所述第一视频帧集合中任意相邻两帧视频帧的文字特征进行匹配，得到匹配结果；

所述第二聚类模块对所述候选视频帧集合进行向外搜索，得到所述第二视频帧集合，包括：

所述第二聚类模块在第一方向上进行视频帧搜索，直至搜索到目标端点帧，包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。