CN114463376A

CN114463376A - 视频文字跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN114463376A
Application number: CN202111601711.0A
Authority: CN
Inventors: 李壮
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-10
Anticipated expiration: 2041-12-24
Also published as: CN114463376B; WO2023115838A1

Abstract

本公开关于一种视频文字跟踪方法、装置、电子设备及存储介质，该方法包括：待处理视频中提取出多个视频帧；获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及所述文字区域对应的图像特征；根据所述文字序列特征、所述位置特征以及所述图像特征，得到所述每个视频帧对应的融合特征描述子；基于所述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到所述待处理视频中的文字的跟踪轨迹；所述跟踪轨迹用于表征文字的位置信息。本公开能够提高视频文字跟踪轨迹确定的准确率。

Description

视频文字跟踪方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频文字跟踪方法、装置、电子设备及存储介质。

背景技术

视频内包含大量文字信息，该文字信息可以用于视频中的目标的客观描述和场景的主观总结。视频中的文字具有起止时间、位置变化、文字内容等信息，如何正确跟踪视频中的文字，是视频理解的关键步骤。

相关技术中，通常将视频处理成多帧图像，再对每帧图像逐个进行文字检测和文字识别，得到视频级别的文字跟踪结果。然而相关技术中的方法使得视频文字跟踪的准确率较低。

发明内容

本公开提供一种视频文字跟踪方法、装置、电子设备及存储介质，以至少解决相关技术中的视频文字跟踪的准确率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频文字跟踪方法，包括：

从待处理视频中提取出多个视频帧；

获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及所述文字区域对应的图像特征；

根据所述文字序列特征、所述位置特征以及所述图像特征，得到所述每个视频帧对应的融合特征描述子；

基于所述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到所述待处理视频中的文字的跟踪轨迹；所述跟踪轨迹用于表征文字的位置信息。

在一示例性的实施方式中，所述获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及所述文字区域对应的图像特征，包括：

从所述每个视频帧中确定出所述文字区域；

编码所述文字区域的位置信息，得到所述位置特征；

基于所述文字区域的位置信息，从所述每个视频帧中提取出所述图像特征；

解码所述图像特征，得到所述文字序列特征。

在一示例性的实施方式中，所述从所述每个视频帧中确定出所述文字区域，包括：

对所述每个视频帧进行特征提取，得到所述每个视频帧对应的特征图；

确定所述特征图对应的文字区域热图；所述文字区域热图表征所述特征图中的文字区域和非文字区域；

对所述文字区域热图进行连通域分析，得到所述文字区域。

在一示例性的实施方式中，所述基于所述文字区域的位置信息，从所述每个视频帧中提取出所述图像特征，包括：

将所述文字区域的位置信息映射到所述特征图中，得到位置映射结果；

从所述特征图中提取出位于所述位置映射结果中的图像，得到所述图像特征。

在一示例性的实施方式中，所述根据所述文字序列特征、所述位置特征以及所述图像特征，得到所述每个视频帧对应的融合特征描述子，包括：

拼接所述文字序列特征、所述位置特征以及所述图像特征，得到所述每个视频帧对应的融合特征；

调整所述融合特征的尺寸，得到所述融合特征描述子。

在一示例性的实施方式中，所述多个视频帧为在时间轴上连续的多个视频帧，所述基于所述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到所述待处理视频中的文字的跟踪轨迹，包括：

按顺序依次遍历所述每个视频帧，并在遍历所述每个视频帧时，执行以下操作：将所述每个视频帧作为当前视频帧；将所述当前视频帧对应的当前融合特征描述子，与所述预设的跟踪轨迹中的预设文字区域对应的预设融合特征描述子进行相似度匹配，得到所述当前视频帧对应的相似度匹配结果；基于所述相似度匹配结果、所述当前融合特征描述子和所述当前视频帧对应的当前文字区域，更新所述预设的跟踪轨迹，得到所述当前视频帧对应的更新后的跟踪轨迹；将所述更新后的跟踪轨迹重新作为所述预设的跟踪轨迹；所述顺序表征所述每个视频帧在所述时间轴上的顺序；

将排序最后的视频帧对应的更新后的跟踪轨迹，作为所述待处理视频中的文字的跟踪轨迹。

在一示例性的实施方式中，所述基于所述相似度匹配结果、所述当前融合特征描述子和所述当前视频帧对应的当前文字区域，更新所述预设的跟踪轨迹，得到所述当前视频帧对应的更新后的跟踪轨迹，包括：

在所述相似度匹配结果小于预设相似度阈值的情况下，基于所述当前文字区域更新所述预设文字区域，并基于所述当前融合特征描述子更新所述预设融合特征描述子，得到所述更新后的跟踪轨迹。

在所述相似度匹配结果大于或等于预设相似度阈值的情况下，将所述当前文字区域和所述当前融合特征描述子添加至所述预设的跟踪轨迹中，得到所述更新后的跟踪轨迹。

根据本公开实施例的第二方面，提供一种视频文字跟踪装置，包括：

提取模块，被配置为执行从待处理视频中提取出多个视频帧；

特征获取模块，被配置为执行获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及所述文字区域对应的图像特征；

描述子获取模块，被配置为执行根据所述文字序列特征、所述位置特征以及所述图像特征，得到所述每个视频帧对应的融合特征描述子；

跟踪轨迹确定模块，被配置为执行基于所述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到所述待处理视频中的文字的跟踪轨迹；所述跟踪轨迹用于表征文字的位置信息。

在一示例性的实施方式中，所述特征获取模块，包括：

文字区域确定单元，被配置为执行从所述每个视频帧中确定出所述文字区域；

位置特征获取单元，被配置为执行编码所述文字区域的位置信息，得到所述位置特征；

图像特征提取单元，被配置为执行基于所述文字区域的位置信息，从所述每个视频帧中提取出所述图像特征；

文字序列特征获取单元，被配置为执行解码所述图像特征，得到所述文字序列特征。

在一示例性的实施方式中，所述文字区域确定单元，包括：

特征图确定子单元，被配置为执行对所述每个视频帧进行特征提取，得到所述每个视频帧对应的特征图；

文字区域热图确定子单元，被配置为执行确定所述特征图对应的文字区域热图；所述文字区域热图表征所述特征图中的文字区域和非文字区域；

连通域分析子单元，被配置为执行对所述文字区域热图进行连通域分析，得到所述文字区域。

在一示例性的实施方式中，所述图像特征提取单元，包括：

映射子单元，被配置为执行将所述文字区域的位置信息映射到所述特征图中，得到位置映射结果；

图像特征提取子单元，被配置为执行从所述特征图中提取出位于所述位置映射结果中的图像，得到所述图像特征。

在一示例性的实施方式中，所述描述子获取模块，包括：

拼接单元，被配置为执行拼接所述文字序列特征、所述位置特征以及所述图像特征，得到所述每个视频帧对应的融合特征；

调整单元，被配置为执行调整所述融合特征的尺寸，得到所述融合特征描述子。

在一示例性的实施方式中，所述多个视频帧为在时间轴上连续的视频帧，所述跟踪轨迹确定模块，包括：

相似度匹配单元，被配置为执行按顺序依次遍历所述每个视频帧，并在遍历所述每个视频帧时，执行以下操作：将所述每个视频帧作为当前视频帧；将所述当前视频帧对应的当前融合特征描述子，与所述预设的跟踪轨迹中的预设文字区域对应的预设融合特征描述子进行相似度匹配，得到所述当前视频帧对应的相似度匹配结果；基于所述相似度匹配结果、所述当前融合特征描述子和所述当前视频帧对应的当前文字区域，更新所述预设的跟踪轨迹，得到所述当前视频帧对应的更新后的跟踪轨迹；将所述更新后的跟踪轨迹重新作为所述预设的跟踪轨迹；所述顺序表征所述每个视频帧在所述时间轴上的顺序；

跟踪轨迹确定单元，被配置为执行将排序最后的视频帧对应的更新后的跟踪轨迹，作为所述待处理视频中的文字的跟踪轨迹。

在一示例性的实施方式中，所述相似度匹配单元，被配置为执行在所述相似度匹配结果小于预设相似度阈值的情况下，基于所述当前文字区域更新所述预设文字区域，并基于所述当前融合特征描述子更新所述预设融合特征描述子，得到所述更新后的跟踪轨迹。

在一示例性的实施方式中，所述相似度匹配单元，被配置为执行在所述相似度匹配结果大于或等于预设相似度阈值的情况下，将所述当前文字区域和所述当前融合特征描述子添加至所述预设的跟踪轨迹中，得到所述更新后的跟踪轨迹。

根据本公开实施例的第三方面，提供一种视频文字跟踪的电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述所述的视频文字跟踪方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如上述所述的视频文字跟踪方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述所述的视频文字跟踪方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例对从待处理视频中抽取多个视频帧，根据每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及所述文字区域对应的图像特征，得到每个视频帧对应的融合特征描述子，并基于每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到待处理视频中的文字的跟踪轨迹。由于待处理视频中的文字的跟踪轨迹的确定充分考虑了文字的文字序列特征、位置特征和图像特征，文字跟踪的准确率较高；此外，由于本公开根据融合特征描述子更新预设的跟踪轨迹之后，即可得到视频中文字的跟踪轨迹，避免通过多个模型(文字检测、文字识别、其他模型等)对每帧图像继续进行处理，降低视频文字跟踪过程对计算资源的消耗。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频文字跟踪方法的实施环境示意图。

图2是根据一示例性实施例示出的一种视频文字跟踪方法的流程图。

图3是根据一示例性实施例示出的一种确定文字序列特征、位置特征和图像特征的流程图。

图4是根据一示例性实施例示出的一种通过预设的文字跟踪网络从每个视频帧中确定出相应的文字区域的流程图。

图5是根据一示例性实施例示出的一种预设的文字跟踪网络示意图。

图6是根据一示例性实施例示出的一种通过上述文字跟踪网络得到上述融合特征描述子的流程图。

图7是根据一示例性实施例示出的更新预设的跟踪轨迹，得到上述待处理视频中的文字的跟踪轨迹的流程图。

图8是根据一示例性实施例示出的一种视频文字跟踪装置框图。

图9是根据一示例性实施例示出的一种用于视频文字跟踪的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频文字跟踪方法的实施环境示意图。如图1所示，该实施环境至少可以包括客户端01和服务器02。

其中，该客户端01可以用于采集待处理视频。可选地，该客户端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视、智能语音交互设备等，但并不局限于此。客户端01以及服务器02可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

其中，该服务器02可以用于接收客户端01发送的待处理视频；以及用于从待处理视频中提取出多个视频帧；以及用于获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及上述文字区域对应的图像特征；以及用于根据上述文字序列特征、上述位置特征以及上述图像特征，得到上述每个视频帧对应的融合特征描述子；以及用于基于上述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到上述待处理视频中的文字的跟踪轨迹。可选地，该服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

需要说明的是，图1仅仅是本申请实施例提供的视频文字跟踪方法的一种实施环境，在实际应用中，还可以包括其他实施环境。比如，仅包含客户端的实施例环境。

图2是根据一示例性实施例示出的一种视频文字跟踪方法的流程图，如图2所示，该方法可以用于图1中包含客户端和服务器的系统中，包括以下步骤。

在步骤S11中，从待处理视频中提取出多个视频帧。

可选地，该多个视频帧为在时间轴上连续的视频帧。

本公开实施例中，可以采用多种方式从待处理视频中提取出多个视频帧，本公开在此不做具体限定。

在一种示例性的实施例中，可以使用FFmpeg将视频抽取成连续的图像。经过抽帧后，该待处理视频帧被展开成n个在时间上连续的图像帧，可以表示为Frame-1,…Frame-t,…,Frame-n，其中Frame-t代表在待处理视频中时间位置为t的视频帧，n为大于1的正整数。其中，FFmpeg是一套可以用来记录、转换数字视频，并能将其转化为流的开源计算机程序。其提供了录制、转换以及流化音视频的完整解决方案。

在另一种示例性的实施例中，还可以通过其他视频流解码技术，将待处理视频处理成在时间轴上连续的多个视频帧。

在步骤S13中，获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及上述文字区域对应的图像特征。

在一种可选的实施例中，在抽取出多个连续的视频帧之后，可以按每个视频帧在时间轴上的顺序，依次获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及上述文字区域对应的图像特征。例如，连续视频帧为Frame-1，…Frame-t，…，Frame-n，则可以首先获取Frame-1的文字序列特征、位置特征和图像特征，…，获取Frame-t的文字序列特征、位置特征和图像特征，…，最后获取Frame-n的文字序列特征、位置特征和图像特征。

在另一种可选的实施例中，在抽取出多个连续的视频帧之后，还可以同时并行获取多个连续的视频帧各自对应的文字序列特征、位置特征和图像特征。

可选地，文字所在的文字区域可以为文本行级别的文字区域，即该文字区域中可以包括一行文本，该一行文本中的文字是有先后顺序的，因此，该文字序列特征可以表征文本区域中的文字的先后顺序。示例性地，该文字序列特征可以为通过文字的坐标，在相应的视频帧中截取出的特征图。

可选地，该文字所在的文字区域的位置特征，可以为文字区域的位置坐标。在一示例性的方式中，该文字区域的位置坐标可以为该文字区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标。

可选地，该文字区域对应的图像特征，可以为该文字区域在视频帧中所对应的图像特征。

图3是根据一示例性实施例示出的一种确定文字序列特征、位置特征和图像特征的流程图。如图3所示，在上述步骤S13中，上述获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及上述文字区域对应的图像特征，可以包括：

在步骤S1301中，从上述每个视频帧中确定出上述文字区域。

在一种方式中，在抽取出多个连续的视频帧之后，可以按每个视频帧在时间轴上的顺序，依次从每个视频帧中确定出每个视频帧中的文字所在的文字区域。例如，连续视频帧为Frame-1，…Frame-t，…，Frame-n，则可以从Frame-1中确定出Frame-1中的文字所在的文字区域，…，从Frame-t中确定出Frame-t中的文字所在的文字区域，…，从Frame-n中确定出Frame-n中的字所在的文字区域。

在另一种方式中，在抽取出多个连续的视频帧之后，可以同时并行从多个视频帧中确定出多个视频帧中的文字各自所在的文字区域。

示例性地，该文字区域可以为视频帧中的文字对应的文字框。

本公开实施例中，可以采用多种方式确定上述文字区域，本公开在此具体不做限定。

在一个可行的实施例中，可以通过文字框识别工具从每个视频帧中确定出相应的文字区域。

在另一个可行的实施例中，可以通过预设的文字跟踪网络从每个视频帧中确定出相应的文字区域。图4是根据一示例性实施例示出的一种通过预设的文字跟踪网络从每个视频帧中确定出相应的文字区域的流程图。如图4所示，在上述步骤S1301中，上述从上述每个视频帧中确定出上述文字区域，可以包括：

在步骤S13011中，对上述每个视频帧进行特征提取，得到上述每个视频帧对应的特征图。

在步骤S13013中，确定上述特征图对应的文字区域热图；上述文字区域热图表征特征图中的文字区域和非文字区域。

在步骤S13015中，对上述文字区域热图进行连通域分析，得到上述文字区域。

在一种方式中，可以按每个视频帧在时间轴上的顺序，依次对每个视频帧执行上述步骤S13011-步骤S13015。

在另一种方式中，可以对多个视频帧同时并行执行上述步骤S13011-步骤S13015。

图5是根据一示例性实施例示出的一种预设的文字跟踪网络示意图。如图5所示，该文字跟踪网络可以包括检测分支网络，该检测分支网络中可以包括特征提取子网络、第一特征融合子网络和特征检测子网络，该特征检测网络有可以进一步包括过两个卷积层(convolutional)和一个全局平均池化层(gloabalavgpooing)。

示例性地，在上述步骤S13011中，可以通过特征提取子网络(例如，基于resnet18的经典卷积网络)对每个视频帧进行基础特征提取，得到每个视频帧的基础特征，该基础特征可以理解为一个Batch*64*W*H宽度的特征图。其中，Batch大小是一个超参数，用于定义在更新内部模型参数之前要处理的样本数，W为高度，H为宽度。接着通过第一特征融合子网络(例如，两个堆叠的特征金字塔增强模块(Feature Pyramid Enhancement Module，FPEM))对提取出的基础特征进行多尺度特征融合处理，得到每个视频帧对应的特征图。其中，FPEM可以用于增强卷积神经网络提取的特征，目的是使得提取出的特征更加鲁棒。

示例性地，在上述步骤S13013中，在得到每个视频帧对应的特征图之后，可以通过特征检测网络中的两个convolutional和一个gloabal avg pooling，将每个视频帧的特征图处理成是否为文字区域的文字区域热图。可以理解的是，该文字区域热图中包括两部分内容，一个是文字区域，另一个是非文字区域。

示例性地，在上述步骤S13015中，可以对该文字区域热图进行连通域分析，得到文字区域的位置，接着将该文字区域的位置拟合成旋转矩形，从而得到每个视频帧对应的文字区域。

其中，连通域指的是：图像中具有相同的像素值且相邻的区域。连通域分析指的是：将图像中的连通域找出来并标记。

需要说明的是，每个视频帧中通过上述方式，可以检测出至少一个文字区域，表示为box-1…box-m，共m个文字区域(m为大于或等于1的正整数)。例如，Frame-1可以检测出多个box；…Frame-t可以检测出多个box，…，Frame-n可以检测出多个box。

本公开实施例中，通过对每个视频帧进行特征提取、热图检测以及连通域分析，能够准确从每个视频帧中确定出文字区域，且该文字区域的确定过程不需要依赖多个模型(文字检测、文字识别、其他模型等)，能够降低文字区域的计算过程对计算资源的消耗。

在步骤S1303中，编码上述文字区域的位置信息，得到上述位置特征。

在一种方式中，可以按每个视频帧在时间轴上的顺序，依次编码每个视频帧中的文字区域的位置信息。

在另一种方式中，可以同时并行对多个视频帧中的文字区域的位置信息进编码。

在一个示例性的实施例中，可以对文字区域的位置信息(即文字区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标)进行位置编码，得到该文字区域的位置特征，该位置特征可以为1*128维。可选地，该位置编码可以包括但不限于：余弦位置编码(cos编码)、正弦位置编码(sin编码)等。

需要说明的是，由于每一视频帧中可以包括至少一个文字区域，对于属于同一视频帧的至少一个文字区域而言，还可以按照至少一个文字区域在视频帧中的先后顺序，依次确定每个视频帧中的各个文字区域对应的位置特征。例如，某一个视频帧的文字区域为box-1…box-m，则首先确定box-1的位置特征，…，最后确定box-m的位置特征。

在步骤S1305中，基于上述文字区域的位置信息，从上述每个视频帧中提取出上述图像特征。

本公开实施例中，在得到每个视频帧中的各个文字区域的位置信息之后，可以根据该文字区域的位置信息，从每个视频帧中提取出各个文字区域对应的图像特征。

在一种方式中，可以按每个视频帧在时间轴上的顺序，依次根据每个视频帧中的文字区域的位置信息，从每个视频帧中提取出各自对应的文字区域的图像特征。

在另一种方式中，可以根据多个视频帧中的文字区域的位置信息，同时并行从多个视频帧中提取各自对应的文字区域的图像特征。

需要说明的是，由于每一视频帧中可以包括至少一个文字区域，对于属于同一视频帧的至少一个文字区域而言，还可以按照至少一个文字区域在视频帧中的先后顺序，依次确定每个视频帧中的各个文字区域对应的图像特征。

在一个可行的实施例中，在步骤S1305中，上述基于上述文字区域的位置信息，从上述每个视频帧中提取出上述图像特征，可以包括：

将上述文字区域的位置信息映射到上述特征图中，得到位置映射结果。

从上述特征图中提取出位于上述位置映射结果中的图像，得到上述图像特征。

可选地，可以将每个视频帧的文字区域的位置信息(即文字区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标)映射到每个视频帧对应的特征图上，得到每个视频帧的文字区域的位置映射结果(比如，一个映射区域)，截取每个视频帧的特征图中位于该位置映射结果中的图像，得到每个视频帧的文字区域对应的图像特征。

示例性地，在上述步骤S1303和S1305中，还可以通过上述文字跟踪网络提取出上述位置特征和图像特征。继续如图5所示，上述文字跟踪网络还可以包括识别分支网络，通过该识别分支网络，可以根据文字区域的位置信息从每个视频帧中提取出相应的位置特征和图像特征。

本公开实施例中，通过将文字区域的位置信息映射到上述特征图中，从而截取出相应的图像特征，使得图像特征能够与文字区域精准匹配，提高图像特征的精度，从而提高融合特征描述子的确定精度，进而提高视频文字跟踪的精度；此外，图像特征的确定过程不需要依赖多个模型(文字检测、文字识别、其他模型等)，降低图像特征的计算过程对计算资源的消耗。

在步骤S1307中，解码上述图像特征，得到上述文字序列特征。

本公开实施例中，由于每个视频帧的各个文字区域可以是文本行级别的文字区域，即文字区域中包括一行文字，每个文字均有相应的位置和顺序，因此，在得到每个视频帧的各个文字区域对应的图像特征之后，可以对该图像特征进行解码，得到每个视频帧的各个文字区域对应的文字序列特征。

在一种方式中，可以按每个视频帧在时间轴上的顺序，依次对每个视频帧中的各个文字区域对应的图像特征进行解码，得到每个视频帧中的各个文字区域对应的文字序列特征。

在另一种方式中，可以同时并行对多个视频帧各自对应的各个文字区域对应的图像特征进行解码，得到每个视频帧中的各个文字区域对应的文字序列特征。

示例性地，在上述步骤S1307中，可以通过上述文字跟踪网络对解码上述图像特征，得到上述文字序列特征。继续如图5所示，上述文字跟踪网络还可以包括识别分支网络，该识别分支网络可以对每个视频帧的各个文字区域截取到的图像特征进行解码(例如，连接主义时间分类解码(CTC解码))，从而得到每个视频帧的各个文字区域的文字序列特征。

本公开实施例中，首先从每个视频帧中确定出上述文字区域，并根据文字区域的位置信息，确定文字区域的位置特征、图像特征和文字序列特征，能够提高位置特征、图像特征和文字序列特征的确定精度，从而提高融合特征描述子的确定精度，进而提高视频文字跟踪的精度；此外，位置特征、图像特征和文字序列特征的确定过程不需要依赖多个模型(文字检测、文字识别、其他模型等)，从而降低位置特征、图像特征和文字序列特征的确定过程对计算资源的消耗。

在步骤S15中，根据上述文字序列特征、上述位置特征以及上述图像特征，得到上述每个视频帧对应的融合特征描述子。

在一种方式中，可以按每个视频帧在时间轴上的顺序，依次对每个视频帧中的各个文字区域对应的文字序列特征、上述位置特征以及上述图像特征进行融合，得到每个视频帧中的各个文字区域对应的融合特征描述子。

在另一种方式中，可以同时并行对多个视频帧中的各个文字区域对应的文字序列特征、上述位置特征以及上述图像特征进行融合，得到每个视频帧中的各个文字区域对应的融合特征描述子。

本公开实施例中，可以通过多种方式对每个视频帧的上述三个特征进行融合，得到每个视频帧对应的融合特征描述子，本公开在此不做具体限定。

在一个可选的实施例中，还可以通过上述文字跟踪网络对上述三个特征进行融合，得到每个视频帧对应的融合特征描述子。示例性地，继续如图5所示，上述文字跟踪网络还可以包括多信息融合描述子分支网络，该多信息融合描述子分支网络可以进一步包括第二特征融合子网络和特征尺寸调整子网络。

在一个可选的实施例中，图6是根据一示例性实施例示出的一种通过上述文字跟踪网络得到上述融合特征描述子的流程图。如图6所示，在上述步骤S15中，上述根据上述文字序列特征、上述位置特征以及上述图像特征，得到上述每个视频帧对应的融合特征描述子，可以包括：

在步骤S1501中，拼接上述文字序列特征、上述位置特征以及上述图像特征，得到每个视频帧对应的融合特征。

在步骤S1503中，调整上述融合特征的尺寸，得到上述融合特征描述子。

示例性地，在上述步骤S1501中，可以通过第二特征融合子网络，将每个视频帧的各个文字区域对应的文字序列特征、上述位置特征以及上述图像特征进行拼接，得到每个视频帧的各个文字区域对应的融合特征，该特征的维度可以为3*128维。

示例性地，在上述步骤S1503中，可以通过特征尺寸调整子网络(比如，两个多层感知机(Multilayer Perceptron，MLP))对每个视频帧的各个文字区域对应的融合特征的输出尺寸进行调整(例如，3*128维->1*128维)，得到每个视频帧的各个文字区域对应的。其中，多层感知机是一种前向结构的人工神经网络，包含输入层、输出层及多个隐藏层融合特征描述子。

在一个可选的实施例中，多信息融合描述子分支网络还可以包括位置特征提取子网络、图像特征提取子网络、文字序列特征提取子网络，并通过该文字序列特征提取子网络提取上述文字序列特征、通过位置特征提取子网络提取位置特征、通过图像特征提取子网络提取图像特征。

本公开实施例中，通过上述端到端的文字跟踪网络进行特征提取、特征识别和特征融合，得到融合特征描述子，以通过该融合特征描述子得到视频文字的跟踪轨迹，实现了通过一个模型获取视频文字跟踪轨迹，视频文字跟踪轨迹的确定准确性和鲁棒性较高，并且计算资源消耗小。

需要说明的是，由于每个视频帧对应至少一个文字区域，则可以按照至少一个文字区域在视频帧中的先后顺序，依次确定出每个视频帧中的各个文字区域对应的融合特征描述子。例如，某一个视频帧的文字区域为box-1…box-m，则首先确定box-1对应一个融合特征描述子，…最后确定box-m对应一个融合特征描述子。

本公开实施例中，通过对每个视频帧的各个文字区域的文字序列特征、上述位置特征以及上述图像特征进行拼接，得到融合特征，并调整融合特征的尺寸，得到上述融合特征描述子，使得融合特征描述子的确定能够充分考虑文字的文字序列特征、位置特征和图像特征，融合特征描述子的确定准确率较高，从而提高文字跟踪的准确率较高；此外，融合特征描述子的确定过程不需要依赖多个模型(文字检测、文字识别、其他模型等)，降低融合特征描述子的确定过程对计算资源的消耗。

在步骤S17中，基于上述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到上述待处理视频中的文字的跟踪轨迹；上述跟踪轨迹用于表征文字的位置信息。

本公开实施例中，可以预先设置一个用于表征文字的位置信息的预设的跟踪轨迹，在得到每个视频帧的文字区域的融合特征描述子之后，可以使用每个视频帧中的文字区域的融合特征描述子，更新该预设的跟踪轨迹中的预设融合特征描述子，得到待处理视频中的文字的跟踪轨迹。

示例性地，上述更新包括但不限于：修改、替换、添加、删除等。

图7是根据一示例性实施例示出的更新预设的跟踪轨迹，得到上述待处理视频中的文字的跟踪轨迹的流程图。如图7所示，在上述步骤S17中，上述基于上述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到上述待处理视频中的文字的跟踪轨迹，可以包括：

在步骤S1701中，按顺序依次遍历上述每个视频帧，并在遍历上述每个视频帧时，执行以下操作：将上述每个视频帧作为当前视频帧；将上述当前视频帧对应的当前融合特征描述子，与上述预设的跟踪轨迹中的预设文字区域对应的预设融合特征描述子进行相似度匹配，得到上述当前视频帧对应的相似度匹配结果；基于上述相似度匹配结果、上述当前融合特征描述子和上述当前视频帧对应的当前文字区域，更新上述预设的跟踪轨迹，得到上述当前视频帧对应的更新后的跟踪轨迹；将上述更新后的跟踪轨迹重新作为上述预设的跟踪轨迹；上述顺序表征上述每个视频帧在上述时间轴上的顺序。

在步骤S1703中，将排序最后的视频帧对应的更新后的跟踪轨迹，作为上述待处理视频中的文字的跟踪轨迹。

可选地，由于本公开实施例需要分析视频文字的跟踪轨迹，视频帧中的视频帧和文字是有先后顺序的，因此，轨迹更新时候，需要按每个视频帧在时间轴上的顺序依次进行更新。

示例性地，连续的视频帧可以为Frame-1，…Frame-t，…，Frame-n，每个视频帧均对应多个文字区域box-1，…box-t，…box-m。每个文字区域均对应一个融合特征描述子。

该预设的跟踪轨迹在初始化的时候可以为空。

遍历Frame-1，将其作为当前视频帧，由于预设的跟踪轨迹为空，可以直接将Frame-1的多个文字区域box-1，…box-t，…box-m，以及多个文字区域各自对应的融合特征描述子初始化至该预设的跟踪轨迹，得到Frame-1对应的更新后的跟踪轨迹1，并将该更新后的跟踪轨迹1重新作为预设的跟踪轨迹。

遍历Frame-2，将其作为当前视频帧，由于跟踪轨迹1中已经存储有Frame-1的多个文字区域以及多个文字区域各自对应的融合特征描述子，则可以依次计算Frame-2的多个文字区域各自对应的融合特征描述子，与跟踪轨迹1已经存在的融合特征描述子之间的相似度，得到Frame-2对应的相似度匹配结果。并基于该相似度匹配结果、Frame-2的多个文字区域各自对应的当前融合特征描述子以及rame-2的多个文字区域，更新跟踪轨迹1中，得到上述Frame-2对应的更新后的跟踪轨迹2，并将该更新后的跟踪轨迹2重新作为预设的跟踪轨迹。

后续Frame-3至Frame-m的遍历过程与上述Frame-2相似，在此不再赘述。在遍历完Frame-m之后，输出Frame-m对应的更新后的跟踪轨迹m，该更新后的跟踪轨迹m即为该待处理视频中的文字的跟踪轨迹。

本公开实施例中，通过依次将每个视频帧的各个文字区域的融合特征描述子与预设的跟踪轨迹中的预设融合特征描述子进行相似度匹配，并根据每个视频帧的相似度结果依次对预设的跟踪轨迹中的预设融合特征描述子进行更新，使得最终得到的跟踪轨迹能够充分考虑文字的文字序列特征、位置特征和图像特征，文字跟踪的准确率较高；此外，文字跟踪的跟踪轨迹的确定过程是一个端对端的过程(例如，使用一个端到端的文字跟踪网络实现文字跟踪)，其不需要依赖多个模型(文字检测、文字识别、其他模型等)，降低的跟踪轨迹的确定过程对计算资源的消耗。

在一个可选的实施例中，上述将上述当前视频帧对应的当前融合特征描述子，与上述预设的跟踪轨迹中的预设融合特征描述子进行相似度匹配，得到上述当前视频帧对应的相似度匹配结果，可以包括：

将上述当前融合特征描述子与上述预设融合特征描述子，进行相似度混淆矩阵的计算，得到上述相似度匹配结果。

可选地，为了提高相似度计算的精度，可以采用进行相似度混淆矩阵的计算，得到相似度，然后再通过匈牙利算法选取相似度较高的相似度，得到相似度匹配结果。

假设，连续的视频帧为Frame-1，…Frame-t，…，Frame-n，每个视频帧均对应多个文字区域box-1，…box-t，…box-m。每个文字区域均对应一个融合特征描述子。

该预设的跟踪轨迹在初始化的时候可以为空。

对于Frame-1，将其作为当前视频帧，由于预设的跟踪轨迹为空，可以直接将Frame-1的多个文字区域box-1、box-2和box-3，以及多个文字区域各自对应的融合特征描述子添加至该预设的跟踪轨迹，得到Frame-1对应的更新后的跟踪轨迹1，并将该更新后的跟踪轨迹1重新作为预设的跟踪轨迹。

对于第二帧，将其作为当前视频帧，假设第二帧包括box-1和box-2，则可以将第二帧的box-1的融合特征描述子和box-2的融合特征描述子，分别与跟踪轨迹1中的box-1、box-2和box-3各自对应的融合特征描述子做一个相似度混淆矩阵的计算，得到第二帧的box-1的融合特征描述子分别与跟踪轨迹1中的box-1、box-2和box-3各自对应的融合特征描述子之间的相似度(即第二帧的box-1，得到3个相似度)，以及第二帧的box-2的融合特征描述子分别与跟踪轨迹1中的box-1、box-2和box-3各自对应的融合特征描述子之间的相似度(即第二帧的box-2，得到3个相似度)。最后通过匈牙利匹配算法从第二帧的box-1的3个相似度，选取相似度最高的相似度作为第二帧的box-1的相似度匹配结果。并通过匈牙利匹配算法从第二帧的box-2的3个相似度，选取相似度最高的相似度作为第二帧的box-2的相似度匹配结果。

后续Frame-3至Frame-m的相似度匹配结果的确定过程与上述Frame-2相似，在此不再赘述。

在一个可选的实施例中，上述基于上述相似度匹配结果、上述当前融合特征描述子和上述当前视频帧对应的当前文字区域，更新上述预设的跟踪轨迹，得到上述当前视频帧对应的更新后的跟踪轨迹，包括：

在上述相似度匹配结果小于预设相似度阈值的情况下，基于上述当前文字区域更新上述预设文字区域，并基于上述当前融合特征描述子更新上述预设融合特征描述子，得到上述更新后的跟踪轨迹。

在一个可选的实施例中，上述基于上述相似度匹配结果、上述当前融合特征描述子和上述当前视频帧对应的当前文字区域，更新上述预设的跟踪轨迹，得到上述当前视频帧对应的更新后的跟踪轨迹，还可以包括：

在上述相似度匹配结果大于或等于预设相似度阈值的情况下，将上述当前文字区域和上述当前融合特征描述子添加至上述预设的跟踪轨迹中，得到上述更新后的跟踪轨迹。

在实际应用中，当前视频帧中的文字区域可能是已有轨迹中的一部分，也可能并非是已有轨迹中的一部分，而是不同与已有轨迹的新的文字区域。

为了精准判断当前视频帧中的文字区域是否属于已有轨迹中的一部分，可以将当前视频帧对应的相似度匹配结果与预设相似度阈值进行比较。

如果当前视频帧对应的相似度匹配结果小于该预设相似度阈值，表明该当前文字区域是已有轨迹中的一部分，则可以使用当前文字区域更新上述预设文字区域，并使用当前融合特征描述子更新上述预设融合特征描述子，以将当前文字区域和当前融合特征描述子更新到已有轨迹中，从而精准确定出属于已有轨迹的文本区域，提高待处理视频中的文字的跟踪轨迹的确定精度。

如果当前视频帧对应的相似度匹配结果大于或等于该预设相似度阈值，表明该当前文字区域并不是已有轨迹中的一部分，而是新的文字，则可以将上述当前文字区域和上述当前融合特征描述子添加至上述预设的跟踪轨迹中，以对预设的跟踪轨迹进行更新，从而精准确定出不属于已有轨迹的文本区域，进一提高待处理视频中的文字的跟踪轨迹的确定精度。

继续以上述例子为例进行说明：

对于第二帧，通过相似度混淆矩阵的计算，得到第二帧的box-1的融合特征描述子分别与跟踪轨迹1中的box-1、box-2和box-3各自对应的融合特征描述子之间的相似度(即第二帧的box-1，对应3个相似度)，以及第二帧的box-2的融合特征描述子分别与跟踪轨迹1中的box-1、box-2和box-3各自对应的融合特征描述子之间的相似度(即第二帧的box-2，对应3个相似度)。

假设通过匈牙利匹配算法从第二帧的box-1对应的3个相似度中，选取出的最高相似度，为与跟踪轨迹1中的box-1匹配得到的相似度，且该相似度小于预设相似度阈值，表明该第二帧的box-1是已有轨迹(跟踪轨迹1中的box-1)中的一部分，则可以使用第二帧的box-1更新跟踪轨迹1中的box-1，并使用第二帧的box-1的当前融合特征描述子更新跟踪轨迹1中的box-1的预设融合特征描述子，以将第二帧的box-1和相应的融合特征描述子更新到跟踪轨迹1中。

假设通过匈牙利匹配算法从第二帧的box-1对应3个相似度中，选取出的最高相似度，为与跟踪轨迹1中的box-2匹配得到的相似度，且该相似大于或等于预设相似度阈值，表明该第二帧的box-2不是已有轨迹(跟踪轨迹1中的box-2)中的一部分，而是新的文字，则可以将上述第二帧的box-2和相应的融合特征描述子初始化至跟踪轨迹1中。

图8是根据一示例性实施例示出的一种视频文字跟踪装置框图。参照图8，该装置包括提取模块21，特征获取模块23、描述子获取模块25和跟踪轨迹确定模块27。

提取模块，被配置为执行从待处理视频中提取出多个视频帧。

特征获取模块，被配置为执行获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及上述文字区域对应的图像特征。

描述子获取模块，被配置为执行根据上述文字序列特征、上述位置特征以及上述图像特征，得到上述每个视频帧对应的融合特征描述子。

跟踪轨迹确定模块，被配置为执行基于上述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到上述待处理视频中的文字的跟踪轨迹；上述跟踪轨迹用于表征文字的位置信息。

在一可选的实施例中，上述特征获取模块，包括：

文字区域确定单元，被配置为执行从上述每个视频帧中确定出上述文字区域。

位置特征获取单元，被配置为执行编码上述文字区域的位置信息，得到上述位置特征。

图像特征提取单元，被配置为执行基于上述文字区域的位置信息，从上述每个视频帧中提取出上述图像特征。

文字序列特征获取单元，被配置为执行解码上述图像特征，得到上述文字序列特征。

在一可选的实施例中，上述文字区域确定单元，包括：

特征图确定子单元，被配置为执行对上述每个视频帧进行特征提取，得到上述每个视频帧对应的特征图。

文字区域热图确定子单元，被配置为执行确定上述特征图对应的文字区域热图；上述文字区域热图表征上述特征图中的文字区域和非文字区域。

连通域分析子单元，被配置为执行对上述文字区域热图进行连通域分析，得到上述文字区域。

在一可选的实施例中，上述图像特征提取单元，包括：

映射子单元，被配置为执行将上述文字区域的位置信息映射到上述特征图中，得到位置映射结果。

图像特征提取子单元，被配置为执行从上述特征图中提取出位于上述位置映射结果中的图像，得到上述图像特征。

在一可选的实施例中，上述描述子获取模块，包括：

拼接单元，被配置为执行拼接上述文字序列特征、上述位置特征以及上述图像特征，得到融合特征。

调整单元，被配置为执行调整上述融合特征的尺寸，得到上述融合特征描述子。

在一可选的实施例中，上述多个视频帧为在时间轴上连续的视频帧，上述跟踪轨迹确定模块，包括：

相似度匹配单元，被配置为执行按顺序依次遍历上述每个视频帧，并在遍历上述每个视频帧时，执行以下操作：将上述每个视频帧作为当前视频帧；将上述当前视频帧对应的当前融合特征描述子，与上述预设的跟踪轨迹中的预设文字区域对应的预设融合特征描述子进行相似度匹配，得到上述当前视频帧对应的相似度匹配结果；基于上述相似度匹配结果、上述当前融合特征描述子和上述当前视频帧对应的当前文字区域，更新上述预设的跟踪轨迹，得到上述当前视频帧对应的更新后的跟踪轨迹；将上述更新后的跟踪轨迹重新作为上述预设的跟踪轨迹；上述顺序表征上述每个视频帧在上述时间轴上的顺序。

跟踪轨迹确定单元，被配置为执行将排序最后的视频帧对应的更新后的跟踪轨迹，作为上述待处理视频中的文字的跟踪轨迹。

在一可选的实施例中，上述相似度匹配单元，被配置为执行在上述相似度匹配结果小于预设相似度阈值的情况下，基于上述当前文字区域更新上述预设文字区域，并基于上述当前融合特征描述子更新上述预设融合特征描述子，得到上述更新后的跟踪轨迹。

在一可选的实施例中，上述相似度匹配单元，被配置为执行在上述相似度匹配结果大于或等于预设相似度阈值的情况下，将上述当前文字区域和上述当前融合特征描述子添加至上述预设的跟踪轨迹中，得到上述更新后的跟踪轨迹。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明

在示例性实施例中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一视频文字跟踪方法的步骤。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图9是根据一示例性实施例示出的一种用于视频文字跟踪的电子设备的框图，该电子设备30可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)31(中央处理器31可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器33，一个或一个以上存储应用程序323或数据322的存储介质32(例如一个或一个以上海量存储设备)。其中，存储器33和存储介质32可以是短暂存储或持久存储。存储在存储介质32的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器31可以设置为与存储介质32通信，在电子设备30上执行存储介质32中的一系列指令操作。电子设备30还可以包括一个或一个以上电源36，一个或一个以上有线或无线网络接口35，一个或一个以上输入输出接口34，和/或，一个或一个以上操作系统321，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口34可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备30的通信供应商提供的无线网络。在一个实例中，输入输出接口34包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中，输入输出接口34可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备30还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

在示例性实施例中，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一视频文字跟踪方法的步骤。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一种实施方式中提供的视频文字跟踪方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频文字跟踪方法，其特征在于，包括：

从待处理视频中提取出多个视频帧；

2.根据权利要求1所述的视频文字跟踪方法，其特征在于，所述获取每个视频帧中的文字的文字序列特征、文字所在的文字区域的位置特征以及所述文字区域对应的图像特征，包括：

从所述每个视频帧中确定出所述文字区域；

编码所述文字区域的位置信息，得到所述位置特征；

解码所述图像特征，得到所述文字序列特征。

3.根据权利要求2所述的视频文字跟踪方法，其特征在于，所述从所述每个视频帧中确定出所述文字区域，包括：

对所述文字区域热图进行连通域分析，得到所述文字区域。

4.根据权利要求3所述的视频文字跟踪方法，其特征在于，所述基于所述文字区域的位置信息，从所述每个视频帧中提取出所述图像特征，包括：

5.根据权利要求1所述的视频文字跟踪方法，其特征在于，所述根据所述文字序列特征、所述位置特征以及所述图像特征，得到所述每个视频帧对应的融合特征描述子，包括：

调整所述融合特征的尺寸，得到所述融合特征描述子。

6.根据权利要求1所述的视频文字跟踪方法，其特征在于，所述多个视频帧为在时间轴上连续的多个视频帧，所述基于所述每个视频帧对应的融合特征描述子更新预设的跟踪轨迹，得到所述待处理视频中的文字的跟踪轨迹，包括：

7.根据权利要求6所述的视频文字跟踪方法，其特征在于，所述基于所述相似度匹配结果、所述当前融合特征描述子和所述当前视频帧对应的当前文字区域，更新所述预设的跟踪轨迹，得到所述当前视频帧对应的更新后的跟踪轨迹，包括：

8.一种视频文字跟踪装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频文字跟踪方法。

10.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如权利要求1至7中任一项所述的视频文字跟踪方法。