CN110147724B

CN110147724B - 用于检测视频中的文本区域的方法、装置、设备以及介质

Info

Publication number: CN110147724B
Application number: CN201910289541.3A
Authority: CN
Inventors: 章成全; 李轩; 冯浩城; 倪子涵; 韩钧宇; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2022-07-01
Anticipated expiration: 2039-04-11
Also published as: CN110147724A

Abstract

根据本公开的示例实施例，提供了一种用于检测视频中的文本区域的方法、装置、设备以及介质。方法包括基于第一图像帧中检测到的第一组文本区域来确定第一组文本区域的第一组跟踪特征，其中第一图像帧在视频的第一时刻被捕获，并且基于第一组跟踪特征来确定第一时刻之后的第二时刻的第二组预测特征。方法还包括基于第二图像帧中检测到的第二组文本区域来确定第二组文本区域的第二组跟踪特征，其中第二图像帧在视频的第二时刻被捕获，然后基于第二组预测特征和第二组跟踪特征来确定视频在第二时刻的一个或多个文本区域。本公开的实施例通过文本跟踪来辅助检测视频中的文本区域，能够建立视频图像帧间的时序联系，从而提高视频文本检测的准确率。

Description

用于检测视频中的文本区域的方法、装置、设备以及介质

技术领域

本公开的实施例总体上涉及视频处理领域，并且更具体地涉及用于检测视频中的文本区域的方法、装置、电子设备以及计算机可读存储介质。

背景技术

视频是指将一系列静态图像以电信号的方式加以捕获、记录、处理、存储以及重现的技术，当连续的图像以超过某个帧率的速度变化时，这些静态图像将组成平滑连续的视觉画面。视频对象检测是指在视频中定位和检测感兴趣的目标，并给出每个目标所属的区域(例如边界框)。视频对象检测在人脸识别、智能监控、图像检索、文本识别以及机器人导航等领域有着广泛的应用。例如，视频文本检测可以从视频中的图像帧中检测出包括各种字符的文本区域，然后，可以对文本区域中的字符进行识别或其他处理。

与单独的图像检测相比，视频场景具有图像帧之间的时序性，现有的一些视频文本跟踪方案主要包括基于图的方案和基于相似性的方案。基于图的方案将文本跟踪当成图优化问题，通过寻找最小损失路径来实现跟踪。基于相似性的方案基于手工设计的一些文本特征以及相邻帧之间的运动信息，进而实现文本的跟踪。

发明内容

根据本公开的示例实施例，提供了一种用于检测视频中的文本区域的方法、装置、电子设备以及计算机可读存储介质。

在本公开的第一方面中，提供了一种用于检测视频中的文本区域的方法。该方法包括：基于第一图像帧中检测到的第一组文本区域，确定第一组文本区域的第一组跟踪特征，其中第一图像帧在视频的第一时刻被捕获；基于第一组跟踪特征，确定第一时刻之后的第二时刻的第二组预测特征；基于第二图像帧中检测到的第二组文本区域，确定第二组文本区域的第二组跟踪特征，其中第二图像帧在视频的第二时刻被捕获；以及基于第二组预测特征和第二组跟踪特征，确定视频在第二时刻的一个或多个文本区域。

在本公开的第二方面中，提供了一种用于检测视频中的文本区域的装置。该装置包括：第一跟踪模块，被配置为基于第一图像帧中检测到的第一组文本区域，确定第一组文本区域的第一组跟踪特征，其中第一图像帧在视频的第一时刻被捕获；特征预测模块，被配置为基于第一组跟踪特征，确定第一时刻之后的第二时刻的第二组预测特征；第二跟踪模块，被配置为基于第二图像帧中检测到的第二组文本区域，确定第二组文本区域的第二组跟踪特征，其中第二图像帧在视频的第二时刻被捕获；以及文本确定模块，被配置为基于第二组预测特征和第二组跟踪特征，确定视频在第二时刻的一个或多个文本区域。

在本公开的第三方面中，提供了一种电子设备，其包括一个或多个处理器以及存储装置，其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行，使得电子设备实现根据本公开的实施例的方法或过程。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的实施例的方法或过程。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的用于检测视频中的文本区域的示例环境的示意图；

图2示出了根据本公开的实施例的用于检测视频中的文本区域的方法的流程图；

图3示出了根据本公开的实施例的用于实现视频的文本跟踪模块的训练的示例过程的示意图；

图4示出了根据本公开的实施例的用于端到端训练视频文本检测模型的示意图；

图5示出了根据本公开的实施例的用于确定视频中某一时刻的文本区域的方法的流程图；

图6示出了根据本公开的实施例的用于检测视频中的文本区域的装置的框图；以及

图7示出了能够实施本公开的一些实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

传统地，为了实现视频中的文本跟踪，通常会使用基于图的方法和基于相似性的方法。然而，基于图的方法只能实现离线的视频文本跟踪而不支持在线实时预测，而基于相似性的方法则受制于手工设计的特征，需要大量的人工劳动并且准确率较低。此外，现有的视频文本检测和跟踪通常作为两个独立的任务分别训练。因此，传统的视频文本跟踪方法无法准确且有效地实现视频中的文本检测。

本申请的发明人认识到，视频文本检测所面临的挑战主要包括：视频场景所带来的运动模糊、光照变化以及遮挡等问题，文本本身的字体、语种、尺度、方向等多变化。虽然有一些改进已经尝试利用文本跟踪来解决视频文本检测中所面临的挑战，然而，这些改进并不能有效地联合文本检测和文本跟踪这两个任务。

本公开的实施例提出了一种用于检测视频中的文本区域的方案，能够有效地利用视频场景所特有的时序性信息，从而更准确且有效地检测出视频中的文本区域。本公开的实施例使用文本跟踪模块来跟踪视频中的文本区域，能够建立视频图像帧间的时序联系，从而提高视频文本检测的准确率。不同于传统的方法，本公开的实施例能够实现在线实时的视频文本检测，从而通过跟踪辅助显著提升视频文本检测的准确率。应当理解，本公开的实施例能够应用于通用场景的视频文本检测。以下将参考附图1-7详细描述本公开的一些示例实施例。

图1示出了根据本公开的实施例的用于检测视频中的文本区域的示例环境100的示意图。如图1所示，在示例环境100中，待被检测的视频110被固定间隔地分成多个图像帧，包括图像帧111和112，这些图像帧被首先依次送入到文本检测模块120中进行初步的单帧文本检测，并生成初步的检测结果，诸如T-1时刻的初步检测结果131和T时刻的初步检测结果132。在本公开的实施例中，初步检测结果可以为视频中标识文本所在区域的一个或多个文本框，文本框可以通过多边形来表示(诸如四边形文本框)。在本公开的实施例中，术语“文本”可以表示任何语言和形式的字符，例如中文字符、英文或其他语言字符、数字、及其组合，等等。

文本检测模块120基于输入图像帧111或112的特征图，可以获得作为初始检测结果的对应文本框。在一些实施例中，文本检测模块120可以使用卷积LSTM(长短期记忆网络，ConvLSTM)来获得前几个时刻的视频图像帧中的有效特征，并用来辅助当前时刻图像帧中的图像文本检测。

在本公开的一些实施例中，文本检测模块120可以实时获得图像帧之间的长时间的时序信息，然后根据长时时序信息在在视频的图像帧中检测一组文本区域。相反，传统的方法即使考虑视频的时序性，也仅仅是建立短时的联系。在一些实施例中，文本检测模块可以使用ResNet50+FPN的卷积神经网络(CNN)结构，ResNet50是一种深度残差网络，其可以通过残差学习来更容易地训练神经网络。在一些实施例中，可以使用8个通道来预测四边形文本框的四个角点的坐标，进而获得四边形文本框。

继续参考图1，T-1时刻的初步检测结果131和T时刻的初步检测结果132然后被分别输入到文本跟踪模块140，本公开的实施例的文本跟踪模块140通过机器学习而被生成，以下参考图3-4描述了训练文本跟踪模块的示例实现，本公开的实施例的视频文本检测和视频文本跟踪可以统一到端到端框架下被训练，由此提高了训练效率。

文本跟踪模块140根据初步检测结果，能够生成最终的检测结果，诸如T-1时刻的最终检测结果151和T时刻的最终检测结果152。与基于单个图像帧而生成的初步检测结果相比，根据本公开的实施例生成的最终检测结果由于文本跟踪而具有更高的准确性。在本公开的实施例中，文本跟踪模块140可以基于当前时刻的跟踪特征和上一时刻的预测特征，确定不同图像帧之间的文本框匹配，由此能够实现更准确的在线视频文本检测。

应当理解，文本检测模块120可以为已知的或者将来开发的任何文本检测模块，其针对输入的图像帧，能够输出带有标识文本区域的多边形文本框或其他形状的文本框。另外，虽然本公开的实施例以文本框作为标识文本区域的示例表示形式，然而，其他任何适当的标识文本区域的方式(诸如角点坐标集合等)也可以与本公开的实施例结合使用。

图2示出了根据本公开的实施例的用于检测视频中的文本区域的方法200的流程图。应当理解，方法200可以由参考图1所描述的文本跟踪模块140来执行。

在框202，基于第一图像帧中检测到的第一组文本区域，确定第一组文本区域的第一组跟踪特征，其中第一图像帧在视频的第一时刻被捕获。例如，文本检测模块120基于T-1时刻图像帧111的特征，检测到图像帧111中的一组文本区域(其可以包括初步检测到的一个或多个文本框)，然后，文本跟踪模块140可以基于这一组文本区域的特征块来确定出T-1时刻的文本跟踪特征，诸如文本跟踪描述符。

在框204，基于第一组跟踪特征，确定第一时刻之后的第二时刻的第二组预测特征。例如，文本跟踪模块140基于T-1时刻的文本跟踪特征，能够预测T时刻的文本跟踪模块。预测出的下一时刻文本跟踪特征可以用于与下一时刻的实际跟踪特征进行比较，以便通过文本框之间的特征匹配来实现跟踪。

在框206，基于第二图像帧中检测到的第二组文本区域，确定第二组文本区域的第二组跟踪特征，其中第二图像帧在视频的第二时刻被捕获。例如，文本检测模块120基于T时刻图像帧112的特征，检测到图像帧112中的一组文本区域(其可以包括初步检测到的一个或多个文本框)，然后文本跟踪模块140可以基于这一组文本区域的特征块来确定出T时刻的文本跟踪特征。

在框208，基于第二组预测特征和第二组跟踪特征，确定视频在第二时刻的一个或多个文本区域。预测的前一时刻文本跟踪特征可以与当前时刻的实际跟踪特征进行比较，以便通过文本框之间的特征匹配来实现跟踪，从而提高图像中的文本检测的准确率。以下参考图5描述了基于预测特征和跟踪特征确定最终的文本检测结果的一个示例实现，然而，其他的特征匹配方法也可以与本公开的实施例结合使用。例如，初步的图像文本检测过程中所获得的文本框可能具有一些噪声，本公开的实施例通过不同图像帧之间的文本跟踪，能够有效地去除检测噪声，从而给获得更精确的视频文本检测结果。

图3示出了根据本公开的实施例的用于实现视频的文本跟踪模块的训练的示例过程300的示意图。如图3所示，在获得视频的T-1时刻的图像帧310之后，在框311，主体网络模块可以通过网络前向传播获得对应的机器学习隐含层图像特征，所获得的图像特征可以供后续的视频文本检测和视频文本跟踪过程来共享使用。在框313，视频文本检测模块120可以基于图像帧310的特征检测出图像帧310中的一个或多个文本区域作为初步检测结果。例如，框314中示出了T-1时刻图像帧310中初步检测到的三个文本框，其中左上的文本框为噪声而不是真实的文本区域。在框315，文本跟踪模块140可以根据在框313检测到的文本区域，在图像帧310的特征上获取相应文本区域的特征，生成T-1时刻的文本跟踪特征，也即文本跟踪描述符。接下来，在框317，文本跟踪模块140根据T-1时刻的文本跟踪特征来预测T时刻的文本跟踪特征，其为预测得到的预测特征。在本公开的实施例中，文本跟踪模块140将文本跟踪的问题转化为文本跟踪特征的子匹配问题，文本跟踪模块140可以包括门控循环单元(GRU)/LSTM等循环神经网络。

类似地，在获得视频的T时刻的图像帧320之后，在框321，主体网络模块可以通过网络前向传播获得对应的机器学习隐含层图像特征，所获得的图像特征可以供后续的视频文本检测和视频文本跟踪过程来共享使用。在框323，视频文本检测模块120可以基于图像帧320的特征检测出图像帧中的一个或多个文本区域作为初步检测结果。例如，框324中示出了T时刻图像帧320中初步检测到的两个文本框。在框325，文本跟踪模块140可以根据在框323检测到的文本区域和图像帧320的特征，生成T时刻的文本跟踪特征。接下来，在框327，文本跟踪模块140根据T时刻的文本跟踪特征来预测T+1时刻的文本跟踪特征。

继续参考图3，在框329，将在框317预测的T时刻的文本跟踪特征与在框325生成的T时刻的文本跟踪特征输入到损失函数计算模块。损失函数计算模块针对上一时刻预测的文本跟踪特征与当前时刻生成的文本跟踪特征，建立相应的损失函数，并指导视频文本检测模型进行学习，通过梯度反向传播来更新视频文本检测模型中的文本跟踪模块的参数，从而实现根据本公开的视频文本检测模型的学习目的。

图4示出了根据本公开的实施例的用于端到端训练视频文本检测模型的示意图400。根据本公开的实施例，可以在已标注的数据集上使用端到端的方式训练视频文本检测模型。如图400所示，训练数据610中包括视频及其标注的任意形状的文本框，其中文本框能够覆盖任意形状文本。然后，在框440，可以将视频中的采样的图像帧420的序列和对应的标注的文本框430送入机器学习神经网络进行训练，从而训练出视频文本检测模型450。通过这种方式，可以以端到端的方式使用训练数据来同时训练文本检测模块120和文本跟踪模块140，由此提高训练效率。

图5示出了根据本公开的实施例的用于确定视频中某一时刻的文本区域的方法500的流程图。应当理解，方法500可以为以上参考图2所描述的方法200中的步骤的示例实现。

在框502，将输入视频以固定时间间隔采样以获得图像帧序列，然后可以将这些图像帧序列依次送入到根据本公开的实施例的视频文本检测模型中进行视频文本检测。在每个时刻，根据本公开的实施例的方法可以获得该时刻对应的最终文本检测结果。

在框504，输入T时刻的图像帧，获得该图像帧中的初始的文本检测结果。例如，可以将T时刻的视频图像帧输入到文本检测模块120，获得初始的文本检测结果P_t。在初始的文本检测过程中，可以设置一个相对较低的检测框置信度阈值，以保证大多数文本框会被召回。在一些实施例中，在图像帧中检测一个或多个候选文本区域，然后确定一个或多个候选文本区域中置信度大于第一阈值的候选文本区域，并且将置信度大于第一阈值的候选文本区域确定为初始的文本区域。

在框506，确定初始检测结果P_t中的每个文本框的跟踪特征D_t，例如，可以通过文本跟踪模块140获得每个文本框所对应的文本跟踪描述符。在框508，与T-1时刻预测的文本跟踪特征进行匹配，并且保留匹配的文本框对。例如，可以基于T-1时刻所预测的T时刻跟踪特征ED_t-1以及T时刻所确定的真实跟踪特征D_t，构建一个相似矩阵S_t。在一些实施例中，可以使用匈牙利算法来确定S_t中哪些文本框匹配对可以被保留，被保留的匹配对意味着两个文本框属于同一文字实例，这些保留的匹配对可以被放入到匹配集合M_t中。

在框510，对于存在匹配的文本框，增加其置信度。对于文本跟踪特征D_t中在上一步存在匹配结果的每个跟踪特征而言，可以通过这个文本框已经匹配的次数来调整这个文本跟踪特征的置信度，使得持续时间越长的文本框获得越高的置信度。例如，可以通过下式(1)来调整第i个跟踪特征

的置信度。

其中

表示文本跟踪特征

的置信度，其初始值可以被设置为1，τ表示权重，

表示所匹配的跟踪路径，

表示这条路径的长度。

在框512，过滤掉一些得分较低的文本框和匹配的文本框对。通过设置一个相对较高的阈值，可以过滤掉一些得分较低的跟踪特征D_t，并同时删除相应的初步检测结果，这样剩下的结果P_t ^*即为T时刻更新的检测结果。相应地，也从匹配集合M_t中删掉那些被过滤掉的匹配对，获得更新的匹配集合M_t ^*。

在框514，获得T时刻的最终文本检测结果。在一些实施例中，可以基于更新的匹配集合M_t ^*、更新的检测结果P_t ^*以及已经结束匹配的文本区域，确定视频在T时刻最终的一个或多个文本区域。例如，可以通过下式(2)来确定T时刻的最终文本检测结果的文本跟踪路径集T_t。

T_t←T_update+T_new－T_end (2)

其中T_update表示M_t ^*中存在匹配结果的路径，T_new表示P_t ^*中没有被过滤掉的高置信度检测结果，T_update和T_new构成新的文本跟踪路径的起点，T_end表示已经结束匹配的路径，例如，当累计2个时刻没有匹配结果的话，可以认为某条路径已经结束。

因此，本公开的实施例使用文本跟踪模块来跟踪视频中的文本区域，能够建立视频图像帧间的时序联系，从而提高视频文本检测的准确率。

图6示出了根据本公开的实施例的用于检测视频中的文本区域的装置600的框图。如图6所示，装置600包括第一跟踪模块610、特征预测模块620、第二跟踪模块630以及文本确定模块640。第一跟踪模块610被配置为基于第一图像帧中检测到的第一组文本区域，确定第一组文本区域的第一组跟踪特征，其中第一图像帧在视频的第一时刻被捕获。特征预测模块620被配置为基于第一组跟踪特征，确定第一时刻之后的第二时刻的第二组预测特征。第二跟踪模块630被配置为基于第二图像帧中检测到的第二组文本区域，确定第二组文本区域的第二组跟踪特征，其中第二图像帧在视频的第二时刻被捕获。文本确定模块640被配置为基于第二组预测特征和第二组跟踪特征，确定视频在第二时刻的一个或多个文本区域。

在一些实施例中，其中第二跟踪模块630包括：候选检测模块，被配置为在第二图像帧中检测一个或多个候选文本区域；候选确定模块，被配置为确定一个或多个候选文本区域中置信度大于第一阈值的候选文本区域；以及第二组文本区域确定模块，被配置为将置信度大于第一阈值的候选文本区域确定为第二组文本区域。

在一些实施例中，其中文本确定模块640包括：特征匹配模块，被配置为确定第二组预测特征与第二组跟踪特征之间的特征匹配，第二组预测特征包括一个或多个第二预测特征，并且第二组跟踪特征包括一个或多个第二跟踪特征；存储模块，被配置为将匹配的每对第二预测特征和第二跟踪特征存储到匹配集合中。

在一些实施例中，其中文本确定模块640还包括调整模块，其被配置为基于与第二组跟踪特征中的每个第二跟踪特征相对应的文本区域的已匹配次数，调整每个第二跟踪特征的置信度。

在一些实施例中，其中文本确定模块还640包括：第一更新模块，被配置为在第二组文本区域过滤掉置信度小于第二阈值的文本区域以生成更新的第二组文本区域，其中第二阈值大于第一阈值；以及第二更新模块，被配置为从匹配集合中删除与过滤掉的文本区域相关联的特征匹配对以生成更新的匹配集合。

在一些实施例中，其中文本确定模块640还包括确定模块，其被配置为基于更新的匹配集合、更新的第二组文本区域以及已经结束匹配的文本区域，确定视频在第二时刻的一个或多个文本区域。

在一些实施例中，装置600还包括从图像帧检测一组文本区域的文本检测模块，其中第一跟踪模块和第二跟踪模块被包括在文本跟踪模块中，并且装置还包括训练模块，其被配置为以端到端的方式使用训练数据来训练文本检测模块和文本跟踪模块，训练数据包括视频以及标注的文本框。

在一些实施例中，装置600还包括：长时时序信息获得模块，被配置为使用卷积神经网络实时获得图像帧之间的长时时序信息；文本区域检测模块，被配置为基于长时时序信息，在视频的图像帧中检测一组文本区域。

应当理解，图6中所示出的第一跟踪模块610、特征预测模块620、第二跟踪模块630以及文本确定模块640可以被包括一个或多个电子设备中。而且，应当理解，图6中所示出的模块可以执行参考本公开的实施例的方法或过程中的步骤或动作。

因此，本公开的实施例使用文本跟踪模块来跟踪视频中的文本区域，能够建立视频图像帧间的时序联系，从而提高视频文本检测的准确率。此外，本公开的一些实施例能够减小视频文本检测的模型大小，从而能够提高检测速度，并且提升用户体验。

图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。应当理解，设备700可以用于实现本公开所描述的用于检测视频中的文本区域的装置700。如图所示，设备700包括中央处理单元(CPU)701，其可以根据被存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701执行上文所描述的各个方法和过程，例如方法200和/或500。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法的一个或多个动作或步骤。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)，等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各动作或步骤，但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行，或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于在线实时地检测在线视频中的文本区域的方法，包括：

基于第一图像帧中检测到的第一组文本区域，确定所述第一组文本区域的第一组跟踪特征，所述第一图像帧在视频的第一时刻被捕获；

基于所述第一组跟踪特征，确定所述第一时刻之后的第二时刻的第二组预测特征；

基于第二图像帧中检测到的第二组文本区域，确定所述第二组文本区域的第二组跟踪特征，所述第二图像帧在所述视频的所述第二时刻被捕获；以及

基于所述第二组预测特征和所述第二组跟踪特征，确定所述视频在所述第二时刻的一个或多个文本区域。

2.根据权利要求1所述的方法，其中确定所述第二组文本区域的第二组跟踪特征包括：

在所述第二图像帧中检测一个或多个候选文本区域；

确定所述一个或多个候选文本区域中置信度大于第一阈值的候选文本区域；以及

将所述置信度大于所述第一阈值的所述候选文本区域确定为所述第二组文本区域。

3.根据权利要求2所述的方法，其中确定所述视频在所述第二时刻的一个或多个文本区域包括：

确定所述第二组预测特征与所述第二组跟踪特征之间的特征匹配，所述第二组预测特征包括一个或多个第二预测特征，并且所述第二组跟踪特征包括一个或多个第二跟踪特征；

将匹配的每对第二预测特征和第二跟踪特征存储到匹配集合中。

4.根据权利要求3所述的方法，其中确定所述视频在所述第二时刻的一个或多个文本区域还包括：

基于与所述第二组跟踪特征中的每个第二跟踪特征相对应的文本区域的已匹配次数，调整每个第二跟踪特征的置信度。

5.根据权利要求3或4所述的方法，其中确定所述视频在所述第二时刻的一个或多个文本区域还包括：

在所述第二组文本区域过滤掉置信度小于第二阈值的文本区域以生成更新的第二组文本区域，所述第二阈值大于所述第一阈值；以及

从所述匹配集合中删除与过滤掉的所述文本区域相关联的特征匹配对以生成更新的匹配集合。

6.根据权利要求5所述的方法，其中确定所述视频在所述第二时刻的一个或多个文本区域还包括：

基于所述更新的匹配集合、所述更新的第二组文本区域以及已结束匹配的文本区域，确定所述视频在所述第二时刻的所述一个或多个文本区域。

7.根据权利要求1所述的方法，其中从图像帧检测一组文本区域由文本检测模块来执行，确定下一时刻的预测特征由文本跟踪模块来执行，并且所述方法还包括：

以端到端的方式使用训练数据来训练所述文本检测模块和所述文本跟踪模块，所述训练数据包括视频以及标注的文本框。

8.根据权利要求1所述的方法，还包括：

使用卷积神经网络实时获得图像帧之间的长时时序信息；以及

基于所述长时时序信息，在所述视频的图像帧中检测一组文本区域。

9.一种用于在线实时地检测在线视频中的文本区域的装置，包括：

第一跟踪模块，被配置为基于第一图像帧中检测到的第一组文本区域，确定所述第一组文本区域的第一组跟踪特征，所述第一图像帧在视频的第一时刻被捕获；

特征预测模块，被配置为基于所述第一组跟踪特征，确定所述第一时刻之后的第二时刻的第二组预测特征；

第二跟踪模块，被配置为基于第二图像帧中检测到的第二组文本区域，确定所述第二组文本区域的第二组跟踪特征，所述第二图像帧在所述视频的所述第二时刻被捕获；以及

文本确定模块，被配置为基于所述第二组预测特征和所述第二组跟踪特征，确定所述视频在所述第二时刻的一个或多个文本区域。

10.根据权利要求9所述的装置，其中所述第二跟踪模块包括：

候选检测模块，被配置为在所述第二图像帧中检测一个或多个候选文本区域；

候选确定模块，被配置为确定所述一个或多个候选文本区域中置信度大于第一阈值的候选文本区域；以及

第二组文本区域确定模块，被配置为将所述置信度大于所述第一阈值的所述候选文本区域确定为所述第二组文本区域。

11.根据权利要求10所述的装置，其中所述文本确定模块包括：

特征匹配模块，被配置为确定所述第二组预测特征与所述第二组跟踪特征之间的特征匹配，所述第二组预测特征包括一个或多个第二预测特征，并且所述第二组跟踪特征包括一个或多个第二跟踪特征；

存储模块，被配置为将匹配的每对第二预测特征和第二跟踪特征存储到匹配集合中。

12.根据权利要求11所述的装置，其中所述文本确定模块还包括：

调整模块，被配置为基于与所述第二组跟踪特征中的每个第二跟踪特征相对应的文本区域的已匹配次数，调整每个第二跟踪特征的置信度。

13.根据权利要求11或12所述的装置，其中所述文本确定模块还包括：

第一更新模块，被配置为在所述第二组文本区域过滤掉置信度小于第二阈值的文本区域以生成更新的第二组文本区域，所述第二阈值大于所述第一阈值；以及

第二更新模块，被配置为从所述匹配集合中删除与过滤掉的所述文本区域相关联的特征匹配对以生成更新的匹配集合。

14.根据权利要求13所述的装置，其中所述文本确定模块还包括：

确定模块，被配置为基于所述更新的匹配集合、所述更新的第二组文本区域以及已经结束匹配的文本区域，确定所述视频在所述第二时刻的所述一个或多个文本区域。

15.根据权利要求9所述的装置，还包括从图像帧检测一组文本区域的文本检测模块，其中所述第一跟踪模块和所述第二跟踪模块被包括在文本跟踪模块中，并且所述装置还包括：

训练模块，被配置为以端到端的方式使用训练数据来训练所述文本检测模块和所述文本跟踪模块，所述训练数据包括视频以及标注的文本框。

16.根据权利要求9所述的装置，还包括：

长时时序信息获得模块，被配置为使用卷积神经网络实时获得图像帧之间的长时时序信息；

文本区域检测模块，被配置为基于所述长时时序信息，在所述视频的图像帧中检测一组文本区域。

17.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，其用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行，使得所述电子设备实现根据权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-8中任一项所述的方法。