CN116863456B

CN116863456B - 视频文本识别方法、装置及存储介质

Info

Publication number: CN116863456B
Application number: CN202310626483.5A
Authority: CN
Inventors: 殷飞; 唐军; 张恒
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2024-03-22
Anticipated expiration: 2043-05-30
Also published as: CN116863456A

Abstract

本申请实施例提供一种视频文本识别方法、装置及存储介质。该方法包括：获取待处理的视频图像；利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征；基于所述编码输出特征利用自注意力机制确定文本识别结果。本申请实施例提供的视频文本识别方法、装置及存储介质，利用可变形自注意力机制将高分辨率特征图与低分辨率特征图的融合，实现了对小目标的检测和识别，提高了视频文本识别的准确性。

Description

视频文本识别方法、装置及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视频文本识别方法、装置及存储介质。

背景技术

视频文本检测与识别技术在视频内容的理解以及自动驾驶等领域具有重要应用。近年来对于静态图像的文字检测和识别等技术已经相当成熟，并取得了非常高的正确率，但由于运动模糊、失焦和伪影问题，视频帧的质量通常比静态图像差，对于视频的文本检测和识别仍具有挑战性。

现有技术中的视频文本检测和识别方法，利用深度学习中的交并比(Intersection over Union，IoU)等方法实获得了视频文本跟踪和识别结果，但现有技术对视频文本信息的检测和识别并不完整，导致视频文本检测和识别的准确性低。

发明内容

本申请实施例提供一种视频文本识别方法、装置及存储介质，用以解决现有技术中视频文本检测和识别的准确性的技术问题。

第一方面，本申请实施例提供一种视频文本识别方法，包括：

获取待处理的视频图像；

利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征；

基于所述编码输出特征利用自注意力机制确定文本识别结果。

在一些实施例中，所述利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征，包括：

基于卷积神经网络对多种分辨率的视频图像进行特征提取，得到多个初级特征；每一初级特征对应一种分辨率的视频图像；

基于所述初级特征和预设卷积核确定第一中间特征；

利用可变形自注意力机制将所述第一中间特征进行融合，得到编码输出特征。

在一些实施例中，所述基于所述编码输出特征利用自注意力机制确定文本识别结果，包括：

基于所述编码输出特征利用自注意力机制确定文本的位置信息；

基于所述文本的位置信息和第二中间特征确定文本识别结果；所述第二中间特征是对所述初级特征进行上采样和融合得到的。

在一些实施例中，所述基于所述编码输出特征利用自注意力机制确定文本的位置信息，包括：

基于预设的检测查询向量和所述利用自注意力机制进行特征提取，得到第三中间特征；

基于所述第三中间特征和所述编码输出特征利用可变形自注意力机制确定查询输出向量；

基于所述查询输出向量利用多层感知机确定文本的位置信息；所述文本的位置信息包括文本角度、文本检测框位置。

在一些实施例中，所述方法还包括：

基于所述文本的位置信息和/或上一帧视频图像的跟踪查询向量确定当前帧视频图像的跟踪查询向量；

基于所述当前帧视频图像的跟踪查询向量利用自注意力机制进行特征提取，得到第四中间特征；

基于所述第四中间特征和所述编码输出特征确定文本检测追踪结果。

在一些实施例中，所述基于所述文本的位置信息和第二中间特征确定文本识别结果，包括：

基于所述文本的位置信息计算转换矩阵和旋转矩阵；

基于所述转换矩阵和所述旋转矩阵对所述第二中间特征进行仿射变换，得到水平特征；

基于所述水平特征利用双向长短期记忆网络BiLSTM和连接主义时间分类器CTC进行文本识别，得到文本识别结果。

在一些实施例中，所述获取待处理的视频图像，包括：

将视频序列进行切割得到多个单帧视频图像；

调整所述单帧视频图像的分辨率大小，得到待处理的视频图像。

第二方面，本申请实施例提供一种视频文本识别装置，包括：

获取模块，用于获取待处理的视频图像；

融合模块，用于利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征；

确定模块，用于基于所述编码输出特征利用自注意力机制确定文本识别结果。

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述的视频文本识别方法。

第四方面，本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的视频文本识别方法。

第五方面，本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的视频文本识别方法。

本申请实施例提供的视频文本识别方法、装置及存储介质，利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征，基于所述编码输出特征利用自注意力机制确定文本识别结果，使得高分辨率特征图与低分辨率特征图的融合，实现了对小目标的检测和识别，提高了视频文本识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频文本识别方法的流程示意图；

图2是本申请实施例提供的一种视频文本识别装置的结构示意图；

图3是本申请实施例提供的电子设备的结构示意图。

具体实施方式

随着近些年来深度学习在静态图像文字检测和识别领域的成功应用，静态图像的文字检测和识别等已经取得了非常高的正确率，但是，与静态图像中的文本检测和识别相比，由于运动模糊、失焦和伪影问题，视频帧的质量通常比静态图像差。而且，视频文本检测识别任务需要文本的时空信息，即相同的文本跟踪轨迹，这是基于图像的文本检测识别方法无法提供的。

对于视频中文本的检测追踪和识别，现有技术中的方案包括多个模型和手工设计的组件，生成跟踪轨迹和识别结果的计算复杂度较高，且没有考虑视频中复杂的时序信息，因此现有的视频文本检测识别方法的准确性较低。

基于上述技术问题，本申请实施例提出一种视频文本识别方法，获取待处理的视频图像，利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征，基于所述编码输出特征利用自注意力机制确定文本识别结果，使得高分辨率特征图与低分辨率特征图的融合，实现了对小目标的检测和识别，提高了视频文本识别的准确性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的视频文本识别方法的流程示意图，如图1所示，本申请实施例提供一种视频文本识别方法，该方法包括：

步骤101、获取待处理的视频图像。

具体地，对输入的视频序列进行预处理从而获得待处理的视频图像，预处理可以包括将视频序列进行切割、调整图像尺寸、调整图像分辨率等。

步骤102、利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征。

步骤103、基于所述编码输出特征利用自注意力机制确定文本识别结果。

具体地，将所述视频图像输入至视频文本识别模型中，输出所述视频图像的文本识别结果。所述视频文本识别模型是基于人工神经网络，如卷积神经网络或自注意力机制等，对视频图像中的内容进行建模得到的。

输入所述视频图像至视频文本识别模型中，首先获得不同分辨率的视频图像的特征(即语义特征)，然后在编码器利用可变形自注意力机制对多种分辨率的所述视频图像的特征进行特征融合或者信息的聚合，得到编码输出特征。在解码器利用自注意力机制(包括普通自注意力机制和可变形自注意力机制)确定文本识别结果。

例如，视频图像首先在卷积神经网络进行初步的特征提取，不同分辨率的视频图像对应不同分辨率的特征。然后在基于可变形自注意力机制的编码器将这些不同分辨率的特征融合，得到编码输出特征，接着在基于自注意力机制的解码器利用编码输出特征对视频文本进行检测追踪和识别，从而得到文本识别结果。

在本申请实施例中，还对所述视频文本识别模型的标签进行预处理，以适应对倾斜文本的检测。例如，将标签处理成COCO格式数据(Common Objects in COntext)。此外，还将文本检测框即文本框的标注进行预处理，以适应对倾斜文本的检测。例如，将文本框的标注处理为旋转矩形框的形式。

本申请实施例提供的视频文本识别方法，利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征，基于所述编码输出特征利用自注意力机制确定文本识别结果，使得高分辨率特征图与低分辨率特征图的融合，实现了对小目标的检测和识别，提高了视频文本识别的准确性。

基于所述初级特征和预设卷积核确定第一中间特征；

具体地，输入所述视频文本识别模型的视频图像，先通过卷积神经网络初步提取不同分辨率的视频图像的特征，得到多个初级特征，生成特征图。所述卷积神经网络可以采用残差神经网络ResNet50网络。

例如，对某一帧视频图像预处理后得到四个分辨率不同的视频图像，分别为P1、P2、P3和P4。使用ResNet50网络对P1、P2、P3和P4进行特征提取，提取到四个分辨率不同的特征层(即初级特征)，分别为C1、C2、C3和C4，其中C1的分辨率为H/32×W/32，且特征维度为2048维；C2的分辨率为H/16×W/16，且特征维度为1024维；C3的分辨率为H/8×W/8，且特征维度为512维；C4的分辨率为H/4×W/4，且特征维度为256维。

具体地，还基于正弦函数与余弦函数的位置编码方式为初步获得的特征图的每个位置生成一个独一无二的位置编码。

本申请实施例中，在得到多个初级特征后，基于所述初级特征和预设卷积核确定第一中间特征，即利用不同的卷积核以最低分辨率的初级特征的特征维度为目标维度，对所述初级特征降维使各初级特征的特征维度统一为所述目标维度，得到多个第一中间特征。

例如，获得上述初级特征C1(H/32×W/32分辨率，2048维)、C2(H/16×W/16分辨率，1024维)、C3(H/8×W/8分辨率，512维)和C4(H/4×W/4分辨率，256维)后，利用预设卷积核将初级特征处理为不同分辨率的256维特征，分别为M1(H/64×W/64分辨率，256维)、M2(H/32×W/32分辨率，256维)、M3(H/16×W/16分辨率，256维)和M4(H/8×W/8分辨率，256维)。

本申请实施例中，利用可变形自注意力机制将所述第一中间特征进行融合，得到编码输出特征。

例如，利用编码器中的可变形自注意力机制进行特征融合，所述可变形自注意力机制的计算式为：

其中，MSDeformAttn()表示可变形自注意力机制；Z_q表示编码器；q表示查询向量；表示第q个查询向量的参考点的归一化坐标；L表示所述第一中间特征/特征层的个数，l为正整数且l的取值范围为1至L；/>表示所述可变形自注意力机制的输入特征图，其中，x^l表示第l个特征层(即第l个第一中间特征)；M表示注意力头的个数，m为正整数且m的取值范围为1至M；W_m表示对注意力施加value(值)后的结果进行线性变换得到不同注意力头的输出结果；K表示每个查询向量在每个特征层上的采样点个数；A_mlqk表示第m个注意力头中第q个查询向量在第l个特征层上的第k个采样点的注意力权重；W’_m表示用于将x^l变换为value(值)的系数矩阵；/>表示/>在第l个特征层上的采样点位置；ΔP_mlqk表示第m个注意力头中第q个查询向量在第l个特征层上的第k个采样点的相对偏移量，该相对偏移量是可学习的变量，由查询向量经过全连接层得到。

本申请实施例提供的视频文本识别方法，通过采用卷积神经网络对输入的视频序列进行初步特征提取，以获得更加具有代表性的初级特征，并基于可变形自注意力机制的操作实现了不同分辨率特征的融合，不仅实现了对大目标文本的检测，而且增强了对小目标文本的检测能力，即不仅考虑了主要用于大目标检测的高级语义特征，还考虑了主要用于检测小目标的低层特征，从而能够更准确的检测视频文本。

具体地，获得所述编码输出特征后，经检测解码器基于自注意力机制获得文本的位置信息。所述文本的位置信息可以包括文本检测框的位置信息、文本的倾斜角度。除了预测文本的位置信息，经检测解码器还可以获得文本和非文本的预测、文本的分类信息等。所述检测解码器是基于普通自注意力层和/或可变形自注意力层生成的。

例如，预设多个检测查询向量，并基于普通自注意力机制对其进行处理，然后将处理后得到的特征再基于可变形自注意力机制与编码输出特征进行信息交互，得到文本的位置信息。

本申请实施例中，在确定文本的位置信息后，基于来自于上一帧追踪解码器的追踪查询向量利用可变形自注意力机制和文本的位置信息，确定文本的检测追踪结果并输出。

在确定文本的位置信息后，还基于所述文本的位置信息和所述第二中间特征确定文本识别结果。所述第二中间特征是对不同分辨率的初级特征进行上采样和特征融合得到的和原图大小一样的特征图。

例如，通过对所述初级特征进行上采样和特征融合得到第二中间特征，基于所述文本的位置信息和所述第二中间特征通过旋转感兴趣区域提取特征，将该提取的特征输入连接主义时间分类器中，输出文本识别结果。

本申请实施例提供的视频文本识别方法，通过自注意力机制确定文本的位置信息，能够更好地获取倾斜文本的位置信息如角度信息，从而提高对倾斜文本的检测性能。

具体地，预设多个检测查询向量，并基于普通自注意力机制对其进行处理，得到第三中间特征。将所述第三中间特征和所述编码输出特征再利用可变形自注意力机制进行融合，得到多个查询输出向量，基于查询输出向量利用多层感知机进行文本检测，输出文本的位置信息、类别信息(文本/非文本)等。

所述文本的位置信息包括文本角度，即文本的倾斜角度，也即文本检测框的倾斜角度；所述文本的位置信息还包括文本检测框位置，包括文本检测框中心点坐标、宽度、高度等。

例如，预设q个检测查询向量，其向量维度为256维。所述检测查询向量在经过普通自注意力层相互交换信息后，得到第三中间特征。对所述第三中间特征再进行一次可变形注意力操作，使与编码器提取到的特征即编码输出特征进行信息交互，得到q个查询输出向量。其中，在这两次自注意力操作时，所述查询输出向量都要和各自的位置编码相加以获得位置信息。然后将所述查询输出向量输入线性层和多层感知机，输出维度不同的向量，分别用于文本角度、类别、文本检测框的预测，得到文本的位置信息等信息。

可选地，在模型的训练阶段，可以使用辅助loss函数(损失函数)，以对每一层的输出结果进行约束，从而加速收敛过程。

本申请实施例提供的视频文本识别方法，基于自注意力机制对文本的倾斜角度进行了预测，实现了对倾斜文本的检测，提高了文本检测的成功率和识别的准确性。

在一些实施例中，所述方法还包括：

具体地，在确定文本的位置信息后，还采用基于可变形自注意力机制的追踪解码器，以来自于上一帧追踪解码器的追踪查询向量和所述文本的位置信息作为输入，输出文本检测追踪结果。

其中，将所述文本的位置信息中的文本检测框位置与来自视频上一帧图像跟踪解码器的追踪查询向量进行组合，共同组成当前帧视频图像的跟踪查询向量。基于所述当前帧视频图像的跟踪查询向量利用自注意力机制进行处理，并融合所述编码输出特征，得到最终的文本检测追踪结果。

例如，创建一个可学习的共享查询向量，基于所述文本检测框、所述共享查询向量以及上一帧视频图像的跟踪查询向量进行拼接，得到当前帧视频图像的跟踪查询向量。基于所述当前帧视频图像的跟踪查询向量依次经过普通自注意力层和可变形自注意力层进行特征交互，得到第四中间特征，融合所述第四中间特征和所述编码输出特征，得到文本检测追踪结果。

其中，若当前帧为视频图像的第一帧，则当前帧视频图像的跟踪查询向量是基于所述文本检测框和所述共享查询向量生成的。

本申请实施例提供的视频文本识别方法，将当前帧之前的所有帧的跟踪查询向量融合进当前帧的跟踪查询向量，从而得到包含前面帧的复杂时序信息的检测追踪结果，实现了文本的精细化检测和跟踪，提升了当前帧的检测和跟踪性能。

基于所述文本的位置信息计算转换矩阵和旋转矩阵；

基于所述转换矩阵和所述旋转矩阵对第二中间特征进行仿射变换，得到水平特征；

具体地，基于所述文本的位置信息通过旋转感兴趣区域提取水平特征，即基于文本检测框的中心点坐标、宽度、高度以及倾斜角度，计算转换矩阵和旋转矩阵，然后利用所述转换矩阵和所述旋转矩阵对所述第二中间特征进行仿射变换，获得文本的水平特征。

例如，基于文本检测框的中心点坐标(c_x，c_y)、文本检测框的宽度w、文本检测框的高度h和文本检测框的倾斜角度t计算转换矩阵T以及旋转矩阵R。然后，利用转换矩阵T以及旋转矩阵R在第二中间特征图F上应用仿射变换，仿射变换的公式如下：

其中，和/>表示仿射变换后(即旋转后)得到的水平特征图中与F中的点对应的点；R表示旋转矩阵；T表示转换矩阵；x和y表示输入特征图(即第二中间特征图F)上的点；t表示文本检测框的倾斜角度；c_x和c_y表示所述文本检测框中心点坐标。计算得到/>即水平特征。

具体地，在获得所述水平特征后，基于所述水平特征利用双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)对所述水平特征进行处理，然后再经连接主义时间分类器CTC进行文本识别，输出文本识别结果。

例如，对所述水平特征依次采用两个卷积层、一个BiLSTM和一个全连接层进行处理，将全连接层的输出作为连接主义时间分类器的输入，得到输出即文本识别结果。其中，识别结果单个文本支持最大长度限制为32个字符，可识别38种不同的种类的字符。

本申请实施例提供的视频文本识别方法，采用旋转感兴趣区域提取特征，旋转感兴趣区域提取模块可以连接检测追踪与识别部分，使得系统为完全端到端的架构，可以端到端的训练，减少了各模块之间的误差累积，缓解了因检测框不够精准，而导致的识别特征提取到过多的背景信息；采用连接主义时间分类器进行文本内容的识别，以更小的模型大小，实现了与其它方法同等精度的识别性能；对文本的检测追踪和识别采用了共享的骨干网络即卷积神经网络提取共享特征，有效减少了计算量，计算复杂度大大降低。

在一些实施例中，所述获取待处理的视频图像，包括：

将视频序列进行切割得到多个单帧视频图像；

具体地，将视频序列切割成一帧一帧的单帧图像，并调整单帧图像的分辨率大小，得到适于作为视频文本识别模型的图像输入的视频图像，即所述待处理的视频图像。

本申请实施例提供的视频文本识别方法，通过对视频序列进行预处理，包括将视频序列切割成单帧图像并调整图像的分辨率大小，从而提高对偏小的文字目标的检测能力和识别能力，从而提升视频文本识别的精度。

下面通过具体示例对上述各实施例提供的视频文本识别方法进一步说明：

步骤1：视频预处理。

视频预处理的目的主要是将视频内容切割成单帧图像，以方便后续输入到模型中，同时我们还会调整输入图像的分辨率大小，目的是提高模型对偏小的文字目标的检测能力和识别精度。

步骤2：采用卷积神经网络初步提取特征。

采用Resnet50卷积神经网络对视频图像内容进行初步的特征提取。系统使用卷积神经网络提取到四个分辨率不同的特征图(即初级特征)共4类，分别为：分辨率(高宽)为H/32×W/32的特征图C1，分辨率为H/16×W/16的特征图C2，分辨率为H/8×W/8的特征图C3，分辨率为H/4×W/4的特征图C4，其中，C1、C2、C3、C4的特征维度分别为2048维、1024维、512维、256维。

此外，还根据基于正弦函数与余弦函数的位置编码方式为特征图每个位置生成一个独一无二的位置编码。

步骤3：编码器进一步提取特征。

首先将特征层C1分别经过3×3步长为2的卷积核和1×1步长为1的卷积核生成特征图M1和M2，其中，M1和M2的特征维度为256维。特征图C2经过1×1步长为1的卷积核生成特征图M3，M3的特征维度为256维。特征图C3经过1×1步长为1的卷积核生成特征图M4，M4的特征维度为256维。

在获得特征图M1、M2、M3和M4后，我们采用可变形自注意力机制的计算公式对这4个特征图进行特征融合，生成编码输出特征。采用的可变形自注意力机制实现了不同尺度的特征之间交换信息，而且不需要进行额外的特征金字塔网络(Feature PyramidNetwork，FPN)的相关操作，并通过参考点选择K个通过插值得到的采样点进行特征融合，进一步提取图像特征，K通常取4。在这里编码器采用的层数为6，因此需要将上述步骤重复六次，上一次的输出作为本次的输入。

步骤4：检测解码器进行文本检测。

检测解码器包含普通的自注意力机制以及可变形自注意力机制两部分。预设q个可学习的检测查询向量，其中q取100，查询向量的维度为256维。这q个检测查询向量会首先经过一次普通自注意力层，以获得相互之间的信息，然后和步骤3生成的编码输出特征进行交互，利用可变形注意力机制，最终输出q个维度为256维的查询输出向量。其中，在上述两次自注意力操作时，所述q个查询向量需要和各自的位置编码相加以获得位置信息。

在得到查询输出向量后，会分别经过两个不同的线性层和一个3层的多层感知机，分别输出维度为1、1、3的向量，分别用于角度、类别、文本框的预测。检测解码器也采用了6层的结构，取最后一层的输出结果进行预测。此外，在训练阶段，使用辅助loss对每一层的输出结果进行约束，以加速收敛过程。

步骤5：跟踪解码器进行文本追踪。

跟踪解码器的结构与检测解码器相同，跟踪解码器输入的跟踪查询向量是由检测解码器输出的检测框和来自视频上一帧图像跟踪解码器输出的向量共同组成，以充分的利用视频冗余的时序信息，具体包括以下步骤：

首先，创建一个可学习的共享查询向量，其维度为256，并将共享查询向量广播为100×256大小。

然后，将检测解码器得到的文本检测框的置信度分数经过正弦余弦编码生成大小为100×256的分数嵌入。将广播后的共享查询向量与分数嵌入相加生成提议查询向量，并将该提议查询向量与来自于视频上一帧图像跟踪解码器产生的跟踪查询向量拼接，生成当前帧跟踪解码器所需的查询输入向量。

最后，将这些查询输入向量依次经过普通自注意力层和可变形自注意力层进行特征交互，获得最终的检测追踪结果。同样地，跟踪解码器也采用了6层结构，并取最后一层的结果作为最终的检测追踪结果。

步骤6：提取识别所需特征。

采用旋转感兴趣区域提取模块进行水平特征提取，具体包括以下步骤：

首先，将特征层C4、特征层M2、M3、M4从256维降维到128维，然后将M2、M3、M4上采样到和特征层C4同样的分辨率；然后将这4个特征层在通道维度进行拼接，拼接成分辨率为H/4×W/4、维度为512的特征层，再用3×3的卷积将其降维到128维，之后再上采样到和输入图片同样分辨率(H×W)的特征图F。

然后，通过追踪解码器模块预测的文本实例的位置信息(x，y，w，h，t)计算转换矩阵T以及旋转矩阵R，x和y表示特征图F上的点，w、h、t分别为文本检测框的宽度、文本检测框的高度和文本检测框的倾斜角度，并利用以下公式在特征图F上应用仿射变换：

其中，和/>表示仿射变换后(即旋转后)得到的水平特征图中与F中的点对应的点；R表示旋转矩阵；T表示转换矩阵；x和y表示输入特征图(即特征图F)上的点；t表示文本检测框的倾斜角度；c_x和c_y表示所述文本检测框中心点坐标。计算得到/>即水平特征。

步骤7：对文字内容识别。

首先，对于水平特征f(特征尺寸：n×128×h×w，其中128表示特征的通道维度，h和w这里分别取8和32)，利用两个卷积层将特征高度从h压缩为0，这两个卷积层的卷积核大小和步长(卷积核，步长)分别为(3，(2,1))以及(1，(4,1))，也可以理解为，把n×128×8×32的特征压扁为n×128×32，并去掉高度h这一纬度。

然后，使用一个双向LSTM层提取序列化特征，将这个序列化特征送入一个全连接层并输出(n，32，38)的特征，其中，n表示文本实例个数，32表示一个文本实例的最大长度，38表示可识别的字符种类；最后输入到连接主义时间分类器(CTC)中，并输出识别结果。

经过上述步骤的处理后，视频中的文字得以被检测追踪并识别，然后系统最终将检测到的文本以及其对应的ID编号、识别内容输出。为方便观看，可以使用不同的颜色来表示不同的ID编号，同时在其附近的白色框内显示识别结果。

图2是本申请实施例提供的一种视频文本识别装置的结构示意图，如图2所示，本申请实施例提供一种视频文本识别装置，包括获取模块201、融合模块202和确定模块203。

所述获取模块201用于获取待处理的视频图像。

所述融合模块202用于利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征；

所述确定模块203用于基于所述编码输出特征利用自注意力机制确定文本识别结果。

在一些实施例中，所述融合模块包括：

第一特征提取单元，用于基于卷积神经网络对多种分辨率的视频图像进行特征提取，得到多个初级特征；每一初级特征对应一种分辨率的视频图像；

第一确定单元，用于基于所述初级特征和预设卷积核确定第一中间特征；

融合单元，用于利用可变形自注意力机制将所述第一中间特征进行融合，得到编码输出特征。

在一些实施例中，所述确定模块包括：

第二确定单元，用于基于所述编码输出特征利用自注意力机制确定文本的位置信息；

第三确定单元，用于基于所述文本的位置信息和第二中间特征确定文本识别结果；所述第二中间特征是对所述初级特征进行上采样和融合得到的。

在一些实施例中，所述第二确定单元包括：

特征提取子单元，用于基于预设的检测查询向量和所述利用自注意力机制进行特征提取，得到第三中间特征；

第一确定子单元，用于基于所述第三中间特征和所述编码输出特征利用可变形自注意力机制确定查询输出向量；

第二确定子单元，用于基于所述查询输出向量利用多层感知机确定文本的位置信息；所述文本的位置信息包括文本角度、文本检测框位置。

在一些实施例中，所述确定模块还包括：

第四确定单元，用于基于所述文本的位置信息和/或上一帧视频图像的跟踪查询向量确定当前帧视频图像的跟踪查询向量；

第二特征提取单元，用于基于所述当前帧视频图像的跟踪查询向量利用自注意力机制进行特征提取，得到第四中间特征；

第五确定单元，用于基于所述第四中间特征和所述编码输出特征确定文本检测追踪结果。

在一些实施例中，所述第三确定单元包括：

计算子单元，用于基于所述文本的位置信息计算转换矩阵和旋转矩阵；

仿射变换子单元，用于基于所述转换矩阵和所述旋转矩阵对所述第二中间特征进行仿射变换，得到水平特征；

识别子单元，用于基于所述水平特征利用双向长短期记忆网络BiLSTM和连接主义时间分类器CTC进行文本识别，得到文本识别结果。

在一些实施例中，所述获取模块包括：

切割单元，用于将视频序列进行切割得到多个单帧视频图像；

调整单元，用于调整所述单帧视频图像的分辨率大小，得到待处理的视频图像。

具体地，本申请实施例提供的上述视频文本识别装置，能够实现上述视频文本识别方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

需要说明的是，本申请上述各实施例中对单元/模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

图3是本申请实施例提供的一种电子设备的结构示意图，如图3所示，所述电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行视频文本识别方法，该方法包括：

获取待处理的视频图像；

具体地，处理器301可以是中央处理器(Central Processing Unit，CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable LogicDevice，CPLD)，处理器也可以采用多核架构。

存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在一些实施例中，还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法实施例提供的视频文本识别方法，该方法包括：

获取待处理的视频图像；

具体地，本申请实施例提供的上述计算机程序产品，能够实现上述各方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

在一些实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行上述各方法实施例提供的视频文本识别方法，该方法包括：

获取待处理的视频图像；

具体地，本申请实施例提供的上述计算机可读存储介质，能够实现上述各方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

需要说明的是：所述计算机可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

另外需要说明的是：本申请实施例中术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”所区别的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

本申请实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

本申请中的“基于A确定B”表示确定B时要考虑A这个因素。并不限于“只基于A就可以确定出B”，还应包括：“基于A和C确定B”、“基于A、C和E确定B”、基于“A确定C，基于C进一步确定B”等。另外还可以包括将A作为确定B的条件，例如，“当A满足第一条件时，使用第一方法确定B”；再例如，“当A满足第二条件时，确定B”等；再例如，“当A满足第三条件时，基于第一参数确定B”等。当然也可以是将A作为确定B的因素的条件，例如，“当A满足第一条件时，使用第一方法确定C，并进一步基于C确定B”等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频文本识别方法，其特征在于，包括：

获取待处理的视频图像；

基于所述编码输出特征利用自注意力机制确定文本识别结果；

所述基于所述编码输出特征利用自注意力机制确定文本识别结果，包括：

基于预设的检测查询向量利用自注意力机制进行特征提取，得到第三中间特征；

基于所述查询输出向量利用多层感知机确定文本的位置信息；所述文本的位置信息包括文本角度、文本检测框位置；

基于所述文本的位置信息和第二中间特征确定文本识别结果；所述第二中间特征是对初级特征进行上采样和融合得到的；所述初级特征是对多种分辨率的视频图像进行特征提取得到的。

2.根据权利要求1所述的视频文本识别方法，其特征在于，所述利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合，获得编码输出特征，包括：

基于所述初级特征和预设卷积核确定第一中间特征；

3.根据权利要求1所述的视频文本识别方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的视频文本识别方法，其特征在于，所述基于所述文本的位置信息和第二中间特征确定文本识别结果，包括：

基于所述文本的位置信息计算转换矩阵和旋转矩阵；

5.根据权利要求1所述的视频文本识别方法，其特征在于，所述获取待处理的视频图像，包括：

将视频序列进行切割得到多个单帧视频图像；

6.一种视频文本识别装置，其特征在于，包括：

获取模块，用于获取待处理的视频图像；

确定模块，用于基于所述编码输出特征利用自注意力机制确定文本识别结果；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述视频文本识别方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述视频文本识别方法。