CN111931571B

CN111931571B - 基于在线增强检测的视频文字目标追踪方法与电子设备

Info

Publication number: CN111931571B
Application number: CN202010643270.XA
Authority: CN
Inventors: 周瑜; 张嘉剑; 朱盈盈; 卞飞飞; 白翔; 杨志博; 王永攀
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2022-05-17
Anticipated expiration: 2040-07-07
Also published as: CN111931571A

Abstract

本发明公开了一种基于在线增强检测的视频文字目标追踪方法：逐帧输入视频图片；使用文字目标检测与特征提取网络进行文字目标的定位与特征提取，获取文字目标位置和包含语义信息和空间背景信息的特征向量，使特征向量对于不同身份的文字目标有很强的区分度；利用文字位置距离、文字形态距离、文字特征距离进行帧与帧之间文字目标的匹配，通过匈牙利算法获取文字目标匹配结果，匹配成功的文字目标赋予相同的身份；建立在线增强检测机制，使用基于孪生网络的跟踪器对先前帧中未匹配成功的文字目标预测其在当前帧的位置，同时基于此预测结果增强当前视频帧文字目标检测结果；根据视频图片帧中检测到的文字目标身份，确定所有文字目标的运动轨迹。

Description

基于在线增强检测的视频文字目标追踪方法与电子设备

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于在线增强检测的视频文字目标追踪方法与电子设备。

背景技术

视频目标追踪是计算机视觉和机器人领域的重要研究方向，视频目标追踪要求计算机能够在连续的视频序列中快速且准确地定位目标并匹配不同帧中目标间关系，其子任务目标定位和目标匹配在整个追踪系统中起着关键性作用。近年来针对图像上的文字检测与识别技术有了很大的进步，但针对视频中的文字目标的研究和方法较少，多数方法针对静态图片进行文字检测与识别研究，而视频中文字目标的研究充满挑战和困难。为了更好的分析理解视频内容，对视频中的文字目标进行追踪具有较大的意义和价值，且在自动驾驶领域、交通标志检测等领域有着广泛的用途。由于实际场景复杂多变、文字尺度范围较大、文字目标遮挡、运动模糊等因素影响，视频文字目标追踪任务存在较大的难度和挑战性，且文字目标不同于一般目标，其具有特殊的性质，如文字目标形态固定、文字目标尺度变化较小、文字目标包含重要的语义信息等，这对视频文字目标追踪任务存在一定的帮助。目前现有的少量视频文字目标追踪方法往往没有考虑到文字目标不同于一般目标的特有性质，将一般目标追踪的方法应用在视频文字目标上，存在一定的问题和缺陷，对漏检的文字目标和丢失的文字目标没有及时的进行处理或者处理方法耗时且复杂。

发明内容

针对现有技术的缺陷或改进需求，本发明提供了一种基于在线增强检测的视频文字目标追踪方法，其目的在于对视频中文字目标的追踪过程中，利用背景信息和语义信息增强文字目标特征向量的区分度，提高追踪过程中文字目标的匹配精度；通过基于孪生网络的跟踪器对漏检和匹配失败的文字目标进行预测，在线增强检测器结果，缓解检测器漏检问题，完成高精度的视频文字追踪任务。

为了实现上述目的，按照本发明的一个，提供了一种基于在线增强检测的视频文字目标追踪方法，包括如下步骤：

(1)根据视频序列中文字目标的位置、目标身份离线训练文字目标检测与特征提取网络和基于孪生网络的跟踪器，包含以下子步骤：

(1.1)通过视频每帧图片I＝{I₁,I₂,…,I_t}以及每帧对应的文字目标包围盒集合B＝{B₁,B₂,…,B_t}作为标注信息，离线训练一个基于分割的文字检测网络SegNet，包括：

(1.1.1)已知当前帧图片I_t和当前帧图片上文字目标包围盒集合B_t＝{b₁,b₂,…,b_n}，b_n表示第t帧图片上第n个文本目标的包围盒，为包围盒四个角点坐标。根据文字包围盒集合B_t，将文字包围盒区域内像素作为正样本，标注为1；将不属于文字包围盒区域内的像素作为负样本，标注为0。通过以上方式，制作文字区域分割训练标签

其中N为像素个数，

表示第t帧图片上第k个像素的标签。

(1.1.2)将当前帧图片I_t输入基于卷积神经网络构建的分割网络SegNet预测每个像素点属于文字区域的概率

将每个像素的预测结果

与对应的训练标签

计算分割交叉熵损失并求和，其损失定义为:

其中

为图片I_t中第k个像素的标签，当该像素在文字包围盒区域内时标签为1，否则标签为0；

为分割网络预测图片I_t第k个像素属于文字区域的概率；N为像素个数。优化目标是找到一组卷积神经网络参数使得分割任务损失loss最小，由此构建一个基于分割的文字检测网络。

(1.2)在(1.1)离线训练的基于分割的文字检测网络SegNet基础上，利用SegNet、视频图片I＝{I₁,I₂,…,I_t}、每帧图片对应的文字目标包围盒集合B＝{B₁,B₂,…,B_t}以及文字身份信息集合ID＝{ID₁,ID₂,…,ID_t}离线训练文字目标特征提取分支，包括：

(1.2.1)对于输入的连续两帧图片I_t-1、I_t，根据两张图片的标注信息得到文字目标包围盒集合

以及每个文字包围盒对应的身份信息集合

其中

表示图片I_t-1上第m个文字目标的包围盒，

表示图片I_t上第n个文字目标的包围盒，

表示文字目标

的身份信息，

表示文字目标

的身份信息，m为第t-1帧的文字目标总数，n为第t帧目标总数。提取两张图片中l个文字三元组集合T＝{T₁,T₂,…,T_l}，其中

表示一个三元组由t-1帧中的第o个目标和t帧中的第p、q个目标包围盒组成，这三个文字目标对应的身份关系为

即每个文字三元组中，前两个文字目标是不同视频图片上属于同一身份的文字目标，第三个是与前两个文字不属于同一身份的文字目标。

(1.2.2)在(1.1)离线训练的基于分割的文字检测网络SegNet的基础特征提取网络后添加文字目标特征提取分支，提取文字目标的背景特征和语义特征。对于基础特征提取网络的输出特征f，添加额外的卷积层进行高级文字特征提取得到f′。根据文字三元组集合T＝{T₁,T₂,…,T_l}利用RoI Align操作从特征f′提取三元组特征集合F＝{F₁,F₂,…,F_l}，其中三元组特征

为t-1帧中的第o个目标的特征向量，

为t帧中的第p、q个目标的特征向量。分别使用全连接神经网络和长短期记忆网络对三元组特征集合F＝{F₁,F₂,…,F_l}提取三元组背景特征集合Fb＝{Fb₁,Fb₂,…,Fb_l}和三元组语义特征集合Fs＝{Fs₁,Fs₂,…,Fs_l}，其中背景特征

语义特征

Fb_l、Fs_l与F_l代表的目标相对应，前两个为属于同一文字目标的特征向量，第三个为与前两个不属于同一文字目标的特征向量。

(1.2.3)将(1.2.2)提取的三元组背景特征集合Fb和三元组语义特征集合Fs合并，得到三元组特征向量集合Fu＝{Fu₁,Fu₂,…,Fu_l}，其中

表示综合了文字目标背景信息和语义信息的三元组特征向量。对每个文字三元组特征向量计算损失并求和，添加超参数W_scale、

控制不同特性文字目标的损失大小，得到目标函数为：

其中

表示三元组特征向量中属于同一身份的文字目标的特征向量的欧式距离；

表示不属于同一身份的文字目标的特征向量间欧式距离；W_scale是衡量文字目标尺寸的权重，尺寸越小权重越大；

是衡量文字目标间空间距离的权重，距离越远权重越大；优化目标是找到一组特征提取分支的参数使得loss最小。

(1.3)通过视频每帧图片I＝{I₁,I₂,…,I_t}以及每帧对应的文字目标包围盒集合B＝{B₁,B₂,…,B_t}作为标注信息，为每帧图片上选取的文字目标，离线训练一个基于孪生网络的跟踪器，包括：

(1.3.1)在一个视频序列中相隔50帧范围内随机选两帧图片I_i和I_j，并保证两帧图片中包含相同身份的文字目标。从中选取同一身份的一组文字目标包围盒b_i、b_j，其中b_i为图片I_i中的文字目标包围盒，b_j为图片I_j中与b_i身份相同的文字目标包围盒，包围盒b的表达形式如下：

b＝(x1,y1,x2,y2,x3,y3,x4,y4,w,h)

其中(xk,yk)为包围盒第k个角点的坐标，总共有4个角点；w,h分别为文字框的宽和高。

对于图片I_i，采用边长为s的正方形对其进行剪裁作为模板，对于图片I_j，采用边长为2s的正方形对其进行剪裁并进行数据增强作为搜索区域，其中裁剪区域包含文字目标，s计算公式如下：

s²＝(w+p)×(h+p)；p＝(w+h)/2

(1.3.2)每个像素位置提前预设5个长宽比的默认框，长宽比率为{0.3,0.2,1,2,3}，这些默认框跟b_j之间的IOU大于0.6则设为正样本，低于0.3则从中选择部分样本作为负样本，正样本默认框表示为下式b_s＝(x1_s,y1_s,x2_s,y2_s,x3_s,y3_s,x4_s,y4_s,w_s,h_s)，计算b_s与b_j之间四个角点坐标的偏移量

作为回归分支的标签，计算过程如下所示：

其中(xk_j,yk_j)为图片I_j中选取目标b_j的第k个角点坐标，(xk_s,yk_s)为默认框的第k个角点坐标，(w_s,h_s)为默认框的宽和高。

(1.3.3)将模板和搜索区域输入孪生网络，输出两个分支分别是分类分支和回归分支。其中分类分支预测的是每个像素点上第k个默认框是前景的概率

根据第二步中选择的正负样本默认框求交叉熵损失L_cls。回归分支输出每个像素上第k个默认框的偏移，并与回归标签计算Smooth_L1损失L_reg。优化网络参数使得损失函数最小，由此构建一个基于孪生网络的跟踪器。

(2)通过摄像机采集视频，并将视频逐帧输入视频文字追踪系统，在线进行多文字目标的追踪，包括以下子步骤：

(2.1)使用(1)离线训练好的文字目标检测与特征提取网络对当前帧进行文字目标的检测与文字目标的背景与语义特征的提取，包括：

(2.1.1)将视频第t帧I_t输入(1)离线训练好的基于分割的文字检测网络SegNet获得文字区域分割结果Pred_t以及图片I_t对应的特征f，通过固定阈值对Pred_t进行二值化，获得文字区域预测结果，通过后处理计算得到文字包围盒预测结果

其中

为视频帧I_t中第k个预测的文字包围盒，n为预测的文字目标总数。

(2.1.2)将特征f经过卷积层进行高级文字特征提取得到f′，根据输入帧I_t的文字包围盒预测结果

通过RoI Align操作从特征f′提取所有预测文字目标的特征集合

其中

表示I_t上第n个预测的文字目标的特征，通过特征提取分支的全连接网络和长短期记忆网络分别提取文字背景特征集合

和文字语义特征集合

将背景特征和语义特征合并得到文字特征向量集合

其中

分别是图片I_t的第n个预测的文字目标的背景特征、语义特征。

(2.2)将当前帧检测到的文字目标(包括位置信息与特征信息)与当前正在追踪的文字目标进行身份匹配，包括：

(2.2.1)根据(2.1)得到的当前帧I_t的文字目标(包括文字包围盒预测结果

与文字特征向量集合

结合文字目标之间的位置距离、形态距离、特征距离计算文字间综合距离，距离公式为:

dist＝a*dist_iou+b*dist_embedding+c*dist_shape

其中dist_iou表示文字目标间的位置距离，通过计算IOU＝|A∩B|/|A∪B|得到目标之间的交并比，计算dist_iou＝1-IOU来表示文字目标间的位置距离；dist_embedding是文字目标特征向量间的L₂距离，用来衡量文字目标在特征上的相似性，该部分在训练过程中增大了针对困难样本的权重，因此对于文字目标的区分性很强；dist_shape为文字目标间的形态距离，通过文字目标的长宽以及角度的差值计算得到，重点关注文字目标间的形态差异；a、b、c为控制各个距离相对大小的权重系数。

(2.2.2)根据(2.2.1)计算的距离，通过匈牙利算法对系统正在追踪的文字目标与当前帧检测出的文字目标进行匹配，对于匹配成功的目标，系统会认定这两个目标为不同帧中同一身份的文字，并设置当前帧的目标ID与匹配目标的ID相同；对于先前帧中正在追踪但未能匹配成功的目标，系统会认定其在当前帧未被检测到，可能是该目标在当前帧消失或者被漏检，当目标消失超过一秒钟，则认为该目标不会再出现；对于当前帧中未能匹配成功的目标，系统会认定其是新出现的文字目标，若其在后续帧再次出现，则形成新目标的轨迹。

(2.3)对于(2.2.2)匹配失败的系统正在追踪的文字目标包围盒b_k，使用(1.3)离线训练的基于孪生网络的跟踪器预测其在当前帧视频图片上的文字目标包围盒b_t，取分割网络预测输出Pred_t上文字目标包围盒b_t区域内平均值作为文字目标的预测分数Score_t，如果Score_t超过阈值则保留b_t，否则丢弃b_t。将保留的b_t作为当前帧视频图片检测结果的补充，缓解检测器文字漏检问题，在线增强检测结果。

(2.4)将当前帧匹配成功的检测目标以及单目标跟踪器预测的目标作为当前正在追踪的文字目标，与下一帧视频图片的检测结果继续进行匹配。

按照本发明的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)效率高：该发明通过将文字检测网络与文字目标特征提取分支结合的方式，提高文字检测与特征提取的效率。

(2)文字特征表达性强：本发明通过使用全连接网络与长短期记忆网络分别提取文字背景特征与文字语义特征，将文字信息特征与语义特征结合作为文字目标的特征，提高文字特征的表达能力，增强在线追踪过程中不同文字目标之间的区分度。

(3)文字匹配精度高：本发明在线追踪过程中，在匹配机制中充分考虑文字目标不同于一般目标的特性，使用文字间位置距离、形态距离以及特征距离进行文字目标间的匹配，文字匹配精度较高。

(4)追踪过程中可以在线增强检测：本发明对于检测器漏检的文字目标，使用离线训练的基于孪生网络的跟踪器预测其在当前帧的位置，并结合当前帧的分割结果计算文字分数，将超过阈值的单目标跟踪器预测结果保留，在线增强检测结果，缓解检测器漏检问题。

附图说明

图1是本发明提供的基于在线增强检测的视频文字目标追踪方法的流程示意图；

图2是利用本发明方法在自然场景中的追踪效果图；

图3是利用本发明方法在自然场景中的另一追踪效果图；

图4是利用本发明方法在自然场景中的另一追踪效果图；

图5是利用本发明方法在自然场景中的另一追踪效果图。

具体实施方式

为了使本发明的目的、技术方法以及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明的各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先对本发明中使用的专业术语或相关技术进行解释说明：

长短期记忆网络(Long-Short Term Memory，LSTM)：长短期记忆网络LSTM是循环神经网络的一种，为了解决一般循环神经网络存在的长期依赖问题而专门设计提出，设计有输入门、遗忘门、输出门控制信息传递，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

ResNet50：ResNet50是经典的残差网络的一种，利用残差连接来解决深层卷积神经网络网络退化问题，通过学习网络映射的残差更好的训练卷积神经网络。

SiamRPN：SiamRPN提出了一种单目标追踪算法框架。由孪生网络和RPN网络组成，通过RPN网络提取区域建议，孪生网络提取模板和区域建议的特征，并使用模板匹配的方式进行目标匹配，最终实现单目标追踪。

欧式距离：欧式距离也称L2距离，是最常见的距离度量方法，衡量的是多维空间中两个点或向量之间的绝对距离，即向量间差的平方。

ROI Align：一种区域特征聚集方式,很好地解决了ROI Pooling操作中两次量化造成的区域不匹配的问题，通过将目标框映射到特征图上，从特征图上采用类似插值的算法取出固定大小的目标特征。

如图1所示，本发明设计了一种基于在线增强检测的视频文字目标追踪方法，包括以下步骤：

(1)使用包含文字目标位置和文字目标身份标注的视频图片集I＝{I₁,I₂,…,I_t}，离线训练一个基于分割的文字检测网络SegNet、文字目标特征提取分支和单目标追踪网络Siam RPN，包括以下子步骤：

(1.1)通过视频图片集I＝{I₁,I₂,…,I_t}并利用每帧图片的上文字包围盒B＝{B₁,B₂,…,B_t}作为标注信息，离线训练一个基于分割的文字检测网络SegNet，包括：

(1.1.1)已知当前帧图片I_t和当前帧图片上的文字目标包围盒集合B_t＝{b₁,b₂,…,b_n}，其中b_n表示图片I_t上第n个文字目标的包围盒，将文字包围盒内区域作为文字区域，标注为1，其它为背景区域，标注为0。通过以上方式，制作分割网络训练标签

其中N为像素个数，

表示第t帧图片上第k个像素的标签。

(1.1.2)将当前帧图片I_t输入分割网络SegNet，得到每个像素点属于文字区域的概率预测

计算分割网络预测结果与训练标签之间的交叉熵损失，其损失定义为:

其中

为分割网络预测图片I_t第k个像素属于文字区域的概率；N为像素个数。优化目标在于找到一组分割网络参数使得loss最小，由此完成基于分割的文字检测网络的离线训练。

(1.2)在(1.1)离线训练的基于分割的文字检测网络SegNet基础上，使用SegNet、视频图片集I＝{I₁,I₂,…,I_t}、每帧图片对应的文字目标包围盒集合B＝{B₁,B₂,…,B_t}以及文字目标身份信息集合ID＝{ID₁,ID₂,…,ID_t}离线训练文字目标特征提取分支，包括：

(1.2.1)对于输入的网络的连续两帧图片I_t-1、I_t，根据两张图片的标注信息得到文字目标包围盒

以及每个文字包围盒对应的身份信息集合

其中

表示图片I_t-1上第m个文字目标的包围盒坐标信息，

表示图片I_t上第n个文字目标的包围盒坐标信息，

表示文字目标

的身份信息，

表示文字目标

的身份信息，m为第t-1帧的文字目标总数，n为第t帧目标总数。根据输入的连续帧的文字身份信息提取两张图片中l个文字三元组集合T＝{T₁,T₂,…,T_l}，每个三元组

由三个文字目标组成，其中

属于图片I_t-1中第o个文字目标，

属于图片I_t中第p、q个文字目标，

和

具有相同的身份，

的身份不同，即

(1.2.2)在(1.1)离线训练的基于分割的文字检测网络SegNet的基础特征提取网络ResNet50后添加文字目标特征提取分支，分别提取文字目标的背景特征和语义特征。对于基础特征提取网络ResNet50的输出特征f，使用额外的卷积层对进行高级特征提取得到f′。根据文字三元组利用RoI Align从特征f′提取三元组特征集合F＝{F₁,F₂,…,F_l}，其中

为t-1帧中的第o个目标的特征向量，

语义特征

Fb_l、Fs_l与F_l代表的目标相对应。

(1.2.3)将(1.2.2)的三元组背景特征集合Fb和三元组语义特征集合Fs合并，得到三元组特征向量集合Fu＝{Fu₁,Fu₂,…,Fu_l}，其中

控制不同特性文字目标的损失大小，得到目标函数为:

其中

表示三元组特征向量中属于同一身份的文字目标的特征向量间欧式距离；

(1.3)通过视频图片集I＝{I₁,I₂,…,I_t}并利用每帧图片的上文字包围盒B＝{B₁,B₂,…,B_t}作为标注信息，为每帧图片上选取的文字目标，离线训练一个基于孪生网络的跟踪器Siam RPN，包括：

b＝(x1,y1,x2,y2,x3,y3,x4,y4,w,h)

s²＝(w+p)×(h+p)；p＝(w+h)/2

作为回归分支的标签，计算过程如下所示：

(1.3.3)将模板和搜索区域输入孪生网络，输出两个分支分别是分类分支和回归分支。其中分类分支预测的是每个像素点上第k个莫默认框是前景的概率

(2)将摄像机采集的视频图片逐帧输入添加了文字目标特征提取分支的文字检测网络，预测文字目标位置信息和提取文字目标的特征信息，并在线进行多文字目标的追踪，包括以下子步骤：

(2.1)使用(1)离线训练好的添加了特征提取分支的文字检测网络SegNet对当前帧进行文字目标的位置检测与文字特征的提取，包括：

(2.1.1)将视频帧I_t输入(1)离线训练的文字检测网络预测每个像素点属于文字区域的概率Pred_t以及视频帧I_t对应的特征f，通过固定阈值对Pred_t进行二值化，获得文字区域分割结果，进而后处理得到文字包围盒预测结果

其中

为视频帧I_t中第k个预测的文字目标包围盒，n为预测的文字目标总数。

通过RoI Align操作从特征f′提取所有预测文字目标的特征集合

其中

表示I_t上第n个预测的文字目标的特征，再将F_t输入特征提取分支的全连接网络和长短期记忆网络分别提取文字背景特征集合

和文字语义特征集合

将背景特征和语义特征合并得到文字特征向量集合

其中

(2.2)根据(2.1)得到的当前帧I_t的文字目标位置信息和文字特征信息，将当前帧检测到的文字目标与当前正在追踪的文字目标进行身份匹配，在线追踪多文字目标，包括：

与文字特征向量集合

与当前系统正在追踪的文字目标计算文字之间的距离，公式为：

dist＝a*dist_iou+b*dist_embedding+c*dist_shape

其中dist_iou表示文字之间的位置距离，用来衡量两个文字目标之间的位置远近，dist_iou＝1-|A∩B|/|A∪B|；dist_embedding为文字特征向量间的欧式距离，用来衡量来两个文字目标在背景特征和语义特征上的相似性；dist_shape为两个文字目标之间的形态距离，通过两个文字目标的长、宽、角度的差值计算得到，关注两个文字目标之间的形态差异；a、b、c为控制各个距离相对大小的权重系数。

(2.2.2)使用匈牙利算法和(2.2.1)计算的文字距离对当前帧文字目标与系统正在追踪的文字目标进行在线匹配，确定系统正在追踪的文字目标与当前帧检测出的文字目标之间的身份对应关系。对于匹配成功的目标，系统会认定这两个目标为不同帧中同一身份的文字，并设置当前帧的目标ID与匹配目标的ID相同；对于先前帧中正在追踪但未能匹配成功的目标，系统会认定其在当前帧未被检测到，可能是该目标在当前帧消失或者被漏检，当目标消失超过一秒钟，则认为该目标不会再出现；对于当前帧中未能匹配的目标，系统会认定其是新出现的文字目标，若其在后续帧再次出现，则形成新目标的轨迹。

(2.3)对于(2.2.2)匹配失败的系统正在追踪的文字目标，使用(1.3)离线训练的基于孪生网络的跟踪器Siam RPN预测其在当前帧视频图片上的文字目标包围盒b_t，取分割网络输出Pred_t上b_t区域内平均值作为文字目标的分数Score_t，如果Score_t超过阈值则保留b_t，否则丢弃。将保留b_t的作为当前帧视频图片检测结果的补充，在线增强检测，缓解检测器漏检问题。

图2至图5是本发明方法在自然场景视频中的文字追踪效果图。通过实验证明，本发明方法具有很好的文字目标追踪效果。

进一步地，本发明还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明所述的方法。

进一步地，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明所述的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于在线增强检测的视频文字目标追踪方法，其特征在于，包括如下步骤：

(1)在训练数据集上，根据视频序列中文字目标的位置、目标身份ID，离线训练文字目标检测与特征提取网络以及基于孪生网络的跟踪器，包含以下子步骤：

(1.1)通过视频帧和其对应的文字目标包围盒标注信息，离线训练一个基于分割的文字检测网络；

(1.2)在(1.1)训练的检测网络基础上，通过迁移学习的方式利用视频文字训练集训练文字目标特征提取分支；包括：

(1.2.1)对于输入的连续两帧图片I_t-1、I_t，根据两张图片的标注信息得到文字目标的包围盒集合

以及每个文字包围盒对应的身份信息集合

其中m为第t-1帧的文字目标总数，n为第t帧文字目标总数，

表示图片I_t-1上第m个文字目标的包围盒，

表示图片I_t上第n个文字目标的包围盒，

表示文字目标

的身份信息，

表示文字目标

的身份信息，提取两张图片中l个文字三元组集合T＝{T₁，T₂，…，T_l}，其中

即每个文字三元组中，前两个文字目标是不同视频图片上属于同一身份的文字目标，第三个是与前两个文字不属于同一身份的文字目标；

(1.2.2)在(1.1)离线训练的基于分割的文字检测网络SegNet的基础特征提取网络后添加文字目标特征提取分支，提取文字目标的背景特征和语义特征，对于基础特征提取网络的输出特征f，添加额外的卷积层进行高级文字特征提取得到f′，根据文字三元组集合T＝{T₁，T₂，…，T_l}利用RoI Align操作从特征f′提取三元组特征集合F＝{F₁，F₂，…，F_l}，其中三元组特征

为t-1帧中的第o个目标的特征向量，

为t帧中的第p、q个目标的特征向量，分别使用全连接神经网络和长短期记忆网络对三元组特征集合F＝{F₁，F₂，…，F_l}提取三元组背景特征集合Fb＝{Fb₁，Fb₂，…，Fb_l}和三元组语义特征集合Fs＝{Fs₁，Fs₂，…，Fs_l}，其中背景特征

语义特征

与F_l代表的目标相对应，前两个为属于同一文字目标的特征向量，第三个为与前两个不属于同一文字目标的特征向量；

(1.2.3)将(1.2.2)提取的三元组背景特征集合Fb和三元组语义特征集合Fs合并，得到三元组特征向量集合Fu＝{Fu₁，Fu₂，…，Fu_l}，其中

表示综合了文字目标背景信息和语义信息的三元组特征向量，对每个三元组特征向量计算损失并求和，添加超参数W_scale、

控制不同特性文字目标的损失大小，得到目标函数为：

其中

是衡量文字目标间空间距离的权重，距离越远权重越大；优化目标是找到一组特征提取分支的参数使得loss最小；

(1.3)通过视频帧和其对应的文字目标包围盒坐标与身份信息，离线训练一个基于孪生网络的跟踪器；

(2)通过摄像机采集视频，并将视频逐帧输入视频文字目标追踪方法中，在线进行多文字目标的检测与匹配，包含以下子步骤：

(2.1)在线使用(1)训练好的文字检测与特征提取网络对当前帧进行文字目标的检测，并提取出每个文字目标区域所对应的特征向量；

(2.2)将当前帧检测到的文字目标与当前正在追踪的文字目标进行匹配，从文字目标的位置信息、形态特点以及特征向量三个方面判断不同帧中的文字目标是否属于同一身份；

(2.3)对于当前正在追踪的文字目标，如果在当前帧的检测结果中未成功匹配到文字，则利用(1.3)训练好的基于孪生网络的跟踪器在线预测其在当前帧中的位置，并结合文字检测的输出将置信度较高的预测结果作为当前帧检测结果的补充；

(2.4)将当前帧匹配到的文字目标作为当前正在追踪的文字目标，继续和下一帧的检测结果进行后续的匹配。

2.如权利要求1所述的基于在线增强检测的视频文字目标追踪方法，其特征在于，所述步骤(1.1)包括：

(1.1.1)已知当前帧图片I_t和当前帧图片上文字目标包围盒集合B_t，这里B_t＝{b₁，b₂，…，b_n}，其中b_n表示图片I_t上第n个文字目标的包围盒，根据文字包围盒集合B_t所标注的位置信息，将文字包围盒区域内像素作为正样本，标注为1；将不属于文字包围盒区域内的像素作为负样本，标注为0；通过以上方式，制作图片I_t的文字区域分割训练标签

其中N为像素个数，

表示第t帧图片上第k个像素的标签；

(1.1.2)将当前帧图片I_t输入分割网络SegNet预测每个像素点属于文字区域的概率

将每个像素的预测结果

与对应的训练标签

计算分割损失并求和，其损失定义为：

其中

为图片I_t中第k个像素的标签，当该像素在文字包围盒区域内时标签为1，否则标签为O；

为分割网络预测图片I_t第k个像素属于文字区域的概率；N为像素个数，优化目标是找到一组卷积神经网络参数使得分割任务损失loss最小，由此构建一个基于分割的文字检测网络。

3.如权利要求1或2所述的基于在线增强检测的视频文字目标追踪方法，其特征在于，所述步骤(1.3)包括：

(1.3.1)在一个视频序列中相隔50帧范围内随机选两帧图片I_i和I_j，并保证两帧图片中包含相同身份的文字目标，从中选取同一身份的一组文字目标包围盒b_i、b_j，其中b_i为图片I_i中的文字目标包围盒，b_j为图片I_j中与b_i身份相同的文字目标包围盒，包围盒b的表达形式如下：

b＝(x1，y1，x2，y2，x3，y3，x4，y4，w，h)

其中(xk，yk)为包围盒第k个角点的坐标，总共有4个角点；w，h分别为文字框的宽和高；

s²＝(w+p)×(h+p)；p＝(w+h)/2

(1.3.2)每个像素位置提前预设5个长宽比的默认框，长宽比率为{0.3，0.2，1，2，3}，这些默认框跟b_j之间的IOU大于0.6则设为正样本，低于0.3则从中选择部分样本作为负样本，正样本默认框表示为下式b_s＝(x1_s，y1_s，x2_s，y2_s，x3_s，y3_s，x4_s，y4_s，w_s，h_s)，计算b_s与b_j之间四个角点坐标的偏移量

作为回归分支的标签，计算过程如下所示：

其中(xk_j，yk_j)为图片I_j中选取目标b_j的第k个角点坐标，(xk_s，yk_s)为默认框的第k个角点坐标，(w_s，h_s)为默认框的宽和高；

(1.3.3)将模板和搜索区域输入孪生网络，输出两个分支分别是分类分支和回归分支，其中分类分支预测的是每个像素点上第k个默认框是前景的概率

根据第二步中选择的正负样本默认框求交叉熵损失L_cls，回归分支输出每个像素上第k个默认框的偏移，并与回归标签计算Smooth_L1损失L_reg，优化网络参数使得损失函数最小，由此构建一个基于孪生网络的跟踪器。

4.如权利要求1或2所述的基于在线增强检测的视频文字目标追踪方法，其特征在于，所述步骤(2.1)具体为：

(2.1.1)将视频帧I_t输入(1)离线训练好的基于分割的文字检测网络SegNet获得文字区域分割结果Pred_t以及视频帧I_t对应的特征f，通过固定阈值对Pred_t进行二值化，获得文字区域预测结果，通过后处理方法计算得到文字包围盒预测结果

其中

为视频帧I_t中第k个预测的文字包围盒，n为预测的文字目标总数；

通过RoIAlign操作从f′提取所有预测文字目标的特征集合

其中

为图片I_t的检测结果的第n个文字目标的特征，通过特征提取分支的全连接网络和长短期记忆网络分别提取文字背景特征集合

和文字语义特征集合

将背景特征和语义特征合并得到文字特征向量集合

其中

分别是图片I_t的检测结果的第n个文字目标的背景特征、语义特征。

5.如权利要求1或2所述的基于在线增强检测的视频文字目标追踪方法，其特征在于，所述步骤(2.2)包括：

与文字特征向量集合

结合文字目标之间的位置距离、形态距离、特征距离计算文字间综合距离，距离公式为：

dist＝a*dist_iou+b*dist_embedding+c*dist_shape

其中dist_iou表示文字目标间的位置距离，通过计算IOU＝|A∩B|/|A∪B|得到目标之间的交并比，再通过dist_iou＝1-IOU来表示文字目标间的位置距离；dist_embedding是文字目标特征向量间的L₂距离，用来衡量文字目标在特征上的相似性，该部分在训练过程中增大了针对困难样本的权重，因此对于文字目标的区分性很强；dist_shape为文字目标间的形态距离，通过文字目标的长宽以及角度的差值计算得到，重点关注文字目标间的形态差异；a、b、c为控制各个距离相对大小的权重系数；

(2.2.2)根据(2.2.1)计算文字目标间距离，通过匈牙利算法对系统正在追踪的文字目标与当前帧检测出的文字目标进行匹配，对于匹配成功的目标，系统会认定这两个目标为不同帧中同一身份的文字，并设置当前帧的目标ID与匹配目标的ID相同；对于先前帧中正在追踪但未能匹配成功的目标，系统会认定其在当前帧未被检测到，可能是该目标在当前帧消失或者被漏检，当目标消失超过一秒钟，则认为该目标不会再出现；对于当前帧中未能匹配成功的目标，系统会认定其是新出现的文字目标，若其在后续帧再次出现，则形成新目标的轨迹。

6.如权利要求1或2所述的基于在线增强检测的视频文字目标追踪方法，其特征在于，所述步骤(2.3)具体为：

对(2.2.2)匹配失败的系统正在追踪的文字目标包围盒b_k，使用(1.3)离线训练的基于孪生网络的跟踪器预测其在当前帧视频图片上的文字目标包围盒b_t，取分割网络预测输出Pred_t上文字目标包围盒b_t区域内平均值作为文字目标的预测分数Score_t，如果Score_t超过阈值则保留b_t，否则丢弃b_t，将保留的b_t作为当前帧视频图片检测结果的补充，缓解检测器文字漏检问题，在线增强检测结果。

7.如权利要求1或2所述的基于在线增强检测的视频文字目标追踪方法，其特征在于，所述步骤(2.4)具体为：系统记录每一帧追踪到的目标以及消失一定时间以内的目标，并将这些目标作为系统正在追踪的目标送入下一帧中进行匹配，通过不断的更新追踪到的目标以及消失不久的目标，从而得到视频中每个目标的运动轨迹。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的方法。