CN111753657B

CN111753657B - 一种基于自训练的文本检测器训练方法及系统

Info

Publication number: CN111753657B
Application number: CN202010428815.5A
Authority: CN
Inventors: 王伟平; 陈语地; 周宇; 王威; 杨东宝
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-01-13
Anticipated expiration: 2040-05-20
Also published as: CN111753657A

Abstract

本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括：1)获取来源于目标域的视频数据；使用源域的数据对检测器和跟踪器进行预训练；2)利用步骤1)训练后的检测器处理来源于目标域的视频数据，获得该视频数据每一帧的检测结果；步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果；3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹，然后根据该运动轨迹中的边界包围盒来预测轨迹结果，以及从该运动轨迹中挖掘得到难正样本和难负样本，其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本，则将图像A添加到伪数据集中；4)利用步骤3)得到的伪数据集训练检测器。

Description

一种基于自训练的文本检测器训练方法及系统

技术领域

本发明属于信息技术领域，具体涉及一种基于自训练的文本检测器训练方法及系统。

背景技术

随着深度学习的发展，在监督学习场景中对场景文本检测器的研究取得了显著的进展，近年来一些好的工作不断涌现。然而，对于深度检测器来说，要达到良好检测性能要求训练数据和测试数据来自同一个域，这在现实场景是很难保证的。对于特定的应用任务，必须收集新的训练数据集并对其进行标注，这一过程非常昂贵并且耗时。近年来，人们提出了弱监督/半监督学习、数据生成和领域自适应等研究方法来尝试解决这个问题。

弱监督和半监督方法通常一起使用，以减少对复杂标注的需要。然而，大多数半监督方法在很大程度上依赖于目标域的标注。弱监督方法虽然可以降低标注过程的成本，但仍然需要大量的标注样本。数据生成方法利用先验知识自动在无文本的图像中生成文本，但它们生成的数据不够“真实”，背景图像也有限，并且根据实际经验，使用生成数据的方法与使用实际数据的方法之间存在很大的性能差距。最近，域自适应方法试图通过风格迁移来从源域中直接生成目标域中样本来提高检测器在目标域上的性能，然而这种方法需要获取目标域的前景信息以保证所提取的风格信息不会发生混淆。

发明内容

上述传统方法从不同的角度提出较为完善的域迁移框架来解决域迁移的问题，实现对检测器的训练本发明的目的在于提供一种新的基于自训练的文本检测器训练方法及系统。与上述方法相比，本发明将自训练使用在域迁移问题中，这是解决跨域问题的一种替代方法。这种方法不需要生成“真实”的数据，而是直接利用大量真实的图像和视频来提取有用的信息。更重要的是，合成数据集可以被用来训练初始模型，这样的话，整个流程全部无需人工标注，检测器的性能和泛化能力能够得到很大的提升。

本发明的技术方案为：

一种基于自训练的文本检测器训练方法，其步骤包括：

1)获取来源于目标域的视频数据；使用源域的数据对检测器和跟踪器进行预训练；

2)利用步骤1)训练后的检测器处理来源于目标域的视频数据，获得该视频数据每一帧的检测结果；步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果；

3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹，然后根据该运动轨迹中的边界包围盒来预测轨迹结果，以及从该运动轨迹中挖掘得到难正样本和难负样本，其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本，则将图像A添加到伪数据集中；

4)利用步骤3)得到的伪数据集训练检测器。

进一步的，对于无法获取目标域的视频数据，则使用来源于目标域的图片生成该目标域的视频数据。

进一步的，使用来源于目标域的图片生成该目标域的视频数据的方法为：将从目标域获得的图片作为开始帧，随机生成该图片对应的旋转角度θ、缩放因子δ和变换中心c，然后将所生成的旋转角度θ、缩放因子δ和变换中心c代入到仿射变换矩阵中以生成视频的结束帧，然后根据起始帧和结束帧并通过插值生成一段视频。

进一步的，使用来源于目标域的图片生成该目标域的视频数据的方法为：将从目标域获得的图片作为开始帧，对该图片通过仿射变换得到结束帧；然后利用线性插值得到中间帧，从而构成一个视频片段；然后通过对该视频片段进行正放、倒放、正放的方式获取三段视频，并将该三段视频拼接在一起，作为该目标域的视频数据。

进一步的，文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为：

31)对于视频中的每一实例生成若干条运动轨迹及对应的索引，其中运动轨迹T_j为索引j对应实例的一条运动轨迹；轨迹T_j中的第l项

是帧l中索引j对应实例的轨迹结果，在第i+1帧中找到检测结果

对应的跟踪结果

并将其连接到该索引j对应实例的运动轨迹T_j中；然后从l+1帧中查找索引k，

其中，θ是最大交并比IoU的匹配阈值，

表示l+1帧中的索引i对应的检测结果，“None”表示T_j没有匹配结果，如果k≠None，那么利用

替换

成为T_j的第l+1项；如果k＝＝None，则将跟踪结果

初始化为索引j对应实例的一条新的运动轨迹的第一项；

32)文本挖掘模块计算每个检测结果所应匹配的轨迹以及每个轨迹所应匹配的检测结果，并将计算结果保存到一矩阵M_IoU中，M_IoU的第i行第j列元素为

其中，

为

与

的最大交并比，

为

与

的最大交并比，

为第l+1帧中的索引i对应的检测结果；

33)对于每一检测结果d_i，在该矩阵M_IoU中找出与d_i具有最大IoU的轨迹T_j；如果d_i与T_j匹配，则将T_j中的跟踪结果替换为d_i；如果d_i与T_j不匹配，则将M_IoU(i,j)设置为0，并再次对d_i执行新一轮的搜索，查找与d_i匹配的结果并将其中对应的跟踪结果替换为d_i；如果未找到匹配结果，则将d_i初始化为新轨迹。

进一步的，矩阵M_IoU中与d_i具有最大的IoU的轨迹T_j满足

以及

其中，

是从矩阵M_IoU第j列的所有元素中查找元素最大值对应的索引p，

是从矩阵M_IoU第i行的所有元素中查找元素最大值对应的索引p。

进一步的，图像A的伪标签

其中D_A是图像A中的检测结果，D_A\HN_A表示在D_A中但不在难负样本集合HN_A的一组元素，HP_A为难正样本集合。

一种基于自训练的文本检测器训练系统，其特征在于，包括训练模块、检测模块、跟踪模块和文本挖掘模块TMM；其中，

检测模块，用于利用训练后的检测器处理来源于目标域的视频数据，获得该视频数据每一帧的检测结果；

跟踪模块，用于利用训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果；

文本挖掘模块TMM，用于将每一帧的检测结果与跟踪结果进行融合生成运动轨迹，然后根据该运动轨迹中的边界包围盒来预测轨迹结果，以及从该运动轨迹中挖掘得到难正样本和难负样本，其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本，则将图像A添加到伪数据集中；

训练模块，用于利用伪数据集训练检测器。

与现有技术相比，本发明的积极效果为：

ICDAR2015(IC15)，ICDAR2015 Text in Video(15VID)，MSRA-TD500(TD500),Verisimilar Image Synthesis Dataset(VISD)被用来检测本发明方法的有效性。首先，本发明在合成数据集VISD和IC15上训练一个基准检测器作为初始检测器。对于不同的检测器，本发明使用15VID的训练集作为框架的输入，得到相应的伪标签，经过难样本挖掘得到难样本之后，本发明将在所有难样本中随机抽取1000幅图像。它们与生成的伪标签一起构成伪数据集。使用不同的初始检测器测试框架在不同情况下的有效性。在IC15上的结果用于测量检测性能，在15VID上的结果用于测试域自适应性能。

表1展示了本发明模型各个模块之间的效果对比。表2展示了本发明和其他主流方法在测试数据集上的效果对比。

表1为在IC15和15VID数据集上的消融实验

表2为ICDAR 2015和MSRA-TD500数据集上的实验结果

附图说明

图1是自训练框架示意图；

图2为轨迹、跟踪结果和检测结果之间关系的示意图；

图3为轨迹生成的示意图；

图4为Gen-Loop方法生成的视频中的轨迹的示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明。

本发明提出了一种新的基于检测和跟踪方法的文本检测自训练框架。该框架试图从大量未标注的图像和视频中自动挖掘难样本。在该框架中，首先在合成数据集VISD和源域中获取的图像数据集IC15上训练一个基准检测器作为初始检测器，初始检测器的输入为目标域的视频，输出为文本区域在每一帧中的空间位置，用于提供初始检测结果。然后利用一个训练好的跟踪器以初始检测结果和目标域视频为输入产生跟踪结果。针对文本密集出现并且边界划分相对模糊的特点，本发明提出了一种新的文本挖掘模块(Text MiningModule,TMM)来融合、过滤初始检测结果和跟踪结果。这三个模块一起工作，为自训练过程提供准确的难样本以及更低的噪声率。此外，在某些应用任务中，只能获取图片，因此本发明设计了一种图像到视频的生成方法(Gen Loop)，使得生成的视频同样适用于本发明的框架。

如图1所示，本发明提出的框架由三个关键模块组成：检测模块、跟踪模块和TMM。本发明在源域的训练数据集上训练初始检测器，并准备大量的目标域视频数据。视频中的每一帧都会被送入检测器、跟踪器以及TMM来得到最后的伪标注。伪标注和难样本图片会一起被用于检测器的再训练。图1中的检测器是一个深度卷积网络。跟踪器使用实体的位置虚线方框以及它对应的表观特征来在下一帧搜寻对应的实体。TMM负责更新轨迹，图1中只展示了它的部分的工作模式。在一条轨迹中，如果一个跟踪结果在前后相邻几帧都在对应位置存在检测结果，则这个跟踪结果就是所说的难正样本。如果某些轨迹太短或里面存在的检测结果很少，则将检测结果视为难负样本。

本发明的整个流程分为以下几步：

1)收集来源于目标域的视频数据，对于无法获取目标域的视频数据的情况，使用来源于目标域的图片通过Gen Loop方法生成该目标域的视频数据。

2)使用源域的数据对检测器和跟踪器进行预训练。

3)检测器处理来源于目标域的视频数据，获得检测结果。

4)跟踪器在检测结果的基础上进一步处理视频，根据前一帧的检测结果预测当前帧的跟踪结果。

5)TMM将检测结果与跟踪结果根据公式2-5相关的内容融合生成运动轨迹，根据轨迹结果中的边界包围盒来预测轨迹结果，与此同时在轨迹结果中执行难样本挖掘以得到难正样本和难负样本。

当且仅当视频数据中的一帧图像A中存在难正样本或难负样本，则图像A被添加到伪数据集中。对应的难正样本会被添加到集合HP_A中，对应的难负样本会被添加到集合HN_A中，图像A的相应伪标签

的计算方式来自于公式[1]。

6)利用伪数据集重新训练检测器，提升目标域检测性能。

式中D_A是图像A中的检测结果，D_A\HN_A表示在D_A中但不在HN_A中元素的集合。本发明得到的伪数据集会被用于检测器的再训练过程。

TMM是该框架的关键组成部分，用于融合检测结果和跟踪结果。一般来说，最大交并比(Intersection of Union,IoU)是判断检测结果或跟踪结果是否与轨迹匹配的评价指标。如图2所示，其中水平纹理标识的单元表示成功的匹配，倾斜纹理标识的单元表示需要被无视掉的弱匹配结果，轨迹T_j中的最后一项

是帧l中索引j对应实例的轨迹结果。在l+1帧中，

将有一个跟踪结果，表示为

一旦

被生成，它将暂时被连接到T_j中。索引k是l+1帧中能够与第l帧中索引j对应实例的轨迹T_j匹配的检测结果对应的索引，该索引由公式[2]、[3]计算。

其中，θ是IoU匹配的阈值，

表示l+1帧中的索引i对应的检测结果，“None”表示T_j没有匹配结果，即轨迹T_j中的每一检测结果与所有轨迹均不匹配。如果k≠None，那么

将被

替换。因此，检测结果或者跟踪结果中的一个会被加入到T_j中，即将检测结果

或者跟踪结果

加入到T_j中，成为T_j的第l+1项。通过这种方式，本发明可以融合检测和跟踪信息，进而获得更精确的轨迹。如果k＝＝None，那么检测结果与任何轨迹都不匹配，则将其初始化为新的轨迹的第一项。

上面提到的匹配方法并不总是有效的。要解决这一问题，TMM不仅要考虑每个检测结果应该匹配哪个轨迹，还要考虑每个轨迹应该匹配哪个检测结果。本发明使用一个矩阵M_IoU来保存公式[3]产生的结果，M_IoU的第i行第j列元素为F(i,j)。

M_IoU的维数是检测结果的数量N_d乘以轨迹的数量N_j。对于每个检测结果d_i，本发明在M_IoU中找出与d_i具有最大的IoU的轨迹T_j；通过在M_IoU中搜索，以确定d_i是否与T_j具有最大的IoU。成功的匹配应该同时满足公式[4]和公式[5]，

其中“＝＝”表示相等，

是从矩阵M_IoU第j列的所有元素中最大值对应的索引p。如果d_i与T_j不匹配，M_IoU[i,j]将被设置为0，并再次对d_i执行新一轮的搜索，即对于任意j′≠j的轨迹T_j′，将j′替换j代入公式[4]和公式[5]，直到找到匹配的结果或者完成搜索。图3为轨迹生成的示意图，参见图3的第3行，找到匹配结果后，T_j中的跟踪结果将替换为d_i。如果搜索完成仍未找到匹配结果，d_i将被初始化为新轨迹。图3中实线方框代表检测结果，虚线方框代表跟踪结果，灰色半透明方框代表上一帧检测结果在当前帧的位置；第一行：一个正确的轨迹更新示范，第二行：当某些检测结果丢失时，使用常见的匹配规则得到的错误轨迹更新过程，第三行：某些检测结果丢失时，TMM产生的轨迹更新过程。

上述自训练框架可以应用于任何目标域，只要能在该域中获得视频。但是，在某些应用任务中，只能获取图像，视频是不被允许的。这里本发明提出了一种新的方法Gen Loop来解决这个问题。

一种直接的方法(Base)是简单地利用从目标域获得的图像进行自训练，也就是说，本发明只通过检测器获取图像的伪标签，并利用它们进行再训练。或者使用一些复杂的数据增强技术(Gen-Straight)生成合成视频，即对于从目标域获得的图像作为开始帧，本发明可以随机生成旋转角度θ、缩放因子δ和变换中心c，然后将这些参数代入到仿射变换矩阵中以生成视频的结束帧，然后根据起始帧i和结束帧j的图像，就可以通过插值生成长度为t的视频。通过生成的视频，本发明可以使用上面的框架来挖掘需要的难样本。为了公平比较，本发明将对Base生成的伪数据集执行相同的仿射变换，转换后得到的数据集称为Base Trans。

然而，如果直接使用上面提到的朴素方法，就不能有效地得到难样本。对于检测任务，Gen-Straight生成的帧对于检测器来说往往不是从难到易，就是从易到难。一旦某一帧的检测结果丢失，可以预见，它前面或者是后面的所有帧都将丢失检测结果。更重要的是，这么做将不可能从起始帧和结束帧中挖掘出难样本，因为在它们之前或之后并不同时存在相邻的帧。遗憾的是，在开始帧中挖掘到的难样本是最有价值的信息。因此，本发明设计了一个回环方案(Gen Loop)，它的主体方法与Gen-Straight相同，都是根据获得的图片(起始帧)通过仿射变换得到结束帧。然后利用线性插值得到中间帧，从而构成一个视频片段。与Gen-Straight不同的是，它加入了视频倒放的思路，通过正放、倒放、正放的方式获取三段视频，并将他们拼接在一起。这样可以有效的改变视频检测的难度曲线，从而挖掘更多的难样本。Gen-Loop方法生成的视频中的轨迹的示意图如图4所示，其中实线方框代表检测结果，灰色半透明方框代表通过后续TMM算法能够挖掘到的难正样本，这确保序列中的每个图像至少被访问两次，同时所有图像的两侧都有相邻帧。视频的长度t限制为50，以确保相邻两次访问之间的时间间隔不会太长。这种新的模式对于自训练框架是非常有效的。此外，由于每个生成的帧都会重复三次，检测模块只需要正常工作负载的1/3就能完成整个视频的检测任务。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于自训练的文本检测器训练方法，其步骤包括：

3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹，然后根据该运动轨迹中的边界包围盒来预测轨迹结果，以及从该运动轨迹中挖掘得到难正样本和难负样本，其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本，则将图像A添加到伪数据集中；其中文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为：

是帧l中索引j对应实例的轨迹结果，在第l+1帧中找到检测结果

对应的跟踪结果

其中，θ是最大交并比IoU的匹配阈值，

替换

成为T_j的第l+1项；如果k＝＝None，则将跟踪结果

初始化为索引j对应实例的一条新的运动轨迹的第一项；

表示l+1帧中的索引k对应的检测结果；

其中，

为

与

的最大交并比，

为

与

的最大交并比，

为第l+1帧中的索引i对应的检测结果；

33)对于每一检测结果d_i，在该矩阵M_IoU中找出与d_i具有最大IoU的轨迹T_j；如果d_i与T_j匹配，则将T_j中的跟踪结果替换为d_i；如果d_i与T_j不匹配，则将M_IoU(i,j)设置为0，并再次对d_i执行新一轮的搜索，查找与d_i匹配的结果并将其中对应的跟踪结果替换为d_i；如果未找到匹配结果，则将d_i初始化为新轨迹；

4)利用步骤3)得到的伪数据集训练检测器。

2.如权利要求1所述的方法，其特征在于，对于无法获取目标域的视频数据，则使用来源于目标域的图片生成该目标域的视频数据。

3.如权利要求2所述的方法，其特征在于，使用来源于目标域的图片生成该目标域的视频数据的方法为：将从目标域获得的图片作为开始帧，随机生成该图片对应的旋转角度θ、缩放因子δ和变换中心c，然后将所生成的旋转角度θ、缩放因子δ和变换中心c代入到仿射变换矩阵中以生成视频的结束帧，然后根据起始帧和结束帧并通过插值生成一段视频。

4.如权利要求2所述的方法，其特征在于，使用来源于目标域的图片生成该目标域的视频数据的方法为：将从目标域获得的图片作为开始帧，对该图片通过仿射变换得到结束帧；然后利用线性插值得到中间帧，从而构成一个视频片段；然后通过对该视频片段进行正放、倒放、正放的方式获取三段视频，并将该三段视频拼接在一起，作为该目标域的视频数据。

5.如权利要求1所述的方法，其特征在于，矩阵M_IoU中与d_i具有最大的IoU的轨迹T_j满足

以及

其中，

6.如权利要求1所述的方法，其特征在于，图像A的伪标签

7.一种基于自训练的文本检测器训练系统，其特征在于，包括训练模块、检测模块、跟踪模块和文本挖掘模块TMM；其中，

文本挖掘模块TMM，用于将每一帧的检测结果与跟踪结果进行融合生成运动轨迹，然后根据该运动轨迹中的边界包围盒来预测轨迹结果，以及从该运动轨迹中挖掘得到难正样本和难负样本，其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本，则将图像A添加到伪数据集中；其中文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为：对于视频中的每一实例生成若干条运动轨迹及对应的索引，其中运动轨迹T_j为索引j对应实例的一条运动轨迹；轨迹T_j中的第l项

对应的跟踪结果

其中，θ是最大交并比IoU的匹配阈值，

替换

成为T_j的第l+1项；如果k＝＝None，则将跟踪结果

初始化为索引j对应实例的一条新的运动轨迹的第一项，

为第l+1帧中的索引k对应的检测结果；然后计算每个检测结果所应匹配的轨迹以及每个轨迹所应匹配的检测结果，并将计算结果保存到一矩阵M_IoU中，M_IoU的第i行第j列元素为

然后对于每一检测结果d_i，在该矩阵M_IoU中找出与d_i具有最大IoU的轨迹T_j；如果d_i与T_j匹配，则将T_j中的跟踪结果替换为d_i；如果d_i与T_j不匹配，则将M_IoU(i,j)设置为0，并再次对d_i执行新一轮的搜索，查找与d_i匹配的结果并将其中对应的跟踪结果替换为d_i；如果未找到匹配结果，则将d_i初始化为新轨迹；其中，其中，