CN111753657B - 一种基于自训练的文本检测器训练方法及系统 - Google Patents

一种基于自训练的文本检测器训练方法及系统 Download PDF

Info

Publication number
CN111753657B
CN111753657B CN202010428815.5A CN202010428815A CN111753657B CN 111753657 B CN111753657 B CN 111753657B CN 202010428815 A CN202010428815 A CN 202010428815A CN 111753657 B CN111753657 B CN 111753657B
Authority
CN
China
Prior art keywords
frame
result
track
detection result
iou
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010428815.5A
Other languages
English (en)
Other versions
CN111753657A (zh
Inventor
王伟平
陈语地
周宇
王威
杨东宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010428815.5A priority Critical patent/CN111753657B/zh
Publication of CN111753657A publication Critical patent/CN111753657A/zh
Application granted granted Critical
Publication of CN111753657B publication Critical patent/CN111753657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括:1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;4)利用步骤3)得到的伪数据集训练检测器。

Description

一种基于自训练的文本检测器训练方法及系统
技术领域
本发明属于信息技术领域,具体涉及一种基于自训练的文本检测器训练方法及系统。
背景技术
随着深度学习的发展,在监督学习场景中对场景文本检测器的研究取得了显著的进展,近年来一些好的工作不断涌现。然而,对于深度检测器来说,要达到良好检测性能要求训练数据和测试数据来自同一个域,这在现实场景是很难保证的。对于特定的应用任务,必须收集新的训练数据集并对其进行标注,这一过程非常昂贵并且耗时。近年来,人们提出了弱监督/半监督学习、数据生成和领域自适应等研究方法来尝试解决这个问题。
弱监督和半监督方法通常一起使用,以减少对复杂标注的需要。然而,大多数半监督方法在很大程度上依赖于目标域的标注。弱监督方法虽然可以降低标注过程的成本,但仍然需要大量的标注样本。数据生成方法利用先验知识自动在无文本的图像中生成文本,但它们生成的数据不够“真实”,背景图像也有限,并且根据实际经验,使用生成数据的方法与使用实际数据的方法之间存在很大的性能差距。最近,域自适应方法试图通过风格迁移来从源域中直接生成目标域中样本来提高检测器在目标域上的性能,然而这种方法需要获取目标域的前景信息以保证所提取的风格信息不会发生混淆。
发明内容
上述传统方法从不同的角度提出较为完善的域迁移框架来解决域迁移的问题,实现对检测器的训练本发明的目的在于提供一种新的基于自训练的文本检测器训练方法及系统。与上述方法相比,本发明将自训练使用在域迁移问题中,这是解决跨域问题的一种替代方法。这种方法不需要生成“真实”的数据,而是直接利用大量真实的图像和视频来提取有用的信息。更重要的是,合成数据集可以被用来训练初始模型,这样的话,整个流程全部无需人工标注,检测器的性能和泛化能力能够得到很大的提升。
本发明的技术方案为:
一种基于自训练的文本检测器训练方法,其步骤包括:
1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;
2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;
3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;
4)利用步骤3)得到的伪数据集训练检测器。
进一步的,对于无法获取目标域的视频数据,则使用来源于目标域的图片生成该目标域的视频数据。
进一步的,使用来源于目标域的图片生成该目标域的视频数据的方法为:将从目标域获得的图片作为开始帧,随机生成该图片对应的旋转角度θ、缩放因子δ和变换中心c,然后将所生成的旋转角度θ、缩放因子δ和变换中心c代入到仿射变换矩阵中以生成视频的结束帧,然后根据起始帧和结束帧并通过插值生成一段视频。
进一步的,使用来源于目标域的图片生成该目标域的视频数据的方法为:将从目标域获得的图片作为开始帧,对该图片通过仿射变换得到结束帧;然后利用线性插值得到中间帧,从而构成一个视频片段;然后通过对该视频片段进行正放、倒放、正放的方式获取三段视频,并将该三段视频拼接在一起,作为该目标域的视频数据。
进一步的,文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为:
31)对于视频中的每一实例生成若干条运动轨迹及对应的索引,其中运动轨迹Tj为索引j对应实例的一条运动轨迹;轨迹Tj中的第l项
Figure BDA0002499746610000021
是帧l中索引j对应实例的轨迹结果,在第i+1帧中找到检测结果
Figure BDA0002499746610000022
对应的跟踪结果
Figure BDA0002499746610000023
并将其连接到该索引j对应实例的运动轨迹Tj中;然后从l+1帧中查找索引k,
Figure BDA0002499746610000024
Figure BDA0002499746610000025
其中,θ是最大交并比IoU的匹配阈值,
Figure BDA0002499746610000026
表示l+1帧中的索引i对应的检测结果,“None”表示Tj没有匹配结果,如果k≠None,那么利用
Figure BDA0002499746610000027
替换
Figure BDA0002499746610000028
成为Tj的第l+1项;如果k==None,则将跟踪结果
Figure BDA0002499746610000029
初始化为索引j对应实例的一条新的运动轨迹的第一项;
32)文本挖掘模块计算每个检测结果所应匹配的轨迹以及每个轨迹所应匹配的检测结果,并将计算结果保存到一矩阵MIoU中,MIoU的第i行第j列元素为
Figure BDA0002499746610000031
其中,
Figure BDA0002499746610000032
Figure BDA0002499746610000033
Figure BDA0002499746610000034
的最大交并比,
Figure BDA0002499746610000035
Figure BDA0002499746610000036
Figure BDA0002499746610000037
的最大交并比,
Figure BDA0002499746610000038
为第l+1帧中的索引i对应的检测结果;
33)对于每一检测结果di,在该矩阵MIoU中找出与di具有最大IoU的轨迹Tj;如果di与Tj匹配,则将Tj中的跟踪结果替换为di;如果di与Tj不匹配,则将MIoU(i,j)设置为0,并再次对di执行新一轮的搜索,查找与di匹配的结果并将其中对应的跟踪结果替换为di;如果未找到匹配结果,则将di初始化为新轨迹。
进一步的,矩阵MIoU中与di具有最大的IoU的轨迹Tj满足
Figure BDA0002499746610000039
以及
Figure BDA00024997466100000310
其中,
Figure BDA00024997466100000311
是从矩阵MIoU第j列的所有元素中查找元素最大值对应的索引p,
Figure BDA00024997466100000312
是从矩阵MIoU第i行的所有元素中查找元素最大值对应的索引p。
进一步的,图像A的伪标签
Figure BDA00024997466100000313
其中DA是图像A中的检测结果,DA\HNA表示在DA中但不在难负样本集合HNA的一组元素,HPA为难正样本集合。
一种基于自训练的文本检测器训练系统,其特征在于,包括训练模块、检测模块、跟踪模块和文本挖掘模块TMM;其中,
检测模块,用于利用训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;
跟踪模块,用于利用训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;
文本挖掘模块TMM,用于将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;
训练模块,用于利用伪数据集训练检测器。
与现有技术相比,本发明的积极效果为:
ICDAR2015(IC15),ICDAR2015 Text in Video(15VID),MSRA-TD500(TD500),Verisimilar Image Synthesis Dataset(VISD)被用来检测本发明方法的有效性。首先,本发明在合成数据集VISD和IC15上训练一个基准检测器作为初始检测器。对于不同的检测器,本发明使用15VID的训练集作为框架的输入,得到相应的伪标签,经过难样本挖掘得到难样本之后,本发明将在所有难样本中随机抽取1000幅图像。它们与生成的伪标签一起构成伪数据集。使用不同的初始检测器测试框架在不同情况下的有效性。在IC15上的结果用于测量检测性能,在15VID上的结果用于测试域自适应性能。
表1展示了本发明模型各个模块之间的效果对比。表2展示了本发明和其他主流方法在测试数据集上的效果对比。
表1为在IC15和15VID数据集上的消融实验
Figure BDA0002499746610000041
表2为ICDAR 2015和MSRA-TD500数据集上的实验结果
Figure BDA0002499746610000042
附图说明
图1是自训练框架示意图;
图2为轨迹、跟踪结果和检测结果之间关系的示意图;
图3为轨迹生成的示意图;
图4为Gen-Loop方法生成的视频中的轨迹的示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
本发明提出了一种新的基于检测和跟踪方法的文本检测自训练框架。该框架试图从大量未标注的图像和视频中自动挖掘难样本。在该框架中,首先在合成数据集VISD和源域中获取的图像数据集IC15上训练一个基准检测器作为初始检测器,初始检测器的输入为目标域的视频,输出为文本区域在每一帧中的空间位置,用于提供初始检测结果。然后利用一个训练好的跟踪器以初始检测结果和目标域视频为输入产生跟踪结果。针对文本密集出现并且边界划分相对模糊的特点,本发明提出了一种新的文本挖掘模块(Text MiningModule,TMM)来融合、过滤初始检测结果和跟踪结果。这三个模块一起工作,为自训练过程提供准确的难样本以及更低的噪声率。此外,在某些应用任务中,只能获取图片,因此本发明设计了一种图像到视频的生成方法(Gen Loop),使得生成的视频同样适用于本发明的框架。
如图1所示,本发明提出的框架由三个关键模块组成:检测模块、跟踪模块和TMM。本发明在源域的训练数据集上训练初始检测器,并准备大量的目标域视频数据。视频中的每一帧都会被送入检测器、跟踪器以及TMM来得到最后的伪标注。伪标注和难样本图片会一起被用于检测器的再训练。图1中的检测器是一个深度卷积网络。跟踪器使用实体的位置虚线方框以及它对应的表观特征来在下一帧搜寻对应的实体。TMM负责更新轨迹,图1中只展示了它的部分的工作模式。在一条轨迹中,如果一个跟踪结果在前后相邻几帧都在对应位置存在检测结果,则这个跟踪结果就是所说的难正样本。如果某些轨迹太短或里面存在的检测结果很少,则将检测结果视为难负样本。
本发明的整个流程分为以下几步:
1)收集来源于目标域的视频数据,对于无法获取目标域的视频数据的情况,使用来源于目标域的图片通过Gen Loop方法生成该目标域的视频数据。
2)使用源域的数据对检测器和跟踪器进行预训练。
3)检测器处理来源于目标域的视频数据,获得检测结果。
4)跟踪器在检测结果的基础上进一步处理视频,根据前一帧的检测结果预测当前帧的跟踪结果。
5)TMM将检测结果与跟踪结果根据公式2-5相关的内容融合生成运动轨迹,根据轨迹结果中的边界包围盒来预测轨迹结果,与此同时在轨迹结果中执行难样本挖掘以得到难正样本和难负样本。
当且仅当视频数据中的一帧图像A中存在难正样本或难负样本,则图像A被添加到伪数据集中。对应的难正样本会被添加到集合HPA中,对应的难负样本会被添加到集合HNA中,图像A的相应伪标签
Figure BDA0002499746610000061
的计算方式来自于公式[1]。
6)利用伪数据集重新训练检测器,提升目标域检测性能。
Figure BDA0002499746610000062
式中DA是图像A中的检测结果,DA\HNA表示在DA中但不在HNA中元素的集合。本发明得到的伪数据集会被用于检测器的再训练过程。
TMM是该框架的关键组成部分,用于融合检测结果和跟踪结果。一般来说,最大交并比(Intersection of Union,IoU)是判断检测结果或跟踪结果是否与轨迹匹配的评价指标。如图2所示,其中水平纹理标识的单元表示成功的匹配,倾斜纹理标识的单元表示需要被无视掉的弱匹配结果,轨迹Tj中的最后一项
Figure BDA0002499746610000063
是帧l中索引j对应实例的轨迹结果。在l+1帧中,
Figure BDA0002499746610000064
将有一个跟踪结果,表示为
Figure BDA0002499746610000065
一旦
Figure BDA0002499746610000066
被生成,它将暂时被连接到Tj中。索引k是l+1帧中能够与第l帧中索引j对应实例的轨迹Tj匹配的检测结果对应的索引,该索引由公式[2]、[3]计算。
Figure BDA0002499746610000067
Figure BDA0002499746610000068
其中,θ是IoU匹配的阈值,
Figure BDA0002499746610000069
表示l+1帧中的索引i对应的检测结果,“None”表示Tj没有匹配结果,即轨迹Tj中的每一检测结果与所有轨迹均不匹配。如果k≠None,那么
Figure BDA00024997466100000610
将被
Figure BDA00024997466100000611
替换。因此,检测结果或者跟踪结果中的一个会被加入到Tj中,即将检测结果
Figure BDA00024997466100000612
或者跟踪结果
Figure BDA00024997466100000613
加入到Tj中,成为Tj的第l+1项。通过这种方式,本发明可以融合检测和跟踪信息,进而获得更精确的轨迹。如果k==None,那么检测结果与任何轨迹都不匹配,则将其初始化为新的轨迹的第一项。
上面提到的匹配方法并不总是有效的。要解决这一问题,TMM不仅要考虑每个检测结果应该匹配哪个轨迹,还要考虑每个轨迹应该匹配哪个检测结果。本发明使用一个矩阵MIoU来保存公式[3]产生的结果,MIoU的第i行第j列元素为F(i,j)。
MIoU的维数是检测结果的数量Nd乘以轨迹的数量Nj。对于每个检测结果di,本发明在MIoU中找出与di具有最大的IoU的轨迹Tj;通过在MIoU中搜索,以确定di是否与Tj具有最大的IoU。成功的匹配应该同时满足公式[4]和公式[5],
Figure BDA0002499746610000071
Figure BDA0002499746610000072
其中“==”表示相等,
Figure BDA0002499746610000073
是从矩阵MIoU第j列的所有元素中最大值对应的索引p。如果di与Tj不匹配,MIoU[i,j]将被设置为0,并再次对di执行新一轮的搜索,即对于任意j′≠j的轨迹Tj′,将j′替换j代入公式[4]和公式[5],直到找到匹配的结果或者完成搜索。图3为轨迹生成的示意图,参见图3的第3行,找到匹配结果后,Tj中的跟踪结果将替换为di。如果搜索完成仍未找到匹配结果,di将被初始化为新轨迹。图3中实线方框代表检测结果,虚线方框代表跟踪结果,灰色半透明方框代表上一帧检测结果在当前帧的位置;第一行:一个正确的轨迹更新示范,第二行:当某些检测结果丢失时,使用常见的匹配规则得到的错误轨迹更新过程,第三行:某些检测结果丢失时,TMM产生的轨迹更新过程。
上述自训练框架可以应用于任何目标域,只要能在该域中获得视频。但是,在某些应用任务中,只能获取图像,视频是不被允许的。这里本发明提出了一种新的方法Gen Loop来解决这个问题。
一种直接的方法(Base)是简单地利用从目标域获得的图像进行自训练,也就是说,本发明只通过检测器获取图像的伪标签,并利用它们进行再训练。或者使用一些复杂的数据增强技术(Gen-Straight)生成合成视频,即对于从目标域获得的图像作为开始帧,本发明可以随机生成旋转角度θ、缩放因子δ和变换中心c,然后将这些参数代入到仿射变换矩阵中以生成视频的结束帧,然后根据起始帧i和结束帧j的图像,就可以通过插值生成长度为t的视频。通过生成的视频,本发明可以使用上面的框架来挖掘需要的难样本。为了公平比较,本发明将对Base生成的伪数据集执行相同的仿射变换,转换后得到的数据集称为Base Trans。
然而,如果直接使用上面提到的朴素方法,就不能有效地得到难样本。对于检测任务,Gen-Straight生成的帧对于检测器来说往往不是从难到易,就是从易到难。一旦某一帧的检测结果丢失,可以预见,它前面或者是后面的所有帧都将丢失检测结果。更重要的是,这么做将不可能从起始帧和结束帧中挖掘出难样本,因为在它们之前或之后并不同时存在相邻的帧。遗憾的是,在开始帧中挖掘到的难样本是最有价值的信息。因此,本发明设计了一个回环方案(Gen Loop),它的主体方法与Gen-Straight相同,都是根据获得的图片(起始帧)通过仿射变换得到结束帧。然后利用线性插值得到中间帧,从而构成一个视频片段。与Gen-Straight不同的是,它加入了视频倒放的思路,通过正放、倒放、正放的方式获取三段视频,并将他们拼接在一起。这样可以有效的改变视频检测的难度曲线,从而挖掘更多的难样本。Gen-Loop方法生成的视频中的轨迹的示意图如图4所示,其中实线方框代表检测结果,灰色半透明方框代表通过后续TMM算法能够挖掘到的难正样本,这确保序列中的每个图像至少被访问两次,同时所有图像的两侧都有相邻帧。视频的长度t限制为50,以确保相邻两次访问之间的时间间隔不会太长。这种新的模式对于自训练框架是非常有效的。此外,由于每个生成的帧都会重复三次,检测模块只需要正常工作负载的1/3就能完成整个视频的检测任务。
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种基于自训练的文本检测器训练方法,其步骤包括:
1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;
2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;
3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;其中文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为:
31)对于视频中的每一实例生成若干条运动轨迹及对应的索引,其中运动轨迹Tj为索引j对应实例的一条运动轨迹;轨迹Tj中的第l项
Figure FDA0003895464960000011
是帧l中索引j对应实例的轨迹结果,在第l+1帧中找到检测结果
Figure FDA0003895464960000012
对应的跟踪结果
Figure FDA0003895464960000013
并将其连接到该索引j对应实例的运动轨迹Tj中;然后从l+1帧中查找索引k,
Figure FDA0003895464960000014
Figure FDA0003895464960000015
其中,θ是最大交并比IoU的匹配阈值,
Figure FDA0003895464960000016
表示l+1帧中的索引i对应的检测结果,“None”表示Tj没有匹配结果,如果k≠None,那么利用
Figure FDA0003895464960000017
替换
Figure FDA0003895464960000018
成为Tj的第l+1项;如果k==None,则将跟踪结果
Figure FDA0003895464960000019
初始化为索引j对应实例的一条新的运动轨迹的第一项;
Figure FDA00038954649600000110
表示l+1帧中的索引k对应的检测结果;
32)文本挖掘模块计算每个检测结果所应匹配的轨迹以及每个轨迹所应匹配的检测结果,并将计算结果保存到一矩阵MIoU中,MIoU的第i行第j列元素为
Figure FDA00038954649600000111
Figure FDA00038954649600000112
其中,
Figure FDA00038954649600000113
Figure FDA00038954649600000114
Figure FDA00038954649600000115
的最大交并比,
Figure FDA00038954649600000116
Figure FDA00038954649600000117
Figure FDA00038954649600000118
的最大交并比,
Figure FDA00038954649600000119
为第l+1帧中的索引i对应的检测结果;
33)对于每一检测结果di,在该矩阵MIoU中找出与di具有最大IoU的轨迹Tj;如果di与Tj匹配,则将Tj中的跟踪结果替换为di;如果di与Tj不匹配,则将MIoU(i,j)设置为0,并再次对di执行新一轮的搜索,查找与di匹配的结果并将其中对应的跟踪结果替换为di;如果未找到匹配结果,则将di初始化为新轨迹;
4)利用步骤3)得到的伪数据集训练检测器。
2.如权利要求1所述的方法,其特征在于,对于无法获取目标域的视频数据,则使用来源于目标域的图片生成该目标域的视频数据。
3.如权利要求2所述的方法,其特征在于,使用来源于目标域的图片生成该目标域的视频数据的方法为:将从目标域获得的图片作为开始帧,随机生成该图片对应的旋转角度θ、缩放因子δ和变换中心c,然后将所生成的旋转角度θ、缩放因子δ和变换中心c代入到仿射变换矩阵中以生成视频的结束帧,然后根据起始帧和结束帧并通过插值生成一段视频。
4.如权利要求2所述的方法,其特征在于,使用来源于目标域的图片生成该目标域的视频数据的方法为:将从目标域获得的图片作为开始帧,对该图片通过仿射变换得到结束帧;然后利用线性插值得到中间帧,从而构成一个视频片段;然后通过对该视频片段进行正放、倒放、正放的方式获取三段视频,并将该三段视频拼接在一起,作为该目标域的视频数据。
5.如权利要求1所述的方法,其特征在于,矩阵MIoU中与di具有最大的IoU的轨迹Tj满足
Figure FDA0003895464960000021
以及
Figure FDA0003895464960000022
其中,
Figure FDA0003895464960000023
是从矩阵MIoU第j列的所有元素中查找元素最大值对应的索引p,
Figure FDA0003895464960000024
是从矩阵MIoU第i行的所有元素中查找元素最大值对应的索引p。
6.如权利要求1所述的方法,其特征在于,图像A的伪标签
Figure FDA0003895464960000025
其中DA是图像A中的检测结果,DA\HNA表示在DA中但不在难负样本集合HNA的一组元素,HPA为难正样本集合。
7.一种基于自训练的文本检测器训练系统,其特征在于,包括训练模块、检测模块、跟踪模块和文本挖掘模块TMM;其中,
检测模块,用于利用训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;
跟踪模块,用于利用训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;
文本挖掘模块TMM,用于将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;其中文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为:对于视频中的每一实例生成若干条运动轨迹及对应的索引,其中运动轨迹Tj为索引j对应实例的一条运动轨迹;轨迹Tj中的第l项
Figure FDA0003895464960000031
是帧l中索引j对应实例的轨迹结果,在第l+1帧中找到检测结果
Figure FDA0003895464960000032
对应的跟踪结果
Figure FDA0003895464960000033
并将其连接到该索引j对应实例的运动轨迹Tj中;然后从l+1帧中查找索引k,
Figure FDA0003895464960000034
Figure FDA0003895464960000035
其中,θ是最大交并比IoU的匹配阈值,
Figure FDA0003895464960000036
表示l+1帧中的索引i对应的检测结果,“None”表示Tj没有匹配结果,如果k≠None,那么利用
Figure FDA0003895464960000037
替换
Figure FDA0003895464960000038
成为Tj的第l+1项;如果k==None,则将跟踪结果
Figure FDA0003895464960000039
初始化为索引j对应实例的一条新的运动轨迹的第一项,
Figure FDA00038954649600000310
为第l+1帧中的索引k对应的检测结果;然后计算每个检测结果所应匹配的轨迹以及每个轨迹所应匹配的检测结果,并将计算结果保存到一矩阵MIoU中,MIoU的第i行第j列元素为
Figure FDA00038954649600000311
然后对于每一检测结果di,在该矩阵MIoU中找出与di具有最大IoU的轨迹Tj;如果di与Tj匹配,则将Tj中的跟踪结果替换为di;如果di与Tj不匹配,则将MIoU(i,j)设置为0,并再次对di执行新一轮的搜索,查找与di匹配的结果并将其中对应的跟踪结果替换为di;如果未找到匹配结果,则将di初始化为新轨迹;其中,其中,
Figure FDA00038954649600000312
Figure FDA00038954649600000313
Figure FDA00038954649600000314
的最大交并比,
Figure FDA00038954649600000315
Figure FDA00038954649600000316
Figure FDA00038954649600000317
的最大交并比,
Figure FDA00038954649600000318
为第l+1帧中的索引i对应的检测结果;
训练模块,用于利用伪数据集训练检测器。
8.如权利要求7所述的系统,其特征在于,矩阵MIoU中与di具有最大的IoU的轨迹Tj满足
Figure FDA00038954649600000319
以及
Figure FDA00038954649600000320
其中,
Figure FDA00038954649600000321
是从矩阵MIoU第j列的所有元素中查找元素最大值对应的索引p,
Figure FDA00038954649600000322
是从矩阵MIoU第i行的所有元素中查找元素最大值对应的索引p。
CN202010428815.5A 2020-05-20 2020-05-20 一种基于自训练的文本检测器训练方法及系统 Active CN111753657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010428815.5A CN111753657B (zh) 2020-05-20 2020-05-20 一种基于自训练的文本检测器训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010428815.5A CN111753657B (zh) 2020-05-20 2020-05-20 一种基于自训练的文本检测器训练方法及系统

Publications (2)

Publication Number Publication Date
CN111753657A CN111753657A (zh) 2020-10-09
CN111753657B true CN111753657B (zh) 2023-01-13

Family

ID=72673288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010428815.5A Active CN111753657B (zh) 2020-05-20 2020-05-20 一种基于自训练的文本检测器训练方法及系统

Country Status (1)

Country Link
CN (1) CN111753657B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283181B (zh) * 2021-12-22 2024-06-18 北京大学 一种基于样例的动态纹理迁移方法及系统
CN114845160B (zh) * 2022-04-28 2024-04-23 北京生数科技有限公司 一种语音驱动视频处理方法、相关装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002761A (zh) * 2018-06-13 2018-12-14 中山大学新华学院 一种基于深度卷积神经网络的行人重识别监控系统
CN110197229A (zh) * 2019-05-31 2019-09-03 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010905B2 (en) * 2018-09-07 2021-05-18 Apple Inc. Efficient object detection and tracking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002761A (zh) * 2018-06-13 2018-12-14 中山大学新华学院 一种基于深度卷积神经网络的行人重识别监控系统
CN110197229A (zh) * 2019-05-31 2019-09-03 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
无监督迁移学习红外行为识别;黑鸿中等;《小型微型计算机系统》;20200409(第04期);全文 *

Also Published As

Publication number Publication date
CN111753657A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
Oza et al. Unsupervised domain adaptation of object detectors: A survey
CN109146921B (zh) 一种基于深度学习的行人目标跟踪方法
Yang et al. SiamAtt: Siamese attention network for visual tracking
Wang et al. Split and connect: A universal tracklet booster for multi-object tracking
CN108765383B (zh) 基于深度迁移学习的视频描述方法
Kapidis et al. Multitask learning to improve egocentric action recognition
Wang et al. MFGNet: Dynamic modality-aware filter generation for RGB-T tracking
Chen et al. Unpaired deep image dehazing using contrastive disentanglement learning
Zhang et al. Toward accurate pixelwise object tracking via attention retrieval
Mei et al. Hdinet: Hierarchical dual-sensor interaction network for rgbt tracking
Zhu et al. Tiny object tracking: A large-scale dataset and a baseline
CN111753657B (zh) 一种基于自训练的文本检测器训练方法及系统
CN113628244A (zh) 基于无标注视频训练的目标跟踪方法、系统、终端及介质
Yao et al. Boundary information progressive guidance network for salient object detection
Zhang et al. Target-distractor aware deep tracking with discriminative enhancement learning loss
Yao et al. Scale and appearance variation enhanced Siamese network for thermal infrared target tracking
Sun et al. Boosting robust learning via leveraging reusable samples in noisy web data
Deotale et al. HARTIV: Human Activity Recognition Using Temporal Information in Videos.
Ro et al. Rollback ensemble with multiple local minima in fine-tuning deep learning networks
Fan et al. QueryTrack: Joint-modality Query Fusion Network for RGBT Tracking
Liang et al. Joint spatio-temporal similarity and discrimination learning for visual tracking
Li et al. Spatial-then-temporal self-supervised learning for video correspondence
Hsu et al. Learning temporal attention based keypoint-guided embedding for gait recognition
Zhou et al. Robust tracking via fully exploring background prior knowledge
Wang et al. Satellite Video Object Tracking based on Location Prompts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant