CN111753657B - 一种基于自训练的文本检测器训练方法及系统 - Google Patents
一种基于自训练的文本检测器训练方法及系统 Download PDFInfo
- Publication number
- CN111753657B CN111753657B CN202010428815.5A CN202010428815A CN111753657B CN 111753657 B CN111753657 B CN 111753657B CN 202010428815 A CN202010428815 A CN 202010428815A CN 111753657 B CN111753657 B CN 111753657B
- Authority
- CN
- China
- Prior art keywords
- frame
- result
- track
- detection result
- iou
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 80
- 238000005065 mining Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000134074 Resultomonas Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括:1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;4)利用步骤3)得到的伪数据集训练检测器。
Description
技术领域
本发明属于信息技术领域,具体涉及一种基于自训练的文本检测器训练方法及系统。
背景技术
随着深度学习的发展,在监督学习场景中对场景文本检测器的研究取得了显著的进展,近年来一些好的工作不断涌现。然而,对于深度检测器来说,要达到良好检测性能要求训练数据和测试数据来自同一个域,这在现实场景是很难保证的。对于特定的应用任务,必须收集新的训练数据集并对其进行标注,这一过程非常昂贵并且耗时。近年来,人们提出了弱监督/半监督学习、数据生成和领域自适应等研究方法来尝试解决这个问题。
弱监督和半监督方法通常一起使用,以减少对复杂标注的需要。然而,大多数半监督方法在很大程度上依赖于目标域的标注。弱监督方法虽然可以降低标注过程的成本,但仍然需要大量的标注样本。数据生成方法利用先验知识自动在无文本的图像中生成文本,但它们生成的数据不够“真实”,背景图像也有限,并且根据实际经验,使用生成数据的方法与使用实际数据的方法之间存在很大的性能差距。最近,域自适应方法试图通过风格迁移来从源域中直接生成目标域中样本来提高检测器在目标域上的性能,然而这种方法需要获取目标域的前景信息以保证所提取的风格信息不会发生混淆。
发明内容
上述传统方法从不同的角度提出较为完善的域迁移框架来解决域迁移的问题,实现对检测器的训练本发明的目的在于提供一种新的基于自训练的文本检测器训练方法及系统。与上述方法相比,本发明将自训练使用在域迁移问题中,这是解决跨域问题的一种替代方法。这种方法不需要生成“真实”的数据,而是直接利用大量真实的图像和视频来提取有用的信息。更重要的是,合成数据集可以被用来训练初始模型,这样的话,整个流程全部无需人工标注,检测器的性能和泛化能力能够得到很大的提升。
本发明的技术方案为:
一种基于自训练的文本检测器训练方法,其步骤包括:
1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;
2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;
3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;
4)利用步骤3)得到的伪数据集训练检测器。
进一步的,对于无法获取目标域的视频数据,则使用来源于目标域的图片生成该目标域的视频数据。
进一步的,使用来源于目标域的图片生成该目标域的视频数据的方法为:将从目标域获得的图片作为开始帧,随机生成该图片对应的旋转角度θ、缩放因子δ和变换中心c,然后将所生成的旋转角度θ、缩放因子δ和变换中心c代入到仿射变换矩阵中以生成视频的结束帧,然后根据起始帧和结束帧并通过插值生成一段视频。
进一步的,使用来源于目标域的图片生成该目标域的视频数据的方法为:将从目标域获得的图片作为开始帧,对该图片通过仿射变换得到结束帧;然后利用线性插值得到中间帧,从而构成一个视频片段;然后通过对该视频片段进行正放、倒放、正放的方式获取三段视频,并将该三段视频拼接在一起,作为该目标域的视频数据。
进一步的,文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为:
31)对于视频中的每一实例生成若干条运动轨迹及对应的索引,其中运动轨迹Tj为索引j对应实例的一条运动轨迹;轨迹Tj中的第l项是帧l中索引j对应实例的轨迹结果,在第i+1帧中找到检测结果对应的跟踪结果并将其连接到该索引j对应实例的运动轨迹Tj中;然后从l+1帧中查找索引k, 其中,θ是最大交并比IoU的匹配阈值,表示l+1帧中的索引i对应的检测结果,“None”表示Tj没有匹配结果,如果k≠None,那么利用替换成为Tj的第l+1项;如果k==None,则将跟踪结果初始化为索引j对应实例的一条新的运动轨迹的第一项;
32)文本挖掘模块计算每个检测结果所应匹配的轨迹以及每个轨迹所应匹配的检测结果,并将计算结果保存到一矩阵MIoU中,MIoU的第i行第j列元素为其中,为与的最大交并比,为与的最大交并比,为第l+1帧中的索引i对应的检测结果;
33)对于每一检测结果di,在该矩阵MIoU中找出与di具有最大IoU的轨迹Tj;如果di与Tj匹配,则将Tj中的跟踪结果替换为di;如果di与Tj不匹配,则将MIoU(i,j)设置为0,并再次对di执行新一轮的搜索,查找与di匹配的结果并将其中对应的跟踪结果替换为di;如果未找到匹配结果,则将di初始化为新轨迹。
一种基于自训练的文本检测器训练系统,其特征在于,包括训练模块、检测模块、跟踪模块和文本挖掘模块TMM;其中,
检测模块,用于利用训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;
跟踪模块,用于利用训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;
文本挖掘模块TMM,用于将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;
训练模块,用于利用伪数据集训练检测器。
与现有技术相比,本发明的积极效果为:
ICDAR2015(IC15),ICDAR2015 Text in Video(15VID),MSRA-TD500(TD500),Verisimilar Image Synthesis Dataset(VISD)被用来检测本发明方法的有效性。首先,本发明在合成数据集VISD和IC15上训练一个基准检测器作为初始检测器。对于不同的检测器,本发明使用15VID的训练集作为框架的输入,得到相应的伪标签,经过难样本挖掘得到难样本之后,本发明将在所有难样本中随机抽取1000幅图像。它们与生成的伪标签一起构成伪数据集。使用不同的初始检测器测试框架在不同情况下的有效性。在IC15上的结果用于测量检测性能,在15VID上的结果用于测试域自适应性能。
表1展示了本发明模型各个模块之间的效果对比。表2展示了本发明和其他主流方法在测试数据集上的效果对比。
表1为在IC15和15VID数据集上的消融实验
表2为ICDAR 2015和MSRA-TD500数据集上的实验结果
附图说明
图1是自训练框架示意图;
图2为轨迹、跟踪结果和检测结果之间关系的示意图;
图3为轨迹生成的示意图;
图4为Gen-Loop方法生成的视频中的轨迹的示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
本发明提出了一种新的基于检测和跟踪方法的文本检测自训练框架。该框架试图从大量未标注的图像和视频中自动挖掘难样本。在该框架中,首先在合成数据集VISD和源域中获取的图像数据集IC15上训练一个基准检测器作为初始检测器,初始检测器的输入为目标域的视频,输出为文本区域在每一帧中的空间位置,用于提供初始检测结果。然后利用一个训练好的跟踪器以初始检测结果和目标域视频为输入产生跟踪结果。针对文本密集出现并且边界划分相对模糊的特点,本发明提出了一种新的文本挖掘模块(Text MiningModule,TMM)来融合、过滤初始检测结果和跟踪结果。这三个模块一起工作,为自训练过程提供准确的难样本以及更低的噪声率。此外,在某些应用任务中,只能获取图片,因此本发明设计了一种图像到视频的生成方法(Gen Loop),使得生成的视频同样适用于本发明的框架。
如图1所示,本发明提出的框架由三个关键模块组成:检测模块、跟踪模块和TMM。本发明在源域的训练数据集上训练初始检测器,并准备大量的目标域视频数据。视频中的每一帧都会被送入检测器、跟踪器以及TMM来得到最后的伪标注。伪标注和难样本图片会一起被用于检测器的再训练。图1中的检测器是一个深度卷积网络。跟踪器使用实体的位置虚线方框以及它对应的表观特征来在下一帧搜寻对应的实体。TMM负责更新轨迹,图1中只展示了它的部分的工作模式。在一条轨迹中,如果一个跟踪结果在前后相邻几帧都在对应位置存在检测结果,则这个跟踪结果就是所说的难正样本。如果某些轨迹太短或里面存在的检测结果很少,则将检测结果视为难负样本。
本发明的整个流程分为以下几步:
1)收集来源于目标域的视频数据,对于无法获取目标域的视频数据的情况,使用来源于目标域的图片通过Gen Loop方法生成该目标域的视频数据。
2)使用源域的数据对检测器和跟踪器进行预训练。
3)检测器处理来源于目标域的视频数据,获得检测结果。
4)跟踪器在检测结果的基础上进一步处理视频,根据前一帧的检测结果预测当前帧的跟踪结果。
5)TMM将检测结果与跟踪结果根据公式2-5相关的内容融合生成运动轨迹,根据轨迹结果中的边界包围盒来预测轨迹结果,与此同时在轨迹结果中执行难样本挖掘以得到难正样本和难负样本。
当且仅当视频数据中的一帧图像A中存在难正样本或难负样本,则图像A被添加到伪数据集中。对应的难正样本会被添加到集合HPA中,对应的难负样本会被添加到集合HNA中,图像A的相应伪标签的计算方式来自于公式[1]。
6)利用伪数据集重新训练检测器,提升目标域检测性能。
式中DA是图像A中的检测结果,DA\HNA表示在DA中但不在HNA中元素的集合。本发明得到的伪数据集会被用于检测器的再训练过程。
TMM是该框架的关键组成部分,用于融合检测结果和跟踪结果。一般来说,最大交并比(Intersection of Union,IoU)是判断检测结果或跟踪结果是否与轨迹匹配的评价指标。如图2所示,其中水平纹理标识的单元表示成功的匹配,倾斜纹理标识的单元表示需要被无视掉的弱匹配结果,轨迹Tj中的最后一项是帧l中索引j对应实例的轨迹结果。在l+1帧中,将有一个跟踪结果,表示为一旦被生成,它将暂时被连接到Tj中。索引k是l+1帧中能够与第l帧中索引j对应实例的轨迹Tj匹配的检测结果对应的索引,该索引由公式[2]、[3]计算。
其中,θ是IoU匹配的阈值,表示l+1帧中的索引i对应的检测结果,“None”表示Tj没有匹配结果,即轨迹Tj中的每一检测结果与所有轨迹均不匹配。如果k≠None,那么将被替换。因此,检测结果或者跟踪结果中的一个会被加入到Tj中,即将检测结果或者跟踪结果加入到Tj中,成为Tj的第l+1项。通过这种方式,本发明可以融合检测和跟踪信息,进而获得更精确的轨迹。如果k==None,那么检测结果与任何轨迹都不匹配,则将其初始化为新的轨迹的第一项。
上面提到的匹配方法并不总是有效的。要解决这一问题,TMM不仅要考虑每个检测结果应该匹配哪个轨迹,还要考虑每个轨迹应该匹配哪个检测结果。本发明使用一个矩阵MIoU来保存公式[3]产生的结果,MIoU的第i行第j列元素为F(i,j)。
MIoU的维数是检测结果的数量Nd乘以轨迹的数量Nj。对于每个检测结果di,本发明在MIoU中找出与di具有最大的IoU的轨迹Tj;通过在MIoU中搜索,以确定di是否与Tj具有最大的IoU。成功的匹配应该同时满足公式[4]和公式[5],
其中“==”表示相等,是从矩阵MIoU第j列的所有元素中最大值对应的索引p。如果di与Tj不匹配,MIoU[i,j]将被设置为0,并再次对di执行新一轮的搜索,即对于任意j′≠j的轨迹Tj′,将j′替换j代入公式[4]和公式[5],直到找到匹配的结果或者完成搜索。图3为轨迹生成的示意图,参见图3的第3行,找到匹配结果后,Tj中的跟踪结果将替换为di。如果搜索完成仍未找到匹配结果,di将被初始化为新轨迹。图3中实线方框代表检测结果,虚线方框代表跟踪结果,灰色半透明方框代表上一帧检测结果在当前帧的位置;第一行:一个正确的轨迹更新示范,第二行:当某些检测结果丢失时,使用常见的匹配规则得到的错误轨迹更新过程,第三行:某些检测结果丢失时,TMM产生的轨迹更新过程。
上述自训练框架可以应用于任何目标域,只要能在该域中获得视频。但是,在某些应用任务中,只能获取图像,视频是不被允许的。这里本发明提出了一种新的方法Gen Loop来解决这个问题。
一种直接的方法(Base)是简单地利用从目标域获得的图像进行自训练,也就是说,本发明只通过检测器获取图像的伪标签,并利用它们进行再训练。或者使用一些复杂的数据增强技术(Gen-Straight)生成合成视频,即对于从目标域获得的图像作为开始帧,本发明可以随机生成旋转角度θ、缩放因子δ和变换中心c,然后将这些参数代入到仿射变换矩阵中以生成视频的结束帧,然后根据起始帧i和结束帧j的图像,就可以通过插值生成长度为t的视频。通过生成的视频,本发明可以使用上面的框架来挖掘需要的难样本。为了公平比较,本发明将对Base生成的伪数据集执行相同的仿射变换,转换后得到的数据集称为Base Trans。
然而,如果直接使用上面提到的朴素方法,就不能有效地得到难样本。对于检测任务,Gen-Straight生成的帧对于检测器来说往往不是从难到易,就是从易到难。一旦某一帧的检测结果丢失,可以预见,它前面或者是后面的所有帧都将丢失检测结果。更重要的是,这么做将不可能从起始帧和结束帧中挖掘出难样本,因为在它们之前或之后并不同时存在相邻的帧。遗憾的是,在开始帧中挖掘到的难样本是最有价值的信息。因此,本发明设计了一个回环方案(Gen Loop),它的主体方法与Gen-Straight相同,都是根据获得的图片(起始帧)通过仿射变换得到结束帧。然后利用线性插值得到中间帧,从而构成一个视频片段。与Gen-Straight不同的是,它加入了视频倒放的思路,通过正放、倒放、正放的方式获取三段视频,并将他们拼接在一起。这样可以有效的改变视频检测的难度曲线,从而挖掘更多的难样本。Gen-Loop方法生成的视频中的轨迹的示意图如图4所示,其中实线方框代表检测结果,灰色半透明方框代表通过后续TMM算法能够挖掘到的难正样本,这确保序列中的每个图像至少被访问两次,同时所有图像的两侧都有相邻帧。视频的长度t限制为50,以确保相邻两次访问之间的时间间隔不会太长。这种新的模式对于自训练框架是非常有效的。此外,由于每个生成的帧都会重复三次,检测模块只需要正常工作负载的1/3就能完成整个视频的检测任务。
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (8)
1.一种基于自训练的文本检测器训练方法,其步骤包括:
1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;
2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;
3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;其中文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为:
31)对于视频中的每一实例生成若干条运动轨迹及对应的索引,其中运动轨迹Tj为索引j对应实例的一条运动轨迹;轨迹Tj中的第l项是帧l中索引j对应实例的轨迹结果,在第l+1帧中找到检测结果对应的跟踪结果并将其连接到该索引j对应实例的运动轨迹Tj中;然后从l+1帧中查找索引k, 其中,θ是最大交并比IoU的匹配阈值,表示l+1帧中的索引i对应的检测结果,“None”表示Tj没有匹配结果,如果k≠None,那么利用替换成为Tj的第l+1项;如果k==None,则将跟踪结果初始化为索引j对应实例的一条新的运动轨迹的第一项;表示l+1帧中的索引k对应的检测结果;
32)文本挖掘模块计算每个检测结果所应匹配的轨迹以及每个轨迹所应匹配的检测结果,并将计算结果保存到一矩阵MIoU中,MIoU的第i行第j列元素为 其中,为与的最大交并比,为与的最大交并比,为第l+1帧中的索引i对应的检测结果;
33)对于每一检测结果di,在该矩阵MIoU中找出与di具有最大IoU的轨迹Tj;如果di与Tj匹配,则将Tj中的跟踪结果替换为di;如果di与Tj不匹配,则将MIoU(i,j)设置为0,并再次对di执行新一轮的搜索,查找与di匹配的结果并将其中对应的跟踪结果替换为di;如果未找到匹配结果,则将di初始化为新轨迹;
4)利用步骤3)得到的伪数据集训练检测器。
2.如权利要求1所述的方法,其特征在于,对于无法获取目标域的视频数据,则使用来源于目标域的图片生成该目标域的视频数据。
3.如权利要求2所述的方法,其特征在于,使用来源于目标域的图片生成该目标域的视频数据的方法为:将从目标域获得的图片作为开始帧,随机生成该图片对应的旋转角度θ、缩放因子δ和变换中心c,然后将所生成的旋转角度θ、缩放因子δ和变换中心c代入到仿射变换矩阵中以生成视频的结束帧,然后根据起始帧和结束帧并通过插值生成一段视频。
4.如权利要求2所述的方法,其特征在于,使用来源于目标域的图片生成该目标域的视频数据的方法为:将从目标域获得的图片作为开始帧,对该图片通过仿射变换得到结束帧;然后利用线性插值得到中间帧,从而构成一个视频片段;然后通过对该视频片段进行正放、倒放、正放的方式获取三段视频,并将该三段视频拼接在一起,作为该目标域的视频数据。
7.一种基于自训练的文本检测器训练系统,其特征在于,包括训练模块、检测模块、跟踪模块和文本挖掘模块TMM;其中,
检测模块,用于利用训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;
跟踪模块,用于利用训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;
文本挖掘模块TMM,用于将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;其中文本挖掘模块将检测结果与跟踪结果融合生成运动轨迹的方法为:对于视频中的每一实例生成若干条运动轨迹及对应的索引,其中运动轨迹Tj为索引j对应实例的一条运动轨迹;轨迹Tj中的第l项是帧l中索引j对应实例的轨迹结果,在第l+1帧中找到检测结果对应的跟踪结果并将其连接到该索引j对应实例的运动轨迹Tj中;然后从l+1帧中查找索引k, 其中,θ是最大交并比IoU的匹配阈值,表示l+1帧中的索引i对应的检测结果,“None”表示Tj没有匹配结果,如果k≠None,那么利用替换成为Tj的第l+1项;如果k==None,则将跟踪结果初始化为索引j对应实例的一条新的运动轨迹的第一项,为第l+1帧中的索引k对应的检测结果;然后计算每个检测结果所应匹配的轨迹以及每个轨迹所应匹配的检测结果,并将计算结果保存到一矩阵MIoU中,MIoU的第i行第j列元素为然后对于每一检测结果di,在该矩阵MIoU中找出与di具有最大IoU的轨迹Tj;如果di与Tj匹配,则将Tj中的跟踪结果替换为di;如果di与Tj不匹配,则将MIoU(i,j)设置为0,并再次对di执行新一轮的搜索,查找与di匹配的结果并将其中对应的跟踪结果替换为di;如果未找到匹配结果,则将di初始化为新轨迹;其中,其中,为与的最大交并比,为与的最大交并比,为第l+1帧中的索引i对应的检测结果;
训练模块,用于利用伪数据集训练检测器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010428815.5A CN111753657B (zh) | 2020-05-20 | 2020-05-20 | 一种基于自训练的文本检测器训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010428815.5A CN111753657B (zh) | 2020-05-20 | 2020-05-20 | 一种基于自训练的文本检测器训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753657A CN111753657A (zh) | 2020-10-09 |
CN111753657B true CN111753657B (zh) | 2023-01-13 |
Family
ID=72673288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010428815.5A Active CN111753657B (zh) | 2020-05-20 | 2020-05-20 | 一种基于自训练的文本检测器训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753657B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283181B (zh) * | 2021-12-22 | 2024-06-18 | 北京大学 | 一种基于样例的动态纹理迁移方法及系统 |
CN114845160B (zh) * | 2022-04-28 | 2024-04-23 | 北京生数科技有限公司 | 一种语音驱动视频处理方法、相关装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002761A (zh) * | 2018-06-13 | 2018-12-14 | 中山大学新华学院 | 一种基于深度卷积神经网络的行人重识别监控系统 |
CN110197229A (zh) * | 2019-05-31 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010905B2 (en) * | 2018-09-07 | 2021-05-18 | Apple Inc. | Efficient object detection and tracking |
-
2020
- 2020-05-20 CN CN202010428815.5A patent/CN111753657B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002761A (zh) * | 2018-06-13 | 2018-12-14 | 中山大学新华学院 | 一种基于深度卷积神经网络的行人重识别监控系统 |
CN110197229A (zh) * | 2019-05-31 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
无监督迁移学习红外行为识别;黑鸿中等;《小型微型计算机系统》;20200409(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111753657A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oza et al. | Unsupervised domain adaptation of object detectors: A survey | |
CN109146921B (zh) | 一种基于深度学习的行人目标跟踪方法 | |
Yang et al. | SiamAtt: Siamese attention network for visual tracking | |
Wang et al. | Split and connect: A universal tracklet booster for multi-object tracking | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
Kapidis et al. | Multitask learning to improve egocentric action recognition | |
Wang et al. | MFGNet: Dynamic modality-aware filter generation for RGB-T tracking | |
Chen et al. | Unpaired deep image dehazing using contrastive disentanglement learning | |
Zhang et al. | Toward accurate pixelwise object tracking via attention retrieval | |
Mei et al. | Hdinet: Hierarchical dual-sensor interaction network for rgbt tracking | |
Zhu et al. | Tiny object tracking: A large-scale dataset and a baseline | |
CN111753657B (zh) | 一种基于自训练的文本检测器训练方法及系统 | |
CN113628244A (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
Yao et al. | Boundary information progressive guidance network for salient object detection | |
Zhang et al. | Target-distractor aware deep tracking with discriminative enhancement learning loss | |
Yao et al. | Scale and appearance variation enhanced Siamese network for thermal infrared target tracking | |
Sun et al. | Boosting robust learning via leveraging reusable samples in noisy web data | |
Deotale et al. | HARTIV: Human Activity Recognition Using Temporal Information in Videos. | |
Ro et al. | Rollback ensemble with multiple local minima in fine-tuning deep learning networks | |
Fan et al. | QueryTrack: Joint-modality Query Fusion Network for RGBT Tracking | |
Liang et al. | Joint spatio-temporal similarity and discrimination learning for visual tracking | |
Li et al. | Spatial-then-temporal self-supervised learning for video correspondence | |
Hsu et al. | Learning temporal attention based keypoint-guided embedding for gait recognition | |
Zhou et al. | Robust tracking via fully exploring background prior knowledge | |
Wang et al. | Satellite Video Object Tracking based on Location Prompts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |