CN107609586A - 一种基于自我监督的视觉表征学习方法 - Google Patents
一种基于自我监督的视觉表征学习方法 Download PDFInfo
- Publication number
- CN107609586A CN107609586A CN201710807231.7A CN201710807231A CN107609586A CN 107609586 A CN107609586 A CN 107609586A CN 201710807231 A CN201710807231 A CN 201710807231A CN 107609586 A CN107609586 A CN 107609586A
- Authority
- CN
- China
- Prior art keywords
- instances
- image
- instance
- self
- supervision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明中提出的一种基于自我监督的视觉表征学习方法,其主要内容包括:自我监督、视觉表征、图像构造和在图像中学习转换,其过程为,采用自我监督的方法学习不变性,其表示包括实例间的差异和实例内部的差异,构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁,在图中定义两种将图像补丁相互关联的边缘类型,构造一个具有实例和内部边缘的图,包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘,训练深层神经网络来生成类似的视觉表示。本发明的视觉特征学习方法为自我监督,能够自己获取注释标签,大大节省了人力和物力;同时降低了视点、姿势、变形、照明等带来的影响,提高了准确度。
Description
技术领域
本发明涉及视觉表征学习领域,尤其是涉及了一种基于自我监督的视觉表征学习方法。
背景技术
随着社会迈入数字化信息时代,快速增长的图像和视频量给数据管理和分析带来了巨大挑战,使得智能视觉数据分类和检索技术受到越来越广泛的关注。视觉表征学习,就是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。它可以应用在视觉对象识别,如Web图像自动标注、海量图像搜索、图像内容过滤、医学远程会诊等多种领域;也可以应用在视觉对象的检测,如工业机器人和无人驾驶汽车等领域;还可以应用在视觉对象跟踪,如对视频监控中的可以人物进行识别和跟踪等。传统的视觉表征学习在实例间容易受到视点、姿势、变形、照明等的影响,精确度不高,而且需要大规模的注释,耗费了许多人力和物力。
本发明提出了一种基于自我监督的视觉表征学习方法,采用自我监督的方法学习不变性,其表示包括实例间的差异和实例内部的差异,构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁,在图中定义两种将图像补丁相互关联的边缘类型,构造一个具有实例和内部边缘的图,包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘,训练深层神经网络来生成类似的视觉表示。本发明的视觉特征学习方法为自我监督,能够自己获取注释标签,大大节省了人力和物力;同时降低了视点、姿势、变形、照明等带来的影响,提高了准确度。
发明内容
针对容易受到视点、姿势、变形、照明等的影响,精确度不高等问题,本发明的目的在于提供一种基于自我监督的视觉表征学习方法,采用自我监督的方法学习不变性,其表示包括实例间的差异和实例内部的差异,构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁,在图中定义两种将图像补丁相互关联的边缘类型,构造一个具有实例和内部边缘的图,包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘,训练深层神经网络来生成类似的视觉表示。
为解决上述问题,本发明提供一种基于自我监督的视觉表征学习方法,其主要内容包括:
(一)自我监督;
(二)视觉表征;
(三)图像构造;
(四)在图像中学习转换。
其中,所述的自我监督,自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异;实例间的差异反映不同实例之间的共同性,例如,可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置;实例内部的差异通过在视频中跟踪单个移动实例,从姿势、视角和照明变化中学习实例内部的不变性。
其中,所述的视觉表征,学习视觉表征捕获实例间的不变性(例如,猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异);然后通过对数据进行传递推理来获取更丰富的不变性集;首先构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁;在图中定义了两种将图像补丁相互关联的边缘类型;其中,称为实例间边缘的第一种类型的边缘,连接了对应于具有相似视觉外观的不同对象实例的两个节点;而称为实例内边缘的第二类型的边缘,连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。
进一步地,所述的边缘类型,给定建立的图形,通过已知的边缘传递关系,并关联未连接节点;具体来说,如果补丁<A,B>通过实例间边缘连接,<A,A′>和<B,B′>分别通过实例内边缘连接,通过简单的传递性丰富不变性,包括三个新对:<A′,B′>、<A,B>、<A′,B>;
训练一个三层暹罗网络,激励不变样本之间类似的视觉表示(例如,任何由A,A′,B,B′组成的对),同时不对与第三个错误选择样本类似的视觉表示进行激励(例如,随机样本C未连接到A,A′,B,B′);将VGG16网络作为三层暹罗网络每个分支的骨干架构;通过这种骨干架构学习的视觉表征,对其他识别任务进行评估。
进一步地,所述的三层暹罗网络,三层暹罗网络包括具有共享权重的卷积网络的三个层;对于每个层,采用标准的VGG16网络架构到卷积层,之后添加两个具有4096维和1024维输出的完全连接的层;三层暹罗网络接受三元组样本作为其输入:三元组中的前两个图像块是正对,最后两个是负对;提取其1024维特征并计算排序损失函数;
给定一对图像补丁A和B,将它们的距离定义为:
其中,F(·)是网络的映射;使用(X,X+,X-)的三元组,其中(X,X+)是正对,(X,X-)是负对,最小化排序损失:
其中,m是实验中设置为0.5的边距。
其中,所述的图像构造,构造一个具有实例和内部边缘的图;通过自我监督方法实例化实例间边缘,该方法学习了大量静止图像的上下文预测,这些静态图像提供了群集节点和建立实例间边缘的特点;另一方面,通过实例内边缘连接相同视觉轨迹中的图像补丁;图像构造包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘。
进一步地,所述的缩放移动对象,首先在视频上应用改进密集轨迹来提取加速鲁棒特征点及其运动;如果运动过多(指示相机的运动)或运动过少(例如噪声信号),则剪辑视频帧;对于剩余的帧,从图像中剪切一个227×227个边界框,其中包含最多的移动点作为前景对象;然而,为了计算效率,将图像修补程序重新缩放到96×96之后,将其用作群集和训练的输入。
进一步地,所述的通过群集的实例间的边缘,提取训练的VGG16网络的第五个池层的特征;使用没有标签的ImageNet数据集来训练这个网络;由于使用96×96的补丁大小,第五个池层的特征的维度为3×3×512=4608;通过这些特征的余弦距离计算样本之间的距离;由于将数百万个图像块直接群集成数百万个小簇非常耗时,因此,应用层次群集方法,首先将图像分组成相对较少数量的群集,然后通过最近邻搜索在每个群集内找到少量示例的组。
进一步地,所述的通过跟踪的实例内部的边缘,给定视频中的移动对象,跟踪N=30帧的对象,并在轨迹的末端获得对象的另一个样本;跟踪器不需要人为的监督;将这些新对象作为节点添加到图形中,并将两个样本以相同的轨迹连接在一起。
其中,所述的在图像中学习转换,如果图像块通过实例间/实例内边缘或其传递性连接,则训练一个深层神经网络(VGG16)来生成类似的视觉表示;如果节点是无关的,鼓励网络生成不同的表示;具体来说,约束来自不同“父系”集群的图像补丁具有不同的表示(称之为负对样本);设计具有排序损失函数的三层暹罗网络,使得相关样本之间的距离应小于不相关样本的距离。
附图说明
图1是本发明一种基于自我监督的视觉表征学习方法的系统框架图。
图2是本发明一种基于自我监督的视觉表征学习方法的视觉表征。
图3是本发明一种基于自我监督的视觉表征学习方法的通过跟踪的实例内部的边缘。
图4是本发明一种基于自我监督的视觉表征学习方法的在图像中学习转换。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于自我监督的视觉表征学习方法的系统框架图。主要包括自我监督,视觉表征,图像构造和在图像中学习转换。
自我监督,自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异;实例间的差异反映不同实例之间的共同性,例如,可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置;实例内部的差异通过在视频中跟踪单个移动实例,从姿势、视角和照明变化中学习实例内部的不变性。
图像构造,构造一个具有实例和内部边缘的图;通过自我监督方法实例化实例间边缘,该方法学习了大量静止图像的上下文预测,这些静态图像提供了群集节点和建立实例间边缘的特点;另一方面,通过实例内边缘连接相同视觉轨迹中的图像补丁;图像构造包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘。
缩放移动对象,首先在视频上应用改进密集轨迹来提取加速鲁棒特征点及其运动;如果运动过多(指示相机的运动)或运动过少(例如噪声信号),则剪辑视频帧;对于剩余的帧,从图像中剪切一个227×227个边界框,其中包含最多的移动点作为前景对象;然而,为了计算效率,将图像修补程序重新缩放到96×96之后,将其用作群集和训练的输入。
通过群集的实例间的边缘,提取训练的VGG16网络的第五个池层的特征;使用没有标签的ImageNet数据集来训练这个网络;由于使用96×96的补丁大小,第五个池层的特征的维度为3×3×512=4608;通过这些特征的余弦距离计算样本之间的距离;由于将数百万个图像块直接群集成数百万个小簇非常耗时,因此,应用层次群集方法,首先将图像分组成相对较少数量的群集,然后通过最近邻搜索在每个群集内找到少量示例的组。
图2是本发明一种基于自我监督的视觉表征学习方法的视觉表征。学习视觉表征捕获实例间的不变性(例如,猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异);然后通过对数据进行传递推理来获取更丰富的不变性集;首先构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁;在图中定义了两种将图像补丁相互关联的边缘类型;其中,称为实例间边缘的第一种类型的边缘,连接了对应于具有相似视觉外观的不同对象实例的两个节点;而称为实例内边缘的第二类型的边缘,连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。
给定建立的图形,通过已知的边缘传递关系,并关联未连接节点;具体来说,如果补丁<A,B>通过实例间边缘连接,<A,A′>和<B,B′>分别通过实例内边缘连接,通过简单的传递性丰富不变性,包括三个新对:<A′,B′>、<A,B>、<A′,B>;
训练一个三层暹罗网络,激励不变样本之间类似的视觉表示(例如,任何由A,A′,B,B′组成的对),同时不对与第三个错误选择样本类似的视觉表示进行激励(例如,随机样本C未连接到A,A′,B,B′);将VGG16网络作为三层暹罗网络每个分支的骨干架构;通过这种骨干架构学习的视觉表征,对其他识别任务进行评估。
图3是本发明一种基于自我监督的视觉表征学习方法的通过跟踪的实例内部的边缘。给定视频中的移动对象,跟踪N=30帧的对象,并在轨迹的末端获得对象的另一个样本;跟踪器不需要人为的监督;将这些新对象作为节点添加到图形中,并将两个样本以相同的轨迹连接在一起。
图4是本发明一种基于自我监督的视觉表征学习方法的在图像中学习转换。如果图像块通过实例间/实例内边缘或其传递性连接,则训练一个深层神经网络(VGG16)来生成类似的视觉表示;如果节点是无关的,鼓励网络生成不同的表示;具体来说,约束来自不同“父系”集群的图像补丁具有不同的表示(称之为负对样本);设计具有排序损失函数的三层暹罗网络,使得相关样本之间的距离应小于不相关样本的距离。
三层暹罗网络包括具有共享权重的卷积网络的三个层;对于每个层,采用标准的VGG16网络架构到卷积层,之后添加两个具有4096维和1024维输出的完全连接的层;三层暹罗网络接受三元组样本作为其输入:三元组中的前两个图像块是正对,最后两个是负对;提取其1024维特征并计算排序损失函数;
给定一对图像补丁A和B,将它们的距离定义为:
其中,F(·)是网络的映射;使用(X,X+,X-)的三元组,其中(X,X+)是正对,(X,X-)是负对,最小化排序损失:
其中,m是实验中设置为0.5的边距。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于自我监督的视觉表征学习方法,其特征在于,主要包括自我监督(一);视觉表征(二);图像构造(三);在图像中学习转换(四)。
2.基于权利要求书1所述的自我监督(一),其特征在于,自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异;实例间的差异反映不同实例之间的共同性,例如,可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置;实例内部的差异通过在视频中跟踪单个移动实例,从姿势、视角和照明变化中学习实例内部的不变性。
3.基于权利要求书1所述的视觉表征(二),其特征在于,学习视觉表征捕获实例间的不变性(例如,猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异);然后通过对数据进行传递推理来获取更丰富的不变性集;首先构建描述图像补丁之间的相似处的图形,图中的节点表示图像补丁;在图中定义了两种将图像补丁相互关联的边缘类型;其中,称为实例间边缘的第一种类型的边缘,连接了对应于具有相似视觉外观的不同对象实例的两个节点;而称为实例内边缘的第二类型的边缘,连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。
4.基于权利要求书3所述的边缘类型,其特征在于,给定建立的图形,通过已知的边缘传递关系,并关联未连接节点;具体来说,如果补丁<A,B>通过实例间边缘连接,<A,A′>和<B,B′>分别通过实例内边缘连接,通过简单的传递性丰富不变性,包括三个新对:<A′,B′>、<A,B>、<A′,B>;
训练一个三层暹罗网络,激励不变样本之间类似的视觉表示(例如,任何由A,A′,B,B′组成的对),同时不对与第三个错误选择样本类似的视觉表示进行激励(例如,随机样本C未连接到A,A′,B,B′);将VGG16网络作为三层暹罗网络每个分支的骨干架构;通过这种骨干架构学习的视觉表征,对其他识别任务进行评估。
5.基于权利要求书4所述的三层暹罗网络,其特征在于,三层暹罗网络包括具有共享权重的卷积网络的三个层;对于每个层,采用标准的VGG16网络架构到卷积层,之后添加两个具有4096维和1024维输出的完全连接的层;三层暹罗网络接受三元组样本作为其输入:三元组中的前两个图像块是正对,最后两个是负对;提取其1024维特征并计算排序损失函数;
给定一对图像补丁A和B,将它们的距离定义为:
<mrow>
<mi>D</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mrow>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>|</mo>
<mo>|</mo>
<mo>|</mo>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,F(·)是网络的映射;使用(X,X+,X-)的三元组,其中(X,X+)是正对,(X,X-)是负对,最小化排序损失:
其中,m是实验中设置为0.5的边距。
6.基于权利要求书1所述的图像构造(三),其特征在于,构造一个具有实例和内部边缘的图;通过自我监督方法实例化实例间边缘,该方法学习了大量静止图像的上下文预测,这些静态图像提供了群集节点和建立实例间边缘的特点;另一方面,通过实例内边缘连接相同视觉轨迹中的图像补丁;图像构造包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘。
7.基于权利要求书6所述的缩放移动对象,其特征在于,首先在视频上应用改进密集轨迹来提取加速鲁棒特征点及其运动;如果运动过多(指示相机的运动)或运动过少(例如噪声信号),则剪辑视频帧;对于剩余的帧,从图像中剪切一个227×227个边界框,其中包含最多的移动点作为前景对象;然而,为了计算效率,将图像修补程序重新缩放到96×96之后,将其用作群集和训练的输入。
8.基于权利要求书6所述的通过群集的实例间的边缘,其特征在于,提取训练的VGG16网络的第五个池层的特征;使用没有标签的ImageNet数据集来训练这个网络;由于使用96×96的补丁大小,第五个池层的特征的维度为3×3×512=4608;通过这些特征的余弦距离计算样本之间的距离;由于将数百万个图像块直接群集成数百万个小簇非常耗时,因此,应用层次群集方法,首先将图像分组成相对较少数量的群集,然后通过最近邻搜索在每个群集内找到少量示例的组。
9.基于权利要求书6所述的通过跟踪的实例内部的边缘,其特征在于,给定视频中的移动对象,跟踪N=30帧的对象,并在轨迹的末端获得对象的另一个样本;跟踪器不需要人为的监督;将这些新对象作为节点添加到图形中,并将两个样本以相同的轨迹连接在一起。
10.基于权利要求书1所述的在图像中学习转换(四),其特征在于,如果图像块通过实例间/实例内边缘或其传递性连接,则训练一个深层神经网络(VGG16)来生成类似的视觉表示;如果节点是无关的,鼓励网络生成不同的表示;具体来说,约束来自不同“父系”集群的图像补丁具有不同的表示(称之为负对样本);设计具有排序损失函数的三层暹罗网络,使得相关样本之间的距离应小于不相关样本的距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710807231.7A CN107609586A (zh) | 2017-09-08 | 2017-09-08 | 一种基于自我监督的视觉表征学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710807231.7A CN107609586A (zh) | 2017-09-08 | 2017-09-08 | 一种基于自我监督的视觉表征学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107609586A true CN107609586A (zh) | 2018-01-19 |
Family
ID=61062365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710807231.7A Withdrawn CN107609586A (zh) | 2017-09-08 | 2017-09-08 | 一种基于自我监督的视觉表征学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609586A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858563A (zh) * | 2019-02-22 | 2019-06-07 | 清华大学 | 基于变换识别的自监督表征学习方法及装置 |
CN110475129A (zh) * | 2018-03-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、介质及服务器 |
CN113505740B (zh) * | 2021-07-27 | 2023-10-10 | 北京工商大学 | 基于迁移学习和卷积神经网络的面部识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793713A (zh) * | 2012-10-31 | 2014-05-14 | 中国科学院沈阳自动化研究所 | 低秩约束的在线自监督学习的场景分类方法 |
CN103984959A (zh) * | 2014-05-26 | 2014-08-13 | 中国科学院自动化研究所 | 一种基于数据与任务驱动的图像分类方法 |
CN104680508A (zh) * | 2013-11-29 | 2015-06-03 | 华为技术有限公司 | 卷积神经网络和基于卷积神经网络的目标物体检测方法 |
-
2017
- 2017-09-08 CN CN201710807231.7A patent/CN107609586A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793713A (zh) * | 2012-10-31 | 2014-05-14 | 中国科学院沈阳自动化研究所 | 低秩约束的在线自监督学习的场景分类方法 |
CN104680508A (zh) * | 2013-11-29 | 2015-06-03 | 华为技术有限公司 | 卷积神经网络和基于卷积神经网络的目标物体检测方法 |
CN103984959A (zh) * | 2014-05-26 | 2014-08-13 | 中国科学院自动化研究所 | 一种基于数据与任务驱动的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
XIAOLONG WANG 等: ""Transitive Invariance for Self-supervised Visual Representation Learning"", 《ARXIV.ORG》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110475129A (zh) * | 2018-03-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、介质及服务器 |
CN109858563A (zh) * | 2019-02-22 | 2019-06-07 | 清华大学 | 基于变换识别的自监督表征学习方法及装置 |
CN113505740B (zh) * | 2021-07-27 | 2023-10-10 | 北京工商大学 | 基于迁移学习和卷积神经网络的面部识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414368B (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
CN109447140B (zh) | 一种基于神经网络深度学习的图像识别并推荐认知的方法 | |
CN106919920B (zh) | 基于卷积特征和空间视觉词袋模型的场景识别方法 | |
CN111783831B (zh) | 基于多源多标签共享子空间学习的复杂图像精确分类方法 | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
CN104599275B (zh) | 基于概率图模型的非参数化的rgb-d场景理解方法 | |
CN110555420B (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN111209799B (zh) | 基于部分共享网络和余弦间隔损失函数的行人搜索方法 | |
CN107609586A (zh) | 一种基于自我监督的视觉表征学习方法 | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
CN116052222A (zh) | 自然采集牛脸图像的牛脸识别方法 | |
Li et al. | Fast recognition of pig faces based on improved Yolov3 | |
Tomoe et al. | Long-term knowledge distillation of visual place classifiers | |
CN113743251B (zh) | 一种基于弱监督场景的目标搜索方法及装置 | |
CN114782752A (zh) | 基于自训练的小样本图像集成分类方法及装置 | |
CN114898460A (zh) | 一种基于图卷积神经网络的教师非言语行为检测方法 | |
Dhanalakshmi et al. | Tomato leaf disease identification by modified inception based sequential convolution neural networks | |
Ahmad et al. | Embedded deep vision in smart cameras for multi-view objects representation and retrieval | |
Bao et al. | Cross-modal label contrastive learning for unsupervised audio-visual event localization | |
CN116959101A (zh) | 一种基于多模态语义的猪只行为智能分析方法及系统 | |
CN113673411B (zh) | 一种基于注意力机制的轻量级移位图卷积行为识别方法 | |
Cao et al. | Unsupervised greenhouse tomato plant segmentation based on self-adaptive iterative latent dirichlet allocation from surveillance camera | |
Girdhar et al. | Gibbs sampling strategies for semantic perception of streaming video data | |
CN114581769A (zh) | 一种基于无监督聚类的在建房屋识别方法 | |
CN112784674B (zh) | 一种基于类中心自适应的重点人员搜索系统跨域识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180119 |
|
WW01 | Invention patent application withdrawn after publication |