CN112949501B - 一种从示教视频学习物体的可供性方法 - Google Patents
一种从示教视频学习物体的可供性方法 Download PDFInfo
- Publication number
- CN112949501B CN112949501B CN202110242514.8A CN202110242514A CN112949501B CN 112949501 B CN112949501 B CN 112949501B CN 202110242514 A CN202110242514 A CN 202110242514A CN 112949501 B CN112949501 B CN 112949501B
- Authority
- CN
- China
- Prior art keywords
- availability
- hand
- network
- video
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000003993 interaction Effects 0.000 claims abstract description 31
- 230000003068 static effect Effects 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000004821 distillation Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 10
- 241000282414 Homo sapiens Species 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种从示教视频学习物体的可供性方法,该方法包括从示教视频帧中检测手部区域;搭建手部相关选择网络,并进行训练;利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧;将关键帧中人和物体交互相关区域迁移到静态物体的图像中,并通过蒸馏损失将静态物体映射到人操作物体的状态;得到可供性标定网络;用挑选出的关键帧训练网络,优化参数,得到训练后的可供性标定网络;将待识别物体的静态物体的图像以及可供性标签输入到网络中,输出物体上能完成该相互作用的区域;本发明具有比较好的泛化能力,对于未见过的物体,能根据物体上某些局部特征学习到相关相互作用的区域。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及是一种从示教视频学习物体的可供性方法。
背景技术
在计算机视觉领域,除了要知道物体的种类之外,更多时候需要知道物体各个部分能够如何与人发生相互作用,可以给人提供什么样的帮助,即物体的可供性。机器人进入一个新的场景后,除了不仅需要知道物体是什么,更需要理解场景中各个物体的可供性,能够如何与人发生交互,能够被人如何使用。物体的可供性有很多的实际应用价值,比如场景理解、动作识别、机器人抓取等,通过视频中人和物体的交互,从而学习到人如何操作物体,在物体的各个部分如何发生相互作用。近年来,随着视频的爆发式增长以及计算能力的显著提升,通过示教视频学习物体的可供性吸引了越来越多的关注。这些因素促进了这个领域的发展,研究者们相继发布了通过人类示教学习物体可供性的有效算法。
物体的可供性往往具有以下两个特点:(1)一个物体通常具有多重可供性属性。(2)多个不同类别的物体可能具有相同的可供性属性。
然而,目前物体可供性标定的研究,主要从图像或者视频中学习物体的可供性。目前的研究主要构造像素级别可供性标签的数据集,建立物体的表观特征到可供性之间的映射关系,从而学习到物体的可供性,这样的方法需要大量的像素级别的标注,并且不具有很强的泛化能力。
发明内容
针对现有的学习物体的可供性具有的难点,本发明提出的一种从示教视频学习物体的可供性的方法,本发明考虑到示教视频中人和物体发生的交互主要通过手来实现,利用手的位置以及动作作为线索,首先从示教视频中筛选能够体现人和物体相互作用的关键帧,滤除人未与物体交互的帧,然后利用筛选后的帧提取手的动作和位置信息,并利用蒸馏损失将视频中的人和物体交互的特征迁移到静态物体图像中,使得包含静态物体图像能够学习到物体的可供性,定位出人和物体发生交互的相关区域,能够很好地解决物体可供性具有的难点带来的挑战。
本发明保护一种从示教视频学习物体可供性的方法,该方法包括如下步骤:
步骤1,从示教视频帧中检测手部区域,得到手部检测结果。
步骤2,搭建手部相关选择网络,并利用示教视频数据和手部检测结果,对手部相关选择网络进行训练。
步骤3,利用训练好的手部相关选择网络提取手部检测数据中人与物体发生交互的关键帧。
步骤4,将关键帧中人和物体交互相关区域迁移到静态物体的图像中,并通过蒸馏损失将静态物体映射到人操作物体的状态;得到可供性标定网络。
步骤5,用挑选出的关键帧训练网络,优化参数,得到训练后的可供性标定网络。
步骤6,将待识别物体的静态物体的图像以及可供性标签输入到网络中,输出物体上能完成该相互作用的区域。
进一步地,从示教视频中检测手部区域方法为:
选择通用的目标检测网络Yolov3,并使用Oxford hand dataset(牛津手部数据集)对所述目标检测网络进行训练;
输入示教视频帧,用训练好的手部检测网络Yolov3将每一帧中的手部区域检测出来,得到手部检测结果。
进一步地,搭建手部相关选择网络并进行训练具体为:
首先利用Resnet50网络提取示教视频帧数据的特征并与检测手部区域的位置的mask相乘,得到手部相关的特征;对Resnet50网络提取到的特征和手部相关特征分别进行全局L2池化,再经过相加得到手部辅助增强模块的输出,完成对手部位置特征的增强;
然后将增强后的每一帧送入LSTM网络中进行动作识别,再经过全连接层,输出视频的可供性标签;
最后利用交叉熵损失函数对手部辅助增强模块网络进行训练。
进一步地,上述中利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧过程为:输入视频数据,利用训练好的手部相关选择网络输出可供性标签,通过分类模型判断可供性标签的置信度,对于判断正确或者置信度满足某一个阈值(一般取0.3)的帧,保留下来。
进一步地,建立可供性标定网络,该过程包括:
首先,将每个视频从筛选出的关键帧中随机抽取三帧,以关键帧、手部检测结果和静态图像作为输入;
然后,利用Resnet50分别提取上述抽取的三帧视频帧和静态图像的特征,然后将视频帧和手部检测结果送入手部辅助增强模块中对手部相关区域进行增强,再将增强后的视频帧送入LSTM网络中,输出可供性标签;
接着,将提取后的静态图像送入映射层再经过L2池化层,将其映射到人与物体交互状态下的特征;
再计算每一帧视频的置信度,选择置信度最高的一帧,同时计算输入的三帧视频的平均特征,分别计算上述步骤4.3中映射后的特征与这二者之间的L2损失,两者相加得到蒸馏损失,同时学习人与物体正在交互的瞬间以及通过视频包含的动作信息,使得静态图像能够学习到视频中人如何使用物体,从而能够关注人操作物体的相关区域;
最后,利用一个蒸馏损失将映射后的特征与人物交互状态物体的特征拉近;将映射后的图像也送入LSTM网络中,同样输出可供性标签,使得LSTM能够兼容视频和图像分支。
进一步地,对建立的可供性标定网络训练过程为:
首先,训练过程中的损失主要由三部分组成,第一部分计算视频分支输出的交叉熵损失,第二部分计算图像分支输出的交叉熵损失,第三部分计算约束静态物体映射到人和物体相互作用的特征空间的蒸馏损失;用不同的超参数分别与三个损失相乘,随后加起来即为训练的总损失。
然后,针对上述的总损失,用Adam优化器进行训练,初始学习率为1e-4。
最后,权重初始化,加载数据、模型、优化器,进行训练。
进一步地,上述具体识别过程为:将静态物体的图像和可供性标签送入训练好的可供性标定网络中,然后利用Grad-CAM技术,由可供性标签进行梯度反传激活相关的区域,得到输出结果。
本发明的有益效果:1、利用可供性标定网络,以手作为线索挖掘物体的可供性,能够更好地定位人和物体发生交互的区域,并且仅利用示教视频的动作标签即可实现弱监督物体可供性标定,能够用于机器人抓取等场景任务中;2、本方法提供一种利用手的位置和动作作为线索消除来消除可供性的多重可能性问题,从而根据提供的可供性标签将图像中的相关区域标定出来;3、本方法可以从示教视频中学习物体的可供性,只需要提供视频中人和物体相互作用的标签即可,而不需要像素级别的标签,由于视频以及标签都很容易获取,并且机器人能够通过视频学习人操作物体的相关区域,因此本发明具有比较好的泛化能力,对于未见过的物体,也能根据物体上某些局部特征学习到相关相互作用的区域。
附图说明
图1(a)为从示教视频学习物体的可供性的方法的训练过程流程图;
图1(b)为从示教视频学习物体的可供性的方法的测试过程流程图;
图2(a)为训练手部相关选择网络的流程图;
图2(b)为利用训练后的手部相关选择网络提取关键帧流程图;
图3为手部辅助增强模块的流程图;
图4为可供性标定网络的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
一种从示教视频学习物体的可供性的方法,如图1所示,该方法包括如下步骤1至6:
步骤1:从示教视频帧中检测手部区域,得到手部检测结果。
步骤2:搭建手部相关选择网络,并利用示教视频数据和手部检测数据,对手部相关选择网络进行训练。
步骤3:利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧。
步骤4:将关键帧中人和物体交互相关区域迁移到静态物体的图像中,并通过蒸馏损失将静态物体映射到人操作物体的状态;得到可供性标定网络。
步骤5:用挑选出的关键帧训练网络,优化参数,得到训练后的可供性标定网络。
步骤6:将待识别物体的静态物体的图像以及可供性标签输入到网络中,输出物体上能完成该相互作用的区域。
具体地,上述步骤1中,从示教视频中检测手部区域方法为:
步骤1.1:选择通用的目标检测网络Yolov3,并使用Oxford hand dataset(牛津手部数据集)对所述目标检测网络进行训练;
步骤1.2:输入示教视频帧,用训练好的手部检测网络Yolov3将每一帧中的手部区域检测出来,得到手部检测结果。
上述步骤2中,如图2(a)所示,搭建手部相关选择网络进行训练具体步骤为:
步骤2.1:首先构造手部辅助增强模块,完成对手部位置特征的增强;
其中,如图3所示,手部辅助增强模块流程为:
步骤2.11:利用Resnet50网络提取示教视频帧数据的特征并与检测手部区域的位置的mask相乘,得到手部相关的特征;
步骤2.12:对上述Resnet50网络提取到的特征和手部相关特征分别进行全局L2池化,再经过相加得到手部辅助增强模块的输出,完成对手部位置特征的增强;
步骤2.2:将增强后的每一帧送入LSTM网络中进行动作识别,再经过全连接层,输出视频的可供性标签;
步骤2.3:利用交叉熵损失函数对手部相关选择网络进行训练。
具体来说,如图2(b)所示,上述步骤3中利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧过程为:输入视频数据,利用训练好的手部相关选择网络输出可供性标签,通过分类模型判断可供性标签的置信度,对于判断正确或者置信度满足某一个阈值(一般取0.3)的帧,保留下来。
具体来说,如图4所示,上述步骤4中,建立可供性标定网络,包括如下步骤4.1至4.6:
步骤4.1:将每个视频从筛选出的关键帧中随机抽取三帧,以关键帧、手部检测结果和静态图像作为输入。
步骤4.2:利用Resnet50分别提取上述抽取的三帧视频帧和静态图像的特征,然后将视频帧和手部检测结果送入手部辅助增强模块中对手部相关区域进行增强,再将增强后的视频帧送入LSTM网络中,输出可供性标签。
步骤4.3:提取后的静态图像送入映射层再经过L2池化层,将其映射到人与物体交互状态下的特征。
步骤4.4:计算每一帧视频的置信度,选择置信度最高的一帧,同时计算输入的三帧视频的平均特征,分别计算上述步骤4.3中映射后的特征与这二者之间的L2损失,两者相加得到蒸馏损失,同时学习人与物体正在交互的瞬间以及通过视频包含的动作信息,使得静态图像能够学习到视频中人如何使用物体,从而能够关注人操作物体的相关区域。
步骤4.5:利用一个蒸馏损失将映射后的特征与人物交互状态物体的特征拉近。
步骤4.6:将步骤4.3中映射后的图像也送入LSTM网络中,同样输出可供性标签,使得LSTM能够兼容视频和图像分支。
具体来说,上述步骤5中,对建立的可供性标定网络训练过程为:
步骤5.1:训练过程中的损失主要由三部分组成,第一部分计算视频分支输出的交叉熵损失,第二部分计算图像分支输出的交叉熵损失,第三部分计算约束静态物体映射到人和物体相互作用的特征空间的蒸馏损失;用不同的超参数分别与三个损失相乘,随后加起来即为训练的总损失。
步骤5.2:针对上述的总损失,用Adam优化器进行训练,初始学习率为1e-4。
步骤5.3:权重初始化,加载数据、模型、优化器,进行训练。
上述步骤6中,具体识别过程为:将静态物体的图像和可供性标签送入训练好的可供性标定网络中,然后利用Grad-CAM技术,由可供性标签进行梯度反传激活相关的区域,得到输出结果。
进一步地,步骤5中用挑选出的关键帧训练网络,优化参数,得到训练后的可供性标定网络中的训练过程中的损失主要由三部分组成,第一部分计算视频分支输出的交叉熵损失,损失权重的超参数为1;第二部分计算图像分支输出的交叉熵损失,损失权重的参数为1;第三部分计算约束静态物体映射到人和物体相互作用的特征空间的蒸馏损失,蒸馏损失权重的超参数为0.1;用所述的超参数分别与三个损失相乘,随后加起来得到训练的总损失。针对上述的损失,用Adam优化器进行训练,初始学习率为1e-4。再经过权重初始化,加载数据、模型、优化器,进行训练,其中迭代3000次停止,批量大小为32。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
Claims (6)
1.一种从示教视频学习物体的可供性方法,其特征在于,构建可供性标定网络,通过可供性标定网络定位到人和物体交互的相关区域,可供性标定网络构建,包括如下步骤:
步骤1,从示教视频帧中检测手部区域,得到手部检测结果;
步骤2,搭建手部相关选择网络,并利用示教视频数据和手部检测数据,对手部相关选择网络进行训练;
步骤3,利用训练好的手部相关选择网络提取手部检测数据中人与物体发生交互的关键帧;
步骤4,将关键帧中人和物体交互相关区域迁移到静态物体的图像中,并通过蒸馏损失将静态物体映射到人操作物体的状态;得到可供性标定网络,具体包括如下步骤:
步骤4.1,将每个视频从筛选出的关键帧中随机抽取三帧,以关键帧、手部检测结果和静态图像作为输入;
步骤4.2,利用Resnet50分别提取上述抽取的三帧视频帧和静态图像的特征,然后将视频帧和手部检测结果送入手部辅助增强模块中对手部相关区域进行增强,再将增强后的视频帧送入LSTM网络中,输出可供性标签;
步骤4.3,提取后的静态图像送入映射层再经过L2池化层,将其映射到人与物体交互状态下的特征;
步骤4.4,计算每一帧视频的置信度,选择置信度最高的一帧,同时计算输入的三帧视频的平均特征,分别计算上述步骤4.3中映射后的特征与这二者之间的L2损失,两者相加得到蒸馏损失,学习人与物体正在交互的瞬间以及通过视频包含的动作信息,使得静态图像能够学习到视频中人如何使用物体;
步骤4.5,利用一个蒸馏损失将映射后的特征与人物交互状态物体的特征拉近;
步骤4.6,将步骤4.3中映射后的图像也送入LSTM网络中,同样输出可供性标签,使得LSTM网络能够兼容视频和图像分支;
步骤5,训练可供性标定网络,优化参数,得到训练后的可供性标定网络。
2.根据权利要求1所述的从示教视频学习物体的可供性方法,其特征在于,所述步骤2中的手部相关选择网络的搭建包括如下步骤:
步骤2.1:利用Resnet50网络提取示教视频帧数据的特征并与检测手部区域的位置的mask相乘,得到手部相关的特征;
步骤2.2:对手部相关特征和Resnet50网络提取到的示教视频帧数据特征分别进行全局L2池化,再经过相加得到手部辅助增强模块的输出,完成对手部位置特征的增强;
步骤2.3:将增强后的每一帧送入LSTM网络中进行动作识别,再经过全连接层,进行输出。
3.根据权利要求2所述的从示教视频学习物体的可供性方法,其特征在于,所述步骤3中,利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧过程为:输入视频数据和手部检测结果到训练好的手部相关选择网络,再通过分类模型判断可供性标签的置信度,对于判断正确和置信度符合阈值满足其一的帧,保留下来。
4.根据权利要求3所述的从示教视频学习物体的可供性方法,其特征在于,上述阈值为0.3。
5.根据权利要求1所述的从示教视频学习物体的可供性方法,其特征在于,步骤5中,训练可供性标定网络,优化参数,得到训练后的可供性标定网络,包括如下步骤5.1至5.3:
步骤5.1,训练过程中的损失主要由三部分组成,第一部分计算视频分支输出的交叉熵损失,第二部分计算图像分支输出的交叉熵损失,第三部分计算约束静态物体映射到人和物体相互作用的特征空间的蒸馏损失;用不同的超参数分别与三个损失相乘,随后加起来即为训练的总损失;
步骤5.2,针对上述的总损失,用Adam优化器进行训练,初始学习率为1e-4;
步骤5.3,权重初始化,加载数据、模型、优化器,进行训练。
6.根据权利要求1所述的从示教视频学习物体的可供性方法,其特征在于,所述步骤1中,从示教视频中检测手部区域的网络为Yolov3网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110242514.8A CN112949501B (zh) | 2021-03-03 | 2021-03-03 | 一种从示教视频学习物体的可供性方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110242514.8A CN112949501B (zh) | 2021-03-03 | 2021-03-03 | 一种从示教视频学习物体的可供性方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949501A CN112949501A (zh) | 2021-06-11 |
CN112949501B true CN112949501B (zh) | 2023-12-08 |
Family
ID=76247754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110242514.8A Active CN112949501B (zh) | 2021-03-03 | 2021-03-03 | 一种从示教视频学习物体的可供性方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949501B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082750A (zh) * | 2021-03-12 | 2022-09-20 | 北京沃东天骏信息技术有限公司 | 物体可供性的检测方法和装置 |
CN113570534A (zh) * | 2021-07-30 | 2021-10-29 | 山东大学 | 一种用于深度学习的物品识别数据集扩充方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10049308B1 (en) * | 2017-02-21 | 2018-08-14 | A9.Com, Inc. | Synthesizing training data |
CN110222734A (zh) * | 2019-05-17 | 2019-09-10 | 深圳先进技术研究院 | 贝叶斯网络学习方法、智能设备及存储装置 |
CN110866510A (zh) * | 2019-11-21 | 2020-03-06 | 山东浪潮人工智能研究院有限公司 | 一种基于关键帧检测的视频描述系统和方法 |
CN111890357A (zh) * | 2020-07-01 | 2020-11-06 | 广州中国科学院先进技术研究所 | 一种基于动作演示示教的智能机器人抓取方法 |
CN112199994A (zh) * | 2020-09-03 | 2021-01-08 | 中国科学院信息工程研究所 | 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 |
-
2021
- 2021-03-03 CN CN202110242514.8A patent/CN112949501B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10049308B1 (en) * | 2017-02-21 | 2018-08-14 | A9.Com, Inc. | Synthesizing training data |
CN110222734A (zh) * | 2019-05-17 | 2019-09-10 | 深圳先进技术研究院 | 贝叶斯网络学习方法、智能设备及存储装置 |
CN110866510A (zh) * | 2019-11-21 | 2020-03-06 | 山东浪潮人工智能研究院有限公司 | 一种基于关键帧检测的视频描述系统和方法 |
CN111890357A (zh) * | 2020-07-01 | 2020-11-06 | 广州中国科学院先进技术研究所 | 一种基于动作演示示教的智能机器人抓取方法 |
CN112199994A (zh) * | 2020-09-03 | 2021-01-08 | 中国科学院信息工程研究所 | 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 |
Non-Patent Citations (3)
Title |
---|
Fang K et al..Demo2Vec: Reasoning Object Affordances from Online Videos.2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR).2018,第2139-2147页. * |
Nagarajan T et al..Grounded Human-Object Interaction Hotspots From Video.IEEE/CVF International Conference on Computer Vision (ICCV).2020,第8687-8696页. * |
Object-object interaction affordance learning;Sun Y. et al;ROBOTICS AND AUTONOMOUS SYSTEMS;第62卷(第4期);第487-496页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112949501A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597883B (zh) | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 | |
KR102177412B1 (ko) | 이미지와 텍스트간 유사도 매칭 시스템 및 방법 | |
WO2021097055A1 (en) | Domain adaptation for semantic segmentation via exploiting weak labels | |
CN109426805A (zh) | 用于对象检测的方法、设备和计算机程序产品 | |
CN112949501B (zh) | 一种从示教视频学习物体的可供性方法 | |
CN114511043B (zh) | 图像理解方法、装置、设备及介质 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN107247952B (zh) | 基于深层监督的循环卷积神经网络的视觉显著性检测方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN111401293A (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN115328319B (zh) | 一种基于轻量型手势识别的智能控制方法及装置 | |
CN110222636A (zh) | 基于背景抑制的行人属性识别方法 | |
CN112905762A (zh) | 一种基于同等注意力图网络的视觉问答方法 | |
CN114463837A (zh) | 基于自适应时空卷积网络的人体行为识别方法及系统 | |
CN114581994A (zh) | 一种课堂考勤管理方法和系统 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN117351192A (zh) | 一种对象检索模型训练、对象检索方法、装置及电子设备 | |
CN116229228A (zh) | 基于中心环绕机制的小目标检测方法 | |
CN116363429A (zh) | 图像识别模型的训练方法、图像识别方法、装置及设备 | |
CN113313091B (zh) | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 | |
CN112883868B (zh) | 一种基于关系建模的弱监督视频动作定位模型的训练方法 | |
CN114463676A (zh) | 一种基于隐式表达的安全帽配戴检测方法 | |
Can et al. | Segmentation algorithm of road scene based on full convolutional network and conditional random field | |
CN115116134B (zh) | 基于2维和3维cnn的人体行为检测方法及系统 | |
CN117409483B (zh) | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |