CN111191620B - 一种人-物交互检测数据集的构建方法 - Google Patents

一种人-物交互检测数据集的构建方法 Download PDF

Info

Publication number
CN111191620B
CN111191620B CN202010003871.4A CN202010003871A CN111191620B CN 111191620 B CN111191620 B CN 111191620B CN 202010003871 A CN202010003871 A CN 202010003871A CN 111191620 B CN111191620 B CN 111191620B
Authority
CN
China
Prior art keywords
human
image
scene
total
named
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010003871.4A
Other languages
English (en)
Other versions
CN111191620A (zh
Inventor
谢雪梅
李启越
金星
李科正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010003871.4A priority Critical patent/CN111191620B/zh
Publication of CN111191620A publication Critical patent/CN111191620A/zh
Application granted granted Critical
Publication of CN111191620B publication Critical patent/CN111191620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种人‑物交互检测数据集的构建方法,用于解决现有技术中存在的因数据集中的图片之间缺少因果关系导致的人‑物动态交互检测精度较低的技术问题。实现步骤为:设置构建人‑物交互检测数据集所需的参数;采集每个场景Si的原始视频并进行剪辑;获取原始视频段集合V'的总图像集合P;获取命名总图像集合P'及其总标注文件集合x;获取人‑物交互检测数据集。本发明可以应用于训练人‑物交互检测神经网络的类似场景。

Description

一种人-物交互检测数据集的构建方法
技术领域
本发明属于机器视觉处理技术领域,涉及数据集的构建方法,具体涉及一种人-物交互检测数据集的构建方法,可用于作为训练人-物交互检测神经网络的类似场景。
背景技术
信息时代发展下,摄像头及各种图像视频采集设备可以获得各个场景的画面,许多场景都需要对画面中的人-物交互进行检测。现有的人-物交互检测方法主要为基于深度学习的方法,而基于深度学习的人-物交互检测方法多为数据驱动方法,数据集构建的好坏对基于深度学习的人-物交互检测方法的检测精度至关重要,但由于数据集中的图像之间缺少因果关系,无法为基于深度学习的人-物交互检测方法提供推理人-物动态交互类别所需的因果信息,导致人-物交互检测精度较差。
例如,密歇根大学的Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Jia Deng和华盛顿大学的Huayi Zeng在2018年IEEE Winter Conference on Applications of ComputerVision上发表了论文“Learning to Detect Human-Object Interactions”中,公开了一种人-物交互检测数据集的构建方法,该方法在对人-物交互检测数据集进行构建时,是在现有的人-物交互检测数据集的基础上,对每一张图像中没有标注的人-物交互类别进行补充标注,从而增加了数据集中的人-物交互数据集中的人-物交互类别的种类和数量,提高了人-物交互的检测精度。但是该方法构建的人-物交互检测数据集中的图像来源于静态图片,图像中只有人-物静态交互类别,没有动态人物交互类别,而且图像之间没有因果关系,因此通过该数据集训练出的网络的人-物动态交互的检测精度较低。
又如,伯克利大学的Saurabh Gupta和Jitendra Malik 2015年在arXiv平台发表的论文“Visual Semantic Role Labeling”中,公开了一种人-物交互检测数据集的构建方法,该方法是在COCO目标检测数据集基础上,对图片中的人-物交互类别进行标注,构建了基于COCO数据集的人-物交互检测数据集V-COCO。但该数据集中的图像来自于目标检测数据集中的静态图片,图片中只有人-物静态交互类别,没有人-物动态交互类别,图片之间没有基于深度学习的人-物交互检测方法学习和推理人-物动态交互类别所需的因果信息,通过该数据集训练出的网络的人-物动态交互检测精度较低。
综上所述,因为现有技术在构建人-物交互检测数据集的时候选取的图像来源于静态图片,而静态图片之间只有人-物静态交互类别,没有人-物动态交互类别,所以通过现有技术构建的数据集训练出的神经网络的人-物动态交互检测精度较低。
发明内容
本发明的目的是针对上述现有技术的不足,提供了一种人-物交互检测数据集的构建方法,用于解决现有技术中存在的因数据集中的图片之间缺少因果关系导致的人-物动态交互检测精度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)设置构建人-物交互检测数据集所需的参数:
设置构建人-物交互检测数据集所需的参数,包括待检测人的类别编号、待检测物体的类别编号、待检测人-物动态交互的类别编号、场景S及场景编号、需采集的人员数量及人员编号、采集设备C及设备编号,S={S1,S2,...,Si,...,Sn},Si表示第i个场景,n表示场景总数,n≥2,C={C1,C2,...,Cj,...,Cm},Cj表示第j个采集设备,m表示采集设备的总数,m≥1;
(2)采集每个场景Si的原始视频并进行剪辑:
(2a)通过每个采集设备Cj对每个场景Si进行采集,得到场景S的原始视频集合V={V1,V2,...,Vi,...,Vn},其中,Vi表示m个采集设备对Si进行采集所得到场景的原始视频,Vi={Vi1,Vi2,...,Vij,...,Vim},Vij表示采集设备Cj对场景Si进行采集所得到的原始视频;
(2b)将每个原始视频Vij剪辑为lij个视频段,得到场景S的原始视频段集合V'={V'1,V'2,...,V'i,...,V'n},其中,V'i表示Si的原始视频段,V'i={V'i1,V'i2,...,V'ij,...,V'im},V'ij表示Vij对应的原始视频段,
Figure BDA0002354495980000031
Figure BDA0002354495980000032
表示总帧数为
Figure BDA0002354495980000033
且仅包含一个人员的一个人-物动态交互类别的第kij个视频段,lij≥5,
Figure BDA0002354495980000034
(3)获取原始视频段集合V'的总图像集合P:
Figure BDA0002354495980000035
为帧间隔对每个视频段
Figure BDA0002354495980000036
进行帧提取,得到原始视频段集合V'的总图像集合P={P1,P2,...,Pi,...,Pn},其中,Pi表示原始视频段V'i的图像集合,Pi={Pi1,Pi2,...,Pij,...,Pim},Pij表示原始视频段V'ij的图像
Figure BDA0002354495980000037
Figure BDA0002354495980000038
表示对视频段
Figure BDA0002354495980000039
进行帧提取得到的分图像集合,
Figure BDA00023544959800000310
Figure BDA00023544959800000311
表示第dij张图像,
Figure BDA00023544959800000312
表示总图像数,
Figure BDA00023544959800000313
(4)获取命名总图像集合P'及其总标注文件集合x:
(4a)对每张图像
Figure BDA00023544959800000314
进行命名,得到总图像集合P的命名总图像集合P'={P'1,P'2,...,P'i,...,P'n},其中,P'i表示图像集合Pi的命名图像集合,P'i={P'i1,P'i2,...,P'ij,...,P'im},P'ij表示图像Pij的命名图像,
Figure BDA00023544959800000315
Figure BDA00023544959800000316
表示分图像集合
Figure BDA00023544959800000317
的命名分图像集合,
Figure BDA00023544959800000318
Figure BDA00023544959800000319
表示对图像
Figure BDA00023544959800000320
命名得到的命名图像;
(4b)对每张命名图像
Figure BDA00023544959800000321
中存在的待检测人的类别编号及位置、待检测物体的类别编号及位置、以及待检测人-物动态交互的类别编号进行标注,得到命名总图像集合P'的总标注文件集合x={x1,x2,...,xi,...,xn},其中,xi表示命名图像集合P'i的标注文件集合,xi={xi1,xi2,...,xij,...,xim},xij表示命名图像P'ij的标注文件,
Figure BDA00023544959800000322
Figure BDA00023544959800000323
表示命名分图像集合
Figure BDA00023544959800000324
的分标注文件集合,
Figure BDA0002354495980000041
Figure BDA0002354495980000042
表示对命名图像
Figure BDA0002354495980000043
标注得到的标注文件;
(5)获取人-物交互检测数据集:
(5a)以分标注文件集合
Figure BDA0002354495980000044
为基本单元,随机选取总标注文件集合x中半数以上的分标注文件集合作为第一标注文件集合xtrain,其余分标注文件集合作为第二标注文件集合xtest,并通过xtrain和xtest选取命名总图像集合P'的第一图像集合Ptrain和第二图像集合Ptest,x=xtrain∪xtest
Figure BDA0002354495980000045
(5b)将第一标注文件集合xtrain和第一图像集合Ptrain组合为训练集,同时将第二标注文件集合xtest和第二图像集合Ptest组合为测试集,训练集和测试集构成人-物交互检测数据集。
本发明与现有技术相比,具有以下优点:
本发明构建的人-物交互检测数据集,由于数据集中的图像是对视频段进行帧提取得到的,来自于同一个视频段的图像之间具有因果关系,并且在将数据集分为训练集和测试集的时候,并没有拆分开具有因果的图像,而是将其作为一个整体进行选取,保留了图片之间基于深度学习的人-物交互检测方法学习和推理人-物动态交互类别所需的因果信息,与现有技术相比,有效提升了人-物动态交互检测的精度。
附图说明
图1为本发明的实现流程图。
具体实施方式
下面将结合附图和具体实施案例,对本发明作进一步的详细描述:
参照图1,本发明包括如下步骤:
步骤1)设置构建人-物交互检测数据集所需的参数:
设置构建人-物交互检测数据集所需的参数,包括待检测人的类别编号、待检测12类物体的类别编号、待检测14类人-物动态交互的类别编号、场景S及场景编号、需采集的6个人员及人员编号、采集设备C及设备编号,S={S1,S2,...,Si,...,Sn},Si表示第i个场景,n表示场景总数,n=3,C={C1,C2,...,Cj,...,Cm},Cj表示第j个采集设备,m表示采集设备的总数,m=3;
产生人-物动态交互的场景很多,但是大多数场景产生人-物动态交互的频率低且不易于采集,因此从中选取了常见的3个场景,即取n=3;取3个场景中频繁产生的14类人-物动态交互作为待检测人-物动态交互类别,取14类人-物动态交互涉及到的12类物体作为待检测物体;每个采集设备需要对每一个场景都进行采集,对于同一个场景,采集的原始视频应该足够多,且原始视频间应有明显差异,但过多的采集设备只会降低原始视频之间的差异性,所以取m=3;
步骤2)采集每个场景Si的原始视频并进行剪辑:
步骤2a)将m个采集设备分别放置到每个场景Si中的m个不同高度的位置;
步骤2b)根据人员编号,依次让6个人员在每个场景Si中进行14类人-物动态交互;
步骤2c)使用m个采集设备采集每个场景Si中人-物动态交互视频,得到场景Si的原始视频Vi={Vi1,Vi2,...,Vij,...,Vim},将n个场景的原始视频组合为场景S的原始视频集合V={V1,V2,...,Vi,...,Vn},其中,Vij表示采集设备Cj对场景Si进行采集所得到的原始视频;
步骤2d)将每个原始视频Vij剪辑为lij个视频段,得到Vij对应的剪辑后的原始视频段
Figure BDA0002354495980000051
将场景Si中m个采集设备的剪辑后的原始视频段组合为场景Si对应的剪辑后的原始视频段V'i={V'i1,V'i2,...,V'ij,...,V'im},并将n个场景的剪辑后的原始视频段组合为场景S的剪辑后的原始视频段集合V'={V'1,V'2,...,V'i,...,V'n},其中,
Figure BDA0002354495980000052
表示总帧数为
Figure BDA0002354495980000053
且仅包含一个人员的一个人-物动态交互类别的第kij个视频段,为保证在后续步骤中可以提取到足够多的图像,应取lij≥5,
Figure BDA0002354495980000054
步骤3)获取原始视频段集合V'的总图像集合P:
步骤3a)对每个视频段
Figure BDA0002354495980000061
以帧间隔
Figure BDA0002354495980000062
提取
Figure BDA0002354495980000063
帧图像,若视频段
Figure BDA0002354495980000064
的总帧数
Figure BDA0002354495980000065
为帧间隔
Figure BDA0002354495980000066
的整数倍,则从视频段
Figure BDA0002354495980000067
中均匀地提取
Figure BDA0002354495980000068
帧图像,
Figure BDA0002354495980000069
否则,从视频段
Figure BDA00023544959800000610
的前
Figure BDA00023544959800000611
帧均匀地提取
Figure BDA00023544959800000612
帧图像,剩余部分图像不予帧提取,得到视频段
Figure BDA00023544959800000613
对应的分图像集合
Figure BDA00023544959800000614
其中,
Figure BDA00023544959800000615
Figure BDA00023544959800000616
表示向下取整运算,
Figure BDA00023544959800000617
表示第dij张图像,
Figure BDA00023544959800000618
表示总图像数,为了确保分图像集合
Figure BDA00023544959800000619
中的图像之间存在因果关系,
Figure BDA00023544959800000620
步骤3b)将剪辑后的原始视频段V'ij中lij个视频段的分图像集合组合为剪辑后的原始视频段V'ij的图像
Figure BDA00023544959800000621
将剪辑后的原始视频段V'i中m个剪辑后的原始视频段的图像组合为剪辑后的原始视频段V'i的图像集合,并将剪辑后的原始视频段集合V'中n个剪辑后的原始视频段的图像集合组合为剪辑后的原始视频段集合V'的总图像集合P={P1,P2,...,Pi,...,Pn};
步骤4)获取命名总图像集合P'及其总标注文件集合x:
步骤4a)以“场景编号+设备编号+人员编号+物体的类别编号+人-物动态交互的类别编号+帧顺序序列数字”的命名规则对每张图像
Figure BDA00023544959800000622
进行命名,得到命名分图像集合
Figure BDA00023544959800000623
Figure BDA00023544959800000624
表示对图像
Figure BDA00023544959800000625
命名得到的命名图像;
步骤4b)将图像Pij中lij个分图像集合的命名分图像集合组合为图像Pij的命名图像
Figure BDA00023544959800000626
将图像集合Pi中m个图像集合的命名图像组合为图像集合Pi的命名图像集合P'i={P'i1,P'i2,...,P'ij,...,P'im},并将总图像集合P中n个图像集合的命名图像集合组合为总图像集合P的命名总图像集合P'={P'1,P'2,...,P'i,...,P'n};
步骤4c)对每张命名图像
Figure BDA0002354495980000071
中存在的待检测人的类别编号及位置、待检测物体的类别编号及位置、以及待检测人-物动态交互的类别编号进行标注,得到命名分图像集合
Figure BDA0002354495980000072
的分标注文件集合
Figure BDA0002354495980000073
Figure BDA0002354495980000074
表示对命名图像
Figure BDA0002354495980000075
标注得到的标注文件;
步骤4d)将命名图像P'ij中lij个命名分图像集合的分标注文件集合组合为命名图像P'ij的标注文件
Figure BDA0002354495980000076
将命名图像集合P'i中m个命名图像的标注文件组合为命名图像集合P'i的标注文件集合xi={xi1,xi2,...,xij,...,xim},并将命名总图像集合P'中n个命名图像集合的标注文件集合组合为命名总图像集合P'的总标注文件集合x={x1,x2,...,xi,...,xn};
步骤5)获取人-物交互检测数据集:
步骤5a)以分标注文件集合
Figure BDA0002354495980000077
为基本单元,随机选取总标注文件集合x中80%的分标注文件集合作为第一标注文件集合xtrain,剩余20%的分标注文件集合作为第二标注文件集合xtest
步骤5b)通过xtrain和xtest选取命名总图像集合P'的第一图像集合Ptrain和第二图像集合Ptest,要求xtrain中的每一个分标注文件集合
Figure BDA0002354495980000078
都可以在Ptrain中找到对应的命名分图像集合,Ptrain中的每一个命名分图像集合
Figure BDA0002354495980000079
都可以在xtrain中找到对应的分标注文件集合,同理,xtest中的每一个分标注文件集合
Figure BDA00023544959800000710
都可以在Ptest中找到对应的命名分图像集合,Ptest中的每一个命名分图像集合
Figure BDA00023544959800000711
都可以在xtest中找到对应的分标注文件集合,x=xtrain∪xtest
Figure BDA00023544959800000712
步骤5c)将第一标注文件集合xtrain和第一图像集合Ptrain组合为训练集,同时将第二标注文件集合xtest和第二图像集合Ptest组合为测试集,训练集和测试集构成人-物交互检测数据集。

Claims (4)

1.一种人-物交互检测数据集的构建方法,其特征在于,包括如下步骤:
(1)设置构建人-物交互检测数据集所需的参数:
设置构建人-物交互检测数据集所需的参数,包括待检测人的类别编号、待检测物体的类别编号、待检测人-物动态交互的类别编号、场景S及场景编号、需采集的人员数量及人员编号、采集设备C及设备编号,S={S1,S2,...,Si,...,Sn},Si表示第i个场景,n表示场景总数,n≥2,C={C1,C2,...,Cj,...,Cm},Cj表示第j个采集设备,m表示采集设备的总数,m≥1;
(2)采集每个场景Si的原始视频并进行剪辑:
(2a)通过每个采集设备Cj对每个场景Si进行采集,得到场景S的原始视频集合V={V1,V2,...,Vi,...,Vn},其中,Vi表示m个采集设备对场景Si进行采集所得到的原始视频,Vi={Vi1,Vi2,...,Vij,...,Vim},Vij表示采集设备Cj对场景Si进行采集所得到的原始视频;
(2b)将每个原始视频Vij剪辑为lij个视频段,得到场景S的原始视频段集合V'={V'1,V'2,...,V'i,...,V'n},其中,V'i表示Si的原始视频段,V'i={V'i1,V'i2,...,V'ij,...,V'im},V'ij表示Vij对应的原始视频段,
Figure FDA0002354495970000011
Figure FDA0002354495970000012
表示总帧数为
Figure FDA0002354495970000013
且仅包含一个人员的一个人-物动态交互类别的第kij个视频段,lij≥5,
Figure FDA0002354495970000014
(3)获取原始视频段集合V'的总图像集合P:
Figure FDA0002354495970000015
为帧间隔对每个视频段
Figure FDA0002354495970000016
进行帧提取,得到原始视频段集合V'的总图像集合P={P1,P2,...,Pi,...,Pn},其中,Pi表示原始视频段V'i的图像集合,Pi={Pi1,Pi2,...,Pij,...,Pim},Pij表示原始视频段V'ij的图像
Figure FDA0002354495970000017
Figure FDA0002354495970000021
表示对视频段
Figure FDA0002354495970000022
进行帧提取得到的分图像集合,
Figure FDA0002354495970000023
Figure FDA0002354495970000024
表示第dij张图像,
Figure FDA0002354495970000025
表示总图像数,
Figure FDA0002354495970000026
(4)获取命名总图像集合P'及其总标注文件集合x:
(4a)对每张图像
Figure FDA0002354495970000027
进行命名,得到总图像集合P的命名总图像集合P'={P'1,P'2,...,P'i,...,P'n},其中,P'i表示图像集合Pi的命名图像集合,P'i={P'i1,P'i2,...,P'ij,...,P'im},P'ij表示图像Pij的命名图像,
Figure FDA0002354495970000028
Figure FDA0002354495970000029
表示分图像集合
Figure FDA00023544959700000210
的命名分图像集合,
Figure FDA00023544959700000211
Figure FDA00023544959700000212
表示对图像
Figure FDA00023544959700000213
命名得到的命名图像;
(4b)对每张命名图像
Figure FDA00023544959700000214
中存在的待检测人的类别编号及位置、待检测物体的类别编号及位置、以及待检测人-物动态交互的类别编号进行标注,得到命名总图像集合P'的总标注文件集合x={x1,x2,...,xi,...,xn},其中,xi表示命名图像集合P'i的标注文件集合,xi={xi1,xi2,...,xij,...,xim},xij表示命名图像P'ij的标注文件,
Figure FDA00023544959700000215
Figure FDA00023544959700000216
表示命名分图像集合
Figure FDA00023544959700000217
的分标注文件集合,
Figure FDA00023544959700000218
Figure FDA00023544959700000219
表示对命名图像
Figure FDA00023544959700000220
标注得到的标注文件;
(5)获取人-物交互检测数据集:
(5a)以分标注文件集合
Figure FDA00023544959700000221
为基本单元,随机选取总标注文件集合x中半数以上的分标注文件集合作为第一标注文件集合xtrain,其余分标注文件集合作为第二标注文件集合xtest,并通过xtrain和xtest选取命名总图像集合P'的第一图像集合Ptrain和第二图像集合Ptest,x=xtrain∪xtest
Figure FDA00023544959700000222
(5b)将第一标注文件集合xtrain和第一图像集合Ptrain组合为训练集,同时将第二标注文件集合xtest和第二图像集合Ptest组合为测试集,训练集和测试集构成人-物交互检测数据集。
2.根据权利要求1所述的人-物交互检测数据集的构建方法,其特征在于,步骤(2a)中所述的通过每个采集设备Cj对每个场景Si进行采集,实现步骤为:
(2a1)将m个采集设备分别放置到每个场景Si中的m个不同高度的位置;
(2a2)根据人员编号,依次让每个人员在每个场景Si中进行人-物动态交互;
(2a3)使用m个采集设备采集每个场景Si中人-物动态交互视频,得到场景S的原始视频集合V={V1,V2,...,Vi,...,Vn}。
3.根据权利要求1所述的人-物交互检测数据集的构建方法,其特征在于,步骤(3)中所述的以
Figure FDA0002354495970000031
为帧间隔对每个视频段
Figure FDA0002354495970000032
进行帧提取,帧提取规则为:
对每个视频段
Figure FDA0002354495970000033
以帧间隔
Figure FDA0002354495970000034
提取
Figure FDA0002354495970000035
帧图像,若视频段
Figure FDA0002354495970000036
的总帧数
Figure FDA0002354495970000037
为帧间隔
Figure FDA0002354495970000038
的整数倍,则对视频段
Figure FDA0002354495970000039
进行均匀地帧提取,
Figure FDA00023544959700000310
否则对视频段
Figure FDA00023544959700000311
Figure FDA00023544959700000312
帧进行均匀地帧提取,剩余部分不予帧提取,
Figure FDA00023544959700000313
Figure FDA00023544959700000314
Figure FDA00023544959700000315
表示向下取整运算。
4.根据权利要求1所述的人-物交互检测数据集的构建方法,其特征在于,步骤(4a)中所述的对每张图像
Figure FDA00023544959700000316
进行命名,命名规则为:
对每张图像
Figure FDA00023544959700000317
进行命名,命名规则为“场景编号+设备编号+人员编号+物体的类别编号+人-物动态交互的类别编号+帧顺序序列数字”。
CN202010003871.4A 2020-01-03 2020-01-03 一种人-物交互检测数据集的构建方法 Active CN111191620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010003871.4A CN111191620B (zh) 2020-01-03 2020-01-03 一种人-物交互检测数据集的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010003871.4A CN111191620B (zh) 2020-01-03 2020-01-03 一种人-物交互检测数据集的构建方法

Publications (2)

Publication Number Publication Date
CN111191620A CN111191620A (zh) 2020-05-22
CN111191620B true CN111191620B (zh) 2022-03-22

Family

ID=70708096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010003871.4A Active CN111191620B (zh) 2020-01-03 2020-01-03 一种人-物交互检测数据集的构建方法

Country Status (1)

Country Link
CN (1) CN111191620B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757209B (zh) * 2022-06-13 2022-11-11 天津大学 基于多模态语义角色识别的人机交互指令解析方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400386A (zh) * 2013-07-30 2013-11-20 清华大学深圳研究生院 一种用于视频中的交互式图像处理方法
CN104994424A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种构建音视频标准数据集的方法和装置
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN108717732A (zh) * 2018-05-21 2018-10-30 电子科技大学 一种基于MobileNets模型的表情追踪方法
WO2019064266A1 (en) * 2017-09-28 2019-04-04 Checkout Technologies Srl CREATING DATA SETS FOR DEEP NEURAL NETWORK

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140201667A1 (en) * 2011-03-02 2014-07-17 Barbara Schoeberl System and Method for Generating and Displaying Climate System Models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400386A (zh) * 2013-07-30 2013-11-20 清华大学深圳研究生院 一种用于视频中的交互式图像处理方法
CN104994424A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种构建音视频标准数据集的方法和装置
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
WO2019064266A1 (en) * 2017-09-28 2019-04-04 Checkout Technologies Srl CREATING DATA SETS FOR DEEP NEURAL NETWORK
CN108717732A (zh) * 2018-05-21 2018-10-30 电子科技大学 一种基于MobileNets模型的表情追踪方法

Also Published As

Publication number Publication date
CN111191620A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN110532970B (zh) 人脸2d图像的年龄性别属性分析方法、系统、设备和介质
CN107240047B (zh) 一种教学视频的学分评估方法和装置
CN108596046A (zh) 一种基于深度学习的细胞检测计数方法及系统
CN106682108A (zh) 一种基于多模态卷积神经网络的视频检索方法
Luo et al. Saliency density maximization for efficient visual objects discovery
US20060147107A1 (en) Method and system for learning-based quality assessment of images
WO2018035667A1 (zh) 显示方法、装置、电子设备、计算机程序产品和非暂态计算机可读存储介质
CN106126585B (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
CN112100438A (zh) 一种标签抽取方法、设备及计算机可读存储介质
CN106663196A (zh) 视频中的计算机显著人物识别
WO2019132590A1 (ko) 영상 변환 방법 및 장치
CN106874827A (zh) 视频识别方法和装置
Chandran et al. Missing child identification system using deep learning and multiclass SVM
CN111626126A (zh) 一种人脸情绪识别的方法、装置、介质及电子设备
WO2019127102A1 (zh) 信息处理方法、装置、云处理设备以及计算机程序产品
CN113240466B (zh) 基于大数据深度分析的移动传媒视频数据处理方法、设备及存储介质
WO2023138590A1 (zh) 无参考的视频质量确定方法、装置、设备和存储介质
Balchandani et al. A deep learning framework for smart street cleaning
CN111191620B (zh) 一种人-物交互检测数据集的构建方法
CN110825808A (zh) 一种基于边缘计算的分布化人脸数据库系统及其生成方法
CN111062284A (zh) 一种交互式视频摘要模型的可视理解与诊断方法
CN106611417A (zh) 将视觉元素分类为前景或背景的方法及装置
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质
Kandemir et al. Beyond saliency: Assessing visual balance with high-level cues
Kasiran et al. Facial expression as an implicit customers' feedback and the challenges

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant