CN107239728B - 基于深度学习姿态估计的无人机交互装置与方法 - Google Patents

基于深度学习姿态估计的无人机交互装置与方法 Download PDF

Info

Publication number
CN107239728B
CN107239728B CN201710005799.7A CN201710005799A CN107239728B CN 107239728 B CN107239728 B CN 107239728B CN 201710005799 A CN201710005799 A CN 201710005799A CN 107239728 B CN107239728 B CN 107239728B
Authority
CN
China
Prior art keywords
key frame
unmanned aerial
aerial vehicle
human body
frame image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710005799.7A
Other languages
English (en)
Other versions
CN107239728A (zh
Inventor
田露
单羿
姚颂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xilinx Technology Beijing Ltd
Original Assignee
Xilinx Technology Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xilinx Technology Beijing Ltd filed Critical Xilinx Technology Beijing Ltd
Priority to CN201710005799.7A priority Critical patent/CN107239728B/zh
Publication of CN107239728A publication Critical patent/CN107239728A/zh
Priority to US15/860,772 priority patent/US20180186452A1/en
Application granted granted Critical
Publication of CN107239728B publication Critical patent/CN107239728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C39/00Aircraft not otherwise provided for
    • B64C39/02Aircraft not otherwise provided for characterised by special use
    • B64C39/024Aircraft not otherwise provided for characterised by special use of the remote controlled vehicle type, i.e. RPV
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0011Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot associated with a remote control arrangement
    • G05D1/0016Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot associated with a remote control arrangement characterised by the operator's input device
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0011Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot associated with a remote control arrangement
    • G05D1/0033Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot associated with a remote control arrangement by having the operator tracking the vehicle either by direct line of sight or via one or more cameras located remotely from the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0088Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0094Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot involving pointing a payload, e.g. camera, weapon, sensor, towards a fixed or moving target
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/30UAVs specially adapted for particular uses or applications for imaging, photography or videography
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2201/00UAVs characterised by their flight controls
    • B64U2201/10UAVs characterised by their flight controls autonomous, i.e. by navigating independently from ground or air stations, e.g. by using inertial navigation systems [INS]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2201/00UAVs characterised by their flight controls
    • B64U2201/20Remote controls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Astronomy & Astrophysics (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供一种基于深度学习姿态估计的无人机交互装置与方法。根据本发明的装置,包括:拍摄单元,用于拍摄对象视频;关键帧提取单元,用于从拍摄的对象视频中提取关于对象的关键帧图像;姿态估计单元,用于基于深度卷积神经网络的图像识别算法,针对所述关键帧图像,识别出对象姿态;以及无人机操作控制单元,用于将识别出的对象姿态转化为控制指令,从而控制无人机的操作。本发明利用人体姿态估计来控制无人机,可以更方便地操纵无人机。而且,在关键帧提取和姿态估计中,通过使用深度卷积神经网络算法,可以获得更快速、更准确的结果。

Description

基于深度学习姿态估计的无人机交互装置与方法
技术领域
本发明涉及无人机交互领域,更具体地,涉及基于深度学习姿态估计的无人机交互装置与方法。
背景技术
无人机具有成本低廉、小巧便携等优点,在各领域具有广阔的应用前景,尤其是航拍拍摄领域。研究人和无人机之间的交互具有良好的应用价值。
传统的无人机交互方法,大多是人通过手机或者遥控装置控制无人机的飞行姿态与操作,以使得无人机上升、下降、移动以及拍摄。这类控制方式大多操作复杂,需要人时刻控制无人机的飞行姿态,在完成自拍等简单任务时需要兼顾无人机的飞行状态,非常不便。
人体姿态估计是新一代人机交互的一项关键技术。相对于传统的鼠标、键盘、遥控器等传统接触式的操作方式,人体姿态估计的交互方式使操作者摆脱遥控设备的束缚,具有直观、容易理解、操作简单等优点,更加符合人类日常习惯,已经成为人机交互领域的研究热点。随着无人机控制技术的发展,人机之间的交互越来越普遍,利用人体姿态来控制无人机可以更方便地操纵无人机。
人工神经网络最初由W.S.McCulloch和W.Pitts于1943年提出,历经70多年的发展,目前已成为人工智能领域的研究热点。人工神经网络由大量的节点相互联结组成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点之间的连接代表一个通过该连接信号的加权值,称为权重。网络的输出则按照网络的连接方式、激励函数、权重值的不同而不同。
深度学习的概念由Hinton等人于2006年提出,它将多个浅层的人工神经网络叠加在一起,将每一层学习得到的结果作为下一层的输入,并用自顶向下的监督算法调整所有层的权重。
卷积神经网络是第一个真正多层结构的有监督的深度学习算法。深度卷积神经网络具有准确率高、所需训练样本集较大的特点,目前已被广泛应用于包括人脸识别、手势识别、行人检测等各个计算机视觉方法,相比于传统方法能够取得较优的结果。
因此,需要一种无人机交互装置与方法,其利用卷积神经网络的深度学习算法来进行人体姿态估计,并使用人体姿态估计来进行人机交互,从而达到控制无人机的操作的目的。
发明内容
根据以上的讨论,本发明的目的在于提供一种无人机交互装置与方法,其能够利用卷积神经网络的深度学习算法来进行人体姿态估计,并使用人体姿态估计来进行人机交互,从而控制无人机的操作。
为实现上述目的,根据本发明的第一方面,提供一种基于深度学习姿态估计的无人机交互装置,包括:拍摄单元,用于拍摄对象视频;关键帧提取单元,用于从拍摄的对象视频中提取关于对象的关键帧图像;姿态估计单元,用于基于深度卷积神经网络的图像识别算法,针对所述关键帧图像,识别出对象姿态;以及无人机操作控制单元,用于将识别出的对象姿态转化为控制指令,从而控制无人机的操作。
优选地,本发明的无人机交互装置可以进一步包括:预处理单元,用于对所述关键帧提取单元提取的关键帧图像进行图像变换和滤波预处理,将预处理后的关键帧图像输入到所述姿态估计单元以识别出对象姿态。
优选地,所述的关键帧提取单元可以进一步被配置用于:使用基于深度卷积神经网络算法的对象检测器,从拍摄的对象视频中提取包括对象的关键帧图像。
优选地,以上所述的对象是人体。
优选地,所述的姿态估计单元可以进一步包括:人体关键点定位单元,用于使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息;以及姿态判断单元,用于将获取的人体关键点位置信息对应为人体姿态。
根据本发明的第二方面,提供一种基于深度学习姿态估计的无人机交互方法,包括如下步骤:拍摄对象视频;从拍摄的对象视频中提取关于对象的关键帧图像;基于深度卷积神经网络的图像识别算法,针对提取的关键帧图像,识别出对象姿态;以及将识别出的对象姿态转化为控制指令,从而控制无人机的操作。
优选地,本发明的无人机交互方法可以进一步包括:在从拍摄的对象视频中提取关于对象的关键帧图像之后,对提取的关键帧图像进行图像变换和滤波预处理,然后针对预处理后的关键帧图像,识别出对象姿态。
优选地,所述的从拍摄的对象视频中提取关于对象的关键帧图像可以进一步包括:使用基于深度卷积神经网络的对象检测算法,从拍摄的对象视频中提取包括对象的关键帧图像。
优选地,以上所述的对象是人体。
优选地,所述的基于深度卷积神经网络的图像识别算法,针对提取的关键帧图像,识别出对象姿态的步骤可以进一步包括:使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息;以及将获取的人体关键点位置信息对应为人体姿态。
本发明利用人体姿态估计来控制无人机,可以更方便地操纵无人机。而且,在关键帧提取和姿态估计中,通过使用深度卷积神经网络算法,可以获得更快速、更准确的结果。
附图说明
下面参考附图结合实施例说明本发明。在附图中:
图1是根据本发明的无人机交互装置的结构框图。
图2是根据本发明的无人机交互方法的流程图。
具体实施方式
附图仅用于示例说明,不能理解为对本专利的限制;下面结合附图和实施例对本发明的技术方案做进一步的说明。
图1是根据本发明的无人机交互装置的结构示意图。
如图1中所示,根据本发明的一种基于深度学习姿态估计的无人机交互装置10包括:拍摄单元11,用于拍摄对象视频;关键帧提取单元12,用于从拍摄的对象视频中提取关于对象的关键帧图像;姿态估计单元13,用于基于深度卷积神经网络的图像识别算法,针对所述关键帧图像,识别出对象姿态;以及无人机操作控制单元14,用于将识别出的对象姿态转化为控制指令,从而控制无人机的操作。
在根据本发明的实施例中,拍摄单元11是无人机的摄像头。无人机摄像头11负责提供连续、稳定、实时的视频信号。无人机摄像头11捕捉影像。影像通过镜头生成的光学图像投射到图像传感器表面上,转化为电信号,经过模数转换后转换成数字信号,再经过数字信号处理芯片处理,最终输出。
在根据本发明的实施例中,关键帧提取单元12负责首先检测输入视频中的对象信息,用矩形框选出视频中的对象,提取出其中的一张图像作为关键帧输出。关键帧提取单元12的核心是对象检测算法。使用基于深度卷积神经网络的对象检测算法可以快速有效地从输入视频中检测出对象。也就是说,关键帧提取单元12使用基于深度卷积神经网络算法的对象检测器,从无人机的摄像头11拍摄的对象视频中提取包括对象的关键帧图像。
尽管未示出,根据本发明的无人机交互装置还可以包括预处理单元,用于对所述关键帧提取单元12提取的关键帧图像进行图像变换和滤波预处理,将预处理后的关键帧图像输入到所述姿态估计单元13以识别出对象姿态。
在本发明的优选实施例中,预处理单元可以是关键帧提取单元12的一部分(即子模块或子单元);在其他的实施例中,预处理单元也可以是姿态估计单元13的一部分。本领域技术人员应该理解,预处理单元也可以独立于关键帧提取单元12和姿态估计单元13。
预处理单元负责对包含对象的图像(关键帧图像)做变换和滤波处理。由于无人机摄像头11拍摄到的图像可能出现噪声大、变形、模糊等情况,因此造成系统的不稳定。对无人机拍摄图像做预处理,可以有效地达到降噪、矫正形变、去除模糊等目的。
上文中提到的对象可以是人体、假体(例如人造的假人、稻草人或可以模仿人体的其他任何物体)、动物体或者能够利用姿态与无人机交互从而控制无人机操作的其他任何对象。
在根据本发明的优选实施例中,所述对象是人体。也就是说,关键帧提取单元12负责检测输入视频中的人体信息,用矩形框选出视频中的人,提取出其中的一张图像作为关键帧输出。关键帧提取单元12使用基于深度卷积神经网络的人体检测算法可以快速有效地从输入视频中检测出人。可选地,预处理单元负责对包含人的图像(关键帧图像,即行人图像)做变换和滤波处理。
在根据本发明的实施例中,姿态估计单元12进一步包括:人体关键点定位单元,其使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息;以及姿态判断单元,其将获取的人体关键点位置信息对应为人体姿态。
人体关键点定位单元使用深度神经网络算法负责首先从输入的行人图像中提取出人体骨骼关键点,人体骨骼关键点包括但不限于:人体头顶、颈部、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左脚踝、右脚踝等。人体关键点定位单元的输出为上述人体骨骼关键点在输入图像中的二维坐标。
姿态判断单元负责对上述人体骨骼关键点在输入图像中的二维坐标做判断,与预设的人体姿态做比较,对应至其中一种预设的人体姿态中。预设的人体姿态包括但不限于:右手向右挥动、左手向左挥动、双手向前平推、双手向后收回、无人机起飞指令人体姿态、无人机降落指令人体姿态、开始交互指令人体姿态、结束交互指令姿态、无人机拍摄指令人体姿态等。
本领域技术人员应该理解,人体姿态的具体数量和具体样式可以取决于无人机控制的需求。例如,当无人机控制较为复杂时,需要较多的人体姿态,进行不同的控制。另外,当人体姿态较为接近时,可能会引起判断失误,从而导致不同的控制结果,因此,人体姿态的具体样式应保证有一定区别,不至于混淆。
根据本发明的实施例,无人机操作控制单元14也可以被称为无人机飞行控制模块,负责将人体姿态估计单元13估计得到的人体姿态对应为无人机飞行控制指令,包括但不限于:向右飞行指令,向左飞行指令、前进指令、后退指令、起飞指令、降落指令、开始交互指令、结束交互指令、拍摄指令等。并且,为了控制过程中的安全性、实用性考虑,设置一对无人机开始交互和结束交互指令。
在图1中,尽管将无人机操作控制单元14示出为无人机的图形,但本领域技术人员应该理解,这里的无人机操作控制单元14可以是无人机的一个组成部件,也可以独立于无人机之外,通过无线信号对无人机进行控制。进一步,图1中的其他单元中,除了拍摄单元11一般应在无人机上携带,随着无人机的飞行而拍摄视频以外,关键帧提取单元12和姿态估计单元13既可以是无人机上的组件,也可以是独立于无人机之外,通过无线信号从无人机接收拍摄的视频,从而完成关键帧提取与姿态估计的功能。
图2是根据本发明的无人机交互方法的流程图。
如图2中所示,一种基于深度学习姿态估计的无人机交互方法20开始于步骤S1,即拍摄对象视频。具体地说,通过无人机摄像头拍摄人体视频(包含人体的视频)。
在步骤S2,从拍摄的对象视频中提取关于对象的关键帧图像。具体地说,每隔一定时间间隔,从人体视频中提取一张关键帧,并进行预处理。
在根据本发明的优选实施例中,步骤S2进一步包括:使用基于深度卷积神经网络的人体检测算法,从摄像头视频中检测提取出包含人体的图像关键帧。
在步骤S3,基于深度卷积神经网络的图像识别算法,针对提取的关键帧图像,识别出对象姿态。具体地说,将关键帧输入至人体姿态估计单元,使用基于深度卷积神经网络的图像识别算法识别出对应的人体姿态。
根据本发明的优选实施例,在步骤S2和步骤S3之间,可以进一步包括预处理的步骤。具体地说,在从拍摄的对象视频中提取关于对象的关键帧图像之后,对提取的关键帧图像进行图像变换和滤波预处理,然后针对预处理后的关键帧图像,识别出对象姿态。
这里所述的对象可以是人体。如上所述,对象也可以是假体或动物体等等。
预处理包括对提取出的人体图像进行降噪、矫正、去除运动模糊等处理。如上所述,对无人机拍摄的图像做预处理,可以有效地达到降噪、矫正形变、去除模糊等目的。
本领域技术人员应理解,尽管在以上的描述中,预处理步骤被描述为在步骤S2和步骤S3之间,但是,预处理步骤也可以被视为步骤S2或步骤S3的一个组成成分,即子步骤。例如,可以认为提取关键帧的步骤,即步骤S2,分为提取关键帧和对关键帧进行预处理的两个子步骤。
在本发明的优选实施例中,步骤S3中,将关键帧输入至人体姿态估计单元,使用基于深度卷积神经网络的图像识别算法识别出对应的人体姿态,具体方法为:使用深度卷积神经网络算法定位输入图像中的人体关键点位置信息,人体关键点包括但不限于:人体头顶、颈部、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左脚踝、右脚踝。然后,将得到的人体关键点位置信息对应为人体姿态,人体姿态包括但不限于:右手向右挥动、左手向左挥动、双手向前平推、双手向后收回等。
在步骤S4,将识别出的对象姿态转化为控制指令,从而控制无人机的操作。
在根据本发明的优选实施例中,在步骤S4中,右手向右挥动、左手向左挥动、双手向前平推、双手向后收回等人体姿态,分别对应无人机向右飞行,向左飞行,前进、后退。无人机控制指令包括但不限于:向右飞行指令,向左飞行指令、前进指令、后退指令、起飞指令、降落指令、开始交互指令、结束交互指令、拍摄指令等。
在根据本发明的优选实施例中,在步骤S4中,设置一对开始交互和结束交互的动作指令,开始交互指令表示开始动作,结束交互指令表示动作结束。
步骤S4结束之后,方法20可以结束。
特别地,对于本发明的优选实施例中的步骤S2中所使用的深度卷积神经网络算法,网络输入为视频帧,经网络自底向上依次计算各层输出,最终层输出为预测的视频帧中行人所在矩形框的坐标,其网络权重需要预先训练得到,训练方法T1包括:
T11、预先收集无人机摄像头拍摄的视频,作为候选的训练集;
T12、人工标注出训练集视频中人体所在矩形框坐标,作为训练的标注数据;
T13、网络前向传播,自底向上依次计算深度卷积神经网络各层的输出值,将最后一层的输出值同标注数据做比较,计算得到损失值;
T14、网络反向传播,基于各层权重和损失值自顶向下依次计算各层损失及梯度方向,根据梯度下降法更新网络权重;
T15、循环执行T13、T14直至网络收敛,最终所得网络权重即为S2中用于人体检测的深度卷积神经网络。
特别地,对于步骤S3中所使用的深度卷积神经网络算法,网络输入为包含人体的图像,经网络自底向上依次计算各层输出,最终层输出各个关键点的坐标预测值,其网络权重需要预先训练得到,训练方法T2包括:
T21、预先收集无人机拍摄的人体图片集,作为候选的训练集;
T22、人工标注出训练集图像中人体关键点所在的坐标,作为训练的标注数据;
T23、网络前向传播,自底向上依次计算深度卷积神经网络各层的输出值,将最后一层的输出值同标注数据做比较,计算得到损失值;
T24、网络反向传播,基于各层权重和损失值自顶向下依次计算各层损失及梯度方向,根据梯度下降法更新网络权重;
T25、循环执行T23、T24直至网络收敛,最终所得网络权重即为S3中用于人体关键点定位的深度卷积神经网络。
在以上的描述中,本发明提供了一种新颖的无人机交互装置与方法,其创新性的特征不仅包括权利要求中所述的技术特征,还包括以下这些内容:
1、基于深度学习。根据以上的描述,在本发明的技术方案中,在进行姿态估计时,利用了卷积神经网络进行深度学习,从而能够快速、准确地从大量数据中准确识别出人体姿态,从而与无人机进行交互。此外,在关键帧提取时,也可以利用卷及神经网络算法,从而快速提取、识别出含有人体的关键帧图像。
2、基于人体姿态估计。根据以上的描述,在本发明的技术方案中,通过判断出视频中行人的人体姿态,从而对应于不同的无人机操作指令。更具体地说,本发明所利用的人体姿态,是根据包括人体各关节在内的人体关键点的定位而定义的。也就是说,本发明中所述的人体姿态,既不是简单的手势,也不是简单的运动轨迹或运动方向,而是利用人体关键点的位置所呈现出的信号表达。
在实践中,对手势进行识别以及通过手势进行人机交互的问题在于,手势在无人机所拍摄的画幅中占比较小,既难以在视频中进行画面提取,也难以在提取的画面中进行精细识别,因此只能在特定场合应用;而且,手势的数量较少,具体样式易于混淆。而本发明的无人机交互技术中,人体画面易于在视频中提取,人体姿态也易于识别。特别是,由于人体姿态取决于人体关键点的位置,可以使得人体姿态的具体数目和具体样式能够根据实际需要而进行定义,应用范围更加广泛。
此外,对运动趋势和运动方向进行识别从而进行人机交互的问题在于,这样的人机交互所提供的信息太过于简单,仅仅是个运动趋势和方向,由此只能让无人机进行与运动方向有关的操作,例如跟踪。而本发明的无人机交互技术中,由于人体姿态取决于人体关键点的位置,可以使得人体姿态的具体数目和具体样式能够根据实际需要而进行定义,从而使得对无人机的控制更加全面与精细。
3、拍摄单元无需特殊摄像头。根据以上的描述,拍摄单元即摄像头的作用仅在于拍摄二维视频,后续的操作都基于这个二维视频即可。
有些体感游戏使用特殊图像采集设备,例如采用RGB-Depth的功能,从而不仅采集二维图像,而且感应图像的深度,从而在二维图像的基础上提供对象的深度信息,由此进行人体姿态识别与动作控制。还有些应用中需要用到双目摄像头,从而在二维图像的基础上,利用双目视差的原理,增加了视觉立体感的效果,也类似于增加了深度信息。然而,在本发明中,只需要识别人体的关键点位置信息,即这些关键点的二维坐标,而不需要深度信息或立体信息。因此,本发明可以使用常规的摄像头,无需对无人机的摄像头进行改造,直接利用无人机所拍摄的视频即可达到交互的目的。
4、无人机控制内容。根据以上的描述,基于人体姿态进行无人机交互控制,不仅能控制无人机的飞行,而且还能控制无人机进行飞行以外的其他操作。这些飞行以外的其他操作包括但不限于:拍摄、射击、抛投等等无人机能够完成的动作。而且,这样的操作可以与飞行操作相结合,都基于对人体姿态或人体姿态的组合的识别来进行操控。
因此,除了权利要求书中的独立权利要求和从属权利要求之外,本领域技术人员还应理解,本发明的优选实施方式可能包含下述的技术特征:
对象姿态取决于对象关键点的位置信息。更具体地,人体姿态取决于人体关键点的位置信息。优选地,人体关键点包括人身体上的多个关节。
拍摄单元是二维图像拍摄单元。即,其所拍摄的对象视频是二维视频。
无人机的操作包括无人机的飞行操作和/或非飞行操作。非飞行操作包括以下至少一种:拍摄、射击、抛投。
无人机操作控制单元可以将识别出的对象姿态的组合转化为控制指令,从而控制无人机的操作。例如,行人可以连续做出两个或两个以上的姿态,姿态估计单元识别出两个或两个以上的姿态,无人机操作控制单元将识别出两个或两个以上的姿态作为对象姿态组合而转化为相应的控制指令,从而控制无人机的操作。
上面已经描述了本发明的各种实施例和实施情形。但是,本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用,而这些应用都在本发明的范围之内。
也就是说,本发明的上述实施例仅仅是为清楚说明本发明所做的举例,而非对本发明实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、替换或改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于深度学习姿态估计的无人机交互装置,包括:
拍摄单元,用于拍摄对象视频;
关键帧提取单元,用于从拍摄的对象视频中提取关于对象的关键帧图像;
姿态估计单元,用于基于深度卷积神经网络的图像识别算法,针对所述关键帧图像,识别出对象姿态;以及
无人机操作控制单元,用于将识别出的对象姿态转化为控制指令,从而控制无人机的操作,
其中,所述对象是人体;
其中,所述的姿态估计单元进一步包括:
人体关键点定位单元,用于使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息;以及
姿态判断单元,用于将获取的人体关键点位置信息对应为人体姿态,
其中,所述姿态估计单元识别出两个或两个以上的对象姿态,所述无人机操作控制单元将识别出两个或两个以上的对象姿态作为对象姿态组合而转化为相应的控制指令,从而控制无人机的操作,以及
其中,所述无人机的操作包括无人机的飞行操作和非飞行操作。
2.根据权利要求1所述的无人机交互装置,进一步包括:
预处理单元,用于对所述关键帧提取单元提取的关键帧图像进行图像变换和滤波预处理,将预处理后的关键帧图像输入到所述姿态估计单元以识别出对象姿态。
3.根据权利要求1所述的无人机交互装置,其中,所述的关键帧提取单元进一步被配置用于:
使用基于深度卷积神经网络算法的对象检测器,从拍摄的对象视频中提取包括对象的关键帧图像。
4.一种基于深度学习姿态估计的无人机交互方法,包括如下步骤:
拍摄对象视频;
从拍摄的对象视频中提取关于对象的关键帧图像;
基于深度卷积神经网络的图像识别算法,针对提取的关键帧图像,识别出对象姿态;以及
将识别出的对象姿态转化为控制指令,从而控制无人机的操作,
其中,所述对象是人体;
其中,所述的基于深度卷积神经网络的图像识别算法,针对提取的关键帧图像,识别出对象姿态进一步包括:
使用深度卷积神经网络的图像识别算法获取关键帧图像中的人体关键点位置信息;以及
将获取的人体关键点位置信息对应为人体姿态,
其中,识别出两个或两个以上的对象姿态,将识别出两个或两个以上的对象姿态作为对象姿态组合而转化为相应的控制指令,从而控制无人机的操作,以及
其中,所述无人机的操作包括无人机的飞行操作和非飞行操作。
5.根据权利要求4所述的无人机交互方法,进一步包括:
在从拍摄的对象视频中提取关于对象的关键帧图像之后,对提取的关键帧图像进行图像变换和滤波预处理,然后针对预处理后的关键帧图像,识别出对象姿态。
6.根据权利要求4所述的无人机交互方法,其中,所述的从拍摄的对象视频中提取关于对象的关键帧图像进一步包括:
使用基于深度卷积神经网络的对象检测算法,从拍摄的对象视频中提取包括对象的关键帧图像。
CN201710005799.7A 2017-01-04 2017-01-04 基于深度学习姿态估计的无人机交互装置与方法 Active CN107239728B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710005799.7A CN107239728B (zh) 2017-01-04 2017-01-04 基于深度学习姿态估计的无人机交互装置与方法
US15/860,772 US20180186452A1 (en) 2017-01-04 2018-01-03 Unmanned Aerial Vehicle Interactive Apparatus and Method Based on Deep Learning Posture Estimation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710005799.7A CN107239728B (zh) 2017-01-04 2017-01-04 基于深度学习姿态估计的无人机交互装置与方法

Publications (2)

Publication Number Publication Date
CN107239728A CN107239728A (zh) 2017-10-10
CN107239728B true CN107239728B (zh) 2021-02-02

Family

ID=59983042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710005799.7A Active CN107239728B (zh) 2017-01-04 2017-01-04 基于深度学习姿态估计的无人机交互装置与方法

Country Status (2)

Country Link
US (1) US20180186452A1 (zh)
CN (1) CN107239728B (zh)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107749952B (zh) * 2017-11-09 2020-04-10 睿魔智能科技(东莞)有限公司 一种基于深度学习的智能无人摄影方法和系统
CN107944376A (zh) * 2017-11-20 2018-04-20 北京奇虎科技有限公司 视频数据实时姿态识别方法及装置、计算设备
CN107917700B (zh) * 2017-12-06 2020-06-09 天津大学 基于深度学习的小幅度目标三维姿态角测量方法
CN108062526B (zh) * 2017-12-15 2021-05-04 厦门美图之家科技有限公司 一种人体姿态估计方法及移动终端
CN107895161B (zh) * 2017-12-22 2020-12-11 北京奇虎科技有限公司 基于视频数据的实时姿态识别方法及装置、计算设备
CN108256433B (zh) * 2017-12-22 2020-12-25 银河水滴科技(北京)有限公司 一种运动姿态评估方法及系统
CN107993217B (zh) * 2017-12-22 2021-04-09 北京奇虎科技有限公司 视频数据实时处理方法及装置、计算设备
CN107945269A (zh) * 2017-12-26 2018-04-20 清华大学 基于多视点视频的复杂动态人体对象三维重建方法及系统
CN108053469A (zh) * 2017-12-26 2018-05-18 清华大学 多视角相机下的复杂动态场景人体三维重建方法及装置
CN108038469B (zh) * 2017-12-27 2019-10-25 百度在线网络技术(北京)有限公司 用于检测人体的方法和装置
CN110060296A (zh) * 2018-01-18 2019-07-26 北京三星通信技术研究有限公司 估计姿态的方法、电子设备和显示虚拟对象的方法及设备
CN108256504A (zh) * 2018-02-11 2018-07-06 苏州笛卡测试技术有限公司 一种基于深度学习的三维动态手势识别方法
CN110633004B (zh) * 2018-06-21 2023-05-26 杭州海康威视数字技术股份有限公司 基于人体姿态估计的交互方法、装置和系统
CN109299659A (zh) * 2018-08-21 2019-02-01 中国农业大学 一种基于rgb相机和深度学习的人体姿态识别方法与系统
CN109344700A (zh) * 2018-08-22 2019-02-15 浙江工商大学 一种基于深度神经网络的行人姿态属性识别方法
EP3845992A4 (en) * 2018-08-31 2022-04-20 SZ DJI Technology Co., Ltd. MOBILE PLATFORM CONTROL METHOD, MOBILE PLATFORM, TERMINAL DEVICE AND SYSTEM
CN109164821B (zh) * 2018-09-26 2019-05-07 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN111104816B (zh) * 2018-10-25 2023-11-03 杭州海康威视数字技术股份有限公司 一种目标物的姿态识别方法、装置及摄像机
CN109670397B (zh) 2018-11-07 2020-10-30 北京达佳互联信息技术有限公司 人体骨骼关键点的检测方法、装置、电子设备及存储介质
CN111291593B (zh) * 2018-12-06 2023-04-18 成都品果科技有限公司 一种检测人体姿态的方法
CN109712185B (zh) * 2018-12-07 2022-11-08 天津津航计算技术研究所 基于深度学习的直升机降落过程中位姿估计方法
CN111797791A (zh) * 2018-12-25 2020-10-20 上海智臻智能网络科技股份有限公司 人体姿态识别方法及装置
CN110070066B (zh) * 2019-04-30 2022-12-09 福州大学 一种基于姿态关键帧的视频行人重识别方法及系统
CN110119703B (zh) * 2019-05-07 2022-10-04 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110465937A (zh) * 2019-06-27 2019-11-19 平安科技(深圳)有限公司 同步方法、图像处理方法、人机交互方法及相关设备
CN110471526A (zh) * 2019-06-28 2019-11-19 广东工业大学 一种人体姿态估计与手势识别结合的无人机控制方法
CN110288553A (zh) * 2019-06-29 2019-09-27 北京字节跳动网络技术有限公司 图像美化方法、装置及电子设备
CN110287923B (zh) * 2019-06-29 2023-09-15 腾讯科技(深圳)有限公司 人体姿态获取方法、装置、计算机设备及存储介质
CN110532861B (zh) * 2019-07-18 2021-03-23 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN112396072B (zh) * 2019-08-14 2022-11-25 上海大学 基于asic与vgg16的图像分类加速方法及装置
US11948401B2 (en) 2019-08-17 2024-04-02 Nightingale.ai Corp. AI-based physical function assessment system
CN110555404A (zh) * 2019-08-29 2019-12-10 西北工业大学 基于人体姿态识别的飞翼无人机地面站交互装置及方法
CN110796058A (zh) * 2019-10-23 2020-02-14 深圳龙岗智能视听研究院 一种基于关键帧提取和层次性表述的视频行为识别方法
JP2021071794A (ja) * 2019-10-29 2021-05-06 キヤノン株式会社 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111199576B (zh) * 2019-12-25 2023-08-18 中国人民解放军军事科学院国防科技创新研究院 一种基于移动平台的室外大范围人体姿态重建方法
CN111176448A (zh) * 2019-12-26 2020-05-19 腾讯科技(深圳)有限公司 非触摸实现时间设置的方法、装置、电子设备及存储介质
CN111178308A (zh) * 2019-12-31 2020-05-19 北京奇艺世纪科技有限公司 一种手势轨迹的识别方法和装置
CN111259751B (zh) * 2020-01-10 2023-08-29 北京百度网讯科技有限公司 基于视频的人体行为识别方法、装置、设备及存储介质
CN111275760A (zh) * 2020-01-16 2020-06-12 上海工程技术大学 一种基于5g与深度图像信息的无人机目标跟踪系统及方法
US11095870B1 (en) * 2020-04-23 2021-08-17 Sony Corporation Calibration of cameras on unmanned aerial vehicles using human joints
CN111784731A (zh) * 2020-06-19 2020-10-16 哈尔滨工业大学 一种基于深度学习的目标姿态估计方法
CN111753801A (zh) * 2020-07-02 2020-10-09 上海万面智能科技有限公司 人体姿态跟踪与动画生成方法及装置
CN111985331A (zh) * 2020-07-20 2020-11-24 中电天奥有限公司 预防商业秘密被窃照的检测方法及装置
CN111738220B (zh) * 2020-07-27 2023-09-15 腾讯科技(深圳)有限公司 三维人体姿态估计方法、装置、设备及介质
CN112131965B (zh) * 2020-08-31 2023-10-13 深圳云天励飞技术股份有限公司 一种人体姿态估计方法、装置、电子设备及存储介质
CN112037282B (zh) * 2020-09-04 2021-06-15 北京航空航天大学 一种基于关键点以及骨架的飞机姿态估计方法及系统
US11514605B2 (en) * 2020-09-29 2022-11-29 International Business Machines Corporation Computer automated interactive activity recognition based on keypoint detection
CN112232205B (zh) * 2020-10-16 2022-05-27 中科智云科技有限公司 移动端cpu实时多功能人脸检测方法
CN112347861B (zh) * 2020-10-16 2023-12-05 浙江工商大学 一种基于运动特征约束的人体姿态估计方法
CN112241180B (zh) * 2020-10-22 2021-08-17 北京航空航天大学 一种无人机移动平台降落引导的视觉处理方法
CN112287463B (zh) * 2020-11-03 2022-02-11 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法
CN112597956B (zh) * 2020-12-30 2023-06-02 华侨大学 基于人体锚点集合与感知增强网络的多人姿态估计方法
CN112966546A (zh) * 2021-01-04 2021-06-15 航天时代飞鸿技术有限公司 一种基于无人机侦察图像的嵌入式姿态估计方法
CN112732083A (zh) * 2021-01-05 2021-04-30 西安交通大学 一种基于手势识别的无人机智能控制方法
CN113158766A (zh) * 2021-02-24 2021-07-23 北京科技大学 面向无人驾驶的基于姿态估计的行人行为识别方法
CN113158833B (zh) * 2021-03-31 2023-04-07 电子科技大学 一种基于人体姿态的无人车控制指挥方法
CN113194254A (zh) * 2021-04-28 2021-07-30 上海商汤智能科技有限公司 图像拍摄方法及装置、电子设备和存储介质
CN113705445B (zh) * 2021-08-27 2023-08-04 深圳龙岗智能视听研究院 一种基于事件相机的人体姿态识别的方法及设备
CN113706507B (zh) * 2021-08-27 2024-04-02 西安交通大学 基于人体姿态检测的实时跳绳计数方法、装置和设备
CN116030411B (zh) * 2022-12-28 2023-08-18 宁波星巡智能科技有限公司 基于姿态识别的人形隐私遮挡方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839040A (zh) * 2012-11-27 2014-06-04 株式会社理光 基于深度图像的手势识别方法和装置
CN104182742A (zh) * 2013-05-20 2014-12-03 比亚迪股份有限公司 头部姿态识别方法及系统
CN106227341A (zh) * 2016-07-20 2016-12-14 南京邮电大学 基于深度学习的无人机手势交互方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682302B (zh) * 2012-03-12 2014-03-26 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
CN105431708B (zh) * 2013-06-17 2019-06-21 索尼公司 图像处理装置、图像处理方法以及程序
JP6366730B2 (ja) * 2013-12-13 2018-08-01 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd 無人機を発射および着陸させるための方法
CN104063719B (zh) * 2014-06-27 2018-01-26 深圳市赛为智能股份有限公司 基于深度卷积网络的行人检测方法及装置
US9459620B1 (en) * 2014-09-29 2016-10-04 Amazon Technologies, Inc. Human interaction with unmanned aerial vehicles
CN104504362A (zh) * 2014-11-19 2015-04-08 南京艾柯勒斯网络科技有限公司 基于卷积神经网络的人脸检测方法
CN104898524B (zh) * 2015-06-12 2018-01-09 江苏数字鹰科技发展有限公司 基于手势的无人机遥控系统
DE102015122183B4 (de) * 2015-12-18 2018-12-06 Antony Pfoertzsch Vorrichtung und Verfahren für ein unbemanntes Flugobjekt
CN105468781A (zh) * 2015-12-21 2016-04-06 小米科技有限责任公司 视频查询方法和装置
US10040551B2 (en) * 2015-12-22 2018-08-07 International Business Machines Corporation Drone delivery of coffee based on a cognitive state of an individual
CN105718879A (zh) * 2016-01-19 2016-06-29 华南理工大学 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法
CN105676860A (zh) * 2016-03-17 2016-06-15 歌尔声学股份有限公司 一种可穿戴设备、无人机控制装置和控制实现方法
CN109416536B (zh) * 2016-07-04 2022-03-22 深圳市大疆创新科技有限公司 用于自动跟踪和导航的系统和方法
EP3494449A4 (en) * 2016-08-05 2020-03-11 SZ DJI Technology Co., Ltd. METHODS AND RELATED SYSTEMS FOR COMMUNICATING WITH / CONTROLLING MOVABLE DEVICES BY GESTING
CN106094857A (zh) * 2016-08-22 2016-11-09 京东方科技集团股份有限公司 无人机、穿戴设备及无人机的飞行控制方法、装置
CN109923583A (zh) * 2017-07-07 2019-06-21 深圳市大疆创新科技有限公司 一种姿态的识别方法、设备及可移动平台
US10625854B2 (en) * 2017-08-10 2020-04-21 Wesley John Boudville Drone interacting with a stranger having a cellphone
US10713935B2 (en) * 2018-02-23 2020-07-14 Nokia Technologies Oy Control service for controlling devices with body-action input devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839040A (zh) * 2012-11-27 2014-06-04 株式会社理光 基于深度图像的手势识别方法和装置
CN104182742A (zh) * 2013-05-20 2014-12-03 比亚迪股份有限公司 头部姿态识别方法及系统
CN106227341A (zh) * 2016-07-20 2016-12-14 南京邮电大学 基于深度学习的无人机手势交互方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于单目视频序列的人体运动分析";张博宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第S2期);第I138-1370页 *

Also Published As

Publication number Publication date
CN107239728A (zh) 2017-10-10
US20180186452A1 (en) 2018-07-05

Similar Documents

Publication Publication Date Title
CN107239728B (zh) 基于深度学习姿态估计的无人机交互装置与方法
US11430263B2 (en) Machine vision with dimensional data reduction
CN108986801B (zh) 一种人机交互方法、装置及人机交互终端
CN111598951B (zh) 一种识别空间目标的方法、装置和存储介质
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
EP3966733A1 (en) Systems and methods for real-time adjustment of neural networks for autonomous tracking and localization of moving subject
CN108885469B (zh) 用于在跟踪系统中初始化目标物体的系统和方法
US20180001480A1 (en) Robot control using gestures
CN107894836B (zh) 基于手势和语音识别的遥感图像处理与展示的人机交互方法
CN107741781A (zh) 无人机的飞行控制方法、装置、无人机及存储介质
CN105159452B (zh) 一种基于人脸姿态估计的控制方法与系统
CN110574040A (zh) 自动抓拍方法及装置、无人机及存储介质
CN110807391A (zh) 基于视觉的人-无人机交互用人体姿态指令识别方法
CN110555404A (zh) 基于人体姿态识别的飞翼无人机地面站交互装置及方法
CN108492321B (zh) 一种多模态目标跟踪方法及装置
Patrona et al. An overview of hand gesture languages for autonomous UAV handling
WO2021203368A1 (zh) 图像处理方法、装置、电子设备和存储介质
Valle et al. Recognition of human walking/running actions based on neural network
Macesanu et al. A time-delay control approach for a stereo vision based human-machine interaction system
CN112183155B (zh) 动作姿态库建立、动作姿态生成、识别方法及装置
CN113894779A (zh) 一种应用于机器人交互的多模态数据处理方法
JP2022095332A (ja) 学習モデル生成方法、コンピュータプログラム及び情報処理装置
Mesbahi et al. Hand Gesture Recognition Based on Various Deep Learning YOLO Models
Alba-Flores UAVs control using 3D hand keypoint gestures
Arora et al. A Compendium of Autonomous Navigation Using Object Detection and Tracking in Unmanned Aerial Vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180119

Address after: 100083 Beijing city Haidian District Wangzhuang Road No. 1 Building No. 4 hospital 8 floor No. 807

Applicant after: Beijing insight Technology Co., Ltd.

Address before: 100083 Beijing city Haidian District Tongfang Technology Plaza, D block, 1701

Applicant before: Beijing deep Intelligent Technology Co., Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180604

Address after: 100083, 17 floor, 4 Building 4, 1 Wang Zhuang Road, Haidian District, Beijing.

Applicant after: Beijing deep Intelligent Technology Co., Ltd.

Address before: 100083, 8 floor, 4 Building 4, 1 Wang Zhuang Road, Haidian District, Beijing.

Applicant before: Beijing insight Technology Co., Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200903

Address after: Unit 01-19, 10 / F, 101, 6 / F, building 5, yard 5, Anding Road, Chaoyang District, Beijing 100029

Applicant after: Xilinx Electronic Technology (Beijing) Co., Ltd

Address before: 100083, 17 floor, 4 Building 4, 1 Wang Zhuang Road, Haidian District, Beijing.

Applicant before: BEIJING DEEPHI TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant