CN107862383A - 一种用于人体视觉感知的多任务深度学习方法和系统 - Google Patents

一种用于人体视觉感知的多任务深度学习方法和系统 Download PDF

Info

Publication number
CN107862383A
CN107862383A CN201711098903.8A CN201711098903A CN107862383A CN 107862383 A CN107862383 A CN 107862383A CN 201711098903 A CN201711098903 A CN 201711098903A CN 107862383 A CN107862383 A CN 107862383A
Authority
CN
China
Prior art keywords
submodule
foundation characteristic
human visual
mutual
extracting module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711098903.8A
Other languages
English (en)
Other versions
CN107862383B (zh
Inventor
张明
王禹
黄龙
董健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RUIMO INTELLIGENT TECHNOLOGY (SHENZHEN) Co.,Ltd.
Original Assignee
Hangzhou Ling Fan Science And Technology Co Ltd
Rui Magic Intelligent Technology (dongguan) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ling Fan Science And Technology Co Ltd, Rui Magic Intelligent Technology (dongguan) Co Ltd filed Critical Hangzhou Ling Fan Science And Technology Co Ltd
Priority to CN201711098903.8A priority Critical patent/CN107862383B/zh
Publication of CN107862383A publication Critical patent/CN107862383A/zh
Application granted granted Critical
Publication of CN107862383B publication Critical patent/CN107862383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Rehabilitation Tools (AREA)

Abstract

一种用于人体视觉感知的多任务深度学习方法和系统,该方法基于人体视觉感知系统,人体视觉感知系统包括若干个不同功能的子模块,包括以下步骤:开启摄像机对目标对象进行拍摄,获取摄像机当前拍摄帧序列;通过基础特征提取模块用的深度神经网络提取目标对象的基础特征,将当前拍摄帧序列作为各个子模块的统一的输入,从而将当前拍摄帧序列输入到共用基础特征提取模块;序列化训练,利用共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练;控制各个子模块相互协合工作,使子模块获取到的信息在不同子模块之间相互传送;控制各个子模块的工作时间。本发明提升了整个系统的运行效果。

Description

一种用于人体视觉感知的多任务深度学习方法和系统
技术领域
本发明涉及一种用于人体视觉感知的多任务深度学习方法和系统。
背景技术
在面向无人摄像的人体视觉感知系统中,需要进行多个任务的分析处理,比如人体的位置、姿态、动作等等要素,将这些综合起来考虑才能决定下一步的拍摄内容。目前的视觉感知系统,往往是各个功能模块单独发挥作用,难以进行整合调节且消耗计算资源非常巨大,因此,在无人拍摄时,难以自动拍摄得到较佳的拍摄画面。
发明内容
本发明要解决的技术问题是提供一种用于人体视觉感知的多任务深度学习方法和系统,节省系统训练以及运行的时间和存储空间,通过多任务融合的思路来让几个子模块相互配合、协作从而提升各个子模块的工作能力,提升整个系统的运行效果。
为了解决上述技术问题,本发明采取以下技术方案:
一种用于人体视觉感知的多任务深度学习方法,该方法基于人体视觉感知系统,人体视觉感知系统包括若干个不同功能的子模块,包括以下步骤:
开启摄像机对目标对象进行拍摄,获取摄像机当前拍摄帧序列;
设置共用基础特征提取模块,通过基础特征提取模块用的深度神经网络提取目标对象的基础特征,将当前拍摄帧序列输入到共用基础特征提取模块,然后作为各个子模块的统一的输入;
序列化训练,利用共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练,根据子模块的功能更新或者不更新该共用基础特征提取模块的深度神经网络参数;
控制各个子模块相互协合工作,使子模块获取到的信息在不同子模块之间相互传送;
控制各个子模块的工作时间。
所述共用基础特征提取模块在深度神经网络不同阶段输出多种不同的基础特征,各个子模块接收共用基础特征提取模块输出的基础特征。
所述各个子模块接收共用基础特征提取模块输出的部分基础特征。
所述序列化训练时,将各个子模块编排好顺序,利用迁移学习的方法,按照编排好的顺序通过共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练。
所述功能不同的子模块的工作时间不相同。
一种用于人体视觉感知的多任务深度学习系统,该系统基于人体视觉感知系统,人体视觉感知系统包括若干个不同功能的子模块,所述系统包括:获取单元,用于获取当前拍摄帧序列;序列化训练单元,用于将共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练,更新或更新共用基础特征提取模块用的深度神经网络参数;协作融合单元,用于控制各个子模块之间相互协作以及多任务融合工作;时间控制单元,用于控制各个子模块的具体工作时间。
本发明具有以下有益效果:
1、通过特征共用,节省了大量的运行时间和存储空间。
2、使用序列化训练各个子模块,与各个子模块单独训练相比,提高了各模块的鲁棒性和精确度。
3、多任务融合,相互协作,可以提升子模块的工作能力和效率,同时提升整个系统的整体效果,具备更鲁棒可靠的感知能力。
附图说明
附图1为本发明实施例一的流程示意图。
具体实施方式
为能进一步了解本发明的特征、技术手段以及所达到的具体目的、功能,下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明揭示了一种用于人体视觉感知的多任务深度学习方法,该方法基于人体视觉感知系统,人体视觉感知系统包括若干个不同功能的子模块,每个子模块对应具有一个对应功能的深度神经网络,该方法包括以下步骤:
开启摄像机对目标对象进行拍摄,获取摄像机当前拍摄帧序列。
设置共用基础特征提取模块,通过基础特征提取模块用的深度神经网络提取目标对象的基础特征,将当前拍摄帧序列输入到共用基础特征提取模块,然后作为各个子模块的统一的输入,使得各个功能不同的子模块都具有一个相同的输入,采用特征共用的方法,将这些子模块中的基础特征提取部分分离出来,由统一的共用基础特征提取模块代替,从而节省数倍的时间和存储空间。
序列化训练,利用共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练,根据子模块的功能更新或者不更新该共用基础特征提取模块的深度神经网络参数。将各个子模块编排好顺序,利用迁移学习的方法,按照编排好的顺序通过共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练。根据预设要求,对部分子模块联合训练好进行参数更新,对于不需要的子模块,则在联合训练后不用更新参数。
控制各个子模块相互协合工作,使子模块获取到的信息在不同子模块之间相互传送,使得不同的子模块之间相互协同工作,实现多任务融合,获取更加准确的结果,提升各个子模块的工作能力,提升整个系统的运行效果。
控制各个子模块的工作时间。使不同的子模块在不同的时间工作,充分发挥不同功能的子模块适时工作。
另外,所述共用基础特征提取模块在深度神经网络不同阶段输出多种不同的基础特征,各个子模块接收共用基础特征提取模块输出的某几种基础特征的组合。
一种用于人体视觉感知的多任务深度学习系统,该系统基于人体视觉感知系统,人体视觉感知系统包括若干个不同功能的子模块,所述系统包括:获取单元,用于获取当前拍摄帧序列;序列化训练单元,用于将共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练,更新或不更新共用基础特征提取模块用的深度神经网络参数;协作融合单元,用于控制各个子模块之间相互协作多任务融合工作;时间控制单元,用于控制各个子模块的具体工作时间。
下面以具体的实施例进行说明。
如附图1所示,人体视觉感知系统包括人体检测模块、人体跟踪模块、姿态估计模块共三个子模块,目标对象为人。姿态估计模块用于检测人的局部信息,人体检测模块和人体跟踪模块是整个人的信息。
按照姿态估计模块、人体检测模块和人体跟踪模块的前后顺序对该三个子模块进行联合训练,将共用基础特征提取模块的深度神经网络对姿态估计模块进行联合训练,更新该共用基础特征提取模块的深度神经网络参数。然后将共用基础特征提取模块的深度神经网络与人体检测模块联合进行训练,更新该共用基础特征提取模块的深度神经网络参数。最后将共用基础特征提取模块的深度神经网络与人体跟踪模块联合进行训练,考虑到人体跟踪模块跟踪的是整个人,它所需要的信息和人体检测模块基本一致,故此时不更新共用基础特征提取模块的深度神经网络参数。
对于各个子模块之间的相互协合工作,人体跟踪模块速度快,结果较平滑,且不会出现丢帧情况,但在复杂场景中,容易跟踪失败。相比而言,人体检测模块精度较高,却容易丢帧。因此在人体跟踪模块工作的过程中,人体检测模块会每隔一定视频帧对当前图像帧进行检测,找到视频中的人体位置,辅助人体跟踪模块的工作,或帮助人体跟踪模块从失败中恢复,从而继续跟踪。另外,姿态估计模块获取了人体更多的监督信息,可以辅助人体检测和人体跟踪模块获得更准确的结果。
另外,对于各个子模块的工作时间,人体跟踪模块对每一帧图像都会进行分析处理,而人体检测和姿态估计模块一般都是间隔一定帧数才分析一次(如每隔K帧),具体间隔帧数,可根据实际情况进行灵活选择。
需要说明的是,以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但是凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种用于人体视觉感知的多任务深度学习方法,该方法基于人体视觉感知系统,人体视觉感知系统包括若干个不同功能的子模块,包括以下步骤:
开启摄像机对目标对象进行拍摄,获取摄像机当前拍摄帧序列;
设置共用基础特征提取模块,通过基础特征提取模块用的深度神经网络提取目标对象的基础特征,将当前拍摄帧序列输入到共用基础特征提取模块,然后作为各个子模块的统一的输入;
序列化训练,利用共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练,根据子模块的功能更新或者不更新该共用基础特征提取模块的深度神经网络参数;
控制各个子模块相互协合工作,使子模块获取到的信息在不同子模块之间相互传送;
控制各个子模块的工作时间。
2.根据权利要求1所述的用于人体视觉感知的多任务深度学习方法,其特征在于,所述共用基础特征提取模块在深度神经网络不同阶段输出多种不同的基础特征,各个子模块接收共用基础特征提取模块输出的基础特征。
3.根据权利要求2所述的用于人体视觉感知的多任务深度学习方法,其特征在于,所述各个子模块接收共用基础特征提取模块输出的部分基础特征。
4.根据权利要求3所述的用于人体视觉感知的多任务深度学习方法,其特征在于,所述序列化训练时,将各个子模块编排好顺序,利用迁移学习的方法,按照编排好的顺序通过共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练。
5.根据权利要求4所述的用于人体视觉感知的多任务深度学习方法,其特征在于,所述功能不同的子模块的工作时间不相同。
6.一种用于人体视觉感知的多任务深度学习系统,该系统基于人体视觉感知系统,人体视觉感知系统包括若干个不同功能的子模块,其特征在于,所述系统包括:
获取单元,用于获取当前拍摄帧序列;
序列化训练单元,用于将共用基础特征提取模块用的深度神经网络分别与各个子模块联合训练,更新或不更新共用基础特征提取模块用的深度神经网络参数;
协作融合单元,用于控制各个子模块之间相互协作以及多任务融合工作;
时间控制单元,用于控制各个子模块的具体工作时间。
CN201711098903.8A 2017-11-09 2017-11-09 一种用于人体视觉感知的多任务深度学习方法和系统 Active CN107862383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711098903.8A CN107862383B (zh) 2017-11-09 2017-11-09 一种用于人体视觉感知的多任务深度学习方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711098903.8A CN107862383B (zh) 2017-11-09 2017-11-09 一种用于人体视觉感知的多任务深度学习方法和系统

Publications (2)

Publication Number Publication Date
CN107862383A true CN107862383A (zh) 2018-03-30
CN107862383B CN107862383B (zh) 2021-09-17

Family

ID=61701501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711098903.8A Active CN107862383B (zh) 2017-11-09 2017-11-09 一种用于人体视觉感知的多任务深度学习方法和系统

Country Status (1)

Country Link
CN (1) CN107862383B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887516A (zh) * 2021-10-29 2022-01-04 北京邮电大学 用于人体动作识别的特征提取系统和方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976400A (zh) * 2016-05-10 2016-09-28 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
CN106599837A (zh) * 2016-12-13 2017-04-26 北京智慧眼科技股份有限公司 基于多图像输入的人脸识别方法及装置
CN106778583A (zh) * 2016-12-07 2017-05-31 北京理工大学 基于卷积神经网络的车辆属性识别方法与装置
CN106815566A (zh) * 2016-12-29 2017-06-09 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN107045618A (zh) * 2016-02-05 2017-08-15 北京陌上花科技有限公司 一种人脸表情识别方法及装置
US20170236057A1 (en) * 2016-02-16 2017-08-17 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and Method for Face Detection and Landmark Localization
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法
CN107274451A (zh) * 2017-05-17 2017-10-20 北京工业大学 基于共享卷积神经网络的绝缘子检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045618A (zh) * 2016-02-05 2017-08-15 北京陌上花科技有限公司 一种人脸表情识别方法及装置
US20170236057A1 (en) * 2016-02-16 2017-08-17 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and Method for Face Detection and Landmark Localization
CN105976400A (zh) * 2016-05-10 2016-09-28 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
CN106778583A (zh) * 2016-12-07 2017-05-31 北京理工大学 基于卷积神经网络的车辆属性识别方法与装置
CN106599837A (zh) * 2016-12-13 2017-04-26 北京智慧眼科技股份有限公司 基于多图像输入的人脸识别方法及装置
CN106815566A (zh) * 2016-12-29 2017-06-09 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法
CN107274451A (zh) * 2017-05-17 2017-10-20 北京工业大学 基于共享卷积神经网络的绝缘子检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIZHANG XIA等: "Face occlusion detection based on multi-task convolution neural network", 《2015 12TH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (FSKD)》 *
李鑫等: "基于深度信念网络和多任务学习的人脸识别", 《电脑知识与技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887516A (zh) * 2021-10-29 2022-01-04 北京邮电大学 用于人体动作识别的特征提取系统和方法
CN113887516B (zh) * 2021-10-29 2024-05-24 北京邮电大学 用于人体动作识别的特征提取系统和方法

Also Published As

Publication number Publication date
CN107862383B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN112906604B (zh) 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统
EP3540637B1 (en) Neural network model training method, device and storage medium for image processing
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN105760835A (zh) 一种基于深度学习的步态分割与步态识别一体化方法
CN107545302B (zh) 一种人眼左右眼图像联合的视线方向计算方法
CN107179683A (zh) 一种基于神经网络的交互机器人智能运动检测与控制方法
WO2020108834A9 (en) System and method for human gait analysis
US20220262036A1 (en) Computer-implemented method, data processing apparatus, and computer program for generating three-dimensional pose-estimation data
JP6127219B2 (ja) 顔画像のデータから顔特徴を抽出する方法、およびシステム
CN108803874A (zh) 一种基于机器视觉的人机行为交互方法
CN104083258A (zh) 一种基于脑机接口与自动驾驶技术的智能轮椅控制方法
KR102051946B1 (ko) 스마트 웨어 제어 장치 및 그 방법
CN105373810B (zh) 一种用于建立动作识别模型的方法及系统
CN117115045B (zh) 基于互联网生成式人工智能提升医学影像数据质量的方法
CN107242876B (zh) 一种用于精神状态的计算机视觉方法
CN112648994B (zh) 基于深度视觉里程计和imu的相机位姿估计方法及装置
CN103413285A (zh) 基于样本预测的hdr和hr图像重建方法
CN106447042B (zh) 基于绘画投射的心理分析方法及装置
EP3970110A1 (en) Method and system for training generative adversarial networks with heterogeneous data
CN103959767A (zh) 检测时间同步失配的视频处理装置及方法
CN109062811B (zh) 一种基于神经风格迁移的测试用例生成方法
CN107862383A (zh) 一种用于人体视觉感知的多任务深度学习方法和系统
CN109583334A (zh) 一种基于时空关联神经网络的动作识别方法及其系统
CN106162147A (zh) 基于双目Kinect深度相机系统的深度恢复方法
CN109859306A (zh) 一种基于机器学习的从照片中提取人体模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210824

Address after: 518057 220, building 6, Qianhai Shenzhen Hong Kong youth dream workshop, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen City, Guangdong Province

Applicant after: RUIMO INTELLIGENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Room 408, area a, 4 / F, unit 1, building 17, XinZhuYuan, No.4, Xinzhu Road, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province, 523000

Applicant before: Remo Intelligent Technology (Dongguan) Co.,Ltd.

Applicant before: HANGZHOU LINGFAN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant