CN108846343B - 基于三维视频的多任务协同分析方法 - Google Patents
基于三维视频的多任务协同分析方法 Download PDFInfo
- Publication number
- CN108846343B CN108846343B CN201810570322.8A CN201810570322A CN108846343B CN 108846343 B CN108846343 B CN 108846343B CN 201810570322 A CN201810570322 A CN 201810570322A CN 108846343 B CN108846343 B CN 108846343B
- Authority
- CN
- China
- Prior art keywords
- task
- dimensional video
- collaborative
- visual
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Abstract
本发明提供了一种基于三维视频的多任务协同分析方法。该方法包括:采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述;采用仿生物视觉感知的层次化方法建立与视觉任务相关的动态协同特征学习模型;根据所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型,输出并展示所述三维视频数据的多视觉任务协同学习结果。本发明的方法能够有效地反映三维视频中纹理、形状、运动信息的不变性,提出一种与视觉任务相关的高数据利用率、低资源消耗率的动态协同特征学习机制,实现基于通用特征的多视觉任务协同特征学习。
Description
技术领域
本发明涉及三维数据处理技术领域,尤其涉及一种基于三维视频的多任务协同分析方法。
背景技术
三维数据的出现为研究并解决复杂场景下多任务的视频监控问题提供了一种有效的数据支持,但是面对大容量数据的高效能、多任务并发的处理需求,迫切需要为三维数据提供快速通用的网格尺度不变性特征,针对视频中的运动信息建立高效能、智能化的协同分析模型,成为解决此问题的有效途径。
所谓视觉协同分析是指通过分析生物视觉感知的生理结构,提取视觉信息中具有通用性的特征,结合层次分析原理进行特征学习,实现视觉问题相互协调共生的协同处理机制,快速得到场景中不同视觉任务的鲁棒处理结果。当前主流的视觉信息研究多为与特定任务相关、针对特定目标、使用特定方法解决特定视觉问题的单视觉任务,如人脸识别、表情分析、行为理解、目标跟踪等单一的视觉问题。而随着智慧家居、智能监控、医疗护理等领域的发展,迫切需要使视觉信息分析系统可以在持续时间内同时完成场景辨识、身份认证、情感分析和行为理解等高层次视觉分析任务,即实现多视觉任务的协同分析。
主流的二维视频数据因缺少场景中的三维形状和视差距离信息,使得在实际的视觉协同分析中受到以下几个方面的制约,影响性能:
光照变化:非实验室环境的光照变化造成二维视频数据差异很大;
姿态变化:因缺少形状和距离信息,姿态变化易造成自遮挡影响目标分割;
复杂场景:场景中存在的遮挡、动态背景、和颜色相近目标都会影响特征的有效性;
精细运动:包括手势和面部肌肉运动等,对包括表情分析、行为理解等高层视觉信息分析具有至关重要的作用,而三维数据到二维平面的投影会造成表面形状信息的大幅度丢失,影响分析结果。
二维视频分析算法的局限性促使更多的研究人员相信,通过多模态技术的发展,可以有效地提高视觉分析算法的性能。三维视频可以直接利用三维几何和深度距离信息,具有独立于光照和物体表面的光反射特性,不受光照及物体光滑表面纹理影响。因此,从三维视频中更易求得复杂场景下运动目标的几何信息,克服传统二维视频信息处理的瓶颈,在诸如人脸识别、表情分析、行为理解等多种视觉任务,均表现出显著的性能优势,为视觉协同分析问题的解决提供了有效的数据支持。
另一方面,随着视觉信息处理网络化、智能化、普适化时代的到来,迫切需要克服原有的单视觉任务处理模式,实现主动、智能、有选择性地多视觉任务协同分析,而海量三维视频中存在大量冗余信息,会显著地增加运算复杂度,降低运算效率。
要实现高效能的多视觉任务协同处理,要面对以下新的问题:
(1)如何能够找到一种快速通用的特征描述方法,能够有效地提取数据中的辨识性信息(包括三维几何、颜色、纹理、运动等),最大程度地降低数据冗余;
(2)如何将复杂场景中的多视觉任务与通用特征描述方法建立关联关系,实现其对多视觉任务的协同学习。
因此,面向三维视频的通用不变性特征描述和协同学习成为当前实现多视觉任务协同分析中一个亟待解决的问题。
发明内容
本发明的实施例提供了一种基于三维视频的多任务协同分析方法,以克服现有技术的缺点。
为了实现上述目的,本发明采取了如下技术方案。
一种基于三维视频的多任务协同分析方法,包括:
采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述;
采用仿生物视觉感知的层次化方法建立与视觉任务相关的动态协同特征学习模型;
根据所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型,输出并展示所述三维视频数据的多视觉任务协同学习结果。
进一步地,所述的采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述,包括:
进行基于层并行的高斯金字塔和积分图像的快速尺度空间极值检测,针对三维视频数据的特点和多视觉任务系统分析的需求,将层并行高斯金字塔和积分图像的概念引入网格域,在相邻网格帧的高斯金字塔层对间计算光流,提取三维视频数据中的时序运动信息,压缩三维视频数据中的冗余或无关信息,保留三维视频数据中的纹理、几何和运动的辨别性。
进一步地,所述的采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述,还包括:
采用阈值法定位网格化尺度空间数据中的关键点:
thresholdnew=(2precision of DoG-1)*coefbright∩(-2precision of DoG+1)*coefdepth
对所述关键点进行方向确定,每个关键点的方向由关键点到三维网格帧表面的法向量所建立的姿态无关的参考帧决定,对以关键点为圆心的邻帧关键点进行直方图统计,拟合出关键点方向。
进一步地,所述的采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述,还包括:
针对三维网格序列的数据特点,引入三个正交平面xy,yz,xz,将检测到的关键点分别投影到xy,yz,xz三个正交平面,考虑数据在每个正交平面上的特征描述,通过串联三个正交平面上的关键点特征描述,获得具备尺度、旋转、平移不变性的三维视频数据的通用视觉信息描述方法,表征三维视频数据的时序运动、空间几何和光照纹理的特征。
进一步地,所述的采用仿生物视觉感知的层次化方法建立与视觉任务相关的动态协同特征学习模型,包括:
构建与任务相关的协同视觉模式感知,将协同视觉感知中的模式与通用低层视觉特征描述相对应,计算低层视觉特征在任务影响下相互间产生的偏置,由偏置值和低层视觉特征生成任务相关的视觉感知区域,实现感知区域提取。
进一步地,所述的采用仿生物视觉感知的层次化方法建立与视觉任务相关的动态协同特征学习模型,还包括:
学习出特定视觉任务超类的特征描述,实现一种非监督的特征学习,建立分层学习结构,实现任务相关的视觉特征协同学习,将网格化移动尺度不变性特征作为框架的低层特征,视觉任务主题作为隐含层超类特征,层次化任务模型用于协同学习上层先验知识,实现超类的层次化协同特征学习;
以上模型通过引入辅助变量和辅助函数方法求解。
进一步地,所述的根据所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型,输出并展示所述三维视频数据的多视觉任务协同学习结果,包括:
将所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型两部分结果进行整合,利用面向对象的程序设计方法搭建基于多视觉任务协同分析模型的智能演示系统,通过所述智能演示系统输出并展示所述三维视频数据的多视觉任务协同学习结果,将所述智能演示系统作为后续研究的测试平台且具备功能扩展能力。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提出了一种通用鲁棒的高效网格化移动尺度不变性特征描述方法,能够有效地反映三维视频中纹理、形状、运动信息的不变性,提出一种与视觉任务相关的高数据利用率、低资源消耗率的动态协同特征学习机制,实现基于通用特征的多视觉任务协同特征学习。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于三维视频的多视觉任务协同分析方法的处理流程图;
图2为本发明实施例提供的一种基于三维视频数据的网格化快速移动尺度不变性特征描述计算流程示意图;
图3为本发明实施例提供的一种多视觉任务超类的层次化协同学习示意图;
图4为本发明实施例提供的一种基于多视觉任务协同分析模型的智能演示系统的处理流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例针对三维视频中面向多视觉任务的网格化移动尺度不变性特征描述,在多尺度空间计算的基础上,提出网格域的多尺度空间快速计算方法,实现具有时空不变性的特征提取,通过正交平面的共生统计特性实现特征描述,减少数据冗余;面向复杂场景下多视觉任务的协同视觉特征学习模型模块,利用视觉感知分层机制实现通用特征描述和视觉任务的动态自适应学习,克服已有方法中需要人工选择视觉任务的困难;基于视觉协同分析模型的智能视频监控模块,包括三维数据采集、通用特征描述方法的高效性和鲁棒性分析,多视觉任务协同特征学习模型与复杂环境的交互性,及智能化控制服务信息的推送能力,搭建基于三维视频的多任务协同分析系统。
本发明实施例重点研究在三维海量数据背景下具备不变性的通用特征描述方法,以及通用特征描述下对多视觉任务的协同学习,引入网格多尺度空间计算及基于生物视觉感知的层次化学习等前沿理论,提高视觉协同分析的通用特征描述能力与学习效率。针对三维视频数据量大的特点,首先提出一种高效的网格化尺度不变特征描述方法,在进行数据压缩的同时,有效地保留数据中的纹理、几何和运动信息。针对多视觉任务的协同分析问题,需要结合复杂场景的动态变化学习出满足不同视觉任务需求的特征模型。参考人的分层视觉处理系统,考虑在生物感知分层机制上引入多层网络结构学习算法,提出任务相关的协同视觉模式感知和层次化特征学习方法。通过搭建基于多视觉任务协同分析模型的智能演示系统来验证理论方法的有效性,同时不断改进和提升新方法的性能。我们的系统相比现有的多视觉任务协同分析方法具有更好的有效性和高效性,在处理未来智慧城市的多视觉任务通用特征描述理论及协同特征学习上效果尤其好。
图1为本发明实施例提出的一种基于三维视频的多视觉任务协同分析方法的处理流程示意图,包括如下的处理步骤:
步骤S110、对三维视频中面向多视觉任务的网格化移动尺度不变性特征进行描述。
本发明实施例为了实现针对不同视觉任务的高效协同分析,基于三维视频数据提取出具有高度鲁棒性和通用性的特征描述,作为后续协同学习的原型特征。采用网格化多尺度空间技术实现面向多视觉任务环境下快速移动尺度不变性特征描述机制。该机制在平移、旋转和尺度上的不变性,可以准确地描述三维视频中的空间几何、平面纹理、时序动态信息,为后续基于多视觉任务的协同感知学习提供通用化原型特征,将三维视频数据进行网格化处理,提高数据的联合利用率。实现具有时空不变性的特征提取,通过正交平面的共生统计特性实现特征描述,减少数据冗余。
本发明实施例提出的一种基于三维视频的网格化快速移动尺度不变性特征描述方法如图2所示,由四个主要步骤组成:基于层并行的高斯金字塔和积分图像的快速尺度空间极值检测、关键点定位、方向确定和特征描述。
上述基于层并行的高斯金字塔和积分图像的快速尺度空间极值检测包括:
针对三维视频数据中包含大量运动和几何信息,传统的三维视频网格化处理和运动信息的多尺度计算会造成巨大的计算资源消耗,无法实现在有限时间内得到准确的特征描述的要求。在快速尺度空间极值检测过程中,针对三维时空数据的特点和多视觉任务系统分析的需求,将层并行高斯金字塔和积分图像的概念引入网格域,克服已有方法逐层依赖性对多尺度空间计算效率的影响。在相邻网格帧的高斯金字塔层对间计算光流,捕捉三维视频中的时序运动信息,最大化压缩视频数据的冗余或无关信息,保留纹理、几何和运动的辨别性。
所述关键点定位处理包括:
传统的尺度不变特征描述方法使用泰勒展开排除低对比度候选点,会引入昂贵的计算代价。针对网格化尺度空间数据特点,需排除的候选点可通过以下公式确定阈值,采用阈值法进行简化的关键点处理,
thresholdnew=(2precision of DoG-1)*coefbright∩(-2precision of DoG+1)*coefdepth
其中coefbright是三维视频中灰度视频部分的系数,coefdepth是三维视频中深度视频部分的系数,precision of DoG表示DoG算子的准确率
高斯差分算子DoG(Difference of Gaussian)算子定义为
DoG=G(x,y,σ1)-G(x,y,σ2),其中σ是尺度空间坐标
候选点数目通常很大,采用此公式计算,三维视频帧中超过阈值的点设为关键点,反之则视为非关键点。
上述关键点方向确定处理包括:
不同于二维视频数据旋转不变性特征描述中的方向确定。本发明实施例中的每个关键点的方向,由关键点到三维网格帧表面的法向量所建立的姿态无关的参考帧决定,参考帧上有关键点,参考帧上的相邻帧也有关键点,对参考帧及相邻帧上以某个关键点为圆心,适当的距离为半径上所有的关键点进行直方图统计,根据直方图统计结果拟合出关键点方向。
上述特征描述处理包括:
传统的基于二维数据特征描述方法仅能对纹理和灰度变化进行描述,易受光照、姿态、形状变化的影响。针对多视觉任务协同处理的需求,特征描述要能够同时表征数据的时序运动、空间几何和光照纹理的特征。在兼顾信息表达充分性和计算高效性的基础上,针对三维网格序列的数据特点,本发明实施例引入三个正交平面上的共生统计特性最大化减少数据冗余。检测到的关键点分别投影到xy,yz,xz三个正交平面,考虑数据在每个平面上的特征描述,通过串联三个正交平面的关键点特征描述获得具备尺度、旋转、平移不变性的通用视觉信息描述方法。
步骤S120、建立复杂场景下多视觉任务的协同特征学习模型。
生物视觉感知系统的处理是分级的,可以通过神经元之间的刺激、联想和记忆在极短的时间内完成多种视觉任务。从视网膜感受到光刺激,经过视交叉和外侧膝状体进行视觉信号传递和视神经处理,投射到视皮层V1区。V1区感受到初级视觉特征(边缘、绝对视差,局部运动等),再到次级视皮层V2区,获得中层视觉特征(纹理、边缘、相对视差等)。传递到视皮层V4区时,通过集合M(高时间分辨率信息)和P(高空间分辨率信息)两条视觉通路,可以实现对运动速度、方向、形状、颜色等信息的感知处理。
以上处理流程类似于我们的视觉通用特征描述过程。视皮层MT区具有很强的运动视觉信息和双眼视差信息处理能力。而三维视频特征正是很好地包含了以上两类信息,本发明实施例引入生物视觉层次化感知机理,研究一种与视觉任务相关的层次化处理模型,实现动态协同特征学习。
基于以上分析,本发明实施例采用仿生物视觉感知的层次化方法进行改进,建立与视觉任务相关的动态协同特征学习模型,主要包括以下两部分研究内容:1:构建与任务相关的协同视觉模式感知,实现感知区域提取;2:建立通用低层特征与相关视觉任务超类的关联模型,实现超类的层次化协同特征学习。
1:构建与任务相关的协同视觉模式感知,实现感知区域提取。传统的视觉注意区域提取多为手工分割,对于时变的视频序列无法满足其动态性要求。为了有效地将视觉任务和通用底层特征相结合,形成任务相关的视觉注意区域并实现动态自适应,本发明实施例提出与人认知过程相接近的协同模式感知理论,将协同视觉感知中的模式与通用低层视觉特征描述相对应,计算低层视觉特征在任务影响下相互间产生的偏置,由偏置值和低层视觉特征生成任务相关的视觉感知区域,引导视觉注意。
2:建立通用低层特征与相关视觉任务超类的关联模型,实现多视觉任务的超类层次化协同学习。图3为本发明实施例提供的一种多视觉任务超类的层次化协同学习示意图,不同于传统的已知视觉任务的特征学习,多视觉任务的协同特征学习对视觉任务的内容及个数均未知。因此首先需要学习出特定视觉任务超类的特征描述(比如说在训练的时候不会告诉系统这部分视觉区域需要进行的任务是人脸识别,而使系统自己领悟下一步需要进行人脸识别的任务处理),即实现一种非监督的特征学习。建立分层学习结构,实现任务相关的视觉特征协同学习,网格化移动尺度不变性特征作为框架的低层特征,视觉任务主题作为隐含层超类特征,层次化任务模型用于协同学习上层先验知识。
假设输入特征是H,由于受到复杂环境中噪声和遮挡的影响,数据中存在腐蚀区域,其干净部分为噪声部分为E,因此由此超类任务满足低秩假设,α(2),α(3)分别为超类任务层和基本类间(如某人某种表情下的某种行为)的投影矩阵。由此建立层次化协同学习模型如下,
其中输入特征前面提取的网格化移动尺度不变性特征,用H表示,由于受到复杂环境中噪声和遮挡的影响,所提取的数据中存在腐蚀区域,其中干净部分用矩阵表示,噪声部分用矩阵E表示,因此输入特征矩阵可表示为由此超类任务指中间层学习出的特征矩阵,用表示,满足低秩假设,α(2),α(3)分别为超类任务层和基本类间(如某人某种表情下的某种行为)的投影矩阵。由输入特征到中间层投影矩阵可以表示为中间层到分类识别结果的投影矩阵可以表示为则层次化协同学习模型就是要学习出对于新输入的测试数据可以通过输入特征网格化移动尺度不变性特征矩阵乘以得到低维具有高度分类辨别性的特征数据,用于分类识别。
以上模型可以通过引入辅助变量和辅助函数方法快速求解。
步骤S130、设计与实现基于多视觉任务协同分析模型的智能演示系统,
将所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型两部分结果进行整合,利用面向对象的程序设计方法搭建基于多视觉任务协同分析模型的智能演示系统,通过所述智能演示系统输出并展示所述三维视频数据的多视觉任务协同学习结果。
基于多视觉任务协同分析模型的智能演示系统对训练用的输入的三维视频数据首先应用网格化移动尺度不变性特征描述提取通用性特征,然后使用动态协同特征学习模型学习出特征投影矩阵,获得低维判别特征。再遇到新输入的三维视频数据就先提取网格化移动尺度不变性特征,所得特征乘以投影矩阵获得低维判别特征,将该特征与训练集中的低维判别特征进行最近邻分类,得到具体的人脸识别,表情分析和行为理解的分类结果。
将所述智能演示系统作为后续研究的测试平台且具备功能扩展能力。实现从三维视频数据采集到多视觉任务协同学习的结果输出,为后续的深入研究和实用化提供一个标准的平台。
图4为本发明实施例提供的一种基于多视觉任务协同分析模型的智能演示系统的处理流程图。如图4所示。在实验方法上要考虑多视觉任务协同分析中高效性、动态性、智能性等特点,结合软件工程的软件设计规范,利用面向对象的程序设计方法设计一个易扩展的演示系统。
综上所述,本发明实施例提出了一种通用鲁棒的高效网格化移动尺度不变性特征描述方法,能够有效地反映三维视频中纹理、形状、运动信息的不变性。提出一种与视觉任务相关的高数据利用率、低资源消耗率的动态协同特征学习机制,实现基于通用特征的多视觉任务协同特征学习。提出了结合生物视觉感知机理,通过对通用特征描述和协同特征学习的研究,尝试建立拟人化的多视觉任务协同分析模型,并将其用于智能工作场景,以保证所提算法对复杂环境动态信息的智能感知和高效预测,对姿态、光照、精细运动等具有鲁棒性。
本发明实施例的方法对比现在通常使用的多视觉任务协同分析具有更好的有效性和高效性。在处理人脸表情和行为识别上效果尤其好。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (2)
1.一种基于三维视频的多任务协同分析方法,其特征在于,包括:
采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述;
采用仿生物视觉感知的层次化方法建立与视觉任务相关的动态协同特征学习模型;
根据所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型,输出并展示所述三维视频数据的多视觉任务协同学习结果;
所述的采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述,包括:
进行基于层并行的高斯金字塔和积分图像的快速尺度空间极值检测,针对三维视频数据的特点和多视觉任务协同分析的需求,将层并行高斯金字塔和积分图像的概念引入网格域,在相邻网格帧的高斯金字塔层对间计算光流,提取三维视频数据中的时序运动信息,压缩三维视频数据中的冗余或无关信息,保留三维视频数据中的纹理、几何和运动的辨别性;
所述的采用仿生物视觉感知的层次化方法建立与视觉任务相关的动态协同特征学习模型,包括:
构建与任务相关的协同视觉模式感知,将协同视觉感知中的模式与通用低层视觉特征描述相对应,计算低层视觉特征在任务影响下相互间产生的偏置,由偏置值和低层视觉特征生成任务相关的视觉感知区域,实现感知区域提取;
所述的采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述,还包括:
采用阈值法定位网格化尺度空间数据中的关键点:
thresholdnew=(2precision of DoG-1)*coefbright∩(-2precision of DoG+1)*coefdepth
对所述关键点进行方向确定,每个关键点的方向由关键点到三维网格帧表面的法向量所建立的姿态无关的参考帧决定,对以关键点为圆心的邻帧关键点进行直方图统计,拟合出关键点方向;
所述的采集三维视频数据,提取所述三维视频数据的面向多视觉任务的网格化移动尺度不变性特征描述,还包括:
针对三维网格序列的数据特点,引入三个正交平面xy,yz,xz,将检测到的关键点分别投影到xy,yz,xz三个正交平面,考虑数据在每个正交平面上的特征描述,通过串联三个正交平面上的关键点特征描述,获得具备尺度、旋转、平移不变性的三维视频数据的通用视觉信息描述方法,表征三维视频数据的时序运动、空间几何和光照纹理的特征;
所述的采用仿生物视觉感知的层次化方法建立与视觉任务相关的动态协同特征学习模型,还包括:
学习出特定视觉任务超类的特征描述,实现一种非监督的特征学习,建立分层学习结构,实现任务相关的视觉特征协同学习,将网格化移动尺度不变性特征作为框架的低层特征,视觉任务主题作为隐含层超类特征,层次化任务模型用于协同学习上层先验知识,实现超类的层次化协同特征学习;
以上模型通过引入辅助变量和辅助函数方法求解。
2.根据权利要求1所述的多视觉任务协同分析方法,其特征在于,所述的根据所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型,输出并展示所述三维视频数据的多视觉任务协同学习结果,包括:
将所述面向多视觉任务的网格化移动尺度不变性特征描述和所述与视觉任务相关的动态协同特征学习模型两部分结果进行整合,利用面向对象的程序设计方法搭建基于多视觉任务协同分析模型的智能演示系统,通过所述智能演示系统输出并展示所述三维视频数据的多视觉任务协同学习结果,将所述智能演示系统作为后续研究的测试平台且具备功能扩展能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810570322.8A CN108846343B (zh) | 2018-06-05 | 2018-06-05 | 基于三维视频的多任务协同分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810570322.8A CN108846343B (zh) | 2018-06-05 | 2018-06-05 | 基于三维视频的多任务协同分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108846343A CN108846343A (zh) | 2018-11-20 |
CN108846343B true CN108846343B (zh) | 2022-05-13 |
Family
ID=64211391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810570322.8A Active CN108846343B (zh) | 2018-06-05 | 2018-06-05 | 基于三维视频的多任务协同分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846343B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934196A (zh) * | 2019-03-21 | 2019-06-25 | 厦门美图之家科技有限公司 | 人脸姿态参数评估方法、装置、电子设备及可读存储介质 |
CN111325124B (zh) * | 2020-02-05 | 2023-05-12 | 上海交通大学 | 虚拟场景下的实时人机交互系统 |
CN112257578B (zh) * | 2020-10-21 | 2023-07-07 | 平安科技(深圳)有限公司 | 人脸关键点检测方法、装置、电子设备及存储介质 |
CN113848988B (zh) * | 2021-11-05 | 2022-04-01 | 南京航空航天大学 | 适用于大规模无人机的网格化编队方法 |
CN117496360A (zh) * | 2024-01-02 | 2024-02-02 | 中国科学院空天信息创新研究院 | 频域知识继承的遥感基础模型轻量化方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
CN104899921B (zh) * | 2015-06-04 | 2017-12-22 | 杭州电子科技大学 | 基于多模态自编码模型的单视角视频人体姿态恢复方法 |
CN105809119A (zh) * | 2016-03-03 | 2016-07-27 | 厦门大学 | 一种基于稀疏低秩结构多任务学习的行为识别方法 |
CN106652025B (zh) * | 2016-12-20 | 2019-10-01 | 五邑大学 | 一种基于视频流与人脸多属性匹配的三维人脸建模方法和打印装置 |
CN107729801B (zh) * | 2017-07-11 | 2020-12-18 | 银江股份有限公司 | 一种基于多任务深度卷积神经网络的车辆颜色识别系统 |
CN107563276A (zh) * | 2017-07-13 | 2018-01-09 | 苏州珂锐铁电气科技有限公司 | 基于多任务学习的动态纹理识别方法 |
CN107463888B (zh) * | 2017-07-21 | 2020-05-19 | 竹间智能科技(上海)有限公司 | 基于多任务学习与深度学习的人脸情绪分析方法及系统 |
-
2018
- 2018-06-05 CN CN201810570322.8A patent/CN108846343B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108846343A (zh) | 2018-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846343B (zh) | 基于三维视频的多任务协同分析方法 | |
Lassner et al. | A generative model of people in clothing | |
Kliper-Gross et al. | Motion interchange patterns for action recognition in unconstrained videos | |
Bronstein et al. | Three-dimensional face recognition | |
Rust et al. | Ambiguity and invariance: two fundamental challenges for visual processing | |
KR102441171B1 (ko) | 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법 | |
JP6207210B2 (ja) | 情報処理装置およびその方法 | |
Gou et al. | Cascade learning from adversarial synthetic images for accurate pupil detection | |
Linder et al. | Real-time full-body human gender recognition in (RGB)-D data | |
Gupta et al. | Digital twin techniques in recognition of human action using the fusion of convolutional neural network | |
Benalcazar et al. | A 3D iris scanner from a single image using convolutional neural networks | |
Yu | Emotion monitoring for preschool children based on face recognition and emotion recognition algorithms | |
Wang et al. | Digital twin: Acquiring high-fidelity 3D avatar from a single image | |
Tang et al. | Using a selective ensemble support vector machine to fuse multimodal features for human action recognition | |
Liang et al. | Specificity and latent correlation learning for action recognition using synthetic multi-view data from depth maps | |
CN114360073A (zh) | 一种图像识别方法及相关装置 | |
Ming et al. | A unified 3D face authentication framework based on robust local mesh SIFT feature | |
Khan et al. | Towards monocular neural facial depth estimation: Past, present, and future | |
de Bem et al. | Dgpose: Deep generative models for human body analysis | |
Chu et al. | Semi-supervised 3d human pose estimation by jointly considering temporal and multiview information | |
Zhang | A comprehensive survey on face image analysis | |
Dong | 3D face recognition neural network for digital human resource management | |
Li et al. | Attentive 3d-ghost module for dynamic hand gesture recognition with positive knowledge transfer | |
López‐Quintero et al. | Mixing body‐parts model for 2D human pose estimation in stereo videos | |
Yu et al. | Facial video coding/decoding at ultra-low bit-rate: a 2D/3D model-based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |