CN113196283A - 使用射频信号的姿态估计 - Google Patents
使用射频信号的姿态估计 Download PDFInfo
- Publication number
- CN113196283A CN113196283A CN201980035849.3A CN201980035849A CN113196283A CN 113196283 A CN113196283 A CN 113196283A CN 201980035849 A CN201980035849 A CN 201980035849A CN 113196283 A CN113196283 A CN 113196283A
- Authority
- CN
- China
- Prior art keywords
- pose
- radio frequency
- subject
- keypoint
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 description 24
- 210000000988 bone and bone Anatomy 0.000 description 22
- 230000000007 visual effect Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000003491 array Methods 0.000 description 8
- 210000003128 head Anatomy 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 210000003414 extremity Anatomy 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004807 localization Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 210000001624 hip Anatomy 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 210000002832 shoulder Anatomy 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 208000012661 Dyskinesia Diseases 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 210000000617 arm Anatomy 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000001513 elbow Anatomy 0.000 description 3
- 210000003127 knee Anatomy 0.000 description 3
- 210000002414 leg Anatomy 0.000 description 3
- 210000003739 neck Anatomy 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 210000003423 ankle Anatomy 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000002683 foot Anatomy 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 208000015592 Involuntary movements Diseases 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000017311 musculoskeletal movement, spinal reflex action Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
一种姿态识别方法,其包括存储用于检测射频输入信号中所表示的被摄体的姿态的自动化姿态识别系统的配置的参数。该参数已通过第一处理确定,该第一处理包括:接受训练数据,该训练数据包括包含被摄体的姿态的多个图像以及相应的多个射频信号;以及执行参数训练过程以确定参数。参数训练过程包括:接收表征各图像中的姿态的特征,以及根据相应的射频信号来确定用于将自动化姿态识别系统配置为与表征姿态的特征相匹配的参数。
Description
背景技术
本发明涉及姿态识别。
过去的十年见证了使用RF信号对人们进行定位并跟踪其运动的很大进展。一些定位算法使得能够精确定位到几十厘米内。先进的感测技术使得即使是在人没有携带任何无线发送器的情况下也能够基于从人的身体反弹的RF信号来跟踪他们。
在相关领域中,估计人的姿态是计算机视觉在应用于监视、活动识别、游戏等中时的重要任务。姿态估计问题被定义为产生手臂和腿上的关节以及躯干和头上的关键点的二维(即2D)或三维(即3D)骨骼表示。其最近见证了重大的进展和显著的性能改进。然而,与任何基于照相机的识别任务一样,遮挡仍然是一项根本性挑战。一些传统方法通过基于可见身体部位估计被遮挡身体部位来缓解遮挡。然而,由于人体是可变形的,因此这种估计容易出错。此外,当人在墙壁后或在不同的房间中被完全遮挡时,这种方法变得不可行。
发明内容
非常一般地,这里描述的一些方面涉及通过墙壁和遮挡物的准确人体姿态估计。该方面利用如下的事实:虽然可见光很容易被墙壁和不透明对象阻挡,但WiFi范围内的射频(RF)信号可以穿过这种遮挡物。此外,RF信号从人体反射,从而为通过墙壁跟踪人提供了机会。
一些方面使用深度神经网络方法,该深度神经网络方法对无线电信号进行解析以估计二维(即2D)姿态和/或三维(即3D)姿态。
在2D情况下,使用现有技术的视觉模型来提供跨模态监督。例如,在训练期间,系统使用同步的无线输入和视觉输入,从视觉流中提取姿态信息,并使用该姿态信息来引导训练处理。一旦经训练,网络只使用无线信号来进行姿态估计。
神经网络的设计和训练解决了姿态估计技术未能解决的一些挑战。一个挑战是,没有用于该任务的标记数据,并且人类用关键点注释无线电信号是不可行的。为了解决该问题,使用跨模态监督。在训练期间,照相机与RF天线阵列位于一起,并且RF和视觉流同步。根据视觉流估计的姿态信息作为RF流的监督信号。一旦系统经训练,系统仅使用无线电信号作为输入。结果是系统能够仅使用无线信号来估计人体姿态,而无需人的注释作为监督。有趣的是,即使是在人被完全遮挡或位于不同房间的情况下,基于RF的模型也学习进行姿态估计。尽管在训练期间从未见过这样的示例,也是如此。神经网络的设计还考虑了RF信号的某些内在特征,包括低空间分辨率、在穿过墙壁的RF频率处人体的镜面反射、以及RF信号与监督视觉流之间在表示和视角方面的差异。
在3D情况下,即使是在存在墙壁和遮挡物的情况下,使用环境中的RF信号来提取多个被摄体(包括头、臂、肩、髋、腿等)的完整三维(即3D)姿态/骨骼。在一些方面,系统生成动态骨骼,该动态骨骼在被摄体移动、行走或坐着时跟随被摄体。某些方面基于卷积神经网络(CNN)架构,该CNN架构通过将高维(例如,四维)卷积分解为低维运算来执行这些高维卷积。该特性使网络能够高效地压缩RF信号中的时空信息。在一些示例中,网络首先对场景中的个体进行放大,并对来自各被摄体的RF信号进行隔离(例如,修剪)。对于各个被摄体,网络定位并跟踪他们的身体部位(例如,头、肩、臂、腕、髋、膝和脚)。
3D骨骼/姿态可以应用于游戏中,其中3D骨骼/姿态可以扩展像Microsoft’sKinect这样的系统以在存在遮挡物的情况下起作用。利用RF信号穿过墙壁的能力,执法人员可以使用其来评估人质场景。3D骨骼/姿态也可以应用于健康护理,其中3D骨骼/姿态可以跟踪运动障碍,诸如帕金森病患者的不自主运动(即异动症)。
各方面可以具有以下优点中的一个或多个。
除了其它优点,在一些方面,神经网络系统能够对无线信号进行解析以提取准确的2D和3D人体姿态,即使是在人被遮挡或位于墙壁后的情况下也是如此。
各方面是可移植的和被动的,因为它们通用于新的场景。此外,与需要场景中的每个人在每个关键点周围放置反射标志的运动捕捉系统相反,各方面无需被摄体穿戴任何电子器件或标志。
各方面生成准确的3D骨骼,并将每个人身上的每个关键点相对于全局参考系进行定位。对于包括自遮挡、人与人之间的遮挡以及家具或墙壁的遮挡的各种类型的遮挡,各方面具有鲁棒性。这种数据是使得尽管存在遮挡RF-Pose也能够从不同视角估计3D骨骼。
各方面能够同时跟踪多个人的3D骨骼,使得RF-Pose具有利用多个人的训练示例,并因此可以扩展到这种场景。
根据以下说明和权利要求,本发明的其它特征和优点将是明显的。
附图说明
图1是2D姿态估计系统的运行时配置。
图2是相对于图像的垂直热图和水平热图的表示。
图3是学生(student)神经网络。
图4是图1的2D姿态估计系统的训练配置。
图5是3D姿态估计系统的运行时配置。
图6是单人3D姿态估计网络。
图7是多人3D姿态估计网络。
图8是图5的3D姿态估计系统的训练配置。
图9是多视图几何模块配置。
具体实施方式
这里描述的实施例一般涉及使用深度神经网络以根据已撞击被摄体并从被摄体反射的射频信号来估计诸如人类等的被摄体的姿态。实施例能够在二维和三维这两者中以及存在遮挡物的情况下区分多个被摄体的姿态。
1 2D姿态估计
参考图1,2D姿态估计系统100被配置为使用射频(RF)定位技术来感测环境103、并基于该感测来估计环境103中的一个或多个被摄体(其可能被部分或完全地遮挡)的姿态。2D姿态估计系统100包括传感器子系统101、关键点估计模块102和关键点关联模块124。
非常一般地,传感器子系统101与环境103进行交互以确定二维RF热图112、114的序列。通过关键点估计模块来处理二维RF热图112、114的序列,以生成指示被摄体(例如,人体)的关键点(例如,腿、臂、手、脚等)在环境103中的估计位置的估计关键点置信度图118的序列。
通过关键点关联模块124来处理估计关键点置信度图118的序列,以生成环境103中的姿态骨骼的描绘134的序列。
1.1传感器子系统
在一些示例中,传感器子系统101包括无线电107,该无线电107连接到发送天线109和两个接收天线阵列:垂直天线阵列108和水平天线阵列110。
无线电被配置为使用发送天线109来将低功率RF信号发送到环境103中。发送信号的反射通过接收天线阵列108、110在无线电107处接收到。为了将RF反射与环境103中的不同对象分离,传感器子系统101被配置为使用天线阵列108、110来实现FMCW(调频连续波)技术的扩展。一般来说,FMCW基于反射对象的距离来使RF反射分离。另一方面,天线阵列108、110基于其空间方向来分离反射。FMCW技术的扩展将FMCW信号发送到环境103中,并处理在两个接收天线阵列108、100处接收到的反射以生成两个二维热图序列,即水平天线阵列110的水平二维热图112的序列以及垂直天线阵列108的垂直二维热图114的序列。
传感器子系统101的某些方面在以下的一个或多个文献中所得到了更详细的描述,以及/或者与以下的一个或多个文献中所描述的技术和实施例相关:
·美国专利No.9,753,131,
·美国专利公开No.2017/0074980,
·美国专利公开No.2017/0042432,
·F.Adib、C.-Y.Hsu、H.Mao、D.Katabi和F.Durand于2015年1月3日在ACMTransactions on Graphics,34(6):219中发表的Capturing the human figure througha wall,
·F.Adib、Z.Kabelac、D.Katabi和R.C.Miller于2014年1月3日在Proceedings ofthe USENIX Conference on Networked Systems Design and Implementation,NSDI中发表的3D tracking via body radio reflections,以及
·C.-Y.Hsu、Y.Liu、Z.Kabelac、R.Hristov、D.Katabi和C.Liu于2017年6月1日在Proceedings of the 2017CHI Conference on Human Factors in Computing Systems,CHI中发表的Extracting gait velocity and stride length from surround radiosignals。
所有上述文献通过应用而并入于此。
参考图2,与水平天线阵列110相关联的水平热图112是信号反射在平行于地面的平面上的投影。类似地,垂直热图114是反射信号在垂直于地面的平面上的投影。注意,由于RF信号是复数,因此热图中的各像素与实分量和虚分量相关联。在一些示例中,传感器子系统101每秒生成30个热图对。
1.2关键点估计模块
再次参考图1,热图112、114的序列作为输入被提供给关键点估计模块102。关键点估计模块102在深度神经网络中处理热图112、114的序列以生成关键点置信度图118的序列。
1.2.1数据考虑
如以下更详细描述的,在关键点估计模块102中实现的深度神经网络使用跨模态学生-教师训练方法(其中,关键点估计模块102是“学生”网络),该训练方法使用(从照相机收集的)被摄体的同步图像和同一被摄体的RF热图作为桥梁来传递被摄体的姿态的视觉知识。
关键点估计模块102的结构至少部分地是所采用的学生-教师训练方法的结果。特别地,RF信号具有与视觉数据(即照相机像素)本质不同的特性。
例如,处于穿过墙壁的频率中的RF信号具有比视觉数据低得多的低空间分辨率。分辨率通常为数十厘米,并且由FMCW信号的带宽和天线阵列的孔径定义。附接至天线阵列108、110的无线电可以具有约10cm的深度分辨率,并且天线阵列108、100可以具有15度的垂直和水平角度分辨率。
此外,人体在穿过墙壁的频率范围内是镜面的。人体反射落在其身上的信号。根据各肢体的表面的朝向,信号可以朝向传感器或远离传感器反射。因此,与任意快照都示出所有未被遮挡关键点的照相机系统不同,在无线电系统中,单个快照具有与肢体的子集有关的信息,并且此时的朝向使信号远离传感器偏转的肢体和身体部位是缺失的。
最后,无线数据与照相机具有不同的表示(复数)和不同的视角(水平投影和垂直投影)。
1.2.2关键点预测模块结构
参考图3,关键点估计模块102的设计必须考虑RF信号的上述特性。也就是说,人体在感兴趣的RF范围内是镜面的。因此,人体姿态不能根据单个RF帧(单个水平和垂直热图对)来估计,因为即使某些肢体未被遮挡,该RF帧也可能缺少这些肢体。此外,RF信号具有低空间分辨率,因此将难以使用单个RF帧来确定关键点的位置。
因此,关键点估计模块102聚集来自多帧RF热图的信息,使得其能够捕获不同的肢体并对身体运动的动力学进行建模。因此,代替以单个帧作为输入(即,单个垂直和水平热图对),关键点估计模块102以帧序列作为输入。对于各帧序列,关键点估计模块102输出与输入中的帧数相同数量的关键点置信度图118(即,虽然网络一次查看多个RF帧的剪辑,但其仍针对输入中的每个帧输出姿态估计)。
关键点估计模块102还需要空间和时间这两者中的平移不变性,使得其可以从可见场景一般化到穿过墙壁场景。因此,时空卷积用作关键点估计模块102的基本构建块。
最后,关键点估计模块102被配置为将来自RF热图112、114的视图的信息变换为教师网络中的照相机的视图(如以下更详细所述)。为此,关键点估计模块102被配置为将RF热图112、114解码为照相机的视图。为此,关键点估计模块102包括两个RF编码网络,即用于对水平热图112的序列进行编码的Eh(·)118以及用于对垂直热图114的序列进行编码的Ev(·)120。
在一些示例中,RF编码网络118、120使用步长卷积网络来去除空间维度,以总结来自原始视图的信息。例如,RF编码网络可以以100帧(3.3秒)RF热图数据作为输入。RF编码网络使用10层9×5×5时空卷积,其中每隔一层的时空维度具有1×2×2步长。
关键点估计模块102还包括姿态解码网络D(·)122,该姿态解码网络以水平RF编码和垂直RF编码的逐通道级联作为输入,并处理该输入以生成估计关键点置信度图118。在一些示例中,姿态解码网络122然后使用分数步长卷积网络来对照相机视图中的关键点进行解码。例如,姿态解码网络122可以使用具有分数步长卷积的时空卷积来对姿态进行解码。在一些示例中,姿态解码网络具有4层3×6×6,除最后一层具有1×1/4×1/4的分数步长之外,其余各层的分数步长为1×1/2×1/2。
1.3关键点关联模块
在一些示例中,关键点估计模块102所生成的估计关键点置信度图118的序列被提供给关键点关联模块124,该关键点关联模块124将估计置信度图118中的关键点映射为成某种姿态的骨骼的描绘134。
在一些示例中,关键点关联模块124对关键点置信度图118进行非极大值抑制,以获得关键点候选的离散峰。在关键点候选属于场景中的多个被摄体的情况下,将不同被摄体的关键点相关联,并且将Cao等人提出的弛豫法和欧几里得距离用于两个候选的权重。注意,基于学习到的关键点置信度图118来逐帧地进行关联。
1.4关键点预测模块训练
参考图4,图1的2D姿态估计系统100被配置用于训练关键点估计模块102。在训练配置中,传感器子系统101另外包括用于在环境103中收集图像数据的照相机106(如上文所述)。在一些示例中,照相机106是传统的、现成的web照相机,其以每秒30帧的帧频生成RGB视频帧116。2D姿态估计系统100在训练配置时还包括“教师”网络104。
1.4.1教师-学生训练范式
在教师-学生训练范式中,教师网络102提供跨模态监督,并且关键点估计模块102进行基于RF的姿态估计。
在训练时,教师网络104接收由传感器子系统101的照相机106生成的RGB帧116的序列,并使用视觉模型(例如,Microsoft COCO)来处理RGB帧116的序列,以生成与RGB帧116的序列相对应的关键点置信度图118’的序列。对于RGB帧116的序列中的给定RGB帧116的各像素,相应关键点置信度图118指示像素与特定关键点相关联的置信度(例如,像素与手或头相关联的置信度)。一般来说,教师网络104所生成的关键点置信度图118’被视为地面真值。
如以上所述的“运行时”示例中的情况那样,传感器子系统101还生成两个二维热图序列,即水平天线阵列110的水平二维热图112的序列以及垂直天线阵列108的垂直二维热图114的序列。
关键点置信度图118的序列以及垂直热图112的序列和水平热图114的序列作为监督训练输入数据而被提供给关键点估计模块102作为输入。关键点估计模块102处理输入以学习如何根据热图数据112、114估计关键点置信度图118。
例如,考虑同步对(I,R),其中R表示垂直热图112和水平热图114的组合,并且I表示相应图像数据。教师网络T(·)104以RGB帧116的序列作为输入,并估计这些RGB帧116的关键点置信度图T(I)118。估计的置信度图T(I)为关键点估计模块S(·)提供跨模态监督,该关键点估计模块S(·)学习根据热图数据112、114来估计关键点置信度图118。关键点估计模块102学习估计与人体的以下解剖部位相对应的关键点置信度图118:头、颈、肩、肘、腕、髋、膝和踝。关键点估计模块S(·)的训练目标是使其估计S(R)与教师网络的估计T(I)之间的差最小化:
损失被定义为置信度图中的各像素的二进制交叉熵损失之和:
如上所述,训练处理得到如下的关键点估计模块102,该关键点估计模块102考虑RF信号的特性,诸如人体的镜面反射、低空间分辨率以及空间和时间这两者中的平移不变性。关键点估计模块102还学习热图中的未在原始空间中编码的信息的表示,因此能够使用两个RF编码网络Eh(·)118和Ev(·)120将该表示解码为照相机106的视图中的关键点。
2三维姿态估计
上述设计可以扩展到3D姿态估计。非常一般地,3D姿态估计系统是围绕三个组件构造的,这三个组件一起提供了用于使用深度学习来进行RF感测的架构。各组件服务于特定的功能。
第一个组件涉及感测3D骨骼。该组件获取从某人的身体反弹的RF信号,并利用深度卷积神经网络(CNN)来推断该人的3D骨骼。然而,在使CNN适应RF数据方面存在关键的挑战。RF信号是空间和时间的四维函数。因此,CNN需要应用4D卷积。但是普通的深度学习平台不支持4D CNN。它们针对图像或视频,因此至多仅支持3D卷积。更根本地,4D CNN所需的计算和I/O资源是过多的,并且限制扩展到如3D骨骼估计等的复杂任务。为了应对这一挑战,某些方面利用RF信号的特性,以将4D卷积分解为在两个平面上进行的三D卷积和时间轴的组合。某些方面还分解CNN训练和推理以在这两个平面上进行操作。该方法不仅解决了RF数据与现有深度学习工具之间的维度差异,而且还降低了模型的复杂性并使训练加快了几个数量级。
第二个组件涉及扩展到多个人。大多数环境具有多个人。为了估计场景中的所有个体的3D骨骼,需要一种对来自每个个体的信号进行分离以使得信号可以单独处理以推断他或她的骨骼的组件。这项任务的最直接的方法将运行过去的定位算法,对场景中的每个人进行定位,并且对来自该位置的信号进行放大。这种方法的缺点是:(1)定位误差将导致骨骼估计的误差,并且(2)多径效应可能产生虚构人。为了避免这些问题,该组件被设计为深度神经网络,该深度神经网络直接学习检测人并对这些人进行放大。然而,代替在物理空间中对人进行放大,网络首先将RF信号变换为用于压缩相关信息的抽象域,然后在抽象域中分离与不同个体相关的信息。这允许网络避免被由于多径或者来自环境中的对象的随机反射而出现的虚构人欺骗。
第三个组件涉及训练。一旦设置了网络,网络就需要训练数据,即,它需要许多标记示例,其中各示例是接收到的RF信号的短剪辑(3秒)以及骨骼及其关键点作为时间的函数的3D视频。利用计算机视觉中的过去工作,其中在给定人的图像的情况下,识别与其关键点相对应的像素。为了将这种2D骨骼变换为3D骨骼,开发了一种协调的照相机系统。收集来自各照相机的2D骨骼,并基于多视图几何结构来设计优化问题以求出每个人的每个关键点的3D位置。当然,照相机只在训练期间用来生成标记示例。一旦网络经训练,无线电就可被置于新环境中,并单独使用RF信号来跟踪3D骨骼及其移动。
参考图5,3D姿态估计系统500被配置为使用射频(RF)定位技术来感测环境,并基于感测来估计环境中的一个或多个被摄体(其可能被部分或完全遮挡)的三维姿态。3D姿态估计系统500包括传感器子系统501和姿态估计模块502。
非常一般地,传感器子系统501与环境进行交互以确定空间和时间的四维(4D)函数,被称为“4D RF张量”512。通过姿态估计模块502来处理4D RF张量512,以生成环境中的一个或多个被摄体的三维(3D)姿态518的序列。
2.1传感器子系统
在一些示例中,传感器子系统501包括连接到发送天线509和两个接收天线阵列(垂直天线阵列108和水平天线阵列110)的无线电507。这种天线配置允许无线电507测量来自空间中的不同3D体素的信号。例如,从空间中的位置(x,y,z)反射的RF信号可被计算为:
其中是在时间索引t处在第k个接收天线上接收到的第i个FMCW扫描样本(即FMCW索引),λi是在第i个FMCW扫描样本处的信号波长,以及dk(x,y,z)是从发送天线到体素(x,y,z)并返回第k个接收天线的往返距离。
传感器子系统510所产生的4D RF张量512表示随着时间进展针对空间中的3D体素集的测量信号。
2.2姿态估计模块
将4D RF张量512提供给姿态估计模块502,该姿态估计模块502处理4D RF张量512以生成3D姿态518的序列。在一些示例中,姿态估计模块502实现神经网络模型,该神经网络模型被训练(如以下更详细描述)以从4D RF张量512提取环境中的一个或多个被摄体的3D姿态518的序列。
2.2.1单个被摄体姿态估计
参考图6,在一个示例中,姿态估计模块502被配置为使用单人姿态估计网络520从4D RF张量512提取环境中的单个被摄体的3D姿态518。在一些示例中,单人姿态估计网络520是卷积神经网络(CNN)模型,其被配置为从4D RF张量数据512中识别被摄体的身体上的14个解剖关键点(头、颈、肩、肘、腕、髋、膝和踝)的3D位置。
关键点定位可被公式化为CNN分类问题,因此CNN架构可被设计为解决关键点分类问题。为此,感兴趣的空间(即环境)被离散化成3D体素。在一些示例中,类集包括感兴趣的空间中的所有3D体素,并且CNN的目标是将各关键点(头、颈、肘等)的位置分类到3D体素其中之一。因此,为了对关键点进行定位,CNN输出与所有3D体素υ∈V相对应的得分s={sυ}υ∈V,并且目标体素υ*是包含关键点的体素。SoftMax损失LSoftmax(s,υ*)用作对关键点定位的查找。
为了对所有14个关键点进行定位,并不针对每个关键点具有单独的CNN,而是使用输出14个关键点各自的得分sk的单个CNN。该设计迫使模型共同定位所有关键点,并基于其它关键点的位置来推断被遮挡的关键点的定位。姿态估计的总损失是所有14个关键点的SoftMax损失的和:
其中索引k指特定关键点。一旦模型经训练,它就可以将各关键点k的位置估计为得分最高的体素:
在一些示例中,为了对3D空间中的关键点进行定位,CNN模型聚集空间上的信息,以分析来自被摄体的身体的所有RF反射并为各体素分配得分。另外,该模型聚集时间上的信息以推断在特定时刻可能被遮挡的关键点。因此,该模型以4D RF张量512(空间和时间)作为输入,并在每层进行4D卷积以沿空间和时间聚集信息:
an=fn*(4D)an-1
其中an和an-1是层n和n-1上的特征图,fn是层n处的4D卷积滤波器,以及*(4D)是4D卷积算子。
上述的4D CNN模型存在实际问题。由于4D CNN的时间和空间复杂度太高,以使得主要机器学习平台(PyTorch、Tensorflow)至多仅支持3D的卷积运算。为了理解这种模型的计算复杂度,考虑对4D RF张量进行4D卷积。卷积核的大小是固定的,并且相对较小。因此,复杂性源于利用所有3个空间维度和时间维度进行卷积。例如,为了跨度高度为3米的100平方米的区域,需要将该区域分割为1cm3的体素,以使关键点的位置具有良好的分辨率。还说到,使用3秒的时间窗,并且每秒存在30个RF测量。对这种张量进行4D卷积涉及1000×1000×300×90个(即27千兆)运算。在训练时,必须对训练集中的各示例重复该处理,其中训练集可以包含120多万个这样的示例。训练可能需要数周。此外,推断处理不能实时进行。允许降低4D CNN的复杂度以使得极大地缩短模型训练时间并且可以实时地进行推断的分解的细节可以在临时专利申请62/650,388中发现,该文献通过引用而并入于此。
2.2.2多个被摄体姿态估计
参考图7,在另一示例中,姿态估计模块502被配置为从4D RF张量512中提取环境中的多个被摄体的3D姿态518。非常一般地,姿态估计模块502通过首先检测被摄体(例如,人)区域、然后对各区域进行放大以提取各被摄体的3D骨骼来遵循分治范式。为此,图7的姿态估计模块502包括区域提议网络524,并将图6的单人姿态估计网络520划分为特征网络522和姿态估计网络524。特征网络522是图6的单人姿态估计网络520的中间层,并被配置为处理4D RF张量数据512以生成特征图。在一些示例中,单人网络包含18个卷积层。前12层被划分为特征网络522,并且其余6层被划分为姿态估计网络520。何处进行划分不是唯一的,但一般地,特征网络522应具有足够的层来聚集随后的区域提议网络526和姿态估计网络524所用的空间和时间信息。
将特征图提供给姿态估计网络524和区域提议网络526。在一些示例中,区域提议网络526接收特征网络522所输出的特征图作为输入,并输出一组矩形区域提议,其中各矩形区域提议具有描述区域包含被摄体的概率的得分。一般来说,区域提议网络526被实现为标准CNN。
在一些示例中,使用特征网络522的输出允许姿态估计模块502在信息被压缩后在中间层检测对象,而不是尝试直接在4D RF张量512中检测被摄体。使用来自特征网络522的压缩信息解决了原始RF信号混乱和受到多径效应的问题。在向区域提议网络524提供信息以对特定区域进行裁剪之前使用多个卷积层来压缩信息,从而从原始RF信号中去除杂波。此外,当存在多个被摄体时,他们可能相对于传感器子系统501彼此遮挡,从而导致缺失来自被遮挡的被摄体的反射。因此,进行多个4D时空卷积以对空间和时间上的信息进行组合,从而使得区域提议网络524能够检测到暂时遮挡的被摄体。
区域提议网络524在特征图中检测到的潜在被摄体区域被放大并裁剪。在一些示例中,裁剪区域是紧密包围被摄体的立方体。在其它示例中,3D立方体检测被简化为水平面上的2D包围盒检测(回想起这些4D卷积被分解成水平平面和垂直平面上的两个3-D卷积以及时间轴)。
特征网络522所生成的特征图以及区域提议网络526所生成的特征图的裁剪区域被提供给姿态估计网络524。
姿态估计网络524被训练(如下文更详细描述)为以与图6的单人姿态估计网络520大体上相同的方式根据特征图和特征图的裁剪区域来估计3D姿态518。
2.3姿态估计模块训练
参考图8,图5的3D姿态估计系统500被配置用于训练姿态估计模块502。在训练配置中,传感器子系统510另外包括用于在环境中收集图像数据514的多个照相机506。照相机节点经由NTP进行同步,并使用标准多照相机校准技术相对于一个全局坐标系进行校准。一旦被部署,照相机就从不同视点拍摄被摄体。3D姿态估计系统500还包括多视图几何模块528,该多视图几何模块528在训练配置中用作“教师”网络。
2.3.1教师-学生训练范式
在教师-学生训练范式中,多视图几何模块528(即教师网络)提供跨模态监督,并且姿态估计模块502进行基于RF的姿态估计。
在训练时,多视图几何模块528从传感器子系统101的照相机506接收RGB图像514的序列,并处理RGB帧514的序列(如下文更详细描述)以生成与RGB帧514的序列相对应的3D姿态518’。
如上述的“运行时”示例中所述,传感器子系统101生成4D RF张量512。4D RF张量512和多视图几何模块528所生成的3D姿态518’作为被监督的训练输入数据提供给姿态估计模块502。姿态估计模块502处理输入以学习如何根据RF张量数据512来估计3D姿态518。如上文所述,用于估计3D姿态的CNN的设计输出14个关键点各自的得分,并迫使模型共同定位所有关键点。姿态估计CNN基于其它关键点的位置来推断被遮挡的关键点的定位。
应当注意,一种训练姿态估计模块502的区域提议网络526的方式是针对特征图中的所有可能区域进行尝试,并且针对各区域,如果它紧贴场景中的真实被摄体周围,则将其分类为正确的。在其它示例中,使用滑动窗口对潜在区域进行采样。对于各采样窗口,使用分类器来判断它是否与真实被摄体合理地相交。如果采样窗口与真实被摄体合理地相交,则区域建议网络526调整窗口的边界以使其更适合。
为每个窗口分配二进制标记以用于训练,从而指示该窗口是否包含被摄体。为了设置标记,使用简单的交并比(IoU)度量,该度量被定义为:
因此,与任何地面真值区域(即与真实人相对应的区域)重叠超过0.7IoU的窗口被设置为阳性的,并且与所有地面真值重叠小于0.3IoU的窗口被设置为阴性的。不符合以上标准的其它窗口在训练阶段被忽略。
参考图9,多视图几何模块528通过首先接收由传感器子系统101的照相机106从不同视点拍摄的RGB图像514的序列,来生成3D姿态318’以进行监督训练。将图像514提供给诸如OpenPose等的计算机视觉系统530,以生成图像中的被摄体的2D骨骼532。在一些示例中,不同照相机106所拍摄的图像514可以包括不同人或相同人的不同关键点。
确定2D骨骼之间的几何关系,并使用该几何关系来确定哪些2D骨骼属于图像514的序列中的哪些被摄体。例如,给定2D关键点(例如,头),原始3D关键点必须位于3D空间中的一条线上,该线垂直于照相机视图并在2D关键点处与照相机视图相交。直觉是,当一对2D骨骼来自同一个人时,与特定关键点的潜在位置相对应的两条线将在3D空间中相交。另一方面,如果这对2D骨骼来自两个不同的人,则3D空间中的这两条线将具有大的距离,并且没有交叉。基于该直觉,使用与各个关键点相对应的3D线之间的平均距离作为两个2D骨骼的距离度量,并使用分层聚类对来自同一个人的2D骨骼进行聚类。
一旦识别出来自同一个人538的多个2D骨骼,其关键点被三角测量540以生成相应的3D骨骼,该3D骨骼被包括在3D姿态518’中。在一些示例中,特定关键点p的3D位置使用其2D投影pi而被估计为空间中的点,该点的投影使距离所有这些2D投影的距离之和最小化,即:
其中和针对的是检测到该关键点的所有照相机,并且Ci是将全局坐标变换为照相机i的视图中的图像坐标的校准矩阵。
3实现
实现上述技术的系统可以以软件、固件、数字电子电路或计算机硬件或它们的组合来实现。该系统可以包括有形地体现在机器可读存储装置中以供可编程处理器执行的计算机程序产品,并且方法步骤可以由可编程处理器执行指令程序来进行,以通过对输入数据进行操作并生成输出来执行功能。系统可以以可编程系统上可执行的一个或多个计算机程序来实现,其中该可编程系统包括至少一个可编程处理器,以相对于数据存储系统、至少一个输入装置和至少一个输出装置进行数据和指令的接收和发送。各计算机程序可以以高级过程编程语言或面向对象的编程语言来实现,或者必要时可以以汇编语言或机器语言来实现;并且在任何情况下,语言可以是编译语言或解释语言。举例而言,合适的处理器包括通用和专用的微处理器这两种。一般地,处理器将从只读存储器和/或随机存取存储器接收指令和数据。一般地,计算机将包括用于存储数据文件的一个或多个大容量存储装置;这样的装置包括:诸如内部硬盘和可移除盘等的磁盘;磁光盘;以及光盘。适合有形地体现计算机程序指令和数据的存储装置包括以下的所有形式:诸如EPROM、EEPROM和闪存存储器装置等的例如包括半导体存储器装置的非易失性存储器;诸如内部硬盘和可移除盘等的磁盘;磁光盘;以及CD-ROM盘。任何前述装置可以由ASIC(专用集成电路)进行补充、或者并入到ASIC(专用集成电路)中。
应当理解,前述说明旨在示出而不是限制本发明的范围,该范围由所附权利要求书的范围限定。其它实施例在所附权利要求书的范围内。
Claims (13)
1.一种三维姿态识别方法,包括对用于检测射频输入信号中所表示的被摄体的三维姿态的自动化姿态识别系统的配置所用的参数进行存储,所述参数已通过第一处理确定,所述第一处理包括:
接受训练数据,所述训练数据包括包含被摄体的姿态的多个图像以及相应的多个射频信号;以及
执行参数训练过程以确定所述参数,所述参数训练过程包括:
接收表征所述图像中的各图像中的姿态的特征,以及
根据所述相应的多个射频信号来确定用于将所述自动化姿态识别系统配置为与表征所述姿态的特征相匹配的参数。
2.根据权利要求1所述的方法,其中,表征所述姿态的特征表示三维空间中的点。
3.根据权利要求1所述的方法,还包括:进行所述第一处理以确定所述参数。
4.根据权利要求1所述的方法,还包括:处理所述多个图像以识别表征所述图像中的各图像中的姿态的特征。
5.一种用于使用根据预定参数配置的自动化姿态识别系统来检测射频输入信号中所表示的被摄体的三维姿态的方法,所述方法包括:
使用所述自动化姿态识别系统来处理所述射频输入信号的连续部分,以识别表征所述射频输入信号的段中的所述被摄体的姿态的特征。
6.根据权利要求5所述的方法,其中,所述预定参数是根据权利要求1至4中任一项所述的方法来确定的。
7.根据权利要求1至6中任一项所述的方法,还包括:使用表征姿态的特征来识别所述被摄体上的关键点。
8.根据权利要求7所述的方法,还包括:使用所述关键点来确定所述被摄体的姿态。
9.根据权利要求7所述的方法,还包括:连接所识别出的所述被摄体上的关键点以生成所述被摄体的骨骼表示。
10.一种用于检测射频信号中所表示的被摄体的三维姿态的系统,所述系统是根据预定参数配置的,并且所述系统包括:
射频信号处理器,用于根据所述预定参数来处理射频输入信号的连续部分以识别表征所述射频输入信号的段中的所述被摄体的姿态的特征。
11.根据权利要求10所述的系统,其中,所述预定参数是根据权利要求1至4中任一项所述的方法来确定的。
12.一种用于检测射频信号中所表示的被摄体的三维姿态的系统,所述系统被配置为进行根据权利要求1至9中任一项所述的方法的步骤的全部。
13.一种软件,其被存储在非暂时性机器可读介质上,所述非暂时性机器可读介质上存储了指令,其中,所述指令能够由一个或多个处理器执行以进行根据权利要求1至9中任一项所述的方法的步骤的全部。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862650388P | 2018-03-30 | 2018-03-30 | |
US62/650,388 | 2018-03-30 | ||
US16/225,837 US20190188533A1 (en) | 2017-12-19 | 2018-12-19 | Pose estimation |
US16/225,837 | 2018-12-19 | ||
PCT/US2019/024748 WO2019191537A1 (en) | 2018-03-30 | 2019-03-29 | Pose estimation using radio frequency signals |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113196283A true CN113196283A (zh) | 2021-07-30 |
Family
ID=68060771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980035849.3A Pending CN113196283A (zh) | 2018-03-30 | 2019-03-29 | 使用射频信号的姿态估计 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3776338A1 (zh) |
CN (1) | CN113196283A (zh) |
WO (1) | WO2019191537A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591726A (zh) * | 2021-08-03 | 2021-11-02 | 电子科技大学 | 一种太极拳训练动作的交叉模态评估方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102020213723A1 (de) | 2020-11-02 | 2022-05-05 | Volkswagen Aktiengesellschaft | Verfahren, Computerprogramm und Vorrichtung zum Bestimmen einer Pose eines Verkehrsteilnehmers |
US20220334243A1 (en) * | 2021-03-31 | 2022-10-20 | Massachusetts Institute Of Technology | Systems and methods for detection of concealed threats |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090258677A1 (en) * | 2008-04-09 | 2009-10-15 | Ellis Michael D | Alternate user interfaces for multi tuner radio device |
US20100121636A1 (en) * | 2008-11-10 | 2010-05-13 | Google Inc. | Multisensory Speech Detection |
US20160091964A1 (en) * | 2014-09-26 | 2016-03-31 | Intel Corporation | Systems, apparatuses, and methods for gesture recognition and interaction |
CN106662946A (zh) * | 2014-07-11 | 2017-05-10 | 微软技术许可有限责任公司 | 3d姿态识别 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9753131B2 (en) | 2013-10-09 | 2017-09-05 | Massachusetts Institute Of Technology | Motion tracking via body radio reflections |
JP6716466B2 (ja) | 2014-04-28 | 2020-07-01 | マサチューセッツ インスティテュート オブ テクノロジー | 無線反射によるバイタルサインの監視 |
-
2019
- 2019-03-29 EP EP19722277.1A patent/EP3776338A1/en not_active Withdrawn
- 2019-03-29 WO PCT/US2019/024748 patent/WO2019191537A1/en unknown
- 2019-03-29 CN CN201980035849.3A patent/CN113196283A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090258677A1 (en) * | 2008-04-09 | 2009-10-15 | Ellis Michael D | Alternate user interfaces for multi tuner radio device |
US20100121636A1 (en) * | 2008-11-10 | 2010-05-13 | Google Inc. | Multisensory Speech Detection |
CN106662946A (zh) * | 2014-07-11 | 2017-05-10 | 微软技术许可有限责任公司 | 3d姿态识别 |
US20160091964A1 (en) * | 2014-09-26 | 2016-03-31 | Intel Corporation | Systems, apparatuses, and methods for gesture recognition and interaction |
Non-Patent Citations (2)
Title |
---|
FADEL ADIB等: ""Capturing the Human Figure Through a Wall"", 《ACM TRANSACTIONS ON GRAPHICS》, 1 October 2015 (2015-10-01) * |
XUE LI: ""Real Time Unobtrusive Human Behaviours Recognition"", 《MACHINE LEARNING FOR SENSORY DATA ANALYSIS》, 2 December 2014 (2014-12-02) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591726A (zh) * | 2021-08-03 | 2021-11-02 | 电子科技大学 | 一种太极拳训练动作的交叉模态评估方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3776338A1 (en) | 2021-02-17 |
WO2019191537A1 (en) | 2019-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190188533A1 (en) | Pose estimation | |
Zhao et al. | RF-based 3D skeletons | |
Xue et al. | mmMesh: Towards 3D real-time dynamic human mesh construction using millimeter-wave | |
US11263443B2 (en) | Centimeter human skeleton pose estimation | |
CN111881887A (zh) | 基于多摄像头的运动姿态监测和指导方法及装置 | |
US8582867B2 (en) | Learning-based pose estimation from depth maps | |
US8179440B2 (en) | Method and system for object surveillance and real time activity recognition | |
Malleson et al. | Real-time multi-person motion capture from multi-view video and IMUs | |
KR102188480B1 (ko) | 광학식 위치 트래킹 시스템 기반의 위치 추적 장치 및 그 방법 | |
CN113239797B (zh) | 人体动作识别方法、装置及系统 | |
CN113196283A (zh) | 使用射频信号的姿态估计 | |
Brenner et al. | RGB-D and thermal sensor fusion: a systematic literature review | |
KR20200076267A (ko) | 골격의 길이 정보를 이용한 제스쳐 인식 방법 및 처리 시스템 | |
Chen et al. | Camera networks for healthcare, teleimmersion, and surveillance | |
Zakotnik et al. | A posture optimization algorithm for model-based motion capture of movement sequences | |
Pandey et al. | Efficient 6-dof tracking of handheld objects from an egocentric viewpoint | |
US20230103112A1 (en) | System and method for monitoring activity performed by subject | |
JP7498404B2 (ja) | 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム | |
Rougier et al. | 3D head trajectory using a single camera | |
Hu et al. | Coarse-to-fine activity annotation and recognition algorithm for solitary older adults | |
Ruget et al. | Real-time, low-cost multi-person 3D pose estimation | |
Xie et al. | RF-based Multi-view Pose Machine for Multi-Person 3D Pose Estimation | |
Pandey et al. | Egocentric 6-DoF tracking of small handheld objects | |
Kadkhodamohammadi et al. | Temporally consistent 3D pose estimation in the interventional room using discrete MRF optimization over RGBD sequences | |
Lee et al. | OPTIMUS: Online persistent tracking and identification of many users for smart spaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |