CN116626596A - 一种基于毫米波雷达的社交意图识别方法及系统 - Google Patents
一种基于毫米波雷达的社交意图识别方法及系统 Download PDFInfo
- Publication number
- CN116626596A CN116626596A CN202310582005.9A CN202310582005A CN116626596A CN 116626596 A CN116626596 A CN 116626596A CN 202310582005 A CN202310582005 A CN 202310582005A CN 116626596 A CN116626596 A CN 116626596A
- Authority
- CN
- China
- Prior art keywords
- human body
- social
- person
- millimeter wave
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004891 communication Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000009471 action Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 15
- 238000012706 support-vector machine Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012800 visualization Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 7
- 210000003128 head Anatomy 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000003086 colorant Substances 0.000 description 5
- 230000004888 barrier function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 210000001513 elbow Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 210000003739 neck Anatomy 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/021—Auxiliary means for detecting or identifying radar signals or the like, e.g. radar jamming signals
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/05—Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/41—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Heart & Thoracic Surgery (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Biophysics (AREA)
- Veterinary Medicine (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Physiology (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Educational Technology (AREA)
- Signal Processing (AREA)
- Social Psychology (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Theoretical Computer Science (AREA)
- Developmental Disabilities (AREA)
- Psychology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Dentistry (AREA)
- Oral & Maxillofacial Surgery (AREA)
Abstract
本发明公开了一种基于毫米波雷达的社交意图识别方法及系统。本发明首先获取整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号,然后对其进行信号处理以去除噪声和干扰,从而得到包含人体姿势信息的射频张量,再将射频张量输入经过训练的人体姿势识别模型中,得到目标区域范围内的每个人对应的人体目标检测框以及由人体关节点组成的三维人体姿势,最后根据目标区域范围内每个人的三维人体姿势,确定每个人的头部中心点位置以及其前视方向,并通过构建特征向量输入经过分类网络中获得组合中两个人员是否处于社交沟通状态的分类标签,从而实现社交意图识别。本发明可用于会议等场景下进行参会人员姿势识别和社交意图检测。
Description
技术领域
本发明属于意图识别领域,具体涉及一种基于毫米波雷达的社交意图识别方法及系统。
背景技术
随着会议系统的应用越来越普遍,传统的会议系统只能识别会议环境和人员到场情况,无法满足检测参会人员的动作和社交意图的复杂需求。传统的人体姿势和社交意图识别技术主要基于计算机视觉和可穿戴传感器。基于计算机视觉的方案[1,2]通过摄像头获得图片或视频数据,再提取数据特征进行动作识别,但该类系统会受到照明条件、遮挡等现象的限制,光线变化和障碍物遮挡都会导致识别性能的下降;此外,视频信号具有泄露个人隐私的隐患,所以在很多场景下难以应用。基于可穿戴传感器的方案[3,4]具有较高的识别精度,但部署时需要给每个使用者穿戴专门的传感器设备,成本高,使用不方便,很难推广到大部分的场景中。
在这种情况下,使用毫米波雷达进行感知和识别相比于其他的视觉方法具有更多优势。雷达探测的有效距离非常远,受外界影响小,同时可以穿过墙壁等障碍物实现检测,符合大型、复杂场景的识别需求;其次,雷达的感知机制也能有效避免隐私泄露的可能,为人员信息安全提供强有力的保障。
[1]国网四川省电力公司信息通信公司.一种用于会议系统的图像识别方法:CN202010816207.1[P].2020-11-20.
[2]心智动科技(深圳)有限公司.一种通过视觉识别定义人体头部动作、姿势和各关节关系的方法:CN202210015299.2[P].2022-06-17.
[3]钛深科技,加州大学.基于可穿戴压力传感器阵列的人体动作和位置感测、识别与分析:CN201880065882.6[P].2020-08-21.
[4]三星电子株式会社.姿势识别方法、姿势识别设备和可穿戴装置:CN201610531788.8[P].2021-07-20.
发明内容
本发明的目的在于解决现有技术中难以通过用毫米波雷达进行社交意图感知的问题,并提供一种基于毫米波雷达的社交意图识别方法及系统。
本发明所采用的具体技术方案如下:
第一方面,本发明提供了一种基于毫米波雷达的社交意图识别方法,其包括:
S1、获取整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号;
S2、对毫米波雷达回波信号进行信号处理以去除噪声和干扰,从而得到包含人体姿势信息的射频张量;
S3、将所述射频张量输入经过训练的人体姿势识别模型中,得到目标区域范围内的每个人对应的人体目标检测框以及由人体关节点组成的三维人体姿势;
S4、根据目标区域范围内每个人的三维人体姿势,确定每个人的头部中心点位置以及其前视方向,然后两两遍历目标区域范围内的人员组合,计算每一对人员组合之间的空间距离、第一视线角和第二视线角并将计算得到的三个信息作为该对人员组合的特征向量,所述空间距离为两个人员之间的头部中心点距离,所述第一视线角为第一个人员的前视方向与两个人员头部中心点连线之间的夹角,所述第二视线角为第二个人员的前视方向与两个人员头部中心点连线之间的夹角;最后,将每一对人员组合的特征向量输入经过训练的分类网络中进行二分类,获得组合中两个人员是否处于社交沟通状态的分类标签;基于整个目标区域范围内两两人员之间的分类标签,按照相互之间的社交沟通关系对所有人员进行社交分组,从而完成社交意图识别。
作为上述第一方面的优选,所述人体姿势识别模型包括特征网络、RPN网络和姿态估计网络,所述射频张量先输入特征网络中提取得到射频信号的特征图,再由RPN网络对特征图进行兴趣区域提取;最后,将特征网络中提取的特征图以及RPN网络中提取的兴趣区域输入姿态估计网络中,经过兴趣域池化层得到每个兴趣区域的区域特征图,再经过全连接网络后进行分类和回归,得到每个兴趣区域中的人体关节点的位置、类别以及精确的人体目标检测框。
作为上述第一方面的优选,所述人体姿势识别模型预先通过监督数据进行训练,且用于训练的监督数据构建方式如下:
通过毫米波雷达获取的整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号,同时通过可见光相机同步获取的整个目标区域范围内的RGB图像,将RGB图像预先通过OpenPose模型提取包含关节点位置和类别的三维骨架信息并将其作为毫米波雷达回波信号的监督标签。
作为上述第一方面的优选,所述分类网络采用结构型支持向量机。
作为上述第一方面的优选,还包括:
S5、将S3中识别得到的目标区域范围内的每个人对应的人体目标检测框和三维人体姿势在图像上进行可视化,并用不同的标记区分属于不同社交分组的人员信息。
第二方面,本发明提供了一种基于毫米波雷达的社交意图识别系统,其包括:
雷达数据采集模块,用于获取整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号;
信号处理模块,用于对毫米波雷达回波信号进行信号处理以去除噪声和干扰,从而得到包含人体姿势信息的射频张量;
姿势识别模块,用于将所述射频张量输入经过训练的人体姿势识别模型中,得到目标区域范围内的每个人对应的人体目标检测框以及由人体关节点组成的三维人体姿势;
社交意图识别模块,用于根据目标区域范围内每个人的三维人体姿势,确定每个人的头部中心点位置以及其前视方向,然后两两遍历目标区域范围内的人员组合,计算每一对人员组合之间的空间距离、第一视线角和第二视线角并将计算得到的三个信息作为该对人员组合的特征向量,所述空间距离为两个人员之间的头部中心点距离,所述第一视线角为第一个人员的前视方向与两个人员头部中心点连线之间的夹角,所述第二视线角为第二个人员的前视方向与两个人员头部中心点连线之间的夹角;最后,将每一对人员组合的特征向量输入经过训练的分类网络中进行二分类,获得组合中两个人员是否处于社交沟通状态的分类标签;基于整个目标区域范围内两两人员之间的分类标签,按照相互之间的社交沟通关系对所有人员进行社交分组,从而完成社交意图识别。
作为上述第二方面的优选,所述人体姿势识别模型包括特征网络、RPN网络和姿态估计网络,所述射频张量先输入特征网络中提取得到射频信号的特征图,再由RPN网络对特征图进行兴趣区域提取;最后,将特征网络中提取的特征图以及RPN网络中提取的兴趣区域输入姿态估计网络中,经过兴趣域池化层得到每个兴趣区域的区域特征图,再经过全连接网络后进行分类和回归,得到每个兴趣区域中的人体关节点的位置、类别以及精确的人体目标检测框。
作为上述第二方面的优选,所述人体姿势识别模型预先通过监督数据进行训练,且用于训练的监督数据构建方式如下:
通过毫米波雷达获取的整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号,同时通过可见光相机同步获取的整个目标区域范围内的RGB图像,将RGB图像预先通过OpenPose模型提取包含关节点位置和类别的三维骨架信息并将其作为毫米波雷达回波信号的监督标签。
作为上述第二方面的优选,所述分类网络采用结构型支持向量机。
作为上述第二方面的优选,还包括:
可视化模块,用于将姿势识别模块中识别得到的目标区域范围内的每个人对应的人体目标检测框和三维人体姿势在图像上进行可视化,并用不同的标记区分属于不同社交分组的人员信息。
本发明相对于现有技术而言,具有以下有益效果:
1)本发明可以对特定区域内的人员进行计数、姿势识别和社交意图检测,可应用于会议场景下的人员识别场景,满足了更多应用需求。
2)本发明采用的毫米波雷达可以穿透桌椅、墙壁等障碍物,受光照等环境影响小,提高了识别准确度和系统稳定性,也不会泄露待测对象的隐私。
3)本发明的人体姿势识别模型中,通过使用区域建议网络放大和分离每个个体的信号,避免了由多径干扰或环境中物体的随机反射导致的估计误差,从而提高了复杂场景下姿势识别的准确性。
4)本发明还设计了前端可视化处理,不仅显示待测场景中所有人员的三维姿势,也可以用多种颜色标记出不同社交分组,系统识别结果更清晰。
附图说明
图1为一种基于毫米波雷达的社交意图识别方法的步骤示意图;
图2为人体姿势识别模型的网络结构图;
图3为一种基于毫米波雷达的社交意图识别系统的模块组成图;
图4为本发明实施例中的社交意图识别方法流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
本发明中的社交意图识别,目的是检测出场景中哪些人处于同一对话组中,实现社交群体的分组。
如图1所示,在本发明的一个较佳实施例中,提供了一种基于毫米波雷达的社交意图识别方法,其包括以下步骤:
S1、获取整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号。
需要说明的是,此处的信号获取,可以是直接通过毫米波雷达设备进行直接的信号获取,也可以是通过毫米波雷达设备已获取并存储的信号进行间接的读取,对此可不做限定。
毫米波雷达信号数据的采集属于现有技术,其常规做法是由毫米波雷达设备发射无线信号,信号被人体动作调制后反射,反射信号被毫米波接收天线接收,获得人体姿势原始数据。毫米波雷达可以探测来自空间中不同三维体素的信号,从位置(x,y,z)反射的射频信号可以计算为:
其中表示在时间t时第k个接收天线接收的调频连续波(FMCW)扫描的第i个样本,λi是第i个样本的信号波长,dk(x,y,z)表示从发射天线到体素(x,y,z)处再回到第k个接收天线的往返距离。
因此,接收到的毫米波雷达回波反射信号是空间和时间的四维函数,称为四维射频张量。
S2、对毫米波雷达回波信号进行信号处理以去除噪声和干扰,从而得到包含人体姿势信息的射频张量。
上述信号处理的目的在于对原始数据进行静态干扰去除和去噪,获得无干扰和噪声的多维射频张量,具体的信号处理方式可采用滤波等方式,与常见的毫米波雷达回波信号的预处理方式相同,对此不再赘述。
S3、将所述射频张量输入经过训练的人体姿势识别模型中,得到目标区域范围内的每个人对应的人体目标检测框以及由人体关节点组成的三维人体姿势。
上述人体姿势识别模型的输入为射频张量,输出检测的目标区域范围内所有存在人员的三维人体姿势数据(一般由头部、颈部、肩膀、肘部、手腕、臀部、膝盖和脚踝等14个人体关节点的三维坐标信息组成)。从射频信号中提取多人三维姿态的神经网络模型包含卷积神经网络(CNN)和区域建议网络(RPN),CNN用于对每个人的射频数据进行操作并提取其三维骨骼,RPN用于检测并放大每个人体区域以分离每个人的射频数据,从而扩展到多人场景。
在本发明的实施例中,如图2所示,上述人体姿势识别模型包括特征网络、RPN网络和姿态估计网络,所述射频张量先输入特征网络中提取得到射频信号的特征图,再由RPN网络对特征图进行兴趣区域提取;最后,将特征网络中提取的特征图以及RPN网络中提取的兴趣区域输入姿态估计网络中,经过兴趣域池化层得到每个兴趣区域的区域特征图,再经过全连接网络后进行分类和回归,得到每个兴趣区域中的人体关节点的位置、类别以及精确的人体目标检测框。
上述特征网络一般可采用CNN卷积网络来实现。
另外,上述人体姿势识别模型在用于实际推理之前,需要预先进行训练,精度满足要求后方可用于进行实际的推理。
在本发明的实施例中,为了提高训练效率,该模型可使用来自可见光相机系统的标签样本进行训练,使其在训练结束后可以仅根据射频信号预测人体三维姿态。该训练的数据,可使用相机拍摄与射频信号同步的RGB图像,通过一个计算机视觉系统(OpenPose)从图像中提取三维骨骼信息,这里的输出作为标签样本用于对神经网络进行训练。因此,在一实施例中,上述人体姿势识别模型预先通过图像处理得到的监督数据进行训练,具体的用于训练的监督数据构建方式如下:
通过毫米波雷达获取的整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号,同时通过可见光相机同步获取的整个目标区域范围内的RGB图像,将RGB图像预先通过OpenPose模型提取包含关节点位置和类别的三维骨架信息并将其作为毫米波雷达回波信号的监督标签。
S4、根据目标区域范围内每个人的三维人体姿势,确定每个人的头部中心点位置以及其前视方向,然后两两遍历目标区域范围内的人员组合,计算每一对人员组合之间的空间距离、第一视线角和第二视线角并将计算得到的三个信息作为该对人员组合的特征向量,所述空间距离为两个人员之间的头部中心点距离,所述第一视线角为第一个人员的前视方向与两个人员头部中心点连线之间的夹角,所述第二视线角为第二个人员的前视方向与两个人员头部中心点连线之间的夹角;最后,将每一对人员组合的特征向量输入经过训练的分类网络中进行二分类,获得组合中两个人员是否处于社交沟通状态的分类标签;基于整个目标区域范围内两两人员之间的分类标签,按照相互之间的社交沟通关系对所有人员进行社交分组,从而完成社交意图识别。
在本发明的实施例中,每个人的头部中心点位置以及其前视方向,可以根据三维人体姿势信息中的人体关节点来确定。其中,头部中心点位置可以根据头部关节点来确定,而前视方向一般可以采用平行于头部矢状面的朝前的方向。
为了实现本发明中的社交意图识别实现社交群体分组的目的,需要对所有人员是否处于社交沟通状态进行分类。由f-formation理论可知,人们在互动时倾向于靠近互动的人,并调整方向,从而自然地将焦点放在感兴趣的主题上。因此上述S4步骤中,根据S3中得到的三维人体姿势信息,计算得到每个个体之间的距离和方向估计用于描述场景中一对人的相互关系,根据场景中主体的相互距离和方向来判断人群是否构成一个社交群体。
上述分类网络可以采用任意能够实现相应功能的神经网络。在本发明的实施例中,上述分类网络可采用结构型支持向量机(Structural SVM)实现。通过该分类网络进行社交群体分组的本质上是一种基于结构型支持向量机的相关聚类算法,可以将成对的人合并到相关的群体中。由于不同社交情境下,方向和距离可以假设不同含义,因此使用结构型支持向量机学习如何根据社会情境对相关聚类的特征向量进行加权。
在本发明的实施例中,按照相互之间的社交沟通关系对所有人员进行社交分组时,需要考虑整个目标区域范围内两两人员之间的分类标签,其具体的分组原则可以根据实际情况进行调整。一般而言,对于一组处于社交沟通状态的人员,可先将其作为一个聚类类别,然后遍历其他的所有人员,若某个人员与这个聚类类别中的任意一个人员也处于社交沟通状态,则将这个人员也加入这个聚类类别。由此将所有任意划分成多个聚类类别,每个聚类类别中的所有人员为一个社交组,代表这些人员存在社交沟通关系。
当然,上述分组原则仅仅为一种优选方式,在实际应用中也可以考虑时序上的关联,即如果在某一时刻,遍历过程中的某个人员与某个聚类类别中的任意一个人员不存在社交沟通状态,但前后在一定时间段内存在社交沟通状态,也可以将其纳入这个聚类类别中。因此,本发明的核心是检测人员间是否存在社交沟通状态,但具体的分组原则是可以根据实际需要进行调整的,对此不做限制。
在本发明的实施例中,上述基于毫米波雷达的社交意图识别方法,还包括一个可视化的步骤,具体如下:
S5、将S3中识别得到的目标区域范围内的每个人对应的人体目标检测框和三维人体姿势在图像上进行可视化,并用不同的标记区分属于不同社交分组的人员信息。
上述用于区分属于不同社交分组的人员信息的标记可以是颜色、形状、文字,甚至可以是由节点、边组成的图结构。优选推荐采用不同颜色来区分属于不同社交分组的人员信息,例如可以将人体目标检测框标记为不同颜色,同时也可以在框上标注相应的分组编号。
基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的基于毫米波雷达的社交意图识别方法对应的基于毫米波雷达的社交意图识别系统。如图3所示,该基于毫米波雷达的社交意图识别系统中包括若干基本的模块,分别为:
雷达数据采集模块,用于获取整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号。
信号处理模块,用于对毫米波雷达回波信号进行信号处理以去除噪声和干扰,从而得到包含人体姿势信息的射频张量。
姿势识别模块,用于将所述射频张量输入经过训练的人体姿势识别模型中,得到目标区域范围内的每个人对应的人体目标检测框以及由人体关节点组成的三维人体姿势。
社交意图识别模块,用于根据目标区域范围内每个人的三维人体姿势,确定每个人的头部中心点位置以及其前视方向,然后两两遍历目标区域范围内的人员组合,计算每一对人员组合之间的空间距离、第一视线角和第二视线角并将计算得到的三个信息作为该对人员组合的特征向量,所述空间距离为两个人员之间的头部中心点距离,所述第一视线角为第一个人员的前视方向与两个人员头部中心点连线之间的夹角,所述第二视线角为第二个人员的前视方向与两个人员头部中心点连线之间的夹角;最后,将每一对人员组合的特征向量输入经过训练的分类网络中进行二分类,获得组合中两个人员是否处于社交沟通状态的分类标签;基于整个目标区域范围内两两人员之间的分类标签,按照相互之间的社交沟通关系对所有人员进行社交分组,从而完成社交意图识别。
另外,上述基于毫米波雷达的社交意图识别系统,还包括可视化模块,用于将姿势识别模块中识别得到的目标区域范围内的每个人对应的人体目标检测框和三维人体姿势在图像上进行可视化,并用不同的标记区分属于不同社交分组的人员信息。
由于本发明实施例中的基于毫米波雷达的社交意图识别系统解决问题的原理与本发明上述实施例的基于毫米波雷达的社交意图识别方法相似,因此该实施例中系统的各模块具体实现形式未尽之处亦可可以参见上述方法的具体实现形式,重复之处不再赘述。
下面通过一个具体实施例来展示本发明上述S1~S5所示方法的具体实现方式,以便于理解。
实施例
在本实施例中,上述基于毫米波雷达的社交意图识别方法应用于会议场景中,用于识别参会人员的社交意图,将处于社交沟通状态的人员进行聚类分组。如图4所示,该方法的训练和推理过程具体按照如下步骤实现:
第一步,进行毫米波雷达数据采集,本实施例的数据采集设备使用60GHz毫米波模块IWR6843ISK-ODS和评估板MMWAVEICBOOST,雷达模块一个水平放置,一个竖直放置,获得整个目标区域范围内经人体反射的毫米波雷达回波原始信号,软件使用mmWave SDK和CodeComposer Studio(CCS)。
第二步,进行毫米波雷达回波数据处理,进行去噪和干扰消除,得到无噪声干扰的包含距离、角度等信息的四维射频张量,该四维射频张量中包含了人体姿势信息,可用于进行后续的人体姿势识别。
第三步,设计并训练一个神经网络模型进行人体姿势识别,该模型采用四维射频张量作为输入,输出三维人体姿势。
将空间离散为三维体素,设计的人体姿势识别模型的目的是基于四维射频张量,将每个关键点(头、脖子、右肘等)的位置分类到其中一个体素中。模型需要在空间上聚合信息,为每个空间体素分配分数;同时该模型还需要聚合时间信息,以推断出在特定时间可能被遮挡的关节点。因此,该模型以四维射频张量为特征网络的输入,在每一层进行四维卷积,沿时空聚合信息,即:
an=fn*(4D)an-1,
其中an和an-1是第n层和第n-1层的特征映射,fn是第n层的四维卷积滤波器,*(4D)是四维卷积算子。
对于所有三维体素v∈V,模型输出对应的分数s={sv}v∈V,目标体素v*是包含关节点的体素。对于单个人的姿势估计任务而言,为了定位14个关节点,对每个关节点k分别使用CNN输出分数sk。姿势估计的总损失是所有关节点的Softmax损失之和:
模型训练完成后,关节点k的位置可以预测为得分最高的体素:
但是在会议场景中,需要考虑到多人射频信号的分离,因此对CNN模型进行扩展,加入RPN(Region Proposal Network,Region Proposal)网络,结构参考Faster R-CNN。最终设计的人体姿势识别模型如图3所示,插入RPN后,网络模型分为两个部分:特征网络、RPN和姿态估计网络。特征网络的输入为射频张量,输出射频信号的特征图,特征网络由基础的conv+relu+pooling层构成,提取的特征图用于后续的RPN网络和姿态估计网络。RPN网络输入为特征网络中提取的特征图,输出为多个兴趣区域(ROI),即潜在的人体区域。姿态估计网络分为兴趣域池化(ROI pooling)层、全连接网络、分类层和回归层几个部分。兴趣域池化层以RPN输出的ROI和特征网络输出的特征图为输入,对于RPN检测到的每个区域,放大到特征图上的相应区域裁剪特征,得到固定大小的区域特征图(proposal feature map)作为输出。兴趣域池化层的输出经过两层带有relu激活函数的全连接层后,分别输入分类层和回归层中。分类层和回归层的输入为上一层的区域特征图的全连接结果,输出为兴趣区域中关节点所属的类别以及精确的目标检测框,这一部分通过全连接层与softmax计算每个区域中人体关节点具体属于哪个三维体素,从而获得关节点的三维坐标;同时利用边框回归得到更加精确的人体目标检测框。
在上述人体姿势识别模型中,引入RPN是为了放大和分离每个个体的信号,避免了由多径干扰或环境中物体的随机反射导致的估计误差,从而提高了复杂场景下姿势识别的准确性。RPN网络的结构以及原理属于现有技术。具体而言,RPN将中间层的输出(即特征图)作为输入,输出一组区域建议,每个区域建议都有一个分数来描述该区域包含人的概率。使用滑动窗口对潜在区域进行采样,对于每个采样窗口,使用分类器来检查它是否与真人紧密匹配,若是则RPN会调整该窗口的边界,使其更贴合。在本实施例中,可为每个训练窗口分配一个二进制标签,用于表示区域是否有人。为了设置标签,定义一个交并集(IoU)指标,公式为:
其中IoU大于0.7的窗口设置为正(即包含人),小于0.3设置为负,不满足以上两个条件的窗口,在训练阶段将其忽略。
第四步,进行社交意图识别,完成会议场景的社交分组。
利用第三步输出的包含关节点信息的三维人体姿势数据,估计区域中所有对象相互之间的距离和脸部方向,构建一个能够描述两个人相关性的特征向量。假定两个人r和t,用两人之间的距离d和第一个人看第二个人的旋转方向ort,第二个人看第一个人的旋转方向otr来描述两者之间的关系φrt,即φrt=(d,ort,otr)。上述距离d可以采用两个人员之间的头部中心点的空间距离来计算,而ort,otr则代表了视线角,可采用当前人员的前视方向与两个人员头部中心点连线之间的夹角来计算。前视方向采用矢状面方向。
将整个会议空间范围内的人员两两组合,每一对人员组合的特征向量φrt输入经过训练的结构型支持向量机中进行二分类,获得组合中两个人员是否处于社交沟通状态的分类标签。基于整个会议空间域范围内两两人员之间的分类标签,按照相互之间的社交沟通关系对所有人员进行社交分组,从而完成社交意图识别。
结构型支持向量机(Structural Support Vector Machine,SSVM)是支持向量机(Support Vector Machine,SVM)的变体算法,被广泛应用于多个领域,SSVM在分类性能和分类效率上优于其他SVM算法。SSVM的具体结构和原理属于现有技术,可参照现有技术来实现。
为了更容易理解,在本实施例中,对其具体实现进行了简单描述。为了批量描述所有人员组合之间的关系,对于给定的一组人x,可以用一个亲和矩阵W描述他们的成对关系,若Wrt>0,则两个人r和t在同一组中;若Wrt<0,则属于不同的集群。一组人x的相关聚类y是使同一聚类中项目对的亲和性和最大化的划分,即
其中Wrt建模为在时间窗口上的方向和距离的成对特征的线性组合,可由SSVM构建。
设定xi是一组人的距离和方向特征的集合,yi是他们的聚类方案,w是权重向量。给定输入-输出对样本S={(x1,y1),…,(xn,yn)},分类学习将输入空间X映射到结构化输出空间Y的判别函数F,则预测结果为:
求解该结构型支持向量机的参数问题,得到:
其中Φψi(y)=ψ(xi,yi)-ψ(xi,y),ξi是松弛变量,Δ(y,yi)是损失函数。
采用切割平面算法,迭代找到最违反的约束重新优化直到收敛。/>表示为:
损失函数使用MITRE损失生成树可以用来表示集群。考虑两个聚类解决方案y、/>和它们各自的生成树Q、P。Q和P的连通分量分别用树Qi,i=1,…,n和Pi,i=1,…,m来表示。只考虑Qi中同样可以在划分P中找到的关系连接,得到的子群集合定义为p(Qi),定义|Qi|为Qi的人数,则Q的全局召回率recall为:
Q的精确率precision可以通过交换Q和P来计算。因此损失定义为
因此,基于上述SSVM进行训练后,即可用训练后模型进行推理,得到整个会议空间域范围内两两人员之间的分类标签,用于实现社交分组。
第五步,将得到的三维人体姿势识别和社交意图识别结果进行可视化处理,利用Unity3D显示检测区域中的人数和所有对象的三维姿势,并用不同颜色区分不同的社交群组。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于毫米波雷达的社交意图识别方法,其特征在于,包括:
S1、获取整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号;
S2、对毫米波雷达回波信号进行信号处理以去除噪声和干扰,从而得到包含人体姿势信息的射频张量;
S3、将所述射频张量输入经过训练的人体姿势识别模型中,得到目标区域范围内的每个人对应的人体目标检测框以及由人体关节点组成的三维人体姿势;
S4、根据目标区域范围内每个人的三维人体姿势,确定每个人的头部中心点位置以及其前视方向,然后两两遍历目标区域范围内的人员组合,计算每一对人员组合之间的空间距离、第一视线角和第二视线角并将计算得到的三个信息作为该对人员组合的特征向量,所述空间距离为两个人员之间的头部中心点距离,所述第一视线角为第一个人员的前视方向与两个人员头部中心点连线之间的夹角,所述第二视线角为第二个人员的前视方向与两个人员头部中心点连线之间的夹角;最后,将每一对人员组合的特征向量输入经过训练的分类网络中进行二分类,获得组合中两个人员是否处于社交沟通状态的分类标签;基于整个目标区域范围内两两人员之间的分类标签,按照相互之间的社交沟通关系对所有人员进行社交分组,从而完成社交意图识别。
2.如权利要求1所述的基于毫米波雷达的社交意图识别方法,其特征在于,所述人体姿势识别模型包括特征网络、RPN网络和姿态估计网络,所述射频张量先输入特征网络中提取得到射频信号的特征图,再由RPN网络对特征图进行兴趣区域提取;最后,将特征网络中提取的特征图以及RPN网络中提取的兴趣区域输入姿态估计网络中,经过兴趣域池化层得到每个兴趣区域的区域特征图,再经过全连接网络后进行分类和回归,得到每个兴趣区域中的人体关节点的位置、类别以及精确的人体目标检测框。
3.如权利要求1所述的基于毫米波雷达的社交意图识别方法,其特征在于,所述人体姿势识别模型预先通过监督数据进行训练,且用于训练的监督数据构建方式如下:
通过毫米波雷达获取的整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号,同时通过可见光相机同步获取的整个目标区域范围内的RGB图像,将RGB图像预先通过OpenPose模型提取包含关节点位置和类别的三维骨架信息并将其作为毫米波雷达回波信号的监督标签。
4.如权利要求1所述的基于毫米波雷达的社交意图识别方法,其特征在于,所述分类网络采用结构型支持向量机。
5.如权利要求1所述的基于毫米波雷达的社交意图识别方法,其特征在于,还包括:
S5、将S3中识别得到的目标区域范围内的每个人对应的人体目标检测框和三维人体姿势在图像上进行可视化,并用不同的标记区分属于不同社交分组的人员信息。
6.一种基于毫米波雷达的社交意图识别系统,其特征在于,包括:
雷达数据采集模块,用于获取整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号;
信号处理模块,用于对毫米波雷达回波信号进行信号处理以去除噪声和干扰,从而得到包含人体姿势信息的射频张量;
姿势识别模块,用于将所述射频张量输入经过训练的人体姿势识别模型中,得到目标区域范围内的每个人对应的人体目标检测框以及由人体关节点组成的三维人体姿势;
社交意图识别模块,用于根据目标区域范围内每个人的三维人体姿势,确定每个人的头部中心点位置以及其前视方向,然后两两遍历目标区域范围内的人员组合,计算每一对人员组合之间的空间距离、第一视线角和第二视线角并将计算得到的三个信息作为该对人员组合的特征向量,所述空间距离为两个人员之间的头部中心点距离,所述第一视线角为第一个人员的前视方向与两个人员头部中心点连线之间的夹角,所述第二视线角为第二个人员的前视方向与两个人员头部中心点连线之间的夹角;最后,将每一对人员组合的特征向量输入经过训练的分类网络中进行二分类,获得组合中两个人员是否处于社交沟通状态的分类标签;基于整个目标区域范围内两两人员之间的分类标签,按照相互之间的社交沟通关系对所有人员进行社交分组,从而完成社交意图识别。
7.如权利要求1所述的基于毫米波雷达的社交意图识别系统,其特征在于,所述人体姿势识别模型包括特征网络、RPN网络和姿态估计网络,所述射频张量先输入特征网络中提取得到射频信号的特征图,再由RPN网络对特征图进行兴趣区域提取;最后,将特征网络中提取的特征图以及RPN网络中提取的兴趣区域输入姿态估计网络中,经过兴趣域池化层得到每个兴趣区域的区域特征图,再经过全连接网络后进行分类和回归,得到每个兴趣区域中的人体关节点的位置、类别以及精确的人体目标检测框。
8.如权利要求1所述的基于毫米波雷达的社交意图识别系统,其特征在于,所述人体姿势识别模型预先通过监督数据进行训练,且用于训练的监督数据构建方式如下:
通过毫米波雷达获取的整个目标区域范围内经人体动作调制后反射的毫米波雷达回波信号,同时通过可见光相机同步获取的整个目标区域范围内的RGB图像,将RGB图像预先通过OpenPose模型提取包含关节点位置和类别的三维骨架信息并将其作为毫米波雷达回波信号的监督标签。
9.如权利要求1所述的基于毫米波雷达的社交意图识别系统,其特征在于,所述分类网络采用结构型支持向量机。
10.如权利要求1所述的基于毫米波雷达的社交意图识别系统,其特征在于,还包括:
可视化模块,用于将姿势识别模块中识别得到的目标区域范围内的每个人对应的人体目标检测框和三维人体姿势在图像上进行可视化,并用不同的标记区分属于不同社交分组的人员信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310582005.9A CN116626596A (zh) | 2023-05-19 | 2023-05-19 | 一种基于毫米波雷达的社交意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310582005.9A CN116626596A (zh) | 2023-05-19 | 2023-05-19 | 一种基于毫米波雷达的社交意图识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116626596A true CN116626596A (zh) | 2023-08-22 |
Family
ID=87609288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310582005.9A Pending CN116626596A (zh) | 2023-05-19 | 2023-05-19 | 一种基于毫米波雷达的社交意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116626596A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117530691A (zh) * | 2024-01-09 | 2024-02-09 | 南通大学 | 基于室分网络的抑郁倾向检测系统、方法及相关设备 |
-
2023
- 2023-05-19 CN CN202310582005.9A patent/CN116626596A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117530691A (zh) * | 2024-01-09 | 2024-02-09 | 南通大学 | 基于室分网络的抑郁倾向检测系统、方法及相关设备 |
CN117530691B (zh) * | 2024-01-09 | 2024-04-09 | 南通大学 | 基于室分网络的抑郁倾向检测系统、方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052896B (zh) | 基于卷积神经网络与支持向量机的人体行为识别方法 | |
Yang et al. | Extraction of 2d motion trajectories and its application to hand gesture recognition | |
CN114220176A (zh) | 一种基于深度学习的人体行为的识别方法 | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
US20220180534A1 (en) | Pedestrian tracking method, computing device, pedestrian tracking system and storage medium | |
Chen et al. | Discovering social interactions in real work environments | |
CN111553326B (zh) | 手部动作识别方法、装置、电子设备及存储介质 | |
CN110991559B (zh) | 一种室内人员行为非接触式协同感知方法 | |
Singh et al. | Human pose estimation using convolutional neural networks | |
AU2020300067B2 (en) | Layered motion representation and extraction in monocular still camera videos | |
Wen et al. | Hybrid semi-dense 3D semantic-topological mapping from stereo visual-inertial odometry SLAM with loop closure detection | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
CN114818788A (zh) | 基于毫米波感知的追踪目标状态识别方法和装置 | |
CN116626596A (zh) | 一种基于毫米波雷达的社交意图识别方法及系统 | |
Chan et al. | A 3-D-point-cloud system for human-pose estimation | |
Gupta et al. | Digital twin techniques in recognition of human action using the fusion of convolutional neural network | |
Zhou et al. | A study on attention-based LSTM for abnormal behavior recognition with variable pooling | |
Bhargavas et al. | Human identification using gait recognition | |
CN112766145B (zh) | 人工神经网络的人脸动态表情识别方法及装置 | |
Feng et al. | DAMUN: A domain adaptive human activity recognition network based on multimodal feature fusion | |
Chen et al. | Multi-gait identification based on multilinear analysis and multi-target tracking | |
Yashas et al. | Hand gesture recognition: a survey | |
Xie et al. | RPM: RF-based pose machines | |
Anitta | Human head pose estimation based on HF method | |
Ruget et al. | Real-time, low-cost multi-person 3D pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |