CN111931869A

CN111931869A - 一种人机自然交互的用户注意力检测方法及系统

Info

Publication number: CN111931869A
Application number: CN202011019174.4A
Authority: CN
Inventors: 李树涛; 李东旭; 孙斌
Original assignee: Hunan University
Current assignee: Hunan Xinxin Xiangrong Intelligent Technology Co ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-11-13
Anticipated expiration: 2040-09-25
Also published as: CN111931869B

Abstract

本发明公开了一种人机自然交互的用户注意力检测方法及系统，本发明方法包括：根据包含用户画面及其深度信息的待检测图像提取人体关键点；根据提取得到的人体关键点进行人体动作特征提取；将提取得到的特征矢量输入预先训练好的机器学习分类模型得到注意力检测结果；所述机器学习分类模型被预先训练建立了特征矢量、注意力检测结果之间的映射关系。本发明在人机交互的过程中能够主动的在多用户场景下对用户的行为进行分析来判断用户的交互意愿，以便为注意力更高的用户主动提供服务。

Description

一种人机自然交互的用户注意力检测方法及系统

技术领域

本发明涉及人机交互技术，具体涉及一种人机自然交互的用户注意力检测方法及系统。

背景技术

人机自然交互是指人机之间不借助外部工具而直接进行交互。注意力是指人的心理活动指向和集中于某种事物的能力。注意力计算是指通过使用不同的技术手段对多种能够衡量用户注意力的特征信息分析计算，对用户的交互意愿进行评估，进而让机器人真正的理解用户，并主动提供服务。所以人机自然交互的深度应用，是通过用户模糊的行为习惯，准确的提取出用户的交互意图，为人机共生提供技术基础。在商场、医院等多用户场景下的人机交互过程中，机器人必须选择一个用户进行交互，因此注意力评分是非常重要的。通过采集的数据对用户的头部姿态、瞳孔信息、人体姿态、手势等特征进行提取，通过训练好的注意力计算模型对用户的注意力进行计算，判断用户是否想与机器人交互以及交互的意愿有多强烈，从而让机器人主动提供相关的服务。

早期对用户注意力的分析尽管也利用头部角度、面部表情、姿态等注意力特征，但是主要集中在通过单一注意力特征来判断用户是否想要与机器人进行交互，因此对用户的注意力判断比较片面。例如根据用户对视频信息的注意力评分来判断视频是否吸引用户；基于简单的网络摄像头的眼角检测几何模型来判断学生线上课程的注意力，并对学生的注意力实时跟踪；应用于智能汽车的实时的静态和动态手势识别系统等。在实际的交互场景中，为了更加准确的判断用户的注意力，往往需要通过多种注意力特征来判断用户的注意力水平，因此出现了一些基于多种注意力特征的注意力分析算法，准确确定交互对象的状态。例如基于目标追踪和手势识别的手势识别系统；基于人体姿态识别、人体跟踪、人脸检测等的注意力估计算法；从RGB图像和深度图像中提取几何特征，并与深度学习框架融合的注意力分析算法；基于RGB图像和激光信息来收集人的多种注意力特征来进行注意力的评分等。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种人机自然交互的用户注意力检测方法及系统，本发明在人机交互的过程中能够主动的在多用户场景下对用户的行为进行分析来判断用户的交互意愿，以便为注意力更高的用户主动提供服务。

为了解决上述技术问题，本发明采用的技术方案为：

一种人机自然交互的用户注意力检测方法，包括：

1）根据包含用户画面及其深度信息的待检测图像提取人体关键点和人脸关键点；

2）根据提取得到的人体关键点和人脸关键点进行人体动作特征提取；

3）将提取得到的特征矢量输入预先训练好的机器学习分类模型得到注意力检测结果；所述机器学习分类模型被预先训练建立了特征矢量、注意力检测结果之间的映射关系。

可选地，步骤1）之前还包括获取包含用户画面及其深度信息的待检测图像的下述步骤：深度相机获取目标场景内的深度图像D和彩色图像C，将深度图像D和彩色图像C对齐得到包含用户画面及其深度信息的待检测图像。

可选地，所述将深度图像D和彩色图像C对齐的步骤包括：将深度图像D的像素点还原到深度坐标系下，将深度坐标系下的深度点还原到世界坐标系，将世界坐标系的深度点转换到彩色坐标系下，最后将彩色坐标系的深度点映射到Z=1的平面上与彩色图像C的像素点对应起来，使得彩色图像C每个像素点都得到一个深度信息。

可选地，步骤1）中提取人体关键点的步骤包括：1.1）针对待检测图像采用预设的人体检测网络模型提取出人体在图像中的范围区域，得到人体检测框R_b，R_b={(u _i1,v _i1),(u _i2,v _i2) | i=1,2,3,…,n}，其中 (u _i1,v _i1)为第i个人体检测框的左上角坐标，(u _i2,v _i2)为第i个人体检测框的右下角坐标，n为人体检测框的数量；1.2）针对得到的人体检测框R_b采用预设的人脸检测网络模型提取出人脸在图像中的范围区域，得到人脸检测框R_f，R_f={(u _j1,v _j1), (u _j2,v _j2) | j=1,2,3,…,n}，其中 (u _i1,v _i1)为第j个人脸检测框的左上角坐标，(u _i2,v _i2) 为第j个人脸检测框的右下角坐标；1.3）针对得到的人体检测框R_b、人脸检测框R_f进行匹配，得到匹配好的人体及人脸检测框R，R={(u _i1,v _i1), (u _i2,v _i2) , (u _j1,v _j1),(u _j2,v _j2) | i=j=1,2,3,…,n}；1.4）将待检测图像、匹配好的人体检测框R_b、人脸检测框R_f采用预设的人体姿态检测模型进行人体关键点检测，得到每一个人体检测框的 n ₁个人体关键点X_b，X_b={(u _ij,v _ij) | i=1,2,3,…,n;j=1,2,3,…,n ₁}，以及n ₂个人脸关键点X_f，X_f={(u _ij,v _ij) | i=1,2,3,…,n;j=1,2,3,…,n ₂}，其中(u _ij,v _ij)为第j个人体关键点或人脸关键点的像素坐标。

可选地，步骤2）中进行人体动作特征提取包括：2.1）计算人体关键点的三维坐标；2.2）根据提取得到的人体关键点的三维坐标提取社交距离特征f _d(x)、人体方位角特征f _a(x)、头部姿态特征f _h(x)、唇动特征f _l(x)、人脸检测特征f _f (x)和人体偏向角特征f _p(x)中的部分或全部构成特征矢量，社交距离特征f _d(x)是指深度信息中携带的社交距离，人体方位角特征fa(x)是指用户相对于机器人的方位角，头部姿态特征f _h(x)是指头部水平偏转角与待检测图像采集相机位置之间的相对角，唇动特征f _l(x)是指用户嘴唇的长宽比，人脸检测特征f _f (x)是指是否检测到人脸，人体偏向角特征f _p(x)是指用户的身体偏转角与待检测图像采集相机位置之间的相对角。

可选地，步骤2.1）中计算得到的人体关键点或人脸关键点的三维坐标为(x _b1,y _b1,z_b1)，步骤2.2）中：

所述社交距离特征f _d(x)的计算函数表达式为：

所述人体方位角特征f _a(x)的计算函数表达式为：

所述头部姿态特征f _h(x)的计算函数表达式为：

其中，θ _h为根据人脸关键点检测得到的结果选取鼻端、内眼角、外眼角三组对称关键点求得头部水平偏转角与相机位置之间的相对角度；

所述唇动特征f _l(x)在用户的嘴巴长宽比LAR大于等于预设阈值时取1，否则取0；

所述人体偏向角特征f _p(x)的计算函数表达式为：

其中，θ _p为左肩和右肩对应的对称关键点求得身体偏转角与相机位置之间的相对角度。

可选地，步骤3）中的机器学习分类模型为随机森林回归模型，且将提取得到的特征矢量输入预先训练好的机器学习分类模型得到注意力检测结果的步骤包括：3.1）针对提取得到的特征矢量，从决策树的根节点起，判断当前节点是否为叶子节点，如果是则返回叶子节点的预测值，该预测值为当前叶子中样本目标变量的平均值；如果不是则进入下一步；3.2）根据当前节点的切分变量的和切分值，将样本中对应变量的值与当前节点的切分值对比，如果样本变量的值小于等于当前节点的切分值，则访问当前节点的左子节点；如果样本变量的值大于当前节点的切分值，则访问当前节点的右子节点；3.3）跳转执行步骤3.2）直到访问到叶子节点，并返回叶子节点的预测值，该预测值为当前叶子中样本目标变量的平均值；3.4）跳转执行步骤3.1）直到所有决策树都返回预测值，用户的注意力为随机森林回归模型的预测结果为所有决策树预测结果的均值。

可选地，步骤3）之前还包括训练随机森林回归模型的下述步骤：

S1）将特征矢量x _i以及对应样本评分s _i构建训练样本集S，训练样本集S中的任意样本表示为(x _i,s _i)；

S2）对输入训练样本集S进行n次有放回地重复采样得到子训练集S(i)；

S3）以子训练集S(i)作为根节点的样本，从根节点开始训练；判断是否为叶子节点，若是，求当前节点所有预测结果的平均值，并作为该叶子节点的预测值并返回，如果不是则进入下一步；

S4）计算得到的训练集合的特征个数C和训练集合大小N，若特征个数C大于0，则遍历第C个特征在子训练集S(i)中的所有取值，以每个值为切分点，计算切分后各个子节点的不纯度的加权，每取一个切分点，把该切分点的不纯度与当前节点最小的不纯度比较，如果比后者小，则存储该切分点和切分特征，然后将特征个数C自减1，跳转执行步骤S4）直至特征个数C等于0，最终得到当前节点的最优化分，将训练样本集S划分为两个集合，据此构造左右两个子节点，两个子节点递归执行整个过程，直到到达叶子节点并返回；

S5）跳转执行步骤S3）直到所有节点都被训练过或被标记为叶子节点；

S6）跳转执行步骤S3）直到所有决策树都被训练过。

此外，本发明还提供一种人机自然交互的用户注意力计算系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述人机自然交互的用户注意力检测方法的步骤，或者所述存储器中存储有被编程或配置以执行所述人机自然交互的用户注意力检测方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述人机自然交互的用户注意力检测方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明方法包括：根据包含用户画面及其深度信息的待检测图像提取人体关键点；根据提取得到的人体关键点进行人体动作特征提取；将提取得到的特征矢量输入预先训练好的机器学习分类模型得到注意力检测结果；所述机器学习分类模型被预先训练建立了特征矢量、注意力检测结果之间的映射关系。本发明在人机交互的过程中能够主动的在多用户场景下对用户的行为进行分析来判断用户的交互意愿，以便为注意力更高的用户主动提供服务。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例中的人体关键点特征图。

图3为本发明实施例中的人脸关键点特征图。

图4为本发明实施例中的首部及左右肩部关键点特征图。

图5为本发明实施例中的社交距离及人体方位角模型计算图。

图6为本发明实施例中的鼻端及内外眼角关键点特征图。

图7为本发明实施例中的外眼角模型计算图。

图8为本发明实施例中的唇部关键点特征及唇动模型计算图。

图9为本发明实施例中的模拟数据采集场景。

图10为本发明实施例中的实际数据采集场景。

图11为本发明实施例中的数据集部分图像。

图12为本发明实施例中将待测图像输入随机森林回归模型的处理流程图。

图13为本发明实施例中单个用户的注意力计算结果图一。

图14为本发明实施例中单个用户的注意力计算结果图二。

图15为本发明实施例中单个用户的注意力计算结果图三。

图16为本发明实施例中多个用户的注意力计算结果图。

具体实施方式

如图1所示，本实施例人机自然交互的用户注意力检测方法包括：

3）将提取得到的特征矢量输入预先训练好的机器学习分类模型得到注意力检测结果；该机器学习分类模型被预先训练建立了特征矢量、注意力检测结果之间的映射关系。

本实施例中，步骤1）之前还包括获取包含用户画面及其深度信息的待检测图像的下述步骤：深度相机获取目标场景内的深度图像D和彩色图像C，将深度图像D和彩色图像C对齐得到包含用户画面及其深度信息的待检测图像。本实施例中具体为采用通过RealSenseD435i深度相机获取场景内的深度图像D和彩色图像C。

本实施例中，将深度图像D和彩色图像C对齐的步骤包括：将深度图像D的像素点还原到深度坐标系下，将深度坐标系下的深度点还原到世界坐标系，将世界坐标系的深度点转换到彩色坐标系下，最后将彩色坐标系的深度点映射到Z=1的平面上与彩色图像C的像素点对应起来，使得彩色图像C每个像素点都得到一个深度信息。

步骤1）用于实现目标定位与关键点检测。目标定位是指在多用户条件下，先对机器人视野中出现的多个用户进行目标定位并确定位置。关键点检测是通过算法检测定位到的用户的人体关键点和人脸关键点。

本实施例中，步骤1）中提取人体关键点的步骤包括：1.1）针对待检测图像采用预设的人体检测网络模型提取出人体在图像中的范围区域，得到人体检测框R_b，R_b={(u _i1,v _i1), (u _i2,v _i2) | i=1,2,3,…,n}，其中 (u _i1,v _i1)为第i个人体检测框的左上角坐标，(u _i2,v _i2) 为第i个人体检测框的右下角坐标，n为人体检测框的数量；本实施例中具体采用YOLOv3目标检测方法（详见Redmon J, Farhadi A. Yolov3: An incrementalimprovement[J].arXiv preprint arXiv:1804.02767, 2018）提取出人体在图像中的范围区域；1.2）针对得到的人体检测框R_b采用预设的人脸检测网络模型提取出人脸在图像中的范围区域，得到人脸检测框R_f，R_f={(u _j1,v _j1), (u _j2,v _j2) | j=1,2,3,…,n}，其中 (u _i1,v _i1)为第j个人脸检测框的左上角坐标，(u _i2,v _i2) 为第j个人脸检测框的右下角坐标；本实施例中具体采用开源人脸库Dlib的CNN人脸检测方法（King D E. Dlib-ml: A machinelearning toolkit[J]. The Journal of Machine Learning Research, 2009, 10:1755-1758.）提取人脸在图像中的范围区域；1.3）针对得到的人体检测框R_b、人脸检测框R_f进行匹配，得到匹配好的人体及人脸检测框R，R={(u _i1,v _i1), (u _i2,v _i2) , (u _j1,v _j1), (u _j2,v _j2) | i=j=1,2,3,…,n}；针对得到的人体检测框R_b、人脸检测框R_f进行匹配时，可采用最近邻算法和冒泡排序法等；1.4）将待检测图像、匹配好的人体检测框R_b、人脸检测框R_f采用预设的人体姿态检测模型进行人体关键点检测，得到每一个人体检测框的 n ₁个人体关键点X_b，X_b={(u _ij,v _ij) | i=1,2,3,…,n;j=1,2,3,…,n ₁}，以及n ₂个人脸关键点X_f，X_f={(u _ij,v _ij) | i=1,2,3,…,n;j=1,2,3,…,n ₂}，其中(u _ij,v _ij)为第j个人体关键点或人脸关键点的像素坐标。

本实施例中具体采用开源人体姿态检测库OpenPose（Hidalgo G. OpenPose:Real-time multi-person keypoint detection library for body, face, and handsestimation[J]. Retrieved April, 2018.）的人体关键点检测方法得到18个人体关键点X_b，X_b={(u _ij,v _ij) | i=1,2,3,…,n;j=1,2,3,…,18}，如图2所示。

同理，根据彩色图像C以及由步骤1.3匹配好的人体检测框R_b、人脸检测框R_f采用开源人脸库Dlib的人脸关键点检测方法得到68个人脸关键点X_f，X_f={(u _ij,v _ij) | i=1,2,3,…,n;j=1,2,3,…,68}，如图3所示。

本实施例中，步骤2）中进行人体动作特征提取包括：2.1）计算人体关键点的三维坐标；2.2）根据提取得到的人体关键点的三维坐标提取社交距离特征f _d(x)、人体方位角特征f _a(x)、头部姿态特征f _h(x)、唇动特征f _l(x)、人脸检测特征f _f (x)和人体偏向角特征f _p(x)中的全部构成特征矢量（也可以根据选择部分，但是会造成检测准确度下降），社交距离特征f _d(x)是指深度信息中携带的社交距离，人体方位角特征fa(x)是指用户相对于机器人的方位角，头部姿态特征f _h(x)是指头部水平偏转角与待检测图像采集相机位置之间的相对角，唇动特征f _l(x)是指用户嘴唇的长宽比，人脸检测特征f _f (x)是指是否检测到人脸，人体偏向角特征f _p(x)是指用户的身体偏转角与待检测图像采集相机位置之间的相对角。

由于步骤1）中是人体和人脸在图像上的坐标，为了用户与机器人的空间位置关系，需结合相应的深度图像D，计算已获取的人体与人脸关键点的三维坐标。对于任意图像坐标A(u,v)及其相对应的深度d=D(u,v)，根据相机成像原理，其相对于机器人相机坐标系的三维坐标A' (x,y,z)可通过求解以下像素坐标系到机器人相机坐标系映射方程得到：

上式中，右侧的系数矩阵可通过相机参数直接获得，或者采用相机标定得到，其中f _x,f _y为缩放焦距，c _x,c _y为焦点。通过求解线性方程组可得：

上式中，depthScale是深度标尺。步骤2.1）计算人体关键点的三维坐标时，采用上式即可将人体关键点X_b转换为机器人相机坐标系下的三维关键点P_b={(x _ij,y _ij,z _ij) | i=1,2,3,…,n; j=1,2,3,…,n ₁}，其中(x _ij,y _ij,z _ij) 表示某一人体关键点的三维坐标；同理，采用上式即可将人脸关键点X_f转换为机器人相机坐标系下的三维关键点P_f={(x _ij,y _ij,z _ij) | i=1,2,3,…,n; j=1,2,3,…,n ₁}，其中(x _ij,y _ij,z _ij)表示某一人脸关键点的三维坐标。

本实施例中，根据提取得到的人体关键点的三维坐标提取社交距离特征f _d(x)、人体方位角特征f _a(x)、头部姿态特征f _h(x)、唇动特征f _l(x)、人脸检测特征f _f (x)和人体偏向角特征f _p(x)中的全部构成特征矢量包括进行归一化计算，将归一化后的各个特征形成特征矢量：

x _v ={ x _i | i=1,2,3,4,5,6}

上式中，i为特征的维度。

假定步骤2.1）中计算得到的人体关键点或人脸关键点的三维坐标为(x _b1,y _b1,z_b1)，6个维度的特征的说明如下：

社交距离特征f _d(x)：社交距离主要是通过用户到机器人的距离来衡量的。如图4所示，选取首(第1号关键点)关键点来求用户到机器人的距离。设首关键点坐标为B ₁=(x _b1,y _b1,z_b1)，如图5所示在xoz平面上线段oB₁的长度即为社交距离。

社交距离特征f _d(x)的计算函数表达式为：

人体方位角特征f _a(x)：人体方位角主要是通过用户位于机器人的方位角θa来衡量的，根据用户首关键点的坐标可求解人位于机器人的哪个方位。设首关键点坐标为B ₁=(x _b1,y _b1,z_b1)，如图5所示在xoz平面上角度θa即为人体方位角。

人体方位角特征f _a(x)的计算函数表达式为：

头部姿态特征f _h(x)：头部姿态主要是通过头部水平偏转角与相机位置之间的相对角度θ _h来衡量的。如图6所示，根据人脸关键点检测得到的结果选取鼻端（第32、36号关键点）、内眼角（第40、43号关键点）、外眼角（第37、46号关键点）三组对称关键点求得头部水平偏转角与相机位置之间的相对角度θ _h，然后对三组水平偏转角度求取平均值得到用户的头部姿态。头部姿态特征f _h(x)的计算函数表达式为：

其中，θ _h为根据人脸关键点检测得到的结果选取鼻端、内眼角、外眼角三组对称关键点求得头部水平偏转角与相机位置之间的相对角度。设左侧外眼角坐标为p₃₇=(x₃₇,y₃₇,z₃₇)、右侧外眼角坐标为p₄₂=(x₄₂,y₄₂,z₄₂)，如图7所示，过E₁,E₂两点间做垂直平分线交x轴于D点，求得在xoz平面上，点E((x₃₇+ x₄₂)/2, (z₃₇+z₄₂)/2)和点D( ((z₄₂)²-(z₃₇)²-(x₄₂)²+(x₃₇)²)/2(x₄₂- x₃₇),0)的坐标，然后在∆oED上根据余弦公式求出角θ _h1的余弦值，最后通过反余弦函数求解出角θ _h1。同理可求得对称点鼻端、内眼角的头部水平偏转角与相机位置之间的角θ _h2、θ _h3。那么可以求得头部姿态θ _h=(θ _h2 +θ _h2 +θ _h3)/3。

唇动特征f _l(x)：唇动特征主要通过用户嘴巴的长宽比LAR来衡量的。唇动特征f _l(x)在用户的嘴巴长宽比LAR大于等于预设阈值时取1，否则取0。如图8中的子图（a）和子图（b）所示，其中子图（a）为唇部处于闭合状态，子图（b）为唇部处于张开状态，用户嘴巴的长宽比LAR根据人脸关键点检测得到的结果选取唇部周围的六个关键点（第49、51、53、55、57、59号关键点）来求得，其函数表达式为：

上式中，P49、P51、P53、P55、P57、P59分别表示第49、51、53、55、57、59号关键点的坐标。本实施例中，唇动特征对应的预设阈值取值为0.45，即有：

人脸检测特征f _f (x)：人脸检测通过能否检测到人脸来检测衡量的。例如本实施例中通过MTCNN（详见Zhang K, Zhang Z, Li Z, et al. Joint face detection andalignment using multitask cascaded convolutional networks[J]. IEEE SignalProcessing Letters, 2016, 23(10): 1499-1503.）人脸检测模型来对图像中的用户进行人脸检测。本实施例中表示为：

人体偏向角特征f _p(x)：人体偏向角主要是通过身体偏转角与相机位置之间的相对角度

来衡量的。根据肢体关键点检测得到的结果选取左肩和右肩（第2、5号关键点）对称关键点求得身体偏转角与相机位置之间的相对角度θ _p。方法类似于头部姿态角的计算，在此不再赘述。故人体偏向角特征f _p(x)的计算函数表达式为：

需要说明的是，被预先训练建立了特征矢量、注意力检测结果之间的映射关系的机器学习分类模型可以根据需要选择现有各类机器学习分类模型。作为一种可选的实施方式，本实施例步骤3）中的机器学习分类模型为随机森林回归模型。

本实施例中，将提取得到的特征矢量输入预先训练好的机器学习分类模型得到注意力检测结果的步骤包括：3.1）针对提取得到的特征矢量，从决策树的根节点起，判断当前节点是否为叶子节点，如果是则返回叶子节点的预测值，该预测值为当前叶子中样本目标变量的平均值；如果不是则进入下一步；3.2）根据当前节点的切分变量的和切分值，将样本中对应变量的值与当前节点的切分值对比，如果样本变量的值小于等于当前节点的切分值，则访问当前节点的左子节点；如果样本变量的值大于当前节点的切分值，则访问当前节点的右子节点；3.3）跳转执行步骤3.2）直到访问到叶子节点，并返回叶子节点的预测值，该预测值为当前叶子中样本目标变量的平均值；3.4）跳转执行步骤3.1）直到所有决策树都返回预测值，用户的注意力为随机森林回归模型的预测结果为所有决策树预测结果的均值。

本实施例中，步骤3）之前还包括训练随机森林回归模型的下述步骤：

S6）跳转执行步骤S3）直到所有决策树都被训练过。

本实施例中，设定样本采集场景，使用RealSenseD435i深度相机采集用户包含不同的注意力的训练样本，对样本进行预处理，通过对样本处理得到特征矢量集合；同时对包含不同注意力状态的用户图像进行人工评分，将特征矢量集合以及相对应样本评分作为训练集，并以此数据集对多个回归树构成的随机森林回归模型进行训练，最后将训练得到的随机森林模型用于新的用户图像的注意力量化计算。训练数据集构造时，如图9所示构建数据采集场景，实际场景如图10所示，图11为训练数据集的部分图像实例。如图9和图10所示，本实施例中以相机为中心点建立坐标轴，确定五个注视点（图中标注，每相邻两个注视点的距离为0.6m），15个采集点（图中蓝色标注，相同距离五个为一组，同组相邻两个采集点夹角为15°，①-⑤号站立点距离圆心O为1m、⑥-⑩号站立点距离圆心O为2m、⑪-⑮号站立点距离圆心O为3m），其中在每个站立点站立时，身体与相机之间的夹角依次设置为60°、45°、30°、15°、0°。通过RealSenseD435i深度相机获取彩色图像C和深度图像D；在获得样本数据后，由五位同学根据图像对用户的交互意愿进行评分，将五位同学评分的平均值作为用户交互意愿得分的最终结果，任意样本可以表示为(C _i,D _i,s _i)，其中C _i表示彩色图像，D _i表示深度图像，s _i表示评分值。

将采集到所有样本通过特征模型进行注意力特征提取得到特征矢量，然后将特征矢量以及相对应样本评分构建训练样本集S，任意样本可以表示为(x _i,s _i)，其中x _i表示特征矢量。特征维数为6，使用到的决策树的数量记为t，树达到的最大深度为d。对输入训练样本集S通过bootstrap进行n次有放回地重复采样，得到子训练集S(i)，对于第n(n≤t)棵树，i=n。在子训练集S(i)所在的输入空间中，每次划分通过穷举法遍历每个特征和每个特征的所有取值，根据平方误差最小化准则选择其中最优的切分变量和切分点，详见前文的步骤S1）～S6）。其中，步骤S4）中计算切分后各个子节点的不纯度的加权（即切分后的节点的不纯度）的函数表达式如下式所示：

其中G(x,v)是各个子节点的不纯度的加权和，即切分后的节点的不纯度，x为某一个切分变量，v为切分变量的一个切分值，N _s为切分后当前节点所有训练样本个数，X _left、X _right分别为切分后左子节点的训练样本个数、右子节点的训练样本个数，y _i和y _j为评分值，

、

分别为切分后左子节点的训练样本评分值的平均值。

最终，将生成的n棵决策树组成一个初步的随机森林回归模型。为降低模型的泛化误差，本实施例中选择在十倍交叉验证条件下对随机森林回归模型进行调参。通过网格搜索，取每十个数作为一个阶段，观察决策树的数量的变化对模型整体准确率的变化，再确定好的范围内，进一步细化学习曲线，最终取t=77；同样的，通过网格搜索确定树深的最佳取值d=10，特征数量的最佳取值f=6。根据调参结果确定随机森林回归算法的最终模型，其中随机森林回归模型的预测结果为所有决策树预测结果的均值。如图12所示，将待测图像输入随机森林回归模型，即可求出用户的注意力，用户的注意力为随机森林回归模型的预测结果为所有决策树预测结果的均值。

如图13～图16所示是本实施例人机自然交互的用户注意力检测方法的注意力计算结果图。图13、图14、图15可以看出本实施例人机自然交互的用户注意力检测方法可以根据用户的注意力特征来计算用户的注意力；图16可以看出本实施例人机自然交互的用户注意力检测方法可以对同一场景内的多个用户的注意力进行有效计算。

综上所述，本实施例人机自然交互的用户注意力检测方法通过确定场景中用户的人脸和人体位置，检测用户身体关键点和面部关键点，建立的注意力特征模型，设定样本采集场景获取样本并对样本进行评分，通过建立的注意力特征模型提取六种注意力特征来训练一个随机森林回归模型，最后通过随机森林回归模型对用户的注意力分析计算。首先对机器人视野中出现的多个用户进行目标检测并确定位置，从目标检测得到的结果中提取出人体位置坐标，进而通过人体关键点检测模型得到人体关键点坐标，同时对多个用户进行人脸检测，通过人脸检测模型得到人脸位置信息，进而通过人脸关键点检测模型得到人脸关键点坐标；选取唇动分析、人脸检测注意力特征，根据人体和人脸关键点以及深度信息建立头部姿态、社交距离、人体偏向角、人体方位角模型；然后设定样本采集场景获取样本并对样本进行评分，通过建立的注意力特征模型提取图像中用户的六种注意力特征以及对图像的评分来训练一个随机森林回归模型；最后通过训练好的随机森林回归模型对不同场景下的用户的注意力进行评分。本实施例人机自然交互的用户注意力检测方法采用的基于随机森林回归模型的注意力计算方法能够在多用户场景下，针对嘈杂的环境取得良好的计算结果。

此外，本实施例还提供一种人机自然交互的用户注意力计算系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述人机自然交互的用户注意力检测方法的步骤，或者所述存储器中存储有被编程或配置以执行所述人机自然交互的用户注意力检测方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述人机自然交互的用户注意力检测方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人机自然交互的用户注意力检测方法，其特征在于，包括：

2.根据权利要求1所述的人机自然交互的用户注意力检测方法，其特征在于，步骤1）之前还包括获取包含用户画面及其深度信息的待检测图像的下述步骤：深度相机获取目标场景内的深度图像D和彩色图像C，将深度图像D和彩色图像C对齐得到包含用户画面及其深度信息的待检测图像。

3.根据权利要求2所述的人机自然交互的用户注意力检测方法，其特征在于，所述将深度图像D和彩色图像C对齐的步骤包括：将深度图像D的像素点还原到深度坐标系下，将深度坐标系下的深度点还原到世界坐标系，将世界坐标系的深度点转换到彩色坐标系下，最后将彩色坐标系的深度点映射到Z=1的平面上与彩色图像C的像素点对应起来，使得彩色图像C每个像素点都得到一个深度信息。

4.根据权利要求1所述的人机自然交互的用户注意力检测方法，其特征在于，步骤1）中提取人体关键点的步骤包括：1.1）针对待检测图像采用预设的人体检测网络模型提取出人体在图像中的范围区域，得到人体检测框R_b，R_b={(u _i1,v _i1), (u _i2,v _i2) | i=1,2,3,…,n}，其中(u _i1,v _i1)为第i个人体检测框的左上角坐标，(u _i2,v _i2) 为第i个人体检测框的右下角坐标，n为人体检测框的数量；1.2）针对得到的人体检测框R_b采用预设的人脸检测网络模型提取出人脸在图像中的范围区域，得到人脸检测框R_f，R_f={(u _j1,v _j1), (u _j2,v _j2) | j=1,2,3,…,n}，其中 (u _i1,v _i1)为第j个人脸检测框的左上角坐标，(u _i2,v _i2) 为第j个人脸检测框的右下角坐标；1.3）针对得到的人体检测框R_b、人脸检测框R_f进行匹配，得到匹配好的人体及人脸检测框R，R={(u _i1,v _i1), (u _i2,v _i2) , (u _j1,v _j1), (u _j2,v _j2) | i=j=1,2,3,…,n}；1.4）将待检测图像、匹配好的人体检测框R_b、人脸检测框R_f采用预设的人体姿态检测模型进行人体关键点检测，得到每一个人体检测框的 n ₁个人体关键点X_b，X_b={(u _ij,v _ij) | i=1,2,3,…,n;j=1,2,3,…,n ₁}，以及n ₂个人脸关键点X_f，X_f={(u _ij,v _ij) | i=1,2,3,…,n;j=1,2,3,…,n ₂}，其中(u _ij,v _ij)为第j个人体关键点或人脸关键点的像素坐标。

5.根据权利要求1所述的人机自然交互的用户注意力检测方法，其特征在于，步骤2）中进行人体动作特征提取包括：2.1）计算人体关键点的三维坐标；2.2）根据提取得到的人体关键点的三维坐标提取社交距离特征f _d(x)、人体方位角特征f _a(x)、头部姿态特征f _h(x)、唇动特征f _l(x)、人脸检测特征f _f (x)和人体偏向角特征f _p(x)中的部分或全部构成特征矢量，社交距离特征f _d(x)是指深度信息中携带的社交距离，人体方位角特征fa(x)是指用户相对于机器人的方位角，头部姿态特征f _h(x)是指头部水平偏转角与待检测图像采集相机位置之间的相对角，唇动特征f _l(x)是指用户嘴唇的长宽比，人脸检测特征f _f (x)是指是否检测到人脸，人体偏向角特征f _p(x)是指用户的身体偏转角与待检测图像采集相机位置之间的相对角。

6.根据权利要求5所述的人机自然交互的用户注意力检测方法，其特征在于，步骤2.1）中计算得到的人体关键点或人脸关键点的三维坐标为(x _b1,y _b1,z_b1)，步骤2.2）中：

所述社交距离特征f _d(x)的计算函数表达式为：

所述人体方位角特征f _a(x)的计算函数表达式为：

所述头部姿态特征f _h(x)的计算函数表达式为：

所述人体偏向角特征f _p(x)的计算函数表达式为：

7.根据权利要求1所述的人机自然交互的用户注意力检测方法，其特征在于，步骤3）中的机器学习分类模型为随机森林回归模型，且将提取得到的特征矢量输入预先训练好的机器学习分类模型得到注意力检测结果的步骤包括：3.1）针对提取得到的特征矢量，从决策树的根节点起，判断当前节点是否为叶子节点，如果是则返回叶子节点的预测值，该预测值为当前叶子中样本目标变量的平均值；如果不是则进入下一步；3.2）根据当前节点的切分变量的和切分值，将样本中对应变量的值与当前节点的切分值对比，如果样本变量的值小于等于当前节点的切分值，则访问当前节点的左子节点；如果样本变量的值大于当前节点的切分值，则访问当前节点的右子节点；3.3）跳转执行步骤3.2）直到访问到叶子节点，并返回叶子节点的预测值，该预测值为当前叶子中样本目标变量的平均值；3.4）跳转执行步骤3.1）直到所有决策树都返回预测值，用户的注意力为随机森林回归模型的预测结果为所有决策树预测结果的均值。

8.根据权利要求7所述的人机自然交互的用户注意力检测方法，其特征在于，步骤3）之前还包括训练随机森林回归模型的下述步骤：

S6）跳转执行步骤S3）直到所有决策树都被训练过。

9.一种人机自然交互的用户注意力计算系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，其特征在于，所述微处理器被编程或配置以执行权利要求1～8中任意一项所述人机自然交互的用户注意力检测方法的步骤，或者所述存储器中存储有被编程或配置以执行权利要求1～8中任意一项所述人机自然交互的用户注意力检测方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～8中任意一项所述人机自然交互的用户注意力检测方法的计算机程序。