CN115019233B

CN115019233B - 一种基于姿态检测的精神发育迟滞判别方法

Info

Publication number: CN115019233B
Application number: CN202210680827.6A
Authority: CN
Inventors: 刘泉; 阳俊; 蔡旻成; 艾青松; 刘佩
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2024-05-03
Anticipated expiration: 2042-06-15
Also published as: CN115019233A

Abstract

本发明公开了一种基于姿态检测的精神发育迟滞判别方法，该方法包括以下步骤：1)建立儿童受试者的临床评估视频数据集，包括训练集、验证集和测试集；2)数据预处理，形成图卷积神经网络的输入矩阵；3)根据人体的生理骨架结构，构建空间中人体节点的自我邻接图和初始邻接图结构；4)根据时空维度中，节点与节点之间距离的多样性，将已有的两个时空拓扑图在时空距离上进行迭代，得到多尺度时空距离的邻接图结构；5)对邻接图结构进行调整；6)精神发育迟滞评估。本发明中为了使图卷积神经网络能够适应性的学习临床评估场景中精神发育迟滞患者的复杂行为特征以及节点的邻接关系，提出了多种方式来完成图的构建，提高了评估结果的准确度。

Description

一种基于姿态检测的精神发育迟滞判别方法

技术领域

本发明涉及深度学习技术，尤其涉及一种基于姿态检测的精神发育迟滞判别方法。

背景技术

传统精神发育迟滞(MR，Mental Retardation)评估采用的是智力测验方法，受过专业训练的精神科医生会利用儿童韦氏智力量表(WISC，Wechsler intelligence scalefor child)作为评定标准，对儿童受试者的语言能力和操作行为进行测试，从而评估出受试者的智力分数，并根据世界卫生组织WHO(World Health Organization)的标准，将不同的智力分数评判为不同的精神发育迟滞程度。

但是传统的精神发育迟滞评估方法存在着两个主要的缺陷：(1)由受过专业训练的精神科医生评估需要消耗大量的时间，大约1～2h，不利于儿童的快速健康筛查，也不方便精神发育迟滞患者的移动家庭管理和及时的病情反馈；(2)由于评估过程中存在较大的主观性，因此，评估结果不能作为直接诊断的依据，往往需要结合受试者的社会学数据和社会性行为评估，整个过程要耗费大量的人力和物力。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于姿态检测的精神发育迟滞判别方法。

本发明解决其技术问题所采用的技术方案是：一种基于姿态检测的精神发育迟滞判别方法，包括以下步骤：

1)建立儿童受试者的临床评估视频数据集，包括训练集、验证集和测试集；

2)数据预处理，将视频数据集中的视频提取为RGB图像，并将图像尺寸转换为224×224，然后采用先进的AlphaPose方法从RGB图像中提取人体关键点坐标(x_i，y_i，s_i)，i∈{0，1，...，N}，其中，目标检测和姿态估计方法分别采用的Yolov3和Rmpe；所述人体关键点为18个人体关键点的；

为了去除医生的关键点对于精神发育迟滞评估带来的影响，选取关键点分数求和s₀+s₁+...+s_N最大的人体；

连续32帧的关键点坐标和分数形成图卷积神经网络的输入矩阵R^B×C×T×N，其中B为批处理尺寸，C为通道数目，T为输入帧数，N为总的节点数目；

3)根据人体的生理骨架结构，构建空间中人体节点的自我邻接图和初始邻接图结构；

并通过2种定义不同时刻的相同节点距离的方法，实现两种拓扑图结构在时间维度上延伸，构建出时空拓扑图，进而将二维的图卷积结构转换为三维的图卷积结构；

具体如下：

3.1)在时刻t下，将得到的人体N个关键点在人体生理骨架模型的基础上，构建得到空间维度下的自我邻接矩阵I和初始邻接矩阵A；矩阵I中节点空间距离为0，矩阵A中节点空间距离为1；

3.2)采用一个时间滑动窗口，其尺寸为τ，获得{t-k，...，t，...，t+l}时间片段中的时空关键点，其中k+l+1＝τ；采用了两种方式定义节点之间的时空距离，来完成时空邻接矩阵的构建，记该两种方式构建的时空自我邻接矩阵和初始邻接矩阵/>

第一种方式：相同节点在不同时刻之间的距离为0，也就是说相同节点在不同时刻是等价的，则有：

d(x_i，t，x_j，t+τ)＝d(x_i，t，x_j，t)＝d(x_i，x_j)

第二种方式：相同节点在不同时刻之间的距离等于时间间隔，也就是认为节点在时空维度中是相互独立的，则有：

d(x_i，t，x_j，t+τ)＝d(x_i，t，x_i，t+τ)+d(x_i，t+τ，x_j，t+τ)＝τ+d(x_i，x_j)

4)根据时空维度中，节点与节点之间距离的多样性，将已有的两个时空拓扑图在时空距离上进行迭代，得到多尺度时空距离的邻接图结构；

5)对邻接图结构进行调整；调整后的图结构为：

其中，A^res为被初始化为0附件数值的矩阵，A^res以求和的方式作用于原矩阵能够自适应改变原邻接图中无邻接关系的节点之间关联性；M为被初始化为全1的矩阵，以哈达玛积的方式作用于原矩阵，用于动态学习邻接权重；

6)精神发育迟滞评估；

根据上述图构建方式建立图卷积神经网络结构，使用训练集、验证集和测试集获得最终的精神发育迟滞评估模型，将精神发育迟滞评估模型评估结果中分数最大的类别作为精神发育迟滞评估结果。

按上述方案，步骤1)中的数据集包含4种类别：正常、轻度、中度和重度。

按上述方案，所述步骤4)中多尺度时空距离的邻接图结构，由矩阵的高阶幂的计算方式所获得；

实现公式为：

其中，Θ是指当矩阵中某位置的数值满足大于0时，那么该位置的数值赋值为1，k表示时空节点之间的距离。

按上述方案，所述步骤4)中还包括根据行为或者动作中节点与节点之间存在协同运动的关联，对已有的时空邻接图进一步扩展，扩展方式如下：

在一个时空邻接图中，k≥2，节点i与节点j具备邻接关系，而在时空邻接图/>中，节点m与节点j具备邻接关系，则认为节点i与节点m之间存在协同运动的关联；

建立时空邻接图中节点m与节点j的关联：

如果时空邻接图中一共有q个节点与节点i相邻，那么时空邻接图/>中节点m与节点j的邻接重要性增加1/q：

按上述方式将k≥2的时空邻接矩阵扩展为/>

按上述方案，所述步骤6)中神经网络包括依次连接的输入层、三个图卷积层、一个全局平均池化层、全连接层和softmax层。

按上述方案，所述步骤6)中神经网络的图卷积方式中采用了4种方式完成2DGCN到3DGCN的转变，其中第4种方式是前面三种方式的融合，2DGCN到3DGCN的转变方式不会影响图的构建；

具体来说一共包含4种方式：‘past’，‘now’，‘future’，‘all’，它们的定义如下所述，其中目标视频帧对应的时刻为t；

‘past’方式指利用过去时刻{t-τ+1，t-τ+2，...，t-1}包括本时刻{t}的时空节点特征{X_t-τ+1，X_t-τ+2，...，X_t}，通过上述方法来构建时空拓扑图结构，并更新空间节点特征X_t；

‘future’方式采用的是未来时刻{t，tt1，...，t+τ-1}的特征{X_t，X_t+1，...，X_t+τ-1}，来更新本时刻的特征X_t；

‘now’方式中更新方式{t-k，...，t，...，t+l}既包括过去时刻也包括未来时刻，其中k+l+1＝τ；

‘all’方式是上面三种方式的融合，将上面三种方式分别作为神经网络的三个分支，并将三个分支中图卷积聚集并更新后的特征进行融合。

按上述方案，所述步骤6)的神经网络结构为ESS MS-STGC的三分支图卷积网络结构，具体如下：

ESS MS-STGC的每一层由三个分支所组成，第一个分支和第二个分支为时间窗口尺寸τ＝3和τ＝5的ESS MS-G3D网络，ESS MS-G3D网络用于学习时空特征的共现性；

ESS MS-G3D网络包括一个增加的shift layer层，其中，shift layer层，首先将目标节点i的特征X_t，i提取，并将其余节点的特征{X_t-k，1...，X_t，i-1，X_t，i+1，...，X_t+l，N}压缩，以求和的方式获取全局时空节点特征，然后将该特征与原始节点特征X_t，i合并以获得非局部特征，最终对每一个节点均采用此shift方式；shift layer层设置在各分支的图卷积层之前；

ESS MS-G3D网络为由shift layer层与步骤5)中的图构建方式、图卷积方式联合形成的ESS MS-G3D网络，时间窗口尺寸τ决定了时空节点的个数；

第三个分支采用ESS ST-GCN，一种时间和空间特征单独学习的方式，时间特征采用多感受野的卷积核进行多尺度信息提取；空间特征学习中，采用步骤5)中的图构建方式，并且在图卷积之前加上shift layer，以完成全局特征的学习。

本发明产生的有益效果是：

1)提出了一种基于深度学习的视频评估方法，能够从视频中学习患者的异常行为特征，从而完成精神发育迟滞患者类别的初步筛选和辅助诊断；

2)本发明中为了使图卷积神经网络能够适应性的学习临床评估场景中精神发育迟滞患者的复杂行为特征以及节点的邻接关系，提出了多种方式来完成图的构建，包括空间图向时空图的转换、时空图的多尺度信息扩充、时空图的邻接节点关系扩展以及两个图自适应可学习参数的引入；

3)本发明中，考虑到临床视频中，受试者行为与动作的多变性，因此会存在大量的动作交替，因此提出4种图卷积方式，分别用于解决动作开始和结束的端点干扰效应、学习双向行为特征。最后一种方式用于结合前面三种的优势；

4)本发明中，考虑图卷积网络到学习时空全局特征的重要性，提出了一个shiftlayer结构，此结构几乎不消耗任何算力，同时也不会破坏原始节点的特征，并且此结构能一定程度上解决复杂行为中的节点邻接关系问题；

5)本发明中采用了一种三分支的ESS MS-STGC网络结构，能够同时学习有区分性的时空特征以及时空特征的共现性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例方法的原理示意图；

图2为本发明实施例中基于人体生理结构的18个节点的骨架模型示意图；

图3为本发明实施例中提出的两种方式所构建的可视化时空邻接矩阵示意图；

图4为本发明实施例中采用的两种方式扩展的多尺度时空图；

图5为本发明实施例中采用的两种图自适应参数在网络训练之后，对于原图结构造成的改变的示意图；

图6为本发明实施例中shift layer的结构图；

图7为本发明实施例中三分支网络ESS MS-STGC的整体框架图；

图8为本发明实施例中验证集和测试集中精神发育迟滞二分类评估下10次的箱线图(菱形代表均值，灰色实线代表中位数)；

图9为本发明实施例中测试集中四分类实验结果的ROC曲线示意图；

图10为本发明实施例中测试集中四分类实验结果的混淆矩阵示意图；

图11为本发明实施例中ESS MS-STGC提取的四种精神发育迟滞程度的高层次特征的T-SNE可视化图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于姿态检测的精神发育迟滞判别方法，包括以下步骤：

本文提出了一个基于ESS MS-G3D的精神发育迟滞评估方法和方法，包括如下步骤：

1)在武汉大学人民医院心理健康中心采集了128个儿童受试者的临床评估视频，每一个视频均由受过专业训练的精神科医生评定并打上标签，同时为了实现数据集的扩充，将原有的视频修剪为多个视频片段；

本发明一共在武汉大学人民医院心理健康中心采集了128个儿童受试者的临床评估视频。IP摄像机记录了每一个受试者在临床智力评估时的行为表现，接受过专业培训的精神科医生会根据WISC-cr(Wechsler intelligence scale for child-china revisededi，简称WISC-cr)对他们的智商进行评估，从而根据WHO标准给视频加上MR标签。

为了减小客观因素的干扰，所采集的数据集包括以下四个方面的限定：(1)为了减小认知程度对实验的影响，因此对象均为6～17岁的儿童受试者；(2)所有受试者均处于相同的临床智力测试场景下，保证无外界因素干扰；(3)专业培训的医生会依次给予受试者相同的指令(依据WISC-cr)，然后，由IP摄像机记录下受试者的行为(主要是上肢体动作)；(4)数据集标签由训练有素的精神科医生所标定。

此外为了扩充数据量，并且保证数据集中不同样本类别的平衡性，正常和轻度受试者包含1～2个修剪视频，中度和重度受试者包含5～7个修剪视频，最终一共提取了469个视频用于精神发育迟滞评估，视频的时长为10～60s，其中四种类别(正常、轻度、中度和重度)的类别数量近似为2∶2∶3∶1。然后以视频中每32帧作为网络的输入，并按照7∶1∶2的方式(受试者划分方式)划分数据集，最终得到5305组训练集、777组验证集数据以及1535组测试集数据。

2)从原始视频中提取出RGB图像，并将所有的RGB图像调整为224×224的尺寸，采用先进的姿态估计方法在RGB帧中提取出儿童受试者的18个关键点；

首先将视频提取为RGB图像，并将图像尺寸转换为224×224，然后采用先进的AlphaPose方法从RGB图像中提取人体关键点(x_i，y_i，s_i)，i∈{0，1，...，N}，其中目标检测和姿态估计方法分别采用的Yolov3和Rmpe。由于临床评估场景中存在受试者和医生，部分图像会提取出多个人体的关键点{(x_i，y_i，s_i)₀，(x_i，y_i，s_i)₁，...，(x_i，y_i，s_i)_u}，其中u表示人体个数。为了去除医生的关键点对于精神发育迟滞评估带来的影响，因此选取关键点分数求和s₀+s₁+...+s_N最大的人体，即置信度分数最高。

步骤2)中的姿态估计方法采用的是先进的AlphaPose，先用Yolov3对RGB图像中的人体进行目标检测，然后再目标检测区域方框中利用Rmpe(Regional multi-person poseestimation)方法实现人体关键点提取，提取形式为(x_i，y_i，s_i)，其中i∈{0，1，2，...，N}，N为总的节点个数，x_i和y_i分别为节点相对于图片左上角顶点的空间位置坐标，s_i反应的是关键点分数，关键点分数越高，节点的遮蔽程度越低，位置坐标的置信度也就越高。

再者，通过制定关键点分数的阈值s_threshold＝0.4，实现对于低置信度关键点的剔除，并将关键点的横纵坐标分别处以图像的高和宽，实现单点坐标的归一化：

最终将连续32帧的关键点坐标和分数形成图卷积神经网络的输入矩阵R^B×C×T×N，其中B为批处理尺寸，C为通道数目，T为输入帧数，N为总的节点数目。

图结构的构建：

3)根据人体的生理骨架结构，构建了空间中人体节点的自我邻接图和初始邻接图结构。并通过2种定义不同时刻的相同节点距离的方法，实现两种拓扑图结构在时间维度上延伸，构建出时空拓扑图，进而将二维的图卷积结构转换为三维的图卷积结构；

首先，在时刻t下，将得到的人体18个关键点(人体的生理骨架中包括6个头部关键点、左右手关键点各3个、左右腿关键点各3个，由骨头相连的节点i和j的空间距离为1)在人体生理骨架模型(如图2所示)的基础上，构建得到空间维度下的自我邻接矩阵I(节点空间距离为0)和初始邻接矩阵A(节点空间距离为1)。

然后，采用一个时间滑动窗口，其尺寸为τ，获得{t-k，...，t，...，t+l}时间片段中的时空关键点，其中k+l+1＝τ。本发明中采用了两种方式same in temporal graph和different in temporal graph定义节点之间的时空距离，来完成时空邻接矩阵的构建，该两种方式构建的时空自我邻接矩阵和初始邻接矩阵/>的可视化图如图3所示，为了更好的展示矩阵和可视化图，将时间窗口尺寸设置为τ＝3。

图3的第二行展现了same in temporal graph方式下的两个时空矩阵，即相同节点在不同时刻之间的距离为0，也就是说相同节点在不同时刻是等价的，则有：

d(x_i，t，x_j，t+τ)＝d(x_i，t，x_j，t)＝d(x_i，x_j)

图3的第一行展现了Different in temporal graph方式下的两个时空矩阵，即相同节点在不同时刻之间的距离等于时间间隔，也就是认为节点在时空维度中是相互独立的，则有：

4)根据时空维度中，节点与节点之间距离的多样性，将已有的两个时空拓扑图在时空距离上进行迭代，得到多尺度时空距离的邻接图结构，具体来说一共有8个时空图；

为了更好的建立不同动作中节点之间的关联性，例如‘拍手’中，‘左手’与‘右手’的时空距离为6，如果仅仅只考虑初始邻接矩阵，那么在图卷积神经网络中，至少需要6层网络才能建立两个节点的关联。因此在本发明中，也实现了时空图在距离上的扩充，令为扩充后的时空图，其中k反应了时空节点的距离，则有：

其中Θ用于将矩阵中满足条件的数值赋值为1。具体来说，本发明一共扩充了8个多尺度时空图

5)考虑到行为或者动作中节点与节点之间存在协同运动的关联，因此提出2种方法对已有的8个时空图进一步扩展，得到8个时空扩展图；

同理，在‘拍手’此动作中，不仅只有‘左手’与‘右手’节点之间的直接关联，同时‘左手肘’与‘右手肘’节点也与这两个节点之间存在协同运动关联，因此本发明又对于多尺度时空图进行进一步邻接关系的扩展，得到的多尺度扩展时空图记为图4展现了k＝2情况下的邻接矩阵可视化图。

图4的第2列展示了Extension with no influence方式下的拓扑图，即假设在邻接图中节点i与节点j具备邻接关系，而在时空邻接图/>中，节点m与节点i具备邻接关系，则建立时空邻接图/>中节点m与节点j的关联：

图4的第3列展示了Extension with influence方式下的拓扑图，在上述方式的基础上如果时空邻接图中一共有q个节点与节点i相邻，那么时空邻接图/>中节点m与节点j的邻接重要性增加1/q：

最后考虑到临床评估场景中受试者的行为与公开行为数据集之间存在的差异性，即受试者的行为是复杂多样的，难以通过有限的邻接图建立所有的节点特征关联性。因此本发明在网络模型具备学习能力的基础上，采用了两个自适应参数，即两个可训练参数，可以随着网络的训练过程进行同步优化。考虑到节点之间新邻接关系的学习和构建，引入无约束图残差掩码A^res，考虑到节点之间邻接权重的调整，引入自适应权重参数M。最终形成的图结构为：

其中，A^res被初始化为0附件数值的矩阵，并且以求和的方式作用于原矩阵能够自适应改变原邻接图中无邻接关系的节点之间关联性。M被初始化为全1的矩阵，并且以哈达玛积的方式作用于原矩阵，用于动态学习邻接权重。

6)为了使得网络能够自适应的学习图结构，引入了自适应学习参数，使得节点与节点之间的邻接关系可通过网络自身学习，来进行微小调整；

图5展现了图卷积网络，在不加入图可训练参数、只加入自适应权重参数M、只加入无约束图残差掩码A^res以及加入两种可学习参数情况下，经训练之后的时空图的变化，可以看出A^res有利于新型节点邻接关系的构建，而M可以调整邻接权重，有利于去除冗余的邻接关系，减小图卷积网络中运算的复杂度。

7)2DGCN到3DGCN的转变采用了一种多样式的时间窗口滑动方法，能够消除行为特征学习任务中的端点干扰问题，同时学习时间轴上的双向行为特征变化；

本发明中采用了4种方式完成2DGCN到3DGCN的转变，其中第4种方式是前面三种方式的融合，2DGCN到3DGCN的转变方式不会影响上述图的构建，只会影响不同场景中行为特征学习的优劣性。具体来说一共包含4种方式：‘past’，‘now’，‘future’，‘all’，它们的定义如下所述，其中目标视频帧对应的时刻为t。

‘past’方式指利用过去时刻{t-τ+1，t-τ+2，...，t-1}包括本时刻{t}的时空节点特征{X_t-τ+1，X_t-τ+2，...，X_t}，通过上述步骤来构建时空拓扑图结构，并更新空间节点特征X_t，此时空图卷积方式，可以有效的减少行为结束时刻附近，非动作片段对于动作片段带来的干扰效应。

‘future’方式类似于‘past’方式，采用的是未来时刻{t，t+1，...，t+τ-1}的特征{X_t，X_t+1，...，X_t+τ-1}，来更新本时刻的特征X_t，可以有效的减少行为开始时刻范围内，非动作片段对于动作片段带来的干扰效应。

‘now’方式与上面两种方法不同，其更新方式{t-k，...，t，...，t+l}既包括过去时刻也包括未来时刻，其中k+l+1＝τ。这种方式虽然不能避免端点干扰效应，但是可以同时学习时间轴上的双向行为特征信息，能够提升神经网络多样化信息学习的能力。为了均衡两个方向的特征学习，本发明将k与l均设置为(τ-1)/2。

‘all’方式是上面三种方式的一种融合，将三种方式分别作为神经网络的三个分支，并将三个分支中图卷积聚集并更新后的特征进行融合(融合的方式可以为合并、求和等)。具体来说，本发明采用了求和平均的方式，令分别为上面三种方式的输出，那么有：

8)本发明提出了一个shift layer结构，使得网络能够学习全局特征，同时减小算力的消耗。将shift layer结构与上述的图构建以及图卷积方式相结合，构建了一个ESSMS-G3D网络分支。

本发明中提出了一个shift layer，既可以学习时空维度的全局特征，同时也可以避免原始节点特征的破坏，其结构如图6所示。

Shift layer中包含一个通道压缩占比的参量ratio(本发明通过大量灵敏度分析实验，发现ratio＝1/4时，原始特征的学习性能能够保留，同时可以较好的学习全局特征)，这个代表需要在目标节点上需要移变补充的通道数，设输入通道数为C₁，则移变通道数C₂＝C₁×ratio，输出通道数C_out＝C₁+C₂。Shift layer首先会将全局节点的数据经过一个1×1的Conv layer，完成特征的压缩，然后将压缩特征求和获取全局特征，并把全局特征与目标节点的原有特征合并，即得到了最终的移变特征。

在本发明中，每一个图卷积层前都包含一个shift layer用于完成非全局特征的构建，并且利用上述的4种图卷积方式以及图构建方式完成三维图卷积层的构建，得到时间窗口尺寸为τ的ESS MS-G3D网络。

9)采用了一个ESS MS-STGC的三分支图卷积网络结构，既能够学习有区分性的时空特征，同时也能学习时空特征的共现性。最终我们将训练集、验证集和测试集分别放入ESS MS-STGC中，将分数最大的类别作为精神发育迟滞评估结果。

本发明实施例中考虑到ESS MS-G3D的限制性(对于学习长时间范围的特征会消耗极大的算力资源)，提出了一个优选的三分支的网络结构ESS MS-STGC，如图7所示，其中前两个分支分别为时间窗口尺寸τ＝3和τ＝5的ESS MS-G3D网络，用于同时学习时空维度特征(共现性的学习)，另一个分支采用ESS ST-GCN，即SGCN与TCN的串行，用于学习长时间范围内时空特征的区分性。ESS MS-STGC在输入的时候有一个批规一化层，用于实现数据在时间维度的归一化(空间维度归一化已经在前面实施)，然后连接着三个三分支网络层，其中，第二个和第三个分支网络层会对时间维度数减半，用于减小算力的消耗，同时也可以增加时间维度特征学习的感受野。接着是一个全局平均池化层，用于构建数据通道上的全局特征，并利用全连接层和softmax层获取最后的分类分数，本发明中将softmax分数最大的类别作为视频片段中受试者的评估结果。

表1展现了基于‘all’方式的ESS MS-G3D分支的各层参数，以及经过每一层后的数据尺寸和拓扑图尺寸。其中ZeroPad实现数据在时间维度的补零，Unfold实现将空间节点扩充为时空维度，(3，1)为Unfold的卷积核尺寸。Shift layer中ratio设置为1/4，即在平移特征中的4/5为原始节点特征，1/5为全局特征。MS-GCN和MLP用于实现特征的聚集和更新，其表达式如下所示：

Con3D的卷积核尺寸为(1，3，1)用于调整数据的输出尺寸，最终‘all’方式将三个分支的特征融合，作为ESS MS-G3D的输出。

表2展现了ESS ST-GCN分支的各层参数。和ESS MS-G3D一样shift layer放置于MS-GCN前面，用于建立全局特征响应。MS-GCN(完成了拓扑图的多尺度和邻接关系扩展)和MLP用于完成特征聚集和更新。1×1的Conv2D，用于形成TCN中每一个分支的通道数，并且可以减少模型的计算消耗，多种时间感受野的TCN结构有利于学习不同时间范围内的时序特征，本发明中一共采用了6分支的TCN结构，并且通过空洞卷积来调整卷积核尺寸。最终将6分支的特征以合并的方式Concatenate{out₀，out₁，...，out₅}作为ESS ST-GCN的输出。

表1时间窗口尺寸τ＝3的ESS MS-G3D

表2 ESS ST-GCN

本发明中受试者的临床评估视频的评估主要分为两个方面：1)考虑到正常和轻度受试者、中度和重度受试者之间有相似的行为特征，因此采用二分类的方法评估所提出网络结构在精神发育迟滞领域中辅助诊断和初步筛选的性能；2)采用四分类的方法验证网络结构在精神发育迟滞领域中全面评估的性能。

表3展示了4种网络在验证集和测试集上的实验结果，ESS MS-STGC均实现了较高的评估准确度。图8展现了ESS MS-STGC 10次实验(避免实验过程中的偶然性因素)的结果，可以看出ESS MS-STGC在验证集上的平均准确度为94.53％，在测试集上的平均准确度为89.04％均高于其他模型结构。

表3二分类实验结果

此外，为了进一步提升二分类的实验效果，在获取人体18个关键点的节点特征的基础上，利用空间维度差分方程获取骨头流向量特征(x_i-x_j，y_i-y_j，s_i-s_j)，利用时间维度差分方程获取节点运动流特征以及骨头运动流特征/>将4种模态分别输入各自的模型进行训练、验证和测试，并把每种模态的模型的类别分数求和，并采用argmax实现归一化，取最大分数的类别作为评估结果，表4显示出多模态融合带来的精度提升。

表4多模态融合实验结果

joint	bone	joint motion	bone motion	Val	Test
						√				94.63	89.13
	√			94.97	90.10
								√		90.48	82.73
			√	91.07	84.96
						√	√			96.52	93.22
		√	√	92.75	86.19
						√	√	√	√	96.29	92.90

在四分类的精神发育迟滞评估中，本发明的ESS MS-STGC结构在测试集上实现78.84％的Top1准确度，和91.34％的Top2准确度。图9展示了四分类的ROC曲线图，说明了ESS MS-STGC仍然具有提升的空间。图10展示了四分类的混淆矩阵，图11展示了四分类的T-SNE特征可视化，验证了ESS MS-STGC对于四种受试者行为特征学习能力的有效性。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于姿态检测的精神发育迟滞判别方法，其特征在于，包括以下步骤：

2)数据预处理，将视频数据集中的视频提取为RGB图像，并将图像尺寸进行统一转换，然后采用AlphaPose方法从RGB图像中提取人体关键点坐标(x_i,y_i,s_i)，i∈{0,1,...,N}；

连续32帧的关键点坐标和分数形成图卷积神经网络的输入矩阵R^B×C×T×N，其中，B为批处理尺寸，C为通道数目，T为输入帧数，N为总的节点数目；

具体如下：

3.2)采用一个时间滑动窗口，其尺寸为τ，获得{t-k,...,t,...,t+l}时间片段中的时空关键点，其中k+l+1＝τ；采用了两种方式定义节点之间的时空距离，来完成时空邻接矩阵的构建，记该两种方式构建的时空自我邻接矩阵和初始邻接矩阵/>

d(x_i,t,x_j,t+τ)＝d(x_i,t,x_j,t)＝d(x_i,x_j)

然后构建时空自我邻接矩阵和初始邻接矩阵/>

d(x_i,t,x_j,t+τ)＝d(x_i,t,x_i,t+τ)+d(x_i,t+τ,x_j,t+τ)＝τ+d(x_i,x_j)

然后构建时空自我邻接矩阵和初始邻接矩阵/>

5)对邻接图结构进行调整；调整后的图结构为：

6)精神发育迟滞评估；

2.根据权利要求1所述的基于姿态检测的精神发育迟滞判别方法，其特征在于，步骤1)中的数据集包含4种类别:正常、轻度、中度和重度。

3.根据权利要求1所述的基于姿态检测的精神发育迟滞判别方法，其特征在于，所述步骤4)中多尺度时空距离的邻接图结构，由矩阵的高阶幂的计算方式所获得；

实现公式为：

4.根据权利要求1所述的基于姿态检测的精神发育迟滞判别方法，其特征在于，所述步骤4)中还包括根据行为或者动作中节点与节点之间存在协同运动的关联，对已有的时空邻接图进一步扩展，扩展方式如下：

建立时空邻接图中节点m与节点j的关联:

按上述方式将k≥2的时空邻接矩阵扩展为/>

5.根据权利要求1所述的基于姿态检测的精神发育迟滞判别方法，其特征在于，所述步骤6)中神经网络包括依次连接的输入层、三个图卷积层、一个全局平均池化层、全连接层和softmax层。

6.根据权利要求1所述的基于姿态检测的精神发育迟滞判别方法，其特征在于，所述步骤6)的神经网络结构为ESS MS-STGC的三分支图卷积网络结构，具体如下：

ESS MS-G3D网络包括一个增加的shift layer层，其中，shift layer层，首先将目标节点i的特征X_t,i提取，并将其余节点的特征{X_t-k,1...,X_t,i-1,X_t,i+1,...,X_t+l,N}压缩，以求和的方式获取全局时空节点特征，然后将该特征与原始节点特征X_t,i合并以获得非局部特征，最终对每一个节点均采用此方式；

7.根据权利要求6所述的基于姿态检测的精神发育迟滞判别方法，其特征在于，所述步骤6)中神经网络的图卷积方式中采用了4种方式完成2DGCN到3DGCN的转变，其中第4种方式是前面三种方式的融合，2DGCN到3DGCN的转变方式不会影响图的构建；

具体来说一共包含4种方式:‘past’,‘now’,‘future’,‘all’，它们的定义如下所述，其中目标视频帧对应的时刻为t；

‘past’方式指利用过去时刻{t-τ+1,t-τ+2,...,t-1}包括本时刻{t}的时空节点特征{X_t-τ+1,X_t-τ+2,...,X_t}，通过上述方法来构建时空拓扑图结构，并更新空间节点特征X_t；

‘future’方式采用的是未来时刻{t,t+1,...,t+τ-1}的特征{X_t,X_t+1,...,X_t+τ-1}，来更新本时刻的特征X_t；

‘now’方式中更新方式{t-k,...,t,...,t+l}既包括过去时刻也包括未来时刻，其中k+l+1＝τ；