CN116665310B

CN116665310B - 基于弱监督学习的抽动障碍识别和分类方法及系统

Info

Publication number: CN116665310B
Application number: CN202310938871.7A
Authority: CN
Inventors: 许小菁; 叶芳; 刘书方; 陈杰; 陈源美
Original assignee: China Japan Friendship Hospital
Current assignee: China Japan Friendship Hospital
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-11-03
Anticipated expiration: 2043-07-28
Also published as: CN116665310A

Abstract

本发明涉及医疗健康技术领域，提供一种基于弱监督学习的抽动障碍识别和分类方法及系统，对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据；基于面部特征提取算法对片段的视频数据进行面部特征提取，得到面部特征序列；根据面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度。本发明通过非植入式非穿戴式的方式采集视频数据，方式便捷，摄像设备普适性好，能有效辅助医生快速诊断病情，并可应用于整个诊疗过程，对病人的恢复和治疗情况进行监控分析，指导用药和治疗手段。并且具有很好的隐私保护作用，方便远程交互传输，为医生认知该病提供了全新的视角，极大程度上减少了医患的时间和经济成本。

Description

基于弱监督学习的抽动障碍识别和分类方法及系统

技术领域

本发明涉及医疗健康技术领域，尤其涉及一种基于弱监督学习的抽动障碍识别和分类方法及系统。

背景技术

抽动障碍是一种运动性或发声性肌肉痉挛，发病患者大多为儿童，主要症状有高频次挤眉弄眼、抖动式的摇头耸肩、嘴角呈扭曲状、连续发出咳嗽声、清嗓声等。通常来说，临床抽动症诊断需要经过病史收集、临床检查与评估、实验和辅助检查等一系列流程，但由于发病者多为儿童，配合度低，时常造成诊断困难。现有技术中利用可穿戴设备检测抽动症患者四肢和躯干的抽搐动作和基于脑部电刺激，通过观测低频的中央中核-束旁核（CM-PF）检测患者的抽动症状，但是具有较高的硬件要求，数据采集方式较为复杂，普及难度较高。

发明内容

本发明提供一种基于弱监督学习的抽动障碍识别和分类方法及系统，用以解决现有技术中硬件要求较高，数据采集方式较为复杂，普及难度较高的缺陷，本发明通过非植入式非穿戴式的方式采集视频数据，方式便捷，摄像设备普适性好，能有效辅助医生快速诊断病情，并可应用于整个诊疗过程，对病人的恢复和治疗情况进行监控分析，指导用药和治疗手段。并且具有很好的隐私保护作用，方便远程交互传输，为医生认知该病提供了全新的视角，极大程度上减少了医患的时间和经济成本。

本发明提供一种基于弱监督学习的抽动障碍识别和分类方法，包括：对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据；基于面部特征提取算法对所述片段的视频数据进行面部特征提取，得到面部特征序列；根据所述面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度。

根据本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法，所述基于面部特征提取算法对所述片段的视频数据进行面部特征提取，得到面部特征序列，包括：基于面部特征点检测算法对所述片段的视频数据进行面部特征点提取，得到面部特征点序列；基于面部区域的分割和对齐算法对所述片段的视频数据进行面部图像提取，得到面部图片序列。

根据本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法，所述对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据，包括：对所述摄像设备采集的测试儿童的面部视频数据进行抽动障碍人工标注，得到人工标注信息；对所述人工标注信息进行文件格式转换，得到格式转换后的信息；根据所述格式转换后的信息，使用视频处理工具将所述面部视频数据分割为片段的视频数据。

根据本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法，所述基于面部特征点检测算法对所述片段的视频数据进行面部特征点提取，得到面部特征点序列，包括：基于面部检测算法识别并框选出所述片段的视频数据的面部区域；在所述面部区域中，基于特征点定位算法定位关键的面部特征点并提取所述面部特征点的位置坐标；输出所述面部特征点的位置坐标，以得到所述面部特征点序列。

根据本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法，所述基于面部区域的分割和对齐算法对所述片段的视频数据进行面部图像提取，得到面部图片序列，包括：基于面部区域的分割算法对所述片段的视频数据中的面部区域进行分割提取，得到提取后的面部图片；根据所述面部图片的左右眼的坐标确定旋转矩阵；根据所述旋转矩阵对所述面部图片进行仿射变换，得到旋转对齐后的面部图片序列。

根据本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法，所述根据所述面部图片的左右眼的坐标确定旋转矩阵之后，还包括：根据所述旋转矩阵对所述提取的面部特征点的位置坐标进行仿射变换，得到旋转对齐后的面部特征点的位置坐标。

根据本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法，所述根据所述面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度，包括：根据所述面部特征点序列基于循环神经网络模型，或，根据所述面部图片序列基于ResNet-3D深度神经网络模型进行特征提取，得到提取后的特征；通过全连接层将所述提取后的特征进行连接，得到特征向量；所述特征向量经softmax操作后，得到所述抽动障碍识别和分类预测置信度。

根据本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法，所述根据所述面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度之前，包括：所述片段的视频数据包括精标的视频数据和粗标的视频数据；将所述精标的视频数据作为训练集对所述深度神经网络模型进行训练至收敛，得到训练后的深度神经网络模型；基于相对置信度的多阶段的弱监督学习方法对所述粗标的视频数据进行推理，得到所述粗标的视频数据中打伪标签的正样本；所述正样本为抽动片段的样本；将所述正样本加入到所述训练集中，以对所述训练后的深度神经网络模型进行迭代训练。

根据本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法，所述训练后的深度神经网络模型进行迭代训练之后，还包括：将部分所述精标的视频数据作为测试集，以模型分类的AUC为主要评价指标对迭代训练后的深度神经网络模型进行测试。

本发明还提供一种基于弱监督学习的抽动障碍识别和分类系统，包括：数据预处理模块，用于对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据；面部特征提取模块，用于基于面部特征提取算法对所述片段的视频数据进行面部特征提取，得到面部特征序列；预测置信度确定模块，用于根据所述面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度。

本发明提供的一种基于弱监督学习的抽动障碍识别和分类方法及系统，该方法包括：对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据；基于面部特征提取算法对片段的视频数据进行面部特征提取，得到面部特征序列；根据面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度。本发明通过非植入式非穿戴式的方式采集视频数据，方式便捷，摄像设备普适性好，能有效辅助医生快速诊断病情，并可应用于整个诊疗过程，对病人的恢复和治疗情况进行监控分析，指导用药和治疗手段。并且具有很好的隐私保护作用，方便远程交互传输，为医生认知该病提供了全新的视角，极大程度上减少了医患的时间和经济成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于弱监督学习的抽动障碍识别和分类方法的流程示意图；

图2是本发明提供的基于弱监督学习的抽动障碍识别和分类方法的原理示意图；

图3是本发明提供的基于相对置信度的多阶段的弱监督学习方法的原理示意图；

图4是本发明提供的弱监督学习方法AUC随迭代轮数的变化曲线图；

图5是本发明提供的基于弱监督学习的抽动障碍识别和分类系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明提供的基于弱监督学习的抽动障碍识别和分类方法的流程示意图。

请参考图2，图2为本发明提供的基于弱监督学习的抽动障碍识别和分类方法的原理示意图。

本发明提供一种基于弱监督学习的抽动障碍识别和分类方法，包括：

101：对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据；

作为一种优选的实施例，对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据，包括：对摄像设备采集的测试儿童的面部视频数据进行抽动障碍人工标注，得到人工标注信息；对人工标注信息进行文件格式转换，得到格式转换后的信息；根据格式转换后的信息，使用视频处理工具将面部视频数据分割为片段的视频数据。

具体的，通过收集患者的正面视频129个，每个视频分属于不同的儿童，长度在十分钟左右。另外，还额外寻找了十个未患病的正常儿童，并录制视频，收集得到了10个正常儿童的正面视频。在每个患儿视频中，专业医生对视频中抽动的片段进行秒级别的标注，标注包含了抽动的具体部位和在视频中的起止点，抽动部位包含眼、嘴、鼻。考虑到儿童的每个抽动基本都是一秒以内的动作，因此，根据标注的精细程度，将全部视频分为精标视频42个和粗标视频87个，精标视频只含短片段，其中，每个标注短片段的长度为2s；粗标视频只含长片段，每个长片段的长度为3~10s。

对于一个抽动患儿的视频而言，它通常包含医生所标注的几十个片段，片段长度在2~10秒之间。医生的标注包含了部位和是否抽动两部分信息，以excel表形式给出。先将医生的标注转化为方便使用的json（一种轻量级的数据交换格式，JavaScript ObjectNotation）文件，然后使用FFmpeg（一个开源的跨平台多媒体框架，用于处理音频、视频和多媒体数据）将视频按照标注完成分割。这样，得到了很多抽动的短片段，用于后续的特征提取和模型训练。

102：基于面部特征提取算法对片段的视频数据进行面部特征提取，得到面部特征序列；

作为一种优选的实施例，基于面部特征提取算法对片段的视频数据进行面部特征提取，得到面部特征序列，包括：基于面部特征点检测算法对片段的视频数据进行面部特征点提取，得到面部特征点序列；基于面部区域的分割和对齐算法对片段的视频数据进行面部图像提取，得到面部图片序列。

作为一种优选的实施例，基于面部特征点检测算法对片段的视频数据进行面部特征点提取，得到面部特征点序列，包括：基于面部检测算法识别并框选出片段的视频数据的面部区域；在面部区域中，基于特征点定位算法定位关键的面部特征点并提取面部特征点的位置坐标；输出面部特征点的位置坐标，以得到面部特征点序列。

具体的，首先使用面部检测算法（如Viola-Jones算法或基于深度学习的方法）对片段的视频数据进行面部检测。该算法会识别图像中的面部区域，并将其框选出来。然后在检测到的面部区域中，使用特征点定位算法来定位关键的面部特征点。常用的特征点包括眼睛、眉毛、鼻子、嘴巴等。特征点定位算法可以基于传统的图像处理技术，也可以基于深度学习模型。特征点回归是一种常用的特征点定位方法。它使用训练好的回归模型，通过分析人脸图像的像素值、纹理特征等信息，预测出每个特征点的坐标位置。由于人脸图像中存在多种姿态、表情和光照条件的变化，特征点提取可能会存在一定的误差。因此，在特征点定位后，通常会对其进行优化，以提高定位的准确性。常用的优化方法包括形状模型拟合、局部搜索等。最后，将提取到的面部特征点的坐标位置输出，以供后续应用使用。这些特征点可以用于面部识别、面部表情分析、姿态估计等多种面部相关的任务。

例如，采用了dlib（面部关键点检测的python库）完成了面部位置的检测以及68个面部特征点的提取。dlib中的面部特征点检测算法基于深度卷积神经网络（DeepConvolutional Neural Networks，DCNNs）和级联回归器实现。dlib库提供了一个经过大规模数据集训练的预训练模型，用于面部特征点检测。该模型是基于深度卷积神经网络的级联回归器。级联回归器是一种级联的机器学习模型，它通过连续应用一系列的弱分类器来预测目标。其中，用于提取面部特征的模型是一个带有128维输出的卷积神经网络，它使用深度残差网络（Deep Residual Networks）架构进行训练。在完成特征提取后，每个阶段都有一组弱分类器，用于预测特征点的位置。每个弱分类器都是一个简单的二分类器，它根据特征点的局部特征来判断是否存在该特征点。在训练过程中，级联回归器通过多个阶段来逐步优化特征点的位置预测。在级联回归的过程中，可能会生成多个候选特征点位置。为了得到最终的特征点位置，dlib库使用了非极大值抑制（Non-Maximum Suppression，NMS）算法。NMS算法通过筛选和合并高置信度的特征点位置，去除冗余的候选点，最终输出一组面部特征点的位置坐标。通过对片段中的每一帧进行特征点提取，成功将每一帧的原图从（1080,1920）压缩到（68,2），实现了数据的降维和去隐私化。

作为一种优选的实施例，基于面部区域的分割和对齐算法对片段的视频数据进行面部图像提取，得到面部图片序列，包括：基于面部区域的分割算法对片段的视频数据中的面部区域进行分割提取，得到提取后的面部图片；根据面部图片的左右眼的坐标确定旋转矩阵；根据旋转矩阵对面部图片进行仿射变换，得到旋转对齐后的面部图片序列。

作为一种优选的实施例，根据面部图片的左右眼的坐标确定旋转矩阵之后，还包括：根据旋转矩阵对提取的面部特征点的位置坐标进行仿射变换，得到旋转对齐后的面部特征点的位置坐标。

具体的，为了增强后续所训练模型的泛化性，在已检测到的68个面部特征点坐标的基础上，实现了特征点对齐算法。

计算旋转矩阵的方法是，先计算左右眼的中心坐标，再根据左右眼的坐标计算左右眼连线和水平的夹角，即为旋转角度，根据中心点坐标和旋转角度，即可计算出旋转矩阵M。

利用旋转矩阵M，即可将原图像上的任一点的坐标变换为新图像上任一点的坐标/>，二者的变换关系为：

通过计算旋转矩阵和仿射变换，将人脸及对应的面部特征点转正，从而得到了一组新的面部特征点坐标。这组新坐标的表示去除了面部偏转的影响，能够更好地聚焦于面部特征点的抽动。另外，通过对特征点坐标进行归一化，排除了录制视频时面部距屏幕远近的干扰。

请参考图3，图3为本发明提供的基于相对置信度的多阶段的弱监督学习方法的原理示意图。

103：根据面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度。

作为一种优选的实施例，根据面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度，包括：根据面部特征点序列基于循环神经网络模型，或，根据面部图片序列基于ResNet-3D深度神经网络模型进行特征提取，得到提取后的特征；通过全连接层将提取后的特征进行连接，得到特征向量；特征向量经softmax操作后，得到抽动障碍识别和分类预测置信度。

具体的，既可以将特征点用于人脸的裁剪，输入裁剪后的图像序列至ResNet-3D等深度神经网络进行特征提取；也可以直接输入特征点序列至RNN/MLP等网络进行特征提取。前者网络参数量大，拟合能力强；后者等同于预先进行了降维，对训练数据需求量小，训练和推理速度快，泛化性能强。

考虑到的数据是视频片段而非分立的图片，在设计分类网络时必须考虑时序的信息，因此优先考虑基于循环神经网络（Recurrent Neural Network，RNN）的分类模型。RNN是一种在序列数据上进行处理的神经网络模型。RNN具有记忆功能，能够处理具有时间顺序或时序依赖性的数据。RNN的关键思想是引入循环结构，使得信息能够在网络中进行传递。在RNN中，每个时间步都有一个输入和一个隐藏状态，隐藏状态会根据当前时间步的输入和上一个时间步的隐藏状态来计算。这种隐藏状态的传递允许网络对先前的信息进行记忆，并将其应用于当前的计算中。长短期记忆网络（Long Short-Term Memory，LSTM）是一种特殊类型的循环神经网络，用于处理序列数据和解决序列建模任务。LSTM具有更强大的记忆能力，能够更好地捕捉长期依赖关系。通过LSTM网络的特征提取，在充分利用了片段时序信息的同时，实现了对长期依赖关系更好的捕捉，从而更好地完成对抽动症的识别。

全连接层（Fully Connected Layer），也称为密集连接层或仿射层，是深度学习中最常见的一种神经网络层类型。在全连接层中，每个神经元都与上一层的所有神经元相连接，每个连接都有一个权重参数。全连接层能够将输入数据的每个特征与权重相乘，并加权求和，生成一个新的特征表示。这些特征表示经过非线性激活函数的处理后，可以捕捉输入数据的非线性关系。

使用LSTM网络作为特征提取器，实现对人脸特征点序列特征的高层特征提取，全连接层将这些特征连接成一个向量，并通过全连接层的权重学习分类器，得到一个输出，再经过softmax操作得到抽动障碍识别和分类预测置信度。

在已经划分好的儿童抽动障碍训练集上进行训练，测试集上进行测试。先测试了不经过数据隐私化和特征点提取的方法，这种方法基于深度神经网络，选择了ResNet-3D和I3D两种网络结构，均选择Adam为优化器，初始学习率设为0.0001。数据增强上，考虑到序列的连续性，仅进行了画面像素值的归一化和画面左右的偏转。损失函数方面，选择二进制交叉熵损失函数。其中，y是片段的标签，y’是网络预测得到的置信度，范围在（0，1）之间。在迭代300次左右，网络基本达到收敛。

对于本发明提出的基于面部特征点预处理的方法，除了LSTM网络的结果外，还尝试了一些传统机器学习方法，如多层感知机（MLP）和随机森林（Random Forest）网络。由于输入是面部特征点序列，无需进行数据增强操作。对每个片段中相邻帧的特征点作差，得到特征点的位移量，从而实现对抽动更好的刻画。

LSTM网络的训练中，同样选择Adam作为优化器，初始学习率设为0.00001，选择二进制交叉熵损失函数。MLP网络的训练中，选择SGD作为优化器，初始学习率设为0.0001，同样选择二进制交叉熵损失函数。在迭代150次左右，网络基本达到收敛。

除此以外，对于本发明提出的面部对齐（Face alignment）方法，在这里也进行了相关消融实验以检验其有效性。

表1 基于不同数据处理方式和网络结构的抽动症分类AUC(%)

实验结果如表1所示，从结果上看，在经过面部对齐预处理后，LSTM网络取得了最佳的精度，超过其他所有方法。ResNet-3D和I3D两个方法表现较差，应该是数据量较少的原因，有限的数据并不能支撑起具有较大深度和参数量的神经网络的训练。

多重感知机（MLP）和随机森林（RF）与长短期记忆网络（LSTM）相比，对时序信息的理解不足，拟合能力也有限，因此没有超过LSTM的结果。

除此以外，还发现，面部对齐的预处理操作平均带来1.07%的二分类AUC提升，在本发明的研究中是非常有效的数据预处理手段。

分部位进行分析，可以看到：全脸二分类，即抽动障碍的识别任务精度最高，因为在该任务中拥有数量最多、分布最广的正样本，其他三个二分类是它的子任务。LSTM在眼部、鼻部抽动分类上也取得了很好的效果，超过了其他方法不少。MLP在嘴部抽动分类上效果最佳，可能是因为嘴部抽动的数据量不大，而同LSTM等其他方法相比，MLP所需要的训练样本量更少。

作为一种优选的实施例，根据面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度之前，包括：片段的视频数据包括精标的视频数据和粗标的视频数据；将精标的视频数据作为训练集对深度神经网络模型进行训练至收敛，得到训练后的深度神经网络模型；基于相对置信度的多阶段的弱监督学习方法对粗标的视频数据进行推理，得到粗标的视频数据中打伪标签的正样本；正样本为抽动片段的样本；将正样本加入到训练集中，以对训练后的深度神经网络模型进行迭代训练。

鉴于数据标注的昂贵成本，获取完整的真值标签对许多任务来说具有挑战性，这使得监督学习面临一系列困难。弱监督学习（Weakly Supervised Learning）是一种机器学习的方法，其中训练数据的标签信息相对较弱或不完整。与传统的监督学习不同，弱监督学习尝试从具有较少或不准确标签的数据中进行学习和推断。片段的视频数据包括精标的视频数据和粗标的视频数据。其中，精标的视频数据的片段长度为2秒，在包含一个完整的抽动同时基本不包含无关动作；粗标的视频数据的片段长度为3~10秒，虽包含一个或多个完整的抽动（正样本），但是同时包含有大量无关正常动作（负样本）。因此，如果直接将粗标的视频数据直接作为正样本进行训练，会将负样本错误引入，从而较大程度地影响模型性能。但考虑到粗标的视频数据数量很大，且同样消耗了标注医生的心血，所以需要一种能够将粗标的视频数据引入训练，但又同时引入较多错误样本的方法，即尝试让模型从大量粗标的视频数据的抽动片段中学到有效信息，但又不被误导。

这和弱监督学习的主旨异曲同工，粗标的视频数据满足标签信息相对较弱或不完整的条件，利用粗标的视频数据监督得到抽动症分类结果，这就是一个典型的弱监督学习问题。但不同的是，拥有相对高质量的精标的视频数据，且已经训练得到了精度不错的分类模型，所以实际上拥有比传统意义上弱监督学习更完善的标注，且精标的视频数据和粗标的视频数据有明显的区分。在这样的数据条件下，对于大量粗标的视频数据的应用方式，是提升模型精度的重中之重。

本发明拥有区分明显的精标的视频数据和粗标的视频数据，且粗标的视频数据量很大借助精标的视频数据，可以训练得到一个精度不错的模型。然后，将每个粗标长片段预先分为2s的短片段，就可以借助这个模型对粗标数据进行预测，并根据模型预测结果，对短片段打上更为精细的“伪标签”。因此，可以根据“伪标签”，将粗标数据中的正样本加入训练集，从而实现对训练集的大幅扩充，有效提升模型精度。进一步地，通过反复迭代，模型精度不断提高，打的“伪标签”也更加准确，相辅相成，最终使模型收敛到一个较高的精度。

伪标签是根据经过训练的模型的预测结果为无标签数据分配标签。多阶段学习（Multi-phase Learning）将弱监督学习过程划分为多个阶段，每个阶段具有特定的目标或一组有标签和无标签数据。在每个阶段中，模型进行训练并基于当前阶段的预测生成伪标签。然后，这些伪标签被用作下一阶段的训练数据，使模型能够逐步学习，并在连续的阶段中捕捉到更复杂的模式。多阶段学习的优势在于它能够充分利用无标签数据的信息，提供了一种有效的半监督学习方法。通过迭代训练和使用伪标签，模型可以逐步从无标签数据中学习到更多的知识，从而改善在有标签数据上的表现。

在多阶段学习的过程中，给未标记数据打“伪标签”是很关键的一部分。目前常见的方法有：阈值法、topK法等。

阈值法即根据模型输出的概率值，直接使用阈值划分未标记数据的预测结果，在粗标的视频数据上打“伪标签”准确率的上界为原模型的分类准确率。如果按照这种方法，将预测得到的正样本全部加入训练集，就像自监督学习一样，在模型精度达到一定水平后，如果没有其他先验信息的引入，则很难带来结果上的提升。况且，这样基于阈值打“伪标签”的方法会引入大量错误正样本，反而对模型起到了误导作用，导致模型精度下降，在迭代的过程中，甚至会导致训练崩溃。

TopK法是指选择一个合适的K值，以每个粗标长片段为单位，将未标记数据推理得到的置信度从大到小依次排列，选择前K个标记为正样本，并加入下一次迭代的训练集中。这是一种比较保守的方法，旨在确保伪标签的高准确度，提升模型泛化能力的同时减少模型受到的误导，从而在迭代的过程中逐步提升精度。相对于阈值法，TopK法在目前的研究中更加常用，且通常效果更好。但在的研究问题中，由于长片段的长度在3~10s不等，其包含的抽动片段个数差距也很大，所以K值难以确定。另外，粗标的视频数据不是无标数据，在每个长片段中，至少有一个明显的抽动片段，需要想办法充分利用医生标注的先验信息。

基于以上的考虑，同样以每个长片段为单位，本发明提出了相对置信度（RelativeProbability）的概念，其中为相对置信度指标，/>为模型对当前片段的预测置信度，/>为本长片段中所有短片段置信度的最大值，/>为本长片段中所有短片段置信度的最小值。

本发明设定了两个阈值及/>，将某一短片段标记为正样本的条件是：

通过这种方式，可以很好地利用了粗标注的先验信息，即认为对应的短片段为该长片段中最明显的抽动，所选出的正样本置信度不仅能高于阈值，还能够和该片段中最明显的抽动特征相似，从而减少出现假阳的概率。

尽管已经设计了相对置信度的指标，帮助提升了生成伪标签的精度，但错误伪标签噪声仍然无可避免，在训练过程中仍可能对模型产生误导。另外，将粗标数据并入训练集的方式和技巧依然值得考究。如果直接将打上伪标签的所有正样本均并入训练集，那么在下次迭代的过程中，模型会倾向于对这些已被选中的正样本给出很高的置信度，因而打上和上一轮几乎相同的伪标签。这样以来，反复迭代会倾向于变为原地踏步，从而无法提升模型精度。

考虑到这些问题，基于相对置信度这一指标，设计了“从易到难”的多阶段学习算法。经过多次实验，发现效果最好的初值为，/>,终值/>，。

另外，设计了多种表达式以实现阈值随迭代轮数的更新，实验表明：步骤5中最有效的更新表达式为步长固定的线性表达式，其中时，训练得到了精度最高的二分类模型。在第5轮迭代时阈值达到终值，停止更新。

作为一种优选的实施例，训练后的深度神经网络模型进行迭代训练之后，还包括：将部分精标的视频数据作为测试集，以模型分类的AUC为主要评价指标对迭代训练后的深度神经网络模型进行测试。

为了更好地检验使用相对置信度打伪标签的效果，以眼部抽动为例，随机挑选了部分粗标长片段，人工对每个短片段进行了标注，并分别使用阈值法、TopK法、相对置信度法生成伪标签，结果如表2。

表2 不同方法生成伪标签的结果

可以发现：用相对置信度法打伪标签是一个非常平衡的做法，能够在不引入过多噪声的同时尽可能多地得到新的正样本。和基于阈值的方法相比，本发明的方法能有效降低所选片段为假阳的概率，大幅提升伪标签的准确度；和top2的方法相比，本发明的方法更加激进，能够在多选出很多正样本的情况下不引入过多假阳。

在已经划分好的儿童抽动障碍测试集上进行测试。在输入为特征点序列，网络结构为LSTM时，采用训练参数对基于相对置信度“从易到难”的多阶段学习算法进行实验验证。

在表3中展示了仅用精标的视频数据、直接使用全部数据以及本发明提出的弱监督学习三种方法在四个二分类任务上的分类AUC。可以发现，直接使用全部数据，由于引入噪声的原因，模型精度不升反降。反之，通过合理的方式生成伪标签并将粗标的视频数据加入训练集，能够带来非常可观的精度提升。

表3 基于不同粗标数据使用方式的抽动症分类AUC(%)

请参考图4，图4为本发明提供的弱监督学习方法AUC随迭代轮数的变化曲线图。

在本发明的四个二分类任务上，不同弱监督方法的分类AUC随多阶段学习的迭代次数变化的曲线。其中，从上到下，从左到右依次是全脸、眼、嘴、鼻。baseline指采用Top2的指标，在第一轮迭代就对全部粗标数据生成伪标签并把全部选中的正样本加入训练集的方法。one-shot将Top2改为相对置信度的指标，其余与baseline相同。Ours是本发明基于相对置信度“从易到难”的多阶段学习算法。

可以发现，所有方法在6次迭代以内均收敛至一个精度较高的结果。One-phase和baseline方法1次迭代就有较大的精度提升，但后续基本稳定不变。本发明的算法精度上升坡度较缓，但也能在4次迭代左右基本收敛。从模型收敛的精度上看，本发明的方法取得了最好的效果，采用相对置信度指标的one-phase算法也显著优于Top2的baseline。对于不同部位而言，结果有细微的差别，但大体结论一致。

对本发明中提出的两个创新改动：1.相对置信度；2.从易到难的多阶段学习算法进行消融实验，结果如表4所示，两个创新改动都带来了显著的精度提升。

表4 消融实验结果

综上，本发明提出了能够保护患儿隐私的面部数据处理和降维方法，在数据量有限的情况下，这种特征降维方法降低了模型训练的时间和难度，且取得了更优的精度。另外，在弱监督学习方面的设计提升了模型对粗标和精标数据的综合利用能力。总的来说，本发明取得了较好的分类效果，能够辅助医生快速诊断病情，并可应用于整个诊疗过程，对病人的恢复和治疗情况进行监控分析，指导用药和治疗手段。另外，整个方法具有很好的隐私保护作用，方便远程交互传输，更为儿科医生认知该病提供了全新的视角。

请参考图5，图5为本发明提供的基于弱监督学习的抽动障碍识别和分类系统的结构示意图。

本发明还提供一种基于弱监督学习的抽动障碍识别和分类系统，包括：数据预处理模块501，用于对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据；面部特征提取模块502，用于基于面部特征提取算法对片段的视频数据进行面部特征提取，得到面部特征序列；预测置信度确定模块503，用于根据面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度。

本发明已经通过面部特征提取和弱监督学习完成了儿童抽动障碍识别和分类的任务，并尽可能提升了精度。在部署阶段，可以将这些训练好的模型参数导入到目标设备中，通过运行环境加载这些参数来进行模型预测。对于有GPU的个人电脑，可以利用GPU的强大计算能力，加速模型的推理过程，实现快速的模型推理。同时，由于网络参数量小，本发明也可以适应在手机等嵌入式设备上的部署。

对于本发明提供的一种基于弱监督学习的抽动障碍识别和分类系统的介绍请参照上述方法实施例，本发明在此不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于弱监督学习的抽动障碍识别和分类方法，其特征在于，包括：

对摄像设备采集的测试儿童的面部视频数据进行抽动障碍人工标注和视频分割，得到片段的视频数据；

基于面部特征提取算法对所述片段的视频数据进行面部特征提取，得到面部特征序列；

根据所述面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度；

所述根据所述面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度之前，包括：

所述片段的视频数据包括精标的视频数据和粗标的视频数据；

将所述精标的视频数据作为训练集对所述深度神经网络模型进行训练至收敛，得到训练后的深度神经网络模型；

基于相对置信度的多阶段的弱监督学习方法对所述粗标的视频数据进行推理，得到所述粗标的视频数据中打伪标签的正样本；所述正样本为抽动片段的样本；

将所述正样本加入到所述训练集中，以对所述训练后的深度神经网络模型进行迭代训练；

所述训练后的深度神经网络模型进行迭代训练之后，还包括：

将部分所述精标的视频数据作为测试集，以模型分类的AUC为主要评价指标对迭代训练后的深度神经网络模型进行测试；

所述基于面部特征提取算法对所述片段的视频数据进行面部特征提取，得到面部特征序列，包括：

基于面部特征点检测算法对所述片段的视频数据进行面部特征点提取，得到面部特征点序列；

基于面部区域的分割和对齐算法对所述片段的视频数据进行面部图像提取，得到面部图片序列；

所述基于面部特征点检测算法对所述片段的视频数据进行面部特征点提取，得到面部特征点序列，包括：

基于面部检测算法识别并框选出所述片段的视频数据的面部区域；

在所述面部区域中，基于特征点定位算法定位关键的面部特征点并提取所述面部特征点的位置坐标；

输出所述面部特征点的位置坐标，以得到所述面部特征点序列；

所述根据所述面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度，包括：

根据所述面部特征点序列基于循环神经网络模型，或，根据所述面部图片序列基于ResNet-3D深度神经网络模型进行特征提取，得到提取后的特征；

通过全连接层将所述提取后的特征进行连接，得到特征向量；

所述特征向量经softmax操作后，得到所述抽动障碍识别和分类预测置信度。

2.根据权利要求1所述的基于弱监督学习的抽动障碍识别和分类方法，其特征在于，所述对摄像设备采集的测试儿童的面部视频数据进行视频分割，得到片段的视频数据，包括：

对所述摄像设备采集的测试儿童的面部视频数据进行抽动障碍人工标注，得到人工标注信息；

对所述人工标注信息进行文件格式转换，得到格式转换后的信息；

根据所述格式转换后的信息，使用视频处理工具将所述面部视频数据分割为片段的视频数据。

3.根据权利要求1所述的基于弱监督学习的抽动障碍识别和分类方法，其特征在于，所述基于面部区域的分割和对齐算法对所述片段的视频数据进行面部图像提取，得到面部图片序列，包括：

基于面部区域的分割算法对所述片段的视频数据中的面部区域进行分割提取，得到提取后的面部图片；

根据所述面部图片的左右眼的坐标确定旋转矩阵；

根据所述旋转矩阵对所述面部图片进行仿射变换，得到旋转对齐后的面部图片序列。

4.根据权利要求3所述的基于弱监督学习的抽动障碍识别和分类方法，其特征在于，所述根据所述面部图片的左右眼的坐标确定旋转矩阵之后，还包括：

根据所述旋转矩阵对所述提取的面部特征点的位置坐标进行仿射变换，得到旋转对齐后的面部特征点的位置坐标。

5.一种基于弱监督学习的抽动障碍识别和分类系统，其特征在于，包括：

数据预处理模块，用于对摄像设备采集的测试儿童的面部视频数据进行抽动障碍人工标注和视频分割，得到片段的视频数据；

面部特征提取模块，用于基于面部特征提取算法对所述片段的视频数据进行面部特征提取，得到面部特征序列；

预测置信度确定模块，用于根据所述面部特征序列，基于深度神经网络模型确定抽动障碍识别和分类预测置信度；