CN117058584A

CN117058584A - 一种基于深度学习的婴儿痉挛症临床发作视频识别方法

Info

Publication number: CN117058584A
Application number: CN202311022570.6A
Authority: CN
Inventors: 付立军; 丁黎辉; 李旭; 王宗; 刘婧; 仇慧琪
Original assignee: Zhongke Zhihe Digital Technology Beijing Co ltd
Current assignee: Zhongke Zhihe Digital Technology Beijing Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-11-14

Abstract

本发明涉及计算机视觉领域、视频监控以及医疗康复等多个领域，尤其是一种基于深度学习的婴儿痉挛症临床发作视频识别方法。主旨在于结合计算机视觉技术精确定位患者活动情况，并实现自动识别患者是否发作。主要方案包括构建数据集，得到训练集和验证集，进行数据预处理；构建改进的vision transformer分类网络模型；把处理过的数据输入到改进的vision transformer分类网络中进行训练；观察训练模型收敛情况，判断损失函数是否过拟合，是否满足训练标准；如果满足训练标准则直接输出标准识别模型，不满足则找到符合预设标准的权重函数并且解冻数据集再次精化训练，得到满足标准的权重函数后输出标准婴儿痉挛症临床发作识别模型。

Description

一种基于深度学习的婴儿痉挛症临床发作视频识别方法

技术领域

本发明涉及计算机视觉领域、视频监控以及医疗康复等多个领域，尤其是一种基于深度学习的婴儿痉挛症临床发作视频识别方法。

背景技术

婴儿痉挛症是一种由癫痫/婴儿痉挛、异常的脑电波模式和智力障碍组成的症状群。它通常发生在婴儿期，可能由脑部损伤或遗传变异引起。婴儿痉挛是一种特殊类型的癫痫发作，痉挛发作的主要发作形式有三种，屈曲，伸展以及混合，在临床中动作幅度大的容易识别。临床工作中，判断痉挛发作的有无主要是通过判断脑电图波形变换情况，即使经验丰富的脑电图技师在判断痉挛与否时也会存在漏判情况，痉挛发作在脑电的工作中耗时较多(以脑电图经验10年以上的高级技师而言，一包2小时的图需要半小时以上来浏览判定)。

现有技术中，医生通过对婴儿发作时的头皮脑电图数据进行分析并对疾病予以确诊。专利《一种婴儿痉挛症的头皮脑电发作期高频振荡模型》，申请号为CN202110218074，属于脑电图模型技术领域，通过训练用于对脑电图设备监测到的头皮脑电图的高频振荡进行分析，判断是否为婴儿痉挛症的发作期。

脑电图技术所需的设备造价高昂，包括电极、导电材料、运算放大器等，这些设备需要定期维护和更新，给研究者带来了经济负担。其次，儿童佩戴脑电设备容易造成头部不适，因为脑电帽需要紧贴头皮，并且使用导电凝胶或盐水来改善电阻接触，这些操作可能会引起儿童的不适感和抵触情绪，导致他们在实验过程中哭闹或者不配合。因为脑电帽上有许多电极连接着导线，这些导线可能会因为被试的头部移动或者外界干扰而松动或断开，影响信号的质量和稳定性。

此外，脑电图产生数据量巨大，标注十分辛苦，因为每个被试的每个通道都会产生大量的原始数据，这些数据需要进行预处理、滤波、去噪、分析等步骤。最后，对脑电信号数据进行处理十分复杂，因为脑电信号受到很多因素的影响，如头皮、头骨、眼球运动、心跳、肌肉活动等，这些因素都会产生噪声和伪差，并且干扰信号源的定位和解释。因此，对脑电信号数据进行处理需要使用复杂的数学模型和算法，并且考虑多种可能的假设和解释。

发明内容本发明的目的在于克服现有技术的不足，提出了一种基于深度学习的婴儿痉挛症临床发作视频识别方法，利用对监控患者的住院视频数据，结合计算机视觉技术精确定位患者活动情况，并实现自动识别患者是否发作。

为了实现上述目的采用以下技术方案：

本发明提供了一种基于深度学习的婴儿痉挛症临床发作识别方法，主要包括以下步骤：

步骤1：对患者临床监控视频进行发作点前后的视频段截取，得到数据集；

步骤2：对步骤1得到的数据集中的视频段样本进行预处理，得到痉挛和非痉挛图片；

步骤3：使用SAM模型对图片分割，精准定位患者位置，得到发作与未发作类别的患者图片。

步骤4：获取患者图片数据，构建数据集，得到训练集和验证集，进行数据预处理；

步骤5：构建改进的vision transformer分类网络模型；

步骤6：把处理过的数据输入到改进的vision transformer分类网络中进行训练；

步骤7：观察训练模型收敛情况，判断损失函数是否过拟合，是否满足训练标准；如果满足训练标准则直接输出标准识别模型，不满足则找到符合预设标准的权重函数并且解冻数据集再次精化训练，得到满足标准的权重函数后输出标准婴儿痉挛症临床发作识别模型；

步骤8：利用标准婴儿痉挛症临床发作识别模型快速识别出婴儿是否发作，并判断其可能性概率，将结果输出保存为可供训练的XML文件。

上述技术方案中，上述步骤1，具体包括以下步骤：

步骤1.1：根据脑电图临床发作相关标注文件，从监控视频中截取出患者发作前后一秒的视频片段，并截取相同时间的未发作视频片段，每段视频时长为2-3秒，若截取的视频片段中患者被遮挡，则剔除该发作点片段；

步骤1.2：通过编写的python程序将截取的视频段格式从m2t格式转换为可被ffmpeg使用的MP4格式，获取同等数量的发作与未发作视频段，作为正负样本。

上述技术方案中，上述步骤2，具体包括以下步骤：

步骤2.1：对获取的视频片段进行截帧处理，帧率为n，得到图像数据并对图像进行平滑处理，扩充及统一格式大小，通过编写的python程序将图片保存为JPG格式；

步骤2.2：建立两个文件夹，分别命名为‘seizure’与‘non-seizure’，将通过步骤2.1得到的图片分别保存到对应的文件夹中，得到待分割文件及待分割文件的路径。

上述技术方案中，上述步骤3，具体包括以下步骤：

步骤3.1：安装好torch环境，从SAM官方github中克隆SegmentAnything代码，并下载模型文件，并安装Opencv及ipywidgets库函数，将步骤2.2准备的待分割文件路径写入模型相对位置，使用SAM模型的全自动分割方式将图片中的患者与其他对象分割出来，SAM模型的全自动分割是指在图像上生成等距离格网，图像上的每个像素点都作为提示信息，SAM从每个提示信息中预测多个掩码，然后，使用non-maximal suppression对掩膜结果进行过滤和优化，得到分割的结果；

步骤3.2：通过上述步骤3.1，将分割的结果保存为PNG格式的掩码文件，使用cv2.IMREAD_UNCHANGED参数以保留png的透明通道，使用cv2.inRange对分割结果的图片进行颜色阈值化，得到不同目标的二值掩码，即得到掩码文件，使用cv2.bitwise_and对原图片和二值掩码进行按位与运算，使得每个掩码文件对应一个目标；

步骤3.3：使用Python和Opencv库来读取图片和掩码文件，根据掩码文件提取出被分割出的患者区域，然后使用cv2.imwrite函数将患者区域保存为JPG格式即精准定位患者位置，得到发作与未发作类别的患者图片；

上述技术方案中，上述步骤4，具体包括以下步骤：

步骤4.1：将上述步骤3中的步骤3.3得到的具有发作与未发作类别的患者图片制作为数据集，并按照比例7∶3划分为训练集和验证集；

步骤4.2：对步骤4.1得到的数据集进行数据预处理操作，数据预处理操作包括：数据增强、引入多尺度机制、添加噪声和扰动；

数据增强：对数据集的训练集图像进行任意方向的翻转；对图像进行平移和裁剪；对图像实施色彩变化；

引入多尺度机制：使用Multi-scale融合不同尺度的图片进行数据增强，经数据集的训练集图像等比缩放到320和608的尺寸；

添加噪声和扰动：对数据集的训练集图像添加高斯、椒盐噪声；对图像施加对抗扰动。

上述技术方案中，上述步骤5，具体包括以下步骤：

步骤5.1：将resnet50网络的Batch Norm层替换为Group Norm，从而提高模型的性能和稳定性；

步骤5.2：对resnet50残差块采用Relu函数，防止网络出现“dying relu”问题，用于提高模型的鲁棒性，GELU函数的公式如下：

步骤5.3：在每个残差模块中的3*3卷积层后融入CA注意力机制，该机制将位置信息加入到通道注意力中，使得网络能够在避免大量计算开销的前提下参与较大的区域；

CA注意力机制的实现过程如下：

首先，将输入特征图分别沿着宽度和高度两个方向进行全局平均池化，接着，将得到的宽度和高度两个方向的特征图拼接在一起然后送入共享的卷积核为1x1的卷积模块中，并将维度降低为原来的C/r，之后，经过批量归一化处理和非线性激活函数得到形如C/rxlx(W+H)的特征图F，再将特征图分别按照原来的宽度和高度进行1x1卷积分别得到和原来通道数一致的特征图F_H和F_w.，经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重δ^h和δ^W；最后，在原始特征图上通过乘法加权计算，得到在宽度和高度方向上带有注意力权重的特征图，计算公式如下：

y_c(i，j)＝x_c(i，j)×δ^h(i)×δ^w(j)

步骤5.4：在vision transformer网络模型的patch embedding层之前加入改进的resnet50主干网络作为特征提取器。

上述技术方案中，步骤6具体包括以下步骤：

步骤6.1：将步骤4得到的发作与未发作训练集图片输入到步骤5.4得到的特征提取器中，经过卷积层和加入CA注意力机制的残差块堆叠，得到经过通道注意力加权和残差连接的特征图，有效保留原始特征图的空间维度和通道维度，增强特征表达能力；

步骤6.2：将步骤6.1得到的特征图输入之后的Patch Embedding层，将特征图分成大小为16*16的patchs，并用线性变换将每个patchs转换为一维向量，并将向量进行拼接；

步骤6.3：将步骤6.2得到的向量拼接上class token，用于学习其他patch的整体信息；

步骤6.4：将步骤6.3得到的向量加上Position Embedding，用于保留图片的类别信息和位置信息；

步骤6.5：将步骤6.4得到的所有向量输入到多层Transformer编码器中，进行自注意力计算，从而获得全局的上下文信息；

步骤6.6：将Transformer编码器的输出向量送入MLP Head层，得到图片的分类类别。

上述技术方案中，上述步骤7，具体包括以下步骤：

步骤7.1：训练过程中采用SGD优化器，初始学习率设置为0.0001，weight_decay设置为le-6，采用余弦退火策略来动态更新学习率，损失函数采用二元交叉熵损失，定义一个变量best acc，用于记录验证集上的最佳准确率；

步骤7.2：使用writer＝SummaryWriter(log_dir)来创建一个SummaryWriter对象，用于记录训练过程中的各种指标和可视化结果；

步骤7.3：通过tensorboard可视化窗口观察模型收敛情况，判断损失函数是否过拟合，是否满足训练标准；训练标准是看损失函数的下降情况，通常在训练一定轮数之后，损失函数结果会稳定在一个数值，训练少了会欠拟合，训练多了会过拟合。

步骤7.4：提前终止程序将目前已训练一段时候得到的权重函数保存起来，将batch-size修改为30，将冰冻的数据集进行解冻，找到已经保存的权重函数中的最优值，调整参数后在此基础上继续模型的训练；最后将训练得到的最终权重函数保存好，得到满足标准的权重函数后输出模型。

上述技术方案中，上述步骤8，具体包括以下步骤：

步骤8.1：利用此婴儿痉挛症临床发作视频识别方法对患者临床视频进行识别，分割出视频中患者的位置，自动识别出患者发作时刻；

步骤8.2：将输出结果保存为XML文件，标注的结果可用于其他模型的训练。

因为本发明采用上述技术方案，因此具备以下有益效果：

1.本发明使用视频识别婴儿痉挛可以避免对婴儿进行侵入性的脑电图检查，减少不适和风险。

2.本发明使用的分割模型SAM能够实现零样本迁移，具有较好的分割效果。

3.目前识别儿童痉挛发作主要通过识别脑电图信号实现，本发明通过使用视频抽取婴儿发作图片进行图像识别，缓解了脑电工作耗时较多的问题。

4..本发明使用了改进的vision transformer分类网络模型，可以充分利用视频数据的全局信息，提高分类的准确性和鲁棒性。

5.本发明能够实时识别监控视频中患者是否发生临床发作。

6.本发明可以快速地输出婴儿是否发作以及可能性概率，为医生提供及时的辅助诊断信息，有助于改善婴儿痉挛症的治疗效果和预后。

7.本发明采用解冻数据集再次精化训练的方法，可以避免过拟合，提升模型的泛化能力。

附图说明

图1为本发明婴儿痉挛症临床发作视频识别流程图；

图2为改进的vision transformer网络结构图；

图3为改进的resnet50残差模块结构图；

图4为CA注意力机制实现方式图。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

本发明使用SAM模型进行分割处理出婴儿痉挛综合征动作图片，然后放入visiontransformer分类网络中判断是否是发作状态，这是一种基于深度学习的婴儿痉挛综合征临床发作视频识别方法，可以提高识别的准确性和效率，避免对婴儿进行侵入性的脑电图检查，方便家长和医生及时发现和记录发作情况。

使用SAM模型进行分割处理出患者动作图片，然后放入vision transformer分类网络中判断是否是发作状态的具体步骤和参数设置，以及SAM模型和vision transformer分类网络的结构和训练方法。

与现有技术相比本发明有以下特点：

1.减少误诊和漏诊：现有的痉挛识别方法主要依赖于脑电图检查，但脑电图检查存在一定的局限性，如不能持续监测、受干扰影响、需要专业人员操作和解读等，导致部分痉挛发作可能被忽略或误判。而该方法利用视频片段作为输入，可以实时捕捉婴儿的动作变化，通过深度学习模型进行精确的分类判断，提高了痉挛识别的敏感性和特异性；

2.降低检查成本和风险：现有的脑电图检查需要使用专业的设备和人员，耗时耗力，且对婴儿有一定的侵入性和不适感。而该方法只需要使用普通的摄像头或手机拍摄婴儿的视频片段，无需对婴儿进行任何操作或接触，减少了检查的成本和风险；

3.增加检查便利性和可视化：现有的脑电图检查需要在医院或专业机构进行，不利于家长和医生及时发现和记录痉挛发作情况。而该方法可以在任何场所和时间进行视频拍摄和分析，方便家长和医生随时监测婴儿的状态，并且可以通过分割处理出患者动作图片，增加了检查结果的可视化和直观性。

本发明的目的在于克服现有技术的不足，提出了一种基于深度学习的婴儿痉挛症临床发作视频识别方法，利用对监控患者的住院视频数据，结合计算机视觉技术精确定位患者活动情况，并实现自动识别患者是否发作。

本申请提案主要包括视频数据采集、视频段样本处理、SAM模型分割、数据预处理以及ViT模型分类训练五个模块。

视频数据采集具体包括以下步骤：

步骤1：根据脑电图临床发作相关标注文件，从监控视频中截取出患者发作前后一秒的视频片段，并截取相同时间的未发作视频片段，每段视频时长大概为2-3秒，若截取的视频片段中患者被遮挡，则剔除该发作点片段。

步骤2：通过编写的python程序将截取的视频段格式从m2t格式转换为可被ffmpeg使用的MP4格式。获取同等数量的发作与未发作视频段，作为正负样本。

视频段样本处理具体包括，对步骤1得到的数据集中的视频段样本进行预处理，得到痉挛和非痉挛图片，具体包括以下步骤：

步骤2.1：对获取的视频片段进行截帧处理，帧率为14，得到图像数据并对图像进行平滑处理，扩充及统一格式大小，通过编写的python程序将图片保存为JPG格式。

步骤2.2：建立两个文件夹，分别命名为‘seizure’与‘non-seizure’，将通过步骤2.1得到的图片分别保存到对应的文件夹中。

SAM模型分割，精准定位患者位置，得到发作与未发作类别的患者图片，具体包括以下步骤：

步骤3.1：安装好torch环境，从SAM官方github中克隆SegmentAnything代码，并下载模型文件，并安装Opencv及ipywidgets等必要的库函数，将步骤1.2准备的待分割文件路径写入模型相对位置，使用SAM模型的全自动分割方式将图片中的患者与其他对象分割出来。SAM模型的全自动分割原理是在图像上生成等距离格网，每个点都作为提示信息，SAM可以从每个提示中预测多个掩码。然后，使用non-maximal suppression对掩膜结果进行过滤和优化。

步骤3.2：通过上述步骤3.1，将分割的结果保存为PNG格式的掩码文件，使用cv2.IMREAD_UNCHANGED参数以保留png的透明通道，使用cv2.inRange对分割结果的图片进行颜色阈值化，得到不同目标的二值掩码，使用cv2.bitwise_and对原图片和二值掩码进行按位与运算，使得每个掩码文件对应一个目标。

步骤3.3：使用Python和Opencv库来读取图片和掩码文件，根据掩码文件提取出被分割出的患者区域，然后使用cv2.imwrite函数将其保存为JPG格式。

数据预处理具体包括以下步骤：

步骤4.1：将上述步骤得到的具有发作与未发作类别的患者图片制作为数据集，并按照一定比例划分为训练集和验证集，设定的比例为7：3。

步骤4.2：对得到的数据集进行数据预处理操作。数据预处理操作包括：数据增强、引入多尺度机制、添加噪声和扰动；

构建改进的vision transformer分类网络模型具体包括以下步骤：

CA注意力机制的实现过程如下：

首先，将输入特征图分别沿着宽度和高度两个方向进行全局平均池化，接着，将得到的宽度和高度两个方向的特征图拼接在一起然后送入共享的卷积核为1x1的卷积模块中，并将维度降低为原来的C/r，之后，经过批量归一化处理和非线性激活函数得到形如C/rx1x(W+H)的特征图F，再将特征图分别按照原来的宽度和高度进行1x1卷积分别得到和原来通道数一致的特征图F_H和F_w.，经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重δ^h和δ^W；最后，在原始特征图上通过乘法加权计算，得到在宽度和高度方向上带有注意力权重的特征图，计算公式如下：

y_c(i，j)＝x_c(i，j)×δ^h(i)×δ^w(j)

步骤6具体包括以下步骤：

上述技术方案中，上述步骤7，具体包括以下步骤：

步骤7.1：训练过程中采用SGD优化器，初始学习率设置为0.0001，weight_decay设置为le-6，采用余弦退火策略来动态更新学习率，损失函数采用二元交叉熵损失，定义一个变量best_acc，用于记录验证集上的最佳准确率；

上述技术方案中，上述步骤8，具体包括以下步骤：

Claims

1.一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，包括以下步骤：

步骤3：使用SAM模型对图片分割，精准定位患者位置，得到发作与未发作类别的患者图片；

步骤5：构建改进的vision transformer分类网络模型；

2.根据权利要求1所述的一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，上述步骤1，具体包括以下步骤：

3.根据权利要求1所述的一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，上述步骤2，具体包括以下步骤：

4.根据权利要求1所述的一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，上述步骤3，具体包括以下步骤：

步骤3.3：使用Python和Opencv库来读取图片和掩码文件，根据掩码文件提取出被分割出的患者区域，然后使用cv2.imwrite函数将患者区域保存为JPG格式即精准定位患者位置，得到发作与未发作类别的患者图片。

5.根据权利要求4所述的一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，上述步骤4，具体包括以下步骤：

6.根据权利要求1所述的一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，上述步骤5，具体包括以下步骤：

CA注意力机制的实现过程如下：

首先，将输入特征图分别沿着宽度和高度两个方向进行全局平均池化，接着，将得到的宽度和高度两个方向的特征图拼接在一起然后送入共享的卷积核为1x1的卷积模块中，并将维度降低为原来的C/r，之后，经过批量归一化处理和非线性激活函数得到形如C/rx1x(W+H)的特征图F，再将特征图分别按照原来的宽度和高度进行1x1卷积分别得到和原来通道数一致的特征图FH和F_w.，经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重δ^h和δ^W；最后，在原始特征图上通过乘法加权计算，得到在宽度和高度方向上带有注意力权重的特征图，计算公式如下：

y_c(i，j)＝x_c(i，j)×δ^h(i)×δ^w(j)

7.根据权利要求1所述的一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，上述步骤6，具体包括以下步骤：

8.根据权利要求1所述的一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，上述步骤7，具体包括以下步骤：

步骤7.3：通过tensorboard可视化窗口观察模型收敛情况，判断损失函数是否过拟合，是否满足训练标准；训练标准是看损失函数的下降情况，通常在训练一定轮数之后，损失函数结果会稳定在一个数值，训练少了会欠拟合，训练多了会过拟合；

9.根据权利要求1所述的一种基于深度学习的婴儿痉挛症临床发作识别方法，其特征在于，上述步骤8，具体包括以下步骤：