CN113180594A

CN113180594A - 一种多维时空深度学习评估新生儿术后疼痛方法

Info

Publication number: CN113180594A
Application number: CN202110257643.4A
Authority: CN
Inventors: 潘晓光; 王小华; 令狐彬; 焦璐璐; 张娜
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-07-30

Abstract

本发明提供了一种多维时空深度学习评估新生儿术后疼痛方法，包括：获取新生儿术后疼痛的视频信息和音频信息；从视频信息中提取关键帧，并检测新生儿面部区域信息和身体区域信息；从新生儿面部区域信息中提取新生儿面部特征，并结合时间信息整合成新生儿的面部疼痛值；从身体区域信息中提取新生儿身体特征，并结合时间信息整合成新生儿的身体疼痛值；从音频信息中提取新生儿的梅尔频率倒谱系数MFCC和深层特征，并分析新生儿的音频疼痛值；根据新生儿面部疼痛值、身体疼痛值和音频疼痛值采用决策融合模型评估分析新生儿的疼痛水平。可以根据多个指标来评估程序性或短期疼痛，有更高的AUC和准确性；显著改善了性能，可以捕获疼痛动态的变化。

Description

一种多维时空深度学习评估新生儿术后疼痛方法

技术领域

本发明涉及医疗信息检测领域，具体涉及一种多维时空深度学习评估新生儿术后疼痛方法。

背景技术

现代医学研究表明新生儿能够感知和记忆外界的疼痛刺激，住院新生儿的疼痛经历可能会对其造成短期和长期的负面影响，如急性应激、中枢神经系统的永久损伤和情感紊乱等，所以正确评估疼痛并采取镇痛措施具有重要的临床意义。在新生儿的护理和治疗过程中，通常伴随着致痛性操作，如：足底采血、动静脉穿刺、皮下和肌肉注射等。国家和国际准则指出，照顾新生儿的单位必须采用足够的疼痛评估工具，以涵盖其环境中存在的胎龄和疼痛类型。应当定期进行疼痛评估，并进行一些疼痛检查项目。

目前，由于新生儿不能用语言表述疼痛的感受，疼痛评估成为儿科学中的一个挑战性难题。传统的评估方法取决于床边护理人员，这种方法是主观的，不一致的，缓慢的和不连续的。为了发展可靠的医学解释，已经提出了几种自动化方法来增强当前的实践。在临床实践中，由受过专门训练的医务人员采用新生儿面部、新生儿疼痛量表等评估工具进行人工评估。但这些方法是单维的，主要侧重于评估新生儿手术(急性)疼痛。由于疼痛是一种多维的情绪，通常通过多种维度来表达，因此疼痛的多维评估是必要的，尤其是在术后(急性长期)疼痛的情况下。大多数现有的疼痛评估机器学习方法集中于程序性疼痛，是单维的，没有考虑到疼痛的时间信息和动态模式。最近提出了一种多维方法来评估程序急性疼痛使用手工制作的方法，但它没有整合时间信息。

发明内容

针对现有技术存在的上述不足，本发明的目的在于：提供一种多维时空深度学习评估新生儿术后疼痛方法，该方法整合了新生儿的视觉信号和声音信号，并集成了时态信息，对新生儿术后疼痛进行多维评估。和现有技术相比，可以基于多个指标的空间分析来评估程序性或短期疼痛，有更高的AUC和准确性；同时，集成时态信息显著改善了性能，可以捕获疼痛动态的变化。这将为临床环境，现场护理测试和家庭中的全自动疼痛监测铺平道路。

一种多维时空深度学习评估新生儿术后疼痛方法，包括以下步骤：

获取新生儿术后疼痛的视频信息和音频信息；

使用FFmpeg库从所述视频信息中提取关键帧，采用YOLO检测器从视频关键帧中检测新生儿面部区域信息和身体区域信息；

采用双线性CNN从新生儿面部区域信息中提取新生儿面部特征，采用神经网络RNN将新生儿面部特征和时间信息整合成新生儿的面部疼痛值；采用运动图像和VGG-16网络从身体区域信息中提取新生儿身体特征，采用神经网络RNN将新生儿身体特征和时间信息整合成新生儿的身体疼痛值；

从音频信息中提取新生儿的梅尔频率倒谱系数MFCC，将音频信息转化成声谱图图像，采用VGG-16网络从声谱图图像中提取深层特征，根据新生儿的梅尔频率倒谱系数MFCC和深层特征分析新生儿的音频疼痛值；

根据新生儿面部疼痛值、身体疼痛值和音频疼痛值采用决策融合模型评估分析新生儿的疼痛水平。

进一步地，所述VGG-16网络包括13个均匀卷积层和3个完全连接层，每个卷积层使用一个3×3内核大小的过滤器，然后是一个池化层；网络从64深度开始，逐渐增加2倍，直到512深度。

进一步地，所述YOLO检测器包括YOLO人脸检测器和YOLO身体检测器，所述YOLO人脸检测器用于检测每一帧中的人脸区域；从每个视频片段中提取的关键帧总数固定为32帧，针对关键帧中的人脸区域被遮挡而导致人脸检测器失效的，使用固定数量的关键帧来促进训练过程；在训练之前，为了扩大数据集，对关键帧进行图像增强，使用30°旋转，±25％的亮度变化，水平翻转。

进一步地，所述双线性CNN包括两个VGG-16网络流，将两种流提取的特征进行组合，生成双线性向量，然后生成两个全连通(FC)层(64单元)和一个稠密层(1单元，线性激活)；在每个FC层之后添加Dropout层(0.5)，以防止过度拟合；使用两个VGG-16网络作为双线性CNN的流，这两个网络使用VGGFace2和ImageNet数据集进行了预训练；手术和术后数据集对整个双线性CNN模型进行微调。

进一步地，所述YOLO身体检测器用于检测新生儿的身体区域，该检测器最初是在COCO数据集上预先训练的，该数据集包含80个目标类别约330K的图像；从每个视频片段中提取的关键帧总数固定为32帧，为了扩大CNN训练的数据集，进行了旋转(30°)、亮度变化(±25％)和水平翻转的随机组合。

进一步地，所述梅尔频率倒谱系数MFCC用于从音频信号中提取有用的、有代表性的特征集/系数，同时剔除噪声和无用的特征；采用信号频谱对数的傅里叶反变换(IFT)将音频信号转换到倒频谱域；提取了20个MFCCs功能的所有帧的音频片段，计算了20个MFCCs的平均特征，得到的平均MFCCs特征向量长度为388。

进一步地，所述将音频信息转化成声谱图图像，采用VGG-16网络从声谱图图像中提取深层特征，具体包括：

所述声谱图图像显示了给定音频信号的视觉表示，它代表了频率分量随时间的变化，抑制了噪声；声谱图图像中更亮的像素代表更高的能量，在为每个音频片段生成声谱图图像之后，使用vgg16网络从这些图像中提取深层特征；

为了训练网络，将信号增强技术应用于原始音频信号，以扩大声谱图图像集；通过在3个不同级别(f/3、f/2、2f/3)改变原始频率f，并添加6个不同级别的噪声(0.001、0.003、0.005、0.01、0.03、0.05)来增强每个音频信号；应用频率和噪声的组合来产生更多的变异信号，这个过程为每个音频信号总共生成27幅(3+6+3*6)增强图像。

进一步地，从音频信息中提前声音特征，采用传统的机器学习分类器和基于深度学习的分类器；在传统分类器的情况下，使用提取的MFCCs特征来训练分类器，包括高斯朴素贝叶斯、随机森林和K-Nearest Neighbors(KNN)分类器；对于基于深度学习的分类，使用一个预先训练(ImageNet)的VGG-16CNN网络，并使用术后疼痛数据集对该网络进行微调。

相比于现有技术，本发明具有以下优点：

本发明提供了一种多维时空深度学习评估新生儿术后疼痛方法，该方法整合了新生儿的视觉信号和声音信号，并集成了时态信息，对新生儿术后疼痛进行多维评估。和现有技术相比，可以基于多个指标的空间分析来评估程序性或短期疼痛，有更高的AUC和准确性；同时，集成时态信息显著改善了性能，可以捕获疼痛动态的变化。这将为临床环境，现场护理测试和家庭中的全自动疼痛监测铺平道路。

附图说明

图1为本发明实施例中多维时空深度学习评估新生儿术后疼痛方法的控制框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

实施例：

参照图1，一种多维时空深度学习评估新生儿术后疼痛方法，包括以下步骤：

获取新生儿术后疼痛的视频信息和音频信息；

上述多维时空深度学习评估新生儿术后疼痛方法，该方法整合了视觉和声音信号，并将其用于评估新生儿术后疼痛。现有的工作侧重于基于单一疼痛指标的空间分析来评估程序性或短期疼痛，或传统的方法使用多种疼痛指标。与单维方法相比，多维方法有更高的AUC和准确性。时态信息的集成显着改善了性能，因为它可以捕获疼痛动态的变化。本方案可以作为人工评估的一种可行的替代方案，这将为临床环境，现场护理测试和家庭中的全自动疼痛监测铺平道路。使用手术和术后疼痛数据分别训练不同模型对应不同的疼痛指标。对于每个疼痛指标，提取时空特征并用于生成该具体指标的评分。然后，融合所有指标的分数来生成最终的疼痛水平。

具体实施时，为了评估多维时空深度学习方法，本方案使用了包含手术和术后新生儿疼痛数据的数据集。该数据集被称为USF-MNPAD-I(南佛罗里达大学多模式新生儿疼痛评估数据集)，收集于美国佛罗里达州坦帕综合医院NICU。数据集由45个新生儿组成，其胎龄从30周到41周不等。它的人口在种族和种族上是多样化的，包括亚洲人、非裔美国人和高加索新生儿。该数据收集得到了USF伦理审查委员会(IRB#Pro00014318)的批准。

上述多维时空深度学习评估新生儿术后疼痛方法中，VGG-Net是一种最先进的卷积神经网络(CNN)，用于视觉特征提取。VGG-16由13个均匀卷积层和3个完全连接层组成。每个卷积层使用一个3×3内核大小的过滤器，然后是一个池化层。网络从64深度开始，逐渐增加2倍，直到512深度。在方案中，使用vgg16网络从声音的人脸、身体和声谱图图像中提取视觉特征。

上述多维时空深度学习评估新生儿术后疼痛方法中，长短期记忆(LSTM)：是一种循环电流神经网络(RNN)，能够学习给定序列的时间信息。LSTM利用单元状态解决了长期依赖和消失梯度问题，单元状态由三个门控制:输入门、遗忘门和输出门。输入门控制哪些信息应该保存到单元格状态。遗忘门控制哪些信息应该被忽略或忘记从以前的单元状态。最后，输出门控制哪些信息应该发送到下一个状态。在方案中，我们使用VGG-Net提取的LSTM和深层特征来学习术后疼痛的时间规律和动态。

下面从新生儿术后疼痛感的面部表情、身体动作分析和哭声分析三方面来具体阐述。

针对新生儿术后疼痛感的面部表情分析：包括预处理、面部特征提取和时间信息集成。

预处理，第一个预处理步骤包括使用FFmpeg库从所有视频中提取关键帧。然后使用预先训练好的基于YOLO的人脸检测器检测每一帧中的人脸区域。YOLO人脸检测器是使用更广泛的人脸数据集预先训练的，该数据集包含大约393,703张脸。根据经验决定将从每个视频片段中提取的关键帧总数固定为32帧。此外，一些关键帧中的人脸区域被遮挡，导致人脸检测器失效。因此，我们使用固定数量的关键帧来促进训练过程。在CNNs训练之前，为了扩大数据集，对关键帧进行图像增强，使用30°旋转，±25％的亮度变化，水平翻转。

面部特征提取，在方案中，对预训练的vgg16 CNN架构进行了微调，以从术后疼痛时捕获的图像中提取视觉特征。双线性CNN(Section 2)可以更好地捕捉细微的变化，所以使用带有两个vgg16流的双线性CNN来学习pain相关的特征。将两种流提取的特征进行组合，生成双线性向量，然后生成两个全连通(FC)层(64单元)和一个稠密层(1单元，线性激活)。此外，在每个FC层之后添加Dropout层(0.5)，以防止过度拟合。使用两个VGG-16网络作为双线性CNN的流，这两个网络使用VGGFace2和ImageNet数据集进行了预训练。然后，手术和术后数据集对整个双线性CNN模型进行微调。

时间信息集成，疼痛是一个动态的事件，随着时间以特定的模式发展。因此，有必要整合时间信息以获得准确的疼痛评估。利用双线性CNN提取特征后，RNN再对深度特征进行训练，学习疼痛动力学。最后，利用稠密层将信号分为疼痛和无疼痛。

针对新生儿术后疼痛感的身体动作分析：包括预处理、身体动作特征提取和时间信息集成。

预处理，使用FFmpeg库从视频片段中提取关键帧。使用YOLO检测器来检测新生儿的身体区域，该检测器最初是在COCO数据集上预先训练的，该数据集包含80个目标类别约330K的图像。此外，与面部表情相似，将每个视频片段的关键帧数固定为32。重采样技术帮助我们产生相同数量的帧以防任何故障检测。为了扩大CNN训练的数据集，进行了旋转(30°)、亮度变化(±25％)和水平翻转的随机组合。

身体动作特征提取，从身体区域提取疼痛相关特征的最先进的方法是基于手工的(如运动图像)和基于深度学习的(如VGG-16)。因此，采用两种方法，即运动图像和VGG-16，从肢体运动来评估新生儿术后疼痛。动作图像识别连续帧之间像素的变化，通过减去连续帧，然后阈值化来计算。运动图像的像素值为1(移动)和0(不移动)。为了计算每一帧的总运动，将所有像素相加并除以该帧的尺寸。然后以计算出的总行为动作主要特征来训练传统的分类器，如高斯朴素贝叶斯、随机森林和k近邻。对于深度学习，使用动作图像和原始身体图像训练VGG-16网络。

时间信息集成，为了捕捉人体运动的时间变化，将RNN(即LSTM)网络集成到VGG-16中。使用相同的LSTM网络架构，用于面部表情。VGG-16和LSTM的集成允许学习随着时间推移的身体运动动态。

针对新生儿术后疼痛感的哭声分析：包括预处理和哭声特征提取。

预处理，在由于咬合或襁褓而无法记录特定的疼痛指标时，可以用哭声来评估疼痛。从哭声中提取疼痛相关特征的最先进的方法是基于手工的(如MFCC)和基于深度学习的(如声谱图图像)。因此度提取了两种特征，MFCC和深层特征，用于评估新生儿术后疼痛。

MFCC是Mel频率倒频谱系数(Mel Frequency Cepstral Coefficient,MFCC)的缩写，是一种常用的倒频谱域方法，已成功地用于从音频信号中提取有用的、有代表性的特征集(即系数)，同时剔除噪声和无用的特征。采用信号频谱对数的傅里叶反变换(IFT)将音频信号转换到倒频谱域。提取了20个MFCCs功能的所有帧的音频片段(约。9秒)。然后我们计算了20个MFCCs的平均特征，得到的平均MFCCs特征向量长度为388。

除了MFCCs功能，转换的原始音频信号(约。9秒)到一个光谱图图像。声谱图图像显示了给定音频信号的视觉表示。它代表了频率分量随时间的变化，抑制了噪声。光谱图图像中更亮的像素代表更高的能量，反之亦然。在为每个音频片段生成谱图图像之后，使用vgg16网络从这些图像中提取深层特征。

为了训练网络，将信号增强技术应用于原始音频信号，以扩大谱图图像集。通过在3个不同级别(f/3、f/2、2f/3)改变原始频率f，并添加6个不同级别的噪声(0.001、0.003、0.005、0.01、0.03、0.05)来增强每个音频信号。此外，还应用频率和噪声的组合来产生更多的变异信号。这个过程为每个音频信号总共生成27幅(3+6+3*6)增强图像。

哭声特征提取，采用了传统的机器学习分类器和基于深度学习的分类器。在传统分类器的情况下，使用提取的MFCCs特征来训练分类器，如高斯朴素贝叶斯、随机森林和K-Nearest Neighbors(KNN)分类器。对于基于深度学习的分类，使用一个预先训练(ImageNet)的VGG-16CNN网络，并使用术后疼痛数据集对该网络进行微调。使用上述提取的光谱图图像对VGG-16CNN网络进行训练。CNN的最后一个分类层有一个sigmoid激活函数，而不是线性激活。

上述多维时空深度学习评估新生儿术后疼痛方法，为了生成一个多模式的术后疼痛评估，使用决策融合将所有指标特异性模型生成的疼痛评分合并在一起。多维疼痛评估是必要的，因为疼痛表现为不同的信号。此外，它允许在记录一些疼痛指示器失败时检测疼痛。为了结合面部表情、哭声和肢体动作的标签或分数，采用非加权多数投票方案，在给定的标签组合中选择多数标签作为最终标签。如果组合是平局，使用类概率(置信分数)来打破平局。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的保护范围当中。

Claims

1.一种多维时空深度学习评估新生儿术后疼痛方法，其特征在于，包括以下步骤：

获取新生儿术后疼痛的视频信息和音频信息；

2.根据权利要求1所述的多维时空深度学习评估新生儿术后疼痛方法，其特征在于，所述VGG-16网络包括13个均匀卷积层和3个完全连接层，每个卷积层使用一个3×3内核大小的过滤器，然后是一个池化层；网络从64深度开始，逐渐增加2倍，直到512深度。

3.根据权利要求1所述的多维时空深度学习评估新生儿术后疼痛方法，其特征在于，所述YOLO检测器包括YOLO人脸检测器和YOLO身体检测器，所述YOLO人脸检测器用于检测每一帧中的人脸区域；从每个视频片段中提取的关键帧总数固定为32帧，针对关键帧中的人脸区域被遮挡而导致人脸检测器失效的，使用固定数量的关键帧来促进训练过程；在训练之前，为了扩大数据集，对关键帧进行图像增强，使用30°旋转，±25％的亮度变化，水平翻转。

4.根据权利要求3所述的多维时空深度学习评估新生儿术后疼痛方法，其特征在于，所述双线性CNN包括两个VGG-16网络流，将两种流提取的特征进行组合，生成双线性向量，然后生成两个全连通(FC)层(64单元)和一个稠密层(1单元，线性激活)；在每个FC层之后添加Dropout层(0.5)，以防止过度拟合；使用两个VGG-16网络作为双线性CNN的流，这两个网络使用VGGFace2和ImageNet数据集进行了预训练；手术和术后数据集对整个双线性CNN模型进行微调。

5.根据权利要求3所述的多维时空深度学习评估新生儿术后疼痛方法，其特征在于，所述YOLO身体检测器用于检测新生儿的身体区域，该检测器最初是在COCO数据集上预先训练的，该数据集包含80个目标类别约330K的图像；从每个视频片段中提取的关键帧总数固定为32帧，为了扩大CNN训练的数据集，进行了旋转(30°)、亮度变化(±25％)和水平翻转的随机组合。

6.根据权利要求1所述的多维时空深度学习评估新生儿术后疼痛方法，其特征在于，所述梅尔频率倒谱系数MFCC用于从音频信号中提取有用的、有代表性的特征集/系数，同时剔除噪声和无用的特征；采用信号频谱对数的傅里叶反变换(IFT)将音频信号转换到倒频谱域；提取了20个MFCCs功能的所有帧的音频片段，计算了20个MFCCs的平均特征，得到的平均MFCCs特征向量长度为388。

7.根据权利要求1所述的多维时空深度学习评估新生儿术后疼痛方法，其特征在于，所述将音频信息转化成声谱图图像，采用VGG-16网络从声谱图图像中提取深层特征，具体包括：

8.根据权利要求1所述的多维时空深度学习评估新生儿术后疼痛方法，其特征在于，从音频信息中提前声音特征，采用传统的机器学习分类器和基于深度学习的分类器；在传统分类器的情况下，使用提取的MFCCs特征来训练分类器，包括高斯朴素贝叶斯、随机森林和K-Nearest Neighbors(KNN)分类器；对于基于深度学习的分类，使用一个预先训练(ImageNet)的VGG-16 CNN网络，并使用术后疼痛数据集对该网络进行微调。