CN108363979A

CN108363979A - 基于双通道三维卷积神经网络的新生儿疼痛表情识别方法

Info

Publication number: CN108363979A
Application number: CN201810145292.6A
Authority: CN
Inventors: 卢官明; 耿惠惠; 李晓南; 闫静杰; 卢峻禾
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-08-03

Abstract

本发明公开了一种基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，该方法包括以下步骤：(1)采集新生儿不同状态下的视频片段，按疼痛程度将视频分为n类表情，建立新生儿面部表情视频库；(2)将所述面部表情视频库中的每一个视频片段剪辑成l帧长的帧序列，对每一帧图像进行灰度化，并提取LBP特征图；(3)构造一种双通道三维卷积神经网络；(4)将所述灰度图序列及LBP特征图序列输入所述双通道三维卷积神经网络，对网络进行训练、调优，保存已训练的网络模型。该方法将深度卷积神经网络拓展应用到新生儿疼痛表情识别领域，以提高新生儿疼痛评估的准确性，为开发一种新生儿疼痛评估辅助系统提供技术支撑。

Description

基于双通道三维卷积神经网络的新生儿疼痛表情识别方法

技术领域

本发明涉及一种表情识别方法，具体涉及一种基于双通道三维卷积神经网络的新生儿疼痛表情识别方法。

背景技术

在临床过程中，医护人员实施的许多操作可引发新生儿的疼痛，如肌肉注射、足底采血、动静脉穿刺及插管等。长期以来，新生儿疼痛常常被忽略，大多没有得到适当的处理。研究表明，新生儿反复遭受疼痛刺激，会对他们的发育和将来的行为产生不良影响，可能会造成中枢神经系统损伤、急性生理反应、情感紊乱、发育迟缓等症状。因此，采取相应的镇痛措施，以减轻新生儿的疼痛，具有重要的临床意义。

疼痛评估是疼痛管理的关键，只有对疼痛进行准确的评估后，才能进一步判断是否需要进行疼痛治疗的干预，减少疼痛刺激对新生儿发育产生的不良影响。疼痛是个体的主观感受，语言表述被认为是最可靠的疼痛评估方法。但新生儿缺乏语言能力，无叙述疼痛能力，只能通过专业的评估方法进行诊断。目前在临床实践中，由受过专门训练的医务人员采用新生儿疼痛量表等评估工具进行人工评估。在这些评估工具中，都将“面部表情”作为一项重要的监测指标。然而，人工评估不仅耗时费力，而且评估结果依赖于医务人员的经验，并受个人情绪等主观因素的影响。

近年来，深度卷积神经网络在人脸识别、图像分类和识别等方面取得了突破性的进展，其强大的特征学习能力引起了广泛的关注。通过卷积神经网络自主学习得到的特征相对于人工设计特征具有更强的表征能力和泛化能力，从而最终提升分类识别或预测的准确性。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，该方法将深度卷积神经网络拓展应用到新生儿疼痛表情识别领域，以提高新生儿疼痛评估的准确性，为开发一种新生儿疼痛评估辅助系统提供技术支撑。

技术方案：本发明所述的基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，该方法包括以下步骤：

(1)采集新生儿不同状态下的视频片段，按疼痛程度将视频分为n类表情，其中，n为正整数，建立新生儿面部表情视频库；

(2)将所述面部表情视频库中的每一个视频片段剪辑成l帧长的帧序列，对每一帧图像进行灰度化，并提取LBP特征图；

(3)构造一种双通道三维卷积神经网络；

(4)将所述灰度图序列及LBP特征图序列输入所述双通道三维卷积神经网络，对网络进行训练、调优，保存已训练的网络模型；

(5)将测试视频片段输入到已训练的网络模型进行疼痛表情分类，输出识别结果。

优选的，步骤(3)中，所述双通道三维卷积神经网络包括特征提取部分和特征融合与分类识别部分。

优选的，所述特征提取部分包括三维卷积神经网络通道一和三维卷积神经网络通道二构成，所述通道一和通道二由输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5、全连接层组成，其中所述通道一用于对l帧长的灰度图序列进行处理，所述通道二对l帧长的LBP特征图序列进行处理；所述特征融合和分类识别部分包括串接层和分类层。

优选的，所述通道一和通道二的具体结构为：

第一层为输入层，将输入的每一帧灰度图或LBP特征图归一化成h×w像素，其中，h、w为正整数；

第二层为卷积层1，采用n₁个d₁×k₁×k₁的三维卷积核对l帧长的灰度图序列或LBP特征图序列进行卷积运算，输出n₁个特征图组，每个特征图组包含l₁个大小为h₁×w₁的特征图，其中，d₁为时间维大小，k₁×k₁为空间维大小，n₁、d₁、k₁、l₁、h₁、w₁为正整数；

第三层为池化层1，采用d₂×k₂×k₂的池化核对卷积层1输出的特征图组进行下采样操作，输出n₁个特征图组，每个特征图组包含l₂个大小为h₂×w₂的特征图，其中，d₂为时间维大小，k₂×k₂为空间维大小，d₂、k₂、l₂、h₂、w₂为正整数；

第四层为卷积层2，采用n₂个d₁×k₁×k₁的三维卷积核对池化层1输出的特征图组进行卷积运算，同时进行补零操作，输出n₂个特征图组，每个特征图组包含l₂个大小为h₂×w₂的特征图，其中，n₂为正整数；

第五层为池化层2，采用d₂×k₂×k₂的池化核对卷积层2输出的特征图组进行下采样操作，输出n₂个特征图组，每个特征图组包含l₃个大小为h₃×w₃的特征图，其中，l₃、h₃、w₃为正整数；

第六层为卷积层3，采用n₃个d₁×k₁×k₁的三维卷积核对池化层2输出的特征图组进行卷积运算，同时进行补零操作，输出n₃个特征图组，每个特征图组包含l₃个大小为h₃×w₃的特征图，其中，n₃为正整数；

第七层为池化层3，采用d₂×k₂×k₂的池化核对卷积层3输出的特征图组进行下采样操作，输出n₃个特征图组，每个特征图组包含l₄个大小为h₄×w₄的特征图，其中，l₄、h₄、w₄为正整数；

第八层为卷积层4，采用n₃个d₁×k₁×k₁的三维卷积核对池化层3输出的特征图组进行卷积运算，同时进行补零操作，输出n₃个特征图组，每个特征图组包含l₄个大小为h₄×w₄的特征图；

第九层为池化层4，采用d₂×k₂×k₂的池化核对卷积层4输出的特征图组进行下采样操作，输出n₃个特征图组，每个特征图组包含l₅个大小为h₅×w₅的特征图，其中，l₅、h₅、w₅为正整数；

第十层为卷积层5，采用n₃个d₁×k₁×k₁的三维卷积核对池化层3输出的特征图组进行卷积运算，同时进行补零操作，输出n₃个特征图组，每个特征图组包含l₅个大小为h₅×w₅的特征图；

第十一层为池化层5，采用d₂×k₂×k₂的池化核对卷积层5输出的特征图组进行下采样操作，输出n₃个h₆×w₆的特征图，其中，h₆、w₆为正整数；

第十二层为全连接层，将池化层5的输出全连接至本层的n₄个神经元，输出一个n₄维的特征向量，其中，n₄为正整数。

优选的，所述串接层和分类层具体结构为：

第十三层为串接层，将所述三维卷积神经网络通道的第十二层全连接层输出的n₄维特征向量进行串接，得到一个2n₄维的特征向量；

第十四层为分类层，采用softmax回归分类器，输出节点数为n，每个节点与上层串接层的2n₄维的特征向量全连接，输出一个n维列向量，向量中每一个维度的数代表输入样本属于该类别的概率，最大概率所对应的维度即为输入样本的分类类别。

优选的，步骤(4)中，所述网络训练、调优的方法为反向传播算法，直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。

有益效果：本发明与现有技术相比，其显著优点是：1、本发明采用三维卷积神经网络，通过三维卷积核提取视频片段的时域和空域特征，将特征提取从静态图像拓展到图像序列及LBP特征图序列，提取能够反映时间信息的动态特征，更好地表征面部表情的变化；2、采用双通道的网络结构，除了从新生儿面部图像序列中提取表情特征之外，还从新生儿面部图像的LBP特征图序列中提取表情特征，并对从两个通道提取的特征进行融合，相比于从单通道提取的特征，融合特征对面部受遮挡、姿态倾斜、光照变化具有较强的鲁棒性。

附图说明

图1是本发明的方法流程图；

图2是新生儿面部表情视频库中视频提取视频帧后的部分图像；

图3是新生儿面部表情视频帧的灰度图及LBP特征图；

图4是本发明双通道三维卷积神经网络结构图。

具体实施方式

实施例1

如图1，该方法包括以下步骤：

A、采集新生儿处于安静、啼哭状态以及致痛性操作引起轻度疼痛、剧烈疼痛等不同状态下的视频片段，由医护人员按疼痛程度将视频分为平静、哭、轻度疼痛、剧烈疼痛等n类表情，建立新生儿面部表情视频库。

B、将新生儿面部表情视频库中的每一个视频片段剪辑成l帧长的帧序列，对每一帧图像进行灰度化，并提取其局部二值模式(Local Binary Pattern，LBP)特征图，其中，l为正整数，在16、24、32数值中选取；

C、构造一种双通道三维卷积神经网络；

所构造双通道三维卷积神经网络分为两部分：第一部分用于特征提取，第二部分用于特征融合与分类识别，它们的具体结构如下：

C1、第一部分由两个相互独立的三维卷积神经网络通道构成，第一个通道对l帧长的灰度图序列进行处理，第二个通道对l帧长的LBP特征图序列进行处理，两个通道的网络结构相同，分别由输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5、全连接层组成，但网络模型参数不同，这两个通道的三维卷积神经网络的具体结构如下：

C1.1、第一层为输入层，将输入的每一帧灰度图或LBP特征图归一化成h×w像素，其中，h、w为正整数，取值范围为[64，256]；

C1.2、第二层为卷积层1，采用n₁个d₁×k₁×k₁(其中，d₁为时间维大小，k₁×k₁为空间维大小)的三维卷积核对l帧长的灰度图序列或LBP特征图序列进行卷积运算，输出n₁个特征图组，每个特征图组包含l₁个大小为h₁×w₁的特征图，其中，n₁、d₁、k₁、l₁、h₁、w₁为正整数，n₁在32、64、128数值中选取，d₁、k₁在3、5、7数值中选取，l₁在16、24、32数值中选取，h₁、w₁的取值范围为[64，256]；

C1.3、第三层为池化层1，采用d₂×k₂×k₂(d₂为时间维大小，k₂×k₂为空间维大小)的池化核对卷积层1输出的特征图组进行下采样操作，输出n₁个特征图组，每个特征图组包含l₂个大小为h₂×w₂的特征图，其中，d₂、k₂、l₂、h₂、w₂为正整数，d₂、k₂在1、2、3数值中选取，l₂在16、24、32数值中选取，h₂、w₂的取值范围为[32，128]；

C1.4、第四层为卷积层2，采用n₂个d₁×k₁×k₁的三维卷积核对池化层1输出的特征图组进行卷积运算，同时进行补零(Zero Padding)操作，输出n₂个特征图组，每个特征图组包含l₂个大小为h₂×w₂的特征图，其中，n₂为正整数，在64、128、256数值中选取；

C1.5、第五层为池化层2，采用d₂×k₂×k₂的池化核对卷积层2输出的特征图组进行下采样操作，输出n₂个特征图组，每个特征图组包含l₃个大小为h₃×w₃的特征图，其中，l₃、h₃、w₃为正整数，l₃在8、12、16数值中选取，h₃、w₃的取值范围为[16，64]；

C1.6、第六层为卷积层3，采用n₃个d₁×k₁×k₁的三维卷积核对池化层2输出的特征图组进行卷积运算，同时进行补零操作，输出n₃个特征图组，每个特征图组包含l₃个大小为h₃×w₃的特征图，其中，n₃为正整数，在128、256、512数值中选取；

C1.7、第七层为池化层3，采用d₂×k₂×k₂的池化核对卷积层3输出的特征图组进行下采样操作，输出n₃个特征图组，每个特征图组包含l₄个大小为h₄×w₄的特征图，其中，l₄、h₄、w₄为正整数，l₄在4、6、8数值中选取，h₄、w₄的取值范围为[8，32]；

C1.8、第八层为卷积层4，采用n₃个d₁×k₁×k₁的三维卷积核对池化层3输出的特征图组进行卷积运算，同时进行补零操作，输出n₃个特征图组，每个特征图组包含l₄个大小为h₄×w₄的特征图；

C1.9、第九层为池化层4，采用d₂×k₂×k₂的池化核对卷积层4输出的特征图组进行下采样操作，输出n₃个特征图组，每个特征图组包含l₅个大小为h₅×w₅的特征图，其中，l₅、h₅、w₅为正整数，l₅在2、3、4数值中选取，h₅、w₅的取值范围为[4，16]；

C1.10、第十层为卷积层5，采用n₃个d₁×k₁×k₁的三维卷积核对池化层3输出的特征图组进行卷积运算，同时进行补零操作，输出n₃个特征图组，每个特征图组包含l₅个大小为h₅×w₅的特征图；

C1.11、第十一层为池化层5，采用d₂×k₂×k₂的池化核对卷积层5输出的特征图组进行下采样操作，输出n₃个h₆×w₆的特征图，其中，h₆、w₆为正整数，取值范围为[2，8]；

C1.12、第十二层为全连接层，将池化层5的输出全连接至本层的n₄个神经元，输出一个n₄维的特征向量，其中，n₄为正整数，在256、512、1024数值中选取；

C2、第二部分由串接层和分类层构成，具体结构如下：

C2.1、第十三层为串接层，将两个三维卷积神经网络通道第十二层全连接层输出的n₄维特征向量进行串接，得到一个2n₄维的特征向量；

C2.2、第十四层为分类层，采用softmax回归分类器，输出节点数为n，每个节点与上层串接层的2n₄维的特征向量全连接，输出一个n维列向量，向量中每一个维度的数代表输入样本属于该类别的概率，其中，最大概率所对应的维度即为输入样本的分类类别

D、将l帧长的灰度图序列及LBP特征图序列输入双通道三维卷积神经网络，利用反向传播算法对网络进行训练、调优，将l帧长的灰度图序列及LBP特征图序列输入双通道三维卷积神经网络，利用反向传播算法对网络进行训练、调优，直到分类层softmax输出的损失函数值下降并收敛时结束训练，保存训练好的网络模型，保存已训练的网络模型。

E、将测试视频片段输入到已训练的双通道三维卷积神经网络进行疼痛表情分类，输出识别结果。

实施例2

实际应用中，优选的具体操作如下：步骤1：建立新生儿面部表情视频库

在医护人员对新生儿进行常规致痛性操作(如打针，采血)过程中，用高清数码相机拍摄新生儿疼痛表情视频，同时拍摄新生儿处于安静状态下和由于饥饿等原因引起哭闹时的非疼痛表情视频。由受过专业培训的医护人员，采用国际上公认的新生儿疼痛评估工具，对采集到的新生儿疼痛表情视频进行疼痛等级评估，按照疼痛的程度给予从1到10的评分，将评分值介于1～5的表情归类为轻度疼痛表情，评分值介于6～10的表情归类为剧烈疼痛表情。对采集到的上述4类视频进行标号，安静表情对应标号1，哭表情对应标号2，轻度疼痛表情对应标号3，剧烈疼痛表情对应标号4，并依次建立相对应表情的文件夹，将对应标记的新生儿表情视频依次放入，建立新生儿面部表情视频库。

步骤2：对新生儿面部表情视频库中视频进行预处理

将新生儿面部表情视频库中的每一个视频片段剪辑成16帧长的帧序列，对每一帧图像进行灰度化，然后采用LBP算子提取其的LBP特征图，得到预处理后的新生儿面部表情视频库。新生儿面部表情视频库中视频提取视频帧后的部分图像如图2所示，其灰度图及LBP特征图如图3所示。

步骤3：构造如图4所示的双通道三维卷积神经网络

第一部分由两个相互独立的三维卷积神经网络通道构成，第一个通道对16帧长的灰度图序列进行处理，第二个通道对16帧长的LBP特征图序列进行处理，两个通道的网络结构相同，分别由输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5、全连接层组成；

第一层为输入层，将输入的每一帧灰度图或LBP特征图归一化成112×112像素；

第二层为卷积层1，采用64个3×3×3的三维卷积核对16帧长的灰度图序列或LBP特征图序列进行卷积运算，同时进行补零(Zero Padding)操作，输出64个特征图组，每个特征图组包含16个大小为112×112的特征图；

第三层为池化层1，采用1×2×2的池化核对卷积层1输出的特征图组进行下采样操作，输出64个特征图组，每个特征图组包含16个大小为56×56的特征图；

第四层为卷积层2，采用128个3×3×3的三维卷积核对池化层1输出的特征图组进行卷积运算，同时进行补零操作，输出128个特征图组，每个特征图组包含16个大小为56×56的特征图；

第五层为池化层2，采用2×2×2的池化核对卷积层2输出的特征图组进行下采样操作，输出128个特征图组，每个特征图组包含8个大小为28×28的特征图；

第六层为卷积层3，采用256个3×3×3的三维卷积核对池化层2输出的特征图组进行卷积运算，同时进行补零操作，输出256个特征图组，每个特征图组包含8个大小为28×28的特征图；

第七层为池化层3，采用2×2×2的池化核对卷积层3输出的特征图组进行下采样操作，输出256个特征图组，每个特征图组包含4个大小为14×14的特征图；

第八层为卷积层4，采用256个3×3×3的三维卷积核对池化层3输出的特征图组进行卷积运算，同时进行补零操作，输出256个特征图组，每个特征图组包含4个大小为14×14的特征图；

第九层为池化层4，采用2×2×2的池化核对卷积层4输出的特征图组进行下采样操作，输出256个特征图组，每个特征图组包含2个大小为7×7的特征图；

第十层为卷积层5，采用256个3×3×3的三维卷积核对池化层4输出的特征图组进行卷积运算，同时进行补零操作，输出256个特征图组，每个特征图组包含2个大小为7×7的特征图；

第十一层为池化层5，采用2×2×2的池化核对卷积层5输出的特征图组进行下采样操作，输出256个大小为3×3的特征图；

第十二层为全连接层，全连接层输出节点数为512，每个节点与池化层5输出的每个特征图全连接，输出一个512维的特征向量；

第二部分由串接层和分类层构成，具体结构如下：

第十三层为串接层，将两个三维卷积神经网络通道第十二层全连接层输出的特征向量进行串接，得到一个1024维的特征向量，该向量即为融合了输入样本两个通道特征的融合特征向量；

第十四层为分类层，采用softmax回归分类器，输出节点数为4，每个节点与上层串接层的1024维的特征向量全连接，得到一个4维列向量，向量中每一个维度的数代表输入样本属于该类别的概率，最大概率所对应的维度即为输入样本的分类类别。

步骤4：网络训练与优化

将16帧长的灰度图序列及LBP特征图序列输入双通道三维卷积神经网络，利用反向传播算法，计算实际输出与样本标签对应的理想输出的误差，按极小化误差的方法，调整矩阵权值，对网络进行训练，直到网络分类层softmax输出的损失函数值下降并收敛时结束训练，保存训练好的网络模型。

步骤5：表情识别

将测试视频片段输入到已训练的双通道三维卷积神经网络进行疼痛表情分类，将其分为平静、哭、轻微疼痛、剧烈疼痛这四种表情。

Claims

1.一种基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，其特征在于，该方法包括以下步骤：

(3)构造一种双通道三维卷积神经网络；

2.根据权利要求1所述的基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，其特征在于，步骤(3)中，所述双通道三维卷积神经网络包括特征提取部分和特征融合与分类识别部分。

3.根据权利要求2所述的基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，其特征在于，所述特征提取部分包括三维卷积神经网络通道一和三维卷积神经网络通道二构成，所述通道一和通道二由输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5、全连接层组成，其中所述通道一用于对l帧长的灰度图序列进行处理，所述通道二对l帧长的LBP特征图序列进行处理；所述特征融合和分类识别部分包括串接层和分类层。

4.根据权利要求3所述的基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，其特征在于，所述通道一和通道二的具体结构为：

5.根据权利要求3所述的基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，其特征在于，所述串接层和分类层具体结构为：

6.根据权利要求1所述的基于双通道三维卷积神经网络的新生儿疼痛表情识别方法，其特征在于，步骤(4)中，所述网络训练、调优的方法为反向传播算法，直到所述分类层softmax回归分类器输出的损失函数值下降并收敛时结束训练。