CN117038055B

CN117038055B - 一种基于多专家模型的疼痛评估方法、系统、装置及介质

Info

Publication number: CN117038055B
Application number: CN202310822147.8A
Authority: CN
Inventors: 李碧莲; 吕建明; 梁泽权; 罗昊; 陈曦; 杨道全; 钟志鹏; 余炜祺; 夏思俊; 范成; 余婷婷
Original assignee: South China University of Technology SCUT; Guangzhou Women and Childrens Medical Center
Current assignee: South China University of Technology SCUT; Guangzhou Women and Childrens Medical Center
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2024-04-02
Anticipated expiration: 2043-07-05
Also published as: CN117038055A

Abstract

本发明公开了一种基于多专家模型的疼痛评估方法、系统、装置及介质，通过获取目标对象疼痛时期的视频数据；对视频数据进行抽帧提取，通过预处理得到多模态输入数据序列；将多模态输入数据序列输入预设神经网络，并进行初步预训练，得到各个模态的预训练模型；通过各模态预训练模型，对多模态输入数据序列中对应模态的数据进行分析，获得各模态的特征空间；在特征空间下对训练数据进行聚类，获得若干聚类结果；基于预训练模型设置专家模型，以聚类结果作为各专家的训练样本，进行多专家训练，获得目标评估模型；通过目标评估模型对待评估数据序列进行分析，并通过加权求和，得到目标疼痛分数。本发明能够提升疼痛识别的准确性，可广泛应用于数据处理技术领域。

Description

一种基于多专家模型的疼痛评估方法、系统、装置及介质

技术领域

本发明涉及数据处理技术领域，尤其是一种基于多专家模型的疼痛评估方法、系统、装置及介质。

背景技术

儿童疼痛评估是医学界专家普遍关注的领域。儿童疼痛的负面影响广泛，如果没有及时的识别和处理，可能转变为慢性疼痛和长期的疼痛相关性的序列障碍。

目前，虽然医学界已存在大量的疼痛评估等级量表，但至今仍无统一的客观评判标准。与此同时，实施已有的基于量表的评估方法需要耗费大量人力物力资源。

发明内容

有鉴于此，本发明实施例提供一种基于多专家模型的疼痛评估方法、系统、装置及介质，能够高效实现疼痛评估。

一方面，本发明的实施例提供了一种基于多专家模型的疼痛评估方法，包括：

获取目标对象疼痛时期的视频数据；

对视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列；并确定训练数据；其中，多模态输入数据序列包括人脸图像数据序列和音频数据序列；

将多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型；其中，预设神经网络包括卷积神经网络和循环神经网络；预训练模型包括面部表情模态预训练模型和音频模态预训练模型；

通过各个模态的预训练模型，对多模态输入数据序列中对应模态的数据进行分析，获得各个模态的特征空间；在特征空间下对训练数据进行聚类，获得若干聚类结果；

基于预训练模型设置专家模型，以聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型；专家模型包括若干循环神经网络分支作为专家；

通过目标评估模型对待评估数据序列进行分析，获得若干中间特征和疼痛分数；根据各中间特征确定各专家的置信度权重，利用置信度权重对各疼痛分数进行加权求和，得到目标疼痛分数。

可选地，获取目标对象疼痛时期的视频数据，包括：

基于预设时长获取目标对象疼痛时期的包含人脸图像和音频两个模态的视频数据；

其中，视频数据通过FLACC疼痛量纲方法标注有疼痛真实分数。

可选地，对视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列，包括：

对视频数据中无法检测人脸或无重叠检测框的帧进行剔除，进而对各人脸图像帧进行人脸检测与关键点对齐，并通过归一化标准化，得到人脸图像数据序列；

从视频数据中提取与人脸图像帧对应的音频片段，基于音频片段提取梅尔倒谱系数特征构成频谱矩阵，并通过归一化标准化，得到音频数据序列。

可选地，将多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型，包括：

将多模态输入数据序列输入卷积神经网络，并通过多层感知机和均方误差损失函数进行第一预训练，得到帧特征提取模型；

根据多模态输入数据序列，利用冻结的特征提取模型获得特征序列；进而将特征序列输入循环神经网络，并通过多层感知机和均方误差损失函数进行第二预训练，得到时序特征提取模型；

根据各个模态的数据训练得到的帧特征提取模型和时序特征提取模型，得到各个模态的预训练模型。

可选地，在特征空间下对训练数据进行聚类，获得若干聚类结果，包括：

在特征空间随机选取多个特征点作为簇中心，通过第三损失函数最小化类内标签分数值不断更新簇中心，进而获得若干聚类结果；其中，第三损失函数的表达式为：

式中，L_cluster表示第三损失函数的值；k表示簇中心的数量；i∈C_j表示特征点i在k个簇中心中离簇中心j最近属于类C_j；表示类C_j的特征点数量；/>表示特征点i的真实分数；/>表示簇中心j特征经多层感知机的预测分数。

可选地，基于预训练模型设置专家模型，以聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型，包括：

基于预训练模型，通过与卷积神经网络并行连接的若干循环神经网络分支设置专家模型；

以聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练；其中，第二损失函数的表达式为：

式中，L_experts表示第二损失函数的值；k表示专家的数量；i∈C_m表示训练样本i属于专家m的样本；表示C_m的训练样本的数量；/>表示训练样本i的真实分数；/>表示训练样本i的预测分数；α表示超参数；/>表示训练样本i通过专家m生成的特征；μ^m和σ^m表示上一次迭代中专家m记录的训练样本的均值与标准差；

将卷积神经网络冻结作为多个专家共同的帧特征提取模型，并通过各专家训练样本的均值与标准差迭代更新各专家的循环神经网络，得到各专家的时序特征提取模型；

根据帧特征提取模型和各专家的时序特征提取模型，得到目标评估模型。

可选地，根据各中间特征确定各专家的置信度权重，利用置信度权重对各疼痛分数进行加权求和，得到目标疼痛分数，包括：

根据各中间特征与专家的簇中心的高斯聚类，生成各专家的置信度权重；其中，置信度权重的表达式为：

式中，w_i表示第i个专家的置信度权重；μ_i和σ_i表示专家i记录的训练样本的均值与标准差；f_i表示测试样本经过专家i生成的中间特征，测试样本通过多模态输入数据序列确定；k1+k2表示中间特征和疼痛分数的数量；j表示第j个专家的标识；

利用置信度权重对各疼痛分数进行加权求和，得到目标疼痛分数；其中，目标疼痛分数的表达式为：

式中，S表示目标疼痛分数；k1+k2表示置信度权重和分数的数量；w_i表示第i个专家的置信度权重；s_i表示第i个专家的疼痛分数。

另一方面，本发明的实施例提供了一种基于多专家模型的疼痛评估系统，包括：

第一模块，用于获取目标对象疼痛时期的视频数据；

第二模块，用于对视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列；并确定训练数据；其中，多模态输入数据序列包括人脸图像数据序列和音频数据序列；

第三模块，用于将多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型；其中，预设神经网络包括卷积神经网络和循环神经网络；预训练模型包括面部表情模态预训练模型和音频模态预训练模型；

第四模块，用于通过各个模态的预训练模型，对多模态输入数据序列中对应模态的数据进行分析，获得各个模态的特征空间；在特征空间下对训练数据进行聚类，获得若干聚类结果；

第五模块，用于基于预训练模型设置专家模型，以聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型；专家模型包括若干循环神经网络分支作为专家；

第六模块，用于通过目标评估模型对待评估数据序列进行分析，获得若干中间特征和疼痛分数；根据各中间特征确定各专家的置信度权重，利用置信度权重对各疼痛分数进行加权求和，得到目标疼痛分数。

另一方面，本发明的实施例提供了一种基于多专家模型的疼痛评估装置，包括处理器以及存储器；

存储器用于存储程序；

处理器执行程序实现如前面的方法。

另一方面，本发明的实施例提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明实施例首先获取目标对象疼痛时期的视频数据；对视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列；并确定训练数据；其中，多模态输入数据序列包括人脸图像数据序列和音频数据序列；将多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型；其中，预设神经网络包括卷积神经网络和循环神经网络；预训练模型包括面部表情模态预训练模型和音频模态预训练模型；通过各个模态的预训练模型，对多模态输入数据序列中对应模态的数据进行分析，获得各个模态的特征空间；在特征空间下对训练数据进行聚类，获得若干聚类结果；基于预训练模型设置专家模型，以聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型；专家模型包括若干循环神经网络分支作为专家；通过目标评估模型对待评估数据序列进行分析，获得若干中间特征和疼痛分数；根据各中间特征确定各专家的置信度权重，利用置信度权重对各疼痛分数进行加权求和，得到目标疼痛分数。本发明实施例基于多专家的多模态融合算法，可以使模型综合利用各模态的有效信息；并且利用多个专家处理各自擅长判别的疼痛特征，充分考虑到了个体差异性，综合得出最佳疼痛分数；本发明实施例能够提升疼痛识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的疼痛评估常规流程的示意图；

图2为本发明实施例提供的一种基于多专家模型的疼痛评估方法的流程示意图；

图3为本发明实施例提供的预处理的数据的示意图；

图4为本发明实施例提供的多专家训练的原理架构示意图；

图5为本发明实施例提供的基于多专家模型的疼痛评估方法的整体流程示意图；

图6为本发明实施例提供的各疼痛分段误差的示意图；

图7为本发明实施例提供的聚类代表样本展示的示意图；

图8为本发明实施例提供的疼痛评估系统的结构示意图；

图9为本发明实施例提供的疼痛评估装置的框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

首先需要说明的是，随着以深度学习为代表的人工智能算法的发展，涌现了一些依靠人工智能自动评估儿童疼痛的方法。但是相关的技术方法大多是基于表情或声音上进行单模态的数据分析。如图1所示，一般的算法方案是，对于表情模态，利用局部二值模式(LBP)算子提取人脸特征，对于声音模态，利用梅尔频率倒谱系数(MFCC)提取声音特征，然后基于时间窗口统计出这些人脸、声音等特征在一段时间内的总体特征，然后输入到支持向量机(SVM)、随机森林(RF)等分类器中进行训练学习。多模态融合则一般是采取随机森林(RF)、多数投票等简单的融合方案。

因此，虽然相关的基于人工智能的儿童基于多专家模型的疼痛评估方法繁多，但仍存在如下的局限性：

(1)多是基于单模态信息处理，主要是人脸表情模态信息，所以无法充分利用到多个模态信息；

(2)儿童对疼痛表现的特征差异大，很多模型并没有考虑样本间的个体差异性，只能适应对疼痛做出普遍反应的样本。

鉴于此，一方面，如图2所示，本发明的实施例提供了一种基于多专家模型的疼痛评估方法，包括：

S100、获取目标对象疼痛时期的视频数据；

需要说明的是，一些实施例中，步骤S100可以包括：基于预设时长获取目标对象疼痛时期的包含人脸图像和音频两个模态的视频数据；其中，视频数据通过FLACC疼痛量纲方法标注有疼痛真实分数。

一些具体实施例中，可以通过如下步骤实现步骤S100，包括：

S101、从医院中采集得到每个儿童在术后疼痛时期的一段包含人脸和音频两个模态的视频数据，时长在一分钟左右；

S102、由多名医生对第i段视频进行FLACC疼痛量纲的评分，以平均评分作为该样本的疼痛真实分数

S200、对视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列；并确定训练数据；

其中，多模态输入数据序列包括人脸图像数据序列和音频数据序列；

需要说明的是，一些实施例中，对视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列，可以包括：对视频数据中无法检测人脸或无重叠检测框的帧进行剔除，进而对各人脸图像帧进行人脸检测与关键点对齐，并通过归一化标准化，得到人脸图像数据序列；从视频数据中提取与人脸图像帧对应的音频片段，基于音频片段提取梅尔倒谱系数特征构成频谱矩阵，并通过归一化标准化，得到音频数据序列。

其中，一些实施例中，基于预设比例将多模态输入数据序列中各模态的数据划分为训练数据和测试数据。

一些具体实施例中，预处理的数据如图3所示(左图为预处理的人脸图像示例，右图为预处理的音频示例)，其中，可以通过如下步骤实现步骤S200，包括：

S201、对于一段包含N帧图像的视频，首先剔除无法检测人脸或无重叠检测框的帧，并利用基于方向梯度直方图(HOG)特征的dlib库，对每一帧都进行人脸检测与关键点对齐，再经过归一化标准化，最终得到人脸图像的预处理数据序列；

S202、对应人脸图像帧的音频片段，通过快速傅里叶变换，提取出梅尔倒谱系数(MFCC)特征，构成频谱矩阵，其中横轴为量化的时间跨度，纵轴为量化的频率，频谱矩阵上的每个值表示在某个时刻的某段频率中其能量的大小；每一帧音频得到频谱矩阵后，再经过归一化标准化，最终得到音频的预处理数据序列。

其中，需要说明的是，一些实施例中，上述的数据预处理方法，面部表情的数据预处理结果可以替代成关键点坐标、黑白图片、LBP算子特征，声音的数据预处理结果可以替代成MFCC向量特征。

S300、将多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型；

其中，预设神经网络包括卷积神经网络和循环神经网络；预训练模型包括面部表情模态预训练模型和音频模态预训练模型。

需要说明的是，一些实施例中，步骤S300可以包括：将多模态输入数据序列输入卷积神经网络，并通过多层感知机和均方误差损失函数进行第一预训练，得到帧特征提取模型；根据多模态输入数据序列，利用冻结的特征提取模型获得特征序列；进而将特征序列输入循环神经网络，并通过多层感知机和均方误差损失函数进行第二预训练，得到时序特征提取模型；根据各个模态的数据训练得到的帧特征提取模型和时序特征提取模型，得到各个模态的预训练模型。

一些具体实施例中，可以通过如下步骤实现步骤S300，包括：

S301、对CNN(卷积神经网络)输入一帧的RGB面部表情图片，通过MLP(多层感知机)和式1所示的MSE(均方误差)损失函数预训练CNN，得到面部表情帧特征提取模型；同样地，对应时刻的音频频谱二维矩阵也输入类似模型，预训练出音频帧特征提取模型；

S302、对冻结的面部表情帧特征提取模型，输入同视频的多帧面部表情图片，得到特征序列，再对RNN(循环神经网络)输入特征序列，得到面部表情的时序特征，通过MLP和MSE预训练RNN，得到面部表情时序特征提取模型；同样地，同视频的多帧音频也输入类似模型，预训练出音频时序特征提取模型；

S303、一段视频中的面部表情和对应音频的序列，将通过各自的由CNN和RNN组成的最终的特征提取模型(预训练模型)，得到各自的特征向量(特征空间)。

其中，式1：

其中n表示训练集样本数，表示预测分数，/>表示真实分数。

其中，需要说明的是，一些实施例中，上述步骤所用的特征提取模型，可以替代成Transformer等其他的深度网络模型。

S400、通过各个模态的预训练模型，对多模态输入数据序列中对应模态的数据进行分析，获得各个模态的特征空间；在特征空间下对训练数据进行聚类，获得若干聚类结果；

需要说明的是，一些实施例中，在特征空间下对训练数据进行聚类，获得若干聚类结果，可以包括：在特征空间随机选取多个特征点作为簇中心，通过第三损失函数最小化类内标签分数值不断更新簇中心，进而获得若干聚类结果；其中，第三损失函数的表达式为：

一些具体实施例中，可以通过如下步骤实现步骤S400，包括：

S401、对于训练集样本在每个模态下的特征空间，随机选取k个特征点作为簇中心；

S402、以式2为损失函数，最小化类内标签分数值，不断更新簇中心，取E次迭代中损失函数最小的聚类结果；

其中，式2：

其中对于一个特征点i来说，在k个簇中心中离簇中心j最近的则属于该类C_j，即i∈C_j，表示类C_j的特征点个数，/>表示该特征点对应的真实分数，/>表示簇中心j特征经MLP的预测分数。

其中，需要说明的是，一些实施例中，上述步骤所用的聚类方法，可以替代成k-means、DBSCAN等其他的经典聚类方法。

S500、基于预训练模型设置专家模型，以聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型；

其中，专家模型包括若干循环神经网络分支作为专家。

需要说明的是，一些实施例中，步骤S500可以包括：基于预训练模型，通过与卷积神经网络并行连接的若干循环神经网络分支设置专家模型；以聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练；其中，第二损失函数的表达式为：

将卷积神经网络冻结作为多个专家共同的帧特征提取模型，并通过各专家训练样本的均值与标准差迭代更新各专家的循环神经网络，得到各专家的时序特征提取模型；根据帧特征提取模型和各专家的时序特征提取模型，得到目标评估模型。

一些具体实施例中，如图4所示，可以通过如下步骤实现步骤S500，包括：

S501、以预训练模型作为专家模型，以聚类结果作为各专家选择训练的样本集，以式3为损失函数进行多专家训练，使得模型既能拟合最终输出，又能彼此之间拉开特征空间；

S502、冻结住CNN以作为多个专家共同的帧特征提取模型。各类训练数据都先经过这个相同参数的CNN，再经过各个专家(例如图中Expert₁至Expert₆)不同参数的RNN。每次训练迭代只更新专家的RNN时序特征提取模型，并记录各专家训练特征的均值μ_i与标准差σ_i。

其中，式3：

其中对于一个训练样本i来说，在k个专家中属于专家m的样本，即i∈C_m，表示的样本个数，/>表示该样本对应的真实分数，/>表示专家m的预测分数，α为调整后一项的超参数，/>表示训练样本i通过专家m生成的特征，μ^m和σ^m分别表示上一次迭代中，专家m记录的训练样本的均值与标准差。

S600、通过目标评估模型对待评估数据序列进行分析，获得若干中间特征和疼痛分数；根据各中间特征确定各专家的置信度权重，利用置信度权重对各疼痛分数进行加权求和，得到目标疼痛分数；

需要说明的是，一些实施例中，根据各中间特征确定各专家的置信度权重，利用置信度权重对各疼痛分数进行加权求和，得到目标疼痛分数，可以包括：根据各中间特征与专家的簇中心的高斯聚类，生成各专家的置信度权重；其中，置信度权重的表达式为：

一些具体实施例中，可以通过如下步骤实现步骤S600，包括：

S601、对于一个样本，其面部表情数据分别经过k1个专家(如图中Expert₁至Expert₃)，音频数据分别经过k2个专家(如图中Expert₄至Expert₆)，得到k1+k2个中间特征，以及k1+k2个疼痛分数(如图中S₁至S₆)；

S602、如式4所示，利用样本特征与专家簇中心的高斯距离，生成权重(如图中w_i)，再对各专家的预测分数进行加权求和，实现基于多专家的多模态融合策略；

其中，式4：

其中i表示第i个专家，μ_i和σ_i分别表示专家i记录的训练样本的均值与标准差，f_i表示测试样本经过专家i生成的特征，w_i表示高斯距离占比的权重，s_i表示专家i的预测分数，S表示最终分数。

其中，需要说明的是，上述步骤所用的融合多专家分数方法，也可以替代成直接求分数平均值或中位数的方法。

为便于理解本发明的技术方案，下面结合一些具体实施例对本发明的整体流程进行解释说明，下述说明不能看作对本发明的限制。

如图5所示，本发明方法的整理流程可以通过如下步骤实现：

S1、采集得到儿童在术后疼痛时期的一段视频数据；

S2、从视频中抽帧提取出面部表情和音频频谱图，得到预处理后的多模态输入数据序列；

S3、对卷积神经网络(CNN)和循环神经网络(RNN)组成的模型，输入预处理的数据，通过多层感知机(MLP)和均方误差(MSE)损失函数来对模型进行初步的预训练，分别针对面部表情和音频两个模态预训练得到各自的模型；

S4、由每个模态的预训练模型，处理训练集数据得到特征空间，在此空间下对训练集数据进行聚类，每类训练数据将交付给不同的专家处理；

S5、由与S3结构相似的多个专家模型，分别处理由S4得到的不同类的训练数据，通过MSE和高斯推拉作为损失函数，同时训练多个专家；

S6、对于训练或测试的数据，通过不同专家模型得到特征与分数，再通过特征与专家簇中心的高斯距离占比得到不同专家对样本的置信度权重，对分数进行加权融合，评估出最终的疼痛分数。

其中，如表1所示，为基于本发明方法得到的单专家与多专家、单模态与多模态的误差对比效果，MAE指标表示平均绝对误差，其表达式为：

表1

结果表明，多专家比单专家效果要好，并且多模态比单模态效果也要好，本发明的方法基于多专家多模态融合的儿童疼痛评估算法效果最优。如图6所示，在不同的疼痛分段下，多模态整体要比单模态的效果好，说明多专家多模态融合考虑到个体差异性，能很好地适应各分段的疼痛样本。

如图7所示，左图为人脸特征点组成的特征空间，从蓝到红的渐变程度表示疼痛程度，右图则为在左图基础上进行的聚类，每种颜色对应一个聚簇，每个聚簇上展示了最靠近簇中心的代表样本。可以看到红色聚簇的代表样本，其人脸姿态没太大变化，但表现出疼痛表情；绿色聚簇的代表样本，其人脸姿态和疼痛表情都有比较大的变化；蓝色聚簇的代表样本，其表现冷静，人脸姿态和表情并没有变化。可见多专家算法确实考虑到了样本个体差异性。

综上，本发明实施例提出多专家模型，可以根据样本特征和专家簇中心的高斯距离，生成每个专家对样本的置信度，去适应各分段类型的疼痛样本，考虑到了个体的差异性；并且，本发明实施例提出基于多模态数据融合的儿童自动疼痛判定模型，可以综合多模态信息分析疼痛等级，提升疼痛识别的准确性。

另一方面，如图8所示，本发明的实施例提供了一种基于多专家模型的疼痛评估系统700，包括：第一模块710，用于获取目标对象疼痛时期的视频数据；第二模块720，用于对视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列；并确定训练数据；其中，多模态输入数据序列包括人脸图像数据序列和音频数据序列；第三模块730，用于将多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型；其中，预设神经网络包括卷积神经网络和循环神经网络；预训练模型包括面部表情模态预训练模型和音频模态预训练模型；第四模块740，用于通过各个模态的预训练模型，对多模态输入数据序列中对应模态的数据进行分析，获得各个模态的特征空间；在特征空间下对训练数据进行聚类，获得若干聚类结果；第五模块750，用于基于预训练模型设置专家模型，以聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型；专家模型包括若干循环神经网络分支作为专家；第六模块760，用于通过目标评估模型对待评估数据序列进行分析，获得若干中间特征和疼痛分数；根据各中间特征确定各专家的置信度权重，利用置信度权重对各疼痛分数进行加权求和，得到目标疼痛分数。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

如图9所示，本发明实施例的另一方面还提供了一种基于多专家模型的疼痛评估装置800，包括处理器810以及存储器820；

存储器820用于存储程序；

处理器810执行程序实现如前面的方法。

本发明方法实施例的内容均适用于本装置实施例，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。

本发明方法实施例的内容均适用于本计算机可读存储介质实施例，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用，或结合这些指令执行装置、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于多专家模型的疼痛评估方法，其特征在于，包括：

获取目标对象疼痛时期的视频数据；

对所述视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列；并确定训练数据；其中，所述多模态输入数据序列包括人脸图像数据序列和音频数据序列；

将所述多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型；其中，所述预设神经网络包括卷积神经网络和循环神经网络；所述预训练模型包括面部表情模态预训练模型和音频模态预训练模型；

其中，所述将所述多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型，包括：

将所述多模态输入数据序列输入所述卷积神经网络，并通过多层感知机和均方误差损失函数进行第一预训练，得到帧特征提取模型；

根据所述多模态输入数据序列，利用冻结的所述特征提取模型获得特征序列；进而将所述特征序列输入所述循环神经网络，并通过多层感知机和均方误差损失函数进行第二预训练，得到时序特征提取模型；

根据各个模态的数据训练得到的所述帧特征提取模型和所述时序特征提取模型，得到各个模态的预训练模型；

通过各个模态的所述预训练模型，对所述多模态输入数据序列中对应模态的数据进行分析，获得各个模态的特征空间；在所述特征空间下对所述训练数据进行聚类，获得若干聚类结果；

基于所述预训练模型设置专家模型，以所述聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型；所述专家模型包括若干循环神经网络分支作为专家；

通过所述目标评估模型对待评估数据序列进行分析，获得若干中间特征和疼痛分数；根据各所述中间特征确定各所述专家的置信度权重，利用所述置信度权重对各所述疼痛分数进行加权求和，得到目标疼痛分数。

2.根据权利要求1所述的一种基于多专家模型的疼痛评估方法，其特征在于，所述获取目标对象疼痛时期的视频数据，包括：

其中，所述视频数据通过FLACC疼痛量纲方法标注有疼痛真实分数。

3.根据权利要求1所述的一种基于多专家模型的疼痛评估方法，其特征在于，所述对所述视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列，包括：

对所述视频数据中无法检测人脸或无重叠检测框的帧进行剔除，进而对各人脸图像帧进行人脸检测与关键点对齐，并通过归一化标准化，得到人脸图像数据序列；

从所述视频数据中提取与所述人脸图像帧对应的音频片段，基于所述音频片段提取梅尔倒谱系数特征构成频谱矩阵，并通过归一化标准化，得到音频数据序列。

4.根据权利要求1所述的一种基于多专家模型的疼痛评估方法，其特征在于，所述在所述特征空间下对所述训练数据进行聚类，获得若干聚类结果，包括：

在所述特征空间随机选取多个特征点作为簇中心，通过第三损失函数最小化类内标签分数值不断更新所述簇中心，进而获得若干聚类结果；

其中，所述第三损失函数的表达式为：

5.根据权利要求1所述的一种基于多专家模型的疼痛评估方法，其特征在于，所述基于所述预训练模型设置专家模型，以所述聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型，包括：

基于所述预训练模型，通过与所述卷积神经网络并行连接的若干所述循环神经网络分支设置专家模型；

以所述聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练；

其中，所述第二损失函数的表达式为：

式中，L_experts表示第二损失函数的值；k表示专家的数量；i∈C_m表示训练样本i属于专家m的样本；表示C_m的训练样本的数量；/>表示训练样本i的真实分数；/>表示训练样本i的预测分数；α表示超参数；f_i ^m表示训练样本i通过专家m生成的特征；μ^m和σ^m表示上一次迭代中专家m记录的训练样本的均值与标准差；

将所述卷积神经网络冻结作为多个所述专家共同的帧特征提取模型，并通过各专家训练样本的均值与标准差迭代更新各所述专家的所述循环神经网络，得到各所述专家的时序特征提取模型；

根据所述帧特征提取模型和各所述专家的所述时序特征提取模型，得到目标评估模型。

6.根据权利要求1所述的一种基于多专家模型的疼痛评估方法，其特征在于，所述根据各所述中间特征确定各所述专家的置信度权重，利用所述置信度权重对各所述疼痛分数进行加权求和，得到目标疼痛分数，包括：

根据各所述中间特征与所述专家的簇中心的高斯聚类，生成各所述专家的置信度权重；

其中，置信度权重的表达式为：

利用所述置信度权重对各所述疼痛分数进行加权求和，得到目标疼痛分数；

其中，所述目标疼痛分数的表达式为：

7.一种基于多专家模型的疼痛评估系统，其特征在于，包括：

第一模块，用于获取目标对象疼痛时期的视频数据；

第二模块，用于对所述视频数据进行抽帧提取，进而通过预处理得到多模态输入数据序列；并确定训练数据；其中，所述多模态输入数据序列包括人脸图像数据序列和音频数据序列；

第三模块，用于将所述多模态输入数据序列输入预设神经网络，并通过多层感知机和第一损失函数进行初步预训练，得到各个模态的预训练模型；其中，所述预设神经网络包括卷积神经网络和循环神经网络；所述预训练模型包括面部表情模态预训练模型和音频模态预训练模型；

第四模块，用于通过各个模态的所述预训练模型，对所述多模态输入数据序列中对应模态的数据进行分析，获得各个模态的特征空间；在所述特征空间下对所述训练数据进行聚类，获得若干聚类结果；

第五模块，用于基于所述预训练模型设置专家模型，以所述聚类结果作为各专家的训练样本，结合第二损失函数进行多专家训练，获得目标评估模型；所述专家模型包括若干循环神经网络分支作为专家；

第六模块，用于通过所述目标评估模型对待评估数据序列进行分析，获得若干中间特征和疼痛分数；根据各所述中间特征确定各所述专家的置信度权重，利用所述置信度权重对各所述疼痛分数进行加权求和，得到目标疼痛分数。

8.一种基于多专家模型的疼痛评估装置，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。