CN115831352B

CN115831352B - 一种基于动态纹理特征和时间分片权重网络的检测方法

Info

Publication number: CN115831352B
Application number: CN202211547658.5A
Authority: CN
Inventors: 石彪; 符静; 杨俊丰; 王月; 刘利枚; 曹文治; 梁伟; 张震
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-08-08
Anticipated expiration: 2042-12-05
Also published as: CN115831352A

Abstract

本发明公开了一种基于动态纹理特征和时间分片权重网络的检测方法，包括以下步骤：获取视频数据、音频数据、文本数据，对文本数据进行预处理，获得文本句向量；基于音频数据、视频数据，获得对应的音频特征、人脸动态纹理特征；对文本句向量、音频特征、人脸动态纹理特征进行归一处理，获得目标文本句向量、目标音频特征、目标人脸动态纹理特征；对目标文本句向量、目标音频特征、目标人脸动态纹理特征进行融合处理，获得融合特征；将融合特征输入到全连接层进行线性回归，获得单位分片的抑郁分数、权重；基于单位分片的抑郁分数、权重，进行抑郁检测。本发明能有效去除非显性抑郁特征，有效地提高了抑郁症的检测精度。

Description

一种基于动态纹理特征和时间分片权重网络的检测方法

技术领域

本发明属于抑郁症检测领域，特别是涉及一种基于动态纹理特征和时间分片权重网络的检测方法。

背景技术

传统上，抑郁症的诊断是通过访谈式评估或症状问卷调查来判定的，这使得诊断在很大程度上依赖于医生的经验。然而，由于抑郁症的发病机制仍在研究中，医生很难诊断和治疗，尤其是在临床早期。因此，使用机器学习或深度学习方法作为辅助来帮助医生检测抑郁症逐渐引起了研究人员的关注。

研究表明，非言语行为和言语行为都会受到抑郁症的影响，包括面部表情、韵律、句法和语义。在这些理论和研究的推动下，现有的抑郁症检测方法模拟了临床诊断，分析了语言表征、面部表情和声音特征。目前，现有的抑郁症检测方法通常利用来自多个来源的信息，如音频、视频和从回答中提取的文本。尽管这些方法在提高诊断准确性方面取得了一些进展，但仍存在一定的局限性。首先，很多方法没有考虑音频、视频和文本等不同模态数据之间以及它们与抑郁症诊断之间的时序依赖关系。其次，并非所有的数据片段都包含与抑郁症相关的特征，如何从不同来源中提取和融合具有代表性的特征需要更多的研究。

发明内容

本发明的目的是提供一种基于动态纹理特征和时间分片权重网络的检测方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于动态纹理特征和时间分片权重网络的检测方法，包括以下步骤：

获取视频数据、音频数据、文本数据，对文本数据进行预处理，获得文本句向量；

基于所述音频数据、视频数据，获得对应的音频特征、人脸动态纹理特征；

对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理，获得目标文本句向量、目标音频特征、目标人脸动态纹理特征；

基于双向长短期记忆网络对所述目标文本句向量、目标音频特征、目标人脸动态纹理特征进行融合处理，获得融合特征；

将所述融合特征输入到全连接层进行线性回归，获得单位分片的抑郁分数、权重；

基于所述单位分片的抑郁分数、权重，获得最终抑郁分数。

优选地，对文本数据进行预处理的过程包括：对所述文本数据进行句嵌入处理，获得文本句向量。

优选地，获取人脸动态纹理特征的过程包括：

预设视频数据中的子动态纹理，所述子动态纹理包括第一图像块、第二图像块、第三图像块；所述第一图像块、第二图像块、第三图像块的空间位置相同、时间位置不同；

基于所述第一图像块、第二图像块、第三图像块，获得对应的图像像素、中心像素；

基于所述图像像素、中心像素获得像素集合，所述像素集合即为预设的子动态纹理；

获取所述第一图像块、第二图像块、第三图像块的中间图像块；基于所述中间图像块的中心像素，对所述子动态纹理中的像素进行二值化处理，获得人脸动态纹理特征。

优选地，对所述子动态纹理中的像素进行二值化处理的过程包括：

对所述子动态纹理中的像素与所述中间图像块的中心像素的灰度值进行做差处理，获得像素差值信息；

对所述像素差值信息、所述像素差值信息的绝对值、所述中间图像块的中心像素分别进行二值化计数编码，获得对应的编码结果；

基于所述对应的编码结果，获得三维联合直方图；

基于所述三维联合直方图，获得动态纹理特征。

优选地，对所述像素差值信息的绝对值进行二值化计数编码的过程包括：

基于所述像素差值信息的绝对值、视频帧的宽度、视频帧的高度、视频的帧数、圆形采样半径、采样的图像像素数目、图像块间隔帧数，获得所述绝对值的平均值；基于所述绝对值的平均值对所述绝对值进行二值化计数编码。

优选地，对所述中间图像块的中心像素进行二值化计数编码的过程包括：

获取视频数据中的所有像素的平均值，基于所述平均值对每个子动态纹理中的中间图像块的中心像素进行二值化计数编码。

优选地，对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理的过程包括：获取所述文本句向量的最大句向量个数，基于所述最大句向量个数，对所述文本句向量进行补零填充，获得目标文本句向量；基于所述目标文本句向量，对对应的音频特征、人脸动态纹理特征进行补零填充，获得目标音频特征、目标人脸动态纹理特征。

优选地，将所述融合特征输入到全连接层进行线性回归的过程还包括：

基于预测抑郁分数、真实抑郁分数间的映射关系，获得损失函数；基于所述损失函数，获得最终抑郁分数。

本发明的技术效果为：

本发明通过提取文本特征、音频特征、人脸特征的相互关系来对抑郁患者进行检测，结合设计的分片权重网络，能有效去除非显性抑郁特征，有效地提高了抑郁症的检测精度。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的基于动态纹理特征和时间分片权重网络的检测方法的流程示意图；

图2为本发明实施例中的双向长短期记忆网络的结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，本实施例提供了一种基于动态纹理特征和时间分片权重网络的检测方法，该方法包括以下步骤：

步骤1：从DAIC-WOZ数据集中获取所需的数据，包括访谈视频、转录文本和录音文件以及与样本对应标签的PHQ-8评分值。其中，录音和转录文本分别是虚拟测试者与被测试者在整个临床访谈过程中所讲内容的声音记录和笔录。PHQ-8评分值用于表示抑郁的严重程度，总分值为0-24分，将抑郁程度分为5个等级：0-4分，代表无抑郁；5-9分，代表轻度抑郁；10-14分，代表中度抑郁；15-19分，代表中重度抑郁；20-24分，代表重度抑郁。PHQ-8总分≥10分者，认为有抑郁症状。

步骤2：将样本集合分成训练集和测试集。其中，训练集包括107名被测试者，测试集包括35名被测试者。

步骤3：对转录文本进行预处理，分离出被测试者和虚拟测试者的文本记录，并去除虚拟测试者的文本记录，只保留被测试者的文本记录。

步骤4：根据被测试者的文本记录，对访谈视频和录音进行预处理，分离并保留被测试者说话时对应的视频片段和录音片段，且以一句话为时间分片单位对它们进行分片处理。

步骤5：考虑到词嵌入捕获的是一个狭窄的时间上下文，通常最多几百毫秒，无法捕获长距离依赖，因此，本发明使用Doc2vec对被测试者每一句话的文本记录进行句嵌入，将所有文本记录转成300维的句向量f_sentence；

步骤6：基于COVAREP算法，以0.3334秒为一个时间戳，从录音片段中提取音频特征，并将它们记录在每个时间戳下。音频特征主要包括：基频(F0)、浊音/静默(VUV)、归一化幅度商(NAQ)、准开放商(QOQ)、差分声门源频谱的前两个谐波的幅度差(H1,H2)、抛物线频谱参数(PSP)、最大色散商(MDQ)、峰值斜率参数(peakSlope)、Mel-Cepstral系数(MCEP_0-24)、相位失真平均值(HMPDM_0-24)和偏差(HMPDD_0-12)。

步骤7：基于VLBC算法，以0.3334秒为一个时间戳，从视频片段中提取人脸特征，并将它们记录在每个时间戳下。详细的特征提取过程可描述为：

1)利用人脸检测(Vioola-Jones)算法检测出每一个视频帧中人脸的位置，然后根据检测到的坐标截取每一个视频帧中的人脸区域并将其尺寸缩放到100×130；

2)定义一个子动态纹理V——由视频帧序列中的三个图像块组成，这三个图像块的空间位置相同、时间位置不同(相邻图像块可以间隔一帧或多帧)，并从每个图像块中采样P个像素。再加上各个图像块的中心像素，V可以表示为一个包含3P+3个像素集合：

其中，和/>分别为第一个、第二个和第三个图像块的中心像素值，相邻图像块的间隔为L(L≥1)帧；g_t,p(t＝t_c-L,t_c,t_c+L；p＝0,…,P-1)表示在对应图像块上采样的P个像素。

3)采样之后，再用中间图像块的中心像素作为阈值来二值化V中的像素。将V中的每一个像素值减去/>的灰度值得到像素差值信息：

其中，的值为0，因而将其省略，余下V′中的3P+2项。然后，进行VLBC_S编码，如下式所示：

其中，q为V′中每一个元素组合的编号；函数s(x)用于返回参数x的符号。

4)提取像素差值的绝对值并单独将其进行二值计数编码。在对像素差值的绝对值进行编码之前，先计算像素差值的绝对值

其中，为3P+2个像素(不包含第二个图像块的中心像素)中的p个。然后，给定一个动态纹理，计算所有的子动态纹理V的/>的平均值AVGAM作为二值化的阈值：

其中，W、H分别为视频帧的宽度和高度，T为视频的帧数；R、P、L分别为圆形采样半径、采样数目和图像块间隔帧数。与VLBC_S编码过程中的二值化类似，AVGAM将用于的二值化。编码方式为：

5)对中心像素进行二值计数编码。首先计算一个动态纹理视频中的所有像素的平均值AVGCP：

其中，p_x,y,t为第t帧中坐标为(x,y)的像素。然后，利用AVGCP对每个子动态纹理的中心像素(即有效区域内的每个像素)进行二值化，并通过编码得到VLBC_C：

6)VLBC_S、VLBC_M和VLBC_C三种编码分别包含了动态纹理中的不同信息。通过对这三种编码建立一个三维联合直方图，得到动态纹理特征H(s,m,c)：

其中，p表示中心像素；s∈{0,1,…,3P+2}、m∈{0,1,…,3P+2}、和c∈{0,1}是三维联合直方图中的位置；VLBC_S(p)、VLBC_M(p)和VLBC_C(p)分别是以p像素为中心像素的子动态纹理的VLBC_S编码、VLBC_M编码和VLBC_C编码；函数O(VLBC(p),s,m,c)的定义为：

7)鉴于不同的动态纹理视频可能具有不同的尺寸(帧的大小或帧的数目)，因此，对H(s,m,c)(维度2(3P+3)²)进行归一化以得到一致的、可度量的人脸特征：

步骤8：对文本句向量、音频特征和人脸特征进行归一化处理。对于句向量，若所有被测试者的句向量{f_s1,f_s2,f_s3,...,f_sn}中最大的句向量个数为400，则以400为长度基准，对个数不足400的句向量进行补零填充，以使所有被测试者的句向量个数一致。以此类推，对所有被测试者的音频特征{f_a1,f_a2,f_a3,...,f_an}和人脸特征{f_f1,f_f2,f_f3,...,f_fn}进行补零填充，使得所有被测试者的每一句向量所对应的音频特征的个数一致，每一句向量所对应的人脸特征的个数一致。

步骤9：Bi-LSTM由前向传播和后向传播的长短时记忆网络(LSTM)网络组成。该网络结合了递归神经网络(RNN)和LSTM的优点，既克服了RNN衰退的问题，又能够利用LSTM的优势，通过前向推算和后向推算，有效地结合前后事件对当前事件的影响。因此，本发明采用Bi-LSTM从句向量f_sentence、音频特征f_video和人脸特征f_face中提取融合特征f_depression，以学习句向量f_sentence、音频特征f_video和人脸特征f_face三者之间的时序依赖关系。所述Bi-LSTM的结构如图2所示。

步骤10：将融合特征f_depression作为全连接层输入进行线性回归，得到每一个分片的抑郁分数S和权重W。具体而言，通过两个全连接层得到每一个分片的权重W，两个全连接层得到每一个分片的抑郁分数S。此外，为防止过度拟合，对所有全连接层应用比例为0.5的丢弃正则化。并采用平均绝对误差(MAE)作为线性回归的损失函数，以衡量一组预测分数中的平均误差大小。根据预测和真实抑郁分数之间的映射关系，损失函数可以定义为：

其中，n为句向量的个数，y_i表示第i个分片的估计抑郁分数，y_p表示一个被测试者的真实抑郁分数。

步骤11：基于每一个分片的抑郁分数S和每一个分片的权重W得到一个被测试者的抑郁分数，计算公式如下：

其中，S_i表示第i个分片的抑郁分数，W_i表示第i个分片的权重。

步骤12：基于训练得到的抑郁症预测模型，使用测试集对模型预测的准确性进行评估，具体步骤如下：

1)将测试集数据作为抑郁症预测模型的输入；

2)提取抑郁症评估相关特征；

3)输出PHQ-8得分；

4)计算MAE，评估抑郁症预测模型的可信度。

有益效果：本发明通过分析被测试者的访谈视频，提取对话(文本特征)、语音(音频特征)和脸部表情(人脸特征)，设计基于动态纹理特征和时间分片权重网络的抑郁症检测方法来预测被测试者的抑郁分数。该方法通过提取文本特征、音频特征、人脸特征的相互关系来对抑郁患者进行检测，结合设计的分片权重网络，能有效去除非显性抑郁特征，有效地提高了抑郁症的检测精度。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于动态纹理特征和时间分片权重网络的检测方法，其特征在于，包括以下步骤：

基于所述单位分片的抑郁分数、权重，获得最终抑郁分数；

获取人脸动态纹理特征的过程包括：

获取所述第一图像块、第二图像块、第三图像块的中间图像块；基于所述中间图像块的中心像素，对所述子动态纹理中的像素进行二值化处理，获得人脸动态纹理特征；

对所述子动态纹理中的像素进行二值化处理的过程包括：

基于所述对应的编码结果，获得三维联合直方图；

基于所述三维联合直方图，获得动态纹理特征；

对所述像素差值信息的绝对值进行二值化计数编码的过程包括：

基于所述像素差值信息的绝对值、视频帧的宽度、视频帧的高度、视频的帧数、圆形采样半径、采样的图像像素数目、图像块间隔帧数，获得所述绝对值的平均值；基于所述绝对值的平均值对所述绝对值进行二值化计数编码；

对所述中间图像块的中心像素进行二值化计数编码的过程包括：

2.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法，其特征在于，

对文本数据进行预处理的过程包括：对所述文本数据进行句嵌入处理，获得文本句向量。

3.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法，其特征在于，

对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理的过程包括：获取所述文本句向量的最大句向量个数，基于所述最大句向量个数，对所述文本句向量进行补零填充，获得目标文本句向量；基于所述目标文本句向量，对对应的音频特征、人脸动态纹理特征进行补零填充，获得目标音频特征、目标人脸动态纹理特征。

4.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法，其特征在于，

将所述融合特征输入到全连接层进行线性回归的过程还包括：