CN117219265A

CN117219265A - 多模态数据分析方法、装置、存储介质和设备

Info

Publication number: CN117219265A
Application number: CN202311283024.8A
Authority: CN
Inventors: 邹智恺; 张华伟; 赵银凇; 杨刚; 赵玉良; 吕晓永
Original assignee: Northeastern University Qinhuangdao Branch
Current assignee: Northeastern University Qinhuangdao Branch
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-12-12

Abstract

本发明属于计算机技术领域，其公开了多模态数据分析方法、装置、存储介质和设备。方法包括：获取待测试用户的多模态数据，多模态数据包含：行走时的步态数据和就诊时的音频数据与视频数据；对步态数据、音频数据和视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图；基于完成训练的机器学习模型，对步态频谱图、音频频谱图和视频频谱图进行处理，得到多模态数据分析结果。装置包括：数据获取模块、频谱图得到模块和结果得到模块。通过上述技术方案提高了对多模态数据分析的适用性。

Description

多模态数据分析方法、装置、存储介质和设备

技术领域

本发明属于计算机技术领域，特别涉及一种多模态数据分析方法、装置、存储介质和设备。

背景技术

帕金森是一种常见的神经退行性疾病，且约40％的患者有抑郁情况。但由于其独特的生理及心理特征，现有技术中的抑郁症诊断模型对其适用性较差。

发明内容

为了解决现有技术中存在的问题，本发明一方面提供了一种多模态数据分析方法，其包括：

获取待测试用户的多模态数据，所述多模态数据包含：行走时的步态数据和就诊时的音频数据与视频数据；对所述步态数据、所述音频数据和所述视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图；基于完成训练的机器学习模型，对所述步态频谱图、所述音频频谱图和所述视频频谱图进行处理，得到多模态数据分析结果。

本发明另一方面提供了一种多模态数据分析装置，其包括：

数据获取模块，用于获取待测试用户的多模态数据，所述多模态数据包含：行走时的步态数据和就诊时的音频数据与视频数据；频谱图得到模块，用于对所述步态数据、所述音频数据和所述视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图；结果得到模块，用于基于完成训练的机器学习模型，对所述步态频谱图、所述音频频谱图和所述视频频谱图进行处理，得到多模态数据分析结果。

本发明又一方面提供了一种电子设备，其包括：处理器和用于存储所述处理器的可执行指令的存储器；其中，所述处理器被配置为执行上述的多模态数据分析方法。

本发明再一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的多模态数据分析方法。

本发明实施例提供的技术方案带来的有益效果是：

通过获取待测试用户的多模态数据，多模态数据包含：行走时的步态数据和就诊时的音频数据与视频数据；对步态数据、音频数据和视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图；基于完成训练的机器学习模型，对步态频谱图、音频频谱图和视频频谱图进行处理，得到多模态数据分析结果，从而提高了对多模态数据分析的适用性。

附图说明

图1为本发明一实施例提供的一种多模态数据分析方法的流程示意图；

图2为本发明一实施例提供的一种多模态数据分析装置的结构示意图；

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。

参见图1，本发明实施例提供了一种多模态数据分析方法，其包括以下步骤：

步骤101、获取待测试用户的多模态数据，多模态数据包含：行走时的步态数据和就诊时的音频数据与视频数据。

本实施例以待测试用户为帕金森患者为例进行说明。考虑到帕金森患者的说话音频和面部表情与正常人的差异以及步态与正常人的差异，多模态数据包括两个场景下的数据，一个场景是说话场景，另一个场景是行走场景。在说话场景中，采集该患者的音频数据与视频数据，视频数据由一系列图像组成；在行走场景中，采集该患者的步态数据。

具体地，在说话场景中：就诊时，对该患者进行预设问题的访谈，采集访谈过程中的音频数据和视频数据，其中，对采集到的音频数据进行剪辑，得到待测试用户的音频数据，即仅保留该患者回答问题的音频数据。也可以对采集到的视频数据进行剪辑，得到待测试用户的视频数据，即仅保留该患者回答问题的视频数据。

预设问题可以是：1)有没有让您感到心情不好或生气的事情？请讲述一下。2)您在生活中有什么担忧或发愁的事吗？请讲述一下。3)得病对您的生活有什么影响吗？请讲述一下。4)请谈谈得病以后您的心理感受。在其他的实施例中，还可以来自于汉密尔顿量表，本实施例对此不进行限定。

在行走场景中，行走前，在该患者的脚踝处佩戴姿态传感器，患者沿预设路径行走的过程中，获取其步态数据，步态数据包括：x轴的加速度、x轴的角速度、y轴的加速度、y轴的角速度、z轴的加速度和z轴的角速度。预设路径可以是一段距离的直线路径。实际应用中，当患者听到指令后，开始沿直线路径自由行走，走到预先设置好的终点时停下即可，在此过程中，姿态传感器采集患者的步态数据，按行实时显示步态数据。

为了降低采集到的数据对分析结果的影响，在获取到步态数据之后，对步态数据进行预处理操作，将经过预处理操作后的数据作为步骤102的处理对象，预处理操作包括：拉依达准则去异常操作、小波阈值滤波操作、去趋势项操作和滑动平均滤波操作。预处理操作可以在Matlab中进行。在预处理操作之前，剔除步态数据的前N₁行数据和后N₂行数据，N₁的数值可以是20，N₂的数值可以是100，在其他的实施例中，还可以为其他数值，本实施例对此不进行限定。

对视频数据中多个图像数据的人脸特征进行提取。可以使用OpenFace提取人脸特征。使用AU(Action Units，表情动作单元)进行分析，AU是一种用于描述面部表情的标准化编码系统，是用于描述面部肌肉运动的基本单位，每个AU对应于一种预设的面部表情动作。

步骤102、对步态数据、音频数据和视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图。

对步态数据进行频谱分析处理，得到步态频谱图；对音频数据进行频谱分析处理，得到音频频谱图；对视频数据进行频谱分析处理，得到视频频谱图。具体地：

对步态数据进行加速度模长与角速度模长的计算，得到x、y、z轴的加速度模长与角速度模长，即x轴的加速度模长、x轴的角速度模长、y轴的加速度模长、y轴的角速度模长、z轴的加速度模长与z轴的角速度模长，然后对x、y、z轴的加速度模长与角速度模长分别进行归一化处理，得到归一化步态数据，按照第一预设划分规则，对归一化步态数据进行划分、傅里叶变换，得到多张步态频谱图。

第一预设划分规则可以是M₁行，即每隔M₁行，将归一化步态数据划分为多段步态数据，然后对每段步态数据进行傅里叶变换，得到多张步态频谱图，即每M₁行数据依次转化为一张步态频谱图。实际应用中，可以舍弃不足M₁行的部分。M₁的数值可以为170，在其他的实施例中，还可以为其他数值，本实施例对此不进行限定。

按照第二预设划分规则，对音频数据进行划分得到多段音频数据，对每段音频数据进行傅里叶变换，得到多张音频频谱图。第二预设划分规则可以是：设置滑动窗口，窗口长度为M₂秒，滑动步长为M₃秒，即：基于窗口长度为M₂秒、滑动步长为M₃秒的滑动窗口划分音频数据，然后对与每个窗口对应的音频数据进行傅里叶变换，得到多张音频频谱图。M₂的数值可以为4秒、M₃的数值可以为1秒，在其他的实施例中，还可以为其他数值，本实施例对此不进行限定。

按照第三预设划分规则，对视频数据进行划分得到多段视频数据，对每段视频数据进行傅里叶变换，得到多张视频频谱图。第三预设划分规则可以是：预设时长M₄秒。M₄的数值可以为4秒，在其他的实施例中，还可以为其他数值，本实施例对此不进行限定。可以利用python实现。

上述的频谱图能够提供直观的频率和能量信息，具有高分辨率和丰富的频域特征，将其作为下述步骤中机器学习模型的输入。

步骤103、基于完成训练的机器学习模型，对步态频谱图、音频频谱图和视频频谱图进行处理，得到多模态数据分析结果。

将多张步态频谱图、多张音频频谱图和多张视频频谱图作为完成训练的机器学习模型的输入，然后通过机器学习模型的处理，可以得到机器学习模型的输出结果，该输出结果包括抑郁的分类结果，分类结果可以是：抑郁或未抑郁，抑郁表明患者有抑郁症，未抑郁表明患者没有抑郁症，还可以包括：未抑郁或抑郁的多种程度。本实施例对此不进行限定。

机器学习模型优选包括CNN模型和LSTM模型，处理流程中CNN模型在LSTM模型的前面，且其不含分类层，例如CNN模型可以为ResNet50网络模型，该模型包括49个卷积层和一个全连接层，并不包括分类层(softmax层)，卷积层用于提取频谱图特征，全连接层用于将提取出的频谱图特征降至一维。LSTM模型用于训练CNN，其内含有的脱落层(dropout layer层)用于防止过拟合，其内含有的线性层(Linear layer层)用于完成分类任务，输出最终结果。当LSTM模型不包含分类层时，其输出结果也能提高对多模态数据分析的适用性。

在执行本步骤之前，需要构建机器学习模型，以及数据集，然后使用数据集对该机器学习模型进行训练，得到训练后的机器学习模型。数据集中包括多个标注用户的多模态数据。用户的标注过程可以是：利用汉密尔顿量表区分帕金森患者中的抑郁及未抑郁的人群，并基于患者是否抑郁，为患者的样本打上标签，用于后续的分类任务。

参见图2，本发明一实施例提供了一种多模态数据分析装置，该装置包括：数据获取模块201、频谱图得到模块202和结果得到模块203。

其中，数据获取模块201用于获取待测试用户的多模态数据，多模态数据包含：行走时的步态数据和就诊时的音频数据与视频数据。频谱图得到模块202用于对步态数据、音频数据和视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图。结果得到模块203用于基于完成训练的机器学习模型，对步态频谱图、音频频谱图和视频频谱图进行处理，得到多模态数据分析结果。

可选地，本装置在对步态数据、音频数据和视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图之前，还包括预处理模块，其用于对步态数据进行预处理操作，预处理操作包括：拉依达准则去异常操作、小波阈值滤波操作、去趋势项操作和滑动平均滤波操作；还用于对视频数据中的人脸特征进行提取。

可选地，频谱图得到模块202包括：步态频谱图得到单元、音频频谱图得到单元和视频频谱图得到单元。其中，步态频谱图得到单元用于：基于步态数据，得到x、y、z轴的加速度模长与角速度模长；对x、y、z轴的加速度模长与角速度模长进行归一化处理，得到归一化步态数据；按照第一预设划分规则，对归一化步态数据进行划分、傅里叶变换，得到多张步态频谱图。音频频谱图得到单元用于按照第二预设划分规则，对音频数据进行划分、傅里叶变换，得到多张音频频谱图。视频频谱图得到单元用于按照第三预设划分规则，对视频数据进行划分、傅里叶变换，得到多张视频频谱图。

可选地，本装置在基于完成训练的机器学习模型，对步态频谱图、音频频谱图和视频频谱图进行处理，得到多模态数据分析结果之前，还包括构建模块和训练模块。其中，构建模块用于构建数据集和机器学习模型，数据集包括多个标注用户的多模态数据。训练模块用于使用数据集对机器学习模型进行训练，得到训练完成的机器学习模型。

可选地，机器学习模型沿处理流程依次包括：不具有分类层的CNN模型、LSTM模型。

可选地，数据获取模块包括步态数据获取单元、音频数据获取单元和视频数据获取单元，其中，步态数据获取单元用于获取待测试用户行走时的步态数据，具体地，行走前，在待测试用户的脚踝处佩戴姿态传感器；待测试用户沿预设路径行走的过程中，获取待测试用户的步态数据，步态数据包括：x、y、z轴的加速度与角速度。音频数据获取单元用于获取待测试用户就诊时的音频数据，具体地，对待测试用户进行预设问题的访谈，采集访谈过程中的音频；对采集到的音频数据进行剪辑，得到待测试用户的音频数据。视频数据获取单元用于获取待测试用户就诊时的视频数据。

需要说明的是：上述实施例提供的多模态数据分析方法在分析多模态数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多模态数据分析装置与多模态数据分析方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再一一赘述。

本发明一实施例提供了一种电子设备，其包括：存储器和处理器。处理器与存储器连接，被配置为基于存储在存储器中的指令，执行上述多模态数据分析方法。处理器的数量可以为一个或多个，处理器可以是单核或多核。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器可以是下述的计算机可读介质的示例。

本发明一实施例提供了一种计算机可读存储介质，其上存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述多模态数据分析方法。计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘-只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种多模态数据分析方法，其特征在于，所述多模态数据分析方法包括：

获取待测试用户的多模态数据，所述多模态数据包含：行走时的步态数据和就诊时的音频数据与视频数据；

对所述步态数据、所述音频数据和所述视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图；

基于完成训练的机器学习模型，对所述步态频谱图、所述音频频谱图和所述视频频谱图进行处理，得到多模态数据分析结果。

2.根据权利要求1所述的多模态数据分析方法，其特征在于，所述对所述步态数据、所述音频数据和所述视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图之前，还包括：

对所述步态数据进行预处理操作，所述预处理操作包括：拉依达准则去异常操作、小波阈值滤波操作、去趋势项操作和滑动平均滤波操作；

对所述视频数据中的人脸特征进行提取。

3.根据权利要求1所述的多模态数据分析方法，其特征在于，对所述步态数据、所述音频数据和所述视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图包括：

基于所述步态数据，得到x、y、z轴的加速度模长与角速度模长；

对所述x、y、z轴的加速度模长与角速度模长进行归一化处理，得到归一化步态数据；

按照第一预设划分规则，对所述归一化步态数据进行划分、傅里叶变换，得到多张所述步态频谱图；

按照第二预设划分规则，对所述音频数据进行划分、傅里叶变换，得到多张所述音频频谱图；

按照第三预设划分规则，对所述视频数据进行划分、傅里叶变换，得到多张所述视频频谱图。

4.根据权利要求1所述的多模态数据分析方法，其特征在于，所述基于完成训练的机器学习模型，对所述步态频谱图、所述音频频谱图和所述视频频谱图进行处理，得到多模态数据分析结果之前，还包括：

构建数据集和机器学习模型，所述数据集包括多个标注用户的多模态数据；

使用数据集对所述机器学习模型进行训练，得到训练完成的机器学习模型。

5.根据权利要求4所述的多模态数据分析方法，其特征在于，所述机器学习模型沿处理流程依次包括：不具有分类层的CNN模型、LSTM模型。

6.根据权利要求1所述的多模态数据分析方法，其特征在于，所述获取待测试用户行走时的步态数据包括：

行走前，在待测试用户的脚踝处佩戴姿态传感器；

所述待测试用户沿预设路径行走的过程中，获取所述待测试用户的步态数据，所述步态数据包括：x、y、z轴的加速度与角速度。

7.根据权利要求1所述的多模态数据分析方法，其特征在于，所述获取待测试用户就诊时的音频数据包括：

对所述待测试用户进行预设问题的访谈，采集访谈过程中的音频；

对采集到的音频数据进行剪辑，得到待测试用户的音频数据。

8.一种多模态数据分析装置，其特征在于，所述多模态数据分析装置包括：

数据获取模块，用于获取待测试用户的多模态数据，所述多模态数据包含：行走时的步态数据和就诊时的音频数据与视频数据；

频谱图得到模块，用于对所述步态数据、所述音频数据和所述视频数据分别进行频谱分析处理，得到步态频谱图、音频频谱图和视频频谱图；

结果得到模块，用于基于完成训练的机器学习模型，对所述步态频谱图、所述音频频谱图和所述视频频谱图进行处理，得到多模态数据分析结果。

9.一种电子设备，其特征在于，所述电子设备包括：处理器和用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7中任一项所述的多模态数据分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现权利要求1-7中任一项所述的多模态数据分析方法。