CN117557941A

CN117557941A - 基于多模态数据融合的视频智能分析系统及方法

Info

Publication number: CN117557941A
Application number: CN202311556534.8A
Authority: CN
Inventors: 陈蒙
Original assignee: Kunming Mengzhuo Technology Co ltd
Current assignee: Kunming Mengzhuo Technology Co ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-13

Abstract

本申请涉及智能分析领域，其具体地公开了一种基于多模态数据融合的视频智能分析系统及方法，其采用基于深度学习的智能分析算法，通过对心理咨询过程中的视频数据进行特征提取以得到咨询者的行为模式特征，通过对心理咨询过程中的音频数据进行特征提取以得到咨询者的声音特征，进而融合上述特征用以辅助对咨询者心理健康状态进行评估。

Description

基于多模态数据融合的视频智能分析系统及方法

技术领域

本申请涉及智能分析领域，且更为具体地，涉及一种基于多模态数据融合的视频智能分析系统及方法。

背景技术

大学是一个人生重要的阶段，对个人的成长和发展起着关键作用。大学期间是一些心理健康问题首次出现或加重的时期，如焦虑、抑郁、压力等，及早关注大学生心理健康可以及时发现和预防这些问题，避免其对学生的健康和学业造成严重影响。现在，很多大学也提供心理健康支持和资源，包括心理健康教育中心、心理健康辅导站等。相关工作点都会有工作人员提供心理咨询服务。

在提供心理咨询服务过程中，往往是咨询者与心理咨询师面对面沟通，通过这个交流的过程，心理咨询师可以对咨询者的情况做出判断，并根据对方的情况采取相应地措施，但心理咨询师有时也可能会没注意到一些细节，从而导致判断错误的情况发生。在进行心理健康状况评估的过程中，人为判断心理健康状态受人的主观影响太大。

因此，需要一种基于多模态数据融合的视频智能分析方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于多模态数据融合的视频智能分析系统及方法，其采用基于深度学习的智能分析算法，通过对心理咨询过程中的视频数据进行特征提取以得到咨询者的行为模式特征，通过对心理咨询过程中的音频数据进行特征提取以得到咨询者的声音特征，进而融合上述特征用以辅助对咨询者心理健康状态进行评估。

根据本申请的一个方面，提供了一种基于多模态数据融合的视频智能分析系统，其包括：

多模态数据获取模块，用于获取心理咨询过程中的视频数据和音频数据；

视频采样模块，用于对所述心理咨询过程中的视频数据进行采样以得到多个行为监控关键帧；

行为特征提取模块，用于将所述多个行为监控关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个咨询者行为监控特征矩阵；

行为动态变化特征提取模块，用于将所述多个咨询者行为监控特征矩阵输入到使用三维卷积核的第二卷积神经网络模型以得到咨询者行为监控特征图；

数据预处理模块，用于对所述心理咨询过程中的音频数据进行预处理以得到预处理后音频数据，所述预处理后音频数据只包括咨询者的声音数据；

数据提取模块，用于从所述预处理后音频数据中提取对数梅尔谱图、耳蜗谱图和恒定Q变换谱图；

排列模块，用于将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图；

声音特征编码模块，用于将所述多通道声音谱图通过使用通道注意力机制的第三卷积神经网络模型以得到咨询者声音特征图；

多模态特征融合模块，用于对所述咨询者行为监控特征图和所述咨询者声音特征图进行融合以得到分类特征图；

心理健康状态评估模块，用于将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示咨询者心理健康状态的标签。

在上述基于多模态数据融合的视频智能分析系统中，所述视频采样模块，用于：以预定采样频率对所述心理咨询过程中的视频数据进行采样以得到所述多个行为监控关键帧。

在上述基于多模态数据融合的视频智能分析系统中，所述行为特征提取模块，包括：卷积编码单元，用于将所述多个行为监控关键帧中各个行为监控关键帧分别通过所述第一卷积神经网络模型的卷积编码部分以得到多个高维特征图；空间注意力单元，用于将所述多个高维特征图中各个高维特征图分别输入所述第一卷积神经网络模型的空间注意力部分以得到多个空间注意图；注意力施加单元，用于分别计算所述多个空间注意图和所述多个高维特征图中每组对应的所述空间注意力图和所述高维特征图之间的按位置点乘以得到多个行为监控特征图；降维单元，用于分别对所述多个行为监控特征图进行沿通道维度的池化处理以得到所述多个咨询者行为监控特征矩阵。

在上述基于多模态数据融合的视频智能分析系统中，所述行为动态变化特征提取模块，用于：所述使用三维卷积核的第二卷积神经网络模型的各层在层的正向传递过程中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行基于局部特征矩阵的均值池化处理以得到池化特征图；对所述池化特征图进行非线性激活以得到激活特征图；其中，所述第二卷积神经网络模型的最后一层的输出为所述咨询者行为监控特征图，所述第二卷积神经网络模型的第一层的输入为所述多个咨询者行为监控特征矩阵。

在上述基于多模态数据融合的视频智能分析系统中，所述声音特征编码模块，用于：所述第三卷积神经网络模型的各层在层的正向传递中对输入数据分别进行：基于二维卷积核对所述输入数据进行卷积处理以生成卷积特征图；对所述卷积特征图进行池化处理以生成池化特征图；对所述池化特征图进行激活处理以生成激活特征图；计算所述激活特征图中各个通道对应的特征矩阵的特征值均值与所有通道对应的特征矩阵的特征值均值之和的商作为所述各个通道对应的特征矩阵的加权系数；以所述激活特征图中各个通道的加权系数对所述各个通道的特征矩阵进行加权以生成通道注意力特征图；其中，所述第三卷积神经网络模型的第一层的输入为所述多通道声音谱图，所述第三卷积神经网络模型的最后一层的输出为所述咨询者声音特征图。

在上述基于多模态数据融合的视频智能分析系统中，所述多模态特征融合模块，包括：特征工程过渡因子计算单元，用于计算所述咨询者行为监控特征图相对于所述咨询者声音特征图的基于秩序先验的特征工程过渡因子；咨询者行为特征加权单元，用于以所述基于秩序先验的特征工程过渡因子作为权重，对所述咨询者行为监控特征图进行加权优化以得到加权后咨询者行为监控特征图；按位置加权和单元，用于计算所述加权后咨询者行为监控特征图和所述咨询者声音特征图之间的按位置加权和以得到所述分类特征图。

在上述基于多模态数据融合的视频智能分析系统中，所述特征工程过渡因子计算单元，用于：以如下计算公式计算所述咨询者行为监控特征图相对于所述咨询者声音特征图的基于秩序先验的特征工程过渡因子；其中，所述计算公式为：

其中，W、H、C分别为特征图的宽、高、通道数，表示所述咨询者行为监控特征图的第(i,j,k)位置的特征值，/>表示所述咨询者声音特征图的第(i,j,k)位置的特征值,α和β是预定超参数，w表示所述基于秩序先验的特征工程过渡因子，exp(·)表示以自然常数e为底的指数运算。

在上述基于多模态数据融合的视频智能分析系统中，所述心理健康状态评估模块，用于：使用所述分类器以如下分类公式对所述分类特征图进行处理以生成所述分类结果；其中，所述分类公式为：

O＝softmax{(W_n,B_n):…:(W₁,B₁)|Project(F_c)}

其中，O为所述分类结果，Project(F_c)表示将所述分类特征图投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置向量，softmax为归一化指数函数。

根据本申请的另一方面，提供了一种基于多模态数据融合的视频智能分析方法，其包括：

获取心理咨询过程中的视频数据和音频数据；

对所述心理咨询过程中的视频数据进行采样以得到多个行为监控关键帧；

将所述多个行为监控关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个咨询者行为监控特征矩阵；

将所述多个咨询者行为监控特征矩阵输入到使用三维卷积核的第二卷积神经网络模型以得到咨询者行为监控特征图；

对所述心理咨询过程中的音频数据进行预处理以得到预处理后音频数据，所述预处理后音频数据只包括咨询者的声音数据；

从所述预处理后音频数据中提取对数梅尔谱图、耳蜗谱图和恒定Q变换谱图；

将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图；

将所述多通道声音谱图通过使用通道注意力机制的第三卷积神经网络模型以得到咨询者声音特征图；

对所述咨询者行为监控特征图和所述咨询者声音特征图进行融合以得到分类特征图；

将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示咨询者心理健康状态的标签。

与现有技术相比，本申请提供的基于多模态数据融合的视频智能分析系统及方法，其采用基于深度学习的智能分析算法，通过对心理咨询过程中的视频数据进行特征提取以得到咨询者的行为模式特征，通过对心理咨询过程中的音频数据进行特征提取以得到咨询者的声音特征，进而融合上述特征用以辅助对咨询者心理健康状态进行评估。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用于提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于多模态数据融合的视频智能分析系统的系统框图。

图2为根据本申请实施例的基于多模态数据融合的视频智能分析系统的架构图。

图3为根据本申请实施例的基于多模态数据融合的视频智能分析系统中行为特征提取模块的框图。

图4为根据本申请实施例的基于多模态数据融合的视频智能分析系统中多模态特征融合模块的框图。

图5为根据本申请实施例的基于多模态数据融合的视频智能分析方法的流程图。

图6为根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

示例性系统

图1为根据本申请实施例的基于多模态数据融合的视频智能分析系统的系统框图。图2为根据本申请实施例的基于多模态数据融合的视频智能分析系统的架构图。如图1和图2所示，在基于多模态数据融合的视频智能分析系统100中，包括：多模态数据获取模块110，用于获取心理咨询过程中的视频数据和音频数据；视频采样模块120，用于对所述心理咨询过程中的视频数据进行采样以得到多个行为监控关键帧；行为特征提取模块130，用于将所述多个行为监控关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个咨询者行为监控特征矩阵；行为动态变化特征提取模块140，用于将所述多个咨询者行为监控特征矩阵输入到使用三维卷积核的第二卷积神经网络模型以得到咨询者行为监控特征图；数据预处理模块150，用于对所述心理咨询过程中的音频数据进行预处理以得到预处理后音频数据，所述预处理后音频数据只包括咨询者的声音数据；数据提取模块160，用于从所述预处理后音频数据中提取对数梅尔谱图、耳蜗谱图和恒定Q变换谱图；排列模块170，用于将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图；声音特征编码模块180，用于将所述多通道声音谱图通过使用通道注意力机制的第三卷积神经网络模型以得到咨询者声音特征图；多模态特征融合模块190，用于对所述咨询者行为监控特征图和所述咨询者声音特征图进行融合以得到分类特征图；心理健康状态评估模块200，用于将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示咨询者心理健康状态的标签。

在基于多模态数据融合的视频智能分析系统100中，所述多模态数据获取模块110，用于获取心理咨询过程中的视频数据和音频数据。如上述背景技术所言，大学阶段对个人成长和发展至关重要，它是一些心理健康问题首次出现或加重的时期。因此，大学需要关注学生的心理健康，并及时发现和预防，以避免对学生的健康和学业造成严重影响。现在，许多大学提供了心理健康支持和资源，包括心理健康教育中心、心理健康辅导站等，它们都提供心理咨询服务。然而，心理咨询师在提供服务时可能会忽略一些细节，导致存在判断错误的可能。因此，期待一种基于多模态数据融合的视频智能分析方案，其可以辅助帮忙心理咨询师评估咨询者的心理健康状态，减少人为判断的主观影响。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。深度学习以及神经网络的发展为基于多模态数据融合的视频智能分析提供了新的解决思路和方案。

具体地，在本申请的技术方案中，首先，获取心理咨询过程中的视频数据和音频数据。应可以理解，通过获取心理咨询过程中的视频数据，可以观察咨询者的行为表现，包括面部表情、身体语言、姿态等。这些行为可以提供重要的线索，帮助判断咨询者的情绪状态、情感表达以及可能存在的心理健康问题。音频数据可以提供咨询者的声音信息。声音特征，如音调、语气、能量分布等，可以反映出咨询者的情绪状态和情感体验。通过分析音频数据，可以获取咨询者的声音特征，并进一步辅助判断其心理健康状况。在心理咨询过程中，可以通过摄像头来拍摄录制以进行视频数据的采集，可以通过一些录音设备进行录音来进行音频数据的采集。非常值得注意的是，在进行数据采集时，要让咨询者知情并且愿意进行这些数据的收集，确保数据的合法性。同时，也需要遵守相关的法律法规和伦理规范，保护咨询者的权益和隐私。

在基于多模态数据融合的视频智能分析系统100中，所述视频采样模块120，用于对所述心理咨询过程中的视频数据进行采样以得到多个行为监控关键帧。心理咨询过程中的视频数据通常是连续的，包含了咨询的整个过程。为了减少数据的冗余和处理的复杂性，可以对视频数据进行采样，选择关键帧进行分析。关键帧是指在视频序列中具有重要信息或者代表性的帧，通过采样关键帧可以减少数据量，同时保留了重要的行为信息。通过采样关键帧，可以捕捉到咨询者在咨询过程中的重要行为表现。通过分析关键帧，可以更准确地捕捉到咨询者的行为特征，从而帮助心理咨询师更好地理解咨询者的心理状态。

具体地，在基于多模态数据融合的视频智能分析系统100中，所述视频采样模块120，用于：以预定采样频率对所述心理咨询过程中的视频数据进行采样以得到所述多个行为监控关键帧。值得一提的是，这里所述预定采样频率并不是一直固定不变的，视具体使用场景而定。

在基于多模态数据融合的视频智能分析系统100中，所述行为特征提取模块130，用于将所述多个行为监控关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个咨询者行为监控特征矩阵。本领域普通技术人员应该知晓，卷积神经网络在特征提取方面表现优异。通过将多个行为行为监控关键帧输入到卷积神经网络中，卷积神经网络可以自动学习和捕捉关键帧中的特征，从而提取到有关咨询者的行为特征。空间注意力机制可以帮助模型关注关键的空间区域，即关键帧中最重要的部分。通过引入空间注意力机制，模型可以自动选择和聚焦在关键的区域，从而提高特征提取的准确性和有效性，这样可以更好地捕捉到咨询者行为中的重要细节。

图3为根据本申请实施例的基于多模态数据融合的视频智能分析系统中行为特征提取模块的框图。如图3所示，所述行为特征提取模块130，包括：卷积编码单元131，用于将所述多个行为监控关键帧中各个行为监控关键帧分别通过所述第一卷积神经网络模型的卷积编码部分以得到多个高维特征图；空间注意力单元132，用于将所述多个高维特征图中各个高维特征图分别输入所述第一卷积神经网络模型的空间注意力部分以得到多个空间注意图；注意力施加单元133，用于分别计算所述多个空间注意图和所述多个高维特征图中每组对应的所述空间注意力图和所述高维特征图之间的按位置点乘以得到多个行为监控特征图；降维单元134，用于分别对所述多个行为监控特征图进行沿通道维度的池化处理以得到所述多个咨询者行为监控特征矩阵。

在基于多模态数据融合的视频智能分析系统100中，所述行为动态变化特征提取模块140，用于将所述多个咨询者行为监控特征矩阵输入到使用三维卷积核的第二卷积神经网络模型以得到咨询者行为监控特征图。普通的卷积神经网络的卷积核是二维的，在该步骤中，使用三维的卷积核来对多个咨询者行为监控特征矩阵进行特征提取。三维卷积核比二维卷积核多了一个通道维度，在本实施例里，指的是时间维度，使用三维卷积核可以在空间和时间两个维度上同时进行特征提取。咨询者的行为在视频中通常是具有时序性的，咨询过程中的行为会随着时间的推移而变化。使用三维卷积核的卷积神经网络模型可以对时序信息进行建模，通过在时间维度上进行卷积操作，捕捉行为特征在时间上的变化和演化，这有助于更好地理解和分析咨询者的行为动态。

具体地，在基于多模态数据融合的视频智能分析系统100中，所述行为动态变化特征提取模块140，用于：所述使用三维卷积核的第二卷积神经网络模型的各层在层的正向传递过程中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行基于局部特征矩阵的均值池化处理以得到池化特征图；对所述池化特征图进行非线性激活以得到激活特征图；其中，所述第二卷积神经网络模型的最后一层的输出为所述咨询者行为监控特征图，所述第二卷积神经网络模型的第一层的输入为所述多个咨询者行为监控特征矩阵。

在基于多模态数据融合的视频智能分析系统100中，所述数据预处理模块150，用于对所述心理咨询过程中的音频数据进行预处理以得到预处理后音频数据，所述预处理后音频数据只包括咨询者的声音数据。应可以理解，心理咨询过程中的音频数据可能包含除咨询者声音之外的其他噪音或干扰音，如背景噪声、其他人的声音等。这些干扰音可能会干扰对咨询者声音的分析和处理，影响对咨询者心理健康状态的判断。通过预处理音频数据，可以尽可能去除这些干扰音，使得分析更加准确和可靠。一种可能的音频数据预处理方式是将整个心理咨询过程的音频数据分割成较小的时间段，例如每个时间段为几秒钟或几分钟；使用语音分离技术，如盲源分离(BSS)算法，将咨询者的声音与其他人的声音进行分离；使用音频处理技术，如滤波器、降噪算法等，去除背景噪音和其他干扰音；对咨询者的声音数据进行增强处理，以提高其清晰度。

在基于多模态数据融合的视频智能分析系统100中，所述数据提取模块160，用于从所述预处理后音频数据中提取对数梅尔谱图、耳蜗谱图和恒定Q变换谱图。应可以理解，对数梅尔谱图是一种常用的音频特征表示方法，它能够捕捉音频信号的频谱信息和能量分布。通过提取对数梅尔谱图，可以将音频信号转换为二维矩阵表示，其中横轴表示时间，纵轴表示频率，而颜色表示音频信号的能量强度。耳蜗谱图是一种模拟人耳听觉感知的音频特征表示方法。它模拟了人耳中的耳蜗结构，将音频信号分解成不同频率带的子信号。通过提取耳蜗谱图，可以更好地捕捉音频信号在不同频率带上的能量分布和频率特征。恒定Q变换谱图是一种基于傅里叶变换的频谱分析方法，它在频率分辨率上具有非线性特性。与传统的线性频谱分析方法相比，恒定Q变换谱图在低频区域具有较高的频率分辨率，在高频区域具有较高的频率精度。通过提取恒定Q变换谱图，可以更好地捕捉音频信号在不同频率范围上的细节和特征，对于音频分析和识别任务具有优势。综上所述，从预处理后的音频数据中提取对数梅尔谱图、耳蜗谱图和恒定Q变换谱图可以提供丰富的频谱特征，这些特征可以为提供更全面和准确的声音相关信息，进一步提升对咨询者心理健康评估的效果和可靠性。

在基于多模态数据融合的视频智能分析系统100中，所述排列模块170，用于将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图。应可以理解，不同的频谱特征可以提供不同的音频信息，例如对数梅尔谱图可以表示音频的频谱分布，耳蜗谱图可以模拟人耳的频率感知，恒定Q变换谱图可以提供更高的频率分辨率。通过将它们组合在一起形成多通道声音谱图，每个通道代表一种特定的频谱特征，这样的多通道声音谱图可以更全面地描述音频数据的频谱信息，同时保留了每种特征的独立性。

在基于多模态数据融合的视频智能分析系统100中，所述声音特征编码模块180，用于将所述多通道声音谱图通过使用通道注意力机制的第三卷积神经网络模型以得到咨询者声音特征图。在多通道声音谱图中，不同通道对应着不同的频谱特征，而某些特征可能对于心理健康评估更为关键和重要。通过使用通道注意力机制，可以自动学习每个通道的重要性权重，使得模型能够更加关注对咨询者声音有更大贡献的特征通道，从而提高模型的鲁棒性和准确性。

具体地，在基于多模态数据融合的视频智能分析系统100中，所述声音特征编码模块180，用于：所述第三卷积神经网络模型的各层在层的正向传递中对输入数据分别进行：基于二维卷积核对所述输入数据进行卷积处理以生成卷积特征图；对所述卷积特征图进行池化处理以生成池化特征图；对所述池化特征图进行激活处理以生成激活特征图；计算所述激活特征图中各个通道对应的特征矩阵的特征值均值与所有通道对应的特征矩阵的特征值均值之和的商作为所述各个通道对应的特征矩阵的加权系数；以所述激活特征图中各个通道的加权系数对所述各个通道的特征矩阵进行加权以生成通道注意力特征图；其中，所述第三卷积神经网络模型的第一层的输入为所述多通道声音谱图，所述第三卷积神经网络模型的最后一层的输出为所述咨询者声音特征图。

在基于多模态数据融合的视频智能分析系统100中，所述多模态特征融合模块190，用于对所述咨询者行为监控特征图和所述咨询者声音特征图进行融合以得到分类特征图。应可以理解，咨询者行为监控特征图和咨询者声音特征图分别捕捉了咨询者的行为和声音方面的信息。例如，咨询者行为监控特征图可以反映咨询者的身体语言和动作，而咨询者声音特征图可以反映咨询者的语音音调和声音的能量分布。通过将它们融合在一起，可以获得更全面和丰富的特征表示。

特别地，在本申请技术方案中，考虑到咨询者行为监控特征图是通过对视频数据进行采样得到的，采样过程中会选择多个行为监控关键帧。这些关键帧可能来自不同的时间点和角度，因此它们的感受野(即能够感知到的空间范围)和分辨率尺度可能会有所不同。例如，某些关键帧可能捕捉到咨询者的整体动作和姿势，而其他关键帧可能更加关注细节，如面部表情或手势。这种差异导致了行为监控特征图的感受野和分辨率尺度的差异。咨询者声音特征图是通过对预处理后的音频数据提取得到的。音频数据经过预处理后只包含咨询者的声音数据，然后从中提取出对数梅尔谱图、耳蜗谱图和恒定Q变换谱图，并将它们排列为多通道声音谱图。这些声音特征图主要反映了咨询者的语音特征和语音内容，与行为监控特征图的视觉信息具有明显的差异。由于行为监控特征图和声音特征图在感受野和分辨率尺度上的差异，将它们直接进行融合可能会导致适配性较差的问题。在特征图融合过程中，如果两个特征图的感受野和分辨率尺度差异较大，可能会导致信息的不匹配和冲突。融合后的特征图可能会失去原始特征图的一些重要信息，导致内部结构的坍塌。

针对上述技术问题，本申请的技术构思为利用基于秩序性的特征工程过渡，将特征图之间的融合问题转化为一个优化问题，从而采用一种优化技术，来提升特征图之间的融合适配性和融合效果。

图4为根据本申请实施例的基于多模态数据融合的视频智能分析系统中多模态特征融合模块的框图。如图4所示，所述多模态特征融合模块190，包括：特征工程过渡因子计算单元191，用于计算所述咨询者行为监控特征图相对于所述咨询者声音特征图的基于秩序先验的特征工程过渡因子；咨询者行为特征加权单元192，用于以所述基于秩序先验的特征工程过渡因子作为权重，对所述咨询者行为监控特征图进行加权优化以得到加权后咨询者行为监控特征图；按位置加权和单元193，用于计算所述加权后咨询者行为监控特征图和所述咨询者声音特征图之间的按位置加权和以得到所述分类特征图。

具体地，在基于多模态数据融合的视频智能分析系统100中，所述特征工程过渡因子计算单元191，用于：以如下计算公式计算所述咨询者行为监控特征图相对于所述咨询者声音特征图的基于秩序先验的特征工程过渡因子；其中，所述计算公式为：

应可以理解，在本申请的技术方案中，首先根据所述咨询者行为监控特征图和所述咨询者声音特征图的形态、属性和位置信息，设计了一种基于秩序性的特征工程过渡策略，将不同类别和维度的特征值按照一定的秩序规则进行排序和分组，从而降低了融合过程中的信息冗余和噪声干扰。进而，在高维空间内的基于所述咨询者行为监控特征图和所述咨询者声音特征图的内部元素子维度间的信息度量，来进行特征流形的基于秩序性的特征工程过渡表示，以基于特征流型的特征工程过渡一致性来进行特征图之间的适当的加权求和，以得到更具结构性的分类特征图，从而提供所述分类特征图通过分类器的分类回归的精准度。

在基于多模态数据融合的视频智能分析系统100中，所述心理健康状态评估模块200，用于将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示咨询者心理健康状态的标签。通过将分类特征图输入到训练好的分类器中，可以得到用于表示咨询者心理健康状态的标签，标签一般是二元的，正常或异常。通过将数据转化为分类结果的标签，可以实现对咨询者心理健康状态的定量评估和分析。通过自动化的分析，可以提供客观、快速和准确的心理健康评估，为心理咨询和干预提供辅助决策的依据。

具体地，在基于多模态数据融合的视频智能分析系统100中，所述心理健康状态评估模块200，用于：使用所述分类器以如下分类公式对所述分类特征图进行处理以生成所述分类结果；其中，所述分类公式为：

O＝softmax{(W_n,B_n):…:(W₁,B₁)|Project(F_c)}

综上所述，基于本申请实施例的基于多模态数据融合的视频智能分析系统100被阐明，其采用基于深度学习的智能分析算法，通过对心理咨询过程中的视频数据进行特征提取以得到咨询者的行为模式特征，通过对心理咨询过程中的音频数据进行特征提取以得到咨询者的声音特征，进而融合上述特征用以辅助对咨询者心理健康状态进行评估。

如上所述，根据本申请实施例的基于多模态数据融合的视频智能分析系统100可以实现在各种终端设备中，例如用于基于多模态数据融合的视频智能分析的服务器等。在一个示例中，根据本申请实施例的基于多模态数据融合的视频智能分析系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于多模态数据融合的视频智能分析系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于多模态数据融合的视频智能分析系统100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于多模态数据融合的视频智能分析系统100与该终端设备也可以是分立的设备，并且该基于多模态数据融合的视频智能分析系统100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性方法

图5为根据本申请实施例的基于多模态数据融合的视频智能分析方法的流程图。如图5所示，在基于多模态数据融合的视频智能分析方法中，包括：S110，获取心理咨询过程中的视频数据和音频数据；S120，对所述心理咨询过程中的视频数据进行采样以得到多个行为监控关键帧；S130，将所述多个行为监控关键帧通过使用空间注意力机制的第一卷积神经网络模型以得到多个咨询者行为监控特征矩阵；S140，将所述多个咨询者行为监控特征矩阵输入到使用三维卷积核的第二卷积神经网络模型以得到咨询者行为监控特征图；S150，对所述心理咨询过程中的音频数据进行预处理以得到预处理后音频数据，所述预处理后音频数据只包括咨询者的声音数据；S160，从所述预处理后音频数据中提取对数梅尔谱图、耳蜗谱图和恒定Q变换谱图；S170，将所述对数梅尔谱图、耳蜗谱图和恒定Q变换谱图排列为多通道声音谱图；S180，将所述多通道声音谱图通过使用通道注意力机制的第三卷积神经网络模型以得到咨询者声音特征图；S190，对所述咨询者行为监控特征图和所述咨询者声音特征图进行融合以得到分类特征图；S200，将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示咨询者心理健康状态的标签。

这里，本领域技术人员可以理解，上述基于多模态数据融合的视频智能分析方法中的各个步骤的具体操作已经在上面参考图1到图4的基于多模态数据融合的视频智能分析系统的描述中得到了详细介绍，并因此，将省略其重复描述。

综上所述，基于本申请实施例的基于多模态数据融合的视频智能分析方法被阐明，其采用基于深度学习的智能分析算法，通过对心理咨询过程中的视频数据进行特征提取以得到咨询者的行为模式特征，通过对心理咨询过程中的音频数据进行特征提取以得到咨询者的声音特征，进而融合上述特征用以辅助对咨询者心理健康状态进行评估。

示例性电子设备

下面，参考图6来描述根据本申请实施例的电子设备。

图6为根据本申请实施例的电子设备的框图。

如图6所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的基于多模态数据融合的视频智能分析方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如心理咨询过程中的视频数据和音频数据等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括表示咨询者心理健康状态的标签结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于多模态数据融合的视频智能分析方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于多模态数据融合的视频智能分析方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

Claims

1.一种基于多模态数据融合的视频智能分析系统，其特征在于，包括：

2.根据权利要求1所述的基于多模态数据融合的视频智能分析系统，其特征在于，所述视频采样模块，用于：以预定采样频率对所述心理咨询过程中的视频数据进行采样以得到所述多个行为监控关键帧。

3.根据权利要求2所述的基于多模态数据融合的视频智能分析系统，其特征在于，所述行为特征提取模块，包括：

卷积编码单元，用于将所述多个行为监控关键帧中各个行为监控关键帧分别通过所述第一卷积神经网络模型的卷积编码部分以得到多个高维特征图；

空间注意力单元，用于将所述多个高维特征图中各个高维特征图分别输入所述第一卷积神经网络模型的空间注意力部分以得到多个空间注意图；

注意力施加单元，用于分别计算所述多个空间注意图和所述多个高维特征图中每组对应的所述空间注意力图和所述高维特征图之间的按位置点乘以得到多个行为监控特征图；

降维单元，用于分别对所述多个行为监控特征图进行沿通道维度的池化处理以得到所述多个咨询者行为监控特征矩阵。

4.根据权利要求3所述的基于多模态数据融合的视频智能分析系统，其特征在于，所述行为动态变化特征提取模块，用于：所述使用三维卷积核的第二卷积神经网络模型的各层在层的正向传递过程中分别对输入数据进行：

对所述输入数据进行卷积处理以得到卷积特征图；

对所述卷积特征图进行基于局部特征矩阵的均值池化处理以得到池化特征图；

对所述池化特征图进行非线性激活以得到激活特征图；

其中，所述第二卷积神经网络模型的最后一层的输出为所述咨询者行为监控特征图，所述第二卷积神经网络模型的第一层的输入为所述多个咨询者行为监控特征矩阵。

5.根据权利要求4所述的基于多模态数据融合的视频智能分析系统，其特征在于，所述声音特征编码模块，用于：所述第三卷积神经网络模型的各层在层的正向传递中对输入数据分别进行：

基于二维卷积核对所述输入数据进行卷积处理以生成卷积特征图；

对所述卷积特征图进行池化处理以生成池化特征图；

对所述池化特征图进行激活处理以生成激活特征图；

计算所述激活特征图中各个通道对应的特征矩阵的特征值均值与所有通道对应的特征矩阵的特征值均值之和的商作为所述各个通道对应的特征矩阵的加权系数；

以所述激活特征图中各个通道的加权系数对所述各个通道的特征矩阵进行加权以生成通道注意力特征图；

其中，所述第三卷积神经网络模型的第一层的输入为所述多通道声音谱图，所述第三卷积神经网络模型的最后一层的输出为所述咨询者声音特征图。

6.根据权利要求5所述的基于多模态数据融合的视频智能分析系统，其特征在于，所述多模态特征融合模块，包括：

特征工程过渡因子计算单元，用于计算所述咨询者行为监控特征图相对于所述咨询者声音特征图的基于秩序先验的特征工程过渡因子；

咨询者行为特征加权单元，用于以所述基于秩序先验的特征工程过渡因子作为权重，对所述咨询者行为监控特征图进行加权优化以得到加权后咨询者行为监控特征图；

按位置加权和单元，用于计算所述加权后咨询者行为监控特征图和所述咨询者声音特征图之间的按位置加权和以得到所述分类特征图。

7.根据权利要求6所述的基于多模态数据融合的视频智能分析系统，其特征在于，所述特征工程过渡因子计算单元，用于：以如下计算公式计算所述咨询者行为监控特征图相对于所述咨询者声音特征图的基于秩序先验的特征工程过渡因子；

其中，所述计算公式为：

8.根据权利要求7所述的基于多模态数据融合的视频智能分析系统，其特征在于，所述心理健康状态评估模块，用于：使用所述分类器以如下分类公式对所述分类特征图进行处理以生成所述分类结果；

其中，所述分类公式为：

O＝softmax{(W_n,B_n):…:(W₁,B₁)|Project(F_c)}

9.一种基于多模态数据融合的视频智能分析方法，其特征在于，包括：

获取心理咨询过程中的视频数据和音频数据；

10.根据权利要求9所述的基于多模态数据融合的视频智能分析方法，其特征在于，将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示咨询者心理健康状态的标签，包括：使用所述分类器以如下分类公式对所述分类特征图进行处理以生成所述分类结果；

其中，所述分类公式为：

O＝softmax{(W_n,B_n):…:(w₁,B₁)|Project(F_c)}