CN117116286A

CN117116286A - 信息生成方法和装置

Info

Publication number: CN117116286A
Application number: CN202310817816.2A
Authority: CN
Inventors: 黄耀
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-11-24

Abstract

本公开的实施例提供的信息生成方法和装置，通过响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征，然后对视频数据进行视频特征提取，得到视频数据对应的视频特征，之后将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合，最后基于融合特征集合，生成目标用户对应的状态分析信息，能够对目标用户的学习数据进行实时分析，对目标用户的音频特征和视频特征进行融合分析，使得目标用户可以及时了解在学习和训练过程中的技巧和姿态等方面。

Description

信息生成方法和装置

技术领域

本公开涉及计算机技术领域，具体涉及多媒体播放和信息处理技术领域，尤其涉及信息生成方法和装置。

背景技术

在乐器教学中，对音乐老师的依赖比较重，常常需要进行一对一教学，加之音乐老师的水平不一，所以学习费用高，效果却差强人意。这成为普通人学习乐器的一大障碍。或者，可以参加乐器辅导班，但是乐器辅导班老师是一对多讲课的，因为每个学生的学习情况都不一样，老师难以兼顾所有学生的进度控制教学速度。

因此，学生在进行自主练习的时候，由于没有老师进行一对一的辅导监督或者按照错误的方法学习，在练习过程中很容易出现个别音节演奏错误而无法被发现的情况，这样长期以往下去会导致学习效率和质量低下，不利于学生高效的学习乐器。

发明内容

本公开的实施例提出了一种信息生成方法、装置、电子设备和计算机可读介质。

第一方面，本公开的实施例提供了一种信息生成方法，该方法包括：响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征；对视频数据进行视频特征提取，得到视频数据对应的视频特征；将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合；基于融合特征集合，生成目标用户对应的状态分析信息。

在一些实施例中，对音频数据进行音频特征提取，得到音频数据对应的音频特征，包括：基于音频数据，生成音频数据对应的频谱图像；对频谱图像进行音频特征提取，得到音频数据对应的音频特征。

在一些实施例中，基于音频数据，生成音频数据对应的频谱图像，包括：对音频数据进行模电转换和采样，得到音频数据对应的数字信号；对数字信号进行预处理，得到数字信号对应的预处理音频；对预处理音频进行傅里叶变换，生成音频数据对应的频谱图像。

在一些实施例中，对视频数据进行视频特征提取，得到视频数据对应的视频特征，包括：基于视频数据，获取多种格式对应的多张视频特征图像；分别将每种格式的多张视频特征图像输入至特征提取网络，得到每种格式的多张视频特征图像对应的初始视频特征；基于每种格式的多张视频特征图像对应的初始视频特征，得到视频数据对应的视频特征。

在一些实施例中，基于视频数据，获取多种格式对应的多张视频特征图像，包括：基于视频数据，获取视频数据的光流数据和骨骼特征点；基于光流数据和骨骼特征点，获取多种格式对应的多张视频特征图像。

在一些实施例中，将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合，包括：将音频特征和视频特征输入至预训练模型的特征提取网络，获取音频特征和视频特征对应的目标特征集合；将目标特征集合输入至预训练模型的多头注意力层，获取目标特征集合的融合特征集合。

在一些实施例中，将音频特征和视频特征输入至预训练模型的特征提取网络，获取音频特征和视频特征对应的目标特征集合，包括：对音频特征和视频特征进行归一化处理，得到音频特征和视频特征对应的初始融合特征；将初始融合特征输入至预训练模型的特征提取网络，获取初始融合特征对应的目标特征集合。

在一些实施例中，基于融合特征集合，生成目标用户对应的状态分析信息，包括：基于融合特征集合，确定出每个融合特征对应的注意力权重值；基于每个融合特征对应的注意力权重值，生成目标用户对应的状态分析信息。

在一些实施例中，状态分析信息包括目标用户对应的学习状态信息；以及，基于每个融合特征对应的注意力权重值，生成目标用户对应的状态分析信息，包括：获取音频数据和视频数据对应的情感预测类别；基于每个融合特征对应的注意力权重值和情感预测类别，生成目标用户对应的学习状态信息。

在一些实施例中，该方法还包括：基于目标用户在预设时间段内的状态分析信息，生成目标用户对应的状态曲线；基于状态曲线和期望曲线，生成目标用户在预设时间段内的结果分析信息；基于结果分析信息，生成目标用户对应的第一提示信息。

在一些实施例中，该方法还包括：基于结果分析信息，确定目标用户对应的情绪类别；基于情绪类别，生成对应的语音交互信息。

在一些实施例中，该方法还包括：基于结果分析信息，获取音频数据和视频数据对应的标准数据；基于标准数据、音频数据和视频数据，生成目标用户对应的第二提示信息。

在一些实施例中，该方法还包括：基于结果分析信息，获取目标用户对应的目标音频数据和目标视频数据；基于目标音频数据和目标视频数据，生成目标用户对应的目标音视频数据。

第二方面，本公开的实施例提供了一种信息生成装置，该装置包括：音频特征提取模块，被配置成响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征；视频特征提取模块，被配置成对视频数据进行视频特征提取，得到视频数据对应的视频特征；获取模块，被配置成将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合；生成模块，被配置成基于融合特征集合，生成目标用户对应的状态分析信息。

在一些实施例中，音频特征提取模块，进一步被配置成：基于音频数据，生成音频数据对应的频谱图像；对频谱图像进行音频特征提取，得到音频数据对应的音频特征。

在一些实施例中，音频特征提取模块，进一步被配置成：对音频数据进行模电转换和采样，得到音频数据对应的数字信号；对数字信号进行预处理，得到数字信号对应的预处理音频；对预处理音频进行傅里叶变换，生成音频数据对应的频谱图像。

在一些实施例中，视频特征提取模块，进一步被配置成：基于视频数据，获取多种格式对应的多张视频特征图像；分别将每种格式的多张视频特征图像输入至特征提取网络，得到每种格式的多张视频特征图像对应的初始视频特征；基于每种格式的多张视频特征图像对应的初始视频特征，得到视频数据对应的视频特征。

在一些实施例中，视频特征提取模块，进一步被配置成：基于视频数据，获取视频数据的光流数据和骨骼特征点；基于光流数据和骨骼特征点，获取多种格式对应的多张视频特征图像。

在一些实施例中，获取模块，进一步被配置成：将音频特征和视频特征输入至预训练模型的特征提取网络，获取音频特征和视频特征对应的目标特征集合；将目标特征集合输入至预训练模型的多头注意力层，获取目标特征集合的融合特征集合。

在一些实施例中，获取模块，进一步被配置成：对音频特征和视频特征进行归一化处理，得到音频特征和视频特征对应的初始融合特征；将初始融合特征输入至预训练模型的特征提取网络，获取初始融合特征对应的目标特征集合。

在一些实施例中，生成模块，进一步被配置成：基于融合特征集合，确定出每个融合特征对应的注意力权重值；基于每个融合特征对应的注意力权重值，生成目标用户对应的状态分析信息。

在一些实施例中，状态分析信息包括目标用户对应的学习状态信息；以及，生成模块，进一步被配置成：获取音频数据和视频数据对应的情感预测类别；基于每个融合特征对应的注意力权重值和情感预测类别，生成目标用户对应的学习状态信息。

在一些实施例中，生成模块，进一步被配置成：基于目标用户在预设时间段内的状态分析信息，生成目标用户对应的状态曲线；基于状态曲线和期望曲线，生成目标用户在预设时间段内的结果分析信息；基于结果分析信息，生成目标用户对应的第一提示信息。

在一些实施例中，生成模块，进一步被配置成：基于结果分析信息，确定目标用户对应的情绪类别；基于情绪类别，生成对应的语音交互信息。

在一些实施例中，生成模块，进一步被配置成：基于结果分析信息，获取音频数据和视频数据对应的标准数据；基于标准数据、音频数据和视频数据，生成目标用户对应的第二提示信息。

在一些实施例中，生成模块，进一步被配置成：基于结果分析信息，获取目标用户对应的目标音频数据和目标视频数据；基于目标音频数据和目标视频数据，生成目标用户对应的目标音视频数据。

第三方面，本申请提供了一种电子设备，包括一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的信息生成方法。

第四方面，本申请提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一实现方式描述的信息生成方法。

本公开的实施例提供的信息生成方法和装置，通过响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征，然后对视频数据进行视频特征提取，得到视频数据对应的视频特征，之后将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合，最后基于融合特征集合，生成目标用户对应的状态分析信息，能够对目标用户的学习数据进行实时分析，对目标用户的音频特征和视频特征进行融合分析，使得目标用户可以及时了解在学习和训练过程中的技巧和姿态等方面，从而可以使得目标用户及时调整学习和训练状态，利用音视频数据全面分析目标用户在学习和训练过程中的状态，提高了用户在学习和训练过程中状态分析的准确性和全面性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1示出了本公开的一些实施例可以应用于其中的示例性系统架构图；

图2示出了本公开的信息生成方法的一个实施例的流程图；

图3示出了本公开的信息生成方法的一个应用场景的示意图；

图4示出了本公开的获取融合特征集合的一个实施例的示意图；

图5示出了本公开的生成状态分析信息的一个实施例的示意图；

图6示出了本公开的信息生成装置的一个实施例的结构示意图；

图7示出了适于用来实现本公开的实施例的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的实施例的信息生成方法或信息生成装置的示例性系统架构100。

如图1所示，系统架构100可以包括服务器101、102，网络103，终端设备104、105。网络103用以在服务器101、102与终端设备104、105之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以通过终端设备104、105利用网络103与服务器101、102进行交互，以接收或发送信息等。终端设备104、105上可以安装有各种应用，例如音视频播放应用、数据处理应用等。

终端设备104、105可以是硬件，也可以是软件。当终端设备为硬件时，可以是具有显示屏并且支持与服务器通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备104、105可以具备音视频采集装置，终端设备104、105可以通过音视频采集装置采集目标用户对应的音频数据和视频数据。

服务器101、102可以接收终端设备104、105发送的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征，然后对视频数据进行视频特征提取，得到视频数据对应的视频特征，之后将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合，最后基于融合特征集合，生成目标用户对应的状态分析信息。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以是为终端设备提供各种服务的各种电子设备。当服务器为软件时，可以实现成为为终端设备提供各种服务的多个软件或软件模块，也可以实现成为为终端设备提供各种服务的单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供的信息生成方法可以由服务器101、102执行。相应地，信息生成装置设置于服务器101、102中。

应该理解，图1中的服务器、网络和播放设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的播放设备、网络和服务器。

继续参考图2，示出了根据本公开的信息生成方法的一个实施例的流程200。该信息生成方法，可以包括以下步骤：

步骤210，响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征。

在本步骤中，目标用户可以对要学习或训练的内容进行学习和训练，例如学习和训练乐器、舞蹈等，终端设备可以对正在训练的目标用户进行音频和视频采集，采集到目标用户的音频数据和视频数据，其中，该音频数据可以包括目标用户在学习训练过程中的实时音频信息，可以是某一时刻的音频数据，也可以是某一时间段内的音频数据；该视频数据可以包括目标用户在学习训练过程中的实时视频信息，可以是某一时刻的视频数据，也可以是某一时间段内的视频数据。终端设备可以将采集到的音频数据和视频数据发送至信息生成方法的执行主体(例如图1所示的服务器101、102)。

上述执行主体可以通过网络连接等通讯方式从终端设备获取到目标用户的音频数据和视频数据，之后将目标用户的音频数据输入至特征提取网络中，利用特征提取网络对音频数据进行音频处理和音频特征提取，特征提取网络输出音频数据对应的音频特征，该音频特征可以包括表征音频数据中目标用户在多个音频维度上的特征数据，可以包括音高、音强、音长、音色等多个维度的音频特征。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

在本实施例的一些可选的实现方式中，上述步骤210，对音频数据进行音频特征提取，得到音频数据对应的音频特征，可以包括以下步骤：

第一步，基于音频数据，生成音频数据对应的频谱图像。

具体地，上述执行主体可以对音频数据进行频谱分析，对音频数据进行频谱转换，生成音频数据对应的频谱图像。

作为一个可选实现方式，上述步骤可以通过以下步骤实现：对音频数据进行模电转换和采样，得到音频数据对应的数字信号；对数字信号进行预处理，得到数字信号对应的预处理音频；对预处理音频进行傅里叶变换，生成音频数据对应的频谱图像。

具体地，上述执行主体可以对音频数据进行模电转换，将其转换为模拟电信号，之后对模拟电信号进行采样，将其转换为MIDI数字信号。其中，采样是指对模拟电信号进行离散化处理，将其转换为一系列离散时间点上的采样值。

上述执行主体获取到音频数据对应的数字信号后，可以对数字信号进行预处理，即可以对对数字信号进行去噪、滤波和归一化等操作，获取到数字信号对应的预处理音频。

上述执行主体可以对预处理音频进行傅里叶变换，通过短时傅里叶变换将预处理音频转换为音频数据对应的频谱图像，该频谱图像可以包括声谱图、相位频谱图、梅尔频谱图等，该频谱图像中可以包括音高、音长、音强、音色、旋律等相关数据。

在本可选方式中，通过对音频数据进行模电转换、采样和预处理，可以使得音频数据可以格式转换、去除音频数据中不必要信息，提高了音频数据的准确性，从而使得后续转换成频谱图像更便捷和更准确。

第二步，对频谱图像进行音频特征提取，得到音频数据对应的音频特征。

具体地，上述执行主体获取到音频数据对应的频谱图像后，可以将频谱图像输入至特征提取网络中，利用特征提取网络对频谱图像进行音频处理和音频特征提取，特征提取网络输出音频数据对应的音频特征，该音频特征可以包括表征音频数据中目标用户在多个音频维度上的特征数据，可以包括音高、音强、音长、音色等多个维度的音频特征。

在本实现方式中，通过将音频数据转换成频谱图像，并基于频谱图像提取音频特征，能够准确分析音频数据在各个维度的特征数据，得到音频数据的多维度音频特征，使得音频特征更准确和更全面。

步骤220，对视频数据进行视频特征提取，得到视频数据对应的视频特征。

在本步骤中，上述执行主体获取到目标用户的视频数据后，可以将目标用户的视频数据输入至特征提取网络中，利用特征提取网络对视频数据进行视频处理和视频特征提取，特征提取网络输出视频数据对应的视频特征，该视频特征可以包括表征视频数据中目标用户在多个骨骼维度上的特征数据，可以包括不同骨骼特征点的特征数据，例如脸部、左手、右手、上部分身体、下部分身体、全部整张图像等多个维度的视频特征。

在本实施例的一些可选的实现方式中，上述步骤220，对视频数据进行视频特征提取，得到视频数据对应的视频特征，可以包括以下步骤：

第一步，基于视频数据，获取多种格式对应的多张视频特征图像。

具体地，上述执行主体可以对视频数据进行视频分析，提取出目标用户的人体姿态和手势信息，并根据人体姿态和手势信息，将视频数据分别存储为多种格式的视频图像，每种格式的视频图像可以为与目标用户对应的多张视频特征图像，视频特征图像表征目标用户的人体姿态和手势信息特征。其中，多种格式对应的多张视频特征图像可以包括RGB图像格式对应的多张视频特征图像和光流图像格式对应的多张视频特征图像。

作为一个可选实现方式，上述步骤可以通过以下步骤实现：基于视频数据，获取视频数据的光流数据和骨骼特征点；基于光流数据和骨骼特征点，获取多种格式对应的多张视频特征图像。

具体地，上述执行主体可以对视频数据进行视频分析，通过光流方程(OpticalFlow equation)、Horn–Schunck光流(一种光流算法)、总变差正则化(Total VariationRegularization)等方式计算视频数据对应的光流数据，并对视频数据进行骨骼特征点提取，确定出视频数据中目标用户对应的骨骼特征点，从而获取到视频数据的光流数据和骨骼特征点。然后上述执行主体可以根据光流数据获取光流图像格式对应的多张视频特征图像，并根据骨骼特征点从视频数据中获取RGB图像格式对应的多张视频特征图像，从而获取到多种格式对应的多张视频特征图像。

在本可选实现方式中，通过光流数据和骨骼特征点获取多种格式对应的多张视频特征图像，使得视频特征图像更全面，从而能够提高视频特征的准确性和全面性。

第二步，分别将每种格式的多张视频特征图像输入至特征提取网络，得到每种格式的多张视频特征图像对应的初始视频特征。

具体地，上述执行主体可以获取到多种格式对应的多张视频特征图像后，可以获取每种图像格式对应的特征提取网络，不同的图像格式可以对应不同的特征提取网络。上述执行主体可以分别将每种格式的多张视频特征图像输入至对应的特征提取网络，利用特征提取网络对多张视频特征图像进行特征提取，得到每种格式的多张视频特征图像对应的初始视频特征。

上述执行主体可以将RGB图像格式对应的多张视频特征图像输入至对应的特征提取网络，利用该特征提取网络对多张视频特征图像进行特征提取，得到RGB图像格式的多张视频特征图像对应的初始视频特征。

上述执行主体可以将光流图像格式对应的多张视频特征图像输入至对应的特征提取网络，利用该特征提取网络对多张视频特征图像进行特征提取，得到光流图像格式的多张视频特征图像对应的初始视频特征。

第三步，基于每种格式的多张视频特征图像对应的初始视频特征，得到视频数据对应的视频特征。

具体地，上述执行主体获取到每种格式的多张视频特征图像对应的初始视频特征后，对多种格式的多张视频特征图像对应的初始视频特征进行聚合和归一化，整合生成视频数据对应的视频特征集合。之后上述执行主体可以对视频特征集合利用线性SVM(Support Vector Machine)进行训练，得到视频数据对应的视频特征。

在本实现方式中，通过获取多种格式对应的多张视频特征图像，并利用不同的特征提取网络分别对每种格式对应的多张视频特征图像进行处理，以获取视频数据对应的视频特征，可以对不同格式的特征图像进行针对性处理，在保证视频特征图像的全面性的基础上，进一步保证了图像处理的针对性，使得视频特征更准确和更全面。

步骤230，将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合。

在本步骤中，上述执行主体获取到音频特征和视频特征后，可以获取包括特征提取网络和多头注意力层的预训练模型，该预训练模型可以经由样本音频数据和样本视频数据作为输入数据，对样本视频数据进行相应加权，进行无监督学习和训练，生成预训练模型。

上述执行主体可以将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，利用特征提取网络对音频特征和视频特征进行进一步特征提取，并利用多头注意力层对进一步提取的特征进行特征融合，获取到音频特征和视频特征对应的融合特征集合。

步骤240，基于融合特征集合，生成目标用户对应的状态分析信息。

在本步骤中，上述执行主体获取到融合特征集合后，可以根据融合特征集合中的多个融合特征，分析目标用户在音频和视频中的学习状态或训练状态，可以确定出每个融合特征在整体中所占的比例值，并根据每个融合特征的比例值，计算目标用户在多个维度的状态分析信息。

若该状态分析信息可以包括与每个音视频特征对应的状态分值，例如，音高特征可以对应音高状态分值，音强特征可以对应音强状态分值，手部特征可以对应手部操作状态分值。上述执行主体可以根据每个融合特征在整体中所占的比例值，计算出每个融合特征对应的状态分析信息。

若该状态分析信息可以包括目标用户对应的总体状态分值，例如，目标用户在采集音频数据和视频数据时对应的整体状态分值。上述执行主体可以根据每个融合特征在整体中所占的比例值确定出总体状态对应的比例值，并计算出总体状态对应的状态分析信息。

继续参见图3，图3是根据本实施例的信息生成方法的应用场景的一个示意图。该方法可以应用于图3的应用场景中，目标用户在练习钢琴过程中，通过终端301对目标用户的音频和视频进行采集，获取到目标用户的音频数据和视频数据，并将目标用户的音频数据和视频数据发送至服务器302。服务器302接收到目标用户的音频数据和视频数据后，可以对音频数据进行音频特征提取，得到音频数据对应的音频特征。然后服务器302可以继续对视频数据进行视频特征提取，得到视频数据对应的视频特征，之后服务器302可以将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合。最后服务器302可以基于融合特征集合，生成目标用户对应的状态分析信息，并将该状态分析信息发送至终端301，终端301将状态分析信息展示给目标用户。

本公开的上述实施例提供的信息生成方法和装置，通过响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征，然后对视频数据进行视频特征提取，得到视频数据对应的视频特征，之后将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合，最后基于融合特征集合，生成目标用户对应的状态分析信息，能够对目标用户的学习数据进行实时分析，对目标用户的音频特征和视频特征进行融合分析，使得目标用户可以及时了解在学习和训练过程中的技巧和姿态等方面，从而可以使得目标用户及时调整学习和训练状态，利用音视频数据全面分析目标用户在学习和训练过程中的状态，提高了用户在学习和训练过程中状态分析的准确性和全面性。

参阅图4，图4示出了获取融合特征集合的一个实施例的示意图400，即上述步骤230，将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合，可以包括以下步骤：

步骤410，将音频特征和视频特征输入至预训练模型的特征提取网络，获取音频特征和视频特征对应的目标特征集合。

在本步骤中，上述执行主体获取到音频特征和视频特征后，可以将音频特征和视频特征输入至预训练模型的特征提取网络中，利用预训练模型的特征提取网络对音频特征和视频特征进行进一步深度特征提取，得到音频特征和视频特征对应的目标特征集合，该目标特征集合包括将音频特征和视频特征经过进一步特征提取得到的多个目标特征。

在本实施例的一些可选的实现方式中，上述步骤410，将音频特征和视频特征输入至预训练模型的特征提取网络，获取音频特征和视频特征对应的目标特征集合，可以包括以下步骤：

第一步，对音频特征和视频特征进行归一化处理，得到音频特征和视频特征对应的初始融合特征。

具体地，上述执行主体获取到音频特征和视频特征后，可以对音频特征和视频特征进行归一化处理，即可以对音频特征和视频特征按照时间对齐和参数空间统一化，得到音频特征和视频特征对应的初始融合特征。

第二步，将初始融合特征输入至预训练模型的特征提取网络，获取初始融合特征对应的目标特征集合。

具体地，上述执行主体可以将初始融合特征输入至预训练模型的特征提取网络，利用特征提取网络对初始融合特征进行进一步特征提取，获取初始融合特征对应的目标特征集合。

在本实现方式中，通过对音频特征和视频特征进行归一化处理，得到音频特征和视频特征对应的初始融合特征，并基于初始融合特征获取初始融合特征对应的目标特征集合，能够对音频特征和视频特征进行预处理，在进行融合之前先进行初步融合，得到初始融合特征，使得后续目标特征集合更准确，从而提高了融合特征集合的准确性。

步骤420，将目标特征集合输入至预训练模型的多头注意力层，获取目标特征集合的融合特征集合。

在本步骤中，上述执行主体获取到目标特征集合后，可以将将目标特征集合输入至预训练模型的多头注意力层，该多头注意力层可以对目标特征集合中的每个目标特征进行注意力处理，获取到每个目标特征对应的融合特征和注意力权重值，从而获取到目标特征集合的融合特征集合。

具体地，目标特征集合中包括多个目标特征，可以为x₁,x₂…x_T，其中，x₁可以代表某段时间窗内音高的特征向量，x₂可以代表某段时间窗内音强的特征向量等等，将x₁,x₂…x_T作为多头注意力层的输入序列；之后通过嵌入层将输入序列进行初步的编码embedding，得到a₁,a₂…a_T；之后使用三个矩阵W^Q,W^K,W^V，分别与之相乘得到q_i,k_i,v_i,i∈(1,2..T)；其中，q₁分别与k₁,k₂…k_T计算向量点积得到a_1,1,a_1,2…a_1,T；将a_1,1,a_1,2…a_1,T输入Softmax层，从而得到各个目标特征对应的注意力权重值其中，每个注意力权重值的均值在0～1之间。之后将/>分别与对应的v₁,v₂…v_T相乘，然后求和即得到输入x₁对应的e₁，即得到某个目标特征对应的融合特征，同样的方式得到e₂,e₃…e_T，从而得到目标特征集合对应的融合特征集合。

在本实施例中，通过将音频特征和视频特征输入至预训练模型的特征提取网络，获取音频特征和视频特征对应的目标特征集合，并将目标特征集合输入至预训练模型的多头注意力层，获取目标特征集合的融合特征集合，能够对音频特征和视频特征进行特征提取和融合，使得融合特征更全面和更准确。

进一步参阅图5，图5示出了生成状态分析信息的一个实施例的示意图500，即步骤240，基于融合特征集合，生成目标用户对应的状态分析信息，可以包括以下步骤：

步骤510，基于融合特征集合，确定出每个融合特征对应的注意力权重值。

在本步骤中，上述执行主体获取到融合特征集合后，可以基于融合特征集合中的每个融合特征，确定出多头注意力层在生成融合特征过程中每个融合特征对应的注意力权重值。

步骤520，基于每个融合特征对应的注意力权重值，生成目标用户对应的状态分析信息。

在本步骤中，上述执行主体可以根据每个融合特征对应的注意力权重值，确定出每个融合特征对应的比例值，并根据每个融合特征的比例值，计算目标用户在多个维度的状态分析信息。

在本实施例的一些可选的实现方式中，上述步骤520，基于每个融合特征对应的注意力权重值，生成目标用户对应的状态分析信息，可以包括以下步骤：

其中，状态分析信息可以包括目标用户对应的学习状态信息。

第一步，获取音频数据和视频数据对应的情感预测类别。

具体地，上述执行主体可以获取情感预测模型，将音频数据和视频数据输入至情感预测模型中，利用情感预测模型对音频数据和视频数据进行情感预测，输出音频数据和视频数据对应的情感预测类别。

第二步，基于每个融合特征对应的注意力权重值和情感预测类别，生成目标用户对应的学习状态信息。

具体地，上述执行主体可以根据每个融合特征对应的注意力权重值和情感预测类别，对目标用户的学习状态进行分析和计算，生成目标用户对应的学习状态信息。

在本实现方式中，通过在分析学习状态信息的过程中加入情感预测类别，可以分析学习过程中的情绪变化，基于对目标用户的身体语言(肢体动作与面部表情)和音频变化进行的多模态分析，使得生成的学习状态信息更准确和更全面。

在本实施例的一些可选的实现方式中，上述信息生成方法还可以包括以下步骤：基于目标用户在预设时间段内的状态分析信息，生成目标用户对应的状态曲线；基于状态曲线和期望曲线，生成目标用户在预设时间段内的结果分析信息；基于结果分析信息，生成目标用户对应的第一提示信息。

具体地，上述执行主体可以获取目标用户在每个时刻的状态分析信息，并根据目标用户在预设时间段内的多个状态分析信息，生成目标用户对应的状态曲线，该状态曲线表征目标用户在预设时间段内的状态分析曲线，状态曲线可以包括学习状态分值曲线、音准分值曲线、动作分值曲线等等。之后上述执行主体可以获取目标用户对应的期望曲线，该期望曲线可以表征目标用户希望在预设时间段内达到的状态分析曲线，并将状态曲线和期望曲线进行比较，对比状态曲线和期望曲线之间的差异，得到状态曲线和期望曲线之间的差异结果，根据该差异结果生成目标用户在预设时间段内的结果分析信息，若差异结果表征状态曲线与期望曲线之间差异较小，则结果分析信息可以表征目标用户在预设时间段内达到期望状态，若差异结果表征状态曲线与期望曲线之间差异较大，则结果分析信息可以表征目标用户在预设时间段内未达到期望状态。最后上述执行主体可以根据结果分析信息，生成对应的第一提示信息，若结果分析信息表征目标用户在预设时间段内达到期望状态，则第一提示信息可以用于提示目标用户在预设时间段内的学习或训练状态较好，达到期望状态；若结果分析信息表征目标用户在预设时间段内未达到期望状态，则第一提示信息可以用于提示目标用户在预设时间段内的学习或训练状态较差，需要加强学习和训练，并提示出与期望曲线差异较大的部分，提示目标用户重点学习和训练。

在本实现方式中，通过分析得出一系列的分值形成状态曲线，将状态曲线与期望曲线进行比较，生成第一提示信息，使得目标用户可以及时关注存在差异的部分，可以及时调整需要学习和训练的部分。

在本实施例的一些可选的实现方式中，上述信息生成方法还可以包括以下步骤：基于结果分析信息，确定目标用户对应的情绪类别；基于情绪类别，生成对应的语音交互信息。

具体地，上述执行主体确定出结果分析信息后，可以根据结果分析信息对目标用户的学习时长或训练时长进行分析，确定出目标用户的学习时长或训练时长，进一步根据目标用户的学习时长或训练时长确定出目标用户对应的情绪类别，即若学习时长或训练时长超过预设阈值，则确定目标用户处于疲惫状态，情绪类别为烦躁不安等。上述执行主体可以根据情绪类别，生成与情绪类别对应的语音交互信息，即若情绪类别为烦躁不安，语音交互信息可以为表征鼓励、适时疏导的语音信息。

或者，上述执行主体可以根据结果分析信息，确定目标用户在预设时间段内表现良好，从而确定目标用户的情绪类别可以是需要表扬鼓励的情绪类别。然后上述执行主体可以根据该情绪类别自动生成鼓励性的语音交互信息，并结合音频和视频演示，向学生传递正向情感信息，鼓励其继续努力。

或者，上述执行主体可以根据结果分析信息，确定目标用户在预设时间段内表现存在问题，从而确定目标用户的情绪类别可以是需要点评分析的情绪类别。然后上述执行主体可以根据该情绪类别和目标用户对应的融合特征自动生成具体点评语言的语音交互信息，并提出改进建议，以帮助目标用户纠正问题和提高水平。

在本实现方式中，通过结果分析信息生成不同的语音交互信息，可以对目标用户进行有针对性的交互反馈，提供个性化的学习建议和反馈，帮助目标用户制定更适合自己的学习计划和目标。

在本实施例的一些可选的实现方式中，上述信息生成方法还可以包括以下步骤：基于结果分析信息，获取音频数据和视频数据对应的标准数据；基于标准数据、音频数据和视频数据，生成目标用户对应的第二提示信息。

具体地，上述执行主体在获取到结果分析信息后，可以获取音频数据和视频数据对应的标准数据，该标准数据可以是音频数据和视频数据对应的标准音频和标准视频。上述执行主体可以将标准数据发送至目标用户的终端设备，以供目标用户对标准数据进行查看，并且上述执行主体还可以根据标准数据、音频数据和视频数据，生成目标用户对应的第二提示信息，该第二提示信息可以是针对目标用户的音频数据和视频数据进行实时调整的信息。若标准数据是带有唱跳类型的舞蹈训练或舞台剧表演，上述执行主体可以将标准数据通过终端设备播放给目标用户，并及时采集目标用户的音频数据和视频数据，将标准数据、音频数据和视频数据进行比较，生成用于提示目标用户进行调整的第二提示信息，对于歌唱音准、节奏把握、肢体动作和舞台效果等进行指导。

作为示例，若目标用户的终端设备是AR眼镜或VR设备，上述执行主体可以将标准数据发送至AR眼镜或VR设备，AR眼镜或VR设备根据标准数据进行渲染，以使得目标用户通过AR眼镜或VR设备将自身的动作与虚拟的演示动作叠加在一起，可以让用户很明显的看到动作的差异性，方便纠正错误动作，同时，上述执行主体也可以采集这些数据，并生成用于提示目标用户进行调整的第二提示信息。

在本实现方式中，通过及时将标准数据与音频数据、视频数据进行比较，生成目标用户对应的第二提示信息，可以使得目标用户很明显、及时了解到与标准数据之间的差异性，使得目标用户能够及时且准确地进行调整。

在本实施例的一些可选的实现方式中，上述信息生成方法还可以包括以下步骤：基于结果分析信息，获取目标用户对应的目标音频数据和目标视频数据；基于目标音频数据和目标视频数据，生成目标用户对应的目标音视频数据。

具体地，上述执行主体可以根据结果分析信息，从目标用户对应的历史数据中获取到状态分析信息符合预设条件的目标音频数据和目标视频数据，该预设条件可以是状态分析信息高于预设分值，例如可以根据状态分析信息选择出目标用户对应的比较好的目标音频数据和目标视频数据。然后上述执行主体可以将目标音频数据和目标视频数据进行拼接，生成目标用户对应的目标音视频数据。上述执行主体还可以根据用户需要将目标音视频数据分享到社交网络上，并让其他用户对其进行点赞或评论。

在本实现方式中，通过分享目标用户的目标音视频数据，利用元宇宙的社交功能，创建学习社区，让学习者之间进行互动交流，分享自己的目标音视频数据，以及共同创作音乐等，可以提升用户的成就感、自信心和学习积极性。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种信息生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的信息生成装置600包括：音频特征提取模块610、视频特征提取模块620、获取模块630和生成模块640。

其中，音频特征提取模块610，被配置成响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征；

视频特征提取模块620，被配置成对视频数据进行视频特征提取，得到视频数据对应的视频特征；

获取模块630，被配置成将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合；

生成模块640，被配置成基于融合特征集合，生成目标用户对应的状态分析信息。

在本实施例的一些可选的实现方式中，音频特征提取模块610，进一步被配置成：基于音频数据，生成音频数据对应的频谱图像；对频谱图像进行音频特征提取，得到音频数据对应的音频特征。

在本实施例的一些可选的实现方式中，音频特征提取模块610，进一步被配置成：对音频数据进行模电转换和采样，得到音频数据对应的数字信号；对数字信号进行预处理，得到数字信号对应的预处理音频；对预处理音频进行傅里叶变换，生成音频数据对应的频谱图像。

在本实施例的一些可选的实现方式中，视频特征提取模块620，进一步被配置成：基于视频数据，获取多种格式对应的多张视频特征图像；分别将每种格式的多张视频特征图像输入至特征提取网络，得到每种格式的多张视频特征图像对应的初始视频特征；基于每种格式的多张视频特征图像对应的初始视频特征，得到视频数据对应的视频特征。

在本实施例的一些可选的实现方式中，视频特征提取模块620，进一步被配置成：基于视频数据，获取视频数据的光流数据和骨骼特征点；基于光流数据和骨骼特征点，获取多种格式对应的多张视频特征图像。

在本实施例的一些可选的实现方式中，获取模块630，进一步被配置成：将音频特征和视频特征输入至预训练模型的特征提取网络，获取音频特征和视频特征对应的目标特征集合；将目标特征集合输入至预训练模型的多头注意力层，获取目标特征集合的融合特征集合。

在本实施例的一些可选的实现方式中，获取模块630，进一步被配置成：对音频特征和视频特征进行归一化处理，得到音频特征和视频特征对应的初始融合特征；将初始融合特征输入至预训练模型的特征提取网络，获取初始融合特征对应的目标特征集合。

在本实施例的一些可选的实现方式中，生成模块640，进一步被配置成：基于融合特征集合，确定出每个融合特征对应的注意力权重值；基于每个融合特征对应的注意力权重值，生成目标用户对应的状态分析信息。

在本实施例的一些可选的实现方式中，状态分析信息包括目标用户对应的学习状态信息；以及，生成模块640，进一步被配置成：获取音频数据和视频数据对应的情感预测类别；基于每个融合特征对应的注意力权重值和情感预测类别，生成目标用户对应的学习状态信息。

在本实施例的一些可选的实现方式中，生成模块640，进一步被配置成：基于目标用户在预设时间段内的状态分析信息，生成目标用户对应的状态曲线；基于状态曲线和期望曲线，生成目标用户在预设时间段内的结果分析信息；基于结果分析信息，生成目标用户对应的第一提示信息。

在本实施例的一些可选的实现方式中，生成模块640，进一步被配置成：基于结果分析信息，确定目标用户对应的情绪类别；基于情绪类别，生成对应的语音交互信息。

在本实施例的一些可选的实现方式中，生成模块640，进一步被配置成：基于结果分析信息，获取音频数据和视频数据对应的标准数据；基于标准数据、音频数据和视频数据，生成目标用户对应的第二提示信息。

在本实施例的一些可选的实现方式中，生成模块640，进一步被配置成：基于结果分析信息，获取目标用户对应的目标音频数据和目标视频数据；基于目标音频数据和目标视频数据，生成目标用户对应的目标音视频数据。

本公开的上述实施例提供的信息生成装置，通过响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征，然后对视频数据进行视频特征提取，得到视频数据对应的视频特征，之后将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合，最后基于融合特征集合，生成目标用户对应的状态分析信息，能够对目标用户的学习数据进行实时分析，对目标用户的音频特征和视频特征进行融合分析，使得目标用户可以及时了解在学习和训练过程中的技巧和姿态等方面，从而可以使得目标用户及时调整学习和训练状态，利用音视频数据全面分析目标用户在学习和训练过程中的状态，提高了用户在学习和训练过程中状态分析的准确性和全面性。

本领域技术人员可以理解，上述装置还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图6中未示出。

下面参考图7，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器)700的结构示意图。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征；对视频数据进行视频特征提取，得到视频数据对应的视频特征；将音频特征和视频特征输入至预训练模型的特征提取网络和多头注意力层，获取音频特征和视频特征对应的融合特征集合；基于融合特征集合，生成目标用户对应的状态分析信息。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器，包括音频特征提取模块、视频特征提取模块、获取模块和生成模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，音频特征提取模块还可以被描述为“响应于获取到目标用户的音频数据和视频数据，对音频数据进行音频特征提取，得到音频数据对应的音频特征的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种信息生成方法，所述方法包括：

响应于获取到目标用户的音频数据和视频数据，对所述音频数据进行音频特征提取，得到所述音频数据对应的音频特征；

对所述视频数据进行视频特征提取，得到所述视频数据对应的视频特征；

将所述音频特征和所述视频特征输入至预训练模型的特征提取网络和多头注意力层，获取所述音频特征和所述视频特征对应的融合特征集合；

基于所述融合特征集合，生成所述目标用户对应的状态分析信息。

2.根据权利要求1所述的方法，其中，所述对所述音频数据进行音频特征提取，得到所述音频数据对应的音频特征，包括：

基于所述音频数据，生成所述音频数据对应的频谱图像；

对所述频谱图像进行音频特征提取，得到所述音频数据对应的音频特征。

3.根据权利要求2所述的方法，其中，所述基于所述音频数据，生成所述音频数据对应的频谱图像，包括：

对所述音频数据进行模电转换和采样，得到所述音频数据对应的数字信号；

对所述数字信号进行预处理，得到所述数字信号对应的预处理音频；

对所述预处理音频进行傅里叶变换，生成所述音频数据对应的频谱图像。

4.根据权利要求1所述的方法，其中，所述对所述视频数据进行视频特征提取，得到所述视频数据对应的视频特征，包括：

基于所述视频数据，获取多种格式对应的多张视频特征图像；

分别将每种格式的多张视频特征图像输入至特征提取网络，得到每种格式的多张视频特征图像对应的初始视频特征；

基于所述每种格式的多张视频特征图像对应的初始视频特征，得到所述视频数据对应的视频特征。

5.根据权利要求4所述的方法，其中，所述基于所述视频数据，获取多种格式对应的多张视频特征图像，包括：

基于所述视频数据，获取所述视频数据的光流数据和骨骼特征点；

基于所述光流数据和所述骨骼特征点，获取多种格式对应的多张视频特征图像。

6.根据权利要求1所述的方法，其中，所述将所述音频特征和所述视频特征输入至预训练模型的特征提取网络和多头注意力层，获取所述音频特征和所述视频特征对应的融合特征集合，包括：

将所述音频特征和所述视频特征输入至预训练模型的特征提取网络，获取所述音频特征和所述视频特征对应的目标特征集合；

将所述目标特征集合输入至所述预训练模型的多头注意力层，获取所述目标特征集合的融合特征集合。

7.根据权利要求6所述的方法，其中，所述将所述音频特征和所述视频特征输入至预训练模型的特征提取网络，获取所述音频特征和所述视频特征对应的目标特征集合，包括：

对所述音频特征和所述视频特征进行归一化处理，得到所述音频特征和所述视频特征对应的初始融合特征；

将所述初始融合特征输入至预训练模型的特征提取网络，获取所述初始融合特征对应的目标特征集合。

8.根据权利要求1所述的方法，其中，所述基于所述融合特征集合，生成所述目标用户对应的状态分析信息，包括：

基于所述融合特征集合，确定出每个融合特征对应的注意力权重值；

基于所述每个融合特征对应的注意力权重值，生成所述目标用户对应的状态分析信息。

9.根据权利要求8所述的方法，其中，所述状态分析信息包括所述目标用户对应的学习状态信息；以及，所述基于所述每个融合特征对应的注意力权重值，生成所述目标用户对应的状态分析信息，包括：

获取所述音频数据和所述视频数据对应的情感预测类别；

基于所述每个融合特征对应的注意力权重值和所述情感预测类别，生成所述目标用户对应的学习状态信息。

10.根据权利要求1-9任意一项所述的方法，所述方法还包括：

基于所述目标用户在预设时间段内的状态分析信息，生成所述目标用户对应的状态曲线；

基于所述状态曲线和期望曲线，生成所述目标用户在预设时间段内的结果分析信息；

基于所述结果分析信息，生成所述目标用户对应的第一提示信息。

11.根据权利要求10所述的方法，所述方法还包括：

基于所述结果分析信息，确定所述目标用户对应的情绪类别；

基于所述情绪类别，生成对应的语音交互信息。

12.根据权利要求10所述的方法，所述方法还包括：

基于所述结果分析信息，获取所述音频数据和所述视频数据对应的标准数据；

基于所述标准数据、所述音频数据和所述视频数据，生成所述目标用户对应的第二提示信息。

13.根据权利要求10所述的方法，所述方法还包括：

基于所述结果分析信息，获取所述目标用户对应的目标音频数据和目标视频数据；

基于所述目标音频数据和所述目标视频数据，生成所述目标用户对应的目标音视频数据。

14.一种信息生成装置，所述装置包括：

音频特征提取模块，被配置成响应于获取到目标用户的音频数据和视频数据，对所述音频数据进行音频特征提取，得到所述音频数据对应的音频特征；

视频特征提取模块，被配置成对所述视频数据进行视频特征提取，得到所述视频数据对应的视频特征；

获取模块，被配置成将所述音频特征和所述视频特征输入至预训练模型的特征提取网络和多头注意力层，获取所述音频特征和所述视频特征对应的融合特征集合；

生成模块，被配置成基于所述融合特征集合，生成所述目标用户对应的状态分析信息。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。