CN116156214A

CN116156214A - 一种视频调音方法、装置、电子设备及存储介质

Info

Publication number: CN116156214A
Application number: CN202310153642.4A
Authority: CN
Inventors: 宋丹; 彭程
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-05-23

Abstract

本申请提供一种视频调音方法、装置、电子设备及存储介质，该方法包括：获得包含人体的待处理视频；通过待处理视频，获得人体的关键点特征、表情特征、语音特征以及文本特征；通过第一融合模块，将语音特征以及文本特征进行融合，获得交叉融合特征；通过第二融合模块，将关键点特征、表情特征以及交叉融合特征进行融合，获得最终特征；根据最终特征，对待处理视频进行调音处理。通过第一融合模块和第二融合模块，能够有效提取、融合各通道信号的信息，建模多通道图像与语音、文本的相关性，自动提取与目标任务强相关的高层语义特征，实现准确调音操作。利用表情识别技术，读取用户的情绪状态，并自动匹配相应的调音命令，提高调音准确率。

Description

一种视频调音方法、装置、电子设备及存储介质

技术领域

本申请涉及数字音频处理技术领域，具体而言，涉及一种视频调音方法、装置、电子设备及存储介质。

背景技术

调音技术被广泛应用于各类演播室、音视频制作以及现场演出等场景。调音效果的好坏直接关系到观众的听觉愉悦程度。目前的调音处理主要靠专业调音师靠听力来判断和调试，通过在调音台操作界面上手动操作，下发调音命令实现调音。这种方法调音的质量受硬件设备的影响以及调音师个人的影响，容易出现较大误差。

发明内容

本发明实施例的目的在于一种视频调音方法、装置、电子设备及存储介质，通过使用基于深度学习的表情识别技术，对视频中的关键点特征、表情特征、语音特征以及文本特征进行处理，获得最终特征，根据最终特征对待处理视频进行调音处理。改善硬件设备以及调音师个人对调音的影响的情况，提高调音的准确率以及效率。

第一方面，本申请实施例提供了一种视频调音方法，包括：获得包含人体的待处理视频；通过待处理视频，获得人体的关键点特征、表情特征、语音特征以及文本特征；通过第一融合模块，将语音特征以及文本特征进行融合，获得交叉融合特征；通过第二融合模块，将关键点特征、表情特征以及交叉融合特征进行融合，获得最终特征；根据最终特征，对待处理视频进行调音处理。

在上述的实现过程中，根据待处理视频中获取到待处理视频对应的关键点特征、表情特征、语音特征以及文本特征，对这些特征分别进行融合处理，从不同的维度进行相关信息的获取，融合各通道信号的信息，自动提取与目标任务强相关的高层语义特征，实现准确调音操作。

可选地，在本申请实施例中，第一融合模块包括多个依次连接的第一单元，其中，每一第一单元包括第一交叉注意力模块和第二交叉注意力模块；通过第一融合模块，将语音特征以及文本特征进行融合，获得交叉融合特征，包括：根据语音特征获得语音查询向量、语音键向量和语音值向量；以及根据文本特征获得文本查询向量、文本键向量和文本值向量；将语音查询向量、文本键向量和文本值向量，输入第一个第一单元中的第一交叉注意力模块，获得第一注意力值；将文本查询向量、语音键向量和语音值向量，输入第一个第一单元中的第二交叉注意力模块，获得第二注意力值；根据第一注意力值和第二注意力值，获得交叉融合特征。

在上述的实现过程中，每一第一单元包括第一交叉注意力模块和第二交叉注意力模块，通过两个交叉注意力模块计算协同注意机制中不同尺度语音特征和文本特征的相互关系，交叉注意力模块具有全局学习能力和良好的并行性，可以在抑制无用噪声的同时，进一步突出融合表示中的关键信息，对特征信息得到更好的处理，使调音效果更好。

可选地，在本申请实施例中，每一第一单元还包括第一前馈层和第二前馈层；根据第一注意力值和第二注意力值，获得交叉融合特征，包括：将第一注意力值输入第一前馈层，获得第一中间信息；将第二注意力值输入第二前馈层，获得第二中间信息；根据第一中间信息和第二中间信息，获得交叉融合特征。

在上述的实现过程中，通过前馈层生成中间表示信息，已获得最后的交叉融合特征，通过前馈层的设置，增强了模型的处理能力，提高调音效果。

可选地，在本申请实施例中，交叉融合特征包括多个依次连接的第二单元，每一第二单元包括第一多头注意力模块和第二多头注意力模块；通过第二融合模块，将关键点特征、表情特征以及交叉融合特征进行融合，获得最终特征，包括：将关键点特征和表情特征输入第一个第二单元中的第一多头注意力模块，获得图像融合特征；将关键点特征和交叉融合特征输入第一个第二单元中的第二多头注意力模块，获得多头融合特征；通过关键点特征、图像融合特征以及多头融合特征，获得最终特征。

在上述的实现过程中，基于深度学习的表情识别技术，读取用户的情绪状态，以及考虑到视频中人体的肢体动作，通过第二融合模型将关键点特征、表情特征以及交叉融合特征进行融合，通过多头主力已机制，使用不同序列位置的不同子空间的表征信息来进行序列数据处理，改善不同位置的子空间由于取均值的操作，模型精度低的情况。

可选地，在本申请实施例中，每一第二单元包括残差标准化层；通过关键点特征、图像融合特征以及多头融合特征，获得最终特征，包括：根据关键点特征、图像融合特征以及多头融合特征，生成融合输出特征；将融合输出特征，输入残差标准化层，获得最终特征。

在上述的实现过程中，将融合输出特征，输入残差标准化层，获得最终特征，通过残差标准化层，改善网络梯度反向传播更新参数时，造成的梯度小时的问题，使模型的效果更好，从而提高调音的准确性。

可选地，在本申请实施例中，根据最终特征，对待处理视频进行处理，包括：将最终特征输入特征映射器，获得调音矩阵；调音矩阵包括控制参数以及每一控制参数的控制值；根据调音矩阵，对待处理视频中的音频信息进行调节。

在上述的实现过程中，将最终特征输入特征映射器，获得调音矩阵，调音矩阵包括控制参数以及每一控制参数的控制值，控制参数对应于调音命令，将最终特征匹配对应的调音命令，降低硬件设备以及调音师个人对调音的影响，提高调音的准确率以及效率。

可选地，在本申请实施例中，通过待处理视频，获得人体的关键点特征、表情特征、语音特征以及文本特征，包括：基于待处理视频，获得待处理视频中的人脸图像和音频信息，以及获得待处理视频对应的文本信息；对待处理视频进行人体关键点特征提取，获得关键点特征；对人脸图像进行特征提取，获得表情特征；对音频信息进行特征提取，获得音频特征；对文本信息进行特征提取，获得文本特征。

在上述的实现过程中，获取到待处理视频之后，在对待处理视频进行调音时，不仅考虑到文本信息，例如歌词和以及音频信息对应的情感色彩，还考虑到人体的肢体动作和表情状态，使调音处理具备“情绪反馈”能力，提高调音的准确性。

第二方面，本申请实施例还提供了一种视频调音装置，包括：视频获得模块，用于获得包含人体的待处理视频；特征获取模块，用于通过待处理视频，获得人体的关键点特征、表情特征、语音特征以及文本特征；第一特征融合模块，用于通过第一融合模块，将语音特征以及文本特征进行融合，获得交叉融合特征；第二特征融合模块，用于通过第二融合模块，将关键点特征、表情特征以及交叉融合特征进行融合，获得最终特征；调音模块，用于根据最终特征，对待处理视频进行调音处理。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上面描述的方法。

采用本申请提供视频调音方法、装置、电子设备及存储介质，通过使用基于深度学习的表情识别技术，不仅考虑到文本信息以及音频信息对应的情感色彩，还考虑到人体的肢体动作和表情状态。对视频中的关键点特征、表情特征、语音特征以及文本特征进行处理，获得最终特征，根据最终特征对待处理视频进行调音处理。通过交叉注意力以及多头注意力机制，融合各通道信号的信息，自动提取与目标任务强相关的高层语义特征，实现准确调音操作，使调音效果更好。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种视频调音方法的流程示意图；

图2为本申请实施例提供的特征融合方法的流程示意图；

图3示出的本申请实施例提供的视频调音装置的结构示意图；

图4为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

在本申请实施例的描述中，技术术语“第一”、“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个及以上，除非另有明确具体的限定。

在描述本申请提供视频调音方法、装置、电子设备及存储介质之前，先对调音操作进行描述。

随着数字音频处理技术的发展，调音台由过去的模拟系统发展为今天的数字系统。数字调音台的处理对象是经过采样、量化、编码后的音频信号。与模拟系统不同的是，数字调音台多出很多控制信号，其处理范围广、灵活、精确。例如，对于动态范围上限这一参数，模拟调音系统在60dB(分贝)左右；而内部运算在32bit(比特)的数字调音系统内，动态范围上限可在168dB～192dB。另外，数字调音台可以通过图形界面完成各种复杂的调音操作。

随着网络信息技术的进一步发展，数字调音系统朝着多元化、智能化、大众化发展。一方面，专业调音师们甚至可以远距离地在微信小程序上就完成工作，另一方面，数字调音系统的应用已经从专业人员拓展到普通大众，一部分线上唱歌的用户也购置了具备调音功能的专业声卡。

当前市面上的数字调音系统种类繁多，从应用对象上来分，可以将数字调音技术分为专门针对某些乐器的调音系统和综合型调音系统。

前者基于专业调音师的经验，应用LabVIEW(实验室虚拟仪器工程平台)等软件平台开发某些种类乐器，例如钢琴、吉它等的专门调音系统，其系统结构和功能简单，这些调音系统能够对模拟生成、或真实采集的乐器音频进行数字化分析，根据专业调音师的经验确定调音操作，这种调音系统多由乐器演奏者使用。

后者多应用于专业播音环境(如音乐会、广播室)，多由专业调音师操作，输入输出复杂，涉及的参数较多，功能较强，能够满足专业级的需求。这种调音系统主要通过购置优良的硬件设备、聘请专业性强的调音师来改善调音效果。

不论是哪种数字调音系统，随着数字化、智能化进程的完善，调音系统逐渐区分为接口箱、处理单元、操作界面3个模块。其中，调音系统的处理单元模块，往往是通过DSP(Digital Signal Processing，数字信号处理)芯片来实现。目前来说，主流的调音方案，是调音师通过操作界面(硬件调音台或者软件调音台都会具备一个操作界面)上的按钮或推子，来给DSP芯片下达调音命令，DSP芯片负责执行命令，完成相关计算并输出得到的音频信号，最终实现符合要求的音质。DSP芯片的内部采用程序和数据分开的哈佛结构，具有专门的硬件乘法器，广泛采用流水线操作，提供特殊的DSP指令，可以用来快速的实现各种数字信号处理算法。

调音算法就是部署在DSP芯片上的计算机算法。传统的调音算法主要包括部署在均衡器、压限器、信号发生器等的算法。均衡器(Equalizer,EQ)对音频信号当中指定频率成分的信号分量幅度进行放大或衰减，从而形成不同风格的音乐(如流行、摇滚、金属、电子、乡村、爵士等)。压限器属于数字调音系统中动态控制部分，它降低压缩门限以上的信号的动态变化范围，其他的信号则不变，其主要用途是避免信号的强弱超出功放的正常处理范围，甚至烧毁高音扬声器，从而保护功放和扬声器。信号发生器主要用来装饰效果和测试。信号发生器产生的各种信号可以混入音频信号来实现装饰处理，而扫频信号可用来测试某个工作段所需的频响曲线。

调音师只需在调音台操作界面上手动操作(其本质是设置调音算法的各个参数并发送命令)，下达的调音命令会分别传输给均衡器、压限器、信号发生器等，DSP芯片执行相应算法并输出结果。

这样传统的调音系统一般由专业调音师靠听力来判断和调试，个性化较强。其输出音质的高低，除了受硬件设备的影响外，还受调音师的生理、心理和外部客观环境影响，易出现较大误差，且价格昂贵，不便于推广使用。因此本申请实施例提供的视频调音方法基于表情识别的调音系统，通过使用基于深度学习的表情识别技术，读取用户的情绪状态，并自动匹配相应的调音命令，改善硬件设备以及调音师个人对调音的影响的情况，提高调音的准确率以及效率。

请参见图1示出的本申请实施例提供的一种视频调音方法的流程示意图。

步骤S110：获得包含人体的待处理视频。

上述步骤S110的实施方式包括：包含人体的待处理视频可以是表演者的表演视频，例如在音乐会、广播室或舞台的歌唱表演视频，还可以是包含人体的影视剧作品。待处理视频可以是通过录制获得的视频或通过剪辑获得的视频，也可以是通过摄像机采集到的现场直播的流媒体视频。

步骤S120：通过待处理视频，获得人体的关键点特征、表情特征、语音特征以及文本特征。

上述步骤S120的实施方式包括：对待处理视频进行处理，对每一帧视频图像中的人体进行关键点特征提取，获得关键点特征。获得待处理视频中的人脸图像，通过对人脸图像进行特征提取，获得表情特征。提取待处理视频中的音频信息，音频信息包括视频中的人物的歌声或台词音频等，还可以包括歌曲伴奏等。以及获取待处理视频中的文本信息，文本信息包括视频中演唱的歌曲的歌词，以及人物的台词文本。

步骤S130：通过第一融合模块，将语音特征以及文本特征进行融合，获得交叉融合特征。

上述步骤S130的实施方式包括：将语音特征以及文本特征输入第一融合模块，将语音特征以及文本特征进行融合，获得交叉融合特征。其中，特征融合的方式包括通过多个注意力模块进行计算，获得表征两个特征相互关系的交叉融合特征；还可以通过将语音特征的文本特征相加或拼接等方法实现特征融合。

步骤S140：通过第二融合模块，将关键点特征、表情特征以及交叉融合特征进行融合，获得最终特征。

上述步骤S140的实施方式包括：利用第二融合模块，将关键点特征、表情特征以及交叉融合特征进行融合，具体例如，先将关键点特征和表情特征进行融合，再将上述获得输出与交叉融合特征进行融合，获得最终特征。还可以是三种特征之间两两融合，然后再次进行融合特征之间的计算，获得最终特征。特征融合的方式包括通过多个注意力模块进行计算，还可以通过将语音特征的文本特征相加或拼接等方法实现特征融合。

步骤S150：根据最终特征，对待处理视频进行调音处理。

上述步骤S150的实施方式包括：根据最终特征，获得最终特征对应的调节参数或调节命令，根据调节参数或调节命令，对待处理视频进行调音处理。

请参见图2示出的本申请实施例提供的特征融合方法的流程示意图。

在具体的实现过程中：第一融合模块包括多个依次连接的第一单元，其中，每一第一单元包括第一交叉注意力模块和第二交叉注意力模块；可以理解的，第一单元的个数可以是3个，也可以是更多或更少。本实施例通过以第一融合模块包括3个依次连接的第一单元为例进行描述。

根据语音特征，通过矩阵变换，获得语音查询向量、语音键向量和语音值向量。将语音查询向量、文本键向量和文本值向量，输入第一个第一单元中的第一交叉注意力模块，其中，第一个第一单元为连接特征提取模块的单元。共同注意机制从它们自己的模式获得查询矩阵，而从相反的模式获得键和值矩阵来执行交叉注意，具体例如，第一个第一单元的输入从上到下依次是语音查询向量、文本键向量和文本值向量，在经过一个前馈层，获得第一次迭代的语音特征向量。

根据第一次迭代的语音特征，获得对应的查询向量、键向量和值向量，从上到下依次输入第二个第一单元中的交叉注意力模块，经过一个前馈层，获得第二次迭代的语音特征。其中，第二个第一单元与第一个第一单元连接。

根据第二次迭代的语音特征，获得对应的查询向量、键向量和值向量，从上到下依次输入第三个第一单元中的交叉注意力模块，经过一个前馈层，获得第一注意力值。其中，第三个第一单元与第二个第一单元连接。

第一注意力值计算公式如下所示：

其中，q表示语音查询向量Query，k表示文本键向量Key，v表示文本值向量Value，

表示尺度标度。

首先q与k进行点乘，为防止结果过大，除以一个尺度标度

d_k为q和k的向量维度，再利用softmax函数将结果归一化成概率分布，最终乘以矩阵v得到权重求和，获得第一注意力值。

根据文本特征，通过矩阵变换，获得文本查询向量、文本键向量和文本值向量。将文本查询向量、语音键向量和语音值向量，输入第一个第二单元中的第一交叉注意力模块，获得第一个第二单元的输出特征，第一个第二单元的输出特征一次经过第二个第二单元以及第三个第二单元的计算，获得第二注意力值。

将第三次迭代的语音特征与第三次迭代的文本特征进行相加，获得交叉融合特征。

在上述的实现过程中，每一第一单元包括第一交叉注意力模块和第二交叉注意力模块，通过两个交叉注意力模块计算协同注意机制中不同尺度语音特征和文本特征的相互关系，交叉注意力模块具有全局学习能力和良好的并行性，可以在抑制无用噪声的同时，进一步突出融合表示中的关键信息，使特征信息得到更好的处理，使调音效果更好。

在具体的实现过程中：每一第一单元还包括第一前馈层和第二前馈层；前馈层在每个节点中计算权重和输入的乘积之和，根据乘积之和激活神经元。通过前馈层生成中间表示信息，已获得最后的交叉融合特征，通过前馈层的设置，增强了模型的处理能力，提高调音效果。

在具体的实现过程中：交叉融合特征包括多个依次连接的第二单元，每一第二单元包括第一多头注意力模块和第二多头注意力模块。第二单元的数量可以为2个，也可以是更多。本实施例通过以第二融合模块包括2个依次连接的第二单元为例进行描述。

将关键点特征和表情特征输入第一个第二单元中的第一多头注意力模块，获得输出；将第一个第二单元中第一多头注意力的输出，输入第二个第二单元中第一多头注意力模块，获得图像融合特征。

将关键点特征和交叉融合特征输入第一个第二单元中的第二多头注意力模块，获得输出；将第一个第二单元中的第二多头注意力模块的输出，输入第二个第二单元中的第二多头注意力模块，获得多头融合特征。

多头自注意力利用多次并行查询从输入信息中提取到多组不同子空间进行相关信息的获取，从多方面捕获序列的关键信息。其计算方式如下：

其中，Q表示查询向量矩阵，K为键向量矩阵，V为值向量矩阵，W_Q表示查询向量矩阵的转换矩阵，W_K表示键向量矩阵的转换矩阵，W_V表示值向量矩阵的转换矩阵，S表示特征抽取层的输出。

首先，将特征抽取层的输出S线性变换生成查询向量矩阵Q、键向量矩阵K、值向量矩阵V。将Q、K、V投影到h个不同子空间。

其中，Q₁表示第1个查询向量矩阵，K₁为第1个键向量矩阵，V₁为第1个值向量矩阵，

表示为Q的第i个转换矩阵，/>

表示为K的第i个转换矩阵、/>

表示V的第i个转换矩阵。

其中，head_i表示单头的注意力值，d是缩放因子。

通过缩放点积对Q_i和K_i进行内积运算，并使用softmax函数归一化后与V_i相乘，得到单头的注意力值head_i，并行地在h个子空间上计算注意力，将Q、K的内积变为标准的正态分布。最后融合所有子空间的注意力值。

A(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，A(Q，K，V)为所有子空间的注意力值，W^O为转换矩阵。

输出层采用softmax分类器计算劣化度，公式如下所示：

其中，

表示劣化度，/>

表示最终特征。

在具体的实现过程中：每一第二单元包括残差标准化层，残差标准化层包括归一化层和前馈层。将第一多头注意力的输出图像融合特征以及第二多头注意力的输出多头融合特征与关键点特征相加，获得融合输出特征。

将融合输出特征输入归一化层和前馈层，获得最终特征。其中，前馈层用于将信息传递的更深，增强模型的拟合能力。归一化层对每一层计算后的数值进行规范化，提升模型表现。

在上述的实现过程中，将融合输出特征，输入残差标准化层，获得最终特征，通过残差标准化层，改善网络梯度反向传播更新参数是，造成的梯度小时的问题，使模型的效果更好，从而提高调音的准确性。

在具体的实现过程中：将最终特征输入特征映射器，获得调音矩阵，其中特征映射器包括全连接层。调音矩阵包括控制参数以及每一控制参数的控制值，具体例如表1所示，表1为调音矩阵。

控制参数	GAIN	HIGH	LOW	PAN	EFX.SEND	right	…	PAD
									控制值	1	0.1	0.3	0	0.4	1		1

表1为调音矩阵

其中，控制参数GAIN为输入信号增益控制，控制参数GAIN对应的控制值为1；控制参数HIGH为高音电平控制，控制参数HIGH对应的控制值为0.1；控制参数LOW为低音电平控制，控制参数LOW对应的控制值为1；控制参数PAN为相位控制，控制参数PAN对应的控制值为1；控制参数EFX.SEND为分路效果信号控制，控制参数EFX.SEND对应的控制值为1；控制参数RIGHT为右路信号电平控制，控制参数RIGHT对应的控制值为1。

请参见表2示出的本申请实施例提供的控制参数以及参数说明。

调音矩阵的控制包含但不限于表2内容，每个参数的控制范围可以在0到1之间；如果是开关项的控制参数，则控制值0代表关，控制值1代表开。

/>

表2控制参数名称以及参数说明

在具体的实现过程中：基于待处理视频，获得待处理视频中的人脸图像和音频信息，以及获得待处理视频对应的文本信息。对待处理视频进行人体关键点特征提取，获得关键点特征，具体例如，获取视频中的目标人物或所有人的动作信息，先经过动作编码器，然后经过解码器，解码器由多层反卷积组成，再通过注意力机制获取该段视频中人物的自注意力特征，即关键点特征。

对人脸图像进行特征提取，获得表情特征；具体例如，从待处理视频中提取到的人脸图像，用以提取人脸信息，先经过表情编码器，然后经过对应的解码器，然后通自过注意力机制获取人脸表情的注意力特征，即表情特征。

对音频信息进行特征提取，获得音频特征；具体例如，提取待处理视频中的音频信息，音频信息包括视频中的人物的歌声或台词音频等，还可以包括歌曲伴奏，依次经过音频编码器和对应的解码器，通过特征提取层获得音频特征。对文本信息进行特征提取，获得文本特征。将文本信息一次经过文本编码器和对应的解码器，以及通过特征提取层获得文本特征。

可选地，在本申请实施例中，在获得包含人体的待处理视频之前，方法还包括：将训练视频输入预设的神经网络模型，获得训练特征；通过预设的损失函数，根据训练特征，对神经网络模型进行反馈训练，获得视频调音模型；视频调音模型包括第一融合模块和第二融合模块。

具体例如，将预设的神经网络模型输入表演者的视频片段和该片段包含的人脸、对应的声音和歌词。通过编码器、卷积网络、第一融合模块和第二融合模块，获得该段视频的强表现力的特征，最后采用均方误差损失。前向传播得到各支路输出后根据上述损失函数计算梯度，进行反馈训练，迭代至模型收敛。

获得视频调音模型之后，可以对模型进行测试，将视频调音模型输入表演者的视频片段和该片段包含的人脸、对应的声音和歌词，输出为该段视频对应的调音矩阵。

通过第一融合模块和第二融合模块，能够有效提取、融合各通道信号的信息，建模多通道图像与语音、文本的相关性，自动提取与目标任务强相关的高层语义特征，实现准确调音操作。现有的调音方法无法充分形成与用户的良好互动，不论用户的精神和情绪状态如何(例如悲喜忧乐)，调音算法都无法根据用户的情绪进行调音，本申请实施例的视频调音方法通过使用基于深度学习的表情识别技术，读取用户的情绪状态，并自动匹配相应的调音命令，使调音系统具备“情绪反馈”能力。

请参见图3示出的本申请实施例提供的视频调音装置的结构示意图；本申请实施例提供了一种视频调音装置200，包括：

视频获得模块210，用于获得包含人体的待处理视频；

特征获取模块220，用于通过待处理视频，获得人体的关键点特征、表情特征、语音特征以及文本特征；

第一特征融合模块230，用于通过第一融合模块，将语音特征以及文本特征进行融合，获得交叉融合特征；

第二特征融合模块240，用于通过第二融合模块，将关键点特征、表情特征以及交叉融合特征进行融合，获得最终特征；

调音模块250，用于根据最终特征，对待处理视频进行调音处理。

可选地，在本申请实施例中，视频调音装置，第一融合模块包括多个依次连接的第一单元，其中，每一第一单元包括第一交叉注意力模块和第二交叉注意力模块；第一特征融合模块230，具体用于根据语音特征获得语音查询向量、语音键向量和语音值向量；以及根据文本特征获得文本查询向量、文本键向量和文本值向量；将语音查询向量、文本键向量和文本值向量，输入第一个第一单元中的第一交叉注意力模块，获得第一注意力值；将文本查询向量、语音键向量和语音值向量，输入第一个第一单元中的第二交叉注意力模块，获得第二注意力值；根据第一注意力值和第二注意力值，获得交叉融合特征。

可选地，在本申请实施例中，视频调音装置，每一第一单元还包括第一前馈层和第二前馈层；第一特征融合模块230，还用于将第一注意力值输入第一前馈层，获得第一中间信息；将第二注意力值输入第二前馈层，获得第二中间信息；根据第一中间信息和第二中间信息，获得交叉融合特征。

可选地，在本申请实施例中，视频调音装置，交叉融合特征包括多个依次连接的第二单元，每一第二单元包括第一多头注意力模块和第二多头注意力模块；第二特征融合模块240，具体用于将关键点特征和表情特征输入第一个第二单元中的第一多头注意力模块，获得图像融合特征；将关键点特征和交叉融合特征输入第一个第二单元中的第二多头注意力模块，获得多头融合特征；通过关键点特征、图像融合特征以及多头融合特征，获得最终特征。

可选地，在本申请实施例中，视频调音装置，每一第二单元包括残差标准化层；第二特征融合模块240，还用于根据关键点特征、图像融合特征以及多头融合特征，生成融合输出特征；将融合输出特征，输入残差标准化层，获得最终特征。

可选地，在本申请实施例中，视频调音装置，调音模块250，具体用于将最终特征输入特征映射器，获得调音矩阵；调音矩阵包括控制参数以及每一控制参数的控制值；根据调音矩阵，对待处理视频中的音频信息进行调节。

可选地，在本申请实施例中，视频调音装置，特征获取模块220，具体用于基于待处理视频，获得待处理视频中的人脸图像和音频信息，以及获得待处理视频对应的文本信息；对待处理视频进行人体关键点特征提取，获得关键点特征；对人脸图像进行特征提取，获得表情特征；对音频信息进行特征提取，获得音频特征；对文本信息进行特征提取，获得文本特征。

应理解的是，该装置与上述的视频调音方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300，包括：处理器310和存储器320，存储器320存储有处理器310可执行的机器可读指令，机器可读指令被处理器310执行时执行如上的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-OnlyMemory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种视频调音方法，其特征在于，包括：

获得包含人体的待处理视频；

通过所述待处理视频，获得所述人体的关键点特征、表情特征、语音特征以及文本特征；

通过第一融合模块，将所述语音特征以及文本特征进行融合，获得交叉融合特征；

通过第二融合模块，将所述关键点特征、所述表情特征以及所述交叉融合特征进行融合，获得最终特征；

根据所述最终特征，对所述待处理视频进行调音处理。

2.根据权利要求1所述的方法，其特征在于，所述第一融合模块包括多个依次连接的第一单元，其中，每一所述第一单元包括第一交叉注意力模块和第二交叉注意力模块；所述通过第一融合模块，将所述语音特征以及文本特征进行融合，获得交叉融合特征，包括：

根据所述语音特征获得语音查询向量、语音键向量和语音值向量；以及根据所述文本特征获得文本查询向量、文本键向量和文本值向量；

将所述语音查询向量、所述文本键向量和文本值向量，输入第一个第一单元中的第一交叉注意力模块，获得第一注意力值；

将所述文本查询向量、语音键向量和语音值向量，输入第一个第一单元中的第二交叉注意力模块，获得第二注意力值；

根据所述第一注意力值和所述第二注意力值，获得所述交叉融合特征。

3.根据权利要求2所述的方法，其特征在于，每一所述第一单元还包括第一前馈层和第二前馈层；所述根据所述第一注意力值和所述第二注意力值，获得所述交叉融合特征，包括：

将所述第一注意力值输入所述第一前馈层，获得第一中间信息；

将所述第二注意力值输入所述第二前馈层，获得第二中间信息；

根据所述第一中间信息和第二中间信息，获得所述交叉融合特征。

4.根据权利要求1所述的方法，其特征在于，所述交叉融合特征包括多个依次连接的第二单元，每一所述第二单元包括第一多头注意力模块和第二多头注意力模块；所述通过第二融合模块，将所述关键点特征、所述表情特征以及所述交叉融合特征进行融合，获得最终特征，包括：

将所述关键点特征和所述表情特征输入第一个第二单元中的第一多头注意力模块，获得图像融合特征；

将所述关键点特征和所述交叉融合特征输入第一个第二单元中的第二多头注意力模块，获得多头融合特征；

通过所述关键点特征、所述图像融合特征以及所述多头融合特征，获得所述最终特征。

5.根据权利要求4所述的方法，其特征在于，所述每一所述第二单元包括残差标准化层；所述通过所述关键点特征、所述图像融合特征以及所述多头融合特征，获得所述最终特征，包括：

根据所述关键点特征、所述图像融合特征以及所述多头融合特征，生成融合输出特征；

将所述融合输出特征，输入所述残差标准化层，获得所述最终特征。

6.根据权利要求1所述的方法，其特征在于，根据所述最终特征，对所述待处理视频进行处理，包括：

将所述最终特征输入特征映射器，获得调音矩阵；所述调音矩阵包括控制参数以及每一所述控制参数的控制值；

根据所述调音矩阵，对所述待处理视频中的音频信息进行调节。

7.根据权利要求1-6任一所述的方法，其特征在于，所述通过所述待处理视频，获得所述人体的关键点特征、表情特征、语音特征以及文本特征，包括：

基于所述待处理视频，获得所述待处理视频中的人脸图像和音频信息，以及获得所述待处理视频对应的文本信息；

对所述待处理视频进行人体关键点特征提取，获得所述关键点特征；

对所述人脸图像进行特征提取，获得所述表情特征；

对所述音频信息进行特征提取，获得所述音频特征；

对所述文本信息进行特征提取，获得所述文本特征。

8.一种视频调音装置，其特征在于，包括：

视频获得模块，用于获得包含人体的待处理视频；

特征获取模块，用于通过所述待处理视频，获得所述人体的关键点特征、表情特征、语音特征以及文本特征；

第一特征融合模块，用于通过第一融合模块，将所述语音特征以及文本特征进行融合，获得交叉融合特征；

第二特征融合模块，用于通过第二融合模块，将所述关键点特征、所述表情特征以及所述交叉融合特征进行融合，获得最终特征；

调音模块，用于根据所述最终特征，对所述待处理视频进行调音处理。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。