CN116705076A

CN116705076A - 数据处理方法、装置、设备、介质及程序产品

Info

Publication number: CN116705076A
Application number: CN202310799185.6A
Authority: CN
Inventors: 黄子龙; 范会善; 余学武; 王炼; 周永吉; 章铃娜; 姜京京; 赵新阳; 贺文明
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-05

Abstract

本申请公开了一种数据处理方法、装置、设备、介质及程序产品，该方法包括：能够在获取到目标音频数据的情况下，获取人脸关键点预测模型，人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，第一特征提取网络包括多头注意力机制；将目标音频参数分别输入至N个第一特征提取网络，通过N个第一特征提取网络得到目标音频参数的N组不同的第一目标音频特征，目标音频参数为从目标音频数据中提取的参数；根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征；将第一关键音频特征输入至关键点预测网络，通过关键点预测网络，得到人脸关键点。人脸关键点预测的准确性高。

Description

数据处理方法、装置、设备、介质及程序产品

技术领域

本申请属于计算机技术领域，尤其涉及一种数据处理方法、装置、设备、介质及程序产品。

背景技术

目前人工智能技术和增强现实(Augmented Reality，AR)智能技术正在飞速发展，互联网用户的内容摄取需求越来越丰富，针对动画，虚拟数字人，AR等内容的需求越加强烈。

现有技术中，现有技术中，通常采用卷积神经网络(CNN)或循环神经网络(RNN)等深度学习模型，以音视频作为深度学习模型的输入，通过深度学习模型输出对人脸面部关键点进行预测。但是深度学习模型复杂度高、参数多，需要大量的训练数据绝对模型进行训练，在训练数据不足的情况下，模型识别的准确性较低。

现有的人脸关键点预测方法准确性较低。

发明内容

本申请实施例提供一种数据处理方法、装置、设备、介质及程序产品，能够提高人脸关键点预测的准确性。

一方面，本申请实施例提供一种数据处理方法，方法包括：

在获取到目标音频数据的情况下，获取人脸关键点预测模型，所述人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，N为大于1的正整数，所述第一特征提取网络包括多头注意力机制；

将目标音频参数分别输入至所述N个第一特征提取网络，通过所述N个第一特征提取网络得到所述目标音频参数的N组第一目标音频特征，所述N组第一目标音频特征为不同音频特征，所述目标音频参数为从所述目标音频数据中提取的参数；

根据所述N组第一目标音频特征，利用所述第一残差网络得到第一关键音频特征；

将所述第一关键音频特征输入至所述关键点预测网络，通过所述关键点预测网络，得到所述目标音频数据对应的人脸关键点。

另一方面，本申请实施例提供了一种数据处理装置，装置包括：

模型获取模块，用于在获取到目标音频数据的情况下，获取人脸关键点预测模型，所述人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，N为大于1的正整数，所述第一特征提取网络包括多头注意力机制；

第一特征提取模块，用于将目标音频参数分别输入至所述N个第一特征提取网络，通过所述N个第一特征提取网络得到所述目标音频参数的N组第一目标音频特征，所述N组第一目标音频特征为不同音频特征，所述目标音频参数为从所述目标音频数据中提取的参数；

第二特征提取模块，用于根据所述N组第一目标音频特征，利用所述第一残差网络得到第一关键音频特征；

预测模块，用于将所述第一关键音频特征输入至所述关键点预测网络，通过所述关键点预测网络，得到所述目标音频数据对应的人脸关键点。

再一方面，本申请实施例提供了一种数据处理设备，设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如上述数据处理方法。

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如上述所述的数据处理方法。

再一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如上述数据处理方法。

本申请实施例的数据处理方法、装置、设备及计算机存储介质，能够在获取到目标音频数据的情况下，获取人脸关键点预测模型，人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，第一特征提取网络包括多头注意力机制；将目标音频参数分别输入至N个第一特征提取网络，通过N个第一特征提取网络得到目标音频参数的N组不同的第一目标音频特征，目标音频参数为从目标音频数据中提取的参数；根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征；将第一关键音频特征输入至关键点预测网络，通过关键点预测网络，得到人脸关键点。通过N个包括多头注意力机制的特征提取网络，可以提取目标音频参数的多组不同的音频特征，再将多组音频特征通过残差网络得到关键音频特征，通过关键音频特征预测音频参数对应的人脸关键点，人脸关键点预测的准确性高。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的数据处理方法的流程示意图；

图2是本申请一个实施例提供的第一特征提取网络示意图；

图3是本申请另一个实施例提供的第一特征提取网络示意图；

图4是本申请一个实施例提供的人脸关键点预测模型示意图；

图5是本申请一个实施例提供的数据处理装置的结构示意图；

图6是本申请一个实施例提供的数据处理设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

全连接层(Fully Connected Layer)，也称为密集连接层或线性层，是神经网络中一种常见的层类型。它的作用是将输入层或前一层的所有神经元与当前层的所有神经元进行连接。

多头注意力机制(Multi-head Attention)是一种在自注意力机制(Self-Attention)基础上扩展的注意力机制，常用于序列建模任务，如机器翻译和语言生成。它允许模型在不同的特征表示空间上使用多个自注意力机制，并将它们的输出进行融合。通过使用多个注意力头，模型可以同时关注不同的特征，以更好地捕捉输入序列中的信息。这种并行处理的方式也有助于提升计算效率，并增加模型的表达能力。

函数激活层(Activation Layer)是神经网络中的一种常见层类型，用于在神经网络中引入非线性。它通过对输入数据进行点-wise的非线性变换，将线性变换后的输出映射到另一个空间。

内积操作层(Inner Product Layer)，该层对输入数据进行线性变换，并将其映射到输出空间。内积操作层的核心操作是进行矩阵乘法和偏置相加。内积操作层常用于神经网络的前馈过程(Feedforward Process)。在深层神经网络中，通常会有多个连续的内积操作层，以逐渐提取和组合输入数据的特征。内积操作层之间通常会插入非线性激活函数层，如ReLU、Sigmoid或Tanh，以增加网络的非线性建模能力。

残差计算(Residual Calculation)是指在深度学习中使用残差连接(ResidualConnection)时的一种计算方式。即在深度学习中利用残差连接建立跳跃连接的计算方式，通过将输入与主要的非线性变换的输出相加，将信息直接传递到后续层。这种技术有助于解决梯度消失和模型退化问题，提高深度神经网络的训练和性能。

批标准化(Batch Normalization)是一种神经网络优化技术，旨在提高训练过程中的稳定性和收敛速度。它通过对每个小批量数据进行标准化，使得网络在不同层之间的输入分布保持稳定。在深层神经网络中，随着信号在网络中传播，每一层的输入分布可能会发生变化，这被称为“内部协变量偏移”(Internal Covariate Shift)。内部协变量偏移可能导致网络难以收敛，需要更小的学习率，并且对初始化参数的选择非常敏感。批标准化通过在每个小批量数据上计算均值和标准差，并将数据进行标准化，来解决内部协变量偏移。

合并级联(Merging and Concatenation)是指在深度学习中将多个层或特征图(feature map)进行合并或连接的操作。级联合并可以用于不同的任务和网络架构，例如多尺度特征融合、残差网络、注意力机制等。

在级联合并过程中，通常有以下两种主要方式：

级联(Concatenation)：将两个或多个层的输出按照维度进行拼接。例如，如果两个特征图的尺寸为[h,w,c1]和[h,w,c2]，则级联后的特征图尺寸为[h,w,c1+c2]。这种方式可以将不同层或特征图的信息在通道维度上进行拼接，从而提供更丰富的特征表示。

加法(Addition)：将两个或多个层的输出按元素进行相加。在残差网络中，通过添加一个跳跃连接将原始输入与经过变换的输出进行相加，得到最终的输出。这样可以使网络学习到输入与输出之间的残差，进一步改善模型性能。

在唇音识别领域，以音视频作为深度学习模型的输入，输出数字人面部表情以及唇音同步技术，在深度学习模型训练以及模型优化中存在如下问题：

1.深度学习网络端采用卷积神经网络或循环神经网络，模型较为复杂，训练缓慢，模型参数众多。

2.深度学习网络端采用卷积神经网络或循环神经网络训练效果不佳且对算力要求高。

3.当前唇音识别、面部表情情绪识别领域系统中训练数据量有限，导致模型最终测试中对于新样本适应不够，模型泛化能力较差。

基于上述研究，为了解决现有技术问题，本申请实施例提供了一种数据处理方法、装置、设备及计算机存储介质。

下面首先对本申请实施例所提供的数据处理方法进行介绍。

图1示出了本申请一个实施例提供的数据处理方法的流程示意图。如图1所示，本申请实施例提供的数据处理方法包括以下步骤：S101至S105：

S101、在获取到目标音频数据的情况下，获取人脸关键点预测模型，人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，N为大于1的正整数，第一特征提取网络包括多头注意力机制。

S102、将目标音频参数分别输入至N个第一特征提取网络，通过N个第一特征提取网络得到目标音频参数的N组第一目标音频特征，N组第一目标音频特征为不同音频特征，目标音频参数为从目标音频数据中提取的参数。

S103、根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征。

S104、将第一关键音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。

本申请实施例的数据处理方法，能够能够在获取到目标音频数据的情况下，获取人脸关键点预测模型，人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，第一特征提取网络包括多头注意力机制；将目标音频参数分别输入至N个第一特征提取网络，通过N个第一特征提取网络得到目标音频参数的N组不同的第一目标音频特征，目标音频参数为从目标音频数据中提取的参数；根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征；将第一关键音频特征输入至关键点预测网络，通过关键点预测网络，得到人脸关键点。通过N个包括多头注意力机制的特征提取网络，可以提取目标音频参数的多组不同的音频特征，再将多组音频特征通过残差网络得到关键音频特征，通过关键音频特征预测音频参数对应的人脸关键点，人脸关键点预测的准确性高。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，该计算机设备包括但不限于终端设备，或业务服务器。

下面首先对本申请实施例所提供的数据处理方法的步骤进行介绍。

在S101中，在获取到目标音频数据的情况下，获取人脸关键点预测模型。

具体地，以执行主体为计算机设备为例。计算机设备可以获取目标音频数据。当目标音频数据存储在本地时，自行从文件中提取目标音频数据；可选的，当目标音频数据存储在其他计算机设备上时，可由其他计算机设备发送至本地进行处理，本申请实施例对目标音频数据的获取方式不做限定。

进一步地，在获取目标音频数据时，终端设备可以获取用于对该目标音频数据进行人脸关键点预测的人脸关键点预测模型。

其中，人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，N为大于1的正整数，第一特征提取网络包括多头注意力机制。

多头注意力机制(Multi-head Attention)是一种用于增强模型表征能力的注意力机制。在传统的注意力机制中，通过计算查询(query)、键(key)和值(value)之间的相似度来获取注意力分布，然后将值与注意力分布进行加权求和得到输出。而多头注意力机制则引入了多个注意力头(attention head)，每个头都有自己独立的查询、键和值，通过并行地计算注意力分布，最后再将不同头的输出进行拼接或线性变换，得到最终的注意力表示。通过引入多头注意力机制，特征提取网络可以同时关注不同位置和语义层次的信息，从而更好地捕获任务相关的特征。每个注意力头可以学习不同的权重分布，提供更丰富的表征能力。此外，多头注意力还可以并行计算，提高模型的训练和推断效率。

在一些实施例中，上述目标音频参数可以通过以下步骤得到：

获取目标音频数据；

将目标音频数据输入至线性预测编码模型中，通过线性预测编码模型从目标音频数据中提取目标音频参数。

其中，线性预测编码(Linear Predictive Coding,LPC)是一种语音信号压缩技术，用于将语音信号编码成更高效的表示形式以减少存储空间或传输带宽。因此通过线性预测编码模型可以提取目标音频数据中语音信号的频谱特征，从而可以提取出目标音频数据的目标音频参数。

在一个示例中，目标音频参数可以是音频数据的共振峰频率、带宽等特征的相关参数。

在本实施例中，可以利用线性预测模型对目标音频数据进行参数化，得到目标音频数据的目标音频参数。

在上述S102中，将目标音频参数分别输入至N个第一特征提取网络，通过N个第一特征提取网络得到目标音频参数的N组第一目标音频特征。

第一特征提取网络用于从目标音频数据的目标音频参数中提取出第一目标音频特征。

进一步，利用N个第一特征提取网络可以从目标音频参数中获取N组第一目标音频特征，并且由于各第一特征提取网络中的多头注意力中，各个注意力头可以分别计算对应的注意力分布，由此可以得到的多组不同的第一目标音频特征，从而可以从目标音频数据中提取出更加丰富的音频特征。

在一个示例中，上述第一特征提取网络如图2所示的由多头注意力机制组件构成。多头注意力机制包括3个注意力机制(全连接层2、全连接层3、全连接层5所在路的的注意力机制)；各注意力机制通过合并级联操组件1连接，其中以全连接层2所在路的注意力机制为例，该注意力机制包含全连接层2，激活函数层1(示例：Activation1(Softmax))，以及内积操作层1(示例：Multiply1(Activation1,Dense1))。

全连接层2主要获取从全连接层1的特征信息进行传递，其中全连接层1输出的目标音频参数，将目标音频参数输入至全连接层2，全连接层2所在的一路注意力机制通过激活函数层1中Softmax操作，将网络层中数据向量归一化为一个概率分布向量，且各个概率之和为1，然后在内积操作层1中对激活函数层1的输出和全连接层1的输出进行矩阵运算内积相乘，得到注意力机制的输出值。每一路注意力机制得到的输出值，输入至合并级联操组件1，合并级联操组件1将3个注意力机制的输出值进行合并级联操作得到第一目标音频特征。合并级联(concatenate)可有效将特征提取的注意力集中在一些更关键有用的音频特征

在上述S103中，根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征。

通过第一残差网络，可将第一特征提取网络的输入值(目标音频参数)和输出值(第一目标音频特征)进行残差计算得到关键音频特征。残差计算即网络层内进行线性叠加运算，通过残差计算整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。

例如第一残差网络，可以包括图3中的残差计算组件1、残差计算组件2，可选地，还可以包括批标准化层。

在一些实施例中，目标音频参数包括N个子音频参数，第一残差网络包括N个残差计算组件，上述S103，可以包括：

根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征，包括：

在i等于1的情况下，将第1子音频参数、第1组第一目标音频特征输入至第1残差计算组件，通过第1残差计算组件得到第1差异特征，

其中，i为正整数，N个子音频参数包括第1子音频参数，第1组第一目标音频特征为将第1子音频参数输入至第1个第一特征提取网络得到的音频特征，N个残差计算组件包括第1残差计算组件，N个第一特征提取网络包括第1个第一特征提取网络；

在i大于1且小于等于N的情况下，将第i子音频参数、第i组第一目标音频特征和第i-1差异特征输入至第i个残差计算组件，通过第i个残差计算组件得到第i差异特征，

其中，第i组第一目标音频特征为将第i子音频参数输入至第i个第一特征提取网络得到的第一目标音频特征，N个第一特征提取网络包括第i个第一特征提取网络，第i-1差异特征为通过第i-1个残差计算组件得到的子差异特征，N个残差计算组件包括第i-1残差计算组件和第i残差计算组件；

将i的值更新为i+1，返回执行在i大于1且小于等于N的情况下，将第i子音频参数、第i组音频特征和第i-1差异特征输入至第i个残差计算组件，通过第i个残差计算组件得到第i子差异特征的步骤，直到i大于N；

将第i差异特征确定为第一关键音频特征。

具体地，实现了根据子音频参数和目标音频特征计算差异特征的流程。每个步骤依赖于前一个步骤的输出，并通过更新i的值循环执行，直到计算出最终的第一关键音频特征。即通过多头注意力机制结合多个残差计算组件，解决模型梯度消失和网络退化的问题；并且可以提取更多音频数据的关键特征。

在一个示例中，如图3所示假设N为2，则上述S102至S103，具体可以包括如下步骤：

S301：采用并行的多特征输入，基于线性预测编码特征LPC获取目标音频参数。可以通过全局平均池化组件(GlobalAveragePooling)多目标音频参数进行降维，全局平均池化是一种结构化正则操作，它将前面网络层带帧数、特征与通道数的三个维度特征信息，通过数据变化压缩操作成为扁平化的一维数据，方便后续全连接层进行权重调整。通过GlobalAveragePooling操作将输入的三维数据转为一维数据。

S302：全连接层组件。为承接网络前所有层操作变换的特征信息，且与将网络层参数更好过渡到网络输出的标签点位数。设置了256个数据点位，通过该全连接层进行权重优化，承接前层全局平均池化特征信息，全连接层达到输入训练特征信息与多头注意力机制的良好的联系过渡作用。

其中，第一特征提取组件，包括多头注意力机制组件。多头注意力机制由3个注意力机制通过Concat合并级联操作组成，其中以全连接层2所在路的注意力机制为例，该注意力机制包含一个全连接层全连接层2，激活函数层Activation1(Softmax)，以及Multiply1(Activation1,全连接层1)内积操作，全连接层全连接层2主要获取从全连接层1的特征信息进行传递。

S303、合并级联层1后接一个全连接层进行过渡作用，接着使用残差连接(即第一残差组件)将全连接层1,全连接层5进行线性叠加运算，通过残差计算整个网络学习全连接层1,全连接层5输入、输出差别的那一部分，最后进行批标准化1将数据分成小批小批进行随机梯度下降处理。

S304，残差组件2(第二残差组件)。残差组件2将批标准化1的输出,全连接层6的输出，全连接层10的输出，进行残差计算，得到第一关键音频特征。还可以对第一关键音频特征进行批标准化处理(如批标准化2)

在上述S104中，将第一关键音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。

其中，关键点预测网络是一种能够从给定输入(如音频、视频或图像)中预测人脸关键点的模型。它能够分析音频或视频数据并生成与之对应的人脸关键点坐标。这些关键点可以用于识别面部表情、姿势估计、人脸识别等任务。通过关键点预测网络将第一关键音频特征映射为人脸关键点。具体的实现方法因使用的网络架构和训练数据集而有所不同。可以根据实际任务需求的关键点预测网络，并基于该网络进行模型训练和预测。

在一些实施例中，人脸关键点预测模型还包括第一融合组件，

上述S103之后，还包括：

获取第一目标情绪参数，第一目标情绪参数为从目标音频数据中提取的参数；

将第一目标情绪参数和第一关键音频特征输入至第一融合组件，通过第一融合组件对第一目标情绪参数和第一关键音频特征进行合并级联操作，得到第二目标音频特征；

上述S104，包括：

将第二目标音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。

在本实施例中，加入同一音频数据的第一情绪参数；将第一情绪参数与第一融合特征进行合并，增加语音数据的情绪特征。

其中，第一情绪向量，情绪向量的输入为类型为[？,258]的高斯白噪音分布数据，其中258为高斯白噪音分布数据维数，本申请中设计为258，可根据不同模型需求修改该参数。

在模型训练过程中，针对带情绪的输入样本，为了音频同步面部表情更加自然贴合，首轮输入的高斯白噪音采样数据为随机生成，训练过程中通过与音频特征在网络中不断更新权重，不断调整优化后续的情绪向量矩阵。训练将不同情绪数据下学习到的情绪特征向量组合构成了情绪状态矩阵，后续与第一关键音频特征进行合并级联处理。

可选地，情绪特征参数可以通过音频数据的声学特征进行分析和提取。例如：声调分析、能量分析、频谱分析、语速分析、声音质量分析等等，还可以利用机器学习算法和情感分析模型来从音频中提取更具体和准确的情绪特征。

在一些实施例中，人脸关键点预测模型还包括第二特征提取网络和第二残差网络，第二特征提取网络包括多头注意力机制，

上述将第一目标情绪参数和第一关键音频特征输入至第一融合组件，通过第一融合组件对第一目标情绪参数和第一关键音频特征进行合并级联处理，得到第二目标音频特征之后，还包括：

将第二目标音频特征输入至第二特征提取网络，通过第二特征提取网络，得到第三目标语音特征；

将第三目标语音特征与第一目标情绪参数输入至第二残差网络，利用第二残差网络进行残差计算处理，得到第二关键音频特征；

上述将第二目标音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点，包括：

将第二关键音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。

在本申请实施例中，加入一个基于多头注意力机制的第二特征提取网络以及第二残差网络，对第二目标语音特征进一步提取出关键特征，得到第三目标语音特征。

在一个示例中，如图4所示人脸关键点预测模型的部分结构示意图，

S401：情绪向量输入组件。在训练阶段作为网络中第3路的并行输入，情绪向量的输入为类型为[？,258]的高斯白噪音分布数据，其中258为高斯白噪音分布数据维数，本网络模型中设计为258，可根据不同模型需求修改该参数。针对带情绪的输入样本，为了音频同步面部表情更加自然贴合，首轮输入的高斯白噪音采样数据为随机生成，训练过程中通过与音频特征在网络中不断更新权重，不断调整优化后续的情绪向量矩阵。训练将不同情绪数据下学习到的情绪特征向量组合构成了情绪状态矩阵，后续与音频特征进行合并级联处理(即通过第一融合组件进行合并级联处理)。

在一些实施例中，人脸关键点预测模型还包括第二融合组件，

上述将第二目标语音特征与第二目标情绪参数输入至第二残差网络，利用第二残差网络进行残差技术处理，得到第二关键音频特征之后，还包括：

将第二关键音频特征和第二目标情绪参数输入至第二融合组件，利用第二融合组件进行合并级联处理，得到第三目标音频特征，第二目标情绪参数为从目标音频数据中提取的参数；

上述将第二关键音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点，包括：

将第三目标音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。具体地，可以将用户的信用数据分别输入至预先训练好的有监督的深度学习模型和无监督的深度学习模型，结合有监督的深度学习模型和无监督的深度学习模型，来确定用户数据集中的各用户的信用表征值，提高了数据处理的准确率。

在本实施例中，在得到第二融合音频特征之后，还将第二融合音频特征和第二目标情绪参数进行合并级联处理，进一步增加了特征信息。

在一个示例中如图5中的步骤S402：

音频特征与情绪特征合并级联组件(即第一融合组件)。通过第一融合组件将第一关键音频特征以及第一情绪向量特征进行合并级联实现双特征的融合，其中值得指出上述两种特征维度是一致的，这样才能进行不同特征下的有效增加了不同特征之间的联系进行合并级联操作。通过合并级联操作两种特征融合后有效地增加了特征的信息，进一步缓解梯度消失问题，以及抑制过拟合现象。

基于上述实施例提供的数据处理方法，相应地，本申请还提供了数据处理装置的具体实现方式。请参见以下实施例。

首先参见图6，本申请实施例提供的数据处理装置600包括以下单元：

模型获取模块601，用于在获取到目标音频数据的情况下，获取人脸关键点预测模型，人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，N为大于1的正整数，第一特征提取网络包括多头注意力机制；

第一特征提取模块502，用于将目标音频参数分别输入至N个第一特征提取网络，通过N个第一特征提取网络得到目标音频参数的N组第一目标音频特征，N组第一目标音频特征为不同音频特征，目标音频参数为从目标音频数据中提取的参数；

第二特征提取模块503，用于根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征；

预测模块504，用于将第一关键音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。

本申请提供的数据处理装置500，能够在获取到目标音频数据的情况下，获取人脸关键点预测模型，人脸关键点预测模型至少包括：N个第一特征提取网络、第一残差网络、关键点预测网络，第一特征提取网络包括多头注意力机制；将目标音频参数分别输入至N个第一特征提取网络，通过N个第一特征提取网络得到目标音频参数的N组不同的第一目标音频特征，目标音频参数为从目标音频数据中提取的参数；根据N组第一目标音频特征，利用第一残差网络得到第一关键音频特征；将第一关键音频特征输入至关键点预测网络，通过关键点预测网络，得到人脸关键点。通过N个包括多头注意力机制的特征提取网络，可以提取目标音频参数的多组不同的音频特征，再将多组音频特征通过残差网络得到关键音频特征，通过关键音频特征预测音频参数对应的人脸关键点，人脸关键点预测的准确性高。

在一些实施例中，上述目标音频参数包括N个子音频参数，第一残差网络包括N个残差计算组件，上述第二特征提取组件503，包括：

第一残差计算单元，用于在i等于1的情况下，将第1子音频参数、第1组第一目标音频特征输入至第1残差计算组件，通过第1残差计算组件得到第1差异特征，

第二残差计算单元，用于在i大于1且小于等于N的情况下，将第i子音频参数、第i组第一目标音频特征和第i-1差异特征输入至第i个残差计算组件，通过第i个残差计算组件得到第i差异特征，

第一确定单元，用于将第i差异特征确定为第一关键音频特征。

在一些实施例中，上述人脸关键点预测模型还包括第一融合组件，

上述数据处理装置500，还可以包括：

参数获取模块，用于获取第一目标情绪参数，第一目标情绪参数为从目标音频数据中提取的参数；

第一融合模块，用于将第一目标情绪参数和第一关键音频特征输入至第一融合组件，通过第一融合组件对第一目标情绪参数和第一关键音频特征进行合并级联操作，得到第二目标音频特征；

上述预测模块504，包括：

第一预测单元，用于将第二目标音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。

在一些实施例中，上述人脸关键点预测模型还包括第二特征提取网络和第二残差网络，第二特征提取网络包括多头注意力机制，

上述数据处理装置500，还可以包括：

第三特征提取模块，用于将第二目标音频特征输入至第二特征提取网络，通过第二特征提取网络，得到第三目标语音特征；

第四特征提取模块，将第二目标语音特征与第一目标情绪参数输入至第二残差网络，利用第二残差网络进行残差计算处理，得到第二关键音频特征；

上述预测模块504，还包括：

第二预测单元，用于将第二关键音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。

上述数据处理装置500，还可以包括：

第二融合模块，用于将第二关键音频特征和第二目标情绪参数输入至第二融合组件，利用第二融合组件进行合并级联处理，得到第三目标音频特征，第二目标情绪参数为从目标音频数据中提取的参数；

上述预测模块504，还包括：

第三预测单元，用于将第三目标音频特征输入至关键点预测网络，通过关键点预测网络，得到目标音频数据对应的人脸关键点。

在一些实施例中，上述数据处理装置500，还可以包括：

音频获取模块，用于获取目标音频数据；

参数提取模块，用于将目标音频数据输入至线性预测编码模型中，通过线性预测编码模型从目标音频数据中提取目标音频参数。

图6示出了本申请实施例提供的数据处理设备的硬件结构示意图。

在数据处理设备可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关容灾设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。

存储器可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的任意一个实施例的数据处理方法所描述的操作。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的任意一种数据处理方法。

在一个示例中，数据处理设备还可包括通信接口603和总线610。其中，如图6所示，处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围模块互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的数据处理方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标音频参数包括N个子音频参数，所述第一残差网络包括N个残差计算组件，

所述根据所述N组第一目标音频特征，利用所述第一残差网络得到第一关键音频特征，包括：

在i等于1的情况下，将第1子音频参数、第1组第一目标音频特征输入至第1残差计算组件，通过所述第1残差计算组件得到第1差异特征，

其中，i为正整数，所述N个子音频参数包括所述第1子音频参数，所述第1组第一目标音频特征为将所述第1子音频参数输入至第1个第一特征提取网络得到的音频特征，所述N个残差计算组件包括所述第1残差计算组件，所述N个第一特征提取网络包括所述第1个第一特征提取网络；

在i大于1且小于等于N的情况下，将第i子音频参数、第i组第一目标音频特征和第i-1差异特征输入至第i个残差计算组件，通过所述第i个残差计算组件得到第i差异特征，

其中，所述第i组第一目标音频特征为将所述第i子音频参数输入至第i个第一特征提取网络得到的第一目标音频特征，所述N个第一特征提取网络包括所述第i个第一特征提取网络，所述第i-1差异特征为通过第i-1个残差计算组件得到的子差异特征，所述N个残差计算组件包括所述第i-1残差计算组件和所述第i残差计算组件；

将i的值更新为i+1，返回执行在i大于1且小于等于N的情况下，将第i子音频参数、第i组音频特征和第i-1差异特征输入至第i个残差计算组件，通过所述第i个残差计算组件得到第i子差异特征的步骤，直到i大于N；

将所述第i差异特征确定为所述第一关键音频特征。

3.根据权利要求1所述的方法，其特征在于，所述人脸关键点预测模型还包括第一融合组件，

所述根据所述N组第一目标音频特征，利用所述第一残差网络得到第一关键音频特征之后，还包括：

获取第一目标情绪参数，所述第一目标情绪参数为从所述目标音频数据中提取的参数；

将所述第一目标情绪参数和所述第一关键音频特征输入至所述第一融合组件，通过所述第一融合组件对所述第一目标情绪参数和所述第一关键音频特征进行合并级联操作，得到第二目标音频特征；

所述将所述第一关键音频特征输入至所述关键点预测网络，通过所述关键点预测网络，得到所述目标音频参数对应的人脸关键点，包括：

将所述第二目标音频特征输入至所述关键点预测网络，通过所述关键点预测网络，得到所述目标音频数据对应的人脸关键点。

4.根据权利要求3所述的方法，其特征在于，所述人脸关键点预测模型还包括第二特征提取网络和第二残差网络，所述第二特征提取网络包括多头注意力机制，

所述将所述第一目标情绪参数和所述第一关键音频特征输入至所述第一融合组件，通过所述第一融合组件对所述第一目标情绪参数和所述第一关键音频特征进行合并级联处理，得到第二目标音频特征之后，还包括：

将所述第二目标音频特征输入至所述第二特征提取网络，通过所述第二特征提取网络，得到第三目标语音特征；

将所述第二目标语音特征与第一目标情绪参数输入至所述第二残差网络，利用所述第二残差网络进行残差计算处理，得到第二关键音频特征；

所述将所述第二目标音频特征输入至所述关键点预测网络，通过所述关键点预测网络，得到所述目标音频数据对应的人脸关键点，包括：

将所述第二关键音频特征输入至所述关键点预测网络，通过所述关键点预测网络，得到所述目标音频数据对应的人脸关键点。

5.根据权利要求4所述的方法，其特征在于，所述人脸关键点预测模型还包括第二融合组件，

所述将所述第三目标语音特征与第二目标情绪参数输入至所述第二残差网络，利用所述第二残差网络进行残差计算处理，得到第二关键音频特征之后，还包括：

将所述第二关键音频特征和第二目标情绪参数输入至所述第二融合组件，利用所述第二融合组件进行合并级联处理，得到第三目标音频特征，所述第二目标情绪参数为从所述目标音频数据中提取的参数；

所述将所述第二关键音频特征输入至所述关键点预测网络，通过所述关键点预测网络，得到所述目标音频数据对应的人脸关键点，包括：

将所述第三目标音频特征输入至所述关键点预测网络，通过所述关键点预测网络，得到所述目标音频数据对应的人脸关键点。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标音频数据；

将所述目标音频数据输入至线性预测编码模型中，通过所述线性预测编码模型从所述目标音频数据中提取所述目标音频参数。

7.一种数据处理装置，其特征在于，所述装置包括：

8.一种数据处理设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的数据处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的数据处理方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1-6任意一项所述的数据处理方法。