CN111459454B

CN111459454B - 交互对象的驱动方法、装置、设备以及存储介质

Info

Publication number: CN111459454B
Application number: CN202010247276.5A
Authority: CN
Inventors: 吴文岩; 吴潜溢; 钱晨; 王宇欣
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2021-08-20
Anticipated expiration: 2040-03-31
Also published as: KR20210124182A; CN113672194A; TW202139052A; JP2022530726A; CN111459454A; WO2021196646A1

Abstract

公开了一种交互对象的驱动方法、装置、设备以及存储介质，所述方法包括：获取语音段所包含的语音帧序列；获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数；根据获取的所述控制参数控制所述交互对象的至少一个局部区域的姿态。

Description

交互对象的驱动方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种交互对象的驱动方法、装置、设备以及存储介质。

背景技术

人机交互的方式大多基于按键、触摸、语音进行输入，通过在显示屏上呈现图像、文本或虚拟人物进行回应。目前虚拟人物多是在语音助理的基础上改进得到的，用户与虚拟人物的交互还停留表面上。

发明内容

本公开实施例提供一种交互对象的驱动方案。

根据本公开的一方面，提供一种交互对象的驱动方法，所述方法包括：获取语音段所包含的语音帧序列；获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数；根据获取的所述控制参数控制所述交互对象的姿态。

结合本公开提供的任一实施方式，所述方法还包括：根据所述语音段控制展示所述交互对象的显示设备输出语音和/或展示文本。

结合本公开提供的任一实施方式，所述交互对象的局部区域的控制参数包括所述局部区域的姿态控制向量，所述获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数，包括：获取所述语音帧序列对应的第一声学特征序列；根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征；获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

结合本公开提供的任一实施方式，结合本公开提供的任一实施方式，所述第一声学特征序列包括与所述语音帧序列中的每个语音帧对应的声学特征向量，所述根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征，包括：以设定长度的时间窗口和设定步长，对所述第一声学特征序列进行滑窗，将所述时间窗口内的声学特征向量作为对应的所述至少一个语音帧的声学特征，并根据完成滑窗得到的多个声学特征，获得第二声学特征序列。

结合本公开提供的任一实施方式，所述根据获取的所述控制参数控制所述交互对象的姿态，包括：获取与所述第二声学特征序列对应的姿态控制向量的序列；根据所述姿态控制向量的序列控制所述交互对象的姿态。

结合本公开提供的任一实施方式，获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量，包括：将所述声学特征输入至循环神经网络，获得与所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

结合本公开提供的任一实施方式，所述循环神经网络通过声学特征样本训练得到；所述方法还包括：获取声学特征样本，具体包括：从获取的视频段中提取参考对象的语音段；对所述视频段进行采样获取多个包含所述参考对象的第一图像帧；以及，对所述语音段进行采样，获得多个语音帧；获取与所述第一图像帧对应的所述语音帧的声学特征；将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的至少一个局部区域的姿态控制向量值；根据所述姿态控制向量值，对与所述第一图像帧对应的声学特征进行标注，获得声学特征样本。

结合本公开提供的任一实施方式，所述方法还包括：根据所述声学特征样本对初始循环神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述循环神经网络，其中，所述网络损失包括所述初始循环神经网络预测得到的所述至少一个局部区域的姿态控制向量值与标注的姿态控制向量值之间的差异。

根据本公开的一方面，提供一种交互对象的驱动装置，所述装置包括：第一获取单元，用于获取语音段所包含的语音帧序列；第二获取单元，用于获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数；驱动单元，用于根据获取的所述控制参数控制所述交互对象的姿态。

结合本公开提供的任一实施方式，所述装置还包括输出单元，用于根据所述语音段控制展示所述交互对象的显示设备输出语音和/或展示文本。

结合本公开提供的任一实施方式，所述交互对象的局部区域的控制参数包括所述局部区域的姿态控制向量，所述第二获取单元具体用于：获取所述语音帧序列对应的第一声学特征序列；根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征；获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

结合本公开提供的任一实施方式，所述第一声学特征序列包括与所述语音帧序列中的每个语音帧对应的声学特征向量，所述第二获取单元在用于根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征时，具体用于：

获取与所述第二声学特征序列对应的姿态控制向量的序列；根据所述姿态控制向量的序列控制所述交互对象的姿态。

结合本公开提供的任一实施方式，所述驱动单元具体用于：获取与所述第二声学特征序列对应的姿态控制向量的序列；根据所述姿态控制向量的序列控制所述交互对象的姿态。

结合本公开提供的任一实施方式，所述第二获取单元在用于获取所述所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量时，具体用于：将所述声学特征输入至所述循环神经网络，获得与所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

结合本公开提供的任一实施方式，所述循环神经网络通过声学特征样本训练得到；所述装置还包括样本获取单元，用于：从获取的视频段中提取参考对象的语音段；对所述视频段进行采样获取多个包含所述参考对象的第一图像帧；以及，对所述语音段进行采样，获得多个语音帧；获取与所述第一图像帧对应的所述语音帧的声学特征；将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的至少一个局部区域的姿态控制向量值；根据所述姿态控制向量值，对与所述第一图像帧对应的声学特征进行标注，获得声学特征样本。

结合本公开提供的任一实施方式，所述装置还包括训练单元，用于根据所述声学特征样本对初始循环神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述循环神经网络，其中，所述网络损失包括所述初始循环神经网络预测得到的所述至少一个局部区域的姿态控制向量值与标注的姿态控制向量值之间的差异。

根据本公开的一方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

本公开一个或多个实施例的交互对象的驱动方法、装置、设备及计算机可读存储介质，通过获取语音段所包含的语音帧序列，并根据语音帧序列确定交互对象的至少一个局部区域的控制参数，来控制所述交互对象的姿态，使得所述交互对象做出与所述语音段匹配的姿态，从而使目标对象产生与交互对象正在交流的感觉，提升了目标对象的交互体验。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开至少一个实施例提出的交互对象的驱动方法中显示设备的示意图；

图2是本公开至少一个实施例提出的交互对象的驱动方法的流程图；

图3是本公开至少一个实施例提出的对语音帧序列进行特征编码的过程示意图；

图4是本公开至少一个实施例提出的交互对象的驱动装置的结构示意图；

图5是本公开至少一个实施例提出的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开至少一个实施例提供了一种交互对象的驱动方法，所述驱动方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述服务器包括本地服务器或云端服务器等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在本公开实施例中，交互对象可以是任意一种能够与目标对象进行交互的交互对象，其可以是虚拟人物，还可以是虚拟动物、虚拟物品、卡通形象等等其他能够实现交互功能的虚拟形象，虚拟形象的展现形式即可以是2D形式也可以是3D形式，本公开对此并不限定。所述目标对象可以是用户，也可以是机器人，还可以是其他智能设备。所述交互对象和所述目标对象之间的交互方式可以是主动交互方式，也可以是被动交互方式。一示例中，目标对象可以通过做出手势或者肢体动作来发出需求，通过主动交互的方式来触发交互对象与其交互。另一示例中，交互对象可以通过主动打招呼、提示目标对象做出动作等方式，使得目标对象采用被动方式与交互对象进行交互。

所述交互对象可以通过终端设备进行展示，所述终端设备可以是电视机、带有显示功能的一体机、投影仪、虚拟现实(Virtual Reality，VR)设备、增强现实(AugmentedReality，AR)设备等，本公开并不限定终端设备的具体形式。

图1示出本公开至少一个实施例提出的显示设备。如图1所示，该显示设备具有透明显示屏的显示设备，其可以在透明显示屏上显示立体画面，以呈现出具有立体效果的虚拟场景以及交互对象。例如图1中透明显示屏显示的交互对象有虚拟卡通人物。在一些实施例中，本公开中所述的终端设备也可以为上述具有透明显示屏的显示设备，显示设备中配置有存储器和处理器，存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的交互对象的驱动方法，以驱动透明显示屏中显示的交互对象对目标对象进行回应。

在一些实施例中，响应于终端设备接收到用于驱动交互对象输出语音的声音驱动数据，交互对象可以对目标对象发出指定语音。可以根据终端设备周边目标对象的动作、表情、身份、偏好等，生成声音驱动数据，以驱动交互对象通过发出指定语音进行回应，从而为目标对象提供拟人化的服务。在交互对象与目标对象的交互过程中，存在根据该声音驱动数据驱动交互对象发出指定语音的同时，无法驱动所述交互对象做出与该指定语音同步的面部动作，使得交互对象在发出语音时呆板、不自然，影响了目标对象与交互体验。基于此，本公开至少一个实施例提出一种交互对象的驱动方法，以提升目标对象与交互对象进行交互的体验。

图2示出根据本公开至少一个实施例的交互对象的驱动方法的流程图，如图2所示，所述方法包括步骤201～步骤203。

在步骤201中，获取语音段所包含的语音帧序列。

所述语音段可以是所述交互对象的声音驱动数据所对应的语音段，所述声音驱动数据可以包括音频数据(语音数据)、文本等等。所述声音驱动数据可以是根据与交互对象进行交互的目标对象的动作、表情、身份、偏好等生成的驱动数据，也可以是终端设备从内部存储器调用的声音驱动数据。本公开对于该声音驱动数据的获取方式不进行限制。

在本公开实施例中，可以通过对所述语音段进行分频处理，得到所述语音段所包含的语音帧序列。对所述语音段进行分频处理，也即将所述语音段分割为多个语音帧，各个语音帧按照时间顺序排列即形成了语音帧序列。进行分频频处理所得到的语音帧所包含的采样点数(时长)、帧移(帧与帧之间的重叠程度)可以根据对于交互对象的驱动需求来确定，本公开对此不进行限制。

图3示出了本公开至少一个实施例提出的交互对象的驱动方法的示意图。对于语音段信号进行分段处理，所得到的语音帧序列如图3所示。

在步骤202中，获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数。

所述局部区域是对交互对象的整体(包括面部和/或身体)进行划分而得到的。面部的其中一个局部区域可以对应于交互对象的一系列面部表情或动作，例如眼部区域可以对应于交互对象睁眼、闭眼、眨眼、视角变换等面部动作；又例如嘴部区域对应于交互对象闭嘴、不同程度的张嘴等面部动作。而身体的其中一个局部区域可以对应于交互对象的一系列肢体动作，例如腿部区域可以对应于交互对象走路、跳跃、踢腿等动作。

所述交互对象的局部区域的控制参数，包括所述局部区域的姿态控制向量。每个局部区域的姿态控制向量用于驱动所述交互对象的所述局部区域进行动作。不同的姿态控制向量值对应于不同的动作或者动作幅度。例如，对于嘴部区域的姿态控制向量，其一组姿态控制向量值可以使所述交互对象的嘴部微张，而另一组姿态控制向量值可以使所述交互对象的嘴部大张。通过以不同的姿态控制向量值来驱动所述交互对象，可以使相应的局部区域做出不同动作或者不同幅度的动作。

局部区域可以根据需要控制的交互对象的动作进行选择，例如在需要控制所述交互对象面部以及肢体同时进行动作时，可以获取全部局部区域的姿态控制向量；在需要控制所述交互对象的表情时，则可以获取所述面部所对应的局部区域的姿态控制向量。

在本公开实施例中，可以根据所述语音帧序列的声学特征，确定交互对象的至少一个局部区域的控制参数，也可以根据所述语音帧序列的其他特征来确定控制参数。

在本公开实施例中，可以预先建立语音帧序列的某种特征与交互对象的控制参数值的对应关系，在获得了所述语音帧序列的情况下，即可获得对应的控制参数值。获取与所述语音帧序列匹配的所述交互对象的控制参数值的具体方法容后详述。

在步骤203中，根据获取的所述控制参数值控制所述交互对象的姿态。

其中，所述控制参数值，例如姿态控制向量值，是与所述语音段所包含的语音帧序列相匹配的。例如，在展示所述交互对象的显示设备正在输出所述语音段，或者展示与所述语音段相应的文本时，交互对象所做出的姿态与输出的语音和/或展示的文本是同步的，给目标对象以所述交互对象正在说话的感觉。

在本公开实施例中，通过获取语音段所包含的语音帧序列，并根据语音帧序列确定交互对象的至少一个局部区域的控制参数，来控制所述交互对象的姿态，使得所述交互对象做出与所述语音段匹配的姿态，从而使目标对象产生与交互对象正在交流的感觉，提升了目标对象的交互体验。

在一些实施例中，所述方法应用于服务器，包括本地服务器或云端服务器等，所述服务器对于语音段进行处理，生成所述交互对象的姿态参数值，并根据所述姿态参数值利用三维渲染引擎进行渲染，得到所述交互对象的回应动画。所述服务器可以将所述回应动画发送至终端进行展示来对目标对象进行回应，还可以将所述回应动画发送至云端，以使终端能够从云端获取所述回应动画来对目标对象进行回应。在服务器生成所述交互对象的姿态参数值后，还可以将所述姿态参数值发送至终端，以使终端完成渲染、生成回应动画、进行展示的过程。

在一些实施例中，所述方法应用于终端，所述终端对于语音段进行处理，生成所述交互对象的姿态参数值，并根据所述姿态参数值利用三维渲染引擎进行渲染，得到所述交互对象的回应动画，所述终端可以展示所述回应动画以对目标对象进行回应。

在一些实施例中，可以根据所述语音段控制展示所述交互对象的显示设备输出语音和/或展示文本。并且可以在根据所述语音输出语音和/或文本的同时，根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。

在本公开实施例中，由于所述姿态参数值是与所述语音段的语音帧序列是匹配的，因此根据所述语音段输出的语音和/或文本，与根据所述姿态参数值控制交互对象的姿态是同步进行的情况下，交互对象所做出的姿态与输出的语音和/或文本是同步的，给目标对象以所述交互对象正在说话的感觉。

在一些实施例中，在所述交互对象的至少一个局部区域的控制参数包括姿态控制向量的情况下，可以通过以下方式获得姿态控制向量。

首先，获取所述语音帧序列对应的声学特征序列。此处，为了与后续提到的声学特征序列进行区分，将所述语音帧序列对应的声学特征序列称为第一声学特征序列。

在本公开实施例中，声学特征可以是与语音情感相关的特征，例如基频特征、共峰特征、梅尔频率倒谱系数(Mel Frequency Cofficient，MFCC)等等。

所述第一声学特征序列是对整体的语音帧序列进行处理所得到的，以MFCC特征为例，可以通过对所述语音帧序列中的各个语音帧进行加窗、快速傅里叶变换、滤波、对数处理、离散余弦处理后，得到各个语音帧对应的MFCC系数。

所述第一声学特征序列是针对整体的语音帧序列进行处理所得到的，体现了语音段的整体声学特征。

在本公开实施例中，所述第一特征序列包含与所述语音帧序列中的每个语音帧对应的声学特征向量。以MFCC为例，所述第一特征序列包含了每个语音帧的MFCC系数。根据所述语音帧所获得的第一声学特征序列如图3所示。

接下来，根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征。

在所述第一声学特征序列包括了所述语音帧序列中的每个语音帧对应的声学特征向量的情况下，可以将所述至少一个语音帧对应的相同数目的特征向量作为所述语音帧的声学特征。其中，上述相同数目的特征向量可以形成一个特征矩阵，一特征矩阵即为所述至少一个语音帧的声学特征。

以图3为例，所述第一声学特征序列中的N个特征向量形成了所对应的N个语音帧的声学特征。所述第一声学特征矩阵可以包括多个声学特征，各个声学特征所对应的语音帧之间可以是重叠的。

最后，获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

对于在步骤203中所获得的至少一个语音帧对应的声学特征，可以获取至少一个局部区域的姿态控制向量。局部区域可以根据需要控制的交互对象的动作进行选择，例如在需要控制所述交互对象面部以及肢体同时进行动作时，可以获取全部局部区域的姿态控制向量；在需要控制所述交互对象的表情时，则可以获取所述面部所对应的局部区域的姿态控制向量。

在播放语音段的同时，根据通过所述第一声学特征序列所获得的各个声学特征对应的姿态控制向量驱动所述交互对象做出动作，则可以实现终端设备在输出声音的同时，交互对象做出与所输出的声音相配合的动作，包括面部动作、表情以及肢体动作等，从而使目标对象产生该交互对象正在说话的感觉；并且由于所述姿态控制向量是与输出声音的声学特征相关的，根据所述姿态控制向量进行驱动使得交互对象的表情和肢体动作具有了情感因素，使得交互对象的说话过程更加自然、生动，从而提高了目标对象的交互体验。

在一些实施例中，可以通过在所述第一声学特征序列上进行滑窗的方式获取所述至少一个语音帧对应的声学特征。

通过以设定长度的时间窗口和设定步长，对所述第一声学特征序列进行滑窗，将所述时间窗口内的声学特征向量作为对应的相同数目语音帧的声学特征，则可以获得这些语音帧共同对应的声学特征。在完成滑窗后，根据得到的多个声学特征，则可以获得第二声学特征序列。

以图3所示的交互对象的驱动方法为例，所述语音帧序列每秒包括100个语音帧，所述时间窗口的长度为1s，步长为0.04s。由于所述第一声学特征序列中的每个特征向量是与语音帧对应的，相应地，所述第一声学特征序列每秒同样包括100个特征向量。在所述第一声学特征序列上进行滑窗过程中，每次获得所述时间窗口内的100个特征向量，作为对应的100个语音帧的声学特征。通过在所述第一声学特征序列上以0.04s的步长移动所述时间窗口，分别获得第1～100语音帧对应的声学特征1、第4～104语音帧所对应的声学特征2，以此类推，在遍历第一声学特征后，得到声学特征1、2、…、M，从而获得第二声学特征序列，其中，M为正整数，其数值根据语音帧序的帧数(第一声学特征序列中特征向量的数目)、时间窗口的长度以及步长确定。

根据声学特征1、2、…、M，分别可以获得相应的姿态控制向量1、2、…、M，从而获得姿态控制向量的序列。

如图3所示，所述姿态控制向量的序列与所述第二声学特征序列在时间上是对齐的，所述第二声学特征序列中的声学特征1、2、…、M，分别是根据所述第一声学特征序列中的N个声学特征获得的，因此，在播放所述语音帧的同时，可以根据所述姿态控制向量的序列驱动所述交互对象做出动作。

假设在第一个时间窗口的设定时刻开始输出声学特征，可以将在所述设定时刻之前的姿态控制向量设置为默认值，也即在刚开始播放语音帧序列时，使所述交互对象做出默认的动作，在所述设定时刻之后开始利用根据第一声学特征序列所得到的姿态控制向量的序列驱动所述交互对象做出动作。

以图3为例，在t0时刻开始输出声学特征1，并以步长对应的时间0.04s为间隔输出声学特征，在t1时刻开始输出声学特征2，t2时刻开始输出声学特征3，直至在t(M-1)时刻输出声学特征M。对应地，在ti～t(i+1)时间段内对应的是特征向量(i+1)，其中，i为小于(M-1)的整数，而在t0时刻之间，对应的是默认姿态控制向量。

在本公开实施例中，通过在播放所述语音段的同时，根据所述姿态控制向量的序列驱动所述交互对象做出动作，从而使交互对象的动作与所输出的声音同步，给目标对象以所述交互对象正在说话的感觉，提升了目标对象的交互体验。

所述时间窗口的时长，与所述声学特征所包含的信息量相关。时间窗口的时长越大，所包含的信息量越多，驱动所述交互对象所做出的动作与声音的关联性越强。进行滑窗的步长与获取姿态控制向量的时间间隔(频率)相关，也即与驱动交互对象做出动作的频率相关。可以根据实际的交互场景来设置该设定所述时间窗口的时长以及步长，以使交互对象做出的表情和动作与声音的关联性更强，并且更加生动、自然。

在一些实施例中，所述声学特征包括L个维度的梅尔倒谱系数，其中，L为正整数。MFCC表示语音信号的能量在不同频率范围的分布，可以通过将所述语音帧序列中的多个语音帧数据转换至频域，利用包括L个子带的梅尔滤波器，获得L个维度的MFCC。通过根据语音段的MFCC来获取姿态控制向量，以根据所述姿态控制向量驱动所述交互对象进行面部动作和肢体动作，使得交互对象的表情和肢体动作具有了情感因素，使得交互对象的说话过程更加自然、生动，从而提高了目标对象的交互体验。

在一些实施例中，可以通过将所述声学特征输入至预先训练的循环神经网络，获取与所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。由于所述循环神经网络是一种时间递归神经网络，其可以学习所输入的声学特征的历史信息，根据声学特征序列输出所述至少一个局部区域的姿态控制向量。其中，所述声学特征序列包括第一声学特征序列和第二声学特征序列。

在本公开实施例中，利用预先训练的循环神经网络获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量，将声学特征的历史特征信息和当前特征信息进行融合，从而使得历史姿态控制向量对当前姿态控制向量的变化产生影响，使得交互人物的表情变化和肢体动作更加平缓、自然。

在一些实施例中，可以通过以下方式对所述循环卷积神经网络进行训练。

首先，获取声学特征样本，所述声学特征样本标注有真实值，所述真实值为所述交互对象的至少一个局部区域的姿态控制向量值。

在获得了声学特征样本后，根据所述声学特征样本对初始循环神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述循环神经网络，其中，所述网络损失包括所述初始循环神经网络预测得到的所述至少一个局部区域的姿态控制向量值与所述真实值之间的差异。

在一些实施例中，可以通过以下方法获取声学特征样本。

首先，获取一角色发出语音的视频段，并从所述视频段中提取相应的语音段。例如，可以获取一真实人物正在说话的视频段。

接下来，根据第一采样周期对所述视频段进行采样获取多个包含所述角色的第一图像帧；根据第二采样周期对所述语音段进行采样，获得多个语音帧

其中，所述第二采样周期小于所述第一采样周期，也即对语音段进行采样的频率高于对视频段采样的频率，以使至少一个语音帧的声学特征可以对应于一个第一图像帧。

之后，获取与所述第一图像帧对应的至少一个语音帧对应的声学特征。需要注意的是，在训练过程中对应于一个第一图像帧的语音帧的数目，与前述驱动过程中获取声学特征所对应的语音帧的数目是相同的，并且在训练过程中获取声学特征的方法与前述驱动过程中也是相同的。

接着，将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的至少一个局部区域的姿态控制向量值。可以获得所有局部区域的姿态控制向量值，也可以获得其中部分的局部区域的姿态控制向量值。

以所述第一图像帧为包含真实人物的图像帧为例，可以将该真实人物转换为包含交互对象所表示的形象的第二图像帧，并且所述真实人物的各个局部区域的姿态控制向量与所述交互对象的各个局部区域的姿态控制向量是对应的。

最后，根据所述姿态控制向量值，对与所述第一图像帧对应的声学特征进行标注，获得声学特征样本。

在本公开实施例中，通过将一角色的视频段，拆分为对应的多个第一图像帧和多个语音帧，通过将包含真实角色的第一图像帧转化为包含交互对象的第二图像帧来获取至少一个语音帧的声学特征对应的姿态控制向量，使得声学特征与姿态控制向量的对应性好，从而获得高质量的声学特征样本，使得交互对象的动作更接近于对应角色的真实动作。

图4示出根据本公开至少一个实施例的交互对象的驱动装置的结构示意图，如图4所示，该装置可以包括：第一获取单元401，用于获取语音段所包含的语音帧序列；第二获取单元402，用于获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数；驱动单元403，用于根据获取的所述控制参数控制所述交互对象的姿态。

在一些实施例中，所述装置还包括输出单元，用于根据所述语音段控制展示所述交互对象的显示设备输出语音和/或展示文本。

在一些实施例中，所述交互对象的局部区域的控制参数包括所述局部区域的姿态控制向量，所述第二获取单元具体用于：获取所述语音帧序列对应的第一声学特征序列；根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征；获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

在一些实施例中，所述第一声学特征序列包括与所述语音帧序列中的每个语音帧对应的声学特征向量，所述第二获取单元在用于根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征时，具体用于：获取与所述第二声学特征序列对应的姿态控制向量的序列；根据所述姿态控制向量的序列控制所述交互对象的姿态。

在一些实施例中，所述驱动单元具体用于：获取与所述第二声学特征序列对应的姿态控制向量的序列；根据所述姿态控制向量的序列控制所述交互对象的姿态。

在一些实施例中，所述第二获取单元在用于获取所述所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量时，具体用于：将所述声学特征输入至循环神经网络，获得与所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

在一些实施例中，所述循环神经网络通过声学特征样本训练得到；所述装置还包括样本获取单元，用于：从获取的视频段中提取参考对象的语音段；对所述视频段进行采样获取多个包含所述参考对象的第一图像帧；以及，对所述语音段进行采样，获得多个语音帧；获取与所述第一图像帧对应的所述语音帧的声学特征；将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的至少一个局部区域的姿态控制向量值；根据所述姿态控制向量值，对与所述第一图像帧对应的声学特征进行标注，获得声学特征样本。

在一些实施例中，所述装置还包括训练单元，用于根据所述声学特征样本对初始循环神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述循环神经网络，其中，所述网络损失包括所述初始循环神经网络预测得到的所述至少一个局部区域的姿态控制向量值与标注的姿态控制向量值之间的差异。

本说明书至少一个实施例还提供了一种电子设备，如图5所示，所述设备包括存储器、处理器，存储器用于存储可在处理器上运行的计算机指令，处理器用于在执行所述计算机指令时实现本公开任一实施例所述的交互对象的驱动方法。

本说明书至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的交互对象的驱动方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种交互对象的驱动方法，其特征在于，所述方法包括：

获取所述交互对象的声音驱动数据所对应的语音段所包含的语音帧序列，所述声音驱动数据用于驱动所述交互对象输出语音；

获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数值；

根据获取的所述控制参数值控制所述交互对象的姿态。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述语音段控制展示所述交互对象的显示设备输出语音和/或展示文本。

3.根据权利要求1或2所述的方法，其特征在于，所述交互对象的局部区域的控制参数包括所述局部区域的姿态控制向量，所述获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数，包括：

获取所述语音帧序列对应的第一声学特征序列；

根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征；

获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

4.根据权利要求3所述的方法，其特征在于，所述第一声学特征序列包括与所述语音帧序列中的每个语音帧对应的声学特征向量，所述根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征，包括：

以设定长度的时间窗口和设定步长，对所述第一声学特征序列进行滑窗，将所述时间窗口内的声学特征向量作为对应的所述至少一个语音帧的声学特征，并根据完成滑窗得到的多个声学特征，获得第二声学特征序列；

所述根据获取的所述控制参数控制所述交互对象的姿态，包括：

获取与所述第二声学特征序列对应的姿态控制向量的序列；

根据所述姿态控制向量的序列控制所述交互对象的姿态。

5.根据权利要求3所述的方法，其特征在于，获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量，包括：

将所述声学特征输入至循环神经网络，获得与所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

6.根据权利要求5所述的方法，其特征在于，所述循环神经网络通过声学特征样本训练得到；

所述方法还包括：获取声学特征样本，具体包括：

从获取的视频段中提取参考对象的语音段；对所述视频段进行采样获取多个包含所述参考对象的第一图像帧；以及，对所述语音段进行采样，获得多个语音帧；

获取与所述第一图像帧对应的所述语音帧的声学特征；

将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的至少一个局部区域的姿态控制向量值；

根据所述姿态控制向量值，对与所述第一图像帧对应的声学特征进行标注，获得声学特征样本。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：根据所述声学特征样本对初始循环神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述循环神经网络，其中，所述网络损失包括所述初始循环神经网络预测得到的所述至少一个局部区域的姿态控制向量值与标注的姿态控制向量值之间的差异。

8.一种交互对象的驱动装置，其特征在于，所述装置包括：

第一获取单元，用于获取所述交互对象的声音驱动数据所对应的语音段所包含的语音帧序列，所述声音驱动数据用于驱动所述交互对象输出语音；

第二获取单元，用于获取与所述语音帧序列对应的交互对象的至少一个局部区域的控制参数；

驱动单元，用于根据获取的所述控制参数控制所述交互对象的姿态。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括输出单元，用于根据所述语音段控制展示所述交互对象的显示设备输出语音和/或展示文本。

10.根据权利要求8或9所述的装置，其特征在于，所述交互对象的局部区域的控制参数包括所述局部区域的姿态控制向量，所述第二获取单元具体用于：

获取所述语音帧序列对应的第一声学特征序列；

11.根据权利要求10所述的装置，其特征在于，所述第一声学特征序列包括与所述语音帧序列中的每个语音帧对应的声学特征向量，所述第二获取单元在用于根据所述第一声学特征序列，获取至少一个语音帧对应的声学特征时，具体用于：

所述驱动单元具体用于：

获取与所述第二声学特征序列对应的姿态控制向量的序列；

根据所述姿态控制向量的序列控制所述交互对象的姿态。

12.根据权利要求10所述的装置，其特征在于，所述第二获取单元在用于获取所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量时，具体用于：将所述声学特征输入至循环神经网络，获得与所述声学特征对应的所述交互对象的至少一个局部区域的姿态控制向量。

13.根据权利要求12所述的装置，其特征在于，所述循环神经网络通过声学特征样本训练得到；

所述装置还包括样本获取单元，用于：

获取与所述第一图像帧对应的所述语音帧的声学特征；

14.根据权利要求13所述的装置，其特征在于，所述装置还包括训练单元，用于根据所述声学特征样本对初始循环神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述循环神经网络，其中，所述网络损失包括所述初始循环神经网络预测得到的所述至少一个局部区域的姿态控制向量值与标注的姿态控制向量值之间的差异。

15.一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至7任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一所述的方法。