CN112102448A

CN112102448A - 虚拟对象图像显示方法、装置、电子设备和存储介质

Info

Publication number: CN112102448A
Application number: CN202010963639.5A
Authority: CN
Inventors: 胡天舒; 马明明; 李彤辉; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-18
Anticipated expiration: 2040-09-14
Also published as: CN112102448B; US20210201912A1; US11423907B2

Abstract

本申请公开了虚拟对象图像显示方法、装置、电子设备和存储介质，涉及人工智能领域，具体为计算机视觉和深度学习，可用于虚拟对象对话场景。具体实现方案为：将获取的语音进行分割，得到语音片段；预测所述语音片段的唇形序列信息；基于所述唇形序列信息查找对应的唇形图像序列；将所述唇形图像序列与虚拟对象底板进行唇部融合，得到虚拟对象图像；显示所述虚拟对象图像。本申请提高了获取虚拟对象图像的能力。

Description

虚拟对象图像显示方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体为计算机视觉和深度学习。

背景技术

虚拟对象可以进行人机交互，例如：虚拟对象可以回答用户的问题，实时地与用户进行沟通，因此，虚拟对象在金融、客户、娱乐、教育等多个诸多行业得到应用。但目前虚拟对象主要是通过云端进行合成，合成之后通过网络将合成后的虚拟对象图像发送给终端设备，由终端设备进行显示。

发明内容

本公开提供了一种虚拟对象图像显示方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种虚拟对象图像显示方法，包括：

将获取的语音进行分割，得到语音片段；

预测所述语音片段的唇形序列信息；

基于所述唇形序列信息查找对应的唇形图像序列；

将所述唇形图像序列与虚拟对象底板进行唇部融合，得到虚拟对象图像；

显示所述虚拟对象图像。

根据本公开的另一方面，提供了一种虚拟对象图像显示装置，包括：

分割模块，用于将获取的语音进行分割，得到语音片段；

预测模块，用于预测所述语音片段的唇形序列信息；

查找模块，用于基于所述唇形序列信息查找对应的唇形图像序列；

融合模块，用于将所述唇形图像序列与虚拟对象底板进行唇部融合，得到虚拟对象图像；

显示模块，用于显示所述虚拟对象图像。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开提供的虚拟对象图像显示方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行本公开提供的虚拟对象图像显示方法。

根据本公开的技术方案，可以实现在本地得到虚拟对象图像，并显示，这样由于不需要通过网络获取虚拟对象图像，从而可以避免因网络环境原因导致无法获取虚拟对象图像的问题，进而提高获取虚拟对象图像的能力。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开提供的一种虚拟对象图像显示方法的流程图；

图2是本公开提供的另一种虚拟对象图像显示方法的流程图；

图3是本公开提供的一种虚拟对象图像显示装置的结构图；

图4是用来实现本公开实施例的虚拟对象图像显示方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

请参见图1，图1是本公开提供的一种虚拟对象图像显示方法的流程图，如图1所示，包括以下步骤：

步骤S101、将获取的语音进行分割，得到语音片段。

其中，上述获取的语音可以是虚拟对象需要播放的语音，例如：虚拟对象针对用户提供的语音的应答语音，或者，可以是虚拟对象主动播放的语音。

本公开中，虚拟对象可以是虚拟人，但对此不作限定，例如：还可以是虚拟动物等其他支持语言播放的虚拟对象。

另外，上述语音也可以是每次传入的一段语音，例如：一句话，或者一段话。

进一步的，上述获取可以本地获取，例如：本地针对用户提供的语音预测的应答语音，当然，对此不作限定，例如：其他设备发送的语音。

上述将获取的语音进行分割，得到语音片段可以是，将获取的语音按照固定长度进行分割，得到多个固定长度的语音片段。

步骤S102、预测所述语音片段的唇形序列信息。

上述预测所述语音片段的唇形序列信息可以是，依次预测多个语音片段的唇形序列信息。

其中，上述唇形序列信息可以包括唇形关键点序列或者唇形索引序列，即包括多个唇形的关键点或者多个唇形的索引。

进一步的，上述预测可以是直接使用语音片段进行预测，这样由于不需要提取语音片段的语音特征(例如：mfcc特征)，因此，可以提高预测的效率。例如：以上述语音片段为wav格式语音，该步骤可以是直接使用wav语音片段预测唇形序列信息。当然，本公开中对此并不限定，例如：也可以针对部分片段提取mfcc特征，使用mfcc特征预测唇形序列信息。

步骤S103、基于所述唇形序列信息查找对应的唇形图像序列。

上述基于所述唇形序列信息查找对应的唇形图像序列可以是，在唇形图像库中检索上述唇形序列信息对应的唇形图像序列。这样由于直接查找对应的唇形图像序列，从而可以减少计算量，以及提高获取唇形图像序列的效率。

步骤S104、将所述唇形图像序列与虚拟对象底板进行唇部融合，得到虚拟对象图像。

其中，上述虚拟对象底板可以是预先配置，上述将所述唇形图像序列与虚拟对象底板进行唇部融合，得到虚拟对象图像可以是，依次将唇形图像序列中的唇形图像与虚拟对象底板的唇部进行融合，从而得到多个连续虚拟对象图像，即虚拟对象图像视频。

步骤S105、显示所述虚拟对象图像。

本公开中在显示虚拟对象图像的同时，还可以播放上述获取的语音，以实现虚拟对象图像与语音的同步。

本公开中，针对语音片段可以是分别独立进行处理，例如：获得一个语音片段的对应的虚拟对象图像后，再预测另一个语音片段的唇形序列信息，得到该语音片段的虚拟对象图像；或者，在预测完一个语音片段的唇形序列信息后，在对该唇形序列信息进行处理(例如：查找唇形图像序列或者唇部融合)时预测下一个语音片段的唇形序列信息。

本公开中，通过上述步骤可以实现在本地生成语音对应的虚拟对象图像并显示，这样由于不需要通过网络获取虚拟对象图像，从而可以避免因网络环境原因导致无法获取虚拟对象图像的问题，进而提高获取虚拟对象图像的能力，以摆脱虚拟对象相关产品对网络信号的依赖。进一步，由于将语音分割成语音片段，这样可以避免电子设备的计算资源受限导致的无法一次性对整段语音进行处理的问题，以进一步提高电子设备的获取虚拟对象图像的能力。另外，由于对语音片段进行处理，从而可以避免由于获取的语音过长，而导致无法及时显示对应的虚拟对象图像的问题，以达到实现及时显示虚拟对象图像的效果。

需要说明的是，本公开可以应用于电子设备，例如：移动终端、计算机、智能手表、电视等具备显示功能的电子设备。

作为一种可选的实施方式，所述预测所述语音片段的唇形序列信息包括：

将所述语音片段输入预测模型进行预测，以得到所述语音片段的唇形序列信息，其中，所述预测模型为输入为语音片段输出为唇形序列信息的端到端模型。

其中，上述预测模型可以预先训练的，例如：使用语音片段作为训练样本对模型进行训练，以得到输入为语音片段输出为唇形序列信息的端到端模型。当然，上述预测模型还可以是预先接收其他设备配置的。

该实施方式中，由于直接将语音片段输入预测模型进行预测，这样不需要执行语音数据特征提取的操作，这样可以提高工作效率。例如：直接使用wav语音片段输入预测模型进行预测，得到唇形序列信息。

需要说明的是，本公开中并不限定通过上述预测模型进行预测，例如：在一些场景也可以提取语音数据特征进行预测，如针对一些高性能电子设备可以提取语音数据特征进行预测。

作为一种可选的实施方式，所述将获取的语音进行分割，得到语音片段包括：

将获取的语音进行分割，得到多个语音片段，其中，相邻的语音片段之间存在部分重叠(overlap)；

所述预测所述语音片段的唇形序列信息，包括：

依次预测所述多个语音片段的唇形序列信息。

其中，上述部分重叠的长度可以预先配置，具体可以是根据应用场景或者业务需求进行灵活设定。

该实施方式中，由于相邻的语音片段之间存在部分重叠，这样可以实现各语音片段保留了语音片段之间的前后文信息，从而提高唇形序列信息预测的准确率。

另外，由于依次预测所述多个语音片段的唇形序列信息，从而可以实现及时获取到各语音片段对应的虚拟对象图像，以避免由于获取的语音过长导致获取虚拟对象图像不及时的问题。例如：对每个语音片段执行端到端的处理，即处理完一个语音片段的虚拟对象图像后，接着处理下一个语音片段，以得到该语音片段对应的虚拟对象图像。

可选的，所述基于所述唇形序列信息查找对应的唇形图像序列，包括：

将第一语音片段的唇形序列信息去掉重叠语音的唇形信息，得到更新后的唇形序列信息，并基于所述更新后的唇形序列信息查找对应的唇形图像序列；

其中，所述重叠语音为所述第一语音片段中与第二语音片段重叠语音，所述第一语音片段和所述第二语音片段为所述多个语音片段中任意相邻的两个语音片段。

其中，上述第二语音片段可以是第一语音片段的前一个语音片段，这样可以实现将每个语音片段中与前一个语音片段的重叠语音对应的唇形信息去掉，保证最终显示的虚拟对象图像不会存在重叠的问题，以提高虚拟对象图像的显示效果。当然，上述第二语音片段也可以是第一语音片段的后一个语音片段，且可以达到相同效果。

需要说明的是，本公开中并不限定，去掉重叠语音的唇形信息，例如：还可以是不去掉重叠的唇形信息，而是去掉重叠的唇形图像，且可以达到相同的效果。

作为一种可选的实施方式，所述将所述唇形图像序列与虚拟对象底板进行唇部融合包括：

将所述唇形图像序列划分为M份唇形图像，M为大于1的整数；

使用处理器包括的M个核并行将所述M份唇形图像与虚拟对象底板进行唇部融合。

其中，上述M可以是电子设备的最大CPU核数。

例如：上述唇形图像序列包括N张唇形图像，将这N张唇形图像分成了M份，然后将第1，…，M张唇形图片同时送入设备的第1，…，M个核中去处理，处理完后直接输出前M帧；然后将第M+1，…，2*M张唇形图像同时送入设备的第1，…，M个核中去处理，以此类推。

该实施方式中，通过上述并行处理，可以提高融合图像的效率，例如：融合N张唇形图像所需的时间可以见底N/M倍。

在当前网络环境为预设网络环境的情况下，将获取的语音进行分割，得到语音片段；

所述方法还包括：

在所述当前网络环境不为所述预设网络环境的情况下，向云端发送获取的所述语音，并接收所述云端返回的所述语音对应的虚拟对象图像，并显示所述语音对应的虚拟对象图像。

其中，上述预测网络环境可以是断网环境、网络速度较慢的环境或者电子设备流程受限的环境等。

该实施方式中，可以实现根据当前网络环境灵活选择获取虚拟对象图像的方式，以提高电子设备的处理能力。

请参见图2，图2是本公开提供的另一种虚拟对象图像显示方法的流程图，如图2所示，包括以下步骤：

步骤S201、输入一段语音；

步骤S202、对语音进行带有部分重叠(overlap)的分割，分成固定长度的语音片段；

步骤S203、取出一个语音片段，通过序列模型预测出相应的唇形关键点或者索引序列；

步骤S204、检索唇形图像库，获取对应的唇形图像序列；

步骤S205、将唇形图像序列分成M份，放入M个队列，其中，M为电子设备的处理器核数；

步骤S206、每个队列取出一张图像，分别送到每个处理器的核中进行并行计算的唇形融合；

其中，在队列为空的情况下，返回步骤S203以处理另一个语音片段；

步骤S207、将图像按顺序播放在屏幕上。

请参见图3，图3是本公开提供的一种虚拟对象图像显示装置，如图3所示，虚拟对象图像显示装置300包括：

分割模块301，用于将获取的语音进行分割，得到语音片段；

预测模块302，用于预测所述语音片段的唇形序列信息；

查找模块303，用于基于所述唇形序列信息查找对应的唇形图像序列；

融合模块304，用于将所述唇形图像序列与虚拟对象底板进行唇部融合，得到虚拟对象图像；

显示模块305，用于显示所述虚拟对象图像。

可选的，所述预测模块302用于将所述语音片段输入预测模型进行预测，以得到所述语音片段的唇形序列信息，其中，所述预测模型为输入为语音片段输出为唇形序列信息的端到端模型。

可选的，所述分割模块301用于将获取的语音进行分割，得到多个语音片段，其中，相邻的语音片段之间存在部分重叠；

所述预测模块302用于依次预测所述多个语音片段的唇形序列信息。

可选的，所述查找模块303用于将第一语音片段的唇形序列信息去掉重叠语音的唇形信息，得到更新后的唇形序列信息，并基于所述更新后的唇形序列信息查找对应的唇形图像序列；

可选的，所述融合模块304用于将所述唇形图像序列划分为M份唇形图像，M为大于1的整数；以及使用处理器包括的M个核并行将所述M份唇形图像与虚拟对象底板进行唇部融合。

本实施例提供的装置能够实现图1所示的方法实施例中实现的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备和一种存储有计算机指令的非瞬时计算机可读存储介质。

如图4所示，是根据本公开实施例的虚拟对象图像显示方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本公开所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开所提供的虚拟对象图像显示方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的虚拟对象图像显示方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的虚拟对象图像显示方法对应的程序指令/模块(例如，附图3所示的分割模块301、预测模块302、查找模块303、融合模块304和显示模块305)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的虚拟对象图像显示方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据虚拟对象图像显示方法的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至虚拟对象图像显示方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

虚拟对象图像显示方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与虚拟对象图像显示方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种虚拟对象图像显示方法，包括：

将获取的语音进行分割，得到语音片段；

预测所述语音片段的唇形序列信息；

基于所述唇形序列信息查找对应的唇形图像序列；

显示所述虚拟对象图像。

2.根据权利要求1所述的方法，其中，所述预测所述语音片段的唇形序列信息包括：

3.根据权利要求1所述的方法，其中，所述将获取的语音进行分割，得到语音片段包括：

将获取的语音进行分割，得到多个语音片段，其中，相邻的语音片段之间存在部分重叠；

所述预测所述语音片段的唇形序列信息，包括：

依次预测所述多个语音片段的唇形序列信息。

4.根据权利要求3所述的方法，其中，所述基于所述唇形序列信息查找对应的唇形图像序列，包括：

5.根据权利要求1所述的方法，其中，所述将所述唇形图像序列与虚拟对象底板进行唇部融合包括：

将所述唇形图像序列划分为M份唇形图像，M为大于1的整数；

6.一种虚拟对象图像显示装置，包括：

分割模块，用于将获取的语音进行分割，得到语音片段；

预测模块，用于预测所述语音片段的唇形序列信息；

显示模块，用于显示所述虚拟对象图像。

7.根据权利要求6所述的装置，其中，所述预测模块用于将所述语音片段输入预测模型进行预测，以得到所述语音片段的唇形序列信息，其中，所述预测模型为输入为语音片段输出为唇形序列信息的端到端模型。

8.根据权利要求6所述的装置，其中，所述分割模块用于将获取的语音进行分割，得到多个语音片段，其中，相邻的语音片段之间存在部分重叠；

所述预测模块用于依次预测所述多个语音片段的唇形序列信息。

9.根据权利要求8所述的装置，其中，所述查找模块用于将第一语音片段的唇形序列信息去掉重叠语音的唇形信息，得到更新后的唇形序列信息，并基于所述更新后的唇形序列信息查找对应的唇形图像序列；

10.根据权利要求6所述的装置，其中，所述融合模块用于将所述唇形图像序列划分为M份唇形图像，M为大于1的整数；以及使用处理器包括的M个核并行将所述M份唇形图像与虚拟对象底板进行唇部融合。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。