CN117714763A

CN117714763A - 虚拟对象讲话视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN117714763A
Application number: CN202410163293.9A
Authority: CN
Inventors: 韩友仁; 王子烈; 马文凯
Original assignee: Shenzhen Hongpu Technology Co ltd
Current assignee: Shenzhen Hongpu Technology Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-03-15

Abstract

本申请提供了一种虚拟对象讲话视频生成方法、装置、电子设备及存储介质，涉及计算机图形学技术领域。其中，该方法包括：获取一段语音数据；将所述语音数据划分为不同区域；生成对应于所述不同区域的虚拟对象形象数据；所述虚拟对象形象数据包括虚拟对象的嘴唇动作影像；根据所述不同区域的时长，设置相应的所述虚拟对象形象数据的播放时长；根据所述虚拟对象形象数据以及所述播放时长、所述语音数据，合成所述虚拟对象讲话的视频。本申请有效地解决相关技术中存在的虚拟对象讲话的语音和嘴唇不同步、应用场景有限以及不能进行交互的问题。

Description

虚拟对象讲话视频生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机图形学技术领域，具体而言，本申请涉及一种虚拟对象讲话视频生成方法、装置、电子设备及存储介质。

背景技术

随着相关技术发展，虚拟对象（例如数字人）已经逐渐在各行业中进行了应用，例如日常生活中比较常见的一些应用：可以与用户聊天的虚拟客服、直播带货/播报新闻的虚拟主播、在博物馆中讲解文物古迹的虚拟讲解员等等。

虚拟对象通过模仿真人的形象和举止，可以在很多工作中替代真人，但是虚拟对象在说话过程中，可能会出现嘴唇开合和说话语音不一致、不同步的问题，虽然有克服该不同步的问题的方法，但这些方法要么需要较大的算力，使得应用场景有限，要么不能进行用户交互。

由上可知，现有技术中存在虚拟对象讲话的语音和嘴唇不同步、应用场景有限以及不能进行交互的问题。

发明内容

本申请各提供了一种虚拟对象讲话视频生成方法、装置、电子设备及存储介质，可以解决相关技术中存在的虚拟对象讲话的语音和嘴唇不同步、应用场景有限以及不能进行交互的问题。所述技术方案如下：

根据本申请的一个方面，一种虚拟对象讲话视频生成方法，包括：获取一段语音数据；将所述语音数据划分为不同区域；生成对应于所述不同区域的虚拟对象形象数据；所述虚拟对象形象数据包括虚拟对象的嘴唇动作影像；根据所述不同区域的时长，设置相应的所述虚拟对象形象数据的播放时长；根据所述虚拟对象形象数据以及所述播放时长、所述语音数据，合成所述虚拟对象讲话的视频。

根据本申请的一个方面，一种虚拟对象讲话视频生成装置，包括：语音数据获取模块，用于获取一段语音数据；区域划分模块，用于将所述语音数据划分为不同区域；形象数据生成模块，用于生成对应于所述不同区域的虚拟对象形象数据；所述虚拟对象形象数据包括虚拟对象的嘴唇动作影像；时长设置模块，用于根据所述不同区域的时长，设置相应的所述虚拟对象形象数据的播放时长；视频合成模块，用于根据所述虚拟对象形象数据以及所述播放时长、所述语音数据，合成所述虚拟对象讲话的视频。

在一示例性实施例中，所述语音数据获取模块包括：文本数据获取单元，用于获取文本数据；语音数据合成单元，用于将所述文本数据合成为所述语音数据。

在一示例性实施例中，所述区域划分模块包括：划分单元，用于将所述语音数据划分为至少包括静默区域和声音区域。

在一示例性实施例中，所述划分单元包括：划分子单元，用于将所述语音数据划分为静默区域、声音区域、第一过渡区域和第二过渡区域；所述第一过渡区域是由所述静默区域到声音区域之间的过渡区域，所述第二过度区域是由所述声音区域到静默区域之间的过渡区域。

在一示例性实施例中，所述区域划分模块还可以包括：特征提取单元，用于提取所述语音数据的特征，将所述特征和设定阈值进行比较，将所述语音数据划分为不同区域。

在一示例性实施例中，所述时长设置模块包括：形象数据处理单元，用于通过视频处理方法处理所述虚拟对象形象数据，使得所述不同区域的时长等于相应的所述虚拟对象形象数据的播放时长。

根据本申请的一个方面，一种电子设备，包括至少一个处理器以及至少一个存储器，其中，所述存储器上存储有程序指令或代码；所述程序指令或代码被所述处理器加载并执行，使得电子设备实现如上所述的虚拟对象讲话视频生成方法。

根据本申请的一个方面，一种存储介质，其上存储有程序指令或代码，所述程序指令或代码被处理器加载并执行，以实现如如上所述的虚拟对象讲话视频生成方法。

根据本申请的一个方面，一种计算机程序产品，计算机程序产品包括程序指令或代码，程序指令或代码存储在存储介质中，电子设备的处理器从存储介质读取程序指令或代码，加载并执行该程序指令或代码，使得电子设备实现如上所述的虚拟对象讲话视频生成方法。

本申请提供的技术方案带来的有益效果是：

在上述技术方案中，将语音数据划分为多个不同区域，并且生成不同区域相应的虚拟对象形象数据，根据语音数据不同区域的时长确定相应的虚拟对象形象数据的播放时长，进而合成得到虚拟对象讲话的视频。虚拟对象形象数据是和语音数据不同区域相对应的，并且虚拟对象形象数据的播放时长是根据语音数据不同区域的时长确定的，避免虚拟对象张嘴但是无声或者闭嘴但是有声的现象，保证虚拟对象的嘴唇配合说话过程进行开合，更具有真实感；并且上述方案无需依靠大算力，因此可以应用于更多电子设备（如普通的智能手机），也即拥有更广泛的应用场景，此外还可以将针对用户提问生成的文本数据转化为语音数据，进而生成相应的虚拟对象讲话视频，实现实时交互。因此，本申请方案能够有效地解决相关技术中存在的虚拟对象讲话的语音和嘴唇不同步、应用场景有限以及不能进行交互的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1是根据本申请所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种虚拟对象讲话视频生成方法的流程图；

图3是图2对应实施例中步骤200在一个实施例的流程图；

图4是图2对应实施例中步骤220在一个实施例的流程图；

图5是图2对应实施例中步骤220在另一个实施例的流程图；

图6是图2对应实施例中步骤260在一个实施例的流程图；

图7是根据一示例性实施例示出的一种虚拟对象讲话视频生成装置的结构框图；

图8是根据一示例性实施例示出的一种终端的硬件结构图；

图9是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面是对本申请涉及的几个名词进行的介绍和解释：

语音端点检测，即Voice Detect Activity（VDA），也称为语音活动检测，是一种是基于阈值的方法，该方法根据语音信号和噪声信号的不同特征，提取每一段语音信号的特征，然后把这些特征值与设定的阈值进行比较，从而达到语音端点检测的目的，该方法原理简单，运算方便。

语音合成，又称文本转语音（Text To Speech，TTS）技术，通过机械的、电子的方法产生人造语音，它能将任意文字信息实时转化为标准流畅的语音朗读出来，通俗的讲，语音合成技术就是赋予计算机像人一样可以自如说话的能力。它可以在任何时候将任意文本转换成具有高自然度的语音。

如前所述，相关技术中仍存在虚拟对象讲话的语音和嘴唇不同步、应用场景有限以及不能进行交互的缺陷。

有采用渲染软件的方式生成虚拟对象讲话视频，但是渲染对设备的算力提出了很高的要求，本地渲染往往需要携带沉重的服务器工作站，耗时耗力；同时，由于渲染对算力的要求高，这一方法也难以在硬件资源有限的设备中实现，例如难以在智能手机中进行，这也就导致渲染方式的应用场景非常有限。

也有提前录制好虚拟对象讲话视频的方式，但是这种方式产生的虚拟对象讲话视频的内容固定，无法与真人进行互动，可以适用于博物馆、科技馆等等需要单向讲解介绍（如文物古迹）的场景，无法适用在对实时性要求较高的场景中，例如无法针对用户提问进行回答。

还有方法，提前准备好虚拟对象的若干张照片，在语音数据播放过程中，轮询播放这若干张照片，这种方法真实感差，虚拟对象讲话时语音和嘴唇不同步。

由上可知，相关技术中仍存在虚拟对象讲话的语音和嘴唇不同步、应用场景有限以及不能进行交互的缺陷。

为此，本申请提供的虚拟对象讲话视频生成方法，能够有效地提升虚拟对象讲话视频生成的通用性（扩大应用场景）、生成的虚拟对象讲话视频的真实度和质量，相应地，该虚拟对象讲话视频生成方法适用于虚拟对象讲话视频生成装置，该虚拟对象讲话视频生成装置可部署于电子设备，该电子设备可以是配置冯诺依曼体系结构的计算机设备，例如，该计算机设备包括台式电脑、笔记本电脑、服务器等；该电子设备还可以是便携移动的电子设备，例如，该电子设备包括智能手机、平板电脑等。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为一种虚拟对象讲话视频生成方法所涉及的实施环境的示意图，该实施环境包括终端100和服务器200。

具体地，终端100可供提供视频播放功能的客户端运行，可以是台式电脑、笔记本电脑、平板电脑、智能手机等等电子设备，在此不进行限定。

其中，客户端，提供视频播放功能，例如，媒体播放器、浏览器等，可以是应用程序形式，也可以是网页形式，相应地，客户端进行播放视频的用户界面则可以是程序窗口形式，还可以是网页页面形式的，此处也并未加以限定。

服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。例如，本实施环境中，服务器200为终端100提供虚拟对象讲话视频生成服务。

服务器200通过有线或者无线等方式预先与终端100之间建立通信连接，并通过通信连接实现与终端100的联动，例如服务器200通过网络与终端100进行通信

数据存储系统可以存储服务器200需要处理的数据。数据存储系统可以集成在服务器200上，也可以放在云上或其他网络服务器上。

通过终端100与服务器200的交互，运行于终端100的客户端将向服务器200发起虚拟对象讲话视频生成请求，并且向服务器200传输一段语音数据。

对于服务器200而言，基于终端100发起的虚拟对象讲话视频生成请求，获取终端100发送的语音数据，将该语音数据划分为不同区域，生成对应于不同区域的虚拟对象形象数据，根据不同区域的时长，设置相应的虚拟对象形象数据的播放时长，进而根据所述虚拟对象形象数据以及所述播放时长、所述语音数据，合成虚拟对象讲话的视频。

服务器200在生成虚拟对象讲话视频后，将该虚拟对象讲话视频发送至终端100进行播放，供用户观看。

可能地，终端100在接收到用户提问后，将用户提问上传至服务器200生成相应的回复文本数据，服务器200将回复文本数据转换为语音数据，进而根据语音数据来生成虚拟对象讲话视频。

可能地，整个虚拟对象讲话视频生成过程可以在终端100中进行，无需请求服务器200提供服务。

请参阅图2，本申请实施例提供了一种虚拟对象讲话视频生成方法，该方法适用于电子设备，该电子设备可以是图1所示出实施环境中的服务器200，还可以是终端100。

在下述方法实施例中，为了便于描述，以该方法各步骤的执行主体为电子设备为例进行说明，但是并非对此构成具体限定。

如图2所示，该方法可以包括以下步骤：

步骤200，获取一段语音数据。

语音数据可以是任何语言形式的语音，例如可以是中文的语音数据，还可以是英文的语音数据。语音数据可以是通过真人录制的，也可以是使用计算机合成的，在此不做具体限定。

在一种可能的实现方式，如图3，步骤200可以包括如下步骤：

步骤300，获取文本数据。

文本数据可以是针对用户提问得到的相应的文本数据，还可以是提前编写好的讲解稿。举例而言，在实时交互的应用场景中，使用人工智能针对用户提问生成文本数据形式的回答，从而获取文本数据；在单向讲解的应用场景中，如博物馆，基于人工撰写的文本数据，从而获取文本数据。

步骤320，将文本数据合成为语音数据。

使用TTS技术将文本数据转换为语音数据

步骤220，将语音数据划分为不同区域。

在一种可能的实现方式，如图4，步骤220可以包括如下步骤：

步骤400，将语音数据划分为至少包括静默区域和声音区域。

静默区域是指语音数据中无有效说话声音的区域，声音区域是指语音数据中存在有效说话声音的区域。

具体地，将语音数据划分为静默区域、声音区域、第一过渡区域和第二过渡区域。

其中，第一过渡区域是由静默区域到声音区域之间的过渡区域，第二过度区域是由声音区域到静默区域之间的过渡区域。

应当理解，语音数据也可以只划分为两种不同区域，即声音区域和静默区域，划分为更多不同区域是为了生成更多不同（更丰富）的虚拟对象形象数据，便于合成更加具有真实感的虚拟对象讲话视频。

在一种可能的实现方式，语音数据也可以只划分为两种不同区域，即声音区域和静默区域，在后续合成视频的步骤中直接添加第一过渡区域和第二过渡区域。

在一种可能的实现方式，使用语音端点检测（Voice activity detection，VAD）对语音数据进行检测，从而将语音数据划分为不同区域。具体而言，如图5，步骤220可以包括如下步骤：

步骤500，提取语音数据的特征，将该特征和设定阈值进行比较，将语音数据划分为不同区域。

语音数据具有高维度、非平稳和非线性等特点，特征提取的目的是将输入的语音数据转化为一些有意义的、低维度的特征，以便后续的分类和识别。针对语音数据进行特征提取的方法包括短时能量、短时过零率、梅尔频率倒谱系数（MFCC）等。

语音数据被划分为不同的数据帧，每帧的长度通常为10~30ms，对于每个数据帧，特征提取器从中提取不同的特征，这些特征向量通常由语音数据的主要部分组成，比如时域和频域的特征。然后，对于这些特征，设定一个阈值，如果一个特征值超过该阈值，就认为该特征对应的语音区域开始，直到另一帧的特征向量值超过该阈值，就认为该特征对应的语音区域结束。通过将特征和设定阈值进行比较，确定不同区域的端点（开始和结束），从而将语音数据划分为不同区域。

设定阈值可以根据实际应用场景的需要灵活调整。可能地，设定阈值包括第一过渡区域和第二过渡区域的划分阈值。

步骤240，生成对应于语音数据不同区域的虚拟对象形象数据。

虚拟对象是指使用计算机技术生成的人物、动物、卡通形象，例如可以是数字人，还可以是虚拟的卡通拟人形象，虚拟对象可以是3D或者2D的，在此不做具体限定。

虚拟对象形象数据包括虚拟对象的嘴唇动作影像，可以是照片，也可以是视频，在一种可能的实现方式，虚拟对象形象数据包括：虚拟对象张嘴说话的视频、虚拟对象闭嘴的照片和/或视频、虚拟对象从张嘴说话到闭嘴的视频和虚拟对象从闭嘴到张嘴说话的视频。

其中，虚拟对象张嘴说话的视频对应于语音数据的声音区域，虚拟对象闭嘴的照片和/或视频对应于语音数据的静默区域，虚拟对象从张嘴说话到闭嘴的视频对应于语音数据的第一过渡区域，虚拟对象从闭嘴到张嘴说话的视频对应于语音数据的第二过渡区域。

在一种可能的实现方式，可以使用计算机图形学和计算机视觉技术生成虚拟对象形象数据。例如，使用3D建模软件或扫描仪来创建或获取对象的3D模型，然后使用渲染引擎来对模型进行纹理贴图，光照和阴影处理，以生成高质量的虚拟形象。此外，可以使用计算机视觉技术来对真实世界中的物体进行扫描，并将其转换为虚拟对象形象数据。

步骤260，根据不同区域的时长，设置相应的虚拟对象形象数据的播放时长。

在一种可能的实现方式，如图6，步骤260可以包括如下步骤：

步骤600，通过视频处理方法处理虚拟对象形象数据，使得语音数据不同区域的时长等于相应的虚拟对象形象数据的播放时长。

视频处理方法包括：裁剪、削除、加速、慢放、缩放、特效、文字、音频、图片转视频、图片/视频循环播放等等，在此不做具体限定。

举例说明，假定语音数据的声音区域的时长是5s，一段虚拟对象张嘴说话的视频（相应的虚拟对象形象数据）的时长为2s，使用视频处理方法让二者时长相同，也就是使用视频处理方法使虚拟对象张嘴说话的视频的播放时长为5s，具体地，可以循环播放该段虚拟对象张嘴说话的视频直至5s，或者慢放该段虚拟对象张嘴说话的视频直至5s，或者快进并且循环播放该段虚拟对象张嘴说话的视频直至5s。

又例如，假定语音数据的静默区域的时长为2s，可以循环播放一张虚拟对象闭嘴的照片直至2s。

步骤280，根据虚拟对象形象数据以及播放时长、语音数据，合成虚拟对象讲话的视频。

在一种可能的实现方式，将语音数据中的四个区域和四种虚拟对象形象数据形象一一对应地合成。

值得说明，在语音数据仅划分2个不同区域的情况下，为了让合成的虚拟对象讲话视频在声音区域和静默区域之间过渡得更真实，提升用户观看的体验，合成过程中，假设对应于第一过渡区域的虚拟对象形象数据的播放时长为1s，那么可以在语音数据的声音区域和静默区域之间增加一个时长为1s的第一过渡区域。

通过上述过程，将语音数据划分为多个不同区域，并且生成不同区域相应的虚拟对象形象数据，根据语音数据不同区域的时长确定相应的虚拟对象形象数据的播放时长，进而合成得到虚拟对象讲话的视频。虚拟对象形象数据是和语音数据不同区域相对应的，并且虚拟对象形象数据的播放时长是根据语音数据不同区域的时长确定的，避免虚拟对象张嘴但是无声或者闭嘴但是有声的现象，保证虚拟对象的嘴唇配合说话过程进行开合，更具有真实感；并且上述方案无需依靠大算力（不需渲染），即不需要高配置的硬件资源，因此可以应用于更多电子设备（如普通的智能手机），也即拥有更广泛的应用场景，通用性强；此外还可以将针对用户提问生成的文本数据转化为语音数据，进而实时生成相应的虚拟对象讲话视频，虚拟对象讲话视频的内容并不是固定不变，可以实现实时交互，进一步拓宽应用范围。因此，本申请方案能够有效地解决相关技术中存在的虚拟对象讲话的语音和嘴唇不同步、应用场景有限以及不能进行交互的问题。

下述为本申请装置实施例，可以用于执行本申请所涉及的虚拟对象讲话视频生成方法。对于本申请装置实施例中未披露的细节，请参照本申请所涉及的虚拟对象讲话视频生成方法的方法实施例。

请参阅图7，本申请实施例中提供了一种虚拟对象讲话视频生成装置900，包括但不限于：语音数据获取模块910、区域划分模块930、形象数据生成模块950、时长设置模块970以及视频合成模块990。

其中，语音数据获取模块910，用于获取一段语音数据。

区域划分模块930，用于将语音数据划分为不同区域。

形象数据生成模块950，用于生成对应于不同区域的虚拟对象形象数据；虚拟对象形象数据包括虚拟对象的嘴唇动作影像。

时长设置模块970，用于根据不同区域的时长，设置相应的虚拟对象形象数据的播放时长。

视频合成模块990，用于根据虚拟对象形象数据以及播放时长、语音数据，合成虚拟对象讲话的视频。

需要说明的是，上述实施例所提供的虚拟对象讲话视频生成装置在进行虚拟对象讲话视频生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即虚拟对象讲话视频生成装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的虚拟对象讲话视频生成装置与虚拟对象讲话视频生成方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图8，图8是根据一示例性实施例示出的一种终端的结构示意图。该终端适用于图1所示出实施环境中的终端100。

需要说明的是，该终端只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该终端也不能解释为需要依赖于或者必须具有图8中示出的示例性的终端1100中的一个或者多个组件。

如图8所示，终端1100包括存储器101、存储控制器103、一个或多个（图8中仅示出一个）处理器105、外设接口107、射频模块109、定位模块111、摄像模块113、音频模块115、触控屏幕117以及按键模块119。这些组件通过一条或多条通讯总线/信号线121相互通讯。

其中，存储器101可用于存储程序指令或代码，如本申请示例性实施例中的虚拟对象讲话视频生成方法及装置对应的程序指令或代码，处理器105通过运行存储在存储器101内的程序指令或代码，从而执行各种功能以及数据处理，即完成虚拟对象讲话视频生成方法。

存储器101作为资源存储的载体，可以是随机存储器、例如高速随机存储器、非易失性存储器，如一个或多个磁性存储装置、闪存、或者其它固态存储器。存储方式可以是短暂存储或者永久存储。

外设接口107可以包括至少一有线或无线网络接口、至少一串并联转换接口、至少一输入输出接口以及至少一USB接口等，用于将外部各种输入/输出装置耦合至存储器101以及处理器105，以实现与外部各种输入/输出装置的通信。

射频模块109用于收发电磁波，实现电磁波与电信号的相互转换，从而通过通讯网络与其他设备进行通讯。通信网络包括蜂窝式电话网、无线局域网或者城域网，上述通信网络可以使用各种通信标准、协议及技术。

定位模块111用于获取终端1100的当前所在的地理位置。定位模块111的实例包括但不限于全球卫星定位系统（GPS）、基于无线局域网或者移动通信网的定位技术。

摄像模块113隶属于摄像头，用于拍摄图片或者视频。拍摄的图片或者视频可以存储至存储器101内，还可以通过射频模块109发送至上位机。

音频模块115向用户提供音频接口，其可包括一个或多个麦克风接口、一个或多个扬声器接口以及一个或多个耳机接口。通过音频接口与其它设备进行音频数据的交互。音频数据可以存储至存储器101内，还可以通过射频模块109发送。

触控屏幕117在终端1100与用户之间提供一个输入输出界面。具体地，用户可通过触控屏幕117进行输入操作，例如点击、触摸、滑动等手势操作，以使终端1100对该输入操作进行响应。终端1100则将文字、图片或者视频任意一种形式或者组合所形成的输出内容通过触控屏幕117向用户显示输出。

按键模块119包括至少一个按键，用以提供用户向终端1100进行输入的接口，用户可以通过按下不同的按键使终端1100执行不同的功能。例如，声音调节按键可供用户实现对终端1100播放的声音音量的调节。

可以理解，图8所示的结构仅为示意，终端1100还可包括比图8中所示更多或更少的组件，或者具有与图8所示不同的组件。图8中所示的各组件可以采用硬件、软件或者其组合来实现。

请参阅图9，本申请实施例中提供了一种电子设备4000，该电子设备4000可以包括：台式电脑、笔记本电脑、智能手机等。

在图9中，该电子设备4000包括至少一个处理器4001以及至少一个存储器4003。

其中，处理器4001和存储器4003之间的数据交互，可以通过至少一个通信总线4002实现。该通信总线4002可包括一通路，用于在处理器4001和存储器4003之间传输数据。通信总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（Extended Industry Standard Architecture，扩展工业标准结构）总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序指令或代码并能够由电子设备400存取的任何其他介质，但不限于此。

存储器4003上存储有程序指令或代码，处理器4001可以通过通信总线4002读取存储器4003中存储的程序指令或代码。

该程序指令或代码被处理器4001执行时实现上述各实施例中的虚拟对象讲话视频生成方法。

此外，本申请实施例中提供了一种存储介质，该存储介质上存储有程序指令或代码，所述程序指令或代码被处理器加载并执行，以实现如如上所述的虚拟对象讲话视频生成方法。

本申请实施例中提供了一种计算机程序产品，计算机程序产品包括程序指令或代码，程序指令或代码存储在存储介质中，电子设备的处理器从存储介质读取程序指令或代码，加载并执行该程序指令或代码，使得电子设备实现如上所述的虚拟对象讲话视频生成方法。

与相关技术相比，本申请能够产生如下有益效果：

1、将语音数据划分为多个不同区域，并且生成不同区域相应的虚拟对象形象数据，根据语音数据不同区域的时长确定相应的虚拟对象形象数据的播放时长，进而合成得到虚拟对象讲话的视频。虚拟对象形象数据是和语音数据不同区域相对应的，并且虚拟对象形象数据的播放时长是根据语音数据不同区域的时长确定的，避免虚拟对象张嘴但是无声或者闭嘴但是有声的现象，保证虚拟对象的嘴唇配合说话过程进行开合，更具有真实感；并且上述方案无需依靠大算力（不需渲染），即不需要高配置的硬件资源，因此可以应用于更多电子设备（如普通的智能手机），也即拥有更广泛的应用场景，通用性强；此外还可以将针对用户提问生成的文本数据转化为语音数据，进而实时生成相应的虚拟对象讲话视频，虚拟对象讲话视频的内容并不是固定不变，可以实现实时交互，也进一步拓宽应用范围。因此，本申请方案能够有效地解决相关技术中存在的虚拟对象讲话的语音和嘴唇不同步、应用场景有限以及不能进行交互的问题。

2、本申请方案可以由前端独立完成，不需要与后台交互，有利于节省网络资源，降低成本。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种虚拟对象讲话视频生成方法，其特征在于，包括：

获取一段语音数据；

将所述语音数据划分为不同区域；

生成对应于所述不同区域的虚拟对象形象数据；所述虚拟对象形象数据包括虚拟对象的嘴唇动作影像；

根据所述不同区域的时长，设置相应的所述虚拟对象形象数据的播放时长；

根据所述虚拟对象形象数据以及所述播放时长、所述语音数据，合成所述虚拟对象讲话的视频。

2.如权利要求1所述的方法，其特征在于，所述获取一段语音数据，包括：

获取文本数据；

将所述文本数据合成为所述语音数据。

3.如权利要求1所述的方法，其特征在于，所述将所述语音数据划分为不同区域，包括：

将所述语音数据划分为至少包括静默区域和声音区域。

4.如权利要求3所述的方法，其特征在于，所述将所述语音数据划分为至少包括静默区域和声音区域，包括：

将所述语音数据划分为静默区域、声音区域、第一过渡区域和第二过渡区域；所述第一过渡区域是由所述静默区域到声音区域之间的过渡区域，所述第二过渡区域是由所述声音区域到静默区域之间的过渡区域。

5.如权利要求4所述的方法，其特征在于，所述虚拟对象形象数据包括：虚拟对象张嘴说话的视频、虚拟对象闭嘴的照片和/或视频、虚拟对象从张嘴说话到闭嘴的视频和虚拟对象从闭嘴到张嘴说话的视频。

6.如权利要求1所述的方法，其特征在于，所述将所述语音数据划分为不同区域，包括：

提取所述语音数据的特征，将所述特征和设定阈值进行比较，将所述语音数据划分为不同区域。

7.如权利要求1至6任一项所述的方法，其特征在于，所述根据所述不同区域的时长，设置相应的所述虚拟对象形象数据的播放时长，包括：

通过视频处理方法处理所述虚拟对象形象数据，使得所述不同区域的时长等于相应的所述虚拟对象形象数据的播放时长。

8.一种虚拟对象讲话视频生成装置，其特征在于，包括：

语音数据获取模块，用于获取一段语音数据；

区域划分模块，用于将所述语音数据划分为不同区域；

形象数据生成模块，用于生成对应于所述不同区域的虚拟对象形象数据；所述虚拟对象形象数据包括虚拟对象的嘴唇动作影像；

时长设置模块，用于根据所述不同区域的时长，设置相应的所述虚拟对象形象数据的播放时长；

视频合成模块，用于根据所述虚拟对象形象数据以及所述播放时长、所述语音数据，合成所述虚拟对象讲话的视频。

9.一种电子设备，其特征在于，包括：至少一个处理器以及至少一个存储器，其中，

所述存储器上存储有程序指令或代码；

所述程序指令或代码被所述处理器加载并执行，使得电子设备实现如权利要求1至7中任一项所述的虚拟对象讲话视频生成方法。

10.一种存储介质，其上存储有程序指令或代码，其特征在于，所述程序指令或代码被处理器加载并执行，以实现如权利要求1至7中任一项所述的虚拟对象讲话视频生成方法。