CN115083371A

CN115083371A - 驱动虚拟数字形象唱歌的方法及其装置

Info

Publication number: CN115083371A
Application number: CN202210637106.7A
Authority: CN
Inventors: 郭紫垣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-09-20

Abstract

本公开提供了一种驱动虚拟数字形象唱歌的方法及其装置，涉及人工智能技术领域，尤其涉及虚拟数字形象、智能媒体等技术领域。具体实现方案为：获取虚拟数字形象、目标旋律和文本数据；获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理以获取初始歌曲；获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲；基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。本公开实现了对歌曲旋律以及歌词文本进行建模来生成特定节奏的目标歌曲，并以此来对虚拟数字形象进行精准自然的口型驱动，实现虚拟数字形象唱歌。

Description

驱动虚拟数字形象唱歌的方法及其装置

技术领域

本公开涉及人工智能技术领域，尤其涉及虚拟数字形象、智能媒体等技术领域，具体涉及一种驱动虚拟数字形象唱歌的方法及其装置。

背景技术

虚拟数字形象，例如，虚拟数字人，有着广泛的工业应用，最为常见的应用领域有虚拟主播、虚拟客服、虚拟助理、虚拟教师、虚拟偶像以及其他互动游戏和娱乐等。以虚拟数字人为例，在相关技术中，基于单音色的3D人脸唇动驱动方法只能对机器音和真人音频进行驱动。无法对歌曲旋律以及歌词文本进行建模来生成特定节奏的机器声，并以此来进行精准的虚拟数字人口型驱动，这种能力的缺失导致了在虚拟数字人实际应用过程中有较大的场景限制。

发明内容

本公开提供了一种用于驱动虚拟数字形象唱歌的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种驱动虚拟数字形象唱歌的方法，包括：获取虚拟数字形象、目标旋律和文本数据；获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理，以获取初始歌曲；获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲；基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。

本公开提供的驱动虚拟数字形象唱歌的方法，实现了对歌曲旋律以及歌词文本进行建模来生成特定节奏的目标歌曲，并以此来对虚拟数字形象进行精准自然的口型驱动，实现虚拟数字形象唱歌，增加了虚拟数字形象的使用场景。

根据本公开的另一方面，提供了一种驱动虚拟数字形象唱歌的装置，包括：获取模块，用于获取虚拟数字形象、目标旋律和文本数据；处理模块，用于获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理，以获取初始歌曲；修正模块，用于获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲；驱动模块，用于基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述驱动虚拟数字形象唱歌的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述驱动虚拟数字形象唱歌的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述驱动虚拟数字形象唱歌的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一示例性实施例一种驱动虚拟数字形象唱歌的方法的示例性实施方式。

图2是根据本公开一示例性实施例的不同的blenshape系数对应的3D人脸示意图。

图3是根据本公开一示例性实施例的目标对象的人脸面部的关键点的示意图。

图4是根据本公开一示例性实施例的部分与口型变化无关的blenshape系数对应的3D人脸示意图。

图5是根据本公开一示例性实施例的初始歌曲的确定过程的示意图。

图6是根据本公开一示例性实施例的对目标旋律进行节奏点打点的示意图。

图7是根据本公开一示例性实施例的对音频数据中每个目标实体词的发音时长进行时长拉伸或者压缩的示意图。

图8是根据本公开一示例性实施例的基于音调数据和频率数据对初始歌曲进行修正的示意图。

图9是根据本公开一示例性实施例的目标口型系数序列的确定过程的示意图。

图10是根据本公开一示例性实施例的张闭口幅度的示意图。

图11是根据本公开一示例性实施例的基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行播放的示意图。

图12是根据本公开一示例性实施例的一种驱动虚拟数字形象唱歌的方法的总体流程图。

图13是根据本公开一示例性实施例的一种驱动虚拟数字形象唱歌的装置的示意图。

图14是根据本公开一示例性实施例的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

智能媒体是一种人工智能与人类智能协同的在线社会信息传播系统。智能媒体是能够感知用户并为用户带来更佳体验的信息客户端与服务端的总和。智能媒体的核心是基于用户的需求实时的、智能的向其提供产品，目的是为了更好的服务于用户，从而为自身的发展注人强大的竞争力。

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

图1是本公开示出的一种驱动虚拟数字形象唱歌的方法的示例性实施方式，如图1所示，该驱动虚拟数字形象唱歌的方法，包括以下步骤：

S101，获取虚拟数字形象、目标旋律和文本数据。

虚拟数字形象是指并非存在于真实世界的，而是存在于非物理世界中，采用多种动作捕捉、计算机图形学、图形渲染、深度学习、语音合成等手段创造并使用的，具备相应的与人类相似的外貌特征、人类表演能力、人类交互能力等多重人类特征的综合产物。也可以称之为虚拟形象、虚拟人、数字人等，代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。

本公开中，获取的虚拟数字形象可以是从多个待选择的虚拟数字形象中选定的虚拟数字形象，也可以是使用虚拟数字形象的用户自身对应的虚拟数字形象。

可选地，若使用虚拟数字形象的用户还没有对应的虚拟数字形象，则可对该用户进行视频录制，以基于录制的视频，采用3D人脸参数化模型对该用户进行人脸面部重建，以获取该用户该用户对应的三维人脸模型。其中，3D人脸参数化模型是一个从大量人脸数据中学习到的基于顶点的加性模型，其由一定个数的顶点和对应的三角面片组成，并包括一个拥有不同人脸表情混合形状(blendshape)系数，通过对不同blenshape系数加权可以驱动人脸模型做出各种表情变化。图2是不同的blenshape系数对应的3D人脸示意图，如图2所示，左中右三张3D人脸对应不同的blenshape系数，不同的blenshape系数对应不同的3D人脸形态。

通过人脸关键点模型检测目标对象的人脸面部的关键点，以获取目标对象的二维人脸关键点数据。其中，通过人脸关键点模型检测的每个关键点都带有该关键点的置信度数据。如图3所示，图3是人脸关键点模型检测目标对象的人脸面部的关键点的示意图。

为了有效剔除三维人脸模型上的错误点位置约束，提升虚拟数字形象拟合结果的鲁棒性和稳定性，对上述获得的三维人脸模型和二维人脸关键点数据进行融合，即拟合得到的三维人脸模型的2D投影和检测到的二维人脸关键点数据的误差，逐步生成人脸3D模型的blenshape系数，以获取目标对象对应的虚拟数字形象。

优选地，由于眉眼的运动与运动姿态和口型变化无关，本公开使用的3D人脸参数化模型对眉眼等blenshape系数做归零约束，并剥离人脸的运动姿态，准确驱动虚拟数字形象的口型变化。图4是部分与口型变化无关的blenshape系数对应的3D人脸示意图，如图4所示，左中右三张3D人脸的口型并没有发生变化，只有眼睛状态发生变化。在实际应用中，对虚拟数字形象的口型变化做准确驱动，而对虚拟数字形象的眉眼变化可做固定驱动或者随机驱动，比如说每间隔5秒控制虚拟数字形象进行眨眼动作。

获取目标旋律和文本数据。其中，目标旋律指的是用于驱动虚拟数字形象进行唱歌的旋律，文本数据指的是用来进行歌唱的歌词，其中，文本数据可以是内置的中文歌词或者外文歌词，也可以为随机指定的文字数据。

S102，获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理，以获取初始歌曲。

对目标旋律进行节奏打点，获取目标旋律的节奏数据。节奏数据中包括节奏点位置和节奏时长，节奏点位置指的是每个节奏点在目标旋律上的位置，节奏时长指的是每相邻两个节奏点之间的目标旋律的时长。

获取节奏点位置后，使用从文本到语音(Text To Speech，TTS)模型将文本数据转化为音频数据，由于文本数据转换为音频数据后，每个目标实体词的发音时长不一定与节奏时长完全相同，为了实现目标歌曲的节奏准确，可对音频数据中每个目标实体词的发音时长进行时长拉伸或者压缩，以与节奏时长进行匹配，获取与节奏时长匹配的音频作为初始音频。

S103，获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲。

提取出给定的目标旋律的在不同节奏点范围的音调数据和频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲。

示例性的，通过语音风格转换模型可以有效提取出目标旋律在不同节奏点范围的音调数据和频率数据，可以将目标旋律中的音调数据和频率数据转换到初始歌曲上，从而生成具有特定音调数据和频率数据的机器音以作为目标歌曲。

S104，基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。

将虚拟数字形象的口型姿态对应的系数称为口型系数。根据上述获得的文本数据中的目标实体词，可确定每个目标实体词对应的虚拟数字形象的每一帧动画帧对应的初始口型系数。

可选的，上述将文本数据转化为机器音音频数据后，则可查询预设的候选发音人、候选实体词与候选口型系数的映射关系，以获取每个目标实体词对应的虚拟数字形象的每一帧动画帧对应的初始口型系数。其中，每个候选发音人对应一种机器音。比如说，候选发音人可包括小男孩、小女孩，大叔等。

可选的，在获取每一帧动画帧对应的初始口型系数后，为了提高动画帧中虚拟数字形象口型的丰富度，可对每一帧动画帧对应的初始口型系数进行优化，以获取优化后得到的每一帧动画帧对应的目标口型系数，并基于文本数据中目标实体词的顺序，对所有目标口型系数进行排列，得到目标口型系数序列。

基于上述获得的目标口型系数序列，结合选取的虚拟数字形象，生成目标口型系数序列中每个目标口型系数对应的虚拟数字形象动画帧，并按照文本数据中目标实体词的顺序对所有动画帧进行拼接并按照拼接顺序对所有动画帧进行播放，以生成虚拟数字形象动画。

在按照拼接顺序对所有动画帧进行播放的同时，同步播放上述获得的目标歌曲，以使得目标歌曲当前播放的每个目标实体词与虚拟数字形象动画中当前动画帧的目标口型系数一一对应，即表现出虚拟数字形象正在演唱目标歌曲的状态。

本公开实施例提出的驱动虚拟数字形象唱歌的方法，通过获取虚拟数字形象、目标旋律和文本数据；获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理，以获取初始歌曲；获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲；基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。本公开实施例实现了对歌曲旋律以及歌词文本进行建模来生成特定节奏的目标歌曲，并以此来对虚拟数字形象进行精准自然的口型驱动，实现虚拟数字形象唱歌，增加了虚拟数字形象的使用场景。

图5是本公开示出的一种驱动虚拟数字形象唱歌的方法的示例性实施方式，如图5所示，基于上述实施例的基础上，基于节奏数据对文本数据进行处理，以获取初始歌曲，包括以下步骤：

S501，基于文本数据和节奏数据，生成初始音频。

从目标旋律中找到所有的节奏点位置，进行节奏点打点。图6是对目标旋律进行节奏点打点的示意图，如图6所示，从目标旋律中找到所有的节奏点位置，进行打点。在给定节奏点位置后，使用从文本到语音(Text To Speech，TTS)模型将文本数据转化为音频数据，由于文本数据转换为音频数据后，每个目标实体词的发音时长不一定与节奏时长完全相同，为了实现目标歌曲的节奏准确，可对音频数据中每个目标实体词的发音时长进行时长拉伸或者压缩，以与节奏时长进行匹配，获取与节奏时长匹配的音频作为初始音频。其中，内置的文本数据中的中文歌词需提前做好分词工作，内置的文本数据为英文时，可以以两个单词之间的空格作为实体词的分隔标志。

图7是对音频数据中每个目标实体词的发音时长进行时长拉伸或者压缩的示意图，如图7所示，文本数据转换为的音频数据与节奏点时长不完全相同，为了与节奏点时长进行匹配，对音频数据中每个目标实体词的发音时长进行时长拉伸或者压缩以与节奏点时长进行匹配。

S502，确定目标发音人和目标发音人的发音特征信息。

在获取初始音频后，需要确定目标发音人和目标发音人的发音特征信息。

作为一种可实现的方式，在确定目标发音人时，可获取选择指令，选择指令用于指示从多个候选发音人中选择目标发音人，按照选择指令确定目标发音人，并获取目标发音人的发音特征信息。示例性的，若共有5个候选发音人，分别为候选发音人1、候选发音人2、候选发音人3、候选发音人4和候选发音人5，则可从中选取候选发音人4作为目标发音人。

作为另一种可实现的方式，在确定目标发音人时，确定文本数据的文本特征信息，基于文本特征信息对应的场景或者内容，从多个候选发音人中确定合适的目标发音人，并获取目标发音人的发音特征信息。示例性的，若文本数据为儿歌歌词，则可选取儿童作为目标发音人。

S503，按照发音特征信息，对初始音频进行调整，生成与目标发音人的发音特征匹配的初始歌曲。

获取目标发音人及目标发音人的发音特征信息，并按照发音特征信息，对上述获取的初始音频进行调整，生成与目标发音人的发音特点匹配的初始歌曲。需要注意的是，由于此时还没有对初始歌曲引入目标旋律的音调数据和频率数据，此时获得的初始歌曲可以理解为与节奏点匹配的目标发音人对应的机器音。

本申请实施例确定目标发音人和目标发音人的发音特征信息，按照发音特征信息，对初始音频进行调整，生成与目标发音人的发音特征匹配的初始歌曲，使得初始歌曲可以为不同的风格，更具有泛化性，增加了虚拟数字形象唱歌的适用场景。

进一步的，按照发音特征信息，对初始音频进行调整，生成与目标发音人的发音特征匹配的初始歌曲之后，可提取出给定的目标旋律的音调数据和频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲。图8是基于音调数据和频率数据对初始歌曲进行修正的示意图，如图8所示，基于音调数据和频率数据对初始歌曲进行修正以获取目标歌曲。

图9是本公开示出的一种驱动虚拟数字形象唱歌的方法的示例性实施方式，如图9所示，基于上述实施例的基础上，目标口型系数序列的确定过程，包括以下步骤：

S901，获取文本数据的多个目标实体词和目标实体词的发音次序。

采用分词模型对文本数据进行分词操作，以对风格化机器音的实体词范围进行有效切分，以获取分词操作后得到的多个目标实体词，并基于文本数据的多个目标实体词的排列顺序获取目标实体词的发音次序。示例性的，若文本数据为“欢迎你游览我的家乡”，则采用分词模型对文本数据进行分词操作后，可得到的多个目标实体词分别为“欢迎”、“你”、“游览”、“我”、“的”、“家乡”。

S902，获取每个目标实体词对应的目标口型系数。

将可选择的每个发音人作为候选发音人，比如说，候选发音人可包括小男孩、小女孩，大叔等。示例性的，可将目标对象的历史音视频数据中或者采样音视频数据中出现过的每个实体词作为候选实体词，将目标对象的历史音视频数据中或者采样音视频数据中每个候选实体词对应的每一帧虚拟数字形象动画的口型系数作为候选口型系数。

为了实现基于目标对象对应的目标实体词和目标发音人便可获取目标口型系数，以驱动虚拟数字形象运动，本公开实施例中，预先建立了每个候选发音人、候选实体词与候选口型系数之间的映射关系。

其中，针对任一候选发音人，映射关系的确定过程，包括：

获取该候选发音人的候选视频数据，可选的，候选视频数据可以为专门对该候选发音人录制的用于构建映射关系的采样视频数据，也可为该候选发音人的历史视频数据。在获取候选视频数据的过程中，会同步记录该候选发音人的声音信息，将该声音信息作为该候选发音人的候选音频数据。

在获取该候选发音人的候选视频数据之后，获取每帧候选视频数据中的候选发音人的面部关键点和候选视频帧顺序。基于每帧候选视频数据中候选发音人的面部关键点，对该候选发音人进行面部重建，生成该候选发音人的每帧候选视频帧对应的每帧候选动画帧，并将每帧候选动画帧中候选虚拟数字形象对应的口型系数作为候选口型系数。可选地，在对该候选发音人进行面部重建时，可采用3D人脸参数化模型。

在获取该候选发音人的每帧候选视频帧对应的候选动画帧后，按照候选视频帧顺序，对所有候选动画帧拼接，将获得的该候选发音人的动画序列作为该候选发音人的对应的候选动画序列。

针对上述获取该候选发音人的候选视频数据的过程中同步记录的候选音频数据，对候选音频数据进行文本识别，获取候选音频数据对应的候选文本数据。优选的，候选音频数据中可包括多种发音音节。可选地，在对候选音频数据进行文本识别时，可采用自动语音识别技术(Automatic Speech Recognition，ASR)模型对候选音频数据进行文本识别。

在获取候选音频数据对应的候选文本数据后，采用分词模型对候选文本数据进行分词操作，以对候选音频数据的实体词范围进行有效切分，以获取分词操作后得到的多个候选实体词。根据该候选发音人，以及该候选发音人对应的候选实体词与该候选发音人对应的候选动画帧对应的候选口型系数，建立该候选发音人、候选实体词与候选口型系数之间的映射关系以供后续调用。

根据上述确定的目标对象对应的文本数据中的目标实体词和目标对象对应的目标发音人，查询映射关系，将查询得到的目标发音人与目标实体词对应的候选口型系数作为该目标实体词对应的初始口型系数。

作为一种可实现的方式，可直接将初始口型系数作为虚拟数字形象对应的目标口型系数。

作为另一种可实现的优化方式，为了使得生成的虚拟数字形象的口型变化更加丰富和饱满，可对初始口型系数进行优化，获取优化后的目标口型系数。

可选的，在对初始口型系数进行优化时，可基于目标发音人的候选音频数据获取目标发音人对应的候选音频数据中每个发音单元的发音口型对应的向量信息，并基于该目标发音人对应的所有发音单元的发音口型对应的向量信息，确定张闭口幅度最大的发音口型作为目标发音口型，并将目标发音口型对应的向量作为目标发音人对应的目标向量。并基于该目标向量，对初始口型系数进行优化，获取优化后的目标口型系数。

示例性的，若目标发音人候选音频数据中包括1000个发音单元，则获取该目标发音人表述这1000个发音单元时的发音口型对应的向量信息，每个发音单元对应一个向量，从这1000个发音单元对应的1000个向量中，选取一个张闭口幅度最大的向量作为目标发音人对应的目标向量，并基于该目标向量，对初始口型系数进行优化，获取优化后的目标口型系数。图10为张闭口幅度的示意图，如图10所示，上下嘴唇两个点的连线表示口型张合的幅度，张开幅度应尽可能大以提高虚拟数字形象口型变化的丰富度，使得生成的虚拟数字形象的口型变化更加丰富和饱满。

示例性的，基于目标向量，对初始口型系数进行优化，获取目标口型系数时，可获取目标向量对应的第一权重和初始口型系数对应的第二权重，并基于第一权重和第二权重，对目标向量和初始口型系数进行加权处理，得到目标口型系数，以使得生成的虚拟数字形象的口型变化更加丰富和饱满。

可选的，在上述建立候选发音人、候选实体词与候选口型系数之间的映射关系时，可基于多个候选发音人的候选视频数据和候选音频数据训练出一个卷积神经网络唇动模型，将候选视频数据和与其对应的候选音频数据输入唇动模型，对于每一个大小为385ms的语音窗口，把语音分成64个语音片段，对每个的语音片段提取长度为32个分量的自相关系数，组成64x32维特征作为模型的语音特征输入。其中，除了使用64x32的自相关语音特征作为输入外，为了区分不同的候选发音人，可对不同的候选发音人做不同的ID编码，可选的，可基于随机高斯采样对不同的候选发音人进行ID编码，比如说，对于每一个候选发音人使用长度为32的ID编码来表示。对于每一个候选发音人对应的候选音频数据中每个字的发音口型对应的向量信息，建立该候选发音人对应的向量信息库。实际进行训练时，训练数据使用每个候选发音人对应的ID编码，与对应的向量信息库向量做点乘操作，与候选音频数据共同作为模型输入以训练卷积神经网络唇动模型，卷积神经网络唇动模型的输出为每个候选发音人对应的候选音频数据中的候选实体词对应的候选口型系数。

S903，按照发音次序，基于目标口型系数，生成虚拟数字形象对应的目标口型系数序列。

基于文本数据中目标实体词的顺序，对所有目标口型系数进行排列，得到目标口型系数序列。

本公开实施例获取多个候选发音人的候选视频数据，建立候选发音人、候选实体词与候选口型系数之间的映射关系，能够兼容多种发音人的音色，确定目标发音人对应的用于对初始口型系数进行优化的张闭口效果最好的目标向量对初始口型系数进行优化，能够增加虚拟数字形象口型的节奏感和丰富度，实现基于文本数据确定虚拟数字形象对应的目标口型系数序列，以准确驱动虚拟数字形象。

图11是本公开示出的一种驱动虚拟数字形象唱歌的方法的示例性实施方式，如图11所示，基于上述实施例的基础上，基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱，包括以下步骤：

S1101，基于目标口型系数序列驱动虚拟数字形象，生成多张动画帧。

基于上述获得的目标口型系数序列，结合选取的虚拟数字形象，生成目标口型系数序列中每个目标口型系数对应的虚拟数字形象动画帧。

S1102，基于目标歌曲对动画帧进行拼接，并驱动虚拟数字形象对目标歌曲进行演唱。

按照文本数据中目标实体词的顺序对所有动画帧进行拼接并按照拼接顺序对所有动画帧进行播放，以生成虚拟数字形象动画。在按照拼接顺序对所有动画帧进行播放的同时，同步播放上述获得的目标歌曲，以使得目标歌曲当前播放的每个目标实体词与虚拟数字形象动画中当前动画帧的目标口型系数一一对应，即表现出虚拟数字形象正在演唱目标歌曲的状态。

本公开实施例实现了对歌曲旋律以及歌词文本进行建模来生成特定节奏的机器声，并以此来对虚拟数字形象进行精准自然的口型驱动，实现虚拟数字形象唱歌，增加了虚拟数字形象的使用场景。

图12是本公开示出的一种驱动虚拟数字形象唱歌的方法的总体流程图，如图12所示，该驱动虚拟数字形象唱歌的方法，包括以下步骤：

S1201，获取虚拟数字形象、目标旋律和文本数据。

S1202，基于文本数据和节奏数据，生成初始音频。

S1203，确定目标发音人和目标发音人的发音特征信息。

S1204，按照发音特征信息，对初始音频进行调整，生成与目标发音人的发音特征匹配的初始歌曲。

关于步骤S1201～S1204的实现方式，可参照上述实施例中相关部分的介绍，在此不再进行赘述。

S1205，获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲。

S1206，获取文本数据的多个目标实体词和各个目标实体词的发音次序。

S1207，获取候选发音人、候选实体词与候选口型系数之间的映射关系。

S1208，基于目标实体词和目标发音人，查询映射关系，确定目标实体词对应的初始口型系数。

S1209，基于初始口型系数，获取目标口型系数。

S1210，按照发音次序，基于目标口型系数，生成虚拟数字形象对应的目标口型系数序列。

S1211，基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。

关于步骤S1205～S1211的实现方式，可参照上述实施例中相关部分的介绍，在此不再进行赘述。

本公开实施例提出的驱动虚拟数字形象唱歌的方法，通过获取虚拟数字形象、目标旋律和文本数据；获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理以获取初始歌曲；获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲；基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。本公开实施例实现了对歌曲旋律以及歌词文本进行建模来生成特定节奏的目标歌曲，并以此来对虚拟数字形象进行精准自然的口型驱动，实现虚拟数字形象唱歌，增加了虚拟数字形象的使用场景。

图13是本公开示出的一种驱动虚拟数字形象唱歌的装置的示意图，如图13所示，该驱动虚拟数字形象唱歌的装置1300，包括获取模块1301、处理模块1302、修正模块1303和驱动模块1304，其中：

获取模块1301，用于获取虚拟数字形象、目标旋律和文本数据；

处理模块1302，用于获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理，以获取初始歌曲；

修正模块1303，用于获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲；

驱动模块1304，用于基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。

本公开实施例提出的驱动虚拟数字形象唱歌的装置，通过获取虚拟数字形象、目标旋律和文本数据；获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理以获取初始歌曲；获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲；基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。本公开实施例实现了对歌曲旋律以及歌词文本进行建模来生成特定节奏的目标歌曲，并以此来对虚拟数字形象进行精准自然的口型驱动，实现虚拟数字形象唱歌，增加了虚拟数字形象的使用场景。

进一步的，处理模块1302，还用于:基于文本数据和节奏数据，生成初始音频；确定目标发音人和目标发音人的发音特征信息；按照发音特征信息，对初始音频进行调整，生成与目标发音人的发音特征匹配的初始歌曲。

进一步的，处理模块1302，还用于:获取选择指令，选择指令用于指示从多个候选发音人中选择目标发音人；按照选择指令确定目标发音人，并获取目标发音人的发音特征信息；或者，确定文本数据的文本特征信息，基于文本特征信息从多个候选发音人中确定目标发音人，并获取目标发音人的发音特征信息。

进一步的，驱动模块1304，还用于:获取文本数据的多个目标实体词和各个目标实体词的发音次序；获取每个目标实体词对应的目标口型系数；按照发音次序，基于目标口型系数，生成虚拟数字形象对应的目标口型系数序列。

进一步的，驱动模块1304，还用于:获取候选发音人、候选实体词与候选口型系数之间的映射关系；基于目标实体词和目标发音人，查询映射关系，确定目标实体词对应的初始口型系数；基于初始口型系数，获取目标口型系数。

进一步的，驱动模块1304，还用于:对初始口型系数进行优化，得到目标口型系数。

进一步的，驱动模块1304，还用于:基于目标发音人的候选音频数据，确定用于对初始口型系数进行优化的目标向量；基于目标向量，对初始口型系数进行优化，获取目标口型系数。

进一步的，驱动模块1304，还用于:获取目标发音人的候选音频数据，并基于候选音频数据获取候选音频数据中每个发音单元的发音口型对应的向量信息；对候选音频数据中各个发音单元的发音口型进行对比，选取张闭口幅度最大的发音口型作为目标发音口型，并将目标发音口型对应的向量信息作为目标向量。

进一步的，驱动模块1304，还用于:获取目标向量对应的第一权重和初始口型系数对应的第二权重；基于第一权重和第二权重，对目标向量和初始口型系数进行加权处理，得到目标口型系数。

进一步的，驱动模块1304，还用于:针对任一候选发音人执行以下步骤：获取该候选发音人的候选视频数据，并基于候选视频数据，生成该候选发音人对应的候选动画序列；获取候选动画序列中每帧候选动画帧对应的候选口型系数；获取该候选发音人的候选音频数据，并基于候选音频数据，获取候选音频数据包含的多个候选实体词；基于该候选发音人、候选实体词与候选口型系数，建立该候选发音人、候选实体词与候选口型系数之间的映射关系。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图14所示，设备1400包括计算单元1401，其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序，来执行各种适当的动作和处理。在RAM 1403中，还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。

设备1400中的多个部件连接至I/O接口1405，包括：输入单元1406，例如键盘、鼠标等；输出单元1407，例如各种类型的显示器、扬声器等；存储单元1408，例如磁盘、光盘等；以及通信单元1409，例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理，例如驱动虚拟数字形象唱歌的方法。例如，在一些实施例中，驱动虚拟数字形象唱歌的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM1403并由计算单元1401执行时，可以执行上文描述的驱动虚拟数字形象唱歌的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行驱动虚拟数字形象唱歌的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种驱动虚拟数字形象唱歌的方法，包括：

获取虚拟数字形象、目标旋律和文本数据；

获取所述目标旋律的节奏数据，并基于所述节奏数据对所述文本数据进行处理，以获取初始歌曲；

获取所述目标旋律的音调数据和所述目标旋律的频率数据，并基于所述音调数据和所述频率数据对所述初始歌曲进行修正，获取目标歌曲；

基于所述文本数据确定所述虚拟数字形象对应的目标口型系数序列，并基于所述目标口型系数序列驱动所述虚拟数字形象对所述目标歌曲进行演唱。

2.根据权利要求1所述的方法，其中，所述基于所述节奏数据对所述文本数据进行处理，以获取初始歌曲，包括：

基于所述文本数据和所述节奏数据，生成初始音频；

确定目标发音人和所述目标发音人的发音特征信息；

按照所述发音特征信息，对所述初始音频进行调整，生成与所述目标发音人的发音特征匹配的所述初始歌曲。

3.根据权利要求2所述的方法，其中，所述确定目标发音人和所述目标发音人的发音特征信息，包括：

获取选择指令，所述选择指令用于指示从多个候选发音人中选择所述目标发音人；按照所述选择指令确定所述目标发音人，并获取所述目标发音人的发音特征信息；或者，

确定所述文本数据的文本特征信息，基于所述文本特征信息从多个候选发音人中确定所述目标发音人，并获取所述目标发音人的发音特征信息。

4.根据权利要求1所述的方法，其中，所述基于所述文本数据确定所述虚拟数字形象对应的目标口型系数序列，包括：

获取所述文本数据的多个目标实体词和各个目标实体词的发音次序；

获取每个所述目标实体词对应的目标口型系数；

按照所述发音次序，基于所述目标口型系数，生成所述虚拟数字形象对应的目标口型系数序列。

5.根据权利要求4所述的方法，其中，所述获取每个所述目标实体词对应的目标口型系数，包括：

获取候选发音人、候选实体词与候选口型系数之间的映射关系；

基于所述目标实体词和目标发音人，查询所述映射关系，确定所述目标实体词对应的初始口型系数；

基于所述初始口型系数，获取所述目标口型系数。

6.根据权利要求5所述的方法，其中，所述基于所述初始口型系数，获取所述目标口型系数包括：

对所述初始口型系数进行优化，得到所述目标口型系数。

7.根据权利要求6所述的方法，其中，所述对所述初始口型系数进行优化，得到所述目标口型系数，包括：

基于所述目标发音人的候选音频数据，确定用于对所述初始口型系数进行优化的目标向量；

基于所述目标向量，对所述初始口型系数进行优化，获取所述目标口型系数。

8.根据权利要求7所述的方法，其中，所述确定用于对所述初始口型系数进行优化的目标向量，包括：

获取所述目标发音人的候选音频数据，并基于所述候选音频数据获取所述候选音频数据中每个发音单元的发音口型对应的向量信息；

对所述候选音频数据中各个发音单元的发音口型进行对比，选取张闭口幅度最大的发音口型作为目标发音口型，并将所述目标发音口型对应的向量信息作为所述目标向量。

9.根据权利要求7或8所述的方法，其中，所述基于所述目标向量，对所述初始口型系数进行优化，获取所述目标口型系数，包括：

获取所述目标向量对应的第一权重和所述初始口型系数对应的第二权重；

基于所述第一权重和所述第二权重，对所述目标向量和所述初始口型系数进行加权处理，得到所述目标口型系数。

10.根据权利要求5所述的方法，其中，所述获取候选发音人、候选实体词与候选口型系数之间的映射关系，包括：

针对任一候选发音人执行以下步骤：

获取该候选发音人的候选视频数据，并基于所述候选视频数据，生成该候选发音人对应的候选动画序列；

获取所述候选动画序列中每帧候选动画帧对应的候选口型系数；

获取该候选发音人的候选音频数据，并基于所述候选音频数据，获取所述候选音频数据包含的多个候选实体词；

基于该候选发音人、所述候选实体词与所述候选口型系数，建立该候选发音人、所述候选实体词与所述候选口型系数之间的所述映射关系。

11.一种驱动虚拟数字形象唱歌的装置，包括：

获取模块，用于获取虚拟数字形象、目标旋律和文本数据；

处理模块，用于获取所述目标旋律的节奏数据，并基于所述节奏数据对所述文本数据进行处理，以获取初始歌曲；

修正模块，用于获取所述目标旋律的音调数据和所述目标旋律的频率数据，并基于所述音调数据和所述频率数据对所述初始歌曲进行修正，获取目标歌曲；

驱动模块，用于基于所述文本数据确定所述虚拟数字形象对应的目标口型系数序列，并基于所述目标口型系数序列驱动所述虚拟数字形象对所述目标歌曲进行演唱。

12.根据权利要求11所述的装置，其中，所述处理模块，还用于:

基于所述文本数据和所述节奏数据，生成初始音频；

确定目标发音人和所述目标发音人的发音特征信息；

13.根据权利要求12所述的装置，其中，所述处理模块，还用于:

14.根据权利要求11所述的装置，其中，所述驱动模块，还用于:

获取每个所述目标实体词对应的目标口型系数；

15.根据权利要求14所述的装置，其中，所述驱动模块，还用于:

基于所述初始口型系数，获取所述目标口型系数。

16.根据权利要求15所述的装置，其中，所述驱动模块，还用于:

对所述初始口型系数进行优化，得到所述目标口型系数。

17.根据权利要求16所述的装置，其中，所述驱动模块，还用于:

18.根据权利要求17所述的装置，其中，所述驱动模块，还用于:

19.根据权利要求17或18所述的装置，其中，所述驱动模块，还用于:

20.根据权利要求15所述的装置，其中，所述驱动模块，还用于:

针对任一候选发音人执行以下步骤：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述方法的步骤。