CN110166818B

CN110166818B - 待配音视频的生成方法、计算机设备及存储介质

Info

Publication number: CN110166818B
Application number: CN201811451247.XA
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2021-08-17
Anticipated expiration: 2038-11-30
Also published as: CN110166818A

Abstract

本申请公开了一种待配音视频的生成方法、计算机设备及存储介质，涉及多媒体技术领域。该方法包括：获取素材视频，素材视频中包括视频数据和音频数据；将音频数据对应的音频提示内容拆分为标注有时间戳的至少两句内容提示信息；根据声纹特征对音频数据中的至少两个人声进行区分，并对至少两句内容提示信息进行角色名称标注；确定内容提示数据并根据视频数据和内容提示数据，生成待配音视频。通过音频数据对应的声纹特征对音频数据中的至少两个人声进行区分，并根据区分得到的至少两个人声对提示信息的角色名称进行标注，避免了待配音视频的台词需要通过手动输入进行配置而导致人力资源浪费，待配音视频的生成效率较低的问题。

Description

待配音视频的生成方法、计算机设备及存储介质

技术领域

本申请实施例涉及多媒体技术领域，特别涉及一种待配音视频的生成方法、计算机设备及存储介质。

背景技术

视频互动应用程序是一种通过拍摄并发布视频进行互动的应用程序。其中，视频互动应用程序中发布的视频的形式包括原创视频、配音视频、直播视频等形式。其中，配音视频是指对一段指定的视频(如：指定影视剧片段)，根据视频中角色的台词对该角色进行配音，并得到的配音后的视频。

相关技术中，技术人员在对待配音视频的台词进行设置时，根据视频中各个角色说话的时间节点对台词进行配置，如：角色A在视频的01：05：15说了台词“我不回去”，则技术人员对台词“我不回去”标注对应的角色名称以及时间戳，即“角色A，01：05：15”，当终端上播放该待配音视频至01：05：15时，视频上叠加显示角色A对应的用户需要配音的台词“我不回去”。

然而，应用上述台词配置方式，技术人员需要对视频中的每一句台词进行配置，当视频数量较大，或者视频中的台词数量较多时，上述台词配置方式耗费了大量的人力以及时间成本，台词配置效率较低，无法满足当前视频互动应用程序中视频数量大、台词多的要求。

发明内容

本申请实施例提供了一种待配音视频的生成方法、计算机设备及存储介质，可以解决台词配置效率较低，无法满足当前视频互动应用程序中视频数量大、台词多的要求的问题。所述技术方案如下：

一方面，提供了一种待配音视频的生成方法，所述方法包括：

获取素材视频，所述素材视频中包括视频数据和音频数据；

将所述音频数据对应的音频提示内容拆分为标注有时间戳的至少两句内容提示信息，所述音频提示内容为所述音频数据中出现的文字内容，所述时间戳用于表示所述内容提示信息在所述音频数据中出现的时刻；

根据所述音频数据对应的声纹特征对所述音频数据中的至少两个人声进行区分，并根据区分得到的所述至少两个人声对所述至少两句内容提示信息进行角色名称标注，其中，每个角色名称对应一个人声；

根据所述至少两句内容提示信息、所述至少两句内容提示信息对应的时间戳以及所述至少两句内容提示信息对应的角色名称生成内容提示数据；

根据所述视频数据和所述内容提示数据，生成待配音视频。

另一方面，提供了一种配音视频的生成装置，所述装置包括：

获取模块，用于获取素材视频，所述素材视频中包括视频数据和音频数据；

标注模块，用于将所述音频数据对应的音频提示内容拆分为标注有时间戳的至少两句内容提示信息，所述音频提示内容为所述音频数据中出现的文字内容，所述时间戳用于表示所述内容提示信息在所述音频数据中出现的时刻；

所述标注模块，还用于根据所述音频数据对应的声纹特征对所述音频数据中的至少两个人声进行区分，并根据区分得到的所述至少两个人声对所述至少两句内容提示信息进行角色名称标注，其中，每个角色名称对应一个人声；

确定模块，用于根据所述至少两句内容提示信息、所述至少两句内容提示信息对应的时间戳以及所述至少两句内容提示信息对应的角色名称生成内容提示数据；

生成模块，用于根据所述视频数据和所述台词数据，生成待配音视频。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的待配音视频的生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的待配音视频的生成方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中任一所述的待配音视频的生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过音频数据对应的声纹特征对音频数据中的至少两个人声进行区分，并根据区分得到的至少两个人声对提示信息的角色名称进行标注，实现了根据素材视频的音频数据自动生成标注有角色名称的提示信息，并结合素材视频的视频数据生成待配音视频的功能，避免了待配音视频的台词需要通过手动输入进行配置而导致人力资源浪费以及时间成本较高，待配音视频的生成效率较低的问题，本申请实施例提供的方法适应了当前视频互动应用程序中视频数量大、台词多的要求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的待配音视频生成系统的结构图；

图2是本申请一个示例性实施例提供对待配音视频的生成方法流程图；

图3是本申请另一个示例性实施例提供对待配音视频的生成方法流程图；

图4是本申请另一个示例性实施例提供对待配音视频的生成方法流程图；

图5是本申请一个示例性实施例提供的待配音视频生成后测试音频数据在终端与服务器中的交互方法；

图6是本申请另一个示例性实施例提供对待配音视频的生成方法流程图；

图7是基于图6示出的实施例提供的待配音视频的用户界面示意图；

图8是另一个基于图6示出的实施例提供的待配音视频的用户界面示意图；

图9是本申请一个示例性实施例提供对待配音视频进行播放的方法流程图；

图10是本申请另一个示例性实施例提供待配音视频的生成方法流程图；

图11是本申请另一个示例性实施例提供对待配音视频进行播放的方法流程图；

图12是本申请一个示例性实施例提供的待配音视频的生成装置的结构框图；

图13是本申请另一个示例性实施例提供的待配音视频的生成装置的结构框图；

图14是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例涉及的若干个名词进行解释：

素材视频：是指用于生成待配音视频的视频原型。可选地，该素材视频可以是影视作品(如：电视剧、电影等)的经典视频片段，可以是完整的影视作品，还可以是其他任意视频作品。可选地，该素材视频中包括视频数据和音频数据，其中视频数据中包括至少两帧视频帧构成一段视频流，而音频数据中包括背景音频以及台词音频中的至少一种，其中，台词音频中包括独白台词和对话台词中的至少一种，视频数据与音频数据的时间戳对应组合成素材视频。可选地，该素材视频还可以实现为音乐短片(Music Video，MV)，该MV中包括视频数据和音频数据，该音频数据中包括伴奏音频和歌词音频中的至少一种。

可选地，上述音频数据对应有音频提示内容，该音频提示内容是指音频数据中出现的文字内容，示意性的，该音频提示内容可以是台词内容和歌词内容中的至少一种，该音频提示内容的具体形式根据素材视频以及其中的音频数据的形式确定，当素材视频为影视作品，且音频数据中包括台词音频时，该音频提示内容为台词内容，当素材视频为MV，且音频数据中包括歌词音频时，该音频提示内容为歌词内容。

可选地，上述音频提示内容可以拆分为至少两句内容提示信息，该至少两句内容提示信息还可以通过标注时间戳和角色名称生成内容提示数据。可选地，该内容提示信息为音频提示内容根据预设拆分规则拆分得到的短句，该内容提示数据为对内容提示信息进行时间戳标注和角色名称标注后得到的数据。

示意性的，当音频提示内容为台词内容时，该台词内容可以拆分为至少两句台词，并根据至少两句台词对应的时间戳和角色名称生成台词数据；当音频提示内容为歌词内容时，该歌词内容可以拆分为至少两句歌词，并根据至少两句歌词对应的时间戳和角色名称生成歌词数据。

待配音视频：是指包括素材视频的视频数据，而音频数据待配音生成的视频，即该待配音视频的视频数据与其对应的素材视频的视频数据一致，而待配音视频的音频数据与素材视频的音频数据不同。

可选地，当素材视频为影视作品时，待配音视频的音频数据中包括素材视频的音频数据中的背景音频，而不包括素材视频的音频数据中的台词音频，或者，待配音视频中不包括音频数据；当素材视频为MV时，待配音视频的音频数据中包括素材视频的音频数据中的伴奏音频，而不包括音频数据中的歌词音频，或者，待配音视频中不包括音频数据。

可选地，该背景音频是指非人声配音的音频，示意性的，该背景音频可以是背景音乐、视频拍摄环境、附加音效中的至少一种；可选地，上述台词音频是指由人声配音得到的音频，可选地，该人声配音可以是人声对素材视频中的人物角色进行配音，也可以是人声对素材视频中的动物角色进行配音，还可以是人声对素材视频中的卡通角色进行配音，本申请实施例对此不加以限定。

示意性的，本申请涉及的应用场景至少包括如下场景：

视频互动应用程序中包括配音视频的互动形式，用户对待配音视频进行选择后，通过麦克风为待配音视频进行配音，得到配音视频，并将该配音视频上传至视频互动应用程序中进行互动。而该待配音视频的生成过程，是由技术人员将待配音视频的对应的素材视频上传至计算机设备，该素材视频中包括视频数据和音频数据，通过计算机设备根据该音频数据对素材视频中的台词进行识别后，得到台词数据，并将台词数据和视频数据进行组合得到待配音视频。

值得注意的是，上述应用场景为示意性的举例，在实际操作中，通过计算机设备根据素材视频生成台词数据，并得到待配音视频的应用场景都可以使用本申请实施例中提供的待配音视频的生成方法进行生成，本申请实施例对此不加以限定。

图1是本申请一个示例性实施例提供的待配音视频生成系统的结构图，如图1所示，以该待配音视频生成系统中的计算机设备是服务器为例进行说明，该待配音视频生成系统包括终端11以及服务器12，其中，终端11可以是技术人员所使用的终端，也可以是视频互动应用程序的用户所使用的终端，当该终端11是技术人员使用的终端时，技术人员通过该终端11向服务器12发送素材视频，服务器12根据素材视频生成待配音视频，当该终端11是用户所使用的终端时，该终端11中包括麦克风且该终端11安装有视频互动应用程序，用户通过该终端11从服务器12中获取待配音视频，并通过麦克风对该待配音视频进行配音。其中，终端11分为终端111、终端112以及终端113，本实施例中，以终端11的个数为3个为例进行说明，实际操作中，该终端11的个数可以更多或者更少，本申请实施例对此不加以限定。

服务器12用于根据素材视频生成待配音视频，并将待配音视频发送至终端11，由终端11对该待配音视频进行配音，其中，服务器12根据素材视频生成待配音视频时，通过对素材视频中的音频数据进行识别得到该待配音视频的台词，并结合台词与素材视频的视频数据生成待配音视频，即该待配音视频中有对应的台词提醒。

可选地，该服务器12可以是一台服务器，也可以是多台服务器组成的一组服务器集群；该服务器12可以是物理服务器，也可以是云服务器，本申请实施例对此不加以限定。

结合上述本申请实施例中的名词简介以及应用场景，对本申请提供的待配音视频的生成方法进行说明，图2是本申请一个示例性实施例提供的待配音视频的生成方法流程图，以该方法应用在如图1所示的服务器12中，且以上述音频提示内容是台词内容，内容提示数据是台词数据，内容提示信息是台词为例进行说明，该方法包括：

步骤201，获取素材视频，该素材视频中包括视频数据和音频数据。

可选地，服务器获取素材视频的方式包括如下方式中的至少一种：

第一种，服务器接收终端上传的素材视频；

第二种，服务器接收外部接入设备输入的素材视频，该外部接入设备可以是USB闪存盘(USB flash disk，U盘)、移动硬盘、软盘、光盘中的至少一种；

第三种，服务器从网络平台中通过直接对素材视频进行下载。

可选地，服务器获取素材视频时，可以获取完整的素材视频，并对素材视频中的视频数据和音频数据进行分离，也可以直接获取独立的视频数据和音频数据。

步骤202，将音频数据对应的台词内容拆分为标注有时间戳的至少两句台词。

可选地，该台词内容为音频数据中出现的台词的文字内容，该时间戳用于表示台词在音频数据中出现的时刻。

可选地，该台词内容可以是该素材视频中附带的内容，也可以是由技术人员编辑后上传至该服务器的，还可以是服务器对该音频数据进行语音识别后得到的，本申请实施例对该台词内容的获取方式不加以限定。

可选地，将台词内容拆分为标注有时间戳的至少两句台词时，包括如下方式中的任意一种：

第一，根据预设拆分规则将台词内容拆分为至少两句台词，并根据台词内容与音频数据之间的对应关系将至少两句台词中的每句台词标注时间戳；

其中，该预设拆分规则可以是句式结构规则、词性规则、句式长度规则中的至少一种。句式结构规则是指每句台词的句式组成，如：台词的句式结构为主句+谓语+宾语或谓语+宾语；词性规则是指每句台词的词性组成，如：台词的第一个词为名词、台词的最后一个词为名词、台词的最后一个词为形容词或台词的最后一个词为动词等；句式长度规则是指台词的长度小于预设长度，或台词的长度大于预设长度，或台词的字数少于预设字数，或台词的字数多于预设字数。

第二，根据音频数据中台词的表达特征将台词内容拆分为至少两句台词，并根据台词内容与音频数据之间的对应关系将至少两句台词中的每句台词标注时间戳；

其中，该表达特征可以是音频数据中台词的停顿特征、音调特征中的至少一种。停顿特征是指每两句台词之间的停顿时长，如：当停顿时长超出预设时长时，将停顿处作为前后两句台词的拆分处；音调特征是指台词中词汇的音调，如：台词中第一个词的音调最高，或台词中最后一个词的音调最高。

第三，对音频数据进行人声识别，并通过人声识别将台词内容拆分为至少两句台词，根据台词内容与音频数据之间的对应关系将至少两句台词中的每句台词标注时间戳：

可选地，服务器持续对音频数据进行人声识别，当识别得到人声切换时，将切换处作为前后两句台词的拆分处，示意性的，台词内容“你是谁我自己也不知道”，当服务器对音频数据中的“你是谁”进行人声识别时，识别得到第一人声特征，而继续识别“我”时，识别得到第二人声特征，则将“你是谁”作为一句台词，而台词中的“我”直至“道”都属于第二人声特征，故“我自己也不知道”为一句台词。

步骤203，根据音频数据对应的声纹特征对音频数据中的至少两个人声进行区分，并根据区分得到的至少两个人声对至少两句台词进行角色名称标注。

可选地，每个角色名称对应一个人声。

可选地，该声纹特征用于对不同人声的音色进行区分。可选地，对至少两句台词进行角色名称标注的方式包括如下方式中的任意一种：

第一，通过第一识别模型提取所述音频数据对应的声纹特征，并根据所述声纹特征对所述音频数据中的至少两个人声进行聚类；根据预设命名规则对所述至少两个人声进行角色名称命名，并对每个人声对应的台词进行角色名称标注；

可选地，该第一识别模型是通过无监督训练得到的模型，也即，通过样本音频数据对该第一识别模型进行训练后，通过训练后的第一识别模型对音频数据中的人声进行聚类区分。示意性的，音频数据中包括角色a、角色b以及角色c的台词，第一识别模型识别出该音频数据中包括三种人声，并将该三种人声分别命名为角色1(对应角色a)、角色2(对应角色b)以及角色3(对应角色c)，则根据区分得到的角色1、角色2和角色3的人声对台词的角色名称进行标注，将角色a的台词对应标注“角色1”，将角色b的台词对应标注为“角色2”，将“角色c”的台词对应标注为“角色3”。

可选地，该第一识别模型为神经网络模型，可选地，该神经网络模型经过无监督学习训练的神经网络模型。可选地，该神经网络模型为卷积神经网络模型。

可选地，当结合上述步骤202中的第三种台词拆分方案进行台词拆分并进行角色名称标注后，由于台词仅根据人声进行了拆分，还是会产生台词长度较长的情况，可以通过上述步骤202中第一种或者第二种方式再进行二次拆分。

第二，将音频数据输入第二识别模型，输出得到每句台词对应的角色名称，其中，该第二识别模型中包括声纹模板，该声纹模板中包括角色名称对应的模板，该第二识别模型用于提取音频数据中每句台词对应的声纹特征，并将声纹特征与声纹模板进行匹配，得到每句台词对应的模板以及该模板对应的角色名称。

可选地，该第二识别模型是通过监督训练得到的模型，也即，通过标注有角色名称的样本音频数据对该第二识别模型进行训练后，通过训练后的第二识别模型对音频数据中的台词对应的角色名称进行识别。示意性的，音频数据中包括角色a、角色b以及角色c的台词，则通过标注有标签“角色a”的样本音频数据对第二识别模型进行训练，通过标注有标签“角色b”的样本音频数据对第二识别模型进行训练，以及通过标注有标签“角色c”的样本音频数据对第二识别模型进行训练后，通过该第二识别模型对音频数据中角色a、角色b以及角色c的人声进行区分，并根据区分得到的角色a、角色b以及角色c的人声对台词的角色名称进行标注，将角色a的台词对应标注“角色a”，将角色b的台词对应标注“角色b”，将角色c的台词对应标注“角色c”。

可选地，该第二识别模型为神经网络模型，可选地，该神经网络模型为分类器模型，示意性的，该第二识别模型为决策树模型。

可选地，当结合上述步骤202中的第一种或第二种台词拆分方案进行台词拆分，并在人声识别中存在一句台词中不同的部分对应不同的人声时，根据人声识别对该台词进行二次拆分，确保一句台词中只包括一种人声；或，一句台词中相同的部分对应不同的人声时，可以将该台词对应标注多个角色名称，本申请实施例对此不加以限定。

步骤204，根据至少两句台词、至少两句台词对应的时间戳以及至少两句台词对应的角色名称生成台词数据。

可选地，至少两句台词、至少两句台词对应的时间戳以及至少两句台词对应的角色名称三者之间存在对应关系。可选地，该三者之间的对应关系是有两层对应关系嵌套得到的，示意性的，第一层对应关系为至少两句台词对应的角色名称与至少两句台词之间的对应关系，第二层对应关系为至少两句台词对应的时间戳与第一层对应关系之间的对应关系。

也即，对上述台词数据进行存储时，以双层key-value(键值对)的形式进行存储，且第一层key为至少两句台词对应的时间戳，第一层value为第二层key-value，第二层key为至少两句台词对应的角色名称，第二层value为至少两句台词，该存储结构如下：key(时间戳)：value(key(角色名称)：value(台词))。

示意性的，该台词数据存储形式如下：

[00：15：790]：(角色A：你现在在哪里)

[00：19：210]：(角色B：我在我们经常吃饭的地方)

[00：22：870]：(角色A：我现在过来找你)

[00：30：899]：(角色B：不用了我现在还没想好怎么面对你)

角色A在视频的00：15：790时说了台词“你现在在哪里”，角色B在视频的00：19：210时说了台词“我在我们经常吃饭的地方”，以此类推。

步骤205，根据视频数据和台词数据，生成待配音视频。

可选地，根据时间戳将每句台词嵌入视频数据中与时间戳对应的视频帧中，则得到该待配音视频。

综上所述，本实施例提供的待配音视频的生成方法，通过音频数据对应的声纹特征对音频数据中的至少两个人声进行区分，并根据区分得到的至少两个人声对台词的角色名称进行标注，实现了根据素材视频的音频数据自动生成标注有角色名称的台词，并结合素材视频的视频数据生成待配音视频的功能，避免了待配音视频的台词需要通过手动输入进行配置而导致人力资源浪费以及时间成本较高，待配音视频的生成效率较低的问题，本实施例提供的方法适应了当前视频互动应用程序中视频数量大、台词多的要求。

本实施例提供的方法，当通过第一识别模型对人声进行识别时，无需针对每个素材视频生成待配音视频的过程，都进行角色名称以及样本音频数据的训练过程，第一识别模型仅需要对不同的人声进行区分并命名，而无需根据素材视频中角色的名称进行训练。

在一个可选地实施例中，服务器还可以根据终端上传的测试音频数据对终端中登陆的帐号所适合的角色进行推荐。图3是本申请另一个示例性实施例提供的待配音视频的生成方法流程图，以该方法应用在如图1所示的服务器12中，且以上述音频提示内容是台词内容，内容提示数据是台词数据，内容提示信息是台词为例进行说明，该方法包括：

步骤301，获取素材视频，该素材视频中包括视频数据和音频数据。

第一种，服务器接收终端上传的素材视频；

第二种，服务器接收外部接入设备输入的素材视频，该外部接入设备可以是U盘、移动硬盘、软盘、光盘中的至少一种；

步骤302，将音频数据对应的台词内容拆分为标注有时间戳的至少两句台词。

步骤303，根据音频数据对应的声纹特征对音频数据中的至少两个人声进行区分，并根据区分得到的至少两个人声对至少两句台词进行角色名称标注。

可选地，每个角色名称对应一个人声。可选地，该声纹特征用于对不同人声的音色进行区分。可选地，对至少两句台词进行角色名称标注的方式包括如下方式中的任意一种：

可选地，在对音频数据进行人声识别之前，对该音频数据进行预处理，其中，该预处理过程中包括采样处理、量化处理、预加重处理以及加窗处理中的至少一种。其中，采样处理是指在对音频数据对应的语音信号中的连续信号采样成为离散信号，而量化处理是指对采样处理后的离散信号进行量化得到数字信号，预加重处理是指预先加强语音信号的强度，加窗处理是指调整截断语音信号的长度。

可选地，上述第一种人声识别方式的识别过程如图4所示，根据图4可知，该识别过程包括：步骤401，导入素材视频。该素材视频中包括视频数据和音频数据。步骤402，获取素材视频的音频数据。步骤403，对音频数据进行预处理。其中，该预处理过程中包括采样处理、量化处理、预加重处理以及加窗处理中的至少一种。步骤404，提取音频数据的声纹特征。步骤405，在训练过程中，通过样本音频数据更新声纹模板。可选地，该样本音频数据为音频数据中不同人声对应的数据，可选地，该样本音频数据是由技术人员输入服务器的。可选地，当声纹模板中本身有该样本音频数据对应的模板，但该模板的角色名称与素材视频中角色名称不同时，可以对该声纹模板中，样本音频数据对应的模板的名称修改为素材视频中的角色名称。步骤406，在识别过程中，通过声纹模板进行模板匹配，得到识别结果。

步骤304，根据至少两句台词、至少两句台词对应的时间戳以及至少两句台词对应的角色名称生成台词数据。

可选地，至少两句台词、至少两句台词对应的时间戳以及至少两句台词对应的角色名称三者之间存在对应关系。可选地，该三者之间的对应关系是有两层对应关系嵌套得到的，示意性的，第一层对应关系对至少两句台词对应的角色名称与至少两句台词之间的对应关系，第二层对应关系为至少两句台词对应的时间戳与第一层对应关系之间的对应关系。

步骤305，根据视频数据和台词数据，生成待配音视频。

步骤306，接收终端发送的测试音频数据。

可选地，该测试音频数据是终端通过麦克风接收的音频数据。可选地，该测试音频数据是终端中登录的帐号对待配音视频中适配的角色进行测试时发送的数据。可选地，用户在视频互动应用程序中选择了欲配音的上述待配音视频后，该视频互动应用程序显示提示内容“是否需要角色推荐”，当用户确认需要进行角色推荐时，终端向服务器发送测试音频数据。其中，该测试音频数据可以是在终端中已预先存储的音频数据，也可以是当用户确认需要进行角色推荐后，终端重新录制的音频数据。

示意性的，请参考图5，用户在终端50的视频互动应用程序中选定待配音视频A后，待配音界面51中显示有提示内容52，该提示内容52为“是否需要角色推荐”，当用户在确认控件53上进行点击后，终端50向服务器54发送测试音频数据。

可选地，本实施例中以该步骤306执行在步骤305之后为例进行说明，实际操作中，该步骤306还可以执行在步骤301之前，本申请实施例对此不加以限定。

步骤307，提取测试音频数据的测试声纹特征。

步骤308，对测试声纹特征和至少两个人声的角色声纹特征的相似度进行计算，得到与测试声纹特征相似度最高的目标人声。

可选地，该至少两个人声为终端选择的待配音视频对应的人声。

可选地，对测试声纹特征和至少两个人声的角色声纹特征的相似度进行计算时，可以通过将测试音频数据和至少两个人声的音频数据输入值第三识别模型，通过该第三识别模型提取测试声纹特征和至少两个人声的角色声纹特征后，输出得到与测试声纹特征相似度最高的目标人声。可选地，该第三识别模型为分类器模型。

可选地，还可以通过将测试声纹特征和至少两个人声的角色声纹特征转化为特征向量，并通过余弦相似度计算公式、欧氏距离计算公式或马氏距离计算公式计算测试声纹特征和至少两个人声的角色声纹特征之间的相似度。

步骤309，将目标人声对应的目标角色名称发送至终端。

可选地，该目标角色名称为向终端中登陆的帐号推荐的角色的名称。

可选地，终端可以多次向服务器发送多个测试音频数据，服务器根据该多个测试音频数据进行相似度计算后，向终端返回每个测试音频数据所对应的角色名称。

本实施例提供的方法，通过接收终端发送的测试音频数据，并对测试音频数据与待配音视频中每个角色对应的人声进行匹配，向终端中登录的帐号推荐最适合该帐号进行配音的角色名称，提高配音的适配程度。

在一个可选的实施例中，还可以针对不同的角色对待配音视频中的台词进行显示参数的配置，图6是本申请另一个示例性实施例提供的待配音视频的生成方法的流程图，以该方法应用在如图1所示的服务器12中，且以上述音频提示内容是台词内容，内容提示数据是台词数据，内容提示信息是台词为例进行说明，该方法包括：

步骤601，获取素材视频，该素材视频中包括视频数据和音频数据。

第一种，服务器接收终端上传的素材视频；

步骤602，将音频数据对应的台词内容拆分为标注有时间戳的至少两句台词。

步骤603，根据音频数据对应的声纹特征对音频数据中的至少两个人声进行区分，并根据区分得到的至少两个人声对至少两句台词进行角色名称标注。

第二，将音频数据输入第二识别模型，输出得到每句台词对应的角色名称，其中，该第二识别模型中包括声纹模板，该声纹模板中包括上述角色名称对应的模板，该第二识别模型用于提取音频数据中每句台词对应的声纹特征，并将声纹特征与声纹模板进行匹配，得到每句台词对应的模板以及该模板对应的角色名称。

步骤604，根据至少两句台词、至少两句台词对应的时间戳以及至少两句台词对应的角色名称生成台词数据。

步骤605，根据台词数据中每句台词对应的时间戳，将至少两句台词嵌入视频数据中与时间戳对应的位置，得到待配音视频。

可选地，不同角色名称对应的台词被配置为不同的颜色。可选地，服务器可以根据颜色设定规则对每个角色对应的台词的颜色进行配置，也可以随机对每个角色对应的台词的颜色进行配置。

可选地，不同角色名称对应的台词还可以被配置为不同的字体、不同的字号、不同的填充形式或者其他不同的效果。

示意性的，如图7所示，在配音界面71中，显示有角色A的台词“你现在在哪儿”和角色B的台词“我自己也不知道”，其中，角色A的台词以倾斜字体的形式进行显示，而角色B的台词以下划线的形式进行展示。

可选地，在至少两句台词中的第一句台词对应的时间戳之前预设时长，在视频数据中配置与预设时长对应的倒计时效果。示意性的，在第一句台词之前三秒，配置三秒倒计时效果。可选地，该倒计时效果还可以配置在待配音视频中前后两句台词分隔时长较长的后一句台词之前，如：台词A和台词B之间间隔8秒，则在台词B之前3秒配置3秒倒计时效果。可选地，该倒计时效果可以以数字的形式显示，也可以以提示点的形式进显示，本申请实施例对倒计时效果的形式不做限定。

示意性的，请参考图8，在配音界面81中，角色A的台词“你现在在哪儿”之前，显示倒计时效果82，该倒计时效果82是由三个点组成的，每经过一秒，减少一个点，以进行倒计时提示。

可选地，上述图7和图8中以每句台词前都有对应的角色名称提醒为例进行示意，实际操作中，该角色名称提醒可以不需要，也可以当某个角色的连续多句台词中的第一句台词上对应提示该角色名称。

上述台词数据以及显示参数配置后，终端中显示待配音视频的台词的过程可参考如图9所示，该过程包括：步骤901，用户点击待配音视频。步骤902，播放待配音视频，显示倒计时效果。步骤903，通过不同显示效果标识不同角色对应的台词。

本实施例提供的方法，通过对台词的显示参数进行配置，用户可以通过不同角色对应的不同显示效果区分不同的台词对应的配音方式，优化配音过程中的适配程度，避免由于错过配音时机或者配音效果选择错误而导致需要进行多次配音，配音效率较低的问题。

在一个可选的实施例中，对本申请实施例中，由技术人员上传素材视频生成待配音视频，以及用户通过终端获取待配音视频进行配音的方法分别进行说明，请参考图10和图11。

图10为本申请一个示例性实施例提供的待配音视频生成方法的流程图，如图10所示，该方法包括：

步骤1001，技术人员选择素材视频上传至服务器。

可选地，该素材视频包括视频数据和音频数据。

步骤1002，服务器获取素材视频中的音频数据。

步骤1003，通过语音识别将台词内容拆分为标注有时间戳的至少两句台词。

步骤1004，通过人声识别对至少两句台词标注角色名称，得到台词数据。

可选地，本实施例中以先执行步骤1003再执行步骤1004为例进行说明，实际操作中，还可以先执行步骤1004，再执行步骤1003，也即先通过人声识别对台词内容标注角色名称，在通过语音识别对台词内容进行拆分并标注时间戳。

步骤1005，根据视频数据和台词数据得到待配音视频。

图11为本申请一个示例性实施例提供的终端播放待配音视频进行配音的方法流程图，如图11所示，该方法包括：

步骤1101，用户在终端的视频互动应用程序中选择待配音视频。

步骤1102，终端向服务器发送视频请求。

可选地，该视频请求用于请求服务器向终端发送待配音视频的视频数据以及台词数据。

步骤1103，服务器向终端发送视频数据以及台词数据。

步骤1104，终端根据台词数据以及视频数据播放待配音视频。

步骤1105，用户对待配音视频进行配音。

值得注意的是，上述本申请实施例中以内容提示数据是台词数据、内容提示信息为台词、音频提示内容是台词内容为例进行说明，实际操作中，该内容提示信息还可以实现为歌词或者其他形式的提示信息，本申请实施例对此不加以限定。

图12是本申请一个示例性实施例提供的待配音视频的生成装置，该装置可以实现在如图1所示的服务器12中，该装置包括：

获取模块1210，用于获取素材视频，所述素材视频中包括视频数据和音频数据；

标注模块1220，用于将所述音频数据对应的音频提示内容拆分为标注有时间戳的至少两句内容提示信息，所述音频提示内容为所述音频数据中出现的内容提示信息的文字内容，所述时间戳用于表示所述内容提示信息在所述音频数据中出现的时刻；

所述标注模块1220，还用于根据所述音频数据对应的声纹特征对所述音频数据中的至少两个人声进行区分，并根据区分得到的所述至少两个人声对所述至少两句内容提示信息进行角色名称标注，其中，每个角色名称对应一个人声；

生成模块1230，用于根据所述至少两句内容提示信息、所述至少两句内容提示信息对应的时间戳以及所述至少两句内容提示信息对应的角色名称生成内容提示数据；

生成模块1230，还用于根据所述视频数据和所述内容提示数据，生成待配音视频。

在一个可选的实施例中，所述标注模块1220，还用于通过第一识别模型提取所述音频数据对应的声纹特征，并根据所述声纹特征对所述音频数据中的至少两个人声进行聚类；根据预设命名规则对所述至少两个人声进行角色名称命名，并对每个人声对应的内容提示信息进行角色名称标注。

在一个可选的实施例中，所述标注模块1220，还用于将所述音频数据输入第二识别模型，输出得到每句内容提示信息对应的所述角色名称，所述第二识别模型中包括声纹模板，所述声纹模板中包括所述角色名称对应的模板，所述第二识别模型用于提取所述音频数据中每句内容提示信息对应的声纹特征，并将所述声纹特征与所述声纹模板进行匹配，得到所述内容提示信息对应的模板以及所述模板对应的角色名称。

在一个可选的实施例中，如图13所示，该装置还包括：

接收模块1240，用于接收终端发送的测试音频数据，所述测试音频数据是所述终端中登录的帐号对在所述待配音视频中适配的角色进行测试时发送的数据；

提取模块1250，用于提取所述测试音频数据的测试声纹特征；

计算模块1260，用于对所述测试声纹特征和所述至少两个人声的角色声纹特征的相似度进行计算，得到与所述测试声纹特征相似度最高的目标人声；

发送模块1270，用于将所述目标人声对应的目标角色名称发送至所述终端，所述目标角色名称为向所述终端中登录的帐号推荐的角色的名称。

在一个可选的实施例中，所述标注模块1220，还用于对所述音频数据进行语音识别，得到所述音频提示内容；根据预设拆分规则将所述音频提示内容拆分为所述至少两句内容提示信息；根据所述音频提示内容与所述音频数据之间的对应关系所述至少两句内容提示信息中的每句内容提示信息标注所述时间戳。

在一个可选的实施例中，所述生成模块1230，还用于根据所述内容提示数据中每句内容提示信息对应的时间戳，将所述至少两句内容提示信息嵌入所述视频数据中与所述时间戳对应的位置，得到所述待配音视频，其中，不同的角色名称对应的内容提示信息被配置为不同的颜色。

在一个可选的实施例中，所述生成模块1230，还用于在所述至少两句内容提示信息中的第一句内容提示信息对应的时间戳之前预设时长，在所述视频数据中配置与所述预设时长对应的倒计时效果。

值得注意的是，上述获取模块1210、标注模块1220、生成模块1230、接收模块1240、提取模块1250、计算模块1260以及发送模块1270可以是由处理器和存储器协同实现。

本申请还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的在待配音视频的生成方法。需要说明的是，该计算机设备可以是如下图14所提供的计算机设备。

请参考图14，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1400包括中央处理单元(CPU)1401、包括随机存取存储器(RAM)1402和只读存储器(ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

所述基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中所述显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。所述基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机可读存储介质为计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1407可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读存储介质(未示出)。

不失一般性，所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1401执行，一个或多个程序包含用于实现上述待配音视频的生成方法的指令，中央处理单元1401执行该一个或多个程序实现上述各个方法实施例提供的待配音视频的生成方法。

根据本发明的各种实施例，所述计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的待配音视频的生成方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器1410加载并执行以实现如图2、图3以及图6任一所述的待配音视频的生成方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的待配音视频的生成方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图2、图3以及图6任一所述的待配音视频的生成方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种待配音视频的生成方法，其特征在于，所述方法包括：

获取素材视频，所述素材视频中包括视频数据和音频数据；

根据所述视频数据和所述内容提示数据，生成待配音视频；

接收终端发送的测试音频数据，所述测试音频数据是所述终端中登录的帐号对在所述待配音视频中适配的角色进行测试时发送的数据；

提取所述测试音频数据的测试声纹特征；

对所述测试声纹特征和所述至少两个人声的角色声纹特征的相似度进行计算，得到与所述测试声纹特征相似度最高的目标人声；

将所述目标人声对应的目标角色名称发送至所述终端，所述目标角色名称为向所述终端中登录的帐号推荐的角色的名称。

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据对应的声纹特征对所述音频数据中的至少两个人声进行区分，并根据区分得到的所述至少两个人声对所述至少两句内容提示信息进行角色名称标注，包括：

通过第一识别模型提取所述音频数据对应的声纹特征，并根据所述声纹特征对所述音频数据中的至少两个人声进行聚类；

根据预设命名规则对所述至少两个人声进行角色名称命名，并对每个人声对应的内容提示信息进行角色名称标注。

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据对应的声纹特征对所述音频数据中的至少两个人声进行区分，并根据区分得到的所述至少两个人声对所述至少两句内容提示信息进行角色名称标注，包括：

将所述音频数据输入第二识别模型，输出得到每句内容提示信息对应的所述角色名称，所述第二识别模型中包括声纹模板，所述声纹模板中包括所述角色名称对应的模板，所述第二识别模型用于提取所述音频数据中每句内容提示信息对应的声纹特征，并将所述声纹特征与所述声纹模板进行匹配，得到所述内容提示信息对应的模板以及所述模板对应的角色名称。

4.根据权利要求1至3任一所述的方法，其特征在于，所述将所述音频数据对应的音频提示内容拆分为标注有时间戳的至少两句内容提示信息，包括：

对所述音频数据进行语音识别，得到所述音频提示内容；

根据预设拆分规则将所述音频提示内容拆分为所述至少两句内容提示信息；

根据所述音频提示内容与所述音频数据之间的对应关系所述至少两句内容提示信息中的每句内容提示信息标注所述时间戳。

5.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述视频数据和所述内容提示数据，生成待配音视频，包括：

根据所述内容提示数据中每句内容提示信息对应的时间戳，将所述至少两句内容提示信息嵌入所述视频数据中与所述时间戳对应的位置，得到所述待配音视频，其中，不同的角色名称对应的内容提示信息被配置为不同的颜色。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述至少两句内容提示信息中的第一句内容提示信息对应的时间戳之前的预设时长，在所述视频数据中配置与所述预设时长对应的倒计时效果。

7.一种待配音视频的生成装置，其特征在于，所述装置包括：

生成模块，用于根据所述至少两句内容提示信息、所述至少两句内容提示信息对应的时间戳以及所述至少两句内容提示信息对应的角色名称生成内容提示数据；

所述生成模块，还用于根据所述视频数据和所述内容提示数据，生成待配音视频；

接收模块，用于接收终端发送的测试音频数据，所述测试音频数据是所述终端中登录的帐号对在所述待配音视频中适配的角色进行测试时发送的数据；

提取模块，用于提取所述测试音频数据的测试声纹特征；

计算模块，用于对所述测试声纹特征和所述至少两个人声的角色声纹特征的相似度进行计算，得到与所述测试声纹特征相似度最高的目标人声；

发送模块，用于将所述目标人声对应的目标角色名称发送至所述终端，所述目标角色名称为向所述终端中登录的帐号推荐的角色的名称。

8.根据权利要求7所述的装置，其特征在于，所述标注模块，还用于通过第一识别模型提取所述音频数据对应的声纹特征，并根据所述声纹特征对所述音频数据中的至少两个人声进行聚类；根据预设命名规则对所述至少两个人声进行角色名称命名，并对每个人声对应的内容提示信息进行角色名称标注。

9.根据权利要求7所述的装置，其特征在于，所述标注模块，还用于将所述音频数据输入第二识别模型，输出得到每句内容提示信息对应的所述角色名称，所述第二识别模型中包括声纹模板，所述声纹模板中包括所述角色名称对应的模板，所述第二识别模型用于提取所述音频数据中每句内容提示信息对应的声纹特征，并将所述声纹特征与所述声纹模板进行匹配，得到所述内容提示信息对应的模板以及所述模板对应的角色名称。

10.根据权利要求7至9任一所述的装置，其特征在于，所述标注模块，还用于对所述音频数据进行语音识别，得到所述音频提示内容；根据预设拆分规则将所述音频提示内容拆分为所述至少两句内容提示信息；根据所述音频提示内容与所述音频数据之间的对应关系所述至少两句内容提示信息中的每句内容提示信息标注所述时间戳。

11.根据权利要求7至9任一所述的装置，其特征在于，所述生成模块，还用于根据所述内容提示数据中每句内容提示信息对应的时间戳，将所述至少两句内容提示信息嵌入所述视频数据中与所述时间戳对应的位置，得到所述待配音视频，其中，不同的角色名称对应的内容提示信息被配置为不同的颜色。

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的待配音视频的生成方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的待配音视频的生成方法。