CN112422999A

CN112422999A - 直播内容处理方法及计算机设备

Info

Publication number: CN112422999A
Application number: CN202011163025.5A
Authority: CN
Inventors: 张艳军; 李婷婷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-02-26
Anticipated expiration: 2040-10-27
Also published as: CN112422999B

Abstract

本申请提出了一种直播内容处理方法及计算机设备，终端响应于对第一直播录制文件的配音触发操作，输出针对该第一直播录制文件所含包含的第一图像内容的配音处理页面，以得到满足用户配音要求的配音文件，向服务设备发送包含该配音文件的配音处理请求，由服务设备依据配音文件包含的源配音音频和音频配置参数，对第一直播录制文件的第一图像内容进行配音处理，将得到的配音直播文件反馈至终端播出，完成对其发布输入操作，向服务设备发送针对配音直播文件的发布请求，将配音直播文件发布至直播平台，供其他用户观看，相对于直接将直播录制文件发布至直播平台的处理方式，增加了发布视频的趣味性和互动性，且提升了用户发布视频的积极性。

Description

直播内容处理方法及计算机设备

技术领域

本申请涉及通信技术领域，尤其涉及一种直播内容处理方法及计算机设备。

背景技术

近年来，随着互联网通信技术的快速发展，直播以具有互联网的直观、快速、地域不受限制等优势，已得到广泛普及应用。在直播业务中，用户可以通过客户端(例如专用的直播客户端、浏览器等)访问直播平台后，通常都是访问某一直播间，观看主播的直播内容。

在实际应用中，用户可能会因某些因素导致错过观看直播，为了满足这类用户的直播内容观看需求，主播可以录制直播内发布至直播平台上，以使用户随时可以登录直播平台，观看直播回放内容，非常方便。

发明内容

鉴于此，为了提高直播内容发布的趣味性和互动性，提升用户参与积极性，本申请提出了以下技术方案：

一方面，本申请提出了一种直播内容处理方法，所述方法包括：

响应于对第一直播录制文件的配音触发操作，输出针对所述第一直播录制文件所包含的第一图像内容的配音处理页面；

响应于对所述配音处理页面的配音输入操作，得到针对所述第一图像内容的配音文件，向服务设备发送包含有所述配音文件的配音处理请求；其中，所述配音文件包含有源配音音频，及针对所述源配音音频的音频配置参数；

接收所述服务设备反馈的配音直播文件，并在输出的直播内容发布页面展示所述配音直播文件；其中，所述配音直播文件是所述服务设备响应所述配音处理请求，依据所述源配音音频和所述音频配置参数，对所述第一图像内容进行配音处理得到的，

响应于对所述直播内容发布页面的发布触发操作，向所述服务设备发送针对所述配音直播文件的发布请求，以将所述配音直播文件发布至直播平台。

可选的，所述方法还包括：

接收服务设备反馈的针对目标配音音频的配音评分，并输出所述配音评分；

其中，所述目标配音音频是所述配音直播文件包含的音频；所述配音评分是所述服务设备依据所述目标配音音频，与所述第一直播录制文件所包含的源音频之间的相似度确定的，且所述配音评分的大小，能够影响相应的所述配音直播文件在直播平台上的推荐展示顺序；

所述响应于对所述直播内容发布页面的发布触发操作，向所述服务设备发送针对所述配音直播文件的发布请求，包括：

响应于对所述直播内容发布页面的输入操作，得到针对所述配音直播文件输入的文件发布信息，其中，所述文件发布信息包括所述配音评分、声音类型及文件标题；

响应于对所述直播内容发布页面的发布确认操作，得到包含有所述文件发布信息的发布请求，将所述发布请求发送至所述服务设备。

可选的，所述方法还包括：

接收所述服务设备反馈的针对所述配音直播文件的配音奖励信息；其中，所述奖励信息是所述服务设备依据所述配音直播文件的历史点击数据，和/或所述配音直播文件对应的配音评分确定的；

在本终端对应的直播账户信息中展示所述配音奖励信息。

又一方面，本申请还提出了一种直播内容处理方法，所述方法包括：

接收终端发送的包含有配音文件的配音处理请求；其中，所述配音处理请求是所述终端响应于对输出的配音处理页面的配音输入操作，得到针对第一直播录制文件所包含的第一图像内容的所述配音文件后生成的，且所述配音文件包含有源配音音频，及针对所述源配音音频的音频配置参数；

响应所述配音处理请求，依据所述源配音音频和所述音频配置参数，对所述第一图像内容进行配音处理，得到配音直播文件；

将所述配音直播文件反馈至所述终端输出；

接收所述终端发送的针对所述配音直播文件的发布请求，其中，所述发布请求是所述终端响应于对输出的直播内容发布页面的发布触发操作而生成的，所述直播内容发布页面能够展示所述配音直播文件；

响应所述发布请求，将所述配音直播文件发布至所述直播平台。

可选的，所述音频配置参数包括多个音轨配置参数，所述依据所述源配音音频和所述音频配置参数，对所述第一图像内容进行配音处理，得到配音直播文件，包括：

提取所述源配音音频包含的多个音轨数据；

依据所述多个音轨配置参数，对相应的所述音轨数据进行更新处理，得到待合成音轨数据；

对得到的多个所述待合成音轨数据进行合成处理，得到目标配音音频；

将所述目标配音音频与所述第一直播录制文件所包含的第一图像内容进行合成处理，得到配音直播文件。

又一方面，本申请还提出了一种直播内容处理装置，所述装置包括：

配音处理页面输出模块，用于响应于对第一直播录制文件的配音触发操作，输出针对所述第一直播录制文件所包含的第一图像内容的配音处理页面；

配音处理请求发送模块，用于响应于对所述配音处理页面的配音输入操作，得到针对所述第一图像内容的配音文件，向服务设备发送包含有所述配音文件的配音处理请求；其中，所述配音文件包含有源配音音频，及针对所述源配音音频的音频配置参数；

配音直播文件获取模块，用于接收所述服务设备反馈的配音直播文件，并在输出的直播内容发布页面展示所述配音直播文件；其中，所述配音直播文件是所述服务设备响应所述配音处理请求，依据所述源配音音频和所述音频配置参数，对所述第一图像内容进行配音处理得到的，

配音直播文件发布模块，用于响应于对所述直播内容发布页面的发布触发操作，向所述服务设备发送针对所述配音直播文件的发布请求，以将所述配音直播文件发布至直播平台。

配音处理请求接收模块，用于接收终端发送的包含有配音文件的配音处理请求；其中，所述配音处理请求是所述终端响应于对输出的配音处理页面的配音输入操作，得到针对第一直播录制文件所包含的第一图像内容的所述配音文件后生成的，且所述配音文件包含有源配音音频，及针对所述源配音音频的音频配置参数；

配音直播文件获得模块，用于响应所述配音处理请求，依据所述源配音音频和所述音频配置参数，对所述第一图像内容进行配音处理，得到配音直播文件；

配音直播文件发送模块，用于将所述配音直播文件反馈至所述终端输出；

发布请求接收模块，用于接收所述终端发送的针对所述配音直播文件的发布请求，其中，所述发布请求是所述终端响应于对输出的直播内容发布页面的发布触发操作而生成的，所述直播内容发布页面能够展示所述配音直播文件；

配音直播文件发布模块，用于响应所述发布请求，将所述配音直播文件发布至所述直播平台。

又一方面，本申请还提出了一种计算机设备，所述计算机设备包括通信模块，至少一个存储器和至少一个处理器，其中：

所述存储器，用于存储实现如上述直播内容处理方法的程序；

所述处理器，用于加载并执行所述存储器存储的所述程序，以实现上述的直播内容处理方法的各步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行，实现如上述的直播内容处理方法的各步骤。

由此可见，在本申请实施例中，为了丰富直播平台支持的直播业务类型，吸引用户主动参与直播内容的互动，提出了对其他用户发布的直播录制文件，或自己上传的原创直播录制文件进行配音创作业务。具体的，终端响应于对第一直播录制文件的配音触发操作，输出针对该第一直播录制文件所含包含的第一图像内容的配音处理页面，以得到满足用户配音要求的配音文件，向服务设备发送包含该配音文件的配音处理请求，由服务设备依据配音文件包含的源配音音频和音频配置参数，对第一直播录制文件的第一图像内容进行配音处理，将得到的配音直播文件反馈至终端播出，完成对其发布输入操作，向服务设备发送针对配音直播文件的发布请求，将配音直播文件发布至直播平台，供其他用户观看，相对于直接将直播录制文件发布至直播平台的处理方式，增加了发布视频的趣味性和互动性，且提升了用户发布视频的积极性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为适用于本申请提出的直播内容处理方法的一可选直播系统架构示意图；

图2为本申请提出的适用于终端的直播内容处理方法的一可选示例的流程示意图；

图3为本申请提出的直播内容处理方法的又一可选示例的信令流程示意图；

图4a为本申请提出的直播内容处理方法中，终端输出的配音处理页面的一可选示意图；

图4b为本申请提出的直播内容处理方法中，终端输出的音频配置界面的一可选示意图；

图4c为本申请提出的直播内容处理方法中，终端输出的直播内容发布页面一可选示意图；

图5为本申请提出的适用于终端的直播内容处理方法的又一可选示例的流程示意图；

图6为本申请提出的直播内容处理方法中，终端对配音评分的一可选展示方式示意图；

图7为本申请提出的适用于服务设备的直播内容处理方法的一可选示例的流程示意图；

图8为本申请提出的适用于服务设备的直播内容处理方法的又一可选示例的流程示意图；

图9为本申请提出的适用于服务设备的直播内容处理方法中，音频加工处理场景的一可选流程示意图；

图10为本申请提出的适用于服务设备的直播内容处理方法的又一可选示例的流程示意图；

图11为适用于本申请提出的直播内容处理方法的计算机设备的一可选示例的硬件结构示意图；

图12为适用于本申请提出的直播内容处理方法的终端的一可选示例的硬件结构示意图。

具体实施方式

针对背景技术部分描述，本申请希望能够丰富直播平台支持的直播业务类型，吸引用户主动参与直播内容的互动，因此，提出了允许用户对自己或他人录制的直播内容这类视频文件进行配音创作，如配置具有特定声音类型、特定背景声音效、特定人声/背景声音量等音频配置参数的音频，得到具有所配置新的配音音频文件的新视频文件，再将其发布至直播平台上，相对于直接在直播平台上发布录制的直播内容的处理方式，增加了发布视频的趣味性和互动性，且提升了用户发布视频的积极性和主动性。

其中，在上述对录制的直播内容文件进行配音创作，得到新的视频文件过程中，本申请可以利用人工智能技术(ArtificialIntelligence,AI)实现。人工智能技术作为一门综合学科，基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术，人工智能软件技术主要包括计算机视觉技术(Computer Vision,CV)、语音技术(Speech Technology)、自然语言处理(Nature Languageprocessing，NLP)、机器学习、深度学习等几大方向。

本申请实际应用中，可以依据具体应用场景需求，从上文列举的各人工智能技术中，选择合适的技术应用。如利用语音技术包含的自动语音识别技术(ASR)、语音合成技术(TTS)、声纹识别技术等，实现对采集到的音频文件进行音色等特征的调整，得到如甜美女生、男中音、老人、小孩等特定声音类型的音频文件，以提高配音创造过程的乐趣性和可玩性，但并不局限于这种配音处理方式。

进一步地，本申请还可以采用评分机制对创造的配音音频文件进行评分，如利用深度学习/机器学习算法，对配音音频文件及源音频文件进行特征比对，得到配音音频文件的配音评分，以辅助直播平台据此提高具有较高配音评分的视频文件的推荐概率，同时也能够增加用户对直播内容进行配音创作的认真度。

其中，对于配音评分较高的用户，还可以按照一定的奖励规则，给予其一定的奖励，如获得“配音达人”的称号，并将其更新到用户账户信息上，以增加该用户的配音专业度，提高该用户在直播平台发布的视频文件的阅读量等。其中，奖励规则可以是依据如人工神经网络、置信网络、强化学习、迁移学习、归纳学习等一个或多个组合得到的深度学习/机器学习网络，对直播平台上多个样本视频文件的历史数据进行训练得到的奖励模型，但并不局限于这种奖励规则获取方式，可视情况而定。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。且，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

而且，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

参照图1，为适用于本申请提出的直播内容处理方法的一可选直播系统架构示意图，在实际应用中，该直播系统可以包括：多个终端10、服务设备20及数据存储设备30，其中，多个终端10、服务设备20、数据存储设备30，均可以通过有线或无线网络实现相互之间的通信连接，具体网络连接方式本申请不做限制。

终端10可以是访问直播平台的用户使用的，能够通过键盘、触摸屏、语音交互等一种或多种方式进行人机交互的电子设备，该电子设备可以包括但并不局限于智能手机、平板电脑、个人计算机(personal computer，UMPC)、台式计算机、可穿戴设备、智能家居设备、车载设备等。

在实际应用中，用户通过终端10登录直播平台后，可以进入该直播平台上的任一直播间进行直播，此时该终端10可以称为主播终端；可以进入直播间观看主播的直播内容，此时该终端10可以称为观众终端；可以直接选择直播平台上发布的针对不同直播内容录制的视频文件进行观看；还可以将对自己直播内容录制，或对其他主播的直播内容录制的视频文件，上传至直播平台进行发布，以供其他用户观看等，可视情况而定。

服务设备20可以是支持直播平台实现多种业务功能(如基本直播功能、本申请提出的对直播内容的配音玩法，或其他直播互动玩法等)的服务设备。

在本申请实施例中，上述服务设备20通过包括承载并执行支持实现不同直播功能相应的后台逻辑的服务器，如配音处理服务器、消息服务器等。其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器等，本申请在此不做限制，可视情况而定。

本申请实施例中，配音处理服务器是执行本申请实施例提出的直播内容处理方法的服务器，即支持对发布的直播内容文件的配音玩法的服务器，关于该配音处理服务器的工作原理，可以参照下文相应实施例的描述，在此不做详述。

消息服务器可以用于向登录直播平台的终端推送各种通知，如某直播账户发布了某类型的直播录制文件、配音直播文件等视频文件的发布通知；某直播账户获得的了“配音达人”称号的配音奖励通知等，可以依据具体应用场景确定，本申请实施例不做一一详述。

数据存储设备30可以是用于存储直播过程中产生的各种直播数据、互动数据、终端上传的直播录制文件、配音直播文件等信息的数据库服务器，本申请对该数据存储设备30所存储的数据内容及其存储方式等不做限制。

在一些实施例中，对于直播平台获得的某些重要数据，可以采用云存储(cloudstorage)方式，通过分布式云存储系统实现存储。在这种情况下，可以预先为创建的每个逻辑卷分配物理存储空间，如某个存储设备或者某几个存储设备的磁盘组成的存储空间，终端可以在某一个逻辑卷上存储数据，从而将数据存储到文件系统上，进而写入该逻辑卷的物理存储空间，并记录数据存储位置，以便在终端登录直播平台访问数据时，文件系统能够根据该存储位置实现数据的访问，具体实现过程本申请在此不做一一详述。

基于此，本申请的直播系统可以采用区块链分布式系统，将上述各终端10、服务设备20、数据存储设备30等设备，作为区块链分布式系统中的网络节点。这样，如上文列举的需要存储的数据可以存储到区块链中，以保证互动数据和配音内容的真实性和可靠性，也便于后续基于这些数据，对各直播账号的互动行为进行监测，及时发现异常交易，避免灰色产业和水分，促进直播间的良性互动，具体实现过程本申请在此不做详述。

应该理解，图1所示的直播系统的架构并不构成对本申请实施例中直播系统的限定，在实际应用中，基于直播能够支持实现的其他服务，直播系统可以包括比图1所示的更多或更少的设备，或者组合某些子系统，本申请在此不做一一列举。

参照图2，为本申请提出的直播内容处理方法的一可选示例的流程示意图，该方法可以适用于计算机设备，本申请实施例中，该计算机设备可以是登录直播平台的用户使用的上述终端，也就是说，本实施例主要从用户的终端侧，来描述本申请提出的直播内容处理方法，如图2所示，该方法可以包括但并不局限于以下步骤：

步骤S11，响应于对第一直播录制文件的配音触发操作，输出针对该第一直播录制文件所包含的第一图像内容的配音处理页面；

其中，第一直播录制文件可以是直播平台已发布的任一直播录制文件，如用户对直播间的直播内容进行录制所得到的视频文件，将其发布到直播平台上，可以方便其他用户回看直播内容，以增加主播人气等；可选的，该第一直播录制文件还可以是本终端将要上传至直播平台发布的直播录制文件，如本终端的用户录制的原创的直播视频文件，本申请对第一直播录制文件的具体获取方法不做限制。

基于上述分析，本申请实施例中，用户可以通过终端登录直播平台，从直播平台上已发布的多个直播录制文件中，选择任一直播录制文件进行观看，若想要对该直播录制文件重新配音，可以选择该直播录制文件作为第一直播录制文件，并对该第一直播录制文件所包含的第一图像内容(即无音轨的直播内容)进行配音触发操作，如启动针对该第一直播录制文件的配音模式，获得针对该第一直播录制文件的配音处理页面信息，输出针对第一图像内容的配音处理页面，方便用户可以在该配音处理界面，完成对该第一直播录制文件的配音二次创作，即重新对该第一直播录制文件所包含的第一图像内容进行配音，以得到具有该第一图像内容的配音直播文件。

当然，用户也可以直接依据直播平台展示的各直播录制文件的文件发布信息，如该直播录制文件的文件标题、直播内容描述信息、声音类型等信息，来确定本次想要配音处理的第一直播录制文件，对该第一直播录制文件进行配音触发操作，输出配音处理页面，以完成对第一直播录制文件所包含的第一图像内容的配音二次创作，不需要花费时间观看直播录制文件的直播内容。

在本申请提出的又一些实施例中，用户也可以在上传原创的直播录制文件时，如对直播间的直播内容直接进行全部或部分录制，得到的直播录制文件，但并不局限于这种直播录制文件的获取方式，之后，可以将该直播录制文件发送给服务设备，以发布到直播平台，实现对该直播录制文件的直播内容的推广。在该应用场景下，在上传的直播录制文件的同时，可以开启配音玩法，如勾选针对该直播录制文件的配音模式，输出配音处理页面，以便用户在该配音处理页面，输入对将要上传的该直播录制文件的相关配音信息，如实现变声、改变背景声效、各音轨音量等功能的信息，具体实现可以参照但并不局限于下文相应部分的描述。

由此可见，在不同应用场景下，可以采用不同的方式确定第一直播录制文件，触发请求对该第一直播录制文件包含的第一图像内容进行重新配音处理，输出用以完成配音处理的配音处理页面，但并不局限于本申请上文描述的几种实现方法。

步骤S12，响应于对该配音处理页面的配音输入操作，得到针对上述第一图像内容的配音文件，向服务设备发送包含该配音文件的配音处理请求；

由于本申请是要对直接录制的直播图像内容进行配音二次创作，以替换直播录制文件中的源音频，所以，本申请实施例按照上述方式输出配音处理页面后，可以在该配音处理页面输入本次配音创作的相关信息，如录制配音音频，并针对所录制的配音音频设置如音量、声音类型、音效等配音配置参数，从而得到针对该第一直播录制文件的第一图像内容的配音文件，具体配音处理实现方法本申请不做限制。

对于上述配音文件的具体获取过程，在一种可能的实现方式中，可以在播放该第一直播录制文件包含的第一图像内容的同时，进行配音音频的录制，得到相应的配音音频文件。其中，在配音音频录制过程中，若配音处理页面播放的是第一直播录制文件，为了避免第一直播录制文件的源音频播放干扰，可以选择静音播放第一直播录制文件，再长按“录音”功能按钮，完成配音音频录制。

在又一种可能的实现方式中，在终端确定第一直播录制文件后，可以通知服务设备对第一直播录制文件进行音频分离，得到无音轨的直播内容即第一图像内容，将该第一图像内容反馈至终端，这样，终端输出配音处理页面时，可以在该配音处理页面输出该第一图像内容，用户依据输出的每一帧图像内容进行配音，得到源配音音频。可见，这种仅播放第一图像内容的方式，无需用户关闭音频播放器，也避免了第一直播录制文件的源音频的播放，对配音录制过程的声音干扰。

需要说明，关于对第一直播录制文件的第一图像内容的配音实现方法，但并不局限于本申请上文描述两种实现方式，也可以在完成配音录制后，再对采集到源视频的播放声音信号进行过滤，得到所需的配音音频等；终端还可以从第三方直接获取音频文件，作为该第一图像内容的配音音频，无需用户在线配音等，本申请在此不做一一详述，可视情况选择配音录制实现方式。

按照上述实现方法得到对第一图像内容的源配音音频后，终端可以直接弹出配音处理页面的下级页面，如音频配置页面，以使用户在该音频配置页面中，按照本次配音要求确定对源配音音频的音频配置参数，如人声音量、背景声音量、人声的声音类型、背景声的音效类型等，本申请对该音频配置参数包含的内容不做限制，可视情况而定。

之后，可以触发配音处理页面中的“下一步”或“确认”等功能控件，生成针对第一直播录制文件的第一图像内容，且包含所得配音文件的配音处理请求，并发送至直播系统的服务设备。关于该配音处理请求的生成过程，可以依据终端与服务设备之间的通信协议等信息确定，本实施例在此不做详述。

而且为了使服务设备能够准确识别本终端请求配音处理对象，从数据存储设备中读取第一直播录制文件，或识别已缓存的第一直播录制文件或对其音频分离后所得到的第一图像内容，上述配音处理请求还可以包含有第一直播录制文件的第一文件标识，如文件ID等，本申请对配音处理请求的生成方式及其包含的内容不做限制。

步骤S13，接收服务设备反馈的配音直播文件，并在输出的直播内容发布页面展示该配音直播文件；

本申请实际应用中，服务设备接收到配音处理请求后，可以响应该配音处理请求，得到该配音处理请求包含的配音文件，并获得本终端请求配音处理的第一直播录制文件的第一图像内容，进而依据该配音文件中的源配音音频和音频配置参数，对第一直播录制文件的第一图像内容进行配音处理，得到包含该第一图像内容及目标配音音频的配音直播文件，具体配音处理过程本申请实施例在此不做详述，可以参照下文实施例相应部分的描述。

步骤S14，响应于对该配音直播文件的发布输入操作，向直播平台发起针对该配音直播文件的发布请求，以将该配音直播文件发布至直播平台进行展示。

继上文描述，直播平台依据终端发送的配音文件，完成对相应第一直播录制文件的视频图像文件的配音处理，得到包含该视频图像文件的配音直播文件，即针对第一直播录制文件包含的直播内容，重新进行配音创作得到的多音轨视频文件，可以将该配音直播文件反馈至终端输出，由用户确定该配音直播文件是否满足其配音要求，若不满足，可以按照上述方式，对该配音直播文件的配音音频文件进行调整，以更新上述配音直播文件，实现过程本实施例不做详述。

在确定终端输出的配音直播文件满足配音要求的情况下，根据需要可以针对该配音直播文件配置相应的文件发布信息，如输入该配音直播文件的文件标题、文件描述信息、针对其包含的直播内容的至少一个标签等，本申请对该文件发布信息的输入方式及其包含的内容不做限制，之后，可以触发“下一步”或“发布”等功能控件，生成针对该配音直播文件的发布请求，并将该发布请求发送至服务设备，以使该服务设备将该配音直播文件发布到直播平台上进行展示，供其他用户选择观看，提升发布者的人气。

其中，如上述描述，在用户输入针对配音直播文件的文件发布信息后，在直播平台上发布配音直播文件时，可以同步输出相应的文件发布信息，这样，其他用户登录直播平台后，可以通过查看各视频文件(其包含了各用户上传的原始直播录制文件，以及按照上述方式得到的配音直播文件等)的文件发布信息，选择查看感兴趣的直播录制内容。关于直播平台如何展示已发布的各视频文件及其对应的文件发布信息的实现方式，可以由直播平台配置默认展示页面，也可以由用户自定义展示页面等，本申请不做限制。

可以理解，在用户确定输出的配音直播文件符合自己的配音要求后，也可以不输入文件发布信息，直接将该配音直播文件发布到直播平台上，这种情况下，其他用户登录该直播平台，可以通过查看所展示的该配音直播文件的直播缩略图，或者播放该配音直播文件等，确定是否下载该配音直播文件或对其进行配音创作等。

在一些实施例中，若用户不希望其他用户对其发布的经过配音创作得到的配音直播文件再进行二次创作，可以在发起的发布请求中，携带相应的禁止配音创作的约束条件，这样，直播平台发布该配音直播文件后，若接收到针对该配音直播文件的配音处理请求，可以依据该约束条件，禁止响应该配音处理请求，但并不局限于这种实现方式。

综上所述，在本申请实施例中，丰富直播平台支持的直播业务类型，吸引用户主动参与直播内容的互动，提出了对其他用户发布的直播录制文件，或自己上传的原创直播录制文件进行配音创作业务，具体的，对于用户想要再次配音创作的第一直播录制文件，终端可以通过响应于对该第一直播录制文件的配音触发操作，输出针对该第一直播录制文件所含包含的第一图像内容的配音处理页面，从而使用户实现对第一图像内容的个性化配音配置，得到满足用户配音要求的配音文件，向服务设备发送包含该配音文件的配音处理请求，由该服务设备依据该配音文件包含的源配音音频和音频配置参数，对第一直播录制文件的第一图像内容进行配音处理，得到包含该第一图像内容的配音直播文件，反馈至终端播出，以使本用户验证其满足配音要求后，向服务设备反馈针对该配音直播文件的发布请求，从而将配音直播文件发布至直播平台，供其他用户观看。相对于直接将直播录制文件上传至直播平台的处理方式，增加了发布视频的趣味性和互动性，且提升了用户发布视频的积极性。

参照图3，为本申请提出的直播内容处理方法的又一可选示例的信令流程示意图，本实施例可以是对上文实施例描述的直播内容处理方法的一可选细化实现方法，但并不局限于本实施例描述的这种细化实现方法，如图3所示，该方法可以包括：

步骤S21，终端响应于直播内容访问操作，输出直播内容选择页面，并在该直播内容选择页面展示直播平台已发布的直播录制文件；

本申请实施例中，如图3所示的信令流程示意图，用户通过终端登录直播平台后，想要对直播平台上已发布的直播录制文件进行配音二次创作，可以触控直播操作页面展示的配音玩法入口，进入展示有已发布的各直播录制文件的直播内容选择页面，对于终端来说，其可以响应于用户在直播操作页面上的直播内容访问操作，输出该直播内容选择页面，结合上文描述，对于直播平台已发布的各直播录制文件的展示，可以通过直播缩略图、直播录制文件的文件发布信息等方式进行展示，供用户参考选择想要配音处理的第一直播录制文件。本申请对直播内容选择页面的展示内容及排版布局等不做限制，可视情况而定。

步骤S22，终端响应于对第一直播录制文件的配音触发操作，生成包含第一直播录制文件的第一文件标识的配音内容获取请求；

继上文描述，本实施例中，第一直播录制文件可以是指从直播内容选择页面所展示的已发布的直播录制文件中，所选择的用户想要进行配音二次创作的任一直播录制文件，具体可能是其他用户或本用户在此之前发送至服务设备，并发布到直播平台的直播内容的视频文件。

在又一些实施例中，若用户在本终端对直播间的直播内容进行录制，所得到的直播录制文件，将该直播录制文件上传至直播平台发布时，想要对该待发布的直播录制文件进行配音处理的应用场景下，终端可以输出直播内容上传页面，在该直播内容上传页面展示本终端获得的待发布的直播录制文件，由用户从中选择本次要配音处理的任一待发布的直播录制文件，确定为第一直播录制文件。

之后，用户可以勾选配音模式，以使终端响应于对第一直播录制文件的配音触发操作，输出针对第一直播录制文件所包含的第一图像内容的配音处理页面，以完成配音处理，得到相应的配音文件，再点击确认发布功能按钮，向服务设备发送包含第一直播录制文件及其对应的配音文件的发布请求，以使服务设备依据该配音文件，完成对第一直播录制文件的重新配音，实现过程本实施例不做详述。

步骤S23，终端将配音内容获取请求发送至服务设备；

步骤S24，服务设备响应该配音内容获取请求，对具有第一文件标识的第一直播录制文件进行音频分离，得到第一图像内容；

步骤S25，服务设备将第一图像内容反馈至终端；

在实际应用中，对于各用户终端上传的直播录制文件，可以写入直播系统的数据存储设备进行存储，具体存储方式不做限定。可选的，为了方便准确读取所需直播录制文件，可以为各直播录制文件配置相应的文件标识，如文件ID、唯一编号等，这样，服务设备接收到配音内容获取请求，对其进行解析，得到其包含的第一文件标识后，可以依据该第一文件标识，从数据存储设备中提取对应的第一直播录制文件，并对该第一直播录制文件进行音频分离，得到无音轨的直播录制文件，本申请记为第一图像内容。

在一种可能的实现方式中，服务设备可以利用预先构建的音频分离器，对第一直播录制文件进行音轨分离处理，如对第一直播录制文件进行解码分离原音轨，删除分离出的原音轨数据，得到无音轨的第一图像内容等，本申请对如何分离视频文件中的音频的实现方法不做限制，并不局限于本申请描述的处理方式。

步骤S26，终端输出配音处理页面，并在该配音输出页面展示第一图像内容；

在本申请实施例中，在获得第一直播录制文件的无音轨视频文件即第一图像内容后，终端可以输出针对该第一图像内容的配音处理页面，以展示该第一图像内容，参照图4a所示的配音处理页面示意图，该配音处理页面的直播内容展示区域可以直接显示第一图像内容的直播内容缩略图，用户可以对该直播内容展示区域进行触控操作，如点击直播内容缩略图，或点击直播内容展示区域的播放功能控件，由终端响应于对第一图像内容的播放操作，播放第一图像内容，即回放直播内容的图像画面。当然，按照上述方式得到第一直播录制文件的第一图像内容后，可以在输出配音处理页面的同时，，直接在该配音处理页面的直播内容展示区域，播放该第一图像内容，无用用户再触发播放。

在又一些实施例中，如上述分析，终端也可以直接下载第一直播录制文件，这样，终端输出配音处理页面时，可以在其直播内容展示区域展示该第一直播录制文件，如展示第一直播录制文件的直播内容缩略图，或直接播放第一直播录制文件，或者在播放第一直播录制文件之前，可以先关闭该配音处理页面的声音播放器，再触发播放功能控件，实现第一直播录制文件的无声播放，具体实现过程本申请不做详述。

步骤S27，终端响应于对配音处理页面的配音输入操作，在播放第一图像内容过程中，获取针对第一图像内容的源配音音频；

仍以图4a所示的配音处理页面为例，确定所展示的第一图像内容是想要配音创作的直播内容图像，以及对第一图像内容的配音方案后，用户可以点击该配音处理页面的录音按钮，即触发录音控件，在播放第一图像内容的同时进行配音，即依据所展示的每一帧图像内容，来确定要录入的相应帧音频，从而得到针对该第一图像内容的配音音频，由于本申请还可以对其做进一步变声、声效等处理，本申请经此时直接录制的配音音频记为源配音音频。

其中，为了保证配音音频与各帧图像内容相匹配，可以在录制每一帧音频时，将该帧音频与播放的相应帧图像进行关联存储，如终端在获取各帧音频的同时，可以记录相应的录制时间，并将该录制时间与相应帧图像的时间戳进行关联，并将该关联关系写入配音文件发送至服务设备，由于该关联关系不会因对源配音音频的加工处理而改变，因此，服务设备能够依据该关联关系，将目标配音音频中各帧音频，与第一直播录制文件中相应帧图像进行合并处理，以保证所得配音直播文件中，目标配音音频与第一图像内容同步，具体实现过程本申请不做详述。

在本申请提出的又一些实施例中，用户也可以在确定针对第一图像内容的配音方案后，直接长按如图4a所示的配音按钮，完成配音工作，得到针对该第一图像内容的源配音音频，即用户在未观看第一直播内容的过程中完成配音。这种情况下，同一时间点下的音频帧内容与图像帧内容可能会不匹配，服务设备可以结合人工智能技术，分别对第一图像内容包含的各帧图像，及目标配音音频包含的各帧音频进行语义分析，再依据语义分析结果，确定多帧图像与多帧音频之间的匹配关系，进而依据该匹配关系，实现对第一图像内容和目标配音音频的合并同步处理，但并不局限于这种实现方法。

另外，需要说明，对于上述源配音音频的获取方式，并不局限于上文描述的用户直接录入，终端直接采集用户输入的音频实现方法，终端也可以从第三方获取适用于该丢一图像内容的音频文件，并将其确定为该第一图像内容的源配音音频等，本申请对第一图像内容的源配音音频的获取方法不做一一详述，且对终端输出的配音处理页面的布局也不做限制。

步骤S28，终端输出针对该源配音音频的音频配置界面；

步骤S29，终端响应于对该音频配置界面的配置操作，得到针对源配音音频的音频配置参数；

为了提高配音过程的趣味性和可玩性，增大配音处理后的配音直播文件与第一直播录制文件之间的差异，可以对直接录入的源配音音频进行变音或效果处理，具体可以通过调整所确定的源配音音频中，多个音轨数据各自的音轨配置参数实现，如调整源配音音频包含的人声音轨数据和背景声音轨数据。参照图4b所示的音频配置界面，用户可以确定该源配音音频中的人声音量、背景声音量、人声类型，背景声效果类型等音频配音参数，以使最终所得到的配音直播文件能够按照用户选择的音频配音参数进行播放。

示例性的，为了使用户能够清晰听到视频文件中的音频内容，可以调整源配音音频文件中的人声音量，与背景声音量之间的音量差值，以突出人声音频信号；同时，用户也可以结合变色处理，不用自己原声配音后发布视频文件，如选择萝莉这一声音类型，以使最终得到的配音直播文件播放时，能够以萝莉音色输出该配音直播文件的音频，但并不局限于此。

根据需要，本申请还可以调整背景声效果，如选择某一类别音乐会所具有的声音效果，作为配音直播文件播放时的背景音等，并不具局限于图4b所示的几种音频配置参数，且在实际应用中，可以依据实际需求，选择一种或多种音频配置参数，本申请不做一一详述。

可以理解，在对源配音音频的各音轨数据进行参数调整过程中，可以采用如图4b所示的音频配置界面所展示的调整方式，即滑动音量调节控价，改变相应音轨的音量，从展示的声音类型列表中选择所需的声音类型等，但并不局限于这种调整实现方法。还可以允许用户自定义音频配置参数，如在音频配置界面中展示各类配音参数对应的自定义功能控件，用户点击该自定义功能控件，可以输出相应类型配置参数的自定义配置页面，用户可以在该自定义配置页面中随意输入自定义参数等，具体自定义音频配置参数的实现过程本申请不做限制。

步骤S210，终端响应于对音频配置界面的提交操作，得到包含源配音音频和音频配置参数的配音文件，生成包含该配音文件的配音处理请求；

步骤S211，终端向服务设备发送配音处理请求；

仍以上图4b所示的音频配置界面为例进行说明，用户在该音频配置界面完成配音创作，确定针对录入的源配音音频的音频配置参数后，可以点击“下一步”功能按钮，确定用于调整所获取的源配音音频的至少一种音频配置参数，获得包含该音频配置参数与该源配音音频的音频文件，并生成包含该音频文件的配音处理请求，具体生成过程以及该音频文件的文件格式、配音处理请求所遵循的通信协议要求等不做限制。

可以理解，在服务设备通过其他途径，无法确定终端本次请求配音处理的第一直播录制文件或其包含的第一图像内容的情况下，上述配音处理请求还可以包含有第一直播录制文件的第一文件标识等其他信息。

另外，若用户在上传原创的第一直播录制文件时请求对其配音处理，并按照上述方式确定针对该第一直播录制文件包含的第一图像内容的配音文件后，所生成的配音处理请求除了该配音文件外，还可以携带第一直播录制文件，或终端对该第一直播录制文件进行音频分离，所得到的第一图像内容等，以使服务设备能够依据配音文件，实现对本终端上传的第一直播录制文件的第一图像内容的配音处理。可见，在不同的应用场景下，终端向服务设备发送的针对第一直播录制文件的第一图像内容的配音处理请求，所包含的信息内容可能会有所差异，可视情况而定，本申请不做一一详述。

步骤S212，服务设备响应该配音处理请求，依据配音文件中的音频配置参数，对源配音音频进行处理，得到目标配音音频；

本申请实施例中，用户在终端通过上述方式，完成对源配音音频的音频配置参数的调整，并将调整后得到的音频配置参数，以及录入的源配音音频发送至服务设备后，服务设备可以对源配音音频进行音轨分离，得到源配音音频包含的如人声音轨数据、背景声音轨数据等多条音轨数据，之后，可以依据接收到的音频配置参数包含的多个音轨配置参数，实现对分离得到的相应音轨数据的加工处理，将处理后的多条音轨数据合成为一条音轨的目标配音音频。

需要说明，本申请对服务设备如何配音文件中的音频配置参数，对源配音音频进行处理，得到目标配音音频文件的实现方式，其并不局限于上文描述的音轨分离加工处理过程，可视情况而定。

步骤S213，服务设备将该目标配音音频与第一图像内容进行合并处理，得到配音直播文件；

结合上文实施例相应部分的描述，对于目标配音音频包含的各帧音频，以及相应的第一图像内容(即无音轨的视频文件)所包含的各帧图像，可以依据相应的时间戳和/或语义分析结果，将相匹配的一帧音频和一帧图像进行合并处理，得到一帧音视频信号，之后，按照得到的多帧音视频信号各自对应的时间戳的排序，对这多帧音视频信号进行合并处理，得到所需的配音直播文件，但并不局限于这种合并处理实现方法。

可以理解，若服务设备之前并未对第一直播录制文件进行音频分离，而是直接将第一直播录制文件反馈至终端输出，在执行步骤S213之前，服务设备需要先对第一直播录制文件进行音频分离，得到第一图像内容，具体实现过程可以参照上文相应部分的描述，且本申请对服务设备在哪个阶段执行该音频分离处理方法不做限制。

步骤S214，服务设备将配音直播文件反馈至终端；

步骤S215，终端输出直播内容发布页面，并在该直播内容发布页面播放该配音直播文件；

步骤S216，终端响应于对直播内容发布页面的发布输入操作，得到配音直播文件的文件发布信息；

参照图4c所示的直播内容发布页面，终端接收到直播平台反馈的配音直播文件后，可以在该直播内容发布页面的视频播放区域进行播放，以使用户验证用户本次对第一直播录制文件的配音处理结果是否满足其配音要求，达到预设的配音处理效果，若达到，可以选择将该配音直播文件发布至直播平台进行展示，以供其他用户观看。

其中，在对配音直播文件的发布实现过程中，用户可以在终端展示的直播内容发布页面，输入用以辅助用户了解该配音直播文件内容的文件发布信息，当然，该文件发布信息也可以辅助直播平台，实现对其接收到的各配音直播文件进行分类处理等。如图4c所示的直播内容发布页面，用户输入的文件发布信息可以包括文件标题、文件描述信息、音频标签等内容，本申请对此不做限制，可视情况而定。

对于上述直播内容发布页面，其可以展示至少一种发布信息列表，用户可以直接从中选择符合当前的配音直播文件的发布信息，也可以由用户自定义该配音直播文件的文件发布信息，本申请对上述文件发布信息的获取方式不做限制。

步骤S217，终端向服务设备发送包含该文件发布信息的发布请求；

步骤S218，服务设备响应该发布请求，将该配音直播文件发布至直播平台，并展示该配音直播文件的文件发布信息。

仍以图4c所示的直播内容发布页面为例进行说明，用户在该直播内容发布页面完成针对配音直播文件的发布信息输入，以使终端得到相应的文件发布信息后，可以点击“下一步”等功能按钮，或展示其他内容的功能控件，以触发终端执行下一步操作，终端可以向直播平台发起包含该文件发布信息的发布请求，根据需要，该发布请求也可以包含有配音直播文件对应的第二文件标识，如存储该配音直播文件的文件ID等，以通知直播平台的服务设备，将存储的相应配音直播文件发布到直播平台上，并同时展示该配音直播文件的文件发布信息，供其他登录直播平台的用户了解该配音直播文件。

综上，在本申请实施例中，当用户想要对第一直播录制文件进行配音二次创作，可以向服务设备发起配音处理请求，由该服务设备对第一直播录制文件进行音频分离，将得到的第一图像内容反馈至终端展示，方便用户看着播放的第一图像内容进行配音，不仅避免了源音频的干扰，且保证所配置的音频内容与第一图像内容匹配。之后，终端用户还可以对所录制的源配音音频进行变音、变声效等处理，以突破目前原声视频的内容形态，让用户在发布直播内容的时候能添加自己的想法和灵感，给直播内容一个新的生命力，极大提升了直播内容发布趣味性和可玩性。之后，服务设备依据终端提供的配音文件，对第一图像内容进行配音处理，得到配音直播文件后，可以添加文件标题、声音类型、配音内容描述信息等文件发布信息，以发布到直播平台后，体现与其他直播内容的差异，辅助其他用户快速了解该配音直播文件，确定感兴趣的配音直播文件观看。

在本申请提出的又一些实施例中，为了增加用户对直播录制文件的配音二次创作的认真度和积极性，本申请还可以在上文描述的直播内容处理方法的基础上，增加配音评分机制，即为用户配音创作的配音直播文件包含的目标配音音频进行打分，以使服务设备据此调整相应配音直播文件在直播平台上的推荐顺序，如配音评分越大，被推荐到直播平台的直播内容选择页面的概率越大，被其他用户观看的概率越大。

另外，在上文描述的直播内容处理方法的基础上，也还可以提出奖励机制，将奖励结果发布到直播平台上，刺激其他用户参与到直播录制文件的配音二次创作中，提高直播平台的活跃度。可以理解，本申请可以将上述配音评分机制和奖励机制结合，得到新的直播内容处理方案，也可以在直播内容处理方案中，结合上述配音评分机制或奖励机制，或其他机制等，本申请对此不做限制，可视情况而定，本申请在此仅以上述配音评分机制和奖励机制结合的方案为例，来描述对上述直播内容处理方法的进一步优化方案。

参照图5，为本申请提出的直播内容处理方法的又一可选示例的流程示意图，该方法仍适用于终端侧，且主要对完成对第一直播录制文件的配音创作，得到目标配音音频之后的处理步骤进行描述，关于获取该目标配音音频的实现过程，可以参照但并不局限于上文实施例相应部分的描述，本实施例不做赘述，如图5所示，该方法可以包括：

步骤S31，接收服务设备反馈的针对目标配音音频的配音评分，并输出该配音评分；

本申请实施例中，目标配音音频是配音直播文件包含的音频，获取过程可以参照上文相应部分的描述。而该配音评分可以是服务设备依据目标配音音频，与第一直播录制文件所包含的源音频之间的相似度确定的，且该配音评分的大小，能够影响相应的配音直播文件在直播平台上的推荐展示顺序，关于该配音评分的具体获取过程，可以参照但并不局限于下文实施例相应部分的描述。

可选的，如图6所示的配音评分的一可选展示方式示意图，在服务设备获取配音直播文件过程中，得到目标配音音频后，可以先确定其配音分数，并反馈至终端进行展示，这样，用户看到该配音评分后，若不满足本次配音结果，可以随时终止本次配音处理操作，如点击结束配音按钮或选项，向服务设备发送针对第一直播录制文件的配音结束请求，服务设备将停止获取配音直播文件的处理步骤，具体实现方法本申请不做限制。

而且，本申请可以重新启动针对第一图像内容的配音处理，输出配音处理页面，重新进行配音处理，具体实现过程可以参照上文相应部分的描述，不做赘述。若满足本次配音结果，可以继续等待服务设备反馈配音直播文件，或向服务设备发送对目标配音音频继续处理的指令，以使得服务设备获取配音直播文件等，可视情况而定。

步骤S32，响应于对直播内容发布页面的输入操作，得到针对配音直播文件输入的文件发布信息；

本申请实施例中，文件发布信息可以包括配音评分、声音类型、文件标题、配音内容描述信息等，具体获取过程可以参照上述实施例相应部分的描述。

步骤S33，响应于对直播内容发布页面的发布确认操作，得到包含有文件发布信息的发布请求，将发布请求发送至服务设备，以在直播平台发布该配音直播文件，展示其文件发布信息；

关于配音直播文件的发布实现过程，可以参照上述实施例相应部分的描述，不再赘述。

步骤S34，接收服务设备反馈的针对配音直播文件的配音奖励信息；

按照上述方式，将配音二次创作得到的配音直播文件发布至直播平台后，其他用户可以观看，还可以对其进行评价，如点赞、留言等，以提高该配音直播文件的播放量、点赞量等，并将其作为该配音直播文件的历史点击数据进行更新记录。

其中，服务服务设备可以依据各配音直播文件的历史点击数据，和/或配音直播文件对应的配音评分等信息，对各配音直播文件的配音进行比较，来选择出最优秀的配音直播文件，并按照配音奖励机制，给予其发布者一定的配音奖励，如发布者可以获得“配音达人”的称号等，以提升用户发布直播视频的积极性，以及配音二次创作的主动性。需要说明，本申请对上述配音奖励信息的具体获取方法及其包含的内容不做限制，可视情况而定。

步骤S35，在本终端对应的直播账户信息中展示配音奖励信息。

本申请实施例中，若本用户的配音创作得到奖励，可以将该配音奖励信息更新到其直播账户信息，增加该用户的配音专业度，也满足了该用户炫耀的心理需求；且在其他用户查看该用户个人账户信息时，能够通过该配音奖励信息，增加对该用户发布的直播内容的感兴趣程度，提高该用户的人气。

下面将从服务设备的角度来描述本申请提出的直播内容处理方法，由于在该直播内容处理方法的实现过程中，是通过服务设备和终端之间的交互配合实现的，对于通过交互所得到的相关信息，可以参照上文实施例相应部分的描述，本实施例不做赘述，主要对服务设备所执行的处理步骤进行描述。

如图7所示，为本申请提出的从服务设备角度描述的直播内容处理方法的一可选示例的流程示意图，该方法可以包括：

步骤S41，接收终端发送的包含有配音文件的配音处理请求；

结合上文从终端侧描述的直播内容处理方法的实现步骤，该配音处理请求可以是终端响应于对输出的配音处理页面的配音输入操作，得到针对第一直播录制文件所包含的第一图像内容的配音文件后生成的，且该配音文件包含有源配音音频，及针对源配音音频的音频配置参数。关于该配音处理请求的具体生成过程，可以参照上文实施例相应部分的描述，不再赘述。

步骤S42，响应该配音处理请求，依据配音文件包含的源配音音频和音频配置参数，对第一直播录制文件所包含的第一图像内容进行配音处理，得到配音直播文件；

结合上文实施例相应部分的描述，服务设备获得配音直播文件之前，可以响应终端发送的配音内容获取请求，得到终端的用户想要配音二次创作的第一直播录制文件的第一文件标识，从而依据该第一文件标识，从数据存储设备提取源视频文件即第一直播录制文件，分离该第一直播录制文件的音轨，得到无音轨的源视频文件，记为第一图像内容，并对其进行存储，以供后续调用做进一步处理。

应该理解，若终端未先下载第一图像内容，服务设备可以在响应配音处理请求过程中，按照上述方式对第一直播录制文件进行音频分离，得到第一图像内容；与此同时，还可以由音频加工模块，利用得到的配音文件中的音频配置参数，对源配音音频进行加工处理，得到目标配音音频，再结合第一图像内容，合成得到配音直播文件。

基于此，在一种可能的实现方式中，如图8，上述步骤S42中配音直播文件的获取过程可以包括但并不局限于以下步骤：

步骤A1，提取源配音音频包含的多个音轨数据；

本实施例中，参照图9所示的一可选场景下的音频加工处理流程示意图，源配音音频包含的多个音轨数据可以包括但并不局限于：人声音轨数据、背景声音轨数据等，音轨数据可以包括相应音轨的音色、音色库、通道数、输入/输出端口、音量等属性信息，本申请对各音轨数据包含的内容不做限制。

示例性的，结合上文配音文件的获取过程的相关描述，人声音轨数据可以包括人声音量、多种预设的声音类型等；背景声音轨数据可以包括背景声音量、多种预设的背景音效(其可以表现为混响类型)等，服务设备可以提供各音轨数据的调节接口，并在终端输出的配音处理页面中，展示相应的调节按钮，方便用户操作该调节按钮，得到配音配置参数，以实现对相应音轨数据的调整。

其中，对于源配音音频包含的多个音轨数据的分离提取，本申请可以利用基于人工智能技术得到的音轨分离器实现，如基于MIT协议的开源项目Spleeter(即一种音轨AI分离软件)提供的接口，对用户录入的源配音音频进行音轨分离，得到多条音轨数据。本申请对多个音轨数据的分离实现方法不做限制。

步骤A2，依据多个音轨配置参数，对相应的音轨数据进行更新处理，得到待合成音轨数据；

步骤A3，对得到的多个待合成音轨数据进行合成处理，得到目标配音音频；

以图9所示的音频加工处理场景为例，从源配音音频中分离出人声音轨数据和背景声音轨数据后，可以利用各自对应的音轨配置参数做进一步加工处理，如可以按照人声配置参数，对人声音轨数据进行语音转换，具体的，可以依据用户选择的第一声音类型，从预先训练好的人声声色数据库中，提取与该第一声音类型对应的语音特征参数，再按照该语音特征参数，调整人声音轨数据中相应的音频特征，如修改人声的音色、音高、音长等音频特征，从而达到模拟老人、小孩、萝莉、御姐、男人等身份用户的声音类型，以提高配音乐趣。需要说明，关于如何对源配音音频进行加工处理，更改原音频特征，模拟其他声音类型的实现方法，并不局限于本申请描述的方式，可视情况而定。

同理，对于背景声音轨数据的加工处理，服务设备可以利用背景声配音参数对其进行混响声效处理，具体的，服务设备可以从预先训练好的各混响类型的混响模型数据库中，提取与用户选择的第一混响类型对应的混响模型参数，实现对背景声音轨数据的处理，以得到具有该第一混响类型的背景声音。

其中，不同混响类型的混响模型可以基于Schroeder混响模型或其他混响器模型对样本声音数据训练得到，具体训练实现过程不做详述。需要说明，对于上述混响模型参数，可以采用如上述软件混响算法确定，也可以利用硬件混响方式确定，本申请对此不作限制，可视情况而定。

在完成声音类型和背景声音效的处理后，若用户对人声、背景声等不同音轨的音量关系有要求，还可以依据音频配音参照中，各音轨的音量参数，调整如人声、背景声等相应音轨的信号振幅的大小，以实现音量调节后，将最终得到的多个待合成音轨数据合成为一条音轨的目标配音音频。

步骤A4，将目标配音音频与第一直播录制文件所包含的第一图像内容进行合成处理，得到配音直播文件。

继上文描述，该目标配音音频作为一个新的音频文件，替代第一直播录制文件中的源音频，与第一图像内容中的各帧图像进行对应合成处理，得到包含有该第一图像内容的新视频文件，记为配音直播文件，具体实现过程不做限制。

步骤S43，将配音直播文件反馈至终端输出；

步骤S44，接收终端发送的针对配音直播文件的发布请求；

本实施例中，该发布请求可以是终端响应于对输出的直播内容发布页面的发布触发操作而生成的，且该直播内容发布页面能够展示配音直播文件，关于该发布请求的具体生成过程及其包含的内容，可以参照上文实施例相应部分的描述，不再赘述。

步骤S45，响应发布请求，将配音直播文件发布至直播平台。

关于对配音直播文件的发布实现过程，可以参照上文实施例相应部分的描述，本实施例不作赘述。

在本申请提出的又一些实施例中，服务设备按照但并不局限于上文描述的方式得到目标配音音频之后，可以对其进行配音评分，因此，在上述描述的直播内容处理方法的基础上，如图10所示，该方法还可以包括：

步骤B1，获取第一直播录制文件所包含的源音频；

步骤B2，分别对源音频和目标配音音频进行特征提取，得到相应帧音频的源音频特征和目标音频特征；

如上述描述，该第一直播录制文件所包含的源音频，可以通过对其第一直播录制文件进行音频分离得到。对于本申请的配音评分机制，可以依据配音语义内容、音准等多方面来，实现对目标配音音频的评分，具体可以依据源音频与目标配音音频之间的相似度(如语义相似度、音准相似度等)，获得目标配音音频的配音评分，本申请对该配音评分的获取方法不做限制。

在本申请实施例中，主要对如何依据音准相似度得到配音评分机制，来描述目标配音音频的配音评分的获取过程。具体的，服务设备可以对目标配音音频和源音频中的每个有效语音段(如每个发音音符，可以将其作为一帧音频)进行音准指标的特征参数提取，得到相应的源音频特征和目标音频特征。可见，对于目标配音音频和源音频各自所包含的不同有效语音段，可以得到多个源音频特征和目标音频特征，具体特征提取过程不做限制。

在一种可能的实现方式中，本申请可以利用基于梅尔频率倒谱系数(Mel-scaleFrequencyCepstralCoefficients，简称MFCC)算法，实现特征提取。具体的，为了减少噪音、无效信号等信号干扰，需要对目标配音音频和源音频各自包含的每一帧语音进行一系列预处理。该预处理过程可以包括但并不局限于：基于谱减法进行降噪处理；通过一阶FTR高通数字滤波器来实现预加重，以便于后续进行频谱分析；通过半帧交叠分帧实现分帧，从而简化音频数据的计算量；基于汉明窗对相应音频信号进行加窗处理，方便后续进行傅立叶变换；通过双门限比较法进行端点检测处理，将句子有效语音段切分出来等预处理实现方式。本申请对预处理的具体实现过程不做一一详述。

经过预处理后，对于目标配音音频来说，可以获得一组有效的T帧语音段，本申请实施例可以对每一个语音段中的每一帧音频进行MFCC特征提取，得到T个一维的特征序列，即将音频中每一个音符量化为一个T时长的单维特征序列。

其中，在MFCC特征提取过程中，通常包括对目标配音音频进行快速傅立叶变换(Fast Fourier Transformation，简称FFT)，得到相应音频包含的各语音段的频谱数据，对其进行取模后得到相应语音段的功率谱，之后，由配置的一组梅尔尺度的三角形滤波器组进行计算，即通过梅尔滤波计算进行滤波，再对滤波后的信号依次进行对数运算、离散余弦变换处理(Discrete CosineTransformation,DTC)，得到目标配音音频相应语音段的MFCC特征，即目标音频特征。

而对于源音频的源音频特征，可以是基于隐马尔可夫模型训练得到的音调模型参数，具体获取过程可以依据隐马尔可夫模型的工作原理确定，本申请在此不做详述。

需要说明，关于步骤B2的具体实现方法，并不局限于上文描述的特征提取方式，也可以采用其他方式实现，如由将目标配音音频、源音频输入神经网络进行特征提取，得到相应的目标音频特征、源音频特征等，可视情况而定，本申请在此不做一一详述。

步骤B3，对源音频特征与目标音频特征进行相似度计算，得到相应帧音频的音准相似度；

步骤B4，依据得到的多帧音频各自对应的音准相似度，获得目标配音音频的配音评分；

步骤B5，将配音评分反馈至终端输出。

本申请实施例中，可以如下运算方式，实现相似度计算，但并不局限于这种相似度计算方式：

上述公式(1)中，P(M_i|x)可以表示特征x属于模型M_i的后验概率，特征x表示上述目标音频特征中的一元素，如MFCC特征序列中的元素，模型M_i可以表示目标配音音频中第i个音符对应的源音频中相应音符的音调模型，即源音频特征，M表示所有音符模型的集合。

按照上述方式得到目标配音音频的每个发音音符的音准相似度(即相应的上述后验概率)，可以称为标准度，之后，可以对这些音准相似度进行加权平均运算，再依据音准相似度与分数之间的映射关系，得到目标配音音频的配音评分；或者，可以得到每一个音准相似度对应的音准评分后，再对这多个音准评分进行加权平均运算，得到配音评分，本申请对此不做限制。

其中，在上述加权平均运算过程中，所依据各加权项的权重可以预先设置，或依据各音符长短等参数确定，本申请对该权重数值及其获取方式不做限制。

在又一些实施例中，服务设备还可以获取已发布的多个配音直播文件各自的历史点击数据，从而依据历史点击数据和/或相应的配音评分，确定多个配音直播文件中，满足预设奖励条件的目标配音直播文件，获取请求发布该目标配音直播文件的目标直播账户，将配音奖励信息更新至目标直播账户的直播账号信息中，供其他用户查阅。

其中，预设奖励条件可以指特定时长内的历史点击数据包含的播放量和/或点赞量最高，配音评分最高等，本申请对该预设奖励条件包含的内容不做限制，可视情况而定。

综上所述，服务设备提供的针对直播录制文件的配音玩法，提升了用户发布直播视频的积极度和二次创作的主动性，且通过在配音过程中添加变声、声效处理等功能，提升了配音趣味性。并通过设置配音打分机制和奖励机制，能够进一步提升用户参与的认真度和积极性，还能够帮助直播平台提升直播内容和竞品的差异化，并筛选一些优质的直播内容来传播。

下面将从实现上文直播内容处理方法的虚拟设备角度，来描述本申请提出的直播内容处理装置。具体的，本申请提出了一种适用于终端的直播内容处理装置，该装置可以包括但并不局限于：

可选的，上述装置还可以包括：

配音评分输出模块，用于接收服务设备反馈的针对目标配音音频的配音评分，并输出所述配音评分；

配音奖励信息接收模块，用于接收所述服务设备反馈的针对所述配音直播文件的配音奖励信息；其中，所述配音奖励信息是所述服务设备依据所述配音直播文件的历史点击数据，和/或所述配音直播文件对应的配音评分确定的；

配音奖励信息展示模块，用于在本终端对应的直播账户信息中展示所述配音奖励信息。

在又一些实施例中，本申请提出了一种适用于服务设备的直播内容处理装置，该装置可以包括但并不局限于：

可选的，适用于服务设备的该装置还可以包括：

源音频获取模块，用于获取所述第一直播录制文件所包含的源音频；

配音评分获得模块，用于依据所述源音频与所述目标配音音频之间的相似度，获得所述目标配音音频的配音评分；

配音评分发送模块，用于将所述配音评分反馈至所述终端输出。

历史点击数据获取模块，用于获取已发布的多个所述配音直播文件各自的历史点击数据；

目标配音直播文件确定模块，用于依据所述历史点击数据和/或所述配音评分，确定多个所述配音直播文件中，满足预设奖励条件的目标配音直播文件；

目标直播账户获取模块，用于获取请求发布所述目标配音直播文件的目标直播账户；

配音奖励信息更新模块，用于将配音奖励信息更新至所述目标直播账户的直播账号信息中。

需要说明的是，关于上述适用于不同计算机设备的各装置实施例中的各种模块，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述适用于相应计算机设备的方法实施例相应部分的描述，本实施例不再赘述。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器加载并执行，实现上述相应计算机设备侧执行的直播内容处理方法的各步骤，具体实现过程可以参照上述实施例相应部分的描述，本实施例不做赘述。

本申请还提出了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述直播内容处理方法方面或直播内容处理装置方面的各种可选实现方式中所提供方法，具体实现过程可以参照上述相应实施例的描述，不做赘述。

参照图11，为本申请实施例提出的计算机设备的一可选示例的硬件结构示意图，该计算机设备可以适用于本申请实施例提出的直播内容处理方法和装置，如上文描述，其可以是服务设备或终端即上述电子设备，本申请对该计算机设备的产品类型不做限定，如图11所示，该计算机设备的硬件结构可以包括：通信模块41、存储器42和处理器43；

在本申请实施例中，通信模块41、存储器42、处理器43可以通过通信总线实现相互间的通信，且该通信模块21、存储器42、处理器43及通信总线的数量可以为至少一个。

可选的，通信模块41可以为通信模块的接口，如GSM模块的接口，可以实现与其他设备的数据交互，还可以包括如USB接口、串/并口等接口，用于实现计算机设备内部组成部件之间的数据交互，可以根据该计算机设备的产品类型确定，本申请不做一一详述。

在本申请实施例中，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器43，可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

其中，存储器42存储有计算机程序，处理器43调用并加载存储器42所存储的计算机程序，以实现上述相应类型的计算机设备执行的直播内容处理方法的各步骤，具体实现过程可以参照上述方法实施例相应部分的描述，不再赘述。

应该理解的是，图11所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中，计算机设备可以包括比图11所示的更多或更少的部件，或者组合某些部件，若上述计算机设备为终端，如图12所示，该计算机设备还可以包括显示器、各输入设备、输出设备、天线、电源管理模块、各种传感器等，本申请在此不做一一列举。

最后，需要说明，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计预设条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种直播内容处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于对第一直播录制文件的配音触发操作，输出针对所述第一直播录制文件所包含的第一图像内容的配音处理页面，包括：

输出直播内容选择页面，并在所述直播内容选择页面展示直播平台已发布的直播录制文件；或者，

输出直播内容上传页面，在所述直播内容上传页面展示本终端获得的待发布的直播录制文件；

响应于对所述直播内容选择页面或所述直播内容上传页面所展示的第一直播录制文件的配音触发操作，输出针对所述第一直播录制文件所包含的第一图像内容的配音处理页面。

3.根据权利要求1所述的方法，其特征在于，所述响应于对第一直播录制文件的配音触发操作，输出针对所述第一直播录制文件所包含的第一图像内容的配音处理页面，包括：

响应于对第一直播录制文件的配音触发操作，向服务设备发送配音内容获取请求；其中，所述配音内容获取请求包含有所述第一直播录制文件的第一文件标识，以使所述服务设备响应所述配音内容获取请求，对具有所述第一文件标识的所述第一直播录制文件进行音频分离处理，得到第一图像内容；

接收所述服务设备反馈的所述第一图像内容；

输出配音处理页面，并在所述配音处理页面展示所述第一图像内容。

4.根据权利要求1所述的方法，其特征在于，所述响应于对所述配音处理页面的配音输入操作，得到针对所述第一图像内容的配音文件，向服务设备发送包含有所述配音文件的配音处理请求，包括：

响应于对所述配音处理页面的配音录入操作，在所述配音处理页面播放所述第一直播录制文件所包含的第一图像内容过程中，获取针对所述第一图像内容的源配音音频；

输出针对所述源配音音频的音频配置界面；

响应于对所述音频配置界面的配置操作，得到针对所述源配音音频的音频配置参数；

响应于对所述音频配置界面的提交操作，得到包含所述源配音音频和所述音频配置参数的配音文件，向服务设备发送包含所述配音文件的配音处理请求。

5.根据权利要求1～4任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

接收所述服务设备反馈的针对所述配音直播文件的配音奖励信息；其中，所述配音奖励信息是所述服务设备依据所述配音直播文件的历史点击数据，和/或所述配音直播文件对应的配音评分确定的；

在本终端对应的直播账户信息中展示所述配音奖励信息。

7.一种直播内容处理方法，其特征在于，所述方法包括：

将所述配音直播文件反馈至所述终端输出；

8.根据权利要求7所述的方法，其特征在于，所述音频配置参数包括多个音轨配置参数，所述依据所述源配音音频和所述音频配置参数，对所述第一图像内容进行配音处理，得到配音直播文件，包括：

提取所述源配音音频包含的多个音轨数据；

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取所述第一直播录制文件所包含的源音频；

依据所述源音频与所述目标配音音频之间的相似度，获得所述目标配音音频的配音评分；

将所述配音评分反馈至所述终端输出；

其中，所述依据所述源音频与所述目标配音音频之间的相似度，获得所述目标配音音频的配音评分，包括：

分别对所述源音频和所述目标配音音频进行特征提取，得到相应帧音频的源音频特征和目标音频特征；

对所述源音频特征与所述目标音频特征进行相似度计算，得到相应帧音频的音准相似度；

依据得到的多帧音频各自对应的所述音准相似度，获得所述目标配音音频的配音评分。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取已发布的多个所述配音直播文件各自的历史点击数据；

依据所述历史点击数据和/或所述配音评分，确定多个所述配音直播文件中，满足预设奖励条件的目标配音直播文件；

获取请求发布所述目标配音直播文件的目标直播账户；

将配音奖励信息更新至所述目标直播账户的直播账号信息中。

11.一种计算机设备，其特征在于，所述计算机设备包括：通信模块，至少一个存储器和至少一个处理器，其中：

所述存储器，用于存储实现如权利要求1或权利要求7所述的直播内容处理方法的程序；

所述处理器，用于加载并执行所述存储器存储的所述程序，以实现如权利要求1或权利要求5所述的直播内容处理方法的各步骤。