CN112423081A

CN112423081A - 一种视频数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN112423081A
Application number: CN202011240425.1A
Authority: CN
Inventors: 郭鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-26
Anticipated expiration: 2040-11-09
Also published as: CN112423081B

Abstract

本申请实施例公开了一种视频数据处理方法、装置、设备及可读存储介质，该方法包括：显示应用客户端中的目标视频对应的视频播放界面；视频播放界面中包含声纹识别控件；响应针对声纹识别控件的触发操作，输出与目标视频相关联的角色声纹列表；角色声纹列表中包含目标视频中的N个角色的声纹信息；N个角色中包含目标角色；N为正整数；响应针对角色声纹列表中的目标角色的声纹信息的选择操作，在目标视频中对与目标角色的声纹信息相匹配的声音进行屏蔽处理。采用本申请，可以实时优化特定角色的声音，以提升音频播放效果的可控性。

Description

一种视频数据处理方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频数据处理方法、装置、设备以及可读存储介质。

背景技术

随着多媒体技术的发展，视频已成为人们日常生活中获取信息与享受娱乐的主要载体。因为移动设备的普及，当前用户已逐渐依赖于使用移动设备来观看视频。此外，用户在移动设备(即用户终端)上观看视频时，会越来越关注于当前播放的这个视频的音频播放效果。

比如，当用户终端通过播放器播放某个视频(例如，视频A)时，可以通过调整扬声器的方式来屏蔽视频中的某个角色的声音。然而，采用这种调整扬声器的方式进行声音屏蔽的过程中，会将扬声器的模式由播放模式切换为静音模式，以至于会无差别的屏蔽视频中的每个角色的声音，从而达到优化这个视频的音频播放效果。显然，在对这个视频的音频进行优化的过程中，用户自身是难以根据自己的实际需求单独对某一个角色的声音进行音频优化的，以至于在视频播放时降低了对音频播放效果的可控性。

发明内容

本申请实施例提供一种视频数据处理方法、装置、设备以及可读存储介质，可以实时优化特定角色的声音，以提升音频播放效果的可控性。

本申请实施例一方面提供了一种视频数据处理方法，包括：

显示应用客户端中的目标视频对应的视频播放界面；视频播放界面中包含声纹识别控件；

响应针对声纹识别控件的触发操作，输出与目标视频相关联的角色声纹列表；角色声纹列表中包含目标视频中的N个角色的声纹信息；N个角色中包含目标角色；N为正整数；

响应针对角色声纹列表中的目标角色的声纹信息的选择操作，在播放的目标视频中对与目标角色的声纹信息相匹配的声音进行音频优化处理。

本申请实施例一方面提供了一种视频数据处理装置，包括：

播放界面获取模块，用于显示应用客户端中的目标视频对应的视频播放界面；视频播放界面中包含声纹识别控件；

声纹列表输出模块，用于响应针对声纹识别控件的触发操作，输出与目标视频相关联的角色声纹列表；角色声纹列表中包含目标视频中的N个角色的声纹信息；N个角色中包含目标角色；N为正整数；

声音优化模块，用于响应针对角色声纹列表中的目标角色的声纹信息的选择操作，在播放的目标视频中对与目标角色的声纹信息相匹配的声音进行音频优化处理。

其中，装置还包括：

数据获取模块，用于获取目标视频的视频帧数据以及视频帧数据对应的音频帧数据；视频帧数据中包含第一播放进度对应的第一视频帧数据，且音频帧数据中包含第一帧视频数据对应的第一音频帧数据；

数据输出模块，在检测到应用客户端的播放器的播放进度为第一播放进度时，在视频播放界面上输出第一视频帧数据，且通过播放器播放第一音频帧数据。

其中，数据获取模块包括：

数据包获取单元，用于获取目标视频的业务数据包，基于应用客户端中的编解码组件对业务数据包进行解析处理，得到目标视频的视频数据流以及视频数据流对应的音频数据流；

视频解码单元，用于在编解码组件中，对视频数据流进行视频解码处理，得到目标视频的视频帧数据；

音频解码单元，用于在编解码组件中，对音频数据流进行音频解码处理，得到目标视频的音频帧数据。

其中，声纹列表输出模块包括：

设置界面输出单元，用于响应针对声纹识别控件的触发操作，输出独立于视频播放界面的声纹设置界面；声纹设置界面中至少包含第一显示区域和第二显示区域；第一显示区域中包含第一业务控件对应的第一播放子页面；

待处理视频获取单元，用于获取第一业务控件对应的声纹采集时长，从目标视频的视频帧数据中获取与声纹采集时长相关联的待处理视频帧数据；

图像尺寸调整单元，用于基于第一播放子页面的界面尺寸，对待处理视频帧数据的图像尺寸进行调整，得到调整后的待处理视频帧数据；

声纹列表确定单元，用于在将调整后的待处理视频帧数据输出至第一播放子页面上时，将待处理视频帧数据对应的音频帧数据作为待处理音频帧数据，基于待处理音频帧数据，确定与目标视频相关联的角色声纹列表，在第二显示区域中输出角色声纹列表。

其中，待处理视频帧数据中包括触发操作对应的第二视频帧数据、和第三视频帧数据；第二视频帧数据对应的第二播放进度小于第三视频帧数据对应的第三播放进度；第二播放进度与第三播放进度之间的时长为声纹采集时长；

图像尺寸调整单元包括：

第一调整子单元，用于基于第一播放子页面的界面尺寸，对第二视频帧数据的图像尺寸进行调整，将调整尺寸后的第二视频帧数据作为声纹采集时长内的起始采集视频帧；

第二调整子单元，用于基于第一播放子页面的界面尺寸，对第三视频帧数据的图像尺寸进行调整，将调整尺寸后的第二视频帧数据作为声纹采集时长内的终止采集视频帧；

数据确定子单元，用于基于起始采集视频帧和终止采集视频帧，确定与第一播放子页面相关联的调整后的待处理视频帧数据。

其中，第一显示区域中包含采集识别控件；

声纹列表确定单元包括：

视频输出子单元，用于在将调整后的待处理视频帧数据输出至第一播放子页面上时，从目标视频的音频帧数据中获取待处理视频帧数据对应的音频帧数据，将获取到的待处理视频帧数据对应的音频帧数据作为声纹采集时长对应的待处理音频帧数据；

响应发送子单元，用于响应针对采集识别控件的第一确认操作，将待处理音频帧数据发送至业务服务器，以使业务服务器对待处理音频帧数据进行声纹分析，以得到目标视频中的N个角色的声纹信息；

列表确定子单元，用于接收业务服务器返回的包含N个角色的声纹信息的第一声纹列表，将接收到的第一声纹列表作为与目标视频相关联的角色声纹列表，在第二显示区域中输出角色声纹列表。

其中，第一显示区域中包含第二业务控件；装置还包括：

业务切换模块，用于响应目标用户针对第二业务控件执行的业务切换操作，生成业务切换指令，且将第一显示区域中的子页面由第一播放子页面切换为视频展示子页面；业务切换指令用于指示业务服务器从用户行为数据库中获取目标用户的历史行为信息；

推荐数据获取模块，用于获取业务服务器基于目标用户的历史行为信息推送的至少一个推荐视频片段，在第一显示区域内的视频展示子页面中输出至少一个推荐视频片段。

其中，至少一个推荐视频片段中包含目标推荐视频片段；

装置还包括：

推荐视频播放模块，用于响应针对目标推荐视频片段的选择确定操作，将第一显示区域中的子界面由视频展示子界面切换为第二业务控件对应的第二播放子界面，在第一显示区域中的第二播放子界面上对目标推荐视频片段进行播放；

目标视频截取模块，用于在第二业务控件对应的声纹录制时长内，截取播放的目标推荐视频片段中的目标视频帧数据，响应针对采集识别控件的第二确认操作，将截取到的目标视频帧数据所对应的目标音频帧数据发送给业务服务器，以使业务服务器对目标音频帧数据进行声纹分析，以得到目标推荐视频片段中的K个可替换声纹信息；K为正整数；

替换列表确定模块，用于接收业务服务器返回的包含K个可替换声纹信息的第二声纹列表，将接收到的第二声纹列表作为与角色声纹列表相关联的可替换列表。

其中，K个可替换声纹信息中包括目标可替换声纹信息；

装置还包括：

列表替换模块，用于将第二显示区域中的列表由角色声纹列表替换为可替换列表；

替换区域输出模块，用于响应针对可替换列表中的目标可替换声纹信息的触发操作，输出独立于第二显示区域的声纹替换区域，在声纹替换区域中输出与目标可替换声纹信息相关联的N个角色的声纹信息；

替换关系配置模块，用于响应针对N个角色的声纹信息的触发操作，从N个角色的声纹信息中获取M个角色的声纹信息，配置得到目标可替换声纹信息与M个角色的声纹信息之间的替换关系表；替换关系表中包含M个替换提示信息；一个替换提示信息用于表征目标可替换声纹信息与一个角色的声纹信息之间的替换关系；M为小于或者等于N的正整数；

声纹替换模块，用于基于M个替换提示信息，在播放的目标视频中将M个角色的声纹信息替换为目标可替换声纹信息。

其中，M个角色中包含目标角色，且目标角色的状态为非屏蔽状态；替换关系表中包含用于将目标可替换声纹信息替换为目标角色的声纹信息的目标替换提示信息；

装置还包括：

替换关系解除模块，用于响应目标用户针对目标替换提示信息的滑动操作，解除目标可替换声纹信息与目标角色的声纹信息之间的替换关系，并在替换关系表中删除目标替换提示信息。

其中，装置还包括：

录音控件输出模块，用于在检测到目标用户未对至少一个推荐视频片段中的任意一个推荐视频片段执行触发操作，且检测到目标用户对采集识别控件执行第三确认操作时，在第一显示区域中输出携带录音采集时长的录音控件；

用户音频获取模块，用于在录音采集时长内，响应目标用户针对录音控件执行的按压操作，获取目标用户的用户音频帧数据，将用户音频帧数据发送至业务服务器，以使业务服务器对目标音频帧数据进行声纹分析，得到目标用户的声纹信息；

用户声纹添加模块，用于接收业务服务器返回的目标用户的声纹信息，将目标用户的声纹信息添加至可替换列表。

其中，声音优化模块包括：

目标声纹确定单元，用于响应针对角色声纹列表中的目标角色的声纹信息的选择操作，将目标角色的声纹信息作为目标声纹信息；

识别匹配单元，用于当通过应用客户端对应的播放器播放目标视频的音频帧数据时，在音频帧数据中识别与目标声纹信息相匹配的匹配音频帧数据；

声音屏蔽单元，用于在匹配音频帧数据中对属于目标角色的声音进行屏蔽处理，或者在匹配音频帧数据中对不属于目标角色的声音进行屏蔽处理。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得处理器执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的方法。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

在本申请实施例中，计算机设备在获取到应用客户端中某个视频(例如，视频A，该视频A可以被统称为目标视频)时，可以显示该目标视频(例如，视频A)对应的视频播放界面。可以理解的是，该视频播放界面中可以包含用于帮助该应用客户端的用户(例如，用户B，该用户B可以被统称为目标用户)对该视频A的音频进行音频优化的声纹识别控件。所以，当目标用户针对该声纹识别控件执行触发操作时，该计算机设备可以响应该触发操作，输出与该目标视频相关联的角色声纹列表。可以理解的是，这里的角色声纹列表可以包含目标视频(例如，视频A)中的N个角色的声纹信息；其中，N可以为正整数；这N个角色中具体可以包含目标角色(即该目标用户计划从这N个角色中选取的一个或者多个角色)；应当理解，这里的N个角色的声纹信息可以为计算机设备对目标视频中的视频片段进行声纹分析之后所得到的。可选的，这N个角色的声纹信息还可以为业务服务器(例如，应用客户端的后台)根据接收到的该目标视频(例如，视频A)中的某个视频片段(例如，从视频A中所截取到的视频片段A1)进行声纹分析后所返回得到的，这里将不对其进行限定。可以理解的是，进一步的，目标用户可以在当前显示的角色声纹列表中选取上述目标角色的声纹信息，以便于在播放目标视频时，能够实时地在播放的目标视频中对与目标角色的声纹信息相匹配的声音进行音频优化处理，例如，可以在播放该目标视频时，只屏蔽该目标角色的声音，即可以不听这个角色的声音。可选的，还可以在播放该目标视频时，只播放该目标角色的声音，即可以只听这个角色的声音。基于此，采用本申请可以有效地提升音频播放效果的可控性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2a和图2b是本申请实施例提供的一种进行人机交互的场景示意图；

图3是本申请实施例提供的一种视频数据处理方法的流程示意图；

图4是本申请实施例提供的一种应用显示界面的场景示意图；

图5是本申请实施例提供的一种输出角色声纹列表的场景示意图；

图6是本申请实施例提供的一种进行数据交互的场景示意图；

图7是本申请实施例提供的一种视频数据处理方法的示意图；

图8是本申请实施例提供的一种切换业务控件的场景示意图；

图9是本申请实施例提供的一种获取可替换列表的场景示意图；

图10是本申请实施例提供的一种配置得到替换关系表的场景示意图；

图11是本申请实施例提供的一种获取目标用户的声纹信息的场景示意图；

图12是本申请实施例提供的一种前后端交互的流程示意图；

图13是本申请实施例提供的一种在后台判断声纹特征的流程示意图；

图14是本申请实施例提供的一种在用户终端中屏蔽台词声音的流程示意图；

图15是本申请实施例提供的一种视频数据处理装置的结构示意图；

图16是本申请实施例提供的一种视频数据处理装置的结构示意图；

图17是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，本申请实施例所提供的方案主要涉及人工智能领域下的语音技术(SpeechTechnology)和自然语言处理(Nature Language processing,NLP)。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

进一步的，请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括业务服务器1000和用户终端集群。该网络架构所适用的网络媒体数据系统可以包含网络社交系统、视频播放系统等具备音视频处理功能的系统。

其中，用户终端集群可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。如图1所示，这里的多个用户终端具体可以包括用户终端3000a、用户终端3000b、用户终端3000c...、用户终端3000n。如图1所示，用户终端3000a、...、用户终端3000b可以分别与业务服务器2000进行网络连接，以便于该用户终端集群中的每个第一用户终端可以通过该网络连接与业务服务器2000之间进行数据交互。

其中，如图1所示的业务服务器2000可以是独立的物理服务器，也可以是多个物理服务器所构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，为便于理解，本申请实施例可以在图1所示的用户终端集群中选择一个用户终端作为目标用户终端，例如，本申请实施例可以将图1所示的用户终端3000a作为目标用户终端，该目标用户终端中可以集成有具备视频数据处理功能(例如，视频数据加载和播放功能)的应用客户端。其中，应用客户端具体可以包括社交客户端、多媒体客户端(例如，视频客户端)、娱乐客户端(例如，点歌客户端)、教育客户端等具有帧序列(例如，帧动画序列)加载和播放功能的客户端。其中，目标用户终端(例如，用户终端3000a)具体可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居(例如，智能电视)等携带视频数据处理功能(例如，视频数据播放功能)的智能终端。为便于理解，本申请实施例可以将某个用户(例如，用户B)在应用客户端(例如，视频客户端A)中所选择的贴合自己兴趣的视频(比如，视频节目或者影片等)统称为目标视频。

其中，可以理解的是，上述网络媒体数据系统所适用的业务场景具体可以包含：娱乐节目点播场景，线上影院观影场景、线上教室听课场景等，这里将不对该网络媒体数据系统所适用的业务场景进行一一列举。

比如，在娱乐节目点播场景下，这里的目标视频可以为上述用户B在视频推荐界面(比如，视频节目推荐列表)中所选取的贴合自己兴趣的娱乐节目，例如，这里的娱乐节目可以为该用户B在视频节目推荐列表上所选取的自己感兴趣的公众人物参与录制的电视节目、综艺节目等，例如，这里的公众人物可以为影视明星、娱乐明星等。又比如，在线上影院观影场景下，这里的目标视频可以为该用户B在视频推荐界面(比如，影片推荐列表)中所选取的贴合自己兴趣的影片，例如，这里的影片可以为该用户B在影片推荐列表上所选取的自己感兴趣的公众人物参与录制的影视节目等。又比如，在线上教室听课场景下，这里的目标视频可以为上述用户B在视频推荐界面(比如，课程推荐列表)中所选取的贴合自己兴趣的课程，例如，这里的课程可以为该用户B在课程推荐列表上所选取的自己感兴趣的老师所录制的教学课程等。

为便于理解，本申请实施例以业务场景为娱乐节目点播场景为例，以阐述在该娱乐节目点播场景下，如何通过声纹识别技术在目标视频中对目标用户所选取的特定角色的声音进行屏蔽。为便于理解，进一步的，请参见图2a和图2b，图2a和图2b是本申请实施例提供的一种进行人机交互的场景示意图。其中，在图2a所示的视频播放界面100a中所播放的目标视频，可以为用户A(即图2a所示的目标用户)在应用客户端的视频推荐界面(比如，视频节目推荐列表)中所选取的贴合自己兴趣的综艺节目(例如，综艺X)。如图2a所示，在该目标视频(即综艺X)的播放进度为播放进度1(例如，00:0015，即第15s)时，该目标用户(即用户A)可以通过目标用户终端中所运行的应用客户端(例如，视频客户端)收听到角色B的声音，并可以在该图2a所示的视频播放界面100a中显示该角色B所发出的声音的文本信息，例如，位于图2a所示的视频播放界面100a中的文本信息(即文本AAABBB……CCC)可以为该角色B的台词文本。

如图2a所示的视频播放界面100a中可以包含用于对特定角色的声音进行屏蔽的声纹识别控件10a。可以理解的是，在本申请实施例中，若在该目标视频的播放进度为图2a所示的视频播放进度1时，该目标用户需要对当前呈现在该视频播放界面100a中的角色B(即特定角色)的声音进行屏蔽，则如图2a所示，该目标用户可以对该声纹识别控件10a执行触发操作，以使该目标用户终端可以响应该触发操作，从而可以在图2a所示的声纹设置界面200a中显示与该目标视频相关联的角色声纹列表10b。如图2a所示，该角色声纹列表10b中可以具体包含该目标视频中的N个角色的声纹信息，这里的N个角色具体可以为图2a所示的6个角色。比如，这6个角色的声纹信息可以具体包括：角色A的声纹a，角色B的声纹b，角色C的声纹c、角色D的声纹d、角色E的声纹e、角色F的声纹f。

其中，可以理解的是，当目标用户针对图2a中的声纹识别控件10a执行触发操作(例如，触发操作1)之后，该目标用户终端可以在图2a所示的视频播放界面100a上弹出图2a所示的声纹设置界面200a。比如，这里的声纹设置界面200a可以为一个显示在该视频播放界面100a上的弹窗(也可以叫做弹框)，即该声纹设置界面200a可以为独立于视频播放界面100a的一个子界面。这里将不对该视频播放界面100a与该声纹设置界面200a之间的界面显示关系进行限定。

其中，可以理解的是，图2a所示的角色声纹列表10b可以为该应用客户端的后台(即业务服务器，例如，上述图1所示的业务服务器2000)，对接收到的图2a所示的视频片段30a(例如，从上述综艺X截取到的视频片段)进行声纹分析后所得到的。

进一步的，如图2a所示，目标用户可以从这6个角色的声纹信息中选择自己想要屏蔽的角色的声纹信息，并可以将该目标用户在这6个角色中所选择的需要屏蔽的角色统称为目标角色，例如，可以将图2a所示的角色B作为目标角色，进而可以在视频播放界面100a中继续播放目标视频时，智能地对与该角色B的声纹b相匹配的声音进行屏蔽处理，比如，可以在当前播放的这个目标视频(例如，上述综艺X中)对这个角色B的声音进行屏蔽处理，进一步的，可以参见图2b所示的对角色B的声音进行屏蔽的场景示意图。

其中，应当理解，在本申请实施例中，目标用户终端在通过声纹识别技术对目标视频中的这个角色B的声音进行屏蔽处理时，仍可以继续对该目标视频中的其他角色的声音进行正常播放，即本申请实施例并不影响该目标视频中的其他角色的声音的播放。由此可见，采用本申请实施例可以自适应地根据目标用户的实际需求，对视频中的特定角色的声音进行音频优化处理，进而可以在播放某个视频时，提升音频优化效果的可控性和时效性。

其中，如图2b所示，当目标用户在图2b所示的声纹设置界面200a中选择用户B的声纹b时，该目标用户可以进一步针对图2b所示的业务确认控件执行新的触发操作(例如，触发操作2)。此时，该目标用户终端可以响应针对该业务确认控件执行的触发操作2，将该应用客户端的显示界面由图2b所示的声纹设置界面200a返回至图2b所示的视频播放界面100a。如图2b所示，该目标用户终端可以继续恢复对目标视频的播放，从而可以在上述播放进度1的下一播放进度(即图2b所示的视频播放进度2，该视频播放进度2可以为00:00:16，即第16s)时，自动识别与该角色B的声纹b相匹配的声音，进而可以对实时识别到的角色B的声音进行音频优化处理(例如，可以自动对角色B的声音进行屏蔽处理)，以优化目标视频的音频播放效果。

可选的，本申请实施例所涉及的音频优化处理的方式还可以包括：在当前播放的目标视频中，通过声纹识别技术对匹配到的这个目标角色(例如，前述角色B)的声音进行播放处理。这意味着本申请实施例还可以在播放目标视频时，实时地对未匹配到的该目标视频中的其他角色的声音进行屏蔽处理。基于此，本申请实施例可以自适应地根据目标用户的个性需求，在播放该目标视频时，能够确保该目标用户只听到自己喜爱的角色B的声音，即采用本申请实施例可以灵活地对视频中的特定角色的声音进行播放处理，进而可以提升音频优化效果的可控性和时效性。

为便于理解，本申请实施例以这里的音频优化处理的方式为屏蔽处理为例，以阐述在目标用户终端中对特定角色的声音进行屏蔽处理的具体过程。其中，应当理解，本申请实施例可以将该目标用户从N个角色的声纹信息中所选取的一个或者多个角色的声纹信息统称为目标角色的声纹信息，这意味着目标用户终端对其他角色的声纹信息进行屏蔽的实现方式，可以一并参见对上述角色B的声纹信息进行屏蔽的具体过程的描述，这里将不再继续进行赘述。

其中，其中，目标用户终端对特定角色的声纹进行识别以及对特定角色的声音进行屏蔽的具体实现方式，可以参见下述图3-图14所对应实施例。

进一步地，请参见图3，图3是本申请实施例提供的一种视频数据处理方法的流程示意图。该方法可以由用户终端(例如，上述图2a以及图2b所涉及的目标用户终端，例如，上述图1所示的用户终端3000a)执行，也可以由业务服务器(如，上述图1所示的业务服务器2000)执行，还可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器1000)共同执行。为便于理解，本实施例以该方法由用户终端执行为例进行说明。其中，该视频数据处理方法至少可以包括以下步骤S101-步骤S103：

步骤S101，显示应用客户端中的目标视频对应的视频播放界面；视频播放界面中包含声纹识别控件。

具体的，用户终端可以响应针对应用客户端的启动操作，以输出应用客户端对应的应用显示界面；进一步的，用户终端可以响应针对应用显示界面中的目标视频的点播操作，输出目标视频对应的视频播放界面；其中，目标视频是由应用客户端对应的用户(即目标用户)从应用显示界面上所展示的一个或者多个推荐视频数据中所选取的。

其中，为便于理解，本申请实施例以这里的应用客户端为具有音视频播放功能的视频客户端为例，当目标用户(例如，上述用户A)针对该视频客户端执行启动操作时，可以向该视频客户端对应的业务服务器(例如，上述图1所对应实施例中的业务服务器2000)发送业务数据推荐请求，以使该业务服务器在获取到该业务数据推荐请求时，可以从该业务服务器对应的业务数据库中拉取贴合该目标用户(例如，用户A)兴趣的多个推荐视频数据，进而可以将这些推荐视频数据返回给运行有该视频客户端的用户终端，以在该用户终端对应的应用显示界面中输出这些推荐视频数据。可以理解的是，本申请实施例可以将用于展示这些推荐视频数据的视频推荐界面统称为该应用客户端(即视频客户端)对应的应用显示界面。

为便于理解，进一步的，请参见图4，图4是本申请实施例提供的一种应用显示界面的场景示意图。如图4所示的应用显示界面300a中可以包含多个推荐视频数据，这里的多个推荐视频数据具体可以包含图4所示的视频数据30a、视频数据30b、视频数据30c和视频数据30d。可以理解的是，本申请实施例可以将展示在应用显示界面300a中的视频数据30a、视频数据30b、视频数据30c和视频数据30d统称为推荐视频数据。

其中，如图4所示，当用户B需要播放某个推荐视频数据(例如，视频数据30b)时，可以将该用户B从该应用显示界面300a中所选取的视频数据30b统称为应用显示界面中的目标视频。此时，用户终端可以响应针对应用显示界面中的目标视频的播放操作，以输出该目标视频对应的视频播放界面，例如，如图4所示，可以在用户终端中输出视频数据30b对应的视频播放界面，该视频数据30b对应的视频播放界面可以为图4所示的视频播放界面300b。

应当理解，用户终端可以在当前播放进度为第0秒时输出该视频播放界面300b，并可以进一步从业务服务器上获取该视频数据30b(即目标视频)的业务数据包，进而可以基于该应用客户端的编解码组件对该业务数据包进行解析处理，以得到该目标视频的视频数据流和音频数据流。进一步的，用户终端可以在编解码组件中，对解封得到的视频数据流进行视频解码处理，以得到目标视频的视频帧数据；同理，用户终端可以在编解码组件中，对音频数据流进行音频解码处理，以得到目标视频的音频帧数据。

由此可见，用户终端在执行完上述步骤S101之后，还可以获取目标视频的视频帧数据以及视频帧数据对应的音频帧数据；其中，视频帧数据中具体可以包含第一播放进度对应的第一视频帧数据，且音频帧数据中可以包含第一帧视频数据对应的第一音频帧数据。所以，如图4所示，当用户终端输出视频播放界面300b之后，可以在视频加载时长内(例如，从第0秒到图4所示的第5秒所构成的时长)加载得到目标视频的视频帧数据以及视频帧数据对应的音频帧数据。其中，可以理解的是，这里的第一播放进度可以包括但不限于该目标视频中的首个视频帧(即第一视频帧数据)所对应的播放进度，即该第一播放进度可以为图4所示的播放进度T1。

可选的，本申请实施例还可以将对视频播放界面300b中声纹识别控件40a执行触发操作之前，输出至该视频播放界面300b的每个视频帧数据统称为第一视频帧数据，这里将不对第一视频帧数据的数量进行限定。

应当理解，用户终端可以在当前播放进度为第0秒时，对静态页面内容进行加载，以输出图4所示的视频播放界面300b。当用户终端在视频加载时长内获取到目标视频的视频帧数据以及视频帧数据对应的音频帧数据时，可以在该视频播放界面300b中对获取到的动态页面内容(例如，该目标视频的首个视频帧的图像数据)进行渲染，以在该视频播放界面300b中输出该目标视频(即图4所示的视频数据30b)的首个视频帧。此时，使用该用户终端的目标用户(例如，用户A)则可以收听到该首个视频帧(即第一视频帧数据)中的角色B的声音，即此时，该应用客户端的播放器可以播放的这个第一视频数据帧对应的第一音频帧数据。其中，该第一音频帧数据中可以包含由该角色B所发出的声音。

由此可见，如图4所示，用户终端可以在播放进度为播放进度T1时，在用户终端的视频播放界面300a中启动对目标视频的播放处理。可以理解的是，此时，该目标用户(例如，图4所示的用户A)可以在播放目标视频的过程中，灵活地根据自己的需求，来选择是否触发图4所示的声纹识别控件40a，进而可以继续执行下述步骤S102，以通过该人机交互的方式灵活地对目标视频中的特定角色的声音进行屏蔽处理。

在本申请实施例中，考虑到目标视频的业务数据包一般为具有视频封装格式(如，MP4格式、ts格式以及mkv格式等)的视频，因此，用户终端在获取到携带该视频封装格式的业务数据包时，需要对目标视频的业务数据包进行解封装处理(简称解析处理)，以得到该目标视频的视频数据流与音频数据流。其中，对于目标视频的解析处理，可以理解为将目标视频的业务数据包输入至编解码组件中，以通过该编解码组件对该目标视频的业务数据包进行解析处理，从而可以得到视频数据流以及音频数据流；随后，在该编解码组件中，可以对编码后的视频数据流和该音频数据流分别进行解码处理，从而可以得到视频数据流对应的音频帧数据，以及该音频数据流对应的音频帧数据。其中，这里的编解码组件可以为ffmpeg工具，也可以为其他第三方具有视频解封装能力的软件工具，这里将不再对视频解封装组件进行一一举例。

步骤S102，响应针对声纹识别控件的触发操作，输出与目标视频相关联的角色声纹列表；

具体的，用户终端可以响应针对声纹识别控件的触发操作，输出独立于视频播放界面的声纹设置界面；其中，声纹设置界面中至少可以包含第一显示区域和第二显示区域；第一显示区域中可以包含第一业务控件对应的第一播放子页面；进一步的，用户终端可以获取第一业务控件对应的声纹采集时长，从目标视频的视频帧数据中获取与声纹采集时长相关联的待处理视频帧数据；进一步的，用户终端可以基于第一播放子页面的界面尺寸，对待处理视频帧数据的图像尺寸进行调整，以得到调整后的待处理视频帧数据；进一步的，用户终端可以在将调整后的待处理视频帧数据输出至第一播放子页面上时，将待处理视频帧数据对应的音频帧数据作为待处理音频帧数据，基于待处理音频帧数据，确定与目标视频相关联的角色声纹列表，在第二显示区域中输出角色声纹列表。

其中，角色声纹列表中可以包含目标视频中的N个角色的声纹信息；N个角色中可以包含上述目标用户所需要屏蔽的目标角色；N可以为正整数。

为便于理解，本申请实施例以目标视频为上述图4所对应实施例中的视频数据30b为例，以进一步阐述输出角色声纹列表的具体过程。进一步的，请参见图5，图5是本申请实施例提供的一种输出角色声纹列表的场景示意图。其中，本身申请实施例可以将目标视频的每个视频帧统称为视频帧数据，即如图5所示，这里的视频帧数据具体可以包含图5所示的视频帧4a、视频帧4b、视频帧4c、….、视频帧4n。如图5所示的视频帧4a可以为图5所示的视频数据30b的首个视频帧，即该首个视频帧可以在静态加载出上述视频播放界面300b，将其在上述数播放进度为播放进度T1时，渲染输出至该视频播放界面300b上进行显示，以使上述用户A可以在播放进度T1时，在该视频播放界面300b上看到该目标视频的首个视频帧(即该目标视频的第一视频帧数据可以为图5所示的视频帧4a)。

可以理解的是，随着播放时间的变化，显示在应用客户端的视频播放界面上的视频帧的内容将会存在不同。比如，如图5所示的视频播放界面300c可以用于渲染显示该视频帧4b，这意味着该用户A可以在该视频播放界面300c上看到当前播放的视频帧为视频帧4b，该视频帧4b上可以同步显示图5所示的角色B的文本信息(例如，角色B的台词信息可以为图5所示的文本AAABBB……CCC)。应当理解，为便于对上述视频帧4a所对应的视频播放界面(即上述视频播放界面300b)进行区别，本申请实施例可以将用于播放视频帧4b的视频播放界面300c作为内容刷新后的视频播放界面。即这里的视频播放界面300b和视频播放界面300c均可以用于表达不同播放进度时的视频播放界面。

如图5所示，目标用户(即上述图4所对应实施例中的用户A)可以对图5所示的声纹识别控件40a进行触发操作，以输出图5所示的独立于视频播放界面300c的声纹设置界面300d；其中，如图5所示，声纹设置界面300d中至少可以包含显示区域60a和显示区域60b。可以理解的是，本申请实施例可以将该声纹设置界面300d中的显示区域60a统称为第一显示区域，并可以和将该声纹设置界面300d中的显示区域60b统称为第二显示区域；可以理解的是，这里的第一显示区域中可以包含第一业务控件对应的第一播放子页面，即如图5所示，该第一播放子页面可以用于播放图5所示的视频片段50a，该视频片段50a是由应用客户端基于针对上述声纹识别控件所执行的触发操作，从目标视频(即图5所示的视频数据30b)中所截取到的视频片段所确定的。比如，截取到的视频片段中具体可以包含图5所示的视频帧4b、视频帧4c和视频帧4m(未在图上示出)。

应当理解，这里的视频帧4b可以为第二播放进度所对应的第二视频帧数据，视频帧4m可以为第三播放进度对应的第三视频帧数据，可以理解的是，这里的第二播放进度与第三播放进度之间的时长(即间隔时长)可以为统称为声纹采集时长，这里的声纹采集时长可以为30s，这里将不对其进行限定。

应当理解，对于从目标视频中所截取到的该视频片段而言，本申请实施例可以将截取到的该视频片段(即视频帧4b、视频帧4c、…、视频帧4m所构成的视频片段)中的这些视频帧统称为待处理视频帧数据。如图5所示，考虑到第一显示区域(即显示区域60a)中的第一播放子页面的界面尺寸不同于图5所示的视频播放界面300c的界面尺寸，所以，本申请实施例在将截取到的这些视频片段中的这些视频帧输出至该第一播放子页面上进行显示之前，还需要基于第一播放子页面的界面尺寸，对这里的待处理视频帧数据的图像尺寸进行调整(例如，图像尺寸的缩放处理)，进而可以得到调整后的待处理视频帧数据，可以理解的是，此时，调整后的待处理视频帧数据所构成的视频片段可以为图5所示的视频片段50b。

比如，用户终端可以基于第一播放子页面的界面尺寸，对第二视频帧数据(例如，图5所示的视频帧4b)的图像尺寸进行调整(例如，可以自适应的进行缩放处理)，将调整尺寸后的第二视频帧数据(即调整后的视频帧4b)作为声纹采集时长内的起始采集视频帧；同理，用户终端可以基于第一播放子页面的界面尺寸，对第三视频帧数据(例如，上述视频帧4m)的图像尺寸进行调整(例如，可以自适应的进行缩放处理)，将调整尺寸后的第二视频帧数据(即调整后的视频帧4m)作为声纹采集时长内的终止采集视频帧；同理，用户终端对上述截取到的视频片段中的其他视频帧的图像尺寸的调整方式，可以一并参见对视频帧4b和视频帧4m的描述，这里将不再继续进行赘述。最后，用户终端可以基于起始采集视频帧和终止采集视频帧，确定与第一播放子页面相关联的调整后的待处理视频帧数据，即这里的调整后的待处理视频帧数据可以为图5的视频片段50a中的视频帧数据。

进一步的，可以理解的是，用户终端在将调整后的待处理视频帧数据输出至第一播放子页面上时，还可以将待处理视频帧数据对应的音频帧数据作为待处理音频帧数据，从而可以基于待处理音频帧数据，确定与目标视频相关联的角色声纹列表，进而可以在第二显示区域(例如，图5所示的显示区域60b)中输出角色声纹列表。比如，目标用户可以针对图5所示的采集识别控件50b执行触发操作，从而可以将待处理音频帧数据发送给业务服务器，以使业务服务器可以对接收到的待处理音频帧数据进行声纹分析，以得到包含目标视频中的N个角色的声纹信息的角色声纹列表。

为便于理解，进一步的，请参见图6，图6是本申请实施例提供的一种进行数据交互的场景示意图。如图6所示，目标用户(例如，上述用户A)可以针对声纹设置界面300d中的“录制识别按钮”(即采集识别控件)执行触发操作，此时，用户终端可以响应针对该采集识别控件的第一确认操作，以将上述图6所示的视频片段50a的待处理音频帧数据发送给图6所示的业务服务器，以使该业务服务器可以对待处理音频帧数据进行声纹分析，比如，业务服务器可以通过已经训练好的声纹识别模型对接收到的这个待处理音频帧数据进行声纹分析，以分析得到这个声纹片段50a中的每个角色的声纹特征，应当理解，本申请实施例可以将每个角色的声纹特征所构成的唯一标识这个角色的声纹信息的特征序列统称为声纹特征序列。可以理解的是，该声纹片段50a中的每个角色的声纹特征序列可以用于表征目标视频(即上述视频数据30b)中的对应角色的声纹信息。比如，若该视频片段50a中包含一个(例如，N＝1个)角色的声纹特征序列，则可以得到包含一个角色的声纹信息的角色声纹列表。可选的，若该视频片段50a中包含多个(例如，N＝6个)角色的声纹特征序列，则可以得到包含N个角色的声纹信息的角色声纹列表。为便于理解，这里以N＝6为例，以将包含这6个角色的声纹信息的角色声纹列表40b返回给用户终端，以使用户终端可以在图6所示的声纹设置界面300e的显示区域60b(即第二显示区域)中渲染输出该角色声纹列表60b。其中，如图6所示，该角色声纹列表60b中的这6个角色具体可以为图6所示的角色A、角色B、角色C、角色D、角色E和角色F。其中，角色A的声纹信息可以为声纹a、角色B的声纹信息可以为声b、角色C的声纹信息可以为声纹c、角色D的声纹信息可以为声纹d、角色E的声纹信息可以为声纹e、角色F的声纹信息可以为声纹f。

此时，目标用户可以在该角色声纹列表40b中选择自己所需要屏蔽的一个或者多个角色的声纹信息，可以理解的是，本申请实施例可以将该目标用户所需要屏蔽的一个或者多个角色统称为目标角色，从而可以进一步执行下述步骤S103。

步骤S103，响应针对角色声纹列表中的目标角色的声纹信息的选择操作，在播放的目标视频中对与目标角色的声纹信息相匹配的声音进行音频优化处理。

具体的，当目标用户针对角色声纹列表(例如，上述图6所示的角色声纹列表40b)中的目标角色(例如，角色B)的声纹信息的执行触发操作时，该目标用户对应的用户终端可以响应针对角色声纹列表中的目标角色的声纹信息的选择操作，进而可以将选择的目标角色的声纹信息作为目标声纹信息；进一步的，用户终端可以在通过应用客户端对应的播放器播放目标视频的音频帧数据时，在当前播放的音频帧数据中识别与目标声纹信息相匹配的匹配音频帧数据，从而可以在匹配音频帧数据中进一步对属于目标角色的声音进行屏蔽处理。

比如，目标用户在选择好自己所需要屏蔽的特定角色(例如，上述角色B)的声纹信息之后，可以在图6所示的显示区域60b中输出具备可操作状态的业务确认控件。应当理解，在目标用户在橘色声纹列表中选择特定角色的声纹信息之前，该业务确认控件是被置灰显示的或者隐藏的，即此时，业务确认控件并不具备可操作性的。

进一步的，目标用户可以在图6所示的显示区域60b中对具备可操作状态的业务确认控件执行触发操作，进而可以使得用户终端在检测到针对该业务确认控件执行的触发操作时，退出上述图6所示的声纹设置界面300e，进而可以将应用客户端的显示界面由声纹设置界面300e切换为视频播放界面300c，以在视频播放界面300c上对处于暂停状态的原始视频(即上述视频数据30b)点击，以恢复对视频数据30b的播放。此时，用户终端可以在继续播放该视频数据的过程中，自动基于目标用户所选取的目标声纹信息在目标视频的音频帧数据中对属于目标角色的音频帧数据进行识别，进而可以将识别到的属于目标角色的音频帧数据统称为匹配音频帧数据。可以理解的是，此时，用户终端可以进一步在匹配音频帧数据中对属于目标角色的声音进行屏蔽处理。

应当理解，在本申请实施例中，若匹配音频帧数据中存在多个角色(例如，上述角色A和角色B)的声音，则采用本申请实施例则可以对目标用户所选取的角色B的声音进行屏蔽，进而可以在播放目标视频时，对特定角色的声音(即选取的角色B的声音)进行屏蔽处理，从而可以确保目标用户可以更为清晰的听到角色A的声音。

可选的，为确保目标用户可以更为清晰的听到角色A的声音，用户终端可以在检测到上述角色声纹列表中存在大量的角色的声纹信息时，可以对特定角色的声音进行播放处理。比如，本申请实施例可以在角色声纹列表中的声纹信息的数量达到数量阈值(例如，10个)时，将从多个角色(例如，角色C1、角色C2、….角色Cn)的声纹信息中所选取的角色的声纹信息(例如，角色C1的声纹信息)作为用于进行匹配的目标声纹信息，从而可以在执行上述步骤S103时，对通过声纹识别技术所识别到的这个角色C1的声音进行播放处理，并对识别到的不属于这个角色的声音(比如，其他角色(例如，角色C1、角色C2、….角色Cn)的声音)进行屏蔽处理。即此时，用户终端可以播放用户自己所选取的角色的声音，还可以智能屏蔽其他角色的声音。此时，用户将无需一一选取自己所需要屏蔽的角色，这样可以减少人机交互时长，以提升音视频优化的效率。

在本申请实施例中，计算机设备(例如，用户终端)在获取到应用客户端中某个视频(例如，视频A，该视频A可以被统称为目标视频)时，可以显示该目标视频(例如，视频数据30b)对应的视频播放界面。可以理解的是，该视频播放界面中可以包含用于帮助该应用客户端的用户(例如，用户A，该用户A可以被统称为目标用户)对该视频数据30b的音频进行音频优化的声纹识别控件。所以，当目标用户针对该声纹识别控件执行触发操作时，该计算机设备可以响应该触发操作，输出与该目标视频相关联的角色声纹列表。可以理解的是，这里的角色声纹列表可以包含目标视频(例如，视频数据30b)中的N个角色的声纹信息；其中，N可以为正整数；这N个角色中具体可以包含目标角色(即该目标用户计划从这N个角色中选取的一个或者多个角色)；应当理解，这里的N个角色的声纹信息可以为计算机设备对目标视频中的视频片段进行声纹分析之后所得到的。可选的，这N个角色的声纹信息还可以为业务服务器(例如，应用客户端的后台)根据接收到的该目标视频(例如，视频数据30b)中的某个视频片段(例如，从视频A中所截取到的视频片段A1)进行声纹分析后所返回得到的，这里将不对其进行限定。可以理解的是，进一步的，目标用户可以在当前显示的角色声纹列表中选取上述目标角色的声纹信息，以便于在播放目标视频时，能够实时地在播放的目标视频中对与目标角色的声纹信息相匹配的声音进行音频优化处理，从而可以在播放该目标视频时，实时屏蔽或者播放特定角色的声音，以提升音频播放效果的可控性。

进一步地，请参见图7，图7是本申请实施例提供的一种视频数据处理方法的示意图。如图7所示，方法可以由用户终端(例如，上述图1所示的用户终端3000a)执行，也可以由业务服务器(例如，上述图1所示的业务服务器2000)执行，还可以由用户终端和业务服务器共同执行。为便于理解，本实施例以该方法由用户终端执行为例进行说明，该用户终端可以为上述图2a以及图2b所对应实施例中的目标用户终端，该方法具体可以包含以下步骤：

步骤S201，显示应用客户端中的目标视频对应的视频播放界面；

其中，视频播放界面中可以包含声纹识别控件。

步骤S202，响应针对声纹识别控件的触发操作，输出独立于视频播放界面的声纹设置界面；

其中，声纹设置界面中至少包含第一显示区域和第二显示区域；第一显示区域中包含第一业务控件对应的第一播放子页面。

步骤S203，获取第一业务控件对应的声纹采集时长，从目标视频的视频帧数据中获取与声纹采集时长相关联的待处理视频帧数据；

步骤S204，基于第一播放子页面的界面尺寸，对待处理视频帧数据的图像尺寸进行调整，得到调整后的待处理视频帧数据；

其中，待处理视频帧数据中具体可以包括触发操作对应的第二视频帧数据、和第三视频帧数据；第二视频帧数据对应的第二播放进度小于第三视频帧数据对应的第三播放进度；第二播放进度与第三播放进度之间的时长(即间隔时长)可以为声纹采集时长；此时，用户终端获取调整后的待处理视频帧数据的具体过程可以描述为：用户终端可以基于第一播放子页面的界面尺寸，对第二视频帧数据的图像尺寸进行调整，以将调整尺寸后的第二视频帧数据作为声纹采集时长内的起始采集视频帧；同理，用户终端可以基于第一播放子页面的界面尺寸，对第三视频帧数据的图像尺寸进行调整，以将调整尺寸后的第二视频帧数据作为声纹采集时长内的终止采集视频帧；然后，用户终端可以基于起始采集视频帧和终止采集视频帧，确定与第一播放子页面相关联的调整后的待处理视频帧数据。其中，可以理解的是，这里的调整后的待处理视频帧数据具体可以为上述图6所对应实施例中的视频片段50a，可选的，在第一播放子页面中播放的视频片段还可以为上述视频数据30b中的其他视频片段，这里将不对其进行限定。

步骤S205，在将调整后的待处理视频帧数据输出至第一播放子页面上时，将待处理视频帧数据对应的音频帧数据作为待处理音频帧数据，基于待处理音频帧数据，确定与目标视频相关联的角色声纹列表，在第二显示区域中输出角色声纹列表。

步骤S206，响应针对角色声纹列表中的目标角色的声纹信息的选择操作，在播放的目标视频中对与目标角色的声纹信息相匹配的声音进行音频优化处理。

应当理解，可选的，当用户终端执行步骤S206时，该目标角色在该目标视频中所处的状态可以为屏蔽状态。若目标用户需要将该目标角色的状态由屏蔽状态切换为非屏蔽状态，则可以在上述角色声纹列表中取消对该目标角色的声纹信息的屏蔽设置。其中，步骤S201-步骤S206的具体实现方式，可以参见上述图3所对应实施例中对步骤S101-步骤S103的描述，这里将不再继续进行赘述。

其中，可以理解的是，第一显示区域中可以包含第一业务控件和第二业务控件，其中，该第一业务控件可以为用于录制屏蔽角色声纹的业务控件，该第二业务控件可以为用于录制可替换声纹的业务控件。

这样，用户终端在执行完上述步骤S202之后，可以进一步执行下述步骤S203-步骤S206，以对从目标视频中所截取的某个视频片段(例如，视频片段P1)的图像尺寸进行缩放处理，以将缩放处理后的这个视频片段(例如，视频片段P1’，该视频片段P1’可以为对视频片段P1进行缩放处理后所得到视频片段)输出至该第一播放子页面上，以便于用户终端可以在该第一播放子页面上播放该视频片段P1时，可以启动应用客户端的角色声纹录制任务，以自动采集应用客户端的播放器所播放的该视频片段P1的音频片段，进而可以将录制到的该视频片段P1的音频片段统称为上述待处理音频帧数据。这里的待处理音频帧数据可以用于获取与目标视频相关联的角色声纹列表。此外，可选的，在目标视频的播放过程中，目标用户可以在不同播放进度时选择触发上述声纹识别控件，从而可以截取到与不同播放进度相关联的视频片段，即本申请实施例可以在第一播放子页面中播放从上述视频数据30b中截取到的其他视频片段(例如，视频片段P2)。应当理解，这里的视频片段P1和视频片段P2之间可以包含部分相同的视频帧，也可以包含互不相同的视频帧，这里将不对执行声纹识别控件时呈现在视频播放界面中的第二视频帧数据进行限定。

可选的，用户终端在执行完上述步骤S202之后，还可以针对第一显示区域中的第二业务控件执行触发操作，以使用户终端可以进一步执行下述步骤S207-步骤S215。

步骤S207，响应目标用户针对第二业务控件执行的业务切换操作，生成业务切换指令，且将第一显示区域中的子页面由第一播放子页面切换为视频展示子页面；

其中，业务切换指令可以用于指示业务服务器从用户行为数据库中获取目标用户的历史行为信息(即用户的观影习惯)，比如，目标用户的历史行为信息可以为这个目标用户在历史时长内曾经点播过哪些推荐视频片段以及向业务服务器提交过哪些推荐视频片段的音频帧数据等。这样，业务服务器可以基于该目标用户的历史行为信息准确地刻画出用于描述该该目标用户的用户画像，此时，业务服务器可以基于刻画出的用户画像准确为该目标用户推荐贴合用户兴趣的一个或者多个视频片段，以便于可以继续执行下述步骤S208。

步骤S208，获取业务服务器基于目标用户的历史行为信息推送的至少一个推荐视频片段，在第一显示区域内的视频展示子页面中输出至少一个推荐视频片段。

为便于理解，进一步的，请参见图8，图8是本申请实施例提供的一种切换业务控件的场景示意图。如图8所示的声纹设置界面400a中包含两个功能区域，这两个功能区域具体可以包含图8所示的第一显示区域和第二显示区域。其中，第一显示区域中的子页面可以为第一业务控件对应的第一播放子页面。可选的，该第一显示区域中的子页面还可以为第二业务控件对应的视频展示子页面。

其中，如图8所示，目标用户可以在第一显示区域中针对第二业务控件执行触发操作(即执行业务切换操作)，以启动应用客户端的替换声纹录制任务。比如，用户终端可以响应针对第二业务控件执行的业务切换操作，生成业务切换指令，以将该第一显示区域中的录制任务由角色声纹录制任务切换为替换声纹录制任务。此时，用户终端可以将第一显示区域中的子页面由图8所示的第一播放子页面切换为图8所示的视频展示子页面。如图8所示，该视频展示子界面中可以包含多个推荐视频片段。这些推荐视频片段是业务服务器基于该目标用户的历史行为信息所智能推送的。如图8所示，这些推荐视频片段具体可以包括图8所示的视频片段1、视频片段2、视频片段3、视频片段4、视频片段5以及视频片段6。可以理解的是，若目标用户希望将视频片段2中的声纹信息作为可替换声纹信息，则目标用户可以针对该视频片段2执行触发操作(即选择确定操作)，从而可以将执行触发操作的这个视频片段2作为目标推荐视频片段，以进一步执行下述步骤S209。

步骤S209，响应针对目标推荐视频片段的选择确定操作，将第一显示区域中的子界面由视频展示子界面切换为第二业务控件对应的第二播放子界面，在第一显示区域中的第二播放子界面上对目标推荐视频片段进行播放；

步骤S210，在第二业务控件对应的声纹录制时长内，截取播放的目标推荐视频片段中的目标视频帧数据，响应针对采集识别控件的第二确认操作，将截取到的目标视频帧数据所对应的目标音频帧数据发送给业务服务器；

可以理解的是，用户终端在执行完步骤S210之后，业务服务器可以对接收到的目标音频帧数据进行声纹分析，以得到目标推荐视频片段中的K个可替换声纹信息；K为正整数；

步骤S211，接收业务服务器返回的包含K个可替换声纹信息的第二声纹列表，将接收到的第二声纹列表作为与角色声纹列表相关联的可替换列表。

步骤S212，将第二显示区域中的列表由角色声纹列表替换为可替换列表；

为便于理解，进一步的，请参见图9，图9是本申请实施例提供的一种获取可替换列表的场景示意图。如图9所示，当前在视频展示子页面中所播放的视频片段2中可以包含两个对象，这两个对象可以为视频片段2中的角色A1和角色B1。这样，当该应用客户端的播放器对视频片段2进行播放时，可以根据上述替换声纹录制任务，在第二业务控件对应的声纹录制时长(例如，30s)内，采集到包含角色A1的声音和角色B1的声音的目标音频帧数据。如图9所示，当目标用户针对与视频片段2相关联的采集识别控件执行第二确认操作时，可以将采集到的目标音频帧数据发送给图9所示的业务服务器，以使业务服务器可以对目标音频帧数据中进行声纹分析，以得到该视频片段2中的角色A1的声纹信息1和角色A2的声纹信息2。如图9所示，业务服务器可以将得到的角色A1的声纹信息1和角色A2的声纹信息2所构成的列表统称为第二声纹列表，进而可以将该第二声纹列表返回给用户终端。如图9所示，用户终端可以将接收到的第二声纹列表作为可替换列表，并可以在图9所示的第二显示区域中显示该第二声纹列表。为便于理解，本申请实施例可以将第二声纹列表中的每个角色的声纹信息统称为可替换声纹信息。

这样，目标用户可以在该第二声纹列表中，灵活的选取自己所喜欢的可替换声纹信息，并可以将该目标用户所选取的可替换声纹信息作为目标可替换声纹信息。比如，目标用户可以将图9所示的角色A1的声纹信息作为目标可替换声纹信息，以进一步执行下述步骤S213。

步骤S213，响应针对可替换列表中的目标可替换声纹信息的触发操作，输出独立于第二显示区域的声纹替换区域，在声纹替换区域中输出与目标可替换声纹信息相关联的N个角色的声纹信息。

步骤S214，响应针对N个角色的声纹信息的触发操作，从N个角色的声纹信息中获取M个角色的声纹信息，配置得到目标可替换声纹信息与M个角色的声纹信息之间的替换关系表；

其中，替换关系表中包含M个替换提示信息；一个替换提示信息用于表征目标可替换声纹信息与一个角色的声纹信息之间的替换关系；M可以为小于或者等于N的正整数；

步骤S215，基于M个替换提示信息，在播放的目标视频中将M个角色的声纹信息替换为目标可替换声纹信息。

进一步的，请参见图10，图10是本申请实施例提供的一种配置得到替换关系表的场景示意图。如图10所示，目标用户可以针对第二声纹列表中的角色A1的声纹1执行触发操作，以将该角色A1的声纹1作为上述目标可替换声纹信息。应当理解，当目标用户点击该目标可替换声纹信息时，用户终端可以响应针对目标可替换声纹信息的触发操作，输出独立于第二显示区域的声纹替换区域，从而可以在声纹替换区域中输出图10所示的第一声纹列表。该第一声纹列表中可以包含与目标可替换声纹信息相关联的N个角色的声纹信息。如图10所示，目标用户可以从这N个声纹信息中选择自己所需要进行替换的声纹信息，例如，目标用户可以将图10所示的角色A的声纹a和角色B的声纹b，作为从N(例如，N＝6)个角色的声纹信息中获取到的M(例如，M＝2)个角色的声纹信息，进而可以配置得到上述目标可替换声纹信息(即图10所示的将该角色A1的声纹1)与这两个角色的声纹信息之间的替换关系表。这里的M可以为小于或者等于N的正整数。

可选的，应当理解，当目标用户在第一声纹列表中选择需要替换的M个声纹信息的过程中，用户终端还可以自动识别当前选择的这个声纹信息是否为在角色声纹屏蔽过程中所设置的需要屏蔽的目标角色的声纹信息(例如，角色E的声纹e)。如果是，则确定无法建立该目标可替换声纹信息与目标角色的声纹信息之间的替换关系，进而可以生成用于提示目标用户的配置提示信息，以使目标用户可以根据该配置提示信息选择是否取消预先在角色声纹列表中所勾选的需要屏蔽的这个角色的声纹信息，以将这个角色的状态由屏蔽状态切换为非屏蔽状态。反之，则可以建立该目标可替换声纹信息与目标角色的声纹信息之间的替换关系。由此可见，目标用户在观看上述目标视频的时候，可以通过声纹识别技术，在播放目标视频时智能匹配自己喜欢的角色的声音，从而可以为自己喜欢的角色配上自己喜欢的声优的声音。

进一步的，如图10所示，该替换关系表中可以包含2个替换提示信息，一个替换提示信息可以用于表征目标可替换声纹信息(即该角色A1的声纹1)与一个角色的声纹信息之间的替换关系，例如，该角色A1的声纹1与角色A的声纹a之间的替换关系可以表示为图10所示的由声纹a指向声纹1的箭头，此时，这个由声纹a指向声纹1的箭头，可以用于表示目标视频中的角色A的声纹信息(即声纹a)能够被图10所示的声纹1所替换。同理，由声纹b指向声纹1的箭头，可以用于表示目标视频中的角色B的声纹信息(即声纹b)能够被图10所示的声纹1所替换。换言之，在播放目标视频时，用户终端可以智能识别到角色A发出的声音，并可以用自己所喜欢的角色A1的声纹1对其进行替换。同理，用户终端可以智能识别到角色B发出的声音，也可以用自己所喜欢的这个角色A1的声纹1对其进行替换，进而可以灵活地提升音频播放效果的可控性。

可选的，如图10所示，目标用户还可以沿着图10所示的箭头的反方向指向滑动操作，以解除目标可替换声纹信息与目标视频中的特定角色的声纹信息之间的替换关系，比如，如图10所示，用户终端可以响应针对目标替换提示信息(即目标用户可以沿着由声纹b指向声纹1的箭头的反方向)指向滑动操作，来解除声纹1与声纹b之间的替换关系，以解除目标可替换声纹信息与目标角色(即图10所示的角色B)的声纹信息之间的替换关系，进而可以在图10所示的替换关系表中删除目标替换提示信息。

可选的，用户终端还可以在检测到目标用户未对至少一个推荐视频片段中的任意一个推荐视频片段执行触发操作，且检测到目标用户对采集识别控件执行第三确认操作时，在第一显示区域中输出携带录音采集时长的录音控件；进一步的，用户终端可以在录音采集时长内，响应目标用户针对录音控件执行的按压操作，获取目标用户的用户音频帧数据，将用户音频帧数据发送至业务服务器，以使业务服务器对目标音频帧数据进行声纹分析，得到目标用户的声纹信息；进一步的，用户终端可以接收业务服务器返回的目标用户的声纹信息，以将目标用户的声纹信息添加至可替换列表。

为便于理解，进一步的，请参见图11，图11是本申请实施例提供的一种获取目标用户的声纹信息的场景示意图。如图11所示，若目标用户未对图11所示的视频展示子界面中的任意一个推荐视频片段执行触发操作，而是直接对图11所示的位于第一显示区域中的采集识别控件执行触发操作(即上述第三触发操作)，则可以直接启动应用客户端的用户声纹采集任务，以在图11所示的第一显示区域中弹出携带录音采集时长(例如，20s)的录音控件。这样，如图11所示，目标用户可以对该显示在第一按时区域中的录音控件执行按压操作(例如，长按操作)，以通过该录音控件采集到该目标用户自己的声音。可以理解的是，显示在视频展示子界面中的任意一个推荐视频片段均是业务服务器根据目标用户的观影习惯(即上述历史行为信息)所智能推送的视频片段。

可以理解的是，本申请实施例可以在录音采集时长内，将由该录音控件所采集到的该目标用户自己的声音统称为目标用户的用户音频帧数据，从而可以将采集到的该目标用户的用户音频帧数据直接发送给图11所示的业务服务器，此时，该业务服务器可以对接收到的用户音频帧数据进行声纹分析，进而可以得到该目标用户的声纹信息。其中，可以理解的是，目标用户按压该录音控件的时长可以小于或者等于该录音采集时长。这意味着目标用户可以通过该录音控件灵活的制作相应数量的音频帧数据。

可以理解的是，进一步的，用户终端可以接收业务服务器返回的目标用户(例如，上述用户A)的声纹信息，并会将当前获取到的这个用户A的声纹信息与本地存储的第二声纹列表中的可替换声纹信息进行比较，以判断当前获取到的这个用户A的声音信息是否存在于第二声纹列表(即可替换列表)中。若存在，则无需重复将该用户A的声纹信息添加到第二声纹列表(即可替换列表)中，反之，则可以将该用户A的声纹信息添加到第二声纹列表(即可替换列表)中，以便于后续目标用户可以通过自己的声纹信息，对目标视频中的特定角色的声音进行替换，进而可以帮助用户实现自己配音的娱乐效果。

其中，为便于理解，进一步的，请参见图12，图12是本申请实施例提供的一种前后端交互的流程示意图。如图12所示，目标用户可以在用户终端中执行步骤S11，以播放某个视频，该视频可以为上述图3所对应实施例中的目标视频。进一步的，目标用户可以执行步骤S12，以点击用于设置声纹列表的按钮，这里的声纹列表可以包含但不限于上述可替换列表和角色声纹列表。可以理解的是，当目标用户执行步骤S12时，用户终端可以输出步骤S15中的弹窗，进而可以执行步骤S15，比如，可以在弹框中截取这个视频中的某个片段作为短视频。

其中，可以理解的是，这里的弹框即为独立于上述视频播放界面的声纹设置界面。然后，用户终端可以执行步骤S16，以将截取到的这个短视频的音频数据帧提交给后台，以使后台(即上述业务服务器)可以判断出这个短视频中的每个角色的声纹特征。这里理解的是，如果后台(即上述业务服务器)提取得到每个角色的声纹特征，则可以生成识别成功提示信息，进而可以执行步骤S17，以将该成功提示信息返回给用户终端，从而可以帮助用户终端从后台获取到相应的列表(例如，上述角色声纹列表)。其中，可以理解的是，这里的每个角色的声纹特征可以为对应角色的声纹特征序列。此时，目标用户可以进一步执行步骤S14，以在该该角色声纹列表中勾选要屏蔽的某个角色的声纹信息。

可选的，后台还可以在无法提取到每个角色的声纹特征时，生成识别失败提示信息，进而可以执行图12所示的步骤S18。此时，目标用户可以在用户终端中看到该识别失败提示信息时，跳转执行步骤S11，以便于用户终端可以从这个目标视频中截取新的视频片段。

进一步的，请参见图13，图13是本申请实施例提供的一种在后台判断声纹特征的流程示意图。如图13所示，当目标用户执行完步骤S21之后，后台(即上述业务服务器)可以接收到目标用户所提交的短视频，进而可以继续执行步骤S22，以对接收到的段视频进行转码解析处理，以得到该短视频的音频数据帧。此时，业务服务器可以从在解析得到的音频数据帧中的声纹特征时，进一步执行步骤S23-步骤S24，以将解析得到的这个短视频中的声纹特征与现有用户声纹库中的声纹特征进行比对，以判断这个短视频中的声纹特征是否属于现有用户声纹库中的声纹特征。如果判断为是，则可以跳转执行步骤S31，即业务服务器可以确定当前识别到的这个短视频中的声纹特征属于现有用户声纹库中的声纹特征，进而可以继续执行步骤S29-步骤S30，以向用户终端返回用于表征特征重复的识别失败提示信息。

可选的，业务服务器还可以在执行完步骤S22之后，进一步执行步骤S28，比如，业务服务器可以在解析失败的情况下，进一步执行步骤S29-步骤S30，以向用户终端返回用于表征解析失败的识别失败提示信息。

可选的，业务服务器还可以在执行完步骤S24的过程中，即在将解析得到的这个短视频中的声纹特征与现有用户声纹库中的声纹特征进行比对的过程中，若判断为否，则可以跳转执行步骤S25，即业务服务器可以确定当前识别到的这个短视频中的声纹特征不属于现有用户声纹库中的声纹特征，进而可以继续执行步骤S26-步骤S27，以向用户终端返回上述识别成功提示信息。

进一步的，请参见图14，图14是本申请实施例提供的一种在用户终端中屏蔽台词声音的流程示意图。其中，运行有应用客户端(例如，视频客户端)的用户终端可以执行图14所示的步骤S41，从而可以在播放某个视频时，进一步执行步骤S42，以判断使用该用户终端的用户(即上述目标用户)是否通过授权的账号信息登录该应用客户端。如果判断为否，则可以跳转执行步骤S46，即以游客的身份执行步骤S49，以在用户终端中正常播放这个视频，即在播放该视频时，可以正常播放该视频中的每个角色的声音。

可选的，如图14所示，用户终端可以在执行完步骤S42之后，且判断为是时，进一步跳转执行步骤S43，以获取用户设置的屏蔽设置，如果检测到用户未对这个视频中的任意一个角色的声音进行屏蔽设置，则可以继续执行步骤S49，即在播放该视频时，正常播放该视频中的每个角色的声音。

可选的，如图14，如果用户终端在执行步骤S43时，还可以执行步骤S44，即可以对这个视频中的特定角色的声音设置屏蔽设置。这样，当用户终端在设置了对这个视频中的台词语音进行匹配的过程中，可以在匹配成功的情况下进一步执行步骤S45，以对特定角色的台词声音进行屏蔽。可选的，用户终端还可以在匹配失败的情况下，跳转执行步骤S49，以允许不对选取的这个角色的声音进行屏蔽。

可以理解的是，在本申请实施例中，目标用户能够灵活地通过自己喜欢的推荐视频片段中的声纹信息，来替换目标视频中的任意一个角色的声纹信息(即任意一个角色的原始声纹信息)。为便于理解，本申请实施例可以将业务服务器从推荐视频片段中所提取的K个声纹信息统称为可替换声纹信息，这里的K可以为正整数，并可以将这K个声纹信息所构成的第二声纹列表作为与上述角色声纹列表相关联的可替换列表。综上，在本申请实施例中，运行在计算机设备(例如，上述用户终端)中的应用客户端可以在播放某个视频(即上述目标视频)时，可以灵活地根据用户需求，启动对携带特定角色的声纹的声音(例如，上述台词声音)进行匹配和屏蔽的任务，从而可以在设置成功时，对特定角色的声纹进行屏蔽，否则，则可以正常播放这个角色的声音。

在本申请实施例中，目标用户可以在观看视频时，无需通过调整扬声器的方式，单独针对视频中的某个角色的声音进行屏蔽。这意味着采用本申请实施例可以允许用户灵活地、便捷的将声音设置具体分化为对某些角色的声音设置，即可以在播放目标视频时，通过声纹屏蔽任务对该目标视频中的特定角色的声音进行屏蔽，且并不影响该目标视频中其他角色的声音。可选的，本申请实施例还可以通过上述声纹替换任务，用自己喜爱的角色的声纹替换特定角色的声音。可选的，本申请实施例还可以通过用户声纹采集任务帮助用户录制自己的语音，以制作成可替换的声纹，以增加用户的参与性，从而可以在提升音频播放效果的同时，一并提高用户的操作体验。

进一步地，请参见图15，图15是本申请实施例提供的一种视频数据处理装置的结构示意图。其中，该视频数据处理装置1可以包括：播放界面获取模块100，声纹列表输出模块200，声音优化模块300。

播放界面获取模块100，用于显示应用客户端中的目标视频对应的视频播放界面；视频播放界面中包含声纹识别控件；

声纹列表输出模块200，用于响应针对声纹识别控件的触发操作，输出与目标视频相关联的角色声纹列表；角色声纹列表中包含目标视频中的N个角色的声纹信息；N个角色中包含目标角色；N为正整数；

声音优化模块300，用于响应针对角色声纹列表中的目标角色的声纹信息的选择操作，在播放的目标视频中对与目标角色的声纹信息相匹配的声音进行音频优化处理。

其中，播放界面获取模块100，声纹列表输出模块200，声音优化模块300的具体实现方式，可以参见上述图3所对应实施例中步骤101-步骤S103的描述，这里将不再进行赘述。可以理解的是，本申请实施例中的视频数据处理装置1可执行前文图3或者图7所对应实施例中对视频数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图16，图16是本申请实施例提供的一种视频数据处理装置的结构示意图。该视频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该视频数据处理装置为一个应用软件；该视频数据处理装置可以用于执行前文图3或者图7所示的方法。如图16所示，视频数据处理装置2可以包括：播放界面获取模块11，声纹列表输出模块12，声音优化模块13，可选的，视频数据处理装置2还可以包括：数据获取模块14、数据输出模块15、业务切换模块16、推荐数据获取模块17、推荐视频播放模块18、目标视频截取模块19、替换列表确定模块20、列表替换模块21、替换区域输出模块22、替换关系配置模块23、声纹替换模块24、替换关系解除模块25、录音控件输出模块26、用户音频获取模块27、用户声纹添加模块28。

播放界面获取模块11，用于显示应用客户端中的目标视频对应的视频播放界面；视频播放界面中包含声纹识别控件；

声纹列表输出模块12，用于响应针对声纹识别控件的触发操作，输出与目标视频相关联的角色声纹列表；角色声纹列表中包含目标视频中的N个角色的声纹信息；N个角色中包含目标角色；N为正整数；

其中，声纹列表输出模块12包括：设置界面输出单元121、待处理视频获取单元122、图像尺寸调整单元123和声纹列表确定单元124；

设置界面输出单元121，用于响应针对声纹识别控件的触发操作，输出独立于视频播放界面的声纹设置界面；声纹设置界面中至少包含第一显示区域和第二显示区域；第一显示区域中包含第一业务控件对应的第一播放子页面；

待处理视频获取单元122，用于获取第一业务控件对应的声纹采集时长，从目标视频的视频帧数据中获取与声纹采集时长相关联的待处理视频帧数据；

图像尺寸调整单元123，用于基于第一播放子页面的界面尺寸，对待处理视频帧数据的图像尺寸进行调整，得到调整后的待处理视频帧数据；

图像尺寸调整单元123包括：第一调整子单元1231、第二调整子单元1232和数据确定子单元1233；

第一调整子单元1231，用于基于第一播放子页面的界面尺寸，对第二视频帧数据的图像尺寸进行调整，将调整尺寸后的第二视频帧数据作为声纹采集时长内的起始采集视频帧；

第二调整子单元1232，用于基于第一播放子页面的界面尺寸，对第三视频帧数据的图像尺寸进行调整，将调整尺寸后的第二视频帧数据作为声纹采集时长内的终止采集视频帧；

数据确定子单元1233，用于基于起始采集视频帧和终止采集视频帧，确定与第一播放子页面相关联的调整后的待处理视频帧数据。

其中，第一调整子单元1231、第二调整子单元1232和数据确定子单元1233的具体实现方式可以参见上述图3所对应实施例中对调整后的待处理视频帧数据的描述，这里将不再继续对其进行赘述。

声纹列表确定单元124，用于在将调整后的待处理视频帧数据输出至第一播放子页面上时，将待处理视频帧数据对应的音频帧数据作为待处理音频帧数据，基于待处理音频帧数据，确定与目标视频相关联的角色声纹列表，在第二显示区域中输出角色声纹列表。

其中，第一显示区域中包含采集识别控件；

声纹列表确定单元124包括：视频输出子单元1241、响应发送子单元1242和列表确定子单元1243；

视频输出子单元1241，用于在将调整后的待处理视频帧数据输出至第一播放子页面上时，从目标视频的音频帧数据中获取待处理视频帧数据对应的音频帧数据，将获取到的待处理视频帧数据对应的音频帧数据作为声纹采集时长对应的待处理音频帧数据；

响应发送子单元1242，用于响应针对采集识别控件的第一确认操作，将待处理音频帧数据发送至业务服务器，以使业务服务器对待处理音频帧数据进行声纹分析，以得到目标视频中的N个角色的声纹信息；

列表确定子单元1243，用于接收业务服务器返回的包含N个角色的声纹信息的第一声纹列表，将接收到的第一声纹列表作为与目标视频相关联的角色声纹列表，在第二显示区域中输出角色声纹列表。

其中，视频输出子单元1241、响应发送子单元1242和列表确定子单元1243的具体实现方式，可以参见上述图3所对应实施例中对第一声纹列表的阐述，这里将不再继续对其进行赘述。

其中，设置界面输出单元121、待处理视频获取单元122、图像尺寸调整单元123和声纹列表确定单元124的具体实现方式，可以参见上述图3所对应实施例中对输出角色声纹列表的具体过程的描述，这里将不再继续进行赘述。

声音优化模块13，用于响应针对角色声纹列表中的目标角色的声纹信息的选择操作，在播放的目标视频中对与目标角色的声纹信息相匹配的声音进行音频优化处理。

其中，声音优化模块13包括：目标声纹确定单元131、识别匹配单元132和声音屏蔽单元133；

目标声纹确定单元131，用于响应针对角色声纹列表中的目标角色的声纹信息的选择操作，将目标角色的声纹信息作为目标声纹信息；

识别匹配单元132，用于当通过应用客户端对应的播放器播放目标视频的音频帧数据时，在音频帧数据中识别与目标声纹信息相匹配的匹配音频帧数据；

声音屏蔽单元133，用于在匹配音频帧数据中对属于目标角色的声音进行屏蔽处理，或者在匹配音频帧数据中对不属于目标角色的声音进行屏蔽处理。

其中，目标声纹确定单元131、识别匹配单元132和声音屏蔽单元133的具体实现方式，可以参见上述图3所对应实施例中对屏蔽角色B的声音的具体过程的描述，这里将不再继续对其进行赘述。

可选的，数据获取模块14，用于获取目标视频的视频帧数据以及视频帧数据对应的音频帧数据；视频帧数据中包含第一播放进度对应的第一视频帧数据，且音频帧数据中包含第一帧视频数据对应的第一音频帧数据；

其中，数据获取模块14包括：数据包获取单元141、视频解码单元142和音频解码单元143；

数据包获取单元141，用于获取目标视频的业务数据包，基于应用客户端中的编解码组件对业务数据包进行解析处理，得到目标视频的视频数据流以及视频数据流对应的音频数据流；

视频解码单元142，用于在编解码组件中，对视频数据流进行视频解码处理，得到目标视频的视频帧数据；

音频解码单元143，用于在编解码组件中，对音频数据流进行音频解码处理，得到目标视频的音频帧数据。

其中，数据包获取单元141、视频解码单元142和音频解码单元143的具体实现方式，可以参见上述图3所对应实施例中对音频数据流和视频数据流的阐述，这里将不再继续进行赘述。

数据输出模块15，在检测到应用客户端的播放器的播放进度为第一播放进度时，在视频播放界面上输出第一视频帧数据，且通过播放器播放第一音频帧数据。

可选的，其中，第一显示区域中包含第二业务控件；

业务切换模块16，用于响应目标用户针对第二业务控件执行的业务切换操作，生成业务切换指令，且将第一显示区域中的子页面由第一播放子页面切换为视频展示子页面；业务切换指令用于指示业务服务器从用户行为数据库中获取目标用户的历史行为信息；

推荐数据获取模块17，用于获取业务服务器基于目标用户的历史行为信息推送的至少一个推荐视频片段，在第一显示区域内的视频展示子页面中输出至少一个推荐视频片段。

可选的，其中，至少一个推荐视频片段中包含目标推荐视频片段；

推荐视频播放模块18，用于响应针对目标推荐视频片段的选择确定操作，将第一显示区域中的子界面由视频展示子界面切换为第二业务控件对应的第二播放子界面，在第一显示区域中的第二播放子界面上对目标推荐视频片段进行播放；

目标视频截取模块19，用于在第二业务控件对应的声纹录制时长内，截取播放的目标推荐视频片段中的目标视频帧数据，响应针对采集识别控件的第二确认操作，将截取到的目标视频帧数据所对应的目标音频帧数据发送给业务服务器，以使业务服务器对目标音频帧数据进行声纹分析，以得到目标推荐视频片段中的K个可替换声纹信息；K为正整数；

替换列表确定模块20，用于接收业务服务器返回的包含K个可替换声纹信息的第二声纹列表，将接收到的第二声纹列表作为与角色声纹列表相关联的可替换列表。

可选的，其中，K个可替换声纹信息中包括目标可替换声纹信息；

列表替换模块21，用于将第二显示区域中的列表由角色声纹列表替换为可替换列表；

替换区域输出模块22，用于响应针对可替换列表中的目标可替换声纹信息的触发操作，输出独立于第二显示区域的声纹替换区域，在声纹替换区域中输出与目标可替换声纹信息相关联的N个角色的声纹信息；

替换关系配置模块23，用于响应针对N个角色的声纹信息的触发操作，从N个角色的声纹信息中获取M个角色的声纹信息，配置得到目标可替换声纹信息与M个角色的声纹信息之间的替换关系表；替换关系表中包含M个替换提示信息；一个替换提示信息用于表征目标可替换声纹信息与一个角色的声纹信息之间的替换关系；M为小于或者等于N的正整数；

声纹替换模块24，用于基于M个替换提示信息，在播放的目标视频中将M个角色的声纹信息替换为目标可替换声纹信息。

可选的，其中，M个角色中包含目标角色，且目标角色的状态为非屏蔽状态；替换关系表中包含用于将目标可替换声纹信息替换为目标角色的声纹信息的目标替换提示信息；

替换关系解除模块25，用于响应目标用户针对目标替换提示信息的滑动操作，解除目标可替换声纹信息与目标角色的声纹信息之间的替换关系，并在替换关系表中删除目标替换提示信息。

可选的，录音控件输出模块26，用于在检测到目标用户未对至少一个推荐视频片段中的任意一个推荐视频片段执行触发操作，且检测到目标用户对采集识别控件执行第三确认操作时，在第一显示区域中输出携带录音采集时长的录音控件；

用户音频获取模块27，用于在录音采集时长内，响应目标用户针对录音控件执行的按压操作，获取目标用户的用户音频帧数据，将用户音频帧数据发送至业务服务器，以使业务服务器对目标音频帧数据进行声纹分析，得到目标用户的声纹信息；

用户声纹添加模块28，用于接收业务服务器返回的目标用户的声纹信息，将目标用户的声纹信息添加至可替换列表。

其中，播放界面获取模块11，声纹列表输出模块12，声音优化模块13的具体实现方式，可以参见上述图3所对应实施例对步骤S101-步骤S103的描述，这里将不再进行赘述。可选的，数据获取模块14、数据输出模块15、业务切换模块16、推荐数据获取模块17、推荐视频播放模块18、目标视频截取模块19、替换列表确定模块20、列表替换模块21、替换区域输出模块22、替换关系配置模块23、声纹替换模块24、替换关系解除模块25、录音控件输出模块26、用户音频获取模块27、用户声纹添加模块28的具体实现方式，可以参见上述图7所对应实施例中对步骤S201-步骤S215的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图17，是本申请实施例提供的一种计算机设备的结构示意图。如图17所示，该计算机设备1000可以为用户终端，该用户终端可以为上述图1所对应实施例中的用户终端3000a，可选的，该计算机设备1000还可以为业务服务器，该业务服务器可以为上述图1所对应实施例中的业务服务器2000。为便于理解，本申请实施例以该计算机设备为用户终端为例。此时。该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，该计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图17所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

其中，该计算机设备1000中的网络接口1004还可以提供网络通讯功能，且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图17所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3或者图7所对应实施例中对该视频数据处理方法的描述，也可执行前文图15所对应实施例中对该视频数据处理装置1的描述，还可执行前文图16所对应实施例中对视频数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的视频数据处理装置1或者视频数据处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3或图7所对应实施例中对视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

可以理解的是，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3或图7所对应实施例中对视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

显示应用客户端中的目标视频对应的视频播放界面；所述视频播放界面中包含声纹识别控件；

响应针对所述声纹识别控件的触发操作，输出与所述目标视频相关联的角色声纹列表；所述角色声纹列表中包含所述目标视频中的N个角色的声纹信息；所述N个角色中包含目标角色；所述N为正整数；

响应针对所述角色声纹列表中的所述目标角色的声纹信息的选择操作，在播放的所述目标视频中对与所述目标角色的声纹信息相匹配的声音进行音频优化处理。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标视频的视频帧数据以及所述视频帧数据对应的音频帧数据；所述视频帧数据中包含第一播放进度对应的第一视频帧数据，且所述音频帧数据中包含所述第一帧视频数据对应的第一音频帧数据；

在检测到所述应用客户端的播放器的播放进度为第一播放进度时，在所述视频播放界面上输出所述第一视频帧数据，且通过所述播放器播放所述第一音频帧数据。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标视频的视频帧数据以及所述视频帧数据对应的音频帧数据，包括：

获取所述目标视频的业务数据包，基于所述应用客户端中的编解码组件对所述业务数据包进行解析处理，得到所述目标视频的视频数据流以及所述视频数据流对应的音频数据流；

在所述编解码组件中，对所述视频数据流进行视频解码处理，得到所述目标视频的视频帧数据；

在所述编解码组件中，对所述音频数据流进行音频解码处理，得到所述目标视频的音频帧数据。

4.根据权利要求1所述的方法，其特征在于，所述响应针对所述声纹识别控件的触发操作，输出与所述目标视频相关联的角色声纹列表，包括：

响应针对所述声纹识别控件的触发操作，输出独立于所述视频播放界面的声纹设置界面；所述声纹设置界面中至少包含第一显示区域和第二显示区域；所述第一显示区域中包含第一业务控件对应的第一播放子页面；

获取所述第一业务控件对应的声纹采集时长，从所述目标视频的视频帧数据中获取与所述声纹采集时长相关联的待处理视频帧数据；

基于所述第一播放子页面的界面尺寸，对所述待处理视频帧数据的图像尺寸进行调整，得到调整后的待处理视频帧数据；

在将所述调整后的待处理视频帧数据输出至第一播放子页面上时，将所述待处理视频帧数据对应的音频帧数据作为待处理音频帧数据，基于所述待处理音频帧数据，确定与所述目标视频相关联的角色声纹列表，在所述第二显示区域中输出所述角色声纹列表。

5.根据权利要求4所述的方法，其特征在于，所述待处理视频帧数据中包括所述触发操作对应的第二视频帧数据、和第三视频帧数据；所述第二视频帧数据对应的第二播放进度小于所述第三视频帧数据对应的第三播放进度；所述第二播放进度与所述第三播放进度之间的时长为所述声纹采集时长；

所述基于所述第一播放子页面的界面尺寸，对所述待处理视频帧数据的图像尺寸进行调整，得到调整后的待处理视频帧数据，包括：

基于所述第一播放子页面的界面尺寸，对所述第二视频帧数据的图像尺寸进行调整，将调整尺寸后的第二视频帧数据作为所述声纹采集时长内的起始采集视频帧；

基于所述第一播放子页面的界面尺寸，对所述第三视频帧数据的图像尺寸进行调整，将调整尺寸后的第二视频帧数据作为所述声纹采集时长内的终止采集视频帧；

基于所述起始采集视频帧和所述终止采集视频帧，确定与所述第一播放子页面相关联的调整后的待处理视频帧数据。

6.根据权利要求4所述的方法，其特征在于，所述第一显示区域中包含采集识别控件；

所述在将所述调整后的待处理视频帧数据输出至第一播放子页面上时，将所述待处理视频帧数据对应的音频帧数据作为待处理音频帧数据，基于所述待处理音频帧数据，确定与所述目标视频相关联的角色声纹列表，在所述第二显示区域中输出所述角色声纹列表，包括：

在将所述调整后的待处理视频帧数据输出至第一播放子页面上时，从所述目标视频的音频帧数据中获取所述待处理视频帧数据对应的音频帧数据，将获取到的所述待处理视频帧数据对应的音频帧数据作为所述声纹采集时长对应的待处理音频帧数据；

响应针对所述采集识别控件的第一确认操作，将所述待处理音频帧数据发送至业务服务器，以使所述业务服务器对所述待处理音频帧数据进行声纹分析，以得到所述目标视频中的N个角色的声纹信息；

接收所述业务服务器返回的包含所述N个角色的声纹信息的第一声纹列表，将接收到的所述第一声纹列表作为与所述目标视频相关联的角色声纹列表，在所述第二显示区域中输出所述角色声纹列表。

7.根据权利要求4所述的方法，其特征在于，所述第一显示区域中包含第二业务控件；所述方法还包括：

响应目标用户针对所述第二业务控件执行的业务切换操作，生成业务切换指令，且将所述第一显示区域中的子页面由所述第一播放子页面切换为视频展示子页面；所述业务切换指令用于指示业务服务器从用户行为数据库中获取所述目标用户的历史行为信息；

获取业务服务器基于所述目标用户的历史行为信息推送的至少一个推荐视频片段，在所述第一显示区域内的所述视频展示子页面中输出所述至少一个推荐视频片段。

8.根据权利要求7所述的方法，其特征在于，所述至少一个推荐视频片段中包含目标推荐视频片段；

所述方法还包括：

响应针对目标推荐视频片段的选择确定操作，将所述第一显示区域中的子界面由所述视频展示子界面切换为所述第二业务控件对应的第二播放子界面，在所述第一显示区域中的所述第二播放子界面上对所述目标推荐视频片段进行播放；

在所述第二业务控件对应的声纹录制时长内，截取播放的所述目标推荐视频片段中的目标视频帧数据，响应针对所述采集识别控件的第二确认操作，将截取到的所述目标视频帧数据所对应的目标音频帧数据发送给所述业务服务器，以使所述业务服务器对所述目标音频帧数据进行声纹分析，以得到所述目标推荐视频片段中的K个可替换声纹信息；所述K为正整数；

接收所述业务服务器返回的包含所述K个可替换声纹信息的第二声纹列表，将接收到的所述第二声纹列表作为与所述角色声纹列表相关联的可替换列表。

9.根据权利要求8所述的方法，其特征在于，所述K个可替换声纹信息中包括目标可替换声纹信息；

所述方法还包括：

将所述第二显示区域中的列表由所述角色声纹列表替换为所述可替换列表；

响应针对所述可替换列表中的所述目标可替换声纹信息的触发操作，输出独立于所述第二显示区域的声纹替换区域，在所述声纹替换区域中输出与所述目标可替换声纹信息相关联的所述N个角色的声纹信息；

响应针对所述N个角色的声纹信息的触发操作，从所述N个角色的声纹信息中获取M个角色的声纹信息，配置得到所述目标可替换声纹信息与所述M个角色的声纹信息之间的替换关系表；所述替换关系表中包含M个替换提示信息；一个替换提示信息用于表征所述目标可替换声纹信息与一个角色的声纹信息之间的替换关系；所述M为小于或者等于所述N的正整数；

基于所述M个替换提示信息，在播放的所述目标视频中将所述M个角色的声纹信息替换为所述目标可替换声纹信息。

10.根据权利要求9所述的方法，其特征在于，所述M个角色中包含所述目标角色，且所述目标角色的状态为非屏蔽状态；所述替换关系表中包含用于将所述目标可替换声纹信息替换为所述目标角色的声纹信息的目标替换提示信息；

所述方法还包括：

响应目标用户针对所述目标替换提示信息的滑动操作，解除所述目标可替换声纹信息与所述目标角色的声纹信息之间的替换关系，并在所述替换关系表中删除所述目标替换提示信息。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

在检测到所述目标用户未对所述至少一个推荐视频片段中的任意一个推荐视频片段执行触发操作，且检测到所述目标用户对所述采集识别控件执行第三确认操作时，在所述第一显示区域中输出携带录音采集时长的录音控件；

在所述录音采集时长内，响应所述目标用户针对所述录音控件执行的按压操作，获取所述目标用户的用户音频帧数据，将所述用户音频帧数据发送至业务服务器，以使所述业务服务器对所述目标音频帧数据进行声纹分析，得到所述目标用户的声纹信息；

接收所述业务服务器返回的所述目标用户的声纹信息，将所述目标用户的声纹信息添加至所述可替换列表。

12.根据权利要求1所述的方法，其特征在于，所述响应针对所述角色声纹列表中的所述目标角色的声纹信息的选择操作，在播放的所述目标视频中对与所述目标角色的声纹信息相匹配的声音进行音频优化处理，包括：

响应针对所述角色声纹列表中的所述目标角色的声纹信息的选择操作，将所述目标角色的声纹信息作为目标声纹信息；

当通过所述应用客户端对应的播放器播放所述目标视频的音频帧数据时，在所述音频帧数据中识别与所述目标声纹信息相匹配的匹配音频帧数据；

在所述匹配音频帧数据中对属于所述目标角色的声音进行屏蔽处理，或者在所述匹配音频帧数据中对不属于所述目标角色的声音进行屏蔽处理。

13.一种视频数据处理装置，其特征在于，包括：

播放界面获取模块，用于显示应用客户端中的目标视频对应的视频播放界面；所述视频播放界面中包含声纹识别控件；

角色声纹列表输出模块，用于响应针对所述声纹识别控件的触发操作，输出与所述目标视频相关联的角色声纹列表；所述角色声纹列表中包含所述目标视频中的N个角色的声纹信息；所述N个角色中包含目标角色；所述N为正整数；

声音优化模块，用于响应针对所述角色声纹列表中的所述目标角色的声纹信息的选择操作，在播放的所述目标视频中对与所述目标角色的声纹信息相匹配的声音进行音频优化处理。

14.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1-12任一项所述的方法。