CN113707183A

CN113707183A - 一种视频中的音频处理方法及装置

Info

Publication number: CN113707183A
Application number: CN202111028111.XA
Authority: CN
Inventors: 李斌超
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-26
Anticipated expiration: 2041-09-02
Also published as: CN113707183B

Abstract

本发明实施例提供了一种视频中的音频处理方法及装置，在播放目标视频的过程中，当接收到音频屏蔽指令时，对包含目标视频中的多个目标人物的声音的目标音频进行分离处理，得到多个目标人物的各待处理音频；基于每一待处理音频的声纹特征，从预先基于多个目标人物的样本音频生成的，每一目标人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的目标声纹模型；确定该待处理音频在目标视频中所属的目标人物为训练目标声纹模型所采用的样本音频所属的目标人物；在播放目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。基于上述处理，可以屏蔽用户指示的特定人物的声音，满足用户的个性化需求。

Description

一种视频中的音频处理方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种视频中的音频处理方法及装置。

背景技术

随着计算机技术的发展，客户端为用户提供的功能也越来越多，例如，用户可以通过客户端观看视频。客户端在播放目标视频时，可以同步播放目标视频对应的目标音频，例如，目标视频为电视剧时，客户端可以同步播放该电视剧中的人物对话的音频。

然而，如果用户不喜欢目标视频中的某一人物的声音，用户只能降低目标音频整体的音量，即，相关技术中，无法实现屏蔽特定人物的声音。

发明内容

本发明实施例的目的在于提供一种视频中的音频处理方法及装置，以实现屏蔽用户指示的特定人物的声音，满足用户的个性化需求。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种视频中的音频处理方法，所述方法应用于客户端，所述方法包括：

在播放目标视频的过程中，当接收到针对所述目标视频的音频屏蔽指令时，对包含所述目标视频中的多个目标人物的声音的目标音频进行分离处理，得到所述目标音频中包含的各待处理音频；其中，一个待处理音频表示所述目标视频中的同一个目标人物发出的声音；

针对每一待处理音频，基于该待处理音频的声纹特征，从预先基于所述多个目标人物的样本音频生成的，每一目标人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型，作为目标声纹模型；

确定该待处理音频在所述目标视频中所属的目标人物，为训练所述目标声纹模型所采用的样本音频所属的目标人物；

在播放所述目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。

可选的，一个待处理音频的声纹特征包含该待处理音频中的各音频帧的频谱特征。

可选的，所述针对每一待处理音频，基于该待处理音频的声纹特征，从预先基于所述多个目标人物的样本音频生成的，每一目标人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型，作为目标声纹模型，包括：

针对每一待处理音频，分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的相似度；

从各待匹配声纹模型中，确定与该待处理音频的相似度最大的声纹模型，得到与该待处理音频相匹配的声纹模型，作为目标声纹模型。

可选的，所述针对每一待处理音频，分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的相似度，包括：

针对每一待处理音频，分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的对数似然概率，作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。

可选的，每一目标人物对应的待匹配声纹模型的训练步骤包括：

获取预设样本音频的声纹特征；

基于期望最大化算法和所述预设样本音频的声纹特征，对初始结构的高斯混合模型进行训练，得到备选网络模型；

针对每一目标人物，基于自适应算法和该目标人物的样本音频的声纹特征，调整所述备选网络模型的模型参数，得到该目标人物对应的待匹配声纹模型。

可选的，在播放所述目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频之前，所述方法还包括：

在所述客户端的显示界面中显示所述目标视频中的多个目标人物各自的人物标识；

当接收到用户输入的人物选择指令时，确定所述人物选择指令所指示的人物标识在所述目标视频中所属的目标人物，作为用户指示的待屏蔽人物。

在本发明实施的第二方面，还提供了一种视频中的音频处理装置，所述装置应用于客户端，所述装置包括：

分离模块，用于在播放目标视频的过程中，当接收到针对所述目标视频的音频屏蔽指令时，对包含所述目标视频的多个目标人物的声音的目标音频进行分离处理，得到所述目标音频中包含的各待处理音频；其中，一个待处理音频表示所述目标视频中的同一个目标人物发出的声音；

第一确定模块，用于针对每一待处理音频，基于该待处理音频的声纹特征，从预先基于所述多个目标人物的样本音频生成的，每一目标人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型，作为目标声纹模型；

第二确定模块，用于确定该待处理音频在所述目标视频中所属的目标人物，为训练所述目标声纹模型所采用的样本音频所属的目标人物；

播放模块，用于在播放所述目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。

可选的，所述第一确定模块，具体用于针对每一待处理音频，分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的相似度；

可选的，所述第一确定模块，具体用于针对每一待处理音频，分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的对数似然概率，作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。

可选的，所述装置还包括：

训练模块，用于获取预设样本音频的声纹特征；

可选的，所述装置还包括：

处理模块，用于在所述播放模块执行在播放所述目标视频的过程中，对应播放播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频之前，执行在所述客户端的显示界面中显示所述目标视频中的多个目标人物各自的人物标识；

在本发明实施的又一方面，还提供了一种客户端，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的视频中的音频处理方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的视频中的音频处理方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频中的音频处理方法。

本发明实施例提供的一种视频中的音频处理方法，在播放目标视频的过程中，当接收到针对目标视频的音频屏蔽指令时，对包含目标视频中的多个目标人物的声音的目标音频进行分离处理，得到目标音频中包含的各待处理音频；一个待处理音频表示目标视频中的同一个目标人物发出的声音；针对每一待处理音频，基于该待处理音频的声纹特征，从预先基于多个目标人物的样本音频生成的，每一目标人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型，作为目标声纹模型；确定该待处理音频在目标视频中所属的目标人物，为训练目标声纹模型所采用的样本音频所属的目标人物；在播放目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。

基于上述处理，可以根据用户的指示，播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频，即，可以屏蔽用户指示的特定人物的声音，满足用户的个性化需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的一种视频中的音频处理方法的流程图；

图2为本发明实施例中提供的一种训练声纹模型的方法的流程图；

图3为本发明实施例中提供的另一种视频中的音频处理方法的流程图；

图4为本发明实施例中提供的另一种视频中的音频处理方法的流程图；

图5为本发明实施例中提供的一种视频中的音频处理装置的结构图；

图6为本发明实施例中提供的一种客户端的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

现有技术中，如果用户不喜欢目标视频中的某一人物的声音，用户只能降低目标音频整体的音量，即，现有技术中，无法实现屏蔽特定人物的声音。

为了解决上述问题，参见图1，图1为本发明实施例中提供的一种视频中的音频处理方法的流程图，该方法可以应用于客户端，该方法可以包括以下步骤：

S101：在播放目标视频的过程中，当接收到针对目标视频的音频屏蔽指令时，对包含目标视频中的多个目标人物的声音的目标音频进行分离处理，得到目标音频中包含的各待处理音频。

其中，一个待处理音频表示目标视频中的同一个目标人物发出的声音。

S102：针对每一待处理音频，基于该待处理音频的声纹特征，从预先基于多个目标人物的样本音频生成的，每一目标人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型，作为目标声纹模型。

S103：确定该待处理音频在目标视频中所属的目标人物，为训练目标声纹模型所采用的样本音频所属的目标人物。

S104：在播放目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。

基于本发明实施例提供的视频中的音频处理方法，可以根据用户的指示，播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频，即，可以屏蔽用户指示的特定人物的声音，满足用户的个性化需求，提高用户体验。

针对步骤S101，在播放目标视频的过程中，客户端可以同步播放目标视频对应的音频文件，如果用户不喜欢目标视频中的某一目标人物的声音，用户可以向客户端输入针对目标视频的音频屏蔽指令，以屏蔽该目标人物的声音。

相应的，客户端接收到音频屏蔽指令时，可以从目标视频对应的音频文件中确定出目标音频。例如，客户端可以确定目标视频对应的音频文件为目标音频；或者，客户端可以确定目标视频对应的音频文件中，未播放的部分为目标音频。

进而，客户端可以对目标音频进行分离处理，以从目标音频中分离出目标视频中的每一目标人物的音频部分(即本发明实施例中的待处理音频)。

一种实现方式中，客户端可以基于MDL(Minimum Description Length，最小描述长度)算法，确定目标视频中的目标人物的数目(可以称为目标数目)。然后，客户端可以基于FastICA(Fast Independent Compondent Analysis，快速独立成分分析)算法和目标数目，对目标音频进行分离处理，得到目标数目个待处理音频。

可以理解的是，分离得到的各待处理音频为目标视频中的各目标人物的音频，并且每一待处理音频表示目标视频中的同一个目标人物发出的声音。

可以理解的是，当前只是从目标音频中分离出多个目标人物的待处理音频，但是并未确定出各目标人物与各待处理音频之间的对应关系，也就是未确定出每一目标人物的音频是哪一个待处理音频。例如，目标音频对应的3个目标人物分别为：人物A，人物B和人物C。对目标音频进行分离处理得到：待处理音频1，待处理音频2和待处理音频3。该3个待处理音频为该3个人物的音频，但是并未确定出该3个人物与该3个待处理音频之间的对应关系，也就是并未确定出人物A的音频为待处理音频1，还是待处理音频2，还是待处理音频3，同理，也未确定出人物B和人物C的音频是哪一个待处理音频。

针对步骤S102，一个待处理音频的声纹特征可以包括该待处理音频中的各音频帧的频谱特征。一个音频帧的频谱特征可以为该音频帧的MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)，或者该音频帧的LPCC(Linear Predictive CestrumCoeffcient，线性预测倒谱系数)，或者该音频帧的PLP(Perceptual Linear Prediction，感知线性预测)特征，但并不限于此。

一种实现方式中，当每一待处理音频的声纹特征包括该待处理音频中的各音频帧的梅尔频率倒谱系数时，客户端可以通过如下方式，计算该待处理音频中的各音频帧的梅尔频率倒谱系数。

客户端可以对待处理音频进行预加重处理，以增加待处理音频中的高频语音的频率，得到预加重后的待处理音频。客户端可以基于预设的窗口函数(例如，矩形窗函数、汉宁窗函数等)，对预加重后的待处理音频进行分帧处理，得到待处理音频中的各音频帧。

然后，针对每一音频帧，客户端可以对该音频帧进行FFT(Fast FourierTransform，快速傅里叶变换)处理，得到该音频帧对应的频域信号。进而，基于该音频帧对应的频域信号，计算该音频帧的功率谱，并基于Mel(梅尔)频率滤波器对该音频帧的功率谱进行滤波，得到该音频帧的Mel频谱。

进而，客户端可以对该音频帧对应的Mel频谱进行取对数处理，并对该帧音频帧的Mel频谱的对数进行DCT(Discrete Cosine Transform，离散余弦变换)处理，得到该音频帧的梅尔频率倒谱系数。

一种实现方式中，客户端本地可以预先存储多个待匹配声纹模型，各待匹配声纹模型为预先基于目标视频中的多个目标人物的样本音频生成的。一个目标人物对应一个待匹配声纹模型，且对应的待匹配声纹模型为基于该目标人物的样本音频进行训练得到的。

在本发明的一个实施例中，参见图2，图2为本发明实施例中提供的一种训练声纹模型的方法的流程图，该方法可以包括以下步骤：

S201：获取预设样本音频的声纹特征。

S202：基于期望最大化算法和预设样本音频的声纹特征，对初始结构的高斯混合模型进行训练，得到备选网络模型。

S203：针对每一目标人物，基于自适应算法和该目标人物的样本音频的声纹特征，调整备选网络模型的模型参数，得到该目标人物对应的待匹配声纹模型。

自适应算法可以为MAP(Maximum A Posteriori，最大后验概率)算法，或者自适应算法也可以为MLLR(Maximum likelihood linearregression，最大线性似然回归)算法，但并不限于此。初始结构的高斯混合模型可以为UBM(Universal Background Model，通用背景模型)。

一种实现方式中，客户端可以获取多个预设样本音频，并提取每一预设样本音频的声纹特征。客户端可以基于EM(Expectation Maximization Algorithm，期望最大化算法)和各预设样本音频的声纹特征，对初始结构的高斯混合模型的模型参数(例如，权重参数、均值参数和方差参数)进行调整，直至基于调整后的模型参数，计算得到的每一预设样本音频的声纹特征针对初始结构的高斯混合模型的对数似然概率为最大值，表明初始结构的高斯混合模型达到收敛状态，得到备选网络模型。

然后，针对每一目标人物，客户端可以获取该目标人物的样本音频，并提取该目标人物的样本音频的声纹特征。然后，客户端可以基于自适应算法和该目标人物的样本音频的声纹特征，调整备选网络模型的模型参数(即权重参数、均值参数和方差参数)，直至基于调整后的模型参数，计算得到的目标人物的每一样本音频的声纹特征针对备选网络模型的对数似然概率为最大值，表明备选网络模型达到收敛状态，得到该目标人物对应的训练好的GMM(Gaussian Mixture Model，高斯混合模型)，作为该目标人物对应的待匹配声纹模型。

然后，针对每一待处理音频，客户端可以基于该待处理音频的声纹特征，从各待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型(即目标声纹模型)，也就是从各待匹配声纹模型中，确定出基于该待处理音频所属的人物的样本音频训练得到的待匹配声纹模型。

在本发明的一个实施例中，在图1的基础上，参见图3，步骤S102可以包括以下步骤：

S1021：针对每一待处理音频，分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的相似度。

S1022：从各待匹配声纹模型中，确定与该待处理音频的相似度最大的声纹模型，得到与该待处理音频相匹配的声纹模型，作为目标声纹模型。

一种实现方式中，针对每一待处理音频，客户端确定包含该待处理音频的声纹特征的特征矩阵。针对每一待匹配声纹模型，客户端可以确定该待匹配声纹模型的特征矩阵。进而，客户端可以计算该待处理音频对应的特征矩阵与该待匹配声纹模型的特征矩阵的相似度，作为该待处理音频与该待匹配声纹模型的相似度。

另一种实现方式中，步骤S1021可以包括以下步骤：针对每一待处理音频，分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的对数似然概率，作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。

一个待处理音频与一个待匹配声纹模型的相似度越大，表明该待匹配声纹模型为基于该待处理音频所属的人物的样本音频训练得到的概率越高。

因此，针对每一待处理音频，客户端可以从各待匹配声纹模型中，确定与该待处理音频的相似度最大的声纹模型，得到与该待处理音频相匹配的目标声纹模型。

针对步骤S103和步骤S104，针对每一待处理音频，客户端可以确定该待处理音频在目标视频中所属的目标人物，为训练目标声纹模型所采用的样本音频所属的目标人物。进而，客户端在播放目标视频的过程中，可以播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频，也就是客户端可以播放除用户指示的待屏蔽人物对应的待处理音频以外的其他待处理音频。

一种实现方式中，音频屏蔽指令中可以携带有待屏蔽人物的人物标识，客户端接收到音频屏蔽指令时，可以从目标视频中的多个目标人物中，确定出待屏蔽人物。进而，客户端可以确定待屏蔽人物对应的待处理音频，客户端在播放目标视频时，可以屏蔽待屏蔽人物的声音，也就是客户端可以播放除待屏蔽人物对应的待处理音频以外的其他待处理音频。

另一种实现方式中，在图1的基础上，参见图4，在步骤S104之前，该方法还可以包括以下步骤：

S105：在客户端的显示界面中显示目标视频中的多个目标人物各自的人物标识。

S106：当接收到用户输入的人物选择指令时，确定人物选择指令所指示的人物标识在目标视频中所属的目标人物，作为用户指示的待屏蔽人物。

一个人物的人物标识可以为该人物的名称，或者也可以为该人物的图像，但并不限于此。

在确定每一待处理音频在目标视频中所属的目标人物之后，可以在客户端的显示界面中显示目标视频中的多个目标人物各自的人物标识。用户可以从客户端显示的多个人物标识中，选择需要屏蔽声音的目标人物的人物标识，以向客户端输入人物选择指令。

相应的，客户端接收到人物选择指令时，可以确定人物选择指令所指示的人物标识所属的目标人物为待屏蔽人物。进而，客户端在播放目标视频时，可以屏蔽待屏蔽人物的声音，也就是客户端可以播放除待屏蔽人物对应的待处理音频以外的其他待处理音频。

在本发明的一个实施例中，目标音频可以为从原始音频中分离出的人声音频，原始音频中还包含伴奏音频。在显示人物标识时，客户端还可以显示伴奏音频的标识。进而，用户还可以选择屏蔽伴奏声音。相应的，客户端可以直接播放目标音频，即客户端可以屏蔽伴奏声音。另外，用户还可以选择屏蔽所有目标人物的声音。相应的，客户端可以直接播放从原始音频中分离出的伴奏音频。

在本发明的一个实施例中，目标视频可以为解说视频，例如，影视剧解说视频，科普解说视频等。客户端在播放解说视频时，可以同时播放解说视频对应的音频文件。解说视频对应的音频文件中包含解说音频和伴奏音频。解说音频也就是解说视频中的解说人物的音频。解说视频中的解说人物可以为一个，或者解说视频中的解说人物也可以为多个。

用户在观看解说视频的过程，如果用户不喜欢解说视频中解说人物的声音，用户可以向客户端输入针对解说视频的音频屏蔽指令。相应的，客户端在接收到音频屏蔽指令时，可以对解说视频对应的音频文件进行分离处理，得到解说音频和伴奏音频。

在解说视频中包含一个解说人物时，客户端可以直接屏蔽解说音频，也就是客户端在播放解说视频的过程中，可以仅播放伴奏音频。

在解说视频中包含多个解说人物时，客户端可以对解说音频进行分离处理，得到多个待处理音频，一个待处理音频为解说视频中的同一个解说人物的音频。针对每一待处理音频，客户端可以基于该待处理音频的声纹特征，从预先基于多个解说人物的样本音频生成的，每一解说人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型，作为目标声纹模型。

然后，客户端可以确定该待处理音频在解说视频中所属的解说人物，为训练目标声纹模型所采用的样本音频所属的解说人物，并在客户端的显示界面中显示多个解说人物各自的人物标识。

用户可以从客户端显示各人物标识中选择需要屏蔽声音的解说人物的标识，以向客户端输入人物选择指令。相应的，客户端接收到人物选择指令时，可以确定用户选择的人物标识所属的解说人物为待屏蔽人物。

进而，客户端可以在播放解说视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频，也就是客户端可以仅播放除待屏蔽人物对应的待处理音频后的其他待处理音频。

在本发明的一个实施例中，用户在选择客户端显示的人物标识时，由于误操作可能会选择错误的人物标识。为了避免由于用户误操作导致屏蔽错误的声音，当接收到用户输入的人物选择指令时，客户端可以播放用户选择的人物标识所属的目标人物的待处理音频，并显示提醒消息，以提醒用户是否确认屏蔽所选择的人物标识所属的目标人物的声音。

如果需要屏蔽所选择的人物标识所属的目标人物的声音，用户可以向客户端输入确认屏蔽指令。相应的，当接收到用户输入的确认屏蔽指令时，客户端可以确定用户选择的人物标识所属的目标人物为待屏蔽人物，并播放除待屏蔽人物的待处理音频以外的其他待处理音频。

如果用户选择了错误的人物标识，即不需要屏蔽所选择的人物标识所属的目标人物的声音，用户可以向客户端输入取消屏蔽指令。相应的，当接收到用户输入的取消屏蔽指令时，客户端可以播放目标音频。

基于上述处理，可以避免由于用户误操作导致屏蔽错误的声音，可以提高用户体验。

与图1的方法实施例相对应，参见图5，图5为本发明实施例中提供的一种视频中的音频处理装置的结构图，所述装置应用于客户端，所述装置包括：

分离模块501，用于在播放目标视频的过程中，当接收到针对所述目标视频的音频屏蔽指令时，对包含所述目标视频中的多个目标人物的声音的目标音频进行分离处理，得到所述目标音频中包含的各待处理音频；其中，一个待处理音频表示所述目标视频中的同一个目标人物发出的声音；

第一确定模块502，用于针对每一待处理音频，基于该待处理音频的声纹特征，从预先基于所述多个目标人物的样本音频生成的，每一目标人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型，作为目标声纹模型；

第二确定模块503，用于确定该待处理音频在所述目标视频中所属的目标人物，为训练所述目标声纹模型所采用的样本音频所属的目标人物；

播放模块504，用于在播放所述目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。

可选的，所述第一确定模块502，具体用于针对每一待处理音频，分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的相似度；

可选的，所述第一确定模块502，具体用于针对每一待处理音频，分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的对数似然概率，作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。

可选的，所述装置还包括：

训练模块，用于获取预设样本音频的声纹特征；

可选的，所述装置还包括：

处理模块，用于在所述播放模块504执行在播放所述目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频之前，执行在所述客户端的显示界面中显示所述目标视频中的多个目标人物各自的人物标识；

基于本发明实施例提供的视频中的音频处理装置，可以根据用户的指示，播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频，即，可以屏蔽用户指示的特定人物的声音，满足用户的个性化需求。

本发明实施例还提供了一种客户端，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

上述客户端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述客户端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于本发明实施例提供的客户端，可以根据用户的指示，播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频，即，可以屏蔽用户指示的特定人物的声音，满足用户的个性化需求。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的视频中的音频处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频中的音频处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、客户端、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频中的音频处理方法，其特征在于，所述方法应用于客户端，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，一个待处理音频的声纹特征包含该待处理音频中的各音频帧的频谱特征。

3.根据权利要求1所述的方法，其特征在于，所述针对每一待处理音频，基于该待处理音频的声纹特征，从预先基于所述多个目标人物的样本音频生成的，每一目标人物对应的待匹配声纹模型中，确定与该待处理音频相匹配的声纹模型，作为目标声纹模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述针对每一待处理音频，分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的，该目标人物对应的待匹配声纹模型的相似度，包括：

5.根据权利要求1所述的方法，其特征在于，每一目标人物对应的待匹配声纹模型的训练步骤包括：

获取预设样本音频的声纹特征；

6.根据权利要求1所述的方法，其特征在于，在播放所述目标视频的过程中，对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频之前，所述方法还包括：

7.一种视频中的音频处理装置，其特征在于，所述装置应用于客户端，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，一个待处理音频的声纹特征包含该待处理音频中的各音频帧的频谱特征。

9.一种客户端，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。