CN113707183A - 一种视频中的音频处理方法及装置 - Google Patents

一种视频中的音频处理方法及装置 Download PDF

Info

Publication number
CN113707183A
CN113707183A CN202111028111.XA CN202111028111A CN113707183A CN 113707183 A CN113707183 A CN 113707183A CN 202111028111 A CN202111028111 A CN 202111028111A CN 113707183 A CN113707183 A CN 113707183A
Authority
CN
China
Prior art keywords
audio
target
processed
voiceprint
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111028111.XA
Other languages
English (en)
Other versions
CN113707183B (zh
Inventor
李斌超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202111028111.XA priority Critical patent/CN113707183B/zh
Publication of CN113707183A publication Critical patent/CN113707183A/zh
Application granted granted Critical
Publication of CN113707183B publication Critical patent/CN113707183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例提供了一种视频中的音频处理方法及装置,在播放目标视频的过程中,当接收到音频屏蔽指令时,对包含目标视频中的多个目标人物的声音的目标音频进行分离处理,得到多个目标人物的各待处理音频;基于每一待处理音频的声纹特征,从预先基于多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的目标声纹模型;确定该待处理音频在目标视频中所属的目标人物为训练目标声纹模型所采用的样本音频所属的目标人物;在播放目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。基于上述处理,可以屏蔽用户指示的特定人物的声音,满足用户的个性化需求。

Description

一种视频中的音频处理方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种视频中的音频处理方法及装置。
背景技术
随着计算机技术的发展,客户端为用户提供的功能也越来越多,例如,用户可以通过客户端观看视频。客户端在播放目标视频时,可以同步播放目标视频对应的目标音频,例如,目标视频为电视剧时,客户端可以同步播放该电视剧中的人物对话的音频。
然而,如果用户不喜欢目标视频中的某一人物的声音,用户只能降低目标音频整体的音量,即,相关技术中,无法实现屏蔽特定人物的声音。
发明内容
本发明实施例的目的在于提供一种视频中的音频处理方法及装置,以实现屏蔽用户指示的特定人物的声音,满足用户的个性化需求。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种视频中的音频处理方法,所述方法应用于客户端,所述方法包括:
在播放目标视频的过程中,当接收到针对所述目标视频的音频屏蔽指令时,对包含所述目标视频中的多个目标人物的声音的目标音频进行分离处理,得到所述目标音频中包含的各待处理音频;其中,一个待处理音频表示所述目标视频中的同一个目标人物发出的声音;
针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于所述多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型;
确定该待处理音频在所述目标视频中所属的目标人物,为训练所述目标声纹模型所采用的样本音频所属的目标人物;
在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。
可选的,一个待处理音频的声纹特征包含该待处理音频中的各音频帧的频谱特征。
可选的,所述针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于所述多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型,包括:
针对每一待处理音频,分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的相似度;
从各待匹配声纹模型中,确定与该待处理音频的相似度最大的声纹模型,得到与该待处理音频相匹配的声纹模型,作为目标声纹模型。
可选的,所述针对每一待处理音频,分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的相似度,包括:
针对每一待处理音频,分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的对数似然概率,作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。
可选的,每一目标人物对应的待匹配声纹模型的训练步骤包括:
获取预设样本音频的声纹特征;
基于期望最大化算法和所述预设样本音频的声纹特征,对初始结构的高斯混合模型进行训练,得到备选网络模型;
针对每一目标人物,基于自适应算法和该目标人物的样本音频的声纹特征,调整所述备选网络模型的模型参数,得到该目标人物对应的待匹配声纹模型。
可选的,在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频之前,所述方法还包括:
在所述客户端的显示界面中显示所述目标视频中的多个目标人物各自的人物标识;
当接收到用户输入的人物选择指令时,确定所述人物选择指令所指示的人物标识在所述目标视频中所属的目标人物,作为用户指示的待屏蔽人物。
在本发明实施的第二方面,还提供了一种视频中的音频处理装置,所述装置应用于客户端,所述装置包括:
分离模块,用于在播放目标视频的过程中,当接收到针对所述目标视频的音频屏蔽指令时,对包含所述目标视频的多个目标人物的声音的目标音频进行分离处理,得到所述目标音频中包含的各待处理音频;其中,一个待处理音频表示所述目标视频中的同一个目标人物发出的声音;
第一确定模块,用于针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于所述多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型;
第二确定模块,用于确定该待处理音频在所述目标视频中所属的目标人物,为训练所述目标声纹模型所采用的样本音频所属的目标人物;
播放模块,用于在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。
可选的,一个待处理音频的声纹特征包含该待处理音频中的各音频帧的频谱特征。
可选的,所述第一确定模块,具体用于针对每一待处理音频,分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的相似度;
从各待匹配声纹模型中,确定与该待处理音频的相似度最大的声纹模型,得到与该待处理音频相匹配的声纹模型,作为目标声纹模型。
可选的,所述第一确定模块,具体用于针对每一待处理音频,分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的对数似然概率,作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。
可选的,所述装置还包括:
训练模块,用于获取预设样本音频的声纹特征;
基于期望最大化算法和所述预设样本音频的声纹特征,对初始结构的高斯混合模型进行训练,得到备选网络模型;
针对每一目标人物,基于自适应算法和该目标人物的样本音频的声纹特征,调整所述备选网络模型的模型参数,得到该目标人物对应的待匹配声纹模型。
可选的,所述装置还包括:
处理模块,用于在所述播放模块执行在播放所述目标视频的过程中,对应播放播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频之前,执行在所述客户端的显示界面中显示所述目标视频中的多个目标人物各自的人物标识;
当接收到用户输入的人物选择指令时,确定所述人物选择指令所指示的人物标识在所述目标视频中所属的目标人物,作为用户指示的待屏蔽人物。
在本发明实施的又一方面,还提供了一种客户端,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的视频中的音频处理方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的视频中的音频处理方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的视频中的音频处理方法。
本发明实施例提供的一种视频中的音频处理方法,在播放目标视频的过程中,当接收到针对目标视频的音频屏蔽指令时,对包含目标视频中的多个目标人物的声音的目标音频进行分离处理,得到目标音频中包含的各待处理音频;一个待处理音频表示目标视频中的同一个目标人物发出的声音;针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型;确定该待处理音频在目标视频中所属的目标人物,为训练目标声纹模型所采用的样本音频所属的目标人物;在播放目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。
基于上述处理,可以根据用户的指示,播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频,即,可以屏蔽用户指示的特定人物的声音,满足用户的个性化需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中提供的一种视频中的音频处理方法的流程图;
图2为本发明实施例中提供的一种训练声纹模型的方法的流程图;
图3为本发明实施例中提供的另一种视频中的音频处理方法的流程图;
图4为本发明实施例中提供的另一种视频中的音频处理方法的流程图;
图5为本发明实施例中提供的一种视频中的音频处理装置的结构图;
图6为本发明实施例中提供的一种客户端的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
现有技术中,如果用户不喜欢目标视频中的某一人物的声音,用户只能降低目标音频整体的音量,即,现有技术中,无法实现屏蔽特定人物的声音。
为了解决上述问题,参见图1,图1为本发明实施例中提供的一种视频中的音频处理方法的流程图,该方法可以应用于客户端,该方法可以包括以下步骤:
S101:在播放目标视频的过程中,当接收到针对目标视频的音频屏蔽指令时,对包含目标视频中的多个目标人物的声音的目标音频进行分离处理,得到目标音频中包含的各待处理音频。
其中,一个待处理音频表示目标视频中的同一个目标人物发出的声音。
S102:针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型。
S103:确定该待处理音频在目标视频中所属的目标人物,为训练目标声纹模型所采用的样本音频所属的目标人物。
S104:在播放目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。
基于本发明实施例提供的视频中的音频处理方法,可以根据用户的指示,播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频,即,可以屏蔽用户指示的特定人物的声音,满足用户的个性化需求,提高用户体验。
针对步骤S101,在播放目标视频的过程中,客户端可以同步播放目标视频对应的音频文件,如果用户不喜欢目标视频中的某一目标人物的声音,用户可以向客户端输入针对目标视频的音频屏蔽指令,以屏蔽该目标人物的声音。
相应的,客户端接收到音频屏蔽指令时,可以从目标视频对应的音频文件中确定出目标音频。例如,客户端可以确定目标视频对应的音频文件为目标音频;或者,客户端可以确定目标视频对应的音频文件中,未播放的部分为目标音频。
进而,客户端可以对目标音频进行分离处理,以从目标音频中分离出目标视频中的每一目标人物的音频部分(即本发明实施例中的待处理音频)。
一种实现方式中,客户端可以基于MDL(Minimum Description Length,最小描述长度)算法,确定目标视频中的目标人物的数目(可以称为目标数目)。然后,客户端可以基于FastICA(Fast Independent Compondent Analysis,快速独立成分分析)算法和目标数目,对目标音频进行分离处理,得到目标数目个待处理音频。
可以理解的是,分离得到的各待处理音频为目标视频中的各目标人物的音频,并且每一待处理音频表示目标视频中的同一个目标人物发出的声音。
可以理解的是,当前只是从目标音频中分离出多个目标人物的待处理音频,但是并未确定出各目标人物与各待处理音频之间的对应关系,也就是未确定出每一目标人物的音频是哪一个待处理音频。例如,目标音频对应的3个目标人物分别为:人物A,人物B和人物C。对目标音频进行分离处理得到:待处理音频1,待处理音频2和待处理音频3。该3个待处理音频为该3个人物的音频,但是并未确定出该3个人物与该3个待处理音频之间的对应关系,也就是并未确定出人物A的音频为待处理音频1,还是待处理音频2,还是待处理音频3,同理,也未确定出人物B和人物C的音频是哪一个待处理音频。
针对步骤S102,一个待处理音频的声纹特征可以包括该待处理音频中的各音频帧的频谱特征。一个音频帧的频谱特征可以为该音频帧的MFCC(Mel-Frequency CepstralCoefficients,梅尔频率倒谱系数),或者该音频帧的LPCC(Linear Predictive CestrumCoeffcient,线性预测倒谱系数),或者该音频帧的PLP(Perceptual Linear Prediction,感知线性预测)特征,但并不限于此。
一种实现方式中,当每一待处理音频的声纹特征包括该待处理音频中的各音频帧的梅尔频率倒谱系数时,客户端可以通过如下方式,计算该待处理音频中的各音频帧的梅尔频率倒谱系数。
客户端可以对待处理音频进行预加重处理,以增加待处理音频中的高频语音的频率,得到预加重后的待处理音频。客户端可以基于预设的窗口函数(例如,矩形窗函数、汉宁窗函数等),对预加重后的待处理音频进行分帧处理,得到待处理音频中的各音频帧。
然后,针对每一音频帧,客户端可以对该音频帧进行FFT(Fast FourierTransform,快速傅里叶变换)处理,得到该音频帧对应的频域信号。进而,基于该音频帧对应的频域信号,计算该音频帧的功率谱,并基于Mel(梅尔)频率滤波器对该音频帧的功率谱进行滤波,得到该音频帧的Mel频谱。
进而,客户端可以对该音频帧对应的Mel频谱进行取对数处理,并对该帧音频帧的Mel频谱的对数进行DCT(Discrete Cosine Transform,离散余弦变换)处理,得到该音频帧的梅尔频率倒谱系数。
一种实现方式中,客户端本地可以预先存储多个待匹配声纹模型,各待匹配声纹模型为预先基于目标视频中的多个目标人物的样本音频生成的。一个目标人物对应一个待匹配声纹模型,且对应的待匹配声纹模型为基于该目标人物的样本音频进行训练得到的。
在本发明的一个实施例中,参见图2,图2为本发明实施例中提供的一种训练声纹模型的方法的流程图,该方法可以包括以下步骤:
S201:获取预设样本音频的声纹特征。
S202:基于期望最大化算法和预设样本音频的声纹特征,对初始结构的高斯混合模型进行训练,得到备选网络模型。
S203:针对每一目标人物,基于自适应算法和该目标人物的样本音频的声纹特征,调整备选网络模型的模型参数,得到该目标人物对应的待匹配声纹模型。
自适应算法可以为MAP(Maximum A Posteriori,最大后验概率)算法,或者自适应算法也可以为MLLR(Maximum likelihood linearregression,最大线性似然回归)算法,但并不限于此。初始结构的高斯混合模型可以为UBM(Universal Background Model,通用背景模型)。
一种实现方式中,客户端可以获取多个预设样本音频,并提取每一预设样本音频的声纹特征。客户端可以基于EM(Expectation Maximization Algorithm,期望最大化算法)和各预设样本音频的声纹特征,对初始结构的高斯混合模型的模型参数(例如,权重参数、均值参数和方差参数)进行调整,直至基于调整后的模型参数,计算得到的每一预设样本音频的声纹特征针对初始结构的高斯混合模型的对数似然概率为最大值,表明初始结构的高斯混合模型达到收敛状态,得到备选网络模型。
然后,针对每一目标人物,客户端可以获取该目标人物的样本音频,并提取该目标人物的样本音频的声纹特征。然后,客户端可以基于自适应算法和该目标人物的样本音频的声纹特征,调整备选网络模型的模型参数(即权重参数、均值参数和方差参数),直至基于调整后的模型参数,计算得到的目标人物的每一样本音频的声纹特征针对备选网络模型的对数似然概率为最大值,表明备选网络模型达到收敛状态,得到该目标人物对应的训练好的GMM(Gaussian Mixture Model,高斯混合模型),作为该目标人物对应的待匹配声纹模型。
然后,针对每一待处理音频,客户端可以基于该待处理音频的声纹特征,从各待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型(即目标声纹模型),也就是从各待匹配声纹模型中,确定出基于该待处理音频所属的人物的样本音频训练得到的待匹配声纹模型。
在本发明的一个实施例中,在图1的基础上,参见图3,步骤S102可以包括以下步骤:
S1021:针对每一待处理音频,分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的相似度。
S1022:从各待匹配声纹模型中,确定与该待处理音频的相似度最大的声纹模型,得到与该待处理音频相匹配的声纹模型,作为目标声纹模型。
一种实现方式中,针对每一待处理音频,客户端确定包含该待处理音频的声纹特征的特征矩阵。针对每一待匹配声纹模型,客户端可以确定该待匹配声纹模型的特征矩阵。进而,客户端可以计算该待处理音频对应的特征矩阵与该待匹配声纹模型的特征矩阵的相似度,作为该待处理音频与该待匹配声纹模型的相似度。
另一种实现方式中,步骤S1021可以包括以下步骤:针对每一待处理音频,分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的对数似然概率,作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。
一个待处理音频与一个待匹配声纹模型的相似度越大,表明该待匹配声纹模型为基于该待处理音频所属的人物的样本音频训练得到的概率越高。
因此,针对每一待处理音频,客户端可以从各待匹配声纹模型中,确定与该待处理音频的相似度最大的声纹模型,得到与该待处理音频相匹配的目标声纹模型。
针对步骤S103和步骤S104,针对每一待处理音频,客户端可以确定该待处理音频在目标视频中所属的目标人物,为训练目标声纹模型所采用的样本音频所属的目标人物。进而,客户端在播放目标视频的过程中,可以播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频,也就是客户端可以播放除用户指示的待屏蔽人物对应的待处理音频以外的其他待处理音频。
一种实现方式中,音频屏蔽指令中可以携带有待屏蔽人物的人物标识,客户端接收到音频屏蔽指令时,可以从目标视频中的多个目标人物中,确定出待屏蔽人物。进而,客户端可以确定待屏蔽人物对应的待处理音频,客户端在播放目标视频时,可以屏蔽待屏蔽人物的声音,也就是客户端可以播放除待屏蔽人物对应的待处理音频以外的其他待处理音频。
另一种实现方式中,在图1的基础上,参见图4,在步骤S104之前,该方法还可以包括以下步骤:
S105:在客户端的显示界面中显示目标视频中的多个目标人物各自的人物标识。
S106:当接收到用户输入的人物选择指令时,确定人物选择指令所指示的人物标识在目标视频中所属的目标人物,作为用户指示的待屏蔽人物。
一个人物的人物标识可以为该人物的名称,或者也可以为该人物的图像,但并不限于此。
在确定每一待处理音频在目标视频中所属的目标人物之后,可以在客户端的显示界面中显示目标视频中的多个目标人物各自的人物标识。用户可以从客户端显示的多个人物标识中,选择需要屏蔽声音的目标人物的人物标识,以向客户端输入人物选择指令。
相应的,客户端接收到人物选择指令时,可以确定人物选择指令所指示的人物标识所属的目标人物为待屏蔽人物。进而,客户端在播放目标视频时,可以屏蔽待屏蔽人物的声音,也就是客户端可以播放除待屏蔽人物对应的待处理音频以外的其他待处理音频。
在本发明的一个实施例中,目标音频可以为从原始音频中分离出的人声音频,原始音频中还包含伴奏音频。在显示人物标识时,客户端还可以显示伴奏音频的标识。进而,用户还可以选择屏蔽伴奏声音。相应的,客户端可以直接播放目标音频,即客户端可以屏蔽伴奏声音。另外,用户还可以选择屏蔽所有目标人物的声音。相应的,客户端可以直接播放从原始音频中分离出的伴奏音频。
在本发明的一个实施例中,目标视频可以为解说视频,例如,影视剧解说视频,科普解说视频等。客户端在播放解说视频时,可以同时播放解说视频对应的音频文件。解说视频对应的音频文件中包含解说音频和伴奏音频。解说音频也就是解说视频中的解说人物的音频。解说视频中的解说人物可以为一个,或者解说视频中的解说人物也可以为多个。
用户在观看解说视频的过程,如果用户不喜欢解说视频中解说人物的声音,用户可以向客户端输入针对解说视频的音频屏蔽指令。相应的,客户端在接收到音频屏蔽指令时,可以对解说视频对应的音频文件进行分离处理,得到解说音频和伴奏音频。
在解说视频中包含一个解说人物时,客户端可以直接屏蔽解说音频,也就是客户端在播放解说视频的过程中,可以仅播放伴奏音频。
在解说视频中包含多个解说人物时,客户端可以对解说音频进行分离处理,得到多个待处理音频,一个待处理音频为解说视频中的同一个解说人物的音频。针对每一待处理音频,客户端可以基于该待处理音频的声纹特征,从预先基于多个解说人物的样本音频生成的,每一解说人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型。
然后,客户端可以确定该待处理音频在解说视频中所属的解说人物,为训练目标声纹模型所采用的样本音频所属的解说人物,并在客户端的显示界面中显示多个解说人物各自的人物标识。
用户可以从客户端显示各人物标识中选择需要屏蔽声音的解说人物的标识,以向客户端输入人物选择指令。相应的,客户端接收到人物选择指令时,可以确定用户选择的人物标识所属的解说人物为待屏蔽人物。
进而,客户端可以在播放解说视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频,也就是客户端可以仅播放除待屏蔽人物对应的待处理音频后的其他待处理音频。
在本发明的一个实施例中,用户在选择客户端显示的人物标识时,由于误操作可能会选择错误的人物标识。为了避免由于用户误操作导致屏蔽错误的声音,当接收到用户输入的人物选择指令时,客户端可以播放用户选择的人物标识所属的目标人物的待处理音频,并显示提醒消息,以提醒用户是否确认屏蔽所选择的人物标识所属的目标人物的声音。
如果需要屏蔽所选择的人物标识所属的目标人物的声音,用户可以向客户端输入确认屏蔽指令。相应的,当接收到用户输入的确认屏蔽指令时,客户端可以确定用户选择的人物标识所属的目标人物为待屏蔽人物,并播放除待屏蔽人物的待处理音频以外的其他待处理音频。
如果用户选择了错误的人物标识,即不需要屏蔽所选择的人物标识所属的目标人物的声音,用户可以向客户端输入取消屏蔽指令。相应的,当接收到用户输入的取消屏蔽指令时,客户端可以播放目标音频。
基于上述处理,可以避免由于用户误操作导致屏蔽错误的声音,可以提高用户体验。
与图1的方法实施例相对应,参见图5,图5为本发明实施例中提供的一种视频中的音频处理装置的结构图,所述装置应用于客户端,所述装置包括:
分离模块501,用于在播放目标视频的过程中,当接收到针对所述目标视频的音频屏蔽指令时,对包含所述目标视频中的多个目标人物的声音的目标音频进行分离处理,得到所述目标音频中包含的各待处理音频;其中,一个待处理音频表示所述目标视频中的同一个目标人物发出的声音;
第一确定模块502,用于针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于所述多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型;
第二确定模块503,用于确定该待处理音频在所述目标视频中所属的目标人物,为训练所述目标声纹模型所采用的样本音频所属的目标人物;
播放模块504,用于在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。
可选的,一个待处理音频的声纹特征包含该待处理音频中的各音频帧的频谱特征。
可选的,所述第一确定模块502,具体用于针对每一待处理音频,分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的相似度;
从各待匹配声纹模型中,确定与该待处理音频的相似度最大的声纹模型,得到与该待处理音频相匹配的声纹模型,作为目标声纹模型。
可选的,所述第一确定模块502,具体用于针对每一待处理音频,分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的对数似然概率,作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。
可选的,所述装置还包括:
训练模块,用于获取预设样本音频的声纹特征;
基于期望最大化算法和所述预设样本音频的声纹特征,对初始结构的高斯混合模型进行训练,得到备选网络模型;
针对每一目标人物,基于自适应算法和该目标人物的样本音频的声纹特征,调整所述备选网络模型的模型参数,得到该目标人物对应的待匹配声纹模型。
可选的,所述装置还包括:
处理模块,用于在所述播放模块504执行在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频之前,执行在所述客户端的显示界面中显示所述目标视频中的多个目标人物各自的人物标识;
当接收到用户输入的人物选择指令时,确定所述人物选择指令所指示的人物标识在所述目标视频中所属的目标人物,作为用户指示的待屏蔽人物。
基于本发明实施例提供的视频中的音频处理装置,可以根据用户的指示,播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频,即,可以屏蔽用户指示的特定人物的声音,满足用户的个性化需求。
本发明实施例还提供了一种客户端,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
在播放目标视频的过程中,当接收到针对所述目标视频的音频屏蔽指令时,对包含所述目标视频中的多个目标人物的声音的目标音频进行分离处理,得到所述目标音频中包含的各待处理音频;其中,一个待处理音频表示所述目标视频中的同一个目标人物发出的声音;
针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于所述多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型;
确定该待处理音频在所述目标视频中所属的目标人物,为训练所述目标声纹模型所采用的样本音频所属的目标人物;
在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。
上述客户端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述客户端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于本发明实施例提供的客户端,可以根据用户的指示,播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频,即,可以屏蔽用户指示的特定人物的声音,满足用户的个性化需求。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的视频中的音频处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的视频中的音频处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、客户端、计算机可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种视频中的音频处理方法,其特征在于,所述方法应用于客户端,所述方法包括:
在播放目标视频的过程中,当接收到针对所述目标视频的音频屏蔽指令时,对包含所述目标视频中的多个目标人物的声音的目标音频进行分离处理,得到所述目标音频中包含的各待处理音频;其中,一个待处理音频表示所述目标视频中的同一个目标人物发出的声音;
针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于所述多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型;
确定该待处理音频在所述目标视频中所属的目标人物,为训练所述目标声纹模型所采用的样本音频所属的目标人物;
在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。
2.根据权利要求1所述的方法,其特征在于,一个待处理音频的声纹特征包含该待处理音频中的各音频帧的频谱特征。
3.根据权利要求1所述的方法,其特征在于,所述针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于所述多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型,包括:
针对每一待处理音频,分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的相似度;
从各待匹配声纹模型中,确定与该待处理音频的相似度最大的声纹模型,得到与该待处理音频相匹配的声纹模型,作为目标声纹模型。
4.根据权利要求3所述的方法,其特征在于,所述针对每一待处理音频,分别计算该待处理音频的声纹特征与预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的相似度,包括:
针对每一待处理音频,分别计算该待处理音频的声纹特征针对预先基于每一目标人物的样本音频生成的,该目标人物对应的待匹配声纹模型的对数似然概率,作为该待处理音频的声纹特征与该待匹配声纹模型的相似度。
5.根据权利要求1所述的方法,其特征在于,每一目标人物对应的待匹配声纹模型的训练步骤包括:
获取预设样本音频的声纹特征;
基于期望最大化算法和所述预设样本音频的声纹特征,对初始结构的高斯混合模型进行训练,得到备选网络模型;
针对每一目标人物,基于自适应算法和该目标人物的样本音频的声纹特征,调整所述备选网络模型的模型参数,得到该目标人物对应的待匹配声纹模型。
6.根据权利要求1所述的方法,其特征在于,在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频之前,所述方法还包括:
在所述客户端的显示界面中显示所述目标视频中的多个目标人物各自的人物标识;
当接收到用户输入的人物选择指令时,确定所述人物选择指令所指示的人物标识在所述目标视频中所属的目标人物,作为用户指示的待屏蔽人物。
7.一种视频中的音频处理装置,其特征在于,所述装置应用于客户端,所述装置包括:
分离模块,用于在播放目标视频的过程中,当接收到针对所述目标视频的音频屏蔽指令时,对包含所述目标视频的多个目标人物的声音的目标音频进行分离处理,得到所述目标音频中包含的各待处理音频;其中,一个待处理音频表示所述目标视频中的同一个目标人物发出的声音;
第一确定模块,用于针对每一待处理音频,基于该待处理音频的声纹特征,从预先基于所述多个目标人物的样本音频生成的,每一目标人物对应的待匹配声纹模型中,确定与该待处理音频相匹配的声纹模型,作为目标声纹模型;
第二确定模块,用于确定该待处理音频在所述目标视频中所属的目标人物,为训练所述目标声纹模型所采用的样本音频所属的目标人物;
播放模块,用于在播放所述目标视频的过程中,对应播放屏蔽用户指示的待屏蔽人物对应的待处理音频后的其他待处理音频。
8.根据权利要求7所述的装置,其特征在于,一个待处理音频的声纹特征包含该待处理音频中的各音频帧的频谱特征。
9.一种客户端,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202111028111.XA 2021-09-02 2021-09-02 一种视频中的音频处理方法及装置 Active CN113707183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111028111.XA CN113707183B (zh) 2021-09-02 2021-09-02 一种视频中的音频处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111028111.XA CN113707183B (zh) 2021-09-02 2021-09-02 一种视频中的音频处理方法及装置

Publications (2)

Publication Number Publication Date
CN113707183A true CN113707183A (zh) 2021-11-26
CN113707183B CN113707183B (zh) 2024-04-19

Family

ID=78657654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111028111.XA Active CN113707183B (zh) 2021-09-02 2021-09-02 一种视频中的音频处理方法及装置

Country Status (1)

Country Link
CN (1) CN113707183B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120950A (zh) * 2022-01-27 2022-03-01 荣耀终端有限公司 一种人声屏蔽方法和电子设备
CN114630179A (zh) * 2022-03-17 2022-06-14 维沃移动通信有限公司 音频提取方法和电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100086108A1 (en) * 2008-10-06 2010-04-08 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
US20140348308A1 (en) * 2013-05-22 2014-11-27 Nuance Communications, Inc. Method And System For Speaker Verification
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
CN110310657A (zh) * 2019-07-10 2019-10-08 北京猎户星空科技有限公司 一种音频数据处理方法及装置
CN110990685A (zh) * 2019-10-12 2020-04-10 中国平安财产保险股份有限公司 基于声纹的语音搜索方法、设备、存储介质及装置
CN111081234A (zh) * 2018-10-18 2020-04-28 珠海格力电器股份有限公司 一种语音采集方法、装置、设备及存储介质
CN111179940A (zh) * 2018-11-12 2020-05-19 阿里巴巴集团控股有限公司 一种语音识别方法、装置及计算设备
US20200312337A1 (en) * 2019-03-25 2020-10-01 Omilia Natural Language Solutions Ltd. Systems and methods for speaker verification
CN111816185A (zh) * 2020-07-07 2020-10-23 广东工业大学 一种对混合语音中说话人的识别方法及装置
US20200411013A1 (en) * 2016-01-12 2020-12-31 Andrew Horton Caller identification in a secure environment using voice biometrics
CN112331217A (zh) * 2020-11-02 2021-02-05 泰康保险集团股份有限公司 声纹识别方法和装置、存储介质、电子设备
CN112423081A (zh) * 2020-11-09 2021-02-26 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备及可读存储介质
US20210105358A1 (en) * 2019-10-04 2021-04-08 Red Box Recorders Limited Systems and methods of voiceprint generation and use in enforcing compliance policies

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100086108A1 (en) * 2008-10-06 2010-04-08 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
US20140348308A1 (en) * 2013-05-22 2014-11-27 Nuance Communications, Inc. Method And System For Speaker Verification
US20200411013A1 (en) * 2016-01-12 2020-12-31 Andrew Horton Caller identification in a secure environment using voice biometrics
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
CN111081234A (zh) * 2018-10-18 2020-04-28 珠海格力电器股份有限公司 一种语音采集方法、装置、设备及存储介质
CN111179940A (zh) * 2018-11-12 2020-05-19 阿里巴巴集团控股有限公司 一种语音识别方法、装置及计算设备
US20200312337A1 (en) * 2019-03-25 2020-10-01 Omilia Natural Language Solutions Ltd. Systems and methods for speaker verification
CN110310657A (zh) * 2019-07-10 2019-10-08 北京猎户星空科技有限公司 一种音频数据处理方法及装置
US20210105358A1 (en) * 2019-10-04 2021-04-08 Red Box Recorders Limited Systems and methods of voiceprint generation and use in enforcing compliance policies
CN110990685A (zh) * 2019-10-12 2020-04-10 中国平安财产保险股份有限公司 基于声纹的语音搜索方法、设备、存储介质及装置
CN111816185A (zh) * 2020-07-07 2020-10-23 广东工业大学 一种对混合语音中说话人的识别方法及装置
CN112331217A (zh) * 2020-11-02 2021-02-05 泰康保险集团股份有限公司 声纹识别方法和装置、存储介质、电子设备
CN112423081A (zh) * 2020-11-09 2021-02-26 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120950A (zh) * 2022-01-27 2022-03-01 荣耀终端有限公司 一种人声屏蔽方法和电子设备
CN114120950B (zh) * 2022-01-27 2022-06-10 荣耀终端有限公司 一种人声屏蔽方法和电子设备
CN114630179A (zh) * 2022-03-17 2022-06-14 维沃移动通信有限公司 音频提取方法和电子设备
CN114630179B (zh) * 2022-03-17 2024-07-23 维沃移动通信有限公司 音频提取方法和电子设备

Also Published As

Publication number Publication date
CN113707183B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
JP6855527B2 (ja) 情報を出力するための方法、及び装置
CN107886949B (zh) 一种内容推荐方法及装置
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
US20190378494A1 (en) Method and apparatus for outputting information
JP6538846B2 (ja) 音声情報を処理するための方法及び装置
CN109147807B (zh) 一种基于深度学习的音域平衡方法、装置及系统
CN103943104B (zh) 一种语音信息识别的方法及终端设备
US9959872B2 (en) Multimodal speech recognition for real-time video audio-based display indicia application
US20140278366A1 (en) Feature extraction for anonymized speech recognition
CN110784768B (zh) 一种多媒体资源播放方法、存储介质及电子设备
CN113707183B (zh) 一种视频中的音频处理方法及装置
US20140122068A1 (en) Signal processing apparatus, signal processing method and computer program product
US11574627B2 (en) Masking systems and methods
US8868419B2 (en) Generalizing text content summary from speech content
CN113035202A (zh) 一种身份识别方法和装置
US20100076747A1 (en) Mass electronic question filtering and enhancement system for audio broadcasts and voice conferences
CN104851423B (zh) 一种声音信息处理方法及装置
CN111737515B (zh) 音频指纹提取方法、装置、计算机设备和可读存储介质
CN105551504B (zh) 一种基于哭声触发智能移动终端功能应用的方法及装置
CN114157899A (zh) 一种分级投屏方法、装置、可读存储介质及电子设备
WO2024082928A1 (zh) 语音处理方法、装置、设备和介质
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
JP2019101399A (ja) 好感度推定装置、好感度推定方法、プログラム
CN117153185B (zh) 通话处理方法、装置、计算机设备和存储介质
CN116758897A (zh) 方言语音指令的识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant