CN113573136B

CN113573136B - 视频处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113573136B
Application number: CN202111113474.3A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-07
Anticipated expiration: 2041-09-23
Also published as: CN113573136A

Abstract

本申请涉及一种视频处理方法、装置、计算机设备和存储介质，该方法涉及人工智能的机器学习技术，该方法包括：从目标视频中提取音频信号；对音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨；分别定位背景音轨与人声音轨中的活跃声音片段；基于背景音轨中的活跃声音片段，确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段，确定音频信号对应的说话声音响度特征；根据背景声音响度特征和说话声音响度特征，获得目标视频是否需要添加目标音频的判定结果。采用本方法能够实现自动化、高效地判定是否需要为视频添加配乐，从而提升视频的生成效率。

Description

视频处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频处理方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术和互联网技术的发展，视频成为人们获取信息的重要渠道之一，例如直播视频可以为人们提供实时的信息，电商视频可以为人们提供商品的信息，自媒体视频可以为人们提供生活中多方面的信息，等等。

在一些场景中需要从视频中剪辑出精华视频内容或者关键视频内容，这些简短的视频可使用户快速了解视频的大概内容。在剪辑出视频后，还未进行配乐前，针对短视频是否需要进行配乐的判断，通常是通过人工方式确定的，通过人的音视频感官来进行判断是否需要配乐，然后生成相应的标注，对标注需要配乐的视频进行配乐。显然，这种人工标注方式效率非常低下，导致无法实现批量化的视频生成。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现自动化判断是否需要为视频配乐以提升视频生成效率的视频处理方法、装置、计算机设备和存储介质。

一种视频处理方法，该方法包括：

从目标视频中提取音频信号；

对所述音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨；

分别定位所述背景音轨与所述人声音轨中的活跃声音片段；

基于所述背景音轨中的活跃声音片段，确定所述音频信号对应的背景声音响度特征，以及基于所述人声音轨中的活跃声音片段，确定所述音频信号对应的说话声音响度特征；

根据所述背景声音响度特征和所述说话声音响度特征，获得所述目标视频是否需要添加目标音频的判定结果。

一种视频处理装置，该装置包括：

提取模块，用于从目标视频中提取音频信号；

信源分离模块，用于对所述音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨；

定位模块，用于分别定位所述背景音轨与所述人声音轨中的活跃声音片段；

确定模块，用于基于所述背景音轨中的活跃声音片段，确定所述音频信号对应的背景声音响度特征，以及基于所述人声音轨中的活跃声音片段，确定所述音频信号对应的说话声音响度特征；

判定模块，用于根据所述背景声音响度特征和所述说话声音响度特征，获得所述目标视频是否需要添加目标音频的判定结果。

在一个实施例中，所述信源分离模块还用于：在信源分离模型中，对所述音频信号进行频谱变换，得到原始频幅谱；通过所述信源分离模型的背景声音特征提取网络，对所述原始频幅谱进行特征提取，获得所述音频信号对应的背景声音特征；通过所述信源分离模型的说话声音特征提取网络，对所述原始频幅谱进行特征提取，获得所述音频信号对应的说话声音特征；基于所述背景声音特征与所述说话声音特征，获得所述音频信号中的源自于背景声音的背景音轨和源自于说话声音的人声音轨。

在一个实施例中，所述信源分离模块还用于：融合所述背景声音特征和所述说话声音特征，得到融合特征；基于所述背景声音特征与所述融合特征，获得背景声音的第一掩码，使用所述第一掩码从所述原始频幅谱中提取背景声音频幅谱后进行频谱反变换，获得源自于背景声音的背景音轨；基于所述说话声音特征与所述融合特征，获得说话声音的第二掩码，使用所述第二掩码从所述原始频幅谱中提取说话声音频幅谱后进行频谱反变换，获得源自于说话声音的人声音轨。

在一个实施例中，所述定位模块还用于：对所述背景音轨中的声音片段进行活跃度检测，得到各声音片段对应的声音活跃度，并从所述背景音轨中剔除声音活跃度低于预设阈值的声音片段后，得到所述背景音轨中的活跃声音片段；对所述人声音轨中的声音片段进行活跃度检测，得到各声音片段对应的声音活跃度，并从所述人声音轨中剔除声音活跃度低于预设阈值的声音片段后，得到所述人声音轨中的活跃声音片段。

在一个实施例中，所述确定模块还用于：基于所述背景音轨中各所述活跃声音片段所对应的频幅谱，计算所述背景音轨对应的短时平均能量，作为所述音频信号对应的背景声音响度特征；基于所述人声音轨中各所述活跃声音片段所对应的频幅谱，计算所述人声音轨对应的短时平均能量，作为所述音频信号对应的背景声音响度特征。

在一个实施例中，所述确定模块还用于：计算所述人声音轨对应的短时平均能量与所述背景音轨对应的短时平均能量之间的比值，当所述比值大于预设阈值时，判定所述目标视频需要添加所述目标音频，当所述比值小于或等于预设阈值时，判定所述目标视频不需要添加所述目标音频。

在一个实施例中，所述判定模块还用于：基于所述背景声音响度特征与所述说话声音响度特征之间的差异，确定所述音频信号中说话声音的可感知程度；当所述音频信号中说话声音的可感知程度大于预设阈值时，则判定所述目标视频需要添加目标音频，以及当所述音频信号中说话声音的可感知程度小于预设阈值时，则判定所述目标视频不需要添加目标音频。

在一个实施例中，所述判定模块还用于：累加所述背景音轨中各所述活跃声音片段对应的时长，得到第一声音时长；累加所述人声音轨中各所述活跃声音片段对应的时长，得到第二声音时长；当所述第二声音时长与所述第一声音时长之差大于第一预设阈值时，则将所述目标音频添加至所述目标视频；当所述第二声音时长与所述第一声音时长之差小于或等于第一预设阈值且大于第二预设阈值时，则从所述音频信号中抹除所述背景音轨后再为所述目标视频添加目标音频；当所述第二声音时长与所述第一声音时长之差小于或等于第二预设阈值时，则执行所述基于所述背景声音响度特征与所述说话声音响度特征之间的差异，确定所述音频信号中说话声音的可感知程度的步骤。

在一个实施例中，所述视频处理装置还包括判决模块，所述判决模块用于：将所述背景音轨与所述人声音轨，输入基于神经网络的用于预测是否需要为目标视频添加目标音频的判决网络，通过所述判决网络获得所述目标视频是否需要添加目标音频的判定结果。

在一个实施例中，所述视频处理装置还包括训练模块，所述训练模块用于：获取基于说话声音样本与背景声音样本生成的音频样本；在信源分离模型中，对所述音频样本进行频谱变换，得到原始频幅谱；通过所述信源分离模型的背景声音特征提取网络，对所述原始频幅谱进行特征提取，获得所述音频样本对应的背景声音特征；通过所述信源分离模型的说话声音特征提取网络，对所述原始频幅谱进行特征提取，获得所述音频样本对应的说话声音特征；基于所述背景声音特征与所述说话声音特征，获得所述音频样本中的源自于背景声音的背景音轨和源自于说话声音的人声音轨；根据所述人声音轨的频幅谱与所述说话声音样本的频幅谱之间的差异、所述背景音轨的频幅谱与所述背景声音样本的频幅谱之间的差异，构建目标损失；基于所述目标损失更新所述背景声音特征提取网络与所述说话声音特征提取网络的网络参数后，返回所述获取基于说话声音样本与背景声音样本生成的音频样本的步骤继续训练，直至停止训练时得到用于从音频信号中分离背景音轨与人声音轨的信源分离模型。

在一个实施例中，所述视频处理装置还包括判决模块，所述判决模块用于：将所述背景音轨与所述人声音轨，输入基于神经网络的用于预测是否需要为目标视频添加目标音频的判决网络，通过所述判决网络获得所述目标视频是否需要添加目标音频的判定结果；所述训练模块还用于：根据所述人声音轨的频幅谱与所述说话声音样本的频幅谱之间的差异、所述背景音轨的频幅谱与所述背景声音样本的频幅谱之间的差异以及所述判定结果与所述音频样本对应的标签数据之间的差异，构建联合损失；基于所述联合损失更新所述背景声音特征提取网络、所述说话声音特征提取网络以及所述判决网络的网络参数后继续训练，直至停止训练时获得用于从目标视频的音频信号中分离背景音轨与人声音轨的信源分离模型，以及用于根据分离出的背景音轨与人声音轨预测所述目标视频是否需要添加目标音频的判决网络。

在一个实施例中，所述视频处理装置还包括添加模块，所述添加模块用于：当所述判定结果指示需要为所述目标视频添加所述目标音频时，则在为所述目标视频添加所述目标音频后，输出添加了所述目标音频的目标视频。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

从目标视频中提取音频信号；

分别定位所述背景音轨与所述人声音轨中的活跃声音片段；

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

从目标视频中提取音频信号；

分别定位所述背景音轨与所述人声音轨中的活跃声音片段；

一种计算机程序，计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机指令，处理器执行计算机指令，使得计算机设备执行上述视频处理方法的步骤。

上述视频处理方法、装置、计算机设备和存储介质，在判断是否需要为目标视频配乐时，对从目标视频提取的音频信号进行信源分离处理，获得背景音轨和人声音轨，使得能够对背景音轨和人声音轨分别处理，从而给出具有可靠依据的判定结果；基于背景音轨中的活跃声音片段确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段确定音频信号对应的说话声音响度特征，能够避免无关片段对响度特征评估的干扰，提高响度特征的评估准确性。继而，根据背景声音响度特征和说话声音响度特征，预估目标视频中背景声音与说话声音的强弱区别，就可以获得目标视频是否需要添加目标音频的判定结果，能够在不影响人耳对说话声音的感知的前提下，给出添加目标音频的判定结果，实现了全自动地确定是否需要为目标视频添加目标音频，能够克服人工标注效率低下的问题，从整体上加快生成视频的速度，提升视频生成效率。

附图说明

图1为一个实施例中视频处理方法的应用环境图；

图2为一个实施例中视频处理方法的流程示意图；

图3为另一个实施例中视频处理方法的流程示意图；

图4为一个实施例中信源分离模型进行信源分离处理的流程示意图；

图5为一个实施例中背景声音特征提取网络或说话声音特征提取网络所采用的网络结构示意图；

图6为另一个实施例中信源分离模型进行信源分离处理的流程示意图；

图7为一个实施例中训练信源分离模型的流程示意图；

图8为一个实施例中定位音轨中的活跃声音片段的示意图；

图9为又一个实施例中视频处理方法的流程示意图；

图10为一个实施例中训练信源分离模型和判决网络的流程示意图；

图11为再一个实施例中视频处理方法的流程示意图；

图12为一个实施例中信源分离模型分离出的背景音轨的时域波形图和频域能量图示意图；

图13为一个实施例中信源分离模型分离出的人声音轨的时域波形图和频域能量图示意图；

图14为一个实施例中为目标视频添加目标音频后的时域波形图和频域能量图示意图；

图15为一个实施例中视频处理装置的结构框图；

图16为一个实施例中计算机设备的内部结构图；

图17为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频处理方法，涉及人工智能(Artificial Intelligence, AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的视频处理方法，主要涉及人工智能的机器学习(MachineLearning, ML)技术。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

例如，在本申请实施例中，计算机设备利用基于说话声音样本与背景声音样本生成的音频样本对信源分离模型进行训练，获得用于从音频信号中分离背景音轨与人声音轨的信源分离模型。

本申请实施例提供的视频处理方法，还涉及区块链技术。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

例如，在本申请实施例中，服务器可以是区块链网络中的区块链节点，训练好的信源分离模型可以存储在区块链上，将目标视频上传至区块链的数据区块，以从目标视频的音频信号中分离出背景音轨与人声音轨。

本申请提供的视频处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以但不限于是各种智能手机、平板电脑、笔记本电脑、台式计算机、便携式可穿戴设备、智能音箱、车载终端等。服务器104可以是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个实施例中，终端102获取目标视频，将目标视频发送至服务器104，服务器104从目标视频中提取音频信号；对音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨；分别定位背景音轨与人声音轨中的活跃声音片段；基于背景音轨中的活跃声音片段，确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段，确定音频信号对应的说话声音响度特征；根据背景声音响度特征和说话声音响度特征，获得目标视频是否需要添加目标音频的判定结果。

本申请实施例提供的视频处理方法，其执行主体可以是本申请实施例提供的视频处理装置，或者集成了该视频处理装置的计算机设备，其中该视频处理装置可以采用硬件或软件的方式实现。计算机设备可以是图1中所示的终端102或服务器104。

本申请实施例提供的视频处理方法，可用于判断视频是否需要添加目标音频，目标音频可以是背景音乐、背景解说音和背景音效中的至少一种。本申请实施例提供的视频处理方法，可应用于视频剪辑场景、短视频生产场景，等等。

以视频剪辑场景为例，视频剪辑是从原视频中抽取视频内容后生成新的视频。比如，一段视频的时长为60秒，其中第20秒至30秒、第35秒至45秒是视频的核心部分，即最能体现视频的关键内容、精彩之处以及视频制作目的的部分，视频剪辑能够将第20秒至30秒、第35秒至45秒的部分从视频中抽取出来后生成新的视频。例如，通过基于神经网络的视频处理模型从原视频中确定新的视频后，通过本申请实施例提供的方法，能够判断新生成的视频是否需要添加目标音频，并给出判定结果。

以短视频生产场景为例，可以通过基于神经网络的视频处理模型根据原视频中直接生成短视频，可以通过智能生产平台从原视频中确定短视频等。智能生产平台是生产短视频的平台，其可从原视频中提取精彩视频内容或者关键视频内容后剪辑生成短视频，由于短视频由视频片段剪辑而成，因此短视频中的背景声音可能是非连贯的。通过本申请实施例提供的方法，能够为智能生产平台剪辑生成的短视频是否需要额外添加配乐提供判定结果，该判定结果能够在保障人耳对短视频中说话声音的感知的前提下，指示为短视频添加连贯的配乐，提高智能生产平台生产的短视频质量。并且，对于智能生产平台的批量生产场景，能够提升智能生产平台的短视频生产效率。

在一个实施例中，如图2所示，提供了一种视频处理方法，本实施例主要以该方法应用于计算机设备（上述图1中的终端102或服务器104）来举例说明，包括以下步骤：

步骤S202，从目标视频中提取音频信号。

其中，目标视频是通过本申请实施例提供的方法判断是否需要添加目标音频的视频，目标音频可以是背景音乐、背景解说音和背景音效中的至少一种。

在一个实施例中，目标视频可以是从至少一个视频中剪辑生成的视频，也可以是通过拍摄设备拍摄得到的视频，还可以是通过视频编辑软件编辑后的视频、网站或应用上发布的视频，等等。目标视频可以是短视频，短视频是视频时长小于指定时长的视频形式，指定时长比如30分钟。目标视频也可以是长视频，长视频是区别于短视频的视频形式。目标视频可以是电视剧视频、电影视频、综艺视频、电商视频、自媒体视频等各类视频。

在一个实施例中，计算机设备可以获取本机存储的目标视频。例如，终端可根据用户操作启动其上安装的视频处理应用，并进入视频处理页面，视频处理页面中包括视频上传入口，响应于对视频上传入口的触发操作，获取从本地存储的视频中选中的目标视频。在另一些实施例中，计算机设备也可以获取从网络上下载的目标视频，例如视频处理页面中可包括视频地址输入区域，响应于在视频地址输入区域的输入操作，获取与视频地址相对应的目标视频。计算机设备还可以获取其他计算机设备传递的目标视频，例如上述图1中服务器104获取终端102传递的目标视频。

在一个实施例中，计算机设备获取目标视频，从目标视频中提取音频信号，通过对音频信号进行分析，获得目标视频是否需要额外添加背景声音的判定结果。

步骤S204，对音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨。

其中，信源分离处理是将视频中包含的多于一种音频信号进行分离，从中提取出指定类别的音频信号。人声音轨是视频中说话声音的音频信号，背景音轨是视频中背景声音的音频信号，该背景声音可以是视频中除了说话声音以外的声音，也可以是背景音乐。以目标视频为从影视视频中剪辑生成的短视频为例，计算机设备从短视频中提取的人声音轨可以是角色人声信号，从短视频中提取的背景音轨可以是背景音乐信号。

在一个实施例中，计算机设备可采用通用的信源分离处理策略对目标视频的音频信号进行信源分离处理，从信源分离处理结果中提取出背景声音的音频信号和说话声音的音频信号。可以理解，通用的信源分离处理策略即可满足本申请实施例中信源分离处理的需求，因此本申请实施例可采用通用的信源分离处理策略对音频信号进行信源分离处理。

步骤S206，分别定位背景音轨与人声音轨中的活跃声音片段。

其中，活跃声音片段可以源自于音轨中的非静音片段，例如非静音片段中响度高于预设阈值的声音片段。

在一个实施例中，计算机设备可采用通用的语音活动检测策略对背景音轨和人声音轨中的音频冲激信号进行定位，在背景音轨与人声音轨中存在音频冲激信号的声音片段中确定活跃声音片段，例如将存在音频冲激信号的声音片段作为活跃声音片段。可以理解，通用的语音活动检测策略即可满足本申请实施例中定位音轨中的活跃声音片段的需求，因此本申请实施例可采用通用的语音活动检测策略对音频信号进行静音检测，例如WebRTC(Web Real-Time Communication,网页即时通信)提供的VAD(Voice Activity Detection,语音激活检测)算法等。

步骤S208，基于背景音轨中的活跃声音片段，确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段，确定音频信号对应的说话声音响度特征。

其中，背景声音响度特征用于描述背景声音的响度特性，说话声音响度特征用于描述说话声音的响度特性。

具体地，声音的响度可通过音频信号的幅度进行表示。背景声音响度特征和说话声音响度特征可采用能够直接或间接反映音频信号的幅度的音频特征，例如短时平均能量、频谱幅度谱、频谱、梅尔频谱(log-melspectrogram)等。

在一个实施例中，计算机设备基于背景音轨中的活跃声音片段，计算背景音轨中的活跃声音片段的背景声音响度特征，并基于人声音轨中的活跃声音片段，计算人声音轨中的活跃声音片段的说话声音响度特征。

步骤S210，根据背景声音响度特征和说话声音响度特征，获得目标视频是否需要添加目标音频的判定结果。

其中，目标音频是用于修饰目标视频的配乐，可以是背景音乐、背景解说音和背景音效中的至少一种。

在一个实施例中，计算机设备基于背景声音响度特征与说话声音响度特征之间的差异，确定人耳对音频信号中说话声音的可感知程度，根据人耳对音频信号中说话声音的可感知程度，获得目标视频是否需要添加目标音频的判定结果。例如，以目标视频为背景音乐为例，若人耳对人声音轨的感知程度强于对背景音轨的感知程度，对目标视频添加背景音乐能够覆盖背景音轨，同时不影响人耳对人声音轨的感知，若人耳对人声音轨的感知程度弱于对背景音轨的感知程度，对目标视频添加背景音乐会导致音轨混叠，影响人耳对人声音轨的感知。再例如，以目标视频为背景解说音为例，若人耳对人声音轨的感知程度强于对背景音轨的感知程度，对目标视频添加背景解说音会导致音轨混叠，若人耳对人声音轨的感知程度弱于对背景音轨的感知程度，对目标视频添加背景解说音能够覆盖人声音轨，同时不影响人耳对背景音轨的感知。

参照图3，图3示出了一个实施例中视频处理方法的流程示意图。可以看到，计算机设备对目标视频的音频信号进行信源分离处理，获得背景音轨和人声音轨，分别定位背景音轨与人声音轨中的活跃声音片段，基于背景音轨中的活跃声音片段确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段确定音频信号对应的说话声音响度特征，根据背景声音响度特征和说话声音响度特征，获得目标视频是否需要添加目标音频的判定结果。

上述视频处理方法中，在判断是否需要为目标视频配乐时，对从目标视频提取的音频信号进行信源分离处理，获得背景音轨和人声音轨，使得能够对背景音轨和人声音轨分别处理，从而给出具有可靠依据的判定结果；基于背景音轨中的活跃声音片段确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段确定音频信号对应的说话声音响度特征，能够避免无关片段对响度特征评估的干扰，提高响度特征的评估准确性。继而，根据背景声音响度特征和说话声音响度特征，预估目标视频中背景声音与说话声音的强弱区别，就可以获得目标视频是否需要添加目标音频的判定结果，能够在不影响人耳对说话声音的感知的前提下，给出添加目标音频的判定结果，实现了全自动地确定是否需要为目标视频添加目标音频，能够克服人工标注效率低下的问题，从整体上加快生成视频的速度，提升视频生成效率。

在一个实施例中，计算机设备可利用基于神经网络的信源分离模型对音频信号进行信源分离处理。信源分离模型是通过样本学习具备信源分离能力的模型结构。信源分离模型的输入端可以是音频信号，输出端可以是音频信号中的背景音轨和人声音轨。

在一个实施例中，对音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨，包括：在信源分离模型中，对音频信号进行频谱变换，得到原始频幅谱；通过信源分离模型的背景声音特征提取网络，对原始频幅谱进行特征提取，获得音频信号对应的背景声音特征；通过信源分离模型的说话声音特征提取网络，对原始频幅谱进行特征提取，获得音频信号对应的说话声音特征；基于背景声音特征与说话声音特征，获得音频信号中的源自于背景声音的背景音轨和源自于说话声音的人声音轨。

其中，原始频幅谱是从音频信号中确定的频幅谱，频幅谱即频谱幅度谱，用于反映音频信号的幅度随着频率的分布情况。背景声音特征是反映背景声音特性的数据。说话声音特征是反映说话声音特性的数据。

在一个实施例中，参照图4，图4示出了一个实施例中信源分离模型进行信源分离处理的流程示意图。计算机设备从目标视频中提取音频信号，将音频信号输入信源分离模型，在信源分离模型中，计算机设备对音频信号进行频谱变换得到频谱，从频谱中获取频幅谱作为原始频幅谱。其中，频谱变换用于将时域信号转换为频域信号，频谱变换方式可以是傅里叶变换等，频谱反映了音频信号的幅度和相位随着频率的分布情况。

在一个实施例中，信源分离模型中可包括背景声音特征提取网络和说话声音特征提取网络，背景声音特征提取网络用于提取背景声音特征，说话声音特征提取网络用于提取说话声音特征。背景声音特征提取网络和说话声音特征提取网络可以是采用编码-解码结构的深度学习网络，例如U-Net、U-Net++、 U-Net+++，等等。以U-Net为例，参照图5，图5示出了一个实施例中背景声音特征提取网络或说话声音特征提取网络所采用的网络结构示意图。可以看到，U-Net为U型对称结构，左侧结构为卷积层（下采样层），右侧结构为反卷积层（上采样层）。通过U-Net提取的特征，既能够包含粗粒度特征，又能够包含细粒度特征，从而将不同层次的特征进行融合。

在一个实施例中，继续参照图4，计算机设备将音频信号的频幅谱分别输入背景声音特征提取网络和说话声音特征提取网络，通过背景声音特征提取网络对频幅谱进行特征提取，获得音频信号对应的背景声音特征，通过说话声音特征提取网络对频幅谱进行特征提取，获得音频信号对应的说话声音特征。

在一个实施例中，计算机设备基于背景声音特征、说话声音特征和音频信号的频幅谱，获得音频信号中的背景音轨和人声音轨。

在一个实施例中，计算机设备融合背景声音特征和说话声音特征，得到融合特征；基于背景声音特征与融合特征，获得背景声音的第一掩码，使用第一掩码从原始频幅谱中提取背景声音频幅谱后进行频谱反变换，获得源自于背景声音的背景音轨；基于说话声音特征与融合特征，获得说话声音的第二掩码，使用第二掩码从原始频幅谱中提取说话声音频幅谱后进行频谱反变换，获得源自于说话声音的人声音轨。

其中，第一掩码用于在音频信号的频幅谱中标记背景声音频幅谱，背景声音频幅谱是背景声音信号对应的频幅谱。第二掩码用于在音频信号的频幅谱中标记说话声音频幅谱，说话声音频幅谱是说话声音信号对应的频幅谱。

在一个实施例中，参照图6，图6示出了一个实施例中信源分离模型进行信源分离处理的流程示意图。计算机设备融合背景声音特征和说话声音特征得到融合特征，基于背景声音特征与融合特征获得第一掩码，基于说话声音特征与融合特征获得第二掩码，使用第一掩码和频幅谱确定背景音轨，使用第二掩码和频幅谱确定人声音轨。

在一个实施例中，计算机设备分别获取背景声音特征对应的背景声音能量，以及说话声音特征对应的说话声音能量，对背景声音能量和说话声音能量进行叠加，获得融合特征。背景声音能量可通过以下公式进行计算：

其中，

表示背景声音能量；

表示背景声音特征。

说话声音能量可通过以下公式进行计算：

其中，

表示说话声音能量；

表示说话声音特征。

融合特征可通过以下公式进行计算：

其中，

表示融合特征；

表示背景声音能量；

表示说话声音能量。

在一个实施例中，计算机设备基于背景声音能量和融合特征，获得背景声音的第一掩码。第一掩码可反映背景声音信号在音频信号的频幅谱中每个时刻每个频带的占比。第一掩码可通过以下公式进行计算：

其中，

表示第一掩码；

表示背景声音能量；

表示融合特征。

在一个实施例中，计算机设备基于说话声音能量和融合特征，获得说话声音的第二掩码。第二掩码可反映说话声音信号在音频信号的频幅谱中每个时刻每个频带的占比。第二掩码可通过以下公式进行计算：

其中，

表示第二掩码；

表示说话声音能量；

表示融合特征。

在一个实施例中，计算机设备计算第一掩码与音频信号的频幅谱之间的乘积，获得背景声音频幅谱。计算机设备计算第二掩码与音频信号的频幅谱之间的乘积，获得说话声音频幅谱。

在一个实施例中，计算机设备在获得背景声音频幅谱后，对背景声音频幅谱进行频谱反变换得到背景音轨。计算机设备在获得说话声音频幅谱后，对说话声音频幅谱进行频谱反变换得到人声音轨。其中，频谱反变换用于将频域信号转换为时域信号，频谱反变换方式可以是傅里叶逆变换等。

本实施例中，计算机设备利用信源分离模型对音频信号进行信源分离处理，能够提高信源分离的准确性；并且，将音频信号分离为背景音轨和人声音轨，后续能够对背景音轨和人声音轨的响度特征分别进行分析，从而给出具有可靠依据的判定结果。

在一个实施例中，信源分离模型的训练步骤包括：在信源分离模型中，获取基于说话声音样本与背景声音样本生成的音频样本；对音频样本进行频谱变换，得到原始频幅谱；通过信源分离模型的背景声音特征提取网络，对原始频幅谱进行特征提取，获得音频样本对应的背景声音特征；通过信源分离模型的说话声音特征提取网络，对原始频幅谱进行特征提取，获得音频样本对应的说话声音特征；基于背景声音特征与说话声音特征，获得音频样本中的源自于背景声音的背景音轨和源自于说话声音的人声音轨；根据人声音轨的频幅谱与说话声音样本的频幅谱之间的差异、背景音轨的频幅谱与背景声音样本的频幅谱之间的差异，构建目标损失；基于目标损失更新背景声音特征提取网络与说话声音特征提取网络的网络参数后，返回获取基于说话声音样本与背景声音样本生成的音频样本的步骤继续训练，直至停止训练时得到用于从音频信号中分离背景音轨与人声音轨的信源分离模型。

其中，音频样本是本申请实施例中用于训练信源分离模型的音频信号样本，说话声音样本是音频信号样本中的说话声音信号，背景声音样本是音频信号样本中的背景声音信号。可选地，计算机设备获取说话声音样本和背景声音样本，根据说话声音样本和背景声音样本合成音频样本。

在一个实施例中，计算机设备获取说话声音样本的频幅谱，将说话声音样本的频幅谱作为说话声音样本的训练标签。计算机设备获取背景声音样本的频幅谱，将背景声音样本的频幅谱作为背景声音样本的训练标签。

在一个实施例中，参照图7，图7示出了一个实施例中训练信源分离模型的流程示意图。计算机设备通过信源分离模型对音频样本进行信源分离处理，获得音频样本的背景音轨和人声音轨，根据人声音轨的频幅谱与说话声音样本的频幅谱之间的差异构建第一损失，根据背景音轨的频幅谱与背景声音样本的频幅谱之间的差异构建第二损失，根据第一损失和第二损失构建目标损失。其中，目标损失中人声音轨的频幅谱与说话声音样本的频幅谱的差异部分，用于约束说话声音特征提取网络 “学习”提取音频样本对应的说话声音特征，而目标损失中背景音轨的频幅谱与背景声音样本的频幅谱的差异部分，用于约束背景声音特征提取网络“学习”提取音频样本对应的背景声音特征。

在一个实施例中，计算机设备按照预设的损失加权系数对第一损失与第二损失加权求和，获得目标损失。

可以理解，第一损失和第二损失均可采用通用的损失函数，例如Cosine相似度损失函数、Softmax函数、Contrastive Loss函数、Triplet Loss函数、Center Loss函数、Margin函数等。

在一个实施例中，计算机设备按照最小化目标损失的方向，基于梯度下降算法获得本次训练对应的梯度，按照梯度更新背景声音特征提取网络与说话声音特征提取网络的网络参数。梯度下降算法可以是随机梯度下降算法，或者基于随机梯度下降算法优化的算法，比如带动量项的随机梯度下降算法等。

在一个实施例中，计算机设备迭代地构建目标损失，基于目标损失更新背景声音特征提取网络与说话声音特征提取网络的网络参数，直至满足训练停止条件时获得训练好的信源分离模型。本申请实施例中所涉及的训练停止条件，可以是训练次数达到预设次数，或者目标损失计算的损失值小于预设值等。

本实施例中，根据人声音轨的频幅谱与说话声音样本的频幅谱之间的差异、背景音轨的频幅谱与背景声音样本的频幅谱之间的差异，构建目标损失，目标损失能够在训练过程中约束背景声音特征提取网络与说话声音特征提取网络，使得背景声音特征提取网络“学会”准确提取音频样本对应的背景声音特征，说话声音特征提取网络“学会”准确提取音频样本对应的说话声音特征，从而提升信源分离模型从音频信号中分离背景音轨与人声音轨的准确性。

在一个实施例中，分别定位背景音轨与人声音轨中的活跃声音片段，包括：对背景音轨中的声音片段进行活跃度检测，得到各声音片段对应的声音活跃度，并从背景音轨中剔除声音活跃度低于预设阈值的声音片段后，得到背景音轨中的活跃声音片段；对人声音轨中的声音片段进行活跃度检测，得到各声音片段对应的声音活跃度，并从人声音轨中剔除声音活跃度低于预设阈值的声音片段后，得到人声音轨中的活跃声音片段。

其中，声音活跃度是描述音轨中声音信号强度的音频参数。

在一个实施例中，计算机设备对背景音轨和人声音轨中的音频冲激信号进行定位，在背景音轨与人声音轨中存在音频冲激信号的声音片段中，剔除声音活跃度低于预设阈值的声音片段，得到背景音轨与人声音轨中的活跃声音片段。举例说明，参照图8，图8示出了一个实施例中定位音轨中的活跃声音片段的示意图。可以看到，计算机设备从音轨中定位活跃声音片段802。

本实施例中，从背景音轨与人声音轨中剔除声音活跃度低于预设阈值的声音片段，能够避免无关片段对响度特征评估的干扰，提高响度特征的评估准确性。

在一个实施例中，基于背景音轨中的活跃声音片段，确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段，确定音频信号对应的说话声音响度特征，包括：基于背景音轨中各活跃声音片段所对应的频幅谱，计算背景音轨对应的短时平均能量，作为音频信号对应的背景声音响度特征；基于人声音轨中各活跃声音片段所对应的频幅谱，计算人声音轨对应的短时平均能量，作为音频信号对应的背景声音响度特征。

在一个实施例中，由于短时平均能量与音频信号的幅度呈正相关，因此背景音轨对应的短时平均能量能够反映背景声音信号的响度，人声音轨对应的短时平均能量能够反映说话声音信号的响度。计算机设备获取背景音轨和人声音轨各自对应的短时平均能量，根据背景音轨和人声音轨各自对应的短时平均能量，获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，计算机设备计算人声音轨对应的短时平均能量与背景音轨对应的短时平均能量之间的比值，或者背景音轨对应的短时平均能量与人声音轨对应的短时平均能量之间的比值，根据计算的比值与预设阈值之间的大小关系，判定目标视频是否需要添加目标音频。

在一个实施例中，计算机设备计算人声音轨对应的短时平均能量与背景音轨对应的短时平均能量之间的比值，当比值大于预设阈值时，判定目标视频需要添加目标音频，当比值小于或等于预设阈值时，判定目标视频不需要添加目标音频。

在一个实施例中，计算机设备计算人声音轨对应的短时平均能量与背景音轨对应的短时平均能量之间的比值，可通过以下公式进行表示：

其中，

表示人声音轨对应的短时平均能量与背景音轨对应的短时平均能量之间的比值；

表示人声音轨对应的短时平均能量，

表示人声音轨对应的帧数，

表示人声音轨中的第

帧对应的能量；

表示背景音轨对应的短时平均能量，

表示背景音轨对应的帧数，

表示背景音轨中第

帧对应的能量。

在一个实施例中，计算机设备计算人声音轨对应的短时平均能量与背景音轨对应的短时平均能量之间的比值，该比值反映人耳对人声音轨与背景音轨的相对感知程度。当比值大于预设阈值时，说明人耳对人声音轨的感知程度相对较强，对背景音轨的感知程度相对较弱，对目标视频添加目标音频能够覆盖背景音轨，同时不影响人耳对人声音轨的感知，因此判定目标视频需要添加目标音频。当比值小于或等于预设阈值时，说明人耳对背景音轨的感知程度相对较强，对人声音轨的感知程度相对较弱，对目标视频添加目标音频会导致音轨混叠，影响人耳对人声音轨的感知，因此判定目标视频不需要添加目标音频。

在一个实施例中，预设阈值可包括第一预设阈值和第二预设阈值，第一预设阈值大于第二预设阈值。当比值大于第一预设阈值时，判定目标视频需要添加目标音频。当比值小于或等于第一预设阈值，且大于第二预设阈值时，说明人耳对人声音轨和背景音轨的感知程度相当，可从音频信号中抹除背景音轨后再为目标视频添加目标音频。当比值小于或等于第二预设阈值时，判定目标视频不需要添加目标音频。

本实施例中，由于短时平均能量与音频信号的幅度呈正相关，采用短时平均能量作为背景声音响度特征和说话声音响度特征，能够准确获得人耳对人声音轨和背景音轨的相对感知程度。

在一个实施例中，根据背景声音响度特征和说话声音响度特征，获得目标视频是否需要添加目标音频的判定结果，包括：基于背景声音响度特征与说话声音响度特征之间的差异，确定音频信号中说话声音的可感知程度；当音频信号中说话声音的可感知程度大于预设阈值时，则判定目标视频需要添加目标音频，以及当音频信号中说话声音的可感知程度小于预设阈值时，则判定目标视频不需要添加目标音频。

在一个实施例中，计算机设备获取背景声音响度特征与说话声音响度特征之间的比值或者差值，根据该比值或者差值确定音频信号中说话声音的可感知程度。

本实施例中，人耳对人声音轨的感知程度强于对背景音轨的感知程度，对目标视频添加目标音频能够覆盖背景音轨，同时不影响人耳对人声音轨的感知，因此可判定目标视频需要添加目标音频。人耳对人声音轨的感知程度弱于对背景音轨的感知程度，对目标视频添加目标音频会导致音轨混叠，影响人耳对人声音轨的感知，因此判定目标视频不需要添加目标音频。

在一个实施例中，该方法还包括：累加背景音轨中各活跃声音片段对应的时长，得到第一声音时长；累加人声音轨中各活跃声音片段对应的时长，得到第二声音时长；当第二声音时长与第一声音时长之差大于第一预设阈值时，则将目标音频添加至目标视频；当第二声音时长与第一声音时长之差小于或等于第一预设阈值且大于第二预设阈值时，则从音频信号中抹除背景音轨后再为目标视频添加目标音频；当第二声音时长与第一声音时长之差小于或等于第二预设阈值时，则执行基于背景声音响度特征与说话声音响度特征之间的差异，确定音频信号中说话声音的可感知程度的步骤。

在一个实施例中，计算机设备累加背景音轨中各活跃声音片段对应的时长得到第一声音时长，累加人声音轨中各活跃声音片段对应的时长得到第二声音时长，根据第一声音时长和第二声音时长获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，计算机设备获取第二声音时长与第一声音时长之间的差值，当该差值大于预设阈值时，说明背景音轨中各活跃声音片段对应的时长相对较短，对目标视频添加目标音频能够覆盖背景音轨；当该差值小于预设阈值时，说明背景中各活跃声音片段对应的时长相对较长，可基于背景声音响度特征与说话声音响度特征之间的差异，获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，预设阈值可包括第一预设阈值和第二预设阈值，第一预设阈值大于第二预设阈值。当差值大于第一预设阈值时，判定目标视频需要添加目标音频。当差值小于或等于第一预设阈值，且大于第二预设阈值时，可从音频信号中抹除背景音轨后再为目标视频添加目标音频。当差值小于或等于第二预设阈值时，可基于背景声音响度特征与说话声音响度特征之间的差异，获得目标视频是否需要添加目标音频的判定结果。

本实施例中，根据背景音轨中各活跃声音片段的时长和人声音轨中各活跃声音片段的时长确定判定结果，提高对目标视频是否需要添加目标音频的判断效率。

在一个实施例中，计算机设备可利用判决网络，根据音频信号的背景音轨和人声音轨预测目标视频是否需要添加目标音频。判决网络的输入端可以是音频信号的背景音轨和人声音轨，输出端可以是目标视频是否需要添加目标音频的判定结果。

在一个实施例中，对音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨之后，该方法还包括：将背景音轨与人声音轨，输入基于神经网络的用于预测是否需要为目标视频添加目标音频的判决网络，通过判决网络获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，参照图9，图9示出了一个实施例中视频处理方法的流程示意图。计算机设备通过信源分离模型对音频信号进行信源分离处理，获得背景音轨和人声音轨，将背景音轨与人声音轨输入判决网络，通过判决网络获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，计算机设备通过判决网络分别定位背景音轨与人声音轨中的活跃声音片段，通过判决网络基于背景音轨中的活跃声音片段确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段确定音频信号对应的说话声音响度特征，根据背景声音响度特征和说话声音响度特征，获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，计算机设备可利用背景音轨样本和人声音轨样本对判决网络进行单独训练，也可对信源分离模型和判决网络进行联合训练。

在一个实施例中，通过基于神经网络的判决网络预测目标视频是否需要添加目标音频的判定结果，判决网络与信源分离模型联合训练得到，该方法还包括：将背景音轨与人声音轨，输入基于神经网络的用于预测是否需要为目标视频添加目标音频的判决网络，通过判决网络获得目标视频是否需要添加目标音频的判定结果；联合训练的步骤包括：根据人声音轨的频幅谱与说话声音样本的频幅谱之间的差异、背景音轨的频幅谱与背景声音样本的频幅谱之间的差异以及判定结果与音频样本对应的标签数据之间的差异，构建联合损失；基于联合损失更新背景声音特征提取网络、说话声音特征提取网络以及判决网络的网络参数后继续训练，直至停止训练时获得用于从目标视频的音频信号中分离背景音轨与人声音轨的信源分离模型，以及用于根据分离出的背景音轨与人声音轨预测目标视频是否需要添加目标音频的判决网络。

在一个实施例中，参照图10，图10示出了一个实施例中训练信源分离模型和判决网络的流程示意图。计算机设备通过信源分离模型对音频样本进行信源分离处理，获得音频样本的背景音轨和人声音轨，将背景音轨与人声音轨输入判决网络，通过判决网络获得目标视频是否需要添加目标音频的判定结果，根据人声音轨的频幅谱与说话声音样本的频幅谱之间的差异构建第一损失，根据背景音轨的频幅谱与背景声音样本的频幅谱之间的差异构建第二损失，根据判定结果与音频样本对应的标签数据之间的差异构建第三损失，根据第一损失、第二损失和第三损失构建联合损失。其中，联合损失中的判定结果与音频样本对应的标签数据之间的差异，用于约束判决网络“学习”根据背景音轨和人声音轨生成目标视频是否需要添加目标音频的判定结果。

在一个实施例中，计算机设备按照预设的损失加权系数对第一损失、第二损失和第三损失加权求和，获得联合损失。

在一个实施例中，计算机设备按照最小化联合损失的方向，基于梯度下降算法获得本次训练对应的梯度，按照梯度更新背景声音特征提取网络、说话声音特征提取网络与判决网络的网络参数。

本实施例中，根据人声音轨的频幅谱与说话声音样本的频幅谱之间的差异、背景音轨的频幅谱与背景声音样本的频幅谱之间的差异以及判定结果与音频样本对应的标签数据之间的差异，构建联合损失，联合损失能够在训练过程中约束背景声音特征提取网络“学会”准确提取音频样本对应的背景声音特征、说话声音特征提取网络“学会”准确提取音频样本对应的说话声音特征，提升信源分离模型从音频信号中分离背景音轨与人声音轨的准确性，并且，约束判决网络“学会”根据背景音轨和人声音轨准确预测是否对目标视频添加目标音频，从而提升判定结果的准确性。

在一个实施例中，该方法还包括：当判定结果指示需要为目标视频添加目标音频时，则在为目标视频添加目标音频后，输出添加了目标音频的目标视频。

在一个实施例中，目标视频是从原视频中提取精彩视频内容或者关键视频内容后剪辑生成的视频，例如通过智能生产平台剪辑生成的短视频。

在一个实施例中，当判定结果指示需要为目标视频添加目标音频时，计算机设备可根据人声音轨中各活跃声音片段对应的响度调整目标音频的响度，将调整后的目标音频添加至目标视频，输出添加了目标音频的目标视频。

本实施例中，对于剪辑生成的视频，在不影响人耳对视频中的说话声音的感知的前提下，给出添加目标音频的判定结果，能够提升视频质量，并且，对于智能生产平台等批量生产短视频的场景，能够批量判断、批量添加，从而提升短视频生产效率。

在一个实施例中，如图11所示，提供了一种视频处理方法，本实施例主要以该方法应用于计算机设备（上述图1中的终端102或服务器104）来举例说明，包括以下步骤：

步骤S1102，从目标视频中提取音频信号。

在一个实施例中，目标视频可以是从至少一个视频中剪辑生成的视频。

步骤S1104，在信源分离模型中，对音频信号进行频谱变换，得到原始频幅谱；通过信源分离模型的背景声音特征提取网络，对原始频幅谱进行特征提取，获得音频信号对应的背景声音特征；通过信源分离模型的说话声音特征提取网络，对原始频幅谱进行特征提取，获得音频信号对应的说话声音特征；融合背景声音特征和说话声音特征，得到融合特征；基于背景声音特征与融合特征，获得背景声音的第一掩码，使用第一掩码从原始频幅谱中提取背景声音频幅谱后进行频谱反变换，获得源自于背景声音的背景音轨；基于说话声音特征与融合特征，获得说话声音的第二掩码，使用第二掩码从原始频幅谱中提取说话声音频幅谱后进行频谱反变换，获得源自于说话声音的人声音轨。

步骤S1106，分别定位背景音轨与人声音轨中的活跃声音片段。

步骤S1108，累加背景音轨中各活跃声音片段对应的时长，得到第一声音时长；累加人声音轨中各活跃声音片段对应的时长，得到第二声音时长；当第二声音时长与第一声音时长之差大于预设阈值时，则将目标音频添加至目标视频。

步骤S1110，当第二声音时长与第一声音时长之差小于或等于预设阈值时，则基于背景音轨中各活跃声音片段所对应的频幅谱，计算背景音轨对应的短时平均能量；基于人声音轨中各活跃声音片段所对应的频幅谱，计算人声音轨对应的短时平均能量；计算人声音轨对应的短时平均能量与背景音轨对应的短时平均能量之间的比值，根据比值获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，当比值大于预设阈值时，判定目标视频需要添加目标音频，当比值小于或等于预设阈值时，判定目标视频不需要添加目标音频。

通过本申请实施例提供的方法，参照图12，图12示出了一个实施例中信源分离模型分离出的背景音轨的时域波形图和频域能量图示意图；图13示出了一个实施例中信源分离模型分离出的人声音轨的时域波形图和频域能量图示意图；图14示出了一个实施例中为目标视频添加目标音频后的时域波形图和频域能量图示意图。对于图12-图14中所示时域波形图，其横坐标表示时间，纵坐标表示时域信号的幅度；对于图12-图14中所示的频域能量图，其横坐标表示时间，纵坐标表示音频信号的瞬时频率，某一时刻对应的频带的颜色深浅变化，反应了该瞬时时刻下各种频率与信号幅度（能量或强度）之间的关系，颜色越深，表示该瞬时时刻下该频率的信号能量越小。

上述视频处理方法，在判断是否需要为目标视频配乐时，对从目标视频提取的音频信号进行信源分离处理，获得背景音轨和人声音轨，使得能够对背景音轨和人声音轨分别处理，从而给出具有可靠依据的判定结果；基于背景音轨中的活跃声音片段确定背景音轨对应的短时平均能量，以及基于人声音轨中的活跃声音片段确定人声音轨对应的短时平均能量，能够避免无关片段对短时平均能量计算的干扰，提高响度特征的评估准确性。继而，根据背景音轨对应的短时平均能量和人声音轨对应的短时平均能量，预估目标视频中背景声音与说话声音的强弱区别，就可以获得目标视频是否需要添加目标音频的判定结果，能够在不影响人耳对说话声音的感知的前提下，给出添加目标音频的判定结果，实现了全自动地确定是否需要为目标视频添加目标音频，能够克服人工标注效率低下的问题，从整体上加快生成视频的速度，提升视频生成效率。

应该理解的是，虽然图2、11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图15所示，提供了一种视频处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：提取模块1502、信源分离模块1504、定位模块1506、确定模块1508和判断模块1510，其中：

提取模块1502，用于从目标视频中提取音频信号；

信源分离模块1504，用于对音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨；

定位模块1506，用于分别定位背景音轨与人声音轨中的活跃声音片段；

确定模块1508，用于基于背景音轨中的活跃声音片段，确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段，确定音频信号对应的说话声音响度特征；

判定模块，用于根据背景声音响度特征和说话声音响度特征，获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，信源分离模块1504还用于：在信源分离模型中，对音频信号进行频谱变换，得到原始频幅谱；通过信源分离模型的背景声音特征提取网络，对原始频幅谱进行特征提取，获得音频信号对应的背景声音特征；通过信源分离模型的说话声音特征提取网络，对原始频幅谱进行特征提取，获得音频信号对应的说话声音特征；基于背景声音特征与说话声音特征，获得音频信号中的源自于背景声音的背景音轨和源自于说话声音的人声音轨。

在一个实施例中，信源分离模块1504还用于：融合背景声音特征和说话声音特征，得到融合特征；基于背景声音特征与融合特征，获得背景声音的第一掩码，使用第一掩码从原始频幅谱中提取背景声音频幅谱后进行频谱反变换，获得源自于背景声音的背景音轨；基于说话声音特征与融合特征，获得说话声音的第二掩码，使用第二掩码从原始频幅谱中提取说话声音频幅谱后进行频谱反变换，获得源自于说话声音的人声音轨。

在一个实施例中，定位模块1506还用于：对背景音轨中的声音片段进行活跃度检测，得到各声音片段对应的声音活跃度，并从背景音轨中剔除声音活跃度低于预设阈值的声音片段后，得到背景音轨中的活跃声音片段；对人声音轨中的声音片段进行活跃度检测，得到各声音片段对应的声音活跃度，并从人声音轨中剔除声音活跃度低于预设阈值的声音片段后，得到人声音轨中的活跃声音片段。

在一个实施例中，确定模块1508还用于：基于背景音轨中各活跃声音片段所对应的频幅谱，计算背景音轨对应的短时平均能量，作为音频信号对应的背景声音响度特征；基于人声音轨中各活跃声音片段所对应的频幅谱，计算人声音轨对应的短时平均能量，作为音频信号对应的背景声音响度特征。

在一个实施例中，确定模块1508还用于：计算人声音轨对应的短时平均能量与背景音轨对应的短时平均能量之间的比值，当比值大于预设阈值时，判定目标视频需要添加目标音频，当比值小于或等于预设阈值时，判定目标视频不需要添加目标音频。

在一个实施例中，判定模块还用于：基于背景声音响度特征与说话声音响度特征之间的差异，确定音频信号中说话声音的可感知程度；当音频信号中说话声音的可感知程度大于预设阈值时，则判定目标视频需要添加目标音频，以及当音频信号中说话声音的可感知程度小于预设阈值时，则判定目标视频不需要添加目标音频。

在一个实施例中，判定模块还用于：累加背景音轨中各活跃声音片段对应的时长，得到第一声音时长；累加人声音轨中各活跃声音片段对应的时长，得到第二声音时长；当第二声音时长与第一声音时长之差大于第一预设阈值时，则将目标音频添加至目标视频；当第二声音时长与第一声音时长之差小于或等于第一预设阈值且大于第二预设阈值时，则从音频信号中抹除背景音轨后再为目标视频添加目标音频；当第二声音时长与第一声音时长之差小于或等于第二预设阈值时，则执行基于背景声音响度特征与说话声音响度特征之间的差异，确定音频信号中说话声音的可感知程度的步骤。

在一个实施例中，视频处理装置还包括判决模块，判决模块用于：将背景音轨与人声音轨，输入基于神经网络的用于预测是否需要为目标视频添加目标音频的判决网络，通过判决网络获得目标视频是否需要添加目标音频的判定结果。

在一个实施例中，视频处理装置还包括训练模块，训练模块用于：获取基于说话声音样本与背景声音样本生成的音频样本；在信源分离模型中，对音频样本进行频谱变换，得到原始频幅谱；通过信源分离模型的背景声音特征提取网络，对原始频幅谱进行特征提取，获得音频样本对应的背景声音特征；通过信源分离模型的说话声音特征提取网络，对原始频幅谱进行特征提取，获得音频样本对应的说话声音特征；基于背景声音特征与说话声音特征，获得音频样本中的源自于背景声音的背景音轨和源自于说话声音的人声音轨；根据人声音轨的频幅谱与说话声音样本的频幅谱之间的差异、背景音轨的频幅谱与背景声音样本的频幅谱之间的差异，构建目标损失；基于目标损失更新背景声音特征提取网络与说话声音特征提取网络的网络参数后，返回获取基于说话声音样本与背景声音样本生成的音频样本的步骤继续训练，直至停止训练时得到用于从音频信号中分离背景音轨与人声音轨的信源分离模型。

在一个实施例中，视频处理装置还包括判决模块，判决模块用于：将背景音轨与人声音轨，输入基于神经网络的用于预测是否需要为目标视频添加目标音频的判决网络，通过判决网络获得目标视频是否需要添加目标音频的判定结果；训练模块还用于：根据人声音轨的频幅谱与说话声音样本的频幅谱之间的差异、背景音轨的频幅谱与背景声音样本的频幅谱之间的差异以及判定结果与音频样本对应的标签数据之间的差异，构建联合损失；基于联合损失更新背景声音特征提取网络、说话声音特征提取网络以及判决网络的网络参数后继续训练，直至停止训练时获得用于从目标视频的音频信号中分离背景音轨与人声音轨的信源分离模型，以及用于根据分离出的背景音轨与人声音轨预测目标视频是否需要添加目标音频的判决网络。

在一个实施例中，视频处理装置还包括添加模块，添加模块用于：当判定结果指示需要为目标视频添加目标音频时，则在为目标视频添加目标音频后，输出添加了目标音频的目标视频。

关于视频处理装置的具体限定可以参见上文中对于视频处理方法的限定，在此不再赘述。上述视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

上述视频处理装置中，在判断是否需要为目标视频配乐时，对从目标视频提取的音频信号进行信源分离处理，获得背景音轨和人声音轨，使得能够对背景音轨和人声音轨分别处理，从而给出具有可靠依据的判定结果；基于背景音轨中的活跃声音片段确定音频信号对应的背景声音响度特征，以及基于人声音轨中的活跃声音片段确定音频信号对应的说话声音响度特征，能够避免无关片段对响度特征评估的干扰，提高响度特征的评估准确性。继而，根据背景声音响度特征和说话声音响度特征，预估目标视频中背景声音与说话声音的强弱区别，就可以获得目标视频是否需要添加目标音频的判定结果，能够在不影响人耳对说话声音的感知的前提下，给出添加目标音频的判定结果，实现了全自动地确定是否需要为目标视频添加目标音频，能够克服人工标注效率低下的问题，从整体上加快生成视频的速度，提升视频生成效率。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口和图像采集装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种视频处理方法。该计算机设备的图像采集装置可以是摄像头，摄像头可以是单目摄像头、双目摄像头、深度摄像头、3D（3 Dimensions，三维）摄像头等。

本领域技术人员可以理解，图16和图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

从目标视频中提取音频信号；

分别定位所述背景音轨与所述人声音轨中的活跃声音片段；

2.根据权利要求1所述的方法，其特征在于，所述对所述音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨，包括：

在信源分离模型中，对所述音频信号进行频谱变换，得到原始频幅谱；

通过所述信源分离模型的背景声音特征提取网络，对所述原始频幅谱进行特征提取，获得所述音频信号对应的背景声音特征；

通过所述信源分离模型的说话声音特征提取网络，对所述原始频幅谱进行特征提取，获得所述音频信号对应的说话声音特征；

基于所述背景声音特征与所述说话声音特征，获得所述音频信号中的源自于背景声音的背景音轨和源自于说话声音的人声音轨。

3.根据权利要求2所述的方法，其特征在于，所述基于所述背景声音特征与所述说话声音特征，获得所述音频信号中的源自于背景声音的背景音轨和源自于说话声音的人声音轨，包括：

融合所述背景声音特征和所述说话声音特征，得到融合特征；

基于所述背景声音特征与所述融合特征，获得背景声音的第一掩码，使用所述第一掩码从所述原始频幅谱中提取背景声音频幅谱后进行频谱反变换，获得源自于背景声音的背景音轨；

基于所述说话声音特征与所述融合特征，获得说话声音的第二掩码，使用所述第二掩码从所述原始频幅谱中提取说话声音频幅谱后进行频谱反变换，获得源自于说话声音的人声音轨。

4.根据权利要求1所述的方法，其特征在于，所述分别定位所述背景音轨与所述人声音轨中的活跃声音片段，包括：

对所述背景音轨中的声音片段进行活跃度检测，得到各声音片段对应的声音活跃度，并从所述背景音轨中剔除声音活跃度低于预设阈值的声音片段后，得到所述背景音轨中的活跃声音片段；

对所述人声音轨中的声音片段进行活跃度检测，得到各声音片段对应的声音活跃度，并从所述人声音轨中剔除声音活跃度低于预设阈值的声音片段后，得到所述人声音轨中的活跃声音片段。

5.根据权利要求1所述的方法，其特征在于，所述基于所述背景音轨中的活跃声音片段，确定所述音频信号对应的背景声音响度特征，以及基于所述人声音轨中的活跃声音片段，确定所述音频信号对应的说话声音响度特征，包括：

基于所述背景音轨中各所述活跃声音片段所对应的频幅谱，计算所述背景音轨对应的短时平均能量，作为所述音频信号对应的背景声音响度特征；

基于所述人声音轨中各所述活跃声音片段所对应的频幅谱，计算所述人声音轨对应的短时平均能量，作为所述音频信号对应的背景声音响度特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述背景声音响度特征和所述说话声音响度特征，获得所述目标视频是否需要添加目标音频的判定结果，包括：

计算所述人声音轨对应的短时平均能量与所述背景音轨对应的短时平均能量之间的比值，当所述比值大于预设阈值时，判定所述目标视频需要添加所述目标音频，当所述比值小于或等于预设阈值时，判定所述目标视频不需要添加所述目标音频。

7.根据权利要求1所述的方法，其特征在于，所述根据所述背景声音响度特征和所述说话声音响度特征，获得所述目标视频是否需要添加目标音频的判定结果，包括：

基于所述背景声音响度特征与所述说话声音响度特征之间的差异，确定所述音频信号中说话声音的可感知程度；

当所述音频信号中说话声音的可感知程度大于预设阈值时，则判定所述目标视频需要添加目标音频，以及当所述音频信号中说话声音的可感知程度小于预设阈值时，则判定所述目标视频不需要添加目标音频。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

累加所述背景音轨中各所述活跃声音片段对应的时长，得到第一声音时长；

累加所述人声音轨中各所述活跃声音片段对应的时长，得到第二声音时长；

当所述第二声音时长与所述第一声音时长之差大于第一预设阈值时，则将所述目标音频添加至所述目标视频；

当所述第二声音时长与所述第一声音时长之差小于或等于第一预设阈值且大于第二预设阈值时，则从所述音频信号中抹除所述背景音轨后再为所述目标视频添加目标音频；

当所述第二声音时长与所述第一声音时长之差小于或等于第二预设阈值时，则执行所述基于所述背景声音响度特征与所述说话声音响度特征之间的差异，确定所述音频信号中说话声音的可感知程度的步骤。

9.根据权利要求1所述的方法，其特征在于，所述对所述音频信号进行信源分离处理，获得源自于背景声音的背景音轨和源自于说话声音的人声音轨之后，所述方法还包括：

将所述背景音轨与所述人声音轨，输入基于神经网络的用于预测是否需要为目标视频添加目标音频的判决网络，通过所述判决网络获得所述目标视频是否需要添加目标音频的判定结果。

10.根据权利要求1所述的方法，其特征在于，通过基于神经网络的信源分离模型实现对所述音频信号进行信源分离处理，所述信源分离模型的训练步骤包括：

获取基于说话声音样本与背景声音样本生成的音频样本；

在信源分离模型中，对所述音频样本进行频谱变换，得到原始频幅谱；

通过所述信源分离模型的背景声音特征提取网络，对所述原始频幅谱进行特征提取，获得所述音频样本对应的背景声音特征；

通过所述信源分离模型的说话声音特征提取网络，对所述原始频幅谱进行特征提取，获得所述音频样本对应的说话声音特征；

基于所述背景声音特征与所述说话声音特征，获得所述音频样本中的源自于背景声音的背景音轨和源自于说话声音的人声音轨；

根据所述人声音轨的频幅谱与所述说话声音样本的频幅谱之间的差异、以及所述背景音轨的频幅谱与所述背景声音样本的频幅谱之间的差异，构建目标损失；

基于所述目标损失更新所述背景声音特征提取网络与所述说话声音特征提取网络的网络参数后，返回所述获取基于说话声音样本与背景声音样本生成的音频样本的步骤继续训练，直至停止训练时得到用于从音频信号中分离背景音轨与人声音轨的信源分离模型。

11.根据权利要求10所述的方法，其特征在于，通过基于神经网络的判决网络预测所述目标视频是否需要添加目标音频的判定结果，所述判决网络与所述信源分离模型联合训练得到，所述方法还包括：

将所述背景音轨与所述人声音轨，输入基于神经网络的用于预测是否需要为目标视频添加目标音频的判决网络，通过所述判决网络获得所述目标视频是否需要添加目标音频的判定结果；

所述联合训练的步骤包括：

根据所述人声音轨的频幅谱与所述说话声音样本的频幅谱之间的差异、所述背景音轨的频幅谱与所述背景声音样本的频幅谱之间的差异以及所述判定结果与所述音频样本对应的标签数据之间的差异，构建联合损失；

基于所述联合损失更新所述背景声音特征提取网络、所述说话声音特征提取网络以及所述判决网络的网络参数后继续训练，直至停止训练时获得用于从目标视频的音频信号中分离背景音轨与人声音轨的信源分离模型，以及用于根据分离出的背景音轨与人声音轨预测所述目标视频是否需要添加目标音频的判决网络。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述方法还包括：当所述判定结果指示需要为所述目标视频添加所述目标音频时，则在为所述目标视频添加所述目标音频后，输出添加了所述目标音频的目标视频。

13.一种视频处理装置，其特征在于，所述装置包括：

提取模块，用于从目标视频中提取音频信号；

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。