CN111491176A

CN111491176A - 一种视频处理方法、装置、设备及存储介质

Info

Publication number: CN111491176A
Application number: CN202010344310.0A
Authority: CN
Inventors: 张继丰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-04
Anticipated expiration: 2040-04-27
Also published as: CN111491176B

Abstract

本申请公开了一种视频处理方法、装置、设备及存储介质，涉及视频处理技术领域。具体实现方式为：确定原始视频的原始音频和解说音频之间的响度差异；根据响度差异，调节解说音频；根据调节后的解说音频和原始视频，合成解说视频。本申请实施例的技术方案通过引入原始频频和解说音频之间的响度差异作为解说音频的调节依据，实现对解说音频的自动调节，从而根据自动调节后的解说音频进行解说视频合成，无需视频编辑者频繁对解说音频进行手动调节，提高了解说视频的合成效率。

Description

一种视频处理方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术，尤其涉及视频处理技术，特别涉及一种视频处理方法、装置、设备及存储介质。

背景技术

在视频应用中包含有许多添加有解说音频的视频片段。这些视频片段通常由视频编辑者通过视频剪辑将解说音频合成到视频中。由于所合成视频的解说音频与原始音频之间存在一定耦合性，当对已发布的合成视频进行音量调节时，将会改变合成视频的音质音量，严重影响用户的观看体验。因此，视频合成质量与视频编辑者的操作质量息息相关。

为了保证所合成视频的质量，现有技术中视频编辑者通常借助视频编辑软件，反复手动调节解说音频轨中解说音频的音量音质，进而进行视频合成。然而通过手动调节的方式操作过程繁琐，严重影响了视频的合成效率。

发明内容

本申请实施例提供了一种视频处理方法、装置、设备及存储介质，以提高解说视频合成效率。

根据第一方面，本申请提供了一种视频处理方法，包括：

确定原始视频的原始音频和解说音频之间的响度差异；

根据所述响度差异，调节所述解说音频；

根据调节后的解说音频和所述原始视频，合成解说视频。

根据第二方面，本申请还提供了一种视频处理装置，包括：

响度差异确定模块，用于确定原始视频的原始音频和解说音频之间的响度差异；

解说音频调节模块，用于根据所述响度差异，调节所述解说音频；

解说视频合成模块，用于根据调节后的解说音频和所述原始视频，合成解说视频。

根据第三方面，本申请还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面提供的一种视频处理方法。

根据第四方面，本申请还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面提供的一种视频处理方法。

本申请实施例通过确定原始视频的原始音频和解说音频之间的响度差异；根据响度差异，调节解说音频；根据调节后的解说音频和原始视频，合成解说视频。本申请实施例的技术方案能够实现解说视频的自动合成，提高了解说视频的合成效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的一种视频处理方法的流程图；

图2是本申请实施例提供的另一种视频处理方法的流程图；

图3A是本申请实施例提供的另一种视频处理方法的流程图；

图3B是本申请实施例提供的一种原始响度图的示意图；

图4A是本申请实施例提供的另一种视频处理方法的流程图；

图4B是本申请实施例提供的一种神经网络模型的结构图；

图4C是本申请实施例提供的原始响度图和解说响度图的对照图；

图5是本申请实施例提供的一种视频处理装置的结构图；

图6是用来实现本申请实施例的视频处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例适用于在包含有原始音频的原始视频中，添加解说音频的情况。本申请实施例中所涉及的各视频处理方法可以通过视频处理装置执行，该装置采用软件和/或硬件实现，并具体配置于电子设备中。

图1是本申请实施例提供的一种视频处理方法的流程图，该方法包括：

S101、确定原始视频的原始音频和解说音频之间的响度差异。

其中，原始视频是指待添加解说的视频。原始音频是指原始视频中的自带音频。

其中，响度用于表征声音的大小或强弱，与音频的振幅有关。其中，响度差异用于表征原始音频和解说音频之间的音频差异。

可选的，确定原始视频的原始音频和解说音频之间的响度差异，可以是：获取预先存储的原始视频的原始音频的原始响度信息，以及获取预先存储的解说音频的解说响度信息；确定原始响度信息和解说响度信息之间的响度差异。

或者，可选的，确定原始视频的原始音频和解说音频之间的响度差异，还可以是：获取原始视频的原始音频，以及获取解说音频；分别测量原始音频和解说音频的声压级和频率，按等响度曲线来确定各自的响度级，然后根据方-宋关系确定原始响度信息和解说响度信息；确定原始响度信息和解说响度信息之间的响度差异。

或者，可选的，将原始视频的原始音频和解说音频作为输入参数，输入至预先训练好的深度学习模型中，根据深度学习模型的输出结果，确定原始音频和解说音频之间的响度差异。其中，机器网络模型基于大量的原始音频和相应的解说音频训练得到。示例性地，深度学习模型可以是孪生网络模型。

或者，可选的，将原始音频和解说音频作为输入参数，分别输入至各自训练好的机器学习模型中，得到原始响度信息和解说响度信息。其中，机器学习模型根据大量的音频训练样本以及与音频训练样本对应的响度信息训练得到。

S102、根据所述响度差异，调节所述解说音频。

示例性地，根据预先设定的音质音量调节表，查找与响度差异对应的音量调节值和/或音质调节值；根据查找结果，调节解说音频。

其中，音质调节值可以是对采样频率和编码位速率等参数中的至少一个的量化调节值。例如，音质调节值可以包括采样频率调节值，或者音质调节值包括编码位速率调节值。

在本申请实施例的一种可选实施方式中，预先构建有响度差异与音质调节量之间的对应关系；根据该对应关系，查找与响度差异对应的音质调节值；根据该音质调节值，对解说音频进行音质调节，从而对解说音频的音质情况加以优化。

在本申请实施例的另一可选实施方式中，预先构建有响度差异与音频调节量之间的对应关系；根据该对应关系，查找与响度差异对应的音量调节值；根据该音量调节值，对解说音频进行音量调节，从而对解说音频的音量情况加以优化。

需要说明的是，一般的，为了保证所合成解说视频的质量，通常在录制解说音频时，充分考虑所录制解说音频的音质情况。因此，后续对解说音频的调节一般为音量调节。然而，在对解说音频进行音量调节后，可能会导致调节后的解说音频与调节前的解说音频之间存在一定的音质差异，因此，需要对解说音频关联进行音质调节。

为了充分保证调节后的解说音频的音量和音质情况，从而为所合成解说视频的质量提供保障，在本申请实施例的再一可选实施方式中，根据预先设定的音质音量调节表，查找与响度差异对应的音量调节值和音质调节值；根据音量调节值对解说音频进行音量调节；根据音质调节值对调节后的解说音频进行关联的音质调节。可以理解的是，为了提高调节效率，还可以根据音量调节值和音质调节值，对解说音频进行单次调节即可。

可选的，根据音质调节值，对解说音频进行音质调节，可以是：将解说音频解码成模拟信号；根据历史采样频率和音质调节值中的采样频率调节值，确定新的采样频率；根据新的采样频率，对解说音频的模拟信号重新进行采样；根据历史编码位速率对采样后的数据进行编码，得到新的解说音频。

或者，可选的，根据音质调节值，对解说音频进行音质调节，可以是：将解说音频解码成模拟信号；根据历史采样频率，对解说音频的模拟信号重新进行采样；根据历史编码位速率和音质调节值中的编码位速率调节值，确定新的编码位速率；根据新的编码位速率，对采样后的数据进行编码，得到新的解说音频。

或者，可选的，根据音质调节值，对解说音频进行音质调节，可以是：将解说音频解码成模拟信号；根据历史采样频率和音质调节值中的采样频率调节值，确定新的采样频率；根据新的采样频率，对解说音频的模拟信号重新进行采样；根据历史编码位速率和音质调节值中的编码位速率调节值，确定新的编码位速率；根据新的编码位速率，对采样后的数据进行编码，得到新的解说音频。

S103、根据调节后的解说音频和所述原始视频，合成解说视频。

可以理解的是，为了便于对原始视频的重复利用，所合成的解说视频可以独立于原始视频存在，并将解说视频进行存储，以便后续进行解说视频的使用，例如进行解说视频的发布等。

为了提高所合成解说视频的质量，在调节解说音频之后，还可以将调节后的解说音频作为新的解说音频，返回执行响度差异确定操作，并根据新确定的响度差异对解说音频进行再次调节；当满足调节截止条件时，中止对解说音频的调节，并根据最新得到的调节后的解说音频和原始视频，合成解说视频。

其中，调节截止条件可以是响度差异满足设定差异度阈值，或者调节次数达到设定阈值，或者各次确定的响度差异收敛。其中，设定差异度阈值可以由技术人员根据需要或经验值进行设定，或者通过大量试验反复确定。

需要说明的是，为了满足不同用户对解说视频合成质量的要求，还可以在对解说音频调节过程中，接收调节中止指令，用于中止对解说音频的后续调节操作，或用于接收用户对解说音频的人工调节操作，并在接收到视频合成指令后，根据最新得到的解说音频和原始视频，进行解说视频合成。

可以理解的是，在多次对解说音频进行调节时，可以将调节后的解说音频独立存储，从而在后续接收到调节中止指令，或者根据用户的合成需求，对所需的调节后的解说音频进行提取。

本申请实施例通过确定原始视频的原始音频和解说音频之间的响度差异；根据响度差异调节解说音频；根据调节后的解说音频和原始视频，合成解说视频。本申请实施例采用上述技术方案，通过引入原始频频和解说音频之间的响度差异作为解说音频的调节依据，实现对解说音频的自动调节，从而根据自动调节后的解说音频进行解说视频合成，无需视频编辑者频繁对解说音频进行手动调节，提高了解说视频的合成效率。

图2是本申请实施例提供的另一种视频处理方法的流程图，该方法在上述各技术方案的基础上，进行了优化改进。

进一步地，将操作“确定原始视频的原始音频和解说音频之间的响度差异”细化为“根据所述原始音频，确定所述原始音频的原始响度信息，以及，根据所述解说音频，确定所述解说音频的解说响度信息；确定所述原始响度信息和所述解说响度信息之间的响度差异”，以完善响度差异的确定机制。

如图2所示的一种视频处理方法，包括：

S201、根据所述原始音频，确定所述原始音频的原始响度信息，以及根据所述解说音频，确定所述解说音频的解说响度信息。

在本申请实施例的一种可选实施方式中，可以分别测量原始音频和解说音频的声压级和频率，按等响度曲线来确定各自的响度级，然后根据方-宋关系确定原始响度信息和解说响度信息。

为了提高原始响度信息和解说响度信息的确定效率，在本申请实施例的另一可选实施方式中，可以采用神经网络模型对原始音频和解说音频进行处理，得到原始响度信息和解说响度信息。

具体的，将大量的训练原始音频和训练解说音频作为训练样本，对预先构建的神经网络模型进行训练，得到各训练样本的预测响度信息；根据各训练样本的预测响度信息和对应的实际响度信息，对神经网络模型的模型参数进行优化调整，以实现对神经网络模型的模型训练。

由于原始音频和解说音频的声音来源不同，使得音频中的音色、音调和响度等的差异较大，因此，采用同一神经网络模型分别对原始音频和解说音频进行处理所得到的原始响度信息和解说响度信息的准确度较差。

为了进一步提高原始响度信息和解说响度信息的准确度，在本申请实施例的又一可选实施方式中，可以将原始音频和解说音频作为输入参数，分别输入至各自训练好的神经网络模型中，得到原始响度信息和解说响度信息。也即，将原始音频输入至预先训练好的与原始音频关联的神经网络模型中，得到原始响度信息；以及，将解说音频输入至预先训练好的与解说音频关联的神经网络模型中，得到解说响度信息。

具体的，将大量的训练原始音频，输入至预先构建的神经网络模型中，得到训练原始音频的预测响度信息；根据训练原始音频的预测响度信息和实际响度信息，优化调整神经网络模型的模型参数，得到训练好的原始音频模型。相应的，将原始音频作为输入参数，输入至原始音频模型，得到该原始音频对应的原始响度信息。

具体的，将大量的训练解说音频，输入至预先构建的神经网络模型中，得到训练解说音频的预测响度信息；根据训练解说音频的预测响度信息和实际响度信息，优化调整神经网络模型的模型参数，得到训练好的解说音频模型。相应的，将解说音频作为输入参数，输入至解说音频模型，得到该解说音频对应的解说响度信息。

其中，原始音频模型和解说音频模型所采用的神经网络模型的结构可以相同或不同。由于所训练模型均用于基于所输入音频进行响度信息的确定，也即所训练模型的作用相同，因此，一般的，原始音频模型和解说音频模型所采用的神经网络模型的结构相同。

可选的，神经网络模型包括依次连接的特征提取层、全连接层和线性处理层；其中，特征提取层，用于提取输入音频的至少一个音频特征向量；全连接层，用于对各音频特征向量进行特征融合；线性处理层，用于对融合后的音频特征向量进行线性变换，得到各输入音频的响度信息。其中，输入音频为原始音频和/或解说音频。

为了提高所提取的音频特征向量的准确度和全面性，通常会提取输入音频中至少两个不同频段的特征向量作为音频特征向量。例如，可以提取输入音频的低频特征向量和高频特征向量作为音频特征向量。其中，低频和高频对应的频段，可以由技术人员根据需要或经验值进行确定。

为了提高特征提取效率，特征提取层可以基于扩张卷积网络实现，仅增大特征网络感受视野，而不会带来计算量上的增加。

其中，原始响度信息用于表征原始音频中的声音大小或强弱，与原始音频的振幅有关；解说响度信息用于表征解说音频中的声音大小或强弱，与解说音频的振幅有关。

示例性地，原始响度信息可以是单一响度值，用于表征原始音频的音量情况；相应的，解说响度信息也可以是单一响度值，用于表征解说音频的音量情况。

为了提高原始响度信息与原始音频之间的表征度，以及提高解说音频响度信息与解说音频之间的表征度，一般的，原始响度信息至少为两个响度值，相应的，解说响度信息也至少为两个响度值；其中原始响度信息和解说响度信息中响度值一一对应。

S202、确定所述原始响度信息和所述解说响度信息之间的响度差异。

可选的，当原始响度信息和解说响度信息均为单一响度值时，在进行响度差异确定时，可以直接确定原始响度信息和解说响度信息的差值、原始响度信息与解说响度信息的占比、或者原始响度信息和解说响度信息在原始响度信息中的占比，并将所确定结果作为原始响度信息和解说响度信息之间的响度差异。

可选的，当原始响度信息和解说响度信息为非单一响度值时，在进行响度差异确定时，可以针对每对原始响度信息和解说响度信息，采用前述单一响度值的方式进行响度差异的确定；确定各对原始响度信息和解说响度信息对应的响度差异的加权和，并将和值作为最终的响度差异。

S203、根据所述响度差异，调节所述解说音频。

S204、根据调节后的解说音频和所述原始视频，合成解说视频。

本申请实施例将确定原始视频的原始音频和解说音频之间的响度差异的操作，细化为确定原始音频的原始响度信息，以及确定解说音频的解说响度信息；确定原始响度信息和解说响度信息之间的响度差异，从而完善了响度差异确定机制，为后续进行解说音频的调节提供参照依据，进而为提高解说视频的音质音量奠定基础。

图3A是本申请实施例提供的另一种视频处理方法的流程图，该方法在上述各技术方案的基础上，进行了优化改进。

进一步地，将“原始音频的原始响度信息”细化为“原始音频的音频响度区间”，将“所述解说音频的解说响度信息”细化为“解说音频的音频响度区间”；相应的，将操作“确定所述原始响度信息和所述解说响度信息之间的响度差异”细化为“确定所述原始音频的音频响度区间和所述解说音频的音频响度区间之间的重合度，并将所述重合度作为所述响度差异”，以进一步完善响度差异的确定机制。

如图3A所示的一种视频处理方法，包括：

S301、根据所述原始音频，确定所述原始音频的音频响度区间，以及根据所述解说音频，确定所述解说音频的音频响度区间。

其中，音频响度区间可以根据所属音频的响度值的最大最小值确定。

可选的，可以将最大响度值和最小响度值分别作为音频响度区间的边界值，以生成音频响度区间。或者可选的，还可以将根据最大响度值和最小响度值所生成的音频响度区间，根据预先设定的扩展阈值进行区间扩展，并将扩展后的区间作为最终确定的音频响度区间。

示例性地，扩展阈值可以是一个值，用于在最小响度值的基础上，减去该数值，以实现响度区间的左延伸；和/或，在最大响度值的基础上，加上该数值，以实现响度区间的右延伸。示例性地，扩展阈值还可以是两个值，左扩展阈值和右扩展阈值，两个扩展阈值的数值相同或不同。相应的，在最小响应值的基础上，减去做扩展阈值，以实现响度区间的左延伸；以及，在最大响度值的基础上，加上右扩展阈值，以实现响度区间的右延伸。

其中，扩展阈值的数量和数值，可以由人员根据需要或经验值进行确定。

S302、确定所述原始音频的音频响度区间和所述解说音频的音频响度区间之间的重合度，并将所述重合度作为所述响度差异。

示例性地，可以确定原始音频的音频响度区间和解说音频的音频响度区间的交并比，将该交并比作为响度差异。

S303、根据所述响度差异，调节所述解说音频。

S304、根据调节后的解说音频和所述原始视频，合成解说视频。

需要说明的是，当原始音频和解说音频均未为至少两段音频时，可以分别针对每一段原始音频，进行原始音频的音频响度区间，和相应的解说音频的音频响度区间的交并比，并将交并比作为响度差异；根据该响度差异调节该段原始音频对应的解说音频；将调整完后的各段原始音频对应的解说音频，根据时间顺序与各段原始音频对应的原始视频，合成完整的解说视频。

为了便于响度差异的可视化，增强视频编辑者的乐趣，同时提高响度差异确定效率，当存在至少两段原始音频和相应的解说音频时，确定原始音频的音频响度区间和解说音频的音频响度区间之间的重合度，还可以：根据所述原始音频的段数，确定原始响度图的扇形角度；根据所述原始音频的音频响度区间的边界值，分别在所述原始音频所关联扇形区域的扇形边上确定原始边界点；根据所述原始边界点在所述原始音频关联的扇形区域内，确定原始响度图形；以及，根据所述解说音频的段数，确定解说响度图的扇形角度；根据所述解说音频的音频响度区间的边界值，分别在所述解说音频所关联扇形区域的扇形边上确定解说边界点；根据所述解说边界点在所述解说音频关联的扇形区域内，确定解说响度图形；确定所述原始响度图形和所述解说响度图形的图形重合度。

其中，原始响度图形和解说响度图形为梯形或圆环形。

需要说明的是，为了便于对各段解说音频分别进行调节，同时保证解说音频与相应原始音频之间的对应关系，还可以根据时间顺序分别对原始音频和解说音频进行编号。由于原始响度图和解说响度图中各扇形区域分别与原始音频和解说音频一一对应，因此，还可以对相应的扇形区域等同编号。

示例性地，确定原始响度图形和解说响度图形的图形重合度，可以是：针对编号相同的扇形区域，确定原始响度图像和解说响度图形的重合面积与总面积的比值，并将各比值作为该编号的原始音频和解说音频之间的响度差异。

参见图3B所示的一种原始响度图，其中，该原始响度图中对应三段原始音频，因此将该原始响度图划分为三个扇形区域31、32和33。以第一段原始音频对应的扇形区域31为例，该段原始音频的音频响度区间为[a,b]，在扇形区域31的扇形边OA和OB上，确定距离圆心O分别为a和b的四个点C、D、E和F，并将这四个点作为原始边界点，确定梯形CDEF作为该扇形区域31的原始响度图形(图中阴影区域)。

相应的，解说响度图中也对应有与各段原始音频对应的解说音频，用与原始响度图形相同的方式确定解说响度图形。在进行响度差异确定时，可以同时将原始响度图和解说响度图中各响度图形面积的确定，并根据各扇形区域对应的重合面积和总面积的比值，确定相应的响度差异。

在本申请实施例的一种可选实施方式中，还可以通过调用雷达响度扫描器，实现原始响度图和解说响度图的确定，并根据原始响度图和解说响度图中响度图形的比较，对解说音频进行音量调节和/或音质调节。

本申请实施例通过将原始音频的原始响度信息作为原始音频的音频响度区间，将解说音频的解说响度信息作为解说音频的音频响度区间；相应的，将响度差异确定操作细化为，确定原始音频的音频响度区间和解说音频的音频响度区间之间的重合度，并将重合度作为响度差异。采用上述技术方案完善了响度差异的确定机制，提高了原始音频和解说音频之间的响度差异的确定效率，同时兼顾了各响度信息与对应音频的表征度，进而提高了所确定响度差异的准确度，为后续进行解说音频的调节提供了有效的数据支撑，同时提高解说视频的质量良好了基础。

图4A是本申请实施例提供的另一种视频处理方法的流程图，该方法在上述各技术方案的基础上，提供了一种优选实施方式。

如图4A所示的一种视频处理方法，包括：

S401、将原始视频输入至视频编辑器中，并从原声音频轨中提取至少一段原始音频。

S402、在解说音频轨中录制解说音频，并从解说音频轨中提取各段原始音频对应的解说音频。

S403、将原始音频和解说音频作为输入参数，分别输入各自训练好的神经网络模型中，得到原始音频的至少两个响度值和解说音频的至少两个响度值。

参见图4B所示的神经网络模型的结构图。其中，神经网络模型包括依次连接的特征提取层41、全连接层42和线性处理层43。

其中，特征提取层41采用扩张卷积网络，用于提取输入音频的两个音频特征向量。该扩张卷积网络共14层，用于增大特征网络感受视野，提高特征提取效率，不会带来计算量上的增加。其中，扩张卷积网络的层数由技术人员根据需要或经验值进行确定，还可以通过大量试验反复确定。其中，扩张卷积网络中可以包含卷积层、激活层和归一化层中的至少一种。

其中，全连接层42，用于将扩张卷积网络输出的两个音频特征向量通过拼接的方式进行特征融合。

其中，线性处理层43，用于对融合后的音频特征向量进行线性变换，得到各输入音频的至少两个响度值。

其中，输入音频为原始音频或解说音频。

需要说明的是，由于原始音频和解说音频自身差异较大，因此原始音频和解说音频可以采用相同的神经网络模型结构，但需要分别进行模型训练。

S404、调用排序函数，确定原始音频的最大响度值和最小响度值，并生成原始响度区间；以及确定解说音频的最大响度值和最小响度值，并生成解说响度区间。

S405、根据解说音频的段数，调用相应数量的雷达响度扫描器，将各段解说音频的解说响度区间，在解说响度图中进行标注，形成解说响度环。

S406、将各解说音频对应的原始音频的原始响度区间，在原始响度图中进行标注，形成原始响度环。

S407、确定解说响度环和原始响度环，在各段音频对应区域的图形重合度，并将各图形重合度，分别作为各段原始音频和相应解说音频之间的响度差异。

以有4段原始音频和相应的4段解说音频为例，并结合图4C所示原始响度图和解说响度图为例，进行说明。

其中，在原始响度图50中，根据原始音频段数，将圆形划分为4个原始扇形区域51、52、53和54。针对每个原始扇形区域，在该原始扇形区域的扇形边上，确定距离圆心O为该原始扇形区域对应的原始音频的最大响度值和最小响度值的四个原始边界点；将原始边界点依次连接，形成封闭的梯形区域作为该原始扇形区域对应的原始响度图形(对应图中阴影区域)。

在解说响度图60中，根据解说音频段数，将圆形划分为4个解说扇形区域61、62、63和64。针对每个解说扇形区域，将该解说扇形区域的扇形边上，确定距离圆心O为该解说扇形区域对应的解说音频的最大响度值和最小响度值的四个解说边界点；将解说边界点依次连接，形成封闭的梯形区域作为该解说扇形区域对应的解说响度图形(对应图中阴影区域)。

其中，解说扇形区域421与原始扇形区域411相对应；解说扇形区域422与原始扇形区域412相对应；解说扇形区域423与原始扇形区域412相对应；解说扇形区域424与原始扇形区域414相对应。

将各对应扇形区域的原始响度图形和解说响度图形的图形重合度，作为对应的原始音频和解说音频之间的响度差异。其中，图形重合度为原始响应图形和解说响应图形重合面积和总面积的比值。

S408、确定各响度差异是否均满足设定差异度阈值；若是，则执行S411；否则执行S409。

其中，设定差异度阈值由技术人员根据需要或经验值进行确定。

S409、针对每段解说音频，根据预先设定的音质音量调节表，查找与该响度差异对应的音量调节值和音质调节值。继续执行S410。

S410、根据音量调节值和音质调节值，对解说音频进行调节。返回执行S403。

S411、根据最新的解说音频和原始视频，合成解说视频。

图5是本申请实施例提供的一种视频处理装置的结构图，该视频处理装置500包括：响度差异确定模块501、解说音频调节模块502和解说视频合成模块503。其中，

响度差异确定模块501，用于确定原始视频的原始音频和解说音频之间的响度差异；

解说音频调节模块502，用于根据所述响度差异，调节所述解说音频；

解说视频合成模块503，用于根据调节后的解说音频和所述原始视频，合成解说视频。

本申请实施例通过响度差异确定模块确定原始视频的原始音频和解说音频之间的响度差异；通过解说音频调节模块根据响度差异调节解说音频；通过解说视频合成模块根据调节后的解说音频和原始视频，合成解说视频。本申请实施例采用上述技术方案，通过引入原始频频和解说音频之间的响度差异作为解说音频的调节依据，实现对解说音频的自动调节，从而根据自动调节后的解说音频进行解说视频合成，无需视频编辑者频繁对解说音频进行手动调节，提高了解说视频的合成效率。

进一步地，所述响度差异确定模块501，包括：

响度信息确定单元，用于根据所述原始音频，确定所述原始音频的原始响度信息，以及根据所述解说音频，确定所述解说音频的解说响度信息；

响度差异确定单元，用于确定所述原始响度信息和所述解说响度信息之间的响度差异。

进一步地，所述响度信息确定单元，包括：

响度信息确定子单元，用于将所述原始音频和所述解说音频作为输入参数，分别输入至各自训练好的神经网络模型中，得到所述原始响度信息和所述解说响度信息。

进一步地，所述神经网络模型包括依次连接的特征提取层、全连接层和线性处理层；

所述特征提取层，用于提取输入音频的至少一个音频特征向量；

所述全连接层，用于对各音频特征向量进行特征融合；

所述线性处理层，用于对融合后的音频特征向量进行线性变换，得到各输入音频的响度信息；

其中，所述输入音频为所述原始音频或所述解说音频。

进一步地，所述特征提取层基于扩张卷积网络实现。

进一步地，所述原始音频的原始响度信息为原始音频的音频响度区间，以及所述解说音频的解说响度信息为解说音频的音频响度区间；

相应的，所述响度差异确定单元，包括：

重合度确定子单元，用于确定所述原始音频的音频响度区间和所述解说音频的音频响度区间之间的重合度，并将所述重合度作为所述响度差异。

进一步地，所述原始音频和所述解说音频均为至少两段音频；

相应的，所述重合度确定子单元，包括：

原始响度图形确定从单元，用于根据所述原始音频的段数，确定原始响度图的扇形角度；根据所述原始音频的音频响度区间的边界值，分别在所述原始音频所关联扇形区域的扇形边上确定原始边界点；根据所述原始边界点在所述原始音频关联的扇形区域内，确定原始响度图形；

以及，

解说响度图形确定从单元，用于根据所述解说音频的段数，确定解说响度图的扇形角度；根据所述解说音频的音频响度区间的边界值，分别在所述解说音频所关联扇形区域的扇形边上确定解说边界点；根据所述解说边界点在所述解说音频关联的扇形区域内，确定解说响度图形；

图形重合度确定从单元，用于确定所述原始响度图形和所述解说响度图形的图形重合度。

进一步地，所述解说音频调节模块502，包括：

调节值查找单元，用于根据预先设定的音质音量调节表，查找与所述响度差异对应的音量调节值和/或音质调节值；

解说音频调节单元，用于根据查找结果，调节所述解说音频。

上述视频处理装置可执行本申请任一的视频处理方法，具备执行视频处理方法相应的功能模块和有益效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是实现本申请实施例的视频处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频处理方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频处理方法对应的程序指令/模块(例如，附图5所示的响度差异确定模块501、解说音频调节模块502和解说视频合成模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现视频处理方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至实现视频处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现视频处理方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与实现视频处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过确定原始视频的原始音频和解说音频之间的响度差异；根据响度差异调节解说音频；根据调节后的解说音频和原始视频，合成解说视频。本申请实施例采用上述技术方案，通过引入原始频频和解说音频之间的响度差异作为解说音频的调节依据，实现对解说音频的自动调节，从而根据自动调节后的解说音频进行解说视频合成，无需视频编辑者频繁对解说音频进行手动调节，提高了解说视频的合成效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

确定原始视频的原始音频和解说音频之间的响度差异；

根据所述响度差异，调节所述解说音频；

根据调节后的解说音频和所述原始视频，合成解说视频。

2.根据权利要求1所述的方法，其特征在于，所述确定原始视频的原始音频和解说音频之间的响度差异，包括：

根据所述原始音频，确定所述原始音频的原始响度信息，以及根据所述解说音频，确定所述解说音频的解说响度信息；

确定所述原始响度信息和所述解说响度信息之间的响度差异。

3.根据权利要求2所述的方法，其特征在于，所述根据所述原始音频，确定所述原始音频的原始响度信息，以及根据所述解说音频，确定所述解说音频的解说响度信息，包括：

将所述原始音频输入至预先训练好的与所述原始音频关联的神经网络模型中，得到所述原始响度信息；以及，

将所述解说音频输入至预先训练好的与所述解说音频关联的神经网络模型中，得到所述解说响度信息。

4.根据权利要求3所述的方法，其特征在于，所述神经网络模型包括依次连接的特征提取层、全连接层和线性处理层；

所述全连接层，用于对各音频特征向量进行特征融合；

其中，所述输入音频为所述原始音频或所述解说音频。

5.根据权利要求4所述的方法，其特征在于，所述特征提取层基于扩张卷积网络实现。

6.根据权利要求2所述的方法，其特征在于，所述原始音频的原始响度信息为原始音频的音频响度区间，以及所述解说音频的解说响度信息为解说音频的音频响度区间；

相应的，所述确定所述原始响度信息和所述解说响度信息之间的响度差异，包括：

确定所述原始音频的音频响度区间和所述解说音频的音频响度区间之间的重合度，并将所述重合度作为所述响度差异。

7.根据权利要求6所述的方法，其特征在于，所述原始音频和所述解说音频均为至少两段音频；

相应的，所述确定所述原始音频的音频响度区间和所述解说音频的音频响度区间之间的重合度，包括：

根据所述原始音频的段数，确定原始响度图的扇形角度；根据所述原始音频的音频响度区间的边界值，分别在所述原始音频所关联扇形区域的扇形边上确定原始边界点；根据所述原始边界点在所述原始音频关联的扇形区域内，确定原始响度图形；

以及，

根据所述解说音频的段数，确定解说响度图的扇形角度；根据所述解说音频的音频响度区间的边界值，分别在所述解说音频所关联扇形区域的扇形边上确定解说边界点；根据所述解说边界点在所述解说音频关联的扇形区域内，确定解说响度图形；

确定所述原始响度图形和所述解说响度图形的图形重合度。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述响度差异，调节所述解说音频，包括：

根据预先设定的音质音量调节表，查找与所述响度差异对应的音量调节值和/或音质调节值；

根据查找结果，调节所述解说音频。

9.一种视频处理装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述响度差异确定模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述响度信息确定单元，包括：

12.根据权利要求11所述的装置，其特征在于，所述神经网络模型包括依次连接的特征提取层、全连接层和线性处理层；

所述全连接层，用于对各音频特征向量进行特征融合；

其中，所述输入音频为所述原始音频或所述解说音频。

13.根据权利要求12所述的装置，其特征在于，所述特征提取层基于扩张卷积网络实现。

14.根据权利要求10所述的装置，其特征在于，所述原始音频的原始响度信息为原始音频的音频响度区间，以及所述解说音频的解说响度信息为解说音频的音频响度区间；

相应的，所述响度差异确定单元，包括：

15.根据权利要求14所述的装置，其特征在于，所述原始音频和所述解说音频均为至少两段音频；

相应的，所述重合度确定子单元，包括：

以及，

16.根据权利要求9-15任一项所述的装置，其特征在于，所述解说音频调节模块，包括：

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的一种视频处理方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的一种视频处理方法。