CN109286888A

CN109286888A - 一种音视频在线检测与虚拟声像生成方法及装置

Info

Publication number: CN109286888A
Application number: CN201811266232.6A
Authority: CN
Inventors: 牛欢; 孟子厚; 张茂成; 申少雄
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-01-29
Anticipated expiration: 2038-10-29
Also published as: CN109286888B

Abstract

本发明提供了一种音视频在线检测与虚拟声像生成方法及装置，其中方法包括：对视频以及多声道音频进行多声道音视频在线检测，得到声音特征参数的标注文件；生成多声道音频文件，并利用多声道音频文件生成多声道音频信号，对多声道音频信号进行信号矩阵分配，得到分配结果；从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间，并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型，从声音特征参数的标注文件中提取声学参数，并将声学参数代入三维声源距离感知模型，获得运动声源运动过程中所需声道以及相应声道中的声学参数；利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

Description

一种音视频在线检测与虚拟声像生成方法及装置

技术领域

本发明涉及虚拟声像生成技术领域，尤其涉及一种音视频在线检测与虚拟声像生成方法及装置。

背景技术

目前市面上的影视资源更多采用多通道录制，是为了更好的达到音效的真实饱满。但是对于听众而言，确实无法完美匹配动态音效与影像画面。随着影视行业的发展，现存很多模式，其中包括杜比全景声、AURO-3D等，但也存在重放过程中声像效果不佳等问题。如何让听众在现有的环境和已有片源音频制式的情况下，对于全景声格式下虚拟声像再生成与模拟则是本处理器需要解决的问题。

于此同时，对国内外全景声重放系统声像生成的技术发展与相关成果进行研究分析，不难发现其中存在以下若干问题。

1)研究文献可以看出，目前全景声重放系统制式较多，但是均未明确针对上方和下方空间音效问题进行处理，且上下方空间音效重放制式也未进行规范或说明；根据现有市面上各种全景声重放方式在放映时，听者确实也感觉存在垂直空间音效声像不定，且容易混淆等问题存在；因而模拟垂直空间音效，改善上下方声像是切实需要解决的问题。

2)目前的影视作品的音频制作主要分为两种：一种为同期录音即同期音，这些声音主要包括演员的对白、动作音效和拍摄现场的声音空间环境效果。另一种为后期录音。但是目前常用的是后期录音来解决动态音效以及声音空间环境效果，这样实际重放过程中就存在难以解决的声音距离感以及动态音效运动速率等问题。

A、声音的距离感知的实验探究，目前的国内外的文献研究较少，也没有给出一定结论可以直接进行工程应用。

a)针对不同频率成分距离感知问题，文献中标明随着频率成分和空间感知距离存在一定关系，但是没有提供更多的关于垂直轴向距离感知与频率成分的关系，这是可以研究的一个问题；

b)现有的文献研究主要集中于水平面上的主观距离感知，但实际应用中，是需要对水平面及垂直面进行综合应用，故水平面与垂直面上人主观距离感知是否存在明显的差异性，并且此差异性是否可以进行线性修正都是需要通过实验进行探讨；

c)同时对于主观距离感知的影响因素更多的研究偏重于声压级变化，但是声源入射的角度、延时参量的设置等是否对其有一定的影响，也是需要实验来进行进一步探讨；

d)即使影响主观距离感知因素主要取决声压级的变化，但是类似于近场范围内，不同声压级变化时人主观距离感知也存在一定的范围，但是此范围也需要通过实验也进行实际确定，便于实际工程应用；

B、根据文献资料可知，针对运动声源感知的阈限的探索相对较少，但是是否存在影响运动声源感知阈限的其他因素；

a)由于运动声源感知阈限的结论比较宽泛，没办法进行应用，因而需要对其实验结果进行补充，得到不同声源信号以及不同声源频率相应的运动声源感知阈限。

b)针对影视音频制作中，动态音效基本上都存在一定背景音存在；因而信噪比变化对于运动声源感知阈限存在什么样的影响，也是在进行工程应用前需要解决的问题；

c)目前对于运动声源阈限的感知研究，基本上都是固定在一个半径范围内即半径为2.5m，但是实际影视重放时，扬声器配置远大于这个范围，因而声源位置距离是否对运动声源阈限的感知有影响；如果存在，影响的趋势变化也是需要探讨的。

故上述影响全景声格式下虚拟声像再生成的问题，是需要解决的问题，从而对影视作品的虚拟声像音效问题进行改善，明确声像方向，确定合适的声像强度。

发明内容

本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的一种音视频在线检测与虚拟声像生成方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种音视频在线检测与虚拟声像生成方法，包括：获取影视作品，提取影视作品的视频以及多声道音频；对视频以及多声道音频进行多声道音视频在线检测，得到声音特征参数的标注文件；利用多声道音频以及声音特征参数的标注文件生成多声道音频文件，并利用多声道音频文件生成多声道音频信号，对多声道音频信号进行信号矩阵分配，得到分配结果；从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间，并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型，从声音特征参数的标注文件中提取声学参数，并将声学参数代入三维声源距离感知模型，利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数；利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

其中，在虚拟声像的生成后，音视频在线检测与虚拟声像生成方法还包括：利用多声道系统进行虚拟声像的重放。

其中，将多声道音频信号进行信号矩阵分配，得到分配结果包括：将多声道音频信号进行信号矩阵分配，并在分配后，对预设部分信号采用子带随机延时去相关处理，得到分配结果。

其中，声音特征参数的标注文件包括：运动声源的声音特征参数的标注文件。

其中，声学参数包括：声压级、声源角度和频率谱。

本发明另一方面提供了一种音视频在线检测与虚拟声像生成装置，包括：提取模块，用于获取影视作品，提取影视作品的视频以及多声道音频；在线检测模块，用于对视频以及多声道音频进行多声道音视频在线检测，得到声音特征参数的标注文件；多声道音频处理模块，用于利用多声道音频以及声音特征参数的标注文件生成多声道音频文件，并利用多声道音频文件生成多声道音频信号，对多声道音频信号进行信号矩阵分配，得到分配结果；模型处理模块，用于从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间，并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型，从声音特征参数的标注文件中提取声学参数，并将声学参数代入三维声源距离感知模型，利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数；生成模块，用于利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

其中，音视频在线检测与虚拟声像生成装置还包括：重放模块；重放模块，用于在生成模块进行虚拟声像的生成后，利用多声道系统进行虚拟声像的重放。

其中，多声道音频处理模块通过如下方式将多声道音频信号进行信号矩阵分配，得到分配结果：多声道音频处理模块，具体用于将多声道音频信号进行信号矩阵分配，并在分配后，对预设部分信号采用子带随机延时去相关处理，得到分配结果。

其中，声学参数包括：声压级、声源角度和频率谱。

由此可见，通过本发明实施例提供的音视频在线检测与虚拟声像生成方法，将原多声道音频信号进行信号处理，针对不同重放区域进行重新的信号分配处理，并对多声道音视频在线检测的标注文件进行实时读取，再根据不同标注文件中的各项参数，分别进入三维距离感知模型以及运动声源速率感知阈限模型，对运动声源的虚拟声像进行重现。

进一步，可以更加真实地重现运动声源的三维声场感知。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的音视频在线检测与虚拟声像生成方法的流程图；

图2为本发明实施例提供的音视频在线检测与虚拟声像生成方法的一种具体实现方式的流程图；

图3为本发明实施例提供的音视频在线检测与虚拟声像生成装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的音视频在线检测与虚拟声像生成方法的流程图，参见图1，本发明实施例提供的音视频在线检测与虚拟声像生成方法，包括：

S101，获取影视作品，提取影视作品的视频以及多声道音频。

S102，对视频以及多声道音频进行多声道音视频在线检测，得到声音特征参数的标注文件。

S103，利用多声道音频以及声音特征参数的标注文件生成多声道音频文件，并利用多声道音频文件生成多声道音频信号，对多声道音频信号进行信号矩阵分配，得到分配结果。

具体地，多声道音频信号可以先进行矩阵分配，由此可以，针对不同重放区域进行重新的信号分配。

在设置在影院的重放系统包括四层时，从上至下分别为顶层、高度层、水平层地层；依次为设置在天花板的扬声器矩阵、设置在墙体高处的扬声器矩阵，以及设置在墙体位于听众耳朵高度的扬声器矩阵以及设置在地面的扬声器矩阵。

作为本发明实施例的一个可选实施方式，将多声道音频信号进行信号矩阵分配，得到分配结果包括：将多声道音频信号进行信号矩阵分配，并在分配后，对预设部分信号采用子带随机延时去相关处理，得到分配结果。具体地，信号分配结束后，可以对某些水平层特定通道采用子带随机延时去相关处理，例如先对信号分频子带随机延时，延时后对信号进行线性叠加。当然，也可以对中高层通道以及顶部除中置通道外其他通道采用子带随机延时去相关处理，该处理可以与水平层的处理一致，只是延时参数不同。通过该处理可以确保各个通道的的精确性。

以下以5通道矩阵分配到27通道为例进行说明，不考虑地层的扬声器矩阵，其中所有的字母均是实际的数值。

在上述具体示例的基础上可以看出，高度层扩展需要进行分频带距离感知扩展，之后分频信号线性叠加运算(其中高度层前方中置信号、左声道信号、右声道信号不进行此运算)；

Y″_HL1＝Y′_HL1*(分频带距离感知扩展(例如：dis＝a*lg(Fc)+b、dis＝c*lg(SPL)+d))；其中，公式中的字母均是实际的数值。

S104，从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间，并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型，从声音特征参数的标注文件中提取声学参数，并将声学参数代入三维声源距离感知模型，利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数。

作为本发明实施例的一个可选实施方式，声音特征参数的标注文件可以包括：运动声源的声音特征参数的标注文件。其中，声学参数可以包括：声压级、声源角度和频率谱。

具体地，可以利用运动声源的运动轨迹以及运动时间进行运动速率运算，利用运动声源的声压级、角度、频率谱等声学参数进行运动声源距离感知运算，确定运动声源运动所需声道以及相应声道中的运动时间、声压级、频率谱等信号处理。

S105，利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。具体地，可以根据运动声源在所需声道中的信号运算后与各通道进行信号合成运算，一生成虚拟声像。

其中，值得说明的是，步骤S103与步骤S104的顺序并不局限于上述顺序，也可以先执行步骤S104后再执行步骤S103，也可以在执行步骤S103的同时执行步骤S104，可以理解无论何种顺序均应属于本发明的保护范围。

由此可见，通过本发明实施例提供的音视频在线检测与虚拟声像生成方法，将原多声道音频信号进行信号处理，针对不同重放区域进行重新的信号分配处理，并对多声道音视频在线检测的标注文件进行实时读取，再根据不同标注文件中的各项参数，分别采用三维距离感知方法以及运动声源速率阈限方法，对运动声源的虚拟声像进行精确生成。

作为本发明实施例的一个可选实施方式，在虚拟声像的生成后，音视频在线检测与虚拟声像生成方法还包括：利用多声道系统进行虚拟声像的重放。由此可以在生成的虚拟声像的基础上，利用多声道系统进行重放，可以更加真实地重现运动声源的三维声场感知。

以下提供了一种音视频在线检测与虚拟声像生成方法的一种具体实现方式，但本发明并不局限于此，参见图2，本发明实施例提供的一种音视频在线检测与虚拟声像生成方法的具体实现方式可以包括：从影视作品中提取出视频和多声道音频，利用视频和多声道音频进行多声道音视频在线检测，生成运动声源等声音特征参数的标注文件，并利用多声道音频结合运动声源等声音特征参数的标注文件生成多声道音频文件，利用多声道音频文件得到多声道音频信号，对多声道音频信号进行矩阵分配，部分信号采用子带随机延时去相关处理，利用运动声源等声音特征参数的标注文件获取运动声源的运动轨迹以及运动时间，并获取声压级、声源角度、频率谱等声学参数，将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型，以及将声压级、声源角度、频率谱等声学参数代入三维声源距离感知模型，计算得到运动声源运动过程中所需声道以及相应声道中的运动时间以及声压级、频率谱等声学参数，利用运动声源运动过程中所需声道以及相应声道中的运动时间以及声压级、频率谱等声学参数，以及对多声道音频信号进行矩阵分配，部分信号采用子带随机延时去相关处理后的信息进行合成操作，生成虚拟声像，并通过多声道系统进行重放。由此可见，通过本发明实施例提供的音视频在线检测与虚拟声像生成方法，将原多声道音频信号进行信号处理，针对不同重放区域进行重新的信号分配处理，并对多声道音视频在线检测的标注文件进行实时读取，再根据不同标注文件中的各项参数，分别进入三维距离感知模型以及运动声源速率感知阈限模型，由此可以对运动声源的虚拟声像进行重现。进一步，可以更加真实地重现运动声源的三维声场感知。

图3示出了本发明实施例提供的音效生成装置的结构示意图，本发明实施例提供的音效生成装置应用上述方法，以下仅对本发明实施例提供的音效生成装置的结构进行简要说明，其他未尽事宜，参考上述音效生成方法的相关描述，参见图3，本发明实施例提供的音视频在线检测与虚拟声像生成装置，包括：

提取模块301，用于获取影视作品，提取影视作品的视频以及多声道音频；

在线检测模块302，用于对视频以及多声道音频进行多声道音视频在线检测，得到声音特征参数的标注文件；

多声道音频处理模块303，用于利用多声道音频以及声音特征参数的标注文件生成多声道音频文件，并利用多声道音频文件生成多声道音频信号，对多声道音频信号进行信号矩阵分配，得到分配结果；

模型处理模块304，用于从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间，并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型，从声音特征参数的标注文件中提取声学参数，并将声学参数代入三维声源距离感知模型，利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数；

生成模块305，用于利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

由此可见，通过本发明实施例提供的音视频在线检测与虚拟声像生成装置，将原多声道音频信号进行信号处理，针对不同重放区域进行重新的信号分配处理，并对多声道音视频在线检测的标注文件进行实时读取，再根据不同标注文件中的各项参数，分别采用三维距离感知方法以及运动声源速率阈限方法，对运动声源的虚拟声像进行精确生成。

作为本发明实施例的一个可选实施方式，声音特征参数的标注文件包括：运动声源的声音特征参数的标注文件。作为本发明实施例的一个可选实施方式，声学参数包括：声压级、声源角度和频率谱。

作为本发明实施例的一个可选实施方式，音视频在线检测与虚拟声像生成装置还包括：重放模块306；重放模块306，用于在生成模块进行虚拟声像的生成后，利用多声道系统进行虚拟声像的重放。由此可以在生成的虚拟声像的基础上，利用多声道系统进行重放，可以更加真实地重现运动声源的三维声场感知。

作为本发明实施例的一个可选实施方式，多声道音频处理模块303通过如下方式将多声道音频信号进行信号矩阵分配，得到分配结果：多声道音频处理模块303，具体用于将多声道音频信号进行信号矩阵分配，并在分配后，对预设部分信号采用子带随机延时去相关处理，得到分配结果。具体地，信号分配结束后，可以对某些水平层特定通道采用子带随机延时去相关处理，例如先对信号分频子带随机延时，延时后对信号进行线性叠加。当然，也可以对中高层通道以及顶部除中置通道外其他通道采用子带随机延时去相关处理，该处理可以与水平层的处理一致，只是延时参数不同。通过该处理可以确保各个通道的的精确性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种音视频在线检测与虚拟声像生成方法，其特征在于，包括：

获取影视作品，提取所述影视作品的视频以及多声道音频；

对所述视频以及所述多声道音频进行多声道音视频在线检测，得到声音特征参数的标注文件；

利用所述多声道音频以及所述声音特征参数的标注文件生成多声道音频文件，并利用所述多声道音频文件生成多声道音频信号，对所述多声道音频信号进行信号矩阵分配，得到分配结果；

从所述声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间，并将所述运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型，从所述声音特征参数的标注文件中提取声学参数，并将所述声学参数代入三维声源距离感知模型，利用所述运动声源运动速率感知模型以及所述三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数；

利用所述分配结果以及所述运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

2.根据权利要求1所述的方法，其特征在于，在所述虚拟声像的生成后，还包括：利用多声道系统进行所述虚拟声像的重放。

3.根据权利要求1所述的方法，其特征在于，所述将所述多声道音频信号进行信号矩阵分配，得到分配结果包括：

将所述多声道音频信号进行信号矩阵分配，并在分配后，对预设部分信号采用子带随机延时去相关处理，得到分配结果。

4.根据权利要求1所述的方法，其特征在于，所述声音特征参数的标注文件包括：运动声源的声音特征参数的标注文件。

5.根据权利要求1或4所述的方法，其特征在于，所述声学参数包括：声压级、声源角度和频率谱。

6.一种音视频在线检测与虚拟声像生成装置，其特征在于，包括：

提取模块，用于获取影视作品，提取所述影视作品的视频以及多声道音频；

在线检测模块，用于对所述视频以及所述多声道音频进行多声道音视频在线检测，得到声音特征参数的标注文件；

多声道音频处理模块，用于利用所述多声道音频以及所述声音特征参数的标注文件生成多声道音频文件，并利用所述多声道音频文件生成多声道音频信号，对所述多声道音频信号进行信号矩阵分配，得到分配结果；

模型处理模块，用于从所述声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间，并将所述运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型，从所述声音特征参数的标注文件中提取声学参数，并将所述声学参数代入三维声源距离感知模型，利用所述运动声源运动速率感知模型以及所述三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数；

生成模块，用于利用所述分配结果以及所述运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

7.根据权利要求6所述的装置，其特征在于，还包括：重放模块；

所述重放模块，用于在所述生成模块进行虚拟声像的生成后，利用多声道系统进行所述虚拟声像的重放。

8.根据权利要求6所述的装置，其特征在于，所述多声道音频处理模块通过如下方式将所述多声道音频信号进行信号矩阵分配，得到分配结果：

所述多声道音频处理模块，具体用于将所述多声道音频信号进行信号矩阵分配，并在分配后，对预设部分信号采用子带随机延时去相关处理，得到分配结果。

9.根据权利要求6所述的装置，其特征在于，所述声音特征参数的标注文件包括：运动声源的声音特征参数的标注文件。

10.根据权利要求6或9所述的装置，其特征在于，所述声学参数包括：声压级、声源角度和频率谱。