CN112492380B

CN112492380B - 音效调整方法、装置、设备及存储介质

Info

Publication number: CN112492380B
Application number: CN202011293818.9A
Authority: CN
Inventors: 胡风
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2023-06-30
Anticipated expiration: 2040-11-18
Also published as: US20230041730A1; EP4184927A1; WO2022105519A1; CN112492380A; EP4184927A4

Abstract

本申请公开了一种音效调整方法、装置、设备及存储介质，涉及计算机技术领域。所述方法包括：获取目标视频的对应时间单元的视频帧和音频信号；从视频帧中识别得到音源朝向和音源距离，以及确定视频帧对应的场景信息；基于音源朝向和音源距离，对音频信号进行滤波处理，得到滤波后的音频信号；根据场景信息确定回声系数；基于滤波后的音频信号以及回声系数生成音效调整后的音频信号。本申请实施例提供的技术方案，通过先基于音源朝向和音源距离，对音频信号进行环绕立体化处理，再根据场景信息对应的回声系数，对音频信号进行场景化处理，从而获得具有环绕立体化场景化音效的音频信号，进而提高了用户的真实体验感。

Description

音效调整方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种音效调整方法、装置、设备及存储介质。

背景技术

随着视频观看需求的增多，人们对视频配音音效的要求也越来越高。

目前，视频的配音多数为后期配置，由于配音不是在真实场景中完成，因此后期配置得到的配音效果存在不真实的问题。

发明内容

本申请实施例提供了一种音效调整方法、装置、设备及存储介质，能够使得视频音效环绕立体化和场景化，提高用户的真实临场感。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种音效的调整方法，所述方法包括：

获取目标视频的对应时间单元的视频帧和音频信号；

从所述视频帧中识别得到音源朝向和音源距离，以及确定所述视频帧对应的场景信息；

基于所述音源朝向和所述音源距离，对所述音频信号进行滤波处理，得到滤波后的音频信号；

根据所述场景信息确定回声系数；

基于所述滤波后的音频信号以及所述回声系数生成音效调整后的音频信号。

根据本申请实施例的一个方面，提供了一种音效的调整装置，所述装置包括：

视频信息获取模块，用于获取目标视频的对应时间单元的视频帧和音频信号；

音源信息确定模块，用于从所述视频帧中识别得到音源朝向和音源距离，以及确定所述视频帧对应的场景信息；

音频信号滤波模块，用于基于所述音源朝向和所述音源距离，对所述音频信号进行滤波处理，得到滤波后的音频信号；

回声系数确定模块，用于根据所述场景信息确定回声系数；

音频音效调整模块，用于基于所述滤波后的音频信号以及所述回声系数生成音效调整后的音频信号。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述音效调整方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述音效调整方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音效调整方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过基于音源朝向和音源距离，对音频信号进行环绕立体化处理，再根据场景信息对应的回声系数，对音频信号进行场景化处理，从而获得具有环绕立体化场景化音效的音频信号，增强了音效的真实感，进而提高了用户的真实临场感。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的方案实施环境的示意图；

图2是本申请一个实施例提供的音效调整方法的流程图；

图3是本申请一个实施例提供的场景信息的示意图；

图4是本申请一个实施例提供的人脸朝向的示意图；

图5是本申请一个实施例提供的深度信息的示意图；

图6是本申请一个实施例提供的HRTF(Head-Related Transfer Function，头部相关声音传输函数)的示意图；

图7是本申请一个实施例提供的不同频率下的响应信息的示意图；

图8是本申请一个实施例提供的场景信息获取的示意图；

图9是本申请另一个实施例提供的音效调整方法的示意图；

图10是本申请一个实施例提供的音效调整装置的框图；

图11是本申请另一个实施例提供的音效调整装置的框图；

图12是本申请一个实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行介绍说明之前，先对本申请涉及的一些名词进行定义说明。

1、音效

音效是指由声音所制造的效果，其可以显示出场景的真实感、气氛和讯息等。音效可以是诸如雨声、雷声、风声等自然声音音效。音效可以是诸如音乐、机器、视频配音等人造声音音效。

2、立体声

立体声是指具有方向感的声音效果。以电视机的伴音为例，电视机由左右两侧的扬声器发声，在两个扬声器之间的平面上建立了一个声场，观众在这个声场中，可以感觉到声音的立体感。

3、环绕立体声

与一般的立体声不同，环绕立体声所产生的声场，不仅让人感受到音源的方向感，且伴有一种被声音所围绕以及声源向四周远离扩散的感觉。环绕立体声可以增强声音的纵深感、临场感和空间感。例如，环绕立体声可营造出一种置身歌厅、影剧院的音响效果。

本申请实施例提供的音效调整方法，适用于对多种应用场景下的视频音效进行调整，使得视频具备环绕立体化场景化的音效效果。示例性地，上述应用场景包括但不限于：通过诸如手机、平板电脑等手持设备播放视频的场景，通过诸如电视机、多媒体影院等大屏播放设备播放视频的场景，通过诸如VR(Virtual Reality，虚拟现实)眼镜、VR头盔等可穿戴设备播放视频的场景，等等。本申请实施例提供的音效调整方案，可以用于对视频的后期配音，增加配音音效的真实感。也可以用于在视频播放器播放视频时，实时处理视频的音频信号，以增强视频音效的真实感。

在一个示例中，以通过手持设备播放视频的场景为例，该应用场景下的系统架构可以如图1所示，包括终端10和服务器20。

终端10可以是诸如手机、平板电脑、可穿戴设备等电子设备。终端10中安装运行具有视频播放功能的应用程序客户端，该客户端可以具有视频播放器，用于实现对视频进行解码播放。

服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

本申请提供的音效调整方法，可以由终端10执行(如实时处理视频的音频信号)，也可以由服务器20执行(如视频的后期配音)，本申请实施例对此不作限定。

本申请提供的音效调整方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(PersonalComputer，个人计算机)、平板电脑、智能手机、智能电视、可穿戴设备、智能机器人等终端；也可以是服务器。

在示例性实施例中，本申请实施例提供的音效调整方法，可以运用一些人工智能(Artificial Intelligence，AI)技术辅助进行音效调整。例如，计算机视觉(ComputerVision，CV)技术、机器学习(Machine Learning，ML)技术等。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(OpticalCharacter Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-Dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

例如，在本申请实施例提供的方法中，可以通过计算机视觉技术识别视频帧。可以通过机器学习识别视频帧对应的场景信息、人脸姿态和深度信息。

下面，通过几个实施例对本申请技术方案进行介绍说明。

请参考图2，其示出了本申请一个实施例提供的音效调整方法的流程图。该方法可以包括如下几个步骤(201～205)：

步骤201，获取目标视频的对应时间单元的视频帧和音频信号。

在本申请实施例中，目标视频是指有音效调整需求的视频。例如，有配音音效调整需求的视频。目标视频可以包括已经录制完成的视频(如电影、电视剧等)、VR设备实时展示的视频、实时视频通讯中的视频等，本申请实施例对此不作限定。

可选地，目标视频可以包括视频帧和音频信号，目标视频中的视频帧和音频信号在时间单元上成对应的关系。例如，在时间单元A内，视频A包括视频帧B，以及视频帧B对应的音频信号C。其中，视频帧是指视频中一个静止的图像。音频信号是指视频时域上的模拟声波信号。

在一个示例中，视频帧对应的音频信号的具体获取方式如下：获取目标视频的视频帧序列和音频文件，视频帧序列包括在时域上按序排列的多个视频帧；对于每个视频帧，从音频文件中截取视频帧对应的时间单元内的音频信号，得到视频帧对应的音频信号。例如，设视频A的视频帧序列包括300个视频帧，每15毫秒切换一个视频帧，则第一个视频帧对应的时间单元为0到15毫秒，第二个视频帧对应的时间单元为15到30毫秒。第一个视频帧对应的时间单元内的音频信号为音频文件中0到15毫秒内的音频信号，第二个视频帧对应的时间单元内的音频信号为音频文件中15到30毫秒内的音频信号。

其中，音频文件包括在时域上连续的音频信号。计算机设备可以根据时间单元从音频文件中截取对应的音频信号。

步骤202，从视频帧中识别得到音源朝向和音源距离，以及确定视频帧对应的场景信息。

音源朝向是指从音源发出的音频信号的方向。其中音源可以包括动物(如鸟、猫、狗等)、人物、自然环境、发声设备等。例如，当音源为人的嘴部时，则可根据人嘴部的朝向判断音源朝向，即可用于判定用于记载声波的音频信号的传播方向。在本申请实施例中，音源朝向是指以屏幕(或者拍摄目标视频的摄像头)为基准位置，获得的视频帧中的音源发出的音频信号的方向。

可选地，音源距离是指音源到接收处的距离。该接收处可以包括拾音设备(如人头录音机)、人耳、动物耳等。例如，当接受处为人耳时，音源距离则为音源到人耳的距离。可选地，音源到人的左右耳的距离和朝向不相同。在本申请实施例中，音源距离是指视频帧中的音源与屏幕(或者拍摄目标视频的摄像头)之间的距离。

可选地，场景信息是指视频帧的画面内容所显示场景的信息。例如，参考图3，该场景信息可以包括室内场景301和室外场景302。室内场景301可以包括卧室、演出厅、教室、办公室等。室外场景302可以包括街道、泳池等城市场景，室外场景302还可以包括海滩、沙漠等自然场景。

在一个示例中，音源朝向和音源距离的具体获取方式可以包括：确定视频帧中的音源对象；对音源对象进行姿态识别处理，得到音源对象的姿态信息；基于姿态信息，确定音源朝向；基于音源对象的深度信息，确定音源距离。

其中，视频帧中的音源对象是指视频帧的画面内容包括的音源。可选地，当音源对象是人物的情况下，可以对人物进行人脸姿态识别处理，得到人物的脸部姿态信息。脸部姿态信息是指脸部的不同朝向信息，诸如低头、抬头、侧脸等。根据人物的脸部姿态信息，可以确定音源朝向。可选地，可以根据人物的嘴部动作，确定音源对象。

可选地，人脸姿态识别可以通过深度神经网络实现。基于输入的视频帧，获取人脸的朝向。参考图4，可以从偏航角401、翻滚角402和俯视角403三个角度去描述人脸的朝向，基于人脸的偏航角401、翻滚角402和俯视角403，可以确定音源朝向。

可选地，还可以使用基于LBP(Local Binary Pattern，局部二值模式)或LTP(Local Ternary Pattern，局部三值模式)特征或特征点匹配的方法，实现人脸姿态识别。

可选地，深度信息是指视频帧的画面内容的深度值。深度值表示画面内容中各个像素点与摄像头(或屏幕)之间的距离。可选地，根据音源对象的深度值，确定音源对向与屏幕之间的距离，即确定音源距离。参考图5，根据视频帧对应的原始图像获得视频帧对应深度图像，在从视频帧对应深度图像中获取人物识别结果501。人物识别结果501的深度值可以与视频帧中的其他物品的深度值区分开，形成一个人的轮廓，可以根据人物识别结果501的深度值，计算出人物识别结果501与摄像头之间的距离。可选地，还可以使用SLAM(Simultaneous Localization and Mapping，即时定位与地图构建)对视频帧进行三维重建，在对视频帧对应的场景进行三维重建的过程中，通过SLAM在重建的场景中对音源对象进行定位，进而获取音源对象与摄像头(或屏幕)之间的距离，即获取音源距离。

在一个示例中，在录制视频时，对深度信息进行记录的情况下，可以通过双目测距或多目测距确定视频帧对应的深度信息，还可以通过激光测距、结构光等设备确定视频帧对应的深度信息，本申请实施例在此不作限定。在录制视频时，未对深度信息进行记录的情况下，可以基于深度神经网络从视频帧的画面内容中，获取视频帧对应的深度信息。

步骤203，基于音源朝向和音源距离，对音频信号进行滤波处理，得到滤波后的音频信号。

对音频信号进行滤波处理是指通过模拟声音真实的传播过程，对音频信号进行诸如空气滤波、环境混响、人体散射、人体反射等滤波处理。可选地，该滤波处理可以采用HRTF(Head-Related Transfer Function，头部相关声音传输函数)来实现。通过HTRF对音频信号进行处理，可以得到具有环绕立体化音效的音频信号。可选地，基于视频帧对应的音源朝向和音源距离，可以通过HRTF对音频信号进行处理，得到更具真实性的环绕立体化音效的音频信号。

其中，HTRF的具体训练方法包括：准备一个包括内置麦克风的人体头部模型，在某个空间位置播放原音源，对比麦克风收录的声音和原音源，即可训练得到一个HRTF。由于人耳对于声源控件方位的感知灵敏度有限，所以只需在空间球面上选取1000左右的采样点进行测量即可。

可选地，HRTF在训练的过程中已经完成函数的训练，只需基于获取视频帧对应的音源朝向、音源距离即可得到该视频帧对应的HRTF(即下文的滤波函数)。视频帧对应的HRTF可以用函数H(f，d，θ)(即下文中的滤波函数)表示，其中，f为频域信息，f可以从经过傅里叶变换的音频信号中提取得到，d为音源距离，θ为音源朝向。

在一个示例中，对音频信号进行时频变换处理，得到音频信号对应的频域信号；基于频域信号、音源朝向和音源距离，确定滤波函数；通过滤波函数对音频信号进行滤波处理，得到滤波后的音频信号。

可选地，滤波函数的确定方式还可以包括基于频域信号、音源朝向和音源距离，对设定的左声道滤波函数进行参数调整处理，得到调整后的左声道滤波函数；基于频域信号、音源朝向和音源距离，对设定的右声道滤波函数进行参数调整处理，得到调整后的右声道滤波函数。

可选地，通过调整后的左声道滤波函数对左声道发出的音频信号进行滤波处理，得到左声道对应的滤波后的音频信号；通过调整后的右声道滤波函数对右声道发出的音频信号进行滤波处理，得到右声道对应的滤波后的音频信号。

其中，设定的左声道滤波函数与设定的右声道滤波函数是HRTF在训练过程中获得的。可选地，设定的左声道滤波函数是模仿音频信号传播到左耳的滤波函数，设定的右声道滤波函数是模仿音频信号传播到右耳的滤波函数。参考图6，音源601所发出的音频信号在传播到左耳602的过程，与传播到右耳603的过程不相同，即两者的滤波函数不相同。

例如，参考图7，不同声道对应的滤波后的音频信号，在频域上的响应幅度不同，左声道对应的响应幅度曲线701与右声道对应的响应幅度曲线702，在初始传播过程对应的频域阶段相似，在后续传播过程对应的频域中因左耳与右耳相对于音源的位置不同产生了变化。

步骤204，根据场景信息确定回声系数。

可选地，回声系数用于表征回声效果。不同的场景信息下，声音具有不同的回声效果。例如，在空旷的野外场景下，声音几乎没有回声效果。在山间的场景下，声音的回声效果明显。可选地，回身系数至少可以包括延时系数、响度系数等。延时系数用于控制声音的回声间隔时间。响度系数用于控制声音的回声响度的衰减。

在一个示例中，回声系数的具体获取方法包括：获取视频帧对应的深度信息；基于预设对应关系，获取与场景信息对应的设定回声系数；其中，预设对应关系包括至少一组场景信息和设定回声系数之间的对应关系；基于深度信息对与场景信息对应的设定回声系数进行微调处理，得到回声系数。

回声系数是该场景所对应的回声系数。例如，视频帧A中的场景信息为山间，设定回声系数则为山间对应的回声系数，但并未根据山间与音源对象的距离来准确确定回声系数。预设对应关系则为场景信息与回声系数之间的对应关系。参考图8，可以根据深度神经网络802可以从视频帧801中识别出视频帧801所对应的场景信息，再根据场景信息，从预设对应关系中获取对应的回声系数。可选地，还可以使用NetVLAD(Net Vector of LocallyAggregated Descriptors，局部聚集描述子向量神经网络)向量检索的方式进行场景识别。

可选地，根据视频帧的深度信息，确定音源对象到画面内容中各个像素点的距离和角度，再根据距离和角度，调整设定回声系数，得到回声系数。

可选地，回声系数是与空间距离相关的。例如，房间的空间越大，回声系数越大。因此，还可以通过SLAM在对视频帧对应的场景进行三维重建的同时，获取场景对应的空间距离构造，再根据场景对应的空间距离构造，确定该场景对应的回声系数。

步骤205，基于滤波后的音频信号以及回声系数生成音效调整后的音频信号。

可选地，根据回声系数对滤波后的音频信号进行回声生成处理，得到回声效果信息；基于回声效果信息和滤波后的音频信号，生成音效调整后的音频信号。

其中，回声效果信息用于模拟真实场景下的回声效果。例如，视频帧对应的场景信息为山间，其回声效果可以为有时间间隔的不同响度的声音。回声系数则用于将音频信号处理成有时间间隔的不同响度的回声效果信息。然后将回声效果信息结合至对应视频帧的滤波后的音频信号上，生成具有回声效果的音频信号。

综上所述，本申请实施例提供的技术方案，通过基于音源朝向和音源距离，对音频信号对应的音效进行环绕立体化处理，再根据场景信息对应的回声系数，对音频信号对应的音效进行场景化处理，从而获得具有环绕立体化场景化音效的音频信号，增强了音效的真实感，进而提高了用户的真实临场感。

另外，通过HRTF函数，基于视频帧对应的音源朝向和音源距离，使得音频信号的环绕立体化更具真实性。

另外，通过基于视频帧对应的场景信息和深度信息，得到准确的回声系数，从而通过准确的回声系数使音频信信号的场景化效果更具真实性。

在一个示例性实施例中，参考图9，其出示了本申请另一个实施例提供的音效调整方法的流程图。该方法的具体内容包括如下：

1、根据目标视频的视频帧，通过人脸姿态模型，获取音源朝向901。

2、根据目标视频的视频帧，通过深度估计模型，获取音源距离902。

3、将目标视频的声音文件进行傅里叶变换处理，获取频域信息903。

4、基于频域信息903、音源朝向901、音源距离902，通过HRTF得到滤波后的声音文件。

5、根据目标视频的视频帧，通过场景识别模型识别视频帧对应的场景，再根据识别到的场景，获取回声系数904。

6、通过回声系数904对滤波后的声音文件进行回声生成处理，生成回声效果声音文件905。

7、根据回声效果声音文件905和滤波后的声音文件，得到调整后的声音文件906。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

参考图10，其示出了本申请一个实施例提供的音效调整装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备，也可以设置在计算机设备中。如图10所示，该装置1000包括：视频信息获取模块1001、音源信息确定模块1002、音频信号滤波模块1003、回声系数确定模块1004和音频音效调整模块1005。

视频信息获取模块1001，用于获取目标视频的对应时间单元的视频帧和音频信号。

音源信息确定模块1002，用于从所述视频帧中识别得到音源朝向和音源距离，以及确定所述视频帧对应的场景信息。

音频信号滤波模块1003，用于基于所述音源朝向和所述音源距离，对所述音频信号进行滤波处理，得到滤波后的音频信号。

回声系数确定模块1004，用于根据所述场景信息确定回声系数。

音频音效调整模块1005，用于基于所述滤波后的音频信号以及所述回声系数生成音效调整后的音频信号。

在一个示例性实施例中，如图8所示，所述音频信号滤波模块1003包括：频域信号获取子模块1003a、滤波函数确定子模块1003b和音频信号滤波子模块1003c。

频域信号获取子模块1003a，用于对所述音频信号进行时频变换处理，得到所述音频信号对应的频域信号。

滤波函数确定子模块1003b，用于基于所述频域信号、所述音源朝向和所述音源距离，确定滤波函数。

音频信号滤波子模块1003c，用于通过所述滤波函数对所述音频信号进行滤波处理，得到所述滤波后的音频信号。

在一个示例性实施例中，所述滤波函数确定子模块1003b，用于：

基于所述频域信号、所述音源朝向和所述音源距离，对设定的左声道滤波函数进行参数调整处理，得到调整后的左声道滤波函数；

基于所述频域信号、所述音源朝向和所述音源距离，对设定的右声道滤波函数进行参数调整，得到调整后的右声道滤波函数；

所述音频信号滤波模块1003还用于：

通过所述调整后的左声道滤波函数对左声道发出的音频信号进行滤波处理，得到所述左声道对应的滤波后的音频信号；

通过所述调整后的右声道滤波函数对右声道发出的音频信号进行滤波处理，得到所述右声道对应的滤波后的音频信号。

在一个示例性实施例中，所述音频音效调整模块1005，用于：

根据所述回声系数对所述滤波后的音频信号进行回声生成处理，得到回声效果信息；

基于所述回声效果信息和所述滤波后的音频信号，生成所述音效调整后的音频信号。

在一个示例性实施例中，所述回声系数确定模块1004用于：

获取所述视频帧对应的深度信息；

基于预设对应关系，获取与所述场景信息对应的设定回声系数；其中，所述预设对应关系包括至少一组场景信息和设定回声系数之间的对应关系；

基于所述深度信息对与所述场景信息对应的设定回声系数进行微调处理，得到所述回声系数。

在一个示例性实施例中，所述音源信息确定模块1002，用于：

确定所述视频帧中的音源对象；

对所述音源对象进行姿态识别处理，得到所述音源对象的姿态信息；

基于所述姿态信息，确定所述音源朝向；

基于所述音源对象的深度信息，确定所述音源距离。

在一个示例性实施例中，所述视频信息获取模块1001，用于：

获取所述目标视频的视频帧序列和音频文件，所述视频帧序列包括在时域上按序排列的多个视频帧；

对于每个视频帧，从所述音频文件中截取所述视频帧对应的时间单元内的音频信号，得到所述视频帧对应的音频信号。

综上所述，本申请实施例提供的技术方案，通过基于音源朝向和音源距离，对音频信号进行环绕立体化处理，再根据场景信息对应的回声系数，对音频信号进行场景化处理，从而获得具有环绕立体化场景化音效的音频信号，增强了音效的真实感，进而提高了用户的真实临场感。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图12，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以用于实施上述实施例中提供的音效调整方法。具体来讲：

该计算机设备1200包括处理单元(如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)和FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)等)1201、包括RAM(Random-Access Memory，随机存储器)1202和ROM(Read-Only Memory，只读存储器)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。该计算机设备1200还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System，I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

该基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中，该显示器1208和输入设备12012都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。该基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。该大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，该大容量存储设备1207可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本申请实施例，该计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在该系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述音效调整方法。

在一个示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集在被处理器执行时以实现上述音效调整方法。

可选地，该计算机可读存储介质可以包括：ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存储器)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在一个示例性实施例中，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行上述音效调整方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音效调整方法，其特征在于，所述方法包括：

获取目标视频的对应时间单元的视频帧和音频信号；

获取所述视频帧对应的深度信息；

基于所述深度信息对与所述场景信息对应的设定回声系数进行微调处理，得到所述回声系数；

2.根据权利要求1所述的方法，其特征在于，所述基于所述音源朝向和所述音源距离，对所述音频信号进行滤波处理，得到滤波后的音频信号，包括：

对所述音频信号进行时频变换处理，得到所述音频信号对应的频域信号；

基于所述频域信号、所述音源朝向和所述音源距离，确定滤波函数；

通过所述滤波函数对所述音频信号进行滤波处理，得到所述滤波后的音频信号。

3.根据权利要求2所述的方法，其特征在于，所述基于所述频域信号、所述音源朝向和所述音源距离，确定滤波函数，包括：

基于所述频域信号、所述音源朝向和所述音源距离，对设定的右声道滤波函数进行参数调整处理，得到调整后的右声道滤波函数；

所述通过所述滤波函数对所述音频信号进行滤波处理，得到所述滤波后的音频信号，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述滤波后的音频信号以及所述回声系数生成音效调整后的音频信号，包括：

5.根据权利要求1所述的方法，其特征在于，所述从所述视频帧中识别得到音源朝向和音源距离，包括：

确定所述视频帧中的音源对象；

基于所述姿态信息，确定所述音源朝向；

基于所述音源对象的深度信息，确定所述音源距离。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述获取目标视频的对应时间单元的视频帧和音频信号，包括：

7.一种音效调整装置，其特征在于，所述装置包括：

回声系数确定模块，用于获取所述视频帧对应的深度信息；基于预设对应关系，获取与所述场景信息对应的设定回声系数；其中，所述预设对应关系包括至少一组场景信息和设定回声系数之间的对应关系；基于所述深度信息对与所述场景信息对应的设定回声系数进行微调处理，得到所述回声系数；

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的音效调整方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至6任一项所述的音效调整方法。