CN109413563B

CN109413563B - 视频的音效处理方法及相关产品

Info

Publication number: CN109413563B
Application number: CN201811253072.1A
Authority: CN
Inventors: 朱克智; 严锋贵
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2020-07-10
Anticipated expiration: 2038-10-25
Also published as: WO2020082902A1; CN109413563A

Abstract

本申请实施例公开了一种视频的音效处理方法及相关产品，所述方法包括如下步骤：获取拍摄的第一视频，提取第一视频中的图像帧数据以及音频帧数据；获取音频帧数据的音频时间区间，从图像帧数据中提取与该音频时间区间对应的第一组图像帧数据；对第一组图像帧数据进行分析确定音频的声源位置，依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据。本申请提供的技术方案具有用户体验度高的优点。

Description

视频的音效处理方法及相关产品

技术领域

本申请涉及音频技术领域，具体涉及一种视频的音效处理方法及相关产品。

背景技术

随着电子设备(如手机、平板电脑等)的大量普及应用，电子设备能够支持的应用越来越多，功能越来越强大，电子设备向着多样化、个性化的方向发展，成为用户生活中不可缺少的电子用品，视频类应用为电子设备的高频应用，现有的视频拍摄对音频的位置并没有反应，即对于声源在左、右等位置并没有反应，这样导致视频的场景还原效果差，影响用户体验度。

发明内容

本申请实施例提供了一种视频的音效处理方法及相关产品，能够声源的位置对视频的音频进行处理，提升用户体验。

第一方面，本申请实施例提供一种视频的音效处理方法，所述方法包括如下步骤：

获取拍摄的第一视频，提取第一视频中的图像帧数据以及音频帧数据；

获取音频帧数据的音频时间区间，从图像帧数据中提取与该音频时间区间对应的第一组图像帧数据；

对第一组图像帧数据进行分析确定音频的声源位置，依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据。

第二方面，提供一种电影音效处理装置，所述电影音效处理装置包括：

获取单元，用于获取拍摄的第一视频，提取第一视频中的图像帧数据以及音频帧数据；

处理单元，用于获取音频帧数据的音频时间区间，从图像帧数据中提取与该音频时间区间对应的第一组图像帧数据；对第一组图像帧数据进行分析确定音频的声源位置；依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口，以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请提供的技术方案获取拍摄的第一视频时，提取第一视频的图像帧数据以及音频帧数据，然后获取音频帧数据对应的音频时间区间，依据该音频时间区间对应的图像帧数据来确定声源位置，然后依据声源位置来调整音频数据，从而在音频数据中体现声源，增加了音频数据的场景还原效果，提高了用户体验度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电子设备的结构示意图；

图2是本申请实施例公开的一种电影音效处理方法的流程示意图；

图3是本申请实施例公开的另一种电影音效处理方法的流程示意图；

图4是本申请实施例公开的一种电影音效处理装置的结构示意图；

图5是本申请实施例公开的另一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备(如智能手机)、车载设备、虚拟现实(virtual reality，VR)/增强现实(augmentedreality，AR)设备，可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端设备(terminal device)、研发/测试平台、服务器等等。为方便描述，上面提到的设备统称为电子设备。

具体实现中，本申请实施例中，电子设备可对音频数据(声源发出的声音)使用HRTF(Head Related Transfer Function，头相关变换函数)滤波器进行滤波，得到虚拟环绕声，也称之为环绕声，或者全景声，实现一种三维立体音效。HRTF在时间域所对应的名称是HRIR(Head Related Impulse Response)。或者将音频数据与双耳房间脉冲响应(Binaural Room Impulse Response，BRIR)做卷积，双耳房间脉冲响应由三个部分组成：直达声，早期反射声和混响。

请参阅图1，图1是本申请实施例提供的一种电子设备的结构示意图，电子设备包括控制电路和输入-输出电路，输入输出电路与控制电路连接。

其中，控制电路可以包括存储和处理电路。该存储和处理电路中的存储电路可以是存储器，例如硬盘驱动存储器，非易失性存储器(例如闪存或用于形成固态驱动器的其它电子可编程只读存储器等)，易失性存储器(例如静态或动态随机存取存储器等)等，本申请实施例不作限制。存储和处理电路中的处理电路可以用于控制电子设备的运转。该处理电路可以基于一个或多个微处理器，微控制器，数字信号处理器，基带处理器，功率管理单元，音频编解码器芯片，专用集成电路，显示驱动器集成电路等来实现。

存储和处理电路可用于运行电子设备中的软件，例如播放来电提示响铃应用程序、播放短消息提示响铃应用程序、播放闹钟提示响铃应用程序、播放媒体文件应用程序、互联网协议语音(voice over internet protocol，VOIP)电话呼叫应用程序、操作系统功能等。这些软件可以用于执行一些控制操作，例如，播放来电提示响铃、播放短消息提示响铃、播放闹钟提示响铃、播放媒体文件、进行语音电话呼叫以及电子设备中的其它功能等，本申请实施例不作限制。

其中，输入-输出电路可用于使电子设备实现数据的输入和输出，即允许电子设备从外部设备接收数据和允许电子设备将数据从电子设备输出至外部设备。

输入-输出电路可以进一步包括传感器。传感器可以包括环境光传感器，基于光和电容的红外接近传感器，超声波传感器，触摸传感器(例如，基于光触摸传感器和/或电容式触摸传感器，其中，触摸传感器可以是触控显示屏的一部分，也可以作为一个触摸传感器结构独立使用)，加速度传感器，重力传感器，和其它传感器等。输入-输出电路还可以进一步包括音频组件，音频组件可以用于为电子设备提供音频输入和输出功能。音频组件还可以包括音调发生器以及其它用于产生和检测声音的组件。

输入-输出电路还可以包括一个或多个显示屏。显示屏可以包括液晶显示屏，有机发光二极管显示屏，电子墨水显示屏，等离子显示屏，使用其它显示技术的显示屏中一种或者几种的组合。显示屏可以包括触摸传感器阵列(即，显示屏可以是触控显示屏)。触摸传感器可以是由透明的触摸传感器电极(例如氧化铟锡(ITO)电极)阵列形成的电容式触摸传感器，或者可以是使用其它触摸技术形成的触摸传感器，例如音波触控，压敏触摸，电阻触摸，光学触摸等，本申请实施例不作限制。

输入-输出电路还可以进一步包括通信电路可以用于为电子设备提供与外部设备通信的能力。通信电路可以包括模拟和数字输入-输出接口电路，和基于射频信号和/或光信号的无线通信电路。通信电路中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说，通信电路中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(near field communication，NFC)的电路。例如，通信电路可以包括近场通信天线和近场通信收发器。通信电路还可以包括蜂窝电话收发器和天线，无线局域网收发器电路和天线等。

输入-输出电路还可以进一步包括其它输入-输出单元。输入-输出单元可以包括按钮，操纵杆，点击轮，滚动轮，触摸板，小键盘，键盘，照相机，发光二极管和其它状态指示器等。

其中，电子设备还可以进一步包括电池(未图示)，电池用于给电子设备提供电能。

视频(Video)泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。视频技术最早是为了电视系统而发展，但现在已经发展为各种不同的格式以利消费者将视频记录下来。网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放。视频与电影属于不同的技术，后者是利用照相术将动态的影像捕捉为一系列的静态照片。

随着摄像头在电子设备上的应用，尤其是摄像头与智能手机结合以后，视频拍摄被用户使用的频率越来越高，尤其是近期短视频应用的飞速发展，让用户使用视频应用的频率更加的频繁。对于视频，本申请中的视频如无特殊说明，该视频为电子设备拍摄的视频，并不包含专业设备拍摄的视频(例如电影、电视剧等等影视作品)。现有的视频拍摄，包含图像和音频，对于视频中的音频数据，现有的电子设备一般只记录在视频拍摄时采集到的音频数据，并不对音频数据进行处理，例如依据拍摄视频中声源的位置对音频数据进行处理等。这样导致场景的还原效果差，影响了用户的体验度。

下面对本申请实施例进行详细介绍。

请参阅图2，图2是本申请实施例公开的一种视频的音效处理方法的流程示意图，应用于上述图1所描述的电子设备，该视频的音效处理方法包括如下步骤：

步骤S201、获取拍摄的第一视频，提取第一视频中的图像帧数据以及音频帧数据；

步骤S202、获取音频帧数据的音频时间区间，从图像帧数据中提取与该音频时间区间对应的第一组图像帧数据；

上述获取音频帧数据的音频时间区间具体可以包括：

将音频帧数据进行过滤处理得到过滤后的第一音频帧数据，获取第一音频帧数据对应的时间区间，确定该时间区间为音频时间区间。

步骤S203、对第一组图像帧数据进行分析确定音频的声源位置，依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据。

上述步骤S203中的依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据具体可以包括：

如该声源位置位于左侧，则提高音频帧数据中左声道的音量或降低音频帧数据中右声道的音量；如该声源位置位于右侧，则提高音频帧数据中右声道的音量或降低音频帧数据中左声道的音量。

可选的，如上述第一视频为室内，还可以对该音频帧数据执行室内3D音效策略播放，上述室内3D音效策略播放包括但不限于：降低音量、增加回声等等方式。

本申请提供的技术方案获取拍摄的第一视频时，提取第一视频的图像帧数据以及音频帧数据，然后获取音频帧数据对应的音频时间区间，依据该音频时间区间对应的图像帧数据来确定声源位置，然后依据声源位置来调整音频数据，从而在音频数据中体现声源，增加了音频数据的场景还原效果，提高了用户体验度。

可选的，上述确定第一视频为室内的方法具体可以包括：

从图像帧数据中随机抽取n帧图像数据，将n帧图像数据传输至训练好的分类器中执行分类算法处理确定n帧图像数据对应的n个场景，如n个场景均为室内，确定第一视频为室内，否则，确定第一视频为非室内。

上述分类器包括但不限于：机器学习、神经网络模型、深度学习模型等等具有分类功能的算法模型。

上述抽取n帧图像数据能够减少数据的运算量，对比第一视频所有图像帧数据均进行分类器的运算，能够极大地减少运算量，并且其准确度还不会降低。因为，通过本申请人对拍摄视频大数据的统计发现，拍摄视频一般时间较短，大部分的拍摄视频的时间均低于5分钟，甚至是低于2分钟，通俗的说即为微视频，与电影的场景频繁的切换不同，对于微视频这种场景，由于时间很短，另外，微视频一般为一次拍摄形成，不会经过后续的剪辑以及拼接处理等，因此其拍摄场景一般不会切换，通过大数据的统计，绝大部分的视频拍摄的场景均是固定，例如，室内场景拍摄均为室内场景拍摄，室外场景拍摄均为室外场景拍摄，因此，直接抽取第一视频的n个图像帧进行判断就可以实现室内还是室外的确认。

上述步骤S203中对第一组图像帧数据进行分析确定音频的声源位置具体可以包括：

提取第一组图像帧数据连续时间段的m个图像帧，对m个图像帧进行人脸识别处理得到包含人脸的w个图像帧，提取w个图像帧中时间连续的x个图像帧，对x个图像帧的嘴巴区域识别确定x个图像帧具有嘴巴的动作时，确定x个图像帧中嘴巴区域的在x个图像中的位置为该音频的声源位置。

上述连续时间段具有可以为，拍摄时间连续的图像帧，例如，1s—10s时间段的m个图像帧，当然也可以为其他的时间段，本申请并不局限上述时间段的具体时间。

上述人脸识别处理的方法可以采用通用人脸识别算法来得到，例如，通过百度人脸识别算法，谷歌人脸识别等等方式来得到。

上述对x个图像帧的嘴巴区域识别确定x个图像帧具有嘴巴的动作具体可以包括：

确定x个图像帧的x个嘴巴区域，识别x个嘴巴区域所有像素点的RGB值，将所有RGB值中统计非嘴唇RGB值的像素点的个数得到x个数量，计算x个数量中最大值与最小值之间的差值，如该差值大于差值阈值，确定该x个图像具有嘴巴的动作，如该差值小于差值阈值，确定该x个图像不具有嘴巴的动作。

此方法的原理基于人说话一定具有嘴巴的动作，对于嘴巴的动作分析得到，人在说话时，该嘴巴的区域分为2个部分，第一部分为嘴唇区域(以亚洲人为例，嘴唇为粉红色，可以查询RGB值确定该嘴唇RGB值的范围)，第二部分为非嘴唇区域(可能出现，牙齿RGB值或无光线的黑色RGB值)，通过大数据的统计发现，对于嘴巴的动作，其第二部分的面积是会随时变化的，例如说一段话，那么第二部分最大范围以及最小范围的差距较大，由于拍摄视频距离相对固定，那么反应到图像帧中，即第二部分对应的像素点数量的变化比较大，基于这个原理，本申请人来识别嘴巴的动作。

确定x个图像帧的x个嘴巴区域，识别x个嘴巴区域所有像素点的RGB值，将所有RGB值中统计牙齿RGB值的像素点的个数得到x个数量，计算x个数量中大于数量阈值的次数y，如y/x大于比值阈值，确定x个图像帧具有嘴巴动作。

此方法的原理基于人说话一定具有嘴巴的动作，对于嘴巴的动作分析得到，人在说话时，该嘴巴的区域分为2个部分，第一部分为嘴唇区域(以亚洲人为例，嘴唇为粉红色，可以查询RGB值确定该嘴唇RGB值的范围)，第二部分为非嘴唇区域(例如牙齿RGB值)，通过大数据的统计发现，对于嘴巴的动作，其第二部分的面积是会随时变化的，在变化时会时时的出现牙齿，那么统计牙齿出现的次数，即能够确定是否具有嘴巴动作，另外，亚洲人的牙齿一般为白色偏黄，其与嘴唇的RGB值的差别很大，因此选择牙齿的RGB值也可以减少误差，提高嘴巴动作的识别准确度。

请参阅图3，图3是本申请实施例公开的一种视频音效处理方法的流程示意图，应用于上述图1所描述的电子设备，该电影音效处理方法包括如下步骤：

步骤S301、获取拍摄的第一视频，提取第一视频中的图像帧数据以及音频帧数据；

步骤S302、获取音频帧数据的音频时间区间，从图像帧数据中提取与该音频时间区间对应的第一组图像帧数据。

步骤S303、提取第一组图像帧数据连续时间段的m个图像帧，对m个图像帧进行人脸识别处理得到包含人脸的w个图像帧，提取w个图像帧中时间连续的x个图像帧，对x个图像帧的嘴巴区域识别确定x个图像帧具有嘴巴的动作时，确定x个图像帧中嘴巴区域的在x个图像中的位置为该音频的声源位置。

步骤S304、如该声源位置位于左侧，则提高音频帧数据中左声道的音量或降低音频帧数据中右声道的音量。

参阅图4，图4提供了一种视频的音效处理装置，所述视频的音效处理装置包括：

获取单元401，用于获取拍摄的第一视频，提取第一视频中的图像帧数据以及音频帧数据；

处理单元402，用于获取音频帧数据的音频时间区间，从图像帧数据中提取与该音频时间区间对应的第一组图像帧数据；对第一组图像帧数据进行分析确定音频的声源位置；依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据。

可选的，处理单元，具体用于如该声源位置位于左侧，则提高音频帧数据中左声道的音量或降低音频帧数据中右声道的音量；如该声源位置位于右侧，则提高音频帧数据中右声道的音量或降低音频帧数据中左声道的音量。

可选的，处理单元，还用于如第一视频为室内，对所述音频帧数据执行室内3D音效策略播放。

可选的，处理单元，具体用于从图像帧数据中随机抽取n帧图像数据，将n帧图像数据传输至训练好的分类器中执行分类算法处理确定n帧图像数据对应的n个场景，如n个场景均为室内，确定第一视频为室内，否则，确定第一视频为非室内；所述n为大于等于2的整数。

可选的，处理单元，具体用于提取第一组图像帧数据连续时间段的m个图像帧，对m个图像帧进行人脸识别处理得到包含人脸的w个图像帧，提取w个图像帧中时间连续的x个图像帧，对x个图像帧的嘴巴区域识别确定x个图像帧具有嘴巴的动作时，确定x个图像帧中嘴巴区域的在x个图像中的位置为该音频的声源位置，所述m≥w≥x，所述m、w、x均为大于等于2的整数。

可选的，处理单元，具体用于确定x个图像帧的x个嘴巴区域，识别x个嘴巴区域所有像素点的RGB值，将所有RGB值中统计非嘴唇RGB值的像素点的个数得到x个数量，计算x个数量中最大值与最小值之间的差值，如该差值大于差值阈值，确定该x个图像具有嘴巴的动作，如该差值小于差值阈值，确定该x个图像不具有嘴巴的动作。

可选的，处理单元，具体用于确定x个图像帧的x个嘴巴区域，识别x个嘴巴区域所有像素点的RGB值，将所有RGB值中统计牙齿RGB值的像素点的个数得到x个数量，计算x个数量中大于数量阈值的次数y，如y/x大于比值阈值，确定x个图像帧具有嘴巴动作。

请参阅图5，图5是本申请实施例公开的另一种电子设备的结构示意图，如图所示，该电子设备包括处理器、存储器、通信接口，以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

在一种可选的方案中，所述依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据具体包括：

在一种可选的方案中，所述方法还包括：

第一视频为室内，对所述音频帧数据执行室内3D音效策略播放。

在一种可选的方案中，所述确定所述第一视频为室内的方法具体包括：

从图像帧数据中随机抽取n帧图像数据，将n帧图像数据传输至训练好的分类器中执行分类算法处理确定n帧图像数据对应的n个场景，如n个场景均为室内，确定第一视频为室内，否则，确定第一视频为非室内；所述n为大于等于2的整数。

在一种可选的方案中，所述对第一组图像帧数据进行分析确定音频的声源位置具体包括：

提取第一组图像帧数据连续时间段的m个图像帧，对m个图像帧进行人脸识别处理得到包含人脸的w个图像帧，提取w个图像帧中时间连续的x个图像帧，对x个图像帧的嘴巴区域识别确定x个图像帧具有嘴巴的动作时，确定x个图像帧中嘴巴区域的在x个图像中的位置为该音频的声源位置，所述m≥w≥x，所述m、w、x均为大于等于2的整数。

在一种可选的方案中，所述对x个图像帧的嘴巴区域识别确定x个图像帧具有嘴巴的动作具体包括：

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

需要注意的是，本申请实施例所描述的电子设备是以功能单元的形式呈现。这里所使用的术语“单元”应当理解为尽可能最宽的含义，用于实现各个“单元”所描述功能的对象例如可以是集成电路ASIC，单个电路，用于执行一个或多个软件或固件程序的处理器(共享的、专用的或芯片组)和存储器，组合逻辑电路，和/或提供实现上述功能的其他合适的组件。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种视频的音效处理方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种视频的音效处理方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频的音效处理方法，其特征在于，所述方法包括如下步骤：

获取音频帧数据的音频时间区间，从图像帧数据中提取与该音频时间区间对应的第一组图像帧数据，其中，所述获取音频帧数据的音频时间区间包括：将音频帧数据进行过滤处理得到过滤后的第一音频帧数据，获取第一音频帧数据对应的时间区间，确定该时间区间为音频时间区间；

对第一组图像帧数据进行分析确定音频的声源位置，依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据；

确定第一视频为室内时，对所述音频帧数据执行室内3D音效策略播放；

其中，所述确定所述第一视频为室内的方法具体包括：

2.根据权利要求1所述的方法，其特征在于，所述依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据具体包括：

3.根据权利要求1所述的方法，其特征在于，所述对第一组图像帧数据进行分析确定音频的声源位置具体包括：

4.根据权利要求3所述的方法，其特征在于，所述对x个图像帧的嘴巴区域识别确定x个图像帧具有嘴巴的动作具体包括：

5.根据权利要求3所述的方法，其特征在于，所述对x个图像帧的嘴巴区域识别确定x个图像帧具有嘴巴的动作具体包括：

6.一种电影音效处理装置，其特征在于，所述电影音效处理装置包括：

处理单元，用于获取音频帧数据的音频时间区间，从图像帧数据中提取与该音频时间区间对应的第一组图像帧数据；对第一组图像帧数据进行分析确定音频的声源位置；依据该声源位置对该音频帧数据进行3D音效处理得到处理后的音频帧数据，其中，所述处理单元将音频帧数据进行过滤处理得到过滤后的第一音频帧数据，获取第一音频帧数据对应的时间区间，确定该时间区间为音频时间区间；

所述处理单元还用于在确定第一视频为室内时，对所述音频帧数据执行室内3D音效策略播放，其中，所述处理单元从图像帧数据中随机抽取n帧图像数据，将n帧图像数据传输至训练好的分类器中执行分类算法处理确定n帧图像数据对应的n个场景，如n个场景均为室内，确定第一视频为室内，否则，确定第一视频为非室内；所述n为大于等于2的整数。

7.一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-5任一项所述的方法中的步骤的指令。

8.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。