CN109587552B

CN109587552B - 视频人物音效处理方法、装置、移动终端及存储介质

Info

Publication number: CN109587552B
Application number: CN201811414179.XA
Authority: CN
Inventors: 朱克智; 王健; 严锋贵
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-06-15
Anticipated expiration: 2038-11-26
Also published as: CN109587552A

Abstract

本申请实施例公开了一种视频人物音效处理方法、装置、移动终端及存储介质，该方法包括：获取视频画面，识别视频画面中是否包含视频人物；若是，分析在预设持续时长内视频画面所处的视频场景是否发生变化，若未发生变化，确定与视频场景对应的音效处理算法；获取预设持续时长内视频人物的音频，依据视频人物在视频场景的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。实施本申请实施例可以提高视频人物的音频效果。

Description

视频人物音效处理方法、装置、移动终端及存储介质

技术领域

本申请涉及音频技术领域，具体涉及一种视频人物音效处理方法、装置、移动终端及存储介质。

背景技术

随着移动终端(如手机、平板电脑等)的大量普及应用，移动终端能够支持的应用越来越多，功能越来越强大，移动终端向着多样化、个性化的方向发展，成为用户生活中不可缺少的电子用品。目前，在使用移动终端播放视频时，视频中的人物的位置发生变化时，人物的音效并没有发生变化，无法还原视频中人物的真实音效。

发明内容

本申请实施例提供了一种视频人物音效处理方法、装置、移动终端及存储介质，可以提高视频人物的音频效果。

第一方面，本申请实施例提供一种视频人物音效处理方法，包括：

获取视频画面，识别所述视频画面中是否包含视频人物；

若是，分析在预设持续时长内所述视频画面所处的视频场景是否发生变化，若未发生变化，确定与所述视频场景对应的音效处理算法；

获取预设持续时长内所述视频人物的音频，依据所述视频人物在所述视频场景的位置和所述音效处理算法对所述视频人物的音频进行处理，得到所述视频人物对应的目标音效。

第二方面，本申请实施例提供了一种视频人物音效处理装置，包括：

第一获取单元，用于获取视频画面；

识别单元，用于识别所述视频画面中是否包含视频人物；

分析单元，用于在所述识别单元识别出所述视频画面中包含视频人物的情况下，分析在预设持续时长内所述视频画面所处的视频场景是否发生变化；

确定单元，用于在所述分析单元分析出所述视频画面所处的视频场景未发生变化的情况下，确定与所述视频场景对应的音效处理算法；

第二获取单元，用于获取所述预设持续时长内所述视频人物的音频；

音频处理单元，用于依据所述视频人物在所述视频场景的位置和所述音效处理算法对所述视频人物的音频进行处理，得到所述视频人物对应的目标音效。

第三方面，本申请实施例提供一种移动终端，包括处理器、存储器，所述存储器用于存储一个或多个程序，所述一个或多个程序被配置成由所述处理器执行，上述程序包括用于执行本申请实施例第一方面中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中所描述的视频人物音效处理方法，移动终端获取视频画面，识别所述视频画面中是否包含视频人物；若是，分析在预设持续时长内所述视频画面所处的视频场景是否发生变化，若未发生变化，确定与所述视频场景对应的音效处理算法；获取预设持续时长内所述视频人物的音频，依据所述视频人物在所述视频场景的位置和所述音效处理算法对所述视频人物的音频进行处理，得到所述视频人物对应的目标音效。本申请实施例可以在播放视频时，依据视频画面中视频人物的位置与视频画面所处的视频场景为视频人物的音频增加音效，从而提高视频人物的音频效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种视频人物音效处理方法的流程示意图；

图2是本申请实施例公开的一种音频信号模拟传输的示意图；

图3是本申请实施例公开的另一种视频人物音效处理方法的流程示意图；

图4是本申请实施例公开的一种视频人物音效处理装置的结构示意图；

图5是本申请实施例公开的一种移动终端的结构示意图；

图6是本申请实施例公开的又一种移动终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的移动终端可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminaldevice)等等。为方便描述，上面提到的设备统称为移动终端。

下面对本申请实施例进行详细介绍。

请参阅图1，图1是本申请实施例公开的一种视频人物音效处理方法的流程示意图，如图1所示，该视频人物音效处理方法包括如下步骤。

101，移动终端获取视频画面，识别视频画面中是否包含视频人物。

本申请实施例中的视频人物音效处理方法可以用于在移动终端中播放视频的情况。比如，在移动终端上播放的电视剧视频、电影视频、录制的短视频等。

移动终端可以通过连续截屏的方式获取视频画面。视频画面中的视频人物为视频画面中能够产生的音频的视频人物。视频人物产生的音频可以包括视频人物发出的各种声音，比如说话的声音、脚步声、打斗的声音等等。

视频人物，指的是视频画面中的人物。

移动终端识别视频画面中是否包含视频人物具体可以为：

移动终端通过人脸识别算法识别视频画面中是否包含人脸，若包含，则可认为视频画面中包含视频人物。

视频画面中可以包含一个或多个视频人物，在包含多个视频人物的情况下，本申请实施例可以分别对每个视频人物做步骤102至步骤104的音效处理。在包含多个视频人物的情况下，步骤102至步骤104均以多个视频人物中的一个视频人物为例进行说明。

102，若是，移动终端分析在预设持续时长内视频画面所处的视频场景是否发生变化。

本申请实施例中，在移动终端识别出视频画面中包含视频人物时，移动终端在预设持续时长内分析视频画面所处的视频场景是否发生变化。该视频场景为预设持续时长内的视频画面所处的视频场景。

其中，该预设持续时长可以进行设定并存储在移动终端的存储器(非易失性存储器)中。比如，预设持续时长可以设置1-100秒中的一个值(例如，5秒、10秒、30秒等)。

移动终端分析在预设持续时长内视频画面所处的视频场景是否发生变化，具体可以为：

移动终端获取预设持续时长内的视频画面中的视频元素，依据该视频元素确定预设持续时长内视频画面所处的视频场景是否发生变化。

可选的，步骤102具体可以包括如下步骤：

(11)移动终端获取预设持续时长内的视频画面中出现的所有视频元素；

(12)移动终端判断所有视频元素是否包括至少两个不同的视频元素类别；

(13)若包括，移动终端确定视频画面所处的视频场景发生变化；

(14)若不包括，移动终端确定视频画面所处的视频场景未发生变化。

本申请实施例中，视频元素可以包括视频中的建筑物、植物、车辆、道路等。

视频场景可以分为封闭场景和开放场景。封闭场景可以包括会议室、卧室、电梯内、车内灯。开放场景可以包括道路场景、草原场景、操场场景等。

如果预设持续时长内的视频画面中的视频元素包括典型的室内场景的视频元素(例如，卧室)和典型的室外场景(的视频元素例如，草原)，则认为在预设持续时长内视频画面所处的视频场景发生了变化；如果预设持续时长内的视频画面中的视频元素仅包括一种类型(或类别)的室内场景或室外场景，则认为在预设持续时长内视频画面所处的视频场景没有发生变化。本申请实施例可以根据视频画面中的视频元素的类型来快速判断视频场景是否发生变化。

可选的，移动终端可以通过视频画面中的视频人物的语音对话中的语音(分析该语音中是否有“离开”、“走开”等明确表达要脱离该视频场景的词语)、视频画面中的该视频人物的移动轨迹趋势(分析该视频人物的移动轨迹是否要从脱离该视频场景中)来预测预设持续时长内该视频人物是否仍在视频场景。

103，若未发生变化，移动终端确定与该视频场景对应的音效处理算法。

由于不同的视频场景的三维空间、场景中的材质等不同，不同的视频场景会对应不同的音效处理算法。可以设定不同视频场景对应的音效处理算法。当确定视频画面所处的视频场景后，可以确定与该视频场景对应的音效处理算法，并直接使用该音效处理算法。

104，移动终端获取预设持续时长内视频人物的音频，依据视频人物在视频场景的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。

本申请实施例中，移动终端获取预设持续时长内视频人物的音频。移动终端可以从该视频对应的音频文件中获取预设持续时长内视频人物的音频。

在播放视频时，实施本申请实施例中的方法，可以依据视频画面中视频人物的位置与视频画面所处的视频场景为视频人物的音频增加音效，从而提高视频人物的音频效果。

可选的，移动终端获取预设持续时长内视频人物的音频，依据视频人物在视频场景的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效，包括：

移动终端获取预设持续时长内视频人物的音频，依据视频人物在视频场景的位置、视频画面的视角参考点的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。

其中，视频画面的视角参考点可以理解为拍摄视频画面的摄像头的位置。视频画面的视角参考点可以随着视频画面的变化而变化。

其中，音效处理算法可以是混响音效算法。如图2所示。图2是本申请实施例公开的一种音频信号模拟传输的示意图。图2中的音频播放端(视频人物)产生的音频信号可以通过直达和反射的方式到达音频接收端(视频画面的视角参考点)，从而在音频接收端形成混响效果。图2中示例了两种反射路径，第一反射路径经过一次反射到达音频接收端，第二反射路径经过一次反射到达音频接收端。图2仅为一种音频信号传输的示例，音频信号可以经过1次、2次以及2次以上的多条反射路径反射到达音频接收端。视频场景的不同，其反射的次数、反射的路径也不相同。无论音频信号是直达还是反射，其都会有一定程度的衰减，衰减系数依据路径的距离、反射的次数、传输的介质以及反射点的材质来确定。如图2所示，视频人物发出的音频信号经过三条路径到达视频画面的视角参考点所在的位置后，在视频画面的视角参考点所在的位置形成混响音效，该混响音效P＝S1*R1+S2*R2+S3*R3，其中，S1为第一反射路径的衰减系数、S2为第二反射路径的衰减系数、S3为直达路径的衰减系数、R1为沿第一反射路径发射的第一初始音频信号、R2为沿第二反射路径发射的第二初始音频信号、R3为沿直达路径发射的第三初始音频信号。第一反射路径经过第一反射面，S1与第一反射面的材质、视频场景中默认的传播介质以及第一反射路径的路径长度相关，第二反射路径经过第二反射面，S2与第二反射面的材质、视频场景中默认的传播介质以及第二反射路径的路径长度相关。S3与视频场景中默认的传播介质以及直达路径的长度相关。R1、R2和R3与视频人物发出的音频信号的声场在真实三维空间的空间分布相关。当第一反射面的材质、视频场景中默认的传播介质确定的情况下，第一反射路径的路径长度越大，则S1越小；当第二反射面的材质、视频场景中默认的传播介质确定的情况下，第二反射路径的路径长度越大，则S2越小；当视频场景中默认的传播介质确定的情况下，直达路径的长度越大，则S3越小。

105，移动终端在预设持续时长内输出与视频人物对应的目标音效。

由于视频画面对应的音频文件中的音频是与视频画面对应的，当视频画面中的视频人物开始发声时，音频文件中该视频人物的音频也会对应的播出。音频加音效的处理需要时间，因此，可以提前将预设持续时长内视频人物的音频提取出来并进行音效处理，得到该视频人物对应的目标音效。移动终端在预设持续时长内输出目标音效，可以在视频画面中该视频人物开始发声时播放该目标音效，从而实现画面与音效同步。

移动终端可以包括至少两个扬声器，通过至少两个扬声器在预设持续时长内输出目标音效，从而可以使得目标音效产生混响效果。

本申请实施例可以在播放视频时，依据视频画面中视频人物的位置与视频画面所处的视频场景为视频人物的音频增加音效，从而提高视频人物的音频效果。

请参阅图3，图3是本申请实施例公开的另一种视频人物音效处理方法的流程示意图，如图3所示，该视频人物音效处理方法包括如下步骤。

301，移动终端获取视频画面，识别视频画面中是否包含视频人物。

302，若是，移动终端分析在预设持续时长内视频画面所处的视频场景是否发生变化。

303，若未发生变化，移动终端确定与视频场景对应的音效处理算法。

304，移动终端获取预设持续时长内视频人物的音频。

305，移动终端获取预设持续时长内视频人物在视频场景的位置。

306，移动终端判断预设持续时长内视频人物在视频场景的位置是否发生变化。若否，则执行步骤307；若是，则执行步骤308。

本申请实施例中，移动终端可以通过视频画面中的视频人物的语音对话中的语音(分析该语音中是否有“起来”、“走”等明确表达视频人物要移动的词语)、视频人物的举止形态(分析该视频人物是否有从坐着到站起的姿态变化、手势变化等)、以及视频人物的状态(分析该视频人物是否处于生病状态、卧床状态、睡觉状态等)来预测预设持续时长内该视频人物在视频场景的位置是否发生变化。

可选的，步骤306可以包括如下步骤：

(21)移动终端获取预设持续时长内视频画面的亮度；

(22)若视频画面的亮度大于预设亮度阈值，移动终端基于视频人物在视频画面的运动轨迹确定视频人物在视频场景的位置是否发生变化；

(23)若视频画面的亮度小于或等于预设亮度阈值，移动终端提取预设持续时长内视频人物的音频中的关键词；

(24)移动终端根据关键词确定视频人物在视频场景的位置是否发生变化。

本申请实施例中，移动终端可以通过两个方面来判断预设持续时长内视频人物在视频场景的位置是否发生变化。移动终端首先判断视频画面的亮度，如果视频画面的亮度大于预设亮度阈值，则表明视频画面处于较为明亮的环境中，移动终端可以通过人脸捕捉或者背影捕捉来确定视频人物在视频画面的运动轨迹，基于视频人物在视频画面的运动轨迹确定视频人物在视频场景的位置是否发生变化。如果视频画面的亮度小于或等于预设亮度阈值，则表明视频画面处于黑暗的环境中，视频人物的人脸、背影等难以被捕捉，无法准确判断视频人物在视频场景中的位置是否发生变化。此时，可以通过提取视频人物的音频中的关键词，根据关键词确定视频人物在视频场景的位置是否发生变化。举例来说，视频人物的音频中的关键词包含“走”、“跑”、“移动”、“离开”等明确表达视频人物要移动的词语，则确定视频人物在视频场景的位置发生变化。

其中，预设亮度阈值可以预先进行设定并存储在移动终端的存储器(比如，非易失性存储器)中。

可选的，步骤(24)中，移动终端根据关键词确定视频人物在视频场景的位置是否发生变化，具体可以包括如下步骤：

(241)移动终端识别文字中是否包含预设关键词；

(242)若包括，移动终端确定视频人物在视频场景的位置发生变化；

(243)若不包括，移动终端确定视频人物在视频场景的位置未发生变化。

本申请实施例中，预设关键词可以包括“走”、“跑”、“移动”、“离开”、“走开”、“快来”、“快走”、“快跑”、“走啊”等明确表达视频人物要移动的词语。本申请实施例可以在黑暗环境下提取视频人物的音频中的关键词来确定视频人物在视频场景的位置是否发生变化，可以在黑暗环境下快速确定视频人物在视频场景的位置是否发生变化，从而快速准确的确定该视频人物所用的音效处理算法，提高音效处理的准确度。

307移动终端依据视频人物在视频场景的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。

其中，步骤307的具体实施可以参见步骤104，此处不再赘述。

308，移动终端根据预设持续时长内视频人物在视频场景的位置变化趋势和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。

本申请实施例中，移动终端根据预设持续时长内视频人物在视频场景的位置变化趋势可以确定该视频人物在预设持续时长内的位置，移动终端根据该视频人物在预设持续时长内的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。

309，移动终端在预设持续时长内输出与视频人物对应的目标音效。

本申请实施例中的步骤301至步骤304的具体实施可以参见图1所示的步骤101至步骤104，本申请实施例中的步骤309的具体实施可以参见图1所示的步骤105，此处不再赘述。

本申请实施例可以在播放视频时，依据视频画面中视频人物的位置与视频画面所处的视频场景为视频人物的音频增加音效，从而提高视频人物的音频效果。可以在视频人物在视频场景中的位置发生变化时，及时调整视频人物的音效，从而保证视频人物的音效效果。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，移动终端为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本申请实施例可以根据上述方法示例对移动终端进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

请参阅图4，图4是本申请实施例公开的一种视频人物音效处理装置的结构示意图。如图4所示，该视频人物音效处理装置400包括第一获取单元401、识别单元402、分析单元403、确定单元404、第二获取单元405以及音频处理单元406，其中：

第一获取单元401，用于获取视频画面；

识别单元402，用于识别视频画面中是否包含视频人物；

分析单元403，用于在识别单元402识别出视频画面中包含视频人物的情况下，分析在预设持续时长内视频画面所处的视频场景是否发生变化；

确定单元404，用于在分析单元403分析出视频画面所处的视频场景未发生变化的情况下，确定与视频场景对应的音效处理算法；

第二获取单元405，用于获取预设持续时长内视频人物的音频；

音频处理单元406，用于依据视频人物在视频场景的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。

可选的，该视频人物音效处理装置400还可以包括输出单元407。

输出单元407，用于在音频处理单元406依据视频人物在视频场景的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效之后，预设持续时长内输出与视频人物对应的目标音效。

可选的，该视频人物音效处理装置400还可以包括第三获取单元408和判断单元409，其中：

第三获取单元408，用于获取预设持续时长内视频人物在视频场景的位置；

判断单元409，用于判断预设持续时长内视频人物在视频场景的位置是否发生变化；

音频处理单元406，还用于在判断单元409判断预设持续时长内视频人物在视频场景的位置未发生变化时，依据视频人物在视频场景的位置和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。

可选的，音频处理单元406，还用于在判断单元409判断预设持续时长内视频人物在视频场景的位置发生变化时，根据预设持续时长内视频人物在视频场景的位置变化趋势和音效处理算法对视频人物的音频进行处理，得到视频人物对应的目标音效。

可选的，判断单元409判断预设持续时长内视频人物在视频场景的位置是否发生变化，具体为：获取预设持续时长内视频画面的亮度；若视频画面的亮度大于预设亮度阈值，则基于视频人物在视频画面的运动轨迹确定视频人物在视频场景的位置是否发生变化；若视频画面的亮度小于或等于预设亮度阈值，提取预设持续时长内视频人物的音频中的关键词；根据关键词确定视频人物在视频场景的位置是否发生变化。

可选的，判断单元409根据关键词确定视频人物在视频场景的位置是否发生变化，具体为：识别文字中是否包含预设关键词；若包括，则确定视频人物在视频场景的位置未发生变化；若不包括，则确定视频人物在视频场景的位置发生变化。

可选的，分析单元403分析在预设持续时长内视频画面所处的视频场景是否发生变化，具体为：获取预设持续时长内的视频画面中出现的所有视频元素；判断所有视频元素是否包括至少两个不同的视频元素类别；若包括，则确定视频画面所处的视频场景发生变化；若不包括，则确定视频画面所处的视频场景未发生变化。

图4的视频人物音效处理装置400中的第一获取单元401、识别单元402、分析单元403、确定单元404、第二获取单元405、音频处理单元406、第三获取单元408和判断单元409可以是移动终端中的处理器。输出单元407可以是移动终端中的音频播放装置(比如，扬声器、喇叭等)。

图4所示的视频人物音效处理装置400的实施可以参见图1至图3所示的方法实施例，此处不再赘述。

实施图4所示的视频人物音效处理装置，可以在播放视频时，依据视频画面中视频人物的位置与视频画面所处的视频场景为视频人物的音频增加音效，从而提高视频人物的音频效果。

请参阅图5，图5是本申请实施例公开的一种移动终端的结构示意图。如图5所示，该移动终端500包括处理器501和存储器502，其中，移动终端500还可以包括总线503，处理器501和存储器502可以通过总线503相互连接，总线503可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，简称EISA)总线等。总线503可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中，移动终端500还可以包括输入输出设备504，输入输出设备504可以包括显示屏，例如液晶显示屏，还可以包括音频播放装置，比如，扬声器、喇叭等。存储器502用于存储包含指令的一个或多个程序；处理器501用于调用存储在存储器502中的指令执行上述图1至图3中的部分或全部方法步骤。

实施图5所示的移动终端，可以在播放视频时，依据视频画面中视频人物的位置与视频画面所处的视频场景为视频人物的音频增加音效，从而提高视频人物的音频效果。

本申请实施例还提供了另一种移动终端，如图6所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该移动终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以移动终端为手机为例：

图6示出的是与本申请实施例提供的移动终端相关的手机的部分结构的框图。参考图6，手机包括：射频(Radio Frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(Wireless Fidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对手机的各个构成部件进行具体的介绍：

RF电路910可用于信息的接收和发送。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobilecommunication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括指纹识别模组931以及其他输入设备932。指纹识别模组931，可采集用户在其上的指纹数据。除了指纹识别模组931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于触控屏、物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示屏941，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机或无机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示屏941。

手机还可包括至少一种传感器950，比如光传感器、运动传感器、压力传感器、温度传感器以及其他传感器。具体地，光传感器可包括环境光传感器(也称为光线传感器)及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节手机的背光亮度，进而调节显示屏941的亮度，接近传感器可在手机移动到耳边时，关闭显示屏941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号播放；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据播放处理器处理后，经RF电路910以发送给比如另一手机，或者将音频数据播放至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

手机还可以包括摄像头9100，摄像头9100用于拍摄图像与视频，并将拍摄的图像和视频传输到处理器980进行处理。

手机还可以蓝牙模块等，在此不再赘述。

前述图1～图3所示的实施例中，各步骤方法流程可以基于该手机的结构实现。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种视频人物音效处理方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种视频人物音效处理方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频人物音效处理方法，其特征在于，包括：

获取视频画面，识别所述视频画面中是否包含视频人物；若是，分析在预设持续时长内所述视频画面所处的视频场景是否发生变化，若未发生变化，确定与所述视频场景对应的音效处理算法；

获取所述预设持续时长内所述视频人物的音频，获取所述预设持续时长内所述视频人物在所述视频场景的位置；判断所述预设持续时长内所述视频人物在所述视频场景的位置是否发生变化；若所述预设持续时长内所述视频人物在所述视频场景的位置未发生变化，则依据所述视频人物在所述视频场景的位置和所述音效处理算法对所述视频人物的音频进行处理，得到所述视频人物对应的目标音效；

其中，

所述依据所述视频人物在所述视频场景的位置和所述音效处理算法对所述视频人物的音频进行处理，得到所述视频人物对应的目标音效之后，所述方法还包括：

在所述预设持续时长内输出与所述视频人物对应的目标音效。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：若所述预设持续时长内所述视频人物在所述视频场景的位置发生变化，根据所述预设持续时长内所述视频人物在所述视频场景的位置变化趋势和所述音效处理算法对所述视频人物的音频进行处理，得到所述视频人物对应的目标音效。

3.根据权利要求1至2任意一项所述的方法，其特征在于，所述判断所述预设持续时长内所述视频人物在所述视频场景的位置是否发生变化，包括：

获取所述预设持续时长内所述视频画面的亮度；

若所述视频画面的亮度大于预设亮度阈值，则基于所述视频人物在所述视频画面的运动轨迹确定所述视频人物在所述视频场景的位置是否发生变化；

若所述视频画面的亮度小于或等于所述预设亮度阈值，提取所述预设持续时长内所述视频人物的音频中的关键词；

根据所述关键词确定所述视频人物在所述视频场景的位置是否发生变化。

4.根据权利要求3所述的方法，其特征在于，所述根据所述关键词确定所述视频人物在所述视频场景的位置是否发生变化，包括：

识别文字中是否包含预设关键词；

若包括，则确定所述视频人物在所述视频场景的位置发生变化；

若不包括，则确定所述视频人物在所述视频场景的位置未发生变化。

5.根据权利要求1～2任一项所述的方法，其特征在于，所述分析在预设持续时长内所述视频画面所处的视频场景是否发生变化，包括：

获取预设持续时长内的视频画面中出现的所有视频元素；

判断所述所有视频元素是否包括至少两个不同的视频元素类别；

若包括，则确定所述视频画面所处的视频场景发生变化；

若不包括，则确定所述视频画面所处的视频场景未发生变化。

6.一种视频人物音效处理方法，其特征在于，包括：

获取视频画面，识别所述视频画面中是否包含视频人物；若是，分析在预设持续时长内所述视频画面所处的视频场景是否发生变化，若未发生变化，确定与所述视频场景对应的音效处理算法，其中，所述视频场景包括封闭场景和开放场景；

获取所述预设持续时长内所述视频人物的音频，依据所述视频人物在所述视频场景的位置和所述音效处理算法对所述视频人物的音频进行处理，得到所述视频人物对应的目标音效；

其中，所述分析在预设持续时长内所述视频画面所处的视频场景是否发生变化，包括：

获取预设持续时长内的视频画面中出现的所有视频元素；

判断所述所有视频元素是否包括至少两个不同的视频元素类别，所述至少两个不同视频元素类别包括封闭场景和开放场景的视频元素；

若包括，则确定所述视频画面所处的视频场景发生变化；

若不包括，则确定所述视频画面所处的视频场景未发生变化；

其中，

7.一种视频人物音效处理装置，其特征在于，包括：

第一获取单元，用于获取视频画面；

识别单元，用于识别所述视频画面中是否包含视频人物；

分析单元，用于在所述识别单元识别出所述视频画面中包含视频人物的情况下，分析在预设持续时长内所述视频画面所处的视频场景是否发生变化，所述视频场景包括封闭场景和开放场景；

音频处理单元，用于依据所述视频人物在所述视频场景的位置和所述音效处理算法对所述视频人物的音频进行处理，得到所述视频人物对应的目标音效，在所述预设持续时长内输出与所述视频人物对应的目标音效；

其中，所述分析在预设持续时长内所述视频画面所处的视频场景是否发生变化，包括：获取预设持续时长内的视频画面中出现的所有视频元素；判断所述所有视频元素是否包括至少两个不同的视频元素类别，所述至少两个不同视频元素类别包括封闭场景和开放场景的视频元素；若包括，则确定所述视频画面所处的视频场景发生变化；若不包括，则确定所述视频画面所处的视频场景未发生变化。

8.一种移动终端，其特征在于，包括处理器以及存储器，所述存储器用于存储一个或多个程序，所述一个或多个程序被配置成由所述处理器执行，所述程序包括用于执行如权利要求1～6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～6任一项所述的方法。