CN109089156A - 一种音效调节方法、装置及终端 - Google Patents

一种音效调节方法、装置及终端 Download PDF

Info

Publication number
CN109089156A
CN109089156A CN201811093511.7A CN201811093511A CN109089156A CN 109089156 A CN109089156 A CN 109089156A CN 201811093511 A CN201811093511 A CN 201811093511A CN 109089156 A CN109089156 A CN 109089156A
Authority
CN
China
Prior art keywords
audio
parameter
characteristic parameter
motion characteristic
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811093511.7A
Other languages
English (en)
Other versions
CN109089156B (zh
Inventor
陈联武
罗敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811093511.7A priority Critical patent/CN109089156B/zh
Publication of CN109089156A publication Critical patent/CN109089156A/zh
Application granted granted Critical
Publication of CN109089156B publication Critical patent/CN109089156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Abstract

本发明公开了一种音效调节方法、装置及终端,属于音视频处理技术领域,所述音效调节方法包括:获取包括目标运动对象的运动视频,对运动视频中目标运动对象的动作进行识别,得到目标运动对象的动作特征参数;获取第一调节因子,所述第一调节因子为根据用户意图确定的参数;获取目标音频,确定目标音频的原始音效参数;该原始音效参数与所述动作特征参数相对应;根据所述动作特征参数和第一调节因子,生成音效参数调节系数;根据该音效参数调节系数对所述原始音效参数进行调节。本发明实现了基于视频信息和用户意图对目标音频的音效进行自适应地调节,用户无需手动调节音频音效,而且能够实现目标音频音效的实时流式调节。

Description

一种音效调节方法、装置及终端
技术领域
本发明涉及音视频处理技术领域,特别涉及一种音效调节方法、装置及终端。
背景技术
现有技术中的手机、电脑等终端上安装的音视频制作应用或者音视频播放应用常常配置了对音频音效的调节功能,以使得用户获得更好的音效体验,例如,在已有视频中添加一段音频时,可以允许对该音频的整体音量大小进行调节。
然而,现有的音视频制作应用或者音视频播放应用在对添加的音频文件的音量、声场等音效进行调节时,一般都需要用户通过鼠标、触摸屏点击等手动方式来调节音效,操作过于繁琐,用户体验效果比较差,而且只能对音频文件的整体音效进行调节,无法进行音频音效的实时流式控制。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种音效调节方法、装置及终端。所述技术方案如下:
一方面,提供了一种音效调节方法,所述方法包括:
获取包括目标运动对象的运动视频,对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数;
获取第一调节因子,所述第一调节因子为根据用户意图确定的参数;
获取目标音频,确定所述目标音频的原始音效参数;所述原始音效参数与所述动作特征参数相对应;
根据所述动作特征参数和第一调节因子,生成音效参数调节系数;
根据所述音效参数调节系数对所述原始音效参数进行调节。
另一方面,提供了一种音效调节装置,所述装置包括:
第一获取模块,用于获取包括目标运动对象的运动视频,对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数;
第二获取模块,用于获取第一调节因子,所述第一调节因子为根据用户意图确定的参数;
第三获取模块,用于获取目标音频,却所述目标音频的原始音效参数;所述原始音效参数与所述动作特征参数相对应;
第一生成模块,用于根据所述动作特征参数和第一调节因子,生成音效参数调节系数;
调节模块,用于根据所述音效参数调节系数对所述原始音效参数进行调节。
另一方面,提供了一种终端,包括处理器和存储装置;
所述存储装置,用于存储计算机程序指令;
所述处理器,调用所述计算机程序指令,用于获取包括目标运动对象的运动视频,对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数;
获取第一调节因子,所述第一调节因子为根据用户意图确定的参数;
获取目标音频,确定所述目标音频的原始音效参数;所述原始音效参数与所述动作特征参数相对应;
根据所述动作特征参数和第一调节因子,生成音效参数调节系数;
根据所述音效参数调节系数对所述原始音效参数进行调节。
另一方面,提供了一种计算机存储介质,该计算机存储介质存储有计算机程序指令,该计算机程序指令被执行时,实现上述所述的音效调节方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明通过对运动视频中的目标运动对象的动作进行识别,得到对应的动作特征参数,并获取根据用户意图确定的第一调节因子,结合动作特征参数和第一调节因子得到音效参数调节系数,并利用该音效调节系数对目标音频中与上述动作特征参数对应的原始音效参数进行调节,从而实现了基于视频信息和用户意图对目标音频的音效进行自适应地调节,用户无需手动调节音频音效,增强了目标音频音效调节的交互体验和趣味性,而且能够实现目标音频音效的实时流式调节。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种音效调节方法的流程示意图;
图2是本发明实施例提供的根据动作特征参数和第一调节因子,生成音效参数调节系数的一种流程示意图;
图3是本发明实施例提供的一种音效调节装置的结构框图;
图4是本发明实施例提供的第三获取模块的一种结构框图;
图5是本发明实施例提供的第一获取模块的一种结构框图;
图6是本发明实施例提供的第一生成模块的一种结构框图;
图7是本发明实施例提供的参考值获取模块的一种结构框图;
图8是本发明实施例提供的另一种音效调节装置的结构框图;
图9是本发明实施例提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参考图1,其所示为本发明实施例提供的一种音效调节方法的流程示意图。需要说明的是,本发明实施例的音效调节方法可应用于本发明实施例的音效调节装置,该音效调节装置可配置于终端中或者终端中的应用程序如音视频播放器、视频录制应用程序等等。其中,终端可以是手机、平板电脑、掌上电脑及个人数字助理等具有各种操作系统的硬件设备。
此外,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括:
S102,获取包括目标运动对象的运动视频,对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数。
在本说明书实施例中,当用户需要对目标音频的音效进行调节时,可以选择一个包括目标运动对象的运动视频,例如可以从终端的相册中选取一个拍摄好的运动视频,或者从网络上下载一个运动视频,终端可以基于用户选择的运动视频来自适应的对目标音频的音效进行调节。该运动视频中的目标运动对象可以是人、动物或者卡通形象等等。
具体的,终端可以对运动视频中目标运动对象的动作进行识别,从而可以得到该目标运动对象的动作特征参数。目标运动对象的动作可以是肢体的动作,如双手的举起、放下,头部的运动等等;该动作特征参数可以是动作的幅度、动作的速度、动作的加速度以及位置等动作特征参数中的任意一种。
在实际应用中,可以按照时间顺序从运动视频中提取对象图像帧,该对象图像帧中包含目标运动对象,然后识别对象图像帧中包含的目标运动对象的动作,从而得到该目标运动对象的动作特征参数。
在识别对象图像帧中包含的目标运动对象的动作时,可以将对象图像帧输入至训练好的神经网络模型中,通过该神经网络模型提取对象图像帧中目标运动对象的动作特征参数。该神经网络模型可以采用现有技术中的已有用于动作识别的神经网络模型,例如3D卷积神经网络模型等等,本发明对此不作具体限定。
需要说明的是,在得到对象图像帧中目标运动对象的动作特征参数后,还可以获取该对象图像帧的视频时间戳,并将该视频时间戳作为对应的动作特征参数的时间标签。
S104,获取第一调节因子,所述第一调节因子为根据用户意图确定的参数。
在本说明书实施例中,为了增加音效调节的交互体验和趣味性,还允许根据用户意图来调节音效。
具体的,用户可以通过意图输入界面输入对于音效调节的用户意图,该用户意图可以包括音效调节结果不受运动视频影响或者允许音效调节结果随着运动视频的变化而变化。
在实际应用中,可以将上述两种用户意图设置为选择项,用户只需选择其中之一即可,当用户选择为音效调节结果不受运动视频影响项时,终端可以根据该用户意图获取第一调节因子,例如可以为0;当用户选择为允许音效调节结果随着运动视频的变化而变化,则终端可以根据该用户意图提示用户输入影响程度参数,并将该影响程度参数确定为第一调节因子,例如可以为0.7或1等,即运动视频对音效调节结果的影响程度为0.7,或者完全按照运动视频进行音效调节。
当然,终端中还可以设置一个默认值,例如0.5,作为在用户没有表明其用户意图时,获取该默认值作为第一调节因子。
此外,在本说明书实施例中,由于动作特征参数可以是动作的幅度值、动作的速度值、动作的加速度值以及位置等中的任意一种,因此在确定第一调节因子时,可以对应每一种动作特征参数均配置一个第一调节因子,例如,当用户选择为允许音效调节结果随着运动视频的变化而变化时,允许用户对应每一种动作特征参数均设置一个影响程度参数,从而可以获取到对应各种动作特征参数的第一调节因子。
S106,获取目标音频,确定所述目标音频的原始音效参数;所述原始音效参数与所述动作特征参数相对应。
在本说明书实施例中,目标音频为需要进行音效调节的音频。该目标音频可以是用户输入的音频文件,也可以是从运动视频中获取的音频数据,具体可以根据用户需要进行选取。
在本说明书实施例中,音效参数可以包括:
音量:音频播放时对应的声音大小。
音高:音频播放时声音频率的高低,一般声音频率低的音频调子相对低沉,如男声;声音频率高的音频调子相对亮丽,如女声;通过调节音高可以改变音频的调子,如男声变为女声)。
节奏:音频内容变化的快慢,调节音频的节奏,即为在不影响音高的前提下改变音频播放时长,例如,原来1秒时长的音频,变成0.5秒时长,从而使主观感受上为音频的节奏变快了。
虚拟环绕声:虚拟环绕声是指通过对音频内容进行信号处理,使得音频从物流上有限的扬声器(如听众正前方的两个扬声器)播放出来时,能让人感受到环绕声的效果。
当然,上述只是列举了几种音效参数,实际应用中还可以包括其他的更多音效参数,本说明书实施例并不作限定。
在本说明书实施例中,原始音效参数可以为上述音效参数中的任意一种,且该原始音效参数需与动作特征参数相对应。
具体的,可以预先建立音效参数与动作特征参数的对应关系,可以由终端默认设定,也可以根据用户的选择设定,如下表1所示为预先建立的音效参数与动作特征参数的对应关系的一种示例。
表1
动作特征参数 音效参数
动作的幅度 音量
动作的速度 节奏
位置一(双手高度) 音高
位置二(双手之间的距离) 虚拟环绕声
需要说明的是,上述表1只是动作特征参数与音效参数对应关系的一种示例,还可以有其他种对应关系,本发明实施例对此并不作限定。
在本说明书实施例中,原始音效参数包括该音效参数所对应的当前值,该音效参数所对应的当前值即为该音效参数在目标视频中的当前音效参数值。例如,音效参数为音量,目标视频中当前音量为a,则该音效参数(即音量)所对应的当前值为a,则原始音效参数为音量a。
在根据目标音频确定原始音效参数时,可以获取动作特征参数的时间标签,即动作特征参数的视频时间戳,然后根据该视频时间戳和目标音频的音频时间戳,获取视频时间戳与音频时间戳相匹配位置处的原始音效参数。例如,动作特征参数的视频时间戳为10秒,则此时可以获取目标音频在10秒位置处的原始音效参数。
S108,根据所述动作特征参数和第一调节因子,生成音效参数调节系数。
在本说明书实施例中,音效参数调节系数为动作特征参数和第一调节因子的函数s=f(u,v),其中,u为第一调节因子,v为动作特征参数,s为音效参数调节系数。
由于动作特征参数v可以为动作的幅度、动作的速度、动作的加速度以及位置等动作特征参数中的任意一种,而不同种类的动作特征参数的取值范围、数值单位存在很大的差异,因此,需要将动作特征参数映射到统一的范围内进行音频音效的调节。
在本说明书实施例中,所述根据所述动作特征参数和第一调节因子,生成音效参数调节系数可以采用图2所示的方法。图2所示为本发明实施例提供的根据动作特征参数和第一调节因子,生成音效参数调节系数的一种流程示意图,如图2所示,该方法可以包括:
S202,获取与所述动作特征参数对应的参考值。
在本说明书实施例中,可以为动作特征参数v获取一个对应的参考值vref,使得当v=vref时,不对对应的目标音频音效进行调节,即此时的音效调节系数s等于1。
在本说明书实施例中,参考值的获取至少可以通过以下两种方式:
方式一:预先在终端中设置与动作特征参数对应的预设固定值,那么后续可以获取该预设固定值,并将该预设固定值确定为对应的动作特征参数的参考值。例如,终端中可以预先默认设置动作的幅度对应的预设固定值为x,动作的速度对应的预设固定值为y,双手高度对应的预设固定值为z,则终端可以将动作特征参数为动作的幅度对应的参考值确定为x,将动作特征参数为动作的速度对应的参考值确定为y,将动作特征参数为双手高度对应的参考值确定为z。
方式二,可以获取运动视频的指定时间范围内的目标运动对象的所有动作特征参数,例如,可以获取运动视频的第一位置帧与第二位置帧之间的目标运动对象的所有动作特征参数,其中第一位置帧和第二位置帧可以根据需要在运动视频上选取,例如,第一位置帧可以为运动视频的起始帧,第二位置帧可以为运动视频的结束帧;然后计算上述所有动作特征参数的平均值,并将该平均值为参考值。例如,运动视频第一位置帧与第二位置帧之间的目标运动对象的所有动作的速度为a1,a2,……an,则动作特征参数为动作的速度对应的参考值为(a1+a2+……+an)/n。
需要说明的是,上述只是获取与所述动作特征参数对应的参考值的两种示例,实际应用中,还可以采用其他的方式来确定参考值。
S204,根据所述参考值和动作特征参数,结合第一预设生成函数生成第二调节因子。
即在本说明书实施例中第二调节因子v′=g(v,vref),其中,第一预设生成函数g(v,vref)为所述动作特征参数v的单调递增函数,且满足在所述动作特征参数v等于所述参考值v=vref时,使得所述第二调节因子等于预设值,例如该预设值可以为1。
在一个具体实例中,第一预设生成函数g(v,vref)可以为则当v>vref时,v′大于1;当v<vref时,v′小于1;当v=vref时,v′等于1。当然,第一预设生成函数g(v,vref)还可以是其它形式的关于动作特征参数的单调递增函数,且在该函数中,当v=vref时,能够使得第二调节因子等于1,本发明实施例对此并不作限定。
S206,根据所述第二调节因子和第一调节因子,结合第二预设生成函数生成音效参数调节系数。
在本说明书实施例中,第二预设生成函数可以为如下定义的幂函数:
s=(v′)u
其中,s表示音效参数调节系数;
v′表示第二调节因子;
u表示第一调节因子,u∈[0,1]
根据上述公式可知,当第一调节因子u>0时且第二调节因子v′>1时,音效参数调节系数s>1;当第一调节因子u>0时且第二调节因子v′<1时,音效参数调节系数s<1;当第一调节因子u=0时或第二调节因子v′=1时,音效参数调节系数s=1。
S110,根据所述音效参数调节系数对所述原始音效参数进行调节。
在本说明书实施例中,根据所述音效参数调节系数对所述原始音效参数进行调节,其实质上是根据音效参数调节系数来调节与动作特征参数对应的音效参数的参数值。
可以将调节后的音效参数设置为音效参数调节系数和原始音效参数的函数即T=F(s,Tor),其中,T为调节后的音效参数,s为音效参数调节系数,Tor为原始音效参数,F()表示调节函数。通过调节函数F()可以对原始音效参数进行如下调节:
当所述音效参数调节系数大于1时,正比例调节所述原始音效参数,即正比例调节与动作特征参数对应的音效参数的参数值;当所述音效参数调节系数小于1时,反比例调剂所述原始音效参数,即反比例调节与动作特征参数对应的音效参数的参数值;当所述音效参数调节系数等于1时,保持所述原始音效参数,即保持与动作特征参数对应的音效参数的参数值。比如,Tor为目标音频的原始节奏,则当s>1时,为加快目标音频的节奏;当s<1时,为减慢目标音频的节奏;当s=1时,为保持目标音频的节奏。
在一个具体实例中,可以将调节函数设置为线性函数,即T=s·Tor,则可以对原始音效参数进行线性的调节。当然,在实际应用中,还可以根据需要设置其他类型的调节函数,例如,指数函数、对数函数等,本发明对此不作限制。
综上,本发明实施例通过对运动视频中的目标运动对象的动作进行识别,得到对应的动作特征参数,并获取根据用户意图确定的第一调节因子,结合动作特征参数和第一调节因子得到音效参数调节系数,并利用该音效调节系数对目标音频中与上述动作特征参数对应的原始音效参数进行调节,从而实现了基于视频信息和用户意图对目标音频的音效进行自适应地调节,用户无需手动调节音频音效,增强了目标音频音效调节的交互体验和趣味性。
此外,相对于现有技术中只能对音频音效进行整体调节,本发明实施例还能够根据运动视频实现目标音频音效的实时流式调节,即可以根据目标运动对象的动作特征参数的视频时间戳对目标音频的对应的音频时间戳位置处的音效进行调节。
与上述几种实施例提供的音效调节方法相对应,本发明实施例还提供一种音效调节装置,由于本发明实施例提供的音效调节装置与上述几种实施例提供的音效调节方法相对应,因此前述音效调节方法的实施方式也适用于本实施例提供的音效调节装置,在本实施例中不再详细描述。
请参阅图3,其所示为本发明实施提供的一种音效调节装置的结构示意图,如图3所示,该装置可以包括:第一获取模块310,第二获取模块320,第三获取模块330,第一生成模块340和调节模块350。
第一获取模块310,用于获取包括目标运动对象的运动视频,对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数;
第二获取模块320,用于获取第一调节因子,所述第一调节因子为根据用户意图确定的参数;
第三获取模块330,用于获取目标音频,确定所述目标音频的原始音效参数;所述原始音效参数与所述动作特征参数相对应;
第一生成模块340,用于根据所述动作特征参数和第一调节因子,生成音效参数调节系数;
调节模块350,用于根据所述音效参数调节系数对所述原始音效参数进行调节。
在一具体实施例中,调节模块350具体用于:
当所述音效参数调节系数大于1时,正比例调节所述原始音效参数;
当所述音效参数调节系数小于1时,反比例调剂所述原始音效参数;
当所述音效参数调节系数等于1时,保持所述原始音效参数。
可选的,如图4所示,第三获取模块330可以包括:
接收模块3310,用于接收用户输入的音频文件,并将所述音频文件作为所述目标音频。
第一获取子模块3320,用于获取所述运动视频中的音频数据,并将所述音频数据作为所述目标音频。
可选的,如图5所示,第一获取模块310可以包括:
提取模块3110,用于按照时间顺序从所述运动视频中提取对象图像帧,所述对象图像帧中包含目标运动对象;
识别模块3120,用于识别所述对象图像帧中包含的目标运动对象的动作,得到所述对象图像帧中目标运动对象的动作特征参数。
在一具体实施例中,如图6所示,第一生成模块340可以包括:
参考值获取模块3410,用于获取与所述动作特征参数对应的参考值;
调节因子生成模块3420,用于根据所述参考值和动作特征参数,结合第一预设生成函数生成第二调节因子;所述第一预设生成函数为所述动作特征参数的单调递增函数,且满足在所述动作特征参数等于所述参考值时,使得所述第二调节因子等于1;
调节系数生成模块3430,用于根据所述第二调节因子和第一调节因子,结合第二预设生成函数生成音效参数调节系数;所述第二预设生成函数可以定义为如下的幂函数:
s=(v′)u
s表示音效参数调节系数;
v′表示第二调节因子;
u表示第一调节因子,u∈[0,1]。
可选的,如图7所示,参考值获取模块3410可以包括:
固定值获取模块3411,用于获取与所述动作特征参数对应的预设固定值,并将所述预设固定值作为所述参考值;
第二获取子模块3412,用于获取所述运动视频的第一位置帧与第二位置帧之间的所述目标运动对象的所有动作特征参数;
计算模块3413,用于计算所述所有动作特征参数的平均值,并将所述平均值作为所述参考值。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。具体的,如图8所示为本发明实施例提供的另一种音效调节装置的结构框图,该音效调节装置可以包括输入模块810,调节系数生成模块820和音效调节模块830。其中,
输入模块810可以用于实现上述装置实施例中的第一获取模块310,第二获取模块320和第三获取模块330的功能,在此不再赘述。
调节系数生成模块820可以用于实现上述装置实施例中的第一生成模块340的功能,在此不再赘述。。
音效调节模块830可以用于实现上述装置实施例中的调节模块350的功能,在此不再赘述。
本发明提供的音效调节装置通过对运动视频中的目标运动对象的动作进行识别,得到对应的动作特征参数,并获取根据用户意图确定的第一调节因子,结合动作特征参数和第一调节因子得到音效参数调节系数,并利用该音效调节系数对目标音频中与上述动作特征参数对应的原始音效参数进行调节,从而实现了基于视频信息和用户意图对目标音频的音效进行自适应地调节,用户无需手动调节音频音效,增强了目标音频音效调节的交互体验和趣味性。
此外,相对于现有技术中只能对音频音效进行整体调节,本发明实施例还能够根据运动视频实现目标音频音效的实时流式调节,即可以根据目标运动对象的动作特征参数的视频时间戳对目标音频的对应的音频时间戳位置处的音效进行调节。
请参阅图9,其所示为本发明实施例提供的一种终端的结构示意图,该终端用于实施上述实施例中提供的音效调节方法。具体来讲:
终端900可以包括RF(Radio Frequency,射频)电路910、包括有一个或一个以上计算机可读存储介质的存储器920、输入单元930、显示单元940、视频传感器950、音频电路960、WiFi(wireless fidelity,无线保真)模块970、包括有一个或者一个以上处理核心的处理器980、以及电源90等部件。本领域技术人员可以理解,图9中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路910可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器980处理;另外,将涉及上行的数据发送给基站。通常,RF电路910包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路910还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器920可用于存储软件程序以及模块,处理器1480通过运行存储在存储器920的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端900的使用所创建的数据(比如视频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器920还可以包括存储器控制器,以提供处理器980和输入单元930对存储器920的访问。
输入单元930可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元930可包括图像输入设备931以及其他输入设备932。图像输入设备931可以是摄像头,也可以是光电扫描设备。除了图像输入设备931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及终端900的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元940可包括显示面板941,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板941。
终端900可包括至少一种视频传感器950,视频传感器用于获取用户的视频信息。终端900还可以包括其它传感器(未示出),比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在终端900移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端900还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
视频电路960、扬声器961,传声器962可提供用户与终端900之间的视频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号输出;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据输出处理器980处理后,经RF电路911以发送给比如另一终端,或者将音频数据输出至存储器920以便进一步处理。音频电路960还可能包括耳塞插孔,以提供外设耳机与终端900的通信。
WiFi属于短距离无线传输技术,终端900通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970,但是可以理解的是,其并不属于终端900的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是终端900的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行终端900的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器980可包括一个或多个处理核心;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
终端900还包括给各个部件供电的电源90(比如电池),优选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源90还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端900还可以包括蓝牙模块等,在此不再赘述。
具体在本实施例中,终端900还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的音效调节方法的指令。
本发明的实施例还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,所述存储介质可设置于终端之中以保存用于实现方法实施例中的一种音效调节方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集可由终端的处理器加载并执行以实现上述方法实施例提供的音效调节方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种音效调节方法,其特征在于,所述方法包括:
获取包括目标运动对象的运动视频,对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数;
获取第一调节因子,所述第一调节因子为根据用户意图确定的参数;
获取目标音频,确定所述目标音频的原始音效参数;所述原始音效参数与所述动作特征参数相对应;
根据所述动作特征参数和第一调节因子,生成音效参数调节系数;
根据所述音效参数调节系数对所述原始音效参数进行调节。
2.根据权利要求1所述的音效调节方法,其特征在于,所述获取目标音频包括:
接收用户输入的音频文件,并将所述音频文件作为所述目标音频;
或者,
获取所述运动视频中的音频数据,并将所述音频数据作为所述目标音频。
3.根据权利要求1所述的音效调节方法,其特征在于,所述对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数包括:
按照时间顺序从所述运动视频中提取对象图像帧,所述对象图像帧中包含目标运动对象;
识别所述对象图像帧中包含的目标运动对象的动作,得到所述对象图像帧中目标运动对象的动作特征参数。
4.根据权利要求1所述的音效调节方法,其特征在于,所述根据所述动作特征参数和第一调节因子,生成音效参数调节系数包括:
获取与所述动作特征参数对应的参考值;
根据所述参考值和动作特征参数,结合第一预设生成函数生成第二调节因子;
根据所述第二调节因子和第一调节因子,结合第二预设生成函数生成音效参数调节系数。
5.根据权利要求4所述的音效调节方法,其特征在于,所述第一预设生成函数为所述动作特征参数的单调递增函数,且满足在所述动作特征参数等于所述参考值时,使得所述第二调节因子等于预设值。
6.根据权利要求4所述的音效调节方法,其特征在于,所述第二预设生成函数为幂函数,所述幂函数的底数为第二调节因子,所述幂函数的指数为第一调节因子,所述幂函数的幂为音效参数调节系数。
7.根据权利要求4所述的音效调节方法,其特征在于,所述获取与所述动作特征参数对应的参考值包括:
获取与所述动作特征参数对应的预设固定值,并将所述预设固定值作为所述参考值;或者,
获取所述运动视频的第一位置帧与第二位置帧之间的所述目标运动对象的所有动作特征参数;
计算所述所有动作特征参数的平均值,并将所述平均值作为所述参考值。
8.根据权利要求1所述的音效调节方法,其特征在于,所述根据所述音效参数调节系数对所述原始音效参数进行调节包括:
当所述音效参数调节系数大于1时,正比例调节所述原始音效参数;
当所述音效参数调节系数小于1时,反比例调剂所述原始音效参数;
当所述音效参数调节系数等于1时,保持所述原始音效参数。
9.一种音效调节装置,其特征在于,所述装置包括:
第一获取模块,用于获取包括目标运动对象的运动视频,对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数;
第二获取模块,用于获取第一调节因子,所述第一调节因子为根据用户意图确定的参数;
第三获取模块,用于获取目标音频,确定所述目标音频的原始音效参数;所述原始音效参数与所述动作特征参数相对应;
第一生成模块,用于根据所述动作特征参数和第一调节因子,生成音效参数调节系数;
调节模块,用于根据所述音效参数调节系数对所述原始音效参数进行调节。
10.一种终端,其特征在于,包括处理器和存储装置;
所述存储装置,用于存储计算机程序指令;
所述处理器,调用所述计算机程序指令,用于获取包括目标运动对象的运动视频,对所述运动视频中目标运动对象的动作进行识别,得到所述目标运动对象的动作特征参数;
获取第一调节因子,所述第一调节因子为根据用户意图确定的参数;
获取目标音频,确定所述目标音频的原始音效参数;所述原始音效参数与所述动作特征参数相对应;
根据所述动作特征参数和第一调节因子,生成音效参数调节系数;
根据所述音效参数调节系数对所述原始音效参数进行调节。
CN201811093511.7A 2018-09-19 2018-09-19 一种音效调节方法、装置及终端 Active CN109089156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811093511.7A CN109089156B (zh) 2018-09-19 2018-09-19 一种音效调节方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811093511.7A CN109089156B (zh) 2018-09-19 2018-09-19 一种音效调节方法、装置及终端

Publications (2)

Publication Number Publication Date
CN109089156A true CN109089156A (zh) 2018-12-25
CN109089156B CN109089156B (zh) 2021-04-20

Family

ID=64842166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811093511.7A Active CN109089156B (zh) 2018-09-19 2018-09-19 一种音效调节方法、装置及终端

Country Status (1)

Country Link
CN (1) CN109089156B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828741A (zh) * 2019-01-29 2019-05-31 北京字节跳动网络技术有限公司 用于播放音频的方法和装置
CN110677716A (zh) * 2019-08-20 2020-01-10 咪咕音乐有限公司 音频处理方法、电子设备和存储介质
CN111681680A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频识别物体获取音频方法、系统、装置及可读存储介质
CN111681679A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频物体音效搜索匹配方法、系统、装置及可读存储介质
CN113332723A (zh) * 2021-05-26 2021-09-03 网易(杭州)网络有限公司 一种游戏中的音效处理方法及装置
CN114666706A (zh) * 2021-11-30 2022-06-24 北京达佳互联信息技术有限公司 音效增强方法、装置及系统
CN114666706B (zh) * 2021-11-30 2024-05-14 北京达佳互联信息技术有限公司 音效增强方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742179A (zh) * 2008-11-26 2010-06-16 晨星软件研发(深圳)有限公司 多媒体播放方法与多媒体播放装置
EP2840800A1 (en) * 2013-08-21 2015-02-25 Harman International Industries, Inc. Content-based audio/video adjustment
CN104394331A (zh) * 2014-12-05 2015-03-04 厦门美图之家科技有限公司 一种画面视频中添加匹配音效的视频处理方法
CN107820122A (zh) * 2017-10-09 2018-03-20 惠州Tcl移动通信有限公司 一种视频音量调节方法、存储介质及移动终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742179A (zh) * 2008-11-26 2010-06-16 晨星软件研发(深圳)有限公司 多媒体播放方法与多媒体播放装置
EP2840800A1 (en) * 2013-08-21 2015-02-25 Harman International Industries, Inc. Content-based audio/video adjustment
CN104394331A (zh) * 2014-12-05 2015-03-04 厦门美图之家科技有限公司 一种画面视频中添加匹配音效的视频处理方法
CN107820122A (zh) * 2017-10-09 2018-03-20 惠州Tcl移动通信有限公司 一种视频音量调节方法、存储介质及移动终端

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828741A (zh) * 2019-01-29 2019-05-31 北京字节跳动网络技术有限公司 用于播放音频的方法和装置
CN110677716A (zh) * 2019-08-20 2020-01-10 咪咕音乐有限公司 音频处理方法、电子设备和存储介质
CN111681680A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频识别物体获取音频方法、系统、装置及可读存储介质
CN111681679A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频物体音效搜索匹配方法、系统、装置及可读存储介质
CN111681679B (zh) * 2020-06-09 2023-08-25 杭州星合尚世影视传媒有限公司 视频物体音效搜索匹配方法、系统、装置及可读存储介质
CN111681680B (zh) * 2020-06-09 2023-08-25 杭州星合尚世影视传媒有限公司 视频识别物体获取音频方法、系统、装置及可读存储介质
CN113332723A (zh) * 2021-05-26 2021-09-03 网易(杭州)网络有限公司 一种游戏中的音效处理方法及装置
CN114666706A (zh) * 2021-11-30 2022-06-24 北京达佳互联信息技术有限公司 音效增强方法、装置及系统
CN114666706B (zh) * 2021-11-30 2024-05-14 北京达佳互联信息技术有限公司 音效增强方法、装置及系统

Also Published As

Publication number Publication date
CN109089156B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN109089156A (zh) 一种音效调节方法、装置及终端
RU2626090C2 (ru) Способ, устройство и оконечное устройство для обработки изображения
CN106454404B (zh) 一种播放直播视频的方法、装置和系统
CN104243671B (zh) 音量调节方法、装置及电子设备
CN107820011A (zh) 拍照方法和拍照装置
CN106598996B (zh) 多媒体海报生成方法及装置
CN104393848B (zh) 音量调节方法及装置
CN108197185A (zh) 一种音乐推荐方法、终端及计算机可读存储介质
CN105979312B (zh) 一种信息分享方法及装置
CN107659637B (zh) 音效设置方法、装置、存储介质以及终端
US9760998B2 (en) Video processing method and apparatus
US10283168B2 (en) Audio file re-recording method, device and storage medium
CN106204423B (zh) 一种基于增强现实的图片调整方法、装置及终端
CN105740263B (zh) 页面显示方法和装置
CN103714161B (zh) 图像缩略图的生成方法、装置和终端
CN107436712B (zh) 为呼出菜单设置皮肤的方法、装置及终端
JP6910300B2 (ja) チャット履歴記録を表示するための方法およびチャット履歴記録を表示するための装置
CN108921941A (zh) 图像处理方法、装置、存储介质和电子设备
CN107734376A (zh) 一种多媒体数据播放的方法以及装置
CN104158506A (zh) 调节音量的方法、装置及终端
RU2676413C2 (ru) Терминал и способ обработки медиафайла
CN110209245A (zh) 人脸识别方法及相关产品
CN106504303B (zh) 一种播放帧动画的方法和装置
CN107395890A (zh) 一种调节屏幕显示效果的方法和设备以及移动终端
CN106303734A (zh) 主播订阅方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant