CN113470692B - 音频处理方法、装置、可读介质及电子设备 - Google Patents

音频处理方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN113470692B
CN113470692B CN202010247181.3A CN202010247181A CN113470692B CN 113470692 B CN113470692 B CN 113470692B CN 202010247181 A CN202010247181 A CN 202010247181A CN 113470692 B CN113470692 B CN 113470692B
Authority
CN
China
Prior art keywords
loudness
audio
processed
parameter
adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010247181.3A
Other languages
English (en)
Other versions
CN113470692A (zh
Inventor
白鹤群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN202010247181.3A priority Critical patent/CN113470692B/zh
Publication of CN113470692A publication Critical patent/CN113470692A/zh
Application granted granted Critical
Publication of CN113470692B publication Critical patent/CN113470692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本公开涉及一种音频处理方法、装置、可读介质及电子设备。所述方法包括:获取待处理音频的响度参数;根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数;利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。由此,能够根据音频本身的响度参数对动态范围压缩器的参数进行自动设置,以适应性调节当前的音频。这样,能够均衡不同音频的音量大小,且能避免出现过度调节的情况。

Description

音频处理方法、装置、可读介质及电子设备
技术领域
本公开涉及音频处理领域,具体地,涉及一种音频处理方法、装置、可读介质及电子设备。
背景技术
用户通过电子设备(例如,手机)观看视频(或者,听音频)时,设备所播放的视频(或,音频)通常来自不同来源,而由于不同视频(或,音频)间制作设备、制作环境等的差别,视频(或,音频)的音量(也称作响度)互相不统一,也就是有些视频(或,音频)音量大、有些视频(或,音频)音量小。相应地,在从一个视频(或,音频)切换到另一个视频(或,音频)播放时,可能出现音量跨度大的情况,容易给用户带来不好的使用体验。另外,用户需要手动调节电子设备的音量键,才能将音量调整到合适的大小,这也为用户带来了操作负担,并且,频繁调整音量键容易加速电子设备本身的损坏。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种音频处理方法,所述方法包括:
获取待处理音频的响度参数;
根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数;
利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。
第二方面,本公开提供一种音频处理装置,所述装置包括:
获取模块,用于获取待处理音频的响度参数;
确定模块,用于根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数;
音频处理模块,用于利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,获取待处理音频的响度参数,根据响度参数,确定动态范围压缩器DRC对待处理音频的调节参数,并利用调节参数,通过DRC对待处理音频进行响度调节,获得处理后的目标音频。由此,能够根据音频本身的响度参数对动态范围压缩器的参数进行自动设置,以适应性调节当前的音频。这样,能够均衡不同音频的音量大小,且能避免出现过度调节的情况。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
在附图中:
图1是根据本公开的一种实施方式提供的音频处理方法的流程图;
图2是一种示例性的音频波形;
图3是根据本公开提供的音频处理方法对图2中音频波形处理后所得到的波形;
图4是根据本公开的一种实施方式提供的音频处理装置的框图;
图5示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
如背景技术中所述,不同视频(或,音频)在电子设备的切换易出现音量跨度大的情况,给用户带来不好的使用体验,并且,用户对音量键的手动调节不仅增加用户的操作负担,还会加速电子设备本身的损坏。因此,需要一种音量调节机制,尽量避免视频切换过程中出现过大的音量跨度。
在相关领域,对音频音量(即,响度)的调整一般通过两种方式,一种是基于响度扫描技术的调整,另一种是基于动态范围压缩器DRC(Dynamic Range Compressor)的调整。
通过响度扫描技术,能够获知一段音频的平均响度(Integrated loudness)和瞬时响度(Momentary Loudness)。其中,音频的平均响度就是该音频的响度的平均值,可基于音频中各帧音频信号的响度获得。音频的瞬时响度则是以0.4s(秒)为计算区间、该计算区间所对应的平均响度,可基于计算区间内各帧音频信号的响度获得。求取瞬时响度过程中,一般以0.4s为滑动窗长,滑动窗口过程中,求取出若干瞬时响度,在这些瞬时响度中,可以确定出一个最大值作为瞬时响度最大值,还可以确定出一个最小值作为瞬时响度最小值,音频的瞬时响度最大值、瞬时响度最小值也可以用于该音频音量的调整。
上述平均响度、瞬时响度均是本领域技术人员所熟知的概念,其求取方式也为本领域技术人员所公知,因此,对于平均响度、瞬时响度的求取方式,本公开不具体给出。
从而,在基于响度扫描技术的调整方式中,对于一段音频,可以首先获得这段音频的平均响度,将平均响度与一个预设的响度参考值进行比较,若音频的平均响度低于预设的响度参考值,则将音频的信号进行放大,若音频的平均响度高于预设的响度参考值,则将音频的信号进行缩小,以达到音量平均的目的。然而,对于比较安静的音频,用户并不期望音频被过分放大,若按照这一调整方式调节,容易出现过度调节的情况,处理后的音频较为突兀。
动态范围压缩器DRC(Dynamic Range Compressor)类似一个自动的音量控制器,能够把能量小的信号放大(音量小时调高音量),同时对能量大的信号进行压制(音量大时降低音量),以达到音量均衡的效果。在音频处理过程中,DRC一般根据音频信号的幅值(即,幅度值)调整动态范围,并基于规则对幅值进行调整。在使用DRC时,会预先为DRC设定一个开始反应的幅度阈值,并为超过该幅度阈值的幅值设置一个工作规则,例如,当音频信号的幅值超过幅度阈值时,该音频信号被压缩。在动态范围压缩器DRC中,通常存在几个参数:Pre-Gain、Threshold、Ratio、Attack、Release。
(1)Pre-Gain
可以理解为响度调整参数。DRC基于Pre-Gain这一参数对音频信号进行全局的放大或缩小,补偿因输入信号平均响度不一致产生的处理效果问题。如果音频的平均响度大于响度参考值,说明当前音轨的响度比标准响度(响度参考值)大,所以音量要降低,相应计算出的Pre-Gain为负值,调整时在dB域拉低信号幅值。相反地,如果音频的平均响度小于响度参考值,说明当前音轨的响度比标准响度小,所以音量要提高,相应计算出的Pre-Gain为正值,调整时在dB域提升信号幅值。其中,响度参考值是预先设定的,属于已知信息,一般可参考国际标准给出的响度建议值。
目前,在确定Pre-Gain时,Pre-Gain=音频的平均响度-响度参考值。
(2)Threshold
也就是上面提到的幅度阈值,可以理解为压缩器触发值。经过Pre-Gain调整后的信号,再经过Threshold参数判断:当音频幅值达到幅度阈值时,DRC开始工作。若幅度阈值-20dB,那么超过-20dB的音频信号会被DRC压缩,未超过-20dB的音频信号则不会被DRC处理。具体的压缩方式,还需要参考Ratio。
目前,Threshold一般使用固定的预设数值。
(3)Ratio
可以理解为压缩比率,通常用一个数字表示。例如,若Ratio为2,则幅值超过Threshold的音频信号中,2dB对应1dB的输出(即,处理后的音频信号)。再例如,若Ratio为20,幅值超过Threshold的音频信号中,20dB对应1dB的输出。
目前,Ratio一般使用固定的预设数值。
(4)Attack
在某一时刻,当音频幅值达到Threshold时,Compressor开始启动,到充分压缩的时长。
目前,Attack一般使用固定的预设数值。
(5)Release
与Attack相对应,当某一帧音频幅值在Threshold以下时,Compressor从充分压缩到停止压缩所需的时长。
目前,Release一般使用固定的预设数值。
从而,在基于动态范围压缩器DRC的调整方式中,对于一段音频,可以直接使用动态范围压缩器DRC,将音频作为DRC的输入,由DRC基于其中的参数对音频进行处理,得到的输出即为处理后的音频,也就是音量调整后的音频。如上所述,目前动态范围压缩器DRC的参数中,Pre-Gain直接通过音频的平均响度和响度参考值之差确定,这样易导致对音频的过度调节,而Threshold、Ratio直接使用预设的固定数值,由于不同音频之间的差异,难以确定一个适用于各种音频的Threshold、Ratio,因此,多数情况下,对于音频音量的处理并不理想。
为了解决上述问题,本公开提供了一种音频处理方法、装置、可读介质及电子设备。
图1是根据本公开的一种实施方式提供的音频处理方法的流程图。需要说明的是,本公开所提供的音频处理方法,能够适用于所有的带有音频的场景中,例如,纯音频、包含音频的视频等,本方法用于对其中的音频进行处理。
如图1所示,该方法可以包括以下步骤。
在步骤11中,获取待处理音频的响度参数。
待处理音频可以是纯音频,或者,待处理音频可以是视频中的音频。
待处理音频的响度参数可以基于待处理音频直接获得。响度参数可以包括待处理音频的平均响度、瞬时响度最大值、瞬时响度最小值这三者中的至少一者。
示例地,基于前文提到的响度扫描技术,可以首先确定待处理音频的响度参数,之后,可以将响度参数以matadata的方式记录在待处理音频的特定标志位上,从而,通过待处理音频的特定标志位的内容,就可以确定待处理音频的响度参数。示例地,若响度参数包括平均响度、瞬时响度最大值、瞬时响度最小值这三者,则可以设置三个标志位,分别存储平均响度、瞬时响度最大值、瞬时响度最小值。
在一种可能的实施例中,服务器可以对所有音频(或,含音频的视频)进行响度扫描,记录各自的平均响度、瞬时响度最大值、瞬时响度最小值。之后,将这些响度信息以matadata的方式记录在音频(或,视频)的特定标志位上,随音频(或,视频)下发到用户的移动客户端。
在步骤12中,根据响度参数,确定动态范围压缩器DRC对待处理音频的调节参数。
其中,DRC能够根据调节参数对音频进行响度调节。
在一种可能的实施方式中,调节参数可以包括响度调整参数Pre-Gain。如上文所述,DRC能够根据Pre-Gain对待处理音频进行幅值调整。在这一实施方式中,步骤12可以包括以下步骤:
根据响度参数和参数调整系数,确定响度调整参数Pre-Gain。
也就是说,区别于本领域常用手段所使用的直接使用预设响度参考值和平均响度的差作为Pre-Gain,本方案在计算Pre-Gain时,在待处理音频的响度参数的基础上,还引入了参数调整系数。其中,如前文所述,预设响度参考值可参考国际标准给出的响度建议值,是一个可以直接获得的数值。参数调整系数则可以根据经验值设定。
在这一实施方式中,待处理音频的响度参数可以包括待处理音频的平均响度。示例地,可以将预设响度参考值和平均响度之差与参数调整系数的比值确定为响度调整参数Pre-Gain,具体可参考如下公式:
示例地,参数调整系数可以为3.5。
采用上述方式,能够减少通过Pre-Gain对待处理音频的响度调整的幅度,也就是使用Pre-Gain对待处理音频的音量做部分均衡,由DRC基于其他的调整参数在后续再做进一步的均衡,防止Pre-Gain的过度调节。
在一种可能的实施方式中,调节参数可以包括压缩器触发值Threshold。如上文所述,DRC能够对待处理音频中幅值达到Threshold的音频信号进行压缩处理。在这一实施方式中,步骤12可以包括以下步骤:
根据响度参数和参数调整系数,确定压缩器触发值Threshold。
也就是说,区别于本领域常用手段所使用的直接使用预设的固定值作为Threshold,本方案基于视频本身的特性计算Threshold,即,根据待处理视频的响度参数和参数调整系数,确定压缩器触发值Threshold。其中,参数调整系数可以根据经验值设定。
示例地,待处理音频的响度参数可以包括待处理音频的平均响度和瞬时响度最小值,相应地,根据响度参数和参数调整系数,确定压缩器触发值Threshold,可以包括以下步骤:
确定预设响度参考值和平均响度之差与参数调整系数的比值;
将比值和瞬时响度最小值之和确定为压缩器触发值Threshold。
具体可参考如下公式:
示例地,参数调整系数可以为3.5。
采用上述方式,根据待处理视频的瞬时响度最小值,确定Threshold,从而,当信号大于瞬时响度最小值时,DRC开始工作,能够避免DRC过多工作在无效区间内。
在一种可能的实施方式中,调节参数可以包括压缩比率Ratio。如上文所述,DRC能够在压缩处理过程中按照Ratio对待处理音频的幅值进行压缩。在这一实施方式中,待处理音频的响度参数包括待处理音频的瞬时响度最大值和瞬时响度最小值,相应地,步骤12可以包括以下步骤:
根据瞬时响度最大值和瞬时响度最小值,确定压缩比率Ratio。
也就是说,区别于本领域常用手段所使用的直接使用预设的固定值作为Ratio,本方案基于视频本身的特性计算Threshold,即,根据待处理视频的瞬时响度最大值和瞬时响度最小值,确定压缩比率Ratio。
示例地,根据瞬时响度最大值和瞬时响度最小值,确定压缩比率Ratio,可以包括以下步骤:
计算瞬时响度最大值和瞬时响度最小值的第一差值;
计算预设响度参考值和瞬时响度最小值的第二差值;
将第一差值与第二差值的比值确定为压缩比率Ratio。
具体可参考如下公式:
采用上述方式,将待处理音频信号的响度动态区间和目标信号的响度动态区间的比值,作为压缩比率,能够将待处理音频尽可能调整向目标信号的方向,且不会出现过度调节的情况。
基于上文中所提供的各种实施方式,能够对DRC调节参数中的响度调整参数Pre-Gain、压缩器触发值Threshold、压缩比率Ratio中的任意一者或多者进行确定,以便后续DRC根据确定出的调节参数对待处理音频进行响度调节。
如前文所述,在DRC中还存在Attack和Release这两个参数,本方案并未针对这两个参数做额外调整,而直接使用本领域常用的设置固定值的方式,因此,未针对这两个参数做过多说明。
在步骤13中,利用调节参数,通过DRC对待处理音频进行响度调节,获得处理后的目标音频。
通过步骤12对DRC中的参数进行一系列设置,从而,DRC基于这些调节参数,能够对待处理音频进行处理,即,进行响度(音量)调节处理,DRC输出的音频就是对待处理音频处理后的目标音频。
图2为一段音频的波形,图3为基于上述步骤11~步骤13对图2中的音频处理后得到的波形,可以看出,经过步骤11~13处理后,解决了图2音频中音量跨度大的问题。
之后,在需要播放目标音频时,将目标音频发送给手机的相应播放硬件进行播放,用户听到的就是经过处理的、音量较为一致的音频,音频切换过程中无需频繁调节音量键。
通过上述技术方案,获取待处理音频的响度参数,根据响度参数,确定动态范围压缩器DRC对待处理音频的调节参数,并利用调节参数,通过DRC对待处理音频进行响度调节,获得处理后的目标音频。由此,能够根据音频本身的响度参数对动态范围压缩器的参数进行自动设置,以适应性调节当前的音频。这样,能够均衡不同音频的音量大小,且能避免出现过度调节的情况。
图4是根据本公开的一种实施方式提供的音频处理装置的框图。如图4所示,该装置40包括:
获取模块41,用于获取待处理音频的响度参数;
确定模块42,用于根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数;
音频处理模块43,用于利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。
可选地,所述调节参数包括响度调整参数Pre-Gain,以及,所述DRC根据所述Pre-Gain对所述待处理音频进行幅值调整;
所述确定模块42包括:
第一确定子模块,用于根据所述响度参数和参数调整系数,确定所述响度调整参数Pre-Gain。
可选地,所述响度参数包括所述待处理音频的平均响度;
所述第一确定子模块用于将预设响度参考值和所述平均响度之差与所述参数调整系数的比值确定为所述响度调整参数Pre-Gain。
可选地,所述调节参数包括压缩器触发值Threshold,以及,所述DRC对所述待处理音频中幅值达到所述Threshold的音频信号进行压缩处理;
所述确定模块42包括:
第二确定子模块,用于根据所述响度参数和参数调整系数,确定所述压缩器触发值Threshold。
可选地,所述响度参数包括所述待处理音频的平均响度和瞬时响度最小值;
所述第二确定子模块用于确定预设响度参考值和所述平均响度之差与所述参数调整系数的比值;将所述比值和所述瞬时响度最小值之和确定为所述压缩器触发值Threshold。
可选地,所述响度参数包括所述待处理音频的瞬时响度最大值和瞬时响度最小值;所述调节参数包括压缩比率Ratio,以及,所述DRC在压缩处理过程中按照所述Ratio对所述待处理音频的幅值进行压缩;
所述确定模块42包括:
第三确定子模块,用于根据所述瞬时响度最大值和所述瞬时响度最小值,确定所述压缩比率Ratio。
可选地,所述第三确定子模块用于计算所述瞬时响度最大值和所述瞬时响度最小值的第一差值;计算预设响度参考值和所述瞬时响度最小值的第二差值;将所述第一差值与所述第二差值的比值确定为所述压缩比率Ratio。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待处理音频的响度参数;根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数;利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取待处理音频的响度参数的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,提供了一种音频处理方法,所述方法包括:
获取待处理音频的响度参数;
根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数;
利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。
根据本公开的一个或多个实施例,提供了一种音频处理方法,所述调节参数包括响度调整参数Pre-Gain,以及,所述DRC根据所述Pre-Gain对所述待处理音频进行幅值调整;
所述根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数,包括:
根据所述响度参数和参数调整系数,确定所述响度调整参数Pre-Gain。
根据本公开的一个或多个实施例,提供了一种音频处理方法,所述响度参数包括所述待处理音频的平均响度;
所述根据所述响度参数和参数调整系数,确定所述响度调整参数Pre-Gain,包括:
将预设响度参考值和所述平均响度之差与所述参数调整系数的比值确定为所述响度调整参数Pre-Gain。
根据本公开的一个或多个实施例,提供了一种音频处理方法,所述调节参数包括压缩器触发值Threshold,以及,所述DRC对所述待处理音频中幅值达到所述Threshold的音频信号进行压缩处理;
所述根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数,包括:
根据所述响度参数和参数调整系数,确定所述压缩器触发值Threshold。
根据本公开的一个或多个实施例,提供了一种音频处理方法,所述响度参数包括所述待处理音频的平均响度和瞬时响度最小值;
所述根据响度参数和参数调整系数,确定所述压缩器触发值Threshold,包括:
确定预设响度参考值和所述平均响度之差与所述参数调整系数的比值;
将所述比值和所述瞬时响度最小值之和确定为所述压缩器触发值Threshold。
根据本公开的一个或多个实施例,提供了一种音频处理方法,所述响度参数包括所述待处理音频的瞬时响度最大值和瞬时响度最小值;所述调节参数包括压缩比率Ratio,以及,所述DRC在压缩处理过程中按照所述Ratio对所述待处理音频的幅值进行压缩;
所述根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数,包括:
根据所述瞬时响度最大值和所述瞬时响度最小值,确定所述压缩比率Ratio。
根据本公开的一个或多个实施例,提供了一种音频处理方法,所述根据所述瞬时响度最大值和所述瞬时响度最小值,确定所述压缩比率Ratio,包括:
计算所述瞬时响度最大值和所述瞬时响度最小值的第一差值;
计算预设响度参考值和所述瞬时响度最小值的第二差值;
将所述第一差值与所述第二差值的比值确定为所述压缩比率Ratio。
根据本公开的一个或多个实施例,提供了一种音频处理装置,所述装置包括:
获取模块,用于获取待处理音频的响度参数;
确定模块,用于根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数;
音频处理模块,用于利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。
根据本公开的一个或多个实施例,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开任意实施例所述方法的步骤。
根据本公开的一个或多个实施例,提供了一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开任意实施例所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (8)

1.一种音频处理方法,其特征在于,所述方法包括:
获取待处理音频的响度参数;
根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数,所述调节参数包括响度调整参数Pre-Gain,所述DRC能够根据所述Pre-Gain对所述待处理音频进行幅值调整,其中,所述Pre-Gain为预设响度参考值和平均响度之差与参数调整系数的比值,所述参数调整系数为设定值;
利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。
2.根据权利要求1所述的方法,其特征在于,所述调节参数还包括压缩器触发值Threshold,以及,所述DRC对所述待处理音频中幅值达到所述Threshold的音频信号进行压缩处理;
所述根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数,包括:
根据所述响度参数和参数调整系数,确定所述压缩器触发值Threshold。
3.根据权利要求2所述的方法,其特征在于,所述响度参数包括所述待处理音频的平均响度和瞬时响度最小值;
所述根据所述响度参数和参数调整系数,确定所述压缩器触发值Threshold,包括:
确定预设响度参考值和所述平均响度之差与所述参数调整系数的比值;
将所述比值和所述瞬时响度最小值之和确定为所述压缩器触发值Threshold。
4.根据权利要求1所述的方法,其特征在于,所述响度参数还包括所述待处理音频的瞬时响度最大值和瞬时响度最小值;所述调节参数包括压缩比率Ratio,以及,所述DRC在压缩处理过程中按照所述Ratio对所述待处理音频的幅值进行压缩;
所述根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数,包括:
根据所述瞬时响度最大值和所述瞬时响度最小值,确定所述压缩比率Ratio。
5.根据权利要求4所述的方法,其特征在于,所述根据所述瞬时响度最大值和所述瞬时响度最小值,确定所述压缩比率Ratio,包括:
计算所述瞬时响度最大值和所述瞬时响度最小值的第一差值;
计算预设响度参考值和所述瞬时响度最小值的第二差值;
将所述第一差值与所述第二差值的比值确定为所述压缩比率Ratio。
6.一种音频处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理音频的响度参数;
确定模块,用于根据所述响度参数,确定动态范围压缩器DRC对所述待处理音频的调节参数,所述调节参数包括响度调整参数Pre-Gain,所述DRC能够根据所述Pre-Gain对所述待处理音频进行幅值调整,其中,所述Pre-Gain为预设响度参考值和平均响度之差与参数调整系数的比值,所述参数调整系数为设定值;
音频处理模块,用于利用所述调节参数,通过所述DRC对所述待处理音频进行响度调节,获得处理后的目标音频。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-5中任一项所述方法的步骤。
8.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
CN202010247181.3A 2020-03-31 2020-03-31 音频处理方法、装置、可读介质及电子设备 Active CN113470692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247181.3A CN113470692B (zh) 2020-03-31 2020-03-31 音频处理方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247181.3A CN113470692B (zh) 2020-03-31 2020-03-31 音频处理方法、装置、可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN113470692A CN113470692A (zh) 2021-10-01
CN113470692B true CN113470692B (zh) 2024-02-02

Family

ID=77865760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247181.3A Active CN113470692B (zh) 2020-03-31 2020-03-31 音频处理方法、装置、可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN113470692B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1055830A (zh) * 1990-04-12 1991-10-30 多尔拜实验特许公司 用于产生高质量声音信号的自适应块长、自适应变换、及自适应窗变换代码、解码和编码/解码
CA2167966A1 (en) * 1995-02-06 1996-08-07 Jonathan Brandon Allen Tonality for perceptual audio compression based on loudness uncertainty
NL1029492A1 (nl) * 2004-07-24 2006-01-25 Samsung Electronics Co Ltd Apparaat en werkwijze voor het automatisch compenseren van een audiovolume in respons op een verandering van kanaal.
CN101184125A (zh) * 2007-12-06 2008-05-21 中兴通讯股份有限公司 一种调节手机发出音频信号的音量大小的方法
US7848531B1 (en) * 2002-01-09 2010-12-07 Creative Technology Ltd. Method and apparatus for audio loudness and dynamics matching
CN102017402A (zh) * 2007-12-21 2011-04-13 Srs实验室有限公司 用于调节音频信号的感知响度的系统
CN103828232A (zh) * 2011-09-22 2014-05-28 伊尔索芙特有限公司 动态范围控制
WO2015113602A1 (en) * 2014-01-30 2015-08-06 Huawei Technologies Co., Ltd. A digital compressor for compressing an audio signal
DE102014218728A1 (de) * 2014-09-18 2016-03-24 Bayerische Motoren Werke Aktiengesellschaft Lautheitsanpassung von Audiosignalen in Fahrzeugen
CN107851440A (zh) * 2015-07-31 2018-03-27 苹果公司 经编码音频扩展的基于元数据的动态范围控制
CN108174031A (zh) * 2017-12-26 2018-06-15 上海展扬通信技术有限公司 一种音量调节方法、终端设备及计算机可读存储介质
WO2019009562A1 (en) * 2017-07-07 2019-01-10 Samsung Electronics Co., Ltd. SOUND OUTPUT APPARATUS AND ASSOCIATED SIGNAL PROCESSING METHOD
CN110754040A (zh) * 2017-04-13 2020-02-04 弗劳恩霍夫应用研究促进协会 用于处理输入音频信号的装置和对应方法
CN110928518A (zh) * 2019-11-26 2020-03-27 北京达佳互联信息技术有限公司 音频数据处理方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US10109288B2 (en) * 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1055830A (zh) * 1990-04-12 1991-10-30 多尔拜实验特许公司 用于产生高质量声音信号的自适应块长、自适应变换、及自适应窗变换代码、解码和编码/解码
CA2167966A1 (en) * 1995-02-06 1996-08-07 Jonathan Brandon Allen Tonality for perceptual audio compression based on loudness uncertainty
US7848531B1 (en) * 2002-01-09 2010-12-07 Creative Technology Ltd. Method and apparatus for audio loudness and dynamics matching
NL1029492A1 (nl) * 2004-07-24 2006-01-25 Samsung Electronics Co Ltd Apparaat en werkwijze voor het automatisch compenseren van een audiovolume in respons op een verandering van kanaal.
CN101184125A (zh) * 2007-12-06 2008-05-21 中兴通讯股份有限公司 一种调节手机发出音频信号的音量大小的方法
CN102017402A (zh) * 2007-12-21 2011-04-13 Srs实验室有限公司 用于调节音频信号的感知响度的系统
CN103828232A (zh) * 2011-09-22 2014-05-28 伊尔索芙特有限公司 动态范围控制
WO2015113602A1 (en) * 2014-01-30 2015-08-06 Huawei Technologies Co., Ltd. A digital compressor for compressing an audio signal
DE102014218728A1 (de) * 2014-09-18 2016-03-24 Bayerische Motoren Werke Aktiengesellschaft Lautheitsanpassung von Audiosignalen in Fahrzeugen
CN107851440A (zh) * 2015-07-31 2018-03-27 苹果公司 经编码音频扩展的基于元数据的动态范围控制
CN110754040A (zh) * 2017-04-13 2020-02-04 弗劳恩霍夫应用研究促进协会 用于处理输入音频信号的装置和对应方法
WO2019009562A1 (en) * 2017-07-07 2019-01-10 Samsung Electronics Co., Ltd. SOUND OUTPUT APPARATUS AND ASSOCIATED SIGNAL PROCESSING METHOD
CN108174031A (zh) * 2017-12-26 2018-06-15 上海展扬通信技术有限公司 一种音量调节方法、终端设备及计算机可读存储介质
CN110928518A (zh) * 2019-11-26 2020-03-27 北京达佳互联信息技术有限公司 音频数据处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113470692A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
US10701485B2 (en) Energy limiter for loudspeaker protection
KR102371004B1 (ko) 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
US20120306677A1 (en) System and method to modify a metadata parameter
CN109285554B (zh) 一种回声消除方法、服务器、终端及系统
CN110650410B (zh) 一种麦克风自动增益控制方法、装置及存储介质
CN107465824B (zh) 音量调节方法、装置、移动终端及存储介质
US11822854B2 (en) Automatic volume adjustment method and apparatus, medium, and device
CN113726940B (zh) 录音方法和装置
US11694700B2 (en) Method, apparatus and device for processing sound signal
US8983092B2 (en) Waveform shaping system to prevent electrical and mechanical saturation in loud speakers
CN112669878B (zh) 声音增益值的计算方法、装置和电子设备
CN114845212A (zh) 音量优化方法、装置、电子设备及可读存储介质
CN113470692B (zh) 音频处理方法、装置、可读介质及电子设备
TWI545891B (zh) 防止在擴音器中電氣和機械飽和之波形整型系統
JP5172580B2 (ja) 音補正装置及び音補正方法
CN111045634A (zh) 音频处理方法和装置
US20130329911A1 (en) Apparatus and method for adjusting volume in terminal
US9514765B2 (en) Method for reducing noise and computer program thereof and electronic device
CN110022514B (zh) 音频信号的降噪方法、装置、系统及计算机存储介质
WO2021120247A1 (zh) 听力补偿方法、装置及计算机可读存储介质
GB2559858A (en) Audio processing apparatus and method of controlling same
CN111048108B (zh) 音频处理方法和装置
CN111145792B (zh) 音频处理方法和装置
CN111145776B (zh) 音频处理方法和装置
CN116798439A (zh) 音量调节方法、装置、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant