CN112558916B - 音频调节的方法、装置、电子设备及存储介质 - Google Patents
音频调节的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112558916B CN112558916B CN202011573408.XA CN202011573408A CN112558916B CN 112558916 B CN112558916 B CN 112558916B CN 202011573408 A CN202011573408 A CN 202011573408A CN 112558916 B CN112558916 B CN 112558916B
- Authority
- CN
- China
- Prior art keywords
- audio
- energy
- smooth
- coefficient
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000003247 decreasing effect Effects 0.000 claims description 53
- 230000003750 conditioning effect Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了音频调节的方法、装置、电子设备及存储介质,涉及语音识别、语音处理、车联网等领域。具体实现方案为:根据多个第一音频帧的音频能量,计算平滑递增系数;其中,多个第一音频帧为待播放的目标音频在起始播放时间段内包含的音频帧;根据平滑递增系数,分别对多个第一音频帧的音频能量进行调节。本申请实施例通过对待播放的目标音频的音频能量进行调节,可以有效解决播放设备播放音频时出现爆破音的问题。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及音频调节的方法、装置、电子设备及存储介质。
背景技术
用户在使用播放设备播放音频的过程中,可能会产生爆破音(POP音)。爆破音是指音频播放过程中不正常地出现破音。爆破音严重影响用户的感受,还可能对用户的耳朵造成潜在伤害。
发明内容
本申请提供了一种音频调节的方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种音频调节的方法,包括:
根据多个第一音频帧的音频能量,计算平滑递增系数;其中,所述多个第一音频帧为待播放的目标音频在起始播放时间段内包含的音频帧;
根据所述平滑递增系数,分别对所述多个第一音频帧的音频能量进行调节。
根据本申请的另一方面,提供了一种音频调节的装置,包括:
第一计算模块,用于根据多个第一音频帧的音频能量,计算平滑递增系数;其中,所述多个第一音频帧为待播放的目标音频在起始播放时间段内包含的音频帧;
第一调节模块,用于根据所述平滑递增系数,分别对所述多个第一音频帧的音频能量进行调节。
根据本申请的另一方面,提供了一种电子设备,电子设备的功能可以通过硬件实现,也可以通过硬件执行响应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,电子设备的结构中包括处理器和存储器,存储器用于存储支持电子设备执行上述音频调节的方法的程序,处理器被配置为用于执行存储器中存储的程序。电子设备还可以包括通信接口,用于与其他设备或通信网络通信。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,用于存储电子设备及电子设备所用的计算机软件指令,其包括用于执行上述音频调节的方法所涉及的程序。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述音频调节的方法。
本申请实施例通过对待播放的目标音频的音频能量进行调节,可以有效解决播放设备播放音频时出现爆破音的问题。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的音频调节方法的实现流程示意图;
图2是根据本申请另一实施例的音频调节的方法的实现流程示意图;
图3是根据本申请另一实施例的音频调节的方法的实现流程示意图;
图4是根据本申请另一实施例的音频调节的方法的实现流程示意图;
图5是根据本申请另一实施例的音频调节的方法的实现流程示意图;
图6是根据本申请另一实施例的音频调节的方法的实现流程示意图;
图7是根据本申请另一实施例的音频调节的方法的实现流程示意图;
图8是根据本申请另一实施例的音频调节的方法的实现流程示意图;
图9是根据本申请实施例的音频调节的装置的结构示意图;
图10是用来实现本申请实施例的音频调节的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
根据本申请的实施例,如图1所示,本申请实施例提供了一种音频调节的方法,包括:
S10:根据多个第一音频帧的音频能量,计算平滑递增系数。其中,多个第一音频帧为待播放的目标音频在起始播放时间段内包含的音频帧。
待播放的目标音频可以包括音乐、视频中的语音、人机交互的语音、导航语音、TTS(Text To Speech,从文本到语音)等。
起始播放时间段可以理解为目标音频从第一帧播放到第N帧(N≥2)所利用的时间。例如,多个第一音频帧可以是待播放的目标语音前15帧的音频帧。
多个第一音频帧可以是连续的音频帧,也可以是非连续的音频帧。
每个第一音频帧的音频能量可以采用现有技术中的任意方式进行计算,在此不做具体限定。例如,可以根据目标音频的信号波形进行确认。对每个音频帧对应的波峰值取对数,即可得到音频帧的音频能量。
平滑递增系数中可以包含数值递增的多个不同系数。每个系数可以对应一个或多个第一音频帧。
S11:根据平滑递增系数,分别对多个第一音频帧的音频能量进行调节。
根据平滑递增系数,可以分别对多个第一音频帧的音频能量进行逐帧调节。也可以根据平滑递增系数,仅对多个第一音频帧中的部分第一音频帧的音频能量进行调节。
本申请实施例通过平滑递增系数对起始播放时间段内的音频的音频能量进行动态调节,可以保证目标音频在开始播放时音频能量是逐渐升高平滑变化的,使得目标音频能够平滑渐入播放,而不是突入或突出的播放,因此不会出现音频能量突变而使播放设备开始播放音频时出现爆破音的问题。本申请实施例的方式由于是对音频能量进行调节,因此无需适配车机或播放设备的硬件,可以应用于任意音频播放场景中。
本申请实施例的方案有效解决了用户突然开始播放音频、突然停止播放音频或在一个音频播放时另一个音频突入(例如,语音导航时,车机突然与驾驶员语音交互)而产生的爆破音问题,提升了用户的使用体验。
在一个示例中,音频调节的方法,包括:
根据多个连续第一音频帧的音频能量,计算每个第一音频帧的平滑递增系数。
根据每个第一音频帧的平滑递增系数,分别对每个第一音频帧的音频能量进行调节。具体的,将第一音频帧的平滑递增系数乘以对应的第一音频帧的原始音频能量,得到调节后的音频能量。根据每个第一音频帧调节后的音频能量播放目标音频。
在一个示例中,对多个第一音频帧的音频能量进行调节后得到的音频的信号波形与调节前音频的信号波形可以大体上相近似。从而保证目标音频的播放质量。例如,目标音频的前15帧音频对应的信号波形是正弦波,则对前15帧音频根据平滑递增系数进行调节后得到的信号波形应当仍然是正弦波。
在一种实施方式中,本申请实施例的音频调节的方法的执行主体可以是云端服务器,也可以是播放设备端(例如,车机或车辆的喇叭)。
在一种实施方式中,如图2所示,本实施方式的音频调节的方法包括上述步骤S10、S11,还可以包括步骤:
S20:根据多个第二音频帧的音频能量,计算平滑递减系数。其中,多个第二音频帧为目标音频在结尾播放时间段内包含的音频帧。
结尾播放时间段可以理解为目标音频从倒数第N帧(N≥2)播放到第一帧所利用的时间。例如,多个第二音频帧可以是待播放的目标语音最后15帧的音频帧。
多个第二音频帧可以是连续的音频帧,也可以是非连续的音频帧。
每个第二音频帧的音频能量可以采用现有技术中的任意方式进行计算,在此不做具体限定。例如,可以根据目标音频的信号波形进行确认。对每个音频帧对应的波峰值取对数,即可得到音频帧的音频能量。
平滑递减系数中可以包含数值递减的多个不同系数。每个系数可以对应一个或多个第二音频帧。
S21:根据平滑递减系数,分别对多个第二音频帧的音频能量进行调节。
根据平滑递减系数,可以分别对多个第二音频帧的音频能量进行逐帧调节。也可以根据平滑递减系数,仅对部分第二音频帧的音频能量进行调节。
本申请实施例通过平滑递增系数对起始播放时间段内的音频的音频能量进行了动态调节,可以保证目标音频在开始播放时音频能量是逐渐升高平滑变化的,使得目标音频能够平滑渐入播放,而不是突入或突出的播放,因此不会出现音频能量突变而使播放设备开始播放音频时出现爆破音的问题。并且,由于通过平滑递减系数对结尾播放时间段内的音频的音频能量进行了动态调节,因此可以保证目标音频在结束播放时音频能量是逐渐降低平滑变化的,使得目标音频能够平滑渐出的播放,而不是突入或突出的播放,因此不会出现音频能量突变而使播放设备结束播放音频时出现爆破音的问题。
本申请实施例的方案有效解决了用户突然开始播放音频、突然停止播放音频或在一个音频播放时另一个音频突入(例如,语音导航时,车机突然与驾驶员语音交互)而产生的爆破音问题,提升了用户的使用体验。
在一个示例中,音频调节的方法,包括:
根据多个连续第二音频帧的音频能量,计算每个第二音频帧的平滑递减系数。
根据每个第二音频帧的平滑递减系数,分别对每个第二音频帧的音频能量进行调节。具体的,将第二音频帧的平滑递减系数乘以对应的第二音频帧的原始音频能量,得到调节后的音频能量。根据每个第二音频帧调节后的音频能量播放目标音频。
在一个示例中,对多个第二音频帧的音频能量进行调节后得到的音频的信号波形与调节前音频的信号波形可以大体上相近似。从而保证目标音频的播放质量。例如,目标音频的最后15帧音频对应的信号波形是正弦波,则对最后15帧音频根据平滑递减系数进行调节后得到的信号波形应当仍然是正弦波。
在一种实施方式中,如图3所示,本实施方式的音频调节的方法包括上述步骤S10、S11,还包括步骤:
S30:根据平滑递增系数,对车辆的车机播放目标音频的音量进行调节。和/或
S31:根据平滑递增系数,对车辆的播放设备播放目标音频的音量进行调节。车辆的播放设备可以包括车辆的内置音箱的喇叭或外接音箱的喇叭。
在本实施例中,通过对车辆的车机和播放设备的音量进行调节,可以保证车机和播放设备在开始播放目标音频时音量也是平滑变化的,更进一步的避免了爆破音问题的产生。
在一种实施方式中,如图4所示,本实施方式的音频调节的方法包括上述步骤S10、S11、S20、S21,还包括步骤:
S40:根据平滑递增系数,对车辆的车机播放目标音频的音量进行调节。和/或
S41:根据平滑递增系数,对车辆的播放设备播放目标音频的音量进行调节。
在本实施例中,通过对车辆的车机和播放设备的音量进行调节,可以保证车机和播放设备在开始播放目标音频时音量和结束播放目标音频时的引流也是平滑变化的,更进一步的避免了爆破音问题的产生。
在一种实施方式中,如图5所示,本实施方式的音频调节的方法包括上述步骤S10、S11、S20、S21,还包括步骤:
S50:根据平滑递减系数,对车辆的车机播放目标音频的音量进行调节。和/或
S51:根据平滑递减系数,对车辆的播放设备播放目标音频的音量进行调节。车辆的播放设备可以包括车辆的内置音箱的喇叭或外接音箱的喇叭。
在本实施例中,通过对车辆的车机和播放设备的音量进行调节,可以保证车机和播放设备在开始播放目标音频时音量和结束播放目标音频时的引流也是平滑变化的,更进一步的避免了爆破音问题的产生。
在一种实施方式中,如图6所示,本实施方式的音频调节的方法包括上述步骤S10、S11,其中,S10:根据多个第一音频帧的音频能量,计算平滑递增系数,还可以进一步包括:
S60:根据多个第一音频帧的音频能量,计算第一平均音频能量。
S61:根据多个第一音频帧的最大音频能量和第一平均音频能量,计算第一中间音频能量。
S62:根据第一中间音频能量,计算平滑递增系数。
在本申请实施例中,通过第一平均音频能量和第一中间音频能量,可以准确的计算出每个第一音频帧的平滑递增系数。
在一种实施方式中,如图7所示,本实施方式的音频调节的方法包括上述步骤S10、S11、S20、S21,其中,S10:根据多个第一音频帧的音频能量,计算平滑递增系数,还可以进一步包括:
S70:根据多个第一音频帧的音频能量,计算第一平均音频能量。
S71:根据多个第一音频帧的最大音频能量和第一平均音频能量,计算第一中间音频能量。
S72:根据第一中间音频能量,计算平滑递增系数。
在本申请实施例中,通过第一平均音频能量和第一中间音频能量,可以准确的计算出每个第一音频帧的平滑递增系数。
在一种实施方式中,平滑递增系数包括第一平滑递增系数和第二平滑递增系数,根据第一中间音频能量,计算平滑递增系数,可以进一步包括:
根据第一中间音频能量和第一目标音频帧之前的各第一音频帧的音频能量,计算第一平滑递增系数。其中,第一目标音频帧为与第一中间音频能量对应的第一音频帧。
根据第一中间音频能量和第一目标音频帧之后的各第一音频帧的音频能量,计算第二平滑递增系数。
利用第一平滑递增系数,可以对第一目标音频帧之前的各第一音频帧的音频能量进行调节,利用第二平滑递增系数,可以对第一目标音频帧之后的各第一音频帧的音频能量进行调节。通过分段调节的方式,可以更加准确的对多个第一音频帧的音频能量进行调节。
在一个示例中,根据第一中间音频能量,计算平滑递增系数,可以进一步包括:
根据第一中间音频能量和第一目标音频帧之前的各第一音频帧的音频能量,计算第一目标音频帧之前的每个第一音频帧的第一平滑递增系数。
根据第一中间音频能量和第一目标音频帧之后的各第一音频帧的音频能量,计算第一目标音频帧之后的每个第一音频帧的第二平滑递增系数。
在一个示例中,根据平滑递增系数,分别对多个第一音频帧的音频能量进行调节,包括:
根据第一平滑递增系数,对第一目标音频帧之前的各第一音频帧的音频能量进行调节。
根据第二平滑递增系数,对第一目标音频帧之后的各第一音频帧的音频能量进行调节。
在一种实施方式中,如图8所示,本实施方式的音频调节的方法包括上述步骤S10、S11、S20、S21,其中,S20:根据多个第二音频帧的音频能量,计算平滑递减系数,可以进一步包括:
S80:根据多个第二音频帧的音频能量,计算第二平均音频能量。
S81:根据多个第二音频帧的最大音频能量和第二平均音频能量,计算第二中间音频能量。
S82:根据第二中间音频能量,计算平滑递减系数。
在本申请实施例中,通过第二平均音频能量和第二中间音频能量,可以准确的计算出每个第二音频帧的平滑递减系数。
在一种实施方式中,平滑递减系数包括第一平滑递减系数和第二平滑递减系数,根据第二中间音频能量,计算平滑递减系数,可以进一步包括:
根据第二中间音频能量和第二目标音频帧之前的各第二音频帧的音频能量,计算第一平滑递减系数。其中,第二目标音频帧为与第二中间音频能量对应的第二音频帧。
根据第二中间音频能量和第二目标音频帧之后的各第二音频帧的音频能量,计算第二平滑递减系数。
利用第一平滑递减系数,可以对第二目标音频帧之前的各第二音频帧的音频能量进行调节,利用第二平滑递减系数,可以对第二目标音频帧之后的各第二音频帧的音频能量进行调节。通过分段调节的方式,可以更加准确的对多个第二音频帧的音频能量进行调节。
在一个示例中,根据第二中间音频能量,计算平滑递减系数,可以进一步包括:
根据第二中间音频能量和第二目标音频帧之前的各第二音频帧的音频能量,计算第二目标音频帧之前的每个第二音频帧的第一平滑递减系数。
根据第二中间音频能量和第二目标音频帧之后的各第二音频帧的音频能量,计算第二目标音频帧之后的每个第二音频帧的第二平滑递减系数。
在一个示例中,根据平滑递减系数,分别对多个第二音频帧的音频能量进行调节,包括:
根据第一平滑递增系数,对第二目标音频帧之前的各第二音频帧的音频能量进行调节。
根据第二平滑递增系数,对第二目标音频帧之后的各第二音频帧的音频能量进行调节。
在一个示例中,当用户利用车机进行语音导航时,可以利用本申请任意实施方式中的音频调节的方法,对待播放的导航语音进行音频能量的调节。
在一个示例中,当用户利用车机进行语音导航并同时与车机进行交互时,可以利用本申请任意实施方式中的音频调节的方法,对待播放的导航语音以及同时播放的车机交互语音进行音频能量的调节。
在一个示例中,当车机接收到播放音频的指令后,可以利用本申请任意实施方式中的音频调节的方法,对即将开始播放的音频进行音频能量的调节。
在一个示例中,当车机接收到停止音频的指令后,可以利用本申请任意实施方式中的音频调节的方法,对即将结束播放的音频进行音频能量的调节。
根据本申请的实施例,如图9所示,提供了一种音频调节的装置100,包括:
第一计算模块110,用于根据多个第一音频帧的音频能量,计算平滑递增系数。其中,多个第一音频帧为待播放的目标音频在起始播放时间段内包含的音频帧。
第一调节模块120,用于根据平滑递增系数,分别对多个第一音频帧的音频能量进行调节。
在一种实施方式中,音频调节的装置100还包括:
第二计算模块,用于根据多个第二音频帧的音频能量,计算平滑递减系数。其中,多个第二音频帧为目标音频在结尾播放时间段内包含的音频帧。
第二调节模块,用于根据平滑递减系数,分别对多个第二音频帧的音频能量进行调节。
在一种实施方式中,音频调节的装置100还包括:
第三调节模块,用于根据平滑递增系数,对车辆的车机播放目标音频的音量进行调节。和/或,根据平滑递增系数,对车辆的播放设备播放目标音频的音量进行调节。
在一种实施方式中,音频调节的装置100还包括:
第四调节模块,用于根据平滑递减系数,对车辆的车机播放目标音频的音量进行调节。
和/或,根据平滑递减系数,对车辆的播放设备播放目标音频的音量进行调节。
在一种实施方式中,第一计算模块包括:
第一计算子模块,用于根据多个第一音频帧的音频能量,计算第一平均音频能量。
第二计算子模块,用于根据多个第一音频帧的最大音频能量和第一平均音频能量,计算第一中间音频能量。
第三计算子模块,用于根据第一中间音频能量,计算平滑递增系数。
在一种实施方式中,平滑递增系数包括第一平滑递增系数和第二平滑递增系数,第三计算子模块还用于:
根据第一中间音频能量和第一目标音频帧之前的各第一音频帧的音频能量,计算第一平滑递增系数。其中,第一目标音频帧为与第一中间音频能量对应的第一音频帧。
根据第一中间音频能量和第一目标音频帧之后的各第一音频帧的音频能量,计算第二平滑递增系数。
在一种实施方式中,第二计算模块包括:
第四计算子模块,用于根据多个第二音频帧的音频能量,计算第二平均音频能量。
第五计算子模块,用于根据多个第二音频帧的最大音频能量和第二平均音频能量,计算第二中间音频能量。
第六计算子模块,用于根据第二中间音频能量,计算平滑递减系数。
在一种实施方式中,平滑递减系数包括第一平滑递减系数和第二平滑递减系数,第六计算子模块还用于:
根据第二中间音频能量和第二目标音频帧之前的各第二音频帧的音频能量,计算第一平滑递减系数。其中,第二目标音频帧为与第二中间音频能量对应的第二音频帧。
根据第二中间音频能量和第二目标音频帧之后的各第二音频帧的音频能量,计算第二平滑递减系数。
上述音频调节的装置的功能可以参考上述音频调节的方法的各实施例,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图10所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如音频调节的方法。例如,在一些实施例中,音频调节的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的音频调节的方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行音频调节的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS)服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种音频调节的方法,包括:
根据多个第一音频帧的音频能量,计算第一平均音频能量,其中,所述多个第一音频帧为待播放的目标音频在起始播放时间段内包含的音频帧;
根据所述多个第一音频帧的最大音频能量和所述第一平均音频能量,计算第一中间音频能量;
根据所述第一中间音频能量,计算平滑递增系数,其中,所述平滑递增系数中包含数值递增的多个不同系数,所述不同系数对应至少一个所述第一音频帧;
根据所述平滑递增系数,分别对所述多个第一音频帧的音频能量进行调节;
根据多个第二音频帧的音频能量,计算第二平均音频能量,其中,所述多个第二音频帧为所述目标音频在结尾播放时间段内包含的音频帧;
根据所述多个第二音频帧的最大音频能量和所述第二平均音频能量,计算第二中间音频能量;
根据所述第二中间音频能量,计算平滑递减系数,其中,所述平滑递减系数中包含数值递减的多个不同系数,所述不同系数对应至少一个所述第二音频帧;
根据所述平滑递减系数,分别对所述多个第二音频帧的音频能量进行调节。
2.根据权利要求1所述的方法,还包括:
根据所述平滑递增系数,对车辆的车机播放所述目标音频的音量进行调节;
和/或,根据所述平滑递增系数,对所述车辆的播放设备播放所述目标音频的音量进行调节。
3.根据权利要求1所述的方法,还包括:
根据所述平滑递减系数,对车辆的车机播放所述目标音频的音量进行调节;
和/或,根据所述平滑递减系数,对所述车辆的播放设备播放所述目标音频的音量进行调节。
4.根据权利要求1所述的方法,其中,所述平滑递增系数包括第一平滑递增系数和第二平滑递增系数,所述根据所述第一中间音频能量,计算平滑递增系数,包括:
根据所述第一中间音频能量和第一目标音频帧之前的各第一音频帧的音频能量,计算所述第一平滑递增系数;其中,所述第一目标音频帧为与所述第一中间音频能量对应的第一音频帧;
根据所述第一中间音频能量和所述第一目标音频帧之后的各第一音频帧的音频能量,计算所述第二平滑递增系数。
5.根据权利要求1所述的方法,其中,所述平滑递减系数包括第一平滑递减系数和第二平滑递减系数,所述根据所述第二中间音频能量,计算平滑递减系数,包括:
根据所述第二中间音频能量和第二目标音频帧之前的各第二音频帧的音频能量,计算所述第一平滑递减系数;其中,所述第二目标音频帧为与所述第二中间音频能量对应的第二音频帧;
根据所述第二中间音频能量和所述第二目标音频帧之后的各第二音频帧的音频能量,计算所述第二平滑递减系数。
6.一种音频调节的装置,包括:
第一计算子模块,用于根据多个第一音频帧的音频能量,计算第一平均音频能量,其中,所述多个第一音频帧为待播放的目标音频在起始播放时间段内包含的音频帧;
第二计算子模块,用于根据所述多个第一音频帧的最大音频能量和所述第一平均音频能量,计算第一中间音频能量;
第三计算子模块,用于根据所述第一中间音频能量,计算平滑递增系数,所述平滑递增系数中包含数值递增的多个不同系数,所述不同系数对应至少一个所述第一音频帧;
第一调节模块,用于根据所述平滑递增系数,分别对所述多个第一音频帧的音频能量进行调节;
第四计算子模块,用于根据多个第二音频帧的音频能量,计算第二平均音频能量,其中,所述多个第二音频帧为所述目标音频在结尾播放时间段内包含的音频帧;
第五计算子模块,用于根据所述多个第二音频帧的最大音频能量和所述第二平均音频能量,计算第二中间音频能量;
第六计算子模块,用于根据所述第二中间音频能量,计算平滑递减系数,其中所述平滑递减系数中包含数值递减的多个不同系数,所述不同系数对应至少一个所述第二音频帧;
第二调节模块,用于根据所述平滑递减系数,分别对所述多个第二音频帧的音频能量进行调节。
7.根据权利要求6所述的装置,还包括:
第三调节模块,用于根据所述平滑递增系数,对车辆的车机播放所述目标音频的音量进行调节;和/或,根据所述平滑递增系数,对所述车辆的播放设备播放所述目标音频的音量进行调节。
8.根据权利要求6所述的装置,还包括:
第四调节模块,用于根据所述平滑递减系数,对车辆的车机播放所述目标音频的音量进行调节;
和/或,根据所述平滑递减系数,对所述车辆的播放设备播放所述目标音频的音量进行调节。
9.根据权利要求6所述的装置,其中,所述平滑递增系数包括第一平滑递增系数和第二平滑递增系数,所述第三计算子模块还用于:
根据所述第一中间音频能量和第一目标音频帧之前的各第一音频帧的音频能量,计算所述第一平滑递增系数;其中,所述第一目标音频帧为与所述第一中间音频能量对应的第一音频帧;
根据所述第一中间音频能量和所述第一目标音频帧之后的各第一音频帧的音频能量,计算所述第二平滑递增系数。
10.根据权利要求6所述的装置,其中,所述平滑递减系数包括第一平滑递减系数和第二平滑递减系数,所述第六计算子模块还用于:
根据所述第二中间音频能量和第二目标音频帧之前的各第二音频帧的音频能量,计算所述第一平滑递减系数;其中,所述第二目标音频帧为与所述第二中间音频能量对应的第二音频帧;
根据所述第二中间音频能量和所述第二目标音频帧之后的各第二音频帧的音频能量,计算所述第二平滑递减系数。
11. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573408.XA CN112558916B (zh) | 2020-12-24 | 2020-12-24 | 音频调节的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573408.XA CN112558916B (zh) | 2020-12-24 | 2020-12-24 | 音频调节的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112558916A CN112558916A (zh) | 2021-03-26 |
CN112558916B true CN112558916B (zh) | 2024-01-05 |
Family
ID=75033526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011573408.XA Active CN112558916B (zh) | 2020-12-24 | 2020-12-24 | 音频调节的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112558916B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104658559A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市快播科技有限公司 | 多媒体播放方法及装置 |
CN104683920A (zh) * | 2015-01-30 | 2015-06-03 | 惠州市德赛西威汽车电子有限公司 | 一种实现音量平滑升降的方法及装置 |
CN106775563A (zh) * | 2016-12-13 | 2017-05-31 | 珠海市魅族科技有限公司 | 音量调节的方法及装置 |
CN107436751A (zh) * | 2017-08-18 | 2017-12-05 | 广东欧珀移动通信有限公司 | 音量调节方法、装置、终端设备及存储介质 |
CN107465824A (zh) * | 2017-08-18 | 2017-12-12 | 广东欧珀移动通信有限公司 | 音量调节方法、装置、移动终端及存储介质 |
CN109672961A (zh) * | 2018-12-14 | 2019-04-23 | 歌尔科技有限公司 | 一种音量调节方法、设备及存储介质 |
CN110677774A (zh) * | 2019-08-21 | 2020-01-10 | 中国平安财产保险股份有限公司 | 一种音量自适应调节方法、装置和计算机设备及存储介质 |
CN111813367A (zh) * | 2020-07-22 | 2020-10-23 | 广州繁星互娱信息科技有限公司 | 调整音量的方法、装置、设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7778407B2 (en) * | 2005-05-16 | 2010-08-17 | Yahoo! Inc. | Statistical approach to automatic gain control for managing audio messages over a network |
-
2020
- 2020-12-24 CN CN202011573408.XA patent/CN112558916B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104658559A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市快播科技有限公司 | 多媒体播放方法及装置 |
CN104683920A (zh) * | 2015-01-30 | 2015-06-03 | 惠州市德赛西威汽车电子有限公司 | 一种实现音量平滑升降的方法及装置 |
CN106775563A (zh) * | 2016-12-13 | 2017-05-31 | 珠海市魅族科技有限公司 | 音量调节的方法及装置 |
CN107436751A (zh) * | 2017-08-18 | 2017-12-05 | 广东欧珀移动通信有限公司 | 音量调节方法、装置、终端设备及存储介质 |
CN107465824A (zh) * | 2017-08-18 | 2017-12-12 | 广东欧珀移动通信有限公司 | 音量调节方法、装置、移动终端及存储介质 |
CN109672961A (zh) * | 2018-12-14 | 2019-04-23 | 歌尔科技有限公司 | 一种音量调节方法、设备及存储介质 |
CN110677774A (zh) * | 2019-08-21 | 2020-01-10 | 中国平安财产保险股份有限公司 | 一种音量自适应调节方法、装置和计算机设备及存储介质 |
CN111813367A (zh) * | 2020-07-22 | 2020-10-23 | 广州繁星互娱信息科技有限公司 | 调整音量的方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112558916A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402877B (zh) | 基于车载多音区的降噪方法、装置、设备和介质 | |
CN108074582B (zh) | 一种噪声抑制信噪比估计方法和用户终端 | |
CN110503944B (zh) | 语音唤醒模型的训练和使用方法及装置 | |
CN110660408B (zh) | 一种数字自动控制增益的方法和装置 | |
US10283134B2 (en) | Sound-mixing processing method, apparatus and device, and storage medium | |
CN108806707B (zh) | 语音处理方法、装置、设备及存储介质 | |
WO2021057239A1 (zh) | 语音数据的处理方法、装置、电子设备及可读存储介质 | |
WO2020097824A1 (zh) | 音频处理方法、装置、存储介质及电子设备 | |
JP2022020060A (ja) | ノイズ除去アルゴリズムのデバッグ方法、装置及び電子機器 | |
CN108829370B (zh) | 有声资源播放方法、装置、计算机设备及存储介质 | |
CN112558916B (zh) | 音频调节的方法、装置、电子设备及存储介质 | |
JP7391063B2 (ja) | 音声出力方法、音声出力装置、電子機器及び記憶媒体 | |
CN113763974A (zh) | 一种丢包补偿方法、装置、电子设备及存储介质 | |
US10540990B2 (en) | Processing of speech signals | |
WO2023273156A1 (zh) | 时延估计调整方法、装置、设备以及存储介质 | |
KR102607120B1 (ko) | 소리 데이터 노이즈 캔슬링 방법, 장치, 전자 기기, 컴퓨터 판독 가능 저장 매체 및 컴퓨터 프로그램 | |
US11895479B2 (en) | Steering of binauralization of audio | |
CN112349277B (zh) | 结合ai模型的特征域语音增强方法及相关产品 | |
CN111243631B (zh) | 一种自动增益控制方法及电子设备 | |
CN114221940B (zh) | 音频数据处理方法、系统、装置、设备以及存储介质 | |
US20140270289A1 (en) | Hearing aid and method of enhancing speech output in real time | |
US12039987B2 (en) | Speech data processing method and apparatus, electronic device, and readable storage medium | |
CN114339397B (zh) | 一种多媒体编辑信息确定方法、装置、设备及存储介质 | |
CN111145776B (zh) | 音频处理方法和装置 | |
CN114007166B (zh) | 定制声音的方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211018 Address after: 100176 Room 101, 1st floor, building 1, yard 7, Ruihe West 2nd Road, economic and Technological Development Zone, Daxing District, Beijing Applicant after: Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Address before: 2 / F, baidu building, 10 Shangdi 10th Street, Haidian District, Beijing 100085 Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |