CN106375905A - 一种多路音频的合成和调节的方法 - Google Patents

一种多路音频的合成和调节的方法 Download PDF

Info

Publication number
CN106375905A
CN106375905A CN201611079322.5A CN201611079322A CN106375905A CN 106375905 A CN106375905 A CN 106375905A CN 201611079322 A CN201611079322 A CN 201611079322A CN 106375905 A CN106375905 A CN 106375905A
Authority
CN
China
Prior art keywords
value
audio
max
sampled point
decay factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611079322.5A
Other languages
English (en)
Other versions
CN106375905B (zh
Inventor
张世洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuwo Technology Co Ltd
Original Assignee
Beijing Kuwo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuwo Technology Co Ltd filed Critical Beijing Kuwo Technology Co Ltd
Priority to CN201611079322.5A priority Critical patent/CN106375905B/zh
Publication of CN106375905A publication Critical patent/CN106375905A/zh
Application granted granted Critical
Publication of CN106375905B publication Critical patent/CN106375905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种多路音频的合成和调节的方法,包括如下步骤:采样多路音频数据作为原始音频,每路音频数据中包含若干采样点;设定音量调节的对数方程;将每路音频数据中的采样点逐个的分别代入对数方程,最后得到多路调节音量后的音频数据;设置衰减因子f的初始值,设置音频精度最大值max和最小值min;对多路调节音量后的音频数据,从第一个采样点开始进行加法叠加得到采样点叠加输出out;计算出out*f的值,并相应调整衰减因子f的值以及out的值;按前述方式依次对第一个采样点之后的各个采样点进行处理,最终完成对所有采样点的混音。本发明,可实现多路音频平滑合成,可实现音量平滑调节,对音效调节速度快,得到平滑和谐的声音。

Description

一种多路音频的合成和调节的方法
技术领域
本发明涉及音频合成及音量调节技术领域,具体说是一种多路音频的合成和调节的方法。
背景技术
计算机中的音频数据是数字音频数据,其是对自然界连续的模拟声音信号进行采样得到的数字信号。所以数字音频数据是有精度范围的,音频的一个采样用几个bit来表示,叫采样精度,又叫位深(bit-depth)。常用的位深是16bit,也就是16bit表达一个采样,这样,最高信噪比可以表示为20log(2^16)=96db,而用24bit位深的话,最高信噪比可以到达20log(2^24)=144db。专业的数字音频处理软件内部其实都是用float型来表示一个采样,也就是32bit,那么最高信噪比可以达到193db,这个信噪比已经非常高了。在数字音频处理过程中,如果出现了精度范围溢出(简称精度溢出),就会听到不和谐的声音。
现有音频处理技术中,通常使用各种数学方法阻止数字音频数据的精度溢出,来得到平滑和谐的声音。但是,还存在以下缺点:
音量调节过程中,声音响度突变比较大,听起来不和谐;
多路音频混合过程中,音频叠加时容易出现精度溢出,声音被破坏。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种多路音频的合成和调节的方法,可实现多路音频平滑合成,可实现音量平滑调节,对音效调节速度快,得到平滑和谐的声音。
为达到以上目的,本发明采取的技术方案是:
一种多路音频的合成和调节的方法,其特征在于,包括如下步骤:
步骤1,采样多路音频数据作为原始音频,每路音频数据中包含若干采样点;
步骤2,设定音量调节的对数方程如下;
y=x*lg(k+p)
式中,各参数含义如下:
k是常量,
p是交互界面用户可调节的数字范围,
x是原始音频中的一个音频采样点,
y是音量调节后的一个音频采样点,
步骤3,将每路音频数据中的采样点逐个的分别代入对数方程,最后得到多路调节音量后的音频数据;
步骤4,设置衰减因子f的初始值为1.0,
按音频采样深度的位数设置音频精度最大值max和最小值min;
步骤5,对步骤3得到的多路调节音量后的音频数据,从第一个采样点开始进行加法叠加得到采样点叠加输出out;
步骤6,将步骤5得到的采样点叠加输出out乘以衰减因子f,计算出out*f的值,并相应调整衰减因子f的值以及out的值;
步骤7,按步骤5、6所述,依次对第一个采样点之后的各个采样点进行处理,不断调节衰减因子f的值以及out的值,最终完成对所有采样点的混音。
在上述技术方案的基础上,步骤6中,如果out*f的值大于max或者小于min,就按以下原则调整衰减因子f的值以及out的值:
当out*f的值大于max时,f的值等于max/out的值,out的值等于max;
当out*f的值小于min时,f的值等于min/out的值,out的值等于min;
当f的值小于1.0时,平滑增大衰减因子f,即:f的值等于f+(1.0-f)/32.0。
在上述技术方案的基础上,步骤1中,所述音频数据包括但不限于:多人合唱或一人独唱录制的人声和背景音乐进行混合。
在上述技术方案的基础上,k具体取值取决于音量调节的倍数和p的大小,
p取值0.0到100.0。
本发明所述的多路音频的合成和调节的方法,可实现多路音频平滑合成,可实现音量平滑调节,对音效调节速度快,得到平滑和谐的声音。
附图说明
本发明有如下附图:
图1音量线性调节示意图。
图2音量对数调节示意图。
图3本发明流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
首先,简单分析一下数字音量调节和多路音频合成。
数字音量调节就是把采样音频数值变大或缩小,改变声音响度。如果是简单的线性变化(参见图1),很容易造成音量突变,听起来很不和谐。本发明采用对数方程变化(参见图2),目的在于得到比较和谐的声音效果。
多路音频合成就是把采样得到的多路音频进行叠加,得到一路音频。如果是简单的加法叠加,很容易造成精度溢出,破坏采样数据。和原始音频采样数据点(如16位)相比,本发明会使用更多的位数(如32位)来表示一个采样数据点,混音完成后再降低其振幅,使混音后的数据仍旧分布在原始音频所能表示的精度范围(如16位)之内。
另外,为避免发生精度溢出,本发明使用一个可变的衰减因子对采样音频进行衰减。这个衰减因子代表采样音频的权重,衰减因子随着音频数据的变化而变化。当多路音频合成发生精度溢出时,采用较小的衰减因子,使得溢出的数据在衰减后能够处于临界值以内。当多路音频合成没有发生精度溢出时,让衰减因子慢慢增大,使混音后的数据较为平缓的变化。
本发明所述的多路音频的合成和调节的方法,如图3所示,包括如下步骤:
步骤1,采样多路音频数据作为原始音频,每路音频数据中包含若干采样点;每路音频数据中采样点的数量相同或不同;
步骤2,设定音量调节的对数方程如下;
y=x*lg(k+p)
式中,各参数含义如下:
k是常量,具体取值取决于音量调节的倍数和p的大小,
p是交互界面用户可调节的数字范围,取值0.0到100.0,
x是原始音频中的一个音频采样点,
y是音量调节后的一个音频采样点,
例如:
音量调节最小是0,最大是原来的2倍,交互界面用户可调节的数字范围是0.0到100.0,那么常量k应该取1.0,因为p取0.0时,lg(1.0+0.0)=0.0,p取99.0时,lg(1.0+99.0)=2.0;
步骤3,将每路音频数据中的采样点逐个的分别代入对数方程,最后得到多路调节音量后的音频数据;
步骤4,设置衰减因子f的初始值为1.0,
按音频采样深度的位数设置音频精度最大值max和最小值min;
例如:当音频采样深度16位时,
max=32767,
min=-32768,
即:计算机所能存储的16位有符号最大值和最小值;
步骤5,对步骤3得到的多路调节音量后的音频数据,从第一个采样点开始进行加法叠加得到采样点叠加输出out;
步骤6,将步骤5得到的采样点叠加输出out乘以衰减因子f,计算出out*f的值,并相应调整衰减因子f的值以及out的值;
如果out*f的值大于max或者小于min,就按以下原则调整衰减因子f的值以及out的值:
当out*f的值大于max时,f的值等于max/out的值,out的值等于max;
当out*f的值小于min时,f的值等于min/out的值,out的值等于min;
当f的值小于1.0时,平滑增大衰减因子f,即:f的值等于f+(1.0-f)/32.0;
此时就完成了多路调节音量后的多路音频数据中第一个采样点的混音;
步骤7,按步骤5、6所述,依次对第一个采样点之后的各个采样点进行处理,不断调节衰减因子f的值以及out的值,最终完成对所有采样点的混音。
在上述技术方案的基础上,步骤1中,所述音频数据包括但不限于:多人合唱或一人独唱录制的人声和背景音乐进行混合。
以下为具体实施例。
设有男女合唱和背景音乐三路音频进行混音。
步骤1,采样三路音频数据作为原始音频,每路音频数据中包含采样点如下;
第一路:10个采样点,数据是:男声;
第二路:10个采样点,数据是:女声;
第三路:10个采样点,数据是:背景音乐;
采样涉及到的相关参数为:
采样精度统一为:16位采样精度,取值范围是-32768到32767
采样频率统一为:44100赫兹
采样声道统一为:双声道
步骤2,设定音量调节的对数方程如下;
y=x*lg(k+p)
设对第一路音量调节如下:声音最多扩大2倍
则k值为1.0,p值为0.0到100.0
x值为原始声音的一个采样点,y值为音量调节后的一个采样点。
对第二路和第三路的音量调节同第一路。
步骤3,对音量调节后的三路音频数据中的第一个采样点(共三个采样点)进行混音;
初始设定衰减因子f=1.0,32位浮点数。
三路采样点数据分别是a,b,c.
混音后的一个采样点out=(a+b+c)*f;
如果out大于32767,f=32767/out,out=32767;
如果out小于-32768,f=-32768/out,out=-32768;
如果f小于1.0,f=f+(1.0-f)/32.0;
保存f当前值不变,完成第一个采样点的混音。
步骤4,按步骤2、3所述,依次对三路音频的各个采样点进行对数方程运算并不断调节衰减因子f的值,最终完成对所有采样点的音量调节和混音。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (4)

1.一种多路音频的合成和调节的方法,其特征在于,包括如下步骤:
步骤1,采样多路音频数据作为原始音频,每路音频数据中包含若干采样点;
步骤2,设定音量调节的对数方程如下;
y=x*lg(k+p)
式中,各参数含义如下:
k是常量,
p是交互界面用户可调节的数字范围,
x是原始音频中的一个音频采样点,
y是音量调节后的一个音频采样点,
步骤3,将每路音频数据中的采样点逐个的分别代入对数方程,最后得到多路调节音量后的音频数据;
步骤4,设置衰减因子f的初始值为1.0,
按音频采样深度的位数设置音频精度最大值max和最小值min;
步骤5,对步骤3得到的多路调节音量后的音频数据,从第一个采样点开始进行加法叠加得到采样点叠加输出out;
步骤6,将步骤5得到的采样点叠加输出out乘以衰减因子f,计算出out*f的值,并相应调整衰减因子f的值以及out的值;
步骤7,按步骤5、6所述,依次对第一个采样点之后的各个采样点进行处理,不断调节衰减因子f的值以及out的值,最终完成对所有采样点的混音。
2.如权利要求1所述的多路音频的合成和调节的方法,其特征在于:步骤6中,如果out*f的值大于max或者小于min,就按以下原则调整衰减因子f的值以及out的值:
当out*f的值大于max时,f的值等于max/out的值,out的值等于max;
当out*f的值小于min时,f的值等于min/out的值,out的值等于min;
当f的值小于1.0时,平滑增大衰减因子f,即:f的值等于f+(1.0-f)/32.0。
3.如权利要求1所述的多路音频的合成和调节的方法,其特征在于:步骤1中,所述音频数据包括但不限于:多人合唱或一人独唱录制的人声和背景音乐进行混合。
4.如权利要求1所述的多路音频的合成和调节的方法,其特征在于:k具体取值取决于音量调节的倍数和p的大小,
p取值0.0到100.0。
CN201611079322.5A 2016-11-30 2016-11-30 一种多路音频的合成和调节的方法 Active CN106375905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611079322.5A CN106375905B (zh) 2016-11-30 2016-11-30 一种多路音频的合成和调节的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611079322.5A CN106375905B (zh) 2016-11-30 2016-11-30 一种多路音频的合成和调节的方法

Publications (2)

Publication Number Publication Date
CN106375905A true CN106375905A (zh) 2017-02-01
CN106375905B CN106375905B (zh) 2019-01-25

Family

ID=57891272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611079322.5A Active CN106375905B (zh) 2016-11-30 2016-11-30 一种多路音频的合成和调节的方法

Country Status (1)

Country Link
CN (1) CN106375905B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107820162A (zh) * 2017-10-31 2018-03-20 北京酷我科技有限公司 一种模拟全景音效的方法
CN108010503A (zh) * 2017-12-27 2018-05-08 北京酷我科技有限公司 一种k歌录音的方法
CN111739496A (zh) * 2020-06-24 2020-10-02 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN111833892A (zh) * 2019-04-22 2020-10-27 浙江宇视科技有限公司 音视频数据处理方法及装置
CN112581924A (zh) * 2019-09-30 2021-03-30 广州艾美网络科技有限公司 基于点唱设备的音频处理方法、装置、存储介质及设备
CN113257257A (zh) * 2021-07-14 2021-08-13 统信软件技术有限公司 多路语音信号的混音处理方法、装置、设备及存储介质
CN113539279A (zh) * 2020-04-16 2021-10-22 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质
CN114827656A (zh) * 2022-04-22 2022-07-29 深圳市皓丽软件有限公司 麦克风数据中混合多路音频的处理方法及装置
CN117476026A (zh) * 2023-12-26 2024-01-30 芯瞳半导体技术(山东)有限公司 一种多路音频数据混音的方法、系统、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030031332A1 (en) * 2001-08-10 2003-02-13 Pioneer Corporation Audio reproducing system
CN102610235A (zh) * 2011-12-22 2012-07-25 深圳市万兴软件有限公司 混音处理方法、装置及智能设备
CN103701465A (zh) * 2013-12-02 2014-04-02 苏州上声电子有限公司 一种基于多比特△—σ调制的数字扬声器系统实现方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030031332A1 (en) * 2001-08-10 2003-02-13 Pioneer Corporation Audio reproducing system
CN102610235A (zh) * 2011-12-22 2012-07-25 深圳市万兴软件有限公司 混音处理方法、装置及智能设备
CN103701465A (zh) * 2013-12-02 2014-04-02 苏州上声电子有限公司 一种基于多比特△—σ调制的数字扬声器系统实现方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107820162A (zh) * 2017-10-31 2018-03-20 北京酷我科技有限公司 一种模拟全景音效的方法
CN108010503A (zh) * 2017-12-27 2018-05-08 北京酷我科技有限公司 一种k歌录音的方法
CN111833892A (zh) * 2019-04-22 2020-10-27 浙江宇视科技有限公司 音视频数据处理方法及装置
CN112581924A (zh) * 2019-09-30 2021-03-30 广州艾美网络科技有限公司 基于点唱设备的音频处理方法、装置、存储介质及设备
CN113539279A (zh) * 2020-04-16 2021-10-22 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质
CN111739496A (zh) * 2020-06-24 2020-10-02 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN111739496B (zh) * 2020-06-24 2023-06-23 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN113257257A (zh) * 2021-07-14 2021-08-13 统信软件技术有限公司 多路语音信号的混音处理方法、装置、设备及存储介质
CN114827656A (zh) * 2022-04-22 2022-07-29 深圳市皓丽软件有限公司 麦克风数据中混合多路音频的处理方法及装置
CN117476026A (zh) * 2023-12-26 2024-01-30 芯瞳半导体技术(山东)有限公司 一种多路音频数据混音的方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN106375905B (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN106375905A (zh) 一种多路音频的合成和调节的方法
CN101138274B (zh) 用于处理去相干信号或组合信号的设备和方法
Viswanathan et al. Quantization properties of transmission parameters in linear predictive systems
CN101952889B (zh) 用于在带宽扩展系统中估计高频带能量的方法和设备
CN102792374B (zh) 多通道音频中语音相关通道的缩放回避的方法和系统
AU729074B2 (en) Loudness-controlled processing of acoustic signals
CN1954642A (zh) 多信道合成器及产生多信道输出信号方法
CN101149925B (zh) 一种用于参数立体声编码的空间参数选取方法
CN101878416A (zh) 音频信号的带宽扩展的方法和设备
EP3113183B1 (en) Speech intelligibility improving apparatus and computer program therefor
US10753965B2 (en) Spectral-dynamics of an audio signal
CN103377656A (zh) 一种音频文件的五音分析方法、播放器及电子设备
CN112967705A (zh) 一种混音歌曲生成方法、装置、设备及存储介质
CN109887521B (zh) 用于音频的动态母带处理方法及装置
US11069369B2 (en) Method and electronic device
Jørgensen et al. Effects of manipulating the signal-to-noise envelope power ratio on speech intelligibility
Pestana et al. A Cross-Adaptive Dynamic Spectral Panning Technique.
US11594241B2 (en) Method and electronic device for formant attenuation/amplification
CN112086085B (zh) 音频信号的和声处理方法、装置、电子设备和存储介质
CN111713016B (zh) 响度控制方法和装置
Umesh et al. Frequency-warping and speaker-normalization
CN108182947B (zh) 一种声道混合处理方法及装置
Marxer et al. Modelling and separation of singing voice breathiness in polyphonic mixtures
US11380345B2 (en) Real-time voice timbre style transform
Disch et al. Multiband perceptual modulation analysis, processing and synthesis of audio signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant