CN105719653A - 一种混音处理方法和装置 - Google Patents
一种混音处理方法和装置 Download PDFInfo
- Publication number
- CN105719653A CN105719653A CN201610058634.1A CN201610058634A CN105719653A CN 105719653 A CN105719653 A CN 105719653A CN 201610058634 A CN201610058634 A CN 201610058634A CN 105719653 A CN105719653 A CN 105719653A
- Authority
- CN
- China
- Prior art keywords
- audio
- intensity
- signal
- input signal
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000008602 contraction Effects 0.000 claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims description 127
- 238000001514 detection method Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 13
- 238000010030 laminating Methods 0.000 claims description 6
- 238000004904 shortening Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/32—Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/02—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
- H04H60/04—Studio equipment; Interconnection of studios
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Amplifiers (AREA)
Abstract
本发明实施例公开了一种混音处理方法,所述方法包括:获取至少两路音频输入信号;对所述至少两路音频输入信号进行线性叠加;将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。本发明实施例还公开了一种混音处理装置。采用本发明,可以有效避免溢出失真以及声音忽大忽小的问题。
Description
技术领域
本发明涉及一种互联网技术领域,尤其涉及一种混音处理方法和装置。
背景技术
目前,随着多媒体通信发展,多媒体会议已经成为发展热点之一,其中一弄的交互处理处于最基本最核心的位置,对音频是实时性要求更为苛刻,由此,对于实际使用中的不同地点的多个终端,若要进行多个点的实时音频的交互,需要将多路音频信号进行混合输出,即混音处理。
现有的常用混音算法主要有以下几种。
1)直接叠加
直接叠加就是将多路数据线性求和,这是一种最简单最直接的方法。该方法的缺点就是溢出导致的声音截顶失真,通常语音PCM(PulseCodeModulation----脉码调制录音)数据表示范围在-32768和32767之间,因此多路数据相加后的结果会超出这个有效范围,这样就带了声音的失真。
2)线性叠加求平均
为了避免线性叠加后失真,对线性求和后的结果求平均,也就是如果有N路混音,求和的结果除以N,相当于每路数据乘以一个权重系数1/N。这种处理有效的避免了失真问题,带来的新问题是,如果语音过程中混音的人数发生变化,那么N就变化,这样导致多人语音过程中每个人的声音大小不一致;同时如果N值比较大的话,对于采集声音比较小的某路数据乘以权重系数后,声音会变的更小。
发明内容
有鉴于此,本发明实施例提供一种混音处理方法和装置,可以有效避免溢出失真以及声音忽大忽小的问题。
为了解决上述技术问题,本发明实施例提供了一种混音处理方法,所述方法包括:
获取至少两路音频输入信号;
对所述至少两路音频输入信号进行线性叠加;
将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;
将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
相应地,本发明实施例还提供了一种混音处理装置,其特征在于,包括:
音频输入模块,用于获取至少两路音频输入信号;
混音叠加模块,用于对所述至少两路音频输入信号进行线性叠加;
强度区间划分模块,用于将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
音频收缩模块,用于分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;
混音输出模块,用于将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
本发明实施例通过通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种混音处理方法的流程示意图;
图2是本发明另一实施例中的混音处理方法的流程示意图;
图3是本发明实施例中的一种混音处理装置的结构示意图;
图4是本发明另一实施例中的混音处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例中的一种混音处理方法的流程示意图,如图所示本实施例中的混音处理流程可以包括:
S101,获取至少两路音频输入信号。
例如在一个多媒体会议中,共有M位与会者参加发言,则共有M位音频输入信号参与混音,这时需要向每位与会者发送其他M-1路音频输入信号进行混音后的输出信号,同时还可以向外部输出全部M路音频输入信号进行混音后的输出信号。需要指出的是,本发明实施例中提及的音频输入信号可以是已经经过采样、量化、滤波等处理后的数字信号,也可以是模拟波形信号。
S102,对所述至少两路音频输入信号进行线性叠加。
S103,将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间。
即将线性叠加后的混音信号划分成多个强度区间信号,以便后续针对不同强度区间的混音信号采用不同的收缩比例进行处理。例如按照设定的分界阈值,将不大于该分界阈值的强度区间内的混音信号划分为第一级强度区间信号,将大于该分界阈值的强度区间内的混音信号划分为第二级强度区间信号,以此类推可以将线性叠加后的混音信号划分得到3个或更多的强度区间信号。
在可选实施例中,可以根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。示例性的,在预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数,通常取2的倍数,例如8或16。
那么可以将所述混音信号处于不同音频强度分布区间的信号划分为对应的混音强度区间,例如线性叠加后的混音信号的强度分布在上述划分得到的第1-3个音频强度分布区间,那么可以将落入第1音频强度分布区间的称为第一混音信号强度区间,落入第2音频强度分布区间的称为第二混音信号强度区间,落入第3音频强度分布区间的称为第三混音信号强度区间,其他实施例中以此类推。
S104,分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例。
由于语音信号中的中低强度的信号出现的几率比高强度的信号更高,本发明实施例采用对高强度信号和中低强度信号采用不同的收缩处理方案,即对经过混音后线性叠加的音频信号进行分区间压缩,较低强度的信号采用较大的收缩比例,确保较低强度信号的可识别性同时有一定的收缩,高强度的信号采用较小收缩比例,以确保不会出现音频信号溢出,同时也保留一定的可识别性。所述收缩比例为收缩后的信号强度与原信号强度之间的比值,例如原信号强度为100,收缩后为50,那么收缩比例为50%。
示例性的,以上述划分第n个音频强度分布区间为:((n-1)×2Q-1,n×2Q-1]将线性叠加后的混音信号划分成多个强度区间信号为例,处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子,通常取2的倍数,例如8或16。在一较佳实施例中,k取8,Q取值16。
S105,将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
本实施例通过采用上述混音处理方法,通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题。
图2是本发明另一实施例中的混音处理方法的流程示意图,如图所示,本实施例中的混音处理方法可以包括:
S201,获取至少两路音频输入信号。
S202,检测所述至少两路音频输入信号的音频强度,确定所述至少两路音频信号中存在至少一路过小音频输入信号。
具体的,可以通过对所述至少两路音频输入信号的音频强度进行采样,根据采样结果确定各路音频输入信号的音频强度,例如进行预设时间的音频强度采样,将最高值或均值,或有效声音信号的最高值或均值视为该路音频输入信号的音频强度。若某一路音频输入信号的音频强度小于预设的过小信号门限值,则可以确定该路音频输入信号是过小音频输入信号;或者若出现所述至少两路音频输入信号中的某一路音频输入信号的音频强度与另一路音频输入信号的音频强度的比值小于预设阈值,则可以将音频强度较小的这一路音频输入信号确定为过小音频输入信号。所述预设时间可以例如10秒或5秒,在该采样期间,可以先将各路音频输入信号直接线性叠加。需要指出的是,该过小音频输入信号的检测可以发生在新获取到一路音频输入信号时,也可以是周期性的进行检测,例如每隔1分钟或30秒进行一次检测,以确保某一路音频输入信号由于故障或信道问题导致音量较低时,能够及时作出针对性的增益。
具体实现中,可以首先确定所述至少两路音频输入信号中音频强度最高的一路音频输入信号;然后判断是否存在某一路音频输入信号的音频强度与所述音频强度最高的一路音频输入信号的音频强度的比值小于预设阈值,则确定该路音频输入信号为过小音频输入信号。
在另一可选实现方式中,可以通过对所述至少两路音频输入信号进行预设时长的音频强度采样,若存在满足以下情况的第一音频输入信号和第二音频输入信号,则可以确认第一音频输入信号为过小音频输入信号:在同一采样周期内,所述第一音频输入信号的最高采样值与所述第二音频输入信号的有效音频信号的最低采样值的比值不大于预设阈值。示例性的,若某路音频输入信号的所有采样值均分布在区间(0,p*2Q-1],其中p<0.03,同时存在某一路音频输入信号的有效音频信号的所有采样值均分布在区间(2Q-1,∞],则可以确定该较小采样值的音频输入信号为过小音频输入信号。
S203,对所述至少一路过小输入音频信号进行音频强度增益。
具体的,由于过小音频输入信号较大概率由于时域掩蔽效应存在听不清的情况,因此本实施例中首先对检测到的过小输入音频信号进行音频强度增益,再将其与其他路的音频信号进行线性叠加。增益系数可以根据需要设定,例如根据过小音频输入信号的音频强度与其他正常音频强度的音频输入信号的音频强度之间的比例确定,还可以根据过小音频输入信号的采样值自身确定,示例性的,增益系数可以为:
2Q-1/MSQ(s),其中MSQ(s)为预设时长内所述过小输入音频信号的音频强度采样值的均方根。
S204,将所述至少一路过小输入音频信号经过音频强度增益后与其他路音频信号进行线性叠加。
S205,将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间。
本实施例中,可以根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。具体的,在预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数,通常取2的倍数,例如8或16。进而可以将所述混音信号处于不同音频强度分布区间的信号划分为对应的混音强度区间。
S206,分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例。
由于语音信号中的中低强度的信号出现的几率比高强度的信号更高,本发明实施例采用对高强度信号和中低强度信号采用不同的收缩处理方案,即对经过混音后线性叠加的音频信号进行分区间压缩,较低强度的信号采用较大的收缩比例,较高强度的信号采用较小收缩比例。具体的,处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子,通常取2的倍数,例如8或16。在一较佳实施例中,k取8,Q取值16。
S207,将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
本实施例通过采用上述混音处理方法,通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题,同时结合过小音量信号的检测和增益处理,有效解决了小音量语音被掩蔽听不清的问题。
图3是本发明实施例中的一种混音处理装置的结构示意图,如图所示本实施例中的混音处理装置可以包括:
音频输入模块310,用于获取至少两路音频输入信号。
例如在一个多媒体会议中,共有M位与会者参加发言,则共有M位音频输入信号参与混音,这时需要向每位与会者发送其他M-1路音频输入信号进行混音后的输出信号,同时还可以向外部输出全部M路音频输入信号进行混音后的输出信号。需要指出的是,本发明实施例中音频输入模块310获取到的音频输入信号可以是已经经过采样、量化、滤波等处理后的数字信号,也可以是模拟波形信号。
混音叠加模块320,用于对所述至少两路音频输入信号进行线性叠加;
强度区间划分模块330,用于将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间。
即将线性叠加后的混音信号划分成多个强度区间信号,以便后续针对不同强度区间的混音信号采用不同的收缩比例进行处理。例如按照设定的分界阈值,将不大于该分界阈值的强度区间内的混音信号划分为第一级强度区间信号,将大于该分界阈值的强度区间内的混音信号划分为第二级强度区间信号,以此类推可以将线性叠加后的混音信号划分得到3个或更多的强度区间信号。
在可选实施例中,强度区间划分模块330可以根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。示例性的,在预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数,通常取2的倍数,例如8或16。
从而强度区间划分模块330可以将所述混音信号处于不同音频强度分布区间的信号划分为对应的混音强度区间,例如线性叠加后的混音信号的强度分布在上述划分得到的第1-3个音频强度分布区间,那么可以将落入第1音频强度分布区间的称为第一混音信号强度区间,落入第2音频强度分布区间的称为第二混音信号强度区间,落入第3音频强度分布区间的称为第三混音信号强度区间,其他实施例中以此类推。
音频收缩模块340,用于分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例。
由于语音信号中的中低强度的信号出现的几率比高强度的信号更高,音频收缩模块340采用对高强度信号和中低强度信号采用不同的收缩处理方案,即对经过混音后线性叠加的音频信号进行分区间压缩,较低强度的信号采用较大的收缩比例,确保较低强度信号的可识别性同时有一定的收缩,高强度的信号采用较小收缩比例,以确保不会出现音频信号溢出,同时也保留一定的可识别性。所述收缩比例为收缩后的信号强度与原信号强度之间的比值,例如原信号强度为100,收缩后为50,那么收缩比例为50%。
示例性的,以上述划分第n个音频强度分布区间为:((n-1)×2Q-1,n×2Q-1]将线性叠加后的混音信号划分成多个强度区间信号为例,处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子,通常取2的倍数,例如8或16。在一较佳实施例中,k取8,Q取值16。
混音输出模块350,用于将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
在可选实施例中,混音处理装置进一步还可以包括:
过小音频检测模块360,用于检测所述至少两路音频输入信号的音频强度,确定所述至少两路音频信号中存在至少一路过小音频输入信号。
具体的,过小音频检测模块360可以通过对所述至少两路音频输入信号的音频强度进行采样,根据采样结果确定各路音频输入信号的音频强度,例如进行预设时间的音频强度采样,将最高值或均值,或有效声音信号的最高值或均值视为该路音频输入信号的音频强度。若某一路音频输入信号的音频强度小于预设的过小信号门限值,则可以确定该路音频输入信号是过小音频输入信号;或者若出现所述至少两路音频输入信号中的某一路音频输入信号的音频强度与另一路音频输入信号的音频强度的比值小于预设阈值,则可以将音频强度较小的这一路音频输入信号确定为过小音频输入信号。所述预设时间可以例如10秒或5秒,在该采样期间,可以先将各路音频输入信号直接线性叠加。需要指出的是,该过小音频输入信号的检测可以发生在新获取到一路音频输入信号时,也可以是周期性的进行检测,例如每隔1分钟或30秒进行一次检测,以确保某一路音频输入信号由于故障或信道问题导致音量较低时,能够及时作出针对性的增益。
具体实现中,过小音频检测模块360可以首先确定所述至少两路音频输入信号中音频强度最高的一路音频输入信号;然后判断是否存在某一路音频输入信号的音频强度与所述音频强度最高的一路音频输入信号的音频强度的比值小于预设阈值,则确定该路音频输入信号为过小音频输入信号。
在另一可选实现方式中,过小音频检测模块360可以通过对所述至少两路音频输入信号进行预设时长的音频强度采样,若存在满足以下情况的第一音频输入信号和第二音频输入信号,则可以确认第一音频输入信号为过小音频输入信号:在同一采样周期内,所述第一音频输入信号的最高采样值与所述第二音频输入信号的有效音频信号的最低采样值的比值不大于预设阈值。示例性的,若某路音频输入信号的所有采样值均分布在区间(0,p*2Q-1],其中p<0.03,同时存在某一路音频输入信号的有效音频信号的所有采样值均分布在区间(2Q-1,∞],则可以确定该较小采样值的音频输入信号为过小音频输入信号。
音频增益模块370,用于对所述至少一路过小输入音频信号进行音频强度增益。
具体的,由于过小音频输入信号较大概率由于时域掩蔽效应存在听不清的情况,因此音频增益模块370首先对检测到的过小输入音频信号进行音频强度增益,再由混音叠加模块320将其与其他路的音频信号进行线性叠加。增益系数可以根据需要设定,例如根据过小音频输入信号的音频强度与其他正常音频强度的音频输入信号的音频强度之间的比例确定,还可以根据过小音频输入信号的采样值自身确定,示例性的,增益系数可以为:
2Q-1/MSQ(s),其中MSQ(s)为预设时长内所述过小输入音频信号的音频强度采样值的均方根。
本实施例中的混音处理装置,通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题,进而通过结合过小音量信号的检测和增益处理,还可以有效解决小音量语音被掩蔽听不清的问题。
图4展示了一种运行上述混音处理方法的基于冯诺依曼体系的计算机系统。该计算机系统可以是智能手机、平板电脑、掌上电脑,笔记本电脑或个人电脑等终端设备。具体的,可包括通过系统总线连接的输入输出接口410、处理器420、存储器430。其中,输入输出接口410可包括用于获取多路音频输入信号的输入接口411,用于输出混音处理结果的输出接口412,可选的还可以包括网络接口413。存储器430可包括外存储器431(例如硬盘、光盘或软盘等)和内存储器432。
在本实施例中,本方法的运行可以基于计算机程序,该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机系统的外存储器431中,在运行时被加载到内存储器432中,然后被编译为机器码之后传递至处理器420中执行,从而使得基于冯诺依曼体系的计算机系统中形成逻辑上的音频输入模块310、混音叠加模块320、强度区间划分模块330、音频收缩模块340、混音输出模块350、过小音频检测模块360以及音频增益模块370。且在上述实施例中混音处理方法的执行过程中,输入的参数均通过输入接口411接收,并传递至内存储器432中缓存,然后输入到处理器420中进行处理,处理的结果数据或缓存于内存储器432中进行后续地处理,或被传递至输出接口412或网络接口413进行输出。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (16)
1.一种混音处理方法,其特征在于,所述方法包括:
获取至少两路音频输入信号;
对所述至少两路音频输入信号进行线性叠加;
将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;
将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
2.如权利要求1所述的混音处理方法,其特征在于,所述将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间包括:
根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。
3.如权利要求2所述的混音处理方法,其特征在于,所述预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数。
4.如权利要求3所述的混音处理方法,其特征在于,所述分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩包括:
处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子。
5.如权利要求1所述的混音处理方法,其特征在于,所述方法包括:
检测所述至少两路音频输入信号的音频强度,确定所述至少两路音频信号中存在至少一路过小音频输入信号;
对所述至少一路过小输入音频信号进行音频强度增益;
所述对所述至少两路音频输入信号进行线性叠加包括:
将所述至少一路过小输入音频信号经过音频强度增益后与其他路音频信号进行线性叠加。
6.如权利要求5所述的混音处理方法,其特征在于,所述检测所述至少两路音频输入信号的音频强度,确定所述至少两路音频信号中存在至少一路过小音频输入信号包括:
确定所述至少两路音频输入信号中音频强度最高的一路音频输入信号;
若所述至少两路音频输入信号中的某一路音频输入信号的音频强度与所述音频强度最高的一路音频输入信号的音频强度的比值小于预设阈值,则确定该路音频输入信号为过小音频输入信号。
7.如权利要求5所述的混音处理方法,其特征在于,所述至少两路音频输入信号包括第一音频输入信号和第二音频输入信号;
所述检测所述至少两路音频输入信号的音频强度包括:
对所述至少两路音频输入信号进行预设时长的音频强度采样;
若所述第一音频输入信号的最高采样值与所述第二音频输入信号的有效音频信号的最低采样值的比值不大于预设阈值,则确定所述第一音频输入信号为过小音频输入信号。
8.如权利要求5-7中任一项所述的混音处理方法,其特征在于,所述对所述至少一路过小输入音频信号进行音频强度增益包括:
按照增益系数2Q-1/MSQ(s)对所述至少一路过小输入音频信号进行音频强度增益,其中MSQ(s)为预设时长内所述过小输入音频信号的音频强度采样值的均方根。
9.一种混音处理装置,其特征在于,包括:
音频输入模块,用于获取至少两路音频输入信号;
混音叠加模块,用于对所述至少两路音频输入信号进行线性叠加;
强度区间划分模块,用于将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
音频收缩模块,用于分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;
混音输出模块,用于将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
10.如权利要求9所述的混音处理装置,其特征在于,所述混音信号强度区间划分模块用于:
根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。
11.如权利要求10所述的混音处理装置,其特征在于,所述预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数。
12.如权利要求11所述的混音处理装置,其特征在于,所述音频收缩模块分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩包括:
处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子。
13.如权利要求9所述的混音处理装置,其特征在于,还包括:
过小音频检测模块,用于检测所述至少两路音频输入信号的音频强度,确定所述至少两路音频信号中存在至少一路过小音频输入信号;
音频增益模块,用于对所述至少一路过小输入音频信号进行音频强度增益;
所述混音叠加模块用于:
将经过音频强度增益后的至少一路过小输入音频信号与其他路音频信号进行线性叠加。
14.如权利要求13所述的混音处理装置,其特征在于,所述过小音频检测模块用于:
确定所述至少两路音频输入信号中音频强度最高的一路音频输入信号,若所述至少两路音频输入信号中的某一路音频输入信号的音频强度与所述音频强度最高的一路音频输入信号的音频强度的比值小于预设阈值,则确定该路音频输入信号为过小音频输入信号。
15.如权利要求13所述的混音处理装置,其特征在于,所述至少两路音频输入信号包括第一音频输入信号和第二音频输入信号;
所述过小音频检测模块用于:
对所述至少两路音频输入信号进行预设时长的音频强度采样,若所述第一音频输入信号的最高采样值与所述第二音频输入信号的有效音频信号的最低采样值的比值不大于预设阈值,则确定所述第一音频输入信号为过小音频输入信号。
16.如权利要求13-15中任一项所述的混音处理装置,其特征在于,所述音频增益模块用于:
按照增益系数2Q-1/MSQ(s)对所述至少一路过小输入音频信号进行音频强度增益,其中MSQ(s)为预设时长内所述过小输入音频信号的音频强度采样值的均方根。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610058634.1A CN105719653B (zh) | 2016-01-28 | 2016-01-28 | 一种混音处理方法和装置 |
MYPI2018000943A MY191272A (en) | 2016-01-28 | 2017-01-18 | Method and apparatus for audio mixing |
PCT/CN2017/071479 WO2017129005A1 (zh) | 2016-01-28 | 2017-01-18 | 混音处理方法和装置 |
US16/027,745 US10348264B2 (en) | 2016-01-28 | 2018-07-05 | Method and apparatus for audio mixing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610058634.1A CN105719653B (zh) | 2016-01-28 | 2016-01-28 | 一种混音处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105719653A true CN105719653A (zh) | 2016-06-29 |
CN105719653B CN105719653B (zh) | 2020-04-24 |
Family
ID=56154269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610058634.1A Active CN105719653B (zh) | 2016-01-28 | 2016-01-28 | 一种混音处理方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10348264B2 (zh) |
CN (1) | CN105719653B (zh) |
MY (1) | MY191272A (zh) |
WO (1) | WO2017129005A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106935244A (zh) * | 2017-03-24 | 2017-07-07 | 成都市极米科技有限公司 | 一种音频处理方法、装置及系统 |
WO2017129005A1 (zh) * | 2016-01-28 | 2017-08-03 | 腾讯科技(深圳)有限公司 | 混音处理方法和装置 |
CN107333093A (zh) * | 2017-05-24 | 2017-11-07 | 苏州科达科技股份有限公司 | 一种声音处理方法、装置、终端及计算机可读存储介质 |
CN107920310A (zh) * | 2017-11-14 | 2018-04-17 | 维沃移动通信有限公司 | 一种多麦克风录音的方法及移动终端 |
CN108198572A (zh) * | 2017-12-29 | 2018-06-22 | 珠海市君天电子科技有限公司 | 一种音频处理方法及装置 |
CN109410912A (zh) * | 2018-11-22 | 2019-03-01 | 深圳市腾讯信息技术有限公司 | 音频处理的方法、装置、电子设备及计算机可读存储介质 |
CN109901811A (zh) * | 2019-02-26 | 2019-06-18 | 北京华夏电通科技有限公司 | 应用于数字化庭审中的混音方法及装置 |
CN109961796A (zh) * | 2019-03-13 | 2019-07-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置和存储介质 |
CN110677208A (zh) * | 2019-09-11 | 2020-01-10 | 厦门亿联网络技术股份有限公司 | 一种用于会议系统的混音方法和系统 |
CN113257257A (zh) * | 2021-07-14 | 2021-08-13 | 统信软件技术有限公司 | 多路语音信号的混音处理方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11234072B2 (en) * | 2016-02-18 | 2022-01-25 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1805006A (zh) * | 2006-01-24 | 2006-07-19 | 北京邮电大学 | 一种用于多媒体会议的快速实时混音方法 |
US20130195276A1 (en) * | 2009-12-16 | 2013-08-01 | Pasi Ojala | Multi-Channel Audio Processing |
CN103259943A (zh) * | 2012-02-21 | 2013-08-21 | 深圳市东进软件开发有限公司 | 一种pstn电话会议混音方法 |
CN104822108A (zh) * | 2015-03-13 | 2015-08-05 | 广州市保伦电子有限公司 | 全数字会议音频混音装置及方法 |
CN105280191A (zh) * | 2015-10-09 | 2016-01-27 | 北京竞业达数码科技有限公司 | 网络混音方法及混音器 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101478619B (zh) * | 2009-01-05 | 2011-11-23 | 腾讯科技(深圳)有限公司 | 实现多路语音混音的方法、系统及节点设备 |
US9237238B2 (en) * | 2013-07-26 | 2016-01-12 | Polycom, Inc. | Speech-selective audio mixing for conference |
CN105282478A (zh) * | 2014-05-30 | 2016-01-27 | 三亚中兴软件有限责任公司 | 音量调节方法及装置、多点控制单元 |
CN104539816B (zh) * | 2014-12-25 | 2017-08-01 | 广州华多网络科技有限公司 | 一种多方语音通话的智能混音方法及装置 |
CN105719653B (zh) * | 2016-01-28 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 一种混音处理方法和装置 |
-
2016
- 2016-01-28 CN CN201610058634.1A patent/CN105719653B/zh active Active
-
2017
- 2017-01-18 MY MYPI2018000943A patent/MY191272A/en unknown
- 2017-01-18 WO PCT/CN2017/071479 patent/WO2017129005A1/zh active Application Filing
-
2018
- 2018-07-05 US US16/027,745 patent/US10348264B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1805006A (zh) * | 2006-01-24 | 2006-07-19 | 北京邮电大学 | 一种用于多媒体会议的快速实时混音方法 |
US20130195276A1 (en) * | 2009-12-16 | 2013-08-01 | Pasi Ojala | Multi-Channel Audio Processing |
CN103259943A (zh) * | 2012-02-21 | 2013-08-21 | 深圳市东进软件开发有限公司 | 一种pstn电话会议混音方法 |
CN104822108A (zh) * | 2015-03-13 | 2015-08-05 | 广州市保伦电子有限公司 | 全数字会议音频混音装置及方法 |
CN105280191A (zh) * | 2015-10-09 | 2016-01-27 | 北京竞业达数码科技有限公司 | 网络混音方法及混音器 |
Non-Patent Citations (1)
Title |
---|
王文林等: ""多媒体会议中新型快速实时混音算法"", 《电子与信息学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10348264B2 (en) | 2016-01-28 | 2019-07-09 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for audio mixing |
WO2017129005A1 (zh) * | 2016-01-28 | 2017-08-03 | 腾讯科技(深圳)有限公司 | 混音处理方法和装置 |
CN106935244A (zh) * | 2017-03-24 | 2017-07-07 | 成都市极米科技有限公司 | 一种音频处理方法、装置及系统 |
CN106935244B (zh) * | 2017-03-24 | 2020-05-19 | 成都极米科技股份有限公司 | 一种音频处理方法、装置及系统 |
CN107333093A (zh) * | 2017-05-24 | 2017-11-07 | 苏州科达科技股份有限公司 | 一种声音处理方法、装置、终端及计算机可读存储介质 |
CN107333093B (zh) * | 2017-05-24 | 2019-11-08 | 苏州科达科技股份有限公司 | 一种声音处理方法、装置、终端及计算机可读存储介质 |
CN107920310A (zh) * | 2017-11-14 | 2018-04-17 | 维沃移动通信有限公司 | 一种多麦克风录音的方法及移动终端 |
CN108198572A (zh) * | 2017-12-29 | 2018-06-22 | 珠海市君天电子科技有限公司 | 一种音频处理方法及装置 |
CN109410912A (zh) * | 2018-11-22 | 2019-03-01 | 深圳市腾讯信息技术有限公司 | 音频处理的方法、装置、电子设备及计算机可读存储介质 |
CN109410912B (zh) * | 2018-11-22 | 2021-12-10 | 深圳市腾讯信息技术有限公司 | 音频处理的方法、装置、电子设备及计算机可读存储介质 |
CN109901811A (zh) * | 2019-02-26 | 2019-06-18 | 北京华夏电通科技有限公司 | 应用于数字化庭审中的混音方法及装置 |
CN109961796A (zh) * | 2019-03-13 | 2019-07-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置和存储介质 |
CN110677208A (zh) * | 2019-09-11 | 2020-01-10 | 厦门亿联网络技术股份有限公司 | 一种用于会议系统的混音方法和系统 |
CN113257257A (zh) * | 2021-07-14 | 2021-08-13 | 统信软件技术有限公司 | 多路语音信号的混音处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10348264B2 (en) | 2019-07-09 |
MY191272A (en) | 2022-06-13 |
CN105719653B (zh) | 2020-04-24 |
WO2017129005A1 (zh) | 2017-08-03 |
US20180316328A1 (en) | 2018-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105719653A (zh) | 一种混音处理方法和装置 | |
US10522164B2 (en) | Method and device for improving audio processing performance | |
CN105338148B (zh) | 一种根据频域能量对音频信号进行检测的方法和装置 | |
CN107402851B (zh) | 一种数据恢复控制方法及装置 | |
CN106887241A (zh) | 一种语音信号检测方法与装置 | |
CN109413361B (zh) | 一种终端工作状态的控制方法、系统及终端设备 | |
CN111813638A (zh) | 一种告警信息处理方法、装置及终端设备 | |
CN115273191A (zh) | 一种人脸聚档方法、人脸识别方法、装置、设备及介质 | |
CN104021791A (zh) | 数字音频波形突变的检测方法 | |
CN106486136A (zh) | 一种声音识别方法、装置及语音交互方法 | |
CN107786931B (zh) | 音频检测方法及装置 | |
CN105830437B (zh) | 一种监控系统中背景识别的方法及系统 | |
WO2020186695A1 (zh) | 语音信息的批量处理方法、装置、计算机设备及存储介质 | |
CN110780820A (zh) | 一种连续存储空间确定方法、装置及电子设备和存储介质 | |
CN105023577B (zh) | 混音处理方法、装置和系统 | |
CN113852431B (zh) | 用于确定导频功率的方法、通信设备和存储介质 | |
CN114885404B (zh) | 一种用于降低智能手表通话功耗的方法与设备 | |
CN107750038B (zh) | 音量调节方法、装置、设备及存储介质 | |
CN104835500A (zh) | 一种音频信息获取的方法及其装置 | |
CN114157254A (zh) | 音频处理方法和音频处理装置 | |
CN112393799A (zh) | 远场语音设备检测的方法及装置、电视终端 | |
CN109922359B (zh) | 一种用户处理方法、装置、设备和存储介质 | |
ATE340489T1 (de) | Testsystem und -verfahren für ein mobilfunknetz | |
US9165561B2 (en) | Apparatus and method for processing voice signal | |
CN111291186A (zh) | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |