CN105719653B - 一种混音处理方法和装置 - Google Patents

一种混音处理方法和装置 Download PDF

Info

Publication number
CN105719653B
CN105719653B CN201610058634.1A CN201610058634A CN105719653B CN 105719653 B CN105719653 B CN 105719653B CN 201610058634 A CN201610058634 A CN 201610058634A CN 105719653 B CN105719653 B CN 105719653B
Authority
CN
China
Prior art keywords
audio
intensity
signal
mixing
contraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610058634.1A
Other languages
English (en)
Other versions
CN105719653A (zh
Inventor
王新亮
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610058634.1A priority Critical patent/CN105719653B/zh
Publication of CN105719653A publication Critical patent/CN105719653A/zh
Priority to MYPI2018000943A priority patent/MY191272A/en
Priority to PCT/CN2017/071479 priority patent/WO2017129005A1/zh
Priority to US16/027,745 priority patent/US10348264B2/en
Application granted granted Critical
Publication of CN105719653B publication Critical patent/CN105719653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers

Abstract

本发明实施例公开了一种混音处理方法,所述方法包括:获取至少两路音频输入信号;对所述至少两路音频输入信号进行线性叠加;将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。本发明实施例还公开了一种混音处理装置。采用本发明,可以有效避免溢出失真以及声音忽大忽小的问题。

Description

一种混音处理方法和装置
技术领域
本发明涉及一种互联网技术领域,尤其涉及一种混音处理方法和装置。
背景技术
目前,随着多媒体通信发展,多媒体会议已经成为发展热点之一,其中一弄的交互处理处于最基本最核心的位置,对音频是实时性要求更为苛刻,由此,对于实际使用中的不同地点的多个终端,若要进行多个点的实时音频的交互,需要将多路音频信号进行混合输出,即混音处理。
现有的常用混音算法主要有以下几种。
1)直接叠加
直接叠加就是将多路数据线性求和,这是一种最简单最直接的方法。该方法的缺点就是溢出导致的声音截顶失真,通常语音PCM(Pulse Code Modulation----脉码调制录音)数据表示范围在-32768和32767之间,因此多路数据相加后的结果会超出这个有效范围,这样就带了声音的失真。
2)线性叠加求平均
为了避免线性叠加后失真,对线性求和后的结果求平均,也就是如果有N路混音,求和的结果除以N,相当于每路数据乘以一个权重系数1/N。这种处理有效的避免了失真问题,带来的新问题是,如果语音过程中混音的人数发生变化,那么N就变化,这样导致多人语音过程中每个人的声音大小不一致;同时如果N值比较大的话,对于采集声音比较小的某路数据乘以权重系数后,声音会变的更小。
发明内容
有鉴于此,本发明实施例提供一种混音处理方法和装置,可以有效避免溢出失真以及声音忽大忽小的问题。
为了解决上述技术问题,本发明实施例提供了一种混音处理方法,所述方法包括:
获取至少两路音频输入信号;
对所述至少两路音频输入信号进行线性叠加;
将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;
将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
相应地,本发明实施例还提供了一种混音处理装置,其特征在于,包括:
音频输入模块,用于获取至少两路音频输入信号;
混音叠加模块,用于对所述至少两路音频输入信号进行线性叠加;
强度区间划分模块,用于将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
音频收缩模块,用于分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;
混音输出模块,用于将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
本发明实施例通过通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种混音处理方法的流程示意图;
图2是本发明另一实施例中的混音处理方法的流程示意图;
图3是本发明实施例中的一种混音处理装置的结构示意图;
图4是本发明另一实施例中的混音处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例中的一种混音处理方法的流程示意图,如图所示本实施例中的混音处理流程可以包括:
S101,获取至少两路音频输入信号。
例如在一个多媒体会议中,共有M位与会者参加发言,则共有M位音频输入信号参与混音,这时需要向每位与会者发送其他M-1路音频输入信号进行混音后的输出信号,同时还可以向外部输出全部M路音频输入信号进行混音后的输出信号。需要指出的是,本发明实施例中提及的音频输入信号可以是已经经过采样、量化、滤波等处理后的数字信号,也可以是模拟波形信号。
S102,对所述至少两路音频输入信号进行线性叠加。
S103,将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间。
即将线性叠加后的混音信号划分成多个强度区间信号,以便后续针对不同强度区间的混音信号采用不同的收缩比例进行处理。例如按照设定的分界阈值,将不大于该分界阈值的强度区间内的混音信号划分为第一级强度区间信号,将大于该分界阈值的强度区间内的混音信号划分为第二级强度区间信号,以此类推可以将线性叠加后的混音信号划分得到3个或更多的强度区间信号。
在可选实施例中,可以根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。示例性的,在预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数,通常取2的倍数,例如8或16。
那么可以将所述混音信号处于不同音频强度分布区间的信号划分为对应的混音强度区间,例如线性叠加后的混音信号的强度分布在上述划分得到的第1-3个音频强度分布区间,那么可以将落入第1音频强度分布区间的称为第一混音信号强度区间,落入第2音频强度分布区间的称为第二混音信号强度区间,落入第3音频强度分布区间的称为第三混音信号强度区间,其他实施例中以此类推。
S104,分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例。
由于语音信号中的中低强度的信号出现的几率比高强度的信号更高,本发明实施例采用对高强度信号和中低强度信号采用不同的收缩处理方案,即对经过混音后线性叠加的音频信号进行分区间压缩,较低强度的信号采用较大的收缩比例,确保较低强度信号的可识别性同时有一定的收缩,高强度的信号采用较小收缩比例,以确保不会出现音频信号溢出,同时也保留一定的可识别性。所述收缩比例为收缩后的信号强度与原信号强度之间的比值,例如原信号强度为100,收缩后为50,那么收缩比例为50%。
示例性的,以上述划分第n个音频强度分布区间为:((n-1)×2Q-1,n×2Q-1]将线性叠加后的混音信号划分成多个强度区间信号为例,处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子,通常取2的倍数,例如8或16。在一较佳实施例中,k取8,Q取值16。
S105,将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
本实施例通过采用上述混音处理方法,通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题。
图2是本发明另一实施例中的混音处理方法的流程示意图,如图所示,本实施例中的混音处理方法可以包括:
S201,获取至少两路音频输入信号。
S202,检测所述至少两路音频输入信号的音频强度,确定所述至少两路音频信号中存在至少一路过小音频输入信号。
具体的,可以通过对所述至少两路音频输入信号的音频强度进行采样,根据采样结果确定各路音频输入信号的音频强度,例如进行预设时间的音频强度采样,将最高值或均值,或有效声音信号的最高值或均值视为该路音频输入信号的音频强度。若某一路音频输入信号的音频强度小于预设的过小信号门限值,则可以确定该路音频输入信号是过小音频输入信号;或者若出现所述至少两路音频输入信号中的某一路音频输入信号的音频强度与另一路音频输入信号的音频强度的比值小于预设阈值,则可以将音频强度较小的这一路音频输入信号确定为过小音频输入信号。所述预设时间可以例如10秒或5秒,在该采样期间,可以先将各路音频输入信号直接线性叠加。需要指出的是,该过小音频输入信号的检测可以发生在新获取到一路音频输入信号时,也可以是周期性的进行检测,例如每隔1分钟或30秒进行一次检测,以确保某一路音频输入信号由于故障或信道问题导致音量较低时,能够及时作出针对性的增益。
具体实现中,可以首先确定所述至少两路音频输入信号中音频强度最高的一路音频输入信号;然后判断是否存在某一路音频输入信号的音频强度与所述音频强度最高的一路音频输入信号的音频强度的比值小于预设阈值,则确定该路音频输入信号为过小音频输入信号。
在另一可选实现方式中,可以通过对所述至少两路音频输入信号进行预设时长的音频强度采样,若存在满足以下情况的第一音频输入信号和第二音频输入信号,则可以确认第一音频输入信号为过小音频输入信号:在同一采样周期内,所述第一音频输入信号的最高采样值与所述第二音频输入信号的有效音频信号的最低采样值的比值不大于预设阈值。示例性的,若某路音频输入信号的所有采样值均分布在区间(0,p*2Q-1],其中p<0.03,同时存在某一路音频输入信号的有效音频信号的所有采样值均分布在区间(2Q-1,∞],则可以确定该较小采样值的音频输入信号为过小音频输入信号。
S203,对所述至少一路过小输入音频信号进行音频强度增益。
具体的,由于过小音频输入信号较大概率由于时域掩蔽效应存在听不清的情况,因此本实施例中首先对检测到的过小输入音频信号进行音频强度增益,再将其与其他路的音频信号进行线性叠加。增益系数可以根据需要设定,例如根据过小音频输入信号的音频强度与其他正常音频强度的音频输入信号的音频强度之间的比例确定,还可以根据过小音频输入信号的采样值自身确定,示例性的,增益系数可以为:
2Q-1/MSQ(s),其中MSQ(s)为预设时长内所述过小输入音频信号的音频强度采样值的均方根。
S204,将所述至少一路过小输入音频信号经过音频强度增益后与其他路音频信号进行线性叠加。
S205,将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间。
本实施例中,可以根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。具体的,在预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数,通常取2的倍数,例如8或16。进而可以将所述混音信号处于不同音频强度分布区间的信号划分为对应的混音强度区间。
S206,分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例。
由于语音信号中的中低强度的信号出现的几率比高强度的信号更高,本发明实施例采用对高强度信号和中低强度信号采用不同的收缩处理方案,即对经过混音后线性叠加的音频信号进行分区间压缩,较低强度的信号采用较大的收缩比例,较高强度的信号采用较小收缩比例。具体的,处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子,通常取2的倍数,例如8或16。在一较佳实施例中,k取8,Q取值16。
S207,将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
本实施例通过采用上述混音处理方法,通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题,同时结合过小音量信号的检测和增益处理,有效解决了小音量语音被掩蔽听不清的问题。
图3是本发明实施例中的一种混音处理装置的结构示意图,如图所示本实施例中的混音处理装置可以包括:
音频输入模块310,用于获取至少两路音频输入信号。
例如在一个多媒体会议中,共有M位与会者参加发言,则共有M位音频输入信号参与混音,这时需要向每位与会者发送其他M-1路音频输入信号进行混音后的输出信号,同时还可以向外部输出全部M路音频输入信号进行混音后的输出信号。需要指出的是,本发明实施例中音频输入模块310获取到的音频输入信号可以是已经经过采样、量化、滤波等处理后的数字信号,也可以是模拟波形信号。
混音叠加模块320,用于对所述至少两路音频输入信号进行线性叠加;
强度区间划分模块330,用于将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间。
即将线性叠加后的混音信号划分成多个强度区间信号,以便后续针对不同强度区间的混音信号采用不同的收缩比例进行处理。例如按照设定的分界阈值,将不大于该分界阈值的强度区间内的混音信号划分为第一级强度区间信号,将大于该分界阈值的强度区间内的混音信号划分为第二级强度区间信号,以此类推可以将线性叠加后的混音信号划分得到3个或更多的强度区间信号。
在可选实施例中,强度区间划分模块330可以根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。示例性的,在预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数,通常取2的倍数,例如8或16。
从而强度区间划分模块330可以将所述混音信号处于不同音频强度分布区间的信号划分为对应的混音强度区间,例如线性叠加后的混音信号的强度分布在上述划分得到的第1-3个音频强度分布区间,那么可以将落入第1音频强度分布区间的称为第一混音信号强度区间,落入第2音频强度分布区间的称为第二混音信号强度区间,落入第3音频强度分布区间的称为第三混音信号强度区间,其他实施例中以此类推。
音频收缩模块340,用于分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例。
由于语音信号中的中低强度的信号出现的几率比高强度的信号更高,音频收缩模块340采用对高强度信号和中低强度信号采用不同的收缩处理方案,即对经过混音后线性叠加的音频信号进行分区间压缩,较低强度的信号采用较大的收缩比例,确保较低强度信号的可识别性同时有一定的收缩,高强度的信号采用较小收缩比例,以确保不会出现音频信号溢出,同时也保留一定的可识别性。所述收缩比例为收缩后的信号强度与原信号强度之间的比值,例如原信号强度为100,收缩后为50,那么收缩比例为50%。
示例性的,以上述划分第n个音频强度分布区间为:((n-1)×2Q-1,n×2Q-1]将线性叠加后的混音信号划分成多个强度区间信号为例,处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子,通常取2的倍数,例如8或16。在一较佳实施例中,k取8,Q取值16。
混音输出模块350,用于将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
在可选实施例中,混音处理装置进一步还可以包括:
过小音频检测模块360,用于检测所述至少两路音频输入信号的音频强度,确定所述至少两路音频信号中存在至少一路过小音频输入信号。
具体的,过小音频检测模块360可以通过对所述至少两路音频输入信号的音频强度进行采样,根据采样结果确定各路音频输入信号的音频强度,例如进行预设时间的音频强度采样,将最高值或均值,或有效声音信号的最高值或均值视为该路音频输入信号的音频强度。若某一路音频输入信号的音频强度小于预设的过小信号门限值,则可以确定该路音频输入信号是过小音频输入信号;或者若出现所述至少两路音频输入信号中的某一路音频输入信号的音频强度与另一路音频输入信号的音频强度的比值小于预设阈值,则可以将音频强度较小的这一路音频输入信号确定为过小音频输入信号。所述预设时间可以例如10秒或5秒,在该采样期间,可以先将各路音频输入信号直接线性叠加。需要指出的是,该过小音频输入信号的检测可以发生在新获取到一路音频输入信号时,也可以是周期性的进行检测,例如每隔1分钟或30秒进行一次检测,以确保某一路音频输入信号由于故障或信道问题导致音量较低时,能够及时作出针对性的增益。
具体实现中,过小音频检测模块360可以首先确定所述至少两路音频输入信号中音频强度最高的一路音频输入信号;然后判断是否存在某一路音频输入信号的音频强度与所述音频强度最高的一路音频输入信号的音频强度的比值小于预设阈值,则确定该路音频输入信号为过小音频输入信号。
在另一可选实现方式中,过小音频检测模块360可以通过对所述至少两路音频输入信号进行预设时长的音频强度采样,若存在满足以下情况的第一音频输入信号和第二音频输入信号,则可以确认第一音频输入信号为过小音频输入信号:在同一采样周期内,所述第一音频输入信号的最高采样值与所述第二音频输入信号的有效音频信号的最低采样值的比值不大于预设阈值。示例性的,若某路音频输入信号的所有采样值均分布在区间(0,p*2Q-1],其中p<0.03,同时存在某一路音频输入信号的有效音频信号的所有采样值均分布在区间(2Q-1,∞],则可以确定该较小采样值的音频输入信号为过小音频输入信号。
音频增益模块370,用于对所述至少一路过小输入音频信号进行音频强度增益。
具体的,由于过小音频输入信号较大概率由于时域掩蔽效应存在听不清的情况,因此音频增益模块370首先对检测到的过小输入音频信号进行音频强度增益,再由混音叠加模块320将其与其他路的音频信号进行线性叠加。增益系数可以根据需要设定,例如根据过小音频输入信号的音频强度与其他正常音频强度的音频输入信号的音频强度之间的比例确定,还可以根据过小音频输入信号的采样值自身确定,示例性的,增益系数可以为:
2Q-1/MSQ(s),其中MSQ(s)为预设时长内所述过小输入音频信号的音频强度采样值的均方根。
本实施例中的混音处理装置,通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题,进而通过结合过小音量信号的检测和增益处理,还可以有效解决小音量语音被掩蔽听不清的问题。
图4展示了一种运行上述混音处理方法的基于冯诺依曼体系的计算机系统。该计算机系统可以是智能手机、平板电脑、掌上电脑,笔记本电脑或个人电脑等终端设备。具体的,可包括通过系统总线连接的输入输出接口410、处理器420、存储器430。其中,输入输出接口410可包括用于获取多路音频输入信号的输入接口411,用于输出混音处理结果的输出接口412,可选的还可以包括网络接口413。存储器430可包括外存储器431(例如硬盘、光盘或软盘等)和内存储器432。
在本实施例中,本方法的运行可以基于计算机程序,该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机系统的外存储器431中,在运行时被加载到内存储器432中,然后被编译为机器码之后传递至处理器420中执行,从而使得基于冯诺依曼体系的计算机系统中形成逻辑上的音频输入模块310、混音叠加模块320、强度区间划分模块330、音频收缩模块340、混音输出模块350、过小音频检测模块360以及音频增益模块370。且在上述实施例中混音处理方法的执行过程中,输入的参数均通过输入接口411接收,并传递至内存储器432中缓存,然后输入到处理器420中进行处理,处理的结果数据或缓存于内存储器432中进行后续地处理,或被传递至输出接口412或网络接口413进行输出。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种混音处理方法,其特征在于,所述方法包括:
获取至少两路音频输入信号;
对所述至少两路音频输入信号进行预设时长的音频强度采样;所述至少两路音频输入信号包括第一音频输入信号和第二音频输入信号;
若所述第一音频输入信号的最高采样值与所述第二音频输入信号的有效音频信号的最低采样值的比值不大于预设阈值,则确定所述第一音频输入信号为过小音频输入信号;
按照增益系数2Q-1/MSQ(s)对所述过小音频输入信号进行音频强度增益;其中,所述MSQ(s)为预设时长内所述过小音频输入信号的音频强度采样值的均方根;
将所述过小音频输入信号经过音频强度增益后与所述第二音频输入信号进行线性叠加;
将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;混音信号强度区间属于线性叠加后的混音信号;所述至少两个混音强度区间的音频强度属于不同音频强度分布区间;
分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;
将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
2.如权利要求1所述的混音处理方法,其特征在于,所述将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间包括:
根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。
3.如权利要求2所述的混音处理方法,其特征在于,所述预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数。
4.如权利要求3所述的混音处理方法,其特征在于,所述分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩包括:
处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子。
5.一种混音处理装置,其特征在于,包括:
音频输入模块,用于获取至少两路音频输入信号;所述至少两路音频输入信号包括第一音频输入信号和第二音频输入信号;
过小音频检测模块,用于对所述至少两路音频输入信号进行预设时长的音频强度采样,若所述第一音频输入信号的最高采样值与所述第二音频输入信号的有效音频信号的最低采样值的比值不大于预设阈值,则确定所述第一音频输入信号为过小音频输入信号;
音频增益模块,用于按照增益系数2Q-1/MSQ(s)对所述过小音频输入信号进行音频强度增益;其中,所述MSQ(s)为预设时长内所述过小输入音频信号的音频强度采样值的均方根;
混音叠加模块,用于将所述过小音频输入信号经过音频强度增益后与所述第二音频输入信号进行线性叠加;
强度区间划分模块,用于将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;混音信号强度区间属于线性叠加后的混音信号;所述至少两个混音强度区间的音频强度属于不同音频强度分布区间;
音频收缩模块,用于分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩,其中音频强度较高的混音信号强度区间所采用的收缩比例要小于音频强度较低的混音信号强度区间所采用的收缩比例;
混音输出模块,用于将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加后输出。
6.如权利要求5所述的混音处理装置,其特征在于,所述混音信号强度区间划分模块用于:
根据预先划分的多个等长度的音频强度分布区间,将所述混音信号处于不同音频强度分布区间的信号确定为所述至少两个混音信号强度区间。
7.如权利要求6所述的混音处理装置,其特征在于,所述预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
((n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数。
8.如权利要求7所述的混音处理装置,其特征在于,所述音频收缩模块分别对所述各个混音信号强度区间采用对应的收缩比例进行音频强度收缩包括:
处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-4任一项所述的方法。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-4中任一项所述方法的步骤。
CN201610058634.1A 2016-01-28 2016-01-28 一种混音处理方法和装置 Active CN105719653B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610058634.1A CN105719653B (zh) 2016-01-28 2016-01-28 一种混音处理方法和装置
MYPI2018000943A MY191272A (en) 2016-01-28 2017-01-18 Method and apparatus for audio mixing
PCT/CN2017/071479 WO2017129005A1 (zh) 2016-01-28 2017-01-18 混音处理方法和装置
US16/027,745 US10348264B2 (en) 2016-01-28 2018-07-05 Method and apparatus for audio mixing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610058634.1A CN105719653B (zh) 2016-01-28 2016-01-28 一种混音处理方法和装置

Publications (2)

Publication Number Publication Date
CN105719653A CN105719653A (zh) 2016-06-29
CN105719653B true CN105719653B (zh) 2020-04-24

Family

ID=56154269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610058634.1A Active CN105719653B (zh) 2016-01-28 2016-01-28 一种混音处理方法和装置

Country Status (4)

Country Link
US (1) US10348264B2 (zh)
CN (1) CN105719653B (zh)
MY (1) MY191272A (zh)
WO (1) WO2017129005A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719653B (zh) 2016-01-28 2020-04-24 腾讯科技(深圳)有限公司 一种混音处理方法和装置
US11234072B2 (en) * 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
CN106935244B (zh) * 2017-03-24 2020-05-19 成都极米科技股份有限公司 一种音频处理方法、装置及系统
CN107333093B (zh) * 2017-05-24 2019-11-08 苏州科达科技股份有限公司 一种声音处理方法、装置、终端及计算机可读存储介质
CN107920310A (zh) * 2017-11-14 2018-04-17 维沃移动通信有限公司 一种多麦克风录音的方法及移动终端
CN108198572A (zh) * 2017-12-29 2018-06-22 珠海市君天电子科技有限公司 一种音频处理方法及装置
CN109410912B (zh) * 2018-11-22 2021-12-10 深圳市腾讯信息技术有限公司 音频处理的方法、装置、电子设备及计算机可读存储介质
CN109901811B (zh) * 2019-02-26 2022-09-06 北京华夏电通科技股份有限公司 应用于数字化庭审中的混音方法及装置
CN109961796B (zh) * 2019-03-13 2020-12-01 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置和存储介质
CN110677208B (zh) * 2019-09-11 2021-06-25 厦门亿联网络技术股份有限公司 一种用于会议系统的混音方法和系统
CN113257257B (zh) * 2021-07-14 2021-11-09 统信软件技术有限公司 多路语音信号的混音处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1805006A (zh) * 2006-01-24 2006-07-19 北京邮电大学 一种用于多媒体会议的快速实时混音方法
CN103259943A (zh) * 2012-02-21 2013-08-21 深圳市东进软件开发有限公司 一种pstn电话会议混音方法
CN104822108A (zh) * 2015-03-13 2015-08-05 广州市保伦电子有限公司 全数字会议音频混音装置及方法
CN105280191A (zh) * 2015-10-09 2016-01-27 北京竞业达数码科技有限公司 网络混音方法及混音器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101478619B (zh) * 2009-01-05 2011-11-23 腾讯科技(深圳)有限公司 实现多路语音混音的方法、系统及节点设备
EP2513898B1 (en) * 2009-12-16 2014-08-13 Nokia Corporation Multi-channel audio processing
US9237238B2 (en) * 2013-07-26 2016-01-12 Polycom, Inc. Speech-selective audio mixing for conference
CN105282478A (zh) * 2014-05-30 2016-01-27 三亚中兴软件有限责任公司 音量调节方法及装置、多点控制单元
CN104539816B (zh) * 2014-12-25 2017-08-01 广州华多网络科技有限公司 一种多方语音通话的智能混音方法及装置
CN105719653B (zh) * 2016-01-28 2020-04-24 腾讯科技(深圳)有限公司 一种混音处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1805006A (zh) * 2006-01-24 2006-07-19 北京邮电大学 一种用于多媒体会议的快速实时混音方法
CN103259943A (zh) * 2012-02-21 2013-08-21 深圳市东进软件开发有限公司 一种pstn电话会议混音方法
CN104822108A (zh) * 2015-03-13 2015-08-05 广州市保伦电子有限公司 全数字会议音频混音装置及方法
CN105280191A (zh) * 2015-10-09 2016-01-27 北京竞业达数码科技有限公司 网络混音方法及混音器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"多媒体会议中新型快速实时混音算法";王文林等;《电子与信息学报》;20070330;第29卷(第3期);第692页 *

Also Published As

Publication number Publication date
US10348264B2 (en) 2019-07-09
CN105719653A (zh) 2016-06-29
MY191272A (en) 2022-06-13
US20180316328A1 (en) 2018-11-01
WO2017129005A1 (zh) 2017-08-03

Similar Documents

Publication Publication Date Title
CN105719653B (zh) 一种混音处理方法和装置
CN104980337B (zh) 一种音频处理的性能提升方法及装置
CN109644192B (zh) 具有语音检测周期持续时间补偿的音频传送方法和设备
CN105118522B (zh) 噪声检测方法及装置
CN110072021B (zh) 一种在音频电话会议混合系统中的方法、装置和计算机可读介质
CN109036386A (zh) 一种语音处理方法及装置
CN114067822A (zh) 通话音频处理方法、装置、计算机设备和存储介质
US10290303B2 (en) Audio compensation techniques for network outages
CN109960484A (zh) 一种音频音量获取方法及装置、存储介质、终端
CN110675885A (zh) 混音方法、装置及存储介质
CN112669865B (zh) 一种主麦克风的切换方法、装置、设备及可读存储介质
CN112151055B (zh) 音频处理方法及装置
CN111402914B (zh) 噪声消除方法、装置、电子设备和存储介质
CN113077804B (zh) 回声消除方法、装置、设备及存储介质
CN111081269B (zh) 通话过程中的噪声检测方法及系统
CN111613235A (zh) 一种回声消除方法及装置
CN107750038B (zh) 音量调节方法、装置、设备及存储介质
CN115273880A (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN115273909A (zh) 语音活性检测方法、装置、设备及计算机可读存储介质
CN111885269B (zh) 一种信息检测方法、装置、设备及存储介质
ATE340489T1 (de) Testsystem und -verfahren für ein mobilfunknetz
US11322137B2 (en) Video camera
CN113299299A (zh) 音频处理设备、方法及计算机可读存储介质
CN111741177A (zh) 在线会议的混音方法、装置、设备和介质
CN112735455A (zh) 声音信息的处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant