CN102056053B - 一种多话筒混音方法及装置 - Google Patents

一种多话筒混音方法及装置 Download PDF

Info

Publication number
CN102056053B
CN102056053B CN201010594522.0A CN201010594522A CN102056053B CN 102056053 B CN102056053 B CN 102056053B CN 201010594522 A CN201010594522 A CN 201010594522A CN 102056053 B CN102056053 B CN 102056053B
Authority
CN
China
Prior art keywords
phonetic entry
signal
gating
passages
similar degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010594522.0A
Other languages
English (en)
Other versions
CN102056053A (zh
Inventor
彭远疆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201010594522.0A priority Critical patent/CN102056053B/zh
Publication of CN102056053A publication Critical patent/CN102056053A/zh
Priority to PCT/CN2011/083165 priority patent/WO2012079459A1/zh
Application granted granted Critical
Publication of CN102056053B publication Critical patent/CN102056053B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及音频信息处理领域,公开了一种多话筒混音方法及装置,能够降低输入通道选通的误判率,提高混音后的音频质量。本发明的方法包括:统计当前时段的各输入通道的信号强度,并选出信号强度最大的至少两个输入通道进行语音检测;将检测出的有语音的输入通道确定为语音输入通道,当语音输入通道为至少两个时,确定各语音输入通道的信号之间的信号相似度;根据各个信号相似度控制语音输入通道的选通;将选通的语音输入通道的信号进行加权混音输出。

Description

一种多话筒混音方法及装置
技术领域
本发明涉及音频信息处理领域,尤其涉及一种多话筒混音方法及装置。
背景技术
在视频会议系统中,需要使用话筒来采集本地发言人的声音,该声音经过音频编码后传输到远端,在远端系统中解码后经过功率放大器输出到音箱中回放出来。为了减小房间混响和背景噪音的影响,在视频会议系统中一般采用定向话筒来采集声音(即拾音)。由于定向话筒在正对着话筒的方向上拾音效果最好,为了保证不同方位发言人讲话时都有良好的拾音效果,一般需要多只定向话筒来采集不同方位发言人的语音,这种拾音方式称为分布式拾音。如图1所示为分布式拾音方式示意图,图1描述了视频会议系统中一个典型的会议室布局,每个与会者使用一个单独的话筒作为拾音设备。分布式拾音为了防止相邻话筒采集到的语音信号出现串扰,要求每个话筒都靠近一个或几个讲话人,且话筒之间的间距一般比话筒到对应讲话人间的距离要大。有时为了降低话筒总数量,视频会议系统中也会使用阵列麦克风来进行集中式拾音。如图2所示,为集中式拾音方式示意图,图2描述了视频会议系统中使用了阵列麦克风的集中式拾音方案,图中所有与会者共同使用一个阵列麦克风作为拾音设备。阵列麦克风把多个拾音单元按一定的布局装配于一个整体设备之中,阵列麦克风外形多为圆盘或多边形形状,每个拾音单元一般布处于设备外边沿且指向外方向。阵列麦克风中相邻拾音单元之间的间距一般远小于阵列麦克风设备到讲话人的距离。当单个阵列麦克风无法有效覆盖整个房间时,可以使用多个阵列麦克风来分区域拾音。如图3所示为使用多个阵列麦克风的集中式拾音方式示意图。图3描述了在一个较大的房间中,使用了多个阵列麦克风拾音,每个阵列麦克风负责一片区域的拾音。
考虑到编解码复杂度、传输带宽、系统兼容性等因素,需要把多个话筒(拾音单元)采集到的多通道信号混合成单通道或者双通道立体声信号,然后再做单通道/立体声编码和传输。评价多话筒混音技术指标主要是混音后输出语音的信噪比、音质以及语音的平稳性,对于立体声系统,声像方位(相位)信息的保真度也是一个重要的衡量指标。
传统的视频会议系统多使用简单的基于信号强度(短时能量或者信号幅度)的混音方法,把多个话筒采集到的语音信号混合后输出,典型的混音方法有:
1、直接混音法:即简单地把各个通道输入信号相加混音后输出到单通道,确定是混音后背景噪声变大,信噪比(SNR)明显降低,而且混响严重导致语音含糊、音质差。
2、第一话筒优先混音法:统计各输入通道的信号强度,找出信号强度最大的有声通道直接作为输出通道。这种方法不会降低信噪比,但其缺点是当有两个或两个以上不同位置的人同时说话时会有明显的通道切换感,语音和背景噪声的音量大小会有明显变化。
3、动态加权混音法:统计各有声通道的信号强度并按照大小排序,只将信号强度最大的几个通道进行加权混音,其它通道不参与混音。这种方法可以减轻不同位置讲话人同时讲话时的通道切换,但其缺点是由于只利用了信号的强度信息,单个人讲话时也会打开物理上相邻的两个或多个通道,导致信噪比降低,混响加重且语音含糊。
上述混音方法,完全基于信号强度来判断通道选通,在很多应用场景中性能较低,容易出现误判:
1)在典型的阵列麦克风的应用中,如图2,当距离阵列话筒较远位置的某一发言人讲话时,阵列话筒设备中的每个话筒采集到的信号强度差异很小,导致混音时容易出现误判。
2)即使在分散放置话筒的应用中,由于桌面、白板、墙面等的反射作用,如图4所示,为含有反射物的分布式拾音方式示意图,基于信号强度的判别方法也容易出现误判,导致反射声/混响声较大的通道被错误选通,严重影响了混音后的语音音质。
在立体声/多通道系统中,混音时除了考虑不同通道的能量混合,还要求混音后信号仍能保持原始声源的方位(位置)信息,不同位置的话筒往往对应着音源的不同位置,错误的选通会导致声像位置的突变,从而对远端听者造成更大的干扰。
发明内容
本发明提供一种多话筒混音方法及装置,能够降低输入通道选通的误判率,提高混音后的音频质量。
一种多话筒混音方法,包括:
统计当前时段各输入通道的信号强度,并选出信号强度最大的至少两个输入通道进行语音检测;
将检测出的有语音的输入通道确定为语音输入通道,当语音输入通道为至少两个时,确定各语音输入通道的信号之间的信号相似度;
根据各个信号相似度控制语音输入通道的选通;
将选通的语音输入通道的信号进行加权混音输出。
一种多话筒混音装置,包括:
统计模块,用于统计当前时段各输入通道的信号强度,并选出信号强度最大的至少两个输入通道进行语音检测;
相似度确定模块,用于将检测出的有语音的输入通道确定为语音输入通道,当语音输入通道为至少两个时,确定各语音输入通道的信号之间的信号相似度;
选通模块,用于根据各个信号相似度控制语音输入通道的选通;
混音模块,用于将选通的语音输入通道的信号进行加权混音输出。
本发明实施例提供的多话筒混音方法,在对输入通道进行选通判别时,同时考虑了各输入通道的信号强度大小和通道间的信号相似度,使得出现通道误选通的几率大大减小,从而大幅度提高了混音后的语音质量。
附图说明
图1为分布式拾音方式示意图;
图2为集中式拾音方式示意图;
图3为使用多个阵列麦克风的集中式拾音方式示意图;
图4为含有反射物的分布式拾音方式示意图;
图5为本发明实施例提供的多话筒混音方法流程图;
图6为本发明实施例一提供的多话筒混音方法流程图;
图7为本发明实施例二提供的多话筒混音方法流程图;
图8为本发明实施例提供的多话筒混音装置的结构图。
具体实施方式
本发明实施例提供一种多话筒混音方法,如图5所示,包括:
S501、统计当前时段的各输入通道的信号强度,并选出信号强度最大的至少两个输入通道进行语音检测;
在该步骤中,选出信号强度最大的输入通道进行语音检测,最少为2个,当选取的输入通道过多时,在后续的混音计算过程中,会比较复杂,因此,一般选取2~4个。
S502、将检测出的有语音的输入通道确定为语音输入通道,并检测语音输入通道的个数,若语音输入通道的个数为至少两个时,执行步骤S503,若语音输入通道的个数为一个时,执行步骤S505,若语音输入通道的个数为0个时,执行步骤S506;
S503、当语音输入通道的个数为至少两个,确定各语音输入通道的信号之间的信号相似度;
当语音输入通道只有两个时,信号相似度只有一个,当语音输入通道多于两个时,每两个语音输入通道之间具有信号相似度。
S504、根据各个信号相似度控制语音输入通道的选通,并将选通的语音输入通道的信号进行加权混音输出。
具体为:
1)若两个语音输入通道的信号相似度小于等于第一阈值时,控制该两个输入通道都预选通;
其中,当两个语音输入通道的信号相似度等于第一阈值时,也可以执行步骤2)。
若任意的两个语音输入通道的信号相似度都小于等于第一阈值时,则所有的通道都预选通,可直接将预选通的通道选通。
若存在两个语音输入通道的信号相似度大于第一阈值,则在1)的基础上,进一步执行步骤2),可保证混音的精确性。当然,若任意两个信号的相似度都大于第一阈值,也可以不执行步骤1),只执行步骤2)。
2)若两个语音输入通道的信号相似度大于等于第一阈值时,根据该两个语音输入通道的信号强度大小以及信号相似度对应的两信号的延时,控制该两个语音输入通道的选通;信号相似度即两信号的相似性函数的最值(归一化互相关函数值的最大值或者平均幅度差异函数的最小值),信号相似度对应的两信号的时延即相似度函数的最值对应的两信号的延时。
其中:根据该两个语音输入通道的信号强度大小以及信号相似度对应的两信号的延时,控制该两个语音输入通道的选通,具体为:
当两个语音输入通道的信号强度差异值大于等于设定值时,控制该两个输入通道中的一个选通;“等于”时也可以执行下述步骤。
当两个语音输入通道的信号强度差异值小于等于设定值时,确定两个语音输入通道的信号相似度对应的两信号的延时,若两信号的延时大于设定时长,则控制两个语音输入通道中的一个选通,若两信号的延时小于设定时长,则控制两个语音输入通道都选通。
上述步骤中:例如A、B、C语音输入通道,当A与B相似度小于第一阈值,A、C相似度小于第一阈值,且B、C相似度大于第一阈值,则根据A、B相似度、A、C相似度,控制A、B、C均选通,再根据B、C相似度控制B、C中一个选通,因此,控制A、C或A、B选通。
其中,步骤S503中确定相似度的方法具体为:
将各语音输入通道的信号进行带通滤波预处理;
对预处理后的每两个信号利用归一化互相关函数确定其信号相似度。
当利用归一化函数确定信号相似度时,信号相似度即是归一化互相关函数值的最大值。
或者使用平均幅度差异函数来确定相似度,具体为:
将各语音输入通道的信号进行带通滤波预处理;
对预处理后的每两个信号利用平均幅度差异函数确定其信号相似度。
当采用平均幅度差异函数确定信号相似度时,信号相似度即是平均幅度差异函数的最小值,信号相似度大于一定的第一阈值,即平均幅度差异函数的最小值小于设定的第二阈值。
S505、当语音输入通道的个数只有一个时,直接控制该语音输入通道选通,并输出。
S506、当语音输入通道的个数为0时,利用上一次的选通进行输入通道的选通。
当语音输入通道的个数为0时,即本次不重新进行通道的选通判别,直接采用上一次的选通结果进行本次输入通道的选通,并输出。
采用本发明实施例的方法,在对输入通道进行选通判别时,同时考虑了各输入通道的信号强度大小和通道间的信号相似度,使得出现通道误选通的几率大大减小,从而大幅度提高了混音后的语音质量。
下面结合附图,详细说明本发明实施例的方法。
实施例一
如图6所示,为本发明实施例一提供的多话筒混音方法流程图,具体包括:
S601、统计当前时段的各输入通道的信号强度,并选出信号强度最大的两个输入通道A、B进行语音检测;
S602、当输入通道A、B没有语音时,直接采用上一次的判别结果;
S603、当输入通道A有语音时,B没有语音时,即A为语音输入通道,直接控制输入通道A选通;
S604、当输入通道A、B都有语音时,即A、B都为语音输入通道,将通道A和通道B的信号分别通过一个80Hz~800Hz的带通滤波预处理,并对预处理后的两个信号计算其归一化互相关函数(NCCF),并确定归一化互相关函数(NCCF)值的最大值ρ(τ),并确定此时(即归一化互相关函数值的最大值)对应的A、B间的信号时延τ;
NCCF的定义和计算方法是本领域公知的,在此不再赘述。
对每一个延时τ,确定NCCF值ρ(τ),找出NCCF值的最大值并确定该最大值对应的时延;
S605、判断ρ(τ)最大值是否小于等于设定的门限值V1,如果是,执行步骤S608,如果否,执行步骤S606;
S606、当ρ(τ)最大值大于等于设定的门限值V1时,再确定A、B两个通道的信号强度的差异,判断A、B通道的信号强度差异值是否小于等于设定值时,如果是,执行步骤S607,如果否,执行步骤S609;
当A、B通道的信号归一化互相关函数最大值大于等于设定的门限值时,可以认为本地只有一个发言人在讲话,再继续根据A、B两个通道的信号强度差异值以及时延控制A、B通道的选通。
当然,在此步中,当差异值等于设定值时,也可以执行步骤S609。
判断A、B通道信号强度差异值,可以直接采用A的信号强度-B的信号强度,或者采用两者的信号强度的比值(信号强度小/信号强度大),或者采用两者的差值/两者中任意一个的信号强度值,当然,还可以采用各种方法确定A、B通道的信号强度差异值,差异值小于设定值,说明两者信号强度相差不大。
S607、确定最大值对应的时延τ是否小于等于设定时长,如果是,执行步骤S608,如果否,执行步骤S609;
当然,时延等于设定时长时,也可以执行步骤S609。
S608、控制通道A、B都选通;
当ρ(τ)最大值小于等于设定的门限值V1时,控制通道A、B都选通;当最大值小于等于设定的门限值V1时,认为通道A、B对应的话筒前有不同人在同时说话,所以通道A、B均应该打开,输出=A*0.5+B*0.5;
当然,当最大值等于设定的门限值V1时,也可以执行步骤S606。
当ρ(τ)最大值大于等于设定的门限值V1时,说明A、B话筒前有一个讲话人在讲话,当A、B通道的信号强度差异值很小,并且NCCF值最大值对应的信号时延很小时,可以认为讲话人到两个通道对应的话筒距离都很接近,可以同时打开通道A、B,输出=A*0.5+B*0.5;
S609、控制A、B通道中的一个选通;
控制A、B通道中的一个选通,较佳地,控制A、B通道中信号强度较大的通道选通。
其中,在步骤S606中,当ρ(τ)最大值大于等于设定的门限值V1时,可以直接执行步骤S609,控制A、B通道中的一个选通,也可以完成混音。当然步骤S606中信号强度差异值的判断以及S607中信号时延的判断,以及S608的执行,使得信号判断更为精准,进一步提高了多话筒混音的质量。
实施例二
如图7所示,为本发明实施例二提供的多话筒混音方法流程图。
S701、统计当前时段的各输入通道的信号强度,并选出信号强度最大的两个输入通道A、B进行语音检测;
S702、当输入通道A、B没有语音时,直接采用上一次的判别结果;
S703、当输入通道A有语音时,B没有语音时,直接控制输入通道A选通;
S704、当输入通道A、B都有语音时,将通道A和通道B的信号分别通过一个80Hz~800Hz的带通滤波预处理,并对预处理后的两个信号计算其平均幅度差异函数(AMDF),并确定平均幅度差异函数(AMDF)值的最小值ψ(τ),并确定此时(即平均幅度差异函数值的最小值)对应的A、B间的信号时延τ;
AMDF的定义和计算方法是本领域公知的,在此不再赘述。
对每一个延时τ,确定AMDF值ψ(τ),找出AMDF值的最小值并确定该最小值对应的时延;
S705、判断ψ(τ)最小值是否大于等于设定的门限值V1′,如果是,执行步骤S708,如果否,执行步骤S706;
S706、当ψ(τ)最大值小于等于设定的门限值V1′时,再确定A、B两个通道的信号强度的差异,判断A、B通道的信号强度差异值是否小于等于设定值时,如果是,执行步骤S707,如果否,执行步骤S709;
当A、B通道的平均幅度差异函数最小值小于等于设定的门限值时,可以认为本地只有一个发言人在讲话,再继续根据A、B两个通道的信号强度差异值以及时延控制A、B通道的选通。
S707、确定最小值对应的时延τ是否小于设定时长,如果是,执行步骤S708,如果否,执行步骤S709;
S708、控制通道A、B都选通;
当ψ(τ)最小值大于等于设定的门限值V1′时,控制通道A、B都选通;当最小值大于等于设定的门限值V1′时,认为通道A、B对应的话筒前有不同人在同时说话,所以通道A、B均应该打开,输出=A*0.5+B*0.5;
当ψ(τ)最小值小于等于设定的门限值V1′时,认为A、B话筒前有一个讲话人在讲话,当A、B通道的信号强度差异值很小,并且AMDF值最小值对应的信号时延很小时,可以认为讲话人到两个通道对应的话筒距离都很接近,可以同时打开通道A、B,输出=A*0.5+B*0.5;
S709、控制A、B通道中的一个选通;
控制A、B通道中的一个选通,较佳地,控制A、B通道中信号强度较大的通道选通。
其中,在步骤S706中,当ψ(τ)最小值小于等于设定的门限值V1′时,可以直接执行步骤S709,控制A、B通道中的一个选通,也可以完成混音。当然步骤S706中信号强度差异值的判断以及S707中信号时延的判断,以及S708的执行,使得信号判断更为精准,进一步提高了多话筒混音的质量。
需要注意的是,本发明中并不限定评价不同通道间信号相似度的具体方法和允许同时打开的最大通道数,也没有限定评判不同通道间的混音权重。如在实施例一中,评判不同通道间信号相似度的具体方法是使用NCCF函数,允许同时打开最大通道数是2,通道间的混音权重在单声道系统中固定为(0.5,0.5),而在立体声系统中,不同通道的混音权重和其对应话筒的空间位置有关,在此不再详细分析。
本发明实施例还提供一种多话筒混音装置,如图8所示,包括:
统计模块81,用于统计当前时段各输入通道的信号强度,并选出信号强度最大的至少两个输入通道进行语音检测;
相似度确定模块82,用于将检测出的有语音的输入通道确定为语音输入通道,当语音输入通道为至少两个时,确定各语音输入通道的信号之间的信号相似度;
选通模块83,用于根据各个信号相似度控制语音输入通道的选通;
混音模块84,用于将选通的语音输入通道的信号进行加权混音输出。
较佳地,选通模块83,还用于当语音输入通道只有一个时,直接控制该语音输入通道选通。
较佳地,选通模块83,具体用于对任意两个语音输入通道,若两个语音输入通道的信号相似度都小于等于第一阈值时,控制该两个输入通道都选通。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种多话筒混音方法,其特征在于,包括:
统计当前时段各输入通道的信号强度,并选出信号强度最大的至少两个输入通道进行语音检测;
将检测出的有语音的输入通道确定为语音输入通道,当语音输入通道为至少两个时,确定各语音输入通道的信号之间的信号相似度;
根据各个信号相似度控制语音输入通道的选通;
将选通的语音输入通道的信号进行加权混音输出;
其中,根据各个信号相似度控制语音输入通道的选通,具体为:
对任意两个语音输入通道,若两个语音输入通道的信号相似度都小于等于第一阈值时,控制该两个输入通道都选通。
2.如权利要求1所述的方法,其特征在于,还包括:当语音输入通道只有一个时,直接控制该语音输入通道选通。
3.如权利要求1所述的方法,其特征在于,还包括:
若存在两个语音输入通道的信号相似度大于等于第一阈值时,根据该两个语音输入通道的信号强度大小以及信号相似度对应的两信号的延时,控制该两个语音输入通道的选通。
4.如权利要求3所述的方法,其特征在于,根据该两个语音输入通道的信号强度大小以及信号相似度对应的两信号的延时,控制该两个语音输入通道的选通,具体为:
当两个语音输入通道的信号强度差异值大于等于设定值时,控制该两个语音输入通道中的一个选通;
当两个语音输入通道的信号强度差异值小于等于设定值时,确定两个语音输入通道的信号相似度对应的两信号的延时,若两信号的延时大于设定时长,则控制两个语音输入通道中的一个选通,若两信号的延时小于设定时长,则控制两个语音输入通道都选通。
5.如权利要求4所述的方法,其特征在于,所述控制两个语音输入通道中的一个选通,具体为:
控制两个语音输入通道中信号强度较大的语音输入通道选通。
6.如权利要求1所述的方法,其特征在于,所述确定各语音输入通道的信号之间的信号相似度,具体为:
将各语音输入通道的信号进行带通滤波预处理;
对预处理后的每两个信号利用归一化互相关函数或者平均幅度差异函数确定其信号相似度。
7.一种多话筒混音装置,其特征在于,包括:
统计模块,用于统计当前时段各输入通道的信号强度,并选出信号强度最大的至少两个输入通道进行语音检测;
相似度确定模块,用于将检测出的有语音的输入通道确定为语音输入通道,当语音输入通道为至少两个时,确定各语音输入通道的信号之间的信号相似度;
选通模块,用于根据各个信号相似度控制语音输入通道的选通;
混音模块,用于将选通的语音输入通道的信号进行加权混音输出;
其中,选通模块,具体用于对任意两个语音输入通道,若两个语音输入通道的信号相似度小于等于第一阈值时,控制该两个输入通道都选通。
8.如权利要求7所述的装置,其特征在于,选通模块,还用于当语音输入通道只有一个时,直接控制该语音输入通道选通。
CN201010594522.0A 2010-12-17 2010-12-17 一种多话筒混音方法及装置 Expired - Fee Related CN102056053B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201010594522.0A CN102056053B (zh) 2010-12-17 2010-12-17 一种多话筒混音方法及装置
PCT/CN2011/083165 WO2012079459A1 (zh) 2010-12-17 2011-11-29 一种多话筒混音方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010594522.0A CN102056053B (zh) 2010-12-17 2010-12-17 一种多话筒混音方法及装置

Publications (2)

Publication Number Publication Date
CN102056053A CN102056053A (zh) 2011-05-11
CN102056053B true CN102056053B (zh) 2015-04-01

Family

ID=43959897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010594522.0A Expired - Fee Related CN102056053B (zh) 2010-12-17 2010-12-17 一种多话筒混音方法及装置

Country Status (2)

Country Link
CN (1) CN102056053B (zh)
WO (1) WO2012079459A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102056053B (zh) * 2010-12-17 2015-04-01 中兴通讯股份有限公司 一种多话筒混音方法及装置
CN103905942B (zh) * 2012-12-26 2018-08-10 联想(北京)有限公司 声音数据采集的方法及电子设备
CN103327433B (zh) * 2013-05-27 2014-08-27 腾讯科技(深圳)有限公司 音频输入接口检测方法及其系统
CN104064191B (zh) * 2014-06-10 2017-12-15 北京音之邦文化科技有限公司 混音方法及装置
CN104219013B (zh) * 2014-09-01 2017-05-24 厦门亿联网络技术股份有限公司 一种视频会议系统的多麦克风混音方法
CN105848062B (zh) * 2015-01-12 2018-01-05 芋头科技(杭州)有限公司 多声道的数字麦克风
CN104616665B (zh) * 2015-01-30 2018-04-24 深圳市云之讯网络技术有限公司 基于语音类似度的混音方法
CN105049807B (zh) * 2015-07-31 2018-05-18 小米科技有限责任公司 监控画面声音采集方法及装置
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
CN107333093B (zh) * 2017-05-24 2019-11-08 苏州科达科技股份有限公司 一种声音处理方法、装置、终端及计算机可读存储介质
CN107170465B (zh) * 2017-06-29 2020-07-14 数据堂(北京)科技股份有限公司 一种音频质量检测方法及音频质量检测系统
CN109327633B (zh) * 2017-07-31 2020-09-22 苏州谦问万答吧教育科技有限公司 混音方法、装置、设备及存储介质
CN107800902B (zh) * 2017-09-15 2019-09-13 北京容联易通信息技术有限公司 多路语音的混音方法及系统
CN109994122B (zh) * 2017-12-29 2023-10-31 阿里巴巴集团控股有限公司 语音数据的处理方法、装置、设备、介质和系统
CN110060696B (zh) * 2018-01-19 2021-06-15 腾讯科技(深圳)有限公司 混音方法及装置、终端及可读存储介质
CN109510905B (zh) * 2018-12-06 2020-10-30 中通天鸿(北京)通信科技股份有限公司 多路语音的混音方法及系统
CN110708432B (zh) * 2019-10-12 2021-01-12 浙江大华技术股份有限公司 音频会议中音频输出的方法、系统、设备及存储介质
CN111065019A (zh) * 2019-12-09 2020-04-24 唐山师范学院 一种多话筒混音方法
CN111696515B (zh) * 2020-06-15 2023-08-15 杭州艾力特数字科技有限公司 一种用于教学录播的音频混音方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192411A (zh) * 2007-12-27 2008-06-04 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8687820B2 (en) * 2004-06-30 2014-04-01 Polycom, Inc. Stereo microphone processing for teleconferencing
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
CN101894551B (zh) * 2010-07-02 2012-05-09 华南理工大学 一种咳嗽自动识别装置
CN102056053B (zh) * 2010-12-17 2015-04-01 中兴通讯股份有限公司 一种多话筒混音方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192411A (zh) * 2007-12-27 2008-06-04 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种新的多媒体会议实时混音方案;周敬利等;《小型卫星计算机系统》;20090131;第30卷(第1期);169-172页 *
视频会议中混音技术研究;蔡必强;《现代电子技术》;20061231(第235期);85-88页 *

Also Published As

Publication number Publication date
WO2012079459A1 (zh) 2012-06-21
CN102056053A (zh) 2011-05-11

Similar Documents

Publication Publication Date Title
CN102056053B (zh) 一种多话筒混音方法及装置
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
TWI720314B (zh) 基於相關性之近場偵測器
Zhang et al. On end-to-end multi-channel time domain speech separation in reverberant environments
CN103456305A (zh) 终端和基于多个声音采集单元的语音处理方法
CN102918588A (zh) 基于声输入信号提供空间参数的空间音频处理器和方法
JPH09261351A (ja) 音声電話会議装置
CN112363112B (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN107071636A (zh) 对带麦克风的设备的去混响控制方法和装置
CN110830870B (zh) 一种基于传声器技术的耳机佩戴者语音活动检测系统
Shujau et al. Separation of speech sources using an acoustic vector sensor
US11463833B2 (en) Method and apparatus for voice or sound activity detection for spatial audio
CN111179959B (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统
CN110265060B (zh) 一种基于密度聚类的说话人数目自动检测方法
CN113453138B (zh) 麦克风阵列中麦克风顺序的检测方法
Rosca et al. Multichannel voice detection in adverse environments
CN112954122B (zh) 甚高频话音通信系统话音比选方法
CN112530411B (zh) 一种实时分角色转录方法、设备和系统
Sun et al. A Lightweight Hybrid Multi-Channel Speech Extraction System with Directional Voice Activity Detection
Ma et al. Binaural cues for fragment-based speech recognition in reverberant multisource environments
Gong et al. Noise power spectral density matrix estimation based on modified IMCRA
EP2456184A1 (en) Method for playback of a telephone signal
CN114220457A (zh) 双通道通信链路的音频数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150401

Termination date: 20191217

CF01 Termination of patent right due to non-payment of annual fee