CN110675887A - 一种用于会议系统的多麦克风切换方法和系统 - Google Patents

一种用于会议系统的多麦克风切换方法和系统 Download PDF

Info

Publication number
CN110675887A
CN110675887A CN201910865355.XA CN201910865355A CN110675887A CN 110675887 A CN110675887 A CN 110675887A CN 201910865355 A CN201910865355 A CN 201910865355A CN 110675887 A CN110675887 A CN 110675887A
Authority
CN
China
Prior art keywords
microphone
voice
energy
signals
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910865355.XA
Other languages
English (en)
Other versions
CN110675887B (zh
Inventor
周建明
康元勋
冯万健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yilian Communication Technology Co ltd
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN201910865355.XA priority Critical patent/CN110675887B/zh
Publication of CN110675887A publication Critical patent/CN110675887A/zh
Priority to EP20195776.8A priority patent/EP3793212B1/en
Application granted granted Critical
Publication of CN110675887B publication Critical patent/CN110675887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/509Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种用于会议系统的多麦克风切换方法和系统。该系统包括:语音检测单元、时延估计单元和能量计算单元。其中,语音检测单元用于响应于检测来自各麦克风输入通道的语音信号,随机选择所述各麦克风语音信号中的一个作为参考麦克风语音信号;时延估计单元用于利用所述参考麦克风语音信号估计剩余各麦克风语音信号的相对时延,将所述各麦克风语音信号按帧对齐;能量计算单元:配置用于计算对齐后所述各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。该方案有助于在使用多个麦克风拾音情况下,选择一路音质最好的麦克风语音信号的输出通道。

Description

一种用于会议系统的多麦克风切换方法和系统
技术领域
本申请涉及声音处理领域,具体涉及一种用于会议系统的多麦克风切换方法和系统。
背景技术
近年来,随着VOIP技术的进步和发展,视频会议的需求越来越多,视频会议可以实现多个用户同时进行语音通信,在通信领域中具有广泛的应用前景。随着智能语音的兴起,麦克风阵列拾音技术也逐步成为了当前热门的技术之一。
现有技术中经常使用麦克风阵列,来解决远距离语音识别率下降的问题,采用一定的波束形成和自适应滤波方法来消除噪声。在现实会议中可能有多个内置麦克风进行级联,而每个内置麦克风级联若干扩展麦克风,一般内置为指向麦,扩展麦可能为指向麦克风或全向麦克风。由于不同类型麦克风的特性的差异、麦克风摆放位置的偏差以及目标语音方向不准确等问题导致麦克风拾音效果较差,同时选择一路最佳麦克风输出通道成为亟需解决的问题。
发明内容
本申请的目的在于提出了一种用于会议系统的多麦克风切换方法和系统,来解决在多个麦克风拾音的环境下,选择一路优质音质的麦克风语音输出通道的技术问题。
第一方面,本申请实施例提供了一种用于会议系统的多麦克风切换方法,该方法包括:
S1:响应于检测到来自各麦克风输入通道的语音信号,随机选择各麦克风语音信号中的一个作为参考麦克风语音信号。
S2:利用参考麦克风语音信号估计剩余各麦克风语音信号的相对时延,将各麦克风语音信号按帧对齐。
S3:计算对齐后各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。
在一些具体实施例中,该方法还包括:在步骤S1之前还包括,采用AEC算法和VAD算法,消除远端语音信号,输出语音信号的强度大于第一门限值的各麦克风语音信号。采用声学回声消除算法(Acoustic Echo Cancellation,AEC)有效地排除远端回声,语音激活检测算法(Voice Activity Detection,VAD)计算对数值,输入语音信号对数值大于第一门限值的各麦克风输入语音信号作为进行S1步骤的语音信号,有利于排除噪音和杂音信号,提高选择优质音质麦克风语音输出通道概率。
在一些具体实施例中,第一门限值范围可设置为[-40dB,-30dB]。
在一些具体实施例中,该方法还包括:S2中的对齐步骤将麦克风语音信号按帧存储,计算各麦克风采集的语音信号与参考麦克风语音信号q1的最大相关值的样点位置,获得各麦克风语音信号的相对时延,进行对齐处理,相对时延的计算公式如下公式(1)所示:
Figure BDA0002201110270000021
公式(1)中,N表示声音最大延时对应的样本数,n为1到N的正整数,i表示第i个麦克风语音信号,j表示麦克风语音信号的第j个样点,q1(j+n)表示参考麦克风语音信号的采集帧第j+n个点的值,qi(j)表示第i个麦克风第j个点的值,Ri(n)表示第i个麦克风语音信号与参考麦克风语音信号q1的线性相关值。
在一些具体实施例中,将麦克风语音信号按帧截断并储存,每一帧帧长为8ms或者10ms便于后续步骤的时延对齐和能量计算。
在一些具体实施例中,该方法还包括:S3步骤的语音能量为计算对齐后的各麦克风语音信号每一帧的均方根值,均方根值的计算公式如下公式(2)所示:
公式(2)中,对齐后的第i个麦克风的语音数据表示为:xi1,xi2,…,xiL,其中,L为语音帧长。
在一些具体实施例中,语音帧长包括至少10帧的麦克风语音信号,每一帧的语音帧长设置为10ms。会议系统是一个实时系统,每次传输的麦克风语音帧长为8ms或者10ms,采用计算均方根值表示麦克风的语音能量,语音帧长不能过小,本优选方案中每一帧的帧长设置为10ms取连续10帧的语音信号进行平均取值,以便计算出来的均方根值数值大小适中,方便追踪。
在一些具体实施例中,该方法还包括:基于对语音能量跟踪,利用平滑处理技术实现各麦克风语音信号输出通道的切换。麦克风语音输入信号变化较大,采用语音平滑处理方式在切换过程中可以避免噪音出现。
在一些具体实施例中,该方法还包括:能量跟踪包括短时跟踪和长时跟踪,基于短时跟踪实现静音状态切换语音状态,基于长时跟踪实现长期静音状态或语音状态下切换各麦克风语音信号输出通道。当麦克风通道从静音状态切换语音状态时,采用记录时间间隔较短的短时跟踪(比如间隔时间为200ms),避免出现切换不及时的情况;当麦克风长期处于语音状态或静音状态,采用记录时间间隔较长的长时跟踪(比如间隔时间为2s),避免系统频繁运行,节省成本。
在一些具体实施例中,该方法还包括:平滑处理采用正弦曲线,具体计算公式如下公式(4)和公式(5)所示:
smooth2(i)=1-smooth(i),i=0,1,…,L-1 (5)
假设当前麦克风语音信号为x1,当前语音能量最大为x2,则平滑处理后的麦克风语音信号x为:
x(i)=smooth1(i)*x1(i)+smooth2(i)*x2(i),i=0,1,…,L-1 (6)。
在一些具体实施例中,该方法还包括景识别,具体包括:
响应于通过语音检测模块判定当前为静音状态,保持当前麦克风输出通道;
响应于跟踪到长时语音能量从静音状态到大于第一门限,输出语音能量最大的麦克风通道;
响应于跟踪到两路麦克风语音能量相差小于第二门限,保持当前麦克风输出通道;
响应于跟踪到两路麦克风语音能量相差大于第二门限,麦克风输出通道切换到语音能量变大的麦克风输出通道;
响应于跟踪到双工场景,提高第二门限,保持当前麦克风输出通道。
另一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述实施例的方法。
第三方面,本申请实施例提供了一种用于会议系统的多麦克风切换系统,该系统包括:语音检测单元:配置用于响应于检测来自各麦克风输入通道的语音信号,随机选择各麦克风语音信号中的一个作为参考麦克风语音信号;时延估计单元:配置用于利用参考麦克风语音信号估计剩余各麦克风语音信号的相对时延,将各麦克风语音信号按帧对齐;能量计算单元:配置用于计算对齐后各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。
本申请实施例提供的一种用于会议系统的多麦克风切换方法和系统,包括语音检测单元、时延估计单元和能量计算单元。其中,语音检测单元用于响应于检测来自各麦克风输入通道的语音信号,随机选择所述各麦克风语音信号中的一个作为参考麦克风语音信号;时延估计单元用于利用所述参考麦克风语音信号估计剩余各麦克风语音信号的相对时延,将所述各麦克风语音信号按帧对齐;能量计算单元:配置用于计算对齐后所述各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。有助于在使用多个麦克风拾音情况下,选择一路音质最好的麦克风语音信号的输出通道。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请实施例中的一种用于会议系统的多麦克风切换方法步骤示意图;
图2是根据本申请实施例中的一种用于会议系统的多麦克风切换方法的流程图;
图3是根据本申请实施例的一种用于会议系统的多麦克风切换方法的语音平滑系数示意图;
图4是根据本申请实施例的一种用于会议系统的多麦克风切换系统的结构示意图;
图5是根据本申请实施例的各麦克风阵列的分布示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请实施例中的一种用于会议系统的多麦克风切换方法步骤示意图,如图1所示:
S1:响应于检测到来自各麦克风输入通道的语音信号,随机选择各麦克风语音信号中的一个作为参考麦克风语音信号。
在该步骤中检测采集来自各个麦克风输入通道的语音信号,并且随机选择其中一路麦克风语音信号作为参考语音信号。各个麦克风可能是内置麦克风或扩展麦克风,距离扬声器的位置也各不相同,检测采集都各个麦克风输入通道的语音强度不一致,在语音检测步骤,采集各个麦克风输入语音信号强度,进行S2步骤的时延估计。
S2:利用参考麦克风语音信号估计剩余各麦克风语音信号的相对时延,将各麦克风语音信号按帧对齐。
在该步骤中由于不同种类麦克风,如内置麦克风和扩展麦克风,麦克风和扬声器位置关系等因素导致各个麦克风采集到语音信号延迟不一致,将所采集到来自的各麦克风输入语音信号按帧存储后分别与参考麦克风信号做时延估计,并将对齐后的麦克风语音信号进行与参考麦克风语音信号按帧对齐。基于对齐后的各麦克风输入语音信号才能进行语音能力计算或混音处理。
S3:计算对齐后各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。
在该步骤中计算每一帧对齐后的各麦克风语音输入信号语音能量,采用自适应处理和分析过程,间断跟踪各麦克风的语音输入能量并结合场景识别判定麦克风语音信号的输出通道。
在一些优选实施例中,采用声学回声消除算法(Acoustic Echo Cancellation,AEC)和语音激活检测算法(Voice Activity Detection,VAD),消除远端语音信号,输出语音信号的强度大于第一门限值的各麦克风输入语音信号作为进行S1步骤的语音信号。在现实会议中可能有多个内置麦克风进行级联,而每个内置麦克风级联若干扩展麦克风,一般内置麦克风为指向麦克风,扩展麦克风可能为指向麦克风和全向麦克风中的一种。采用AEC算法和VAD算法可以有效排除远端回声和VAD算法中对数值低于第一门限的噪音干扰,提高选择优质音质麦克风语音输出通道的概率。
在一些具体实施例中,第一门限值范围可设置为[-40dB,-30dB]。
在一些具体实施例中,将麦克风语音信号按帧截断并储存,每一帧帧长为8ms或者10ms便于后续步骤的时延对齐和能量计算。
在一些优选实施例中,S2中的对齐步骤将麦克风语音信号按帧存储,计算各麦克风采集的语音信号与参考麦克风语音信号q1的最大相关值的样点位置,获得各麦克风语音信号的相对时延,进行对齐处理,相对时延的计算公式如下公式(1)所示:
公式(1)中,N表示声音最大延时对应的样本数,n为1到N的正整数,i表示第i个麦克风语音信号,j表示麦克风语音信号的第j个样点,q1(j+n)表示参考麦克风语音信号的采集帧第j+n个点的值,qi(j)表示第i个麦克风第j个点的值,Ri(n)表示第i个麦克风语音信号与参考麦克风语音信号q1的线性相关值。
将各麦克风语音信号的线性相关值对应的n换算成时间t,得到各麦克风语音通道的时延时间,换算过程如下公式所示:
Figure BDA0002201110270000072
在一些优选实施例中,S3步骤的语音能量为计算对齐后的各麦克风语音信号每一帧的均方根值,均方根值的计算公式如下公式(2)所示:
Figure BDA0002201110270000073
公式(2)中,对齐后的第i个麦克风的语音数据表示为:xi1,xi2,…,xiL,其中,L为语音帧长。
由于会议系统是一个实时系统,设置每次传输的麦克风语音帧长为8ms或者10ms,采用计算均方根值表示麦克风的语音能量,语音帧长不能过小,本优选方案中每一帧的帧长设置为10ms取连续10帧的语音信号进行平均取值,以便计算出来的均方根值数值大小适中,方便追踪。
继续参考图2,其示出了根据本申请实施例中的一种用于会议系统的多麦克风切换方法的流程图。该方法包括以下步骤:
步骤201:语音检测。响应于检测各麦克风输入通道的信号强度,采用AEC算法消除远端语音信号和VAD算法判断各麦克风输入通道是否大于设定第一门限,根据设定第一门限判定是否为语音状态。利用语音检测有利于排除噪音和杂音信号,提高选择优质音质麦克风语音输出通道概率。
步骤202:时延估计。基于参考麦克风语音信号估计其他各麦克风语音信号的时延估计,将各麦克风语音信号按帧对齐,其中,参考麦克风语音信号为各麦克风语音信号中的一个。基于对齐后的各麦克风输入语音信号才能进行语音能力计算或混音处理。
步骤203:能量计算。计算对齐后各麦克风语音信号的语音能量,主要是对各个麦克风输入语音数据进行分帧处理并计算各个麦克风每一帧信号的均方根值。利用均方根值可以直观的反映语音能量的大小,便于利用语音能量进行跟踪。
步骤204:能量跟踪。采用自适应处理和分析过程,间断跟踪各麦克风的语音输入能量。根据麦克风工作状态,选择长时跟踪或短时跟踪方式,进行场景识别。
步骤205:场景识别。根据步骤201语音检测和步骤204能量跟踪结果匹配各麦克风语音通道所处的场景模式。
步骤206:麦克风选择。输出步骤205识别场景对应的麦克风语音通道。
步骤207:平滑处理。在单人从一个麦克风走到另一个麦克风和两人分别对两个麦克风交叉说话的场景模式下,采用平滑处理实现各个麦克风切换。
在一些优选实施例中,在两个麦克风输出语音通道采集到的语音能量一路慢慢变小,一路慢慢变大,并且超过第二门限的时候要进行平滑处理,否则会出现由于麦克风语音能量变化太大导致的pop噪音。
在一些优选实施例中,第二门限范围可设置为[3dB,6dB],可根据具体场景识别设置不同的第二门限值,比如当识别到双工场景可提高第二门限值为6dB。
平滑处理采用正弦曲线,具体计算公式如下公式(4)和公式(5)所示:
Figure BDA0002201110270000081
smooth2(i)=1-smooth(i),i=0,1,…,L-1 (5)
假设当前语音为x1,当前语音能量最大为x2,则平滑后的语音x为:
x(i)=smooth1(i)*x1(i)+smooth2(i)*x2(i),i=0,1,…,L-1 (6)。
如图3示出了根据本申请实施例的一种用于会议系统的多麦克风切换方法的语音平滑系数示意图。横坐标设置为平滑长度,纵坐标设置为平滑系数,smooth1为语音能量变小的麦克风语音输出信号,smooth2为语音能量变大的麦克风语音输出信号,smooth1的平滑系数的值从1逐渐降为0,smooth2的平滑系数的值从0升为1,完成两路麦克风语音输出通道的平滑切换。
在一些优选实施例中,能量跟踪包括短时跟踪和长时跟踪,基于短时跟踪实现静音状态切换语音状态,基于长时跟踪实现长期静音状态或语音状态切换麦克风通道。短时跟踪是对前T1时间比如200ms的语音能量进行跟踪,每次记录的时间间隔比较短,长时跟踪是对前T2时间比如2s的语音能量进行跟踪,每次记录的时间比较长。
需说明的是,当检测到麦克风输出通道为静音状态,比较各麦克风的噪声能量大小,噪音能量大的离噪声源比较近,能量小的离噪声源比较远,两者噪声能量差值大于第二门限,输出噪声能量较小的麦克风通道。
另外,当检测到麦克风输出通道静音状态或长时输出状态,另一个麦克风输入语音能量出现较短时间较大的能量或噪音,且两者的能量大于第二门限,保持当前麦克风语音输出通道。
此外,本申请还提出了一种用于会议系统的多麦克风切换系统。其中如图4所示,包括:语音检测单元401、时延估计单元402、能量计算单元403。其中,当语音检测单元401检测到各个麦克风输入通道的语音信号,按帧存储进入时延估计单元402进行时延估计后按帧对齐,在能量计算单元计算各麦克风输入通道的语音能量结合场景识别输出麦克风语音信号。
在具体的实施例中,语音检测单元401:配置用于响应于检测来自各麦克风输入通道的语音信号,随机选择各麦克风语音信号中的一个作为参考麦克风语音信号;
时延估计单元402:配置用于利用参考麦克风语音信号估计剩余各麦克风语音信号的相对时延,将各麦克风语音信号按帧对齐;
能量计算单元403:配置用于计算对齐后各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。
如图5所示,为本发明实施例中多个麦克风会议系统拾音部分示意图,INT表示内置麦克风,EXT表示扩展麦克风,在现实会议中可能有若干内置麦克风如INT1、INT2、INT3进行级联,若干扩展麦克风如EXT1、EXT2进行级联,一般内置为指向麦,扩展麦可能为指向麦或全向麦,本实施例中,设置3个内置麦克风都是指向麦,设置2个扩展麦克风都是全向麦。
在一些优选实施例中,场景模式可以包括以下几种:
当语音检测单元检测到各麦克风输入通道的语音信号为静音状态(远端可能有人在说话,但本端没有人说话,VAD算法小于第一门限),保持当前麦克风语音输出通道。
当单人对一个麦克风开始说话,当前麦克风语音输入信号强度从无到有且大于第一门限,结合语音检测和短时能量跟踪,快速切换到语音能量最大的麦克风输出通道。
当单人正对一个麦克风说话,当前麦克风语音输入信号强度一直大于第一门限,当前麦克风采集到的语音能量最大结合长时能量跟踪,保持当前语音能量最大的麦克风语音输出通道。
当单人在两个麦克风中间,两路麦克风语音输入信号强度大于第一门限,且小于第二门限,根据语音检测和长时跟踪两路麦克风采集到的语音能量相差不大,保持当前麦克风语音输出通道。
当单人从一个麦克风走到另一个麦克风,靠近发声源的一路麦克风输入语音能量逐渐变小,远离发声源的另一路麦克风输入语音能量逐渐变大,当两路麦克风语音语音能量相差大于第二门限,采用短时跟踪和语音平滑处理技术,切换到语音能量变大麦克风输出通道。
当两人分别对两个麦克风交叉说话,一段时间其中一个麦克风采集到的能量比较大,接下来一段时间内另一个麦克风采集到的能量比较大,当两路麦克风语音语音能量相差大于第二门限,采用短时跟踪和语音平滑处理技术,切换到语音能量变大麦克风输出通道。
当两人或者两人以上对两个或者两个以上麦克风同时说话,两个或两个以上麦克风语音输入通道均采集到大于第一门限值的语音信号各麦克风输入语音能量的差值小于第二门限,且语音能量最大麦克风输出通道切换很快,采用时延估计采集到各麦克风输入通道的语音信号,按帧对齐,计算各麦克风的语音能量,选择语音能量最大的两路麦克风输入通道信号进行混音,输出混音后的麦克风语音通道。
当其中一个麦克风离噪声源比较近,在静音期间,比较各麦克风语音输入通道的的噪声能量大小,能量大的离噪声源比较近,能量小的离噪声源比较远,两者噪音能量大于第一门限。采用语音检测和短时能量跟踪,选择噪音能量小的麦克风语音输出通道。
当瞬时噪声或者短时间的插话,在静音期间出现很短时间的噪声(能量较大)或者语音期间另外一个麦出现短时间较大能量语音或者噪声(能量较大)。采用语音检测和短时跟踪保持当前麦克风语音输出通道。
当语音检测双工场景时,提高第二门限值,保持当前麦克风语音输出通道或者切到双工效果最好的麦克风通道。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也可以根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括语音检测单元、时延估计单元和能量计算单元。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,语音检测单元还可以被描述为“响应于检测来自各麦克风输入通道的语音信号,随机选择所述各麦克风语音信号中的一个作为参考麦克风语音信号的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:语音检测单元、时延估计单元和能量计算单元。其中,语音检测单元用于响应于检测来自各麦克风输入通道的语音信号,随机选择所述各麦克风语音信号中的一个作为参考麦克风语音信号;时延估计单元用于利用所述参考麦克风语音信号估计剩余各麦克风语音信号的相对时延,将所述各麦克风语音信号按帧对齐;能量计算单元:配置用于计算对齐后所述各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种用于会议系统的多麦克风切换方法,其特征在于,所述方法包括:
S1:响应于检测到来自各麦克风输入通道的语音信号,随机选择所述各麦克风语音信号中的一个作为参考麦克风语音信号;
S2:利用所述参考麦克风语音信号估计剩余所述各麦克风语音信号的相对时延,将所述各麦克风语音信号按帧对齐;
S3:计算对齐后所述各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。
2.根据权利要求1所述的一种用于会议系统的多麦克风切换方法,其特征在于,所述方法在步骤S1之前还包括,采用AEC算法和VAD算法,消除远端语音信号,输出所述语音信号的强度大于第一门限值的所述各麦克风语音信号。
3.根据权利要求1所述的一种用于会议系统的多麦克风切换方法,其特征在于,所述S2中的对齐步骤将所述麦克风语音信号按帧存储,计算各麦克风采集的语音信号与参考麦克风语音信号q1的最大相关值的样点位置,获得所述各麦克风语音信号的相对时延,进行对齐处理,相对时延的计算公式如公式(1)所示:
Figure FDA0002201110260000011
公式(1)中,N表示声音最大延时对应的样本数,n为1到N的正整数,i表示第i个麦克风语音信号,j表示麦克风语音信号的第j个样点,q1(j+n)表示参考麦克风语音信号的采集帧第j+n个点的值,qi(j)表示第i个麦克风第j个点的值,Ri(n)表示第i个麦克风语音信号与所述参考麦克风语音信号q1的线性相关值。
4.根据权利要求1所述的一种用于会议系统的多麦克风切换方法,其特征在于,所述S3步骤的语音能量为计算对齐后的所述各麦克风语音信号每一帧的均方根值,所述均方根值的计算公式如公式(2)所示:
Figure FDA0002201110260000012
公式(2)中,对齐后的第i个麦克风的语音数据表示为:xi1,xi2,…,xiL,其中,L为语音帧长。
5.根据权利要求4所述的一种用于会议系统的多麦克风切换方法,其特征在于,所述语音帧长包括至少10帧的麦克风语音信号,每一帧的语音帧长设置为10ms。
6.根据权利要求1所述的一种用于会议系统的多麦克风切换方法,其特征还包括,基于对所述语音能量的跟踪,利用平滑处理实现所述各麦克风语音信号输出通道的切换。
7.根据权利要求6所述的一种用于会议系统的多麦克风切换方法,其特征在于,所述能量跟踪包括短时跟踪和长时跟踪,基于短时跟踪实现静音状态切换语音状态,基于长时跟踪实现长期静音状态或语音状态下切换所述各麦克风语音信号输出通道。
8.根据权利要求6所述的一种用于会议系统的多麦克风切换方法,其特征在于,所述平滑处理采用正弦曲线,具体计算公式如公式(4)和公式(5)所示:
Figure FDA0002201110260000021
smooth2(i)=1-smooth(i),i=0,1,…,L-1 (5)
假设当前麦克风语音信号为x1,当前语音能量最大为x2,则平滑处理后的麦克风语音信号x为:
x(i)=smooth1(i)*x1(i)+smooth2(i)*x2(i),i=0,1,…,L-1 (6)。
9.根据权利要求1所述的一种用于会议系统的多麦克风切换方法,其特征在于,所述场景识别具体包括:
响应于通过语音检测模块判定当前为静音状态,保持当前麦克风输出通道;
响应于跟踪到长时语音能量从静音状态到大于第一门限,输出语音能量最大的麦克风通道;
响应于跟踪到两路麦克风语音能量相差小于第二门限,保持当前麦克风输出通道;
响应于跟踪到两路麦克风语音能量相差大于所述第二门限,麦克风输出通道切换到语音能量变大的麦克风输出通道;
响应于跟踪到双工场景,提高所述第二门限,保持当前麦克风输出通道。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
11.一种用于会议系统的多麦克风切换系统,其特征在于,所述系统包括:
语音检测单元:配置用于响应于检测来自各麦克风输入通道的语音信号,随机选择所述各麦克风语音信号中的一个作为参考麦克风语音信号;
时延估计单元:配置用于利用所述参考麦克风语音信号估计剩余所述各麦克风语音信号的相对时延,将所述各麦克风语音信号按帧对齐;
能量计算单元:配置用于计算对齐后所述各麦克风语音信号的语音能量,结合场景识别确定麦克风语音信号的输出通道。
CN201910865355.XA 2019-09-12 2019-09-12 一种用于会议系统的多麦克风切换方法和系统 Active CN110675887B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910865355.XA CN110675887B (zh) 2019-09-12 2019-09-12 一种用于会议系统的多麦克风切换方法和系统
EP20195776.8A EP3793212B1 (en) 2019-09-12 2020-09-11 Multi-microphone switching method and system for conference system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910865355.XA CN110675887B (zh) 2019-09-12 2019-09-12 一种用于会议系统的多麦克风切换方法和系统

Publications (2)

Publication Number Publication Date
CN110675887A true CN110675887A (zh) 2020-01-10
CN110675887B CN110675887B (zh) 2021-12-21

Family

ID=69077934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910865355.XA Active CN110675887B (zh) 2019-09-12 2019-09-12 一种用于会议系统的多麦克风切换方法和系统

Country Status (2)

Country Link
EP (1) EP3793212B1 (zh)
CN (1) CN110675887B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648678A (zh) * 2019-09-20 2020-01-03 厦门亿联网络技术股份有限公司 一种用于具有多麦克风会议的场景识别方法和系统
CN111556410A (zh) * 2020-05-20 2020-08-18 南京中芯声学技术研究院 基于多工作模式麦克风的室内扩声系统工作模式切换方法
CN112562718A (zh) * 2020-11-30 2021-03-26 重庆电子工程职业学院 基于topk多路音源有效信号筛选系统及方法
CN112750439A (zh) * 2020-12-29 2021-05-04 恒玄科技(上海)股份有限公司 语音识别方法,电子设备及存储介质
CN115633292A (zh) * 2022-12-08 2023-01-20 深圳市拔超科技股份有限公司 多级级联内置扬声器的全向麦克风灵活组网系统及方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671753B2 (en) 2021-08-27 2023-06-06 Cisco Technology, Inc. Optimization of multi-microphone system for endpoint device

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1753084A (zh) * 2004-09-23 2006-03-29 哈曼贝克自动系统股份有限公司 使用噪声降低的多通道自适应语音信号处理
US20150030149A1 (en) * 2013-07-26 2015-01-29 Polycom, Inc. Speech-Selective Audio Mixing for Conference
CN104658536A (zh) * 2015-03-09 2015-05-27 深圳酷派技术有限公司 录音方式切换方法、录音方式切换系统和终端
JP2016149612A (ja) * 2015-02-10 2016-08-18 沖電気工業株式会社 マイクロホン間隔制御装置及びプログラム
US20160261951A1 (en) * 2013-10-30 2016-09-08 Nuance Communications, Inc. Methods And Apparatus For Selective Microphone Signal Combining
EP3122066A1 (en) * 2015-07-22 2017-01-25 Harman International Industries, Incorporated Audio enhancement via opportunistic use of microphones
JP2017152863A (ja) * 2016-02-23 2017-08-31 パナソニックIpマネジメント株式会社 拡声装置および拡声方法
WO2017157443A1 (en) * 2016-03-17 2017-09-21 Sonova Ag Hearing assistance system in a multi-talker acoustic network
WO2018164681A1 (en) * 2017-03-08 2018-09-13 Hewlett-Packard Development Company, L.P. Combined audio signal output
CN110010147A (zh) * 2019-03-15 2019-07-12 厦门大学 一种麦克风阵列语音增强的方法和系统
US20190230437A1 (en) * 2016-09-30 2019-07-25 Yamaha Corporation Conversation assist apparatus and conversation assist method

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1753084A (zh) * 2004-09-23 2006-03-29 哈曼贝克自动系统股份有限公司 使用噪声降低的多通道自适应语音信号处理
US20150030149A1 (en) * 2013-07-26 2015-01-29 Polycom, Inc. Speech-Selective Audio Mixing for Conference
US20160261951A1 (en) * 2013-10-30 2016-09-08 Nuance Communications, Inc. Methods And Apparatus For Selective Microphone Signal Combining
JP2016149612A (ja) * 2015-02-10 2016-08-18 沖電気工業株式会社 マイクロホン間隔制御装置及びプログラム
CN104658536A (zh) * 2015-03-09 2015-05-27 深圳酷派技术有限公司 录音方式切换方法、录音方式切换系统和终端
EP3122066A1 (en) * 2015-07-22 2017-01-25 Harman International Industries, Incorporated Audio enhancement via opportunistic use of microphones
JP2017152863A (ja) * 2016-02-23 2017-08-31 パナソニックIpマネジメント株式会社 拡声装置および拡声方法
WO2017157443A1 (en) * 2016-03-17 2017-09-21 Sonova Ag Hearing assistance system in a multi-talker acoustic network
US20190230437A1 (en) * 2016-09-30 2019-07-25 Yamaha Corporation Conversation assist apparatus and conversation assist method
WO2018164681A1 (en) * 2017-03-08 2018-09-13 Hewlett-Packard Development Company, L.P. Combined audio signal output
CN110010147A (zh) * 2019-03-15 2019-07-12 厦门大学 一种麦克风阵列语音增强的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. PUNCHIHEWA,等: "Acoustic triggering and tracking within security systems", 《RESEARCHGATE》 *
赵晖: "漫谈Audio-technica的多功能智能混音器的工程应用", 《音响技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648678A (zh) * 2019-09-20 2020-01-03 厦门亿联网络技术股份有限公司 一种用于具有多麦克风会议的场景识别方法和系统
CN110648678B (zh) * 2019-09-20 2022-04-22 厦门亿联网络技术股份有限公司 一种用于具有多麦克风会议的场景识别方法和系统
CN111556410A (zh) * 2020-05-20 2020-08-18 南京中芯声学技术研究院 基于多工作模式麦克风的室内扩声系统工作模式切换方法
CN112562718A (zh) * 2020-11-30 2021-03-26 重庆电子工程职业学院 基于topk多路音源有效信号筛选系统及方法
CN112750439A (zh) * 2020-12-29 2021-05-04 恒玄科技(上海)股份有限公司 语音识别方法,电子设备及存储介质
CN112750439B (zh) * 2020-12-29 2023-10-03 恒玄科技(上海)股份有限公司 语音识别方法,电子设备及存储介质
CN115633292A (zh) * 2022-12-08 2023-01-20 深圳市拔超科技股份有限公司 多级级联内置扬声器的全向麦克风灵活组网系统及方法

Also Published As

Publication number Publication date
EP3793212A1 (en) 2021-03-17
EP3793212B1 (en) 2023-11-01
CN110675887B (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN110675887B (zh) 一种用于会议系统的多麦克风切换方法和系统
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
CN108464015B (zh) 麦克风阵列信号处理系统
CN110648678A (zh) 一种用于具有多麦克风会议的场景识别方法和系统
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
CN110249637B (zh) 使用波束形成的音频捕获装置和方法
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及系统
EP3289586A1 (en) Impulsive noise suppression
EP3275208B1 (en) Sub-band mixing of multiple microphones
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
EP3757993B1 (en) Pre-processing for automatic speech recognition
US10504530B2 (en) Switching between transforms
CN110169082B (zh) 用于组合音频信号输出的方法和装置、及计算机可读介质
EP2745293B1 (en) Signal noise attenuation
US9875748B2 (en) Audio signal noise attenuation
CN111383629B (zh) 语音处理方法和装置、电子设备以及存储介质
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN113707149A (zh) 音频处理方法和装置
Tashev et al. Sound capture system and spatial filter for small devices
CN109801643B (zh) 混响抑制的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230506

Address after: Room 208-7, Hengye Building, No. 100 Xiangxing Road, Xiang'an Industrial Zone, Torch High tech Zone, Xiamen City, Fujian Province, 361101

Patentee after: Xiamen Yilian Communication Technology Co.,Ltd.

Address before: 361000 309, 3rd floor, No.16 Yunding North Road, Huli District, Xiamen City, Fujian Province

Patentee before: YEALINK (XIAMEN) NETWORK TECHNOLOGY Co.,Ltd.