CN107742522B - 基于麦克风阵列的目标语音获取方法及装置 - Google Patents

基于麦克风阵列的目标语音获取方法及装置 Download PDF

Info

Publication number
CN107742522B
CN107742522B CN201710994211.5A CN201710994211A CN107742522B CN 107742522 B CN107742522 B CN 107742522B CN 201710994211 A CN201710994211 A CN 201710994211A CN 107742522 B CN107742522 B CN 107742522B
Authority
CN
China
Prior art keywords
gain
signal
weak
strong
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710994211.5A
Other languages
English (en)
Other versions
CN107742522A (zh
Inventor
徐东阳
王海坤
王智国
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710994211.5A priority Critical patent/CN107742522B/zh
Publication of CN107742522A publication Critical patent/CN107742522A/zh
Priority to PL18870140.3T priority patent/PL3703053T3/pl
Priority to PCT/CN2018/095765 priority patent/WO2019080553A1/zh
Priority to ES18870140T priority patent/ES2967132T3/es
Priority to EP18870140.3A priority patent/EP3703053B1/en
Priority to KR1020207014257A priority patent/KR102469516B1/ko
Priority to HUE18870140A priority patent/HUE065302T2/hu
Priority to JP2020542484A priority patent/JP7011075B2/ja
Priority to US16/757,905 priority patent/US11081123B2/en
Application granted granted Critical
Publication of CN107742522B publication Critical patent/CN107742522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明公开了一种基于麦克风阵列的目标语音获取方法及装置,该方法包括:接收基于麦克风阵列采集的语音信号;确定预选目标语音信号及其方向;分别对所述预选目标语音信号进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号;基于所述强增益信号进行端点检测,得到端点检测结果;根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。利用本发明,可以得到准确、可靠的目标语音信号,进而避免目标语音质量对后续目标语音处理产生不利影响。

Description

基于麦克风阵列的目标语音获取方法及装置
技术领域
本发明涉及语音信号处理领域,具体涉及一种基于麦克风阵列的目标语音获取方法及装置。
背景技术
随着信息技术的突飞猛进式发展,越来越多的智能交互产品问世,语音作为最自然、最便捷的交互方式之一,是现今智能交互产品主流的交互方式。在实际语音交互过程中,交互效果直接受语音质量影响,而现实环境复杂多变,存在各种影响语音质量的噪声,因而如何较好地消除噪声、提高目标语音质量在交互场景极其重要。
现有主流的针对目标语音的降噪方法是基于麦克风阵列的降噪:利用多个麦克风得到语音信号的空间信息,对目标方向的目标信号进行语音增强,对非目标方向噪声进行抑制。该方法在麦克风数目较多时效果较好,但在实际应用中考虑到设备的成本和布局的限制,麦克风数目难以达到理想的数目,此时,各波束方向拾音区域较大,在目标方向信号所对应的波束中极有可能既包含目标语音,又包含非目标语音,在目标方向信号增强过程中,如果要想较好地去除噪声进行噪声强抑制,可能会导致目标语音失真,对后续目标语音处理带来不可逆转的影响。因而在现有技术中,一般不进行较强的噪声抑制,此时必然存在噪声残留,噪声残留会导致端点检测不准确,进而在后续目标语音处理,如语音识别中,会出现各种因端点检测不准确导致的插入或缺失错误,影响用户体验。
发明内容
本发明实施例提供一种基于麦克风阵列的目标语音获取方法及装置,以得到准确、可靠的目标语音信号,进而避免目标语音质量对后续目标语音处理产生不利影响。
为此,本发明提供如下技术方案:
一种基于麦克风阵列的目标语音获取方法,所述方法包括:
接收基于麦克风阵列采集的语音信号;
确定预选目标语音信号及其方向;
对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号;
基于所述强增益信号进行端点检测,得到端点检测结果;
根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
优选地,所述确定预选目标语音信号及其方向包括:
通过声源定位确定预选目标语音信号及其方向。
优选地,所述确定预选目标语音信号及其方向包括:
对所述语音信号进行波束成形处理,得到不同方向波束;
从所述不同方向波束中选择满足预设条件的波束,根据选择的波束确定目标语音信号及其方向。
优选地,所述对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号包括:
设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
根据强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角;
分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
优选地,所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
优选地,所述分别对所述预选目标语音信号进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号还包括:
计算所述预选目标信号和干扰信号的平滑能量比γ;
根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数;
根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整。
优选地,所述根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数包括:
在所述平滑能量比γ大于所述高能量比阈值时,将所述增益调整系数设定为1;在所述平滑能量比γ小于所述低能量比阈值时,将所述增益调整系数设定K0;在所述平滑能量比γ大于等于所述低能量比阈值并且小于等于所述高能量比阈值时,将所述增益调整系数设定为K1,其中,K1>K0
优选地,所述方法还包括:
在根据满足预设条件的波束确定预选目标语音信号及其方向之前,对各波束进行自适应滤波降噪处理;或者
在确定预选目标语音信号及其方向之后,对所述预选目标语音信号进行自适应滤波降噪处理。
一种基于麦克风阵列的目标语音获取装置,所述装置包括:信号接收模块、预选模块、增益处理模块、端点检测模块、目标语音提取模块。其中:
所述信号接收模块接收基于麦克风阵列采集的语音信号,并将所述语音信号输出给所述预选模块;
所述预选模块用于确定预选目标语音信号及其方向;
所述增益处理模块对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号,将所述强增益信号输出给所述端点检测模块,将所述弱增益信号输出给所述目标语音提取模块;
所述端点检测模块基于所述强增益信号进行端点检测,将端点检测结果输出给所述目标语音提取模块;
所述目标语音提取模块根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
优选地,所述预选模块通过声源定位确定预选目标语音信号及其方向。
优选地,所述预选模块包括:
波束形成单元,用于对所述语音信号进行波束成形处理,得到不同方向波束;
确定单元,用于从所述波束形成单元得到的不同方向波束中选择满足预设条件的波束,根据选择的波束确定所述预选目标语音信号及其方向。
优选地,所述增益处理模块包括:
角度设置单元,用于设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
增益计算单元,用于根据强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角;
增益信号生成单元,用于分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
优选地,所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
优选地,所述增益处理模块还包括:
能量比阈值设置单元,用于设定高能量比阈值和低能量比阈值;
能量比计算单元,用于计算所述预选目标信号和干扰信号的平滑能量比γ;
增益调整系数确定单元,用于根据所述平滑能量比γ及所述高能量比阈值和低能量比阈值确定增益调整系数;
增益修正单元,用于根据所述增益调整系数分别对所述增益计算单元得到的所述强方向增益和弱方向增益进行调整。
优选地,所述预选模块还包括:
降噪单元,设置在所述波束形成单元和所述确定单元之间,对所述波束形成单元得到的各波束进行自适应滤波降噪处理;
或者;所述装置还包括:
降噪模块,设置在所述预选模块和增益模块之间,对所述预选模块确定的预选目标语音信号进行自适应滤波降噪处理。
一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行前面所述的基于麦克风阵列的目标语音获取方法中的步骤。
本发明实施例提供的基于麦克风阵列的目标语音获取方法及装置,接收基于麦克风阵列采集的语音信号,确定预选目标语音信号及其方向,再对所述预选目标语音信号分别进行强、弱方向增益处理,得到强增益信号和弱增益信号,由于强增益后的语音信号中残留的噪声信号较少,因此基于所述强增益信号进行端点检测,可以得到准确的端点检测结果;由于弱增益后的语音信号中,目标语音失真很小,因此根据该端点检测结果,对所述弱增益信号进行端点处理,可以得到可信度更高的目标语音信号。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例基于麦克风阵列的目标语音获取方法的流程图;
图2是本发明实施例中基于声源方位角设计的增益示意图;
图3是本发明实施例基于麦克风阵列的目标语音获取装置的一种结构框图;
图4是本发明装置实施例中增益处理模块的一种结构示意图;
图5是本发明装置实施例中增益处理模块的另一种结构示意图;
图6是本发明实施例基于麦克风阵列的目标语音获取装置的另一种结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
语音增强的目标是在保证不损坏目标语音结构的前提下,减少甚至消除接收信号中存在的噪声,从而提高语音的清晰度。为此,本发明实施例提供一种基于麦克风阵列的目标语音获取方法及装置,基于麦克风阵列接收的语音信号,确定预选目标语音信号及其方向;对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,得到强增益信号和弱增益信号;基于所述强增益信号进行端点检测,得到端点检测结果;根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
如图1所示,是本发明实施例基于麦克风阵列的目标语音获取方法的流程图,包括以下步骤:
步骤101,接收基于麦克风阵列采集的语音信号。
在具体应用中,在接收到语音信号后,还需要对其进行预处理。
以包含M个麦克风的麦克风阵列接收语音信号xm(t)为例,对所述语音信号进行预处理主要指将接收到的语音信号从时域变换到频域,得到频域语音信号x(k,l)=[x1(k,l),x2(k,l)...xm(k,l)...xM(k,l)]T,其中xm(k,l)表示第m个麦克风接收到的频域语音信号,其中k表示信号的频率,l表示语音帧序号。
步骤102,确定预选目标语音信号及其方向。
在本发明实施例中,所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号、有效语音信号等,不论是何种语音信号,均可以采用声源定位方式确定预选目标语音信号及其方向。所述声源定位的具体过程与现有技术相同,在此不再赘述。
在采用声源定位方式确定预选目标语音信号及其方向之前,还可以对所述语音信号进行降噪处理,具体可以采用现有技术中的一些降噪方式,对此本发明实施例不做限定。
另外,在确定预选目标语音信号及其方向时,还可以先对所述语音信号进行波束成形处理,得到不同方向波束;然后从所述不同方向波束中选择满足预设条件的波束,根据选择的波束作确定目标语音信号及其方向。
波束成形具体可以采用现有技术,比如基于方向估计的自适应算法、基于信号结构的波束形成方法等,对此本发明实施例不做限定。
麦克风固定波束形成过程如下:
假设M个麦克风形成N个固定波束,各个麦克风对应的波束形成系数为:
w(k,l)=[w1(k,l),w2(k,l),……,wM(k,l)]T (1)
其中,k表示信号的频率,l表示语音帧序号;
则固定波束的输出为:
fix(k,l)=wH(k,l)x(k,l) (2)
上述固定波束形成系数可以基于期望方向信号无失真、其他方向输出信号功率足够小的原则进行计算得到。
需要说明的是,在实际应用中,在得到各波束后,还可以对其进行自适应滤波降噪处理。所述自适应滤波降噪处理包括多通道去混响、广义旁瓣相消等处理,也可采用现有其他降噪方法,对此不做限定。下面以广义旁瓣相消为例进行说明。
广义旁瓣相消的目的是对非目标方向的信号进行抑制,具体实现过程如下:
首先获得噪声参考信号:
u(k,l)=B(k,l)Hx(k,l) (3)
其中u=[u1(k,l),L,uM-1(k,l)]T是(M-1)×1矢量;B(k,l)是(M-1)×M的阻塞矩阵,可基于最大化抑制期望方向信号的原则得到,该矩阵用于得到剔除掉目标信号外的噪声参考信号。
然后从固定波束信号中滤除噪声信号,固定波束信号中的噪声信号可以用噪声参考信号乘以系数得到,最终的期望波束信号可以表示为:
Y(k,l)=fix(k,l)-H(k,l)Hu(k,l) (4)
其中,H(k,l)H表示滤波器系数,可以通过归一化线性最小均方误差(LMS)算法进行更新获得。
在前面提到,在本发明实施例中,所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号,在这种情况下,可以对各波束进行特定命令词和/或声纹识别,在识别到特定命令词和/或特定目标人后,挑选识别结果满足预设条件,比如识别分数最高的波束作为预选目标语音信号,相应地,该波束的方向即为预选目标语音信号的方向。对于所述预选目标语音信号为有效语音信号的情况,可以对各波束基于设定准则挑选出预选目标语音并确定其对应方向。所述设定准则可以是以下任意一项或组合:能量最大、信噪比最高。
需要说明的是,上述语音信号的自适应滤波降噪处理中多通道去混响、广义旁瓣相消等步骤,还可以在方位确定准确性允许的情况下,在目标语音方向确定之后进行,即对预选目标语音信号进行自适应滤波降噪处理,对此本发明实施例不做限定。
步骤103,对所述预选目标语音信号分别进行强方向增益和弱方向增益,得到强增益信号和弱增益信号。
因为GSC(Generalized Sidelobe Canceller,广义旁瓣抵消器)在非目标方向噪声抑制时通常只能抑制一部分非目标方向的噪声,通过方向增益处理可以对噪声进一步抑制。
为此,在本发明实施例中,通过两种强度的方向增益处理,分别得到强方向增益处理后的语音信号即强增益信号和弱方向增益处理后的语音信号即弱增益信号。处理后得到的强增益信号,其所残留的噪声信号较少,但目标语音信号相应也有较大的失真;而弱增益信号属性则相反。
增益处理过程如下:
1)设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
2)根据强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角;
3)分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
考虑到不同干扰情况下对所述预选目标语音信号的影响,进一步地,在上述步骤2)和步骤3)之间,还可以包括以下步骤:对基于声源方位角的强方向增益和弱方向增益进行调整,相应地,在步骤3)需要根据调整后的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
方向增益可通过以下公式表示:
Figure GDA0003241901910000091
其中,gi(θ,l)表示基于声源方位角θ设计的增益;如示意图2所示,θ为声源方位角,即指所述预选目标语音信号的方位角;-T1到T1的区域表示拾音区,T1到T2的区域、以及-T2到-T1的区域表示过渡带,大于T2和小于-T2的区域表示非拾音区。
需要说明的是:强方向增益和弱方向增益的区别在于T1和T2的取值。
在强方向增益时,T1的值取得较小(一般小于目标波束主瓣的角度,可根据实际应用情况确定),T2取值尽可能接近于T1,使得过渡带尽可能窄,以保证非拾音区的增益尽可能小,接近于0。当拾音区较小,同时过渡带设计得比较窄时,容易造成目标语音的失真,但是强方向增益处理后得到的强增益信号主要用于后续的目标语音开始和结束点检测,失真并不造成影响。
在弱方向增益时,T1取值相较于强方向增益大些,一般可稍小于或等于目标波束主瓣的角度(可根据实际应用情况确定),而T2取值可设计得尽可能大,保证声源估计错误时,目标语音分量不被过分抑制。
进一步地,考虑到不同干扰情况下对所述预选目标语音信号的影响,还可以对基于声源方位角的强方向增益和弱方向增益进行调整。对增益的调整过程如下:
首先计算预选目标信号和干扰信号的平滑能量比γ,根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数,从而在不同的平滑能量比情况下,对应不同的增益调整系数;然后根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整。
所述平滑能量比γ可以根据常规的平滑方式来计算,比如,可以采用以下公式计算得到:
Figure GDA0003241901910000101
其中,
Figure GDA0003241901910000102
和β为加权系数,
Figure GDA0003241901910000103
其值可根据实际应用情况确定,比如分别为0.9和0.1。Ytarget(k,l)表示预选目标信号,Yinterfere(k,l)表示干扰信号。
在所述平滑能量比γ大于所述高能量比阈值时,将所述增益调整系数设定为1;在所述平滑能量比γ小于所述低能量比阈值时,将所述增益调整系数设定K0;在所述平滑能量比γ大于等于所述低能量比阈值并且小于等于所述高能量比阈值时,将所述增益调整系数设定为K1,其中,K1>K0
比如,对强方向增益和弱方向增益的具体调整公式如下:
Figure GDA0003241901910000104
其中,
Figure GDA0003241901910000105
i=1、2,分别对应强方向增益和弱方向增益。γ(k,l)表示频率为k的第l帧的预选目标信号和干扰信号的平滑能量比,所述干扰信号可以取其它波束中能量最大的波束;γhigh、γlow分别表示高能量比阈值、低能量比阈值,其取值可根据实际应用情况确定,比如分别为4和0.4。K0为修正系数,主要用于在弱方向增益的时候,在有double-talk(双向通话)的情况下,对增益的修正,一般取一个较小的值,如0.2。
在确定好强、弱两方向增益后,得到增益后的两路信号,即强增益信号和弱增益信号:
Y1(k,l)=G1(k,l)Y(k,l) (8)
Y2(k,l)=G2(k,l)Y(k,l) (9)
其中,Y(k,l)表示所述预选目标语音信号,Y1(k,l)和Y2(k,l)分别为强增益信号和弱增益信号。
步骤104,基于所述强增益信号进行端点检测,得到端点检测结果。
端点检测是从包含语音的一段信号中准确地确定语音的起始点和终止点,从而确定语音和非语音信号。有效的端点检测不仅在语音识别、处理等应用中减少数据的采集量,还能排除无声段和噪声段的干扰,得到有效的语音信号。具体的端点检测可以采用现有技术,比如基于短时能量和短时平均过零率的端点检测、基于倒谱特征的端点检测、基于熵的端点检测等。
步骤105,根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
也就是说,根据步骤105得到的语音的起始点和终止点的位置,从所述弱增益信号得到最终目标语音信号。
本发明实施例提供的基于麦克风阵列的目标语音获取方法,接收基于麦克风阵列采集的语音信号,确定预选目标语音信号及其方向,对所述预选目标语音信号分别进行强、弱方向增益处理,得到强增益信号和弱增益信号,由于强增益后的语音信号中残留的噪声信号较少,因此基于所述强增益信号进行端点检测,可以得到准确的端点检测结果;由于弱增益后的语音信号中,目标语音失真很小,因此根据该端点检测结果,对所述弱增益信号进行端点处理,可以得到可信度更高的目标语音信号。
相应地,本发明实施例还提供一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行本发明基于麦克风阵列的目标语音获取方法实施例中的各步骤。
相应地,本发明实施例还提供一种基于麦克风阵列的目标语音获取装置,如图3所示,是该装置的一种结构框图,包括:信号接收模块301,预选模块302,增益处理模块303,端点检测模块304,目标语音提取模块305。其中:
所述信号接收模块301接收基于麦克风阵列采集的语音信号,并将所述语音信号输出给所述预选模块302;
所述预选模块302用于根据所述语音信号确定预选目标语音信号及其方向;
所述增益处理模块303对所述预选目标语音信号分别进行强方向性增益和弱方向性增益,得到强增益信号和弱增益信号,将所述强增益信号输出给所述端点检测模块304,将所述弱增益信号输出给所述目标语音提取模块305;
所述端点检测模块304基于所述强增益信号进行端点检测,将端点检测结果输出给所述目标语音提取模块305;
所述目标语音提取模块305根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号。
在实际应用中,所述信号接收模块301还需要对接收的语音信号进行预处理,对所述语音信号进行预处理主要指将接收到的语音信号从时域变换到频域,得到频域语音信号。
在本发明的一个实施例中,所述预选模块302可以通过声源定位确定预选目标语音信号及其方向。
在本发明的另一个实施例中,所述预选模块302可以先对所述语音信号进行波束成形处理,得到不同方向波束;然后选择满足预设条件的波束,根据选择的波束作确定目标语音信号及其方向。相应地,在该实施例中,所述预选模块302可以包括以下两个单元:
波束形成单元,用于对所述语音信号进行波束成形处理,得到不同方向波束,具体可以采用现有技术,比如基于方向估计的自适应算法、基于信号结构的波束形成方法等;
确定单元,用于从所述波束形成单元得到的不同方向波束中选择满足预设条件的波束,根据选择的波束确定所述预选目标语音信号及其方向。
比如,所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号,在这种情况下,所述确定单元可以对各波束进行特定命令词和/或声纹识别,在识别到特定命令词和/或特定目标人后,通挑选识别结果满足预设条件,比如识别分数最高的波束作为预选目标语音信号,相应地,该波束的方向即为预选目标语音信号的方向。
再比如,所述目预选目标语音信号为有效语音信号,在这种情况下,所述确定单元可以对各波束基于设定准则挑选出预选目标语音并确定其对应方向。所述设定准则可以是以下任意一项或组合:能量最大、信噪比最高。
需要说明的是,在上述波束形成单元和确定单元之间,还可设置降噪单元,对所述波束形成单元得到的各波束进行自适应滤波降噪处理,所述自适应滤波降噪处理包括以下任意一种或多种:多通道去混响、广义旁瓣相消。
如图4所示,是本发明装置实施例中增益处理模块的一种结构示意图。
在该实施例中,所述增益处理模块包括:
角度设置单元41,用于设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
增益计算单元42,用于根据所述强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据所述弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角;
增益信号生成单元43,用于分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
如图5所示,是本发明装置实施例中增益处理模块的另一种结构示意图。
与图4所示实施例相比,在该实施例中,所述增益处理模块还包括:
能量比阈值设置单元51,用于设定高能量比阈值和低能量比阈值;
能量比计算单元52,用于计算所述预选目标信号和干扰信号的平滑能量比γ;
增益调整系数确定单元53,用于根据所述平滑能量比γ及所述高能量比阈值和低能量比阈值确定增益调整系数;
增益修正单元54,用于根据所述增益调整系数分别对所述增益计算单元42得到的强方向增益和弱方向增益进行调整。
相应地,在该实施例中,增益信号生成单元43需要根据所述增益修正单元54调整后的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
当然,在实际应用中,上述角度设置单元41和能量比阈值设置单元51可以是独立的,也可以是集成于一体的,对此本发明实施例不做限定。
如图6所示,是该装置的另一种结构框图,与图3所示实施例相比较,在该实施例中,所述装置还包括:设置在所述预选模块302和所述增益模块303之间的降噪模块306,用于对所述预选模块302确定的预选目标语音信号进行自适应滤波降噪处理,比如多通道去混响、广义旁瓣相消等处理,当然,也可以包括现有技术中的其它降噪处理,对此本发明实施例不做限定。
本发明实施例提供的基于麦克风阵列的目标语音获取装置,基于麦克风阵列采集的语音信号,确定预选目标语音信号及其方向,再对所述预选目标语音信号分别进行强、弱方向增益处理,得到强增益信号和弱增益信号,由于强增益后的语音信号中残留的噪声信号较少,因此基于所述强增益信号进行端点检测,可以得到准确的端点检测结果;由于弱增益后的语音信号中,目标语音失真很小,因此根据该端点检测结果,对所述弱增益信号进行端点处理,可以得到可信度更高的目标语音信号。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种基于麦克风阵列的目标语音获取方法,其特征在于,所述方法包括:
接收基于麦克风阵列采集的语音信号;
确定预选目标语音信号及其方向;
对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,分别确定强方向增益和弱方向增益,基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号;
基于所述强增益信号进行端点检测,得到端点检测结果;
根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号;
所述对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,分别确定强方向增益和弱方向增益,包括:
设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
根据所述强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据所述弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角。
2.根据权利要求1所述的方法,其特征在于,所述确定预选目标语音信号及其方向包括:
通过声源定位确定预选目标语音信号及其方向。
3.根据权利要求1所述的方法,其特征在于,所述确定预选目标语音信号及其方向包括:
对所述语音信号进行波束成形处理,得到不同方向波束;
从所述不同方向波束中选择满足预设条件的波束,根据选择的波束确定目标语音信号及其方向。
4.根据权利要求1所述的方法,其特征在于,所述基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号,包括:
分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
5.根据权利要求1所述的方法,其特征在于,所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
6.根据权利要求1所述的方法,其特征在于,分别对所述预选目标语音信号进行强方向增益和弱方向增益处理,分别确定强方向增益和弱方向增益,还包括:
计算所述预选目标语音信号和干扰信号的平滑能量比γ;
根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数;
根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整;
所述基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号,包括:
分别根据调整后的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
7.根据权利要求6所述的方法,其特征在于,所述根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数包括:
在所述平滑能量比γ大于所述高能量比阈值时,将所述增益调整系数设定为1;在所述平滑能量比γ小于所述低能量比阈值时,将所述增益调整系数设定K0;在所述平滑能量比γ大于等于所述低能量比阈值并且小于等于所述高能量比阈值时,将所述增益调整系数设定为K1,其中,K1>K0
8.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在根据满足预设条件的波束确定预选目标语音信号及其方向之前,对各波束进行自适应滤波降噪处理;或者
在确定预选目标语音信号及其方向之后,对所述预选目标语音信号进行自适应滤波降噪处理。
9.一种基于麦克风阵列的目标语音获取装置,其特征在于,所述装置包括:信号接收模块、预选模块、增益处理模块、端点检测模块、目标语音提取模块;其中:
所述信号接收模块用于接收基于麦克风阵列采集的语音信号,并将所述语音信号输出给所述预选模块;
所述预选模块用于确定预选目标语音信号及其方向;
所述增益处理模块对所述预选目标语音信号分别进行强方向增益和弱方向增益处理,分别确定强方向增益和弱方向增益,基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号,将所述强增益信号输出给所述端点检测模块,将所述弱增益信号输出给所述目标语音提取模块;
所述端点检测模块用于基于所述强增益信号进行端点检测,将端点检测结果输出给所述目标语音提取模块;
所述目标语音提取模块用于根据所述端点检测结果对所述弱增益信号进行端点处理,得到最终目标语音信号;
所述增益处理模块包括:
角度设置单元,用于设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度;所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度,所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度;
增益计算单元,用于根据所述强方向增益的拾音区角度和过渡带角度,确定基于声源方位角的强方向增益,根据所述弱方向增益的拾音区角度和过渡带角度,确定基于声源方位角的弱方向增益;所述声源方位角是指所述预选目标语音信号的方位角。
10.根据权利要求9所述的装置,其特征在于,所述预选模块通过声源定位确定预选目标语音信号及其方向。
11.根据权利要求9所述的装置,其特征在于,所述预选模块包括:
波束形成单元,用于对所述语音信号进行波束成形处理,得到不同方向波束;
确定单元,用于从所述波束形成单元得到的不同方向波束中选择满足预设条件的波束,根据选择的波束确定所述预选目标语音信号及其方向。
12.根据权利要求9所述的装置,其特征在于,
增益信号生成单元,用于分别根据所述基于声源方位角的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
13.根据权利要求9所述的装置,其特征在于,所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。
14.根据权利要求9所述的装置,其特征在于,所述增益处理模块还包括:
能量比阈值设置单元,用于设定高能量比阈值和低能量比阈值;
能量比计算单元,用于计算所述预选目标语音信号和干扰信号的平滑能量比γ;
增益调整系数确定单元,用于根据所述平滑能量比γ及所述高能量比阈值和低能量比阈值确定增益调整系数;
增益修正单元,用于根据所述增益调整系数分别对所述增益计算单元得到的所述强方向增益和弱方向增益进行调整;
所述增益信号生成单元具体用于:分别根据调整后的强方向增益和弱方向增益,得到强增益信号和弱增益信号。
15.根据权利要求11所述的装置,其特征在于,
所述预选模块还包括:
降噪单元,设置在所述波束形成单元和所述确定单元之间,对所述波束形成单元得到的各波束进行自适应滤波降噪处理;
或者;所述装置还包括:
降噪模块,设置在所述预选模块和增益模块之间,对所述预选模块确定的预选目标语音信号进行自适应滤波降噪处理。
16.一种计算机可读存储介质,其特征在于,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行如权利要求1至8任一项所述的基于麦克风阵列的目标语音获取方法中的步骤。
CN201710994211.5A 2017-10-23 2017-10-23 基于麦克风阵列的目标语音获取方法及装置 Active CN107742522B (zh)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CN201710994211.5A CN107742522B (zh) 2017-10-23 2017-10-23 基于麦克风阵列的目标语音获取方法及装置
EP18870140.3A EP3703053B1 (en) 2017-10-23 2018-07-16 Microphone array-based target voice acquisition method and device
PCT/CN2018/095765 WO2019080553A1 (zh) 2017-10-23 2018-07-16 基于麦克风阵列的目标语音获取方法及装置
ES18870140T ES2967132T3 (es) 2017-10-23 2018-07-16 Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos
PL18870140.3T PL3703053T3 (pl) 2017-10-23 2018-07-16 Sposób i urządzenie do pozyskiwania głosu docelowego w oparciu o matrycę mikrofonową
KR1020207014257A KR102469516B1 (ko) 2017-10-23 2018-07-16 마이크로폰 어레이 기반 타겟 음성 획득 방법 및 장치
HUE18870140A HUE065302T2 (hu) 2017-10-23 2018-07-16 Mikrofontömb alapú célhang felvételi eljárás és eszköz
JP2020542484A JP7011075B2 (ja) 2017-10-23 2018-07-16 マイク・アレイに基づく対象音声取得方法及び装置
US16/757,905 US11081123B2 (en) 2017-10-23 2018-07-16 Microphone array-based target voice acquisition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710994211.5A CN107742522B (zh) 2017-10-23 2017-10-23 基于麦克风阵列的目标语音获取方法及装置

Publications (2)

Publication Number Publication Date
CN107742522A CN107742522A (zh) 2018-02-27
CN107742522B true CN107742522B (zh) 2022-01-14

Family

ID=61238104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710994211.5A Active CN107742522B (zh) 2017-10-23 2017-10-23 基于麦克风阵列的目标语音获取方法及装置

Country Status (9)

Country Link
US (1) US11081123B2 (zh)
EP (1) EP3703053B1 (zh)
JP (1) JP7011075B2 (zh)
KR (1) KR102469516B1 (zh)
CN (1) CN107742522B (zh)
ES (1) ES2967132T3 (zh)
HU (1) HUE065302T2 (zh)
PL (1) PL3703053T3 (zh)
WO (1) WO2019080553A1 (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN108735227B (zh) * 2018-06-22 2020-05-19 北京三听科技有限公司 对麦克风阵列拾取的语音信号进行声源分离的方法及系统
CN108962226B (zh) * 2018-07-18 2019-12-20 百度在线网络技术(北京)有限公司 用于检测语音的端点的方法和装置
CN110875056B (zh) * 2018-08-30 2024-04-02 阿里巴巴集团控股有限公司 语音转录设备、系统、方法、及电子设备
CN109243457B (zh) * 2018-11-06 2023-01-17 北京如布科技有限公司 基于语音的控制方法、装置、设备及存储介质
CN109545242A (zh) * 2018-12-07 2019-03-29 广州势必可赢网络科技有限公司 一种音频数据处理方法、系统、装置及可读存储介质
CN111627425B (zh) * 2019-02-12 2023-11-28 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN110310625A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 语音断句方法及系统
CN112216298B (zh) * 2019-07-12 2024-04-26 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备
CN110517677B (zh) * 2019-08-27 2022-02-08 腾讯科技(深圳)有限公司 语音处理系统、方法、设备、语音识别系统及存储介质
CN110415718B (zh) * 2019-09-05 2020-11-03 腾讯科技(深圳)有限公司 信号生成的方法、基于人工智能的语音识别方法及装置
CN110619895A (zh) * 2019-09-06 2019-12-27 Oppo广东移动通信有限公司 定向发声控制方法及装置、发声设备、介质和电子设备
CN110517702B (zh) * 2019-09-06 2022-10-04 腾讯科技(深圳)有限公司 信号生成的方法、基于人工智能的语音识别方法及装置
CN111243615B (zh) * 2020-01-08 2023-02-10 环鸿电子(昆山)有限公司 麦克风阵列信号处理方法及手持式装置
CN113141285B (zh) * 2020-01-19 2022-04-29 海信集团有限公司 一种沉浸式语音交互方法及系统
CN111161748B (zh) * 2020-02-20 2022-09-23 百度在线网络技术(北京)有限公司 一种双讲状态检测方法、装置以及电子设备
CN113393856B (zh) * 2020-03-11 2024-01-16 华为技术有限公司 拾音方法、装置和电子设备
CN111429905B (zh) * 2020-03-23 2024-06-07 北京声智科技有限公司 语音信号处理方法、装置、语音智能电梯、介质和设备
CN113496708B (zh) * 2020-04-08 2024-03-26 华为技术有限公司 拾音方法、装置和电子设备
CN111627456B (zh) * 2020-05-13 2023-07-21 广州国音智能科技有限公司 噪音排除方法、装置、设备及可读存储介质
USD958435S1 (en) * 2020-07-17 2022-07-19 Aiping GUO Motion sensor ceiling light
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN112185406A (zh) * 2020-09-18 2021-01-05 北京大米科技有限公司 声音处理方法、装置、电子设备和可读存储介质
CN112333602B (zh) * 2020-11-11 2022-08-26 支付宝(杭州)信息技术有限公司 信号处理方法、信号处理设备、计算机可读存储介质及室内用播放系统
CN112562681B (zh) * 2020-12-02 2021-11-19 腾讯科技(深圳)有限公司 语音识别方法和装置、存储介质
CN112735461B (zh) * 2020-12-29 2024-06-07 西安讯飞超脑信息科技有限公司 拾音方法以及相关装置、设备
CN112908310A (zh) * 2021-01-20 2021-06-04 宁波方太厨具有限公司 一种智能电器中的语音指令识别方法及识别系统
CN113053406B (zh) * 2021-05-08 2024-06-18 北京小米移动软件有限公司 声音信号识别方法及装置
WO2023085749A1 (ko) * 2021-11-09 2023-05-19 삼성전자주식회사 빔포밍을 제어하는 전자 장치 및 이의 동작 방법
CN114245266B (zh) * 2021-12-15 2022-12-23 苏州蛙声科技有限公司 小型麦克风阵列设备的区域拾音方法及系统
CN116168719A (zh) * 2022-12-26 2023-05-26 杭州爱听科技有限公司 一种基于语境分析的声音增益调节方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007086554A (ja) * 2005-09-26 2007-04-05 Toshiba Tec Corp 音声認識装置及び音声認識処理用プログラム
JP2007147732A (ja) * 2005-11-24 2007-06-14 Japan Advanced Institute Of Science & Technology Hokuriku 雑音低減システム及び雑音低減方法
WO2010098546A2 (ko) * 2009-02-27 2010-09-02 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP2011257627A (ja) * 2010-06-10 2011-12-22 Murata Mach Ltd 音声認識装置と認識方法
EP2755204A1 (en) * 2013-01-15 2014-07-16 Fujitsu Limited Noise suppression device and method
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统
CN105489224A (zh) * 2014-09-15 2016-04-13 讯飞智元信息科技有限公司 一种基于麦克风阵列的语音降噪方法及系统
CN106255026A (zh) * 2016-08-08 2016-12-21 浙江大学 基于语音模式识别和振动反馈的助残装置及交互方法
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107146614A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音信号处理方法、装置及电子设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2477767A1 (en) 2002-03-05 2003-11-20 Aliphcom Voice activity detection (vad) devices and methods for use with noise suppression systems
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
KR100959983B1 (ko) * 2005-08-11 2010-05-27 아사히 가세이 가부시키가이샤 음원 분리 장치, 음성 인식 장치, 휴대 전화기, 음원 분리방법, 및, 프로그램
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
CN101510426B (zh) * 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及系统
CN102196109B (zh) * 2010-03-01 2013-07-31 联芯科技有限公司 一种残留回声检测方法和系统
JP5672770B2 (ja) * 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
US9100735B1 (en) * 2011-02-10 2015-08-04 Dolby Laboratories Licensing Corporation Vector noise cancellation
US9354310B2 (en) 2011-03-03 2016-05-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound
CN103248992B (zh) * 2012-02-08 2016-01-20 中国科学院声学研究所 一种基于双麦克风的目标方向语音活动检测方法及系统
KR20130101943A (ko) * 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
CN102800325A (zh) * 2012-08-31 2012-11-28 厦门大学 一种超声波辅助麦克风阵列语音增强装置
CN102969002B (zh) * 2012-11-28 2014-09-03 厦门大学 一种可抑制移动噪声的麦克风阵列语音增强装置
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
CN103426440A (zh) 2013-08-22 2013-12-04 厦门大学 利用能量谱熵空间信息的语音端点检测装置及其检测方法
CN103544959A (zh) * 2013-10-25 2014-01-29 华南理工大学 一种基于无线定位麦克风阵列语音增强的通话系统及方法
CN104038880B (zh) * 2014-06-26 2017-06-23 南京工程学院 一种双耳助听器语音增强方法
WO2016076237A1 (ja) * 2014-11-10 2016-05-19 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
KR102444061B1 (ko) * 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007086554A (ja) * 2005-09-26 2007-04-05 Toshiba Tec Corp 音声認識装置及び音声認識処理用プログラム
JP2007147732A (ja) * 2005-11-24 2007-06-14 Japan Advanced Institute Of Science & Technology Hokuriku 雑音低減システム及び雑音低減方法
WO2010098546A2 (ko) * 2009-02-27 2010-09-02 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP2011257627A (ja) * 2010-06-10 2011-12-22 Murata Mach Ltd 音声認識装置と認識方法
EP2755204A1 (en) * 2013-01-15 2014-07-16 Fujitsu Limited Noise suppression device and method
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN105489224A (zh) * 2014-09-15 2016-04-13 讯飞智元信息科技有限公司 一种基于麦克风阵列的语音降噪方法及系统
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统
CN106255026A (zh) * 2016-08-08 2016-12-21 浙江大学 基于语音模式识别和振动反馈的助残装置及交互方法
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107146614A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音信号处理方法、装置及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
.《IEEE Transactions on Audio, Speech, and Language Processing》.2007,第 1114 – 1122页. *
Speech enhancement and recognition using circular microphone array for service robots;D Kong;《Proceedings 2003 IEEE/RSJ International Conference on Intelligent Robots and Systems》;20031103;第3516-3521页 *
Xianyu Zhao.Closely Coupled Array Processing and Model-Based Compensation for MicrophoneArray Speech Recognition *
语音识别技术在人机交互中的应用研究;高雪;《中国硕士学位论文全文数据库 信息科技辑》;20170815;I136-30 *

Also Published As

Publication number Publication date
EP3703053A4 (en) 2021-07-21
JP7011075B2 (ja) 2022-01-26
HUE065302T2 (hu) 2024-05-28
PL3703053T3 (pl) 2024-03-11
JP2021500634A (ja) 2021-01-07
US11081123B2 (en) 2021-08-03
KR102469516B1 (ko) 2022-11-21
KR20200066366A (ko) 2020-06-09
WO2019080553A1 (zh) 2019-05-02
US20200342887A1 (en) 2020-10-29
ES2967132T3 (es) 2024-04-26
EP3703053B1 (en) 2023-10-18
EP3703053A1 (en) 2020-09-02
EP3703053C0 (en) 2023-10-18
CN107742522A (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
CN107742522B (zh) 基于麦克风阵列的目标语音获取方法及装置
JP5436814B2 (ja) ビームフォーミングおよびポストフィルタリングの組み合わせによる雑音低減
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
US8396234B2 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
CN108922554B (zh) 基于对数谱估计的lcmv频率不变波束形成语音增强算法
US8891785B2 (en) Processing signals
JP5331201B2 (ja) オーディオ処理
CN108766456B (zh) 一种语音处理方法及装置
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
KR20090056598A (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
CN107018470A (zh) 一种基于环形麦克风阵列的语音记录方法及系统
CN106887239A (zh) 用于高度相关的混合物的增强型盲源分离算法
KR20060051582A (ko) 잡음 감소를 위한 다중채널 적응형 음성 신호 처리
CN1953059A (zh) 一种噪声消除装置和方法
CN106031196B (zh) 信号处理装置、方法以及程序
CN105702262A (zh) 一种头戴式双麦克风语音增强方法
US11483646B1 (en) Beamforming using filter coefficients corresponding to virtual microphones
US9743179B2 (en) Sound field spatial stabilizer with structured noise compensation
US20190035382A1 (en) Adaptive post filtering
CN112530451A (zh) 基于去噪自编码器的语音增强方法
CN110140171B (zh) 使用波束形成的音频捕获
Gomez et al. Robustness to speaker position in distant-talking automatic speech recognition
US10692514B2 (en) Single channel noise reduction
Zhao et al. Closely coupled array processing and model-based compensation for microphone array speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant