CN110012331B - 一种红外触发的远场双麦远场语音识别方法 - Google Patents
一种红外触发的远场双麦远场语音识别方法 Download PDFInfo
- Publication number
- CN110012331B CN110012331B CN201910289037.3A CN201910289037A CN110012331B CN 110012331 B CN110012331 B CN 110012331B CN 201910289037 A CN201910289037 A CN 201910289037A CN 110012331 B CN110012331 B CN 110012331B
- Authority
- CN
- China
- Prior art keywords
- microphone
- far
- noise
- voice
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000001960 triggered effect Effects 0.000 title claims abstract description 15
- 230000009467 reduction Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005314 correlation function Methods 0.000 abstract 1
- 238000001514 detection method Methods 0.000 abstract 1
- 230000001629 suppression Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种红外触发的远场双麦远场语音识别方法,通过前置后置双麦克的方式,从硬件上限制两路麦克的拾音方向,前置麦克拾取的语音强度大,背景噪声相对小,而后置麦克拾取的语音相对小,背景噪声相对大,而且不会包含喷麦噪声。同时,软件算法利用硬件麦克拾音的差异在背景噪声的抑制上采用了频域相关性函数计算频域增益的方式,在喷麦噪声上采用了前置麦克检测加后置麦克补偿的方式,很好的解决单颗麦克风上无法规避的问题。
Description
技术领域
本发明属于语音降噪技术领域,涉及一种对远场双麦远场语音识别方法,尤其是一种红外触发的远场双麦远场语音识别方法。
背景技术
伴随智能电视的普及,语音识别功能也越来越普及,智能语音遥控器作为人和电视语音的交互工具,起到了语音采集,传输的功能,是人机交互的一个重要接口。
目前的主流为语音遥控器,主要是单个麦克风对语音进行采集,并通过蓝牙传输到电视端进行语音识别,在背景噪声低或者无噪声的情况下能获得很好的语音识别效果。中国专利201780029587.0公开了一种用于自动语音识别预处理的系统和技术,其采用的技术方案中,首先获得多个音频通道;然后从音频通道去除混响,在去除混响之后,将多个音频通道划分为诸波束。基于噪声水平选择与诸波束中的波束对应的分区。从所选分区过滤音频信号。经过滤的音频信号可以经由预处理流水线的输出接口被提供给外部实体。
在实际的技术应用中,中国专利201811323511.1公开了一种远程会议语音识别数据传输方法,包括若干个参会终端设备,每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏,所述语音处理模块分别连接声纹训练模块和麦克风阵列,所述中央处理器分别连接存储模块、摄像头、wifi模块、扬声器和显示屏,所述Wifi模块通过互联网连接语音识别服务器。该技术方案不仅构建了远程视频会议,还通过语音识别将会议上发言人的语音进行处理,并转换成文档进行存储,通过声纹识别确认发音人的身份,并对会议中不同的发言人进行身份记录。
中国专利201810541703.3公开了一种远场语音识别方法、装置及系统,涉及语音识别技术领域,其主要用于远场语音识别。主要目的在于实现一种能够较好覆盖住宅或建筑物的语音识别方法,提高远场语音识别结果的准确性而发明。具体包括:采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的;识别所述语音信息是否为预设语音信息;若是,则通过无线传输将所述语音信息发送至处理端。综合比较现有技术,通过遥控器进行语音采集作为语音识别的输入,因空中带宽有限,需要对采集的语音进行压缩,通过蓝牙传输到电视端,解压后再输入给语音识别系统进行识别,而语音压缩算法会对采集的语音造成频谱损失,在一定程度上丢失原始语音的信息,也会带来延迟;因而不可避免的会带来对语音识别的影响,增加语音识别的误识别几率。
另外,在遥控器语音识别过程中,人必须对着手持麦遥控器,说话时嘴必须对着麦克风进行语音输入,使用中仍然有不方便的地方。
发明内容
针对现有技术存在的问题,本发明的目的在于提供软硬件结合的更符合智能人机接口应用的一种远场双麦克阵列降噪方法。
为实现上述目的,本发明采用的技术方案为一种红外触发的远场双麦远场语音识别方法,该方法的具体实现过程如下:
1)在电视端设置两颗麦克风拾音装置,通过两颗麦克风拾音装置实时采集语音数据;
2)当需要进行语音识别时,使用电视遥控器的红外语音按键控制电视端启动两颗麦克风拾音装置,然后进入语音识别状态,此时两颗麦克风拾音装置同时采集语音数据,分别获取时域语音数据T1和T2;
3)对T1和T2进行延迟相加和延迟相减,获得T_ADD和T_SUB。
4)分别对延迟相加T_ADD和延迟相减T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获取频域语音数据F1和F2。进而获得频域信号能量F1_2和F2_2,由此获得两路频域语音数据。
5)对两路频域语音数据进行稳态噪声估计,获得两颗麦克风的平均稳态噪声信息的估计值N1和N2;
6)计算两颗麦克风拾音装置的信号平均能量值X1和X2,然后和稳态噪声估计值进行比较,计算信号噪声能量和参考噪声能量的比值OMEGA,然后通过OMEGA的值和设定的阈值估计语音存在概率P,进而得到语音不存在概率Q。
7)使用语音存在概率和语音不存在概率计算语音存在的增益G对频域数据增益调整,获得调整增益后的频域优化信号F_OPT。之后再通过频域加窗和逆傅里叶变换将频域优化信号转换成时域稳态噪声优化信号T_FINAL。
进一步,所述步骤2)中,两颗麦克风分别获取时域语音数据,采样率为16000hz,并分每帧128个语音数据进行处理;输出所述时域语音数据为T1和T2。
进一步,在所述步骤3)中,延迟相加T_ADD和延迟相减信号T_SUB的计算公式为:
T_ADD=T1+T2
T_SUB=T1-T2
进一步,所述步骤4)中,输入的是时域语音数据T_ADD和T_SUB,输出是频域语音数据F1、F2和频域信号能量F1_2,F2_2,公式为:
F1=fft(HanningWindow*T_ADD)
F2=fft(HanningWindow*T_SUB)
F1_2=|F1|2
F2_2=|F2|2
HanningWindow指的是汉宁窗函数。
进一步,所述步骤5)中,语音噪声估计的方式是采用滑动最小递归平均(MCRA)算法对语音的稳态噪声进行估计,具体的实现方式计算频域信号的平方作为信号能量值,公式为:
alpha是平滑系数、N1last是1通道上一帧的噪声能量、THRSIGNAL是噪声能量判断阈值、N2last是2通道上一帧的噪声能量。
进一步,所述步骤6)中,信号平均能量X1和X2:
M是平均窗长度、i是平均序列号。
信号和参考噪声能量比值OMEGA的计算公式如下:
语音信号存在概率P的计算公式如下:
OMEGAhigh语音存在阈值、OMEGAlow语音不存在阈值。
语音不存在概率Q计算公式如下:
Q=1-P
进一步,所述步骤6)中,增益函数G的计算公式是:
进一步,所述步骤7)中,降噪后的频域语音数据公式为:
F1_OPT=G*F1
降噪后的时域语音数据公式为:
T1_FINAL=ifft(F1_OPT)。
进一步,所述步骤3)中,加窗运算选择的是汉宁窗,对每帧128个乘以汉宁窗系数,用来防止后面时频转换时发生频谱混叠。
本发明硬件上结构简单,相比之前的智能语音遥控器仅简单地增加1个远场拾音装置,在使用方式上摆脱了每次拾音都需要手持遥控器对着麦克风讲话的语音识别方式,采用了遥控器按键触发加远场语音识别的方式。软件算法上通过递归平均噪声估计方法对噪声进行消除增强语音信号。
附图说明
图1为设置于产品远场双麦降噪拾音装置的示意图。
图2为本发明远场双麦克建造方法流程框架图。
图3为远场降噪和语音增强效果。
具体实施方式
以下参考附图1-3,对本发明进行更全面的说明,附图中示出了本发明的示例性实施例。然而,本发明可以体现为多种不同形式,并不应理解为局限于这里叙述的示例性实施例。而是,提供这些实施例,从而使本发明全面和完整,并将本发明的范围完全地传达给本领域的普通技术人员。
如图1至图3所示,本发明一种红外触发的远场双麦远场语音识别方法,其中,在电视端正面设置麦克1和麦克2,采用线性放置的两颗麦克风进行语音采集。
当需要进行语音识别时,使用电视遥控器的红外语音按键控制电视端启动两颗麦克风拾音装置,然后进入语音识别状态。语音输入时,2路麦克同时拾音,开始语音增强算法处理。
语音增强,背景噪声降噪算法处理主要利用前后2路麦克语音数据的频域相关性对主麦克语音数据的频域增益进行修正:
如附图2所示,前置麦克风和后置麦克风分别获取时域语音数据,采样率为16000hz,即每秒16000个时域语音数据,我们分每帧128个语音数据进行处理,即每次取128个时域语音数据进行背景噪声降噪。该部分获得输出是时域语音数据T1和T2,分别对T1和T2进行延迟相加和延迟相减获得T_ADD和T_SUB,其中T_ADD用于主信号增强,而T_SUB用于参考噪声估计。
分别对主信号增强T_ADD和参考噪声T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获取频域语音数据。加窗运算选择的是汉宁窗,对每帧128个乘以汉宁窗系数,用来防止后面时频转换时发生频谱混叠,傅里叶变换是时域数据到频域数据的转换,具体算法实现中我们采用快速傅里叶变换(FFT),以减少硬件的负担。该部分的输入是时域语音数据T1和T2,输出是频域语音数据F1和F2。公式为:
F1=fft(HanningWindow*T_ADD)
F2=fft(HanningWindow*T_SUB)。
对主信号和参考噪声的频域数据采用递归拼接方法进行噪声估计。首先计算主信号的参考噪声信号的频域信号能量F1_2和F2_2,公式为:
F1_2=|F1|2
F2_2=|F2|2
然后计算信号噪声估计N1和N2,公式为:
其中,alpha是平滑系数,N1last和N2last是前一次计算的噪声值,THRnoise是噪声判断阈值,能量小于改值即认为是噪声。
该部分输入是频域语音数据F1和F2,输出是频域噪能量估计N1和N2。
估计语音存在概率,首先计算平均信号能量X1和X2,公式如下:
然后计算信号和参考噪声能量比,公式如下:
然后计算语音信号存在概率,公式如下:
当信号和参考噪声能量比小于OMEGAlow时,认为此时干扰噪声强,语音不存在,当信号参考噪声能量比大于OMEGAhigh时,认为此时主信号强,语音存在。其他情况下,根据信号和参考噪声能量比与OMEGAlow之差占比来计算语音信号存在概率。最后计算语音不存在概率,公式如下:
Q=1-P
该部分的输入为主信号能量和估计噪声、参考噪声信号能量和估计噪声,输出是语音信号存在概率。
采用信号存在概率计算增益函数G,公式如下:
其中Gmin是语音不存在时的最小增益。该部分输入是语音存在概率和主信号频域数据,输出是频域增益函数。
采用增益函数对前置麦克风的频域语音数据进行增益调整,获得降噪后的主信号麦克风的频域语音数据。该部分的输入是主信号频域语音数据和增益函数,输出是降噪后的频域语音数据。公式为(其中F1是主信号麦克的频域语音数据,F1_OPT为降噪后的频域语音数据):
F1_OPT=G*F1
降噪后的频域语音数据进行逆傅里叶变换,将频域语音数据变换成时域语音数据,实际采用的是快速逆傅里叶变换变换(IFFT)。公式为(其中T1_FINAL是降噪后的时域语音数据,F1_OPT是降噪后的频域语音数据):
T1_FINAL=ifft(F1_OPT)。
最终输出降噪后的时域语音数据T1_FINAL。
本发明中通过软件算法和硬件结合的方式达到语音增强目的:通过线性阵列双麦克的方式,组成了双麦克阵列。同时软件算法利用延迟相加和相减的方式构造了主信号和参考噪声信号,然后利用主信号和参考噪声信号的差异来判断语音信号存在概率,进而获得信号增益的函数,对语音进行噪声消除和语音增强。
本发明硬件上结构简单,相比之前的智能语音遥控器仅简单地增加1个远场拾音装置就能达到很好的语音增强的功能。简化了原语音遥控器需要一直手持输入语音的使用方式为简单的按键触发加远场语音识别方式,更符合语音识别的方便使用需求。软件算法上通过语音存在概率估计的方式计算语音增益函数,抑制了背景噪声,增强的语音信号。
背景噪声效果:如图3所示,是实际录音时的前置麦克和后置麦克录制的语音,可以看到有较强的背景噪声,降噪后的语音,可以看到经过降噪后的噪声被抑制而语音被完成的保留。
Claims (9)
1.一种红外触发的远场双麦远场语音识别方法,其特征在于:该方法的具体为:
1)在电视端设置两颗麦克风拾音装置,通过两颗麦克风拾音装置实时采集语音数据;
2)使用电视遥控器的红外语音按键,控制电视端启动两颗麦克风拾音装置,然后进入语音识别状态,此时两颗麦克风拾音装置同时采集语音数据,分别获取时域语音数据T1和T2;
3)对T1和T2进行延迟相加和延迟相减,获得主信号增强T_ADD和参考噪声T_SUB的时域语音数据;
4)对主信号增强T_ADD和参考噪声T_SUB的时域语音数据采用递归拼接方法进行噪声估计,获得主信号和参考噪声能量的比值OMEGA;
5)当主信号和参考噪声能量比小于OMEGAlow时,干扰噪声强,语音不存在;当主信号参考噪声能量比大于OMEGAhigh时,主信号强,语音存在;
6)当检测到语音存在,采用增益函数对前置麦克风的频域语音数据进行增益调整,获得降噪后的主信号麦克风的频域语音数据;并最终输出降噪后的时域语音数据;
所述步骤3)进一步包括:
1)分别对所述主信号增强T_ADD和参考噪声T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获取频域语音数据F1和F2;进而获得频域信号能量F1_2和F2_2,由此获得两路频域语音数据;
2)对两路频域语音数据进行稳态噪声估计,获得两颗麦克风的平均稳态噪声信息的估计值N1和N2;
3)计算两颗麦克风拾音装置的信号平均能量值X1和X2,然后和稳态噪声估计值进行比较,计算信号噪声能量和参考噪声能量的比值OMEGA,然后通过OMEGA的值和设定的阈值估计语音存在概率P,进而得到语音不存在概率Q;
4)使用语音存在概率和语音不存在概率计算语音存在的增益G对频域数据增益调整,获得调整增益后的频域语音数据F_OPT;之后再通过频域加窗和逆傅里叶变换将频域优化信号转换成时域稳态噪声优化信号T_FINAL。
2.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述步骤2)中,两颗麦克风分别获取时域语音数据,采样率为16000hz,并分每帧128个语音数据进行处理;输出所述时域语音数据为T1和T2。
3.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:在所述步骤3)中,延迟相加T_ADD和延迟相减信号T_SUB的计算公式为:
T_ADD=T1+T2
T_SUB=T1-T2。
4.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述步骤1)中,输入的是时域语音数据T_ADD和T_SUB,输出是频域语音数据F1、F2和频域信号能量F1_2,F2_2,公式为:
F1=fft(HanningWindow*T_ADD)
F2=fft(HanningWindow*T_SUB)
F1_2=|F1|2
F2_2=|F2|2
HanningWindow指的是汉宁窗函数。
8.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述步骤4)中,降噪后的频域语音数据公式为:
F1_OPT=G*F1
降噪后的时域语音数据公式为:
T1_FINAL=ifft(F1_OPT)。
9.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述步骤1)中,加窗运算选择的是汉宁窗,对每帧128个乘以汉宁窗系数,用来防止后面时频转换时发生频谱混叠。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910289037.3A CN110012331B (zh) | 2019-04-11 | 2019-04-11 | 一种红外触发的远场双麦远场语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910289037.3A CN110012331B (zh) | 2019-04-11 | 2019-04-11 | 一种红外触发的远场双麦远场语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110012331A CN110012331A (zh) | 2019-07-12 |
CN110012331B true CN110012331B (zh) | 2021-05-25 |
Family
ID=67171108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910289037.3A Active CN110012331B (zh) | 2019-04-11 | 2019-04-11 | 一种红外触发的远场双麦远场语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110012331B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473544A (zh) * | 2019-10-09 | 2019-11-19 | 杭州微纳科技股份有限公司 | 一种低功耗语音唤醒方法及装置 |
CN111696567B (zh) * | 2020-06-12 | 2022-04-01 | 思必驰科技股份有限公司 | 用于远场通话的噪声估计方法及系统 |
CN113132845A (zh) * | 2021-04-06 | 2021-07-16 | 北京安声科技有限公司 | 信号处理方法及装置、计算机可读存储介质及耳机 |
CN114257908A (zh) * | 2021-04-06 | 2022-03-29 | 北京安声科技有限公司 | 耳机的通话降噪方法及装置、计算机可读存储介质及耳机 |
CN114257921A (zh) * | 2021-04-06 | 2022-03-29 | 北京安声科技有限公司 | 拾音方法及装置、计算机可读存储介质及耳机 |
CN113345469B (zh) * | 2021-05-24 | 2024-07-09 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
EP2345031B1 (en) * | 2008-10-24 | 2015-07-29 | QUALCOMM Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
CN106971718A (zh) * | 2017-04-06 | 2017-07-21 | 绵阳美菱软件技术有限公司 | 一种空调及空调的控制方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN108986832A (zh) * | 2018-07-12 | 2018-12-11 | 北京大学深圳研究生院 | 基于语音出现概率和一致性的双耳语音去混响方法和装置 |
CN208724111U (zh) * | 2018-06-22 | 2019-04-09 | 四川长虹电器股份有限公司 | 基于电视设备的远场语音控制系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847298B (zh) * | 2017-02-24 | 2020-07-21 | 海信集团有限公司 | 一种基于弥漫式语音交互的拾音方法和装置 |
CN108899044B (zh) * | 2018-07-27 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
-
2019
- 2019-04-11 CN CN201910289037.3A patent/CN110012331B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2345031B1 (en) * | 2008-10-24 | 2015-07-29 | QUALCOMM Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
CN106971718A (zh) * | 2017-04-06 | 2017-07-21 | 绵阳美菱软件技术有限公司 | 一种空调及空调的控制方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN208724111U (zh) * | 2018-06-22 | 2019-04-09 | 四川长虹电器股份有限公司 | 基于电视设备的远场语音控制系统 |
CN108986832A (zh) * | 2018-07-12 | 2018-12-11 | 北京大学深圳研究生院 | 基于语音出现概率和一致性的双耳语音去混响方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110012331A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110012331B (zh) | 一种红外触发的远场双麦远场语音识别方法 | |
CN109273021B (zh) | 一种基于rnn的实时会议降噪方法及装置 | |
US8126161B2 (en) | Acoustic echo canceller system | |
CN107393550B (zh) | 语音处理方法及装置 | |
JP6703525B2 (ja) | 音源を強調するための方法及び機器 | |
KR101726737B1 (ko) | 다채널 음원 분리 장치 및 그 방법 | |
US9269367B2 (en) | Processing audio signals during a communication event | |
JP5007442B2 (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
CN108447496B (zh) | 一种基于麦克风阵列的语音增强方法及装置 | |
JP5231139B2 (ja) | 音源抽出装置 | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
CN110675887B (zh) | 一种用于会议系统的多麦克风切换方法和系统 | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
CN115482830B (zh) | 语音增强方法及相关设备 | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
US9532138B1 (en) | Systems and methods for suppressing audio noise in a communication system | |
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
CN112363112A (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
CN107452398B (zh) | 回声获取方法、电子设备及计算机可读存储介质 | |
JP2022544065A (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
WO2020107455A1 (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN110140171A (zh) | 使用波束形成的音频捕获 | |
CN115579016B (zh) | 一种声学回声消除的方法和系统 | |
JP2008209445A (ja) | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 | |
US11977855B2 (en) | System and method for automatic speech translation based on zero user interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |