CN108109617A - 一种远距离拾音方法 - Google Patents
一种远距离拾音方法 Download PDFInfo
- Publication number
- CN108109617A CN108109617A CN201810017174.7A CN201810017174A CN108109617A CN 108109617 A CN108109617 A CN 108109617A CN 201810017174 A CN201810017174 A CN 201810017174A CN 108109617 A CN108109617 A CN 108109617A
- Authority
- CN
- China
- Prior art keywords
- signal
- road
- voice
- sound
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 47
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 230000003044 adaptive effect Effects 0.000 claims abstract description 10
- 230000004807 localization Effects 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims abstract description 3
- 230000003542 behavioural effect Effects 0.000 claims description 21
- 238000009432 framing Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 5
- 238000005314 correlation function Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000004568 cement Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 102000008482 12E7 Antigen Human genes 0.000 description 1
- 108010020567 12E7 Antigen Proteins 0.000 description 1
- 102100037904 CD9 antigen Human genes 0.000 description 1
- 101000738354 Homo sapiens CD9 antigen Proteins 0.000 description 1
- 101000893549 Homo sapiens Growth/differentiation factor 15 Proteins 0.000 description 1
- 101000692878 Homo sapiens Regulator of MON1-CCZ1 complex Proteins 0.000 description 1
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 208000030251 communication disease Diseases 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明属于语音识别技术领域,公开了一种远距离拾音方法,包括以下步骤:由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号;各路的声音信号分别经过LMS自适应滤波处理,得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;将声源定位结果以及各路的语音特征进行ABF‑自适应波束形成处理,再把所有的信号叠加,提高输出语音信号的信噪比,将叠加后的信号作为目标源的声音输出。本发明能够实现准确拾取目标源的声音。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种远距离拾音方法。
背景技术
语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要的手段。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。因此,语音信号是人们构成思想沟通和感情交流的最主要的途径。并且由于语音与人的智力活动密切相关,与社会文化进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地生产、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。
语音是人机交互的一个重要方式,而如何得到高质量的语音信号一直是一个值得深入研究的课题。麦克风是最常见的语音采集工具,但单个孤立的麦克风的使用要求说话人必须在物理上接近麦克风,以减少环境噪声的影响,这种使用方式限制了人的活动,十分不便。一般超过一米之外就可以认为是属于远距离拾音的范围,现有的远距离拾音常常出现拾音噪音多的问题,无法准确拾取目标源的声音。
发明内容
本发明实施例的目的在于提供一种远距离拾音方法,准确拾取目标源的声音。
本发明实施例是这样实现的:
一种远距离拾音方法,包括以下步骤:
101、由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号,每路声音信号包括回声信号、混响信号、目标源信号、噪声信号和干扰信号;
102、各路的声音信号分别经过LMS自适应滤波处理,将两个相邻麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过LMS调整滤波器系数得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;
利用到达时间差确定目标声源的位置,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理,将各路信号进行合并,然后进行语音活动检测VAD,计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测,然后对声源进行定位;
识别出各路信号的语音特征,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理;
经过FFT处理后的信号经过声谱图分析,基音、音色分析,共振峰提取语音特征,经倒谱法、谱包络法进行运算,识别出该路信号中的第一动态特征;
经过FFT处理后的信号经过取绝对值或平方值处理,Mel滤波,然后取对数,进行DCT转换,识别出该路信号中的第二动态特征;
如果第一动态特征与第二动态特征一致,则将动态特征作为语音特征输出,如果不一致,则不输出语音特征,返回重新处理;
103、将声源定位结果以及各路的语音特征进行ABF-自适应波束形成处理,自动地迭代调节自身的滤波器参数,把不同相位的信号调整为相同的相位的信号后,再把所有的信号叠加,提高输出语音信号的信噪比,将叠加后的信号作为目标源的声音输出。
本发明的有益效果:
1、语音增强作用,解决噪声环境下的语音识别。因为麦克风阵列利用拾音波束成形,采用独特算法,有效抑制波束之外的噪声,同时融合语音信号的空时信息,从含噪声的语音信号中提取出纯净语音,有效地增强说话人语音。在实际应用的场合有家庭管家、机器人、网络音乐等语音识别场合。
2、声源定位功能,辅助多功能联运。阵列麦克风实现了多麦克风定向,能够准确计算目标说话人的角度和距离,实现对目标说话人的跟踪以及后续的语音定向拾取,精准度控制在一定的范围内,成为智能语音交互中捕捉说话人语音的重要方式。实际的应用场合有视频会议摄像头定位、安防摄像头定位、机器人定位等场合。
3、能够实现远场交互,打破远距离沟通障碍。麦克风阵列在前端充分利用其空域滤波特性,抑制拾音波束外的回声、混响等噪声,进行语音增强处理,辅之以语音识别引擎的二次处理,实现优质的远场识别交互功能。
4、打断纠错,主要是针对错误识别的解决方法。麦克风阵列融入了自适应、理解纠错、智能反馈等认知技术,重新提取大数据因素,并进行二次计算,实现智能纠正打断,能够适应更多的应用环境,具有进化调整功能,从而在人机交互的过程中,使机器更“听话”。
附图说明
图1是本发明远距离拾音的系统整体硬件框图;
图2是本发明远距离拾音信号处理示意图;
图3是本发明远距离拾音的语音特征识别以及提取方法流程图;
图4是本发明远距离拾音的声源定位方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
一种远距离拾音方法,包括以下步骤:
101、由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号,每路声音信号包括回声信号、混响信号、目标源信号、噪声信号和干扰信号;
102、各路的声音信号分别经过LMS自适应滤波处理,将两个相邻麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过LMS调整滤波器系数得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;
利用到达时间差确定目标声源的位置,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理,将各路信号进行合并,然后进行语音活动检测VAD,计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测,然后对声源进行定位;
识别出各路信号的语音特征,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理;
经过FFT处理后的信号经过声谱图分析,基音、音色分析,共振峰提取语音特征,经倒谱法、谱包络法进行运算,识别出该路信号中的第一动态特征;
经过FFT处理后的信号经过取绝对值或平方值处理,Mel滤波,然后取对数,进行DCT转换,识别出该路信号中的第二动态特征;
如果第一动态特征与第二动态特征一致,则将动态特征作为语音特征输出,如果不一致,则不输出语音特征,返回重新处理;
103、将声源定位结果以及各路的语音特征进行ABF-自适应波束形成处理,自动地迭代调节自身的滤波器参数,把不同相位的信号调整为相同的相位的信号后,再把所有的信号叠加,提高输出语音信号的信噪比,将叠加后的信号作为目标源的声音输出。
图1中,远距离拾音有多个不同的声源,回声信号、混响信号、目标源信号、噪声信号和干扰信号,分别向麦克风阵列输入回声、混响、目标信号、噪声和干扰信号,麦克风阵列包括MIC1、MIC2、MIC3至MICn,相邻麦克风之间的距离为d,麦克风阵列拾取信号后向麦克风阵列信号处理模块发送S1、S2、S3至Sn信号,经过算法及叠加后输出处理后的目标信号。
图2中,平面波X1(k)、X2(k)、X3(k)至Xn(k)信号输入麦克风阵列形成y1(k)、y2(k)、y3(k)至yn(k)信号,经AD转换,经FGPA数据信号处理,经过LMS自适应滤波后,识别出各路信号的语音特征1、语音特征2、语音特征3至语音特征n,同时进行TDOA算法处理,经ABF-自适应波束形成处理,然后进行叠加,经DA转换,输出目标信号。为了能更好解决语音信号实时处理的问题,本麦克风阵列的语音信号处理采用了FPGA技术设计方案,FPGA比DSP芯片处理的速度会更快、更高效。因为FPGA利用硬件并行处理的优势,打破了顺序执行的模式,在每个时钟周期内完成更多的处理任务,超越了数字信号处理器(DSP)的运算能力。FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。TDOA(Time Difference of Arrival到达时间差)定位是一种利用时间差进行定位的方法。
LMS自适应滤波:将两个麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过调整滤波器系数得到TDOA。
误差计算:
LMS自适应滤波计算:
hm(n+1)=hm+ue(n)x2(n-m)
ABF-自适应波束形成:ABF-自适应波束形成方法用于语音增强,对麦克风的接收信号进行空域自适应滤波,补偿声源到每个麦克风的时间差,使得各路输出信号在某一个方向同相,使得该方向的入射信号得到最大的增益,使得主波束内有最大输出功率的方向,形成了空域滤波,使得阵列具有方向选择性。
Main输出:yAuxi(n)=(WAdap)mMmx(n)
Auxi输出:yAuxi(n)=(WAdap)mMmx(n)
相差输出:Y(n)=yMain(n)-yAuxi(n)
系统SNR增益:
图3,作为语音特征提取的详细原理流程图,输入语音后,对信号进行预加重、分帧、加窗处理,经过FFT处理,经过FFT处理的信号经过声谱图分析,基音、音色分析,共振峰提取语音特征,经倒谱法、谱包络法进行运算,识别出第一动态特征,经过FFT处理的信号经过取绝对值或平方值处理,Mel滤波,然后取对数,进行DCT转换,识别出第二动态特征,如果第一动态特征与第二动态特征一致,则将动态特征作为语音特征输出,如果不一致,则不输出语音特征,返回重新处理。
其中,语音信号的预加重,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率;语音信号的分帧,因语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变),这样就可以把语音信号分为一些短段来进行处理;语音信号的加窗,语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的,目的是为更好提取有用的语音信号。
FFT处理:离散傅氏变换的快速算法。目的实现了高效率计算,快速处理语音信号。
通过语音声谱图分析,判断信号是否有与语音相关的信息。再通过语音特有特征,基音和音色确认信号是否带有语音信息。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知利用了共振峰信息,提取语音特征参数。经倒谱法、谱包络法进行运算,来提取语音共振峰的特征参数,识别出语音的动态特征。
取绝对值或平方值,从能量角度来判断信号是否带有语音信息。Mel滤波分析就是基于人耳就像一个滤波器组一样,它只关注某些特定的频率分量,所以可以通过Mel滤波后得到Mel频谱。经取对数,做逆变换算,逆变换一般是通过DCT离散余弦变换来实,取DCT后的第2个到第13个系数作为MFCC系数,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。
两个语音特征分析都带语音的信息,可以输出特征语音信号;有一路不满足语音特征、或者两路都不满足,都不输出特征语音。
图4,作为TDOA声源定位详细流程图,麦克风接收到的声音信号,经AD转换后,进行加窗分帧处理,然后进行FFT处理(快速傅立叶变换Fast Fourier Transformation),然后进行语音活动检测VAD,计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测,然后对声源进行定位。
其中,语音信号的预加重,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率;语音信号的分帧,因语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变),这样就可以把语音信号分为一些短段来进行处理;语音信号的加窗,语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的,目的是为更好提取有用的语音信号。
FFT处理:离散傅氏变换的快速算法。目的实现了高效率计算,快速处理语音信号。
语音活动检测VAD主要用于检测出一段人说话声中语音部分端点,结果用于语音识别;对语音信号进行计算权函数,然后加权,加权目的是提高语音信号的强度。多帧平滑处理,目的语音信号的过渡更加平滑,防止有突变信号出现,经互相关函数处理,得到各个声源的相位关系,再做插值处理,使相位的精度更高,再通峰值检测处理,最后判断出声音的方向。
图3和图4是并行处理的关系,各自处理完后,均有各自的系数输出。TDOA输出的系数和语音特征输出的系数同时输入到ABF(自适应波束成形),作为ABF处理的参考和调整系数,最终实现了定向的语音输出。
通过麦克风阵列能够解决的实际问题主要包括:噪声抑制、回声抑制、去混响、单声源定位、多个声源定位、源分离、声源数目估计、鸡尾酒会效应等。
为提高语音质量,解脱人们手持、或佩戴麦克风的束缚,基于麦克风阵列的语音处理技术逐渐成为一个新的研究热点。麦克风阵列是利用多个麦克风排列成的一定形状的阵列,用阵列信号处理的方法,确定声源的位置、进而定向采音,提高信噪比,以获得高质量的语音信号,实现说话人方向的实时跟踪,相当于在一定范围内为每个人生成了一个虚拟的麦克风。
声音信号的采集与分析处理在工程中经常需要要解决的问题,如何实时采集声音信号并对其分析处理,找出声音信号的特征在科学研究中是一项非常有意义的工作。声音数据采集系统是指将特定的声音信号真实的记录,以供人们进行进一步分析的电子系统。语音信号的采集和传输在语音通信等领域有着广泛的应用,在很多场合下需要对声源进行声音信号的采集、传输和分析。其中为了达到实用的程度,麦克风阵列语音数据采集系统必须具备各通道间同步实时采集、信噪比高、扩展性好等特点。基于麦克风阵列的语音处理技术,在时域和频域的基础上增加了空域处理,可以有效的滤除空间噪声,利用时延估计来对声源做定位。
远距离拾音主要使用了麦克风阵列技术方案。麦克风阵列技术指的是主要由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。而这些分析都可以由极坐标图以波束形式来显示语音信号的强度与角度。
对于空间多样性所提供的丰富信息需要做一步处理,因此,麦克风阵列信号处理的主要目的:根据应用的不同,利用麦克风阵列输出信号中包含的空域、时域(也可能是频域)信息,估计某些参数或提取感兴趣的信号。
麦克风阵列在实际的应用中主要解决远距离语音识别的问题,以保证真实场景下的语音识别率。典型的应用有智能家居、电话会议、多方通信、免提人机声音交互、对话系统、计算机游戏、指挥和控制接口、听定系统、高品质录音、声学监视、听觉场景。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种远距离拾音方法,其特征在于,包括以下步骤:
101、由多个麦克风组成的麦克风阵列拾取环境声音,得到与麦克风个数对应的多路声音信号,每路声音信号包括回声信号、混响信号、目标源信号、噪声信号和干扰信号;
102、各路的声音信号分别经过LMS自适应滤波处理,将两个相邻麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过LMS调整滤波器系数得到各路信号的到达时间差对声源进行定位,以及识别出各路信号的语音特征;
利用到达时间差确定目标声源的位置,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理,将各路信号进行合并,然后进行语音活动检测VAD,计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测,然后对声源进行定位;
识别出各路信号的语音特征,具体包括:在一路信号中,对信号进行预加重、分帧、加窗处理,分帧长度为10--30ms,经过FFT处理;
经过FFT处理后的信号经过声谱图分析,基音、音色分析,共振峰提取语音特征,经倒谱法、谱包络法进行运算,识别出该路信号中的第一动态特征;
经过FFT处理后的信号经过取绝对值或平方值处理,Mel滤波,然后取对数,进行DCT转换,识别出该路信号中的第二动态特征;
如果第一动态特征与第二动态特征一致,则将动态特征作为语音特征输出,如果不一致,则不输出语音特征,返回重新处理;
103、将声源定位结果以及各路的语音特征进行ABF-自适应波束形成处理,自动地迭代调节自身的滤波器参数,把不同相位的信号调整为相同的相位的信号后,再把所有的信号叠加,提高输出语音信号的信噪比,将叠加后的信号作为目标源的声音输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810017174.7A CN108109617B (zh) | 2018-01-08 | 2018-01-08 | 一种远距离拾音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810017174.7A CN108109617B (zh) | 2018-01-08 | 2018-01-08 | 一种远距离拾音方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108109617A true CN108109617A (zh) | 2018-06-01 |
CN108109617B CN108109617B (zh) | 2020-12-15 |
Family
ID=62219514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810017174.7A Active CN108109617B (zh) | 2018-01-08 | 2018-01-08 | 一种远距离拾音方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108109617B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036411A (zh) * | 2018-09-05 | 2018-12-18 | 深圳市友杰智新科技有限公司 | 一种智能终端语音交互控制方法及装置 |
CN109192219A (zh) * | 2018-09-11 | 2019-01-11 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
CN109246550A (zh) * | 2018-10-31 | 2019-01-18 | 北京小米移动软件有限公司 | 远场拾音方法、远场拾音装置及电子设备 |
WO2020048431A1 (zh) * | 2018-09-03 | 2020-03-12 | 阿里巴巴集团控股有限公司 | 一种语音处理方法、电子设备和显示设备 |
CN111429939A (zh) * | 2020-02-20 | 2020-07-17 | 西安声联科技有限公司 | 一种双声源的声音信号分离方法和拾音器 |
CN111968686A (zh) * | 2020-08-06 | 2020-11-20 | 维沃移动通信有限公司 | 录音方法、装置和电子设备 |
CN112201241A (zh) * | 2020-09-28 | 2021-01-08 | 适居之家科技有限公司 | 一种语音智能床头柜及其语音处理方法、语音控制系统 |
CN113132519A (zh) * | 2021-04-14 | 2021-07-16 | Oppo广东移动通信有限公司 | 电子设备、电子设备的语音识别方法及存储介质 |
CN113763982A (zh) * | 2020-06-05 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 音频处理方法、装置、电子设备及可读存储介质 |
CN113823311A (zh) * | 2021-08-19 | 2021-12-21 | 安徽创变信息科技有限公司 | 基于音频增强的语音识别方法及装置 |
CN117412223A (zh) * | 2023-12-14 | 2024-01-16 | 深圳市声菲特科技技术有限公司 | 远场拾音的方法、装置、设备与存储介质 |
CN117406174A (zh) * | 2023-12-15 | 2024-01-16 | 深圳市声菲特科技技术有限公司 | 准确定位声源的方法、装置、设备与存储介质 |
CN117877491A (zh) * | 2024-03-12 | 2024-04-12 | 华音(珠海)数字科技股份有限公司 | 一种带声纹识别的自适应拾音方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1753084A (zh) * | 2004-09-23 | 2006-03-29 | 哈曼贝克自动系统股份有限公司 | 使用噪声降低的多通道自适应语音信号处理 |
CN1947171A (zh) * | 2004-04-28 | 2007-04-11 | 皇家飞利浦电子股份有限公司 | 自适应波束形成器、旁瓣抑制器、自动语音通信设备 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
US20120076316A1 (en) * | 2010-09-24 | 2012-03-29 | Manli Zhu | Microphone Array System |
CN103339961A (zh) * | 2010-12-03 | 2013-10-02 | 弗兰霍菲尔运输应用研究公司 | 用于通过声波三角测量进行空间性选择声音获取的装置及方法 |
CN105229737A (zh) * | 2013-03-13 | 2016-01-06 | 寇平公司 | 噪声消除麦克风装置 |
CN106611600A (zh) * | 2016-12-02 | 2017-05-03 | 广州音书科技有限公司 | 用于远场拾音及移动充电的音频处理装置及系统 |
-
2018
- 2018-01-08 CN CN201810017174.7A patent/CN108109617B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1947171A (zh) * | 2004-04-28 | 2007-04-11 | 皇家飞利浦电子股份有限公司 | 自适应波束形成器、旁瓣抑制器、自动语音通信设备 |
CN1753084A (zh) * | 2004-09-23 | 2006-03-29 | 哈曼贝克自动系统股份有限公司 | 使用噪声降低的多通道自适应语音信号处理 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
US20120076316A1 (en) * | 2010-09-24 | 2012-03-29 | Manli Zhu | Microphone Array System |
CN103339961A (zh) * | 2010-12-03 | 2013-10-02 | 弗兰霍菲尔运输应用研究公司 | 用于通过声波三角测量进行空间性选择声音获取的装置及方法 |
CN105229737A (zh) * | 2013-03-13 | 2016-01-06 | 寇平公司 | 噪声消除麦克风装置 |
CN106611600A (zh) * | 2016-12-02 | 2017-05-03 | 广州音书科技有限公司 | 用于远场拾音及移动充电的音频处理装置及系统 |
Non-Patent Citations (1)
Title |
---|
桂雅骏: "一种融合音频和视频的室内智能监控系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020048431A1 (zh) * | 2018-09-03 | 2020-03-12 | 阿里巴巴集团控股有限公司 | 一种语音处理方法、电子设备和显示设备 |
CN109036411A (zh) * | 2018-09-05 | 2018-12-18 | 深圳市友杰智新科技有限公司 | 一种智能终端语音交互控制方法及装置 |
CN109192219B (zh) * | 2018-09-11 | 2021-12-17 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
CN109192219A (zh) * | 2018-09-11 | 2019-01-11 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
CN109246550A (zh) * | 2018-10-31 | 2019-01-18 | 北京小米移动软件有限公司 | 远场拾音方法、远场拾音装置及电子设备 |
CN109246550B (zh) * | 2018-10-31 | 2024-06-11 | 北京小米移动软件有限公司 | 远场拾音方法、远场拾音装置及电子设备 |
CN111429939A (zh) * | 2020-02-20 | 2020-07-17 | 西安声联科技有限公司 | 一种双声源的声音信号分离方法和拾音器 |
CN111429939B (zh) * | 2020-02-20 | 2023-06-09 | 西安声联科技有限公司 | 一种双声源的声音信号分离方法和拾音器 |
CN113763982A (zh) * | 2020-06-05 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 音频处理方法、装置、电子设备及可读存储介质 |
CN111968686A (zh) * | 2020-08-06 | 2020-11-20 | 维沃移动通信有限公司 | 录音方法、装置和电子设备 |
CN111968686B (zh) * | 2020-08-06 | 2022-09-30 | 维沃移动通信有限公司 | 录音方法、装置和电子设备 |
CN112201241A (zh) * | 2020-09-28 | 2021-01-08 | 适居之家科技有限公司 | 一种语音智能床头柜及其语音处理方法、语音控制系统 |
CN113132519A (zh) * | 2021-04-14 | 2021-07-16 | Oppo广东移动通信有限公司 | 电子设备、电子设备的语音识别方法及存储介质 |
CN113823311A (zh) * | 2021-08-19 | 2021-12-21 | 安徽创变信息科技有限公司 | 基于音频增强的语音识别方法及装置 |
CN113823311B (zh) * | 2021-08-19 | 2023-11-21 | 广州市盛为电子有限公司 | 基于音频增强的语音识别方法及装置 |
CN117412223A (zh) * | 2023-12-14 | 2024-01-16 | 深圳市声菲特科技技术有限公司 | 远场拾音的方法、装置、设备与存储介质 |
CN117412223B (zh) * | 2023-12-14 | 2024-06-07 | 深圳市声菲特科技技术有限公司 | 远场拾音的方法、装置与设备 |
CN117406174A (zh) * | 2023-12-15 | 2024-01-16 | 深圳市声菲特科技技术有限公司 | 准确定位声源的方法、装置、设备与存储介质 |
CN117406174B (zh) * | 2023-12-15 | 2024-03-15 | 深圳市声菲特科技技术有限公司 | 准确定位声源的方法、装置、设备与存储介质 |
CN117877491A (zh) * | 2024-03-12 | 2024-04-12 | 华音(珠海)数字科技股份有限公司 | 一种带声纹识别的自适应拾音方法 |
CN117877491B (zh) * | 2024-03-12 | 2024-06-18 | 华音(珠海)数字科技股份有限公司 | 一种带声纹识别的自适应拾音方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108109617B (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108109617A (zh) | 一种远距离拾音方法 | |
CN106251877B (zh) | 语音声源方向估计方法及装置 | |
CN102164328B (zh) | 一种用于家庭环境的基于传声器阵列的音频输入系统 | |
CN111445920B (zh) | 一种多声源的语音信号实时分离方法、装置和拾音器 | |
CN111044973B (zh) | 一种用于麦克风方阵的mvdr目标声源定向拾音方法 | |
CN111916101B (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
JP2021110938A (ja) | 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 | |
CN108447496B (zh) | 一种基于麦克风阵列的语音增强方法及装置 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
WO2012054248A1 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
CN108389586A (zh) | 一种远程集音装置、监控装置及远程集音方法 | |
US20220201421A1 (en) | Spatial audio array processing system and method | |
CN107124647A (zh) | 一种全景视频录制时自动生成字幕文件的方法及装置 | |
CN106992010A (zh) | 无直达声条件下的麦克风阵列语音增强装置 | |
CN112363112A (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
WO2023108864A1 (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
CN111341339A (zh) | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 | |
CN113744752A (zh) | 语音处理方法及装置 | |
Kechichian et al. | Model-based speech enhancement using a bone-conducted signal | |
CN113936687B (zh) | 一种实时语音分离语音转写的方法 | |
CN108257607B (zh) | 一种多通道语音信号处理方法 | |
CN206728275U (zh) | 远程阵列式集音器 | |
Gao et al. | A Physical Model-Based Self-Supervised Learning Method for Signal Enhancement Under Reverberant Environment | |
CN108281154B (zh) | 一种语音信号的降噪方法 | |
CN113782046B (zh) | 一种用于远距离语音识别的麦克风阵列拾音方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |