CN114827795A - 一种智能双向定向拾音麦克风 - Google Patents
一种智能双向定向拾音麦克风 Download PDFInfo
- Publication number
- CN114827795A CN114827795A CN202210476623.0A CN202210476623A CN114827795A CN 114827795 A CN114827795 A CN 114827795A CN 202210476623 A CN202210476623 A CN 202210476623A CN 114827795 A CN114827795 A CN 114827795A
- Authority
- CN
- China
- Prior art keywords
- pickup
- microphone
- sound
- band
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 230000000694 effects Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 abstract description 9
- 239000011159 matrix material Substances 0.000 abstract description 4
- 230000004044 response Effects 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 8
- 125000004122 cyclic group Chemical group 0.000 description 7
- 230000009467 reduction Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种智能双向定向拾音麦克风,包括麦克风本体,所述麦克风本体的环形阵列形成拾音波束,所述拾音波束进行特征抽取,将音频短时傅里叶变换后的特征经过滤波器处理后做对数变换再做DCT得到树皮频率倒谱系数,使用粗糙分辨率估计临界带增益。本发明采用的麦克风阵列算法是配合AI神经网络,通过不同方向阵列增益的基础计算,输送给神经网络大致的方向信息,再通过神经网络最终判断出每个频点的方向,优化干扰以及噪声的协方差矩阵计算,最后通过优化后的最小方差无失真响应算法得到更加干净的目标语音,相比传统的固定波束形成算法来降噪,降噪效果更好,处理后的音频经过语音识别转写的准确率也更高。
Description
技术领域
本发明涉及麦克风领域,具体涉及一种智能双向定向拾音麦克风。
背景技术
在通讯、营业厅等场景,由于环境较嘈杂,坐席和台位在沟通过程中,会出现因外界的噪声干扰大,从而很难分离坐席和台位所说的话、并且带有强噪声的音频会导致语音转写效果较差;
在相关技术中,为了减少外界的噪声对声源定位以及语音识别效果的影响,通常采用双麦克风阵列,双麦克阵列,由两个麦克风传感器组成,两个麦克风传感器在空间分布上有特定的距离,这种距离的远近决定了拾音设备能够采集声音的远近、大小和方位;
现有技术存在以下不足:
1、传统的双麦克风阵列技术,虽然能采集一定角度的声音,但由于其特定的结构,决定了其无法采集孔腔后端的声音,无法实现同时采集前后两个方向的声音,应用场景单一,尤其在柜台这种需要同时采集坐席和台位两个角色的场景中无法实现双向拾音的功能,另外一些发明中将两个双麦克风背靠背合并在一起,角度上的限制依旧很大,并且由于双麦的限制导致其不能完全屏蔽对端的声音,在实际噪声环境下的表现不够理想;
2、传统的定向拾音和降噪算法例如GSC算法,是通过语音达到方向的先验TDOA(到达时间差)信息,以及使用与达到方向TDOA信息相互正交的TDOA组成的阻塞矩阵完成对目标语音增强以及消除旁瓣的工作,然而由于语音是一个宽带信号,麦克风的拓扑结构不能在所有频率上避免的空间混叠的发生,以及语音和干扰并非不相关的信号,再加上阵列误差等种种因素,致使传统的GSC算法,对于平稳背景噪声具有良好的抑制效果,但对于低信噪比和瞬变噪声场景效果不佳。
发明内容
本发明的目的是提供一种智能双向定向拾音麦克风,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:一种智能双向定向拾音麦克风,包括麦克风本体,所述麦克风本体的环形阵列形成拾音波束;
所述拾音波束进行特征抽取,将音频短时傅里叶变换后的特征经过滤波器处理后做对数变换再做DCT得到树皮频率倒谱系数,使用粗糙分辨率估计临界带增益;
所述拾音波束通过以下步骤消除噪声:
S1:音频特征先过两个卷积神经网络对数据降采样;
S2:经过5个门控循环单元循环层做语音活动检测、噪声谱估计和噪声消除;
S3:输出音频增益和vad信息。
优选的,所述拾音波束的形成数量为4个,且拾音波束的波束范围为0~3,各自对应90°范围。
优选的,所述拾音波束拾音时,阵列算法增强波束范围内的声音,削弱波束外的声音,以增强录音信噪比。
优选的,所述拾音波束指定波束0和波束2位目标拾音方向,波束0的范围为90°,345°-45°范围录音增强,其他范围内录音减弱。
优选的,所述波束2在收音时,145°-225°的范围录音增强,其他范围录音被减弱。
优选的,所述特征抽取和音高分析得到的人声的基频信息组合作为神经网络模型的输入特征。
优选的,所述分辨率包括频率窗口以及频带,频带划分选择Opus的pitch计算代码,每个频带至少有4个bins,并使用三角频带每个三角的峰值和其相邻三角的边界点重合。
其中Es(b)为纯净语音的band能量,Ex(b)为带噪语音的band能量。
优选的,所述门控循环单元中,其中一个门控循环单元循环层是语音活动检测,其他的四个门控循环单元循环层做噪声谱估计和噪声消除。
在上述技术方案中,本发明提供的技术效果和优点:
1、本发明在嘈杂的环境下也可以通过语音定位识别营业厅柜台场景坐席和台位的双重或多重角色,并能输出纯净的人声音频;
2、本发明选择平面环形四麦麦克风阵列,包含信号的俯仰角信息,平面环形四麦麦克风阵列伴随阵元的增多,主瓣宽度随之变小,旁瓣幅值也会下降,有利于波束形成,并包含方向角和俯仰角信息,对语音处理非常有利,能够通过计算获取相对的坐席和台位方向的录音;
3、本发明采用的麦克风阵列算法是配合AI神经网络,通过不同方向阵列增益的基础计算,输送给神经网络大致的方向信息,再通过神经网络最终判断出每个频点的方向,优化干扰以及噪声的协方差矩阵计算,最后通过优化后的最小方差无失真响应算法得到更加干净的目标语音,相比传统的固定波束形成算法来降噪,降噪效果更好,语音还原度高,处理后的音频经过语音识别转写的准确率也更高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明麦克风的结构示意图。
图2为本发明麦克风的双向拾音原理图。
图3为本发明AI降噪处理流程图。
图4为本发明AI降噪算法模型网络结构示意图。
附图标记说明:
1、壳体;2、麦克风本体;3、开关;4、LED灯。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
在通讯、营业厅等场景,由于环境较嘈杂,坐席和台位在沟通过程中,会出现因外界的噪声干扰大,从而很难分离坐席和台位所说的话、并且带有强噪声的音频会导致语音转写效果较差;
在相关技术中,为了减少外界的噪声对声源定位以及语音识别效果的影响,通常采用双麦克风阵列,双麦克阵列,由两个麦克风传感器组成,两个麦克风传感器在空间分布上有特定的距离,这种距离的远近决定了拾音设备能够采集声音的远近、大小和方位,麦克风电路被内置进了设计好的结构壳体内部,结构壳体上具有适配传感器和麦克风传感器的孔腔,孔腔的设计遵循赫姆霍兹谐振器的原理,能增强采集声音的质量,通过这种设计,麦克风只能采集孔腔前方一定距离、一定水平角度范围内的声音,这样保证了对特定角度内采集声音的需求,对角度外的声音无法采集或声音明显衰减,为了采集前后两个方向,通常也有将两个双向麦克风背靠背合并成一个整体,以期望能同时收取面对面两个方向的声音;
目前市面上的麦克风阵列算法中,以自适应波束形成算法较多,该类波束形成算法常以具体准则为基础提出相应的算法,可用较少的麦克风取得较好的去噪效果,例如以线性约束最小方差(LCMV,linearly constrained minimum variance)为基础的线性约束最小方差(LCMV)方法及其衍生方法—广义旁瓣相消器(GSC,Generalized SidelobeCanceller)等,是在输出功率上施加线性约束,最小方差无失真响应(MVDR,MinimumVariance Distortionless Response)是以输出功率最小为目标,以最大信噪比(MaSNR,MaximalSNR)为基础的波束形成器,是以保证输出信噪比尽可能大为目标,自适应波束形成算法本质上以信号处理为基础,仍只是将语音看做普通的传输信号处理;
传统的双麦克风阵列技术,虽然能采集一定角度的声音,但由于其特定的结构,决定了其无法采集孔腔后端的声音,无法实现同时采集前后两个方向的声音,应用场景单一,尤其在柜台这种需要同时采集坐席和台位两个角色的场景中无法实现双向拾音的功能,另外一些发明中将两个双麦克风背靠背合并在一起,角度上的限制依旧很大,并且由于双麦的限制导致其不能完全屏蔽对端的声音,在实际噪声环境下的表现不够理想;
传统的定向拾音和降噪算法例如GSC算法,是通过语音达到方向的先验TDOA(TimeDifference of Arrival,到达时间差)信息,以及使用与达到方向TDOA信息相互正交的TDOA组成的阻塞矩阵完成对目标语音增强以及消除旁瓣的工作,然而由于语音是一个宽带信号,麦克风的拓扑结构不能在所有频率上避免的空间混叠的发生,以及语音和干扰并非不相关的信号,再加上阵列误差等种种因素,致使传统的GSC算法,对于平稳背景噪声具有良好的抑制效果,但对于低信噪比和瞬变噪声场景效果不佳,针对上诉问题我们提出以下方案;
实施例1
请参阅图1所示,本实施例所述一种智能双向定向拾音麦克风,包括壳体1、麦克风本体2、开关3以及LED灯4,且麦克风本体2嵌入设置在壳体1中,开关3以及LED灯4均设置在壳体1的顶部,且开关3以及LED灯4均与麦克风本体2电性连接;
进一步的,所述麦克风本体2的一侧还设置有Type C(供电口)、Lineout(3段耳机座,模拟信号输出)、RJ45(以太网口,音频传输)、wifi(wifi开关)以及信号灯;
请参阅图2所示,所述麦克风本体2能同时收取两个相对的方向的录音,即双向定向拾音,双向拾音麦克风环形阵列形成4个拾音波束(波束0~3),各自对应90°范围;
我们首先确定两个方向为目标拾音方向,当指定一个拾音波束进行拾音时,阵列算法会增强波束范围内的声音,削弱波束外的声音,以增强录音信噪比,指定波束0和波束2位目标拾音方向,当指定波束0进行拾音时,由于每个波束的范围为90°,所以345°-45°范围内录音得到增强,其他范围内录音会被减弱或者消除;
同样的,波束2在收音时,145°-225°的范围内的录音得到增强,其他范围内录音被减弱,这样,当这两个方向被指定到坐席和台位时,就能同时收到两个人的声音,并减弱其他方向的干扰声,并且,收音的角度也可以调试,根据实际的需求控制拾音的范围。
实施例2
请参阅图1所示,本实施例所述一种智能双向定向拾音麦克风,包括壳体1、麦克风本体2、开关3以及LED灯4,且麦克风本体2嵌入设置在壳体1中,开关3以及LED灯4均设置在壳体1的顶部,且开关3以及LED灯4均与麦克风本体2电性连接;
进一步的,所述麦克风本体2的一侧还设置有Type C(供电口)、Lineout(3段耳机座,模拟信号输出)、RJ45(以太网口,音频传输)、wifi(wifi开关)以及信号灯;
请参阅图2所示,所述麦克风本体2能同时收取两个相对的方向的录音,即双向定向拾音,双向拾音麦克风环形阵列形成4个拾音波束(波束0~3),各自对应90°范围;
我们首先确定两个方向为目标拾音方向,当指定一个拾音波束进行拾音时,阵列算法会增强波束范围内的声音,削弱波束外的声音,以增强录音信噪比,指定波束0和波束2位目标拾音方向,当指定波束0进行拾音时,由于每个波束的范围为90°,所以345°-45°范围内录音得到增强,其他范围内录音会被减弱或者消除;
同样的,波束2在收音时,145°-225°的范围内的录音得到增强,其他范围内录音被减弱,这样,当这两个方向被指定到坐席和台位时,就能同时收到两个人的声音,并减弱其他方向的干扰声,并且,收音的角度也可以调试,根据实际的需求控制拾音的范围。
进一步的,麦克风本体2使用的AI降噪的主要流程如附图3所示,其中Featureextraction(特征抽取)是处理过程中重要的一步,主要是将音频STFT(短时傅里叶变换)后的特征经过滤波器处理后做对数变换再做DCT得到BFCC(树皮频率倒谱系数),该特征再和Pitchanalysis(音高分析)得到的人声的基频信息(PITCH)组合作为神经网络模型的输入特征;
在降噪的神经网络部分,考虑麦克风阵列处理音频的实时性,目前大多数麦克风中使用的直接估计frequencybins(频率窗口)需要的网络复杂度较高,从而计算量较大,对硬件设备要求过高且可能带来较高的时延,因此本发明并没有直接计算频谱幅度,而是对理想临界带增益(idealcriticalbandgains)进行估计,假定频谱包络足够平坦,因此可以使用比较粗糙的分辨率;
相比frequencybins(频率窗口),frequencyband(频带)的数目更少,频带划分选择这里使用了Opus的pitch计算代码,在低频区,每个频带最少有4个bins,并且使用的是三角频带(滤波)而非矩形频带,每个三角的峰值和其相邻三角的边界点重合,最终band的数量为34;
因此,用ωb(k)表示第b个band在频率k处的幅度,有∑bwb(k)=1,对于频率信号X(k),某一个band的能量为Eb=∑kwb(k)|X(k)|2,每个band的增益为其中Es(b)为纯净语音的band能量,Ex(b)为带噪语音的band能量,由于噪声和语音不相关,因而带噪语音的能量必然大于纯净语音的能量,即Es<Ex,对于每个频带,语音越纯净,gb越大,对于含噪语音,乘以一个较小的增益,对于纯净语音,乘以一个较大的增益,这样便可以增强人声增益、抑制噪声。
进一步的,麦克风本体2具体的网络模型结构图如附图4所示,首先音频特征先过两个CNN(卷积神经网络)对数据降采样,目的是减少后面的模型参数,然后经过5个GRU(门控循环单元)循环层,其中一个循环层是VAD(语音活动检测),其他的四个GRU用来做噪声谱估计和噪声消除;
最终输出音频增益和vad信息,模型的损失函数采用交叉熵损失,即最小化真实增益gb和预测增益的差值,训练得到神经网络的参数,选择GRU网络做为循环层的网络,相比其他降噪算法中的LSTM(长短期记忆),训练参数更少且训练更快;
最后,由于生成特征的时候使用的是Bark’s scale进行频带处理,在计算频带能量时有相乘求和的操作,这样就会带来一定的平滑效果,使得共振峰凸显效果变弱,因而使用一个pitch滤波器对共振峰进行加强,滤波完成后进行ISTFT(短时傅里叶逆变换)便可得到降噪后的音频数据。
需要说明的是,在本文中,如若存在第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种智能双向定向拾音麦克风,包括麦克风本体2,其特征在于:所述麦克风本体2的环形阵列形成拾音波束;
所述拾音波束进行特征抽取,将音频短时傅里叶变换后的特征经过滤波器处理后做对数变换再做DCT得到树皮频率倒谱系数,使用粗糙分辨率估计临界带增益;
所述拾音波束通过以下步骤消除噪声:
S1:音频特征先过两个卷积神经网络对数据降采样;
S2:经过5个门控循环单元循环层做语音活动检测、噪声谱估计和噪声消除;
S3:输出音频增益和vad信息。
2.根据权利要求1所述的一种智能双向定向拾音麦克风,其特征在于:所述拾音波束的形成数量为4个,且拾音波束的波束范围为0~3,各自对应90°范围。
3.根据权利要求2所述的一种智能双向定向拾音麦克风,其特征在于:所述拾音波束拾音时,阵列算法增强波束范围内的声音,削弱波束外的声音,以增强录音信噪比。
4.根据权利要求3所述的一种智能双向定向拾音麦克风,其特征在于:所述拾音波束指定波束0和波束2位目标拾音方向,波束0的范围为90°,345°-45°范围录音增强,其他范围内录音减弱。
5.根据权利要求4所述的一种智能双向定向拾音麦克风,其特征在于:所述波束2在收音时,145°-225°的范围录音增强,其他范围录音被减弱。
6.根据权利要求5所述的一种智能双向定向拾音麦克风,其特征在于:所述特征抽取和音高分析得到的人声的基频信息组合作为神经网络模型的输入特征。
7.根据权利要求6所述的一种智能双向定向拾音麦克风,其特征在于:所述分辨率包括频率窗口以及频带,频带划分选择Opus的pitch计算代码,每个频带至少有4个bins,并使用三角频带每个三角的峰值和其相邻三角的边界点重合。
9.根据权利要求1所述的一种智能双向定向拾音麦克风,其特征在于:所述门控循环单元中,其中一个门控循环单元循环层是语音活动检测,其他的四个门控循环单元循环层做噪声谱估计和噪声消除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210476623.0A CN114827795A (zh) | 2022-04-30 | 2022-04-30 | 一种智能双向定向拾音麦克风 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210476623.0A CN114827795A (zh) | 2022-04-30 | 2022-04-30 | 一种智能双向定向拾音麦克风 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114827795A true CN114827795A (zh) | 2022-07-29 |
Family
ID=82512503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210476623.0A Pending CN114827795A (zh) | 2022-04-30 | 2022-04-30 | 一种智能双向定向拾音麦克风 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114827795A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737485A (en) * | 1995-03-07 | 1998-04-07 | Rutgers The State University Of New Jersey | Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems |
US20080069372A1 (en) * | 2006-09-14 | 2008-03-20 | Fortemedia, Inc. | Broadside small array microphone beamforming apparatus |
JP2020127071A (ja) * | 2019-02-01 | 2020-08-20 | オンキヨー株式会社 | 電子機器及びその制御方法 |
CN112017681A (zh) * | 2020-09-07 | 2020-12-01 | 苏州思必驰信息科技有限公司 | 定向语音的增强方法及系统 |
CN112185406A (zh) * | 2020-09-18 | 2021-01-05 | 北京大米科技有限公司 | 声音处理方法、装置、电子设备和可读存储介质 |
WO2021251627A1 (ko) * | 2020-06-11 | 2021-12-16 | 한양대학교 산학협력단 | 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치 |
CN113889136A (zh) * | 2021-09-14 | 2022-01-04 | 中科上声(苏州)电子有限公司 | 一种基于麦克风阵列的拾音方法、拾音装置及存储介质 |
CN114245266A (zh) * | 2021-12-15 | 2022-03-25 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
-
2022
- 2022-04-30 CN CN202210476623.0A patent/CN114827795A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737485A (en) * | 1995-03-07 | 1998-04-07 | Rutgers The State University Of New Jersey | Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems |
US20080069372A1 (en) * | 2006-09-14 | 2008-03-20 | Fortemedia, Inc. | Broadside small array microphone beamforming apparatus |
JP2020127071A (ja) * | 2019-02-01 | 2020-08-20 | オンキヨー株式会社 | 電子機器及びその制御方法 |
WO2021251627A1 (ko) * | 2020-06-11 | 2021-12-16 | 한양대학교 산학협력단 | 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치 |
CN112017681A (zh) * | 2020-09-07 | 2020-12-01 | 苏州思必驰信息科技有限公司 | 定向语音的增强方法及系统 |
CN112185406A (zh) * | 2020-09-18 | 2021-01-05 | 北京大米科技有限公司 | 声音处理方法、装置、电子设备和可读存储介质 |
CN113889136A (zh) * | 2021-09-14 | 2022-01-04 | 中科上声(苏州)电子有限公司 | 一种基于麦克风阵列的拾音方法、拾音装置及存储介质 |
CN114245266A (zh) * | 2021-12-15 | 2022-03-25 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Doclo et al. | GSVD-based optimal filtering for single and multimicrophone speech enhancement | |
CN107993670B (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
US9520139B2 (en) | Post tone suppression for speech enhancement | |
CN111161751A (zh) | 复杂场景下的分布式麦克风拾音系统及方法 | |
CN108922554B (zh) | 基于对数谱估计的lcmv频率不变波束形成语音增强算法 | |
Benesty et al. | Speech enhancement in the STFT domain | |
EP1658751B1 (en) | Audio input system | |
US7366662B2 (en) | Separation of target acoustic signals in a multi-transducer arrangement | |
EP2237270B1 (en) | A method for determining a noise reference signal for noise compensation and/or noise reduction | |
CN109727604A (zh) | 用于语音识别前端的频域回声消除方法及计算机储存介质 | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
EP1571875A2 (en) | A system and method for beamforming using a microphone array | |
US20070033020A1 (en) | Estimation of noise in a speech signal | |
CN106887239A (zh) | 用于高度相关的混合物的增强型盲源分离算法 | |
Roman et al. | Binaural segregation in multisource reverberant environments | |
US20180308503A1 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
Priyanka | A review on adaptive beamforming techniques for speech enhancement | |
CN112331226A (zh) | 一种针对主动降噪系统的语音增强系统及方法 | |
CN114245266B (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
Benesty et al. | Array beamforming with linear difference equations | |
CN111341339A (zh) | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
Compernolle | DSP techniques for speech enhancement | |
Huang et al. | Dereverberation | |
CN114827795A (zh) | 一种智能双向定向拾音麦克风 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |