CN108389586A - 一种远程集音装置、监控装置及远程集音方法 - Google Patents
一种远程集音装置、监控装置及远程集音方法 Download PDFInfo
- Publication number
- CN108389586A CN108389586A CN201810121915.6A CN201810121915A CN108389586A CN 108389586 A CN108389586 A CN 108389586A CN 201810121915 A CN201810121915 A CN 201810121915A CN 108389586 A CN108389586 A CN 108389586A
- Authority
- CN
- China
- Prior art keywords
- module
- signal
- long
- processing module
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012806 monitoring device Methods 0.000 title claims description 9
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000011946 reduction process Methods 0.000 claims abstract description 23
- 230000000712 assembly Effects 0.000 claims abstract description 5
- 238000000429 assembly Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims description 22
- 230000002708 enhancing effect Effects 0.000 claims description 12
- 239000004568 cement Substances 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 7
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 239000000571 coke Substances 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 229920000742 Cotton Polymers 0.000 claims description 5
- 238000013016 damping Methods 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 5
- 238000003379 elimination reaction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种远程集音装置及远程集音方法,包括拾音单元模块、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块;拾音单元模块包括反射面以及设置在反射面中心位置的多个传声器组件,每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端,每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端,麦克风阵列处理模块的输出端接入指向性处理模块的输出端。
Description
技术领域
本发明涉及一种远程集音装置及远程集音方法。
背景技术
在安保、安防,采访等领域,各类视频监控或视频采集系统已经得到广泛应用。依托各类视频监控或视频采集系统,可以对远距离视频中相关人员进行准确拍摄,但在利用视频监控系统进行远距离拍摄时很难进行远距离语音采集,如能通过远距离语音采集,视频监控系统即可利用语言、对话信息分析嫌疑人,视频采集系统可以视频语音同步记录,将可大大影响了工作效率。但在实际环境背景噪声条件下进行远距离语音采集可以实现,但是清晰度仍然较低。
发明内容
本发明要解决的技术问题是,提供一种能有效进行集音并能得到清晰度高的远程集音装置及远程集音方法。
本发明的技术解决方案是,提供一种具有以下结构的远程集音装置,包括拾音单元模块、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块;拾音单元模块包括反射面以及设置在反射面中心位置的多个传声器组件,每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端,每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端,麦克风阵列处理模块的输出端接入指向性处理模块的输出端。
优选的,还包括用于固定麦克风组件的框体,所述的框体下部连接有云台。
优选的,所述的框体设置拾音单元模块的一侧设有摄像组件,另一侧设有红外灯组件。
优选的,所述的麦克风组件包括设置在反射面外壁的减震吸音棉,所述的反射面开口处设有防水罩。
优选的,阵列麦克风内含电源反向保护模块、防雷击模块。
采用以上结构后,本发明的远程集音装置,与现有技术相比,具有以下优点:通过多个麦克风组件实现拾音,由于麦克风组件直接有单一反射面和单一拾音单元组成,结构紧凑,并通过多个单通道降噪处理模块、阵列处理模块以及指向性处理模块实现声音信号的处理,单通道降噪处理模块能有效去除噪声并减少噪声对阵列效果的影响,阵列处理模块能将多个信号进行整合增益,最后通过指向性处理模块形成心型或高心型或超心型拾音模型,得到了清晰的语音输出。
本发明的另一技术解决方案是,提供一种监控装置,包括摄像组件、上述任一一种远程集音装置及音视频联动模块,所述的摄像组件输出变倍信号,所述的远程集音装置内指向性处理模块输出语音增强信号至音视频联动模块,所述的音视频联动模块根据摄像组件输出的变倍信号改变输出语音增强信号的音量大小,所述的摄像组件与集音装置同步运动。
采用以上结构后,本发明的监控装置,与现有技术相比,具有以下优点:由于集音装置结构紧凑便于整合至视频监控设备内,可以很方便的将集音装置整合到监控装置内,两者固定连接实现联动,能在远距离拍摄时进行远距离语音采集,并通过音视频联动模块识别摄像组件输出的变倍信号,通过变倍信号改变输出语音增强信号的音量大小,实现监控视频播放的时候不仅能对应采集声音且可以自动调节到合适的声音播放。
本发明的另一技术解决方案是,提供一种远程集音方法,其特征在于:包括以下步骤:
S1、多个拾音单元均沿一个方向进行声音拾取形成带噪语音并将带噪语音输入单通道降噪处理模块;
S2、单通道降噪处理模块首先对带噪语音进行成帧,然后对语音频谱进行估计和平滑并识别噪声类型,之后选取与噪声类型对应的滤波模型进行噪声消除,将降噪后的语音信号输入至阵列处理模块;
S3、阵列处理模块采用延迟求和波束形成算法处理降噪后的语音信号提升阵列增益并将信号输入至指向性处理模块;
S4、指向性处理模块采用基于人耳的听感知特性的计算机听觉场景分析技术建立心型或超心型拾音模型。
优选的,所述的步骤S2中滤波模型进行噪声消除的方法如下,利用端点检测的结果对噪声的频谱进行估计,频域维纳滤波系数通过Mel滤波器组转化为Mel域的维纳滤波系数,接着采用Mel IDCT得到滤波器的时域冲激响应,最终使用卷积得到增强后的时域语音信号用于后端的模型匹配。
优选的,所述的步骤S3中采用延迟求和波束形成算法如下,各通道接收到的单路降噪信号经过时延τi补偿后,使得各路输出信号xi(n)在目标信号方向上同步,采用可调波束形成器对xi(n)进行滤波,并将滤波后各路信号相加,实现目标语音的初步增强。
优选的,所述的步骤S4中采用基于人耳的听感知特性的计算机听觉场景分析技术建立心型或超心型拾音模型的方法如下:
(1)、指向性处理模块对获取阵列增强输出信号和残留噪声经过模拟人耳频率分解特性的gammatone滤波器组进行多子带滤波,得到多子带时域信号。
(2)、对所有子带信号进行加窗分帧,得到时频单元序列,计算可得阵列增强输出信号与残留噪声时频单元的能量;
(3)、将阵列增强输出信号与残留噪声时频单元的能量对比平滑后,作为线索,得到二值掩蔽模板;
(4)、将掩蔽模板作用于阵列输出的混合信号,提取出目标语音占优的时频单元,最终构建心形或超心型拾音模式,实现语音增强。
优选的,还包括音视频联动模块,
(1)、音视频联动模块接收指向性处理模块波束方向参数和摄像机变倍参数,建立音视频同步放缩参数映射表,输出音视频联动混合信号。
(2)、根据摄像机变倍参数调整波束形成参数,以使得指向性处理模块的波束形成参数符合声源在摄像机图像中的空间位置;
(3)、近焦情况下,波束角度变大,摄像机变倍参数变小,声源音量缩小;远焦情况下,波束角度变小,摄像机变倍参数放大,声源音量放大。
采用以上结构后,本发明的监控装置,与现有技术相比,具有以下优点:单通道降噪处理模块设计不同统计特性噪声所对应的滤波模型,以达到针对多种类型的噪声分别建模、分别予以消除的目标。由于针对性强且可以达到较强的降噪效果,由于先进行降噪再进行阵列增益,能大大提高阵列的准确性,使增益效果更佳,并最后通过建立心型或高心型或超心型拾音模型输出,使声音的指向型达到最优,并通过音视频联动模块将优化后的声音输出信号与摄像组件联动,实现监控画面与监控声音联动。
附图说明
图1是本发明的远程集音装置的结构示意图一。
图2是本发明的远程集音装置的剖视示意图。
图3是本发明的远程集音装置的结构示意图二。
图4是本发明的远程集音装置的剖视示意图三。
图中所示:1、摄像组件;2、云台;3、框体;4、减震吸音棉;5、拾音单元;6、防水罩:7、反射面。
具体实施方式
下面结合附图1和附图2以及具体实施例对本发明作进一步说明。
一种具有以下结构的远程集音装置,包括拾音单元5模块、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块;拾音单元5模块包括反射面7以及设置在反射面7中心位置的多个传声器组件,每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端,每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端,麦克风阵列处理模块的输出端接入指向性处理模块的输出端,通过多个麦克风组件实现拾音,由于麦克风组件直接有单一反射面7和单一拾音单元5组成,结构紧凑,并通过多个单通道降噪处理模块、阵列处理模块以及指向性处理模块实现声音信号的处理,单通道降噪处理模块能有效去除噪声并减少噪声对阵列效果的影响,阵列处理模块能将多个信号进行整合增益,最后通过指向性处理模块形成心型或高心型或超心型拾音模型,得到了清晰的语音输出。
远程集音装置还包括用于固定麦克风组件的框体3,所述的框体3下部连接有云台2,通过云台2实现整体放置以及转动,大大提高了采集范围,所述的框体3设置麦克风组件的一侧设有摄像组件1,摄像组件1可以和视频型号形成联动,通过拾音单元5与采集视频的摄像头一同转动实现对应采集,且通过视频内图像大小计算声源距离以配合声音采集。所述的麦克风组件包括设置在反射面7外壁的减震吸音棉4,所述的反射面7开口处设有防水罩6,减震吸音棉4能有效减少背景噪声,并通过防水罩6实现户外作业。阵列麦克风内含电源反向保护模块、防雷击模块,大大提高了安全性能。
一种监控装置,包括摄像组件1、上述任一一种远程集音装置及音视频联动模块,所述的摄像组件1输出变倍信号,所述的远程集音装置内指向性处理模块输出语音增强信号至音视频联动模块,所述的音视频联动模块根据摄像组件1输出的变倍信号改变输出语音增强信号的音量大小,所述的摄像组件1与集音装置同步运动,由于集音装置结构紧凑便于整合至视频监控设备内,可以很方便的将集音装置整合到监控装置内,两者固定连接实现联动,能在远距离拍摄时进行远距离语音采集,并通过音视频联动模块识别摄像组件1输出的变倍信号,通过变倍信号改变输出语音增强信号的音量大小,实现监控视频播放的时候不仅能对应采集声音且可以自动调节到合适的声音播放。
本发明的另一技术解决方案是,提供一种远程集音方法,其特征在于:包括以下步骤:
S1、多个拾音单元5均沿一个方向进行声音拾取形成带噪语音并将带噪语音输入单通道降噪处理模块;
S2、单通道降噪处理模块首先对带噪语音进行成帧,然后对语音频谱进行估计和平滑并识别噪声类型,之后选取与噪声类型对应的滤波模型进行噪声消除,将降噪后的语音信号输入至阵列处理模块;
S3、阵列处理模块采用延迟求和波束形成算法处理降噪后的语音信号提升阵列增益并将信号输入至指向性处理模块;
S4、指向性处理模块采用基于人耳的听感知特性的计算机听觉场景分析技术建立心型或超心型拾音模型。
单通道降噪处理模块设计不同统计特性噪声所对应的滤波模型,以达到针对多种类型的噪声分别建模、分别予以消除的目标。由于针对性强且可以达到较强的降噪效果,由于先进行降噪再进行阵列增益,能大大提高阵列的准确性,使增益效果更佳,并最后通过人耳的听感知特性的计算机听觉场景分析技术建立心型或高心型或超心型拾音模型输出,使声音的指向型达到最优。
所述的步骤S2中滤波模型进行噪声消除的方法如下,利用端点检测的结果对噪声的频谱进行估计,频域维纳滤波系数通过Mel滤波器组转化为Mel域的维纳滤波系数,接着采用Mel IDCT得到滤波器的时域冲激响应,最终使用卷积得到增强后的时域语音信号用于后端的模型匹配。
频域滤波器系数H(k)经过Mel滤波器组的计算公式推导如下所示。语音采样率fsamp为8000Hz。Mel滤波器组数目KFB为23。则每一个Mel滤波器的中心Mel值为
其中,算子MEL是将频率值转为Mel值,转换公式为
Mel{f}=2595×log10(1+f/700)
根据每一个Mel滤波器的中心Mel可以求得对应的中心频率
同时设定fcentr(0)=0,fcentr(24)=4000。系统采用256点FFT,根据实数FFT的对称性质,只需要计算前128点的滤波器系数。各个Mel滤波器中心频率对应的FFT序号为
算子int用于将浮点数取整。利用三角窗滤波器可以将频域维纳滤波系数H(k)转化为Mel域维纳滤波器。
根据上式,可以得到Mel域维纳滤波系数Hmel(k),完成了从频域到Mel域的转化。另外,由于从Mel域到时域是实数到实数的转化,所以采用了逆离散余弦变换(InverseDiscrete Cosine Transform IDCT)。另外由于每个Mel滤波器覆盖的频段长度不同,因此要附加不同的权重。Mel IDCT的计算公式如下。
IDCTmel(k,n)是Mel IDCT的系数,其中
最终的维纳滤波器的时域冲激响应为
所述的步骤S3中采用延迟求和波束形成算法如下,各通道接收到的单路降噪信号经过时延τi补偿后,使得各路输出信号xi(n)在目标信号方向上同步,采用可调波束形成器对xi(n)进行滤波,并将滤波后各路信号相加,实现目标语音的初步增强。具体方法如下:(1)均匀线列阵,阵列孔径为d,目标语音信号源s(n),其入射角估计值为ak。设声场为远场传播模型,声波以平行波方式传播,则ak可表示为:
式中:N是扫描精度
(2)取阵列几何中心为参考阵元,对各通道语音信号进行时延补偿得:
式中:xi是第i个阵元的接收信号;
τi(ak)是第i个阵元以ak作为期望语音输入方向,与参考元之间的时延差。
(3)在可调波束形成器这一路,有:
X(ak,n)=[x′1(ak,n),x′2(ak,n),...x′M(ak,n)]T
Ws(ak,n)=[w1(ak,n),w2(ak,n),...wM(ak,n)]T
式中:ys(ak,n)是接收信号经过固定波束形成器得到的信号;
Ws(ak,n)是权向量。
(4)在阻塞矩阵这一路,有:
N(ak,n)=BX(ak,n)
式中:N(ak,n)是某通道接收信号经过阻塞矩阵B滤除期望信号后得到的噪声信号;
y(ak,n)是增强后的语音信号。
所述的步骤S4中采用基于人耳的听感知特性的计算机听觉场景分析技术建立心型或超心型拾音模型的方法如下:
(1)、指向性处理模块对获取阵列增强输出信号和残留噪声经过模拟人耳频率分解特性的gammatone滤波器组进行多子带滤波,得到多子带时域信号。
(2)、对所有子带信号进行加窗分帧,得到时频单元序列,计算可得阵列增强输出信号与残留噪声时频单元的能量;
(3)、将阵列增强输出信号与残留噪声时频单元的能量对比平滑后,作为线索,得到二值掩蔽模板;
(4)、将掩蔽模板作用于阵列输出的混合信号,提取出目标语音占优的时频单元,最终构建心形或超心型拾音模式,实现语音增强。
采用以上述建立拾音模型的方法后,进行加窗分帧,即可以得到可以处理的单元,根据单元能量得到的可以有效需求需要的时频单元,即能得到与目标语音更接近的时频单元,最后建立的拾音模式与目标语音更加接近。
本发明中集音方法还包括音视频联动模块,
(1)、音视频联动模块接收指向性处理模块波束方向参数和摄像机变倍参数,建立音视频同步放缩参数映射表,输出音视频联动混合信号。
(2)、根据摄像机变倍参数调整波束形成参数,以使得指向性处理模块的波束形成参数符合声源在摄像机图像中的空间位置;
(3)、近焦情况下,波束角度变大,摄像机变倍参数变小,声源音量缩小;远焦情况下,波束角度变小,摄像机变倍参数放大,声源音量放大。
通过建立音视频同步放缩参数映射表准确对应图像和声音,不仅运算小,且在图像变化过程中,采集的声音能准确对应,且采集的更加准确。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种远程集音装置,其特征在于:包括拾音单元(5)模块、单通道降噪处理模块、麦克风阵列处理模块以及指向性处理模块;拾音单元(5)模块包括反射面(7)以及设置在反射面(7)中心位置的多个传声器组件,每个传声器组件输出端分别接入与传声器组件对应的单通道降噪处理模块的输入端,每个单通道降噪处理模块输出端均接入麦克风阵列处理模块的输入端,麦克风阵列处理模块的输出端接入指向性处理模块的输出端。
2.根据权利要求1所述的一种远程集音装置,其特征在于:还包括用于固定麦克风组件的框体(3),所述的框体(3)下部连接有云台(2)。
3.根据权利要求1所述的一种远程集音装置,其特征在于:所述的框体(3)设置拾音单元(5)模块的一侧设有摄像组件(1),另一侧设有红外灯组件。
4.根据权利要求1所述的一种远程集音装置,其特征在于:所述的麦克风组件包括设置在反射面(7)外壁的减震吸音棉(4),所述的反射面(7)开口处设有防水罩(6)。
5.一种监控装置,其特征在于:包括摄像组件(1)、权利要求1-4任一所述的远程集音装置及音视频联动模块,所述的摄像组件(1)输出变倍信号,所述的远程集音装置内指向性处理模块输出语音增强信号至音视频联动模块,所述的音视频联动模块根据摄像组件(1)输出的变倍信号改变输出语音增强信号的音量大小,所述的摄像组件(1)与集音装置同步运动。
6.一种远程集音方法,其特征在于:包括以下步骤:
S1、多个拾音单元(5)均沿一个方向进行声音拾取形成带噪语音并将带噪语音输入单通道降噪处理模块;
S2、单通道降噪处理模块首先对带噪语音进行成帧,然后对语音频谱进行估计和平滑并识别噪声类型,之后选取与噪声类型对应的滤波模型进行噪声消除,将降噪后的语音信号输入至阵列处理模块;
S3、阵列处理模块采用延迟求和波束形成算法处理降噪后的语音信号提升阵列增益并将信号输入至指向性处理模块;
S4、指向性处理模块采用基于人耳的听感知特性的计算机听觉场景分析(CASA)技术建立心型或超心型拾音模型。
7.根据权利要求6所述的一种远程集音方法,其特征在于:所述的步骤S2中滤波模型进行噪声消除的方法如下,利用端点检测的结果对噪声的频谱进行估计,频域维纳滤波系数通过Mel滤波器组转化为Mel域的维纳滤波系数,接着采用Mel IDCT得到滤波器的时域冲激响应,最终使用卷积得到增强后的时域语音信号用于后端的模型匹配。
8.根据权利要求6所述的一种远程集音方法,其特征在于:所述的步骤S3中采用延迟求和波束形成算法如下,各通道接收到的单路降噪信号经过时延τi补偿后,使得各路输出信号xi(n)在目标信号方向上同步,采用可调波束形成器对xi(n)进行滤波,并将滤波后各路信号相加,实现目标语音的初步增强。
9.根据权利要求6所述的一种远程集音方法,其特征在于:所述的步骤S4中采用基于人耳的听感知特性的计算机听觉场景分析(CASA)技术建立心型或超心型拾音模型的方法如下:
(1)、指向性处理模块对获取阵列增强输出信号和残留噪声经过模拟人耳频率分解特性的gammatone滤波器组进行多子带滤波,得到多子带时域信号。
(2)、对所有子带信号进行加窗分帧,得到时频单元序列,计算可得阵列增强输出信号与残留噪声时频单元的能量;
(3)、将阵列增强输出信号与残留噪声时频单元的能量对比平滑后,作为线索,得到二值掩蔽模板;
(4)、将掩蔽模板作用于阵列输出的混合信号,提取出目标语音占优的时频单元,最终构建心形或超心型拾音模式,实现语音增强。
10.根据权利要求6所述的一种集音方法,其特征在于:还包括音视频联动模块,
(1)音视频联动模块接收指向性处理模块波束方向参数和摄像机变倍参数,建立音视频同步放缩参数映射表,输出音视频联动混合信号。
(2)根据摄像机变倍参数调整波束形成参数,以使得指向性处理模块的波束形成参数符合声源在摄像机图像中的空间位置;
(3)近焦情况下,波束角度变大,摄像机变倍参数变小,声源音量缩小;远焦情况下,波束角度变小,摄像机变倍参数放大,声源音量放大。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2017103491102 | 2017-05-17 | ||
CN201710349110 | 2017-05-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108389586A true CN108389586A (zh) | 2018-08-10 |
Family
ID=63074361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810121915.6A Pending CN108389586A (zh) | 2017-05-17 | 2018-02-07 | 一种远程集音装置、监控装置及远程集音方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108389586A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523999A (zh) * | 2018-12-26 | 2019-03-26 | 中国科学院声学研究所 | 一种提升远场语音识别的前端处理方法和系统 |
CN109545217A (zh) * | 2018-12-29 | 2019-03-29 | 深圳Tcl新技术有限公司 | 语音信号接收方法、装置、智能终端及可读存储介质 |
CN109951768A (zh) * | 2019-01-23 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 音频采集装置及用于处理音频的设备和方法 |
CN110310650A (zh) * | 2019-04-08 | 2019-10-08 | 清华大学 | 一种基于二阶微分麦克风阵列的语音增强算法 |
CN111833892A (zh) * | 2019-04-22 | 2020-10-27 | 浙江宇视科技有限公司 | 音视频数据处理方法及装置 |
CN112702669A (zh) * | 2020-12-21 | 2021-04-23 | 西安讯飞超脑信息科技有限公司 | 拾音设备、方法、装置、系统和存储介质 |
CN112788482A (zh) * | 2021-03-01 | 2021-05-11 | 北京电信易通信息技术股份有限公司 | 一种麦克风阵列定位与云台联动的方法、装置 |
CN113727240A (zh) * | 2020-05-26 | 2021-11-30 | 南宁富桂精密工业有限公司 | 声音播放调整方法及可携式装置 |
WO2022062531A1 (zh) * | 2020-09-25 | 2022-03-31 | Oppo广东移动通信有限公司 | 一种多通道音频信号获取方法、装置及系统 |
CN114578289A (zh) * | 2022-04-26 | 2022-06-03 | 浙江大学湖州研究院 | 一种高分辨率谱估计声阵列成像方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050047611A1 (en) * | 2003-08-27 | 2005-03-03 | Xiadong Mao | Audio input system |
CN203366132U (zh) * | 2013-05-20 | 2013-12-25 | 武汉中和工程技术有限公司 | 基于麦克风阵列的无线视频跟踪监控系统 |
CN104243894A (zh) * | 2013-06-09 | 2014-12-24 | 中国科学院声学研究所 | 一种声视频融合监控方法 |
CN104469154A (zh) * | 2014-12-05 | 2015-03-25 | 合肥国科声拓信息技术有限公司 | 一种基于麦克风阵列的摄像头引导装置及引导方法 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN105898635A (zh) * | 2016-04-26 | 2016-08-24 | 宁波桑德纳电子科技有限公司 | 一种室外远距离使用的拾音装置 |
CN205621437U (zh) * | 2015-12-16 | 2016-10-05 | 宁波桑德纳电子科技有限公司 | 一种声像联合定位的远距离语音采集装置 |
-
2018
- 2018-02-07 CN CN201810121915.6A patent/CN108389586A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050047611A1 (en) * | 2003-08-27 | 2005-03-03 | Xiadong Mao | Audio input system |
CN203366132U (zh) * | 2013-05-20 | 2013-12-25 | 武汉中和工程技术有限公司 | 基于麦克风阵列的无线视频跟踪监控系统 |
CN104243894A (zh) * | 2013-06-09 | 2014-12-24 | 中国科学院声学研究所 | 一种声视频融合监控方法 |
CN104469154A (zh) * | 2014-12-05 | 2015-03-25 | 合肥国科声拓信息技术有限公司 | 一种基于麦克风阵列的摄像头引导装置及引导方法 |
CN205621437U (zh) * | 2015-12-16 | 2016-10-05 | 宁波桑德纳电子科技有限公司 | 一种声像联合定位的远距离语音采集装置 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN105898635A (zh) * | 2016-04-26 | 2016-08-24 | 宁波桑德纳电子科技有限公司 | 一种室外远距离使用的拾音装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523999A (zh) * | 2018-12-26 | 2019-03-26 | 中国科学院声学研究所 | 一种提升远场语音识别的前端处理方法和系统 |
CN109523999B (zh) * | 2018-12-26 | 2021-03-23 | 中国科学院声学研究所 | 一种提升远场语音识别的前端处理方法和系统 |
CN109545217A (zh) * | 2018-12-29 | 2019-03-29 | 深圳Tcl新技术有限公司 | 语音信号接收方法、装置、智能终端及可读存储介质 |
CN109545217B (zh) * | 2018-12-29 | 2022-01-04 | 深圳Tcl新技术有限公司 | 语音信号接收方法、装置、智能终端及可读存储介质 |
CN109951768A (zh) * | 2019-01-23 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 音频采集装置及用于处理音频的设备和方法 |
CN110310650A (zh) * | 2019-04-08 | 2019-10-08 | 清华大学 | 一种基于二阶微分麦克风阵列的语音增强算法 |
CN111833892A (zh) * | 2019-04-22 | 2020-10-27 | 浙江宇视科技有限公司 | 音视频数据处理方法及装置 |
CN113727240A (zh) * | 2020-05-26 | 2021-11-30 | 南宁富桂精密工业有限公司 | 声音播放调整方法及可携式装置 |
WO2022062531A1 (zh) * | 2020-09-25 | 2022-03-31 | Oppo广东移动通信有限公司 | 一种多通道音频信号获取方法、装置及系统 |
CN112702669A (zh) * | 2020-12-21 | 2021-04-23 | 西安讯飞超脑信息科技有限公司 | 拾音设备、方法、装置、系统和存储介质 |
CN112788482B (zh) * | 2021-03-01 | 2021-07-30 | 北京电信易通信息技术股份有限公司 | 一种麦克风阵列定位与云台联动的方法、装置 |
CN112788482A (zh) * | 2021-03-01 | 2021-05-11 | 北京电信易通信息技术股份有限公司 | 一种麦克风阵列定位与云台联动的方法、装置 |
CN114578289A (zh) * | 2022-04-26 | 2022-06-03 | 浙江大学湖州研究院 | 一种高分辨率谱估计声阵列成像方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108389586A (zh) | 一种远程集音装置、监控装置及远程集音方法 | |
CN106251877B (zh) | 语音声源方向估计方法及装置 | |
CN111044973B (zh) | 一种用于麦克风方阵的mvdr目标声源定向拾音方法 | |
CN108109617A (zh) | 一种远距离拾音方法 | |
CN106782590A (zh) | 基于混响环境下麦克风阵列波束形成方法 | |
CN104469154B (zh) | 一种基于麦克风阵列的摄像头引导装置及引导方法 | |
CN100535992C (zh) | 小尺度麦克风阵列语音增强系统和方法 | |
CN110010147A (zh) | 一种麦克风阵列语音增强的方法和系统 | |
WO2020029332A1 (zh) | 一种基于rnn的实时会议降噪方法及装置 | |
CN107919133A (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
CN108877827A (zh) | 一种语音增强交互方法及系统、存储介质及电子设备 | |
Liu et al. | Continuous sound source localization based on microphone array for mobile robots | |
CN107993670A (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
CN107017003A (zh) | 一种麦克风阵列远场语音增强装置 | |
CN109448389B (zh) | 一种汽车鸣笛智能检测方法 | |
CN110415720B (zh) | 四元差分麦克风阵列超指向性频率不变波束形成方法 | |
Naqvi et al. | Multimodal (audio–visual) source separation exploiting multi-speaker tracking, robust beamforming and time–frequency masking | |
CN111312269B (zh) | 一种智能音箱中的快速回声消除方法 | |
CN107167770A (zh) | 一种混响条件下的麦克风阵列声源定位装置 | |
CN107274910A (zh) | 一种音视频联动的监控装置及音视频联动方法 | |
CN108122559A (zh) | 一种数字助听器中基于深度学习的双耳声源定位方法 | |
WO2023108864A1 (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
Ryan et al. | Application of near-field optimum microphone arrays to hands-free mobile telephony | |
Jarrett et al. | Dereverberation performance of rigid and open spherical microphone arrays: Theory & simulation | |
CN206728234U (zh) | 一种音视频联动的远程集音器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180810 |
|
RJ01 | Rejection of invention patent application after publication |