CN117686975A - 基于方向修正的声源定位方法、装置、设备、存储介质 - Google Patents
基于方向修正的声源定位方法、装置、设备、存储介质 Download PDFInfo
- Publication number
- CN117686975A CN117686975A CN202311468842.5A CN202311468842A CN117686975A CN 117686975 A CN117686975 A CN 117686975A CN 202311468842 A CN202311468842 A CN 202311468842A CN 117686975 A CN117686975 A CN 117686975A
- Authority
- CN
- China
- Prior art keywords
- sound source
- microphone array
- signal
- correction
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012937 correction Methods 0.000 title claims abstract description 42
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000009467 reduction Effects 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 230000004807 localization Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 230000001629 suppression Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提出了基于方向修正的声源定位方法、装置、设备、存储介质,该方法包括:双麦克风阵列基于均匀线阵模型获取双通道语音信息,将对双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号;基于麦克风阵列信号进行声源波达方向估计得到多个声源估计方向;通过摄像头进行人像定位聚焦得到人像方向角度,基于均匀线阵模型将人像方向角度转换到人像方位角度;计算人像方位角度与各个声源估计方向之间的完全平方差,将计算出的最小的完全平方差所对应的声源估计方向确定为目标声源方向。根据本发明实施例的技术方案,能够在得到声波估计方向后,利用人像定位进行方向修正,在麦克风阵列维度受限的情况下提高声源定位的准确性。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种基于方向修正的声源定位方法、装置、设备、存储介质。
背景技术
随着居家办公和跨地区沟通的常态化,视频会议作为必要的远程沟通协作途径,携带有摄像头和麦克风的视频会议设备越来越受到欢迎,其使用体验感要求与日俱增。而这需要摄像头能够满足快速定位、自动变焦、AI自动成像等功能,同时要求麦克风具有主动降噪、抑制环境噪声的能力。在语音质量提升方面,一般会采用麦克风阵列算法对语音信号进行降噪处理,其次通过对声源信号的准确定位从而进行语音增强。
目前,麦克风阵列的声源定位算法能够实现声源定位,麦克风阵列的维度越多,声源定位的准确率越高,但是对于居家办公等场景,受限于设备体积和成本,并不能在视频会议设备中设置过多的麦克风,通常只是采用双麦克风阵列,通过双麦克风阵列算法实现声源定位的准确性不高,影响语音增强的效果,影响用户体验。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于方向修正的声源定位方法、装置、设备、存储介质,能够在根据人像方向修正声源方向,提高声源定位的准确性。
第一方面,本发明实施例提供了一种基于方向修正的声源定位方法,应用于视频会议设备,所述视频会议设备包括摄像头和双麦克风阵列,所述双麦克风阵列预设有均匀线阵模型,所述基于方向修正的声源定位方法包括:
所述双麦克风阵列基于所述均匀线阵模型获取双通道语音信息,将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号;
基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向;
通过所述摄像头进行人像定位聚焦得到人像方向角度,基于所述均匀线阵模型将所述人像方向角度转换到人像方位角度;
计算所述人像方位角度与各个所述声源估计方向之间的完全平方差,将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向。
根据本发明的一些实施例,所述将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号,包括:
对所述双通道语音信息进行左右声道分离,得到左右声道语音信息;
获取所述左右声道语音信息转换为频域语音信号,对所述频域语音信号进行抗混叠下采样,得到采样信号;
对所述采样信号进行降噪处理后转换到时域得到降噪时域信号;
对所述降噪时域信号进行去混响处理后得到音频帧序列,其中,所述音频帧序列包括多帧音频帧;
基于所述音频帧序列进行VAD判决筛选出多帧语音帧,将所述语音帧组合成的序列确定为所述麦克风阵列信号。
根据本发明的一些实施例,所述对所述采样信号进行降噪处理后转换到时域得到降噪时域信号,包括:
对所述采样信号依次进行加窗、FFT变换和求模,得到原始信号功率谱;
基于所述原始信号功率谱依次进行分位数噪声估计、语音存在概率估计、噪声更新和抑制系数计算,确定所每个频点的噪声抑制系数;
将所述噪声抑制系数乘以所述原始信号功率谱得到降噪功率谱;
对所述降噪功率谱进行I FFT变化,得到所述降噪时域信号。
根据本发明的一些实施例,所述基于所述音频帧序列进行VAD判决筛选出多帧语音帧,包括:
对所述音频帧序列进行FFT变换后,确定每一帧所述音频帧的帧功率和先验后验SNR;
将所述音频帧、所述帧功率、先验后验SNR输入预设的概率模型进行VAD判决,根据判据结果确定所述音频帧为语音帧或者静默帧。
根据本发明的一些实施例,所述基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向,包括:
将所述麦克风阵列信号在预设空域划分多个样本角度,计算每个所述样本角度的导向矢量信息;
计算所述麦克风阵列信号的空间相关矩阵的矩阵估计值;
基于所述导向矢量信息的转置和所述矩阵估计值,计算各个所述样本角度所对应的样本功率谱;
基于所述样本功率谱从大到小的排序,根据预设的方向数量将排序靠前的多个所述样本功率谱所对应的所述样本角度确定为所述声源估计方向。
根据本发明的一些实施例,所述样本功率谱通过以下公式得到:
其中,θq为第q个所述样本角度,q=1,2,3,···Q,Q为所述样本角度的数量且属于自然数,a(θq)为第q个所述样本角度的所述导向矢量信息,aH(θq0为a(θq)的矩阵共轭转置,[]T表示矩阵转置,e为自然常数,λ为所述双通道语音信息的波长,d为a(θq)的阵元间距,n=1,2,…,N,N为所述双通道语音信息的帧长,x(n)为所述麦克风阵列信号,xH(n)为x(n)的矩阵共轭转置;/>为所述麦克风阵列信号的矩阵估计值,R-1为/>的矩阵求逆,P(θq)为所述样本功率谱。
根据本发明的一些实施例,在所述将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向之后,所述方法还包括:
基于所述目标声源方向和波束形成法对所述双通道语音信息进行增强语音,得到增强语音信息;
将所述增强语音信息确定为所述双通道语音信息的输出信号进行网络传输。
第二方面,本发明实施例提供了一种基于方向修正的声源定位装置,包括少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上述第一方面所述的基于方向修正的声源定位方法。
第三方面,本发明实施例提供了一种电子设备,包括有如上述第二方面所述的基于方向修正的声源定位装置。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的基于方向修正的声源定位方法。
根据本发明实施例的基于方向修正的声源定位方法,至少具有如下有益效果:所述双麦克风阵列基于所述均匀线阵模型获取双通道语音信息,将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号;基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向;通过所述摄像头进行人像定位聚焦得到人像方向角度,基于所述均匀线阵模型将所述人像方向角度转换到人像方位角度;计算所述人像方位角度与各个所述声源估计方向之间的完全平方差,将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向。根据本发明实施例的技术方案,能够在得到声波估计方向后,利用人像定位进行方向修正,在麦克风阵列维度受限的情况下提高声源定位的准确性。
附图说明
图1是本发明一个实施例提供的基于方向修正的声源定位方法的流程图;
图2是本发明另一个实施例提供的左右声道提取示意图;
图3是本发明另一个实施例提供的下采样的示意图;
图4是本发明另一个实施例提供的降噪处理的流程图;
图5是本发明另一个实施例提供的VAD判决的流程图;
图6是本发明另一个实施例提供的样本功率谱的示意图;
图7是本发明另一个实施例提供的基于方向修正的声源定位装置的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
本发明实施例提供了一种基于方向修正的声源定位方法、装置、设备、存储介质,其中,基于方向修正的声源定位方法包括:所述双麦克风阵列基于所述均匀线阵模型获取双通道语音信息,将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号;基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向;通过所述摄像头进行人像定位聚焦得到人像方向角度,基于所述均匀线阵模型将所述人像方向角度转换到人像方位角度;计算所述人像方位角度与各个所述声源估计方向之间的完全平方差,将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向。根据本发明实施例的技术方案,能够在得到声波估计方向后,利用人像定位进行方向修正,在麦克风阵列维度受限的情况下提高声源定位的准确性。
下面基于附图对本发明实施例的控制方法作进一步阐述。
参照图1,图1为本发明实施例提供的一种基于方向修正的声源定位方法的流程图,该基于方向修正的声源定位方法包括但不限于有步骤S11至步骤S14:
S11,双麦克风阵列基于均匀线阵模型获取双通道语音信息,将对双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号。
需要说明的是,视频会议设备具备双麦克风阵列,并且将双麦克风阵列的均匀线阵模型配置为信号接收模型,使得双麦克风阵列获取到的语音信号为均匀线阵阵列信号,均匀线阵为本领域技术人员熟知的技术,在此不多做赘述。
在一实施例中,预处理还具体包括但不限于有以下步骤:对双通道语音信息进行左右声道分离,得到左右声道语音信息;获取左右声道语音信息转换为频域语音信号,对频域语音信号进行抗混叠下采样,得到采样信号;对采样信号进行降噪处理后转换到时域得到降噪时域信号;对降噪时域信号进行去混响处理后得到音频帧序列,其中,音频帧序列包括多帧音频帧;基于音频帧序列进行VAD判决筛选出多帧语音帧,将语音帧组合成的序列确定为麦克风阵列信号。
需要说明的是,双通道语音信息通常包括左右两声道,在获取到双通道语音信息后,可以通过底层AD芯片采样PCM音频数据,即作为一张声卡的左右双声道立体声的PCM音频数据,得到双声道的PCM音频数据,底层AD芯片双通道采样默认用的都是交错模式来进行录音数据摆放,即采集的双通道PCM数据是根据左、右通道数据交错的顺序进行摆放,可以参考图2所示,其中L1至L4为左声道音频数据,R1至R4为右声道音频数据。而声道分离则需要根据其左右声道交错摆放的固定顺序将其所有的左声道/右声道抽取分离为单独的左声道数据以及单独的右声道数据。
需要说明的是,因底层ADC硬件支持的采样规格都会有所差异,故会有机器实际配置的采样率与算法处理输入要求的采样率不相同的情况。同时,模拟信号切换到频域进行采样之后,相当于在频域以采样率为周期进行延拓,故当实际ADC硬件支持的采样率大于算法处理要求的采样率时,则需要进行下采样的操作,即通过降低采样率来进行重采样。如图3所示,图3第一张图为基础信号,第二张图为下采样得到的信号图,下采样容易引起有效语音频率的截断以及混叠形成锯齿,基于此,本实施例下采样抗混叠算法消除锯齿,通过低通滤波器进行低通滤波,从而实现抗混叠。如图3所示,图3第三张图为低通滤波器的示意图,以fs为原采样率为例,降采样后的重采样率为fs/4,低通滤波器的截止频率为重采样率的一半,基于上述低通滤波器进行滤波后得到的效果图如图3的第四张图所示,可以看到信号不存在混叠和锯齿,从而实现了信号优化。
在一实施例中,参照图4,对采样信号进行降噪处理还具体包括但不限于有以下步骤:对采样信号依次进行加窗、FFT变换和求模,得到原始信号功率谱;基于原始信号功率谱依次进行分位数噪声估计、语音存在概率估计、噪声更新和抑制系数计算,确定所每个频点的噪声抑制系数;将噪声抑制系数乘以原始信号功率谱得到降噪功率谱;对降噪功率谱进行IFFT变化,得到降噪时域信号。
需要说明的是,采样信号为带噪声的信号,对带噪声信号进行加窗后,进行FFT变换转换到频域,通过求模得到原始信号功率谱。原始信号功率谱能够表征噪声情况,在此基础上,本实施例利用原始信号功率谱进行分位数噪声估计、语音存在概率估计、噪声更新,从而对噪声水平进行评估,上述估计方法均为本领域技术人员熟知的技术,在此不多做赘述。
需要说明的是,在确定噪声水平后,可以基于噪声水平计算每个频点的噪声抑制系数,乘以原始信号功率谱后在频域层面实现每个频点的降噪,在频域进行降噪后再进行IFFT回到时域从而得到降噪时域信号。
值得注意的是,由于语音信号在空间传播中存在多径效应,从而会出现混响效果,而去混响算法则主要用于滤除掉其线性延迟干扰影响,本领域技术人员熟知如何进行去混响处理,在此不多做赘述。
另外,在一实施例中,参照图5,基于音频帧序列进行VAD判决筛选出多帧语音帧具体包括但不限于有以下步骤:对音频帧序列进行FFT变换后,确定每一帧音频帧的帧功率和先验后验SNR;将音频帧、帧功率、先验后验SNR输入预设的概率模型进行VAD判决,根据判据结果确定音频帧为语音帧或者静默帧。
需要说明的是,本实施例的VAD判据流程参考图5所示,对音频帧序列的每个音频帧进行FFT变换后计算每一帧的帧功率,再计算先验后验SNR,其中先验后验SNR包括先验SNR和后验SNR,用于表征音频帧的信噪比,先验SNR和后验SNR的具体计算为本领域技术人员熟知的技术,在此不多做赘述。在得到功率和SNR后,同时输入概率模型进行判决,最后经过平滑得到静默帧和语音帧的判据结果,将判决出的语音帧作为后续计算所使用的麦克风阵列信号。本实施例通过语音检测(Voice Activity Detection,VAD)判决筛选出静默帧和语音帧,在静默帧时不执行算法处理,能够有效节约算力,提高声源定位的效率。
S12,基于麦克风阵列信号进行声源波达方向估计得到多个声源估计方向。
需要说明的是,声源波达方向用于表征声源的声波所能达到的方向,因此能够作为声源的表征,本实施例的方向可以是角度,便于后续计算。
本实施例通过声源波达方向估计,确定多个声源估计方向,具体包括以下步骤:将麦克风阵列信号在预设空域划分多个样本角度,计算每个样本角度的导向矢量信息;计算所述麦克风阵列信号的空间相关矩阵的矩阵估计值;基于导向矢量信息的转置和矩阵估计值,计算各个样本角度所对应的样本功率谱;基于样本功率谱从大到小的排序,根据预设的方向数量将排序靠前的多个样本功率谱所对应的样本角度确定为声源估计方向。
需要说明的是,预设空域可以是[0度,360度],在预设空域中划分出Q个样本角度,Q为自然数,其中第q个样本角度为θq,q=1,2,3,···Q,计算出每个样本角度的导向矢量信息,第q个样本角度的导向矢量信息用a(θq)表示,具体计算公式为其中,/>λ为双通道语音信息的波长,由于本实施例的语音信号是均匀线阵,因此信号以矩阵的形式表征,d为a(θq)的阵元间距,[]T表示矩阵转置。
需要说明的是,再得到导向矢量信息的基础上,计算麦克风阵列信号x(n)的空间相关矩阵的矩阵估计值具体公式为/>其中,x(n)为麦克风阵列信号,xH(n)为x(n)的矩阵共轭转置,n=1,2,…,N,N为双通道语音信息的帧长。
最后,计算每个样本位置上的样本功率谱P(θq),具体计算公式如下: 其中,aH(θq)为a(θq)的矩阵共轭转置,e为自然常数,R-1为/>的矩阵求逆。
需要说明的是,在计算出样本功率谱后,可以按照样本功率谱的数值大小进行排序,选取数值最大的m个样本角度作为声源估计方向。
示例性地,当Q设为72,,如图6所示,若取m=4,则顶峰位置主要有4个,对应的样本角度依次为[75度,90度,180度,195度],作为声源估计方向。
S13,通过摄像头进行人像定位聚焦得到人像方向角度,基于均匀线阵模型将人像方向角度转换到人像方位角度。
需要说明的是,本实施例的摄像头可以采用配置了AI自动成像和快速定位功能的摄像头,视频会议设备集成具备上述功能的摄像头为本领域技术人员熟知的技术,在此对硬件设置不做限定。具有AI自动成像的摄像头在捕捉到人像,进行快速定位聚焦,给出人物所在的方向角度,从而得到人像方向角度,由于麦克风阵列的信号模型为均匀线阵,因此在得到人像方向角度后,可以将其转换到人像方位角度,以均匀线阵的方式表征人像的方向,使得人像方位角度和后续得到的声源估计方向属于同一维度的数据,以具备修正数据的基础。
S14,计算人像方位角度与各个声源估计方向之间的完全平方差,将计算出的最小的完全平方差所对应的声源估计方向确定为目标声源方向。
通过本实施例的技术方案,利用摄像头的人像定位方向,辅助麦克风阵列进行声源定位,能够在麦克风维度较少的情况下,充分利用有限资源实现高精度的声源定位,为进一步促进降噪效果的优化,提升用户的语音交互体验感提供基础。
需要说明的是,在得到人像方位角度θp后,计算人像方位角度θp与声源估计方向之间的完全平方差,选择差值最小的θq作为最终目标方向。若摄像头在预设时长内没有得到人像方向信息,也可以直接采用第一个得到的声源估计方向作为目标声源方向,避免目标声源方向的确定时间过长。
另外,在一实施例中,在执行步骤S14后,还包括但不限于有以下步骤:
基于目标声源方向和波束形成法对双通道语音信息进行增强语音,得到增强语音信息;将增强语音信息确定为双通道语音信息的输出信号进行网络传输。
需要说明的是,目标声源方向以θq为例,使用波束形成方法计算增强语音信号y(n),具体公式如下:y(n)=BF(θq,x(n)),其中,波束形成方法包括但不限于最小方差无失真响应算法、广义旁瓣相消算法等。
如图7所示,图7是本发明一个实施例提供的基于方向修正的声源定位装置的结构图。本发明还提供了一种基于方向修正的声源定位装置,包括:
处理器701,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器702,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器702可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器702中,并由处理器701来调用执行本申请实施例的基于方向修正的声源定位方法;
输入/输出接口703,用于实现信息输入及输出;
通信接口704,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线705,在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息;
其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种电子设备,包括如上所述的基于方向修正的声源定位装置。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述基于方向修正的声源定位方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,实现了以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
Claims (10)
1.一种基于方向修正的声源定位方法,其特征在于,应用于视频会议设备,所述视频会议设备包括摄像头和双麦克风阵列,所述双麦克风阵列预设有均匀线阵模型,所述基于方向修正的声源定位方法包括:
所述双麦克风阵列基于所述均匀线阵模型获取双通道语音信息,将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号;
基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向;
通过所述摄像头进行人像定位聚焦得到人像方向角度,基于所述均匀线阵模型将所述人像方向角度转换到人像方位角度;
计算所述人像方位角度与各个所述声源估计方向之间的完全平方差,将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向。
2.根据权利要求1所述的基于方向修正的声源定位方法,其特征在于,所述将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号,包括:
对所述双通道语音信息进行左右声道分离,得到左右声道语音信息;
获取所述左右声道语音信息转换为频域语音信号,对所述频域语音信号进行抗混叠下采样,得到采样信号;
对所述采样信号进行降噪处理后转换到时域得到降噪时域信号;
对所述降噪时域信号进行去混响处理后得到音频帧序列,其中,所述音频帧序列包括多帧音频帧;
基于所述音频帧序列进行VAD判决筛选出多帧语音帧,将所述语音帧组合成的序列确定为所述麦克风阵列信号。
3.根据权利要求2所述的基于方向修正的声源定位方法,其特征在于,所述对所述采样信号进行降噪处理后转换到时域得到降噪时域信号,包括:
对所述采样信号依次进行加窗、FFT变换和求模,得到原始信号功率谱;
基于所述原始信号功率谱依次进行分位数噪声估计、语音存在概率估计、噪声更新和抑制系数计算,确定所每个频点的噪声抑制系数;
将所述噪声抑制系数乘以所述原始信号功率谱得到降噪功率谱;
对所述降噪功率谱进行IFFT变化,得到所述降噪时域信号。
4.根据权利要求2所述的基于方向修正的声源定位方法,其特征在于,所述基于所述音频帧序列进行VAD判决筛选出多帧语音帧,包括:
对所述音频帧序列进行FFT变换后,确定每一帧所述音频帧的帧功率和先验后验SNR;
将所述音频帧、所述帧功率、先验后验SNR输入预设的概率模型进行VAD判决,根据判据结果确定所述音频帧为语音帧或者静默帧。
5.根据权利要求1所述的基于方向修正的声源定位方法,其特征在于,所述基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向,包括:
将所述麦克风阵列信号在预设空域划分多个样本角度,计算每个所述样本角度的导向矢量信息;
计算所述麦克风阵列信号的空间相关矩阵的矩阵估计值;
基于所述导向矢量信息的转置和所述矩阵估计值,计算各个所述样本角度所对应的样本功率谱;
基于所述样本功率谱从大到小的排序,根据预设的方向数量将排序靠前的多个所述样本功率谱所对应的所述样本角度确定为所述声源估计方向。
6.根据权利要求5所述的基于方向修正的声源定位方法,其特征在于,所述样本功率谱通过以下公式得到:
其中,θq为第q个所述样本角度,q=1,2,3,···Q,Q为所述样本角度的数量且属于自然数,a(θq)为第q个所述样本角度的所述导向矢量信息,aH(θq)为a(θq)的矩阵共轭转置,[]T表示矩阵转置,e为自然常数,λ为所述双通道语音信息的波长,d为a(θq)的阵元间距,n=1,2,…,N,N为所述双通道语音信息的帧长,x(n)为所述麦克风阵列信号,xH(n)为x(n)的矩阵共轭转置;/>为所述麦克风阵列信号的矩阵估计值,R-1为/>的矩阵求逆,P(θq)为所述样本功率谱。
7.根据权利要求1所述的基于方向修正的声源定位方法,其特征在于,在所述将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向之后,所述方法还包括:
基于所述目标声源方向和波束形成法对所述双通道语音信息进行增强语音,得到增强语音信息;
将所述增强语音信息确定为所述双通道语音信息的输出信号进行网络传输。
8.一种基于方向修正的声源定位装置,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的基于方向修正的声源定位方法。
9.一种电子设备,其特征在于,包括权利要求8所述的基于方向修正的声源定位装置。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于方向修正的声源定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311468842.5A CN117686975A (zh) | 2023-11-06 | 2023-11-06 | 基于方向修正的声源定位方法、装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311468842.5A CN117686975A (zh) | 2023-11-06 | 2023-11-06 | 基于方向修正的声源定位方法、装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117686975A true CN117686975A (zh) | 2024-03-12 |
Family
ID=90129033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311468842.5A Pending CN117686975A (zh) | 2023-11-06 | 2023-11-06 | 基于方向修正的声源定位方法、装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117686975A (zh) |
-
2023
- 2023-11-06 CN CN202311468842.5A patent/CN117686975A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9922663B2 (en) | Voice signal processing method and apparatus | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
EP3189521B1 (en) | Method and apparatus for enhancing sound sources | |
US8233352B2 (en) | Audio source localization system and method | |
CN107018470B (zh) | 一种基于环形麦克风阵列的语音记录方法及系统 | |
CN109285557B (zh) | 一种定向拾音方法、装置及电子设备 | |
JP2019191558A (ja) | 音声を増幅する方法及び装置 | |
CN104699445A (zh) | 一种音频信息处理方法及装置 | |
CN110379439A (zh) | 一种音频处理的方法以及相关装置 | |
CN110875056B (zh) | 语音转录设备、系统、方法、及电子设备 | |
CN112151051B (zh) | 音频数据的处理方法和装置及存储介质 | |
CN105989850B (zh) | 一种回声对消方法及装置 | |
CN112669865B (zh) | 一种主麦克风的切换方法、装置、设备及可读存储介质 | |
CN110610718A (zh) | 一种提取期望声源语音信号的方法及装置 | |
CN112802490B (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
JP2009044588A (ja) | 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体 | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
WO2020211017A1 (zh) | 音频信号处理方法、设备及存储介质 | |
CN110890099A (zh) | 声音信号处理方法、装置以及存储介质 | |
JP6842497B2 (ja) | 混合信号の雑音を低減するための方法及び装置 | |
CN117686975A (zh) | 基于方向修正的声源定位方法、装置、设备、存储介质 | |
JP5267808B2 (ja) | 音響出力システム及び音響出力方法 | |
CN116106826A (zh) | 声源定位方法、相关装置和介质 | |
CN115410593A (zh) | 音频信道的选择方法、装置、设备及存储介质 | |
CN113744752A (zh) | 语音处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |