CN110706717B - 一种基于麦克风阵列板的人声检测定向方法 - Google Patents
一种基于麦克风阵列板的人声检测定向方法 Download PDFInfo
- Publication number
- CN110706717B CN110706717B CN201910842493.6A CN201910842493A CN110706717B CN 110706717 B CN110706717 B CN 110706717B CN 201910842493 A CN201910842493 A CN 201910842493A CN 110706717 B CN110706717 B CN 110706717B
- Authority
- CN
- China
- Prior art keywords
- current frame
- threshold
- frame
- energy
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明属于声学信号处理技术领域,公开了一种基于麦克风阵列的人声检测定向方法,包括如下步骤:步骤1:利用麦克风阵列获取声源处的音频信号;步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成。本发明以较小的计算数据量,达到识别能量较大的语音信号。还能够有效滤除拍桌子、拍手、翻书等典型会议室噪声,具有较高的使用价值。
Description
技术领域
本发明属于声学信号处理技术领域,具体涉及一种基于麦克风阵列的人声检测定向方法。
背景技术
随着电子信息技术和声学技术的发展,基于麦克风阵列的声源定向技术越来越多地被应用在各种产品上,例如:视频会议系统伴随着智能化的发展,在人们的日常生活、学习、工作中越来越普及。
在一般视频会议系统中,往往需要对会议场景的音频和视频进行实时记录,要求快速识别发言人并将摄像头很快聚焦在发言人身上。目前摄像头聚焦一般需要通过用户手动操作来实现,导致视频切换不及时,聚焦精度低,且操作麻烦。在小型的会议场所,需要的麦克风和摄像头数量较多,而且需要专门的一套控制系统进行调控,相对比较复杂。同时由于会场上会产生拍手声,翻书声等噪声,加大了对于发言人方向测定的难度。
发明内容
本发明的目的在于提供一种基于麦克风阵列的人声检测定向方法,用以解决现有技术的会议系统中对于人声识别不准确且摄像头聚焦不够及时等问题。
为了实现上述任务,本发明采用以下技术方案:
步骤1:利用麦克风阵列获取声源处的音频信号;
步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成;
其中,对音频信号中每一帧的人声判决按照以下步骤执行:
步骤2.1:获取音频信号的当前帧,利用DOA算法计算当前帧所在的角度;
步骤2.2:计算当前帧的多种属性值,所述属性值包括语音存在概率、音频信号能量和音频信噪比,然后根据属性值依次进行人声判决,若当前帧被判决为人声信号则执行步骤2.3;
若当前帧被判决为噪声信号则令当前帧的帧数+1,返回步骤2.1;
步骤2.3:标记当前帧为人声信号,并输出当前帧所在的角度,然后令当前帧的帧数+1,返回步骤2.1。
进一步的,步骤2.2中根据属性值依次进行人声判决包括如下步骤:
步骤a:计算当前帧的语音存在概率q(n),设定概率门限qthreshold,如果q(n)≥qthreshold,执行步骤b,否则当前帧判决为噪声信号;
步骤b:计算当前帧音频信号能量值E(n),设定能量门限Ethreshold,如果E(n)≥Ethreshold,执行步骤c,否则当前帧判决为噪声信号;
步骤c:计算当前帧的音频信噪比SNR(n),设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,则将当前帧判决为人声信号,否则当前帧判决为噪声信号。
更进一步的,步骤a包括如下子步骤:
步骤a1:选择当前帧内符合人声频率范围的所有频点;
步骤a2:根据式1计算步骤a1得到的所有频点的人声概率:
其中,n为当前帧帧号,是指当前帧第k个频点的人声概率,n、k为正整数,Plocal(n,k)为与k相邻的M1个频点人声概率的平均值,Pglobal(n,k)为与k相邻的M2个频点人声概率的平均值,3≤M1≤M2≤31,Pframe(n)是当前帧的相邻帧的语音能量;
步骤a4:设定概率门限qthreshold,如果q(n)大于概率门限qthreshold,执行步骤b,否则判决为噪声信号。
更进一步的,所述人声频率范围为[500,4300]Hz。
进一步的,步骤b包括如下子步骤:
步骤b1:计算当前帧的音频短时能量E'(n),根据式2获取能量门限Ethreshold:
Ethreshold=gamma1*Ethreshold+(1.0-gamma1)*E'(n) 式2
其中,E'(n)是当前帧的音频短时能量,gamma1是调整参数,0≤gamma1≤1;
步骤b2:对包括当前帧在内的连续四帧的E'(n)加权计算平均,得到当前帧能量值E(n);
步骤b3:如果E(n)≥Ethreshold,执行步骤c,否则判决为噪声信号。
更进一步的,步骤b1中,gamma1=0.9。
进一步的,步骤c包括如下子步骤:
步骤c1:计算当前帧中不同频点的能量P(n,k)、设定能量门限Ethreshold,进行人声判决,其中,P(n,k)表示当前帧第k个频点的能量,n为当前帧帧号,n、k为正整数;
步骤c2:对步骤c1得到的所有频点能量进行判断,若当前帧中连续L个以上频点能量超过门限能量Ethreshold,L≥2,则将超过门限值的频点能量标记为信号能量,表示为PS(n,k1)...ps(n,k1+L-1),否则标记为噪声能量,表示为PN(n,k2),其中,k1...(k1+L-1)表示连续L个超出门限能量的频点,k2表示未达到门限能量的频点;
步骤c4:设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,判决当前帧为人声信号,否则判决为噪声信号。
更进一步的,步骤c4中,信噪比门限范围为6.0~20.0。
本发明与现有技术相比具有以下技术特点:
1、该发明以较小的计算数据量,达到识别能量较大的语音信号。
2、能够有效滤除拍桌子、拍手、翻书等典型会议室噪声,且运算量简单,具有较高的使用价值。
3、能够通过调节SNRthreshold、qthreshold来均衡噪声滤除和语音检测的效果。
附图说明
图1是本发明的处理流程图;
图2是数据实施方式中的流程图;
图3是人声检测验证效果图。
具体实施方式
实施例1
如图1和图2所示,本实施例中公开了一种基于麦克风阵列的人声检测定向方法,包括如下步骤:
步骤1:利用麦克风阵列获取声源处的音频信号;
步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成;
其中,对音频信号中每一帧的人声判决按照以下步骤执行:
步骤2.1:获取音频信号的当前帧,利用DOA算法计算当前帧所在的角度;
步骤2.2:计算当前帧的多种属性值,所述属性值包括语音存在概率、音频信号能量和音频信噪比,然后根据属性值依次进行人声判决,若当前帧被判决为人声信号则执行步骤2.3;
若当前帧被判决为噪声信号则令当前帧的帧数+1,返回步骤2.1;
步骤2.3:标记当前帧为人声信号,并输出当前帧所在的角度,然后令当前帧的帧数+1,返回步骤2.1。
本发明利用麦克风阵列获取可能包含人声的语音信号,深入分析了会议系统所遇到的噪声与人声识别存在的问题,通过三层人声判决过滤会议系统所遇到的噪声,准确的检测出人声信号,为会议的良好进行奠基。
具体的,步骤2.2中根据属性值依次进行人声判决包括如下步骤:
步骤a:计算当前帧的语音存在概率q(n),设定概率门限qthreshold,如果q(n)≥qthreshold,执行步骤b,否则当前帧判决为噪声信号;
步骤b:计算当前帧音频信号能量值E(n),设定能量门限Ethreshold,如果E(n)≥Ethreshold,执行步骤c,否则当前帧判决为噪声信号;
步骤c:计算当前帧的音频信噪比SNR(n),设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,则将当前帧判决为人声信号,否则当前帧判决为噪声信号。
优选的,步骤a包括如下子步骤:
步骤a1:选择当前帧内符合人声频率范围的所有频点;
步骤a2:根据式1计算步骤a1得到的所有频点的人声概率:
其中,n为当前帧帧号,是指当前帧第k个频点的人声概率,n、k为正整数,Plocal(n,k)为与k相邻的M1个频点人声概率的平均值,Pglobal(n,k)为与k相邻的M2个频点人声概率的平均值,3≤M1≤M2≤31,Pframe(n)是当前帧的相邻帧的语音能量;
步骤a4:设定概率门限qthreshold,如果q(n)大于概率门限qthreshold,执行步骤b,否则判决为噪声信号。优选的,所述人声频率范围为[500,4300]Hz。
具体的,步骤b包括如下子步骤:
步骤b1:计算当前帧的音频短时能量E'(n),根据式2获取能量门限Ethreshold:
Ethreshold=gamma1*Ethreshold+(1.0-gamma1)*E'(n) 式2
其中,E'(n)是当前帧的音频短时能量,gamma1是调整参数,0≤gamma1≤1;
步骤b2:对包括当前帧在内的连续四帧的E'(n)加权计算平均,得到当前帧能量值E(n);
步骤b3:如果E(n)≥Ethreshold,执行步骤c,否则判决为噪声信号。优选的,步骤b1中,gamma1=0.9。
具体的,步骤c包括如下子步骤:
步骤c1:计算当前帧中不同频点的能量P(n,k)、设定能量门限Ethreshold,进行人声判决,其中,P(n,k)表示当前帧第k个频点的能量,n为当前帧帧号,n、k为正整数;
步骤c2:对步骤c1得到的所有频点能量进行判断,若当前帧中连续L个以上频点能量超过门限能量Ethreshold,L≥2,则将超过门限值的频点能量标记为信号能量,表示为PS(n,k1)...ps(n,k1+L-1),否则标记为噪声能量,表示为PN(n,k2),其中,k1...(k1+L-1)表示连续L个超出门限能量的频点,k2表示未达到门限能量的频点;
步骤c4:设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,判决当前帧为人声信号,否则判决为噪声信号。
更进一步的,步骤c4中,信噪比门限范围为6.0~20.0,可根据不同环境调节此值,在本实施例中Ethreshold=15。
实施例2
在本实施例中公开了一种基于麦克风阵列的人声检测方法,在实施例1的基础上,公开了基于麦克风阵列的人声检测方法在视频会议系统中的应用,同时,可将麦克风阵列板置于任何需要定位人声的智能设备中比如,教育录播系统的应用场景、审讯系统的应用场景等。
在本实施例中,基于麦克风阵列的人声检测方法主要用于检测会议现场中当前音频中每一帧的角度是否为人声角度,若经判断是人声,则将角度传给摄像头,带动摄像头水平移动,经过人脸识别技术实现发言人自动聚焦。
如图3所示,横轴为采样点数,纵轴为语音信号幅值,图中用虚线标记的位置对应纵轴的值为1,表示虚线标记处的语音信号为人声,其他地方为噪声。可以看到,只有能量较大的语音端才能判决为1,算法可以有效滤除拍桌子、拍手、翻书等典型会议室噪声,且运算量简单,具有较高的使用价值。
Claims (5)
1.一种基于麦克风阵列的人声检测定向方法,其特征在于,包括如下步骤:
步骤1:利用麦克风阵列获取声源处的音频信号;
步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成;
其中,对音频信号中每一帧的人声判决按照以下步骤执行:
步骤2.1:获取音频信号的当前帧,利用DOA算法计算当前帧所在的角度;
步骤2.2:计算当前帧的多种属性值,所述属性值包括语音存在概率、音频信号能量和音频信噪比,然后根据属性值依次进行人声判决,若当前帧被判决为人声信号则执行步骤2.3;
若当前帧被判决为噪声信号则令当前帧的帧数+1,返回步骤2.1;
步骤2.3:标记当前帧为人声信号,并输出当前帧所在的角度,然后令当前帧的帧数+1,返回步骤2.1;
所述步骤2.2中根据属性值依次进行人声判决包括如下步骤:
步骤a:计算当前帧的语音存在概率q(n),设定概率门限qthreshold,如果q(n)≥qthreshold,执行步骤b,否则当前帧判决为噪声信号;
步骤b:计算当前帧音频信号能量值E(n),设定能量门限Ethreshold,如果E(n)≥Ethreshold,执行步骤c,否则当前帧判决为噪声信号;
步骤c:计算当前帧的音频信噪比SNR(n),设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,则将当前帧判决为人声信号,否则当前帧判决为噪声信号;
所述步骤a包括如下子步骤:
步骤a1:选择当前帧内符合人声频率范围的所有频点;
步骤a2:根据式1计算步骤a1得到的所有频点的人声概率:
其中,n为当前帧帧号,是指当前帧第k个频点的人声概率,n、k为正整数,Plocal(n,k)为与k相邻的M1个频点人声概率的平均值,Pglobal(n,k)为与k相邻的M2个频点人声概率的平均值,3≤M1≤M2≤31,Pframe(n)是当前帧的相邻帧的语音能量;
步骤a4:设定概率门限qthreshold,如果q(n)大于概率门限qthreshold,执行步骤b,否则判决为噪声信号;
所述步骤c包括如下子步骤:
步骤c1:计算当前帧中不同频点的能量P(n,k)、设定能量门限Ethreshold,进行人声判决,其中,P(n,k)表示当前帧第k个频点的能量,n为当前帧帧号,n、k为正整数;
步骤c2:对步骤c1得到的所有频点能量进行判断,若当前帧中连续L个以上频点能量超过门限能量Ethreshold,L≥2,则将超过门限值的频点能量标记为信号能量,表示为PS(n,k1)...ps(n,k1+L-1),否则标记为噪声能量,表示为PN(n,k2),其中,k1...(k1+L-1)表示连续L个超出门限能量的频点,k2表示未达到门限能量的频点;
步骤c4:设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,判决当前帧为人声信号,否则判决为噪声信号。
2.如权利要求1所述的基于麦克风阵列的人声检测定向方法,其特征在于,所述人声频率范围为[500,4300]Hz。
3.如权利要求1所述的基于麦克风阵列的人声检测定向方法,其特征在于,步骤b包括如下子步骤:
步骤b1:计算当前帧的音频短时能量E'(n),根据式2获取能量门限Ethreshold:
Ethreshold=gamma1*Ethreshold+(1.0-gamma1)*E'(n) 式2
其中,E'(n)是当前帧的音频短时能量,gamma1是调整参数,0≤gamma1≤1;
步骤b2:对包括当前帧在内的连续四帧的E'(n)加权计算平均,得到当前帧能量值E(n);
步骤b3:如果E(n)≥Ethreshold,执行步骤c,否则判决为噪声信号。
4.如权利要求3所述的基于麦克风阵列的人声检测定向方法,其特征在于,步骤b1中,gamma1=0.9。
5.如权利要求1所述的基于麦克风阵列的人声检测定向方法,其特征在于,步骤c4中,信噪比门限范围为6.0~20.0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842493.6A CN110706717B (zh) | 2019-09-06 | 2019-09-06 | 一种基于麦克风阵列板的人声检测定向方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910842493.6A CN110706717B (zh) | 2019-09-06 | 2019-09-06 | 一种基于麦克风阵列板的人声检测定向方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110706717A CN110706717A (zh) | 2020-01-17 |
CN110706717B true CN110706717B (zh) | 2021-11-09 |
Family
ID=69194367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910842493.6A Expired - Fee Related CN110706717B (zh) | 2019-09-06 | 2019-09-06 | 一种基于麦克风阵列板的人声检测定向方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110706717B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284504A (zh) * | 2020-02-20 | 2021-08-20 | 北京三星通信技术研究有限公司 | 姿态检测方法、装置、电子设备及计算机可读存储介质 |
CN112562730A (zh) * | 2020-11-24 | 2021-03-26 | 北京华捷艾米科技有限公司 | 一种声源分析方法及系统 |
CN112652320B (zh) * | 2020-12-04 | 2024-04-12 | 深圳地平线机器人科技有限公司 | 声源定位方法和装置、计算机可读存储介质、电子设备 |
CN113064118B (zh) * | 2021-03-19 | 2024-09-06 | 维沃移动通信有限公司 | 声源定位方法和装置 |
CN113131965B (zh) * | 2021-04-16 | 2023-11-07 | 成都天奥信息科技有限公司 | 一种民航甚高频地空通信电台遥控装置及人声判别方法 |
CN113573212B (zh) * | 2021-06-04 | 2023-04-25 | 成都千立智能科技有限公司 | 扩声系统、及麦克风通道数据选择方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411138A (zh) * | 2011-07-13 | 2012-04-11 | 北京大学 | 一种机器人声源定位方法 |
CN107102296A (zh) * | 2017-04-27 | 2017-08-29 | 大连理工大学 | 一种基于分布式麦克风阵列的声源定位系统 |
CN108346425A (zh) * | 2017-01-25 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种语音活动检测的方法和装置、语音识别的方法和装置 |
CN109545188A (zh) * | 2018-12-07 | 2019-03-29 | 深圳市友杰智新科技有限公司 | 一种实时语音端点检测方法及装置 |
CN110007276A (zh) * | 2019-04-18 | 2019-07-12 | 太原理工大学 | 一种声源定位方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160020833A1 (en) * | 2014-07-21 | 2016-01-21 | Shao-Chieh Ting | Ring setting type near field communication ring device |
-
2019
- 2019-09-06 CN CN201910842493.6A patent/CN110706717B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411138A (zh) * | 2011-07-13 | 2012-04-11 | 北京大学 | 一种机器人声源定位方法 |
CN108346425A (zh) * | 2017-01-25 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种语音活动检测的方法和装置、语音识别的方法和装置 |
CN107102296A (zh) * | 2017-04-27 | 2017-08-29 | 大连理工大学 | 一种基于分布式麦克风阵列的声源定位系统 |
CN109545188A (zh) * | 2018-12-07 | 2019-03-29 | 深圳市友杰智新科技有限公司 | 一种实时语音端点检测方法及装置 |
CN110007276A (zh) * | 2019-04-18 | 2019-07-12 | 太原理工大学 | 一种声源定位方法及系统 |
Non-Patent Citations (2)
Title |
---|
《基于语音存在概率和听觉掩蔽特性的语音增强算法》;宫云梅等;《计算机应用》;20081130;第28卷(第11期);第2981-2983、2986页 * |
《飞机驾驶舱噪声环境下的飞行员语音端点检测》;诸心阳等;《计算机工程》;20180131;第44卷(第1期);第317-321页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110706717A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110706717B (zh) | 一种基于麦克风阵列板的人声检测定向方法 | |
CN107479030B (zh) | 基于分频和改进的广义互相关双耳时延估计方法 | |
CN106710603B (zh) | 利用线性麦克风阵列的语音识别方法及系统 | |
Tan et al. | Audio-visual speech separation and dereverberation with a two-stage multimodal network | |
CN110517705B (zh) | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统 | |
CN111429939B (zh) | 一种双声源的声音信号分离方法和拾音器 | |
Liu et al. | Continuous sound source localization based on microphone array for mobile robots | |
CN109410976A (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
WO2012054248A1 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
JP2016051081A (ja) | 音源分離装置、及び音源分離方法 | |
CN111445920A (zh) | 一种多声源的语音信号实时分离方法、装置和拾音器 | |
CN106716526A (zh) | 用于增强声源的方法和装置 | |
CN112363112B (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
CN111916101A (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
CN107863099A (zh) | 一种新型双麦克风语音检测和增强方法 | |
CN107124647A (zh) | 一种全景视频录制时自动生成字幕文件的方法及装置 | |
CN111551921A (zh) | 一种声像联动的声源定向系统及方法 | |
Marti et al. | Real time speaker localization and detection system for camera steering in multiparticipant videoconferencing environments | |
CN103901400B (zh) | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 | |
AU2022364987A1 (en) | Multi-source audio processing systems and methods | |
Wang et al. | Pseudo-determined blind source separation for ad-hoc microphone networks | |
Kovalyov et al. | Dsenet: Directional signal extraction network for hearing improvement on edge devices | |
Stachurski et al. | Sound source localization for video surveillance camera | |
Plinge et al. | Online multi-speaker tracking using multiple microphone arrays informed by auditory scene analysis | |
CN112367473A (zh) | 一种基于声纹到达相位的可旋转摄像装置及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211109 |
|
CF01 | Termination of patent right due to non-payment of annual fee |