CN110706717B - 一种基于麦克风阵列板的人声检测定向方法 - Google Patents

一种基于麦克风阵列板的人声检测定向方法 Download PDF

Info

Publication number
CN110706717B
CN110706717B CN201910842493.6A CN201910842493A CN110706717B CN 110706717 B CN110706717 B CN 110706717B CN 201910842493 A CN201910842493 A CN 201910842493A CN 110706717 B CN110706717 B CN 110706717B
Authority
CN
China
Prior art keywords
current frame
threshold
frame
energy
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910842493.6A
Other languages
English (en)
Other versions
CN110706717A (zh
Inventor
黄绍锋
孙雅蓉
张升辉
刘晓霞
靳冠军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Hepu Accoustic Technology Co ltd
Original Assignee
Xi'an Hepu Accoustic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Hepu Accoustic Technology Co ltd filed Critical Xi'an Hepu Accoustic Technology Co ltd
Priority to CN201910842493.6A priority Critical patent/CN110706717B/zh
Publication of CN110706717A publication Critical patent/CN110706717A/zh
Application granted granted Critical
Publication of CN110706717B publication Critical patent/CN110706717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明属于声学信号处理技术领域,公开了一种基于麦克风阵列的人声检测定向方法,包括如下步骤:步骤1:利用麦克风阵列获取声源处的音频信号;步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成。本发明以较小的计算数据量,达到识别能量较大的语音信号。还能够有效滤除拍桌子、拍手、翻书等典型会议室噪声,具有较高的使用价值。

Description

一种基于麦克风阵列板的人声检测定向方法
技术领域
本发明属于声学信号处理技术领域,具体涉及一种基于麦克风阵列的人声检测定向方法。
背景技术
随着电子信息技术和声学技术的发展,基于麦克风阵列的声源定向技术越来越多地被应用在各种产品上,例如:视频会议系统伴随着智能化的发展,在人们的日常生活、学习、工作中越来越普及。
在一般视频会议系统中,往往需要对会议场景的音频和视频进行实时记录,要求快速识别发言人并将摄像头很快聚焦在发言人身上。目前摄像头聚焦一般需要通过用户手动操作来实现,导致视频切换不及时,聚焦精度低,且操作麻烦。在小型的会议场所,需要的麦克风和摄像头数量较多,而且需要专门的一套控制系统进行调控,相对比较复杂。同时由于会场上会产生拍手声,翻书声等噪声,加大了对于发言人方向测定的难度。
发明内容
本发明的目的在于提供一种基于麦克风阵列的人声检测定向方法,用以解决现有技术的会议系统中对于人声识别不准确且摄像头聚焦不够及时等问题。
为了实现上述任务,本发明采用以下技术方案:
步骤1:利用麦克风阵列获取声源处的音频信号;
步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成;
其中,对音频信号中每一帧的人声判决按照以下步骤执行:
步骤2.1:获取音频信号的当前帧,利用DOA算法计算当前帧所在的角度;
步骤2.2:计算当前帧的多种属性值,所述属性值包括语音存在概率、音频信号能量和音频信噪比,然后根据属性值依次进行人声判决,若当前帧被判决为人声信号则执行步骤2.3;
若当前帧被判决为噪声信号则令当前帧的帧数+1,返回步骤2.1;
步骤2.3:标记当前帧为人声信号,并输出当前帧所在的角度,然后令当前帧的帧数+1,返回步骤2.1。
进一步的,步骤2.2中根据属性值依次进行人声判决包括如下步骤:
步骤a:计算当前帧的语音存在概率q(n),设定概率门限qthreshold,如果q(n)≥qthreshold,执行步骤b,否则当前帧判决为噪声信号;
步骤b:计算当前帧音频信号能量值E(n),设定能量门限Ethreshold,如果E(n)≥Ethreshold,执行步骤c,否则当前帧判决为噪声信号;
步骤c:计算当前帧的音频信噪比SNR(n),设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,则将当前帧判决为人声信号,否则当前帧判决为噪声信号。
更进一步的,步骤a包括如下子步骤:
步骤a1:选择当前帧内符合人声频率范围的所有频点;
步骤a2:根据式1计算步骤a1得到的所有频点的人声概率:
Figure BDA0002194161240000021
其中,n为当前帧帧号,
Figure BDA0002194161240000022
是指当前帧第k个频点的人声概率,n、k为正整数,Plocal(n,k)为与k相邻的M1个频点人声概率的平均值,Pglobal(n,k)为与k相邻的M2个频点人声概率的平均值,3≤M1≤M2≤31,Pframe(n)是当前帧的相邻帧的语音能量;
步骤a3:对步骤a2获得所有频点的人声概率取平均得到
Figure BDA0002194161240000031
对包括当前帧的连续L帧的
Figure BDA0002194161240000032
计算平均值,得到当前帧人声概率q(n),1≤L≤4;
步骤a4:设定概率门限qthreshold,如果q(n)大于概率门限qthreshold,执行步骤b,否则判决为噪声信号。
更进一步的,所述人声频率范围为[500,4300]Hz。
进一步的,步骤b包括如下子步骤:
步骤b1:计算当前帧的音频短时能量E'(n),根据式2获取能量门限Ethreshold
Ethreshold=gamma1*Ethreshold+(1.0-gamma1)*E'(n) 式2
其中,E'(n)是当前帧的音频短时能量,gamma1是调整参数,0≤gamma1≤1;
步骤b2:对包括当前帧在内的连续四帧的E'(n)加权计算平均,得到当前帧能量值E(n);
步骤b3:如果E(n)≥Ethreshold,执行步骤c,否则判决为噪声信号。
更进一步的,步骤b1中,gamma1=0.9。
进一步的,步骤c包括如下子步骤:
步骤c1:计算当前帧中不同频点的能量P(n,k)、设定能量门限Ethreshold,进行人声判决,其中,P(n,k)表示当前帧第k个频点的能量,n为当前帧帧号,n、k为正整数;
步骤c2:对步骤c1得到的所有频点能量进行判断,若当前帧中连续L个以上频点能量超过门限能量Ethreshold,L≥2,则将超过门限值的频点能量标记为信号能量,表示为PS(n,k1)...ps(n,k1+L-1),否则标记为噪声能量,表示为PN(n,k2),其中,k1...(k1+L-1)表示连续L个超出门限能量的频点,k2表示未达到门限能量的频点;
步骤c3:根据步骤C2得到的当前帧频点的信号能量和噪声能量,得到当前帧信噪比
Figure BDA0002194161240000041
步骤c4:设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,判决当前帧为人声信号,否则判决为噪声信号。
更进一步的,步骤c4中,信噪比门限范围为6.0~20.0。
本发明与现有技术相比具有以下技术特点:
1、该发明以较小的计算数据量,达到识别能量较大的语音信号。
2、能够有效滤除拍桌子、拍手、翻书等典型会议室噪声,且运算量简单,具有较高的使用价值。
3、能够通过调节SNRthreshold、qthreshold来均衡噪声滤除和语音检测的效果。
附图说明
图1是本发明的处理流程图;
图2是数据实施方式中的流程图;
图3是人声检测验证效果图。
具体实施方式
实施例1
如图1和图2所示,本实施例中公开了一种基于麦克风阵列的人声检测定向方法,包括如下步骤:
步骤1:利用麦克风阵列获取声源处的音频信号;
步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成;
其中,对音频信号中每一帧的人声判决按照以下步骤执行:
步骤2.1:获取音频信号的当前帧,利用DOA算法计算当前帧所在的角度;
步骤2.2:计算当前帧的多种属性值,所述属性值包括语音存在概率、音频信号能量和音频信噪比,然后根据属性值依次进行人声判决,若当前帧被判决为人声信号则执行步骤2.3;
若当前帧被判决为噪声信号则令当前帧的帧数+1,返回步骤2.1;
步骤2.3:标记当前帧为人声信号,并输出当前帧所在的角度,然后令当前帧的帧数+1,返回步骤2.1。
本发明利用麦克风阵列获取可能包含人声的语音信号,深入分析了会议系统所遇到的噪声与人声识别存在的问题,通过三层人声判决过滤会议系统所遇到的噪声,准确的检测出人声信号,为会议的良好进行奠基。
具体的,步骤2.2中根据属性值依次进行人声判决包括如下步骤:
步骤a:计算当前帧的语音存在概率q(n),设定概率门限qthreshold,如果q(n)≥qthreshold,执行步骤b,否则当前帧判决为噪声信号;
步骤b:计算当前帧音频信号能量值E(n),设定能量门限Ethreshold,如果E(n)≥Ethreshold,执行步骤c,否则当前帧判决为噪声信号;
步骤c:计算当前帧的音频信噪比SNR(n),设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,则将当前帧判决为人声信号,否则当前帧判决为噪声信号。
优选的,步骤a包括如下子步骤:
步骤a1:选择当前帧内符合人声频率范围的所有频点;
步骤a2:根据式1计算步骤a1得到的所有频点的人声概率:
Figure BDA0002194161240000061
其中,n为当前帧帧号,
Figure BDA0002194161240000062
是指当前帧第k个频点的人声概率,n、k为正整数,Plocal(n,k)为与k相邻的M1个频点人声概率的平均值,Pglobal(n,k)为与k相邻的M2个频点人声概率的平均值,3≤M1≤M2≤31,Pframe(n)是当前帧的相邻帧的语音能量;
步骤a3:对步骤a2获得所有频点的人声概率取平均得到
Figure BDA0002194161240000063
对包括当前帧的连续L帧的
Figure BDA0002194161240000064
计算平均值,得到当前帧人声概率q(n),1≤L≤4;
步骤a4:设定概率门限qthreshold,如果q(n)大于概率门限qthreshold,执行步骤b,否则判决为噪声信号。优选的,所述人声频率范围为[500,4300]Hz。
具体的,步骤b包括如下子步骤:
步骤b1:计算当前帧的音频短时能量E'(n),根据式2获取能量门限Ethreshold
Ethreshold=gamma1*Ethreshold+(1.0-gamma1)*E'(n) 式2
其中,E'(n)是当前帧的音频短时能量,gamma1是调整参数,0≤gamma1≤1;
步骤b2:对包括当前帧在内的连续四帧的E'(n)加权计算平均,得到当前帧能量值E(n);
步骤b3:如果E(n)≥Ethreshold,执行步骤c,否则判决为噪声信号。优选的,步骤b1中,gamma1=0.9。
具体的,步骤c包括如下子步骤:
步骤c1:计算当前帧中不同频点的能量P(n,k)、设定能量门限Ethreshold,进行人声判决,其中,P(n,k)表示当前帧第k个频点的能量,n为当前帧帧号,n、k为正整数;
步骤c2:对步骤c1得到的所有频点能量进行判断,若当前帧中连续L个以上频点能量超过门限能量Ethreshold,L≥2,则将超过门限值的频点能量标记为信号能量,表示为PS(n,k1)...ps(n,k1+L-1),否则标记为噪声能量,表示为PN(n,k2),其中,k1...(k1+L-1)表示连续L个超出门限能量的频点,k2表示未达到门限能量的频点;
步骤c3:根据步骤C2得到的当前帧频点的信号能量和噪声能量,得到当前帧信噪比
Figure BDA0002194161240000071
步骤c4:设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,判决当前帧为人声信号,否则判决为噪声信号。
更进一步的,步骤c4中,信噪比门限范围为6.0~20.0,可根据不同环境调节此值,在本实施例中Ethreshold=15。
实施例2
在本实施例中公开了一种基于麦克风阵列的人声检测方法,在实施例1的基础上,公开了基于麦克风阵列的人声检测方法在视频会议系统中的应用,同时,可将麦克风阵列板置于任何需要定位人声的智能设备中比如,教育录播系统的应用场景、审讯系统的应用场景等。
在本实施例中,基于麦克风阵列的人声检测方法主要用于检测会议现场中当前音频中每一帧的角度是否为人声角度,若经判断是人声,则将角度传给摄像头,带动摄像头水平移动,经过人脸识别技术实现发言人自动聚焦。
如图3所示,横轴为采样点数,纵轴为语音信号幅值,图中用虚线标记的位置对应纵轴的值为1,表示虚线标记处的语音信号为人声,其他地方为噪声。可以看到,只有能量较大的语音端才能判决为1,算法可以有效滤除拍桌子、拍手、翻书等典型会议室噪声,且运算量简单,具有较高的使用价值。

Claims (5)

1.一种基于麦克风阵列的人声检测定向方法,其特征在于,包括如下步骤:
步骤1:利用麦克风阵列获取声源处的音频信号;
步骤2:对步骤1获得的音频信号逐帧进行角度计算和人声判决,根据判决结果将每一帧标记为噪声信号或语音信号,输出判决为语音信号的帧和所在角度,直至音频信号的最后一帧判决结束,检测完成;
其中,对音频信号中每一帧的人声判决按照以下步骤执行:
步骤2.1:获取音频信号的当前帧,利用DOA算法计算当前帧所在的角度;
步骤2.2:计算当前帧的多种属性值,所述属性值包括语音存在概率、音频信号能量和音频信噪比,然后根据属性值依次进行人声判决,若当前帧被判决为人声信号则执行步骤2.3;
若当前帧被判决为噪声信号则令当前帧的帧数+1,返回步骤2.1;
步骤2.3:标记当前帧为人声信号,并输出当前帧所在的角度,然后令当前帧的帧数+1,返回步骤2.1;
所述步骤2.2中根据属性值依次进行人声判决包括如下步骤:
步骤a:计算当前帧的语音存在概率q(n),设定概率门限qthreshold,如果q(n)≥qthreshold,执行步骤b,否则当前帧判决为噪声信号;
步骤b:计算当前帧音频信号能量值E(n),设定能量门限Ethreshold,如果E(n)≥Ethreshold,执行步骤c,否则当前帧判决为噪声信号;
步骤c:计算当前帧的音频信噪比SNR(n),设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,则将当前帧判决为人声信号,否则当前帧判决为噪声信号;
所述步骤a包括如下子步骤:
步骤a1:选择当前帧内符合人声频率范围的所有频点;
步骤a2:根据式1计算步骤a1得到的所有频点的人声概率:
Figure FDA0003276096280000021
其中,n为当前帧帧号,
Figure FDA0003276096280000022
是指当前帧第k个频点的人声概率,n、k为正整数,Plocal(n,k)为与k相邻的M1个频点人声概率的平均值,Pglobal(n,k)为与k相邻的M2个频点人声概率的平均值,3≤M1≤M2≤31,Pframe(n)是当前帧的相邻帧的语音能量;
步骤a3:对步骤a2获得所有频点的人声概率取平均得到
Figure FDA0003276096280000024
对包括当前帧的连续L帧的
Figure FDA0003276096280000025
计算平均值,得到当前帧人声概率q(n),1≤L≤4;
步骤a4:设定概率门限qthreshold,如果q(n)大于概率门限qthreshold,执行步骤b,否则判决为噪声信号;
所述步骤c包括如下子步骤:
步骤c1:计算当前帧中不同频点的能量P(n,k)、设定能量门限Ethreshold,进行人声判决,其中,P(n,k)表示当前帧第k个频点的能量,n为当前帧帧号,n、k为正整数;
步骤c2:对步骤c1得到的所有频点能量进行判断,若当前帧中连续L个以上频点能量超过门限能量Ethreshold,L≥2,则将超过门限值的频点能量标记为信号能量,表示为PS(n,k1)...ps(n,k1+L-1),否则标记为噪声能量,表示为PN(n,k2),其中,k1...(k1+L-1)表示连续L个超出门限能量的频点,k2表示未达到门限能量的频点;
步骤c3:根据步骤C2得到的当前帧频点的信号能量和噪声能量,得到当前帧信噪比
Figure FDA0003276096280000023
步骤c4:设定信噪比门限SNRthreshold,如果SNR(n)≥SNRthreshold,判决当前帧为人声信号,否则判决为噪声信号。
2.如权利要求1所述的基于麦克风阵列的人声检测定向方法,其特征在于,所述人声频率范围为[500,4300]Hz。
3.如权利要求1所述的基于麦克风阵列的人声检测定向方法,其特征在于,步骤b包括如下子步骤:
步骤b1:计算当前帧的音频短时能量E'(n),根据式2获取能量门限Ethreshold
Ethreshold=gamma1*Ethreshold+(1.0-gamma1)*E'(n) 式2
其中,E'(n)是当前帧的音频短时能量,gamma1是调整参数,0≤gamma1≤1;
步骤b2:对包括当前帧在内的连续四帧的E'(n)加权计算平均,得到当前帧能量值E(n);
步骤b3:如果E(n)≥Ethreshold,执行步骤c,否则判决为噪声信号。
4.如权利要求3所述的基于麦克风阵列的人声检测定向方法,其特征在于,步骤b1中,gamma1=0.9。
5.如权利要求1所述的基于麦克风阵列的人声检测定向方法,其特征在于,步骤c4中,信噪比门限范围为6.0~20.0。
CN201910842493.6A 2019-09-06 2019-09-06 一种基于麦克风阵列板的人声检测定向方法 Active CN110706717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910842493.6A CN110706717B (zh) 2019-09-06 2019-09-06 一种基于麦克风阵列板的人声检测定向方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910842493.6A CN110706717B (zh) 2019-09-06 2019-09-06 一种基于麦克风阵列板的人声检测定向方法

Publications (2)

Publication Number Publication Date
CN110706717A CN110706717A (zh) 2020-01-17
CN110706717B true CN110706717B (zh) 2021-11-09

Family

ID=69194367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910842493.6A Active CN110706717B (zh) 2019-09-06 2019-09-06 一种基于麦克风阵列板的人声检测定向方法

Country Status (1)

Country Link
CN (1) CN110706717B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
CN112562730A (zh) * 2020-11-24 2021-03-26 北京华捷艾米科技有限公司 一种声源分析方法及系统
CN112652320B (zh) * 2020-12-04 2024-04-12 深圳地平线机器人科技有限公司 声源定位方法和装置、计算机可读存储介质、电子设备
CN113064118A (zh) * 2021-03-19 2021-07-02 维沃移动通信有限公司 声源定位方法和装置
CN113131965B (zh) * 2021-04-16 2023-11-07 成都天奥信息科技有限公司 一种民航甚高频地空通信电台遥控装置及人声判别方法
CN113573212B (zh) * 2021-06-04 2023-04-25 成都千立智能科技有限公司 扩声系统、及麦克风通道数据选择方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411138A (zh) * 2011-07-13 2012-04-11 北京大学 一种机器人声源定位方法
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN108346425A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种语音活动检测的方法和装置、语音识别的方法和装置
CN109545188A (zh) * 2018-12-07 2019-03-29 深圳市友杰智新科技有限公司 一种实时语音端点检测方法及装置
CN110007276A (zh) * 2019-04-18 2019-07-12 太原理工大学 一种声源定位方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160020833A1 (en) * 2014-07-21 2016-01-21 Shao-Chieh Ting Ring setting type near field communication ring device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411138A (zh) * 2011-07-13 2012-04-11 北京大学 一种机器人声源定位方法
CN108346425A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种语音活动检测的方法和装置、语音识别的方法和装置
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN109545188A (zh) * 2018-12-07 2019-03-29 深圳市友杰智新科技有限公司 一种实时语音端点检测方法及装置
CN110007276A (zh) * 2019-04-18 2019-07-12 太原理工大学 一种声源定位方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于语音存在概率和听觉掩蔽特性的语音增强算法》;宫云梅等;《计算机应用》;20081130;第28卷(第11期);第2981-2983、2986页 *
《飞机驾驶舱噪声环境下的飞行员语音端点检测》;诸心阳等;《计算机工程》;20180131;第44卷(第1期);第317-321页 *

Also Published As

Publication number Publication date
CN110706717A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110706717B (zh) 一种基于麦克风阵列板的人声检测定向方法
CN107479030B (zh) 基于分频和改进的广义互相关双耳时延估计方法
CN106710603B (zh) 利用线性麦克风阵列的语音识别方法及系统
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
US9197974B1 (en) Directional audio capture adaptation based on alternative sensory input
Tan et al. Audio-visual speech separation and dereverberation with a two-stage multimodal network
EP3526979B1 (en) Method and apparatus for output signal equalization between microphones
CN111916101B (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
Liu et al. Continuous sound source localization based on microphone array for mobile robots
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
WO2012054248A1 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
JP2016051081A (ja) 音源分離装置、及び音源分離方法
CN106716526A (zh) 用于增强声源的方法和装置
CN111445920A (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
JP2010112996A (ja) 音声処理装置、音声処理方法およびプログラム
CN112363112B (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN107124647A (zh) 一种全景视频录制时自动生成字幕文件的方法及装置
CN111551921A (zh) 一种声像联动的声源定向系统及方法
Marti et al. Real time speaker localization and detection system for camera steering in multiparticipant videoconferencing environments
Wang et al. Pseudo-determined blind source separation for ad-hoc microphone networks
AU2022364987A1 (en) Multi-source audio processing systems and methods
Kovalyov et al. Dsenet: Directional signal extraction network for hearing improvement on edge devices
Stachurski et al. Sound source localization for video surveillance camera
CN110689905B (zh) 一种用于视频会议系统的语音活动检测系统
Plinge et al. Online multi-speaker tracking using multiple microphone arrays informed by auditory scene analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant