CN103426440A - 利用能量谱熵空间信息的语音端点检测装置及其检测方法 - Google Patents
利用能量谱熵空间信息的语音端点检测装置及其检测方法 Download PDFInfo
- Publication number
- CN103426440A CN103426440A CN2013103700595A CN201310370059A CN103426440A CN 103426440 A CN103426440 A CN 103426440A CN 2013103700595 A CN2013103700595 A CN 2013103700595A CN 201310370059 A CN201310370059 A CN 201310370059A CN 103426440 A CN103426440 A CN 103426440A
- Authority
- CN
- China
- Prior art keywords
- module
- voice
- endpoint detection
- source direction
- point detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
利用能量谱熵空间信息的语音端点检测装置及其检测方法,涉及一种语音信号处理装置。所述装置设有麦克风阵列、端点检测粗判模块、可调波束形成器模块和端点检测细判模块;麦克风阵列中各通道语音信号输出端经前置放大电路和模数转换器后与端点检测粗判模块输入端连接;可调波束形成器模块信号输入端接端点检测粗判模块的粗判结果输出端,可调波束形成器模块的经时延调整后的各通道语音信号进行能量比较后输出声源方向估计结果;端点检测细判模块设有声源方向输入端和细判结果输出端,声源方向输入端接可调波束形成器模块输出端,细判结果输出端输出细判结果。方法包括:初始化;端点检测粗判;声源方向估计;端点检测细判。
Description
技术领域
本发明涉及一种语音信号处理装置,尤其是涉及一种综合利用能量谱熵空间信息的语音端点检测装置及其检测方法。
背景技术
在语音识别、声纹识别、视频会议等语音信号处理中利用语音的某种特性将有话部分和无话部分区分出来,称为语音端点检测。准确的语音端点检测将提高语音处理系统的处理效率和减少语音处理的数据量,从而达到提高语音识别系统识别性能的目的。常用的端点检测算法有基于短时能量和过零率、短时自相关、谱熵检测等,在安静的背景环境下,这些成熟的语音端点检测算法都有很好的端点检测性能,但在实际使用的带背景噪声的环境下,这些算法的检测性能往往不能令人满意。考虑到实际使用的大部分情况下采集到的语音信号是有背景噪声的,因此,研究可适应不同背景噪声情况下的语音端点检测对于提高语音信号处理系统的稳健性和实用性都起着关键的作用。
中国专利ZL 200910088491.9公开一种低信噪比条件下的语音端点检测方法及装置,该方法对分帧语音信号进行子带功率谱熵概率密度加权处理,得到每个语音帧的子带加权功率谱熵,根据阈值进行端点检测,并根据实际应用环境自适应地选择子带数目和权重因子,提高了端点检测的准确性和精确度。
中国专利ZL 200910135606.5公开一种可适应复杂噪声背景的端点检测方法及使用该方法的系统,该发明使用基频提取结合子带能量的方法对语音信号进行检测,由于语音中元音有基频,而基频拥有很强的语音特征,受噪声影响较小,使得元音的提取拥有很高的鲁棒性。并可改善不断变化的背景噪声下的端点检测性能。
中国专利200510089957.9公开一种基于能量及谐波的语音端点检测方法,该方法利用能量进行语音起点初判,然后搜索具有浊音谐波特征的信号进行语音起点的准备检测,由于谐波检测可过滤突发噪声,因此该方法可适应噪声突变对语音端点检测的影响。
但是,背景噪声除了前述几种方法所针对的非白噪声、突发噪声等非语音噪声,在大量使用移动电话、智能终端进行的人机交互语音识别、声纹识别等语音信号处理场合,除了目 标说话人外,往往存在其他说话人的语音干扰。此时,与上述几种方法可结合语音信号频谱,基频、浊音谐波特性等特征改善端点检测的噪声稳健性不同,由于有用语音信号混杂的是具有同样语音特性的其他说话人语音噪声,需利用其他信息来排除语音噪声的影响,保证端点检测的性能。
麦克风阵列(L.J.Griffiths,C.W.Jim.An alternative approach to linearly constrained adaptive beamforming.IEEE Transactions on Antennas and Propagation.January,1982,vol.30,pp27-34;Sharon Gannot,Israel Cohen.Speech Enhancement Based on the General Transfer Function GSC and Post filtering.IEEE Transactions on Speech and Audio Processing.2004,vol.12,no.6;A Abad,J Hernando.Speech Enhancement and recognition by Integrating Adaptive Beamforming and Wiener Filtering.IEEE Sensor Array and Multichannel Signal Processing Workshop,SAM,Sitges,2004)由多个麦克风按照一定拓扑结构组成,其采集到的信号在时频域的基础上增加了空间域信息,从而可对采集到的多路信号进行空时分集处理,麦克风阵列可对不同方向上的信号形成不同响应,也即阵列的空间指向特性,使阵列麦克风具有声源定位和跟踪、语音提取和分离以及去噪等功能,从而提高在复杂背景下的语音信号质量,弥补孤立麦克风无法获取和利用空间信息的缺陷。目前,各类移动电话、智能终端普遍开始配置由两个或多个麦克风组成的麦克风阵列以提高语音信号处理性能,但目前的各类端点检测算法大多基于单麦克风,未采用麦克风阵列提供的声源空间信息来改善性能。
发明内容
本发明的目的在于提供一种综合利用能量谱熵空间信息的语音端点检测装置及其检测方法。
本发明所述利用能量谱熵空间信息的语音端点检测装置设有:
麦克风阵列,用于语音信号多通道采集、前置处理和模数转换;
端点检测粗判模块,用于利用能量,谱熵信息初步确定语音起止点;
可调波束形成器模块,用于通过调整各通道时延进行声源方向的估计;
端点检测细判模块,用于结合方位信息最终确定语音端点,排除语音噪声干扰;
所述麦克风阵列中各通道语音信号输出端依次经前置放大电路和模数转换器后,通过数据线直接与端点检测粗判模块的信号输入端相连接;
所述端点检测粗判模块设有信号输入端和粗判结果输出端;
所述可调波束形成器模块的信号输入端接端点检测粗判模块的粗判结果输出端,可调波 束形成器模块的经时延调整后的各通道语音信号进行能量比较后输出声源方向估计结果;
所述端点检测细判模块设有声源方向输入端和细判结果输出端,声源方向输入端接可调波束形成器模块输出端,细判结果输出端输出细判结果。
所述麦克风阵列可采用由5元麦克风组成的等间距线阵。
本发明所述利用能量谱熵空间信息的语音端点检测方法,采用利用能量谱熵空间信息的语音端点检测装置,所述方法包括以下步骤:
1个初始化步骤:各模块参数初始化设置;
1个端点检测粗判步骤:根据能量信息,谱熵信息,对麦克风阵列接收各帧语音进行端点检测,输出端点粗判结果;
1个声源方向估计步骤:按照设定的声源方向调整步长,对可调波束形成器模块内的各通道信号进行时延补偿,获取声源估计方向;
1个端点检测细判步骤:比较前后两次粗判结果的声源方向值,若两者声源方向差值超过门限,则判断为来自不同方向,认为其为噪声,将噪声段舍去。
本发明要解决的问题是可抑制其他说话语音干扰的端点检测,在能量、谱熵的基础上提供一种结合方向信息的语音端点检测装置。针对说话人识别、语音识别等语音信号处理应用中其他说话人语音干扰,本发明提供将声源方向跟踪功能嵌入端点检测装置,可实现语音噪声背景下的语音信号端点检测。
本发明的技术方案是在传统能量、谱熵端点检测方法的基础上加入声源方向判断功能进行语音信号的端点检测处理。
本发明提供的综合利用能量,谱熵,空间信息的语音端点检测装置实现抑制语音噪声干扰的具体思路为:对麦克风阵列接收信号进行预处理,然后利用能量谱熵特征粗判得到语音信号的起止点,然后对语音信号内的语音段的声源方向进行判断,对不同的语音段所得方向值进行细判,滤除噪声信号。
基于上述考虑,本发明提出综合利用语音信号的能量、谱熵、空间信息以适应包括语音噪声在内的不同类型背景噪声的干扰,特别是利用麦克风阵列提供的空间信息区分来自其他说话人语音噪声的影响,从而改善语音噪声条件下的语音信号端点检测性能,以保证各类移动电话、智能终端语音应用中存在其他说话人时的语音信号处理性能。
同时,由于在语音端点检测阶段麦克风阵列获得的声源方位只用于滤除其他说话人对端点检测的干扰,无需采用复杂的高精度的声源方向估计方法,本发明采用运算量低,算法简单的基于波束指向定位方法,通过逐次调整麦克风阵列各通道时延获取声源方向信息。
与现有的语音端点检测方法相比,本发明具有以下突出优点:
第一,由于在端点检测中结合声源方向信息,通过粗判和细判两个环节的综合判断可抑制语音干扰的影响。
第二,由于抑制语音干扰所需声源方向估计精度不高,可利用简单、低复杂度的波束形成器算法进行方位估计,从而改善语音端点检测性能。
附图说明
图1为本发明所述利用能量谱熵空间信息的语音端点检测装置实施例的结构组成框图。
图2为本发明所述利用能量谱熵空间信息的语音端点检测装置实施例的5元麦克风阵列及其与微处理器连接电路图。
图3为本发明所述利用能量谱熵空间信息的语音端点检测装置实施例中各信号处理模块的数据流、控制流连接示意图。
图4为本发明所述利用能量谱熵空间信息的语音端点检测装置实施例的可调波束形成器模块结构示意图。
具体实施方式
为了使本发明的技术内容、特征、优点更加明显易懂,以下实施例将结合附图对本发明作进一步的说明。
如图1所示,所述本发明所述利用能量谱熵空间信息的语音端点检测装置实施例设有:
麦克风阵列1,用于语音信号多通道采集、前置处理和模数转换;
端点检测粗判模块2,用于利用能量,谱熵信息初步确定语音起止点;
可调波束形成器模块3,用于通过调整各通道时延进行声源方向的估计;
端点检测细判模块4,用于结合方位信息最终确定语音端点,排除语音噪声干扰;
所述麦克风阵列1中各通道语音信号输出端依次经前置放大电路和模数转换器11后,通过数据线直接与端点检测粗判模块2的信号输入端相连接;
所述端点检测粗判模块2设有信号输入端和粗判结果输出端;
所述可调波束形成器模块3的信号输入端接端点检测粗判模块2的粗判结果输出端,可调波束形成器模块3的经时延调整后的各通道语音信号进行能量比较后输出声源方向估计结果;
所述端点检测细判模块4设有声源方向输入端和细判结果输出端,声源方向输入端接可调波束形成器模块3输出端,细判结果输出端输出细判结果。
所述麦克风阵列1采用由5元麦克风组成的等间距线阵。
所述综合利用能量,谱熵,空间信息的语音端点检测装置实施例中麦克风阵列由5个等间距排列的麦克风(m0,m1,…,m4)组成麦克风线列阵,阵列中各麦克风获得的语音信号利用可调波束形成器模块进行声源方向跟踪。
麦克风阵列由麦克风及硬件电路组成,其中麦克风阵列由体积小、结构简单、电声性能好的压强式驻极体麦克风m0,…,m4,NJM2100运算放大器芯片构成的前置放大电路及MAX118模数转换芯片构成(如图2所示),在本实施例中麦克风间距d=10cm。
可调波束形成器模块、端点检测粗判模块、端点检测细判模块等组成模块均属于数字信号处理模块,在本实施例中采用ARM9S3C2440微处理器进行软件编程实现。
麦克风阵列与微处理器的连接方式为:麦克风阵列中5个麦克风输出信号经过图2所示运算放大器构成的2级前置放大电路放大后输入多通道模数转换芯片MAX118,S3C2440微处理器通过IO口GPB2,3,4控制MAX118的输入通道端A1、A2、A3,通过定时器输出脚TOUT0、TOUT1控制MAX118的读出/写入端口WR、RD进行采样频率16ksps的模数转换,通过数据线DATA0至DATA7进行8bit模数转换结果到S3C2440微处理器的传送。
本发明实施例中多通道语音信号模数转换进入微处理器后,以软件编程形式运行的各数字信号处理模块间的数据、控制流连接方式如图3所示,具体说明如下:
本发明的可调波束形成器模块逐次调整麦克风阵列各通道输入信号xi(n),i=0,1,2,…,4的时延补偿值τi(θj),i=0,1,2,…,4。
端点检测粗判:
在本实施例中,利用通道0接收信号能量加权谱熵(王博,郭英,韩立峰.基于熵函数的语音端点检测算法研究[J].信号处理,2009,25(3):368-373)对各帧语音进行初步端点检测,具体原理如下所述:
对通道0接收信号x0(n)进行分帧加窗,帧长为L个采样点,本实施例中取帧长为20ms,即L=320,求第l帧语音的时域能量El:
该帧语音的谱熵计算:
首先对该帧语音进行N(本实施例中N=512)点的FFT变换得:
将每帧频带分成M(本实施例中M=32)个子带,则每个子带包含16个频域点,计算第m个子带的频域能量sl,m:
相应的概率密度为:
则第l帧语音的熵为:
由此可求得能量加权谱熵的特征参数EEF(entroy and energy feature,简称为EEF):
式中En和Hn分别表示噪声段短时能量和谱熵估计值。
本实施例中用起始10帧(假定为“静音段”的背景噪声)信号按下式估计噪声的短时能量En、谱熵Hn以及能量加权谱熵EEFn:
利用噪声段的EEFn参数可设置语音起止点的判决门限值T:T=k×EEFn,k可通过实验获取,本实施例中取k=1.8。将通道0信号从语音起点开始逐帧计算EEF值并与判决门限T比较,当连续5帧大于门限T的值时,则确定语音段起点为这5帧的最前一帧。类似地,当语音段末端连续五帧的EEF值大于门限T时,则认为语音段终点为这五帧的 最后一帧,由此可确定语音信号的端点。
声源方向估计:在本实施例中,采用实现简单的时延补偿-相加波束成形方法进行声源方向估计,其原理结合图例进行如下说明:
如图3所示,将各通道信号按照逐渐增加的方位角计算相应的各通道时延值进行补齐,对补齐后的各通道信号加权叠加,得到对准相应方位角的波束形成输出信号。设时延值为τi(θj),i=0,1,2,…,4代表实施例麦克风阵列的各通道,则经过时延补偿后的第l帧语音为:
x'i,l(n,θj)=xi,l[n+τi(θj)],i=0,1,…,4
对时延补齐后的信号进行加权叠加,可得:
yl(n,θj)=Wa TXl(n,θj)
对不同方位角度对应的波束形成输出能量值进行最大值搜索,能量最大值对应的方位角即为该帧麦克风阵列接收信号的声源实际方向θl。
θl=argmax(El(θj))
由此可得到入射波的声源方向。由于在本发明所述综合利用能量,谱熵,空间信息的语音端点检测装置中估计的声源方向只用于判断并抑制其他说话人的语音信号对端点检测的影响,因此声源方向估计的精度要求不高,可采用实现简单、复杂度低的波束成形方法。
端点检测细判:
根据端点检测粗判确定的信号帧起始点进行信号帧分帧,对信号帧序列中前后相邻两个语音信号帧的对应声源方向进行比较,计算其声源方向差值并与设定的门限进行比较:如超出门限则判决为干扰信号,并重新开始端点检测过程,从而可滤除其他人的语音噪声对端点检测的干扰;否则判断为正常的语音信号,输出各语音帧的起始端点。在此过程中,相邻信号帧的角度差值计算原理为:Δθ=θl-θl-1
具体地:定义Tθ为端点细判的角度差门限值(在本实施例中根据经验设定Tθ为6度)。则:若Δθ<Tθ,则表明仍然为来自同一方向的说话人语音,本装置输出端点检测获取的起始端点结果,以用于后续的语音信号处理;若Δθ>Tθ,认为语音段中混入了干扰信号,将当前帧滤除,重新开始端点检测过程。
在上述工作过程中,为了进行声源方向估计,麦克风阵列各通道信号要按照逐渐增加的方位角计算相应的各通道时延值进行补齐以产生对应的波束,麦克风阵列各通道时延补偿值与对应波束对准的声源方向θj间的关系可结合图4进行描述:
如图4所示,在本实施例中:以5元麦克风线阵所在水平线为X轴,以线阵中间的麦克风m2位置为坐标原点建立定位坐标系,线阵各阵元间距为d,则在目标方位角为θj时,考虑到实施例中声源a处于远场范围,其发出的语音信号到达麦克风线阵时可以认为是平面入射波,则以本实施例线阵的中心阵元麦克风m2作为基准进行相应的时延补偿值计算,即对m2接收的语音信号不作时延补偿,对线阵中各个通道麦克风接收的语音信号xi(n)可根据方位角θj进行相应的时延补偿(如图4所示)。各通道信号的时延补偿值可通过下式来确定:
其中i为线阵中各通道的编号,C为空气中的声速(本实施例中取340m/s),θj为估计的声源方向值,为了搜索到阵列前方所有方向的声源,θj的值设置为:j=0,1,...,K,K为常数,K+1代表麦克风阵列正前半平面180°角度范围内用于搜索声源方向的波束个数,K值越大,估计的入射角精度越高但同时运算复杂度也越高,本实施例中取K=63(即180°角度范围内波束个数为64个)。fs为麦克风阵列语音信号的采样频率(单位为Hz,本实施例中为16kHz),“round()”代表取整运算。各通道语音信号利用对空间不同角度值对应的时延补偿后进行加权叠加,通过波束形成输出的信号能量可实现对准当前声源方向。
本发明公开的综合利用能量,频谱,空间信息的语音端点检测装置及其方法最大的特点在于结合麦克风阵列提供的声源方向信息与能量、语音频谱信息提高端点检测算法的性能,特别是结合声源方向信息可抑制其他说话人的语音噪声干扰的影响,从而改善语音信号处理算法的性能。
Claims (3)
1.利用能量谱熵空间信息的语音端点检测装置,其特征在于设有:
麦克风阵列,用于语音信号多通道采集、前置处理和模数转换;
端点检测粗判模块,用于利用能量,谱熵信息初步确定语音起止点;
可调波束形成器模块,用于通过调整各通道时延进行声源方向的估计;
端点检测细判模块,用于结合方位信息最终确定语音端点,排除语音噪声干扰;
所述麦克风阵列中各通道语音信号输出端依次经前置放大电路和模数转换器后,通过数据线直接与端点检测粗判模块的信号输入端相连接;
所述端点检测粗判模块设有信号输入端和粗判结果输出端;
所述可调波束形成器模块的信号输入端接端点检测粗判模块的粗判结果输出端,可调波束形成器模块的经时延调整后的各通道语音信号进行能量比较后输出声源方向估计结果;
所述端点检测细判模块设有声源方向输入端和细判结果输出端,声源方向输入端接可调波束形成器模块输出端,细判结果输出端输出细判结果。
2.如权利要求1所述利用能量谱熵空间信息的语音端点检测装置,其特征在于所述麦克风阵列采用由5元麦克风组成的等间距线阵。
3.利用能量谱熵空间信息的语音端点检测方法,其特征在于采用如权利要求1所述利用能量谱熵空间信息的语音端点检测装置,所述方法包括以下步骤:
1个初始化步骤:各模块参数初始化设置;
1个端点检测粗判步骤:根据能量信息,谱熵信息,对麦克风阵列接收各帧语音进行端点检测,输出端点粗判结果;
1个声源方向估计步骤:按照设定的声源方向调整步长,对可调波束形成器模块内的各通道信号进行时延补偿,获取声源估计方向;
1个端点检测细判步骤:比较前后两次粗判结果的声源方向值,若两者声源方向差值超过门限,则判断为来自不同方向,认为其为噪声,将噪声段舍去。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103700595A CN103426440A (zh) | 2013-08-22 | 2013-08-22 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103700595A CN103426440A (zh) | 2013-08-22 | 2013-08-22 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103426440A true CN103426440A (zh) | 2013-12-04 |
Family
ID=49651075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013103700595A Pending CN103426440A (zh) | 2013-08-22 | 2013-08-22 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103426440A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575498A (zh) * | 2015-01-30 | 2015-04-29 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及系统 |
CN105679310A (zh) * | 2015-11-17 | 2016-06-15 | 乐视致新电子科技(天津)有限公司 | 一种用于语音识别方法及系统 |
CN106157951A (zh) * | 2016-08-31 | 2016-11-23 | 北京华科飞扬科技股份公司 | 进行音频断句的自动拆分方法及系统 |
CN106373592A (zh) * | 2016-08-31 | 2017-02-01 | 北京华科飞扬科技股份公司 | 音频容噪断句处理方法及系统 |
CN104238576B (zh) * | 2014-09-17 | 2017-02-15 | 厦门亿联网络技术股份有限公司 | 一种基于多麦的视频会议摄像头定位方法 |
CN106653062A (zh) * | 2017-02-17 | 2017-05-10 | 重庆邮电大学 | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 |
CN107863110A (zh) * | 2017-12-14 | 2018-03-30 | 西安Tcl软件开发有限公司 | 基于智能耳机的安全提醒方法、智能耳机及存储介质 |
CN107957571A (zh) * | 2017-10-09 | 2018-04-24 | 中国南方电网有限责任公司调峰调频发电公司 | 水听器测向方法、装置、计算机可读存储介质及计算机设备 |
CN108122552A (zh) * | 2017-12-15 | 2018-06-05 | 上海智臻智能网络科技股份有限公司 | 语音情绪识别方法和装置 |
CN108962226A (zh) * | 2018-07-18 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 用于检测语音的端点的方法和装置 |
CN109358317A (zh) * | 2018-09-30 | 2019-02-19 | 科大讯飞股份有限公司 | 一种鸣笛信号检测方法、装置、设备及可读存储介质 |
WO2019080553A1 (zh) * | 2017-10-23 | 2019-05-02 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN110047519A (zh) * | 2019-04-16 | 2019-07-23 | 广州大学 | 一种语音端点检测方法、装置及设备 |
CN110444222A (zh) * | 2019-05-17 | 2019-11-12 | 成都航天通信设备有限责任公司 | 一种基于信息熵加权的话音降噪方法 |
CN110648692A (zh) * | 2019-09-26 | 2020-01-03 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及系统 |
CN110858488A (zh) * | 2018-08-24 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 语音活动检测方法、装置、设备及存储介质 |
CN113270108A (zh) * | 2021-04-27 | 2021-08-17 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
CN113851114A (zh) * | 2021-11-26 | 2021-12-28 | 深圳市倍轻松科技股份有限公司 | 语音信号的基频确定方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053639A1 (en) * | 2001-08-21 | 2003-03-20 | Mitel Knowledge Corporation | Method for improving near-end voice activity detection in talker localization system utilizing beamforming technology |
CN1426048A (zh) * | 2001-12-13 | 2003-06-25 | 中国科学院自动化研究所 | 基于熵的端点检测方法 |
CN101599269B (zh) * | 2009-07-02 | 2011-07-20 | 中国农业大学 | 语音端点检测方法及装置 |
CN102969002A (zh) * | 2012-11-28 | 2013-03-13 | 厦门大学 | 一种可抑制移动噪声的麦克风阵列语音增强装置 |
-
2013
- 2013-08-22 CN CN2013103700595A patent/CN103426440A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030053639A1 (en) * | 2001-08-21 | 2003-03-20 | Mitel Knowledge Corporation | Method for improving near-end voice activity detection in talker localization system utilizing beamforming technology |
CN1426048A (zh) * | 2001-12-13 | 2003-06-25 | 中国科学院自动化研究所 | 基于熵的端点检测方法 |
CN101599269B (zh) * | 2009-07-02 | 2011-07-20 | 中国农业大学 | 语音端点检测方法及装置 |
CN102969002A (zh) * | 2012-11-28 | 2013-03-13 | 厦门大学 | 一种可抑制移动噪声的麦克风阵列语音增强装置 |
Non-Patent Citations (1)
Title |
---|
李芳兰等: "采用可调波束形成器的GSC麦克风阵列语音增强方法", 《厦门大学学报(自然科学版)》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104238576B (zh) * | 2014-09-17 | 2017-02-15 | 厦门亿联网络技术股份有限公司 | 一种基于多麦的视频会议摄像头定位方法 |
CN104575498A (zh) * | 2015-01-30 | 2015-04-29 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及系统 |
CN104575498B (zh) * | 2015-01-30 | 2018-08-17 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及系统 |
CN105679310A (zh) * | 2015-11-17 | 2016-06-15 | 乐视致新电子科技(天津)有限公司 | 一种用于语音识别方法及系统 |
WO2017084360A1 (zh) * | 2015-11-17 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种用于语音识别方法及系统 |
CN106373592B (zh) * | 2016-08-31 | 2019-04-23 | 北京华科飞扬科技股份公司 | 音频容噪断句处理方法及系统 |
CN106373592A (zh) * | 2016-08-31 | 2017-02-01 | 北京华科飞扬科技股份公司 | 音频容噪断句处理方法及系统 |
CN106157951A (zh) * | 2016-08-31 | 2016-11-23 | 北京华科飞扬科技股份公司 | 进行音频断句的自动拆分方法及系统 |
CN106157951B (zh) * | 2016-08-31 | 2019-04-23 | 北京华科飞扬科技股份公司 | 进行音频断句的自动拆分方法及系统 |
CN106653062A (zh) * | 2017-02-17 | 2017-05-10 | 重庆邮电大学 | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 |
CN107957571A (zh) * | 2017-10-09 | 2018-04-24 | 中国南方电网有限责任公司调峰调频发电公司 | 水听器测向方法、装置、计算机可读存储介质及计算机设备 |
US11081123B2 (en) | 2017-10-23 | 2021-08-03 | Iflytek Co., Ltd. | Microphone array-based target voice acquisition method and device |
WO2019080553A1 (zh) * | 2017-10-23 | 2019-05-02 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN107863110A (zh) * | 2017-12-14 | 2018-03-30 | 西安Tcl软件开发有限公司 | 基于智能耳机的安全提醒方法、智能耳机及存储介质 |
CN108122552A (zh) * | 2017-12-15 | 2018-06-05 | 上海智臻智能网络科技股份有限公司 | 语音情绪识别方法和装置 |
CN108962226A (zh) * | 2018-07-18 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 用于检测语音的端点的方法和装置 |
CN110858488A (zh) * | 2018-08-24 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 语音活动检测方法、装置、设备及存储介质 |
CN109358317A (zh) * | 2018-09-30 | 2019-02-19 | 科大讯飞股份有限公司 | 一种鸣笛信号检测方法、装置、设备及可读存储介质 |
CN110047519A (zh) * | 2019-04-16 | 2019-07-23 | 广州大学 | 一种语音端点检测方法、装置及设备 |
CN110047519B (zh) * | 2019-04-16 | 2021-08-24 | 广州大学 | 一种语音端点检测方法、装置及设备 |
CN110444222A (zh) * | 2019-05-17 | 2019-11-12 | 成都航天通信设备有限责任公司 | 一种基于信息熵加权的话音降噪方法 |
CN110444222B (zh) * | 2019-05-17 | 2021-12-14 | 成都航天通信设备有限责任公司 | 一种基于信息熵加权的话音降噪方法 |
CN110648692A (zh) * | 2019-09-26 | 2020-01-03 | 苏州思必驰信息科技有限公司 | 语音端点检测方法及系统 |
CN110648692B (zh) * | 2019-09-26 | 2022-04-12 | 思必驰科技股份有限公司 | 语音端点检测方法及系统 |
CN113270108A (zh) * | 2021-04-27 | 2021-08-17 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
CN113270108B (zh) * | 2021-04-27 | 2024-04-02 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
CN113851114A (zh) * | 2021-11-26 | 2021-12-28 | 深圳市倍轻松科技股份有限公司 | 语音信号的基频确定方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103426440A (zh) | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 | |
US9460732B2 (en) | Signal source separation | |
US10218327B2 (en) | Dynamic enhancement of audio (DAE) in headset systems | |
US9263062B2 (en) | Vibration sensor and acoustic voice activity detection systems (VADS) for use with electronic systems | |
CN103180900B (zh) | 用于话音活动检测的系统、方法和设备 | |
CN107221336A (zh) | 一种增强目标语音的装置及其方法 | |
CN110830870B (zh) | 一种基于传声器技术的耳机佩戴者语音活动检测系统 | |
WO2010144577A1 (en) | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal | |
TW202147862A (zh) | 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 | |
CN106992010A (zh) | 无直达声条件下的麦克风阵列语音增强装置 | |
Han et al. | Robust GSC-based speech enhancement for human machine interface | |
Plinge et al. | Online multi-speaker tracking using multiple microphone arrays informed by auditory scene analysis | |
Himawan et al. | Microphone array beamforming approach to blind speech separation | |
CN114127846A (zh) | 语音跟踪收听设备 | |
Ichikawa et al. | DOA estimation with local-peak-weighted CSP | |
Nakamura et al. | Blind spatial sound source clustering and activity detection using uncalibrated microphone array | |
JP2005227511A (ja) | 対象音検出方法、音信号処理装置、音声認識装置及びプログラム | |
Lee et al. | Space-time voice activity detection | |
Dinesh et al. | Real-time Multi Source Speech Enhancement for Voice Personal Assistant by using Linear Array Microphone based on Spatial Signal Processing | |
Bouafif et al. | Multi-sources separation for sound source localization | |
Lee et al. | DSP integration of sound source localization and multi-channel wiener filter | |
Takenouchi et al. | Time-frequency masking for BSS problem using equilateral triangular microphone array | |
Firoozabadi et al. | Localization of multiple simultaneous speakers by combining the information from different subbands | |
Ishi et al. | Sound interval detection of multiple sources based on sound directivity | |
Wang et al. | Robust distant speech recognition based on position dependent CMN using a novel multiple microphone processing technique. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20131204 |