CN108806711A - 一种提取方法及装置 - Google Patents
一种提取方法及装置 Download PDFInfo
- Publication number
- CN108806711A CN108806711A CN201810529764.8A CN201810529764A CN108806711A CN 108806711 A CN108806711 A CN 108806711A CN 201810529764 A CN201810529764 A CN 201810529764A CN 108806711 A CN108806711 A CN 108806711A
- Authority
- CN
- China
- Prior art keywords
- sound
- source direction
- type
- specific
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000006870 function Effects 0.000 claims description 50
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 abstract description 15
- 239000000284 extract Substances 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本发明实施例提供了一种提取方法、装置及终端,其中的方法可包括:获取至少两路声音信号,并计算至少两路声音信号的频率信号;根据至少两路声音信号的频率信号,确定至少一个特定声源方向;进一步的,获取该至少一个特定声源方向上的特定声音,并判断特定声音的声音类型;根据特定声音类型,确定目标声源方向和带噪目标声音;最后在目标声源方向上,从带噪目标声音中提取纯净目标声音,从而可以实现从多路声音信号中定位目标声源方向,并准确提取目标声音信号。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种提取方法及装置。
背景技术
在声音信号处理技术中,声源定位方法是一项重要技术,使用此技术的终端结合阵列相关方法能够提取特定方向的声音。但是,常规的声音提取方法是根据信号强度提取,当说话人声音信噪比较小的时候,往往会发生声源方向判断错误以及目标声源识别错误的问题。因此,在阵列通信方法和阵列语音识别方法中,提供一种有效解决声源提取方法是目前需要解决的关键问题。
发明内容
本申请实施例提供了一种提取方法、装置及终端,可以实现从多路声音信号中定位目标声源方向,并准确提取目标声音。
本申请实施例第一方面提供了一种提取方法,包括:
获取至少两路声音信号,并分别计算至少两路声音信号中每路声音信号的的频率信号,得到至少两个频率信号;
根据至少两个频率信号,确定至少一个特定声源方向;
获取至少一个特定声源方向上的特定声音,并判断特定声音的声音类型。
根据特定声音类型,确定目标声源方向和带噪目标声音;
在目标声源方向上,从带噪目标声音中提取纯净目标声音。
可选的,根据至少两个频率信号,确定至少一个特定声源方向,包括:
分别获取至少两个频率信号中每个频率信号在预设频率范围内的子带频率信号;
根据至少两个频率信号中每个频率信号的子带频率信号,确定每两个不同频率信号对应的子带频率信号之间的互相关相位差函数GCC-PHAT;
利用相位差函数,结合麦克风阵型,确定相位差函数平均相位能量和相位差函数峰值,峰值数量为至少一个;
根据平均相位能量和相位差函数峰值,计算各个峰值对应的方向上存在声音的概率;
将各个所述峰值对应的方向上存在声音的概率中大于预设声源输出阈值的存在声音的概率对应的方向确定为特定声源方向,特定声源方向为至少一个。
可选的,获取至少一个特定声源方向上的特定声音,包括:
根据至少一个特定声源方向,构建空间滤波器;
根据空间滤波器对至少一个特定声源方向上的声源滤波,获取至少一个特定声源方向上的声音信号,声音信号为至少一个;
根据声音信号,确定至少一个特定声源方向上的特定声音。
可选的,根据声音信号,确定至少一个特定声源方向上的特定声音,包括:
获取声音信号的快包络能量和慢包络能量;
根据快包络能量和慢包络能量,计算各个声音信号中存在声音的概率;
将所述存在声音的概率中大于预设存在声音阈值的存在声音的概率对应的声音信号确定为声音信号对应的特定声源方向上的特定声音。
可选的,判断特定声音的声音类型,包括:
利用第一编码算法和第二编码算法计算特定声音的第一编码误差和第二编码误差;
根据第一编码误差和第二编码误差计算特定声音为语音类型的概率;
若语音类型的概率大于预设语音类型阈值,则确定特定声音的声音类型为语音类型;若语音类型的概率不大于预设语音类型阈值,则确定特定声音的声音类型为非语音类型。
可选的,根据特定声音类型,确定目标声源方向和带噪目标声音,包括:
获取特定声音类型为语音类型的数量;
若数量为1,则将特定声音类型的对应的特定声音确定为带噪目标声音,并将特定声音对应的特定声源方向确定为目标声源方向;
若数量大于1,则获取各个特定声音类型对应的特定声音的快包络能量和慢包络能量;
根据快包络能量和慢包络能量,计算各个特定声音类型对应的特定声音的平均能量;
将平均能量最大的特定声音确定为带噪目标声音,并将平均能量最大的特定声音对应的特定声源方向确定为目标声源方向。
可选的,目标声源方向上包括第一噪声源和第二噪声源,在目标声源方向上,从带噪目标声音中提取纯净目标声音,包括:
设置第一噪声源抑制系数和第二噪声源抑制系数;
根据第一噪声源抑制系数和第二噪声源抑制系数对目标声源方向上的带噪目标声音做噪声抑制,得到的结果确定为纯净目标声音。
本申请实施例第二方面提供了一种提取装置,包括:
获取单元,用于获取至少两路声音信号;
计算单元,用于分别计算至少两路声音信号中每路声音信号的频率信号,得到至少两路频率信号;
确定单元,用于根据至少两个频率信号,确定至少一个特定声源方向;
获取单元,还用于获取至少一个特定声源方向上的特定声音;
判断单元,用于判断特定声音的声音类型;
确定单元,还用于根据特定声音类型,确定目标声源方向和带噪目标声音;
提取单元,用于在目标声源方向上,从带噪目标声音中提取纯净目标声音。
可选的,确定单元用于根据至少两个频率信号,确定至少一个特定声源方向的具体方式为:
分别获取至少两个频率信号中每个频率信号在预设频率范围内的子带频率信号;
根据至少两个频率信号中每个频率信号的子带频率信号,确定每两个不同频率信号对应的子带频率信号之间的互相关相位差函数GCC-PHAT;
利用相位差函数,结合麦克风阵型,确定相位差函数平均相位能量和相位差函数峰值,峰值数量为至少一个;
根据平均相位能量和相位差函数峰值,计算各个峰值对应的方向上存在声音的概率;
将各个所述峰值对应的方向上存在声音的概率中大于预设声源输出阈值的存在声音的概率对应的方向确定为特定声源方向,特定声源方向为至少一个。
可选的,获取单元具体用于:
根据至少一个特定声源方向,构建空间滤波器;
根据空间滤波器对至少一个特定声源方向上的声源滤波,获取至少一个特定声源方向上的声音信号,声音信号为至少一个;
根据声音信号,确定至少一个特定声源方向上的特定声音。
可选的,确定单元用于根据声音信号,确定至少一个特定声源方向上的特定声音的具体方式为;
获取声音信号的快包络能量和慢包络能量;
根据快包络能量和慢包络能量,计算各个声音信号中存在声音的概率;
将所述存在声音的概率中大于预设存在声音阈值的存在声音的概率对应的声音信号确定为声音信号对应的特定声源方向上的特定声音。
可选的,判断单元具体用于:
利用第一编码算法和第二编码算法计算特定声音的第一编码误差和第二编码误差;
根据第一编码误差和第二编码误差计算特定声音为语音类型的概率;
若语音类型的概率大于预设语音类型阈值,则确定特定声音的声音类型为语音类型,若语音类型的概率不大于预设语音类型阈值,则确定特定声音的声音类型为非语音类型。
可选的,确定单元用于根据特定声音类型,确定目标声源方向和带噪目标声音的具体方式为:
获取特定声音类型为语音类型的数量;
若数量为1,则将特定声音类型的对应的特定声音确定为带噪目标声音,并将特定声音对应的特定声源方向确定为目标声源方向;
若数量大于1,则获取各个特定声音类型对应的特定声音的快包络能量和慢包络能量;
根据快包络能量和慢包络能量,计算各个特定声音类型对应的特定声音的平均能量;
将平均能量最大的特定声音确定为带噪目标声音,并将平均能量最大的特定声音对应的特定声源方向确定为目标声源方向。
可选的,目标声源方向上包括第一噪声源和第二噪声源,提取单元具体用于:
设置第一噪声源抑制系数和第二噪声源抑制系数;
根据第一噪声源抑制系数和第二噪声源抑制系数对目标声源方向做噪声抑制,将经过噪声抑制后的带噪目标声音确定为纯净目标声音。
第三方面,本申请实施例提供了一种终端,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,存储器用于存储支持终端执行上述方法的计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行上述第一方面的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行上述第一方面的方法。
本申请实施例中终端计算获取到的至少两路声音信号的频率信号,根据各个频率信号确定出至少一个特定声源方向。进一步的,终端判断确定的特定声源方向上的特定声音类型,并根据该声音类型确定目标声源方向和带噪目标声音,进而终端便可以在目标声源方向上,对带噪目标声音进行处理,由此终端得到纯净目标声音,从而可以实现从多路声音信号中定位目标声源方向,并准确提取目标信号。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种提取方法的流程示意图;
图2是本申请实施例提供的一种确定特定声源方向的方法流程示意图;
图3是本申请实施例提供的一种获取特定声源方法的流程示意图;
图4是本申请实施例提供的另一种提取方法的流程示意图;
图5是本申请实施例提供的一种提取装置的结构示意图;
图6是本申请实施提供的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
参考图1为本发明实施例提供的一种提取方法的示意流程图,如图1所示的提取方法可包括以下步骤:
101、终端获取至少两路声音信号,并分别计算至少两路声音信号中每路声音信号的频率信号,得到至少两个频率信号。
其中,终端可以为手机、笔记本等便携式设备,或者终端也可以为台式电脑,或者终端也可以为具有录音功能的设备。总的来说,终端可以为任何能够通过内置或者外接麦克风获取声音信号的设备。可选的,终端采集的声音信号可以为单路声音信号,也即终端采集到的声音信号是利用一个麦克风获取的;终端采集的声音信号也可以为多路声音信号,也即终端采集到的声音信号是利用多个麦克风获取的。可选的,终端获取到声音信号之后,可以利用短时傅里叶变换(Short Time Fourier Transform,STFT)对获取到的每路声音信号进行处理,将处理后的结果作为声音信号对应的频率信号;或者终端也可以通过其他方法得到声音信号对应的频率信号,在本发明实施中不做具体限定。
举例来说,假设终端可内置有8个麦克风,一帧数据为8ms,在采样率为16khz条件下,一帧数据有8*8*16个点。假设终端可通过内置的8路麦克风获取到8路声音信号;终端可以通过短时傅里叶变换STFT对获取到的8路声音信号进行处理,从而得到8路声音信号对应的频率信号,终端计算8路声音信号的具体的处理过程可用如下列公式所示:xm(n,f)=STFT(xtm(n,t)),其中m=1,...,M表示第几个麦克风,f=0,...,F-1表示频率频点,F是傅里叶变换的点数,xm是第m个麦克风对应的频率信号,xtm是第m个麦克风对应的时域信号,n=1,...,N是对应的帧数。
102、终端根据至少两个频率信号,确定至少一个特定声源方向。
可选的,参考图2为终端根据至少两个频率信号,确定特定声源方向的一种可行的方法,图2所示的方法可包括:201:终端分别获取至少两个频率信号中每个频率信号在预设频率范围内频率信号的子带频率信号;202:终端根据至少两个频率信号中每个频率信号的子带频率信号,确定每两个不同频率信号对应的子带频率信号之间的互相关相位差函数GCC-PHAT(Generalized Cross Correlation with Phase Transform);203:终端利用互相关相位差函数,结合麦克风阵型,确定相位差函数平均能量和相位差函数峰值;204:终端根据平均相位能量和相位差函数峰值,计算各个峰值对应的方向上存在声音的概率;205:终端将各个所述峰值对应的方向上存在声音的概率中大于预设声源输出阈值的存在声音的概率对应的方向确定为特定声源方向,特定声源方向为至少一个。
可选的,在201中子带频率信号的数量麦克风数量是相同的,至少为两个。在201中终端可以利用子带频率计算公式比如分别获取至少两个频率信号中每个频率信号在预设范围内的子带频率信号,在上述公式中xsm表示预设频率范围内的子带频率信号,FSL表示最低子带频率,FSH表示最高子带频率。
可选的,202中不同的频率信号的对应不同的声音信号,声音信号是终端通过麦克风获取到的,因此步骤202也可以理解为终端根据每两个不同麦克风子带频率信号,确定每两个不同麦克风子带频率信号之间的互相关相位函数GCC-PHAT。202可行的方式为:终端从201获取到的各个子带频率信号中,任意选取其中两个子带频率信号计算其互相关相位函数GCC-PHAT。可选的,终端可以利用公式计算两个选取的子带频率信号的GCC-PHAT。其中m1=1,...,M-1,m2=m1+1,τ表示时间差,TL<τ<TH其中TL和TH由麦克风器件尺寸确定,m1,与m2不相等。基于上述终端确定GCC-PHAT的方法可知,如果在有M个子带频率信号的情况下,一般可以获得不相关的M(M-1)/2个互相关相位差函数。在只有两个麦克风的情况下,可以获得两个子带频率信号,并获得一个互相关相位差函数。如果终端包括两个以上麦克风,可以获得两个或者以上的互相关相位函数,终端根据多个互相关相位差函数和延时τ,以及方位的关系,获得综合互相关相位函数,记作r(τ),综合互相关相位函数可以使用如下公式表示
可选的,在步骤203中,终端对每个计算得到的互相关相位函数如rm1,m2(τ),通过公式计算互相关相位函数平均相位能量值,进而得到平均相位能量。然后终端可根据不同τ找到互相关相位函数rm1,m2(τ)的波峰,可表示为rm1,m2,k(τm1,m2,k),对应的峰值点为τm1,m2,k,其中k=1,...,K,其中K为波峰数目。如果包含两个以上的麦克风,使用综合互相关相位函数r(τ)代替rm1,m2(τ),执行上述步骤,获得综合互相关相位函数的平均相位能量和波峰,进而确定综合互相关相位差函数的峰值。
可选的,在204中,由于互相关相位函数波峰的物理意义为声音到达的方向对应的延时,因此终端可以根据互相关相位差函数的平均相位能量和相位差函数峰值,使用以下公式所示计算各个方向上存在声音的概率。
可选的,在205可以理解为终端将各个计算得到的存在声音的概率中大于预设声源输出阈值的概率作为目标存在声音的概率,并将该目标存在声音的概率对应的方向确定为特定声源方向,也就是说终端可预先设定一个声源输出阈值,终端在204中计算得到各个峰值对应的方向上存在声音的概率后,将各个概率与预设声源输出阈值相比较,如果某个方向上存在声音的概率大于声源输出阈值,则确定该概率对应的方向为特定声源方向。举例来说,假设终端内置有两个麦克风,假设终端预先设定的预设声源输出阈值表示为ξ1,ξ1=0.5,假设麦克风1获取到的声音信号和麦克风2获取到的声音信号的互相关相位函数为r1,2(τ),r1,2(τ)的两个波峰分别表示为r1,2,1=0.6和r1,2,2=0.2,两个波峰峰值对应的延时τ点分别为τ1,2,1=1和τ1,2,2=1.5,且假设互相关相位函数平均值为进一步的,终端可通过公式计算得到两个峰值点对应的方向上存在声音的概率为:P1,2,1=0.6,P1,2,2=0.2。终端分别将计算得到的P1,2,1和P1,2,2声源输出阈值设置ξ1=0.5进行比较,结果只有P1,2,1大于声源输出阈值,表示只有一个方向有声音,因此终端可将P1,2,1对应的方向,也就是第一个峰值点对应的方向确定为特定声源方向,也即方向的位置可以通过第一个峰值点对应的延时τ1,2,1=1确定。如果包含两个以上的麦克风,使用综合互相关相位函数r(τ)代替rm1,m2(τ),执行上述步骤,获得声源方向对应的延时。
103、终端获取至少一个特定声源方向上的特定声音,并判断特定声音的声音类型。
可选的,参见图3,该图为终端获取至少一个特定声源方向上的特定声音的方法,图3所示方法可包括:301:终端根据至少一个特定声源方向,构建空间滤波器;302:终端根据空间滤波器对至少一个特定声源方向上的声源滤波,获取至少一个特定声源方向上的声音信号;303:终端根据声音信号,确定至少一个特定声源方向上的特定声音。也就是说,终端使用空间滤波器的方法比如终端可以用延时求和(Delay Sum,DS)方法或者最小方差无失真相应方法(Minimum Variance Distortionless Response,MVDR)等获取至少一个特定声源方向上的声音信号,然后根据多个麦克风采集到声音信号,确定特定声源方向上的特定声音。
可选的,终端根据多个麦克风采集到声音信号,结合空间滤波器,确定至少一个特定声源方向上的特定声音,包括:获取声音信号的快包络能量和慢包络能量;根据快包络能量和慢包络能量,计算各个声音信号中存在声音的概率;将所述存在声音的概率中大于预设存在声音概率阈值的存在声音的概率对应的声音信号确定为特定声音。换句话说,终端可预先设定一个存在声音阈值,在获取到至少一个特定声源方向上的声音信号后,根据声音信号的快包络和慢包络能量计算该方向上声音信号存在的概率,如果该概率大于预设存在声音阈值,则可确定该声音信号为其对应的特定声源方向上的特定声音。
可选的,假设终端根据步骤301-302确定的特定声源方向上的声音信号可表示为xz(n,f),其中z=1,...,Z是声音信号下标。在303中,终端根据声音信号,确定至少一个特定声源方向上的特定声音,终端可先获取对应方向上声音信号的快包络能量,记做sfz,和慢包络能量,记做ssz。例如终端可以通过公式和公式分别计算声源方向上对应声音信号的快包络能量和慢包络能量,然后根据该快包络能量和慢包络能量计算声音信号中存在声音的似然比,记作Pz,Pz(n)=sfz(n)/ssz(n)。进一步的,终端判断各个特定方向上的声音信号中存在声音的似然比,将大于预设存阈值的似然比对应的声音信号确定为特定声源方向上的特定声音。具体来说,阈值表示为ξ2,声音信号中存在声音的似然比Pz(n)>ξ2则认为特定声源方向上包含特定声音。
需要说明的是,在本发明实施例中终端根据获取到的至少两个频率信号,确定至少一个特定声源方向之后,终端可将除了包含特定声源方向的其他方向作为非特定声源方向。非特定声源方向可以有一个或者多个。并且,终端可将特定声源方向上的声源确定为特定声音,将非特声源方向上的一个或者多个声源作为第一噪声声源,记做u1,k1(n,f)标记,其中k1=1,...,K1是第一噪声声源下标。
可选的,终端确定至少一个特定声源方向上的特定声音之后,终端可判断该特定声音的类型。可选的,终端判断特定声音的声音类型,包括:利用第一编码算法和第二编码算法计算特定声音的第一编码误差和第二编码误差;根据第一编码误差和第二编码误差计算特定声音为语音类型的概率;若语音类型的概率不小于预设语音类型阈值,则确定特定声音的声音类型为语音类型,若语音类型的概率小于预设语音类型阈值,则确定特定声音的声音类型为非语音类型。换句话说,终端获取到特定声音之后,将特定声音输入到第一编码器和第二编码器中。其中,第一编码器可以使用语音编码模型,例如线性预测编码(Linear predictive coding,LPC),第二编码器可以使用音乐编码模型。可选的,终端将第一编码器计算得到的第一编码误差记作ez,1,将第二编码器计算得到的第二编码误差记作ez,2。进一步的,终端可根据ez,1和ez,2计算特定声音为语音类型的概率,例如终端可以利用公式Ps(n)=ez,2(n)/ez,1(n)计算特定声音为语音类型的概率。假设终端预设语音类型阈值可表示为ξ3,如果终端判断Ps>ξ3,则确定特定声音的声音类型为语音类型,可记做xp(n,f),其中p=1,...,P是特定方向上声音下标;如果Ps<ξ3则终端可确定特定声音的声音类型为非语音类型,例如可以为音乐类型。可选的,在本发明实施例中将非语音类型的特定声音作为第二噪声声源,可记做u2,k2(n,f),其中k2=0,...,K2,表示第二噪声声源的下标,第二噪声声源个数可以为0个或者多个。
104、终端根据特定声音类型,确定目标声源方向和带噪目标声音。
可选的,在103步骤中,终端可能会获取到一个或者多个为语音类型的特定方向的特定声音。如果只有一个特定方向的特定声音是语音类型,则这个方向的声音是说话人声音,记作xs(n,f);如果存在多个特定方向的特定声音是语音类型,则根据上述303步骤,获取每一个特定声音的快包络sfz(n);更进一步,终端找到sfz(n)最大值,并将最大的sfz(n)对应的方向作为目标声源方向,该目标声源方向上的声音作为带噪声目标声源,记作xs(n,f)。
105、终端在目标声源方向上,从带噪目标声音中提取纯净目标声音。
其中,目标声源方向上包括第一噪声源和第二噪声源,终端在目标声源方向上,从带噪目标声音中提取纯净目标声音包括:设置第一噪声源抑制系数和第二噪声源抑制系数;根据第一噪声源抑制系数和第二噪声源抑制系数对目标声源方向上的带噪目标声音做噪声抑制,得到的结果确定为纯净目标声音。换句话说,终端在目标声源方向上,从带噪目标声音中提取纯净目标声音的方式可以为:终端分别为第一噪声源和第二噪声源定义抑制系数;然后终端对带噪目标声音进行噪声抑制处理,从而得到纯净目标声音。可选的,终端可定义第一噪声抑制系数β1和第二噪声抑制系数β2。其中,第一噪声系数作用于第一噪声声源,第二噪声系数作用于第二噪声声源。终端提取纯净目标声音的计算方法可以表是为:其中是纯净目标声音。
本发明实施例中,终端根据获取到的至少两路声音信号的至少两个频率信号,确定至少一个特定声源方向。进一步的,根据至少一个特定声源方向上的特定声音类型确定目标声源方向和带噪目标声音,从而终端可以在目标声源方向上从带噪目标声音中提取纯净目标声音,实现了从多路声音信号中定位目标声源方向,并准确提取目标信号。
参考图4,为本申请实施例提供的一种提取方法的流程示意图,如图4所示的提取方法,可包括以下步骤:
401、终端获取至少两路声音信号,并分别计算至少两路声音信号中每路声音信号的频率信号,得到至少两个频率信号。
402、终端根据至少两个频率信号,确定至少一个特定声源方向。
403、终端获取至少一个特定声源方向上的特定声音,并判断特定声音的声音类型。
可选的,步骤401-403一些可行的实施方式已经在图1所示的实施例中进行了详细的描述,在此不再赘述。
404、终端获取特定声音类型为语音类型的数量;
405、终端根据语音类型的数量,确定目标声源方向和带噪目标声音。
可选的,终端在403确定了特定声音的是语音类型之后,可以获取特定声音类型为语音类型的数量,进而根据该数量,确定目标声源方向和带噪目标声音。可选的,终端根据语音类型的数量,确定目标声源方向和带噪目标声音的方式可以为:若数量为1,则将特定声音类型的对应的特定声音确定为带噪目标声音,并将特定声音对应的特定声源方向确定为目标声源方向;若数量大于1,则获取各个特定声音类型对应的特定声源的快包络能量和慢包络能量;根据快包络能量和慢包络能量,计算各个特定声音类型对应的特定声音的平均能量;将平均能量最大的特定声音确定为带噪目标声音,并将平均能量最大的特定声音对应的特定声源方向确定为目标声源方向。也即,在404中,如果终端判断出仅有一个特定声音的声音类型为语音类型,则可将特定声音作为带噪目标声音,将该特定声音对应的特定声源方向作为目标声源方向;如果终端判断出至少一个特定声音的声音类型语音类型,则可以根据前述的声音信号的快包络能量确定目标声源方向和带噪目标声音,比如终端可计算至少一个语音类型的特定声音的快包络能量,并将快包络能量最大的特定声源方向确定为目标声源方向,可记做xs(n,f)。
406、终端在目标声源方向上,从带噪目标声音中提取纯净目标声音。
可选的,目标声源方向上除了包括带噪目标声音,还包括第一噪声源和第二噪声源,终端在目标声源方向上,从带噪目标声音中提取纯净目标声音,可包括:设置第一噪声源抑制系数和第二噪声源抑制系数;根据第一噪声源抑制系数和第二噪声源抑制系数对目标声源方向做噪声抑制,将经过噪声抑制后的带噪目标声音确定为纯净目标声音。也即,终端为目标声源方向上的第一噪声源和第二噪声源设置不同或者相同的抑制系数,按照上述系数对第一噪声源和第二噪声源进行噪声抑制,从而在目标声源方向上,经过噪声抑制的带噪目标声音即为纯净目标声音。
本发明实施例中,终端根据获取到的至少两路声音信号的至少两个频率信号,确定至少一个特定声源方向。进一步的,终端确定至少一个特定声源方向上的特定声音类型,接着获取该特定声音类型为语音类型的数量,根据该数量确定目标声源方向和带噪目标声音,从而终端可以利用噪声系数对目标声源方向上噪声源进行抑制,最后得到纯净目标声音,实现了从多路声音信号中定位目标声源方向,并准确提取目标信号。
参考图5,为本申请实施例提供的一种提取装置的结构示意图,如图5所示的提取装置,可包括:
获取单元501,用于获取至少两路声音信号;
计算单元502,用于分别计算至少两路声音信号中每路声音信号的频率信号,得到至少两个频率信号;
确定单元503,用于根据至少两个频率信号,确定至少一个特定声源方向;
获取单元501,还用于获取至少一个特定声源方向上的特定声音;
判断单元504,用于判断特定声音的声音类型;
确定单元503,还用于根据特定声音类型,确定目标声源方向和带噪目标声音;
提取单元505,用于在目标声源方向上,从带噪目标声音中提取纯净目标声音。
可选的,确定单元503用于根据至少两个频率信号,确定至少一个特定声源方向的具体方式为:
分别获取至少两个频率信号中每个频率信号在预设频率范围内的子带频率信号;
根据至少两个频率信号中每个频率信号的子带频率信号,确定每两个不同频率信号对应的子带频率信号之间的互相关相位差函数GCC-PHAT;
利用互相关相位差函数,结合麦克风阵型,确定相位差函数平均相位能量和相位差函数峰值,峰值数量为至少一个;
根据平均相位能量和相位差函数峰值,计算各个峰值对应的方向上存在声音的概率;
将各个所述峰值对应的方向上存在声音的概率中大于预设声源输出阈值的存在声音的概率对应的方向确定为特定声源方向,特定声源方向为至少一个。
可选的,获取单元501具体用于:
根据至少一个特定声源方向,构建空间滤波器;
根据空间滤波器对至少一个特定声源方向上的声源滤波,获取至少一个特定声源方向上的声音信号,声音信号为至少一个;
根据声音信号,确定至少一个特定声源方向上的特定声音。
可选的,确定单元503用于根据声音信号,确定至少一个特定声源方向上的特定声音的具体方式为;
获取声音信号的快包络能量和慢包络能量;
根据快包络能量和慢包络能量,计算各个声音信号中存在声音的概率;
将所述存在声音的概率中大于预设存在声音阈值的存在声音的概率对应的声音信号确定为声音信号对应的特定声源方向上的特定声音。
可选的,判断单元504具体用于:
利用第一编码算法和第二编码算法计算特定声音的第一编码误差和第二编码误差;
根据第一编码误差和第二编码误差计算特定声音为语音类型的概率;
若语音类型的概率大于预设语音类型阈值,则确定特定声音的声音类型为语音类型,若语音类型的概率不大于预设语音类型阈值,则确定特定声音的声音类型为非语音类型。
可选的,确定单元503用于根据特定声音类型,确定目标声源方向和带噪目标声音的具体方式为:
获取特定声音类型为语音类型的数量;
若数量为1,则将特定声音类型的对应的特定声音确定为带噪目标声音,并将特定声音对应的特定声源方向确定为目标声源方向;
若数量大于1,则获取各个特定声音类型对应的特定声音的快包络能量和慢包络能量;
根据快包络能量和慢包络能量,计算各个特定声音类型对应的特定声音的平均能量;
将平均能量最大的特定声音确定为带噪目标声音,并将平均能量最大的特定声音对应的特定声源方向确定为目标声源方向。
可选的,目标声源方向上包括第一噪声源和第二噪声源,提取单元506具体用于:
设置第一噪声源抑制系数和第二噪声源抑制系数;
根据第一噪声源抑制系数和第二噪声源抑制系数对目标声源方向做噪声抑制,将经过噪声抑制后的带噪目标声音确定为纯净目标声音。
本申请实施例中获取单元501获取到至少两路声音信号之后,计算单元502计算至少两路声音信号中每路声音信号的频率信号,然后确定单元503根据计算单元502的计算结果,确定至少一个特定声源方向。获取单元501还用于获取至少一个特定声源方向上的特定声音,进而判断单元504判断该特定声音的声音类型,进一步的确定单元503根据特定声音类型,确定目标声源方向和带噪目标声音,最后提取单元505在目标声源方向上,从带噪目标声音中提取纯净目标声音,从而实现从多路声音信号中定位目标声源方向,并准确提取目标信号。
参见图6,是本申请实施例提供的一种终端的示意性框图。如图所示的本实施例中的终端可以包括:一个或多个处理器601;一个或多个输入设备602、一个或者多个输出设备603和存储器604。上述处理器601、输入设备602、输出设备603和存储器604通过总线605连接。存储器604用于存储计算机程序,计算机程序包括程序指令,处理器601用于执行存储器604存储的程序指令。其中,处理器601被配置用于调用程序指令执行:
获取至少两路声音信号,并分别计算至少两路声音信号中每路声音信号的的频率信号,得到至少两个频率信号;
根据至少两个频率信号,确定至少一个特定声源方向;
获取至少一个特定声源方向上的特定声音,并判断特定声音的声音类型。
根据特定声音类型,确定目标声源方向和带噪目标声音;
在目标声源方向上,从带噪目标声音中提取纯净目标声音。
可选的,根据至少两个频率信号,确定至少一个特定声源方向,处理器601被配置用于调用程序指令具体执行:
分别获取至少两个频率信号中每个频率信号在预设频率范围内的子带频率信号;
根据至少两个频率信号中每个频率信号的子带频率信号,确定每两个不同频率信号对应的子带频率信号之间的互相关相位差函数GCC-PHAT;
利用相位差函数,结合麦克风阵型,确定相位差函数平均相位能量和相位差函数峰值,峰值数量为至少一个;
根据平均相位能量和相位差函数峰值,计算各个峰值对应的方向上存在声音的概率;
将各个所述峰值对应的方向上存在声音的概率中大于预设声源输出阈值的存在声音的概率对应的方向确定为特定声源方向,特定声源方向为至少一个。
可选的,获取至少一个特定声源方向上的特定声音,处理器601被配置用于调用程序指令具体执行:
根据至少一个特定声源方向,构建空间滤波器;
根据空间滤波器对至少一个特定声源方向上的声源滤波,获取至少一个特定声源方向上的声音信号,声音信号为至少一个;
根据声音信号,确定至少一个特定声源方向上的特定声音。
可选的,根据声音信号,确定至少一个特定声源方向上的特定声音,处理器601被配置用于调用程序指令具体执行:
获取声音信号的快包络能量和慢包络能量;
根据快包络能量和慢包络能量,计算各个声音信号中存在声音的概率;
将所述存在声音的概率中大于预设存在声音阈值的存在声音的概率对应的声音信号确定为声音信号对应的特定声源方向上的特定声音。
可选的,判断特定声音的声音类型,处理器601被配置用于调用程序指令具体执行:
利用第一编码算法和第二编码算法计算特定声源的第一编码误差和第二编码误差;
根据第一编码误差和第二编码误差计算特定声音为语音类型的概率;
若语音类型的概率大于预设语音类型阈值,则确定特定声音的声音类型为语音类型,若语音类型的概率不大于预设语音类型阈值,则确定特定声音的声音类型为非语音类型。
可选的,根据特定声音类型,确定目标声源方向和带噪目标声音,处理器601被配置用于调用程序指令具体执行:
获取特定声音类型为语音类型的数量;
若数量为1,则将特定声音类型的对应的特定声音确定为带噪目标声音,并将特定声音对应的特定声源方向确定为目标声源方向;
若数量大于1,则获取各个特定声音类型对应的特定声音的快包络能量和慢包络能量;
根据快包络能量和慢包络能量,计算各个特定声音类型对应的特定声音的平均能量;
将平均能量最大的特定声音确定为带噪目标声音,并将平均能量最大的特定声音对应的特定声源方向确定为目标声源方向。
可选的,目标声源方向上包括第一噪声源和第二噪声源,在目标声源方向上,从带噪目标声音中提取纯净目标声音,处理器601被配置用于调用程序指令具体执行:
设置第一噪声源抑制系数和第二噪声源抑制系数;
根据第一噪声源抑制系数和第二噪声源抑制系数对目标声源方向做噪声抑制,将经过噪声抑制后的带噪目标声音确定为纯净目标声音。
应当理解,在本申请实施例中,所称处理器501可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
网络接口602用于在连接网路时发送或接收数据。
该存储器603可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器603的一部分还可以包括非易失性随机存取存储器。例如,存储器603还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器601、网络接口602可执行本申请实施例图1和图2提供的一种提取方法、装置及终端的实施例和图6所描述的一种提取方法、装置及终端的实现方式,在此不再赘述。
在本申请的实施例中提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时使该处理器执行上述提取方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,计算机可读取存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种提取方法,其特征在于,包括:
获取至少两路声音信号,并分别计算所述至少两路声音信号中每路声音信号的频率信号,得到至少两个频率信号;
根据所述至少两个频率信号,确定至少一个特定声源方向;
获取所述至少一个特定声源方向上的特定声音,并判断所述特定声音的声音类型;
根据所述特定声音类型,确定目标声源方向和带噪目标声音;
在所述目标声源方向上,从所述带噪目标声音中提取纯净目标声音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个频率信号,确定至少一个特定声源方向,包括:
分别获取所述至少两个频率信号中每个频率信号在预设频率范围内的子带频率信号;
根据所述至少两个频率信号中每个频率信号的子带频率信号,确定每两个不同频率信号对应的子带频率信号之间互相关相位差函数GCC-PHAT;
利用所述相位差函数,结合麦克风阵型,确定相位差函数平均相位能量和相位差函数峰值,所述峰值数量为至少一个;
根据所述平均相位能量和所述相位差函数峰值,计算各个所述峰值对应的方向上存在声音的概率;
将各个所述峰值对应的方向上存在声音的概率中大于预设声源输出阈值的存在声音的概率对应的方向确定为特定声源方向,所述特定声源方向为至少一个。
3.根据权利要求1所述的方法,其特征在于,所述获取所述至少一个特定声源方向上的特定声音,包括:
根据所述至少一个特定声源方向,构建空间滤波器;
根据所述空间滤波器对所述至少一个特定声源方向上滤波,获取所述至少一个特定声源方向上的声音信号,所述声音信号为至少一个;
根据所述声音信号,确定所述至少一个特定声源方向上的特定声音。
4.根据权利要求3所述的方法,其特征在于,所述根据所述声音信号,确定所述至少一个特定声源方向上的特定声音,包括:
获取所述声音信号的快包络能量和慢包络能量;
根据所述快包络能量和所述慢包络能量,计算所述各个声音信号中存在声音的概率;
将所述存在声音的概率中大于预设存在声音阈值的存在声音的概率对应的声音信号确定为所述声音信号对应的特定声源方向上的所述特定声音。
5.根据权利要求1所述的方法,其特征在于,所述判断所述特定声源的声音类型,包括:
利用第一编码算法和第二编码算法计算特定声音的第一编码误差和第二编码误差;
根据所述第一编码误差和所述第二编码误差计算特定声音为语音类型的概率;
若所述语音类型的概率大于预设语音类型阈值,则确定所述特定声音的声音类型为语音类型;若所述语音类型的概率不大于预设语音类型阈值,则确定所述特定声音的声音类型为非语音类型。
6.根据权利要求1和3所述的方法,其特征在于,所述根据所述特定声音类型,确定目标声源方向和带噪目标声音,包括:
获取所述特定声音类型为语音类型的数量;
若所述数量为1,则将所述特定声音类型的对应的特定声音确定为所述带噪目标声音,并将所述特定声音对应的特定声源方向确定为所述目标声源方向;
若所述数量大于1,则获取所述各个特定声音类型对应的特定声音的所述快包络能量和慢包络能量;
根据所述快包络能量和所述慢包络能量,计算所述各个特定声音类型对应的特定声音的平均能量;
将所述平均能量最大的特定声音确定为所述带噪目标声音,并将所述平均能量最大的特定声音对应的特定声源方向确定为所述目标声源方向。
7.根据权利要求1-6所述的方法,其特征在于,所述目标声源方向上包括第一噪声源和第二噪声源,所述在所述目标声源方向上,从所述带噪目标声音中提取纯净目标声音,包括:
设置所述第一噪声源抑制系数和所述第二噪声源抑制系数;
根据所述第一噪声源抑制系数和所述第二噪声源抑制系数对所述目标声源方向上的带噪目标声音做噪声抑制,得到的结果确定为纯净目标声音。
8.一种提取装置,其特征在于,包括:
获取单元,用于获取至少两路声音信号;
计算单元,用于分别计算所述至少两路声音信号中每路声音信号的频率信号,得到至少两个频率信号;
确定单元,用于根据所述至少两个频率信号,确定至少一个特定声源方向;
获取单元,用于获取所述至少一个特定声源方向上的特定声音;
判断单元,用于判断所述特定声音的声音类型;
所述确定单元,还用于根据所述特定声音类型,确定目标声源方向和带噪目标声音;
提取单元,用于在所述目标声源方向上,从所述带噪目标声音中提取纯净目标声音。
9.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、所述输入设备、所述输出设备和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810529764.8A CN108806711A (zh) | 2018-08-07 | 2018-08-07 | 一种提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810529764.8A CN108806711A (zh) | 2018-08-07 | 2018-08-07 | 一种提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108806711A true CN108806711A (zh) | 2018-11-13 |
Family
ID=64090902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810529764.8A Pending CN108806711A (zh) | 2018-08-07 | 2018-08-07 | 一种提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108806711A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496708A (zh) * | 2020-04-08 | 2021-10-12 | 华为技术有限公司 | 拾音方法、装置和电子设备 |
CN114120950A (zh) * | 2022-01-27 | 2022-03-01 | 荣耀终端有限公司 | 一种人声屏蔽方法和电子设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1830009A (zh) * | 2002-05-03 | 2006-09-06 | 哈曼国际工业有限公司 | 声音检测和定位系统 |
US20070274536A1 (en) * | 2006-05-26 | 2007-11-29 | Fujitsu Limited | Collecting sound device with directionality, collecting sound method with directionality and memory product |
US20090279715A1 (en) * | 2007-10-12 | 2009-11-12 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus for extracting target sound from mixed sound |
CN102316404A (zh) * | 2010-07-07 | 2012-01-11 | 西门子医疗器械公司 | 用于定位音频源的方法以及多通道的听力系统 |
CN102750952A (zh) * | 2011-04-18 | 2012-10-24 | 索尼公司 | 声音信号处理装置、方法和程序 |
CN102969002A (zh) * | 2012-11-28 | 2013-03-13 | 厦门大学 | 一种可抑制移动噪声的麦克风阵列语音增强装置 |
US20140023199A1 (en) * | 2012-07-23 | 2014-01-23 | Qsound Labs, Inc. | Noise reduction using direction-of-arrival information |
CN103907152A (zh) * | 2011-09-02 | 2014-07-02 | Gn奈康有限公司 | 用于音频信号噪声抑制的方法和系统 |
CN104966517A (zh) * | 2015-06-02 | 2015-10-07 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
US20170287501A1 (en) * | 2016-03-31 | 2017-10-05 | Fujitsu Limited | Noise suppressing apparatus, speech recognition apparatus, and noise suppressing method |
CN107993671A (zh) * | 2017-12-04 | 2018-05-04 | 南京地平线机器人技术有限公司 | 声音处理方法、装置和电子设备 |
CN108028982A (zh) * | 2015-09-23 | 2018-05-11 | 三星电子株式会社 | 电子设备及其音频处理方法 |
-
2018
- 2018-08-07 CN CN201810529764.8A patent/CN108806711A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1830009A (zh) * | 2002-05-03 | 2006-09-06 | 哈曼国际工业有限公司 | 声音检测和定位系统 |
US20070274536A1 (en) * | 2006-05-26 | 2007-11-29 | Fujitsu Limited | Collecting sound device with directionality, collecting sound method with directionality and memory product |
US20090279715A1 (en) * | 2007-10-12 | 2009-11-12 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus for extracting target sound from mixed sound |
CN102316404A (zh) * | 2010-07-07 | 2012-01-11 | 西门子医疗器械公司 | 用于定位音频源的方法以及多通道的听力系统 |
CN102750952A (zh) * | 2011-04-18 | 2012-10-24 | 索尼公司 | 声音信号处理装置、方法和程序 |
CN103907152A (zh) * | 2011-09-02 | 2014-07-02 | Gn奈康有限公司 | 用于音频信号噪声抑制的方法和系统 |
US20140023199A1 (en) * | 2012-07-23 | 2014-01-23 | Qsound Labs, Inc. | Noise reduction using direction-of-arrival information |
CN102969002A (zh) * | 2012-11-28 | 2013-03-13 | 厦门大学 | 一种可抑制移动噪声的麦克风阵列语音增强装置 |
CN104966517A (zh) * | 2015-06-02 | 2015-10-07 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
CN108028982A (zh) * | 2015-09-23 | 2018-05-11 | 三星电子株式会社 | 电子设备及其音频处理方法 |
US20170287501A1 (en) * | 2016-03-31 | 2017-10-05 | Fujitsu Limited | Noise suppressing apparatus, speech recognition apparatus, and noise suppressing method |
CN107993671A (zh) * | 2017-12-04 | 2018-05-04 | 南京地平线机器人技术有限公司 | 声音处理方法、装置和电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496708A (zh) * | 2020-04-08 | 2021-10-12 | 华为技术有限公司 | 拾音方法、装置和电子设备 |
CN113496708B (zh) * | 2020-04-08 | 2024-03-26 | 华为技术有限公司 | 拾音方法、装置和电子设备 |
CN114120950A (zh) * | 2022-01-27 | 2022-03-01 | 荣耀终端有限公司 | 一种人声屏蔽方法和电子设备 |
CN114120950B (zh) * | 2022-01-27 | 2022-06-10 | 荣耀终端有限公司 | 一种人声屏蔽方法和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vaseghi | Multimedia signal processing: theory and applications in speech, music and communications | |
CN104347067B (zh) | 一种音频信号分类方法和装置 | |
CN103871418B (zh) | 一种扩声系统啸叫频点的检测方法及装置 | |
US20190096421A1 (en) | Frequency domain noise attenuation utilizing two transducers | |
CN102074245B (zh) | 基于双麦克风语音增强装置及语音增强方法 | |
US9838782B2 (en) | Adaptive mixing of sub-band signals | |
US20020116187A1 (en) | Speech detection | |
TW201248613A (en) | System and method for monaural audio processing based preserving speech information | |
CN111883182B (zh) | 人声检测方法、装置、设备及存储介质 | |
TR201810466T4 (tr) | Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. | |
CN106463106A (zh) | 用于音频接收的风噪声降低 | |
CN102347027A (zh) | 双麦克风语音增强装置及其语音增强方法 | |
CN102074246A (zh) | 基于双麦克风语音增强装置及方法 | |
US11580966B2 (en) | Pre-processing for automatic speech recognition | |
CN105122359A (zh) | 语音去混响的方法、设备和系统 | |
CN108922517A (zh) | 训练盲源分离模型的方法、装置及存储介质 | |
US20080219457A1 (en) | Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise | |
CN112259116A (zh) | 一种音频数据的降噪方法、装置、电子设备及存储介质 | |
CN108806711A (zh) | 一种提取方法及装置 | |
Shankar et al. | Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN103905656A (zh) | 残留回声的检测方法及装置 | |
Mitianoudis et al. | Audio source separation: Solutions and problems | |
WO2013150340A1 (en) | Adaptive audio signal filtering | |
WO2022068440A1 (zh) | 啸叫抑制方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |