CN114930451A - 背景噪声估计和语音活动检测系统 - Google Patents
背景噪声估计和语音活动检测系统 Download PDFInfo
- Publication number
- CN114930451A CN114930451A CN202080090845.8A CN202080090845A CN114930451A CN 114930451 A CN114930451 A CN 114930451A CN 202080090845 A CN202080090845 A CN 202080090845A CN 114930451 A CN114930451 A CN 114930451A
- Authority
- CN
- China
- Prior art keywords
- entropy
- frame
- energy
- psd
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 title description 22
- 238000009826 distribution Methods 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 26
- 230000003595 spectral effect Effects 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
一种方法包括选择(304)音频信号的帧。该方法还包括确定(308)帧的第一功率谱密度(PSD)分布。该方法还包括基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成(310)指示帧中的背景噪声的估计的第一参考PSD分布。该方法还包括基于帧的第一PSD分布和第一参考PSD分布确定(320)是否在帧中检测到语音活动。
Description
背景技术
语音处理系统被集成到各种电子设备中。例如,许多移动电话设备具有利用自然语言处理系统的虚拟助手,该自然语言处理系统被配置为识别言语并基于识别的言语执行一个或多个操作。自然语言处理是一个计算成本相对较高的过程。因此,与其他设备相比,执行自然语言处理的移动电话设备(或其他设备)可能表现出增加的功耗并因此具有减少的电池寿命。
为了降低自然语言处理系统中的计算成本,一些系统对接收到的声音信号执行计算成本相对较低的语音活动检测过程,并对检测到语音活动(如果有的话)的声音信号的选定部分执行自然语言处理而不是整个声音信号。一些这样的语音活动检测过程将声音信号的样本与背景噪声的估计进行比较以确定样本中是否存在语音活动。背景噪声的估计可以基于与声音信号相关联的历史值。然而,这样的系统可能无法检测在声音信号中表示的突然响亮的噪声之后发生的语音活动。
发明内容
描述了用于使用非线性更新的背景噪声估计来检测语音活动的系统和方法。
一种方法包括选择音频信号的帧。该方法还包括确定帧的第一功率谱密度(PSD)分布。该方法还包括基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成指示帧中的背景噪声的估计的第一参考PSD分布。该方法还包括基于帧的第一PSD分布和第一参考PSD分布确定是否在帧中检测到语音活动。
一种设备包括处理器和存储指令的存储器,指令可由处理器执行以选择音频信号的帧。指令进一步可由处理器执行以确定帧的第一功率谱密度(PSD)分布。指令进一步可由处理器执行以基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成指示帧中的背景噪声的估计的第一参考PSD分布。指令进一步可由处理器执行以基于帧的第一PSD分布和第一参考PSD分布确定是否在帧中检测到语音活动。
一种计算机可读存储设备存储可由处理器执行以选择音频信号的帧的指令。指令进一步可由处理器执行以确定帧的第一功率谱密度(PSD)分布。指令进一步可由处理器执行以基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成指示帧中的背景噪声的估计的第一参考PSD分布。指令进一步可由处理器执行以基于帧的第一PSD分布和第一参考PSD分布确定是否在帧中检测到语音活动。
附图说明
对于各种示例的详细描述,现在将参考附图,其中:
图1图示了用于使用非线性加权背景噪声估计来执行语音活动检测的装置。
图2图示了用于使用非线性加权背景噪声估计执行语音活动检测的替代装置,该装置包括代替傅里叶变换计算器的滤波器组。
图3图示了用于使用非线性加权背景噪声估计执行语音活动检测的方法的流程图。
图4是可用于使用非线性加权背景噪声估计来执行语音活动检测的示例计算设备的框图。
具体实施方式
参考图1,示出了用于执行语音活动检测的装置100的框图。装置100包括麦克风102、放大器104、模数转换器(ADC)106、窗口选择器108、傅里叶变换计算器110、熵计算器112、能量计算器114、熵差计算器116、能量差计算器118、背景熵计算器120、背景能量计算器122、非线性参考分布更新计算器126、参考分布存储装置128、能量熵特征计算器130和语音活动检测器132。窗口选择器108、傅里叶变换计算器110、熵计算器112、能量计算器114、熵差计算器116、能量差计算器118、背景熵计算器120、背景能量计算器122、非线性参考分布更新计算器126、能量熵特征计算器130和语音活动检测器132对应于专用硬件、由装置100的处理器执行的软件或其组合。
麦克风102可以对应于任何类型的麦克风,包括电容式麦克风、动圈式麦克风、带式麦克风、压电式麦克风、微机电系统(MEMS)麦克风等。麦克风102被配置为基于声波生成电信号。例如,麦克风102可以基于语音活动、背景噪声或其组合生成电信号。
放大器104可以对应于可编程增益放大器或其他类型的放大器。放大器104被配置为接收由麦克风生成的电信号并调整(例如,增加)电信号的功率。
ADC 106被配置为将升压的电信号转换为数字信号x[n],其中n表示离散时间样本实例。ADC 106可以包括Δ-Σ调制ADC或其他类型的ADC。
窗口选择器108被配置为接收由ADC 106生成的数字信号x[n]并生成数字信号的帧。在一些实施方式中,窗口选择器108被配置为应用汉明窗函数以从数字信号中选择一个或多个帧(j)。窗口选择器108可以对应于专用硬件(例如,窗口选择器电路),对应于由装置100的处理器(未示出)执行的软件或者对应于它们的组合。窗口选择器108可以根据公式xw,l[n]=w[n]x[lB+n]生成信号x[n]的帧,其中B是窗口长度,n标识来自序列x[n]的特定样本,w[n]是给定窗口序列(例如,汉明窗口、矩形窗口等)的乘法比例因子的列表,并且l是帧索引。在一些实施方式中,窗口选择器108以随机速率生成帧。因此,窗口选择器108可以生成捕获重复的一致间隔噪声的帧,否则这些噪声可能落入帧之间。
傅里叶变换计算器110被配置为对数字信号的每个帧(l)应用傅里叶变换,以将帧从离散时域转换到离散频域。在一些实施方式中,傅里叶变换计算器110被配置为根据公式将帧转换到频域,其中k是频带索引,NFFT表示傅里叶变换中的样本点数(在一些实施方式中,对于某个整数q,NFFT等于2q。例如,NFFT可以是256或512),l是帧索引。傅里叶变换计算器110还被配置为基于帧到频域的转换为每个帧l生成功率谱密度(PSD)分布。在特定示例中,傅里叶变换计算器110被配置为为每个帧l中的每个频带k生成PSDS(k,l)=X(k,l)X*(k,l),其中*表示复共轭运算。因此,对于每个帧l,傅里叶变换计算器110可以生成PSD值的向量。例如,对于帧1,傅里叶变换计算器110可以生成PSD分布[S1,1,S2,1,…S11,1],其中S1,1是帧1的第一频带的PSD值,S2,1是帧1的第二频带的PSD值,以此类推。
熵计算器112被配置为基于帧的PSD分布S(k,l)计算每个帧(l)的熵。例如,熵计算器112可对每个帧(l)的功率谱进行归一化以产生概率分布,其中每一概率值为熵计算器112然后可以计算帧(l)的熵H,其中H(l)=-∑kP(k,l)log2P(k,l)。
能量计算器114被配置为通过对帧的PSD分布进行积分来计算每个帧(l)的能量。例如,对于每个帧(l),能量计算器114可以根据方程式E(l)=∑nxw,l 2[n]=∑kS(k,l)确定能量(E(l))。
背景熵计算器120被配置为基于存储在参考分布存储装置128中的帧(l)的参考PSD分布Snoise(k,l)计算每个帧(l)的可归因于背景噪声的熵值(Hnoise(l))。如下文进一步描述,非线性参考分布更新计算器126基于前一帧的PSD分布(例如,基于S(k,l-1))生成除第一帧之外的每个帧(l)的参考PSD分布。第一帧的参考分布可以对应于零向量(例如,[0,…,0])。背景熵计算器120被配置为生成然后背景熵计算器120可以计算帧(l)的背景熵Hnoise,其中Hnoise(l)=-∑kPnoise(k,l)log2Pnoise(k,l)。
类似地,背景能量计算器122被配置为基于存储在参考分布存储装置128中的帧(l)的参考PSD分布Snoise(k,l)计算每个帧(l)的可归因于背景噪声的能量值(Enoise(l))。背景能量计算器122被配置为通过对帧的参考PSD分布进行积分来计算每帧(l)的背景能量。例如,对于每个帧(l),背景能量计算器122可以根据方程式Enoise(l)=∑nxw,l 2[n]=∑kSnoise(k,l)确定能量(Enoise(l))。
非线性参考分布更新计算器126被配置为针对每个帧(l)非线性地更新参考PSD分布(Enoise(k,l))以基于帧的参考PSD分布(Snoise(k,l))、帧(S(k,l))的PSD分布和非线性权重项生成后续帧(l+1)的参考PSD分布(Snoise(k,l+1))。在特定实施方式中,非线性参考分布更新计算器126根据方程式生成后续帧(l+1)的参考PSD分布(Snoise(k,l+1)),其中DKL(Snoise(k,l)||S(k,l))是帧的参考PSD分布(Snoise(k,l))与帧的PSD分布(S(k,l))之间的Kullback-Leibler散度并且a是介于0和1之间的权重项。概率分布P(i)和Q(i)之间的Kullback-Leibler散度为DKL(P|Q)=∑iP(i)log(P(i)/Q(i))。对于i的所有值,当P(i)=Q(i)时,分布的这个函数为零,并且取正值,定性地测量分布之间的相似性。非线性参考分布更新计算器126将Kullback-Leibler散度权重应用于用于更新背景噪声估计的任何帧。
因为对应于背景噪声估计的参考PSD分布是基于检测到的声音的PSD分布而非线性更新的,所以装置100使用的背景噪声模型可能不太容易受到短持续时间的声音的突然和增加的影响(例如,砰的一声关门)。
熵差计算器116被配置为通过根据方程式ΔH(l)=|H(l)-Hnoise(l)|从帧的熵中减去帧的噪声熵来针对每个帧(l)确定熵差(ΔH(l))。类似地,能量差计算器118被配置为通过根据方程式ΔE(l)=|E(l)-Enoise(l)|从帧的能量中减去帧的噪声能量来针对每个帧(l)确定能量差(ΔE(l))。
语音活动检测器132被配置为针对每个帧(l)将能量熵特征(F(l))与阈值进行比较以确定帧(l)是否包括语音活动。响应于确定F(l)满足阈值,语音活动检测器132被配置为确定语音活动存在于帧(l)中。响应于确定帧(l)不满足阈值,语音活动检测器132被配置为确定语音活动不存在于帧(l)中。语音活动检测器132可以被配置为确定大于阈值、小于阈值、大于或等于阈值、或小于或等于阈值的值满足阈值。语音活动检测器132可以被配置为响应于检测到帧中的语音活动而发起一个或多个动作。例如,语音活动检测器132可以响应于检测到帧中的语音活动来发起帧的自然语言处理。
因此,图1的装置可以用于执行语音活动检测。因为装置100非线性地更新背景噪声估计,所以与其他语音活动检测装置相比,装置100可能不太容易受到短持续时间的突然噪声水平变化的影响。此外,因为装置100以随机间隔生成用于语音活动检测的帧,所以装置100可以检测否则可能落在均匀间隔的帧之间的均匀间隔的噪声(例如,言语)。在其他实施方式中,装置100可以具有替代配置。例如,上述部件可以组合或分解成不同的组合。
参考图2,示出了用于执行语音活动检测的第二装置200的框图。第二装置200对应于装置100,除了第二装置200包括代替傅里叶变换计算器110的滤波器组210并且第二装置200不包括窗口选择器108。相反,ADC 106将数字信号x[n]直接输出到滤波器组210。滤波器组210对应于被配置为输出帧的PSD分布的多个滤波器。滤波器组将几个有限脉冲响应滤波器应用于数字信号,以将数字信号分离为一组并行频带。对于频带i=1,…,R,脉冲响应由hi[n]表示。各个频带滤波器的输出由yi[l]=∑mx[m]hi[lD-m]给出。帧l的滤波器组输出是通过组装频带滤波器输出生成的向量[y1[l]…yR[l]]T,其中上标T表示转置操作。通过对滤波器组输出向量的元素求平方来生成功率谱密度元素。因此,对于帧l,PSD输出由给出。因此,执行语音活动检测的装置可以用傅里叶变换计算器(例如,可由处理器执行以执行傅里叶变换的软件或被配置为执行傅里叶变换的硬件)或滤波器组来实现。
参考图3,示出了描绘执行语音活动检测的方法300的流程图。方法300可以由计算设备执行,例如图1的装置100或图2的第二装置200。
方法300包括在302处,接收输入音频信号。例如,麦克风102可以基于检测到的声音生成模拟音频信号,放大器104可以放大模拟音频信号,并且模数转换器106可以基于放大的模拟信号生成数字音频信号。然后可以由窗口选择器108接收数字音频信号。
方法300还包括在304处,选择音频信号的窗口。例如,窗口选择器108可以使用诸如xw,l[n]=w[n]x[lB+n]的汉明窗函数来选择由ADC 106输出的数字信号的帧。在一些实施方式中,窗口选择器108以随机间隔生成窗口。
方法300还包括在306处,确定帧中的频带功率的分布。例如,傅里叶变换计算器110(或滤波器组210)可以根据方程式S(k,l)=X(k,l)X*(k,l)输出帧的PSD分布,其中X[k,l]是帧(l)的频域映射,*表示复共轭运算。窗口的频域映射可以由傅里叶变换计算器(或滤波器组210)生成。
方法300还包括在308处,确定帧中的频带功率的分布的第一熵和第一能量。例如,熵计算器112可以确定帧(l)的PSD分布的熵(H(l))。熵计算器112可以通过根据方程式归一化帧(l)的PSD分布(S(k,l))并计算H(l)=-∑kP(k,l)log2P(k,l)来生成熵(H(l))。此外,能量计算器114可根据方程式E(l)=∑nxw,l 2[n]=∑kS(k,l)确定帧(l)的PSD分布(S(k,l))的能量(E(l))。
方法300还包括在310处,检索频带功率的参考分布。例如,背景熵计算器120和背景能量计算器122可以从参考分布存储装置128检索参考PSD分布(Snoise(k,l))。参考PSD分布(Snoise(k,l))可以对应于帧(l)内噪声的估计PSD分布。参考PSD分布可以基于前一帧的PSD分布。对于第一帧,参考PSD分布可以对应于零向量。
方法300还包括在312处,确定频带功率的参考分布的第二熵和第二能量。例如,背景熵计算器120可以基于参考PSD分布(Snoise(k,l))计算帧(l)的背景熵(Hnoise(l)),并且背景能量计算器122可以基于参考PSD分布(Snoise(k,l))计算帧(l)的背景熵(Enoise(l))。
方法300还包括在314处,确定第一熵和第二熵之间的第一差。例如,熵差计算器116可以根据方程式ΔH(l)=|H(l)-Hnoise(l)|确定帧的熵(H(l))和帧的背景熵(Hnoise(l))之间的差(ΔH(l))。
方法300还包括在316处,确定第一能量和第二能量之间的第二差。例如,能量差计算器118可以根据方程式ΔE(l)=|E(l)-Enoise(l)|确定帧的能量(E(l))和帧的背景能量(Hnoise(l))之间的差(ΔE(l))。
方法300还包括在320处,确定能量熵特征是否满足阈值。例如,语音活动检测器132可以比较帧(l)的能量熵特征(F(l))以确定语音活动是否存在于帧(l)中。语音活动检测器132可以响应于能量熵特征(F(l))超过阈值(或大于或等于阈值)来确定满足阈值。该阈值可以基于麦克风412、放大器410的增益、ADC 404的比特数或其组合。
方法300还包括在302处,响应于能量熵特征满足阈值,确定帧中存在语音活动,或者在324处,响应于能量熵特征不满足阈值,确定帧中不存在语音活动。例如,语音活动检测器132可以响应于能量熵特征(F(l))大于或等于阈值,确定在帧(l)中存在语音活动或响应于能量熵特征(F(l))小于阈值,确定在帧(l)中不存在语音活动。
方法300还包括在326处,基于帧中的频带功率的分布与频带功率的参考分布之间的散度来确定非线性权重。例如,非线性参考分布更新计算器126可以基于在帧(l)的PSD分布(S(k,l))和帧(l)的参考PSD分布(Snoise(k,l))之间的Kullback-Leibler散度(DKL(Snoise(k,l)||S(k,l)))确定非线性权重
方法300还包括在328处,基于非线性权重更新频带功率的参考分布。例如,非线性参考分布更新计算器126可以基于非线性权重(F(l))计算用于后续帧(l+1)中的估计噪声的参考PSD分布(Snoise(k,l+1))。具体地,非线性参考分布更新计算器126可根据公式计算后续帧的参考PSD分布。
方法300还包括在304处,选择后续帧并在304处,继续更新的参考分布。例如,窗口选择器108可以选择后续帧(l+1),并且后续帧(l+1)可以如上面参考帧(l)所描述的那样处理,除了更新的参考PSD Snoise(k,l+1)被背景熵计算器120和背景能量计算器122用来计算背景熵和背景能量。因此,方法300基于检测到的声音非线性地更新背景噪声估计。因此,执行语音活动检测的方法300在声音活动发生突然且不一致的变化的情况下可能更准确。方法300可以以与一些实施方式中所示的不同的顺序排列。
参考图4,图示了可以执行语音活动检测的计算设备400的框图。在一些实施方式中,计算设备400对应于装置100或装置200。计算设备400包括处理器402。处理器402可以包括数字信号处理器、微处理器、微控制器、另一种类型的处理器或其组合。
计算设备还包括连接到处理器402的存储器406。存储器406包括计算机可读存储设备,例如只读存储器设备、随机存取存储器设备、固态驱动器、另一种类型的存储器设备,或它们的组合。如本文所用,计算机可读存储设备是指制品而不是瞬态信号。
存储器406存储语音活动检测指令408,该指令408可执行以执行本文关于图1-图3描述的操作中的一个或多个。例如,语音活动检测指令408可由处理器402执行以执行方法300。
计算机设备400还包括连接到处理器402的ADC 404。ADC 404可以对应于Δ-Σ调制ADC或另一类型的ADC。ADC 404可以对应于图1和图2的ADC 106。
计算机设备400还包括连接到ADC 404的放大器410。放大器410可以包括可编程增益放大器或另一类型的放大器。放大器410可以对应于图1和图2的放大器104。
计算机设备400还包括连接到放大器410的麦克风412。麦克风412可以对应于图1和图2的麦克风102。
在操作中,麦克风412基于在环境中检测到的声音生成模拟信号,放大器410放大模拟信号,并且ADC 404基于放大的信号生成数字信号。处理器402执行语音活动检测指令408以对数字信号执行非线性缩放语音活动检测,如本文所述。因此,与其他设备相比,计算设备400可用于提供相对更准确的语音活动检测。
计算设备400在其他实施方式中可以具有替代配置。这些替代配置可以包括额外的和/或更少的部件。例如,在一些实施方式中,麦克风412、放大器410和ADC 404中的一个或多个在计算设备400外部并且计算设备400包括被配置为从ADC 404、放大器410或麦克风412接收信号或数据的接口,此外,虽然图示了计算设备400的部件之间的直接连接,但在一些实施方式中,这些部件通过总线或其他间接连接来连接。
在整个说明书中使用术语“耦合”。该术语可以涵盖实现与本描述一致的功能关系的连接、通信或信号路径。例如,如果设备A生成信号以控制设备B执行动作,则在第一示例中,设备A耦合到设备B,或者在第二示例中,如果介入部件C基本上不改变设备A和设备B之间的功能关系,从而设备B由设备A经由设备A生成的控制信号控制,则设备A通过介入部件C耦合到设备B。
在权利要求的范围内,对所描述的实施例进行修改是可能的,并且其他实施例也是可能的。
Claims (20)
1.一种方法,包括:
选择音频信号的帧;
确定所述帧的第一功率谱密度分布即第一PSD分布;
基于非线性权重、所述音频信号的前一帧的第二参考PSD分布和所述前一帧的第二PSD分布生成指示所述帧中的背景噪声的估计的第一参考PSD分布;以及
基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动。
2.根据权利要求1所述的方法,还包括基于所述第二PSD分布和所述第二参考PSD分布之间的散度来生成所述非线性权重。
3.根据权利要求2所述的方法,其中所述散度对应于Kullback-Leibler散度。
4.根据权利要求1所述的方法,还包括:
生成所述第一PSD分布的第一熵;
生成所述第一参考PSD分布的第二熵;
生成所述第一参考PSD分布的第一能量;以及
生成所述第一参考PSD分布的第二能量,其中基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动包括基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动。
5.根据权利要求4所述的方法,还包括:
确定所述第一能量和所述第二能量之间的能量差(ΔE);
确定所述第一熵和所述第二熵之间的熵差(ΔH);以及
基于所述能量差和所述熵差确定能量熵特征,其中基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动包括确定所述熵特征是否满足阈值。
7.根据权利要求1所述的方法,其中所述帧是根据汉明窗算法生成的。
8.一种设备,包括:
处理器;以及
存储指令的存储器,所述指令可由所述处理器执行以:
选择音频信号的帧;
确定所述帧的第一功率谱密度分布即第一PSD分布;
基于非线性权重、所述音频信号的前一帧的第二参考PSD分布和所述前一帧的第二PSD分布来生成指示所述帧中的背景噪声的估计的第一参考PSD分布;以及
基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动。
9.根据权利要求8所述的设备,其中所述指令进一步可由所述处理器执行以基于所述第二PSD分布和所述第二参考PSD分布之间的散度来生成所述非线性权重。
10.根据权利要求9所述的设备,其中所述散度对应于Kullback-Leibler散度。
11.根据权利要求8所述的设备,其中所述指令进一步可由所述处理器执行以:
生成所述第一PSD分布的第一熵;
生成所述第一参考PSD分布的第二熵;
生成所述第一参考PSD分布的第一能量;以及
生成所述第一参考PSD分布的第二能量,其中基于所述帧的所述第一PSD分布和所述第一参考PSD分布来确定是否在所述帧中检测到语音活动包括基于所述第一熵、所述第二熵、所述第一能量和所述第二能量来确定是否在所述帧中检测到语音活动。
12.根据权利要求11所述的设备,其中所述指令进一步可由所述处理器执行以:
确定所述第一能量和所述第二能量之间的能量差(ΔE);
确定所述第一熵和所述第二熵之间的熵差(ΔH);以及
基于所述能量差和所述熵差确定能量熵特征,其中基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动包括确定所述熵特征是否满足阈值。
14.根据权利要求8所述的设备,其中所述帧是根据汉明窗算法生成的。
15.一种存储指令的计算机可读存储设备,所述指令可由处理器执行以:
选择音频信号的帧;
确定所述帧的第一功率谱密度分布即第一PSD分布;
基于非线性权重、所述音频信号的前一帧的第二参考PSD分布和所述前一帧的第二PSD分布来生成指示所述帧中的背景噪声的估计的第一参考PSD分布;以及
基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动。
16.根据权利要求15所述的计算机可读存储设备,其中所述指令进一步可由所述处理器执行以基于所述第二PSD分布和所述第二参考PSD分布之间的散度来生成所述非线性权重。
17.根据权利要求16所述的计算机可读存储设备,其中所述散度对应于Kullback-Leibler散度。
18.根据权利要求15所述的计算机可读存储设备,其中所述指令进一步可以由所述处理器执行以:
生成所述第一PSD分布的第一熵;
生成所述第一参考PSD分布的第二熵;
生成所述第一参考PSD分布的第一能量;以及
生成所述第一参考PSD分布的第二能量,其中基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动包括基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动。
19.根据权利要求18所述的计算机可读存储设备,其中所述指令进一步可由所述处理器执行以:
确定所述第一能量和所述第二能量之间的能量差(ΔE);
确定所述第一熵和所述第二熵之间的熵差(ΔH);以及
基于所述能量差和所述熵差确定能量熵特征,其中基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动包括确定所述熵特征是否满足阈值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/730,546 US11270720B2 (en) | 2019-12-30 | 2019-12-30 | Background noise estimation and voice activity detection system |
US16/730,546 | 2019-12-30 | ||
PCT/US2020/066851 WO2021138201A1 (en) | 2019-12-30 | 2020-12-23 | Background noise estimation and voice activity detection system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114930451A true CN114930451A (zh) | 2022-08-19 |
Family
ID=76546495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080090845.8A Pending CN114930451A (zh) | 2019-12-30 | 2020-12-23 | 背景噪声估计和语音活动检测系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11270720B2 (zh) |
CN (1) | CN114930451A (zh) |
WO (1) | WO2021138201A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674758B (zh) * | 2021-07-09 | 2024-07-05 | 南京航空航天大学 | 基于智能手机的风噪声的判断方法、装置以及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
US20090254341A1 (en) * | 2008-04-03 | 2009-10-08 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
US20100057453A1 (en) * | 2006-11-16 | 2010-03-04 | International Business Machines Corporation | Voice activity detection system and method |
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN110444222A (zh) * | 2019-05-17 | 2019-11-12 | 成都航天通信设备有限责任公司 | 一种基于信息熵加权的话音降噪方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6349278B1 (en) * | 1999-08-04 | 2002-02-19 | Ericsson Inc. | Soft decision signal estimation |
EP1944754B1 (en) | 2007-01-12 | 2016-08-31 | Nuance Communications, Inc. | Speech fundamental frequency estimator and method for estimating a speech fundamental frequency |
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
FR2976710B1 (fr) * | 2011-06-20 | 2013-07-05 | Parrot | Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres" |
KR101247652B1 (ko) | 2011-08-30 | 2013-04-01 | 광주과학기술원 | 잡음 제거 장치 및 방법 |
WO2013118192A1 (ja) * | 2012-02-10 | 2013-08-15 | 三菱電機株式会社 | 雑音抑圧装置 |
WO2014032738A1 (en) * | 2012-09-03 | 2014-03-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for providing an informed multichannel speech presence probability estimation |
CN105513614B (zh) | 2015-12-03 | 2019-05-03 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 |
US10339962B2 (en) * | 2017-04-11 | 2019-07-02 | Texas Instruments Incorporated | Methods and apparatus for low cost voice activity detector |
CN110289011B (zh) | 2019-07-18 | 2021-06-25 | 大连理工大学 | 一种用于分布式无线声传感器网络的语音增强系统 |
-
2019
- 2019-12-30 US US16/730,546 patent/US11270720B2/en active Active
-
2020
- 2020-12-23 CN CN202080090845.8A patent/CN114930451A/zh active Pending
- 2020-12-23 WO PCT/US2020/066851 patent/WO2021138201A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
US20100057453A1 (en) * | 2006-11-16 | 2010-03-04 | International Business Machines Corporation | Voice activity detection system and method |
US20090254341A1 (en) * | 2008-04-03 | 2009-10-08 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN110444222A (zh) * | 2019-05-17 | 2019-11-12 | 成都航天通信设备有限责任公司 | 一种基于信息熵加权的话音降噪方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210201936A1 (en) | 2021-07-01 |
US11270720B2 (en) | 2022-03-08 |
WO2021138201A1 (en) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504539B2 (en) | Voice activity detection systems and methods | |
US9064498B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
JP4245617B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
US6523003B1 (en) | Spectrally interdependent gain adjustment techniques | |
US6529868B1 (en) | Communication system noise cancellation power signal calculation techniques | |
CN111149370B (zh) | 会议系统中的啸叫检测 | |
US9449593B2 (en) | Detecting nonlinear amplitude processing | |
US9754608B2 (en) | Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium | |
CN105103218A (zh) | 环境噪声均方根(rms)检测器 | |
US9374651B2 (en) | Sensitivity calibration method and audio device | |
US6671667B1 (en) | Speech presence measurement detection techniques | |
EP2997741B1 (en) | Automated gain matching for multiple microphones | |
US9583120B2 (en) | Noise cancellation apparatus and method | |
RU2411595C2 (ru) | Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума | |
EP2845190B1 (en) | Processing apparatus, processing method, program, computer readable information recording medium and processing system | |
EP3428918B1 (en) | Pop noise control | |
CN110634508A (zh) | 音乐分类器、相关方法以及助听器 | |
CN111988708A (zh) | 一种基于单麦克风的啸叫抑制方法及装置 | |
CN110914901A (zh) | 言语信号调平 | |
CN114930451A (zh) | 背景噪声估计和语音活动检测系统 | |
US20030187637A1 (en) | Automatic feature compensation based on decomposition of speech and noise | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
CN116137148A (zh) | 噪声降低的设备、系统和方法 | |
CN102256201A (zh) | 用于助听器的自动环境识别方法 | |
CN112133320A (zh) | 语音处理装置及语音处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |