CN114930451A - 背景噪声估计和语音活动检测系统 - Google Patents

背景噪声估计和语音活动检测系统 Download PDF

Info

Publication number
CN114930451A
CN114930451A CN202080090845.8A CN202080090845A CN114930451A CN 114930451 A CN114930451 A CN 114930451A CN 202080090845 A CN202080090845 A CN 202080090845A CN 114930451 A CN114930451 A CN 114930451A
Authority
CN
China
Prior art keywords
entropy
frame
energy
psd
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080090845.8A
Other languages
English (en)
Inventor
A·S·乔格卡尔
C·K·瑟图科四世
D·P·马吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of CN114930451A publication Critical patent/CN114930451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种方法包括选择(304)音频信号的帧。该方法还包括确定(308)帧的第一功率谱密度(PSD)分布。该方法还包括基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成(310)指示帧中的背景噪声的估计的第一参考PSD分布。该方法还包括基于帧的第一PSD分布和第一参考PSD分布确定(320)是否在帧中检测到语音活动。

Description

背景噪声估计和语音活动检测系统
背景技术
语音处理系统被集成到各种电子设备中。例如,许多移动电话设备具有利用自然语言处理系统的虚拟助手,该自然语言处理系统被配置为识别言语并基于识别的言语执行一个或多个操作。自然语言处理是一个计算成本相对较高的过程。因此,与其他设备相比,执行自然语言处理的移动电话设备(或其他设备)可能表现出增加的功耗并因此具有减少的电池寿命。
为了降低自然语言处理系统中的计算成本,一些系统对接收到的声音信号执行计算成本相对较低的语音活动检测过程,并对检测到语音活动(如果有的话)的声音信号的选定部分执行自然语言处理而不是整个声音信号。一些这样的语音活动检测过程将声音信号的样本与背景噪声的估计进行比较以确定样本中是否存在语音活动。背景噪声的估计可以基于与声音信号相关联的历史值。然而,这样的系统可能无法检测在声音信号中表示的突然响亮的噪声之后发生的语音活动。
发明内容
描述了用于使用非线性更新的背景噪声估计来检测语音活动的系统和方法。
一种方法包括选择音频信号的帧。该方法还包括确定帧的第一功率谱密度(PSD)分布。该方法还包括基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成指示帧中的背景噪声的估计的第一参考PSD分布。该方法还包括基于帧的第一PSD分布和第一参考PSD分布确定是否在帧中检测到语音活动。
一种设备包括处理器和存储指令的存储器,指令可由处理器执行以选择音频信号的帧。指令进一步可由处理器执行以确定帧的第一功率谱密度(PSD)分布。指令进一步可由处理器执行以基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成指示帧中的背景噪声的估计的第一参考PSD分布。指令进一步可由处理器执行以基于帧的第一PSD分布和第一参考PSD分布确定是否在帧中检测到语音活动。
一种计算机可读存储设备存储可由处理器执行以选择音频信号的帧的指令。指令进一步可由处理器执行以确定帧的第一功率谱密度(PSD)分布。指令进一步可由处理器执行以基于非线性权重、音频信号的前一帧的第二参考PSD分布和前一帧的第二PSD分布生成指示帧中的背景噪声的估计的第一参考PSD分布。指令进一步可由处理器执行以基于帧的第一PSD分布和第一参考PSD分布确定是否在帧中检测到语音活动。
附图说明
对于各种示例的详细描述,现在将参考附图,其中:
图1图示了用于使用非线性加权背景噪声估计来执行语音活动检测的装置。
图2图示了用于使用非线性加权背景噪声估计执行语音活动检测的替代装置,该装置包括代替傅里叶变换计算器的滤波器组。
图3图示了用于使用非线性加权背景噪声估计执行语音活动检测的方法的流程图。
图4是可用于使用非线性加权背景噪声估计来执行语音活动检测的示例计算设备的框图。
具体实施方式
参考图1,示出了用于执行语音活动检测的装置100的框图。装置100包括麦克风102、放大器104、模数转换器(ADC)106、窗口选择器108、傅里叶变换计算器110、熵计算器112、能量计算器114、熵差计算器116、能量差计算器118、背景熵计算器120、背景能量计算器122、非线性参考分布更新计算器126、参考分布存储装置128、能量熵特征计算器130和语音活动检测器132。窗口选择器108、傅里叶变换计算器110、熵计算器112、能量计算器114、熵差计算器116、能量差计算器118、背景熵计算器120、背景能量计算器122、非线性参考分布更新计算器126、能量熵特征计算器130和语音活动检测器132对应于专用硬件、由装置100的处理器执行的软件或其组合。
麦克风102可以对应于任何类型的麦克风,包括电容式麦克风、动圈式麦克风、带式麦克风、压电式麦克风、微机电系统(MEMS)麦克风等。麦克风102被配置为基于声波生成电信号。例如,麦克风102可以基于语音活动、背景噪声或其组合生成电信号。
放大器104可以对应于可编程增益放大器或其他类型的放大器。放大器104被配置为接收由麦克风生成的电信号并调整(例如,增加)电信号的功率。
ADC 106被配置为将升压的电信号转换为数字信号x[n],其中n表示离散时间样本实例。ADC 106可以包括Δ-Σ调制ADC或其他类型的ADC。
窗口选择器108被配置为接收由ADC 106生成的数字信号x[n]并生成数字信号的帧。在一些实施方式中,窗口选择器108被配置为应用汉明窗函数以从数字信号中选择一个或多个帧(j)。窗口选择器108可以对应于专用硬件(例如,窗口选择器电路),对应于由装置100的处理器(未示出)执行的软件或者对应于它们的组合。窗口选择器108可以根据公式xw,l[n]=w[n]x[lB+n]生成信号x[n]的帧,其中B是窗口长度,n标识来自序列x[n]的特定样本,w[n]是给定窗口序列(例如,汉明窗口、矩形窗口等)的乘法比例因子的列表,并且l是帧索引。在一些实施方式中,窗口选择器108以随机速率生成帧。因此,窗口选择器108可以生成捕获重复的一致间隔噪声的帧,否则这些噪声可能落入帧之间。
傅里叶变换计算器110被配置为对数字信号的每个帧(l)应用傅里叶变换,以将帧从离散时域转换到离散频域。在一些实施方式中,傅里叶变换计算器110被配置为根据公式
Figure BDA0003717352930000031
将帧转换到频域,其中k是频带索引,
Figure BDA0003717352930000032
NFFT表示傅里叶变换中的样本点数(在一些实施方式中,对于某个整数q,NFFT等于2q。例如,NFFT可以是256或512),l是帧索引。傅里叶变换计算器110还被配置为基于帧到频域的转换为每个帧l生成功率谱密度(PSD)分布。在特定示例中,傅里叶变换计算器110被配置为为每个帧l中的每个频带k生成PSDS(k,l)=X(k,l)X*(k,l),其中*表示复共轭运算。因此,对于每个帧l,傅里叶变换计算器110可以生成PSD值的向量。例如,对于帧1,傅里叶变换计算器110可以生成PSD分布[S1,1,S2,1,…S11,1],其中S1,1是帧1的第一频带的PSD值,S2,1是帧1的第二频带的PSD值,以此类推。
熵计算器112被配置为基于帧的PSD分布S(k,l)计算每个帧(l)的熵。例如,熵计算器112可对每个帧(l)的功率谱进行归一化以产生概率分布,其中每一概率值为
Figure BDA0003717352930000033
熵计算器112然后可以计算帧(l)的熵H,其中H(l)=-∑kP(k,l)log2P(k,l)。
能量计算器114被配置为通过对帧的PSD分布进行积分来计算每个帧(l)的能量。例如,对于每个帧(l),能量计算器114可以根据方程式E(l)=∑nxw,l 2[n]=∑kS(k,l)确定能量(E(l))。
背景熵计算器120被配置为基于存储在参考分布存储装置128中的帧(l)的参考PSD分布Snoise(k,l)计算每个帧(l)的可归因于背景噪声的熵值(Hnoise(l))。如下文进一步描述,非线性参考分布更新计算器126基于前一帧的PSD分布(例如,基于S(k,l-1))生成除第一帧之外的每个帧(l)的参考PSD分布。第一帧的参考分布可以对应于零向量(例如,[0,…,0])。背景熵计算器120被配置为生成
Figure BDA0003717352930000041
然后背景熵计算器120可以计算帧(l)的背景熵Hnoise,其中Hnoise(l)=-∑kPnoise(k,l)log2Pnoise(k,l)。
类似地,背景能量计算器122被配置为基于存储在参考分布存储装置128中的帧(l)的参考PSD分布Snoise(k,l)计算每个帧(l)的可归因于背景噪声的能量值(Enoise(l))。背景能量计算器122被配置为通过对帧的参考PSD分布进行积分来计算每帧(l)的背景能量。例如,对于每个帧(l),背景能量计算器122可以根据方程式Enoise(l)=∑nxw,l 2[n]=∑kSnoise(k,l)确定能量(Enoise(l))。
非线性参考分布更新计算器126被配置为针对每个帧(l)非线性地更新参考PSD分布(Enoise(k,l))以基于帧的参考PSD分布(Snoise(k,l))、帧(S(k,l))的PSD分布和非线性权重项生成后续帧(l+1)的参考PSD分布(Snoise(k,l+1))。在特定实施方式中,非线性参考分布更新计算器126根据方程式
Figure BDA0003717352930000042
生成后续帧(l+1)的参考PSD分布(Snoise(k,l+1)),其中DKL(Snoise(k,l)||S(k,l))是帧的参考PSD分布(Snoise(k,l))与帧的PSD分布(S(k,l))之间的Kullback-Leibler散度并且a是介于0和1之间的权重项。概率分布P(i)和Q(i)之间的Kullback-Leibler散度为DKL(P|Q)=∑iP(i)log(P(i)/Q(i))。对于i的所有值,当P(i)=Q(i)时,分布的这个函数为零,并且取正值,定性地测量分布之间的相似性。非线性参考分布更新计算器126将Kullback-Leibler散度权重应用于用于更新背景噪声估计的任何帧。
因为对应于背景噪声估计的参考PSD分布是基于检测到的声音的PSD分布而非线性更新的,所以装置100使用的背景噪声模型可能不太容易受到短持续时间的声音的突然和增加的影响(例如,砰的一声关门)。
熵差计算器116被配置为通过根据方程式ΔH(l)=|H(l)-Hnoise(l)|从帧的熵中减去帧的噪声熵来针对每个帧(l)确定熵差(ΔH(l))。类似地,能量差计算器118被配置为通过根据方程式ΔE(l)=|E(l)-Enoise(l)|从帧的能量中减去帧的噪声能量来针对每个帧(l)确定能量差(ΔE(l))。
能量熵特征计算器130被配置为基于帧的熵差(ΔH(l))和能量差(ΔE(l))为每一帧(l)计算能量熵特征(F(l))。例如,能量熵特征计算器130可以根据方程式
Figure BDA0003717352930000051
计算能量熵特征。
语音活动检测器132被配置为针对每个帧(l)将能量熵特征(F(l))与阈值进行比较以确定帧(l)是否包括语音活动。响应于确定F(l)满足阈值,语音活动检测器132被配置为确定语音活动存在于帧(l)中。响应于确定帧(l)不满足阈值,语音活动检测器132被配置为确定语音活动不存在于帧(l)中。语音活动检测器132可以被配置为确定大于阈值、小于阈值、大于或等于阈值、或小于或等于阈值的值满足阈值。语音活动检测器132可以被配置为响应于检测到帧中的语音活动而发起一个或多个动作。例如,语音活动检测器132可以响应于检测到帧中的语音活动来发起帧的自然语言处理。
因此,图1的装置可以用于执行语音活动检测。因为装置100非线性地更新背景噪声估计,所以与其他语音活动检测装置相比,装置100可能不太容易受到短持续时间的突然噪声水平变化的影响。此外,因为装置100以随机间隔生成用于语音活动检测的帧,所以装置100可以检测否则可能落在均匀间隔的帧之间的均匀间隔的噪声(例如,言语)。在其他实施方式中,装置100可以具有替代配置。例如,上述部件可以组合或分解成不同的组合。
参考图2,示出了用于执行语音活动检测的第二装置200的框图。第二装置200对应于装置100,除了第二装置200包括代替傅里叶变换计算器110的滤波器组210并且第二装置200不包括窗口选择器108。相反,ADC 106将数字信号x[n]直接输出到滤波器组210。滤波器组210对应于被配置为输出帧的PSD分布的多个滤波器。滤波器组将几个有限脉冲响应滤波器应用于数字信号,以将数字信号分离为一组并行频带。对于频带i=1,…,R,脉冲响应由hi[n]表示。各个频带滤波器的输出由yi[l]=∑mx[m]hi[lD-m]给出。帧l的滤波器组输出是通过组装频带滤波器输出生成的向量[y1[l]…yR[l]]T,其中上标T表示转置操作。通过对滤波器组输出向量的元素求平方来生成功率谱密度元素。因此,对于帧l,PSD输出由
Figure BDA0003717352930000061
给出。因此,执行语音活动检测的装置可以用傅里叶变换计算器(例如,可由处理器执行以执行傅里叶变换的软件或被配置为执行傅里叶变换的硬件)或滤波器组来实现。
参考图3,示出了描绘执行语音活动检测的方法300的流程图。方法300可以由计算设备执行,例如图1的装置100或图2的第二装置200。
方法300包括在302处,接收输入音频信号。例如,麦克风102可以基于检测到的声音生成模拟音频信号,放大器104可以放大模拟音频信号,并且模数转换器106可以基于放大的模拟信号生成数字音频信号。然后可以由窗口选择器108接收数字音频信号。
方法300还包括在304处,选择音频信号的窗口。例如,窗口选择器108可以使用诸如xw,l[n]=w[n]x[lB+n]的汉明窗函数来选择由ADC 106输出的数字信号的帧。在一些实施方式中,窗口选择器108以随机间隔生成窗口。
方法300还包括在306处,确定帧中的频带功率的分布。例如,傅里叶变换计算器110(或滤波器组210)可以根据方程式S(k,l)=X(k,l)X*(k,l)输出帧的PSD分布,其中X[k,l]是帧(l)的频域映射,*表示复共轭运算。窗口的频域映射可以由傅里叶变换计算器(或滤波器组210)生成。
方法300还包括在308处,确定帧中的频带功率的分布的第一熵和第一能量。例如,熵计算器112可以确定帧(l)的PSD分布的熵(H(l))。熵计算器112可以通过根据方程式
Figure BDA0003717352930000062
归一化帧(l)的PSD分布(S(k,l))并计算H(l)=-∑kP(k,l)log2P(k,l)来生成熵(H(l))。此外,能量计算器114可根据方程式E(l)=∑nxw,l 2[n]=∑kS(k,l)确定帧(l)的PSD分布(S(k,l))的能量(E(l))。
方法300还包括在310处,检索频带功率的参考分布。例如,背景熵计算器120和背景能量计算器122可以从参考分布存储装置128检索参考PSD分布(Snoise(k,l))。参考PSD分布(Snoise(k,l))可以对应于帧(l)内噪声的估计PSD分布。参考PSD分布可以基于前一帧的PSD分布。对于第一帧,参考PSD分布可以对应于零向量。
方法300还包括在312处,确定频带功率的参考分布的第二熵和第二能量。例如,背景熵计算器120可以基于参考PSD分布(Snoise(k,l))计算帧(l)的背景熵(Hnoise(l)),并且背景能量计算器122可以基于参考PSD分布(Snoise(k,l))计算帧(l)的背景熵(Enoise(l))。
方法300还包括在314处,确定第一熵和第二熵之间的第一差。例如,熵差计算器116可以根据方程式ΔH(l)=|H(l)-Hnoise(l)|确定帧的熵(H(l))和帧的背景熵(Hnoise(l))之间的差(ΔH(l))。
方法300还包括在316处,确定第一能量和第二能量之间的第二差。例如,能量差计算器118可以根据方程式ΔE(l)=|E(l)-Enoise(l)|确定帧的能量(E(l))和帧的背景能量(Hnoise(l))之间的差(ΔE(l))。
方法300还包括在318处,基于第一差和第二差确定能量熵特征。例如,能量熵特征计算器130可以根据方程式
Figure BDA0003717352930000071
基于帧的熵差(ΔH(l))和能量差(ΔE(l))确定能量熵特征(F(l))。
方法300还包括在320处,确定能量熵特征是否满足阈值。例如,语音活动检测器132可以比较帧(l)的能量熵特征(F(l))以确定语音活动是否存在于帧(l)中。语音活动检测器132可以响应于能量熵特征(F(l))超过阈值(或大于或等于阈值)来确定满足阈值。该阈值可以基于麦克风412、放大器410的增益、ADC 404的比特数或其组合。
方法300还包括在302处,响应于能量熵特征满足阈值,确定帧中存在语音活动,或者在324处,响应于能量熵特征不满足阈值,确定帧中不存在语音活动。例如,语音活动检测器132可以响应于能量熵特征(F(l))大于或等于阈值,确定在帧(l)中存在语音活动或响应于能量熵特征(F(l))小于阈值,确定在帧(l)中不存在语音活动。
方法300还包括在326处,基于帧中的频带功率的分布与频带功率的参考分布之间的散度来确定非线性权重。例如,非线性参考分布更新计算器126可以基于在帧(l)的PSD分布(S(k,l))和帧(l)的参考PSD分布(Snoise(k,l))之间的Kullback-Leibler散度(DKL(Snoise(k,l)||S(k,l)))确定非线性权重
Figure BDA0003717352930000072
方法300还包括在328处,基于非线性权重更新频带功率的参考分布。例如,非线性参考分布更新计算器126可以基于非线性权重(F(l))计算用于后续帧(l+1)中的估计噪声的参考PSD分布(Snoise(k,l+1))。具体地,非线性参考分布更新计算器126可根据公式
Figure BDA0003717352930000073
计算后续帧的参考PSD分布。
方法300还包括在304处,选择后续帧并在304处,继续更新的参考分布。例如,窗口选择器108可以选择后续帧(l+1),并且后续帧(l+1)可以如上面参考帧(l)所描述的那样处理,除了更新的参考PSD Snoise(k,l+1)被背景熵计算器120和背景能量计算器122用来计算背景熵和背景能量。因此,方法300基于检测到的声音非线性地更新背景噪声估计。因此,执行语音活动检测的方法300在声音活动发生突然且不一致的变化的情况下可能更准确。方法300可以以与一些实施方式中所示的不同的顺序排列。
参考图4,图示了可以执行语音活动检测的计算设备400的框图。在一些实施方式中,计算设备400对应于装置100或装置200。计算设备400包括处理器402。处理器402可以包括数字信号处理器、微处理器、微控制器、另一种类型的处理器或其组合。
计算设备还包括连接到处理器402的存储器406。存储器406包括计算机可读存储设备,例如只读存储器设备、随机存取存储器设备、固态驱动器、另一种类型的存储器设备,或它们的组合。如本文所用,计算机可读存储设备是指制品而不是瞬态信号。
存储器406存储语音活动检测指令408,该指令408可执行以执行本文关于图1-图3描述的操作中的一个或多个。例如,语音活动检测指令408可由处理器402执行以执行方法300。
计算机设备400还包括连接到处理器402的ADC 404。ADC 404可以对应于Δ-Σ调制ADC或另一类型的ADC。ADC 404可以对应于图1和图2的ADC 106。
计算机设备400还包括连接到ADC 404的放大器410。放大器410可以包括可编程增益放大器或另一类型的放大器。放大器410可以对应于图1和图2的放大器104。
计算机设备400还包括连接到放大器410的麦克风412。麦克风412可以对应于图1和图2的麦克风102。
在操作中,麦克风412基于在环境中检测到的声音生成模拟信号,放大器410放大模拟信号,并且ADC 404基于放大的信号生成数字信号。处理器402执行语音活动检测指令408以对数字信号执行非线性缩放语音活动检测,如本文所述。因此,与其他设备相比,计算设备400可用于提供相对更准确的语音活动检测。
计算设备400在其他实施方式中可以具有替代配置。这些替代配置可以包括额外的和/或更少的部件。例如,在一些实施方式中,麦克风412、放大器410和ADC 404中的一个或多个在计算设备400外部并且计算设备400包括被配置为从ADC 404、放大器410或麦克风412接收信号或数据的接口,此外,虽然图示了计算设备400的部件之间的直接连接,但在一些实施方式中,这些部件通过总线或其他间接连接来连接。
在整个说明书中使用术语“耦合”。该术语可以涵盖实现与本描述一致的功能关系的连接、通信或信号路径。例如,如果设备A生成信号以控制设备B执行动作,则在第一示例中,设备A耦合到设备B,或者在第二示例中,如果介入部件C基本上不改变设备A和设备B之间的功能关系,从而设备B由设备A经由设备A生成的控制信号控制,则设备A通过介入部件C耦合到设备B。
在权利要求的范围内,对所描述的实施例进行修改是可能的,并且其他实施例也是可能的。

Claims (20)

1.一种方法,包括:
选择音频信号的帧;
确定所述帧的第一功率谱密度分布即第一PSD分布;
基于非线性权重、所述音频信号的前一帧的第二参考PSD分布和所述前一帧的第二PSD分布生成指示所述帧中的背景噪声的估计的第一参考PSD分布;以及
基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动。
2.根据权利要求1所述的方法,还包括基于所述第二PSD分布和所述第二参考PSD分布之间的散度来生成所述非线性权重。
3.根据权利要求2所述的方法,其中所述散度对应于Kullback-Leibler散度。
4.根据权利要求1所述的方法,还包括:
生成所述第一PSD分布的第一熵;
生成所述第一参考PSD分布的第二熵;
生成所述第一参考PSD分布的第一能量;以及
生成所述第一参考PSD分布的第二能量,其中基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动包括基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动。
5.根据权利要求4所述的方法,还包括:
确定所述第一能量和所述第二能量之间的能量差(ΔE);
确定所述第一熵和所述第二熵之间的熵差(ΔH);以及
基于所述能量差和所述熵差确定能量熵特征,其中基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动包括确定所述熵特征是否满足阈值。
6.根据权利要求5所述的方法,其中所述能量熵特征等于
Figure FDA0003717352920000011
7.根据权利要求1所述的方法,其中所述帧是根据汉明窗算法生成的。
8.一种设备,包括:
处理器;以及
存储指令的存储器,所述指令可由所述处理器执行以:
选择音频信号的帧;
确定所述帧的第一功率谱密度分布即第一PSD分布;
基于非线性权重、所述音频信号的前一帧的第二参考PSD分布和所述前一帧的第二PSD分布来生成指示所述帧中的背景噪声的估计的第一参考PSD分布;以及
基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动。
9.根据权利要求8所述的设备,其中所述指令进一步可由所述处理器执行以基于所述第二PSD分布和所述第二参考PSD分布之间的散度来生成所述非线性权重。
10.根据权利要求9所述的设备,其中所述散度对应于Kullback-Leibler散度。
11.根据权利要求8所述的设备,其中所述指令进一步可由所述处理器执行以:
生成所述第一PSD分布的第一熵;
生成所述第一参考PSD分布的第二熵;
生成所述第一参考PSD分布的第一能量;以及
生成所述第一参考PSD分布的第二能量,其中基于所述帧的所述第一PSD分布和所述第一参考PSD分布来确定是否在所述帧中检测到语音活动包括基于所述第一熵、所述第二熵、所述第一能量和所述第二能量来确定是否在所述帧中检测到语音活动。
12.根据权利要求11所述的设备,其中所述指令进一步可由所述处理器执行以:
确定所述第一能量和所述第二能量之间的能量差(ΔE);
确定所述第一熵和所述第二熵之间的熵差(ΔH);以及
基于所述能量差和所述熵差确定能量熵特征,其中基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动包括确定所述熵特征是否满足阈值。
13.根据权利要求12所述的设备,其中所述能量熵特征等于
Figure FDA0003717352920000031
14.根据权利要求8所述的设备,其中所述帧是根据汉明窗算法生成的。
15.一种存储指令的计算机可读存储设备,所述指令可由处理器执行以:
选择音频信号的帧;
确定所述帧的第一功率谱密度分布即第一PSD分布;
基于非线性权重、所述音频信号的前一帧的第二参考PSD分布和所述前一帧的第二PSD分布来生成指示所述帧中的背景噪声的估计的第一参考PSD分布;以及
基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动。
16.根据权利要求15所述的计算机可读存储设备,其中所述指令进一步可由所述处理器执行以基于所述第二PSD分布和所述第二参考PSD分布之间的散度来生成所述非线性权重。
17.根据权利要求16所述的计算机可读存储设备,其中所述散度对应于Kullback-Leibler散度。
18.根据权利要求15所述的计算机可读存储设备,其中所述指令进一步可以由所述处理器执行以:
生成所述第一PSD分布的第一熵;
生成所述第一参考PSD分布的第二熵;
生成所述第一参考PSD分布的第一能量;以及
生成所述第一参考PSD分布的第二能量,其中基于所述帧的所述第一PSD分布和所述第一参考PSD分布确定是否在所述帧中检测到语音活动包括基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动。
19.根据权利要求18所述的计算机可读存储设备,其中所述指令进一步可由所述处理器执行以:
确定所述第一能量和所述第二能量之间的能量差(ΔE);
确定所述第一熵和所述第二熵之间的熵差(ΔH);以及
基于所述能量差和所述熵差确定能量熵特征,其中基于所述第一熵、所述第二熵、所述第一能量和所述第二能量确定是否在所述帧中检测到语音活动包括确定所述熵特征是否满足阈值。
20.根据权利要求15所述的计算机可读存储设备,其中所述能量熵特征等于
Figure FDA0003717352920000041
CN202080090845.8A 2019-12-30 2020-12-23 背景噪声估计和语音活动检测系统 Pending CN114930451A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/730,546 US11270720B2 (en) 2019-12-30 2019-12-30 Background noise estimation and voice activity detection system
US16/730,546 2019-12-30
PCT/US2020/066851 WO2021138201A1 (en) 2019-12-30 2020-12-23 Background noise estimation and voice activity detection system

Publications (1)

Publication Number Publication Date
CN114930451A true CN114930451A (zh) 2022-08-19

Family

ID=76546495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080090845.8A Pending CN114930451A (zh) 2019-12-30 2020-12-23 背景噪声估计和语音活动检测系统

Country Status (3)

Country Link
US (1) US11270720B2 (zh)
CN (1) CN114930451A (zh)
WO (1) WO2021138201A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674758B (zh) * 2021-07-09 2024-07-05 南京航空航天大学 基于智能手机的风噪声的判断方法、装置以及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US20090254341A1 (en) * 2008-04-03 2009-10-08 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for judging speech/non-speech
US20100057453A1 (en) * 2006-11-16 2010-03-04 International Business Machines Corporation Voice activity detection system and method
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN110444222A (zh) * 2019-05-17 2019-11-12 成都航天通信设备有限责任公司 一种基于信息熵加权的话音降噪方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
EP1944754B1 (en) 2007-01-12 2016-08-31 Nuance Communications, Inc. Speech fundamental frequency estimator and method for estimating a speech fundamental frequency
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
KR101247652B1 (ko) 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
WO2013118192A1 (ja) * 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置
WO2014032738A1 (en) * 2012-09-03 2014-03-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
CN105513614B (zh) 2015-12-03 2019-05-03 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
US10339962B2 (en) * 2017-04-11 2019-07-02 Texas Instruments Incorporated Methods and apparatus for low cost voice activity detector
CN110289011B (zh) 2019-07-18 2021-06-25 大连理工大学 一种用于分布式无线声传感器网络的语音增强系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US20100057453A1 (en) * 2006-11-16 2010-03-04 International Business Machines Corporation Voice activity detection system and method
US20090254341A1 (en) * 2008-04-03 2009-10-08 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for judging speech/non-speech
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN110444222A (zh) * 2019-05-17 2019-11-12 成都航天通信设备有限责任公司 一种基于信息熵加权的话音降噪方法

Also Published As

Publication number Publication date
US20210201936A1 (en) 2021-07-01
US11270720B2 (en) 2022-03-08
WO2021138201A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US6523003B1 (en) Spectrally interdependent gain adjustment techniques
US6529868B1 (en) Communication system noise cancellation power signal calculation techniques
CN111149370B (zh) 会议系统中的啸叫检测
US9449593B2 (en) Detecting nonlinear amplitude processing
US9754608B2 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
CN105103218A (zh) 环境噪声均方根(rms)检测器
US9374651B2 (en) Sensitivity calibration method and audio device
US6671667B1 (en) Speech presence measurement detection techniques
EP2997741B1 (en) Automated gain matching for multiple microphones
US9583120B2 (en) Noise cancellation apparatus and method
RU2411595C2 (ru) Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума
EP2845190B1 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
EP3428918B1 (en) Pop noise control
CN110634508A (zh) 音乐分类器、相关方法以及助听器
CN111988708A (zh) 一种基于单麦克风的啸叫抑制方法及装置
CN110914901A (zh) 言语信号调平
CN114930451A (zh) 背景噪声估计和语音活动检测系统
US20030187637A1 (en) Automatic feature compensation based on decomposition of speech and noise
US9875755B2 (en) Voice enhancement device and voice enhancement method
CN116137148A (zh) 噪声降低的设备、系统和方法
CN102256201A (zh) 用于助听器的自动环境识别方法
CN112133320A (zh) 语音处理装置及语音处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination