CN111226278A - 低复杂度的浊音语音检测和基音估计 - Google Patents

低复杂度的浊音语音检测和基音估计 Download PDF

Info

Publication number
CN111226278A
CN111226278A CN201780095971.0A CN201780095971A CN111226278A CN 111226278 A CN111226278 A CN 111226278A CN 201780095971 A CN201780095971 A CN 201780095971A CN 111226278 A CN111226278 A CN 111226278A
Authority
CN
China
Prior art keywords
speech
audio
frequency
voiced speech
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780095971.0A
Other languages
English (en)
Other versions
CN111226278B (zh
Inventor
S·格拉夫
T·赫比格
M·布克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sereni Run Co
Original Assignee
Sereni Run Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sereni Run Co filed Critical Sereni Run Co
Publication of CN111226278A publication Critical patent/CN111226278A/zh
Application granted granted Critical
Publication of CN111226278B publication Critical patent/CN111226278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

公开了一种用于浊音语音检测和基音估计的低复杂度方法和设备,其能够对由诸如车内通信(ICC)系统等的需要低延时的应用给出的特殊约束进行处理。示例性实施例采用非常短的帧,该非常短的帧只能捕获音频信号中的浊音语音的单个激励脉冲。与基音周期相对应的、多个这种脉冲之间的距离可以通过评价非常短的帧的低分辨率谱之间的相位差来确定。示例性实施例可以基于相位差来直接在频域中进行基音估计,并通过避免变换到时域以进行基音估计来减少计算复杂度。在相位差被判断为大致呈线性的情况下,示例性实施例通过对音频信号应用语音增强来增强浊音语音的话音质量。

Description

低复杂度的浊音语音检测和基音估计
背景技术
语音增强的目的是诸如通过提高可能例如由于噪声而退化的语音信号的可理解度和/或整体感知质量来提高语音质量。各种音频信号处理方法旨在提高语音质量。这种音频信号处理方法可以被诸如移动电话、因特网语音协议(VoIP)、电话会议系统、语音识别或任何其它音频通信应用等的许多音频通信应用所采用。
发明内容
根据示例性实施例,用于音频通信系统中的话音质量增强的方法可以包括监视由音频通信系统捕获的包括浊音语音和噪声的音频信号中的浊音语音的存在。噪声的至少一部分可以处于与浊音语音相关联的频率处。监视可以包括计算目前短窗中的音频信号的目前音频样本和至少一个先前短窗中的音频信号的先前音频样本的相应频域表示之间的相位差。该方法可以包括判断在相应频域表示之间计算出的相位差在频率上是否大致呈线性。该方法可以包括通过判断为所计算出的相位差大致呈线性来检测浊音语音的存在,并且在检测到浊音语音的情况下,通过对音频信号应用语音增强来增强经由音频通信系统所通信的浊音语音的话音质量。
应当理解,在相应频域表示之间计算出的相位差可以以在整个频率范围内具有局部变化的方式在频率上大致呈线性。例如,所计算出的相位差以在直线(linear line)的上方和下方具有偏差的方式近似地遵循直线。如果(诸如以下关于图6和图7F进一步所公开地)相位差平均遵循直线,则可以认为所计算出的相位差大致呈线性。大致呈线性可被定义为相位在频率上的斜率的低方差。低方差可以对应于诸如+/-1%、+/-5%、+/-10%、或者对于给定环境条件在可接受裕度内一致的任何其它合适值等的方差。低方差的范围可以针对环境条件动态地改变。根据示例性实施例,低方差可以对应于阈值(诸如以下关于等式(13)所公开的阈值),并且可以被用来判断所计算出的相位差是否大致呈线性。
目前短窗和至少一个先前短窗可以具有如下的窗长度,该窗长度太短以致不能捕获音频信号中的浊音语音的周期性浊音激励脉冲信号的整周期的音频样本。
音频通信系统可以是车内通信(ICC)系统,并且窗长度可以被设置为减少ICC系统中的音频通信延时。
方法还可以包括基于检测到存在和所计算出的相位差来直接在频域中估计浊音语音的基音频率。
计算可以包括计算相应频域表示的归一化互谱的相邻频率之间的相位关系的在频率上的加权和、并且计算所计算出的加权和的均值。判断可以包括将所计算出的均值的幅度与表示线性度的阈值进行比较以判断所计算出的相位差是否大致呈线性。
均值可以是复数,并且在所计算出的相位差被判断为大致呈线性的情况下,方法还可以包括基于复数的角度来直接在频域中估计浊音语音的基音周期。
方法可以包括:将所计算出的均值与各自基于目前短窗和不同的先前短窗所计算出的其它均值进行比较;以及基于最高均值的角度来直接在频域中估计浊音语音的基音频率,最高均值是基于比较而从该均值和其它均值中选择的。
计算加权和可以包括:在浊音语音的频率范围中的频率处采用加权系数,并且在至少一个先前帧包括多个帧的情况下应用平滑常数。
方法还可以包括基于检测到存在来直接在频域中估计浊音语音的基音频率。计算可以包括计算相应频域表示的归一化互谱。估计可以包括计算所计算出的归一化互谱的斜率并且将所计算出的斜率转换为基音周期。
方法还可以包括:基于检测到存在和所计算出的相位差,直接在频域中估计浊音语音的基音频率;以及基于未检测到存在而对音频信号应用衰减因子。语音增强可以包括基于所估计的基音频率对浊音语音进行重构、使噪声跟踪无效、对音频信号应用自适应增益、或其组合。
根据另一示例性实施例,用于音频通信系统中的话音质量增强的设备可以包括音频接口,该音频接口被配置为产生由音频通信系统捕获的包括浊音语音和噪声的音频信号的电子表示。噪声的至少一部分可以处于与浊音语音相关联的频率处。设备可以包括耦接至音频接口的处理器。该处理器可以被配置为实现语音检测器和音频增强器。语音检测器可以耦接至音频增强器并且被配置为监视音频信号中的浊音语音的存在。监视操作可以包括计算目前短窗中的音频信号的目前音频样本和至少一个先前短窗中的音频信号的先前音频样本的相应频域表示之间的相位差。语音检测器可以被配置为判断在相应频域表示之间计算出的相位差在频率上是否大致呈线性。语音检测器可以被配置为通过判断为所计算出的相位差大致呈线性来检测浊音语音的存在,并且将存在的指示通信至音频增强器。音频增强器可以被配置为通过对音频信号应用语音增强来增强经由音频通信系统所通信的浊音语音的话音质量,语音增强是基于所通信的指示的。
目前短窗和至少一个先前短窗可以具有如下的窗长度,该窗长度太短以致不能捕获音频信号中的浊音语音的周期性浊音激励脉冲信号的整周期的音频样本,音频通信系统可以是车内通信(ICC)系统,并且窗长度可以被设置为减少ICC系统中的音频通信延时。
语音检测器还可以被配置为基于检测到存在和所计算出的相位差,直接在频域中估计浊音语音的基音频率。
计算操作可以包括:计算相应频域表示的归一化互谱的相邻频率之间的相位关系的在频率上的加权和,并且计算所计算出的加权和的均值。判断操作可以包括将所计算出的均值的幅度与表示线性度的阈值进行比较以判断所计算出的相位差是否大致呈线性。
均值可以是复数,并且在所计算出的相位差被判断为大致呈线性的情况下,语音检测器还可以被配置为基于复数的角度来直接在频域中估计浊音语音的基音周期。
语音检测器还可以被配置为:将所计算出的均值与各自基于目前短窗和不同的先前短窗所计算出的其它均值进行比较;以及基于最高均值的角度来直接在频域中估计浊音语音的基音频率,最高均值是基于比较操作从该均值和其它均值中选择的。
为了计算加权和,语音检测器还可以被配置为在浊音语音的频率范围中的频率处采用加权系数,并且在至少一个先前帧包括多个帧的情况下应用平滑常数。
语音检测器还可以被配置为基于检测到存在来直接在频域中估计浊音语音的基音频率。计算操作可以包括计算相应频域表示的归一化互谱。估计操作可以包括计算所计算出的归一化互谱的斜率并且将所计算出的斜率转换为基音周期。
语音检测器还可以被配置为基于检测到存在和所计算出的相位差来直接在频域中估计浊音语音的基音频率,并且将所估计的基音频率通信至音频增强器。音频增强器还可以被配置为基于所通信的表示不存在浊音语音的指示而对音频信号应用衰减因子。语音增强可以包括基于所估计并通信的基音频率对浊音语音进行重构、使噪声跟踪无效、对音频信号应用自适应增益、或其组合。
又一示例性实施例可以包括非暂时性计算机可读介质,在该非暂时性计算机可读介质上存储有在被处理器加载并执行时使处理器完成本文公开的方法的指令序列。
应当理解,本文公开的实施例可以以方法、设备、系统或体现了程序代码的计算机可读介质的形式来实现。
附图说明
本专利或申请文件至少包含一张彩色制作的附图。专利局可依申请及所缴纳之必要规费,提供附有彩色附图的专利的复制本或专利申请公布。
如附图所示,根据以下对示例性实施例的更具体描述,以上内容将变得明显,其中在不同图中,相同的附图标记指代相同的部分。附图不必按比例绘制,而是重点示出实施例。
图1A是可以采用车内通信(ICC)系统的示例性实施例的车辆的示例性实施例的图。
图1B是用于音频通信系统中的话音质量增强的方法的示例性实施例的流程图。
图2是语音产生的示例性实施例的框图。
图3是包括浊音语音的音频信号的示例性实施例的谱域表示。
图4是捕获浊音音位(phoneme)的音频信号间隔的电子表示的音频样本的长窗和短窗的示例性实施例的时域表示。
图5是多个短窗的示例性实施例的时域表示。
图6是针对图5中的两个短窗的相关标绘图的示例性实施例的时域至谱域变换表示。
图7A是捕获多个激励脉冲的长窗的示例性实施例的标绘图。
图7B是仅使用幅度信息来反映基音频率的功率谱密度的示例性实施例的标绘图。
图7C是示出可以通过自相关函数(ACF)的最大值来确定的基音周期的标绘图。
图7D是两个短窗的示例性实施例的标绘图。
图7E是帧之间的广义互相关(GCC)的示例性实施例的标绘图。
图7F是图7E中的GCC的归一化互谱(GCSxx)的相位的示例性实施例的相位标绘图。
图8A是检测结果的标绘图。
图8B是基音估计结果的标绘图。
图9是针对信噪比(SNR)的示例性实施例和基线方法的性能结果的标绘图。
图10是示出基音频率估计的误差分布的标绘图。
图11是总基音误差(GPE)的标绘图。
图12是用于音频通信系统中的话音质量增强的设备的示例性实施例的框图。
图13是被配置为通过抑制噪声来进行语音增强的ICC系统的示例性实施例的框图。
图14是被配置为经由增益控制来进行语音增强的ICC系统的示例性实施例的框图。
图15是被配置为进行损失控制的ICC系统的示例性实施例的框图。
图16是被配置为基于语音和基音检测来进行语音增强的ICC系统的示例性实施例的框图。
图17是可选地在本文公开的实施例中的计算机的示例性内部结构的框图。
具体实施方式
示例性实施例的描述如下。
浊音语音的检测及其基音频率(pitch frequency)的估计是许多语音处理方法的重要任务。浊音语音由声带和声道(包括说话者的嘴和嘴唇)产生。声道用作谐振器,其对声带所产生的浊音激励进行谱成形。正因如此,当说话者的声带在说话期间振动时,产生浊音语音,而清音语音不会引起说话者的声带振动。话音的基音可以理解为声带(也称为声带褶)的振动率。话音的声音随着振动率变化而变化。随着每秒钟振动次数增加,基音也增加,从而使得话音具有更高的声音。基音信息(诸如基音频率或周期)可以用于例如对被噪声破坏或遮掩的浊音语音进行重构。
在汽车环境中,驾驶噪声可能特别影响浊音语音部分,因为它可能主要存在于浊音语音部分的典型的低频率处。因此,基音估计例如对于车内通信(ICC)系统是重要的。这种系统可以放大说话者的话音(诸如驾驶员或后座乘客的话音),并允许驾驶员和后座乘客之间进行方便的对话。这种ICC应用通常需要低延时;因此,ICC应用可以在连续的帧(在本文中也可互换地称为“窗(windows)”)之间使用短帧长度和短帧偏移。然而,传统的基音估计技术依赖于超过人类语音的基音周期的长窗(long windows)。特别地,男性说话者的低基音频率很难使用传统的基音估计技术来在低延时应用中解决。
本文公开的示例性实施例考虑了可以非常高效地评价的多个短窗(shortwindow)之间的关系。通过考虑多个短窗之间的关系而不是依赖于单个长窗,可以根据示例性实施例来解决诸如短窗以及男性说话者的低基音频率等的常见挑战。方法的示例性实施例可以估计在宽范围的基音频率中的基音频率。另外,相对于传统基音估计技术,示例性实施例的计算复杂度能够较低,这是因为示例性实施例可以直接在频域中估计基音频率,从而避免了可能计算离散傅立叶逆变换(IDFT)以转换回时域来进行基音估计的传统基音估计技术的计算复杂度。因此,示例性实施例在本文中可被称为低复杂性方法或低复杂度方法。
示例性实施例可以采用已经针对ICC系统中的其它应用计算出的输入音频信号的谱表示(即,谱)。由于非常短窗可以用于ICC应用以满足通信的低延时要求,因此谱的频率分辨率可能较低,并且可能无法基于单个帧来确定基音。本文公开的示例性实施例可以聚焦于这些低分辨率谱中的多个低分辨率谱之间的相位差。
将浊音语音的谐波激励视为峰的周期性重复,峰之间的距离可以由延迟表示。在谱域中,延迟与线性相位相对应。示例性实施例可以测试多个谱(诸如两个谱)之间的相位差以获得线性度,从而判断是否可以检测到谐波分量。此外,示例性实施例可以基于线性相位差的斜率来估计基音周期。
根据示例性实施例,可以基于多个低分辨率谱之间的相位差而不是单个长窗来从音频信号中提取基音信息。这种示例性实施例受益于短帧偏移所提供的高时间分辨率,并且能够处理由短窗长度引起的低谱分辨率。通过采用这种示例性实施例,可以非常高效地估计甚至是非常低的基音频率。
图1A是可以采用ICC系统(未示出)的示例性实施例的汽车102的示例性实施例的图100。ICC系统支持汽车102内的通信路径(未示出),并经由麦克风(未示出)接收第一用户106a的语音信号104,并在扬声器108上为第二用户106b重放增强语音信号110。麦克风所产生的麦克风信号(未示出)可能包括语音信号104和可能在声环境103(诸如汽车102的内舱)中产生的噪声信号(未示出)这两者。
ICC系统可以基于将声环境103中所产生的声噪声(诸如雨刷113a或113b所产生的雨刷噪声114或者汽车102的声环境103中所产生的其它声噪声等)与语音信号104进行区分以产生可以抑制声噪声的增强语音信号110,来增强麦克风信号。应当理解,通信路径可以是双向路径,该双向路径还能够实现从第二用户106b到第一用户106a的通信。正因如此,第二用户106b可以经由另一麦克风(未示出)生成语音信号104,并且可以在另一扬声器(未示出)上为第一用户106a重放增强语音信号110。应当理解,汽车102的声环境103中所产生的声噪声可能包括来源于舱外的环境噪声,诸如来自过往汽车的噪声、或任何其它环境噪声等。
语音信号104可以包括浊音信号105和清音信号107。说话者的语音可以包括声带(未示出)和声道(包括第一用户106a的嘴和嘴唇109)所产生的浊音音位。正因如此,当说话者的声带在音位发音期间振动时,可以产生浊音信号105。相比之下,清音信号107不会引起说话者的声带的振动。例如,音位/s/和/z/或/f/和/v/之间的差异是说话者的声带的振动。与清音信号107相比,浊音信号105可能趋向于更大声,像元音/a/、/e/、/i/、/u/、/o/那样。另一方面,清音信号107可能趋向于更突然,像爆破辅音/p/、/t/、/k/那样。
应当理解,汽车102可以是任何合适类型的运输车辆,并且扬声器108可以是用于以可听形式针对第二用户106b递送增强语音信号110的任何合适类型的装置。此外,应当理解,增强语音信号110可以经由任何合适类型的电子装置产生并以文本形式递送给第二用户106b,并且这种文本形式可以与可听形式结合产生或者代替可听形式来产生。
可以在ICC系统(诸如以上在图1A中公开的ICC系统)中采用本文公开的示例性实施例,以产生增强语音信号110。本文公开的示例性实施例可以被语音增强技术所采用,该语音增强技术对包括语音信号104和声环境103的声噪声的麦克风信号进行处理并生成可调节以适应汽车102的声环境103的增强语音信号110。
许多语音驱动应用中采用了语音增强技术。这些语音增强技术基于被噪声破坏的语音信号,试图恢复原始语音。在诸如汽车应用等的许多场景中,噪声集中在较低频率处。该频率区域中的语音部分尤其受到噪声的影响。
人类语音包括浊音音位和清音音位。浊音音位呈现出由声带褶的周期性振动引起的谐波激励结构。在时域中,这种浊音激励以一系列重复的脉冲状信号分量为特征。基音频率中包含了有价值的信息,诸如与说话者的身份或韵律有关的信息。因此,对于许多应用(诸如以上关于图1A所公开的ICC应用),期望检测到浊音语音的存在并估计基音频率(A.deCheveigné和H.Kawahara于2002年在The Journal of the Acoustical Society ofAmerica(美国声学学会杂志)第111卷第4期第1917页发表的“YIN,a fundamentalfrequency estimator for speech and music”;S.Gonzalez和M.Brookes于2011年在西班牙巴塞罗那的EUSIPCO会议上发表的“A pitch estimation filter robust to highlevels of noise (PEFAC)”;B.S.Lee和D.P.Ellis于2012年在美国俄勒冈州波特兰的Interspeech会议上发表的“Noise robust pitch tracking by subbandautocorrelation classification”;F.Kurth、A.Cornaggia-Urrigshardt和S.Urrigshardt于2014年在意大利佛罗伦萨的ICASSP会议上发表的“Robust F0Estimationin Noisy Speech Signals Using Shift Autocorrelation”)。
图2是语音产生的示例性实施例的框图200。如以上所公开的,语音信号210是包括浊音音位和清音音位的人类语音的典型。框图200包括清音激励202、浊音激励204和声道滤波器206的标绘图。如以上所公开的,对于浊音音位和清音音位,激励是不同的。清音激励202的标绘图没有呈现出谐波,而浊音激励204的标绘图以具有t0的基音周期208并且基音频率f0=1/t0的谐波分量为特征。
图3是包括浊音语音305的音频信号的示例性实施例的谱域表示300。在示例性实施例中,捕获还包括清音语音307的完整话语。谱域表示300包括高谱分辨率表示312和低谱分辨率表示314。在高谱分辨率表示312中,可以观察到明显的基音频率,诸如以上关于图2所公开的基音频率f0。然而,在低谱分辨率表示314中,不能分辨基音结构。低谱分辨率表示314对于需要低延时通信的音频通信系统(诸如以上关于图1A所公开的ICC系统)中所采用的短窗来说可以是典型的。
图4是捕获浊音音位的音频信号间隔的电子表示的音频样本的长窗412和短窗414的示例性实施例的时域表示400。在长窗412中,捕获了基音周期408。然而,短窗414太短以致不能捕获一个基音周期。在这种情况下,由于短窗414太短以致不能分辨基音,因此不能利用基于单个帧的传统方法来估计基音。示例性实施例采用多个短帧(即,窗)来扩展时间上下文(temporal context)。
通常,需要长窗长度来准确地分辨基音频率。必须捕获多个激励脉冲来提取基音信息。这对于基音周期可能超过实际应用中所使用的典型窗长度的低沉男性话音来说尤其是问题(M.Krini和G.Schmidt于2007年在美国纽约新帕尔茨的WASPAA会议上发表的“Spectral refinement and its application to fundamental frequencyestimation”)。增加窗长度在大多数情况下是不可接受的,因为它也增加了系统延时和计算复杂度。
除此之外,与系统延时和计算成本有关的约束对于一些应用是非常有挑战性的。对于诸如以上关于图1A所公开的ICC系统,必须使系统延时尽可能地低,以确保便利的听力体验。由于原始语音和放大信号在舱内叠加,因此这两个信号之间长于10ms的延迟被听者感知为恼人的(G.Schmidt和T.Haulick于2006年在Signal processing(信号处理)第86卷第6期第1307~1326页发表的“Signal processing for in-car communicationsystems”)。因此,可以采用非常短窗,从而避免应用标准的基音估计方式。
本文公开的示例性实施例介绍了能够处理非常短窗的基音估计方法。与通常的方式相比,诸如基音频率或基音周期等的基音信息不是基于单个长帧提取的。作为替代,示例性实施例考虑多个较短帧之间的相位关系。示例性实施例使得能够分辨甚至非常低的基音频率。由于示例性实施例可以完全在频域中操作,因此可以实现低计算复杂度。
图1B是用于音频通信系统中的话音质量增强的方法的示例性实施例的流程图120。该方法可以开始(122)并监视由音频通信系统捕获的包括浊音语音和噪声的音频信号中的浊音语音的存在(124)。噪声的至少一部分可以处于与浊音语音相关联的频率处。监视可以包括计算目前短窗中的音频信号的目前音频样本和至少一个先前短窗中的音频信号的先前音频样本的相应频域表示(frequency domain representation)之间的相位差。该方法可以判断在相应频域表示之间计算出的相位差在频率上是否大致呈线性(126)。在示例性实施例中,该方法可以通过判断为所计算出的相位差大致呈线性来检测浊音语音的存在,并且在检测到浊音语音的情况下通过对音频信号应用语音增强来增强经由音频通信系统通信的浊音语音的话音质量(128),此后该方法结束(130)。
该方法还可以包括基于检测到存在和所计算出的相位差来直接在频域中估计浊音语音的基音频率。
典型的基音估计技术搜索长帧中的周期性分量。典型的基音估计技术可以使用例如自相关函数(ACF)以检测长帧中的重复结构。然后,可以通过找到ACF的最大值的位置来估计基音周期。
相比之下,本文公开的示例性实施例通过比较可能在时间上重叠或不重叠的短帧(即,窗)对来检测重复结构。假定两个激励脉冲被两个不同的短帧捕获。进一步假定这两个脉冲的形状相同,则除了时间偏移之外,这两个帧中的信号段可以是相等的。通过确定这种偏移,可以非常高效地估计基音周期。
图5是音频信号(未示出)的多个短窗的示例性实施例的时域表示500。多个短窗包括短窗514a~z和514aa、514bb和514cc。多个短窗各自具有如下的窗长度516,该窗长度太短以致不能捕获音频信号中的浊音语音的周期性浊音激励脉冲信号的整周期(fullperiod)的音频样本。窗长度516对于需要低延时的音频通信应用(诸如以上关于图1A所公开的ICC系统)来说可以是典型的。窗长度516可被设置为减少ICC系统中的音频通信延时。
多个短窗514a~z和514aa、514bb和514cc的连续短窗具有帧偏移418。示例性实施例可以采用多个短帧之间的关系来检索诸如基音周期508等的基音信息。示例性实施例可以假定周期性激励的两个脉冲被具有时间偏移的两个不同短帧(诸如短窗514a即窗0、以及短窗514g即窗6)捕获。如时域表示500所示,短窗514a和短窗514g在时间上偏移。如以上所公开的,示例性实施例可以采用这种短窗的频域表示来监视浊音语音的存在。短窗的这种频域表示可以是可用的,因为这种频域表示可以被需要低延时音频通信的音频通信系统中的多个应用采用。
图6是针对图5中的两个短窗的相关标绘图的示例性实施例的时域至谱域变换表示600。时域至谱域变换表示600包括图5的短窗514a和514g各自的时域标绘图612a和612b。如图6所示,短窗514a和514g的时域表示在时间上偏移时间差608。短窗514a和514g的时域表示可以经由快速傅立叶变换(FFT)变换到频域,以产生谱域中的幅度和相位分量。谱域幅度标绘图614a和614b分别与谱域中的短窗514a和514g的幅度相对应。谱域相位标绘图614a和614b分别与谱域中的短窗514a和514g的相位相对应。如谱域相位差标绘图650所示,短窗514a和514g的相应频域(即,谱域)表示之间的相位差在频率上大致呈线性,并且时间差608可以从斜率652计算得到。正因如此,在频率上几乎呈线性的相位差的斜率652可以北用于基音估计。所计算出的相位差可被认为是大致呈线性的,这是因为所计算出的相位差以在直线651的上方和下方具有偏差的方式近似地遵循直线651。
如以上所公开的,用于音频通信系统中的话音质量增强的方法可以包括监视由音频通信系统捕获的包括浊音语音和噪声的音频信号中的浊音语音的存在。噪声的至少一部分可以处于与浊音语音相关联的频率处。监视可以包括计算目前短窗中的音频信号的目前音频样本和至少一个先前短窗中的音频信号的先前音频样本的相应频域表示(诸如相应频域表示616a和616b)之间的相位差。该方法可以包括判断在相应频域表示616a和616b之间计算出的相位差在频率上是否大致呈线性。该方法可以包括通过判断为所计算出的相位差大致呈线性(诸如如大致呈线性的线651所示)来检测浊音语音的存在,并且在检测到浊音语音的情况下通过对音频信号应用语音增强来增强经由音频通信系统通信的浊音语音的话音质量。
信号模型
对于存在和不存在浊音语音,可以用公式表示两个假设(hypothese)(H0和H1)。对于存在浊音语音,信号x(n)可以通过浊音语音分量sv和包括清音语音和噪声的其它分量b的叠加:
H0:x(n)=sV(n,τV(n))+b(n) (1)
来表示。可选地,在不存在浊音语音的情况下,信号:
H1:x(n)=b(n) (2)
仅取决于噪声或清音语音分量。
示例性实施例可以检测到浊音语音分量的存在。在检测到浊音语音的情况下,示例性实施例可以估计基音频率fv=fsv,其中fs表示采样率,并且τv表示样本中的基音周期。
浊音语音可以通过周期性激励来建模:
sV(n,τv(n))=gn(n)+gn(n+τv(n))+gn(n+2τv(n))+......(3)
其中,单个激励脉冲的形状由函数gn表示。两个相继的峰之间的距离τv与基音周期相对应。对于人类语音,基音周期可以针对非常低的男性话音假定直至τmax=fs/50Hz的值。
使用自相关和互相关的基音估计
可以对如下的信号的帧进行信号处理:
x(l)=[x(lR-N+1),…,x(lR-1),x(lR)]T (4)
其中,N表示窗长度,并且R表示帧偏移。
如以下进一步公开的,对于长窗,N>τmax,并且ACF:
Figure BDA0002451814010000151
的最大值可以在人类基音周期范围内,该人类基音周期范围可以用于如图7A~C中所公开地估计基音。可以应用IDFT以将所估计的高分辨率功率谱|X(k,l)|2变换为ACF。
图7A是捕获多个激励脉冲的长窗的示例性实施例的标绘图700。
图7B是仅使用幅度信息来反映基音频率fv的功率谱密度的示例性实施例的标绘图710。
图7C是示出可以通过自相关函数(ACF)的最大值来确定的基音周期τv的标绘图720。
与以上采用长窗的基于ACF的基音估计相对地,本文公开的示例性实施例可以聚焦于非常短的窗N<<τmax,该窗太短以致不能捕获整个基音周期。由于短窗长度,因而X(k,l)的谱分辨率低。然而,对于短帧偏移R<<τmax,可以实现良好的时间分辨率。在这种情况下,如图7D所示,示例性实施例可以采用两个短帧x(l)和x(l-Δl)来确定基音周期。
图7D是两个短窗的示例性实施例的标绘图730。如标绘图730中所示,对于较短的窗,需要两个帧来捕获基音周期。
在这两个帧包含不同的激励脉冲的情况下,帧之间的互相关度:
Figure BDA0002451814010000152
具有与基音周期
Figure BDA0002451814010000153
相对应的最大值
Figure BDA0002451814010000154
为了强调相关的峰,示例性实施例可以替代地采用广义互相关(GCC):
Figure BDA0002451814010000161
通过去除归一化互谱(normalized cross-spectrum)GCSxx中的幅度信息,GCC仅依赖于相位。因此,两个脉冲之间的距离可以如图7E中所公开地清楚地标识。
图7E是帧之间的GCC的示例性实施例的标绘图740。标绘图740示出,与图7C中的ACF相比,帧之间的GCC更明显地示出峰。
图7F是图7E中的GCC的归一化互谱(GCSxx)的相位的示例性实施例的标绘图750。标绘图750示出,两个低分辨率谱之间的相位差包含用于基音估计的所有相关信息。方法的示例性实施例可以直接在频域中估计基音周期。如以下所公开的,估计可以基于GCSxx的相位差的斜率752。如标绘图750中所示,相位差可被认为是大致呈线性,这是因为相位差以在直线751的上方和下方具有偏差的方式近似地遵循直线751。
基于相位差的基音估计
在两个短帧捕获到时间上偏移的相同形状的脉冲的情况下,偏移可以由延迟来表示。在频域中,这可以以互谱的线性相位为特征。在这种情况下,相邻频率区间(frequencybin)之间的相位关系:
Figure BDA0002451814010000162
对于具有相位差
Figure BDA0002451814010000163
的所有频率是恒定的。对于未表现出周期性结构的信号,
Figure BDA0002451814010000164
对于k具有相当的随机性质。因此,测试线性相位可以被用于检测浊音分量。
示例性实施例可以采用沿频率的加权和:
Figure BDA0002451814010000165
来检测语音并估计基音频率。对于谐波信号,加权和的幅度由于线性相位因而产生接近于1的值。否则,产生较小的值。在示例性实施例中,加权系数ω(k,l,Δl)可用于强调对于语音来说相关的频率。加权系数可被设置为固定值,或者可以例如使用所估计的信号与噪声功率比(SNR)来动态地选择。示例性实施例可将其设置为:
Figure BDA0002451814010000171
以在浊音语音的频率范围内强调谱中的主分量。(10)中的加权和仅依赖于最近帧l和一个先前帧l-Δl之间的相位差。为了包括多于两个激励脉冲以用于估计,示例性实施例可以应用时间平滑(temporal smoothing):
Figure BDA0002451814010000172
所采用的时间上下文可以根据示例性实施例通过改变平滑常数α来调整。为了平滑,示例性实施例可以仅考虑可能包含先前脉冲的帧。示例性实施例可以搜索距离为Δl个帧的脉冲,并且可以考虑l-Δl处的平滑估计。
基于平均相位差,示例性实施例可以定义浊音特征:
Figure BDA0002451814010000173
该浊音特征表示相位的线性度。在所有复数值ΔGCS具有相同相位的情况下,它们累加并得到表示线性相位的幅度的均值。否则,相位可以随机分布,并且结果假定较低的值。
以类似的方式,示例性实施例可以估计基音周期。用角度算子替代(13)中的幅度:
Figure BDA0002451814010000174
示例性实施例可以估计线性相位的斜率。根据示例性实施例,该斜率可被转换为基音周期的估计:
Figure BDA0002451814010000181
与传统方式相对地,示例性实施例可以基于相位差直接在频域中估计基音。示例性实施例可以非常高效地实现,因为无需像典型的基于ACF的方法那样变换回时域或在时域中进行最大值搜索。
正因如此,回到图1B,该方法还可以包括基于检测到存在和所计算出的相位差来直接在频域中估计浊音语音的基音频率。相位差的计算可以包括:计算相应频域表示的归一化互谱的相邻频率之间的相位关系的在频率上的加权和,并且计算所计算出的加权和的均值(诸如以上关于等式(10)所公开的)。判断在相应频域表示之间计算出的相位差在频率上是否大致呈线性可以包括:将所计算出的均值的幅度(如以上关于等式(13)所公开的)与表示线性度的阈值进行比较,以判断所计算出的相位差是否大致呈线性。在所有复数值AGCS具有相同相位的情况下,它们累加并得到表示线性相位的幅度的均值。根据示例性实施例,阈值可以是小于1的值。由于仅针对完全线性才实现最大值1,因此阈值可被设置为小于1的值。可以采用例如0.5的阈值来检测相位几乎(但不完全)呈线性的浊音语音,并将其与均值的幅度低得多的噪声分离开。
均值可以是复数,并且在所计算出的相位差被判断为大致呈线性的情况下,该方法还可以包括基于复数的角度来直接在频域中估计所述浊音语音的基音周期(诸如以上关于等式(14)所公开的)。
该方法可以包括:将所计算出的均值与各自基于目前短窗和不同的先前短窗计算出的其它均值进行比较,并且基于最高均值的角度来直接在频域中估计浊音语音的基音频率,最高均值是基于比较从该均值和其它均值中选择的(诸如以下关于等式(11)进一步公开的)。
计算加权和可以包括:在浊音语音的频率范围中的频率处采用加权系数(诸如以上关于等式(11)所公开的),并在至少一个先前帧包括多个帧的情况下应用平滑常数(诸如以上关于等式(12)所公开的)。
该方法还可以包括基于检测到存在来直接在频域中估计浊音语音的基音频率。计算可以包括计算相应频域表示的归一化互谱(诸如以上关于等式(7)所公开的)。估计可以包括计算所计算出的归一化互谱的斜率(诸如以上关于等式(14)所公开的)、并将所计算出的斜率转换为基音周期(诸如以上关于等式(15)所公开的)。
该方法还可以包括:基于检测到存在和所计算出的相位差来直接在频域中估计浊音语音的基音频率,并基于未检测到存在而对音频信号应用衰减因子(诸如以下关于图15进一步所公开的)。在图15的损失控制应用中,可以采用语音检测结果,以不仅在没有检测到语音的情况下应用这种衰减因子、而且还仅激活(activate)一个方向以防止回声。关于激活(和停用(deactivate))哪个方向的决定可以取决于包括语音检测结果的复杂规则。另外,语音增强可以包括基于所估计的基音频率而重构浊音语音、使噪声跟踪无效(诸如以下关于图13进一步所公开的)、对音频信号应用自适应增益(诸如以下关于图14进一步所公开的)、或其组合。
后处理和检测
示例性实施例可以采用后处理,并且该后处理可以包括组合不同短帧的结果以实现最终浊音特征和基音估计。由于音频信号的移动区间可能被不同的短帧捕获,因此最近帧可以包含一个激励脉冲;然而,它也可能介于两个脉冲之间。在这种情况下,即使信号中存在明显的谐波激励,在当前帧中也将不会检测到浊音。为了防止这些间隙,在示例性实施例中可以在Δl个帧上保持pv(l,Δl)的最大值。
使用以上公开的等式(13),在示例性实施例中,可以考虑不同基音区域的多个结果。在示例性实施例中,对于当前帧l和一个先前帧l-Δl之间的各相位差,可以确定浊音特征pv(l,Δl)的值。可以通过搜索包含基音周期的最有可能的区域:
Figure BDA0002451814010000201
来将不同值融合为最终特征。然后,由
Figure BDA0002451814010000202
Figure BDA0002451814010000203
Figure BDA0002451814010000204
分别给出浊音特征和基音估计。应该理解,也可以采用替代方式来寻找最有可能的区域。最大值是良好的指标;然而,也可以通过检查其它区域来进行改进。例如,在两个值类似且接近最大值的情况下,最好是选择较低的距离Δl,以防止检测到次谐波。
基于浊音特征pv,示例性实施例可以判断浊音语音的存在。为了决定以上公开的(1)和(2)中的两个假设H0和H1其中之一,可以对浊音特征应用阈值η。在浊音特征超过阈值的情况下,可以判断为检测到浊音语音,否则可以假定不存在浊音语音。
实验和结果
本文公开的实验和结果聚焦于对于ICC应用来说典型的汽车噪声场景。采用来自Keele语音数据库(F.Plante、G.F.Meyer和W.A.Ainsworth于1995年在西班牙马德里的EUROSPEECH会议中发表的“A pitch extraction reference database”)的语音信号、以及来自UTD-CAR-NOISE数据库(N.Krishnamurthy和J.H.L.Hansen于2013年12月在International Journal of Speech Technology(国际语音技术杂志)中发表的“Carnoise verification and applications”)的汽车噪声。信号被下采样到fs=16kHZ的采样率。针对本文公开的所有分析,使用R=32个样本(2ms)的帧偏移。对于短帧,采用128个样本(8ms)的Hann窗。
Keele数据库提供了基于喉动记录的基音基准。该基准被用作所有分析的基本事实。
为了进行比较,采用了基于ACF的传统基音估计方式,并且这种基于ACF的方式在本文中可以可互换地称为基线方法或基线方式。将这种基线方法应用于噪声数据以获得用以评估示例性实施例的性能的基线(在本文中也可互换地称为低复杂度特征、低复杂度方法、低复杂度方式、低复杂性特征、低复杂性方法、低复杂性方式,或者简称为“低复杂度”或“低复杂性”)。由于1024个样本(64ms)的长窗考虑了长时间上下文,因此可以使用基线方式实现良好性能。
在一个示例中,语音和噪声被混合成0dB的SNR。图8A和图8B公开了低复杂度方法、基线方法以及基准各自的检测结果和基音估计。
图8A是基线方法844的检测结果pv(t)的标绘图800以及噪声语音信号(SNR=0dB)的低复杂度方法842的示例性实施例。另外,还标绘了噪声语音信号(SNR=0dB)的基准846(即,基本事实),以示出应当检测到浊音语音的区域。
图8B是基音估计fv的示例性实施例的基音估计结果的标绘图850,即相对于用于获得以上公开的图8A的检测结果的噪声语音信号(SNR=0dB)的基准856(即,基本事实)的低复杂度基音估计结果852和基线方法854的基音估计结果。
如图8A所示,低复杂度特征表示与基于ACF的基线方法类似的语音。如图8B所示,这两种方法能够估计基音频率;然而,低复杂度特征的方差较高。对于这两种方式并且甚至对于基准,可以观察到一些次谐波。低复杂度方法和基线方法这两者表示浊音特征pv的高值接近1的浊音语音。根据示例性实施例,阈值可被应用为简单检测器。该阈值对于传统方式被设置为η=0.25,并且对于低复杂度方式被设置为η=0.5,并且只有在浊音特征超过阈值的情况下才估计基音。低复杂度方法所得的基音估计表明它能够跟踪基音。然而,结果并不像基线方法的结果那么精确。
为了评价更广泛的数据库的性能,将由男性和女性说话者说出的Keele数据库中的10个话语(持续时间337s)与汽车噪声混合,并对SNR进行调整。通过在0到1之间调整阈值η,针对各SNR值确定接收器工作特性(ROC)。通过将特定阈值的检测与浊音语音的基准进行比较来找到正确检测率。另一方面,针对基准表示不存在语音的间隔,计算误报率。通过计算ROC曲线下的面积(AUC),将性能曲线压缩为标量测度。接近1的AUC值表示良好的检测性能,而接近0.5的值对应于随机结果。
图9是针对SNR的示例性实施例和基线方法的性能结果的标绘图900。标绘图900示出,低复杂度特征942表示与具有长上下文的基线方法946a的性能类似的良好检测性能。在对较短窗应用基线方法946b时,即使对于高SNR,性能也低,这是因为低基音频率无法分辨。如所公开的,基线方式946a示出良好的检测性能,因为它捕获了长时间上下文。尽管低复杂度方式942必须处理较少时间上下文,但也实现了类似的检测性能。在对短窗应用基线方式946b时,即使对于高SNR,也没有完全检测出浊音语音。低基音频率不能使用单个短窗来分辨,这就是低性能的原因。
在第二个分析中,聚焦于低复杂度方法和基线方法的基音估计性能。为此,考虑了基准和测试方法都表示存在浊音语音的时间实例。对估计基音频率和基准基音频率之间的偏差进行评估。对于0dB,观察到这两种方法具有良好的检测性能。因此,研究了针对这种情况的基音估计性能。
图10是示出基音频率估计的误差分布的标绘图1000。在图10中,描绘了相对于基准频率fv的偏差
Figure BDA0002451814010000221
的直方图。可以观察到,基音频率的估计在大多数情况下是正确的。然而,对于这两种方法(即,低复杂度方法1042和基线方法1046),可以注意到基准基音频率的±10%的间隔中的小偏差。在-0.5处的较小峰可以用被意外选择并被错误地识别为基音的次谐波来解释。通过应用更先进的后处理而不是如以上参考等式(16)所公开的简单最大搜索,可以减少这类错误。
可以使用总基音误差(GPE)来评价相对于基准基音频率的偏差(W.Chu 和A.Alwan于2009年在台湾省台北的ICASSP会议中发表的“Reducing f0frame error of f0tracking algorithms under noisy conditions with an unvoiced/voicedclassification frontend”)。为此,确定比基准基音大20%的偏差的经验概率:
Figure BDA0002451814010000231
图11是总基音误差(GPE)的标绘图1100。标绘图1100示出基音估计误差的经验概率,其偏差超过基准基音频率的20%。基线方式1146可以比低复杂度方法1142的示例性实施例更准确地估计基音频率。在图11中,描绘了实现合理的检测性能的SNR的GPE。对于高SNR,与传统基线方式相比,可以观察到低复杂度方式的偏差更高。这些误差中的许多误差可以用次谐波来解释,该次谐波被错误地识别为基音频率。
结论
公开了一种用于浊音语音的检测和基音估计的低复杂度方法,其能够对由诸如ICC系统等的需要低延时的应用给出的特殊约束进行处理。与传统的基音估计方式相对地,示例性实施例采用非常短的帧,该非常短的帧只能捕获单个激励脉冲。多个脉冲之间的距离(对应于基音周期)通过评价低分辨率谱之间的相位差来确定。由于不需要IDFT来估计基音,因此与可以是基于ACF的标准基音估计技术相比,计算复杂度较低。
图12是用于音频通信系统(未示出)中的话音质量增强的设备1202的框图1200,其中设备1202包括音频接口1208,该音频接口1208被配置为产生由音频通信系统捕获的包括浊音语音和噪声的音频信号1204的电子表示1206。噪声(未示出)的至少一部分可以处于与浊音语音(未示出)相关联的频率处。设备1202可以包括耦接至音频接口1208的处理器1218。处理器1218可被配置为实现语音检测器1220和音频增强器1222。语音检测器1220可以耦接至音频增强器1222,并且被配置为监视音频信号1204中的浊音语音的存在。监视操作可以包括计算目前短窗中的音频信号1204的目前音频样本和至少一个先前短窗中的音频信号1204的先前音频样本的相应频域表示之间的相位差。语音检测器1220可被配置为判断在相应频域表示之间计算出的相位差在频率上是否大致呈线性。语音检测器1220可被配置为通过判断为所计算出的相位差在频率上大致呈线性来检测浊音语音的存在。语音检测器1220可被配置为将所检测到的存在的指示1212通信至音频增强器1222。音频增强器1222可被配置为通过对音频信号1204应用语音增强以产生增强音频信号1210来增强经由音频通信系统通信的浊音语音的话音质量。语音增强可以基于所通信的指示1212。
目前短窗和至少一个先前短窗可能具有太短以致不能捕获音频信号中的浊音语音的周期性浊音激励脉冲信号的整周期的音频样本的窗长度,音频通信系统可以是车内通信(ICC)系统,并且窗长度可被设置为减少ICC系统中的音频通信延时。
语音检测器1220还可被配置为基于检测到存在和所计算出的相位差来直接在频域中估计浊音语音的基音频率。语音检测器1220可被配置为向音频增强器1222报告语音检测结果,诸如浊音语音的存在的指示1212及其相关的基音频率1214。
计算操作可以包括:计算相应频域表示的归一化互谱的相邻频率之间的相位关系在频率上的加权和,并且计算所计算出的加权和的均值。判断操作可以包括将所计算出的均值的幅度与表示线性度的阈值进行比较以判断所计算出的相位差是否大致呈线性。
均值可以是复数,并且在所计算出的相位差被判断为大致呈线性的情况下,语音检测器1220还可被配置为基于复数的角度来直接在频域中估计浊音语音的基音周期。
语音检测器1220还可被配置为将所计算出的均值与各自基于目前短窗和不同的先前短窗计算出的其它均值进行比较,并且基于最高均值的角度来直接在频域中估计浊音语音的基音频率,最高均值是基于比较操作从该均值和其它均值中选择的。
为了计算加权和,语音检测器1220还可被配置为在浊音语音的频率范围中的频率处采用加权系数,并在至少一个先前帧包括多个帧的情况下应用平滑常数。
语音检测器1220还可被配置为基于检测到存在而直接在频域中估计浊音语音的基音频率。计算操作可以包括计算相应频域表示的归一化互谱。估计操作可以包括计算所计算出的归一化互谱的斜率并且将所计算出的斜率转换为基音周期。
语音检测器1220还可被配置为基于检测到存在和所计算出的相位差而直接在频域中估计浊音语音的基音频率,并将所估计的基音频率通信至音频增强器1222。音频增强器1222还可被配置为基于所通信的表示未检测到存在的指示1212而对音频信号1204应用衰减因子。语音增强可以包括基于所估计并通信的基音频率1214对浊音语音进行重构、使噪声跟踪无效、对音频信号应用自适应增益、或其组合。
如以上所公开的,本文公开的示例性实施例可以被以上公开的诸如图1A的ICC系统等的音频通信系统采用。然而,应当理解,本文公开的示例性实施例可以被任何合适的音频通信系统或应用采用。
以下公开的图13~16示出可以应用以上公开的示例性实施例的应用。因此,在图13~16中没有提供一组完整的附图标记。
图13是被配置为通过抑制噪声来进行语音增强的ICC系统1302的示例性实施例的框图1300。以上公开的图12的语音检测器1220的示例性实施例可以被ICC系统1302用于噪声抑制。在ICC系统1302中,可以估计背景噪声的特性并将其用于抑制噪声。语音检测器1220可用于控制ICC系统1302中的噪声估计,使得仅在不存在语音且仅取得噪声的情况下才对噪声进行估计。
图14是被配置为经由增益控制来进行语音增强的ICC系统1402的示例性实施例的框图1400。以上公开的图12的语音检测器1220的示例性实施例可以被ICC系统1402用于增益控制。在ICC系统1402中,可以通过对音频信号应用自适应增益来补偿语音水平(speechlevel)的变化。通过采用以上公开的图12的语音检测器1220,语音水平的估计可以聚焦于存在语音的间隔。
图15是被配置为进行损失控制的ICC系统1502的示例性实施例的框图1500。在图15的损失控制应用中,语音检测使得仅激活一个方向以防止回声。关于激活(和停用)哪个方向的决定可以取决于包括语音检测结果的复杂规则。正因如此,可以采用损失控制来控制激活哪个方向的语音增强。以上公开的图12的语音检测器1220的示例性实施例可以被ICC系统1502用于损失控制。在图15的示例性实施例中,仅激活一个方向(从前到后或从后到前)。可以基于哪个说话者(即,是驾驶员还是乘客)正在说话来决定激活哪个方向,并且这种决定可以基于如以上公开的语音检测器1220所检测到的浊音语音的存在。
正因如此,在图15的示例性实施例中,在未检测到语音的情况下可以停用方向(即,应用损失),并且在检测到存在语音的情况下可以激活该方向(即,不应用损失)。在双向系统中,损失控制可以用于仅激活主动说话者的ICC方向。例如,驾驶员可能正在对后座乘客说话。在这种情况下,只有驾驶员的麦克风的语音信号可以进行处理、增强和经由后座的扬声器重放。损失控制可用于阻止后座麦克风信号的处理,以避免来自后座扬声器的反馈回传到驾驶员位置处的扬声器。
图16是被配置为基于语音和基音检测来进行语音增强的ICC系统的示例性实施例的框图1600。
图17是可以实现本发明的各种实施例的计算机1700的内部结构的示例的框图。计算机1700包含系统总线1702,其中总线是用于计算机或处理系统的组件之间的数据传送的硬件线路的集合。系统总线1702本质上是连接计算机系统的不同元件(例如,处理器、磁盘存储、存储器、输入/输出端口、网络端口等)的共享管道,其使得能够在元件之间传送信息。耦接至该系统总线1702的是用于将各种输入和输出装置(例如,键盘、鼠标、显示器、打印机、扬声器等)连接至计算机1700的I/O装置接口1704。网络接口1706允许计算机1700连接至附接到网络的各种其它装置。存储器1708为可用于实现本发明的实施例的计算机软件指令1710和数据1712提供易失性存储。磁盘存储1714为可用于实现本发明的实施例的计算机软件指令1710和数据1712提供非易失性存储。中央处理器单元1718也耦接至系统总线1702并提供计算机指令的执行。
本文公开的其它示例性实施例可以使用计算机程序产品来配置;例如,可以在用于实现示例性实施例的软件中对控制进行编程。其它示例性实施例可以包括非暂时性计算机可读介质,该非暂时性计算机可读介质包含可由处理器执行、并在加载和执行时使处理器完成本文所述的方法的指令。应当理解,框图和流程图的元素可以在软件或硬件中实现,诸如经由以上公开的图12的一种或多种电路布置或其等同项、固件、其组合、或未来确定的其它类似实现来实现。例如,以上公开的图12的语音检测器1220和音频增强器1222可以在软件或硬件中实现,诸如经由以上公开的图17的一种或多种电路布置或其等同项、固件、其组合、或未来确定的其它类似实现来实现。另外,本文所描述的框图和流程图的元素可以在软件、硬件或固件中以任何方式组合或分割。如果在软件中实现,则软件可以用支持本文公开的示例性实施例的任何语言编写。软件可以存储在诸如随机存取存储器(RAM)、只读存储器(ROM)、光盘只读存储器(CD-ROM)等的任何形式的计算机可读介质中。在操作中,通用或专用的处理器或处理核心以本领域熟知的方式加载和执行软件。还应当理解,框图和流程图可以包括更多或更少的元素,以不同的方式布置或定向,或以不同的方式表示。应当理解,实现可以指定框图、流程图和/或网络图以及示出本文公开的实施例的执行的框图和流程图的数量。
本文引用的所有专利、公开申请和参考文献的教导通过引用而全部并入于此。
虽然已经特别地示出和描述了示例性实施例,但本领域技术人员将理解,在不脱离所附权利要求所涵盖的实施例的范围的情况下,可以在其中进行形式和细节的各种改变。

Claims (20)

1.一种用于音频通信系统中的话音质量增强的方法,所述方法包括:
监视由所述音频通信系统捕获的包括浊音语音和噪声的音频信号中的所述浊音语音的存在,所述噪声的至少一部分处于与所述浊音语音相关联的频率处,所述监视包括计算目前短窗中的音频信号的目前音频样本和至少一个先前短窗中的音频信号的先前音频样本的相应频域表示之间的相位差;
判断在相应频域表示之间计算出的相位差在频率上是否大致呈线性;以及
通过判断为所计算出的相位差大致呈线性来检测所述浊音语音的存在,并且在检测到所述浊音语音的情况下,通过对所述音频信号应用语音增强来增强经由所述音频通信系统所通信的所述浊音语音的话音质量。
2.根据权利要求1所述的方法,其中,所述目前短窗和所述至少一个先前短窗具有如下的窗长度,所述窗长度太短以致不能捕获所述音频信号中的所述浊音语音的周期性浊音激励脉冲信号的整周期的音频样本。
3.根据权利要求2所述的方法,其中,所述音频通信系统是车内通信系统即ICC系统,并且所述窗长度被设置为减少所述ICC系统中的音频通信延时。
4.根据权利要求1所述的方法,还包括:基于检测到存在和所计算出的相位差,直接在频域中估计所述浊音语音的基音频率。
5.根据权利要求1所述的方法,其中,所述计算包括:
计算相应频域表示的归一化互谱的相邻频率之间的相位关系的在频率上的加权和;
计算所计算出的加权和的均值;以及
其中,所述判断包括:将所计算出的均值的幅度与表示线性度的阈值进行比较,以判断所计算出的相位差是否大致呈线性。
6.根据权利要求5所述的方法,其中,所述均值是复数,并且在所计算出的相位差被判断为大致呈线性的情况下,所述方法还包括基于所述复数的角度来直接在频域中估计所述浊音语音的基音周期。
7.根据权利要求5所述的方法,还包括:
将所计算出的均值与各自基于目前短窗和不同的先前短窗所计算出的其它均值进行比较;以及
基于最高均值的角度来直接在频域中估计所述浊音语音的基音频率,所述最高均值是基于所述比较而从所述均值和其它均值中选择的。
8.根据权利要求5所述的方法,其中,计算所述加权和包括:在所述浊音语音的频率范围中的频率处采用加权系数,并且在至少一个先前帧包括多个帧的情况下应用平滑常数。
9.根据权利要求1所述的方法,还包括基于检测到存在来直接在频域中估计所述浊音语音的基音频率,其中:
所述计算包括计算相应频域表示的归一化互谱;以及
所述估计包括计算所计算出的归一化互谱的斜率并且将所计算出的斜率转换为基音周期。
10.根据权利要求1所述的方法,其中,所述方法还包括:
基于检测到存在和所计算出的相位差,直接在频域中估计所述浊音语音的基音频率;以及
基于未检测到存在而对所述音频信号应用衰减因子,其中,所述语音增强包括基于所估计的基音频率对所述浊音语音进行重构、使噪声跟踪无效、对所述音频信号应用自适应增益、或其组合。
11.一种用于音频通信系统中的话音质量增强的设备,所述设备包括:
音频接口,其被配置为产生由所述音频通信系统捕获的包括浊音语音和噪声的音频信号的电子表示,所述噪声的至少一部分处于与所述浊音语音相关联的频率处;以及
处理器,其耦接至所述音频接口,所述处理器被配置为实现语音检测器和音频增强器,所述语音检测器耦接至所述音频增强器,并且被配置为:
监视所述音频信号中的所述浊音语音的存在,所述监视的操作包括计算目前短窗中的音频信号的目前音频样本和至少一个先前短窗中的音频信号的先前音频样本的相应频域表示之间的相位差;
判断在相应频域表示之间计算出的相位差在频率上是否大致呈线性;以及
通过判断为所计算出的相位差大致呈线性来检测所述浊音语音的存在,并且将该存在的指示通信至所述音频增强器,所述音频增强器被配置为通过对所述音频信号应用语音增强来增强经由所述音频通信系统所通信的所述浊音语音的话音质量,所述语音增强是基于所通信的指示的。
12.根据权利要求11所述的设备,其中,所述目前短窗和所述至少一个先前短窗具有如下的窗长度,所述窗长度太短以致不能捕获所述音频信号中的所述浊音语音的周期性浊音激励脉冲信号的整周期的音频样本,其中,所述音频通信系统是车内通信系统即ICC系统,以及其中,所述窗长度被设置为减少所述ICC系统中的音频通信延时。
13.根据权利要求11所述的设备,其中,所述语音检测器还被配置为基于检测到存在和所计算出的相位差,直接在频域中估计所述浊音语音的基音频率。
14.根据权利要求11所述的设备,其中,所述计算的操作包括:
计算相应频域表示的归一化互谱的相邻频率之间的相位关系的在频率上的加权和;
计算所计算出的加权和的均值;以及
其中,所述判断的操作包括:将所计算出的均值的幅度与表示线性度的阈值进行比较,以判断所计算出的相位差是否大致呈线性。
15.根据权利要求14所述的设备,其中,所述均值是复数,并且在所计算出的相位差被判断为大致呈线性的情况下,所述语音检测器还被配置为基于所述复数的角度来直接在频域中估计所述浊音语音的基音周期。
16.根据权利要求14所述的设备,其中,所述语音检测器还被配置为:
将所计算出的均值与各自基于目前短窗和不同的先前短窗所计算出的其它均值进行比较;以及
基于最高均值的角度来直接在频域中估计所述浊音语音的基音频率,所述最高均值是基于所述比较的操作从所述均值和其它均值中选择的。
17.根据权利要求14所述的设备,其中,为了计算加权和,所述语音检测器还被配置为在所述浊音语音的频率范围中的频率处采用加权系数,并且在至少一个先前帧包括多个帧的情况下应用平滑常数。
18.根据权利要求11所述的设备,其中,所述语音检测器还被配置为基于检测到存在来直接在频域中估计所述浊音语音的基音频率,以及其中,所述计算的操作包括计算相应频域表示的归一化互谱,以及其中,所述估计的操作包括计算所计算出的归一化互谱的斜率并且将所计算出的斜率转换为基音周期。
19.根据权利要求11所述的设备,其中,所述语音检测器还被配置为基于检测到存在和所计算出的相位差来直接在频域中估计所述浊音语音的基音频率,并且将所估计的基音频率通信至所述音频增强器,以及其中,所述音频增强器还被配置为基于表示未检测到存在的指示而对所述音频信号应用衰减因子,其中,所述语音增强包括基于所估计并通信的基音频率对所述浊音语音进行重构、使噪声跟踪无效、对所述音频信号应用自适应增益、或其组合。
20.一种用于音频通信系统中的话音质量增强的非暂时性计算机可读介质,在所述非暂时性计算机可读介质上编码有指令序列,所述指令序列在被处理器加载并执行时使所述处理器:
监视由所述音频通信系统捕获的包括浊音语音和噪声的音频信号中的所述浊音语音的存在,所述噪声的至少一部分处于与所述浊音语音相关联的频率处,所述监视的操作包括计算目前短窗中的音频信号的目前音频样本和至少一个先前短窗中的音频信号的先前音频样本的相应频域表示之间的相位差;
判断在相应频域表示之间计算出的相位差在频率上是否大致呈线性;以及
通过判断为所计算出的相位差大致呈线性来检测所述浊音语音的存在,并且在检测到所述浊音语音的情况下,通过对所述音频信号应用语音增强来增强经由所述音频通信系统所通信的所述浊音语音的话音质量。
CN201780095971.0A 2017-08-17 2017-08-17 低复杂度的浊音语音检测和基音估计 Active CN111226278B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/047361 WO2019035835A1 (en) 2017-08-17 2017-08-17 DETECTION WITH LOW SPEECH COMPLEXITY AND ESTIMATED HEIGHT

Publications (2)

Publication Number Publication Date
CN111226278A true CN111226278A (zh) 2020-06-02
CN111226278B CN111226278B (zh) 2023-08-25

Family

ID=59738477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780095971.0A Active CN111226278B (zh) 2017-08-17 2017-08-17 低复杂度的浊音语音检测和基音估计

Country Status (6)

Country Link
US (1) US11176957B2 (zh)
EP (1) EP3669356A1 (zh)
JP (1) JP7052008B2 (zh)
KR (1) KR20200038292A (zh)
CN (1) CN111226278B (zh)
WO (1) WO2019035835A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI790705B (zh) * 2021-08-06 2023-01-21 宏正自動科技股份有限公司 語速調整方法及其系統

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909060A (zh) * 2005-08-01 2007-02-07 三星电子株式会社 提取浊音/清音分类信息的方法和设备
US20080120100A1 (en) * 2003-03-17 2008-05-22 Kazuya Takeda Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
WO2014136628A1 (ja) * 2013-03-05 2014-09-12 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
CN105788607A (zh) * 2016-05-20 2016-07-20 中国科学技术大学 应用于双麦克风阵列的语音增强方法
CN105845150A (zh) * 2016-03-21 2016-08-10 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3418005B2 (ja) * 1994-08-04 2003-06-16 富士通株式会社 音声ピッチ検出装置
JP3616432B2 (ja) * 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
WO1999059138A2 (en) * 1998-05-11 1999-11-18 Koninklijke Philips Electronics N.V. Refinement of pitch detection
JP2000122698A (ja) * 1998-10-19 2000-04-28 Mitsubishi Electric Corp 音声符号化装置
JP2004297273A (ja) * 2003-03-26 2004-10-21 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
JP4433734B2 (ja) * 2003-09-11 2010-03-17 カシオ計算機株式会社 音声分析合成装置、音声分析装置、及びプログラム
PL1849154T3 (pl) 2005-01-27 2011-05-31 Synchro Arts Ltd Sposoby i urządzenie do zastosowania w modyfikacji dźwięku
JP2007140000A (ja) * 2005-11-17 2007-06-07 Casio Comput Co Ltd 歌唱採点装置および歌唱採点処理のプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
KR20080036897A (ko) * 2006-10-24 2008-04-29 삼성전자주식회사 음성 끝점을 검출하기 위한 장치 및 방법
KR20080072224A (ko) * 2007-02-01 2008-08-06 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
JP2011033717A (ja) * 2009-07-30 2011-02-17 Secom Co Ltd 雑音抑圧装置
US9641934B2 (en) * 2012-01-10 2017-05-02 Nuance Communications, Inc. In-car communication system for multiple acoustic zones
US10107887B2 (en) * 2012-04-13 2018-10-23 Qualcomm Incorporated Systems and methods for displaying a user interface
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
WO2014194273A2 (en) * 2013-05-30 2014-12-04 Eisner, Mark Systems and methods for enhancing targeted audibility
WO2015041549A1 (en) * 2013-09-17 2015-03-26 Intel Corporation Adaptive phase difference based noise reduction for automatic speech recognition (asr)
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120100A1 (en) * 2003-03-17 2008-05-22 Kazuya Takeda Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor
CN1909060A (zh) * 2005-08-01 2007-02-07 三星电子株式会社 提取浊音/清音分类信息的方法和设备
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
WO2014136628A1 (ja) * 2013-03-05 2014-09-12 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
CN105845150A (zh) * 2016-03-21 2016-08-10 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
CN105788607A (zh) * 2016-05-20 2016-07-20 中国科学技术大学 应用于双麦克风阵列的语音增强方法
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI790705B (zh) * 2021-08-06 2023-01-21 宏正自動科技股份有限公司 語速調整方法及其系統

Also Published As

Publication number Publication date
CN111226278B (zh) 2023-08-25
EP3669356A1 (en) 2020-06-24
US11176957B2 (en) 2021-11-16
US20210134311A1 (en) 2021-05-06
KR20200038292A (ko) 2020-04-10
JP2020533619A (ja) 2020-11-19
JP7052008B2 (ja) 2022-04-11
WO2019035835A1 (en) 2019-02-21

Similar Documents

Publication Publication Date Title
EP1208563B1 (en) Noisy acoustic signal enhancement
US8706483B2 (en) Partial speech reconstruction
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP5097504B2 (ja) 音声信号のモデルベース強化
JP5528538B2 (ja) 雑音抑圧装置
US8812312B2 (en) System, method and program for speech processing
US20070033020A1 (en) Estimation of noise in a speech signal
JP2004502977A (ja) サブバンド指数平滑雑音消去システム
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
JPWO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2012189907A (ja) 音声判別装置、音声判別方法および音声判別プログラム
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP4858663B2 (ja) 音声認識方法及び音声認識装置
CN111226278B (zh) 低复杂度的浊音语音检测和基音估计
US9875755B2 (en) Voice enhancement device and voice enhancement method
JP4325044B2 (ja) 音声認識システム
Pacheco et al. Spectral subtraction for reverberation reduction applied to automatic speech recognition
JP2002507775A (ja) 音声信号処理方法および音声信号処理装置
Graf Design of Scenario-specific Features for Voice Activity Detection and Evaluation for Different Speech Enhancement Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant