CN107221342B - 话音信号处理电路 - Google Patents

话音信号处理电路 Download PDF

Info

Publication number
CN107221342B
CN107221342B CN201710030512.6A CN201710030512A CN107221342B CN 107221342 B CN107221342 B CN 107221342B CN 201710030512 A CN201710030512 A CN 201710030512A CN 107221342 B CN107221342 B CN 107221342B
Authority
CN
China
Prior art keywords
time
speech signal
speech
attenuated
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710030512.6A
Other languages
English (en)
Other versions
CN107221342A (zh
Inventor
马德琳娜·卡涅夫斯卡
西里尔·吉约姆
沃特·约斯·蒂瑞
约翰内斯·埃布尔
提姆·芬沙伊特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP BV
Original Assignee
NXP BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NXP BV filed Critical NXP BV
Publication of CN107221342A publication Critical patent/CN107221342A/zh
Application granted granted Critical
Publication of CN107221342B publication Critical patent/CN107221342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种话音信号处理电路被配置成接收时频域参考话音信号和时频域衰减话音信号。时频域参考话音信号包括:频率大于频率阈值的上频带参考分量和频率小于频率阈值的下频带参考分量。时频域衰减话音信号包括:频率大于频率阈值的上频带衰减分量和频率小于频率阈值的下频带衰减分量。该话音信号处理电路包括干扰计算器,被配置成基于时频域参考话音信号和时频域衰减话音信号通过以下操作确定SBR特征:对于多个帧中的每一个:基于(i)上频带参考分量与(ii)下频带参考分量的比确定参考比;基于(i)上频带衰减分量与(ii)下频带衰减分量的比确定衰减比;基于参考比与衰减比的比确定频谱平衡比;以及(ii)基于多个帧的频谱平衡比确定SBR特征。

Description

话音信号处理电路
技术领域
本发明涉及话音信号处理电路,具体来说,涉及能产生表示衰减话音信号的输出分数的那些话音信号处理电路。
背景技术
主观听音测试可被视为用于评定话音质量的可靠方法。然而,它们可能昂贵且耗时。可替换的是,客观的自动方法可用于促进话音处理算法、编解码器、装置和网络的质量评定程序。它们从信噪比(SNR)或频谱距离(SD)等极简单的测度跨越到包括心理声学处理和认知(统计)模型的复杂方法。
后一类群是被设计成预测主观听音测试的分数的测度。这个类群的已知代表是ITU-T标准系列,该ITU-T标准系列在1997年开始于PSQM(感知话音质量测度),并在之后退出,且被PESQ(感知话音质量评估)和其宽带版WB-PESQ代替,接着在2011年终结于POLQA(感知客观听音质量评估)。来自这个系列的测度被广泛使用,因为它们可以应用在许多不同的使用情况(例如线性和非线性失真的测试因子或丢包、译码技术、例如编解码器评估、终端或网络测试、话音增强算法的评定等应用、装置等等)中一种类似的不再使用的测度是在1998年研发的TOSQA(电信客观话音质量评定)。其它客观测度更加专业化,只能用于一种应用,例如回声抑止(EQUEST)或噪声减少(3QUEST)的评估。
所有上述测度都是侵入性测度,也就是说,通过与参考信号进行比较来估计受测试样本(衰减信号)的质量。
发明内容
根据本发明的第一方面,提供一种被配置成接收时频域参考话音信号和时频域衰减话音信号的话音信号处理电路,其中时频域参考话音信号和时频域衰减话音信号中的每一个包括多个数据帧,其中:
时频域参考话音信号处于时频域中,并且包括:
上频带参考分量,该上频带参考分量具有大于频率阈值的频率;以及
下频带参考分量,该下频带参考分量具有小于频率阈值的频率;
时频域衰减话音信号处于时频域中,并且包括:
上频带衰减分量,该上频带衰减分量具有大于频率阈值的频率;以及
下频带衰减分量,该下频带衰减分量具有小于频率阈值的频率;
话音信号处理电路包括:
干扰计算器,该干扰计算器被配置成基于时频域参考话音信号和时频域衰减话音信号通过以下操作确定一个或多个SBR特征:
(i)对于多个帧中的每一个:
基于(i)上频带参考分量与(ii)下频带参考分量的比确定参考比;
基于(i)上频带衰减分量与(ii)下频带衰减分量的比确定衰减比;以及
基于参考比与衰减比的比确定频谱平衡比;以及
(ii)基于多个帧的频谱平衡比确定一个或多个SBR特征;以及
分数评估块,该分数评估块被配置成基于SBR特征确定衰减话音信号的输出分数。
在一个或多个实施例中,时频域衰减话音信号表示扩展带宽信号。频率阈值可对应于扩展带宽信号的下频带和扩展带宽信号的上频带之间的界限。
在一个或多个实施例中,扩展带宽信号的上频带对应于已通过人工带宽扩展算法添加的频带。扩展带宽信号的下频带可对应于已通过人工带宽扩展算法扩展的有限频带信号。
在一个或多个实施例中,干扰计算器被配置成确定以下SBR特征中的一个或多个:
具有正值频谱平衡比的帧的频谱平衡比的平均值;
具有负值频谱平衡比的帧的频谱平衡比的平均值;
具有正值频谱平衡比的帧的频谱平衡比的方差值;
具有负值频谱平衡比的帧的频谱平衡比的方差值;以及
(i)具有正值频谱平衡比的帧的数目与(ii)具有负值频谱平衡比的帧的数目的比。
在一个或多个实施例中,话音信号处理电路被配置成接收参考话音信号和衰减话音信号。参考话音信号和衰减话音信号中的每一个可包括多个数据帧。话音信号处理电路可包括:
参考时频块,该参考时频块被配置成基于参考话音信号确定时频域参考话音信号;以及
衰减时频块,该衰减时频块被配置成基于衰减话音信号确定时频域衰减话音信号。
参考话音信号和衰减话音信号可处于时域中。
在一个或多个实施例中,参考时频块包括参考感知处理块,衰减时频块包括衰减感知处理块。参考感知处理块和衰减感知处理块可以被配置成模拟人类听觉的一个或多个方面。
在一个或多个实施例中,干扰计算器包括时频域特征提取块,该时频域特征提取块被配置成:
处理时频域参考话音信号和时频域衰减话音信号;以及
确定一个或多个额外的时频域特征;并且
其中,分数评估块被配置成基于时频域特征确定输出分数。
在一个或多个实施例中,时频域特征提取块包括归一化协方差度量块,该归一化协方差度量块被配置成:
处理时频域参考话音信号和时频域衰减话音信号,以便计算归一化协方差度量特征,其中归一化协方差度量是基于时频域参考话音信号和时频域衰减话音信号之间的协方差;并且
其中,分数评估块被配置成基于归一化协方差度量确定输出分数。
在一个或多个实施例中,时频域特征提取块包括绝对失真块,该绝对失真块被配置成:
处理时频域参考话音信号和时频域衰减话音信号,以便计算绝对失真,其中绝对失真表示时频域参考话音信号和时频域衰减话音信号之间的绝对差;以及
基于绝对失真确定以下绝对失真特征中的一个或多个:
包括话音的帧的绝对失真的平均值;
包括话音的帧的绝对失真的方差值;
包括话音且绝对失真为正的帧的绝对失真的平均值;
包括话音且绝对失真为正的帧的绝对失真的方差值;
包括话音且绝对失真为负的帧的绝对失真的平均值;
包括话音且绝对失真为负的帧的绝对失真的方差值;
包括话音且绝对失真为正的帧以及上频带频率分量的绝对失真的平均值;
包括话音且绝对失真为正的帧以及上频带频率分量的绝对失真的方差值;
包括话音且绝对失真为负的帧以及上频带频率分量的绝对失真的平均值;
包括话音且绝对失真为负的帧以及上频带频率分量的绝对失真的方差值;并且
其中,分数评估块被配置成基于绝对失真特征确定输出分数。
在一个或多个实施例中,时频域特征提取块包括相对失真块,该相对失真块被配置成:
处理时频域参考话音信号和时频域衰减话音信号,以便将相对失真计算为信号失真比;以及
基于相对失真确定以下相对失真特征中的一个或多个:
包括话音的帧的相对失真的平均值;
包括话音的帧的相对失真的方差值;
其中,分数评估块被配置成基于相对失真特征中的一个或多个确定输出分数。
在一个或多个实施例中,时频域特征提取块包括二维相关块,该二维相关块被配置成处理时频域参考话音信号和时频域衰减话音信号,以便计算二维相关值;并且
其中,分数评估块被配置成基于二维相关值确定输出分数。
在一个或多个实施例中,话音信号处理电路被配置成接收参考话音信号和衰减话音信号,其中时频域参考话音信号是参考话音信号的时频域表示,时频域衰减话音信号是衰减话音信号的时频域表示。干扰计算器可包括基于样本的时域特征提取块,该基于样本的时域特征提取块被配置成:
接收参考话音信号和衰减话音信号的时域表示;以及
基于参考话音信号和衰减话音信号的时域表示确定一个或多个基于样本的特征;并且
其中,分数评估块被配置成基于所述基于样本的特征确定输出分数。
在一个或多个实施例中,基于样本的时域特征提取块包括GSDSR块,该GSDSR块被配置成对参考话音信号和衰减话音信号的时域表示执行基于样本的处理,以便确定全局信号与衰减话音比,其中全局信号与衰减话音比指示对源于参考话音信号和衰减话音信号的全部样本的能量的比较;并且
其中,分数评估块被配置成基于全局信号与衰减话音比确定输出分数。
在一个或多个实施例中,话音信号处理电路被配置成接收参考话音信号和衰减话音信号,其中时频域参考话音信号是参考话音信号的时频域表示,时频域衰减话音信号是衰减话音信号的时频域表示。干扰计算器可包括基于帧的时域特征提取块,该基于帧的时域特征提取块被配置成:
接收参考话音信号和衰减话音信号的帧式时域表示;以及
基于参考话音信号和衰减话音信号的帧式时域表示确定一个或多个基于帧的特征;并且
其中,分数评估块被配置成基于所述基于帧的特征确定输出分数。
在一个或多个实施例中,干扰计算器包括SSDR块,该SSDR块被配置成:
处理参考话音信号和衰减话音信号的帧式时域表示,以便确定话音与话音失真比;以及
基于话音与话音失真比,确定以下SSDR特征中的一个或多个:
包括话音的帧的话音与话音失真比的平均值,
不包括话音的帧的话音与话音失真比的平均值,
包括话音的帧的话音与话音失真比的方差值,
不包括话音的帧的话音与话音失真比的方差值;并且
其中,分数评估块被配置成基于SSDR特征中的一个或多个确定输出分数。
在一个或多个实施例中,干扰计算器包括LSD块,该LSD块被配置成:
处理参考话音信号和衰减话音信号的时频域表示,以便确定对数频谱失真;以及
基于对数频谱失真确定以下LSD特征中的一个或多个:
包括话音的帧的对数频谱失真的平均值;
包括话音的帧的对数频谱失真的方差值;并且
其中,分数评估块被配置成基于LSD特征中的一个或多个确定输出分数。
在一个或多个实施例中,话音信号处理电路另外包括输入层,该输入层被配置成接收输入参考话音信号和输入衰减话音信号。输入层可包括:
电平调整块,该电平调整块被配置成通过在小于频率阈值的频率下基于输入参考话音信号和输入衰减话音信号的电平执行输入参考话音信号和输入衰减话音信号的电平调整而提供参考话音信号和衰减话音信号。
在一个或多个实施例中,话音信号处理电路另外被配置成接收语音指示信号,其中语音指示信号指示参考话音信号和衰减话音信号的帧是否含有话音。干扰计算器可以被配置成基于语音指示信号确定以下特征中的一个或多个:
仅仅语音指示信号指示存在话音的参考话音信号和衰减话音信号的帧或
仅仅语音指示信号指示不存在话音的参考话音信号和衰减话音信号的帧。
可提供一种处理衰减话音信号的方法,该方法包括:
接收包括多个数据帧的时频域参考话音信号,其中时频域参考话音信号处于时频域中,并且包括:
上频带参考分量,该上频带参考分量具有大于频率阈值的频率;以及
下频带参考分量,该下频带参考分量具有小于频率阈值的频率;
接收包括多个数据帧的时频域衰减话音信号,其中时频域衰减话音信号处于时频域中,并且包括:
上频带衰减分量,该上频带衰减分量具有大于频率阈值的频率;以及
下频带衰减分量,该下频带衰减分量具有小于频率阈值的频率;
基于时频域参考话音信号和时频域衰减话音信号通过对多个帧的以下操作确定一个或多个SBR特征:
基于(i)上频带参考分量与(ii)下频带参考分量的比确定参考比;
基于(i)上频带衰减分量与(ii)下频带衰减分量的比确定衰减比;以及
基于参考比与衰减比的比确定频谱平衡比;以及
基于多个帧的频谱平衡比确定一个或多个SBR特征;以及
基于SBR特征确定衰减话音信号的输出分数。
可提供包括本文所公开的任何电路或系统或被配置成执行本文所公开的任何方法的集成电路或装置。
还可提供计算机程序,所述计算机程序当在计算机上运行时使得计算机配置任何设备(包括本文所公开的电路、系统或装置)或执行本文所公开的任何方法。
虽然本发明容许各种修改和替代形式,但其细节已经借助于例子在图式中示出且将详细地描述。然而,应理解,超出所描述的特定实施例的其它实施例也是可能的。也涵盖落入所附权利要求书的精神和范畴内的所有修改、等效物和替代实施例。
以上论述并不意图表示当前或将来权利要求集的范畴内的每一示例实施例或每一实施方案。图式和以下详细描述还例示各种示例实施例。考虑以下结合附图的详细描述可以更全面地理解各种示例实施例。
附图说明
现将仅借助于例子参考附图描述一个或多个实施例,在附图中:
图1示出了可用于使用侵入性仪器测度来确定受测试信号的质量的系统的通用框图;
图2示出了可用于确定经ABE处理的衰减信号的质量的系统的框图;
图3示出了包括图2的系统中的一些块而不是全部块的话音信号处理电路;
图4示出了可用于从衰减信号提取特征的系统的框图,所述衰减信号包括经ABE处理的衰减信号;以及
图5示出了可如何提取/确定特定特征的更详细的图示。
具体实施方式
图1示出了可用于以侵入性方式确定受测试信号的质量的系统的通用框图。
图1示出了接收输入参考话音信号104和输入衰减话音信号106的输入层102。输入层102可由若干预处理块构成,(例如)从而执行输入参考话音信号104和输入衰减话音信号106之间的时间对准、语音活动检测、电平调整等。将在下文中提供另外细节。输入层102向干扰计算器112提供经处理形式的参考信号和衰减信号。
干扰计算器112可计算一个或多个质量指示符,其还可被称作特征或干扰(因为它们是参考信号104和衰减信号106之间的差异的指示符)。在干扰计算器112计算质量指示符之前,它可计算这两个输入信号的新表示。例子可为通过干扰计算器112接收的信号的时频域表示。此类时频域表示可由感知模型提供,并用于模拟经选择的人类听觉的各方面(例如,以应用时间或频率掩模、听觉阈值、听觉过滤)。干扰计算器112的输出端连接到认知(统计)模型114,该认知(统计)模型114提供MOS-LQO(平均意见分-客观旁听质量)输出信号/输出分数116。
认知(统计)模型114还可被称作质量分数预测器,其可实施为(多变量)线性或二次回归(如在PESQ、POLQA、3QUEST)中、人工神经网络(如在EQUEST、3QUEST中),或任何其它经训练的统计模型。
对图1的此通用模型的某些修改是可能的,以便更加强调不同的质量因子。例如,对于人工带宽扩展(ABE)解决方案,摩擦音的重新建构可能更为重要。一般来说,摩擦音的大部分频谱含量高于4kHz,并且因此在窄带(NB)话音中不能很好地表示。将在下文更详细地论述ABE。
摩擦音,特别是/s/和/z/音的正确的重新建构可对感知话音质量产生较大的影响。一般来说,话音质量的感知取决于在话音信号中出现的某一音度。为了利用此质量因子,基于参考的话音质量测量系统不仅可以使用衰减和参考话音信号作为输入,而且还可以使用话音信号的音标转录,以应用对图1中示出的方案的任何部分的修改。取决于转录,感知模型或干扰计算器112对干扰的计算内的某一权重可被调整成减少经选择音(例如,先前提及的摩擦音/s/或/z/)的影响。
一个不同的例子是“旁听质量的诊断仪器评定”(DIAL),其已作为POLQA计划的部分发展。DIAL遵循若干专用测度的组合比一个单一的复杂测度更有效的假设,并且因此组合核心测度(其实施图1的通用模型)与四个指定的质量维度(直度/频率含量、连续性、噪度和响度)。
不存在被专门设计成用于经ABE处理的话音信号的标准化客观测度。WB-PESQ和POLQA可被视为通用测度,它们测试用于经ABE处理的信号的“平均意见分-主观旁听质量”(MOS-LQS)的预测的精确度。然而,结果显示它们都没有显现出足够高的与旁听测试分数的相关性,因此无法被视为可靠的ABE解决方案的质量估计器。
并且,使用需要额外输入时间对准的音标转录的方法可能较为冗长,并且可能承受语言依赖解决方案的风险。而话音质量的仪器测度应该旨在在世界的几乎全部语言中预测可靠的MOS分数。
在下文中公开的另一个例子可能与已经利用ABE(人工带宽扩展)算法处理的话音信号特别相关。通过估计和产生超出那些限度的含量,ABE算法可扩展具有有限频带的输入信号的频率范围。例如,在宽带(WB)ABE算法的情况下,输入窄带(NB)信号具有0Hz<=f<=4kHz的频率范围,这提供了下频带含量。通过产生上频带含量,ABE算法可将那一范围扩展到高达8kHz(高于阈值频率,该阈值频率在此情况下等于4kHz)。在此例子中,下频带具有在0和4kHz之间的频率含量,上频带具有在4kHz和8kHz之间的频率含量。
图2示出了可用于确定经ABE处理的衰减信号的质量的系统的框图。
也被称作受测试信号或输入衰减话音信号206的经ABE处理的话音信号表示为
Figure BDA0001210380830000101
其中
Figure BDA0001210380830000102
是样本索引,NS是信号中的样本总数。此例子是基于用于确定输入衰减话音信号206的质量的侵入性方案,因此输入参考话音信号s′(n)204用于执行
Figure BDA0001210380830000103
206的质量评定。输入参考话音信号204具有下频带频率含量和上频带频率含量两者,且不受由传输、译码或其它处理产生的干扰的影响。有效声学带宽的限制可为一个例外。例如,对于WB信号,最大(理论)带宽是0Hz<=f<=8000Hz。然而,实际上,可应用掩模以减小此带宽。
在一个实施方案中,WB话音的有效带宽被限定为50Hz<=f<=7000Hz,但是应了解,该带宽可以是理论范围内的任何其它值。在此实施方案中,
Figure BDA0001210380830000111
206和s′(n)204两者至少在fs=16kHz下取样以满足尼奎斯特准则(Nyquist criterion)。
图2的系统包括输入层202,该输入层202可执行时延补偿、语音活动检测和电平调整。
因为此例子基于侵入性方案,所以为了精确比较两个输入信号,符合要求的时间对准可极为重要。由于话音译码、传输或话音增强算法(例如,ABE),时延可引入到输入衰减话音信号206。因此,应该计算并补偿输入信号204、206两者之间的时延。
如图2所示,时延估计块218可用于估计输入参考话音信号204和输入衰减话音信号206之间的时延,并且一个或两个时延补偿块220、222可用于将时延补偿应用到输入参考话音信号204和/或输入衰减话音信号206。通过计算输入参考话音信号204和输入衰减话音信号206之间的交叉相关性,并接着将输入衰减话音信号206移位到交叉相关函数的最大值处,可实现时间对准,且反之亦然。因此,输入信号204、206两者都可切至较短输入信号的长度。可使用输入衰减话音信号206或输入参考话音信号204的补零,以使得输入信号204、206两者中具有相同数量的样本。应了解,也可使用其它方法进行输入信号204、206的时间对准。可使用更加细化的方法对从整个输入信号204、206中提取的话音的较短片段执行时间对准。
在图2的实施方案中,语音活动检测器(VAD)224对参考输入s′(n)执行语音活动检测,其产生语音指示信号VAD(t)。在此例子中,语音指示信号VAD(t)包括逐帧VAD值,其中t为帧索引。语音指示信号VAD(t)提供关于信号的有声部分(VAD(t)=1)和静音部分(VAD(t)=0)的信息,这取决于它们由帧索引t限定的时间位置。因此,数据帧可在时域中间隔开。
应了解,VAD 224可处理输入参考话音信号204、输入衰减话音信号206,或这两者(接着将结果组合到指示话音是否存在的单个判定中)。在一些例子中,对于VAD 224可为有利的是,处理输入参考话音信号204(或基于输入参考话音信号204的信号),因为此信号基本上不含失真。
在其中VAD 224计算逐帧VAD值的例子中,可使用能量的简单阈值处理。还可以应用更复杂的解决方案,例如使用自适应阈值。
在此例子中,输入层还包括两个电平调整块226、228,其用于调整由时延补偿块220、222提供的相应的信号的功率电平。电平调整块226、228可相对于作用话音电平归一化它们的输入信号。电平调整块226、228可使用来自VAD 224的语音指示信号VAD(t)确定有效话音电平。
在一些例子中,输入参考话音信号204和输入衰减话音信号206之间的电平差可被视作质量因子,并且因此可充当额外特征。然而,如果不是这样的情况,那么输入信号(参考204和衰减206)可向同一全局电平按比例缩放,或输入衰减话音信号206可向输入参考话音信号204的电平按比例缩放。对于ABE算法,上频带中的电平差可特别重要,因此电平调整块226、228可仅在下频带(LB)频率范围(在小于频率阈值的频率下)中基于输入参考话音信号204和输入衰减话音信号206的电平来执行电平调整。也就是说,两个输入信号204、206的上频带分量可不用于调整输入参考话音信号204或衰减信号的电平。
电平调整块226、228可测量信号的输入电平,并借助于在全部有效话音帧中的均方根值应用任何比例因子。这可通过采用ITU-T规范P.56或采用以分批模式或以逐样本或逐帧方式操作的任何类似的电平测量方法来实现。
两个电平调整块226、228分别提供参考话音信号s(n)230和衰减话音信号
Figure BDA0001210380830000121
232,以用于随后的特征提取。
应了解,输入层202可包括其它预处理块,(例如)以对接近共同采样频率的输入信号进行再取样,或(修改后的)中间参考系统((M)IRS)滤波器或其它滤波器。
在衰减话音信号232和参考话音信号s(n)230在时间上已经对准,并且它们的电平已通过输入层202调整之后,描述参考和衰减话音信号之间的差异的特征可通过干扰计算器212进行计算。如在下文中参看图4和5将详细地论述,特征可从输入信号的不同表示推导出:时域表示(特征的逐样本和逐帧计算);以及时频域表示(例如,短时傅里叶变换(STFT),或离散余弦变换(DCT),或从时域到视频域的任何其它信号的变换),其中应用任选的额外处理(例如,滤波器组或频谱称重),或听觉模型(感知模型)表示。由于听觉模型可执行时频分析,所以从此模型推导出的全部特征还可以从不同的时频表示计算出,例如STFT,但在那种情况下,它们将不对感知模型中包括的心理声学效应做出解释。
干扰计算器212可提取/确定衰减话音信号
Figure BDA0001210380830000131
232的特征,以用于确定例如MOS-LQO 216的输出分数。具体来说,在一些例子中,可基于衰减话音信号
Figure BDA0001210380830000132
232和参考话音信号s(n)230两者中的多个帧的频谱平衡比确定一个或多个SBR特征。使用此类SBR特征可对检测ABE信号中的误差特别有利。干扰计算器212可输出特征向量x′,该特征向量x′包括在本文件中所描述的输入衰减话音信号206的特征中的一个或多个,包括所确定的任何SBR特征。
图2的系统还包括认知模型214,其也被称作分数评估块,在此例子中,该认知模型214包括特征归一化块234、MOS预测器块236和分数去归一化块238。这些块中的每一个可使用经预训练参数,该参数可从存储器240存取。
取决于认知模型214的训练策略,归一化块234执行特征向量x′的归一化可为有益的。如果是这样,那么在训练期间,计算用于特征向量x′的每一维度的比例因子和偏移量,并且该比例因子和偏移量在此处用于归一化经提取特征向量x′,这产生了归一化的特征向量x。在没有进行归一化的情况下,x=x′成立。当将线性回归用作认知模型214时,可隐含地实现比例因子和偏移量到特征维度的应用。
经提取特征表示观察到的输入衰减话音信号206中的失真,因此其是到所预测的MOS-LQO值216的链路。在此例子中,MOS预测器236已事先训练过,并且因此使用存储在存储器240中的经预训练参数。为了改进带宽扩展(BE)信号的性能,模型的训练集合可主要由利用ABE算法进行处理的话音样本构成。
如果MOS预测器236对归一化MOS-LQS值进行了训练,那么它首先估计MOS-LQO值,该MOS-LQO值也处于归一化范围中。因此,归一化值可通过分数去归一化块238进行去归一化,以使得它们使用预先计算的比例因子和偏移量而向典型MOS范围移位,从而可将MOS-LQO 216作为输出提供。
图3示出了包括图2的系统中的一些块而不是全部块的话音信号处理电路300。图3将用于论述确定SBR特征以确定输出分数316的干扰计算器的特定例子。
话音信号处理电路300(例如)从输入层(例如,图2中所示出的输入层)接收参考话音信号330和衰减话音信号332。参考话音信号和衰减话音信号中的每一个包括多个数据帧,并且在此例子中,它们处于时域中。
话音信号处理电路300包括参考时频块342和衰减时频块344。参考时频块342基于参考话音信号330,确定时频域参考话音信号。时频域参考话音信号处于时频域中,并且包括:(i)上频带参考分量,其对应于具有大于频率阈值的频率的时频域参考话音信号的分量;以及(ii)下频带参考分量,其对应于具有小于频率阈值的频率的时频域参考话音信号的分量。频率阈值可对应于已通过ABE算法扩展的窄带信号的上限,在此情况下,下频带对应于ABE算法的输入信号,上频带对应于已经通过ABE算法添加的扩展频率分量。对于上文所述的数值例子,频率阈值将为4kHz。
通过类似方式,衰减时频块344基于衰减话音信号332,确定时频域衰减话音信号。时频域衰减话音信号处于时频域中,并且包括:(i)上频带衰减分量,其对应于具有大于频率阈值的频率的时频域衰减话音信号的分量;以及(ii)下频带衰减分量,其对应于具有小于频率阈值的频率的时频域衰减话音信号的分量。
在一些例子中,参考时频块342和衰减时频块344的功能性可由模拟人类听觉的一个或多个方面的感知模型块提供。
干扰计算器312可基于多个帧的时频域参考话音信号和时频域衰减话音信号,确定频谱平衡比(SBR)。频谱平衡比通过以下操作进行计算:
基于(i)上频带参考分量与(ii)下频带参考分量的比,确定参考比;
基于(i)上频带衰减分量与(ii)下频带衰减分量的比,确定衰减比;以及
基于参考比与衰减比的比,确定频谱平衡比。
以此方式,频谱平衡比(SBR)可表示这两个输入信号的两个频带的关系。除了对遗漏上频带的谱形的正确估计之外,在遗漏频带中具有正确能量还可在主观质量感知中发挥重要作用。此外,下频率分量和上频率分量之间的频谱平衡应通过ABE算法适当恢复。因此,由SBR限定的能量比被设计成不仅比较经人工扩展的频率分量(上频带)的能量,而且还比较衰减信号与参考信号的所得频谱平衡。
在数学上,SBR可表示为:
Figure BDA0001210380830000151
其中:
|H(l,b)|2是时频域中的时频域参考话音信号的绝对平方值,
Figure BDA0001210380830000152
是时频域中的时频域衰减话音信号的绝对平方值,
l表示帧索引,并且因此充当时频域信号的时间索引,
b表示频段索引或频带索引,并且因此标引时频域信号的频域部分,
BUB表示指定上频带的频率索引b的集合,
BLB表示指定下频带的频率索引b的集合,以及
μ(X(l,b);B)表示时频信号X的(经加权)均值,其中该均值通过具有在B中的索引b的频率计算得到。
此等式表示在上频带分量和下频带分量中的每一个中的能级比。
SBR的正值指示衰减信号的上频带中的能量过低,SBR的负值指示衰减信号的上频带中的能量过高。在数学上:
Figure BDA0001210380830000161
Figure BDA0001210380830000162
LSBR+表示帧集合,其中找到正(+)不平衡,也就是说,经ABE处理的信号(衰减信号)的上频带在上频带中不具有能量,和/或在下频带中含有过多的能量。因此,衰减信号的频谱轮廓的特征为比来自参考信号的斜率更高的斜率。LSBR-表示相反意义。
随后,干扰计算器312可基于多个帧的频谱平衡比,确定一个或多个SBR特征。SBR特征的例子包括:
a)具有SBR的正值的各个帧的SBR的平均值,
Figure BDA0001210380830000163
b)具有SBR的负值的各个帧的SBR的平均值,
Figure BDA0001210380830000164
c)具有SBR的正值的各个帧的SBR的方差值,
Figure BDA0001210380830000165
d)具有SBR的负值的各个帧的SBR的方差值,
Figure BDA0001210380830000166
e)(i)具有SBR的正值的帧数目与(ii)具有SBR的负值的帧数目的比,
Figure BDA0001210380830000167
上述数学符号将另外参看可由干扰计算器312执行以确定其它特征的其它计算进行描述。
话音信号处理电路300还包括分数评估块314,其用于基于SBR特征,确定衰减话音信号332的输出分数316。分数评估块314可应用认知模型。分数评估块314可(例如)应用线性预测或回归、使用神经网络,或执行可将接收到的SBR特征映射到输出分数316的值的任何其它功能性。
图4示出了可用于从衰减信号提取特征的系统的框图,该衰减信号包括经ABE处理的衰减信号。
系统包括干扰计算器412,其具有三个特征提取块:基于样本的时域特征提取块454、基于帧的时域特征提取块456和时频域特征提取块458。干扰计算器412还包括多路复用器460,其可将由各个块产生的单个特征组合成特征向量x′。
通过干扰计算器412确定的特征中的每一个可使用完整输入信号、可仅使用已检测到语音活动的输入信号的片段/帧,或可仅使用具有话音停顿的片段/帧(基于VAD判定)进行计算。
系统接收参考话音信号430和衰减话音信号432。这些输入信号被提供到基于样本的时域特征提取块454。基于样本的特征提取块454可处理接收到的时域信号,并产生将纳入特征向量x′中的一个或多个基于样本的特征。可通过基于样本的特征提取块454确定的特征的例子将参看图5进行更详细的论述。
图4的系统还包括参考成帧块446和衰减成帧块448。参考成帧块446处理参考话音信号430,并产生仍处于时域中的帧式参考信号。帧式参考信号中的数据被拆分成具有帧索引t的多个帧。类似地,衰减成帧块448处理衰减话音信号432,并产生帧式衰减信号。可针对特定应用来设置成帧的时间分辨率。在一个例子中,帧长度是16ms,并且不使用重叠。
基于帧的时域特征提取块456可处理帧式参考信号和帧式衰减信号,并产生将纳入特征向量x′中的一个或多个基于帧的特征。可通过基于帧的特征提取块456确定的特征的例子将参看图5进行更详细的论述。
图4的系统还包括参考DFT块450和衰减DFT块452。参考DFT块450对帧式参考信号执行数字傅里叶变换,以便为时频域特征提取块458提供时频域参考话音信号。在一些例子中,可对参考DFT块450的输出信号执行任选的额外处理442b,以便向时频域特征提取块458提供合适的时频域信号。例如,额外处理442b可包括频带加权以强调一些频带的重要性、去除低于听觉阈值的分量,以及其它感知处理(或组合)。类似地,衰减DFT块452对衰减参考信号执行数字傅里叶变换,以便为时频域特征提取块458提供时频域衰减话音信号。同样,可对衰减DFT块452的输出信号执行任选的额外处理444b。
参考DFT块450和任选的额外处理块442b可被视为参考时频块的例子,因为它/它们为干扰计算器412提供时频域参考话音信号。类似地,衰减DFT块452和任选的额外处理块444b可被视为衰减时频块的例子,因为它/它们为干扰计算器412提供时频域衰减话音信号。
在图4中,系统还包括参考感知处理块442a和衰减感知处理块444a。如上文所论述,这些块可用于模拟人类听觉的各方面,并且可提供时频域中的信号。因此,这些块也可被视为参考时频块/衰减时频块的例子。
时频域特征提取块458可处理时频域参考话音信号和时频域衰减话音信号,并产生将纳入特征向量x′中的一个或多个时频域特征。时频域特征的例子包括SBR特征。将参看图5对可通过时频域特征提取块458确定的其它特征进行更详细的论述。
图5示出了可如何通过干扰计算器提取/确定特定特征的更详细的图示。在图4中也示出的图5的组件已经以500系列形式给出对应的附图标号,并且此处将不必再次进行描述。
在此例子中,干扰计算器512还从VAD(例如,图2中所示出的VAD)中接收语音指示信号VAD(t)525。干扰计算器512内的处理块中的一个或多个可使用语音指示信号VAD(t)525来区别包括话音的帧(有效语音帧)和不包括话音的那些帧。
在以下描述中,参数
Figure BDA0001210380830000181
用于表示可计算其平均值和方差值的帧集合,
Figure BDA0001210380830000182
表示在集合
Figure BDA0001210380830000183
中含有的元素数目。
为了表达整个信号的测得的失真,需要可为特征向量x′的部分的单个特征。因此,针对给出的逐帧失真测度D(t),均值μ和方差σ2可计算如下:
Figure BDA0001210380830000191
Figure BDA0001210380830000192
通常,但不是排他性地,使用以下集合:
Figure BDA0001210380830000193
Figure BDA0001210380830000194
来限定存在话音的帧和话音停顿。
在上述等式中,参数t用于表示帧索引。然而,由于不同的特征提取块可使用不同的成帧参数,所以l在文中也可用于表示帧索引。在此类情况下,以类似方式限定
Figure BDA0001210380830000195
干扰计算器512的各个处理块处理通过感知处理块542、544输出的时频域信号,该感知处理块542、544可限定听觉模型。已知若干心理声学模型并用于话音信号处理。在一个实施方案中,感知处理块542、544使用由罗兰索泰克(Roland Sottek)研发的听觉模型(“用于在人耳中进行信号处理的模型(Modelle zur Signalverarbeitung im menschlichen
Figure BDA0001210380830000198
)”,论文,亚琛工业大学,德国,1993年)。利用听觉模型处理输入信号分别产生用于参考和衰减输入的H(l,b)和
Figure BDA0001210380830000196
其中b是滤波器组频带索引。
Figure BDA0001210380830000197
还可被称为时频域衰减话音信号。H(l,b)还可被称为时频域参考话音信号。
对滤波器组频带(如在这个实施例中所使用的)和它们相应的下截止频率fl、中心频率fc与上截止频率fu,以及所得频率带宽fΔ的限定在下方表格中示出,该表格示出了巴克滤波器组限定。
Figure BDA0001210380830000201
另外,频带被拆分成下范围和上范围。此分离可取决于所应用的听觉模型而产生变化。在这个实施例中,分离是在4kHz处,因此下频带(LB)和上频带(UB)被限定为:
Figure BDA0001210380830000202
Figure BDA0001210380830000203
其中频带数目是:
Figure BDA0001210380830000204
Figure BDA0001210380830000205
用于听觉模型的成帧参数可不同于由成帧块546、548使用的成帧参数(例如,当计算SSDR和LSD时,如下文所论述),并且因此针对基于在感知上经处理的信号的特征,使用帧索引l。语音指示信号VAD(t)525可因此经由内插转换成VAD(1),例如,通过图5中展示的时间转换块572。在此实施例中,用于感知处理的帧长度被设置成3.3ms。
为了从给定失真的时频表示D(l,b)中获得单个特征,其中l是帧索引,b是频带标识符,均值和方差可计算如下:
Figure BDA0001210380830000211
Figure BDA0001210380830000212
其中
Figure BDA0001210380830000213
补偿信号长度
Figure BDA0001210380830000214
和频率频带集合
Figure BDA0001210380830000215
为了执行频率集成,给定失真的时频表示D(l,b)还可仅仅通过频率频带集合
Figure BDA0001210380830000216
进行集成,以产生D(l)。
Figure BDA0001210380830000217
再次,所有上述等式可使用用于帧索引的不同参数(例如,是t而不是l,是
Figure BDA00012103808300002110
而不是
Figure BDA0001210380830000218
)或用于频段索引的不同参数(是k而不是b,是K而不是
Figure BDA0001210380830000219
)以类似方式书写。
干扰计算器512包括八个特征提取块554、556a、556b、562、564、566、568、570,其中的每一个特征提取块可产生将纳入特征向量x′中的特征或特征集合。现将转而描述由这些特征提取块中的每一个执行的处理。
全局信号与衰减话音比(GSDSR)
GSDSR块554可对参考话音信号430和衰减话音信号432执行基于样本的处理,以便确定全局信号与衰减话音比(GSDSR)。GSDSR是基于样本的特征的例子,并且指示来自话音信号的全部样本的能量的比较:
Figure BDA0001210380830000221
话音与话音失真比(SSDR)
SSDR块556a可对帧式参考话音信号430和衰减话音信号432执行基于帧的处理,以便确定话音与话音失真比(SSDR)。SSDR可用于确定基于帧的特征。
根据输入信号s(n)430和
Figure BDA0001210380830000222
432,将SSDR计算为:
Figure BDA0001210380830000223
其中
Figure BDA0001210380830000224
是属于帧t的样本集合。之后,使用以下等式将SSDR′(t)限制在[0dB;30dB]的范围内
SSDR(t)=min{SSDR′(t),30dB}
下列SSDR特征是基于帧的特征的例子,它们可随后提取为:
a)包括话音的各个帧(有效语音帧)的SSDR的平均值,
Figure BDA0001210380830000225
b)不包括话音的各个帧(话音停顿)的SSDR的平均值,
Figure BDA0001210380830000226
c)包括话音的各个帧的SSDR的方差值,
Figure BDA0001210380830000227
d)不包括话音的各个帧的SSDR的方差值,
Figure BDA0001210380830000228
在特别有利的实施例中,对有效语音帧执行计算以检测参考和衰减话音信号之间能量和相位的频率不依赖性不匹配。此外,可对话音停顿计算均值和方差,以检测ABE解决方案是否错误地在上频带中添加了含量,以及错误添加的程度。
对数频谱失真(LSD)
LSD块556b可对帧式参考信号和帧式衰减信号的时频域表示执行处理,以便确定对数频谱失真(LSD)。这些时频域表示由参考DFT块550和衰减DFT块452提供。LSD可用于确定时频域特征。
LSD是衰减话音信号的短期波谱
Figure BDA0001210380830000231
和参考话音信号的短期波谱S(t,k)之间的频谱距离的测度,其中k是频段索引。在一个实施方案中,这些波谱通过应用K=512点离散傅里叶变换(DFT)的DFT块计算,其中帧长度为32ms,且具有50%重叠。
Figure BDA0001210380830000232
此外,计算被限制在频率范围50Hz<=f<=7000Hz内,因此
Figure BDA0001210380830000233
Figure BDA0001210380830000234
下列LSD特征是时频域特征的例子,它们可随后提取为:
a)包括话音的各个帧(有效语音帧)的LSD的平均值,
Figure BDA0001210380830000235
b)包括话音的各个帧的LSD的方差值,
Figure BDA0001210380830000236
在此例子中,一般来说,仅仅对存在话音的帧计算均值和方差,以测量对波谱的估计的精确度。
绝对失真(ΔHabs)
绝对失真(ΔHabs)块562可对如由感知处理块542、544提供的时频域参考话音信号(H(l,b))和时频域衰减信号
Figure BDA0001210380830000237
执行处理,以便计算绝对失真(ΔHabs)。绝对失真(ΔHabs)可用于确定时频域特征。
ΔHabs是在应用听觉模型之后参考和衰减信号的表示之间的差:
Figure BDA0001210380830000238
基于经时频(此处:听觉模型)处理的表示H和
Figure BDA0001210380830000239
ΔHabs表示参考和衰减信号之间的绝对差。
对于单个时频域特征的计算,我们限定:
Figure BDA0001210380830000241
Figure BDA0001210380830000242
如果在全部频率(此处,巴克频带)中的ΔHabs的均值大于0,那么衰减话音信号中的频率分量的能量高于参考话音信号中的频率分量的能量。换句话说:ABE处理将不应该在信号那里的部分(错误地)添加(+)到信号。这种情况下的全部帧表示为L+。帧集合L-表示相反意义:经ABE处理的话音信号在应该已经具有频率分量的位置不具有(-)该频率分量。
并且,可对信号的上频带执行类似处理。在此例子中,上频带和下频带之间的界限是4kHz。以此方式,特征可集中在上频带中的经ABE合成的分量。
Figure BDA0001210380830000243
Figure BDA0001210380830000244
ABE解决方案可旨在尽可能精确地恢复遗漏频率分量。因此,从ΔHabs计算所得的特征可特别集中在所添加和所省略的分量,因为相比于只是总体失真,ABE误差是更加精确的测度。
下列绝对失真特征是时频域特征的例子,它们可随后提取为:
a)包括话音的各个帧(有效语音帧)的ΔHabs的平均值,
Figure BDA0001210380830000245
b)包括话音的各个帧(有效语音帧)的ΔHabs的方差值,
Figure BDA0001210380830000246
c)包括话音且其ΔHabs为正(添加分量)的各个帧(有效语音帧)的ΔHabs的平均值,
Figure BDA0001210380830000247
d)包括话音且其ΔHabs为正(添加分量)的各个帧(有效语音帧)的ΔHabs的方差值
Figure BDA0001210380830000251
e)包括话音且其ΔHabs为负(省略分量)的各个帧(有效语音帧)的ΔHabs的平均值,
Figure BDA0001210380830000252
f)包括话音且其ΔHabs为负(省略分量)的各个帧(有效语音帧)的ΔHabs的方差值,
Figure BDA0001210380830000253
g)包括话音且其ΔHabs为正(添加分量)的各个帧(有效语音帧)和高频带频率分量(通过仅仅考虑b,b表示高于频率阈值(4kHz)的频率分量)的ΔHabs的平均值,
Figure BDA0001210380830000254
h)包括话音且其ΔHabs为正(添加分量)的各个帧(有效语音帧)和高频带频率分量(通过仅仅考虑b,b表示高于频率阈值(4kHz)的频率分量)的ΔHabs的方差值,
Figure BDA0001210380830000255
i)包括话音且其ΔHabs为负(省略分量)的各个帧(有效语音帧)和高频带频率分量(通过仅仅考虑b,b表示高于频率阈值(4kHz)的频率分量)的ΔHabs的平均值,
Figure BDA0001210380830000256
j)包括话音且其ΔHabs为负(省略分量)的各个帧(有效语音帧)和高频带频率分量(通过仅仅考虑b,b表示高于频率阈值(4kHz)的频率分量)的ΔHabs的方差值,
Figure BDA0001210380830000257
相对失真(ΔHrel)
相对失真(ΔHrel)块564可对如由感知处理块542、544提供的时频域参考话音信号(H(l,b))和时频域衰减话音信号
Figure BDA0001210380830000261
执行处理,以便计算相对失真(ΔHrel)。相对失真(ΔHrel)可用于确定时频域特征。
ΔHrel是在应用听觉模型之后计算所得的频谱域SNR
Figure BDA0001210380830000262
在时频域中进行计算(此处:在应用听觉模型之后)的情况下,相对失真可被解释为信号失真比(类似于众所周知的信噪比)。分母表示失真:较小的失真产生较高的ΔHrel,且反之亦然。相对于H计算干扰:H越高,此测度所耐受的失真越多。
下列ΔHrel特征是时频域特征的例子,它们可随后提取为:
a)包括话音的各个帧的ΔHrel的平均值,
Figure BDA0001210380830000263
b)包括话音的各个帧的ΔHrel的方差值,
Figure BDA0001210380830000264
在一些例子中,在计算均值和方差之前,ΔHrel可被限制成最大值,例如45dB。
二维相关性(SNR2D)
二维相关块570可对时频域参考话音信号(H(l,b))和时频域衰减话音信号
Figure BDA0001210380830000265
执行处理,以便计算二维相关值。二维相关性是时频域特征的例子。
使用H(l,b)和
Figure BDA0001210380830000267
计算二维皮尔逊相关性,从而产生单个相关值:
Figure BDA0001210380830000266
其中
Figure BDA0001210380830000271
Figure BDA0001210380830000272
二维相关性可设置时间和频谱进程中的焦点,但是频率分量的精确等同性随着时间推移而变得较不重要。
基于SNR的二维相关性特征还可根据下列等式计算:
Figure BDA0001210380830000273
归一化协方差度量(NCM)
归一化协方差度量(NCM)块568可对时频域参考话音信号(H(l,b))和时频域衰减话音信号
Figure BDA0001210380830000274
执行处理,以便计算归一化协方差度量(NCM)。归一化协方差度量(NCM)是时频域特征的例子。
归一化协方差度量(NCM)是基于参考信号和衰减信号的时频域表示之间的协方差。在此情况下,时频表示通过将听觉模型应用到这两种输入信号而获得。然而,还可使用具有恰当的滤波器组(例如,基于巴克比例(the Bark scale))的STFT表示(或任何其它时频域表示),并应用适当的加权。NCM测度在时间包络上进行计算。这些可根据滤波器组输出,在时频域或时域中进行计算。在此实施方案中,时频域参考话音信号(H(l,b))和时频域衰减话音信号
Figure BDA0001210380830000275
在听觉模型处理期间已经进行过时间包络计算。在不包括时间包络计算或简单的时域到时频域变换的不同的听觉模型用于获得时频域参考话音信号(H(l,b))和时频域衰减话音信号
Figure BDA0001210380830000276
的情况下,时间包络可使用希尔伯特变换(Hilberttransform)
Figure BDA0001210380830000277
进行计算:
Figure BDA0001210380830000278
Figure BDA0001210380830000279
然而,在此实施方案中,
Figure BDA0001210380830000281
Figure BDA0001210380830000282
成立。然后,针对每一频带b,计算衰减信号和参考信号所获得的变换之间的相关性:
Figure BDA0001210380830000283
其中
Figure BDA0001210380830000284
Figure BDA0001210380830000285
这些相关值可随后转换成SNR类NCM特征,并使用以下等式被阈值化到[-15dB;15dB]的取值范围:
Figure BDA0001210380830000286
SNRρ(b)=min(max(SNR′ρ(b),-15dB),15dB)
接着,所得SNRρ(b)移位15dB,以使得它始终是非负的,并且按比例缩放30dB。加权和根据以下等式产生最终NCM:
Figure BDA0001210380830000287
Figure BDA0001210380830000288
在此实施例中,针对全部b将权值w(b)设置为1。然而,它们可(例如)与频率带宽fΔ(b)相关。
一般来说,有限频带话音信号(其是到ABE解决方案的输入)并不含有足够的与遗漏上频带之间的交互信息,例如,4kHz<f<8kHz,因为ABE算法能够完美地恢复它。换句话说,宽带话音信号的下频带(LB)(0kHz<f<4kHz)和上频带之间不存在一对一的对应关系。因此,ABE解决方案可仅输送上频带频率分量的逼近。适合于评估经ABE处理的信号的质量的仪器测度应该评定逼近的优良性。因此,除了对应于衰减信号的总体质量的特征(ΔHabs的均值/方差、均值/方差ΔHrel、ρ2D、SNR2D)之外,所采用的特征集合含有尝试检测通过ABE解决方案引入的典型误差的特征。这些用于本发明的误差和合适的特征的概述在下面的表格中给出。
Figure BDA0001210380830000291
应了解,两个输入信号之间的可使用仪器测量的干扰可以若干特征方式反射,其集中在不同种类的失真。这些特征可从信号的时间表示(基于逐样本或逐帧的计算)和不同的时频表示推导出,该时频表示中的一个是模拟人类听觉的感知模型的输出。
图5的系统还包括多路复用器560,其可将通过干扰计算器512计算的特征中的一个或多个组合成特征向量x′。应了解,在一些例子中,干扰计算器512可仅计算和输出上文所述的各个特征的子集。以此方式,特征向量x′可以是本文件中的上文所呈现的特征的任何子集,并且不必使用全部特征。此外,一些特征可利用单个成帧结构或频率分辨率,并使用不同的时频变换进行计算。
返回到图2,认知模型214中的特征归一化块234可将由图5的干扰计算器提供的特征向量x′归一化。在此实施方案中,计算用于受测试的给出信号的特征向量x′使用在认知模型214所应用的统计模型的训练阶段期间所获得的均值和标准差进行归一化。在训练统计模型之前,针对训练文件集合计算特征,以利用以下等式产生矩阵X′T
维度(X′T)=(训练中文件的数目)x(每一文件的特征)。
随后,将计算所得的特征归一化(“零均值”和“单位方差”),以产生归一化特征矩阵
Figure BDA0001210380830000301
其中在全部训练中文件中计算每一特征的均值μ(X′T)和标准差σ(X′T)。随后,统计模型对XT进行训练。
为了将特征向量x′调适到其上统计模型进行训练的取值范围,所获得的特征进行归一化,如下:
Figure BDA0001210380830000302
认知模型214使用统计模型以将观察到的失真(也就是特征向量x′)链接到所预测的MOS-LQO分数216。可能的统计模型为(例如)线性回归、多变量线性回归、人工神经网络、支持向量机等。如果在训练阶段期间找到相应的参数,那么可仅使用统计模型。因此,模型的输入不仅是归一化特征向量x,还是在之前训练阶段中所获得的存储的参数集合。这个存储的参数集合可从存储器240存取。
如果统计模型对归一化输入和输出数据进行训练,那么大多数统计模型可发挥最佳作用。因此,在此实施方案中,在训练期间进行归一化的不仅有特征维度(如上文所描述),还有所要的目标值MOS-LQS 216。其结果是,统计模型(MOS预测器236)输出“归一化的”经预测MOS-LQO′分数,该分数应通过分数去归一化块238,并使用以下公式去归一化:
MOS-LQO=MOS-LQS′·σ(MOS-LQS′T)
+μ(MOS-LQS′T)
其中μ(MOS-LQS′T)和σ(MOS-LQS′T)是在训练过程中所使用的MOS-LQS值的均值和标准差。
所得MOS-LQO 216值是图2的系统的仪器测度的输出。
在此实施例中,支持向量机(SVM)充当认知模型214,其在归一化特征和分数空间中操作。SVM可为特别可靠和稳固的统计模型,其考虑了在发展期间可供使用的相当少量的训练数据。
本文所公开的话音信号处理电路的应用
高清(HD)语音(宽带语音)使得运营商能够区分他们通过移动网络提供高质量语音电话的服务。语音电话的这种较高质量(更清晰、较高的可懂度)通过传输[4-7kHz]话音频带实现,该话音频带在传统的窄带电话中通常会降低。然而,为了使每一终端用户得益于每次呼叫的HD语音,每个装置和网络必须支持HD语音。如果链路中的一个元件并不支持它,那么呼叫转为窄带。
带宽扩展算法试图从窄带音频源中产生宽带含量,以改进窄带呼叫中的语音质量。当前,为了针对不同的ABE系统测量这种改进的程度,必须执行广泛且耗时的主观听音测试。本文中所描述的由话音信号处理电路提供的功能性的例子提供替代该听音测试的替代方案,其将有利地允许:
-开发人员加速研发和参数化,以进行进一步改进。
-网络运营商指定质量要求,该质量要求易于利用仪器测度进行测试。
-移动装置制造商针对运营商的规范客观地比较、测试和调谐不同的解决方案。
上文所述的实施方案中的一个或多个涉及估计WB ABE解决方案的质量,然而,将应用扩大到其它类型的信号和其它ABE算法是有可能的。例如,在对特征(例如,对下频带和上频带的限定)进行一些修改,以及对统计模型重新训练的情况下,本文所公开的例子可用于估计超宽带ABE算法的质量。
本文所公开的例子中的一个或多个提供用于预测如在绝对分类定级(ACR)听音测试中听者所感知的话音的总体质量的客观方法。所提出的客观(即,仪器)测度可被特别地设计成用于利用人工带宽扩展(ABE)算法处理的话音信号,该ABE算法将窄带(NB)信号的频带扩展到高于4kHz(不高于8kHz)。但是,它也能够预测利用窄带和宽带(WB)话音编解码器译码的信号的感知质量。该测度是一种侵入性方法,其基于受测试话音样本与参考话音样本的比较。从那个比较推导出的特征集合可被馈送到认知模型,该认知模型可提供质量分数,其被称作“平均意见分-客观听音质量”(MOS-LQO)。
有利的是,所提出的测度不需要音标转录。此外,基础统计模型可对若干语言进行训练,以最小化语言依赖性。所提出的测度可呈现MOS-LQO和MOS-LQS之间的高度线性相关和等级相关,以及较低的均方根误差(RMSE)。因此,它可用于在评估和比较ABE解决方案中对质量进行可靠预测。如测试所示出的,它还可高度精确地预测利用自适应多速率NB(AMR-NB)编解码器或AMR-WB编解码器译码的话音信号的MOS-LQS。
除非明确陈述特定次序,否则可以任伺次序执行以上各图中的指令和/或流程图步骤。而且,本领域的技术人员将认识到,尽管已经论述一个示例指令集/方法,但是本说明书中的材料可以多种方式组合从而还产生其它例子,并且应在由此详细描述提供的上下文内来理解。
在一些示例实施例中,上文描述的指令集/方法实施为体现为可执行指令集的功能和软件指令,这些指令在计算机或以该可执行指令编程和控制的机器上实现。此类指令经加载以在处理器(例如一个或多个CPU)上执行。术语处理器包括微处理器、微控制器、处理器模块或子系统(包括一个或多个微处理器或微控制器),或其它控制或计算装置。处理器可指代单个组件或指代多个组件。
在其它例子中,本文示出的指令集/方法以及与其相关联的数据和指令存储在相应的存储装置中,该存储装置实施为一个或多个非暂时性机器或计算机可读或计算机可用存储媒体。此类计算机可读或计算机可用存储媒体被认为是物品(或制品)的一部分。物品或制品可指代任何制造的单个组件或多个组件。如本文所定义的非暂时性机器或计算机可用媒体不包括信号,但此类媒体可能够接收和处理来自信号和/或其它暂时性媒体的信息。
本说明书中论述的材料的示例实施例可以整体或部分地经由网络、计算机或基于数据的装置和/或服务实施。这些可包含云、因特网、内联网、移动装置、台式计算机、处理器、查找表、微控制器、消费者设备、基础架构,或其它致能装置和服务。如本文和权利要求书中可使用,提供以下非排他性定义。
在一个例子中,使本文论述的一个或多个指令或步骤自动化。术语自动化或自动(及其类似变化)意味着使用计算机和/或机械/电气装置控制设备、系统和/或过程的操作,而不需要人类干预、观测、努力和/或决策。
应了解,所说要耦合的任何组件可以直接或间接耦合或连接。在间接耦合的情况下,可以在称为耦合的两个组件之间安置额外的组件。
在本说明书中,已经依据选定的细节集合呈现示例实施例。然而,本领域的普通技术人员将理解,可以实践包括这些细节的不同选定集合的许多其它示例实施例。希望所附权利要求书涵盖所有可能的示例实施例。

Claims (15)

1.一种被配置成接收时频域参考话音信号和时频域衰减话音信号的话音信号处理电路,其特征在于,所述时频域参考话音信号和所述时频域衰减话音信号中的每一个包括多个数据帧,其中:
所述时频域参考话音信号处于时频域中,并且包括:
上频带参考分量,所述上频带参考分量具有大于频率阈值的频率;以及
下频带参考分量,所述下频带参考分量具有小于所述频率阈值的频率;
所述时频域衰减话音信号处于所述时频域中,并且包括:
上频带衰减分量,所述上频带衰减分量具有大于所述频率阈值的频率;以及
下频带衰减分量,所述下频带衰减分量具有小于所述频率阈值的频率;
所述话音信号处理电路包括:
干扰计算器,所述干扰计算器被配置成基于所述时频域参考话音信号和所述时频域衰减话音信号通过以下操作确定一个或多个频谱平衡比SBR特征:
对于多个帧中的每一个:
基于所述上频带参考分量与所述下频带参考分量的比确定参考比;
基于所述上频带衰减分量与所述下频带衰减分量的比确定衰减比;以及
基于所述参考比与所述衰减比的比确定频谱平衡比;以及
基于所述多个帧的所述频谱平衡比确定所述一个或多个频谱平衡比SBR特征;以及
分数评估块,所述分数评估块被配置成基于所述频谱平衡比SBR特征确定所述衰减话音信号的输出分数。
2.根据权利要求1所述的话音信号处理电路,其特征在于,所述时频域衰减话音信号表示扩展带宽信号,所述频率阈值对应于所述扩展带宽信号的下频带和所述扩展带宽信号的上频带之间的界限。
3.根据在前的任一项权利要求所述的话音信号处理电路,其特征在于,所述干扰计算器被配置成确定以下频谱平衡比SBR特征中的一个或多个:
具有正值频谱平衡比的帧的频谱平衡比的平均值;
具有负值频谱平衡比的帧的频谱平衡比的平均值;
具有正值频谱平衡比的帧的频谱平衡比的方差值;
具有负值频谱平衡比的帧的频谱平衡比的方差值;以及
具有正值频谱平衡比的帧的数目与具有负值频谱平衡比的帧的数目的比。
4.根据权利要求1所述的话音信号处理电路,其特征在于,所述话音信号处理电路被配置成接收参考话音信号和衰减话音信号,其中所述参考话音信号和所述衰减话音信号中的每一个包括多个数据帧,其中所述话音信号处理电路包括:
参考时频块,所述参考时频块被配置成基于所述参考话音信号确定所述时频域参考话音信号;以及
衰减时频块,所述衰减时频块被配置成基于所述衰减话音信号确定所述时频域衰减话音信号。
5.根据权利要求4所述的话音信号处理电路,其特征在于,所述参考时频块包括参考感知处理块,所述衰减时频块包括衰减感知处理块,其中所述参考感知处理块和所述衰减感知处理块被配置成模拟人类听觉的一个或多个方面。
6.根据权利要求1所述的话音信号处理电路,其特征在于,所述干扰计算器包括时频域特征提取块,所述时频域特征提取块被配置成:
处理所述时频域参考话音信号和所述时频域衰减话音信号;以及
确定一个或多个额外的时频域特征;并且
其中,所述分数评估块被配置成基于所述时频域特征确定所述输出分数。
7.根据权利要求6所述的话音信号处理电路,其特征在于,所述时频域特征提取块包括归一化协方差度量块,所述归一化协方差度量块被配置成:
处理所述时频域参考话音信号和所述时频域衰减话音信号,以便计算归一化协方差度量特征,其中所述归一化协方差度量是基于所述时频域参考话音信号和所述时频域衰减话音信号之间的协方差;并且
其中所述分数评估块被配置成基于所述归一化协方差度量确定所述输出分数。
8.根据权利要求6或权利要求7所述的话音信号处理电路,其特征在于,所述时频域特征提取块包括绝对失真块,所述绝对失真块被配置成:
处理所述时频域参考话音信号和所述时频域衰减话音信号,以便计算绝对失真,其中所述绝对失真表示所述时频域参考话音信号和所述时频域衰减话音信号之间的绝对差;以及
基于所述绝对失真确定以下绝对失真特征中的一个或多个:
包括话音的帧的绝对失真的平均值;
包括话音的帧的绝对失真的方差值;
包括话音且绝对失真为正的帧的绝对失真的平均值;
包括话音且绝对失真为正的帧的绝对失真的方差值;
包括话音且绝对失真为负的帧的绝对失真的平均值;
包括话音且绝对失真为负的帧的绝对失真的方差值;
包括话音且绝对失真为正的帧以及上频带频率分量的绝对失真的平均值;
包括话音且绝对失真为正的帧以及上频带频率分量的绝对失真的方差值;
包括话音且绝对失真为负的帧以及上频带频率分量的绝对失真的平均值;
包括话音且绝对失真为负的帧以及上频带频率分量的绝对失真的方差值;并且
其中,所述分数评估块被配置成基于所述绝对失真特征确定所述输出分数。
9.根据权利要求6所述的话音信号处理电路,其特征在于,所述时频域特征提取块包括相对失真块,所述相对失真块被配置成:
处理所述时频域参考话音信号和所述时频域衰减话音信号,以便将相对失真计算为信号失真比;以及
基于所述相对失真确定以下相对失真特征中的一个或多个:
包括话音的帧的相对失真的平均值;
包括话音的帧的相对失真的方差值;
其中,所述分数评估块被配置成基于所述相对失真特征中的一个或多个确定所述输出分数。
10.根据权利要求6所述的话音信号处理电路,其特征在于,所述时频域特征提取块包括二维相关块,所述二维相关块被配置成处理所述时频域参考话音信号和所述时频域衰减话音信号,以便计算二维相关值;并且
其中,所述分数评估块被配置成基于所述二维相关值确定所述输出分数。
11.根据权利要求1所述的话音信号处理电路,其特征在于,所述话音信号处理电路被配置成接收参考话音信号和衰减话音信号,其中所述时频域参考话音信号是所述参考话音信号的时频域表示,所述时频域衰减话音信号是所述衰减话音信号的时频域表示,其中所述干扰计算器包括基于样本的时域特征提取块,所述基于样本的时域特征提取块被配置成:
接收所述参考话音信号和所述衰减话音信号的时域表示;以及
基于所述参考话音信号和所述衰减话音信号的所述时域表示确定一个或多个基于样本的特征;并且
其中,所述分数评估块被配置成基于所述基于样本的特征确定所述输出分数。
12.根据权利要求11所述的话音信号处理电路,其特征在于,所述基于样本的时域特征提取块包括全局信号与衰减话音比GSDSR块,所述全局信号与衰减话音比GSDSR块被配置成对所述参考话音信号和所述衰减话音信号的所述时域表示执行基于样本的处理,以便确定全局信号与衰减话音比,其中所述全局信号与衰减话音比指示对源于所述参考话音信号和所述衰减话音信号的全部样本的能量的比较;并且
其中,所述分数评估块被配置成基于所述全局信号与衰减话音比确定所述输出分数。
13.根据权利要求1所述的话音信号处理电路,其特征在于,所述话音信号处理电路被配置成接收参考话音信号和衰减话音信号,其中所述时频域参考话音信号是所述参考话音信号的时频域表示,所述时频域衰减话音信号是所述衰减话音信号的时频域表示,其中所述干扰计算器包括基于帧的时域特征提取块,所述基于帧的时域特征提取块被配置成:
接收所述参考话音信号和所述衰减话音信号的帧式时域表示;以及
基于所述参考话音信号和所述衰减话音信号的所述帧式时域表示确定一个或多个基于帧的特征;并且
其中,所述分数评估块被配置成基于所述基于帧的特征确定所述输出分数。
14.根据权利要求13所述的话音信号处理电路,其特征在于,所述干扰计算器包括话音与话音失真比SSDR块,所述话音与话音失真比SSDR块被配置成:
处理所述参考话音信号和所述衰减话音信号的所述帧式时域表示,以便确定话音与话音失真比;以及
基于所述话音与话音失真比确定以下话音与话音失真比SSDR特征中的一个或多个:
包括话音的帧的话音与话音失真比的平均值,
不包括话音的帧的话音与话音失真比的平均值,
包括话音的帧的话音与话音失真比的方差值,
不包括话音的帧的话音与话音失真比的方差值;并且
其中,所述分数评估块被配置成基于所述话音与话音失真比SSDR特征中的一个或多个确定所述输出分数。
15.根据权利要求1所述的话音信号处理电路,其特征在于,所述话音信号处理电路另外被配置成接收语音指示信号,其中所述语音指示信号指示所述参考话音信号和所述衰减话音信号的帧是否含有话音,并且
其中,所述干扰计算器被配置成基于所述语音指示信号确定以下特征中的一个或多个:
仅仅所述语音指示信号指示存在话音的所述参考话音信号和所述衰减话音信号的帧,或
仅仅所述语音指示信号指示不存在话音的所述参考话音信号和所述衰减话音信号的帧。
CN201710030512.6A 2016-03-21 2017-01-16 话音信号处理电路 Active CN107221342B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16161471.4 2016-03-21
EP16161471.4A EP3223279B1 (en) 2016-03-21 2016-03-21 A speech signal processing circuit

Publications (2)

Publication Number Publication Date
CN107221342A CN107221342A (zh) 2017-09-29
CN107221342B true CN107221342B (zh) 2023-05-30

Family

ID=55587208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710030512.6A Active CN107221342B (zh) 2016-03-21 2017-01-16 话音信号处理电路

Country Status (3)

Country Link
US (1) US10249318B2 (zh)
EP (1) EP3223279B1 (zh)
CN (1) CN107221342B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
US10777217B2 (en) * 2018-02-27 2020-09-15 At&T Intellectual Property I, L.P. Performance sensitive audio signal selection
WO2020049472A1 (en) * 2018-09-04 2020-03-12 Cochlear Limited New sound processing techniques
CN110491403B (zh) * 2018-11-30 2022-03-04 腾讯科技(深圳)有限公司 音频信号的处理方法、装置、介质和音频交互设备
US11456007B2 (en) * 2019-01-11 2022-09-27 Samsung Electronics Co., Ltd End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization
US11322173B2 (en) * 2019-06-21 2022-05-03 Rohde & Schwarz Gmbh & Co. Kg Evaluation of speech quality in audio or video signals

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103548077A (zh) * 2011-05-19 2014-01-29 杜比实验室特许公司 参数化音频编译码方案的取证检测
CN103688307A (zh) * 2011-07-26 2014-03-26 索尼公司 音频信号处理装置、成像装置、音频信号处理方法、程序和记录介质
WO2014157954A1 (ko) * 2013-03-28 2014-10-02 한국과학기술원 뇌의 음성처리에 기반한 음성신호 프레임 가변 분할 방법
CN105103230A (zh) * 2013-04-11 2015-11-25 日本电气株式会社 信号处理装置、信号处理方法、信号处理程序
CN105164918A (zh) * 2013-04-29 2015-12-16 杜比实验室特许公司 具有动态阈值的频带压缩

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4490840A (en) * 1982-03-30 1984-12-25 Jones Joseph M Oral sound analysis method and apparatus for determining voice, speech and perceptual styles
EP0980064A1 (de) * 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
EP1298646B1 (en) * 2001-10-01 2006-01-11 Koninklijke KPN N.V. Improved method for determining the quality of a speech signal
KR100905586B1 (ko) * 2007-05-28 2009-07-02 삼성전자주식회사 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법
WO2011141586A1 (es) * 2010-05-14 2011-11-17 Telefonica, S.A. Método para calcular la percepción de experiencia de usuario de la calidad de los servicios monitorizados integrados en operadores de telecomunicaciones
EP2595145A1 (en) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN103516921A (zh) * 2012-06-28 2014-01-15 杜比实验室特许公司 通过隐藏音频信号的回声控制
US9158760B2 (en) * 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9318125B2 (en) * 2013-01-15 2016-04-19 Intel Deutschland Gmbh Noise reduction devices and noise reduction methods
JP6268717B2 (ja) * 2013-03-04 2018-01-31 富士通株式会社 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
DE102013005844B3 (de) 2013-03-28 2014-08-28 Technische Universität Braunschweig Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
US20150172807A1 (en) * 2013-12-13 2015-06-18 Gn Netcom A/S Apparatus And A Method For Audio Signal Processing
US10181328B2 (en) * 2014-10-21 2019-01-15 Oticon A/S Hearing system
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US9721582B1 (en) * 2016-02-03 2017-08-01 Google Inc. Globally optimized least-squares post-filtering for speech enhancement

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103548077A (zh) * 2011-05-19 2014-01-29 杜比实验室特许公司 参数化音频编译码方案的取证检测
CN103688307A (zh) * 2011-07-26 2014-03-26 索尼公司 音频信号处理装置、成像装置、音频信号处理方法、程序和记录介质
WO2014157954A1 (ko) * 2013-03-28 2014-10-02 한국과학기술원 뇌의 음성처리에 기반한 음성신호 프레임 가변 분할 방법
CN105103230A (zh) * 2013-04-11 2015-11-25 日本电气株式会社 信号处理装置、信号处理方法、信号处理程序
CN105164918A (zh) * 2013-04-29 2015-12-16 杜比实验室特许公司 具有动态阈值的频带压缩

Also Published As

Publication number Publication date
CN107221342A (zh) 2017-09-29
EP3223279B1 (en) 2019-01-09
US10249318B2 (en) 2019-04-02
EP3223279A1 (en) 2017-09-27
US20170270946A1 (en) 2017-09-21

Similar Documents

Publication Publication Date Title
CN107221342B (zh) 话音信号处理电路
JP5542206B2 (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
RU2713852C2 (ru) Оценивание фонового шума в аудиосигналах
US9953663B2 (en) Method of and apparatus for evaluating quality of a degraded speech signal
CA2891453C (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
JP6272433B2 (ja) ピッチ周期の正確性を検出するための方法および装置
US20100138220A1 (en) Computer-readable medium for recording audio signal processing estimating program and audio signal processing estimating device
Falk et al. Non-intrusive GMM-based speech quality measurement
JP2011501206A (ja) オーディオ送信システムの音声理解度測定方法およびシステム
US7818168B1 (en) Method of measuring degree of enhancement to voice signal
Katsir et al. Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation
Ding et al. Objective measures for quality assessment of noise-suppressed speech
Mahdi et al. New single-ended objective measure for non-intrusive speech quality evaluation
Mahdi Perceptual non‐intrusive speech quality assessment using a self‐organizing map
Kaur et al. An effective evaluation study of objective measures using spectral subtractive enhanced signal
Abel et al. Objective Assessment of Artificial Speech Bandwidth Extension Approaches
Ganapathy et al. Robust phoneme recognition using high-resolution temporal envelopes
Ding et al. Evaluation of objective measures applied on the noise suppressed speech signals with Chinese content
Shahnaz et al. On extracting pitch from noisy speech signals based on spectral and temporal enhancement
Zenteno et al. Robust voice activity detection algorithm using spectrum estimation and dynamic thresholding
Ganapathy et al. Analysis of Temporal Resolution in Frequency Domain Linear Prediction
Shahnaz et al. A cepstral-domain algorithm for pitch estimation from noise-corrupted speech
Mahdi Non-intrusive SOM-based speech quality assessment for telephony applications
Qiu et al. An Improved MELP Algorithm for Transition Frames

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant