CN111656445B - 解码器处的噪声衰减 - Google Patents

解码器处的噪声衰减 Download PDF

Info

Publication number
CN111656445B
CN111656445B CN201880084074.4A CN201880084074A CN111656445B CN 111656445 B CN111656445 B CN 111656445B CN 201880084074 A CN201880084074 A CN 201880084074A CN 111656445 B CN111656445 B CN 111656445B
Authority
CN
China
Prior art keywords
segment
context
value
information
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880084074.4A
Other languages
English (en)
Other versions
CN111656445A (zh
Inventor
纪尧姆·福克斯
汤姆·巴克斯特伦
斯内哈·达斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN111656445A publication Critical patent/CN111656445A/zh
Application granted granted Critical
Publication of CN111656445B publication Critical patent/CN111656445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

提供了解码器和用于解码的方法的示例。公开了一种解码器(110),其被配置用于对比特流(111)中定义的频域信号进行解码,频域输入信号受到量化噪声的影响,解码器包括:上下文定义器(114),被配置为针对一个正在处理的段(123)定义上下文(114’),上下文(114’)包括与正在处理的段(123)具有预定位置关系的至少一个附加段(118’,124);以及统计关系和/或信息估计器(115),被配置为提供正在处理的段(13)和至少一个附加段(118’,124)之间的统计关系和/或信息(115’)和/或关于正在处理的段(13)和至少一个附加段(118’,124)的信息,其中,统计关系估计器(115)包括量化噪声关系和/或信息估计器(119),被配置为提供关于量化噪声的统计关系和/或信息(119’)。

Description

解码器处的噪声衰减
1.背景技术
解码器通常用于对(例如,接收或存储在存储设备中的)比特流进行解码。信号可能受到噪声的影响,例如量化噪声。因此,对该噪声进行衰减是重要的目标。
2.发明内容
根据一个方面,这里提供了一种解码器,用于对在比特流中定义的频域信号进行解码,频域输入信号受到量化噪声的影响,解码器包括:
比特流读取器,从比特流提供输入信号的版本作为帧序列,每个帧被细分为多个段,每个段具有采样值;
上下文定义器,被配置为针对一个正在处理的段定义上下文,上下文包括与正在处理的段具有预定位置关系的至少一个附加段;
统计关系和/或信息估计器,被配置为提供正在处理的段与至少一个附加段之间的统计关系和/或信息和/或关于正在处理的段和至少一个附加段的信息,其中,统计关系估计器包括量化噪声关系和/或信息估计器,被配置为提供关于量化噪声的统计关系和/或信息;
值估计器,被配置为基于所估计的统计关系和/或信息和关于量化噪声的统计关系和/或信息来处理和获得正在处理的段的值的估计;以及
变换器,将所估计的信号变换为时域信号。
根据一个方面,这里公开了一种解码器,用于对在比特流中定义的频域信号进行解码,频域输入信号受到噪声的影响,解码器包括:
比特流读取器,从比特流提供输入信号的版本作为帧序列,每个帧被细分为多个段,每个段具有采样值;
上下文定义器,被配置为针对一个正在处理的段定义上下文,上下文包括与正在处理的段具有预定位置关系的至少一个附加段;
统计关系和/或信息估计器,被配置为提供正在处理的段与至少一个附加段之间的统计关系和/或信息和/或关于正在处理的段和至少一个附加段的信息,其中,统计关系估计器包括噪声关系和/或信息估计器,被配置为提供关于噪声的统计关系和/或信息;
值估计器,被配置为基于所估计的统计关系和/或信息和关于噪声的统计关系和/或信息来处理和获得正在处理的段的值的估计;以及
变换器,将所估计的信号变换为时域信号。
根据一个方面,噪声为不是量化噪声的噪声。根据一个方面,噪声为量化噪声。
根据一个方面,上下文定义器被配置为在先前处理的段中选择至少一个附加段。
根据一个方面,上下文定义器被配置为基于段的频带来选择至少一个附加段。
根据一个方面,上下文定义器被配置为在已被处理的那些段中,选择在预定阈值内的至少一个附加段。
根据一个方面,上下文定义器被配置为针对不同频带的段选择不同上下文。
根据一个方面,值估计器被配置为作为维纳滤波器操作,以提供输入信号的最佳估计。
根据一个方面,值估计器被配置为从至少一个附加段的至少一个采样值中获得正在处理的段的值的估计。
根据一个方面,解码器还包括测量器,被配置为提供与上下文的至少一个附加段的先前执行的估计相关联的测量值,
其中,值估计器被配置为基于测量值来获得正在处理的段的值的估计。
根据一个方面,测量值是与上下文的至少一个附加段的能量相关联的值。
根据一个方面,测量值是与上下文的至少一个附加段相关联的增益。
根据一个方面,测量器被配置为获得增益作为向量的标量积,其中,第一向量包含上下文的至少一个附加段的值,且第二向量是第一向量的转置共轭。
根据一个方面,统计关系和/或信息估计器被配置为提供统计关系和/或信息作为正在处理的段与上下文的至少一个附加段之间的预定义的估计和/或预期统计关系。
根据一个方面,统计关系和/或信息估计器被配置为基于正在处理的段与上下文的至少一个附加段之间的位置关系来提供统计关系和/或信息作为关系。
根据一个方面,统计关系和/或信息估计器被配置为与正在处理的段和/或上下文的至少一个附加段无关地提供统计关系和/或信息。
根据一个方面,统计关系和/或信息估计器被配置为以方差、协方差、相关性和/或自相关值的形式提供统计关系和/或信息。
根据一个方面,统计关系和/或信息估计器被配置为以矩阵的形式提供所述统计关系和/或信息,矩阵建立正在处理的段和/或上下文的至少一个附加段(之间的方差、协方差、相关性和/或自相关值的关系。
根据一个方面,统计关系和/或信息估计器被配置为以归一化矩阵的形式提供统计关系和/或信息),归一化矩阵建立正在处理的段和/或上下文的至少一个附加段之间的方差、协方差、相关性和/或自相关值的关系。
根据一个方面,矩阵通过离线训练获得。
根据一个方面,值估计器被配置为通过能量相关的或增益值来缩放矩阵的元素,从而考虑正在处理的段和/或上下文的至少一个附加段的能量和/或增益变化。
根据一个方面,值估计器被配置为基于关系来获得正在处理的段的值的估计。
其中分别是噪声和协方差矩阵,/>是c+1维的噪声观测向量,c是上下文长度。
根据一个方面,值估计器被配置为基于关系来获得正在处理的段(123)的值的估计。
其中,是归一化协方差矩阵,/>是噪声协方差矩阵,/>是c+1维的噪声观测向量且与正在处理的段和上下文的附加段相关联,c是上下文的长度,γ是缩放增益。
根据一个方面,值估计器被配置为在上下文的附加段中的每一个的采样值与上下文的附加段的估计值相对应的情况下,获得正在处理的段的值的估计。
根据一个方面,值估计器被配置为在预期正在处理的段的采样值介于上限值与下限值之间的情况下,获得正在处理的段的值的估计。
根据一个方面,值估计器被配置为基于似然函数的最大值来获得正在处理的段的值的估计。
根据一个方面,值估计器被配置为基于期望值来获得正在处理的段的值的估计。
根据一个方面,值估计器被配置为基于多元高斯随机变量的期望来获得正在处理的段的值的估计。
根据一个方面,值估计器被配置为基于条件多元高斯随机变量的期望来获得正在处理的段的值的估计。
根据一个方面,采样值在对数幅度域中。
根据一个方面,采样值在感知域中。
根据一个方面,统计关系和/或信息估计器被配置为将信号的平均值提供给值估计器。
根据一个方面,统计关系和/或信息估计器被配置为基于正在处理的段与上下文的至少一个附加段之间的与方差有关的和/或与协方差有关的关系来提供纯净信号的平均值。
根据一个方面,统计关系和/或信息估计器被配置为基于正在处理的段的期望值来提供纯净信号的平均值。
根据一个方面,统计关系和/或信息估计器被配置为基于所估计的上下文来更新信号的平均值。
根据一个方面,统计关系和/或信息估计器被配置为向值估计器提供与方差有关的和/或与标准偏差值有关的值。
根据一个方面,统计关系和/或信息估计器被配置为基于正在处理的段与上下文的至少一个附加段(之间的与方差有关的和/或与协方差有关的关系来向值估计器提供与方差有关的和/或与标准偏差值有关的值。
根据一个方面,噪声关系和/或信息估计器被配置为针对每个段提供上限值和下限值,用于基于信号介于上限值和下限值之间的预期来估计信号。
根据一个方面,输入信号的版本具有作为量化级别的量化值,量化级别是从离散数量的量化级别中选择的值。
根据一个方面,量化级别的数量和/或值和/或尺度由编码器发信号通知和/或在比特流(111)中发信号通知。
根据一个方面,值估计器被配置为根据以下来获得正在处理的段的值的估计:
其中,是正在处理的段的估计,l和u分别是当前量化段的下限和上限,P(a1|a2)是a1的条件概率,给定a2,/>是所估计的上下文向量。
根据一个方面,值估计器被配置为基于以下期望来获得正在处理的段的值的估计
其中X是正在处理的段表示为截断高斯随机变量的特定值[X],l<X<u,其中是下限值且u是上限值,且/>μ=E(X),μ和σ是分布的均值和方差。
根据一个方面,预定位置关系通过离线训练获得。
根据一个方面,正在处理的段与至少一个附加段之间的统计关系和/信息和/或关于正在处理的段和至少一个附加段的信息中的至少一个通过离线训练获得。
根据一个方面,量化噪声关系和/或信息中的至少一个通过离线训练获得。
根据一个方面,输入信号是音频信号。
根据一个方面,输入信号是语音信号。
根据一个方面,上下文定义器、统计关系和/或信息估计器、噪声关系和/或信息估计器和值估计器中的至少一个被配置为执行后置滤波操作以获得输入信号的纯净估计。
根据一个方面,上下文定义器被配置为利用多个附加段来定义上下文。
根据一个方面,上下文定义器被配置为将上下文定义为段在频率/时间图中的简单连接的邻域。
根据一个方面,比特流读取器被配置为避免对来自比特流的帧间信息的解码。
根据一个方面,解码器还被配置为确定信号的比特率,并且在比特率比预定比特率阈值高的情况下,绕过(bypass)上下文定义器、统计关系和/或信息估计器、噪声关系和/或信息估计器、值估计器中的至少一个。
根据一个方面,解码器还包括经处理的段存储单元,存储关于先前进行的段的信息,
上下文定义器被配置为使用至少一个先前进行的段作为附加段中的至少一个来定义上下文。
根据一个方面,上下文定义器被配置为使用至少一个未处理的段作为附加段中的至少一个来定义上下文。
根据一个方面,统计关系和/或信息估计器被配置为以矩阵的形式提供统计关系和/或信息,该矩阵建立正在处理的段和/或上下文的至少一个附加段之间的方差、协方差、相关值和/或自相关值的关系,
其中,统计关系和/或信息估计器被配置为基于与输入信号的谐波相关的度量从多个预定矩阵中选择一个矩阵。
根据一个方面,噪声关系和/或信息估计器被配置为以矩阵的形式提供关于噪声的统计关系和/或信息,该矩阵建立与噪声相关联的方差、协方差、相关性和/或自相关值的关系,
其中,统计关系和/或信息估计器被配置为基于与输入信号的谐波相关的度量从多个预定矩阵中选择一个矩阵。
还提供了一种系统,该系统包括根据编码器和根据以上和/或以下方面中的任一方面的解码器,编码器被配置为向比特流提供经编码的输入信号。
在示例中,提供了一种方法,包括:
为输入信号的正在处理的一个段定义上下文,上下文包括与正在处理的段在频率/时间空间中具有预定位置关系的至少一个附加段;
基于正在处理的段与至少一个附加段之间的统计关系和/或信息和/或关于正在处理的段和至少一个附加段的信息以及基于关于量化噪声的统计关系和/或信息来估计正在处理的段的值。
在示例中,提供了一种方法,包括:
为输入信号的正在处理的一个段定义上下文,上下文包括与正在处理的段在频率/时间空间中具有预定位置关系的至少一个附加段;
基于正在处理的段与至少一个附加段之间的统计关系和/或信息和/或关于正在处理的段和至少一个附加段的信息以及基于关于不是量化噪声的噪声的统计关系和/或信息来估计正在处理的段的值。
以上方法之一可以使用以上和/或以下任何方面中的任何方面的设备。
在示例中,提供了一种存储指令的非暂时性存储单元,该指令在由处理器执行时使处理器执行以上和/或以下方面中的任何方面的任何方法。
3.附图说明
图1.1示出根据示例的解码器。
图1.2示出指示上下文的信号在频率/时空图中的版本的示意图。
图1.3示出根据示例的解码器。
图1.4示出根据实施例的方法。
图1.5示出信号在频率/时空图和幅度/频率图中的版本的示意图。
图2.1示出信号在频率/时空图中的版本的示意图,其指示上下文。
图2.2示出通过示例获得的直方图。
图2.3示出根据示例的语音的频谱图。
图2.4示出解码器和编码器的示例。
图2.5示出具有通过示例获得的结果的曲线图。
图2.6示出通过示例获得的测试结果。
图3.1示出指示上下文的信号在频率/时空图中的版本的示意图。
图3.2示出通过示例获得的直方图。
图3.3示出语音模型训练的框图。
图3.4示出通过示例获得的直方图。
图3.5示出通过示例的表示SNR的改善的曲线图。
图3.6示出解码器和编码器的示例。
图3.7示出有关示例的曲线图。
图3.8示出相关性曲线图。
图4.1示出根据示例的系统。
图4.2示出根据示例的方案。
图4.3示出根据示例的方案。
图5.1示出根据示例的方法步骤。
图5.2示出一种通用方法。
图5.3示出根据示例的基于处理器的系统。
图5.4示出根据示例的编码器/解码器系统。
4.1.具体实施方式
4.1.1.示例
图1.1示出解码器110的示例。图1.2示出由解码器110处理的信号版本120的表示。
解码器110可以对在比特流111(数字数据流)中编码的频域输入信号进行解码,其中,比特流111已经由编码器产生。比特流111可能已经例如存储在存储器中,或者已经发送到与解码器110相关联的接收器设备。
在产生比特流时,频域输入信号可能已经受到量化噪声的影响。在其他示例中,频域输入信号可能经受其他类型的噪声的影响。以下描述了允许避免、限制或减少噪声的技术。
解码器110可以包括比特流读取器113(通信接收器、大容量存储器读取器等)。比特流读取器113可以从比特流111提供原始输入信号的版本113’(在时间/频率二维空间中,由图1.2中的120表示)。输入信号的版本113'、120可以看作是帧序列121。例如,每个帧121可以是原始输入信号针对时隙的频域FD表示。例如,每个帧121可以与20ms(可以定义其他长度)的时隙相关联。可以用离散时隙的离散序列的整数“t”来标识每个帧121。例如,第(t+1)帧紧接在第t帧之后。每个帧121可以被细分为多个频谱段(bin)(这里表示为123至126)。对于每个帧121,每个段与特定频率和/或特定频率带相关联。在可以将帧的每个段预分配给特定频率带的意义上,可以预定频带。可以以离散序列对频带进行编号,每个频带由渐进数字“k”标识。例如,第(k+1)个频带在频率中可以比第k个频带高。
可以以这样的方式提供比特流111(以及信号113’、120):使得每个时间/频率段与特定值(例如,采样值)相关联。采样值一般表示为Y(k,t),且在一些情况下可以是复数。在一些示例中,采样值Y(k,t)可以是解码器110所具有的关于频带k处的时隙t处原始(信号)的唯一知识。因此,采样值Y(k,t)一般受到量化噪声的损害,因为在编码器处必须对原始输入信号进行量化已经在产生比特流和/或在对原始模拟信号数字化时引入了近似误差。(其他类型的噪声也可以在其他示例中进行图示。)采样值Y(k,t)(有噪声的语音)可以理解为表示为:
Y(k,t)=X(k,t)+V(k,t),
其中X(k,t)是纯净信号(将优选获得),且V(k,t)是量化噪声信号(或其他类型的噪声信号)。已经注意到,可以利用这里描述的技术来获得纯净信号的适当的最佳估计。
操作可以规定在一个特定时间处理每个段,例如,递归地。在每次迭代中,识别要处理的段(例如,图1.2中的段123或C0,与时刻t=4和频带k=3相关联,该段被称为“正在处理的段”)。关于正在处理的段123,可以将信号120(113’)的其他段可分为两类:
-第一类:未处理的段126(在图1.2中用虚线圆圈表示),例如,将在以后的迭代中处理的段;以及
-第二类:已经处理的段124、125(在图1.2中用正方形表示),例如,在先前迭代中已经处理的段。
对于正在处理的一个段123,可能基于至少一个附加段(其可以是图1.2中的正方形段之一)来获得最佳估计。至少一个附加段可以是多个段。
解码器110可以包括上下文定义器114,其为正在处理的一个段123(C0)定义上下文114’(或上下文块)。上下文114’包括与正在处理的段123具有预定位置关系的至少一个附加段(例如,一组段)。在图1.2的示例中,段123(C0)的上下文114’通过由C1-C10(这里,形成一个上下文的附加段的通用数量用“c”指示:在图1.2中,c=10)指示的十个附加段124(118’)形成。附加段124(C1-C10)可以是正在处理的段123(C0)附近的段和/或可以是已经处理的段(例如,它们的值可能已经在先前的迭代中获得)。附加段124(C1-C10)可以是(例如,已经处理的段中)最接近正在处理的段123的那些段(例如,与C0的距离小于预定阈值的那些段,如三个位置)。附加段124(C1-C10)可以是(例如,已经处理的段中)预期与正在处理的段123(C0)具有最高相关性的段。在频率/时间表示中,所有上下文段124彼此紧邻并且上下文段124紧邻正在处理的段123的意义下,可以在邻域中定义上下文114’以避免“孔”(上下文段124从而形成“简单连接的”邻域)。(已经处理的段,虽然未被选择为正在处理的段123的上下文114’,但以虚线正方形示出并用125指示)。附加段124(C1-C10)可以彼此具有编号关系(例如,C1,C2,…,Cc,c是上下文114’中段的数量,例如10)。上下文114’的附加段124(C1-C10)中的每一个可以相对于正在处理的段123(C0)具有固定位置。附加段124(C1-C10)与正在处理的段123(C0)之间的位置关系可以基于特定频带122(例如,基于频率/频带号k)。在图1.2的示例中,正在处理的段123在第3频带(k=3)且在时刻t(在这种情况下,t=4)。在这种情况下,可以规定:
-上下文114’的第一个附加段C1是在时刻t-1=3,频带k=3处的段;
-上下文114’的第二个附加段C2是在时刻t=4,频带k-1=2处的段;
-上下文114’的第三个附加段C3是在时刻t-1=3,频带k-1=2处的段;
-上下文114’的第四个附加段C4是在时刻t-1=3,频带k+1=4处的段;
-等等。
(在本文档的后续部分中,“上下文段”可用于指示上下文的“附加段”124。)
在示例中,在已经处理通用的第t帧的所有段之后,可以处理随后的第(t+1)帧的所有段。对于每个通用的第t帧,可以迭代处理第t帧中的所有段。虽然,可以提供其他顺序和/或路径。
因此,对于每个第t帧,可以基于正在处理的段123(C0)的特定频带k来定义正在处理的段123(C0)与形成上下文114’(120)的附加段124之间的位置关系。当在先前的迭代中,正在处理的段是当前指示为C6(t=4,k=1)的段时,已经选择不同形状的上下文,因为在k=1下没有定义任何频带。然而,当正在处理的段是t=3,k=3处的段(当前指示为C1)时,上下文具有与图1.2的上下文相同的形状(但向左错开一个时刻)。例如,在图2.1中,将图2.1中的(a)中针对段123(C0)的上下文114’与针对(在C2曾是正在处理的段时先前所使用的)段C2的上下文114”进行比较:上下文114’和114”彼此不同。
因此,上下文定义器114可以是针对正在处理的每个段123(C0)迭代地获取附加段124(118’,C1-C10)以形成上下文114’的单元,上下文114’包含与正在处理的段123(C0)具有预期的高相关性的已经处理的段(具体地,上下文的形状可以基于正在处理的段123的特定频率)。
解码器110可以包括统计关系和/或信息估计器115,以提供正在处理的段123(C0)与上下文段118’、124之间的统计关系和/或信息115’、119’。统计关系和/或信息估计器115可以包括量化噪声关系和/或信息估计器119,以估计与量化噪声119’和/或影响上下文114’的每个段124(C1-C10)和/或正在处理的段123(C0)的噪声之间的统计噪声相关关系有关的关系和/或信息。
在示例中,预期的关系115’可以包括矩阵(例如,协方差矩阵),该矩阵包含段(例如,正在处理的段C0与上下文的附加段C1-C10)之间的协方差关系(或其他预期的统计关系)。矩阵可以是正方形矩阵,对于该正方形矩阵,每行和每列都与段相关联。因此,矩阵的尺寸可以是(c+1)x(c+1)(例如,在图1.2的示例中为11)。在示例中,矩阵的每个元素可以指示与矩阵的行相关联的段和与矩阵的列相关联的段之间的预期协方差(和/或相关性、和/或另一统计关系)。矩阵可以是埃尔米特(Hermitian)矩阵(在实系数的情况下对称)。矩阵可以在对角线上包括与每个段相关联的方差值。例如,代替矩阵,可以使用其他形式的映射。
在示例中,预期的噪声关系和/或信息119’可以由统计关系形成。然而,在这种情况下,统计关系可以指量化噪声。不同的协方差可以用于不同的频率带。
在示例中,量化噪声关系和/或信息119’可以包括矩阵(例如,协方差矩阵),该矩阵包含影响段的量化噪声之间的协方差关系(或其他预期的统计关系)。矩阵可以是正方形矩阵,对于该正方形矩阵,每行和每列都与段相关联。因此,矩阵的尺寸可以是(c+1)x(c+1)(例如,11)。在示例中,矩阵的每个元素可以指示在消弱与行相关联的段和与列相关联的段的量化噪声之间的预期协方差(和/或相关性、和/或另一统计关系)。协方差矩阵可以是埃尔米特(Hermitian)(在实系数的情况下对称)。矩阵可以在对角线上包括与每个段相关联的方差值。例如,代替矩阵,可以使用其他形式的映射。
已经注意到,通过使用段之间的预期统计关系来处理采样值Y(k,t),可以获得对纯净值X(k,t)的更好的估计。
解码器110可以包括值估计器116,以基于预期统计关系和/或信息和/或关于量化噪声119’的统计关系和/或信息119’来处理和获得信号113’的采样值X(k,t)(在正在处理的段123C0处)的估计116’。
因此,可以将对纯净值X(k,t)的良好估计的估计116’提供给FD-TD变换器117,以获得增强的TD输出信号112。
估计116’可以存储到经处理的段存储单元118上(例如,与时刻t和/或频带k相关联)。估计116’的所存储的值可以在随后的迭代中,将已经处理的估计116’提供给上下文定义器114作为附加段118’(参见上文),以便定义上下文段124。
图1.3示出了解码器130的细节,在一些方面,该解码器可以是解码器110。在这种情况下,解码器130在值估计器116处作为维纳滤波器操作。
在示例中,所估计的统计关系和/或信息115'可以包括归一化矩阵Λx。归一化矩阵可以是归一化相关矩阵,并且可以独立于特定采样值Y(k,t)。归一化矩阵Λx例如可以是包含段C0-C10之间的关系的矩阵。归一化的矩阵Λx可以是静态的,并且可以存储在例如存储器中。
在示例中,关于量化噪声119’的所估计的统计关系和/或信息可以包括噪声矩阵ΛN。该矩阵可以是相关矩阵,并且可以表示与噪声信号V(k,t)有关的关系,而与特定采样值Y(k,t)的值无关。噪声矩阵ΛN可以是估计段C0-C10中的噪声信号之间的关系的矩阵,例如,与纯净语音值Y(k,t)无关。
在示例中,测量器131(例如,增益估计器)可以提供对先前执行的估计116’的测量值131’。测量值131’可以是例如先前执行的估计116'的能量值和/或增益γ(能量值和/或增益γ因此可以取决于上下文114’)。一般而言,估计116’和正在处理的段123的值113’可以视作向量其中/>是当前正在处理的段123(C0)的采样值,并且/>是针对上下文段124(C1-C10)的先前获得的值。可以对向量uk,t进行归一化,以获得归一化向量/>还可以通过其转置获得增益γ作为归一化向量的标量积,例如,获得/>(其中,/>是zk,t的转置,因此γ是标量实数)。
缩放器132可用于通过增益γ来缩放归一化矩阵Λx,以获得缩放矩阵132’,其考虑了与正在处理的段123的上下文相关联的能量测量(和/或增益γ)。这是要考虑语音信号的增益波动很大。因此可以获得考虑了能量的新矩阵值得注意的是,虽然矩阵Λx和矩阵ΛN可以预定义(和/或包含预存储在存储器中的元素),但是矩阵/>实际通过处理来计算。在备选示例中,代替计算矩阵/>可以从多个预存储的矩阵/>中选择矩阵/>每个预存储的矩阵/>与特定范围的所测量的增益和/或能量值相关联。
在已经计算或选择矩阵之后,加法器133可以用于逐个元素地将矩阵/>的元素与噪声矩阵ΛN的元素相加,以获得相加值133’(求和矩阵/>)。在备选示例中,代替被计算,可以基于所测量的增益和/或能量值,在多个预存储的求和矩阵中选择求和矩阵
在求逆框134处,求和矩阵可以被求逆以获得/>作为值134’。在备选示例中,代替计算,可以基于所测量的增益和/或能量值,在多个预存储的逆矩阵中选择逆矩阵/>
逆矩阵(值134’)可以与/>相乘以获得值135’作为在备选示例中,代替计算,可以基于所测量的增益和/或能量值,从多个预存储的矩阵中选择矩阵/>
此时,在乘法器136处,值135’可以与向量输入信号y相乘。向量输入信号可以看作是向量其包括与要处理的段123(C0)和上下文段(C1-C10)相关联的噪声输入。
因此,就维纳滤波器而言,乘法器136的输出136’可以是
在图1.4中,示出根据示例(例如,以上示例之一)的方法140。在步骤141,将正在处理的段123(C0)(或处理段)定义为在时刻t、频带k和采样值Y(k,t)处的段。在步骤142(例如,由上下文定义器114处理),基于频带k获取上下文的形状(可以将取决于频带k的形状存储在存储器中)。在考虑了时刻t和频带k之后,上下文的形状还定义了上下文114’。因此,在步骤143(例如,由上下文定义器114处理),定义了上下文段C1-C10(118’,124),并根据预定顺序(可以与形状一起存储在存储器中,且也可以基于频带k)对其进行编号。在步骤144(例如,由估计器115处理),可以获得矩阵(例如,归一化矩阵Λx、噪声矩阵ΛN或上面讨论的另一个矩阵等)。在步骤145(例如,由值估计器116处理),可以例如使用维纳滤波器获得处理的段C0的值。在示例中,可以如上所述使用与能量相关联的能量值(例如,上面的增益γ)。在步骤146,验证是否存在与时刻t相关联的其他频带,其中另一段126尚未被处理。如果还有其他频带(例如,频带k+1)要处理,则在步骤147,更新频带的值(例如,k++),并且选择时刻t、频带k+1处的新处理段C0,以重复从步骤141开始的操作。如果在步骤146处验证没有其他频带要处理(例如,由于在频带k+1处没有其他段要处理),则在步骤148处更新时刻t(例如,或t++),并且选择第一频带(例如,k=1),以重复从步骤141开始的操作。
参考图1.5。图1.5中的(a)与图1.2相对应,并示出在频率/时间空间中的采样值Y(k,t)序列(每个采样值与段相关联)。图1.5中的(b)示出时刻t-1的幅度/频率图中的采样值序列,图1.5中的(c)示出时刻t的幅度/频率图中的采样值序列,时刻t是与当前正在处理的段123(C0)相关联的时刻。对采样值Y(k,t)进行量化,并在图1.5中的(b)和图1.5中的(c)中示出。对于每个段,可以定义多个量化级别QL(t,k)(例如,量化级别可以是离散数量的量化级别之一,并且量化级别的数量和/或值和/或尺度可以例如由编码器以信号通知,和/或可以在比特流111中以信号通知)。采样值Y(k,t)将必然是量化级别之一。采样值可以在对数域中。采样值可以在感知域中。每个段的值中的每个值可被理解为可以选择(例如,写在比特流111中)的量化级别之一(以离散数表示)。为每个k和t定义一个上限u(上限值)和一个下限l(下限值)(为简便起见,在这里避免使用符号u(k,t)和u(k,t))。这些上限值和下限值可以由噪声关系和/或信息估计器119定义。上限值和下限值确实是与用于对值X(k,t)进行量化的量化单元有关的信息,并给出有关量化噪声的动态的信息。
假设正在处理的段123(C0)与上下文段124的经量化的采样值分别等于正在处理的段的估计值和上下文的附加段的估计值,则由于值X的条件似然的期望介于上限值u和下限值l之间,可以建立每个段的值116’的最佳估计。这样,可以估计正在处理的段123(C0)的大小。例如,可以基于由统计关系和/或信息估计器提供的纯净值X的平均值(μ)和标准偏差值(σ)来获得期望值。
可以在下面详细讨论的过程的基础上获得纯净值X的平均值(μ)和标准偏差值(σ),该过程可以是迭代的。
例如(另请参考4.1.3及其子节),可以通过更新针对正在处理的段123(在没有考虑任何上下文的情况下)计算的无条件平均值(μ1)来获得纯净信号X的平均值,以获得考虑了上下文段124(C1-C10)的新平均值(μup)。在每次迭代中,都可以使用针对正在处理的段123(C0)与上下文段的估计值(用向量表示)以及上下文段124的平均值(用向量μ2表示)之间的差异来修改无条件计算的平均值(μ1)。这些值可以与以下值相乘:与正在处理的段123(C0)以及上下文段124(C1-C10)之间的协方差和/或方差相关联的值。
可以从处理中的段123(C0)与上下文段124(C1-C10)之间的方差和协方差关系(例如,协方差矩阵获得标准偏差值(σ)。
可以通过以下伪代码提供用于获得期望(并因此用于估计X值116’)的方法的示例:
/>
4.1.2.用于语音和音频编码的具有复频谱相关性的后置滤波
本节及其子节中的示例主要涉及用于语音和音频编码的具有复频谱相关性的后置滤波技术。
在本示例中,提到以下附图:
图2.1:(a)大小L=10的上下文块(b)上下文段C2的循环上下文块。
图2.2:(a)常规量化输出的直方图(b)量化误差的直方图(c)使用随机化的量化输出(d)使用随机化的量化误差。输入是不相关的高斯分布信号。
图2.3:(i)真实语音的频谱图(ii)量化语音的频谱图,和(iii)随机化后量化的语音的频谱图。
图2.4:所提出的系统的框图,包括出于测试目的的编解码器仿真。
图2.5:曲线图示出(a)pSNR和(b)后置滤波之后的pSNR改善,以及(c)针对不同上下文的pSNR改善。
图2.6:MUSHRA听力测试结果:a)所有条件下针对所有项目的分数b)每个输入pSNR条件在男性和女性之间平均的差异分数。为了清楚起见,省略了Oracle、较低的锚点和隐藏的参考分数。
本节和子节中的示例还可以参考和/或详细解释图1.3和1.4,且更一般地,图1.1、图1.2和图1.5的示例。
当前的语音编解码器在质量、比特率和复杂度之间取得了很好的折衷。然而,将性能保持在目标比特率范围之外仍然是挑战。为了提高性能,许多编解码器使用前置和后置滤波技术来减少量化噪声的感知效果。这里,我们提出了一种后置滤波方法来衰减量化噪声,该方法使用语音信号的复频谱相关性。由于传统的语音编解码器无法发送具有时间依赖性的信息,因为传输错误可以导致严重的错误传播,因此我们离线对相关性进行建模并在解码器中采用它们,从而移除发送任何边信息的需要。客观评价指示,相对于噪声信号,使用基于上下文的后置滤波器可以使信号的感知SNR平均提高4dB,并且相对于常规的维纳滤波器平均提高2dB。在主观听力测试中,最多可提高30个MUSHRA点,从而证实了这些结果。
4.1.2.1绪论
语音编码,作为对语音信号进行压缩以进行有效传输和存储的过程,是语音处理技术中的必要组件。它几乎用于所有与语音信号的传输、存储或呈现有关的设备中。尽管标准语音编解码器围绕目标比特率实现了透明的性能,但是编解码器的性能在目标比特率范围之外的效率和复杂度方面受到影响[5]。
特别是在较低的比特率下,性能下降是因为大部分信号被量化为零,从而产生了一个稀疏信号,该信号在零和非零之间频繁切换。这会给信号带来失真的质量,在感知上被表征为音乐噪声。像EVS、USAC[3,15]这样的现代编解码器通过实现后处理方法[5,14]来降低量化噪声的影响。这些方法中的许多方法都必须在编码器和解码器二处实现,因此需要改变编解码器的核心结构,有时还需要传输其他边信息。而且,这些方法中的大多数方法着重于减轻失真的影响而非减轻失真的原因。
语音处理中广泛采用的降噪技术通常用作预滤波器,以减少语音编码中的背景噪声。然而,尚未充分探索这些方法在衰减量化噪声方面的应用。造成这种情况的原因是:(i)仅通过使用常规滤波技术无法恢复来自经零量化的段的信息,以及且(ii)量化噪声与低比特率的语音高度相关,从而难以区分语音和量化噪声分布以进行降噪;这些将在4.1.2.2节中进一步讨论。
从根本上说,语音是一个缓慢变化的信号,因此它具有较高的时间相关性[9]。最近,提出了使用语音中固有的时间和频率相关性的MVDR和维纳滤波器,它们具有显著的降噪潜力[1,9,13]。然而,语音编解码器避免以这种时间依赖性来发送信息,以避免由于信息丢失而导致的错误传播。因此,直到最近,还没有充分研究语音相关性在语音编码中的应用或量化噪声的衰减。随附的论文[10]提出了将语音幅度频谱中的相关性纳入量化噪声降低的优点。
这项工作的贡献如下:(i)对复语音频谱进行建模以合并语音中固有的上下文信息,(ii)制定问题,使得模型与语音信号的大波动无关,并且样本之间的相关递归使我们能够合并更大的上下文信息,(iii)获得解析解决方案,以使滤波器在最小均方误差意义上达到最佳。我们首先研究将常规降噪技术应用于量化噪声衰减的可能性,然后对复语音频谱进行建模,并在解码器上使用它,以从对损坏信号的观察中估计语音。这种方法移除了发送任何附加边信息的需要。
4.1.2.2建模和方法论
在低比特率下,传统的熵编码方法产生稀疏信号,这通常导致一种被称为音乐噪声的感知伪像。来自此类光谱孔的信息无法通过传统方法(如维纳滤波)进行恢复,因为它们会极大地改变增益。而且,在语音处理中使用的普通降噪技术对语音和噪声特性进行建模,并通过区分它们来执行降噪。然而,在低比特率下,量化噪声与基础语音信号高度相关,因此很难区分它们。图2.2至图2.3示出了这些问题;图2.2中的(a)示出针对白色高斯输入序列的极稀疏的经解码的信号的分布,图2.2中的(b)示出针对白色高斯输入序列的量化噪声的分布。图2.3中的(i)和图2.3中的(ii)分别描绘了以低比特率仿真的真实语音和经解码的语音的频谱图。
为了减轻这些问题,我们可以在对信号进行编码之前应用随机化[2,7,18]。随机化是一种类型的抖动[11],先前已在语音编解码器中使用[19],以改善感知信号质量,最近的工作[6,18]使我们能够在不增加比特率的情况下应用随机化。图2.2中的(c)和图2.2中的(d)以及图2.3中的(c)展示了在编码中应用随机化的效果;这些图示清楚地示出,随机化保留了经解码的语音分布并防止信号稀疏。附加地,它还为量化噪声提供了一个更不相关的特性,从而使语音处理文献[8]可以应用于常见的降噪技术。
由于抖动,我们可以假设量化噪声是加性且不相关的正态分布过程,
Yk,t=Xk,t+Vk,t, (2.1)
其中Y,X和V分别是噪声、纯净语音和噪声信号的复值短时频域值。k表示时间帧t中的频率段。另外,我们假设X和V是零均值高斯随机变量。我们的目标是根据观察值Yk,t估计Xk,t,并使用的先前估计样本。我们称/>为Xk,t的上下文。
纯净语音信号的估计为维纳滤波器[8]所知,定义为:
其中分别是语音和噪声协方差矩阵,/>是有c+1维度的噪声观测向量,c是上下文长度。等式2.2中的协方差表示时间-频率段之间的相关性,我们称其为上下文邻域。协方差矩阵是从语音信号数据库中离线训练的。通过对目标噪声类型(量化噪声)进行建模,类似于语音信号,有关噪声特性的信息也将并入该过程中。由于我们知道编码器的设计,因此我们确切地知道量化特性,因此构造噪声协方差ΛN是一项简单的任务。
上下文邻域:图2.1中的(a)中呈现了大小为10的上下文领域的示例。在图中,框C0表示正在考虑的频率段。框Ci,i∈{1,2,..,10}是在紧邻邻域中考虑的频率段。在该特定示例中,上下文段跨越当前时间帧和两个先前时间帧,以及两个较低和较高的频率段。上下文邻域仅包括已经在其中估计纯净语音的那些频率段。这里的上下文邻域结构类似于编码应用,其中上下文信息用于提高熵编码的效率[12]。除了合并来自紧邻上下文邻域的信息之外,上下文块中的段的上下文邻域也合并在滤波过程中,从而导致使用了更大的上下文信息,类似于IIR滤波。在图2.1中的(b)中对其进行描绘,其中蓝线描绘了上下文段C2的上下文块。下一节将详细说明邻域的数学公式。
归一化协方差和增益建模:语音信号在增益和频谱包络结构上有很大的波动。为了有效地对光谱精细结构进行建模[4],我们使用归一化来移除这种波动的影响。在噪声衰减期间,根据当前段中的维纳增益和先前频率段中的估计值来计算增益。归一化协方差和估计增益一起使用以获得当前频率样本的估计。该步骤很重要,因为尽管波动很大,它仍使我们能够使用实际的语音统计信息来降低噪声。
将上下文向量定义为因此归一化上下文向量为zk,t=uk,t/||uk,t||。语音协方差定义为/>其中ΛX是归一化协、方差,而γ表示增益。增益是在后置滤波期间基于已经处理的值计算为/>其中是从正在处理的段和上下文的已经处理的值形成的上下文向量。通过如下等式从语音数据集计算归一化协方差:
从等式2.3,我们观察到该方法使我们能够合并来自比上下文大小大的多的邻域的相关性和更多的信息,从而节省了计算资源。通过如下等式计算噪声统计:
其中,是在时刻t和频率段k处定义的上下文噪声向量。注意,在等式2.4中,归一化对噪声模型来说不是必要的。最后,用于所估计的纯净语音信号的等式为:
由于该公式,方法的复杂度与上下文大小成线性比例。所提出的方法与[17]中的二维维纳滤波的不同之处在于,它使用是复幅度谱操作,因此与传统方法不同,无需使用噪声相位来重建信号。附加地,与将缩放器增益应用于噪声幅度谱的1D和2维纳滤波器相反,所提出的滤波器合并来自先前估计的信息以计算向量增益。因此,相对于先前的工作,本方法的新颖之处在于将上下文信息合并到滤波器中,从而使系统适于语音信号的变化。
4.1.2.3实验和结果
使用客观和主观测试对所提出的方法进行评价。我们使用感知SNR(pSNR)[3,5]作为客观度量,因为它接近人类感知,并且已在典型的语音编码器中可用。为了进行主观评价,我们进行了MUSHRA听力测试。
4.1.2.3.1系统概述
在图2.4中示出系统结构(在示例中,它可以类似于3GPP EVS[3]中的TCX模式)。首先,我们将STFT(框241)应用于输入声音信号240’,以将其变换为频域中的信号(242’)。这里,我们可以使用STFT代替标准的MDCT,以便将结果轻松转移到语音增强应用中。非正式实验证明,对变换的选择不会在结果中引入意外的问题[8,5]。
为了确保编码噪声具有最小的感知效果,在框242处对频域信号241’进行感知加权,以获得经加权的信号242’。在预处理框243之后,我们基于线性预测系数(LPC),在框244计算感知模型(例如,如在EVS编解码器[3]中所使用的)。在用感知包络对信号加权之后,信号被归一化并被熵编码(未示出)。为了实现直接的可重复性,我们在如下4.1.2.2的讨论中,在框244,通过感知加权高斯噪声对量化噪声进行仿真(不是市售产品的必要部分)。因此可以产生编解码器242”(可以是比特流111)。
因此,图2.4中的编解码器/量化噪声(QN)仿真框244的输出244’是损坏的经解码的信号。所提出的滤波方法已应用于该阶段。增强框246可以从框245(其可以包含包括离线模型的存储器)中获取离线训练的语音和噪声模型245’。增强框246可以包括例如估计器115和119。增强框可以包括例如值估计器116。在降噪处理之后,在框247,通过逆感知包络对信号246’(可能是信号116’的示例)进行加权,然后在框248,变换回时域以获得增强的经解码的语音信号249,其例如可以是语音输出249。
4.1.2.3.2客观评价
实验设置:过程分为训练和测试阶段。在训练阶段,我们根据语音数据估计针对上下文大小L∈{1,2..14}的静态归一化语音协方差。为了进行训练,我们从TIMIT数据库的训练集中选择50个随机样本[20]。将所有信号重新采样到12.8kHz,并在大小为20ms具有50%重叠的帧上应用正弦窗口。然后将开窗的信号变换到频域。由于在感知域中应用增强,因此我们可以在感知域中对语音进行建模。对于感知域中的每个段样本,如第4.1.2.2节所述,将上下文邻域组合为矩阵,并计算协方差。我们类似地使用感知加权高斯噪声获得噪声模型。
为了进行测试,从数据库中随机选择了105个语音样本。产生噪声样本作为语音和经仿真的噪声之和。控制语音和噪声的级别,以便我们测试用于0-20dB范围内的pSNR的方法,每个pSNR级别具有5个样本,以符合编解码器的典型工作范围。对于每个样本,测试了14种上下文大小。作为参考,使用oracle滤波器增强噪声样本,其中常规的维纳滤波器采用真实噪声作为噪声估计,即,已知最佳维纳增益。
评价结果:结果如图2.5所描绘。常规维纳滤波器、oracle滤波器的输出pSNR和使用上下文长度L={1,14}的滤波器的噪声衰减如图2.5中的(a)所示。在图2.5中的(b)中,针对不同的滤波方法,在输入pSNR的范围内绘制了差分输出pSNR(相对于被量化噪声破坏的信号的pSNR而言,输出pSNR的提高)。这些曲线图展示了常规维纳滤波器可以显著改善噪声信号,在较低的pSNR时改善3dB,在较高的pSNR时改善1dB。附加地,上下文滤波器L=14在较高的pSNR时示出6dB的改善,而在较低的pSNR时示出2dB的改善。
图2.5中的(c)展示了不同输入pSNR时上下文大小的影响。可以观察到,在较低的pSNR处,上下文大小对噪声衰减有显著影响;pSNR的提高随着上下文大小的增加而增加。然而,关于上下文大小的改进率随上下文大小的增加而降低,并且对于L>10趋于饱和。在较高的输入pSNR处,改进在相对较小的上下文大小下达到饱和。
4.1.2.3.3主观评价
我们通过主观MUSHRA听力测试[16]对所提出方法的质量进行评价。该测试包含六个项目,每个项目包含8个测试条件。年龄在20至43岁之间的专家和非专家听众都参与了测试。然而,仅选择那些对隐藏参考的得分大于90MUSHRA分的参与者的评分,从而导致15位听众的得分被包括在该评价中。
从TIMIT数据库中随机选择六个句子以生成测试项目。这些项目是通过添加感知噪声来仿真编码噪声而生成的,因此最终信号的pSNR固定为2、5和8dB。对于每个pSNR,生成一个男性和一个女性项目。每个项目包含8个条件:噪声(无增强)、具有已知噪声的理想增强(oracle)、常规维纳滤波器、对于每次MUSHRA标准,除了3.5kHz低通信号作为较低的锚和隐藏参考之外,所提出的方法具有上下文大小一(L=1)、六(L=6)、十四(L=14)时的样本。
结果如图2.6所呈现的。从图2.6中的(a)中,我们观察出即使在L=1的最小上下文中,所提出的方法也始终示出对损坏信号的改进,在大多数情况下,置信区间之间没有重叠。在常规维纳滤波器和所提出的方法之间,条件L=1的平均值平均高约10个点。类似地,L=14比维纳滤波器高约30个MUSHRA点。对于所有项目,L=14的分数与维纳滤波器的分数不重叠,并且接近理想条件,尤其是在较高的pSNR时。这些观察结果在图2.6中的(b)所示的差异曲线图中得到了进一步的支持。每个pSNR的分数均在男性和女性项目中平均。通过将维纳条件的分数作为参考并获得三个上下文大小条件和无增强条件之间的差异来获得差异分数。从这些结果中我们可以得出结论,除了抖动以外,它还可以改善经解码的信号的感知质量[11],还可以使用常规技术在解码器上应用降噪,此外,采用包含复语音频谱中固有相关性的模型可以显著提高pSNR。
4.1.2.4结论
我们提出一种基于时间-频率的滤波方法,用于语音和音频编码中量化噪声的衰减,其中对相关性进行统计建模,并在解码器中使用相关性。因此,该方法不需要传输任何附加的时间信息,从而消除了由于传输损耗而引起的错误传播的机会。通过合并上下文信息,我们观察到pSNR在最佳情况下提高了6dB,在典型应用中提高了2dB;主观上,观察到10到30个MUSHRA点的改善。
在本节中,我们确定针对特定上下文大小的上下文邻域的选择。虽然这为基于上下文大小的预期改进提供了基线,但对选择最佳上下文邻域的影响进行检查很有趣。附加地,由于MVDR滤波器在背景噪声降低方面示出显著的改善,因此对于该应用,应考虑MVDR与所提出的MMSE方法之间的比较。
综上,我们已经示出,所提出的方法提高了主观和客观质量二者,并且可以用来提高任何语音和音频编解码器的质量。
4.1.2.5参考
[1]Y.Huang and J.Benesty,“A multi-frame approach to the frequency-domain single-channel noise reduction problem,”IEEE Transactions on Audio,Speech,and Language Processing,vol.20,no.4,pp.1256–1269,2012.
[2]T.F.Ghido,and J.Fischer,“Blind recovery of perceptualmodels in distributed speech and audio coding,”in Interspeech.1em plus 0.5emminus 0.4em ISCA,2016,pp.2483–2487.
[3]“EVS codec detailed algorithmic description;3GPP technicalspecification,”http://www.3gpp.org/DynaReport/26445.htm.
[4]T.“Estimation of the probability distribution ofspectral fine structure in the speech source,”in Interspeech,2017.
[5]Speech Coding with Code-Excited Linear Prediction.1em plus 0.5emminus 0.4em Springer,2017.
[6]T.J.Fischer,and S.Das,“Dithered quantization forfrequency-domain speech and audio coding,”in Interspeech,2018.
[7]T. and J.Fischer,“Coding of parametric models withrandomized quantization in a distributed speech and audio codec,”inProceedings of the 12.ITG Symposium on Speech Communication.1em plus 0.5emminus 0.4em VDE,2016,pp.1–5.
[8]J.Benesty,M.M.Sondhi,and Y.Huang,Springer handbook of speechprocessing.1 em plus 0.5em minus 0.4em Springer Science&Business Media,2007.
[9]J.Benesty and Y.Huang,“A single-channel noise reduction MVDRfilter,”in ICASSP.1 em plus 0.5em minus 0.4em IEEE,2011,pp.273–276.
[10]S.Das and T.“Postfiltering using log-magnitudespectrum for speech and audio coding,”in Interspeech,2018.
[11]R.W.Floyd and L.Steinberg,“An adaptive algorithm for spatialgray-scale,”in Proc.Soc.Inf.Disp.,vol.17,1976,pp.75–77.
[12]G.Fuchs,V.Subbaraman,and M.Multrus,“Efficient context adaptiveentropy coding for real-time applications,”in ICASSP.1 em plus 0.5em minus0.4em IEEE,2011,pp.493–496.
[13]H.Huang,L.Zhao,J.Chen,and J.Benesty,“A minimum variancedistortionless response filter based on the bifrequency spectrum for single-channel noise reduction,”Digital Signal Processing,vol.33,pp.169–179,2014.
[14]M.Neuendorf,P.Gournay,M.Multrus,J.Lecomte,B.Bessette,R.Geiger,S.Bayer,G.Fuchs,J.Hilpert,N.Rettelbach et al.,“A novel scheme for low bitrateunified speech and audio coding–MPEG RM0,”in Audio Engineering SocietyConvention 126.1 em plus 0.5em minus 0.4em Audio Engineering Society,2009.
[15]——,“Unified speech and audio coding scheme for high quality atlow bitrates,”in ICASSP.1 em plus 0.5em minus 0.4em IEEE,2009,pp.1–4.
[16]M.Schoeffler,F.R.B.Edler,and J.Herre,“Towards the nextgeneration of web-based experiments:a case study assessing basic audioquality following the ITU-R recommendation BS.1534(MUSHRA),”in 1st Web AudioConference.1 em plus 0.5em minus 0.4em Citeseer,2015.
[17]Y.Soon and S.N.Koh,“Speech enhancement using 2-D Fouriertransform,”IEEE Transactions on speech and audio processing,vol.11,no.6,pp.717–724,2003.
[18]T. and J.Fischer,“Fast randomization for distributedlow-bitrate coding of speech and audio,”IEEE/ACM Trans.Audio,Speech,Lang.Process.,2017.
[19]J.-M.Valin,G.Maxwell,T.B.Terriberry,and K.Vos,“High-quality,low-delay music coding in the OPUS codec,”in Audio Engineering Society Convention135.1em plus 0.5em minus 0.4em Audio Engineering Society,2013.
[20]V.Zue,S.Seneff,and J.Glass,“Speech database development at MIT:TIMIT and beyond,”Speech Communication,vol.9,no.4,pp.351–356,1990.
4.1.3后置滤波,例如使用对数幅度频谱进行语音和音频编码
本节和子节中的示例主要涉及使用对数幅度频谱进行语音和音频编码的后置滤波技术。
本节和子节中的示例可以例如更好地指定图1.1和图1.2的特定情况。
在本公开中,提到以下附图:
图3.1:大小为C=10的上下文邻域。基于与当前样本的距离对先前估计的段进行选择和排序。
图3.2:任意频率二进制中(a)线性域中的语音幅度直方图(b)对数域中的语音幅度直方图。
图3.3:语音模型的训练。
图3.4:语音分布的直方图(a)正确(b)估计的:ML(c)估计的:EL。
图3.5:表示针对不同上下文大小使用所提出的方法在SNR中的改善的曲线图。
图3.6:系统概述。
图3.7:样本曲线图描绘了(i)所有时间帧上固定频率带、(ii)所有频率带上固定时间帧中的真实、经量化和经估计的语音信号。
图3.8:在(a)C=1,(b)C=40的情况下,在零量化的段中的真实、经量化和经估计的语音的散点曲线图。这些曲线图展示了经估计的语音与真实语音之间的相关性。
先进的编码算法在其目标比特率范围内产生高质量的信号,并具有良好的编码效率,但其性能会超出目标范围。在较低的比特率下,性能下降是因为经解码的信号是稀疏的,这给信号带来了感知上模糊不清和失真的特性。标准编解码器通过应用噪声填充和后置滤波方法来减少这类失真。这里,我们提出一种基于对数幅度频谱中固有的时间-频率相关性进行建模的后处理方法。目的是改善经解码的信号的感知SNR,并减少由信号稀疏性引起的失真。客观测量示出,输入感知SNR在4至18dB范围内平均提高了1.5dB。在已量化为零的分量中,改进尤为突出。
4.1.3.1绪论
语音和音频编解码器是大多数音频处理应用不可或缺的部分,最近我们看到诸如MPEG USAC[18,16]和3GPP EVS[13]等编码标准的飞速发展。这些标准已朝着统一音频和语音编码、支持超宽带和全频带语音信号的编码以及增加对IP上的语音支持的方向发展。这些编解码器中的核心编码算法ACELP和TCX在其目标比特率范围内的中度到高比特率下产生感知透明的质量。然而,当编解码器在该范围之外操作时,性能会下降。具体地,对于频域中的低比特率编码,性能的下降是因为更少的比特可用于编码,从而具有较低能量的区域被量化为零。经解码的信号中的这类频谱孔为信号提供了感知上失真和消声的特性,这可能会使听众感到烦恼。
为了在目标比特率范围之外获得令人满意的性能,CELP之类的标准编解码器采用了预处理和后处理方法,这些方法主要基于启发式方法。具体地,为了减少由低比特率下的量化噪声引起的失真,编解码器在编码过程中或者严格地中实现方法或严格地作为解码器处的后滤波器实现方法。共振峰增强和低音后置滤波器是常见的方法[9],它们基于关于量化噪声如何和在哪里使信号感知失真的知识来修改经解码的信号。共振峰增强使码本成形为在易于产生噪声的区域中固有地具有较少的能量,并应用于编码器和解码器二者。相反,低音后置滤波器移除了谐波线之间的类似噪声的分量,仅在解码器中实现。
另一种常用的方法是噪声填充,其中将伪随机噪声添加到信号[16],因为对噪声类分量的精确编码对于感知而言不是必需的。另外,该方法有助于减少由稀疏性对信号造成的失真的感知效果。可以通过在编码器中对类噪声信号进行参数化(例如通过其增益)并将增益发送到解码器来提高噪声填充的质量。
后置滤波方法相对于其他方法的优点在于它们仅在解码器中实现,因此不需要对编码器-解码器结构进行任何修改,也不需要传输任何边信息。然而,这些方法大多着重于解决问题的效果,而不是解决原因。
这里,我们提出一种后处理方法,通过对语音幅度谱中固有的时间-频率相关性进行建模,并研究使用该信息来减少量化噪声的潜力,以提高低比特率的信号质量。这种方法的优点是它不需要发送任何边信息,并且仅使用量化信号作为观察和脱机训练的语音模型进行操作。由于它是在解码过程之后应用于解码器的,因此不需要对编解码器的核心结构进行任何改变;该方法通过在使用源模型的编码过程期间估计信息丢失来解决信号失真。这项工作的新颖之处在于:(i)使用对数幅度建模将共振峰信息纳入语音信号中;(ii)将对数域语音频谱幅度中的固有上下文信息表示为多元高斯分布(iii)为估计真实语音找到最佳值,作为截断的高斯分布的预期可能性。
4.1.3.2语音幅度频谱模型
共振峰是语音中语言内容的基本指示符,并通过语音的频谱幅度包络来体现,因此幅度频谱是源建模的重要组成部分[10,21]。先前的研究表明,语音的频率系数最好用Laplacian或Gamma分布表示[1,4,2,3]。因此,语音的幅度谱是指数分布,如图3.2中的(a)所示。该图展示了分布集中在低幅度值上。由于数值精度问题,很难将其用作模型。此外,仅通过使用通用数学运算很难确保估计是正的。我们通过将频谱变换为对数幅度域来解决该问题。由于对数是非线性的,因此它会重新分布幅度轴,以使指数分布幅度的分布类似于对数表示中的正态分布(图3.2中的(b))。这使我们能够使用高斯概率密度函数(pdf)来近似对数幅度频谱的分布。
近年来,语音中的上下文信息引起了越来越多的兴趣[11]。先前已经在声学信号处理中探索了帧间和频率间的相关信息,以降低噪声[11,5,14]。MVDR和维纳滤波技术采用先前的时间帧或频率帧来获得信号在当前时间-频率段中的估计。结果指示输出信号的质量有了显著改善。在这项工作中,我们使用类似的上下文信息对语音进行建模。具体地,我们探索使用对数幅度对上下文进行建模并使用多元高斯分布表示上下文的合理性。基于上下文段到正在考虑的段的距离来选择上下文邻域。图3.1示出了大小为10的上下文邻域,并指示了将先前的估计同化为上下文向量的顺序。
建模(训练)过程330的概述在图3.3中示出。通过加窗并然后在框332处应用短时傅立叶变换(STFT),将输入语音信号331变换为频域的频域信号332’。然后在框333处对频域信号332’进行预处理以获得经预处理的信号333’。经预处理的信号333’用于通过计算如类似于CELP[7、9]的感知包络来导出感知模型。在框334处使用感知模型以对频域信号332’进行感知加权以获得经感知加权的信号334’。最后,在框335处为每个采样频率段提取上下文向量(例如,将构成针对要处理的每个段的上下文的段)335’,然后在框336估计每个频率带的协方差矩阵336’,从而提供所需的语音模型。
换言之,经训练的模型336’包括:
-用于定义上下文的规则(例如,基于频率带k);和/或
-由估计器115使用的语音的模型(其值将用于归一化协方差矩阵ΛX),用于生成正在处理的段和形成上下文的至少一个附加段之间的统计关系和/或信息115’和/或关于正在处理的段和形成上下文的至少一个附加段的信息;和/或
-噪声(例如,量化噪声)的模型,估计器119将使用该模型来生成噪声的统计关系和/或信息(例如,将用于定义矩阵Λn的值)。
我们探索了大小高达40的上下文,其包括大约四个先前时间帧,每个先前时间帧的较低和较高频率段。请注意,我们使用STFT代替标准编解码器中使用的MDCT进行操作,以使这项工作可扩展到增强应用。这项工作到MDCT的扩展正在进行中,并且非正式测试提供与本文档相似的见解。
4.1.3.3问题表述
我们的目标是使用统计先验从噪声的经解码的信号的观察中估计纯净的语音信号。为此,我们将问题公式化为给定观察和先前估计下当前样本的最大似然(ML)。假设样本x已被量化为量化级别Q∈[l,u]。然后,我们可以将我们的优化问题表示为:
其中是当前样本的估计,l和u分别是当前量化段的上限和下限,且P(a1|a2)是a1的条件概率,给定a2。/>是所估计的上下文向量。
图3.1示出了大小为=10的上下文向量的构造,其中数字表示其中合并频率段的顺序。我们从经解码的信号中获得量化级别,并根据我们对编码器中使用的量化方法的知识,可以定义量化极限;特定量化级别的下限和上限分别在上一个级别和下一个级别之间的中间位置定义。
为了示出等式3.1的性能,我们使用通用数值方法解决它。图3.4示出真实语音(a)和经估计的语音(b)在被量化为零的段中的分布结果。我们对段进行缩放,以使变化的l和u分别固定为0,1,以便分析和比较估计在量化段内的相对分布。在(b)中,我们观察到围绕1的高数据密度,这意味着估计值偏向上限。我们将其称为边缘问题。为了减轻这个问题,我们将语音估计定义为期望似然(EL)[17,8],如下所示:
图3.4中的(c)展示了使用EL生成的语音分布,指示经估计的语音分布与真实语音分布之间的相对较好的匹配。最后,为了获得解析解,我们将约束条件合并到建模本身,由此我们将分布建模为截断的高斯pdf[12]。在附录A和B(4.1.3.6.1和4.1.3.6.2)中,我们展示了如何以截断的高斯形式获得解。以下算法呈现了估计方法的概述。
4.1.3.4实验和结果
我们的目标是评价对数幅度谱建模的优势。由于包络模型是在常规编解码器中对幅度谱建模的主要方法,因此我们就整个谱以及仅对包络而言评价统计先验的效果。因此,除了评价从语音的噪声幅度谱估计语音的方法外,我们还通过观察噪声包络对谱包络的估计进行测试。为了获得频谱包络,在将信号变换到频域之后,我们计算倒频谱并保留20个较低的系数,然后将其变换回频域。包络建模的后续步骤与本节4.1.3.2和图3.3中介绍的频谱幅度建模相同。即获得上下文向量和协方差估计。
4.1.3.4.1系统概述
在图3.6中呈现出系统360的总体框图。在编码器360a处,信号361被分为帧(例如,具有50%重叠和正弦窗的20ms)。然后,在框362处,例如,可以使用STFT将语音输入361变换为频域信号362’。在框363处进行预处理并在框364处通过频谱包络对信号进行感知加权之后,在框365处对幅度谱进行量化,并在框366处使用算术编码[19]进行熵编码,以获得经编码的信号366(其可以是比特流111的示例)。
在解码器360b处,在框367(其可以是比特流读取器113的示例)处执行逆过程以对经编码的信号366’进行解码。经解码的信号366'可能被量化噪声破坏,我们的目的是使用所提出的后处理方法来改善输出质量。请注意,我们将该方法应用于感知加权域。提供了对数变换框368。
后过滤框369(其可以实现上面讨论的元件114、115、119、116和/或130)允许基于语音模型如上所述地减少量化噪声的影响,语音模型可以是例如:经训练的模型336’和/或用于定义上下文(例如,基于频率带k)的规则和/或正在处理的段和形成上下文的至少一个附加段之间的统计关系和/或信息115’(例如,归一化协方差矩阵ΛX)和/或关于正在处理的段和形成上下文的至少一个附加段的信息和/或关于噪声(例如,量化噪声)的统计关系和/或信息119’(例如,矩阵ΛN)。
在后处理之后,通过在框369a处应用逆感知权重并在框369b处进行逆频率变换,将所估计的语音变换回时域。我们使用真实相位将信号重构回时域。
4.1.3.4.2实验设置
对于训练,我们使用了TIMIT数据库[22]的训练集中的250个语音样本。训练过程的框图在图3.3中呈现。为了进行测试,从数据库的测试集中随机选择了10个语音样本。编解码器基于TCX模式下的EVS编解码器[6],我们选择编解码器参数,以使感知SNR(pSNR)[6,9]在编解码器的典型范围内。因此,我们对9.6至128kbps之间的12种不同比特率下的编码进行仿真,其给出4至18dB范围内的pSNR值。请注意,EVS的TCX模式不包含后滤波。对于每个测试案例,我们将后置滤波器应用于上下文大小∈{1,4,8,10,14,20,40}的经解码的信号。根据4.1.3.2节中的描述和图3.1所示获得上下文向量。对于使用幅度谱的测试,将经后处理的信号的pSNR与噪声量化信号的pSNR进行比较。对于基于频谱包络的测试,真实包络和经估计的包络之间的信噪比(SNR)用作定量度量。
4.1.3.4.3结果与分析
图3.4中以曲线绘制了10个语音样本的定量测量的平均值。曲线图(a)和(b)代表使用幅度谱的评价结果,曲线(c)和(d)对应于频谱包络测试。对于二者,频谱和包络结合上下文信息示出了SNR的持续改善。改善程度在曲线图(b)和(d)中示出。对于幅度频谱,在低输入pSNR的情况下,所有上下文下的改善范围在1.5和2.2dB之间,而在较高输入pSNR的情况下,改善范围为0.2至1.2dB。对于频谱包络,趋势相似;在较低的输入SNR情况下,上下文的改善在1.25至2.75dB之间,在较高的输入SNR情况下,改善为0.5至2.25dB。在大约10dB的输入SNR时,所有上下文大小的改善达到峰值。
对于幅度谱,上下文大小1和4之间的质量改进非常大,在所有输入pSNR上大约为0.5dB。通过增加上下文大小,我们可以进一步改善pSNR,但是对于从4到40的大小,改善速度相对较低。同样,在较高的输入pSNR时,改善幅度明显较低。我们得出结论,大约10个样本的上下文大小是准确性和复杂性之间的良好折衷。然而,上下文大小的选择也可以取决于要处理的目标设备。例如,如果设备具有可支配的计算资源,则可以采用较高的上下文大小来实现最大的改进。
图3.7:样本曲线图描绘了(i)所有时间帧上固定频率带、(ii)所有频率带上固定时间帧中的真实、经量化和经估计的语音信号。
所提出的方法的性能在图3.7至图3.8中进一步示出,输入pSNR为8.2dB。从图3.7的所有曲线图中可以明显观察出,特别是在被量化为零的段中,所提出的方法能够估计接近真实幅度的幅度。附加地,从图3.7中的(ii),估计似乎遵循频谱包络,由此我们可以得出结论,高斯分布主要包含频谱包络信息,而没有包含太多的音调信息。因此,也可以解决用于音调的附加建模方法。
图3.8中的散点图表示针对C=1和C=40的经零量化的段中的真实、经估计和经量化的语音幅度之间的相关性。这些曲线图进一步展示了上下文对于估计其中不存在信息的段中的语音很有用。因此,该方法在估计噪声填充算法中的频谱幅度方面可能是有益的。在散点图中,经量化、真实和经估计的语音幅度谱分别由红色、黑色和蓝色点表示;我们观察到,尽管两个大小的相关性都是正的,但是相关性对于C=40显著更高且更为明确。
4.1.3.5讨论和结论
在本节中,我们研究了语音固有的上下文信息在减少量化噪声方面的使用。我们提出一种后处理方法,着重于使用统计先验从经量化的信号中估计解码器处的语音样本。结果指示,包括语音相关性不仅提高pSNR,而且还为噪声填充算法提供频谱幅度估计。虽然本文的重点是对频谱幅度进行建模,但是基于当前的见解和随附论文[20]的结果的联合幅度-相位建模方法是自然而然的下一步方法。
本节还将通过结合上下文邻域的信息,开始从高度量化的噪声包络中恢复频谱包络。
4.1.3.6附录
4.1.3.6.1附录A:截断的高斯pdf
让我们定义和/>其中μ,σ是分布的统计参数,erf是误差函数。然后,单变量高斯随机变量X的期望被计算为:
常规上,当X∈[-∞,∞]时,求解等式3.3得出E(X)=μ。然而,对于截断高斯随机变量,l<X<u,关系为:
其得出以下等式来计算截断的单变量高斯随机变量的期望:
4.1.3.6.2附录B:条件高斯参数
令上下文向量定义为x=[x1,x2]T,其中表示正在考虑的当前段,是上下文。然后,/>其中C是上下文大小。统计模型由均值向量和协方差矩阵/>表示,使得μ=[μ12]T的维度与x1和x2相同,且协方差为
ij是∑的分区,维度为和/>因此,基于所估计的上下文,当前段分布的经更新的统计为[15]:
4.1.3.7参考
[1]J.Porter and S.Boll,“Optimal estimators for spectral restorationof noisy speech,”in ICASSP,vol.9,Mar 1984,pp.53–56.
[2]C.Breithaupt and R.Martin,“MMSE estimation of magnitude-squaredDFT coefficients with superGaussian priors,”in ICASSP,vol.1,April 2003,pp.I–896–I–899vol.1.
[3]T.H.Dat,K.Takeda,and F.Itakura,“Generalized gamma modeling ofspeech and its online estimation for speech enhancement,”in ICASSP,vol.4,March 2005,pp.iv/181–iv/184Vol.4.
[4]R.Martin,“Speech enhancement using MMSE short time spectralestimation with gamma distributed speech priors,”in ICASSP,vol.1,May 2002,pp.I–253–I–256.
[5]Y.Huang and J.Benesty,“A multi-frame approach to the frequency-domain single-channel noise reduction problem,”IEEE Transactions on Audio,Speech,and Language Processing,vol.20,no.4,pp.1256–1269,2012.
[6]“EVS codec detailed algorithmic description;3GPP technicalspecification,”http://www.3gpp.org/DynaReport/26445.htm.
[7]T. and C.R.Helmrich,“Arithmetic coding of speech andaudio spectra using TCX based on linear predictive spectral envelopes,”inICASSP,April 2015,pp.5127–5131.
[8]Y.I.Abramovich and O.Besson,“Regularized covariance matrixestimation in complex elliptically symmetric distributions using the expectedlikelihood approach part 1:The over-sampled case,”IEEE Transactions on SignalProcessing,vol.61,no.23,pp.5807–5818,2013.
[9]T.Speech Coding with Code-Excited Linear Prediction.1em plus 0.5em minus 0.4em Springer,2017.
[10]J.Benesty,M.M.Sondhi,and Y.Huang,Springer handbook of speechprocessing.1 em plus 0.5em minus 0.4em Springer Science&Business Media,2007.
[11]J.Benesty and Y.Huang,“A single-channel noise reduction MVDRfilter,”in ICASSP.1 em plus 0.5em minus 0.4em IEEE,2011,pp.273–276.
[12]N.Chopin,“Fast simulation of truncated Gaussian distributions,”Statistics and Computing,vol.21,no.2,pp.275–288,2011.
[13]M.Dietz,M.Multrus,V.Eksler,V.Malenovsky,E.Norvell,H.Pobloth,L.Miao,Z.Wang,L.Laaksonen,A.Vasilache et al.,“Overview of the EVS codecarchitecture,”in ICASSP.1 em plus 0.5em minus 0.4em IEEE,2015,pp.5698–5702.
[14]H.Huang,L.Zhao,J.Chen,and J.Benesty,“A minimum variancedistortionless response filter based on the bifrequency spectrum for single-channel noise reduction,”Digital Signal Processing,vol.33,pp.169–179,2014.
[15]S.Korse,G.Fuchs,and T.“GMM-based iterative entropycoding for spectral envelopes of speech and audio,”in ICASSP.1 em plus 0.5emminus 0.4em IEEE,2018.
[16]M.Neuendorf,P.Gournay,M.Multrus,J.Lecomte,B.Bessette,R.Geiger,S.Bayer,G.Fuchs,J.Hilpert,N.Rettelbach et al.,“A novel scheme for low bitrateunified speech and audio coding–MPEG RM0,”in Audio Engineering SocietyConvention 126.1 em plus 0.5em minus 0.4em Audio Engineering Society,2009.
[17]E.T.Northardt,I.Bilik,and Y.I.Abramovich,“Spatial compressivesensing for direction-of-arrival estimation with bias mitigation via expectedlikelihood,”IEEE Transactions on Signal Processing,vol.61,no.5,pp.1183–1195,2013.
[18]S.Quackenbush,“MPEG unified speech and audio coding,”IEEEMultiMedia,vol.20,no.2,pp.72–78,2013.
[19]J.Rissanen and G.G.Langdon,“Arithmetic coding,”IBM Journal ofresearch and development,vol.23,no.2,pp.149–162,1979.
[20]S.Das and T.“Postfiltering with complex spectralcorrelations for speech and audio coding,”in Interspeech,2018.
[21]T.Barker,“Non-negative factorisation techniques for sound sourceseparation,”Ph.D.dissertation,Tampere University of Technology,2017.
[22]V.Zue,S.Seneff,and J.Glass,“Speech database development at MIT:TIMIT and beyond,”Speech Communication,vol.9,no.4,pp.351–356,1990.
4.1.4其他示例
4.1.4.1系统结构
所提出的方法在时间-频率域中应用滤波以减少噪声。它是专为衰减语音和音频编解码器的量化噪声而设计的,但适用于任何降噪任务。图1.1示出了系统的结构。
噪声衰减算法基于归一化时间-频率域中的最佳滤波。其中包含以下重要细节:
1.为了在保持性能的同时降低复杂度,仅将滤波应用于每个时间-频率段的紧邻域。这里将该邻域称为段的上下文。
2.在上下文包含纯净信号的估计(如果可用)的意义上,滤波是递归的。换言之,当我们在每个时间-频率段的迭代中应用噪声衰减时,那些已经处理的段将被反馈到后续的迭代中(参见图2)。这将创建类似于自回归滤波的反馈循环。优点有两个:
3.由于先前估计的样本使用与当前样本不同的上下文,因此我们在估计当前样本时有效地使用了更大的上下文。通过使用更多数据,我们可能获得更好的质量。
4.先前估计的样本一般不是完美的估计,这意味着这些估计存在一些误差。通过将先前估计的样本视为纯净样本,我们偏向于当前样本的误差与先前估计的样本的误差类似。尽管这可能增加实际误差,但是该误差更好地符合源模型,也就是说,信号更类似于所需信号的统计信息。换言之,对于语音信号,即使不必将绝对误差最小化,经滤波的语音也将更好地与语音相似。
5.上下文的能量随时间和频率具有很大的变化,但是如果我们假设量化精度是恒定的,则量化噪声能量实际上是恒定的。由于最佳滤波器基于协方差估计,因此当前上下文恰好具有的能量量对协方差具有很大影响,因此对最佳滤波器也有很大影响。为了考虑能量的这种变化,我们必须在过程的一些部分应用归一化。在当前的实现中,我们在按上下文规范进行处理之前,将所需源的协方差归一化以匹配输入上下文(参见图4.3)。根据整个框架的要求,归一化的其他实现很容易实现。
6.在当前的工作中,我们已使用维纳滤波,因为它是推导最佳滤波器的一种众所周知的方法。显然,本领域技术人员可以选择他选择的任何其他滤波器设计,例如最小方差无失真响应(MVDR)优化标准。
图4.2是所提出的估计的示例的递归性质的图示。对于每个样本,我们从噪声的输入帧提取具有样本的上下文,估计先前纯净帧并估计当前帧中的先前样本。然后使用这些上下文找到当前样本的估计,然后共同形成纯净当前帧的估计。
图4.3示出了从单个样本的上下文进行的最佳滤波,包括估计当前上下文的增益(范数)、使用该增益归一化(缩放)源协方差使用所需原信号的经缩放的协方差和量化噪声的协方差计算最佳滤波器,最后应用最佳滤波器以获得输出信号的估计。
4.1.4.2与现有技术相比,提案的好处
4.4.4.2.1常规编码方法
所提出的方法的主要新颖之处在于,它考虑了语音信号随时间变化的时间-频率表示中的统计属性。诸如3GPP EVS之类的常规通信编解码器仅在当前帧内随频率使用熵编码器中的信号统计和源建模[1]。诸如MPEG USAC之类的广播编解码器也是随时间在它们的熵编码器中使用一些时间-频率信息,但程度有限[2]。
避免使用帧间信息的原因是,如果信息在传输中丢失,那么我们将无法正确重建信号。具体地,我们不仅遗失所丢失的帧,而且由于后续帧依赖于所丢失的帧,因此后续帧也会被错误地重建或完全丢失。因此,在帧丢失的情况下,在编码中使用帧间信息会导致显著的错误传播。
相反,当前的提案不需要发送帧间信息。以所需信号和量化噪声二者的上下文的协方差矩阵的形式离线确定信号的统计。因此,我们可以在解码器上使用帧间信息,而不会经历错误传播的风险,因为帧间统计信息是离线估计的。
所提出的方法可用作任何编解码器的后处理方法。主要限制在于,如果常规编解码器运行在非常低的比特率下,则信号的显著部分被量化为零,这大大降低了所提出方法的效率。然而,在低速率下,可以使用随机量化方法使量化误差更好地类似于高斯噪声[3,4]。这使得所提出的方法至少适用于
1.传统编解码器设计的中等和高比特率
2.使用随机化量化时的低比特率。
因此,所提出的方法以两种方式使用信号的统计模型;使用常规熵编码方法帧内信息进行编码,并在后处理步骤中将帧间信息用于解码器中的噪声衰减。源建模在解码器端的这种应用对于分布式编码方法是很熟悉的,在分布式编码方法中已经证明,统计模型应用于编码器和解码器二者,还是仅应用于解码器都没有关系[5]。据我们所知,我们的方法是该特征在语音和音频编码中分布式编码应用之外的首次应用。
4.1.4.2.2噪声衰减
相对较近已经证明,噪声衰减应用从合并时间-频率域中随时间变化的统计信息受益颇多。具体地,Benesty等已经在时间-频率域中应用诸如MVDR的常规最佳滤波器来减少背景噪声[6,7]。虽然所提出的方法的主要应用是衰减量化噪声,但是它自然也可以像Benesty一样应用于通用噪声的衰减问题。然而,不同之处在于,我们在上下文中显式地选择了与当前段相关性最高的那些时间-频率段。不同的是,Benesty仅随时间应用滤波,而不在相邻频率上应用滤波。通过在时间-频率段之间更自由地选择,我们可以选择那些质量改进最高、上下文大小最小的频率段,从而降低计算复杂度。
4.1.4.3扩展
所提出的方法自然遵循许多自然扩展,并且可以应用于以上和以下公开的方面和示例:
1.以上,上下文仅包含噪声当前样本和纯净信号的过去估计。然而,上下文还可以包括尚未处理的时间-频率领域。也就是说,我们可以使用包括最有用的领域的上下文,并在可用时,我们使用所估计的纯净样本,否则使用噪声的样本。这样,噪声的邻居自然具有与当前样本相似的噪声协方差。
2.纯净信号的估计自然不是完美的,但也包含一些误差,但是以上,我们假设过去信号的估计没有误差。为了提高质量,我们还可以包括对过去信号的残留噪声的估计。
3.当前的工作着重于量化噪声的衰减,但是显然,我们也可以包括背景噪声。然后,我们只需在最小化过程中包括适当的噪声协方差[8]。
4.这里提出的方法仅适用于单通道信号,但显然,我们可以使用常规方法将其扩展到多通道信号[8]。
5.当前的实现使用离线估计的协方差,并且仅所需的源协方差的缩放适应于信号。显然,如果我们有关于信号的更多信息,则自适应协方差模型将很有用。例如,如果我们有一个语音信号发声量的指示符,或者是谐波噪声比(HNR)的估计,则我们可以调整所需的源协方差以分别匹配发声或HNR。类似地,如果量化器类型或模式逐帧改变,我们可以使用它来调整量化噪声协方差。通过确保协方差与观测信号的统计信息相匹配,我们显然将获得对所需信号的更好估计。
6.从时间-频率网格中的最近领域选择当前实现中的上下文。然而,不限制仅使用这些样本;我们可以自由选择任何可用的有用信息。例如,我们可以使用有关信号的谐波结构的信息来选择与谐波信号的梳状结构相对应的样本。另外,如果我们可以使用包络模型,则可以使用它来估计频谱频率段的统计信息,类似于[9]。概括地说,我们可以使用任何与当前样本相关的可用信息来改善对纯净信号的估计。
4.1.4.4参考
[1]3GPP,TS 26.445,EVS Codec Detailed Algorithmic Description;3GPPTechnical Specification(Release 12),2014.
[2]ISO/IEC 23003-3:2012,“MPEG-D(MPEG audio technologies),Part 3:Unified speech and audio coding,”2012.
[3]T F Ghido,and J Fischer,“Blind recovery of perceptualmodels in distributed speech and audio coding,”in Proc.Interspeech,2016,pp.2483-2487.
[4]T and J Fischer,“Fast randomization for distributedlow-bitrate coding of speech and audio,”accepted to IEEE/ACM Trans.Audio,Speech,Lang.Process.,2017
[5]R.Mudumbai,G.Barriac,and U.Madhow,“On the feasibility ofdistributed beamforming in wireless networks,”Wireless Communications,IEEETransactions on,vol.6,no.5,pp.1754-1763,2007.
[6]Y.A.Huang and J.Benesty,“A multi-frame approach to the frequency-domain single-channel noise reduction problem,”IEEE Transactions on Audio,Speech,and Language Processing,vol.20,no.4,pp.1256-1269,2012.
[7]J.Benesty and Y.Huang,“A single-channel noise reduction MVDRfilter,”in ICASSP.IEEE,2011,pp.273-276.
[8]J Benesty,M Sondhi,and Y Huang,Springer Handbook of SpeechProcessing,Springer,2008.
[9]T and C R Helmrich,“Arithmetic coding of speech andaudio spectra using TCX based on linear predictive spectral envelopes,”inProc.ICASSP,Apr.2015,pp.5127-5131.
4.1.5附加方面
4.1.5.1附加规范和更多详细信息
在以上示例中,不需要在比特流111中编码的帧间信息。因此,在示例中,上下文定义器114、统计关系和/或信息估计器115、量化噪声关系和/或信息估计器119以及值估计器116中的至少一个在解码器处利用帧间信息。因此降低了有效载荷,并减少了分组或比特丢失情况下错误传播的风险。
在以上示例中,主要参考量化噪声。然而,在其他示例中,可以应对其他种类的噪声。
已经注意到,上述大多数技术对于低比特率特别有效。因此,可能可以实现以下之间选择的技术:
-较低比特率模式,其中使用以上技术;以及
-较高比特率模式,其中将所提出的后置滤波旁置。
图5.1示出了可以由解码器110在一些示例中实现的示例510。关于比特率执行确定511。如果比特率在预定阈值以下,则在512执行如上所述的基于上下文的滤波。如果比特率在预定阈值以上,则在513处跳过基于上下文的滤波。
在示例中,上下文定义器114可以使用至少一个未处理的段126来形成上下文114’。参考图1.5,是一些示例,上下文114’因此可以包括至少一个带圆圈的段126。因此,在一些示例中,可以避免使用经处理的段存储单元118,或者通过为上下文定义器114提供至少一个未处理的段126的连接113”(图1.1)进行补充。
在以上示例中,统计关系和/或信息估计器115和/或噪声关系和/或信息估计器119可以存储多个矩阵(例如,Λx,ΛN)。可以基于输入信号上的度量(例如,在上下文114’中和/或正在处理的段123中)来执行对要使用的矩阵的选择。因此,例如可以将不同的谐波(例如,以不同的谐波与噪声比或其他度量来确定)与不同的矩阵Λx,ΛN相关联。
备选地,例如,上下文的不同规范(例如,通过测量未处理的段值或其他度量的上下文的规范来确定)因此可以与不同的矩阵Λx,ΛN相关联。
4.1.5.2方法
以上公开的设备的操作可以是根据本公开的方法。
方法的一般示例如图5.2所示,它涉及:
-第一步骤521(例如,由上下文定义器114执行),其中为输入信号的正在处理的一个段(例如,123)定义了上下文(例如,114’),上下文(例如,114’)包括频率/时间空间中与正在处理的段(例如,123)具有预定位置关系的至少一个附加段(例如,118’,124);
-第二步骤522(例如,由组件115、119、116中的至少一个执行),其中,基于正在处理的段(例如,123)和至少一个附加段(例如,118’,124)之间的统计关系和/或信息(例如,115’)和/或关于正在处理的段(例如,123)和至少一个附加段(例如,118’,124)的信息和/或关于噪声(例如,量化噪声和/或其他种类的噪声)的信息(例如,119’),来估计正在处理的段(例如,123)的值(例如,116’)。
在示例中,可以例如在新调用步骤522、步骤521之后重复该方法,例如通过更新正在处理的段并通过选择新的上下文。
诸如方法520之类的方法可以通过上面讨论的操作来补充。
4.1.5.3存储单元
如图5.3中所示,上面公开的设备(例如113、114、116、118、115、117、119等)的操作和方法可以由基于处理器的系统530实现。后者可以包括非暂时性存储单元534,其在由处理器532执行时可以操作以减少噪声。示出了输入/输出(I/O)端口53,其可以例如从接收天线和/或存储单元(例如,在其中存储输入信号111)向处理器532提供数据(诸如输入信号111)。
4.1.5.4系统
图5.4示出了系统540,其包括编码器542和解码器130(或如上所述的另一编码器)。编码器542被配置为例如以无线方式(例如,射频和/或超声和/或光通信)或通过将比特流111存储在存储支持中,通过对输入信号进行编码来提供比特流。
4.1.5.5其他示例
通常,示例可以实现为具有程序指令的计算机程序产品,程序指令可操作以在计算机程序产品在计算机上运行时执行方法之一。程序指令可以例如存储在机器可读介质上。
其他示例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,方法示例因此是具有程序指令的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,方法的另一示例是其上记录有计算机程序的数据载体介质(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体介质、数字存储介质或记录介质是有形的和/或非暂时性的,而不是无形的和暂时的信号。
因此,方法的另一示例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如经由数据通信连接(例如,经由互联网)传送。
另一示例包括处理设备,例如,计算机或可编程逻辑器件,其执行本文所述的方法之一。
另一示例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
另一示例包括向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。
在一些示例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些示例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,这些方法可以由任何适当的硬件装置执行。
上述示例对于以上公开的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形将是显而易见的。因此,旨在由所附权利要求的范围来限制而不是由借助对本文示例的描述和解释所给出的具体细节来限制。
在以下描述中,即使出现在不同的附图中,也通过相同或等同附图标记来表示相同或等同元件或者具有相同或等同功能的元件。

Claims (61)

1.一种解码器(110),用于对在比特流(111)中定义的频域输入信号进行解码,所述频域输入信号受到噪声的影响,所述解码器(110)包括:
比特流读取器(113),从比特流(111)提供所述频域输入信号的版本(113’,120)作为帧(121)序列,每个帧(121)被细分为多个段(123-126),每个段具有采样值;
上下文定义器(114),被配置为针对一个正在处理的段(123)定义上下文(114’),所述上下文(114’)包括与所述正在处理的段(123)具有预定位置关系的至少一个附加段(118’,124);
统计关系和信息估计器(115),被配置为提供:
所述正在处理的段(123)与所述至少一个附加段(118’,124)之间的统计关系(115’),所述统计关系(115’)以协方差或相关的形式提供;以及
关于所述正在处理的段(123)和所述至少一个附加段(118’,124)的信息,所述信息以方差或自相关的形式提供,
其中,所述统计关系和信息估计器(115)包括噪声关系和信息估计器(119),所述噪声关系和信息估计器(119)被配置为提供关于噪声的统计关系或信息(119’),其中,关于噪声的统计关系和信息(119’)包括噪声矩阵(ΛN),所述噪声矩阵(ΛN)估计所述正在处理的段(123)与所述至少一个附加段(118’,124)中的噪声信号之间的关系;
值估计器(116),被配置为基于所述正在处理的段(123)与所述至少一个附加段(118’,124)之间的所估计的统计关系(119’)、关于所述正在处理的段(123)和所述至少一个附加段(118’,124)的信息(115’,119’)以及关于噪声(119’)的统计关系和信息来处理和获得所述正在处理的段(123)的值的估计(116’),以及
变换器(117),将所述估计(116’)变换为时域信号(112)。
2.根据权利要求1所述的解码器(110),其中,所述噪声是量化噪声。
3.根据权利要求1所述的解码器,其中,所述噪声为不是量化噪声的噪声。
4.根据权利要求1所述的解码器,其中,所述上下文定义器(114)被配置为在先前处理的段(124,125)中选择所述至少一个附加段(118’,124)。
5.根据权利要求1所述的解码器,其中,所述上下文定义器(114)被配置为基于段的频带(122)来选择所述至少一个附加段(118’,124)。
6.根据权利要求1所述的解码器,其中,所述上下文定义器(114)被配置为在已被处理的那些段中,选择在预定位置阈值内的所述至少一个附加段(118’,124)。
7.根据权利要求1所述的解码器,其中,所述上下文定义器(114)被配置为针对不同频带的段选择不同上下文。
8.根据权利要求1所述的解码器,其中,所述值估计器(116)被配置为作为维纳滤波器操作,以提供所述频域输入信号的最佳估计。
9.根据权利要求1所述的解码器,其中,所述值估计器(116)被配置为从所述至少一个附加段(118’,124)的至少一个采样值中获得所述正在处理的段(123)的值的估计(116’)。
10.根据权利要求1所述的解码器,还包括测量器(131),被配置为提供与所述上下文(114’)的所述至少一个附加段(118’,124)的先前执行的估计(116’)相关联的测量值(131’),
其中,所述值估计器(116)被配置为基于所述测量值(131’)来获得所述正在处理的段(123)的值的估计(116’)。
11.根据权利要求10所述的解码器,其中,所述测量值(131’)是与所述上下文(114’)的所述至少一个附加段(118’,124)的能量相关联的值。
12.根据权利要求10所述的解码器,其中,所述测量值(131’)是与所述上下文(114’)的所述至少一个附加段(118’,124)相关联的增益(γ)。
13.根据权利要求12所述的解码器,其中,所述测量器(131)被配置为获得所述增益(γ)作为向量的标量积,其中,第一向量包含所述上下文(114’)的所述至少一个附加段(118’,124)的值,且第二向量是所述第一向量的转置共轭。
14.根据权利要求1所述的解码器,其中,所述统计关系和信息估计器(115)被配置为提供所述统计关系和信息(115’)作为所述正在处理的段(123)与所述上下文(114’)的所述至少一个附加段(118’,124)之间的预定义的估计或预期统计关系。
15.根据权利要求1所述的解码器,其中,所述统计关系和信息估计器(115)被配置为提供所述统计关系和信息(115’)作为基于所述正在处理的段(123)与所述上下文(114’)的所述至少一个附加段(118’,124)之间的位置关系的关系。
16.根据权利要求1所述的解码器,其中,所述统计关系和信息估计器(115)被配置为与所述正在处理的段(123)或所述上下文(114’)的所述至少一个附加段(118’,124)的值无关地提供所述统计关系和信息(115’)。
17.根据权利要求1所述的解码器,其中,所述统计关系和信息估计器(115)被配置为以矩阵的形式提供所述统计关系和信息估(115’),所述矩阵建立所述正在处理的段(123)与所述上下文(114’)的至少一个附加段(118’,124)之间的方差和协方差值、或相关和自相关值的关系。
18.根据权利要求1所述的解码器,其中,所述统计关系和信息估计器(115)被配置为以归一化矩阵的形式提供所述统计关系和信息(115’),所述归一化矩阵建立所述正在处理的段(123)和/或所述上下文(114’)的所述至少一个附加段(118’,124)之间的方差和协方差、或相关和自相关值的关系。
19.根据权利要求17所述的解码器,其中,所述值估计器(116)被配置为通过能量相关值或增益值(131’)来缩放(132)所述矩阵的元素,从而考虑所述正在处理的段和所述上下文(114’)的所述至少一个附加段(118’,124)的能量和增益变化。
20.根据权利要求1所述的解码器,其中,所述值估计器被配置为基于以下关系来获得所述正在处理的段(123)的值的估计(116’):
其中分别是协方差和噪声矩阵,/>是c+1维的噪声观测向量,c是上下文长度。
21.根据权利要求1所述的解码器,
其中,所述正在处理的段(123)与所述至少一个附加段(118’,124)之间的统计关系(115’)以及关于所述正在处理的段(123)和所述至少一个附加段(118’,124)的信息包括归一化协方差矩阵
其中,关于噪声的统计关系和信息(119’)包括噪声矩阵
其中,噪声观测向量以+1维定义,是上下文长度,其中噪声观测向量是且包括与正在处理的段(C0)(123)相关联的噪声输入是至少一个附加段(C1-C10),
其中,所述值估计器(116)被配置为基于以下关系来获得所述正在处理的段(123)的值的估计(116’):
为增益。
22.根据权利要求1所述的解码器,其中,所述值估计器(116)被配置为在所述上下文(114’)的每个所述附加段(124)的采样值与所述上下文(114’)的所述附加段(124)的估计值相对应的情况下,获得所述正在处理的段(123)的值的估计(116’)。
23.根据权利要求1所述的解码器,其中,所述值估计器(116)被配置为在预期所述正在处理的段(123)的采样值在上限值与下限值之间的情况下,获得所述正在处理的段(123)的值的估计(116’)。
24.根据权利要求1所述的解码器,其中,所述值估计器(116)被配置为基于似然函数的最大值来获得所述正在处理的段(123)的值的估计(116’)。
25.根据权利要求1所述的解码器,其中,所述值估计器(116)被配置为基于期望值来获得所述正在处理的段(123)的值的估计(116’)。
26.根据权利要求1所述的解码器,其中,所述值估计器(116)被配置为基于多元高斯随机变量的期望来获得所述正在处理的段(123)的值的估计(116’)。
27.根据权利要求1所述的解码器,其中,所述值估计器(116)被配置为基于条件多元高斯随机变量的期望来获得所述正在处理的段(123)的值的估计(116’)。
28.根据权利要求1所述的解码器,其中,所述采样值在对数幅度域中。
29.根据权利要求1所述的解码器,其中,所述采样值在感知域中。
30.根据权利要求1所述的解码器,其中,所述统计关系和信息估计器(115)被配置为以矩阵(ΛX)的形式提供所述统计关系和信息(115’),所述矩阵建立所述正在处理的段(123)与所述上下文(114’)的所述至少一个附加段(118’,124)之间的方差和协方差值、或相关和自相关值的关系,
其中,所述统计关系和信息估计器(115)被配置为基于与所述频域输入信号的谐波相关的度量从多个预定矩阵中选择一个矩阵。
31.根据权利要求1所述的解码器,其中,所述统计关系和信息估计器(115)被配置为基于与所述频域输入信号的谐波相关联的度量来从多个预定矩阵中选择一个矩阵。
32.根据权利要求1所述的解码器,其中,所述频域输入信号是音频信号。
33.根据权利要求1所述的解码器,其中,所述频域输入信号是语音信号。
34.根据权利要求1所述的解码器,其中,所述上下文定义器(114)、所述统计关系和信息估计器(115)、所述噪声关系和信息估计器(119)和所述值估计器(116)中的至少一个被配置为执行后置滤波操作以获得所述频域输入信号的纯净估计(116’)。
35.根据权利要求1所述的解码器,其中,所述上下文定义器(114)被配置为利用多个附加段(124)来定义所述上下文(114’)。
36.根据权利要求1所述的解码器,其中,所述上下文定义器(114)被配置为将所述上下文(114’)定义为段在频率/时间图中的简单连接的邻域。
37.根据权利要求1所述的解码器,其中,所述比特流读取器(113)被配置为避免对来自所述比特流(111)的帧间信息的解码。
38.根据权利要求1所述的解码器,还包括经处理的段存储单元(118),存储关于先前处理的段(124,125)的信息,
所述上下文定义器(114)被配置为使用至少一个先前处理的段作为所述附加段(124)中的至少一个附加段来定义所述上下文(114’)。
39.根据权利要求1所述的解码器,其中,所述上下文定义器(114)被配置为使用至少一个未处理的段(126)作为所述附加段(124)中的至少一个附加段来定义所述上下文(114’)。
40.一种解码器(110),用于对在比特流(111)中定义的频域输入信号进行解码,所述频域输入信号受到噪声的影响,所述解码器(110)包括:
比特流读取器(113),从比特流(111)提供所述频域输入信号的版本(113’,120)作为帧(121)序列,每个帧(121)被细分为多个段(123-126),每个段具有采样值;
上下文定义器(114),被配置为针对一个正在处理的段(123)定义上下文(114’),所述上下文(114’)包括与所述正在处理的段(123)具有预定位置关系的至少一个附加段(118’,124);
统计关系和信息估计器(115),被配置为基于所述正在处理的段(123)与所述上下文(114’)的至少一个附加段(118’,124)之间的与方差有关的和与协方差有关的关系来向值估计器(116)提供:所述正在处理的段(123)与所述至少一个附加段(118’,124)之间的统计关系(115’)以及关于所述正在处理的段(123)和所述至少一个附加段(118’,124)的信息,其中,所述关系和信息包括与方差有关的和/或与标准偏差值有关的值,
其中,所述统计关系和信息估计器(115)包括噪声关系和信息估计器(119),所述噪声关系和信息估计器(119)被配置为提供关于噪声的统计关系和信息(119’),其中,所述关于噪声的统计关系和信息(119’)包括针对每个段的上限值和下限值,用于基于预期信号在所述上限值和所述下限值之间的预期来估计所述信号;
所述值估计器(116)被配置为基于所述正在处理的段(123)与所述至少一个附加段(118’,124)之间的所估计的统计关系(115’)、关于所述正在处理的段(123)和至少一个附加段(118’,124)的信息(115’,119’)以及关于噪声(119’)的统计关系和信息来处理和获得所述正在处理的段(123)的值的估计(116’),以及
所述解码器还包括变换器(117),将所述估计(116’)变换为时域信号(112)。
41.根据权利要求40所述的解码器,其中,所述统计关系和信息估计器(115)被配置为将信号的平均值提供给所述值估计器(116)。
42.根据权利要求40所述的解码器,其中,所述统计关系和信息估计器(115)被配置为基于所述正在处理的段(123)与所述上下文(114’)的所述至少一个附加段(118’,124)之间的与方差有关的和与协方差有关的关系来提供纯净信号的平均值。
43.根据权利要求40所述的解码器,其中,所述统计关系和信息估计器(115)被配置为基于所估计的上下文来更新所述信号的平均值。
44.根据权利要求40所述的解码器,其中,所述频域输入信号的版本(113’,120)具有量化级别的量化值,所述量化级别是从离散数量的量化级别中选择的值。
45.根据权利要求44所述的解码器,其中,所述量化级别的数量或值或尺度在所述比特流(111)中发信号通知。
46.根据权利要求40所述的解码器,其中,所述值估计器(116)被配置为根据以下等式来获得所述正在处理的段(123)的值的估计(116’):
其中是所述正在处理的段(123)的估计,和u分别是当前量化段的下限和上限,(1|2)是给定21的条件概率,/>是所估计的上下文向量。
47.根据权利要求40所述的解码器,其中,所述值估计器(116)被配置为基于以下期望来获得所述正在处理的段(123)的值的估计(116'):
其中X是所述正在处理的段(123)表示为截断的高斯随机变量的特定值,<X<u,其中是下限值且u是上限值,且/>=(),和是分布的均值和方差。
48.根据权利要求40所述的解码器,其中,所述频域输入信号是音频信号。
49.根据权利要求40所述的解码器,其中,所述频域输入信号是语音信号。
50.根据权利要求40所述的解码器,其中,所述上下文定义器(114)、所述统计关系和信息估计器(115)、所述噪声关系和信息估计器(119)和所述值估计器(116)中的至少一个被配置为执行后置滤波操作以获得所述频域输入信号的纯净估计(116’)。
51.根据权利要求40所述的解码器,其中,所述上下文定义器(114)被配置为利用多个附加段(124)来定义所述上下文(114’)。
52.根据权利要求40所述的解码器,其中,所述上下文定义器(114)被配置为将所述上下文(114’)定义为段在频率/时间图中的简单连接的邻域。
53.根据权利要求40所述的解码器,其中,所述比特流读取器(113)被配置为避免对来自所述比特流(111)的帧间信息的解码。
54.根据权利要求40所述的解码器,还包括经处理的段存储单元(118),存储关于先前处理的段(124,125)的信息,
所述上下文定义器(114)被配置为使用至少一个先前处理的段作为所述附加段(124)中的至少一个附加段来定义所述上下文(114’)。
55.根据权利要求40所述的解码器,其中,所述上下文定义器(114)被配置为使用至少一个未处理的段(126)作为所述附加段(124)中的至少一个附加段来定义所述上下文(114’)。
56.一种包括编码器和根据权利要求40所述的解码器的系统,所述编码器被配置为提供编码有频域输入信号的比特流(111)。
57.一种用于对在比特流(111)中定义的频域输入信号进行解码的方法,所述频域输入信号受到噪声的影响,所述方法包括:
从比特流(111)提供所述频域输入信号的版本(113’,120)作为帧(121)序列,每个帧(121)被细分为多个段(123-126),每个段具有采样值;
为所述频域输入信号的正在处理的一个段(123)定义上下文(114’),所述上下文(114’)包括与所述正在处理的段(123)在频率/时间空间中具有预定位置关系的至少一个附加段(118’,124);
基于所述正在处理的段(123)与所述至少一个附加段(118’,124)之间的统计关系(115’)、关于所述正在处理的段(123)和所述至少一个附加段(118’,124)的信息以及关于噪声的统计关系和信息(119’)来估计所述正在处理的段(123)的值(116’)来估计所述正在处理的段(123)的值(116’),其中,所述统计关系(115’)以协方差或相关的形式提供,所述信息以方差或自相关的形式提供,其中,所述关于噪声的统计关系和信息(119’)包括噪声矩阵(ΛN),所述噪声矩阵估计所述正在处理的段(123)与所述至少一个附加段(118’,124)中的噪声信号之间的关系;以及
将所述估计(116’)变换为时域信号(112)。
58.根据权利要求57所述的方法,其中,所述噪声为量化噪声。
59.根据权利要求57所述的方法,其中,所述噪声为不是量化噪声的噪声。
60.一种用于对在比特流(111)中定义的频域输入信号进行解码的方法,所述频域输入信号受到噪声的影响,所述方法包括:
从比特流(111)提供所述频域输入信号的版本(113’,120)作为帧(121)序列,每个帧(121)被细分为多个段(123-126),每个段具有采样值:
为所述频域输入信号的正在处理的一个段(123)定义上下文(114’),所述上下文(114’)包括与所述正在处理的段(123)在频率/时间空间中具有预定位置关系的至少一个附加段(118’,124);
基于所述正在处理的段(123)与所述至少一个附加段(118’,124)之间的统计关系(115’)、关于所述正在处理的段(123)和所述至少一个附加段(118’,124)的信息以及关于噪声的统计关系和信息(119’)来估计所述正在处理的段(123)的值(116’),其中,所述统计关系和信息包括基于所述正在处理的段(123)与所述上下文(114’)的至少一个附加段(118’,124)之间的与方差有关的和与协方差有关的关系来提供与方差有关的和/或与标准偏差值有关的值,其中,所述关于噪声的统计关系和信息(119’)包括针对每个段的上限值和下限值,用于基于期望信号在所述上限值和所述下限值来估计所述信号;以及
将所述估计(116’)变换为时域信号(112)。
61.一种存储指令的非暂时性存储单元,所述指令在由处理器执行时,使所述处理器执行根据权利要求60所述的方法。
CN201880084074.4A 2017-10-27 2018-08-13 解码器处的噪声衰减 Active CN111656445B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17198991.6 2017-10-27
EP17198991 2017-10-27
PCT/EP2018/071943 WO2019081089A1 (en) 2017-10-27 2018-08-13 MITIGATION OF NOISE AT THE LEVEL OF A DECODER

Publications (2)

Publication Number Publication Date
CN111656445A CN111656445A (zh) 2020-09-11
CN111656445B true CN111656445B (zh) 2023-10-27

Family

ID=60268208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880084074.4A Active CN111656445B (zh) 2017-10-27 2018-08-13 解码器处的噪声衰减

Country Status (10)

Country Link
US (1) US11114110B2 (zh)
EP (1) EP3701523B1 (zh)
JP (1) JP7123134B2 (zh)
KR (1) KR102383195B1 (zh)
CN (1) CN111656445B (zh)
AR (1) AR113801A1 (zh)
BR (1) BR112020008223A2 (zh)
RU (1) RU2744485C1 (zh)
TW (1) TWI721328B (zh)
WO (1) WO2019081089A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3956886A1 (en) * 2019-04-15 2022-02-23 Dolby International AB Dialogue enhancement in audio codec
CA3146169A1 (en) * 2019-08-01 2021-02-04 Dolby Laboratories Licensing Corporation Encoding and decoding ivas bitstreams
IL276249A (en) * 2020-07-23 2022-02-01 Camero Tech Ltd System and method for extracting signals with a high signal-to-noise ratio from signals with a low signal-to-noise ratio
RU2754497C1 (ru) * 2020-11-17 2021-09-02 федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации
CN114900246B (zh) * 2022-05-25 2023-06-13 中国电子科技集团公司第十研究所 噪声基底估计方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678647B1 (en) * 2000-06-02 2004-01-13 Agere Systems Inc. Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution
WO2005031708A1 (en) * 2003-10-01 2005-04-07 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN1781141A (zh) * 2003-05-08 2006-05-31 杜比实验室特许公司 使用频谱分量耦合和频谱分量再生的改进音频编码系统和方法
CN102710365A (zh) * 2012-03-14 2012-10-03 东南大学 应用于多小区协作系统的基于信道统计信息的预编码方法
CN103347070A (zh) * 2013-06-28 2013-10-09 北京小米科技有限责任公司 推送语音数据的方法、终端、服务器及系统
CN105264596A (zh) * 2013-01-29 2016-01-20 弗劳恩霍夫应用研究促进协会 用于码激励线性预测类编码器的无边信息的噪声填充

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US8271287B1 (en) * 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US20060009985A1 (en) * 2004-06-16 2006-01-12 Samsung Electronics Co., Ltd. Multi-channel audio system
TWI497485B (zh) * 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
JP5009910B2 (ja) * 2005-07-22 2012-08-29 フランス・テレコム レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
EP1943823A4 (en) * 2005-10-18 2010-10-20 Telecomm Systems Inc AUTOMATIC CALL TRANSMISSION TO A VEHICLE'S INTERNAL TELEMATICS SYSTEM
KR20080033639A (ko) * 2006-10-12 2008-04-17 삼성전자주식회사 영상 재생 장치 및 영상 재생 장치에서의 음량 조절 방법
CA2698031C (en) * 2007-08-27 2016-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Method and device for noise filling
US8401845B2 (en) 2008-03-05 2013-03-19 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8571231B2 (en) 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
EP2532001B1 (en) 2010-03-10 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
TW201143375A (en) * 2010-05-18 2011-12-01 Zyxel Communications Corp Portable set-top box
CA2803273A1 (en) 2010-07-05 2012-01-12 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoding device, decoding device, program, and recording medium
US8826444B1 (en) * 2010-07-09 2014-09-02 Symantec Corporation Systems and methods for using client reputation data to classify web domains
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
EP2719126A4 (en) * 2011-06-08 2015-02-25 Samsung Electronics Co Ltd IMPROVED STREAM RESERVATION PROTOCOL FOR AUDIO VIDEO NETWORKS
US8526586B2 (en) * 2011-06-21 2013-09-03 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for determining targeted content to provide in response to a missed communication
US8930610B2 (en) * 2011-09-26 2015-01-06 Key Digital Systems, Inc. System and method for transmitting control signals over HDMI
US9082402B2 (en) * 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
CN103259999B (zh) * 2012-02-20 2016-06-15 联发科技(新加坡)私人有限公司 Hpd信号输出控制方法、hdmi接收端设备及系统
CN106409299B (zh) * 2012-03-29 2019-11-05 华为技术有限公司 信号编码和解码的方法和设备
US9575963B2 (en) * 2012-04-20 2017-02-21 Maluuba Inc. Conversational agent
US20130304476A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
KR101605862B1 (ko) * 2012-06-29 2016-03-24 삼성전자주식회사 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
DK3537437T3 (da) * 2013-03-04 2021-05-31 Voiceage Evs Llc Anordning og fremgangsmåde til reduktion af kvantiseringsstøj i en tidsdomæneafkoder
EP2830060A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US9620133B2 (en) * 2013-12-04 2017-04-11 Vixs Systems Inc. Watermark insertion in frequency domain for audio encoding/decoding/transcoding
EP2887350B1 (en) * 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
CN104980811B (zh) * 2014-04-09 2018-12-18 阿里巴巴集团控股有限公司 遥控器装置、通话装置、通话系统及通话方法
US20150379455A1 (en) * 2014-06-30 2015-12-31 Authoria, Inc. Project planning and implementing
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
US9564130B2 (en) * 2014-12-03 2017-02-07 Samsung Electronics Co., Ltd. Wireless controller including indicator
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10365620B1 (en) * 2015-06-30 2019-07-30 Amazon Technologies, Inc. Interoperability of secondary-device hubs
US10847175B2 (en) * 2015-07-24 2020-11-24 Nuance Communications, Inc. System and method for natural language driven search and discovery in large data sources
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US10904727B2 (en) * 2016-12-13 2021-01-26 Universal Electronics Inc. Apparatus, system and method for promoting apps to smart devices
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
US10930276B2 (en) * 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10310082B2 (en) * 2017-07-27 2019-06-04 Quantenna Communications, Inc. Acoustic spatial diagnostics for smart home management

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678647B1 (en) * 2000-06-02 2004-01-13 Agere Systems Inc. Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution
CN1781141A (zh) * 2003-05-08 2006-05-31 杜比实验室特许公司 使用频谱分量耦合和频谱分量再生的改进音频编码系统和方法
WO2005031708A1 (en) * 2003-10-01 2005-04-07 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN102710365A (zh) * 2012-03-14 2012-10-03 东南大学 应用于多小区协作系统的基于信道统计信息的预编码方法
CN105264596A (zh) * 2013-01-29 2016-01-20 弗劳恩霍夫应用研究促进协会 用于码激励线性预测类编码器的无边信息的噪声填充
CN103347070A (zh) * 2013-06-28 2013-10-09 北京小米科技有限责任公司 推送语音数据的方法、终端、服务器及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Y.Huang et al..a multi-frame approach to the frequency-domain single-channel noise reduction problem.《IEEE Transaction on Audio,Speech,and Language Processing》.2012,第20卷(第4期),全文. *
邓峰等.基于AAC比特流的音频信号Hiss噪声抑制方法 .《通信学报》.2013,第34卷(第5期),全文. *

Also Published As

Publication number Publication date
JP7123134B2 (ja) 2022-08-22
KR102383195B1 (ko) 2022-04-08
US20200251123A1 (en) 2020-08-06
EP3701523B1 (en) 2021-10-20
BR112020008223A2 (pt) 2020-10-27
US11114110B2 (en) 2021-09-07
TWI721328B (zh) 2021-03-11
EP3701523A1 (en) 2020-09-02
WO2019081089A1 (en) 2019-05-02
CN111656445A (zh) 2020-09-11
JP2021500627A (ja) 2021-01-07
KR20200078584A (ko) 2020-07-01
TW201918041A (zh) 2019-05-01
RU2744485C1 (ru) 2021-03-10
AR113801A1 (es) 2020-06-10

Similar Documents

Publication Publication Date Title
CN111656445B (zh) 解码器处的噪声衰减
Hu et al. A perceptually motivated approach for speech enhancement
Veisi et al. Speech enhancement using hidden Markov models in Mel-frequency domain
KR20180054823A (ko) 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법
Lim et al. Robust low rate speech coding based on cloned networks and wavenet
Habets et al. Dereverberation
Das et al. Postfiltering using log-magnitude spectrum for speech and audio coding
EP3544005A1 (en) Audio encoder, audio decoder, audio encoding method and audio decoding method for dithered quantization for frequency-domain speech and audio coding
US9224402B2 (en) Wideband speech parameterization for high quality synthesis, transformation and quantization
Bao et al. Speech enhancement based on a few shapes of speech spectrum
Giacobello et al. Stable 1-norm error minimization based linear predictors for speech modeling
Saleem Single channel noise reduction system in low SNR
EP3079151A1 (en) Audio encoder and method for encoding an audio signal
Liu et al. Speech enhancement based on analysis–synthesis framework with improved parameter domain enhancement
Das et al. Postfiltering with complex spectral correlations for speech and audio coding
Liu et al. Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments
Sulong et al. Speech enhancement based on wiener filter and compressive sensing
Yu et al. High-Frequency Component Restoration for Kalman Filter Based Speech Enhancement
Kim et al. Signal modification for robust speech coding
Wung et al. Speech enhancement using minimum mean-square error estimation and a post-filter derived from vector quantization of clean speech
Kim et al. A preprocessor for low-bit-rate speech coding
Das et al. Source modelling based on higher-order statistics for speech enhancement applications
Chen et al. Perceptual postfilter estimation for low bit rate speech coders using Gaussian mixture models.
Naruka An Improvement in the Compressive Sensing Approach for Speech Enhancement using Kalman Filtering
Sadasivan et al. PROSE: Perceptual Risk Optimization for Speech Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant