CN1159044A

CN1159044A - 声音编码装置

Info

Publication number: CN1159044A
Application number: CN96123139A
Authority: CN
Inventors: 青柳弘美
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1995-12-18
Filing date: 1996-12-18
Publication date: 1997-09-10
Also published as: DE69624207T2; JP3481027B2; EP0780832A3; US5905970A; JPH09167000A; EP0780832B1; DE69624207D1; EP0780832A2

Abstract

能够不损害听觉自然性、并能忠实地与输入的原声音信号一致地把合成声音信号再生出来的装置。误差计算电路210求对输入的原声音信号s₀的包络矢量v₀和对合成信号s_ij的包络矢量v_ij。电路210求矢量v_o与v_ij的差分矢量信号中各分量平方和矢量信号R_ij。电路211根据来自电路209的信号E_ij和信号R_ij求信号T_ij。把使信号T_ij之值成为最小的i、j组合作为最佳指数I、J，把该最佳指数I供给码簿203。

Description

声音编码装置

本发明涉及声音编码装置，运用于例如CELP(代码激励线性预测)型和多脉冲型声音编码装置。

现在，在低编码速率的声音编码和解码方式中，主要使用利用代码激励线性预测编码方式和多脉冲激励(MPE)线性预测编码方式等的Abs(合成分析)方法的方式。

在声音研究中所使用的模型，大多难于用分析方法来确定对应于某一输入声音的参数值。Abs法作为用来确定这种模型参数的一种方法，是在某一范围内改变这些参数、实际上是进行声音的合成、选择合成声音中与输入声音的距离为最小者的方法。

有关这种编码和解码方式的技术被作为一个例子在下述文献中提出来了。

文献：B.S.Atal著，“低比特率的高质量语言：多脉冲和随机激励的线性预测编码器”(HIGH-QUALITY SPEECH AT LOW BITRATES：MULTI-PULSE AND STOCHASTICALLY EXCITEDLINEAR PREDICTIVE CODERS)，Proc.ICASSP(ICASSP议事录)，1986年，pp.1681～1684。

在这里，利用图2简单地说明Abs法。首先，通过利用合成滤波器101对预先准备好的激励声源信号Ci(i＝1～N)进行处理，得到合成声音信号swi。通过减法器102，计算输入声音信号s与合成声音信号swi的差分信号ei；通过利用听觉加权滤波器103对差分信号ei进行处理，得到加权差分信号ewi。利用平方误差计算电路104，计算ewi的各分量的平方和，探索使该平方和成为最小的i。

这样，由输入声音信号和合成声音信号计算差分信号，寻找使该差分信号成为最小的激励声源信号，作为最佳激励声源信号。在CELP型差分方式的情况下，使用随机高斯噪声作为激励声源；在MPE编码方式的情况下，使用脉冲序列作为激励声源。

但是，在选择最佳激励声源信号时，如果仅以差分信号的平方和作为所使用的评价值，有时会损害合成声音信号在听觉上的自然性。例如，在合成声音信号中会出现原声音信号中没有的不自然的波形。

为此，要求提供一种不损害听觉的自然性、能够忠实地再生与输入的原声音信号一致的合成声音信号的声音编码装置。

因此，本发明是使用Abs法、以前向型结构或后向型结构对输入声音信号进行声音编码的声音编码装置，它具有：根据输入声音信号或本地再生的合成声音信号求声道预测系数的声道预测系数发生装置；使用与指数对应地存储在激励声源码簿中的符号代码和上述声道预测系数，产生合成声音信号的声音合成装置；把该合成声音信号与上述输入声音信号加以比较，输出差分信号的比较装置；对该差分信号进行听觉加权，得到听觉加权信号的听觉加权装置；以及至少根据上述听觉加权信号选择上述激励声源码簿用的最佳指数，将其供给上述码簿的码簿指数选择装置。该声音编码装置利用具有下述特征的结构，来解决上述课题。

即，本发明的声音编码装置具有根据上述合成声音信号求功率包络信号、根据上述输入声音信号求功率包络信号、把这些功率包络信号加以比较、估计这些功率包络信号的误差信号的“功率包络误差估计装置”，上述码簿指数选择装置根据上述误差信号和上述听觉加权信号选择最佳指数，将其供给上述码簿。

通过采用这样的结构，即，把合成声音信号的功率包络信号与输入声音信号的功率包络信号加以比较，根据这些功率包络信号的误差信号和听觉加权信号选择最佳指数，就能够最佳地修正来自码簿的符号代码，使由此得到的合成声音信号的功率包络能够非常接近于输入声音信号的功率包络。而且，因为工作时使包络一致，所以，听觉也能够与输入声音一致。

为此，能够得到与输入声音信号非常一致的符号代码和指数信息等。通过把这些信息和声道预测系数等作为编码装置的输出信号送给解码装置，与过去相比，能够使再生声音非常忠实地再生出来。

下面，利用附图说明本发明的最佳实施形态。

图1为本发明第一实施形态的CELP型声音编码装置的功能结构图；

图2为现有例中的Abs法的说明图；

图3为本发明第二实施形态的多脉冲型声音编码装置的功能结构图；

图4为第一实施形态中包络误差计算电路210的低通滤皮器的结构图；

图5为第一实施形态中包络的说明图。

于是，在本实施形态中，作为选择最佳激励声源信号时所使用的评价值，其构成不仅有波形差分信号的平方和，还把声音信号波形的包络信息加进去了。图5示出了该包络。图5中，曲线51为表示声音信号功率的曲线，曲线52为表示功率包络的曲线。

具体地讲，采用这样一种声音编码方式，即计算输入声音信号与合成声音信号的差分信号；对该差分信号进行感觉(听觉)加权，计算加权差分信号；计算由该加权差分信号平方和决定的波形误差评价值；选择使该波形误差评价值为最小的激励声源信号，通过合成进行分析。该声音编码方式采用下述结构。

即，实现一种利用合成分析法的声音编码方式，其内容是：分别计算输入声音信号和合成声音信号的包络信号；计算这些包络信号的包络误差评价值；除了利用波形误差评价值之外，还利用包络误差评价值来选择最佳激励声源信号。

第一实施形态

在本第一实施形态中，详细说明把本发明应用于CELP型声音编码装置时的结构。

图1为第一实施形态声音编码装置的功能结构图。图1中，声音编码装置由声道分析部分201；声道预测系数量化和反量化部分202；激励声源码簿203；乘法器204；增益表205；合成滤波器206；减法器207；听觉加权滤波器208；平方误差计算电路209；包络误差计算电路210；总误差计算电路211；及多重化电路212构成。

把原声音矢量信号s0以帧为单位归纳以后，作为矢量信号加到原声音矢量输入端子200上。把声音编码数据作为总代码信号w，从总代码输出端子213输出。

声道分析部分201根据原声音矢量信号s₀求声道预测系数、即求LPC(线性预测编码)系数a，将其供给声道预测系数量化和反量化部分202。

声道预测系数量化和反量化部分202把来自声道分析部分201的声道预测系数(LPC系数a)量化，产生对应于该量化值的声道预测系数指数值L、将其供给多重化电路212，同时，求反量化值aq、将其供给合成滤波器206。

激励声源码簿203根据从总误差计算电路211接收的指数值I，读出对应的激励声源矢量ci(i＝1～N)、将其供给乘法器204。

乘法器204把从增益表205接收的增益信息(j＝1～M)、与来自激励声源码簿203的激励声源矢量Ci(i＝1～N)相乘，把相乘结果矢量信号Cgij供给合成滤波器206。

增益表205根据从总误差计算电路211接收的指数值j，读出对应的增益信息gj(j＝1～M)、将其供给乘法器204。

合成滤波器206例如由循环型数字滤皮器构成，根据来自声道预测系数量化和反量化部分202的反量化值(意味着LPC系数)aq及相乘结果矢量信号Cgij，求合成声音矢量Sij、将其供给减法器207和包络误差计算电路210。

减法器207求输入原声音矢量信号s₀与合成声音矢量Sij的差分，把该差分矢量信号eij供给听觉加权滤波器208。

听觉加权滤波器208对来自减法器207的差分矢量信号eij进行频率加权，换言之，进行相应于听觉特性的加权处理以后，把该听觉加权矢量信号Wij供给平方误差计算电路209。对于在声音共振峰和音调谐波等功率大的频率范围内的量化噪声，由于听觉掩蔽效应而感觉小。相反地，在功率小的频率范围内的量化噪声因不能被掩蔽而被听到。因此，为使编码时的量化噪声在功率大的频率范围内增大，在功率小的频率范围内减小的频率加权，称为听觉加权。

人的听觉具有当某一频率分量大时，就难以听到在该频率附近的声音这种称为掩蔽的特性。故，原声音与再生声音在听觉上之差，即再生声音的失真感未必对应于其欧几里德距离。故，在声音编码中，作为距离尺度使用使原声音与再生声音之差通过对应于掩蔽特性的听觉加权滤波器208之值。该听觉加权滤波器208具有使频率轴上大部分频率的失真减小，使小部分频率的失真增大的加权特性。

平方误差计算电路209根据来自听觉加权滤波器208的听觉加权矢量信号Wij，求该矢量信号中各分量的平方和矢量信号Eij、将其供给总误差计算电路211。

包络误差计算电路210求输入的原声音矢量信号s₀的包络(包络线)矢量v₀、以及来自合成滤波器206的合成声音矢量Sij的包络矢量xij。图5示出这样的包络的说明。图5中，曲线51为表示声音信号功率的曲线，曲线52为表示功率包络的曲线。

包络矢量v₀和v_ij例如能够通过利用由下面的传输函数式(1)表示的数字低通滤波器、对输入的原声音矢量信号s₀和合成声音矢量信号s_ti中各分量的绝对值进行运算处理而得到，

\frac{1 - b}{1 - b \cdot Z^{- 1}} - - 0 < b < 1 - - (1)

实现(1)式传输函数的滤波器能够用图4所示的结构来实现。图4中，利用乘法器41把输入信号乘以系数(1-b)；把该相乘结果与来自乘法器44的相乘结果相加；把相加结果输出，同时，将其供给延时电路(z^-1)43；延时电路43把延时信号供给乘法器44，在这里，乘以乘数b。利用这样的结构，进行低通滤波处理。

进而，包络误差计算电路210求已求出的包络矢量v₀与v_ij的差分矢量信号；求该差分矢量信号中各分量的平方和矢量信号R_ij、将其供给总误差计算电路211。

通过进行这样的包络误差计算，能够使合成声音矢量信号s_ij以良好的精度接近于输入原声音矢量信号s₀。

总误差计算电路211根据来自平方误差计算电路209的平方和矢量信号E_ij、和来自包络误差计算电路210的平方和矢量信号R_ij，求总误差矢量信号T_ij。该总误差矢量信号T_ij例如最好利用由下式(2)表示的方法求出。

T_ij＝d·E_ij+(1-d)R_ij 0＜d＜1 (2)

在这里，最好使平方和矢量信号E_ij对总误差矢量信号T_ij的影响占优势时，把d设定得较大；使平方和矢量信号R_ij对总误差矢量信号T_ij的影响占优势时，把d设定得较小。

进而探索使总误差矢量信号T_ij之值成为最小的i、j组合，把最小组合i和j作为总误差矢量最佳指数I和J，把该最佳指数I供给激励声源码簿203，把另一最佳指数J供给增益表205，把总误差矢量最佳指数I和J双方供给多重化电路212。

通过进行这样的总误差计算，除了包络误差计算电路210的处理效果以外，为了使合成声音矢量信号S_ij的功率变动以良好的精度接近于输入的原声音矢量信号s₀的功率变动、还可以求最佳的指数I和J。

多重化电路212把来自声道预测量化和反量化部分202的声道预测系数指数值L、以及来自总误差计算电路212的总误差矢量最佳指数I和J多重化，把通过这一多重化得到的信号作为总代码信号W、输出到总代码输出端子213上。

下面，说明图1中的声音编码装置的工作情况。首先，把输入的原声音矢量信号s₀供给声道分析部分201；在这里，求声道预测系数(LPC系数)a、将其供给声道预测系数量化和反量化部分202。一旦把声道预测系数(LPC系数)a供给声道预测系数量化和反量化部分202，便在该量化和反量化部分202中对声道预测系数(LPC系数)a进行量化，产生对该量化值的声道预测系数指数值L、将其供给多重化电路212。同时，求对该量化值的反量化值，把该反量化值(意味着LPC系数)aq供给合成滤波器206。

另一方面，因为起始时激励声源码簿203读出给定的任一激励声源矢量Ci(i＝1～N中的任一值)，还有，起始时增益表205也同样地读出给定的任一增益信息gi(j＝1～M中的任一值)，并将其供给乘法器204，所以，通过乘法器204把它们相乘，把相乘结果矢量信号Cgij供给合成滤波器206。

通过合成滤波器206、根据相乘结果矢量信号c_gij和反量化值aq、进行数字滤波处理，求合成声音矢量信号s_ij、将其供给减法器207和包络误差计算电路210。利用减法器207求合成声音矢量信号s_ij与输入的原声音矢量信号s₀的差分，把差分矢量信号e_ij供给听觉加权滤波器208。

利用听觉加权滤波器208对差分矢量信号eij进行相应于听觉特性的加权处理，把听觉加权矢量信号w_ij供给平方误差计算电路209。利用平方误差计算电路209求对听觉加权矢量信号w_ij中各分量的平方和矢量信号E_ij、将其供给总误差计算电路211。

另一方面，一旦把输入的原声音矢量信号s₀和合成声音矢量信号s_ij供给包络误差计算电路210，就求对输入的原声音矢量信号s₀的包络矢量v₀，并且，求对合成声音矢量s_ij的各分量绝对值、进而，通过利用由上式(1)表示的数字低通滤波器进行处理、求包络矢量v_ij；进而，求包络矢量v₀与v_ij的差分矢量信号；而且，进而求对该差分矢量信号的各分量平方和矢量信号R_ij，将其供给总误差计算电路211。

一旦把来自包络误差计算电路210的平方和矢量信号R_ij和来自平方误差计算电路209的平方和矢量信号E_ij供给总误差计算电路211，就利用上式(2)那样的运算方法求总误差矢量信号T_ij。而且，探索使总误差矢量信号T_ij之值成为最小的i、j组合，把最小组合i和j作为总误差矢量最佳指数I和J，把该最佳指数I供给激励声源码簿203，把另一最佳指数J供给增益表205，把总误差矢量最佳指数I和J双方供给多重化电路212。

一旦把总误差矢量最佳指数I供给激励声源码簿203，就读出对应指数的激励声源矢量Ci、将其再次供给乘法器204。同时，一旦把总误差矢量最佳指数J供给增益表205，就读出对应指数的增益信息gi、将其再次供给乘法器204。进而，同时把总误差矢量最佳指数I和J双方供给多重化电路212，在多重化电路212中，将其与声道预测系数的指数值L一起多重化，形成总代码信号W、将其输出到总代码输出端子213上。

如果采用上述本发明的实施形态，则在CELP型编码方式中，通过在选择最佳激励声源信号时加进包络信息，能够产生合成声音信号而不损害其听觉自然性。

具体地讲，把合成声音信号的功率包络信号与输入的原声音信号的功率包络信号加以比较，根据这些功率包络信号的误差信号和听觉加权信号选择最佳指数，这样的结构能够最佳地修正来自码簿的符号代码，使由此得到的合成声音，信号的功率包络能够非常接近于输入的原声音信号的功率包络。而且，因为工作时是使包络一致，所以，听觉也能够与原声音一致。

为此，能够得到与输入的原声音信号非常一致的符号代码和指数信息等。通过把这些信息和声道预测系数等作为编码装置的输出信号送给解码装置，与过去相比，能使再生声音非常忠实地再生出来。

第二实施形态

在本第二实施形态中，说明把本发明应用于多脉冲型声音编码装置时的结构。

图3为第二实施形态声音编码装置的功能结构图。图3中，声音编码装置由声道分析部分201；声道预测系数量化和反量化部分202；脉冲激励声源发生器303；乘法器204；增益表205；合成滤波器206；加法器207；听觉加权滤波器208；平方误差计算电路209；包络误差计算电路210；总误差计算电路211；及多重化电路212构成。有关与上述第一实施形态的声音编码装置相同的功能结构部分，因为标以相同的符号，故省略其详细说明。

在图3的第二实施形态的声音编码装置的结构中，与上述第一实施形态的声音编码装置带有特征地不同的结构为，具有代替激励声源码簿203的脉冲激励声源发生器303。

把原声音矢量信号s₀加到原声音矢量输入端子200上。把声音编码数据作为总代码w，从总代码输出端子213输出。

脉冲激励声源发生器303以与指数I对应的方式预先存储着脉冲性代码，这种脉冲性代码为由孤立脉冲构成的波形代码。这种脉冲性代码考虑了有助于周期性强的有声音的前沿和脉冲性明确的有声音的稳态部分。因为脉冲性声源信号为具有周期性的单纯信号，所以也可以考虑采用脉冲信号发生部分产生的信号，但是，通过以与指数对应的方式编码后、从码簿读出，因为只要对指数号码进行多重化处理就可以了，所以，使多重化处理变得容易了。

具体地讲，脉冲激励声源发生器303一旦收到从总误差计算电路211供给的总误差矢量最佳指数I，就读出对应的脉冲激励声源矢量PCi、将其供给乘法器204。

下面，说明图3声音编码装置的工作情况。首先，把输入的原声音矢量信号s₀供给声道分析部分201；在这里，求声道预测系数(LPC系数)a、将其供给声道预测系数量化和反量化部分202。一旦把声道预测系数(LPC系数)a供给声道预测系数量化和反量化部分202，在该量化和反量化部分202中，就对声道预测系数(LPC系数)a进行量化，产生对该量化值的声道预测系数指数值L、将其供给多重化电路212。同时，求对该量化值的反量化值，把该反量化值(意味着LPC系数)aq供给合成滤波器206。

另一方面，因为在起始时脉冲激励声源发生器303读出给定的任一脉冲激励声源矢量PCi(i＝1～N中的任一值)，还有，在起始时增益表205也同样地读出给定的任一增益信息gj(j＝1～M中的任一值)，并将其供给乘法器204，所以，通过乘法器204把它们相乘，把相乘结果矢量信号C_gij供给合成滤波器206。

利用听觉加权滤波器208对差分矢量信号e_ij进行相应于听觉特性的加权处理，把听觉加权矢量信号w_ij供给平方误差计算电路209。利用平方误差计算电路209求对听觉加权矢量信号w_ij中各分量的平方和矢量信号E_ij、将其供给总误差计算电路211。

一旦把来自包络误差计算电路210的平方和矢量信号R_ij和来自平方误差计算电路209的平方和矢量信号E_ij供给总误差计算电路211，就利用上式(2)那样的运算方法求总误差矢量信号T_ij。而且，探索使总误差矢量信号T_ij之值成为最小的i、j组合，把最小组合i和j作为总误差矢量最佳指数I和J，把该最佳指数I供给脉冲激励声源发生器303，把另一最佳指数J供给增益表205，把总误差矢量最佳指数I和J双方供给多重化电路212。

一旦把总误差矢量最佳指数I供给脉冲激励声源发生器303，就读出对应指数的脉冲激励声源矢量PCi、将其再次供给乘法器204。同时，一旦把总误差矢量最佳指数J供给增益表205，就读出对应指数的增益信息g_i、将其再次供给乘法器204。进而，同时把总误差矢量最佳指数I和J双方供给多重化电路212，在多重化电路212中，将其与声道预测系数的指数值L一起多重化，形成总代码信号W、将其输出到总代码输出端子213上。

如果采用上述本发明的实施形态，则在多脉冲型编码方式中，通过在选择最佳激励声源信号时加进包络信息，能够产生合成声音信号而不会损害其听觉自然性。

具体地讲，把合成声音信号的功率包络信号与输入的原声音信号的功率包络信号加以比较，根据这些功率包络信号的误差信号和听觉加权信号选择最佳指数，这样的结构能够最佳地修正来自码簿的代码的编码，使由此得到的合成声音信号的功率包络能够非常接近于输入的原声音信号的功率包络。而且，因为工作时是使包络一致，所以，听觉也能够与原声音一致。

为此，能够得到与输入的原声音信号非常一致的符号代码和指数信息等。通过把这些信息和声道预测系数等作为编码装置的输出信号送给解码装置，与过去相比，能使再生声音非常忠实地再生出采。

其它实施形态

(1)再者，在上述实施形态中，虽然示出了前向型声音编码装置的结构，但是，也能够很容易地把本发明应用于应用Abs法的后向型声音编码装置的结构中。即，图1中，通过不把原声音矢量信号供给声道分析部分201、代之以把利用合成滤波器206产生的合成声音矢量信号sij供给声道分析部分201，就可以实现本发明在后向型结构中应用的状态。图3中，也能以同样的结构来实现本发明的后向型的结构。本发明还能够应用于VSELP(矢量和激励的线性预测)、LD-CELP、CS-CELP、PSI(音调同步的改进)-CELP等。

(2)还有，具体地讲，激励声源码簿203最好由例如自适应符号代码、统计符号代码、噪声性符号代码等构成。

(3)再者，作为接收一侧的解码装置的结构，通过对例如特开平5-73099号公报、特开平6-130995号公报、特开平6-130998号公报、特开平7-134600号公报、特开平6-130996号公报等公报中所公开的解码装置的结构进行若干修改，就能够应用。

如上所述，本发明具有：根据合成声音信号求功率包络信号，根据输入声音信号求功率包络信号，把这些功率包络信号加以比较、估计这些功率包络信号的误差信号的功率包络误差估计装置；通过码簿指数选择装置从误差信号和听觉加权信号选择最佳指数、将其供给激励声源码簿，就能够实现不损害听觉自然性、并能与输入原声音信号忠实一致地把合成声音信号再生出来的声音编码装置。

Claims

1.一种声音编码装置，它是使用Abs法、以前向型结构或后向型结构、对输入声音信号进行声音编码的声音编码装置，具有：根据输入声音信号或本地再生的合成声音信号求声道预测系数的声道预测系数发生装置；使用以与指数对应的方式存储在激励声源码簿中的符号代码和所述声道预测系数，产生合成声音信号的声音合成装置；把该合成声音信号与所述输入声音信号加以比较，输出差分信号的比较装置；对该差分信号进行听觉加权，得到听觉加权信号的听觉加权装置；至少从所述听觉加权信号选定所述激励声源码簿用的最佳指数，将其供给所述码簿上的码簿指数选择装置，该声音编码装置的特征为具有：

根据上述合成声音信号求功率包络信号，根据上述输入声音信号求功率包络信号，把这些功率包络信号加以比较、估计这些功率包络信号的误差信号的功率包络误差估计装置；

上述码簿指数选择装置根据上述误差信号和上述听觉加权信号选定最佳指数，将其供给上述激励声源码簿。

2.根据权利要求1中所述的声音编码装置，其特征在于，

功率包络误差估计装置对上述两种功率包络信号进行低通处理，得到上述误差信号。

3.根据权利要求1或2中所述的声音编码装置，其特征在于，

上述码簿指数选择装置使上述误差信号和上述听觉加权信号中的任一者占优势，来选择上述最佳指数。