CN1961511B

CN1961511B - 声音数据接收装置及声音数据接收方法

Info

Publication number: CN1961511B
Application number: CN2005800178145A
Authority: CN
Inventors: 吉田幸司
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2004-06-02
Filing date: 2005-05-20
Publication date: 2010-06-09
Anticipated expiration: 2025-05-20
Also published as: US8209168B2; ATE444613T1; EP1746751A1; WO2005119950A1; EP1746751B1; JP4456601B2; EP1746751A4; DE602005016916D1; JPWO2005119950A1; CN1961511A; US20080065372A1

Abstract

公开一种在声音通信中实现高质量的帧补偿的声音数据发送/接收装置。在声音数据发送装置(10)中，延迟单元(104)对多声道的声音数据施加延迟处理，该延迟处理使L-ch编码数据比R-ch编码数据延迟规定的延迟量。多路复用单元(106)将被施加了该延迟处理的声音数据多路复用。发送单元(108)发送被多路复用了的声音数据。在声音数据接收装置(20)中，分离单元(114)按每个声道分离从声音数据发送装置(10)接收到的声音数据。解码单元(118)按每个声道将被分离了的声音数据解码。在被分离了的声音数据中发生了损失或错误的情况下，帧补偿单元(120)使用L-ch编码数据以及R-ch编码数据的一个编码数据来补偿另一个编码数据中的损失或错误。

Description

声音数据接收装置及声音数据接收方法

技术领域

本发明涉及声音数据发送/接收装置及声音数据发送/接收方法，特别涉及进行有错误的声音数据或损失了的声音数据的补偿处理的声音通信系统所使用的声音数据发送/接收装置及声音数据发送/接收方法。

背景技术

在IP(Internet Protocol)网或无线通信网中的声音通信中，由于IP分组的损失或无线传输错误等，有时在接收端接收不到声音数据或接收到存在错误的声音数据。因此，一般在声音通信系统中，进行用于补偿错误的声音数据或损失了的声音数据的处理。

在一般的声音通信系统的发送端即声音数据发送装置中，作为输入原信号的声音信号作为声音数据被编码并被多路复用(分组化)，被发送到目的地装置。通常，多路复用将一个声音帧作为一个传输单位进行。关于多路复用，例如在非专利文献1中，对3GPP(3rd Generation Partnership Project)标准的声音编码解码(codec)方式——AMR(Adaptive Multi-Rate)以及AMR-WB(Adaptive Multi-Rate Wideband)规定了IP分组网中的声音数据的格式。

此外，在接收端即声音数据接收装置中，在接收到的声音数据中存在损失或错误的情况下，例如使用过去接收到的声音帧内的声音数据(编码数据)或基于此解码出的解码声音信号，对损失的声音帧内或存在错误的声音帧内的声音信号进行补偿处理，从而进行复原。关于声音帧的补偿处理，例如在非专利文献2中，公开了AMR的帧补偿方法。

使用图1概要说明上述声音通信系统中的声音处理动作。图1中的序列号(...，n-2，n-1，n，n+1，n+2，...)是对各声音帧赋予的帧号。在接收端，按照该帧号顺序将声音信号解码并将解码声音作为声波输出。此外，如该图所示，按照每个声音帧进行编码、多路复用、发送、分离以及解码。例如，在第n帧损失了的情况下，参照过去接收到的声音帧(例如第n-1帧或第n-2帧)，进行对于第n帧的帧补偿处理。

另外，随着近年的网络的宽带化和通信的多媒体化，在声音通信中有声音的高质量化的潮流。作为其一环，要求将声音信号作为立体声信号进行编码以及传输而不是作为单声道信号。对于这样的要求，在非专利文献1中，记载了声音数据为多声道数据(例如立体声音数据)的情况下的多路复用有关的规定。根据该文献，在声音数据例如为双声道数据的情况下，互相相当于同一时刻的左声道(L-ch)的声音数据以及右声道(R-ch)的声音数据被多路复用。

非专利文献1：”Real-Time Transfer Protocol(RTP)Payload Format and FileStorage Format for the Adaptive Multi-Rate(AMR)and Adaptive Multi-RateWideband(AMR-WB)Audio Codecs”，IETF RFC3267

非专利文献2：”Mandatory Speech Codec speech processing functions；AMRSpeech Codecs；Error concealment of lost frames”，3rd Generation PartnershipProject，TS26.091

发明内容

但是，在以往的声音数据接收装置以及声音数据接收方法中，在进行损失的声音帧或存在错误的声音帧的补偿时，由于使用在该声音帧之前接收到的声音帧，因此有时补偿性能(即，被补偿的声音信号的质量)不够，对于进行忠实于输入原信号的补偿来说有一定的限度。这不论被处理的声音信号是单声道还是立体声都同样。

本发明鉴于这一点而完成，其目的在于提供一种能够实现高质量的帧补偿的声音数据发送/接收装置以及声音数据发送/接收方法。

本发明的声音数据发送装置采用以下的结构，即发送包含与第一声道对应的第一数据序列和与第二声道对应的第二数据序列的多声道的声音数据序列，其中，该声音数据发送装置包括：延迟部件，对所述声音数据序列施加延迟处理，该延迟处理使所述第一数据序列比所述第二数据序列延迟规定的延迟量；多路复用部件，使被施加了所述延迟处理的所述声音数据序列多路复用；以及发送部件，发送被多路复用了的所述声音数据序列。

本发明的声音数据接收装置采用以下的结构，即具有：接收部件，接收包含与第一声道对应的第一数据序列和与第二声道对应的第二数据序列的多声道的声音数据序列，所述第一数据序列以比所述第二数据序列延迟了规定的延迟量的状态被多路复用；分离部件，按每个声道分离接收到的所述声音数据序列；以及解码部件，按每个声道将被分离了的所述声音数据序列解码，所述解码部件具有：相关度计算部件，计算所述第一数据序列的解码结果和所述第二数据序列的解码结果之间的相关度；比较部件，将计算出的相关度与规定的阈值进行比较；补偿部件，用于在所述声音数据序列中发生损失或错误的情况下，在所述声音数据序列被解码时，使用所述第一数据序列以及所述第二数据序列中一个数据序列来补偿另一个数据序列中的所述损失或错误；以及偏移量计算部件，计算使所述相关度最大的声音采样的偏移量，所述补偿部件根据所述比较部件的比较结果决定是否进行所述补偿，在决定进行所述补偿时，基于计算出的偏移量进行所述补偿。

本发明的声音数据发送方法发送包含与第一声道对应的第一数据序列和与第二声道对应的第二数据序列的多声道的声音数据序列，其中，该声音数据发送方法包括：延迟步骤，对所述声音数据序列施加延迟处理，该延迟处理使所述第一数据序列比所述第二数据序列延迟规定的延迟量；多路复用步骤，使被施加了所述延迟处理的所述声音数据序列多路复用；以及发送步骤，发送被多路复用了的所述声音数据序列。

本发明的声音数据接收方法具有：接收步骤，接收包含与第一声道对应的第一数据序列和与第二声道对应的第二数据序列的多声道的声音数据序列，所述第一数据序列以比所述第二数据序列延迟了规定的延迟量的状态被多路复用；分离步骤，按每个声道分离接收到的所述声音数据序列；以及解码步骤，按每个声道将被分离了的所述声音数据序列解码，所述解码步骤具有：相关度计算步骤，计算所述第一数据序列的解码结果和所述第二数据序列的解码结果之间的相关度；比较步骤，将计算出的相关度与规定的阈值进行比较；补偿步骤，用于在所述声音数据序列中发生损失或错误的情况下，在所述声音数据序列被解码时，使用所述第一数据序列以及所述第二数据序列中一个数据序列来补偿另一个数据序列中的所述损失或错误；以及偏移量计算步骤，计算使所述相关度最大的声音采样的偏移量，在所述补偿步骤中根据所述比较步骤的比较结果决定是否进行所述补偿，在决定进行所述补偿时，基于计算出的偏移量进行所述补偿。

根据本发明，能够实现高质量的帧补偿。

附图说明

图1是用于说明以往的声音通信系统中的声音处理动作的一例的图。

图2A是表示本发明的实施方式1的声音数据发送装置的结构的方框图。

图2B是表示本发明的实施方式1的声音数据接收装置的结构的方框图。

图3是表示本发明的实施方式1的声音数据接收装置中的声音解码单元的内部结构的方框图。

图4是是用于说明本发明的实施方式1的声音数据发送装置以及声音数据接收装置中的动作的图。

图5是表示本发明的实施方式2的声音数据接收装置中的声音解码单元的内部结构的方框图。

图6是表示本发明的实施方式3的声音数据接收装置中的声音解码单元的内部结构的方框图。

图7是表示本发明的实施方式3的声音数据接收装置中的声音解码单元的内部结构的变形例的方框图。

具体实施方式

以下，使用附图详细地说明本发明的实施方式。

(实施方式1)

图2A以及图2B是分别表示本发明的实施方式1的声音数据发送装置以及声音数据接收装置的结构的方框图。另外，在本实施方式中，从声源端输入的多声道的声音信号具有包含左声道(L-ch)以及右声道(R-ch)的两个声道，即该声音信号是立体声信号。因此，图2A以及图2B中分别所示的声音数据发送装置10以及声音数据接收装置20中分别设有左右声道用的两个处理系统。但是，声音信号的声道数不限定为两个。在声道数为三个以上的情况下，通过在发送端以及接收端分别设置三个以上的处理系统，能够实现与本实施方式同样的作用效果。

图2A所示的声音数据发送装置10具有声音编码单元102、延迟单元104、多路复用单元106以及发送单元108。

声音编码单元102将输入的多声道的声音信号编码并输出编码数据。该编码按每个声道独立进行。在以下的说明中，将L-ch的编码数据称作‘L-ch编码数据’，将R-ch的编码数据称作‘R-ch编码数据’。

延迟单元104将来自声音编码单元102的L-ch编码数据延迟1声音帧并输出到多路复用单元106。即，延迟单元104被配置在声音编码单元102的后级。这样，由于延迟处理被配置在声音编码处理的后级，因此可以对被编码后的数据进行延迟处理，与延迟处理被配置在声音编码处理的前级的情况相比能够简化处理。

另外，由延迟单元104进行的延迟处理中的延迟量优选以声音帧的单位设定，但不限定于1声音帧。但是，本实施方式的包含声音数据发送装置10以及声音数据接收装置20的声音通信系统例如以不仅将音频数据等的流而且将实时的声音通信作为主要的用途为前提。从而，为了防止由于将延迟量设定为大的值从而对通信质量带来不良的影响，在本实施方式中，将延迟量预先设定为最小值即1声音帧。

此外，在本实施方式中，延迟单元104仅使L-ch编码数据延迟，但对于声音数据的延迟处理的施加方法不限定于此。例如，延迟单元104的结构也可以是不仅L-ch编码数据延迟而且R-ch编码数据也延迟，其延迟量的差以声音帧的单位被设定。此外，也可以仅将R-ch延迟来代替将L-ch延迟。

多路复用单元106通过将来自延迟单元104的L-ch编码数据以及来自声音编码单元102的R-ch编码数据多路复用为规定的格式(例如与以往技术同样的格式)从而将多声道的声音数据分组化。即，在本实施方式中，例如具有帧号N的L-ch编码数据与具有帧号N+1的R-ch编码数据被多路复用。

发送单元108对来自多路复用单元106的声音数据施加根据直到声音数据接收装置20为止的传输路径而预先决定的发送处理，并发送到声音数据接收装置20。

另一方面，图2B所示的声音数据接收装置20具有接收单元110、声音数据损失检测单元112、分离单元114、延迟单元116以及声音解码单元118。声音解码单元118具有帧补偿单元120。图3是表示声音解码单元118的更详细的结构的方框图。图3所示的声音解码单元118除了帧补偿单元120之外还具有L-ch解码单元122以及R-ch解码单元124。此外，在本实施方式中，帧补偿单元120具有切换单元126以及叠加单元128，叠加单元128具有L-ch叠加单元130以及R-ch叠加单元132。

接收单元110对经由传输路径从声音数据发送装置10接收到的接收声音数据施加规定的接收处理。

声音数据损失检测单元112检测由接收单元110施加了接收处理的接收声音数据中是否发生了损失或错误(以下将‘损失或错误’统称为‘损失’)。在检测出发生损失的情况下，损失标记被输出到分离单元114、切换单元126以及叠加单元128。损失标记表示在分别构成L-ch编码数据以及R-ch编码数据的各个的声音帧序列中损失了哪个声音帧。

分离单元114根据是否从声音数据损失检测单元112输入了损失标记，按每个声道分离来自接收单元110的接收声音数据。通过分离得到的L-ch编码数据以及R-ch编码数据分别被输出到L-ch解码单元122以及延迟单元116。

延迟单元116对应于在发送端延迟L-ch，为了使L-ch和R-ch的时刻关系一致(复原)，将来自分离单元114的R-ch编码数据延迟1声音帧并输出到R-ch解码单元124。

另外，由延迟单元116进行的延迟处理中的延迟量优选以声音帧的单位进行，但不限定为1声音帧。延迟单元116中的延迟量被设定为与声音数据发送装置10中的延迟单元104中的延迟量相同的值。

此外，在本实施方式中，延迟单元116仅将R-ch编码数据延迟，但只要是使L-ch和R-ch的时刻关系一致的处理，对于声音数据的延迟处理的施加方法不限定于此。例如，延迟单元116也可以具有以下的结构，即不仅将R-ch编码数据延迟而且将L-ch编码数据延迟，该延迟量的差以声音帧的单位被设定。此外，在发送端将R-ch延迟的情况下，在接收端将L-ch延迟。

在声音解码单元118中，进行用于将多声道的声音数据按每个声道解码的处理。

在声音解码单元118中，L-ch解码单元122将来自分离单元114的L-ch编码数据解码，通过解码得到的L-ch解码声音信号被输出。由于L-ch解码单元122的输出端和L-ch叠加单元130的输入端始终连接，所以始终进行L-ch解码声音信号对L-ch叠加单元130的输出。

R-ch解码单元124将来自延迟单元124的R-ch编码数据解码，通过解码得到的R-ch解码声音信号被输出。由于R-ch解码单元124的输出端和R-ch叠加单元132的输入端始终连接，所以始终进行R-ch解码声音信号对R-ch叠加单元132的输出。

在从声音数据损失检测单元112输入了损失标记时，切换单元126按照损失标记所示的信息内容切换L-ch解码单元122和R-ch叠加单元132的连接状态以及R-ch解码单元124和L-ch叠加单元130的连接状态。

更具体的说，例如在表示属于L-ch编码数据并相当于帧号K₁的声音帧损失了的损失标记被输入的情况下，将R-ch解码单元124的输出端与L-ch叠加单元130的输入端连接，以使来自R-ch解码单元124的R-ch解码声音信号中，通过将相当于帧号K₁的声音帧解码而得到的R-ch解码声音信号不仅被输出到R-ch叠加单元132而且被输出到L-ch叠加单元130。

此外，例如在表示属于R-ch编码数据并相当于帧号K₂的声音帧损失了的损失标记被输入的情况下，将L-ch解码单元122的输出端与R-ch叠加单元132的输入端连接，以使来自L-ch解码单元122的L-ch解码声音信号中，通过将相当于帧号K₂的声音帧解码而得到的L-ch解码声音信号不仅被输出到L-ch叠加单元130而且被输出到R-ch叠加单元132。

在叠加单元128中，根据来自声音数据损失检测单元112的损失标记，对多声道的解码声音信号施加后述的叠加处理。另外，更具体的说，来自声音数据损失检测单元112的损失标记被输入到L-ch叠加单元130以及R-ch叠加单元132两者。

在损失标记未被输入的情况下，L-ch叠加单元130原样输出来自L-ch解码单元122的L-ch解码声音信号。被输出的L-ch解码声音信号例如通过未图示的后级的声音输出处理被变换为声波而输出。

此外，例如在表示属于R-ch编码数据并相当于帧号K₂的声音帧损失了的损失标记被输入的情况下，L-ch叠加单元130原样输出L-ch解码声音信号。被输出的L-ch解码声音信号例如被输出到所述声音输出处理级。

此外，例如在表示属于L-ch编码数据并相当于帧号K₁的声音帧损失了的损失标记被输入的情况下，L-ch叠加单元130将补偿信号(L-ch补偿信号)和R-ch解码声音信号叠加，补偿信号(L-ch补偿信号)由L-ch解码单元122使用直到帧号K₁-1为止的声音帧的编码数据或解码声音信号通过以往的一般的方法进行帧号K₁的帧的补偿而得到，R-ch解码声音信号由R-ch解码单元124将相当于帧号K₁的声音帧解码而得到。叠加这样进行，例如使在帧号K₁的帧两端附近L-ch补偿信号权重大，除此以外使R-ch解码信号的权重大。这样，与帧号K₁对应的L-ch解码声音信号被复原，对于帧号K₁的声音帧(L-ch编码数据)的帧补偿处理完成。被复原了的L-ch解码声音信号例如被输出到前述的声音输出处理级。

另外，作为叠加单元中的动作，不使用如上述的L-ch补偿信号和R-ch补偿信号而使用L-ch的帧号K₁-1的解码信号的后端的一部分和R-ch的帧号K₁-1的解码信号的后端进行叠加，并将其结果作为L-ch的帧号K₁-1的解码信号的后端的信号，而帧号K₁的帧原样输出R-ch的解码信号也可以。

在未输入损失标记的情况下，R-ch叠加单元132原样输出来自R-ch解码单元124的R-ch解码声音信号。输出的R-ch解码声音信号例如被输出到前述声音输出处理级。

此外，例如在表示属于L-ch编码数据并相当于帧号K₁的声音帧损失了的损失标记被输入的情况下，R-ch叠加单元132原样输出R-ch解码声音信号。被输出的R-ch解码声音信号例如被输出到前述声音输出处理级。

此外，例如在表示属于R-ch编码数据并相当于帧号K₂的声音帧损失了的损失标记被输入的情况下，R-ch叠加单元132将补偿信号(R-ch补偿信号)和L-ch解码声音信号叠加，补偿信号(R-ch补偿信号)由R-ch解码单元124使用直到帧号K₂-1为止的声音帧的编码数据或解码声音信号进行帧号K₂的帧的补偿而得到，L-ch解码声音信号由L-ch解码单元122将相当于帧号K₂的声音帧解码而得到。叠加这样进行，例如使在帧号K₂的帧两端附近R-ch补偿信号权重大，除此以外使L-ch补偿信号的权重大。这样，与帧号K₂对应的R-ch解码声音信号被复原，对于帧号K₂的声音帧(R-ch编码数据)的帧补偿处理完成。被复原了的R-ch解码声音信号例如被输出到前述的声音输出处理级。

通过进行如前述的叠加处理能够抑制在相同声道的连续的声音帧间解码结果产生不连续性。

这里，说明在声音数据接收装置20的内部结构中，作为声音解码单元118采用依赖于过去的声音帧的解码状态，使用该状态数据进行接着的声音帧的解码的编码方式的情况。在该情况下，在L-ch解码单元122中，在对产生了损失的声音帧的接着(下一个)的声音帧进行通常的解码处理时，取得由R-ch解码单元124将产生了该损失的声音帧的补偿所使用的R-ch编码数据解码时得到的状态数据，并用于该接着的声音帧的解码也可以。这样，可以避免帧间的不连续性。这里，通常的解码处理表示对未产生损失的声音帧进行的解码处理。

此外，在该情况下，在R-ch解码单元124中，在对产生了损失的声音帧的接着(下一个)的声音帧进行通常的解码处理时，取得由L-ch解码单元122将产生了该损失的声音帧的补偿所使用的L-ch编码数据解码时得到的状态数据，并用于该接着的声音帧的解码也可以。这样，可以避免帧间的不连续性。

另外，作为状态数据，例如，有(1)在采用CELP(Code Excited LinearPrediction)方式作为声音编码方式的情况下的例如自适应码簿或LPC合成滤波器状态等，(2)ADPCM(Adaptive Differential Pulse Code Modulation)方式这样的预测波形编码中的预测滤波器的状态数据，(3)将频谱参数等参数用预测量化方法量化的情况下的该预测滤波器状态，(4)在使用FFT(FastFourier Transform)或MDCT(Modified Discrete Cosine Transform)等的变换编码方式中在邻接帧间将解码波形叠加而得到最终解码声音波形这样的结构中之前帧解码波形数据等，使用这些状态数据对产生了损失的声音帧的接着(下一个)的声音帧进行通常的声音解码也可以。

接着，说明具有上述结构的声音数据发送装置10以及声音数据接收装置20中的动作。图4是用于说明本实施方式的声音数据发送装置10以及声音数据接收装置20的动作的图。

被输入到声音编码单元102的多声道的声音信号由L-ch的声音信号的序列以及R-ch的声音信号的序列构成。如图所示，与互相相同的帧号对应的L-ch以及R-ch的各声音信号(例如，L-ch的声音信号SL(n)以及R-ch的声音信号SR(n))同时被输入到声音编码单元102。与互相相同的帧号对应的各声音信号是最终应同时作为声波被声音输出的声音信号。

多声道的声音信号由声音编码单元102、延迟单元104以及多路复用单元106施加各处理，成为发送声音数据。如图所示，发送声音数据是将L-ch编码数据以比R-ch编码数据延迟1声音帧的状态多路复用的数据。例如，L-ch编码数据CL(n-1)与R-ch编码数据CR(n)被多路复用。这样，声音数据被分组化。生成的发送声音数据从发送端被发送到接收端。

从而，由声音数据接收装置20接收到的接收声音数据如图所示，成为将L-ch编码数据以比R-ch编码数据延迟1声音帧的状态多路复用的数据。例如，L-ch编码数据CL’(n-1)与R-ch编码数据CR’(n)被多路复用。

这样的多声道的接收声音数据由分离单元114、延迟单元116以及声音解码单元118施加各处理，成为解码声音信号。

这里，在由声音数据接收装置20接收到的接收声音数据中，假定L-ch编码数据CL’(n-1)与R-ch编码数据CR’(n)中发生损失。

在该情况下，由于具有与编码数据CL’(n-1)同一帧号的R-ch编码数据CR’(n-1)以及具有与编码数据CR’(n)同一帧号的L-ch编码数据CL(n)被接收而没有损失，所以在与帧号n对应的多声道的声音信号被声音输出时能够确保一定的音质。

进而，声音帧CL’(n-1)产生损失时，对应的解码声音信号SL’(n-1)也损失，但由于与编码数据CL’(n-1)同一帧号的R-ch编码数据CR’(n-1)被接收而没有损失，所以通过使用由编码数据CR’(n-1)解码的解码声音信号SR’(n-1)进行帧补偿，从而解码声音信号SL’(n-1)被复原。此外，声音帧CR’(n)产生损失时，对应的解码声音信号SR’(n)也损失，但由于与编码数据CR’(n)同一帧号的L-ch编码数据CL(n)被接收而没有损失，所以通过使用由编码数据CL’(n)解码的解码声音信号SL’(n)进行帧补偿，从而解码声音信号SR’(n)被复原。通过进行这样的帧补偿能够实现被复原的音质的改善。

这样，根据本实施方式，在发送端，将被施加了如将L-ch编码数据比R-ch编码数据延迟1声音帧这样的延迟处理的多声道的声音数据多路复用。另一方面，在接收端，按声道分离在L-ch编码数据比R-ch编码数据延迟1声音帧的状态下被多路复用的多声道的声音数据，在分离出的编码数据发生了损失或错误的情况下，使用L-ch编码数据以及R-ch编码数据中一个数据序列补偿另一个数据序列中的损失或错误。因此，在接收端，即使在声音帧中发生了损失或错误时，也能够正确地接收多声道的至少一个声道，能够使用该声道进行其它的声道的帧补偿，能够实现高质量的帧补偿。

由于可以使用其它的声道的声音帧来复原某一声道的声音帧，因此可以提高多声道中包含的各声道的帧的补偿性能。如果实现如前述的作用效果，则能够维持由立体声信号表现的‘声音的方向性’。从而，例如在近来广泛利用的与处于远距离的人的电话会议中，能够使所听到的对方的声音具有临场感。

另外，在本实施方式中，以在声音编码单元102的后级延迟单个声道的数据的结构为例进行了说明，但能够实现本实施方式的效果的结构不限定于此。例如，也可以是在声音编码单元102的前级延迟单个声道的数据的结构。在该情况下，设定的延迟量不限定于声音帧的单位。例如，也可以使延迟量短于1声音帧。例如，将1声音帧设为20ms时，可以将延迟量设定为0.5声音帧(10ms)。

(实施方式2)

图5是表示本发明的实施方式2的声音数据接收装置中的声音解码单元的结构的方框图。另外，本实施方式的声音数据发送装置以及声音数据接收装置具有与实施方式1中说明的相同的基本结构，因此对同一或对应的构成元件赋予同一参照符号并省略其详细说明。本实施方式和实施方式1的不同点仅是声音解码单元的内部结构。

图5所示的声音解码单元118具有帧补偿单元120。帧补偿单元120具有切换单元202、L-ch解码单元204以及R-ch解码单元206。

在从声音数据损失检测单元112输入了损失标记时，切换单元202根据损失标记所示的信息内容，切换分离单元114和R-ch解码单元206的连接状态以及延迟单元116和L-ch解码单元204的连接状态。

更具体的说，例如在未输入损失标记的情况下，将分离单元114的L-ch的输出端与L-ch解码单元204的输入端连接，以便来自分离单元114的L-ch编码数据仅被输出到L-ch解码单元204。此外，在未输入损失标记的情况下，将延迟单元116的输出端与R-ch解码单元206的输入端连接，以便来自延迟单元116的R-ch编码数据仅被输出到R-ch解码单元206。

此外，例如，在表示属于L-ch编码数据并相当于帧号K₁的声音帧损失了的损失标记被输入的情况下，将延迟单元116的输出端与L-ch解码单元204以及R-ch解码单元206两者的输入端连接，以使来自延迟单元116的R-ch编码数据中相当于帧号K₁的声音帧不仅被输出到R-ch解码单元206也被输出到L-ch解码单元204。

此外，例如，在表示属于R-ch编码数据并相当于帧号K₂的声音帧损失了的损失标记被输入的情况下，将分离单元114的输出端与R-ch解码单元206以及L-ch解码单元204两者的输入端连接，以使来自分离单元114的L-ch编码数据中相当于帧号K₂的声音帧不仅被输出到L-ch解码单元204也被输出到R-ch解码单元206。

在输入来自分离单元114的L-ch编码数据的情况下，L-ch解码单元204将该L-ch编码数据解码。将该解码结果作为L-ch解码声音信号输出。换言之，该解码处理是通常的声音解码处理。

此外，在输入来自延迟单元116的R-ch编码数据的情况下，L-ch解码单元204将该R-ch编码数据解码。这样，通过由L-ch解码单元204将R-ch编码数据解码，从而可以将与发生损失的L-ch编码数据对应的声音信号复原。被复原了的声音信号被作为L-ch解码声音信号输出。即，该解码处理是用于帧补偿的声音解码处理。

在输入来自延迟单元116的R-ch编码数据的情况下，R-ch解码单元206将该R-ch编码数据解码。将该解码结果作为R-ch解码声音信号输出。换言之，该解码处理是通常的声音解码处理。

此外，在输入来自分离单元114的L-ch编码数据的情况下，R-ch解码单元206将该L-ch编码数据解码。这样，通过由R-ch解码单元206将L-ch编码数据解码，从而可以将与发生损失的R-ch编码数据对应的声音信号复原。被复原了的声音信号被作为R-ch解码声音信号输出。即，该解码处理是用于帧补偿的声音解码处理。

(实施方式3)

图6是表示本发明的实施方式3的声音数据接收装置中的声音解码单元的结构的方框图。另外，本实施方式的声音数据发送装置以及声音数据接收装置具有与实施方式1中说明的相同的基本结构，因此对同一或对应的构成元件赋予同一参照符号并省略其详细说明。本实施方式和实施方式1的不同点仅是声音解码单元的内部结构。

图6所示的声音解码单元118具有帧补偿单元120。帧补偿单元120具有切换单元302、L-ch帧补偿单元304、L-ch解码单元306、R-ch解码单元308、R-ch帧补偿单元310以及相关度判定单元312。

切换单元302根据有无从声音数据损失检测单元112输入损失标记、输入的损失标记所表示的信息内容以及有无从相关度判定单元312输入指示信号，切换分离单元114和L-ch解码单元306以及R-ch解码单元308之间的连接关系。此外，同样切换延迟单元116和L-ch解码单元306以及R-ch解码单元308之间的连接关系。

更具体的说，例如在未输入损失标记的情况下，将分离单元114的L-ch的输出端与L-ch解码单元306的输入端连接，以便来自分离单元114的L-ch编码数据仅被输出到L-ch解码单元306。此外，在未输入损失标记的情况下，将延迟单元116的输出端与R-ch解码单元308的输入端连接，以便来自延迟单元116的R-ch编码数据仅被输出到R-ch解码单元308。

如上所述，在未输入损失标记的情况下，连接关系不依赖于来自相关度判定单元312的指示信号，但在输入了损失标记的情况下，连接关系也依赖于指示信号。

例如，在输入了表示帧号K₁的L-ch编码数据损失了的损失标记的情况下，存在指示信号的输入时，将延迟单元116的输出端连接到L-ch解码单元306以及R-ch解码单元308的两者的输入端，以便来自延迟单元116的帧号K₁的R-ch编码数据不仅被输出到R-ch解码单元308而且被输出到L-ch解码单元306。

相对于此，在输入了表示帧号K₁的L-ch编码数据损失了的损失标记的情况下，在没有指示信号的输入时，将分离单元114的L-ch的输出端和L-ch解码单元306以及R-ch解码单元308之间的连接开路。

此外，例如，在输入了表示帧号K₂的R-ch编码数据损失了的损失标记的情况下，存在指示信号的输入时，将分离单元114的L-ch的输出端连接到R-ch解码单元308以及L-ch解码单元306的两者的输入端，以便来自分离单元114的帧号K₂的L-ch编码数据不仅被输出到L-ch解码单元306而且被输出到R-ch解码单元308。

相对于此，在输入了表示帧号K₂的R-ch编码数据损失了的损失标记的情况下，在没有指示信号的输入时，将延迟单元116的输出端和L-ch解码单元306以及R-ch解码单元308之间的连接开路。

在输入了表示L-ch或R-ch的编码数据损失了的损失标记的情况下，在没有指示信号的输入时，L-ch帧补偿单元304以及R-ch帧补偿单元310，与以往的一般的方法同样，进行使用直到同一声道的前帧为止的信息的帧补偿，将补偿数据(编码数据或解码信号)分别输出到L-ch解码单元306以及R-ch解码单元308。

在输入来自分离单元114的L-ch编码数据的情况下，L-ch解码单元306将该L-ch编码数据解码。将该解码结果作为L-ch解码声音信号输出。换言之，该解码处理是通常的声音解码处理。

此外，在有损失标记的输入的情况下，在来自延迟单元116的R-ch编码数据被输入时，L-ch解码单元306将该R-ch编码数据解码。这样，通过由L-ch解码单元306将R-ch编码数据解码，可以将与发生了损失的L-ch编码数据对应的声音信号复原。被复原了的声音信号被作为L-ch解码声音信号输出。即，该解码处理是用于帧补偿的声音解码处理。

进而，在有损失标记的输入的情况下，在输入了来自L-ch帧补偿单元304的补偿数据时，L-ch解码单元306进行如下的解码处理。即，在作为该补偿数据输入了编码数据的情况下将该编码数据解码，在输入了补偿解码信号的情况下将该信号原样作为输出信号。这样进行时，也可以复原与发生了损失的L-ch编码数据对应的声音信号。被复原了的声音信号被作为L-ch解码声音信号输出。

在输入了来自延迟单元116的R-ch编码数据的情况下，R-ch解码单元308将该R-ch编码数据解码。将该解码结果作为R-ch解码声音信号输出。换言之，该解码处理是通常的声音解码处理。

此外，在有损失标记的输入的情况下，在输入了来自分离单元114的L-ch编码数据时，R-ch解码单元308将该L-ch编码数据解码。这样，通过由R-ch解码单元308将L-ch编码数据解码，可以将与发生了损失的R-ch编码数据对应的声音信号复原。被复原了的声音信号被作为R-ch解码声音信号输出。即，该解码处理是用于帧补偿的声音解码处理。

进而，在有损失标记的输入的情况下，在输入了来自R-ch帧补偿单元310的补偿数据时，R-ch解码单元308进行如下的解码处理。即，在作为该补偿数据输入了编码数据的情况下将该编码数据解码，在输入了补偿解码信号的情况下，将该信号原样作为输出信号。这样进行时，也可以复原与发生了损失的R-ch编码数据对应的声音信号。被复原了的声音信号被作为R-ch解码声音信号输出。

相关度判定单元312使用接着的算式(1)计算L-ch解码声音信号和R-ch解码声音信号之间的相关度Cor。

[算式1]

Cor = Σ_{i = 1}^{L} {sL}^{'} (- i) \cdot {sR}^{'} (- i) \cdot \cdot \cdot (1)

这里，sL’(i)以及sR’(i)分别是L-ch解码声音信号以及R-ch解码声音信号。通过上述算式(1)计算从补偿帧的L采样前的声音采样值到1采样前的(即前一个)声音采样值为止的区间中的相关度Cor。

此外，相关度判定单元312将计算出的相关度Cor与规定的阈值进行比较。该比较的结果，在相关度Cor比规定的阈值高的情况下，判定为L-ch解码声音信号和R-ch解码声音信号之间的相关高。而且，对切换单元302输出用于指示在产生了损失时使用互相的声道的编码数据的指示信号。

另一方面，相关度判定单元312将计算出的相关度Cor与规定的阈值进行比较的结果，在相关度Cor小于等于阈值的情况下，判定为L-ch解码声音信号和R-ch解码声音信号之间的相关低。而且，为了在产生损失时使用同一声道的编码数据，不进行向切换单元302的指示信号的输出。

这样，根据本实施方式，将L-ch解码声音信号和R-ch解码声音信号之间的相关度Cor与规定的阈值进行比较，根据该比较的结果，决定是否进行使用互相的声道的编码数据的帧补偿，因此可以仅在声道间的相关高时才进行基于互相的声道的声音数据的补偿，能够防止在相关低时使用互相的声道的声音数据进行帧补偿而引起补偿质量的劣化。此外，在本实施方式中，由于在相关低时进行基于同一声道的声音数据的补偿，因此能够持续维持帧补偿的质量。

另外，在本实施方式中，以将相关度判定单元312设置在进行帧补偿时使用编码数据的实施方式2中的帧补偿单元120中的情况为例进行了说明。但是，设置相关度判定单元312的帧补偿单元120的结构不限定于此。例如，即使在将相关度判定单元312设置在进行帧补偿时使用解码声音的帧补偿单元120(实施方式1)中的情况下，也可以实现同样的作用效果。

图7表示该情况下的结构图。该情况下的动作相对于实施方式1中的图3中的结构的动作，主要是切换单元126的动作不同。即，根据损失标记和来自相关度判定单元312的输出——指示信号的结果对切换单元126中的连接状态进行切换。例如，表示L-ch编码数据损失的损失标记被输入的情况下且有指示信号的输入时，由L-ch帧补偿单元304得到的补偿信号和R-ch的解码信号被输入到L-ch叠加单元130并被进行叠加。此外，在输入了表示L-ch编码数据损失的损失标记的情况下且没有指示信号的输入时，仅有由L-ch帧补偿单元304得到的补偿信号被输入到L-ch叠加单元130并被原样输出。对R-ch编码数据输入损失标记时的动作也与所述R-ch的情况同样。

在有帧损失标记的输入的情况下，L-ch帧补偿单元304使用直到损失帧的前帧为止的L-ch信息进行与以往的一般的方法同样的帧补偿处理，并将补偿数据(编码数据或解码信号)输出到L-ch解码单元122，L-ch解码单元122输出补偿帧的补偿信号。此时，在作为该补偿数据输入了编码数据的情况下，使用该编码数据进行解码，在输入了补偿解码信号的情况下将该信号原样作为输出信号。此外，在由L-ch帧补偿单元304进行补偿处理时，也可以使用L-ch解码单元122中的直到前帧为止的解码信号或状态数据，或使用直到L-ch叠加单元130的前帧为止的输出信号。R-ch帧补偿单元310的动作也与L-ch的情况同样。

此外，在本实施方式中，相关度判定单元312进行规定区间的相关度Cor的计算处理，但相关度判定单元312中的相关度计算处理方法不限定于此。

例如，举出使用接着的算式(2)来计算L-ch解码声音信号和R-ch解码声音信号的相关度的最大值Cor_max的方法。在该情况下，将最大值Cor_max与规定的阈值进行比较，在最大值Cor_max超过该阈值的情况下，判定为声道间的相关高。通过这样，能够实现与上述同样的作用效果。

而且，在判定为相关高的情况下，进行使用另一声道的编码数据的帧补偿。此时，也可以将帧补偿所使用的其它声道的解码声音偏移得到最大值Cor_max的偏移量(即声音采样数)之后使用。

得到最大值Cor_max的声音采样的偏移量τ_max通过使用接着的算式(3)计算。而且，在进行L-ch的帧补偿的情况下，使用将R-ch的解码信号在正的时间方向上偏移了偏移量τ_max后的信号。反之，在进行R-ch的帧的补偿的情况下，使用将L-ch的解码信号在负的时间方向上偏移了偏移量τ_max后的信号。

[算式2]

Cor_\max = \max {Σ_{i = 1}^{L} {sL}^{'} (- i - M) \cdot {sR}^{'} (- i - M - k)} (k : - M ~ M) \cdot \cdot \cdot (2)

[算式3]

τ_\max = \underset{k}{\arg \max} {Σ_{i = 1}^{L} {sL}^{'} (- i - M) \cdot {sR}^{'} (- i - M - k)} (k : - M ~ M) \cdot \cdot \cdot (3)

这里，在上述算式(2)以及(3)中，sL’(i)以及sR’(i)分别是L-ch解码声音信号以及R-ch解码声音信号。此外，从L+M采样前的声音采样值到1采样前(即前一个)声音采样值为止的区间中的L采样部分成为计算对象区间。此外，从-M采样到M采样的声音采样部分的偏移量成为计算对象范围。

由此，可以使用偏移了使相关度为最大的偏移量的其它声道的声音数据进行帧补偿，并且更准确地取得被补偿的声音帧和其前后的声音帧的帧间匹配。

另外，偏移量τ_max可以是声音采样数单位的整数值或提高了声音采样值间的分辨率的小数值。

进而，关于相关度判定单元312的内部结构，也可以是在内部具有振幅校正值计算单元的结构，该振幅校正值计算单元使用L-ch数据序列的解码结果和R-ch数据序列的解码结果，计算对于帧补偿所使用的另一数据序列的声音数据的解码结果的振幅校正值。在该情况下，在声音解码单元118中设有振幅校正单元，用于使用计算出的振幅校正值来校正该另一个数据序列的声音数据的解码结果的振幅。而且，在使用其它信道的声音数据进行帧补偿时，也可以使用该校正值校正该解码信号的振幅。另外，振幅校正值计算单元的配置在声音解码单元118的内部即可，不限定于相关度判定单元312的内部。

在进行振幅值校正的情况下，例如，求出使算式(4)的D(g)最小的g。然后，将求出的g的值(＝g_opt)作为振幅校正值。在进行L-ch的帧补偿的情况下，使用对R-ch的解码信号乘以振幅校正值g_opt后的信号。反之，在进行R-ch的帧补偿的情况下，使用对L-ch的解码信号乘以振幅校正值的倒数l/g_opt后的信号。

[算式4]

D (g) = Σ_{i = 1}^{L} {s L^{'} (- i - M) - g \cdot {sR}^{'} (- i - M - τ_\max)}^{2} \cdot \cdot \cdot (4)

这里，τ_max是由算式(3)得到的相关度最大时的声音采样的偏移量。

另外，振幅校正值的计算方法不限定于算式(4)，也可以通过a)将使式(5)的D(g)为最小的g作为该振幅校正值，b)求使算式(6)的D(g，k)最小的偏移量k和g，将此时的g作为振幅校正值，c)将对于该补偿帧之前为止的规定区间的L-ch和R-ch的解码信号的功率的平方根(或平均振幅值)的比作为校正值等方法来计算。

[算式5]

D (g) = Σ_{i = 1}^{L} {s L^{'} (- i) - g \cdot s R^{'} (- i)}^{2} \cdot \cdot \cdot (5)

[算式6]

D (g, k) = Σ_{i = 1}^{L} {s L^{'} (- i - M) - g \cdot {sR}^{'} (- i - M - k)}^{2} (k : - M ~ M) \cdot \cdot \cdot (6)

由此，使用其它声道的声音数据进行帧补偿时，通过将该解码信号的振幅进行了校正后用于补偿，可以进行具有更适当的振幅的补偿。

另外，上述各实施方式的说明中使用的各功能块典型地通过集成电路的LSI来实现。它们可以是单独地1芯片化，也可以包含一部分或全部地进行1芯片化。

这里，虽然称作LSI，但由于集成度的不同，有时也称作IC、系统LSI、超级LSI、极大LSI。

此外，集成电路化的方法不限于LSI，也可以通过专用电路或通用处理器来实现。在LSI制造后，也可以利用可编程的FPGA(Field Program MableGate Array，现场可编程门阵列)或可再配置LSI内部的电路单元的连接或设定的可重配置处理器(Reconfigurable Processor)。

进而，如果由于半导体技术的进步或派生的其它技术而产生代替LSI的集成电路化的技术，则当然也可以使用该技术来进行功能块的集成化。生物技术的适应等也有可能性。

本说明书基于2004年6月2日申请的日本专利特愿2004-165016。其内容全部包含于此。

产业上的可利用性

本发明的声音数据发送/接收装置以及声音数据发送/接收方法能用于进行存在错误的声音数据或损失了的声音数据的补偿处理的声音通信系统等中。

Claims

1.一种声音数据接收装置，具有：

接收部件，接收包含与第一声道对应的第一数据序列和与第二声道对应的第二数据序列的多声道的声音数据序列，所述第一数据序列以比所述第二数据序列延迟了规定的延迟量的状态被多路复用；

分离部件，按每个声道分离接收到的所述声音数据序列；以及

解码部件，按每个声道将被分离了的所述声音数据序列解码，

其中，所述解码部件具有：

相关度计算部件，计算所述第一数据序列的解码结果和所述第二数据序列的解码结果之间的相关度；

比较部件，将计算出的相关度与规定的阈值进行比较；

补偿部件，在所述声音数据序列中发生了损失或错误的情况下，在所述声音数据序列被解码时，使用所述第一数据序列以及所述第二数据序列中的一个数据序列来补偿另一个数据序列中的所述损失或错误；以及

偏移量计算部件，计算使所述相关度最大的声音采样的偏移量，

所述补偿部件根据所述比较部件的比较结果决定是否进行所述补偿，在决定进行所述补偿时，基于计算出的偏移量进行所述补偿。

2.如权利要求1所述的声音数据接收装置，其中，

各数据序列构成以帧为单位的声音数据的序列，

所述补偿部件通过将使用属于所述另一个数据序列的直到发生了所述损失或错误的声音数据之前为止的声音数据进行了解码的结果和属于所述一个数据序列的声音数据的解码结果进行叠加，从而进行所述补偿。

3.如权利要求1所述的声音数据接收装置，还具有：

振幅校正值计算部件，使用所述第一数据序列的解码结果和所述第二数据序列的解码结果，计算对于上述补偿所使用的所述另一个数据序列的声音数据的解码结果的振幅校正值；以及

振幅校正部件，使用所述振幅校正值校正所述另一个数据序列的声音数据的解码结果的振幅。

4.如权利要求1所述的声音数据接收装置，其中，

各数据序列构成以帧为单位的声音数据的序列，

所述解码部件在对位于属于所述另一个数据序列的声音数据中发生了所述损失或错误的声音数据紧接着之后的声音数据进行解码时，使用在将所述补偿所使用的所述一个数据序列的声音数据进行解码时所得到的解码状态数据进行解码。

5.一种声音数据接收方法，具有：

接收步骤，接收包含与第一声道对应的第一数据序列和与第二声道对应的第二数据序列的多声道的声音数据序列，所述第一数据序列以比所述第二数据序列延迟了规定的延迟量的状态被多路复用；

分离步骤，按每个声道分离接收到的所述声音数据序列；以及

解码步骤，按每个声道将被分离了的所述声音数据序列解码，

其中，所述解码步骤具有：

相关度计算步骤，计算所述第一数据序列的解码结果和所述第二数据序列的解码结果之间的相关度；

比较步骤，将计算出的相关度与规定的阈值进行比较；

补偿步骤，在所述声音数据序列中发生了损失或错误的情况下，在所述声音数据序列被解码时，使用所述第一数据序列以及所述第二数据序列中的一个数据序列来补偿另一个数据序列中的所述损失或错误；以及

偏移量计算步骤，计算使所述相关度最大的声音采样的偏移量，

在所述补偿步骤中根据所述比较步骤的比较结果决定是否进行所述补偿，在决定进行所述补偿时，基于计算出的偏移量进行所述补偿。