CN1947407A

CN1947407A - 音频通信方法和装置

Info

Publication number: CN1947407A
Application number: CNA2005800128786A
Authority: CN
Inventors: 出井洋明; 小泽一范; 中泽达也; 小山和广
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-04-09
Filing date: 2005-04-08
Publication date: 2007-04-11
Also published as: JP4367657B2; US20070223660A1; WO2005099243A1; EP1742455A1; KR20070001267A; JPWO2005099243A1

Abstract

一种音频通信装置(201)包括多个编码单元和解码单元，并按照可用传输频带或用户音频质量要求或延迟要求，将编码格式从一个转变为另一个。通过根据被添加到数据的编码格式标识符或从通信伙伴的音频通信装置(201)通知的设置信息选择最佳的解码单元，接收到的音频编码数据被解码。解码后的音频数据被临时存储在音频数据缓冲器(216)中并被再现。存储在音频数据缓冲器(216)中的音频数据的量被控制为使得音频被再现而不停顿。

Description

音频通信方法和装置

技术领域

本发明涉及经由网络发送和接收音频的音频通信方法和装置。

背景技术

近些年来，其中音频数据经网络通过分组接收和发送的音频通信，也就是所谓的VoIP(Voice over IP，IP语音)，已被广泛使用。这种音频通信利用预定编码格式对音频(包括音乐、各种音效等)进行编码，并且经编码的音频数据被发送和接收，从而使得能够进行具有很少音频质量劣化的通信，而不占用宽的传输频带。

作为音频编码格式的代表性示例，已知G.711、G.729、AMR-NB(自适应多速率-窄带)、AMR-WB(适应性多速率-宽带)、MPEG(运动图象专家组)-4ACC(高级音频编解码器)等。用于对根据这些编码格式编码的音频数据(在下文中被称为音频编码数据)进行分发的技术是VoIP(例如，见日本专利申请早期公开No.2004-072242)，其使用了采用分组交换方法的IP(因特网协议)网络。VoIP预期会在诸如PHS(个人手持电话系统)和移动电话网络这样的移动通信系统中迅速变得流行。

另外，当分组交换方法的网络被用于数据发送/接收时，在接收侧生成了到达波动(抖动)。音频通信装置需要缓冲器，其临时存储接收到的数据以吸收抖动。当缓冲器的尺寸较大时，可以应对较大的抖动，然而，音频通信的延迟变得较长，因为在音频被再现之前需要时间。另一方面，当使缓冲器的尺寸较小时，延迟变得较短，然而，抖动无法被充分吸收，因此存在再现的音频不连贯的问题。作为缓冲控制方法，已知当存储在缓冲器中的分组数据的量超过预定阈值时暂停解码过程的方法(见日本专利申请早期公开No.2002-204258)和在接收侧调节解码过程的周期的方法(见日本专利申请早期公开No.2003-087318)。此外，存在这样一种方法，其中根据来自接收侧的通知，在发送侧调节分组发送周期(见日本专利申请早期公开No.2003-249977)。

在上述利用VoIP技术的音频通信中，虽然作为编码过程的速率的编码比特率可以被改变，但是每一个会话所使用的编码格式是固定的，因此，并非总是根据用户的需要和网络的状态来选择最佳的编码格式。

作为使得能够在通信期间选择编码格式的技术，可以涉及到一种方法，其中在接收侧例如通过发送各种音频编码数据来选择最佳的编码格式。然而，难于采用这种方法，除非具有足够可用传输频带的传输路径。

另外，当在以上专利文献中描述的缓冲控制方法被应用于音频通信时，在日本专利申请早期公开No.2002-204258中，当接收到的数据的量大于要再现的数据的量时有可能音频将被来自缓冲器的溢出数据暂停。此外，在日本专利申请早期公开No.2003-087318中，存在着延迟被增加的问题，因为必须保证足够的缓冲器尺寸以调节编码过程的周期。此外，在日本专利申请早期公开No.2003-249977中，当类似尽力而为(best-effort)型网络和无线网络这样的不稳定的传输路径被使用时，在通知消息本身中发生抖动或丢失。另外，当抖动的波动大时，难于响应于这些波动来通知和控制消息。

另外，在使用VoIP技术的音频通信中，当执行音频通信的音频通信装置之间存在特性差异时，在音频捕捉或再现周期中发生差异，并且造成被再现的音频不连贯。

另外，因为由编码过程造成的延迟是除由网络造成的传输延迟之外而产生的，所以在一些编码格式中存在一些情况，其中编码所需的样本的数目被增加而保证采样点所需的时间不满足用于音频通信的延迟要求。

另外，当音频通信中的上行链路和下行链路在通信环境中不同时，例如可用频带和延迟，为了在执行通信的音频通信装置之间匹配通信环境，音频编码数据必须以低比特率来发送和接收，以符合低处理能力，因此存在再现音频的质量将被降低的问题。

另外，当编码格式被任意切换以便仅利用切换来灵活响应延迟和关于音频质量的用户要求时，音频数据在切换期间变得不连贯，因此存在发生诸如再现音频中的停顿这样的音频劣化的问题。

发明内容

因此，本发明的一个目的是提供一种音频通信方法和一种装置，其使得即使在音频通信期间也能够转变到不同的编码格式，并且可以抑制音频质量的劣化和延迟的增加。

为达到上述目的，根据本发明，音频通信装置包括多个编码单元和解码单元以便处理多种编码格式，并且编码格式和采样频率按照可用传输频带或者基于与音频质量和延迟有关的用户要求而被转变。

根据这种安排，因为即使在音频通信期间也可以转变到不同的编码格式，所以音频质量的劣化和延迟的增加可以被抑制。此外，即使音频通信的通信环境中的下上行链路和下行链路不同，也可以按照上行链路和下行链路的通信环境来最佳地选择要发送的音频数据的编码格式和接收到的音频数据的编码格式，因此更高质量的稳定的音频通信可以被实现。

然后，考虑到每个编码格式的编码过程的起始时刻和每个编码格式的帧长度的差异来调节转变时刻，使得与编码后的音频编码数据相对应的音频被同步，从而在编码格式的转变期间再现音频而不停顿。

附图说明

图1是示出了音频通信系统的配置示例的框图。

图2是示出了根据本发明的音频通信装置的配置示例的框图。

图3是示出了通过图2所示的第一编码单元和第二编码单元进行的编码过程的时序的时序图。

图4是示出了布置在本发明的音频通信装置中的根据第一实施例的缓冲控制单元的配置的框图。

图5是示出了布置在本发明的音频通信装置中的根据第二实施例的缓冲控制单元的配置的框图。

具体实施方式

接下来，参照附图来说明本发明。

(第一实施例)

图1是示出了音频通信系统的配置示例的框图，图2是示出了根据本发明的音频通信装置的配置示例的框图。此外，图3是示出了通过图2所示的第一编码单元和第二编码单元的编码过程的时序的时序图，图4是示出了布置在本发明的音频通信装置中的根据第一实施例的缓冲控制单元的配置的框图。附带地，图2所示的音频通信装置201是可用于音频通信装置101和音频通信装置103的共同配置示例。

如图1所示，音频通信系统是通过连接音频通信装置101和103来配置的，音频通信装置101和103互相通过作为IP(因特网协议)网络的网络102发送和接收音频数据。音频通信装置101和音频通信装置103执行已知的呼叫连接过程来建立呼叫和执行音频通信。

呼叫连接服务器104可以被连接到网络102，其向音频通信装置101和音频通信装置103提供建立呼叫所需的信息(呼叫连接数据)。在这种情况下，音频通信装置101和音频通信装置103预先从呼叫连接服务器104获得呼叫连接数据，然后通过使用所获得的呼叫连接数据建立呼叫。

音频通信装置101和音频通信装置103可以通过诸如移动电话和个人计算机这样的信息处理装置来实现，其根据分组交换方法发送和接收编码音频数据和呼叫连接数据。另外，呼叫连接服务器104的功能可以通过类似服务器计算机这样的信息处理装置来实现，其向音频通信装置101和音频通信装置103提供呼叫连接数据，并且建立彼此的呼叫(通信)。当移动电话被用作音频通信装置101和音频通信装置103时，它们通过未示出的无线基站装置被连接到网络102。

如图2所示，音频通信装置201包括音频获取单元205、采样频率变换单元206、设置/呼叫连接单元204、第一编码单元207、第二编码单元208、分组化单元209、发送单元210、接收单元211、载荷提取单元212、第一解码单元213、第二解码单元214、缓冲控制单元215、音频数据缓冲器216，以及音频再现单元217。如上所述，当信息处理装置被用作音频通信装置201时，图2中的每个元件的功能是通过包括CPU的信息处理装置和LSI或逻辑电路的组合来实现的。在这种情况下，例如，音频获取单元205或音频再现单元217的功能是通过LSI(A(模拟)/D(数字)转换器，D/A转换器)、晶体管电路等实现的。此外，包括在信息处理装置中的CPU按照预定的程序执行稍后描述的每个元件的过程，从而其他元件的功能被实现。附带地，音频通信装置201可以通过实现了图2所示的每个元件的功能的LSI或逻辑电路来配置。

按照由设置/呼叫连接单元204指定的采样频率和量化比特(quantization bit)的数目或者预先设置的采样频率和量化比特的数目，音频获取单元205将从类似麦克风这样的音频输入单元202输入的音频信号(模拟信号)转换为音频数字数据。

按照由设置/呼叫连接单元204指定的编码格式和采样频率或者按照预先设置的编码格式和采样频率，第一编码单元207和第二编码单元208对在音频获取单元205中经A/D转换的音频数据进行编码。

第一实施例中的描述涉及了其中第一编码单元207通过使用MPEG-4ACC格式对音频数据进行编码且第二编码单元208通过使用AMR-WB格式对音频数据进行编码的情况。对第一编码单元207和第二编码单元所使用的编码格式没有限制，任何格式都是可用的。此外，第一编码单元207和第二编码单元208不是必须使用不同种类的编码格式，而是也可以使用相同的编码格式，只要采样频率不同。在第一实施例中，虽然两个编码单元被示出以简化说明，但是编码单元的数目不限于两个，并且可以是任意数目。当具有足够可用的传输频带的传输路径被使用时，音频通信装置可以传输由多个编码单元编码的音频编码数据。

分组化单元209将由设置/呼叫连接单元204指定的编码格式的标识符(编码格式标识符)或预设的编码格式标识符添加到由第一编码单元和第二编码单元208编码的音频编码数据中的至少一个，并分组化。假定音频编码数据的编码格式和编码格式标识符是互相对应的关系。

发送单元210按照目的地地址，通过由设置/呼叫连接单元204指定的端口或通过预设的端口，将分组化单元209中生成的分组发送到网络102。例如，当音频编码数据按照RTP(实时传输协议)被分组化并发送时，分组化单元209将数据分组化，被包括在要被添加RTP头中的载荷类型和SSRC(同步源标识符)或CSRC(贡献源标识符)被用作编码格式标识符。关于RTP，例如，在H.Schulzrinne，S.Casner，R.Frederick，V.Jacobson，“RTP：A Transport protocol for Real-Time Applications”，RFC1889，1996年1月，Internet<URL： http：//www.ietf.org/rfc/rfc1889.txt>，H.Schulzrinne，“RTP Profile for Audio and Video Conferences with MinimalControl”，RFC 1890，1996年1月等中有详细的描述。

至少多个分组化单元209或多个发送单元210可以被布置，以对应于多个编码单元。在这种情况下，例如，发送单元210可以通过由设置/呼叫连接处理部分204指定的目的地地址和端口或者通过预设的目的地地址和预设的端口，将在相应的分组化单元209中生成的分组发送到网络102。

受设置/呼叫连接单元204控制的根据第一实施例的音频通信装置201通过使用已知的SIP(会话启动协议)和SDP(会话描述协议)发送和接收用于与通信伙伴的音频通信装置通信的必要信息。在这种情况下，类似

a)通信伙伴的地址和接收端口号；

b)要被发送的音频编码数据的编码格式和编码设置(选项)，以及

c)载荷类型和载荷格式的设置信息可以被发送到通信伙伴。例如，当编码格式是AMR-NB并且RTP的载荷类型是97时，根据SDP，被描述为a＝rtpmap：97AMR/8000的信息被发送，从而编码格式与编码格式标识符之间的对应关系可以被通知给通信伙伴。此时，编码格式与编码格式标识符之间的对应关系可以是在执行音频通信的音频通信装置之间预先确定的。然而，载荷类型是取决于编码格式已经由RFC 1890确定的。例如，在G.729的音频编码格式中，“18”的数值被使用。利用该值，编码格式可以被指定。

设置/呼叫连接单元204将每个所需的指令给予音频获取单元205、采样频率变换单元206、第一编码单元207、第二编码单元208、分组化单元209、发送单元210、接收单元211、载荷提取单元212、第一解码单元213、第二解码单元214和音频再现单元217，以便执行所确定的编码格式的过程。

第一实施例的音频通信装置201可以设有输入单元(未示出)，该输出单元被用于由用户输入期望的指令。当关于音频质量或时间延迟的要求通过输入单元被输入时，设置/呼叫连接单元204按照通过可用传输频带输入或通过输入单元输入的来自用户的要求，来选择最佳的编码格式或采样频率。然后，每个所需的指令被给予音频获取单元205、采样频率变换单元206、第一编码单元207、第二编码单元208、分组化单元209、发送单元210、接收单元211、载荷提取单元212、第一解码单元213、第二解码单元214和音频再现单元217，以便按照所选择的编码格式执行过程。

接收单元211通过使用由设置/呼叫连接单元204指定的端口或通过使用预设的端口经网络102接收被发送的分组。

载荷提取单元212从由接收单元211接收的分组中提取音频编码数据和编码格式标识符，并且按照来自设置/呼叫连接单元204的指令，向第一解码单元213或第二解码单元214提供被提取的音频编码数据。

第一解码单元213和第二解码单元214按照由设置/呼叫连接单元204指定的解码格式或按照预设的解码格式，对从载荷提取单元212提供的音频编码数据进行解码。

第一实施例中的描述涉及了其中第一解码单元213通过使用MPEG-4AAC格式对音频编码数据进行解码且第二解码单元214通过使用AMR-WB格式对音频编码数据进行解码的情况。与上述编码单元类似，对第一解码单元213和第二解码单元214所使用的解码格式没有限制，并且任意格式都是可用的。此外，第一解码单元213和第二解码单元214不是必须使用不同种类的解码格式，而是也可以使用相同的解码格式，只要采样频率不同。虽然在第一实施例中，两个解码单元被示出以简化说明，但是解码单元的数目不限于两个，并且可以是任何数目。

设置/呼叫连接单元204按照从通信伙伴的音频通信装置通知的编码格式和被添加到分组的编码格式标识符的组合，来判断接收到的音频编码数据的编码格式，并且根据从分组提取的音频编码数据选择最佳的解码单元，并向载荷提取单元212提供指令。

因此，在第一实施例中，因为在发送侧的音频通信装置中的编码单元中被编码的音频编码数据是通过接收侧的音频通信装置中与编码格式相对应的解码单元来再现的，所以即使音频编码数据的编码格式在通信期间被转变，数据也可以被正确地解码。

缓冲控制单元215收缩或扩张在第一解码单元213或第二解码单元214中解码的音频数据，以适应音频数据缓冲器216的大小，并且将音频数据存储在音频数据缓冲器216中。

音频再现单元217顺序读取存储在音频数据缓冲器216中的音频数据(数字数据)，并将该音频数据变换为由模拟信号构成的音频信号。此外，音频再现单元217对经A/D转换的音频信号按需进行功率放大。经音频再现单元217D/A转换的音频信号被从充当例如扬声器的音频输出单元203输出。

附带地，至少多个接收单元211或多个载荷提取单元212可以被布置，以对应于多个解码单元。在这种情况下，每个会话的编码格式和设置信息(或端口号)是通过设置/呼叫连接单元204从通信伙伴的音频通信装置接收的，或者这些是在执行音频通信的音频通信装置之间预先确定的，从而即使没有编码格式标识符，载荷提取单元212也可以基于接收到的会话(或端口号)将音频编码数据传给合适的解码单元。

如上所述，第一实施例的音频通信装置201按照例如SDP向通信伙伴的音频通信装置通知关于可用的编码格式和解码格式。当可用的编码格式和解码格式是通过SDP通知时，编码格式和解码格式是通过由类似a＝sendonly，a＝recvonly这样的描述列出的信息来表示的。在使用SDP的通信中，发送侧的编码格式可以与接收侧的解码格式不同，并且执行音频通信的音频通信装置可以不设有相似的编码格式和相似的解码格式。具体而言，当SDP被使用时，即使执行音频通信的音频通信装置与相同编码格式和解码格式的组合不匹配，消息也可以被发送和接收。

另一方面，当呼叫连接过程是通过使用SIP执行时，图1所示的音频通信装置101和音频通信装置103各自从呼叫连接服务器104获得通信伙伴的音频通信装置的地址，并且通过使用SDP获得相应的编码格式的信息等，以开始音频通信。

关于SDP，在M.Handley，V.Jacobson，“SDP：Session DescriptionProtocol”，RFC 2327，1998年4月，Internet<URL：http：//www.ietf.org/rfc/rfc2327.txt>等中给出了详细的描述。此外，关于SIP，在M.Handley，H.Schulzrinne，E.Schooler，J.Rosenberg，“SIP：SessionInitiation Protocol”，RFC 2543，1999年3月，Internet<URL：http：//www.ietf.org/rfc/rfc2543.txt>等中给出了详细的描述。

现在，在图2所示的音频通信装置201中，编码格式被转变使得它们在呼叫期间不造成音频通信的停顿，在音频获取单元205中经A/D转换的音频数据必须分别在第一编码单元207和第二编码单元208中被编码。

这里，当第一编码单元207和第二编码单元208在编码格式和采样频率上不同时，在第一实施例中，在音频获取单元205中经A/D转换的音频数据通过使用采样频率变换单元206被变换为与每个编码格式相对应的采样频率的音频数据。

例如，考虑涉及了其中音频获取单元205在32kHz处执行采样，第一编码单元207以32kHz的采样频率通过使用MPEG-4AAC格式对音频数据进行编码，并且第二编码单元208以16kHz的采样频率通过使用AMR-WB格式对音频数据进行编码的情况。在这种情况下，采样频率变换单元206将音频数据输出到第一编码单元207而不改变采样频率，并且在采样频率被变换为16kHz(下采样)之后，将音频数据输出到第二编码单元208。根据该操作，由一个音频获取单元205获得的音频数据可以按照每个编码格式在多个编码单元中被编码。

当在每个编码单元中采样频率不同而编码格式相似时，采样频率变换单元206执行相同的过程。任何已知的技术都可用作采样频率的变换格式，因此省略了详细说明。

在音频数据的编码格式中，存在一种格式，其中先前的音频数据被使用并且编码被执行以编提高编码效率。在这样一种编码格式中，从音频信号被输入到音频编码数据被输出的时间里发生延迟。例如，在AMR-WB格式中，因为5ms前接收到的音频数据被用于编码过程，所以从音频信号被输入到音频编码数据被输出的时间里发生5ms的延迟。此外，在MPEG-4 AAC格式中，因为在编码过程中发生两帧的延迟，所以当采样频率为32kHz时，从音频信号被输入到音频编码数据被输出的时间里发生64ms的延迟。因此，当编码格式在发送侧被转变时，每个编码过程的起始点被调节，以便使与编码后的音频编码数据相对应的音频同步。具体而言，如图3所示，当第一编码单元207在相对于通过第二编码单元208的AMR-WB格式的编码起始点(t＝0)的59ms延迟之后开始MPEG-4AAC格式的编码过程时，从这些音频编码数据再现的两个音频信号重合。

另外，AMR-WB格式和MPEG-4AAC格式在编码单元的帧长度上不同，在第一实施例中，考虑到每个编码格式的帧长度的差异来调节改变时刻，以使与编码后的音频编码数据相对应的音频信号同步。具体而言，如图3所示，当相对于AMR-WB格式的八帧(AMR输出编码帧)，MPEG-4AAC格式的五帧(AAC输出编码帧)被输出时，编码格式被转变，从而从这些音频编码数据再现的两个音频信号重合。

在第一实施例的音频通信装置中，第一编码单元207和第二编码单元208不需要同时开始编码过程，然而如上所述，考虑到通过每个编码单元的编码过程的开始(重新开始)的时间间隔或考虑到帧长度的差异来转变编码格式。另一方面，在接收侧的音频通信装置中，每个解码单元以帧为单位转变解码格式，从而音频被再现而没有停顿。

另外，在第一实施例的音频通信装置中，可以考虑到音频数据的样本数目来转变编码格式，使得与编码后的音频编码数据相对应的音频信号按照由设置/呼叫连接单元204指定的编码格式和采样频率或按照预先设置的编码格式和采样频率而被同步。例如，当采样频率为32kHz时，在AMR-WB格式中，每1[ms]的样本的数目是16，并且在MPEG-4AAC编码格式中，每1[ms]的样本的数目是32。具体而言，可以在这样的定时处转变编码格式，使得样本数目的关系被维持。

在切换到具有不同频率的相同编码格式的情况中，当相同的过程被执行时，由转变编码格式造成的音频质量的劣化可以被抑制。

接下来，参照图4对根据第一实施例的图2所示的音频通信装置中的缓冲控制单元给出说明。

如图4所示，第一实施例的缓冲控制单元215包括缓冲量监视单元401、变换参数确定单元402和采样频率变换单元403。

如上所述，存储在音频数据缓冲器216中的数据的量根据由接收单元211接收的分组的到达时间的波动，并根据发送侧的音频获取单元205的音频获取周期与接收侧的音频再现单元217的再现周期之间的差异而增加或减少。

存在音频数据缓冲器216，为了应对分组到达时间的波动以及音频获取周期与再现周期之间的差异，并为了应对到达时间的大波动，而且因为缓冲器大小和要被存储在音频数据缓冲器216中的预期d音频数据量(在下文中被称为标准量)必须设得大，所以音频通信的延迟将会增加。

在第一实施例中，音频编码数据的到达时间的波动在接收单元211中被测量，并且要被存储在音频数据缓冲器216中的音频数据的标准量被优选地设置为适应预期不会大的波动的幅度。

另外，为了应对音频数据缓冲器216的更小大小，缓冲控制单元215对经解码的音频数据进行处理，并且将其存储在音频数据缓冲器216中。此外，缓冲控制单元215通过缓冲量监视单元401对存储在音频数据缓冲器216中的数据的量进行监视。

变换参数确定单元402按照音频数据缓冲器216中的音频数据剩余量和由设置/呼叫连接单元204指定的编码格式来确定变换后的采样频率。

采样频率变换单元403将被输入缓冲控制单元215的音频数据的采样频率变换为由变换参数确定单元401确定的采样频率，并将该采样频率输出到音频数据缓冲器216。例如，当不存在到不同编码格式和到不同采样频率的音频数据的转变时，并且当音频数据缓冲器216中的数据量趋于减少时，采样频率变换单元403执行频率变换(上采样)，使得采样频率按照其比而变高。在这种情况下，因为音频数据的样本数目增加了，所以存储在音频数据缓冲器中的音频数据的减少可以被补偿。另一方面，当音频数据缓冲器216中的数据量趋于增加时，采样频率变换单元403执行频率变换(下采样)使得采样频率变低。在这种情况下，因为音频数据的样本数目减少了，故存储在音频数据缓冲器216中的音频数据的增加可以被抑制。

为了转变从第一解码单元213输出的音频数据和从第二解码单元214输出的音频数据而不停顿，这些音频数据必须被存储在单独的音频数据缓冲器216中并被再现。

当解码格式被转变时，缓冲控制单元215按照解码格式执行稍后描述的采样频率的变换过程，以便除了执行变换采样频率的过程，还调节数据缓冲器216中的数据的量，如上所述。

具体而言，频率变换被执行，使得由AMR-WB格式解码并从第二解码单元214输出的音频数据的采样频率(16kHz)与由MPEG-4AAC格式解码并从第一解码单元213输出的音频数据的采样频率(32kHz)一致。然而，当采样频率不同时，可对其应用编码过程和解码过程的音频信号的频带不同。因此，当音频数据被转变为不同的解码格式时，再现的音频信号的频带差异在一些情况下造成收听的不适。

在按照恒定采样周期执行编码过程的方法中，类似MPEG-4AAC格式，由编码过程造成的延迟是通过提高采样频率来减少的，然而，虽然编码比特率是相同的，但是要被发送到网络102的分组的数量增加了，因此(RTP/)UDP(用户数据报协议)/IP头所需的开销量增加了。因此，在可用传输频带较低的传输路径中，虽然延迟较大，但是采样频率通过较小的开销量被降低，以维持音频质量。此外，在具有足够的可用传输频带的传输路径中，虽然开销量较大，但是也存在一种可用技术，其中采样频率被提高并且有较小延迟量的传输被执行。

然而，虽然有这样一种技术，但是无法除去由再现音频频带的差异而造成的不适。因此，为了抑制这种不适，第一实施例的音频通信装置，

a)变换采样频率以适应更低的采样频率，并且

b)将每个编码单元中的码字(code word)分配给具有最低采样频率的音频数据的频带。

特别地，当只有语音而非音乐被发送时，限制在第一编码单元207和第二编码单元208中被分配给码字的频带可以带来音频质量的提高。此外在第一实施例中，当多种编码格式和采样频率的音频编码数据被接收时，仅对一个音频编码数据执行解码过程，因此，解码过程所需的操作量的增加可以被抑制到最小。

当要被存储在音频数据缓冲器216中的音频数据有可能将为空时，缓冲量监视单元401指示填充数据插入单元404将无声音频数据插入音频数据缓冲器216，以补偿音频数据。可替换的，缓冲量监视单元401指示再现音频数据的解码单元按照解码单元的解码格式，通过差错消隐(隐藏)过程输出音频数据，并将该音频数据插入音频数据缓冲器216。根据这些过程，可以防止当音频数据缓冲器216变空时造成的再现音频的停顿。

另外，当存储在音频数据缓冲器216中的音频数据将要溢出时，缓冲量监视单元401给出指令以保证被输入采样频率更改单元403的音频数据将被丢弃，这防止了再现音频信号的停顿。这时，按照输入音频数据的音量(电功率)和幅度中的至少一个而被确定为无声的音频数据被丢弃，从而将再现音频信号的劣化抑制到最小。

缓冲量监视单元401可以按照来自设置/呼叫连接单元204、音频再现单元217、第一解码单元213和第二解码单元214中的至少一个的指令来执行上面的过程，或者可以通过利用定时器等按照预定的时间来执行上面的过程。音频再现单元217的指令是每当音频再现单元217再现了恒定量的音频数据就指示缓冲量监视单元401检查音频数据缓冲器216中的剩余数据量的指令，并且上面的过程可以按照监视结果来执行。

另外，第一实施例的音频通信装置201可以在接收单元211之后的单元处设有接收缓冲器218，并且由接收缓冲器218接收的音频编码数据可以被临时存储。在这种情况下，每当恒定量的音频数据被再现，音频再现单元217就可以指示接收缓冲器218将所存储的音频编码数据的第一数据输出到载荷提取单元212。此时，当接收缓冲器218为空时，再现音频数据的解码单元被指示按照解码单元的解码格式通过使用差错消隐过程输出音频数据。在这种情况下，音频再现单元217中的音频再现变成了使过程开始的触发，并且与音频数据消耗量相对应的后续音频编码数据被从接收缓冲器218输出。因此，因为要被存储在音频数据缓冲器216中的音频数据的标准量可以被设置为最小，所以音频通信可以被几乎不延迟地执行。

转变音频数据的编码格式的优点如下，类似第一实施例的音频通信装置，编码格式可以按照用户所要求的音频质量和延迟时间或按照通信期间传输路径的可用频带来被最佳地转变。

在第一实施例中，第一编码单元207和第一解码单元213所使用的MPEG-4AAC格式是不但可以传输音频而且可以传输音乐的高质量编码格式，并且编码和解码所需的处理时间变得较长。另一方面，因为第二编码单元208和第二解码单元214所使用的AMR-WB格式是专用于语音信号的编码格式，而不适于传输象音乐这样的宽带信号。然而，在AMR-WB格式中，因为编码和解码所需的处理时间短并且编码比特率低，故即使在传输频带受限的通信环境中也可以实现稳定的音频通信。

第一实施例的音频通信装置设有用于音频数据的多个编码单元和解码单元，因此，即使用于发送和接收的编码格式和解码格式不一致，音频通信也变得可能。例如，虽然在上行链路(发送)与下行链路(接收)之间的传输路径或频带方面具有非对称稳定性的网络被使用，但是音频通信是可能的。具体而言，在上行链路的频带受限且下行链路的频带充足的通信环境中，通过使用第二编码单元208通过AMR-WB格式编码的音频编码数据通过上行链路被发送，通过MPEG-4AAC格式编码的音频编码数据通过下行链路被接收，并且音频数据可以在第一解码单元213中被解码和再现。因此，更高质量的稳定的音频通信可以被实现。

如上所述，编码格式不但可以按照如上所述的来自设置/呼叫连接单元204的指令或者预先设置的指令被转变，而且，通过使用设置/呼叫连接单元204，例如类似分组到达时间的波动和分组丢失这样的分组到达状态被通知到通信伙伴的音频通信装置，并且可以按照分组到达状态来转变编码格式。另外，一种指示发送侧的音频通信装置转变编码格式的方法也可以使用。

(第二实施例)

接下来，参照附图对根据本发明的第二实施例的音频通信装置给出说明。

图5是示出了本发明的音频通信装置中的根据第二实施例的缓冲控制单元的配置的框图。

第二实施例的音频通信装置在缓冲控制器215的配置上与第一实施例不同。其他配置和操作与第一实施例的那些类似，因此其详细说明被省略。

如图5所示，第二实施例的缓冲控制单元具有数据选择确定单元501来代替在第一实施例中示出的参数确定单元402和采样频率变换单元403。缓冲量监视单元401和填充数据插入单元404与第一实施例的那些类似，并且其说明被省略。

按照被缓冲量监视单元401监视的音频数据缓冲器216的结果，当存储在音频数据缓冲器216中的数据的量趋于增加时，数据选择确定单元501对由第一解码单元213或第二解码单元214解码的音频进行挑选，并且将音频数据存储在音频数据缓冲器216中。此时，数据选择确定单元501确定音频数据的量，并且把被确定为无声的音频数据丢弃，从而使再现音频信号的劣化最小化。

因为第二实施例的音频通信装置对音频数据进行了挑选，所以再现音频质量与第一实施例的音频通信装置的质量相比有可能会劣化。然而，因为没有执行诸如采样频率变换这样需要大量操作的过程，所以当移动电话等被用作音频通信装置时，很容易应用。

Claims

1.一种音频通信方法，包括以下步骤：

通过使用多种可用编码格式对要被发送的每项音频数据进行编码；

发送音频编码数据中的至少一种音频编码数据，所述音频编码数据是编码后的所述音频数据；

当所述音频编码数据被接收到时，通过多种可用解码格式中的用于所述音频编码数据的合适编码格式对所述音频编码数据进行解码；

将编码后的所述音频数据临时存储在音频数据缓冲器中；以及

从所述音频数据缓冲器顺序地读取所述音频数据，并再现所述音频数据。

2.根据权利要求1所述的音频通信方法，其中，所述多种编码格式是互不相同的采样频率。

3.根据权利要求1所述的音频通信方法，其中，用于要被发送的音频编码数据的编码格式不同于与用于所接收的音频编码数据的解码格式相对应的编码格式。

4.根据权利要求1所述的音频通信方法，其中，每个编码格式的过程开始时刻被移动，使得与编码后的音频编码数据相对应的音频信号被同步。

5.根据权利要求1所述的音频通信方法，其中，每个编码格式中的音频数据的样本数目被设置为使得与编码后的音频编码数据相对应的音频信号被同步。

6.根据权利要求1所述的音频通信方法，其中，所述编码格式的转变时刻按照在每个编码格式中不同的将成为编码单位的帧长度被调节，使得与编码后的音频信号编码数据相对应的音频被同步。

7.根据权利要求1所述的音频通信方法，其中，所述音频编码数据是通过帧单位编码的，所述帧单位在每个编码格式中不同。

8.根据权利要求1所述的音频通信方法，其中，要被发送的每种音频数据的采样频率被变换为与每个编码格式相对应的采样频率。

9.根据权利要求1所述的音频通信方法，其中，为每个编码格式分配的码字频带被设置为在多种编码格式中具有最低采样频率的音频数据的频带。

10.根据权利要求1所述的音频通信方法，其中，音频编码数据被另外提供了与所述音频编码数据的编码格式相对应的编码格式标识符，并被发送。

11.根据权利要求1所述的音频通信方法，其中，要被发送的音频编码数据按照可用传输路径的频带和来自用户的通过输入格式输入的要求中的至少一个被选择。

12.根据权利要求1所述的音频通信方法，其中，解码后的音频数据的采样频率按照存储在所述音频数据缓冲器中的音频数据量被变换。

13.根据权利要求1所述的音频通信方法，其中，作为存储在所述音频数据缓冲器中的音频数据的目标量的标准量被设置为适应音频编码数据的到达时间的波动。

14.根据权利要求1所述的音频通信方法，其中，当存储在所述音频数据缓冲器中的音频数据的量超过所述音频数据缓冲器的大小时，被确定为无声的音频数据被丢弃。

15.根据权利要求1所述的音频通信方法，其中，当存储在所述音频数据缓冲器中的音频数据的量变空时，音频数据被补偿。

16.根据权利要求1所述的音频通信方法，其中，所接收的音频编码数据被临时存储在接收缓冲器中，每当预定量的音频数据被再现时，存储在所述接收缓冲器中的第一音频编码数据就被输出，并且当所述接收缓冲器为空时，音频数据被补偿。

17.根据权利要求15所述的音频通信方法，其中，所述要被补偿的音频数据是无声音频数据。

18.根据权利要求15所述的音频通信方法，其中，所述要被补偿的音频数据是按照所述解码格式的差错消隐编码数据。

19.根据权利要求16所述的音频通信方法，其中，所述要被补偿的音频数据是无声音频数据。

20.根据权利要求16所述的音频通信方法，其中，所述要被补偿的音频数据是按照所述解码格式的差错消隐编码数据。

21.根据权利要求1所述的音频通信方法，其中，用于所接收的音频编码数据的解码格式是按照以下至少一种信息来选择的：被添加到所接收的音频编码数据的标识编码格式的编码格式标识符、通过呼叫连接过程得到的编码格式信息、通过所述呼叫连接过程得到并且与编码有关的设置信息、以及用于接收音频编码数据的会话。

22.根据权利要求1所述的音频通信方法，其中，到达状态被发送到通信伙伴，所述到达状态包括所接收的音频编码数据的丢失率或到达时间的波动，并且，当所述到达状态被接收到时，要被发送的音频编码数据的编码格式和采样频率中的至少一个按照所述到达状态被转变。

23.一种音频通信装置，包括：

音频获取单元，用于生成从要被发送的音频信号通过预定采样频率被数字化的音频数据；

多个编码单元，每个通过使用多种可用编码格式对所述音频数据进行编码；

发送单元，用于发送音频编码数据中的至少一种音频编码数据，所述音频编码数据是编码后的所述音频数据；

多个解码单元，当所述音频编码数据被接收到时，多个解码单元中的每个通过使用多种可用解码格式中的用于所述音频编码数据的合适解码格式，对所述音频编码数据进行解码，并且通过使用不同的解码格式，对所述音频编码数据中的每个进行解码；

音频数据缓冲器，所述音频数据缓冲器临时存储被所述解码单元解码的音频数据；

音频再现单元，所述音频再现单元用于从所述音频数据缓冲器顺序地读取所述音频数据，并再现所述音频数据；以及

设置/呼叫连接单元，用于控制所述编码格式和所述解码格式的转变。

24.根据权利要求23所述的音频通信装置，其中，所述多个编码单元中的每个单元利用不同采样频率执行编码。

25.根据权利要求23所述的音频通信装置，其中，要通过所述发送单元发送的音频编码数据的编码格式不同于与用于对所接收的音频编码数据解码的解码格式相对应的编码格式。

26.根据权利要求23所述的音频通信装置，其中，所述多个编码单元的每个将过程开始时刻移动，使得与编码后的音频编码数据相对应的音频信号被同步。

27.根据权利要求23所述的音频通信装置，其中，所述多个编码单元设置用于音频数据的样本的每个数目，使得与编码后的音频编码数据相对应的音频信号被同步。

28.根据权利要求22所述的音频通信装置，其中，所述多个编码单元按照在每个编码格式中不同的将成为编码单位的帧长度来调节所述编码格式的转变时刻，使得与编码后的音频编码数据相对应的音频信号被同步。

29.根据权利要求23所述的音频通信装置，其中，所述多个解码单元通过使用每个编码格式中的不同帧单位对音频编码数据进行解码。

30.根据权利要求23所述的音频通信装置，还包括：

采样频率变换单元，采样频率变换单元将要被发送的音频数据的采样频率变换为与所述编码单元的编码格式相对应的每个采样频率。

31.根据权利要求23所述的音频通信装置，其中，所述多个编码单元将被分配给每个编码格式的码字频带设置为直到在多种编码格式中具有最低采样频率的音频数据的频带。

32.根据权利要求23所述的音频通信装置，还包括：

分组化单元，用于添加与所述音频编码数据的编码格式相对应的编码格式标识符，并发送所述音频编码数据。

33.根据权利要求23所述的音频通信装置，其中，所述设置/呼叫连接单元允许所述发送单元按照可用传输路径的频带和来自用户的通过输入装置输入的要求中的至少一个来选择要被发送的音频编码数据。

34.根据权利要求23所述的音频通信装置，还包括：

缓冲控制单元，用于按照存储在所述音频数据缓冲器中的音频数据量，对解码后的音频数据的采样频率进行变换。

35.根据权利要求34所述的音频通信装置，其中，所述缓冲控制单元将作为存储在所述音频数据缓冲器中的音频数据的目标量的标准量设置为适应音频编码数据的到达时间的波动。

36.根据权利要求23所述的音频通信装置，其中，当存储在所述音频数据缓冲器中的音频数据的量超过所述音频数据缓冲器的大小时，所述缓冲控制单元丢弃被确定为无声的音频数据。

37.根据权利要求23所述的音频通信装置，其中，当存储在所述音频数据缓冲器中的音频数据变空时，所述缓冲控制单元补偿音频数据。

38.根据权利要求23所述的音频通信装置，还包括：

接收缓冲器，所述接收缓冲器临时存储所接收的音频编码数据；

其中，每当预定量的音频数据被再现时，所述音频再现单元给出指令以输出存储在所述接收缓冲器中的第一音频编码数据，并且当所述接收缓冲器为空时，所述音频再现单元给出指令以输出补偿音频数据。

39.根据权利要求37所述的音频通信装置，其中，所述要被补偿的音频数据是无声音频数据。

40.根据权利要求37所述的音频通信装置，其中，所述要被补偿的音频数据是按照所述解码格式的差错消隐编码数据。

41.根据权利要求38所述的音频通信装置，其中，所述要被补偿的音频数据是无声音频数据。

42.根据权利要求38所述的音频通信装置，其中，所述要被补偿的音频数据是按照所述解码格式的差错消隐编码数据。

43.根据权利要求23所述的音频通信装置，其中，所述设置/呼叫连接单元按照以下至少一条信息来选择用于所接收的音频编码数据的解码格式：被添加到所接收的音频编码数据的标识编码格式的编码格式标识符、通过呼叫连接过程得到的编码格式信息、通过所述呼叫连接过程得到并且与编码有关的设置信息、以及用于接收音频编码数据的会话。

44.根据权利要求23所述的音频通信装置，其中，所述设置/呼叫连接单元将所接收的数据的到达状态发送到通信伙伴，所述到达状态包括所接收的音频编码数据的丢失率或到达时间的波动，并且，当所述到达状态被接收到时，所述设置/呼叫连接单元按照所述到达状态，转变要被发送的音频编码数据的编码格式和采样频率中的至少一个。

45.一种具有通过网络互相连接的根据权利要求23的音频通信装置的音频通信系统。

46.根据权利要求45所述的音频通信系统，还包括：

呼叫连接服务器，所述呼叫连接服务器提供在音频通信装置之间建立呼叫所需的信息，并且被连接使得能够通过网络与所述音频通信装置通信。

47.一种使计算机执行过程的程序，所述计算机对于每条音频数据通过网络互相发送和接收音频数据，所述过程包括：

通过使用多种可用编码格式对作为要发送的对象的通过预定采样频率被数字化的每项音频数据进行编码；

从发送单元发送音频编码数据中的至少一种音频编码数据，所述音频编码数据是编码后的所述音频数据；

当所述音频编码数据被接收到时，通过多种可用解码格式中的适合用于所述音频编码数据的解码格式，对所述音频编码数据进行解码；

48.根据权利要求47所述的程序，其中，多种编码格式是互不相同的采样频率。

49.根据权利要求47所述的程序，其中，要被发送的音频编码数据的编码格式不同于与用于对所接收的音频编码数据进行解码的解码格式相对应的编码格式。

50.根据权利要求47所述的程序，其中，每个编码格式的过程开始时刻被移动，使得与编码后的音频编码数据相对应的音频被同步。

51.根据权利要求47所述的程序，其中，每个编码格式中的音频数据的样本数目被各自设置为使得与编码后的音频编码数据相对应的音频被同步。

52.根据权利要求47所述的程序，其中，所述编码格式的转变时刻按照在每个编码格式中不同的将成为编码单位的帧长度被调节，使得与编码后的音频信号编码数据相对应的音频被同步。

53.根据权利要求47所述的程序，其中，所述音频编码数据是通过帧单位编码的，所述帧单位在每个编码格式中不同。

54.根据权利要求47所述的程序，其中，要被发送的每条音频数据的采样频率被各自变换为与每个编码格式相对应的采样频率。

55.根据权利要求47所述的程序，其中，为每个编码格式分配的码字频带被设置为在多种编码格式中具有最低采样频率的音频数据的频带。

56.根据权利要求47所述的程序，其中，音频编码数据被另外提供了与所述音频编码数据的编码格式相对应的编码格式标识符，并被从发送单元发送。

57.根据权利要求47所述的程序，其中，要被发送的音频编码数据按照可用传输路径的频带和来自用户的通过输入装置输入的要求中的至少一个被选择。

58.根据权利要求47所述的程序，其中，编码后的音频数据的采样频率按照存储在所述音频数据缓冲器中的音频数据量被变换。

59.根据权利要求47所述的程序，其中，作为存储在所述音频数据缓冲器中的目标的音频数据的量的标准量被设置为适应音频编码数据的到达时间的波动。

60.根据权利要求47所述的程序，其中，当存储在所述音频数据缓冲器中的音频数据的量超过所述音频数据缓冲器的大小时，被确定为无声的音频数据被丢弃。

61.根据权利要求47所述的程序，其中，当存储在所述音频数据缓冲器中的音频数据量为空时，音频数据被补偿。

62.根据权利要求47所述的程序，其中，所接收的音频编码数据被临时存储在接收缓冲器中，每当预定量的音频数据被再现时，存储在所述接收缓冲器中的第一音频编码数据就被输出，并且当所述接收缓冲器为空时，音频数据被补偿。

63.根据权利要求61所述的程序，其中，所述要被补偿的音频数据是无声音频数据。

64.根据权利要求61所述的程序，其中，所述要被补偿的音频数据是按照所述解码格式的差错消隐编码数据。

65.根据权利要求62所述的程序，其中，所述要被补偿的音频数据是无声音频数据。

66.根据权利要求62所述的程序，其中，所述要被补偿的音频数据是按照所述解码格式的差错消隐编码数据。

67.根据权利要求47所述的程序，其中，用于所接收的音频编码数据的解码格式是按照如下至少一条信息来选择的：被添加到所接收的音频编码数据的标识编码格式的编码格式标识符、通过呼叫连接过程得到的编码格式信息、通过所述呼叫连接过程得到并且与编码有关的设置信息、以及用于接收音频编码数据的会话。

68.根据权利要求47所述的程序，其中，所接收的数据的到达状态被发送单元发送到通信伙伴，所述到达状态包括所接收的音频编码数据的丢失率或到达波动，并且，当所述到达状态被接收到时，要被发送的音频编码数据的编码格式和采样频率中的至少一个按照所述到达状态被转变。