CN104424949A

CN104424949A - 用于发送和接收语音分组的方法和实现该方法的电子设备

Info

Publication number: CN104424949A
Application number: CN201410443084.6A
Authority: CN
Inventors: 金光勋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-09-03
Filing date: 2014-09-02
Publication date: 2015-03-18
Also published as: US20150063261A1; KR20150026405A

Abstract

一种用于增强在VoLTE(长期演进上的语音)中接收到的语音的语音质量的方法包括：与另一电子设备建立呼叫；对从语音输入单元接收到的第一语音数据执行Tx语音增强处理；对所述第一语音数据和在所述第一语音数据之后从语音输入单元接收到的第二语音数据进行编码；合成所述第一语音数据和所述第二语音数据；以及将合成后的语音数据转换为语音分组，并向所述另一电子设备发送所述语音分组。还公开了用于语音分组发送/接收的其他电子设备。

Description

用于发送和接收语音分组的方法和实现该方法的电子设备

技术领域

本公开总体上涉及语音分组发送/接收方法和设备，用于在VoLTE(长期演进上的语音)中增强接收到的语音的语音质量。

背景技术

VoLTE(LTE的语音传送系统)使用分组交换系统，而不是GSM和WCDMA的电路交换系统。不同于以严格时间间隔交换信息的电路交换系统，在分组交换系统中，接收机中随机发生分组的网络延迟。在应该进行实时通信的语音通信的情况下，当发生了分组的网络延迟时，可能恶化语音质量，并可能发生分组丢失，造成通信失败。

发明内容

为了解决上述不足，主要目标在于：在采用语音分组交换系统的电子设备中，提供一种最小化由于网络延迟而导致的语音质量恶化、分组丢失和通信失败的方法。

根据本公开的一个方面，电子设备的语音分组发送方法可以包括：与另一电子设备建立呼叫的操作；对从语音输入单元接收到的语音数据执行发送终端Tx语音增强处理的操作；第一编码操作，对已执行Tx语音增强处理的语音数据以及下一时刻从语音输入单元接收到的语音数据进行编码；将编码后的两个语音数据相互合成的合成操作；以及第一发送操作，将合成后的语音数据转换为语音分组，并向另一电子设备发送所述语音分组。

根据本公开的另一方面，电子设备处理从另一电子设备接收到的语音分组的方法可以包括：将从另一电子设备接收到的第一语音分组转换为语音数据的操作；将经转换的语音数据分离为执行了Tx语音增强处理的第一语音数据以及没有执行Tx语音增强处理的第二语音数据的操作；对第一语音数据进行解码并将第二语音数据存储在缓冲器中的操作；第一输出操作，将解码后的第一语音数据输出到语音输出单元；以及第二输出操作，当在接收到第一语音分组之后，第二语音数据的接收被延迟时，将存储在缓冲器中的第二语音数据输出到语音输出单元。

根据本公开的另一方面，一种电子设备可以包括：语音输入/输出单元；无线通信单元，用于发送/接收语音分组；以及处理器，用于执行语音数据处理操作，所述语音数据处理操作将从语音输入/输出单元输入的语音数据处理为语音分组，并将所述语音分组传送到无线通信单元；以及执行语音分组处理操作，所述语音分组处理操作将从无线通信单元输入的语音分组处理为语音数据，并将所述语音分组传送到语音输入/输出单元，其中语音数据处理操作可以包括：对从语音输入/输出单元接收到的语音数据执行Tx语音增强处理的操作；第一编码操作，对执行了Tx语音增强处理的语音数据以及下一时刻从语音输入单元接收到的语音数据进行编码；将编码后的两个语音数据相互合成的合成操作；以及第一发送操作，控制无线通信单元将合成后的语音数据转换为语音分组，并向另一电子设备发送所述语音分组，其中语音分组处理操作可以包括：将从无线通信单元接收到的第一语音分组转换为语音数据的操作；将转换后的语音数据分离为执行了Tx语音增强处理的第一语音数据以及没有执行Tx语音增强处理的第二语音数据的操作；对第一语音数据进行解码并将第二语音数据存储在缓冲器中的操作；第一输出操作，将解码后的第一语音数据输出到语音输入/输出单元；以及第二输出操作，当在接收到第一语音分组之后，对第二语音数据的接收被延迟时，将存储在缓冲器中的第二语音数据输出到语音输入/输出单元。

根据本发明的实施例，克服了由于网络环境有机地改变而导致的分组延迟，使得有可能向用户提供最佳的语音质量。

在阅读以下本发明具体实施方式之前，提出对贯穿本专利文献所使用的特定词语和短语的定义可能是有利的：术语“包含”和“包括”及其衍生词意味着无限制的含括；术语“或”是可兼的，意味着和/或；短语“与......相关联”和“与其相关联”及其衍生词可以意味着包括、包括在内、与......互连、包含、包含在内、连接至或与......连接、耦接至或与......耦接、与......可通信、与......协作、交错、并列、邻近于、绑定到或与......相绑定、具有、具有......特性等；以及术语“控制器”意味着控制至少一个操作的任何设备、系统或其部件，这样的设备可以以硬件、固件或软件或者以上中至少两个的某种组合来实现。应当注意，与任何特定控制器相关联的功能可以是集中式或分布式的，不管是本地还是远程方式。贯穿本专利文献提供对特定词语和短语的定义，本领域普通技术人员应当理解，即使不是大多数情况，在许多情况下这些定义也应用于如此限定的词语和短语的现有以及未来使用。

附图说明

为了更全面理解本公开及其优点，现在参考结合附图的以下描述，在附图中，相同的附图标记表示相同的部件：

图1是根据本发明实施例的用于描述分组恢复操作的原理图；

图2是根据本发明另一实施例的用于描述分组恢复操作的原理图；

图3是根据本发明实施例的用于描述语音分组发送/接收系统的网络配置图；

图4是根据本发明实施例的用于语音数据处理电路的详细的块配置图；

图5是根据本发明实施例的用于语音分组处理电路的详细的块配置图；

图6A和6B是示出了根据本发明实施例的语音分组配置的图；

图7是根据本公开实施例的用于描述分组发送设备的语音数据处理操作的流程图；

图8是根据本公开实施例的用于描述分组接收设备的语音分组处理操作的流程图；

图9是根据本公开实施例的用于描述通信终端中Tx语音增强处理方案的同步操作的流程图；

图10是根据本公开另一实施例的用于描述分组发送设备的语音数据处理操作的流程图；以及

图11是根据本公开另一实施例的用于描述分组接收设备的语音分组处理方法的流程图。

具体实施方式

以下讨论的图1到11和用于描述本专利文档中的公开的原理的各种实施例仅是说明性的而绝不应理解为以任何方式限制本公开的范围。本领域技术人员将理解，可以以任何适当布置的通信技术来实现本公开的原理。下文中，参考附图更详细地描述本公开的实施例。在描述实施例的过程中，可以省略对本领域技术人员所公知的技术以及与本公开不直接相关的技术的描述。此外，可以省略对具有基本相同配置和功能的组件的详细描述。附图中，可以放大、省略或示意性地示出一些组件。

VoLTE是用于在3GPP LTE中实现VoIP的语音通信技术。采用这种VoLTE的电子设备可以通过使用自适应多传输速率宽带(AMR-WB)和自适应多传输速率(AMR)编码器，来执行基于实时传输协议(RTP)的语音通信。在VoIP中，语音质量服务(VOS)是至关重要的。因此，在VoIP领域，用于处理RTP分组和输出平滑声音的动态抖动缓冲的技术发展变得至关重要。此外，通过用于根据网络特性提供最佳服务的长期实验管理，可以建立能够提供最佳VoLTE服务的系统配置。在IP网络中，影响语音质量的因素包括：分组延迟、分组丢失、抖动、分组大小等，语音质量根据这些因素的特性变化而有机地(organically)改变。在这些因素中，对语音质量影响最大的因素是抖动和分组丢失。

可能在分组发送设备中发生由于语音增强技术而导致的分组延迟。当这种分组延迟变长时，QoS降低。因此，应最小化语音处理的分组延迟。

下表1示出了影响VoLTE中的语音质量的因素以及这些因素的特性：

表1

动态抖动缓冲和长期测试技术可能具有以下限制而不能在动态改变的网络环境下提供最佳语音质量。

-不提供迎合有机变化的网络环境的语音质量服务

-由于仅通过当在终端之间进行呼叫建立之后对受到网络环境影响的RTP分组的灵活处理来提供语音质量服务，提供有限的语音QoS。

-无法以网络管理的形式高效地利用资源

图1是根据本发明实施例的用于描述分组恢复方法的原理图。

参考图1，分组发送设备110可以对以脉冲编码调制(PCM)方案调制的语音数据111(A、B、C和D)执行Tx(发送终端)语音增强处理。可以将语音数据111分离为预定时间的单元，所述预定时间例如是图1所示的20ms。此外，Tx语音增强处理例如可以包括降低语音数据111中的噪声和移除语音数据111中的回声的操作。由于示例处理而导致执行了这种语音增强处理的语音数据112延迟20ms或更长。分组发送设备110可以对语音数据112(A’、B’、C’和D’)进行AMR编码，将编码后的语音数据转换为语音分组113(AMR(A’)、AMR(B’)、AMR(C’)和AMR(D’))，向分组通信网络(例如，Internet)传送语音分组113。这种分组通信网络可以包括IMS服务器。

分组发送设备110可以从分组通信网络接收语音分组121(AMR(A’)、AMR(B’)、AMR(C’)和AMR(D’))，将接收到的语音分组转换为语音数据，并对所述语音数据进行AMR解码。分组接收设备120可以针对解码后的语音数据，执行根据本公开实施例的抖动缓冲控制。根据本公开实施例的抖动缓冲控制可以包括以下操作。当对AMR(B’)的接收从接收到AMR(A’)的时间点延迟了预定时间(例如，20ms)或更长时，分组接收设备120例如可以执行将A’分离为A1’和A2’的操作。此外，当在预定时间(例如，20ms)内接收到多个语音分组(例如，AMR(B’)和AMR(C’))时，分组接收设备120可以执行将B’和C’简化为B’+C’的操作。分组接收设备120可以对解码后的语音数据122(A1’、A2’、B’+C’和D’)执行Rx语音增强处理，将处理过的语音数据输出到语音输出单元(例如，包括扬声器、耳机或接收机)。Rx语音增强处理例如可以包括降低语音数据122中的噪声并移除语音数据122中的回声的操作。如上所述，分组接收设备120对语音分组执行Rx语音增强处理，但是可能发生由于网络延迟而导致的语音质量恶化(也就是说，将A’分离为A1’和A2’，将B’和C’简化为B’+C’)。

接下来，将描述根据本公开实施例的分组恢复方法。

根据本公开实施例的分组恢复方法，分组发送设备可以以高比特率和低比特率对语音数据进行AMR编码。分组发送设备可以将以高比特率和低比特率之一(例如，低比特率)编码的语音数据延迟预定时间。分组发送设备可以将以高比特率编码的当前语音数据与延迟了预定时间并以低比特率编码的先前语音数据进行合成。分组发送设备可以将合成后的数据转换为语音分组，将该语音分组发送给分组通信网络。在这种情况下，可以将以低比特率编码的语音数据用作在分组接收设备中使用的附加信息，以便恢复丢失的分组。

分组接收设备可以从分组通信网络接收语音分组，将语音分组存储在缓冲器中，并确定是否正常地接收到语音分组。作为确定的结果，当在一个分组中发生丢失(例如，对应分组比固定时间延迟了20ms或更多)时，分组接收设备可以通过使用附加信息来恢复丢失的分组。当在连续的两个或多个分组中发生丢失时，分组接收设备通过使用附加信息恢复丢失的第一分组，通过向在先前时间中正常接收到的分组和所恢复的第一分组应用插值法，来恢复其他分组。

根据本公开另一实施例的分组恢复方法可以包括以下操作：通过使用AMR-WB编码器来给出附加延迟，使得有可能在分组通信网络中进行实时语音通信，向已有数据添加附加信息，并发送分组；以及当丢失接收到的分组时，通过使用所述附加信息来执行对语音数据的前向纠错(FEC)。在这种恢复方法中，如下表2所示，增加了丢失率而改善了SNR和MOS，然而可能出现以下问题。

-当在分组发送设备和分组接收设备中不提供恢复方法时，不可能相互通信。

-为了产生附加信息，在分组发送设备中发生最少20ms或更长时间的延迟。

表2

在上表2中，平均意见值(MOS)是中间变量，用作在VoIP服务中的语音质量标准。将参与语音质量测试的检验者的主观意见进行平均，并将其转换为得分，将语音质量的等级分为1(优秀)到5(不满意)级。

图2是根据本发明另一实施例的用于描述分组恢复方法的原理图。

在VoLTE通信环境中，将IP多媒体子系统(IMS)用于基于Internet协议提供对语音、音频、视频和其他类型数据的通信服务。在真实的通信环境中，主要由于网络中的时间延迟而不是IMS网络中的分组丢失而导致出现VoLTE的语音质量恶化。根据本公开，可以通过使用用于语音数据的发送语音质量增强的技术中的时间差而无需用于语音处理的附加时间延迟，来克服由于网络中的时间延迟而导致的语音质量恶化。

参考图2，分组发送设备210可以对语音数据211(A、B、C和D)执行Tx语音增强处理。分组发送设备210可以对执行了Tx语音增强处理的语音数据222(A’、B’、C’和D’)进行AMR编码。此外，分组发送设备210可以对没有执行Tx语音增强处理的语音数据211(A、B、C和D)进行AMR编码。接下来，分组发送设备210可以将执行了Tx语音增强处理的先前编码的语音数据与没有执行Tx语音增强处理的当前编码的语音数据相合成，从而产生单个语音数据。在这种情况下，应注意“当前”和“先前”仅表示相对时间差，不表示绝对时间。然后，分组发送设备210可以将合成后的数据转换为语音分组223(AMR(A’)AMR(B)、AMR(B’)AMR(C)、AMR(C’)AMR(D)和AMR(D’)AMR(E))，将该语音分组223发送到分组通信网络。

分组接收设备220可以从分组通信网络接收到语音分组221(AMR(A’)AMR(B)、AMR(B’)AMR(C)、AMR(C’)AMR(D)和AMR(D’)AMR(E))。接下来，分组接收设备220可以将语音分组转换为合成数据。然后，分组接收设备220可以将合成后的数据分离为执行了Tx语音增强处理的语音数据(前者)与没有执行Tx语音增强处理的语音数据(后者)，对前者进行解码，并将后者存储在存储器(例如，缓冲器)中。此时，分组接收设备220可以执行根据本公开另一实施例的抖动缓冲控制。根据本公开另一实施例的抖动缓冲控制可以包括以下操作。当对AMR(B’)AMR(C)的接收从接收到AMR(A’)AMR(B)的时间点延迟了预定时间(例如，20ms)或更长时，分组接收设备220例如可以执行读取存储在缓冲器中的“B”的操作，对“B”进行解码的操作，以及执行Tx语音增强处理以便将B转换为B’的操作。然后，分组接收设备220可以对语音数据223(A’、B’、C’和D’)执行Rx语音增强处理，向语音输出单元输出处理过的语音数据。根据本公开的再一实施例的分组恢复方法，分组接收设备220可以在没有由于网络延迟而导致的语音质量恶化(也就是说，分割或简化语音数据)的前提下，将语音数据输出到语音输出单元。

以下所述的电子设备可以包括分组发送/接收设备。此外，电子设备可以包括例如智能电话、摄像机、平板PC、笔记本PC、台式PC、媒体播放器(例如，MP3播放器)、PDA、游戏机或可佩带式计算机(例如，手表、眼镜)的计算设备。此外，电子设备还可以包括具有计算设备的家用电器(例如，冰箱、TV、洗衣机等)。

图3是根据本发明实施例的用于描述语音分组发送/接收系统的网络配置图。

参考图3，本公开的语音分组发送/接收系统可以包括第一电子设备310、第二电子设备320和分组通信网络330。

第一电子设备310可以包括语音输入/输出单元311、无线发送单元312、无线接收单元313、存储器314和处理器315。语音输入/输出单元311可以包括麦克风、扬声器、接收机和音频处理部件。音频处理部件可以从处理器315接收音频信号(例如，语音数据)，将接收到的音频信号D/A转换为模拟信号，放大该模拟信号并将放大后的信号输出到扬声器。音频处理部件可以与接收机和耳机相结合，将放大后的信号输出到接收机或耳机而不是扬声器。此外，音频处理部件可以将从麦克风或耳机麦克风接收到的音频信号A/D转换为数字信号(例如，语音数据)，将该数字信号传送到处理器315。

无线发送单元312可以将从处理器315输入的语音数据转换为RF语音信号，通过分组通信网络330将RF语音信号发送到第二电子设备320。此外，无线发送单元312可以通过分组通信网络330向第二电子设备320发送与分组恢复方法相关的请求消息。无线接收单元313可以通过分组通信网络330从第二电子设备320接收与分组恢复方法相关的响应消息，并向处理器315传送该响应消息。此外，无线接收单元313可以通过分组通信网络330从第二电子设备320接收语音分组，并向处理器315传送该语音分组。

存储器314可以存储根据对第一电子设备310的管理而产生的数据，或通过无线接收单元313从外部设备接收到的数据。此外，存储器314可以存储多种类型的设置信息(例如，与分组恢复方法相关的设置值)，用于设置第一电子设备310的使用环境。处理器315可以参考这种设置信息来管理第一电子设备310。此外，存储器314可以存储用于管理第一电子设备310的多种程序(例如，引导程序和一个或多个操作程序)，以及多种应用(例如，存储器应用、web浏览器、电子书应用、摄像机应用、日历应用、图集应用、联系人应用或通信应用)。此外，存储器314可以存储语音数据处理程序集，以便允许处理器315执行将从语音输入/输出单元311输入的语音数据处理为语音分组并向无线发送单元312传送该语音分组的处理；并且可以存储语音分组处理程序集，以便允许处理器315执行将从无线接收单元313接收到的语音分组处理为语音数据并向语音输入/输出单元311传送该语音数据的处理。这种语音数据/语音分组处理程序可以是操作系统的部分配置或单独应用。此外，语音数据/语音分组处理程序还可以是嵌入在处理器315中的固件，具体地，应用处理器的内部存储器(例如，ROM、闪存、或EPROM)，并允许应用处理器执行所述操作。

存储器314可以包括主存储器和次级存储器。例如可以将主存储器实现为RAM等。可以将次级存储器实现为盘、RAM、ROM或闪存。主存储器可以存储从次级存储器加载的多种程序(例如，引导程序、操作系统以及应用)。当将电池的电力提供给处理器315时，可以首先将引导程序加载到主存储器。这种引导程序可以向主存储器加载操作系统。操作系统可以向主存储器加载应用。处理器315(例如，应用处理器(AP))可以访问主存储器，解译程序的命令(例程)，并根据解译结果执行功能。也就是说，可以将多种程序加载到主存储器并操作为进程。

处理器315可以控制第一电子设备310的总体操作以及第一电子设备310的内部元件之间的信号流，执行处理数据的功能，并控制向元件提供来自电池的电力。处理器315可以包括应用处理器(AP)。应用处理器可以执行存储在存储器314中的多种程序。也就是说，应用处理器可以从次级存储器向主存储器加载多个程序，并将所述多个程序管理为进程。具体地，应用处理器可以将语音数据/语音分组处理程序作为进程来执行。此外，应用处理器还可以同时处理(也就是说，多线程处理)多个程序。

除了应用处理器之外，处理器315还可以进一步包括多种处理器。例如，当第一电子设备310包括移动通信模块(例如，第3代移动通信模块、第3.5代移动通信模块、第4代移动通信模块等)时，处理器315还可以包括负责处理移动通信的通信处理器(CP)。上述处理器可以以单个集成电路的形式集成为准备有两个或多个独立核(例如，四核)的一个封装。例如，应用处理器可以是集成为一个多核处理器的处理器。上述处理器可以是集成在一个芯片(SoC，片上系统)中的处理器。此外，上述处理器可以是封装成多层的处理器。

第二电子设备320可以包括语音输入/输出单元321、无线接收单元322、无线发送单元323、存储器324以及处理器325。这些元件321到325可以执行与上述第一电子设备310中的元件相同的操作。然而，可以将第二电子设备320归类为与第一电子设备310不同的类型。例如，可以将第一电子设备310归类为智能电话，而将第二电子设备320归类为平板PC。当然还可以将所述电子设备归类为相同类型。此外，可以将电子设备归类为相同类型，但性能不同。例如，可以将所有第一电子设备310和第二电子设备320归类为智能电话，然而，第二电子设备320可以具有比第一电子设备310更大的屏幕。此外，第二电子设备320的处理器的处理速度可以比第一电子设备310的处理器的处理速度更快。此外，电子设备可以具有相互不同的元件。例如，第一电子设备310可以具有近场通信(NFC)模块，而第二电子设备320可以没有NFC模块。此外，电子设备还可以在平台方面(例如，固件、操作系统等)有所不同。

第二电子设备320可以通过与第一电子设备310的呼叫建立来执行与第一电子设备310的语音通信。在这种情况下，如本领域所公知，呼叫建立可以包括用于处理在终端之间的通信线路的建立的一系列过程，包括分组通信网络的发起终端所需的地址ID、通过网络的路径选择、接收方终端的连接许可等。

分组通信网络330可以包括IMS服务器331和S服务器332。可以通过IMS服务器331从分组发送设备向分组接收设备传送语音分组。S服务器332可以执行确认终端310和320是否具有相同VoLTE功能的操作。例如，S服务器332可以从第一电子设备310接收“询问是否在第二电子设备320中存在与图2的语音数据处理方案相对应的分组处理方案的请求消息”，并向第二电子设备320传送该请求消息。S服务器332可以从第二电子设备320接收与该请求消息相关的响应消息，并向第一电子设备310传送该响应消息。此外，S服务器332还可以执行向分组接收设备(例如，第二电子设备320)传送分组发送设备(例如，第一电子设备310)的Tx语音增强处理方案的参数的操作。此外，响应于分组接收设备(例如，第二电子设备320)的请求，S服务器332还可以执行向分组发送设备(例如，第一电子设备310)传送用于请求改变语音数据处理方案的消息的操作。

图4是根据本公开实施例的用于处理器的语音数据处理电路的详细的块配置图。

参考图4，Tx语音增强处理单元410对从语音输入单元输入的语音数据执行Tx语音增强，并向编码器420传送处理过的数据。编码器420对从Tx语音增强处理单元410输入的语音数据和直接从语音输入单元输入的语音数据进行AMR编码。开关430对从语音输入单元到编码器420的语音数据输入执行开关操作。控制器440控制开关430的开关操作。例如，响应于从无线接收单元接收到的“接通”信号，控制器440可以控制开关430，使得将语音数据直接输入到编码器420。此外，响应于从无线接收单元接收到的“断开”信号，控制器440可以控制开关430，使得防止将语音数据直接输入到编码器420。此外，控制器440可以从无线接收单元接收用于请求与它自己的处理器的语音数据处理相关的信息(例如，Tx语音增强处理的参数)的消息，并响应于该请求消息，将对应信息传送给无线发送单元。数据合成单元450可以同时从编码器420接收“已执行了Tx语音增强处理的编码过的语音数据”以及“没有执行Tx语音增强处理的编码过的语音数据”，将这两种类型的语音数据合成为单个语音数据，将该单个语音数据传送到分组转换单元460。当仅接收到“执行了Tx语音增强处理的编码后的语音数据”时，数据合成单元430可以向分组转换单元460原样传送接收到的语音数据。分组转换单元460可以将从数据合成单元430接收到的合成数据或“已执行了Tx语音增强处理的编码后的语音数据”转换为语音分组，将该语音分组传送到无线通信单元(例如，收发机)。

图5是根据本发明实施例的用于处理器的语音分组处理电路的详细的块配置图。

参考图5，语音数据转换单元510将从无线接收单元接收到的语音分组转换为语音数据，将该语音数据传送到数据分离器520。数据分离器520确定从语音数据转换单元510接收到的语音数据是否是合成数据。例如，数据分离器520可以检查接收到的语音数据的头部信息，识别接收到的语音数据是否是合成数据。当接收到的数据被识别为合成数据时，数据分离器520可以将接收到的数据分离为执行了Tx语音增强处理的语音数据(下文中称为前者)以及没有执行Tx语音增强处理的语音数据(下文中称为后者)。例如，数据分离器520可以检查接收到的语音数据的头部信息，识别接收到的语音数据的与前者相对应的一部分以及接收到的语音数据的与后者相对应的一部分。当完成了识别时，数据分离器520将合成数据的前者传送到解码器530，将后者传送到缓冲器540。在这种情况下，可以限制存储在缓冲器540中的语音数据的数目，当超过所限制数目时，可以先删除先存储的数据。此外，缓冲器540可以响应于控制器550的请求，向解码器530传送所存储的数据(例如，最后存储的数据)，然后重置(也就是说，全部删除)所存储的数据。当接收到的数据不是合成数据时，数据分离器520将接收到的语音数据传送到解码器530。

解码器530对从数据分离器520接收到的语音数据进行AMR解码，将解码后的数据传送到控制器550。此外，解码器530可以对从缓冲器540接收到的语音数据进行解码，并将解码后的数据传送到Tx语音增强处理单元560。类似于Tx语音增强处理单元410，Tx语音增强处理单元560可以对从解码器530接收到的语音数据执行Tx语音增强处理，并将处理过的数据传送到控制器550。

控制器550将从解码器530接收到的语音数据传送到Tx语音增强处理单元560或Rx语音增强处理单元570。此外，控制器550可以执行参考图2所述的抖动缓冲控制。也就是说，当在预定时间内(例如，20ms)没有从解码器530接收到数据时，控制器550控制缓冲器540向解码器530输出所存储的语音数据。此外，控制器550可以从无线接收单元接收“请求消息”，所述请求消息询问是否在它自己的设备中存在与图2的语音数据处理方案相对应的分组处理方案，并控制无线发送单元响应于该请求消息传送指示“存在”的信息。此外，控制器550可以从无线接收单元接收Tx语音增强处理方案的参数，控制Tx语音增强处理单元560基于该参数执行Tx语音增强处理。此外，控制器550可以检查从解码器530接收数据的延迟程度，并基于该检查信息，控制无线发送单元发送“用于请求改变语音数据处理方案的消息”。

图6A和6B是示出了根据本发明实施例的语音分组配置的图。当对应分组通信网络允许语音分组的带宽(BW)超过在VoLTE标准中限定的参考值时，分组发送设备可以产生具有如图6A所示尺寸的语音分组。当对应分组通信网络不允许语音分组的带宽(BW)超过在VoLTE标准中限定的参考值时，分组发送设备可以产生具有如图6B所示大小的语音分组。在图6A和6B中，“AMR类型头部”可以包括与“没有执行Tx语音增强处理的语音数据”相关的信息。

图7是根据本公开实施例的用于描述分组发送设备的语音数据处理方法的流程图。

参考图7，在操作710，分组发送设备的处理器400可以控制无线发送单元和无线接收单元(下文中，称作无线通信单元)执行与分组接收设备的呼叫建立。在操作720，处理器400可以对从语音输入单元(例如，麦克风)接收到的语音数据执行Tx语音增强处理。在操作730，处理器400可以分别对已执行了Tx语音增强处理的语音数据以及下一时刻从语音输入单元接收到的语音数据进行编码。在操作740，处理器400可以将已编码的两个语音数据合成为单个语音数据。在操作750，处理器400可以将合成语音数据转换为语音分组。在操作760，处理器400可以控制无线通信单元发送语音分组。在操作770，处理器400可以确定是否结束呼叫。当结束呼叫时(例如，当用户轻击显示在触摸屏上的通信结束按钮时，触摸屏检测到该轻击并将其传送到处理器400，处理器400识别通信结束的请求)，结束图7的处理，否则该处理返回到操作720。

图8是根据本公开实施例的用于描述分组接收设备的语音分组处理方法的流程图。

参考图8，在操作810，分组接收设备的处理器500可以控制无线通信单元执行与分组发送设备的呼叫建立。在操作820，处理器500可以确定对语音分组的接收是否延迟了预定时间(例如，20ms)或更长。当对语音分组的接收没有延迟时，在操作831，处理器500可以将从分组接收单元接收到的语音分组转换为语音数据。在操作832，处理器500可以将经转换的语音数据分离为执行了Tx语音增强处理的语音数据和没有执行Tx语音增强处理的语音数据。在操作833，处理器500可以对已执行Tx语音增强处理的语音数据进行解码，将没有执行Tx语音增强处理的语音数据存储在缓冲器中。在操作834，处理器500可以对编码后的语音数据执行Rx语音增强处理。在执行操作834之后，该处理可以进行到操作850。

作为操作820的确定结果，当对语音分组的接收被延迟时，在操作841，处理器500可以对存储在缓冲器中的没有执行Tx语音增强处理语音数据进行解码。在操作842，处理器500可以对解码后的语音数据执行Tx语音增强处理。在操作843，处理器500可以对已执行了Tx语音增强处理的语音数据执行Rx语音增强处理。在执行操作843之后，该处理可以进行到操作850。

在操作850，处理器500可以向语音输出单元(例如，扬声器)传送执行了Rx语音增强处理的语音数据。在操作860，处理器500可以确定是否结束呼叫。当结束呼叫时，结束图8的处理，否则该处理返回到操作820。

图9是根据本公开实施例的用于描述通信终端中Tx语音增强处理方案的同步方法的流程图。

参考图9，在操作910，分组发送设备的处理器400可以控制无线通信单元与分组接收设备执行呼叫建立。在操作920，处理器400可以控制无线通信单元发送请求消息，该请求消息询问是否在分组接收设备中存在与图7的语音数据处理方案相对应的分组处理方案。在操作930，处理器400可以通过无线通信单元从无线接收设备接收与该请求消息相对应的响应消息。在操作940，处理器400可以确定在响应消息中是否包括指示“存在”的信息。作为确定结果，当响应消息中包括指示“存在”的信息时，在操作950，处理器400可以控制无线通信单元向分组接收设备发送与Tx语音增强处理方案有关的信息。

图10是根据本公开另一实施例的用于描述分组发送设备的语音数据处理方法的流程图。

参考图10，在操作1010，分组发送设备的处理器400可以控制无线通信单元与分组接收设备执行呼叫建立。在操作1020，处理器400可以确定是否通过图7的方案处理语音数据。例如，当分组接收设备请求图7的方案时，处理器400可以确定通过图7的方案处理语音数据，当分组接收设备请求图1的方案时，处理器400可以确定通过图1的方案处理语音数据。

作为操作1020的确定结果，当确定通过图1的方案处理语音数据时，在操作1030，处理器400可以通过图1的方案将语音数据处理为语音分组，并控制无线通信单元发送该语音分组。作为操作1020的确定结果，当确定通过图7的方案处理语音数据时，在操作1040，处理器400可以通过图7的方案将语音数据处理为语音分组，并控制无线通信单元发送该语音分组。

在操作1050，处理器400可以确定是否结束呼叫。当结束呼叫时，结束图10的处理，否则，该处理可以返回到操作1020。

参考图11，在操作1110，分组接收设备的处理器500可以控制无线通信单元与分组发送设备执行呼叫建立。在操作1120中，处理器500可以通过图1的方案将语音分组处理为语音数据，并将该语音数据输出到语音输出单元。

在操作1230，处理器500可以确定是否将对语音分组的接收延迟预定时间(例如，20ms)。备选地，在操作1230，处理器500还可以确定延迟次数是否等于或大于针对预定时间(例如，一秒)的预设阈值。

作为操作1230的确定结果，当对语音分组的接收没有延迟或延迟次数等于或小于阈值时，在操作1240，处理器500可以确定是否结束呼叫。当结束呼叫时，结束图11的处理，否则，该处理可以返回到操作1120。

作为操作1230的确定结果，当对语音分组的接收被延迟或延迟次数大于阈值时，在操作1250，处理器500可以控制无线通信单元发送用于请求通过图7的方案处理语音数据的消息。在操作1260，处理器500可以通过图8的方案处理语音分组，并向语音输出单元输出经处理的语音分组。在操作1270，处理器500可以确定是否结束呼叫。当结束呼叫时，结束图11的处理，否则，处理器500可以在操作1280确定是否解决了延迟(也就是说，对语音分组的接收没有延迟，或延迟的次数等于或小于针对预定时间的预设阈值)。

作为操作1280的确定结果，当解决了延迟(也就是说，没有延迟对语音分组的接收，或延迟的次数等于或小于阈值)时，在操作1290，处理器500可以控制无线通信单元发送用于请求通过图1的方案处理语音数据的消息。作为操作1280的确定结果，当没有解决延迟时，该处理可以返回到操作1260。

可以将以上描述的根据本公开的方法实现为可以通过多种计算机执行的并记录在计算机可读记录介质中的程序命令。所述程序命令可以是专门设计或配置用于本公开，或是计算机软件领域的技术人员在了解之后可以使用的。记录介质可以包括例如硬盘、软盘或磁带等磁性介质、例如压缩盘只读存储器(CD-ROM)和数字通用盘(DVD)等光学介质、例如光磁盘的磁光介质以及例如只读存储器(ROM)、随机访问存储器(RAM)和闪存等硬件装置。此外，程序命令可以包括由编译器产生的机器语言代码以及计算机通过使用解释程序等可执行的高级语言代码。

尽管参考示例实施例描述了本公开，然而可以向本领域技术人员建议多种变型和修改。本公开旨在包含这种落入所附权利要求范围内的变型和修改。

Claims

1.一种在电子设备中用于发送语音分组的方法，所述方法包括：

与另一电子设备建立呼叫；

对从语音输入单元接收到的第一语音数据执行Tx语音增强处理；

对所述第一语音数据和在所述第一语音数据之后从语音输入单元接收到的第二语音数据进行编码；

合成所述第一语音数据和所述第二语音数据；以及

将合成后的语音数据转换为语音分组，并向所述另一电子设备发送所述语音分组。

2.根据权利要求1所述的方法，还包括：

在建立了与所述另一电子设备的呼叫之后向所述另一电子设备发送请求消息，所述请求消息询问是否在所述另一电子设备中存在预定的分组处理方案；以及

当接收到对在所述另一电子设备中存在所述预定的分组处理方案加以指示的响应消息时，向所述另一电子设备发送与Tx语音增强处理相关的信息。

3.根据权利要求2所述的方法，其中当从所述另一电子设备接收到用于请求改变语音数据处理方案的消息时，

电子设备停止编码操作、合成操作和第一发送操作，并在第二编码操作中对第一语音数据进行编码，将通过第二编码操作编码的语音数据转换为语音分组，并向所述另一电子设备发送所述语音分组。

4.根据权利要求1所述的方法，其中所述Tx语音增强处理包括：

执行以下操作中的至少一个：降低从语音输入单元接收到的语音数据中的噪声以及移除从语音输入单元接收到的语音数据中的回声。

5.一种在电子设备中用于处理语音分组的方法，所述方法包括：

将从另一电子设备接收到的第一语音分组转换为语音数据；

将经转换的语音数据分离为执行了Tx语音增强处理的第一语音数据以及没有执行Tx语音增强处理的第二语音数据；

对所述第一语音数据进行解码并将所述第二语音数据存储在缓冲器中；

将解码后的第一语音数据输出到语音输出单元；以及

当在接收到第一语音分组之后，对第二语音分组的接收被延迟时，将存储在缓冲器中的第二语音数据输出到语音输出单元。

6.根据权利要求5所述的方法，其中输出第二语音数据包括：

对存储在缓冲器中的第二语音数据执行Tx语音增强处理；以及

向语音输出单元输出执行了Tx语音增强处理的第二语音数据。

7.根据权利要求6所述的方法，其中基于从所述另一电子设备接收到的信息，执行所述Tx语音增强处理。

8.根据权利要求5所述的方法，其中输出解码后的第一语音数据包括：

对解码后的第一语音数据执行Rx语音增强处理，并向语音输出单元输出第一语音数据。

9.一种用于发送和接收语音分组的电子设备，包括：

语音输入/输出单元；

无线通信单元，配置为发送或接收语音分组；以及

处理器，配置为：

对从语音输入/输出单元接收到的第一语音数据执行Tx语音增强处理；

对第一语音数据和在所述第一数据之后从语音输入/输出单元接收到的第二语音数据进行编码；

合成编码后的第一语音数据和编码后的第二语音数据；

控制无线通信单元将合成后的语音数据转换为语音分组，并向另一电子设备发送所述语音分组；

将从无线通信单元接收到的第一语音分组转换为语音数据；

将转换后的语音数据分离为执行了Tx语音增强处理的第一语音数据以及没有执行Tx语音增强处理的第二语音数据；

对第一语音数据进行解码并将第二语音数据存储在缓冲器中；

将解码后的第一语音数据输出到语音输入/输出单元；以及

当在接收到第一语音分组之后，对第二语音分组的接收被延迟时，将存储在缓冲器中的第二语音数据输出到语音输入/输出单元。

10.根据权利要求9所述的电子设备，其中所述处理器配置为：

当从无线通信单元接收到对在所述另一电子设备中存在所述预定的分组处理方案加以指示的响应消息时，控制无线通信单元向所述另一电子设备发送与Tx语音增强处理相关的信息。

11.根据权利要求10所述的电子设备，其中所述处理器配置为当从无线通信单元接收到用于请求改变语音数据处理方案的消息时，停止编码、合成和发送操作，在第二编码操作中对第一语音数据进行编码，控制无线通信单元将通过第二编码操作编码的语音数据转换为语音分组，并向所述另一电子设备发送所述语音分组。

12.根据权利要求11所述的电子设备，其中所述处理器配置为执行Tx语音增强处理，所述Tx语音增强处理包括以下操作中的至少一个：降低从语音输入/输出单元接收到的语音数据中的噪声以及移除从语音输入/输出单元接收到的语音数据中的回声。

13.根据权利要求9所述的电子设备，其中所述处理器配置为对存储在缓冲器中的第二语音数据执行Tx语音增强处理，并向语音输入/输出单元输出执行了Tx语音增强处理的第二语音数据。

14.根据权利要求13所述的电子设备，其中所述处理器配置为：基于从所述另一电子设备接收到的信息，执行所述Tx语音增强处理。

15.根据权利要求9所述的电子设备，其中所述处理器配置为对解码后的第一语音数据执行Rx语音增强处理，并向语音输入/输出单元输出所述第一语音数据。