CN103379232A

CN103379232A - 通信服务器、通信终端和语音通信方法

Info

Publication number: CN103379232A
Application number: CN2012101092444A
Authority: CN
Inventors: 肖小毛; 张治�
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2012-04-13
Filing date: 2012-04-13
Publication date: 2013-10-30
Anticipated expiration: 2032-04-13
Also published as: CN103379232B

Abstract

一种通信服务器、通信终端和语音通信方法。所述通信服务器包括：获取单元，适于基于音频硬件抽象层获取分别对应于各通信工具的音频输出数据；合成单元，适于将对应于各通信工具的音频输出数据进行语音合成处理，以得到音频合成数据；输出单元，适于将音频合成数据分别传送至所述各通信工具。利用所述通信服务器对多方语音数据进行合并和转发，实现了装有不同通信工具的通信终端之间的互联互通及多方通话。

Description

通信服务器、通信终端和语音通信方法

技术领域

本发明涉及通信领域，特别涉及一种通信服务器、通信终端和语音通信方法。

背景技术

随着通信技术的发展，现在已经有很多种方式可以实现用户间的语音通话功能。最典型的是在GSM/WCDMA/TD-SCDMA等2G/3G通信协议上承载的电路交换(circuit switch，CS)业务；除此之外，还有各种基于IP电话(VOIP，Voice over internet protocol)的点对点(Peer-to-Peer)通话，实时交互工具(IM，Instant message)如QQ、MSN等提供的语音通话功能等等。然而，这些语音通信方式都有各自不同的编码、传输和同步协议，相互之间不能通用，更为重要的是，不少通信协议本身是不公开的，甚至传输的语音数据包也被加密，进一步增大了互联互通的难度。

现有的一种CS和VOIP互通方案是由无线运营商实现的，在基站侧将CS业务的数据加以转换，与特定VOIP协议使用的数据格式相适配后，再将其传给VOIP服务器，从VOIP到CS也是类似的过程。但这种互通只有在运营商提供相应服务时才能实现，而且只能支持特定格式，如果运营商没有与某种通信工具/软件做适配，使用它的用户也就无法与其它通信工具实现互通。

美国专利申请US20060212525A1公开了一种一键通系统和实时交互系统的互连方法和装置(Method and Apparatus for Interworking betweenPush-To-Talk over Cellular(POC)Systems and Instant Messaging(IM)Systems)，但仍未解决上述问题。

发明内容

本发明技术方案要解决是现有技术中，多种通信工具难以实现互通的问题。

为解决上述问题，本发明技术方案提供了一种通信服务器，应用于通信终端中，所述通信终端装载有至少一种通信工具，所述通信服务器包括：获取单元，适于基于音频硬件抽象层获取分别对应于各通信工具的音频输出数据；合成单元，适于将对应于各通信工具的音频输出数据进行语音合成处理，以得到音频合成数据；输出单元，适于将音频合成数据分别传送至所述各通信工具。

为解决上述问题，本发明技术方案还提供一种包括上述通信服务器的通信终端。

为解决上述问题，本发明技术方案还提供一种语音通信方法，包括：基于音频硬件抽象层获取分别对应于各通信工具的音频输出数据；将对应于各通信工具的音频输出数据进行语音合成处理，以得到音频合成数据；将音频合成数据分别传送至所述各通信工具。

与现有技术相比，上述技术方案利用通信服务器对多方语音数据进行合并和转发，实现了装有不同通信工具的通信终端之间的互联互通及多方通话，且无需修改进行互通的通信工具，也无需运营商或网络服务器的支持，只需带有通信服务器的通信终端采用的操作系统支持音频硬件抽象层即可，因此具有很强的实用性和通用性。

附图说明

图1是本发明实施方式的通信服务器应用于通信终端的结构示意图；

图2是本发明实施方式的语音通信方法的流程示意图；

图3是本发明实施例1的进行互通的通信终端的结构示意图；

图4是本发明实施例1的通信服务器的结构示意图；

图5是本发明实施例1的通信终端进行互通的流程示意图；

图6是本发明实施例2的进行互通的通信终端的结构示意图；

图7是本发明实施例2的通信服务器的结构示意图；

图8是本发明实施例2的通信终端进行互通的流程示意图。

具体实施方式

发明人经过研究发现，在操作系统支持音频硬件抽象层(Audio HAL，Audio Hardware Abstract Layer)的情况下，通信工具都通过调用Audio HAL接口来实现音频的输入和输出。其中，所述通信工具为能够提供语音通话服务的应用工具，可以安装于通信终端中，并运行于通信终端的操作系统上。

现有的大部分智能操作系统例如Android系统、RIM系统等都支持AudioHAL接口。以Android系统为例，Audio HAL是名叫音频硬件接口(AudioHardwareInterface)的类，其中，Audio HAL输出接口(Audio StreamOut)输出音频数据流到扬声器或耳机；Audio HAL输入接口(AudioStreamIn)则从麦克风输入语音信号并转化成PCM数据流。

通常，通信工具的音频输入过程主要包括：接收麦克风的输入语音，调用AudioStreamIn进行模数转换，编码，加密并传输数字语音信号。通信工具的音频输出过程主要包括：接收数字语音信号，解密，解码，调用AudioStreamOut进行数模转换，输出至扬声器。可见，Audio HAL输入接口的输出和Audio HAL输出接口的输入都是纯数据，与通信工具内部使用的数据格式、编码方式甚至数据加密无关，因此，发明人考虑可以利用Audio HAL的这一特点来实现两种或两种以上不同的通信工具之间的互联互通。

本发明实施方式提供一种通信服务器及包括所述通信服务器的通信终端，所述通信服务器如图1所示，所述通信服务器应用于通信终端中，所述通信终端装载有至少一种通信工具17，所述通信服务器包括：获取单元11，适于基于音频硬件抽象层18获取分别对应于各通信工具的音频输出数据；合成单元12，适于将对应于各通信工具的音频输出数据进行语音合成处理，以得到音频合成数据；输出单元13，适于将音频合成数据分别传送至所述各通信工具。

对应地，本发明实施方式还提供一种语音通信方法，如图2所示，包括：步骤S11，基于音频硬件抽象层获取分别对应于各通信工具的音频输出数据；步骤S12，将对应于各通信工具的音频输出数据进行语音合成处理，以得到音频合成数据；步骤S13，将音频合成数据分别传送至所述各通信工具。

下面结合附图，以装载有Android系统的通信终端(简称终端)实现多种通信工具的互通为例，对本发明实施方式进行详细说明。

实施例1

请参考图3，本实施例以终端D实现终端A的电话工具、终端B的VOIP工具和终端C的IM工具的互通。

如图3所示，终端D装载有多种通信工具，例如，电话工具、VOIP工具、IM工具等，要实现终端A的电话工具(CS业务)、终端B的VOIP工具和终端C的IM工具的互通，终端D需要安装有电话工具D1、VOIP工具D2和IM工具D3，分别对应与终端A的电话工具、终端B的VOIP工具和终端C的IM工具进行互通。

通信服务器2嵌入于终端D中，包括：获取单元21、合成单元22、输出单元23、注册单元24和时钟单元25。本实施例中，通信服务器2所在的终端D不参与终端之间的互通。

获取单元21适于基于Audio HAL获取分别对应于各通信工具的音频输出数据。获取单元21可以获取装载于终端D的所有通信工具的音频输出数据，也可以获取装载于终端D的部分通信工具的音频输出数据。本实施例中，获取单元21获取哪些通信工具的音频输出数据由注册单元24确定，注册单元24适于选择需要进行互通的通信工具；获取单元21适于获取各需要进行互通的通信工具的音频输出数据。

进一步，请参考图4，获取单元21包括：第一截取单元21A，适于当通信工具调用Audio HAL输出接口，则截取Audio HAL输出接口的输入数据，以得到对应于所述通信工具的音频输出数据。

具体实施时，结合参考图3和图4，电话工具D1通过通信网络(图中未示)接收到终端A的电话工具的语音信号，对语音信号进行解密和解码等处理后，获得音频数据流，然后调用Audio HAL输出接口；当电话工具D1调用Audio HAL输出接口，第一截取单元21A截取Audio HAL输出接口的输入数据，得到对应于电话工具D1的音频输出数据(以下将“对应于电话工具D1的音频输出数据”简称为第一音频数据)。这里截取Audio HAL输出接口的输入数据是指将电话工具D1在调用Audio HAL输出接口时要输入至AudioHAL输出接口的音频数据流重定向至第一截取单元21A，也就是，电话工具D1对接收到的语音信号解密和解码后得到的音频数据流即第一音频数据作为第一截取单元21A的输入数据，而不是作为Audio HAL输出接口的输入数据。类似地，当VOIP工具D2调用Audio HAL输出接口，第一截取单元21A截取Audio HAL输出接口的输入数据，得到对应于VOIP工具D2的音频输出数据(以下将“对应于VOIP工具D2的音频输出数据”简称为第二音频数据)；当IM工具D3调用Audio HAL输出接口，第一截取单元21A截取Audio HAL输出接口的输入数据，得到对应于IM工具D3的音频输出数据(以下将“对应于IM工具D3的音频输出数据”简称为第三音频数据)。

请继续参考图3，合成单元22适于将对应于各通信工具的音频输出数据进行语音合成处理，以得到音频合成数据。合成单元22将对应于电话工具D1的音频输出数据、对应于VOIP工具D2的音频输出数据和对应于IM工具D3的音频输出数据合并成一路音频数据。

进一步，请参考图4，合成单元22包括：采样单元22A，适于采用与通信工具匹配的采样率分别对对应于各通信工具的音频输出数据进行采样，并将采样得到的各数据转换成具有相同采样率的数据，以得到分别对应于各通信工具的第一音频缓存数据；运算单元22B，适于将对应于各通信工具的第一音频缓存数据进行语音合成，以得到音频合成数据。

具体实施时，采样单元22A采用与电话工具D1匹配的采样率对第一截取单元21A截取到的第一音频数据进行采样，并通过升/降采样率的方式对采样得到的数据进行转换，得到对应于电话工具D1的第一音频缓存数据(以下将“对应于电话工具D1的第一音频缓存数据”简称为第一缓存数据)，所述第一缓存数据的采样率为预定采样率；采样单元22A采用与VOIP工具D2匹配的采样率对第一截取单元21A截取到的第二音频数据进行采样，并通过升/降采样率的方式对采样得到的数据进行转换，得到对应于VOIP工具D2的第一音频缓存数据(以下将“对应于VOIP工具D2的第一音频缓存数据”简称为第二缓存数据)，所述第二缓存数据的采样率为所述预定采样率；采样单元22A采用与IM工具D3匹配的采样率对第一截取单元21A截取到的第三音频数据进行采样，并通过升/降采样率的方式对采样得到的数据进行转换，得到对应于IM工具D3的第一音频缓存数据(以下将“对应于IM工具D3的第一音频缓存数据”简称为第三缓存数据)，所述第三缓存数据的采样率为所述预定采样率；将第一缓存数据、第二缓存数据和第三缓存数据储存在缓存中。所述预定采样率可以适用任意值，本实施例中，所述预定采样率的取值范围为8KHz至192KHz，例如可以为8KHz、44.1KHz、48KHz、96KHz或192KHz等。

运算单元22B可以实时地读取第一缓存数据、第二缓存数据和第三缓存数据，也可以周期性地读取第一缓存数据、第二缓存数据和第三缓存数据。本实施例中，运算单元22B每隔预定周期从采样单元22A的缓存中读取第一缓存数据、第二缓存数据和第三缓存数据，采用语音合成技术合并所述第一缓存数据、第二缓存数据和第三缓存数据，得到音频合成数据。其中，预定周期由时钟单元25输出的时钟信号决定，时钟单元25适于产生时钟信号；运算单元22B由所述时钟信号触发。时钟单元25可以包括定时器，每隔预定时间输出一脉冲信号，触发运算单元22B从采样单元22A取值。所述时钟信号的周期关联于采样单元22A采用的采样率，本实施例中，所述时钟信号的周期小于或等于20ms。

需要说明的是，本实施例中，由于不同的通信工具使用的采样率和缓存长度不同，因此需要采样单元22A先采用通信工具使用的采样率分别对对应于各通信工具的音频输出数据进行采样，然后再将采样得到的各数据转换成具有统一采样率的数据。在其他实施例中，如果实现互通的通信工具使用相同的采样率，也可以不需要采样单元，则运算单元直接将对应于各通信工具的音频输出数据进行语音合成，以得到音频合成数据。

请继续结合图3和图4，输出单元23适于将音频合成数据分别传送至所述各通信工具。输出单元23包括：语音处理单元23A，适于对所述音频合成数据进行语音处理；匹配处理单元23B，适于对语音处理后的音频合成数据分别进行对应于各通信工具的匹配处理，以得到分别对应于各通信工具的第二音频缓存数据；传送单元23C，适于当通信工具调用Audio HAL输入接口，则将对应于所述通信工具的第二音频缓存数据作为Audio HAL输入接口的输出数据返回至所述通信工具。

具体实施时，语音处理单元23A对运算单元22B输出的所述音频合成数据进行语音处理，得到音频处理数据。所述语音处理包括：部分或全部静音、音量均衡、防饱和、混音、噪声抑制、回声消除和侧音处理中的至少一种，可以根据实际需要其中的一种或多种。

匹配处理单元23B针对各通信工具，对所述音频处理数据进行匹配处理，并将匹配处理后的数据储存至缓存中。所述匹配处理包括回音消除匹配处理和采样率匹配处理，回音消除匹配处理是指从数据中减去对应于通信工具的音频输出数据，目的是消除远端回音；采样率匹配处理是指将数据转换成具有与所述通信工具匹配的采样率的数据，目的是将音频数据的采样率恢复至通信工具使用的采样率。

匹配处理单元23B可以先进行回音消除匹配处理，再进行采样率匹配处理。具体地，针对电话工具D1，先从音频处理数据中减去第一缓存数据(对应于电话工具D1的音频输出数据)，然后再通过升/降采样率的方式对相减后的数据进行转换，得到对应于电话工具D1的第二音频缓存数据(以下将“对应于电话工具D1的第二音频缓存数据”简称为第四缓存数据)，所述第四缓存数据的采样率为电话工具D1使用的采样率。针对VOIP工具D2，先从音频处理数据中减去第二缓存数据(对应于VOIP工具D2的音频输出数据)，然后再通过升/降采样率的方式对相减后的数据进行转换，得到对应于VOIP工具D2的第二音频缓存数据(以下将“对应于VOIP工具D2的第二音频缓存数据”简称为第五缓存数据)，所述第五缓存数据的采样率为VOIP工具D2使用的采样率。针对IM工具D3，先从音频处理数据中减去第三缓存数据(对应于IM工具D3的音频输出数据)，然后再通过升/降采样率的方式对相减后的数据进行转换，得到对应于IM工具D3的第二音频缓存数据(以下将“对应于VOIP工具D2的第二音频缓存数据”简称为第六缓存数据)，所述第六缓存数据的采样率为IM工具D3使用的采样率。将所述第四缓存数据、第五缓存数据和第六缓存数据储存至缓存中。

匹配处理单元23B也可以先进行采样率匹配处理，再进行回音消除匹配处理。具体地，针对电话工具D1，先通过升/降采样率的方式对音频处理数据进行转换，然后再减去采样单元22A采样所述第一音频数据得到的数据(对应于电话工具D1的音频输出数据)，得到第四缓存数据。针对VOIP工具D2，先通过升/降采样率的方式对音频处理数据进行转换，然后再减去采样单元22A采样所述第二音频数据得到的数据(对应于VOIP工具D2的音频输出数据)，得到第五缓存数据。针对IM工具D3，先通过升/降采样率的方式对音频处理数据进行转换，然后再减去采样单元22A采样所述第三音频数据得到的数据(对应于IM工具D3的音频输出数据)，得到第六缓存数据。

当电话工具D1调用Audio HAL输入接口，传送单元23C从匹配处理单元23B的缓存中读取对应于电话工具D1的第二音频缓存数据，即第四缓存数据，将所述第四缓存数据作为Audio HAL输入接口的输出数据返回给电话工具D1。当VOIP工具D2调用Audio HAL输入接口，传送单元23C从匹配处理单元23B的缓存中读取对应于VOIP工具D2的第二音频缓存数据，即第五缓存数据，将所述第五缓存数据作为Audio HAL输入接口的输出数据返回给VOIP工具D2。当IM工具D3调用Audio HAL输入接口，传送单元23C从匹配处理单元23B的缓存中读取对应于IM工具D3的第二音频缓存数据，即第六缓存数据，将所述第六缓存数据作为Audio HAL输入接口的输出数据返回给IM工具D3。

需要说明的是，本实施例是先进行语音处理，再分别进行匹配处理；在其他实施例中，也可以是先分别进行匹配处理，再分别进行语音处理，即：匹配处理单元，适于对音频合成数据分别进行对应于各通信工具的匹配处理，以得到分别对应于各通信工具的第二音频缓存数据；语音处理单元，适于对对应于各通信工具的第二音频缓存数据分别进行语音处理；传送单元，适于将语音处理后的对应于所述通信工具的第二音频缓存数据作为Audio HAL输入接口的输出数据返回至所述通信工具。

此外，本实施例的语音处理单元是为了提高输出语音的质量或针对实际需求而对音频数据进行的特殊处理，在其他实施例中，也可以根据实际需要而省略部分或全部语音处理。本实施例的匹配处理单元中的回音消除匹配处理和采样率匹配处理也均是可选的，如在对话音质量要求不高的情况下可以省略回音消除匹配处理；在各通信工具使用的采样率相同且采样单元省略的情况下，也可以省略采样率匹配处理。

进一步，所述通信服务器还可以包括提供单元(未图示)，适于将音频合成数据作为输入数据提供至Audio HAL输出接口。提供单元将运算单元22B输出的音频合成数据或语音处理单元23A输出的音频处理数据提供给AudioHAL输出接口，经过数模转换得到模拟输出信号，由扬声器或耳机将所述模拟信号输出。

对应地，本实施例还提供一种语音通信方法，下面结合图3和图5说明本实施例利用终端D实现终端A、终端B和终端C之间互通的语音通信过程。

步骤S100，选择需要互通的通信工具。启动终端D的通信服务器2，通信服务器2选择需要互通的通信工具为电话工具、VOIP工具和IM工具，启动终端D的电话工具D1、VOIP工具D2和IM工具D3。

步骤S101，各需要互通的通信工具接收各自的下行(downlink，从网络侧指向终端侧的数据传输链路)数据。终端A的电话工具对用户通过麦克风输入的语音进行模数转换、编码和加密等处理后，通过通信网络发送语音信号至终端D的电话工具D1；终端B的VOIP工具对用户输入的语音进行模数转换、编码和加密等处理后，通过通信网络发送语音信号至终端D的VOIP工具D2；终端C的IM工具对用户输入的语音进行模数转换、编码和加密等处理后，通过通信网络发送语音信号至终端D的IM工具D3。

步骤S102，截取各通信工具的音频输出数据。电话工具D1对接收到的语音信号进行解密和解码等处理后，输出第一音频数据；VOIP工具D2对接收到的语音信号进行解密和解码等处理后，输出第二音频数据；IM工具D3对接收到的语音信号进行解密和解码等处理后，输出第三音频数据。通信服务器2截取所述第一音频数据、第二音频数据和第三音频数据。

步骤S103，对各通信工具的音频输出数据进行归一化采样并缓存。通信服务器2采用与通信工具匹配的采样率分别对第一音频数据、第二音频数据和第三音频数据进行采样，并将采样得到的各数据转换成具有相同采样率的数据，以得到第一缓存数据、第二缓存数据和第三缓存数据。

步骤S104，等待时钟信号触发，时钟信号由定时器产生。

步骤S105，读取对应于电话工具D1、VOIP工具D2和IM工具D3的缓存数据并合成一路数据。通信服务器2读取第一缓存数据、第二缓存数据和第三缓存数据，合并成音频合成数据。

步骤S106，对音频合成数据进行语音处理。

步骤S107，分别进行对应电话工具D1、VOIP工具D2和IM工具D3的回音消除匹配处理。

步骤S108，分别进行对应电话工具D1、VOIP工具D2和IM工具D3的采样率匹配处理。通信服务器2执行回音消除匹配处理和采样率匹配处理后，得到第四缓存数据(对应于电话工具D1)、第五缓存数据(对应VOIP工具D2)和第六缓存数据(对应于IM工具D3)。

步骤S109，将匹配处理后的音频数据分别回送至各通信工具的音频输入。通信服务器2将第四缓存数据返回给电话工具D1，将第五缓存数据返回给VOIP工具D2，将第六缓存数据返回给IM工具D3。

步骤S110，各通信工具发送各自的上行(uplink，从终端侧指向网络侧的数据传输链路)数据。电话工具D1对第四缓存数据进行编码和加密等处理后，生成上行数据并通过通信网络发送至终端A的电话工具；VOIP工具D1对第五缓存数据进行编码和加密等处理后，生成上行数据并通过通信网络发送至终端B的VOIP工具；IM工具D3对第六缓存数据进行编码和加密等处理后，生成上行数据并通过通信网络发送至终端C的IM工具。

终端A的电话工具接收到电话工具D1的上行数据，进行解密和解码后，在终端A播放终端B和终端C的用户输入的语音。终端B的VOIP工具接收到VOIP工具D2的上行数据，进行解密和解码后，在终端B播放终端A和终端C的用户输入的语音。终端C的IM工具接收到IM工具D3的上行数据，进行解密和解码后，在终端C播放终端A和终端B的用户输入的语音。各终端之所以不会听到各自用户的语音是因为终端D的通信服务器2进行了回音消除匹配处理，即从合成的音频数据中减去了对应的语音输入，由此消除了远端回音，增强了用户体验。

此外，通过将音频合成数据作为输入数据提供至Audio HAL输出接口，可以在终端D播放终端A、终端B和终端C的用户输入的语音。

结合图4和图5，步骤S100可以由注册单元24执行，步骤S102可以由第一截取单元21A执行，步骤S103可以由采样单元22A执行，步骤S105可以由运算单元22B执行，步骤S106可以由语音处理单元23A执行，步骤S107和S108可以由匹配处理单元23B执行，步骤S109可以由传送单元23C执行。

本实施例利用带有通信服务器的通信终端(如终端D)作为转发服务器，实现了装有不同通信工具的通信终端(如终端A、终端B和终端C)之间的互联互通及多方通话，且无需修改进行互通的通信终端中的通信工具，只需带有通信服务器的通信终端采用的操作系统支持Audio HAL即可，因此具有很强的实用性和通用性。

实施例2

请参考图6，本实施例以终端E实现终端A的电话工具、终端B的VOIP工具和终端E的IM工具的互通。

通信服务器2′嵌入于终端E中，本实施例中，通信服务器22′所在的终端E也参与终端之间的互通。通信服务器2′包括：获取单元21′、合成单元22、输出单元23′、注册单元24和时钟单元25。其中，获取单元21′和输出单元23′区别于实施例1的获取单元21和输出单元23，下面结合图6和图7说明获取单元21′和输出单元23′，合成单元22、注册单元24和时钟单元25可参考实施例1的说明。

获取单元21′包括：第一截取单元21A，适于当通信工具调用Audio HAL输出接口，则截取Audio HAL输出接口的输入数据，以得到对应于所述通信工具的音频输出数据；第二截取单元21B，适于当通信工具调用Audio HAL输入接口，则截取Audio HAL输入接口的输出数据。由于通信服务器2′所在的终端E也参与互通，因此，第二截取单元21B截取的是终端E中参与互通的通信工具的音频输出数据，第一截取单元21A截取的是终端E中其他通信工具的音频输出数据。

具体实施时，当电话工具D1调用Audio HAL输出接口，第一截取单元21A截取Audio HAL输出接口的输入数据，得到对应于电话工具D1的音频输出数据(即第一音频数据)。这里截取Audio HAL输出接口的输入数据是指将电话工具D1在调用Audio HAL输出接口时要输入至Audio HAL输出接口的音频数据流重定向至第一截取单元21A。类似地，当VOIP工具D2调用Audio HAL输出接口，第一截取单元21A截取Audio HAL输出接口的输入数据，得到对应于VOIP工具D2的音频输出数据(即第二音频数据)。

当IM工具D3接收到终端E的用户输入的语音，调用Audio HAL输入接口进行模数转换后，第二截取单元21B截取Audio HAL输入接口的输出数据，得到对应于IM工具D3的音频输出数据(即第三音频数据)。这里截取AudioHAL输入接口的输出数据是指将IM工具D3在调用Audio HAL输入接口后，将Audio HAL输入接口返回的音频数据重定向至第二截取单元21B，也就是，IM工具D3不再对Audio HAL输入接口返回的音频数据进行编码和加密等处理。

相应地，当电话工具D1调用Audio HAL输入接口，传送单元23C′将所述第四缓存数据作为Audio HAL输入接口的输出数据返回给电话工具D1。当VOIP工具D2调用Audio HAL输入接口，传送单元23C′将所述第五缓存数据作为Audio HAL输入接口的输出数据返回给VOIP工具D2。并且，传送单元23C′将所述第六缓存数据返回给IM工具D3，IM工具D3调用Audio HAL输出接口，将所述第六缓存数据作为Audio HAL输出接口的输入数据，经过数模转换得到模拟输出信号，由扬声器或耳机将所述模拟信号输出。

对应地，本实施例还提供一种语音通信方法，下面结合图6和图8说明本实施例利用终端E实现终端A、终端B和终端E之间互通的语音通信过程。

步骤S200，选择需要互通的通信工具。启动终端E的通信服务器2′，启动终端E的电话工具D1、VOIP工具D2和IM工具D3。

步骤S201，电话工具D1和VOIP工具D2接收各自的下行数据，IM工具D3接收用户输入的语音。终端A的电话工具对用户通过麦克风输入的语音进行模数转换、编码和加密等处理后，通过通信网络发送语音信号至终端E的电话工具D1；终端B的VOIP工具对用户输入的语音进行模数转换、编码和加密等处理后，通过通信网络发送语音信号至终端E的VOIP工具D2；终端E的IM工具D3接收用户通过麦克风输入的语音。

步骤S202，通信服务器2′截取电话工具D1的第一音频数据，VOIP工具D2的第二音频数据和IM工具D3的第三音频数据。

步骤S203，通信服务器2′分别对各通信工具的音频输出数据进行归一化采样并缓存，以得到第一缓存数据、第二缓存数据和第三缓存数据。

步骤S204，等待时钟信号触发，时钟信号由定时器产生。

步骤S205，通信服务器2′读取第一缓存数据、第二缓存数据和第三缓存数据，合并成音频合成数据。

步骤S206，对音频合成数据进行语音处理。

步骤S207，分别进行对应电话工具D1、VOIP工具D2和IM工具D3的回音消除匹配处理。

步骤S208，分别进行对应电话工具D1、VOIP工具D2和IM工具D3的采样率匹配处理。通信服务器2′执行回音消除匹配处理和采样率匹配处理后，得到第四缓存数据(对应于电话工具D1)、第五缓存数据(对应VOIP工具D2)和第六缓存数据(对应于IM工具D3)。

步骤S209，将匹配处理后的音频数据分别回送至电话工具D1和VOIP工具D2的音频输入，以及IM工具D3的音频输出。通信服务器2′将第四缓存数据返回给电话工具D1，将第五缓存数据返回给VOIP工具D2，将第六缓存数据返回给IM工具D3。

步骤S210，电话工具D1和VOIP工具D2发送各自的上行数据。电话工具D1对第四缓存数据进行编码和加密等处理后，生成上行数据并通过通信网络发送至终端A的电话工具；VOIP工具D1对第五缓存数据进行编码和加密等处理后，生成上行数据并通过通信网络发送至终端B的VOIP工具。

终端A的电话工具接收到电话工具D1的上行数据，进行解密和解码后，在终端A播放终端B和终端E的用户输入的语音。终端B的VOIP工具接收到VOIP工具D2的上行数据，进行解密和解码后，在终端B播放终端A和终端E的用户输入的语音。终端E的IM工具接收到第六缓存数据，进行数模转换后，在终端E播放终端A和终端B的用户输入的语音。

结合图7和图8，步骤S200可以由注册单元24执行，步骤S202可以由第一截取单元21A和第二截取单元21B执行，步骤S203可以由采样单元22A执行，步骤S205可以由运算单元22B执行，步骤S206可以由语音处理单元23A执行，步骤S207和S208可以由匹配处理单元23B执行，步骤S209可以由传送单元23C′执行。

本实施例利用带有通信服务器的通信终端(如终端E)实现了与其他装有不同通信工具的通信终端(如终端A、终端B)之间的互联互通及多方通话，且无需修改其他通信终端中的通信工具，只需带有通信服务器的通信终端采用的操作系统支持Audio HAL即可，因此具有很强的实用性和通用性。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种通信服务器，应用于通信终端中，所述通信终端装载有至少一种通信工具，其特征在于，包括：

获取单元，适于基于音频硬件抽象层获取分别对应于各通信工具的音频输出数据；

合成单元，适于将对应于各通信工具的音频输出数据进行语音合成处理，以得到音频合成数据；

输出单元，适于将音频合成数据分别传送至所述各通信工具。

2.如权利要求1所述的通信服务器，其特征在于，所述获取单元包括：第一截取单元，适于当通信工具调用音频硬件抽象层输出接口，则截取音频硬件抽象层输出接口的输入数据，以得到对应于所述通信工具的音频输出数据。

3.如权利要求2所述的通信服务器，其特征在于，所述获取单元还包括：第二截取单元，适于当通信工具调用音频硬件抽象层输入接口，则截取音频硬件抽象层输入接口的输出数据，以得到对应于所述通信工具的音频输出数据。

4.如权利要求1所述的通信服务器，其特征在于，所述合成单元包括：

采样单元，适于采用与通信工具匹配的采样率分别对对应于各通信工具的音频输出数据进行采样，并将采样得到的各数据转换成具有相同采样率的数据，以得到分别对应于各通信工具的第一音频缓存数据；

运算单元，适于将对应于各通信工具的第一音频缓存数据进行语音合成，以得到音频合成数据。

5.如权利要求1所述的通信服务器，其特征在于，所述合成单元包括：运算单元，适于将对应于各通信工具的音频输出数据进行语音合成，以得到音频合成数据。

6.如权利要求4或5所述的通信服务器，其特征在于，还包括：时钟单元，适于产生时钟信号；所述运算单元由所述时钟信号触发。

7.如权利要求6所述的通信服务器，其特征在于，所述时钟信号的周期小于或等于20ms。

8.如权利要求1所述的通信服务器，其特征在于，所述输出单元包括：

匹配处理单元，适于对音频合成数据分别进行对应于各通信工具的匹配处理，以得到分别对应于各通信工具的第二音频缓存数据；

传送单元，适于当通信工具调用音频硬件抽象层输入接口，则将对应于所述通信工具的第二音频缓存数据作为音频硬件抽象层输入接口的输出数据返回至所述通信工具。

9.如权利要求8所述的通信服务器，其特征在于，对应于通信工具的匹配处理包括：从数据中减去对应于所述通信工具的音频输出数据。

10.如权利要求9所述的通信服务器，其特征在于，对应于通信工具的匹配处理还包括：将数据转换成具有与所述通信工具匹配的采样率的数据。

11.如权利要求8所述的通信服务器，其特征在于，对应于通信工具的匹配处理包括：将数据转换成具有与所述通信工具匹配的采样率的数据。

12.如权利要求8所述的通信服务器，其特征在于，所述输出单元还包括：语音处理单元，适于对所述音频合成数据进行语音处理；所述匹配处理单元适于对语音处理后的音频合成数据分别进行对应于各通信工具的匹配处理。

13.如权利要求8所述的通信服务器，其特征在于，所述输出单元还包括：语音处理单元，适于对对应于各通信工具的第二音频缓存数据分别进行语音处理；所述传送单元适于将语音处理后的对应于所述通信工具的第二音频缓存数据作为音频硬件抽象层输入接口的输出数据返回至所述通信工具。

14.如权利要求12或13所述的通信服务器，其特征在于，所述语音处理包括：部分或全部静音、音量均衡、防饱和、混音、噪声抑制、回声消除和侧音处理中的至少一种。

15.如权利要求8所述的通信服务器，其特征在于，所述传送单元还适于将对应于通信工具的第二音频缓存数据返回至所述通信工具，以作为音频硬件抽象层输出接口的输入数据。

16.如权利要求1所述的通信服务器，其特征在于，还包括：提供单元，适于将音频合成数据作为输入数据提供至音频硬件抽象层输出接口。

17.如权利要求1所述的通信服务器，其特征在于，还包括：注册单元，适于选择需要进行互通的通信工具；所述获取单元适于获取各需要进行互通的通信工具的音频输出数据。

18.一种通信终端，所述通信终端装载有至少一种通信工具，其特征在于，包括权利要求1至17任一项所述的通信服务器。

19.如权利要求18所述的通信终端，其特征在于，所述通信终端装载的操作系统为智能操作系统。

20.一种语音通信方法，应用于通信终端中，所述通信终端装载有至少一种通信工具，其特征在于，包括：

基于音频硬件抽象层获取分别对应于各通信工具的音频输出数据；

将对应于各通信工具的音频输出数据进行语音合成处理，以得到音频合成数据；

将音频合成数据分别传送至所述各通信工具。

21.如权利要求20所述的语音通信方法，其特征在于，所述获取分别对应于各通信工具的音频输出数据包括：当通信工具调用音频硬件抽象层输出接口，则截取音频硬件抽象层输出接口的输入数据，以得到对应于所述通信工具的音频输出数据。

22.如权利要求21所述的语音通信方法，其特征在于，所述获取分别对应于各通信工具的音频输出数据还包括：当通信工具调用音频硬件抽象层输入接口，则截取音频硬件抽象层输入接口的输出数据，以得到对应于所述通信工具的音频输出数据。

23.如权利要求20所述的语音通信方法，其特征在于，所述将对应于各通信工具的音频输出数据进行语音合成处理包括：

采用与通信工具匹配的采样率分别对对应于各通信工具的音频输出数据进行采样，并将采样得到的各数据转换成具有相同采样率的数据，以得到分别对应于各通信工具的第一音频缓存数据；

将对应于各通信工具的第一音频缓存数据进行语音合成，以得到音频合成数据。

24.如权利要求20所述的语音通信方法，其特征在于，所述将对应于各通信工具的音频输出数据进行语音合成处理包括：将对应于各通信工具的音频输出数据进行语音合成，以得到音频合成数据。

25.如权利要求23或24所述的语音通信方法，其特征在于，所述语音合成由所述时钟信号触发。

26.如权利要求25所述的语音通信方法，其特征在于，所述时钟信号的周期小于或等于20ms。

27.如权利要求20所述的语音通信方法，其特征在于，所述将音频合成数据分别传送至所述各通信工具包括：

对音频合成数据分别进行对应于各通信工具的匹配处理，以得到分别对应于各通信工具的第二音频缓存数据；

当通信工具调用音频硬件抽象层输入接口，则将对应于所述通信工具的第二音频缓存数据作为音频硬件抽象层输入接口的输出数据返回至所述通信工具。

28.如权利要求27所述的语音通信方法，其特征在于，对应于通信工具的匹配处理包括：从数据中减去对应于所述通信工具的音频输出数据。

29.如权利要求28所述的语音通信方法，其特征在于，对应于通信工具的匹配处理还包括：将数据转换成具有与所述通信工具匹配的采样率的数据。

30.如权利要求27所述的语音通信方法，其特征在于，对应于通信工具的匹配处理包括：将数据转换成具有与所述通信工具匹配的采样率的数据。

31.如权利要求27所述的语音通信方法，其特征在于，所述将音频合成数据分别传送至所述各通信工具还包括：在所述匹配处理前，对所述音频合成数据进行语音处理。

32.如权利要求27所述的语音通信方法，其特征在于，所述将音频合成数据分别传送至所述各通信工具还包括：对对应于各通信工具的第二音频缓存数据分别进行语音处理。

33.如权利要求31或32所述的语音通信方法，其特征在于，所述语音处理包括：部分或全部静音、音量均衡、防饱和、混音、噪声抑制、回声消除和侧音处理中的至少一种。

34.如权利要求27所述的通信服务器，其特征在于，还包括：将对应于通信工具的第二音频缓存数据返回至所述通信工具，以作为音频硬件抽象层输出接口的输入数据。

35.如权利要求20所述的语音通信方法，其特征在于，还包括：将音频合成数据作为输入数据提供至音频硬件抽象层输出接口。