CN101188525B

CN101188525B - 一种语音流的处理方法及装置

Info

Publication number: CN101188525B
Application number: CN2007100317079A
Authority: CN
Inventors: 刘利锋; 龙文
Original assignee: Huawei Symantec Technologies Co Ltd
Priority date: 2007-11-27
Filing date: 2007-11-27
Publication date: 2011-10-26
Anticipated expiration: 2027-11-27
Also published as: CN101188525A; WO2009067954A1

Abstract

本发明公开了一种语音流的处理方法，包括获得至少两条语音流，调整各语音流中语音数据包时序，并控制将所述调整处理后的各语音流中语音数据包对应压缩语音帧同步输出，之后对所述同步输出的压缩语音帧还原成原始语音帧，最后合并所述各语音流对应的同一时刻的原始语音帧。本发明还公开了一种语音流处理装置。采用本发明，能对至少两条语音流进行合并处理，从而可实现对双方通话乃至多方通话的同时监听，提升了服务质量。

Description

一种语音流的处理方法及装置

技术领域

本发明涉及语音通信领域，尤其涉及一种语音流的处理方法及语音流处理装置。

背景技术

目前，基于因特网协议的语音(Voice over Internet Protocol，VoIP)技术已逐步从试验走向商用，VoIP是指将模拟的声音信号经过压缩和封装之后，以语音数据包的形式在因特网协议(Internet Protocol，IP)网络的环境进行语音信号的传输，也就是通常说的互联网电话、网络电话或IP电话。

但是，在VoIP的实际应用过程中我们遇到了很多实际问题，例如安全性问题，它是VoIP发展中急需解决的关键的问题，在软交换环境中也是软交换技术进一步发展的障碍。可以预计，多媒体通信的高速发展期已经来临，而要把这项业务推向大众，就必须重视安全问题。网络监听作为一种网络安全保障技术，是一种捕获网络上传输的数据并进行分析的行为，这在网络安全领域占有极其重要的地位。对网络安全管理而言，网络监听不仅是监控本地网络状况的直接手段，也是基于网络的入侵检测系统的基础。

由于传统公共交换电话网络(Public Switched Telephone Network，PSTN)采用分层传输、集中交换的设计，因此只要在电信机房的交换装置处挂设监控设备，就可以记录下所有呼叫拨打行为留下的完整通话记录(Call Detail Record，CDR)，从而较容易地执行监控任务。但VoIP采用的是非固定信道传输、分组交换的组网模式，不能再采用传统的监听模式，因此为了保证通信安全，提升服务质量，在大规模运营之际，必须将VoIP监听系统的应用提上日程。

现有技术提供了一种VoIP监听技术，参照图1的现有技术的VoIP监听装置示意图，该VoIP监听技术主要流程包括：

语音流过滤模块在捕获到网络上传输的实时传输协议(Real-time Transport Protocol，RTP)流后，从这个RTP流中按照其中语音流的方向提取出不同方向的两条语音流(为了加以区分，我们把其中一条语音流称为上行语音流，另一条称之为下行语音流，上、下行的称谓是相对的，可以根据不同的应用场景加以定义)，并对这两条语音流分别进行RTP包预处理和语音解码等过程，形成上、下行两条单独的语音信号，并分别对这两条单独的语音信号进行输出、播放，或者生成语音文件加以保存。语音解码模块通常是采用标准的语音解码算法，而语音流过滤模块和RTP包预处理模块在不同系统中有不同的实现方式。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

由于现有技术是通过对单条语音流的解码来实现语音信号的还原，这样一个通话过程就会产生两条语音信号且分别输出，从而只能分别记载通话一方的语音通话记录，缺乏一种技术手段将通话双方的语音通话记录作为一个整体输出进行处理，降低了服务质量。

发明内容

本发明实施例提供了一种语音流的处理方法及一种语音流处理装置，能对至少两条语音流进行合并处理，从而可实现对双方通话乃至多方通话的同时监听，提升了服务质量。

本发明实施例提出了一种语音流的处理方法，包括：

获得至少两条语音流，所述各语音流中携带有用于调整语音流中语音数据包时序的第一信息和用于控制各语音流中语音数据包对应的压缩语音帧同步输出的第二信息；

根据所述第一信息，调整各语音流中语音数据包的时序，并根据所述第二信息，控制将所述调整时序后的各语音流中语音数据包对应的压缩语音帧同步输出；

将所述同步输出的压缩语音帧还原成原始语音帧；

当各实时传输协议RTP语音流同一时刻的原始语音帧为单声道语音时，把上、下行实时传输协议RTP语音流同一时刻的原始语音帧的采样值分别作为合并后语音帧的左、右声道采样值；或者，当各实时传输协议RTP语音流同一时刻的原始语音帧为双声道语音时，按照叠加算法处理把上行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的左声道信息，把下行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的右声道信息；

获得所述合并处理后的语音帧。

相应地，本发明实施例还提供了一种语音流处理装置，包括：

语音流获取模块，获得至少两条携带有用于调整语音流中语音数据包时序的第一信息、用于控制各语音流中语音数据包对应的压缩语音帧同步输出的第二信息的语音流；

预处理模块，根据所述第一信息，调整各语音流中语音数据包的时序；

同步控制模块，根据所述第二信息，控制将所述调整时序处理后的各语音流中语音数据包对应的压缩语音帧同步输出；

还原模块，对所述同步输出的压缩语音帧还原成原始语音帧；

语音信号合并模块，合并所述各语音流对应的原始语音帧；

其中，所述语音信号合并模块包括：

划分单元，用于当各实时传输协议RTP语音流同一时刻的原始语音帧为单声道语音时，把上、下行实时传输协议RTP语音流同一时刻的原始语音帧的采样值分别作为合并后语音帧的左、右声道采样值；或者，用于当各实时传输协议RTP语音流同一时刻的原始语音帧为双声道语音时，按照叠加算法处理把上行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的左声道信息，把下行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的右声道信息；

第二获取单元，获得所述合并处理后的语音帧。

本发明实施例通过首先对获取的至少两条语音流进行语音数据包时序的调整，并控制各语音流对应语音数据包中压缩语音帧的同步输出，然后对同步输出的压缩语音帧进行还原及合并，从而能对至少两条语音流进行合并处理，从而可实现对双方通话乃至多方通话的同时监听，提升了服务质量。

附图说明

图1是现有技术的VoIP监听系统的示意图；

图2是本发明的语音流的处理方法的实施例示意图；

图3是本发明实施例的VoIP监听系统的示意图；

图4是本发明的VoIP监听方法的实施例示意图；

图5是本发明的语音流处理装置的实施例示意图；

图6是本发明的监听服务器的实施例示意图。

具体实施方式

本发明实施例提供了一种语音流的处理方法以及一种语音流处理装置，可实现对至少两条语音流进行合并处理，从而可实现对双方通话乃至多方通话的同时监听。

在描述本发明实施例之前，我们可对现有技术的VoIP实现原理进行如下简单的说明。

VoIP实现呼叫控制与数据传送相分离，其中呼叫控制协议保证电话呼叫的顺利实现和语音质量，目前被广泛接受的VoIP控制信令体系包括国际电信联盟电信标准化部门(International Telecommunication Union Telecommunication Standardization Sector，ITU-T)的H.323系列和因特网工程任务组(Internet Engineering Task Force，IETF)的会话初始化协议(Session Initiation Protocol，SIP)。数据传输技术主要采用ITU-T标准的RTP协议，RTP协议是端到端的包括了语音数据在内的实时数据传送的协议，包括了数据(RTP)和控制(Real-time Transport Controlling Protocol，RTCP)两部分。其中，RTCP提供了时间戳和控制不同数据流同步特性的机制，可以让接收端重组发送端的数据包，并可以提供接收端到多点发送组的服务质量反馈。

下面结合附图，对本发明实施例进行详细说明。

图2是本发明的语音流的处理方法的实施例示意图，本方法基于如图3所示的本发明实施例的VoIP监听系统，该VoIP监听系统包括有IP网络、PSTN电话网、PSTN电话网下的各终端、VoIP电话网关以及本发明的监听服务器(即本发明的语音流处理装置)，参照图2，该方法主要包括以下步骤：

201，由于需要对VoIP电话网关上正在通话的语音流进行监听，监听服务器获得由VoIP电话网关镜像过来的上述通话中的RTP语音流，根据RTP语音流的方向不同，可以把RTP语音流分为上行RTP语音流和下行RTP语音流。各RTP语音流中包括有RTP语音数据包、RTCP控制信息包等信息，其中RTP语音数据包中包括有RTP语音数据单元(由多个压缩语音帧组成)、RTP包头(包括有RTP语音数据包序列号，以及用于调整语音流中RTP语音数据包时序的相对时间戳等信息)，RTCP控制信息包则包括有用于控制各RTP语音流中RTP语音数据包对应压缩语音帧同步输出的相对时间戳及绝对时间戳。

202，监听服务器根据RTP包头中的RTP语音数据包序列号调整RTP语音流中失序的RTP语音数据包的顺序，RTP语音数据包序列号表征了发送端将RTP语音数据包形成语音流的顺序，该调整使得RTP语音数据包可恢复为RTP语音数据包序列号所表征的顺序。监听服务器根据RTP包头中的相对时间戳，进一步调整每条RTP语音流中RTP语音数据包的时序，由于相对时间戳记录了RTP语音数据包中第一个字节的相对采样时间，根据相邻RTP语音数据包中分别携带的相对时间戳，就能确定RTP语音流中RTP语音数据包受到网络时延影响的程度，并以此调整RTP语音流中语音数据包的端到端时延差，从而进一步调整每条RTP语音流中RTP语音数据包的时序。

203，监听服务器根据RTCP控制信息包中的相对时间戳和绝对时间戳，可确定上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间，从而确定上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延，根据该输出时延可同步输出上、下行RTP语音流各自对应的压缩语音帧。在本实施例中，确定上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延，可通过获得比较上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间，计算得到输出每个压缩语音帧的相对时间，并根据设置的输出压缩语音帧的基准时间，得到上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延。

204，监听服务器对上述同步输出的上、下行RTP语音流中RTP语音数据包对应的压缩语音帧进行还原处理，得到RTP语音流中RTP语音数据包对应的上、下行原始语音帧，具体可通过解压缩、解码算法，得到脉冲编码调制(Pulse Code Modulation，PCM)语音格式的原始语音帧。

205，监听服务器将还原处理得到的上、下行原始语音帧进行合并，合并时可根据原始语音帧的存在方式(单声道、多声道等)、比特(bit)数等采用多种叠加方式，具体叠加方式将在下述实施例中详细说明。

实施如图2所示的本发明的语音流的处理方法实施例，可实现对上、下行语音流进行合并处理，从而可实现对双方通话乃至多方通话的同时监听，从而提高服务质量。

图4为本发明的VoIP监听方法的实施例示意图，该VoIP监听方法基于本发明的语音流的处理方法，且仍以图3所示的本发明实施例的VoIP监听系统为基础进行说明，参照图4，该方法主要包括：

401，监听服务器获得由VoIP电话网关镜像过来的通话中的上、下行RTP语音流，并根据预先设定的策略(如监控某个电话号码或IP地址段)对RTP语音流进行识别，过滤掉非语音数据和一些无效的RTP语音数据包，按照RTP语音流方向提取上、下行RTP语音流进行402及402以下流程的处理。上、下行RTP语音流中包括有RTP语音数据包、RTCP控制信息包等，其中RTP语音数据包中包括有RTP语音数据单元(由多个压缩语音帧组成)、RTP包头(包括RTP语音数据包序列号，以及用于调整语音流中RTP语音数据包时序的相对时间戳等信息)；RTCP控制信息包则包括有用于控制各RTP语音流中RTP语音数据包对应压缩语音帧同步输出的相对时间戳及绝对时间戳等信息。

402，监听服务器对上、下行RTP语音流进行RTP语音数据包预处理，可包括如下两个方面：

其一，去除RTP语音数据包的IP头和用户数据包协议(User Datagram Protocol，UDP)头等附加信息，将RTP语音数据包中的RTP语音数据单元提取出来，通常一个RTP语音数据单元包括一个或多个经过压缩编码的压缩语音帧；

其二，考虑时延抖动、包丢失、失序情况对还原RTP语音数据包中压缩语音帧的影响，对RTP语音数据包进行如下处理：

A1、吸收失序的RTP语音数据包，根据RTP包头中的RTP语音数据包序列号，调整失序的RTP语音数据包的顺序，RTP语音数据包序列号表征了发送端将RTP语音数据包形成语音流的顺序，该调整使得获得的RTP语音数据包可恢复为RTP语音数据包序列号所表征的顺序。每个RTP语音数据包都有对应的一个RTP语音数据包序列号，因此可以通过RTP语音数据包序列号来判断RTP语音数据包的顺序是否发生改变，从而根据RTP包头中的RTP语音数据包序列号调整失序的RTP语音数据包的顺序；

A2、根据RTP包头中的相对时间戳，进一步调整RTP语音流中RTP语音数据包的时序，由于相对时间戳记录了RTP语音数据包中第一个字节的相对采样时间，根据相邻RTP语音数据包中分别携带的相对时间戳，就能确定RTP语音流中RTP语音数据包受到网络时延影响的程度，并调整RTP语音流中各语音数据包的端到端时延差，从而进一步调整每条RTP语音流中RTP语音数据包的时序；

A3、对于丢失的RTP语音数据包，可以把这些丢失的RTP语音数据包的语音损耗控制在人耳感知的范围，此时可以默认为这些丢失的RTP语音数据包为静音包，并按照计算所得的该静音包的时间戳，输出该静音包。具体实现时，可根据RTP语音数据包序列号判断丢失的RTP语音数据包，并根据丢失的RTP语音数据包前后相邻的RTP语音数据包的时间戳，计算该丢失的RTP语音数据包的时间戳，按照计算出来的时间戳输出该静音包。

403，监听服务器根据RTCP控制信息包中的相对时间戳和绝对时间戳，可确定上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间，从而确定上、下行RTP语音流的输出时延，根据该输出时延可同步输出上、下行RTP语音流各自对应的压缩语音帧。

404，监听服务器对上述同步输出的压缩语音帧进行解压缩解码还原处理，将压缩语音帧还原为发送端的原始语音帧(一般为PCM语音格式)，其中解码可以采用G.729，G.723，iSAC等算法。

405，监听服务器将还原处理得到的同步输出的上、下行原始语音帧进行合并。

上述流程完成了压缩语音帧的同步输出合并，即使解压缩解码存在一定的时延差异，我们也可以认为经解压缩解码后输出的对应原始语音帧是在同一时刻产生的，因此只要把上、下行RTP语音流同一时刻的原始语音帧进行叠加，即可得到合并后的语音帧。语音帧的叠加方式可根据实际情况而采用，具体可以通过但不仅限于如下两种方式：

B1、把上、下行RTP语音流中同一时刻的原始语音帧中的声道采样值分别按照声道进行叠加，必要时，还可以根据设定的表征各声道强弱差异的增益算法，产生最终的语音帧，得到的语音帧集合可形成语音文件。增益算法中，假如左声道取10的权重，右声道取5的权重，则表征叠加产生左声道应强于右声道；

下面以合并PCM语音流(原始语音帧一般以PCM格式存在)中的语音数据来生成波形(Wave)文件为例，说明B1的内容：

表1

参照如上表1的内容，按照声道数和采样bit数不同，PCM数据可以分为单声道8bit量化、双声道8bit量化、单声道16bit量化和双声道16bit量化四种情况，每种情况的数据组织方式如表1所示。通常VoIP的通话双方采用相同的编码算法和采样方式，因此需要合并的上、下行两条PCM语音流一般具有相同的声道数和采样bit数，合并的方式依采样bit数不同而有差异，如果把原始语音帧的所有采样值按照声道进行叠加，可以采用如下叠加算法(无论单声道，或双声道均可按该叠加算法处理)：

(1)对采样bit数为8的原始语音帧进行混合。由于8bit音频波形值的范围是0到255，混合的方式是把上、下行PCM语音流对应的同一时刻的原始语音帧的声道采样值按照声道相加再减去128，再判断结果，如果结果小于0则赋为0，如果结果大于255则赋为255；

(2)对采样bit数为16的原始语音帧进行混合。由于16bit音频波形值的范围是-32768到32767，混合的方式是把上、下行PCM语音流在同一时刻的原始语音帧的声道采样值按照声道相加再判断结果，如果结果小于-32768则将结果赋为-32768，如果结果大于32767则将结果赋为32767；

当PCM数据为双声道时，在某些特定场合，我们需要强化某个声道的声音而弱化另一个声道，那么可以给叠加合并后的左、右两个声道的采样值赋予不同的权值，例如我们要强化左声道的音量，则可对所述叠加算法合并后的左声道的采样值赋予1.2的权值，而同时给所述叠加算法合并后的右声道的采样值赋予0.8的权值，具体实施时，可以将叠加合并后的左声道的采样值乘以权值1.2作为左声道的采样值，并将叠加合并后的右声道的采样值乘以权值0.8的作为右声道的采样值；

B2、将上、下行RTP语音流同一时刻的原始语音帧分别合并作为最终得到的语音帧的左、右声道采样值，从而产生最终的语音帧，这样得到的语音帧集合可形成语音文件，具体包括如下两种情况：

当各RTP语音流同一时刻的原始语音帧为单声道语音时，只要把上、下行RTP语音流同一时刻的原始语音帧的采样值分别作为合并后语音帧的左、右声道采样值即可；

当各RTP语音流同一时刻的原始语音帧为双声道语音时，则可先按照上述叠加算法处理把上行RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的左声道信息，把下行RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的右声道信息即可。

上述S405流程合并后所得的PCM语音帧，我们可以将其以流的形式送入音频设备进行播放，也可以把它写入Wave文件(格式为WAV)加以保存，事实上只要在PCM语音信号前加合适的WAV文件头，就可以很容易的生成一个WAV文件。

作为一种实施方式，上述S405流程合并后所得的PCM语音帧，我们可以对其进行压缩编码，并以RTP语音流形式传送给后方进行解码接收，这样在某些应用场合，RTP语音流的合并和监听就可以分布在不同的工作环境中，例如合并在局方设备机房完成，而监听却在后端的专门实验室中完成。

实施如图4所示的本发明的VoIP监听的方法的实施例，通过完成对RTP语音流的合并，对合并后所得的语音帧进行即时输出、保存，，这样可以回放过去某个时间段的完整通话记录。

下面相应地对本发明实施例的语音流处理装置进行说明。

图5是本发明的语音流处理装置的实施例示意图，参照该图，本语音流处理装置包括语音流获取模块51、预处理模块52、同步控制模块53、还原模块54、语音信号合并模块55，各模块连接关系及功能如下述：

语音流获取模块51、同步控制模块53分别与预处理模块52相连，语音信号合并模块55、预处理模块52分别与还原模块54相连；

语音流获取模块51，获得由VoIP电话网关镜像过来的通话中的上、下行RTP语音流，各RTP语音流中包括有RTP语音数据包、RTCP控制信息包等，其中RTP语音数据包中包括有RTP语音数据单元(由多个压缩语音帧组成)、RTP包头(包括有RTP语音数据包序列号，以及用于调整语音流中RTP语音数据包时序的相对时间戳)等信息，RTCP控制信息包则包括有用于控制各RTP语音流中RTP语音数据包对应压缩语音帧同步输出的相对时间戳及绝对时间戳等信息。

预处理模块52，根据RTP包头中的RTP语音数据包序列号调整RTP语音流中失序的RTP语音数据包的顺序，RTP语音数据包序列号表征了发送端将RTP语音数据包形成语音流的顺序，该调整使得获得的RTP语音数据包可恢复为RTP语音数据包序列号所表征的顺序；根据RTP包头中的相对时间戳，进一步调整每条RTP语音流中RTP语音数据包的时序，由于相对时间戳信息记录了RTP语音数据包中第一个字节的相对采样时间，根据相邻RTP语音数据包中分别携带的相对时间戳，就能确定RTP语音流中RTP语音数据包受到网络时延影响的程度，并以此调整RTP语音流中语音数据包的端到端时延差，从而进一步调整每条RTP语音流中RTP语音数据包的时序。

同步控制模块53，根据RTCP控制信息包中的相对时间戳和绝对时间戳，可确定上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间，从而确定上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延，根据该输出时延可同步输出上、下行RTP语音流各自对应的压缩语音帧。在本实施例中，确定上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延，可通过获得比较上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间，计算得到输出每个压缩语音帧的相对时间，并根据设置的输出压缩语音帧的基准时间，得到上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延。

还原模块54，对上述同步输出的上、下行RTP语音流中RTP语音数据包对应的压缩语音帧进行还原处理，得到RTP语音流中RTP语音数据包对应的上、下行的原始语音帧，具体可通过解压缩、解码算法，得到PCM语音格式的原始语音帧。

语音信号合并模块55，将还原处理得到的上、下行原始语音帧进行合并，合并时可根据原始语音帧的存在方式(单声道、多声道等)、比特(bit)数等采用多种叠加方式，具体叠加方式已在前言中详述，此处不再赘述。

实施如图5所示的本发明的语音流处理装置的实施例，可实现对上、下行语音流进行合并处理，从而可实现对双方通话乃至多方通话的同时监听，提高服务质量。

图6是本发明的监听服务器的实施例示意图，该监听服务器可存在于图3所示的本发明实施例的VoIP监听系统中，参照图6，该监听服务器包括语音流过滤模块61、预处理模块62、同步控制模块63、语音解码模块64、语音信号合并模块65、播放模块66，其中，预处理模块62包括第一处理单元621、第二处理单元622、第三处理单元623，同步控制模块63包括确定单元631、控制单元632，各模块连接关系及功能如下述：

语音流过滤模块61、同步控制模块63分别与预处理模块62相连，语音信号合并模块65、预处理模块62分别与语音解码模块64相连，播放模块66与语音信号合并模块65相连；

语音流过滤模块61，获得由VoIP电话网关镜像过来的通话中的上、下行RTP语音流，并根据预先设定的策略(如监控某个电话号码或IP地址段)对RTP语音流进行识别，过滤掉非语音数据和一些无效的RTP语音数据包，按照RTP语音流方向提取上、下行RTP语音流触发其他单元的处理。上、下行RTP语音流中包括有RTP语音数据包、RTCP控制信息包等，其中RTP语音数据包中包括RTP语音数据单元(由多个压缩语音帧组成)、RTP包头(包括有RTP语音数据包序列号，以及用于调整语音流中RTP语音数据包时序的相对时间戳)等信息；RTCP控制信息包则包括有用于控制各RTP语音流中RTP语音数据包对应压缩语音帧同步输出的相对时间戳及绝对时间戳等信息；

第一处理单元621，吸收失序的RTP语音数据包，根据RTP包头中的RTP语音数据包序列号调整RTP语音流中失序的RTP语音数据包的顺序，RTP语音数据包序列号表征了发送端将RTP语音数据包形成语音流的顺序，该调整使得获得的RTP语音数据包可恢复为RTP语音数据包序列号所表征的顺序。每个RTP语音数据包都有对应的一个序列号，因此可以通过RTP语音数据包序列号来判断RTP语音数据包的顺序是否发生改变，从而根据RTP包头中的RTP语音数据包序列号调整失序的RTP语音数据包的顺序。

第二处理单元622，根据RTP包头中的相对时间戳，进一步调整RTP语音流中RTP语音数据包的时序，由于相对时间戳记录了RTP语音数据包中第一个字节的相对采样时间，根据相邻RTP语音数据包中分别携带的相对时间戳，就能确定RTP语音流中RTP语音数据包受到网络时延影响的程度，并调整RTP语音流中各语音数据包的端到端时延差，从而进一步调整每条RTP语音流中RTP语音数据包的时序；

第三处理单元623，对于丢失的RTP语音数据包，可以把这些丢失的RTP语音数据包的语音损耗控制在人耳感知的范围，此时可以默认为这些丢失的RTP语音数据包为静音包，并按照计算所得的该静音包的时间戳，输出该静音包。具体实现时，可根据RTP语音数据包序列号判断丢失的RTP语音数据包，并根据丢失的RTP语音数据包相邻的RTP语音数据包的时间戳，计算该丢失的RTP语音数据包的时间戳，按照计算出来的时间戳输出该静音包。

确定单元631，根据RTCP控制信息包中的相对时间戳和绝对时间戳，可确定上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间，从而确定上、下行RTP语音流的输出时延，根据该输出时延可同步输出上、下行RTP语音流各自对应的压缩语音帧。

控制单元632，根据确定单元631确定的输出时延控制上、下行RTP语音流同步输出各自对应的压缩语音帧；

语音解码模块64，对上述同步输出的压缩语音帧进行解压缩解码还原处理，将压缩语音帧还原为发送端的原始语音帧(一般为PCM语音格式)，其中解码可以是G.729，G.723，iSAC等算法。

语音信号合并模块65，将语音解码模块64处理得到的同步输出的上、下行原始语音帧进行合并。上述流程完成了压缩语音帧的同步输出合并，即使解压缩解码存在一定的时延差异，我们也可以认为经解压缩解码后输出的的原始语音帧是在同一时刻产生的，因此只要把上、下行RTP语音流同一时刻的原始语音帧进行叠加，即可得到合并后的语音帧。语音帧的叠加方式可根据实际情况而采用，具体的，语音信号合并模块65可以包括但不仅限于下述两种结构：

(一)语音信号合并模块65包括有叠加单元、第一获取单元，其中：

叠加单元，把上、下行RTP语音流中同一时刻的原始语音帧中各个声道采样值分别按照声道进行叠加，具体叠加方法请参见前文B1中对应内容的描述，此处不再赘述；

第一获取单元，获得叠加单元处理完成的语音帧，该完成得到的语音帧集合可形成语音文件；

(二)语音信号合并模块65包括有划分单元、第二获取单元，其中：

划分单元，将上、下行RTP语音流同一时刻的原始语音帧分别作为合并最终得到的语音帧的左、右声道采样值，具体可如上述B2中对应内容所述，此处不再赘述；

第二获取单元，获得划分单元处理完成的最终的语音帧，该完成得到的语音帧集合可形成语音文件；

播放模块66，对语音信号合并模块65合并产生的语音帧以流的形式进行播放处理。

作为一种实施方式，该监听服务器除可选择包括上述播放模块66、保存模块和/或压缩编码模块，其中保存模块可保存语音信号合并模块65所合并的语音信号，压缩编码模块可将所述语音信号合并模块65处理所合并的语音帧压缩编码后输出。

实施如图6所示的本发明的监听服务器的实施例，通过合并RTP语音流，并即时输出、保存合并后所得的语音帧，一方面解决了传统监听方式无法同时监听两条语音流的问题，另一方面可以保存合并后所得的语音帧文件，这样可以回放过去某个时间段的完整通话记录，无需分别提取每个通话方的通话记录。

值得说明的是，上述方法、装置也可以处理三条或三条以上的语音流，当存在双方、多方通话时，语音流条数可按照实际情况变化。

另外，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Radom Access Memory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种语音流的处理方法，其特征在于，包括：

将所述同步输出的压缩语音帧还原成原始语音帧；

获得所述合并处理后的语音帧。

2.如权利要求1所述的语音流的处理方法，其特征在于，所述第一信息包括语音数据包序列号和相对时间戳，该方法中根据所述第一信息调整各语音流中语音数据包时序的步骤具体为：

根据所述语音数据包序列号，调整各语音流中语音数据包的顺序；

根据所述相对时间戳，调整所述各语音流中语音数据包的端到端时延差。

3.如权利要求2所述的语音流的处理方法，其特征在于，该方法中根据所述第一信息调整各语音流中语音数据包时序的步骤还包括：

对所述各语音流中丢失的语音数据包作为静音包处理。

4.如权利要求1所述的语音流的处理方法，其特征在于，所述第二信息为所述各语音流中控制信息包中的相对时间戳和绝对时间戳，该方法中根据所述第二信息控制将所述调整处理后的各语音流中语音数据包对应的压缩语音帧同步输出的步骤具体包括：

根据所述相对时间戳和绝对时间戳，确定所述各语音流的输出时延；

根据所述输出时延，控制将所述调整时序后的各语音流中语音数据包对应的压缩语音帧同步输出。

5.如权利要求1至4中任一项所述的语音流的处理方法，其特征在于，该方法中合并所述各语音流对应的原始语音帧之后，还包括：

保存/播放所述合并处理所得的语音帧。

6.如权利要求1至4中任一项所述的语音流的处理方法，其特征在于，该方法中合并所述各语音流对应的原始语音帧之后，还包括：

将所述合并处理所得语音帧压缩编码后输出。

7.一种语音流处理装置，其特征在于，包括：

语音信号合并模块，合并所述各语音流对应的原始语音帧；

其中，所述语音信号合并模块包括：

第二获取单元，获得所述合并处理后的语音帧。

8.如权利要求7所述的语音流处理装置，其特征在于，所述第一信息包括所述各语音数据包序列号和相对时间戳，所述预处理模块包括：

第一处理单元，根据所述语音数据包序列号，调整各语音流中语音数据包的时序；

第二处理单元，根据所述相对时间戳，调整所述各语音流中语音数据包的端到端时延差。

9.如权利要求8所述的语音流处理装置，其特征在于，所述预处理模块还包括：

第三处理单元，对所述各语音流中丢失的语音数据包作为静音包处理。

10.如权利要求7所述的语音流处理装置，其特征在于，所述第二信息为所述各语音流中控制信息包中的相对时间戳和绝对时间戳，所述同步控制模块包括：

确定单元，根据所述相对时间戳和绝对时间戳，确定所述各语音流的输出时延；

控制单元，根据所述输出时延，控制将所述调整时序处理后的各语音流中语音数据包对应的压缩语音帧同步输出。

11.如权利要求7至10中任一项所述的语音流处理装置，其特征在于，该语音流处理装置还包括：

保存模块，保存所述语音信号合并模块处理所得语音帧，或

播放模块，播放所述语音信号合并模块处理所得语音帧，或

压缩编码模块，将所述语音信号合并模块处理所得语音帧压缩编码后输出。