CN101188525B - 一种语音流的处理方法及装置 - Google Patents

一种语音流的处理方法及装置 Download PDF

Info

Publication number
CN101188525B
CN101188525B CN2007100317079A CN200710031707A CN101188525B CN 101188525 B CN101188525 B CN 101188525B CN 2007100317079 A CN2007100317079 A CN 2007100317079A CN 200710031707 A CN200710031707 A CN 200710031707A CN 101188525 B CN101188525 B CN 101188525B
Authority
CN
China
Prior art keywords
voice
voice flow
vop
frame
rtp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100317079A
Other languages
English (en)
Other versions
CN101188525A (zh
Inventor
刘利锋
龙文
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN2007100317079A priority Critical patent/CN101188525B/zh
Publication of CN101188525A publication Critical patent/CN101188525A/zh
Priority to PCT/CN2008/073212 priority patent/WO2009067954A1/zh
Application granted granted Critical
Publication of CN101188525B publication Critical patent/CN101188525B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]

Abstract

本发明公开了一种语音流的处理方法,包括获得至少两条语音流,调整各语音流中语音数据包时序,并控制将所述调整处理后的各语音流中语音数据包对应压缩语音帧同步输出,之后对所述同步输出的压缩语音帧还原成原始语音帧,最后合并所述各语音流对应的同一时刻的原始语音帧。本发明还公开了一种语音流处理装置。采用本发明,能对至少两条语音流进行合并处理,从而可实现对双方通话乃至多方通话的同时监听,提升了服务质量。

Description

一种语音流的处理方法及装置
技术领域
本发明涉及语音通信领域,尤其涉及一种语音流的处理方法及语音流处理装置。
背景技术
目前,基于因特网协议的语音(Voice over Internet Protocol,VoIP)技术已逐步从试验走向商用,VoIP是指将模拟的声音信号经过压缩和封装之后,以语音数据包的形式在因特网协议(Internet Protocol,IP)网络的环境进行语音信号的传输,也就是通常说的互联网电话、网络电话或IP电话。
但是,在VoIP的实际应用过程中我们遇到了很多实际问题,例如安全性问题,它是VoIP发展中急需解决的关键的问题,在软交换环境中也是软交换技术进一步发展的障碍。可以预计,多媒体通信的高速发展期已经来临,而要把这项业务推向大众,就必须重视安全问题。网络监听作为一种网络安全保障技术,是一种捕获网络上传输的数据并进行分析的行为,这在网络安全领域占有极其重要的地位。对网络安全管理而言,网络监听不仅是监控本地网络状况的直接手段,也是基于网络的入侵检测系统的基础。
由于传统公共交换电话网络(Public Switched Telephone Network,PSTN)采用分层传输、集中交换的设计,因此只要在电信机房的交换装置处挂设监控设备,就可以记录下所有呼叫拨打行为留下的完整通话记录(Call Detail Record,CDR),从而较容易地执行监控任务。但VoIP采用的是非固定信道传输、分组交换的组网模式,不能再采用传统的监听模式,因此为了保证通信安全,提升服务质量,在大规模运营之际,必须将VoIP监听系统的应用提上日程。
现有技术提供了一种VoIP监听技术,参照图1的现有技术的VoIP监听装置示意图,该VoIP监听技术主要流程包括:
语音流过滤模块在捕获到网络上传输的实时传输协议(Real-time Transport Protocol,RTP)流后,从这个RTP流中按照其中语音流的方向提取出不同方向的两条语音流(为了加以区分,我们把其中一条语音流称为上行语音流,另一条称之为下行语音流,上、下行的称谓是相对的,可以根据不同的应用场景加以定义),并对这两条语音流分别进行RTP包预处理和语音解码等过程,形成上、下行两条单独的语音信号,并分别对这两条单独的语音信号进行输出、播放,或者生成语音文件加以保存。语音解码模块通常是采用标准的语音解码算法,而语音流过滤模块和RTP包预处理模块在不同系统中有不同的实现方式。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
由于现有技术是通过对单条语音流的解码来实现语音信号的还原,这样一个通话过程就会产生两条语音信号且分别输出,从而只能分别记载通话一方的语音通话记录,缺乏一种技术手段将通话双方的语音通话记录作为一个整体输出进行处理,降低了服务质量。
发明内容
本发明实施例提供了一种语音流的处理方法及一种语音流处理装置,能对至少两条语音流进行合并处理,从而可实现对双方通话乃至多方通话的同时监听,提升了服务质量。
本发明实施例提出了一种语音流的处理方法,包括:
获得至少两条语音流,所述各语音流中携带有用于调整语音流中语音数据包时序的第一信息和用于控制各语音流中语音数据包对应的压缩语音帧同步输出的第二信息;
根据所述第一信息,调整各语音流中语音数据包的时序,并根据所述第二信息,控制将所述调整时序后的各语音流中语音数据包对应的压缩语音帧同步输出;
将所述同步输出的压缩语音帧还原成原始语音帧;
当各实时传输协议RTP语音流同一时刻的原始语音帧为单声道语音时,把上、下行实时传输协议RTP语音流同一时刻的原始语音帧的采样值分别作为合并后语音帧的左、右声道采样值;或者,当各实时传输协议RTP语音流同一时刻的原始语音帧为双声道语音时,按照叠加算法处理把上行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的左声道信息,把下行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的右声道信息;
获得所述合并处理后的语音帧。
相应地,本发明实施例还提供了一种语音流处理装置,包括:
语音流获取模块,获得至少两条携带有用于调整语音流中语音数据包时序的第一信息、用于控制各语音流中语音数据包对应的压缩语音帧同步输出的第二信息的语音流;
预处理模块,根据所述第一信息,调整各语音流中语音数据包的时序;
同步控制模块,根据所述第二信息,控制将所述调整时序处理后的各语音流中语音数据包对应的压缩语音帧同步输出;
还原模块,对所述同步输出的压缩语音帧还原成原始语音帧;
语音信号合并模块,合并所述各语音流对应的原始语音帧;
其中,所述语音信号合并模块包括:
划分单元,用于当各实时传输协议RTP语音流同一时刻的原始语音帧为单声道语音时,把上、下行实时传输协议RTP语音流同一时刻的原始语音帧的采样值分别作为合并后语音帧的左、右声道采样值;或者,用于当各实时传输协议RTP语音流同一时刻的原始语音帧为双声道语音时,按照叠加算法处理把上行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的左声道信息,把下行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的右声道信息;
第二获取单元,获得所述合并处理后的语音帧。
本发明实施例通过首先对获取的至少两条语音流进行语音数据包时序的调整,并控制各语音流对应语音数据包中压缩语音帧的同步输出,然后对同步输出的压缩语音帧进行还原及合并,从而能对至少两条语音流进行合并处理,从而可实现对双方通话乃至多方通话的同时监听,提升了服务质量。
附图说明
图1是现有技术的VoIP监听系统的示意图;
图2是本发明的语音流的处理方法的实施例示意图;
图3是本发明实施例的VoIP监听系统的示意图;
图4是本发明的VoIP监听方法的实施例示意图;
图5是本发明的语音流处理装置的实施例示意图;
图6是本发明的监听服务器的实施例示意图。
具体实施方式
本发明实施例提供了一种语音流的处理方法以及一种语音流处理装置,可实现对至少两条语音流进行合并处理,从而可实现对双方通话乃至多方通话的同时监听。
在描述本发明实施例之前,我们可对现有技术的VoIP实现原理进行如下简单的说明。
VoIP实现呼叫控制与数据传送相分离,其中呼叫控制协议保证电话呼叫的顺利实现和语音质量,目前被广泛接受的VoIP控制信令体系包括国际电信联盟电信标准化部门(International Telecommunication Union Telecommunication Standardization Sector,ITU-T)的H.323系列和因特网工程任务组(Internet Engineering Task Force,IETF)的会话初始化协议(Session Initiation Protocol,SIP)。数据传输技术主要采用ITU-T标准的RTP协议,RTP协议是端到端的包括了语音数据在内的实时数据传送的协议,包括了数据(RTP)和控制(Real-time Transport Controlling Protocol,RTCP)两部分。其中,RTCP提供了时间戳和控制不同数据流同步特性的机制,可以让接收端重组发送端的数据包,并可以提供接收端到多点发送组的服务质量反馈。
下面结合附图,对本发明实施例进行详细说明。
图2是本发明的语音流的处理方法的实施例示意图,本方法基于如图3所示的本发明实施例的VoIP监听系统,该VoIP监听系统包括有IP网络、PSTN电话网、PSTN电话网下的各终端、VoIP电话网关以及本发明的监听服务器(即本发明的语音流处理装置),参照图2,该方法主要包括以下步骤:
201,由于需要对VoIP电话网关上正在通话的语音流进行监听,监听服务器获得由VoIP电话网关镜像过来的上述通话中的RTP语音流,根据RTP语音流的方向不同,可以把RTP语音流分为上行RTP语音流和下行RTP语音流。各RTP语音流中包括有RTP语音数据包、RTCP控制信息包等信息,其中RTP语音数据包中包括有RTP语音数据单元(由多个压缩语音帧组成)、RTP包头(包括有RTP语音数据包序列号,以及用于调整语音流中RTP语音数据包时序的相对时间戳等信息),RTCP控制信息包则包括有用于控制各RTP语音流中RTP语音数据包对应压缩语音帧同步输出的相对时间戳及绝对时间戳。
202,监听服务器根据RTP包头中的RTP语音数据包序列号调整RTP语音流中失序的RTP语音数据包的顺序,RTP语音数据包序列号表征了发送端将RTP语音数据包形成语音流的顺序,该调整使得RTP语音数据包可恢复为RTP语音数据包序列号所表征的顺序。监听服务器根据RTP包头中的相对时间戳,进一步调整每条RTP语音流中RTP语音数据包的时序,由于相对时间戳记录了RTP语音数据包中第一个字节的相对采样时间,根据相邻RTP语音数据包中分别携带的相对时间戳,就能确定RTP语音流中RTP语音数据包受到网络时延影响的程度,并以此调整RTP语音流中语音数据包的端到端时延差,从而进一步调整每条RTP语音流中RTP语音数据包的时序。
203,监听服务器根据RTCP控制信息包中的相对时间戳和绝对时间戳,可确定上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间,从而确定上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延,根据该输出时延可同步输出上、下行RTP语音流各自对应的压缩语音帧。在本实施例中,确定上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延,可通过获得比较上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间,计算得到输出每个压缩语音帧的相对时间,并根据设置的输出压缩语音帧的基准时间,得到上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延。
204,监听服务器对上述同步输出的上、下行RTP语音流中RTP语音数据包对应的压缩语音帧进行还原处理,得到RTP语音流中RTP语音数据包对应的上、下行原始语音帧,具体可通过解压缩、解码算法,得到脉冲编码调制(Pulse Code Modulation,PCM)语音格式的原始语音帧。
205,监听服务器将还原处理得到的上、下行原始语音帧进行合并,合并时可根据原始语音帧的存在方式(单声道、多声道等)、比特(bit)数等采用多种叠加方式,具体叠加方式将在下述实施例中详细说明。
实施如图2所示的本发明的语音流的处理方法实施例,可实现对上、下行语音流进行合并处理,从而可实现对双方通话乃至多方通话的同时监听,从而提高服务质量。
图4为本发明的VoIP监听方法的实施例示意图,该VoIP监听方法基于本发明的语音流的处理方法,且仍以图3所示的本发明实施例的VoIP监听系统为基础进行说明,参照图4,该方法主要包括:
401,监听服务器获得由VoIP电话网关镜像过来的通话中的上、下行RTP语音流,并根据预先设定的策略(如监控某个电话号码或IP地址段)对RTP语音流进行识别,过滤掉非语音数据和一些无效的RTP语音数据包,按照RTP语音流方向提取上、下行RTP语音流进行402及402以下流程的处理。上、下行RTP语音流中包括有RTP语音数据包、RTCP控制信息包等,其中RTP语音数据包中包括有RTP语音数据单元(由多个压缩语音帧组成)、RTP包头(包括RTP语音数据包序列号,以及用于调整语音流中RTP语音数据包时序的相对时间戳等信息);RTCP控制信息包则包括有用于控制各RTP语音流中RTP语音数据包对应压缩语音帧同步输出的相对时间戳及绝对时间戳等信息。
402,监听服务器对上、下行RTP语音流进行RTP语音数据包预处理,可包括如下两个方面:
其一,去除RTP语音数据包的IP头和用户数据包协议(User Datagram Protocol,UDP)头等附加信息,将RTP语音数据包中的RTP语音数据单元提取出来,通常一个RTP语音数据单元包括一个或多个经过压缩编码的压缩语音帧;
其二,考虑时延抖动、包丢失、失序情况对还原RTP语音数据包中压缩语音帧的影响,对RTP语音数据包进行如下处理:
A1、吸收失序的RTP语音数据包,根据RTP包头中的RTP语音数据包序列号,调整失序的RTP语音数据包的顺序,RTP语音数据包序列号表征了发送端将RTP语音数据包形成语音流的顺序,该调整使得获得的RTP语音数据包可恢复为RTP语音数据包序列号所表征的顺序。每个RTP语音数据包都有对应的一个RTP语音数据包序列号,因此可以通过RTP语音数据包序列号来判断RTP语音数据包的顺序是否发生改变,从而根据RTP包头中的RTP语音数据包序列号调整失序的RTP语音数据包的顺序;
A2、根据RTP包头中的相对时间戳,进一步调整RTP语音流中RTP语音数据包的时序,由于相对时间戳记录了RTP语音数据包中第一个字节的相对采样时间,根据相邻RTP语音数据包中分别携带的相对时间戳,就能确定RTP语音流中RTP语音数据包受到网络时延影响的程度,并调整RTP语音流中各语音数据包的端到端时延差,从而进一步调整每条RTP语音流中RTP语音数据包的时序;
A3、对于丢失的RTP语音数据包,可以把这些丢失的RTP语音数据包的语音损耗控制在人耳感知的范围,此时可以默认为这些丢失的RTP语音数据包为静音包,并按照计算所得的该静音包的时间戳,输出该静音包。具体实现时,可根据RTP语音数据包序列号判断丢失的RTP语音数据包,并根据丢失的RTP语音数据包前后相邻的RTP语音数据包的时间戳,计算该丢失的RTP语音数据包的时间戳,按照计算出来的时间戳输出该静音包。
403,监听服务器根据RTCP控制信息包中的相对时间戳和绝对时间戳,可确定上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间,从而确定上、下行RTP语音流的输出时延,根据该输出时延可同步输出上、下行RTP语音流各自对应的压缩语音帧。
404,监听服务器对上述同步输出的压缩语音帧进行解压缩解码还原处理,将压缩语音帧还原为发送端的原始语音帧(一般为PCM语音格式),其中解码可以采用G.729,G.723,iSAC等算法。
405,监听服务器将还原处理得到的同步输出的上、下行原始语音帧进行合并。
上述流程完成了压缩语音帧的同步输出合并,即使解压缩解码存在一定的时延差异,我们也可以认为经解压缩解码后输出的对应原始语音帧是在同一时刻产生的,因此只要把上、下行RTP语音流同一时刻的原始语音帧进行叠加,即可得到合并后的语音帧。语音帧的叠加方式可根据实际情况而采用,具体可以通过但不仅限于如下两种方式:
B1、把上、下行RTP语音流中同一时刻的原始语音帧中的声道采样值分别按照声道进行叠加,必要时,还可以根据设定的表征各声道强弱差异的增益算法,产生最终的语音帧,得到的语音帧集合可形成语音文件。增益算法中,假如左声道取10的权重,右声道取5的权重,则表征叠加产生左声道应强于右声道;
下面以合并PCM语音流(原始语音帧一般以PCM格式存在)中的语音数据来生成波形(Wave)文件为例,说明B1的内容:
Figure GFW00000048171000071
Figure GFW00000048171000081
表1
参照如上表1的内容,按照声道数和采样bit数不同,PCM数据可以分为单声道8bit量化、双声道8bit量化、单声道16bit量化和双声道16bit量化四种情况,每种情况的数据组织方式如表1所示。通常VoIP的通话双方采用相同的编码算法和采样方式,因此需要合并的上、下行两条PCM语音流一般具有相同的声道数和采样bit数,合并的方式依采样bit数不同而有差异,如果把原始语音帧的所有采样值按照声道进行叠加,可以采用如下叠加算法(无论单声道,或双声道均可按该叠加算法处理):
(1)对采样bit数为8的原始语音帧进行混合。由于8bit音频波形值的范围是0到255,混合的方式是把上、下行PCM语音流对应的同一时刻的原始语音帧的声道采样值按照声道相加再减去128,再判断结果,如果结果小于0则赋为0,如果结果大于255则赋为255;
(2)对采样bit数为16的原始语音帧进行混合。由于16bit音频波形值的范围是-32768到32767,混合的方式是把上、下行PCM语音流在同一时刻的原始语音帧的声道采样值按照声道相加再判断结果,如果结果小于-32768则将结果赋为-32768,如果结果大于32767则将结果赋为32767;
当PCM数据为双声道时,在某些特定场合,我们需要强化某个声道的声音而弱化另一个声道,那么可以给叠加合并后的左、右两个声道的采样值赋予不同的权值,例如我们要强化左声道的音量,则可对所述叠加算法合并后的左声道的采样值赋予1.2的权值,而同时给所述叠加算法合并后的右声道的采样值赋予0.8的权值,具体实施时,可以将叠加合并后的左声道的采样值乘以权值1.2作为左声道的采样值,并将叠加合并后的右声道的采样值乘以权值0.8的作为右声道的采样值;
B2、将上、下行RTP语音流同一时刻的原始语音帧分别合并作为最终得到的语音帧的左、右声道采样值,从而产生最终的语音帧,这样得到的语音帧集合可形成语音文件,具体包括如下两种情况:
当各RTP语音流同一时刻的原始语音帧为单声道语音时,只要把上、下行RTP语音流同一时刻的原始语音帧的采样值分别作为合并后语音帧的左、右声道采样值即可;
当各RTP语音流同一时刻的原始语音帧为双声道语音时,则可先按照上述叠加算法处理把上行RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的左声道信息,把下行RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的右声道信息即可。
上述S405流程合并后所得的PCM语音帧,我们可以将其以流的形式送入音频设备进行播放,也可以把它写入Wave文件(格式为WAV)加以保存,事实上只要在PCM语音信号前加合适的WAV文件头,就可以很容易的生成一个WAV文件。
作为一种实施方式,上述S405流程合并后所得的PCM语音帧,我们可以对其进行压缩编码,并以RTP语音流形式传送给后方进行解码接收,这样在某些应用场合,RTP语音流的合并和监听就可以分布在不同的工作环境中,例如合并在局方设备机房完成,而监听却在后端的专门实验室中完成。
实施如图4所示的本发明的VoIP监听的方法的实施例,通过完成对RTP语音流的合并,对合并后所得的语音帧进行即时输出、保存,,这样可以回放过去某个时间段的完整通话记录。
下面相应地对本发明实施例的语音流处理装置进行说明。
图5是本发明的语音流处理装置的实施例示意图,参照该图,本语音流处理装置包括语音流获取模块51、预处理模块52、同步控制模块53、还原模块54、语音信号合并模块55,各模块连接关系及功能如下述:
语音流获取模块51、同步控制模块53分别与预处理模块52相连,语音信号合并模块55、预处理模块52分别与还原模块54相连;
语音流获取模块51,获得由VoIP电话网关镜像过来的通话中的上、下行RTP语音流,各RTP语音流中包括有RTP语音数据包、RTCP控制信息包等,其中RTP语音数据包中包括有RTP语音数据单元(由多个压缩语音帧组成)、RTP包头(包括有RTP语音数据包序列号,以及用于调整语音流中RTP语音数据包时序的相对时间戳)等信息,RTCP控制信息包则包括有用于控制各RTP语音流中RTP语音数据包对应压缩语音帧同步输出的相对时间戳及绝对时间戳等信息。
预处理模块52,根据RTP包头中的RTP语音数据包序列号调整RTP语音流中失序的RTP语音数据包的顺序,RTP语音数据包序列号表征了发送端将RTP语音数据包形成语音流的顺序,该调整使得获得的RTP语音数据包可恢复为RTP语音数据包序列号所表征的顺序;根据RTP包头中的相对时间戳,进一步调整每条RTP语音流中RTP语音数据包的时序,由于相对时间戳信息记录了RTP语音数据包中第一个字节的相对采样时间,根据相邻RTP语音数据包中分别携带的相对时间戳,就能确定RTP语音流中RTP语音数据包受到网络时延影响的程度,并以此调整RTP语音流中语音数据包的端到端时延差,从而进一步调整每条RTP语音流中RTP语音数据包的时序。
同步控制模块53,根据RTCP控制信息包中的相对时间戳和绝对时间戳,可确定上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间,从而确定上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延,根据该输出时延可同步输出上、下行RTP语音流各自对应的压缩语音帧。在本实施例中,确定上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延,可通过获得比较上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间,计算得到输出每个压缩语音帧的相对时间,并根据设置的输出压缩语音帧的基准时间,得到上、下行RTP语音流中RTP语音数据包对应压缩语音帧的输出时延。
还原模块54,对上述同步输出的上、下行RTP语音流中RTP语音数据包对应的压缩语音帧进行还原处理,得到RTP语音流中RTP语音数据包对应的上、下行的原始语音帧,具体可通过解压缩、解码算法,得到PCM语音格式的原始语音帧。
语音信号合并模块55,将还原处理得到的上、下行原始语音帧进行合并,合并时可根据原始语音帧的存在方式(单声道、多声道等)、比特(bit)数等采用多种叠加方式,具体叠加方式已在前言中详述,此处不再赘述。
实施如图5所示的本发明的语音流处理装置的实施例,可实现对上、下行语音流进行合并处理,从而可实现对双方通话乃至多方通话的同时监听,提高服务质量。
图6是本发明的监听服务器的实施例示意图,该监听服务器可存在于图3所示的本发明实施例的VoIP监听系统中,参照图6,该监听服务器包括语音流过滤模块61、预处理模块62、同步控制模块63、语音解码模块64、语音信号合并模块65、播放模块66,其中,预处理模块62包括第一处理单元621、第二处理单元622、第三处理单元623,同步控制模块63包括确定单元631、控制单元632,各模块连接关系及功能如下述:
语音流过滤模块61、同步控制模块63分别与预处理模块62相连,语音信号合并模块65、预处理模块62分别与语音解码模块64相连,播放模块66与语音信号合并模块65相连;
语音流过滤模块61,获得由VoIP电话网关镜像过来的通话中的上、下行RTP语音流,并根据预先设定的策略(如监控某个电话号码或IP地址段)对RTP语音流进行识别,过滤掉非语音数据和一些无效的RTP语音数据包,按照RTP语音流方向提取上、下行RTP语音流触发其他单元的处理。上、下行RTP语音流中包括有RTP语音数据包、RTCP控制信息包等,其中RTP语音数据包中包括RTP语音数据单元(由多个压缩语音帧组成)、RTP包头(包括有RTP语音数据包序列号,以及用于调整语音流中RTP语音数据包时序的相对时间戳)等信息;RTCP控制信息包则包括有用于控制各RTP语音流中RTP语音数据包对应压缩语音帧同步输出的相对时间戳及绝对时间戳等信息;
第一处理单元621,吸收失序的RTP语音数据包,根据RTP包头中的RTP语音数据包序列号调整RTP语音流中失序的RTP语音数据包的顺序,RTP语音数据包序列号表征了发送端将RTP语音数据包形成语音流的顺序,该调整使得获得的RTP语音数据包可恢复为RTP语音数据包序列号所表征的顺序。每个RTP语音数据包都有对应的一个序列号,因此可以通过RTP语音数据包序列号来判断RTP语音数据包的顺序是否发生改变,从而根据RTP包头中的RTP语音数据包序列号调整失序的RTP语音数据包的顺序。
第二处理单元622,根据RTP包头中的相对时间戳,进一步调整RTP语音流中RTP语音数据包的时序,由于相对时间戳记录了RTP语音数据包中第一个字节的相对采样时间,根据相邻RTP语音数据包中分别携带的相对时间戳,就能确定RTP语音流中RTP语音数据包受到网络时延影响的程度,并调整RTP语音流中各语音数据包的端到端时延差,从而进一步调整每条RTP语音流中RTP语音数据包的时序;
第三处理单元623,对于丢失的RTP语音数据包,可以把这些丢失的RTP语音数据包的语音损耗控制在人耳感知的范围,此时可以默认为这些丢失的RTP语音数据包为静音包,并按照计算所得的该静音包的时间戳,输出该静音包。具体实现时,可根据RTP语音数据包序列号判断丢失的RTP语音数据包,并根据丢失的RTP语音数据包相邻的RTP语音数据包的时间戳,计算该丢失的RTP语音数据包的时间戳,按照计算出来的时间戳输出该静音包。
确定单元631,根据RTCP控制信息包中的相对时间戳和绝对时间戳,可确定上、下行RTP语音流中RTP语音数据包第一字节的绝对采样时间,从而确定上、下行RTP语音流的输出时延,根据该输出时延可同步输出上、下行RTP语音流各自对应的压缩语音帧。
控制单元632,根据确定单元631确定的输出时延控制上、下行RTP语音流同步输出各自对应的压缩语音帧;
语音解码模块64,对上述同步输出的压缩语音帧进行解压缩解码还原处理,将压缩语音帧还原为发送端的原始语音帧(一般为PCM语音格式),其中解码可以是G.729,G.723,iSAC等算法。
语音信号合并模块65,将语音解码模块64处理得到的同步输出的上、下行原始语音帧进行合并。上述流程完成了压缩语音帧的同步输出合并,即使解压缩解码存在一定的时延差异,我们也可以认为经解压缩解码后输出的的原始语音帧是在同一时刻产生的,因此只要把上、下行RTP语音流同一时刻的原始语音帧进行叠加,即可得到合并后的语音帧。语音帧的叠加方式可根据实际情况而采用,具体的,语音信号合并模块65可以包括但不仅限于下述两种结构:
(一)语音信号合并模块65包括有叠加单元、第一获取单元,其中:
叠加单元,把上、下行RTP语音流中同一时刻的原始语音帧中各个声道采样值分别按照声道进行叠加,具体叠加方法请参见前文B1中对应内容的描述,此处不再赘述;
第一获取单元,获得叠加单元处理完成的语音帧,该完成得到的语音帧集合可形成语音文件;
(二)语音信号合并模块65包括有划分单元、第二获取单元,其中:
划分单元,将上、下行RTP语音流同一时刻的原始语音帧分别作为合并最终得到的语音帧的左、右声道采样值,具体可如上述B2中对应内容所述,此处不再赘述;
第二获取单元,获得划分单元处理完成的最终的语音帧,该完成得到的语音帧集合可形成语音文件;
播放模块66,对语音信号合并模块65合并产生的语音帧以流的形式进行播放处理。
作为一种实施方式,该监听服务器除可选择包括上述播放模块66、保存模块和/或压缩编码模块,其中保存模块可保存语音信号合并模块65所合并的语音信号,压缩编码模块可将所述语音信号合并模块65处理所合并的语音帧压缩编码后输出。
实施如图6所示的本发明的监听服务器的实施例,通过合并RTP语音流,并即时输出、保存合并后所得的语音帧,一方面解决了传统监听方式无法同时监听两条语音流的问题,另一方面可以保存合并后所得的语音帧文件,这样可以回放过去某个时间段的完整通话记录,无需分别提取每个通话方的通话记录。
值得说明的是,上述方法、装置也可以处理三条或三条以上的语音流,当存在双方、多方通话时,语音流条数可按照实际情况变化。
另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Radom Access Memory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (11)

1.一种语音流的处理方法,其特征在于,包括:
获得至少两条语音流,所述各语音流中携带有用于调整语音流中语音数据包时序的第一信息和用于控制各语音流中语音数据包对应的压缩语音帧同步输出的第二信息;
根据所述第一信息,调整各语音流中语音数据包的时序,并根据所述第二信息,控制将所述调整时序后的各语音流中语音数据包对应的压缩语音帧同步输出;
将所述同步输出的压缩语音帧还原成原始语音帧;
当各实时传输协议RTP语音流同一时刻的原始语音帧为单声道语音时,把上、下行实时传输协议RTP语音流同一时刻的原始语音帧的采样值分别作为合并后语音帧的左、右声道采样值;或者,当各实时传输协议RTP语音流同一时刻的原始语音帧为双声道语音时,按照叠加算法处理把上行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的左声道信息,把下行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的右声道信息;
获得所述合并处理后的语音帧。
2.如权利要求1所述的语音流的处理方法,其特征在于,所述第一信息包括语音数据包序列号和相对时间戳,该方法中根据所述第一信息调整各语音流中语音数据包时序的步骤具体为:
根据所述语音数据包序列号,调整各语音流中语音数据包的顺序;
根据所述相对时间戳,调整所述各语音流中语音数据包的端到端时延差。
3.如权利要求2所述的语音流的处理方法,其特征在于,该方法中根据所述第一信息调整各语音流中语音数据包时序的步骤还包括:
对所述各语音流中丢失的语音数据包作为静音包处理。
4.如权利要求1所述的语音流的处理方法,其特征在于,所述第二信息为所述各语音流中控制信息包中的相对时间戳和绝对时间戳,该方法中根据所述第二信息控制将所述调整处理后的各语音流中语音数据包对应的压缩语音帧同步输出的步骤具体包括:
根据所述相对时间戳和绝对时间戳,确定所述各语音流的输出时延;
根据所述输出时延,控制将所述调整时序后的各语音流中语音数据包对应的压缩语音帧同步输出。
5.如权利要求1至4中任一项所述的语音流的处理方法,其特征在于,该方法中合并所述各语音流对应的原始语音帧之后,还包括:
保存/播放所述合并处理所得的语音帧。
6.如权利要求1至4中任一项所述的语音流的处理方法,其特征在于,该方法中合并所述各语音流对应的原始语音帧之后,还包括:
将所述合并处理所得语音帧压缩编码后输出。
7.一种语音流处理装置,其特征在于,包括:
语音流获取模块,获得至少两条携带有用于调整语音流中语音数据包时序的第一信息、用于控制各语音流中语音数据包对应的压缩语音帧同步输出的第二信息的语音流;
预处理模块,根据所述第一信息,调整各语音流中语音数据包的时序;
同步控制模块,根据所述第二信息,控制将所述调整时序处理后的各语音流中语音数据包对应的压缩语音帧同步输出;
还原模块,对所述同步输出的压缩语音帧还原成原始语音帧;
语音信号合并模块,合并所述各语音流对应的原始语音帧;
其中,所述语音信号合并模块包括:
划分单元,用于当各实时传输协议RTP语音流同一时刻的原始语音帧为单声道语音时,把上、下行实时传输协议RTP语音流同一时刻的原始语音帧的采样值分别作为合并后语音帧的左、右声道采样值;或者,用于当各实时传输协议RTP语音流同一时刻的原始语音帧为双声道语音时,按照叠加算法处理把上行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的左声道信息,把下行实时传输协议RTP语音流同一时刻的原始语音帧的左、右声道进行叠加作为合并后所得语音帧的右声道信息;
第二获取单元,获得所述合并处理后的语音帧。
8.如权利要求7所述的语音流处理装置,其特征在于,所述第一信息包括所述各语音数据包序列号和相对时间戳,所述预处理模块包括:
第一处理单元,根据所述语音数据包序列号,调整各语音流中语音数据包的时序;
第二处理单元,根据所述相对时间戳,调整所述各语音流中语音数据包的端到端时延差。
9.如权利要求8所述的语音流处理装置,其特征在于,所述预处理模块还包括:
第三处理单元,对所述各语音流中丢失的语音数据包作为静音包处理。
10.如权利要求7所述的语音流处理装置,其特征在于,所述第二信息为所述各语音流中控制信息包中的相对时间戳和绝对时间戳,所述同步控制模块包括:
确定单元,根据所述相对时间戳和绝对时间戳,确定所述各语音流的输出时延;
控制单元,根据所述输出时延,控制将所述调整时序处理后的各语音流中语音数据包对应的压缩语音帧同步输出。
11.如权利要求7至10中任一项所述的语音流处理装置,其特征在于,该语音流处理装置还包括:
保存模块,保存所述语音信号合并模块处理所得语音帧,或
播放模块,播放所述语音信号合并模块处理所得语音帧,或
压缩编码模块,将所述语音信号合并模块处理所得语音帧压缩编码后输出。
CN2007100317079A 2007-11-27 2007-11-27 一种语音流的处理方法及装置 Expired - Fee Related CN101188525B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2007100317079A CN101188525B (zh) 2007-11-27 2007-11-27 一种语音流的处理方法及装置
PCT/CN2008/073212 WO2009067954A1 (fr) 2007-11-27 2008-11-27 Procédé et dispositif de traitement de flux audio

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100317079A CN101188525B (zh) 2007-11-27 2007-11-27 一种语音流的处理方法及装置

Publications (2)

Publication Number Publication Date
CN101188525A CN101188525A (zh) 2008-05-28
CN101188525B true CN101188525B (zh) 2011-10-26

Family

ID=39480724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100317079A Expired - Fee Related CN101188525B (zh) 2007-11-27 2007-11-27 一种语音流的处理方法及装置

Country Status (2)

Country Link
CN (1) CN101188525B (zh)
WO (1) WO2009067954A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101188525B (zh) * 2007-11-27 2011-10-26 成都市华为赛门铁克科技有限公司 一种语音流的处理方法及装置
CN101488954A (zh) * 2009-01-09 2009-07-22 中兴通讯股份有限公司 语音监听方法以及接入网关
CN103188403B (zh) * 2011-12-30 2016-08-03 迈普通信技术股份有限公司 语音网关在线监听方法
CN102916938B (zh) * 2012-09-08 2015-11-25 佳都新太科技股份有限公司 一种基于rtp协议多路语音合成的方法
CN103702002B (zh) * 2013-12-17 2017-04-26 中国联合网络通信集团有限公司 语音流的处理方法和装置
CN105100508B (zh) 2014-05-05 2018-03-09 华为技术有限公司 一种网络语音质量评估方法、装置和系统
CN104506273B (zh) * 2014-11-20 2018-06-19 中国航天科工集团第四研究院指挥自动化技术研发与应用中心 对称高速数字用户线shdsl数据帧处理方法和装置
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
CN105337897B (zh) * 2015-10-31 2019-01-22 广州海格通信集团股份有限公司 一种基于rtp报文的音频ptt同步传输系统
CN108200003B (zh) * 2016-12-08 2021-05-28 武汉斗鱼网络科技有限公司 一种音频数据的混合处理方法及装置
CN108182947B (zh) * 2016-12-08 2020-12-15 武汉斗鱼网络科技有限公司 一种声道混合处理方法及装置
CN108512874A (zh) * 2017-02-27 2018-09-07 上海谦问万答吧云计算科技有限公司 一种在线答疑数据的同步方法及装置
CN108234485B (zh) * 2017-12-30 2020-09-01 广东世纪网通信设备股份有限公司 基于voip平台的诈骗声纹获取装置及利用该装置来拦截诈骗电话的方法、装置和系统
CN110225212B (zh) * 2019-05-21 2021-08-06 中国电子科技集团公司第三十六研究所 一种VoIP语音恢复方法和装置
CN110730274B (zh) * 2019-10-17 2021-11-19 厦门快商通科技股份有限公司 语音抓包解析方法、系统、移动终端及存储介质
CN111432075B (zh) * 2020-03-12 2022-03-08 深圳震有科技股份有限公司 基于voip网络实时监控语音通话方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076587A1 (ja) * 2004-01-30 2005-08-18 Ntt Comware Corporation VolP音声モニタリング方法及びVolP音声モニタリングシステム
CN100401692C (zh) * 2004-08-06 2008-07-09 华为技术有限公司 分组语音网络的监听方法
US7843974B2 (en) * 2005-06-30 2010-11-30 Nokia Corporation Audio and video synchronization
CN1937544A (zh) * 2006-11-13 2007-03-28 陈哲 Ip电话监听系统
CN101188525B (zh) * 2007-11-27 2011-10-26 成都市华为赛门铁克科技有限公司 一种语音流的处理方法及装置

Also Published As

Publication number Publication date
CN101188525A (zh) 2008-05-28
WO2009067954A1 (fr) 2009-06-04

Similar Documents

Publication Publication Date Title
CN101188525B (zh) 一种语音流的处理方法及装置
US7626942B2 (en) Method of conducting an audio communications session using incorrect timestamps
US8094667B2 (en) RTP video tunneling through H.221
RU2408158C2 (ru) Синхронизация звука и видео
US6901069B2 (en) Sub-packet insertion for packet loss compensation in voice over IP networks
US7830862B2 (en) System and method for modifying speech playout to compensate for transmission delay jitter in a voice over internet protocol (VoIP) network
CN105791939B (zh) 音频与视频的同步方法及装置
EP1941496B1 (en) Processing encoded real-time data
US9307079B2 (en) Handling announcement media in a communication network environment
CN1856089A (zh) 在弱信号环境的移动站中提供视频呼叫服务的方法
CN110430102B (zh) 基于ims的电话录音方法
US7769054B2 (en) Method of conducting a communications session using incorrect timestamps
CN101272383B (zh) 一种实时音频数据传输方法
US8438016B2 (en) Silence-based adaptive real-time voice and video transmission methods and system
US20030067922A1 (en) Communication method, communication device, and communication terminal
US7813378B2 (en) Wideband-narrowband telecommunication
US6657997B1 (en) Transporting ABCD bits using RTP
AU2007219142A1 (en) Audio and video communication
CN104702807B (zh) 一种VoIP通信系统
US7313233B2 (en) Tone clamping and replacement
JP2005157045A (ja) 音声伝送方法
JP2003023499A (ja) 会議サーバ装置および会議システム
JP2006074555A (ja) マルチメディアゲートウェイにおける音声・動画調整方式
US20100329286A1 (en) Method and receiving unit for synchronizing a packet-oriented reception with a calculated tone signal
da Silva et al. Analyzing the QoS of VoIP on SIP in java

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: CHENGDU CITY HUAWEI SAIMENTEKE SCIENCE CO., LTD.

Free format text: FORMER OWNER: HUAWEI TECHNOLOGY CO., LTD.

Effective date: 20090424

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090424

Address after: Qingshui River District, Chengdu high tech Zone, Sichuan Province, China: 611731

Applicant after: Chengdu Huawei Symantec Technologies Co., Ltd.

Address before: Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Province, China: 518129

Applicant before: Huawei Technologies Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: Huawei Symantec Technologies Co., Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: Chengdu Huawei Symantec Technologies Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111026

Termination date: 20191127