CN1972339A

CN1972339A - 一种为语音业务混合背景音的方法及装置

Info

Publication number: CN1972339A
Application number: CN 200510123894
Authority: CN
Inventors: 李颖; 丁文强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2005-11-23
Filing date: 2005-11-23
Publication date: 2007-05-30

Abstract

本发明公开了一种为语音业务混合背景音的方法及装置，用以解决现有技术中用户只能从电信运营商提供的音乐素材中为传统语音业务选择背景音乐，不能满足用户个性化的需求的问题。本发明在基于VoIP的通话中，主叫终端PC对主叫用户发出的语音及主叫用户选定的背景声音进行混音，并将混合了背景声音的语音数据通过IP网络发送给被叫终端，在通话过程中服务器侧不需要为此增加任何投入，基本实现了零成本，并且本发明充分利用当今PC机强大的多媒体处理能力和互联网音乐素材丰富的特点，使用户在音乐素材的选择上有更大的空间，从而为用户营造了具有活力的通话氛围，满足用户个性化的体验。

Description

一种为语音业务混合背景音的方法及装置

技术领域

本发明涉及语音业务，尤其涉及一种为语音业务混合背景音的方法及装置。

背景技术

“彩话”业务为电信运营商基于传统电话网络提供的一种增值业务，是在通话过程中自动播放指定的声音作为背景音效，从而满足用户丰富多彩的通话需求的一项新业务。“彩话”业务由主叫用户定制，所定制的背景音效包括旋律、音乐、不同类型的音响效果、人物方言、幽默笑话等。在主被叫双方通话过程中利用设定好的歌曲或音乐作为背景音效，可使原来单调枯燥的语音通话变得丰富多彩、愉快有趣、温馨和谐。

目前电信运营商提供的“彩话”增值服务方式为用户预先定制运营商提供的背景音效，然后在通话过程中电信运营商的向通话双方播放选定的背景音效。图1所示为现有技术中“彩话”系统的结构示意图，由图中可见，该系统主要包括媒体服务器10、业务服务器11及彩话控制服务器12，其中：

媒体服务器10，用于存储背景声音文件，向终端设备播放背景声音；

业务服务器11，用于对终端设备进行鉴权，判断终端设备发送的主叫电话号码是否开通了彩话业务；

彩话控制服务器12，用于根据终端设备发送的控制信息来向媒体播放器10发送控制命令，控制背景声音的播放。

上述是现有技术的“彩话”系统中的关键组成部分，在具体实现中，常常会增加更多的服务器，如web服务器，短信网关服务器等，用于接受用户通过Internet，短信等方式进行彩话订阅。

利用上述系统进行彩话业务的过程为：用户拨打特殊号码开头的号码，业务服务器11对主叫号码进行鉴权，判断其是否开通彩话服务，鉴权通过后，业务服务器11通知彩话控制服务器12来控制媒体播放器10播放用户定制的背景声音。在播放的过程中，主叫用户的控制请求将通过彩话控制服务器12来实现。

上述“彩话”系统主要用于为传统固定电话和手机提供彩话服务，现有技术中开通、取消或者定制“彩话”业务主要通过打电话、发送短信或者直接到营业厅办理等方式来进行。“彩话”业务的使用方式为先拨打一个特殊服务号码，再拨被叫号码，接通后主叫方可通过相应的按键来切换背景声音，调节音量等。

现有技术中申请“彩话”业务的用户只能从电信运营商提供的音乐素材中选择背景音乐，而电信运营商所提供的音乐素材往往很有限，因此不能满足用户更加个性化的需求。另外为实现“彩话”业务，电信运营商需要在网络侧增加用于实现“彩话”业务的服务器等设备，从而增加了成本的投入，这将直接导致用户定制“彩话”业务的费用。

发明内容

本发明提供一种为语音业务混合背景音的方法及装置，用以解决现有技术中用户只能从电信运营商提供的音乐素材中为传统语音业务选择背景音乐，不能满足用户个性化的需求的问题。

为解决上述问题，本发明提供了一种为语音业务混合背景音的方法，包括步骤：

A、主叫终端对主叫用户发出的语音及主叫用户选定的背景声音进行混音；

B、主叫终端将混合了背景声音的语音数据通过IP网络发送给被叫终端。

其中可以通过对语音的线性比特流和背景声音的线性比特流进行线性叠加运算实现混音。

其中所述混音的过程具体包括步骤：

将语音及背景声音的非线性比特流格式转换为线性比特流格式；

对语音的线性比特流和背景声音的线性比特流进行线性叠加运算，得到线性比特流格式的混合了背景声音的语音数据；及

将混合了背景声音的语音数据的线性比特流格式转换为相应的非线性比特流格式。

其中所述步骤A前还包括步骤：

主叫终端和被叫终端建立基于VoIP的通话连接；

主叫终端读取主叫用户选定的本地背景声音文件，通过扩大和缩小该文件的采样样本值确定背景声音的音量。

其中所述步骤B中，主叫终端向被叫终端发送混合了背景声音的语音数据的同时，在本地同步播放该背景声音。

其中所述主叫终端为PC机。

其中所述被叫终端为PC机、手机或固定电话。

相应地，本发明还提供了一种为语音业务混合背景音的装置，包括：

用户语音获取单元，用于获取主叫用户发出的语音；

背景声音获取单元，用于读取用户选定的背景声音文件；

混音单元，分别与用户语音获取单元连接及背景声音获取单元连接，用于对主叫用户发出的语音及主叫用户选定的背景声音进行混音，并将混合了背景声音的语音数据通过IP网络发送给被叫终端。

其中所述混音单元进一步包括：

线性叠加子单元，用于对语音的线性比特流和背景声音的线性比特流进行线性叠加运算，以实现为语音混合背景声音。

其中所述混音单元进一步包括：

线性叠加子单元，用于对语音的线性比特流和背景声音的线性比特流进行线性叠加运算；

格式转换子单元，用于将语音及背景声音的非线性比特流格式转换为线性比特流格式后发送给线性叠加子单元处理；并将线性叠加子单元处理后的线性比特流格式的混合了背景声音的语音数据转换为相应的非线性比特流格式。

所述系统还包括：

背景声音控制单元，与背景声音获取单元连接，通过扩大和缩小背景声音文件的采样样本值确定背景声音的音量。

所述系统还包括：

背景声音播放单元，与背景声音获取单元连接，用于在本地同步播放发送给被叫终端的背景声音。

本发明有益效果如下：

本发明在主叫终端侧对主叫用户发出的语音及主叫用户选定的背景声音进行混音，并将混合了背景声音的语音数据通过IP网络发送给被叫终端，在通话过程中服务器侧不需要为此增加任何投入，基本实现了零成本，并且本发明充分利用当今PC机强大的多媒体处理能力和互联网音乐素材丰富的特点，使用户在音乐素材的选择上有更大的空间，从而为用户营造了具有活力的通话氛围，满足用户个性化的体验。

附图说明

图1为现有技术中“彩话”系统的结构示意图；

图2为本发明的为语音业务混合背景音的方法流程图；

图3为本发明为语音业务混合背景音的装置的结构示意图；

图4为本发明为语音业务混合背景音的装置中混音单元的具体组成结构示意图。

具体实施方式

VoIP(Voice over Internet Protocol，基于IP的语音)技术通过对话音进行压缩编码处理，然后根据相关协议对压缩后的语音数据进行打包，经过IP网络把数据包传输到目的地，再把这些语音数据包连接起来，经过解码解压缩处理后恢复成原来的语音信号，从而达到由IP网络传送话音的目的。本发明基于VoIP技术提出了一种为语音业务混合背景音的方法及装置，通过主叫方的混音单元对主叫用户发出的语音及主叫用户选定的背景声音进行混音，即将两段不同的语音数据进行叠加混合，并将混合了背景声音的语音数据通过IP网络发送给被叫终端。下面将结合附图对本发明的主要实现原理及其具体实施方式进行详细的阐述。

请参阅图2，图2所示为本发明的为语音业务混合背景音的方法流程图，其主要实现过程为：

步骤S20、主叫终端通过和相应的网守服务器交互，获得相应授权后，向被叫终端所属网关发起建立连接请求，该请求中携带有被叫终端的用户标识，被叫终端所属网关向被叫终端发送呼叫建立请求，被叫终端开始振铃，被叫终端接受主叫终端的呼叫请求后，主叫终端和被叫终端之间建立基于VoIP的通话连接，双方可以互发语音数据包；

所述主叫终端为PC机，所述被叫终端为PC机、手机或固定电话。

步骤S21、主叫终端根据主叫用户的选择从本地获取相应的背景声音。

步骤S22、主叫终端读取主叫用户选定的本地背景声音文件，通过扩大和缩小该文件的采样样本值确定背景声音的音量；

在对模拟音频信号数字化时，会有相应的采样样本值，采样样本值是用来衡量声音波动变化的一个参数，通过对背景声音文件的采样样本值进行扩大和缩小，即可达到对音量大小的控制。

步骤S23、主叫终端对主叫用户从麦克风输入的语音及步骤S22中确定音量后的背景声音进行混音操作；

如果主叫用户的语音和背景声音本身已经为线性比特流格式，则本步骤中就可以直接通过对语音的线性比特流和背景声音的线性比特流进行线性叠加运算以实现为主叫用户的语音混入背景声音的目的。

而如果主叫用户的语音和背景声音本身是其他格式的非线性比特流格式，则本步骤中为主叫用户的语音混入背景声音的过程具体包括：

将语音及背景声音的非线性比特流格式分别转换为线性比特流格式；

再次，对语音的线性比特流和背景声音的线性比特流进行线性叠加运算，以得到线性比特流格式的融合了背景声音的语音数据；

最后，将线性比特流格式的混合了背景声音的语音数据的转换为相应的非线性比特流格式，从而完成为非线性比特流格式的语音混合非线性比特流格式的背景声音的目的。

步骤S24、主叫终端将混合了背景声音的语音数据通过IP网络发送给被叫终端，从而可使被叫用户接收到添加了背景声音的语音通话。

在上述向被叫终端发送混合了背景声音的语音数据的同时，主叫终端可根据主叫用户的选择在本地播放选定的背景声音，本地播放的背景声音的进度和被叫终端的播放进度应保持一致，这样主叫用户可以同步听到播放给被叫用户的背景声音。

在主叫终端和被叫终端的通话过程中，主叫终端可以随时切换或停止背景声音的播放。

相应地，本发明还提出一种为语音业务混合背景音的装置，请参阅图3，该图为本发明提出的为语音业务混合背景音的装置的结构示意图，其主要包括用户语音获取单元30、背景声音获取单元31及混音单元32，其中：

用户语音获取单元30，用于获取主叫用户发出的语音；

背景声音获取单元31，用于读取用户选定的背景声音文件，用户可通过控制背景声音获取单元31随时切换或停止背景声音的播放；

混音单元32，分别与用户语音获取单元30及背景声音获取单元31连接，用于对主叫用户发出的语音及主叫用户选定的背景声音进行混音，并将混合了背景声音的语音数据通过IP网络发送给被叫终端。

混音单元32中对语音和背景声音进行混合可以通过现有技术的多种方式实现，如对于本身就是线性比特流格式的语音数据和背景声音文件，可以直接采用“线性叠加”处理方式将背景声音混入语音数据中；而对于其他格式的非线性比特流格式的语音数据和背景声音文件，则需要先将语音数据和背景声音文件的非线性比特流格式转换为线性比特流格式，然后再对线性比特流格式的语音数据和背景声音文件进行“线性叠加”运算，然后再将“线性叠加”处理后的混合了背景声音的语音数据的线性比特流格式转换为相应的非比特流格式。

基于上述理由，当背景声音和语音数据本身就已经是线性比特流格式的情况，混音单元中还进一步包括有线性叠加子单元321，以用于对语音数据的线性比特流和背景声音的线性比特流进行线性叠加运算，实现为语音数据融合背景声音的目的。

而当背景声音和语音数据是其他非线性比特流格式的情况，则混合单元中就进而要包括线性叠加子单元321和格式转换子单元322两个处理单元，请参阅图4，该图是本发明为语音业务混合背景音的装置中混音单元32的具体组成结构示意图；其中：

线性叠加子单元321，主要用于对语音数据的线性比特流和背景声音的线性比特流进行线性叠加运算；其线性叠加运算的算法可以采用现有技术中已有的任何一种叠加算法；

格式转换子单元322，与线性叠加子单元321连接，主要用于将语音数据及背景声音的非线性比特流格式转换为线性比特流格式后发送给线性叠加子311单元进行处理；并将线性叠加子单元321叠加处理后的混合了背景声音的语音数据的线性比特流格式转换为相应非线性比特流格式，从而完成为语音数据融合背景声音的目的。

进一步，本发明中主叫终端还可以对背景声音的音量进行控制，因此，本发明的为语音业务混合背景音的装置还包括：

背景声音控制单元33，与背景声音获取单元31连接，通过扩大和缩小从背景声音文件中读出的语音数据的采样样本值来确定背景声音的音量。

更进一步，为了方便主叫终端对向被叫终端播放的背景声音进行控制，本发明中主叫终端在向被叫终端发送混合了背景声音的语音数据的同时，还可以在本地同步播放选定的背景声音，因此，本发的为语音业务混合背景音的装置还包括：

背景声音播放单元34，与背景声音获取单元31连接，用于在本地同步播放发送给被叫终端的背景声音。

综上可以看出，与现有技术的“彩话”业务相比，本发明为语音业务混合背景音的方法及装置在主叫终端侧实现，服务器侧不需要为此增加任何投入，基本实现了零成本，并且本发明充分利用当今PC机强大的多媒体处理能力和互联网音乐素材丰富的特点，使用户在音乐素材的选择上有更大的空间，从而为用户营造了具有活力的通话氛围，满足用户个性化的体验。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种为语音业务混合背景音的方法，其特征在于，包括步骤：

2、如权利要求1所述的方法，其特征在于，通过对语音的线性比特流和背景声音的线性比特流进行线性叠加运算实现混音。

3、如权利要求1所述的方法，其特征在于，所述混音的过程具体包括步骤：

4、如权利要求1所述的方法，其特征在于，所述步骤A前还包括步骤：

主叫终端和被叫终端建立基于VoIP的通话连接；

5、如权利要求4所述的方法，其特征在于，所述步骤B中，主叫终端向被叫终端发送混合了背景声音的语音数据的同时，在本地同步播放该背景声音。

6、如权利要求1所述的方法，其特征在于，所述主叫终端为PC机。

7、如权利要求1所述的方法，其特征在于，所述被叫终端为PC机、手机或固定电话。

8、一种为语音业务混合背景音的装置，其特征在于，包括：

用户语音获取单元，用于获取主叫用户发出的语音；

背景声音获取单元，用于读取用户选定的背景声音文件；

9、如权利要求8所述的装置，其特征在于，所述混音单元进一步包括：

10、如权利要求8所述的装置，其特征在于，所述混音单元进一步包括：

11、如权利要求8所述的装置，其特征在于，还包括：

12、如权利要求8或11所述的装置，其特征在于，还包括：