CN104144097A

CN104144097A - 语音消息传输系统、发送端、接收端及语音消息传输方法

Info

Publication number: CN104144097A
Application number: CN201310164840.7A
Authority: CN
Inventors: 郭怀印
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Shenzhen Taile Culture Technology Co ltd
Priority date: 2013-05-07
Filing date: 2013-05-07
Publication date: 2014-11-12
Anticipated expiration: 2033-05-07
Also published as: CN104144097B

Abstract

本发明公开了一种语音消息传输系统、语音消息发送端、接收端和语音消息传输方法，其中，所述系统包括语音消息发送端和语音消息接收端；所述语音消息发送端用于获取语音数据，根据用户指令在所述语音数据中添加附加展示标签形成语音消息，并发送所述语音消息，所述附加展示标签用于标识用户指令所选择的多媒体附加展示信息；语音消息接收端用于根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息，根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息，并播放所述语音展示信息。本发明可以在为语音消息附加多媒体效果的同时，不显著增加传输数据量。

Description

语音消息传输系统、发送端、接收端及语音消息传输方法

技术领域

本发明涉及通信技术领域，尤其涉及一种语音消息传输系统、发送端、接收端及语音消息传输方法。

背景技术

随着移动通信终端的发展，目前在即时通信工具或论坛留言等应用中，通过传输即时或非即时的语音消息来进行聊天或评论正日益普及。

对于语音信号而言，为了保证语音消息的传输效率，现有技术采用低码率的语音压缩算法对语音进行压缩后传输，即使语音有一定失真，仍然可以保证接收端的播放效果。但是，当需要在语音消息中添加其它的多媒体信息（例如音乐信息）时，通常会在发送端对语音进行信号处理以加入所需要的多媒体信息，这时，经过处理的带有多媒体信息的语音数据如果想要在接收端达到较好的播放效果，其压缩码率需要大大提高，由此，传输的数据量会大大增加，从而使得语音消息传输延迟增大。

发明内容

有鉴于此，本发明提供一种语音消息传输系统、发送端、接收端及对应的语音消息传输方法，使得传输带有附加多媒体信息的语音消息的同时，不显著增加传输数据量，减小传输延迟。

在第一方面，本发明实施例提供了一种语音消息传输系统，所述系统包括语音消息发送端和语音消息接收端；

所述语音消息发送端用于获取语音数据，根据用户指令在所述语音数据中添加附加展示标签形成语音消息，并发送所述语音消息，所述附加展示标签用于标识用户指令所选择的多媒体附加展示信息；

语音消息接收端用于根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息，根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息，并播放所述语音展示信息。

在第二方面，本发明实施例提供了一种语音消息发送端，所述语音消息发送端包括：

语音数据获取单元，用于获取语音数据，

标签附加单元，用于根据用户指令在所述语音数据中添加附加展示标签形成语音消息，所述附加展示标签用于标识用户指令所选择的多媒体附加展示信息；

消息发送单元，用于发送所述语音消息。

在第三方面，本发明实施例提供了一种语音消息接收端，所述语音消息接收端包括：

接收单元，用于接收语音消息；

提取单元，用于根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息；

展示信息获取单元，用于根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息；

播放单元，用于播放所述语音展示信息。

在第四方面，本发明实施例提供了一种语音消息传输方法，所述方法包括：

语音消息发送端获取语音数据，根据用户指令在所述语音数据中添加附加展示标签形成语音消息，并发送所述语音消息，所述附加展示标签用于标识用户指令所选择的多媒体附加展示信息；

语音消息接收端根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息，根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息，并播放所述语音展示信息。

在第五方面，本发明实施例提供了一种语音消息发送方法，所述方法包括：

获取语音数据；

根据用户指令在所述语音数据中添加附加展示标签形成语音消息，所述附加展示标签用于标识用户指令所选择的多媒体附加展示信息；

发送所述语音消息。

在第六方面，本发明实施例还提供了一种语音消息接收方法，所述方法包括：

接收语音消息；

根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息；

根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息；

播放所述语音展示信息。

本发明实施例通过在语音数据中附加用于标识多媒体附加展示信息的附加展示标签，在语音消息接收端根据附加展示标签来获取对应的多媒体附加展示信息，并基于多媒体附加展示信息对语音数据进行处理获得带有多媒体附加展示效果的语音展示信息，由此，不需要在发送端对语音数据进行多媒体处理，同时，由于附加展示标签仅为标识，没有显著增加语音消息的数据量，因此，实现了在传输带有附加多媒体信息的语音消息的同时，不显著增加传输数据量，减小了传输延迟。

附图说明

图1是本发明第一实施例的语音消息传输系统的示意图；

图2是本发明第一实施例的一个优选方式的示意图；

图3是本发明第二实施例的语音消息传输方法的流程图；

图4是本发明第二实施例的一个优选实施方式的语音消息传输方法的信号流向图；

图5为可用于实施本发明方案的通信终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1是本发明第一实施例的语音消息传输系统的示意图。如图1所示，语音消息传输系统10包括语音消息发送端11和语音消息接收端12。

其中，语音消息发送端11和语音消息接收端12通过有线或无线数据网络连接。以上所述通过有线或无线数据网络连接是指语音消息接收端12可以通过网络即时地接收语音信息发送端11发送的消息，或者，语音消息接收端12可以通过网络间接地、非即时地（例如，通过消息存储服务器中转）接收语音信息发送端11发送的消息。

其中，语音消息发送端11用于获取语音数据，根据用户指令在所述语音数据中添加附加展示标签形成语音消息，并发送所述语音消息，所述附加展示标签用于标识用户指令所选择的多媒体附加展示信息。

具体地，在本发明实施例中，附加展示标签可以采用字符串组合的形式来唯一地标识存储在本地的多媒体附加展示信息或存储在网络的多媒体附加展示信息。例如，附加展示标签可以是本地多媒体附加展示信息文件的文件路径或文件名，也可以是网络存储的多媒体附加展示信息文件的URL地址或网络文件路径。由于附加展示标签相对于多媒体附加展示信息，其大小几乎忽略不计，因此，仅添加附加展示标签进行发送可以大大减少需要发送的数据量。

语音消息接收端12用于根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息，根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息，并播放所述语音展示信息。

具体地，所述多媒体附加展示信息可以是存储在语音信息接收端12中的信息，语音消息接收端12在本地存储装置根据附加展示标签查询获取对应的多媒体附加展示信息来对语音数据作进一步处理。同时，所述多媒体附加展示信息也可以是存储在网络中的信息，语音消息接收端12可以根据附加展示标签（例如，存储多媒体附加展示信息的网络地址）的标识通过网络连接下载多媒体附加展示信息来对语音数据作进一步处理。

具体地，语音消息发送端11包括语音数据获取单元111、标签附加单元112和消息发送单元113

其中，语音数据获取单元111用于获取语音数据，并将语音数据传送给标签附加单元。

标签附加单元112用于根据用户指令在所述语音数据中添加附加展示标签形成语音消息。所述的语音消息中包括语音数据以及附加展示标签。由此，用户可以通过用户界面输入用户指令选择期望的多媒体效果加入语音消息中传输。

消息发送单元113用于发送所述语音消息。

优选地，消息发送单元113用于向语音消息接收端12即时发送所述语音消息。

优选地，消息发送单元113用于将所述语音消息发送到消息存储服务器13。

对应地，语音消息接收端12包括接收单元121、提取单元122、展示信息获取单元123和播放单元124。

其中，接收单元121用于接收语音消息。

优选地，接收单元121用于接收语音消息发送端11即时发送的语音消息。

优选地，接收单元121也可以用于根据用户指令从消息存储服务器13下载语音消息。

提取单元122用于根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息。

展示信息获取单元123用于根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息。所述语音展示信息经由展示信息获取单元123处理附加了多媒体附加展示信息对应的多媒体效果，所述多媒体效果可例如为具有背景音乐、具有附加音效、包括附加语音或伴随有图片和/或动画显示等。

播放单元124用于播放所述语音展示信息。

可选地，本实施例的方案可以应用在即时通信应用（例如，百度HI）中，在这类应用场景下，消息发送单元113用于向语音消息接收端12即时发送所述语音消息。所述语音消息会被嵌入语音消息接收端12的标识后经由网络连接直接发送到语音消息接收端12的接收单元121。

同时，本实施例的方案也可以应用在网络论坛的语音评论应用中（例如，百度音乐人，百度贴吧等网络论坛的语音评论），在这类应用场景下，所述消息发送单元113用于将语音消息发送到的消息存储服务器13，消息存储服务器13用于存储所述语音消息，语音消息接收端12的接收单元121根据用户指令从消息存储服务器13下载语音消息。

在一个优选实施方式中，如图2所示，语音消息发送端11还可以包括试听单元114，其用于试听所述语音消息。用户在通过用户指令为语音数据附加多媒体附加展示效果后，可以利用试听单元114对语音消息进行试听。

具体地，试听单元114包括获取子单元114a、消息处理子单元114b和展示子单元114c。

其中，获取子单元114a用于根据待发送的语音消息中的附加展示标签获取对应的多媒体附加展示信息。所述多媒体附加展示信息可以是存储在语音消息发送端11中的信息，语音消息发送端11在本地存储装置根据附加展示标签查询获取对应的多媒体附加展示信息来对语音数据作进一步处理。同时，所述多媒体附加展示信息也可以是存储在网络中的信息，语音消息发送端11可以根据附加展示标签的标识通过网络连接下载多媒体附加展示信息来对语音数据作进一步处理。

消息处理子单元114b用于根据所述多媒体附加展示信息对所述待发送的语音消息中的语音数据进行处理获得对应的语音展示信息。

展示子单元114c用于播放所述语音展示信息。

在本实施例的一个优选实施方式中，语音消息接收端12的展示信息获取单元123还用于在获取多媒体附加展示信息失败时，提取语音数据中的语音作为语音展示信息，由此，可以保证在附加展示标签存在传输错误或者附加展示标签对应的多媒体附加展示信息不能获取得到时，仍然能够保证语音消息的语音能够被语音消息接收端12播放。优选地，还可以增加提示的功能，通过人机交互界面提示用户多媒体附加信息提取失败。

在本实施例的一个优选实施方式中，多媒体附加展示信息可以包括背景音乐，从而使得最终语音展示信息中的语音数据具有背景音乐。

在语音消息发送端11，用户可以通过用户界面选择希望作为语音消息背景的背景音乐，例如，语音消息发送端11可以在用户界面中设置心情选项，用户选择心情选项后，语音消息发送端11选取心情选项对应的音乐作为背景音乐（如，快乐对应欢快的音乐、严肃对应进行曲、悲伤对应蓝调音乐等），将该背景音乐对应的附加展示标签加入添加到语音数据形成语音消息。再例如，语音消息发送端11可以在用户界面中设置场景选项（如，海边、古城、地铁等等），用户选择场景选项后，语音消息发送端11选取所选定的场景选项对应的音乐作为背景音乐，将该背景音乐对应的附加展示标签加入添加到语音数据形成语音消息。

语音消息接收端12可以通过提取单元122根据语音消息中的附加展示标签获取背景音乐数据，再由展示信息获取单元123通过进行混音使得所述语音展示信息包含所述附加展示标签对应的背景音乐。

具体地，当语音数据为低码率语音压缩数据流时，语音消息接收端12的展示信息获取单元123从语音消息中提取语音数据，并对语音数据解码获取语音信号，再将获取得到的背景音乐文件与语音信号或经过进一步处理的语音信号进行混音获取语音展示信息。由此，播放单元124播放所述语音展示信息时会同时播放语音以及背景音乐。本实施例中，上述经过进一步处理的语音信号是指通过处理附加了其他多媒体效果后的语音信号，例如，附加了特定音效音效等。

通过添加背景音乐可以丰富语音消息的内容和形式，同时，由于语音消息传输时并没有将背景音乐数据附在语音消息中，语音消息的传输数据量没有显著变化。

在本实施例的另一个优选实施方式中，多媒体附加展示信息可以包括音效处理组件，所述音效处理组件用于为语音数据增加预定音效，例如，噪声消除，频谱扩展，音量提升，人声增强等，上述增加的预定音效也可以是个性化的音效，例如，使语音具有回声，增加环境声，语音变声或语音变速变调。具体地，所述音效处理组件可以为可加载的信号滤波器程序，其可以进行预定信号处理以使得处理后的语音信号获得所对应的音效。

在语音消息发送端11，用户可以通过用户界面选择希望添加的音效，所述音效不限于一种。例如，语音消息发送端11可以在用户界面中显示音效列表，根据用户输入的选择指令，语音消息发送端11选取用户所选定的至少一个音效，将该至少一个音效对应的附加展示标签添加到语音数据形成语音消息。

在语音消息接收端12，提取单元122根据语音消息中的附加展示标签获取音效处理组件，再由展示信息获取单元123利用音效处理组件使所述语音展示信息具有与所述音效处理组件对应的音效。

具体地，当语音数据为低码率语音压缩数据流时，语音消息接收端12的展示信息获取单元123从语音消息中提取语音数据，并对语音数据解码获取语音信号，再加载获得的语音处理组件对所述语音信号或经过其他处理的语音信号进行处理以添加对应的一种或多种音效。由此，播放单元124播放所述语音展示信息时具有用户在语音消息发送端11所选定的音效。

通过添加音效可以提高语音信息的质量，丰富语音消息的内容和形式，同时，由于语音消息传输时并没有将音效处理组件附在语音消息中，语音消息的传输数据量没有显著变化。

在本实施例的另一个优选实施方式中，所述多媒体附加展示信息可以包括图片和/或动画。

在语音消息发送端11，通过在用户界面显示可附加的图片和/或动画列表供用户选择，根据用户输入的选择指令，将用户选定的至少一个图片和/或动画对应的附加展示标签添加到语音数据形成语音消息。所述的图片或动画可以是表示表情的图片或动画，也可是表示用户所处环境的图片或动画。

在语音消息接收端12，展示消息获取单元123用于通过加入所述图片和/或动画获得语音展示信息。

通过添加图片和/或动画可以丰富语音消息的内容和形式，同时，由于语音消息传输时并没有将图片和/或动画附在语音消息中，语音消息的传输数据量没有显著变化。

在本实施例的另一个优选实施方式中，所述多媒体附加展示信息包括附加语音。例如，所述附加语音可以是表示表情的语音，例如，“哈哈哈……”的语音表示微笑、快乐的表情，“呜呜呜……”的语音表示哭泣、悲伤的表情。通过将这类表示表情的语音加入语音消息可以达到文字消息中图片或符号表情相同的效果，使得通信的内容更加丰富。

在本实施方式中，在语音消息发送端11，用户可以通过用户界面选择希望添加的附加语音。例如，语音消息发送端11可以在用户界面中显示附加语音列表，在附加语音列表中，可以通过表情图片或文字标识附加语音的内容，根据用户输入的选择指令，语音消息发送端11选取用户所选定的附加语音，将该附加语音以及附加语音的插入位置形成对应的附加展示标签添加到语音数据形成语音消息。所述附加语音的插入位置可以由用户选定，也可以插入到语音信号的预定位置，例如尾部或停顿处。

在语音消息接收端12，提取单元122根据语音消息中的附加展示标签获取附加语音，再由展示信息获取单元123插入所述附加语音使得所述语音展示信息在预定位置或者用户选定的位置处包括所述附加语音。

具体地，当语音数据为低码率语音压缩数据流时，语音消息接收端12的展示信息获取单元123从语音消息中提取语音数据，并对语音数据解码获取语音信号，再在附加展示标签中标定的位置向所述语音信号或经过其他处理的语音信号插入所述附加语音使得所述语音展示信息在预定位置或者用户选定的位置处包括所述附加语音。由此，播放单元124播放所述语音展示信息时具有用户在语音消息发送端11所选定的附加语音。

通过添加附加语音可以丰富语音消息的内容和形式，同时，由于语音消息传输时并没有将附加语音数据附在语音消息中，语音消息的传输数据量没有显著变化。

当然，本领域技术人员应该理解，所述多媒体附加展示信息不限于上述实施方式所列举的范畴，而且所述多媒体附加展示信息可以包括上述事实方式所列举至少两种信息的组合，对应地，附加展示标签中包括所述至少两种信息的对应标识。相应地，在语音消息接收端12，提取单元122根据附加展示标签提取获得至少两种信息，展示信息获取单元123按预定顺序或附加展示标签中所体现的顺序基于提取获得的信息对语音数据进行处理以得到包括至少两种多媒体附加效果的语音展示信息。

举例而言，在语音消息发送端11，用户可以通过用户界面选择附加在语音中的背景音乐和所需的音效（例如回声音效）。标签附加单元112对应地根据所述背景音乐的标识以及音效所对应的音效处理组件的标识形成附加展示标签，并将附加展示标签添加到语音数据形成语音消息发送。

在语音消息接收端12，提取单元122根据附加展示标签提取获得用户选定的背景音乐以及音效处理组件，展示信息获取单元123可以按照预定的顺序先对语音信号进行音效处理，再将背景音乐与经音效处理后的语音信号进行混音获取同时带有音效以及背景音乐的语音展示信息。当然，可选地，所述处理顺序也可以由用户在语音消息发送端11进行设置。

本实施例通过在语音数据中附加用于标识多媒体附加展示信息的附加展示标签，在语音消息接收端根据附加展示标签来获取对应的多媒体附加展示信息，并基于多媒体附加展示信息对语音数据进行处理获得带有多媒体附加展示效果的语音展示信息，由此，不需要在发送端对语音数据进行多媒体处理，同时，由于附加展示标签仅为标识，其数据量小，没有显著增加语音消息的数据量，因此，实现了在传输带有附加多媒体信息的语音消息的同时，不显著增加传输数据量，减小了传输延迟。

图3是本发明第二实施例的语音消息传输方法的流程图。如图3所述，所述方法包括：

步骤310、语音消息发送端获取语音数据，根据用户指令在所述语音数据中添加附加展示标签形成语音消息，并发送所述语音消息，所述附加展示标签用于标识用户指令所选择的多媒体附加展示信息。

步骤320、语音消息接收端根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息，根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息，并播放所述语音展示信息。

其中，语音消息发送端和语音消息接收端通过有线或无线数据网络连接。以上所述通过有线或无线数据网络连接是指语音消息接收端可以通过网络即时地接收语音信息发送端发送的消息，或者，语音消息接收端可以通过网络间接地、非即时地（例如，通过消息存储服务器中转）接收语音信息发送端发送的消息。

具体地，所述多媒体附加展示信息可以是存储在语音信息接收端中的信息，语音消息接收端在本地存储装置根据附加展示标签查询获取对应的多媒体附加展示信息来对语音数据作进一步处理。同时，所述多媒体附加展示信息也可以是存储在网络中的信息，语音消息接收端可以根据附加展示标签（例如，存储多媒体附加展示信息的网络地址）的标识通过网络连接下载多媒体附加展示信息来对语音数据作进一步处理。

图4是本发明第二实施例的一个优选实施方式的语音消息传输方法的信号流向图。如图4所示，在语音消息发送端，在步骤311，首先获取语音数据。

优选地，获取语音数据可以包括：

步骤311a、通过语音采集器件采集语音信号。语音采集器件为将声音振动的机械能转化为电信号的装置，其可以为麦克风等。

步骤311b、对语音信号进行编码获取语音数据。具体地，可以采用低码率压缩算法对语音信号进行压缩编码获得适于进行传输的低码率压缩语音数据流。当然，本领域技术人员可以理解，采用其它的适合的编码方式也是符合本发明实施例的精神的。而且，本步骤也并非必要，在某些情况下，也可以直接将原始语音信号作为语音数据。

在步骤312、根据用户指令在所述语音数据中添加附加展示标签形成语音消息。

在步骤313、发送所述语音消息。

具体地，本实施例的方案可以应用在即时通信应用（例如，百度HI）中，在这类应用场景下，语音消息发送端向语音消息接收端即时发送所述语音消息。具体地，所述语音消息会被嵌入语音消息接收端的标识（例如，电话号码或网络标识）后经由网络连接直接发送到语音消息接收端。

同时，在这类应用场景下，在语音消息接收端，在步骤321，语音消息接收端经由网络即时接收语音消息。

另外，本实施例的方案也可以应用在网络论坛的语音评论应用中（例如，百度音乐人，百度贴吧等网络论坛的语音评论），在这类应用场景下，在步骤313语音消息发送端语音消息发送到的消息存储服务器，消息存储服务器用于存储所述语音消息，在步骤321，语音消息接收端根据用户指令从消息存储服务器下载语音消息。

在语音消息接收端，接收到语音消息后，在步骤322，根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息。

在步骤323，根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息。

所述语音展示信息经处理附加了多媒体附加展示信息对应的多媒体效果，所述多媒体效果可例如为具有背景音乐、具有附加音效、包括附加语音或伴随有图片和/或动画显示等。

在步骤324，播放所述语音展示信息。

在本实施例的一个优选实施方式中，在语音消息发送端还包括步骤314，对待发送的语音消息进行试听（在图4中以虚线框表示）。

具体地，所述步骤314可以具体包括：

步骤314a、根据要试听的语音消息中的附加展示标签获取对应的多媒体附加展示信息；

步骤314b、根据所述多媒体附加展示信息对所述要试听的语音消息中的语音数据进行处理获得对应的语音展示信息；

步骤314c、播放所述语音展示信息。

本领域技术人员可以理解，虽然图4中将步骤314设置于步骤313后，但是，在发送语音消息前，或发送语音消息的同时，均可以对所述语音消息进行试听。

在本实施例的一个优选实施方式中，语音消息接收端还可以在获取多媒体附加展示信息失败时，仅提取语音数据中的语音作为语音展示信息，由此，可以保证在附加展示标签存在传输错误或者附加展示标签对应的多媒体附加展示信息不能获取得到时，仍然能够保证语音消息的语音能够被语音消息接收端播放。优选地，还可以增加提示的功能，通过人机交互界面提示用户多媒体附加信息提取失败。

在语音消息发送端，用户可以通过用户界面选择希望作为语音消息背景的背景音乐，例如，语音消息发送端可以在用户界面中设置心情选项，用户选择心情选项后，语音消息发送端选取心情选项对应的音乐作为背景音乐（如，快乐对应欢快的音乐、严肃对应进行曲、悲伤对应蓝调音乐等），将该背景音乐对应的附加展示标签加入添加到语音数据形成语音消息。再例如，语音消息发送端可以在用户界面中设置场景选项（如，海边、古城、地铁等等），用户选择场景选项后，语音消息发送端选取所选定的场景选项对应的音乐作为背景音乐，将该背景音乐对应的附加展示标签加入添加到语音数据形成语音消息。

语音消息接收端可以根据语音消息中的附加展示标签获取背景音乐数据，再通过进行混音使得所述语音展示信息包含所述附加展示标签对应的背景音乐。

具体地，当语音数据为低码率语音压缩数据流时，语音消息接收端从语音消息中提取语音数据，并对语音数据解码获取语音信号，再将获取得到的背景音乐文件与语音信号或经过进一步处理的语音信号进行混音获取语音展示信息。由此，播放所述语音展示信息时会同时播放语音以及背景音乐。

在本实施例的另一个优选实施方式中，多媒体附加展示信息可以包括音效处理组件，所述音效处理组件用于为语音数据增加预定音效，例如，噪声消除，频谱扩展，音量提升，人声增强等，上述增加的预定音效也可以是个性化的音效，例如，使语音具有回声，增加环境声，语音变声或语音变速变调。所述音效处理组件可以为可加载的信号滤波器程序，其可以进行预定信号处理以使得处理后的语音信号获得所对应的音效。

在语音消息发送端，用户可以通过用户界面选择希望添加的音效，所述音效不限于一种。例如，语音消息发送端可以在用户界面中显示音效列表，根据用户输入的选择指令，语音消息发送端选取用户所选定的至少一个音效，将该至少一个音效对应的附加展示标签添加到语音数据形成语音消息。

语音消息接收端根据语音消息中的附加展示标签获取音效处理组件，再利用音效处理组件使所述语音展示信息具有与所述音效处理组件对应的音效。

具体地，当语音数据为低码率语音压缩数据流时，语音消息接收端从语音消息中提取语音数据，并对语音数据解码获取语音信号，再加载获得的语音处理组件对所述语音信号或经过其他处理的语音信号进行处理以添加对应的一种或多种音效。由此，播放所述语音展示信息时具有用户在语音消息发送端所选定的音效。

在语音消息发送端，可以通过在用户界面显示可附加的图片和/或动画列表供用户选择，根据用户输入的选择指令，将用户选定的至少一个图片和/或动画对应的附加展示标签添加到语音数据形成语音消息。所述的图片或动画可以是表示表情的图片或动画，也可是表示用户所处环境的图片或动画。

在语音消息接收端，通过加入所述图片和/或动画获得语音展示信息。

在本实施方式中，在语音消息发送端，用户可以通过用户界面选择希望添加的附加语音。例如，语音消息发送端可以在用户界面中显示附加语音列表，在附加语音列表中，可以通过表情图片或文字标识附加语音的内容，根据用户输入的选择指令，语音消息发送端选取用户所选定的附加语音，将该附加语音以及附加语音的插入位置形成对应的附加展示标签添加到语音数据形成语音消息。所述附加语音的插入位置可以由用户选定，也可以插入到语音信号的预定位置，例如尾部或停顿处。

语音消息接收端接收到语音消息后，根据语音消息中的附加展示标签获取附加语音，再插入所述附加语音使得所述语音展示信息在预定位置或者用户选定的位置处包括所述附加语音。

具体地，当语音数据为低码率语音压缩数据流时，语音消息接收端从语音消息中提取语音数据，并对语音数据解码获取语音信号，再在附加展示标签中标定的位置向所述语音信号或经过其他处理的语音信号插入所述附加语音使得所述语音展示信息在预定位置或者用户选定的位置处包括所述附加语音。由此，播放所述语音展示信息时具有用户在语音消息发送端所选定的附加语音。

当然，本领域技术人员应该理解，所述多媒体附加展示信息不限于上述实施方式所列举的范畴，而且所述多媒体附加展示信息可以包括上述事实方式所列举至少两种信息的组合，对应地，附加展示标签中包括所述至少两种信息的对应标识。相应地，语音消息接收端根据附加展示标签提取获得至少两种信息，并按预定顺序或附加展示标签中所体现的顺序基于提取获得的信息对语音数据进行处理以得到包括至少两种多媒体附加效果的语音展示信息。

举例而言，在语音消息发送端，用户可以通过用户界面选择附加在语音中的背景音乐和语音所需的音效（例如回声音效）。对应地，语音消息发送端根据所述背景音乐的标识以及音效所对应的音效处理组件的标识形成附加展示标签，添加到语音数据。

在语音消息接收端接收到语音消息后，根据附加展示标签提取获得用户选定的背景音乐以及音效处理组件，然后可以按照预定的顺序先对语音信号进行音效处理，再将背景音乐与经音效处理后的语音信号进行混音获取同时带有音效以及背景音乐的语音展示信息。当然，可选地，所述处理顺序也可以由用户在语音消息发送端进行设置。

本实施例通过在语音数据中附加用于标识多媒体附加展示信息的附加展示标签，在语音消息接收端根据附加展示标签来获取对应的多媒体附加展示信息，并基于多媒体附加展示信息对语音数据进行处理获得带有多媒体附加展示效果的语音展示信息，由此，不需要在发送端对语音数据进行多媒体处理，同时，由于附加展示标签仅为标识，没有显著增加语音消息的数据量，因此，实现了在传输带有附加多媒体信息的语音消息的同时，不显著增加传输数据量，减小了传输延迟。

图5为可用于实施本发明方案的通信终端的结构示意图。所述通信终端50可以用于实施上述实施例中提供的方法。典型地，通信终端50包括语音采集装置51、至少一个处理器52、至少一个存储装置53和通信装置54。

语音采集装置51可用于获取原始语音信号，在一个优选方式中，其可以为麦克风。

存储装置53可用于存储程序以及数据，处理器52通过读取和/或运行存储在存储装置53中的数据和程序，从而执行各种指令以及进行对应的数据处理。存储装置53所存储的程序包括操作系统、至少一个功能或步骤所需的应用程序等；存储装置53所存储的数据包括如上所述的各类多媒体附加展示信息，以及其他数据信息。

通讯装置54可用于通过无线/有线方式发送和接收数据，优选地，所述通讯装置54为无线通讯装置，其可基于已有的无线通信技术（例如，GPRS(GeneralPacket Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、WiFi(wireless fidelity，无线保真)、蓝牙等）进行数据发送和接收。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以通过如上所述的通信终端实施，对于语音信息的发送以及接收功能可以集成于同一通信终端上以使得通信终端既可以发送也可以接收语音信息。可选地，本发明实施例可以用计算机装置可执行的程序来实现，从而可以将它们存储在存储装置中由处理器来执行，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等；或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音消息传输系统，其特征在于，包括语音消息发送端和语音消息接收端；

2.根据权利要求1所述的语音消息传输系统，其特征在于，所述多媒体附加展示信息包括背景音乐；

所述语音消息接收端用于通过混音使得所述语音展示信息包含所述附加展示标签对应的背景音乐。

3.根据权利要求1所述的语音消息传输系统，其特征在于，所述多媒体附加展示信息包括音效处理组件，所述音效处理组件用于为语音数据增加预定音效；

所述语音消息接收端用于利用音效处理组件使所述语音展示信息具有与所述音效处理组件对应的音效。

4.根据权利要求1所述的语音消息传输系统，其特征在于，所述多媒体附加展示信息包括图片和/或动画；

所述语音消息接收端用于通过加入所述图片和/或动画获得语音展示信息。

5.根据权利要求1所述的语音消息传输系统，其特征在于，所述多媒体附加展示信息包括附加语音；

所述语音消息接收端用于插入所述附加语音使得所述语音展示信息在预定位置或者用户选定的位置处包括所述附加语音。

6.根据权利要求1所述的语音消息传输系统，其特征在于，所述语音消息接收端用于根据接收到的语音消息中的附加展示标签在存储装置中获取对应的多媒体附加展示信息；或者

所述语音消息接收端用于根据接收到的语音消息中的附加展示标签通过网络连接下载对应的多媒体附加展示信息。

7.根据权利要求1所述的语音消息传输系统，其特征在于，所述语音消息发送端还用于对待发送的语音消息进行试听。

8.根据权利要求1所述的语音消息传输系统，其特征在于，所述语音消息发送端用于向所述语音消息接收端即时发送所述语音消息；或者

所述语音消息发送端还用于将所述语音消息发送到消息存储服务器，所述语音消息接收端还用于根据用户指令从所述消息存储服务器下载所述语音消息。

9.一种语音消息发送端，其特征在于，包括：

语音数据获取单元，用于获取语音数据；

消息发送单元，用于发送所述语音消息。

10.根据权利要求9所述的语音消息发送端，其特征在于，所述语音消息发送端还包括：

试听单元，用于试听所述语音消息。

11.根据权利要求10所述的语音消息发送端，其特征在于，所述试听单元包括：

获取子单元，用于根据要试听的语音消息中的附加展示标签获取对应的多媒体附加展示信息；

消息处理子单元，用于根据所述多媒体附加展示信息对所述要试听的语音消息中的语音数据进行处理获得要试听的语音消息对应的语音展示信息；

展示子单元，用于播放所述要试听的语音消息对应的语音展示信息。

12.根据权利要求9所述的语音消息发送端，其特征在于，所述消息发送单元用于向语音消息接收端即时发送所述语音消息；或者

所述消息发送单元用于将所述语音消息发送到消息存储服务器。

13.一种语音消息接收端，其特征在于，包括：

接收单元，用于接收语音消息；

播放单元，用于播放所述语音展示信息。

14.根据权利要求13所述的语音消息接收端，其特征在于，所述多媒体附加展示信息包括背景音乐；

所述展示信息获取单元用于通过混音使得所述语音展示信息包含所述附加展示标签对应的背景音乐。

15.根据权利要求13所述的语音消息接收端，其特征在于，所述多媒体附加展示信息包括音效处理组件，所述音效处理组件用于为语音数据增加预定音效；

所述展示信息获取单元用于利用音效处理组件使所述语音展示信息具有所述音效处理组件对应的音效。

16.根据权利要求13所述的语音消息接收端，其特征在于，所述多媒体附加展示信息包括图片和/或动画；

所述展示信息获取单元用于通过加入所述图片和/或动画获得语音展示信息。

17.根据权利要求13所述的语音消息接收端，其特征在于，所述多媒体附加展示信息包括附加语音；

所述展示信息获取单元用于插入所述附加语音使得所述语音展示信息在预定位置或者用户选定的位置处包括所述附加语音。

18.根据权利要求13所述的语音消息接收端，其特征在于，所述提取单元用于根据接收到的语音消息中的附加展示标签在存储装置中获取对应的多媒体附加展示信息；或者

所述提取单元用于根据接收到的语音消息中的附加展示标签通过网络连接下载对应的多媒体附加展示信息。

19.根据权利要求13所述的语音消息接收端，其特征在于，所述接收单元用于接收语音消息发送端即时发送的语音消息；或者

所述接收单元用于根据用户指令从消息存储服务器下载语音消息。

20.一种语音消息传输方法，其特征在于，包括：

21.根据权利要求20所述的语音消息传输方法，其特征在于，所述多媒体附加展示信息包括背景音乐；

所述根据所述多媒体附加展示信息对所述语音消息中的语音数据进行处理获得语音展示信息包括：

通过混音使得所述语音展示信息包含将所述附加展示标签对应的背景音乐。

22.根据权利要求20所述的语音消息传输方法，其特征在于，所述多媒体附加展示信息包括音效处理组件，所述音效处理组件用于为语音数据增加预定音效；

利用音效处理组件使所述语音展示信息具有与所述音效处理组件对应的音效。

23.根据权利要求20所述的语音消息传输方法，其特征在于，所述多媒体附加展示信息包括图片和/或动画；

通过加入所述图片和/或动画获得语音展示信息。

24.根据权利要求20所述的语音消息传输方法，其特征在于，所述多媒体附加展示信息包括附加语音；

插入所述附加语音使得所述语音展示信息在预定位置或者用户选定的位置处包括所述附加语音。

25.根据权利要求20所述的语音消息传输方法，其特征在于，所述根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息包括：

根据接收到的语音消息中的附加展示标签在存储装置中获取对应的多媒体附加展示信息；或者

根据接收到的语音消息中的附加展示标签通过网络连接下载对应的多媒体附加展示信息。

26.根据权利要求20所述的语音消息传输方法，其特征在于，所述方法还包括：对语音消息进行试听。

27.根据权利要求20所述的语音消息传输方法，其特征在于，所述发送所述语音消息包括：

向所述语音消息接收端即时发送所述语音消息；或者

将所述语音消息发送到消息存储服务器，所述语音消息接收端根据用户指令从所述消息存储服务器下载所述语音消息。

28.一种语音消息发送方法，其特征在于，包括：

获取语音数据；

发送所述语音消息。

29.根据权利要求28所述的语音消息发送方法，其特征在于，所述方法还包括：试听所述语音消息。

30.根据权利要求28所述的语音消息发送方法，其特征在于，所述试听所述语音消息包括：

根据要试听的语音消息中的附加展示标签获取对应的多媒体附加展示信息；

根据所述多媒体附加展示信息对所述要试听的语音消息中的语音数据进行处理获得所述要试听的语音消息对应的语音展示信息；

播放所述要试听的语音消息对应语音展示信息。

31.根据权利要求28所述的语音消息发送方法，其特征在于，所述发送所述语音消息包括：

向语音消息接收端即时发送所述语音消息；或者

将所述语音消息发送到消息存储服务器。

32.一种语音消息接收方法，其特征在于，包括：

接收语音消息；

播放所述语音展示信息。

33.根据权利要求32所述的语音消息接收方法，其特征在于，所述多媒体附加展示信息包括背景音乐；

34.根据权利要求32所述的语音消息接收方法，其特征在于，所述多媒体附加展示信息包括音效处理组件，所述音效处理组件用于为语音数据增加预定音效；

35.根据权利要求32所述的语音消息接收方法，其特征在于，所述多媒体附加展示信息包括图片和/或动画；

通过加入所述图片和/或动画获得语音展示信息。

36.根据权利要求33所述的语音消息接收方法，其特征在于，所述多媒体附加展示信息包括附加语音；

37.根据权利要求32所述的语音消息接收方法，其特征在于，所述根据接收到的语音消息中的附加展示标签获取对应的多媒体附加展示信息包括：

38.根据权利要求32所述的语音消息接收方法，其特征在于，所述接收语音消息包括：

接收语音消息发送端即时发送的语音消息；或者

根据用户指令从消息存储服务器下载语音消息。