CN103856390A

CN103856390A - 即时通讯方法及系统、通讯信息处理方法、终端

Info

Publication number: CN103856390A
Application number: CN201210510615.XA
Authority: CN
Inventors: 唐沐; 戴永裕; 叶波; 罗运广; 蔡锦彬; 宋睿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2012-12-04
Filing date: 2012-12-04
Publication date: 2014-06-11
Anticipated expiration: 2032-12-04
Also published as: US9626984B2; WO2014086216A1; US20150269928A1; CN103856390B

Abstract

本发明提出一种即时通讯方法及系统、通讯信息处理方法、终端，其即时通讯方法包括：第一终端接收用户录入的声音，并进行变音处理；第一终端将经过变音处理的声音发送给第二终端；第二终端将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据；第二终端播放所述模拟形象数据。本发明具有通讯形式丰富、操作方便以及网络传输效率高的优点。

Description

即时通讯方法及系统、通讯信息处理方法、终端

技术领域

本发明涉及互联网技术领域，特别涉及一种即时通讯方法及系统、通讯信息处理方法、终端。

背景技术

随着科学技术的迅速发展，通信科技的日新月异，移动通信终端已被人们广泛应用于日常生活和学习中，人们通过移动通信终端和网络通话或互发短信息，不但大大拉近了人们彼此之间的距离，还给人们的联系和信息交流带来了极大的便利。

目前，网络聊天的沟通方式包括文字、表情（包括系统表情和自定义表情）、图片（包含涂鸦）、语音消息、文本消息、视频（包含视频聊天、离线视频），虽然形式众多，但是仍然有一定局限性，无法充分满足用户的需求：

文字是使用最广泛的聊天方式，但其表现形式单一，很难表达出用户当时真实的感受与心情，从而导致聊天中误解的情况频频发生。语音消息、文本消息与文字的聊天方式一样，也有表现形式单一的缺点。图片和表情的使用可以丰富用户情感的表达，然而在使用图片或表情的过程中，用户经常要在大量的图片或表情中搜索合适自己当前状态的图片或表情，操作起来较为不便。视频聊天可以将聊天双方的影像进行真实呈现，但是视频数据的传输需要占用较多的带宽，需要较长的发送相应时间，也需要较多的流量费用，在网络状态不好或带宽较窄的情况下，视频效果并不理想。

综上所述，目前需要一种聊天方式，以解决现有的即时聊天方式表现形式单调、操作不便以及流量大的问题。

发明内容

本发明的目的是提供一种即时通讯方法及系统、通讯信息处理方法、终端，以解决现有的即时聊天方式表现形式单调、操作不便以及流量大的问题。

本发明提出一种即时通讯方法，包括：

第一终端接收用户录入的声音，并进行变音处理；

第一终端将经过变音处理的声音发送给第二终端；

第二终端将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据；

第二终端播放所述模拟形象数据。

本发明还提出一种通讯信息处理方法，包括：

接收通讯对象发送来的经过变音处理的声音；

将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据；

播放所述模拟形象数据。

本发明还提出一种即时通讯系统，包括通过网络相互连接的至少两个终端，每个终端包括：

存储模块，用于存放多个动画；

录音模块，用于接收用户录入的声音；

变音模块，用于对用户录入的声音进行变音处理；

通讯模块，用于将所述经过变音处理的声音发送给其它终端，或者接收其它终端发送来的经过变音处理的声音；

合成模块，用于将其它终端发送来的经过变音处理的声音与所述存储模块中存放的动画进行合成，形成模拟形象数据；

播放模块，用于播放所述模拟形象数据。

本发明还提出一种终端，包括：

存储模块，用于存放多个动画；

录音模块，用于接收用户录入的声音；

变音模块，用于对用户录入的声音进行变音处理；

播放模块，用于播放所述模拟形象数据。

相对于现有技术，本发明的有益效果是：

（1）、本发明提出一种全新的沟通介质，采用一种既有表情动画，又包含个性化声音的全新通讯方式，并且通过一些智能化处理以模拟形象的形式展现出来，可以生动且准确地反应出用户通讯的状态及心情。

（2）、本发明通过用户录入的声音和选择的形象，自动匹配并形成模拟形象数据，用户操作非常简单。

（3）、本发明可以在网络中只传输经过变音处理的声音，然后根据接收到的声音与本地的动画进行相应的匹配，这样大大节约了网络传输的流量，也缩短了发送响应时间，提高了通讯效率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1为本发明实施例提供的一种即时通讯方法的流程图；

图2为本发明实施例提供的一种形成模拟形象数据的过程示意图；

图3为本发明实施例提供的另一种即时通讯方法的流程图；

图4为本发明实施例提供的一种通讯信息处理方法的流程图；

图5为本发明实施例提供的另一种通讯信息处理方法的流程图；

图6为本发明实施例提供的一种即时通讯系统的结构图；

图7为本发明实施例提供的一种终端的结构图；

图8为本发明实施例提供的另一种终端的结构图。

具体实施方式

为更进一步阐述本发明达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的即时通讯方法及系统、通讯信息处理方法、终端其具体实施方式、方法、步骤及功效，详细说明如后。

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

本发明提出一种全新的沟通介质，采用一种既有表情动画，又包含声音的全新通讯方式，并且通过一些智能化处理以模拟形象的形式展现出来。请参见图1，其为本发明实施例提供的一种即时通讯方法的流程图，其包括以下步骤：

S101，第一终端接收用户录入的声音，并进行变音处理。

声音可以是通过麦克风由用户实时录入，或者也可以预先录制好后直接传输给第一终端的。当用户录入声音之后，可以使用音频处理库（Soundtouch）对声音进行处理。Soundtouch主要实现包含变速、变调、变速同时变调等三个功能，能够对媒体流实时操作，也能对音频文件操作。在本发明中，可以通过对Soundtouch的rate、tempo、pitch三个参数进行调节，从而变化用户的声音，模拟出一些特殊的声音。例如将参数pitch调节成0.8即可模拟出较为低沉缓慢的牛和熊的声音，如果将参数调节成1.2，即可模拟出较为高亢的鸡的声音。通过变音处理后的声音会更加个性与生动，用户可以根据当前心情或状态模拟出适合的声音，这样使得通讯过程不会显得呆板而更加丰富。

S102，第一终端将经过变音处理的声音发送给第二终端。

本发明是将声音与动画相结合的通讯方式，但是如果由第一终端直接向第二终端发送完整的动画动作和声音过去浪费流量，也需要较长的发送响应时间，因此本实施例只需要发送经过变音处理的声音给对方，对方根据接收到的声音与本地的动画进行相应的匹配，在本地形成完整的动画动作+声音的模拟形象。这种技术逻辑解决了发送完整的动画+声音会需要更长时间且更费流量的问题。

S103，第二终端将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据。

第二终端所预存的动画可以是多个，而与声音合成的动画可以是随机选择的，也可以是由用户选定的。合成的声音和动画要具有一致性，这样才能形象地刻画用户当前的心情，因此可以以声音的音量或音调来作为基准，匹配合适的动画。例如当用户的声音较大，音调较高的时候，可以会选择动作较为夸张的动画；当用户的声音较小，音调较低沉的时候，可以选择与之风格一致的动画，尽可能的模仿在交流沟通中的真实场景。

在具体实现时，可以先定义一个匹配规则：假设其中一个动画可以分成N个动作图片，且每个动作图片的动作风格不同，如果以音量来选择相应的动画，则可以设定一个音量上限Volmax，同时将音量从0到Volmax之间分成与动作图片数量相等，编号为1到N的N段，然后将N个动作图片分别对应到不同的音量上，动作幅度越小的动作图片对应的音量越小。

为经过变音处理的声音匹配合适的动作图片时，可以将经过变音处理的声音划分成多个时间段，并采样每个时间段的音量的平均值。而这个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近，这样就能找出与这个音量的平均值对应的动作图片。找出所有时间段的音量平均值所对应的动作图片之后，就可以将这些动作图片组合成连续的动画，而这个动画的动作风格就可以与经过变音处理的声音的音量相符合，最后将经过变音处理的声音与动画结合起来，形成模拟形象数据，这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。如图2所示，其为上述形成模拟形象数据的过程示意图，其中n为对经过变音处理的声音划分的时间段的数量。

S104，第二终端播放所述模拟形象数据。

播放模拟形象数据的过程即同时播放经变音处理的声音以及相应的动画，与现有通讯方式不同的是，本发明形象生动地呈现出了通讯用户真实的状态。但是每个人的声音语速快慢，音调高低各有不同，因此在播放模拟形象数据时，要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步，身体动作的快慢也要跟语速的快慢同步匹配。

具体实现时，可以在播放经过变音处理的声音的同时，对每个时间段的音量或音调的平均值进行采样，然后根据每个时间段采样到的音量或音调的平均值，同步显示对应的动作图片，这样就可以实现动作与声音的匹配。

此外，在播放模拟形象数据的开始和结束阶段，都可以加入有一些固定的动画动作，这些动作与用户的声音无关，为固定存在增加趣味性的动画动作。

请参见图3，其为本发明实施例提供的另一种即时通讯方法的流程图，其包括以下步骤：

S301，第一终端接收用户录入的声音，并进行变音处理。

S302，第一终端接收用户选择的形象角色标识。

S303，第一终端将经过变音处理的声音以及形象角色标识发送给第二终端。

S304，第二终端将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成，形成模拟形象数据。

S305，第二终端播放所述模拟形象数据。

第二实施例与第一实施例的不同在于，用户可以通过形象角色标识来选择其希望展现给对方的动画形象，其中每个形象角色标识均对应预存的一种形象的动画，这样也使得通讯内容更加丰富。

实施例一和实施例二的通讯方法是由第一终端向第二终端发送通讯信息，并由第二终端进行播放，旨在说明通讯信息的构成以及通讯的方式，而传输方式并不仅限于此，即也可以由第二终端向第一终端发送通讯信息，并由第一终端进行播放。

本发明还提出一种通讯信息处理方法，其是一种对由动画效果和声音效果相结合的通讯信息的处理方法，请参见图4，其包括以下步骤：

S401，接收通讯对象发送来的经过变音处理的声音。

这里所述的通讯对象可以是用户终端或通讯平台。其中，经过变音处理的声音可以是通过麦克风由用户实时录入的，也可以是预先录制好的。而声音可以是使用音频处理库（Soundtouch）进行处理的，通过对Soundtouch的rate、tempo、pitch三个参数进行调节，可以变化用户的声音，模拟出一些特殊的声音。例如将参数pitch调节成0.8即可模拟出较为低沉缓慢的牛和熊的声音，如果将参数调节成1.2，即可模拟出较为高亢的鸡的声音。通过变音处理后的声音会更加个性与生动，用户可以根据当前心情或状态模拟出适合的声音，这样使得通讯过程不会显得呆板而更加丰富。

本发明是将声音与动画相结合的通讯方式，但是如果由通讯对象直接发送来完整的动画动作和声音会浪费较多流量，也需要较长的发送响应时间，因此本实施例只需要接收经过变音处理的声音，然后根据接收到的声音与本地的动画进行相应的匹配，在本地形成完整的动画动作+声音的模拟形象。这种技术逻辑解决了发送完整的动画+声音会需要更长时间且更费流量的问题。

S402，将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据。

这里所述预存的动画可以是多个，而与声音合成的动画可以是从中随机选择的，也可以是由用户选定的。合成的声音和动画要具有一致性，这样才能形象地刻画用户当前的心情，因此可以以声音的音量或音调来作为基准，匹配合适的动画，以尽可能地模仿在交流沟通中的真实场景。

为经过变音处理的声音匹配合适的动作图片时，可以将经过变音处理的声音划分成多个时间段，并采样每个时间段的音量的平均值。而这个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近，这样就能找出与这个音量的平均值对应的动作图片。找出所有时间段的音量平均值所对应的动作图片之后，就可以将这些动作图片组合成连续的动画，而这个动画的动作风格就可以与经过变音处理的声音的音量相符合，最后将经过变音处理的声音与动画结合起来，形成模拟形象数据，这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。

S403，播放所述模拟形象数据。

播放模拟形象数据的过程即同时播放经变音处理的声音以及相应的动画，与现有通讯方式不同的是，本发明形象生动地呈现出了用户真实的状态。但是每个人的声音语速快慢，音调高低各有不同，因此在播放模拟形象数据时，要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步，身体动作的快慢也要跟语速的快慢同步匹配。

请参见图5，其为本发明实施例提供的另一种通讯信息处理方法的流程图，其包括以下步骤：

S501，接收通讯对象发送来的经过变音处理的声音。

S502，接收通讯对象发送来的形象角色标识。

S503，将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成，形成模拟形象数据。

S504，播放所述模拟形象数据。

第四实施例与第三实施例的不同在于，可以通过通讯对象发送来的形象角色标识来选择其希望展现的动画形象，其中每个形象角色标识均对应预存的一种形象的动画，这样也使得通讯内容更加丰富。

本发明还提出一种即时通讯系统，请参见图6，其包括通过网络相互连接的至少两个终端60，终端60之间可以通过动画与声效相结合的模拟形象方式进行通讯。

请参见图7，其为本发明实施例的一种终端的结构图，其包括存储模块61、录音模块62、变音模块63、通讯模块64、合成模块65以及播放模块66，变音模块63与录音模块62相连，通信模块64分别与变音模块63及合成模块65相连，存储模块61与播放模块66均与合成模块65相连。

终端60之间进行通讯时（现以两个终端60之间的一次通讯信息的传送进行说明），用户首先通过录音模块62进行声音的录制，录音模块62可以是麦克风。当然，用户也可以事先录制好声音（如常用的一些聊天语句），并存储在本地的数据库中，这样就可以直接选用已录制好的声音，从而可以提高通讯效率。

声音录制完毕后，通过变音模块63进行变音处理。优选采用音频处理库（Soundtouch）作变音处理。Soundtouch主要实现包含变速、变调、变速同时变调等三个功能，能够对媒体流实时操作，也能对音频文件操作。可以通过对Soundtouch的rate、tempo、pitch三个参数进行调节，从而变化用户的声音，模拟出一些特殊的声音。例如将参数pitch调节成0.8即可模拟出较为低沉缓慢的牛和熊的声音，如果将参数调节成1.2，即可模拟出较为高亢的鸡的声音。用户可以根据当前心情或状态模拟出适合的声音，从而使其变得更加个性与生动。

变音完成后，便可以通过通信模块64发送给另一个终端60。另一个终端60的通信模块64收到该经过变音处理的声音后，传送给合成模块65进行处理。合成模块65会将该经过变音处理的声音与存储模块61中存放的动画进行合成，形成模拟形象数据。声音与动画的合成要一致，可以以声音的音量或音调来作为基准，匹配合适的动画。例如当用户的声音较大，音调较高的时候，可以选择动作较为夸张的动画；当用户的声音较小，音调较低沉的时候，可以选择与之风格一致的动画，尽可能的模仿在交流沟通中的真实场景。

合成完毕后，模拟形象数据会被传送到播放模块66进行播放。播放模拟形象数据的过程即同时播放经变音处理的声音以及相应的动画，至此，一次通讯数据的传输完成。与现有通讯方式不同的是，本发明形象生动地呈现出了用户真实的状态。

值得注意的是，由于动画的数据量较大，网络传输动画所需的流量也较大，也需要较长的发送响应时间，所以本实施例是由一个终端录制声音后，将经变音处理的声音传输给另一个终端，并由另一个终端完成声音与动画的合成。这种优选的数据传输方式也解决了发送完整的动画+声音会需要更长时间且更费流量的问题。但并不以此限制本发明，如果在网络带宽充裕的情况下，也可以由一个终端完成声音和动画的合成，然后将模拟形象数据传送到另一终端直接进行播放。这种形式下，由于声音的录制和声音+动画的合成是在同一个终端，可以更容易地对声音与动画进行搭配，甚至可以以动态动画（Gif动态图片）为基础配以合适的声音，合成形式较为丰富。

请参见图8，其为本发明实施例的一种较为详尽的终端的结构图。与图7相比，本实施例的终端60增加了交互模块67，其分别与通讯模块64及存储模块61相连，用于接收用户选择的形象角色标识，所述的形象角色标识与存储模块61中存放的至少一个动画相对应。存储模块61存储的动画形象可以是多种多样的，因此在一个终端上，用户可以通过交互模块67输入的形象角色标识来选择希望展现给对方的动画形象，然后通过通讯模块64将形象角色标识与经过变音处理的声音一同发送给另一终端，然后由另一终端根据该形象角色标识找出其存储模块61中对应的动画，然后由合成模块65将声音与动画进行合成，形成模拟形象数据。

本实施例中的合成模块65包括选取单元651、分隔单元652、第一采样单元653、匹配单元654及组合单元655，选取单元651分别与通讯模块64及存储模块61相连，分隔单元652与通讯模块64相连，第一采样单元653与分隔单元652相连，匹配单元654分别与第一采样单元653及选取单元651连接，组合单元655分别与匹配单元654及播放模块66相连。

本实施例的合成模块65通过声音的音量或音调来作为基准，匹配合适的动画。为了达到声音和动画的一致性，可以先定义一个匹配规则：假设其中一个动画可以分成N个动作图片，且每个动作图片的动作风格不同，如果以音量来选择相应的动画，则可以设定一个音量上限Volmax，同时将音量从0到Volmax之间分成与动作图片数量相等，编号为1到N的N段，然后将N个动作图片分别对应到不同的音量上，动作幅度越小的动作图片对应的音量越小。

实际操作时，先由选取单元651根据通讯模块64接收到的形象角色标识从存储模块61中选取对应的图片组（即由N个图片组成的与形象角色标识对应动画）。同时，分隔单元652将通讯模块64接收到的经过变音处理的声音划分成多个时间段，并由第一采样单元653采样每个时间段的音量的平均值，而这个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近。然后匹配单元654会根据每个时间段的音量或音调的平均值获取选取单元651选出的图片组中每个时间段所对应的动作图片。找出所有时间段的音量平均值所对应的动作图片之后，就可以通过组合单元655将这些动作图片组合成连续的动画，而这个动画的动作风格就可以与经过变音处理的声音的音量相符合，最后组合单元655将经过变音处理的声音与动画结合起来，形成模拟形象数据，这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。

由于每个人的声音语速快慢，音调高低各有不同，因此在播放模拟形象数据时，要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步，身体动作的快慢也要跟语速的快慢同步匹配。为此，本实施例的播放模块66进一步包括声音播放单元661、第二采样单元662、图片提取单元663及显示单元664，声音播放单元661与组合单元655相连，第二采样单元662与声音播放单元661相连，图片提取单元663分别与组合单元655及第二采样单元662相连，显示单元664与图片提取单元663相连。

播放时，由声音播放单元661播放经过变音处理的声音，并在播放的同时，通过第二采样单元662对每个时间段的音量或音调的平均值进行采样。然后图片提取单元663根据第二采样单元662采样到的每个时间段的音量或音调的平均值，提取相应的动作图片，并通过显示单元664同步显示，这样就可以实现动画动作与声音的一致匹配。

本发明还提出一种终端，该终端与图7及图8的实施例中所述的终端结构、功能及工作原理相同，在此不再赘述。

本发明提出一种全新的沟通介质，采用一种既有表情动画，又包含个性化声音的全新通讯方式，并且通过一些智能化处理以模拟形象的形式展现出来，可以生动且准确地反应出用户的状态及心情。

本发明通过用户录入的声音和选择的形象，自动匹配并形成模拟形象数据，用户操作非常简单。

本发明可以在网络中只传输经过变音处理的声音，然后根据接收到的声音与本地的动画进行相应的匹配，这样大大节约了网络传输的流量，也缩短了发送响应时间，提高了通讯效率。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种即时通讯方法，其特征在于，包括：

第一终端接收用户录入的声音，并进行变音处理；

第一终端将经过变音处理的声音发送给第二终端；

第二终端播放所述模拟形象数据。

2.如权利要求1所述的即时通讯方法，其特征在于，所述第一终端接收用户录入的声音，并进行变音处理的步骤包括：

利用音频处理库对用户录入的声音进行变音处理。

3.如权利要求1所述的即时通讯方法，其特征在于，

所述第一终端将经过变音处理的声音发送给第二终端的步骤之前还包括：第一终端接收用户选择的形象角色标识；

所述第一终端将经过变音处理的声音发送给第二终端的步骤包括：第一终端将经过变音处理的声音以及形象角色标识发送给第二终端；

所述第二终端将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据的步骤包括：第二终端将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成，形成模拟形象数据。

4.如权利要求3所述的即时通讯方法，其特征在于，所述第二终端将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成，形成模拟形象数据的步骤包括：

根据形象角色标识选取预存的图片组；

将所述经过变音处理的声音划分成多个时间段，并采样每个时间段的音量或音调的平均值；

根据每个时间段的音量或音调的平均值获取所述图片组中每个时间段所对应的动作图片；

将动作图片组合成连续的所述动画，并结合所述声音形成所述模拟形象数据。

5.如权利要求4所述的即时通讯方法，其特征在于，所述第二终端播放所述模拟形象数据的步骤包括：

播放所述经过变音处理的声音，并同时对每个时间段的音量或音调的平均值进行采样；

根据每个时间段采样到的音量或音调的平均值，同步显示对应的动作图片。

6.一种通讯信息处理方法，其特征在于，包括：

接收通讯对象发送来的经过变音处理的声音；

播放所述模拟形象数据。

7.如权利要求6所述的通讯信息处理方法，其特征在于，所述接收到的声音是利用音频处理库进行变音处理的。

8.如权利要求6所述的通讯信息处理方法，其特征在于，

所述将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据的步骤之前包括：接收通讯对象发送来的形象角色标识；

所述将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据的步骤包括：将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成，形成模拟形象数据。

9.如权利要求8所述的通讯信息处理方法，其特征在于，所述将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成，形成模拟形象数据的步骤包括：

根据形象角色标识选取预存的图片组；

10.如权利要求9所述的通讯信息处理方法，其特征在于，所述播放所述模拟形象数据的步骤包括：

11.一种即时通讯系统，包括通过网络相互连接的至少两个终端，其特征在于，每个终端包括：

存储模块，用于存放多个动画；

录音模块，用于接收用户录入的声音；

变音模块，用于对用户录入的声音进行变音处理；

播放模块，用于播放所述模拟形象数据。

12.如权利要求11所述的即时通讯系统，其特征在于，所述变音模块利用音频处理库对用户录入的声音进行变音处理。

13.如权利要求11所述的即时通讯系统，其特征在于，每个终端还包括：

交互模块，用于接收用户选择的形象角色标识，所述形象角色标识与所述存储模块中存放的至少一个动画相对应；

所述通讯模块在与其它终端进行通信时，将所述形象角色标识与所述经过变音处理的声音一同发送给其它终端，或者接收其它终端发送来的形象角色标识与经过变音处理的声音；

所述合成模块形成所述模拟形象数据时，将其它终端发送来的经过变音处理的声音与所述存储模块中存放的并与其它终端发送来的形象角色标识所对应的动画进行合成，并形成所述模拟形象数据。

14.如权利要求13所述的即时通讯系统，其特征在于，所述合成模块又包括：

选取单元，用于根据其它终端发送来的形象角色标识从所述存储模块中选取对应的图片组；

分隔单元，用于将其它终端发送来的经过变音处理的声音划分成多个时间段；

第一采样单元，用于采样每个时间段的音量或音调的平均值；

匹配单元，用于根据每个时间段的音量或音调的平均值获取所述图片组中每个时间段所对应的动作图片；

组合单元，用于将动作图片组合成连续的所述动画，并结合所述声音形成所述模拟形象数据。

15.如权利要求14所述的即时通讯系统，其特征在于，所述显示模块又包括：

声音播放单元，用于播放其它终端发送来的所述经过变音处理的声音；

第二采样单元，用于在所述声音播放单元进行播放的同时，对每个时间段的音量或音调的平均值进行采样；

图片提取单元，用于根据每个时间段采样到的音量或音调的平均值，同步提取相应的动作图片；

显示单元，用于同步显示所述图片提取单元提取到的动作图片。

16.一种终端，其特征在于，包括：

存储模块，用于存放多个动画；

录音模块，用于接收用户录入的声音；

变音模块，用于对用户录入的声音进行变音处理；

播放模块，用于播放所述模拟形象数据。

17.如权利要求16所述的终端，其特征在于，所述变音模块利用音频处理库对用户录入的声音进行变音处理。

18.如权利要求16所述的终端，其特征在于，还包括：

19.如权利要求18所述的终端，其特征在于，所述合成模块又包括：

20.如权利要求19所述的终端，其特征在于，所述显示模块又包括：