CN103856390A - 即时通讯方法及系统、通讯信息处理方法、终端 - Google Patents

即时通讯方法及系统、通讯信息处理方法、终端 Download PDF

Info

Publication number
CN103856390A
CN103856390A CN201210510615.XA CN201210510615A CN103856390A CN 103856390 A CN103856390 A CN 103856390A CN 201210510615 A CN201210510615 A CN 201210510615A CN 103856390 A CN103856390 A CN 103856390A
Authority
CN
China
Prior art keywords
sound
terminal
processing
vivid
changing voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210510615.XA
Other languages
English (en)
Other versions
CN103856390B (zh
Inventor
唐沐
戴永裕
叶波
罗运广
蔡锦彬
宋睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210510615.XA priority Critical patent/CN103856390B/zh
Priority to PCT/CN2013/086132 priority patent/WO2014086216A1/zh
Publication of CN103856390A publication Critical patent/CN103856390A/zh
Priority to US14/731,373 priority patent/US9626984B2/en
Application granted granted Critical
Publication of CN103856390B publication Critical patent/CN103856390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/56Unified messaging, e.g. interactions between e-mail, instant messaging or converged IP messaging [CPM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Processing Or Creating Images (AREA)
  • Telephone Function (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种即时通讯方法及系统、通讯信息处理方法、终端,其即时通讯方法包括:第一终端接收用户录入的声音,并进行变音处理;第一终端将经过变音处理的声音发送给第二终端;第二终端将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据;第二终端播放所述模拟形象数据。本发明具有通讯形式丰富、操作方便以及网络传输效率高的优点。

Description

即时通讯方法及系统、通讯信息处理方法、终端
技术领域
本发明涉及互联网技术领域,特别涉及一种即时通讯方法及系统、通讯信息处理方法、终端。
背景技术
随着科学技术的迅速发展,通信科技的日新月异,移动通信终端已被人们广泛应用于日常生活和学习中,人们通过移动通信终端和网络通话或互发短信息,不但大大拉近了人们彼此之间的距离,还给人们的联系和信息交流带来了极大的便利。
目前,网络聊天的沟通方式包括文字、表情(包括系统表情和自定义表情)、图片(包含涂鸦)、语音消息、文本消息、视频(包含视频聊天、离线视频),虽然形式众多,但是仍然有一定局限性,无法充分满足用户的需求:
文字是使用最广泛的聊天方式,但其表现形式单一,很难表达出用户当时真实的感受与心情,从而导致聊天中误解的情况频频发生。语音消息、文本消息与文字的聊天方式一样,也有表现形式单一的缺点。图片和表情的使用可以丰富用户情感的表达,然而在使用图片或表情的过程中,用户经常要在大量的图片或表情中搜索合适自己当前状态的图片或表情,操作起来较为不便。视频聊天可以将聊天双方的影像进行真实呈现,但是视频数据的传输需要占用较多的带宽,需要较长的发送相应时间,也需要较多的流量费用,在网络状态不好或带宽较窄的情况下,视频效果并不理想。
综上所述,目前需要一种聊天方式,以解决现有的即时聊天方式表现形式单调、操作不便以及流量大的问题。
发明内容
本发明的目的是提供一种即时通讯方法及系统、通讯信息处理方法、终端,以解决现有的即时聊天方式表现形式单调、操作不便以及流量大的问题。
本发明提出一种即时通讯方法,包括:
第一终端接收用户录入的声音,并进行变音处理;
第一终端将经过变音处理的声音发送给第二终端;
第二终端将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据;
第二终端播放所述模拟形象数据。
本发明还提出一种通讯信息处理方法,包括:
接收通讯对象发送来的经过变音处理的声音;
将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据;
播放所述模拟形象数据。
本发明还提出一种即时通讯系统,包括通过网络相互连接的至少两个终端,每个终端包括:
存储模块,用于存放多个动画;
录音模块,用于接收用户录入的声音;
变音模块,用于对用户录入的声音进行变音处理;
通讯模块,用于将所述经过变音处理的声音发送给其它终端,或者接收其它终端发送来的经过变音处理的声音;
合成模块,用于将其它终端发送来的经过变音处理的声音与所述存储模块中存放的动画进行合成,形成模拟形象数据;
播放模块,用于播放所述模拟形象数据。
本发明还提出一种终端,包括:
存储模块,用于存放多个动画;
录音模块,用于接收用户录入的声音;
变音模块,用于对用户录入的声音进行变音处理;
通讯模块,用于将所述经过变音处理的声音发送给其它终端,或者接收其它终端发送来的经过变音处理的声音;
合成模块,用于将其它终端发送来的经过变音处理的声音与所述存储模块中存放的动画进行合成,形成模拟形象数据;
播放模块,用于播放所述模拟形象数据。
相对于现有技术,本发明的有益效果是:
(1)、本发明提出一种全新的沟通介质,采用一种既有表情动画,又包含个性化声音的全新通讯方式,并且通过一些智能化处理以模拟形象的形式展现出来,可以生动且准确地反应出用户通讯的状态及心情。
(2)、本发明通过用户录入的声音和选择的形象,自动匹配并形成模拟形象数据,用户操作非常简单。
(3)、本发明可以在网络中只传输经过变音处理的声音,然后根据接收到的声音与本地的动画进行相应的匹配,这样大大节约了网络传输的流量,也缩短了发送响应时间,提高了通讯效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种即时通讯方法的流程图;
图2为本发明实施例提供的一种形成模拟形象数据的过程示意图;
图3为本发明实施例提供的另一种即时通讯方法的流程图;
图4为本发明实施例提供的一种通讯信息处理方法的流程图;
图5为本发明实施例提供的另一种通讯信息处理方法的流程图;
图6为本发明实施例提供的一种即时通讯系统的结构图;
图7为本发明实施例提供的一种终端的结构图;
图8为本发明实施例提供的另一种终端的结构图。
具体实施方式
为更进一步阐述本发明达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的即时通讯方法及系统、通讯信息处理方法、终端其具体实施方式、方法、步骤及功效,详细说明如后。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
本发明提出一种全新的沟通介质,采用一种既有表情动画,又包含声音的全新通讯方式,并且通过一些智能化处理以模拟形象的形式展现出来。请参见图1,其为本发明实施例提供的一种即时通讯方法的流程图,其包括以下步骤:
S101,第一终端接收用户录入的声音,并进行变音处理。
声音可以是通过麦克风由用户实时录入,或者也可以预先录制好后直接传输给第一终端的。当用户录入声音之后,可以使用音频处理库(Soundtouch)对声音进行处理。Soundtouch主要实现包含变速、变调、变速同时变调等三个功能,能够对媒体流实时操作,也能对音频文件操作。在本发明中,可以通过对Soundtouch的rate、tempo、pitch三个参数进行调节,从而变化用户的声音,模拟出一些特殊的声音。例如将参数pitch调节成0.8即可模拟出较为低沉缓慢的牛和熊的声音,如果将参数调节成1.2,即可模拟出较为高亢的鸡的声音。通过变音处理后的声音会更加个性与生动,用户可以根据当前心情或状态模拟出适合的声音,这样使得通讯过程不会显得呆板而更加丰富。
S102,第一终端将经过变音处理的声音发送给第二终端。
本发明是将声音与动画相结合的通讯方式,但是如果由第一终端直接向第二终端发送完整的动画动作和声音过去浪费流量,也需要较长的发送响应时间,因此本实施例只需要发送经过变音处理的声音给对方,对方根据接收到的声音与本地的动画进行相应的匹配,在本地形成完整的动画动作+声音的模拟形象。这种技术逻辑解决了发送完整的动画+声音会需要更长时间且更费流量的问题。
S103,第二终端将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据。
第二终端所预存的动画可以是多个,而与声音合成的动画可以是随机选择的,也可以是由用户选定的。合成的声音和动画要具有一致性,这样才能形象地刻画用户当前的心情,因此可以以声音的音量或音调来作为基准,匹配合适的动画。例如当用户的声音较大,音调较高的时候,可以会选择动作较为夸张的动画;当用户的声音较小,音调较低沉的时候,可以选择与之风格一致的动画,尽可能的模仿在交流沟通中的真实场景。
在具体实现时,可以先定义一个匹配规则:假设其中一个动画可以分成N个动作图片,且每个动作图片的动作风格不同,如果以音量来选择相应的动画,则可以设定一个音量上限Volmax,同时将音量从0到Volmax之间分成与动作图片数量相等,编号为1到N的N段,然后将N个动作图片分别对应到不同的音量上,动作幅度越小的动作图片对应的音量越小。
为经过变音处理的声音匹配合适的动作图片时,可以将经过变音处理的声音划分成多个时间段,并采样每个时间段的音量的平均值。而这个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近,这样就能找出与这个音量的平均值对应的动作图片。找出所有时间段的音量平均值所对应的动作图片之后,就可以将这些动作图片组合成连续的动画,而这个动画的动作风格就可以与经过变音处理的声音的音量相符合,最后将经过变音处理的声音与动画结合起来,形成模拟形象数据,这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。如图2所示,其为上述形成模拟形象数据的过程示意图,其中n为对经过变音处理的声音划分的时间段的数量。
S104,第二终端播放所述模拟形象数据。
播放模拟形象数据的过程即同时播放经变音处理的声音以及相应的动画,与现有通讯方式不同的是,本发明形象生动地呈现出了通讯用户真实的状态。但是每个人的声音语速快慢,音调高低各有不同,因此在播放模拟形象数据时,要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步,身体动作的快慢也要跟语速的快慢同步匹配。
具体实现时,可以在播放经过变音处理的声音的同时,对每个时间段的音量或音调的平均值进行采样,然后根据每个时间段采样到的音量或音调的平均值,同步显示对应的动作图片,这样就可以实现动作与声音的匹配。
此外,在播放模拟形象数据的开始和结束阶段,都可以加入有一些固定的动画动作,这些动作与用户的声音无关,为固定存在增加趣味性的动画动作。
请参见图3,其为本发明实施例提供的另一种即时通讯方法的流程图,其包括以下步骤:
S301,第一终端接收用户录入的声音,并进行变音处理。
S302,第一终端接收用户选择的形象角色标识。
S303,第一终端将经过变音处理的声音以及形象角色标识发送给第二终端。
S304,第二终端将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成,形成模拟形象数据。
S305,第二终端播放所述模拟形象数据。
第二实施例与第一实施例的不同在于,用户可以通过形象角色标识来选择其希望展现给对方的动画形象,其中每个形象角色标识均对应预存的一种形象的动画,这样也使得通讯内容更加丰富。
实施例一和实施例二的通讯方法是由第一终端向第二终端发送通讯信息,并由第二终端进行播放,旨在说明通讯信息的构成以及通讯的方式,而传输方式并不仅限于此,即也可以由第二终端向第一终端发送通讯信息,并由第一终端进行播放。
本发明还提出一种通讯信息处理方法,其是一种对由动画效果和声音效果相结合的通讯信息的处理方法,请参见图4,其包括以下步骤:
S401,接收通讯对象发送来的经过变音处理的声音。
这里所述的通讯对象可以是用户终端或通讯平台。其中,经过变音处理的声音可以是通过麦克风由用户实时录入的,也可以是预先录制好的。而声音可以是使用音频处理库(Soundtouch)进行处理的,通过对Soundtouch的rate、tempo、pitch三个参数进行调节,可以变化用户的声音,模拟出一些特殊的声音。例如将参数pitch调节成0.8即可模拟出较为低沉缓慢的牛和熊的声音,如果将参数调节成1.2,即可模拟出较为高亢的鸡的声音。通过变音处理后的声音会更加个性与生动,用户可以根据当前心情或状态模拟出适合的声音,这样使得通讯过程不会显得呆板而更加丰富。
本发明是将声音与动画相结合的通讯方式,但是如果由通讯对象直接发送来完整的动画动作和声音会浪费较多流量,也需要较长的发送响应时间,因此本实施例只需要接收经过变音处理的声音,然后根据接收到的声音与本地的动画进行相应的匹配,在本地形成完整的动画动作+声音的模拟形象。这种技术逻辑解决了发送完整的动画+声音会需要更长时间且更费流量的问题。
S402,将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据。
这里所述预存的动画可以是多个,而与声音合成的动画可以是从中随机选择的,也可以是由用户选定的。合成的声音和动画要具有一致性,这样才能形象地刻画用户当前的心情,因此可以以声音的音量或音调来作为基准,匹配合适的动画,以尽可能地模仿在交流沟通中的真实场景。
在具体实现时,可以先定义一个匹配规则:假设其中一个动画可以分成N个动作图片,且每个动作图片的动作风格不同,如果以音量来选择相应的动画,则可以设定一个音量上限Volmax,同时将音量从0到Volmax之间分成与动作图片数量相等,编号为1到N的N段,然后将N个动作图片分别对应到不同的音量上,动作幅度越小的动作图片对应的音量越小。
为经过变音处理的声音匹配合适的动作图片时,可以将经过变音处理的声音划分成多个时间段,并采样每个时间段的音量的平均值。而这个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近,这样就能找出与这个音量的平均值对应的动作图片。找出所有时间段的音量平均值所对应的动作图片之后,就可以将这些动作图片组合成连续的动画,而这个动画的动作风格就可以与经过变音处理的声音的音量相符合,最后将经过变音处理的声音与动画结合起来,形成模拟形象数据,这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。
S403,播放所述模拟形象数据。
播放模拟形象数据的过程即同时播放经变音处理的声音以及相应的动画,与现有通讯方式不同的是,本发明形象生动地呈现出了用户真实的状态。但是每个人的声音语速快慢,音调高低各有不同,因此在播放模拟形象数据时,要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步,身体动作的快慢也要跟语速的快慢同步匹配。
具体实现时,可以在播放经过变音处理的声音的同时,对每个时间段的音量或音调的平均值进行采样,然后根据每个时间段采样到的音量或音调的平均值,同步显示对应的动作图片,这样就可以实现动作与声音的匹配。
此外,在播放模拟形象数据的开始和结束阶段,都可以加入有一些固定的动画动作,这些动作与用户的声音无关,为固定存在增加趣味性的动画动作。
请参见图5,其为本发明实施例提供的另一种通讯信息处理方法的流程图,其包括以下步骤:
S501,接收通讯对象发送来的经过变音处理的声音。
S502,接收通讯对象发送来的形象角色标识。
S503,将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成,形成模拟形象数据。
S504,播放所述模拟形象数据。
第四实施例与第三实施例的不同在于,可以通过通讯对象发送来的形象角色标识来选择其希望展现的动画形象,其中每个形象角色标识均对应预存的一种形象的动画,这样也使得通讯内容更加丰富。
本发明还提出一种即时通讯系统,请参见图6,其包括通过网络相互连接的至少两个终端60,终端60之间可以通过动画与声效相结合的模拟形象方式进行通讯。
请参见图7,其为本发明实施例的一种终端的结构图,其包括存储模块61、录音模块62、变音模块63、通讯模块64、合成模块65以及播放模块66,变音模块63与录音模块62相连,通信模块64分别与变音模块63及合成模块65相连,存储模块61与播放模块66均与合成模块65相连。
终端60之间进行通讯时(现以两个终端60之间的一次通讯信息的传送进行说明),用户首先通过录音模块62进行声音的录制,录音模块62可以是麦克风。当然,用户也可以事先录制好声音(如常用的一些聊天语句),并存储在本地的数据库中,这样就可以直接选用已录制好的声音,从而可以提高通讯效率。
声音录制完毕后,通过变音模块63进行变音处理。优选采用音频处理库(Soundtouch)作变音处理。Soundtouch主要实现包含变速、变调、变速同时变调等三个功能,能够对媒体流实时操作,也能对音频文件操作。可以通过对Soundtouch的rate、tempo、pitch三个参数进行调节,从而变化用户的声音,模拟出一些特殊的声音。例如将参数pitch调节成0.8即可模拟出较为低沉缓慢的牛和熊的声音,如果将参数调节成1.2,即可模拟出较为高亢的鸡的声音。用户可以根据当前心情或状态模拟出适合的声音,从而使其变得更加个性与生动。
变音完成后,便可以通过通信模块64发送给另一个终端60。另一个终端60的通信模块64收到该经过变音处理的声音后,传送给合成模块65进行处理。合成模块65会将该经过变音处理的声音与存储模块61中存放的动画进行合成,形成模拟形象数据。声音与动画的合成要一致,可以以声音的音量或音调来作为基准,匹配合适的动画。例如当用户的声音较大,音调较高的时候,可以选择动作较为夸张的动画;当用户的声音较小,音调较低沉的时候,可以选择与之风格一致的动画,尽可能的模仿在交流沟通中的真实场景。
合成完毕后,模拟形象数据会被传送到播放模块66进行播放。播放模拟形象数据的过程即同时播放经变音处理的声音以及相应的动画,至此,一次通讯数据的传输完成。与现有通讯方式不同的是,本发明形象生动地呈现出了用户真实的状态。
值得注意的是,由于动画的数据量较大,网络传输动画所需的流量也较大,也需要较长的发送响应时间,所以本实施例是由一个终端录制声音后,将经变音处理的声音传输给另一个终端,并由另一个终端完成声音与动画的合成。这种优选的数据传输方式也解决了发送完整的动画+声音会需要更长时间且更费流量的问题。但并不以此限制本发明,如果在网络带宽充裕的情况下,也可以由一个终端完成声音和动画的合成,然后将模拟形象数据传送到另一终端直接进行播放。这种形式下,由于声音的录制和声音+动画的合成是在同一个终端,可以更容易地对声音与动画进行搭配,甚至可以以动态动画(Gif动态图片)为基础配以合适的声音,合成形式较为丰富。
此外,在播放模拟形象数据的开始和结束阶段,都可以加入有一些固定的动画动作,这些动作与用户的声音无关,为固定存在增加趣味性的动画动作。
请参见图8,其为本发明实施例的一种较为详尽的终端的结构图。与图7相比,本实施例的终端60增加了交互模块67,其分别与通讯模块64及存储模块61相连,用于接收用户选择的形象角色标识,所述的形象角色标识与存储模块61中存放的至少一个动画相对应。存储模块61存储的动画形象可以是多种多样的,因此在一个终端上,用户可以通过交互模块67输入的形象角色标识来选择希望展现给对方的动画形象,然后通过通讯模块64将形象角色标识与经过变音处理的声音一同发送给另一终端,然后由另一终端根据该形象角色标识找出其存储模块61中对应的动画,然后由合成模块65将声音与动画进行合成,形成模拟形象数据。
本实施例中的合成模块65包括选取单元651、分隔单元652、第一采样单元653、匹配单元654及组合单元655,选取单元651分别与通讯模块64及存储模块61相连,分隔单元652与通讯模块64相连,第一采样单元653与分隔单元652相连,匹配单元654分别与第一采样单元653及选取单元651连接,组合单元655分别与匹配单元654及播放模块66相连。
本实施例的合成模块65通过声音的音量或音调来作为基准,匹配合适的动画。为了达到声音和动画的一致性,可以先定义一个匹配规则:假设其中一个动画可以分成N个动作图片,且每个动作图片的动作风格不同,如果以音量来选择相应的动画,则可以设定一个音量上限Volmax,同时将音量从0到Volmax之间分成与动作图片数量相等,编号为1到N的N段,然后将N个动作图片分别对应到不同的音量上,动作幅度越小的动作图片对应的音量越小。
实际操作时,先由选取单元651根据通讯模块64接收到的形象角色标识从存储模块61中选取对应的图片组(即由N个图片组成的与形象角色标识对应动画)。同时,分隔单元652将通讯模块64接收到的经过变音处理的声音划分成多个时间段,并由第一采样单元653采样每个时间段的音量的平均值,而这个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近。然后匹配单元654会根据每个时间段的音量或音调的平均值获取选取单元651选出的图片组中每个时间段所对应的动作图片。找出所有时间段的音量平均值所对应的动作图片之后,就可以通过组合单元655将这些动作图片组合成连续的动画,而这个动画的动作风格就可以与经过变音处理的声音的音量相符合,最后组合单元655将经过变音处理的声音与动画结合起来,形成模拟形象数据,这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。
由于每个人的声音语速快慢,音调高低各有不同,因此在播放模拟形象数据时,要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步,身体动作的快慢也要跟语速的快慢同步匹配。为此,本实施例的播放模块66进一步包括声音播放单元661、第二采样单元662、图片提取单元663及显示单元664,声音播放单元661与组合单元655相连,第二采样单元662与声音播放单元661相连,图片提取单元663分别与组合单元655及第二采样单元662相连,显示单元664与图片提取单元663相连。
播放时,由声音播放单元661播放经过变音处理的声音,并在播放的同时,通过第二采样单元662对每个时间段的音量或音调的平均值进行采样。然后图片提取单元663根据第二采样单元662采样到的每个时间段的音量或音调的平均值,提取相应的动作图片,并通过显示单元664同步显示,这样就可以实现动画动作与声音的一致匹配。
本发明还提出一种终端,该终端与图7及图8的实施例中所述的终端结构、功能及工作原理相同,在此不再赘述。
本发明提出一种全新的沟通介质,采用一种既有表情动画,又包含个性化声音的全新通讯方式,并且通过一些智能化处理以模拟形象的形式展现出来,可以生动且准确地反应出用户的状态及心情。
本发明通过用户录入的声音和选择的形象,自动匹配并形成模拟形象数据,用户操作非常简单。
本发明可以在网络中只传输经过变音处理的声音,然后根据接收到的声音与本地的动画进行相应的匹配,这样大大节约了网络传输的流量,也缩短了发送响应时间,提高了通讯效率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (20)

1.一种即时通讯方法,其特征在于,包括:
第一终端接收用户录入的声音,并进行变音处理;
第一终端将经过变音处理的声音发送给第二终端;
第二终端将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据;
第二终端播放所述模拟形象数据。
2.如权利要求1所述的即时通讯方法,其特征在于,所述第一终端接收用户录入的声音,并进行变音处理的步骤包括:
利用音频处理库对用户录入的声音进行变音处理。
3.如权利要求1所述的即时通讯方法,其特征在于,
所述第一终端将经过变音处理的声音发送给第二终端的步骤之前还包括:第一终端接收用户选择的形象角色标识;
所述第一终端将经过变音处理的声音发送给第二终端的步骤包括:第一终端将经过变音处理的声音以及形象角色标识发送给第二终端;
所述第二终端将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据的步骤包括:第二终端将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成,形成模拟形象数据。
4.如权利要求3所述的即时通讯方法,其特征在于,所述第二终端将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成,形成模拟形象数据的步骤包括:
根据形象角色标识选取预存的图片组;
将所述经过变音处理的声音划分成多个时间段,并采样每个时间段的音量或音调的平均值;
根据每个时间段的音量或音调的平均值获取所述图片组中每个时间段所对应的动作图片;
将动作图片组合成连续的所述动画,并结合所述声音形成所述模拟形象数据。
5.如权利要求4所述的即时通讯方法,其特征在于,所述第二终端播放所述模拟形象数据的步骤包括:
播放所述经过变音处理的声音,并同时对每个时间段的音量或音调的平均值进行采样;
根据每个时间段采样到的音量或音调的平均值,同步显示对应的动作图片。
6.一种通讯信息处理方法,其特征在于,包括:
接收通讯对象发送来的经过变音处理的声音;
将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据;
播放所述模拟形象数据。
7.如权利要求6所述的通讯信息处理方法,其特征在于,所述接收到的声音是利用音频处理库进行变音处理的。
8.如权利要求6所述的通讯信息处理方法,其特征在于,
所述将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据的步骤之前包括:接收通讯对象发送来的形象角色标识;
所述将经过变音处理的声音与预存的动画进行合成,形成模拟形象数据的步骤包括:将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成,形成模拟形象数据。
9.如权利要求8所述的通讯信息处理方法,其特征在于,所述将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成,形成模拟形象数据的步骤包括:
根据形象角色标识选取预存的图片组;
将所述经过变音处理的声音划分成多个时间段,并采样每个时间段的音量或音调的平均值;
根据每个时间段的音量或音调的平均值获取所述图片组中每个时间段所对应的动作图片;
将动作图片组合成连续的所述动画,并结合所述声音形成所述模拟形象数据。
10.如权利要求9所述的通讯信息处理方法,其特征在于,所述播放所述模拟形象数据的步骤包括:
播放所述经过变音处理的声音,并同时对每个时间段的音量或音调的平均值进行采样;
根据每个时间段采样到的音量或音调的平均值,同步显示对应的动作图片。
11.一种即时通讯系统,包括通过网络相互连接的至少两个终端,其特征在于,每个终端包括:
存储模块,用于存放多个动画;
录音模块,用于接收用户录入的声音;
变音模块,用于对用户录入的声音进行变音处理;
通讯模块,用于将所述经过变音处理的声音发送给其它终端,或者接收其它终端发送来的经过变音处理的声音;
合成模块,用于将其它终端发送来的经过变音处理的声音与所述存储模块中存放的动画进行合成,形成模拟形象数据;
播放模块,用于播放所述模拟形象数据。
12.如权利要求11所述的即时通讯系统,其特征在于,所述变音模块利用音频处理库对用户录入的声音进行变音处理。
13.如权利要求11所述的即时通讯系统,其特征在于,每个终端还包括:
交互模块,用于接收用户选择的形象角色标识,所述形象角色标识与所述存储模块中存放的至少一个动画相对应;
所述通讯模块在与其它终端进行通信时,将所述形象角色标识与所述经过变音处理的声音一同发送给其它终端,或者接收其它终端发送来的形象角色标识与经过变音处理的声音;
所述合成模块形成所述模拟形象数据时,将其它终端发送来的经过变音处理的声音与所述存储模块中存放的并与其它终端发送来的形象角色标识所对应的动画进行合成,并形成所述模拟形象数据。
14.如权利要求13所述的即时通讯系统,其特征在于,所述合成模块又包括:
选取单元,用于根据其它终端发送来的形象角色标识从所述存储模块中选取对应的图片组;
分隔单元,用于将其它终端发送来的经过变音处理的声音划分成多个时间段;
第一采样单元,用于采样每个时间段的音量或音调的平均值;
匹配单元,用于根据每个时间段的音量或音调的平均值获取所述图片组中每个时间段所对应的动作图片;
组合单元,用于将动作图片组合成连续的所述动画,并结合所述声音形成所述模拟形象数据。
15.如权利要求14所述的即时通讯系统,其特征在于,所述显示模块又包括:
声音播放单元,用于播放其它终端发送来的所述经过变音处理的声音;
第二采样单元,用于在所述声音播放单元进行播放的同时,对每个时间段的音量或音调的平均值进行采样;
图片提取单元,用于根据每个时间段采样到的音量或音调的平均值,同步提取相应的动作图片;
显示单元,用于同步显示所述图片提取单元提取到的动作图片。
16.一种终端,其特征在于,包括:
存储模块,用于存放多个动画;
录音模块,用于接收用户录入的声音;
变音模块,用于对用户录入的声音进行变音处理;
通讯模块,用于将所述经过变音处理的声音发送给其它终端,或者接收其它终端发送来的经过变音处理的声音;
合成模块,用于将其它终端发送来的经过变音处理的声音与所述存储模块中存放的动画进行合成,形成模拟形象数据;
播放模块,用于播放所述模拟形象数据。
17.如权利要求16所述的终端,其特征在于,所述变音模块利用音频处理库对用户录入的声音进行变音处理。
18.如权利要求16所述的终端,其特征在于,还包括:
交互模块,用于接收用户选择的形象角色标识,所述形象角色标识与所述存储模块中存放的至少一个动画相对应;
所述通讯模块在与其它终端进行通信时,将所述形象角色标识与所述经过变音处理的声音一同发送给其它终端,或者接收其它终端发送来的形象角色标识与经过变音处理的声音;
所述合成模块形成所述模拟形象数据时,将其它终端发送来的经过变音处理的声音与所述存储模块中存放的并与其它终端发送来的形象角色标识所对应的动画进行合成,并形成所述模拟形象数据。
19.如权利要求18所述的终端,其特征在于,所述合成模块又包括:
选取单元,用于根据其它终端发送来的形象角色标识从所述存储模块中选取对应的图片组;
分隔单元,用于将其它终端发送来的经过变音处理的声音划分成多个时间段;
第一采样单元,用于采样每个时间段的音量或音调的平均值;
匹配单元,用于根据每个时间段的音量或音调的平均值获取所述图片组中每个时间段所对应的动作图片;
组合单元,用于将动作图片组合成连续的所述动画,并结合所述声音形成所述模拟形象数据。
20.如权利要求19所述的终端,其特征在于,所述显示模块又包括:
声音播放单元,用于播放其它终端发送来的所述经过变音处理的声音;
第二采样单元,用于在所述声音播放单元进行播放的同时,对每个时间段的音量或音调的平均值进行采样;
图片提取单元,用于根据每个时间段采样到的音量或音调的平均值,同步提取相应的动作图片;
显示单元,用于同步显示所述图片提取单元提取到的动作图片。
CN201210510615.XA 2012-12-04 2012-12-04 即时通讯方法及系统、通讯信息处理方法、终端 Active CN103856390B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210510615.XA CN103856390B (zh) 2012-12-04 2012-12-04 即时通讯方法及系统、通讯信息处理方法、终端
PCT/CN2013/086132 WO2014086216A1 (zh) 2012-12-04 2013-10-29 即时通讯方法、系统、通讯信息处理方法、终端及存储介质
US14/731,373 US9626984B2 (en) 2012-12-04 2015-06-04 Instant messaging method and system, communication information processing method, terminal, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210510615.XA CN103856390B (zh) 2012-12-04 2012-12-04 即时通讯方法及系统、通讯信息处理方法、终端

Publications (2)

Publication Number Publication Date
CN103856390A true CN103856390A (zh) 2014-06-11
CN103856390B CN103856390B (zh) 2017-05-17

Family

ID=50863626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210510615.XA Active CN103856390B (zh) 2012-12-04 2012-12-04 即时通讯方法及系统、通讯信息处理方法、终端

Country Status (3)

Country Link
US (1) US9626984B2 (zh)
CN (1) CN103856390B (zh)
WO (1) WO2014086216A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104703043A (zh) * 2015-03-26 2015-06-10 努比亚技术有限公司 一种添加视频特效的方法和装置
CN104866116A (zh) * 2015-03-25 2015-08-26 百度在线网络技术(北京)有限公司 一种用于输出表情信息的方法和装置
CN105357171A (zh) * 2014-08-21 2016-02-24 中兴通讯股份有限公司 通话的方法及终端
CN105448300A (zh) * 2015-11-12 2016-03-30 小米科技有限责任公司 用于通话的方法及装置
CN105872838A (zh) * 2016-04-28 2016-08-17 徐文波 即时视频的媒体特效发送方法和装置
CN106228451A (zh) * 2016-05-15 2016-12-14 盛禾东林(厦门)文创科技有限公司 一种漫画聊天系统
CN106789576A (zh) * 2016-12-23 2017-05-31 上海青声网络科技有限公司 一种图像生成方法及装置
CN110134305A (zh) * 2019-04-02 2019-08-16 北京搜狗科技发展有限公司 一种语速调节方法、装置和用于语速调节的装置
CN112562639A (zh) * 2020-11-30 2021-03-26 努比亚技术有限公司 音频处理方法、终端及计算机可读存储介质
CN112995530A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 视频的生成方法、装置及设备
WO2022089224A1 (zh) * 2020-10-26 2022-05-05 腾讯科技(深圳)有限公司 一种视频通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN114731454A (zh) * 2021-01-21 2022-07-08 海信视像科技股份有限公司 接收装置
WO2022156245A1 (zh) * 2021-01-21 2022-07-28 海信视像科技股份有限公司 接收装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300047B (zh) * 2018-03-23 2021-10-08 腾讯科技(深圳)有限公司 一种动画播放方法、装置及存储介质
US11349609B2 (en) * 2018-11-05 2022-05-31 Qualcomm Incorporated Hybrid automatic repeat request acknowledgement feedback enhancement for new radio-unlicensed
CN112235180A (zh) * 2020-08-29 2021-01-15 上海量明科技发展有限公司 语音消息处理方法、设备及即时通信客户端

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069214B2 (en) * 2001-02-26 2006-06-27 Matsushita Electric Industrial Co., Ltd. Factorization for generating a library of mouth shapes
US8108509B2 (en) * 2001-04-30 2012-01-31 Sony Computer Entertainment America Llc Altering network transmitted content data based upon user specified characteristics
JP2003181136A (ja) * 2001-12-14 2003-07-02 Sega Corp 音声制御方法
US20030163315A1 (en) * 2002-02-25 2003-08-28 Koninklijke Philips Electronics N.V. Method and system for generating caricaturized talking heads
CN100386760C (zh) * 2005-09-20 2008-05-07 文化传信科技(澳门)有限公司 动画生成系统以及方法
JP4928465B2 (ja) * 2005-12-02 2012-05-09 旭化成株式会社 声質変換システム
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
CN101465816A (zh) * 2007-12-19 2009-06-24 腾讯科技(深圳)有限公司 即时通讯动态效果显示方法及显示系统
JP2009237747A (ja) * 2008-03-26 2009-10-15 Denso Corp データポリモーフィング方法及びデータポリモーフィング装置
US20100215289A1 (en) * 2009-02-24 2010-08-26 Neurofocus, Inc. Personalized media morphing
CN102270352B (zh) * 2010-06-02 2016-12-07 腾讯科技(深圳)有限公司 动画播放的方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357171A (zh) * 2014-08-21 2016-02-24 中兴通讯股份有限公司 通话的方法及终端
CN104866116A (zh) * 2015-03-25 2015-08-26 百度在线网络技术(北京)有限公司 一种用于输出表情信息的方法和装置
CN104703043A (zh) * 2015-03-26 2015-06-10 努比亚技术有限公司 一种添加视频特效的方法和装置
CN105448300A (zh) * 2015-11-12 2016-03-30 小米科技有限责任公司 用于通话的方法及装置
CN105872838A (zh) * 2016-04-28 2016-08-17 徐文波 即时视频的媒体特效发送方法和装置
CN106228451A (zh) * 2016-05-15 2016-12-14 盛禾东林(厦门)文创科技有限公司 一种漫画聊天系统
CN106789576A (zh) * 2016-12-23 2017-05-31 上海青声网络科技有限公司 一种图像生成方法及装置
CN110134305A (zh) * 2019-04-02 2019-08-16 北京搜狗科技发展有限公司 一种语速调节方法、装置和用于语速调节的装置
CN112995530A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 视频的生成方法、装置及设备
WO2022089224A1 (zh) * 2020-10-26 2022-05-05 腾讯科技(深圳)有限公司 一种视频通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN112562639A (zh) * 2020-11-30 2021-03-26 努比亚技术有限公司 音频处理方法、终端及计算机可读存储介质
CN112562639B (zh) * 2020-11-30 2023-09-19 努比亚技术有限公司 音频处理方法、终端及计算机可读存储介质
CN114731454A (zh) * 2021-01-21 2022-07-08 海信视像科技股份有限公司 接收装置
WO2022156245A1 (zh) * 2021-01-21 2022-07-28 海信视像科技股份有限公司 接收装置

Also Published As

Publication number Publication date
US9626984B2 (en) 2017-04-18
WO2014086216A1 (zh) 2014-06-12
US20150269928A1 (en) 2015-09-24
CN103856390B (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN103856390A (zh) 即时通讯方法及系统、通讯信息处理方法、终端
CN104780093B (zh) 即时通讯过程中的表情信息处理方法及装置
CN107438183A (zh) 一种虚拟人物直播方法、装置及系统
CN110400251A (zh) 视频处理方法、装置、终端设备及存储介质
CN105450944A (zh) 一种幻灯片和现场讲演语音同步录制与重现的方法及装置
CN104882151B (zh) 在歌曲演唱中展示多媒体资源的方法、装置及系统
CN108462892B (zh) 图像和音频同步播放的处理方法及设备
WO2023011221A1 (zh) 混合变形值的输出方法及存储介质、电子装置
CN108449632B (zh) 一种演唱视频实时合成的方法及终端
CN113570686A (zh) 虚拟视频直播处理方法及装置、存储介质、电子设备
CN101860447A (zh) 媒体呈现方法及系统、服务器和终端
CN102447839A (zh) 一种基于Quartz Composer的视频制作方法及装置
Behrendt Mobile sound: media art in hybrid spaces
CN103796181A (zh) 一种发送消息的播放方法、系统及相关设备
US20140205261A1 (en) Interactive audio/video system and method
WO2022078167A1 (zh) 互动视频的创建方法、装置、设备及可读存储介质
CN112087669A (zh) 赠送虚拟礼物的方法、装置及电子设备
CN106571145A (zh) 一种语音模仿方法和装置
Harrison The visual album as a hybrid art-form: A case study of traditional, personal, and allusive narratives in Beyoncé
CN109859327A (zh) 一种结合虚拟与现实的动画场景构建方法及装置
CN114979682A (zh) 多主播虚拟直播方法以及装置
CN110012059A (zh) 电子红包实现方法以及装置
CN110166351A (zh) 一种基于即时通讯的交互方法、装置和电子设备
CN107135407B (zh) 一种钢琴视频教学中的同步方法及系统
CN105472299B (zh) 视频互动方法、系统和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210922

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right