CN106531149A

CN106531149A - 信息处理方法及装置

Info

Publication number: CN106531149A
Application number: CN201611115332.XA
Authority: CN
Inventors: 查文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2017-03-22
Anticipated expiration: 2036-12-07
Also published as: CN106531149B

Abstract

本发明公开了一种信息处理方法及装置，属于互联网信息处理领域。该方法包括：接收语音聊天信息；识别该语音聊天信息中的关键信息，并获取与该关键信息对应的附加多媒体信息；然后将该附加多媒体信息与该语音聊天信息合成得到合成信息，该合成信息用于在该语音聊天信息所对应的语音聊天客户端的至少一端播放。相比于相关技术中只能对语音聊天信息进行变声或者变调处理，本发明提供的方法通过在语音聊天信息中合成附加多媒体信息，丰富了对语音聊天信息的处理方式，提高了对语音聊天信息进行处理时的灵活性。

Description

信息处理方法及装置

技术领域

本发明涉及互联网信息处理领域，特别涉及一种信息处理方法及装置。

背景技术

随着移动互联网技术的快速发展，即时通讯(英文：Instant Messenger；简称：IM)类客户端的功能也越来越丰富，用户通过IM客户端聊天时，可以互相发送文字、图片和语音等多种类型的信息。

目前，为了增加语音聊天的趣味性，IM客户端还提供有语音聊天信息处理的功能。该IM客户端可以根据用户的选择，对用户输入的语音聊天信息进行变声、变调或者变速处理，然后再将处理后的语音聊天信息通过语音聊天服务器发送至接收方客户端。

但是，目前IM客户端对语音聊天信息的处理方法仅包括变声、变调或者变速，处理方法较为单一。

发明内容

为了解决相关技术中对语音聊天信息处理方式单一的问题，本发明提供了一种信息处理方法及装置。所述技术方案如下：

一方面，提供了一种信息处理方法，所述方法包括：

接收语音聊天信息；

识别所述语音聊天信息中的关键信息；

获取与所述关键信息对应的附加多媒体信息；

将所述附加多媒体信息与所述语音聊天信息合成得到合成信息，所述合成信息用于在所述语音聊天信息所对应的语音聊天客户端的至少一端播放。

另一方面，提供了一种信息处理装置，所述装置包括：

接收模块，用于接收语音聊天信息；

识别模块，用于识别所述语音聊天信息中的关键信息；

获取模块，用于获取与所述关键信息对应的附加多媒体信息；

合成模块，用于将所述附加多媒体信息与所述语音聊天信息合成得到合成信息，所述合成信息用于在所述语音聊天信息所对应的语音聊天客户端的至少一端播放。

本发明提供的技术方案带来的有益效果是：

本发明提供了一种信息处理方法及装置，通过该方法可以自动获取与语音聊天信息中的关键信息相对应的附加多媒体信息，并能够将该附加多媒体信息与语音聊天信息进行合成，得到合成信息。相比于相关技术中只能对语音聊天信息进行变声或者变调处理，本发明实施例提供的方法通过在语音聊天信息中合成附加多媒体信息，丰富了对语音聊天信息的处理方式，提高了对语音聊天信息进行处理时的灵活性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种信息处理方法所涉及的实施环境的示意图；

图2是本发明实施例提供的一种信息处理方法的流程图；

图3-1是本发明实施例提供的另一种信息处理方法的流程图；

图3-2是本发明实施例提供的一种发送方客户端中聊天界面的示意图；

图3-3是本发明实施例提供的另一种发送方客户端中聊天界面的示意图；

图3-4是本发明实施例提供的一种语音聊天信息和音频信息的音轨示意图；

图3-5是本发明实施例提供的另一种语音聊天信息和音频信息的音轨示意图；

图3-6是本发明实施例提供的又一种发送方客户端中聊天界面的示意图；

图4-1是本发明实施例提供的一种信息处理装置的结构示意图；

图4-2是本发明实施例提供的一种合成模块的结构示意图；

图5是本发明实施例提供的一种语音聊天服务器的结构示意图；

图6是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1，其示出了本发明实施例提供的信息处理方法所涉及的实施环境的示意图。参考图1，该实施环境可以包括语音聊天客户端和语音聊天服务器00。其中，该语音聊天客户端至少包括发送方客户端01和接收方客户端02。该语音聊天客户端可以为IM客户端。且该语音聊天客户端可以安装在具有网络连接功能的终端中，比如智能手机、电脑、多媒体播放器、电子阅读器或者可穿戴式设备等。该语音聊天服务器00可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。该语音聊天客户端和语音聊天服务器00之间可以通过无线网络或有线网络建立连接，使得该语音聊天客户端中的发送方客户端01可以通过语音聊天服务器00向一个或多个接收方客户端02发送语音聊天信息。

图2是本发明实施例提供的一种信息处理方法的流程图，该方法可以用于信息处理装置中，参考图2，该方法可以包括：

步骤101、接收语音聊天信息。

当该信息处理装置配置于发送方客户端01时，该发送方客户端可以通过麦克风接收用户录入的语音聊天信息；当该信息处理装置配置于语音聊天服务器00时，该语音聊天服务器00可以接收该发送方客户端01发送的语音聊天信息。

步骤102、识别该语音聊天信息中的关键信息。

在本发明实施例中，该信息处理装置可以先将该语音聊天信息转换为文本信息，然后再从该文本信息中识别出关键信息。

步骤103、获取与该关键信息对应的附加多媒体信息。

其中，该附加多媒体信息可以包括音频信息和图片信息中的至少一种；或者，该附加多媒体信息还可以为用于指示多媒体信息的标签，该多媒体信息包括音频信息和图片信息中的至少一种。

步骤104、将该附加多媒体信息与该语音聊天信息合成得到合成信息，该合成信息用于在该语音聊天信息所对应的语音聊天客户端的至少一端播放。

具体的，该合成信息可以在该语音聊天信息的发送方客户端或者接收方客户端进行播放。

综上所述，本发明实施例提供了一种信息处理方法，通过该方法可以自动获取与语音聊天信息中的关键信息相对应的附加多媒体信息，并能够将该附加多媒体信息与语音聊天信息进行合成，得到合成信息。相比于相关技术中只能对语音聊天信息进行变声或者变调处理，本发明实施例提供的方法通过在自动在语音聊天信息中合成附加多媒体信息，丰富了对语音聊天信息的处理方式，提高了对语音聊天信息进行处理时的灵活性。

图3-1是本发明实施例提供的另一种信息处理方法的流程图，该方法可以应用于如图1所示的实施环境中。本实施例以该信息处理装置配置于图1中的语音聊天服务器00来举例说明，参考图3-1，该信息处理方法可以包括：

步骤201、发送方客户端接收用户录入的语音聊天信息。

本发明实施例中的语音聊天客户端提供有语音聊天的功能，该发送方客户端的聊天界面上可以显示有语音输入图标，当发送方客户端检测到用户点击该语音输入图标时，即可通过麦克风采集用户录入的语音信息。

示例的，图3-2是本发明实施例提供的一种发送方客户端中聊天界面的示意图。参考图3-2，在该聊天界面011上显示有语音输入图标012，该语音输入图标012上显示有提示信息“按住说话”，当用户按住该语音输入图标012并说“你刚才讲得非常好”时，发送方客户端即可通过麦克风接收到用户录入的语音聊天信息：“你刚才讲得非常好”。

步骤202、发送方客户端接收用户触发的语音处理指令。

在本发明实施例中，在用户录入语音聊天信息之前，或者在完成语音聊天信息的录入之后，发送方客户端还可以提示用户是否需要对语音聊天信息进行处理。具体的，发送方客户端可以通过语音、文字或者图标等方式进行提醒。若用户希望对语音聊天信息进行处理，则可以通过预设操作，例如触控操作，触发该语音处理指令。

示例的，如图3-3所示，在用户录入语音聊天信息之后，该发送方客户端的聊天界面011上还可以显示有提示图标013，该提示图标013可以提示用户对录入的语音聊天信息添加特效，当用户点击该提示图标013时，该发送方客户端即可接收到语音处理指令。或者，在用户点击如图3-2所示的语音输入图标012之后，该发送方客户端在接收用户录入的语音聊天信息之前，即可显示该提示图标013，当用户点击并按住该提示图标013时，发送方客户端可以接收到语音处理指令，并开始接收用户录入的语音聊天信息。

步骤203、发送方客户端向语音聊天服务器发送该语音聊天信息。

进一步的，发送方客户端可以通过有线或者无线网络将用户录入的语音聊天信息发送至语音聊天服务器，例如可以将语音聊天信息“你刚才讲得非常好”发送至语音聊天服务器。

步骤204、发送方客户端向语音聊天服务器发送语音处理指令。

若发送方客户端接收到了用户触发的语音处理指令，则还可以将该语音处理指令转发至语音聊天服务器。具体的，该发送方客户端可以在向语音聊天服务器发送的语音聊天信息中携带该语音处理指令。

步骤205、语音聊天服务器将该语音聊天信息转化为文本信息。

语音聊天服务器接收到发送方客户端发送的该语音聊天信息后，若该语音聊天信息中还携带有语音聊天指令，则该语音聊天服务器可以根据该语音聊天指令，对该语音聊天信息进行处理。首先，该语音聊天服务器可以通过预设的语音识别算法，将该语音聊天信息转化为文本信息。根据该语音聊天信息中语种类型的不同，其所转化为的文本信息的语种类型也不同。例如，若该语音聊天信息是中文语音信息，则语音聊天服务器转化后的文本信息也是中文形式的文本信息；若该语音聊天信息是英文语音信息，则转化后的文本信息也是英文形式的文本信息。示例的，该语音聊天服务器将接收到的语音聊天信息转化成的文本信息可以为：你刚才讲得非常好。

步骤206、语音聊天服务器将该文本信息中属于预设关键词库中的关键词确定为关键信息。

在本发明实施例中，该语音聊天服务器中存储有预设关键词库，该预设关键词库中存储有用于表示情绪、天气或者节日等多种类型的关键词。语音聊天服务器将语音聊天信息转化成文本信息后，可以对该文本信息进行分词处理，以将该文本信息拆分成若干个独立的词语。具体的，对于中文形式的文本信息，可以采用基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法对该文本信息进行分词处理；而对于英文等拉丁语系的文本信息，则可以直接根据该文本信息中的空格符进行分词处理。本发明实施例对该语音聊天服务器所采用的分词方法不作具体限定。

进一步的，该语音聊天服务器可以检测该文本信息中的每个词语是否记录在该预设关键词库中，并将该文本信息中属于预设关键词库中的关键词确定为关键信息。

示例的，假设该预设关键词库如表1所示，该预设关键词库中包括“非常好”、“恭喜”、“下雨”、“生日”和“新年”等多种类型的关键词。若该语音聊天服务器对文本信息：你刚才讲得非常好，进行分词后得到的词语包括：“你”、“刚才”、“讲得”和“非常好”共四个词语，则该语音聊天服务器可以将该四个词语分别与表1所示的预设关键词库中的关键词进行对比。由于该文本信息中的词语“非常好”记录在该预设关键词库中，因此该语音聊天服务器可以将该关键词“非常好”确定为语音聊天信息“你刚才讲得非常好”中的关键信息。

表1

情绪	非常好、恭喜、高兴、快乐、悲伤、愤怒
		天气	下雨、晴天、太阳、下雪
节日	生日、新年、中秋、圣诞节

步骤207、语音聊天服务器从预先存储的关键信息与附加多媒体信息的对应关系中，获取与该语音聊天信息中的关键信息所对应的附加多媒体信息。

本发明实施例提供的语音聊天服务器中还可以存储有关键信息与附加多媒体信息的对应关系，该对应关系中记录有预设关键词库中每个关键词所对应的至少一个附加多媒体信息。由于该语音聊天信息中的关键信息可以为关键词，因此该语音聊天服务器可以从该对应关系中，获取与该关键信息包括的关键词所对应的附加多媒体信息。该附加多媒体信息可以包括音频信息和图片信息中的至少一种；和/或，该附加多媒体信息还可以为用于指示多媒体信息的标签，该多媒体信息包括音频信息和图片信息中的至少一种。

该音频信息可以包括音乐、音效或者人声等。其中音乐是指具有旋律和节奏的声音，例如歌曲和伴奏等；音效是指用于烘托气氛，增加场面真实感的一种模拟特殊场景的声音，例如鼓掌声、脚步声或者风声等；人声是指由人声带的振动而发出的声音，例如人物独白或者对话等。

该图片信息可以包括静态图片、动态图片或者表情图标等。该用于指示多媒体信息的标签可以为能够唯一标识该多媒体信息的字符串，例如可以为该多媒体信息的统一资源定位符(英文：Uniform Resource Locator；简称：URL)或者该多媒体信息的编号或者代码等。

示例的，该语音聊天服务器中预先存储的关键信息与附加多媒体信息的对应关系可以如表2所示。其中，关键词“非常好”对应的附加多媒体信息为鼓掌声的音频信息，关键词“恭喜”、“高兴”和“快乐”对应的附加多媒体信息为欢呼声的音频信息，关键词“生日”对应的附加多媒体信息为用于指示蛋糕表情图标的代码：/:cake，而关键词“新年”对应的附加多媒体信息为用于指示歌曲《新年好》的URL。对于语音聊天信息“你刚才讲得非常好”中的关键信息“非常好”，该语音聊天服务器根据表2所示的对应关系，获取到的附加多媒体信息可以为鼓掌声的音频信息。

表2

关键词	附加多媒体信息
		非常好	鼓掌声
恭喜、高兴、快乐	欢呼声
		生日	/:cake
下雨	雨声
		新年	http://music.cn/music&key＝新年好
...	...

步骤208、语音聊天服务器将该附加多媒体信息与该语音聊天信息合成得到合成信息。

语音聊天服务器获取到附加多媒体信息之后，可以根据预设的合成算法，将该附加多媒体信息与该语音聊天信息进行合成得到合成信息。该合成信息用于在该语音聊天信息所对应的语音聊天客户端的至少一端播放。也即是，该语音聊天服务器可以将该合成信息发送至接收方客户端进行播放，也可以将该合成信息发送至发送方客户端进行播放，以便发送方客户端的用户进行试听。

具体的，根据该附加多媒体信息类型的不同，语音聊天服务器将该附加多媒体信息与该语音聊天信息进行合成时采用的合成算法也有所不同。

一方面，当该附加多媒体信息为音频信息时，该语音聊天服务器可以将该音频信息与该语音聊天信息进行混音处理。也即是，将该语音聊天信息的音轨与该音频信息的音轨整合至一个音轨中，得到一个音轨的合成信息。进一步的，为了改善合成的效果，该语音聊天服务器还可以从该语音聊天信息中确定出与关键信息对应的待处理语音片段，然后将该音频信息与该待处理语音片段进行混音处理，从而有效烘托出该语音聊天信息的氛围，改善对该语音聊天信息的处理效果。

示例的，假设如图3-4所示，该语音聊天信息“你刚才讲得非常好”的音轨为021，音频信息：鼓掌声的音轨为022，语音聊天服务器对该语音聊天信息转换成的文本信息进行分词后，可以确定每个词语所对应的语音片段。例如表3所示，其中词语“刚才”对应的语音片段为该语音聊天信息中00:02秒至00:03秒的语音片段，词语“非常好”对应的语音片段为该语音聊天信息中00:04秒至00:06秒的语音片段21a。

进一步的，由于该语音聊天信息中的关键信息为词语“非常好”，因此该语音聊天服务器可以将词语“非常好”对应的语音片段21a确定为待处理语音片段，然后将音频信息：鼓掌声与该待处理语音片段21a进行混音处理，得到合成信息。在具体处理时，可以使得该音轨022在00:00秒至00:04秒中不包含音频信息，而只在00:04秒之后包含该鼓掌声的音频信息，从而可以将该鼓掌声的音频信息与该语音片段21a进行合成。该合成信息在播放至“非常好”时，还会伴随有鼓掌声的音效，能够有效烘托出语音聊天的氛围。因此，本发明实施例提供的信息处理方法对语音聊天信息的处理效果较好。

表3

词语	语音片段
		你	00:00-00:01
刚才	00:02-00:03
		讲得	00:03-00:04
非常好	00:04-00:06

需要说明的是，若该语音聊天服务器根据该关键信息所获取到的附加多媒体信息中包括多个音频信息，则该语音聊天服务器可以将该多个音频信息的音轨与该语音聊天信息的音轨进行合成，得到一轨合成信息。

示例的，假设该语音聊天信息为“下雨了，好高兴”，则根据表1所示的预设关键词库可知，该语音聊天信息中的关键信息可以为“下雨”和“高兴”。根据表2所示的对应关系可知，根据该关键信息所获取到的附加多媒体信息可以为：雨声的音频信息和欢呼声的音频信息。参考图3-5，该语音聊天服务器可以从该语音聊天信息的音轨023中，确定出与关键信息“下雨”对应的待处理语音片段23a，以及与关键信息“高兴”对应的待处理语音片段23b。之后，该语音聊天服务器可以将雨声的音频信息024与该待处理语音片段23a进行混音处理，并将欢呼声的音频信息025与该待处理语音片段23b进行混音处理，最终得到合成信息。由于该合成信息中混缩了音频信息，当该音频信息的时长较长时，最终得到的合成信息的时长也可能比该原语音聊天信息的时长更长。

另一方面，当该附加多媒体信息为图片信息和/或用于指示多媒体信息的标签时，该语音聊天服务器可以按照预设的消息格式，将该附加多媒体信息与该语音聊天信息进行封装，得到合成信息。其中，该预设的消息格式可以为语音聊天服务器与语音聊天客户端之间预先约定并统一配置的消息格式。

为了进一步改善语音聊天客户端播放该合成信息时的播放效果，该语音聊天服务器还可以从该语音聊天信息中，确定出与关键信息对应的语音片段的播放时刻(例如起始播放时刻)。然后，根据该播放时刻生成播放指令，该播放指令用于指示在该播放时刻播放该附加多媒体信息。具体的，当该附加多媒体信息中包括图片信息时，该播放指令用于指示在该播放时刻播放该图片信息，当该附加多媒体信息包括标签时，该播放指令用于指示在播放时刻播放该标签指示的多媒体信息。之后，该语音聊天服务器可以按照预设的消息格式，将该播放指令、该附加多媒体信息和该语音聊天信息进行封装，得到合成信息。语音聊天客户端接收到该合成信息后，可以按照该预设的消息格式，对该合成信息进行解封装，从而获取到该合成信息中的语音聊天信息、附加多媒体信息和播放指令。

在本发明实施例中，当该附加多媒体信息包括图片信息时，该预设的消息格式可以为：[音频信息]+[图片信息]+[播放指令]；当该附加多媒体信息包括标签时，该预设的消息格式可以为：[音频信息]+[标签]+[播放指令]；当该附加多媒体信息同时包括图片信息和标签时，该预设的消息格式可以为：[音频信息]+[图片信息]+[标签]+[播放指令]。

示例的，假设该语音聊天信息为“小李，生日快乐”，则根据表1所示的关键词库可知，该语音聊天信息中的关键信息可以包括词语“生日”和“快乐”。根据表2所示的对应关系可知，该关键信息“生日”对应的附加多媒体信息为用于指示蛋糕表情图标的标签：/:cake，该关键信息“快乐”对应的附加多媒体信息为音频信息：欢呼声。则该语音聊天服务器可以先将该音频信息：欢呼声与该语音聊天信息进行混音处理。然后确定出该关键信息“生日”对应的语音片段的播放时刻为00:01秒，此时语音聊天服务器根据该播放时刻生成的播放指令可以用于指示在该语音聊天信息播放至00:01秒时，播放该标签：/:cake指示的蛋糕表情图标。之后，该语音聊天服务器可以按照预设的消息格式：[音频信息]+[标签]+[播放指令]，将该混音处理后的音频信息、该标签：/:cake和该播放指令进行封装，得到合成信息。

或者，若该关键信息“生日”对应的附加多媒体信息为蛋糕图片，则该语音聊天服务器可以按照预设的消息格式：[音频信息]+[图片信息]+[播放指令]，将混音处理后的音频信息、蛋糕图片和播放指令进行封装，得到合成信息。

需要说明的是，若该语音聊天信息的关键信息中，存在多个关键词所对应的附加多媒体信息为图片信息或者标签，则该语音聊天服务器可以根据每个关键词所对应的语音片段的播放时刻，生成多个播放指令，并能够将该多个播放指令均封装至合成信息中。

比如，若某个语音聊天信息的关键信息中，有n个关键词对应的附加多媒体信息为图片信息，有m个关键词对应的附加多媒体信息为标签，则该语音聊天服务器一共可以生成k(k＝m+n)个播放指令。此时，该语音聊天服务器对该语音聊天信息、附加多媒体信号和播放指令进行封装时采用的消息格式可以为：[音频信息]+[图片信息1]+...+[图片信息n]+[标签1]+...+[标签m]+[播放指令1]+...[播放指令i]+...+[播放指令k]。其中，第i个播放指令用于指示在第i个关键词所对应的语音片段的播放时刻，播放该第i个关键词所对应的附加多媒体信息所指示的信息。之后，该语音聊天服务器即可将该音频信息、n个图片信息、m个标签和k个播放指令按照消息格式：[音频信息]+[图片信息1]+...+[图片信息n]+[标签1]+...+[标签m]+[播放指令1]+...[播放指令i]+...+[播放指令k]进行封装，得到合成信息。

示例的，假设该语音聊天信息为“小李，新年好啊，你生日快到了吧”，则根据表1所示的预设关键词库可知，该语音聊天信息中的关键信息可以为“新年”和“生日”。根据表2所示的对应关系可知，该关键信息所对应的附加多媒体信息可以为：用于指示歌曲《新年好》的URL，以及用于指示蛋糕表情图标的代码。因此，该语音聊天服务器可以分别确定关键信息“新年”对应的语音片段的播放时刻为00:01，关键信息“生日”对应的语音片段的播放时刻为00:03。之后该语音聊天服务器可以根据该两个播放时刻生成两个播放指令，其中第一个播放指令用于指示在该语音聊天信息播放至00:01秒时，同步播放该URL指示的歌曲《新年好》，第二个播放指令用于指示在该语音聊天信息播放至00:03秒时，播放该标签：/:cake指示的蛋糕表情图标。之后，该语音聊天服务器即可将该语音聊天信息、URL、/:cake和两个播放指令按照消息格式：[音频信息]+[标签1]+[标签2]+[播放指令1]+[播放指令2]进行封装，得到合成信息。

还需要说明的是，在实际应用中，该播放指令可以以字符串的形式封装在该合成信息中。例如，该第二个播放指令可以为：SetPlayTimer(ONE_SHOT，00:03,play[/:cake])。

步骤209、语音聊天服务器将该合成信息发送至接收方客户端。

语音聊天服务器将该附加媒体信息与该语音聊天信息进行合成得到合成信息后，可以通过有线或者无线网络将该合成信息发送至接收方客户端。

步骤210、接收方客户端播放该合成信息。

接收方客户端接收到该合成信息后，可以在语音聊天界面中显示播放图标。当接收到用户根据预设操作(例如点击该播放图标)触发的语音播放指令时，该接收方客户端即可播放该合成信息。

一方面，若该合成信息为合成的音频信息，则该接收方客户端可以直接通过音频播放器播放该音频信息。示例的，若该合成信息为合成有鼓掌声的语音聊天信息“你刚才讲的非常好”，则接收方客户端根据语音播放指令播放该合成信息时，当播放至“非常好”时，还附加有鼓掌声的音效，有效烘托了该语音聊天的环境氛围，提升了语音聊天的娱乐性和趣味性。

另一方面，若该合成信息为封装有图片信息和/或标签的信息，则该接收方客户端可以先根据该预设的消息格式，对该合成信息进行解封装，并获取到该合成信息中的语音聊天信息，以及附加的图片信息和/或标签。

当该合成信息中包括图片信息时，该接收方客户端可以在播放语音聊天信息时，显示该图片信息。当该合成信息中包括标签时，该接收方客户端可以先在本地数据库中或者通过互联网获取与该标签对应的多媒体信息，然后在播放语音聊天信息时，同步播放与该标签对应的多媒体信息。具体的，若该标签对应的多媒体信息为图片信息，则该接收方客户端可以在播放语音聊天信息的同时，显示该图片信息；若该标签对应的多媒体信息为音频信息，则该接收方客户端可以同步播放该语音聊天信息和该音频信息。或者，该接收方客户端也可以对该语音聊天信息和该音频信息进行混音处理后再进行播放。

示例的，假设该合成信息是按照预设的消息格式，将混缩有欢呼声的语音聊天信息“小李，生日快乐”和标签：/:cake进行封装后得到的。则该接收方客户端可以按照该预设的消息格式对该合成信息进行解封装，从而获取到该合成信息中的音频信息和标签。如图3-6所示，当该接收方客户端接收到用户触发的语音播放指令时，可以在播放该语音聊天信息014的同时，根据该标签：/:cake从本地数据库中获取到对应的蛋糕表情图标。然后，在聊天界面011中显示该蛋糕表情图标015。例如接收方客户端可以动态显示多个蛋糕表情图标015。

进一步的，若该合成信息中还封装有播放指令，则该接收方客户端还可以根据该播放指令，在指定的播放时刻播放该图片信息和/或该标签指示的多媒体信息。

示例的，假设该合成信息中的播放指令用于指示在该语音聊天信息播放至00:01秒时，播放该标签：/:cake指示的蛋糕表情图标。则接收方客户端可以在该语音聊天信息“小李，生日快乐”播放至00:01秒时，即播放至“生日”二字时，再在该聊天界面011中显示该蛋糕表情图标015。由此，进一步丰富了该语音聊天的场景，有效改善了对语音聊天信息的处理效果。

在本发明实施例另一种可选的实现方式中，该信号处理装置还可以配置于语音聊天客户端中的发送方客户端中。也即是，该发送方客户端可以根据用户触发的语音处理指令，执行上述步骤205至步骤208所示的方法，以对该语音聊天信息进行处理。之后该发送方客户端可以将处理后得到的合成信息通过服务器直接转发至接收方客户端。

需要说明的是，本发明实施例提供的信息处理方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，例如步骤202和步骤201可以同时执行，步骤204和步骤203也可以同步执行，或者步骤202和步骤204还可以根据情况进行删除，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本发明的保护范围之内，因此不再赘述。

综上所述，本发明实施例提供了一种信息处理方法，通过该方法可以自动获取与语音聊天信息中的关键信息相对应的附加多媒体信息，并能够将该附加多媒体信息与语音聊天信息进行合成，得到合成信息。相比于相关技术中只能对语音聊天信息进行变声或者变调处理，本发明实施例提供的方法通过在语音聊天信息中合成附加多媒体信息，丰富了对语音聊天信息的处理方式，提高了对语音聊天信息进行处理时的灵活性。

图4-1是本发明实施例提供的一种信息处理装置的结构示意图，该信息处理装置可以为语音聊天服务器或者语音聊天客户端中的发送方客户端，参考图4-1，该装置可以包括：

接收模块301，用于接收语音聊天信息。

识别模块302，用于识别该语音聊天信息中的关键信息。

获取模块303，用于获取与该关键信息对应的附加多媒体信息。

合成模块304，用于将该附加多媒体信息与该语音聊天信息合成得到合成信息，该合成信息用于在该语音聊天信息所对应的语音聊天客户端的至少一端播放。

综上所述，本发明实施例提供了一种信息处理装置，该信息处理装置可以自动获取与语音聊天信息中的关键信息相对应的附加多媒体信息，并能够将该附加多媒体信息与语音聊天信息进行合成，得到合成信息。相比于相关技术中只能对语音聊天信息进行变声或者变调处理，本发明实施例提供的方法通过在语音聊天信息中合成附加多媒体信息，丰富了对语音聊天信息的处理方式，提高了对语音聊天信息进行处理时的灵活性。

可选的，该识别模块302，用于：

将该语音聊天信息转化为文本信息；将该文本信息中属于预设关键词库中的关键词确定为关键信息。

可选的，该获取模块303，用于：

从预先存储的关键信息与附加多媒体信息的对应关系中，获取与该语音聊天信息中的关键信息所对应的附加多媒体信息。

可选的，该附加多媒体信息包括音频信息和图片信息中的至少一种；

和/或，该附加多媒体信息包括用于指示多媒体信息的标签，该多媒体信息包括音频信息和图片信息中的至少一种；其中，该音频信息包括音乐、音效或者人声。

可选的，该附加多媒体信息包括音频信息，参考图4-2，该合成模块304，包括：

第一合成子模块3041，用于将该音频信息与该语音聊天信息进行混音处理，得到合成信息。

可选的，该第一合成子模块3041，具体用于：

从该语音聊天信息中确定待处理语音片段，该待处理语音片段为与该关键信息对应的片段；

将该音频信息与该语音聊天信息中的待处理语音片段进行混音处理。

可选的，该附加多媒体信息包括图片信息和/或用于指示多媒体信息的标签，参考图4-2，该合成模块304，可以包括：

第二合成子模块3042，用于按照预设的消息格式，将该附加多媒体信息与所述语音聊天信息进行封装，得到合成信息。

进一步的，参考图4-2，该合成模块304，还可以包括：

确定子模块3043，用于确定所述关键信息所对应的语音片段在所述语音聊天信息中的播放时刻。

生成子模块3044，用于根据所述播放时刻生成播放指令，当该附加多媒体信息包括图片信息时，该播放指令用于指示在该播放时刻播放该图片信息，当该附加多媒体信息包括标签时，该播放指令用于指示在该播放时刻播放该标签指示的多媒体信息。

该第二合成子模块3042，用于：

按照预设的消息格式，将所述播放指令、所述附加多媒体信息和所述语音聊天信息进行封装，得到合成信息。

可选的，该识别模块302，具体用于：

接收语音处理指令，该语音处理指令是由用户触发的；

根据该语音处理指令，识别该语音聊天信息中的关键信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。此外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

图5示出了本发明一个实施例提供的语音聊天服务器的结构示意图。该语音聊天服务器可以包括中央处理单元(CPU)401、包括随机存取存储器(RAM)402和只读存储器(ROM)403的系统存储器404，以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)406，和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。

基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。

根据本发明的各种实施例，服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行上述实施例中的信息处理方法。

图6是本发明实施例提供的一种终端的结构示意图。上述实施例中的语音聊天客户端可以安装在该终端中。参见图6，终端500可以包括通信单元510、包括有一个或一个以上计算机可读存储介质的存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线通信单元570、包括有一个或者一个以上处理核心的处理器580、以及电源590等部件。本领域技术人员可以理解，图6中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

通信单元510可用于收发信息或通话过程中，信号的接收和发送，该通信单元510可以为RF(Radio Frequency，射频)电路、路由器、调制解调器、等网络通信设备。特别地，当通信单元510为RF电路时，将基站的下行信息接收后，交由一个或者一个以上处理器580处理；另外，将涉及上行的数据发送给基站。通常，作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，通信单元510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System ofMobile communication，全球移动通讯系统)、GPRS(GeneralPacket Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access，宽带码分多址)、LTE(LongTerm Evolution，长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端500的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器520还可以包括存储器控制器，以提供处理器580和输入单元530对存储器520的访问。

输入单元530可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地，输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531，输入单元530还可以包括其他输入设备532。优选地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及终端500的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板541。进一步的，触敏表面531可覆盖显示面板541，当触敏表面531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图6中，触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面531与显示面板541集成而实现输入和输出功能。

终端500还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在终端500移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与终端500之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经通信单元510以发送给比如另一终端，或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔，以提供外设耳机与终端500的通信。

为了实现无线通信，该终端上可以配置有无线通信单元570，该无线通信单元570可以为WIFI模块。WIFI属于短距离无线传输技术，终端500通过无线通信单元570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图中示出了无线通信单元570，但是可以理解的是，其并不属于终端500的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是终端500的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行终端500的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理核心；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

终端500还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源560还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端500还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，终端还包括有一个或者一个以上的程序，这一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，所述一个或者一个以上程序包含用于执行本发明实施例提供的上述信息处理方法的指令。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

接收语音聊天信息；

识别所述语音聊天信息中的关键信息；

获取与所述关键信息对应的附加多媒体信息；

2.根据权利要求1所述的方法，其特征在于，所述识别所述语音聊天信息中的关键信息，包括：

将所述语音聊天信息转化为文本信息；

将所述文本信息中属于预设关键词库中的关键词确定为关键信息。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述关键信息对应的附加多媒体信息，包括：

从预先存储的关键信息与附加多媒体信息的对应关系中，获取与所述语音聊天信息中的关键信息所对应的附加多媒体信息。

4.根据权利要求1至3任一所述的方法，其特征在于，

所述附加多媒体信息包括音频信息和图片信息中的至少一种；

和/或，所述附加多媒体信息包括用于指示多媒体信息的标签，所述多媒体信息包括音频信息和图片信息中的至少一种；

其中，所述音频信息包括音乐、音效或者人声。

5.根据权利要求4所述的方法，其特征在于，所述附加多媒体信息包括音频信息，所述将所述附加多媒体信息与所述语音聊天信息合成得到合成信息，包括：

将所述音频信息与所述语音聊天信息进行混音处理，得到合成信息。

6.根据权利要求5所述的方法，其特征在于，所述将所述音频信息与所述语音聊天信息进行混音处理，包括：

从所述语音聊天信息中确定待处理语音片段，所述待处理语音片段为与所述关键信息对应的片段；

将所述音频信息与所述语音聊天信息中的待处理语音片段进行混音处理。

7.根据权利要求4所述的方法，其特征在于，所述附加多媒体信息包括图片信息和/或用于指示多媒体信息的标签，所述将所述附加多媒体信息与所述语音聊天信息合成得到合成信息，包括：

按照预设的消息格式，将所述附加多媒体信息与所述语音聊天信息进行封装，得到合成信息。

8.根据权利要求7所述的方法，其特征在于，在将所述附加多媒体信息与所述语音聊天信息进行封装之前，所述方法还包括：

确定所述关键信息所对应的语音片段在所述语音聊天信息中的播放时刻；

根据所述播放时刻生成播放指令，所述播放指令用于指示在所述播放时刻播放所述附加多媒体信息；

所述按照预设的消息格式，将所述附加多媒体信息与所述语音聊天信息进行封装，得到合成信息，包括：

9.根据权利要求1至3任一所述的方法，其特征在于，所述识别所述语音聊天信息中的关键信息，包括：

接收语音处理指令，所述语音处理指令是由用户触发的；

根据所述语音处理指令，识别所述语音聊天信息中的关键信息。

10.一种信息处理装置，其特征在于，所述装置包括：

接收模块，用于接收语音聊天信息；

识别模块，用于识别所述语音聊天信息中的关键信息；

11.根据权利要求10所述的装置，其特征在于，所述识别模块，用于：

将所述语音聊天信息转化为文本信息；

12.根据权利要求10所述的装置，其特征在于，所述获取模块，用于：

13.根据权利要求10至12任一所述的装置，其特征在于，

其中，所述音频信息包括音乐、音效或者人声。

14.根据权利要求13所述的装置，其特征在于，所述附加多媒体信息包括音频信息，所述合成模块，包括：

第一合成子模块，用于将所述音频信息与所述语音聊天信息进行混音处理，得到合成信息。

15.根据权利要求14所述的装置，其特征在于，所述第一合成子模块，用于：

16.根据权利要求13所述的装置，其特征在于，所述附加多媒体信息包括图片信息和/或用于指示多媒体信息的标签，所述合成模块，包括：

第二合成子模块，用于按照预设的消息格式，将所述附加多媒体信息与所述语音聊天信息进行封装，得到合成信息。

17.根据权利要求16所述的装置，其特征在于，所述合成模块，还包括：

确定子模块，用于确定所述关键信息所对应的语音片段在所述语音聊天信息中的播放时刻；

生成子模块，用于根据所述播放时刻生成播放指令，当所述附加多媒体信息包括图片信息时，所述播放指令用于指示在所述播放时刻播放所述图片信息，当所述附加多媒体信息包括标签时，所述播放指令用于指示在所述播放时刻播放所述标签指示的多媒体信息；

所述第二合成子模块，用于：

18.根据权利要求10至12任一所述的装置，其特征在于，所述识别模块，用于：

接收语音处理指令，所述语音处理指令是由用户触发的；