CN106375182B

CN106375182B - 基于即时通信应用的语音通信方法及装置

Info

Publication number: CN106375182B
Application number: CN201610702554.5A
Authority: CN
Inventors: 赵娜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2019-08-27
Anticipated expiration: 2036-08-22
Also published as: CN106375182A

Abstract

本发明公开了一种基于即时通信应用的语音通信方法及装置，属于通信技术领域。所述方法包括：在基于即时通信应用进行通信的过程中，当在通信消息显示界面中接收到语音选择指令时，在所述通信消息显示界面的历史通信记录中选择至少一条第一语音消息，所述历史通信记录为在当前时间之前通过所述通信消息显示界面与至少一个联系人进行通信的记录，调用录制功能，通过所述录制功能录制第二语音消息，基于所述至少一条第一语音消息和所述第二语音消息，生成第三语音消息，所述第三语音消息是将所述至少一条第一语音消息与所述第二语音消息进行合成得到，将所述第三语音消息发送给所述至少一个联系人。本发明能够提高语音通信的效率。

Description

基于即时通信应用的语音通信方法及装置

技术领域

本发明涉及通信技术领域，特别涉及一种基于即时通信应用的语音通信方法及装置。

背景技术

随着通信技术的发展，即时通信应用越来越广泛，用户可以通过即时通信应用与其他用户之间互相发送语音消息以进行语音通信，在进行语音通信的过程中，不同的语音消息可能对应不同的话题，该用户可能需要在其中某一条语音消息的基础上继续讨论某一话题，比如，该用户与多个联系人在同一个群组中，通过互相发送语音消息讨论去哪儿旅游的话题，联系人A发出一条语音消息提议去景点1，联系人B发出一条语音消息提议去景点2，此时，该用户可以在联系人A提议的基础上继续讨论关于景点1的话题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种基于即时通信应用的语音通信方法及装置。所述技术方案如下：

一方面，提供了一种基于即时通信应用的语音通信方法，所述方法包括：

在基于即时通信应用进行通信的过程中，当在通信消息显示界面中接收到语音选择指令时，在所述通信消息显示界面的历史通信记录中选择至少一条第一语音消息，所述历史通信记录为在当前时间之前通过所述通信消息显示界面与至少一个联系人进行通信的记录；

调用录制功能，通过所述录制功能录制第二语音消息；

基于所述至少一条第一语音消息和所述第二语音消息，生成第三语音消息，所述第三语音消息是将所述至少一条第一语音消息与所述第二语音消息进行合成得到；

将所述第三语音消息发送给所述至少一个联系人。

另一方面，提供了一种基于即时通信应用的语音通信方法装置，所述装置包括：

选择模块，用于在基于即时通信应用进行通信的过程中，当在通信消息显示界面中接收到语音选择指令时，在所述通信消息显示界面的历史通信记录中选择至少一条第一语音消息，所述历史通信记录为在当前时间之前通过所述通信消息显示界面与至少一个联系人进行通信的记录；

调用模块，用于调用录制功能，通过所述录制功能录制第二语音消息；

生成模块，用于基于所述至少一条第一语音消息和所述第二语音消息，生成第三语音消息，所述第三语音消息是将所述至少一条第一语音消息与所述第二语音消息进行合成得到；

发送模块，用于将所述第三语音消息发送给所述至少一个联系人。

本发明实施例提供的技术方案带来的有益效果是：在本发明实施例中，当该终端在基于即时通信应用进行通信的过程中，在通信消息显示界面中接收到语音选择指令时，能够在该通信消息显示界面的历史通信记录中选择至少一条第一语音消息，并调用录制功能，录制第二语音消息，然后将基于至少一条第一语音消息和第二语音消息，生成第三语音消息，由于该至少一条第一语音消息为该历史通信记录中，通过该通信消息显示界面与至少一个联系人进行通信所记录的语音消息，而第三语音消息是将该至少一条第一语音消息与第二语音消息进行合成得到的语音消息，因此，第三语音消息能够将录制的第二语音消息和历史通信记录中的第一语音消息结合起来，当将第三语音消息发送给该至少一个联系人时，该至少一个联系人不需要从该历史通信记录中查找与第二语音消息所对应的话题相符的第一语音消息，就能够快速准确地基于该至少一条第一语音消息，理解第二语音消息所表达的意义，大幅提高了语音通信的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供一种基于即时通信应用的语音通信方法流程图；

图2A是本发明实施例提供的另一种基于即时通信应用的语音通信方法流程图；

图2B是本发明实施例提供的一种即时通信应用的显示界面示意图；

图2C是本发明实施例提供的另一种即时通信应用的显示界面示意图；

图3是本发明实施例提供的一种基于即时通信应用的语音通信装置框图；

图4是本发明实施例提供的一种基于即时通信应用的语音通信装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细的解释说明之前，先对本发明实施例的应用场景予以介绍。用户可以通过即时通信应用与至少一个联系人建立通信连接，进而与该至少一个联系人之间互相发送语音消息，以进行语音通信。其中，当该用户与一个联系人建立通信连接时，该用户可以与该联系人进行一对一的语音通信，当该用户与一个以上的联系人建立通信连接时，该用户与该一个以上的联系人在同一群组中，该群组中任何一个用户发送的语音消息能够被同一群组中的其他用户接收。在该用户与该至少一个联系人进行语音通信的过程中，该用户与该至少一个联系人之间可能会讨论多个话题，比如，旅游、工作、生活等话题，所以，该用户和该至少一个联系人中每个联系人发送的语音消息可能对应于不同的话题，而该用户可能对其中某一话题感兴趣，希望在其中某一条语音消息的基础上继续讨论该话题，因此，本发明实施例提供了一种基于即时通信应用的语音通信方法。

图1为本发明实施例提供的一种基于即时通信应用的语音通信方法的流程图，参照图1，该方法包括：

步骤101：在基于即时通信应用进行通信的过程中，当在通信消息显示界面中接收到语音选择指令时，在该通信消息显示界面的历史通信记录中选择至少一条第一语音消息，该历史通信记录为在当前时间之前通过该通信消息显示界面与至少一个联系人进行通信的记录。

步骤102：调用录制功能，通过该录制功能录制第二语音消息。

步骤103：基于该至少一条第一语音消息和该第二语音消息，生成第三语音消息，该第三语音消息是将该至少一条第一语音消息与该第二语音消息进行合成得到。

步骤104：将该第三语音消息发送给该至少一个联系人。

在本发明实施例中，第三语音消息能够将录制的第二语音消息和历史通信记录中的第一语音消息结合起来，当将第三语音消息发送给该至少一个联系人时，该至少一个联系人不需要从该历史通信记录中查找与第二语音消息所对应的话题相符的第一语音消息，就能够快速准确地基于该至少一条第一语音消息，理解第二语音消息所表达的意义，大幅提高了语音通信的效率。

可选地，基于该至少一条第一语音消息和该第二语音消息，生成第三语音消息，包括：

将该至少一条第一语音消息和该第二语音消息进行合成得到该第三语音消息。

可选地，该第三语音消息在本地合成或通过服务器合成得到。

其中，所述至少一条第一语音消息中每条第一语音消息包括第一元数据和第一数据流，所述第二语音消息包括第二元数据和第二数据流。因此，将该至少一条第一语音消息和该第二语音消息进行本地合成得到该第三语音消息，包括：

分别获取各条第一语音消息的第一元数据和第一数据流；

获取该第二语音消息的第二元数据和第二数据流；

基于至少一个第一元数据和该第二元数据生成第三元数据，将至少一个第一数据流和该第二数据流进行连接得到第三数据流，及合成该第三元数据和该第三数据流得到该第三语音消息。

可选地，将该至少一条第一语音消息和该第二语音消息进行本地合成得到该第三语音消息之前，还包括：

当接收到排序指令时，基于该排序指令，确定该至少一条第一语音消息和该第二语音消息的排列次序；

相应地，该将至少一个第一数据流和该第二数据流进行连接得到第三数据流，包括：

按照该排列次序，将该至少一个第一数据流和该第二数据流进行连接得到该第三数据流。

可选地，分别获取各条第一语音消息的第一元数据和第一数据流，包括：

对于该至少一条第一语音消息中的任一条第一语音消息，当基于该第一语音消息接收到截取指令时，基于该截取指令，在该第一语音消息中确定语音消息段；

获取该语音消息段的元数据和数据流；

将该语音消息段的元数据确定为该第一语音消息的第一元数据，将该语音消息段的数据流确定为该第一语音消息的第一数据流。

可选地，该第三语音消息包括至少一个分隔音，该至少一个分隔音分别设置在该至少一条第一语音消息和该第二语音消息中相邻的两条语音消息之间。

可选地，将该第三语音消息发送给该至少一个联系人之后，还包括：

在该通信消息显示界面中，显示该第三语音消息，并对合成该第三语音消息的各个语音消息进行不同的标记。

在该通信消息显示界面中，显示该第三语音消息，并显示该至少一条第一语音消息的来源信息。

上述所有可选技术方案，均可按照任意结合形成本发明的可选实施例，本发明实施例对此不再一一赘述。

图2A为本发明实施例提供的一种基于即时通信应用的语音通信方法的流程图，参见图2A，该方法包括：

步骤201：终端基于即时通信应用，与至少一个联系人建立通信。

为了便于该用户与其他用户进行交流和了解，安装有该即时通信应用的终端，可以基于该即时通信应用，建立该用户与该至少一个联系人之间的通信，确保该用户和该至少一个联系人可以通过该通信连接互相发送语音消息。

其中，该即时通信应用可以是能够发送和接收语音消息的即时通信应用。

需要说明的是，该终端可以是智能手机、智能手表或电脑等能够安装该即时通信应用的终端，在实际应用中，该终端还可以是其它能够安装该即时通信应用的终端，本发明实施例对此不做具体限定。

进一步地，该即时通信应用中包括通讯录，该通讯录中包括至少一个通信标识，通信标识可以是一个群组标识，也可以是一个联系人标识，其中一个群组标识可以对应一个通信群组，该通信群组中包括一个以上的联系人。当该终端基于该至少一个通信标识中的任一个通信标识接收到通信指令时，如果该通信标识为一个联系人标识，该终端可以向与该联系人标识对应的联系人发送通信消息；如果该通信标识为群组标识，该终端可以向与该群组标识对应的通讯群组中包括的一个以上的联系人发送通信消息。

需要说明的是，该通信消息可以是文字消息、语音消息、图片消息等类型的消息，当然，在实际应用中，该通信消息还可以是其它类型的消息，本发明实施例对此不做具体限定。

例如，该即时通信应用可以包括4个通信标识可以如图2B所示，其中4个通信标识分别为群组1、群组2、联系人6和联系人7，且群组1对应的通信群组中包括联系人1和联系人2等2个联系人，群组2对应的通信群组中包括联系人3、联系人4和联系人5等3个联系人。该终端基于群组1接收到通信指令时，该终端向群组1对应的通信群组中包括的2个联系人发送文字消息“大家好”，建立与该2个联系人之间的通信，如图2C所示。

另外，该终端还可以通过其它方式来基于该即时通信应用，与该至少一个联系人建立通信，本发明实施例对此不做具体限定。

步骤202：在基于即时通信应用进行通信的过程中，当该终端在通信消息显示界面中接收到语音选择指令时，在该通信消息显示界面的历史通信记录中选择至少一条第一语音消息，该历史通信记录为在当前时间之前通过该通信消息显示界面与至少一个联系人进行通信的记录。

由前述可知，该终端可以基于该至少一个联系人标识，与该至少一个联系人之间互相发送通信消息，以与该至少一个联系人进行通信，为了便于该用户随时对通信过程中的通信消息进行查看，该即时通信应用的通信消息显示界面通常会包括历史通信记录，而为了确保该用户能够在当前时刻之前与该至少一个联系人通信过程中的语音消息的基础上，向该至少一个联系人发送语音消息，该终端可以在该通信消息显示界面的历史通信记录中选择至少一条第一语音消息。

其中，该通信消息显示界面为该用户与该至少一个联系人进行通信的界面。

需要说明的是，由其前述可知，该通信消息可以包括文字消息、语音消息、图片消息等多种类型的消息，因此，该历史通信记录中也可以包括多种类型中至少一种的消息。

其中，该语音选择指令用于指示该终端在该通信消息显示界面的历史通信记录中选择至少一条第一语音消息，该语音选择指令可以由该用户通过执行预设操作触发，该预设操作可以是点击操作、滑动操作或触摸操作等操作，当然，在实际应用中，该预设操作还可以是其它操作，本发明实施例对此不做具体限定。

其中，该至少一条第一语音消息中每条第一语音消息包括第一元数据和第一数据流。

需要说明的是，对于每条第一语音消息，第一元数据用于说明第一语音消息的创建时间、所占存储空间大小、语音消息格式等属性信息，第一数据流为第一语音消息的语音内容所对应的数据。

还需要说明的是，在实际应用中，第一元数据还可以包括第一语音消息的其它属性信息，比如，第一语音消息的码率、ID(identification，身份标识号码)、播放时长或来源信息等，本发明实施例对此不做具体限定。

其中，第一语音消息的来源信息用于说明创建第一语音消息的联系人。

需要说明的是，第一语音消息可以是该用户发送的，也可以是该至少一个联系人中任一个联系人发送的，本发明实施例对此不做具体限定。

例如，该终端在通信消息显示界面中接收到语音选择指令1时，在该通信消息显示界面的历史通信记录中选择第一语音消息1和第一语音消息2，其中，第一语音消息1包括的第一元数据1和数据流1，且第一元数据1为：创建时间2016年7月7日7时7分7秒、所占存储空间大小50KB(kilobyte，千字节)；第一语音消息2包括的第一元数据2和数据流2，且第一元数据2为：创建时间2016年7月7日6时6分6秒、所占存储空间大小123KB。

另外，由于该历史通信记录中可以包括多种类型中至少一种的消息，因此，当该终端在通信消息显示界面中接收到语音选择指令时，可能该历史通信记录中不包括语音消息，此时，该终端可能无法在该历史通信记录中选择至少一条语音消息，所以，当该终端不能在该历史通信记录中选择至少一条语音消息时，该终端可以显示选择失败提示信息，以提示该用户该历史通信记录中不包括语音消息。

其中，该终端可以通过窗口、弹窗等方式显示该选择失败提示信息，当然，在实际应用中，该终端还可以通过其它方式显示该选择失败提示信息，本发明实施例对此不做具体限定。

步骤203：该终端调用录制功能，通过该录制功能录制第二语音消息。

为了确保该用户能够在当前时刻之前与该至少一个联系人通信过程中的语音消息的基础上，向该至少一个联系人发送语音消息，该终端可以调用录制功能，并通过该录制功能录制第二语音消息，以使该用户在第一语音消息的基础上，继续讨论第一语音消息的话题。

其中，该第二语音消息可以包括第二元数据和第二数据流。

需要说明的是，第二元数据用于说明第二语音消息的创建时间、所占存储空间大小、语音消息格式等属性信息，第二数据流为第二语音消息的语音内容所对应的数据。

还需要说明的是，在实际应用中，第二元数据还可以包括第二语音消息的其它属性信息，比如，第二语音消息的码率、ID、播放时长或来源信息等，本发明实施例对此不做具体限定。

例如，该终端通过录制功能录制第二语音消息1，第二语音消息1包括第二元数据1和第二数据区1，且第二元数据1为：创建时间2016年7月7日8时8分8秒、所占存储空间大小30KB。

另外，在实际应用中，该终端也可以先执行步骤203调用录制功能并录制第二语音消息的步骤，再执行步骤202中在通信消息显示界面的历史通信记录中选择至少一条第一语音消息的步骤，本公开实施例步骤202和步骤203的执行次序不做具体限定。

步骤204：该终端基于该至少一条第一语音消息和该第二语音消息，生成第三语音消息，该第三语音消息是将该至少一条第一语音消息与该第二语音消息进行合成得到。

由于该至少一条第一语音消息为历史通信记录中的语音消息，第二语音消息为该用户的语音消息，因此，可以基于该至少一条第一语音消息和该第二语音消息，生成第三语音消息，从而将该至少一条第一语音和第二语音关联起来，能够使该至少一个联系人更容易理解该至少一条第一语音和第二语音所对应的话题，而不必在单独接收到第二语音消息时，再从该历史通信记录中查找与该第二语音消息所对应的话题相同的语音消息，提高该用户与该至少一个联系人通信的效率。

其中，该终端可以通过下述两种可能的实现方式，基于该至少一条第一语音消息和该第二语音消息，生成第三语音消息：

第一种可能的实现方式，为了提高生成第三语音消息的效率，进而提高基于即时通信应用进行语音通信的效率，该终端将该至少一条第一语音消息和该第二语音消息进行本地合成得到该第三语音消息。

其中，该终端将该至少一条第一语音消息和该第二语音消息进行本地合成，得到该第三语音消息的操作可以为：该终端分别获取各条第一语音消息的第一元数据和第一数据流，获取该第二语音消息的第二元数据和第二数据流，基于至少一个第一元数据和该第二元数据生成第三元数据，将至少一个第一数据流和该第二数据流进行连接得到第三数据流，及合成该第三元数据和该第三数据流得到该第三语音消息。

需要说明的是，第三元数据用于说明第三语音消息的创建时间、所占存储空间大小、语音消息格式等属性信息，第三数据流为第三语音消息的语音内容所对应的数据。

还需要说明的是，在实际应用中，第三元数据还可以包括第三语音消息的其它属性信息，比如，第三语音消息的码率、ID、播放时长或来源信息等，本发明实施例对此不做具体限定。

还需要说明的是，该终端基于至少一个第一元数据和第二元数据生成第三元数据的操作，可以根据该至少一个第一元数据和第二元数据所包括的属性信息的种类确定，比如，当该至少一个第一元数据和第二元数据包括创建时间时，该终端可以将第二元数据的中的创建时间确定为第三元数据的创建时间；当该至少一个第一元数据和第二元数据包括所占存储空间大小时，该终端可以将该至少一个元数据和第二元数据中包括的所占存储空间大小之和确定为第三元数据中所占存储空间的大小，本发明实施例对此不做具体限定。

例如，该终端基于第一元数据1、第二元数据2和第二元数据1生成第三元数据，该终端将第一数据流1、第一数据流2和第二数据流3进行连接得到第三数据流，合成第三元数据和第三数据流得到第三语音消息。其中，该终端可以将第二元数据1的创建时间2016年7月7日8时8分8秒确定为第三语音消息的元数据中的创建时间，该终端将第一元数据1中所占存储空间大小50KB、第一元数据2中所占存储空间大小123KB和第二元数据1中所占存储空间大小30KB相加得到203KB，将203KB确定为第三元数据中所占存储空间大小，即第三元数据为：2016年7月7日8时8分8秒、所占存储空间大小203KB。

进一步地，当该用户在该至少一条第一语音消息的基础上继续对某一话题进行讨论时，对于该至少一条第一语音消息中的任一条第一语音消息，该用户可能只希望引用第一语音消息的部分内容，因此，为了提高获取第一语音消息的第一元数据和第一数据流的准确率，对于该至少一条第一语音消息中的任一条第一语音消息，当该终端基于该第一语音消息接收到截取指令时，基于该截取指令，在该第一语音消息中确定语音消息段，获取该语音消息段的元数据和数据流，将该语音消息段的元数据确定为该第一语音消息的第一元数据，将该语音消息段的数据流确定为该第一语音消息的第一数据流。

其中，该截取指令用于指示该终端截取第一语音消息的任一语音消息段，该截取指令可以由该用户通过执行于预设操作触发。

需要说明的是，该终端获取该语音消息段的元数据时，可以基于该截取指令，对第一语音消息的元数据进行更新，将更新后的元数据确定为该语音消息段的元数据。

还需要说明的是，当第一语音消息的元数据中包括的属性信息种类不同时，该终端对第一语音消息的元数据的更新方式也可以不同，比如，当第一语音消息的元数据包括第一语音消息所占存储空间大小时，该终端可以将第一语音消息所占存储空间大小更新为该语音消息段所占存储空间大小，本发明实施例对此不做具体限定。

进一步地，当该终端基于第一语音消息接收到截取指令时，该终端可以播放第一语音消息，并接收用户输入的起点时长和终点时长，截取第一语音消息在该起点时长和该终点时长之间的语音消息段。

其中，该起点时长小于该终点时长，且该终点时长小于或等于第一语音消息的播放时长。

另外，在另一种可能的情况中，当该终端基于第一语音消息接收到截取指令时，该终端可以播放第一语音消息，在播放第一语音消息的过程中，该用户可以通过执行特定操作在播放第一语音消息的时间轴中选择该起点时长和该终点时长，当该终端接收到该特定操作时，基于选择的该起点时长和该终点时长，截取第一语音消息在该起点时长和该终点时长之间的语音消息段。

其中，该特定操作可以是点击操作、滑动操作或触摸操作等操作，当然，在实际应用中，该特定操作还可以是其它操作，本发明实施例对此不做具体限定。

需要说明的是，在实际应用中，该终端还可以通过其它方式截取第一语音消息中的语音消息段，本发明实施例对此不做具体限定。

进一步地，由于第三语音消息为该终端基于该至少一条第一语音消息和第二语音消息进行合成得到，而当该至少一条第一语音消息和第二语音消息的播放次序不同时，该第二语音消息所表达的意义也可能不同，因此，为了提高生成第三语音消息的准确率，该终端在将该至少一条第一语音消息和该第二语音消息进行本地合成得到该第三语音消息之前接收排序指令，当该终端接收到排序指令时，基于该排序指令，确定该至少一条第一语音消息和该第二语音消息的排列次序，按照该排列次序，将该至少一个第一数据流和该第二数据流进行连接得到该第三数据流。

需要说明的是，该排序指令用于指示该终端对该至少一条第一语音消息和第二语音消息进行排序，该排序指令可以由该用户通过执行预设操作触发。

例如，该终端在将第一语音消息1、第一语音消息2和第二语音消息1进行合成之前接收到排序指令1，该终端基于该排序指令1，将第一语音消息1、第一语音消息2和第二语音消息1排序为第一语音消息2、第一语音消息1和第二语音消息1。

进一步地，由于第三语音消息中第二语音消息为录制的该用户的语音消息，该至少一条第一语音消息为该历史通信记录中的语音消息，为了便于对该至少一个语音消息和第二语音消息进行区分，提高语音通信的效率，该第三语音消息包括至少一个分隔音，该至少一个分隔音分别设置在该至少一条第一语音消息和该第二语音消息中相邻的两条语音消息之间，相应地，由于第三数据流为第三语音消息的数据流，所以第三数据流包括的该至少一个第一数据流和第二数据流中相邻的两个数据流之间也可以包括分隔音对应的数据流。

其中，该至少一个分隔音用于将相邻的语音消息分隔开，该至少一个分隔音可以是“哔”或者“嘀”等声音，当然，在实际应用中，该至少一个分隔音还可以是其它声音，本发明实施例对此不做具体限定。

进一步地，当第三语音消息的播放时长超过预设时长时，将第三语音消息分割为多段语音消息段，其中每段语音消息段的播放时长小于或等于该预设时长。

其中，该预设时长为该即时通信应用中每条语音消息的最大播放时长，该预设时长可以是60秒或者90秒，当然，在实际应用中，该预设时长还可以是其它值，本发明实施例对此不做具体限定。

第二种可能的实现方式，为了降低对该终端的需求，即提高该基于即时通信应用的语音通信方法的应用范围，该终端通过服务器将该至少一条第一语音消息和该第二语音消息进行合成得到该第三语音消息，并将该第三语音消息发送给该终端。

其中，该终端可以向该服务器发送语音合成请求，该语音合成请求中携带该至少一条第一语音消息和第二语音消息，当该服务器接收到该语音合成请求时，将该至少一条第一语音消息和第二语音消息进行合成，得到第三语音消息。

需要说明的是，该服务器将该至少一条第一语音消息和第二语音消息进行合成的方法，可以和该终端将该至少一条第一语音消息和第二语音消息进行合成的方法相同，本发明对此不再一一赘述。

进一步地，为了提高向该服务器发送该语音合成请求的效率，在另一种可能的情况中，该语音合成请求中可以携带该至少一条第一语音消息的中每条第一语音消息的ID和第二语音消息，当该服务器接收到该语音合成请求时，基于第一语音消息的ID，从存储的语音消息中获取第一语音消息。进而将该至少一条第一语音消息和第二语音消息进行合成。

其中，由于当该用户与该至少一个联系人进行通信时，该终端可以将通信消息和通信标识送给服务器，当该服务器接收到该通信消息该通信标识时，可以将基于该通信标识将该通信消息发送给该至少一个联系人，也即是，该终端通常需要通过该服务器，才能将通信消息发送给至少一个联系人，因此，该服务器在接收到该通信消息时，可以存储该通信消息，所以，当该服务器接可以通过第一语音消息的ID，从存储的语音消息中获取第一语音消息。

步骤205：该终端将该第三语音消息发送给该至少一个联系人。

由于第三语音消息中包括该至少一条第一语音消息和第二语音消息，因此，可以将第三语音消息发送给该至少一个联系人，以使该至少一个联系人能够在该至少一条第一语音消息的基础上，理解第二语音消息，避免了在单独听到第二语音消息之后还需要从历史通信记录中查找与第二语音消息所对应的话题相符的第一语音消息，提高了语音通信的效率。

进一步地，为了将该至少一条第一语音消息和第二语音消息中的每条语音消息相区分，该终端将该第三语音消息发送给该至少一个联系人之后，还可以在该通信消息显示界面中，显示该第三语音消息，并对合成该第三语音消息的各个语音消息进行不同的标记。

其中，该终端对该第三语音消息的各个语音消息进行不同的标记，可以是通过显示不同的颜色或者不同的条纹等方式来标记，当然，在实际应用中，该终端也可以通过其它方式对该第三语音消息的各个语音消息进行不同的标记，本发明实施例对此不做具体限定。

需要说明的是，当该终端对该第三语音消息的各个语音消息进行不同的标记时，一种可能的策略为，该终端对该至少一条第一语音消息进行一种标记，对第二语音消息进行另一种标记，以将第一语音消息和第二语音消息区别开，另一种可能的策略为，该终端对该至少一条第一语音消息和第二语音消息中的每条语音消息进行不同的标记，以将该每条第一语音消息和第二语音消息区别开，本发明实施例对此不做具体限定，

例如，该终端在显示第三语音消息1时，将第一语音消息1和第一语音消息2显示为黑色，将第二语音消息1显示为白色，以将第一语音消息和第二语音消息区别开。

进一步地，由于该至少一条第一语音消息可能来自不同的联系人，因此，为了说明每条第一语音消息对应的联系人，该终端可以在该通信消息显示界面中，显示该第三语音消息，并显示该至少一条第一语音消息的来源信息。

其中，对于该至少一条第一语音消息，每条第一语音消息的元数据中可以携带第一语音消息的来源信息，因此，该终端可以基于第一语音消息的元数据，确定第一语音消息的来源信息，当然，在实际应用中，该终端还可以通过其它方式来确定第一语音消息的来源信息，本发明实施例对此不做具体限定。

在本发明实施例中，第三语音消息能够将录制的第二语音消息和历史通信记录中的第一语音消息结合起来，当将第三语音消息发送给该至少一个联系人时，该至少一个联系人不需要从该历史通信记录中查找与第二语音消息所对应的话题相符的第一语音消息，就能够快速准确地基于该至少一条第一语音消息，理解第二语音消息所表达的意义，大幅提高了语音通信的效率。其次，该终端在基于至少一条第一语音消息和第二语音消息生成第三语音消息，可以是在本地合成，也可以是通过服务器合成，提高了生成第三语音消息的灵活性。最后，该第三语音消息中还包括至少一个分隔音，以将第三语音消息中包括的每条语音消息分隔开，避免了该至少一个联系人将该至少一条第一语音消息和第二语音消息相混淆，进而确保了该至少一个联系人能够准确理解第二语音消息所表达的意义，进一步提高了语音通信的效率。

图3为本发明实施例提供的一种基于即时通信应用的语音通信装置，参照图3，该装置包括选择模块301、调用模块302、生成模块303和发送模块304。

选择模块301，用于在基于即时通信应用进行通信的过程中，当在通信消息显示界面中接收到语音选择指令时，在该通信消息显示界面的历史通信记录中选择至少一条第一语音消息，该历史通信记录为在当前时间之前通过该通信消息显示界面与至少一个联系人进行通信的记录；

调用模块302，用于调用录制功能，通过该录制功能录制第二语音消息；

生成模块303，用于基于该至少一条第一语音消息和该第二语音消息，生成第三语音消息，该第三语音消息是将该至少一条第一语音消息与该第二语音消息进行合成得到；

发送模块304，用于将该第三语音消息发送给该至少一个联系人。

可选地，该生成模块303包括：

合成单元，用于将该至少一条第一语音消息和该第二语音消息进行合成得到该第三语音消息。

可选地，第三语音消息由在本地合成或通过服务器合成得到。

可选地，该至少一条第一语音消息中每条第一语音消息包括第一元数据和第一数据流，该第二语音消息包括第二元数据和第二数据流；

相应地，该合成单元包括：

第一获取子单元，用于分别获取各条第一语音消息的第一元数据和第一数据流；

第二获取子单元，用于获取该第二语音消息的第二元数据和第二数据流；

连接子单元，用于基于至少一个第一元数据和该第二元数据生成第三元数据，将至少一个第一数据流和该第二数据流进行连接得到第三数据流，及合成该第三元数据和该第三数据流得到该第三语音消息。

可选地，该生成模块303还包括：

确定单元，用于当接收到排序指令时，基于该排序指令，确定该至少一条第一语音消息和该第二语音消息的排列次序；

相应地，该连接子单元用于按照该排列次序，将该至少一个第一数据流和该第二数据流进行连接得到该第三数据流。

可选地，该第一获取子单元用于：

获取该语音消息段的元数据和数据流；

可选地，该装置还包括：

第一显示模块，用于在该通信消息显示界面中，显示该第三语音消息，并对合成该第三语音消息的各个语音消息进行不同的标记。

可选地，该装置还包括：

第二显示模块，用于在该通信消息显示界面中，显示该第三语音消息，并显示该至少一条第一语音消息的来源信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是本发明实施例提供的一种终端结构示意图。上述实施例中的第一用户客户端可以安装在该终端中。参见图4，终端400可以包括通信单元410、包括有一个或一个以上计算机可读存储介质的存储器420、输入单元430、显示单元440、传感器450、音频电路460、WIFI(Wireless Fidelity，无线保真)模块470、包括有一个或者一个以上处理核心的处理器480、以及电源490等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

通信单元410可用于收发信息或通话过程中，信号的接收和发送，该通信单元410可以为RF(Radio Frequency，射频)电路、路由器、调制解调器、等网络通信设备。特别地，当通信单元410为RF电路时，将基站的下行信息接收后，交由一个或者一个以上处理器480处理；另外，将涉及上行的数据发送给基站。通常，作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，通信单元410还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(GeneralPacket Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access，宽带码分多址)、LTE(LongTerm Evolution，长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端400的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器420还可以包括存储器控制器，以提供处理器480和输入单元430对存储器420的访问。

输入单元430可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地，输入单元430可包括触敏表面431以及其他输入设备432。触敏表面431，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面431上或在触敏表面431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面431。除了触敏表面431，输入单元430还可以包括其他输入设备432。优选地，其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及终端400的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元440可包括显示面板441，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板441。进一步的，触敏表面431可覆盖显示面板441，当触敏表面431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图4中，触敏表面431与显示面板441是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面431与显示面板441集成而实现输入和输出功能。

终端400还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在终端400移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端400还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与终端400之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经通信单元410以发送给比如另一终端，或者将音频数据输出至存储器420以便进一步处理。音频电路460还可能包括耳塞插孔，以提供外设耳机与终端400的通信。

为了实现无线通信，该终端上可以配置有无线通信单元470，该无线通信单元470可以为WIFI模块。WIFI属于短距离无线传输技术，终端400通过无线通信单元470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图中示出了无线通信单元470，但是可以理解的是，其并不属于终端400的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是终端400的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行终端400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器480可包括一个或多个处理核心；优选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

终端400还包括给各个部件供电的电源490(比如电池)，优选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源460还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端400还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，终端还包括有一个或者一个以上的程序，这一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，所述一个或者一个以上程序包含用于进行本发明实施例提供的如下所述的基于即时通信应用的语音通信方法的指令，该方法包括：

在基于即时通信应用进行通信的过程中，当在通信消息显示界面中接收到语音选择指令时，在该通信消息显示界面的历史通信记录中选择至少一条第一语音消息，该历史通信记录为在当前时间之前通过该通信消息显示界面与至少一个联系人进行通信的记录；

调用录制功能，通过该录制功能录制第二语音消息；

基于该至少一条第一语音消息和该第二语音消息，生成第三语音消息，该第三语音消息是将该至少一条第一语音消息与该第二语音消息进行合成得到；

将该第三语音消息发送给该至少一个联系人。

相应地，该将该至少一条第一语音消息和该第二语音消息进行本地合成得到该第三语音消息，包括：

分别获取各条第一语音消息的第一元数据和第一数据流；

获取该第二语音消息的第二元数据和第二数据流；

获取该语音消息段的元数据和数据流；

在本发明实施例中，当该终端在基于即时通信应用进行通信的过程中，在通信消息显示界面中接收到语音选择指令时，能够在该通信消息显示界面的历史通信记录中选择至少一条第一语音消息，并调用录制功能，录制第二语音消息，然后将基于至少一条第一语音消息和第二语音消息，生成第三语音消息，由于该至少一条第一语音消息为该历史通信记录中，通过该通信消息显示界面与至少一个联系人进行通信所记录的语音消息，而第三语音消息是将该至少一条第一语音消息与第二语音消息进行合成得到的语音消息，因此，第三语音消息能够将录制的第二语音消息和历史通信记录中的第一语音消息结合起来，当将第三语音消息发送给该至少一个联系人时，该至少一个联系人不需要从该历史通信记录中查找与第二语音消息所对应的话题相符的第一语音消息，就能够快速准确地基于该至少一条第一语音消息，理解第二语音消息所表达的意义，大幅提高了语音通信的效率。

需要说明的是：上述实施例提供的基于即时通信应用的语音通信装置在基于即时通信应用的语音通信时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于即时通信应用的语音通信装置与基于即时通信应用的语音通信的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于即时通信应用的语音通信方法，其特征在于，所述方法包括：

调用录制功能，通过所述录制功能录制第二语音消息；

将所述第三语音消息发送给所述至少一个联系人。

2.如权利要求1所述的方法，其特征在于，所述基于所述至少一条第一语音消息和所述第二语音消息，生成第三语音消息，包括：

将所述至少一条第一语音消息和所述第二语音消息进行合成得到所述第三语音消息。

3.如权利要求1所述的方法，其特征在于，所述第三语音消息在本地合成或通过服务器合成得到。

4.如权利要求2所述的方法，其特征在于，所述至少一条第一语音消息中每条第一语音消息包括第一元数据和第一数据流，所述第二语音消息包括第二元数据和第二数据流；

相应地，所述将所述至少一条第一语音消息和所述第二语音消息进行本地合成得到所述第三语音消息，包括：

分别获取各条第一语音消息的第一元数据和第一数据流；

获取所述第二语音消息的第二元数据和第二数据流；

基于至少一个第一元数据和所述第二元数据生成第三元数据，将至少一个第一数据流和所述第二数据流进行连接得到第三数据流，及合成所述第三元数据和所述第三数据流得到所述第三语音消息。

5.如权利要求4所述的方法，其特征在于，所述将所述至少一条第一语音消息和所述第二语音消息进行本地合成得到所述第三语音消息之前，还包括：

当接收到排序指令时，基于所述排序指令，确定所述至少一条第一语音消息和所述第二语音消息的排列次序；

相应地，所述将至少一个第一数据流和所述第二数据流进行连接得到第三数据流，包括：

按照所述排列次序，将所述至少一个第一数据流和所述第二数据流进行连接得到所述第三数据流。

6.如权利要求4所述的方法，其特征在于，所述分别获取各条第一语音消息的第一元数据和第一数据流，包括：

对于所述至少一条第一语音消息中的任一条第一语音消息，当基于所述第一语音消息接收到截取指令时，基于所述截取指令，在所述第一语音消息中确定语音消息段；

获取所述语音消息段的元数据和数据流；

将所述语音消息段的元数据确定为所述第一语音消息的第一元数据，将所述语音消息段的数据流确定为所述第一语音消息的第一数据流。

7.如权利要求1所述的方法，其特征在于，所述第三语音消息包括至少一个分隔音，所述至少一个分隔音分别设置在所述至少一条第一语音消息和所述第二语音消息中相邻的两条语音消息之间。

8.如权利要求1-7任一所述的方法，其特征在于，所述将所述第三语音消息发送给所述至少一个联系人之后，还包括：

在所述通信消息显示界面中，显示所述第三语音消息，并对合成所述第三语音消息的各个语音消息进行不同的标记。

9.如权利要求1所述的方法，其特征在于，所述将所述第三语音消息发送给所述至少一个联系人之后，还包括：

在所述通信消息显示界面中，显示所述第三语音消息，并显示所述至少一条第一语音消息的来源信息。

10.一种基于即时通信应用的语音通信装置，其特征在于，所述装置包括：

11.如权利要求10所述的装置，其特征在于，所述生成模块包括：

合成单元，用于将所述至少一条第一语音消息和所述第二语音消息进行合成得到所述第三语音消息。

12.如权利要求10所述的装置，其特征在于，所述第三语音消息在本地合成或通过服务器合成得到。

13.如权利要求11所述的装置，其特征在于，所述至少一条第一语音消息中每条第一语音消息包括第一元数据和第一数据流，所述第二语音消息包括第二元数据和第二数据流；

相应地，所述合成单元包括：

第二获取子单元，用于获取所述第二语音消息的第二元数据和第二数据流；

连接子单元，用于基于至少一个第一元数据和所述第二元数据生成第三元数据，将至少一个第一数据流和所述第二数据流进行连接得到第三数据流，及合成所述第三元数据和所述第三数据流得到所述第三语音消息。

14.如权利要求13所述的装置，其特征在于，所述生成模块还包括：

确定单元，用于当接收到排序指令时，基于所述排序指令，确定所述至少一条第一语音消息和所述第二语音消息的排列次序；

相应地，所述连接子单元用于按照所述排列次序，将所述至少一个第一数据流和所述第二数据流进行连接得到所述第三数据流。

15.如权利要求13所述的装置，其特征在于，所述第一获取子单元用于：

获取所述语音消息段的元数据和数据流；

16.如权利要求10所述的装置，其特征在于，所述第三语音消息包括至少一个分隔音，所述至少一个分隔音分别设置在所述至少一条第一语音消息和所述第二语音消息中相邻的两条语音消息之间。

17.如权利要求10-16任一所述的装置，其特征在于，所述装置还包括：

第一显示模块，用于在所述通信消息显示界面中，显示所述第三语音消息，并对合成所述第三语音消息的各个语音消息进行不同的标记。

18.如权利要求10所述的装置，其特征在于，所述装置还包括：

第二显示模块，用于在所述通信消息显示界面中，显示所述第三语音消息，并显示所述至少一条第一语音消息的来源信息。