CN107911361B

CN107911361B - 支持多会话的语音管理方法、装置、终端设备及存储介质

Info

Publication number: CN107911361B
Application number: CN201711119250.7A
Authority: CN
Inventors: 黄丽如; 赵宇杰; 罗树浩
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2020-05-08
Anticipated expiration: 2037-11-14
Also published as: CN107911361A

Abstract

本发明公开了一种支持多会话的语音管理方法，包括：通过创建的至少一个语音会话，接收与每个语音会话对应的语音流内的发言用户的语音消息；在每个语音会话中，根据每个发言用户的语音消息进行混音处理，生成与每个语音会话对应的待播放的第一音频数据；获取所有语音会话内的待播放的第一音频数据；对获取的所有待播放的第一音频数据进行混音处理，生成发送至音频设备播放的第二音频数据。本发明还提供了一种支持多会话的语音管理装置、终端设备及存储介质，解决现有的实时语音系统不支持同一用户同时加入到多个语音流会话的问题，能够使得用户可以同时加入多个语音流中进行收听，并且语音流之间相互独立，各不干扰。

Description

支持多会话的语音管理方法、装置、终端设备及存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种支持多会话的语音管理方法、装置、终端设备及存储介质。

背景技术

在线实时语音系统是指多个用户借助手机、PC端等形式的客户端设备，接入语音服务器，通过服务器的用户管理和语音转发，能实时与其他用户进行语音交流的系统。

在现有的实时语音系统中，处于同一个语音流(audio stream)中的用户，能听到其他用户说话，并且自己的发言也能被其他人听到。会话(session)是实时语音系统用户侧的一个管理对象。用户创建了一个会话，并且把会话绑定一个语音流，用户在对语音流的所有操作，譬如收听等，都是在对应的会话中进行。

但是发明人在实施本发明的过程中发现，现有的实时语音系统中，用户在同一时间内，只能正常加入到一个语音流中进行收听。比如，当用户在游戏内使用实时语音系统时，如用户既加入了一个队伍(游戏中一个队伍通常由2-5人组成)并开启了队伍语音会话，又加入了一个团队(游戏内一个团队可以由2-40人组成)并开启了团队语音会话，那么用户同时存在于两个语音会话中将出现异常。

发明内容

针对上述问题，本发明的目的在于提供一种支持多会话的语音管理方法、装置、终端设备及存储介质，解决现有的实时语音系统不支持同一用户同时加入到多个语音流会话的问题，能够使得用户可以同时加入多个语音流中进行收听，并且语音流之间相互独立，各不干扰。

本发明提供了一种支持多会话的语音管理方法，包括以下步骤：

通过创建的至少一个语音会话，接收与每个语音会话对应的语音流内的发言用户语音消息；

在每个语音会话中，根据每个发言用户的语音消息进行混音处理，生成与每个语音会话对应的待播放的第一音频数据；

获取所有语音会话内的待播放的第一音频数据；

对获取的所有待播放的第一音频数据进行混音处理，生成发送至音频设备播放的第二音频数据。

优选地，还包括：

根据用户发起的语音流加入指令，创建对应的语音会话以绑定所述语音流加入指令对应的语音流。

优选地，所述根据用户发起的语音流加入指令，创建对应的语音会话以绑定所述语音流加入指令对应的语音流，具体包括：

根据用户发起的语音流加入指令，创建对应的语音会话并为所述语音会话分配唯一标识；

根据所述语音流加入指令获取对应的语音流的参数信息；

根据所述参数信息从语音服务器中获取所述语音流的语音服务器节点地址列表；

从所述语音服务器节点地址列表中选择语音流目标节点并建立所述语音会话与所述语音流目标节点的连接；

向所述语音服务器发起注册请求；其中，所述注册请求用于触发所述语音服务器将所述用户加入到所述语音流的用户管理列表的动作。

优选地，所述在每个语音会话中，根据每个发言用户的语音消息进行混音处理，生成与每个语音会话对应的待播放的第一音频数据，具体为：

在每个语音会话中，将所述发言用户的语音消息解析成语音包并为所述语音包分配一序列号；

将所述语音包分配给对应的用户对象进行解码处理成第三音频数据；其中，所述用户对象为根据所述语音包的来源语音会话的唯一标识创建的处理对象；

根据所述序列号将所述第三音频数据缓存在对应的用户对象中；

获取语音会话中所有用户对象缓存的第三音频数据并进行混音处理以得到待播放的第一音频数据。

优选地，还包括：

当检测到所述语音包中存在结束标记时，销毁根据所述语音包的来源语音会话的唯一标识创建的用户对象。

优选地，还包括：

定时轮询语音会话中的各个用户对象，获取每个用户对象收到最后一个语音包的时间戳；

当计算出当前时间与所述时间戳的间隔超过预设时间时，销毁根据超时发言用户的语音会话的唯一标识创建的用户对象。

优选地，还包括：

当检测到用户语音设置指令，对所述用户语音设置指令对应的第三音频数据进行语音属性设置；其中，所述语音属性包括音量、音色或者音调中的任意一种或多种；

当检测到会话语音设置指令，对所述会话语音设置指令对应的第一音频数据进行语音属性设置。

优选地，还包括：

当检测到会话屏蔽指令时，清空所述会话屏蔽指令对应的语音会话的所有音频数据。

优选地，还包括：

当检测到用户屏蔽指令时，获取所述用户屏蔽指令对应的发言用户的语音消息；

将所述语音消息解析成语音包并记录接收所述语音包的时间戳后，丢弃所述语音包。

优选地，还包括：

获取音频设备采集的第四音频数据；

检测所有发言开关处于打开的语音会话；

将所述第四音频数据通过所有发言开关处于打开的语音会话发送至语音会话对应的语音流中。优选地，还包括：

当检测到暂停发言指令，将向对应的语音会话发送的语音包中的语音数据置为空。

本发明还提供了一种支持多会话的语音管理装置，包括：

语音消息接收单元，用于通过创建的至少一个语音会话，接收与每个语音会话对应的语音流内的发言用户的语音消息；

语音消息处理单元，用于在每个语音会话中，根据每个发言用户的语音消息进行混音处理，生成与每个语音会话对应的待播放的第一音频数据；

第一音频获取单元，用于获取所有语音会话内的待播放的第一音频数据；

第二音频生成单元，用于对获取的所有待播放的第一音频数据进行混音处理，生成发送至音频设备播放的第二音频数据。

优选地，还包括：

会话创建单元，用于根据用户发起的语音流加入指令，创建对应的语音会话以绑定所述语音流加入指令对应的语音流。

优选地，所述会话创建单元具体包括：

会话创建模块，用于根据用户发起的语音流加入指令，创建对应的语音会话并为所述语音会话分配唯一标识；

参数获取模块，用于根据所述语音流加入指令获取对应的语音流的参数信息；

节点地址获取模块，用于根据所述参数信息从语音服务器中获取所述语音流的语音服务器节点地址列表；

连接模块，用于从所述语音服务器节点地址列表中选择语音流目标节点并建立所述语音会话与所述语音流目标节点的连接；

注册模块，用于向所述语音服务器发起注册请求；其中，所述注册请求用于触发所述语音服务器将所述用户加入到所述语音流的用户管理列表的动作。

优选地，所述语音消息处理单元具体包括：

解析模块，用于在每个语音会话中，将所述发言用户的语音消息解析成语音包并为所述语音包分配一序列号；

解码模块，用于将所述语音包分配给对应的用户对象进行解码处理成第三音频数据；其中，所述用户对象为根据所述语音包的来源语音会话的唯一标识创建的处理对象；

缓存模块，用于根据所述序列号将所述第三音频数据缓存在对应的用户对象中；

混音模块，用于获取语音会话中所有用户对象缓存的第三音频数据并进行混音处理以得到待播放的第一音频数据。

优选地，还包括：

用户对象销毁单元，用于当检测到所述语音包中存在结束标记时，销毁根据所述语音包的来源语音会话的唯一标识创建的用户对象。

优选地，还包括：

时间戳获取单元，用于定时轮询语音会话中的各个用户对象，获取每个用户对象收到最后一个语音包的时间戳；

超时销毁单元，用于当计算出当前时间与所述时间戳的间隔超过预设时间时，销毁根据超时发言用户的语音会话的唯一标识创建的用户对象。

优选地，还包括：

用户语音设置单元，用于当检测到用户语音设置指令，对所述用户语音设置指令对应的第三音频数据进行语音属性设置；其中，所述语音属性包括音量、音色或者音调中的任意一种或多种；

会话语音设置单元，用于当检测到会话语音设置指令，对所述会话语音设置指令对应的第一音频数据进行语音属性设置。

优选地，还包括：

会话屏蔽单元，用于当检测到会话屏蔽指令时，清空所述会话屏蔽指令对应的语音会话的所有音频数据。

优选地，还包括：

用户屏蔽单元，用于当检测到用户屏蔽指令时，获取所述用户屏蔽指令对应的发言用户的语音消息，并将所述语音消息解析成语音包并记录接收所述语音包的时间戳后，丢弃所述语音包。

优选地，还包括：

采集音频接收单元，用于获取音频设备采集的第四音频数据；

检测单元，用于检测所有发言开关处于打开的语音会话；

音频发送单元，用于将所述第四音频数据通过所有发言开关处于打开的语音会话发送至语音会话对应的语音流中。

优选地，还包括：

发言暂停单元，用于当检测到暂停发言指令，将向对应的语音会话发送的语音包中的语音数据置为空。

本发明还提供了一种支持多会话的语音管理终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述中任意一项所述的支持多会话的语音管理方法。

本发明提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的支持多会话的语音管理方法。

本发明提供了一种支持多会话的语音管理方法、装置、终端设备及存储介质，并具有如下有益效果：

通过创建多个语音会话同时加入到多个语音流中，同时接收各个语音会话对应的语音流内的发言用户的语音消息，语音流之间相互独立，互不干扰，在语音会话中根据每个发言用户的语音消息进行混音处理，生成与语音会话对应的待播放的第一音频数据，获取所有语音会话内的待播放的第一音频数据进行混音处理，生成发送至唯一音频设备播放的第二音频数据，使得用户能同时听到每个语音会话中所有用户说话的声音，并且保证语音的连续性，实时性和同步性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的支持多会话的语音管理方法的流程示意图。

图2是本发明第一实施例提供的用户同时加入多个语音流的示意图。

图3是本发明第一实施例提供的多语音消息处理及与唯一硬件设备协调的示意图。

图4是本发明第八实施例提供的支持多会话的语音管理方法的流程示意图。

图5是本发明第十二实施例提供的支持多会话的语音管理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种支持多会话的语音管理方法，其可由终端设备来执行，并包括以下步骤：

S11，通过创建的至少一个语音会话，接收与每个语音会话对应的语音流内的发言用户的语音消息。

在本发明实施例中，所述终端设备包括但不限于桌上型计算机、笔记本、掌上电脑及移动终端等计算设备。

在本发明实施例中，请参阅图2，用户可同时加入多个语音流，各个语音流之间相互独立，互不干扰，用户在想要加入一个语音流时创建语音会话，所述终端设备将创建的会话绑定用户想要加入的语音流并为其分配唯一标识作为用户在该语音会话中的标识，需要说明的是，本发明对于用户同时加入的语音流数目不做任何限定，用户可以同时加入到他想要加入的语音流中；在语音流加入成功后，所述终端设备同时管理创建的至少一个语音会话，通过创建的至少一个语音会话，接收与每个语音会话对应的语音流内的发言用户的语音消息，其中，所述语音消息为适合网络传输的二进制码格式。

S12，在每个语音会话中，根据每个发言用户的语音消息进行混音处理，生成与每个语音会话对应的待播放的第一音频数据。

在本发明实施例中，请参阅图3，所述终端设备在各个语音会话中，将各个语音会话对应的语音流中接收到的二进制格式的语音消息解析成语音包并为所述语音包分配一序列号，所述语音包中的语音数据是压缩音频流式数据，适合网络传输，如AAC，OPUS，MP3等，然后所述终端设备根据所述语音包的来源语音会话的唯一标识查找是否存在已经建立的对应的用户对象，若存在，则将所述语音包分配给对应的用户对象使用对应压缩格式的解码器进行解码处理，所述用户对象将所述语音包解码成适合音频设备播放的第三音频数据，例如PCM(脉冲编码调制)声音数据，其中，所述用户对象为根据所述语音包的来源语音会话的唯一标识创建的处理对象，每个用户对象对应语音流中的一个用户；若否，则所述终端设备根据语音包的来源语音会话的唯一标识创建对应的用户对象以处理对应的语音消息，在解码完成后，所述终端设备根据所述序列号将所述第三音频数据缓存在对应的用户对象中，根据序列号的递增顺序依次缓存，当所述终端设备接收到音频获取指令时，获取语音会话中所有用户对象缓存的第三音频数据并进行混音处理以得到待播放的第一音频数据，例如将得到的每一段PCM声音数据按字节相加得到待播放的PCM数据。

S13，获取所有语音会话内的待播放的第一音频数据。

在本发明实施例中，请参阅图3，所述终端设备定时轮询各个语音会话，检查各个语音会话中是否存在待播放的第一音频数据，若存在，则获取其语音会话内的带播放的第一音频数据。

S14，对获取的所有待播放的第一音频数据进行混音处理，生成发送至音频设备播放的第二音频数据。

在本发明实施例中，请参阅图3，所述终端设备对获取的所有待播放的第一音频数据进行混音处理，例如将获取的待播放的PCM数据按照其时间戳顺序进行字节相加，得到最后发送给唯一播放硬件的音频设备播放的PCM音频数据。用户端的硬件设备是唯一的，多个语音会话做到同时与唯一的硬件设备打交道，并且保证了硬件设备处于正常的工作状态。

综上所述，本发明提供了一种支持多会话的语音管理方法，通过创建多个语音会话同时加入到多个语音流中，同时接收各个语音会话对应的语音流内的发言用户传输的语音消息，语音流之间相互独立，互不干扰，在语音会话中根据每个发言用户的语音消息进行混音处理，生成与语音会话对应的待播放的第一音频数据，定时轮询各个语音会话，获取所有语音会话内的待播放的第一音频数据进行混音处理，生成发送至唯一音频设备播放的第二音频数据，使得用户能同时听到每个语音会话中所有用户说话的声音，并且保证语音的连续性，实时性和同步性。

为了便于对本发明的理解，下面将对本发明的一些优选实施例做更进一步的描述。

本发明第二实施例：

在本发明第一实施例的基础上，还包括：

在本发明实施例中，所述终端设备根据用户发起的语音流加入指令后，首先查找当前是否存在空闲的语音会话，若存在则直接使用当前空闲语音会话，若不存在则创建对应的语音会话并为所述语音会话分配唯一标识，作为用户在该语音会话中的标识，所述终端设备根据所述语音流加入指令获取对应的语音流的参数信息，再通过HTTP请求的方式，使用所述语音流的参数信息从语音服务器中获取所述语音流详细信息，包括语音服务器节点地址列表，根据最优节点选择规则，从所述语音服务器节点地址列表中选择一个节点作为语音流目标节点并建立所述语音会话与所述语音流目标节点的网络连接，每个语音会话对应一个网络连接，连接的建立、销毁、切换互不影响，之后该语音会话对应的语音流的所有上行和下行的语音消息，都在这个网络链路中传输，最后所述终端设备向所述语音服务器发起注册请求，其中，所述注册请求用于触发所述语音服务器将所述用户加入到所述语音流的用户管理列表的动作，所述注册请求包括所述语音会话的唯一标识、所述语音流的相关信息，所述语音服务器在收到注册请求，校验用户的合法性，确认通过后，将用户加入到当前的语音流用户管理列表中，用户正式加入到语音流中，此时会话才正式创建完毕，用户可以在会话中正常收听他人语音。

在本发明实施例中，所述最优节点选择规则如下：对语音服务器节点地址列表中的每个节点，分别标记一个初始评分值K；当选取的节点连接服务端成功时，评分值加1；当节点连接超时、连接失败或者连接状态下断开时，评分值减1；当需要取出一个节点进行网络连接时，从节点地址列表中搜索评分值最高的节点，选取作为最优节点进行网络连接，若节点评分相等，则取位置靠前的节点。

本发明第三个实施例：

在本发明第一实施例或第二实施例的基础上，还包括：

在本发明实施例中，在用户结束说话时，其语音会话对应的用户对象需要被销毁，避免用户对象数量无限制增长。所述终端设备将所述语音包分配给对应的用户对象处理，当所述用户对象识别到所述语音包存在结束标记时，将所述语音包解码处理成第三音频数据，并在接收到音频获取指令后将所述第三音频数据传输出去，然后所述终端设备销毁该用户对象。

本发明第四实施例：

在本发明第一实施例或第二实施例的基础上，还包括：

定时轮询语音会话中的各个用户对象，获取每个用户对象收到最后一个语音包的时间戳。

在本发明实施例中，当用户的结束语音包由于网络拥塞等情况丢失了，其他用户收不到这个包，所述终端设备可以通过超时的方式来判断所述语音包的来源语音会话的对应用户是否已经停止说话。所述用户对象在接收所述终端设备分配的语音包时，记录收到语音包的时间戳，所述终端设备定时轮询语音回话中的各个用户对象，获取每个用户对象收到最后一个语音包的时间戳T1。

在本发明实施例中，所述终端设备计算当前时间T2与所述时间戳T1的间隔是否超过预设时间值TIMEOUT_INTERVAL，若超过，则认为所述用户对象对应的语音会话的语音消息超时，然后所述终端设备销毁根据超时发言用户的语音会话的唯一标识创建的用户对象。

本发明第五实施例：

在本发明第一实施例或第二实施例的基础上，还包括：

当检测到用户语音设置指令，对所述用户语音设置指令对应的第三音频数据进行语音属性设置；其中，所述语音属性包括音量、音色或者音调中的任意一种或多种。

在本发明实施例中，所述终端设备检测到用户语音设置指令时，根据所述用户语音设置指令获取对应的用户信息，在根据所述用户信息获取对应的根据其语音会话的唯一标识创建的用户对象，对所述用户对象处理的第三音频数据进行语音属性设置，可对指定用户的音量、音色或者音调进行设置，例如当接收到放大某个用户的语音音量的语音设置指令时，所述终端设备在将语音包分配给对应的用户对象，所述用户对象接收到分配的语音包并对其解码处理成PCM声音数据之后，对所述PCM声音数据进行放大处理，假设用户设置软件播放音量为n倍，则可将所述PCM声音数据按字节乘以n，实现音量放大的效果，从而实现指定用户语音设置。

在本发明实施例中，所述终端设备检测到会话语音设置指令时，根据所述会话语音设置指令获取对应的语音会话，对所述语音会话输出的的待播放的第一音频数据进行语音属性设置，可对整个语音会话中所有用户的音量、音色或者音调进行设置，例如当接收到缩小某个语音会话的语音音量的语音设置指令时，所述终端设备在定时轮询时获取该语音会话的混音处理后的待播放的PCM音频数据，对所述PCM音频数据进行缩小处理，假设用户设置软件播放音量为n倍，则可将所述PCM声音数据按字节除以n，实现音量缩小的效果，从而实现指定语音会话的语音设置。

本发明第六实施例：

在本发明第一实施例或第二实施例的基础上，还包括：

在本发明实施例中，各个语音会话保存一个muteplay的状态，当所述终端设备检测到会话屏蔽指令时，所述终端设备将muteplay置为true，所述终端设备定时轮询各个语音会话，当所述终端设备访问到该语音会话时，所述终端设备识别到当前muteplay为true，则将该语音会话的所有音频数据清空，相当于该语音会话中无人发言，从而实现屏蔽会话语音的目的。

本发明第七实施例：

在本发明第一实施例或第二实施例的基础上，还包括：

当检测到用户屏蔽指令时，获取所述用户屏蔽指令对应的发言用户的语音消息，将所述语音消息解析成语音包并记录接收所述语音包的时间戳后，丢弃所述语音包。

在本发明实施例中，语音会话中的各个用户对象保存一个ignore状态，当所述终端设备检测到用户屏蔽指令时，将所述ignore状态置为true，即忽略该用户说话，所述终端设备在接收到该语音会话中该用户的语音消息时，将其解析成语音包并分配给对应的用户对象，所述对应的用户对象在接收到所述语音包后，因其所述ignore状态为true，则所述用户对象在更新其收到最后的语音包的时间戳后，丢弃所述语音包，不进行解码和缓存。当所述终端设备需要获取其缓存的第三音频数据时，取得的数据为空，从而达到了屏蔽该用户说话的目的。

本发明第八实施例：

请参阅图4，在本发明第一实施例或第二实施例的基础上，还包括：

S15，获取音频设备采集的第四音频数据。

在本发明实施例中，所述终端设备监听所述语音会话的发言开关状态，并将监听信息发送给音频设备，所述终端设备检测当前所有语音会话发送的其自身的发言开关状态，当且仅当所有语音会话的发言开关状态关闭时，所述终端设备才向所述音频设备发送关闭其语音采集功能的指令，否则所述音频设备的语音采集功能一直打开以获取所述音频设备采集的第四音频数据。

S16，检测所有发言开关处于打开的语音会话。

在本发明实施例中，所述终端设备获取所述第四音频数据，例如PCM原始音频数据，所述终端设备采用编码器将所述第四音频数据转换为网络传输的压缩音频数据，然后向所有语音会话发起通知，告知所有语音会话其压缩音频数据准备就绪，所述各个语音会话在接收到所述通知后，检测自身发言开关的状态。

S17，将所述第四音频数据通过所有发言开关处于打开的语音会话发送至语音会话对应的语音流中。

在本发明实施例中，当语音会话检测到自身发言开关打开，则向所述终端设备发送发言开关打开的消息，所述终端设备接收到发言开关打开的响应信息后，将所述第四音频数据传输给所述响应信息对应的语音会话，所述语音会话在获取所述压缩音频数据后，将所述压缩音频数据添加时间戳、序列号等相关信息后封装成语音包，再将所述语音包转换为二进制码格式的语音消息后发送给所述语音服务器以使所述语音服务器将其发送给该语音流中的其他用户。

本发明第九实施例：

在本发明第八实施例的基础上，还包括：

在本发明实施例中，当语音会话中的发言开关打开时，所述终端设备将采集到的第四音频数据传输给打开发言开关的语音会话上传达到发言的目的，若用户需要暂停在某个会话中的发言，但又不想频繁启音频设备语音采集功能增加不必要的开销，也不想影响其他会话的正常语音采集，并且要让在语音流内其他用户感知该用户只是暂时没有发言而非退出会话，则需要使用会话的暂停/继续发言功能。语音会话中保存一个mutecapture状态，当所述终端设备检测到暂停发言指令时，将所述mutecapture状态置为true，当会话发言开关打开，并且mutecapture为true时，对应的语音会话将上传的二进制码格式的语音消息的语音数据置为空，表明该会话没有采集到语音数据，语音流中其他用户收到空的语音包，则听不到用户的声音，实现了会话暂停发言功能。当需要继续发言时，用户修改发言状态，所述终端设备在检测到发言指令时，将mutecapture状态置为false。

本发明第十实施例：

在本发明第九实施例的基础上，还包括：

当检测到语音录制指令时，对所述语音录制指令对应的对象的音频数据进行保存。

在本发明实施例中，所述语音录制指令包括多会话录制指令、单会话录制指令、多用户录制指令、单用户录制指令，用户可选择多个语音会话一起录制、选择单个语音会话进行录制、选择不同语音会话中多个用户进行录制、或者只选择单个用户进行录制等，例如，当所述终端设备检测到单用户录制指令时，通过所述单用户录制指令获取对应选定的用户，再根据所述用户获取其语音会话的唯一标识从而获取根据所述唯一标识建立的用户对象，从所述用户对象中获取缓存的第三音频数据保存在指定位置。

本发明第十一实施例：

在本发明以上所有实施例的基础上，还包括：

当检测到语音流退出指令，向所述语音服务器发起退出请求；其中，所述退出请求用于触发断开所述语音流对应的语音会话与所述语音流目标节点的连接。

在本发明实施例中，所述终端设备检测到语音流退出指令时，首先向向所述语音服务器发起退出请求，所述语音服务器在接收到所述退出请求后，断开所述语音流对应的语音会话与所述语音流目标节点的网络连接，然后所述终端设备将所述语音会话标记为空闲状态，此时用户正式退出会话。

请参阅图5，本发明第十二实施例还提供了一种支持多会话的语音管理装置，包括：

语音消息接收单元11，用于通过创建的至少一个语音会话，接收与每个语音会话对应的语音流内的发言用户的语音消息。

语音消息处理单元12，用于在每个语音会话中，根据每个发言用户的语音消息进行混音处理，生成与每个语音会话对应的待播放的第一音频数据。

第一音频获取单元13，用于获取所有语音会话内的待播放的第一音频数据。

第二音频生成单元14，用于对获取的所有待播放的第一音频数据进行混音处理，生成发送至音频设备播放的第二音频数据。

优选地，还包括：

优选地，所述会话创建单元具体包括：

会话创建模块，用于根据用户发起的语音流加入指令，创建对应的语音会话并为所述语音会话分配唯一标识。

参数获取模块，用于根据所述语音流加入指令获取对应的语音流的参数信息。

节点地址获取模块，用于根据所述参数信息从语音服务器中获取所述语音流的语音服务器节点地址列表。

连接模块，用于从所述语音服务器节点地址列表中选择语音流目标节点并建立所述语音会话与所述语音流目标节点的连接。

优选地，所述语音消息处理单元具体包括：

解析模块，用于在每个语音会话中，将所述发言用户的语音消息解析成语音包并为所述语音包分配一序列号。

解码模块，用于将所述语音包分配给对应的用户对象进行解码处理成第三音频数据；其中，所述用户对象为根据所述语音包的来源语音会话的唯一标识创建的处理对象。

缓存模块，用于根据所述序列号将所述第三音频数据缓存在对应的用户对象中。

优选地，还包括：

时间戳获取单元，用于定时轮询语音会话中的各个用户对象，获取每个用户对象收到最后一个语音包的时间戳。

优选地，还包括：

用户语音设置单元，用于当检测到用户语音设置指令，对所述用户语音设置指令对应的第三音频数据进行语音属性设置；其中，所述语音属性包括音量、音色或者音调中的任意一种或多种。

优选地，还包括：

采集音频接收单元，用于获取音频设备采集的第四音频数据。

通知单元，用于检测所有发言开关处于打开的语音会话。

音频处理发送单元，用于将所述第四音频数据通过所有发言开关处于打开的语音会话发送至语音会话对应的语音流中。

优选地，还包括：

发言暂停单元，用于当检测到暂停发言指令，将向对应的语音会话发送的语音包的语音数据置为空。

本发明第十三实施例提供的支持多会话的语音管理终端设备。该实施例的支持多会话的语音管理终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如支持多会话的语音管理程序。所述处理器执行所述计算机程序时实现上述各个支持多会话的语音管理方法实施例中的步骤，例如图1所示的步骤S11。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如语音消息处理单元。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述语音消息处理单元终端设备中的执行过程。

所述语音消息处理单元终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语音消息处理单元终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，可以包括比以上所述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述语音消息处理单元终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述语音消息处理单元终端设备的控制中心，利用各种接口和线路连接整个语音消息处理单元终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述语音消息处理单元终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述语音消息处理单元终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种支持多会话的语音管理方法，其特征在于，包括以下步骤：

通过创建的至少一个语音会话，接收与每个语音会话对应的语音流内的发言用户的语音消息；

获取所有语音会话内的待播放的第一音频数据；其中，定时轮询各个语音会话，检查各个语音会话中是否存在待播放的第一音频数据，若存在，则获取其语音会话内的待播放的第一音频数据；

对获取的所有待播放的第一音频数据进行混音处理，生成发送至音频设备播放的第二音频数据；其中，将获取的待播放的第一音频数据按照其时间戳顺序进行字节相加，得到最后发送给唯一音频设备播放的第二音频数据。

2.根据权利要求1所述的支持多会话的语音管理方法，其特征在于，还包括：

3.根据权利要求2所述的支持多会话的语音管理方法，其特征在于，所述根据用户发起的语音流加入指令，创建对应的语音会话以绑定所述语音流加入指令对应的语音流，具体包括：

根据所述语音流加入指令获取对应的语音流的参数信息；

4.根据权利要求3所述的支持多会话的语音管理方法，其特征在于，所述在每个语音会话中，根据每个发言用户的语音消息进行混音处理，生成与每个语音会话对应的待播放的第一音频数据，具体为：

5.根据权利要求4所述的支持多会话的语音管理方法，其特征在于，还包括：

6.根据权利要求4所述的支持多会话的语音管理方法，其特征在于，还包括：

当计算出当前时间与所述时间戳的间隔超过预设时间时，销毁对应的用户对象。

7.根据权利要求4所述的支持多会话的语音管理方法，其特征在于，还包括：

8.根据权利要求1所述的支持多会话的语音管理方法，其特征在于，还包括：

9.根据权利要求4所述的支持多会话的语音管理方法，其特征在于，还包括：

10.根据权利要求1所述的支持多会话的语音管理方法，其特征在于，还包括：

获取音频设备采集的第四音频数据；

检测所有发言开关处于打开的语音会话；

将所述第四音频数据通过所有发言开关处于打开的语音会话发送至语音会话对应的语音流中。

11.根据权利要求10所述的支持多会话的语音管理方法，其特征在于，还包括：

12.一种支持多会话的语音管理装置，其特征在于，包括：

第一音频获取单元，用于获取所有语音会话内的待播放的第一音频数据；其中，定时轮询各个语音会话，检查各个语音会话中是否存在待播放的第一音频数据，若存在，则获取其语音会话内的待播放的第一音频数据；

第二音频生成单元，用于对获取的所有待播放的第一音频数据进行混音处理，生成发送至音频设备播放的第二音频数据；其中，将获取的待播放的第一音频数据按照其时间戳顺序进行字节相加，得到最后发送给唯一音频设备播放的第二音频数据。

13.根据权利要求12所述的支持多会话的语音管理装置，其特征在于，还包括：

14.根据权利要求13所述的支持多会话的语音管理装置，其特征在于，所述会话创建单元具体包括：

15.根据权利要求14所述的支持多会话的语音管理装置，其特征在于，所述语音消息处理单元具体包括：

16.根据权利要求15所述的支持多会话的语音管理装置，其特征在于，还包括：

17.根据权利要求15所述的支持多会话的语音管理装置，其特征在于，还包括：

超时销毁单元，用于当计算出当前时间与所述时间戳的间隔超过预设时间时，销毁对应的用户对象。

18.根据权利要求15所述的支持多会话的语音管理装置，其特征在于，还包括：

19.根据权利要求12所述的支持多会话的语音管理装置，其特征在于，还包括：

20.根据权利要求15所述的支持多会话的语音管理装置，其特征在于，还包括：

21.根据权利要求12所述的支持多会话的语音管理装置，其特征在于，还包括：

音频接收单元，用于获取音频设备采集的第四音频数据；

检测单元，用于检测所有发言开关处于打开的语音会话；

22.根据权利要求21所述的支持多会话的语音管理装置，其特征在于，还包括：

23.一种支持多会话的语音管理终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至11中任意一项所述的支持多会话的语音管理方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至11中任意一项所述的支持多会话的语音管理方法。