CN111756939A

CN111756939A - 在线语音控制方法、装置及计算机设备

Info

Publication number: CN111756939A
Application number: CN202010598382.8A
Authority: CN
Inventors: 李凯; 罗应文; 陶嘉明; 刘宝利
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-09
Anticipated expiration: 2040-06-28
Also published as: CN111756939B

Abstract

本申请提出了一种在线语音控制方法、装置及计算机设备，在多方通话的各种应用场景下，第一电子设备进入多方通话状态后，为了避免对当前说话人干扰，通常会控制其声音传输通道进入禁止输出状态，从而使第一电子设备采集的语音信息不会传输出去。但在通话过程中，为了保证第一电子设备当前使用者需要其他参与者听到的内容传输出去，本实施例可以检测第一电子设备采集的第一语音信息是否符合预设条件，若符合预设条件，将自动控制第一电子设备的声音传输通道从禁止输出状态切换到输出状态，使其采集到的语音信息能够可靠传输至第二电子设备，提高了第一电子设备与第二电子设备使用者之间的互动可靠性，且提高了多方通话质量。

Description

在线语音控制方法、装置及计算机设备

技术领域

本申请主要涉及在线互动应用领域，更具体地说是涉及一种在线语音控制方法、装置及计算机设备。

背景技术

多方通话是通过各种手段实现的多方在线语音通话，可以实现多方、异地实时的在线交流，目前主要应用于教学、会议、游戏等应用场景。

以目标比较流行的在线教学场景为例，老师可以通过登录在线教学平台，创建虚拟课堂给学生们进行直播授课，且在实际授课过程中，为了避免学生侧录入噪声干扰，通常会禁止将学生侧的声音传输至虚拟课堂播放，这往往会导致老师无法及时接收到学生的反馈，降低了老师与学生之间的互动可靠性，进而影响了虚拟课堂的教学效率。

发明内容

有鉴于此，为了提高多方通话场景下各参与者的互动可靠性，提高多方通话质量，一方面，本申请提出了一种在线语音控制方法，所述方法包括：

确定第一电子设备进入多方通话状态，获取所述第一电子设备采集的第一语音信息；

检测所述第一语音信息符合预设条件，控制所述第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态；

将所述第一语音信息传输至参与多方通话的第二电子设备。

可选的，所述检测所述第一语音信息符合预设条件，包括以下任一种实现方式：

检测所述第一语音信息包含请求交互信息，所述请求交互信息用于请求所述第一电子设备与参与多方通话的第二电子设备进行语音交互；

检测所述第一语音信息包含应答信息，所述应答信息是针对参与多方通话的第二电子设备发送的第二语音信息产生的；

检测当前连续缓存的待输出的第一语音信息的语音帧数量达到预设帧数；

检测当前连续缓存的待输出的第一语音信息的连续缓存时长达到预设时长。

可选的，所述将所述第一语音信息传输至所述第二电子设备，包括：

将当前获取的第一语音信息传输至参与多方通话的第二电子设备。

可选的，所述方法还包括：

从已缓存的待输出的第一语音信息中，读取距离当前时刻预设时间段内缓存的待输出的第一语音信息；

依据所述第一语音信息中符合预设条件的待传输内容，从读取的第一语音信息中确定与所述待传输内容相关联的待传输语音信息；

将所述待传输语音信息传输至参与多方通话的第二电子设备。

可选的，所述第一语音信息的缓存方式包括：

将所述第一语音信息与所述第一语音信息的采集时间、待输出标识进行关联存储；

检测缓存空间容量小于容量阈值，删除所述采集时间较早的预设数量帧的第一语音信息；

在所述将所述第一语音信息传输至参与多方通话的第二电子设备之后，所述方法还包括：

将已传输的所述第一语音信息的待输出标识更新为输出标识，或删除已传输的所述第一语音信息。

可选的，所述确定第一电子设备进入多方通话状态，包括：

确定第一电子设备接入多方通话平台创建的目标虚拟空间，控制所述第一电子设备的声音采集通道处于采集状态，且声音传输通道处于禁止传输状态。

可选的，所述控制所述第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态，包括：

检测所述第一电子设备的声音传输通道处于禁止传输状态，输出声音禁止传输的提示信息；

响应针对所述提示信息的允许声音传输的选择操作，控制所述声音传输通道从所述禁止传输状态切换到允许传输状态。

又一方面，本申请还提出了一种在线语音控制装置，所述装置包括：

语音信息获取模块，用于确定第一电子设备进入多方通话状态，获取所述第一电子设备采集的第一语音信息；

声音传输状态控制模块，检测所述第一语音信息符合预设条件，控制所述第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态；

语音信息传输模块，用于将所述第一语音信息传输至参与多方通话的第二电子设备。

又一方面，本申请还提出了一种计算机设备，所述计算机设备包括：

存储器，用于存储实现如上述的在线语音控制方法的程序；

处理器，用于加载并执行所述存储器存储的所述程序，以实现如上述的在线语音控制方法的各步骤。

可选的，所述计算机设备具体为第一电子设备，或用于实现至少一个第一电子设备和第二电子设备之间的多方通话的通信服务器；

其中，若所述计算机设备具体为第一电子设备，所述计算机设备还包括声音采集器和声音播放器。

由此可见，本申请提供了一种在线语音控制方法、装置及计算机设备，在多方通话的各种应用场景下，第一电子设备进入多方通话状态后，为了避免对当前说话人干扰，通常会控制其声音传输通道进入禁止输出状态，从而使第一电子设备采集的语音信息不会传输出去。但在通话过程中，为了保证第一电子设备当前使用者需要其他参与者听到的内容传输出去，本实施例可以检测第一电子设备采集的第一语音信息是否符合预设条件，若符合预设条件，将自动控制第一电子设备的声音传输通道从禁止输出状态切换到输出状态，使其采集到的语音信息能够可靠传输至第二电子设备，提高了第一电子设备与第二电子设备使用者之间的互动可靠性，且提高了多方通话质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请提出的在线语音控制方法的一可选示例的流程示意图；

图2示出了本申请提出的在线语音控制方法的又一可选示例的场景流程示意图；

图3示出了本申请提出的在线语音控制方法的又一可选示例的流程示意图；

图4示出了本申请提出的在线语音控制方法的又一可选示例的场景流程示意图；

图5示出了本申请提出的在线语音控制装置的一可选示例的结构示意图；

图6示出了本申请提出的在线语音控制装置的又一可选示例的结构示意图；

图7示出了本申请提出的计算机设备的一可选示例的硬件结构示意图；

图8示出了本申请提出的电子设备的一可选示例的硬件结构示意图。

具体实施方式

针对背景技术部分描述的现有技术问题，在目前通过互联网实现多方通话的各应用场景中，本申请希望能够自动检测当前是否需要打开电子设备的声音传输通道，以使该电子设备采集到的语音信息能够传输给其他电子设备，从而解决在该多方通话场景下，用户忘记打开其电子设备的声音传输通道，导致该电子设备采集的该用户的语音信息无法传输给其他电子设备输出，无法在线语音交互，进而影响多方通话质量及效率的技术问题，具体实现过程可以参照但并不局限于下文实施例描述的在线语音控制方案。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参照图1，为本申请提出的在线语音控制方法的一可选示例的流程示意图，该方法可以适用于电子设备，在实际应用中，该电子设备可以包括但并不局限于智能手机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、电子书阅读器、台式计算机等。应该理解的是，该电子设备需要具有语音采集及识别功能，但本申请对电子设备的组成结构不做限定。如图1所示，该方法可以包括：

步骤S11，确定第一电子设备进入多方通话状态，获取第一电子设备采集的第一语音信息；

其中，第一电子设备可以是参与多方通话应用场景的任一电子设备，第二设备可以是参与多方通话的其他电子设备(即除了当前时刻确定的第一电子设备之外的电子设备)。但在某些特定应用场景下，参与多方通话的多个参与者存在身份差异，如某一个或多个参与者是主讲人身份，其他参与者是主聆听人身份，那么，该第一电子设备可以是当前时刻为主聆听人身份的参与者使用的电子设备，第二电子设备可以包括当前时刻为主聆听人身份的其他参与者使用的电子设备，以及当前时刻为主讲人身份的参与者使用的电子设备。

应该理解的是，由于在多方通话的语音交互过程中，不同时刻说话的人可能不同，第一电子设备可以随着说话人使用的电子设备的变化而更改，并不特指某一个电子设备，相应地，第二电子设备可以随着第一电子设备变化而更改，也不特指某一个电子设备。

在实际应用中，对于参与多方通话的电子设备，可以登录提供该多方通话服务的多方通话平台，以实现相互之间的数据通信，该多方通话平台可以由相应的通信服务器搭建而成，实现方法不做详述。当某一参与者通过电子设备向该通信服务器多方通话请求时，该通信服务器可以构建实现本次多方通话场景的目标虚拟空间，参与本次多方通话的各电子设备可以接入该目标虚拟空间，通过该目标虚拟空间向当前接入的其他电子设备发送的语音信息，满足多方通话需求。关于通信服务器如何支持实现多方电子设备相互之间的语音交互的实现方法，并不局限于本文描述的这种实现方式。

结合上文对本申请发明构思的描述，本申请希望根据基于电子设备使用者自己说话内容，来自动控制该电子设备的声音传输通道(即将第一电子设备采集到的语音信息传输至其他电子设备的通信通道)的开启或关闭，或提示该使用者开启或关闭该声音传输通道，因此，本实施例在第一电子设备进入多方通话状态下，可以对当前场景进行声音采集，即获取第一电子设备采集的第一语音信息，其通常是使用该第一电子设备参与多方通话的参与者的说话内容，本申请对该第一语音信息的采集实现过程不做详述。

步骤S12，检测第一语音信息符合预设条件，控制第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态；

本实施例中，该预设条件可以是触发将第一电子设备的声音传输通道的传输状态切换到允许传输状态的条件，也就是说，确定需要将第一电子设备使用者的说话内容传输给其他电子设备输出的条件，本申请对该预设条件的内容不做限定，可以根据具体应用场景的控制需求确定。

以上文描述的在线教学场景为例，第一电子设备可以是学生使用的电子设备，该场景下的预设条件可以是检测到学生针对老师提问进行了应答，后续需要将学生说话内容至少传输给老师的电子设备输出；也可以是检测到学生对老师或其他学生进行了提问，需要将该提问内容传输至相应的电子设备输出；还可以是检测该学生说了一段时间话，但并未传输出去等，本申请在此不做一一详述。

在实际应用中，对于如上述分析的第一电子设备，其进入多方通话状态，即确定第一电子设备接入多方通话平台创建的目标虚拟空间，该第一电子设备的声音传输通道的传输状态可以默认为禁止传输状态，或者是检测到第一电子设备的使用者身份后，直接控制第一电子设备的声音传输通道处于禁止传输状态，于此同时，该第一电子设备的声音采集通道处于采集状态，能够实时采集当前环境中的第一语音信息。

基于此，在后续多方通话过程中，如上文对本申请发明构思的分析，可以依据针对当前场景确定的预设条件，检测第一电子设备采集的第一语音信息满足该预设条件的情况下，可以控制第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态。

需要说明，本申请对第一电子设备的声音传输通道的传输状态的切换控制方法不做限定，可以采用硬件电路控制实现，也可以采用预设软件程序实现，或者是采用软硬件结合的方式实现，本申请在此不做详述。

步骤S13，将第一语音信息传输至参与多方通话的第二电子设备。

结合上文对第一电子设备和第二电子设备的描述，确定第一电子设备需要将其当前使用者的语音信息发送至其电子设备，控制第一电子设备的声音传输通道进入允许传输状态后，可以将当前采集的第一语音信号传输至第二电子设备，若此时已经缓存了一段时间该第一电子设备当前使用者的语音信息，且该语音信息与当前采集的第一语音信息相关，还可以将第一电子设备已经缓存的预设时长的语音信息传输至第二电子设备，从而避免第一电子设备当前使用者将刚刚说过的内容再说一遍。

综上所述，在多方通话的各种应用场景下，第一电子设备(非当前说话人)进入多方通话状态后，为了避免对当前说话人干扰，通常会控制其声音传输通道进入禁止输出状态，从而使第一电子设备采集的语音信息不会传输出去。但在通话过程中，为了保证第一电子设备当前使用者需要其他参与者听到的内容传输出去，本实施例可以检测第一电子设备采集的第一语音信息是否符合预设条件，若符合预设条件，将自动控制第一电子设备的声音传输通道从禁止输出状态切换到输出状态，使其采集到的语音信息能够可靠传输至第二电子设备，提高了第一电子设备与第二电子设备使用者之间的互动可靠性。

结合上文实施例的描述，在本申请实际应用中，检测第一语音信息符合预设条件，可以包括但并不局限于以下任一种实现方式：

方式一：检测第一语音信息包含请求交互信息，请求交互信息可以用于请求第一电子设备与参与多方通话的第二电子设备进行语音交互。

在这种实现方式中，通过对第一电子设备连续采集的第一语音信息进行分析，确定第一电子设备的当前使用者意图与其他参与者进行语音交互，可以认为该第一语音信息满足预设条件，关于第一电子设备的当前使用者的意图分析过程，本申请不做详述，可以依据多方通话的具体应用场景确定，所以说，上述请求交互信息的内容可以依据多方通话应用场景确定，本申请对其包含的内容不作限定。

在一种可能的实现方式中，本申请可以预设可能会触发交互请求，或者属于请求交互类的交互请求关键词(如请问、为什么等)，这样，获取第一电子设备采集的第一语音信息后，本实施例可以直接检测该第一语音信息是否包含预设的交互请求关键词，如果包含，说明该第一语音信息符合预设条件，本申请对该语音交互关键词的内容不做限定，可以结合具体多方通话的应用场景确定。

在又一种可能的实现方式中，本申请还可以直接对第一电子设备采集的第一语音信息进行语义分析，利用语义分析结果，确定该第一语音信息包含请求交互信息，说明该第一语音信息符合预设条件，本申请对该语义分析方法不做详述。

需要说明，关于本申请提出的方式一的检测实现方式，并不局限于上文描述的具体检测方法。

方式二：检测第一语音信息包含应答信息，该应答信息可以是针对参与多方通话的第二电子设备发送的第二语音信息产生的；

区别于上文方式一描述的第一电子设备使用者主动与其他参与者交互的检测，该方式二可以检测第一电子设备使用者是否被要求与其他参与者进行语音互动，如果是，可以认为第一电子设备采集的第一语音信息符合预设条件。

具体的，本申请可以通过对第一电子设备采集的第一语音信息进行分析，来确定第一电子设备使用者是否回应其他电子设备发送至的语音信息的内容，本实施例将回应内容记为应答信息，其可以结合具体多方通话的应用场景确定，本申请在此不做一一列举。

与上文方式一描述的检测第一语音信息包含请求交互信息的实现方法类似，本申请也可以预设应答类关键词(如能听到、我在等)，通过检测第一语音信息包含预设应答类关键词，来确定该第一语音信息符合预设条件；或者，通过对第一语音信息，以及第一电子设备在采集到第一语音信息的相邻历史时刻，接收到的来自第二电子设备的第二语音信息进行语义分析，依据语义分析结果，确定第一语音信息包含针对该第二语音信息的应答信息，说明该第一语音信息满足预设条件，但并不局限于这两种检测方式。

而且，需要说明，在不同多方通话应用场景下，上述预设的应答类关键词、交互请求关键词的内容可能不同，也可以部分相同，本申请在此不做详述。

方式三：检测当前连续缓存的待输出的第一语音信息的语音帧数量达到预设帧数；

方式四：检测当前连续缓存的待输出的第一语音信息的连续缓存时长达到预设时长。

在实际应用中，对于第一电子设备的当前使用者，可能说了一段话(其可能不是上述请求交互信息和应答信息)后，才发现自己忘记打开声音传输通道，导致其刚说的内容没有传输至第二电子设备，针对这种场景，为了避免第一电子设备的当前使用者将其刚说过的内容重复说一遍，本申请在确定是否开启第一电子设备的声音传输通道之前，还可以通过检测距离当前时刻的一段时间内，第一电子设备是否采集并缓存了若干待输出的第一语音信息，该段时间往往不会太长，本申请对其数值不做限定，可以根据实际应用场景进行调整。

其中，在依据上段描述第一电子设备缓存的待输出的第一语音信息，确定第一电子设备采集的第一语音信息是否满足预设条件时，本申请具体可以检测距离当前时刻连续缓存的待输出的第一语音信息的语音帧数量，其是否达到预设帧数来实现，也可以检测距离当前时刻连续缓存的待输出的第一语音信息的连续缓存时长，其是否到预设时长来实现，但并不局限于这两种实现方式。

且，需要说明的是，本申请对上述预设帧数、预设时长的具体数值不做限定，可以依据具体多方通话应用场景的需求确定或调整。

进一步地，在一些实施例中，对于上述距离当前时刻已缓存的待输出第一语音信息，本申请还可以对其进行语义分析，来确定这部分待输出第一语音信息是否需要传输至第二电子设备，从而结合上述方式三或方式四描述的检测结果，确定第一语音信息是否满足条件，这样，在第一电子设备的当前使用者自言自语，或者与当前环境中的其他用户交流等情况下，虽然第一电子设备采集到的第一语音信息满足上述方式三和方式四，但本申请通过对检测到待输出的第一语音信息进行语义分析，确定符合但并不局限于本文列举的这几种情况，可以认为该第一语音信息不满足预设条件，也就不用将第一电子设备的声音传输通道切换到允许传输状态，从而避免将第一电子设备在这几种情况下采集到的第一语音信息传输至第二电子设备输出，对第二电子设备使用者造成干扰。

需要说明，在上述进一步的实施例中，对当前连续缓存的待输出的第一语音信息进行语义分析，确定待输出的第一语音信息的语义是否符合预设的非交互场景的具体实现方法不做详述，且该预设的非交互场景并不局限于上文描述的自言自语场景、与本地用户交流的场景等。基于此，本实施例可以确定不符合预设的各非交互场景，且当前连续缓存的待输出的第一语音信息的语音帧数量达到预设帧数，或者当前连续缓存的待输出的第一语音信息的连续缓存时长达到预设时长，确定第一语音信息满足预设条件，可以对第一电子设备的声音传输通道的传输状态进行切换。

综上所述，参照图2所示的在线语音控制方法的场景流程示意图，获取第一电子设备采集的第一语音信息后，可以按照但并不局限于上文列举的几种方式，检测该第一语音信息是否满足预设条件，实现过程可以参照上文描述，不再赘述。经过检测满足上文列举的任一方式内容，可以控制第一电子设备的声音传输通道进入允许传输状态，从而通过通信网络将第一语音信息传输至参与多方通话的其他电子设备，即上述第二电子设备，以使第二电子设备输出第一语音信息，得知第一电子设备当前使用者的说话内容，保证多方通话可靠运行。

而且，由于本实施例在不满足如上文列举的各预设条件的情况下，第一电子设备的声音传输通道仍处于禁止传输状态，第一电子设备采集到的第一语音信息不会传输至各第二电子设备，从而避免了第一电子设备当前使用者说话，影响某第二电子设备使用者的讲话，保证当前讲话的第二电子设备使用者的说话内容，能够被参与本次多方通话的其他参与者可靠听到，提高多方通话质量。

需要说明，图2仅是本申请提出的在线语音控制方法的一可选应用场景示例，在实际应用中，对某时刻下的第一电子设备、各第二电子设备的设备类型，并不局限于图2所示的设备，且如上述分析，在某时刻作为第一电子设备的设备A，可能在其他时刻作为第二电子设备，来接收并输出该时刻作为第一设备发送的第一语音信息，也就是说，图2中的第一电子设备和第二电子设备并不特指固定的一个电子设备，可以随着说话人的变化而适应调整，本申请不做详述。

参照图3，为本申请提出的在线语音控制方法的又一可选示例的流程示意图，本实施例可以是对上述实施例提出的在线语音控制方法的一可选细化实现方式，但并不局限于本实施例描述的这种细化实现方法，如图3所示，该方法可以包括：

步骤S31，确定第一电子设备进入多方通话状态，获取第一电子设备采集的第一语音信息；

步骤S32，检测第一语音信息符合预设条件，控制第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态；

关于步骤S31和步骤S32的实现过程可以参照上述实施例相应部分的描述，本实施例不再赘述。

结合上述分析，在一种可能的实现方式中，按照上述检测到第一电子设备采集的第一语音信息符合预设条件，可以直接响应该检测结果，控制第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态。

在又一种可能的实现方式中，检测到第一电子设备采集的第一语音信息符合预设条件，本申请可以检测第一电子设备的声音传输通道是否处于禁止传输状态，若处于禁止传输状态，本申请可以输出声音禁止传输的提示信息，以使得第一电子设备的当前使用者能够依据该提示信息，选择是否开启第一电子设备的声音传输通道，如第一电子设备可以弹出选择是否开启声音传输通道的提示界面，用户可以选择“开启”按钮，之后，第一电子设备可以响应针对提示信息的允许声音传输的选择操作，控制声音传输通道从禁止传输状态切换到允许传输状态。

需要说明，本申请对上述提示信息包含的内容及其输出方式不做限定，并不局限于上文列举的输出提示界面的输出方式，还可以是语音提示方式、警示音提示方法等，可以根据实际需要配置，用户也可以自定义，本申请不做一一详述。

步骤S33，从已缓存的待输出的第一语音信息中，读取距离当前时刻预设时间段内缓存的待输出的第一语音信息；

实际应用中，按时上述检测方式，确定第一电子设备采集的第一语音信息满足预设条件，将第一电子设备的声音传输通道切换到允许传输状态之后，本申请可以直接将当前获取的第一语音信息(其可以包括当前采集到的第一语音信息，以及当前已缓存的预设时长或预设帧数的待输出的第一语音信息)传输至参与多方通话的各第二电子设备输出。

但是，当前已缓存的待输出的第一语音信息可能包含不需要第二电子设备使用者听到的内容，如包含针对第一电子设备的语音控制指令、第一电子设备当前使用者与当前环境下的其他用户的说话内容，和/或第一电子设备当前使用者自言自语的内容等，为了避免这部分内容对第二电子设备使用者造成干扰，且减少第一电子设备的数据传输量以及对网络资源的占用，本实施例提出对已缓存的待输出的第一语音信息做进一步筛选，以得到需要第二电子设备使用者听到的内容。

其中，对于距离当前时刻较长时间缓存的待输出的第一语音信息，通常不需要再当前时刻传输至第二电子设备，如第一电子设备昨天采集到的第一语音信息，或者进入多方通话状态30分钟后，10分钟之前的采集到的第一语音信息等，都可以不用再输出给第二电子设备。所以，本实施例在进行筛选前，可以从当前已缓存的待输出的第一语音信息中，读取距离当前时刻预设时间段内缓存的待输出的第一语音信息，该预设时间段的数值通常较小，如20秒等，本申请对该预设时间段的数值不做限定。

在一些实施例中，为了实现对缓存的第一语音信息的准确筛选，本申请可以按照但并不局限于下文描述的缓存方式，实现对第一电子设备采集到的第一语音信息的缓存，具体缓存方法可以包括：

将第一语音信息与第一语音信息的采集时间、待输出标识进行关联存储，并在检测到缓存空间容量小于容量阈值的情况下，删除采集时间较早的预设数量帧的第一语音信息，以保证后续采集到的第一语音信息能够可靠缓存。而且，在将第一语音信息传输至参与多方通话的第二电子设备之后，本申请还可以将已传输的第一语音信息的待输出标识更新为输出标识，或删除已传输的第一语音信息，以避免检测后续采集到的第一语音信息进行是否满足预设条件时，对这部分语音信息进行重复检测。

基于本实施例描述的这种第一语音信息的缓存方法，在执行步骤S33时，可以利用缓存的每一个语音帧对应的采集时间，得到距离当前时刻预设时间段内缓存的待输出的第一语音信息。

需要说明，本申请对上述第一语音信息的缓存方式、第一电子设备的缓存空间容量的检测方法、上述容量阈值和预设数量帧各自的具体数值，以及待输出标识和已输出标识的内容均不作限定，可以根据实际应用场景的需求确定。

步骤S34，依据第一语音信息中符合预设条件的待传输内容，从读取的第一语音信息中确定与该待传输内容相关联的待传输语音信息；

如上文对本实施例技术构思的描述，本实施例是针对第一电子设备采集的第一语音信息中，包含符合预设条件的待传输内容，也可能还包含不符合预设条件的语音帧，对于该不符合预设条件的语音帧并不需要传输至第二电子设备，所以，本实施例按照上述实施例描述的预设条件的内容，确定第一语音信息中符合预设条件的待传输内容后，可以将读取到的待输出的第一语音信息中，与该待传输内容相关联的语音信息确定为待传输语音信息。

应该理解的是，对于不同内容的预设条件，符合该预设条件的待传输内容往往会相应改变，进而确定的待传输语音信息也会发生变化，如预设条件为第一语音信息包含应答信息，那么，待传输内容可以是应答内容，相应确定的待传输语音信息可以是表示应答内容的应答语音信息；若预设条件时第一语音信息包含请求交互信息，待传输内容可以是请求交互内容，相应确定的待传输语音信息可以是表示请求交互内容的交互请求语音信息等。因此，本申请对确定的待传输语音信息的内容不做限定，可以根据具体多方通话应用场景确定。

步骤S35，将待传输语音信息传输至参与多方通话的第二电子设备。

综上所述，在上述实施例所能达到的技术效果的基础上，本申请在将第一电子设备采集的第一语音信息发送至各第二电子设备之前，可以对已缓存的待输出的第一语音信息做进一步筛选，具体可以依据第一语音信息中符合预设条件的待输出内容，从读取到的距离当前时刻预设时间段内缓存的待输出的第一语音信息中，确定与该待输出内容相关联的待输出语音信息，即需要第二电子设备使用者听到的有用内容，再将该待输出语音信息发送至各第二电子设备输出，避免第一电子设备将无用的语音信息发送至第二电子设备输出，对第二电子设备使用者造成干扰，且减少了第一电子设备传输无用语音信息对网络资源的浪费。

基于上述各实施例描述的在线语音控制方法，下面将以在线教学应用场景为例，对本申请提出的在线语音控制方法的具体应用过程进行描述，如图4所示，参加本次在线教学的老师以及多名学生使用各自的电子设备，登录在线教学应用平台，并接入针对本次教学创建的虚拟网课空间后，对于老师是用的电子设备，其声音采集通道可以处于采集状态，且声音传输通道可以默认处于允许传输通道，保证老师说的内容能够及时传输至学生的电子设备输出。而对于学生使用的电子设备(如上述第一电子设备)，其声音采集通道可以处于采集状态，但为了避免学生说话干扰老师讲课，其声音传输通道可以默认为处于禁止传输状态。

其中，无论是老师使用的电子设备，还是学生使用的电子设备，对于各自采集的语音信息，可以默认缓存距离当前时刻一定时长的语音信息，如缓存20秒采集的语音信息，但并不局限于该时长，且对于各电子设备对其采集的语音信息的缓存时长，还可以根据需要进行灵活调整，使得参与本次在线教学的各电子设备的缓存时长不同。

基于上述分析，在老师进行在线教学过程中，若老师点名学生A或叫学生A回答问题，学生A通过其使用的电子设备对老师说话内容的实时播放，通常在其被点名或被叫到时会说“能听到”、“我在”等词语，与此同时，学生A的电子设备会对学生A的说话内容进行实时采集，并分析采集到的第一语音信息包含预设的应答关键词(如“能听到”、“我在”等)，该学生A的电子设备的声音传输通道此时处于禁止传输状态，将自动切换到允许传输状态，从而将该学生A所说的“能听到”、“我在”等词语，以及后续说话内容传输至老师以及其他学生的电子设备输出。

另外，在老师教学过程中，现有技术中可能会发生学生B说了一段话，但其电子设备的声音传输通道未开启，即处于禁止传输状态，导致老师以及其他学生无法听到学生B说话内容，需要学生B手动开启后重新说一遍，比较麻烦，降低了用户体验，对此，本申请可以检测到学生B说了预设时长的语音信息，或者采集到预设帧数的语音帧后，直接控制学生B的电子设备的声音传输通道切换到允许传输状态，并将距离当前时刻缓存的待输出的语音信息，如上述采集并缓存的需要传输出去的语音信息发送至老师及其他学生的电子设备输出。

或者，学生B的电子设备也可以基于上述检测结果，直接输出是否开启声音传输通道，并发送预设时长缓存的语音信息，学生B可以根据需要选择，如确定开启并发送，学生B的电子设备可以响应该选择操作，控制其电子设备的声音传输通道切换到允许传输状态，从而将上述采集并缓存的需要传输出去的语音信息发送至老师及其他学生的电子设备输出，如将最近20秒缓存的语音信息发送出去，以避免该学生B重说一遍。

参照图5，为本申请提出的在线语音控制装置的一可选示例的结构示意图，该装置可以适用于电子设备，但并不限定该电子设备的设备类型，如图5所示，该装置可以包括：

语音信息获取模块51，用于确定第一电子设备进入多方通话状态，获取所述第一电子设备采集的第一语音信息；

在一些实施例中，该语音信息获取模块51可以包括：

第一控制单元，用于确定第一电子设备接入多方通话平台创建的目标虚拟空间，控制所述第一电子设备的声音采集通道处于采集状态，且声音传输通道处于禁止传输状态。

声音传输状态控制模块52，检测所述第一语音信息符合预设条件，控制所述第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态；在一些实施例中，声音传输状态控制模块52至少可以包括但并不局限于以下检测单元：

第一检测单元，用于检测所述第一语音信息包含请求交互信息，所述请求交互信息用于请求所述第一电子设备与参与多方通话的第二电子设备进行语音交互；

第二检测单元，用于检测所述第一语音信息包含应答信息，所述应答信息是针对参与多方通话的第二电子设备发送的第二语音信息产生的；

第三检测单元，用于检测当前连续缓存的待输出的第一语音信息的语音帧数量达到预设帧数；

第四检测单元，用于检测当前连续缓存的待输出的第一语音信息的连续缓存时长达到预设时长。

在又一些实施例中，为了实现对第一电子设备的声音传输通道的传输状态的切换控制，上述声音传输状态控制模块52可以包括：

提示信息输出单元，用于检测所述第一电子设备的声音传输通道处于禁止传输状态，输出声音禁止传输的提示信息；

切换控制单元，用于响应针对所述提示信息的允许声音传输的选择操作，控制所述声音传输通道从所述禁止传输状态切换到允许传输状态。

语音信息传输模块53，用于将所述第一语音信息传输至参与多方通话的第二电子设备。

在一些实施例中，如图6所示，语音信息传输模块53可以包括：

第一信息传输单元531，用于将当前获取的第一语音信息传输至参与多方通话的第二电子设备。

在又一些实施例中，如图6所示，本申请提出的在线语音控制装置还可以包括：

语音信息读取模块54，用于从已缓存的待输出的第一语音信息中，读取距离当前时刻预设时间段内缓存的待输出的第一语音信息；

待传输语音信息确定模块55，用于依据所述第一语音信息中符合预设条件的待传输内容，从读取的第一语音信息中确定与所述待传输内容相关联的待传输语音信息；

待传输语音信息传输模块56，用于将所述待传输语音信息传输至参与多方通话的第二电子设备。

可见，本实施例的声音传输状态控制模块控制第一电子设备的声音传输通道切换到允许传输状态后，除了将当前采集的第一语音信息发送至第二电子设备之外，还可以从缓存的待传输的历史语音信息中，提取待传输语音信息，并将待传输语音信息发送至第二电子设备输出，具体实现过程可以参照上述实施例相应部分的描述，本实施例不再赘述。

基于此，为了实现第一语音信息的缓存，本申请提出的在线语音控制装置还可以包括：

存储模块，用于将所述第一语音信息与所述第一语音信息的采集时间、待输出标识进行关联存储；

删除模块，用于检测缓存空间容量小于容量阈值，删除所述采集时间较早的预设数量帧的第一语音信息；

更新模块，用于在所述将所述第一语音信息传输至参与多方通话的第二电子设备之后，将已传输的所述第一语音信息的待输出标识更新为输出标识，或删除已传输的所述第一语音信息。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种计算机可读存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的在线语音控制方法的各个步骤。

参照图7，为本申请提出的计算机设备的一可选示例的硬件结构示意图，该计算机设备可以为上述实施例描述的第一电子设备，或用于实现至少一个第一电子设备和第二电子设备之间的多方通话的通信服务器，本申请对该计算机设备的设备类型不做限定，如图7所示，该计算机设备可以包括：至少一个存储器71和至少一个处理器72，其中：

处理器72可以加载并执行存储器71中存储的实现上述方法实施例描述的在线语音控制方法的程序，以实现本申请任一可选实施例提出的在线语音控制方法的各个步骤，具体实现过程可以参照下文相应实施例相应部分的描述。

在本申请实施例中，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器72，可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

应该理解的是，图7所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中，计算机设备可以包括比图7所示的更多或更少的部件，或者组合某些部件，本申请在此不做一一列举。

在一些实施例中，若计算机设备为上述第一电子设备，如图8所示的硬件结构示意图，该电子设备还可以包括至少一个声音采集器73以及至少一个声音播放器74。

在实际应用中，声音采集器73可以是拾音器等，其可以采集相应电子设备所在环境的语音信息，如采集第一语音信息，并在该电子设备的声音传输通道处于允许传输状态下，将采集到的第一语音信息，甚至是缓存的预设时长内的待传输语音信息发送至参与多方通话的其他电子设备输出，具体实现过程可以参照上述实施例相应部分的描述。

声音播放器74可以是扬声器等，其可以用来输出接收到的参与多方通话的其他电子设备采集并发送的语音信息。本申请对上述声音采集器73和声音播放器的数量以及组成电路结构不做详述。

在本实施例实际应用中，根据需要，该电子设备还可以包括感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、摄像头等至少一个输入设备，以及如显示器、振动机构、灯等设备中的至少一个输出设备等等，图8所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中，电子设备可以包括比图8所示的更多或更少的部件，或者组合某些部件，本申请在此不做一一列举。

最后，需要说明，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种在线语音控制方法，所述方法包括：

将所述第一语音信息传输至参与多方通话的第二电子设备。

2.根据权利要求1所述的方法，所述检测所述第一语音信息符合预设条件，包括以下任一种实现方式：

3.根据权利要求1所述的方法，所述将所述第一语音信息传输至所述第二电子设备，包括：

4.根据权利要求3所述的方法，所述方法还包括：

5.根据权利要求4所述的方法，所述第一语音信息的缓存方式包括：

6.根据权利要求1所述的方法，所述确定第一电子设备进入多方通话状态，包括：

7.根据权利要求1～6任一项所述的方法，所述控制所述第一电子设备的声音传输通道从禁止传输状态切换到允许传输状态，包括：

8.一种在线语音控制装置，所述装置包括：

9.一种计算机设备，所述计算机设备包括：

存储器，用于存储实现如权利要求1～7任一项所述的在线语音控制方法的程序；

处理器，用于加载并执行所述存储器存储的所述程序，以实现如权利要求1～7任一项所述的在线语音控制方法的各步骤。

10.根据权利要求9所述的计算机设备，所述计算机设备具体为第一电子设备，或用于实现至少一个第一电子设备和第二电子设备之间的多方通话的通信服务器；