CN111755003A

CN111755003A - 语音交互实现方法、装置及电子设备

Info

Publication number: CN111755003A
Application number: CN202010580431.5A
Authority: CN
Inventors: 张银平; 汪俊杰; 杨琳; 徐培来; 张传良
Original assignee: Beijing Lenovo Software Ltd
Current assignee: Beijing Lenovo Software Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-09
Anticipated expiration: 2040-06-23
Also published as: CN111755003B

Abstract

本申请提出了一种语音交互控制方法、装置及电子设备，第一电子设备进行语音帧连续采集过程中，获取当前语音帧的激活分数以及增强语音帧，检测到所获取的激活分数达到第一激活阈值但未达到第二激活阈值时，将激活标记、采集时间点以及相应的增强语音帧构建成第一增强语音包发送至第二电子设备，第二电子设备会禁止输出携带激活标记的第一增强语音包，避免了该时间段接收到的可能为激活词的增强语音帧输出后，对接听用户造成干扰，降低在线语音交互质量；若预设采集时间段内获取的激活分数达到第二激活阈值，第二电子设备将输出在第一增强语音包中激活词的结束时间点之后获取的增强语音帧，以保证第一电子设备与第二电子设备之间的正常通话交流。

Description

语音交互实现方法、装置及电子设备

技术领域

本申请主要涉及多方通话应用领域，更具体地说是涉及一种语音交互实现方法、装置及电子设备。

背景技术

目前，大部分电子设备配置有语音识别引擎(如语音助手)，并针对该语音识别引擎配置相应的激活词，用以激活该语音识别引擎进入工作状态，这样，用户可以直接说针对电子设备的语音控制指令，即可控制电子设备执行预设操作，无需用户手动操作，非常方便。

然而，在电子设备应用于如会议、游戏等场景下，实现多用户在线语音交流过程中，电子设备采集到本地用户的语音信息后，无论在语音信息是否包含语音识别引擎的激活词，目前都是直接发送至其他用户的电子设备输出，从而导致本地用户所说的针对本地电子设备的激活词，对其他用户造成干扰，降低了在线语音通话质量，影响用户体验。

发明内容

有鉴于此，为了解决现有技术本地用户所说的针对本地电子设备的激活词，对其他用户造成干扰，降低了在线语音通话质量的技术问题，一方面，本申请提供了一种语音交互控制方法，所述方法包括：

在语音帧连续采集过程中，获取采集的当前语音帧的激活分数及增强语音帧，所述激活分数能够表示当前已采集到的语音帧包含第一电子设备的语音识别引擎的激活词的概率；

检测所述激活分数达到第一激活阈值但未达到第二激活阈值，确定所述当前语音帧的类型标记为激活标记，由相应的增强语音帧、采集时间点及所述激活标记构建第一增强语音包；

将所述第一增强语音包发送至第二电子设备，以使所述第二电子设备禁止输出所述第一增强语音包，直至在预设采集时间段内获取的激活分数达到所述第二激活阈值，确定得到的第一增强语音包中激活词的结束时间点；

由所述结束时间点之后获取的增强语音帧及相应的采集时间点构建第二增强语音包，将所述第二增强语音包发送至所述第二电子设备输出。

可选的，所述在预设采集时间段内获取的激活分数达到所述第二激活阈值，确定携带有所述激活标记的增强语音包中激活词的结束时间点，包括：

在预设采集时间段内获取的激活分数达到所述第二激活阈值，确定在所述预设采集时间段内采集到的语音帧包含所述语音识别引擎的激活词，生成相应的激活检测结果；

将所述激活检测结果发送至所述第二电子设备，以使所述第二电子设备从所述预设采集时间段内接收到的第一增强语音包中，确定激活词的结束时间点；

接收所述第二电子设备反馈的所述结束时间点。

可选的，所述方法还包括：

获取所述当前语音帧的减弱语音帧；

在所述确定所述当前语音帧的类型标记为激活标记的情况下，所述方法还包括：

由所述当前语音帧的减弱语音帧、采集时间点及所述激活标记构建第一减弱语音包；

将所述第一减弱语音包发送至所述第二电子设备，以使得所述第二电子设备输出所述第一减弱语音包。

可选的，所述方法还包括：

检测所述激活分数未达到第一激活阈值，由所述当前语音帧的增强语音帧，及相应的采集时间点构建第二增强语音包，将所述第二增强语音包发送至所述第二电子设备输出。

可选的，所述方法还包括：

若在所述预设采集时间段内获取的激活分数未达到所述第二激活阈值，确定在所述预设采集时间段内采集到的语音帧未包含所述语音识别引擎的激活词，并生成相应的语音检测结果；

将所述语音检测结果发送至第二电子设备，以使所述第二电子设备输出在所述预设采集时间段内接收到的所述第一增强语音包；

由当前时间点之后获取的增强语音帧，及相应的采集时间点构建第二增强语音包，将所述第二增强语音包发送至第二电子设备输出。

又一方面，本申请还提出了一种语音交互控制方法，所述方法包括：

接收第一电子设备发送的增强语音包；

检测所述增强语音包是否携带有激活标记；

若携带有所述激活标记，禁止输出所述增强语音包；

若未携带有所述激活标记，输出所述增强语音包；

其中，携带所述激活标记的增强语音包包括：所述第一电子设备检测到当前语音帧的激活分数达到第一激活阈值但未达到第二激活阈值的情况下，由所述当前语音帧的增强语音帧、采集时间点及确定的所述激活标记构建的增强语音包，所述激活分数能够表示当前已采集到的语音帧包含所述第一电子设备的语音识别引擎的激活词的概率；

未携带所述激活标记的增强语音包包括：所述第一电子设备检测预设采集时间段内获取的激活分数达到第二激活阈值，确定携带激活标记的增强语音包中激活词的结束时间点后，由所述结束时间点之后获取的增强语音帧及相应的采集时间点构建的增强语音帧。

可选的，所述方法还包括：

接收所述第一电子设备发送的激活检测结果，所述激活检测结果是所述第一电子设备在预设采集时间段内获取的激活分数达到所述第二激活阈值的情况下生成的；

对在所述预设采集时间段内接收到的携带有激活标记的增强语音包进行语义分析，确定所述第一电子设备的语音识别引擎的激活词的结束时间点；

将所述结束时间点反馈至所述第一电子设备，并输出所述结束时间点之后接收到的增强语音包；

其中，若在接收第一电子设备发送的增强语音包的同时，接收到所述第一电子设备发送的所述增强语音包相应语音帧的减弱语音包；

输出所述结束时间点之前接收到的减弱语音包，并禁止输出所述结束时间点之后接收到的减弱语音包。

又一方面，本申请还提出了一种语音交互控制装置，所述装置包括：

数据获取模块，用于在语音帧连续采集过程中，获取采集的当前语音帧的激活分数及增强语音帧，所述激活分数能够表示当前已采集到的语音帧包含第一电子设备的语音识别引擎的激活词的概率；

第一检测处理模块，用于检测所述激活分数达到第一激活阈值但未达到第二激活阈值，确定所述当前语音帧的类型标记为激活标记，由相应的增强语音帧、采集时间点及所述激活标记构建第一增强语音包；

第一数据传输模块，用于将所述第一增强语音包发送至第二电子设备，以使所述第二电子设备禁止输出所述第一增强语音包，直至在预设采集时间段内获取的激活分数达到所述第二激活阈值，确定得到的第一增强语音包中激活词的结束时间点；

第二数据传输模块，用于由所述结束时间点之后获取的增强语音帧及相应的采集时间点构建第二增强语音包，将所述第二增强语音包发送至所述第二电子设备输出。

数据接收模块，用于接收第一电子设备发送的增强语音包；

数据检测模块，用于检测所述增强语音包是否携带有激活标记；

禁止输出模块，用于在所述数据检测模块的检测结果为是的情况下，禁止输出所述增强语音包；

数据输出模块，用于在所述数据检测模块的检测结果为否的情况下，输出所述增强语音包；

又一方面，本申请还提出了一种电子设备，所述电子设备包括：

音频采集器；音频播放器；

存储器，用于存储实现如上述的语音交互控制方法的程序；

所述处理器，用于加载并执行所述存储器存储的所述程序，以实现如上述的语音交互控制方法的各步骤。

由此可见，本申请提供了一种语音交互控制方法、装置及电子设备，在如会议、教学、游戏、社交交流等多方通话场景中，为了提高通话质量，避免非交互类内容发送至通话对方输出，对通话对方造成干扰，作为参与多方通话的任一电子设备记为第一电子设备，在进行语音帧连续采集过程中，可以获取当前语音帧的激活分数以及增强语音帧，在第一电子设备使用者交流过程中说了语音识别引擎的激活词的情况下，连续获取的语音帧的激活分数会不断增大，检测到所获取的激活分数达到第一激活阈值，但还未达到第二激活阈值时，可以确定当前语音帧可能是激活词，将激活标记、采集时间点以及相应的增强语音帧，构建成当前语音帧对应的第一增强语音包，并将其发送至第二电子设备，这时，第二电子设备会禁止输出携带激活标记的第一增强语音包，避免了该时间段接收到的可能为激活词的增强语音帧输出后，对接听用户造成干扰，降低在线语音交互质量。

若在预设采集时间段内获取的激活分数达到第二激活阈值，通常第一电子设备的使用者说完了激活词，此时可以确定得到的第一增强语音包中激活词的结束时间点，以使得第一电子设备由该结束时间点之后获取的增强语音帧，及其相应的采集时间点构建第二增强语音包，并发送至第二电子设备输出，以保证第一电子设备与第二电子设备之间的正常通话交流。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请提出的语音交互控制方法的一可选示例的流程示意图；

图2示出了本申请提出的语音交互控制方法的又一可选示例的流程示意图；

图3示出了本申请提出的语音交互控制方法的一可选场景流程示意图；

图4示出了本申请提出的语音交互控制方法的又一可选示例的流程示意图；

图5示出了本申请提出的语音交互控制方法的又一可选示例的流程示意图；

图6示出了本申请提出的语音交互控制方法的又一可选示例的流程示意图；

图7示出了本申请提出的语音交互控制装置的一可选示例的结构示意图；

图8示出了本申请提出的语音交互控制装置的又一可选示例的结构示意图；

图9示出了本申请提出的电子设备的一可选示例的硬件结构示意图。

具体实施方式

针对背景技术部分描述的现有技术，本申请希望在不影响多方正常通话的情况下，减少本地用户所说的针对本地电子设备的激活词，对其他用户造成干扰，达到提高多方通话质量的目的。基于此，针对参与多方通话的任一电子设备(记为第一电子设备，并将参与多方通话的其他电子设备记为第二电子设备)来说，在采集到本地用户的语音帧后，可以先检测该语音帧内容是否为第一电子设备的语音识别引擎的激活词。在此，为了提高该检测结果的可靠性，本申请提出利用预设的两个激活阈值，对连续采集的语音帧的激活分数进行检测，判断预设采集时间段内采集的语音帧是否为激活词，以便在该语音帧为激活词的情况下，禁止第二电子设备输出相应的增强语音帧，达到降低声音干扰的目的，具体检测方法可以参照但并不局限于下文实施例相应部分的描述。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参照图1，为本申请提出的语音交互控制方法的一可选示例的流程示意图，该方法可以适用于电子设备(其可以是作为语音帧发送端的电子设备，可以是参与多方通话的任一电子设备)，在实际应用中，该电子设备可以包括但并不局限于智能手机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、电子书阅读器、台式计算机等，这些电子设备具有语音识别功能，用户可以通过语音控制电子设备执行操作，且能够通过电子设备与其他用户进行在线语音交流，本申请对该电子设备的设备类型不做限定，可以依据具体的在线语音交流应用场景的需求确定。

如图1所示，本实施例提出的语音交互控制方法可以包括但并不局限于以下步骤：

步骤S11，在语音帧连续采集过程中，获取采集的当前语音帧的激活分数及增强语音帧；

本实施例中，当前语音帧的激活分数能够表示当前已采集到的语音帧包含第一电子设备的语音识别引擎的激活词的概率，通常情况下，该激活分数越大，表示当前语音帧包含该语音识别引擎的激活词的概率的越大，也就是说，用户当前说话内容可能是对第一电子设备的语音控制，而不是针对通话对方说的内容。

其中，对于当前语音帧的激活分数的获取，可以利用第一电子设备的语音识别引擎的激活词，与该当前语音帧内容的比较结果确定，可以利用语音识别技术以及自然语音处理技术等人工智能技术实现，如预先训练得到针对第一电子设备的语音识别引擎的激活识别模型，将采集到的语音帧输入该激活识别模型，输出该语音帧的激活分数，本申请对该激活识别模型的训练方法不做详述，且获取当前语音帧的激活分数的方式也并不局限于这种模型识别方式，可以根据实际应用需求灵活确定，本申请对当前语音帧的激活分数的获取方法不做一一详述。

在一些实施例中，在获取连续采集的语音帧各自对应的激活分数时，可以结合相邻采集的若干语音帧确定，而不是仅考虑独立的一个语音帧包含的内容，也就是说，本申请可以考虑相邻连续采集语音帧的完整语义信息，来确定当前语音帧的激活分数，如在上述激活识别模型中使用注意力机制，来获取激活分数。这样，在用户说第一电子设备的语音识别引擎的激活词的场景下，包含该激活词的连续语音帧各自对应的激活分数可能会逐渐增大，一旦用户说完该激活词，获取的下一语音帧的激活分数将突变小，甚至为零，这可以依据实际情况确定。

另外，在多方通话的应用场景下，为了提高通话质量，保证对方能够清晰听到本端用户说话内容，无论该语音帧是否是需要对方听到的内容，本申请都可以直接采用语音增强技术，获取增强语音帧发送至通话对方电子设备(记为第二电子设备)，以避免通话对方错过或听不清本端用户说话内容。

具体的，在一些实施例中，若采集到的语音帧中包含各种噪声干扰信号，本申请实施例可以对采集的语音帧进行降噪处理，以得到本端用户说的语音信息；或者，直接调整本端的电子设备的音频采集器的声音采集方向、增益等信息，来获取较为纯净的用户的语音帧等，以抑制、降低噪声干扰，也就是说，本申请可以对采集的语音帧进行增强处理，得到相应的增强语音帧，也可以利用调整参数后的音频采集器，直接获取增强语音帧，本申请对获取每一语音帧对应的增强语音帧的具体获取方法不做限定，结合上述分析，可以利用语音降噪技术、beamforming(波束成形)技术等实现语音增强，本申请在此不做一一详述。

需要说明，第一电子设备采集到一个语音帧后，获取其激活分数和增强语音帧的执行顺序，可以根据实际应用需求，分先后顺序执行或者同步执行，本申请对这两部分的执行顺序不做限定。

步骤S12，检测激活分数达到第一激活阈值但未达到第二激活阈值，确定当前语音帧的类型标记为激活标记，由相应的增强语音帧、采集时间点及所述激活标记构建第一增强语音包；

本实施例中，第一激活阈值小于第二激活阈值，但并不限定这两个激活阈值的具体数值，可以根据实际应用需求确定。通常情况下，结合上文对激活分数的描述，若当前语音帧的激活分数达到第一激活阈值，说明该当前语音帧包含的内容很可能是语音识别引擎的激活词，但仍需要继续对后续采集的语音帧进行判断，来确定本端用户说的语音内容是否为该激活词，避免误激活。

因此，本实施例在确定当前语音帧的激活分数达到第一激活阈值，但未达到第二激活阈值的情况下，还无法确定当前语音帧的内容是语音识别帧的激活词，还需要继续会后续采集到的语音帧的激活分数继续检测，这种情况下，本申请可以先将较大概率可能为激活词的当前语音帧的类型标记确定为激活标记，再利用该当前语音帧的增强语音帧、采集时间点以及该激活标记，构建该当前语音帧的第一增强语音包，即实现电子设备之间数据传输的数据包，本申请对该第一增强语音包的具体构建方式不做限定，可以依据数据传输通信协议、应用需求等确定，本申请不做详述。

其中，上述激活标记可以是当前语音帧内容的类型标识，用来区别于多方通话过程中的语音交流内容，可以是数字、字母、字符或文本等，本申请对该激活标记的内容不做限定。

步骤S13，将第一增强语音包发送至第二电子设备，以使第二电子设备禁止输出第一增强语音包，直至在预设采集时间段内获取的激活分数达到第二激活阈值，确定得到的第一增强语音包中激活词的结束时间点；

继上述检测分析，确定当前语音帧很可能是针对语音识别引擎的激活词的情况下，可以将其对应的第一增强语音帧发送至第二电子设备，第二电子设备可以通过检测第一增强语音帧是否包含激活标记的方式，来确定是否输出该第一增强语音帧。因此，本实施例将携带有激活标记的第一增强语音包发送至第二电子设备后，第二电子设备会禁止输出这类第一增强语音包，这样，第二电子设备就可以避免输出第一电子设备的使用者，说的针对语音识别引擎的激活词的语音帧，即第二电子设备禁止输出对其使用者无用的语音帧，减少了多方通话过程中的干扰语音信号，以提高多方通话质量。

对于第一电子设备采集的每一个语音帧，均可以按照上述方式进行处理，且结合上文对当前语音帧的激活分数的相关描述，若第一电子设备使用者说的是语音识别引擎的激活词，那么，连续采集的各语音帧的激活分数往往会逐渐增大，若预设采集时间段内连续采集的语音帧的激活分数增加达到第二激活阈值，本实施例可以确定在该预设采集时间段内，第一电子设备发送的语音帧是语音识别引擎的激活词，第二电子设备的使用者可以不用知道这部分内容，直接禁止输出相应的第一增强语音包来避免干扰。

针对上文描述的情况，确定在预设采集时间段内获取的激活分数达到第二激活阈值的情况下，第二电子设备需要知道第一电子设备使用者说完这部分激活词之后的内容，因此，本实施例可以对该预设采集时间段内得到的多个第一增强语音包进行语义分析，来确定针对第一电子设备的语音识别引擎的激活词的结束时间点，从而确定第二电子设备输出第一电子设备发送至的增强语音包的时间点，但本申请对如何确定该激活词的结束时间点的实现方法不做限定。

在一些实施例中，本申请可以利用自动语音识别(Automatic SpeechRecognition，ASR)、自然语言理解(Natural Language Understanding，NLU)等人工智能技术，对预设采集时间段内得到的第一增强语音包进行信息分析，主要是对达到第二激活阈值时刻得到的第一增强语音包的分析，来确定第一电子设备的语音识别引擎的激活词的结束时间点，或表达该激活词完整语义的结束时间点等，本申请在此不做详述。

在本申请实际应用中，无论是发送第一增强语音包的第一电子设备，还是接收第一增强语音包的第二电子设备，或者是实现相互之间语音通信的通信服务器，通常都会在自身存储空间内进行缓存，尤其是对距离当前时刻一段时间(其通常大于上述预设采集时间段)内得到的第一增强语音包进行缓存。所以，对于上述第一电子设备的语音识别引擎的激活词，在第一增强语音包中的结束时间点的获取过程的执行主体，可以是第二电子设备或第一电子设备或是通信服务器，本申请对该执行主体不做限定，可以根据实际需求确定，但无论执行主体是哪个设备，通常会将确定的结束时间点告知第一电子设备和第二电子设备，以使其能够据此调整后续处理步骤。

步骤S14，由该结束时间点之后获取的增强语音帧及相应的采集时间点构建第二增强语音包，将第二增强语音包发送至第二电子设备输出。

继上文实施例的分析，确定第一电子设备的使用者说完语音识别引擎的激活词之后，该使用者后续所说的内容往往需要发送至第二电子设备输出，实现与第二电子设备使用者之间的交流，因此，该结束时间点之后采集的语音帧，可以不用再获取其激活分数，来判断其是否为激活词，直接将该结束时间点之后采集的语音帧，及其采集时间点构成第二增强语音包，将该第二增强语音包发送至第二电子设备输出，以使第二电子设备的使用者听到该结束时间点之后接收到的语音帧内容。

其中，第二增强语音包的获取方式与上述第一增强语音帧的获取方式类似，区别仅在于第二增强语音包未携带激活标记，因此，本申请对该第二增强语音包的具体获取过程不做详述。

另外，关于第二电子设备接收到连续采集时间点对应的各第二增强语音包后，通常会按照接收时间顺序进行缓存，这样，在需要输出时，可以直接按照缓存顺序，对各第二增强语音包进行解析，得到相应的第二增强语音帧，之后，可以按照得到的多个第二增强语音帧的采集时间点大小(或缓存时间大小)，顺次输出这多个第二增强语音帧等，本申请对第二电子设备输出第二增强语音包的具体实现过程不做详述。

综上所述，在如会议、教学、游戏、社交交流等多方通话场景中，为了提高通话质量，避免非交互类内容发送至通话对方输出，对通话对方造成干扰，作为参与多方通话的任一电子设备记为第一电子设备，在进行语音帧连续采集过程中，可以获取当前语音帧的激活分数以及增强语音帧，在第一电子设备使用者交流过程中说了语音识别引擎的激活词的情况下，连续获取的语音帧的激活分数会不断增大，检测到所获取的激活分数达到第一激活阈值，但还未达到第二激活阈值时，可以确定当前语音帧可能是激活词，将激活标记、采集时间点以及相应的增强语音帧，构建成当前语音帧对应的第一增强语音包，并将其发送至第二电子设备，这时，第二电子设备会禁止输出携带激活标记的第一增强语音包，避免了该时间段接收到的可能为激活词的增强语音帧输出后，对接听用户造成干扰，降低在线语音交互质量。

由此可见，在第一电子设备使用者与第二电子设备使用者进行语音交互过程中，第一电子设备说了语音识别引擎的激活词的情况下，相对于现有技术将第一电子设备得到的增强语音帧发送至第二电子设备输出的语音交互控制方法，本申请会在该语音帧对应的增强语音包中添加激活标记，这样，将该增强语音包发送至第二电子设备后，第二电子设备会禁止输出这类携带激活标记的增强语音包，即禁止播放第一电子设备发送的激活词对应的增强语音帧，避免了这类增强语音帧内容对第二电子设备使用者造成干扰，从而保证了多方通话质量，提高了用户体验；而且，对于非激活词的语音帧即交互类语音帧，第二电子设备会正常输出，保证了第一电子设备与第二电子设备之间的正常语音交互。

参照图2，为本申请提出的语音交互控制方法的又一可选示例的流程示意图，本实施例可以是对上述实施例描述的语音交互控制方法的一可选细化实现方式，但并不局限于本实施例描述的这种细化实现方式。如图2所示，该方法可以包括：

步骤S21，在语音帧连续采集过程中，获取采集的当前语音帧的激活分数及增强语音帧；

关于步骤S21的实现过程，可以参照上述实施例相应部分的描述，本实施例不再赘述。

步骤S22，检测该激活分数是否达到第一激活阈值，如果否，进入步骤S23；如果是，执行步骤S24；

步骤S23，由当前语音帧的增强语音帧，以及相应的采集时间点构建第二增强语音包，将该第二增强语音包发送至第二电子设备输出；

结合上述实施例对语音帧的激活分数及第一激活阈值的相关描述，本申请会对电子设备连续采集的每一个语音帧进行激活词打分，得到能够表示当前已采集到的语音帧包含该第一电子设备的，语音识别引擎的激活词的概率的激活分数，之后，将该激活分数与第一激活阈值进行比较，若该激活分数小于该第一激活阈值，通常说明该激活分数对应的语音帧不属于语音识别引擎的激活词，而是需要参与多方通话的其他参与者听到该语音帧的内容，所以，在这种情况下，第一电子设备可以直接将当前语音帧的增强语音帧，以及相应的采集时间点构建成一个第二增强语音包，再发送至第二电子设备，以使得第二电子设备能够按照采集时间点的大小，对接收到的第二增强语音包携带，播放相应的增强语音帧。

其中，关于第二增强语音包的获取过程，可以参照上述实施例相应部分的描述，本实施例不再赘述。

步骤S24，确定当前语音帧的类型标记为激活标记，由相应的增强语音帧、采集时间点及该激活标记构建第一增强语音包；

步骤S25，将该第一增强语音包发送至第二电子设备，以使第二电子设备禁止输出第一增强语音包；

结合上述实施例相应部分的描述，经过上述步骤S22的检测，确定第一电子设备采集的语音帧的激活分数达到了第一激活阈值，说明该语音帧可能会是激活词，如上述分析，本申请在获取其对应的增强语音包时，可以添加激活标记，以使得第二电子设备接收到这类增强语音包(即第一增强语音包)后，通过检测其携带有激活标记，来禁止输出这类增强语音包，避免对第二电子设备使用者造成干扰。

步骤S26，检测预设采集时间段内连续采集的语音帧的激活分数是否增大至第二激活阈值，如果是，进入步骤S27；如果否，执行步骤S29；

结合上述实施例对激活分数的相关部分的描述，在第一电子设备使用者说激活词的场景下，第一电子设备连续采集的语音帧的激活分数往往会不断增大，在连续获取的激活分数达到第一激活阈值未达到第二激活阈值的情况下，可以按照上述步骤S24和步骤S25的方式处理，但此时仍无法准确确定第一电子设备采集到语音帧就是激活词，需要进一步检测判断。

具体的，在实际应用中，若用户需要激活第一电子设备的语音识别引擎，实现对第一电子设备的语音控制，说出该语音识别引擎的预设激活词时，往往会在较短的时间内直接说完该激活词，所以，本申请确定第一电子设备采集的语音帧是否为其语音识别引擎的激活词时，可以检测第一电子设备连续获取的激活分数是否在预设采集时间段(如一秒等，本申请对该预设采集时间段的数值不做限定，通常会是较短的时间)内增加至第二激活阈值。

步骤S27，确定该预设采集时间段内得到的第一增强语音包中激活词的结束时间点；

步骤S28，由该结束时间点之后获取的增强语音帧及相应的采集时间点构建第二增强语音包，将第二增强语音包发送至第二电子设备输出；

继上述分析，检测到第一电子设备连续获取的激活分数，在预设采集时间段内增加到了第二激活阈值，可以确定在预设采集时间段内采集到的语音帧包含语音识别引擎的激活词，之后，可以按照上述实施例相应部分的描述，来执行后续步骤，保证第二电子设备输出该预设采集时间段之后接收到的增强语音包，具体实现过程不做详述。

对于上述步骤S27的具体实现方式本申请不做限定，在一些实施例中，在预设采集时间段内获取的激活分数达到所述第二激活阈值的情况下，第一电子设备可以确定在该预设采集时间段内采集到的语音帧包含语音识别引擎的激活词，生成相应的激活检测结果，并将该激活检测结果发送至第二电子设备，以使第二电子设备从预设采集时间段内接收到的第一增强语音包中，确定激活词的结束时间点，并将该结束时间点反馈至第一电子设备，以使第一电子设备得知激活词说完的结束时间点，决定对后续采集的语音帧的处理方式。

在又一些实施例中，上述第一电子设备的语音识别引擎的激活词的结束时间点，也可以由第一电子设备对相应的预设采集时间段内采集的语音帧进行分析，或生成的增强语音帧进行分析，以基于分析结果得到该结束时间点，实现过程与上述第二电子设备分析确定该结束时间点的过程类似，本申请不做详述。

步骤S29，确定在预设采集时间段内采集到的语音帧未包含语音识别引擎的激活词，并生成相应的语音检测结果；

步骤S210，将该语音检测结果发送至第二电子设备，以使第二电子设备输出在预设采集时间段内接收到的第一增强语音包。

继上述分析，检测到第一电子设备连续获取的激活分数，在预设采集时间段内没有增加到第二激活阈值，本申请将确定在预设采集时间段内采集到的语音帧未包含语音识别引擎的激活词，即预设采集时间段内采集的语音帧是非激活词，需要第二电子设备输出相应的增强语音帧，这种情况下，第一电子设备可以将上述检测得到的语音检测结果，即在预设采集时间段内采集到的语音帧内容是非激活词，发送至第二电子设备，这样，第二电子设备可以从缓存的历史增强语音包中，即在当前时刻之前接收到的各增强语音包中，选择出当前时刻之前的预设采集时间段内接收到的第一增强语音包并输出，从而避免第二电子设备的使用者错过，第一电子设备使用者在该预设采集时间段的说话内容。

需要说明，本申请对上述步骤S29的语音检测结果的内容及其表示方式不做限定，且对如何从第二电子设备缓存的历史增强语音包中，选择出预设采集时间段内接收到的第一增强语音包的实现方法不做详述。

在一些实施例中，若本申请的语音交互控制方法是由上述第一电子设备执行实现，第一电子设备还可以将上述语音检测结果发送至通信服务器，由通信服务器从缓存的第一电子设备发送的增强语音包中，选择出预设采集时间段内缓存的第一增强语音包，再将选择出的第一增强语音包发送至第二电子设备输出。

在又一些实施例中，若本申请的语音交互控制方法是由通信服务器执行的，通信服务器也可以按照上述方式，直接将缓存的第一电子设备在预设采集时间段内，采集并发送的第一增强语音包发送至第二电子设备输出。本申请对上述步骤的具体实现方法不做限定，可以依据本申请的语音交互控制方法的执行主体以及具体应用场景的需求确定，本申请不做一一详述。

步骤S211，由当前时间点之后获取的增强语音帧，及相应的采集时间点构建第二增强语音包，将第二增强语音包发送至第二电子设备输出。

按照上述方式确定第一电子设备采集的语音帧不是激活词后，可以直接由后续采集的语音帧对应的增强语音帧，与相应的采集时间点构建第二增强语音包，并发送至第二电子设备输出，以保证第一电子设备与第二电子设备之间的正常语音交互。

需要说明，本实施例中的上述第一增强语音包，及第二增强语音包并非表示两个增强语音包，而是表示两类增强语音包，即第一增强语音包携带激活标记，即第一电子设备采集的语音帧可能为激活词的情况下，生成的相应的增强语音包，而第二增强语音包是指未携带激活标记的增强语音包，即第一电子设备采集的语音帧为非激活词，而是交互类语音帧的情况下，生成的相应的增强语音包。

综上，在多方通话应用场景下，为了避免一方对本地电子设备的语音识别引擎的激活词，发送至参与多方通话的其他电子设备输出，对其他电子设备的使用者造成干扰，本申请希望电子设备不输出通话对方对自身电子设备发出的控制语音，如针对语音识别引擎的激活词，至少不输出这类语音帧对应的增强语音帧。为了可靠检测第一电子设备采集的语音帧是否为激活词，本申请设置了两个激活阈值，只有当连续采集的语音帧的激活分数满足这两个激活词所构成的激活条件，才能够确定第一电子设备使用者说的是激活词，禁止参与多方通话的其他电子设备，达到上述目的。

若预设采集时间段内连续采集的语音帧的激活分数未满足该激活条件，即连续采集的语音帧的激活分数未在预设采集时间段内增大至第二激活阈值，将确定该预设采集时间段内采集的语音帧不是激活词，对于接收相应增强语音帧的第二电子设备来说，其将重新输出这段时间缓存的增强语音帧，从而避免错过之前误认为是第一电子设备使用者发送的激活词的第一增强语音帧的内容，保证了多方通话质量。

结合上文实施例描述的语音交互控制方法，在实际应用中，确定第一电子设备发送语音帧内容是激活词的情况下，可以按照上述实施例描述的方式，控制第二电子设备禁止输出相应的增强语音帧，以避免干扰。在又一些实施例中，本申请还可以在第一电子设备得到该检测结果后，直接响应这类语音帧，激活第一电子设备的语音识别引擎，以执行相应语音控制操作，同时，如图3所述的场景示例，第一电子设备拒绝将采集的这类语音帧发送至第二电子设备，以从根源上解决第二电子设备输出这类激活词语音帧所造成的干扰。

具体的，在一种可能的实现方式中，第一电子设备可以先获取连续采集各语音帧的激活分数，之后，按照上文描述的检测方式，利用预设的两个激活阈值，对连续采集的语音帧的激活分数进行检测，判断预设采集时间段内采集的语音帧是否为激活词，如果是，禁止将该预设采集时间段内采集的语音帧发送至第二电子设备，避免这类语音帧播放对第二电子设备造成干扰。如果否，再将该预设采集时间段内采集的语音帧发送至第二电子设备输出。

其中，若第一电子设备响应采集的激活词类型的语音帧，以激活语音识别引擎进入工作状态，需要先对直接采集的语音帧进行增强处理，以提高语音控制响应可靠性，本申请也可以按照上述实施例描述的方式，每采集一个语音帧，都可以获取其激活分数及对应的增强语音帧，之后，再对各激活分数进行激活阈值的比较检测；若不需要增强语音帧，本申请也可以不用对采集的语音帧进行增强处理，直接对采集的语音帧进行处理，本申请对此不做限定，可以根据实际应用需求确定。

由此可见，本实施例描述的这种实现方式，在第一电子设备使用者在多方通话过程中，说了针对自身语音识别引擎的激活词，第一电子设备将直接拒绝传输采集到的相应语音帧至第二电子设备，解决了现有技术直接发送至其他用户的电子设备输出，从而导致本地用户所说的针对本地电子设备的激活词，对其他用户造成干扰，降低在线语音通话质量，影响用户体验的技术问题。

同理，在第一电子设备的语音识别引擎被激活处于工作状态下，用户向该第一电子设备发出语音控制指令的情况下，仍可以按照上述实施例描述的方式，识别出第一电子设备采集到的语音帧为控制类语音帧，禁止将采集到的这类语音帧发送至第二电子设备输出，避免对第一电子设备的控制语音指令，对第二电子设备使用者造成声音干扰，具体实现过程可以参照上述实施例的描述不再赘述。

然而，对于本申请上文提出的实现语音交互控制方法的发明构思，由于需要对连续多个语音帧进行分析后，才能够确定第一电子设备使用者说了激活词，之后，无论是第一电子设备将采集到的每一个语音帧都发送至第二电子设备，禁止第二电子设备输出该预设采集时间段内的第一增强语音帧，还是第一电子设备拒绝将该预设采集时间段内采集的语音帧或相应的第一增强语音帧发送至第二电子设备，对于第二电子设备侧来说，都会出现一段时间的声音空白，若是在同步视频的场景下，第二电子设备使用者只能看到第一电子设备使用者嘴部动作，并不能听到相关声音，这将会造成第二电子设备使用者的疑惑，降低了其多方通话体验。

为了进一步改善上述问题，本申请提出第一电子设备采集的每一个语音帧，获取其对应的增强语音帧的同时，还可以获取该语音帧的减弱语音帧，其实现方式与增强语音帧的实现方式可以相反，之后，在发送增强语音帧的同时，也向第二电子设备发送相应的减弱语音帧。这样，在检测第一电子设备使用者可能说了激活词的情况下，第二电子设备可以输出相应的减弱语音帧，由于第二电子设备使用者听不清减弱语音帧内容，也就不会早声音干扰，且保证第二电子设备使用者在听感上的连续性。

若在视频通话场景下，第二电子设备能够配合第一电子设备使用者嘴部运动输出相应的减弱语音帧，避免第二电子设备使用者对第一电子设备使用者嘴部运动，但没有声音输出产生疑惑，提高了用户体验，

下面将结合图4所示的本申请提出的语音交互控制方法的又一可选示例的流程示意图，对上文描述的语音交互控制方法的发明构思进行举例说明，也就是说，本实施例可以是对上述实施例描述的语音交互控制方法的一可选优化实现方式，但并不局限于本实施例描述的优化实现方式。如图4所示，该方法可以包括：

步骤S41，在语音帧连续采集过程中，获取采集的当前语音帧的激活分数、增强语音帧及减弱语音帧；

其中，关于当前语音帧的激活分数和增强语音帧的获取过程，可以参照上述实施例相应部分的描述，对于第一电子设备采集的语音帧对应的减弱语音帧的获取方式，可以采用降低语音帧的音量的方式进行处理，如以固定的数值降低语音帧的音量，或逐渐降低该语音帧的音量，将音量逐渐降低的语音帧确定为相应的减弱语音帧等，或者，本申请还可以采用如自适应滤波等语音消除技术，对采集的语音帧进行语音消除处理，由得到的消除后的语音信号作为减弱语音帧等，本申请对减弱语音帧的具体获取方法不做限定。

在一种可能的实现方式中，对于上述语音消除技术，在第一电子设备具有部署在不同位置的多个音频采集器的情况下，可以利用距离用户较近的音频采集器采集到的语音信号，对距离该用户较远的音频采集器采集到的语音信号进行消除处理，但并不局限于这种语音消除实现方法。

步骤S42，检测激活分数达到第一激活阈值但未达到第二激活阈值，确定当前语音帧的类型标记为激活标记；

步骤S43，由相应的增强语音帧、采集时间点及所述激活标记构建第一增强语音包，并由当前语音帧的减弱语音帧、采集时间点及激活标记构建第一减弱语音包；

步骤S44，将第一增强语音包和第一减弱语音包发送至第二电子设备，以使第二电子设备禁止输出第一增强语音包，输出相应的第一减弱语音包；

步骤S45，检测预设采集时间段内连续获取的激活分数是否达到第二激活阈值，如果是，进入步骤S46；如果否，执行步骤S48；

结合上述分析，在本实施例实际应用中，按照上述检测方式，在确定第一电子设备采集的语音帧为激活词之前，第一电子设备可以将采集的每一个语音帧对应的增强语音帧和减弱语音帧均发送至第二电子设备，并由第二电子设备输出携带激活标记的减弱语音帧，禁止输出携带激活标记的增强语音帧，在避免增强语音帧造成声音干扰的同时，能够保证第二电子设备输出声音的连续性，提高用户体验。

按照上述方式对后续连续采集的语音帧进行激活词检测，确定第一电子设备采集的语音帧为激活词或不是激活词之后，本实施例可以按照后续方式，确定第二电子设备是切换到输出后续语音帧的增强语音包，还是重新输出之前减弱语音包对应的增强语音包，以避免用户错过多方通话内容。

步骤S46，确定预设采集时间段内得到的第一增强语音包中激活词的结束时间点；

步骤S47，由该结束时间点之后获取的增强语音帧及相应的采集时间点构建第二增强语音包，将第二增强语音包发送至第二电子设备输出；

步骤S48，控制第二电子设备输出预设采集时间段内得到的第一增强语音包；

步骤S49，由当前时间点之后获取的增强语音帧，及相应的采集时间点构建第二增强语音包，将第二增强语音包发送至第二电子设备输出。

关于上述步骤S46～步骤S49的具体实现过程，可以参照上述实施例相应部分的描述，本申请不再赘述。

综上所述，在本实施例中，对于第一电子设备连续采集的语音帧，在获取其增强语音帧的同时，将获取相应的减弱语音帧，在未确定该语音帧是激活词之前，可以先将该增强语音帧和减弱语音帧同时发送至第二电子设备，由第二电子设备输出该减弱语音帧，而暂时禁止输出增强语音帧，在后续语音帧的激活词检测过程中，确定所采集的语音帧为激活词后，第二电子设备可以在确定激活词说完的结束时间点后，直接切换输出增强语音帧，这样，在避免激活词语音帧干扰的同时，保证了多方通话质量。

若确定第一电子设备所采集的语音帧不是激活词的情况下，第二电子设备可以直接读取已缓存的相应增强语音帧并输出，避免错过多方通话内容的同时，相对于第一电子设备重新传输相应的增强语音帧的方式，第二电子设备能够更加快速地输出这部分增强语音帧，减少了第二电子设备使用者等待时间，提高了用户体验感受。

结合上述实施例描述的从语音帧发送侧描述的语音交互控制方法，下面将从语音帧接收侧描述该语音交互控制方法的实现过程，本实施例描述的实现过程可以与上述实施例描述的实现过程可以是交互过程，部分实现步骤的具体实现方法可以参照上文实施例的描述，本实施例不做详述。

参照图5所示，为本申请提出的语音交互控制方法的又一可选示例的流程示意图，该方法可以适用于参与多方通话的任一电子设备，主要是该电子设备作为语音帧接收端的情况下，可以执行本实施例描述的语音交互控制方法，应该理解的是，对于参与多方通话的各电子设备，既可以接收语音帧，也可以采集语音帧发送至其他电子设备，也就是说，其可以作为语音帧发送端，也可以作为语音帧接收端，在不同场景下，该电子设备可以依据其当前所作的角色，来确定其所执行的语音交互控制方法的具体步骤，本实施例主要从语音帧接收侧，对第二电子设备所执行的语音交互控制方法进行描述。

如图5所示，本实施例提出的语音交互控制方法可以包括但并不局限于以下步骤：

步骤S51，接收第一电子设备发送的增强语音包；

结合上述实施例的描述，在实际应用中，为了保证第二电子设备使用者能够可靠听到，第一电子设备使用者说话内容，第一电子设备采集到语音帧后，通常会对其进行增强处理，并将得到的增强语音包发送至第二电子设备，关于该增强语音包的获取过程，可以参照上述实施例相应部分的描述，不再赘述。

步骤S52，检测该增强语音包是否携带有激活标记，如果是，进入步骤S53，如果否，执行步骤S54；

结合上述实施例的描述，第一电子设备或通信服务器检测到当前语音帧的激活分数达到第一激活阈值但未达到第二激活阈值的情况下，由当前语音帧的增强语音帧、采集时间点及确定的激活标记构建第一增强语音包，因此，本实施例携带有激活标记的增强语音包是指上述实施例中的第一增强语音包。

由于该激活分数能够表示当前已采集到的语音帧，包含第一电子设备的语音识别引擎的激活词的概率，结合上文对第一激活阈值和第二激活阈值的相关描述，检测到连续采集的语音帧可能是激活词的情况下，第一电子设备或通信服务器将会构建携带有激活标记的增强语音包。

基于上述分析，未携带激活标记的增强语音包可以是指第一电子设备采集的语音帧不是激活词的情况下，需要第二电子设备输出的增强语音包，即第一电子设备或通信服务器检测预设采集时间段内获取的激活分数达到第二激活阈值，确定携带激活标记的增强语音包中激活词的结束时间点后，由结束时间点之后获取的增强语音帧及相应的采集时间点构建的第二增强语音帧。

当然，若第一电子设备或通信服务器检测第一电子设备采集的语音帧的激活分数小于第一激活阈值的情况下，直接由相应的增强语音帧和采集时间点，构建得到第二增强语音帧，即未携带激活标记的增强语音帧，具体实现过程可以参照上述实施例相应部分的描述。

步骤S53，禁止输出该增强语音包；

步骤S54，输出该增强语音包。

在一些实施例中，若在获取第一电子设备采集的语音帧对应的增强语音帧的同时，也获取了该语音帧对应的减弱语音帧，并将构建的相应减弱语音包，与该增强语音包同时发送至第二电子设备的情况下，第二电子设备禁止输出增强语音包的场景下，可以输出同一语音帧对应的减弱语音包，以保证第二电子设备输出声音的连续性，提高用户体验。

一旦确定第一电子设备使用者未说激活词或说完激活词，第二电子设备将从之前输出减弱语音包的方式，确定到输出相应的增强语音包，保证多方通话质量。具体实现过程可以参照上述实施例相应部分的描述，不再赘述。

综上，在本实施例实际应用中，第二电子设备接收到第一电子设备发送的增强语音包后，通过检测其是否携带有激活标记，来确定是否要输出该增强语音包，避免直接输出激活词的增强语音包造成声音干扰，提高了用户体验。

在一些实施例中，对于上述激活词的结束时间点的检测，可以由第一电子设备、通信服务器或第二电子设备实现，本实施例仅以第二电子设备实现为例进行说明，因此，在上述实施例描述的第二电子设备执行的语音交互控制方法的基础上，如图6所示，该方法还可以包括：

步骤S61，接收第一电子设备发送的激活检测结果，该激活检测结果是第一电子设备在预设采集时间段内获取的激活分数达到第二激活阈值的情况下生成的；

步骤S62，对在预设采集时间段内接收到的携带有激活标记的增强语音包进行语义分析，确定第一电子设备的语音识别引擎的激活词的结束时间点；

步骤S63，将该结束时间点反馈至第一电子设备，并输出该结束时间点之后接收到的增强语音包。

其中，若在接收第一电子设备发送的增强语音包的同时，接收到第一电子设备发送的该增强语音包相应语音帧的减弱语音包，第二电子设备将输出该结束时间点之前接收到的减弱语音包，并禁止输出结束时间点之后接收到的减弱语音包，从而避免第一电子设备传输激活词，对第二电子设备使用者造成声音干扰，同时保证传输完激活词后的正常语音交流。

基于上述各实施例描述的语音交互控制方法，下面将以多人在线玩游戏的应用场景为例，来说明该语音交互控制方法在该场景下的一可选实现方式，玩家A使用手机1，玩家B使用手机2分别登录游戏服务器，建立相互之间语音通话的通信通道后，玩家A说“小P小P(电子设备1的语音助手的激活词)，将手机播放音量调大一些，兄弟，开来支援我，我要被打败了”这段话过程中，“小P小P(电子设备1的语音助手的激活词)，将手机播放音量调大一些”是对手机1的语音控制指令，“兄弟，开来支援我，我要被打败了”是需要发送至玩家B的手机播放的。

针对上述场景，在一些实施例中，手机1可以采集到“小P小P，将手机播放音量调大一些”对应的多个语音帧后，拒绝发送至玩家B的手机2，这样，玩家B就不会听到这部分声音，也就不会对其造成干扰。

在又一些实施例中，在玩家A说上段话过程中，手机1可以获取连续采集到的各语音帧的激活分数，以及相应的增强语音帧、减弱语音帧，按照上述实施例描述的语音帧的激活词检测方式，确定玩家A当前语音帧的激活分数达到第一激活阈值，可以构建携带激活标记、采集时间点的增强语音包，以及携带激活标记、采集时间点的减弱语音包，并将该增强语音包和减弱语音包都传输至玩家B的手机2，此时，手机2将解析携带激活标记的减弱语音包，播放减弱语音帧，即播放“小P小P，将手机播放音量调大一些”这一内容的减弱后的语音信号，玩家B不会听到这部分内容，而是听到一些舒适的背景声音，使得玩家B在听感上不会突兀。

按照上述方式继续对手机1采集的语音帧进行激活词检测，若玩家A的语音帧的激活分数没有在较短时间内(即预设采集时间段)持续增大到第二激活阈值，确定玩家A说的不是激活词，玩家B使用的手机2可以按照缓存的语音包中，采集时间点顺序播放该时间段内缓存的带有激活标记的增强语音包中的增强语音帧，从而保证有用语音帧不会丢失，玩家B不会错过玩家A的说话内容。对于播放后的语音帧可以直接删除，避免对其对手机2缓存空间的占用。

若玩家A的语音帧的激活分数在较短时间内持续增大到第二激活阈值，确定玩家A说的是激活词，即本实施例描述的场景，即便手机1将玩家A的语音帧对应的携带激活标记的增强语音包、减弱语音包都发送至手机2，但在确定为激活词之前，手机2播放的是减弱语音包中的减弱语音帧，在确定为激活词后，可以对增强语音帧进行语义分析，确定激活词的结束时间点，以使得手机1在结束时间点后采集的语音帧，可以只获取增强语音帧并发送至手机2，手机2将在该结束时间点停止播放减弱语音帧，改为播放该结束时间点之后接收到的增强语音帧，这样玩家B就能够可靠听到玩家A说的“兄弟，开来支援我，我要被打败了”这部分内容，且因手机1对其进行了增强处理，减少了背景噪声对玩家A声音的干扰，使手机2尽可能播放纯净的玩家A的语音信号。之后手机2可以删除已播放的语音帧。

综上，本申请采用激活词双阈值的方式，对手机1采集的语音帧进行激活词检测，极大提升了激活词判定的鲁棒性和实时性，防止激活词的头部语音数据被增强后在手机2中播放，对玩家B造成声音干扰，且由于同时发送增强语音包和减弱语音包，减少了手机2播放增强语音帧的延迟时间，用户基本感受不到该延迟，大大提升了游戏场景中的用户体验。

同理，对于玩家A未说激活词，直接在手机1语音助手激活的情况下，说控制类语音+游戏交互性语音的语音交互控制方法的实现过程类似，本申请不再赘述。

需要说明的是，对于本申请提出的语音交互控制方法并不局限于上文描述的游戏场景，还可以是其他多方通话应用场景，实现过程类似，本申请不做一一详述。

参照图7，为本申请提出的语音交互控制装置的一可选示例的结构示意图，其可以适用于上述参与多方通话的任一电子设备，或实现多方电子设备语音交互的通信服务器，可以根据实际需求确定。如图7所示，该装置可以包括：

数据获取模块71，用于在语音帧连续采集过程中，获取采集的当前语音帧的激活分数及增强语音帧，所述激活分数能够表示当前已采集到的语音帧包含第一电子设备的语音识别引擎的激活词的概率；

第一检测处理模块72，用于检测所述激活分数达到第一激活阈值但未达到第二激活阈值，确定所述当前语音帧的类型标记为激活标记，由相应的增强语音帧、采集时间点及所述激活标记构建第一增强语音包；

第一数据传输模块73，用于将所述第一增强语音包发送至第二电子设备，以使所述第二电子设备禁止输出所述第一增强语音包，直至在预设采集时间段内获取的激活分数达到所述第二激活阈值，确定得到的第一增强语音包中激活词的结束时间点；

在一些实施例中，该第一数据传输模块73可以包括：

激活检测结果生成单元，用于在预设采集时间段内获取的激活分数达到所述第二激活阈值，确定在所述预设采集时间段内采集到的语音帧包含所述语音识别引擎的激活词，生成相应的激活检测结果；

激活检测结果发送单元，用于将所述激活检测结果发送至所述第二电子设备，以使所述第二电子设备从所述预设采集时间段内接收到的第一增强语音包中，确定激活词的结束时间点；

结束时间点接收单元，用于接收所述第二电子设备反馈的所述结束时间点。

第二数据传输模块74，用于由所述结束时间点之后获取的增强语音帧及相应的采集时间点构建第二增强语音包，将所述第二增强语音包发送至所述第二电子设备输出。

在一些实施例中，本申请提出的语音交互控制装置还可以包括：

减弱语音帧获取模块，用于获取所述当前语音帧的减弱语音帧；

第一语音包构建模块，用于在所述确定所述当前语音帧的类型标记为激活标记的情况下，由所述当前语音帧的减弱语音帧、采集时间点及所述激活标记构建第一减弱语音包；

第一语音包发送模块，用于将所述第一减弱语音包发送至所述第二电子设备，以使得所述第二电子设备输出所述第一减弱语音包。

基于上述实施例描述的结构，本申请提出的语音交互控制装置还可以包括：

第二语音包构建模块，用于检测所述激活分数未达到第一激活阈值，由所述当前语音帧的增强语音帧，及相应的采集时间点构建第二增强语音包，将所述第二增强语音包发送至所述第二电子设备输出。

激活检测结果生成模块，用于若在所述预设采集时间段内获取的激活分数未达到所述第二激活阈值，确定在所述预设采集时间段内采集到的语音帧未包含所述语音识别引擎的激活词，并生成相应的语音检测结果；

激活检测结果发送模块，将所述语音检测结果发送至第二电子设备，以使所述第二电子设备输出在所述预设采集时间段内接收到的所述第一增强语音包；

第三语音包构建模块，用于由当前时间点之后获取的增强语音帧，及相应的采集时间点构建第二增强语音包，将所述第二增强语音包发送至第二电子设备输出。

下面将从第二电子设备角度描述本申请提出的语音交互控制装置的组成结构，如图8所示，该装置可以包括：

数据接收模块81，用于接收第一电子设备发送的增强语音包；

数据检测模块82，用于检测所述增强语音包是否携带有激活标记；

禁止输出模块83，用于在所述数据检测模块的检测结果为是的情况下，禁止输出所述增强语音包；

数据输出模块84，用于在所述数据检测模块的检测结果为否的情况下，输出所述增强语音包；

在一些实施例中，上述装置还可以包括：

激活检测结果接收模块，用于接收所述第一电子设备发送的激活检测结果，所述激活检测结果是所述第一电子设备在预设采集时间段内获取的激活分数达到所述第二激活阈值的情况下生成的；

语音分析模块，用于对在所述预设采集时间段内接收到的携带有激活标记的增强语音包进行语义分析，确定所述第一电子设备的语音识别引擎的激活词的结束时间点；

结束时间点反馈模块，用于将所述结束时间点反馈至所述第一电子设备，并输出所述结束时间点之后接收到的增强语音包；

其中，若在数据接收模块81接收第一电子设备发送的增强语音包的同时，接收到所述第一电子设备发送的所述增强语音包相应语音帧的减弱语音包；上述数据输出模块84将输出所述结束时间点之前接收到的减弱语音包，触发禁止输出模块83禁止输出所述结束时间点之后接收到的减弱语音包。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在相应计算机设备的存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种计算机可读存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的语音交互控制方法的各个步骤。

参照图9，为本申请提出的电子设备的一可选示例的硬件结构示意图，该电子设备可以包括：音频采集器91、音频播放器92、存储器93以及处理器94，其中：

音频采集器91、音频播放器92、存储器93以及处理器94的数量均可以为至少一个，且音频采集器91、音频播放器92、存储器93以及处理器94均可以连接电子设备的通信总线，以实现相互之间的数据通信，具体实现过程本实施例不做详述。

在本申请实施例中，存储器93可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器94，可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

在本实施例实际应用中，存储器93可以存储实现上述任一实施例描述的语音交互控制方法的程序，处理器94可以加载并执行存储器12中存储的程序，以实现本申请任一可选实施例提出的语音交互控制方法的各个步骤，具体实现过程可以参照下文相应实施例相应部分的描述。

应该理解的是，图9所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中，电子设备可以包括比图,9所示的更多或更少的部件，或者组合某些部件，本申请在此不做一一列举。

在本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、电子设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音交互控制方法，所述方法包括：

2.根据权利要求1所述的方法，所述在预设采集时间段内获取的激活分数达到所述第二激活阈值，确定携带有所述激活标记的增强语音包中激活词的结束时间点，包括：

接收所述第二电子设备反馈的所述结束时间点。

3.根据权利要求1所述的方法，所述方法还包括：

获取所述当前语音帧的减弱语音帧；

4.根据权利要求1所述的方法，所述方法还包括：

5.根据权利要求1～4任一项所以的方法，所述方法还包括：

6.一种语音交互控制方法，所述方法包括：

接收第一电子设备发送的增强语音包；

检测所述增强语音包是否携带有激活标记；

若携带有所述激活标记，禁止输出所述增强语音包；

若未携带有所述激活标记，输出所述增强语音包；

7.根据权利要求6所述的方法，所述方法还包括：

8.一种语音交互控制装置，所述装置包括：

9.一种语音交互控制装置，所述装置包括：

数据接收模块，用于接收第一电子设备发送的增强语音包；

10.一种电子设备，所述电子设备包括：

音频采集器；音频播放器；

存储器，用于存储实现如权利要求1～7任一项所述的语音交互控制方法的程序；

所述处理器，用于加载并执行所述存储器存储的所述程序，以实现如权利要求1～7任一项所述的语音交互控制方法的各步骤。