CN111798872A

CN111798872A - 用于在线互动平台的处理方法、装置及电子设备

Info

Publication number: CN111798872A
Application number: CN202010624062.5A
Authority: CN
Inventors: 张学荣; 周席龙; 许威; 张晓平; 李斌
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-20
Anticipated expiration: 2040-06-30
Also published as: CN111798872B

Abstract

本申请提出了一种用于在线互动平台的处理方法、装置及电子设备，在登录多方互动平台进行多方通话的场景下，参与者说话过程中，其使用的第一电子设备可以检测其采集到的音频帧是否包含预设关键词，并在确定第一时刻采集到的音频帧包含预设关键词时，提取能够表达与该预设关键词关联的完整语义的多个目标音频帧，并将所提取的目标音频帧发送至预设关键词关联的第二电子设备，以使得使用第二电子设备参与者未听清楚该目标音频帧的内容的情况下，通过输出多个目标音频帧能够得知之前其错过的通话内容，提高了多方通话质量，且提高了用户对在线互动平台的体验感受。

Description

用于在线互动平台的处理方法、装置及电子设备

技术领域

本申请主要涉及在线互动应用领域，更具体地说是涉及一种用于在线互动平台的处理方法、装置及电子设备。

背景技术

随着互联网及电子通信技术的发展，为了解决因异地、特殊环境等方面的限制而导致用户无法面对面交流的问题，开发商提出了多种在线互动平台，如目前用户常用的社交软件的社交应用平台、针对特定行业(如教育行业、企业办公等)开发的专用应用平台等，多个用户通过各自的电子设备可以随时随地登录在线互动平台，实现不同用户之间的在线交流，非常方便。

以目标比较流行的在线教学场景为例，老师可以通过登录在线教学平台，并在创建的教学虚拟空间内给学生们进行直播授课，在此期间，学生和老师可以在该教学虚拟空间内进行互动交流，提高在线教学质量。

发明内容

有鉴于此，本申请提供了一种用于在线互动平台的处理方法，所述方法包括：

检测第一电子设备采集的音频帧是否包含预设关键词；

在所述第一电子设备音频采集过程中，如果在第一时刻采集的音频帧包含所述预设关键词，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧；

将所述多个目标音频帧发送至所述预设关键词关联的第二电子设备。

可选的，所述提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧，包括：

对从所述第一电子设备从第二时刻开始连续采集的音频帧进行语义分析，其中，所述第二时刻晚于所述第一时刻；

依据所述语义分析结果，从所述连续采集的音频帧中，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧。

可选的，所述依据所述语义分析结果，从所述连续采集的音频帧中，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧，包括：

检测从所述第二时刻到当前时刻已缓存的历史音频帧，与所述当前时刻采集的音频帧的语义分析结果是否满足条件，所述条件是指能够表达与所述预设关键词关联的完整语义；

如果不满足所述条件，继续对下一时刻采集的音频帧的语义分析结果进行检测，直至得到的语义分析结果满足所述条件，提取满足所述条件的多个目标音频帧。

可选的，所述检测第一电子设备采集的音频帧是否包含预设关键词，包括：

对第一电子设备采集的音频帧进行文本转换，检测得到的文本信息中是否包含预设关键词；或者，

对第一电子设备采集的音频帧进行声谱分析，依据声谱分析结果，确定当前采集到的音频帧是否包含预设关键词。

可选的，所述方法还包括：

在确定所述多个目标音频帧的过程中，同步确定所述第一电子设备展示或图像采集器采集的，与所述目标音频帧的时间信息对应的目标视频帧；

所述将所述多个目标音频帧发送至所述预设关键词关联的第二电子设备，包括：

由同一时间信息对应的目标音频帧和目标视频帧，构建目标音视频数据包，并将构建的多个所述目标音视频数据包发送至所述预设关键词关联的第二电子设备；或者，

将所述多个目标音频帧以及确定的多个目标视频帧，分别通过对应的数据传输通道，发送至与所述预设关键词关联的第二电子设备。

可选的，所述将所述多个目标音频帧发送至所述预设关键词关联的第二电子设备，包括：

对所述多个目标音频帧进行语义文本转换，得到目标文本信息；

将所述目标文本信息发送至与所述预设关键词关联的第二电子设备输出；

接收所述第二电子设备采集的针对所述目标文本信息的反馈音频帧；

响应针对所述反馈音频帧的播放指令，播放所述反馈音频帧。

本申请还提出了一种用于在线互动平台的处理方法，所述方法包括：

接收第一电子设备采集并发送的音频帧；

在输出所述音频帧过程中，检测所述音频帧是否包含针对自身电子设备的预设关键词；

如果在第一时刻输出的音频帧包含所述预设关键词，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧；

对所述多个目标音频帧进行存储。

本申请还提出了一种用于在线互动平台的处理装置，所述装置包括：

音频帧检测模块，用于检测第一电子设备采集的音频帧是否包含预设关键词；

目标音频帧提取模块，用于在所述第一电子设备音频采集过程中，如果第一时刻采集的音频帧包含所述预设关键词，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧；

目标音频帧传输模块，用于将所述多个目标音频帧发送至所述预设关键词关联的第二电子设备。

音频帧接收模块，用于接收第一电子设备采集并发送的音频帧；

音频帧检测模块，用于在输出所述音频帧过程中，检测所述音频帧是否包含针对自身电子设备的预设关键词；

目标音频帧提取模块，用于在第一时刻输出的音频帧包含所述预设关键词的情况下，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧；

目标音频帧存储模块，用于对所述多个目标音频帧进行存储。

本申请还提出了一种电子设备，所述电子设备包括：

音频采集器；音频播放器；

存储器，用于存储实现如上述的用于在线互动平台的处理方法的程序；

处理器，用于加载并执行所述存储器存储的所述程序，以实现如上述的用于在线互动平台的处理方法的各步骤。

由此可见，本申请提供了一种用于在线互动平台的处理方法、装置及电子设备，在登录多方互动平台进行多方通话的场景下，参与者说话过程中，其使用的第一电子设备可以检测其采集到的音频帧是否包含预设关键词，并在确定第一时刻采集到的音频帧包含预设关键词时，提取能够表达与该预设关键词关联的完整语义的多个目标音频帧，并将所提取的目标音频帧发送至预设关键词关联的第二电子设备，以使得使用第二电子设备参与者未听清楚该目标音频帧的内容的情况下，通过输出多个目标音频帧能够得知之前其错过的通话内容，提高了多方通话质量，且提高了用户对在线互动平台的体验感受。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1出了本申请提出的用于在线互动平台的处理方法的一可选示例的流程示意图；

图2示出了本申请提出的用于在线互动平台的处理方法的一可选示例的场景流程示意图；

图3示出了本申请提出的用于在线互动平台的处理方法的又一可选示例的流程示意图；

图4示出了本申请提出的用于在线互动平台的处理方法的又一可选示例的流程示意图；

图5示出了本申请提出的用于在线互动平台的处理方法的又一可选示例的流程示意图；

图6示出了本申请提出的用于在线互动平台的处理装置的一可选示例的结构示意图；

图7示出了本申请提出的用于在线互动平台的处理装置的又一可选示例的结构示意图；

图8示出了本申请提出的用于在线互动平台的处理装置的又一可选示例的结构示意图；

图9示出了本申请提出的电子设备的一可选示例的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参照图1，为本申请提出的用于在线互动平台的处理方法的一可选示例的流程示意图，该方法可以适用于电子设备，在实际应用中，该电子设备可以包括但并不局限于智能手机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、电子书阅读器、台式计算机等。应该理解的是，该电子设备具有语音采集及识别功能，但本申请对电子设备的组成结构不做限定。如图1所示，该方法可以包括：

步骤S11，检测第一电子设备采集的音频帧是否包含预设关键词；

其中，第一电子设备可以是登陆在线互动平台，参与多方通话应用场景的任一电子设备，第二设备可以是参与多方通话的其他电子设备(即除了当前时刻确定的第一电子设备之外的电子设备)。但在某些特定应用场景下，参与多方通话的多个参与者存在身份差异，如某一个或多个参与者是主讲人身份，其他参与者是主聆听人身份，那么，该第一电子设备可以是当前时刻为主讲人身份的参与者使用的电子设备，第二电子设备可以包括当前时刻为主聆听人身份的其他参与者使用的电子设备，但并不局限于此。

应该理解的是，由于登录在线互动平台进行多方通话过程中，不同时刻说话的人可能不同，第一电子设备可以随着说话人使用的电子设备的变化而更改，可以不用特指某一个电子设备，相应地，第二电子设备可以随着第一电子设备变化而更改，也不用特指某一个电子设备。

其中，在多个电子设备登录在线互动平台进行语音交互过程中，若参与者A说话期间，其他参与者可能会暂时离开，或者因其他事情、网络状况不良，语音卡顿等原因，使其没有听到或没有听清楚参与者A说话内容，降低在线语音交互质量，也影响了该参与者的在线语音交互体验。

为了改善该问题，本申请希望电子设备能够在说话人的说话内容涉及到其他参与者(即此时在线听说话人语音内容的参与者)时，自动提取相关语音内容并独立发送至该参与者，这样，即便该参与者错过说话人在线所说的与其相关的内容，也能够通过播放提取的这部分语音得知，保证了在线语音交互质量，提高了用户体验。

基于上文对本申请发明构思的描述，本申请实施例可以针对本次多方通话场景下，参与该多方通话的各参与者配置一一对应的预设关键词，即用来触发提取与对应参与者相关的音频帧的关键词，如参与者的姓名、位置、编号等，本申请对该预设关键词的内容不做限定，可结合各参与者身份、多方通话的场景主题等因素确定，并不局限于本申请列举的内容。

在完成对各参与者一一对应的预设关键词的配置后，可以由通信服务器共享至各参与者的电子设备存储，以使得各电子设备能够实现针对每一个参与者关联音频帧的提取；当然，该预设关键词与各参与者(也可以是参与者使用的电子设备)之间的一一对应关系，也可以直接存储在通信服务器中，后续可以根据参与者个人需求，确定需要进行语音提取时，由其电子设备访问该通信服务器，获取该对应关系并存储，本申请对该对应关系的表示方式及存储方式均不作限定。

示例性的，以在线教学场景为例进行说明，老师讲课过程中，说到学生A的名字，如叫学生A回答问题、点评学生A的作业，或者是讲到某道题时，随口说到学生A的解题思路值得大家学习等，通常情况下，学生A是希望将老师说到的与其相关的这一句或多句话听清楚的，若学生A在老师说到这些内容时正在走神，没有听清楚这些话，往往会给学生A带来较差的在线语音交互体验。对此，本申请可以将该学生A的名字作为其对应的预设关键词，老师使用的电子设备采集老师说的音频帧过程中，可以检测采集到的音频帧中是否包含该学生A的名字，以确定是否需要从老师说的音频帧中，提取与学生A相关的目标音频帧。

应该理解的是，若老师在教学过程中，说到学生P的名字，但该学生P并未参与本次在线教学，或者说该学生P并不是本次参与在线教学的班级学生，那么，该学生P的名字不是本次在线教学的预设关键词。也就是说，针对不同的多方通话场景，所配置的预设关键词可能不同，在多方通话场景1中，关键词1为其预设关键词，能够触发电子设备进行音频帧提取，但在多方通话场景2中，该关键词1不再是预设关键词。

在本实施例实际应用中，步骤S11的具体实现过程可以依据该预设关键词的类型，对第一电子设备采集到的音频帧进行检测，如检测音频帧的文本内容是否包含预设关键词，或检测音频帧的频谱特征是否包含预设关键词等，本申请对步骤S11的具体实现方法不做限定。

步骤S12，在第一电子设备音频采集过程中，如果在第一时刻采集的音频帧包含预设关键词，提取能够表达与预设关键词关联的完整语义的多个目标音频帧；

继上述分析，第一电子设备在对其参与者说话内容进行连续音频采集过程中，针对采集到的每一个音频帧，均可以参照上述方法检测其是否包含预设关键词，若在第一时刻(音频采集过程中的任一时刻)采集到的音频帧包含预设关键词，如上述在线教学场景中，老师在第一时刻提到了学生A的名字(其名字为预设关键词)，为了避免该学生A未听到老师说话内容，老师的第一电子设备可以将老师获得与该学生A的相关音频帧提取出来，并发送至学生A的电子设备。基于此，本申请实施例可以在确定在第一时刻采集的音频帧包含预设关键词，提取能够表达与预设关键词关联的完整语义的多个目标音频帧。

通常情况下，第一电子设备参与者说到预设关键词的第一时刻之前，可能也会涉及到与该预设关键词语义相关联的音频帧，在该第一时刻之后，仍可能会涉及到与该预设关键词语义相关联的音频帧。因此，第一电子设备在进行目标音频帧的提取时，可以从第一时刻之前相邻的若干个历史时刻开始，对缓存的该若干历史时刻对应的历史音频帧进行语义分析，以判断这些历史音频帧是否包含与预设关键词语义相关联的内容，具体可以选用合适的人工智能技术实现该语义分析过程，但本申请并不限定对历史音频帧进行检测的实现方法。

而且，第一时刻作为触发第一电子设备进行目标音频帧提取的时刻，在该第一时刻之后，第一电子设备采集到的每一个音频帧，均可以参照上述方式检测其是否包含与预设关键词语义关联的内容，若是，提取此时刻采集到的音频帧为目标音频帧，并继续后下一时刻采集到的音频帧进行检测，依次类推，直至得到能够表达与预设关键词关联的完整语义的多个目标音频帧，即多个连续的音频帧(其可以包括上述历史音频帧，第一时刻采集的音频帧，以及第一时刻之后采集的未来音频帧，但并不局限于此，可以视情况而定)能够表达与预设关键词相关联的完整语义，可以停止对最后一个采集的音频帧后续采集的音频帧提取。

其中，对于上述与预设关键词关联的语义信息，可以通过对第一时刻左右相邻时刻采集的音频帧进行语义分析，来确定第一电子设备的参与者在说什么事情时说到该预设关键词，通常可以认为表达该事情的语义信息与该预设关键词关联，但并不局限于这种实现方式。

示例性的，参照图2所示的场景示意图，仍以上述在线教学场景为例，老师在讲解某道数学题时，提到学生A的解题思路很新颖，值得大家学习，若需要将老师说的与学生A相关的音频帧提取出来，该示例场景下，老师提到学生A这一时刻之前，已经再说该数学题的解题过程，且在该时刻之后也说到与学生A的解题思路相关内容，因此，本实施例可以将表达该数学题的解题思路或过程的语义信息，确定为与该学生A关联的语义，将老师连续讲课过程中，开始讲到与该数学题解题思路或过程相关内容，到结束对该数学题的讲解或对学生A的解题思路讨论，认为这一时间段内采集到的老师说的连续音频帧能够表达与学生A关联的完整语义，可以将该时间段内采集的老师说的音频帧作为目标音频帧提取出来，具体提取方法不做限定。

需要说明的是，对于从使用第一电子设备参与多方通话的参与者的音频帧中，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧的实现过程，包括但并不局限于上文实施例描述的方式，可以根据多方通话的具体场景进行灵活调整，本申请不做一一详述。

步骤S13，将多个目标音频帧发送至预设关键词关联的第二电子设备。

结合上述分析，本申请希望第一电子设备能够将其参与者说话过程中，涉及到的其他参与者的音频帧提取出来发送至相应其他参与者的电子设备，以使得其他参与者没有在线直接听到参与者说话内容的情况下，也能够通过该说话的参与者的电子设备发送的目标音频帧，得知多方通话过程中，与自身相关联的内容。

基于此，本申请实施例按照上述方式，从第一电子设备连续采集的音频帧中，提取出能够表达与预设关键词关联的完整语义的多个目标音频帧之后，可以确定与该预设关键词关联的第二电子设备，即该预设关键词对应的多方通话参与者所使用参与本次多方通话的电子设备，如确定该第二电子设备的通信地址、设备标识等信息，从而据此将所提取到的目标音频帧发送至预设关键词关联的第二电子设备，以使得使用第二电子设备参与本次多方通话的参与者，能够在在线直接通话过程中，未听清楚该目标音频帧的内容的情况下，可以采用本申请提出的这种处理方法，得到单独的多个目标音频帧并播放，就能够得知之前其错过的通话内容，提高了多方通话质量，且提高了用户对在线互动平台的体验感受。

应该理解的是，即便使用第二电子设备的参与者已经得知多个目标音频帧的内容，仍可以采用这种方式获取多方通话过程中与其相关的目标音频帧，该参与者可以根据实际需求，接收第一电子设备发送的多个目标音频帧并存储，以供后续查看，相对于手动记录本次多方通话涉及到的自身相关内容，减少了用户工作量，提高了对用户自身相关通话内容记录的准确性及可靠性。

当然，在一些实施例中，第一电子设备将提取的多个目标音频帧发送至第二电子设备后，第二电子设备可以输出是否接收这多个目标音频帧的提示信息，参与者可以根据需求选择接收或拒绝，如具有上述分析过程中的需求，可以点击“接收”，第二电子设备可以响应针对多个目标音频帧的接收操作，建立与第一电子设备之间的数据传输通道，即通过通信服务器构建的该数据传输通道，从而接收到第一电子设备发送的多个目标音频帧。

若第二电子设备的参与者不需要得知或存储该多个目标音频帧，可以直接选择“拒绝”，第二电子设备可以基于该拒绝操作，通过通信服务器向第一电子设备反馈拒绝接收多个目标音频帧的提示信息，具体实现过程本申请不做限定。

综上所述，多个电子设备通过在线交互平台进行多方通话的应用场景下，说话人的第一电子设备会对其采集到的每一个音频帧进行预设关键词检测，若检测到该说话人说了预设关键词，可以从其说话内容中提取与该预设关键词关联的，且能够表达完整语义的多个目标音频帧，并发送至相应聆听者的第二电子设备，此时，聆听者可以根据实际需求，选择是否接收并存储这多个目标音频帧，极大提高了多方通话质量以及用户体验。

参照图3，为本申请提出的用于在线互动平台的处理方法的又一可选示例的流程示意图，本实施例可以是对上述实施例描述的用于在线互动平台的处理方法的一可选细化实现方法，但并不局限于本实施例描述的这种实现方式。如图3所述，该方法可以包括：

步骤S31，检测第一电子设备采集的音频帧是否包含预设关键词；

结合上述分析，本申请实施例的一种可能的实现方式中，步骤S31可以包括：对第一电子设备采集的音频帧进行文本转换，检测得到的文本信息中是否包含预设关键词。本申请对语音文本之间的转换实现过程不做详述，在得到文本信息后，可以采用文字比对或相似度检测方式，来确定所得文本信息是否包含预设关键词，本申请对此不做限定。

在另一种可能的实现方式中，上述步骤S31还可以包括：对第一电子设备采集的音频帧进行声谱分析，依据声谱分析结果，确定当前采集到的音频帧是否包含预设关键词。

在实际应用中，用户说不同文本时所产生的声谱往往是不同的，本实施例可以采用声谱分析方式，来确定第一电子设备采集的音频帧是否包含预设关键词，具体可以通过提取音频帧的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)，在利用所得梅尔倒谱系数与该预设关键词对应的梅尔倒谱系数进行相似度比对，确定该音频帧是否包含预设关键词，本申请对梅尔倒谱系数的提取方法不做详述。

当然，本申请还可以直接采用声谱图比对的方式，即将采集到的音频帧的声谱图与预设关键词的声谱图进行比对，来确定该音频帧是否包含预设关键词等，本申请对上述步骤S31的具体实现方法不做限定，即并不局限于上文列举的实现方式。

步骤S32，在第一电子设备音频采集过程中，如果在第一时刻采集的音频帧包含预设关键词，对从第一电子设备从第二时刻开始连续采集的音频帧进行语义分析；

本实施例中，第二时刻晚于第一时刻，也就是说，相对于第一时刻，该第二时刻为历史时刻，但该第一时刻与第二时刻之间的时间差往往小于时间阈值，也就是说，在进行目标音频帧提取过程中，即便需要对历史音频帧进行检测，通常也是从最近时间段内(如上述时间阈值)缓存的历史音频帧开始进行语义分析，并不会对缓存时间太长的历史音频帧进行检测。本申请对该时间阈值及该时间段的具体数值不做限定，视情况而定。

在一些实施例中，本申请可以采用如上文但并不局限于上文描述的语义分析方式，实现对从第二时刻开始连续采集的音频帧(其包含历史音频帧，以及随着时间不断推进最新采集到音频帧)的语义分析，本申请对音频帧的语义分析过程不做详述，其通常可以确定在第一时刻前后说话的主题，即确定与预设关键词关联的语义信息。

步骤S33，依据语义分析结果，从连续采集的音频帧中，提取能够表达与预设关键词关联的完整语义的多个目标音频帧；

继上述分析，该语义分析结果可以得知最近时间段内，说话人是在说什么内容时提及到预设关键词，以及所说内容与该预设关键词是否相关，这样，依据该语义分析结果，可以从连续采集的音频帧中，提取能够表达与预设关键词关联的完整语义的多个目标音频帧，如将与该预设关键词的语义信息相关的音频帧确定为目标音频帧，所提取到的多个目标音频帧所包含的语义是否完整，如果是，停止提取；如果不完整，继续提取，但并不局限于该实现过程。

步骤S34，同步确定第一电子设备展示或图像采集器采集的，与各目标音频帧的时间信息对应的目标视频帧；

在本申请实际应用中，若本次登录在线交互平台，仅实现多方语音通信，并未进行视频通信，可以按照上述方式，将提取到的多个目标音频帧发送至预设关键词关联的第二电子设备，具体实现过程可以参照上述实施例的描述，本实施例不作赘述。

若实现的是多方视频通信，可以按照上述方式，仅将提取到的多个目标音频帧发送至预设关键词关联的第二电子设备；也可以提取相应的视频帧，将该视频帧和目标音频帧同步发送至该第二电子设备，以进一步提高用户体验。这种情况下，在按照上述方式确定多个目标音频帧的过程中，可以按照各音频帧采集时记录的时间点信息，来获取与该目标音频帧时间同步的目标音频帧。

针对不同的在线交互应用场景，其视频帧的获取方式可能不同，因此，在确定目标视频帧的过程中，可以从第一电子设备展示的各视频帧中确定(其可以适用于各方电子设备显示内容同步的场景，如各电子设备可以输出某一参与者共享的文本信息等)，或者是从图像采集器(其可以独立于第一电子设备，本申请对其设备类型不做限定)采集的视频帧中确定(如摄像机对现场进行图像采集并传输至其他参与者的电子设备)，但并不局限于此。

步骤S35，由同一时间信息对应的目标音频帧和目标视频帧，构建目标音视频数据包；

步骤S36，将构建的多个目标音视频数据包发送至预设关键词关联的第二电子设备。

关于上述音视频数据包的构建，可以依据具体通信协议及要求确定该音视频数据包的内容及其构建方式，完成对目标音视频数据包的构建，具体实现过程不做详述。

本申请实施例中，音视频数据传输通道是可以一个数据传输通道，如目前较流行的网络直播的应用场景(具体如直播网课教学)，本申请可以依据网络直播的工作原理，来实现上述对目标音视频数据包的构建及传输，具体实现过程本申请不做详述。

在又一些实施例中，区别于上述网络直播应用场景，第一电子设备采集到的音频帧和视频帧，可能通过不同的数据传输通道，实现与第二电子设备之间的数据交互，比如网络会议场景等，这种情况下，在按照上述方式提取到多个目标音频帧，并确定相应时间点的目标视频帧之后，可以将多个目标音频帧以及确定的多个目标视频帧，分别通过各自对应的数据传输通道(如音频传输通道、视频传输通道)，发送至与预设关键词关联的第二电子设备。具体实现过程可以参照但并不局限于具有该通信特点的网络会议的工作原理，本申请不做详述。

综上所述，本实施例中，在线交互应用场景下，第一电子设备检测到第一时刻采集的音频帧包含预设关键词，可以从过去的第二时刻开始连续采集的音频帧进行语义分析，来获取能够表达与该预设关键词关联的完整语义的目标语音帧，即在第一电子设备使用者说话过程中，就完成了对其说到的与预设关键词关联的多个目标语音帧的提取。于此同时，在音视频交互场景下，还可以确定各目标音频帧同步对应的目标视频帧，之后，将同一时间点的目标音频帧和目标视频帧构建一个目标音视频数据包，发送至与预设关联的第二电子设备，相当于第二电子设备回放某一时间段的音视频信息，从而避免了错过多方通话内容，提高了在线音视频交互质量。

参照图4，为本申请提出的用于在线互动平台的处理方法的又一可选示例的流程示意图，本实施例可以是对上述实施例描述的用于在线互动平台的处理方法的又一可选细化实现方法，如图4所示，该方法可以包括：

步骤S41，检测第一电子设备采集的音频帧是否包含预设关键词；

步骤S42，在第一电子设备音频采集过程中，如果在第一时刻采集的音频帧包含预设关键词，对从第一电子设备从第二时刻开始连续采集的音频帧进行语义分析；

步骤S43，确定从所述第二时刻到当前时刻已缓存的历史音频帧，与所述当前时刻采集的音频帧的语义分析结果；

关于步骤S41～步骤S43的具体实现过程，可以参照上述实施例相应部分的描述，本实施例不做赘述。

步骤S44，检测该语义分析结果是否满足条件，如果不满足，进入步骤S45；如果满足，执行步骤S46；

本实施例中，该条件可以是指能够表达与预设关键词关联的完整语义，也就是说，检测连续采集的音频帧的语义信息，是否包含与预设关键词关联的完整语义，如果包含，可以到当前时刻或前一时刻采集到的多个语音帧的语义信息满足条件，可以将开始涉及到该完整语义的第一个音频帧(可能是某一历史音频帧，或第一时刻的音频帧)，到表达完该完整语义的最后一个音频帧(其可能是第一时刻的音频帧，或者相对于第一时刻来说的未来时刻所采集的音频帧)，以及这两个音频帧的时间点之间时刻采集到的音频帧(即满足条件的音频帧)，均确定为目标音频帧。

S45，获取对下一时刻采集的音频帧的语义分析结果，返回步骤S44继续检测；

步骤S46，提取满足条件的多个目标音频帧；

可见，本实施例中，在确定第一时刻采集的音频帧包含预设关键词之后，每采集到一个音频帧，均可以结合之前从第二时刻开始已经采集到的音频帧进行语义分析，确定该时间段内所得到的音频帧所包含的语义信息，是否能够表达与预设关键词关联的完整语义，若不能，将继续结合下一时刻采集到的音频帧进行语义分析，如此推进，直至所得到的语义分析结果满足条件，将满足该条件的音频帧确定为目标音频帧并提取，如复制或截取确定的多个目标音频帧。

应该理解，如上述分析，由于第一电子设备在每次采集到一音频帧后，将结合第二时刻后已采集到的音频帧进行语义分析，所以，每次语义分析后所得语义分析结果往往会不断改变，即所得语义分析结果能够表达越来越完整的预设关键词关联的语义，但并不局限于每一次语义分析后都会发生变化。

步骤S47，将这多个目标音频帧发送至预设关键词关联的第二电子设备。

在一些实施例中，第一电子设备向第二电子设备发送多个目标音频帧之前，可以先向该第二电子设备发送相应的提示消息，第一电子设备可以依据第二电子设备针对该提示消息反馈的应答信息，来确定是否将这多个目标音频帧发送至第二电子设备，从而避免第二电子设备使用者不需要的情况下，第一电子设备占用网络资源发送这多个目标音频帧。

当然，如上述实施例的分析，第一电子设备也可以直接将得到的多个目标音频帧发送至第二电子设备，解决第二电子设备的参与者未听到该目标音频帧内容，或未看到提示消息而导致多个目标音频帧被删除，无法听到目标音频帧内容的问题。

在又一些实施例中，上述步骤S47具体可以包括：对多个目标音频帧进行语义文本转换，得到目标文本信息；将目标文本信息发送至与预设关键词关联的第二电子设备输出，这样，即便在多方通话过程中，第二电子设备参与者也能够看到目标音频帧的内容，且不会因播放目标音频帧对多方通话造成干扰。而且，在某些场景下，第二电子设备的参与者看到该目标文本信息后，可以向第一电子设备参与者进行反馈，这样，第一电子设备可以接收第二电子设备采集的针对目标文本信息的反馈音频帧，并播放该反馈音频帧，或响应针对反馈音频帧的播放指令，播放反馈音频帧，保证第一电子设备参与者和第二电子设备参与者之间的交流可靠性。

示例性的，如老师向学生B提问，学生B因走神没有听清楚内容，但本申请可以采用上述方式，由老师使用的电子设备提取对学生B提取问题的目标音频帧，并将其转换为目标文本信息发送至学生B的电子设备输出，这样，虽然会有一定延迟，但时间往往不长，学生B仍然可以根据该目标文本信息的提示，来回答老师的问题，即将反馈音频帧反馈至老师的电子设备播放，从而提高在线教学质量。

需要说明的是，对于上述目标音频帧的语义文本转换过程，可以在第二电子设备侧实现，也就是说，第一电子设备将多个目标音频帧发送至第二电子设备后，若当前场景不方便直接播放，可以就其转换为相应的目标文本信息输出，在线交互平台进行多方通话场景下，达到通话内容提示及记录的目的，提高了用户体验。

在本申请一些实施例中，还可以将上文实施例描述的用于在线互动平台的处理方法进行交叉组合，得到新的用于在线互动平台的处理方法，具体实现过程本申请不做一一详述。

参照图5，为本申请提出的用于在线互动平台的处理方法的又一可选示例的流程示意图，区别于上述实施例从第一电子设备角度描述该处理方法，本实施例将从第二电子设备角度描述用于在线互动平台的处理方法的，由于在用于在线互动平台的处理方法的实现过程中，第一电子设备和第二电子设备之间会进行数据交互，因此，对于交互部分可以参照上述实施例相应部分的描述，本实施例不再赘述。如图5所示，该方法可以包括：

步骤S51，接收第一电子设备采集并发送的音频帧；

步骤S52，在输出音频帧过程中，检测音频帧是否包含针对自身电子设备的预设关键词；

步骤S53，如果在第一时刻输出的音频帧包含所述预设关键词，提取能够表达与预设关键词关联的完整语义的多个目标音频帧；

步骤S54，对多个目标音频帧进行存储。

由此可见，对于本申请提出的用于在线互动平台的处理方法中，对第一电子设备采集的音频帧是否包含预设关键词，以及提取目标音频帧的实现过程，区别于上述实施例由第一电子设备实现，本实施例将由第二电子设备自己实现，也就是说，第一电子设备将采集到的每一个音频帧发送至各第二电子设备，进行在线语音交互过程中，第二电子设备在输出音频帧的过程中，检测其是否包含预设关键词(即自身电子设备或参与者的关键词)，如果在第一时刻输出的音频帧包含所述预设关键词，提取能够表达与预设关键词关联的完整语义的多个目标音频帧，并对其存储或播放，这样，即便第二电子设备参与者未听清楚说话人所说的与自己有关的语义内容，可以采用本申请提出的这种处理方法，可以将这部分内容即多个目标音频帧单独保存下来，方便后续查看其错过的语音内容，以提高多方通话质量，并提高用户对在线互动平台的体验感受。

其中，对于第二电子设备执行本申请提出的用于在线互动平台的处理方法的各步骤的具体实现过程，可以参照上述从第一电子设备角度描述的用于在线互动平台的处理方法相应步骤，本实施例不再赘述。

参照图6，为本申请提出的用于在线互动平台的处理装置的一可选示例的结构示意图，该装置可以适用于上述第一电子设备，如图6所述，该装置可以包括：

音频帧检测模块61，用于检测第一电子设备采集的音频帧是否包含预设关键词；

在一种可能的实现方式中，该音频帧检测模块61可以包括：

文本检测单元，用于对第一电子设备采集的音频帧进行文本转换，检测得到的文本信息中是否包含预设关键词；或者，

声谱分析单元，用于对第一电子设备采集的音频帧进行声谱分析，依据声谱分析结果，确定当前采集到的音频帧是否包含预设关键词。

目标音频帧提取模块62，用于在所述第一电子设备音频采集过程中，如果第一时刻采集的音频帧包含所述预设关键词，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧；

在一些实施例中，如图7所示，该目标音频帧提取模块62可以包括：

语义分析单元621，用于对从所述第一电子设备从第二时刻开始连续采集的音频帧进行语义分析，其中，所述第二时刻晚于所述第一时刻；

提取单元622，用于依据所述语义分析结果，从所述连续采集的音频帧中，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧。

在一种可能的实现方式中，该提取单元622可以包括：

检测单元，用于检测从所述第二时刻到当前时刻已缓存的历史音频帧，与所述当前时刻采集的音频帧的语义分析结果是否满足条件，所述条件是指能够表达与所述预设关键词关联的完整语义；

音频帧提取单元，用于在检测单元的检测结果为否的情况下，由检测单元继续对下一时刻采集的音频帧的语义分析结果进行检测，直至得到的语义分析结果满足所述条件，提取满足所述条件的多个目标音频帧。

目标音频帧传输模块63，用于将所述多个目标音频帧发送至所述预设关键词关联的第二电子设备。

在一些实施例中，该目标音频帧传输模块63可以包括：

文本转换单元，用于对所述多个目标音频帧进行语义文本转换，得到目标文本信息；

文本信息发送单元，用于将所述目标文本信息发送至与所述预设关键词关联的第二电子设备输出；

反馈音频帧接收单元，用于接收所述第二电子设备采集的针对所述目标文本信息的反馈音频帧；

反馈音频帧播放单元，用于响应针对所述反馈音频帧的播放指令，播放所述反馈音频帧。

在上述各实施例的基础上，该装置还可以包括：

目标视频帧确定模块，用于在确定所述多个目标音频帧的过程中，同步确定所述第一电子设备展示或图像采集器采集的，与所述目标音频帧的时间信息对应的目标视频帧；

相应地，上述目标音频帧传输模块63可以包括：

数据包构建单元，用于由同一时间信息对应的目标音频帧和目标视频帧，构建目标音视频数据包；

数据包发送单元，用于将构建的多个所述目标音视频数据包发送至所述预设关键词关联的第二电子设备。

在另一种可能的实现方式中，该目标音频帧传输模块63也可以包括

数据发送单元，用于将所述多个目标音频帧以及确定的多个目标视频帧，分别通过对应的数据传输通道，发送至与所述预设关键词关联的第二电子设备。

参照图8，为本申请提出的用于在线互动平台的处理装置的又一可选示例的结构示意图，该装置可以适用于上述第二电子设备，如图8所述，该装置可以包括：

音频帧接收模块81，用于接收第一电子设备采集并发送的音频帧；

音频帧检测模块82，用于在输出所述音频帧过程中，检测所述音频帧是否包含针对自身电子设备的预设关键词；

目标音频帧提取模块83，用于在第一时刻输出的音频帧包含所述预设关键词的情况下，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧；

目标音频帧存储模块84，用于对所述多个目标音频帧进行存储。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的用于在线互动平台的处理方法的各个步骤。

参照图9，为本申请提出的电子设备的一可选示例的硬件结构示意图，该电子设备可以包括但并不局限于：至少一个音频采集器91、至少一个音频播放器92、至少一个存储器73以及至少一个处理器73，其中：

至少一个音频采集器91，至少一个音频播放器92，至少一个存储器93以及至少一个处理器94均可以通过相应的通信接口连接通信总线，通过该通信总线实现相互之间的数据交互，关于不同组成设备之间的数据交互实现过程，可以参照但并不局限于上文描述的用于在线互动平台的处理方法，本申请在此不做一一详述。

音频采集器91可以包括拾音器等，本申请对其组成结构及其工作原理不做限定。在本申请实际应用中，音频采集器91可以采集电子设备当前所在环境中存在的音频，其包括但并不局限于使用该电子设备参与多方通话的参与者输出的音频，还可能包括该电子设备播放某音频再次录入的音频，以及该环境下其他参与者或电子设备输出的音频等。这种情况下，为了提高多方通话质量可以对采集到的音频进行降噪处理，再将降噪后的音频帧发送至其他电子设备。

本实施例实际应用中，若电子设备包括多个音频采集器91，这多个音频采集器91可以部署在不同位置，且在音频采集过程中，还可以依据声源位置调整相应主音频采集器的参数，以提高对目标声源输出的音频录入的可靠性，具体实现过程本实施例不做详述。

音频播放器92可以包含扬声器等，用于输出电子设备接收到的参与多方通话的其他电子设备发送的音频帧。在实际应用中，若电子设备包括多个音频播放器92，可以部署在电子设备的不同位置，以达到立体环绕声的效果，当然，根据其他音频播放需求，本申请可以采用相应的策略部署这多个音频播放器92，本申请对音频播放器92的部署位置及其录入音频的工作原理不做详述。

存储器93可以用于存储实现如上述的用于在线互动平台的处理方法的程序；处理器94可以用于加载并执行存储器93存储的程序，以实现上述任一方法实施例描述的用于在线互动平台的处理方法的各步骤，具体实现过程可以参照上述实施例相应部分的描述，本实施例不再赘述。

在本申请实施例中，存储器93可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器94，可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

应该理解的是，图9所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中，计算机设备可以包括比图9所示的更多或更少的部件，或者组合某些部件，如各种通信接口、其他输入设备、输出设备等，本申请在此不做一一列举。

最后，需要说明，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、电子设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于在线互动平台的处理方法，所述方法包括：

检测第一电子设备采集的音频帧是否包含预设关键词；

2.根据权利要求1所述的方法，所述提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧，包括：

3.根据权利要求2所述的方法，所述依据所述语义分析结果，从所述连续采集的音频帧中，提取能够表达与所述预设关键词关联的完整语义的多个目标音频帧，包括：

4.根据权利要求1所述的方法，所述检测第一电子设备采集的音频帧是否包含预设关键词，包括：

5.根据权利要求1～4任一项所述的方法，所述方法还包括：

6.根据权利要求1～4任一项所述的方法，所述将所述多个目标音频帧发送至所述预设关键词关联的第二电子设备，包括：

7.一种用于在线互动平台的处理方法，所述方法包括：

接收第一电子设备采集并发送的音频帧；

对所述多个目标音频帧进行存储。

8.一种用于在线互动平台的处理装置，所述装置包括：

9.一种用于在线互动平台的处理装置，所述装置包括：

10.一种电子设备，所述电子设备包括：

音频采集器；音频播放器；

存储器，用于存储实现如权利要求1～7任一项所述的用于在线互动平台的处理方法的程序；

处理器，用于加载并执行所述存储器存储的所述程序，以实现如权利要求1～7任一项所述的用于在线互动平台的处理方法的各步骤。