CN111541904A

CN111541904A - 直播过程中的信息提示方法、装置、设备及存储介质

Info

Publication number: CN111541904A
Application number: CN202010293268.4A
Authority: CN
Inventors: 张振伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-14
Anticipated expiration: 2040-04-15
Also published as: CN111541904B

Abstract

本申请提供了一种直播过程中的信息提示方法、装置、电子设备及计算机可读存储介质；方法包括：在人机交互界面中呈现直播内容；对所述直播内容进行语音识别，得到所述直播内容对应的语音信息；从所述语音信息中提取出位于目标对象的知识范畴以外的关键词；在所述人机交互界面中呈现位于所述目标对象的知识范畴以外的关键词、以及对应的解释内容。通过本申请，能够实现个性化辅助用户理解直播内容的目的。

Description

直播过程中的信息提示方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术，尤其涉及一种直播过程中的信息提示方法、装置、电子设备及计算机可读存储介质。

背景技术

网络社交冲破了工业社会交往的限度，将人与人之间的关系网络化，表现为以各种社会化网络软件的网络社交的普及。网络社交的形态从最初的网络聊天衍变各种各样的丰富的形态，网络直播是目前非常重要的一种网络社交形态，通过网络直播，用户可以观看自己感兴趣的直播内容。

以在线教育的应用场景为例，随着在线教育的发展，越来越多的用户在线上完成学习教育。然而在网络直播过程中，由于教师授课时会提及大量的专业术语，会导致用户在快速的在线学习过程中，无法及时的理解这些专业术语，从而会影响用户后续的认知学习，导致学习过程中收获较少。

发明内容

本申请实施例提供一种直播过程中的信息提示方法、装置、电子设备及计算机可读存储介质，能够实现个性化辅助用户理解直播内容的目的。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种直播过程中的信息提示方法，包括：

在人机交互界面中呈现直播内容；

对所述直播内容进行语音识别，得到所述直播内容对应的语音信息；

从所述语音信息中提取出位于目标对象的知识范畴以外的关键词；

在所述人机交互界面中呈现位于所述目标对象的知识范畴以外的关键词、以及对应的解释内容。

本申请实施例提供一种直播过程中的信息提示装置，包括：

直播模块，用于在人机交互界面中呈现直播内容；

语音识别模块，用于对所述直播内容进行语音识别，得到所述直播内容对应的语音信息；

提取模块，用于从所述语音信息中提取出位于目标对象的知识范畴以外的关键词；

所述直播模块，还用于在所述人机交互界面中呈现位于所述目标对象的知识范畴以外的关键词、以及对应的解释内容。

在上述方案中，所述语音识别模块，还用于从所述直播内容中提取音频数据，并过滤所述音频数据中的噪音；通过语音识别模型，对过滤后的音频数据进行语音识别，以获得所述直播内容对应的语音信息。

在上述方案中，所述语音识别模块，还用于对所述过滤后的音频数据进行分帧处理，以获得多个音频子数据；对每个所述音频子数据进行声学特征提取，以获得多个音频向量；将每个所述音频向量转换为相应的音节，并转换为相应的文字信息；将多个所述音频子数据一一对应的多个文字信息进行组合，得到所述直播内容对应的语音信息。

在上述方案中，所述提取模块，还用于在所述语音信息中提取多个关键词，并确定每个关键词所属的领域；根据所述目标对象的认知模型，确定所述目标对象针对每个关键词所属的领域的知识范畴；在所述多个关键词中提取关键词，且所提取的关键词的解释内容位于所提取关键词所属的领域的知识范畴以外。

在上述方案中，所述直播过程中的信息提示装置还包括：模型构建模块，用于获取所述目标对象针对多个历史关键词的历史操作行为；其中，所述历史关键词用于在针对所述目标对象呈现历史直播内容的过程中呈现；所述历史操作行为的类型包括：已了解所述历史关键词、纠正所述历史关键词；确定所述多个历史关键词分别所属的领域，并基于每个领域包括的历史操作行为的数量，确定所述目标对象针对所述每个领域的知识范畴，以构建所述目标对象的认知模型。

在上述方案中，所述模型构建模块，还用于当所述人机交互界面中呈现所述历史直播内容中出现的历史关键词以及对应的解释内容时，呈现登录窗口；当通过所述登录窗口获得所述目标对象的登录信息时，呈现授权提示窗口；当通过所述授权提示窗口接收到所述目标对象的授权时，监听所述目标对象针对所述多个历史关键词的历史操作行为。

在上述方案中，所述直播过程中的信息提示装置还包括：观众模块，用于当所述目标对象是观众，且所述观众针对历史关键词的历史操作行为的类型是已了解所述历史关键词时，针对所述观众减少所述历史关键词的提示次数，或者，不再提示所述历史关键词。

在上述方案中，所述观众模块，还用于当所述目标对象是观众，且所述观众针对历史关键词的历史操作行为的类型是纠正所述历史关键词时，确定所述观众针对所述历史关键词的纠错类型；当所述观众针对所述历史关键词的纠错类型是纠正关键词识别错误时，纠正对所述直播内容进行语音识别时所使用的语音识别模型；当所述观众针对所述历史关键词的纠错类型是纠正关键词定义错误时，纠正所述历史关键词的解释内容。

在上述方案中，所述直播过程中的信息提示装置还包括：主播模块，用于当所述目标对象是主播，且所述目标对象针对待提示关键词的操作行为的类型是删除所述待提示关键词的提示时，控制在相应的观众的人机交互界面中不呈现所述待提示关键词、以及对应的解释内容；当所述主播针对所述待提示关键词的操作行为的类型是纠正所述待提示关键词时，确定所述主播针对所述待提示关键词的纠错类型；当所述主播针对所述待提示关键词的纠错类型是纠正关键词识别错误时，纠正对所述直播内容进行语音识别时所使用的语音识别模型；当所述主播针对所述待提示关键词的纠错类型是纠正关键词定义错误时，纠正所述待提示关键词的解释内容。

在上述方案中，所述主播模块，还用于当所述目标对象是主播时，响应于针对关键词库的查看操作，在所述人机交互界面中呈现所述关键词库中的关键词、以及对应的解释内容；响应于针对所述关键词库的添加操作，获取添加的关键词、以及对应的解释内容；当所述添加的关键词、以及对应的解释内容被审核通过时，并将审核通过的关键词、以及对应的解释内容添加至所述关键词库。

在上述方案中，所述主播模块，还用于当所述目标对象是主播时，响应于查看观众反馈所述直播内容的操作，在所述人机交互界面中呈现多个关键词、以及分别对应于每个关键词的已了解所述关键词的观众数量。

本申请实施例提供一种直播过程中的信息提示方法，包括：

响应于直播触发操作，在人机交互界面中呈现直播内容；

响应于开启信息提示功能的操作，在所述人机交互界面中呈现所述直播内容的语音信息中出现的关键词、以及所述关键词的解释内容。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的直播过程中的信息提示方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的直播过程中的信息提示方法。

本申请实施例具有以下有益效果：

通过在人机交互界面中呈现和直播内容相关的提示信息，能够使用户在观看直播的过程中，辅助用户快速理解直播的内容；通过动态根据每个用户不同的认知程度(或称知识范畴)做出差异化的提示信息，能够实现个性化辅助用户理解直播内容的作用，从而提高用户的学习体验。

附图说明

图1是本申请实施例提供的信息提示系统100的结构示意图；

图2是本申请实施例提供的终端400的结构示意图；

图3是本申请实施例提供的直播过程中的信息提示方法的流程示意图；

图4是本申请实施例提供的直播过程中的信息提示方法的流程示意图；

图5A和图5B是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图；

图5C是本申请实施例提供的直播过程中的信息提示方法的流程示意图；

图6是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图；

图7A、图7B、图7C、图7D、图7E和图7F是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图；

图8是本申请实施例提供的直播过程中的信息提示方法的流程示意图；

图9A是本申请实施例提供的用户登录客户端的流程示意图；

图9B是本申请实施例提供的用户授权客户端的流程示意图；

图10是本申请实施例提供的术语识别过程的流程示意图；

图11是本申请实施例提供的对观众进行术语的个性化提示的流程示意图；

图12是本申请实施例提供的对直播者进行术语提示的流程示意图；

图13A是本申请实施例提供的直播者浏览术语库的流程示意图；

图13B是本申请实施例提供的直播者添加术语的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)直播，在现场随着事件的发生、发展进程同步制作和发布信息，具有双向流通过程的信息网络发布方式。直播的形式可分为现场直播、演播室访谈式直播、文字图片直播、视音频直播或由电视(第三方)提供信源的直播。

2)音素，单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调和无调。

3)分帧，对声音进行分析，就需要对声音进行分帧，也就是把声音切开成多个小段，每小段称为一帧语音。

4)声学特征提取，对声音分帧后，语音变为多个小段，但波形在时域上几乎没有描述能力，因此必须将波形作变换，即根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。

5)专业术语，或称术语，是在特定学科领域用来表示概念的称谓的集合，又称为名词或科技名词(不同于语法学中的名词)。术语是通过语音或文字来表达或限定科学概念的约定性语言符号，是思想和认识交流的工具。

6)语音识别，或称自动语音识别(ASR，Automatic Speech Recognition)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如，按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，说话人识别及说话人确认尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

7)个性化提示，针对每个用户的不同情况进行提示，信息提示系统(或称关键词提示系统、术语提示系统)具有不断更新变化的特征，满足用户在状态不断变化下被提示的需求。

8)认知模型，是人类对真实世界进行认知的过程模型。所谓认知，通常包括感知与注意、知识表示、记忆与学习、语言、问题求解和推理等方面，建立认知模型的目的是为了从某些方面探索和研究人的思维机制，特别是人的信息处理机制。

相关技术中，语音识别技术目前更多是基于语音准确度的识别，例如，语音转文字和视频字幕显示等。为了提升语音识别的精准度也会让开发者输入热词，例如，热门地点、热门事件词汇等，便于在语音识别中更好的判断一些特殊的词汇。相关技术既不能提供专业术语的识别、提示和解释能力，也不能针对用户不同认知程度进行个性化术语提示。

针对上述技术问题，本申请实施例提供一种直播过程中的信息提示方法、装置、设备和计算机可读存储介质，能够实现个性化辅助目标对象(例如，用户或人工智能(AI，Artificial Intelligence)机器人)理解直播内容的目的。下面说明本申请实施例提供的直播过程中的信息提示方法的示例性应用，本申请实施例提供的直播过程中的信息提示方法可以由各种电子设备实施，例如，可以由终端单独实施，也可以由服务器和终端协同实施。

接下来，以由服务器和终端协同实施、且目标对象是用户为例说明本申请实施例，参见图1，图1是本申请实施例提供的信息提示系统100的结构示意图。其中，信息提示系统100包括有：服务器200、网络300、以及终端400，将分别进行说明。

服务器200是客户端410的后台服务器，用于向客户端410发送直播内容，并对直播内容进行语音识别，以得到语音信息；还用于接收客户端410提交的用户账号，并从语音信息中提取位于客户端410提交的用户账号的知识范畴以外的关键词(将在下文中详细说明提取关键词的过程)，并将位于用户账号的知识范畴以外的关键词、以及对应的解释内容发送至客户端410。

网络300，用于作为服务器200和终端400之间通信的媒介，可以是广域网或者局域网，又或者是二者的组合。

终端400，用于运行客户端410，客户端410是具备直播功能的客户端。客户端410，用于向服务器200提交用户账号，并接收服务器200发送的直播内容和位于用户账号的知识范畴以外的关键词、以及对应的解释内容，并在人机交互界面411中进行呈现。

接下来，以由图1中的终端400单独实施为例说明本申请实施例。

终端400，用于运行客户端410，客户端410是具备直播功能的客户端。客户端410，用于接收服务器200发送的直播内容；还用于对直播内容进行语音识别，以得到语音信息，并从语音信息中提取位于登录客户端410的用户账号的知识范畴以外的关键词，并将位于用户账号的知识范畴以外的关键词、以及对应的解释内容在人机交互界面411中进行呈现。

本申请实施例可应用于多种直播场景，例如，在线教育或专业经验分享等场景。以在线教育的场景为例，用户在观看直播之前，通过客户端410登录属于自己的用户账号，登录用户账号之后，客户端410不仅呈现教师授课的直播内容，而且还呈现与教师授课的直播内容对应的、且位于用户账号的知识范畴以外的关键词、以及对应的解释内容。例如，教师授课的直播过程中，授课内容掺杂大量专业术语，用户可以通过查看人机交互界面中呈现的个性化术语、以及对应的解释内容，快速理解教师授课的内容，从而提高用户的学习体验。

下面，说明图1中的终端400的结构，参见图2，图2是本申请实施例提供的终端400的结构示意图，图2所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的直播过程中的信息提示装置可以采用软件方式实现，图2示出了存储在存储器450中的直播过程中的信息提示装置455，其可以是程序和插件等形式的软件，包括以下软件模块：直播模块4551、语音识别模块4552以及提取模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的直播过程中的信息提示装置可以采用硬件方式实现，作为示例，本申请实施例提供的直播过程中的信息提示装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的直播过程中的信息提示方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circui t)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面，以由图1中的服务器200和终端400协同实施本申请实施例提供的直播过程中的信息提示方法为例说明本申请实施例。参见图3，图3是本申请实施例提供的直播过程中的信息提示方法的流程示意图，将结合图3示出的步骤进行说明。

在步骤S101中，服务器向客户端发送直播内容。

这里，服务器是客户端的后台服务器，客户端是具备直播功能或视频播放功能的应用程序(APP，Application)。直播内容可以是视频内容，也可以是音频内容。

在一些实施例中，直播内容可以是主播实时录制的直播内容，也可以是回看的直播内容(即，在观众观看之前主播已经提前录制完成的内容)。

在步骤S102中，客户端在人机交互界面(或称用户界面)中呈现直播内容。

在一些实施例中，客户端响应于直播触发操作，在人机交互界面中呈现直播内容。

作为一个示例，当直播内容是音频内容时，客户端在人机交互界面中呈现音频的控制功能(例如，音量控制、停止播放或切换主播)、分享功能、以及字幕内容等。

作为另一个示例，当直播内容是视频内容时，客户端在人机交互界面中呈现视频的内容、以及同步的音频内容，还可以呈现视频的控制功能(例如，视频音量控制、停止播放或切换主播)、字幕内容、以及分享功能。

以专业教学的应用场景为例，目标对象可通过客户端观看经济学课程或生物学课程。

在步骤S103中，服务器对直播内容进行语音识别，得到直播内容对应的语音信息。

这里，服务器对直播内容进行语音识别可以是在当目标对象已开启关键词提示功能后再进行语音识别；也可以是不论目标对象是否开启关键词提示功能，服务器均对直播内容进行语音识别。

在一些实施例中，终端实时采集直播内容中的音频数据(即监控主播的音频数据)，并将音频数据发送至服务器进行语音识别，以得到直播内容对应的语音信息，也就是说，客户端可以调用服务器的相应服务(例如，语音识别服务)，通过服务器完成对直播内容的语音识别过程。

在另一些实施例中，终端实时采集直播内容中的音频数据，并对音频数据进行语音识别，以得到直播内容对应的语音信息，也就是说，客户端可以调用终端的相应服务(例如，语音识别服务)，通过终端完成对直播内容的语音识别过程。

以通过服务器对直播内容进行语音识别，得到直播内容对应的语音信息为例，说明语音识别的具体实现过程，参见图4，图4是本申请实施例提供的直播过程中的信息提示方法的流程示意图，基于图3，步骤S103中可以包括步骤S1031至步骤S1032。

在步骤S1031中，服务器从直播内容中提取音频数据，并过滤音频数据中的噪音。

在一些实施例中，服务器接收音频数据，并对音频数据进行前端处理，核心消除噪声和不同口音带来的影响，使处理后的数据更能反映语音的本质特征，例如，语音端点检测(VAD，Voice Activity Detection)和语音增强。

这里，语音端点检测用于鉴别音频数据中的语音出现位置和语音消失位置，以准确从音频数据中提取出有效的音频数据；语音增强用于从含噪的音频数据中提取尽可能纯净的原始音频数据。

在步骤S1032中，服务器通过语音识别模型，对过滤后的音频数据进行语音识别，以获得直播内容对应的语音信息。

在一些实施例中，服务器对过滤后的音频数据进行分帧处理，以获得多个(即至少2个)音频子数据；对每个音频子数据进行声学特征提取，以获得多个音频向量；将每个音频向量转换为相应的音节，并转换为相应的文字信息；将多个音频子数据一一对应的多个文字信息进行组合，得到直播内容对应的语音信息。

作为示例，语音识别的过程具体为：服务器对音频数据进行分帧，通过声学特征提取，将每一帧波形变成一个多维的音频向量，其中，多维的音频向量中包含了这帧音频数据的内容信息；服务器通过声学模型将多维的音频向量的数据转化为音节；服务器通过语言模型，将音节转化为文字信息，并将多个音频子数据一一对应的多个文字信息进行组合，得到直播内容对应的语音信息。

相应的，客户端调用终端的相应服务来对直播内容进行语音识别，得到直播内容对应的语音信息。这里，客户端调用终端的相应服务来对直播内容进行语音识别，得到直播内容对应的语音信息的具体实现过程与上述类似，将不在此进行赘述。

本申请实施例通过从直播内容中提取音频数据，并对音频数据进行语音识别，以获得与直播内容对应的语音信息，可以便于后续在语音信息中查找关键词，从而便于后续向目标对象发送关键词提示信息。

在步骤S104中，服务器从语音信息中提取出位于目标对象的知识范畴以外的关键词。

这里，目标对象可以是AI机器人或用户(账号)；用户可以是主播，即直播的表演者；也可以是观众，即观看直播的观众；用户账号可以是主播账号，即归属于主播的账号；也可以是观众账号，即归属于观众的账号。关键词可以是和直播场景相对应的关键词，例如，当直播的应用场景是专业教学时，关键词可以是和课程所对应的专业术语(简称术语)。

接下来以目标对象是用户(账号)为例进行说明服务器从语音信息中提取出位于目标对象的知识范畴以外的关键词的过程。

在一些实施例中，服务器从语音信息中提取多个关键词，从多个关键词中确定位于目标对象的知识范畴以外的关键词(即，符合用户账号的认知程度的关键词)。其中，用户账号的知识范畴(或称认知程度)是根据用户账号的认知模型进行确定的。

具体的，在步骤S104之前，本申请实施例提供的直播过程中的信息提示方法还包括：服务器构建用户账号的认知模型；其中，构建用户账号的认知模型的过程具体为：服务器获取用户账号针对多个历史关键词的历史操作行为；其中，历史关键词用于在针对用户账号呈现历史直播内容的过程中呈现；历史操作行为的类型包括：已了解历史关键词；纠正历史关键词；确定多个历史关键词分别所属的领域，并基于每个领域包括的历史操作行为的数量，确定用户账号针对每个领域的知识范畴，以构建用户账号的认知模型。

这里，用户账号的认知模型可以是客户端在终端的本地进行构建；也可以是客户端调用服务器相应的服务在云端进行构建。历史操作行为的次数越多，则用户账号的认知模型越完善，即表征该认知模型和用户之间越契合。

在一些实施例中，历史操作行为的类型还可以包括：不了解历史关键词；当用户的操作行为是不了解历史关键词时，后续会对于用户不了解的关键词的所属领域的关键词进行强提示，例如，增加用户不了解的关键词的所属领域的关键词的提示次数。每个领域包括的用户的历史操作行为中的已了解历史关键词和纠正历史关键词的次数越多，表征用户对于该领域的知识范畴越广阔(即认知程度越高)；每个领域包括的用户的历史操作行为中的不了解历史关键词的次数越多，表征用户对于该领域的知识范畴越狭窄(即认知程度越低)。

作为示例，服务器获取用户账号针对多个历史关键词的历史操作行为的具体实现方式为：当人机交互界面中呈现历史直播内容中出现的历史关键词以及对应的解释内容时，呈现登录窗口；当通过登录窗口获取用户账号的登录信息时，呈现授权提示窗口；当通过授权提示窗口接收到用户账号的授权时，监听用户账号针对多个历史关键词的历史操作行为。

以关键词是术语为例，参见图5A和图5B，图5A和图5B是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图。当用户开启术语提示功能时，客户端的人机交互界面中将呈现登录窗口(即图5A)，用户可通过账号和密码登录客户端，客户端将用户的账号和密码发送至服务器，服务器根据账号和密码识别用户身份，当用户身份识别通过时，客户端显示用户登录成功。当用户登录成功后，客户端的人机交互界面中将呈现授权提示窗口(即图5B)，用户可通过授权提示窗口授权客户端和服务器(即术语提示系统)监听用户账号针对多个历史关键词的(历史)操作行为，并分析用户账号针对多个历史关键词的(历史)操作行为。

作为服务器构建用户账号的认知模型的另一种替代方案，具体包括：服务器获取用户账号针对多个历史关键词的历史操作行为；其中，历史关键词用于在针对用户账号呈现历史直播内容的过程中呈现；历史操作行为的类型包括：已了解历史关键词；纠正历史关键词；确定多个历史关键词分别所属的领域，并基于每个领域包括的历史操作行为的数量，确定用户账号针对每个领域的知识范畴；获取用户账号的遗忘规律(或称曲线)，并根据用户账号针对每个领域的知识范畴和遗忘规律，构建用户账号的认知模型。

这里，参见表1，表1是遗忘规律。

表1遗忘规律

时间间隔	记忆量
		刚记完	100％
20分钟后	58.2％
		1小时后	44.2％
8～9小时后	35.8％
		1天后	33.7％
2天后	27.8％
		6天后	25.4％

由表1可知，人类在学习中的遗忘是有规律的，遗忘的进程很快，并且先快后慢。随着时间的推移，遗忘的速度减慢，遗忘的数量也就减少。因此，不仅需要根据用户针对每个领域的知识范畴构建认知模型，还需要根据遗忘规律构建认知模型。

当目标对象是AI机器人时，由于AI机器人的认知能力和思维模式均是模拟人类的，因此，服务器构建AI机器人的认知模型的过程和构建用户账号的认知模型的过程类似，将在此不再进行赘述。

本申请实施例通过构建目标对象的认知模型，能够满足后续关键词提示系统进行个性化提示的需要，从而能够动态根据每个目标对象不同的知识范畴做出差异化的提示，进而提高目标对象的学习体验。进一步的，结合遗忘规律构建目标对象的认知模型，可以提高认知模型和目标对象之间的契合性，从而能够使得差异化的提示更加符合目标对象的需求。

下面继续说明服务器从语音信息中提取出位于目标对象的知识范畴以外的关键词的具体实现方式。

在一些实施例中，参见图5C，图5C是本申请实施例提供的直播过程中的信息提示方法的流程示意图，基于图3，步骤S104中可以包括步骤S1041至步骤S1043。

在步骤S1041中，服务器在语音信息中提取多个关键词，并确定每个关键词所属的领域。

在一些实施例中，语音信息相当于是大段的文字组成的语句，语句中可能掺杂不重要的词语，例如：当语音信息是“接下来讲解边际效应和通货膨胀”时，服务器可以省略语音信息中不重要的语气词或者连接词，以提取语音信息的关键词，例如，“边际效应”和“通货膨胀”；判断上述关键词的所属领域，例如，“边际效应”和“通货膨胀”属于“经济学”领域。

在步骤S1042中，服务器根据目标对象的认知模型，确定目标对象针对每个关键词所属的领域的知识范畴。

在一些实施例中，目标对象的认知模型相当于一个机器学习模型，向模型中输入关键词所属的领域，即可获取对应于关键词所属的领域的知识范畴，其中，知识范畴可用区间[0，1]中的数字进行表示，知识范畴的数字越小，表征目标对象对其越不了解；知识范畴的数字越大，表征目标对象对其越了解，例如，当目标对象对应于“经济学”领域的知识范畴为0.5，表征“经济学”领域中的50％的术语该目标对象已经掌握。

作为示例，将步骤S1041中提取的关键词“边际效应”和“通货膨胀”归属的“经济学”领域输入至目标对象的认知模型中，以获得目标对象对应于“经济学”领域的知识范畴的输出。

在步骤S1043中，服务器在多个关键词中提取关键词，且所提取关键词的解释内容位于所提取关键词所属的领域的知识范畴以外。

在一些实施例中，服务器根据当前提取出的关键词所属的领域，查找目标对象的认知模型中相应领域对应的知识范畴，判断当前提取出的关键词的解释内容是否超出对应的知识范畴，如果超出对应的知识范畴，则提取超出知识范畴的关键词。

作为示例，“边际效应”和“通货膨胀”均归属于“经济学”领域，服务器查找目标对象的认知模型中对应于“经济学”领域的知识范畴，例如，对应于“经济学”领域的知识范畴为0.5，而“边际效应”的解释内容所对应的知识范畴是0.6，“通货膨胀”的解释内容所对应的知识范畴是0.4，因此，可确定“边际效应”的解释内容超出目标对象的知识范畴，“通货膨胀”的解释内容未超出目标对象的知识范畴，即可将关键词“边际效应”提取出。

这里，关键词的解释内容所对应的知识范畴是服务器根据了解该关键词的目标对象的数量而确定的，了解该关键词的目标对象的数量越多，表征该关键词的解释内容所对应的知识范畴越狭窄；了解该关键词的目标对象的数量越少，表征该关键词的解释内容所对应的知识范畴越广阔，例如，所有的目标对象中了解“边际效应”的目标对象占比0.4，即可确定“边际效应”的解释内容所对应的知识范畴是1-0.4＝0.6。

本申请实施例根据目标对象的认知模型，从语音信息中提取超出目标对象知识范畴的关键词，有助于后续在人机交互界面中呈现符合目标对象个性的关键词，从而能够针对每个目标对象不同的知识范畴做出差异化的提示，进而提高目标对象的学习体验。

在步骤S105中，服务器将关键词和对应的解释内容发送至客户端。

在一些实施例中，服务器发送关键词和对应的解释内容可以是在当目标对象已开启关键词提示功能后再发送；也可以是不论目标对象是否开启关键词提示功能，服务器均提前发送关键词和对应的解释内容。

在步骤S106中，客户端在人机交互界面中呈现位于目标对象的知识范畴以外的关键词、以及对应的解释内容。

在一些实施例中，客户端响应于开启信息提示功能的操作，在人机交互界面中呈现直播内容的语音信息中出现的关键词、以及关键词的解释内容。

这里，可以是当客户端开始呈现直播内容自动开启信息提示功能，以在人机交互界面中呈现关键词和解释内容；也可以是当接收到开启信息提示功能的操作时，才在人机交互界面中呈现关键词和解释内容。

作为示例，客户端在人机交互界面呈现关键词和解释内容，可以嵌入人机交互界面的播放窗口(用于呈现直播内容的窗口)中，例如，浮动在播放直播内容的视频画面之上；也可以是独立于播放窗口的信息提示窗口中呈现，例如信息提示功能开启时，直播窗口可以从全屏切换为小窗口(即非全屏窗口)，以在避让出的区域中呈现信息提示窗口。

举例来说，参见图6，图6是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图。图6中，当用户触发提示按钮601时，客户端开启信息(或称术语)提示功能，将在直播窗口的下方呈现信息提示窗口602，其中，信息提示窗口602中呈现关键词和解释内容；当用户再次触发提示按钮601时，客户端关闭信息提示功能，信息提示窗口602关闭。

本申请实施例通过在人机交互界面中呈现和直播内容相关的提示信息，能够使目标对象在观看直播的过程中，辅助目标对象理解直播的内容；通过动态根据每个目标对象不同的知识范畴做出差异化的提示信息，能够实现个性化辅助目标对象理解直播内容的作用，从而提高目标对象的使用体验。

作为步骤S104至步骤S106的替代方案，服务器可以从语音信息中提取出之前已提示的关键词；服务器将已提示的关键词和对应的解释内容发送至客户端；客户端在人机交互界面中呈现已提示的关键词、以及对应的解释内容。

在一些实施例中，服务器在语音信息中提取多个之前已提示的关键词，并在多个已提示的关键词中，随机选取部分已提示的关键词、选取部分重点的已提示的关键词、或选取位于目标对象的遗忘范畴以内的关键词(将在下文详细说明选取关键词的过程)；服务器将选取的部分已提示的关键词和对应的解释内容发送至客户端；客户端在人机交互界面中呈现部分已提示的关键词、以及对应的解释内容。

下面详细说明在多个已提示的关键词中选取部分已提示的关键词的过程。

作为一个示例，以一定的比例，在多个已提示的关键词中随机选取部分已提示的关键词，例如，在语音信息中提取10个已提示的关键词，在10个已提示的关键词中随机抽取20％的关键词(即2个关键词)。

作为另一个示例，按照多个已提示关键词的重要性程度，将多个已提示的关键词进行正序排列，并选取部分在前的已提示的关键词；其中，关键词的重要性程度可根据关键词在直播内容中的出现频率确定；当关键词在直播内容中的出现频率较高，表征关键词的重要性程度越高；当关键词在直播内容中的出现频率较低，表征关键词的重要性程度越低。

作为又一个示例，关键词A属于用户的知识范畴之内(例如之前用户针对关键词A的历史操作行为是已了解历史关键词)，但是间隔一段时间(例如20天)后，用户已遗忘关键词A，并且想要再次了解关键词A，如此，服务器可以在多个已提示的关键词中选取位于目标对象的遗忘范畴以内的关键词。

举例来说，2020年3月5日已向用户提示关键词A，2020年3月15日已向用户提示关键词B；当用户在2020年3月18日观看的直播内容中均涉及之前已提示的关键词A和关键词B时，可根据用户针对关键词A和关键词B的记忆量以及记忆量阈值，确定关键词A和关键词B是否位于目标对象的遗忘范畴以内。记忆量越高，表征用户对该关键词记忆越深；记忆量越低，表征用户对该关键词记忆越浅。

当用户针对关键词的记忆量不超过记忆量阈值时，表征该关键词位于目标对象的遗忘范畴以内；当用户针对关键词的记忆量超过记忆量阈值时，表征该关键词不位于目标对象的遗忘范畴以内。

以记忆量阈值为26％为例，根据表1中的遗忘规律，用户在2020年3月18日针对关键词A的记忆量是25.4％(提示关键词A的日期是2020年3月5日，和2020年3月18日相隔13天)；用户在2020年3月18日针对关键词B的记忆量是27.8％(提示关键词B的日期是2020年3月15日，和2020年3月18日相隔3天)。用户在2020年3月18日针对关键词A的记忆量25.4％低于记忆量阈值26％，表征用户对关键词A记忆较浅，即关键词A属于位于用户的遗忘范畴以内的关键词，因此，需要提取关键词A；用户在2020年3月18日针对关键词B的记忆量是27.8％高于记忆量阈值26％，表征用户对关键词B记忆较深，即关键词B不属于位于用户的遗忘范畴以内的关键词，因此，需要提取关键词B。

本发明实施例通过多种方式对之前提示过的关键词进行重复提示(例如，随机提示；按照关键词的重要性程度进行提示；按照遗忘规律进行提示)，可以满足用户对于已经提示过的关键词进行回顾(或称复习)的需求，能够实现个性化辅助用户理解直播内容的作用，从而提高用户的使用体验。

在一些实施例中，步骤S104中的目标对象可以是用户(或用户账号)；其中，用户(账号)可以是主播(账号)或观众(账号)，下面分别说明当用户分别是观众或主播时本申请示例性应用。

示例一，当目标对象是观众，且观众针对历史关键词的历史操作行为的类型是已了解(或称已知)历史关键词时，针对观众减少历史关键词的提示次数，或者，不再提示历史关键词。

这里，针对历史关键词的历史操作行为的类型包括：已了解历史关键词；纠正历史关键词。针对实施已了解历史关键词的历史操作行为的观众，不再提示该关键词(即针对同一观众)；针对其他观众(例如，在客户端登录的目标对象发生切换时，即针对相同客户端的不同观众)，减少提示历史关键词的次数或不再提示历史关键词。

需要说明的是，当观众针对历史关键词的历史操作行为的类型是已了解历史关键词时，在观看相同的直播内容时，减少历史关键词的提示次数，或不再提示历史关键词；当观看另一个不同直播内容、且出现相同的历史关键词时，仍然提示历史关键词。

或者，当观众针对历史关键词的历史操作行为的类型是已了解历史关键词时，在观看相同的直播内容时，减少历史关键词的提示次数，或不再提示历史关键词；当观看另一个不同直播内容、且出现相同的历史关键词时，仍然减少历史关键词的提示次数，或不再提示历史关键词。

举例来说，参见图7A，图7A是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图。图7A中，当观众针对关键词(即术语)触发已知按钮701时，该关键词立即消失，并且针对观众后续会减少该关键词的提示次数或者不再提示该关键词或相关关键词。

本示例向观众提供操作权限，并根据观众的操作动态调整后续关键词的提示频率，能够实现个性化辅助用户理解直播内容的作用，从而提高用户的使用体验。

示例二，在一些实施例中，当目标对象是观众，且观众针对历史关键词的历史操作行为的类型是纠正历史关键词时，确定观众针对历史关键词的纠错类型；当观众针对历史关键词的纠错类型是纠正关键词识别错误时，纠正本地的或服务器的对直播内容进行语音识别时所使用的语音识别模型；当观众针对历史关键词的纠错类型是纠正关键词定义错误时，纠正服务器中存储的历史关键词的解释内容。

举例来说，参见图7B，图7B是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图。图7B中，当观众针对关键词触发纠正按钮702时，客户端中呈现纠错类型窗口703，观众可在纠错类型窗口703中选择纠错类型，其中，纠错类型包括术语识别错误和术语定义错误，会根据观众选择的纠错类型将纠错数据上报到不同地方，例如，如果是术语识别错误，纠正本地的或服务器的对直播内容进行语音识别时所使用的语音识别模型；如果是术语定义错误，则上传到关键词库(即术语库)进行人工或机器查验，当验证通过后，将纠正的关键词进行更新。

本示例向观众提供纠正关键词的权限，并实时更新关键词库，能够保证关键词库的准确性，避免关键词提示出现错误，进而提高用户的学习体验。

示例三，当目标对象是主播，且目标对象针对待提示关键词的操作行为的类型是删除待提示关键词的提示时，经由服务器控制在相应的观众的人机交互界面中不呈现待提示关键词、以及对应的解释内容。

这里，针对待提示关键词的操作行为的类型包括：删除待提示关键词(的提示)；纠正待提示关键词。当主播针对待提示关键词的操作行为的类型是删除待提示关键词的提示时，后续服务器将不再对删除的关键词进行识别和/或提示。

举例来说，参见图7C，图7C是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图。图7C中，当主播针对关键词触发删除按钮704时，该关键词立即消失，并且经由服务器控制在相应的观众的人机交互界面中不呈现待提示关键词、以及对应的解释内容。

这里，关键词提示的数量会存储到主播的个人信息中，同时，关键词提示的数量与本场直播观众的总的提示数量(即观众所能看到提示数量的最大值)相同。

本示例向主播提供删除关键词的权限，并不再对删除的关键词进行识别和/或提示，使得主播可以灵活更改需要向观众进行提示的关键词，满足用户的个性化需求。

示例四，当目标对象是主播，且目标对象针对待提示关键词的操作行为的类型是纠正待提示关键词时，确定主播针对待提示关键词的纠错类型；当主播针对待提示关键词的纠错类型是纠正关键词识别错误时，纠正本地或服务器对直播内容进行语音识别时所使用的语音识别模型；当主播针对待提示关键词的纠错类型是纠正关键词定义错误时，纠正服务器中存储的待提示关键词的解释内容。

举例来说，参见图7D，图7D是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图。图7D中，当主播针对关键词触发纠正按钮705时，客户端中呈现纠错类型窗口706，主播可在纠错类型窗口706中选择纠错类型，其中，纠错类型包括术语识别错误和术语定义错误，会根据主播选择的纠错类型将纠错数据上报到不同地方，例如，如果是术语识别错误，纠正本地的或服务器的对直播内容进行语音识别时所使用的语音识别模型；如果是术语定义错误，则上传到关键词库进行人工或机器查验，当验证通过后，将纠正的关键词进行更新。

本示例向主播提供纠正关键词的权限，并实时更新关键词库，能够保证关键词库的准确性，避免关键词提示出现错误，进而提高用户的学习体验。

示例五，当目标对象是主播时，响应于针对关键词库的查看操作，在人机交互界面中呈现关键词库中的关键词、以及对应的解释内容；响应于针对关键词库的添加操作，获取添加的关键词、以及对应的解释内容；当添加的关键词、以及对应的解释内容被审核通过时，将审核通过的关键词、以及对应的解释内容添加至关键词库。

这里，不仅包括对添加的关键词、以及对应的解释内容的违规审核，例如，添加的关键词、以及对应的解释内容中是否包含违法和色情信息等；还包括审核添加的关键词、以及对应的解释内容是否准确，例如，关键词与解释内容是否匹配，当匹配时，表征审核通过；关键词的解释内容是否正确，当正确时，表征审核通过。

举例来说，参见图7E，图7E是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图。图7E中，主播触发查看按钮707，客户端在人机交互界面中呈现术语库，包括所有的关键词以及对应的解释内容；主播触发添加按钮708，客户端在人机交互界面中呈现添加关键词的页面，当主播在添加关键词的页面中键入关键词和相应的解释内容后，触发提交按钮709，即可将添加的关键词和相应的解释内容添加至术语库。

本示例向主播提供查看关键词库以及添加关键词的权限，使得主播可以灵活添加需要向观众进行提示的关键词，可以满足教学过程中差异化的提示需要，进而提高用户的学习体验。

示例六，当目标对象是主播时，响应于查看观众反馈直播内容的操作，在人机交互界面中呈现多个关键词、以及分别对应于每个关键词的已了解关键词的观众数量。

举例来说，参见图7F，图7F是本申请实施例提供的直播过程中的信息提示方法的应用场景示意图。图7F中，客户端响应于查看观众反馈直播内容的操作，在人机交互界面中呈现反馈页面，其中，反馈页面中包含关键词栏710(包括关键词和对应的解释)和观众数量栏711(包括对应于每个关键词的已了解关键词的观众数量)。

本示例支持主播可以看到不同观众对关键词库的操作反馈，例如，已知关键词的观众数量，使得主播能够根据数据反馈情况对未来的教学情况进行调整，进而提高用户的学习体验。

下面，以关键词为专业术语(或称术语)、且目标对象为用户为例，说明本申请实施例所提供的直播过程中的信息提示方法。

针对上述问题，本申请实施例提供一种直播过程中的信息提示方法，本申请实施例通过语音识别技术，识别直播过程中提到的专业术语，并将专业术语的解释自动呈现在用户界面(即上述的人机交互界面)上，辅助用户理解直播中的内容；用户可以对提示术语进行已知和未知的操作，术语提示系统会动态根据每个用户不同的认知程度做出差异化的提示，实现个性化辅助用户理解专业术语的作用。

参加图8，图8是本申请实施例提供的直播过程中的信息提示方法的流程示意图，下面，将结合图8详细说明。

在步骤S801中，获取用户账号。

在一些实施例中，用户可以是(直播)观众，也可以是直播者(即上述的主播)。针对不同用户的身份记录相应的信息，满足后续进行个性化提示的需要，即动态根据每个用户不同的认知程度做出差异化的提示。

在步骤S802中，获取用户账号的授权，并记录用户账号的操作行为。

在一些实施例中，根据用户的操作行为进行数据分析，构建用户的认知模型，满足后续术语提示系统进行个性化提示的需要。

在步骤S803中，接收直播内容，并呈现直播内容。

在一些实施例中，用户观看的直播内容可以是经济学课程、物理学课程、以及生物学课程等专业性内容。

在步骤S804中，响应于开启信息提示功能的操作，识别直播内容中的术语，并在用户界面(即上述的人机交互界面)呈现术语。

在一些实施例中，直播者(即上述的主播)和观看直播的用户(即上述的观众)触发用户界面中的提示按钮，以打开术语提示系统，术语提示系统通过语音识别技术，识别直播内容中关于不同学科的术语，并将直播过程中提到的术语呈现在在用户界面中，其中，术语的内容库(即上述的关键词库)来自各个专业学科的专业术语库，术语的内容库支持人工输入和纠正。

在步骤S805中，记录观众(账号)针对用户界面所呈现的术语的操作行为，以构建用户的认知模型。

在一些实施例中，观看直播的用户(即观众)通过用户界面可以查看术语的显示和解释，并对术语的提示做出反馈，例如，已知术语(即上述的已了解关键词)、纠正错误(即上述的纠正关键词)等操作，而术语提示系统会记录用户行为，构建用户的认知模型(即上述的用户账号的认知模型)，以进行个性化的提示，例如，当用户点击已知术语时，后续会减少该术语的提示次数或者不再提示该术语或相关术语；当用户纠正错误时，会将纠正的内容反馈至术语提示系统中进行反复查询或者通过人工介入进行确认。

在步骤S806中，记录主播(账号)针对用户界面所呈现的术语的操作行为，以更新用户界面中呈现的术语。

在一些实施例中，直播者可以在直播时看到术语的提示，并根据术语识别的准确度做出人工干预，例如，不需要术语提示时可以删除提示；或者，当术语提示出现错误时，可以向术语提示系统进行反馈。同时，直播者也可以查看术语库(即上述的关键词库)和提交新的术语，满足教学中差异化的提示需要。同时，直播者可以看到不同观众对术语库的操作反馈，例如，已知术语的观众数量，并根据数据的反馈情况对后续的教学进行调整。

接下来说明本申请实施例的具体实现方式：

(1)用户登录客户端以及授权客户端(记录用户的操作行为)的过程。

参见图9A和图9B，图9A是本申请实施例提供的用户登录客户端的流程示意图，图9B是本申请实施例提供的用户授权客户端的流程示意图。

图9A中，用户使用个人账号和密码登录客户端，服务器根据账号和密码识别用户身份，当用户身份识别通过时，客户端显示用户登录成功。图9B中，用户授权客户端和服务器(即术语提示系统)对个人操作行为进行分析记录。

(2)直播过程中对术语识别的过程。

参见图10，图10是本申请实施例提供的术语识别过程的流程示意图，将结合图10详细说明。

①客户端实时监控直播者的声音数据(即上述的音频数据)，并将声音数据上传到服务器。

②服务器接收声音数据，并对声音数据进行前端处理，核心消除噪声和不同口音带来的影响，使处理后的信号更能反映语音的本质特征，例如，语音端点检测和语音增强。

③服务器对声音数据进行分帧，通过声学特征提取，例如，梅尔频率倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)、音频谱(CEP，Cool Ed it Pro)、以及语音信号线性预测(LPC，Linear Predictive Coding)等方式，将每一帧波形变成一个多维向量(即上述的音频向量)，其中，多维向量包含了这帧声音数据的内容信息。

④服务器通过声学模型将多维向量的数据转化为音节，声学模型可以是隐马尔可夫模型(HMM，Hidden Markov Model)。

⑤服务器通过语言模型，例如统计语言(N-Gram)模型，将音节转化为文字(信息)。

⑥识别文字后，服务器进行术语库(包括专业术语词汇和解释)的搜索匹配，其中，术语库可以使用各行业的专业术语和解释，并且，术语库支持直播者新增或修订术语和解释。

⑦客户端呈现匹配成功的术语和相应的解释。

(3)术语提示系统对观众进行术语的个性化提示的过程。

参见图11，图11是本申请实施例提供的对观众进行术语的个性化提示的流程示意图，将结合图11详细说明。

①直播观众开启术语提示功能。

②客户端向服务器发起索要术语提示的请求。

③服务器搜索符合用户的认知模型的提示信息。

④客户端按照用户的认知模型的需求进行提示信息的展示，即每个用户的认知模型不同，提示信息也不同。

⑤直播观众对提示信息进行反馈操作，例如，已知术语和纠正错误等操作，或者不进行操作。

⑥客户端将直播观众的操作行为上传到服务器。

⑦服务器将用户的认知模型进行优化，如果用户的操作行为是点击已知术语的操作(即上述的触发已知按钮)时，则后续不会再提示该用户相应的术语，所以随着每个用户的操作的不同，其认知模型也不同。

如果是点击已知术语的操作，后续会减少该术语的提示或者不再提示该术语或相关术语；如果是纠正操作(即上述的触发纠正按钮)时，会根据纠正错误的类型(即上述的纠错类型)将纠错数据上报到不同地方，例如，如果是术语识别错误，则上传到服务器进行模型识别的纠正；如果是术语定义错误，则上传到术语库进行人工查验。

⑧服务器将用户的认知模型与收到的术语提示信息进行匹配。

⑨客户端将基于用户认知模型将不同的术语提示进行显示。

(4)术语提示系统对直播者进行术语提示的过程。

参见图12，图12是本申请实施例提供的对直播者进行术语提示的流程示意图，将结合图12详细说明。

①直播者开启术语提示功能。

②客户端向服务器发起开启功能的请求。

③服务器通过ASR实时识别专业术语。

④客户端显示所有识别到的术语。

⑤直播者对提示信息进行操作，例如，如果是删除操作，则不再对删除的术语进行识别和提示；如果是纠正操作时，会根据纠正错误的类型将纠错数据上报到不同地方，例如，如果是术语识别错误，则上传到服务器进行模型识别的纠正；如果是术语定义错误，则上传到术语库进行人工查验。

⑥客户端将操作行为上传到服务器。

⑦服务器更新术语提示的数量，术语提示的数量会存储到当前直播者的个人信息中，同时，术语提示的数量与本场直播观众的总的提示数量(即直播观众所能看到提示数量的最大值)相同。

⑧客户端对直播者显示最新的术语提示。

(5)直播者浏览术语库以及添加术语的过程。

参见图13A和图13B，图13A是本申请实施例提供的直播者浏览术语库的流程示意图，图13B是本申请实施例提供的直播者添加术语的流程示意图。

图13A中，直播者点击查看术语库，客户端显示当前术语库的信息，服务器定时刷新并在客户端显示最新术语库的信息；图13B中，直播者点击添加术语，客户端呈现添加术语的页面，直播者输入术语和解释并上传到术语库，服务器对术语审核通过后更新术语库内容并在客户端进行显示。

随着在线教育和专业内容的直播和视频内容的增加，未来用户需要进行更多在线的学习教育，而在直播和视频过程中，会提到大量专业术语，在快速的在线学习过程中，用户无法及时的记录下来这些术语，因此会影响到用户后面认知学习。本申请实施例便于用户快速理解专业术语，并根据用户不同认知阶段进行个性化的术语提示。

下面继续说明本申请实施例提供的直播过程中的信息提示装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的直播过程中的信息提示装置455中的软件模块可以包括：

直播模块4551，用于在人机交互界面中呈现直播内容；

语音识别模块4552，用于对所述直播内容进行语音识别，得到所述直播内容对应的语音信息；

提取模块4553，用于从所述语音信息中提取出位于目标对象的知识范畴以外的关键词；

所述直播模块4551，还用于在所述人机交互界面中呈现位于所述目标对象的知识范畴以外的关键词、以及对应的解释内容。

在上述方案中，所述语音识别模块4552，还用于从所述直播内容中提取音频数据，并过滤所述音频数据中的噪音；通过语音识别模型，对过滤后的音频数据进行语音识别，以获得所述直播内容对应的语音信息。

在上述方案中，所述语音识别模块4552，还用于对所述过滤后的音频数据进行分帧处理，以获得多个音频子数据；对每个所述音频子数据进行声学特征提取，以获得多个音频向量；将每个所述音频向量转换为相应的音节，并转换为相应的文字信息；将多个所述音频子数据一一对应的多个文字信息进行组合，得到所述直播内容对应的语音信息。

在上述方案中，所述提取模块4553，还用于在所述语音信息中提取多个关键词，并确定每个关键词所属的领域；根据所述目标对象的认知模型，确定所述目标对象针对每个关键词所属的领域的知识范畴；在所述多个关键词中提取关键词，且所提取的关键词的解释内容位于所提取关键词所属的领域的知识范畴以外。

在上述方案中，所述直播过程中的信息提示装置455还包括：模型构建模块，用于获取所述目标对象针对多个历史关键词的历史操作行为；其中，所述历史关键词用于在针对所述目标对象呈现历史直播内容的过程中呈现；所述历史操作行为的类型包括：已了解所述历史关键词、纠正所述历史关键词；确定所述多个历史关键词分别所属的领域，并基于每个领域包括的历史操作行为的数量，确定所述目标对象针对所述每个领域的知识范畴，以构建所述目标对象的认知模型。

在上述方案中，所述直播过程中的信息提示装置455还包括：观众模块，用于当所述目标对象是观众，且所述观众针对历史关键词的历史操作行为的类型是已了解所述历史关键词时，针对所述观众减少所述历史关键词的提示次数，或者，不再提示所述历史关键词。

在上述方案中，所述直播过程中的信息提示装置455还包括：主播模块，用于当所述目标对象是主播，且所述目标对象针对待提示关键词的操作行为的类型是删除所述待提示关键词的提示时，控制在相应的观众的人机交互界面中不呈现所述待提示关键词、以及对应的解释内容；当所述主播针对所述待提示关键词的操作行为的类型是纠正所述待提示关键词时，确定所述主播针对所述待提示关键词的纠错类型；当所述主播针对所述待提示关键词的纠错类型是纠正关键词识别错误时，纠正对所述直播内容进行语音识别时所使用的语音识别模型；当所述主播针对所述待提示关键词的纠错类型是纠正关键词定义错误时，纠正所述待提示关键词的解释内容。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的直播过程中的信息提示方法，例如，如图3、图4、图5C或图8示出的直播过程中的信息提示方法，计算机包括智能终端和服务器在内的各种计算设备。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本申请实施例具有以下有益效果：

(1)通过在人机交互界面中呈现和直播内容相关的提示信息，能够使用户在观看直播的过程中，辅助用户理解直播的内容；通过动态根据每个用户不同的认知程度做出差异化的提示信息，能够实现个性化辅助用户理解直播内容的作用，从而提高用户的体验。

(2)通过从直播内容中提取音频数据，并对音频数据进行语音识别，以获得与直播内容对应的语音信息，可以便于后续在语音信息中查找关键词，从而便于后续向用户发送关键词提示信息。

(3)通过构建用户账号的认知模型，能够满足后续关键词提示系统进行个性化提示的需要，从而能够动态根据每个用户不同的认知程度做出差异化的提示。

(4)根据用户账号的认知模型，从语音信息中提取超出用户认知程度的关键词，有助于后续在人机交互界面中呈现符合用户个性的关键词，从而能够针对每个用户不同的认知程度做出差异化的提示。

(5)向观众提供操作权限，并根据观众的操作动态调整后续关键词的提示频率，能够实现个性化辅助用户理解直播内容的作用。

(6)向主播和观众提供纠正关键词的权限，并实时更新关键词库，能够保证关键词库的准确性，避免关键词提示出现错误。

(7)向主播提供删除关键词的权限，并不再对删除的关键词进行识别和/或提示，使得主播可以灵活更改需要向观众进行提示的关键词，满足用户的个性化需求。向主播提供查看关键词库以及添加关键词的权限，使得主播可以灵活添加需要向观众进行提示的关键词，可以满足教学过程中差异化的提示需要。

(8)支持主播可以看到不同观众对关键词库的操作反馈，例如，已知关键词的观众数量，使得主播能够根据数据反馈情况对未来的教学情况进行调整。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种直播过程中的信息提示方法，其特征在于，所述方法包括：

在人机交互界面中呈现直播内容；

2.根据权利要求1所述的方法，其特征在于，所述对所述直播内容进行语音识别，得到所述直播内容对应的语音信息，包括：

从所述直播内容中提取音频数据，并过滤所述音频数据中的噪音；

对过滤后的音频数据进行语音识别，以获得所述直播内容对应的语音信息。

3.根据权利要求2所述的方法，其特征在于，所述对过滤后的音频数据进行语音识别，以获得所述直播内容对应的语音信息，包括：

对所述过滤后的音频数据进行分帧处理，以获得多个音频子数据；

对每个所述音频子数据进行声学特征提取，以获得多个音频向量；

将每个所述音频向量转换为相应的音节，并将所述音节转换为相应的文字信息；

将多个所述音频子数据一一对应的多个文字信息进行组合，得到所述直播内容对应的语音信息。

4.根据权利要求1所述的方法，其特征在于，所述从所述语音信息中提取出位于目标对象的知识范畴以外的关键词，包括：

在所述语音信息中提取多个关键词，并确定每个关键词所属的领域；

根据所述目标对象的认知模型，确定所述目标对象针对每个关键词所属的领域的知识范畴；

在所述多个关键词中提取关键词，且所提取的关键词的解释内容位于所提取关键词所属的领域的知识范畴以外。

5.根据权利要求1所述的方法，其特征在于，在从所述语音信息中提取出位于目标对象的知识范畴以外的关键词之前，所述方法还包括：

获取所述目标对象针对多个历史关键词的历史操作行为；

其中，所述历史关键词用于在针对所述目标对象呈现历史直播内容的过程中呈现；所述历史操作行为的类型包括：已了解所述历史关键词、纠正所述历史关键词；

确定所述多个历史关键词分别所属的领域，并基于每个领域包括的历史操作行为的数量，确定所述目标对象针对所述每个领域的知识范畴，以构建所述目标对象的认知模型。

6.根据权利要求5所述的方法，其特征在于，所述获取所述目标对象针对多个历史关键词的历史操作行为，包括：

当所述人机交互界面中呈现所述历史直播内容中出现的历史关键词以及对应的解释内容时，呈现登录窗口；

当通过所述登录窗口获得所述目标对象的登录信息时，呈现授权提示窗口；

当通过所述授权提示窗口接收到所述目标对象的授权时，监听所述目标对象针对所述多个历史关键词的历史操作行为。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当所述目标对象是观众，且所述观众针对历史关键词的历史操作行为的类型是已了解所述历史关键词时，针对所述观众减少所述历史关键词的提示次数，或者，不再提示所述历史关键词。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当所述目标对象是观众，且所述观众针对历史关键词的历史操作行为的类型是纠正所述历史关键词时，确定所述观众针对所述历史关键词的纠错类型；

当所述观众针对所述历史关键词的纠错类型是纠正关键词识别错误时，纠正对所述直播内容进行语音识别时所使用的语音识别模型；

当所述观众针对所述历史关键词的纠错类型是纠正关键词定义错误时，纠正所述历史关键词的解释内容。

9.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当所述目标对象是主播，且所述主播针对待提示关键词的操作行为的类型是删除所述待提示关键词的提示时，控制在相应的观众的人机交互界面中不呈现所述待提示关键词、以及对应的解释内容；

当所述主播针对所述待提示关键词的操作行为的类型是纠正所述待提示关键词时，确定所述主播针对所述待提示关键词的纠错类型；

当所述主播针对所述待提示关键词的纠错类型是纠正关键词识别错误时，纠正对所述直播内容进行语音识别时所使用的语音识别模型；

当所述主播针对所述待提示关键词的纠错类型是纠正关键词定义错误时，纠正所述待提示关键词的解释内容。

10.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当所述目标对象是主播时，响应于针对关键词库的查看操作，在所述人机交互界面中呈现所述关键词库中的关键词、以及对应的解释内容；

响应于针对所述关键词库的添加操作，获取添加的关键词、以及对应的解释内容；

当所述添加的关键词、以及对应的解释内容被审核通过时，将审核通过的关键词、以及对应的解释内容添加至所述关键词库。

11.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当所述目标对象是主播时，响应于查看观众反馈所述直播内容的操作，在所述人机交互界面中呈现多个关键词、以及分别对应于每个关键词的已了解所述关键词的观众数量。

12.一种直播过程中的信息提示方法，其特征在于，所述方法包括：

响应于直播触发操作，在人机交互界面中呈现直播内容；

13.一种直播过程中的信息提示装置，其特征在于，包括：

直播模块，用于在人机交互界面中呈现直播内容；

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的方法，或权利要求12所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至11任一项所述的方法，或权利要求12所述的方法。