CN111522971A

CN111522971A - 一种直播教学中辅助用户听课的方法及装置

Info

Publication number: CN111522971A
Application number: CN202010270829.9A
Authority: CN
Inventors: 魏超男
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-08-11

Abstract

本申请实施例公开了一种直播教学中辅助用户听课的方法及装置。本申请实施例提供的技术方案，通过将接收到教师语音信息转换为文字信息，并将转换后的文字信息在学生端的直播画面处进行显示，使得老师在直播课程中的讲课语音能够转换为更清楚的信息，降低因老师说话太快或者普通话不够标准导致的学生听不清楚的风险，辅助学生理解课堂讲解内容，提升直播教学效果。

Description

一种直播教学中辅助用户听课的方法及装置

技术领域

本申请实施例涉及视频直播技术领域，尤其涉及一种直播教学中辅助用户听课的方法及装置。

背景技术

目前，学生在直播课堂听课时，通过观看老师展示的PPT以及讲解来进行课堂理解。当听不清楚老师讲解的内容时，往往是通过回放直播，并结合PPT的内容进行理解。或者，通过询问在观看直播的其他同学来对老师刚刚讲解的内容进行理解。但是，上述方式会增加学生的听课耗时，且不能够使得学生实时了解清楚老师所要传达的信息。当听课过程中，听不清楚老师讲解的内容时，往往会打击学生的学习积极性，进而降低学生的听课欲望，从而使得直播教学的效果下降。

发明内容

本申请实施例提供一种直播教学中辅助用户听课的方法及装置，能够通过将教师语音信息转化为文字信息并在学生端进行显示，使得学生能够不仅听到老师讲课的内容，同时也能够看到老师讲解的方案，辅助学生进行听课。

在第一方面，本申请实施例提供了一种直播教学中辅助用户听课的方法，包括：

接收教师端发送的教师语音信息；

通过语音识别模型将教师语音信息转化为文字信息；

将文字信息发送至学生端以在直播画面处进行文字显示。

进一步的，在接收教师端发送的教师语音信息之后，还包括：

对教师语音信息进行语速放慢处理；

相应的，通过语音识别模型将教师语音信息转化为文字信息，包括：

通过语音识别模型将语速放慢处理后的教师语音信息转化为文字信息。

进一步的，在直播画面处进行文字显示，包括：

当检测到用户正在观看直播时，在直播画面的下方居中位置进行文字显示。

进一步的，文字信息包括中文文字和英文文字，通过语音识别模型将教师语音信息转化为文字信息，包括：

通过语音识别模型将教师语音信息转化为英文文字；

在通过语音识别模型将教师语音信息转化为英文文字之后还包括：对英文文字进行翻译以得到对应的中文文字；

对应的，将文字信息发送至学生端以在直播画面处进行文字显示，包括：将英文文字以及对应的中文文字发送至学生端以在直播画面处进行文字显示。

进一步的，通过语音识别模型将教师语音信息转化为文字信息，包括：

确定教师语音信息对应的方言类型；

加载和方言类型对应的方言语音包进行教师语音信息识别。

确定教师语音信息中包含的课程讲解语音；

通过语音识别模型将课程讲解语音转化为文字信息。

进一步的，语音识别模型通过如下步骤构建得到：

获取对应教师的语音训练数据以及与语音训练数据对应的文本训练数据；

构建神经网络模型；

将语音训练数据以及与语音训练数据对应的文本训练数据输入神经网络模型中进行训练以得到语音识别模型。

在第二方面，本申请实施例提供了一种直播教学中辅助用户听课的装置，包括：

接收模块：用于接收教师端发送的教师语音信息；

转化模块：用于通过语音识别模型将教师语音信息转化为文字信息；

显示模块：用于将文字信息发送至学生端以在直播画面处进行文字显示。

在第三方面，本申请实施例提供了一种电子设备，包括：

存储器以及一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面的直播教学中辅助用户听课的方法。

在第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如第一方面的直播教学中辅助用户听课的方法。

本申请实施例通过将接收到教师语音信息转换为文字信息，并将转换后的文字信息在学生端的直播画面处进行显示，使得老师在直播课程中的讲课语音能够转换为更清楚的信息，降低因老师说话太快或者普通话不够标准导致的学生听不清楚的风险，辅助学生理解课堂讲解内容，提升直播教学效果。

附图说明

图1是本申请实施例提供的一种直播教学中辅助用户听课的方法的流程图；

图2是本申请实施例提供的对方言进行语音识别的流程图；

图3是本申请实施例提供的将讲解内容进行语音识别的流程图；

图4是本申请实施例提供的语音识别模型构建的流程图；

图5是本申请实施例提供的将英文转换为中文的流程图；

图6是本申请实施例提供的具有中文字幕的显示界面示意图；

图7是本申请实施例提供的具有中英文字幕的显示界面示意图；

图8是本申请实施例提供的一种直播教学中辅助用户听课的方法的结构示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请提供的直播教学中辅助用户听课的方法通过在直播教学过程中不断的将获取到的教师语音信息转换为文字信息，以使得在观看直播的学生不仅仅可以听到老师的语音讲解，同时也可以看到对应的文字内容。为了更好的辅助学生听课，目前大多数做法是，学生通过直播回放并结合课本去对相应的内容进行理解。但是上述方式会消耗学生的时间，从一定程度上增加了学生的听课负担，使得学生提高课堂听课效率。

图1给出了本申请实施例提供的一种直播教学中辅助用户听课的方法的流程图，本实施例中提供的直播教学中辅助用户听课的方法可以由直播教学中辅助用户听课的设备执行，该直播教学中辅助用户听课的设备可以通过软件和/或硬件的方式实现，该直播教学中辅助用户听课的设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。一般而言，该直播教学中辅助用户听课的设备可以是电脑，手机，平板或后台服务器等。

下述以后台服务器为执行直播教学中辅助用户听课的方法的设备为例，进行描述。参照图1，该直播教学中辅助用户听课的方法具体包括：

S101：接收教师端发送的教师语音信息。

在一个实施例中，教师端指的是老师使用的智能终端，可以是电脑或者是智能手机，其中教师语音信息指的是老师在直播教学过程中发出的声音信息。

在接收教师端发送的教师语音信息之后，还包括：

对教师语音信息进行语速放慢处理。

因为有些教师的语速会比较快，这样在进行语音识别时，会存在由于没有识别到对应的语音而造成得到信息不准确的问题。基于此，当检测到有些教师的语速特别快时，通过语速放慢处理来使得接收到的教师语音速度降低，从而提高识别的准确性。更为优选的，可以对教师语音信息以其原有语速的0.5倍进行语速放慢处理。

S102：通过语音识别模型将教师语音信息转化为文字信息。

在一个实施例中，语音识别模型用于对接收到的教师语音信息进行识别以得到对应的文字信息，文字信息指的是与语音信息对应的文字显示内容。

更为优选的，图2是本申请实施例提供的对方言进行语音识别的流程图，通过语音识别模型将教师语音信息转化为文字信息，如图2所示，包括：

S1021a：确定教师语音信息对应的方言类型。

由于老师可能来自不同的地方，所以会带有不同地方的方言，因此需要先确定老师是属于那种方言类型，比如，老师是来自河南或者四川或者重庆或者广东等等，根据不同地方对应不同的方言类型。在这一步需要先确定当前老师所讲方言，如果老师是四川的，而加载的是河南的方言语音包，那么会进一步降低语言识别的准确性。

S1021b：加载和方言类型对应的方言语音包进行教师语音信息识别。

当在步骤S1201a中检测到对应的老师所说方言时，比如当老师所说方言为四川方言时，则加载对应的四川方言包以对教师语音信息进行识别。当老师所说方言为河南方言时，则加载对应的河南方言包以对教师语音信息进行识别。转换后的信息为采用普通话形式表达的信息。本实施例的方案在具体操作时，需要预先在后台服务器中存储有各地的方言包，当需要采用对应的方言时，则对对应方言语言包的进行调用。为了避免出现识别不准确的问题，在本实施例中，采用了根据教师所讲语言来确定对应的方言类型，后加载方言语音包的方式进行处理。因为如果老师讲的是四川话，没有进行方言确认时，加载的是河南方言的语音包，那么最后识别得到的文字信息则与实际相去甚远。因此，采用了进行方言确认，然后加载语音包进行语音识别的方式，这样使得即使老师来自全国各地，具有全国各地的口音，也能够辅助学生理解其在直播课堂上讲解的相应内容。

更为优选的，图3是本申请实施例提供的将讲解内容进行语音识别的流程图，通过语音识别模型将教师语音信息转化为文字信息，如图3所示，包括：

S1022a：确定教师语音信息中包含的课程讲解语音。

在一个实施例中，课程讲解语音指的是教师在直播过程中针对于所涉及的课程内容发出的语音信号，在直播过程中，发出的与课程无关的语音信息不属于课程讲解语音的范围。

S1022b：通过语音识别模型将课程讲解语音转化为文字信息。

在本步骤中，主要是为了获取到老师讲解的与课程相关的内容，如果是与课程无关的内容则不对其进行文字转化。比如，当检测到与“语文”“数学”“英语”等课程相关的词语时，则需要对检测到的语音信息进行文字转换，检测的机制是在连续三句话中至少有一次检测到与“语文”“数学”“英语”等课程相关的词语或句子，比如在三句话中至少存在一次“这道题的求解方式”、“这个单词在具体语境下的应用”、“蜀道难，难于上青天”等类型的词句时，则对其进行文字转换。而当连着三句出现的是与课程无关的方面的内容时，比如老师点到某个同学，并说明他上课没有认真听讲，对其进行批评教育时，对于这些类型的语音信息不进行文字转换。

图4是本申请实施例提供的语音识别模型构建的流程图，如图4所示，语音识别模型通过如下步骤构建得到：

S1023a：获取对应教师的语音训练数据以及与语音训练数据对应的文本训练数据。

S1023b：构建神经网络模型。

S1023c：将语音训练数据以及与语音训练数据对应的文本训练数据输入神经网络模型中进行训练以得到语音识别模型。

在进行语音识别模型构建时，需要先获取最基础的训练数据，上述训练数据采集的越多那么模型则越精准。这些训练数据的来源均来自于特定的老师，而非采集所有的人的数据，这样是为了能够更好的识别特定人的语音信息。因为现有课堂下，老师进行讲课时，一般要求其采用普通话进行讲课，但是并非是所有的老师普通话都比较标准。这个时候，如果通过方言识别，又不可能识别到的很准确，因为该老师此时讲解课程所采用的并不是普通话，而是“川普”或“河普”或“广普”这类型的话语；通过方言包可能也无法对其进行准确的识别，如果没有对这些内容进行清楚的识别，也同样会产生文字信息转化不准确的问题。因此，在本实施例中采用了特定人的语音模型构建的方式。通过获取大量的特定人的语音训练数据以及对应的文本训练数据，并对其进行训练，然后构建得到语音识别模型；这样通过不断训练能够提高特定人的语音识别模型识别的精准性。

除了进行上述直接的语音以及对应的文字信息进行训练之外，还包括如下步骤进行语音识别模型的修正：通过训练好的语音识别模型对采集到的教师语音数据进行识别以得到对应的文字信息；接收对应教师针对于该文字信息进行的修改内容；将修改后的文字信息以及对应的教师语音数据输入至语音识别模型中进行训练以提升语音识别模型的识别准确性。通过上述内容不断的修正，使得构建得到的语音识别模型的识别准确性大大提高。

S103：将文字信息发送至学生端以在直播画面处进行文字显示。

本实施例中，文字信息包括中文文字和英文文字，图5是本申请实施例提供的将英文转换为中文的流程图，如图5所示，通过语音识别模型将教师语音信息转化为文字信息，包括：

S1024：通过语音识别模型将教师语音信息转化为英文文字。

S1025：对英文文字进行翻译以得到对应的中文文字。

上述步骤主要是为了便于学生上英语课，因为课堂上会有一些学生英语基础不太好，老师即使讲出了所有的英文单词，但是还是听不太懂，特别是当遇到一些较难的词汇时，通过将对应的英文文字在直播画面上进行显示，能够进一步加深学生学习的印象，使得学生能够更为清楚的了解到对应单词的拼写以及含义；提升直播教学效果。通过除了将英文文字进行显示之外，还包括对英文文字的翻译，实现中英对照，便于学生进行中文与英文信息的对照，也省去了学生查询对应单词的时间，使得学生可以更加集中在老师讲解的语法重点方向。

上述进行英文显示以及对英文文字进行翻译的方式非常适合应用于全英教学中，能够对全英教学中那些基础相对不太好的学生起到提示作用，使得其能够跟上课堂进度，提升学生的课堂参与感。

当采用的文字信息是中文文字时，界面显示效果如图6所示，图6是本申请实施例提供的具有中文字幕的显示界面示意图。当采用的文字信息是中文文字和英文文字时，界面显示效果如图7所示，图7是本申请实施例提供的具有中英文字幕的显示界面示意图。

在直播画面处进行文字显示，包括：

通过在学生端安装对应的检测装置，当检测到学生的电脑前没有人时，也就是当前没有人在听课时，则不进行文字显示。当检测到有用户正在观看直播时，则对文字信息进行显示。优选的，将文字信息展示在下方居中的位置，便于学生进行观看。

在上述实施例的基础上，图8为本申请实施例提供的一种直播教学中辅助用户听课的装置的结构示意图。参考图8，本实施例提供的直播教学中辅助用户听课的装置具体包括：

接收模块21：用于接收教师端发送的教师语音信息；

转化模块22：用于通过语音识别模型将教师语音信息转化为文字信息；

显示模块23：用于将文字信息发送至学生端以在直播画面处进行文字显示。

英文转化模块：用于通过语音识别模型将教师语音信息转化为英文文字；

在通过语音识别模型将教师语音信息转化为英文文字之后还包括：翻译模块：用于对英文文字进行翻译以得到对应的中文文字。

类型确定模块：用于确定教师语音信息对应的方言类型；

加载模块：用于加载和方言类型对应的方言语音包进行教师语音信息识别。

讲解确定模块：用于确定教师语音信息中包含的课程讲解语音；

讲解转化模块：用于通过语音识别模型将课程讲解语音转化为文字信息。

语音识别模型通过如下步骤构建得到：

获取模块：用于获取对应教师的语音训练数据以及与语音训练数据对应的文本训练数据；

神经网络构建模块：构建神经网络模型；

语音识别构建模块：将语音训练数据以及与语音训练数据对应的文本训练数据输入神经网络模型中进行训练以得到语音识别模型。

本申请实施例提供的直播教学中辅助用户听课的装置可以用于执行上述实施例提供的直播教学中辅助用户听课的方法，具备相应的功能和有益效果。

图9是本申请实施例提供了一种电子设备的结构示意图，参照图9，该电子设备包括：处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器31的数量可以是一个或者多个，该电子设备中的存储器32的数量可以是一个或者多个。该电子设备的处理器31、存储器32、通信模块33、输入装置34及输出装置35可以通过总线或者其他方式连接。

存储器32作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例的直播教学中辅助用户听课的方法对应的程序指令/模块(例如，直播教学中辅助用户听课的装置中的接收模块21、转化模块22和显示模块23)。存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器32可进一步包括相对于处理器31远程设置的存储器32，这些远程存储器32可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块33用于进行数据传输。

处理器31通过运行存储在存储器32中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的直播教学中辅助用户听课的方法。

输入装置34可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。

上述提供的电子设备可用于执行上述实施例提供的直播教学中辅助用户听课的方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器31执行时用于执行一种直播教学中辅助用户听课的方法，该直播教学中辅助用户听课的方法包括：

接收教师端发送的教师语音信息；

通过语音识别模型将所述教师语音信息转化为文字信息；

将所述文字信息发送至学生端以在直播画面处进行文字显示。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器31执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上的直播教学中辅助用户听课的方法，还可以执行本申请任意实施例所提供的直播教学中辅助用户听课的方法中的相关操作。

上述实施例中提供的直播教学中辅助用户听课的装置、存储介质及电子设备可执行本申请任意实施例所提供的直播教学中辅助用户听课的方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的直播教学中辅助用户听课的方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

1.一种直播教学中辅助用户听课的方法，其特征在于，包括：

接收教师端发送的教师语音信息；

通过语音识别模型将所述教师语音信息转化为文字信息；

2.根据权利要求1所述的直播教学中辅助用户听课的方法，其特征在于，在所述接收教师端发送的教师语音信息之后，还包括：

对所述教师语音信息进行语速放慢处理；

相应的，所述通过语音识别模型将教师语音信息转化为文字信息，包括：

3.根据权利要求1所述的直播教学中辅助用户听课的方法，其特征在于，所述在直播画面处进行文字显示，包括：

4.根据权利要求1所述的直播教学中辅助用户听课的方法，其特征在于，所述文字信息包括中文文字和英文文字，所述通过语音识别模型将所述教师语音信息转化为文字信息，包括：

通过语音识别模型将所述教师语音信息转化为英文文字；

在所述通过语音识别模型将所述教师语音信息转化为英文文字之后还包括：对英文文字进行翻译以得到对应的中文文字；

对应的，将所述文字信息发送至学生端以在直播画面处进行文字显示，包括：将所述英文文字以及对应的中文文字发送至学生端以在直播画面处进行文字显示。

5.根据权利要求1-4中任意一项所述的直播教学中辅助用户听课的方法，其特征在于，所述通过语音识别模型将所述教师语音信息转化为文字信息，包括：

确定所述教师语音信息对应的方言类型；

加载和所述方言类型对应的方言语音包进行所述教师语音信息识别。

6.根据权利要求1-4中任意一项所述的直播教学中辅助用户听课的方法，其特征在于，所述通过语音识别模型将所述教师语音信息转化为文字信息，包括：

确定所述教师语音信息中包含的课程讲解语音；

通过语音识别模型将所述课程讲解语音转化为文字信息。

7.根据权利要求1-4中任意一项所述的直播教学中辅助用户听课的方法，其特征在于，所述语音识别模型通过如下步骤构建得到：

构建神经网络模型；

将所述语音训练数据以及与语音训练数据对应的文本训练数据输入所述神经网络模型中进行训练以得到语音识别模型。

8.一种直播教学中辅助用户听课的装置，其特征在于，包括：

接收模块：用于接收教师端发送的教师语音信息；

转化模块：用于通过语音识别模型将所述教师语音信息转化为文字信息；

显示模块：用于将所述文字信息发送至学生端以在直播画面处进行文字显示。

9.一种电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一所述的直播教学中辅助用户听课的方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的直播教学中辅助用户听课的方法。