CN110867187B

CN110867187B - 语音数据的处理方法、装置、存储介质及电子设备

Info

Publication number: CN110867187B
Application number: CN201911052841.6A
Authority: CN
Inventors: 舒景辰; 张岱; 史彩庆; 谭星; 胡凯
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2022-07-12
Anticipated expiration: 2039-10-31
Also published as: CN110867187A

Abstract

本申请实施例公开了一种基于教学信息的语音数据处理方法、装置、存储介质及电子设备，属于在线教育领域。方法包括：采集课堂中用户的语音数据，以及解析所述语音数据的对话内容；基于所述语音数据的生成时间确定所述课堂中的教学信息；在所述对话内容和所述教学信息不匹配的情况下，显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述教学信息不匹配。本申请能实现自动对学生在课堂中错误的对话内容进行提示，辅助教师进行教学，提高授课效率。

Description

语音数据的处理方法、装置、存储介质及电子设备

技术领域

本申请涉及在线教育领域，尤其涉及一种基于教学信息的语音数据处理方法、装置、存储介质及电子设备。

背景技术

随着互联网的发展，在线教育收到越来越多人的欢迎，在线教育科研不限时间和地点灵活的学习，充分提升自身的技能。相对于传统的使用固定教室更移动便捷化，在画面、音频更具视觉化和更具吸引力。

在相关技术中，学生在课堂中进行学习，教师在课堂中教授相关的教学内容，教师在教学过程中鼓励学生进行提问，学生进行提问后，教师根据提问的内容来纠正学生错误的对话。在学生不会提问时，教师会引导学生如何进行提问，由此可见这种学习方式需要教师实时进行监督，耗费了大量的人力成本。

发明内容

本申请实施例提供了的基于教学信息的语音数据处理方法、装置、存储介质及终端，可以解决人工纠正用户在课堂中对话内容效率低的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种基于教学信息的语音数据处理方法，所述方法包括：

采集课堂中用户的语音数据，以及解析所述语音数据的对话内容；

基于所述语音数据的生成时间确定所述课堂中的教学信息；

在所述对话内容和所述教学信息不匹配的情况下，显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述教学信息不匹配。

第二方面，本申请实施例提供了一种基于教学信息的语音数据处理装置，所述基于教学信息的语音数据处理装置包括：

解析单元，用于采集课堂中用户的语音数据，以及解析所述语音数据的对话内容；

确定单元，用于基于所述语音数据的生成时间确定所述课堂中的教学信息；

提示单元，用于在所述对话内容和所述教学信息不匹配的情况下，显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述教学信息不匹配。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

采集用户在课堂中的语音数据，以及解析语音数据的对话内容，判断语音数据的对话内容和语音数据的产生时间对应的教学信息是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样自动对学生在课堂中错误的对话内容进行提示，辅助教师进行教学，提高授课效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构图；

图2是本申请实施例提供的基于教学信息的语音数据处理方法的流程示意图；

图3是本申请实施例提供的基于教学信息的语音数据处理方法的另一流程示意图；

图4是本申请实施例提供的基于教学信息的语音数据处理方法的另一流程示意图；

图5是本申请实施例提供的基于教学信息的语音数据处理方法的另一流程示意图；

图6是本申请实施例提供的一种装置的结构示意图；

图7是本申请实施例提供的一种装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

图1示出了可以应用于本申请的基于教学信息的语音数据处理方法或基于教学信息的语音数据处理装置的示例性系统架构100。

如图1所示，系统架构100可以包括第一终端设备100、第一网络101、服务器102、第二网络103和第二终端设备104。第一网络104用于在第一终端设备101和服务器102之间提供通信链路的介质，第二网络103用于在第二终端设备104和服务器102之间提供通信链路的介质。第一网络101和第二网络103可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆的，无线通信链路包括蓝牙通信链路、无线保真(WIreless-FIdelity，Wi-Fi)通信链路或微波通信链路等。

第一终端设备100通过第一网络101、服务器102、第二网络103和第二终端设备104之间进行通信，第一终端设备100向服务器102发送消息，服务器102将消息转发给第二终端设备104，第二终端设备104将消息发送给服务器102，服务器102将消息转发给第二终端设备100，由此实现第一终端设备100和第二终端设备104之间的通信，第一终端设备100和第二终端设备104之间交互的消息类型包括控制数据和业务数据。

其中，在本申请中，第一终端设备100为学生上课的终端，第二终端设备104为教师上课的终端；或第一终端设备100为教师上课的终端，第二终端设备104为学生上课的终端。例如：业务数据为视频流，第一终端设备100通摄像头采集学生上课过程中的第一视频流，第二终端设备通过摄像头104采集教师上课过程中的第二视频流，第一终端设备100将第一视频流发送给服务器102，服务器102将第一视频流转发给第二终端设备104，第二终端设备104在界面上显示第一视频流和第二视频流；第二终端设备104将第二视频流发送给服务器102，服务器102将第二视频流转发给第一终端设备100，第一终端设备100显示第一视频流和第二视频流。

其中，本申请的上课方式可以是一对一或一对多，即一个教师对应一个学生或一个教师对应多个学生。相应的，在一对一的教学方式中，一个用于教师上课的终端和一个用于学生上课的终端之间进行通信；在一对多的教学方式中，一个用于教师上课的终端和多个用于学生上课的终端之间进行通信。

第一终端设备100和第二终端设备104上可以安装有各种通信客户端应用，例如：视频录制应用、视频播放应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端、社交平台软件等。

第一终端设备100和第二终端设备104可以是硬件，也可以是软件。当终端设备101～103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等等。当第一终端设备100和第二终端设备104为软件时，可以是安装上上述所列举的电子设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

当第一终端设备100和第二终端设备104为硬件时，其上还可以安装有显示设备和摄像头，显示设备显示可以是各种能实现显示功能的设备，摄像头用于采集视频流；例如：显示设备可以是阴极射线管显示器(cathode ray tubedisplay，简称CR)、发光二极管显示器(light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(liquid crystaldisplay，简称LCD)、等离子显示面板(plasma displaypanel，简称PDP)等。用户可以利用第一终端设备100和第二终端设备104上的显示设备，来查看显示的文字、图片、视频等信息。

需要说明的是，本申请实施例提供的基于教学信息的语音数据处理方法一般由服务器102执行，相应的，基于教学信息的语音数据处理装置一般设置于服务器102或终端设备中。

服务器102可以是提供各种服务的服务器，服务器102可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器102为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

应理解，图1中的终端设备、网络和服务器的数目仅是示意性的。根据实现需要，可以是任意数量的终端设备、网络和服务器。

下面将结合附图2-附图6，对本申请实施例提供的基于教学信息的语音数据处理方法进行详细介绍。其中，本申请实施例中的基于教学信息的语音数据处理装置可以是图2-图5所示的电子设备。

请参见图2，为本申请实施例提供了一种基于教学信息的语音数据处理方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201、采集课堂中用户的语音数据，以及解析语音数据的对话内容。

其中，课堂表示用户上课的场所，课堂可以是网络上的虚拟课堂，也可以是真实的课堂(即教室)。电子设备预存储或预配置有课堂的时间信息，课堂的时间信息可以使用开始时刻、持续时间和结束时刻中的一种或多种。学生在课堂中接收教师教授的教学信息，教学信息的类型可以是文本、图片、视频和音频中的一种或多种。电子设备可以通过音频采集装置采集课堂中用户发出的语音，将振动形式的语音转换为模拟形式的语音信号，将模拟形式的语音信号进行预处理后转换为数字形式的语音数据。音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。预处理的过程包括滤波、放大、采样和格式转换等过程。语音数据的对话内容可以采用文本形式来表示，即对话内容为文本信息。例如：电子设备基于隐马尔可夫模型(Hidden Markov Model，HMM)将语音数据转换为文本信息。

其中，电子设备为终端设备时，电子设备通过音频采集装置直接采集用户在课堂中输入的语音数据；在电子设备为服务器时，服务器接收来自用户的终端设备采集的流媒体形式的语音数据。

S202、基于语音数据的生成时间确定课堂中的教学信息。

其中，语音数据的生成时间即用户在课堂中发出语音的时间，电子设备在该生成时间确定课堂中的教学信息，教学信息包括文本、图片、视频和音频中的一种或多种。

在一个或多个实施例中，课堂预先划分为多个时间段，不同的时间段对应不同的教学信息，电子设备根据生成时间所在的时间段确定对应的教学信息。

S203、在对话内容和教学信息不匹配的情况下，显示第一提示信息。

其中，第一提示信息表示语音数据的对话内容和教学信息不匹配。对话内容和教学信息不匹配表示对话内容和教学信息的相关性不高，例如：教学信息为包括各种动物的图片，用户在该课堂中输入的语音数据的对话内容为“早餐吃了什么？”，用户输入的语音数据的对话内容和该图片的相关性不高。本申请实施例中，语音数据的对话内容和教学信息之间是否匹配可以采用量化的方式来衡量。对话内容的语言类型可以是中文、英文或其他类型的语言，本申请实施例不作限制。

在一个或多个实施例中，判断语音数据的对话内容和教学信息是否匹配的方法包括：

提取语音数据的对话内容中的关键词得到第一关键词集合；提取教学信息中的关键词得到第二关键词集合，在第一关键词集合和第二关键词集合中共有关键词的数量大于预设数量时，确定语音数据的对话内容和教学信息是匹配的；或在第一关键词集合和第二关键词集合中共有关键词的数量小于或等于预设数量时，确定语音数据的对话内容和教学信息是不匹配的。

其中，电子设备使用关键词提取算法提取语音数据中的关键词组成第一关键词集合。电子设备将教学信息进行文本转换得到文本信息，电子设备使用关键词提取算法提取文本信息中的关键词组成第二关键词集合。共有关键词表示第一关键词集合和第二关键词集合中都存在的关键词。

提取教学信息中的文本信息，计算语音数据的对话内容和文本信息之间的相似度；若相似度大于预设阈值，确定语音数据的对话内容和教学信息是匹配的；若相似度小于或等于预设阈值，确定语音数据的对话内容和教学信息是不匹配的。

其中，电子设备为教学信息进行文本转换得到文本信息，计算相似度可以基于欧氏距离、余弦距离、皮尔逊相似度或其他算法。

获取与教学信息关联的内容匹配度评估模型；基于内容匹配度评估模型对语音数据的对话内容进行评估得到分值，在分值小于预设分值的情况下，确定语音数据的对话内容和教学信息是不匹配的；在分值大于或等于预设分值的情况下，确定语音数据的对话内容和教学信息是匹配的。

其中，课堂预先划分为多个时间段，每个时间段关联一个教学信息，不同的时间段关联不同的教学信息，每个教学信息关联有一个内容匹配度评估模型。电子设备预存储或预配置有教学信息和内容匹配度评估模型之间的映射关系，不同的教学信息关联有不同的内容匹配度评估模型。内容匹配度评估模型是使用教学信息下的语音数据训练出来的，内容匹配度评估模型是一种机器学习模型。

本申请实施例的方案在执行时，采集用户在课堂中的语音数据，以及解析语音数据的对话内容，判断语音数据的对话内容和语音数据的产生时间对应的教学信息是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样自动对学生在课堂中错误的对话内容进行提示，辅助教师进行教学，提高授课效率。

请参见图3，为本申请实施例提供了一种基于教学信息的语音数据处理方法的流程示意图。本实施例以基于教学信息的语音数据处理方法应用于电子设备中来举例说明，电子设备可以是服务器或终端设备。该基于教学信息的语音数据处理方法可以包括以下步骤：

S301、采集课堂中用户的语音数据。

其中，电子设备预存储或预配置有课堂的时间信息，课堂的时间信息可以用开始时刻、结束时刻和持续时间来表示，电子设备在课堂中采集用户输入的语音数据。电子设备通过音频采集装置采集用户在教学信息下输入的语音数据，音频采集装置将用户发出的语音转换为模拟形式的语音数据，然后将模拟形式的语音数据进行预处理得到数字形式的语音数据。音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。预处理过程包括滤波、放大、采样和格式转换等过程。

S302、解析语音数据的的对话内容。

其中，语音数据的对话内容可以采用文本的形式来表示，电子设备可以基于HMM将语音数据转换为文本形式的对话内容，对话内容包括多个关键词。

S303、基于语音数据的生成时间在多个时间段中确定对应的目标时间段。

其中，课堂预先划分为多个时间段，电子设备获取语音数据的生成时间，确定该生成时间位于多个时间段中的哪个时间段，即目标时间段。

例如：课堂的持续时间为45分钟，预先划分为3个时间段，每个时间段的长度为15分钟，课堂的开始时刻为8:00，结束时刻为8:45，时间段1对应8:00～8:15，时间段2对应8:15～8:30，时间段3对应8:30～8:45，电子设备获取到语音数据的生成时间为8:20，位于时间段1中，即时间段1为目标时间段。

S304、获取与目标时间段关联的教学信息。

其中，S303中预先划分的多个时间段各自关联有不同的教学信息，电子设备获取目标时间段关联的教学信息。

例如：时间段1关联教学信息1，时间段2关联教学信息2，时间段3关联教学信息3，电子设备在S303中确定目标时间段为时间段1，则目标时间段1关联教学信息1。

S305、提取语音数据的对话内容中的第一关键词集合。

其中，电子设备在对话内容的文本中提取关键词得到第一关键词集合，第一关键词集合包括一个或多个关键词。其中：电子设备可以使用词频-逆向文件频率(termfrequency-inverse document frequency，TF-IDF)、TextRank、Rake、Topic-Model等关键词提取算法提取对话内容的文本中的第一关键词集合。

例如：对话内容的文本为“大象的体重是多少？”，电子设备基于TF-IDF提取到到的关键词为“大象”和“体重”。

S306、获取与教学信息中的关键词得到第二关键词集合。

其中，电子设备提取教学信息中的关键词的方法可参照S305的方法，此处不再赘述。

S307、统计第一关键词集合和第二关键词集合中共有关键词的数量。

其中，共有关键词为第一关键词集合和第二关键词集合中均存在的关键词，例如：第一关键词集合包括的关键词为：关键词A、关键词B和关键词C，第二关键词集合中包括的关键词为：关键词A、关键词B和关键词D，通过比较第一关键词集合和第二关键词集合确定关键词A和关键词B为共有关键词，共有关键词的数量为2个。

S308、判断数量是否大于预设数量。

其中，电子设备预存储或预配置有预设数量，预设数量可以根据实际需求来定，本申请实施例不作限制。在电子设备判断第一关键词集合和第二关键词集合中共有关键词的数量大于预设数量时，则用户在教学信息下输入的语音数据与教学信息是匹配的，执行S308；若第一关键词集合和第二关键词集合中共有关键词的数量小于或等于预设数量时，则用户在教学信息下输入的语音数据与教学信息是不匹配的，执行S309。

S309、显示第一提示信息。

其中，第一提示信息用于表示用户在教学信息下输入的语音数据的对话内容和教学信息是不匹配的。进一步的，电子设备还可以显示教学信息关联的第二关键词集合，这样用户根据第二关键词集合的提示生成正确的对话内容。

例如：教学信息为购物场景，电子设备显示一个超市的背景图片，用户在该教学信息下发出的语音数据的对话内容为“那个小女孩多大年纪？”，电子设备提取对话内容的第一关键词集合，以及获取购物场景关联的第二关键词集合进行对比，对比结果为第一关键词集合和第二关键词集合中共有关键词的数量小于或等于预设数量，则电子设备显示的第一提示信息为一个红色的“×”图案，同时，电子设备显示的第二关键词集合中的关键词。

S310、显示第二提示信息。

其中，第二提示信息表示用户在教学信息下输入的语音数据的对话内容和教学信息是匹配的。

例如：教学信息为动物园场景，电子设备显示动物园的背景图片，用户在该教学信息的语音数据的对话内容为“大象的体重是多少？”，电子设备判断对话内容和动物园场景是匹配的情况下，显示的第二提示信息为一个绿色的大拇指图案。

实施本申请的实施例，采集用户在课堂中的语音数据，以及解析语音数据的对话内容，基于对话内容和教学信息中共有关键词的数量判断语音数据的对话内容和语音数据的产生时间对应的教学信息是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样自动对学生在课堂中错误的对话内容进行提示，辅助教师进行教学，提高授课效率。

参见图4，为本申请实施例提供的一种基于教学信息的语音数据处理方法的流程示意图。如图4所示，本申请实施例的所述方法可以包括以下步骤：

S401、采集课堂中用户的语音数据，以及解析语音数据的对话内容。

其中，电子设备可以周期性的采集课堂中用户的语音数据，电子设备预存储或预配置有课堂的时间信息，课堂的时间信息可以用开始时刻、结束时刻和持续时间来表示，电子设备在课堂中采集用户输入的语音数据。电子设备通过音频采集装置采集用户在教学信息下输入的语音数据，音频采集装置将用户发出的语音转换为模拟形式的语音数据，然后将模拟形式的语音数据进行预处理得到数字形式的语音数据。音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。预处理过程包括滤波、放大、采样和格式转换等过程。

S402、基于语音数据的生成时间进行截屏处理得到截屏图片。

其中，电子设备上显示有课堂的教学信息，电子设备确定语音数据的生成时间，在生成时间对电子设备进行截屏处理得到截屏图片。

S403、对截屏图片进行光学字符识别得到教学信息。

其中，光学字符识别通过检测截屏图片明暗像素的分布情况，将图片中的文字转换为文本格式的教学信息。

S404、解析语音数据的对话内容。

其中，语音数据的对话内容可以使用文本形式来表示，电子设备可以基于HMM将语音数据转换为文本形式的对话内容，对话内容包括多个关键词。

例如：对话内容的文本为“猎豹的速度有多快？”，电子设备基于TF-IDF提取到到的关键词为“猎豹”和“速度”。

S405、提取教学信息中的文本信息。

其中，电子设备对光学字符识别的结果进行自动校对后得到文本信息，校对的类型包括词语校对和语法校对。

S406、计算语音数据的对话内容和文本信息之间的相似度。

其中，语音数据的对话内容和文本信息采用文本形式来表示，文本信息包括多个对话内容，语音数据的对话内容与文本信息中的各个对话内容之间计算相似度。

在一种或多个实施例中，电子设备可以利用余弦相似度来计算语音数据的对话内容和文本信息之间的相似度。首先，电子设备对语音数据的对话内容进行分词，统计对话内容中各个关键词的出现次数；以及对文本信息进行分词，统计文本信息中各个关键词的出现次数。然后，将对话内容中各个关键词的出现次数和文本信息中各个关键词的出现次数基于余弦公式计算余弦值，余弦值越接近于1，表示语音数据的对话内容和文本信息越相似；余弦值越接近于0，表示语音数据的对话内容和文本信息越不相似。

在一个或多个实施例中，电子设备可以利用简单共有词的方法来评估语音数据的对话内容和文本信息之间的相似度值。电子设备统计语音数据的对话内容和文本信息之间一个或多个共有关键词(共有词)，然后确定一个或多个共有词的长度，将一个或多个共有次的长度除以较长的对话内容得到相似度。

例如：对话内容A和对话内容B之间共有次的长度为4，对话内容A和对话内容B中最大长度为6，则对话内容A和对话内容B之间的相似度为4/6＝0.667。

在一个或多个实施例中，电子设备基于编辑距离(edit distance)来确定语音数据的对话内容和文本信息之间的相似度。编辑距离表示两个字符串之间，由一个字符串转换为另一个字符串所需的最少编辑操作次数。此处的编辑操作包括替换一个字符、插入一个字符和删除一个字符。编辑距离越小则两个字符串之间的相似度越大。

在一个或多个实施例中，电子设备可以基于汉明距离确定语音数据的对话内容和文本信息之间的相似度。电子设备基于哈希算法将语音数据的对话内容和文本信息转换为64位的二进制数，然后比较两个二进制数之间的汉明距离确定相似度。

S407、判断相似度是否大于预设阈值。

其中，电子设备预存储或预配置有预设阈值，预设阈值可以根据实际需求来定，本申请实施例不作限制，在电子设备判断语音数据的对话内容和文本信息之间的相似度小于或等于预设阈值时，则语音数据的对话内容和教学信息是不匹配的，执行S408；在电子设备判断语音数据的对话内容和文本信息之间的相似度大于预设阈值时，则语音数据的对话内容和教学信息是匹配的，执行S409。

S408、显示第一提示信息。

其中，第一提示信息用于表示用户在教学信息下输入的语音数据的对话内容和教学信息是不匹配的。进一步的，电子设备还可以显示教学信息关联的文本信息的关键词，这样用户根据文本信息的关键词的提示生成正确的对话内容。

S409、显示第二提示信息。

实施本申请的实施例，采集用户在课堂中的语音数据，以及解析语音数据的对话内容，基于文本相似度判断语音数据的对话内容和语音数据的产生时间对应的教学信息是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样自动对学生在课堂中错误的对话内容进行提示，辅助教师进行教学，提高授课效率。

参见图5，为本申请实施例提供的一种基于教学信息的语音数据处理方法的又一流程示意图，在本申请实施例的所述方法可以包括如下步骤：

S501、训练多个内容匹配度评估模型。

其中，课堂预先划分为多个时间段，不同的时间段互不重合，多个时间段的长度可以相等也可以不相等，每个时间段对应一个教学信息。电子设备预存储多个训练样本，不同的训练样本对应不同的教学信息，每个训练样本包括多个对话内容，对于每个训练样本而言，电子设备基于训练样本中的多个对话内容进行机器学习得到内容匹配度评估模型。每个教学信息对应一个内容匹配度评估模型。内容匹配度评估模型是一种机器学习模型，用于评估输入的对话内容是否与教学信息匹配。

例如：电子设备预先配置有3个训练样本：训练样本1、训练样本2和训练样本3。训练样本1对应教学信息1，训练样本1包括与教学信息1匹配的多个对话内容。训练样本2对应教学信息2，训练样本2包括与教学信息2匹配的多个对话内容。训练样本3对应教学信息3，训练样本3包括与教学信息3匹配的多个对话内容。

S502、采集课堂中用户的语音数据。

其中，电子设备预存储或预配置有教学信息的持续时间，持续时间可以用开始时刻和结束时刻来表示，电子设备使用音频采集装置在持续时间内采集用户在教学信息下输入的语音数据，音频采集装置将用户发出的语音转换为模拟形式的语音数据，然后将模拟形式的语音数据进行预处理得到数字形式的语音数据。音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。预处理过程包括滤波、放大、采集和格式转换等过程。

S503、解析语音数据的对话内容。

S504、基于语音数据的生成时间在多个时间段中确定对应的目标时间段。

S505、获取与生成时间关联的内容匹配度评估模型。

其中，S504中预先划分的多个时间段各自关联有不同的教学信息，电子设备获取目标时间段关联的教学信息。

例如：时间段1关联教学信息1，时间段2关联教学信息2，时间段3关联教学信息3，电子设备在S504中确定目标时间段为时间段1，则目标时间段1关联教学信息1。

S506、根据语音数据的对话内容生成特征向量。

其中，特征向量可以是文本向量，电子设备可以基于神经网络提取对话内容中的特征向量，例如：基于word2vector模型生成特征向量。

S507、基于内容匹配度评估模型对特征向量进行评估得到分值。

S508、判断分值是否大于预设分值。

其中，电子设备预存储或预配置有预设分值，预设分值可以根据实际需求来定，本申请实施例不作限制，在电子设备内容匹配度模型输入的分值小于或等于预设分值时，则语音数据的对话内容和教学信息是不匹配的，执行S509；在电子设备判断内容匹配度评估模型输入的分值大于预设阈值时，则语音数据的对话内容和教学信息是匹配的，执行S510。

S509、显示第一提示信息。

其中，第一提示信息用于表示用户在教学信息下输入的语音数据的对话内容和教学信息是不匹配的。进一步的，电子设备还可以显示S401中所述的教学信息关联的第二关键词集合，这样用户根据第二关键词集合的提示生成正确的对话内容。

S510、显示第二提示信息。

实施本申请的实施例，采集用户在课堂中的语音数据，以及解析语音数据的对话内容，基于机器学习模型判断语音数据的对话内容和语音数据的产生时间对应的教学信息是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样自动对学生在课堂中错误的对话内容进行提示，辅助教师进行教学，提高授课效率。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图6，其示出了本申请一个示例性实施例提供的基于教学信息的语音数据处理装置的结构示意图。以下简称装置6，装置6可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。装置6包括解析单元601、确定单元602和提示单元603。

解析单元601，用于采集课堂中用户的语音数据，以及解析所述语音数据的对话内容；

确定单元602，用于基于所述语音数据的生成时间确定所述课堂中的教学信息；

提示单元603，用于在所述对话内容和所述教学信息不匹配的情况下，显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述教学信息不匹配。

在一个或多个实施例中，所述教学信息包括文本信息；

装置6还包括：

匹配单元，用于提取所述对话内容中的关键词得到第一关键词集合；

提取所述教学信息中的关键词得到第二关键词集合；

在所述第一关键词集合和所述第二关键词集合中共有关键词的数量大于预设数量时，确定所述语音数据的对话内容和所述教学信息是匹配的；或

在所述第一关键词集合和所述第二关键词集合中相同的关键词数量小于或等于预设数量时，确定所述语音数据和所述参考语音数据是不匹配的。

在一个或多个实施例中，所述第一提示信息还包括：所述第二关键词集合。

在一个或多个实施例中，装置6还包括：

匹配单元，用于提取所述教学信息中的文本信息；

计算所述语音数据的对话内容和所述文本信息之间的相似度；

若所述相似度大于预设阈值，确定所述语音数据和所述文本信息之间是匹配的；

若所述相似度小于或等于预设阈值，确定所述语音数据和所述文本信息之间是不匹配的。

在一个或多个实施例中，装置6还包括：

匹配单元，用于获取与所述生成时间关联的内容匹配度评估模型；

根据所述语音数据的对话内容生成特征向量；

基于所述内容匹配度评估模型对所述特征向量进行评估得到分值；

在所述分值小于预设分值的情况下，确定所述语音数据的对话内容和所述教学信息是不匹配的。

在一个或多个实施例中，所述课堂预先划分为多个时间段；

其中，确定单元602具体用于：

基于所述语音数据的生成时间在所述多个时间段中确定对应的目标时间段，以及获取与所述目标时间段关联的教学信息。

在一个或多个实施例中，确定单元602具体用于：

基于所述语音数据的生成时间进行截屏处理得到截屏图片；

对所述截屏图片进行光学字符识别得到教学信息。

需要说明的是，上述实施例提供的装置6在执行基于教学信息的语音数据处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于教学信息的语音数据处理方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请的装置6采集用户在课堂中的语音数据，以及解析语音数据的对话内容，判断语音数据的对话内容和语音数据的产生时间对应的教学信息是否匹配，在不匹配的情况下，显示不匹配的提示信息，这样自动对学生在课堂中错误的对话内容进行提示，辅助教师进行教学，提高授课效率。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2-图5所示实施例的方法步骤，具体执行过程可以参见图2-图5所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的基于教学信息的语音数据处理方法。

图7为本申请实施例提供的一种基于教学信息的语音数据处理装置结构示意图，以下简称装置7，装置7可以集成于前述服务器或终端设备中，如图7所示，该装置包括：存储器702、处理器701、输入装置703、输出装置704和通信接口。

存储器702可以是独立的物理单元，与处理器701、输入装置703和输出装置704可以通过总线连接。存储器702、处理器701、输入装置703和输出装置704也可以集成在一起，通过硬件实现等。

存储器702用于存储实现以上方法实施例，或者装置实施例各个模块的程序，处理器701调用该程序，执行以上方法实施例的操作。

输入装置702包括但不限于键盘、鼠标、触摸面板、摄像头和麦克风；输出装置包括但限于显示屏。

通信接口用于收发各种类型的消息，通信接口包括但不限于无线接口或有线接口。

可选地，当上述实施例的分布式任务调度方法中的部分或全部通过软件实现时，装置也可以只包括处理器。用于存储程序的存储器位于装置之外，处理器通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器可以是中央处理器(central processing unit，CPU)，网络处理器(networkprocessor，NP)或者CPU和NP的组合。

处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器可以包括易失性存储器(volatile memory)，例如存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flashmemory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

其中，处理器701调用存储器702中的程序代码用于执行以下步骤：

基于所述语音数据的生成时间确定所述课堂中的教学信息；

在所述对话内容和所述教学信息不匹配的情况下，在显示器上显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述教学信息不匹配。

在一个或多个实施例中，所述教学信息包括文本信息；

其中，处理器701还用于：

提取所述对话内容中的关键词得到第一关键词集合；

提取所述教学信息中的关键词得到第二关键词集合；

在一个或多个实施例中，处理器701还用于：

提取所述教学信息中的文本信息；

在一个或多个实施例中，处理器701还用于：

获取与所述生成时间关联的内容匹配度评估模型；

根据所述语音数据的对话内容生成特征向量；

在一个或多个实施例中，所述课堂预先划分为多个时间段；

其中，处理器701执行所述基于所述语音数据的生成时间确定所述课堂中的教学信息包括：

在一个或多个实施例中，处理器701执行所述基于所述语音数据的生成时间确定课堂中的教学信息包括：

基于所述语音数据的生成时间进行截屏处理得到截屏图片；

对所述截屏图片进行光学字符识别得到教学信息。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的基于教学信息的语音数据处理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于教学信息的语音数据处理方法，其特征在于，所述方法包括：

采集课堂中用户的语音数据，以及解析所述语音数据的对话内容，所述语音数据的对话内容表示为文本形式；

基于所述语音数据的生成时间确定所述课堂中的教学信息；

在所述对话内容和所述教学信息不匹配的情况下，显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述教学信息不匹配；

所述在所述对话内容和所述教学信息不匹配的情况下，显示第一提示信息之前，还包括：获取与所述生成时间关联的内容匹配度评估模型；根据所述语音数据的对话内容生成特征向量；基于所述内容匹配度评估模型对所述特征向量进行评估得到分值；在所述分值小于预设分值的情况下，确定所述语音数据的对话内容和所述教学信息是不匹配的；

其中，所述课堂预先划分为多个时间段，每个时间段对应一个教学信息，所述采集课堂中用户的语音数据之前，还包括：基于预存储的训练样本中的多个对话内容进行机器学习得到内容匹配度评估模型，不同的训练样本对应不同的教学信息，每个教学信息对应一个内容匹配度评估模型；

所述基于所述语音数据的生成时间确定所述课堂中的教学信息包括：基于所述语音数据的生成时间在所述多个时间段中确定对应的目标时间段，以及获取与所述目标时间段关联的教学信息。

2.根据权利要求1任意一项所述的方法，其特征在于，所述基于所述语音数据的生成时间确定课堂中的教学信息包括：

基于所述语音数据的生成时间进行截屏处理得到截屏图片；

对所述截屏图片进行光学字符识别得到教学信息。

3.一种基于教学信息的语音数据处理装置，其特征在于，所述装置包括：

解析单元，用于采集课堂中用户的语音数据，以及解析所述语音数据的对话内容，所述语音数据的对话内容表示为文本形式；

提示单元，用于在所述对话内容和所述教学信息不匹配的情况下，显示第一提示信息；其中，所述第一提示信息表示所述语音数据的对话内容与所述教学信息不匹配；

所述匹配单元，用于获取与所述生成时间关联的内容匹配度评估模型；根据所述语音数据的对话内容生成特征向量；基于所述内容匹配度评估模型对所述特征向量进行评估得到分值；在所述分值小于预设分值的情况下，确定所述语音数据的对话内容和所述教学信息是不匹配的；

所述确定单元，具体用于基于所述语音数据的生成时间在所述多个时间段中确定对应的目标时间段，以及获取与所述目标时间段关联的教学信息。

4.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～2任意一项的方法步骤。

5.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～2任意一项的方法步骤。