CN109800309A - 课堂话语类型分类方法及装置 - Google Patents
课堂话语类型分类方法及装置 Download PDFInfo
- Publication number
- CN109800309A CN109800309A CN201910069620.3A CN201910069620A CN109800309A CN 109800309 A CN109800309 A CN 109800309A CN 201910069620 A CN201910069620 A CN 201910069620A CN 109800309 A CN109800309 A CN 109800309A
- Authority
- CN
- China
- Prior art keywords
- text data
- tag types
- classification
- language
- disaggregated model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明提供一种课堂话语类型分类方法及装置,涉及教育教学技术领域。该方法包括:获取课堂中的音频数据,将音频数据转录为待分类的无标签文本数据,无标签文本数据包括多个按照最小单位划分的话语,获取训练好的预期LSTM分类模型,根据预设的标签类型、待分类的无标签文本数据以及训练好的预期LSTM分类模型,得到分类后的有标签文本数据,根据分类后的有标签文本数据,获取预设的标签类型所对应类型的话语集合,能够将课堂中讲述的一些话语转录为相应的文本数据之后,把每句话按照预设的标签类型进行自动分类,从而减少了人工分类时所用的时间和精力等,提高研究人员需要分析或研究课堂中的话语时的效率。
Description
技术领域
本发明涉及教育教学技术领域,具体而言,涉及一种课堂话语类型分类方法及装置。
背景技术
在现代信息技术背景下,对课堂的研究主要是对课堂话语特征的研究,而话语特征的提取主要依据课堂观察法、课堂录像,还停留在人工全权进行判断、分类,最后进一步进行统计。
因此,当面对海量的教育大数据时,将会花费大量时间与精力在数据处理上,人为分类将耗时耗力。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种课堂话语类型分类方法及装置,以解决面对海量的教育大数据时,将会花费大量时间与精力在数据处理上,人为分类将耗时耗力的问题。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种课堂话语类型分类方法,所述方法包括:获取课堂中的音频数据,将所述音频数据转录为待分类的无标签文本数据,所述无标签文本数据包括多个按照最小单位划分的话语;获取训练好的预期长短期记忆网络(Long Short-Term Memory,简称LSTM)分类模型,根据预设的标签类型、所述待分类的无标签文本数据以及所述训练好的预期LSTM分类模型,得到分类后的有标签文本数据;根据所述分类后的有标签文本数据,获取所述预设的标签类型所对应类型的话语集合。
一种实现方式中,获取训练好的所述预期LSTM分类模型的步骤,包括:获取各标签类型的文本数据集合中的训练文本数据和测试文本数据;根据所述训练文本数据和所述LSTM分类模型的预设参数进行训练,得到训练后的初始LSTM分类模型;通过所述测试文本数据对所述初始LSTM分类模型进行测试,得到所述测试文本数据分类后各标签类型对应的文本数据;将所述分类后各标签类型对应的文本数据与所述测试文本数据比较,确定所述初始LSTM分类模型的准确率;若所述准确率大于等于预设阈值,则得到训练好的所述预期LSTM分类模型。
一种实现方式中,所述将所述分类后各标签类型对应的文本数据与所述测试文本数据比较,确定所述初始LSTM分类模型的准确率的步骤,包括:判断所述分类后各标签类型对应的文本数据的标签类型与所述测试文本数据的实际标签类型是否一致;若一致,则所述分类后各标签类型对应的文本数据分类正确,若不一致,则所述所述分类后各标签类型对应的文本数据分类错误;计算所述分类后各标签类型对应的文本数据的分类正确率,得到所述初始LSTM分类模型的分类准确率。
一种实现方式中,所述获取各标签类型的文本数据集合中的训练文本数据和测试文本数据的步骤,包括:获取课堂历史音频数据,将所述历史音频数据转录为无标签历史文本数据;将所述无标签历史文本数据按照预设的标签类型进行分类;将分类后属于同一标签类型的历史文本数据汇总得到各标签类型的文本数据集合;根据预设比例获取所述各标签类型的文本数据集合中的训练文本数据和测试文本数据。
一种实现方式中,所述方法还包括:根据所述预设的标签类型所对应类型的话语集合,计算各所述预设的标签类型所对应的话语占据所述话语集合的百分比和/或频数。
一种实现方式中,所述预设的标签类型包括:理解型、应用型、分析型、综合型和评价型中至少一种。
第二方面,本发明实施例还提供了一种课堂话语类型分类装置,所述装置包括:转录模块、分类模块和获取模块;所述转录模块用于,获取课堂中的音频数据,将所述音频数据转录为待分类的无标签文本数据,所述无标签文本数据包括多个按照最小单位划分的话语;所述分类模块用于,获取训练好的预期LSTM分类模型,根据预设的标签类型、所述待分类的无标签文本数据以及所述训练好的预期LSTM分类模型,得到分类后的有标签文本数据;所述获取模块用于,根据所述分类后的有标签文本数据,获取所述预设的标签类型所对应类型的话语集合。
一种实现方式中,所述装置还包括计算模块,所述计算模块用于,根据所述预设的标签类型所对应类型的话语集合,计算各所述预设的标签类型所对应的话语占据所述话语集合的百分比和/或频数。
第三方面,本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
本发明的有益效果是:该课堂话语类型分类方法通过获取课堂中的音频数据,将音频数据转录为待分类的无标签文本数据,无标签文本数据包括多个按照最小单位划分的话语,并获取训练好的预期LSTM分类模型,根据预设的标签类型、待分类的无标签文本数据以及训练好的预期LSTM分类模型,得到分类后的有标签文本数据,再根据分类后的有标签文本数据,获取预设的标签类型所对应类型的话语集合,能够将课堂中讲述的一些话语转录为相应的文本数据之后,把每句话按照预设的标签类型进行自动分类,从而减少人工分类时的主观因素带来的差异,以及人工分类时所用的时间和精力等,进而减小研究评价结果与对应的课堂时间差,提高研究人员需要分析或研究课堂中的话语时的效率,让课堂参与者及时了解自己。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种实施环境示意图;
图2为本申请第一实施例提供的一种课堂话语类型分类方法流程示意图;
图3为本申请第一实施例提供的一种获取训练好的预期LSTM分类模型的方法流程示意图;
图4为本申请第一实施例提供的一种确定初始LSTM分类模型的准确率的方法流程示意图;
图5为本申请第一实施例提供的一种获取训练文本数据和测试文本数据的方法流程示意图;
图6为本申请第二实施例提供的一种课堂话语类型分类装置结构示意图;
图7为本申请第三实施例提供的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
图1为本申请实施例提供的一种实施环境示意图,如图1所示,本申请下述实施例均可应用于下述所提供的环境中,即音频采集设备70和话语类型分类设备80建立外网或内网通信连接,以进行数据通信或交互等。
其中,上述音频采集设备70可以是至少一个应用场景中使用的音频采集装置或录音器等,并能够通过通信网络将采集的音频数据发送至话语类型分类设备80,例如:应用于手机、平板电脑或者其他专用的录音仪器等设备80,外网通信可以是无线网络或有线网络等进行通信,例如:第四代移动通信技术(英文:Fourth Generation,简称:4G)、4G+或第五代移动通信技术(英文:Fifth Generation,简称:5G)等通信技术,内网通信可以采用局域网的通信技术,话语类型分类设备80可以是能够通过网络接收并处理至少一个音频采集设备70发送的音频数据的总终端,例如:应用于计算机或智能手机等其他专用的仪器设备。
可选地,上述话语类型分类设备80处理音频数据的方式,可以是安装可执行下述实施例任意方法的计算机应用程序或点击专用的网址链接等可视化的方式,将音频采集设备发送的音频数据进行处理。
可选地,为使本申请实施例所提供的方法更加的方便统一管理,可以通过网络将音频采集设备70采集的音频数据上传至统一的服务器中,当用户要使用时,直接通过用户的话语类型分类设备80从其服务器上获取音频数据进行处理即可,或用户在话语类型分类设备80上直接处理后,将最终处理后的数据发送至服务器即可。
为使本申请所提供的方法更清楚,下述实施例将以应用场景为课堂时的情况为例进行说明。
第一实施例
图2为本申请第一实施例提供的一种课堂话语类型分类方法,如图2所示,该方法包括:
S101、获取课堂中的音频数据,将音频数据转录为待分类的无标签文本数据,无标签文本数据包括多个按照最小单位划分的话语。
具体的,可利用教室中安装的具有音频采集功能的设备来采集课堂中的话语,将这种音频数据保存之后可利用语音识别技术将音频数据转化为文本数据,在转化过程中,将音频数据中的话语可以按照一句话为单位进行保存,进一步将这种以一句话为单位的文本数据整理在一个待分类的文本数据集CSV文件,而这种待分类的文本数据集CSV文件中的话语因为没有对应的类型,因此,将其称为无标签文本数据。
需要说明的是,为使转录的结果更加准确,可通过人工验证转化过程中是否出现转录或断句等其他错误,而且还可以将一些不需要的音频数据转化为文本时的数据删除,例如,本来只需转录老师的话语,可以将不是老师所讲述的话语的文本数据进行删除等操作,即按照实际情况,最终只得到相应的符合要求的文本数据即可。
S102、获取训练好的预期LSTM分类模型,根据预设的标签类型、待分类的无标签文本数据以及训练好的预期LSTM分类模型,得到分类后的有标签文本数据。
具体的,可根据这种课堂中的话语特征,基于LSTM分类模型来训练得到训练好的预期LSTM分类模型,然后按照要将话语分类为多种类型来设置一些预设的标签类型,进一步将上述得到的无标签文本数据中的每句话在这种训练好的预期LSTM分类模型中分类,从而得到每句话对应的标签类型,即得到分类后的有标签文本数据。
例如:输入一个已转录的汉语文本句子,将该句经过模型自动提取句中的特征词,得到每个特征词组对应的词向量,由每个词向量得到该句对应的矩阵,经计算得到该矩阵的特征值,即该语句的神经元,这些神经元经过计算得到每个特征值的特征向量,最后对这个特征向量进行分类后得到每个句子对应的标签类型。
S103、根据分类后的有标签文本数据,获取预设的标签类型所对应类型的话语集合。
具体的,由于将无标签文本数据中的每句话进行分类后得到了每句话相应的有标签文本数据,从而可以得到每种预设的标签类型中所对应有哪些话语,以及每种预设的标签类型中所对应的这些话语的数目。
在本实施例中,该课堂话语分类方法通过获取课堂中的音频数据,将音频数据转录为待分类的无标签文本数据,无标签文本数据包括多个按照最小单位划分的话语,并获取训练好的预期LSTM分类模型,根据预设的标签类型、待分类的无标签文本数据以及训练好的预期LSTM分类模型,得到分类后的有标签文本数据,再根据分类后的有标签文本数据,获取预设的标签类型所对应类型的话语集合,能够将课堂中讲述的一些话语转录为相应的文本数据之后,把每句话按照预设的标签类型进行自动分类,从而减少人工分类时的主观因素带来的差异,以及人工分类时所用的时间和精力等,进而减小研究评价结果与对应的课堂时间差,提高研究人员需要分析或研究课堂中的话语时的效率,让课堂参与者及时了解自己。
图3为本申请第一实施例提供的一种获取训练好的预期LSTM分类模型的方法流程示意图,如图3所示。
一种实现方式中,获取训练好的预期LSTM分类模型的步骤,包括:
S201、获取各标签类型的文本数据集合中的训练文本数据和测试文本数据。
具体的,各标签类型可以是按照不同语义的类型,将所有话语按照预设的类型分类,从而通过将课堂中的原始采集的音频数据转录为文本数据,进一步将这种文本数据划分为训练文本数据和测试文本数据。
需要说明的是,由于不同场景中出现的话语类型或人物角色等均不同,以及用户要对话语分类的需求不同,因此上述预设的类型,可以根据不同场景的具体情况对相应场景中所要分类的话语进行预设分类类型,或者根据用户的具体情况来进行预设分类类型,在此不再详细描述,每种类型对应给定一个类型标签来标记相应的类型。
S202、根据训练文本数据和LSTM分类模型的预设参数进行训练,得到训练后的初始LSTM分类模型。
具体的,通过使用训练文本数据来训练LSTM分类模型,在进行训练之前,首先还要根据话语的具体情况来设置LSTM分类模型对应的参数,然后,根据这些参数,进一步对LSTM分类模型进行训练,从而得到训练后的初始LSTM分类模型。
需要说明的是,上述所要设置的参数可以根据具体的情况来设置,例如依次设置如下参数:
dropout参数:表示在训练该LSTM分类模型时,为防止样本数过少而导致过拟合的一种策略,例如:设置参数值为80%,此时如果有100个神经元,则随机减少其中的20个神经元;query最大长度:表示每个句子对应的生成的序列长度,如果某条语句的序列不足这个序列长度,则在相应的序列后依次标0,直到满足长度,从而形成每个句子序列长度均相同的序列;类别数目:表示要将话语分为的目标数目,即预设的标签类型的数目;隐含层神经元数:当一句话向量维度为N时,当前隐含层神经元数为M,那么当前隐含层神经元的矩阵大小为N*M,可根据经验公式来逐步试验确定隐含层神经元数,首先设置一个初始值,然后在这个初始值的基础上逐渐增加或减少隐含层神经元数,比较每次LSTM分类模型的分类性能,选择其中能使分类性能最好的隐含层神经元数作为LSTM分类模型最终的隐含层神经元数,需要注意的是:初始值可以通过经验公式获得,例如:或或m=log2n等,其中,m表示隐含层神经元数,n表示隐含层的输入神经元数,l表示隐含层输出神经元数,α表示1~10之间的常数;语料中出现的词组总数:比如要提取的所有文本数据中的特征词的数量,或要提取的每句话的文本数据中的特征词的数量,从而将常见的无关词去掉,只保留能反应句子特征的词组(包括字和词);隐含层数:一定数量隐含层神经元组成一个隐含层,当前隐含层的神经元输入连接上一隐含层的神经元输出;一个batch含有多少条训练数据:表示如果样本中的话语有100条,可以设置为一次读10条,从而加快训练速度;embedding维度:表示将一句话可以用五维向量表示的话,则十句话就是5×10;训练数据迭代次数:表示对所有样本数据的训练次数;学习率:表示将学习率设为80%,则将所有特征只保留其中80%的特征。
进一步地,上述所设置的参数以及参数的类型,本申请并不对其进行限定,可以根据具体情况设置相应的参数类型和参数值的大小,在此不再一一赘述。
S203、通过测试文本数据对初始LSTM分类模型进行测试,得到测试文本数据分类后各标签类型对应的文本数据。
具体的,通过使用测试文本数据来测试经训练后的初始LSTM分类模型,从而经初始LSTM分类模型将测试文本数据进行分类,得到测试文本数据中每句话语对应的预设的标签类型的文本数据。
S204、将分类后各标签类型对应的文本数据与测试文本数据比较,确定初始LSTM分类模型的准确率。
具体的,将测试文本数据经初始LSTM分类模型分类后的的每句话语对应的测试标签类型与测试文本数据中的每句话语对应的实际的标签类型进行比较,从而得到对应的初始LSTM分类模型的分类准确率。
S205、若准确率大于等于预设阈值,则得到训练好的预期LSTM分类模型。
具体的,将测试文本数据经测试初始LSTM分类模型得到的分类准确率与预设的分类准确率进行比较,若该测试得到的分类准确率大于或等于预设阈值,则得到训练好的预期LSTM分类模型。
需要说明的是,在这种模型训练的过程中,一般会有很多数据进行训练和测试,也就是选择很多条课堂中的话语来进行训练和测试,因此,一般的预设阈值很难达到与测试得到的分类准确率相等的情况,因此,在上述大于等于的情况也可以可选地设置为仅大于的情况。
可选地,若准确率小于预设阈值,可通过改变上述步骤S202中的参数,从而进一步通过训练文本数据集对初始LSTM分类模型进行训练,直到测试文本数据集测试初始LSTM分类模型的准确率小大于等于预设阈值,从而得到训练好的预期LSTM分类模型。
图4为本申请第一实施例提供的一种确定初始LSTM分类模型的准确率的方法流程示意图,如图4所示。
一种实现方式中,将分类后各标签类型对应的文本数据与测试文本数据比较,确定初始LSTM分类模型的准确率的步骤,包括:
S301、判断分类后各标签类型对应的文本数据的标签类型与测试文本数据的实际标签类型是否一致。
若是,则执行S302,若否,则执行步骤S303。
具体的,将测试文本数据经测试初始LSTM分类模型得到的分类准确率与预设的分类准确率进行比较,就是判断测试文本数据中的每条话语类型经初始LSTM分类模型测试得到的每条话语的测试标签类型与每条话语实际的标签类型是否一致。
S302、若一致,则分类后各标签类型对应的文本数据分类正确。
具体的,若测试文本数据经初始LSTM分类模型测试得到的某条话语的测试标签类型与该条话语实际的标签类型一致,则说明分类后的该条话语对应的标签类型分类正确。
执行完S302之后,执行S304。
S303、若不一致,则分类后各标签类型对应的文本数据分类错误。
具体的,若测试文本数据经LSTM分类模型测试得到的某条话语的测试标签类型与该条话语实际的标签类型不一致,则说明分类后的该条话语对应的标签类型分类错误。
执行完S303之后,执行S304。
S304、计算分类后各标签类型对应的文本数据的分类正确率,得到初始LSTM分类模型的分类准确率。
具体的,将上述正确的分类数目和总测试数目进行统计,从而可得到该初始LSTM分类模型分类后各标签类型对应的文本数据的分类结果的正确率,从而得到初始LSTM分类模型的分类准确率。
可选地,也可以将上述错误的分类数目和总测试数目进行统计,从而可得到该初始LSTM分类模型分类后各标签类型对应的文本数据的分类结果的错误率,由此进行转换从而得到初始LSTM分类模型的分类准确率。
图5为本申请第一实施例提供的一种获取训练文本数据和测试文本数据的方法流程示意图,如图5所示。
一种实现方式中,获取各标签类型的文本数据集合中的训练文本数据和测试文本数据的步骤,包括:
S401、获取课堂历史音频数据,将历史音频数据转录为无标签历史文本数据。
具体的,同样可利用教室中的音频采集设备,来采集课堂历史音频数据,即为做该LSTM分类模型而采集的课堂中的任意一节课中的音频数据,或者课堂中使用过的课堂音频数据,将这种数据统称为历史音频数据,进一步将历史音频数据按照一定的单位,进行转化为文本数据,转录的过程实现将每句音频话语进行转录为文本数据,实现了断句,即以一句话为一个最小单位,此时,得到的每句话都可以是无标签的历史文本数据。
需要说明的是,上述一定的单位可以是按照年级、科目和一节课为单位的区分,从而以一节课为单位,转录过程可使用语音识别技术将音频数据转录为文本数据,另外,由于有些普通话不标准,或者是识别过程本身带来的误差,或者存在其他声音也转录为文本,可经过人工检验来排除掉这种存在的错误,例如:本身要分类的是老师讲课中老师讲每句话的类型,从而经人工检验,可将除老师讲课的其他声音都排除掉,从而提高分类的准确性。
S402、将无标签历史文本数据按照预设的标签类型进行分类。
具体的,将得到的无标签历史文本数据按照预设的标签类型进行分类,即预设的标签类型有多个,而历史文本数据中的每条话语对应一种标签类型。
S403、将分类后属于同一标签类型的历史文本数据汇总得到各标签类型的文本数据集合。
具体的,按照预设的标签类型的不同,将同一标签类型的所对应的历史文本数据汇总为一个CSV文件,再将所有的CSV文件合并为一个CSV文件,从而得到各标签类型的历史文本数据集合。
S404、根据预设比例获取各标签类型的文本数据集合中的训练文本数据和测试文本数据。
具体的,将各标签类型按照一定的比例分为训练集CSV文件和测试集CSV文件。
一种实现方式中,方法还包括:根据预设的标签类型所对应类型的话语集合,计算各预设的标签类型所对应的话语占据话语集合的百分比和/或频数。
具体的,可对预期LSTM分类模型进行分类得到的有标签文本数据的话语对应的各个预设的标签类型中的话语数目进行计算,得到各预设的标签类型中对应的话语数目总数和/或该标签类型的数目占所有标签类型中话语总数比等,可供研究人员研究。
一种实现方式中,预设的标签类型包括:理解型、应用型、分析型、综合型和评价型中至少一种。
具体的,可按照要分类的话语类别,将预设的标签类型按照理解型、应用型、分析型、综合型和评价型中的任意至少一种类型进行设置。
可选地,可按照要分类的话语类别,将预设的标签类型还可以按照记忆型和/或提问型进行分类设置。
第二实施例
图6为本申请第二实施例提供的一种课堂话语类型分类装置结构示意图,如图6所示,该装置包括:转录模块10、分类模块20和获取模块30。
其中,转录模块10用于,获取课堂中的音频数据,将音频数据转录为待分类的无标签文本数据,无标签文本数据包括多个按照最小单位划分的话语;分类模块20用于,获取训练好的预期LSTM分类模型,根据预设的标签类型、待分类的无标签文本数据以及训练好的预期LSTM分类模型,得到分类后的有标签文本数据;获取模块30用于,根据分类后的有标签文本数据,获取预设的标签类型所对应类型的话语集合。
一种实现方式中,课堂话语分类装置还包括计算模块40,计算模块40用于,根据预设的标签类型所对应类型的话语集合,计算各预设的标签类型所对应的话语占据话语集合的百分比和/或频数。
上述装置用于执行前述第一实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
第三实施例
图7为本申请第三实施例提供的一种电子设备结构示意图,如图7所示,该设备包括:存储器50和处理器60。
需要说明的是,本实施例提供的电子设备也可以是集成在处理终端或者是处理终端上的芯片等。
存储器50用于存储程序,处理器60调用存储器50存储的程序,以执行上述提供的方法实施例,具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种课堂话语类型分类方法,其特征在于,所述方法包括:
获取课堂中的音频数据,将所述音频数据转录为待分类的无标签文本数据,所述无标签文本数据包括多个按照最小单位划分的话语;
获取训练好的预期LSTM分类模型,根据预设的标签类型、所述待分类的无标签文本数据以及所述训练好的预期LSTM分类模型,得到分类后的有标签文本数据;
根据所述分类后的有标签文本数据,获取所述预设的标签类型所对应类型的话语集合。
2.如权利要求1所述的方法,其特征在于,获取训练好的所述预期LSTM分类模型的步骤,包括:
获取各标签类型的文本数据集合中的训练文本数据和测试文本数据;
根据所述训练文本数据和所述LSTM分类模型的预设参数进行训练,得到训练后的初始LSTM分类模型;
通过所述测试文本数据对所述初始LSTM分类模型进行测试,得到所述测试文本数据分类后各标签类型对应的文本数据;
将所述分类后各标签类型对应的文本数据与所述测试文本数据比较,确定所述初始LSTM分类模型的准确率;
若所述准确率大于等于预设阈值,则得到训练好的所述预期LSTM分类模型。
3.如权利要求2所述的方法,其特征在于,所述将所述分类后各标签类型对应的文本数据与所述测试文本数据比较,确定所述初始LSTM分类模型的准确率的步骤,包括:
判断所述分类后各标签类型对应的文本数据的标签类型与所述测试文本数据的实际标签类型是否一致;
若一致,则所述分类后各标签类型对应的文本数据分类正确,若不一致,则所述所述分类后各标签类型对应的文本数据分类错误;
计算所述分类后各标签类型对应的文本数据的分类正确率,得到所述初始LSTM分类模型的分类准确率。
4.如权利要求2所述的方法,其特征在于,所述获取各标签类型的文本数据集合中的训练文本数据和测试文本数据的步骤,包括:
获取课堂历史音频数据,将所述历史音频数据转录为无标签历史文本数据;
将所述无标签历史文本数据按照预设的标签类型进行分类;
将分类后属于同一标签类型的历史文本数据汇总得到各标签类型的文本数据集合;
根据预设比例获取所述各标签类型的文本数据集合中的训练文本数据和测试文本数据。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述预设的标签类型所对应类型的话语集合,计算各所述预设的标签类型所对应的话语占据所述话语集合的百分比和/或频数。
6.如权利要求1所述的方法,其特征在于,所述预设的标签类型包括:理解型、应用型、分析型、综合型和评价型中至少一种。
7.一种课堂话语类型分类装置,其特征在于,所述装置包括:转录模块、分类模块和获取模块;
所述转录模块用于,获取课堂中的音频数据,将所述音频数据转录为待分类的无标签文本数据,所述无标签文本数据包括多个按照最小单位划分的话语;
所述分类模块用于,获取训练好的预期LSTM分类模型,根据预设的标签类型、所述待分类的无标签文本数据以及所述训练好的预期LSTM分类模型,得到分类后的有标签文本数据;
所述获取模块用于,根据所述分类后的有标签文本数据,获取所述预设的标签类型所对应类型的话语集合。
8.如权利要求7所述的装置,其特征在于,所述装置还包括计算模块,所述计算模块用于,根据所述预设的标签类型所对应类型的话语集合,计算各所述预设的标签类型所对应的话语占据所述话语集合的百分比和/或频数。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910069620.3A CN109800309A (zh) | 2019-01-24 | 2019-01-24 | 课堂话语类型分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910069620.3A CN109800309A (zh) | 2019-01-24 | 2019-01-24 | 课堂话语类型分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109800309A true CN109800309A (zh) | 2019-05-24 |
Family
ID=66560398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910069620.3A Pending CN109800309A (zh) | 2019-01-24 | 2019-01-24 | 课堂话语类型分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800309A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473548A (zh) * | 2019-07-31 | 2019-11-19 | 华中师范大学 | 一种基于声学信号的课堂交互网络分析方法 |
CN111143568A (zh) * | 2019-12-31 | 2020-05-12 | 郑州工程技术学院 | 一种论文分类时的缓冲方法、装置、设备及存储介质 |
CN111274401A (zh) * | 2020-01-20 | 2020-06-12 | 华中师范大学 | 基于多特征融合的课堂话语分类方法和装置 |
CN112116181A (zh) * | 2019-06-20 | 2020-12-22 | 北京新唐思创教育科技有限公司 | 课堂质量模型的训练方法、课堂质量评价方法及装置 |
CN113360651A (zh) * | 2021-06-04 | 2021-09-07 | 清远华奥光电仪器有限公司 | 一种基于布鲁姆教学目标分类法进行课堂提问的分类模型训练方法、方法、装置和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100023331A1 (en) * | 2008-07-17 | 2010-01-28 | Nuance Communications, Inc. | Speech recognition semantic classification training |
CN107943865A (zh) * | 2017-11-10 | 2018-04-20 | 阿基米德(上海)传媒有限公司 | 一种适用于多场景、多类型的音频分类标签方法及系统 |
CN108154371A (zh) * | 2018-01-12 | 2018-06-12 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及存储介质 |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
CN108710651A (zh) * | 2018-05-08 | 2018-10-26 | 华南理工大学 | 一种大规模客户投诉数据自动分类方法 |
CN109190652A (zh) * | 2018-07-06 | 2019-01-11 | 中国平安人寿保险股份有限公司 | 坐席分类管理方法、装置、计算机设备和存储介质 |
CN109190808A (zh) * | 2018-08-15 | 2019-01-11 | 拍拍信数据服务(上海)有限公司 | 用户行为预测方法、装置、设备及介质 |
-
2019
- 2019-01-24 CN CN201910069620.3A patent/CN109800309A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100023331A1 (en) * | 2008-07-17 | 2010-01-28 | Nuance Communications, Inc. | Speech recognition semantic classification training |
CN107943865A (zh) * | 2017-11-10 | 2018-04-20 | 阿基米德(上海)传媒有限公司 | 一种适用于多场景、多类型的音频分类标签方法及系统 |
CN108154371A (zh) * | 2018-01-12 | 2018-06-12 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及存储介质 |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
CN108710651A (zh) * | 2018-05-08 | 2018-10-26 | 华南理工大学 | 一种大规模客户投诉数据自动分类方法 |
CN109190652A (zh) * | 2018-07-06 | 2019-01-11 | 中国平安人寿保险股份有限公司 | 坐席分类管理方法、装置、计算机设备和存储介质 |
CN109190808A (zh) * | 2018-08-15 | 2019-01-11 | 拍拍信数据服务(上海)有限公司 | 用户行为预测方法、装置、设备及介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116181A (zh) * | 2019-06-20 | 2020-12-22 | 北京新唐思创教育科技有限公司 | 课堂质量模型的训练方法、课堂质量评价方法及装置 |
CN110473548A (zh) * | 2019-07-31 | 2019-11-19 | 华中师范大学 | 一种基于声学信号的课堂交互网络分析方法 |
CN111143568A (zh) * | 2019-12-31 | 2020-05-12 | 郑州工程技术学院 | 一种论文分类时的缓冲方法、装置、设备及存储介质 |
CN111274401A (zh) * | 2020-01-20 | 2020-06-12 | 华中师范大学 | 基于多特征融合的课堂话语分类方法和装置 |
CN113360651A (zh) * | 2021-06-04 | 2021-09-07 | 清远华奥光电仪器有限公司 | 一种基于布鲁姆教学目标分类法进行课堂提问的分类模型训练方法、方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
CN110021439A (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN110188047B (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
CN109902307A (zh) | 命名实体识别方法、命名实体识别模型的训练方法及装置 | |
CN106294344A (zh) | 视频检索方法和装置 | |
CN109902285B (zh) | 语料分类方法、装置、计算机设备及存储介质 | |
CN110263854B (zh) | 直播标签确定方法、装置及存储介质 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN108009287A (zh) | 一种基于对话系统的回答数据生成方法以及相关装置 | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN111401105B (zh) | 一种视频表情识别方法、装置及设备 | |
CN109739985A (zh) | 文本自动分类方法、设备及存储介质 | |
CN111414746A (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN111191027B (zh) | 一种基于高斯混合分布vae的广义零样本识别方法 | |
CN105469116B (zh) | 一种基于人机交互的幼儿识图及数据扩充方法 | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN111984790A (zh) | 一种实体关系抽取方法 | |
CN109977400B (zh) | 一种校验处理的方法、装置、计算机存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190524 |
|
RJ01 | Rejection of invention patent application after publication |