CN111274401A - 基于多特征融合的课堂话语分类方法和装置 - Google Patents
基于多特征融合的课堂话语分类方法和装置 Download PDFInfo
- Publication number
- CN111274401A CN111274401A CN202010068206.3A CN202010068206A CN111274401A CN 111274401 A CN111274401 A CN 111274401A CN 202010068206 A CN202010068206 A CN 202010068206A CN 111274401 A CN111274401 A CN 111274401A
- Authority
- CN
- China
- Prior art keywords
- classroom
- utterance
- text set
- feature
- utterance text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于多特征融合的课堂话语分类方法和装置,涉及教育教学技术领域,包括:获取课堂话语文本集,该课堂话语文本集包括用于训练的课堂话语文本集和待分类的课堂话语文本集,通过确定用于训练的课堂话语文本集的第一融合特征,以及确定待分类的课堂话语文本集的第二融合特征;并基于第一融合特征和分类标签,对分类器进行训练;基于第二融合特征,利用训练好的分类器对待分类的课堂话语文本集进行分类;解决了课堂话语分类正确率低、效率低的技术问题,达到了提高课堂话语分类的准确率、便于高效分析和研究教学的技术效果。
Description
技术领域
本发明涉及教育教学技术领域,尤其是涉及一种基于多特征融合的课堂话语分类方法和装置。
背景技术
课堂教学行为分析可以有效的记录、分析和研究教学的过程,定量或者定性地发现教学中存在的问题,以便教师提出相应的解决措施。在课堂教学行为的量化分析领域,传统的比较成熟的有互动分析系统FIAS(Flanders Interaction Analysis System)、语言互动类别系统VICS(Verbal Interaction Category System)、基于信息技术的互动分析系统ITIAS(Information Technology based Interaction Analysis System)以及S-T分析法等。这些分析法的主要特点是对教学行为进行切分、识别、归类和编码。
然而,在传统的课堂教学行为分析系统中,大部分研究过程都是通过人工进行,导致容易产生误操作,分类正确率低、效率低的问题。
发明内容
本发明的目的在于提供一种基于多特征融合的课堂话语分类方法、装置和计算机可读存储介质,以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种基于多特征融合的课堂话语分类方法。该方法包括:获取课堂话语文本集,所述课堂话语文本集包括用于训练的课堂话语文本集和待分类的课堂话语文本集,所述课堂话语文本集包括多个课堂话语文本;每个所述课堂话语文本对应有分类标签,所述分类标签用于指示话语属性;确定所述用于训练的课堂话语文本集的第一融合特征,以及确定所述待分类的课堂话语文本集的第二融合特征;基于所述第一融合特征和所述分类标签,对分类器进行训练;基于所述第二融合特征,利用训练好的所述分类器对所述待分类的课堂话语文本集进行分类。
在可选的实施方式中,所述获取课堂话语文本集的步骤,包括:将课堂录像转录成文字写入文档,所述文档包括含有课堂话语的文字;分割所述文字,获得句子;将所述句子整理为带标签的课堂话语文本集。
在可选的实施方式中,上述话语属性用于指示课堂教学行为,包括:指令、提问和讲授。
在可选的实施方式中,确定所述用于训练的课堂话语文本集的第一融合特征,以及确定所述待分类的课堂话语文本集的第二融合特征的步骤之前,包括:基于卡方检验在所述课堂话语文本集中选取特征词,所述特征词对应指示所述话语属性的标签。
在可选的实施方式中,确定所述用于训练的课堂话语文本集的第一融合特征,以及确定所述待分类的课堂话语文本集的第二融合特征的步骤,包括:确定所述特征词在所述用于训练的课堂话语文本集中的第一词性向量和第一词频向量;将所述第一词性向量和所述第一词频向量串联,获得第一融合特征;确定所述特征词在所述待分类的课堂话语文本集中的第二词性向量和第二词频向量;将所述第二词性向量和所述第二词频向量串联,获得第二融合特征。
在可选的实施方式中,确定所述特征词在所述用于训练的课堂话语文本集中的第一词性向量和第一词频向量的步骤,包括:确定所述特征词在所述用于训练的课堂话语文本集中的第一文本频率指数;基于所述特征词及所述第一文本频率指数确定所述第一词频向量;确定所述特征词在所述用于训练的课堂话语文本集中的第一初始词性向量和第一逆文档频率;基于所述第一初始词性向量及所述第一逆文档频率确定所述第一词性向量。
在可选的实施方式中,确定所述特征词在所述待分类的课堂话语文本集中的第二词性向量和第二词频向量的步骤,包括:确定所述特征词在所述待分类的课堂话语文本集中的第二文本频率指数;基于所述特征词及所述第二文本频率指数确定所述第二词频向量;确定所述特征词在所述用于训练的课堂话语文本集中的第二初始词性向量和第二逆文档频率;基于所述第二初始词性向量及所述第二逆文档频率确定所述第二词性向量。
在可选的实施方式中,所述初始词性向量包括:基于Word2Vec模型对所述课堂话语文本集进行训练,获得所述课堂话语文本集中每个词语的初始词性向量。
本发明提供的基于多特征融合的课堂话语分类方法,通过对课堂话语文本集的多种特征的选择和提取,将提取的多种特征进行融合的方式来训练分类器,并利用训练好的分类器进行分类;从而实现了课堂话语的自动分类,提高了课堂话语分类的准确率。
第二方面,本发明实施例提供了一种基于多特征融合的课堂话语分类装置,包括:获取模块,用于获取课堂话语文本集,所述课堂话语文本集包括用于训练的课堂话语文本集和待分类的课堂话语文本集,所述课堂话语文本集包括多个课堂话语文本;每个所述课堂话语文本对应有分类标签,所述分类标签用于指示话语属性;确定模块,用于确定所述用于训练的课堂话语文本集的第一融合特征,以及确定所述待分类的课堂话语文本集的第二融合特征;训练模块,用于基于所述第一融合特征和所述分类标签,对分类器进行训练;分类模块,用于基于所述第二融合特征,利用训练好的所述分类器对所述待分类的课堂话语文本集进行分类。
第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述前述实施方式任一项所述的方法。
本发明提供的基于多特征融合的课堂话语分类方法和装置,通过对课堂话语文本集的多种特征的选择和提取,将提取的多种特征进行融合的方式来训练分类器,并利用训练好的分类器对待分类的课堂话语文本集进行分类;从而实现了课堂话语的自动分类,提高了课堂话语分类的准确率,便于进一步优化改进课堂语言行为分析中的分类和编码。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多特征融合的课堂话语分类方法流程图;
图2为本发明实施例提供的一种确定用于训练的课堂话语文本集的流程图;
图3为本发明实施例提供的一种确定第一融合特征和第二融合特征的方法流程图;
图4为本发明实施例提供的一种基于多特征融合的课堂话语分类方法流程图;
图5为本发明实施例提供的一种基于多特征融合的课堂话语分类装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
研究指出,语言行为是课堂中主要的教学行为,占课堂中所有教学行为的80%左右,因此,对课堂中的话语行为进行分析就能够把握课堂的规律和实质。在课堂教学行为的量化分析领域,传统的课堂教学行为分析系统中,大部分研究都是通过人工进行,导致容易产生误操作,分类正确率低、效率低的问题。近年来对课堂教学分析法的研究中,也有研究者将课堂话语转为文本后,结合深度学习算法来实现课堂话语的自动分类,但这种方法主要适用于需要较大数据量的文本分类,在实际应用时有较大的局限性。
基于此,本申请实施例提供了一种基于多特征融合的课堂话语分类方法和装置,以解决现有技术中分类正确率低、效率低,应用所需样本量较大等问题。为便于对本实施例进行理解,下面对本发明实施例进行详细介绍。
结合第一方面,本申请实施例提供了一种基于多特征融合的课堂话语分类方法,在一种实施方式中,所述方法包括如图1所示的以下步骤:
S101,获取课堂话语文本集,包括用于训练的课堂话语文本集和待分类的课堂话语文本集;其中,课堂话语文本集包括多个课堂话语文本,每个课堂话语文本对应有分类标签,用于指示话语属性;
S102,确定用于训练的课堂话语文本集的第一融合特征,以及确定待分类的课堂话语文本集的第二融合特征;
S103,基于第一融合特征和分类标签,对分类器进行训练;
S104,基于第二融合特征,利用训练好的分类器对待分类的课堂话语文本集进行分类。
本实施例提供的基于多特征融合的课堂话语分类方法,通过对用于训练的课堂话语文本集和待分类的课堂话语文本集的多种特征的选择和提取,并将提取的多种特征进行融合的方式来训练分类器,再利用分类器对待分类的课堂话语文本集进行分类;从而实现了课堂话语的自动分类,提高了课堂话语分类的准确率。
下面结合具体示例对本申请实施例进行详细介绍。
对于上述S101,该话语属性可以用于指示课堂教学行为,不同的课堂教学行为可以对应不同的话语属性。例如,该课堂教学行为可以包括发布作业、现场提问或者讲授等等,相应的该话语属性可以包括:指令、提问和讲授,获取的包括上述课堂教学行为的课堂话语文本集可以包括:指令话语文本、提问话语文本和讲授话语文本,即,该课堂话语文本集可以包括对应指令、提问和讲授三种话语属性的话语文本。
进一步的,指令可以用于表示课堂上教师发布的任务、提示等,如,教师布置的作业任务、教师对课堂教学进度的提示;提问可以用于表示课堂上出现的提问行为,如,教师针对教学任务做出的引导性提问、学生向教师提出的问题等等;讲授可以用于表示表示课堂上出现的讲授行为,如,教师对某个知识点的解读、学生对某个问题发表的看法等等。
对于上述S101,获取用于训练的课堂话语文本集可以用于多特征的提取和对分类器进行训练,在一些实施方式中,用于训练的课堂话语文本集的获取包括如图2所示的以下步骤:
S201,将课堂录像转录成文字写入文档;其中,所述文档包括含有课堂话语的文字;
S202,分割文字,获得句子;
S203,将句子整理为带标签的用于训练的课堂话语文本集。
对于上述S201,该课堂录像可以包括至少一堂课堂教学的完整录像,用于获取课堂教学环境下的音频文件,并进一步转录为文字写入文档。例如,选取来自65节语文课堂教学录像,可以用于获取该65节语文课堂教学中的语言行为,从而进一步完成编码、分类等后续分析。
对于上述S202,对文字进行分割用于获得带有完整信息的句子,可以将文档中的文字以自然语句为单位进行分割,对于上述S203,将经过分割后所得的带有信息的句子,整理为带分类标签的课堂话语文本集,用于对课堂话语的特征融合,并对分类器进行训练。其中,用于训练的课堂话语文本集可以包括对应指令、提问和讲授三种标签的话语文本,在一些实施方式中,可以采用互动分析系统FIAS分类标准将句子整理为带标签的用于训练的课堂话语文本集。
在一些实施方式中,待分类的课堂话语文本集的获取包括如下步骤:
步骤a),将课堂录像转录成文字写入文档;其中,所述文档包括含有课堂话语的文字;
步骤b),分割文字,获得句子;
步骤c),将句子整理为带标签的待分类的课堂话语文本集。
需要说明的是,此时待分类的课堂话语文本集带有标签,但是在通过分类器将待分类的课堂话语文本集进行分类时,会将标签隐藏或删除,即待分类的课堂话语文本集在分类时不受标签的限制或影响。
在一些实施方式中,上述S102的步骤之前,还包括:
步骤d),基于卡方检验在课堂话语文本集中选取特征词,特征词对应指示话语属性的标签。
特征词可以通过卡方检验或信息增益来选取,选择的特征词可以用于在课堂话语文本集中代表包含特定信息的句子,例如,“如何”、“怎样”等特征词表示包含提问信息的句子,可以用于指示该句子的话语属性。
对于上述S102,在一种实施方式中,确定用于训练的课堂话语文本集的第一融合特征,以及确定待分类的课堂话语文本集的第二融合特征的方法,进一步包括图3所示的以下步骤:
S301,确定特征词在用于训练的课堂话语文本集中的第一词性向量和第一词频向量;
S302,将第一词性向量和第一词频向量串联,获得第一融合特征;
S303,确定特征词在待分类的课堂话语文本集中的第二词性向量和第二词频向量;
S304,将第二词性向量和第二词频向量串联,获得第二融合特征。
对于上述步骤S301,确定特征词的第一词频向量可以用于提取用于训练的课堂话语文本集的一项特征,在一些实施方式中,该方法包括:首先确定特征词在用于训练的课堂话语文本集中的第一文本频率指数;再基于特征词及特征词对应的第一文本频率指数确定第一词频向量。其中,第一文本频率指数可以是词频(term frequency)与逆文档频率(inverse document frequency)的综合指标TF-IDF,词频可以是指特征词在每个课堂话语文本中出现的频率。例如,通过TF-IDF算法计算每个特征词的TF-IDF值,其中,TF-IDF=TF*IDF;以每个特征词为维度,以TF-IDF值为对应权值,建立相应的词频向量。
对于上述步骤S301,确定特征词的第一词性向量可以用于提取用于训练的课堂话语文本集的另一项特征,在一些实施方式中,该方法包括:首先确定特征词在用于训练的课堂话语文本集中的第一初始词性向量;再基于特征词的第一初始词性向量及特征词对应的第一逆文档频率确定第一词性向量。例如,通过Word2Vec模型对用于训练的课堂话语文本集进行训练,得到每个特征词的初始词性向量;将初始词性向量与相应特征词的权值相乘得到加权词性向量,并进一步将加权词性向量相加,得到最终的词性向量,其中,相应特征词的权值可以是逆文档频率IDF。
对于步骤S303,确定特征词的第二词频向量可以用于提取待分类的课堂话语文本集的一项特征,在一些实施方式中,该方法包括:首先确定特征词在待分类的课堂话语文本集中的第二文本频率指数;再基于特征词及特征词对应的第二文本频率指数确定第二词频向量。其中,第二文本频率指数可以是词频(term frequency)与逆文档频率(inversedocument frequency)的综合指标TF-IDF,词频可以是指特征词在每个课堂话语文本中出现的频率。例如,通过TF-IDF算法计算每个特征词的TF-IDF值,其中,TF-IDF=TF*IDF;以每个特征词为维度,以TF-IDF值为对应权值,建立相应的词频向量。
对于步骤S303,确定特征词的第二词性向量可以用于提取待分类的课堂话语文本集的另一项特征,在一些实施方式中,该方法包括:首先确定特征词在待分类的课堂话语文本集中的第二初始词性向量;再基于特征词的第二初始词性向量及特征词对应的第二逆文档频率确定第二词性向量。例如,通过Word2Vec模型对待分类的课堂话语文本集进行训练,得到每个特征词的初始词性向量;将初始词性向量与相应特征词的权值相乘得到加权词性向量,并进一步将加权词性向量相加,得到最终的词性向量,其中,相应特征词的权值可以是逆文档频率IDF。
对于上述S103,通过步骤S302和S304得到用于训练的课堂话语文本集的第一融合特征和待分类的课堂话语文本集的第二融合特征,融合后的特征同时具备词频和词性两种特征,即对应课堂话语文本的统计特征和语义特征,能够使课堂话语文本的分类更加准确。
对于上述S104,该分类器可以用于基于S103所得的第二融合特征,对课堂话语文本进行分类。例如,分类器可以包括:支持向量机SVM算法、贝叶斯分类算法中的任意一种,将输入分类器的课堂话语文本,结合其相应的融合特征进行分类。
结合上述对一种基于多特征融合的课堂话语分类方法的详细介绍,图4示出了一个优选的实施方式,该实施方式提供的一种基于多特征融合的课堂话语分类方法包括如下步骤:
S401,将课堂录像转录成文字写入文档;
S402,分割文字,获得句子;
S403,将句子整理为带标签的课堂话语文本集;
S404,对用于训练的课堂话语文本集和待分类的课堂话语文本集进行预处理;其中,预处理过程包括分词、去停用词;
S405,在课堂话语文本集中选取特征词;
S406,计算特征词在用于训练的课堂话语文本集中的第一词性向量和第一词频向量;
S407,计算特征词在待分类的课堂话语文本集中的第二词性向量和第二词频向量;
S408,获得用于训练的课堂话语文本集的第一融合特征;
S409,获得待分类的课堂话语文本集的第二融合特征;
S410,利用第一融合特征和分类标签对分类器进行训练;
S411,基于第二融合特征,利用训练好的分类器对待分类的课堂话语文本集进行分类。
结合一个具体的示例,对上述S401至S410进行详细介绍,其中,获取课堂话语文本集包括步骤S401至S403,首先选取来自65节语文课堂的教学录像,经过转录、分割、人工分类等预处理过程后,整理获得教师指令话语文本、提问话语文本、讲授话语文本各3500条,其中2900条作为训练文本(用于训练的课堂话语文本集),其余600条作为测试文本(待分类的课堂话语文本集)。需要说明的是,2900条训练文本是带分类标签的,用于提取每一类话语的特征,600条测试文本即为待分类文本,在利用分类器进行分类时实际是不带标签、打乱的,而在此分类方法的实现过程中,事先为测试文本贴了分类标签,但在分类时不受标签的影响和限制,只用于分类后计算分类准确率。
对于S405,利用卡方检验在课堂话语文本集中选取特征词;利用TF-IDF算法计算每个特征词的TF-IDF值;对于S406和S407,利用Word2Vec模型确定初始词性向量;以特征词为维度,TF-IDF为对应权值建立词频向量;将初始词性向量与相应特征值的权值,即IDF值相乘得到加权词性向量,并进一步将加权词性向量相加,得到最终的词性向量。
对于S408和S409,将词性向量和词频向量串联,分别获得第一融合特征和第二融合特征;对于S410,基于第一融合特征和分类标签对分类器进行训练;对于S411,基于第二融合特征,利用分类器对待分类的课堂话语文本集进行分类,得到基于融合特征的分类效果高于单个特征的分类效果。
本申请提供的实施方式,将课堂录像转成话语文本后,能够实现课堂话语的自动分类:通过卡方检验的具体方式实现降维(特征词的选择);采用TF-IDF算法提取了一种词频向量特征,采用Word2Vec训练的词向量加权逆文档频率IDF得到另一种词性向量特征,进一步将两种特征融合,从而既能得到代表文本统计特征的词频向量,又能得到代表文本语义特征的词性向量;在小样本的情况下再以支持向量机SVM作为分类器,对课堂话语文本进行分类;能够提高课堂话语文本的分类准确率,实现课堂话语的自动分类,从而优化并改进课堂语言行为分析中的分类和编码工作。
结合第二方面,本申请实施例提供了一种基于多特征融合的课堂话语分类装置,在一种实施方式中,所述方法包括如图5所示的以下模块:
获取模块501,用于获取课堂话语文本集,课堂话语文本集包括用于训练的课堂话语文本集和待分类的课堂话语文本集,课堂话语文本集包括多个课堂话语文本;每个课堂话语文本对应有分类标签,分类标签用于指示话语属性;
确定模块502,用于确定用于训练的课堂话语文本集的第一融合特征,以及确定待分类的课堂话语文本集的第二融合特征;
训练模块503,用于基于第一融合特征和分类标签,对分类器进行训练;
分类模块504,用于基于第二融合,利用训练好的分类器对待分类的课堂话语文本集进行分类。
在一些实施方式中,课堂话语文本集获取模块501包括:转录模块,用于将课堂录像转录成文字写入文档,文档包括含有课堂话语的文字;分割模块,用于对转录后的文字,以自然语句为单位进行人工分割,获得句子;整理模块,用于将句子整理为带标签的课堂话语文本集。
结合第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述基于多特征融合的课堂话语分类方法的步骤。
本申请实施例所提供的基于多特征融合的课堂话语分类装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述移动控制方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。
Claims (10)
1.一种基于多特征融合的课堂话语分类方法,其特征在于,包括:
获取课堂话语文本集,所述课堂话语文本集包括用于训练的课堂话语文本集和待分类的课堂话语文本集,所述课堂话语文本集包括多个课堂话语文本;每个所述课堂话语文本对应有分类标签,所述分类标签用于指示话语属性;
确定所述用于训练的课堂话语文本集的第一融合特征,以及确定所述待分类的课堂话语文本集的第二融合特征;
基于所述第一融合特征和所述分类标签,对分类器进行训练;
基于所述第二融合特征,利用训练好的所述分类器对所述待分类的课堂话语文本集进行分类。
2.根据权利要求1所述的基于多特征融合的课堂话语分类方法,其特征在于,所述获取课堂话语文本集的步骤,包括:
将课堂录像转录成文字写入文档,所述文档包括含有课堂话语的文字;
分割所述文字,获得句子;
将所述句子整理为带标签的课堂话语文本集。
3.根据权利要求1所述的基于多特征融合的课堂话语分类方法,其特征在于,所述话语属性用于指示课堂教学行为,包括:指令、提问和讲授。
4.根据权利要求1所述的基于多特征融合的课堂话语分类方法,其特征在于,确定所述用于训练的课堂话语文本集的第一融合特征,以及确定所述待分类的课堂话语文本集的第二融合特征的步骤之前,还包括:
基于卡方检验在所述课堂话语文本集中选取特征词,所述特征词对应指示所述话语属性的标签。
5.根据权利要求4所述的基于多特征融合的课堂话语分类方法,其特征在于,确定所述用于训练的课堂话语文本集的第一融合特征,以及确定所述待分类的课堂话语文本集的第二融合特征的步骤,包括:
确定所述特征词在所述用于训练的课堂话语文本集中的第一词性向量和第一词频向量;
将所述第一词性向量和所述第一词频向量串联,获得第一融合特征;
确定所述特征词在所述待分类的课堂话语文本集中的第二词性向量和第二词频向量;
将所述第二词性向量和所述第二词频向量串联,获得第二融合特征。
6.根据权利要求5所述的基于多特征融合的课堂话语分类方法,其特征在于,确定所述特征词在所述用于训练的课堂话语文本集中的第一词性向量和第一词频向量的步骤,包括:
确定所述特征词在所述用于训练的课堂话语文本集中的第一文本频率指数;
基于所述特征词及所述第一文本频率指数确定所述第一词频向量;
确定所述特征词在所述用于训练的课堂话语文本集中的第一初始词性向量和第一逆文档频率;
基于所述第一初始词性向量及所述第一逆文档频率确定所述第一词性向量。
7.根据权利要求5所述的基于多特征融合的课堂话语分类方法,其特征在于,确定所述特征词在所述待分类的课堂话语文本集中的第二词性向量和第二词频向量的步骤,包括:
确定所述特征词在所述待分类的课堂话语文本集中的第二文本频率指数;
基于所述特征词及所述第二文本频率指数确定所述第二词频向量;
确定所述特征词在所述用于训练的课堂话语文本集中的第二初始词性向量和第二逆文档频率;
基于所述第二初始词性向量及所述第二逆文档频率确定所述第二词性向量。
8.根据权利要求7所述的基于多特征融合的课堂话语分类方法,其特征在于,所述初始词性向量包括:基于Word2Vec模型对所述课堂话语文本集进行训练,获得所述课堂话语文本集中每个词语的初始词性向量。
9.一种基于多特征融合的课堂话语分类装置,其特征在于,包括:
获取模块,用于获取课堂话语文本集,所述课堂话语文本集包括用于训练的课堂话语文本集和待分类的课堂话语文本集,所述课堂话语文本集包括多个课堂话语文本;每个所述课堂话语文本对应有分类标签,所述分类标签用于指示话语属性;
确定模块,用于确定所述用于训练的课堂话语文本集的第一融合特征,以及确定所述待分类的课堂话语文本集的第二融合特征;
训练模块,用于基于所述第一融合特征和所述分类标签,对分类器进行训练;
分类模块,用于基于所述第二融合特征,利用训练好的所述分类器对所述待分类的课堂话语文本集进行分类。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068206.3A CN111274401A (zh) | 2020-01-20 | 2020-01-20 | 基于多特征融合的课堂话语分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068206.3A CN111274401A (zh) | 2020-01-20 | 2020-01-20 | 基于多特征融合的课堂话语分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111274401A true CN111274401A (zh) | 2020-06-12 |
Family
ID=71001833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068206.3A Pending CN111274401A (zh) | 2020-01-20 | 2020-01-20 | 基于多特征融合的课堂话语分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274401A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674736A (zh) * | 2021-06-30 | 2021-11-19 | 国网江苏省电力有限公司电力科学研究院 | 一种基于分类器集成的教师课堂指令识别方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9047283B1 (en) * | 2010-01-29 | 2015-06-02 | Guangsheng Zhang | Automated topic discovery in documents and content categorization |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108763477A (zh) * | 2018-05-29 | 2018-11-06 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及系统 |
CN109284390A (zh) * | 2018-11-29 | 2019-01-29 | 北京师范大学 | 一种基于课堂日志的教学场景编码方法 |
CN109800309A (zh) * | 2019-01-24 | 2019-05-24 | 华中师范大学 | 课堂话语类型分类方法及装置 |
CN110347833A (zh) * | 2019-07-09 | 2019-10-18 | 浙江工业大学 | 一种多轮对话的分类方法 |
CN110598041A (zh) * | 2019-09-06 | 2019-12-20 | 广州努比互联网科技有限公司 | 一种FlACS实时分析方法与装置 |
-
2020
- 2020-01-20 CN CN202010068206.3A patent/CN111274401A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9047283B1 (en) * | 2010-01-29 | 2015-06-02 | Guangsheng Zhang | Automated topic discovery in documents and content categorization |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
CN108009148A (zh) * | 2017-11-16 | 2018-05-08 | 天津大学 | 基于深度学习的文本情感分类表示方法 |
CN108763477A (zh) * | 2018-05-29 | 2018-11-06 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及系统 |
CN109284390A (zh) * | 2018-11-29 | 2019-01-29 | 北京师范大学 | 一种基于课堂日志的教学场景编码方法 |
CN109800309A (zh) * | 2019-01-24 | 2019-05-24 | 华中师范大学 | 课堂话语类型分类方法及装置 |
CN110347833A (zh) * | 2019-07-09 | 2019-10-18 | 浙江工业大学 | 一种多轮对话的分类方法 |
CN110598041A (zh) * | 2019-09-06 | 2019-12-20 | 广州努比互联网科技有限公司 | 一种FlACS实时分析方法与装置 |
Non-Patent Citations (3)
Title |
---|
骆祖莹,张丹慧: "《课堂教学自动评价及其初步研究成果》", 《现代教育技术》, no. 8 * |
高桂平: "《信息化环境下的课堂话语分析方法及应用》", 《中国科教创新导刊》, vol. 8, no. 2014 * |
高桂平: "《数字化课堂话语行为分类及方法研究》", 《中国信息技术教育》, vol. 8, no. 2014 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674736A (zh) * | 2021-06-30 | 2021-11-19 | 国网江苏省电力有限公司电力科学研究院 | 一种基于分类器集成的教师课堂指令识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10922991B2 (en) | Cluster analysis of participant responses for test generation or teaching | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
US20130185057A1 (en) | Computer-Implemented Systems and Methods for Scoring of Spoken Responses Based on Part of Speech Patterns | |
Valakunde et al. | Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process | |
CN111914532A (zh) | 一种中文作文评分方法 | |
CN112395858B (zh) | 融合试题数据和解答数据的多知识点标注方法和系统 | |
CN111311459B (zh) | 一种面向国际汉语教学的交互式出题方法及系统 | |
Dürlich et al. | EFLLex: A graded lexical resource for learners of English as a foreign language | |
Zhang et al. | Classification of writing patterns using keystroke logs | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN109376355B (zh) | 英文单词和语句筛选方法、装置、存储介质及电子设备 | |
US20240086452A1 (en) | Tracking concepts within content in content management systems and adaptive learning systems | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
Nicoll et al. | Giving feedback on feedback: An assessment of grader feedback construction on student performance | |
CN117252259A (zh) | 基于深度学习的自然语言理解方法及ai助教系统 | |
Cavalli-Sforza et al. | Arabic readability research: current state and future directions | |
Mat Hussin et al. | Organisation and Move Structure in the Results and Discussion Chapter in Malaysian Undergraduates' Final-Year Projects. | |
Al-Ajlan et al. | Towards the development of an automatic readability measurements for Arabic language | |
CN113836894A (zh) | 多维度英语作文评分方法、装置及可读存储介质 | |
KR20200058621A (ko) | 8품사 및 문장 내 사용역할로 성분을 구분하는 단순도해법을 이용한 영어문장 학습 서비스 제공 방법 | |
Kamal et al. | Towards Kurdish text to sign translation | |
CN111274401A (zh) | 基于多特征融合的课堂话语分类方法和装置 | |
CN111078874A (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 | |
Fazal et al. | An innovative approach for automatically grading spelling in essays using rubric-based scoring | |
Mazidah et al. | hedges and boosters in undergraduate thesis abstracts of Qomaruddin university Students |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |