CN108228779B - 一种基于学习社区对话流的成绩预测方法 - Google Patents

一种基于学习社区对话流的成绩预测方法 Download PDF

Info

Publication number
CN108228779B
CN108228779B CN201711466799.3A CN201711466799A CN108228779B CN 108228779 B CN108228779 B CN 108228779B CN 201711466799 A CN201711466799 A CN 201711466799A CN 108228779 B CN108228779 B CN 108228779B
Authority
CN
China
Prior art keywords
conversation
flow
dialog
dialogue
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711466799.3A
Other languages
English (en)
Other versions
CN108228779A (zh
Inventor
叶俊民
罗达雄
郭霄宇
陈曙
王志锋
金聪
徐松
赵丽娴
李蓉
杨艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201711466799.3A priority Critical patent/CN108228779B/zh
Publication of CN108228779A publication Critical patent/CN108228779A/zh
Application granted granted Critical
Publication of CN108228779B publication Critical patent/CN108228779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Abstract

本发明属于学习分析领域,提供一种基于学习社区对话流的成绩预测方法,该方法针对输入的课程下的学习小组的对话流文件,输出该小组中的学习者成绩等级,该方法分为训练和预测两个阶段,训练阶段得到成绩预测模型,预测阶段应用此模型进行成绩预测。本发明在采集在线学习社区中对话流数据的基础上,通过对话流划分算法、对话状态矩阵生成算法和预测模型生成算法,实现对在线学习社区中对话流的分析,以完成自动评估某个学习小组的学习效果并预测该小组中学生成绩等级,以实现教师对个别学生的预测与干预。

Description

一种基于学习社区对话流的成绩预测方法
技术领域
本发明属于学习分析领域,具体涉及一种基于学习社区对话流的成绩预测方法。
背景技术
目前,针对学习社区对话流分析的典型工作有:第一,Scholand将基于语言分析的发言者关系评估与社会网络处理框架结合起来,以预测潜在的结构关系并描述群组之间的交互模式。通过选择性地提取、组合和处理不同发言者的心理、社会和情感语言标记,可以在组内和组间建立丰富的映射关系,使得管理组织变化、组织设计和组织间关系等困难的任务更容易。第二,Dowell以语言和对话为工具,研究了学业表现和社会中心性两者之间的联系,主要探讨了话语特征在多大程度上诊断性地揭示了学习者在MOOC中相互作用时的表现和社会地位。
目前,针对学生成绩预测的典型工作有:第一,将机器学习中的分类方法,如神经网络、贝叶斯方法和SVM等方法应用于学习成绩预测领域。第二,根据使用的预测数据形式和预测背景设计相应的概率模型进行成绩预测。
上述现有技术存在的主要缺点有如下3点:
1.目前针对学习社区对话流分析的工作主要是将对话分析技术和社会网络技术相结合,进行各类的推理应用,但该项研究与应用还未有工作利用对话分析直接进行学生(群体)的效果评估与成绩预测。
2.由于学生对话分析比较复杂,目前针对学生成绩预测工作的研究与应用忽略了对话因素或是仅将其作为非重要因素考虑,这种处理将严重影响学生学习情况分析和学习成绩预测工作。
3.现有成绩预测系统在具体应用中比较成功,但这类系统同时也比较脆弱,一旦环境发生改变,该类系统就表现出适应性差的问题,这会造成程序方面需要做大量的修改。
发明内容
本发明的目的就是为了克服上述现有技术中的不足,提供一种基于学习社区对话流的成绩预测方法,本发明在采集在线学习社区中对话流数据(下称对话流)的基础上,通过对话流划分算法、对话状态矩阵生成算法和预测模型生成算法,实现对在线学习社区中对话流的分析,以完成自动评估某个学习小组的学习效果并预测该小组中学生成绩等级(如:优秀/中上/中等/中下/差等),以实现教师对个别学生的预测与干预(如个别辅导)。
本方法涉及的主要相关技术有以下5点:
1.文本挖掘:也称为文本数据挖掘,是从文本中获取高质量信息的过程。
2.词嵌入:将词汇中的单词或短语映射到实数向量。目前主要有基于神经网络、基于词共现矩阵、基于概率和基于词语上下文的词嵌入方法。
3.文本聚类:对文本进行聚类分析的方法。通常用于自动文档组织、主题提取和快速信息检索或过滤等领域。目前主要有基于密度、基于网格和基于模型的文本聚类方法。
4.主题模型:是一种用于在文档集合中发现抽象“主题”的统计模型,可以挖掘出文本体中隐藏的语义结构。目前主要有潜在Dirichlet分配(LatentDirichletAllocation,简称LDA)模型。
5.深度循环神经网络:是一类人造神经网络,其中单元之间的连接形成定向循环,这允许它能够更好地处理动态时间行为序列。目前主要有长短期记忆(Long Short-TermMemory,简称LSTM)网络。
6.学习分析:学习分析学是以理解和优化学习及学习发生之环境为目的,所进行的有关学习者及其环境的数据之测量、采集、分析和报告。
本发明的发明目的是通过如下技术方案实现的。
一种基于学习社区对话流的成绩预测方法,该方法针对输入的课程下的学习小组的对话流文件,输出该小组中的学习者成绩等级,该方法分为训练和预测两个阶段,训练阶段得到成绩预测模型,预测阶段应用此模型进行成绩预测;
该方法包括以下步骤:
(1)训练阶段,将某课程的历史对话流文件及每个对话流文件对应学习小组的课程结业成绩等级作为训练阶段的输入数据,在此基础上,首先通过预处理得到标准对话流文件;其次通过对话流划分算法,生成词嵌入模型并得到对话流文本段文件;接着,通过对话状态矩阵生成算法,生成主题词表文件、学习小组的对话状态矩阵和成绩等级矩阵;最后通过预测模型生成算法,得到预测模型;
(2)预测阶段,将该课程的对话流文件作为输入,利用训练阶段得到的多个模型和文件,通过采用与训练过程相同的处理步骤,即预处理、对话流划分算法、对话状态矩阵生成算法,最后应用训练阶段生成的成绩预测模型得到成绩等级。
在上述技术方案中,所述预处理方法的输入为对话流文件,该文件中的一个对话包含两行内容:第一行为对话的时间戳和发言人;第二行为对话内容;
预处理方法具体步骤如下:
第一步,提取对话中的时间戳、发言人和发言内容,生成形如格式“<TS>时间<TS>发言人<TE><CS>发言内容<CE>”形式的对话;
第二步,合并对话之间时间差值小于阈值T,T=2min,且发言人相同的对话的发言内容,以生成标准对话;
第三步,删除发言内容长度小于阈值L的标准对话,L=10字长,最终获取标准对话流文件。
在上述技术方案中,通过预处理工作已经解决了对话流中的一个对话短时间内多次分开发送的问题,同时剔除了某些对语义没有影响的短对话。为了获取一个主题下的对话流集合,考虑时间和发言内容相似度两个因素来对对话流进行划分。其中,在计算内容相似度时候,引入目前流行的词嵌入模型连续词袋模型(Continuous Bag-Of-Words Model,简称CBOW)。所述对话流划分算法的具体步骤如下:
第一步,遍历每一个标准对话流文件,将文件中标准对话的发言内容进行分词处理后作为一行写入词嵌入语料文件;
第二步,利用词嵌入语料文件训练CBOW模型;
第三步,依次处理每一个标准对话流文件;创建文本段ID及保存其对应对话链表的字典;依次遍历每一个标准对话,如果标准对话与当前ID对应对话链表中最后一个对话的时间差值小于T’,T’=2min,且标准对话的发言内容与当前ID对应对话链表的内容相似度大于S,S选用使得划分后的对话流文本段的文本段个数均值最接近前3个月教学大纲中的核心知识点数的相似度,将标准对话加入当前ID对应对话链表,否则,ID加1,将标准对话加入ID对应对话链表;计算字典中每个对话链表的发言内容长度和均值;将字典中发言内容长度和大于均值的对话链表中每个对话的发言内容拼接为一个文本段写入与其对应的对话流文本段文件;
按照如下公式计算标准对话与ID对应对话链表的内容相似度
DiaSim=MAX(Sim(Dia,Diai)),Diai∈Block_Map[ID]
其中,Dia为每次读取的标准对话,Diai为字典中ID对应对话链表中的对话;按照如下公式计算每两个标准对话的内容相似度
Figure BDA0001531300760000041
其中,Word_List函数表述对话发言内容切分后的词链表,Wi、Wj分别是Dia1和Dia2中的词,n为Dia1发言内容切分词链表的长度,公式在计算时保证Dia1发言内容切分词链表的长度小于Dia2发言内容切分词链表的长度,MAX函数在计算时使用CBOW模型中Wi、Wj所对应向量,计算其余弦相似度,最大值累加到Sim。
在上述技术方案中,将对话流文本段文件转换成能够反映学生讨论状态的对话状态矩阵,主要使用LDA算法来提取对话流文本段的主题信息。所述对话状态矩阵生成算法的具体步骤如下:
第一步,利用对话文本段文件中的文本段训练LDA模型,设置主题的个数为K,K为前三个月课程核心知识点个数;
第二步,创建主题词集合,将LDA算法输出的K个主题中每个主题的前M个高频词写入集合,M选用使得主题词表大小最接近核心知识点*核心知识点下的一级子知识点的均值,对集合去重操作后,将每个主题词及其集合中的位置编号作为一行写入主题词表文件;
第三步,创建对话状态矩阵链表和成绩等级矩阵;依次处理每一个对话流文本段文件及其对应的结业成绩等级,将对话流文本段文件转换成对话状态矩阵并加入对话状态矩阵链表,将成绩等级转换成成绩等级向量加入成绩等级矩阵;
按照以下规则1将对话流文本段文件转换成对话状态矩阵:建立R行C列的全0矩阵,R为对话流文本段文件中的文本段个数,C为主题词表文件中主题词个数,依次为对话流文本段文件中的文本段创立长度为C的文本段向量,使用LDA模型得到文本段对应的主题,得到前F个主题下的前M个高频词作为表示这个文本段的主题词,F取值为[1,3]中的整数,M与第二步的取值一致,查找每个主题词在主题词表中的编号,将文本段向量中对应主题词标号下标位置的0置为1,将文本段向量放入对话状态矩阵中;
按照以下规则2生成成绩等级向量:为每个成绩等级创建长度为Q的全0向量,Q为进行预测的等级个数,并把成绩等级对应下标位置的0置为1。
在上述技术方案中,通过对话状态矩阵生成算法,得到能够反映学习者对话状态的矩阵,针对该矩阵本发明设计了一种基于LSTM的预测模型对成绩等级进行预测。所述预测模型生成算法基于LSTM的预测模型对成绩等级进行预测,该预测模型的每一次输入为一个对话状态矩阵,每个时间步的输入为对话状态矩阵对应时间步位置的对话状态向量,描述了对应对话文本段的核心语义内容;
LSTM隐藏层的个数为主题个数K,K为课程前3个月内核心知识点个数,记录对话流中包含的课程核心知识点的语义信息,隐藏层H的激活函数选择sigmod,其个数设计为要预测的学习者成绩等级个数,记录对话流中的成绩等级信息,模型的深度为3层,记录课程前3个月对话流的语义信息;Softmax层输出学习者成绩属于不同等级的概率,损失函数选择交叉熵,并使用随机梯度下降方法进行优化,模型训练时,使用对话状态矩阵生成算法得到的对话状态矩阵链表作为训练数据,成绩等级矩阵作为标记数据。
综上,本发明方法,首先,对对话流文本进行预处理,去除对话流中不规范表达对语义的影响。其次,将对话流中讨论相同课程主题的连续对话划分成文本段,有利于对文本语义的分析。接着,将已经划分成文本段形式的对话流转换成能够描述学生交流语义的对话状态矩阵。最后,使用已经被证明在处理时序数据上有优秀能力的深度循环神经网络进行成绩预测。
本发明一种基于学习社区对话流的成绩预测方法,使用方便、适应性强,本发明在采集在线学习社区中对话流数据(下称对话流)的基础上,通过对话流划分算法、对话状态矩阵生成算法和预测模型生成算法,实现对在线学习社区中对话流的分析,以完成自动评估某个学习小组的学习效果并预测该小组中学生成绩等级(如:优秀/中上/中等/中下/差等),以实现教师对个别学生的预测与干预(如个别辅导)。
附图说明
图1为本发明方法的流程框架图。
图2为选取不同相似度阈值对对话流进行划分的结果。
图3为不同M值下得到的主题词表大小。
图4为本发明方法中预测模型的示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
本实施例的应用环境为操作系统Ubuntu16,使用python2.7编码环境,使用了jieba、gensim和keras等工具作为支持库。
1)数据集
采用某大学2016年大三上学期“数据挖掘”课程一个班级的40名学生的学习小组对话流数据作为训练数据。将4个人作为一个学习小组,分成10组,采集课程前3个月学习小组以QQ讨论形式进行的对话流文本作为训练数据,标号为groupi.txt,i∈[1..10]。采用某大学“数据挖掘”课堂的另一个班级40名学生对话流作为预测数据,组织形式与训练数据相同。结业成绩等级的划分标准为差(0-50)/中下(50-60)/中(60-75)/中上(75-90)/优秀(90-100)。
2)步骤
如图1所示,本实施例提供一种基于学习社区对话流的成绩预测方法,该方法针对输入的课程下的学习小组的对话流文件,输出该小组中的学习者成绩等级,该方法分为训练和预测两个阶段,训练阶段得到成绩预测模型,预测阶段应用此模型进行成绩预测;
该方法包括以下步骤:
(1)训练阶段,将某课程的历史对话流文件及每个对话流文件对应学习小组的课程结业成绩等级作为训练阶段的输入数据,在此基础上,首先通过预处理得到标准对话流文件;其次通过对话流划分算法,生成词嵌入模型并得到对话流文本段文件;接着,通过对话状态矩阵生成算法,生成主题词表文件、学习小组的对话状态矩阵和成绩等级矩阵;最后通过预测模型生成算法,得到预测模型;
(2)预测阶段,将该课程的对话流文件作为输入,利用训练阶段得到的多个模型和文件,通过采用与训练过程相同的处理步骤,即预处理、对话流划分算法、对话状态矩阵生成算法,最后应用训练阶段生成的成绩预测模型得到成绩等级。
具体步骤说明如下:
(1)预处理
首先,提取groupi.txt,i∈[1..10]文件中每一个对话的时间戳、发言人和发言内容,生成形如格式“<TS>时间<TS>发言人<TE><CS>发言内容<CE>”形式的对话;其次,合并对话之间时间差值小于阈值T,T默认设置为2min且发言人相同的对话的发言内容,以生成标准对话;最后,删除发言内容长度小于阈值L,L默认设置为10的标准对话。通过以上三个步骤将对话流文件转换为标准对话流文件。
(2)对话流划分
对话流划分算法的具体过程如下。
Figure BDA0001531300760000071
首先,利用标准对话流文件groupi.txt,i∈[1..10]的对话内容形成词嵌入训练语料文件,使用gensim中的Word2Vec模型进行词嵌入的训练。其次,根据对话流划分算法,选取时间阈值T’值为2min。假设不同小组的对话流长度为正态分布,选取不同相似度阈值对对话流进行划分的实验结果如图2所示(如S取0.5时,文本段均值为28)。最后,选用使得划分后的对话流文本段的文本段个数均值最接近前3个月教学大纲中的核心知识点数的相似度。
根据实验中课程的核心知识点数为28,选取内容相似度的阈值S为0.5。对话流文本段划分的结果如表1和表2所示。
表1.groupitxt文本段划分结果节选
Figure BDA0001531300760000081
表2.对话流文件在S=0.5时候的划分个数
对话流文件 划分后的文本段个数
group<sub>1</sub>.txt 24
group<sub>2</sub>.txt 30
group<sub>3</sub>.txt 34
group<sub>4</sub>.txt 20
group<sub>5</sub>.txt 36
Group<sub>6</sub>.txt 31
group<sub>7</sub>.txt 28
group<sub>8</sub>.txt 27
group<sub>9</sub>.txt 21
group<sub>10</sub>.txt 25
(3)对话状态矩阵生成
(3.1)主题词表生成
首先,利用对话流文本段文件训练主题模型,并得到主题词表。主题个数K取值为课程前3个月教学大纲中的核心知识点数。主题下选取的主题词个数为M。不同M值下得到的主题词表大小如图3所示(如M值取5时候主题词表的大小为84)。
根据实验中课程的核心知识点数为28,平均子知识点的个数为3,每个主题下选取的高频词个数M取值为5,生成的主题词表如表3所示。
表3.主题词表节选
主题序号 前5个主题词及其编号
4 聚类(11)、相似度(12)、迭代(13)、收敛(14)、初始值(15)
... ...
12 贝叶斯(30)、后验(31)、先验(32)、概率(33)、平滑(34)
... ...
25 神经网络(73)、反向传播(74)、梯度(75)、概率(33)、收敛(14)
(3.2)对话状态矩阵生成
对话状态矩阵生成算法的具体过程如下。
Figure BDA0001531300760000091
Figure BDA0001531300760000101
Convert_File_State_Matrix与Convert_Rank_Vector函数依照发明内容中的规则1和规则2将对话流文本段文件转换成对话状态矩阵和成绩等级向量。
依据主题词表,将对话流文本段文件转换成对话状态矩阵,每个文本段选取的主题个数为设置为1,转换结果如表4所示。
表4.groupi.txt对话状态矩阵生成节选
Figure BDA0001531300760000102
(4)成绩等级预测模型生成
根据前面几步得到的参数构建预测模型结构,具体为:LSTM的输入维度为主题词表的大小,本实施例中配置为84;LSTM的时间步为对话流文本段文件夹下的主题文本段文件的文本段个数均值,本实施例中配置为28;LSTM的隐藏层节点个数为主题模型训练的主题个数K,本实施例中配置为28;隐藏层H的节点个数为学习小组成绩等级个数,本实施例中配置为5。模型训练时候使用增量算法使得数据量级达到模型训练的要求。训练得到的预测模型如图4所示。
3)预测结果分析
相关的实验结果如表5所示。
表5.预测结果
预测小组 预测成绩等级 实际成绩等级
Group1 优秀 优秀
Group2
Group3 中上 优秀
Group4
Group5 中下 中下
Group6 优秀 中上
Group7
Group8
Group9
Group10 中上 中上
如表5所示,对本学期另一个“数据挖掘”课堂的10个学习小组的结业成绩等级进行预测。正确预测其中8个学习小组的结业成绩等级,对组3和组6的结业成绩等级预测有程度上的偏差。实验证明,预测模型有良好的效果。教师可以根据模型的预测结果,在结业考试之前对预测结果为差或是中下的小组,即组5、8和9,做出相应的干预。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
本发明的上述实例仅仅为清楚说明本发明所作的举例,而非本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无法对所有的实施方式予以穷举。凡是属于本发明的技术方案所引申出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (4)

1.一种基于学习社区对话流的成绩预测方法,其特征在于:该方法针对输入的课程下的学习小组的对话流文件,输出该小组中的学习者成绩等级,该方法分为训练和预测两个阶段,训练阶段得到成绩预测模型,预测阶段应用此模型进行成绩预测;
该方法包括以下步骤:
(1)训练阶段,将某课程的历史对话流文件及每个对话流文件对应学习小组的课程结业成绩等级作为训练阶段的输入数据,在此基础上,首先通过预处理得到标准对话流文件;其次通过对话流划分算法,生成词嵌入模型并得到对话流文本段文件;接着,通过对话状态矩阵生成算法,生成主题词表文件、学习小组的对话状态矩阵和成绩等级矩阵;最后通过预测模型生成算法,得到预测模型;
其中,所述对话流划分算法具体步骤如下:
第一步,遍历每一个标准对话流文件,将文件中标准对话的发言内容进行分词处理后作为一行写入词嵌入语料文件;
第二步,利用词嵌入语料文件训练CBOW模型;
第三步,依次处理每一个标准对话流文件;创建文本段ID及保存其对应对话链表的字典;依次遍历每一个标准对话,如果标准对话与当前ID对应对话链表中最后一个对话的时间差值小于T’,T’=2min,且标准对话的发言内容与当前ID对应对话链表的内容相似度大于S,S选用使得划分后的对话流文本段的文本段个数均值最接近前3个月教学大纲中的核心知识点数的相似度,将标准对话加入当前ID对应对话链表,否则,ID加1,将标准对话加入ID对应对话链表;计算字典中每个对话链表的发言内容长度和均值;将字典中发言内容长度和大于均值的对话链表中每个对话的发言内容拼接为一个文本段写入与其对应的对话流文本段文件;
按照如下公式计算标准对话与ID对应对话链表的内容相似度
DiaSim=MAX(Sim(Dia,Diai)),Diai∈Block_Map[ID]
其中,Dia为每次读取的标准对话,Diai为字典中ID对应对话链表中的对话;
按照如下公式计算每两个标准对话的内容相似度
Figure FDA0002893848050000011
其中,Word_List函数表述对话发言内容切分后的词链表,Wi、Wj分别是Dia1和Dia2中的词,n为Dia1发言内容切分词链表的长度,公式在计算时保证Dia1发言内容切分词链表的长度小于Dia2发言内容切分词链表的长度,MAX函数在计算时使用CBOW模型中Wi、Wj所对应向量,计算其余弦相似度,最大值累加到Sim;
(2)预测阶段,将该课程的对话流文件作为输入,利用训练阶段得到的多个模型和文件,通过采用与训练过程相同的处理步骤,即预处理、对话流划分算法、对话状态矩阵生成算法,最后应用训练阶段生成的成绩预测模型得到成绩等级。
2.根据权利要求1所述的基于学习社区对话流的成绩预测方法,其特征在于:所述预处理方法的输入为对话流文件,该文件中的一个对话包含两行内容:第一行为对话的时间戳和发言人;第二行为对话内容;
预处理方法具体步骤如下:
第一步,提取对话中的时间戳、发言人和发言内容,生成形如格式“<TS>时间<TS>发言人<TE><CS>发言内容<CE>”形式的对话;
第二步,合并对话之间时间差值小于阈值T,T=2min,且发言人相同的对话的发言内容,以生成标准对话;
第三步,删除发言内容长度小于阈值L的标准对话,L=10字长,最终获取标准对话流文件。
3.根据权利要求1所述的基于学习社区对话流的成绩预测方法,其特征在于所述对话状态矩阵生成算法具体步骤如下:
第一步,利用对话文本段文件中的文本段训练LDA模型,设置主题的个数为K,K为前三个月课程核心知识点个数;
第二步,创建主题词集合,将LDA模型输出的K个主题中每个主题的前M个高频词写入集合,M选用使得主题词表大小最接近核心知识点*核心知识点下的一级子知识点的均值,对集合去重操作后,将每个主题词及其集合中的位置编号作为一行写入主题词表文件;
第三步,创建对话状态矩阵链表和成绩等级向量链表;依次处理每一个对话流文本段文件及其对应的结业成绩等级,将对话流文本段文件转换成对话状态矩阵并加入对话状态矩阵链表,将成绩等级转换成成绩等级向量加入成绩等级向量链表;
按照以下规则将对话流文本段文件转换成对话状态矩阵:建立R行C列的全0矩阵,R为对话流文本段文件中的文本段个数,C为主题词表文件中主题词个数,依次为对话流文本段文件中的文本段创立长度为C的文本段向量,使用LDA模型得到文本段对应的主题,得到前F个主题下的前M个高频词作为表示这个文本段的主题词,F取值为[1,3]中的整数,M与第二步的取值一致,查找每个主题词在主题词表中的编号,将文本段向量中对应主题词标号下标位置的0置为1,将文本段向量放入对话状态矩阵中;
按照以下规则生成成绩等级向量:为每个成绩等级创建长度为Q的全0向量,Q为进行预测的等级个数,并把成绩等级对应下标位置的0置为1。
4.根据权利要求1所述的基于学习社区对话流的成绩预测方法,其特征在于:所述预测模型生成算法基于LSTM的预测模型对成绩等级进行预测,该预测模型的每一次输入为一个对话状态矩阵,每个时间步的输入为对话状态矩阵对应时间步位置的对话状态向量,描述了对应对话文本段的核心语义内容;LSTM隐藏层的个数为主题个数K,K为课程前3个月内核心知识点个数,记录对话流中包含的课程核心知识点的语义信息,隐藏层H的激活函数选择sigmod,其个数设计为要预测的学习者成绩等级个数,记录对话流中的成绩等级信息,模型的深度为3层,记录课程前3个月对话流的语义信息;Softmax层输出学习者成绩属于不同等级的概率,损失函数选择交叉熵,并使用随机梯度下降方法进行优化,模型训练时,使用对话状态矩阵生成算法得到的对话状态矩阵链表作为训练数据,成绩等级矩阵作为标记数据。
CN201711466799.3A 2017-12-28 2017-12-28 一种基于学习社区对话流的成绩预测方法 Active CN108228779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711466799.3A CN108228779B (zh) 2017-12-28 2017-12-28 一种基于学习社区对话流的成绩预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711466799.3A CN108228779B (zh) 2017-12-28 2017-12-28 一种基于学习社区对话流的成绩预测方法

Publications (2)

Publication Number Publication Date
CN108228779A CN108228779A (zh) 2018-06-29
CN108228779B true CN108228779B (zh) 2021-03-23

Family

ID=62645842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711466799.3A Active CN108228779B (zh) 2017-12-28 2017-12-28 一种基于学习社区对话流的成绩预测方法

Country Status (1)

Country Link
CN (1) CN108228779B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241243B (zh) * 2020-01-13 2023-05-26 华中师范大学 面向知识测量的试题、知识、能力张量构建与标注方法
CN112932507A (zh) * 2021-01-26 2021-06-11 华中师范大学 一种基于脑机接口的学生协作状态评估方法及系统
CN117493566A (zh) * 2023-11-02 2024-02-02 浙江尚云物联科技有限公司 用于智慧校园的数据处理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331362A (zh) * 2014-10-17 2015-02-04 宝鸡文理学院 一种软件故障预测方法
CN105844562A (zh) * 2016-05-23 2016-08-10 华中师范大学 基于课程教学模型的学习者学习表现分析方法
CN106127634A (zh) * 2016-06-20 2016-11-16 山东师范大学 一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
CN106529711A (zh) * 2016-11-02 2017-03-22 东软集团股份有限公司 用户行为预测方法及装置
CN107274020A (zh) * 2017-06-15 2017-10-20 北京师范大学 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358291A1 (en) * 2013-01-10 2016-12-08 Humana Inc. Computerized back surgery prediction system and method
US9641481B2 (en) * 2014-02-21 2017-05-02 Htc Corporation Smart conversation method and electronic device using the same
CN106651016B (zh) * 2016-12-13 2020-08-04 重庆邮电大学 一种热点话题下动态预测用户行为的系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331362A (zh) * 2014-10-17 2015-02-04 宝鸡文理学院 一种软件故障预测方法
CN105844562A (zh) * 2016-05-23 2016-08-10 华中师范大学 基于课程教学模型的学习者学习表现分析方法
CN106127634A (zh) * 2016-06-20 2016-11-16 山东师范大学 一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
CN106529711A (zh) * 2016-11-02 2017-03-22 东软集团股份有限公司 用户行为预测方法及装置
CN107274020A (zh) * 2017-06-15 2017-10-20 北京师范大学 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARPDF:基于对话流的学习者成绩等级预测算法;罗达雄 等;《小型微型计算机系统》;20190215;第40卷(第2期);267-274 *
The value of learning talk: applying a novel dialogue scoring method to inform interaction design in an open-ended, embodied museum exhibit;Roberts, J 等;《INTERNATIONAL JOURNAL OF COMPUTER-SUPPORTED COLLABORATIVE LEARNING》;20171231;第12卷(第4期);343-376 *

Also Published As

Publication number Publication date
CN108228779A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109446331B (zh) 一种文本情绪分类模型建立方法及文本情绪分类方法
CN106649561B (zh) 面向税务咨询业务的智能问答系统
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN107818164A (zh) 一种智能问答方法及其系统
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN108829662A (zh) 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN103984681A (zh) 基于时序分布信息和主题模型的新闻事件演化分析方法
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN108228779B (zh) 一种基于学习社区对话流的成绩预测方法
US20230027526A1 (en) Method and apparatus for classifying document based on attention mechanism and semantic analysis
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN110222347A (zh) 一种作文离题检测方法
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
Preiser et al. Qualitative content analysis
CN116501861B (zh) 基于层级bert模型与标签迁移的长文本摘要生成方法
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN113505589A (zh) 一种基于bert模型的mooc学习者认知行为识别方法
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180629

Assignee: Hubei ZHENGBO Xusheng Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001275

Denomination of invention: A score prediction method based on learning community dialogue flow

Granted publication date: 20210323

License type: Common License

Record date: 20240124

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180629

Assignee: Hubei Rongzhi Youan Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001548

Denomination of invention: A score prediction method based on learning community dialogue flow

Granted publication date: 20210323

License type: Common License

Record date: 20240126

EE01 Entry into force of recordation of patent licensing contract