一种基于大数据的学习心得评测方法及装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据的学习心得评测方法及装置。
背景技术
网络教育,也称现代远程教育,是指通过电视以及互联网的方式给用户进行课程辅导,以达到教育的目的。但是网络教育的方式无法直接快速对学生学习情况进行了解,也无法知晓每个学生的学习进度,对于网络教师来说是一件很不方便的事情。
现有的学生学习心得的评测往往都是通过教师面对面进行评测或者通过学生提交的学习心得文本来进行评测的话,但是这些方式不仅很浪费时间,同时效率也比较低,所以亟需一种基于大数据的学习心得评测方法,能够对学生的学习心得进行评测。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
有鉴于此,本发明提出了一种基于大数据的学习心得评测方法及装置,旨在解决现有技术无法通过利用大数据并设定关键词的方式对学生学习心得进行评测的问题。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于大数据的学习心得评测方法,所述基于大数据的学习心得评测方法包括以下步骤:
S1,获取本地历史关键词数据,根据本地历史关键词数据建立关键词分数表;
S2,建立关键词提取算法,获取学生学习心得文本数据,对该学习心得文本数据进行预处理,获取待计算文本数据,通过关键词提取算法从待计算文本数据中提取待评测关键词;
S3,根据关键词分数表对待评测关键词进行评测。
在以上技术方案的基础上,优选的,步骤S1中,获取本地历史关键词数据,根据本地历史关键词数据建立关键词分数表,还包括以下步骤,获取本地历史关键词数据,所述本地历史关键词数据包括:本地历史关键词、历史关键词对应的类别,所述历史关键词对应的类别包括:语文、数学、地理、物理、化学以及生物,根据历史关键词对应的类别建立不同类别集合,并存储对应的本地历史关键词,根据该不同类别集合建立关键词分数表。
在以上技术方案的基础上,优选的,所述历史关键词对应的类别包括:语文、数学、地理、物理、化学以及生物,根据历史关键词对应的类别建立不同类别集合,还包括以下步骤,根据历史关键词对应的类别获取对应的课程目录,根据该对应的课程目录建立不同的课程子集合,并存储对应的本地历史关键词。
在以上技术方案的基础上,优选的,步骤S2中,建立关键词提取算法,获取学生学习心得文本数据,对该学习心得文本数据进行预处理,获取待计算文本数据,通过关键词提取算法从待计算文本数据中提取待评测关键词,还包括以下步骤,建立关键词提取算法,获取学生学习心得文本数据,对文本数据进行去干扰符号、分词、去停用词以及还原词干,获取处理之后的文本数据作为待计算文本数据,获取本地关键词词库,通过关键词提取算法利用待计算文本数据以及本地关键词词库中计算关键词相似度,根据相似度将该关键词作为待评测关键词并从待计算文本数据提取对应关键词。
在以上技术方案的基础上,优选的,对文本数据进行去干扰符号、分词、去停用词以及还原词干,获取处理之后的文本数据作为待计算文本数据,还包括以下步骤,对文本数据进行去干扰符号,所述干扰符号包括:标点符号、换行符号、格式符号以及标签符号,建立分词规则,根据分词规则从去除了干扰符号的文本数据提划分分词,设定停用词模型,所述停用词包括:连词、副词以及语气词,根据停用词模型从划分了分词的文本数据中去除停用词,并对文本数据的语言进行检测,当文本数据的语言为中文时,将去除了停用词的文本数据为待计算文本数据;当文本数据的语言为外文时,通过还原词干对去除了停用词的文本数据进行还原,将还原之后的文本数据为待计算文本数据。
在以上技术方案的基础上,优选的,所述关键词提取算法包括:
其中,P代表关键词相似度,Ai代表待评测关键词的文本向量,Bi代表本地关键词词库的文本向量,n代表文本总数,i代表文本项数。
在以上技术方案的基础上,优选的,步骤S3中,根据关键词分数表对待评测关键词进行评测,还包括以下步骤,根据关键词分数表获取待评测关键词对应的分数,并计算待评测关键词的总分数作为学生学习心得文本数据的评测分数。
更进一步优选的,所述基于大数据的学习心得评测装置包括:
获取模块,用于获取本地历史关键词数据,根据本地历史关键词数据建立关键词分数表;
关键词提取模块,用于建立关键词提取算法,获取学生学习心得文本数据,对该学习心得文本数据进行预处理,获取待计算文本数据,通过关键词提取算法从待计算文本数据中提取待评测关键词;
评测模块,用于根据关键词分数表对待评测关键词进行评测。
第二方面,所述基于大数据的学习心得评测方法还包括一种终端设备,所述终端设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于大数据的学习心得评测方法程序,所述基于大数据的学习心得评测方法程序配置为实现如上文所述的基于大数据的学习心得评测方法的步骤。
第三方面,所述基于大数据的学习心得评测方法还包括一种存储介质,所述存储介质为计算机存储介质,所述计算机存储介质上存储有基于大数据的学习心得评测方法程序,所述基于大数据的学习心得评测方法程序被处理器执行时实现如上文所述的基于大数据的学习心得评测方法的步骤。
本发明的一种基于大数据的学习心得评测方法相对于现有技术具有以下有益效果:
(1)通过建立关键词分数表并对该关键词分数表不断修正更新,通过该关键词分数表对学生学习心得进行评测,能够提高评测的精确度和专业性,提升了用户体验。
(2)通过建立关键词提取算法,能够精确从学生学习心得文本数据中提取待评测关键词,并排除其他杂项的干扰,提升了整个评测过程的速度和精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例方案涉及的硬件运行环境的终端设备的结构示意图;
图2为本发明基于大数据的学习心得评测方法第一实施例的流程示意图;
图3为本发明基于大数据的学习心得评测方法第一实施例的功能模块示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,该终端设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,在实际应用中终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大数据的学习心得评测方法程序。
在图1所示的终端设备中,网络接口1004主要用于建立终端设备与存储基于大数据的学习心得评测方法系统中所需的所有数据的服务器的通信连接;用户接口1003主要用于与用户进行数据交互;本发明基于大数据的学习心得评测方法终端设备中的处理器1001、存储器1005可以设置在基于大数据的学习心得评测方法终端设备中,所述基于大数据的学习心得评测方法终端设备通过处理器1001调用存储器1005中存储的基于大数据的学习心得评测方法程序,并执行本发明实施提供的基于大数据的学习心得评测方法。
结合图2,图2为本发明基于大数据的学习心得评测方法第一实施例的流程示意图。
本实施例中,所述基于大数据的学习心得评测方法包括以下步骤:
S10:获取本地历史关键词数据,根据本地历史关键词数据建立关键词分数表。
应当理解的是,系统会获取本地历史关键词数据,所述本地历史关键词数据包括:本地历史关键词、历史关键词对应的类别,所述历史关键词对应的类别包括:语文、数学、地理、物理、化学以及生物,系统会根据这些类别建立不同类别集合,并在这些集合中存储对应的本地历史关键词,同时根据不同类别集合建立关键词分数表。
应当理解的是,由于不同的类别下存储有不同的课程,而每一节课程都有对应的学习心得,所以系统还会根据这些课程目录建立课程子集合,并在课程子集合中存储对应的本地历史关键词,课程子集合属于不同类别集合,且对应不同的类别。
应当理解的是,关键词分数表由管理员进行设定,后期由系统根据存储的本地关键词数据库进行自动更新,关键词分数表是根据关键词的专业度进行评分,分为本专业关键词和通用关键词,本专业关键词是本领域特有的术语或者名词,这样的关键词分数较高,为5分,通用关键词是指一些领域共用的关键词,分数为3分,由此建立对应的关键词分数表,用于对学习心得进行评测。
S20:建立关键词提取算法,获取学生学习心得文本数据,对该学习心得文本数据进行预处理,获取待计算文本数据,通过关键词提取算法从待计算文本数据中提取待评测关键词。
应当理解的是,在大多数情况下,文本数据都会带有标点符号,另外互联网文本数据还会带有肉眼不可看的格式符号,如xml样式表里的各种标签符号、换行符等,这些非文本符号对于计算机来说都是干扰项,如果不去除会对后续的处理产生非常大的影响,有时甚至会影响整个程序的正常运行,所以系统会对文本数据进行去干扰符号,所述干扰符号包括:标点符号、换行符号、格式符号以及标签符号。
应当理解的是,对于文本数据而言,一个个单词是组成文本内容的单位,词语之间合理的上下文关系让整个文本内容具有了丰富的含义,但是整篇文档又无法很好的处理,所以需要将文本进行分词处理,这样每篇文档不管大小就都有了统一的处理方式。需要指出的,对于中文而言,分词是一项比较复杂的工作,因为中文的最小单位是字,若干个字组成了词语,而中文的表达通常是由若干个词句组成的句子来实现,所以中文分词的效果很重要,没有被准确切分的词语会对关键词提取有直接影响。中文分词的方法目前主要有基于统计和基于隐马尔可夫的方法,但是二者都是需要外部知识来做监督,这主要是因为中文词语的多义性、非标准性以及未登录词。除了中文,其他以单词为基本单位的语言,如英语,分词只需要通过单词之间的空格进行切分即可,本实施中,系统会建立分词规则,根据分词规则从去除了干扰符号的文本数据提划分分词,所述分词规则是基于隐马尔可夫的方法。
应当理解的是,为了进一步简化文本数据结构、降低文本数据的存储占用空间而需要去除的字或词被称为停用词。在一般意义上,停用词是指一些本身不具有意义而只有出于句子中时才有作用的一些词,这类词大概有连词、副词、介词、语气词等,另外,对于一些高频可见、对一般文本不具有重要意义的词语也可以去除,停用词一般是通过人工手动收集整理成停用词表,这个停用词表可以被修改,加入当前任务所需要去除的词语,去除停用词能很好的降低文本数据的冗余度,在常规任务中不可或缺。本实施例中,系统会设定停用词模型,所述停用词包括:连词、副词以及语气词,根据停用词模型从划分了分词的文本数据中去除停用词。
应当理解的是,最后系统会对词干进行还原,即对文本数据的语言进行检测,当文本数据的语言为中文时,将去除了停用词的文本数据为待计算文本数据;当文本数据的语言为外文时,通过还原词干对去除了停用词的文本数据进行还原,将还原之后的文本数据为待计算文本数据,这一步主要是针对外文文本,以英语为例,英语语法的两大特点是时态和大小写,单词会根据时态来做相应的变化以此来完整语义,而大小写则主要是出现在标题、人名、段首、强调等表达场景里,时态和大小写是为了让人们在阅读的时候更好的理解语义,而对于计算机来说,这样会增加单词之间的差异性以及计算复杂度,所以英语文本数据需要将时态还原,大小写统一。
应当理解的是,关键词提取算法包括:
其中,P代表关键词相似度,Ai代表待评测关键词的文本向量,Bi代表本地关键词词库的文本向量,n代表文本总数,i代表文本项数。
S30:根据关键词分数表对待评测关键词进行评测。
应当理解的是,最后,系统会根据关键词分数表获取待评测关键词对应的分数,并计算待评测关键词的总分数作为学生学习心得文本数据的评测分数。
需要说明的是,以上仅为举例说明,并不对本申请的技术方案构成任何限定。
通过上述描述不难发现,本实施例通过获取本地历史关键词数据,根据本地历史关键词数据建立关键词分数表;建立关键词提取算法,获取学生学习心得文本数据,对该学习心得文本数据进行预处理,获取待计算文本数据,通过关键词提取算法从待计算文本数据中提取待评测关键词;根据关键词分数表对待评测关键词进行评测。本实施例通过建立关键词提取算法提取待评测关键词,同时利用建立的关键词分数表对待评测关键词进行评测,能够精确对学生学习心得进行评测,同时也减少了人力消耗。
此外,本发明实施例还提出一种基于大数据的学习心得评测装置。如图3所示,该基于大数据的学习心得评测装置包括:获取模块10、关键词提取模块20、评测模块30。
获取模块10,用于获取本地历史关键词数据,根据本地历史关键词数据建立关键词分数表;
关键词提取模块20,用于建立关键词提取算法,获取学生学习心得文本数据,对该学习心得文本数据进行预处理,获取待计算文本数据,通过关键词提取算法从待计算文本数据中提取待评测关键词;
评测模块30,用于根据关键词分数表对待评测关键词进行评测。
此外,需要说明的是,以上所描述的装置实施例仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于大数据的学习心得评测方法,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质为计算机存储介质,所述计算机存储介质上存储有基于大数据的学习心得评测方法程序,所述基于大数据的学习心得评测方法程序被处理器执行时实现如下操作:
S1,获取本地历史关键词数据,根据本地历史关键词数据建立关键词分数表;
S2,建立关键词提取算法,获取学生学习心得文本数据,对该学习心得文本数据进行预处理,获取待计算文本数据,通过关键词提取算法从待计算文本数据中提取待评测关键词;
S3,根据关键词分数表对待评测关键词进行评测。
进一步地,所述基于大数据的学习心得评测方法程序被处理器执行时还实现如下操作:
获取本地历史关键词数据,所述本地历史关键词数据包括:本地历史关键词、历史关键词对应的类别,所述历史关键词对应的类别包括:语文、数学、地理、物理、化学以及生物,根据历史关键词对应的类别建立不同类别集合,并存储对应的本地历史关键词,根据该不同类别集合建立关键词分数表。
进一步地,所述基于大数据的学习心得评测方法程序被处理器执行时还实现如下操作:
根据历史关键词对应的类别获取对应的课程目录,根据该对应的课程目录建立不同的课程子集合,并存储对应的本地历史关键词。
进一步地,所述基于大数据的学习心得评测方法程序被处理器执行时还实现如下操作:
建立关键词提取算法,获取学生学习心得文本数据,对文本数据进行去干扰符号、分词、去停用词以及还原词干,获取处理之后的文本数据作为待计算文本数据,获取本地关键词词库,通过关键词提取算法利用待计算文本数据以及本地关键词词库中计算关键词相似度,根据相似度将该关键词作为待评测关键词并从待计算文本数据提取对应关键词。
进一步地,所述基于大数据的学习心得评测方法程序被处理器执行时还实现如下操作:
对文本数据进行去干扰符号,所述干扰符号包括:标点符号、换行符号、格式符号以及标签符号,建立分词规则,根据分词规则从去除了干扰符号的文本数据提划分分词,设定停用词模型,所述停用词包括:连词、副词以及语气词,根据停用词模型从划分了分词的文本数据中去除停用词,并对文本数据的语言进行检测,当文本数据的语言为中文时,将去除了停用词的文本数据为待计算文本数据;当文本数据的语言为外文时,通过还原词干对去除了停用词的文本数据进行还原,将还原之后的文本数据为待计算文本数据。
进一步地,所述基于大数据的学习心得评测方法程序被处理器执行时还实现如下操作:
所述关键词提取算法包括:
其中,P代表关键词相似度,Ai代表待评测关键词的文本向量,Bi代表本地关键词词库的文本向量,n代表文本总数,i代表文本项数。
进一步地,所述基于大数据的学习心得评测方法程序被处理器执行时还实现如下操作:
根据关键词分数表获取待评测关键词对应的分数,并计算待评测关键词的总分数作为学生学习心得文本数据的评测分数。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。