CN110147552A

CN110147552A - 基于自然语言处理的教育资源质量评价挖掘方法及系统

Info

Publication number: CN110147552A
Application number: CN201910431440.5A
Authority: CN
Inventors: 季一木; 许正阳; 刘强; 刘尚东; 尧海昌; 李奎; 刘艳兰
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-20
Anticipated expiration: 2039-05-22
Also published as: CN110147552B

Abstract

本发明公开了一种基于自然语言处理的教育资源质量评价挖掘方法及系统，首先从海量教育评论数据中使用自然语言处理技术挖掘用户评价观点，以<评价对象,评价词>二元组存储。其次，以<评价对象，评价词>为指标结点建立。然后基于教育资源语料库通过神经网络对词向量进行训练，建立词到向量的模型。再对评价对象进行聚类，再按照floyd算法选出中心向量。接着对评价词进行聚类，生成资源评价指标树，选出的中心向量作为评价指标树的结点，最后对评价词进行情感分析并打分输出。解决了基于众筹众创的数字教育评价数据量过大，人工评价方法成本高、难度大、主观性高等问题。

Description

基于自然语言处理的教育资源质量评价挖掘方法及系统

技术领域

本发明涉及一种数字教育资源质量评价的方法，尤其涉及一种基于自然语言处理的教育资源质量评价挖掘方法及系统。

背景技术

随着互联网技术发展，远程教育发展迅猛，数字化教育资源也在信息化发展过程中起到日益重要的作用。随着大数据时代的到来和教育信息化的不断推进，数字教育资源在数量上呈现‘爆炸式的增长。大数据的提出者麦肯希称:“当今的每一个行业和业务职能领域都已被数据渗透其中,数据已然成为重要的生产因素。”,人们也在挖掘和运用大数据的道路上越走越远。利用大数据的挖掘和分析进行教育资源的质量评价，建设课程质量保障体质，在为用户提供课程质量评价服务的同时，为众筹众创过程中教育资源的质量提供保障。

数字化学习资源也呈现出种类繁杂混乱、可用性缺乏，使用户难以选择的现象。究其原因,主要在于数字化学习资源需要准确的质量评价方法和有效的质量控制机制。如今，在现代教育技术领域已经提出了许多成熟的质量评价框架，Achieve(2011)提出了一种名为OER Rubric的质量评价框架,其中包含8个评价指标；Quality Matters(2014)提出了基于八个评价维度的QM框架。在国内，教育部于2013年提出了国家精品资源共享课评审指标体系；于2010年提出国家精品课程评价指标体系。

虽然，教育质量评价已经有了很成熟的理论框架，但在应用领域仍有许多不足之处。比如教育质量评价无法对教学资源进行定量评价，因为当下的定量评价方法多以问卷的方式实现，问卷带有过多的主观性和非真实性，在质量评价方面有无法弥补的缺陷性。在自动化质量评价方面，2015年，肖奎，李兵等人提出了一种基于用户行为分析的维基百科词条质量评价方法，运用维基百科资源特有的点击量、编辑次数等客观数据进行机器学习的分类。由丽萍等人提出了一种基于自然语言处理和TOPSIS法的质量评价方法，基于酒店的评论数据对酒店的环境、服务等各方面指标进行了质量评价。

据研究表面，当前质量评价在计算机领域的应用主要分为两大类：基于资源自身属性的数据进行机器学习的简单分类；基于自然语言处理的情感分析评价，从而判定词条的质量。前者主要研究教育资源属性方面与教育资源质量的关系，运用机器学习的方法进行简单的分类，后者通过情感分析，使评价者的评论数据化。这些方法在一定程度上提高了质量评价的准确性，拓宽了质量评价的方法。但总体而言，在教育资源质量评价方面的研究仍然处于起步阶段，应用于数字教育资源，基于细粒度评价模型的自动化质量评价方法还有待于研究。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于自然语言处理的，对于用户生成的海量评价自动化处理的教育资源质量评价方法及系统，首先从评论数据集中提取评价搭配二元组，再将二元组向量化，最后分别以评价对象、评价词进行聚类，通过floyd算法确定中心向量值，构建三层评价树，最后用情感分析字典进行打分，解决了基于众筹众创的数字教育评价数据量过大，人工评价方法成本高、难度大、主观性高等问题。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于自然语言处理的教育资源质量评价挖掘方法，其特征在于，包括以下步骤：

步骤1，采集教育资源评价数据，去除无效评论。

步骤2，评价搭配抽取。能够表达用户情感的评价对象和评价短语由多个词语组成，每一组词构成一个<评价对象，评价词>的评价搭配。对评价进行分句，用带权词典构建Trie树，根据Trie树对待分句生成所有可能词为结点组成的有向无环图，通过动态规划法以权值最大的路径输出为分词结果。再对待处理句子进行依存句法分析，然后将满足规则关系的搭配提取为评价搭配二元组，以<评价对象，评价词>的结构保存。

步骤3，将自然语言向量化。word2vec采用的模型包含了连续词袋模型CBOW和Skip-Gram模型。通过word2vec进行高效训练从而得到词向量，词向量之间的距离表示词和词之间的相似程度。

步骤4，构建knn聚类模型。取评价对象向量集合Si，包含i个m种类的评价搭配词向量模型，当第i+1个词向量加入集合时，计算Ci+1与所有向量的余弦相似度sim。确定k的值为N×A，N为元组总数，A这里取1/10，将sim按照从小到大的顺序排序，选取前k个向量tensors，统计这k个向量中所属分类比例最大的，则这个向量属于该分类。

步骤5，选出中心评价对象向量。通过floyd算法计算每一类中所有向量之间的余弦相似度，保存在矩阵S中，S[i][j]表示向量i与向量j的余弦相似度。遍历S选取与其他向量相似度最小的向量作为类别的中心向量。中心向量对应的评价对象则为中心评价对象。

步骤6，选出中心评价词对象。在以评价对象分的每一类中重复步骤5，选出中心词评价向量组。

步骤7，生成评价树。生成以<资源，评价对象，评价词>为结点的评价树，其中，资源为根结点，评价对象为二级结点，评价词为三级结点。

步骤8，对评价词进行情感分析。经过分类统计，得到关于评价对象的情感得分，再通过权重矩阵值得出整个资源的评分。将情感分成两类标签集：消极和积极。对于消极的评价词，我们记作‘-1’，积极的评价词记做‘1’。对于某含有a个中心词的评价对象O，它的评分值属于[-a,a]区间。对于含有x个评价对象的资源，它的评分值属于[-x*a,x*a]。

步骤9，用户偏好矩阵构建。对于x个评价对象，获得用户偏好向量X，有X_i∈(0,1)，用户对某一评价对象偏好越大，相应的X_i值就越大。

步骤10，获得资源评价得分。将评价对象得分向量A与用户偏好向量X点乘，获得最后的资源评价得分。

优选的：步骤1中去除以符号字符为主的无效评论。

优选的：步骤3中采用google开源框架word2vec，加载由大量百科词库训练的模型，将<评价对象，评价词>二元组转化成1×64向量二元组。

优选的：步骤7中对于评价生成树，必须保证每一个上级结点下至少对应一个下级节点。

一种采用基于自然语言处理的教育资源质量评价挖掘方法制成的系统，包括教育资源评价数据输入模块、去除无效评论模块、评价搭配抽取模块、将自然语言向量化模块、构建knn聚类模型模块、选出中心评价对象向量模块、选出中心评价词对象模块、生成评价树模块、对评价词进行情感分析模块、用户偏好矩阵构建模块、获得资源评价得分模块。

本发明相比现有技术，具有以下有益效果：

本发明所提出的基于自然语言处理的自动化数字教育资源质量评价方法，数字教育评价数据量过大，人工评价方法成本高、难度大、主观性高等问题。用户评价转变成评价搭配二元组以后，更加方便直接表现对资源质量进行量化的评价，为用户的个性化选择提供了便利。

附图说明

图1教育资源质量评价挖掘方法流程图

图2评价搭配抽取方法流程图

图3 KNN评价聚类结构

图4评价树结构图

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于自然语言处理的教育资源质量评价挖掘方法，首先从海量教育评论数据中使用自然语言处理技术挖掘用户评价观点，利用依存句法分析对评论进行关联分析，按照提取规则进行评价搭配抽取，以<评价对象,评价词>二元组存储。其次，建立一个教育资源评价二级指标,以<评价对象，评价词>为指标结点建立。然后基于教育资源语料库通过神经网络对词向量进行训练，建立词到向量的模型。再通过knn聚类算法对评价对象进行聚类，根据评价对象向量对数据集进行聚类，再按照floyd算法选出中心向量。接着对评价词进行聚类，生成资源评价指标树，选出的中心向量作为评价指标树的结点，最后对评价词进行情感分析并打分输出。主要是用于解决基于众筹众创的数字教育评价数据量过大，人工评价方法成本高、难度大、主观性高等问题。如图1-4所示，具体包括以下步骤：

步骤1，去除无效评论。面对参差不齐的海量的资源评价数据，首先需要去除没有实际意义的数据，减小无意义的评论数据对实验的干扰。在评价数据集中，会出现较多以符号字符为主的无效评论，这些评论会对实验结果产生影响。所以我们需要先通过正则表达式去除评论中的无用字符。

将步骤1中的方法进行封装，得到去除无效评论模块，用来运行步骤1中的方法。而教育资源评价数据输入模块用于输入教育资源评价数据。

步骤2，第二步评价搭配抽取。能够准确表达用户情感的评价对象和评价短语往往由多个词语组成，每一组词构成一个<评价对象，评价词>的评价搭配。评价往往以短句形式出现，所以首先需要对评价进行分句。用包含着两万多条短语的带权词典构建Trie树，根据Trie树对待分句生成所有可能词为结点组成的有向无环图，通过动态规划法以权值最大的路径输出为分词结果。再对待处理句子进行依存句法分析，基于规则如SBV+{n,v}(SVB为主谓关系，{n,v}为名词加动词的组合)，然后将满足规则关系的搭配提取为评价搭配二元组，以<评价对象，评价词>的结构保存。

将步骤2中的方法进行封装，得到去除无效评论模块，用来运行步骤2中的方法。

步骤3，将自然语言向量化。word2vec采用的模型包含了连续词袋模型(CBOW)和Skip-Gram模型。通过它可以在大数据量上进行高效训练从而得到词向量，向量之间的距离表示词和词之间的相似程度。本专利采用google开源框架word2vec，加载由大量百科词库训练的模型，将<评价对象，评价词>二元组转化成1×64向量二元组。

将步骤3中的方法进行封装，得到将自然语言向量化模块，用来运行步骤3中的方法。

步骤4，构建knn聚类模型。取评价对象向量集合Si，包含i个m种类的评价搭配词向量模型，当第i+1个词向量加入集合时，计算Ci+1与所有向量的余弦相似度sim。确定k的值为N×A(N为元组总数，A这里取1/10)，将sim数组按照从小到大的顺序排序，选取前k个向量tensors，统计这k个向量中所属分类比例最大的，则这个向量属于该分类。

将步骤4中的方法进行封装，得到构建knn聚类模型模块，用来运行步骤4中的方法。

将步骤5中的方法进行封装，得到选出中心评价对象向量模块，用来运行步骤5中的方法。

步骤6，选出中心评价词对象。在以评价对象分的每一类中重复上述步骤，选出中心词评价向量组。

将步骤6中的方法进行封装，得到选出中心评价词对象模块，用来运行步骤6中的方法。

步骤7，生成评价树。生成以<资源，评价对象，评价词>为结点的评价树，其中资源为根结点，评价对象为二级结点，评价词为三级结点。对于评价生成树，必须保证每一个上级结点下至少对应一个下级节点。

将步骤7中的方法进行封装，得到生成评价树模块，用来运行步骤7中的方法。

步骤8，对评价词进行情感分析。经过分类统计，得到关于评价对象的情感得分，再通过权重矩阵值得出整个资源的评分。本专利将情感分成两类标签集：消极和积极。对于消极的评价词，我们记作‘-1’，积极的评价词记做‘1’。对于某含有a个中心词的评价对象O，它的评分值属于[-a,a]区间。对于含有x个评价对象的资源，它的评分值属于[-x*a,x*a]。

将步骤8中的方法进行封装，得到对评价词进行情感分析模块，用来运行步骤8中的方法。

将步骤9中的方法进行封装，得到用户偏好矩阵构建模块，用来运行步骤9中的方法。

将步骤10中的方法进行封装，得到获得资源评价得分模块，用来运行步骤10中的方法。

一种基于自然语言处理的教育资源质量评价挖掘系统，包括教育资源评价数据输入模块、去除无效评论模块、评价搭配抽取模块、将自然语言向量化模块、构建knn聚类模型模块、选出中心评价对象向量模块、选出中心评价词对象模块、生成评价树模块、对评价词进行情感分析模块、用户偏好矩阵构建模块、获得资源评价得分模块。

教育资源质量评价的过程如下所示：

1.首先清洗评论数据集，去除无效评论。

2.将清洗完毕的数据集进行评价搭配抽取，以<评价对象，评价词>二元组保存。

3.将抽取出的二元组通过word2vec模型转化成向量。

4.以评价对象向量为聚类标准对二元组进行聚类，计算中心词向量，获得核心评价对象。

5.在每个不同评价对象集合中通过评价词进行聚类，计算中心词向量，获得核心评价词。

6.对每个评价词进行情感打分，加和输出为评价对象的情感得分。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于自然语言处理的教育资源质量评价挖掘方法，其特征在于，包括以下步骤：

步骤1，采集教育资源评价数据，去除无效评论；

步骤2，评价搭配抽取；能够表达用户情感的评价对象和评价短语由多个词语组成，每一组词构成一个<评价对象，评价词>的评价搭配；对评价进行分句，用带权词典构建Trie树，根据Trie树对待分句生成所有可能词为结点组成的有向无环图，通过动态规划法以权值最大的路径输出为分词结果；再对待处理句子进行依存句法分析，然后将满足规则关系的搭配提取为评价搭配二元组，以<评价对象，评价词>的结构保存；

步骤3，将自然语言向量化；word2vec采用的模型包含了连续词袋模型CBOW和Skip-Gram模型；通过word2vec进行高效训练从而得到词向量，词向量之间的距离表示词和词之间的相似程度；

步骤4，构建knn聚类模型；取评价对象向量集合Si，包含i个m种类的评价搭配词向量模型，当第i+1个词向量加入集合时，计算Ci+1与所有向量的余弦相似度sim；确定k的值为N×A，N为元组总数，A这里取1/10，将sim按照从小到大的顺序排序，选取前k个向量tensors，统计这k个向量中所属分类比例最大的，则这个向量属于该分类；

步骤5，选出中心评价对象向量；通过floyd算法计算每一类中所有向量之间的余弦相似度，保存在矩阵S中，S[i][j]表示向量i与向量j的余弦相似度；遍历S选取与其他向量相似度最小的向量作为类别的中心向量；中心向量对应的评价对象则为中心评价对象；

步骤6，选出中心评价词对象；在以评价对象分的每一类中重复步骤5，选出中心词评价向量组；

步骤7，生成评价树；生成以<资源，评价对象，评价词>为结点的评价树，其中，资源为根结点，评价对象为二级结点，评价词为三级结点；

步骤8，对评价词进行情感分析；经过分类统计，得到关于评价对象的情感得分，再通过权重矩阵值得出整个资源的评分；将情感分成两类标签集：消极和积极；对于消极的评价词，我们记作‘-1’，积极的评价词记做‘1’；对于某含有a个中心词的评价对象O，它的评分值属于[-a,a]区间；对于含有x个评价对象的资源，它的评分值属于[-x*a,x*a]；

步骤9，用户偏好矩阵构建；对于x个评价对象，获得用户偏好向量X，有X_i∈(0,1)，用户对某一评价对象偏好越大，相应的X_i值就越大；

步骤10，获得资源评价得分；将评价对象得分向量A与用户偏好向量X点乘，获得最后的资源评价得分。

2.根据权利要求1所述基于自然语言处理的教育资源质量评价挖掘方法，其特征在于：步骤1中去除以符号字符为主的无效评论。

3.根据权利要求2所述基于自然语言处理的教育资源质量评价挖掘方法，其特征在于：步骤3中采用google开源框架word2vec，加载由大量百科词库训练的模型，将<评价对象，评价词>二元组转化成1×64向量二元组。

4.根据权利要求3所述基于自然语言处理的教育资源质量评价挖掘方法，其特征在于：步骤7中对于评价生成树，必须保证每一个上级结点下至少对应一个下级节点。

5.一种采用权利要求5所述基于自然语言处理的教育资源质量评价挖掘方法制成的系统，其特征在于：包括教育资源评价数据输入模块、去除无效评论模块、评价搭配抽取模块、将自然语言向量化模块、构建knn聚类模型模块、选出中心评价对象向量模块、选出中心评价词对象模块、生成评价树模块、对评价词进行情感分析模块、用户偏好矩阵构建模块、获得资源评价得分模块。