CN110765872A

CN110765872A - 一种基于视觉特征的在线数学教育资源分类方法

Info

Publication number: CN110765872A
Application number: CN201910886337.XA
Authority: CN
Inventors: 陈彦呈; 陈湘萍; 周凡; 郑贵锋; 林谋广
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-07

Abstract

本发明公开了一种基于视觉特征的在线数学教育资源分类方法。本发明根据数学教育资源数据，确定资源分类类别，并对数据进行解析，提取文本特征以及提取图形特征；将所述文本特征与图形特征进行向量化，并输入到随机森林模型中进行训练，得到训练好的模型后对未分类的数学教育资源进行分类。本发明利用机器学习的方法进行大量在线数学教育资源的分类，能有效地降低人力时间成本，同时能实时地对用户上传的资源进行分类。借助该方法，用户无需自己为上传的资源做分类工作，资源管理系统也无需聘请额外的人员做资源分类工作，同时，当训练的数据越多，利用机器学习进行分类的准确率也越高，且相比于手工分类而言花费的时间成本也越少。

Description

一种基于视觉特征的在线数学教育资源分类方法

技术领域

本发明涉及机器学习领域，具体涉及一种基于视觉特征的在线数学教育资源分类方法。

背景技术

随着网络技术的飞速发展，互联网上存在着各种教育资源，如电子教材、课程视频、在线课件等。这些资源通常有自己的特点以吸引用户群。随着这些资源的增加，从众多混乱的资源中寻找用户需求的那一份变得十分困难。因此，有必要建立一个高效的资源分类系统，针对资源内容等特点，准确地为教育资源分好类别。然而，传统的分类系统性能很大程度上依赖于人工标注的训练样本，而利用宝贵的人力资源去标注海量且不断增长的样本是不可取的。因此做出一个同时具备快速学习与准确分类的资源分类系统有着非常重要的实用价值。

近年来，机器学习受到了社会的广泛关注。通俗而言，机器学习就是计算机从海量数据中自动分析找出规律，对未知数据进行预测。它与传统的编程不同，只需要通过对大量数据的分析，从中找出内部复杂的结构特征，进而得到其与结果的联系。换而言之，它更关注于数据的趋势而非编程逻辑。随着机器学习的发展，作为其重要研究课题之一的分类问题，人们对它的研究已十分深入，提出了许多分类模型及算法如朴素贝叶斯、Logistic回归、决策树、SVM等，也广泛应用于现实生活中的各种问题。同时基于不同的样本具有的特征，也有着相应的推荐方案，可以说，机器学习能解决大部分的分类问题，只需要找到合适的特征集并选择恰当的模型，就能较好地反应数据与结果之间的联系。

随机森林是一个由一系列弱分类器组成的强分类器，每一个弱分类器都是一棵决策树，相互之间是没有关联的，且都需要为输入变量的类别归属进行预测。随机森林通过Bagging方法生成相互之间有差异的不同训练样本集，采用分类回归作为元分类器构建集成分类器，用简单多数投票结果作为分类结果。

现有的技术为市面上的在线数学教育资源管理系统，其一般都会将用户上传的资源进行分类管理，然后根据用户的需求进行资源的推荐等。这种分类一般是系统后台人员对这些资源手工分类，又或者是用户在上传时为自己的资源设置好资源类别，待系统检查后再对资源进行管理。

该技术的缺点在于：

对在线数学教育资源进行手工分类，会消耗大量的时间精力，增加系统运营成本，而且得到的分类好的资源数量也很少，难以构成一个较为完备的资源管理系统。让用户自己为资源打好标签再上传到系统则会增加用户的负担，降低用户体验，使得系统的收益减少，不利于系统的健康发展。而且对用户上传的资源还需要进一步的检查，确保类别的正确性，导致系统实际运行效率降低。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于视觉特征的在线数学教育资源分类方法。本发明解决的主要问题是，如何提供一种自动分类在线数学教育资源的方法，保证训练成本较低的情况下，正确地对数学教育资源进行分类，以降低在线资源管理平台的运营成本；如何自动地为用户上传的数学教育资源进行标签判断与验证，保证资源管理系统内资源的有效性与正确性，同时减少用户的工作量。

为了解决上述问题，本发明提出了一种基于视觉特征的在线数学教育资源分类方法，所述方法包括：

根据数学教育资源数据，确定资源分类类别，并对数据进行解析，提取文本特征以及提取图形特征；

将所述文本特征与图形特征进行向量化，并输入到随机森林模型中进行训练，得到训练好的模型后对未分类的数学教育资源进行分类。

优选地，所述提取文本特征，具体包括：

利用最新的数学教科书内容，对这些内容进行转码查错等工作后得到易于处理的文档，然后根据教科书的章节将它们分成不同的文本块；

对每一个文本块分别进行分词后，删除一些常用的停止词与无意义词汇，最后利用隐含狄利克雷分布(LDA)技术提取每一章中有效的关键词，从而得到分类所需的文本特征集合。

优选地，所述提取图形特征，具体包括：

从数学教育资源数据中提取出每个基础图形元素的名称，并将其作为最简单的特征；

提取出资源中由简单图形在一定的情况下组合成的更为复杂的图形，如多边形、坐标系等；

提取出资源中如旋转、平移等的动态图形。

本发明提出的一种基于视觉特征的在线数学教育资源分类方法，利用机器学习的方法进行大量在线数学教育资源的分类，能有效地降低人力时间成本，同时能实时地对用户上传的资源进行分类。借助该方法，用户无需自己为上传的资源做分类工作，资源管理系统也无需聘请额外的人员做资源分类工作，同时，当训练的数据越多，利用机器学习进行分类的准确率也越高，且相比于手工分类而言花费的时间成本也越少。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的在线数学教育资源分类方法总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的在线数学教育资源分类方法总体流程图，如图1所示，该方法包括：

S1，根据数学教育资源数据，确定资源分类类别，并对数据进行解析，提取文本特征以及提取图形特征；

S2，将S1得到的文本特征与图形特征进行向量化，并输入到随机森林模型中进行训练，得到训练好的模型后对未分类的数学教育资源进行分类。

步骤S1，具体如下：

S1-1，对获取到的数学教育资源数据进行解析，利用正则表达式抽取数据中的文字信息，并根据数据格式提取资源中的图形信息，比如：以JSON格式存储的资源可以通过遍历搜索的方式获取图形信息；以图像格式存储的资源可以通过图像识别的方式识别出资源所包含的图形，等等；同时，统一地将最新的数学教科书的目录项作为数学教育资源的类别集合；

S1-2，提取文本特征：

使用隐含狄利克雷分布(LDA)提取教科书的每一章的关键词，并将其作为教科书各章节的文本特征，用以提取教育资源中的文本属性。具体为：得到最新的数学教科书内容后，对这些资源内容进行转码查错等工作后得到易于处理的文档，然后根据教科书的章节将它们分成不同的文本块。其次，对每一个文本块分别进行分词后，删除一些常用的停止词与无意义词汇，最后利用LDA技术提取每一章中有效的关键词，从而得到了分类所需的文本特征集合。由于在线教育资源中出现的文本通常只是一些简单短小的文本，所以很难提取到其中最关键的信息。本专利在获取资源的文本特征时只判断从教科书中提取的关键词是否出现在这些短文本中，若出现，则将其作为该教育资源的文本特征之一。

S1-3，提取图形特征：

解析S1-1中得到的图形信息，提取资源的图形特征，具体为：图形特征可分为三个层次。第一层次是一些简单的图形，如点、线等。一般而言，这一类图形是构成整个资源内容的基础部分。对于不同的数学教育资源，其内容存储方式通常是不一样的，因此提取图形特征的方法也不完全一致。但殊途同归，每种资源都能以特定的解析方式得到这些简单的图形。本方法从数学教育资源数据中提取出每个基础元素的名称，并将其作为最简单的特征。

其次，层次一中的简单图形在一定的情况下可以组合成一个更为复杂的图形，如多边形、坐标系等。这种组合考虑了资源中每个元素的关系，避免因基础元素相同而导致的误判问题。比如四个点与四条线段可以构成一个四边形，也可以构成一个三角形与它的高，这样的分类问题单纯依靠第一层次的特征是不足够的。

最后，资源中的图形还有可能是动态的，如旋转、平移等。这些动态图形特征也需要被提取。一般来说，这一层次的特征需要根据不同的资源种类进行不同的处理。比如有一些静态的资源如电子辅导书就不存在这种特征。而比如数学教学视频等由多个帧构成的资源中，这一类特征可能便需要利用图像识别等手段进行动态特征的提取。而更多教学资源会以动静态结合的形式存在如教学课件等，通常而言这一部分资源中会存在与动画播放相关的元素或函数。

步骤S2，具体如下：

S2-1，将S1-2与S1-3得到的文本特征与图形特征进行整合并选择，得到特征列表L，并将其以数组的形式进行保存，数组索引i代表特征列表的第i项，数组以0和1构成，0代表该资源不具有该项特征而1代表该资源具有该项特征；

S2-2，将S1-1得到的类型集合映射成枚举值，根据S2-1得到的特征列表对资源数据进行处理，得到资源的特征向量集合，将其作为随机森林模型的输入，并训练模型；

S2-3，利用S2-2得到的随机森林模型对未分类的资源进行类别判断。

本发明实施例提出的一种基于视觉特征的在线数学教育资源分类方法，利用机器学习的方法进行大量在线数学教育资源的分类，能有效地降低人力时间成本，同时能实时地对用户上传的资源进行分类。借助该方法，用户无需自己为上传的资源做分类工作，资源管理系统也无需聘请额外的人员做资源分类工作，同时，当训练的数据越多，利用机器学习进行分类的准确率也越高，且相比于手工分类而言花费的时间成本也越少。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于视觉特征的在线数学教育资源分类方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视觉特征的在线数学教育资源分类方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种基于视觉特征的在线数学教育资源分类方法，其特征在于，所述提取文本特征，具体包括：

3.如权利要求1所述的一种基于视觉特征的在线数学教育资源分类方法，其特征在于，所述提取图形特征，具体包括：

提取出资源中如旋转、平移等的动态图形。