CN117668671B

CN117668671B - 一种基于机器学习的教育资源治理方法

Info

Publication number: CN117668671B
Application number: CN202410138573.4A
Authority: CN
Inventors: 邓颜蕙; 贺逸潇; 邓佳棋
Original assignee: Chengdu Technological University CDTU
Current assignee: Chengdu Technological University CDTU
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-04-30
Anticipated expiration: 2044-02-01
Also published as: CN117668671A

Abstract

本发明公开了一种基于机器学习的教育资源治理方法，属于数据处理技术领域，先从目标数据源中采集目标教育资源数据，再进行预处理，从而可以形成便于机器学习的数据，然后结合机器学习算法对预处理之后的目标教育资源数据进行特征识别以及异常分析，最后根据特征识别结果以及异常识别结果进行教育资源的治理，不仅能够避免人工治理存在的处理效率低的问题，还能够对不同的教育资源实现不同的数据治理效果。

Description

一种基于机器学习的教育资源治理方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于机器学习的教育资源治理方法。

背景技术

目前，随着计算机的普及和教育资源领域的不断进步，越来越多的人们采用网络教学平台进行自我学习和自我价值的提升。因此远程教育培训系统得到了大家的广泛应用，它突破了传统面授课教学模式的局限性，为学生和老师提供了更加自由和广阔的教育学习空间。教育资源通常是指用于教育领域的文字数据、视频数据、图像数据以及语音数据等等，通常针对文字数据比较容易进行资源治理，而视频数据、图像数据以及语音数据难以直接分析，因此只能够通过人工进行数据的治理，然而教育资源数据量较大，人工治理实施难度较大且效率较低。

发明内容

本发明提供一种基于机器学习的教育资源治理方法，用以解决现有技术中存在的技术问题。

一种基于机器学习的教育资源治理方法，包括：

从至少一个目标数据源中采集目标教育资源数据，并对所述目标教育资源数据进行预处理，得到预处理之后的目标教育资源数据；

通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别，得到目标教育资源数据所对应的特征识别结果；

通过机器学习算法对预处理之后的目标教育资源数据进行异常识别，得到目标教育资源数据所对应的异常识别结果；

根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果，对目标教育资源数据进行数据治理，完成基于机器学习的教育资源治理。

进一步地，从至少一个目标数据源中采集目标教育资源数据，并对所述目标教育资源数据进行预处理，得到预处理之后的目标教育资源数据，包括：

通过网络爬虫或者API接口从至少一个目标数据源中采集目标教育资源数据，并对所述目标教育资源数据进行数据去重处理、数据过滤处理以及数据修正处理，得到预处理之后的目标教育资源数据。

进一步地，所述数据去重处理，包括：对采集的目标教育资源数据中的重复数据仅保留一份，其余删除；

所述数据过滤处理，包括：按照预设规则对目标教育资源数据进行过滤操作，滤除不符合要求的数据；

所述数据修正处理，包括：当目标教育资源数据与预设数据模板不匹配时，对目标教育资源数据进行补全操作以及归一化操作，以使目标教育资源数据与预设数据模板匹配。

进一步地，通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别，得到目标教育资源数据所对应的特征识别结果，包括：

通过机器学习算法构建第一机器学习模型，并采用优化算法对第一机器学习模型进行优化之后，采用优化之后的第一机器学习模型对预处理之后的目标教育资源数据进行特征提取以及特征识别，得到目标教育资源数据所对应的特征识别结果。

进一步地，通过机器学习算法对预处理之后的目标教育资源数据进行异常识别，得到目标教育资源数据所对应的异常识别结果，包括：

通过机器学习算法构建第二机器学习模型，并采用优化算法对第二机器学习模型进行优化之后，采用优化之后的第二机器学习模型对预处理之后的目标教育资源数据进行异常识别，得到目标教育资源数据所对应的异常识别结果。

进一步地，采用优化算法对第一机器学习模型进行优化与采用优化算法对第二机器学习模型进行优化的过程相同，且均包括：

对待优化的机器学习模型的超参数进行多次随机初始化，得到多个超参数个体；所述待优化的机器学习模型为第一机器学习模型以及第二机器学习模型；

获取每个超参数个体对应的适应度，并根据每个超参数个体对应的适应度选出最优超参数个体；

根据所述最优超参数个体以及每个超参数个体对应的适应度，对每个超参数个体进行更新，得到一次更新后的超参数个体；

采用螺旋引导策略对一次更新后的超参数个体进行二次更新，得到二次更新后的超参数个体；

根据所述最优超参数个体，采用全局跳跃策略对二次更新后的超参数个体进行三次更新，得到三次更新后的超参数个体；

当到达最大优化次数之前，重复执行一次更新、二次更新以及三次更新，直至达到最大优化次数，则根据三次更新后的超参数个体重新确定最优超参数个体，并输出最优超参数个体作为待优化的机器学习模型所对应的最终超参数，完成机器学习模型的优化。

进一步地，根据所述最优超参数个体以及每个超参数个体对应的适应度，对每个超参数个体进行更新，得到一次更新后的超参数个体，包括：

根据超参数个体对应的适应度，确定超参数个体所对应的更新参数为：

其中，表示第t次优化过程中第i个超参数个体所对应的更新参数，i=1,2,…,I，I表示超参数个体的总数，/>表示第一中间参数，/>，/>表示最大优化次数，/>表示第t次优化过程中第i个超参数个体所对应的适应度，/>表示第t次优化过程中第二中间参数，/>，/>表示第t-1次优化过程中第二中间参数，/>=0.01，T表示最大优化次数；

针对第t次优化过程中第i个超参数个体，为其随机匹配一个用于更新的目标个体为；

根据所述最优超参数个体、更新参数以及目标个体，对第i个超参数个体更新为：

其中，表示[0,1]之间服从均匀分布的随机数，/>表示最优超参数个体，/>表示第i个超参数个体，/>表示一次更新后的第i个超参数个体。

进一步地，采用螺旋引导策略对一次更新后的超参数个体进行二次更新，得到二次更新后的超参数个体，包括：

其中，表示第t次优化过程中第j个一次更新后的超参数个体中第d维参数，d=1,2,…,D，D表示超参数个体中维度总数，C表示步长控制因子，/>表示圆周率，/>表示（-1,1）之间的随机数，/>表示第t次优化过程中所有一次更新后的超参数个体的平均个体；

所述步长控制因子C为：

其中，表示最大步长，e表示自然常数。

进一步地，根据所述最优超参数个体，采用全局跳跃策略对二次更新后的超参数个体进行三次更新，得到三次更新后的超参数个体，包括：

其中，表示第t次优化过程中第m个二次更新后的超参数个体，/>表示更新后的/>，/>表示第三中间参数，/>表示常数项，且/>=0.011，/>表示最优超参数个体，/>表示第四中间参数，/>表示（0,1）之间的随机数，/>表示第一控制因子，且/>满足正态分布，N表示正态分布，/>表示第五中间参数，/>，/>表示伽马函数，/>表示圆周率，V表示第二控制因子，且V满足正态分布/>。

进一步地，根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果，对目标教育资源数据进行数据治理，包括：

根据所述目标教育资源数据所对应的特征识别结果，从数据库中匹配所述特征识别结果所对应的第一目标数据治理方案；

根据所述目标教育资源数据所对应的异常识别结果，从数据库中匹配所述异常识别结果所对应的第二目标数据治理方案；

根据所述第一目标数据治理方案以及所述第二目标数据治理方案，对目标教育资源数据进行数据治理。

本发明提供的一种基于机器学习的教育资源治理方法，先从目标数据源中采集目标教育资源数据，再进行预处理，从而可以形成便于机器学习的数据，然后结合机器学习算法对预处理之后的目标教育资源数据进行特征识别以及异常分析，最后根据特征识别结果以及异常识别结果进行教育资源的治理，不仅能够避免人工治理存在的处理效率低的问题，还能够对不同的教育资源实现不同的数据治理效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例提供的一种基于机器学习的教育资源治理方法的流程图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于机器学习的教育资源治理方法，包括：

S101、从至少一个目标数据源中采集目标教育资源数据，并对所述目标教育资源数据进行预处理，得到预处理之后的目标教育资源数据。

目标数据源可以是指工作人员配置的网站，也可以人为输入数据。由于数据类型不同，分析过程也不同。因此，针对同一类型的数据，需要进行预处理，使教育资源数据可以通过机器学习算法进行处理以及识别，从而方便进行教育资源的治理。

S102、通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别，得到目标教育资源数据所对应的特征识别结果。

例如：当目标教育资源数据为文字信息时，特征提取可以为提取文字信息中出现最多的若干关键词，并通过机器学习算法对提取的关键词进行识别，从而可以得到对应的特征识别结果，特征识别结果可以为数据的分类，方便对教育资源进行分类、处理、入库以及其他的治理操作。当目标教育资源数据为图像信息时，特征提取可以为提取图像信息的特征，特征识别可以为对提取的特征进行识别。当教育资源数据为视频数据时，则需要对视频数据进行抽帧处理，然后提取特征，然后对视频数据进行声音识别，将声音转换为文字信息之后，按照文字信息的特征提取方式进行处理，最后将图像特征与文字特征融合在一起（如，拼接为一个特征矩阵，长度不一致的地方补零处理）。针对声音信息，可以将声音转换为文字信息之后，按照文字信息的特征提取方式进行处理。

值得说明的是，由于机器学习算法通常只能对数值信息或者图像信息进行处理，因此需要现将文字信息数值化，从而方便后续的处理。

可选的，分类只是机器学习算法的一方面，还可以设置数据描述，通过数据进行识别，能够有效地找到数据的描述，从而可以实现数据治理。

为了便于理解本发明实施例所述的技术方案，本发明实施例以教育资源中的图像资源为例，对发明构思进行详细描述。

S103、通过机器学习算法对预处理之后的目标教育资源数据进行异常识别，得到目标教育资源数据所对应的异常识别结果。

异常识别是针对异常数据专门设置的一个识别步骤，其处理过程与特征识别结果一致，采用二分类的方式对数据进行识别，从而区分异常资源与正常资源。由于机器学习算法分类数越多，可能导致识别效果的下降，而异常数据往往是不能够使用的，因此需要对异常数据进行识别，使工作人员能够及时对异常数据进行处理，因此本发明实施例单独对异常数据进行识别，从而可以有效地寻找出异常的数据。

同理，异常识别也是一个对数据进行特征提取以及特征识别的过程，因此异常识别的数据处理过程与特征识别过程相同，只是结果存在区别，因此本发明实施例不再进行赘述。

S104、根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果，对目标教育资源数据进行数据治理，完成基于机器学习的教育资源治理。

设置异常识别结果的优先级大于特征识别结果的优先级，先对异常识别结果进行处理，调度预设规则对异常识别结果进行处理（如：删除、标记或者入异常库等等），当异常处理之后，剩余的数据就是正常数据，可以根据特征识别结果对数据进行归类入库、优化、修改等等数据治理操作，从而实现教育资源的治理。

在本实施例中，从至少一个目标数据源中采集目标教育资源数据，并对所述目标教育资源数据进行预处理，得到预处理之后的目标教育资源数据，包括：

通过网络爬虫或者API（Application Program Interface，应用程序接口）接口从至少一个目标数据源中采集目标教育资源数据，并对所述目标教育资源数据进行数据去重处理、数据过滤处理以及数据修正处理，得到预处理之后的目标教育资源数据。

在本实施例中，所述数据去重处理，包括：对采集的目标教育资源数据中的重复数据仅保留一份，其余删除；

例如：图像数据可以滤除纯色图像、乱码图像以及包含敏感数据的图像，文字数据可以滤除包含敏感文字的图像。

在本发明实施例中所述的补全操作表示将同一种类型的数据处理为维度相同的数据，如图像数据处理为尺寸统一的数据，文字信息提取同数量的关键等等。

在本实施例中，通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别，得到目标教育资源数据所对应的特征识别结果，包括：

在本实施例中，通过机器学习算法对预处理之后的目标教育资源数据进行异常识别，得到目标教育资源数据所对应的异常识别结果，包括：

例如，当目标教育资源数据为图像数据时，则第一机器学习模型以及第二机器学习模型均可以为图像分析神经网络（如：卷积神经网络）。

在本实施例中，采用优化算法对第一机器学习模型进行优化与采用优化算法对第二机器学习模型进行优化的过程相同，且均包括：

多次随机初始化可以包括：在每个维度的上限与下限之间，对超参数进行随机初始化一次，得到一个超参数个体，然后多次初始化。

适应度可以将误差函数值去倒获取，为了避免分母为零，可以添加常数项，将适应度最大的超参数个体作为最优超参数个体。

现有技术中通常采用粒子群算法作为智能优化算法对机器学习模型进行训练，而粒子群算法不仅训练效果差，容易陷入局部最优当中，训练速度还较慢，从而需要提出一种改进算法，以提升机器学习模型的效果。

在本实施例中，根据所述最优超参数个体以及每个超参数个体对应的适应度，对每个超参数个体进行更新，得到一次更新后的超参数个体，包括：

本发明实施例对超参数个体的一次更新，能够融合种群信息，实现不同个体之间的区域探索，加强信息交流，实现更多区域的探索，从而增强训练效果。

可选的，可以引入贪心算法对每个更新过程进行控制，从而加快算法的收敛速度。

在本实施例中，采用螺旋引导策略对一次更新后的超参数个体进行二次更新，得到二次更新后的超参数个体，包括：

通过以种群平均位置为基础，进行螺旋搜索策略，不仅能够实现信息融合，还能够以螺旋的方式进行搜索，更利于搜索到全局最优位置。

所述步长控制因子C为：

其中，表示最大步长，e表示自然常数。

引入非线性收敛因子，使得算法在搜索前期，C的值较大且变化缓慢，算法可以更好地进行全局搜索；在算法后期，C的值迅速减小，进行局部的快速搜索，从而加快算法的收敛速度。

在本实施例中，根据所述最优超参数个体，采用全局跳跃策略对二次更新后的超参数个体进行三次更新，得到三次更新后的超参数个体，包括：

虽然一次更新以及二次更新都有一定的全局搜索能力，但是全局搜索能力有限，为了进一步搜索到全局最优值，本发明实施例通过全局跳跃策略跳出局部最优，从而有效地提升算法的搜索能力。

在本实施例中，根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果，对目标教育资源数据进行数据治理，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于机器学习的教育资源治理方法，其特征在于，包括：

根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果，对目标教育资源数据进行数据治理，完成基于机器学习的教育资源治理；

通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别，得到目标教育资源数据所对应的特征识别结果，包括：

通过机器学习算法构建第一机器学习模型，并采用优化算法对第一机器学习模型进行优化之后，采用优化之后的第一机器学习模型对预处理之后的目标教育资源数据进行特征提取以及特征识别，得到目标教育资源数据所对应的特征识别结果；

通过机器学习算法对预处理之后的目标教育资源数据进行异常识别，得到目标教育资源数据所对应的异常识别结果，包括：

通过机器学习算法构建第二机器学习模型，并采用优化算法对第二机器学习模型进行优化之后，采用优化之后的第二机器学习模型对预处理之后的目标教育资源数据进行异常识别，得到目标教育资源数据所对应的异常识别结果；

采用优化算法对第一机器学习模型进行优化与采用优化算法对第二机器学习模型进行优化的过程相同，且均包括：

当到达最大优化次数之前，重复执行一次更新、二次更新以及三次更新，直至达到最大优化次数，则根据三次更新后的超参数个体重新确定最优超参数个体，并输出最优超参数个体作为待优化的机器学习模型所对应的最终超参数，完成机器学习模型的优化；

根据所述最优超参数个体，采用全局跳跃策略对二次更新后的超参数个体进行三次更新，得到三次更新后的超参数个体，包括：

其中，表示第t次优化过程中第m个二次更新后的超参数个体，/>表示更新后的/>，表示第三中间参数，/>表示常数项，且/>=0.011，/>表示最优超参数个体，/>表示第四中间参数，/>表示（0,1）之间的随机数，/>表示第一控制因子，且/>满足正态分布，N表示正态分布，/>表示第五中间参数，/>，/>表示伽马函数，/>表示圆周率，V表示第二控制因子，且V满足正态分布/>。

2.根据权利要求1所述的基于机器学习的教育资源治理方法，其特征在于，从至少一个目标数据源中采集目标教育资源数据，并对所述目标教育资源数据进行预处理，得到预处理之后的目标教育资源数据，包括：

3.根据权利要求2所述的基于机器学习的教育资源治理方法，其特征在于，所述数据去重处理，包括：对采集的目标教育资源数据中的重复数据仅保留一份，其余删除；

4.根据权利要求1所述的基于机器学习的教育资源治理方法，其特征在于，根据所述最优超参数个体以及每个超参数个体对应的适应度，对每个超参数个体进行更新，得到一次更新后的超参数个体，包括：

其中，表示第t次优化过程中第i个超参数个体所对应的更新参数，i=1,2,…,I，I表示超参数个体的总数，/>表示第一中间参数，/>，/>表示最大优化次数，表示第t次优化过程中第i个超参数个体所对应的适应度， />表示第t次优化过程中第二中间参数，/>，/>表示第t-1次优化过程中第二中间参数，/>=0.01，T表示最大优化次数；

5.根据权利要求4所述的基于机器学习的教育资源治理方法，其特征在于，采用螺旋引导策略对一次更新后的超参数个体进行二次更新，得到二次更新后的超参数个体，包括：

所述步长控制因子C为：

其中，表示最大步长，e表示自然常数。

6.根据权利要求1所述的基于机器学习的教育资源治理方法，其特征在于，根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果，对目标教育资源数据进行数据治理，包括：