CN117668671B - 一种基于机器学习的教育资源治理方法 - Google Patents
一种基于机器学习的教育资源治理方法 Download PDFInfo
- Publication number
- CN117668671B CN117668671B CN202410138573.4A CN202410138573A CN117668671B CN 117668671 B CN117668671 B CN 117668671B CN 202410138573 A CN202410138573 A CN 202410138573A CN 117668671 B CN117668671 B CN 117668671B
- Authority
- CN
- China
- Prior art keywords
- super
- educational resource
- data
- target
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 91
- 238000007726 management method Methods 0.000 title claims description 15
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 50
- 238000005457 optimization Methods 0.000 claims description 41
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 238000013523 data management Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 6
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000002789 length control Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于机器学习的教育资源治理方法,属于数据处理技术领域,先从目标数据源中采集目标教育资源数据,再进行预处理,从而可以形成便于机器学习的数据,然后结合机器学习算法对预处理之后的目标教育资源数据进行特征识别以及异常分析,最后根据特征识别结果以及异常识别结果进行教育资源的治理,不仅能够避免人工治理存在的处理效率低的问题,还能够对不同的教育资源实现不同的数据治理效果。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种基于机器学习的教育资源治理方法。
背景技术
目前,随着计算机的普及和教育资源领域的不断进步,越来越多的人们采用网络教学平台进行自我学习和自我价值的提升。因此远程教育培训系统得到了大家的广泛应用,它突破了传统面授课教学模式的局限性,为学生和老师提供了更加自由和广阔的教育学习空间。教育资源通常是指用于教育领域的文字数据、视频数据、图像数据以及语音数据等等,通常针对文字数据比较容易进行资源治理,而视频数据、图像数据以及语音数据难以直接分析,因此只能够通过人工进行数据的治理,然而教育资源数据量较大,人工治理实施难度较大且效率较低。
发明内容
本发明提供一种基于机器学习的教育资源治理方法,用以解决现有技术中存在的技术问题。
一种基于机器学习的教育资源治理方法,包括:
从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行预处理,得到预处理之后的目标教育资源数据;
通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果;
通过机器学习算法对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果;
根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果,对目标教育资源数据进行数据治理,完成基于机器学习的教育资源治理。
进一步地,从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行预处理,得到预处理之后的目标教育资源数据,包括:
通过网络爬虫或者API接口从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行数据去重处理、数据过滤处理以及数据修正处理,得到预处理之后的目标教育资源数据。
进一步地,所述数据去重处理,包括:对采集的目标教育资源数据中的重复数据仅保留一份,其余删除;
所述数据过滤处理,包括:按照预设规则对目标教育资源数据进行过滤操作,滤除不符合要求的数据;
所述数据修正处理,包括:当目标教育资源数据与预设数据模板不匹配时,对目标教育资源数据进行补全操作以及归一化操作,以使目标教育资源数据与预设数据模板匹配。
进一步地,通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果,包括:
通过机器学习算法构建第一机器学习模型,并采用优化算法对第一机器学习模型进行优化之后,采用优化之后的第一机器学习模型对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果。
进一步地,通过机器学习算法对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果,包括:
通过机器学习算法构建第二机器学习模型,并采用优化算法对第二机器学习模型进行优化之后,采用优化之后的第二机器学习模型对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果。
进一步地,采用优化算法对第一机器学习模型进行优化与采用优化算法对第二机器学习模型进行优化的过程相同,且均包括:
对待优化的机器学习模型的超参数进行多次随机初始化,得到多个超参数个体;所述待优化的机器学习模型为第一机器学习模型以及第二机器学习模型;
获取每个超参数个体对应的适应度,并根据每个超参数个体对应的适应度选出最优超参数个体;
根据所述最优超参数个体以及每个超参数个体对应的适应度,对每个超参数个体进行更新,得到一次更新后的超参数个体;
采用螺旋引导策略对一次更新后的超参数个体进行二次更新,得到二次更新后的超参数个体;
根据所述最优超参数个体,采用全局跳跃策略对二次更新后的超参数个体进行三次更新,得到三次更新后的超参数个体;
当到达最大优化次数之前,重复执行一次更新、二次更新以及三次更新,直至达到最大优化次数,则根据三次更新后的超参数个体重新确定最优超参数个体,并输出最优超参数个体作为待优化的机器学习模型所对应的最终超参数,完成机器学习模型的优化。
进一步地,根据所述最优超参数个体以及每个超参数个体对应的适应度,对每个超参数个体进行更新,得到一次更新后的超参数个体,包括:
根据超参数个体对应的适应度,确定超参数个体所对应的更新参数为:
其中,表示第t次优化过程中第i个超参数个体所对应的更新参数,i=1,2,…,I,I表示超参数个体的总数,/>表示第一中间参数,/>,/>表示最大优化次数,/>表示第t次优化过程中第i个超参数个体所对应的适应度,/>表示第t次优化过程中第二中间参数,/>,/>表示第t-1次优化过程中第二中间参数,/>=0.01,T表示最大优化次数;
针对第t次优化过程中第i个超参数个体,为其随机匹配一个用于更新的目标个体为;
根据所述最优超参数个体、更新参数以及目标个体,对第i个超参数个体更新为:
其中,表示[0,1]之间服从均匀分布的随机数,/>表示最优超参数个体,/>表示第i个超参数个体,/>表示一次更新后的第i个超参数个体。
进一步地,采用螺旋引导策略对一次更新后的超参数个体进行二次更新,得到二次更新后的超参数个体,包括:
其中,表示第t次优化过程中第j个一次更新后的超参数个体中第d维参数,d=1,2,…,D,D表示超参数个体中维度总数,C表示步长控制因子,/>表示圆周率,/>表示(-1,1)之间的随机数,/>表示第t次优化过程中所有一次更新后的超参数个体的平均个体;
所述步长控制因子C为:
其中,表示最大步长,e表示自然常数。
进一步地,根据所述最优超参数个体,采用全局跳跃策略对二次更新后的超参数个体进行三次更新,得到三次更新后的超参数个体,包括:
其中,表示第t次优化过程中第m个二次更新后的超参数个体,/>表示更新后的/>,/>表示第三中间参数,/>表示常数项,且/>=0.011,/>表示最优超参数个体,/>表示第四中间参数,/>表示(0,1)之间的随机数,/>表示第一控制因子,且/>满足正态分布,N表示正态分布,/>表示第五中间参数,/>,/>表示伽马函数,/>表示圆周率,V表示第二控制因子,且V满足正态分布/>。
进一步地,根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果,对目标教育资源数据进行数据治理,包括:
根据所述目标教育资源数据所对应的特征识别结果,从数据库中匹配所述特征识别结果所对应的第一目标数据治理方案;
根据所述目标教育资源数据所对应的异常识别结果,从数据库中匹配所述异常识别结果所对应的第二目标数据治理方案;
根据所述第一目标数据治理方案以及所述第二目标数据治理方案,对目标教育资源数据进行数据治理。
本发明提供的一种基于机器学习的教育资源治理方法,先从目标数据源中采集目标教育资源数据,再进行预处理,从而可以形成便于机器学习的数据,然后结合机器学习算法对预处理之后的目标教育资源数据进行特征识别以及异常分析,最后根据特征识别结果以及异常识别结果进行教育资源的治理,不仅能够避免人工治理存在的处理效率低的问题,还能够对不同的教育资源实现不同的数据治理效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的一种基于机器学习的教育资源治理方法的流程图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于机器学习的教育资源治理方法,包括:
S101、从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行预处理,得到预处理之后的目标教育资源数据。
目标数据源可以是指工作人员配置的网站,也可以人为输入数据。由于数据类型不同,分析过程也不同。因此,针对同一类型的数据,需要进行预处理,使教育资源数据可以通过机器学习算法进行处理以及识别,从而方便进行教育资源的治理。
S102、通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果。
例如:当目标教育资源数据为文字信息时,特征提取可以为提取文字信息中出现最多的若干关键词,并通过机器学习算法对提取的关键词进行识别,从而可以得到对应的特征识别结果,特征识别结果可以为数据的分类,方便对教育资源进行分类、处理、入库以及其他的治理操作。当目标教育资源数据为图像信息时,特征提取可以为提取图像信息的特征,特征识别可以为对提取的特征进行识别。当教育资源数据为视频数据时,则需要对视频数据进行抽帧处理,然后提取特征,然后对视频数据进行声音识别,将声音转换为文字信息之后,按照文字信息的特征提取方式进行处理,最后将图像特征与文字特征融合在一起(如,拼接为一个特征矩阵,长度不一致的地方补零处理)。针对声音信息,可以将声音转换为文字信息之后,按照文字信息的特征提取方式进行处理。
值得说明的是,由于机器学习算法通常只能对数值信息或者图像信息进行处理,因此需要现将文字信息数值化,从而方便后续的处理。
可选的,分类只是机器学习算法的一方面,还可以设置数据描述,通过数据进行识别,能够有效地找到数据的描述,从而可以实现数据治理。
为了便于理解本发明实施例所述的技术方案,本发明实施例以教育资源中的图像资源为例,对发明构思进行详细描述。
S103、通过机器学习算法对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果。
异常识别是针对异常数据专门设置的一个识别步骤,其处理过程与特征识别结果一致,采用二分类的方式对数据进行识别,从而区分异常资源与正常资源。由于机器学习算法分类数越多,可能导致识别效果的下降,而异常数据往往是不能够使用的,因此需要对异常数据进行识别,使工作人员能够及时对异常数据进行处理,因此本发明实施例单独对异常数据进行识别,从而可以有效地寻找出异常的数据。
同理,异常识别也是一个对数据进行特征提取以及特征识别的过程,因此异常识别的数据处理过程与特征识别过程相同,只是结果存在区别,因此本发明实施例不再进行赘述。
S104、根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果,对目标教育资源数据进行数据治理,完成基于机器学习的教育资源治理。
设置异常识别结果的优先级大于特征识别结果的优先级,先对异常识别结果进行处理,调度预设规则对异常识别结果进行处理(如:删除、标记或者入异常库等等),当异常处理之后,剩余的数据就是正常数据,可以根据特征识别结果对数据进行归类入库、优化、修改等等数据治理操作,从而实现教育资源的治理。
在本实施例中,从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行预处理,得到预处理之后的目标教育资源数据,包括:
通过网络爬虫或者API(Application Program Interface,应用程序接口)接口从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行数据去重处理、数据过滤处理以及数据修正处理,得到预处理之后的目标教育资源数据。
在本实施例中,所述数据去重处理,包括:对采集的目标教育资源数据中的重复数据仅保留一份,其余删除;
所述数据过滤处理,包括:按照预设规则对目标教育资源数据进行过滤操作,滤除不符合要求的数据;
例如:图像数据可以滤除纯色图像、乱码图像以及包含敏感数据的图像,文字数据可以滤除包含敏感文字的图像。
所述数据修正处理,包括:当目标教育资源数据与预设数据模板不匹配时,对目标教育资源数据进行补全操作以及归一化操作,以使目标教育资源数据与预设数据模板匹配。
在本发明实施例中所述的补全操作表示将同一种类型的数据处理为维度相同的数据,如图像数据处理为尺寸统一的数据,文字信息提取同数量的关键等等。
在本实施例中,通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果,包括:
通过机器学习算法构建第一机器学习模型,并采用优化算法对第一机器学习模型进行优化之后,采用优化之后的第一机器学习模型对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果。
在本实施例中,通过机器学习算法对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果,包括:
通过机器学习算法构建第二机器学习模型,并采用优化算法对第二机器学习模型进行优化之后,采用优化之后的第二机器学习模型对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果。
例如,当目标教育资源数据为图像数据时,则第一机器学习模型以及第二机器学习模型均可以为图像分析神经网络(如:卷积神经网络)。
在本实施例中,采用优化算法对第一机器学习模型进行优化与采用优化算法对第二机器学习模型进行优化的过程相同,且均包括:
对待优化的机器学习模型的超参数进行多次随机初始化,得到多个超参数个体;所述待优化的机器学习模型为第一机器学习模型以及第二机器学习模型;
多次随机初始化可以包括:在每个维度的上限与下限之间,对超参数进行随机初始化一次,得到一个超参数个体,然后多次初始化。
获取每个超参数个体对应的适应度,并根据每个超参数个体对应的适应度选出最优超参数个体;
适应度可以将误差函数值去倒获取,为了避免分母为零,可以添加常数项,将适应度最大的超参数个体作为最优超参数个体。
根据所述最优超参数个体以及每个超参数个体对应的适应度,对每个超参数个体进行更新,得到一次更新后的超参数个体;
采用螺旋引导策略对一次更新后的超参数个体进行二次更新,得到二次更新后的超参数个体;
根据所述最优超参数个体,采用全局跳跃策略对二次更新后的超参数个体进行三次更新,得到三次更新后的超参数个体;
当到达最大优化次数之前,重复执行一次更新、二次更新以及三次更新,直至达到最大优化次数,则根据三次更新后的超参数个体重新确定最优超参数个体,并输出最优超参数个体作为待优化的机器学习模型所对应的最终超参数,完成机器学习模型的优化。
现有技术中通常采用粒子群算法作为智能优化算法对机器学习模型进行训练,而粒子群算法不仅训练效果差,容易陷入局部最优当中,训练速度还较慢,从而需要提出一种改进算法,以提升机器学习模型的效果。
在本实施例中,根据所述最优超参数个体以及每个超参数个体对应的适应度,对每个超参数个体进行更新,得到一次更新后的超参数个体,包括:
根据超参数个体对应的适应度,确定超参数个体所对应的更新参数为:
其中,表示第t次优化过程中第i个超参数个体所对应的更新参数,i=1,2,…,I,I表示超参数个体的总数,/>表示第一中间参数,/>,/>表示最大优化次数,/>表示第t次优化过程中第i个超参数个体所对应的适应度,/>表示第t次优化过程中第二中间参数,/>,/>表示第t-1次优化过程中第二中间参数,/>=0.01,T表示最大优化次数;
针对第t次优化过程中第i个超参数个体,为其随机匹配一个用于更新的目标个体为;
根据所述最优超参数个体、更新参数以及目标个体,对第i个超参数个体更新为:
其中,表示[0,1]之间服从均匀分布的随机数,/>表示最优超参数个体,/>表示第i个超参数个体,/>表示一次更新后的第i个超参数个体。
本发明实施例对超参数个体的一次更新,能够融合种群信息,实现不同个体之间的区域探索,加强信息交流,实现更多区域的探索,从而增强训练效果。
可选的,可以引入贪心算法对每个更新过程进行控制,从而加快算法的收敛速度。
在本实施例中,采用螺旋引导策略对一次更新后的超参数个体进行二次更新,得到二次更新后的超参数个体,包括:
其中,表示第t次优化过程中第j个一次更新后的超参数个体中第d维参数,d=1,2,…,D,D表示超参数个体中维度总数,C表示步长控制因子,/>表示圆周率,/>表示(-1,1)之间的随机数,/>表示第t次优化过程中所有一次更新后的超参数个体的平均个体;
通过以种群平均位置为基础,进行螺旋搜索策略,不仅能够实现信息融合,还能够以螺旋的方式进行搜索,更利于搜索到全局最优位置。
所述步长控制因子C为:
其中,表示最大步长,e表示自然常数。
引入非线性收敛因子,使得算法在搜索前期,C的值较大且变化缓慢,算法可以更好地进行全局搜索;在算法后期,C的值迅速减小,进行局部的快速搜索,从而加快算法的收敛速度。
在本实施例中,根据所述最优超参数个体,采用全局跳跃策略对二次更新后的超参数个体进行三次更新,得到三次更新后的超参数个体,包括:
其中,表示第t次优化过程中第m个二次更新后的超参数个体,/>表示更新后的/>,/>表示第三中间参数,/>表示常数项,且/>=0.011,/>表示最优超参数个体,/>表示第四中间参数,/>表示(0,1)之间的随机数,/>表示第一控制因子,且/>满足正态分布,N表示正态分布,/>表示第五中间参数,/>,/>表示伽马函数,/>表示圆周率,V表示第二控制因子,且V满足正态分布/>。
虽然一次更新以及二次更新都有一定的全局搜索能力,但是全局搜索能力有限,为了进一步搜索到全局最优值,本发明实施例通过全局跳跃策略跳出局部最优,从而有效地提升算法的搜索能力。
在本实施例中,根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果,对目标教育资源数据进行数据治理,包括:
根据所述目标教育资源数据所对应的特征识别结果,从数据库中匹配所述特征识别结果所对应的第一目标数据治理方案;
根据所述目标教育资源数据所对应的异常识别结果,从数据库中匹配所述异常识别结果所对应的第二目标数据治理方案;
根据所述第一目标数据治理方案以及所述第二目标数据治理方案,对目标教育资源数据进行数据治理。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种基于机器学习的教育资源治理方法,其特征在于,包括:
从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行预处理,得到预处理之后的目标教育资源数据;
通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果;
通过机器学习算法对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果;
根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果,对目标教育资源数据进行数据治理,完成基于机器学习的教育资源治理;
通过机器学习算法对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果,包括:
通过机器学习算法构建第一机器学习模型,并采用优化算法对第一机器学习模型进行优化之后,采用优化之后的第一机器学习模型对预处理之后的目标教育资源数据进行特征提取以及特征识别,得到目标教育资源数据所对应的特征识别结果;
通过机器学习算法对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果,包括:
通过机器学习算法构建第二机器学习模型,并采用优化算法对第二机器学习模型进行优化之后,采用优化之后的第二机器学习模型对预处理之后的目标教育资源数据进行异常识别,得到目标教育资源数据所对应的异常识别结果;
采用优化算法对第一机器学习模型进行优化与采用优化算法对第二机器学习模型进行优化的过程相同,且均包括:
对待优化的机器学习模型的超参数进行多次随机初始化,得到多个超参数个体;所述待优化的机器学习模型为第一机器学习模型以及第二机器学习模型;
获取每个超参数个体对应的适应度,并根据每个超参数个体对应的适应度选出最优超参数个体;
根据所述最优超参数个体以及每个超参数个体对应的适应度,对每个超参数个体进行更新,得到一次更新后的超参数个体;
采用螺旋引导策略对一次更新后的超参数个体进行二次更新,得到二次更新后的超参数个体;
根据所述最优超参数个体,采用全局跳跃策略对二次更新后的超参数个体进行三次更新,得到三次更新后的超参数个体;
当到达最大优化次数之前,重复执行一次更新、二次更新以及三次更新,直至达到最大优化次数,则根据三次更新后的超参数个体重新确定最优超参数个体,并输出最优超参数个体作为待优化的机器学习模型所对应的最终超参数,完成机器学习模型的优化;
根据所述最优超参数个体,采用全局跳跃策略对二次更新后的超参数个体进行三次更新,得到三次更新后的超参数个体,包括:
其中,表示第t次优化过程中第m个二次更新后的超参数个体,/>表示更新后的/>,表示第三中间参数,/>表示常数项,且/>=0.011,/>表示最优超参数个体,/>表示第四中间参数,/>表示(0,1)之间的随机数,/>表示第一控制因子,且/>满足正态分布,N表示正态分布,/>表示第五中间参数,/>,/>表示伽马函数,/>表示圆周率,V表示第二控制因子,且V满足正态分布/>。
2.根据权利要求1所述的基于机器学习的教育资源治理方法,其特征在于,从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行预处理,得到预处理之后的目标教育资源数据,包括:
通过网络爬虫或者API接口从至少一个目标数据源中采集目标教育资源数据,并对所述目标教育资源数据进行数据去重处理、数据过滤处理以及数据修正处理,得到预处理之后的目标教育资源数据。
3.根据权利要求2所述的基于机器学习的教育资源治理方法,其特征在于,所述数据去重处理,包括:对采集的目标教育资源数据中的重复数据仅保留一份,其余删除;
所述数据过滤处理,包括:按照预设规则对目标教育资源数据进行过滤操作,滤除不符合要求的数据;
所述数据修正处理,包括:当目标教育资源数据与预设数据模板不匹配时,对目标教育资源数据进行补全操作以及归一化操作,以使目标教育资源数据与预设数据模板匹配。
4.根据权利要求1所述的基于机器学习的教育资源治理方法,其特征在于,根据所述最优超参数个体以及每个超参数个体对应的适应度,对每个超参数个体进行更新,得到一次更新后的超参数个体,包括:
根据超参数个体对应的适应度,确定超参数个体所对应的更新参数为:
其中,表示第t次优化过程中第i个超参数个体所对应的更新参数,i=1,2,…,I,I表示超参数个体的总数,/>表示第一中间参数,/>,/>表示最大优化次数,表示第t次优化过程中第i个超参数个体所对应的适应度, />表示第t次优化过程中第二中间参数,/>,/>表示第t-1次优化过程中第二中间参数,/>=0.01,T表示最大优化次数;
针对第t次优化过程中第i个超参数个体,为其随机匹配一个用于更新的目标个体为;
根据所述最优超参数个体、更新参数以及目标个体,对第i个超参数个体更新为:
其中,表示[0,1]之间服从均匀分布的随机数,/>表示最优超参数个体,/>表示第i个超参数个体,/>表示一次更新后的第i个超参数个体。
5.根据权利要求4所述的基于机器学习的教育资源治理方法,其特征在于,采用螺旋引导策略对一次更新后的超参数个体进行二次更新,得到二次更新后的超参数个体,包括:
其中,表示第t次优化过程中第j个一次更新后的超参数个体中第d维参数,d=1,2,…,D,D表示超参数个体中维度总数,C表示步长控制因子,/>表示圆周率,/>表示(-1,1)之间的随机数,/>表示第t次优化过程中所有一次更新后的超参数个体的平均个体;
所述步长控制因子C为:
其中,表示最大步长,e表示自然常数。
6.根据权利要求1所述的基于机器学习的教育资源治理方法,其特征在于,根据所述目标教育资源数据所对应的特征识别结果以及异常识别结果,对目标教育资源数据进行数据治理,包括:
根据所述目标教育资源数据所对应的特征识别结果,从数据库中匹配所述特征识别结果所对应的第一目标数据治理方案;
根据所述目标教育资源数据所对应的异常识别结果,从数据库中匹配所述异常识别结果所对应的第二目标数据治理方案;
根据所述第一目标数据治理方案以及所述第二目标数据治理方案,对目标教育资源数据进行数据治理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410138573.4A CN117668671B (zh) | 2024-02-01 | 2024-02-01 | 一种基于机器学习的教育资源治理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410138573.4A CN117668671B (zh) | 2024-02-01 | 2024-02-01 | 一种基于机器学习的教育资源治理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117668671A CN117668671A (zh) | 2024-03-08 |
CN117668671B true CN117668671B (zh) | 2024-04-30 |
Family
ID=90084729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410138573.4A Active CN117668671B (zh) | 2024-02-01 | 2024-02-01 | 一种基于机器学习的教育资源治理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117668671B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949079A (zh) * | 2019-03-04 | 2019-06-28 | 王汝平 | 基于贝叶斯网络模型的产品市场报告生成方法、装置 |
CN111695668A (zh) * | 2020-06-16 | 2020-09-22 | 江苏师范大学 | 一种基于反向学习的蚁群算法优化方法 |
DE202021002086U1 (de) * | 2021-06-15 | 2021-06-25 | Fabian Broszio | Vorrichtung zur automatisierten Protokollierung sowie der Analyse und der Auswertung von digitalen Bildungsprozessen |
CN113781275A (zh) * | 2021-09-26 | 2021-12-10 | 苏州远略知识产权运营有限公司 | 一种教育资源管理方法及服务器 |
CN115080021A (zh) * | 2022-05-13 | 2022-09-20 | 北京思特奇信息技术股份有限公司 | 基于自动化机器学习实现的零代码建模方法及系统 |
EP4109461A1 (en) * | 2021-06-22 | 2022-12-28 | Electronic Caregiver, Inc. | Atmospheric mirroring and dynamically varying three-dimensional assistant addison interface for external environments |
CN117292283A (zh) * | 2023-11-24 | 2023-12-26 | 成都庆龙航空科技有限公司 | 一种基于无人机的目标识别方法 |
CN117407817A (zh) * | 2023-10-25 | 2024-01-16 | 国网四川省电力公司绵阳供电公司 | 一种配电自动化机房的异常监测系统 |
CN117454124A (zh) * | 2023-12-26 | 2024-01-26 | 山东大学 | 一种基于深度学习的船舶运动预测方法及系统 |
CN117472789A (zh) * | 2023-12-28 | 2024-01-30 | 成都工业学院 | 基于集成学习的软件缺陷预测模型构建方法和装置 |
CN117474353A (zh) * | 2023-10-27 | 2024-01-30 | 国家开放大学 | 一种基于在线教育的决策自动生成方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112653142B (zh) * | 2020-12-18 | 2022-09-02 | 武汉大学 | 优化深度Transformer网络的风电功率预测方法及系统 |
-
2024
- 2024-02-01 CN CN202410138573.4A patent/CN117668671B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949079A (zh) * | 2019-03-04 | 2019-06-28 | 王汝平 | 基于贝叶斯网络模型的产品市场报告生成方法、装置 |
CN111695668A (zh) * | 2020-06-16 | 2020-09-22 | 江苏师范大学 | 一种基于反向学习的蚁群算法优化方法 |
DE202021002086U1 (de) * | 2021-06-15 | 2021-06-25 | Fabian Broszio | Vorrichtung zur automatisierten Protokollierung sowie der Analyse und der Auswertung von digitalen Bildungsprozessen |
EP4109461A1 (en) * | 2021-06-22 | 2022-12-28 | Electronic Caregiver, Inc. | Atmospheric mirroring and dynamically varying three-dimensional assistant addison interface for external environments |
CN113781275A (zh) * | 2021-09-26 | 2021-12-10 | 苏州远略知识产权运营有限公司 | 一种教育资源管理方法及服务器 |
CN115080021A (zh) * | 2022-05-13 | 2022-09-20 | 北京思特奇信息技术股份有限公司 | 基于自动化机器学习实现的零代码建模方法及系统 |
CN117407817A (zh) * | 2023-10-25 | 2024-01-16 | 国网四川省电力公司绵阳供电公司 | 一种配电自动化机房的异常监测系统 |
CN117474353A (zh) * | 2023-10-27 | 2024-01-30 | 国家开放大学 | 一种基于在线教育的决策自动生成方法和装置 |
CN117292283A (zh) * | 2023-11-24 | 2023-12-26 | 成都庆龙航空科技有限公司 | 一种基于无人机的目标识别方法 |
CN117454124A (zh) * | 2023-12-26 | 2024-01-26 | 山东大学 | 一种基于深度学习的船舶运动预测方法及系统 |
CN117472789A (zh) * | 2023-12-28 | 2024-01-30 | 成都工业学院 | 基于集成学习的软件缺陷预测模型构建方法和装置 |
Non-Patent Citations (4)
Title |
---|
Anomaly Detection Model of Network Dataflow Based on an Improved Grey Wolf Algorithm and CNN;Liting Wang等;《Electronics 2023》;20230907;第12卷(第18期);第1-15页 * |
基于《社会主义从空想到科学的发展》文本考察的新时代青年教育思考;邓颜蕙;《成都工业学院学报》;20230515;第26卷(第3期);第91-96页 * |
教育新基建时代数字教育资源的建设方向与发展路径;柯清超 等;《电化教育研究》;20211101;第42卷(第11期);第48-54页 * |
机器学习算法在柴油机性能预测与优化设计的应用;游丽;《舰船科学技术》;20211023;第43卷(第20期);第91-93页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117668671A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569356B (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
CN114912612A (zh) | 鸟类识别方法、装置、计算机设备及存储介质 | |
US20210125004A1 (en) | Automated labeling of data with user validation | |
CN112446441B (zh) | 模型训练数据筛选方法、装置、设备及存储介质 | |
CN113128233B (zh) | 一种心理疾病知识图谱的构建方法及系统 | |
CN109993109A (zh) | 图像文字识别方法 | |
CN114240101A (zh) | 一种风险识别模型的验证方法、装置以及设备 | |
CN114663002A (zh) | 一种自动化匹配绩效考核指标的方法及设备 | |
CN109800776A (zh) | 素材标注方法、装置、终端和计算机可读存储介质 | |
CN109543038B (zh) | 一种应用于文本数据的情感分析方法 | |
CN113836306B (zh) | 基于篇章成分识别的作文自动测评方法、设备和存储介质 | |
CN111444677A (zh) | 基于大数据的阅读模型优化方法、装置、设备及介质 | |
CN117668671B (zh) | 一种基于机器学习的教育资源治理方法 | |
KR102269606B1 (ko) | 콜드 스타트를 해결하기 위한 신규 컨텐츠 분석 분석 방법, 장치 및 컴퓨터 프로그램 | |
CN117093260A (zh) | 一种基于决策树分类算法的融合模型网站结构解析方法 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 | |
CN114238768A (zh) | 资讯信息的推送方法、装置、计算机设备和存储介质 | |
CN112699887A (zh) | 一种获得数学对象标注模型、数学对象标注的方法和装置 | |
CN113378993B (zh) | 基于人工智能的分类方法、装置、设备及存储介质 | |
CN114637849B (zh) | 基于人工智能的法律关系认知方法及系统 | |
CN113254698B (zh) | 一种具备辅助填写功能的表格设计方法及系统 | |
US11507728B2 (en) | Click to document | |
CN114185962A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN116468037A (zh) | 一种基于nlp的数据处理方法及系统 | |
CN117350828A (zh) | 一种投标评审方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |