CN117236497A - 一种基于分词方法的自动排课方法、系统、设备及介质 - Google Patents

一种基于分词方法的自动排课方法、系统、设备及介质 Download PDF

Info

Publication number
CN117236497A
CN117236497A CN202311191981.8A CN202311191981A CN117236497A CN 117236497 A CN117236497 A CN 117236497A CN 202311191981 A CN202311191981 A CN 202311191981A CN 117236497 A CN117236497 A CN 117236497A
Authority
CN
China
Prior art keywords
data set
document
historical
word segmentation
course arrangement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311191981.8A
Other languages
English (en)
Inventor
郭尚志
廖海波
谢羲和
刘文剑
梁鹏
何勇波
程鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Qiangzhi Technology Development Co ltd
Original Assignee
Hunan Qiangzhi Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Qiangzhi Technology Development Co ltd filed Critical Hunan Qiangzhi Technology Development Co ltd
Priority to CN202311191981.8A priority Critical patent/CN117236497A/zh
Publication of CN117236497A publication Critical patent/CN117236497A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分词方法的自动排课方法、系统、设备及介质,本方法将历史数据集构造成历史文档形式,采用分词方法对历史文档进行分词并构建文档模型,以及采用分词后的历史文档和似然函数训练文档模型,能够更加贴合学校最终的排课使用习惯,排课质量高;采用训练好的文档模型对历史数据和待排数据进行主题分类,然后计算待排数据中每一条文档与历史数据中相近的多条文档,并从多条文档中寻找当前待排课堂的最优排课结果,通过自动排课能够极大提升排课时间,使得排课效率提高。

Description

一种基于分词方法的自动排课方法、系统、设备及介质
技术领域
本发明涉及自动排课技术领域,尤其是涉及一种基于分词方法的自动排课方法、系统、设备及介质。
背景技术
随着高校办学规模的不断扩大,学生人数、课程人数和任课教师人数越来越多,个性化的排课要求也越来越高,对自动排课的要求也越来越高。传统的自动排课方法从当前的排课数据出发,从各种角度考虑学生、教师,教室、课堂的特殊要求。但因为各种特殊要求的交织在一起,最终排课效果并不理想。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于分词方法的自动排课方法、系统、设备及介质,能够提高排课质量和效率。
第一方面,本发明实施例提供了一种基于分词方法的自动排课方法,所述基于分词方法的自动排课方法包括:
根据历史数据集中的不同字段,构建第一历史数据集和第二历史数据集以及与所述第一历史数据集对应的第一待排数据集和所述第二历史数据集对应的第二待排数据集;
将所述第二历史数据集中的所有字段进行合并,构建第一历史文档集合;将所述第二待排数据集中的所有字段进行合并,构建第一待排文档集合;
采用分词方法对所述第一历史文档集合和所述第一待排文档集合进行分词,构建文档模型并得到分词后的第一历史文档集合和分词后的第一待排文档集合;
采用所述分词后的第一历史文档集合和似然函数训练所述文档模型,得到训练好的文档模型和与所述第一历史文档集合对应的第一主题分类,并将所述第一待排文档集合输入至所述训练好的文档模型中,得到第二主题分类;
采用所述第一主题分类更新所述第一历史数据集的主题分类,得到更新后的第一历史数据集;采用所述第二主题分类更新所述第一待排数据集的主题分类,得到更新后的第一待排数据集;
将所述更新后的第一历史数据集中的所有字段进行合并得到第二历史文档集合,将所述更新后的第一待排数据集中的所有字段进行合并得到第二待排文档集合,将所述第二历史文档集合和所述第二待排文档集合进行合并得到合并数据集,并对所述合并数据集进行分词,得到分词后的合并数据集;
排除所述分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,并计算所述第二待排文档集合中每条文档与所述剩余数据集中相近的多条文档;
从所述多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
与现有技术相比,本发明第一方面具有以下有益效果:
本方法将历史数据集构造成历史文档形式,采用分词方法对历史文档进行分词并构建文档模型,以及采用分词后的历史文档和似然函数训练文档模型,能够更加贴合学校最终的排课使用习惯,排课质量高;采用训练好的文档模型对历史数据和待排数据进行主题分类,然后计算待排数据中每一条文档与历史数据中相近的多条文档,并从多条文档中寻找当前待排课堂的最优排课结果,通过自动排课能够极大提升排课时间,使得排课效率提高。
根据本发明的一些实施例,所述采用所述分词后的第一历史文档集合和似然函数训练所述文档模型,包括:
构建第一概率计算函数,并采用所述第一概率计算函数计算所述第一历史文档集合中每个分词的概率;
基于所述每个分词的概率,构建似然函数,并通过最大化所述似然函数训练所述文档模型。
根据本发明的一些实施例,通过如下方式构建似然函数:
L(β,α|w)=∏P(w|d)+λT
其中,β表示主题分布,α表示分词分布,w表示所述分词后的第一历史文档集合中的分词,P(w|d)表示每个分词的概率,d表示所述分词后的第一历史文档集合中的文档,λ表示平衡系数,T表示主题占比例系数。
根据本发明的一些实施例,所述排除所述分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,包括:
计算所述分词后的合并数据集中所有分词的词频;
根据所述词频排除所述分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集。
根据本发明的一些实施例,通过如下方式计算所述第二待排文档集合中每条文档与所述剩余数据集中相近的多条文档:
其中,N表示相近的多条文档的数量,xmym表示点向量,λ表示平衡系数,T表示主题占比例系数,n表示所有分词。
根据本发明的一些实施例,所述从所述多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课,包括:
预设硬性约束条件,并对所述多条文档进行硬性约束条件检查,得到检查后的多条文档;
根据所述第一历史数据集中记录的排课时间和地点,从所述检查后的多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
根据本发明的一些实施例,在从所述多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果之后,所述基于分词方法的自动排课方法还包括:
对所述第一待排数据集中完成自动排课的课堂打上成功排课标志;
对未打成功排课标志的待排课堂采用传统排课方法。
第二方面,本发明实施例还提供了一种基于分词方法的自动排课系统,所述基于分词方法的自动排课系统包括:
数据集构建单元,用于根据历史数据集中的不同字段,构建第一历史数据集和第二历史数据集以及与所述第一历史数据集对应的第一待排数据集和所述第二历史数据集对应的第二待排数据集;
数据集合并单元,用于将所述第二历史数据集中的所有字段进行合并,构建第一历史文档集合;将所述第二待排数据集中的所有字段进行合并,构建第一待排文档集合;
第一分词单元,用于采用分词方法对所述第一历史文档集合和所述第一待排文档集合进行分词,构建文档模型并得到分词后的第一历史文档集合和分词后的第一待排文档集合;
模型训练单元,用于采用所述分词后的第一历史文档集合和似然函数训练所述文档模型,得到训练好的文档模型和与所述第一历史文档集合对应的第一主题分类,并将所述第一待排文档集合输入至所述训练好的文档模型中,得到第二主题分类;
主题更新单元,用于采用所述第一主题分类更新所述第一历史数据集的主题分类,得到更新后的第一历史数据集;采用所述第二主题分类更新所述第一待排数据集的主题分类,得到更新后的第一待排数据集;
第二分词单元,用于将所述更新后的第一历史数据集中的所有字段进行合并得到第二历史文档集合,将所述更新后的第一待排数据集中的所有字段进行合并得到第二待排文档集合,将所述第二历史文档集合和所述第二待排文档集合进行合并得到合并数据集,并对所述合并数据集进行分词,得到分词后的合并数据集;
数据计算单元,用于排除所述分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,并计算所述第二待排文档集合中每条文档与所述剩余数据集中相近的多条文档;
自动排课单元,用于从所述多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
第三方面,本发明实施例还提供了一种基于分词方法的自动排课设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上所述的一种基于分词方法的自动排课方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的一种基于分词方法的自动排课方法。
可以理解的是,上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同,可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例的一种基于分词方法的自动排课方法的流程图;
图2是本发明另一实施例的自动排课方法的流程图;
图3是本发明一实施例的一种基于分词方法的自动排课系统的结构图;
图4是本发明一实施例的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
传统的自动排课方法从当前的排课数据出发,从各种角度考虑学生、教师,教室、课堂的特殊要求。但因为各种特殊要求的交织在一起,最终排课效果并不理想。
为解决上述问题,本发明通过将历史数据集构造成历史文档形式,采用分词方法对历史文档进行分词并构建文档模型,以及采用分词后的历史文档和似然函数训练文档模型,能够更加贴合学校最终的排课使用习惯,排课质量高;采用训练好的文档模型对历史数据和待排数据进行主题分类,然后计算待排数据中每一条文档与历史数据中相近的多条文档,并从多条文档中寻找当前待排课堂的最优排课结果,通过自动排课能够极大提升排课时间,使得排课效率提高。
对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释:
似然函数:似然函数在推断统计学(Statistical inference)中扮演重要角色,尤其是在参数估计方法中。在教科书中,似然常常被用作“概率”的同义词。但是在统计学中,二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。
参照图1,本发明实施例提供了一种基于分词方法的自动排课方法,本基于分词方法的自动排课方法包括但不限于步骤S100至步骤S800,其中:
步骤S100、根据历史数据集中的不同字段,构建第一历史数据集和第二历史数据集以及与第一历史数据集对应的第一待排数据集和第二历史数据集对应的第二待排数据集;
步骤S200、将第二历史数据集中的所有字段进行合并,构建第一历史文档集合;将第二待排数据集中的所有字段进行合并,构建第一待排文档集合;
步骤S300、采用分词方法对第一历史文档集合和第一待排文档集合进行分词,构建文档模型并得到分词后的第一历史文档集合和分词后的第一待排文档集合;
步骤S400、采用分词后的第一历史文档集合和似然函数训练文档模型,得到训练好的文档模型和与第一历史文档集合对应的第一主题分类,并将第一待排文档集合输入至训练好的文档模型中,得到第二主题分类;
步骤S500、采用第一主题分类更新第一历史数据集的主题分类,得到更新后的第一历史数据集;采用第二主题分类更新第一待排数据集的主题分类,得到更新后的第一待排数据集;
步骤S600、将更新后的第一历史数据集中的所有字段进行合并得到第二历史文档集合,将更新后的第一待排数据集中的所有字段进行合并得到第二待排文档集合,将第二历史文档集合和第二待排文档集合进行合并得到合并数据集,并对合并数据集进行分词,得到分词后的合并数据集;
步骤S700、排除分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,并计算第二待排文档集合中每条文档与剩余数据集中相近的多条文档;
步骤S800、从多条文档中寻找第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
在本实施例中,为了更加贴合学校最终的排课使用习惯,提高排课质量,本实施例通过根据历史数据集中的不同字段,构建第一历史数据集和第二历史数据集以及与第一历史数据集对应的第一待排数据集和第二历史数据集对应的第二待排数据集,将第二历史数据集中的所有字段进行合并,构建第一历史文档集合;将第二待排数据集中的所有字段进行合并,构建第一待排文档集合,采用分词方法对第一历史文档集合和第一待排文档集合进行分词,构建文档模型并得到分词后的第一历史文档集合和分词后的第一待排文档集合,采用分词后的第一历史文档集合和似然函数训练文档模型,得到训练好的文档模型和与第一历史文档集合对应的第一主题分类,并将第一待排文档集合输入至训练好的文档模型中,得到第二主题分类;为了提高排课效率,本实施例通过采用第一主题分类更新第一历史数据集的主题分类,得到更新后的第一历史数据集;采用第二主题分类更新第一待排数据集的主题分类,得到更新后的第一待排数据集,将更新后的第一历史数据集中的所有字段进行合并得到第二历史文档集合,将更新后的第一待排数据集中的所有字段进行合并得到第二待排文档集合,将第二历史文档集合和第二待排文档集合进行合并得到合并数据集,并对合并数据集进行分词,得到分词后的合并数据集,排除分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,并计算第二待排文档集合中每条文档与剩余数据集中相近的多条文档,从多条文档中寻找第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
需要说明的是,本实施例采用的分词方法为现有的常规技术,本实施例不作详细描述。
在一些实施例中,采用分词后的第一历史文档集合和似然函数训练文档模型,包括:
构建第一概率计算函数,并采用第一概率计算函数计算第一历史文档集合中每个分词的概率;
基于每个分词的概率,构建似然函数,并通过最大化似然函数训练文档模型。
在本实施例中,采用最大化似然函数训练文档模型,能够使得文档模型将同一主题的文档分为一类,采用模型自动分类,能够提高分类效率;采用分词后的历史文档训练文档模型,能够更加贴合学校最终的排课使用习惯,提高排课质量。
在一些实施例中,通过如下方式构建似然函数:
L(β,α|w)=∏P(w|d)+λT
其中,β表示主题分布,α表示分词分布,w表示分词后的第一历史文档集合中的分词,P(w|d)表示每个分词的概率,d表示分词后的第一历史文档集合中的文档,λ表示平衡系数,T表示主题占比例系数。
在一些实施例中,排除分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,包括:
计算分词后的合并数据集中所有分词的词频;
根据词频排除分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集。
在本实施例中,根据词频排除分词后的合并数据集中所有的第二待排文档集合,能够防止计算到第二待排文档集合与第二待排文档集合自己相近的文档。
在一些实施例中,通过如下方式计算第二待排文档集合中每条文档与剩余数据集中相近的多条文档:
其中,N表示相近的多条文档的数量,xmym表示点向量,λ表示平衡系数,T表示主题占比例系数,n表示所有分词。
在一些实施例中,从多条文档中寻找第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课,包括:
预设硬性约束条件,并对多条文档进行硬性约束条件检查,得到检查后的多条文档;
根据第一历史数据集中记录的排课时间和地点,从检查后的多条文档中寻找第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
在本实施例中,通过硬性约束条件检查后,使得能够减少冲突,提高排课质量。
在一些实施例中,在从多条文档中寻找第一待排数据集中当前待排课堂的最优排课结果之后,基于分词方法的自动排课方法还包括:
对第一待排数据集中完成自动排课的课堂打上成功排课标志;
对未打成功排课标志的待排课堂采用传统排课方法。
在本实施例中,只有在没有完成自动排课的待排课堂才采用传统排课方法,而不是一直使用传统排课方法,能够提高排课效率。
为方便本领域人员理解,以下提供一组最佳实施例:
在本实施例中,排课的主要目的是安排合理时间、地点。由于目前所有高校排课系统已经使用多年,产生了大量的历史排课数据,其历史数据是通过自动排课和手工调整后的数据,符合学校最终实际情况。本实施例的方法另辟蹊径,从高校历史数据出发,分析数据特点,通过数据处理,把每一条历史数据构造为一篇文档,通过定义文档相似度模型(即文档模型)。训练文档模型,然后对于待排的当前课堂集合计算与之最匹配的多个文档,从中取选时间、地点作为当前记录的时间和地点,然后进行硬件约束条件检查,决定最终的排课结果。参照图2,具体包括如下步骤:
1、数据处理。
构造历史数据集,包括第一历史数据集H1和第二历史数据集H2,并构造当前待排数据集,包括第一待排数据集C1和第二待排数据集C2。H1,C1包含字段为课程名称、学时类型、学时、周次、分组名称、课堂名称、教师姓名和主题分类(主题分类为将所有历史记录归成几类,就有几个主题分类)。H2,C2包括字段为课堂名称和教师姓名(多个教师逗号隔开)。为了进行精确的匹配,需要对H2,C2中的课堂名称和教师姓名进行特殊处理,首先将课堂名称和教师姓名两个字段进行合并,用逗号隔开,每条记录构造为一个文档,形成文档集合,文档集合包括第一历史文档集合H3和第一待排文档集合C3。
2、文档模型定义与训练。
采用常用的分词方法对H3和C3进行分词。将分词后的第一历史文档集合H3采用如下处理函数(即第一概率计算函数)进行概率计算:
P(w|d)=∑P(w|z)P(z|d)
其中,w表示第一历史文档集合中的分词,d表示文档,z表示主题,z的默认值取5。对每个文档d,计算每个分词w的概率。
为了训练该文档模型,采用最大化似然函数实现。似然函数公式如下:
L(β,α|w)=∏P(w|d)+λT
其中,β表示主题分布,α表示分词分布,w表示分词后的第一历史文档集合中的分词,P(w|d)表示每个分词的概率,d表示分词后的第一历史文档集合中的文档,λ表示平衡系数,默认值取0.001,T表示主题占比例系数,默认值是平均分配。
通过训练好的文档模型得到H3的主题分类,采用H3的主题分类更新H1的主题分类。采用训练好的文档模型预测C3的主题分类,并采用C3的主题分类更新C1的主题分类。
以H1和C1为基础,合并字段课程名称、学时类型、学时、周次、分组名称和主题分类为一条记录,各字段以逗号隔开,构造第二历史文档集合H4和第二待排文档集合C4,并构造H4和C4的合集(即合并数据集)CH1。
3、排课匹配模型。
对CH1中的所有文档采用常用分词方法进行分词。然后计算词频,计算词频采用以下公式:
其中,d(x)表示包含分词的文档数,n表示所有分词。
根据该词频,删除CH1中包含的C4的所有文档记录。循环C4中每一条文档,计算C4与排除C4后的CH1最相近的N条文档记录,N默认值取3。计算函数如下:
其中,N表示相近的多条文档的数量,xmym表示点向量,λ表示平衡系数,T表示主题占比例系数,n表示所有分词。
得到TOP(N)条最相近的文档记录后,根据H1记录的排课时间和地点记录,对C1中当前待排课堂进行排课,并检查硬性约束条件要求,匹配最合适的教室和地点。
4、结果处理。
对于以上排课成功的打上标志为1。所有C1中待排文档记录完成匹配后,对于未打成功标志的待排课堂进行传统排课。最后计算所有成功记录,失败记录提示用户。
需要说明的都是,本实施例中的默认值可根据实际情况进行更改,本实施例不做具体限定。
通过本实施例的方法进行排课具有效果为一是贴合学校最终的排课使用习惯,使得排课效果质量高;二是极大提升排课时间,只有完全匹配不到的记录才需要经过传统排课。经过在高校的试运行,本实施例的方法相对于其他传统自动排课模型,在同等环境条件与规模下,排课时间缩短约1/3,满意度有质的提升,还提升了高校的管理水平,提升了教师、学生对教务工作的认可度。
参照图3,本发明实施例还提供了一种基于分词方法的自动排课系统,本基于分词方法的自动排课系统包括数据集构建单元100、数据集合并单元200、第一分词单元300、模型训练单元400、主题更新单元500、第二分词单元600、数据计算单元700和自动排课单元800,其中:
数据集构建单元100,用于根据历史数据集中的不同字段,构建第一历史数据集和第二历史数据集以及与第一历史数据集对应的第一待排数据集和第二历史数据集对应的第二待排数据集;
数据集合并单元200,用于将第二历史数据集中的所有字段进行合并,构建第一历史文档集合;将第二待排数据集中的所有字段进行合并,构建第一待排文档集合;
第一分词单元300,用于采用分词方法对第一历史文档集合和第一待排文档集合进行分词,构建文档模型并得到分词后的第一历史文档集合和分词后的第一待排文档集合;
模型训练单元400,用于采用分词后的第一历史文档集合和似然函数训练文档模型,得到训练好的文档模型和与第一历史文档集合对应的第一主题分类,并将第一待排文档集合输入至训练好的文档模型中,得到第二主题分类;
主题更新单元500,用于采用第一主题分类更新第一历史数据集的主题分类,得到更新后的第一历史数据集;采用第二主题分类更新第一待排数据集的主题分类,得到更新后的第一待排数据集;
第二分词单元600,用于将更新后的第一历史数据集中的所有字段进行合并得到第二历史文档集合,将更新后的第一待排数据集中的所有字段进行合并得到第二待排文档集合,将第二历史文档集合和第二待排文档集合进行合并得到合并数据集,并对合并数据集进行分词,得到分词后的合并数据集;
数据计算单元700,用于排除分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,并计算第二待排文档集合中每条文档与剩余数据集中相近的多条文档;
自动排课单元800,用于从多条文档中寻找第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
需要说明的是,由于本实施例中的一种基于分词方法的自动排课系统与上述的一种基于分词方法的自动排课方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
参照图4,本申请实施例还提供了一种基于分词方法的自动排课设备,本基于分词方法的自动排课设备包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
程序被存储在存储器中,处理器执行至少一个程序以实现本公开实施上述的基于分词方法的自动排课方法。
该电子设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)、车载电脑等任意智能终端。
下面对本申请实施例的电子设备进行详细介绍。
处理器1600,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本公开实施例所提供的技术方案;
存储器1700,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器1700可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1700中,并由处理器1600来调用执行本公开实施例的基于分词方法的自动排课方法。
输入/输出接口1800,用于实现信息输入及输出;
通信接口1900,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线2000,在设备的各个组件(例如处理器1600、存储器1700、输入/输出接口1800和通信接口1900)之间传输信息;
其中处理器1600、存储器1700、输入/输出接口1800和通信接口1900通过总线2000实现彼此之间在设备内部的通信连接。
本公开实施例还提供了一种存储介质,该存储介质是计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算机执行上述基于分词方法的自动排课方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本公开实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序的介质。上面结合附图对本申请实施例作了详细说明,但本申请不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下作出各种变化。

Claims (10)

1.一种基于分词方法的自动排课方法,其特征在于,所述基于分词方法的自动排课方法包括:
根据历史数据集中的不同字段,构建第一历史数据集和第二历史数据集以及与所述第一历史数据集对应的第一待排数据集和所述第二历史数据集对应的第二待排数据集;
将所述第二历史数据集中的所有字段进行合并,构建第一历史文档集合;将所述第二待排数据集中的所有字段进行合并,构建第一待排文档集合;
采用分词方法对所述第一历史文档集合和所述第一待排文档集合进行分词,构建文档模型并得到分词后的第一历史文档集合和分词后的第一待排文档集合;
采用所述分词后的第一历史文档集合和似然函数训练所述文档模型,得到训练好的文档模型和与所述第一历史文档集合对应的第一主题分类,并将所述第一待排文档集合输入至所述训练好的文档模型中,得到第二主题分类;
采用所述第一主题分类更新所述第一历史数据集的主题分类,得到更新后的第一历史数据集;采用所述第二主题分类更新所述第一待排数据集的主题分类,得到更新后的第一待排数据集;
将所述更新后的第一历史数据集中的所有字段进行合并得到第二历史文档集合,将所述更新后的第一待排数据集中的所有字段进行合并得到第二待排文档集合,将所述第二历史文档集合和所述第二待排文档集合进行合并得到合并数据集,并对所述合并数据集进行分词,得到分词后的合并数据集;
排除所述分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,并计算所述第二待排文档集合中每条文档与所述剩余数据集中相近的多条文档;
从所述多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
2.根据权利要求1所述的基于分词方法的自动排课方法,其特征在于,所述采用所述分词后的第一历史文档集合和似然函数训练所述文档模型,包括:
构建第一概率计算函数,并采用所述第一概率计算函数计算所述第一历史文档集合中每个分词的概率;
基于所述每个分词的概率,构建似然函数,并通过最大化所述似然函数训练所述文档模型。
3.根据权利要求2所述的基于分词方法的自动排课方法,其特征在于,通过如下方式构建似然函数:
L(β,α|w)=∏P(w|d)+λT
其中,β表示主题分布,α表示分词分布,w表示所述分词后的第一历史文档集合中的分词,P(w|d)表示每个分词的概率,d表示所述分词后的第一历史文档集合中的文档,λ表示平衡系数,T表示主题占比例系数。
4.根据权利要求1所述的基于分词方法的自动排课方法,其特征在于,所述排除所述分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,包括:
计算所述分词后的合并数据集中所有分词的词频;
根据所述词频排除所述分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集。
5.根据权利要求1所述的基于分词方法的自动排课方法,其特征在于,通过如下方式计算所述第二待排文档集合中每条文档与所述剩余数据集中相近的多条文档:
其中,N表示相近的多条文档的数量,xmym表示点向量,λ表示平衡系数,T表示主题占比例系数,n表示所有分词。
6.根据权利要求1所述的基于分词方法的自动排课方法,其特征在于,所述从所述多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课,包括:
预设硬性约束条件,并对所述多条文档进行硬性约束条件检查,得到检查后的多条文档;
根据所述第一历史数据集中记录的排课时间和地点,从所述检查后的多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
7.根据权利要求1所述的基于分词方法的自动排课方法,其特征在于,在从所述多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果之后,所述基于分词方法的自动排课方法还包括:
对所述第一待排数据集中完成自动排课的课堂打上成功排课标志;
对未打成功排课标志的待排课堂采用传统排课方法。
8.一种基于分词方法的自动排课系统,其特征在于,所述基于分词方法的自动排课系统包括:
数据集构建单元,用于根据历史数据集中的不同字段,构建第一历史数据集和第二历史数据集以及与所述第一历史数据集对应的第一待排数据集和所述第二历史数据集对应的第二待排数据集;
数据集合并单元,用于将所述第二历史数据集中的所有字段进行合并,构建第一历史文档集合;将所述第二待排数据集中的所有字段进行合并,构建第一待排文档集合;
第一分词单元,用于采用分词方法对所述第一历史文档集合和所述第一待排文档集合进行分词,构建文档模型并得到分词后的第一历史文档集合和分词后的第一待排文档集合;
模型训练单元,用于采用所述分词后的第一历史文档集合和似然函数训练所述文档模型,得到训练好的文档模型和与所述第一历史文档集合对应的第一主题分类,并将所述第一待排文档集合输入至所述训练好的文档模型中,得到第二主题分类;
主题更新单元,用于采用所述第一主题分类更新所述第一历史数据集的主题分类,得到更新后的第一历史数据集;采用所述第二主题分类更新所述第一待排数据集的主题分类,得到更新后的第一待排数据集;
第二分词单元,用于将所述更新后的第一历史数据集中的所有字段进行合并得到第二历史文档集合,将所述更新后的第一待排数据集中的所有字段进行合并得到第二待排文档集合,将所述第二历史文档集合和所述第二待排文档集合进行合并得到合并数据集,并对所述合并数据集进行分词,得到分词后的合并数据集;
数据计算单元,用于排除所述分词后的合并数据集中所有的第二待排文档集合,得到剩余数据集,并计算所述第二待排文档集合中每条文档与所述剩余数据集中相近的多条文档;
自动排课单元,用于从所述多条文档中寻找所述第一待排数据集中当前待排课堂的最优排课结果,以完成自动排课。
9.一种基于分词方法的自动排课设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的基于分词方法的自动排课方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于分词方法的自动排课方法。
CN202311191981.8A 2023-09-14 2023-09-14 一种基于分词方法的自动排课方法、系统、设备及介质 Pending CN117236497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311191981.8A CN117236497A (zh) 2023-09-14 2023-09-14 一种基于分词方法的自动排课方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311191981.8A CN117236497A (zh) 2023-09-14 2023-09-14 一种基于分词方法的自动排课方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN117236497A true CN117236497A (zh) 2023-12-15

Family

ID=89094213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311191981.8A Pending CN117236497A (zh) 2023-09-14 2023-09-14 一种基于分词方法的自动排课方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN117236497A (zh)

Similar Documents

Publication Publication Date Title
CN111507419B (zh) 图像分类模型的训练方法及装置
CN112257777B (zh) 基于隐马尔可夫模型的离职预测方法及相关装置
CN104615616A (zh) 群组推荐方法和系统
CN107203600A (zh) 一种利用刻画因果依赖关系和时序影响机制增强答案质量排序的评判方法
CN109255586A (zh) 一种面向电子政务办事的在线个性化推荐方法
CN116957874B (zh) 一种智能高校自动排课方法、系统、设备及存储介质
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN113656687B (zh) 基于教研数据的教师画像构建方法
CN114201684A (zh) 一种基于知识图谱的自适应学习资源推荐方法及系统
CN110110899A (zh) 知识掌握度的预测方法、自适应学习方法及电子设备
CN113239209A (zh) 基于RankNet-transformer的知识图谱个性化学习路径推荐方法
CN112417002A (zh) 应用于教育信息化的信息素养数据挖掘方法及系统
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN109086463A (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
CN111506755A (zh) 图片集的分类方法和装置
CN116204714A (zh) 推荐方法、装置、电子设备及存储介质
CN111552796A (zh) 组卷方法、电子设备及计算机可读介质
Li et al. Research on personalized learning path planning model based on knowledge network
CN109242927B (zh) 一种广告模板生成方法、装置及计算机设备
CN111813941A (zh) 结合rpa和ai的文本分类方法、装置、设备及介质
CN117236497A (zh) 一种基于分词方法的自动排课方法、系统、设备及介质
CN109815474A (zh) 一种词序列向量确定方法、装置、服务器及存储介质
CN111414966B (zh) 分类方法、装置、电子设备及计算机存储介质
CN114048148A (zh) 一种众包测试报告推荐方法、装置及电子设备
CN117172427B (zh) 一种辅助高校学生选择课堂的方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Guo Shangzhi

Inventor after: Liao Haibo

Inventor after: Xie Xihe

Inventor after: Liu Wenjian

Inventor after: Liang Peng

Inventor after: He Yongbo

Inventor after: Cheng Peng

Inventor before: Guo Shangzhi

Inventor before: Liao Haibo

Inventor before: Xie Xihe

Inventor before: Liu Wenjian

Inventor before: Liang Peng

Inventor before: He Yongbo

Inventor before: Cheng Peng

CB03 Change of inventor or designer information