CN116450830B - 一种基于大数据的智慧校园推送方法及系统 - Google Patents
一种基于大数据的智慧校园推送方法及系统 Download PDFInfo
- Publication number
- CN116450830B CN116450830B CN202310713408.2A CN202310713408A CN116450830B CN 116450830 B CN116450830 B CN 116450830B CN 202310713408 A CN202310713408 A CN 202310713408A CN 116450830 B CN116450830 B CN 116450830B
- Authority
- CN
- China
- Prior art keywords
- cluster
- data
- value
- module
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 230000002068 genetic effect Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 9
- 238000011161 development Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000035772 mutation Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000000691 measurement method Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的智慧校园推送方法及系统,方法包括数据采集与转换、确定k值、分簇、簇融合和具体运行。本发明属于教育管理领域,具体是指一种基于大数据的智慧校园推送方法及系统,本方案采用多种算法融合处理数据从而在保证收敛速度和推送精准双达标,采用参数优化算法确定参数从而提高算法运行效率,采用创建互信息阈值和噪声簇从而降低噪声干扰提升分类效果。
Description
技术领域
本发明涉及教育管理领域,具体是指一种基于大数据的智慧校园推送方法及系统。
背景技术
智慧校园推送方法需要收集并处理大量的数据,这些数据来自于学校信息系统和学生学习行为等,因此需要采用大数据技术来对这些数据进行处理和分析,从而提取有用的信息。但传统的校园推送方法存在收敛速度慢导致处理大规模数据集和高维数据速度慢,收敛速度快导致推送信息不精准的矛盾性问题;存在算法运行过程中存在参数选取不当导致算法运行效率低的问题;存在数据处理过程中因噪声干扰导致分类效果差的问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种基于大数据的智慧校园推送方法及系统,针对传统的校园推送方法存在收敛速度慢导致处理大规模数据集和高维数据速度慢,收敛速度快导致推送信息不精准的矛盾性问题,本方案采用多种算法融合处理数据从而在保证收敛速度和推送精准双达标;针对算法运行过程中存在参数选取不当导致算法运行效率低的问题,本方案采用参数优化算法确定参数从而提高算法运行效率;针对处理数据存在噪声干扰导致分类效果差的问题,本方案采用创建互信息阈值和噪声簇从而降低噪声干扰提升分类效果。
本发明采取的技术方案如下:本发明提供的一种基于大数据的智慧校园推送方法,该方法包括以下步骤:
步骤S1:数据采集与转换;
步骤S2:确定k值;
步骤S3:分簇;
步骤S4:簇融合;
步骤S5:具体运行。
进一步地,在步骤S1中,所述数据采集与转换具体包括以下步骤:
步骤S11:采集推送信息;
步骤S12:数据预处理,对推送信息进行分词及出停用词;
步骤S13:计算TF-IDF值,对数据预处理后的词计算TF-IDF值,TF-IDF是词频与逆文档频率的乘积,选择TF-IDF值最高的n个词作为推送信息的特征词;
步骤S14:建立词库,对所有推送信息的特征词汇总,建立词库;
步骤S15:数据转换,将推送信息转换为样本数据,将词库中词的数量作为推送信息的数据维度,推送信息的特征词决定维度数据是否为0,特征词即为特征变量,特征词在推送信息里的词频决定维度数据的大小,将推送信息转换为向量;例如:词库包括词1、词2、词3、词4和词5,推送信息的特征词是词2和词3,其中词2在推送信息中的词频是n1,词3在推送信息中的词频是n2,则推送信息转换后的向量为(0,n1,n2,0,0)。
进一步地,在步骤S2中,基于参数优化算法确定k值,具体包括以下步骤:
步骤S21:初始化k值,初始化不同的k值;
步骤S22:计算轮廓系数,对于不同的k值,将样本数据按照曼哈顿距离度量方法进行聚类,并计算每个样本数据的轮廓系数,所用公式如下:
;
式中,s是样本数据的轮廓系数,a是样本数据与同簇其他样本数据的平均距离,b是样本数据与最近其他簇的平均距离;
步骤S23:计算轮廓系数平均数,计算所有样本的轮廓系数平均值,得到不同k值的聚类方案轮廓系数;
步骤S24:选取k值,对于不同k值的聚类方案轮廓系数,选择轮廓系数最大的那个k值作为最终选取的k值。
进一步地,在步骤S3中,所述分簇包括以下步骤:
步骤S31:初始化k个簇,计算每个簇特征变量的互信息之和,所用公式如下:
;
式中,I(X;Y)是特征变量X和特征变量Y的互信息,nx和ny分别是x和y的取值个数,P(xi,yj)是X和Y同时取值xi和yj的概率,P(xi)和P(yj)分别表示X取值xi和Y取值yj的概率;
步骤S32:预先设定互信息阈值,创建噪声簇,对于每个样本数据,计算该样本数据在其他簇中簇的互信息之和,若该样本数据在所有簇中互信息最大的值低于互信息阈值,则将其分配到噪声簇,否则将其分配到互信息最大的簇;
步骤S33:重复步骤S32,直到簇不发生变化为止。
进一步地,在步骤S4中,所述簇融合具体包括以下步骤:
步骤S41:定义个体,将每个簇看做一个个体,每个个体由它们的中心点和所包含的数据点集合构成;
步骤S42:定义适应度函数,预先设有低维阈值,将每个簇用中心点的向量表示,对这些向量进行拉普拉斯特征映射,得到一个低维表示,进而得到适应度函数,所用公式如下:
;
式中,f(i)表示簇i的适应度函数,d是低维阈值,m是簇的拉普拉斯特征映射向量,(i,k)是第i个簇第k维的值,(j,k)是其他簇第k维的值,c是常数,c通常取一个较大的值以加强区分度,maxj是所用可能的簇中取结果最大的值;
步骤S43:簇融合,使用遗传算法进行簇的融合,预先设有最大迭代次数,在每一次迭代中,采用适应度函数对簇进行排序,并根据排序结果选择适当的簇进行遗传操作,包括选择、交叉和变异操作,按照比例进行轮盘赌选择运算符,然后使用单点交叉和单点变异操作生成下一代群体,并根据适应度函数计算新个体的适应度值,通过重复进行遗传操作,不断优化种群,同时增加新个体,直到满足最大迭代次数或簇不发生变化;
步骤S44:择优,选取适应度函数最优的t个簇表示簇融合结果;
步骤S45:确认簇标签,选择每个簇的簇中心对应的特征变量值最高的特征变量作为簇标签。
进一步地,在步骤S5中,所述具体运行具体包括以下步骤:
步骤S51:信息推送,基于用户发展方向和兴趣偏好,将对应簇标签的推送信息推送给用户,并接受反馈信息;
步骤S52:簇更新,基于用户反馈信息和新推送信息不断对簇进行更新。
本发明提供的一种基于大数据的智慧校园推送系统,包括数据采集与转换模块、确定k值模块、分簇模块、簇融合模块和具体运行模块;
所述数据采集与转换模块采集推送信息并将推送信息转换为向量,将转换后数据发送至确定k值模块和分簇模块;
所述确定k值模块接收数据采集与转换模块发送的数据,基于参数优化算法确定k值,并将数据发送至分簇模块;
所述分簇模块接收数据采集与转换模块和确定k至模块发送的数据,对向量进行分簇,并将数据发送至簇融合模块;
所述簇融合模块接收分簇模块发送的数据,对簇进行融合,确认簇标签,并将数据发送具体运行模块;
所述具体运行模块接收簇融合模块发送的数据,基于用户发展方向和兴趣偏好对用户推送信息并不断对簇进行更新。
采用上述方案本发明取得的有益效果如下:
(1)针对传统的校园推送方法存在收敛速度慢导致处理大规模数据集和高维数据速度慢,收敛速度快导致推送信息不精准的矛盾性问题,本方案采用多种算法融合处理数据从而在保证收敛速度和推送精准双达标。
(2)针对算法运行过程中存在参数选取不当导致算法运行效率低的问题,本方案采用参数优化算法确定参数从而提高算法运行效率。
(3)针对处理数据存在噪声干扰导致分类效果差的问题,本方案采用创建互信息阈值和噪声簇从而降低噪声干扰提升分类效果。
附图说明
图1为本发明提供的一种基于大数据的智慧校园推送方法的流程示意图;
图2为本发明提供的一种基于大数据的智慧校园推送系统的示意图;
图3为步骤S1的流程示意图;
图4为步骤S2的流程示意图;
图5为步骤S4的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的一种基于大数据的智慧校园推送方法,该方法包括以下步骤:
步骤S1:数据采集与转换;
步骤S2:确定k值;
步骤S3:分簇;
步骤S4:簇融合;
步骤S5:具体运行。
实施例二,参阅图1和图3,该实施例基于上述实施例,在步骤S1中,数据采集与转换具体包括以下步骤:
步骤S11:采集推送信息;
步骤S12:数据预处理,对推送信息进行分词及出停用词;
步骤S13:计算TF-IDF值,对数据预处理后的词计算TF-IDF值,TF-IDF是词频与逆文档频率的乘积,选择TF-IDF值最高的n个词作为推送信息的特征词;
步骤S14:建立词库,对所有推送信息的特征词汇总,建立词库;
步骤S15:数据转换,将推送信息转换为样本数据,将词库中词的数量作为推送信息的数据维度,推送信息的特征词决定维度数据是否为0,特征词即为特征变量,特征词在推送信息里的词频决定维度数据的大小,将推送信息转换为向量;例如:词库包括词1、词2、词3、词4和词5,推送信息的特征词是词2和词3,其中词2在推送信息中的词频是n1,词3在推送信息中的词频是n2,则推送信息转换后的向量为(0,n1,n2,0,0)。
实施例三,参阅图1和图4,该实施例基于上述实施例,在步骤S2中,基于参数优化算法确定k值,具体包括以下步骤:
步骤S21:初始化k值,初始化不同的k值;
步骤S22:计算轮廓系数,对于不同的k值,将样本数据按照曼哈顿距离度量方法进行聚类,并计算每个样本数据的轮廓系数,所用公式如下:
;
式中,s是样本数据的轮廓系数,a是样本数据与同簇其他样本数据的平均距离,b是样本数据与最近其他簇的平均距离;
步骤S23:计算轮廓系数平均数,计算所有样本的轮廓系数平均值,得到不同k值的聚类方案轮廓系数;
步骤S24:选取k值,对于不同k值的聚类方案轮廓系数,选择轮廓系数最大的那个k值作为最终选取的k值。
通过执行上述操作,针对算法运行过程中存在参数选取不当导致算法运行效率低的问题,本方案采用参数优化算法确定参数从而提高算法运行效率。
实施例三,参阅图1,该实施例基于上述实施例,在步骤S3中,分簇包括以下步骤:
步骤S31:初始化k个簇,计算每个簇特征变量的互信息之和,所用公式如下:
;
式中,I(X;Y)是特征变量X和特征变量Y的互信息,nx和ny分别是x和y的取值个数,P(xi,yj)是X和Y同时取值xi和yj的概率,P(xi)和P(yj)分别表示X取值xi和Y取值yj的概率;
步骤S32:预先设定互信息阈值,创建噪声簇,对于每个样本数据,计算该样本数据在其他簇中簇的互信息之和,若该样本数据在所有簇中互信息最大的值低于互信息阈值,则将其分配到噪声簇,否则将其分配到互信息最大的簇;
步骤S33:重复步骤S32,直到簇不发生变化为止。
通过执行上述操作,针对处理数据存在噪声干扰导致分类效果差的问题,本方案采用创建互信息阈值和噪声簇从而降低噪声干扰提升分类效果。
实施例四,参阅图1和图5,该实施例基于上述实施例,在步骤S4中,簇融合具体包括以下步骤:
步骤S41:定义个体,将每个簇看做一个个体,每个个体由它们的中心点和所包含的数据点集合构成;
步骤S42:定义适应度函数,预先设有低维阈值,将每个簇用中心点的向量表示,对这些向量进行拉普拉斯特征映射,得到一个低维表示,进而得到适应度函数,所用公式如下:
;
式中,f(i)表示簇i的适应度函数,d是低维阈值,m是簇的拉普拉斯特征映射向量,(i,k)是第i个簇第k维的值,(j,k)是其他簇第k维的值,c是常数,c通常取一个较大的值以加强区分度,maxj是所用可能的簇中取结果最大的值;
步骤S43:簇融合,使用遗传算法进行簇的融合,预先设有最大迭代次数,在每一次迭代中,采用适应度函数对簇进行排序,并根据排序结果选择适当的簇进行遗传操作,包括选择、交叉和变异操作,按照比例进行轮盘赌选择运算符,然后使用单点交叉和单点变异操作生成下一代群体,并根据适应度函数计算新个体的适应度值,通过重复进行遗传操作,不断优化种群,同时增加新个体,直到满足最大迭代次数或簇不发生变化;
步骤S44:择优,选取适应度函数最优的t个簇表示簇融合结果;
步骤S45:确认簇标签,选择每个簇的簇中心对应的特征变量值最高的特征变量作为簇标签。
通过执行上述操作,针对传统的校园推送方法存在收敛速度慢导致处理大规模数据集和高维数据速度慢,收敛速度快导致推送信息不精准的矛盾性问题,本方案采用多种算法融合处理数据从而在保证收敛速度和推送精准双达标。
实施例五,参阅图1,该实施例基于上述实施例,在步骤S5中,具体运行具体包括以下步骤:
步骤S51:信息推送,基于用户发展方向和兴趣偏好,将对应簇标签的推送信息推送给用户,并接受反馈信息;
步骤S52:簇更新,基于用户反馈信息和新推送信息不断对簇进行更新。
实施例六,参阅图2,该实施例基于上述实施例,本发明提供的一种基于大数据的智慧校园推送系统,包括数据采集与转换模块、确定k值模块、分簇模块、簇融合模块和具体运行模块;
所述数据采集与转换模块采集推送信息并将推送信息转换为向量,将转换后数据发送至确定k值模块和分簇模块;
所述确定k值模块接收数据采集与转换模块发送的数据,基于参数优化算法确定k值,并将数据发送至分簇模块;
所述分簇模块接收数据采集与转换模块和确定k至模块发送的数据,对向量进行分簇,并将数据发送至簇融合模块;
所述簇融合模块接收分簇模块发送的数据,对簇进行融合,确认簇标签,并将数据发送具体运行模块;
所述具体运行模块接收簇融合模块发送的数据,基于用户发展方向和兴趣偏好对用户推送信息并不断对簇进行更新。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (2)
1.一种基于大数据的智慧校园推送方法,其特征在于:该方法包括以下步骤:
步骤S1:数据采集与转换,采集推送信息并对推送信息进行分词及出停用词,基于计算TF-IDF值选择推送信息的特征词并建立词库,最终将推送信息转换为向量;
步骤S2:确定k值,k是聚类算法的参数,初始化不同的k值,通过计算轮廓系数和轮廓系数平均数来确定最终选取的k值;
步骤S3:分簇,通过计算每个簇特征变量的互信息之和对样本数据进行分配,最终将样本数据分成不同的簇;
步骤S4:簇融合,通过拉普拉斯特征映射定义适应度函数,并基于遗传算法进行簇融合并根据适应度函数确定簇融合结果,基于簇中心确定簇标签;
步骤S5:具体运行,基于用户发展方向和兴趣偏好进行推送信息并根据反馈和新的推送信息进行簇更新;
在步骤S3中,所述分簇包括以下步骤:
步骤S31:初始化k个簇,计算每个簇特征变量的互信息之和,所用公式如下:
式中,I(X;Y)是特征变量X和特征变量Y的互信息,nx和ny分别是x和y的取值个数,P(xi,yj)是X和Y同时取值xi和yj的概率,P(xi)和P(yj)分别表示X取值xi和Y取值yj的概率;
步骤S32:预先设定互信息阈值,创建噪声簇,对于每个样本数据,计算该样本数据在其他簇中簇的互信息之和,若该样本数据在所有簇中互信息最大的值低于互信息阈值,则将其分配到噪声簇,否则将其分配到互信息最大的簇;
步骤S33:重复步骤S32,直到簇不发生变化为止;
在步骤S1中,所述数据采集与转换具体包括以下步骤:
步骤S11:采集推送信息;
步骤S12:数据预处理,对推送信息进行分词及出停用词;
步骤S13:计算TF-IDF值,对数据预处理后的词计算TF-IDF值,TF-IDF是词频与逆文档频率的乘积,选择TF-IDF值最高的n个词作为推送信息的特征词;
步骤S14:建立词库,对所有推送信息的特征词汇总,建立词库;
步骤S15:数据转换,将推送信息转换为样本数据,将词库中词的数量作为推送信息的数据维度,推送信息的特征词决定维度数据是否为0,特征词即为特征变量,特征词在推送信息里的词频决定维度数据的大小,将推送信息转换为向量;
在步骤S2中,基于参数优化算法确定k值,具体包括以下步骤:
步骤S21:初始化k值,初始化不同的k值;
步骤S22:计算轮廓系数,对于不同的k值,将样本数据按照曼哈顿距离度量方法进行聚类,并计算每个样本数据的轮廓系数,所用公式如下:
式中,s是样本数据的轮廓系数,a是样本数据与同簇其他样本数据的平均距离,b是样本数据与最近其他簇的平均距离;
步骤S23:计算轮廓系数平均数,计算所有样本的轮廓系数平均值,得到不同k值的聚类方案轮廓系数;
步骤S24:选取k值,对于不同k值的聚类方案轮廓系数,选择轮廓系数最大的那个k值作为最终选取的k值;
在步骤S4中,所述簇融合具体包括以下步骤:
步骤S41:定义个体,将每个簇看做一个个体,每个个体由它们的中心点和所包含的数据点集合构成;
步骤S42:定义适应度函数,预先设有低维阈值,将每个簇用中心点的向量表示,对这些向量进行拉普拉斯特征映射,得到一个低维表示,进而得到适应度函数,所用公式如下:
式中,f(i)表示簇i的适应度函数,d是低维阈值,m是簇的拉普拉斯特征映射向量,(i,k)是第i个簇第k维的值,(j,k)是其他簇第k维的值,c是常数,c通常取一个较大的值以加强区分度,maxj是所用可能的簇中取结果最大的值;
步骤S43:簇融合,使用遗传算法进行簇的融合,预先设有最大迭代次数,在每一次迭代中,采用适应度函数对簇进行排序,并根据排序结果选择适当的簇进行遗传操作,包括选择、交叉和变异操作,按照比例进行轮盘赌选择运算符,然后使用单点交叉和单点变异操作生成下一代群体,并根据适应度函数计算新个体的适应度值,通过重复进行遗传操作,不断优化种群,同时增加新个体,直到满足最大迭代次数或簇不发生变化;
步骤S44:择优,选取适应度函数最优的t个簇表示簇融合结果;
步骤S45:确认簇标签,选择每个簇的簇中心对应的特征变量值最高的特征变量作为簇标签;
在步骤S5中,所述具体运行具体包括以下步骤:
步骤S51:信息推送,基于用户发展方向和兴趣偏好,将对应簇标签的推送信息推送给用户,并接受反馈信息;
步骤S52:簇更新,基于用户反馈信息和新推送信息不断对簇进行更新。
2.一种基于大数据的智慧校园推送系统,用于实现如权利要求1中所述的一种基于大数据的智慧校园推送方法,其特征在于:包括数据采集与转换模块、确定k值模块、分簇模块、簇融合模块和具体运行模块;
所述数据采集与转换模块采集推送信息并将推送信息转换为向量,将转换后数据发送至确定k值模块和分簇模块;
所述确定k值模块接收数据采集与转换模块发送的数据,基于参数优化算法确定k值,并将数据发送至分簇模块;
所述分簇模块接收数据采集与转换模块和确定k至模块发送的数据,对向量进行分簇,并将数据发送至簇融合模块;
所述簇融合模块接收分簇模块发送的数据,对簇进行融合,确认簇标签,并将数据发送具体运行模块;
所述具体运行模块接收簇融合模块发送的数据,基于用户发展方向和兴趣偏好对用户推送信息并不断对簇进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310713408.2A CN116450830B (zh) | 2023-06-16 | 2023-06-16 | 一种基于大数据的智慧校园推送方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310713408.2A CN116450830B (zh) | 2023-06-16 | 2023-06-16 | 一种基于大数据的智慧校园推送方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116450830A CN116450830A (zh) | 2023-07-18 |
CN116450830B true CN116450830B (zh) | 2023-08-11 |
Family
ID=87128847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310713408.2A Active CN116450830B (zh) | 2023-06-16 | 2023-06-16 | 一种基于大数据的智慧校园推送方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450830B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106067029A (zh) * | 2016-05-24 | 2016-11-02 | 哈尔滨工程大学 | 面向数据空间的实体分类方法 |
KR20220010045A (ko) * | 2021-03-23 | 2022-01-25 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 영역 프레이즈 마이닝 방법, 장치 및 전자 기기 |
CN114328922A (zh) * | 2021-12-28 | 2022-04-12 | 盐城工学院 | 一种基于谱图理论的选择性文本聚类集成方法 |
CN115865785A (zh) * | 2023-02-27 | 2023-03-28 | 南京邮电大学 | 一种基于k-means聚类的VANET分簇路由方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11436074B2 (en) * | 2019-04-17 | 2022-09-06 | Microsoft Technology Licensing, Llc | Pruning and prioritizing event data for analysis |
-
2023
- 2023-06-16 CN CN202310713408.2A patent/CN116450830B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106067029A (zh) * | 2016-05-24 | 2016-11-02 | 哈尔滨工程大学 | 面向数据空间的实体分类方法 |
KR20220010045A (ko) * | 2021-03-23 | 2022-01-25 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 영역 프레이즈 마이닝 방법, 장치 및 전자 기기 |
CN114328922A (zh) * | 2021-12-28 | 2022-04-12 | 盐城工学院 | 一种基于谱图理论的选择性文本聚类集成方法 |
CN115865785A (zh) * | 2023-02-27 | 2023-03-28 | 南京邮电大学 | 一种基于k-means聚类的VANET分簇路由方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116450830A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2929180C (en) | Image object category recognition method and device | |
CN105335752A (zh) | 一种基于主成分分析多变量决策树的接线方式识别方法 | |
CN104933444A (zh) | 一种面向多维属性数据的多层聚类融合机制的设计方法 | |
CN111428766B (zh) | 一种高维海量量测数据的用电模式分类方法 | |
CN111737294B (zh) | 一种基于动态增量集成模糊的数据流分类方法 | |
Xiong et al. | Recursive learning for sparse Markov models | |
CN113901623A (zh) | 一种基于布谷鸟搜索算法的svm的配电网拓扑辨识方法 | |
Tian et al. | Automated selection of evolutionary multi-objective optimization algorithms | |
CN117010697A (zh) | 一种基于人工智能的可视化企业风险评估方法 | |
CN111639680B (zh) | 一种基于专家反馈机制的身份识别方法 | |
CN116450830B (zh) | 一种基于大数据的智慧校园推送方法及系统 | |
CN109508735A (zh) | 一种基于神经动力学的软间隔支持向量机分类方法 | |
Fei et al. | Simultaneous feature with support vector selection and parameters optimization using GA-based SVM solve the binary classification | |
CN111984842A (zh) | 银行客户数据处理方法及装置 | |
CN112699271B (zh) | 一种提升用户视频网站留存时间的推荐方法 | |
CN113611366B (zh) | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 | |
CN112307288A (zh) | 一种用于多渠道的用户聚类方法 | |
CN117648890B (zh) | 一种基于人工智能的半导体器件建模方法及系统 | |
CN117852948B (zh) | 基于人工智能的汽车生产监管方法及系统 | |
CN118277810B (zh) | 一种基于人工智能的环境质量评估方法及系统 | |
CN118070675B (zh) | 基于机器学习的土壤氮素矿化速率预测系统 | |
CN118569680A (zh) | 基于人工智能的建筑能耗预测方法 | |
CN118747590A (zh) | 一种智能保安执勤调动系统 | |
CN117093784A (zh) | 一种基于用户-空口知识图谱的空口参数推荐方法 | |
CN118735284A (zh) | 基于大数据的干旱灾害风险评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |