CN117271710A

CN117271710A - 一种基于大数据的教辅热点数据智能分析系统

Info

Publication number: CN117271710A
Application number: CN202311532575.3A
Authority: CN
Inventors: 李洪英; 尹艳霞; 王梦瑶; 王洁琼; 孙彩霞; 黄艳平; 程莹; 付占昆
Original assignee: Shandong Jieli Education Group Co ltd
Current assignee: Shandong Jieli Education Group Co ltd
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2023-12-22
Anticipated expiration: 2043-11-17
Also published as: CN117271710B

Abstract

本发明公开了一种基于大数据的教辅热点数据智能分析系统，具体涉及数据分析技术领域，包括数据采集模块、数据预处理模块、数据处理模块、数据分析模块、教学评估模块，以及教学方案调整模块；通过数据处理模块提取主题信息，根据主题信息将数据进行划分，并从每个子集中抽取适量的样本，从而减小数据集规模；通过数据分析模块，利用多核或分布式处理的能力，将数据划分成多个小批次，并使用多个处理单元同时进行相关参数计算，提高处理速度；通过教学评估模块，收集学生的相关数据，计算教学质量指数，用于评估教学效果和满意度；通过教学方案调整模块，基于评估结果实现教学方案动态调整，为用户提供有针对性的教学资源。

Description

一种基于大数据的教辅热点数据智能分析系统

技术领域

本发明涉及数据分析技术领域，更具体地说，本发明涉及一种基于大数据的教辅热点数据智能分析系统。

背景技术

随着信息技术的发展，大数据已经成为了各行各业的重要工具。在教育领域，大数据的应用也日益广泛，特别是在教辅热点数据的分析和处理上。

现有的教辅热点数据智能分析系统通过对大量的教辅热点数据进行分析，可以帮助教师和学生更好地理解和掌握教学内容。

然而，现有的教辅热点数据智能分析系统的分析能力有限，无法为用户提供有针对性的教学资源，没有实现教学方案动态调整；用户且数据处理速度较慢，无法满足实时分析的需求。

发明内容

为了克服现有技术的上述缺陷，本发明提供一种基于大数据的教辅热点数据智能分析系统，通过数据处理模块，将数据集中的关键字筛选出来，根据系统预先定义的组合规则将其重新组合成关键词，和词库进行对比分析，依据关键词权重因子大小进行降序排序，从而提取主题信息，根据主题信息将数据进行划分，并从每个子集中抽取适量的样本，以保持各个子集在总体中的比例，从而减小数据集规模；通过数据分析模块，利用多核或分布式处理的能力，将数据划分成多个小批次，并使用多个处理单元同时进行相关参数计算，提高处理速度；通过教学评估模块，收集学生的相关数据，计算教学质量指数，用于评估教学效果和满意度；通过教学方案调整模块，基于评估结果实现教学方案动态调整，为用户提供有针对性的教学资源，有效地分析和理解学生的学习需求，提高教学效果，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于大数据的教辅热点数据智能分析系统，包括：

数据采集模块：用于收集教辅热点数据、用户的评论和社交媒体帖子；所述教辅热点数据包括教材、教辅书和网络资源；

数据预处理模块：用于对收集到的数据进行清洗、去重和分词预处理操作；

数据处理模块包括主题信息提取单元和用户情感得分计算单元；所述主题信息提取单元用于利用自然语言处理技术，对预处理后的教辅热点数据进行主题信息提取；所述用户情感得分计算单元，用于利用情感分析算法对预处理后的用户的评论和社交媒体帖子进行处理，计算用户情感得分；

数据分析模块：用于利用统计方法，对主题信息进行分析，计算话题热门指数、公众舆情影响系数，将其传输至教学评估模块；

教学评估模块：基于学生的考试成绩和日志记录，计算教学质量指数，用于评估教学效果和满意度；

教学方案调整模块：基于评估结果实现教学方案动态调整，为用户提供有针对性的教学资源。

在一个优选的实施方式中，所述主题信息提取单元的处理过程如下：

B1、应用主题建模算法，从教辅热点数据中提取主题信息；

B2、根据主题信息将数据进行划分，并从每个子集中抽取适量的样本。

在一个优选的实施方式中，所述应用主题建模算法，从教辅热点数据中提取主题信息；其处理过程如下：

B11、将对预处理后的教辅热点数据转化为字符串格式，对字符串进行遍历，将每个字符作为一个单独的元素，存储到数据集中；

B12、计算数据集中各字符的权重因子；所述权重因子μ的计算公式为：，其中α表示某字符在文档中出现的次数，n表示总字数，Tp表示文档总数，Tq表示包含该字符的文档数；

B13、将各字符的权重因子μ和预先设定的权重因子阈值μ_阈进行判断对比，若μ≥μ_阈则将该字符筛选出来，作为数据集中的关键字，反之则为数据集中的非关键字；

B14、将筛选出来的关键字，根据系统预先定义的组合规则将其重新组合成关键词，和词库进行对比分析；所述词库包含相关知识领域的专业术语、常用词汇，以及其他与教辅热点数据相关的关键词；

B15、依据关键词权重因子大小进行降序排序，确定与教辅热点数据相关的关键词，将其作为主题信息；所述关键词权重因子计算公式为：/>，其中s表示关键词中关键字的总数量，/>表示关键字的权重因子。

在一个优选的实施方式中，所述用户情感得分计算单元的处理过程如下：

C1、构建一个情感词典，其中包含正面情感词汇、负面情感词汇和词汇对应的情感极性得分；

C2、对预处理后的用户的评论和社交媒体帖子中的每个词，采用基于词典匹配的方法将每个词与情感词典进行匹配，并根据匹配结果计算用户情感得分；即如果存在匹配的情感词，则根据该情感词的情感极性得分来计算情感得分，其中如果情感词的情感极性为正向，则将情感得分加上该情感词的情感极性得分；如果情感词的情感极性为负向，则将情感得分减去该情感词的情感极性得分，最终将所有数值求和得到用户情感得分γ。

在一个优选的实施方式中，所述数据分析模块的具体处理过程如下：

D1、利用多核或分布式处理的能力，将数据划分成多个小批次，并使用多个处理单元同时进行相关参数计算；

D2、根据主题信息，计算话题热门指数、公众舆情影响系数；所述话题热门指数，具体是指根据话题讨论量Ra、话题转发量Rb和话题关注量Rc，计算话题热门指数Q，，其中f1，f2，f3表示各项的比例系数；

所述公众舆情影响系数，具体根据关键词在舆情数据中的出现频率和位置，结合关键词权重因子，计算关键词匹配度的总和，并将其作为舆情影响系数，具体的计算公式为：，其中G表示公众舆情影响系数，hj表示第j个关键词在舆情数据中的出现频率，/>表示第j个关键词在舆情数据中的出现位置，/>表示第j个关键词权重因子，m表示关键词总数量。

在一个优选的实施方式中，所述教学评估模块的具体处理过程为：

E1、根据学生的考试成绩和日志记录，计算平均成绩和参与度百分比；所述平均成绩Ca：，所述参与度百分比Cw：/>，其中Cai表示第i个学生的成绩分值，cw表示参与人数，w表示学生总人数；

E2、根据平均成绩Ca、参与度百分比Cw，结合话题热门指数Q、公众舆情影响系数G，以及用户情感得分γ，计算教学质量指数ε；

，其中h1、h2、h3、h4分别表示各项的比例系数。

在一个优选的实施方式中，所述教学方案调整模块的处理过程为：

F1、将教学质量指数ε和预先设定的教学质量阈值ε_阈进行判断对比，若ε≥ε_阈则表示家长和学生对于目前教学方案较为满意；若ε<ε_阈则表示家长和学生对于目前教学方案较为不满，需要进行调整；

F2、针对家长和学生对于目前教学方案较为不满的结果，制定具体的调整方案；所述调整方案包括但不限于增加相关的教学活动、补充相关的教学材料和改进教学方法；

F3、根据制定的调整方案，实施相应的教学方案调整措施，具体包括更新教材内容、调整课堂教学形式和提供个性化辅导；

F4、对调整后的教学方案进行监测和评估，收集学生家长的反馈和数据，利用教学质量指数计算公式，计算出调整后的教学方案对应的教学质量指数ε′，并与之前的教学质量指数ε进行比较，以评估调整效果；若ε′>ε则表示教学效果显著提升，反之则表示教学效果不明显，当前的调整方案需要重新制定。

本发明的技术效果和优点：

本发明通过数据采集模块采集相关数据；通过数据预处理模块，对收集到的数据进行预处理；通过数据处理模块，应用主题建模算法，将教辅热点数据中的关键字筛选出来，根据系统预先定义的组合规则将其重新组合成关键词，和词库进行对比分析，依据关键词权重因子大小进行降序排序，从而提取主题信息，根据主题信息将数据进行划分，并从每个子集中抽取适量的样本，以保持各个子集在总体中的比例，从而减小数据集规模，采用基于词典匹配的方法将每个词与情感词典进行匹配，并根据匹配结果计算用户情感得分，为后续模块提供数据支持；通过数据分析模块，利用多核或分布式处理的能力，将数据划分成多个小批次，并使用多个处理单元同时进行相关参数计算，提高处理速度，计算话题热门指数和公众舆情影响系数，为后续教学质量指数的计算提供数据支持；通过教学评估模块，收集学生的相关数据，计算教学质量指数，用于评估教学效果和满意度；通过教学方案调整模块，基于评估结果实现教学方案动态调整，为用户提供有针对性的教学资源，有效地分析和理解学生的学习需求，提高教学效果。

附图说明

图1为本发明的整体结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了如图1所示的一种基于大数据的教辅热点数据智能分析系统，包括数据采集模块、数据预处理模块、数据处理模块、数据分析模块、教学评估模块，以及教学方案调整模块；

所述数据采集模块用于收集教辅热点数据、用户的评论和社交媒体帖子；所述教辅热点数据包括教材、教辅书和网络资源；

本实施需要具体说明的是，所述数据采集模块的采集方式包括：采用网络爬虫技术，从教育相关的网站、论坛平台上爬取教辅热点数据、用户的评论和社交媒体帖子；利用开放API接口获取教辅热点数据、用户的评论和社交媒体帖子；通过监测社交媒体平台上的相关话题和标签，获取教辅热点数据、用户的评论和社交媒体帖子；

所述数据预处理模块用于对收集到的数据进行清洗、去重和分词预处理操作，以便后续分析；

本实施需要具体说明的是，所述数据预处理模块的处理过程为：

A1、利用正则表达式，去除教辅热点数据、用户的评论和社交媒体帖子中的特殊字符、标点符号和HTML标签；

A2、检查教辅热点数据、用户的评论和社交媒体帖子中是否存在缺失值，若存在缺失值则删除缺失值记录；

A3、对教辅热点数据、用户的评论和社交媒体帖子中的词汇进行词性标注，筛选出符合要求的关键词；其中词性标注可以有效地提取出名词、动词和形容词关键词，排除副词、介词非关键词；

A4、利用分词工具去除教辅热点数据、用户的评论和社交媒体帖子中的停用词；所述停用词是指在文本中频繁出现但对于理解文本内容并无实际帮助的词，例如“的”、“是”、“在”等，过滤掉这些词可以使关键词提取更为精准；

所述数据处理模块包括主题信息提取单元和用户情感得分计算单元；所述主题信息提取单元用于利用自然语言处理技术，对预处理后的教辅热点数据进行主题信息提取；所述用户情感得分计算单元，用于利用情感分析算法对预处理后的用户的评论和社交媒体帖子进行处理，计算用户情感得分；

本实施需要具体说明的是，所述主题信息提取单元的处理过程如下：

B1、应用主题建模算法，从教辅热点数据中提取主题信息；其处理过程如下：

B13、将各字符的权重因子μ和预先设定的权重因子阈值μ_阈进行判断对比，若μ≥μ_阈则将该字符筛选出来，作为数据集中的关键字，反之则为数据集中的非关键字；其中预先设定的权重因子阈值μ_阈，可依据具体情况具体设定，本实施例不对具体数据做具体限定；

B14、将筛选出来的关键字，根据系统预先定义的组合规则将其重新组合成关键词，和词库进行对比分析；所述词库包含相关知识领域的专业术语、常用词汇，以及其他与教辅热点数据相关的关键词；通过与词库的对比，可以进一步筛选和确认哪些关键字是与主题信息相关的；所述系统预先定义的组合规则可以根据用语习惯、词性关联进行设定；

B15、依据关键词权重因子大小进行降序排序，确定与教辅热点数据相关的关键词，将其作为主题信息；所述关键词权重因子计算公式为：/>，其中s表示关键词中关键字的总数量，/>表示关键字的权重因子；

B2、根据主题信息将数据进行划分，并从每个子集中抽取适量的样本，以保持各个子集在总体中的比例，这样可以减小数据集规模，同时保持样本分布的代表性；

所述根据主题信息将数据进行划分，具体是指将关键词进行聚类，将相似的关键词归为同一类别；通过聚类分析，可以发现主题之间的关联性和层次结构，进一步理解数据中的主题之间的关系；通过关联规则挖掘方法，分析关键词之间的关联性和频繁出现的组合；通过发现关键词之间的关联规则，可以揭示不同主题之间的交叉影响和内在联系；

本实施需要具体说明的是，所述用户情感得分计算单元的处理过程如下：

C1、构建一个情感词典，其中包含正面情感词汇、负面情感词汇和词汇对应的情感极性得分；所述情感词典可以是已有的公开词典，也可以根据特定领域的语料库构建自定义词典；

C2、对预处理后的用户的评论和社交媒体帖子中的每个词，采用基于词典匹配的方法将每个词与情感词典进行匹配，并根据匹配结果计算用户情感得分；即如果存在匹配的情感词，则根据该情感词的情感极性得分来计算情感得分，其中如果情感词的情感极性为正向，则将情感得分加上该情感词的情感极性得分；如果情感词的情感极性为负向，则将情感得分减去该情感词的情感极性得分，最终将所有数值求和得到用户情感得分γ；

所述数据分析模块用于利用统计方法，对主题信息进行分析，计算话题热门指数、公众舆情影响系数，将其传输至教学评估模块；

本实施需要具体说明的是，所述数据分析模块的具体处理过程如下：

D1、利用多核或分布式处理的能力，将数据划分成多个小批次，并使用多个处理单元同时进行相关参数计算；可以提高处理速度，特别是在处理大规模数据时效果更为显著；

D2、根据主题信息，计算话题热门指数、公众舆情影响系数；所述话题热门指数，具体是指根据话题讨论量Ra、话题转发量Rb和话题关注量Rc，计算话题热门指数Q，，其中f1，f2，f3表示各项的比例系数，比例系数的大小是为了将各个参数进行量化得到的一个具体的数值，便于后续比较，关于比例系数的大小，只要不影响参数与量化后数值的比例关系即可；通过对话题讨论量、话题转发量和话题关注量分别应用不同的函数进行转化，得到的话题热门指数可以更精确地反映哪些问题、事件或知识点在教辅领域的热度和受关注程度；

所述公众舆情影响系数，具体根据关键词在舆情数据中的出现频率和位置，结合关键词权重因子，计算关键词匹配度的总和，并将其作为舆情影响系数，具体的计算公式为：，其中G表示公众舆情影响系数，hj表示第j个关键词在舆情数据中的出现频率，/>表示第j个关键词在舆情数据中的出现位置，/>表示第j个关键词权重因子，m表示关键词总数量；

所述教学评估模块基于学生的考试成绩和日志记录，计算教学质量指数，用于评估教学效果和满意度；

本实施需要具体说明的是，所述教学评估模块的具体处理过程为：

，其中h1、h2、h3、h4分别表示各项的比例系数，比例系数的大小是为了将各个参数进行量化得到的一个具体的数值，便于后续比较，关于比例系数的大小，只要不影响参数与量化后数值的比例关系即可；

所述教学方案调整模块基于评估结果实现教学方案动态调整，为用户提供有针对性的教学资源；

本实施需要具体说明的是，所述教学方案调整模块的处理过程为：

F1、将教学质量指数ε和预先设定的教学质量阈值ε_阈进行判断对比，若ε≥ε_阈则表示家长和学生对于目前教学方案较为满意；若ε<ε_阈则表示家长和学生对于目前教学方案较为不满，需要进行调整；其中预先设定的教学质量阈值ε_阈，可依据具体情况具体设定，本实施例不对具体数据做具体限定；

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于大数据的教辅热点数据智能分析系统，其特征在于：包括：

2.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统，其特征在于：所述主题信息提取单元的处理过程如下：

B1、应用主题建模算法，从教辅热点数据中提取主题信息；

3.根据权利要求2所述的一种基于大数据的教辅热点数据智能分析系统，其特征在于：所述应用主题建模算法，从教辅热点数据中提取主题信息；其处理过程如下：

4.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统，其特征在于：所述用户情感得分计算单元的处理过程如下：

5.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统，其特征在于：所述数据分析模块的具体处理过程如下：

6.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统，其特征在于：所述教学评估模块的具体处理过程为：

，其中h1、h2、h3、h4分别表示各项的比例系数。

7.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统，其特征在于：所述教学方案调整模块的处理过程为：