CN117271710A - 一种基于大数据的教辅热点数据智能分析系统 - Google Patents
一种基于大数据的教辅热点数据智能分析系统 Download PDFInfo
- Publication number
- CN117271710A CN117271710A CN202311532575.3A CN202311532575A CN117271710A CN 117271710 A CN117271710 A CN 117271710A CN 202311532575 A CN202311532575 A CN 202311532575A CN 117271710 A CN117271710 A CN 117271710A
- Authority
- CN
- China
- Prior art keywords
- teaching
- data
- emotion
- module
- hot spot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000007405 data analysis Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000008451 emotion Effects 0.000 claims description 84
- 238000000034 method Methods 0.000 claims description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 239000000463 material Substances 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的教辅热点数据智能分析系统,具体涉及数据分析技术领域,包括数据采集模块、数据预处理模块、数据处理模块、数据分析模块、教学评估模块,以及教学方案调整模块;通过数据处理模块提取主题信息,根据主题信息将数据进行划分,并从每个子集中抽取适量的样本,从而减小数据集规模;通过数据分析模块,利用多核或分布式处理的能力,将数据划分成多个小批次,并使用多个处理单元同时进行相关参数计算,提高处理速度;通过教学评估模块,收集学生的相关数据,计算教学质量指数,用于评估教学效果和满意度;通过教学方案调整模块,基于评估结果实现教学方案动态调整,为用户提供有针对性的教学资源。
Description
技术领域
本发明涉及数据分析技术领域,更具体地说,本发明涉及一种基于大数据的教辅热点数据智能分析系统。
背景技术
随着信息技术的发展,大数据已经成为了各行各业的重要工具。在教育领域,大数据的应用也日益广泛,特别是在教辅热点数据的分析和处理上。
现有的教辅热点数据智能分析系统通过对大量的教辅热点数据进行分析,可以帮助教师和学生更好地理解和掌握教学内容。
然而,现有的教辅热点数据智能分析系统的分析能力有限,无法为用户提供有针对性的教学资源,没有实现教学方案动态调整;用户且数据处理速度较慢,无法满足实时分析的需求。
发明内容
为了克服现有技术的上述缺陷,本发明提供一种基于大数据的教辅热点数据智能分析系统,通过数据处理模块,将数据集中的关键字筛选出来,根据系统预先定义的组合规则将其重新组合成关键词,和词库进行对比分析,依据关键词权重因子大小进行降序排序,从而提取主题信息,根据主题信息将数据进行划分,并从每个子集中抽取适量的样本,以保持各个子集在总体中的比例,从而减小数据集规模;通过数据分析模块,利用多核或分布式处理的能力,将数据划分成多个小批次,并使用多个处理单元同时进行相关参数计算,提高处理速度;通过教学评估模块,收集学生的相关数据,计算教学质量指数,用于评估教学效果和满意度;通过教学方案调整模块,基于评估结果实现教学方案动态调整,为用户提供有针对性的教学资源,有效地分析和理解学生的学习需求,提高教学效果,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大数据的教辅热点数据智能分析系统,包括:
数据采集模块:用于收集教辅热点数据、用户的评论和社交媒体帖子;所述教辅热点数据包括教材、教辅书和网络资源;
数据预处理模块:用于对收集到的数据进行清洗、去重和分词预处理操作;
数据处理模块包括主题信息提取单元和用户情感得分计算单元;所述主题信息提取单元用于利用自然语言处理技术,对预处理后的教辅热点数据进行主题信息提取;所述用户情感得分计算单元,用于利用情感分析算法对预处理后的用户的评论和社交媒体帖子进行处理,计算用户情感得分;
数据分析模块:用于利用统计方法,对主题信息进行分析,计算话题热门指数、公众舆情影响系数,将其传输至教学评估模块;
教学评估模块:基于学生的考试成绩和日志记录,计算教学质量指数,用于评估教学效果和满意度;
教学方案调整模块:基于评估结果实现教学方案动态调整,为用户提供有针对性的教学资源。
在一个优选的实施方式中,所述主题信息提取单元的处理过程如下:
B1、应用主题建模算法,从教辅热点数据中提取主题信息;
B2、根据主题信息将数据进行划分,并从每个子集中抽取适量的样本。
在一个优选的实施方式中,所述应用主题建模算法,从教辅热点数据中提取主题信息;其处理过程如下:
B11、将对预处理后的教辅热点数据转化为字符串格式,对字符串进行遍历,将每个字符作为一个单独的元素,存储到数据集中;
B12、计算数据集中各字符的权重因子;所述权重因子μ的计算公式为:,其中α表示某字符在文档中出现的次数,n表示总字数,Tp表示文档总数,Tq表示包含该字符的文档数;
B13、将各字符的权重因子μ和预先设定的权重因子阈值μ阈进行判断对比,若μ≥μ阈则将该字符筛选出来,作为数据集中的关键字,反之则为数据集中的非关键字;
B14、将筛选出来的关键字,根据系统预先定义的组合规则将其重新组合成关键词,和词库进行对比分析;所述词库包含相关知识领域的专业术语、常用词汇,以及其他与教辅热点数据相关的关键词;
B15、依据关键词权重因子大小进行降序排序,确定与教辅热点数据相关的关键词,将其作为主题信息;所述关键词权重因子计算公式为:/>,其中s表示关键词中关键字的总数量,/>表示关键字的权重因子。
在一个优选的实施方式中,所述用户情感得分计算单元的处理过程如下:
C1、构建一个情感词典,其中包含正面情感词汇、负面情感词汇和词汇对应的情感极性得分;
C2、对预处理后的用户的评论和社交媒体帖子中的每个词,采用基于词典匹配的方法将每个词与情感词典进行匹配,并根据匹配结果计算用户情感得分;即如果存在匹配的情感词,则根据该情感词的情感极性得分来计算情感得分,其中如果情感词的情感极性为正向,则将情感得分加上该情感词的情感极性得分;如果情感词的情感极性为负向,则将情感得分减去该情感词的情感极性得分,最终将所有数值求和得到用户情感得分γ。
在一个优选的实施方式中,所述数据分析模块的具体处理过程如下:
D1、利用多核或分布式处理的能力,将数据划分成多个小批次,并使用多个处理单元同时进行相关参数计算;
D2、根据主题信息,计算话题热门指数、公众舆情影响系数;所述话题热门指数,具体是指根据话题讨论量Ra、话题转发量Rb和话题关注量Rc,计算话题热门指数Q,,其中f1,f2,f3表示各项的比例系数;
所述公众舆情影响系数,具体根据关键词在舆情数据中的出现频率和位置,结合关键词权重因子,计算关键词匹配度的总和,并将其作为舆情影响系数,具体的计算公式为:,其中G表示公众舆情影响系数,hj表示第j个关键词在舆情数据中的出现频率,/>表示第j个关键词在舆情数据中的出现位置,/>表示第j个关键词权重因子,m表示关键词总数量。
在一个优选的实施方式中,所述教学评估模块的具体处理过程为:
E1、根据学生的考试成绩和日志记录,计算平均成绩和参与度百分比;所述平均成绩Ca:,所述参与度百分比Cw:/>,其中Cai表示第i个学生的成绩分值,cw表示参与人数,w表示学生总人数;
E2、根据平均成绩Ca、参与度百分比Cw,结合话题热门指数Q、公众舆情影响系数G,以及用户情感得分γ,计算教学质量指数ε;
,其中h1、h2、h3、h4分别表示各项的比例系数。
在一个优选的实施方式中,所述教学方案调整模块的处理过程为:
F1、将教学质量指数ε和预先设定的教学质量阈值ε阈进行判断对比,若ε≥ε阈则表示家长和学生对于目前教学方案较为满意;若ε<ε阈则表示家长和学生对于目前教学方案较为不满,需要进行调整;
F2、针对家长和学生对于目前教学方案较为不满的结果,制定具体的调整方案;所述调整方案包括但不限于增加相关的教学活动、补充相关的教学材料和改进教学方法;
F3、根据制定的调整方案,实施相应的教学方案调整措施,具体包括更新教材内容、调整课堂教学形式和提供个性化辅导;
F4、对调整后的教学方案进行监测和评估,收集学生家长的反馈和数据,利用教学质量指数计算公式,计算出调整后的教学方案对应的教学质量指数ε′,并与之前的教学质量指数ε进行比较,以评估调整效果;若ε′>ε则表示教学效果显著提升,反之则表示教学效果不明显,当前的调整方案需要重新制定。
本发明的技术效果和优点:
本发明通过数据采集模块采集相关数据;通过数据预处理模块,对收集到的数据进行预处理;通过数据处理模块,应用主题建模算法,将教辅热点数据中的关键字筛选出来,根据系统预先定义的组合规则将其重新组合成关键词,和词库进行对比分析,依据关键词权重因子大小进行降序排序,从而提取主题信息,根据主题信息将数据进行划分,并从每个子集中抽取适量的样本,以保持各个子集在总体中的比例,从而减小数据集规模,采用基于词典匹配的方法将每个词与情感词典进行匹配,并根据匹配结果计算用户情感得分,为后续模块提供数据支持;通过数据分析模块,利用多核或分布式处理的能力,将数据划分成多个小批次,并使用多个处理单元同时进行相关参数计算,提高处理速度,计算话题热门指数和公众舆情影响系数,为后续教学质量指数的计算提供数据支持;通过教学评估模块,收集学生的相关数据,计算教学质量指数,用于评估教学效果和满意度;通过教学方案调整模块,基于评估结果实现教学方案动态调整,为用户提供有针对性的教学资源,有效地分析和理解学生的学习需求,提高教学效果。
附图说明
图1为本发明的整体结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1所示的一种基于大数据的教辅热点数据智能分析系统,包括数据采集模块、数据预处理模块、数据处理模块、数据分析模块、教学评估模块,以及教学方案调整模块;
所述数据采集模块用于收集教辅热点数据、用户的评论和社交媒体帖子;所述教辅热点数据包括教材、教辅书和网络资源;
本实施需要具体说明的是,所述数据采集模块的采集方式包括:采用网络爬虫技术,从教育相关的网站、论坛平台上爬取教辅热点数据、用户的评论和社交媒体帖子;利用开放API接口获取教辅热点数据、用户的评论和社交媒体帖子;通过监测社交媒体平台上的相关话题和标签,获取教辅热点数据、用户的评论和社交媒体帖子;
所述数据预处理模块用于对收集到的数据进行清洗、去重和分词预处理操作,以便后续分析;
本实施需要具体说明的是,所述数据预处理模块的处理过程为:
A1、利用正则表达式,去除教辅热点数据、用户的评论和社交媒体帖子中的特殊字符、标点符号和HTML标签;
A2、检查教辅热点数据、用户的评论和社交媒体帖子中是否存在缺失值,若存在缺失值则删除缺失值记录;
A3、对教辅热点数据、用户的评论和社交媒体帖子中的词汇进行词性标注,筛选出符合要求的关键词;其中词性标注可以有效地提取出名词、动词和形容词关键词,排除副词、介词非关键词;
A4、利用分词工具去除教辅热点数据、用户的评论和社交媒体帖子中的停用词;所述停用词是指在文本中频繁出现但对于理解文本内容并无实际帮助的词,例如“的”、“是”、“在”等,过滤掉这些词可以使关键词提取更为精准;
所述数据处理模块包括主题信息提取单元和用户情感得分计算单元;所述主题信息提取单元用于利用自然语言处理技术,对预处理后的教辅热点数据进行主题信息提取;所述用户情感得分计算单元,用于利用情感分析算法对预处理后的用户的评论和社交媒体帖子进行处理,计算用户情感得分;
本实施需要具体说明的是,所述主题信息提取单元的处理过程如下:
B1、应用主题建模算法,从教辅热点数据中提取主题信息;其处理过程如下:
B11、将对预处理后的教辅热点数据转化为字符串格式,对字符串进行遍历,将每个字符作为一个单独的元素,存储到数据集中;
B12、计算数据集中各字符的权重因子;所述权重因子μ的计算公式为:,其中α表示某字符在文档中出现的次数,n表示总字数,Tp表示文档总数,Tq表示包含该字符的文档数;
B13、将各字符的权重因子μ和预先设定的权重因子阈值μ阈进行判断对比,若μ≥μ阈则将该字符筛选出来,作为数据集中的关键字,反之则为数据集中的非关键字;其中预先设定的权重因子阈值μ阈,可依据具体情况具体设定,本实施例不对具体数据做具体限定;
B14、将筛选出来的关键字,根据系统预先定义的组合规则将其重新组合成关键词,和词库进行对比分析;所述词库包含相关知识领域的专业术语、常用词汇,以及其他与教辅热点数据相关的关键词;通过与词库的对比,可以进一步筛选和确认哪些关键字是与主题信息相关的;所述系统预先定义的组合规则可以根据用语习惯、词性关联进行设定;
B15、依据关键词权重因子大小进行降序排序,确定与教辅热点数据相关的关键词,将其作为主题信息;所述关键词权重因子计算公式为:/>,其中s表示关键词中关键字的总数量,/>表示关键字的权重因子;
B2、根据主题信息将数据进行划分,并从每个子集中抽取适量的样本,以保持各个子集在总体中的比例,这样可以减小数据集规模,同时保持样本分布的代表性;
所述根据主题信息将数据进行划分,具体是指将关键词进行聚类,将相似的关键词归为同一类别;通过聚类分析,可以发现主题之间的关联性和层次结构,进一步理解数据中的主题之间的关系;通过关联规则挖掘方法,分析关键词之间的关联性和频繁出现的组合;通过发现关键词之间的关联规则,可以揭示不同主题之间的交叉影响和内在联系;
本实施需要具体说明的是,所述用户情感得分计算单元的处理过程如下:
C1、构建一个情感词典,其中包含正面情感词汇、负面情感词汇和词汇对应的情感极性得分;所述情感词典可以是已有的公开词典,也可以根据特定领域的语料库构建自定义词典;
C2、对预处理后的用户的评论和社交媒体帖子中的每个词,采用基于词典匹配的方法将每个词与情感词典进行匹配,并根据匹配结果计算用户情感得分;即如果存在匹配的情感词,则根据该情感词的情感极性得分来计算情感得分,其中如果情感词的情感极性为正向,则将情感得分加上该情感词的情感极性得分;如果情感词的情感极性为负向,则将情感得分减去该情感词的情感极性得分,最终将所有数值求和得到用户情感得分γ;
所述数据分析模块用于利用统计方法,对主题信息进行分析,计算话题热门指数、公众舆情影响系数,将其传输至教学评估模块;
本实施需要具体说明的是,所述数据分析模块的具体处理过程如下:
D1、利用多核或分布式处理的能力,将数据划分成多个小批次,并使用多个处理单元同时进行相关参数计算;可以提高处理速度,特别是在处理大规模数据时效果更为显著;
D2、根据主题信息,计算话题热门指数、公众舆情影响系数;所述话题热门指数,具体是指根据话题讨论量Ra、话题转发量Rb和话题关注量Rc,计算话题热门指数Q,,其中f1,f2,f3表示各项的比例系数,比例系数的大小是为了将各个参数进行量化得到的一个具体的数值,便于后续比较,关于比例系数的大小,只要不影响参数与量化后数值的比例关系即可;通过对话题讨论量、话题转发量和话题关注量分别应用不同的函数进行转化,得到的话题热门指数可以更精确地反映哪些问题、事件或知识点在教辅领域的热度和受关注程度;
所述公众舆情影响系数,具体根据关键词在舆情数据中的出现频率和位置,结合关键词权重因子,计算关键词匹配度的总和,并将其作为舆情影响系数,具体的计算公式为:,其中G表示公众舆情影响系数,hj表示第j个关键词在舆情数据中的出现频率,/>表示第j个关键词在舆情数据中的出现位置,/>表示第j个关键词权重因子,m表示关键词总数量;
所述教学评估模块基于学生的考试成绩和日志记录,计算教学质量指数,用于评估教学效果和满意度;
本实施需要具体说明的是,所述教学评估模块的具体处理过程为:
E1、根据学生的考试成绩和日志记录,计算平均成绩和参与度百分比;所述平均成绩Ca:,所述参与度百分比Cw:/>,其中Cai表示第i个学生的成绩分值,cw表示参与人数,w表示学生总人数;
E2、根据平均成绩Ca、参与度百分比Cw,结合话题热门指数Q、公众舆情影响系数G,以及用户情感得分γ,计算教学质量指数ε;
,其中h1、h2、h3、h4分别表示各项的比例系数,比例系数的大小是为了将各个参数进行量化得到的一个具体的数值,便于后续比较,关于比例系数的大小,只要不影响参数与量化后数值的比例关系即可;
所述教学方案调整模块基于评估结果实现教学方案动态调整,为用户提供有针对性的教学资源;
本实施需要具体说明的是,所述教学方案调整模块的处理过程为:
F1、将教学质量指数ε和预先设定的教学质量阈值ε阈进行判断对比,若ε≥ε阈则表示家长和学生对于目前教学方案较为满意;若ε<ε阈则表示家长和学生对于目前教学方案较为不满,需要进行调整;其中预先设定的教学质量阈值ε阈,可依据具体情况具体设定,本实施例不对具体数据做具体限定;
F2、针对家长和学生对于目前教学方案较为不满的结果,制定具体的调整方案;所述调整方案包括但不限于增加相关的教学活动、补充相关的教学材料和改进教学方法;
F3、根据制定的调整方案,实施相应的教学方案调整措施,具体包括更新教材内容、调整课堂教学形式和提供个性化辅导;
F4、对调整后的教学方案进行监测和评估,收集学生家长的反馈和数据,利用教学质量指数计算公式,计算出调整后的教学方案对应的教学质量指数ε′,并与之前的教学质量指数ε进行比较,以评估调整效果;若ε′>ε则表示教学效果显著提升,反之则表示教学效果不明显,当前的调整方案需要重新制定。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种基于大数据的教辅热点数据智能分析系统,其特征在于:包括:
数据采集模块:用于收集教辅热点数据、用户的评论和社交媒体帖子;所述教辅热点数据包括教材、教辅书和网络资源;
数据预处理模块:用于对收集到的数据进行清洗、去重和分词预处理操作;
数据处理模块包括主题信息提取单元和用户情感得分计算单元;所述主题信息提取单元用于利用自然语言处理技术,对预处理后的教辅热点数据进行主题信息提取;所述用户情感得分计算单元,用于利用情感分析算法对预处理后的用户的评论和社交媒体帖子进行处理,计算用户情感得分;
数据分析模块:用于利用统计方法,对主题信息进行分析,计算话题热门指数、公众舆情影响系数,将其传输至教学评估模块;
教学评估模块:基于学生的考试成绩和日志记录,计算教学质量指数,用于评估教学效果和满意度;
教学方案调整模块:基于评估结果实现教学方案动态调整,为用户提供有针对性的教学资源。
2.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统,其特征在于:所述主题信息提取单元的处理过程如下:
B1、应用主题建模算法,从教辅热点数据中提取主题信息;
B2、根据主题信息将数据进行划分,并从每个子集中抽取适量的样本。
3.根据权利要求2所述的一种基于大数据的教辅热点数据智能分析系统,其特征在于:所述应用主题建模算法,从教辅热点数据中提取主题信息;其处理过程如下:
B11、将对预处理后的教辅热点数据转化为字符串格式,对字符串进行遍历,将每个字符作为一个单独的元素,存储到数据集中;
B12、计算数据集中各字符的权重因子;所述权重因子μ的计算公式为:,其中α表示某字符在文档中出现的次数,n表示总字数,Tp表示文档总数,Tq表示包含该字符的文档数;
B13、将各字符的权重因子μ和预先设定的权重因子阈值μ阈进行判断对比,若μ≥μ阈则将该字符筛选出来,作为数据集中的关键字,反之则为数据集中的非关键字;
B14、将筛选出来的关键字,根据系统预先定义的组合规则将其重新组合成关键词,和词库进行对比分析;所述词库包含相关知识领域的专业术语、常用词汇,以及其他与教辅热点数据相关的关键词;
B15、依据关键词权重因子大小进行降序排序,确定与教辅热点数据相关的关键词,将其作为主题信息;所述关键词权重因子计算公式为:/>,其中s表示关键词中关键字的总数量,/>表示关键字的权重因子。
4.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统,其特征在于:所述用户情感得分计算单元的处理过程如下:
C1、构建一个情感词典,其中包含正面情感词汇、负面情感词汇和词汇对应的情感极性得分;
C2、对预处理后的用户的评论和社交媒体帖子中的每个词,采用基于词典匹配的方法将每个词与情感词典进行匹配,并根据匹配结果计算用户情感得分;即如果存在匹配的情感词,则根据该情感词的情感极性得分来计算情感得分,其中如果情感词的情感极性为正向,则将情感得分加上该情感词的情感极性得分;如果情感词的情感极性为负向,则将情感得分减去该情感词的情感极性得分,最终将所有数值求和得到用户情感得分γ。
5.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统,其特征在于:所述数据分析模块的具体处理过程如下:
D1、利用多核或分布式处理的能力,将数据划分成多个小批次,并使用多个处理单元同时进行相关参数计算;
D2、根据主题信息,计算话题热门指数、公众舆情影响系数;所述话题热门指数,具体是指根据话题讨论量Ra、话题转发量Rb和话题关注量Rc,计算话题热门指数Q,,其中f1,f2,f3表示各项的比例系数;
所述公众舆情影响系数,具体根据关键词在舆情数据中的出现频率和位置,结合关键词权重因子,计算关键词匹配度的总和,并将其作为舆情影响系数,具体的计算公式为:,其中G表示公众舆情影响系数,hj表示第j个关键词在舆情数据中的出现频率,/>表示第j个关键词在舆情数据中的出现位置,/>表示第j个关键词权重因子,m表示关键词总数量。
6.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统,其特征在于:所述教学评估模块的具体处理过程为:
E1、根据学生的考试成绩和日志记录,计算平均成绩和参与度百分比;所述平均成绩Ca:,所述参与度百分比Cw:/>,其中Cai表示第i个学生的成绩分值,cw表示参与人数,w表示学生总人数;
E2、根据平均成绩Ca、参与度百分比Cw,结合话题热门指数Q、公众舆情影响系数G,以及用户情感得分γ,计算教学质量指数ε;
,其中h1、h2、h3、h4分别表示各项的比例系数。
7.根据权利要求1所述的一种基于大数据的教辅热点数据智能分析系统,其特征在于:所述教学方案调整模块的处理过程为:
F1、将教学质量指数ε和预先设定的教学质量阈值ε阈进行判断对比,若ε≥ε阈则表示家长和学生对于目前教学方案较为满意;若ε<ε阈则表示家长和学生对于目前教学方案较为不满,需要进行调整;
F2、针对家长和学生对于目前教学方案较为不满的结果,制定具体的调整方案;所述调整方案包括但不限于增加相关的教学活动、补充相关的教学材料和改进教学方法;
F3、根据制定的调整方案,实施相应的教学方案调整措施,具体包括更新教材内容、调整课堂教学形式和提供个性化辅导;
F4、对调整后的教学方案进行监测和评估,收集学生家长的反馈和数据,利用教学质量指数计算公式,计算出调整后的教学方案对应的教学质量指数ε′,并与之前的教学质量指数ε进行比较,以评估调整效果;若ε′>ε则表示教学效果显著提升,反之则表示教学效果不明显,当前的调整方案需要重新制定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311532575.3A CN117271710B (zh) | 2023-11-17 | 2023-11-17 | 一种基于大数据的教辅热点数据智能分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311532575.3A CN117271710B (zh) | 2023-11-17 | 2023-11-17 | 一种基于大数据的教辅热点数据智能分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117271710A true CN117271710A (zh) | 2023-12-22 |
CN117271710B CN117271710B (zh) | 2024-01-30 |
Family
ID=89208350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311532575.3A Active CN117271710B (zh) | 2023-11-17 | 2023-11-17 | 一种基于大数据的教辅热点数据智能分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271710B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8602793B1 (en) * | 2006-07-11 | 2013-12-10 | Erwin Ernest Sniedzins | Real time learning and self improvement educational system and method |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN106296312A (zh) * | 2016-08-30 | 2017-01-04 | 江苏名通信息科技有限公司 | 基于社交媒体的在线教育资源推荐系统 |
CN107122478A (zh) * | 2017-05-03 | 2017-09-01 | 成都云数未来信息科学有限公司 | 一种基于关键词提取热点话题的方法 |
US20180181662A1 (en) * | 2016-12-28 | 2018-06-28 | Facebook, Inc. | Selecting User Posts Related to Trending Topics on Online Social Networks |
CN110363448A (zh) * | 2019-07-24 | 2019-10-22 | 贺中彬 | 一种持续优化和提升教学质量的方法和系统 |
WO2021260684A1 (en) * | 2020-06-21 | 2021-12-30 | Avivi Eliahu Kadoori | System and method for detection and auto-validation of key data in any non-handwritten document |
WO2022095458A1 (zh) * | 2020-11-03 | 2022-05-12 | 深圳市爱云信息科技有限公司 | 智慧教育aiot学生成长能力模型大数据平台和装置 |
CN114493948A (zh) * | 2022-02-11 | 2022-05-13 | 刘官山 | 一种大数据学习系统 |
CN116306661A (zh) * | 2022-07-27 | 2023-06-23 | 陕西师范大学 | 一种基于社交媒体数据的生态系统文化服务评估方法 |
CN116361472A (zh) * | 2023-05-02 | 2023-06-30 | 周维 | 社交网络评论热点事件舆情大数据分析系统 |
CN116561295A (zh) * | 2023-04-04 | 2023-08-08 | 六安艺利创新科技有限公司 | 一种互联网数据提取系统 |
CN116823028A (zh) * | 2023-06-05 | 2023-09-29 | 中银金融科技有限公司 | 教学质量评价系统及方法 |
KR102591285B1 (ko) * | 2023-01-17 | 2023-10-19 | 주식회사 옐로우보드 | 직무교육 플랫폼 시스템 |
CN116934161A (zh) * | 2023-07-26 | 2023-10-24 | 河南经贸职业学院 | 一种基于大数据的中文线上教育指导系统 |
-
2023
- 2023-11-17 CN CN202311532575.3A patent/CN117271710B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8602793B1 (en) * | 2006-07-11 | 2013-12-10 | Erwin Ernest Sniedzins | Real time learning and self improvement educational system and method |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN106296312A (zh) * | 2016-08-30 | 2017-01-04 | 江苏名通信息科技有限公司 | 基于社交媒体的在线教育资源推荐系统 |
US20180181662A1 (en) * | 2016-12-28 | 2018-06-28 | Facebook, Inc. | Selecting User Posts Related to Trending Topics on Online Social Networks |
CN107122478A (zh) * | 2017-05-03 | 2017-09-01 | 成都云数未来信息科学有限公司 | 一种基于关键词提取热点话题的方法 |
CN110363448A (zh) * | 2019-07-24 | 2019-10-22 | 贺中彬 | 一种持续优化和提升教学质量的方法和系统 |
WO2021260684A1 (en) * | 2020-06-21 | 2021-12-30 | Avivi Eliahu Kadoori | System and method for detection and auto-validation of key data in any non-handwritten document |
WO2022095458A1 (zh) * | 2020-11-03 | 2022-05-12 | 深圳市爱云信息科技有限公司 | 智慧教育aiot学生成长能力模型大数据平台和装置 |
CN114493948A (zh) * | 2022-02-11 | 2022-05-13 | 刘官山 | 一种大数据学习系统 |
CN116306661A (zh) * | 2022-07-27 | 2023-06-23 | 陕西师范大学 | 一种基于社交媒体数据的生态系统文化服务评估方法 |
KR102591285B1 (ko) * | 2023-01-17 | 2023-10-19 | 주식회사 옐로우보드 | 직무교육 플랫폼 시스템 |
CN116561295A (zh) * | 2023-04-04 | 2023-08-08 | 六安艺利创新科技有限公司 | 一种互联网数据提取系统 |
CN116361472A (zh) * | 2023-05-02 | 2023-06-30 | 周维 | 社交网络评论热点事件舆情大数据分析系统 |
CN116823028A (zh) * | 2023-06-05 | 2023-09-29 | 中银金融科技有限公司 | 教学质量评价系统及方法 |
CN116934161A (zh) * | 2023-07-26 | 2023-10-24 | 河南经贸职业学院 | 一种基于大数据的中文线上教育指导系统 |
Non-Patent Citations (4)
Title |
---|
刘义平: "新媒体环境下教辅图书数字化服务做法探索", 新闻研究导刊, vol. 10, no. 7, pages 170 * |
刘若兰 等: "教材在线评论的情感倾向性分析", 计算机系统应用, vol. 26, no. 10, pages 144 - 149 * |
李斌阳 等: "基于情感时间序列的微博热点主题检测", 中国科学:信息科学, vol. 45, no. 12, pages 1547 - 1557 * |
赵芬 等: "基于百度贴吧大学生网络舆情分析", 电脑知识与技术, vol. 14, no. 28, pages 227 - 229 * |
Also Published As
Publication number | Publication date |
---|---|
CN117271710B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN104820629B (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN109299865B (zh) | 基于语义分析的心理测评系统及方法、信息数据处理终端 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN106294330B (zh) | 一种科技文本挑选方法及装置 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
Hannan et al. | Data Mining and Natural Language Processing Methods for Extracting Opinions from Customer Reviews | |
Häring et al. | Who is addressed in this comment? Automatically classifying meta-comments in news comments | |
CN109062895A (zh) | 一种智能语义处理方法 | |
Van Atteveldt et al. | Studying political decision making with automatic text analysis | |
CN116070599A (zh) | 智能化题库生成及辅助管理系统 | |
Fauziah et al. | Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review | |
Flor et al. | Text mining and automated scoring | |
Hasanati et al. | Implementation of support vector machine with lexicon based for sentimenT ANALYSIS ON TWITter | |
Da et al. | Deep learning based dual encoder retrieval model for citation recommendation | |
Reviriego et al. | Playing with words: Comparing the vocabulary and lexical richness of ChatGPT and humans | |
CN108614860A (zh) | 一种律师信息处理方法和系统 | |
Nguyen et al. | Analyzing customer experience in hotel services using topic modeling | |
CN117271710B (zh) | 一种基于大数据的教辅热点数据智能分析系统 | |
CN116542676A (zh) | 一种基于大数据分析的智能客服系统及其方法 | |
CN116186422A (zh) | 基于社交媒体和人工智能的疾病相关舆情分析系统 | |
CN112612895B (zh) | 一种主体话题态度指数的计算方法 | |
CN115619443A (zh) | 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统 | |
CN115017271A (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN114064878A (zh) | 一种基于强化学习的自然语言数据打标方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |