CN112101039A - 一种面向在线学习社区的学习兴趣发现方法 - Google Patents

一种面向在线学习社区的学习兴趣发现方法 Download PDF

Info

Publication number
CN112101039A
CN112101039A CN202010776809.9A CN202010776809A CN112101039A CN 112101039 A CN112101039 A CN 112101039A CN 202010776809 A CN202010776809 A CN 202010776809A CN 112101039 A CN112101039 A CN 112101039A
Authority
CN
China
Prior art keywords
learning
emotion
interest
learning interest
learner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010776809.9A
Other languages
English (en)
Inventor
杨宗凯
刘三女牙
刘智
刘石奇
粟柱
赵亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202010776809.9A priority Critical patent/CN112101039A/zh
Publication of CN112101039A publication Critical patent/CN112101039A/zh
Priority to PCT/CN2021/107751 priority patent/WO2022028249A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术自然语言处理领域的文本挖掘技术,提供一种面向在线学习社区的学习兴趣发现方法,包括:采集在线学习社区中学习者生成的多维度行为和文本信息;融合领域知识命名实体词和学习情绪词进行文本分词;基于时序‑情绪‑主题的文本建模算法,挖掘与情绪和时序信息相关的兴趣主题概率分布;基于语义相似度计算方法,鉴别学习者的学习兴趣和非学习兴趣;根据应用场景,输出学习兴趣标签及其权重。本发明方法能有效发现学习者的学习兴趣,并显著提高学习兴趣的可解释性和准确性,有助于为学习者提供个性化的学习服务。

Description

一种面向在线学习社区的学习兴趣发现方法
技术领域
本发明涉及计算机技术自然语言处理领域的文本挖掘技术,尤其涉及一种面向在线学习社区的基于时序-情绪-主题建模的学习兴趣发现方法。
背景技术
在线学习社区为不同空间和时间的学习者提供了协作学习和知识建构的场所,弥补了网络互动场景下社会情绪和认知交流的缺失。其中,学习者产生的大量非结构化文本信息中蕴藏着大量的学习兴趣信息。
然而,由于学习兴趣作为一个教育心理学的概念,其与领域知识、学习者情绪、时序演化等因素密切相关,常用的点击流日志分析方法和关键词挖掘方法并不能有效地发现和追踪与学习内容相关的兴趣。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面向在线学习社区的学习兴趣发现方法,用于解决现有学习兴趣发现方法偏离教育心理学理论,无法有效发现学习兴趣的问题。
本发明的目的是通过以下技术措施实现的。
一种面向在线学习社区的学习兴趣发现方法,包括以下步骤:
(1)采集在线学习社区中学习者生成的多维度行为和文本信息;
(2)融合领域知识命名实体词和学习情绪词进行文本分词;
(3)基于时序-情绪-主题的文本建模算法,挖掘与情绪和时序信息相关的兴趣主题概率分布;
(4)基于语义相似度计算方法,鉴别学习者的学习兴趣和非学习兴趣;
(5)根据应用场景,输出学习兴趣标签及其权重。
在上述技术方案中,步骤(2)中进行文本分词的具体方法包括:
(2-1)通过筛选情绪词典的方法和人工标注的方法,获得学习情绪词典;
(2-2)使用新词发现方法从网络课程的学习材料(例如:课件和习题等)中获取领域知识相关的命名实体词,获得领域知识命名实体词典;
(2-3)基于领域知识命名实体词典和学习情绪词典,对学习者生成内容进行分词,同时去除停用词和替换同义词。
在上述技术方案中,步骤(3)中所述“基于时序-情绪-主题的文本建模算法”,包括:
(3-1)根据教育心理学理论建构时间、情绪、主题、词汇等多变量关联的概率图模型;
(3-2)读入分词后的学习者生成内容和学习情绪词典,设置主题数量和其他超参数;
(3-3)初始化句子的情绪类别和主题编号矩阵;
(3-4)通过吉布斯采样的多次迭代,估计每个句子的情绪和主题;
(3-5)计算每个学习者发帖的情绪-主题分布、情绪-主题-词分布、情绪分布、情感-主题-时序分布;
(3-6)计算主题数量评估曲线,选取最优主题数量。
在上述技术方案中,步骤(4)中所述“基于语义相似度计算方法,鉴别学习者的学习兴趣和非学习兴趣”,包括:
(4-1)使用维基百科和教学材料文本训练词向量;
(4-2)计算兴趣词与领域知识词向量的语义相似度,根据场景需求设置阈值,以该阈值为基准,鉴别学习兴趣和非学习兴趣。
本发明的有益效果在于:本发明通过采集学习者在学习社区中生成的文本信息及行为特征,并结合教育心理学理论将时序-情绪-主题进行联合建模挖掘兴趣信息,之后使用语义相似度计算方法鉴别学习兴趣与非学习兴趣。该方法能有效发现学习者的学习兴趣,并显著提高学习兴趣的可解释性和准确性,有助于为学习者提供个性化的学习服务。
附图说明
为了更清晰明确地说明本发明实施例的技术方案,下面将对实施例的实现流程附图作简要介绍。
图1为本发明面向在线学习社区的学习兴趣发现方法的流程图。
图2为本发明的基于时序-情绪-主题的文本建模算法流程图。
具体实施方式
为了更清晰具体地说明本发明的目的和技术方案,以下结合附图及实施例,对本发明的具体细节做详细说明。应当理解,此处描述的具体实施例仅用于解释本发明,并不限定于本发明。
请参阅图1所示,本发明实施例提供一种面向在线学习社区的学习兴趣发现方法,包括以下步骤:
A000:采集在线学习社区中学习者生成的多维度行为与文本信息。在线学习社区为学习者提供了丰富的对话表达方式,包括学习者的发帖、回复和表情等文本内容,以及反对、赞同和收藏等点击行为。其中,点击行为会被进一步替换为情绪词与发帖文本拼接。
A001:融合领域知识命名实体词和学习情绪词进行文本分词。通过教材概念表导入初始的命名实体词,并使用词向量聚类、信息熵和互信息等新词发现方法扩充领域知识相关实体词;通过人工筛选和标注的方法获得包含积极、困惑和消极类别的学习情绪词典;之后,替换同义词,去除停用词和低频词得到分词序列。
A002:基于时序-情绪-主题的文本建模算法,挖掘情绪和时序信息相关的兴趣主题概率分布。通过教育心理学对学习兴趣的假设,将时序、情绪、主题作为概率图模型的生成变量,从而建立学习社区对话文本的形式化生成模型;之后,通过吉布斯采样算法计算出时序维度上兴趣主题概率及主题词的分布。
A003:参阅公式(1)所示,基于语义相似度计算方法,鉴别学习者的学习兴趣和非学习兴趣。将兴趣主题词分布与领域知识词进行词向量的语义相似度计算,采用一个阈值鉴别出学习者的学习兴趣和非学习兴趣,用于建构学习者的用户兴趣画像,为个性化学习服务提供数据基础。
Figure BDA0002618736340000051
A004:根据应用场景的要求,输出学习兴趣标签及其权重。基于不同的应用场景要求,将学习兴趣划分为持续型和短暂型学习兴趣,并标记不同权值。
请参阅下表所示,为本发明的兴趣发现方法的输入与输出示例。
Figure BDA0002618736340000052
Figure BDA0002618736340000061
请参阅图2所示,所述基于时序-情绪-主题的文本建模算法的步骤如下:
C000:根据教育心理学理论建构时间、情绪、主题、词汇等多变量关联的概率图模型。该模型中,空心圆代表未知变量,实心圆代表已知变量,有向箭头代表条件概率,方框右下角字母代表重复采样次数。E、T、U是情绪类别数量、主题数量、学习者数量;t、w是可观察到的发帖时间和帖子词;e、z是帖子隐含的情绪和主题;α、β、γ、μ分别为潜在变量θdjk、φjkw、πdj、ψjkh的超参数,其中θdjk表示学习者发帖d-情绪j-主题k的概率分布、φjkw表示词汇w-情绪j-主题k的概率分布、πdj表示学习者发帖d-情绪j的概率分布、ψjkh表示情绪j-主题k-时间h的概率分布。
C001:读入分词后的学习者生成内容和情绪词典,设置主题数量和其他超参数;
C002:初始化句子的情绪类别和主题编号矩阵;
C003:参阅公式(2)所示,通过多次吉布斯采样迭代,估计每个帖子的情绪和主题,每个发帖d由一个或者多个句子s组成;
Figure BDA0002618736340000071
C004:参阅公式(3)所示,计算每个学习者发帖的情绪-主题分布θdjk、情绪-主题-词分布φjkw、情绪分布πdj、情感-主题-时序分布ψjkh,得到兴趣主题的内容;
Figure BDA0002618736340000072
C005:参阅公式(4)所示,计算主题数量评估曲线PS2EK,主题数量范围内的最小值为最优主题数量。其中,Perplexity表示训练数据的拟合性能,SimilarityA表示不同主题分布的平均相关性;
SimilarityE表示不同情绪分布在各主题间的平均相关性;Entropy表示各主题词分布的平均相干性;KL距离表示各主题词分布的平均差异。
PS2EK=Perplexity·SimilarityA·SimilarityE·Entropy/KL (4)
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种面向在线学习社区的学习兴趣发现方法,其特征在于该方法包括以下步骤:
(1)采集在线学习社区中学习者生成的多维度行为和文本信息;
(2)融合领域知识命名实体词和学习情绪词进行文本分词;
(3)基于时序-情绪-主题的文本建模算法,挖掘与情绪和时序信息相关的兴趣主题概率分布;
(4)基于语义相似度计算方法,鉴别学习者的学习兴趣和非学习兴趣;
(5)根据应用场景,输出学习兴趣标签及其权重。
2.根据权利要求1所述的面向在线学习社区的学习兴趣发现方法,其特征在于步骤(2)中进行文本分词的具体方法包括:
(2-1)通过筛选情绪词典的方法和人工标注的方法,获得学习情绪词典;
(2-2)使用新词发现方法从网络课程的学习材料中获取领域知识相关的命名实体词,获得领域知识命名实体词典;
(2-3)基于领域知识命名实体词典和学习情绪词典,对学习者生成内容进行分词,同时去除停用词和替换同义词。
3.根据权利要求1所述的面向在线学习社区的学习兴趣发现方法,其特征在于步骤(3)中所述“基于时序-情绪-主题的文本建模算法”,包括:
(3-1)建构时间、情绪、主题、词汇多变量关联的概率图模型;
(3-2)读入分词后的学习者生成内容和学习情绪词典,设置主题数量和其他超参数;
(3-3)初始化句子的情绪类别和主题编号矩阵;
(3-4)通过吉布斯采样的多次迭代,估计每个句子的情绪和主题;
(3-5)计算每个学习者发帖的情绪-主题分布、情绪-主题-词分布、情绪分布、情绪-主题-时序分布;
(3-6)计算主题数量评估曲线,选取最优主题数量。
4.根据权利要求1所述的面向在线学习社区的学习兴趣发现方法,其特征在于步骤(4)中所述“基于语义相似度计算方法,鉴别学习者的学习兴趣和非学习兴趣”,包括:
(4-1)使用维基百科和教学材料文本训练词向量;
(4-2)计算兴趣词与领域知识词向量的语义相似度,根据场景需求设置阈值,以该阈值为基准,鉴别学习兴趣和非学习兴趣。
CN202010776809.9A 2020-08-05 2020-08-05 一种面向在线学习社区的学习兴趣发现方法 Pending CN112101039A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010776809.9A CN112101039A (zh) 2020-08-05 2020-08-05 一种面向在线学习社区的学习兴趣发现方法
PCT/CN2021/107751 WO2022028249A1 (zh) 2020-08-05 2021-07-22 一种面向在线学习社区的学习兴趣发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010776809.9A CN112101039A (zh) 2020-08-05 2020-08-05 一种面向在线学习社区的学习兴趣发现方法

Publications (1)

Publication Number Publication Date
CN112101039A true CN112101039A (zh) 2020-12-18

Family

ID=73750354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010776809.9A Pending CN112101039A (zh) 2020-08-05 2020-08-05 一种面向在线学习社区的学习兴趣发现方法

Country Status (2)

Country Link
CN (1) CN112101039A (zh)
WO (1) WO2022028249A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022028249A1 (zh) * 2020-08-05 2022-02-10 华中师范大学 一种面向在线学习社区的学习兴趣发现方法
CN114429281A (zh) * 2021-12-30 2022-05-03 华中师范大学 一种基于深度聚类算法的在线学习者活跃度测评方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600945B (zh) * 2022-09-07 2023-06-30 淮阴工学院 基于多粒度的冷链配载用户画像构建方法及装置
CN116307792B (zh) * 2022-10-12 2024-03-12 广州市阿尔法软件信息技术有限公司 一种面向城市体检主题场景的评估方法及装置
CN115964626A (zh) * 2022-10-27 2023-04-14 河南大学 一种基于动态多尺度特征融合网络的社区检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737120A (zh) * 2012-06-01 2012-10-17 西安交通大学 一种个性化网络学习资源推荐方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
KR101781458B1 (ko) * 2016-04-29 2017-09-26 (주)웅진컴퍼스 언어 학습 서비스 제공 시스템 및 언어 학습 서비스 제공 방법
CN109033255A (zh) * 2018-07-06 2018-12-18 合肥明高软件技术有限公司 一种在线学习兴趣点分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101039A (zh) * 2020-08-05 2020-12-18 华中师范大学 一种面向在线学习社区的学习兴趣发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737120A (zh) * 2012-06-01 2012-10-17 西安交通大学 一种个性化网络学习资源推荐方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
KR101781458B1 (ko) * 2016-04-29 2017-09-26 (주)웅진컴퍼스 언어 학습 서비스 제공 시스템 및 언어 학습 서비스 제공 방법
CN109033255A (zh) * 2018-07-06 2018-12-18 合肥明高软件技术有限公司 一种在线学习兴趣点分析方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022028249A1 (zh) * 2020-08-05 2022-02-10 华中师范大学 一种面向在线学习社区的学习兴趣发现方法
CN114429281A (zh) * 2021-12-30 2022-05-03 华中师范大学 一种基于深度聚类算法的在线学习者活跃度测评方法
CN114429281B (zh) * 2021-12-30 2022-11-15 华中师范大学 一种基于深度聚类算法的在线学习者活跃度测评方法

Also Published As

Publication number Publication date
WO2022028249A1 (zh) 2022-02-10

Similar Documents

Publication Publication Date Title
Li et al. Natural language generation using deep learning to support MOOC learners
CN112101039A (zh) 一种面向在线学习社区的学习兴趣发现方法
Hasibuan et al. Model Detecting Learning Styles with Artificial Neural Network.
Mayfield et al. LightSIDE: Open source machine learning for text
García et al. Drawbacks and solutions of applying association rule mining in learning management systems
Aninditya et al. Text mining approach using TF-IDF and naive Bayes for classification of exam questions based on cognitive level of bloom's taxonomy
Contreras et al. Automated essay scoring with ontology based on text mining and nltk tools
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN103955451A (zh) 一种判别短文本情感倾向性的方法
CN112559749B (zh) 在线教育师生智能匹配方法、装置及存储介质
Lalata et al. A sentiment analysis model for faculty comment evaluation using ensemble machine learning algorithms
Agrawal et al. Identifying enrichment candidates in textbooks
CN110598002A (zh) 知识图库构建方法、装置、计算机存储介质和电子设备
Ren et al. Automatic scoring of student feedback for teaching evaluation based on aspect-level sentiment analysis
Le Hoanh Su et al. Development of an AI Chatbot to support admissions and career guidance for universities
Berdanier et al. Opportunities for natural language processing in qualitative engineering education research: Two examples
Bodrunova et al. Topics in the Russian Twitter and relations between their interpretability and sentiment
CN116720509A (zh) 一种学生教学评价领域情感词典的构建方法
CN116361541A (zh) 基于知识追踪与相似度分析的试题推荐方法
Takizawa Using a topic model to map and analyze a large curriculum
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
Esmaeilzadeh et al. Providing insights for open-response surveys via end-to-end context-aware clustering
Choi et al. Does active learning reduce human coding?: A systematic comparison of neural network with nCoder
Singh Twitter Sentiment Analysis Using Machine Learning
Abdussalam et al. BERT implementation on news sentiment analysis and analysis benefits on branding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination