CN113934846A - 一种联合行为-情感-时序的在线论坛主题建模方法 - Google Patents

一种联合行为-情感-时序的在线论坛主题建模方法 Download PDF

Info

Publication number
CN113934846A
CN113934846A CN202111209018.9A CN202111209018A CN113934846A CN 113934846 A CN113934846 A CN 113934846A CN 202111209018 A CN202111209018 A CN 202111209018A CN 113934846 A CN113934846 A CN 113934846A
Authority
CN
China
Prior art keywords
emotion
behavior
different
representing
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111209018.9A
Other languages
English (en)
Other versions
CN113934846B (zh
Inventor
张思
陈娟
夏丹
高倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202111209018.9A priority Critical patent/CN113934846B/zh
Publication of CN113934846A publication Critical patent/CN113934846A/zh
Application granted granted Critical
Publication of CN113934846B publication Critical patent/CN113934846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种联合行为‑情感‑时序的在线论坛主题建模方法。包括对个人的发帖文本进行情感、行为、主题和时间挖掘。首先,针对帖子和个人情感确定帖子的情感向量占比;依据相关行为分类规则获取行为向量占比;将情感向量与行为向量联合,获取多类别的情感‑行为分类;依据情感‑行为分类的概率,确定在不同分类下的主题分布;联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率;联合主题下的词向量,确定不同情感、不同行为、不同主题中所选词的概率变化;最后,综合上述所有概率,得到个人所发帖子的情感、行为、时间和主题占比。本发明可以获得个人在不同阶段所关注的兴趣主题以及个人行为的演化趋势。

Description

一种联合行为-情感-时序的在线论坛主题建模方法
技术领域
本发明涉及文本数据挖掘技术领域,尤其涉及一种联合行为-情感-时序的在线论坛主题建模方法。
背景技术
身处于一个信息爆炸的时代,如何从海量信息中发现和抽取自己真正需要的信息和数据成为一个很大的难题。数据挖掘技术应运而生。相较于复杂的图片和音视频、动画资源,文本挖掘既获取简单,分析和处理便捷,也能准确地表达个人的真实观点和意见。通过对在线论坛中大量的帖子文本进行深入挖掘和分析,能更好地了解和掌握个人的兴趣偏好和行为倾向,对于精准的知识推送服务有着很大的帮助。而借助帖子文本对论坛中个人潜在的情感和行为倾向进行探究已经成为大数据时代研究者们的重点关注问题。
学者们试图通过构建模型对已有数据进行集成和算法训练,达到对个人乃至某一集体发布的未知帖子文本的情感和行为的推断和评估。但对于情感和行为二者联合后进行分析和评价的相关研究较少,个人在某种情感下实施某种行为的概率有多大,这个概率随时间变化和演化情况如何,这些方面还存在很多不足。也就是说,现有的方法无法获得在线论坛中的深层次的信息。
发明内容
本发明提出一种联合行为-情感-时序的在线论坛主题建模方法,用于解决或者至少部分解决现有技术的方法无法获取在线论坛中深层次信息的技术问题。
为了解决上述技术问题,本发明提供了一种联合行为-情感-时序的在线论坛主题建模方法,包括:
S1:根据学习者发帖的需要,结合预设情感分类规则,确定帖子中各类情感占比;
S2:根据学习者发帖的需要,结合预设行为分类规则,确定帖子中各类行为占比;
S3:联合各类情感占比和各类行为占比,获取多类别的情感-行为分类;基于多类别的情感-行为分类以及主题向量,确定在不同情感,不同行为下的主题分布情况;
S4:基于在不同情感,不同行为下的主题分布情况,联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率;
S5:基于在不同情感,不同行为下的主题分布情况,联合主题下的词向量,确定不同情感、不同行为、不同主题中的词分布情况;
S6:根据各类情感占比、各类行为占比、不同情感、不同行为、不同主题,在不同时间发帖的概率以及不同情感、不同行为、不同主题中的词分布情况,构建联合行为-情感-时序的主题模型。
在一种实施方式中,步骤S1包括:
S1.1:构建情感词典,得到预设情感分类规则;
S1.2:根据情感词典中的预设情感分类规则计算各类情感占比,计算公式为:
Figure BDA0003308140770000021
Figure BDA0003308140770000022
Figure BDA0003308140770000023
其中,
Figure BDA0003308140770000024
表示在情感种类词向量中选择特定情感的概率,即帖子中各类情感占比,
Figure BDA0003308140770000025
表示迪利克雷分布,
Figure BDA0003308140770000026
表示在这篇文档中选择这类情感的概率,
Figure BDA0003308140770000027
表示情感向量;γ是超参数,表示情感词向量的稀疏度,
Figure BDA0003308140770000028
表示情感词向量的稀疏度向量,π表示文档中的情感概率分布;m表示文档数,M表示全部文档数;j表示情感种类,E表示全部情感种类数目;
Figure BDA0003308140770000029
表示第m篇文档中第j种情感所有的词数。
在一种实施方式中,步骤S2包括:
S2.1:构建在线教学行为分类规则;
S2.2:根据在线教学行为分类规则,计算帖子中各类行为占比,计算公式为:
Figure BDA0003308140770000031
Figure BDA0003308140770000032
Figure BDA0003308140770000033
其中,
Figure BDA0003308140770000034
表示在行为种类词向量中选择特定行为的概率,即帖子中各类行为占比,
Figure BDA0003308140770000035
表示迪利克雷分布,
Figure BDA0003308140770000036
表示在这篇文档中选择这类行为的概率;ψ表示文档中的行为概率分布;
Figure BDA0003308140770000037
表示行为向量;η是超参数,表示行为词向量的稀疏度,
Figure BDA0003308140770000038
表示行为词向量的稀疏度向量,m表示文档数,M表示全部文档数;c表示行为种类,B表示全部行为种类数目;
Figure BDA0003308140770000039
表示第m篇文档中第c种行为所拥有的词数。
在一种实施方式中,步骤S3包括:
S3.1:联合各类情感占比和各类行为占比,得到情感-行为矩阵,以获取多类别的情感-行为分类;
S3.2:基于多类别的情感-行为分类以及主题向量,确定在不同情感,不同行为下的主题分布情况,计算公式为:
Figure BDA00033081407700000310
Figure BDA00033081407700000311
Figure BDA00033081407700000312
其中,
Figure BDA00033081407700000313
表示在特定情感,特定行为的条件下在主题词向量中选择主题的概率,即在不同情感,不同行为下的主题分布情况,
Figure BDA00033081407700000314
表示迪利克雷分布,
Figure BDA00033081407700000315
表示在特定情感-行为下选择特定主题的概率;
Figure BDA00033081407700000316
表示主题向量;α是超参数,表示主题词向量的稀疏度,
Figure BDA00033081407700000410
表示主题词向量的稀疏度向量;θ表示特定情感、特定行为条件下的各类主题概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;
Figure BDA0003308140770000041
表示第j种情感,第c种行为下第k类主题。
在一种实施方式中,步骤S4包括:
S4.1:根据基于在不同情感,不同行为下的主题分布情况,得到情感-行为-主题矩阵;
S4.2:根据情感-行为-主题矩阵,联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率,计算公式为:
Figure BDA0003308140770000042
Figure BDA0003308140770000043
Figure BDA0003308140770000044
其中,
Figure BDA0003308140770000045
表示在特定情感、特定行为、特定主题的条件下选择某一时间的概率,即不同情感、不同行为、不同主题,在不同时间发帖的概率,
Figure BDA0003308140770000046
表示迪利克雷分布,
Figure BDA0003308140770000047
表示在这次的情感-行为-主题出现在这个时间的概率;
Figure BDA0003308140770000048
表示时间词向量;μ是超参数,表示时间词向量的稀疏度,
Figure BDA0003308140770000049
表示时间词向量的稀疏度;ε表示特定情感、特定行为、特定主题条件下的时间向量概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;k表示主题数,K表示全部主题数;h表示时间,H表示全部时间种类。
在一种实施方式中,步骤S5包括:
S5.1:根据基于在不同情感,不同行为下的主题分布情况,得到情感-行为-主题矩阵;
S5.2:根据情感-行为-主题矩阵,联合主题下的词向量,确定不同情感、不同行为、不同主题中的词分布情况,计算公式为:
Figure BDA0003308140770000051
Figure BDA0003308140770000052
Figure BDA0003308140770000053
其中,
Figure BDA0003308140770000054
表示在特定情感、特定行为、特定主题的条件下选择某一词汇的概率,即不同情感、不同行为、不同主题中的词分布情况,
Figure BDA0003308140770000055
表示迪利克雷分布,
Figure BDA0003308140770000056
表示在特定的情感-行为-主题下选择特定词的概率;
Figure BDA0003308140770000057
表示词向量;β是超参数,表示词向量的稀疏度,
Figure BDA0003308140770000058
表示词向量的稀疏度向量;
Figure BDA0003308140770000059
表示特定情感、特定行为、特定主题条件下的词向量概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;k表示主题数,K表示全部主题数;v表示词汇,V表示全部词汇数;
Figure BDA00033081407700000510
表示第j种情感,第c种行为,第k类主题下第v个词;θ表示特定情感、特定行为条件下的各类主题概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;
Figure BDA00033081407700000511
表示第j种情感,第c种行为下第k类主题。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明的建模方法主要包括对个人的发帖文本进行情感、行为、主题和时间挖掘。首先,针对帖子和个人情感确定帖子的情感占比;其次,依据相关行为分类规则获取行为占比;将情感占比与行为占比联合,获取多类别的情感-行为分类;依据情感-行为分类的概率,确定在不同分类下的主题分布;联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率;联合主题下的词向量,确定不同情感、不同行为、不同主题中所选词的概率变化;最后,综合上述所有概率(包括帖子的情感概率、行为概率、时间概率和主题概率,即帖子中各类情感占比,帖子中各类行为占比,不同情感、不同行为、不同主题,在不同时间发帖的概率,不同情感、不同行为的主题分布情况),成功得到个人所发帖子的情感、行为、时间和主题占比。本发明构建的模型能够通过挖掘个人的情感极性和行为倾向,将二者分别与主题抽取联合,获取个人的兴趣主题和行为主题,再与时间做联合,可获得个人在不同阶段所关注的兴趣主题以及个人行为的演化趋势。即,本发明通过模型构建对各类文本进行深层挖掘,探究在特定情感中,特定行为出现的概率,以及以个人或集体为单位,各类兴趣主题和行为在特定时间内的变化趋势,很有研究价值和意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中联合行为-情感-时序的在线论坛主题建模方法的流程图;
图2为采用图1中的方法所构建的联合行为-情感-时序的主题模型示意图;
图3为本发明实施例中情感和行为对主题的映射示意图;
图4为本发明实施例中情感、行为和主题对词的映射示意图。
具体实施方式
教育文本挖掘是文本挖掘中不可忽视的研究方面。从简单的文本中挖掘和发现学习者的潜在学习感受和学习动机以及知识建构水平等多方面的变化,对于发现学习者的“学习痛点”,提供个性化教学辅助提供参考和依据,还能够帮助教师快速掌握学习者的学习状况,包括学习态度和整体进度,便于及时答疑解惑,提供反馈。作为教育文本挖掘领域中的研究热点,通过文本对学习者的情感和行为倾向进行计算和分析,不仅能帮助对学习者潜在心理变化进行了解和剖析,对教学资源和模式的多元化、丰富化也有着很大的帮助。而在线论坛作为在线教育中重要的教学辅助手段,允许学习者自由发表个人观点和主观感受,以及和他人进行社会性互动。而在在线论坛中师生、生生之间互动产生的异构数据中,帖子文本是其中最简单也最普遍的交互方式。在这里,在线论坛中学习者发布的帖子被认为是情感、行为、时间和词的联合分布。从情感出发,学习者的情感和主题联合可获得学习者在教学中所关注的兴趣主题;站在行为分析的角度来说,行为和主题的联合可以得到学习者在整个教学周期中潜在的行为倾向;而将二者联合,可以获取在某类情感中某种行为出现的概率,再加入时间元素,则可以发现在不同时间中,某类情感下某种行为出现的概率和演化趋势。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种联合行为-情感-时序的在线论坛主题建模方法,包括:
S1:根据学习者发帖的需要,结合预设情感分类规则,确定帖子中各类情感占比;
S2:根据学习者发帖的需要,结合预设行为分类规则,确定帖子中各类行为占比;
S3:联合各类情感占比和各类行为占比,获取多类别的情感-行为分类;基于多类别的情感-行为分类以及主题向量,确定在不同情感,不同行为下的主题分布情况;
S4:基于在不同情感,不同行为下的主题分布情况,联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率;
S5:基于在不同情感,不同行为下的主题分布情况,联合主题下的词向量,确定不同情感、不同行为、不同主题中的词分布情况;
S6:根据各类情感占比、各类行为占比、不同情感、不同行为、不同主题,在不同时间发帖的概率以及不同情感、不同行为、不同主题中的词分布情况,构建联合行为-情感-时序的主题模型。
需要说明的是,本发明中概率就是分类后每个类别的占比情况。情感概率是指帖子中各类情感占比,行为概率是指帖子中各类行为占比,主题概率是指不同情感、不同行为下的各类主题占比,时间概率是指不同情感、不同行为、不同主题,在不同时间发帖的概率,词概率是指不同情感、不同行为、不同主题中的词分布概率。。
请参见图1,为联合行为-情感-时序的在线论坛主题建模方法的流程图。
在一种实施方式中,步骤S1包括:
S1.1:构建情感词典,得到预设情感分类规则;
S1.2:根据情感词典中的预设情感分类规则计算各类情感占比,计算公式为:
Figure BDA0003308140770000081
Figure BDA0003308140770000082
Figure BDA0003308140770000083
其中,
Figure BDA0003308140770000084
表示在情感种类词向量中选择特定情感的概率,即帖子中各类情感占比,
Figure BDA0003308140770000085
表示迪利克雷分布,这是一种多变量的先验分布,即在先前文档中这类情感的概率分布,
Figure BDA0003308140770000086
表示在这篇文档中选择这类情感的概率,二者联合对概率进行更新,
Figure BDA0003308140770000087
表示情感向量;γ是超参数,表示情感词向量的稀疏度,
Figure BDA0003308140770000088
表示情感词向量的稀疏度向量,π表示文档中的情感概率分布;m表示文档数,M表示全部文档数;j表示情感种类,E表示全部情感种类数目;
Figure BDA0003308140770000089
表示第m篇文档中第j种情感所有的词数。
具体来说,情感占比可以借助一定的规则和标准来进行计算,或者借助机器学习和深度学习等算法来获取情感极性数据。本实施方式中,采用的是情感词典来计算帖子的在情感向量中的不同占比。
有研究表明,学生互动中所表现出来的积极和消极的情绪对于学习兴趣和投入水平有重要影响。根据需要构建实际可行的情感词典,词典包含积极和消极两类情感。
借助情感词典计算情感向量占比,例如某帖子中有80%积极情绪,20%消极情绪。具体实施过程中,首先需要确定在第m篇文档中第j种情感出现的概率,然后进行积分计算,获得情感向量中各类别占比。
在一种实施方式中,步骤S2包括:
S2.1:构建在线教学行为分类规则;
S2.2:根据在线教学行为分类规则,计算帖子中各类行为占比,计算公式为:
Figure BDA0003308140770000091
Figure BDA0003308140770000092
Figure BDA0003308140770000093
其中,
Figure BDA0003308140770000094
表示在行为种类词向量中选择特定行为的概率,即帖子中各类行为占比,
Figure BDA0003308140770000095
表示迪利克雷分布,即在先前文档中这类行为的概率分布,
Figure BDA0003308140770000096
表示在这篇文档中选择这类行为的概率,二者联合对概率进行更新;ψ表示文档中的行为概率分布;
Figure BDA0003308140770000097
表示行为向量;η是超参数,表示行为词向量的稀疏度,
Figure BDA0003308140770000098
表示行为词向量的稀疏度向量,m表示文档数,M表示全部文档数;c表示行为种类,B表示全部行为种类数目;
Figure BDA0003308140770000099
表示第m篇文档中第c种行为所拥有的词数。
具体来说,S2.1可以根据相关规则构建在线教学行为分类表,本实施方式中,将帖子的行为分为信息查阅、信息加工、信息发布、信息交互、问题解决与信息评价六类。其中,信息查阅行为即学习者对信息的检索、查找和下载行为;信息加工行为即在信息查找的基础上对资料进行处理和加工的行为;信息发布行为即学习者个人观点和看法的发表行为;信息交互行为即学习者与他人之间的一种交流与交互行为;问题解决行为指在没有明显的解决方案的情况下,将给定的问题转化为目标形式的认知加工过程;信息评价即对学习者的表现和任务完成情况进行评价和提供修改意见。
S2.2计算行为占比,从教学行为分类表出发,根据需求确定不同行为的概率,如信息查阅占40%,信息加工占50%,信息交互占10%。具体实施过程中,首先需要确定在第m篇文档中第c种行为出现的概率。然后进行积分计算,获得行为向量的各类别占比。
在一种实施方式中,步骤S3包括:
S3.1:联合各类情感占比和各类行为占比,得到情感-行为矩阵,以获取多类别的情感-行为分类;
S3.2:基于多类别的情感-行为分类以及主题向量,确定在不同情感,不同行为下的主题分布情况,计算公式为:
Figure BDA0003308140770000101
Figure BDA0003308140770000102
Figure BDA0003308140770000103
其中,
Figure BDA0003308140770000104
表示在特定情感,特定行为的条件下在主题词向量中选择主题的概率,即在不同情感,不同行为下的主题分布情况,
Figure BDA0003308140770000105
表示迪利克雷分布,即在先前此类情感-行为中这种主题的占比,
Figure BDA0003308140770000106
表示在特定情感-行为下选择特定主题的概率,二者联合对概率进行更新;
Figure BDA0003308140770000107
表示主题向量;α是超参数,表示主题词向量的稀疏度,
Figure BDA0003308140770000108
表示主题词向量的稀疏度向量;θ表示特定情感、特定行为条件下的各类主题概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;
Figure BDA0003308140770000109
表示第j种情感,第c种行为下第k类主题。
其中,情感和行为对主题的映射如图3所示。
具体实施过程中,首先,根据步骤1和2中所得到的情感和行为占比,将二者联合,得到情感-行为矩阵(即情感和行为二者联合后的概率矩阵),共12类。
Figure BDA0003308140770000111
然后通过步骤S3.2设置主题数,确定在12类情感-行为下的主题向量占比。可借助无监督算法完成。即,步骤S3.2是在S3.1的基础上来计算不同情感、不同行为下的主题概率,例如,在积极情感下的问题解决行为中关于课件制作这个主题的概率。
在一种实施方式中,步骤S4包括:
S4.1:根据基于在不同情感,不同行为下的主题分布情况,得到情感-行为-主题矩阵;
S4.2:根据情感-行为-主题矩阵,联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率,计算公式为:
Figure BDA0003308140770000112
Figure BDA0003308140770000113
Figure BDA0003308140770000114
其中,
Figure BDA0003308140770000115
表示在特定情感、特定行为、特定主题的条件下选择某一时间的概率,即不同情感、不同行为、不同主题,在不同时间发帖的概率,
Figure BDA0003308140770000116
表示迪利克雷分布,即在先前此类情感-行为-主题发生在这个时间的占比,
Figure BDA0003308140770000117
表示在这次的情感-行为-主题出现在这个时间的概率,二者联合对概率进行更新;
Figure BDA0003308140770000118
表示时间词向量;μ是超参数,表示时间词向量的稀疏度,
Figure BDA0003308140770000119
表示时间词向量的稀疏度;ε表示特定情感、特定行为、特定主题条件下的时间向量概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;k表示主题数,K表示全部主题数;h表示时间,H表示全部时间种类。
具体来说,S4.1根据步骤S3得到的情感-行为-主题向量(在不同情感,不同行为下的主题分布情况)得到一个三维矩阵,即情感-行为-主题矩阵(情感、行为、主题三者联合后的概率矩阵)。S4.2再在S4.1的基础上,对不同情感-行为-主题三者联合后的概率发生在某个时间点的概率进行联合(确定时间占比)。例如,积极情感下的问题解决行为中关于教学制作的主题更容易发生在教学前期。
具体实施过程中,首先需要确定在第j类情感,第c种行为,第k类主题出现在时间h的概率。然后进行积分计算,获得情感-行为-主题-时间向量的各类别占比。
在一种实施方式中,步骤S5包括:
S5.1:根据基于在不同情感,不同行为下的主题分布情况,得到情感-行为-主题矩阵;
S5.2:根据情感-行为-主题矩阵,联合主题下的词向量,确定不同情感、不同行为、不同主题中的词分布情况,计算公式为:
Figure BDA0003308140770000121
Figure BDA0003308140770000122
Figure BDA0003308140770000123
其中,
Figure BDA0003308140770000124
表示在特定情感、特定行为、特定主题的条件下选择某一词汇的概率,即不同情感、不同行为、不同主题中的词分布情况,
Figure BDA0003308140770000125
表示迪利克雷分布,即在先前此类情感-行为-主题中这个词的占比,
Figure BDA0003308140770000126
表示在特定的情感-行为-主题下选择特定词的概率,二者联合对概率进行更新;
Figure BDA0003308140770000131
表示词向量;β是超参数,表示词向量的稀疏度,
Figure BDA0003308140770000132
表示词向量的稀疏度向量;
Figure BDA0003308140770000133
表示特定情感、特定行为、特定主题条件下的词向量概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;k表示主题数,K表示全部主题数;v表示词汇,V表示全部词汇数;
Figure BDA0003308140770000134
表示第j种情感,第c种行为,第k类主题下第v个词;θ表示特定情感、特定行为条件下的各类主题概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;
Figure BDA0003308140770000135
表示第j种情感,第c种行为下第k类主题。
具体来说,S5.1根据步骤S3得到的情感-行为-主题向量(在不同情感,不同行为下的主题分布情况)得到一个三维矩阵,即情感-行为-主题矩阵。S5.2再在S5.1的基础上,对不同情感、不同行为、不同主题三者联合下在词向量中选择某个词(确定词占比)。
具体实施过程中,首先需要确定在第j类情感,第c种行为,第k类主题下词w出现的概率。然后进行积分计算,获得情感-行为-主题-词向量的各类别占比。
本发明的方法构建的联合行为,情感,时序的主题模型(BETTM(Behavior-Emotion-Time Topic Model)如图2所示,图2中圆圈代表随机变量,灰色圆圈代表已知变量,空白圆圈代表未知变量,有向箭头代表元素a(箭尾)发生的条件下元素b(箭头)发生的概率,矩形框内元素需进行重复采样,右下角即为方框内各变量的重复采样次数。其中,α,β,γ,μ,η为超参数,分别代表主题向量稀疏度、词向量稀疏度、情感词向量稀疏度、时间向量稀疏度与行为词向量稀疏度,稀疏度越高,密度就越低;t,w是可观测变量,代表发帖时间与文本,而e,b,z是隐变量,代表情感、行为与主题;N,E,B,D,K分别是词数量、情感类别数、行为类别数、文档数量以及主题数量;θbjk表示主题-情感-行为概率分布,
Figure BDA0003308140770000136
表示词-情感-行为-主题概率分布,πmj表示文档—情感概率分布,ψmc表示文档-行为概率分布,εbjkh表示时间-情感-行为-主题分布概率分布。πmj和θbjk二者可共同表示特定群体在整个学期中的兴趣主题概率分布,ψmc和θbjk二者可共同表示特定群体在整个学期中的行为主题概率分布,而πmj和θbjk、εbjkh可表示在不同时间的兴趣主题概率分布。
最终得到的模型联合分布概率为:
Figure BDA0003308140770000141
从联合分布公式中可以得出,为了在已知五类超参数的条件下获取对未知变量的概率求解,模型先从文档所需的情感和行为出发,从向量中获取二者的概率分布向量,之后根据已知的情感和行为向量分布确定主题向量的概率分布,然后再来获取时间向量的概率分布和词向量的概率分布,这样就形成一篇完整的帖子文本,学习者可以在适当的时间发送帖子。
而为了更精准获取概率,使用吉布斯采样方法计算隐变量:
Figure BDA0003308140770000142
其中,
Figure BDA0003308140770000143
Figure BDA0003308140770000144
Figure BDA0003308140770000145
Figure BDA0003308140770000146
Figure BDA0003308140770000147
Figure BDA0003308140770000148
第c种行为、j种情感、k号主题下,除单词i之外的单词向量;
Figure BDA0003308140770000149
第c种行为、j种情感、k号主题下,除时间t之外的时间向量;
Figure BDA00033081407700001410
第c种行为、j种情感下,除主题q之外的主题向量;
Figure BDA00033081407700001411
第m篇文档中,除行为x之外的行为向量;
Figure BDA00033081407700001412
第m篇文档中,除情感p之外的情感向量。参数
Figure BDA0003308140770000151
Figure BDA0003308140770000152
请参见图4,本发明实施例中情感、行为和主题对词的映射示意图。通本发明构建的模型可以确定帖子的情感和行为占比,以及主题和词的抽取情况,并在确定时间发布帖子。
本发明实施例提供的一种联合行为-情感-时序的在线论坛主题建模方法,至少包括如下技术效果:
1.能够通过挖掘个人的情感极性,与主题抽取联合,获取个人的兴趣主题,再与时间做联合,可获得个人在不同阶段所关注的兴趣主题的变化。
2.借助对个人在帖子中潜在的行为倾向的挖掘,联合主题抽取相关问题,获取个人的主题行为。再综合时间因素,可获得个人在不同阶段的行为的变化。
3.将兴趣主题与行为主题联合,获取在不同情感下个人的行为概率,联合时间因素,可获取在不同时间中个人的情感-行为演化趋势。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种联合行为-情感-时序的在线论坛主题建模方法,其特征在于,包括:
S1:根据学习者发帖的需要,结合预设情感分类规则,确定帖子中各类情感占比;
S2:根据学习者发帖的需要,结合预设行为分类规则,确定帖子中各类行为占比;
S3:联合各类情感占比和各类行为占比,获取多类别的情感-行为分类;基于多类别的情感-行为分类以及主题向量,确定在不同情感,不同行为下的主题分布情况;
S4:基于在不同情感,不同行为下的主题分布情况,联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率;
S5:基于在不同情感,不同行为下的主题分布情况,联合主题下的词向量,确定不同情感、不同行为、不同主题中的词分布情况;
S6:根据各类情感占比、各类行为占比、不同情感、不同行为、不同主题,在不同时间发帖的概率以及不同情感、不同行为、不同主题中的词分布情况,构建联合行为-情感-时序的主题模型。
2.如权利要求1所述的联合行为-情感-时序的在线论坛主题建模方法,其特征在于,步骤S1包括:
S1.1:构建情感词典,得到预设情感分类规则;
S1.2:根据情感词典中的预设情感分类规则计算各类情感占比,计算公式为:
Figure FDA0003308140760000011
Figure FDA0003308140760000012
Figure FDA0003308140760000013
其中,
Figure FDA0003308140760000014
表示在情感种类词向量中选择特定情感的概率,即帖子中各类情感占比,
Figure FDA0003308140760000015
表示迪利克雷分布,
Figure FDA0003308140760000016
表示在这篇文档中选择这类情感的概率,
Figure FDA0003308140760000017
表示情感向量;γ是超参数,表示情感词向量的稀疏度,
Figure FDA0003308140760000018
表示情感词向量的稀疏度向量,π表示文档中的情感概率分布;m表示文档数,M表示全部文档数;j表示情感种类,E表示全部情感种类数目;
Figure FDA0003308140760000021
表示第m篇文档中第j种情感所有的词数。
3.如权利要求1所述的联合行为-情感-时序的在线论坛主题建模方法,其特征在于,步骤S2包括:
S2.1:构建在线教学行为分类规则;
S2.2:根据在线教学行为分类规则,计算帖子中各类行为占比,计算公式为:
Figure FDA0003308140760000022
Figure FDA0003308140760000023
Figure FDA0003308140760000024
其中,
Figure FDA0003308140760000025
表示在行为种类词向量中选择特定行为的概率,即帖子中各类行为占比,
Figure FDA0003308140760000026
表示迪利克雷分布,
Figure FDA0003308140760000027
表示在这篇文档中选择这类行为的概率;ψ表示文档中的行为概率分布;
Figure FDA0003308140760000028
表示行为向量;η是超参数,表示行为词向量的稀疏度,
Figure FDA0003308140760000029
表示行为词向量的稀疏度向量,m表示文档数,M表示全部文档数;c表示行为种类,B表示全部行为种类数目;
Figure FDA00033081407600000210
表示第m篇文档中第c种行为所拥有的词数。
4.如权利要求1所述的联合行为-情感-时序的在线论坛主题建模方法,其特征在于,步骤S3包括:
S3.1:联合各类情感占比和各类行为占比,得到情感-行为矩阵,以获取多类别的情感-行为分类;
S3.2:基于多类别的情感-行为分类以及主题向量,确定在不同情感,不同行为下的主题分布情况,计算公式为:
Figure FDA00033081407600000211
Figure FDA0003308140760000031
Figure FDA0003308140760000032
Figure FDA0003308140760000033
其中,
Figure FDA0003308140760000034
表示在特定情感,特定行为的条件下在主题词向量中选择主题的概率,即在不同情感,不同行为下的主题分布情况,
Figure FDA0003308140760000035
表示迪利克雷分布,
Figure FDA0003308140760000036
表示在特定情感-行为下选择特定主题的概率;
Figure FDA0003308140760000037
表示主题向量;α是超参数,表示主题词向量的稀疏度,
Figure FDA0003308140760000038
表示主题词向量的稀疏度向量;θ表示特定情感、特定行为条件下的各类主题概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;
Figure FDA0003308140760000039
表示第j种情感,第c种行为下第k类主题。
5.如权利要1所述的联合行为-情感-时序的在线论坛主题建模方法,其特征在于,步骤S4包括:
S4.1:根据基于在不同情感,不同行为下的主题分布情况,得到情感-行为-主题矩阵;
S4.2:根据情感-行为-主题矩阵,联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率,计算公式为:
Figure FDA00033081407600000310
Figure FDA00033081407600000311
Figure FDA00033081407600000312
其中,
Figure FDA00033081407600000313
表示在特定情感、特定行为、特定主题的条件下选择某一时间的概率,即不同情感、不同行为、不同主题,在不同时间发帖的概率,
Figure FDA00033081407600000314
表示迪利克雷分布,
Figure FDA0003308140760000041
表示在这次的情感-行为-主题出现在这个时间的概率;
Figure FDA0003308140760000042
表示时间词向量;μ是超参数,表示时间词向量的稀疏度,
Figure FDA0003308140760000043
表示时间词向量的稀疏度;ε表示特定情感、特定行为、特定主题条件下的时间向量概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;k表示主题数,K表示全部主题数;h表示时间,H表示全部时间种类。
6.如权利要1所述的联合行为-情感-时序的在线论坛主题建模方法,其特征在于,步骤S5包括:
S5.1:根据基于在不同情感,不同行为下的主题分布情况,得到情感-行为-主题矩阵;
S5.2:根据情感-行为-主题矩阵,联合主题下的词向量,确定不同情感、不同行为、不同主题中的词分布情况,计算公式为:
Figure FDA0003308140760000044
Figure FDA0003308140760000045
Figure FDA0003308140760000046
其中,
Figure FDA0003308140760000047
表示在特定情感、特定行为、特定主题的条件下选择某一词汇的概率,即不同情感、不同行为、不同主题中的词分布情况,
Figure FDA0003308140760000048
表示迪利克雷分布,
Figure FDA0003308140760000049
表示在特定的情感-行为-主题下选择特定词的概率;
Figure FDA00033081407600000410
表示词向量;β是超参数,表示词向量的稀疏度,
Figure FDA00033081407600000411
表示词向量的稀疏度向量;
Figure FDA00033081407600000412
表示特定情感、特定行为、特定主题条件下的词向量概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;k表示主题数,K表示全部主题数;v表示词汇,V表示全部词汇数;
Figure FDA00033081407600000413
表示第j种情感,第c种行为,第k类主题下第v个词;θ表示特定情感、特定行为条件下的各类主题概率分布;j表示情感种类,E表示全部情感种类数目;c表示行为种类,B表示全部行为种类数目;
Figure FDA0003308140760000051
表示第j种情感,第c种行为下第k类主题。
CN202111209018.9A 2021-10-18 2021-10-18 一种联合行为-情感-时序的在线论坛主题建模方法 Active CN113934846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111209018.9A CN113934846B (zh) 2021-10-18 2021-10-18 一种联合行为-情感-时序的在线论坛主题建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111209018.9A CN113934846B (zh) 2021-10-18 2021-10-18 一种联合行为-情感-时序的在线论坛主题建模方法

Publications (2)

Publication Number Publication Date
CN113934846A true CN113934846A (zh) 2022-01-14
CN113934846B CN113934846B (zh) 2024-06-18

Family

ID=79280239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111209018.9A Active CN113934846B (zh) 2021-10-18 2021-10-18 一种联合行为-情感-时序的在线论坛主题建模方法

Country Status (1)

Country Link
CN (1) CN113934846B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996390A (zh) * 2022-03-09 2022-09-02 华中师范大学 一种联合情感和话语角色的在线论坛主题建模方法
CN115221301A (zh) * 2022-07-19 2022-10-21 重庆理工大学 联合多任务学习的对话情感分类和对话行为识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101652433B1 (ko) * 2016-02-11 2016-08-30 주식회사 위즈벤처스 Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
CN107808008A (zh) * 2017-11-17 2018-03-16 合肥工业大学 一种考虑用户特征信息的主题‑情感联合建模方法
WO2019218508A1 (zh) * 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN110807315A (zh) * 2019-10-15 2020-02-18 上海大学 一种基于主题模型的在线评论情感挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101652433B1 (ko) * 2016-02-11 2016-08-30 주식회사 위즈벤처스 Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
CN107808008A (zh) * 2017-11-17 2018-03-16 合肥工业大学 一种考虑用户特征信息的主题‑情感联合建模方法
WO2019218508A1 (zh) * 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN110807315A (zh) * 2019-10-15 2020-02-18 上海大学 一种基于主题模型的在线评论情感挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
左明章;赵蓉;王志锋;李香勇;徐燕丽;: "基于论坛文本的互动话语分析模式构建与实践", 电化教育研究, no. 09, 31 August 2018 (2018-08-31) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996390A (zh) * 2022-03-09 2022-09-02 华中师范大学 一种联合情感和话语角色的在线论坛主题建模方法
CN115221301A (zh) * 2022-07-19 2022-10-21 重庆理工大学 联合多任务学习的对话情感分类和对话行为识别方法
CN115221301B (zh) * 2022-07-19 2024-01-23 重庆理工大学 联合多任务学习的对话情感分类和对话行为识别方法

Also Published As

Publication number Publication date
CN113934846B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN110148318B (zh) 一种数字助教系统、信息交互方法和信息处理方法
Watkins et al. Sense: a student performance quantifier using sentiment analysis
CN113934846B (zh) 一种联合行为-情感-时序的在线论坛主题建模方法
Göçer The assessment of Turkish written examination questions based on the text in accordance with the Barrett’s taxonomy
CN113283488A (zh) 一种基于学习行为的认知诊断方法及系统
Spichtig et al. The interaction of silent reading rate, academic vocabulary, and comprehension among students in grades 2–12
Oramas-Bustillos et al. A corpus for sentiment analysis and emotion recognition for a learning environment
Singh et al. Automated personality classification using Data mining techniques
Bhusal Predicting Student's Performance Through Data Mining
CN116226410B (zh) 一种知识元联结学习者状态的教学评估与反馈方法及系统
Liu et al. An emotion oriented topic modeling approach to discover what students are concerned about in course forums
Spatiotis et al. Evaluation of an educational training platform using text mining
Shin et al. Evaluating coherence in writing: Comparing the capacity of automated essay scoring technologies
Rääf et al. Investigating learning experience of MOOCs learners using topic modeling and sentiment analysis
CN116361541A (zh) 基于知识追踪与相似度分析的试题推荐方法
Zhou Research on teaching resource recommendation algorithm based on deep learning and cognitive diagnosis
Dyulicheva Learning Analytics in MOOCs as an Instrument for Measuring Math Anxiety
Ren Construction of a thinking model for Literary Writing based on Deep Spatio-Temporal Residual Convolutional Neural Networks
Chen et al. Analysing preservice teachers' reflection journals using text-mining techniques
CN114996390B (zh) 一种联合情感和话语角色的在线论坛主题建模方法
Liu et al. Tracking the dynamics of SPOC discussion forums: A temporal emotion-topic modeling approach
Doss et al. Learning Analytics Model for Predictive Analysis of Learners Behavior for an Indigenous MOOC Platform (Tadakhul System) in Oman
KR102599368B1 (ko) 빅데이터 기반 맞춤형 콘텐츠 제공 시스템 및 그 방법
Pinto-Luque an integrated npl approach to sentiment analysis in satisfaction surveys
Sankar Study of deep learning models on educational channel video from YouTube for classification of Hinglish text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant