CN113934846A

CN113934846A - 一种联合行为-情感-时序的在线论坛主题建模方法

Info

Publication number: CN113934846A
Application number: CN202111209018.9A
Authority: CN
Inventors: 张思; 陈娟; 夏丹; 高倩倩
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-14
Anticipated expiration: 2041-10-18
Also published as: CN113934846B

Abstract

本发明公开了一种联合行为‑情感‑时序的在线论坛主题建模方法。包括对个人的发帖文本进行情感、行为、主题和时间挖掘。首先，针对帖子和个人情感确定帖子的情感向量占比；依据相关行为分类规则获取行为向量占比；将情感向量与行为向量联合，获取多类别的情感‑行为分类；依据情感‑行为分类的概率，确定在不同分类下的主题分布；联合时间向量，获取不同情感、不同行为、不同主题，在不同时间发帖的概率；联合主题下的词向量，确定不同情感、不同行为、不同主题中所选词的概率变化；最后，综合上述所有概率，得到个人所发帖子的情感、行为、时间和主题占比。本发明可以获得个人在不同阶段所关注的兴趣主题以及个人行为的演化趋势。

Description

一种联合行为-情感-时序的在线论坛主题建模方法

技术领域

本发明涉及文本数据挖掘技术领域，尤其涉及一种联合行为-情感-时序的在线论坛主题建模方法。

背景技术

身处于一个信息爆炸的时代，如何从海量信息中发现和抽取自己真正需要的信息和数据成为一个很大的难题。数据挖掘技术应运而生。相较于复杂的图片和音视频、动画资源，文本挖掘既获取简单，分析和处理便捷，也能准确地表达个人的真实观点和意见。通过对在线论坛中大量的帖子文本进行深入挖掘和分析，能更好地了解和掌握个人的兴趣偏好和行为倾向，对于精准的知识推送服务有着很大的帮助。而借助帖子文本对论坛中个人潜在的情感和行为倾向进行探究已经成为大数据时代研究者们的重点关注问题。

学者们试图通过构建模型对已有数据进行集成和算法训练，达到对个人乃至某一集体发布的未知帖子文本的情感和行为的推断和评估。但对于情感和行为二者联合后进行分析和评价的相关研究较少，个人在某种情感下实施某种行为的概率有多大，这个概率随时间变化和演化情况如何，这些方面还存在很多不足。也就是说，现有的方法无法获得在线论坛中的深层次的信息。

发明内容

本发明提出一种联合行为-情感-时序的在线论坛主题建模方法，用于解决或者至少部分解决现有技术的方法无法获取在线论坛中深层次信息的技术问题。

为了解决上述技术问题，本发明提供了一种联合行为-情感-时序的在线论坛主题建模方法，包括：

S1：根据学习者发帖的需要，结合预设情感分类规则，确定帖子中各类情感占比；

S2：根据学习者发帖的需要，结合预设行为分类规则，确定帖子中各类行为占比；

S3：联合各类情感占比和各类行为占比，获取多类别的情感-行为分类；基于多类别的情感-行为分类以及主题向量，确定在不同情感，不同行为下的主题分布情况；

S4：基于在不同情感，不同行为下的主题分布情况，联合时间向量，获取不同情感、不同行为、不同主题，在不同时间发帖的概率；

S5：基于在不同情感，不同行为下的主题分布情况，联合主题下的词向量，确定不同情感、不同行为、不同主题中的词分布情况；

S6：根据各类情感占比、各类行为占比、不同情感、不同行为、不同主题，在不同时间发帖的概率以及不同情感、不同行为、不同主题中的词分布情况，构建联合行为-情感-时序的主题模型。

在一种实施方式中，步骤S1包括：

S1.1：构建情感词典，得到预设情感分类规则；

S1.2：根据情感词典中的预设情感分类规则计算各类情感占比，计算公式为：

其中，

表示在情感种类词向量中选择特定情感的概率，即帖子中各类情感占比，

表示迪利克雷分布，

表示在这篇文档中选择这类情感的概率，

表示情感向量；γ是超参数，表示情感词向量的稀疏度，

表示情感词向量的稀疏度向量，π表示文档中的情感概率分布；m表示文档数，M表示全部文档数；j表示情感种类，E表示全部情感种类数目；

表示第m篇文档中第j种情感所有的词数。

在一种实施方式中，步骤S2包括：

S2.1：构建在线教学行为分类规则；

S2.2：根据在线教学行为分类规则，计算帖子中各类行为占比，计算公式为：

其中，

表示在行为种类词向量中选择特定行为的概率，即帖子中各类行为占比，

表示迪利克雷分布，

表示在这篇文档中选择这类行为的概率；ψ表示文档中的行为概率分布；

表示行为向量；η是超参数，表示行为词向量的稀疏度，

表示行为词向量的稀疏度向量，m表示文档数，M表示全部文档数；c表示行为种类，B表示全部行为种类数目；

表示第m篇文档中第c种行为所拥有的词数。

在一种实施方式中，步骤S3包括：

S3.1：联合各类情感占比和各类行为占比，得到情感-行为矩阵，以获取多类别的情感-行为分类；

S3.2：基于多类别的情感-行为分类以及主题向量，确定在不同情感，不同行为下的主题分布情况，计算公式为：

其中，

表示在特定情感，特定行为的条件下在主题词向量中选择主题的概率，即在不同情感，不同行为下的主题分布情况，

表示迪利克雷分布，

表示在特定情感-行为下选择特定主题的概率；

表示主题向量；α是超参数，表示主题词向量的稀疏度，

表示主题词向量的稀疏度向量；θ表示特定情感、特定行为条件下的各类主题概率分布；j表示情感种类，E表示全部情感种类数目；c表示行为种类，B表示全部行为种类数目；

表示第j种情感，第c种行为下第k类主题。

在一种实施方式中，步骤S4包括：

S4.1：根据基于在不同情感，不同行为下的主题分布情况，得到情感-行为-主题矩阵；

S4.2：根据情感-行为-主题矩阵，联合时间向量，获取不同情感、不同行为、不同主题，在不同时间发帖的概率，计算公式为：

其中，

表示在特定情感、特定行为、特定主题的条件下选择某一时间的概率，即不同情感、不同行为、不同主题，在不同时间发帖的概率，

表示迪利克雷分布，

表示在这次的情感-行为-主题出现在这个时间的概率；

表示时间词向量；μ是超参数，表示时间词向量的稀疏度，

表示时间词向量的稀疏度；ε表示特定情感、特定行为、特定主题条件下的时间向量概率分布；j表示情感种类，E表示全部情感种类数目；c表示行为种类，B表示全部行为种类数目；k表示主题数，K表示全部主题数；h表示时间，H表示全部时间种类。

在一种实施方式中，步骤S5包括：

S5.1：根据基于在不同情感，不同行为下的主题分布情况，得到情感-行为-主题矩阵；

S5.2：根据情感-行为-主题矩阵，联合主题下的词向量，确定不同情感、不同行为、不同主题中的词分布情况，计算公式为：

其中，

表示在特定情感、特定行为、特定主题的条件下选择某一词汇的概率，即不同情感、不同行为、不同主题中的词分布情况，

表示迪利克雷分布，

表示在特定的情感-行为-主题下选择特定词的概率；

表示词向量；β是超参数，表示词向量的稀疏度，

表示词向量的稀疏度向量；

表示特定情感、特定行为、特定主题条件下的词向量概率分布；j表示情感种类，E表示全部情感种类数目；c表示行为种类，B表示全部行为种类数目；k表示主题数，K表示全部主题数；v表示词汇，V表示全部词汇数；

表示第j种情感，第c种行为，第k类主题下第v个词；θ表示特定情感、特定行为条件下的各类主题概率分布；j表示情感种类，E表示全部情感种类数目；c表示行为种类，B表示全部行为种类数目；

表示第j种情感，第c种行为下第k类主题。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明的建模方法主要包括对个人的发帖文本进行情感、行为、主题和时间挖掘。首先，针对帖子和个人情感确定帖子的情感占比；其次，依据相关行为分类规则获取行为占比；将情感占比与行为占比联合，获取多类别的情感-行为分类；依据情感-行为分类的概率，确定在不同分类下的主题分布；联合时间向量，获取不同情感、不同行为、不同主题，在不同时间发帖的概率；联合主题下的词向量，确定不同情感、不同行为、不同主题中所选词的概率变化；最后，综合上述所有概率(包括帖子的情感概率、行为概率、时间概率和主题概率，即帖子中各类情感占比，帖子中各类行为占比，不同情感、不同行为、不同主题，在不同时间发帖的概率，不同情感、不同行为的主题分布情况)，成功得到个人所发帖子的情感、行为、时间和主题占比。本发明构建的模型能够通过挖掘个人的情感极性和行为倾向，将二者分别与主题抽取联合，获取个人的兴趣主题和行为主题，再与时间做联合，可获得个人在不同阶段所关注的兴趣主题以及个人行为的演化趋势。即，本发明通过模型构建对各类文本进行深层挖掘，探究在特定情感中，特定行为出现的概率，以及以个人或集体为单位，各类兴趣主题和行为在特定时间内的变化趋势，很有研究价值和意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中联合行为-情感-时序的在线论坛主题建模方法的流程图；

图2为采用图1中的方法所构建的联合行为-情感-时序的主题模型示意图；

图3为本发明实施例中情感和行为对主题的映射示意图；

图4为本发明实施例中情感、行为和主题对词的映射示意图。

具体实施方式

教育文本挖掘是文本挖掘中不可忽视的研究方面。从简单的文本中挖掘和发现学习者的潜在学习感受和学习动机以及知识建构水平等多方面的变化，对于发现学习者的“学习痛点”，提供个性化教学辅助提供参考和依据，还能够帮助教师快速掌握学习者的学习状况，包括学习态度和整体进度，便于及时答疑解惑，提供反馈。作为教育文本挖掘领域中的研究热点，通过文本对学习者的情感和行为倾向进行计算和分析，不仅能帮助对学习者潜在心理变化进行了解和剖析，对教学资源和模式的多元化、丰富化也有着很大的帮助。而在线论坛作为在线教育中重要的教学辅助手段，允许学习者自由发表个人观点和主观感受，以及和他人进行社会性互动。而在在线论坛中师生、生生之间互动产生的异构数据中，帖子文本是其中最简单也最普遍的交互方式。在这里，在线论坛中学习者发布的帖子被认为是情感、行为、时间和词的联合分布。从情感出发，学习者的情感和主题联合可获得学习者在教学中所关注的兴趣主题；站在行为分析的角度来说，行为和主题的联合可以得到学习者在整个教学周期中潜在的行为倾向；而将二者联合，可以获取在某类情感中某种行为出现的概率，再加入时间元素，则可以发现在不同时间中，某类情感下某种行为出现的概率和演化趋势。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种联合行为-情感-时序的在线论坛主题建模方法，包括：

需要说明的是，本发明中概率就是分类后每个类别的占比情况。情感概率是指帖子中各类情感占比，行为概率是指帖子中各类行为占比，主题概率是指不同情感、不同行为下的各类主题占比，时间概率是指不同情感、不同行为、不同主题，在不同时间发帖的概率，词概率是指不同情感、不同行为、不同主题中的词分布概率。。

请参见图1，为联合行为-情感-时序的在线论坛主题建模方法的流程图。

在一种实施方式中，步骤S1包括：

S1.1：构建情感词典，得到预设情感分类规则；

其中，

表示迪利克雷分布，这是一种多变量的先验分布，即在先前文档中这类情感的概率分布，

表示在这篇文档中选择这类情感的概率，二者联合对概率进行更新，

表示情感向量；γ是超参数，表示情感词向量的稀疏度，

表示第m篇文档中第j种情感所有的词数。

具体来说，情感占比可以借助一定的规则和标准来进行计算，或者借助机器学习和深度学习等算法来获取情感极性数据。本实施方式中，采用的是情感词典来计算帖子的在情感向量中的不同占比。

有研究表明，学生互动中所表现出来的积极和消极的情绪对于学习兴趣和投入水平有重要影响。根据需要构建实际可行的情感词典，词典包含积极和消极两类情感。

借助情感词典计算情感向量占比，例如某帖子中有80％积极情绪，20％消极情绪。具体实施过程中，首先需要确定在第m篇文档中第j种情感出现的概率，然后进行积分计算，获得情感向量中各类别占比。

在一种实施方式中，步骤S2包括：

S2.1：构建在线教学行为分类规则；

其中，

表示迪利克雷分布，即在先前文档中这类行为的概率分布，

表示在这篇文档中选择这类行为的概率，二者联合对概率进行更新；ψ表示文档中的行为概率分布；

表示行为向量；η是超参数，表示行为词向量的稀疏度，

表示第m篇文档中第c种行为所拥有的词数。

具体来说，S2.1可以根据相关规则构建在线教学行为分类表，本实施方式中，将帖子的行为分为信息查阅、信息加工、信息发布、信息交互、问题解决与信息评价六类。其中，信息查阅行为即学习者对信息的检索、查找和下载行为；信息加工行为即在信息查找的基础上对资料进行处理和加工的行为；信息发布行为即学习者个人观点和看法的发表行为；信息交互行为即学习者与他人之间的一种交流与交互行为；问题解决行为指在没有明显的解决方案的情况下，将给定的问题转化为目标形式的认知加工过程；信息评价即对学习者的表现和任务完成情况进行评价和提供修改意见。

S2.2计算行为占比，从教学行为分类表出发，根据需求确定不同行为的概率，如信息查阅占40％，信息加工占50％，信息交互占10％。具体实施过程中，首先需要确定在第m篇文档中第c种行为出现的概率。然后进行积分计算，获得行为向量的各类别占比。

在一种实施方式中，步骤S3包括：

其中，

表示迪利克雷分布，即在先前此类情感-行为中这种主题的占比，

表示在特定情感-行为下选择特定主题的概率，二者联合对概率进行更新；

表示主题向量；α是超参数，表示主题词向量的稀疏度，

表示第j种情感，第c种行为下第k类主题。

其中，情感和行为对主题的映射如图3所示。

具体实施过程中，首先，根据步骤1和2中所得到的情感和行为占比，将二者联合，得到情感-行为矩阵(即情感和行为二者联合后的概率矩阵)，共12类。

然后通过步骤S3.2设置主题数，确定在12类情感-行为下的主题向量占比。可借助无监督算法完成。即，步骤S3.2是在S3.1的基础上来计算不同情感、不同行为下的主题概率，例如，在积极情感下的问题解决行为中关于课件制作这个主题的概率。

在一种实施方式中，步骤S4包括：

其中，

表示迪利克雷分布，即在先前此类情感-行为-主题发生在这个时间的占比，

表示在这次的情感-行为-主题出现在这个时间的概率，二者联合对概率进行更新；

表示时间词向量；μ是超参数，表示时间词向量的稀疏度，

具体来说，S4.1根据步骤S3得到的情感-行为-主题向量(在不同情感，不同行为下的主题分布情况)得到一个三维矩阵，即情感-行为-主题矩阵(情感、行为、主题三者联合后的概率矩阵)。S4.2再在S4.1的基础上，对不同情感-行为-主题三者联合后的概率发生在某个时间点的概率进行联合(确定时间占比)。例如，积极情感下的问题解决行为中关于教学制作的主题更容易发生在教学前期。

具体实施过程中，首先需要确定在第j类情感，第c种行为，第k类主题出现在时间h的概率。然后进行积分计算，获得情感-行为-主题-时间向量的各类别占比。

在一种实施方式中，步骤S5包括：

其中，

表示迪利克雷分布，即在先前此类情感-行为-主题中这个词的占比，

表示在特定的情感-行为-主题下选择特定词的概率，二者联合对概率进行更新；

表示词向量；β是超参数，表示词向量的稀疏度，

表示词向量的稀疏度向量；

表示第j种情感，第c种行为下第k类主题。

具体来说，S5.1根据步骤S3得到的情感-行为-主题向量(在不同情感，不同行为下的主题分布情况)得到一个三维矩阵，即情感-行为-主题矩阵。S5.2再在S5.1的基础上，对不同情感、不同行为、不同主题三者联合下在词向量中选择某个词(确定词占比)。

具体实施过程中，首先需要确定在第j类情感，第c种行为，第k类主题下词w出现的概率。然后进行积分计算，获得情感-行为-主题-词向量的各类别占比。

本发明的方法构建的联合行为，情感，时序的主题模型(BETTM(Behavior-Emotion-Time Topic Model)如图2所示，图2中圆圈代表随机变量，灰色圆圈代表已知变量，空白圆圈代表未知变量，有向箭头代表元素a(箭尾)发生的条件下元素b(箭头)发生的概率，矩形框内元素需进行重复采样，右下角即为方框内各变量的重复采样次数。其中，α，β，γ，μ，η为超参数，分别代表主题向量稀疏度、词向量稀疏度、情感词向量稀疏度、时间向量稀疏度与行为词向量稀疏度，稀疏度越高，密度就越低；t，w是可观测变量，代表发帖时间与文本，而e，b，z是隐变量，代表情感、行为与主题；N，E，B，D，K分别是词数量、情感类别数、行为类别数、文档数量以及主题数量；θ_bjk表示主题-情感-行为概率分布，

表示词-情感-行为-主题概率分布，π_mj表示文档—情感概率分布，ψ_mc表示文档-行为概率分布，ε_bjkh表示时间-情感-行为-主题分布概率分布。π_mj和θ_bjk二者可共同表示特定群体在整个学期中的兴趣主题概率分布，ψ_mc和θ_bjk二者可共同表示特定群体在整个学期中的行为主题概率分布，而π_mj和θ_bjk、ε_bjkh可表示在不同时间的兴趣主题概率分布。

最终得到的模型联合分布概率为：

从联合分布公式中可以得出，为了在已知五类超参数的条件下获取对未知变量的概率求解，模型先从文档所需的情感和行为出发，从向量中获取二者的概率分布向量，之后根据已知的情感和行为向量分布确定主题向量的概率分布，然后再来获取时间向量的概率分布和词向量的概率分布，这样就形成一篇完整的帖子文本，学习者可以在适当的时间发送帖子。

而为了更精准获取概率，使用吉布斯采样方法计算隐变量：

其中，

第c种行为、j种情感、k号主题下，除单词i之外的单词向量；

第c种行为、j种情感、k号主题下，除时间t之外的时间向量；

第c种行为、j种情感下，除主题q之外的主题向量；

第m篇文档中，除行为x之外的行为向量；

第m篇文档中，除情感p之外的情感向量。参数

请参见图4，本发明实施例中情感、行为和主题对词的映射示意图。通本发明构建的模型可以确定帖子的情感和行为占比，以及主题和词的抽取情况，并在确定时间发布帖子。

本发明实施例提供的一种联合行为-情感-时序的在线论坛主题建模方法，至少包括如下技术效果：

1.能够通过挖掘个人的情感极性，与主题抽取联合，获取个人的兴趣主题，再与时间做联合，可获得个人在不同阶段所关注的兴趣主题的变化。

2.借助对个人在帖子中潜在的行为倾向的挖掘，联合主题抽取相关问题，获取个人的主题行为。再综合时间因素，可获得个人在不同阶段的行为的变化。

3.将兴趣主题与行为主题联合，获取在不同情感下个人的行为概率，联合时间因素，可获取在不同时间中个人的情感-行为演化趋势。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。