CN115730608A

CN115730608A - 一种学习者在线交流信息分析方法及系统

Info

Publication number: CN115730608A
Application number: CN202211511162.2A
Authority: CN
Inventors: 彭晛; 张政; 刘智; 刘三女牙; 戴志诚; 刘石奇; 秦梓雯; 李淑芳
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-03

Abstract

本发明提供一种学习者在线交流信息分析方法及系统，包括：确定学习者在学习交流互动过程中生成的多维度话语文本信息；将多维度话语文本信息输入到训练优化后的时序主题模型，以基于多维度话语文本信息分析得到对应的学习者特征信息；时序主题模型根据贝叶斯理论和图模型建立，建立过程中整合学习者话语文本交互的外显社会行为，并整合学习者的内隐认知、情感及主题的动态耦合关系，融合学习者话语文本交互的时序特征，引入时间变量构建得到时序主题模型，解析学习者话语文本信息反映的不同要素之间的关联关系，实现对学习者话语文本的多维度分析。本发明为在线学习环境中学习共同体和个体的学习画像以及开展个性化教学提供有效的数据驱动支撑。

Description

一种学习者在线交流信息分析方法及系统

技术领域

本发明属于数据挖掘领域，更具体地，涉及一种学习者在线交流信息分析方法及系统。

背景技术

在线课程是一种重要的学习载体。学习者在在线课程讨论区交流学习的过程中会产生大量话语文本数据，这些数据中蕴含着有价值的信息。当学习者和教学者面对在线学习环境中大量的多元异构文本话语数据时，通常容易不知所措，造成一定程度的信息认知负载。传统的人工采集数据的方式，不仅费时费力，而且很难快速给出学习者的相关特征，且难以完全依赖人工浏览和手工标注的方式，对其进行话语统计和语义抽取，急需一种人工智能算法自动化地挖掘学习者话语动态交互过程中潜藏的、有价值的多维特征信息。而时序主题模型作为一种面向多情境、强拓展性的人工智能算法就可以快速解决这些问题。

针对时序主题模型，已有研究者从不同的角度进行研究。有研究者按照文本集的时间粒度划分到不同的滑动窗口，然后采用主题模型获取话语交互的具体特征。如胡吉明等人针对网络环境下的文本内容特点，指出当前时刻的文本信息将影响下一时刻文本信息的生成，通过改进的吉布斯采样方法提高主题检测的准确度，并实现主题强度和主题内容的追踪。Blei等人提出了一个动态主题模型，它假设模型当前时刻的后验参数为模型下一时刻的条件分布，通过先离散文档集合追踪主题的时序演变。此外，也有研究者将时间信息作为可观测变量指导主题模型的生成，如Dermouche等人设计了一种基于LDA的时间感知主题情感模型，该模型构建了时间关联主题和情感变量的直接映射关系，用于检测主题情感随时间的演化状态。

虽然研究学者对于学习者话语互动的时序主题建模投入了足够重视，并获得了一系列有意义的研究发现，为该领域的持续发展和纵深推进提供了良好的研究基础，然而，当前相关研究还存在一些问题。首先，传统时序主题模型通常离散化时间变量，没有将时间信息作为观测变量指导其内部运行的动态生成，并且侧重于主题强度或语义内容的单一维度建构。同时，已有研究忽视了学习者话语阐述的社会-认知-情感与主题之间的多元耦合关系，不利于构建跨场景的多层网络模型。且时序主题模型在教育领域开展在线学习社区的实践研究较少，应面向跨境域的教学活动场景缺乏，无法满足实际教育场景的需求。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种学习者在线交流信息分析方法及系统，旨在解决现有学习者话语互动过程分析技术，没有将时间信息作为观测变量指导其内部运行的动态生成，并且侧重于主题强度或语义内容的单一维度建构，且忽视了学习者话语阐述的社会-认知-情感与主题之间的多元耦合关系，不利于构建跨场景的多层网络模型，无法满足实际教育场景需求的问题。

为实现上述目的，第一方面，本发明提供了一种学习者在线交流信息分析方法，包括如下步骤：

确定学习者在学习交流互动过程中生成的多维度话语文本信息；

将所述多维度话语文本信息输入到训练优化后的时序主题模型，以基于所述多维度话语文本信息分析得到对应的学习者特征信息；所述学习者特征信息包括：学习者与话语主题的分布情况、主题与话语时间的分布情况、主题与话语文本单词的分布情况、主题与话语文本对应的社会行为的分布情况、主题与话语文本对应的学习者认知的分布情况以及主题与情感的分布情况；所述时序主题模型根据贝叶斯理论和图模型建立，在建立过程中整合学习者话语文本交互的外显社会行为，并整合学习者的内隐认知、情感及主题的动态耦合关系，以及融合学习者话语文本交互的时序特征，引入时间变量构建得到时序主题模型，解析学习者话语文本信息反映的不同要素之间的关联关系，实现对学习者话语文本信息的多维度分析。

在一个可选的示例中，所述时序主题模型为基于贝叶斯网络的有向无环图，以学习者话语文本信息为最外输入层，以单词层和关联社会行为、认知、情感及时间的主题层为内部层。

在一个可选的示例中，所述时序主题模型的构建过程如下：

弱化标准潜在狄利克雷分布模型假设，以学习者为研究对象，强化学习者话语文本信息对应的表达层，以学习者话语文本为时序主题模型的最外输入层；

在标准潜在狄利克雷分布模型基础上进行参数拓展：结合学习者话语文本交互的动态时间特征，根据学习者话语文本交互过程中的社会行为关系，以及话语主题关联的认知状态和情感倾向的映射依存关系，强调学习者话语主题引导下的社会行为、认知和情感分布，借助多轮次迭代模型，分别构建单维网络结构空间和多维网络结构空间，以基于两种网络结构空间抽象出多维主题角度；所述单维网络结构空间包括社会行为、认知、话语情感以及话语主题各自对应的网络聚类模型；所述多维网络结构空间包括：学习者-主题、主题-时间、主题-社会、主题-认知、主题-情感，以及学习者-主题-时间、学习者-主题-单词、学习者-主题-社会、学习者-主题-认知以及学习者-主题-情感多维网络聚类模型；

根据实际话语文本数据集合规模和话语文本交互特征，对模型输入变量进行调整，寻求主题模型多次迭代的随机采样方法和参数估计方法，输出学习者-主题概率分布，主题-时间概率分布，主题-单词概率分布，主题-社会行为概率分布，主题-认知概率分布和主题-情感概率分布，实现模型主题的多维度拓展。

在一个可选的示例中，优化后的时序主题模型的训练过程如下：

对时序主题模型以及主题-单词概率分布、主题-社会行为概率分布、主题-认知概率分布、主题-情感概率分布、主题-时间概率分布的先验参数进行初始化；

对收集到的学习者话语文本信息的训练数据依次进行归纳、整合以及数据预处理；所述数据预处理包括：中英文分词、词性抽取、语义规则转换以及停用词过滤；

基于预先构建的相关种子词典和情感词典确定主题单词生成的约束规则，并基于所述约束规则对数据预处理后的训练数据进行分词，得到分词集合；

对分词集合运行吉布斯采样，得到学习者训练数据中单词的主题标签，同时基于主题标签更新时序主题模型的初始先验参数；

重复进行吉布斯采样过程，对分词集合中的所有单词进行迭代采样，直至计算出分词集合中各词的主题分布，并更新时序主题模型的先验参数，最终使时序主题模型达到拟合状态。

在一个可选的示例中，设学习者话语文本信息的训练数据中|L_N|个学习者发表了|R_M|篇话语文本，根据每个学习者发表的话语文档，将其定义为L_N＝{l₁，l₂，....，l_k}，并将每个学习者话语文本表达的隐含主题集合定义为L_n＝{z₁，z₂，....，z_K}；

针对某个具体的主题，由学习者在特定时间内话语社会行为驱动产生，并隐藏了认知和情感信息，将其定义为z_k＝{s₁，s₂，....，s_n}(s_n∈S)，S包括学习者社会参与行为和社会关系两种话语交互模式和z_k＝{c₁，c₂，....，c_n}(c_n∈C)，C包括信息共享、提出质疑、意义协商、检验修正及应用创造五种类别，可视学习场景进行调整；

认知分类根据学习者话语文本语料库大小，采用基于预训练语言模型的半监督文本分类技术实现，z_k＝{z_p，z_n}(p，n∈E)，E包括积极和消极两种情感类别，可视学习场景进行情感类别拓展，以及z_k＝{t₁，t₂，....，t_n}(t_n∈T)，T代表总共的时间单元数量；将每个学习者话语文本表达的隐含主题集合定义为L_n＝{z₁，z₂，....，z_K}；其中，z_k具有多重含义，包括社会行为、认知、情感、时间以及主题；

假设训练数据中共有|V|个不同词项，从文档词项生成的角度出发，所有学习者的文档集合由高维词项向量空间R_M＝{w_1i，w_2i，......w_ni}(1≤i≤k)构成，w_nk代表第k个主题的对应词项，每个词项嵌有社会行为、认知、情感以及时间信息的主题，并且与该主题相关的词项集合表示为z_kcest＝{w₁，w₂，...，w_n}(z_kcest∈r_n)，r_n表示n维该主题关联的词向量空间，以形式化表征学习者话语文本对应的细粒度信息。

在一个可选的示例中，所述时序主题模型强调以学习者发布的话语文本为中心，每篇话语文本与学习者交互行为、情感信息和交互主题密切相关，并发生在对应的时序情境中；

根据贝叶斯理论，当时序主题模型中多项分布参数p的先验分布为多项分布时，以p为参数的多项分布的后验分布依然遵循狄利克雷Dirichlet分布，满足共轭特性，假设生成一篇学习者话语文本时，文本包含K个主题，服从学习者-主题的多项式概率分布；每个主题涵盖多种社会参与行为类别，服从主题-社会行为的多项式概率分布；每种社会行为关联的主题包含多项认知加工类别，并服从主题-认知行文的多项式概率分布；每种行为关联的主题包含积极和消极两种情绪类别，并服从主题-情感的二项式概率分布；每种行为、认知和情感关联的主题赋有时间标注，并服从主题-时间的多项式概率分布；当生成文本中的某个词项时，该词项具备社会行为、认知、情感和时间的约束标注，不断重复此过程直到完成所有文档的分析。

在一个可选的示例中，根据时序主题模型的变量依赖关系和概率图理论，联合时间信息的社交行为、认知和情感的多变量进行概率分布公式构建，计算公式为：

p(w,s,c,e,z,t∣α,β,ρ,γ,η,ζ)＝p(w∣z,s,c,e,β)·p(t∣z,s,c,e,λ)

·p(∣z,γ)·p(c∣z,ρ)·p(∣z,η)·p(z∣α)

其中，P为概率分布函数；w为单词变量s为社会行为变量，c为认知类别变量，e为情感变量，z为主题变量，t为时间变量；a是θ的狄利克雷先验分布先验参数；β是

的狄利克雷先验分布先验参数；ρ是δ的狄利克雷先验分布先验参数γ是π的狄利克雷先验分布先验参数；η是ψ的狄利克雷先验分布先验参数；λ是ζ的狄利克雷先验分布先验参数；θ为学习者文档-主题概率分布；

为主题-单词概率分布；δ为主题-认知概率分布；π为主题-情感概率分布；ψ为主题-社会行为概率分布；ζ为主题-时间概率分布；

其中：

其中，

分别表示学习者发布文档m中第k个主题标签的单词数量、与主题z关联共线的社会类别s的单词数量、与主题z关联共线的认知类别c的单词数量、与主题z关联共线的情感类别e的单词数量、与主题z关联共线的时间变量t的单词数量、与主题z关联共线单词变量w的单词数量、Δ表示参数数值变化；

根据吉布斯采样的迭代规律，随机采样训练数据对应文档集合中所有关联时间、社交行为、认知和情感映射单词的主题标签，即排除当前采样单词外z_-i，利用其它单词的主题概率分布对当前单词进行主题赋予，并更新时序主题模型相关参数。

第二方面，本发明提供了一种学习者在线交流信息分析系统，包括：

话语文本确定单元，用于确定学习者在学习交流互动过程中生成的多维度话语文本信息；

学习者特征分析单元，用于将所述多维度话语文本信息输入到训练优化后的时序主题模型，以基于所述多维度话语文本信息分析得到对应的学习者特征信息；所述学习者特征信息包括：学习者与话语主题的分布情况、主题与话语时间的分布情况、主题与话语文本单词的分布情况、主题与话语文本对应的社会行为的分布情况、主题与话语文本对应的学习者认知的分布情况以及主题与情感的分布情况；所述时序主题模型根据贝叶斯理论和图模型建立，在建立过程中整合学习者话语文本交互的外显社会行为，并整合学习者的内隐认知、情感及主题的动态耦合关系，以及融合学习者话语文本交互的时序特征，引入时间变量构建得到时序主题模型，解析学习者话语文本信息反映的不同要素之间的关联关系，实现对学习者话语文本信息的多维度分析。

在一个可选的示例中，所述学习者特征分析单元所用的时序主题模型为基于贝叶斯网络的有向无环图，以学习者话语文本信息为最外输入层，以单词层和关联社会行为、认知、情感及时间的主题层为内部层；

所述系统还包括：模型构建单元；

所述模型构建单元，用于弱化标准潜在狄利克雷分布模型假设，以学习者为研究对象，强化学习者话语文本信息对应的表达层，以学习者话语文本为时序主题模型的最外输入层；在标准潜在狄利克雷分布模型基础上进行参数拓展：结合学习者话语文本交互的动态时间特征，根据学习者话语文本交互过程中的社会行为关系，以及话语主题关联的认知状态和情感倾向的映射依存关系，强调学习者话语主题引导下的社会行为、认知和情感分布，借助多轮次迭代模型，分别构建单维网络结构空间和多维网络结构空间，以基于两种网络结构空间抽象出多维主题角度；所述单维网络结构空间包括社会行为、认知、话语情感以及话语主题各自对应的网络聚类模型；所述多维网络结构空间包括：学习者-主题、主题-时间、主题-社会、主题-认知、主题-情感，以及学习者-主题-时间、学习者-主题-单词、学习者-主题-社会、学习者-主题-认知以及学习者-主题-情感多维网络聚类模型；根据实际话语文本数据集合规模和话语文本交互特征，对模型输入变量进行调整，寻求主题模型多次迭代的随机采样方法和参数估计方法，输出学习者-主题概率分布，主题-时间概率分布，主题-单词概率分布，主题-社会行为概率分布，主题-认知概率分布和主题-情感概率分布，实现模型主题的多维度拓展。

第三方面，本发明提供了一种学习者在线交流信息分析系统，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述第一方面提供的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种学习者在线交流信息分析方法及系统，构建了一种融合学习者话语互动时间、社会、认知、情感和主题的多层时序主题模型，突破现有研究仅从话语外显行为或内隐语义内容单一维度建模以及话语静态性挖掘的局限。整合在线学习者话语交互的外显社会行为，以及内隐认知、情感、主题和时间的动态耦合关系，由外而内地对话语交互演化过程进行精细加工和重构时序主题生成机制，创建一种跨学习场景的多层时序主题模型智能算法。本发明有望突破现有话语交互分析模糊的局限，为在线学习环境中学习共同体和个体的学习画像以及开展个性化教学提供有效的数据驱动支撑。

本发明提供一种学习者在线交流信息分析方法及系统，深度重构学习者外显社会行为和内隐特征(认知、情感、时间和主题)的多层主题生成机制，对学习者话语过程进行精细刻画和跨场景动态建模，并解析不同要素之间的关联关系，实现对学习者多维度信息的输出，帮助教学者更为直观地、动态地掌握学习者潜在心理特征进程，以便助力个性化教学干预和反馈实施。

附图说明

图1为本发明实施例提供的学习者在线交流信息分析方法的简化流程图；

图2为本发明实施例提供的学习者在线交流信息分析方法的细化流程图；

图3为本发明实施例提供的社会-认知-情感-时序主题建模方法的算法流程图；

图4为本发明实施例提供的社会-认知-情感-时序主题建模方法的概率图模型图；

图5为本发明实施例提供的学习者在线交流信息分析系统架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明涉及一种学习者在线交流信息分析方法，该方法针对目前话题挖掘方法挖掘维度过于单一的问题，包括：首先采集在线学习平台中学习者交流互动生成的多维度话语文本信息；然后弱化潜在狄利克雷分布模型假设，强化学习者发表的文本数据层；“由外而内”地对话语交际过程进行跨场景建模，深度整合学习者的外显社会行为和内隐状态(认知、情感和主题)的多层耦合关系，模拟话语社会行为驱动的主题生成机制，引入学习者话语时序特征，联合指导多维主题模型，提出一个耦合学习者、社会、认知、情感、时间和主题六要素的多层时序主题模型，即学习者社会-认知-情感-时序主题模型(TimeInformation-Social Cognitive Emotional Topic Model，TI-SCETM)，以此形式化表征学习者话语语义内容的细粒度信息，帮助教学者更为直观地、动态地掌握学习者潜在心理特征进程，助力个性化教学干预和反馈实施。

图1为本发明实施例提供的学习者在线交流信息分析方法的简化流程图，如图1所示，包括如下步骤：

S101，确定学习者在学习交流互动过程中生成的多维度话语文本信息；

S102，将所述多维度话语文本信息输入到训练优化后的时序主题模型，以基于所述多维度话语文本信息分析得到对应的学习者特征信息；所述学习者特征信息包括：学习者与话语主题的分布情况、主题与话语时间的分布情况、主题与话语文本单词的分布情况、主题与话语文本对应的社会行为的分布情况、主题与话语文本对应的学习者认知的分布情况以及主题与情感的分布情况；所述时序主题模型根据贝叶斯理论和图模型建立，在建立过程中整合学习者话语文本交互的外显社会行为，并整合学习者的内隐认知、情感及主题的动态耦合关系，以及融合学习者话语文本交互的时序特征，引入时间变量构建得到时序主题模型，解析学习者话语文本信息反映的不同要素之间的关联关系，实现对学习者话语文本信息的多维度分析。

具体地，如图2所示，本发明提供的学习者在线交流信息分析方法的细化流程图，包括：

采集在线学习平台中学习者交流互动生成的多维度话语文本信息；学习者在课程讨论区中能够针对课程内容、当前课程进度、课程存在的问题等进行评价和交流讨论，在交流协作的过程中会产生大量讨论帖文本信息，这些信息与学习者交际行为、情感信息和交际主题密切相关，并发生在特定的时序情境中；

根据贝叶斯理论与图模型，整合在线学习者话语交互的外显社会行为(如发帖、回帖、倾听、投票、点赞等参与行为)，以及内隐认知、情感、主题和时间的动态耦合关系，对学习者话语交互演化过程进行精细加工以及重构时序主题生成机制，弱化标准的主题模型假设，同时，引入时间变量作为模型参数，实现多参数的时序主题模型的构建；

模型构建完成之后，对时序主题模型以及主题-单词、主题-社会、主题-认知、主题-情感、主题-时间的先验参数进行初始化；

对收集到的学习者话语文本信息的训练数据依次进行归纳、整合以及数据预处理，包括：中英文分词、词性抽取、语义规则转换以及停用词过滤；基于预先构建的相关种子词典和情感词典确定主题单词生成的约束规则，并基于所述约束规则对数据预处理后的训练数据进行分词，得到分词集合；

对分词集合运行吉布斯采样，得到学习者原始话语数据中的单词的主题标签，同时更新模型的初始先验参数；

重复进行吉布斯采样过程，对所有单词进行迭代采样，直至计算出分词集合中各词的主题分布，计算并更新模型的参数，最终使模型达到拟合状态；

通过时序主题模型对学习者原始话语数据进行分析，计算求解学习者-主题分布，主题-时间分布，主题-单词分布，主题-社会分布，主题-认知分布和主题-情感分布，通过矩阵的方式进行输出学习者特征信息，形式化表征学习者个人话语文档的细粒度信息；

通过分析学习者的模型输出结果(学习者矩阵)，帮助教学者更为直观地、动态地掌握学习者潜在心理特征进程，以便助力个性化教学干预和反馈实施。

具体地，模型是基于学习者-主题-单词多层级耦合的聚类优化算法，包括：

以单词为模型最小采样单元，弱化标准潜在狄利克雷分布(Latent DirichletAllocation，LDA)模型假设，在标准潜在狄利克雷分布模型基础上进行参数拓展；强调学习者为中心，以学习者为研究对象，强化学习者发表的文本数据表达层；以学习者话语文档为模型输入层，输出结果为学习者特征矩阵，特征矩阵包含所述话语文本信息对应的主题、社会行为、认知行为以及情感类型信息；特征矩阵充分展现主题单元及其属性特征关联(主题-社会、主题-认知、主题-情感等)，实现对学习者多维度的分析。

其中，LDA是自然语言处理中应用广泛的典型主题模型，作用是将文档集中每篇文档的主题以概率分布的形式给出，然后通过分析分到同一主题下的文档抽取其实际的主题，根据主题分布进行主题聚类或文本分类。

具体地，对于模型主题输出进行多维拓展，包括：

根据学习者话语交互过程中的社会行为关系，以及话语主题关联的认知和情感内容的映射依存关系，借助多轮次迭代模型，分别构建单维(社会、认知、情感和主题)和多维(学习者-主题、主题-时间、主题-社会、主题-认知、主题-情感，以及学习者-主题-时间、学习者-主题-单词、学习者-主题-社会、学习者-主题-认知以及学习者-主题-情感)的网络结构空间，抽象出多维主题角度；根据实际话语数据集合规模和话语交互特征，对模型变量进行调整，寻求主题模型多次迭代的随机采样方法和参数估计方法，输出学习者-主题概率分布，主题-时间概率分布，主题-单词概率分布，主题-社会概率分布，主题-认知概率分布和主题-情感概率分布，对模型主题进行多维度拓展输出，使得输出的学习者信息更加丰富。

具体地，模型是动态时序的，加入时间信息联合指导模型构建，包括：

在线网络课程开设具有连续性和持久性特点，学习者产生的交互话语已经不再是静态的、固化的“无机物”，而是动态的、具有纵向发展特征、有时间特征的“生命体”；融合学习者话语互动时间、社会、认知、情感和主题的多层时序主题模型，突破现有研究仅从话语外显行为或内隐语义内容单一维度建模以及话语静态性挖掘的局限。本发明厘清学习者话语表达的外显社会行为和内隐认知、情感、主题要素的相互依存关系，引入时间属性“由外而内”地揭示话语行为驱动的时序主题内在生成机制；摒弃传统时序主题模型离散化时间变量的做法兼顾主题强度或语义内容的多维度建构，重视学习者在话语交互情境过程中的社会行为、认知投入、情感态度等多因素的依赖关系，将时间信息作为观测变量指导其内部运行的动态生成。

请参阅图3和图4所示，所述融入学习者社交特征信息的话题建模算法的步骤如下：

TI-SCETM时序主题模型是一个基于贝叶斯网络的有向无环图，以学习者发布文档层M为最外输入层，以关联社会行为、认知、情感和时间的主题层和单词层为内部层。图4中的任意节点表示随机变量，实心圆表示已知观测变量，如单词变量，而空心圆表示未知隐藏变量，如主题变量。其中M为学习者文档数量，N为单词数量，K为主题数量，Z为主题数量，s为社会行为变量，y为调节变量，c为认知类别变量，e为情感变量，w为单词变量，t为时间变量；a是θ的狄利克雷先验分布先验参数；β是

的狄利克雷先验分布先验参数；η是ψ的狄利克雷先验分布先验参数；γ是π的狄利克雷先验分布先验参数；λ是ζ的狄利克雷先验分布先验参数；ρ是δ的狄利克雷先验分布先验参数；θ为学习者文档-主题概率分布；

为主题-单词概率分布；ψ为主题-社会概率分布；π为主题-情感概率分布；ζ为主题-时间概率分布；δ为主题-认知概率分布。其中图4中各个符号意义可参考表1：

表1TI-SCETM模型的符号表示表

请参阅公式(1)和公式(2)所示，根据TI-SCETM概率模型的变量依赖关系和概率图理论，联合时间信息的社交行为、认知和情感的多变量进行概率分布公式构建，并初始化TI-SCETM模型和相关参数：

p(w,s,c,e,z,t∣α,β,ρ,γ,η,ζ)＝p(w∣z,s,c,e,β)·p(t∣z,s,c,e,λ)

·p(∣z,γ)·p(c∣z,ρ)·p(∣z,η)·p(z∣α)

(1)

右边各项因子推导展开为：

根据图4中各变量的依赖关系，动态主题模型生成的算法如下：初始化TI-SCETM模型和相关参数K，α，β，γ，η，λ和ρ；

对于学习者交互的每一个话题z_k，k＝1,…,K：

采样服从主题-单词的多项式分布：

采样服从主题-社会的多项式分布：ψ_ks～Dir()

采样服从主题-认知的多项式分布：δ_kc～Dir()

采样服从主题-情感的二项式分布：π_ks～Dir()

采样服从主题-时间的多项式分布：ζ_kcest～Dir(λ)

对于每个学习者l，l＝1,2,....：

采样服从学习者-主题的多项式分布：θ_mk～Dir(α)

对于学习者发表文档中的任意单词n，n＝1,.....,_lm

采样学习者交互的单个主题z_lm，

采样该主题下的单个社会行为类别s_lm，

采样该主题下的单个认知行为类别c_lm，

采样该主题下积极或者消极的情感类别e_ln，

采样融合时间信息的社会-认知-情感主题的单词w_lmnt，

除首次迭代后，运行Gibbs采样，赋予学习者发表文档中单词w的新话题标签z_k，并且更新TI-SCETM模型的相关参数；

请参阅公式(3)所示，根据吉布斯采样的迭代规律，随机采样文档集合中所有关联时间、社交行为、认知和情感映射单词的主题标签，即排除当前采样单词外z_-i，利用其它单词的主题概率分布对当前单词进行主题赋予，例如，(n_z,s,c,e,t)_-i表示除当前单词标记外，与主题k在时间单元t内共现的社会交际类别s，认知行为类别为e以及情感类别为e的数量，计算公式如下，并更新TI-SCETM模型相关参数：

重复吉布斯采样过程，直至模型达到拟合状态，计算模型隐藏变量；直到模型采样达到收敛稳定后，遵循模型参数多项分布和迪利克雷分布满足共轭特性基础，采样参数的平均值似然估计Dirichlet后验分布参数，求解模型中的未知变量学习者文档-主题分布θ_mk，主题-单词分布

主题-社会分布ψ_ks，主题-认知分布δ_kc，主题-情感分布π_ke，主题-时间分布ζ_kcest。其中，时序主题模型的输入与输出参见表2所示：

表2社会-认知-情感-时序主题建模方法的输入与输出示例表

具体地，当动态主题模型生成后，采用吉布斯采样(Gibbs Sampling)方法实现主题采样的随机模拟过程，主要通过构造马氏链转移矩阵，对于给定的概率分布p(x)，使其达到平稳分布状态p_n。除首次迭代随机采样后，融合吉布斯采样规则，赋予学习者话语文档集合中所有单词相应的主题标签，直到寻找模型概率分布的稳定状态，完成隐含参数的似然估计。

需要说明的是，该时序主题模型的形式化描述大概如下，假设样本集中|L_N|个学习者发表了|R_M|篇话语文档，根据每个学习者发表的话语文档，将其定义为L_N＝{l₁,l₂,....,l_k}，并将每个学习者话语表达的隐含主题集合定义为L_n＝{z₁,z₂,....,z_K}。针对某个具体的主题，由学习者在特定时间内话语社会行为驱动产生，并隐藏了认知和情感信息，将其定义为z_K＝{s₁,s₂,....,s_n}(s_n∈S)(S包括学习者社会参与行为和社会关系两种话语交互模式，可视学习场景进行选择，加入调节变量y＝0或1)，z_k＝{c₁,c₂,....,c_n}(c_n∈C)(根据IAM模型，C包括信息共享、提出质疑、意义协商、检验修正和应用创造五种类别，可视学习场景进行调整；认知分类根据文本语料库大小，采用基于预训练语言模型的半监督文本分类技术(BERT)实现，我们目前在语料认知分类的准确度上已达到75％以上)，z_k＝{z_p，z_n}(p，n∈E)(E包括积极和消极两种情感类别，可视学习场景进行情感类别拓展)，以及z_k＝{t₁，t₂，....，t_n}(t_n∈T)(T代表总共的时间单元数量)；将每个学习者话语文本表达的隐含主题集合定义为L_n＝{z₁，z₂，....，z_K}；其中，z_k具有多重含义，包括社会行为、认知、情感、时间以及主题。

假设样本集中共有|V|个不同词项，从文档词项生成的角度出发，所有学习者的文档集合可由高维词项向量空间R_M＝{w_1i，w_2i，......w_ni}(1≤i≤k)构成，w_nk代表第k个主题的对应词项，每个词项嵌有社会行为、认知、情感和时间信息的主题，并且与该主题相关的词项集合可以表示为z_kcest＝{w₁，w₂，...，w_n}(z_kcest∈r_n)(以词项概率大小进行降序排列)，则形式化表征了学习者个人话语文档的细粒度信息。

本模型强调以学习者发布的话语文档为中心，每篇话语文档与学习者交互行为、情感信息和交互主题密切相关，并发生在特定的时序情境中。根据贝叶斯理论，当主题模型中多项分布参数p的先验分布为多项分布时，以p为参数的多项分布的后验分布依然遵循Dirichlet分布，满足共轭特性。基于此原则前提，假设生成一篇学习者话语文档时，文档包含K个主题，服从学习者-主题的多项式概率分布；每个主题涵盖多种社会参与行为类别，服从主题-社会的多项式概率分布；每种社会行为关联的主题包含多项认知加工类别，并服从主题-认知的多项式概率分布；每种行为关联的主题包含积极和消极两种情绪类别，并服从主题-情感的二项式概率分布；每种行为、认知和情感关联的主题赋有时间标注，并服从主题-时间的多项式概率分布；当生成文档中的某个词项时，则该词项具备社会、认知、情感和时间的约束标注，不断重复此过程直到完成所有文档。

当动态主题模型生成后，采用吉布斯采样(Gibbs Sampling)方法实现主题采样的随机模拟过程，主要通过构造马氏链转移矩阵，对于给定的概率分布p(x)，使其达到平稳分布状态p_n。除首次迭代随机采样后，融合吉布斯采样规则，赋予学习者话语文档集合中所有单词相应的主题标签，直到寻找模型概率分布的稳定状态，完成隐含参数的似然估计。

图5为本发明实施例提供的学习者在线交流信息分析系统架构图，如图5所示，包括：

话语文本确定单元510，用于确定学习者在学习交流互动过程中生成的多维度话语文本信息；

学习者特征分析单元520，用于将所述多维度话语文本信息输入到训练优化后的时序主题模型，以基于所述多维度话语文本信息分析得到对应的学习者特征信息；所述学习者特征信息包括：学习者与话语主题的分布情况、主题与话语时间的分布情况、主题与话语文本单词的分布情况、主题与话语文本对应的社会行为的分布情况、主题与话语文本对应的学习者认知的分布情况以及主题与情感的分布情况；所述时序主题模型根据贝叶斯理论和图模型建立，在建立过程中整合学习者话语文本交互的外显社会行为，并整合学习者的内隐认知、情感及主题的动态耦合关系，以及融合学习者话语文本交互的时序特征，引入时间变量构建得到时序主题模型，解析学习者话语文本信息反映的不同要素之间的关联关系，实现对学习者话语文本信息的多维度分析。

其中，所述学习者特征分析单元所用的时序主题模型为基于贝叶斯网络的有向无环图，以学习者话语文本信息为最外输入层，以单词层和关联社会行为、认知、情感及时间的主题层为内部层。

模型构建单元530，用于弱化标准潜在狄利克雷分布模型假设，以学习者为研究对象，强化学习者话语文本信息对应的表达层，以学习者话语文本为时序主题模型的最外输入层；在标准潜在狄利克雷分布模型基础上进行参数拓展：结合学习者话语文本交互的动态时间特征，根据学习者话语文本交互过程中的社会行为关系，以及话语主题关联的认知状态和情感倾向的映射依存关系，强调学习者话语主题引导下的社会行为、认知和情感分布，借助多轮次迭代模型，分别构建单维网络结构空间和多维网络结构空间，以基于两种网络结构空间抽象出多维主题角度；所述单维网络结构空间包括社会行为、认知、话语情感以及话语主题各自对应的网络聚类模型；所述多维网络结构空间包括：学习者-主题、主题-时间、主题-社会、主题-认知、主题-情感，以及学习者-主题-时间、学习者-主题-单词、学习者-主题-社会、学习者-主题-认知以及学习者-主题-情感多维网络聚类模型；根据实际话语文本数据集合规模和话语文本交互特征，对模型输入变量进行调整，寻求主题模型多次迭代的随机采样方法和参数估计方法，输出学习者-主题概率分布，主题-时间概率分布，主题-单词概率分布，主题-社会行为概率分布，主题-认知概率分布和主题-情感概率分布，实现模型主题的多维度拓展。

可以理解的是，上述各个单元的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

另外，本发明实施例提供了另一种学习者在线交流信息分析系统，其包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述实施例中的方法。

此外，本发明还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述实施例中的方法。

基于上述实施例中的方法，本发明实施例提供了一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本发明实施例还提供了一种芯片，包括一个或多个处理器以及接口电路。可选的，芯片还可以包含总线。其中：

处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字通信器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

接口电路可以用于数据、指令或者信息的发送或者接收，处理器可以利用接口电路接收的数据、指令或者其它信息，进行加工，可以将加工完成信息通过接口电路发送出去。

可选的，芯片还包括存储器，存储器可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。

可选的，存储器存储了可执行软件模块或者数据结构，处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。

可选的，接口电路可用于输出处理器的执行结果。

需要说明的，处理器、接口电路各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。

应理解，上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。此外，在一些可能的实现方式中，上述实施例中的各步骤可以根据实际情况选择性执行，可以部分执行，也可以全部执行，此处不做限定。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(cen tralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种学习者在线交流信息分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述时序主题模型为基于贝叶斯网络的有向无环图，以学习者话语文本信息为最外输入层，以单词层和关联社会行为、认知、情感及时间的主题层为内部层。

3.根据权利要求1或2所述的方法，其特征在于，所述时序主题模型的构建过程如下：

4.根据权利要求1至3任一项所述的方法，其特征在于，优化后的时序主题模型的训练过程如下：

5.根据权利要求4所述的方法，其特征在于，假设学习者话语文本信息的训练数据中|L_N|个学习者发表了|R_M|篇话语文本，根据每个学习者发表的话语文档，将其定义为L_N＝{l₁，l₂，....，l_k}，并将每个学习者话语文本表达的隐含主题集合定义为L_n＝{z₁，z₂，....，z_K}；

6.根据权利要求4所述的方法，其特征在于，所述时序主题模型强调以学习者发布的话语文本为中心，每篇话语文本与学习者交互行为、情感信息和交互主题密切相关，并发生在对应的时序情境中；

7.根据权利要求5所述的方法，其特征在于，对时序主题模型以及主题-单词概率分布、主题-社会行为概率分布、主题-认知概率分布、主题-情感概率分布、主题-时间概率分布的先验参数进行初始化，具体为：

根据时序主题模型的变量依赖关系和概率图理论，联合时间信息的社交行为、认知和情感的多变量进行概率分布公式构建，计算公式为：

其中：

其中，

8.一种学习者在线交流信息分析系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，所述学习者特征分析单元所用的时序主题模型为基于贝叶斯网络的有向无环图，以学习者话语文本信息为最外输入层，以单词层和关联社会行为、认知、情感及时间的主题层为内部层；

所述系统还包括：模型构建单元；

10.一种学习者在线交流信息分析系统，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1-7任一项所述的方法。