CN112905751B

CN112905751B - 一种结合主题模型和孪生网络模型的话题演化跟踪方法

Info

Publication number: CN112905751B
Application number: CN202110295296.4A
Authority: CN
Inventors: 应文豪; 龚晓康; 钟珊; 毕安琪; 严心淳; 张方舟
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2024-03-29
Anticipated expiration: 2041-03-19
Also published as: CN112905751A

Abstract

本发明公开了一种结合主题模型和孪生网络模型的话题演化跟踪方法，包括步骤1、数据采集，对社交媒体平台的用户数据进行爬虫提取；步骤2、按照设定的时间间隔把文本进行划分得到需要判别的文本数据；步骤3、采用LDA主题模型提取相邻的时间线内的文本数据主题并计算两者显性相似度；步骤4、采用孪生网络和注意力机制计算相邻的时间线内的文本数据的文本语义间的隐性相似度；步骤5、对显性相似度和隐性相似度进行加权融合得到融合邻近度；步骤6、由融合邻近度与预先设定的阈值比较，确定话题在不同时间线的时态变化。本发明结合LDA主题模型和注意力增强的孪生网络模型对文本进行学习，判断出话题的演化并进行追踪，在短时间内掌握话题的发展。

Description

一种结合主题模型和孪生网络模型的话题演化跟踪方法

技术领域

本发明涉及一种话题演化跟踪方法，特别是一种结合主题模型和孪生网络模型的话题演化跟踪方法。

背景技术

社交媒体信息作为一种数据类型具有动态变化性，而这种变化的载体就是话题，话题随着时间的发展而演化，从而反映了事态阶段性变化的过程。从认知学的角度，这样的演化过程符合人们认知事物的一般顺序，当用户关注某个话题时，一般从话题事件产生的原因开始，逐步深入到事情的发展、高潮，最终到话题事件的结束，这个逻辑顺序就是话题的动态演化，是话题随着事件变化的过程。然而随着计算机应用技术的快速发展，每时每刻产生的信息繁多复杂，面对海量的社交媒体信息，需要对离散化的数据进行挖掘与分析，需要准确完整地获取话题在每个阶段的特征，并且以话题为中心将各个阶段的内容整合，完成对话题的动态演化挖掘，使人们能够迅速且清晰地了解和把握住事情发展的过程与脉络。

通过话题检测与追踪，可以帮助人们从海量的网络信息中筛选出感兴趣的话题信息。现有话题检测技术主要分为三类，一是基于主题模型的话题检测，主要是基于主题模型(Latent Dirichlet Allocation)技术的主题模型，或者基于主题模型改进的主题模型，如公开号为CN105760499A的中国专利，先根据LDA主题模型的时间信息将语料库中的文档离散到时间序列上对应的时间窗口内；然后依次地处理每个时间窗口上的文档集合，得到不同时间片上的训练结果，把前面语料库的训练结果作为后面语料库训练过程中的先验参数；最后从训练结果中得到各LDA主题模型强度随时间的变化趋势，实现网络舆情的动态分析和预测功能。二是基于改进聚类算法的话题检测，如公开号为CN107679135A的中国专利对中文分词后的文档集构建图模型，根据图模型，构造拉普拉斯矩阵，进行特征分解，获取前k个特征向量，对前k个特征向量所构成的矩阵进行聚类，获取聚类结果，根据预先构建的话题的属性向量和聚类结果，计算话题的概率分布，根据话题的概率分布，判断当前文档是否为新话题或指定话题。以上方法对话题进行追踪演化主要基于主题模型或者传统聚类方法，然而主题模型等主题模型属于概率生成模型，侧重于文本结构，因此在文本语义提取方面表征能力相对薄弱，造成话题演化跟踪准确率不高的问题。

发明内容

针对上述现有技术缺陷，本发明的任务在于提供一种结合主题模型和孪生网络模型的话题演化跟踪方法，针对话题检测与追踪任务中提取文本语义薄弱的问题，在保证效率的同时兼顾检测的准确率。

本发明技术方案如下：一种结合主题模型和孪生网络模型的话题演化跟踪方法，包括以下步骤：步骤1、数据采集，对社交媒体平台的用户数据进行爬虫提取；步骤2、对提取的用户数据进行预处理，按照设定的时间间隔把文本进行划分得到需要判别的文本数据；步骤3、采用LDA主题模型计算相邻的时间线内的文本数据进行主题提取并判断两个主题间的显性相似度；步骤4、采用孪生网络和注意力机制计算相邻的时间线内的文本数据的文本语义间的隐性相似度；步骤5、对所述显性相似度和所述隐性相似度进行加权融合得到文本数据间的融合邻近度；步骤6、由所述步骤5得到的融合邻近度确定话题在不同时间线的时态变化。

进一步地，所述显性相似度和所述隐性相似度的加权融合使用以下公式进行

P_X(T_kn,T_(k+1)m)＝aP^α(T_kn,T_(k+1)m)+bP^β(T_kn,T_(k+1)m)

其中T_kn表示在时间线T_k中第n个主题，T_(k+1)m表示时间线T_k+1中第m个主题，P^α表示显性相似度，P^β表示隐性相似度，a和b分别显性相似度和隐性相似度的权重。优选的，a＝0.4，b＝0.6。

进一步地，所述显性相似度为余弦相似度，

P^α(T_kn,T_(k+1)m)＝cosine(T_kn,T_(k+1)m)

，所述隐性相似度为

式中T_kn表示在时间线T_k中第n个主题，T_(k+1)m表示时间线T_k+1中第m个主题，以及/>分别为主题在向量空间中的表示。

进一步地，所述孪生网络的子网络为双向长短期记忆网络。

进一步地，所述注意力机制采用以下公式计算

公式中其中R表示为向量空间，n表示多头注意力机制中的层数，d_k,d_v分别表示为注意力索引K与词向量V的维度。

进一步地，所述步骤6中设定阈值θ_ee,θ_cd,θ_p，θ_ee<θ_cd<θ_p，若第k+1个时间线中第i个主题T_(k+1)i与第k个时间线中所有话题的融合邻近度小于阈值θ_ee，为“出现”时态；若有且仅有一个时间线k中话题T_ki与时间线k+1中话题T_(k+1)j的融合邻近度大于阈值θ_p，为“持续”时态；若时间线k中至少两个话题T_ki与时间线k+1中话题T_(k+1)j融合邻近度大于阈值θ_cd，为“收敛”时态；若一个时间线k中话题T_ki与时间线k+1中至少两个话题T_(k+1)j融合邻近度大于阈值θ_cd，为“分离”时态；若时间线k中话题T_ki与相邻时间线k+1中所有话题的融合邻近度小于阈值θ_ee，为“消亡”时态。

本发明结合LDA主题模型和注意力增强的孪生网络模型对当前的社交媒体文本进行学习，在提取当前文本的主题以及语义后与相邻时间间隔的文本进行相似计算，判断出两个时间段内话题的演化并进行追踪。本发明采用了人工智能的方法，不需要对社交媒体文本进行要求筛选，具有更为广泛的应用性。

本发明与现有技术相比的优点在于：

1、采用LDA主题模型结合注意力增强的孪生BiLSTM网络模型，在现有对文本结构分析的基础上加入了对于文本语义的提取，加强了对于社交媒体文本之间的相关性判定，使得对于话题间关系判定更加准确；

2、通过融合技术为不同的相似度计算分配了不同的权重，在最终决策时能够充分利用各方法计算相似度的优势，选择最优的结果作为模型的权重比例，有利于对于话题关系间的判定；

3、在文本数据的语义提取部分的孪生网络结构中，对学习到的特征描述进行了增强的注意力机制融合，通过引入注意力机制从全局方面把握对于文本语义的提取，以消除冗余信息和由于文本过长导致前序文本丢失而造成的干扰，同时强化那些最具辨别特性的特征描述；

4、本发明通过网络爬虫在社交媒体平台进行信息爬取作为数据集，可以对话题间的演化分析做出准确的预测，让人在短时间内掌握话题的整体脉络发展，易于使用。

附图说明

图1为结合主题模型和孪生网络模型的话题演化跟踪方法示意图。

图2为本发明使用的具有注意力机制的孪生网络结构示意图。

图3为显性相似度权重对判断结果精确度的影响示意图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不作为对本发明的限定。

请结合图1所示，本发明实施例所涉及的一种结合主题模型和孪生网络模型的话题演化跟踪方法，包括以下步骤：

步骤一：数据采集

通过网络爬虫技术在社交网络平台进行信息爬取，确保数据真实性，数据集中可包含用户、时间和社交文本等数据。

步骤二：数据预处理

为了让数据以文本的形式输入网络，本发明将通过爬虫技术提取到的社交媒体文本数据转化为csv文件。首先，通过步骤一所获取的数据是txt的文本格式，给一个用户的信息文本为不确定长度的信息，由于所需要分析的数据为话题演化，因此从步骤一中的数据按照提取到的时间特征进行排序，接着按照设定的时间间隔对文本进行划分。其次由于社交媒体文本存在的非正式性，行为随机性等特点，通过jieba工具将文本进行词句切分并通过筛选停止词，剔除社交媒体文本中的无意义文本数据。接着将本发明将用户，时间与文本数据转化成csv文件格式，并将从csv文件中读取的数据，按照前面设定的时间间隔为整体作为网络模型所需的文本输入数据。

步骤三：使用话题演化追踪模型学习文本特征

本发明的目的是为了根据已有的社交媒体文本进行话题演化分析，本发明将话题的时态分为六个时态依次为：出现，持续，分离，收敛，消亡和潜伏。

传统基于LDA主题模型的方法中存在的缺乏对文本语义提取的缺陷，因此本发明结合了孪生网络对社交文本进行提取。本发明在文本间关系计算中主要分为两个部分：一为对于文本结构中主题词的提取，并将其在词向量空间中计算主题词间的相似度；二为对于文本语义的提取，主要使用注意力增强的孪生双向长短期记忆网络模型对文本间的语义关系进行计算。

将文本间关系计算定义为融合邻近度：

P_X(T_kn,T_(k+1)m)＝aP^α(T_kn,T_(k+1)m)+bP^β(T_kn,T_(k+1)m)

其中T_kn表示在时间线T_k中第n个主题，T_(k+1)m表示时间线T_k+1中第m个主题，P^α表示基于文本主题词计算得到的显性相似度，P^β表示基于文本语义计算得到的隐性相似度，a和b分别表示主题词和语义特征计算的权重。

对于第一部分中主题词的提取，本发明采用David Blei提出的LDA主题模型，将文本表示成一系列话题的集合，生成过程相当于实现了文本的话题聚类和文本的压缩，每个文本根据不同权重被分配到不同话题中。采用LDA方法确定各时间线中的文本的主题，提取相邻时间段内的主题，对于时间线T_k中第n个主题与时间线T_k+1中第m个主题，使用余弦相似度计算P^α作为显性相似度，具体如下式所示：

P^α(T_kn,T_(k+1)m)＝cosine(T_kn,T_(k+1)m)

请结合图2所示，对于第二部分中文本于语义提取部分，本发明采用的核心模型为基于循环神经网络改进的长短期记忆网络，相较侧重于识别跨空间的模式的卷积神经网络，其在检测局部的任务中取得较优的结果而言，循环神经网络侧重于跨时间的模式，对于长程语义的文本中可以得到优异的效果，因此在社交文本数据本身存在的时序性特点前提下，循环神经网络具有更好的表现，而长短期记忆网络作为循环神经网络的改进模型，其模型结构中记忆单元能有效的记录文本时序特征，在解决传统方法中提取文本语义较弱的缺点上能够得到更好的效果。

长短期记忆网络只能通过正向提取文本语义，且存在文本序列过长可能产生丢失前部序列信息的问题，在长短期记忆网络的基础上增加逆向文本的语义信息，在学习文本语义信息的同时加强了对于语义学习的能力，即为Graves提出的双向长短期记忆网络，该模型可以获得更多的文本语义信息。且在该基础上引入了注意力机制解决上述存在的信息丢失问题，从全局考虑文本语义信息，提取全局文本信息进行计算。注意力层的注意力机制的计算公式如下式所示：

公式中其中R表示为向量空间，n表示多头注意力机制中的层数，d_k,d_v分别表示为注意力索引K与词向量V的维度。激活函数softmax中为三个矩阵相乘，得到一个n×d_v的矩阵，可以简单的理解为Attention层把n×d_k的序列Q编码为n×d_v的新序列。

隐性相似度使用基于孪生双向长短期记忆网络和注意力机制并且使用曼哈顿距离的方法来实现句对之间的相似度度量。两个输入文本经过双向长短期记忆网络得到表征当前词段前后文语义的向量，并通过注意力机制中Q,K,V权重矩阵，对得到的向量进行权重分配，然后经过上述注意力层得到两个向量，该向量表征其对应的输入文本语义，通过曼哈顿函数进行计算得到两者相似度。当计算时间线T_k中的第n个主题和时间线T_k+1中第m个主题的隐性相似度如下公式所示，式中以及/>分别为主题在向量空间中的表示。

其中||||₁为1-范式，表示向量元素绝对值之和。

本步骤结合LDA主题模型和注意力增强的孪生双向长短期记忆网络模型能够在现有技术的基础上加入了对于文本语义信息的关注，提高了分辨文本间关系的准确率。本步骤中选择采用网格搜索来确定对于文本结构和文本语义关系的计算权重，即线性相似度和隐性相似度的权重，如图3所示，可以看出当计算两文本之间的关系通过对于其文本结构间的关系可以占据总结果的四成(a＝0.4)，而对于文本间的语义关系占据总结果的六成(b＝0.6)，这样的分配比例得出的结果最为优异。

步骤四：话题时态关系判定

时态关系的判定基准由θ_ee,θ_cd,θ_p三个阈值与上述P_X(T_kn,T_(k+1)m)计算的结果比较而确定，θ_ee判定出现和消亡两类事件，θ_cd判定分离和收敛两类事件，θ_p判定持续存在类事件。以话题间相关性程度的高低为依据，设定阈值时依照θ_ee<θ_cd<θ_p的规则。

若时间线T_k+1中话题T_(k+1)i与时间线T_k中所有话题都无法匹配，即第k+1个时间线中第i个主题T_(k+1)i与第k个时间线中所有话题的融合邻近度小于阈值θ_ee，话题在时间线中未被讨论，在时间线T_k+1中首次出现，表示一个从无到有的过程，为“出现”时态。

若有且仅有一个时间线k中话题T_ki与时间线k+1中话题T_(k+1)j的融合邻近度大于阈值θ_p，则表示话题T_ki在时间线k和k+1中持续存在，为“持续”时态。话题的持续在数量上表示一对一的关系，在社交媒体方面代表着话题被长期讨论，用户对加入该话题的兴趣和意向强烈。

若时间线k中至少两个话题T_ki与时间线k+1中话题T_(k+1)j融合邻近度大于阈值θ_cd，如用户在时间线T₁内子话题T₁₂以及T₁₃与时间线T₂内的话题T₂₃融合邻近度大于阈值θ_cd，则表示T₁₂与T₁₃收敛于T₂₃，即除去话题间单一关系，社交媒体中多个话题经过时间变化后会聚焦于同一话题，为“收敛”时态。

若一个时间线k中话题T_ki与时间线k+1中至少两个话题T_(k+1)j融合邻近度大于阈值θ_cd，如用户在时间线T₁内子话题T₁₂与时间线T₂内子话题T₂₂以及T₂₃融合邻近度大于阈值θ_cd，则表示话题T₁₂发散到T₂₂与T₂₃，为“分离”时态。体现为话题演化中存在一个话题经过时间演变后分散为多个子话题的现象，即话题分离。由于话题的收敛与分离涉及不同时间线中多个话题，其融合邻近度通常低于话题的持续，因此阈值θ_cd<θ_p。

如果时间线T_k中子话题T_ki与时间线T_k+1中的所有子话题都无法匹配，即话题T_ki与相邻时间线k+1中所有话题的融合邻近度小于阈值θ_ee，简言之，话题T_ki在时间线T_k+1中未被讨论，表示一个从有到无的过程，为“消亡”时态。

由于社交媒体中用户行为随机性的特点，若用户在时间线T₁内子话题T₁₂与相邻时间线T₂中所有子话题的融合邻近度均低于阈值，而在时间线T_i中继续被讨论，为“潜伏”时态，表示话题T₁₂处于潜伏状态。

各个时态转化成的数学计算公式如下表所示

表中E,P,C,D,E_x,F_E分别为出现，持续，收敛，分离，消亡，潜伏时态的代称，与分别表示在时间线k与k+1中存在的两个或以上的话题。在上述步骤三中的两个结果，由于存在的时态关系存在六种状态，如表一所示，根据不同的时间间隔以及其中话题间的关系划分为：出现，分离，收敛，持续，消亡，潜伏六种时态，通过综合步骤三中的结果严格按照表一中的计算方式进行判定，由此可以更加精确的判定话题间的演化关系。

Claims

1.一种结合主题模型和孪生网络模型的话题演化跟踪方法，其特征在于，包括以下步骤：步骤1、数据采集，对社交媒体平台的用户数据进行爬虫提取；步骤2、对提取的用户数据进行预处理，按照设定的时间间隔把文本进行划分得到需要判别的文本数据；步骤3、采用LDA主题模型计算相邻的时间线内的文本数据进行主题提取并判断两个主题间的显性相似度；步骤4、采用孪生网络和注意力机制计算相邻的时间线内的文本数据的文本语义间的隐性相似度，所述孪生网络的子网络为双向长短期记忆网络，所述注意力机制采用以下公式计算

公式中其中R表示为向量空间，n表示多头注意力机制中的层数，d_k,d_v分别表示为注意力索引K与词向量V的维度；步骤5、对所述显性相似度和所述隐性相似度进行加权融合得到文本数据间的融合邻近度，所述显性相似度和所述隐性相似度的加权融合使用以下公式进行

P_X(T_kn，T_(k+1)m)＝aP^α(T_kn，T_(k+1)m)+bP^β(T_kn，T_(k+1)m)

其中T_kn表示在时间线T_k中第n个主题，T_(k+1)m表示时间线T_k+1中第m个主题，P^α表示显性相似度，P^β表示隐性相似度，a和b分别显性相似度和隐性相似度的权重，所述显性相似度为余弦相似度，

P^α(T_kn，T_(k+1)m)＝cosine(T_knT_(k+1)m)，所述隐性相似度为

式中以及/>分别为主题在向量空间中的表示；步骤6、由所述步骤5得到的融合邻近度与预先设定的阈值比较，确定话题在不同时间线的时态变化。

2.根据权利要求1所述的结合主题模型和孪生网络模型的话题演化跟踪方法，其特征在于，a＝0.4，b＝0.6。

3.根据权利要求1所述的结合主题模型和孪生网络模型的话题演化跟踪方法，其特征在于，所述步骤6中设定阈值θ_ee,θ_cd,θ_p，θ_ee<θ_cd<θ_p，若第k+1个时间线中第i个主题T_(k+1)i与第k个时间线中所有话题的融合邻近度小于阈值θ_ee，为“出现”时态；若有且仅有一个时间线k中话题T_ki与时间线k+1中话题T_(k+1)j的融合邻近度大于阈值θ_p，为“持续”时态；若时间线k中至少两个话题T_ki与时间线k+1中话题T_(k+1)j融合邻近度大于阈值θ_cd，为“收敛”时态；若一个时间线k中话题T_ki与时间线k+1中至少两个话题T_(k+1)j融合邻近度大于阈值θ_cd，为“分离”时态；若时间线k中话题T_ki与相邻时间线k+1中所有话题的融合邻近度小于阈值θ_ee，为“消亡”时态。