CN111339783B

CN111339783B - 一种基于rntm的话题挖掘方法与装置

Info

Publication number: CN111339783B
Application number: CN202010113316.7A
Authority: CN
Inventors: 杨鹏; 李文翰; 李幼平; 纪雯
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2022-11-25
Anticipated expiration: 2040-02-24
Also published as: CN111339783A

Abstract

本发明公开了一种基于RNTM的话题挖掘方法与装置。本发明首先利用爬虫技术不断将新闻文档加入语料库，并对每篇文档进行预处理：分词并将文档截断为多个固定长度的顺序词组，再通过词嵌入技术将词组转化为数值矩阵，作为神经网络的输入；接着建立训练模型，利用特定的损失函数对其进行训练，直到整体损失小于阈值；最后利用输出模型与后处理步骤，通过未经截断的顺序词组得到文档对应的话题。RNTM模型基于词嵌入技术和循环神经网络结构，改善了传统onehot方法忽略词语内在语义的问题，缓解了传统词袋模型中忽略文档的词语顺序和语法结构等缺点，还能对时间信息进行分片处理，使本发明更精确地应用于提取文档语义信息，提升新闻话题挖掘的效果。

Description

一种基于RNTM的话题挖掘方法与装置

技术领域

本发明属于信息处理技术领域，具体涉及一种基于RNTM(Recurrent NeuralTopic Model)的话题挖掘方法与装置，主要利用循环神经网络提取新闻文档的语义信息，克服传统话题挖掘方法难以处理新闻文档的词语信息和结构信息的问题，可应用于新闻文档语义信息的精确提取，提升新闻话题挖掘的效果。

背景技术

随着互联网技术的飞速发展，网络媒体成为人们发布和获取信息的重要平台。而移动互联网时代的到来，更加丰富了用户获取资讯的渠道。在线新闻网站、移动端新闻应用软件、微博与微信自媒体等各方渠道，每天产生着海量繁杂的新闻信息，它们所反映的热点和重点话题，往往是人们重点关注的对象。因此如何从大量数据中挖掘出具有相同话题的文档，具有十分重要的意义。

LDA(Latent Dirichlet Allocation)话题模型是话题挖掘算法中最为经典和常用的模型。它假设话题与文档间服从多项分布，话题与词语间也服从多项分布，再通过词语和文档的频率关系，将两个多项分布利用贝叶斯公式联系起来，最后分别利用一个Dirichlet分布来表示两个多项分布的参数。在求解时，通常利用Gibbs采样算法，多次迭代直至模型收敛，并将收敛时各话题基于文档的概率分布作为文档的话题分布。

然而，LDA算法存在着如下问题：1.采用词语的onehot矩阵表示文档，忽略了词语的内在语义和文档的结构语义。2.LDA模型在预测话题时依赖于两个Dirichlet分布的超参数，这两个的超参数的更新需要进行全局的重新计算，难以根据数据的时间特征动态调整。在针对互联网中大量流式文档数据时，LDA算法的合理性、时效性和准确度均不能尽如人意。

近年来，基于神经网络的深度学习技术在自然语言处理领域取得了重大进展，其中，词嵌入技术可以缓解onehot模型不包含词语内在语义的问题；循环神经网络，尤其是LSTM单元则可以挖掘文档中词语顺序、篇章结构包含的语义信息。针对传统话题挖掘模型缺乏对词语语义和文档结构信息的问题，本发明利用基于LSTM单元的循环神经网络结构，提取文档的话题信息，并对时间信息进行建模，挖掘出一段时间内，文档所描述的话题的发生发展过程。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出了一种基于RNTM的话题挖掘方法与装置，利用神经网络获取新闻文档中词语和结构的语义信息，并采用分时间片处理的方法，对不同时间片的新闻文档分别训练模型，实现新闻文档语义信息的精确提取，并提升新闻话题挖掘的准确度和时效性。

技术方案：为实现上述发明目的，本发明所述的一种基于RNTM的话题挖掘方法，首先对新闻文档进行预处理，按时间片构造出训练集；然后利用训练集对训练模型进行训练；接着利用输出模型得到每个文档的语义信息；最后通过语义信息得到对应文档的话题。具体包括如下步骤：

(1)将数据集中的文档按时间分片，对每一篇文档进行分词，并将其切分或补齐为固定长度词语序列；对于一篇文档的一个词语序列，将该词语序列、该文档中的一个其他词语序列以及其他文档中的一个词语序列构成的三元组作为一个训练样本，构建神经网络训练数据集；

(2)对每一个完整的时间片分别构建RNTM训练模型，所述训练模型包括：输入层，用于接收一组三元组作为输入，将每一个词语序列转化为向量矩阵；语义提取层，用于基于LSTM循环神经网络层提取三元组的语义向量；语义概率化层，用于将语义向量转化为针对不同话题的概率；以及损失函数层，用于利用损失函数计算样本的损失；

(3)按时间顺序，对每个RNTM训练模型进行初始化与训练，以实现话题的挖掘；当一个时间片的文档收集完毕并完成预处理后，为其构建对应的训练模型；其中，第一个时间片的训练模型参数采用随机初始化，其余模型分别使用前一时间片的模型参数作为初始参数；

(4)针对每一个时间片，利用其训练模型构建输出模型，输入每篇文档转化的输入矩阵，判断文档的本地话题(也可能不属于任一话题)；

(5)对不同时间片的本地话题进行后处理，得到全局话题；

(6)对尚不完整的时间片，利用前一时间片的模型为文档赋予暂时的话题，待时间片结束后，再按步骤(2)～(5)确定每个文档的最终的全局话题。

作为优选，所述步骤(1)中在构建训练数据集时对每一篇文档中的每一个词语序列s，若该文档中还有其他词语序列，从中随机选取一个作为正例pos，再从其他文档中随机选取一个词语序列作为负例neg，如此一个三元组(s,pos,neg)作为基于s的一组训练样本存入数据库中；对每一个s一般构造3到5个三元组作为训练样本。

作为优选，所述RNTM训练模型包括以下各层：

输入层：每次接收一个词语序列作为输入，利用预训练的word2vector词向量，将每一个词语序列转化为向量矩阵；

语义提取层：使用同一个LSTM循环神经网络层，分别提取三元组的隐层信息，输出三个的语义向量；

语义概率化层：使用一层全连接层fc和softmax激活函数，将语义向量转化为针对不同话题的概率；

损失函数层：利用损失函数计算输入样本的损失，输入为三个的语义向量针对不同话题的概率，输出损失L。

作为优选，构建损失函数时使得各时间片内部，s与pos的隐层话题概率分布相似程度尽量大于s与neg的相似程度；各时间片之间，相似文档的隐层概率分布尽量相似；各文档的话题概率分布尽量不均匀。

作为优选，所述损失函数为：

L(S,P,N)＝L₁(S,P,N)+L₂(S,S_t-1)+L₃(S)

L₁(S,P,N)＝-sim(S,P)+sim(S,N)+α

L₃(S)＝min(S)-max(S)

其中，S,P,N分别表示s的概率分布，pos的概率分布,以及neg的概率分布；S_t-1是将s放入前一时间片的模型中得到的概率分布；L为模型的总体损失函数，L₁是基于相似度的损失函数，可以使同话题的文档趋向于拥有相似的特征向量，sim函数是具体的相似度计算方法，k为单时间片内预设的本地话题数量上限；L₂是基于时间片的损失函数，当前时间片若为第一个时间片，L₂＝0；否则利用s在当前模型的话题概率S与前一模型的概率S_t-1计算L₂；L₃是使概率分布出现峰值的损失函数，用于使不同文档获得尽可能有更明显的话题归属，min(S)、max(S)分别是S中的最小值和最大值，α与β为预设的超参数。

作为优选，所述RNTM输出模型具有与训练模型权重、结构相同的输入层，语义提取层，语义概率化层，每次接受一个文档的输入，且输入的词序列长度不限；所述输出模型的输出层的输入为概率化的话题向量，输出对应的本地话题id。

作为优选，通过本地话题得到全局话题的后处理方法是：第一个时间片的本地话题均为新话题；其余时间片中，先判断前一时间片中是否有相同id的本地话题，若否，则认定其为新话题；若是，则再将本时间片中的文档输入到前一时间片的输出模型中，若得到相同的本地话题id，则此本地话题属于对应的旧话题，否则属于新话题。

基于相同的发明构思，本发明所述的一种基于RNTM的话题挖掘装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于RNTM的话题挖掘方法。

有益效果：与现有技术相比，本发明具体如下优点：

(1)基于词嵌入技术，将新闻文档中的词语转化为语义相关的词向量，缓解了传统onehot模型对词语内在语义信息不敏感的缺点，有效地提高了模型对词语的理解能力。

(2)采用基于LSTM单元的神经网络模型提取文章的语义信息，缓解了传统词袋模型忽略文章的篇章结构、上下文关系的特点。有效地提高了模型对文档的理解能力。

(3)按时间片划分数据，并分别训练模型，解决了传统模型难以随时间动态更新模型，需要预设话题个数，难以判断新话题的开始与旧话题的结束等问题。

附图说明

图1为本发明实施例的方法流程图。

图2为RNTM训练模型结构图。

图3为RNTM输出模型结构图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开一种基于RNTM的话题挖掘方法，具体实施步骤如下：

步骤1，基本数据集的采集。本发明可以随时间进行动态的话题挖掘，但仍需要一段初始时间内的数据作为基础数据集(至少一个时间片的数据)。不失一般性，在本实施例中，从主流门户网站(腾讯、网易、新浪、搜狐)爬取了2018年7月1日至2018年7月7日一周内的新闻文档，共计4607篇，作为基本数据集。

步骤2，数据预处理。本实施例按天划分时间片，并对每个时间片中的数据分别进行处理。首先将每篇文档进行分词，并统计文档的长度，将每篇文档划分为若干个长度为L的词序列，记录下每个词序列所属的文章，并将其存储到数据库中，长度不足的词序列以0标志符补齐剩余的位置。本实施例中L取值为100。对于每一个词序列s，如果s所属的文档中还有其他的词序列，从中随机选取一个作为正例pos，再从其他的新闻中抽取一条词序列作为负例neg(若抓取的新闻文档带有如体育、财经等类别信息，则优选从与s所属文档类别不同的其他类别新闻中选取负例)，将三元组(s,pos,neg)作为第一个时间片的一组训练样本，存到数据库中。对每一个s，随机选取5组pos与neg构造出训练样本，但若s为对应文档唯一的词序列，则跳过此操作。下表为本数据集中第一篇文档与其第一个词序列的部分内容。

表1文档和对应的词序列

步骤3，对每个完整时间片分别构建RNTM训练模型。训练模型共分为以下四层：1.输入层：每次接收一组三元组样本(s,pos,neg)作为输入，输出各个词序列对应的词向量矩阵。2.语义提取层：利用LSTM循环神经网络，输入词序列对应的词向量矩阵，输出词序列对应的语义向量。3.语义概率化层：使用一个全连接层与softmax激活函数，将词序列的语义向量转化为词序列相对于每个话题的概率。4.损失函数层：计算当前网络权重下样本的损失，用来评估当前模型的性能，并为权重的更新提供梯度。具体而言，该步骤的实施分为以下子步骤：

子步骤3-1，构建输入层。

输入层接收一组三元组(s,pos,neg)作为输入，利用预训练的word2vector词向量，将每一个词语序列转化为向量矩阵。本实施例采用中文预训练词向量集合，将每一个词语转化为300维的向量。首先统计词序列中出现过的所有词语，包含于词向量集合中词语直接转化对应的词向量，不包含与词向量集合中的词语，将其转化为单字，并用单字的和表示整个词语，若单字仍不在词向量集合中，则以0向量代表单字。

子步骤3-2，构建语义提取层。

使用同一个LSTM循环神经网络层，分别提取三元组(s,pos,neg)的隐层信息，输出三个语义向量

本层采用1个标准LSTM单元提取词序列的语义。LSTM单元在初始化后，每次从词序列中获取一次词语的向量，更新单元内部的隐状态，并给出一个输出。本实施例以LSTM单元获取最后一个词向量后的输出作为整个词序列的语义表示。本实施例中LSTM单元的输出维度取值为128。

子步骤3-3，构建语义概率化层。

使用一层全连接层fc和softmax激活函数，将语义向量转化为针对不同话题的概率(θ(s),θ(pos),θ(neg))。按如下公式将语义概率化：

其中x_n为语义提取层的输出信息

中的任一个，共n维，W_n*k为语义概率化层的权重。输出θ(x_n)为k维向量，k为单时间片内预设的本地话题数量上限。softmax(X)是将向量X＝[x⁽⁰⁾,...,x⁽ⁱ⁾]概率化的函数，e是自然对数的底数。θ(s),θ(pos),θ(neg)均照此处理。

本层采用1个全连接层(fc)和softmax激活函数，将语义提取层的输出转化为词序列的话题概率分布。本实施例中输出维度为100。具体过程按公式(1)、公式(2)计算。其中s为词序列，

为语义提取层获得的s的语义信息，W为全连接层的权重。

子步骤3-4，构建损失函数层。

利用损失函数计算此样本的损失，输入(θ(s),θ(pos),θ(neg))，输出损失L。本层同时接受三个输入，即三元组(s,pos,neg)别通过以上三层后获得的对应话题概率分布(S,P,N)。按如下损失函数计算公式，得到本组样本的损失。

L(S,P,N)＝L₁(S,P,N)+L₂(S,P,N)+L₃(S,P,N) (3)

L₁(S,P,N)＝-sim(S,P)+sim(S,N)+α (4)

L₃(S)＝min(S)-max(S) (7)

其中S,P,N即上文所述s的概率分布θ(s),pos的概率分布θ(pos),以及neg的概率分布θ(neg)。S_t-1是将s放入前一时间片的模型中得到的概率分布。L为模型的总体损失函数，分为三个部分。L₁是基于相似度的损失函数，可以使同话题的文档趋向于拥有相似的特征向量。sim函数是具体的相似度计算方法，sim(S,P)与sim(S,N)均照此计算。L₂是基于时间片的损失函数，当前时间片若为第一个时间片，L₂＝0；否则利用s在当前模型的话题概率S与前一模型的概率S_t-1计算L₂。L₃是使概率分布出现峰值的损失函数，用于使不同文档获得尽可能有更明显的话题归属，min(S)、max(S)分别是S中的最小值和最大值。α与β为预设的超参数。在本实施例中α取值为0.5，β取值为0.1。

步骤4，按时间顺序，对每个时间片，分别训练对应的RNTM训练模型。其中第一个时间片对应的模型，采用随机初始化的方式初始化所有待训练参数，其它模型直接使用前一时间片对应模型的参数对自身进行初始化，以保证模型的连贯性。在训练的过程中，采用随机梯度下降(sgd)法，直到所有样本训练超过100轮或损失函数不再下降为止。在本实施例中，第一轮训练的损失函数值约为0.673，第100轮时损失函数值约为0.022。

步骤5，利用训练模型构建输出模型。将待检测文档的全文内容一起转化为词向量表示，然后通过文档所属时间片对应的输出模型，获取文档的话题概率分布，进而得到其本地话题。输出模型的前三层与对应训练模型相同，另有一个输出层。输出模型每次接受一个文档的输入，且输入的词序列长度不限，输出层接收由语义概率化层得到的概率化语义，按以下方法输出对应的本地话题id：若概率分布中有超过阈值的项，则选取最大的一项作为对应文档的本地话题id；否则对应文档不属于任何一个话题,将其id记为-1。具体计算方法如下所示。

本实施例中threshold取值为0.15。

步骤6，训练的后处理。对不同时间片的本地话题进行后处理，得到全局话题。首先，对每个时间片内的文档，通过对应输出模型获得本地话题id后，直接将本地话题id相同且不为-1的归入同一本地话题。然后，对于非首个时间片，若前一时间片有id相同的本地话题，将后一时间片的文档输入前一时间片的模型，若输出的id仍然相同，则确定这两个时间片的对应本地话题确实为同一个话题，将其合并到同一个全局话题，否则为其建立新的全局话题。

步骤7，动态获取新闻话题的方法。以上各个步骤为时间片结束后，对完整时间片的新闻处理方法。在时间片尚未结束时，先将爬取到的新闻存放于一个集合中，并利用前一时间片的输出模型及后处理方法，动态地为新爬取到的新闻赋予暂定的话题，在时间片结束后，按步骤3～6重新获得每个新闻的最终话题。表2为部分话题的新闻标题。

表2部分话题与其对应部分新闻的标题

基于相同的发明构思，本发明实施例公开的一种基于RNTM的话题挖掘装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于RNTM的话题挖掘方法。

Claims

1.一种基于RNTM的话题挖掘方法，其特征在于，包括如下步骤：

(4)针对每一个时间片，利用其训练模型构建输出模型，输入每篇文档转化的输入矩阵，判断文档的本地话题；

(5)对不同时间片的本地话题进行后处理，得到全局话题；

2.根据权利要求1所述的一种基于RNTM的话题挖掘方法，其特征在于，所述步骤(1)中在构建训练数据集时对每一篇文档中的每一个词语序列s，若该文档中还有其他词语序列，从中随机选取一个作为正例pos，再从其他文档中随机选取一个词语序列作为负例neg，如此一个三元组(s,pos,neg)作为基于s的一组训练样本存入数据库中；对每一个s一般构造3到5个三元组作为训练样本。

3.根据权利要求1所述的一种基于RNTM的话题挖掘方法，其特征在于，所述RNTM训练模型包括以下各层：

4.根据权利要求2所述的一种基于RNTM的话题挖掘方法，其特征在于，构建损失函数时使得各时间片内部，s与pos的隐层话题概率分布相似程度尽量大于s与neg的相似程度；各时间片之间，相似文档的隐层概率分布尽量相似；各文档的话题概率分布尽量不均匀。

5.根据权利要求4所述的一种基于RNTM的话题挖掘方法，其特征在于，所述损失函数为：

L(S，P，N)＝L₁(S，P，N)+L₂(S，S_t-1)+L₃(S)

L₁(S，P，N)＝-sim(S，P)+sim(S，N)+α

L₃(S)＝min(S)-max(S)

6.根据权利要求1所述的一种基于RNTM的话题挖掘方法，其特征在于，所述RNTM输出模型具有与训练模型权重、结构相同的输入层，语义提取层，语义概率化层，每次接受一个文档的输入，且输入的词序列长度不限；所述输出模型的输出层的输入为概率化的话题向量，输出对应的本地话题id。

7.根据权利要求1所述的一种基于RNTM的话题挖掘方法，其特征在于，通过本地话题得到全局话题的后处理方法是：第一个时间片的本地话题均为新话题；其余时间片中，先判断前一时间片中是否有相同id的本地话题，若否，则认定其为新话题；若是，则再将本时间片中的文档输入到前一时间片的输出模型中，若得到相同的本地话题id，则此本地话题属于对应的旧话题，否则属于新话题。

8.一种基于RNTM的话题挖掘装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于RNTM的话题挖掘方法。