CN113076467A

CN113076467A - 基于跨语言神经主题模型的汉越新闻话题发现方法

Info

Publication number: CN113076467A
Application number: CN202110326492.3A
Authority: CN
Inventors: 余正涛; 夏琳杰; 高盛祥; 黄于欣; 朱恩昌; 张勇丙
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-06

Abstract

本发明涉及基于跨语言神经主题模型的汉越新闻话题发现方法，属于自然语言处理技术领域。汉越的平行语料稀缺，训练高质量的双语词嵌入较为困难，而且新闻文本一般较长，双语词嵌入的方法难以很好的表征文本，本发明提出一种基于跨语言神经主题模型的汉越新闻话题发现方法(CL‑NTM)，将双语语义对齐转化为双语主题对齐任务。首先针对汉语和越南语分别训练基于变分自编码器的神经主题模型，得到单语的主题抽象表征，然后利用小规模的平行语料将双语主题映射到同一语义空间，最后使用K‑means方法对双语主题表征进行聚类，发现新闻事件簇的话题。实验结果表明，CL‑NTM针对汉越低资源话题发现任务取得了很好的效果。

Description

基于跨语言神经主题模型的汉越新闻话题发现方法

技术领域

本发明涉及基于跨语言神经主题模型的汉越新闻话题发现方法，属于自然语言处理技术领域。

背景技术

汉越新闻话题发现就是将汉越新闻报道进行聚类再发现相关的话题。这帮助人们更容易了解同一事件汉越不同的话题讨论。汉越新闻话题发现任务可以看作是对双语新闻聚类的问题，其主要难点在于克服中文与越南文新闻报道之间的语言差异，将两种语言表征到同一语义空间下进行新闻事件聚类。以往跨语言话题发现方法主要分为基于翻译的方法和利用双语词典或平行语料训练双语词嵌入的方法。

发明内容

本发明提供了基于跨语言神经主题模型的汉越新闻话题发现方法，以解决在汉越低资源场景中，由于平行语料的稀缺，构建双语词典和训练高质量的双语词嵌入变得十分困难，汉越新闻文本很难对齐到同一语义空间中的问题。

本发明主要针对新闻长文本聚类，使用双语词嵌入对长文本进行表示的方法不能很好的提取到长文本中重要的词的信息，从而导致新闻长文本的聚类效果欠佳。针对新闻文本而言，通常类属于同一事件的新闻报道大多都描述了相同或相近的主题，利用这种主题的关联性能很好的发现文本间的关联关系，这为汉越新闻的话题发现提供了新的途径，使用新闻主题特征对新闻文本进行表征后聚类，将汉越双语的语义对齐任务转化为新闻主题对齐，利用少量平行篇章主题在空间中的对齐构建双语语义空间，降低了对齐的难度，并对汉越新闻主题进行聚类，抽取主题词代表事件簇的话题，最终实现汉越新闻话题发现。

本发明的技术方案是：基于跨语言神经主题模型的汉越新闻话题发现方法，

所述方法包括：

Step1、通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量；

Step2、利用平行语料主题向量对齐的特性预训练出主题映射矩阵，将汉越新闻的主题向量表征到同一语义空间下；

Step3、对汉越可比新闻篇章处理得到各自的主题向量表示，通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中，进行主题向量的聚类，提取每个簇的主题词作为此类事件的相关话题。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、首先输入一篇新闻文档X，将其进行词切分,对新闻文本编码为词袋表示X_s，但由于词袋模型存在向量稀疏问题，使用两层多层感知机将词袋表示X_s编码为低维稠密的统计特征向量h：

X_s＝f_bow(X) (1)

h＝MLP(X_s) (2)

f_bow(·)表示将新闻篇章表征为词袋，X表示输入的新闻文档，X_s表示进行词切分后的新闻样本，即词袋表示，MLP表示多层感知机；

为了能通过统计特征向量h得到新闻的主题向量，将传统概率主题模型中的狄利克雷先验分布转化为高斯先验，假设每一篇新闻文本X的样本分布δ都属于正态分布，经过线性变换后的h同样属于正态分布：

μ∈N(0,I) (3)

h∈N(0,I) (4)

然后使用神经网络学习到h的正态分布均值μ与方差σ参数：

μ＝w_μh+b_μ (5)

σ＝w_σh+b_σ (6)

其中，w和b分别是权重矩阵和偏置矩阵，利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z：

Z＝με+σ (7)

ε通过采样标准正态分布得到，通过编码器训练得到输入新闻文本X的主题向量Z；

Step1.2、对词表中的词进行向量化后，将Step1.1中得到的主题向量Z作为锚点，与词向量矩阵ρ进行点乘计算，计算每个词与主题的相关性生成主题-词的相关性矩阵α，在向量空间中与主题向量Z更相关的词会在距离上逼近它，计算公式如下：

α＝softmax(ρ^T·Z) (8)

ρ代表词表的词向量矩阵，在这一步中，引用了CBOW的思想，CBOW每个词的计算过程如下：

w_dn～softmax(ρ^Tα_dn) (9)

w_dn是第d篇文档中第n个目标词，α_dn表示目标词w_dn周围窗口生成的上下文词向量；将主题向量Z作为词的上下文向量，对词表中的每个词都进行与主题向量Z进行一致性计算，在得到主题-词的相关性矩阵α；

Step1.3、将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β：

β＝softmax(Z·α^T) (10)

利用softmax(·)函数进行归一化操作后，对β进行采样重构生成伪新闻文本

解码器将输入的新闻文本X进行编码后，希望能够学习到的变分向量β重构生成出伪新闻文本

尽可能与原文本X相似，因此引入重构损失L_re：

其中，使用了log_softmax(·)函数优化模型损失的训练，避免梯度爆炸；

当本发明模型对新闻样本进行采样时并不能保证每个样本都服从标准正态分布，导致模型的后续推断很难进行。因此引入KL散度，利用调整KL散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布，KL散度损失的目标函数如下：

因此总损失L为：

L＝L_re+L_kl (14)

经过优化损失达到阈值收敛后，输出新闻篇章的主题向量Z。

作为本发明的进一步方案，所述步骤Step2的具体步骤为：

Step2.1、得到新闻主题向量Z后，使用平行新闻文本对，根据平行新闻文本对的主题向量在空间中位置对齐的关系，训练得到主题映射矩阵W^*，具体训练公式如下：

当源语言i与目标语言j对齐时，D_ij＝1，通过最小化映射源语言主题向量与目标语言主题向量之间的欧几里得距离之和，训练得到最佳的映射矩阵W^*，Z_i*是中文语义空间中的第i个主题向量，Z_j*是越南语义空间中的第j个主题向量，通过学习到的主题映射矩阵W^*，将汉越可比语料的新闻主题映射到同一语义空间下。

作为本发明的进一步方案，所述步骤Step3的具体步骤为：

Step3.1、针对爬取特定的新闻事件个数事先确定常数K，常数K意味着最终的聚类类别数，首先随机选定K个初始点作为质心{C₁,C₂,...,C_K}，并通过计算每一个主题向量Z与质心C之间的欧式距离：

其中，Z_i表示第i个主题向量，C_j表示第j个聚类质心；

通过依次比较每个主题向量与质心之间的距离，将每一篇新闻文本的主题向量Z分配到欧式距离最近的聚类簇S中S∈{S₁,S₂,...,S_K}，分配完成后重新定义每个簇的聚类质心：

|S_l|表示第l类簇中包含的聚类对象个数，Z_i表示属于该类簇中的第i个主题向量；

重复上述过程，直到质心不再改变，达到收敛条件后，得到聚类的新闻事件簇，选取每个簇离质心距离最近的主题向量Z，发现该主题向量下的主题词作为此类簇的话题：

w_t＝argmax(softmax(Z·α^T)) (18)

w_t表示该类主题下的话题词，argmax(·)表示选取在重构文本

的过程中概率最高的词，并将其表示为此类新闻事件簇的相关话题，实现汉越新闻话题发现的最终目的。

本发明的有益效果是：

1、本发明将双语语义对齐转化为双语主题对齐任务；本发明针对汉越低资源话题发现任务取得了很好的效果；

2、本发明利用汉越新闻主题对齐的方式取得的聚类效果相较于基于双语语义对齐的方法更佳，且受到汉越资源稀缺的影响更小；

3、本发明使用融入主题语义信息的变分自编码器神经主题模型生成新闻主题，既考虑新闻的统计信息，又考虑了新闻的上下文语义信息。经实验证明，本发明提出的方法十分有效，生成的主题词具有更好的主题一致性。

附图说明

图1为本发明整体流程图；

图2为本发明中CL-NTM模型流程图；

图3为本发明的NTM模型框架图。

具体实施方式

实施例1：如图1-3所示，基于跨语言神经主题模型的汉越新闻话题发现方法，首先针对汉语和越南语分别训练基于变分自编码器的神经主题模型，得到单语的主题抽象表征，然后利用小规模的平行语料将双语主题映射到同一语义空间，最后使用K-means方法对双语主题表征进行聚类，发现新闻事件簇的话题。

具体步骤如下：

首先在越南新闻网站上爬取了800篇越南新闻文本，根据新闻事件的主要报道在中文新闻网站中按1:5的比例获取相关中文可比语料4000篇和少量平行新闻篇章对132条；使用jieba分词和Vncorenlp工具包分别对中文和越南文的新闻语料进行分词和去停用词，过滤中文语料中出现频率不超过4次的词，越南语中滤除出现频率不超过2次的词。将变分自编码器中词嵌入维度设置为300，主题向量设置为20维，训练批次大小设置为100，使用Adam作为优化函数,学习率设置为0.002，运用梯度裁剪的方式防止梯度爆炸，并对输入Bow模型进行归一化处理，在K-means聚类中k值设置为4；

X_s＝f_bow(X) (1)

h＝MLP(X_s) (2)

μ∈N(0,I) (3)

h∈N(0,I) (4)

然后使用神经网络学习到h的正态分布均值μ与方差σ参数：

μ＝w_μh+b_μ (5)

σ＝w_σh+b_σ (6)

Z＝με+σ (7)

Step1.2、对新闻语料进行词切分后生成词表ρ，使用skip-gram模型对词表中的词进行预训练得到词向量矩阵ρ_1:v＝[w₁,w₂,w₃,...,w_v]∈R^v×m，v表示词表的长度，m表示词向量的维度。对词表中的词进行向量化后，将Step1.1中得到的主题向量Z作为锚点，与词向量矩阵ρ进行点乘计算，计算每个词与主题的相关性生成主题-词的相关性矩阵α，在向量空间中与主题向量Z更相关的词会在距离上逼近它，计算公式如下：

α＝softmax(ρ^T·Z) (8)

w_dn～softmax(ρ^Tα_dn) (9)

Step1.3、为得到更高质量的主题向量，本方法融合了主题语义信息和新闻词频统计信息，将主题向量Z与主题-词相关性矩阵α相乘得到变分向量β：

β＝softmax(Z·α^T) (10)

本模型的解码器的目的在于将输入的新闻文本X进行编码后，希望能够学习到的变分向量β重构生成出伪新闻文本

尽可能与原文本X相似，因此引入重构损失L_re：

由于本方法使用的神经主题模型摒弃了概率主题模型中的狄利克雷先验假设与吉布斯采样方式，通过假设新闻文本服从正态分布，并从正态分布中采样文本的特征。但这种采样方式也引出一个问题，当本发明模型对新闻样本进行采样时并不能保证每个样本都服从标准正态分布，导致模型的后续推断很难进行。因此引入KL散度，利用调整KL散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布，KL散度损失的目标函数如下：

因此总损失L为：

L＝L_re+L_kl (14)

经过优化损失达到阈值收敛后，输出新闻篇章的主题向量Z。

作为本发明的进一步方案，所述步骤Step2的具体步骤为：

Step2.1、为实现汉越语义空间对齐，本方法通过NTM模型得到新闻主题向量Z后，调用Vecmap的方法，使用平行新闻文本对，根据平行新闻文本对的主题向量在空间中位置对齐的关系，训练得到主题映射矩阵W^*，具体训练公式如下：

作为本发明的进一步方案，所述步骤Step3的具体步骤为：

Step3.1、为了实现话题发现的任务，本方法通过主题对齐的方式将两种语言映射到同一语义空间后，使用K-means聚类的方法对汉越新闻的主题向量进行聚类。在使用K-means过程中本方法针对爬取特定的新闻事件个数事先确定常数K，常数K意味着最终的聚类类别数，首先随机选定K个初始点作为质心{C₁,C₂,...,C_K}，并通过计算每一个主题向量Z与质心C之间的欧式距离：

其中，Z_i表示第i个主题向量，C_j表示第j个聚类质心；

w_t＝argmax(softmax(Z·α^T)) (18)

w_t表示该类主题下的话题词，argmax(·)表示选取在重构文本

为证明本方法提出方法对新闻文本聚类的有效性，首先比较了本方法与不同基线模型的F1值，如下表1所示：

表1.汉越新闻聚类对比实验结果

通过表1对比实验可知，上述几种模型中CLTC-LSA的方法是非概率的主题模型，它主要通过计算词之间的语义相似度，但在汉越低资源话题发现任务中，翻译效果较差，不能很好的计算中文与越南文之间的词的相似度，汉越语义空间的对齐效果欠佳，从而导致新闻聚类效果不够理想。从表中观察发现，ICE-LDA的聚类效果优于CLTC-LSA,ICE-LDA使用的是概率主题模型，能更好的对新闻文本进行主题的抽取，但由于该方法是将得到的新闻主题词通过翻译的方式建立双语联系，在汉越低资源条件下同样受翻译工具性能的影响较大，导致新闻聚类效果较差。CL-NTM*的实验结果表明，在汉越低资源场景下，双语词嵌入的对齐效果直接受困于平行篇章及平行句对的稀缺，通过训练双语词嵌入学习到映射矩阵通常很难实现新闻文本较好的对齐。在本组实验中，本方法分别对比了使用潜在语义分析、翻译工具和双语词嵌入的方法，实验证明，本方法利用汉越新闻主题对齐的方式取得的聚类效果相较于基于双语语义对齐的方法更佳，且受到汉越资源稀缺的影响更小；

为进一步证明本方法的有效性，本方法还与上述方法进行了主题一致性的比较，观察聚类后新闻簇的话题质量，从上表中主题一致性实验指标中可知，本模型相较于ICE-LDA与CLTC-LSA具有更好的主题一致性,具体原因分析如下：CLTC-LSA使用奇异值分解的方法提取新闻的主题词，但这种方法只是一种数学变换，很难与现实中的概念形成对应，导致生成的主题词可理解性差，而ICE-LDA具有词袋模型共有的缺点，只考虑新闻文本的统计信息，忽略了词的上下文语义信息，这使得模型生成的主题词容易出现高频无意义的词，从而影响模型主题一致性。本方法使用融入主题语义信息的变分自编码器神经主题模型生成新闻主题，既考虑新闻的统计信息，又考虑了新闻的上下文语义信息。经实验证明，本方法提出的方法十分有效，生成的主题词具有更好的主题一致性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。