CN111708881A

CN111708881A - 一种引入关联关系的文本表示学习方法

Info

Publication number: CN111708881A
Application number: CN202010442824.XA
Authority: CN
Inventors: 杨青; 张旭; 王旭强; 张剑; 刘玄; 秦莹
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-25

Abstract

本发明公开了一种引入关联关系的文本表示学习方法，包括以下步骤：步骤1：根据数据集中文本之间的关联关系构建关联关系网络G，并在所述关联关系网络G上随机游走，得到游走序列S；步骤2：基于步骤1中输出的游走序列S，联合学习数据集中文本之间的关联关系信息和每个文本的内容语义信息，构建引入关联关系的文本表示学习模型，所述引入关联关系的文本表示学习模型包括两个SkipGram模型；步骤3：将步骤2中两个SkipGram模型学习到的文本表示进行拼接，得到最终的文本表示。本发明的引入关联关系的文本表示学习方法同时融合文本的内容信息和结构关联关系信息，使得文本分类的准确率得到提升。

Description

一种引入关联关系的文本表示学习方法

技术领域

本发明涉及计算机应用技术领域，更具体地涉及一种引入关联关系的文本表示学习方法。

背景技术

随着信息技术的发展，包含文本信息的数据在日益增加，如何从海量复杂的文本数据中获取有用的信息是一个值得研究的问题。由此，文本表示学习受到了人们的广泛关注，其目标是通过某种方式将文本中的重要信息表示成低维稠密的向量，以便应用在各种下游任务中，例如文本情感分类、新闻文章主题分类、检索中用户查询意图分类等等。

文本表示学习相关模型大致可以分为三类：基于向量空间的模型、基于主题的模型、基于神经网络的模型。

向量空间模型是一种把文本内容转化为向量表示的代数模型，在信息检索、过滤、索引等领域都有广泛的应用。常用的基于向量空间的模型有TF-IDF和潜在语义分析(LSA)。TF-IDF方法中文本表示维度为对应词表的维度，在该方法中有两个重要的定义，即词频和逆文档频率。词频是指某个给定的单词在该文本中出现的频率，单词的逆文档频率是通过总文本文件的个数除以包含该词的文本文件数目，再对结果取对数计算得到的。向量中每个元素为对应词的词频和逆文档频率的乘积。LSA是通过构建文档与词项的共现矩阵来得到对应文本的向量表示。在该共现矩阵中，行代表文本，列代表单词项，矩阵中的每一个元素均是通过TF-IDF方法计算得到，然后通过奇异值分解(SVD)的方法进行降维，得到文本表示。该方法同样不能体现词的位置信息，忽略了语序，主要适用于长文本。TF-IDF和LSA方法只考虑了文本本身的语义信息，只关注了文本本身包含的单词信息，没有考虑文本之间的关联信息，学习到的文本表示是片面的。

主题模型尝试从概率生成模型的角度实现文本表示学习，文本表示的每一个维度代表一个“主题”，这个主题通常是一组词的聚类，因此该文本表示具有一定的解释性。隐含狄利克雷分布(LDA)是一种常用的主题模型方法，可以将文本中每篇文本的主题以概率分布的形式给出。它是一种典型的词袋模型，它认为一篇文章是一组词构成的集合，一篇文章可以包含多个主题，而文章中的每个词都由一个主题生成，和LSA一样不能考虑词与词之间的顺序关系。同样，LDA方法也没有考虑文本之间的关联关系。

人工神经网络(Artificial Neural Network)是近些年人工智能领域的研究热点。经典神经网络模型如卷积神经网络CNN、循环神经网络RNN等，在目前的计算机视觉领域有着广泛的应用，RNN的变体LSTM等则是广泛地应用于自然语言处理任务中。其中较为典型的是Mikolov等人提出的CBOW和SkipGram，简称Word2Vec模型，这两种模型在神经网络的基础上对词向量进行学习，训练效率较高，并且能得到高质量的词向量表示。Le等人拓展了Word2Vec模型，提出了Doc2Vec模型，可以学习文本的表示。虽然Doc2Vec模型学习到的文本表示质量较高，但是Doc2Vec只考虑了文本的内容信息，对于文本间的关联信息没有进行建模，学习到的信息不够全面。

现如今的文本数据中通常不仅包含其本身的内容信息，还具有文本间的关联关系，比如论文引用关系、微博转发关系等，这种文本间的关联关系对学习文本的表示也是至关重要的，例如，在论文主题分类任务中，论文与论文之间存在引用和被引用的关系，而存在这种关联关系的论文的主题通常是相似的，所以这种关联关系可以帮助模型学习到更全面的文本表示。而现有的模型只对文本的内容信息进行建模，忽略了文本间的关联关系，因此学习到的表示是不全面的。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种引入关联关系的文本表示学习方法。

本发明的目的通过下述技术方案予以实现。

一种引入关联关系的文本表示学习方法，包括以下步骤：

步骤1：根据数据集中文本之间的关联关系构建关联关系网络G，并在所述关联关系网络G上随机游走，得到游走序列S；

在步骤1中，所述关联关系网络G＝(V,A)，其中V是数据集中所有文本的集合，A是数据集中文本之间的关联关系的集合；

V＝{v₁，v₂，...，v_i}，其中v_i表示第i个文本的内容信息，n为数据集中文本的个数；

其中A_i,j＝1表示文本i和文本j之间存在关联关系，A_i,j＝0表示文本i和文本j之间不存在关联关系。

在所述关联关系网络G上随机游走是指在关联关系网络G中依次选择节点作为出发点，在出发点周围随机地选择一个邻居节点后移动到所述邻居节点上，然后把当前节点作为新的出发节点，重复以上过程；在达到一定的游走长度后，游走过程的路径就是得到的游走序列S，所述游走序列S＝{s₁，s₂，...，s_T}，其中s_i代表游走序列中第i个文本，T为游走序列的长度。

步骤2：基于步骤1中输出的游走序列S，联合学习数据集中文本之间的关联关系信息和每个文本的内容语义信息，构建引入关联关系的文本表示学习模型，所述引入关联关系的文本表示学习模型包括两个子部分模型；

在步骤2中，所述两个子部分模型为两个SkipGram模型，利用一个SkipGram模型捕获游走序列S中的文本之间的关联关系，对游走序列S中的文本依次进行训练，输入其中一个文本，通过softmax分类分别预测游走序列S中的其他文本；对于游走序列S中的每一个文本，利用另一个SkipGram模型捕获每个所述文本的内容信息，输入文本表示，通过softmax分类分别预测文本采样的单词；最后，将捕获文本之间的关联关系的SkipGram模型和捕获文本的内容信息的SkipGram模型的损失相加，同时训练两部分模型，从而达到关联关系信息和文本内容信息融合的效果。

步骤3：将步骤2中两个子部分模型学习到的文本表示进行拼接，得到最终的文本表示。

本发明的有益效果是：本发明的一种引入关联关系的文本表示学习方法基于现有的包含文本间关联关系的文本数据集，同时建模文本间的关联关系和文本的内容信息，联合学习文本的两方面信息，对数据的内容特征和关联关系特征进行捕获，最终学习到文本的表示，本发明的引入关联关系的文本表示学习方法同时融合文本的内容信息和结构关联关系信息，使得文本分类的准确率得到提升。

附图说明

图1是本发明的基于关联关系学习的文本表示部分的示意图。

图2是本发明引入关联关系的文本表示学习的流程图。

具体实施方式

下面结合附图和具体实施对本发明提供的一种引入关联关系的文本表示学习方法进行详细说明。

如图1和2所示，本发明提供的一种引入论文引用关系的论文表示学习方法包括按顺序执行的下列步骤：

步骤1：根据论文数据集中论文之间的引用关系构建论文引用关系网络G，并在网络上随机游走得到游走序列S；

在步骤1中，论文引用关系网络的定义是：网络G＝(V,A)，其中V是所有论文节点的集合，论文集合V＝{v₁，v₂，...，v_i}，其中v_i表示第i个论文，n为数据集中文论的个数；

为论文引用关系矩阵，其中A_i,j＝1表示第i个论文和第j个论文之间存在引用关系，无论是第i个论文引用了第j个论文还是第i个论文被第j个论文引用，都看作第i个论文和第j个论文之间存在引用关系，A_i,j＝0表示第i个论文和第j个论文之间不存在引用关系。例如，论文数据集中一共有5个论文，论文集合V＝{v₁，v₂，v₃，v₄，v₅}，v₁至v₅分别表示第1个至第5个论文，第1个论文引用了第2个论文，第2个论文引用了第3个论文，第3个论文和第5个论文同时引用了第4个论文，则A_1,2＝A_2,1＝A_2,3＝A_3,2＝A_3,4＝A_4,3＝A_4,5＝A_5,4＝1，在本发明的方法中论文本身和论文本身也看作存在引用关系。因此，论文引用关系矩阵A为：

在所述论文引用关系网络G上随机游走是指在论文引用关系网络G中依次选择节点作为出发点，在出发点周围随机地选择一个邻居节点后移动到所述邻居节点上，然后把当前节点作为新的出发节点，重复以上过程；在达到一定的游走长度后，游走过程的路径就是得到的游走序列S，所述游走序列S＝{s₁，s₂，...，s_T}，其中s_i代表序列中第i个文本，T为游走序列的长度。例如，游走长度T设为5，根据构建出的论文引用关系网络G，当出发点为v₁时，可以游走的下一个论文节点为v₁和v₂，假设此时选择v₂并移动到v₂，当游走长度到达5时，可以得到游走论文序列{v₁，v₂，v₃，v₄，v₅}。

步骤2：基于步骤1中的输出的游走序列S，联合学习论文数据集中论文之间的引用关系信息和每个论文的内容语义信息，构建引入论文引用关系的论文文本表示学习模型，主要由两个SkipGram模型构成，其中一个SkipGram模型对游走序列S中论文之间的引用关系进行建模，另一个SkipGram模型对游走序列S中每个论文的文本内容进行建模，从而同时建模论文间的引用关系信息和论文的内容信息。

步骤2.1)，基于论文引用关系的论文表示学习如下：

由于游走论文序列具有论文主题相似的特点，因此可以考虑将游走论文序列看作一种特殊的短语或短句，并用语言模型进行建模，采用SkipGram模型来捕获随机游走论文序列中包含的论文之间的引用关系，对序列中论文依次进行训练，输入其中一个论文表示，通过softmax分类分别预测序列中的其他论文：首先将所有论文随机初始化为一个k维向量，然后对序列中论文依次进行训练，输入其中一个论文表示，通过softmax分类分别预测序列中的其他论文，此过程公式如下：

其中，

为当前论文v_i的基于论文引用关系学习到的向量表示。例如，步骤1中得到的游走序列{v₁，v₂，v₃，v₄，v₅},对游走序列中的论文依次进行训练，当输入论文v₃的论文表示[0.12,0.98,…,1.03,-0.38]时，需要经过softmax分别预测v₁，v₂，v₄，v₅对应的论文；预测过程采用分层的softmax，经过预测过程，采用梯度下降的方法进行优化论文v₃的表示，得到v₃的基于论文引用关系的论文表示φ(v₃)为[1.21,0.17,…,-0.29,1.76]。

步骤2.2)，基于论文文本内容的论文表示学习：

对于序列中每个论文单独采用SkipGram模型捕获论文的文本内容信息，即输入论文表示，通过softmax分类分别预测论文中采样的单词。例如，论文v₃的内容为“we proposea method to learn the representation of the texts”，首先随机初始化论文v₃的文本表示为[0.39,0.37,…,1.29,-0.96]，然后随机采样论文v₃中的单词，采样得到“propose”、“representation”、“texts”单词，将论文v₃的表示输入到softmax中进行预测这些单词，不断优化论文v₃的表示，得到v₃的基于论文内容的论文表示

为[0.47,0.91,…,1.02,0.87]。

步骤2.3)，引入论文引用关系的论文表示学习：

将两部分的SkipGram模型的预测损失进行相加，同时训练两部分模型，从而达到论文引用关系信息和论文文本内容信息融合的效果。

步骤3：将步骤2.1)和步骤2.2)中学习到的论文表示进行拼接；例如，将通过基于论文引用关系的论文表示学习得到论文v₃的表示φ(v₃)和通过基于论文文本内容的论文表示学习的论文v₃的表示

行拼接

得到论文v₃的最终表示[1.21,0.17,…,-0.29,1.76,0.47,0.91,…,1.02,0.87]。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种引入关联关系的文本表示学习方法，其特征在于：包括以下步骤：

步骤2：基于步骤1中输出的游走序列S，联合学习数据集中文本之间的关联关系信息和每个文本的内容语义信息，构建引入关联关系的文本表示学习模型，所述引入关联关系的文本表示学习模型包括两个SkipGram模型，即SkipGram模型一和SkipGram模型二，其中SkipGram模型一对游走序列S中的文本之间的关联关系进行建模，SkipGram模型二对游走序列S中的每一个文本的内容信息进行建模；

步骤3：将步骤2中两个SkipGram模型学习到的文本表示进行拼接，得到最终的文本表示。

2.根据权利要求1所述的引入关联关系的文本表示学习方法，其特征在于：在步骤1中，所述关联关系网络G＝(V,A)，其中V是数据集中所有文本的集合，V＝{v₁，v₂，...，v_i}，其中v_i表示第i个文本的内容信息，n为数据集中文本的个数；A是数据集中文本之间的关联关系的集合，

3.根据权利要求2所述的引入关联关系的文本表示学习方法，其特征在于：在所述关联关系网络G上随机游走是指在关联关系网络G中依次选择节点作为出发点，在出发点周围随机地选择一个邻居节点后移动到所述邻居节点上，然后把当前节点作为新的出发节点，重复以上过程；在达到一定的游走长度后，游走过程的路径就是得到的游走序列S，所述游走序列S＝{s₁，s₂，...，s_T}，其中s_i代表序列中第i个文本，T为游走序列的长度。

4.根据权利要求1所述的引入关联关系的文本表示学习方法，其特征在于：在步骤2中，SkipGram模型一对游走序列S中的文本之间的关联关系进行建模，利用所述SkipGram模型一捕获文本之间的关联关系，对游走序列S中的文本依次进行训练，输入其中一个文本，通过softmax分类分别预测游走序列S中的其他文本。

5.根据权利要求4所述的引入关联关系的文本表示学习方法，其特征在于：在步骤2中，SkipGram模型二对游走序列S中的每一个文本的内容信息进行建模，利用所述SkipGram模型二捕获文本的内容信息，对游走序列S中的文本依次进行训练，输入文本表示，通过softmax分类分别预测文本采样的单词。

6.根据权利要求5所述的引入关联关系的文本表示学习方法，其特征在于：将捕获文本之间的关联关系的SkipGram模型一和捕获文本的内容信息的SkipGram模型二的损失相加，同时训练两个SkipGram模型。