CN111708881A - 一种引入关联关系的文本表示学习方法 - Google Patents

一种引入关联关系的文本表示学习方法 Download PDF

Info

Publication number
CN111708881A
CN111708881A CN202010442824.XA CN202010442824A CN111708881A CN 111708881 A CN111708881 A CN 111708881A CN 202010442824 A CN202010442824 A CN 202010442824A CN 111708881 A CN111708881 A CN 111708881A
Authority
CN
China
Prior art keywords
text
incidence relation
texts
sequence
skipgram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010442824.XA
Other languages
English (en)
Inventor
杨青
张旭
王旭强
张剑
刘玄
秦莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010442824.XA priority Critical patent/CN111708881A/zh
Publication of CN111708881A publication Critical patent/CN111708881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种引入关联关系的文本表示学习方法,包括以下步骤:步骤1:根据数据集中文本之间的关联关系构建关联关系网络G,并在所述关联关系网络G上随机游走,得到游走序列S;步骤2:基于步骤1中输出的游走序列S,联合学习数据集中文本之间的关联关系信息和每个文本的内容语义信息,构建引入关联关系的文本表示学习模型,所述引入关联关系的文本表示学习模型包括两个SkipGram模型;步骤3:将步骤2中两个SkipGram模型学习到的文本表示进行拼接,得到最终的文本表示。本发明的引入关联关系的文本表示学习方法同时融合文本的内容信息和结构关联关系信息,使得文本分类的准确率得到提升。

Description

一种引入关联关系的文本表示学习方法
技术领域
本发明涉及计算机应用技术领域,更具体地涉及一种引入关联关系的文本表示学习方法。
背景技术
随着信息技术的发展,包含文本信息的数据在日益增加,如何从海量复杂的文本数据中获取有用的信息是一个值得研究的问题。由此,文本表示学习受到了人们的广泛关注,其目标是通过某种方式将文本中的重要信息表示成低维稠密的向量,以便应用在各种下游任务中,例如文本情感分类、新闻文章主题分类、检索中用户查询意图分类等等。
文本表示学习相关模型大致可以分为三类:基于向量空间的模型、基于主题的模型、基于神经网络的模型。
向量空间模型是一种把文本内容转化为向量表示的代数模型,在信息检索、过滤、索引等领域都有广泛的应用。常用的基于向量空间的模型有TF-IDF和潜在语义分析(LSA)。TF-IDF方法中文本表示维度为对应词表的维度,在该方法中有两个重要的定义,即词频和逆文档频率。词频是指某个给定的单词在该文本中出现的频率,单词的逆文档频率是通过总文本文件的个数除以包含该词的文本文件数目,再对结果取对数计算得到的。向量中每个元素为对应词的词频和逆文档频率的乘积。LSA是通过构建文档与词项的共现矩阵来得到对应文本的向量表示。在该共现矩阵中,行代表文本,列代表单词项,矩阵中的每一个元素均是通过TF-IDF方法计算得到,然后通过奇异值分解(SVD)的方法进行降维,得到文本表示。该方法同样不能体现词的位置信息,忽略了语序,主要适用于长文本。TF-IDF和LSA方法只考虑了文本本身的语义信息,只关注了文本本身包含的单词信息,没有考虑文本之间的关联信息,学习到的文本表示是片面的。
主题模型尝试从概率生成模型的角度实现文本表示学习,文本表示的每一个维度代表一个“主题”,这个主题通常是一组词的聚类,因此该文本表示具有一定的解释性。隐含狄利克雷分布(LDA)是一种常用的主题模型方法,可以将文本中每篇文本的主题以概率分布的形式给出。它是一种典型的词袋模型,它认为一篇文章是一组词构成的集合,一篇文章可以包含多个主题,而文章中的每个词都由一个主题生成,和LSA一样不能考虑词与词之间的顺序关系。同样,LDA方法也没有考虑文本之间的关联关系。
人工神经网络(Artificial Neural Network)是近些年人工智能领域的研究热点。经典神经网络模型如卷积神经网络CNN、循环神经网络RNN等,在目前的计算机视觉领域有着广泛的应用,RNN的变体LSTM等则是广泛地应用于自然语言处理任务中。其中较为典型的是Mikolov等人提出的CBOW和SkipGram,简称Word2Vec模型,这两种模型在神经网络的基础上对词向量进行学习,训练效率较高,并且能得到高质量的词向量表示。Le等人拓展了Word2Vec模型,提出了Doc2Vec模型,可以学习文本的表示。虽然Doc2Vec模型学习到的文本表示质量较高,但是Doc2Vec只考虑了文本的内容信息,对于文本间的关联信息没有进行建模,学习到的信息不够全面。
现如今的文本数据中通常不仅包含其本身的内容信息,还具有文本间的关联关系,比如论文引用关系、微博转发关系等,这种文本间的关联关系对学习文本的表示也是至关重要的,例如,在论文主题分类任务中,论文与论文之间存在引用和被引用的关系,而存在这种关联关系的论文的主题通常是相似的,所以这种关联关系可以帮助模型学习到更全面的文本表示。而现有的模型只对文本的内容信息进行建模,忽略了文本间的关联关系,因此学习到的表示是不全面的。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种引入关联关系的文本表示学习方法。
本发明的目的通过下述技术方案予以实现。
一种引入关联关系的文本表示学习方法,包括以下步骤:
步骤1:根据数据集中文本之间的关联关系构建关联关系网络G,并在所述关联关系网络G上随机游走,得到游走序列S;
在步骤1中,所述关联关系网络G=(V,A),其中V是数据集中所有文本的集合,A是数据集中文本之间的关联关系的集合;
V={v1,v2,...,vi},其中vi表示第i个文本的内容信息,n为数据集中文本的个数;
Figure BDA0002504775390000021
其中Ai,j=1表示文本i和文本j之间存在关联关系,Ai,j=0表示文本i和文本j之间不存在关联关系。
在所述关联关系网络G上随机游走是指在关联关系网络G中依次选择节点作为出发点,在出发点周围随机地选择一个邻居节点后移动到所述邻居节点上,然后把当前节点作为新的出发节点,重复以上过程;在达到一定的游走长度后,游走过程的路径就是得到的游走序列S,所述游走序列S={s1,s2,...,sT},其中si代表游走序列中第i个文本,T为游走序列的长度。
步骤2:基于步骤1中输出的游走序列S,联合学习数据集中文本之间的关联关系信息和每个文本的内容语义信息,构建引入关联关系的文本表示学习模型,所述引入关联关系的文本表示学习模型包括两个子部分模型;
在步骤2中,所述两个子部分模型为两个SkipGram模型,利用一个SkipGram模型捕获游走序列S中的文本之间的关联关系,对游走序列S中的文本依次进行训练,输入其中一个文本,通过softmax分类分别预测游走序列S中的其他文本;对于游走序列S中的每一个文本,利用另一个SkipGram模型捕获每个所述文本的内容信息,输入文本表示,通过softmax分类分别预测文本采样的单词;最后,将捕获文本之间的关联关系的SkipGram模型和捕获文本的内容信息的SkipGram模型的损失相加,同时训练两部分模型,从而达到关联关系信息和文本内容信息融合的效果。
步骤3:将步骤2中两个子部分模型学习到的文本表示进行拼接,得到最终的文本表示。
本发明的有益效果是:本发明的一种引入关联关系的文本表示学习方法基于现有的包含文本间关联关系的文本数据集,同时建模文本间的关联关系和文本的内容信息,联合学习文本的两方面信息,对数据的内容特征和关联关系特征进行捕获,最终学习到文本的表示,本发明的引入关联关系的文本表示学习方法同时融合文本的内容信息和结构关联关系信息,使得文本分类的准确率得到提升。
附图说明
图1是本发明的基于关联关系学习的文本表示部分的示意图。
图2是本发明引入关联关系的文本表示学习的流程图。
具体实施方式
下面结合附图和具体实施对本发明提供的一种引入关联关系的文本表示学习方法进行详细说明。
如图1和2所示,本发明提供的一种引入论文引用关系的论文表示学习方法包括按顺序执行的下列步骤:
步骤1:根据论文数据集中论文之间的引用关系构建论文引用关系网络G,并在网络上随机游走得到游走序列S;
在步骤1中,论文引用关系网络的定义是:网络G=(V,A),其中V是所有论文节点的集合,论文集合V={v1,v2,...,vi},其中vi表示第i个论文,n为数据集中文论的个数;
Figure BDA0002504775390000031
为论文引用关系矩阵,其中Ai,j=1表示第i个论文和第j个论文之间存在引用关系,无论是第i个论文引用了第j个论文还是第i个论文被第j个论文引用,都看作第i个论文和第j个论文之间存在引用关系,Ai,j=0表示第i个论文和第j个论文之间不存在引用关系。例如,论文数据集中一共有5个论文,论文集合V={v1,v2,v3,v4,v5},v1至v5分别表示第1个至第5个论文,第1个论文引用了第2个论文,第2个论文引用了第3个论文,第3个论文和第5个论文同时引用了第4个论文,则A1,2=A2,1=A2,3=A3,2=A3,4=A4,3=A4,5=A5,4=1,在本发明的方法中论文本身和论文本身也看作存在引用关系。因此,论文引用关系矩阵A为:
Figure BDA0002504775390000041
在所述论文引用关系网络G上随机游走是指在论文引用关系网络G中依次选择节点作为出发点,在出发点周围随机地选择一个邻居节点后移动到所述邻居节点上,然后把当前节点作为新的出发节点,重复以上过程;在达到一定的游走长度后,游走过程的路径就是得到的游走序列S,所述游走序列S={s1,s2,...,sT},其中si代表序列中第i个文本,T为游走序列的长度。例如,游走长度T设为5,根据构建出的论文引用关系网络G,当出发点为v1时,可以游走的下一个论文节点为v1和v2,假设此时选择v2并移动到v2,当游走长度到达5时,可以得到游走论文序列{v1,v2,v3,v4,v5}。
步骤2:基于步骤1中的输出的游走序列S,联合学习论文数据集中论文之间的引用关系信息和每个论文的内容语义信息,构建引入论文引用关系的论文文本表示学习模型,主要由两个SkipGram模型构成,其中一个SkipGram模型对游走序列S中论文之间的引用关系进行建模,另一个SkipGram模型对游走序列S中每个论文的文本内容进行建模,从而同时建模论文间的引用关系信息和论文的内容信息。
步骤2.1),基于论文引用关系的论文表示学习如下:
由于游走论文序列具有论文主题相似的特点,因此可以考虑将游走论文序列看作一种特殊的短语或短句,并用语言模型进行建模,采用SkipGram模型来捕获随机游走论文序列中包含的论文之间的引用关系,对序列中论文依次进行训练,输入其中一个论文表示,通过softmax分类分别预测序列中的其他论文:首先将所有论文随机初始化为一个k维向量,然后对序列中论文依次进行训练,输入其中一个论文表示,通过softmax分类分别预测序列中的其他论文,此过程公式如下:
Figure BDA0002504775390000051
其中,
Figure BDA0002504775390000055
为当前论文vi的基于论文引用关系学习到的向量表示。例如,步骤1中得到的游走序列{v1,v2,v3,v4,v5},对游走序列中的论文依次进行训练,当输入论文v3的论文表示[0.12,0.98,…,1.03,-0.38]时,需要经过softmax分别预测v1,v2,v4,v5对应的论文;预测过程采用分层的softmax,经过预测过程,采用梯度下降的方法进行优化论文v3的表示,得到v3的基于论文引用关系的论文表示φ(v3)为[1.21,0.17,…,-0.29,1.76]。
步骤2.2),基于论文文本内容的论文表示学习:
对于序列中每个论文单独采用SkipGram模型捕获论文的文本内容信息,即输入论文表示,通过softmax分类分别预测论文中采样的单词。例如,论文v3的内容为“we proposea method to learn the representation of the texts”,首先随机初始化论文v3的文本表示为[0.39,0.37,…,1.29,-0.96],然后随机采样论文v3中的单词,采样得到“propose”、“representation”、“texts”单词,将论文v3的表示输入到softmax中进行预测这些单词,不断优化论文v3的表示,得到v3的基于论文内容的论文表示
Figure BDA0002504775390000052
为[0.47,0.91,…,1.02,0.87]。
步骤2.3),引入论文引用关系的论文表示学习:
将两部分的SkipGram模型的预测损失进行相加,同时训练两部分模型,从而达到论文引用关系信息和论文文本内容信息融合的效果。
步骤3:将步骤2.1)和步骤2.2)中学习到的论文表示进行拼接;例如,将通过基于论文引用关系的论文表示学习得到论文v3的表示φ(v3)和通过基于论文文本内容的论文表示学习的论文v3的表示
Figure BDA0002504775390000053
行拼接
Figure BDA0002504775390000054
得到论文v3的最终表示[1.21,0.17,…,-0.29,1.76,0.47,0.91,…,1.02,0.87]。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (6)

1.一种引入关联关系的文本表示学习方法,其特征在于:包括以下步骤:
步骤1:根据数据集中文本之间的关联关系构建关联关系网络G,并在所述关联关系网络G上随机游走,得到游走序列S;
步骤2:基于步骤1中输出的游走序列S,联合学习数据集中文本之间的关联关系信息和每个文本的内容语义信息,构建引入关联关系的文本表示学习模型,所述引入关联关系的文本表示学习模型包括两个SkipGram模型,即SkipGram模型一和SkipGram模型二,其中SkipGram模型一对游走序列S中的文本之间的关联关系进行建模,SkipGram模型二对游走序列S中的每一个文本的内容信息进行建模;
步骤3:将步骤2中两个SkipGram模型学习到的文本表示进行拼接,得到最终的文本表示。
2.根据权利要求1所述的引入关联关系的文本表示学习方法,其特征在于:在步骤1中,所述关联关系网络G=(V,A),其中V是数据集中所有文本的集合,V={v1,v2,...,vi},其中vi表示第i个文本的内容信息,n为数据集中文本的个数;A是数据集中文本之间的关联关系的集合,
Figure FDA0002504775380000011
其中Ai,j=1表示文本i和文本j之间存在关联关系,Ai,j=0表示文本i和文本j之间不存在关联关系。
3.根据权利要求2所述的引入关联关系的文本表示学习方法,其特征在于:在所述关联关系网络G上随机游走是指在关联关系网络G中依次选择节点作为出发点,在出发点周围随机地选择一个邻居节点后移动到所述邻居节点上,然后把当前节点作为新的出发节点,重复以上过程;在达到一定的游走长度后,游走过程的路径就是得到的游走序列S,所述游走序列S={s1,s2,...,sT},其中si代表序列中第i个文本,T为游走序列的长度。
4.根据权利要求1所述的引入关联关系的文本表示学习方法,其特征在于:在步骤2中,SkipGram模型一对游走序列S中的文本之间的关联关系进行建模,利用所述SkipGram模型一捕获文本之间的关联关系,对游走序列S中的文本依次进行训练,输入其中一个文本,通过softmax分类分别预测游走序列S中的其他文本。
5.根据权利要求4所述的引入关联关系的文本表示学习方法,其特征在于:在步骤2中,SkipGram模型二对游走序列S中的每一个文本的内容信息进行建模,利用所述SkipGram模型二捕获文本的内容信息,对游走序列S中的文本依次进行训练,输入文本表示,通过softmax分类分别预测文本采样的单词。
6.根据权利要求5所述的引入关联关系的文本表示学习方法,其特征在于:将捕获文本之间的关联关系的SkipGram模型一和捕获文本的内容信息的SkipGram模型二的损失相加,同时训练两个SkipGram模型。
CN202010442824.XA 2020-05-22 2020-05-22 一种引入关联关系的文本表示学习方法 Pending CN111708881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010442824.XA CN111708881A (zh) 2020-05-22 2020-05-22 一种引入关联关系的文本表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010442824.XA CN111708881A (zh) 2020-05-22 2020-05-22 一种引入关联关系的文本表示学习方法

Publications (1)

Publication Number Publication Date
CN111708881A true CN111708881A (zh) 2020-09-25

Family

ID=72537827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010442824.XA Pending CN111708881A (zh) 2020-05-22 2020-05-22 一种引入关联关系的文本表示学习方法

Country Status (1)

Country Link
CN (1) CN111708881A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897254A (zh) * 2015-12-18 2017-06-27 清华大学 一种网络表示学习方法
KR101797365B1 (ko) * 2016-06-15 2017-11-15 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법
CN110414665A (zh) * 2019-05-21 2019-11-05 浙江工业大学 一种基于深度神经网络的网络表示学习方法
CN110674922A (zh) * 2019-08-14 2020-01-10 西北工业大学 一种基于深度学习的网络表征获取方法
CN110704636A (zh) * 2019-09-27 2020-01-17 吉林大学 一种改进的基于Node2vec的知识图谱向量表示方法
CN111104797A (zh) * 2019-12-17 2020-05-05 南开大学 一种基于对偶的序列到序列生成的论文网络表示学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897254A (zh) * 2015-12-18 2017-06-27 清华大学 一种网络表示学习方法
KR101797365B1 (ko) * 2016-06-15 2017-11-15 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법
CN110414665A (zh) * 2019-05-21 2019-11-05 浙江工业大学 一种基于深度神经网络的网络表示学习方法
CN110674922A (zh) * 2019-08-14 2020-01-10 西北工业大学 一种基于深度学习的网络表征获取方法
CN110704636A (zh) * 2019-09-27 2020-01-17 吉林大学 一种改进的基于Node2vec的知识图谱向量表示方法
CN111104797A (zh) * 2019-12-17 2020-05-05 南开大学 一种基于对偶的序列到序列生成的论文网络表示学习方法

Similar Documents

Publication Publication Date Title
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN111581401A (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
Lv et al. Aspect-level sentiment analysis using context and aspect memory network
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN110765269A (zh) 基于动态词向量和层级神经网络的文档级情感分类方法
CN111079409A (zh) 一种利用上下文和方面记忆信息的情感分类方法
Rafailidis et al. Adversarial training for review-based recommendations
Habbat et al. Combination of GRU and CNN deep learning models for sentiment analysis on French customer reviews using XLNet model
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
Yang et al. Ensemble sentiment analysis method based on R-CNN and C-RNN with fusion gate
Tao et al. News text classification based on an improved convolutional neural network
Rasool et al. WRS: a novel word-embedding method for real-time sentiment with integrated LSTM-CNN model
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
Lin et al. Fast Sentiment Analysis Algorithm Based on Double Model Fusion.
Hung Vietnamese keyword extraction using hybrid deep learning methods
Zheng et al. Optimizing the online learners’ verbal intention classification efficiency based on the multi-head attention mechanism algorithm
CN116562286A (zh) 一种基于混合图注意力的智能配置事件抽取方法
CN111523319B (zh) 基于情景lstm结构网络的微博情感分析方法
CN115329075A (zh) 基于分布式机器学习的文本分类方法
CN111708881A (zh) 一种引入关联关系的文本表示学习方法
CN114997155A (zh) 一种基于表格检索和实体图推理的事实验证方法与装置
Dhal et al. A fine-tuning deep learning with multi-objective-based feature selection approach for the classification of text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200925