CN108427762A - 利用随机游走的自编码文档表示方法 - Google Patents

利用随机游走的自编码文档表示方法 Download PDF

Info

Publication number
CN108427762A
CN108427762A CN201810235975.0A CN201810235975A CN108427762A CN 108427762 A CN108427762 A CN 108427762A CN 201810235975 A CN201810235975 A CN 201810235975A CN 108427762 A CN108427762 A CN 108427762A
Authority
CN
China
Prior art keywords
text
rank
topic
neighbour
random walk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810235975.0A
Other languages
English (en)
Inventor
罗森林
赵飞
赵一飞
潘丽敏
魏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810235975.0A priority Critical patent/CN108427762A/zh
Publication of CN108427762A publication Critical patent/CN108427762A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及利用随机游走的自编码文档表示方法,属于自然语言处理与机器学习领域,目的是为解决文本话题建模问题。本文采用自编码网络,对于给定文本集,首先利用稀疏自编码网络构建文本的稀疏话题编码;然后基于文本相似性度量构建文本近邻图,通过对文本近邻图施加低秩约束生成随机游走结构,并以随机游走结构的条件访问概率计算局部近邻文本的加权系数;最后利用局部近邻文本的稀疏话题编码加权嵌入表征文本流形的内在几何结构,并作为正则约束项融合到自编码网络的训练中,建立参数化的话题编码网络对样本外文本进行话题建模。本发明具有准确率高、运行效率高、可对样本外话题建模等特点,适用于要求高精度的文本话题建模领域,对文本表示的发展具有很大的推动作用,具有很好的应用价值和推广价值。

Description

利用随机游走的自编码文档表示方法
技术领域
本发明涉及局部加权嵌入正则化自编码文本话题建模方法,属于自然语言处理与机器学习领域。
背景技术
文本话题建模通过构建话题(隐含变量)和词语(观测变量)的概率生成关系来发现隐含在文本集背后的解释因子,并基于变量之间的概率依赖关系构造文本的低维话题编码,从而高效的存储、表征文本的语义信息。文本话题建模具有较好的解释性和坚实的理论基础,一直受到广泛关注并应用于许多重要的自然语言任务,如情感分析、聚类、文献检索、统计机器翻译等。
一种优良的文本表示需要满足三种特性:1.局部光滑性,即对局部近邻文本变化保持不变性,这种不变形通常代表了对文本语义的合理抽象,有助于构造表现文本内在语义信息的特征表示;2.辨识性,即更好的体现文本之间的相似性、差异性;3.扩展性,即能根据已有文本集建立的模型、知识更好的推广到未知的样本外文本数据。作为文本挖掘技术的基础,关于文本表示的研究可以追溯到20世纪60年代,按照表示形式,可以分为向量模型、序列模型和图模型:
1.基于向量模型的文本表示形式
向量模型是最早提出的一种文本表示形式,它基于信息检索领域的一个简单设定,“词袋假设或词袋模型(Bag-of-Words,BoW)”,即将文本或文本集看作是一堆相互独立词语的集合,而不关心词语之间的顺序搭配关系。基于这种简化,一篇文本就可以通过全局欧式的词袋空间中的一个向量或坐标点进行表示。
2.基于序列模型的文本表示形式
序列模型是将文本看作字符串的序列集合,通过对字符串进行切分、组合等操作,构造出不同的特征表示文本。代表性方法是1994年William提出的N-gram文本表示方法,该方法采用字符的Bi-gram、Tri-gram和Quad-gram作为基本特征组件文本的表示向量,并计算它们逆文档频率作为特征加权。然而,由于字符串组合的多样性,该方法无法有效的降低表示向量的维度。实际上,N-gram方法所采用的特征中通常会存在无意义的字符组合,这些特征不仅不会带来有效的语义信息表示,还会导致特征组合复杂性。为此,Milios于2002年采用C-vlaue计算方法过滤无意义N-gram特征,C-vlaue是一种融合了语言知识的频率计算方法,可以有效挑选出那些嵌套在较长字符串中的有意义的N-gram组合。2012年,Grigori提出一种sn-gram特征,它通过句法树选择那些存在句法依赖关系的字符串作为特征来构建文本的表示向量,进一步提升了表示向量的语义信息。
3.基于图模型的文本表示形式
图模型的基本思想是使用节点来表示文本中的词语或特征,使用边来表示词语或特征之间的关系,并采用图论的相关方法来度量文本间相似性,如最大公共子图等。基于图模型的文本表示方法对于提升文本分类和聚类起到了积极的效果。图模型文本表示方法避免了VSM中各维度独立的问题,但是图模型中节点数量的增加会带来比较严重的高维稀疏问题,因此控制节点数量与表示效果的平衡对于图模型十分重要。
发明内容
本发明的目的是基于流形结构的局部光滑特性利用图的随机游走执行文本话题建模以改善话题建模的质量,提升话题编码的辨识效果,提出利用随机游走的自编码话题建模方法(AERTM)。
本发明的设计原理为:首先利用稀疏自编码网络构建文本的稀疏话题编码;然后基于文本相似性度量构建文本近邻图,通过对文本近邻图施加低秩约束生成随机游走结构,并以随机游走结构的条件访问概率计算局部近邻文本的加权系数;最后利用局部近邻文本的稀疏话题编码加权嵌入表征文本流形的内在几何结构,并作为正则约束项融合到自编码网络的训练中。
本发明的技术方案是通过如下步骤实现的:
步骤1,对文本集进行稀疏话题编码。
步骤1.1,由文本的布尔向量生成文本话题编码的后验概率。
步骤1.2,由文本话题编码的后验概率生成词语分布。
步骤1.3,最小化真实词语分布与生成词语分布之间的伯努利交叉熵。
步骤2,随机游走近邻加权。
步骤2.1,计算文本之间的相似度。
步骤2.2,利用文本之间相似度构建近邻图。
步骤2.3,在近邻图上执行随机游走。
步骤2.4,利用稀疏约束优化模型参数。
步骤3,局部加权近邻融合。
步骤3.1,利用KL散度构建稀疏话题编码。
步骤3.2,使用mini-batch进行优化。
有益效果
近年来的许多方法通过保持全局欧式的词袋空间中特定的统计结构,来挖掘文本集背后隐藏的解释性因子。然而很多研究表明文本数据集中分布在一个光滑的低维流形周围。因此,基于流形结构的局部光滑特性执行文本话题建模,能够改善话题建模的质量,提升话题编码辨识效果。
本文发明采用利用随机游走的自编码文档表示方法,该方法利用低秩近似随机游走结构的条件访问概率计算局部近邻文本的加权系数,并联合稀疏约束指导话题编码进行局部加权嵌入,具有更高的精度以及良好的样本外扩展性,具有很好的应用价值和推广价值。
附图说明
图1为本发明利用随机游走的自编码文档表示方法的原理图。
图2为具体实施方式中文本建模实验结果。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
具体流程为:
步骤1,对文本集进行稀疏话题编码。
步骤1.1,给定一篇文本的布尔向量X(i),那么该文本话题编码的后验概率p(ti|X)可以通过一个由非线性的sigmoid函数组成编码网络生成得到,形式如公式(1)。
p(ti|X)←fθ(X)=σ(WX+b) (1)
步骤1.2,给定文本话题编码Y(i),词语分布Z(i)中词语wj出现的后验概率p(wj|Y)可以通过一个由非线性的sigmoid函数组成解码网络生成得到,形式如公式(2)。
p(wj|Y)←gθ′(Y)=σ(WTY+c) (2)
步骤1.3,采用公式(3)所示的伯努利交叉熵对真实词语分布X与生成词语分布Z之间的差异进行度量(自我重构),记作HB(X,Z)。通过最小化二者之间的差异,训练自编码网络获得更优的拟合真实词分布的能力。
其中,W是编码网络中的参数,而解码网络中的参数是WT,即与编码网络是转置共享的关系,b是编码网络的偏置,c是解码网络的偏置。为了自我重构误差的最小化,可以通过误差反向传播算法优化相关参数。随着重构误差的降低,编码网络和解码网络可以更好捕获文本集隐含的数据生成结构。
步骤2,随机游走近邻加权。
步骤2.1,使用softmax函数度量文本中任意词对的相似距离,并使用匈牙利算法进行最大加权,进一步通过公式(4)计算文本之间的相似度。
步骤2.2,给定一个无向的加权图G=(V,E),其中,V表示所有点集,E表示图中节点之间的连边集合,为文本之间的相似度,令A记作转移矩阵,au,v表示在一个时间步骤内,由节点u到v的转移概率,它与文本之间的相似度成正比。
步骤2.3,AERTM利用一个文本近邻图上t时间步的随机游走过程,选择那些受访节点(文本)作为当前文本di的近邻集合,通过公式(5)计算di与其近邻之间的条件概率加权系数,
p(dj|di)=∑tpt(dj|di) (5)
其中,pt(dj|di)表示游走在第t时间步骤时刻访问文本dj(文本近邻图中的节点)的概率,它反映了di与dj之间的一种概率因果联系,即由节点di出发经过一段时间游走之后,到达dj的可能性。
步骤2.4,利用低秩约束正则化来对截断进行近似,其计算公式如(6)所示:
min{rank(P1),...rank(Pt)},
根据矩阵秩的特性,rank(AB)≤min{rank(A),rank(B)},矩阵P0是满秩矩阵,所以有公式(7)成立,
min{rank(P1),...rank(Pt)}=min{rank(A),...rank(At)}≤min{rank(A)},
对公式(7)的最小化可以通过对它的上界的最小化进行松弛化求解。另外,为了表征文本近邻的几何结构,对于那些近邻文本应该具有更高的转移概率,转移概率定义如公式(8)所示:
s.t.,∑uau,v=1,∑vau,v=1 (8)
其中,dist(X(u),X(v))是关于X(u)和X(v)之间差异性的距离度量函数。考虑到文本对X(u)和X(v)之间可能出现低共现词汇的情况,这里采用NMD文本相似性距离度量,定义如下,dist(X(u),X(v))=1-NMD(X(u),X(v))。所以,最终的优化目标如公式(9)所示:
s.t.,∑uau,v=1,∑vau,v=1 (9)
对公式(9)进行优化。
步骤3,局部加权近邻融合。
步骤3.1,给定文本di,如果存在函数P(d)能够提供di与其近邻间的概率依赖关系,那么,在执行文本话题建模的过程中应该重视这种概率依赖关系。所以,除了要拟合给定文本中词语的真实分布以外(自我重构),AERTM还利用局部近邻文本话题几何加权维持近邻文本之间的概率依赖关系。具体来说,AERTM的目标函数如公式(5)所示:
和λ是两个非负的正则化超参数,用于控制正则项对这个模型的影响,h表示话题数目。而“流形正则项”与文本di的K最近邻有关,记作N(di)={...,S(j),...S(K)},其中S(j)表示第j个近邻文本,wi,j是通过随机游走结构近似。
步骤3.2,使用mini-batch进行优化。
测试结果:实验基于利用随机游走的自编码文档表示方法,对样本外文本概率生成结构建模,本发明在大数据量情况下,均可明显提升文本话题建模效果,效果见图2。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.利用随机游走的自编码文档表示方法,其特征在于所述方法包括如下步骤:
步骤1,首先利用稀疏自编码网络构建文本的稀疏话题编码;
步骤2,然后基于文本相似性度量构建文本近邻图,通过对文本近邻图施加低秩约束生成随机游走结构,并以随机游走结构的条件访问概率计算局部近邻文本的加权系数;
步骤3,最后利用局部近邻文本的稀疏话题编码加权嵌入表征文本流形的内在几何结构,并作为正则约束项融合到自编码网络的训练中,建立参数化的话题编码网络对样本外文本进行话题建模。
2.根据权利要求1所述的局部加权嵌入正则化自编码文本话题建模方法,其特征在于:步骤2中给定一个无向的加权图G=(V,E),其中,V表示所有点集,E表示图中节点之间的连边集合,为文本之间的相似度,令A记作转移矩阵,au,v表示在一个时间步骤内,由节点u到v的转移概率,它与文本之间的相似度成正比。
3.根据权利要求1所述的局部加权嵌入正则化自编码文本话题建模方法,其特征在于:步骤2中AERTM利用一个文本近邻图上t时间步的随机游走过程,选择那些受访节点(文本)作为当前文本di的近邻集合,通过公式(1)计算di与其近邻之间的条件概率加权系数,
p(dj|di)=∑tpt(dj|di) (1)
其中,pt(dj|di)表示游走在第t时间步骤时刻访问文本dj(文本近邻图中的节点)的概率,它反映了di与dj之间的一种概率因果联系,即由节点di出发经过一段时间游走之后,到达dj的可能性。
4.根据权利要求1所述的局部加权嵌入正则化自编码文本话题建模方法,其特征在于:步骤2中利用低秩约束正则化来对截断进行近似,其计算公式如(2)所示:
min{rank(P1),...rank(Pt)},
根据矩阵秩的特性,rank(AB)≤min{rank(A),rank(B)},矩阵P0是满秩矩阵,所以有公式(3)成立,
min{rank(P1),...rank(Pt)}=min{rank(A),...rank(At)}≤min{rank(A)},
对公式(3)的最小化可以通过对它的上界的最小化进行松弛化求解,另外,为了表征文本近邻的几何结构,对于那些近邻文本应该具有更高的转移概率,转移概率定义如公式(4)所示。
s.t.,∑uau,v=1,∑vau,v=1 (4)。
CN201810235975.0A 2018-03-21 2018-03-21 利用随机游走的自编码文档表示方法 Pending CN108427762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810235975.0A CN108427762A (zh) 2018-03-21 2018-03-21 利用随机游走的自编码文档表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810235975.0A CN108427762A (zh) 2018-03-21 2018-03-21 利用随机游走的自编码文档表示方法

Publications (1)

Publication Number Publication Date
CN108427762A true CN108427762A (zh) 2018-08-21

Family

ID=63159186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810235975.0A Pending CN108427762A (zh) 2018-03-21 2018-03-21 利用随机游走的自编码文档表示方法

Country Status (1)

Country Link
CN (1) CN108427762A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN112329445A (zh) * 2020-11-19 2021-02-05 北京明略软件系统有限公司 乱码判断方法、系统、信息抽取方法及信息抽取系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346766B2 (en) * 2009-12-15 2013-01-01 International Business Machines Corporation Efficient calculation of node proximity on graphs with side information
CN106096066A (zh) * 2016-08-17 2016-11-09 盐城工学院 基于随机近邻嵌入的文本聚类方法
CN107220311A (zh) * 2017-05-12 2017-09-29 北京理工大学 一种利用局部嵌入话题建模的文本表示方法
CN107729521A (zh) * 2017-10-27 2018-02-23 北京工业大学 一种获取网络话题原型的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346766B2 (en) * 2009-12-15 2013-01-01 International Business Machines Corporation Efficient calculation of node proximity on graphs with side information
CN106096066A (zh) * 2016-08-17 2016-11-09 盐城工学院 基于随机近邻嵌入的文本聚类方法
CN107220311A (zh) * 2017-05-12 2017-09-29 北京理工大学 一种利用局部嵌入话题建模的文本表示方法
CN107729521A (zh) * 2017-10-27 2018-02-23 北京工业大学 一种获取网络话题原型的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAO WEI等: "Discriminative locally document emb e dding: Learning a smooth affine map by approximation of the probabilistic generative structure of subspace", 《KNOWLEDGE-BASED SYSTEMS》 *
CHAO WEI等: "Locally weighted embedding topic modeling by markov random walk structure approximation and sparse regularization", 《NEUROCOMPUTING》 *
HONGBO DENG等: "Probabilistic topic models with biased propagation on heterogeneous information networks", 《PROCEEDINGS OF THE 17TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN112329445A (zh) * 2020-11-19 2021-02-05 北京明略软件系统有限公司 乱码判断方法、系统、信息抽取方法及信息抽取系统

Similar Documents

Publication Publication Date Title
CN111950594B (zh) 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
CN104731962B (zh) 一种社交网络中基于相似社团的好友推荐方法及系统
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN113299354B (zh) 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
Xu et al. Hybrid regularized echo state network for multivariate chaotic time series prediction
Li et al. Restricted Boltzmann machine-based approaches for link prediction in dynamic networks
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
CN109743196B (zh) 一种基于跨双层网络随机游走的网络表征方法
CN105760503B (zh) 一种快速计算图节点相似度的方法
CN109376857A (zh) 一种融合结构和属性信息的多模态深度网络嵌入方法
CN114329232A (zh) 一种基于科研网络的用户画像构建方法和系统
CN115661550B (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
CN110196995B (zh) 一种基于带偏置随机游走的复杂网络特征提取方法
CN112417289A (zh) 一种基于深度聚类的资讯信息智能推荐方法
Zhao et al. Incremental face clustering with optimal summary learning via graph convolutional network
Hu et al. A community partitioning algorithm based on network enhancement
Hong et al. Variational gridded graph convolution network for node classification
CN108427762A (zh) 利用随机游走的自编码文档表示方法
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
Qi et al. Incorporating adaptability-related knowledge into support vector machine for case-based design adaptation
Wu et al. Multi-instance learning from positive and unlabeled bags
Schrodi et al. Construction of hierarchical neural architecture search spaces based on context-free grammars
CN116738983A (zh) 模型进行金融领域任务处理的词嵌入方法、装置、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180821