CN107832306A

CN107832306A - 一种基于Doc2vec的相似实体挖掘方法

Info

Publication number: CN107832306A
Application number: CN201711216768.2A
Authority: CN
Inventors: 李石君; 刘杰; 杨济海; 李号号; 余伟; 余放; 李宇轩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-03-23

Abstract

本发明属于自然语言处理中的相似文档挖掘问题，涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。本发明提出了一种基于Doc2vec的相似实体挖掘方法。通过实体的描述文档，使用Word2vec词嵌入表达、TFIDF文档关键词提取、使用Doc2vec将实体描述文档转换为连续稠密的向量，使用Balltree数据结构，高效的挖掘相似实体。

Description

一种基于Doc2vec的相似实体挖掘方法

技术领域

本发明属于自然语言处理中的相似文档挖掘问题，涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。

背景技术

在搜索、机器阅读理解、用户画像、推荐系统等诸多领域内，相似词挖掘、相似文档挖掘以及更具体的相似APP或相似公众号挖掘起着关键的作用。而进行相似挖掘，一种最直接的方法需要先将词语或文档映射一个高维空间中，即词嵌入或文档嵌入。

目前词嵌入(word embeddings)最主流以及最成功的方法是Word2Vec技术。该技术是一种神经概率语言模型，该模型首先由Bengio Y等人提出。神经概率语言模型是想通过上下文来预测下一个词的概率，其认为在文档中一个位置词语的概率分布可以由该位置的上下文词语来确定。通过使目标函数即预测词的概率最大化，该模型的嵌入层的输出结果可以作为词的一种连续稠密向量表达。基于该模型，Mikolov T等人提出了著名的Word2Vec技术，包括CBOW(continuous bag of words)与Skip-gram两种模型。并且基于多层softmax(hierarchical softmax)和负采样(negative sampling,NEG)等方法加快了模型训练。

词嵌入作为自然语言处理中的一种通用方法，用途广泛，特别是其在词语相似性计算中的应用。但是在特定领域内，如用户画像和推荐系统中，用户使用的APP或关注的公众号是刻画用户的重要标签，因此APP或公众号的相似性计算尤为关键，但由于APP或公众号名称的歧义性和有些名称无法通过通用的分词工具从文本中切分出来等因素，使得直接通过word2vec来计算其相似性效果不佳。本发明使用APP或公众号的描述文档训练出的文档向量作为APP或公众号的向量表示，其表示结果相比word2vec信息更具体，且不受名称歧义以及分词的影响。因此在APP或公众号相似性刻画方面表现优于word2vec。

自从word2vec方法出现之后，学术界也在寻求一种文档的连续稠密向量表示方法，即doc2vec。目前主流的doc2vec方法有word2vec+idf，该方法思想是想先通过tf-idf计算文档的关键词，然后通过文档关键词的向量表示得到文档的向量表示。这种方法的其中一个优势是训练出来的文档的向量可以直接和词语的向量做比较。Quoc Le等人通过改变wod2vec的训练方式，提出了一种称为paragraph2vec的方法。该方法在训练词向量时，对于每篇文档，同时训练一个全局的文档向量。文档向量在同一篇文档里面共享，词向量在所有文档中共享。文档向量用于补全局部的词所不能提供的全局文档信息。该方法的缺点是，对于一篇新的文档，要在固定的词向量下重新训练其文档向量，不利于扩展。Kiros等人提出了一种称为Skip-thought Vectors的方法。该方法将word2vec的Skip-gram模型扩展到了句子的层级，其得到的句子的向量表示在自然语言处理的各方面应用都有优秀的表现。Chen M最近提出了一种新的称为doc2vecC的方法。该方法在训练词向量时，引入一个依赖于词分布的正则项，该正则项使常见的词和对上下文预测没有提供信息的词的向量趋于0。之后对文档的所有向量进行简单的求平均就可以得到文档的向量。以该方法训练出的文档向量作为特征做文档分类，在Idmb的数据集上达到了业界最高水平。

在对文档进行向量表示后，就可以通过余弦距离或欧几里得距离等来表示文档之间的相似性。通过按相似性排序可以得到每个文档背会对应的实体的最相似的实体。但是由于实体众多，经常可以达到数亿的级别，分别两两计算实体间的相似性在进行排序计算复杂度太高。因此需要一种特别的数据结构来减少计算复杂度。在KNN中，一种常用的计算最近邻的方式是使用KDTree数据结构来存储数据点。KDTree在构造时，迭代的对数据的每一个轴，寻找其中位点作为切分点将数据分到两个子节点内。这种结构显著的减少了最近邻的计算复杂度，但是随着数据维度的增加，通常当维度达到20以上时，由于维数灾难(curse of dimensionality)的影响，KDTree的计算效率急剧下降。另外一种适合计算高维空间中最近邻的数据结构是Balltree。与KDTree每次通过一个轴切分数据不同的是，Balltree将数据切分到一系列给定中心和半径的超球体中。这使得树在构造时更加复杂，但是计算最近邻时非常高效，即使是在很高的维度下。Dolatshah M等人，对Balltree进行改进，提出Ball*-tree。其在构造时，考虑数据点在空间中的分布，计算效率进一步提高。

发明内容

在信息时代，用户从互联网上获得信息主要来自搜索和推荐两个方面。无论哪种方法，实体间相似性的计算以及最近邻计算都尤为关键，而相似性的计算依赖于实体的嵌入表示。本发明对于一个实体，从其描述文档出发，使用其描述文档训练出的文档向量作为实体的嵌入表示。然后使用一种称为Balltree的数据结构，高效计算与每个实体最相似的实体。

为完成以上目标，本发明提出的方案步骤见图1，具体步骤如下：

一种基于Doc2vec的相似实体挖掘方法，其特征在于，包括以下步骤：

步骤1，对通用语料进行分词，使用Skip-gram模型计算词向量，该模型的目标函数是

其中，p(w_t+j|w_t)表示在文本中，已知位置t的词语是w_t时，位置t+j的词语是w_t+j的后验概率，通过softmax函数求得

其中，V表示所有词语组成的词汇表，表示词语w_i在嵌入层的向量表示，为其转置，表示词语w_i的在输出层的向量表示；使用Adam优化器对目标函数进行迭代优化，使用hierarchical softmax方法加速模型的训练；

步骤2，对实体描述文档进行分词与词性标注，并使用TF-IDF算法计算文档关键词及权重，词语w_i在文档d_j中的权重

weight_i，j＝TF_i，j×IDF_i

其中，TF_i，j表示词频，即词语i在文档j中的出现的次数，DF_i表示文档频率，即包含词语i的文档的个数，IDF为DF的对数的倒数

通过词语在文档中的位置position_i，j与词语词性POS对权重进行修正

weight′_i，j＝weight_i，j×position_i，j×POS

计算出每篇文档中每个词的权重weight′_i，j后，对权重按从大到小排序，取topK个词作为文档关键词；

步骤3，根据步骤1中词向量与步骤2中文档关键词及权重，计算文档向量并进行归一化，其中，文档向量v_dj的值由其topK个关键词集合Key_dj中词语的向量加权求得

对文档向量进行归一化基于以下公式：

上式中与其转置与相乘得到该向量的长度，用该向量除以其长度得到长度为1且方向与之前相同的归一化之后的文档向量

步骤4，使用文档向量，进行相似实体挖掘，实体的相似性通过实体对应的文档向量的欧式距离表示，向量a与向量b的欧式距离为

(a-b)^T(a-b)

使用以上的欧式距离计算公式，文档d_i与d_j的欧式距离为

的模为1，因此distance(d_i，d_j)在[0,2]间，通过欧式距离计算出位于[0,1]之间的相似性

因此，本发明具有如下优点：1.使用定长的向量表示实体，将非结构化的数据结构化表示，使不同实体间的比较得以方便的实现。2.实体的表示不仅只使用了实体的名称，还使用了其对应文档的关键词的词向量表示，使实体的向量表示更具体更全面。3.词语的向量通过神经网络训练，且是一种无监督的学习，其词语的向量表示能适用于各种场景，因此该方法除了可用于相似实体挖掘，还可以用于实体分类等，可移植性强。4.当新的实体加入后，只需对新的实体通过词向量与关键词求文档向量，而不依赖于已有实体的表示，可扩展性强。

附图说明

图1是本发明实施的流程图。

图2a是word2vec原理示意图(CBOW模型)。

图2b是word2vec原理示意图(Skip-gram模型)。

具体实施方式

步骤1：word2vec计算

1.1分词

对于中文的word2vec计算，首先应该对语料进行分词。

中文分词现在的主流技术是：对于登录词，基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，采用了动态规划查找最大概率路径,找出基于词频的最大切分组合；对于未登录词，使用基于汉字成词能力HMM模型，可使用Viterbi算法对模型求解。

已有的较为成熟的中文分词工具包括IKAnalyzer、PaodingAnalyzer等。

1.2word2vec

无监督学习词嵌入在许多自然语言处理的任务中都取得了前所未有的成功。词嵌入模型中词汇中的词语(也可能是词组)被映射到相对于词汇量的大小而言维度较低的空间中的连续稠密实数向量。通常说的词嵌入模型特指神经词嵌入(neural wordembeddings)，即利用神经网络无监督的训练语言模型，取其嵌入层的表示作为词嵌入的结果。Word2vec就是其中最为流行的一种。

语言模型力求在给定之前的词语的情况下，计算下一个词语w_t的出现概率，即p(w_t|w_t-1,w_t-2,…,w₁)。根据马尔可夫假设，通常近似认为词语的出现只与前n-1个词有关，即

p(w_t|w_t-1，w_t-2，...，w₁)＝p(w_t|w_t-1，w_t-2，...，w_t-n+1)

运用链式法则，我们就可以得到整个句子或整篇文章的生成概率：

上式即为N语言模型(N-gram)。对该式取对数即为神经语言模型中的目标函数

word2vec也是神经语言模型的一种，在神经语言模型基础上做了简化，去掉了计算高昂的中间层，并且更多的考虑了词语上下文之间的关系。word2vec包括CBOW和Skip-gram两种模型，见图2，其中与神经语言模型稍有不同的是，Skip-gram试图通过中心词去预测上下文中的词，skip-gram模型的目标函数因此用目标词前后的各n个词的联合概率的对数表示

可使用Adam(adaptive moment estimation)优化器对该目标函数进行迭代优化，其中p(w_t+j|w_t)通过softmax函数求得

其中V表示所有词语组成的词汇表(vocabulary)，v_wi表示词语w_i的嵌入向量，v‘_wi表示词语w_i的在输出层的向量表示。上式的中分母涉及到对词汇表中所有的词进行分别计算，计算高昂，是word2vec的瓶颈所在。为了提高计算效率，可以使用多层次softmax(hierarchicalsoftmax)，参照二分查找的方法将softmax的一层转换成多层逻辑斯蒂(logistic)函数连乘，使线性的时间复杂度降低为对数级。可以大幅提高计算效率；或者采用近似算法，如噪音对比估计(noise contrastive estimation,NCE)或负采样(negativesampling,NEG)方法，同样可以减少复杂度，提高训练效率。这两种技巧是word2vec得以广泛应用的关键。

通过word2vec训练出的词向量，相似的词在词嵌入空间中距离较近，且能捕获到诸如“国王－男人+女人≈女王”的语义信息。

在实际操作上，本发明使用google开源的word2vec工具(默认使用skip-gram模型，通过hierarchicalsoftmax加速)，训练10G的语料，设置n＝5的窗口大小，size＝200的嵌入表达维度，在Intel Core i7处理器上，设置8个线程，能在10个小时左右完成训练。

步骤2：文档关键词提取

2.1TFIDF提取关键词

文档关键词提取常用的技术有TF-IDF(term frequency–inverse documentfrequency)和TextRank两种。TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。主要思想是认为文档的关键词应该与在该文档中出现的次数成正关系，即认为出现的次数越多越能体现文档主题；与该词在所有文档中出现的数量成反关系，即认为关键词应该有区分性，只在少量特定领域相关的文档中出现。TextRank借鉴了PageRank的思想，通过词语词之间的共现关系寻找文档中权重大的词语。类似PageRank，TextRank求解涉及网络构建和随机游走的迭代算法，效率很低，且由于其仅考虑了单个文本的内部信息，没有考虑所有文档的全局信息，因此对短文本的提取的关键词效果较差。

本发明使用TF-IDF提取文档关键词。

使用d_i表示文档，w_i表示词语。词语w_i在文档d_j中的词频TF_i,j＝n_i,j(词语w_i在文档d_j中出现的次数)。

逆文档频率IDF通过对词语在文档中出现的个数去倒在取对数求的

取对数的原因是降低词语权重随文档数量增加而减少的速度，避免高频词的权重降得过低，以至于几乎不可能成为文档的关键词。如“中国”一词虽然出现的文档数很高，但也可以作为一些时政文档的关键词。

因此词语w_i在文档d_j中的权重

weight_i，j＝TF_i，j×IDF_i

2.2关键词权重修正

TF-IDF是一种词袋模型，该模型没有考虑词语在文本中出现的位置。而根据数据分析，文档关键词更有可能出现在文档的第一句话中。因此考虑引入词语在文档中的位置特征对文档关键词权重进行修正。文档关键词词语w_i在文档d_j中的位置修正因子为

其中x>1，对APP描述文档关键词提取的实验中发现x≈2.5时效果最好。实践中，可以根据语料特点与算法效果进行调整。

另外对文档的关键词词性进行分析，发现关键词的词性有比较明显的偏好，名词成为关键词的概率要远大于形容词或动词，而虚词几乎不可能成为关键词。因此，引入仅与词语词性有关，与文档无关的词性修正POS_i。词语词性标注在分词时可以同时进行。

因此，修正后的文档关键词权重为

weight′_i，j＝weight_i，j×position_i，j×POS

计算出每篇文档中每个词的修正后权重weight′_i，j后，对权重按从大到小排序，取topK个词作为文档关键词。

步骤3：文档向量表示

根据步骤1求得的词语向量和步骤2得到的文档关键词及权重，加权求的文档向量。

在步骤1中，得到的词嵌入向量矩阵W，矩阵大小为size*|V|。|V|是词汇表大小，size是嵌入向量的纬度。W的第i列表示词语w_i的词向量v_wi。文档向量v_dj的值由其topK个关键词集合Key_dj加权求得

考虑到文档长度不一会影响关键词权重中TF_i，j的计算，使文档向量的模会随着文档长度增加而增加。而在计算文档主题相似度时不应该受文档长度的影响，因此需要对文档向量进行归一化处理来消除这种差异

归一化之后所有文档的向量长度都为1，相似的文档在向量方向上的夹角更小，空间中的距离更近。

步骤4：相似文档最近邻计算

在步骤3中计算出每个实体对应的文档向量后，就可以快速的计算出实体之间的相似性。实体的相似性通过实体对应的文档向量的距离表示，以欧式距离为例

的模为1，因此distance(d_i，d_j)在[0,2]间，通过距离计算出位于[0,1]之间的相似性

在实际生产中，经常需要实时计算给定实体的最相似的K个实体。而在一些场景中，实体的规模经常能达到百万甚至千万级别。因此需要先离线计算好每个实体最相似的K个实体进行缓存。

最简单直接的方法是对每个实体依次计算该实体与其余所有实体的相似性，再取相似实体的topK。因此所有N个实体的相似实体计算需要N*N次相似性计算及N次topK计算。当N达到百万甚至千万量级时，计算可能耗时达到数十天甚至数月。因此需要一种特殊设计的数据结构进行最近邻居的计算。在用于分类的最近邻算法KNN中，经常使用的用于快速计算最近邻的数据结构是KDTree，但是随着特征维度的增加，当特征维度达到20以上时，由于维数灾难的影响，使用KDTree的最近邻计算效率急剧下降。而在本发明中，实体的特征即文档的向量，为使向量有足够的表达能力，通常取向量的维度为100以上。因此在本发明中，使用了Balltree数据结构来快速计算实体的最近邻。

KD Tree在构造树时，沿着一个特定的维度切分数据。而与之不同的是，Balltree通过超球体来切分数据。这使得树在构造时更加复杂，但是构造完成之后，在求每个数据的最近邻时，比KDTree效率高。

Balltree在构造过程中，迭代的将数据划分到中心为C半径为r的超球体的子节点，划分的数据满足与中心C的距离小于r。对构建好的Balltree，在寻找给定节点的最近邻时，依据三角不等式能大大减少最近邻的候选节点

|x+y|≤|x|+|y|

通过该式，能迅速的确定给定数据点与其余所有数据点的距离的上下界限。例如已知数据点位于中心为C_i，半径为r_i的超球体中，那么该数据点与位于中心为C_j，半径为r_j的超球体中的所有数据点的距离d满足

distance(C_i，C_j)-r_i-r_j≤d≤distance(C_i，C_j)+r_i+r_j

因此最近邻的计算能缩小到很小的范围内，且这种处理不会受到数据维度的影响，计算效率高。

本发明通过Balltree的数据结构，使离线计算大量实体的最相似实体的效率大大提高。python的机器学习包sklearn和java的机器学习包weka中，均有该数据结构的实现。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于Doc2vec的相似实体挖掘方法，其特征在于，包括以下步骤：

<mrow> <msub> <mi>J</mi> <mi>&theta;</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>T</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <munder> <mo>&Sigma;</mo> <mrow> <mo>-</mo> <mi>n</mi> <mo>&le;</mo> <mi>j</mi> <mo>&le;</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mn>0</mn> </mrow> </munder> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>+</mo> </mrow> </msub> <mo>|</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>+</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <msub> <mi>w</mi> <mi>t</mi> </msub> <mi>T</mi> </msubsup> <msubsup> <mi>v</mi> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>+</mo> <mi>j</mi> </mrow> </msub> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>V</mi> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <msub> <mi>w</mi> <mi>t</mi> </msub> <mi>T</mi> </msubsup> <msubsup> <mi>v</mi> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>+</mo> <mi>j</mi> </mrow> </msub> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

weight_i，j＝TF_i，j×IDF_i

weight′_i，j＝weight_i，j×position_i，j×POS

步骤3，根据步骤1中词向量与步骤2中文档关键词及权重，计算文档向量并进行归一化，其中，文档向量的值由其topK个关键词集合Key_dj中词语的向量加权求得

<mrow> <msub> <mi>v</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>Key</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msub> </mrow> </munder> <msubsup> <mi>weight</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>*</mo> <msub> <mi>v</mi> <msub> <mi>w</mi> <mi>i</mi> </msub> </msub> </mrow>

对文档向量进行归一化基于以下公式：

(a-b)^T(a-b)

使用以上的欧式距离计算公式，文档d_i与d_j的欧式距离为

的模为1，因此distance(d_i，d_j)在[0，2]间，通过欧式距离计算出位于[0，1]之间的相似性