CN107832306A - 一种基于Doc2vec的相似实体挖掘方法 - Google Patents
一种基于Doc2vec的相似实体挖掘方法 Download PDFInfo
- Publication number
- CN107832306A CN107832306A CN201711216768.2A CN201711216768A CN107832306A CN 107832306 A CN107832306 A CN 107832306A CN 201711216768 A CN201711216768 A CN 201711216768A CN 107832306 A CN107832306 A CN 107832306A
- Authority
- CN
- China
- Prior art keywords
- document
- vector
- word
- weight
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于自然语言处理中的相似文档挖掘问题,涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。本发明提出了一种基于Doc2vec的相似实体挖掘方法。通过实体的描述文档,使用Word2vec词嵌入表达、TFIDF文档关键词提取、使用Doc2vec将实体描述文档转换为连续稠密的向量,使用Balltree数据结构,高效的挖掘相似实体。
Description
技术领域
本发明属于自然语言处理中的相似文档挖掘问题,涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。
背景技术
在搜索、机器阅读理解、用户画像、推荐系统等诸多领域内,相似词挖掘、相似文档挖掘以及更具体的相似APP或相似公众号挖掘起着关键的作用。而进行相似挖掘,一种最直接的方法需要先将词语或文档映射一个高维空间中,即词嵌入或文档嵌入。
目前词嵌入(word embeddings)最主流以及最成功的方法是Word2Vec技术。该技术是一种神经概率语言模型,该模型首先由Bengio Y等人提出。神经概率语言模型是想通过上下文来预测下一个词的概率,其认为在文档中一个位置词语的概率分布可以由该位置的上下文词语来确定。通过使目标函数即预测词的概率最大化,该模型的嵌入层的输出结果可以作为词的一种连续稠密向量表达。基于该模型,Mikolov T等人提出了著名的Word2Vec技术,包括CBOW(continuous bag of words)与Skip-gram两种模型。并且基于多层softmax(hierarchical softmax)和负采样(negative sampling,NEG)等方法加快了模型训练。
词嵌入作为自然语言处理中的一种通用方法,用途广泛,特别是其在词语相似性计算中的应用。但是在特定领域内,如用户画像和推荐系统中,用户使用的APP或关注的公众号是刻画用户的重要标签,因此APP或公众号的相似性计算尤为关键,但由于APP或公众号名称的歧义性和有些名称无法通过通用的分词工具从文本中切分出来等因素,使得直接通过word2vec来计算其相似性效果不佳。本发明使用APP或公众号的描述文档训练出的文档向量作为APP或公众号的向量表示,其表示结果相比word2vec信息更具体,且不受名称歧义以及分词的影响。因此在APP或公众号相似性刻画方面表现优于word2vec。
自从word2vec方法出现之后,学术界也在寻求一种文档的连续稠密向量表示方法,即doc2vec。目前主流的doc2vec方法有word2vec+idf,该方法思想是想先通过tf-idf计算文档的关键词,然后通过文档关键词的向量表示得到文档的向量表示。这种方法的其中一个优势是训练出来的文档的向量可以直接和词语的向量做比较。Quoc Le等人通过改变wod2vec的训练方式,提出了一种称为paragraph2vec的方法。该方法在训练词向量时,对于每篇文档,同时训练一个全局的文档向量。文档向量在同一篇文档里面共享,词向量在所有文档中共享。文档向量用于补全局部的词所不能提供的全局文档信息。该方法的缺点是,对于一篇新的文档,要在固定的词向量下重新训练其文档向量,不利于扩展。Kiros等人提出了一种称为Skip-thought Vectors的方法。该方法将word2vec的Skip-gram模型扩展到了句子的层级,其得到的句子的向量表示在自然语言处理的各方面应用都有优秀的表现。Chen M最近提出了一种新的称为doc2vecC的方法。该方法在训练词向量时,引入一个依赖于词分布的正则项,该正则项使常见的词和对上下文预测没有提供信息的词的向量趋于0。之后对文档的所有向量进行简单的求平均就可以得到文档的向量。以该方法训练出的文档向量作为特征做文档分类,在Idmb的数据集上达到了业界最高水平。
在对文档进行向量表示后,就可以通过余弦距离或欧几里得距离等来表示文档之间的相似性。通过按相似性排序可以得到每个文档背会对应的实体的最相似的实体。但是由于实体众多,经常可以达到数亿的级别,分别两两计算实体间的相似性在进行排序计算复杂度太高。因此需要一种特别的数据结构来减少计算复杂度。在KNN中,一种常用的计算最近邻的方式是使用KDTree数据结构来存储数据点。KDTree在构造时,迭代的对数据的每一个轴,寻找其中位点作为切分点将数据分到两个子节点内。这种结构显著的减少了最近邻的计算复杂度,但是随着数据维度的增加,通常当维度达到20以上时,由于维数灾难(curse of dimensionality)的影响,KDTree的计算效率急剧下降。另外一种适合计算高维空间中最近邻的数据结构是Balltree。与KDTree每次通过一个轴切分数据不同的是,Balltree将数据切分到一系列给定中心和半径的超球体中。这使得树在构造时更加复杂,但是计算最近邻时非常高效,即使是在很高的维度下。Dolatshah M等人,对Balltree进行改进,提出Ball*-tree。其在构造时,考虑数据点在空间中的分布,计算效率进一步提高。
发明内容
在信息时代,用户从互联网上获得信息主要来自搜索和推荐两个方面。无论哪种方法,实体间相似性的计算以及最近邻计算都尤为关键,而相似性的计算依赖于实体的嵌入表示。本发明对于一个实体,从其描述文档出发,使用其描述文档训练出的文档向量作为实体的嵌入表示。然后使用一种称为Balltree的数据结构,高效计算与每个实体最相似的实体。
为完成以上目标,本发明提出的方案步骤见图1,具体步骤如下:
一种基于Doc2vec的相似实体挖掘方法,其特征在于,包括以下步骤:
步骤1,对通用语料进行分词,使用Skip-gram模型计算词向量,该模型的目标函数是
其中,p(wt+j|wt)表示在文本中,已知位置t的词语是wt时,位置t+j的词语是wt+j的后验概率,通过softmax函数求得
其中,V表示所有词语组成的词汇表,表示词语wi在嵌入层的向量表示,为其转置,表示词语wi的在输出层的向量表示;使用Adam优化器对目标函数进行迭代优化,使用hierarchical softmax方法加速模型的训练;
步骤2,对实体描述文档进行分词与词性标注,并使用TF-IDF算法计算文档关键词及权重,词语wi在文档dj中的权重
weighti,j=TFi,j×IDFi
其中,TFi,j表示词频,即词语i在文档j中的出现的次数,DFi表示文档频率,即包含词语i的文档的个数,IDF为DF的对数的倒数
通过词语在文档中的位置positioni,j与词语词性POS对权重进行修正
weight′i,j=weighti,j×positioni,j×POS
计算出每篇文档中每个词的权重weight′i,j后,对权重按从大到小排序,取topK个词作为文档关键词;
步骤3,根据步骤1中词向量与步骤2中文档关键词及权重,计算文档向量并进行归一化,其中,文档向量vdj的值由其topK个关键词集合Keydj中词语的向量加权求得
对文档向量进行归一化基于以下公式:
上式中与其转置与相乘得到该向量的长度,用该向量除以其长度得到长度为1且方向与之前相同的归一化之后的文档向量
步骤4,使用文档向量,进行相似实体挖掘,实体的相似性通过实体对应的文档向量的欧式距离表示,向量a与向量b的欧式距离为
(a-b)T(a-b)
使用以上的欧式距离计算公式,文档di与dj的欧式距离为
的模为1,因此distance(di,dj)在[0,2]间,通过欧式距离计算出位于[0,1]之间的相似性
因此,本发明具有如下优点:1.使用定长的向量表示实体,将非结构化的数据结构化表示,使不同实体间的比较得以方便的实现。2.实体的表示不仅只使用了实体的名称,还使用了其对应文档的关键词的词向量表示,使实体的向量表示更具体更全面。3.词语的向量通过神经网络训练,且是一种无监督的学习,其词语的向量表示能适用于各种场景,因此该方法除了可用于相似实体挖掘,还可以用于实体分类等,可移植性强。4.当新的实体加入后,只需对新的实体通过词向量与关键词求文档向量,而不依赖于已有实体的表示,可扩展性强。
附图说明
图1是本发明实施的流程图。
图2a是word2vec原理示意图(CBOW模型)。
图2b是word2vec原理示意图(Skip-gram模型)。
具体实施方式
步骤1:word2vec计算
1.1分词
对于中文的word2vec计算,首先应该对语料进行分词。
中文分词现在的主流技术是:对于登录词,基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,使用基于汉字成词能力HMM模型,可使用Viterbi算法对模型求解。
已有的较为成熟的中文分词工具包括IKAnalyzer、PaodingAnalyzer等。
1.2word2vec
无监督学习词嵌入在许多自然语言处理的任务中都取得了前所未有的成功。词嵌入模型中词汇中的词语(也可能是词组)被映射到相对于词汇量的大小而言维度较低的空间中的连续稠密实数向量。通常说的词嵌入模型特指神经词嵌入(neural wordembeddings),即利用神经网络无监督的训练语言模型,取其嵌入层的表示作为词嵌入的结果。Word2vec就是其中最为流行的一种。
语言模型力求在给定之前的词语的情况下,计算下一个词语wt的出现概率,即p(wt|wt-1,wt-2,…,w1)。根据马尔可夫假设,通常近似认为词语的出现只与前n-1个词有关,即
p(wt|wt-1,wt-2,...,w1)=p(wt|wt-1,wt-2,...,wt-n+1)
运用链式法则,我们就可以得到整个句子或整篇文章的生成概率:
上式即为N语言模型(N-gram)。对该式取对数即为神经语言模型中的目标函数
word2vec也是神经语言模型的一种,在神经语言模型基础上做了简化,去掉了计算高昂的中间层,并且更多的考虑了词语上下文之间的关系。word2vec包括CBOW和Skip-gram两种模型,见图2,其中与神经语言模型稍有不同的是,Skip-gram试图通过中心词去预测上下文中的词,skip-gram模型的目标函数因此用目标词前后的各n个词的联合概率的对数表示
可使用Adam(adaptive moment estimation)优化器对该目标函数进行迭代优化,其中p(wt+j|wt)通过softmax函数求得
其中V表示所有词语组成的词汇表(vocabulary),vwi表示词语wi的嵌入向量,v‘wi表示词语wi的在输出层的向量表示。上式的中分母涉及到对词汇表中所有的词进行分别计算,计算高昂,是word2vec的瓶颈所在。为了提高计算效率,可以使用多层次softmax(hierarchicalsoftmax),参照二分查找的方法将softmax的一层转换成多层逻辑斯蒂(logistic)函数连乘,使线性的时间复杂度降低为对数级。可以大幅提高计算效率;或者采用近似算法,如噪音对比估计(noise contrastive estimation,NCE)或负采样(negativesampling,NEG)方法,同样可以减少复杂度,提高训练效率。这两种技巧是word2vec得以广泛应用的关键。
通过word2vec训练出的词向量,相似的词在词嵌入空间中距离较近,且能捕获到诸如“国王-男人+女人≈女王”的语义信息。
在实际操作上,本发明使用google开源的word2vec工具(默认使用skip-gram模型,通过hierarchicalsoftmax加速),训练10G的语料,设置n=5的窗口大小,size=200的嵌入表达维度,在Intel Core i7处理器上,设置8个线程,能在10个小时左右完成训练。
步骤2:文档关键词提取
2.1TFIDF提取关键词
文档关键词提取常用的技术有TF-IDF(term frequency–inverse documentfrequency)和TextRank两种。TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。主要思想是认为文档的关键词应该与在该文档中出现的次数成正关系,即认为出现的次数越多越能体现文档主题;与该词在所有文档中出现的数量成反关系,即认为关键词应该有区分性,只在少量特定领域相关的文档中出现。TextRank借鉴了PageRank的思想,通过词语词之间的共现关系寻找文档中权重大的词语。类似PageRank,TextRank求解涉及网络构建和随机游走的迭代算法,效率很低,且由于其仅考虑了单个文本的内部信息,没有考虑所有文档的全局信息,因此对短文本的提取的关键词效果较差。
本发明使用TF-IDF提取文档关键词。
使用di表示文档,wi表示词语。词语wi在文档dj中的词频TFi,j=ni,j(词语wi在文档dj中出现的次数)。
逆文档频率IDF通过对词语在文档中出现的个数去倒在取对数求的
取对数的原因是降低词语权重随文档数量增加而减少的速度,避免高频词的权重降得过低,以至于几乎不可能成为文档的关键词。如“中国”一词虽然出现的文档数很高,但也可以作为一些时政文档的关键词。
因此词语wi在文档dj中的权重
weighti,j=TFi,j×IDFi
2.2关键词权重修正
TF-IDF是一种词袋模型,该模型没有考虑词语在文本中出现的位置。而根据数据分析,文档关键词更有可能出现在文档的第一句话中。因此考虑引入词语在文档中的位置特征对文档关键词权重进行修正。文档关键词词语wi在文档dj中的位置修正因子为
其中x>1,对APP描述文档关键词提取的实验中发现x≈2.5时效果最好。实践中,可以根据语料特点与算法效果进行调整。
另外对文档的关键词词性进行分析,发现关键词的词性有比较明显的偏好,名词成为关键词的概率要远大于形容词或动词,而虚词几乎不可能成为关键词。因此,引入仅与词语词性有关,与文档无关的词性修正POSi。词语词性标注在分词时可以同时进行。
因此,修正后的文档关键词权重为
weight′i,j=weighti,j×positioni,j×POS
计算出每篇文档中每个词的修正后权重weight′i,j后,对权重按从大到小排序,取topK个词作为文档关键词。
步骤3:文档向量表示
根据步骤1求得的词语向量和步骤2得到的文档关键词及权重,加权求的文档向量。
在步骤1中,得到的词嵌入向量矩阵W,矩阵大小为size*|V|。|V|是词汇表大小,size是嵌入向量的纬度。W的第i列表示词语wi的词向量vwi。文档向量vdj的值由其topK个关键词集合Keydj加权求得
考虑到文档长度不一会影响关键词权重中TFi,j的计算,使文档向量的模会随着文档长度增加而增加。而在计算文档主题相似度时不应该受文档长度的影响,因此需要对文档向量进行归一化处理来消除这种差异
归一化之后所有文档的向量长度都为1,相似的文档在向量方向上的夹角更小,空间中的距离更近。
步骤4:相似文档最近邻计算
在步骤3中计算出每个实体对应的文档向量后,就可以快速的计算出实体之间的相似性。实体的相似性通过实体对应的文档向量的距离表示,以欧式距离为例
的模为1,因此distance(di,dj)在[0,2]间,通过距离计算出位于[0,1]之间的相似性
在实际生产中,经常需要实时计算给定实体的最相似的K个实体。而在一些场景中,实体的规模经常能达到百万甚至千万级别。因此需要先离线计算好每个实体最相似的K个实体进行缓存。
最简单直接的方法是对每个实体依次计算该实体与其余所有实体的相似性,再取相似实体的topK。因此所有N个实体的相似实体计算需要N*N次相似性计算及N次topK计算。当N达到百万甚至千万量级时,计算可能耗时达到数十天甚至数月。因此需要一种特殊设计的数据结构进行最近邻居的计算。在用于分类的最近邻算法KNN中,经常使用的用于快速计算最近邻的数据结构是KDTree,但是随着特征维度的增加,当特征维度达到20以上时,由于维数灾难的影响,使用KDTree的最近邻计算效率急剧下降。而在本发明中,实体的特征即文档的向量,为使向量有足够的表达能力,通常取向量的维度为100以上。因此在本发明中,使用了Balltree数据结构来快速计算实体的最近邻。
KD Tree在构造树时,沿着一个特定的维度切分数据。而与之不同的是,Balltree通过超球体来切分数据。这使得树在构造时更加复杂,但是构造完成之后,在求每个数据的最近邻时,比KDTree效率高。
Balltree在构造过程中,迭代的将数据划分到中心为C半径为r的超球体的子节点,划分的数据满足与中心C的距离小于r。对构建好的Balltree,在寻找给定节点的最近邻时,依据三角不等式能大大减少最近邻的候选节点
|x+y|≤|x|+|y|
通过该式,能迅速的确定给定数据点与其余所有数据点的距离的上下界限。例如已知数据点位于中心为Ci,半径为ri的超球体中,那么该数据点与位于中心为Cj,半径为rj的超球体中的所有数据点的距离d满足
distance(Ci,Cj)-ri-rj≤d≤distance(Ci,Cj)+ri+rj
因此最近邻的计算能缩小到很小的范围内,且这种处理不会受到数据维度的影响,计算效率高。
本发明通过Balltree的数据结构,使离线计算大量实体的最相似实体的效率大大提高。python的机器学习包sklearn和java的机器学习包weka中,均有该数据结构的实现。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (1)
1.一种基于Doc2vec的相似实体挖掘方法,其特征在于,包括以下步骤:
步骤1,对通用语料进行分词,使用Skip-gram模型计算词向量,该模型的目标函数是
<mrow>
<msub>
<mi>J</mi>
<mi>&theta;</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>T</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</munderover>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mo>-</mo>
<mi>n</mi>
<mo>&le;</mo>
<mi>j</mi>
<mo>&le;</mo>
<mi>n</mi>
<mo>,</mo>
<mi>j</mi>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</munder>
<mi>log</mi>
<mi> </mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
</mrow>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,p(wt+j|wt)表示在文本中,已知位置t的词语是wt时,位置t+j的词语是wt+j的后验概率,通过softmax函数求得
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>v</mi>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mi>T</mi>
</msubsup>
<msubsup>
<mi>v</mi>
<msub>
<mi>w</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</msub>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>v</mi>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mi>T</mi>
</msubsup>
<msubsup>
<mi>v</mi>
<msub>
<mi>w</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,V表示所有词语组成的词汇表,表示词语wi在嵌入层的向量表示,为其转置,表示词语wi的在输出层的向量表示;使用Adam优化器对目标函数进行迭代优化,使用hierarchical softmax方法加速模型的训练;
步骤2,对实体描述文档进行分词与词性标注,并使用TF-IDF算法计算文档关键词及权重,词语wi在文档dj中的权重
weighti,j=TFi,j×IDFi
其中,TFi,j表示词频,即词语i在文档j中的出现的次数,DFi表示文档频率,即包含词语i的文档的个数,IDF为DF的对数的倒数
<mrow>
<msub>
<mi>IDF</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>DF</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
通过词语在文档中的位置positioni,j与词语词性POS对权重进行修正
weight′i,j=weighti,j×positioni,j×POS
计算出每篇文档中每个词的权重weight′i,j后,对权重按从大到小排序,取topK个词作为文档关键词;
步骤3,根据步骤1中词向量与步骤2中文档关键词及权重,计算文档向量并进行归一化,其中,文档向量的值由其topK个关键词集合Keydj中词语的向量加权求得
<mrow>
<msub>
<mi>v</mi>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
</msub>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>Key</mi>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
</msub>
</mrow>
</munder>
<msubsup>
<mi>weight</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>*</mo>
<msub>
<mi>v</mi>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
</msub>
</mrow>
对文档向量进行归一化基于以下公式:
<mrow>
<msub>
<mi>v</mi>
<mrow>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>v</mi>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
</msub>
<mrow>
<msubsup>
<mi>v</mi>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mi>T</mi>
</msubsup>
<msub>
<mi>v</mi>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
</msub>
</mrow>
</mfrac>
</mrow>
上式中与其转置与相乘得到该向量的长度,用该向量除以其长度得到长度为1且方向与之前相同的归一化之后的文档向量
步骤4,使用文档向量,进行相似实体挖掘,实体的相似性通过实体对应的文档向量的欧式距离表示,向量a与向量b的欧式距离为
(a-b)T(a-b)
使用以上的欧式距离计算公式,文档di与dj的欧式距离为
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>v</mi>
<mrow>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>v</mi>
<mrow>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>(</mo>
<msub>
<mi>v</mi>
<mrow>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>v</mi>
<mrow>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
的模为1,因此distance(di,dj)在[0,2]间,通过欧式距离计算出位于[0,1]之间的相似性
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mi>i</mi>
<mi>l</mi>
<mi>a</mi>
<mi>r</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mrow>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mi>tan</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mn>2</mn>
</mfrac>
<mo>.</mo>
</mrow>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711216768.2A CN107832306A (zh) | 2017-11-28 | 2017-11-28 | 一种基于Doc2vec的相似实体挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711216768.2A CN107832306A (zh) | 2017-11-28 | 2017-11-28 | 一种基于Doc2vec的相似实体挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107832306A true CN107832306A (zh) | 2018-03-23 |
Family
ID=61646143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711216768.2A Pending CN107832306A (zh) | 2017-11-28 | 2017-11-28 | 一种基于Doc2vec的相似实体挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832306A (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287904A (zh) * | 2018-05-09 | 2018-07-17 | 重庆邮电大学 | 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法 |
CN108681557A (zh) * | 2018-04-08 | 2018-10-19 | 中国科学院信息工程研究所 | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 |
CN108717407A (zh) * | 2018-05-11 | 2018-10-30 | 北京三快在线科技有限公司 | 实体向量确定方法及装置,信息检索方法及装置 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN109345006A (zh) * | 2018-09-12 | 2019-02-15 | 张连祥 | 一种基于区域发展目标的招商政策分析优化方法及系统 |
CN109472023A (zh) * | 2018-10-19 | 2019-03-15 | 中国人民解放军国防科技大学 | 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质 |
CN109597995A (zh) * | 2018-12-04 | 2019-04-09 | 国网江西省电力有限公司信息通信分公司 | 一种基于bm25加权结合词向量的文本表示方法 |
CN109635383A (zh) * | 2018-11-28 | 2019-04-16 | 优信拍(北京)信息科技有限公司 | 一种基于word2vec的车系相关度确定的方法及装置 |
CN109639452A (zh) * | 2018-10-31 | 2019-04-16 | 深圳大学 | 社交关系模型训练方法、装置、服务器及存储介质 |
CN109740164A (zh) * | 2019-01-09 | 2019-05-10 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN109934596A (zh) * | 2019-01-23 | 2019-06-25 | 成都数之联科技有限公司 | 一种网络餐饮商家超范围经营判断方法 |
CN110020189A (zh) * | 2018-06-29 | 2019-07-16 | 武汉掌游科技有限公司 | 一种基于中文相似性计算的文章推荐方法 |
CN110083683A (zh) * | 2019-04-22 | 2019-08-02 | 上海理工大学 | 基于随机游走的实体语义标注方法 |
CN110147901A (zh) * | 2019-04-08 | 2019-08-20 | 合肥工业大学 | 基于指针神经网络的车辆路径规划方法、系统及存储介质 |
CN110309278A (zh) * | 2019-05-23 | 2019-10-08 | 泰康保险集团股份有限公司 | 关键词检索方法、装置、介质及电子设备 |
CN110363439A (zh) * | 2019-07-19 | 2019-10-22 | 山东浪潮人工智能研究院有限公司 | 一种基于消费者人群画像的信用评分方法 |
CN110364234A (zh) * | 2019-06-26 | 2019-10-22 | 浙江大学 | 电子病历智能存储分析检索系统及方法 |
TWI676110B (zh) * | 2018-08-21 | 2019-11-01 | 良知股份有限公司 | 以讀者為中心進行文章分析的語意特徵分析系統 |
CN110414000A (zh) * | 2019-07-18 | 2019-11-05 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN111159343A (zh) * | 2019-12-26 | 2020-05-15 | 上海科技发展有限公司 | 基于文本嵌入的文本相似性搜索方法、装置、设备和介质 |
CN111666382A (zh) * | 2020-06-19 | 2020-09-15 | 中信银行股份有限公司 | 用户特征提取方法、装置、电子设备及可读存储介质 |
CN111967252A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 一种实体词表示学习方法、装置、计算机设备及存储介质 |
CN112183090A (zh) * | 2020-10-09 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种基于词网计算实体关联性的方法 |
US10909317B2 (en) | 2019-07-26 | 2021-02-02 | Advanced New Technologies Co., Ltd. | Blockchain-based text similarity detection method, apparatus and electronic device |
WO2021017440A1 (zh) * | 2019-07-26 | 2021-02-04 | 创新先进技术有限公司 | 基于区块链的文本相似性检测方法及装置、电子设备 |
CN112910674A (zh) * | 2019-12-04 | 2021-06-04 | 中国移动通信集团设计院有限公司 | 物理站点筛选方法、装置、电子设备及存储介质 |
CN113064979A (zh) * | 2021-03-10 | 2021-07-02 | 国网河北省电力有限公司 | 基于关键词检索的工期和价格合理性判断方法 |
CN114331766A (zh) * | 2022-01-05 | 2022-04-12 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
CN114996561A (zh) * | 2021-03-02 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的信息推荐方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079025A (zh) * | 2006-06-19 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种文档相关度计算系统和方法 |
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
CN104699763A (zh) * | 2015-02-11 | 2015-06-10 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
KR20160113532A (ko) * | 2016-09-20 | 2016-09-29 | 에스케이플래닛 주식회사 | 컨텐츠 추천 시스템 및 방법 |
CN106776713A (zh) * | 2016-11-03 | 2017-05-31 | 中山大学 | 一种基于词向量语义分析的海量短文本聚类方法 |
CN106997344A (zh) * | 2017-03-31 | 2017-08-01 | 成都数联铭品科技有限公司 | 关键词抽取系统 |
-
2017
- 2017-11-28 CN CN201711216768.2A patent/CN107832306A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079025A (zh) * | 2006-06-19 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种文档相关度计算系统和方法 |
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
CN104699763A (zh) * | 2015-02-11 | 2015-06-10 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
KR20160113532A (ko) * | 2016-09-20 | 2016-09-29 | 에스케이플래닛 주식회사 | 컨텐츠 추천 시스템 및 방법 |
CN106776713A (zh) * | 2016-11-03 | 2017-05-31 | 中山大学 | 一种基于词向量语义分析的海量短文本聚类方法 |
CN106997344A (zh) * | 2017-03-31 | 2017-08-01 | 成都数联铭品科技有限公司 | 关键词抽取系统 |
Non-Patent Citations (6)
Title |
---|
LIQIUTUOYUAN: "k最近邻算法(kNN)", 《HTTPS://BLOG.CSDN.NET/LIQIUTUOYUAN/ARTICLE/DETAILS/77073689》 * |
SEBASTIAN RUDER: "技术 | 词嵌入系列博客Part1:基于语言建模的词嵌入模型", 《HTTPS://WWW.SOHU.COM/A/116914669_465975》 * |
于重重 等: "吕苏语口语标注语料的自动分词方法研究", 《计算机应用研究》 * |
吴多坚: "基于word2vec的中文文本相似度研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
机器之心: "词嵌入系列博客Part1:基于语言建模的词嵌入模型", 《HTTPS://WWW.JIQIZHIXIN.COM/ARTICLES/2016-10-23-2》 * |
陈磊 等: "基于LF-LDA和Word2vec的文本表示模型研究", 《电子技术》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681557A (zh) * | 2018-04-08 | 2018-10-19 | 中国科学院信息工程研究所 | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 |
CN108287904A (zh) * | 2018-05-09 | 2018-07-17 | 重庆邮电大学 | 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法 |
CN108717407A (zh) * | 2018-05-11 | 2018-10-30 | 北京三快在线科技有限公司 | 实体向量确定方法及装置,信息检索方法及装置 |
CN108717407B (zh) * | 2018-05-11 | 2022-08-09 | 北京三快在线科技有限公司 | 实体向量确定方法及装置,信息检索方法及装置 |
CN110020189A (zh) * | 2018-06-29 | 2019-07-16 | 武汉掌游科技有限公司 | 一种基于中文相似性计算的文章推荐方法 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
TWI676110B (zh) * | 2018-08-21 | 2019-11-01 | 良知股份有限公司 | 以讀者為中心進行文章分析的語意特徵分析系統 |
CN109345006A (zh) * | 2018-09-12 | 2019-02-15 | 张连祥 | 一种基于区域发展目标的招商政策分析优化方法及系统 |
CN109472023A (zh) * | 2018-10-19 | 2019-03-15 | 中国人民解放军国防科技大学 | 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质 |
CN109639452A (zh) * | 2018-10-31 | 2019-04-16 | 深圳大学 | 社交关系模型训练方法、装置、服务器及存储介质 |
CN109635383A (zh) * | 2018-11-28 | 2019-04-16 | 优信拍(北京)信息科技有限公司 | 一种基于word2vec的车系相关度确定的方法及装置 |
CN109597995A (zh) * | 2018-12-04 | 2019-04-09 | 国网江西省电力有限公司信息通信分公司 | 一种基于bm25加权结合词向量的文本表示方法 |
CN109740164B (zh) * | 2019-01-09 | 2023-08-15 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN109740164A (zh) * | 2019-01-09 | 2019-05-10 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN109934596A (zh) * | 2019-01-23 | 2019-06-25 | 成都数之联科技有限公司 | 一种网络餐饮商家超范围经营判断方法 |
CN110147901A (zh) * | 2019-04-08 | 2019-08-20 | 合肥工业大学 | 基于指针神经网络的车辆路径规划方法、系统及存储介质 |
CN110147901B (zh) * | 2019-04-08 | 2023-04-07 | 合肥工业大学 | 车辆路径规划方法、系统及存储介质 |
CN110083683A (zh) * | 2019-04-22 | 2019-08-02 | 上海理工大学 | 基于随机游走的实体语义标注方法 |
CN110083683B (zh) * | 2019-04-22 | 2022-12-13 | 上海理工大学 | 基于随机游走的实体语义标注方法 |
CN110309278A (zh) * | 2019-05-23 | 2019-10-08 | 泰康保险集团股份有限公司 | 关键词检索方法、装置、介质及电子设备 |
CN110364234B (zh) * | 2019-06-26 | 2022-02-18 | 浙江大学 | 电子病历智能存储分析检索系统及方法 |
CN110364234A (zh) * | 2019-06-26 | 2019-10-22 | 浙江大学 | 电子病历智能存储分析检索系统及方法 |
CN110414000A (zh) * | 2019-07-18 | 2019-11-05 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN110414000B (zh) * | 2019-07-18 | 2022-12-20 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN110363439A (zh) * | 2019-07-19 | 2019-10-22 | 山东浪潮人工智能研究院有限公司 | 一种基于消费者人群画像的信用评分方法 |
WO2021017440A1 (zh) * | 2019-07-26 | 2021-02-04 | 创新先进技术有限公司 | 基于区块链的文本相似性检测方法及装置、电子设备 |
US11100284B2 (en) | 2019-07-26 | 2021-08-24 | Advanced New Technologies Co., Ltd. | Blockchain-based text similarity detection method, apparatus and electronic device |
US10909317B2 (en) | 2019-07-26 | 2021-02-02 | Advanced New Technologies Co., Ltd. | Blockchain-based text similarity detection method, apparatus and electronic device |
CN112910674A (zh) * | 2019-12-04 | 2021-06-04 | 中国移动通信集团设计院有限公司 | 物理站点筛选方法、装置、电子设备及存储介质 |
CN112910674B (zh) * | 2019-12-04 | 2023-04-18 | 中国移动通信集团设计院有限公司 | 物理站点筛选方法、装置、电子设备及存储介质 |
CN111159343A (zh) * | 2019-12-26 | 2020-05-15 | 上海科技发展有限公司 | 基于文本嵌入的文本相似性搜索方法、装置、设备和介质 |
CN111666382A (zh) * | 2020-06-19 | 2020-09-15 | 中信银行股份有限公司 | 用户特征提取方法、装置、电子设备及可读存储介质 |
CN111967252A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 一种实体词表示学习方法、装置、计算机设备及存储介质 |
CN112183090A (zh) * | 2020-10-09 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种基于词网计算实体关联性的方法 |
CN114996561A (zh) * | 2021-03-02 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的信息推荐方法及装置 |
CN114996561B (zh) * | 2021-03-02 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的信息推荐方法及装置 |
CN113064979A (zh) * | 2021-03-10 | 2021-07-02 | 国网河北省电力有限公司 | 基于关键词检索的工期和价格合理性判断方法 |
CN114331766B (zh) * | 2022-01-05 | 2022-07-08 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
CN114331766A (zh) * | 2022-01-05 | 2022-04-12 | 中国科学技术信息研究所 | 专利技术核心度的确定方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832306A (zh) | 一种基于Doc2vec的相似实体挖掘方法 | |
TWI512502B (zh) | 用於產生習慣語言模式之方法及系統及相關之電腦程式產品 | |
CN110263325B (zh) | 中文分词系统 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
Phan et al. | Robust representation learning of biomedical names | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
Ju et al. | An efficient method for document categorization based on word2vec and latent semantic analysis | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和系统 | |
Kurniawan et al. | Indonesian twitter sentiment analysis using Word2Vec | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
Mansour et al. | Text vectorization method based on concept mining using clustering techniques | |
Kannadasan et al. | Personalized query auto-completion through a lightweight representation of the user context | |
CN117057346A (zh) | 一种基于加权TextRank和K-means的领域关键词抽取方法 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
CN113254586B (zh) | 一种基于深度学习的无监督文本检索方法 | |
Li | Query spelling correction | |
CN115129818A (zh) | 基于知识驱动多分类的情绪原因对提取方法及系统 | |
Purwarianti | Effective use of augmentation degree and language model for synonym-based text augmentation on Indonesian text classification | |
CN113553398A (zh) | 搜索词纠正方法、装置、电子设备及计算机存储介质 | |
Li et al. | A keyword extraction method for Chinese scientific abstracts | |
CN115146021A (zh) | 文本检索匹配模型的训练方法、装置、电子设备及介质 | |
Yang et al. | Hierarchical dialog state tracking with unknown slot values | |
Lin et al. | Domain Independent Key Term Extraction from Spoken Content Based on Context and Term Location Information in the Utterances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180323 |