CN103823848B

CN103823848B - 一种基于lda和vsm的中草药相似文献的推荐方法

Info

Publication number: CN103823848B
Application number: CN201410046769.7A
Authority: CN
Inventors: 张引; 魏宝刚; 庄越挺; 凌超; 申晨; 张月娇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-02-11
Filing date: 2014-02-11
Publication date: 2017-11-14
Anticipated expiration: 2034-02-11
Also published as: CN103823848A

Abstract

本发明公开了一种基于LDA和VSM的中草药相似文献的推荐方法，基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词，构建出向量空间，再对向量空间进行降维，构建出语义词典，对词典中的每一个词项按序编号，通过每篇文档基于该语义词典进行矢量化，构建出每篇文档的词向量，利用LDA的Gibbs采样算法进行训练，得到每篇文档在主题上的概率分布，再利用KL散度计算出每两篇文档之间的相似度值，同时对每篇文档的词向量基于词频计算余弦相似度，最后对两种相似度进行联合加权，之后进行相似度排序，然后推荐出来。本发明可以将中草药文献中在内容和主题上均相似的文献推荐给用户，推荐的结果更加贴近用户需求。

Description

一种基于LDA和VSM的中草药相似文献的推荐方法

技术领域

本发明涉及计算机相似文献推荐技术领域，尤其涉及一种基于LDA(LatentDirichlet Allocation，隐含狄利克雷分布)和VSM(Vector Space Model，向量空间模型)的中草药相似文献的推荐方法。

背景技术

用户在做文献搜索和详细信息查看的时候，往往不满足于一篇文献所提供的信息，还希望能查看内容相近的其他文献。此时，就需要将与当前文献在内容上相似的文献并推荐给用户。

传统的文献相似度推荐方法，大多数基于字面文本内容相似度的计算。例如基于TF-IDF的相似度计算方法是非常常用的方法，但这类算法的拥有一些缺陷，比如仅仅能感知文本的表面含义，无法在文本的隐含语义层面来进步挖掘相似性。

发明内容

本发明的目的是为克服上述现有方法仅仅能感知文本的表面含义，无法在文本的隐含语义层面来进步挖掘相似性的缺陷，提供一种基于LDA和VSM的中草药相似文献的推荐方法。

本发明的目的是通过以下技术方案来实现的：一种基于LDA和VSM的中草药相似文献推荐方法，包括以下步骤：

(1)针对已经建立好的中草药文献库，针对每一篇文档，基于中草药专用词典，利用IKAnalyzer对文档进行切词，过滤掉停用词、形容词、介词等无用词项，保留动词和名词。切词完毕后，构建出整个中草药文献库的词向量空间，对已经构建好的词向量空间逐词进行编号处理，获得映射词典。

(2)对每篇文献基于映射词典进行矢量化处理形成参数化的词向量，再整合所有文献的词向量，形成“文档-词”矩阵。

(3)针对“文档-词”矩阵，设定较优的超参数α和β，利用主题模型LDA进行训练，获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果。

(4)对训练后得到的“文档-主题”矩阵利用KL-Divergence计算任意两篇文献在主题上的相似度，构建出相似文献网络。

(5)针对前述已经获得的文献词向量，利用VSM计算任意两篇文献的余弦相似度。

(6)通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理，获得最终的相似度值，并以此为依据进行相似文献推荐。

本发明与现有技术相比具有的有益效果：

1.该方法能在主题和内容上同时感知文献内容的相似性；

2.能够应对海量文本数据的应用场景，提供快速高效的相似推荐；

3.对文本挖掘中的一词多义具有鲁棒性。

具体实施方式

本发明基于LDA和VSM的中草药相似文献推荐方法，包括以下步骤：

1、针对已经建立好的中草药文献库，针对每一篇文档，基于中草药专用词典，利用IKAnalyzer对文档进行切词，过滤掉停用词、形容词、介词等无用词项，保留动词和名词。切词完毕后，构建出整个中草药文献库的词向量空间，对已经构建好的词向量空间逐词进行编号处理，获得映射词典。

2、对每篇文献基于映射词典进行矢量化处理形成参数化的词向量，再整合所有文献的词向量，形成“文档-词”矩阵。

3、针对“文档-词”矩阵，设定超参数α和β，利用主题模型LDA进行训练，获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果。

4、对训练后得到的“文档-主题”矩阵，利用KL-Divergence计算任意两篇文献在主题上的相似度，构建出相似文献网络。

5、针对前述已经获得的文献词向量，利用VSM计算任意两篇文献的余弦相似度。

6、通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理，获得最终的相似度值，并以此为依据进行相似文献推荐。

所述的步骤3通过以下子步骤来实现：

3.1、针对“文档-词”矩阵，利用LDA的Gibbs采样算法，在超参数α＝0.0484和β＝0.02的条件下，通过不断的迭代训练，度过burn-in阶段，获得收敛后每篇文献的主题概率分布。采样过程中，对每一篇文档的每一个单词采样某主题的概率为：

其中：

W代表词表大小，T代表主体总数，D代表文档集的文档数。

z_i表示当前词的主体分配，z_-i表示其他词的主体分配；

代表单词w分配给主题j的次数；

表示文档d中主题j分配的次数；

3.2、算法最终收敛，完成采样之后，依据已经获得的计数矩阵结果推算出“文档-主题”矩阵φ′和“主题-词”矩阵θ′。依据的公式表达如下：

所述的步骤4具体为：利用KL-Divergence来计算任意两篇文献之间的主题分布相似度，KL-Divergence的公式如下：

其中：

p、q分别表示两篇文献的主题分布，T为主题数。

所述的步骤5具体为：文献词向量的每一维的权值采用TF-IDF算法来度量。TF采用如下公式计算：

其中，n_i,j表示词条j在文档i中出现的次数，分母则是文档i中所有字词出现的次数之和。

每篇文献中单词的IDF值(逆向文档频率)公式如下：

其中，|D|是语料库的文档总数，分母是包含词t_j的文档数。

tf-idf_i,j权值为ω_ij＝tf_ij×idf_j，权值的高低直接表明了该主题词是否反应了文档的主题。

文档的权值向量为最终文档d_i，d_j之间的相似度可以表示为

所述的步骤6具体为：最终任意两篇文档i,j之间的相似度计算公式如下：

Similarity(i,j)＝(1-LDASimilarity(i,j))*α+VSMSimilarity(i,j)*β

依据相似度计算公式，对相似文献计算结果排序，推荐给用户。

Claims

1.一种基于LDA和VSM的中草药相似文献推荐方法，其特征在于，包括以下步骤：

(1)针对已经建立好的中草药文献库，针对每一篇文档，基于中草药专用词典，利用IKAnalyzer对文档进行切词，过滤掉停用词、形容词、介词，保留动词和名词；切词完毕后，构建出整个中草药文献库的词向量空间，对已经构建好的词向量空间逐词进行编号处理，获得映射词典；

(2)对每篇文献基于映射词典进行矢量化处理形成参数化的词向量，再整合所有文献的词向量，形成“文档-词”矩阵；

(3)针对“文档-词”矩阵，设定超参数α和β，利用主题模型LDA进行训练，获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果；

(4)对训练后得到的“文档-主题”矩阵利用KL-Divergence计算任意两篇文献在主题上的相似度，构建出相似文献网络；

(5)针对前述已经获得的文献词向量，利用VSM计算任意两篇文献的余弦相似度；

2.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法，其特征在于，所述的步骤(3)包括：

(3.1)针对“文档-词”矩阵，利用LDA的Gibbs采样算法，在超参数α＝0.0484和β＝0.02的条件下，通过不断的迭代训练，度过burn-in阶段，获得收敛后每篇文献的主题概率分布；采样过程中，对每一篇文档的每一个单词采样某主题的概率为：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>j</mi> <mo>|</mo> <msub> <mi>z</mi> <mrow> <mo>-</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&Proportional;</mo> <mfrac> <mrow> <msubsup> <mi>C</mi> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>&beta;</mi> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>w</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </msubsup> <msubsup> <mi>C</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>W</mi> <mi>&beta;</mi> </mrow> </mfrac> <mo>&CenterDot;</mo> <mfrac> <mrow> <msubsup> <mi>C</mi> <mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mi>j</mi> </mrow> <mrow> <mi>D</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>&alpha;</mi> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>C</mi> <mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mi>t</mi> </mrow> <mrow> <mi>D</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>T</mi> <mi>&alpha;</mi> </mrow> </mfrac> </mrow>

其中：

W代表词表大小，T代表主体总数，D代表文档集的文档数；

z_i表示当前词的主体分配，z_-i表示其他词的主体分配；

表示单词w分配给主题j的次数；

表示文档d中主题j分配的次数；

(3.2)算法最终收敛，完成采样之后，依据已经获得的计数矩阵结果推算出“文档-主题”矩阵φ′和“主题-词”矩阵θ′；依据的公式表达如下：

<mrow> <msup> <mi>&phi;</mi> <mo>&prime;</mo> </msup> <msup> <msub> <mrow></mrow> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>C</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>&beta;</mi> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </msubsup> <msubsup> <mi>C</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>W</mi> <mi>&beta;</mi> </mrow> </mfrac> </mrow>

<mrow> <msup> <mi>&theta;</mi> <mo>&prime;</mo> </msup> <msup> <msub> <mrow></mrow> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>C</mi> <mrow> <mi>d</mi> <mi>j</mi> </mrow> <mrow> <mi>D</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>&alpha;</mi> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>C</mi> <mrow> <mi>d</mi> <mi>k</mi> </mrow> <mrow> <mi>D</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>T</mi> <mi>&alpha;</mi> </mrow> </mfrac> <mo>.</mo> </mrow>

3.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法，其特征在于，所述的步骤(4)包括：利用KL-Divergence来计算任意两篇文献之间的主题分布相似度，KL-Divergence的公式如下：

<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msub> <mi>p</mi> <mi>j</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <msub> <mi>p</mi> <mi>j</mi> </msub> <msub> <mi>q</mi> <mi>j</mi> </msub> </mfrac> </mrow>

其中：

p、q分别表示两篇文献的主题分布，T为主题数。

4.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法，其特征在于，所述的步骤(5)包括：利用VSM计算任意两篇文献的余弦相似度，其中文献词向量的每一维的权值采用TF-IDF算法来度量；TF采用如下公式计算：

<mrow> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

其中，n_i,j表示词条j在文档i中出现的次数，分母则是文档i中所有字词出现的次数之和；

每篇文献中单词的IDF值(逆向文档频率)公式如下：

<mrow> <msub> <mi>idf</mi> <mi>j</mi> </msub> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mo>{</mo> <mi>d</mi> <mo>|</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>d</mi> <mo>}</mo> <mo>|</mo> </mrow> </mfrac> </mrow>

其中，|D|是语料库的文档总数，分母是包含词t_j的文档数；

tf-idf_i,j权值为ω_ij＝tf_ij×idf_j，权值的高低直接表明了该主题词是否反应了文档的主题；

文档的权值向量为最终文档d_i，d_j之间的相似度可以表示为

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <msub> <mi>d</mi> <mi>i</mi> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <msub> <mi>d</mi> <mi>j</mi> </msub> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <msub> <mi>d</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <msub> <mi>d</mi> <mi>j</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>.</mo> </mrow>

5.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法，其特征在于，所述的步骤(6)包括：最终任意两篇文档i,j之间的相似度计算公式如下：

Similarity(i,j)＝(1-LDASimilarity(i,j))*α+VSMSimilarity(i,j)*β