CN103823848B - 一种基于lda和vsm的中草药相似文献的推荐方法 - Google Patents

一种基于lda和vsm的中草药相似文献的推荐方法 Download PDF

Info

Publication number
CN103823848B
CN103823848B CN201410046769.7A CN201410046769A CN103823848B CN 103823848 B CN103823848 B CN 103823848B CN 201410046769 A CN201410046769 A CN 201410046769A CN 103823848 B CN103823848 B CN 103823848B
Authority
CN
China
Prior art keywords
mrow
msub
document
msubsup
mfrac
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410046769.7A
Other languages
English (en)
Other versions
CN103823848A (zh
Inventor
张引
魏宝刚
庄越挺
凌超
申晨
张月娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410046769.7A priority Critical patent/CN103823848B/zh
Publication of CN103823848A publication Critical patent/CN103823848A/zh
Application granted granted Critical
Publication of CN103823848B publication Critical patent/CN103823848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Abstract

本发明公开了一种基于LDA和VSM的中草药相似文献的推荐方法,基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词,构建出向量空间,再对向量空间进行降维,构建出语义词典,对词典中的每一个词项按序编号,通过每篇文档基于该语义词典进行矢量化,构建出每篇文档的词向量,利用LDA的Gibbs采样算法进行训练,得到每篇文档在主题上的概率分布,再利用KL散度计算出每两篇文档之间的相似度值,同时对每篇文档的词向量基于词频计算余弦相似度,最后对两种相似度进行联合加权,之后进行相似度排序,然后推荐出来。本发明可以将中草药文献中在内容和主题上均相似的文献推荐给用户,推荐的结果更加贴近用户需求。

Description

一种基于LDA和VSM的中草药相似文献的推荐方法
技术领域
本发明涉及计算机相似文献推荐技术领域,尤其涉及一种基于LDA(LatentDirichlet Allocation,隐含狄利克雷分布)和VSM(Vector Space Model,向量空间模型)的中草药相似文献的推荐方法。
背景技术
用户在做文献搜索和详细信息查看的时候,往往不满足于一篇文献所提供的信息,还希望能查看内容相近的其他文献。此时,就需要将与当前文献在内容上相似的文献并推荐给用户。
传统的文献相似度推荐方法,大多数基于字面文本内容相似度的计算。例如基于TF-IDF的相似度计算方法是非常常用的方法,但这类算法的拥有一些缺陷,比如仅仅能感知文本的表面含义,无法在文本的隐含语义层面来进步挖掘相似性。
发明内容
本发明的目的是为克服上述现有方法仅仅能感知文本的表面含义,无法在文本的隐含语义层面来进步挖掘相似性的缺陷,提供一种基于LDA和VSM的中草药相似文献的推荐方法。
本发明的目的是通过以下技术方案来实现的:一种基于LDA和VSM的中草药相似文献推荐方法,包括以下步骤:
(1)针对已经建立好的中草药文献库,针对每一篇文档,基于中草药专用词典,利用IKAnalyzer对文档进行切词,过滤掉停用词、形容词、介词等无用词项,保留动词和名词。切词完毕后,构建出整个中草药文献库的词向量空间,对已经构建好的词向量空间逐词进行编号处理,获得映射词典。
(2)对每篇文献基于映射词典进行矢量化处理形成参数化的词向量,再整合所有文献的词向量,形成“文档-词”矩阵。
(3)针对“文档-词”矩阵,设定较优的超参数α和β,利用主题模型LDA进行训练,获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果。
(4)对训练后得到的“文档-主题”矩阵利用KL-Divergence计算任意两篇文献在主题上的相似度,构建出相似文献网络。
(5)针对前述已经获得的文献词向量,利用VSM计算任意两篇文献的余弦相似度。
(6)通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理,获得最终的相似度值,并以此为依据进行相似文献推荐。
本发明与现有技术相比具有的有益效果:
1.该方法能在主题和内容上同时感知文献内容的相似性;
2.能够应对海量文本数据的应用场景,提供快速高效的相似推荐;
3.对文本挖掘中的一词多义具有鲁棒性。
具体实施方式
本发明基于LDA和VSM的中草药相似文献推荐方法,包括以下步骤:
1、针对已经建立好的中草药文献库,针对每一篇文档,基于中草药专用词典,利用IKAnalyzer对文档进行切词,过滤掉停用词、形容词、介词等无用词项,保留动词和名词。切词完毕后,构建出整个中草药文献库的词向量空间,对已经构建好的词向量空间逐词进行编号处理,获得映射词典。
2、对每篇文献基于映射词典进行矢量化处理形成参数化的词向量,再整合所有文献的词向量,形成“文档-词”矩阵。
3、针对“文档-词”矩阵,设定超参数α和β,利用主题模型LDA进行训练,获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果。
4、对训练后得到的“文档-主题”矩阵,利用KL-Divergence计算任意两篇文献在主题上的相似度,构建出相似文献网络。
5、针对前述已经获得的文献词向量,利用VSM计算任意两篇文献的余弦相似度。
6、通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理,获得最终的相似度值,并以此为依据进行相似文献推荐。
所述的步骤3通过以下子步骤来实现:
3.1、针对“文档-词”矩阵,利用LDA的Gibbs采样算法,在超参数α=0.0484和β=0.02的条件下,通过不断的迭代训练,度过burn-in阶段,获得收敛后每篇文献的主题概率分布。采样过程中,对每一篇文档的每一个单词采样某主题的概率为:
其中:
W代表词表大小,T代表主体总数,D代表文档集的文档数。
zi表示当前词的主体分配,z-i表示其他词的主体分配;
代表单词w分配给主题j的次数;
表示文档d中主题j分配的次数;
3.2、算法最终收敛,完成采样之后,依据已经获得的计数矩阵结果推算出“文档-主题”矩阵φ′和“主题-词”矩阵θ′。依据的公式表达如下:
所述的步骤4具体为:利用KL-Divergence来计算任意两篇文献之间的主题分布相似度,KL-Divergence的公式如下:
其中:
p、q分别表示两篇文献的主题分布,T为主题数。
所述的步骤5具体为:文献词向量的每一维的权值采用TF-IDF算法来度量。TF采用如下公式计算:
其中,ni,j表示词条j在文档i中出现的次数,分母则是文档i中所有字词出现的次数之和。
每篇文献中单词的IDF值(逆向文档频率)公式如下:
其中,|D|是语料库的文档总数,分母是包含词tj的文档数。
tf-idfi,j权值为ωij=tfij×idfj,权值的高低直接表明了该主题词是否反应了文档的主题。
文档的权值向量为最终文档di,dj之间的相似度可以表示为
所述的步骤6具体为:最终任意两篇文档i,j之间的相似度计算公式如下:
Similarity(i,j)=(1-LDASimilarity(i,j))*α+VSMSimilarity(i,j)*β
依据相似度计算公式,对相似文献计算结果排序,推荐给用户。

Claims (5)

1.一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,包括以下步骤:
(1)针对已经建立好的中草药文献库,针对每一篇文档,基于中草药专用词典,利用IKAnalyzer对文档进行切词,过滤掉停用词、形容词、介词,保留动词和名词;切词完毕后,构建出整个中草药文献库的词向量空间,对已经构建好的词向量空间逐词进行编号处理,获得映射词典;
(2)对每篇文献基于映射词典进行矢量化处理形成参数化的词向量,再整合所有文献的词向量,形成“文档-词”矩阵;
(3)针对“文档-词”矩阵,设定超参数α和β,利用主题模型LDA进行训练,获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果;
(4)对训练后得到的“文档-主题”矩阵利用KL-Divergence计算任意两篇文献在主题上的相似度,构建出相似文献网络;
(5)针对前述已经获得的文献词向量,利用VSM计算任意两篇文献的余弦相似度;
(6)通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理,获得最终的相似度值,并以此为依据进行相似文献推荐。
2.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,所述的步骤(3)包括:
(3.1)针对“文档-词”矩阵,利用LDA的Gibbs采样算法,在超参数α=0.0484和β=0.02的条件下,通过不断的迭代训练,度过burn-in阶段,获得收敛后每篇文献的主题概率分布;采样过程中,对每一篇文档的每一个单词采样某主题的概率为:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>j</mi> <mo>|</mo> <msub> <mi>z</mi> <mrow> <mo>-</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;Proportional;</mo> <mfrac> <mrow> <msubsup> <mi>C</mi> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>&amp;beta;</mi> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>w</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </msubsup> <msubsup> <mi>C</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>W</mi> <mi>&amp;beta;</mi> </mrow> </mfrac> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <msubsup> <mi>C</mi> <mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mi>j</mi> </mrow> <mrow> <mi>D</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>&amp;alpha;</mi> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>C</mi> <mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mi>t</mi> </mrow> <mrow> <mi>D</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>T</mi> <mi>&amp;alpha;</mi> </mrow> </mfrac> </mrow>
其中:
W代表词表大小,T代表主体总数,D代表文档集的文档数;
zi表示当前词的主体分配,z-i表示其他词的主体分配;
表示单词w分配给主题j的次数;
表示文档d中主题j分配的次数;
(3.2)算法最终收敛,完成采样之后,依据已经获得的计数矩阵结果推算出“文档-主题”矩阵φ′和“主题-词”矩阵θ′;依据的公式表达如下:
<mrow> <msup> <mi>&amp;phi;</mi> <mo>&amp;prime;</mo> </msup> <msup> <msub> <mrow></mrow> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>C</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>&amp;beta;</mi> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </msubsup> <msubsup> <mi>C</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>W</mi> <mi>&amp;beta;</mi> </mrow> </mfrac> </mrow>
<mrow> <msup> <mi>&amp;theta;</mi> <mo>&amp;prime;</mo> </msup> <msup> <msub> <mrow></mrow> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>C</mi> <mrow> <mi>d</mi> <mi>j</mi> </mrow> <mrow> <mi>D</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>&amp;alpha;</mi> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>C</mi> <mrow> <mi>d</mi> <mi>k</mi> </mrow> <mrow> <mi>D</mi> <mi>T</mi> </mrow> </msubsup> <mo>+</mo> <mi>T</mi> <mi>&amp;alpha;</mi> </mrow> </mfrac> <mo>.</mo> </mrow>
3.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,所述的步骤(4)包括:利用KL-Divergence来计算任意两篇文献之间的主题分布相似度,KL-Divergence的公式如下:
<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msub> <mi>p</mi> <mi>j</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <msub> <mi>p</mi> <mi>j</mi> </msub> <msub> <mi>q</mi> <mi>j</mi> </msub> </mfrac> </mrow>
<mrow> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>&amp;lsqb;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>,</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow>
其中:
p、q分别表示两篇文献的主题分布,T为主题数。
4.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,所述的步骤(5)包括:利用VSM计算任意两篇文献的余弦相似度,其中文献词向量的每一维的权值采用TF-IDF算法来度量;TF采用如下公式计算:
<mrow> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>k</mi> </msub> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> </mrow>
其中,ni,j表示词条j在文档i中出现的次数,分母则是文档i中所有字词出现的次数之和;
每篇文献中单词的IDF值(逆向文档频率)公式如下:
<mrow> <msub> <mi>idf</mi> <mi>j</mi> </msub> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mo>{</mo> <mi>d</mi> <mo>|</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>d</mi> <mo>}</mo> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,|D|是语料库的文档总数,分母是包含词tj的文档数;
tf-idfi,j权值为ωij=tfij×idfj,权值的高低直接表明了该主题词是否反应了文档的主题;
文档的权值向量为最终文档di,dj之间的相似度可以表示为
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mover> <mi>v</mi> <mo>&amp;RightArrow;</mo> </mover> <msub> <mi>d</mi> <mi>i</mi> </msub> </msub> <mo>&amp;CenterDot;</mo> <msub> <mover> <mi>v</mi> <mo>&amp;RightArrow;</mo> </mover> <msub> <mi>d</mi> <mi>j</mi> </msub> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>v</mi> <mo>&amp;RightArrow;</mo> </mover> <msub> <mi>d</mi> <mi>i</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>v</mi> <mo>&amp;RightArrow;</mo> </mover> <msub> <mi>d</mi> <mi>j</mi> </msub> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>.</mo> </mrow>
5.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,所述的步骤(6)包括:最终任意两篇文档i,j之间的相似度计算公式如下:
Similarity(i,j)=(1-LDASimilarity(i,j))*α+VSMSimilarity(i,j)*β
依据相似度计算公式,对相似文献计算结果排序,推荐给用户。
CN201410046769.7A 2014-02-11 2014-02-11 一种基于lda和vsm的中草药相似文献的推荐方法 Active CN103823848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410046769.7A CN103823848B (zh) 2014-02-11 2014-02-11 一种基于lda和vsm的中草药相似文献的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410046769.7A CN103823848B (zh) 2014-02-11 2014-02-11 一种基于lda和vsm的中草药相似文献的推荐方法

Publications (2)

Publication Number Publication Date
CN103823848A CN103823848A (zh) 2014-05-28
CN103823848B true CN103823848B (zh) 2017-11-14

Family

ID=50758912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410046769.7A Active CN103823848B (zh) 2014-02-11 2014-02-11 一种基于lda和vsm的中草药相似文献的推荐方法

Country Status (1)

Country Link
CN (1) CN103823848B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899188A (zh) * 2015-03-11 2015-09-09 浙江大学 一种基于问题主题和焦点的问题相似度计算方法
CN105069121A (zh) * 2015-08-12 2015-11-18 北京暴风科技股份有限公司 基于视频主题相似度的视频推送方法
CN105740387B (zh) * 2016-01-27 2019-04-05 北京工业大学 一种基于作者频繁模式的科技文献推荐方法
CN107180028A (zh) * 2016-03-09 2017-09-19 广州网律互联网科技有限公司 一种基于lda与退火算法组合的推荐技术
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN106294863A (zh) * 2016-08-23 2017-01-04 电子科技大学 一种针对海量文本快速理解的文摘方法
CN106803012B (zh) * 2016-12-29 2019-03-22 杭州师范大学钱江学院 基于概率主题模型和中药基本属性的方剂功能预测方法
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN109213972B (zh) * 2017-07-06 2023-04-07 阿里巴巴集团控股有限公司 确定文档相似度的方法、装置、设备和计算机存储介质
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN107992477B (zh) * 2017-11-30 2019-03-29 北京神州泰岳软件股份有限公司 文本主题确定方法及装置
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN108460153A (zh) * 2018-03-27 2018-08-28 广西师范大学 一种混合博文与用户关系的社交媒体好友推荐方法
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统
CN110929511B (zh) * 2018-09-04 2021-12-17 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN109271491B (zh) * 2018-11-02 2021-09-28 合肥工业大学 基于非结构化文本信息的云服务推荐方法
CN109299887B (zh) * 2018-11-05 2022-04-19 创新先进技术有限公司 一种数据处理方法、装置及电子设备
CN110377845B (zh) * 2019-07-24 2022-07-22 湘潭大学 基于区间半监督lda的协同过滤推荐方法
CN110851714A (zh) * 2019-11-07 2020-02-28 安徽大学 基于异构主题模型和词嵌入模型的文本推荐方法和系统
CN111291156B (zh) * 2020-01-21 2024-01-12 同方知网(北京)技术有限公司 一种基于知识图谱的问答意图识别方法
CN111339287B (zh) * 2020-02-24 2023-04-21 成都网安科技发展有限公司 摘要生成方法及装置
CN112100405B (zh) * 2020-09-23 2024-01-30 中国农业大学 一种基于加权lda的兽药残留知识图谱构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929894A (zh) * 2011-08-12 2013-02-13 中国人民解放军总参谋部第五十七研究所 一种文本在线聚类可视化方法
CN103177087A (zh) * 2013-03-08 2013-06-26 浙江大学 一种基于概率主题模型的相似中药检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122043B2 (en) * 2009-06-30 2012-02-21 Ebsco Industries, Inc System and method for using an exemplar document to retrieve relevant documents from an inverted index of a large corpus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929894A (zh) * 2011-08-12 2013-02-13 中国人民解放军总参谋部第五十七研究所 一种文本在线聚类可视化方法
CN103177087A (zh) * 2013-03-08 2013-06-26 浙江大学 一种基于概率主题模型的相似中药检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Latent Dirichlet learning for document summarization;chang ying lang 等;《2009 IEEE International Conference on Acoustics, Speech and Signal Processing》;20090424;第1689-1692页 *
Supervised Coupled Dictionary Learning with Group Structures for Multi-Modal Retrieval;zhuang ting yue 等;《Twenty-Seventh AAAI Conference on Artificial Intelligence 》;20130630;第1071-1076页 *

Also Published As

Publication number Publication date
CN103823848A (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
CN103823848B (zh) 一种基于lda和vsm的中草药相似文献的推荐方法
US10120861B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
JP6466952B2 (ja) 文章生成システム
CN111104789B (zh) 文本评分方法、装置和系统
CN103838789A (zh) 一种文本相似度计算方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN103207905B (zh) 一种基于目标文本的计算文本相似度的方法
Alodadi et al. Similarity in patient support forums using TF-IDF and cosine similarity metrics
US8538979B1 (en) Generating phrase candidates from text string entries
US20130275122A1 (en) Method for extracting semantic distance from mathematical sentences and classifying mathematical sentences by semantic distance, device therefor, and computer readable recording medium
CN109062912B (zh) 一种翻译质量评价方法及装置
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN107766318A (zh) 一种关键词的抽取方法、装置及电子设备
CN110532328A (zh) 一种文本概念图构造方法
Al-Taani et al. An extractive graph-based Arabic text summarization approach
CN104216968A (zh) 一种基于文件相似度的排重方法及系统
CN109145085A (zh) 语义相似度的计算方法及系统
KR102457821B1 (ko) 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법
CN104346382B (zh) 使用语言查询的文本分析系统和方法
Alian et al. Semantic similarity for english and arabic texts: a review
KR101841615B1 (ko) 의미 기반 명사 유사도 계산 장치 및 방법
Wang et al. Automatic scoring of Chinese fill-in-the-blank questions based on improved P-means

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant