CN109255121A

CN109255121A - 一种基于主题类的跨语言生物医学类学术论文信息推荐方法

Info

Publication number: CN109255121A
Application number: CN201810852223.9A
Authority: CN
Inventors: 陆遥; 霍焯亮
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-01-22

Abstract

本发明涉及信息检索以及推荐系统技术领域，更具体地，涉及一种基于主题类的跨语言生物医学类学术论文信息推荐方法。本方法主要包括对文本数据进行数据预处理、应用PLAS模型进行文本聚类、计算每个主题分组的词向量信息、获得每一个主题最相关的跨语言主题编号、读取用户输入的检索词组、判断用户的检索词组、得到中文文章的推荐结果以及得到英文文献的推荐等步骤。本发明实现了将文本的分析从词频空间降维至空间主题空间；通过数据降维的方法能够有效地减少模型对翻译方法的依赖，有利于实现跨语言的文献特征分析；同时主题模型能够有效地挖掘文档中的语义信息，发现文档之间的潜在关联，能够有效地解决一词多义和一义多词的问题。

Description

一种基于主题类的跨语言生物医学类学术论文信息推荐方法

技术领域

本发明涉及信息检索以及推荐系统技术领域，更具体地，涉及一种基于主题类的跨语言生物医学类学术论文信息推荐方法。

背景技术

在文本推荐系统中，最为常用的方法是利用词频-逆向文档词频(TermFrequency-Invert Document Frequency,TF-IDF)方法将文档转化为词频维度的向量表示。然后通过词向量的距离来计算文档之间的相似程度，从而来进行基于内容的推荐。TF-IDF作为一种统计方法，仅仅考虑了单词在文档中出现的词频信息，而无法挖掘文档内部和文档之间的语义信息和统计信息。这些信息往往才是反映文档内容的最好特征。针对于不同语言下的文档处理，TF-IDF也无法很好地处理翻译词汇存在的一词多义和一义多词的现象。比如英文单词chair,在文档A中表示的意思是椅子，而在文档B中表达的意思却可能是主席。尽管单词在这两个文档中具有相差甚远的含义，但是TF-IDF却无法发现这一词多义的现象。又比如单词advantage和benefit都具有优点，好处的意思。但是TF-IDF模型同样也不会发现这些特性，它仅仅会对不同的单词分别统计词频。这些现象在文档信息处理时经常发生，将直接影响到推荐结果，使之偏离用户的真实需求。在处理跨语言的检索问题上，很多学者也尝试利用各种方法优化机器翻译的效果，但是仍然离不开对翻译词典或者双语对照语料的依赖，学术文献的专业性和特殊性使得翻译模型的建模难度增大，模型效果低下。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于主题类的跨语言生物医学类学术论文信息推荐方法。

为解决上述技术问题，本发明采用的技术方案是：

一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法，包括以下步骤：

S1：首先对文本数据进行数据预处理。

S2：根据数据预处理得到的词频信息应用PLAS模型进行文本聚类并得到每个学术文献的主题分组。

S3：计算每个主题分组的词向量信息并得到每个主题分组的向量信息。

S4：利用翻译关系将每个主题分组的向量信息中的词组进行对应，通过加权计算的方法统一不同语言下的主题信息向量的维度，然后利用向量间的余弦距离计算主题之间的相似度，得到每一个主题最相关的跨语言主题编号。在步骤S4中，由于不同语言下的主题的信息向量的维度不一致，故通过加权计算的方法统一不同语言下的主题信息向量的维度。

S5：读取用户输入的检索词组，利用结巴分词进行分词，同样去除停用词。

S6：判断用户的检索词是否能够在系统的总词表中检索到，如果检索不到检索词，则输出无法得到推荐结果，推出系统，否则进入到下一步。

S7：通过字符串匹配，计算检索词在中文主题下文本中出现的TF-IDF值，根据TF-IDF值排序得到与检索词最相关的中文主题，根据中文主题对应的p(z|d)矩阵，对主题内的中文文章进行排序，得到中文文章的推荐结果。

S8：根据步骤S7中找到的中文主题，访问数据库得到对应最相关的英文主题，判断检索词是否能在翻译词表中找到对应的英文翻译，如果能找到英文翻译，则计算该英文翻译相对于该英文主题下所有英文文章的TF-IDF值，根据TF-IDF值对英文文章进行排序，得到英文文章的推荐结果；若无法找到对应的英文翻译，则直接根据该英文主题对应的p(z|d)矩阵，对主题内的英文文章进行排序，得到英文文章的推荐结果。

优选地，所述步骤S1具体包括以下步骤：

s11：对中文的摘要文本，首先使用结巴分词工具对文本进行分词，去除标点符号，将长文本的中文的摘要文本转换成一个个的中文词组；

s12：利用中文的停用词表作为过滤条件，过滤这些中文词组中的过滤词；

s13：统计过滤后每个中文词组在中文的摘要文本中出现的频率；

s14：对英文的摘要文本，首先使用nltk工具的同词根化功能将每个英文单词转换为词根的形态并去除标点符号以及数字，将长文本的英文摘要文本转换成一个个的英文词组；

s15：利用英文的停用词表作为过滤条件，过滤停用词；

s16：统计过滤后每个英文词组在英文的摘要文本中出现的频率。

在所述步骤S1中，学术文献的摘要摘要文本是全文文本的一个浓缩，通过对摘要文本的分析，我们可以很方便地得到学术文献的语义信息用于系统推荐。同时，由于学术文献的编写语言不同，所以预处理的方法也有所差异。

优选地，所述步骤S2具体包括以下步骤：

s21：程序先载入预处理后的词频矩阵n(d,w)，然后随机初始化PLSA的初始概率参数，向每一个计算处理单元分配词频矩阵，计算条件概率p(z|d)和p(z|w)；

s22：将每个计算处理单元的计算结果汇总，更新概率参数，完成第一次迭代；

s23：重复迭代计算过程，直到条件概率的结果满足收敛条件，即完成计算，输出最终的条件概率结果p(z|d)，据此概率得到每个学术文献的主题分组。

在所述步骤S2中，输出最终的条件概率结果p(z|d)，该概率揭示了每一个学术文献属于某一个主题的概率，根据此概率得到每一个学术文献的主题分组。

优选地，所述步骤S3具体包括以下步骤：

s31：将属于同一个主题分组的文章的词频矩阵重新组合，得到每个主题的词频信息，计算每个词组的TF-IDF值；

s32：在翻译词表中选择具有翻译关系的词组，以该词组的TF-IDF值加上与之共现的词组的TF-IDF与共现概率的乘积作为该词组的向量数值；

s33：最后得到每个主题分组的向量信息。

与现有技术相比，本发明的有益效果是：

本发明为一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法，本发明采用一种概率模型的主题模型，与传统的向量空间模型相比较，不再单纯地在词频空间对文本进行分析，而是引入了主题空间，实现了将文本的分析从词频空间降维至空间主题空间；通过数据降维的方法能够有效地减少模型对翻译方法的依赖，有利于实现跨语言的文献特征分析；同时主题模型能够有效地挖掘文档中的语义信息，发现文档之间的潜在关联，能够有效地解决一词多义和一义多词的问题。

附图说明

图1为线下文本处理流程示意图；

图2为在线推荐的流程示意图；

图3为中文语料的预处理流程示意图；

图4为英文语料的预处理流程示意图；

图5为并行化文本聚类流程示意图；

图6为双语主题信息提取示意图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例

本发明为一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法，本方法主要分为线下的文本信息处理以及在线的文献推荐两个部分工作。

第一部分的线下文本信息处理工作，主要是对学术文献的信息进行提取得到可以用于能够反映文献主题的向量信息。这一部分的工作主要分为以下4个步骤，如图1所示。

S1：首先对文本数据进行数据预处理。

S4：利用翻译关系将每个主题分组的向量信息中的词组进行对应，通过加权计算的方法统一不同语言下的主题信息向量的维度，然后利用向量间的余弦距离计算主题之间的相似度，得到每一个主题最相关的跨语言主题编号。

其中，在本实施例中，步骤S1主要包括以下步骤，如图3至图4所示：

s15：利用英文的停用词表作为过滤条件，过滤停用词；

另外，在本实施例中，步骤S2主要包括以下步骤，如图5所示：

其中，在本实施例中，步骤S3主要包括以下步骤，如图6所示：

s33：最后得到每个主题分组的向量信息。

第二部分的在线文献推荐工作主要在第一部分的基础上，根据用户的检索词，得到推荐结果，具体的方法如下，如图2所示：

S5：读取用户输入的检索词组，利用结巴分词进行分词，同样去除停用词；

S6：判断用户的检索词是否能够在系统的总词表中检索到，如果检索不到检索词，则输出无法得到推荐结果，推出系统，否则进入到下一步；

S7：通过字符串匹配，计算检索词在中文主题下文本中出现的TF-IDF值，根据TF-IDF值排序得到与检索词最相关的中文主题，根据中文主题对应的p(z|d)矩阵，对主题内的中文文章进行排序，得到中文文章的推荐结果；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法，其特征在于，包括以下步骤：

S1：首先对文本数据进行数据预处理；

S2：根据数据预处理得到的词频信息应用PLAS模型进行文本聚类并得到每个学术文献的主题分组；

S3：计算每个主题分组的词向量信息并得到每个主题分组的向量信息；

S4：利用翻译关系将每个主题分组的向量信息中的词组进行对应，通过加权计算的方法统一不同语言下的主题信息向量的维度，然后利用向量间的余弦距离计算主题之间的相似度，得到每一个主题最相关的跨语言主题编号；

2.根据权利要求1所述的一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法，其特征在于，所述步骤S1具体包括以下步骤：

s15：利用英文的停用词表作为过滤条件，过滤停用词；

3.根据权利要求1或2所述的一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法，其特征在于，所述步骤S2具体包括以下步骤：

4.根据权利要求3所述的一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法，其特征在于，所述步骤S3具体包括以下步骤：

s33：最后得到每个主题分组的向量信息。