CN108345694B

CN108345694B - 一种基于主题数据库的文献检索方法及系统

Info

Publication number: CN108345694B
Application number: CN201810224141.XA
Authority: CN
Inventors: 王建红
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2021-09-03
Anticipated expiration: 2038-03-19
Also published as: CN108345694A

Abstract

本申请公开了一种基于主题数据库的文献检索方法及系统，方法包括：获得至少一个待检索的第一语言文献的关键词；在主题数据库中，查找与待检索的关键词属于同一文献学科分类的主题词表；在主题词表中，对待检索的关键词与第一语言主题词群进行相似度计算，得到相似度最大的目标第一语言主题词群；在主题词表中，获得目标第一语言主题词群所关联的目标第二语言主题词群、目标第二语言主题词群所对应的文献存储信息及目标第二语言主题词群所对应的第二语言文献属于目标第二语言主题词群的概率；根据目标第二语言主题词群所对应的第二语言文献属于目标第二语言主题词群的概率以及目标第二语言主题词群所对应的文献存储信息，获得目标第二语言文献。

Description

一种基于主题数据库的文献检索方法及系统

技术领域

本申请涉及数据处理技术领域，特别涉及一种基于主题数据库的文献检索方法及系统。

背景技术

伴随全球化的进程，想要了解中国的外国研究者越来越多，但是由于中文语言极其复杂，除了少数经过多年语言学习掌握中文的研究者能够准确理解中文文献的基本概念内涵之外，一般研究者很难准确理解中文文献中的语义。而由于文献数据量的庞大，对于外国研究者来说更加需要耗费大量的时间进行翻译过滤，才能检索到需要的中文文献。

为此，目前通过翻译英文文献之后，再对翻译得到的中文进行检索，得到中文文献。

但是这种方案中由于翻译的多义性，可能会导致检索结果存在较大变差，导致检索准确性较低。

发明内容

有鉴于此，本申请的目的在于提供一种基于主题数据库的文献检索方法及系统，用以解决现有技术中不同语言之间文献检索的准确性较低的技术问题。

本申请提供了一种基于主题数据库的文献检索方法，包括：

获得至少一个待检索的关键词，所述待检索的关键词为第一语言文献的关键词；

在预设的主题数据库中，查找与所述待检索的关键词属于同一文献学科分类的主题词表；其中，所述主题词表中包括每篇文献的第一语言主题词群、所述第一语言主题词群所关联的第二语言主题词群、所述第二语言主题词群所对应的文献存储信息及所述第二语言主题词群所对应的第二语言文献属于所述第二语言主题词群的概率，所述主题词群中包括至少一个主题词；

在查找到的主题词表中，对所述待检索的关键词与所述第一语言主题词群进行相似度计算，得到所述相似度最大的目标第一语言主题词群；

在所述查找到的主题词表中，获得所述目标第一语言主题词群所关联的目标第二语言主题词群、所述目标第二语言主题词群所对应的文献存储信息及所述目标第二语言主题词群所对应的第二语言文献属于所述目标第二语言主题词群的概率；

根据所述目标第二语言主题词群所对应的第二语言文献属于所述目标第二语言主题词群的概率以及所述目标第二语言主题词群所对应的文献存储信息，获得目标第二语言文献。

上述方法，优选地，所述主题数据库通过以下方式获得：

获得多篇文献，每篇所述文献至少包括：第一语言文献和与所述第一语言文献相对应的第二语言文献；

获取属于同一文献学科分类的文献的文献主题，所述文献的文献主题至少包括：所述第一语言文献的第一语言主题词群、所述第二语言文献的第二语言主题词群及所述第二语言文献属于所述第二语言主题词群的概率，所述第一语言主题词群与所述第二语言主题词群相关联；

根据所述文献主题，生成主题词表，所述主题词表中包括每篇文献的第一语言主题词群、所述第一语言主题词群所关联的第二语言主题词群、所述第二语言主题词群所对应的文献存储信息及所述第二语言主题词群所对应的第二语言文献属于所述第二语言主题词群的概率。

上述方法，优选地，还包括：

获取新的第二语言文献；

获取所述新的第二语言文献的新的第二语言主题词群；

在所述主题数据库的主题词表中，确定与所述新的第二语言主题词群相似度最大的第二语言主题词群及其所关联的第一语言主题词群；

将所述新的第二语言主题词群与确定的第一语言主题词群相关联，并在所述主题词表中记录所述新的第二语言文献的文献存储信息和所述新的第二语言文献属于确定的第二语言主题词群的概率。

上述方法，优选地，获取属于同一文献学科分类的文献的文献主题，包括：

利用预设的主题模型的训练算法对属于同一文献学科分类的文献进行训练，得到所述文献的第一语言文献的第一语言主题词群、所述文献的第二语言文献的第二语言主题词群以及所述第二语言文献属于所述第二语言主题词群的概率。

上述方法，优选地，在查找到的主题词表中，对所述待检索的关键词与所述第一语言主题词群进行相似度计算，得到所述相似度值最大的目标第一语言主题词群，包括：

获得所述待检索的关键词各自的权重值；

在查找到的主题词表中，分别计算所述待检索的关键词与每个所述第一语言主题词群中的主题词相一致的关键词的权重值之和，所述权重值之和最大的第一语言主题词群即为相似度最大的目标第一语言主题词群。

本申请还提供了一种基于主题数据库的文献检索系统，包括：

关键词获得单元，用于获得至少一个待检索的关键词，所述待检索的关键词为第一语言文献的关键词；

词表查找单元，用于在预设的主题数据库中，查找与所述待检索的关键词属于同一文献学科分类的主题词表；其中，所述主题词表中包括每篇文献的第一语言主题词群、所述第一语言主题词群所关联的第二语言主题词群、所述第二语言主题词群所对应的文献存储信息及所述第二语言主题词群所对应的第二语言文献属于所述第二语言主题词群的概率，所述主题词群中包括至少一个主题词；

相似度计算单元，用于在查找到的主题词表中，对所述待检索的关键词与所述第一语言主题词群进行相似度计算，得到所述相似度最大的目标第一语言主题词群；

关联查找单元，用于在所述查找到的主题词表中，获得所述目标第一语言主题词群所关联的目标第二语言主题词群、所述目标第二语言主题词群所对应的第二语言文献存储信息及所述目标第二语言主题词群所对应的文献属于所述目标第二语言主题词群的概率；

文献获得单元，用于根据所述目标第二语言主题词群所对应的第二语言文献属于所述目标第二语言主题词群的概率以及所述目标第二语言主题词群所对应的文献存储信息，获得目标第二语言文献。

上述系统，优选的，还包括：

主题数据库获得单元，用于获得所述主题数据库；

其中，所述主题数据库获得单元包括：

已知文献获得子单元，用于获得多个文献，每篇所述文献至少包括：第一语言文献和与所述第一语言文献相对应的第二语言文献；

文献主题获取子单元，用于获取属于同一文献学科分类的文献的文献主题，所述文献主题至少包括：所述第一语言文献的第一语言主题词群、所述第二语言文献的第二语言主题词群以及所述第二语言文献属于所述第二语言主题词群的概率，所述第一语言主题词群与所述第二语言主题词群相关联；

主题词表生成子单元，用于根据所述文献主题，生成主题词表，所述主题词表中包括每篇文献的第一语言主题词群、所述第一语言主题词群所关联的第二语言主题词群、所述第二语言主题词群所对应的文献存储信息及所述第二语言主题词群所对应的第二语言文献属于所述第二语言主题词群的概率。

上述系统，优选的，还包括：

主题数据库优化单元，用于优化所述主题数据库；

其中，所述主题数据库优化单元包括：

新文献获取子单元，用于获取新的第二语言文献；

新主题获取子单元，用于获取所述新的第二语言文献的新的第二语言主题词群；

主题词群确定子单元，用于在所述主题数据库的主题词表中，确定与所述新的第二语言主题词群相似度最大的第二语言主题词群及其所关联的第一语言主题词群；

词表更新子单元，用于将所述新的第二语言主题词群与确定的第一语言主题词群相关联，并在所述主题词表中记录所述新的第二语言文献的文献存储信息和所述新的第二语言文献属于确定的第二语言主题词群的概率。

上述系统，优选的，所述文献主题获取子单元具体用于：

上述系统，优选的，所述相似度计算单元包括：

权重获得子单元，用于获得所述待检索的关键词各自的权重值；

权重计算子单元，用于在查找到的主题词表中，分别计算所述待检索的关键词与每个所述第一语言主题词群中的主题词相一致的关键词的权重值之和，所述权重值之和最大的第一语言主题词群即为相似度值最大的目标第一语言主题词群。

由以上方案可知，本申请提供的一种基于主题数据库的文献检索方法及系统，通过预先建立包含不同文献学科的主题词表的主题数据库，该主题词表中包含相关联的不同语言的主题词群及对应的文献存储信息，从而在获得第一语言的待检索的关键词时，通过在相应的文献学科分类的主题词表中查找最相似的第一语言的主题词群，进而就可以找到与该第一语言主题词群相关联的第二语言主题词群，从而根据该第二语言主题词群所对应的文献存储信息就可以获取到第二语言的文献。由此，本申请中通过预先对大量同一文献的不同语言版本下的主题词群进行提取并关联，从而在当前语言下检索其他语言的文献时，先检索当前语言下的文献版本的主题词群，找到与待检索的关键词相似度较大的目标主题词群，之后再利用主题词群的关联关系根据目标主题词群来找到该文献其他语言下的主题词群，从而获得该文献其他语言下的文献版本，这一检索过程中无需进行翻译，也就避免了翻译的多义性所造成的变差，从而本申请能够在获取到文献的其他语言的文献版本的同时，提高跨语言文献检索的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例一提供的一种基于主题数据库的文献检索方法的流程图；

图2～图4分别为本申请实施例一提供的一种基于主题数据库的文献检索方法的部分流程图；

图5为本申请实施例二提供的一种基于主题数据库的文献检索系统的结构示意图；

图6为本申请实施例二提供的一种基于主题数据库的文献检索系统的另一结构示意图；

图7为本申请实施例二提供的一种基于主题数据库的文献检索系统的部分结构示意图；

图8为本申请实施例二提供的一种基于主题数据库的文献检索系统的又一结构示意图；

图9及图10分别为本申请实施例二提供的一种基于主题数据库的文献检索系统的另一部分结构示意图；

图11～图13为本申请实施例的应用示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，为本申请实施例一提供的一种基于主题数据库的文献检索方法的实现流程图，适用于跨语言的文献检索应用，例如，通过第一语言的关键词检索出第二语言的文献。需要说明的是，本实施例中所涉及的文献是指记录知识的一切载体，诸如有历史意义或研究价值的图书、期刊或典章等。

具体的，本实施例中，该方法可以包括以下步骤：

步骤101：获得至少一个待检索的关键词。

其中，待检索的关键词为第一语言文献的关键词，本实施例需要通过第一语言文献的关键词检索与第一语言文献相关的第二语言文献，第二语言与第一语言不同，如第一语言为英文，第二语言为中文或者德文等。

本实施例中，可以通过为用户提供检索界面如网页等来接收用户的检索输入操作，再从检索输入操作中识别出用户所需要检索的关键词。例如，用户在网页端进行输入操作，如通过键盘输入“通信”、“频域复用”及“时域复用”等词语，本实施例中通过识别用户的输入操作来识别出“通信”、“频分复用”及“时分复用”等关键词。

步骤102：在预设的主题数据库中，查找与待检索的关键词属于同一文献学科分类的主题词表。

其中，主题数据库中包含多个文献学科分类的主题词表，因此，本实施例中在获得待检索的关键词中，首先在主题数据库中查找到相应文献学科类型的主题词表。

需要说明的是，这里的文献学科分类可以理解为文献所处的领域，如无线电电子学、电信领域、计算机硬件领域、互联网领域、机械自动化领域、新闻与传媒领域等等。

而在主题词表中通过列表的方式存储当前领域内每篇已知文献的不同语言版本的主题词群、相应语言主题词群所对应的文献存储信息以及这些文献属于相应语言主题词群的概率，例如，一个主题词表中包括：每篇文献的第一语言主题词群、与第一语言主题词群相关联的第二语言主题词群、第二语言主题词群所对应的文献存储信息以及第二语言主题词群所对应的第二语言文献属于该第二语言主题词群的概率。

其中，主题词表中的每个主题词群是有一个或多个主题词组成的，例如，由“计算机”、“PCB”及“单片机”组成的主题词群。

需要说明的是，主题词表中，每篇文献的第二语言主题词群可以为多个，也就是说，一个文献具有一个第一语言主题词群和多个第二语言主题词群，其中，文献的第一语言主题词群与文献的第一语言文献(版本)相对应，而在文献的第二语言主题词群中包含文献的第二语言文献(版本)相对应的一个第二语言主题词群，还包括与该文献的第二语言文献(版本)相对应的第二语言主题词群相同或相近的其他第二语言主题词群。

在主题词表中，可以设置编号来标记文献的第一语言主题词群，例如，在主题词表中设置多个属性列，第一列记录第一语言主题词群的编号，编号可以随机设置也可以根据序列顺序设置，第二列记录第一语言主题词群，第三列记录第一语言主题词群所关联的第二语言主题词群，其中一个第一语言主题词群可以关联多个第二语言主题词群，第四列记录每个第二语言主题词群所对应的第二语言文献的文献存储信息，第五列记录每个第二语言文献属于该第二语言主题词群的概率，如表1中的主题词表所示。

表1

步骤103：在查找到的主题词表中，对待检索的关键词与第一语言主题词群进行相似度值计算，得到相似度值最大的目标第一语言主题词群。

以表1中的主题词表为例，与待检索的关键词属于同一文献学科分类的主题词表中包含X1、X2、X3等第一语言主题词群，本实施例中，将待检索的关键词分别与X1、X2、X3等第一语言主题词群进行相似度值计算，得出相似度值最大的目标第一语言主题词群，如X3与待检索的关键词之间的相似度值最大。

步骤104：在查找到的主题词表中，获得目标第一语言主题词群所关联的目标第二语言主题词群、目标第二语言主题词群所对应的文献存储信息及目标第二语言主题词群所对应的第二语言文献属于目标第二语言主题词群的概率。

以表1中的主题词表为例，在确定目标第一语言主题词群X3之后，从主题词表的第三列中获取到X3所关联的目标第二语言主题词群：Y3、Y3`、Y3``，从主题词表的第四列中获取到目标第二语言主题词群：Y3、Y3`、Y3``各自对应的文献存储信息Z3、Z3`、Z3``，从主题词表的第五列中获取到目标第二语言主题词群：Y3、Y3`、Y3``各自对应的文献属于相应的主题词群的概率：P3、P3`、P3``。

步骤105：根据目标第二语言主题词群所对应的第二语言文献属于目标第二语言主题词群的概率以及目标第二语言主题词群所对应的文献存储信息，获得目标第二语言文献。

其中，本实施例中可以将所有目标第二语言文献及其属于相应的目标第二语言主题词群的概率进行输出；或者，本实施例中可以首先对概率进行从大到小排序，选择排序在前N位的概率所对应的第二语言主题词群，再根据选择的第二语言主题词群所对应的文献存储信息读取到目标第二语言文献。

需要说明的是，本实施例中的文献存储信息可以为第二语言文献本身，但是考虑到存储空间的限制，文献存储信息也可以为第二语言文献的存储路径，如在本地磁盘中的存储路径或者文献在网络数据库中的下载路径等等。

由以上方案可知，本申请实施例一提供的一种基于主题数据库的文献检索方法中，通过预先建立包含不同文献学科的主题词表的主题数据库，该主题词表中包含相关联的不同语言的主题词群及对应的文献存储信息，从而在获得第一语言的待检索的关键词时，通过在相应的文献学科分类的主题词表中查找最相似的第一语言的主题词群，进而就可以找到与该第一语言主题词群相关联的第二语言主题词群，从而根据该第二语言主题词群所对应的文献存储信息就可以获取到第二语言的文献。由此，本实施例通过预先对大量同一文献的不同语言版本下的主题词群进行提取并关联，从而在当前语言下检索其他语言的文献时，先检索当前语言下的文献版本的主题词群，找到与待检索的关键词相似度较大的目标主题词群，之后再利用主题词群的关联关系根据目标主题词群来找到该文献其他语言下的主题词群，从而获得该文献其他语言下的文献版本，这一检索过程中无需进行翻译，也就避免了翻译的多义性所造成的变差，从而本申请能够在获取到文献的其他语言的文献版本的同时，提高跨语言文献检索的准确性。

在一种实现方式中，本实施例中的主题数据库可以通过以下步骤获得，如图2中所示：

步骤201：获得多篇文献。

其中，本实施例中所获取到的文献可以包含多篇已经公开的各领域文献，包含多语言版本，例如，每篇文献至少包括：第一语言文献和与第一语言文献相对应的第二语言文献，还可以包含其他语言文献。也就是说，本实施例中所获得的文献是包含不同语言版本的文献，如英文文献和中文文献，相互对应的第一语言文献和第二语言文献的文献内容是相同的，例如，文献A是一篇英文文献，文献A的中文版本为B，那么A与B是相对应的。

步骤202：获取属于同一文献学科分类的文献的文献主题。

其中，本实施例中可以通过以下方式获取文献的文献主题：

首先对所有文献按照所属学科进行分类，利用预设的主题模型的训练算法对属于同一文献学科分类的文献进行训练，得到文献的第一语言文献的第一语言主题词群、文献的第二语言文献的第二语言主题词群，还可以得到第一语言文献属于第一语言主题词群的概率以及第二语言文献属于第二语言主题词群的概率。

例如，本实施例中利用文档主题生成模型LDA(Latent Dirichlet Allocation)对属于同一文献学科分类的文献进行主题词提取，得到文献的第一语言文献的第一语言主题词群、第一语言文献属于第一语言主题词群的概率、文献的第二语言文献的第二语言主题词群以及第二语言文献属于第二语言主题词群的概率。

步骤203：根据文献主题，生成主题词表。

其中，主题词表中包括每篇文献的第一语言主题词群、第一语言主题词群所关联的第二语言主题词群、第二语言主题词群所对应的文献存储信息及第二语言主题词群所对应的第二语言文献属于第二语言主题词群的概率，具体可以参考图表1中所示。

其中，在主题词表中，不同语言版本的不同主题词词群的关联关系，在不同语言版本的文献达到一定阈值后，就可以确定为固定关联关系，在进行后续进行关键词的检索时，在查找到的主题词表中只用相似度最大的目标第一语言主题词群，即只对概率最大的当前语言下的主题词群进行提取，用提取后的主题词群，确定之前训练得到的固定(或最大概率的)的第二语言主题词群，从而得到第二语言文献，实现跨语言文献检索。

另外，为了丰富主题数据库中主题词表的第二语言主题词群和第二语言文献，可以通过以下方式对主题数据库进行优化，如图3中所示：

步骤301：获取新的第二语言文献。

其中，新的第二语言文献可以是从已经公开的文献库中获取。

步骤302：获取新的第二语言文献的新的第二语言主题词群。

其中，本实施例中可以利用预设的主题模型的训练算法如LDA算法对新的第二语言文献进行训练，得到新的第二语言文献的新的第二语言主题词群及新的第二语言文献属于新的第二语言主题词群的概率。

步骤303：在主题数据库的主题词表中，确定与新的第二语言主题词群相似度最大的第二语言主题词群及其所关联的第一语言主题词群。

以表1中主题词表为例，将新的第二语言主题词群与第三列的第二语言主题词群进行相似度计算，找到与新的第二语言主题词群相似度最大的那个第二语言主题词群，如Y3`，之后，确定与这个第二语言主题词群相关联的第一语言主题词群X3。

其中，本实施例中可以通过对新的第二语言主题词群中的主题设置权重，从而根据权重计算新的第二语言主题词群与主题词表中的第二语言主题词群之间的相似度。

步骤304：将新的第二语言主题词群与确定的第一语言主题词群相关联，并在主题词表中记录新的第二语言文献的文献存储信息和新的第二语言文献属于确定的第二语言主题词群的概率。

如表2中所示，将新的第二语言主题词群Y3```与确定的第一语言主题词群X3相关联，并将新的第二语言文献的文献存储信息Z3```和新的第二语言文献属于确定的第二语言主题词群Y3```的概率P3```记录到第五列相应的位置。

表2

由此，本实施例中可以丰富主题词表中第一语言主题词群所对应的第二语言主题词群的个数，从而能够检索到与待检索的关键词更加相关且更加丰富的第二语言文献，提高文献检索的准确性与完整性。

在一种实现方式中，本实施例的步骤103在查找到的主题词表中，对待检索的关键词与第一语言主题词群进行相似度值计算，得到相似度值最大的目标第一语言主题词群时，可以通过以下方式实现，如图4中所示：

步骤401：获得待检索的关键词各自的权重值。

其中，关键词的权重值可以有用户手动输入，也可以根据用户对关键词输入的前后顺序自动生成，例如，最先输入的“通信”权重为0.3，“频分复用”的权重为0.2，“时分复用”的权重为0.1。

步骤402：在查找到的主题词表中，分别计算待检索的关键词中与每个第一语言主题词群中的主题词相一致的关键词的权重值之和。

其中，权重值之和最大的第一语言主题词群即为相似度最大的目标第一语言主题词群。

以表1中的主题词表为例，X1中包含与待检索的关键词相一致的主题词：“通信”和“频分复用”，那么X1与待检索的关键词之间的权重值之和为0.5，X2中包含与待检索的关键词相一致的主题词：“通信”和“时分复用”，那么X2与待检索的关键词之间的权重值之后为0.4，X3中包含与待检索的关键词相一致的主题词“时分复用”，那么X3与待检索的关键词之间的权重值之后为0.1，由此，可以确定出X1即为与待检索的关键词相似度最大的目标第一语言主题词群。之后，就可以在查找到的主题词表中，获得与目标第一语言主题词群所关联的目标第二语言主题词群Y1和Y1`、目标第二语言主题词群Y1和Y1`分别所对应的文献存储信息Z1和Z1`及目标第二语言主题词群Y1和Y1`分别所对应的第二语言文献属于目标第二语言主题词群的概率P1和P1`，然后根据目标第二语言主题词群所对应的第二语言文献属于所述目标第二语言主题词群的概率以及所述目标第二语言主题词群所对应的文献存储信息，获得目标第二语言文献，实现准确全面的跨语言的文献检索。

参考图5，为本申请实施例二提供的一种基于主题数据库的文献检索系统的结构示意图，适用于跨语言的文献检索应用，例如，通过第一语言的关键词检索出第二语言的文献。需要说明的是，本实施例中所涉及的文献是指记录知识的一切载体，诸如有历史意义或研究价值的图书、期刊或典章等。

具体的，本实施例中，该系统可以包括以下结构：

关键词获得单元501，用于获得至少一个待检索的关键词。

本实施例中，关键词获得单元501可以通过为用户提供检索界面如网页等来接收用户的检索输入操作，再从检索输入操作中识别出用户所需要检索的关键词。例如，用户在网页端进行输入操作，如通过键盘输入“通信”、“频域复用”及“时域复用”等词语，本实施例中通过识别用户的输入操作来识别出“通信”、“频分复用”及“时分复用”等关键词。

词表查找单元502，用于在预设的主题数据库中，查找与所述待检索的关键词属于同一文献学科分类的主题词表。

相似度计算单元503，用于在查找到的主题词表中，对所述待检索的关键词与所述第一语言主题词群进行相似度计算，得到所述相似度最大的目标第一语言主题词群。

关联查找单元504，用于在所述查找到的主题词表中，获得所述目标第一语言主题词群所关联的目标第二语言主题词群、所述目标第二语言主题词群所对应的第二语言文献存储信息及所述目标第二语言主题词群所对应的文献属于所述目标第二语言主题词群的概率。

文献获得单元505，用于根据所述目标第二语言主题词群所对应的第二语言文献属于所述目标第二语言主题词群的概率以及所述目标第二语言主题词群所对应的文献存储信息，获得目标第二语言文献。

其中，本实施例中文献获得单元505可以将所有目标第二语言文献及其属于相应的目标第二语言主题词群的概率进行输出；或者，本实施例中可以首先对概率进行从大到小排序，选择排序在前N位的概率所对应的第二语言主题词群，再根据选择的第二语言主题词群所对应的文献存储信息读取到目标第二语言文献。

需要说明的是，本实施例中的文献存储信息可以为第二语言文献本身，但是考虑到存储空间的限制，文献存储信息也可以为第二语言文献的存储路径，如在本地磁盘中的存储路径等。

在本实施例中，该系统可以通过服务器实现，服务器中可以包括有处理器及存储器，处理器及存储器为服务器等承载以上本实施例的设备上的元器件，上述的各种功能单元均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

例如，上述各个程序单元以安装包或处理类的形式存储在存储器中，同时存储器中还存储有预先设置的配置文件，处理器通过调用安装包处理类，来执行以上各个程序单元，实现相应的功能。

具体的，处理器中包含内核，由内核去存储器中调取相应的程序单元，内核可以设置一个或多个，用以实现以上文献检索方案。

其中，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

由以上方案可知，本申请实施例二提供的一种文献检索系统中，通过预先建立包含不同文献学科的主题词表的主题数据库，该主题词表中包含相关联的不同语言的主题词群及对应的文献存储信息，从而在获得第一语言的待检索的关键词时，通过在相应的文献学科分类的主题词表中查找最相似的第一语言的主题词群，进而就可以找到与该第一语言主题词群相关联的第二语言主题词群，从而根据该第二语言主题词群所对应的文献存储信息就可以获取到第二语言的文献。由此，本实施例通过预先对同一文献的不同语言版本下的主题词群进行提取并关联，从而在当前语言下检索其他语言的文献时，先检索当前语言下的文献版本的主题词群，利用主题词群的关联关系来找到该文献其他语言的主题词群，从而获得该文献其他语言的文献版本，这一检索过程中无需进行翻译，也就避免了翻译的多义性所造成的变差，从而准确的获取到文献的其他语言的文献版本，提高跨语言文献检索的准确性。

在一种实现方式中，本实施例中的系统中还可以包括以下结构，如图6中所示：

主题数据库获得单元506，用于获得所述主题数据库。

其中，所述主题数据库获得单元506可以通过以下结构实现，如图7中所示：

已知文献获得子单元561，用于获得多个文献。

其中，本实施例中已知文献获得子单元561所获取到的文献可以包含多篇已经公开的各领域文献，包含多语言版本，例如，每篇文献至少包括：第一语言文献和与第一语言文献相对应的第二语言文献，还可以包含其他语言文献。也就是说，本实施例中已知文献获得子单元561所获得的文献是包含不同语言版本的文献，如英文文献和中文文献，相互对应的第一语言文献和第二语言文献的文献内容是相同的，例如，文献A是一篇英文文献，文献A的中文版本为B，那么A与B是相对应的。

文献主题获取子单元562，用于获取属于同一文献学科分类的文献的文献主题。

其中，本实施例中文献主题获取子单元562可以通过以下方式获取文献的文献主题：

例如，本实施例中文献主题获取子单元562利用文档主题生成模型LDA(LatentDirichlet Allocation)对属于同一文献学科分类的文献进行主题词提取，得到文献的第一语言文献的第一语言主题词群、第一语言文献属于第一语言主题词群的概率、文献的第二语言文献的第二语言主题词群以及第二语言文献属于第二语言主题词群的概率。

主题词表生成子单元563，用于根据所述文献主题，生成主题词表。

另外，为了丰富主题数据库中主题词表的第二语言主题词群和第二语言文献，该系统中还可以包括以下结构，如图8中所示：

主题数据库优化单元507，用于优化所述主题数据库。

其中，所述主题数据库优化单元507可以包括有以下结构，如图9中所示：

新文献获取子单元571，用于获取新的第二语言文献。

新主题获取子单元572，用于获取所述新的第二语言文献的新的第二语言主题词群。

其中，本实施例中新主题获取子单元572可以利用预设的主题模型的训练算法如LDA算法对新的第二语言文献进行训练，得到新的第二语言文献的新的第二语言主题词群及新的第二语言文献属于新的第二语言主题词群的概率。

主题词群确定子单元573，用于在所述主题数据库的主题词表中，确定与所述新的第二语言主题词群相似度最大的第二语言主题词群及其所关联的第一语言主题词群。

词表更新子单元574，用于将所述新的第二语言主题词群与确定的第一语言主题词群相关联，并在所述主题词表中记录所述新的第二语言文献的文献存储信息和所述新的第二语言文献属于确定的第二语言主题词群的概率。

在具体实现中，系统中的相似度计算单元503可以通过以下结构实现，如图10中所示：

权重获得子单元1001，用于获得所述待检索的关键词各自的权重值。

权重计算子单元1002，用于在查找到的主题词表中，分别计算所述待检索的关键词与每个所述第一语言主题词群中的主题词相一致的关键词的权重值之和。

本申请中以英文研究者通过英文检索相应的中文文献为例进行说明，如下：

首先，建立中英文的主题数据库：

选取出各个学科领域的大量中英文相对应文章(这里的对应指的是一篇文章的中文版本和英文版本)，对于某一个具体的小领域，比如马克思研究领域，可以通过LDA训练出该领域所包含文章的中文主题词和对应的英文主题词，如图11中所示；

比如其中的一篇文章，可以得到它的中文主题词包含有：劳动、资本、金钱、财富，等等，英文主题词相应的包含：Land、Labor、capital、wealth，等等，当然主题词的个数可以依据应用需求和/或文章主题数量进行设置，例如，对于一篇文章的主题词群的训练中，可以人为设限其主题词群数量，以及每个主题词词群中包含的主题词数量。在后续实现时，可以考虑根据文章(或文献)的字数、段落数的多少，计算并设定其主题词群数量和每个主题词群的主题词数量；

建立一个主题数据库，该主题数据库包括多张主题词表，此处，每个学科领域如马克思领域对应一张主题词表，每个主题词表设置多个属性列，第一列记录英文主题的编号(作为主键)，第二列存储英文主题词内容(主题词群)，即Land、Labor、capital、wealth等等这样类似主题词。另外，在英文主题词的编号添加一个关联表，关联表中存取英文主题词对应的中文主题词，这样每个英文主题词群便可对应多个中文主题词群，同时在该关联表中，还有两个属性列，其中一个属性列存储该中文主题词群下的文章存储信息(文章本身采用本地路径或者网络下载路径的形式存储)，另一列记录文章属于该中文主题词群的概率。

而在中英文映射的主题数据库有了一定规模，可以不再同时训练中英文文章，此时只需要输入中文文章，利用LDA提取出它的中文主题词群，然后通过关键词匹配(如将训练出的中文主题词群中的关键词与主题词表中已经存在的中文主题词群中的关键词进行匹配，哪个匹配程度更高则将它置于那个中文主题词群对应的英文主题词群下，匹配过程中需要将权重设置好，越靠前的关键词概率越大，同时显然越能表达主题意思，于是将它的权重设置的更高，然后依次下降)来定位离提取到的中文主题最接近的中文主题词群，并添加到关联表中去，由此将主题词表拓展成多对一的映射(中文多，英文一)，如图12中所示。

之后，如图13中所示，用户在搜索时，在系统的网页端输入关键词词群，即英文的关键词群，包括一个核心主题词及3-4个关联主题，其中，第一个词权重最大，其他词的权重按顺序依次下降，比如为0.35、0.3.、0.2、0.15，等等；

系统运行时将用户输入的关键词群与英文主题词群进行近似度计算，(例：如果前三个关键词相同，然后该关键词群与英文主题词群的近似度便可视为0.35+0.3+0.2)，计算出输入词群与所有英文主题词群的近似度后，便可以选出近似度最大的那个英文主题词群，利用中英文主题数据库获取到相应的中文主题词群；最后将获取到的中文主题词群下所有文章对应的概率进行排序输出。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种基于主题数据库的文献检索方法及系统进行了详细介绍，对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于主题数据库的文献检索方法，其特征在于，包括：

根据所述目标第二语言主题词群所对应的第二语言文献属于所述目标第二语言主题词群的概率以及所述目标第二语言主题词群所对应的文献存储信息，获得目标第二语言文献；

所述主题数据库通过以下方式获得：获得多篇文献，每篇所述文献至少包括：第一语言文献和与所述第一语言文献相对应的第二语言文献；获取属于同一文献学科分类的文献的文献主题，所述文献的文献主题至少包括：所述第一语言文献的第一语言主题词群、所述第二语言文献的第二语言主题词群及所述第二语言文献属于所述第二语言主题词群的概率，所述第一语言主题词群与所述第二语言主题词群相关联；根据所述文献主题，生成主题词表，所述主题词表中包括每篇文献的第一语言主题词群、所述第一语言主题词群所关联的第二语言主题词群、所述第二语言主题词群所对应的文献存储信息及所述第二语言主题词群所对应的第二语言文献属于所述第二语言主题词群的概率；

所述方法，还包括：

获取新的第二语言文献；获取所述新的第二语言文献的新的第二语言主题词群；在所述主题数据库的主题词表中，确定与所述新的第二语言主题词群相似度最大的第二语言主题词群及其所关联的第一语言主题词群；将所述新的第二语言主题词群与确定的第一语言主题词群相关联，并在所述主题词表中记录所述新的第二语言文献的文献存储信息和所述新的第二语言文献属于确定的第二语言主题词群的概率。

2.根据权利要求1所述的方法，其特征在于，获取属于同一文献学科分类的文献的文献主题，包括：

3.根据权利要求1所述的方法，其特征在于，在查找到的主题词表中，对所述待检索的关键词与所述第一语言主题词群进行相似度计算，得到所述相似度值最大的目标第一语言主题词群，包括：

获得所述待检索的关键词各自的权重值；

4.一种基于主题数据库的文献检索系统，其特征在于，包括：

文献获得单元，用于根据所述目标第二语言主题词群所对应的第二语言文献属于所述目标第二语言主题词群的概率以及所述目标第二语言主题词群所对应的文献存储信息，获得目标第二语言文献；

主题数据库获得单元，用于获得所述主题数据库；

其中，所述主题数据库获得单元包括：已知文献获得子单元，用于获得多个文献，每篇所述文献至少包括：第一语言文献和与所述第一语言文献相对应的第二语言文献；文献主题获取子单元，用于获取属于同一文献学科分类的文献的文献主题，所述文献主题至少包括：所述第一语言文献的第一语言主题词群、所述第二语言文献的第二语言主题词群以及所述第二语言文献属于所述第二语言主题词群的概率，所述第一语言主题词群与所述第二语言主题词群相关联；

主题词表生成子单元，用于根据所述文献主题，生成主题词表，所述主题词表中包括每篇文献的第一语言主题词群、所述第一语言主题词群所关联的第二语言主题词群、所述第二语言主题词群所对应的文献存储信息及所述第二语言主题词群所对应的第二语言文献属于所述第二语言主题词群的概率；

主题数据库优化单元，用于优化所述主题数据库；

其中，所述主题数据库优化单元包括：新文献获取子单元，用于获取新的第二语言文献；新主题获取子单元，用于获取所述新的第二语言文献的新的第二语言主题词群；主题词群确定子单元，用于在所述主题数据库的主题词表中，确定与所述新的第二语言主题词群相似度最大的第二语言主题词群及其所关联的第一语言主题词群；词表更新子单元，用于将所述新的第二语言主题词群与确定的第一语言主题词群相关联，并在所述主题词表中记录所述新的第二语言文献的文献存储信息和所述新的第二语言文献属于确定的第二语言主题词群的概率。

5.根据权利要求4所述的系统，其特征在于，所述文献主题获取子单元具体用于：

6.根据权利要求5所述的系统，其特征在于，所述相似度计算单元包括：