CN107679241A

CN107679241A - 一种相似文档搜索方法和装置

Info

Publication number: CN107679241A
Application number: CN201711027638.4A
Authority: CN
Inventors: 周燕红
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-02-09

Abstract

本发明公开了一种相似文档搜索方法和装置。通过获取第一文档组；从第一文档组提取第一预设数量的关键词，组成第一关键词组，并生成第一检索串；基于第一检索串，检索输出与所述第一检索串相关的第二文档组。解决现有技术需要用户提交关键词的繁琐问题，实现关键字自动提取，自动生成检索串，从而自动搜索得到相似文档的，达到以文搜文的效果。

Description

一种相似文档搜索方法和装置

技术领域

本发明实施例涉及一种计算机搜索技术，尤其涉及一种相似文档搜索方法和装置。

背景技术

文档检索是基于数据的匹配从文档库中获得相关文档并输出的一种技术。例如，利用文档检索技术可以基于申请号、申请日或关键词的匹配从专利文献库中检索一份或多份专利文献，也可以是根据关键词、作者或标题的匹配从论文库中检索一篇或多篇学术论文文档，等等。

当前基于关键词匹配的文档检索技术中，通常需要用户自行提取关键词，特别对于多文档类似文档的搜索，关键词的提取更加复杂。

发明内容

本发明提供一种相似文档搜索方法和装置，以实现以文搜文的效果。

第一方面，本发明实施例提出一种相似文档搜索方法，通过获取第一文档组；从第一文档组提取第一预设数量的关键词，组成第一关键词组，并生成第一检索串；基于第一检索串，检索输出与所述第一检索串相关的第二文档组。

可选的，所述生成第一检索串，包括：

确定第一关键词组中各关键词为与关系；

获取第二预设数量的各关键词的同义词和反义词，作为第二关键词组，与各自对应的原关键词为或关系；

根据第一和第二关键词组中各关键词的与或关系，组合生成第一检索串。

可选的，在获得第二文档组之后，还包括：

确定第二文档组的数量，作为第一数量；

若第一数量超出预设的第一预设数量范围，确定生成第二检索串；

基于第二检索串，检索输出与所述第二检索串相关的第三文档组。

可选的，其中，所述生成第二检索串可以包括：

统计第二文档组中的关键词出现频率，其中关键词包含第一关键词组和第二关键词组；

根据关键词的出现频率，选取第三预设数量的高频率关键词，作为第三关键词组；

根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系；

根据第三关键词组的关键词与或关系生成第二检索串。

可选的，其中，所述生成第二检索串还可以是包括：

提取第二文档组中第四预设数量的关键词，作为第四关键词组；

获取第五预设数量的各关键词的同义词和反义词，作为第五关键词组，与各自对应的原关键词为或关系；

去除第一、第二、第四和第五关键词组中相同的关键词，得到第六关键词组；

根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系，组合生成第二检索串。

第二方面，本发明实施例还提供了一种相似文档搜索装置，该装置包括：

第一文档组获取模块，用于获取第一文档组；

第一关键词组提取模块，用于从第一文档组提取第一预设数量的关键词，组成第一关键词组；

第一检索串生成模块，用于将第一关键词组生成第一检索串；

第一检索模块，用于根据第一检索串，检索输出与所述第一检索串相关的第二文档组。

可选的，所述第一检索串生成模块，包括：

第一关键词组提取单元，获取第一关键词组中关键词的同义词和反义词，作为第二关键词组，组中关键词数量限定为第二预设数量；

第一关键词关系确定单元，用于确定第一关键词组中各关键词为与关系，并与各自对应的同/反义词为或关系；

第一检索串生成单元，根据第一和第二关键词组中各关键词的与或关系，组合生成第一检索串。

可选的，所述第一检索模块之后，还包括：

第二检索串生成模块，用于判断第二文档组的数量是否超出预设的第一预设数量范围，如是，则生成第二检索串；

第二检索模块，用于检索输出与所述第二检索串相关的第三文档组。

可选的，其中，所述第二检索串生成模块，还包括：

关键词频率统计单元，统计第二文档组中的关键词出现频率，其中关键词包含第一关键词组和第二关键词组；

第二关键词组提取单元，根据关键词的出现频率，选取第三预设数量的高频率关键词，作为第三关键词组；

第二关键词关系确定单元，用于根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系；

第二检索串生成单元，用于根据第三关键词组的关键词与或关系生成第二检索串。

可选的，其中，所述第二检索串生成模块，还包括：

第三关键词组提取单元，用于提取第二文档组中第四预设数量的关键词，作为第四关键词组；

第四关键词组提取单元，用于获取第五预设数量的各关键词的同义词和反义词，作为第五关键词组，与各自对应的原关键词为或关系；

第五关键词组提取单元，用于去除第一、第二、第四和第五关键词组中相同的关键词，得到第六关键词组；

第三关键词关系确定单元，用于根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系；

第三检索串生成单元，用于根据第六关键词组的中各关键词的与或关系，组合生成第二检索串。

本发明通过获取第一文档组；从第一文档组提取第一预设数量的关键词，组成第一关键词组，并生成第一检索串；基于第一检索串，检索输出与所述第一检索串相关的第二文档组，解决现有技术需要用户提交关键词的繁琐问题，实现关键字自动提取，自动生成检索串，从而自动搜索得到相似文档的，达到以文搜文的效果。

附图说明

图1是本发明实施例一提供的一种相似文档搜索方法的流程图。

图2是本发明实施例一提供的一种相似文档搜索方法中生成检索串的流程图。

图3是本发明实施例二提供的一种相似文档搜索方法中的流程图。

图4是本发明实施例二提供的一种相似文档搜索方法中生成第二检索串的第一流程图。

图5是本发明实施例二提供的一种相似文档搜索装置中生成第二检索串的第二流程图。

图6是本发明实施例三提供的一种相似文档搜索装置的结构示意图。

图7是本发明实施例三提供的一种相似文档搜索装置中第一检索串生成模块的结构示意图。

图8是本发明实施例四提供的一种相似文档搜索装置中的结构示意图。

图9是本发明实施例四提供的一种相似文档搜索装置中第二检索串生成模块的第一结构示意图。

图10是本发明实施例四提供的一种相似文档搜索装置中第二检索串生成模块的第二结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种相似文档搜索方法的流程图，本实施例可适用于计算机搜索情况，该方法可以由浏览器或相关软件来执行，具体包括如下步骤：

步骤S110、获取第一文档组；

其中，第一文档组是要被搜索的原文档，数量至少为1。可以由用户上传提交本地文档，也可以是网络文档地址。

步骤S120、从第一文档组提取第一预设数量的关键词，组成第一关键词组，并生成第一检索串；

其中，关键词的提取采用关键词匹配算法，可以是TextRank算法。检索串是用逻辑与或将关键词进行组合而成。

步骤S130、基于第一检索串，检索输出与所述第一检索串相关的第二文档组。

本实施例的技术方案，通过获取第一文档组；从第一文档组提取第一预设数量的关键词，组成第一关键词组，并生成第一检索串；基于第一检索串，检索输出与所述第一检索串相关的第二文档组。解决现有技术需要用户提交关键词的繁琐问题，实现关键字自动提取，自动生成检索串，从而自动搜索得到相似文档的，达到以文搜文的效果。

图2是本发明实施例一提供的一种相似文档搜索方法中生成检索串的流程图。在上述技术方案的基础上，生成第一检索串优选可以采用以下步骤：

步骤S121、确定第一关键词组中各关键词为与关系；

步骤S122、获取第二预设数量的各关键词的同义词和反义词，作为第二关键词组，与各自对应的原关键词为或关系；

其中，同/反义词可以通过检索预设的数据库进行查询。

步骤S123、根据第一和第二关键词组中各关键词的与或关系，组合生成第一检索串。

采用同/反义词可以对关键词进行扩展，可以防止漏检的情况。

实施例二

图3是本发明实施例二提供的一种相似文档搜索方法中的流程图。本实施例在上述实施例一的基础上，优选是在获得第二文档组之后，进一步增加以下步骤：

步骤S140、确定第二文档组的数量，作为第一数量；

步骤S150、若第一数量超出预设的第一预设数量范围，确定生成第二检索串；

其中，根据第一预设数量范围来判断搜索结果过多或者过少的情况，符合情况的将进行第二词搜索，需要确定生成第二检索串。

步骤S160、基于第二检索串，检索输出与所述第二检索串相关的第三文档组。

本实施例的技术方案，通过判断第一数量是否超出预设的第一预设数量范围，确定生成第二检索串；基于第二检索串，检索输出与所述第二检索串相关的第三文档组，解决了搜索结果过多或过少的问题，达到了自动调整关键词数量，并自动生成对应检索串的效果。

在上述各个实施例的基础上，所述生成第二检索串可以采取包括以下步骤：

步骤S151、统计第二文档组中的关键词出现频率，其中关键词包含第一关键词组和第二关键词组；

其中关键词的出现频率可以采用关键词出现次数除以第二文档组中所有词语数量来计算。

步骤S152、根据关键词的出现频率，选取第三预设数量的高频率关键词，作为第三关键词组；

其中，关键词的出现频率越高，说明该关键词越重要。

步骤S153、根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系；

其中，第一关键词组中所有关键词之间为与关系，每个关键词对应的同/反义词为或关系。

步骤S154、根据第三关键词组的关键词与或关系生成第二检索串。

所述生成第二检索串也还可以采取包括以下步骤：

步骤S155、提取第二文档组中第四预设数量的关键词，作为第四关键词组；

步骤S156、获取第五预设数量的各关键词的同义词和反义词，作为第五关键词组，与各自对应的原关键词为或关系；

其中同义词和反义词都可以从预设的数据库查询得到。

步骤S157、去除第一、第二、第四和第五关键词组中相同的关键词，得到第六关键词组；

此步骤，用于去除重复的关键词。

步骤S158、根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系，组合生成第二检索串。

实施例三

图6是本发明实施例三提供的一种相似文档搜索装置的结构示意图。本实施例可适用于计算机搜索领域，该装置的具体结构包括：第一文档组获取模块S210、第一关键词组提取模块S220、第一检索串生成模块S230和第一检索模块S240。其中，

第一文档组获取模块S210，用于获取第一文档组；

第一关键词组提取模块S220，用于从第一文档组提取第一预设数量的关键词，组成第一关键词组；

第一检索串生成模块S230，用于将第一关键词组生成第一检索串；

第一检索模块S240，用于根据第一检索串，检索输出与所述第一检索串相关的第二文档组。

图7是本发明实施例三提供的一种相似文档搜索装置中第一检索串生成模块的结构示意图。本实施例在上述各实施例的基础上，优选的是，所述第一检索串生成模块S230，可以包括：第一关键词组提取单元S231、第一关键词关系确定单元S232和第一检索串生成单元S233。其中，

第一关键词组提取单元S231，获取第一关键词组中关键词的同义词和反义词，作为第二关键词组，组中关键词数量限定为第二预设数量；

第一关键词关系确定单元S232，用于确定第一关键词组中各关键词为与关系，并与各自对应的同/反义词为或关系；

第一检索串生成单元S233，根据第一和第二关键词组中各关键词的与或关系，组合生成第一检索串。

实施例四

图8是本发明实施例四提供的一种相似文档搜索装置中的结构示意图。本实施例在上述各实施例的基础上，优选是在第一检索模块S240之后，还可以包括：第二检索串生成模块S250和第二检索模块S260。其中，

第二检索串生成模块S250，用于判断第二文档组的数量是否超出预设的第一预设数量范围，如是，则生成第二检索串；

第二检索模块S260，用于检索输出与所述第二检索串相关的第三文档组。

图9是本发明实施例四提供的一种相似文档搜索装置中第二检索串生成模块的第一结构示意图。本实施例在上述各实施例的基础上，优选的，所述第二检索串生成模块S250，还可以包括：关键词频率统计单元S251、第二关键词组提取单元S252、第二关键词关系确定单元S253和第二检索串生成单元S254。其中，

关键词频率统计单元S251，统计第二文档组中的关键词出现频率，其中关键词包含第一关键词组和第二关键词组；

第二关键词组提取单元S252，根据关键词的出现频率，选取第三预设数量的高频率关键词，作为第三关键词组；

第二关键词关系确定单元S253，用于根据第一关键词组和第二关键词组中各关键词的关系确定第三关键词组的关键词与或关系；

第二检索串生成单元S254，用于根据第三关键词组的关键词与或关系生成第二检索串。

图10是本发明实施例四提供的一种相似文档搜索装置中第二检索串生成模块的第二结构示意图。本实施例在上述各实施例的基础上，优选的，所述第二检索串生成模块S250，还可以包括：第三关键词组提取单元S255、第四关键词组提取单元S256、第五关键词组提取单元S257、第三关键词关系确定单元S258和第三检索串生成单元S259。其中，

第三关键词组提取单元S255，用于提取第二文档组中第四预设数量的关键词，作为第四关键词组；

第四关键词组提取单元S256，用于获取第五预设数量的各关键词的同义词和反义词，作为第五关键词组，与各自对应的原关键词为或关系；

第五关键词组提取单元S257，用于去除第一、第二、第四和第五关键词组中相同的关键词，得到第六关键词组；

第三关键词关系确定单元S258，用于根据第一、第二、第四和第五关键词组中各关键词的与或关系获得第六关键词组的中各关键词的与或关系；

第三检索串生成单元S259，用于根据第六关键词组的中各关键词的与或关系，组合生成第二检索串。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种相似文档搜索方法，其特征在于，包括以下步骤：

获取第一文档组；

从第一文档组提取第一预设数量的关键词，组成第一关键词组，并生成第一检索串；

基于第一检索串，检索输出与所述第一检索串相关的第二文档组。

2.根据权利要求1所述的相似文档搜索方法，其特征在于，所述生成第一检索串，包括：

确定第一关键词组中各关键词为与关系；

3.根据权利要求1所述的相似文档搜索方法，其特征在于，在获得第二文档组之后，还包括：

确定第二文档组的数量，作为第一数量；

4.根据权利要求3所述的相似文档搜索方法，其特征在于，所述生成第二检索串包括：

根据第三关键词组的关键词与或关系生成第二检索串。

5.根据权利要求3所述的相似文档搜索方法，其特征在于，所述生成第二检索串包括：

6.一种相似文档搜索装置，其特征在于，包括：

第一文档组获取模块，用于获取第一文档组；

7.根据权利要求6所述的相似文档搜索装置，其特征在于，所述第一检索串生成模块，包括：

8.根据权利要求6所述的相似文档搜索装置，其特征在于，所述第一检索模块之后，还包括：

9.根据权利要求8所述的相似文档搜索装置，其特征在于，所述第二检索串生成模块，还包括：

10.根据权利要求8所述的相似文档搜索装置，其特征在于，所述第二检索串生成模块，还包括：