CN113094519A

CN113094519A - 一种基于文档进行检索的方法及装置

Info

Publication number: CN113094519A
Application number: CN202110494158.9A
Authority: CN
Inventors: 武彬峰
Original assignee: Supernatural Intellectual Property Service Ltd By Share Ltd
Current assignee: Supernatural Intellectual Property Service Ltd By Share Ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-07-09
Anticipated expiration: 2041-05-07
Also published as: CN113094519B

Abstract

本发明提供了一种基于文档进行检索的方法及装置，方法包括：依据输入的待检索文档进行检索，获取候选检索文档；针对每一候选检索文档，合并该候选检索文档与待检索文档，得到合并文档，构建包含待检索文档、候选检索文档以及合并文档的相似度文档集；以合并文档为匹配对象，在相似度文档集中进行相似度匹配，分别得到合并文档的第一相似分数、待检索文档与合并文档的第二相似分数、候选检索文档与合并文档的第三相似分数；将第一相似分数、第二相似分数以及第三相似分数应用于相似度值计算公式，得到候选检索文档与待检索文档的相似度值；基于相似度值，对所述多个候选检索文档进行排序，依据排序结果返回检索结果。可以提高检索效率。

Description

一种基于文档进行检索的方法及装置

技术领域

本发明涉及检索技术领域，具体而言，涉及一种基于文档进行检索的方法及装置。

背景技术

现有技术中，在进行文档检索时，一般依据输入的待检索文档，在检索数据库中进行检索，获取与待检索文档相关联的多个候选检索文档，并依据相似分数对各候选检索文档进行排序后，可以作为检索结果输出。但实际应用中，为了提升输出的检索结果的准确性，还通过提取待检索文档包含的待检索词向量以及候选检索文档的候选词向量，利用编辑距离方式计算待检索词向量与候选词向量的相似度，并基于各词向量的相似度，获取候选检索文档与待检索文档的相似度，基于相似度排序向用户返回检索结果，可以提升检索结果输出的准确性。

但该基于文档进行检索的方法，在候选检索文档的内容较长时，由于提取的候选词向量数量较多，因而，编辑距离方式需要对词向量进行海量的变换，使得采用编辑距离方式计算相似度所需的时间较长，检索效率较低。

发明内容

有鉴于此，本发明的目的在于提供基于文档进行检索的方法及装置，以提高检索效率。

第一方面，本发明实施例提供了基于文档进行检索的方法，包括：

依据输入的待检索文档进行检索，获取与待检索文档相关联的多个候选检索文档；

针对每一候选检索文档，合并所述候选检索文档与待检索文档，得到合并文档，构建包含所述待检索文档、候选检索文档以及合并文档的相似度文档集；

针对每一相似度文档集，以其中的合并文档为匹配对象，在所述相似度文档集中进行相似度匹配，分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数；

将所述第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式，得到所述候选检索文档与待检索文档的相似度值；

基于所述候选检索文档与待检索文档的相似度值，对所述多个候选检索文档进行排序，依据排序结果返回检索结果。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述将第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式，得到候选检索文档与待检索文档的相似度值，包括：

计算所述第二相似分数与第三相似分数的和值；

计算所述和值与所述第一相似分数的差值；

计算2倍的所述差值与所述第一相似分数的商值，得到所述候选检索文档与待检索文档的相似度值。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述依据输入的待检索文档进行检索，获取与待检索文档相关联的多个候选检索文档，包括：

对输入的待检索文档进行分词，得到分词词语；

对分词词语进行无意义词语去除，得到分词有效词语；

若分词有效词语的数量超过预先设置的数量阈值，进行分词有效词语的词频-逆文档频率的计算，依据计算结果选取排序在前数量阈值的分词有效词语，得到待检索文档的分词关键词；

基于所述分词关键词进行检索，获取与所述待检索文档相关联的多个候选检索文档。

结合第一方面、第一方面的第一种可能的实施方式或第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述以其中的合并文档为匹配对象，在相似度文档集中进行相似度匹配，包括：

对包含待检索文档、候选检索文档以及合并文档的相似度文档集进行二次索引，构建倒排索引特征库。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述以其中的合并文档为匹配对象，在所述相似度文档集中进行相似度匹配，分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数，包括：

对所述合并文档进行分词，得到合并文档分词词语；

对合并文档分词词语进行无意义词语去除，得到合并文档分词有效词语；

依据统计的合并文档分词有效词语的词频-逆文档频率，选取排序在前数量阈值的合并文档分词有效词语，得到合并文档分词关键词；

基于所述合并文档分词关键词对所述倒排索引特征库进行二次检索，分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数。

第二方面，本发明实施例还提供了一种基于文档进行检索的装置，包括：

初检索模块，用于依据输入的待检索文档进行检索，获取与待检索文档相关联的多个候选检索文档；

相似度文档集构建模块，用于针对每一候选检索文档，合并所述候选检索文档与待检索文档，得到合并文档，构建包含所述待检索文档、候选检索文档以及合并文档的相似度文档集；

再次检索模块，用于针对每一相似度文档集，以其中的合并文档为匹配对象，在所述相似度文档集中进行相似度匹配，分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及，所述候选检索文档与合并文档的第三相似分数；

相似度值计算模块，用于将所述第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式，得到所述候选检索文档与待检索文档的相似度值；

输出模块，用于基于所述候选检索文档与待检索文档的相似度值，对所述多个候选检索文档进行排序，依据排序结果返回检索结果。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述相似度值计算模块包括：

和值计算单元，用于计算所述第二相似分数与第三相似分数的和值；

差值计算单元，用于计算所述和值与所述第一相似分数的差值；

相似度值计算单元，用于计算2倍的所述差值与所述第一相似分数的商值，得到所述候选检索文档与待检索文档的相似度值。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述初检索模块包括：

第一分词单元，用于对输入的待检索文档进行分词，得到分词词语；

第一过滤单元，用于对分词词语进行无意义词语去除，得到分词有效词语；

第一关键词获取单元，若分词有效词语的数量超过预先设置的数量阈值，进行分词有效词语的词频-逆文档频率的计算，依据计算结果选取排序在前数量阈值的分词有效词语，得到待检索文档的分词关键词；

初检索单元，用于基于所述待检索文档的分词关键词进行检索，获取与待检索文档相关联的多个候选检索文档。

结合第二方面、第二方面的第一种可能的实施方式或第二方面的第二种可能的实施方式，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述再次检索模块包括：

索引构建单元，用于对包含待检索文档、候选检索文档以及合并文档的相似度文档集进行二次索引，构建倒排索引特征库。

结合第二方面的第三种可能的实施方式，本发明实施例提供了第二方面的第四种可能的实施方式，其中，所述再次检索模块还包括：

第二分词单元，用于对所述合并文档进行分词，得到合并文档分词词语；

第二过滤单元，用于对合并文档分词词语进行无意义词语去除，得到合并文档分词有效词语；

第二关键词获取单元，用于依据统计的合并文档分词有效词语的词频-逆文档频率，选取排序在前数量阈值的合并文档分词有效词语，得到合并文档分词关键词；

再次检索单元，用于基于所述合并文档分词关键词对所述倒排索引特征库进行二次检索，分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的方法的步骤。

本发明实施例提供的基于文档进行检索的方法及装置，通过依据输入的待检索文档进行检索，获取与待检索文档相关联的多个候选检索文档；针对每一候选检索文档，合并该候选检索文档与待检索文档，得到合并文档，构建包含待检索文档、候选检索文档以及合并文档的相似度文档集；针对每一相似度文档集，以其中的合并文档为匹配对象，在相似度文档集中进行相似度匹配，分别得到合并文档的第一相似分数、待检索文档与合并文档的第二相似分数、以及，候选检索文档与合并文档的第三相似分数；将第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式，得到候选检索文档与待检索文档的相似度值；基于所述候选检索文档与待检索文档的相似度值，对所述多个候选检索文档进行排序，依据排序结果返回检索结果。这样，通过将候选检索文档与待检索文档进行组合，采用文本重合度作为相似度值算法的核心逻辑进行相似度值计算，可以使得检索结果与待检索文档更为相似，能够有效提升输出的检索结果的准确性。

进一步地，本发明实施例提出的相似对比模型，对于用待检索文档作为待查文档获得的相似度与用候选检索文档作为待查文档的相似度值不会产生相似度值的偏差，可以有效解决相似度值较大波动的问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的基于文档进行检索的方法流程示意图；

图2示出了本发明实施例所提供的基于文档进行检索的装置结构示意图；

图3为本申请实施例提供的一种计算机设备300的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有基于文档进行检索的方法，在获取候选检索文档后，利用编辑距离方式，计算待检索文档包含的待检索词向量与候选检索文档包含的候选词向量的相似度，并基于相似度向用户返回检索结果。在候选检索文档的内容较长、候选词向量数量较多时，需要对词向量进行海量的变换，使得检索效率较低。本发明实施例中，在获取候选检索文档后，通过将候选检索文档与待检索文档进行组合，基于文本重合度进行相似度值计算，从而提供一种新的相似度计算方法，能够有效降低计算相似度所需的时间，提升检索效率。

本发明实施例提供了一种基于文档进行检索的方法及装置，下面通过实施例进行描述。

图1示出了本发明实施例所提供的基于文档进行检索的方法流程示意图。如图1所示，该方法包括：

步骤101，依据输入的待检索文档进行检索，获取与待检索文档相关联的多个候选检索文档；

本发明实施例中，用户可以在检索界面中，输入待检索文档，也可以是从检索界面中，导入待检索文档。其中，导入的待检索文档包括但不限于：word文档、记事本文档、pdf文档、网页文档。

本发明实施例中，可以是依据输入的待检索文档进行全文检索。若输入的待检索文档较长时，作为一可选实施例，依据输入的待检索文档进行检索，获取与待检索文档相关联的多个候选检索文档，包括：

对输入的待检索文档进行分词，得到分词词语；

对分词词语进行无意义词语去除，得到分词有效词语；

若分词有效词语的数量超过预先设置的数量阈值，进行分词有效词语的词频-逆文档频率(TF-IDF，Term Frequency-Inverse Document Frequency)的计算，依据计算结果选取排序在前数量阈值的分词有效词语，得到待检索文档的分词关键词；

本发明实施例中，通过对待检索文档进行分词处理，去除分词中的无意义词，并选取排序靠前的分词(提取关键词)作为检索条件，能够快速召回相似的候选检索文档，有效减少检索所需的时间，提升检索性能以及检索效率。

步骤102，针对每一候选检索文档，合并所述候选检索文档与待检索文档，得到合并文档，构建包含所述待检索文档、候选检索文档以及合并文档的相似度文档集；

本发明实施例中，每一候选检索文档对应一相似度文档集。记待检索文档为S、候选检索文档为R1、待检索文档为S与候选检索文档为R1的合并文档为S+R1，则该相似度文档集为{S,R1,S+R1}。作为一可选实施例，若候选检索文档组成的候选检索文档集为：{R1,R2,R3}，则各候选检索文档对应的相似度文档集组成的相似度文档集合为：[{S,R1,S+R1},{S,R2,S+R2},{S,R3,S+R3}]。需要注意的是，该相似度文档集的数量取决于步骤101中获取的候选检索文档的数量。

步骤103，针对每一相似度文档集，以其中的合并文档为匹配对象，在所述相似度文档集中进行相似度匹配，分别得到所述合并文档的第一相似分数、所述待检索文档与该合并文档的第二相似分数、以及所述候选检索文档与该合并文档的第三相似分数。

本发明实施例中，作为一可选实施例，步骤103可以包括：

对包含待检索文档、候选检索文档以及合并文档的相似度文档集进行二次索引，构建倒排索引特征库。本实施例中，二次索引的含义是提取上述相似度文档集中待检索文档、候选检索文档以及合并文档的全部关键词特征，构建倒排索引特征库。

本发明实施例中，作为一可选实施例，步骤103中以其中的合并文档为匹配对象，在相似度文档集中进行相似度匹配，分别得到该合并文档的第一相似分数、待检索文档与该合并文档的第二相似分数、以及候选检索文档与该合并文档的第三相似分数，可以包括：

对所述合并文档进行分词，得到合并文档分词词语；

本发明实施例中，作为另一可选实施例，也可基于合并文档的全文特征关键词在倒排索引特征库中进行二次检索，分别得到合并文档的第一相似分数、待检索文档与合并文档的第二相似分数、以及候选检索文档与合并文档的第三相似分。

作为一可选实施例，该合并文档的第一相似分数、待检索文档与该合并文档的第二相似分数、以及候选检索文档与该合并文档的第三相似分数可以为检索库中预设相似度算法计算出的相似分数。作为一可选实施例，该预设相似度算法计算出的相似分数可以是合并文档的检索特征关键词与检索库对应的索引库中的特征关键词之间，通过检索引擎内置的相似度算法，例如，BM25算法所计算得出的分数。

本发明实施例中，相似分数(SCORE)用于评价文档之间的关联程度，候选检索文档与待检索文档的关联程度越高，相似分数越高。

步骤104，将所述第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式，得到所述候选检索文档与待检索文档的相似度值；

本发明实施例中，作为一可选实施例，将所述第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式，得到所述候选检索文档与待检索文档的相似度值，包括：

计算第二相似分数与第三相似分数的和值；

计算该和值与第一相似分数的差值；

计算2倍的所述差值与所述第一相似分数的商值，从而得到所述候选检索文档与待检索文档的相似度值。

具体而言，本发明实施例中，可以利用下式计算相似度值：

Y＝2(A+B-C)/(A+B)

式中，

Y为候选检索文档与待检索文档的相似度值；

A为待检索文档与合并文档的第二相似分数；

B为候选检索文档与合并文档的第三相似分数；

C为合并文档的第一相似分数。

步骤105，基于所述候选检索文档与待检索文档的相似度值，对所述多个候选检索文档进行排序，依据排序结果返回检索结果。

本发明实施例中，每一候选检索文档对应一相似度值，按照相似度值从大至小的顺序进行排序，选取排序前N(N为自然数)个检索结果(候选检索文档)向用户展示。

本发明实施例中，通过将候选检索文档与待检索文档进行组合，构建包含候选检索文档、待检索文档与合并文档的相似比对模型，采用文本重合度作为相似度值算法的核心逻辑进行相似度值计算，解决了大文本比对的相似度值计算问题，使得检索结果与待检索文档更为相似，可以提升输出的检索结果的准确性。进一步地，基于距离编辑的相似度值计算，会有相似度值波动问题，使用待检索文档A作为待查文档获得的相似度与用候选检索文档B作为待查文档的相似度可能会出现明显的差异性，而本发明实施例的相似比对模型中，用待检索文档A作为待查文档获得的相似度与用候选检索文档B作为待查文档的相似度值不会产生相似度值的偏差，可以有效解决相似度值较大波动的问题。

下面举一具体实施例，对本发明实施例的方法进行说明。

待检索文档为：

本发明公开了移动终端中的信息录制方法及装置,其中,所述方法可以包括:检测移动终端的加速度；判断所述加速度是否达到预置的阈值；如果所述加速度达到预置的加速度阈值,则启动移动终端的录制功能进行信息的录制。通过本发明,不需要在移动终端有限的外壳面积上增设专门的按键即可实现快速启动录制功能,便于在触摸屏移动终端中应用。从用户角度而言,如果想要启动录制功能,则可以用力摇晃移动终端,然后便可以自动启动录制功能,不需要用户到用户界面中查找相关的软件进行启动等操作,保证操作的快捷性。

构建的一包含待检索文档、候选检索文档以及合并文档的相似度文档集为：

{

“S”:”本发明公开了移动终端中的信息录制方法及装置,其中,所述方法可以包括:检测移动终端的加速度；判断所述加速度是否达到预置的阈值；如果所述加速度达到预置的加速度阈值,则启动移动终端的录制功能进行信息的录制。通过本发明,不需要在移动终端有限的外壳面积上增设专门的按键即可实现快速启动录制功能,便于在触摸屏移动终端中应用。从用户角度而言,如果想要启动录制功能,则可以用力摇晃移动终端,然后便可以自动启动录制功能,不需要用户到用户界面中查找相关的软件进行启动等操作,保证操作的快捷性。

“R”:”本发明实施例公开了一种调整移动终端菜单位置的方法，包括：获取移动终端的运动加速度数据，所述移动终端的运动加速度数据包括加速度大小、加速度方向中至少一种；判断预设加速度方向上的加速度大小是否达到预设的加速度阈值；若判断结果为是，则将所述移动终端的第一菜单往所述预设加速度方向调整，并将所述第一菜单调整至所述预设加速度方向上的指定位置。本发明实施例还公开了一种移动终端。采用本发明，具有可提高移动终端的应用程序菜单的摆放位置的灵活性，提高移动终端的用户体验效果的优点。

“S+R”:”本发明公开了移动终端中的信息录制方法及装置,其中,所述方法可以包括:检测移动终端的加速度；判断所述加速度是否达到预置的阈值；如果所述加速度达到预置的加速度阈值,则启动移动终端的录制功能进行信息的录制。通过本发明,不需要在移动终端有限的外壳面积上增设专门的按键即可实现快速启动录制功能,便于在触摸屏移动终端中应用。从用户角度而言,如果想要启动录制功能,则可以用力摇晃移动终端,然后便可以自动启动录制功能,不需要用户到用户界面中查找相关的软件进行启动等操作,保证操作的快捷性。本发明实施例公开了一种调整移动终端菜单位置的方法，包括：获取移动终端的运动加速度数据，所述移动终端的运动加速度数据包括加速度大小、加速度方向中至少一种；判断预设加速度方向上的加速度大小是否达到预设的加速度阈值；若判断结果为是，则将所述移动终端的第一菜单往所述预设加速度方向调整，并将所述第一菜单调整至所述预设加速度方向上的指定位置。本发明实施例还公开了一种移动终端。采用本发明，具有可提高移动终端的应用程序菜单的摆放位置的灵活性，提高移动终端的用户体验效果的优点。

}

以(S+R)为检索条件，得到的相似分数分别为：

合并文档的第一相似分数：C＝159.3059；

待检索文档与合并文档的第二相似分数：A＝121.672714；

候选检索文档与合并文档的第三相似分数：B＝109.75454。

相似度值计算：

2(109+121-159)/(109+121)＝0.61。

候选检索文档与待检索文档的相似度为百分之61。

再例如，设待检索文档S为:i love china,通过检索，得到的相似的候选检索文档R为:i love us；

对待检索文档和候选检索文档进行组合，得到如下文档集：

S:i love china；

R:i love us；

S+R:i love china us。

使用S+R作为检索条件，在文档集中进行检索，得到各文档的相似分数(SCORE)，假设得到的相似分数简单示例如下：

A:3

B:3

C:4

利用相似度值计算公式得到：2(3+3-4)/(3+3)＝0.66,即相似度66％，将所有相似度值结果汇总，进行排序，最终返回相似度值结果集以及对应的候选检索文档。

本发明实施例中，利用构建的中国发明和新型专利文本数据集：数据量2500万条专利全文数据，使用5台Elasticsearch服务器索引数据，一次相似度值比对耗时大约2s，而采用传统的相似度算法比对时间大约1min。此外，将待查文本(待检索文档)和目标文本(候选检索文档)的次序交换，不会影响相似度值的稳定性，相似度值更为精确，不易产生波动。

图2示出了本发明实施例所提供的基于文档进行检索的装置结构示意图。如图2所示，该装置包括：

初检索模块201，用于依据输入的待检索文档进行检索，获取与待检索文档相关联的多个候选检索文档。

本发明实施例中，待检索文档包括但不限于：word文档、记事本文档、pdf文档、网页文档。

本发明实施例中，作为一可选实施例，初检索模块201包括：

第一分词单元(图中未示出)，用于对输入的待检索文档进行分词，得到分词词语；

初检索单元，用于基于所述分词关键词进行检索，获取与所述待检索文档相关联的多个候选检索文档。

相似度文档集构建模块202，用于针对每一候选检索文档，合并所述候选检索文档与待检索文档，得到合并文档，构建包含所述待检索文档、候选检索文档以及合并文档的相似度文档集；

本发明实施例中，每一候选检索文档对应一相似度文档集。

再次检索模块203，用于针对每一相似度文档集，以其中的合并文档为匹配对象，在所述相似度文档集中进行相似度匹配，分别得到所述合并文档的第一相似分数、待检索文档与该合并文档的第二相似分数、以及所述候选检索文档与该合并文档的第三相似分数。

本发明实施例中，作为一可选实施例，再次检索模块203可以包括：

索引构建单元，用于对包含待检索文档、候选检索文档以及合并文档的相似度文档集进行二次索引，构建倒排索引特征库。本实施例中，二次索引的含义是提取上述相似度文档集中待检索文档、候选检索文档以及合并文档的全部关键词特征，构建倒排索引特征库。

第二分词单元(图中未示出)，用于对合并文档进行分词，得到合并文档分词词语；

再次检索单元，用于基于合并文档分词关键词对上述倒排索引特征库进行二次检索，分别得到合并文档的第一相似分数、待检索文档与合并文档的第二相似分数、以及候选检索文档与合并文档的第三相似分数。

本发明实施例中，作为另一可选实施例，再次检索单元也可用于基于合并文档的全文特征关键词在倒排索引特征库中进行二次检索，分别得到合并文档的第一相似分数、待检索文档与合并文档的第二相似分数、以及候选检索文档与合并文档的第三相似分。

相似度值计算模块204，用于将所述第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式，得到所述候选检索文档与待检索文档的相似度值。

本发明实施例中，作为一可选实施例，相似度值计算模块204包括：

和值计算单元(图中未示出)，用于计算第二相似分数与第三相似分数的和值；

差值计算单元，用于计算和值与第一相似分数的差值；

相似度值计算单元，用于计算2倍的所述差值与第一相似分数的商值，得到候选检索文档与待检索文档的相似度值。

本发明实施例中，利用下式计算相似度值：

Y＝2(A+B-C)/(A+B)

输出模块205，用于基于所述候选检索文档与待检索文档的相似度值，对所述多个候选检索文档进行排序，依据排序结果返回检索结果。

本发明实施例中，每一候选检索文档对应一相似度值，按照相似度值从大至小的顺序进行排序，选取排序前N个候选检索文档作为检索结果向用户展示。

如图3所示，本申请一实施例提供了一种计算机设备300，用于执行图1中的基于文档进行检索的方法，该设备包括存储器301、处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序，其中，上述处理器302执行上述计算机程序时实现上述基于文档进行检索的方法的步骤。

具体地，上述存储器301和处理器302能够为通用的存储器和处理器，这里不做具体限定，当处理器302运行存储器301存储的计算机程序时，能够执行上述基于文档进行检索的方法。

对应于图1中的基于文档进行检索的方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述基于文档进行检索的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述基于文档进行检索的方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于文档进行检索的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式，得到所述候选检索文档与待检索文档的相似度值，包括：

计算所述第二相似分数与第三相似分数的和值；

计算所述和值与所述第一相似分数的差值；

3.根据权利要求1所述的方法，其特征在于，所述依据输入的待检索文档进行检索，获取与待检索文档相关联的多个候选检索文档，包括：

对输入的待检索文档进行分词，得到分词词语；

对分词词语进行无意义词语去除，得到分词有效词语；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述以其中的合并文档为匹配对象，在所述相似度文档集中进行相似度匹配包括：

5.根据权利要求4所述的方法，其特征在于，所述以其中的合并文档为匹配对象，在所述相似度文档集中进行相似度匹配，分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数，包括：

对所述合并文档进行分词，得到合并文档分词词语；

6.一种基于文档进行检索的装置，其特征在于，包括：

再次检索模块，用于针对每一相似度文档集，以其中的合并文档为匹配对象，在所述相似度文档集中进行相似度匹配，分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数；

7.根据权利要求6所述的装置，其特征在于，所述相似度值计算模块包括：

8.根据权利要求6所述的装置，其特征在于，所述初检索模块包括：

初检索单元，用于基于所述待检索文档的分词关键词进行检索，获取与所述待检索文档相关联的多个候选检索文档。

9.根据权利要求6至8任一项所述的装置，其特征在于，所述再次检索模块包括：

10.根据权利要求9所述的装置，其特征在于，所述再次检索模块还包括：

11.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的基于文档进行检索的方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的基于文档进行检索的方法的步骤。