CN109815312B

CN109815312B - 一种文档查询的方法、装置、计算设备及计算机存储介质

Info

Publication number: CN109815312B
Application number: CN201811615100.XA
Authority: CN
Inventors: 付霞
Original assignee: Cloudminds Beijing Technologies Co Ltd
Current assignee: Cloudminds Beijing Technologies Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2021-11-19
Anticipated expiration: 2038-12-27
Also published as: CN109815312A

Abstract

本发明涉及自然语言处理技术领域，尤其公开了一种文档查询的方法、装置、计算设备及计算机存储介质，其中，方法包括：预先将文档库中的文档拆分成小文档；接收查询语句；计算所述查询语句与所述文档库中每一个小文档的相似度；输出所述相似度最高的前N个小文档，其中，N为大于0的自然数。由此可见，利用本发明方案，可以缩小文档查询的范围，将更加简洁的结果输出。

Description

一种文档查询的方法、装置、计算设备及计算机存储介质

技术领域

本发明实施例涉及自然语言处理领域，特别是涉及一种文档查询的方法、装置、计算设备及计算机存储介质。

背景技术

文档查询是指用户提供查找文件的主题字，在网络服务器存储的数据库中找到所需要的文件。文档查询在问答系统、闲聊等自然语言处理相关领域存在广泛的应用。

本发明的发明人在实现本发明的过程中，发现：现有的文档查询模型虽然能够给出答案所在的文档范围，但是文档范围内包含的文档很长，具体答案需要用户在长文档中自行搜索。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文档查询的方法方法、装置、计算设备及计算机存储介质。

为解决上述技术问题，本发明实施例采用的一个技术方案是：提供一种文档查询的方法，包括：预先将文档库中的文档拆分成小文档；接收查询语句；计算所述查询语句与所述文档库中每一个小文档的相似度；输出所述相似度最高的前N个小文档，其中，N为大于0的自然数。

可选的，所述预先将文档库中的文档拆分成小文档，包括：根据预设语句识别算法，识别所述文档库中每一文档所记载的内容所包含的句子；根据小文档生成算法，并且结合识别到的句子，生成小文档。

可选的，所述根据小文档生成算法，并且结合识别到的句子，生成小文档包括：将每一所述句子作为一小文档。

可选的，所述根据小文档生成算法，并且结合识别到的句子，生成小文档包括：将同一文档中的句子划分为句块，其中，所述句块为所述文档中顺序连接的M个句子，其中，所述M为大于一的自然数；将每一所述句块作为一小文档。

可选的，所述根据小文档生成算法，并且结合识别到的句子，生成小文档包括：将同一文档中的所述句子两两组合，组成句对；将每一所述句对作为一小文档。

可选的，所述计算所述查询语句与所述文档库中每一个小文档的相似度的计算公式如下：

其中，所述Score(Q,d)表示查询语句Q与所述文档库中的一个小文档d的相似度，n表示所述查询语句Q中的分词数，q_i表示所述查询语句Q中的第i个分词,f_i表示所述第i个分词在所述小文档d中出现的频率，dl表示所述小文档d的长度，avgdl表示所述检索库中所有小文档的平均长度，k₁和b是可调参数，IDF(q_i)表示第i个的逆文档频率，其计算公式如下：

其中，N表示所述检索库中小文档的数量，n(q_i)表示包含第i个词语的小文档数量。

本发明实施例采用的另一个技术方案是：提供一种文档查询装置，包括：

拆分模块：用于预先将文档库中的文档拆分成小文档；

接收模块：用于接收查询语句；

计算模块：用于计算所述查询语句与所述文档库中每一个小文档的相似度；

输出模块：用于输出所述相似度最高的前N个小文档，其中，N为大于0的自然数。

可选的，所述拆分模块包括：识别单元：用于根据预设语句识别算法，识别所述文档库中每一文档所记载的内容所包含的句子；生成单元：用于根据小文档生成算法，并且结合识别到的句子，生成小文档。

可选的，所述生成单元用于根据小文档生成算法，并且结合识别到的句子，生成小文档，包括：将每一所述句子作为一小文档。

可选的，所述生成单元用于根据小文档生成算法，并且结合识别到的句子，生成小文档，包括：将同一文档中的句子划分为句块，其中，所述句块为所述文档中顺序连接的M个句子，其中，所述M为大于一的自然数；将每一所述句块作为一小文档。

可选的，所述生成单元用于根据小文档生成算法，并且结合识别到的句子，生成小文档，包括：将同一文档中的所述句子两两组合，组成句对；将每一所述句对作为一小文档。

可选的，所述计算模块用于计算所述查询语句与所述文档库中每一个小文档的相似度的计算公式如下：

本发明实施例采用的再一个技术方案是：提供一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的一种文档查询的方法对应的操作。

本发明实施例采用的又一个技术方案是：提供一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的一种文档查询的方法对应的操作。

本发明实施例的有益效果是：区别于现有技术的情况，本发明实施例预先将文档库中的文档拆分成小文档，当接收到查询语句时，将所述查询语句与所述文档库中的小文档计算相似度，并且将所述相似度最高的前N个小文档输出，利用本发明实施例，可以返回给用户最准确的结果，从而避免了用户在大量检索文字中搜索答案。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施例。

附图说明

通过阅读下文优选实施例的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施例的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的一种文档查询的方法流程图；

图2是本发明实施例的一种文档查询的方法中文档拆分流程图；

图3是本发明实施例的一种文档查询装置的功能框图；

图4是本发明实施例的一种计算设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1为本发明一种文档查询的方法实施例的流程图。如图1所示，该方法包括以下步骤：

步骤S101：预先将文档库中的文档拆分成小文档。

在本步骤中，所述文档库中包含的文档很长，一个文档中可能包含了多个句子，预先将所述文档拆分成小文档，如图2所示，文档拆分包括以下步骤：

步骤S1011：根据预设语句识别算法，识别所述文档库中每一文档所记载的内容所包含的句子。

在本步骤中，所述预设语句识别算法用于将所述文档库中的文档拆分成句子，在进行拆分时，将待拆分的文档输入预设语句识别算法，所述预设语句识别算法识别所述待拆分文档中的句子与句子之间的标点符号，如，句号、问号、感叹号等，根据所述标点符号所在的位置，将两个标点符号之间的语句定义为一个分句，将所述待拆分文档拆分成若干个句子。将所述文档库中的每一个文档作为待拆分文档输入所述预设语句识别算法中进行拆分，直到将整个文档库中包含的所有文档拆分成句子。

步骤S1012：根据小文档生成算法，并且结合识别到的句子，生成小文档。

在本步骤中，生成小文档包括以下三种方式：

方式一：将每一个所述句子作为一小文档。

在该方式下，将步骤S1011中整个文档库中包含的所有文档拆分成句子，将每一个所述句子作为一个小文档，如，所述文档库中包含的所有文档共拆分成1万个句子，则将1万个句子中的每一个句子都作为一个小文档，共1万个小文档。

方式二：将同一文档中的句子划分为分句块，其中，所述句块为所述文档中顺序连接的M个句子，其中，所述M为大于一的自然数；将每一所述句块作为一小文档。

在方式一中，同一文档中的每一个句子都作为一个小文档，当检索小文档时，检索到的是一个句子，考虑到根据检索到的一个句子作为答案返回给用户时，可能造成用户无法理解其语义，因此，将同一文档中的句子划分为句块，在本发明实施例中，通过滑动窗口获取所述句块，具体的，预先设定滑动窗口中包含的句子个数及滑动窗口每次移动的步长，所述滑动窗口中包含的句子个数即为所述文档中顺序连接的句子个数M，所述预设滑动窗口中包含的句子形成一个句块，将所述句块作为一个小文档，如，设定滑动窗口中包含2个句子，即M＝2，滑动窗口每次移动的步长为1，当所述文档拆分成了n个句子时，使用所述滑动窗口得到的小文档个数为n-1个。

方式三：将同一文档中的所述句子两两组合，组成句对；将每一所述句对作为一小文档。

在方式二中，将相邻的M个句子划分成句块，并将所述句块作为小文档，考虑到同一文档中，相邻的句子可能不能够回答用户的检索信息，因此，将同一文档中的句子两两组合，为了避免组合重复，且在同一文档中，句子的逻辑是按照句子的排列顺序层层递进的，因此，在本发明实施例中，将每一个句子与其后面的句子进行组合，形成句对，将所述句对作为小文档。如一个文档拆分成了n个句子，将每个句子与其后面的每个句子进行组合，得到n*(n-1)/2个小文档。

可以理解的是，为了更清楚的返回与用户查询内容相关的小文档，将方式一、方式二及方式三中或得到小文档均作为用户检索时的小文档。

步骤S102：接收查询语句。

在本步骤中，所述查询语句是用户输入的一个查询语句或查询关键词。

步骤S103：计算所述查询语句与所述文档库中每一个小文档的相似度。

在本步骤中，计算所述相似度的公式如下：

在上面的公式中，所述小文档d的长度dl是指所述小文档d中包含的字数。

如，检索库中的小文档的数量N＝100个，查询语句Q按照通用的分词算法分成了三个词，即n＝3，其中，第一个词在所述检索库中对应的小文档数量为1个，第二个词对应的小文档数量为2个，第三个词对应的小文档数量为3个，则所述三个词的逆文档频率分别为：

若第一个词在当前检索的小文档d中出现了1次，第二个分词在当前检索的小文档d中出现了2次，第三个分词在当前检索的小文档d中出现了1次，当前检索的小文档d的长度为20，所述检索库中所有小文档的平均长度为10，k₁和b均设置为1，那么，f₁＝1，f₂＝2，f₃＝1，dl＝20，avgdl＝10，f₁·(k₁+1)＝2，f₂·(k₁+1)＝4，f₃·(k₁+1)＝2，k₁·(1-b+b·dl/avgdl)＝2，f₁₊k₁·(1-b+b·dl/avgdl)＝3，f₂₊k₁·(1-b+b·dl/avgdl)＝4，f₃₊k₁·(1-b+b·dl/avgdl)＝3，则Score(Q,d)＝1.8*2/3+1.6*4/4+1.4*2/3＝3.7，即当前查询语句与文档库中当前的小文档的相似度为3.7。

步骤S104：输出所述相似度最高的前N个小文档，其中，N为大于0的自然数。

在本步骤中，计算当前查询语句与文档库中每一个小文档的相似度，并将所述相似度按照由大到小的顺序排序，根据所需要的查询结果设置N的值，将排序前N个小文档输出，组成候选小文档库。

值得说明的是，所述小文档库可以应用于多个场景，如，问答系统、文档理解系统等，以问答系统为例，将用户的输入问题语句与所述候选小文档库一起输入阅读理解模型，所述阅读理解模型可以针对所述用户的输入问题语句在所述候选小文档库中搜索答案，并将最符合用户输入问题的答案返回给用户。

本实施方式相对于现有技术而言，主要区别及其效果在于：当接收到查询语句时，将所述查询语句与所述文档库中的小文档计算相似度，并且将所述相似度最高的前N个小文档作为候选小文档库输出，当用户需要检索时，在所述候选小文档库中检索，由此可见，利用本发明实施例，可以返回给用户最精简的答案，避免用户在大量检索文字中搜索答案。

图3是本发明实施例的一种文档查询装置的功能框图，如图3所示，所述装置包括：拆分模块301、接收模块302、计算模块303及输出模块304。其中，拆分模块301，用于预先将文档库中的文档拆分成小文档；接收模块302，用于接收查询语句；计算模块303，用于计算所述查询语句与所述文档库中每一个小文档的相似度；输出模块304，用于输出所述相似度最高的前N个小文档，其中，N为大于0的自然数。

其中，拆分模块301包括识别单元3011及生成单元3012，其中，识别单元3011，用于根据预设语句识别算法，识别所述文档库中每一文档所记载的内容所包含的句子；生成单元3012，用于根据小文档生成算法，并且结合识别到的句子，生成小文档。

其中，所述生成单元3012用于根据小文档生成算法，并且结合识别到的句子，生成小文档，包括：将每一所述句子作为一小文档。

其中，所述生成单元3012用于根据小文档生成算法，并且结合识别到的句子，生成小文档，包括：将同一文档中的句子划分为句块，其中，所述句块为所述文档中顺序连接的M个句子，其中，所述M为大于一的自然数；将每一所述句块作为一小文档。。

其中，所述生成单元3012用于根据小文档生成算法，并且结合识别到的句子，生成小文档，包括：将同一文档中的所述句子两两组合，组成句对；将每一所述句对作为一小文档。

其中，所述计算模块303用于计算所述查询语句与所述文档库中每一个小文档的相似度的计算公式如下：

本实施方式相对于现有技术而言，主要区别及其效果在于：当接收模块接收到查询语句时，通过计算模块将所述查询语句与所述文档库中的小文档计算相似度，并且通过输出模块将所述相似度最高的前N个小文档作为候选小文档库输出，当用户需要检索时，在所述候选小文档库中检索，由此可见，利用本发明实施例，可以返回给用户最精简的答案，避免用户在大量检索文字中搜索答案。

不难发现，本实施方式为与上一实施方式相对应的系统实施方式，本实施方式可与上一实施方式互相配合实施。上一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上一实施方式中。

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的一种文档查询的方法。

图4为本发明计算设备实施例的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图4所示，该计算设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述一种文档查询的方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

预先将文档库中的文档拆分成小文档；

接收查询语句；

计算所述查询语句与所述文档库中每一个小文档的相似度；

输出所述相似度最高的前N个小文档，其中，N为大于0的自然数。

在一种可选的方式中，程序410具体可以进一步用于使得处理器402执行以下操作：

根据预设语句识别算法，识别所述文档库中每一文档所记载的内容所包含的句子；

根据小文档生成算法，并且结合识别到的句子，生成小文档。

在一种可选的方式中，程序410具体可以进一步用于使得处理器402执行以下操作：所述根据小文档生成算法，并且结合识别到的句子，生成小文档包括：将每一所述句子作为一小文档。

将同一文档中的句子划分为句块，其中，所述句块为所述文档中顺序连接的M个句子，其中，所述M为大于一的自然数；将每一所述句块作为一小文档。

在一种可选的方式中，程序410具体可以进一步用于使得处理器402执行以下操作：将同一文档中的所述句子两两组合，组成句对；将每一所述句对作为一小文档。

在一种可选的方式中，程序410具体用于使得处理器402计算所述查询语句与所述文档库中每一个小文档的相似度的计算公式如下：

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施例的权利要求书由此明确地并入该具体实施例，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种文档查询装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文档查询的方法，其特征在于，包括：

根据预设语句识别算法，识别文档库中每一文档所记载的内容所包含的句子；

根据小文档生成算法结合识别到的句子确定多个句子、句块、句对，分别将同一文档中的所述句子、句块、句对作为对应的一个小文档；所述句对为将同一文档中的所述句子两两组合形成的；预先设定滑动窗口中包含的句子个数及滑动窗口每次移动的步长，所述滑动窗口中包含的句子个数即为所述文档中顺序连接的句子个数M，所述滑动窗口中包含的句子形成一个句块，其中，所述M为大于一的自然数；

接收查询语句；

计算所述查询语句与所述文档库中每一个小文档的相似度；

2.根据权利要求1所述的方法，其特征在于，所述计算所述查询语句与所述文档库中每一个小文档的相似度的计算公式如下：

其中，所述Score(Q,d)表示查询语句Q与所述文档库中的一个小文档d的相似度，n表示所述查询语句Q中的分词数，q_i表示所述查询语句Q中的第i个分词,f_i表示所述第i个分词在所述小文档d中出现的频率，dl表示所述小文档d的长度，avgdl表示所述文档库中所有小文档的平均长度，k₁和b是可调参数，IDF(q_i)表示第i个的逆文档频率，其计算公式如下：

其中，N表示所述文档库中小文档的数量，n(q_i)表示包含第i个词语的小文档数量。

3.一种文档查询装置，其特征在于，包括：

识别单元：用于根据预设语句识别算法，识别所述文档库中每一文档所记载的内容所包含的句子；

生成单元：用于分别将同一文档中的所述句子、句块、句对作为对应的一个小文档；所述句对为将同一文档中的所述句子两两组合形成的；预先设定滑动窗口中包含的句子个数及滑动窗口每次移动的步长，所述滑动窗口中包含的句子个数即为所述文档中顺序连接的句子个数M，所述滑动窗口中包含的句子形成一个句块，其中，所述M为大于一的自然数；

接收模块：用于接收查询语句；

4.根据权利要求3所述的装置，其特征在于，所述计算模块用于计算所述查询语句与所述文档库中每一个小文档的相似度的计算公式如下：

5.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-2中任一项所述的一种文档查询的方法对应的操作。

6.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-2中任一项所述的一种文档查询的方法对应的操作。