CN113641782A

CN113641782A - 基于检索语句的信息检索方法、装置、设备和介质

Info

Publication number: CN113641782A
Application number: CN202010345052.8A
Authority: CN
Inventors: 林得苗
Original assignee: Pai Tech Co ltd
Current assignee: Pai Tech Co ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2021-11-12

Abstract

本发明公开了基于检索语句的信息检索方法、装置、设备和介质。该方法包括：获取待检索语句；从目标文档的内容块中确定与待检索语句相关的目标内容块，内容块包括文本内容段落、标题、表格、图表、图片中的至少一个；将具备逻辑层级关系的目标内容块聚合为片段，其中，具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题；将片段作为待检索语句在目标文档中的信息检索结果。根据本发明实施例提供的基于检索语句的信息检索方法、装置、设备和介质，可以提高信息检索结果的质量。

Description

基于检索语句的信息检索方法、装置、设备和介质

技术领域

本发明涉及数据处理领域，尤其涉及基于检索语句的信息检索方法、装置、设备和介质。

背景技术

为了能够在目标文档中获取用户需要的内容，可以在文档工具中输入关键词，从而在目标文档中查找到关键词相关的位置。以WORD文档为例，可以利用WORD文档自带的“查找”功能，在文档中确定关键词的查找结果。例如关键词所在语句等。

然而，WORD文档只会逐个罗列出关键词的查找结果。例如，若关键词在WORD文档中出现11次，则会罗列出11个查找结果。

发明内容

本发明实施例提供基于检索语句的信息检索方法、装置、设备和介质，可以提高信息检索结果的质量。

第一方面，提供一种基于检索语句的信息检索方法，包括：获取待检索语句；从目标文档的内容块中确定与待检索语句相关的目标内容块，内容块包括文本内容段落、标题、表格、图表、图片中的至少一个；将具备逻辑层级关系的目标内容块聚合为片段，其中，具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题；将片段作为待检索语句在目标文档中的信息检索结果。

根据本发明实施例中的基于检索语句的信息检索方法，在获取待检索语句之后，可以确定与待检索语句相关的目标内容块。并按照目标内容块之间的逻辑层级关系，将其聚合成片段，并将聚合后的片段作为目标文档的信息检索结果。相较于现有的、罗列出所有信息检索结果的方法，能够将具有逻辑层级关系的目标内容块聚合成一个片段，使不具有逻辑层级关系的目标内容块尽量分离，提高了信息检索结果的质量。

在一种可选的实施方式中，目标内容块的逻辑层级关系是基于内容块逻辑树确定的，其中，内容块逻辑树是基于目标文档的内容块确定的，每一标题的下一级标题和每一标题对应的除标题外的其他目标内容块为每一标题的子节点。

在本发明实施例中，通过构建内容块逻辑树，能够准确的确定目标文档中各内容块之间的逻辑层级关系，从而能够提高信息检索结果的准确性。

在一种可选的实施方式中，将具备逻辑层级关系的目标内容块聚合为片段，包括：将内容块逻辑树中每一子树中的所有目标内容块聚合为一个片段。

在本发明实施例中，在不考虑子树与根节点的连接关系的前提下，由于不同子树之间没有连接关系，不同子树间不具有逻辑层级关系。而每一子树的节点之间直接连接或间接连接，所以子树内部的节点间具备逻辑层级关系。因此，通过本实施例对目标内容块聚类，能够准确地使不具有逻辑层级关系的目标内容块尽量分离，具备逻辑层级关系的目标内容块进行聚合，提高了聚合的准确度。

在一种可选的实施方式中，将具备逻辑层级关系的目标内容块聚合为片段，包括：获取第一集合、第二集合和第三集合，第二集合的初始值包括全体目标内容块；若在内容块逻辑树中，第二集合中至少两个元素的父节点相同，且父节点不属于第二集合，则将父节点作为元素加入第三集合；若第一集合中至少一个元素的父节点与第二集合中至少一个元素的父节点相同，且父节点不属于第一集合和第二集合，则将父节点作为元素加入第三集合；将第一集合的全体元素加入第二集合，并将第三集合作为新的第一集合，直到第三集合为空集，将第二集合中的元素作为新的目标内容块，并将新的目标内容块聚合为片段。

在实施例中，由于文档中各段落之间具有一定的上下文连接，若某一段落与待检索语句相关，则其对应的标题也与待检索语句相关。通过构建三个集合的方式，能够将全面的将与待检索语句相关的内容块划分为目标内容块，从而保证了检索的准确度。

在一种可选的实施方式中，将第二集合中的元素作为新的目标内容块，并将新的目标内容块聚合为片段，包括：将第二集合中的新的目标内容块依次作为第一目标内容块；针对每一第一目标内容块，执行以下操作：若内容块逻辑树中，第一目标内容块为第二集合中的第二目标内容块的父节点或者子节点，则将第一目标内容块和第二目标内容块进行聚合；若第一目标内容块的父节点与第二集合中的第三目标内容块的父节点相同，则将第一目标内容块、第三目标内容块、第一目标内容块的父节点进行聚合；若第一目标内容块的父节点的父节点是第二集合中的第四目标内容块，则将第一目标内容块、第四目标内容块、第一目标内容块的父节点进行聚合；若第一目标内容块的子节点的子节点是第二集合中的第五目标内容块，则将第一目标内容块、第五目标内容块、第五目标内容块的父节点进行聚合。

在本实施例中，通过遍历的方式，能够准确的对目标内容块进行聚类。

在一种可选的实施方式中，从目标文档的内容块中确定与待检索语句相关的目标内容块，包括：计算每一内容块与待检索语句的相关度评分；将相关度评分最高的前N个内容块确定为目标内容块。

在本实施例中，由于相关度评分能够准确地表征内容块与待检索语句的相关程度，因此，通过计算相关度评分，能够提高检索准确度。此外，通过筛选掉与待检索语句相关度较低的目标内容块，能够提高检索效率，以及检索出用户较为期望的信息检索结果。

在一种可选的实施方式中，计算每一内容块与待检索语句的相关度评分，包括：针对每一内容块，提取该内容块与待检索语句的相关度特征，将相关度特征输入预先训练的评分计算模型，得到该内容块与待检索语句的相关度评分；其中，相关度特征包括以下至少一种：该内容块与待检索语句的第一相关度评分，该内容块在目标文档中的相邻前J个内容块与待检索语句的第二相关度评分，该内容块在目标文档中的相邻后K个内容块与待检索语句的第三相关度评分，内容块基于该内容块的所有上级标题与待检索语句的相关度评分确定的第四相关度评分，该内容块的上一级标题与待检索语句的相关度评分，该内容块与待检索语句的文字重合度，该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置特征，该内容块与待检索语句的第一相关度评分在该内容块对应的标题的所有下一级标题的相关度评分和该内容块对应的标题对应的所有内容块的相关度评分中的排序结果，该内容块与该内容块对应的上一级标题的文本重合度，该内容块与该内容块对应的标题的文本重合度以及该内容块对应的标题的所有上级标题的文本重合度中的最高重合度。

通过利用内容块的上下文的相关度评分，能够根据目标内容块的周围环境特征，来提高相关度评分的计算精度。

在一种可选的实施方式中，方法还包括：针对每一片段，将该片段中的目标内容块中相关度评分的最高评分作为片段与待检索语句的相关度评分。

通过计算片段的相关度评分，能够表征各片段与待检索语句的相关程度。便于后续信息检索结果的显示以及使用。

第二方面，提供一种基于检索语句的信息检索装置，包括：获取模块，用于获取待检索语句；确定模块，用于从目标文档的内容块中确定与待检索语句相关的目标内容块，内容块包括文本内容段落、标题、表格、图表、图片中的至少一个；聚合模块，用于将具备逻辑层级关系的目标内容块聚合为片段，其中，具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题；结果处理模块，用于将片段作为待检索语句在目标文档中的信息检索结果。

第三方面，提供一种基于检索语句的信息检索设备，包括：存储器，用于存储程序；处理器，用于运行存储器中存储的程序，以执行第一方面或第一方面的任一可选的实施方式提供的基于检索语句的信息检索方法。

第四方面，提供一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或第一方面的任一可选的实施方式提供的基于检索语句的信息检索方法。

根据本发明实施例中的基于检索语句的信息检索方法、装置、设备和介质，在获取待检索语句之后，可以确定与待检索语句相关的目标内容块。并按照目标内容块之间的逻辑层级关系，将其聚合成片段，并将聚合后的片段作为待检索语句在目标文档中的信息检索结果。相较于现有的、罗列出所有信息检索结果的方法，能够将具有逻辑层级关系的目标内容块聚合成一个片段，使不具有逻辑层级关系的目标内容块尽量分离，提高了信息检索结果的质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种示例性的目标文档的内容块的逻辑关系示意图；

图2是本发明实施例提供的一种基于检索语句的信息检索方法的示意流程图；

图3是本发明实施例提供的一种示例性的内容块逻辑树的结构示意图；

图4A是本发明实施例提供的一种示例性的聚合过程的逻辑示意图；

图4B是本发明实施例提供的又一种示例性的聚合过程的逻辑示意图；

图4C是本发明实施例提供的又一种示例性的聚合过程的逻辑示意图；

图5是本发明实施例提供的一种基于检索语句的信息检索装置的结构示意图；

图6是本发明实施例中基于检索语句的信息检索设备的示例性硬件架构的结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种基于检索语句的信息检索方案，适用于在文档中输入待检索语句进行文档内容关键信息检索的具体场景中。例如招股说明书、债券募集说明书、年报、财务报告、并购重组报告、评级报告、研究报告、法律合同文书、舆情新闻等复杂的金融信息文本的检索工作。本发明实施例在获取待检索语句后，可以初步检索出文档中与待检索语句相关的目标内容块，再根据各目标内容块间的逻辑层级关系聚合成片段。

在本发明实施例中，目标文档指能够获取其文字以及图表信息的电子文档。具体地，可以是WORD格式、PDF格式、TXT等格式的电子文档。此外，目标文档可视为由多个段落组成，其中，表格、图片、图表、标题等均可各自视为一个段落。因此，以段落为单位，可以将目标文档划分为多个彼此间相独立的内容块。也就是说，目标文档的内容块包括文本内容段落、标题、表格、图表、图片中的至少一种。

通常目标文档内往往设置有多级标题。按照层级由高到低的次序，依次为一级标题、二级标题、三级标题等等。高层级标题下往往有多个低层级标题，多个低层级标题隶属于高层级标题。针对第L层标题，其隶属于前L-1级标题。则该前L-1级标题均为该第L层标题的上级标题。示例性的，若目标文档的第二章中存在五级标题“(1).固定资产情况”，其上级标题按照层级由低到高的次序依次为：四级标题“19、固定资产”、三级标题“七、合并财务报表项目注释”、二级标题“第十一节、财务报告”、一级标题“第二章、固定资产”。则二级标题“第十一节、财务报告”、三级标题“七、合并财务报表项目注释”、四级标题“19、固定资产”、五级标题“(1).固定资产情况”均隶属于一级标题“第二章、固定资产”。为了便于理解，本发明下述实施例将继续利用上述五级标题进行示例性的说明。

由于标题往往是对一个或多个连续文本内容段落、图片、图表、表格等非标题内容块的内容的高度概括，每个标题后往往紧紧跟随着一个或多个连续的内容块，例如文本内容段落、图片、图表、表格等。在本发明实施例中，可以认为某一标题后紧跟着的内容块与该标题具有对应关系。也就是说，该某一标题后至下一个标题前的内容块与该标题具有对应关系。与某一标题对应的内容块和该某一标题的下一级标题均可以视为该某一标题的下一层级。示例性的，图1是本发明实施例提供的一种示例性的目标文档的内容块的逻辑关系示意图。如图1所示，图1左侧示出了目标文档的具体内容。若按照内容块在目标文档中出现的次序，依次是三级标题A₃₁，四级标题A₄₁、图表B₁、文本内容段落C₁、四级标题A₄₂、文本内容段落C₂、五级标题A₅₁、表格D₁、文本内容段落C₃。图1的右侧示出了目标文档的内容块的逻辑关系。其中，三级标题A₃₁的下一层级是两个四级标题A₄₁和A₄₂。四级标题A₄₁后面的下一个标题为四级标题A₄₁，则四级标题A₄₁与四级标题A₄₂之间的图表B₁、文本内容段落C₁对应于四级标题A₄₂，其中，图表B₁、文本内容段落C₁可视为四级标题A₄₁的下一层级。四级标题A₄₂后面的下一个标题为五级标题A₅₁，四级标题A₄₂与五级标题A₅₁之间的文本内容段落C₂对应于四级标题A₄₂。此外，由于五级标题A₅₁是四级标题A₄₂的下一级标题，五级标题A₅₁和文本内容段落C₂可视为四级标题A₄₂的下一层级。五级标题A₅₁后面紧跟着表格D₁和文本内容段落C₃，表格D₁和文本内容段落C₃可可视为五级标题A₅₁的下一层级。。

为了更好的理解本发明，下面将结合附图，详细描述根据本发明实施例的基于检索语句的信息检索方法、装置、设备和介质，应注意，这些实施例并不用来限制本发明公开的范围。

图2是本发明实施例提供的一种基于检索语句的信息检索方法的示意流程图。如图2所示，本实施例中的基于检索语句的信息检索方法200可以包括下述S210至S240。

S210，获取待检索语句。

其中，待检索语句可以是至少一个完整的句子，或者至少一个词语。可以根据用户可以根据实际需求自定义输入，对此不作限定。

S220，从目标文档的内容块中确定与待检索语句相关的目标内容块。

其中，目标文档的内容块可分为与待检索语句相关的目标内容块，以及与待检索语句无关的内容块。

在一些实施例中，可以根据内容块与待检索语句的相关度评分来确定目标内容块。具体地，若目标文档总共包括M个内容块，则确定目标内容块的方式可以包括下述两个步骤。

步骤一、计算M个内容块中每一内容块与待检索语句的相关度评分Y。

在一些实施例中，针对M个内容块中的每一内容块，例如第i个内容块e_i，可以先提取内容块e_i与待检索语句的相关度特征X_i，再将该相关度特征X_i输入预先训练的评分计算模型，得到该内容块与待检索语句的相关度评分。

首先，针对内容块e_i与待检索语句的相关度特征X_i，相关度特征X_i包括以下子特征的至少一种：

第一子特征、内容块e_i与待检索语句的第一相关度评分A_i。其中，可以将利用最佳匹配25(Best Matching 25，BM25)算法计算得到的该内容块与待检索语句的BM25分数作为第一相关度评分A_i。此外，还可以利用其它能够表示内容块与待检索语句的相关程度的分数作为第一相关度评分A_i，对此不作限定。

第二子特征、内容块e_i在目标文档中的相邻前J个内容块与待检索语句的第二相关度评分B_i。具体地，第二相关度评分B_i可以是前J个内容块与待检索语句的第一相关度评分计算得到的。示例性的，第二相关度评分B_i可以是前J个内容块与待检索语句的第一相关度评分中的最大值。例如，若前J个内容块与待检索语句的第一相关度评分分别为A_i-J、……、A_i-1，则B_i＝max(A_i-J、……、A_i-1)。可选的，为了保证计算速度，J等于2。需要说明的是，第二相关度评分还可以通过其他方法计算得到，例如前J个内容块与待检索语句的第一相关度评分的平均值等，对此不做限定。

考虑到目标文档中各相邻内容块之间具备一定的关联性。如果某一段落与待检索语句具备相关性，则往往其相邻段落也与待检索语句具备相关性。由于第二相关度评分Bi表征内容块的上下文相关性评分特征，将第二相关度评分Bi作为内容块e_i与待检索语句的相关度特征，能够反映内容块e_i与待检索语句的相关程度。

第三子特征、内容块e_i在目标文档中的相邻后K个内容块与待检索语句的第三相关度评分C_i。具体地，第三相关度评分C_i可以是后K个内容块与待检索语句的第一相关度评分计算得到的。示例性的，第三相关度评分C_i可以是后K个内容块与待检索语句的第一相关度评分中的最大值。例如，若后K个内容块与待检索语句的第一相关度评分分别为A_i+1、……、A_i+K，则C_i＝max(A_i+1、……、A_i+K)。可选的，为了保证计算速度，K等于J，例如，K等于2。需要说明的是，第三相关度评分还可以通过其他方法计算得到，例如后K个内容块与待检索语句的第一相关度评分的平均值等，对此不做限定。此外，第三相关度评分C_i的有益效果与第二相关评分B_i的有益效果类似，在此不再赘述。

第四子特征、基于该内容块的所有上级标题与待检索语句的相关度评分确定的第四相关度评分D_i。其中，若该内容块是非标题内容块，则该内容块的紧跟的标题也属于其上级标题。在一个实施例中，第四相关度评分D_i可以是内容块e_i的上级标题与待检索语句的第一相关度评分中的最高评分BM25AncestorMax。示例性的，可以是内容块e_i的所有上级标题中的最高评分BM25AncestorMax。若内容块e_i为三级标题“七、合并财务报表项目注释”，其上级标题中的二级标题“第十一节、财务报告”e_j的第一相关度得分分别为A_j，其上级标题中的一级标题“第二章、固定资产”e的第一相关度得分分别为A_k，则D_i＝max(A_j、A_k)。具体地，若对应于三级标题的文本内容段落C₁，其对应的三级标题与待检索语句的BM25评分为10，该三级标题的上级标题即二级标题、一级标题的BM25评分分别是12、6，则D_i的取值为12。在另一个实施例中，第四相关度评分D_i可以是内容块e_i对应的标题的上级标题与待检索语句的第一相关度评分的平均值。需要说明的是，第四相关度评分D_i还可以对内容块e_i对应的标题的上级标题与待检索语句的第一相关度评分进行其他运算得到的分数值，对此不作限定。

第五子特征、该内容块的上一级标题与待检索语句的相关度评分E_i。在一种实施方式中，若该内容块是非标题内容块，则该内容块的上一级标题为与该内容块对应的标题。示例性的，若该内容块是三级标题下的文本内容段落，则该内容块的上一级标题为该三级标题。在另一种实施方式中，若该内容块为标题，例如三级标题，则该内容块的上一级标题为该三级标题所隶属的二级标题。继续参照第四子特征部分的示例，该内容块对应的三级标题与待检索语句的BM25评分为10，E_i＝10。

第六子特征、内容块e_i与待检索语句的文字重合度E_i。若待检索语句包括a个字符，内容块e_i和待检索语句重合的字符数目为b，则文字重合度F_i＝b/a。

第七子特征、该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置特征G_i。位置特征G_i能够反映内容块的局部位置信息。具体地，位置特征G_i可以是该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置次序SiblingPosition，和/或，该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置次序与该内容块对应的标题对应的所有内容块的个数的比值SiblingPositionRatio。需要说明的是，若将任一标题对应的内容块和该任一标题的下一级标题均视为其子节点，也就是说，该任一标题对应的内容块之间互为兄弟节点。则位置特征G_i可以是该内容块在其父节点的所有子节点中的位置排序，又或者，可以是该内容块在其父节点的所有子节点中的位置排序与其父节点的子节点个数的比值。示例性的，若目标文档包括如下内容：

“[A]6.盈利能力分析(BM25:0)

[B]6.4营业收入分析(BM25:10)

[C]2012年营业收入为100万元。(BM25:8)

[D]XXXXX(未命中关键词)(BM25:0)

[E]XXXXX(未命中关键词)(BM25:0)

[F]2013年营业收入为100万元。2014年营业收入为100万元。

(BM25:9)”

其中，以内容块C为例，内容块C对应标题B，标题B对应的内容块C-F。其中，内容块C在内容块C-F中排第一位，则内容块C的位置序列SiblingPosition＝1。由于标题B对应4个内容块，则内容块C对应的比值SiblingPositionRatio＝1/4。

需要说明的是，位置特征G_i还能反映内容块的重要程度。具体地，由于某一级标题对应的多个段落中，首段(SiblingPosition＝1的内容块，例如上述内容块C)和末段(SiblingPositionRatio＝1的内容块，例如上述内容块F)可能包含总结性信息，首尾两段相较于其他段落，例如内容块D和内容块E等更加重要。

第八子特征、该内容块与待检索语句的第一相关度评分A_i在该内容块对应的标题的所有下一级标题的相关度评分和该内容块对应的标题对应的所有内容块的相关度评分中的排序结果H_i。也就是说，若将某一级标题对应的多个内容块和该某一级标题的下一级标题均作为该某一级标题的子节点。则可以是该内容块与待检索语句的第一相关度评分A_i在该某一级标题的所有子节点的相关度评分中的排序结果。其中，若该内容块的相关度评分为0(比如第七子特征的相关内容中的内容块D，BM25＝0)，则可以认为该内容块的大小排序结果为0。若该内容块的相关度评分大于0，则该某一级标题的所有子节点的相关度评分的排序可以是对相关度评分大于0的子节点的相关度评分的由小到大的排序。示例性的，第七子特征的相关内容中的内容块C-F，标题B的内容块的相关度排序为内容块C、内容块F。具体地，内容块的排序结果可以是该内容块的次序SiblingRank。比如，内容块C的次序SiblingRank＝1，内容块F的次序SiblingRank＝2。又或者，内容块的排序结果可以是一个分数，示例性的，可以是该内容块的次序与该内容块的父节点(即上一级标题)的相关度评分大于0的子节点的数目的比值SiblingRankRatio。比如，内容块C的次序为1，内容块的父节点(标题B)的2个子节点元素C和内容块F的相关度评分大于0，元素C的比值SiblingRankRatio＝1/2。相应地，元素F的比值SiblingRankRatio＝2/2。

需要说明的是，SiblingRank的值越大，表示该内容块的有很多兄弟节点都命中了关键词，该内容块的父节点与待检索语句也越相关。

第九子特征、该内容块与该内容块对应的上一级标题的文本重合度J_i。具体地，文本重合度J_i可以是重合的词语个数SameWordParent，也可以是重合的字的个数SameCharacterParent。示例性的，以第七子特征的相关内容中的内容块C和其上一级标题B为例，两者重合的词语为“营业”、“收入”共2个词，此时，内容块C的SameWordParent＝2。两者重合的字为“营”、“业”、“收”、“入”共4个字，内容块C的SameCharacterParent＝4。

第十子特征、该内容块与该内容块对应的标题的文本重合度以及该内容块对应的标题的所有上级标题的文本重合度中的最高重合度K_i。其中，若内容块C对应第三级标题，内容块C与第三级标题“6.4营业收入分析”的文本重合度为K₁，内容块C与该第三级标题的上一级标题(即第二级标题“6.盈利能力分析”)的文本重合度为K₂，内容块C与该第二级标题的上一级标题(即第一级标题“六、公司盈利情况”)的文本重合度为K₃，则内容块C对应的最高重合度K_i＝max(K₁、K₂、K₃)。

其次，针对评分计算模型，评分计算模型可以是梯度提升决策树(GradientBoosting Decision Tree，GBDT)回归模型，或者二分类模型。此外，还可以选用其他模型，对此不做限制。

在训练评分计算模型的过程中，首先，可以提前选取P条检索语句样本，Q个内容块样本。并提前标注每一内容块样本与每一条检索语句样本的相关度标签。其中，若二者相关，则相关度标签为1，若不相关，相关度标签为0。然后将其输入评分计算模型进行训练。其中，若内容块样本e_i与待检索语句W_j的相关度标签为1，则内容块样本e_i与待检索语句W_j的相关度评分Y_ij的期望预测值为1。同理地，若内容块样本e_i与待检索语句W_j的相关度标签为0，则相关度评分Y_ij的期望预测值为0。可选的，若相关度特征包括R个子特征，则训练评分计算模型的训练数据可以具体实现为二维数据矩阵，该二维数据特征包括P×Q行，R列。可选的，R小于等于5。

步骤二、将相关度评分最高的前N个内容块确定为目标内容块。其中，M、N均为正整数，且M大于等于N。示例性的，N可以根据具体工作场景和工作需求设置，例如N等于100，对此不做具体的限定。

通过本步骤，可以从目标文档中检索出与待检索语句最相关的内容块。从而筛选掉了相关度较低的内容块，优化了信息检索结果。

进一步地，还可以按照相关度评分从高到低的顺序，对目标内容块进行排序，以便检索用户能够快速获取最期望的信息检索结果。

S230，将具备逻辑层级关系的目标内容块聚合为片段。

其中，具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题。也就是说，若标题A的某一上级标题和标题B的某一上级标题相同，或者标题A是标题B的上一级标题，则标题A和标题B具有逻辑层级关系。其中，每一片段包括所聚合的目标内容块的所有内容。

在一些实施例中，目标内容块的逻辑层级关系是基于内容块逻辑树确定的。

首先，针对内容块逻辑树，目标文档中每一标题、该标题的下一级标题和该标题对应的除标题外的其他目标内容块为该标题的子节点。如果某一二级标题下隶属有3个三级标题A₃₁、A₃₂、A₃₃，该二级标题对应文本内容段落B₂、表格C₁、图表D₁，则在内容块逻辑树中，三级标题A₃₁、三级标题A₃₂、三级标题A₃₃、文本内容段落B₂、表格C₁、图表D₁均为该二级标题的子节点。

示例性的，图3是本发明实施例提供的一种示例性的内容块逻辑树的结构示意图。如图3所示，内容块逻辑树由根节点R₀和子节点N₁-N₇组成的第一子树、子节点N₈-N₁₃组成的第二子树、子节点N₁₄-N₁₉第三子树组成。其中，N₁、N₈、N₁₄为直接与相连的R₀的三个子节点。示例性的，根节点R₀可以是文档的主题名称或者文档的题目。又或者，根节点R₀也可以空置。与根节点R₀直接连接的节点N₁、节点N₈、节点N₁₄分别是三个一级标题。节点N₈的下一级节点分别是二级标题N₉、与节点N₈对应的文本内容段落N₁₂、与节点N₈对应的表格N₁₃。

由于每颗子树中所有节点的标题均具有同一上级标题。例如，第一子树中节点A₂-A₇的标题均隶属于A₁的一级标题。每颗子树中所有子节点间彼此具备逻辑层级关系。

相应地，S230具体包括：将内容块逻辑树中每一子树中的目标内容块聚合为一个片段。

在一些实施例中，将内容块逻辑树中每一子树中的目标内容块聚合为一个片段的具体实施方式可以多次循环执行下述四个步骤。

步骤一、获取第一集合S2、第二集合S₂和第三集合S₃。其中，第一集合中用于放置新添加的目标内容块，若当前循环为第k次循环，则第一集合S2包括第k-1次循环过程新添加至第三集合的节点所对应的目标内容块。第一集合的初始值为空集。第二集合用于放置旧的目标内容块。若当前循环为第k次循环，则第二集合放置有S220确定的目标内容块，以及前k-2次循环过程中添加至第三集合的节点所对应的目标内容块。第二集合的初始值包括S220中确定的全体目标内容块。例如，若通过S220获得目标内容块为e₁，……，e_n，则S₂的初始值为{e₁，……，e_n}。第三集合用于辅助运算，第三集合的初始值为空集。

步骤二、若在内容块逻辑树中，第二集合中至少两个元素的父节点相同，且该父节点不属于第二集合，则将该父节点加入第三集合。也就是说，p_i表示e_i的父节点，p_j表示e_j的父节点，

若满足p_i＝p_j，则将p_i加入第三集合S₃。可选的，在步骤二中，可以对第二集合中的目标内容块进行遍历，确定第二集合中是否存在父节点相同的目标内容块。

步骤三、若第一集合中至少一个元素的父节点与第二集合中至少一个元素的父节点相同，且该父节点不属于第二集合，则将第一集合中至少一个元素的父节点加入第三集合。也就是说，

若满足p_i＝p_j，则将p_i加入第三集合S₃。可选的，在步骤三中，可以对第一集合中的目标内容块进行遍历，确定第二集合中是否存在父节点相同的目标内容块。

步骤四、将第一集合的全体元素加入第二集合，并将第三集合作为新的第一集合，若第三集合不为空集，则返回步骤一。若第三集合为空集，将第二集合中的元素作为新的目标内容块，并将新的目标内容块聚合为片段。

在一些实施例中，将第二集合中新的目标内容块聚合为片段可以包括：将第二集合中的新的目标内容块依次作为第一目标内容块。

针对每一第一目标内容块，执行下述三个步骤。

步骤一、若内容块逻辑树中第一目标内容块e_i为第二集合中的第二目标内容块e_j的父节点或者子节点，则将第一目标内容块和第二目标内容块进行聚合。也就是说，

若满足p_i＝e_j，或者e_i＝p_j，则将e_i和e_j聚合在一起。示例性的，图4A是本发明实施例提供的一种示例性的聚合过程的逻辑示意图。如图4A所示，若第一目标内容块为N₅，若节点N₄属于第二集合，由于节点N₅是节点N₄的子节点，则可以将第一目标内容块N₅和第二目标内容块N₄进行聚合。

步骤二、若第一目标内容块的父节点p_i与第二集合中的第三目标内容块的父节点p_j相同，则将第一目标内容块e_i、第三目标内容块e_j、第一目标内容块的父节点p_i进行聚类。也就是说，

若满足p_i＝p_j，则将e_i、e_j和p_i进行聚合。示例性的，图4B是本发明实施例提供的又一种示例性的聚合过程的逻辑示意图。如图4B所示，若第一目标内容块为N₅，其兄弟节点N₆属于第二集合，则可以将N₅、N₆以及两者共同的父节点N₄聚合在一起。通过步骤二，可以将兄弟节点和兄弟节点的父节点进行聚合。

步骤三、若第一目标内容块e_i的父节点的父节点

是第二集合中的第四目标内容块e_j，则将第一目标内容块e_i、第四目标内容块e_j、第一目标内容块的父节点p_i进行聚类。也就是说，

若满足

则将e_i、e_j和p_i进行聚类。示例性的，图4C是本发明实施例提供的又一种示例性的聚合过程的逻辑示意图。如图4C所示，若第一目标内容块为N₁₈，其祖父节点N₁₆为第四目标内容块两者之间为节点N₁₈的父节点N₁₇。可以将N₁₆、N₁₇和N₁₈聚合在一起。

步骤四、若第一目标内容块e_i的子节点的子节点

是第二集合中的第五目标内容块e_j，则将第一目标内容块e_i、第五目标内容块e_j、第五目标内容块的父节点p_j进行聚类。也就是说，

若满足

则将e_i、e_j和p_j进行聚类。示例性的，继续参见图4C，若第一目标内容块为N₁₆，第五目标内容块为N₁₈。由于N₁₆的子节点为N₁₇，N₁₇为N₆的父节点，也就是说N₁₈是N₁₆的孙子节点，可以将N₁₆、N₁₇和N₁₈聚合在一起。

S240，将片段作为待检索语句在目标文档中的信息检索结果。可选的，在显示信息检索结果时，可以按照目标内容块的层级设置不同的显示方式。例如，只显示某一片段中最高层级的标题，对该片段中的其他目标内容块进行隐藏。在触发点选操作之后，可以按照层级次序对该片段中所有目标内容块进行显示。不同层级的目标内容块采用不同的显示效果，比如缩进的长度不同，对此不作限定。

根据本发明实施例中的基于检索语句的信息检索方法，在获取待检索语句之后，可以确定与待检索语句相关的目标内容块。并按照目标内容块之间的逻辑层级关系，将其聚合成片段，并将聚合后的片段作为信息检索结果。相较于现有的、罗列出所有信息检索结果的方法，能够将具有逻辑层级关系的目标内容块聚合成一个片段，使不具有逻辑层级关系的目标内容块尽量分离，提高了信息检索结果的质量。

在本发明的一些实施例中，一个待检索语句的信息检索结果可能包括多个片段，S240之后，还可以基于片段中目标内容块的相关度评分，计算该片段的相关度评分。具体地，针对每一片段，将该片段中的目标内容块中相关度评分的最高评分作为片段与待检索语句的相关度评分。

此外，在显示界面上显示信息检索结果时，为了使信息检索结果优先获取最期望的信息检索结果，可以按照相关度从高到低的次序显示各片段。

下面结合附图，详细介绍根据本发明实施例的装置。

基于相同的发明构思，本发明实施例提供了一种基于检索语句的信息检索装置。图5是本发明实施例提供的一种基于检索语句的信息检索装置的结构示意图。如图5所示，基于检索语句的信息检索装置500包括获取模块510、确定模块520、聚合模块530和结果处理模块540。

其中，获取模块510，用于获取待检索语句。

确定模块520，用于从目标文档的内容块中确定与待检索语句相关的目标内容块，内容块包括文本内容段落、标题、表格、图表、图片中的至少一个。

聚合模块530，用于将具备逻辑层级关系的目标内容块聚合为片段，其中，具备逻辑层级关系的目标内容块所对应的标题具有同一上级标题；

结果处理模块540，用于将片段作为待检索语句在目标文档中的信息检索结果。

在本发明的一些实施例中，目标内容块的逻辑层级关系是基于内容块逻辑树确定的。

其中，内容块逻辑树是基于目标文档的内容块确定的。每一标题的下一级标题和每一标题对应的除标题外的其他目标内容块为每一标题的子节点。

在本发明的一些实施例中，聚合模块530，具体用于：将内容块逻辑树中每一子树中的所有目标内容块聚合为一个片段。

在本发明的一些实施例中，聚合模块530，具体包括：

集合获取单元，用于获取第一集合、第二集合和第三集合，第二集合的初始值包括全体目标内容块。

第一处理单元，用于若在内容块逻辑树中，第二集合中至少两个元素的父节点相同，且父节点不属于第二集合，则将父节点作为元素加入第三集合。

第二处理单元，用于若第一集合中至少一个元素的父节点与第二集合中至少一个元素的父节点相同，且父节点不属于第一集合和第二集合，则将父节点作为元素加入第三集合。

第三处理单元，用于将第一集合的全体元素加入第二集合，并将第三集合作为新的第一集合，直到第三集合为空集，将第二集合中的元素作为新的目标内容块，并将新的目标内容块聚合为片段。

在一些实施例中，第三处理单元，具体用于：将第二集合中的新的目标内容块依次作为第一目标内容块。

以及，针对每一第一目标内容块，执行以下操作：若内容块逻辑树中，第一目标内容块为第二集合中的第二目标内容块的父节点或者子节点，则将第一目标内容块和第二目标内容块进行聚合；若第一目标内容块的父节点与第二集合中的第三目标内容块的父节点相同，则将第一目标内容块、第三目标内容块、第一目标内容块的父节点进行聚合；若第一目标内容块的父节点的父节点是第二集合中的第四目标内容块，则将第一目标内容块、第四目标内容块、第一目标内容块的父节点进行聚合；若第一目标内容块的子节点的子节点是第二集合中的第五目标内容块，则将第一目标内容块、第五目标内容块、第五目标内容块的父节点进行聚合。

在本发明的一些实施例中，确定模块520，具体用于：计算每一内容块与待检索语句的相关度评分；将相关度评分最高的前N个内容块确定为目标内容块。

在本发明的一些实施例中，确定模块520，具体用于：针对每一内容块，提取该内容块与待检索语句的相关度特征，将相关度特征输入预先训练的评分计算模型，得到该内容块与待检索语句的相关度评分。

其中，相关度特征包括以下至少一种：

该内容块与待检索语句的第一相关度评分，该内容块在目标文档中的相邻前J个内容块与待检索语句的第二相关度评分，该内容块在目标文档中的相邻后K个内容块与待检索语句的第三相关度评分，内容块基于该内容块的所有上级标题与待检索语句的相关度评分确定的第四相关度评分，该内容块的上一级标题与待检索语句的相关度评分，该内容块与待检索语句的文字重合度，该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置特征，该内容块与待检索语句的第一相关度评分在该内容块对应的标题的所有下一级标题的相关度评分和该内容块对应的标题对应的所有内容块的相关度评分中的排序结果，该内容块与该内容块对应的上一级标题的文本重合度，该内容块与该内容块对应的标题的文本重合度以及该内容块对应的标题的所有上级标题的文本重合度中的最高重合度。

在本发明的一些实施例中，基于检索语句的信息检索装置还包括计算模块。

计算模块用于针对每一片段，将该片段中的目标内容块中相关度评分的最高评分作为片段与待检索语句的相关度评分。

如图6所示，基于检索语句的信息检索设备600包括输入设备601、输入接口602、中央处理器603、存储器604、输出接口605、以及输出设备606。其中，输入接口602、中央处理器603、存储器604、以及输出接口605通过总线610相互连接，输入设备601和输出设备606分别通过输入接口602和输出接口605与总线610连接，进而与基于检索语句的信息检索设备600的其他组件连接。

具体地，输入设备601接收来自外部的输入信息，并通过输入接口602将输入信息传送到中央处理器603；中央处理器603基于存储器604中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器604中，然后通过输出接口605将输出信息传送到输出设备606；输出设备606将输出信息输出到基于检索语句的信息检索设备600的外部供用户使用。

也就是说，图6所示的基于检索语句的信息检索设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图5描述的基于检索语句的信息检索设备的方法和装置。

在一个实施例中，图6所示的基于检索语句的信息检索设备600可以被实现为一种设备，该设备可以包括：存储器，用于存储程序；处理器，用于运行所述存储器中存储的所述程序，以执行本发明实施例的基于检索语句的信息检索方法。

本发明实施例还提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现本发明实施例的基于检索语句的信息检索方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

Claims

1.一种基于检索语句的信息检索方法，其特征在于，所述方法包括：

获取待检索语句；

从目标文档的内容块中确定与所述待检索语句相关的目标内容块，所述内容块包括文本内容段落、标题、表格、图表、图片中的至少一个；

将具备逻辑层级关系的所述目标内容块聚合为片段，其中，所述具备逻辑层级关系的所述目标内容块所对应的标题具有同一上级标题；

将所述片段作为所述待检索语句在所述目标文档中的信息检索结果。

2.根据权利要求1所述的方法，其特征在于，

所述目标内容块的逻辑层级关系是基于内容块逻辑树确定的，

其中，所述内容块逻辑树是基于所述目标文档的内容块确定的，每一标题的下一级标题和所述每一标题对应的除标题外的其他目标内容块为所述每一标题的子节点。

3.根据权利要求2所述的方法，其特征在于，所述将具备逻辑层级关系的所述目标内容块聚合为片段，包括：

将所述内容块逻辑树中每一子树中的所有目标内容块聚合为一个片段。

4.根据权利要求2所述的方法，其特征在于，所述将具备逻辑层级关系的所述目标内容块聚合为片段，包括：

获取第一集合、第二集合和第三集合，所述第二集合的初始值包括全体所述目标内容块；

若在所述内容块逻辑树中，所述第二集合中至少两个元素的父节点相同，且所述父节点不属于所述第二集合，则将所述父节点作为元素加入所述第三集合；

若所述第一集合中至少一个元素的父节点与所述第二集合中至少一个元素的父节点相同，且所述父节点不属于所述第一集合和所述第二集合，则将所述父节点作为元素加入所述第三集合；

将所述第一集合的全体元素加入所述第二集合，并将第三集合作为新的第一集合，直到所述第三集合为空集，将所述第二集合中的元素作为新的目标内容块，并将所述新的目标内容块聚合为片段。

5.根据权利要求4所述的方法，其特征在于，所述将所述第二集合中的元素作为新的目标内容块，并将所述新的目标内容块聚合为片段，包括：

将所述第二集合中的新的目标内容块依次作为第一目标内容块；

针对每一第一目标内容块，执行以下操作：

若所述内容块逻辑树中，所述第一目标内容块为第二集合中的第二目标内容块的父节点或者子节点，则将所述第一目标内容块和第二目标内容块进行聚合；

若所述第一目标内容块的父节点与第二集合中的第三目标内容块的父节点相同，则将所述第一目标内容块、所述第三目标内容块、所述第一目标内容块的父节点进行聚合；

若所述第一目标内容块的父节点的父节点是第二集合中的第四目标内容块，则将所述第一目标内容块、所述第四目标内容块、所述第一目标内容块的父节点进行聚合；

若所述第一目标内容块的子节点的子节点是第二集合中的第五目标内容块，则将所述第一目标内容块、所述第五目标内容块、所述第五目标内容块的父节点进行聚合。

6.根据权利要求1所述的方法，其特征在于，所述从目标文档的内容块中确定与所述待检索语句相关的目标内容块，包括：

计算每一所述内容块与所述待检索语句的相关度评分；

将所述相关度评分最高的前N个所述内容块确定为所述目标内容块。

7.根据权利要求6所述的方法，其特征在于，所述计算每一所述内容块与所述待检索语句的相关度评分，包括：

针对每一所述内容块，提取该内容块与所述待检索语句的相关度特征，将所述相关度特征输入预先训练的评分计算模型，得到该内容块与所述待检索语句的相关度评分；

其中，所述相关度特征包括以下至少一种：

该内容块与所述待检索语句的第一相关度评分，该内容块在所述目标文档中的相邻前J个内容块与所述待检索语句的第二相关度评分，该内容块在所述目标文档中的相邻后K个内容块与所述待检索语句的第三相关度评分，内容块基于该内容块的所有上级标题与所述待检索语句的相关度评分确定的第四相关度评分，该内容块的上一级标题与所述待检索语句的相关度评分，该内容块与所述待检索语句的文字重合度，该内容块在该内容块对应的标题的所有下一级标题和该内容块对应的标题对应的所有内容块中的位置特征，该内容块与所述待检索语句的第一相关度评分在该内容块对应的标题的所有下一级标题的相关度评分和该内容块对应的标题对应的所有内容块的相关度评分中的排序结果，该内容块与该内容块对应的上一级标题的文本重合度，该内容块与该内容块对应的标题的文本重合度以及该内容块对应的标题的所有上级标题的文本重合度中的最高重合度。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

针对每一片段，将该片段中的目标内容块中所述相关度评分的最高评分作为所述片段与所述待检索语句的相关度评分。

9.一种基于检索语句的信息检索装置，其特征在于，所述装置包括：

获取模块，用于获取待检索语句；

确定模块，用于从目标文档的内容块中确定与所述待检索语句相关的目标内容块，所述内容块包括文本内容段落、标题、表格、图表、图片中的至少一个；

聚合模块，用于将具备逻辑层级关系的所述目标内容块聚合为片段，其中，所述具备逻辑层级关系的所述目标内容块所对应的标题具有同一上级标题；

结果处理模块，用于将所述片段作为所述待检索语句在所述目标文档中的信息检索结果。

10.一种基于检索语句的信息检索设备，其特征在于，所述设备包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行权利要求1-8任一权利要求所述的基于检索语句的信息检索方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现权利要求1-8任一权利要求所述的基于检索语句的信息检索方法。