CN116860908A

CN116860908A - 索引生成方法、文档检索方法、装置、设备及介质

Info

Publication number: CN116860908A
Application number: CN202310931792.3A
Authority: CN
Inventors: 张鼎渊
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-10

Abstract

本公开实施例提供索引生成方法、文档检索方法、装置、电子设备及存储介质。该索引生成方法，包括：基于预设的配置文件，形成第一结构化数据；对各个文档进行分词处理，生成至少一个索引词，形成第二结构化数据；第二结构化数据中至少包括文档对应关系信息；基于文档标识与索引词的对应关系第一文档标识集合生成文档标识倒排索引表。文档检索方法，包括：对所述检索请求进行语义分析，确定至少一个检索词和语法树；根据语法树，对各个索引词所对应的文档标识集合进行逻辑归并运算，获得第二文档标识集合第一文档标识集合第二文档标识集合。通过该索引生成及文档检索方法可以高效的实现检索的归并召回，提高检索效率。

Description

索引生成方法、文档检索方法、装置、设备及介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种索引生成方法、文档检索方法、装置、电子设备以及计算机可读存储介质。

背景技术

搜索技术是互联网应用中至关重要的技术。搜索技术的基本流程大致为，当用户想要搜索某个资源时，用户在客户端中输入描述资源的内容。客户端将用户输入的内容发给服务端。服务端根据用户输入的内容查询匹配的资源，将资源返回给用户，从而帮助用户快速找到想要的资源。

随着近年来互联网资源信息的快速膨胀及用户日益增长的信息检索需求，如何在海量数据的复杂搜索场景下，实现快速、准确、高效地完成搜索任务，成为搜索领域需要解决的问题。

发明内容

本公开实施例提供一种索引生成方法、文档检索方法、装置、电子设备以及计算机可读存储介质，该方法通过改变传统倒排索引表的结构，可以高效的实现检索的归并召回，提高检索效率。

根据本公开实施例的第一方面，提供一种索引生成方法，包括：基于预设的配置文件，对检索数据库中的至少一个文档进行预处理，形成第一结构化数据；根据所述第一结构化数据和配置文件，对所述至少一个文档进行分词处理，生成至少一个索引词；确定所述至少一个文档对应的文档标识；根据所述索引词与所述文档之间的相关性，得到索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值；根据所述文档和索引词，形成第二结构化数据；所述第二结构化数据中至少包括文档对应关系信息；所述文档对应关系信息，用于表征所述文档标识与索引词的对应关系；根据所述第二结构化数据，生成用于表征各个所述索引词与所述文档标识对应关系的文档标识集合；根据所述文档标识集合，生成文档标识倒排索引表；将所述文档标识倒排索引表，加入到检索索引文件集合中。

在本公开的一些示例性实施例中，所述方法还包括：所述索引词赋值信息中至少包括：索引词位置信息和索引词位置赋值信息；所述索引词位置信息，用于表征各个所述索引词在各个所述文档中对应的字段位置；所述索引词位置赋值信息，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值；所述位置相关性赋值为，基于所述字段位置，所述索引词与所述文档之间相关性赋值；根据所述索引词位置信息，生成索引词位置倒排索引表；根据所述索引词位置赋值信息，生成索引词位置赋值倒排索引表；将所述索引词位置倒排索引表和索引词位置赋值倒排索引表，加入到所述检索索引文件集合中。

在本公开的一些示例性实施例中，所述方法还包括：根据所述索引词赋值信息，生成索引词赋值跳转索引表和索引词赋值索引表；所述索引词赋值跳转索引表，用于表征各个所述文档标识对应的索引词赋值信息的存储地址；所述索引词赋值索引表，用于存储各个所述文档标识对应的索引词赋值信息；将所述索引词赋值跳转索引表和索引词赋值索引表，加入到所述检索索引文件集合中文档标识倒排索引表。

根据本公开实施例的第二方面，提供一种文档检索方法，包括：响应于检索请求，对所述检索请求进行语义分析，获得所述检索请求对应的至少一个检索词和语法树；确定与各个所述检索词相匹配的索引词；根据文档标识倒排索引表，确定与所述索引词对应的文档标识集合；所述文档标识倒排索引表，用于表征各个所述索引词与文档标识的对应关系；根据所述语法树，对各个所述索引词所对应的文档标识集合进行逻辑归并运算，获得第二文档标识集合；根据所述第二文档标识集合，确定检索召回文档标识集合。文档标识倒排索引表。

在本公开的一些示例性实施例中，所述方法还包括：根据索引词位置倒排索引表，确定所述索引词在各个所述文档中对应的字段位置；所述索引词位置倒排索引表，用于表征各个所述索引词在各个所述文档中对应的字段位置；根据索引词位置赋值倒排索引表，确定所述索引词在各个所述文档的对应字段位置的位置相关性赋值；所述索引词位置赋值倒排索引表，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值；所述位置相关性赋值为，基于所述字段位置，所述索引词与所述文档之间相关性赋值；根据各个所述索引词对应的所述字段位置和位置相关性赋值，确定所述第二文档标识集合中各个文档的文档相关性赋值；所述文档相关性赋值，用于表征所述文档与所述检索请求之间相关性的赋值；根据所述文档相关性赋值，对所述第二文档标识集合中各个文档标识进行排序；所述根据所述第二文档标识集合，确定检索召回文档标识集合，还包括：根据所述第二文档标识集合中各个文档标识的排序，筛选出预设数量的文档标识，确定为所述检索召回文档标识集合。字段位置位置相关性赋值字段位置位置相关性赋值第二文档标识集合文档相关性赋值文档相关性赋值第二文档标识集合第二文档标识集合召回文档标识集合第二文档标识集合召回文档标识集合。

在本公开的一些示例性实施例中，根据各个所述索引词对应的所述字段位置和位置相关性赋值，确定所述第二文档标识集合中各个文档的文档相关性赋值，还包括：确定所述索引词在所述文档中各个所述位置相关性赋值中的最大值；根据所述文档所对应各个索引词的所述位置相关性赋值的最大值，确定所述文档相关性赋值。字段位置位置相关性赋值第二文档标识集合文档相关性赋值索引词索引词索引词文档相关性赋值。

在本公开的一些示例性实施例中，所述方法还包括：根据索引词赋值跳转索引表，确定所述检索召回文档标识集合中各个文档标识对应的索引词赋值信息存储地址；所述索引词赋值跳转索引表，用于表征各个所述文档标识对应的索引词赋值信息的存储地址；根据所述索引词赋值信息存储地址，通过索引词赋值索引表，获取所述各个文档标识对应的索引词赋值信息；所述索引词赋值索引表，用于存储各个所述文档标识对应的索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值；将所述检索召回文档标识集合及所述各个文档标识对应的索引词赋值信息，作为检索结果。召回文档标识集合召回文档标识集合。

根据本公开实施例的第三方面，提供一种索引生成装置，包括：第一结构化数据生成模块，被配置为基于预设的配置文件，对检索数据库中的至少一个文档进行预处理，形成第一结构化数据和所述配置文件；分词模块，被配置为根据所述第一结构化数据，对所述至少一个文档进行分词处理，生成至少一个索引词；文档标识模块，被配置为确定所述至少一个文档对应的文档标识；索引词赋值模块，被配置为根据所述索引词与所述文档之间的相关性，得到索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值；第二结构化数据生成模块，被配置为根据所述文档和索引词，形成第二结构化数据；所述第二结构化数据中至少包括文档对应关系信息；所述文档对应关系信息，用于表征所述文档标识与索引词的对应关系；索引表生成模块，被配置为根据所述第二结构化数据，生成用于表征各个所述索引词与所述文档标识对应关系的文档标识集合；根据所述文档标识集合，生成文档标识倒排索引表；检索索引文件模块，被配置为将所述文档标识倒排索引表和所述索引词赋值信息，加入到检索索引文件集合中。标识倒排索引表。

根据本公开实施例的第四方面，提供一种文档检索装置，包括：检索请求分析模块，被配置为响应于检索请求，对所述检索请求进行语义分析，获得所述检索请求对应的至少一个检索词和语法树；文档集合确定模块，被配置为确定与各个所述检索词相匹配的索引词；根据文档标识倒排索引表，确定与所述索引词对应的文档标识集合；所述文档标识倒排索引表，用于表征各个所述索引词与文档标识的对应关系；逻辑运算模块，被配置为根据所述语法树，对各个所述索引词所对应的文档标识集合进行逻辑归并运算，获得第二文档标识集合；检索结果确定模块，被配置为根据所述第二文档标识集合，确定检索召回文档标识集合。文档标识倒排索引表合第二文档标识集合第二文档标识集合召回文档标识集合。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以实现如上任一项所述的索引生成方法或文档检索方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上任一项所述的索引生成方法或文档检索方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上任一项所述的索引生成方法或文档检索方法。

本公开实施例提供的索引生成方法，通过生成文档标识倒排索引表文档标识倒排索引表，在检索索引文件中建立基于索引词与文档标识的对应关系。在文档检索方法中，基于对检索请求进行语义分析，确定检索词及其之间的语法树。根据语法树，对各个索引词所对应的文档标识集合进行逻辑归并运算，获得第二文档标识集合召回文档标识集合。通过该方法可以高效的实现检索的归并召回，提高检索效率。同时，不存在传统检索方式中召回截断数量的限制。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例方法的示例性系统架构的示意图。

图2是根据一示例性实施例示出的一种索引生成方法的流程图。

图3是根据一示例示出的检索数据库中文档的示意图。

图4是根据一示例示出的文档标识倒排索引表的示意图。

图5是根据一示例性实施例示出的另一种索引生成方法的流程图。

图6是根据一示例示出的索引词位置倒排索引表的示意图。

图7是根据一示例示出的索引词位置赋值倒排索引表的示意图。

图8是根据一示例性实施例示出的另一种索引生成方法的流程图。

图9是根据一示例性实施例示出的一种文档检索方法的流程图。

图10是根据一示例示出的检索请求语法树的示意图。

图11是根据一示例示出的逻辑归并运算的示意图。

图12是根据一示例性实施例示出的另一种文档检索方法的流程图。

图13是根据一示例性实施例示出的另一种文档检索方法的流程图。

图14是根据一示例性实施例示出的一种索引生成装置的框图。

图15是根据一示例性实施例示出的一种文档检索装置的框图。

图16是根据一示例性实施例示出了适于用来实现本公开示例性实施例的电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在至少一个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本说明书中，用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在至少一个要素/组成部分/等；用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”、“第二”和“第三”等仅作为标记使用，不是对其对象的数量限制。

图1示出了可以应用本公开实施例的索引生成方法和文档检索方法的示例性系统架构的示意图。

如图1所示，该系统架构可以包括服务器101、网络102、终端设备103、终端设备104和终端设备105。网络102用以在终端设备103、终端设备104或终端设备105和服务器101之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

服务器101可以是提供各种服务的服务器，例如对用户利用终端设备103、终端设备104或终端设备105所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备103、终端设备104或终端设备105。

终端设备103、终端设备104和终端设备105可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、可穿戴智能设备、虚拟现实设备、增强现实设备等，但并不局限于此。

应该理解，图1中的终端设备103、终端设备104、终端设备105、网络102和服务器101的数目仅仅是示意性的，服务器101可以是一个实体的服务器，还可以为多个服务器组成的服务器集群，还可以是云端服务器，根据实际需要，可以具有任意数目的终端设备、网络和服务器。

下面，将结合附图及实施例对本公开示例实施例中的索引生成方法和文档检索方法的各个步骤进行更详细的说明。

图2是根据一示例性实施例示出的一种索引生成方法的流程图。图2实施例提供的方法可以由任意的电子设备来执行，例如上述图1中的终端设备、或图1中的服务器、或图1中的终端设备和服务器联合执行，但本公开对此不作限定。

如图2所示，本公开实施例提供的索引生成方法可以包括以下步骤。

在步骤S210中，基于预设的配置文件，对检索数据库中的至少一个文档进行预处理，形成第一结构化数据。

本公开实施例中，预设的配置文件是据实际业务场景，对业务字段进行建库的属性配置文件。该配置文件先读取业务方设置的初始配置文件，然后通过预设的格式校验工具对初始配置文件进行处理，得到可发布的更加规范的字段配置文件。其中，格式校验工具本质上可以为一个程序，格式化工具可以将配置文件转成对应的二进制文件，其中会进行语法校验检查(如，检查配置是否规范、删除重复内容)。不同业务方为不同搜索业务设置的初始配置文件可以不同，业务字段即为该搜索业务中网络资源所涉及到的关键字段。基于该配置文件，对检索数据库中的待检索文档进行预处理，形成第一结构化数据，以供后续生成索引表。

在示例性实施例中，图3是根据一示例示出的检索数据库中文档的示意图。如图3所示，该检索数据中包括有6个文档。预设的配置文件，涉及相关业务字段包括：ID、题目、正文、作者、点赞数。根据该配置文件，对该检索数据中的6个文档进行预处理，得到第一结构化数据如表1。应当指出，碍于篇幅有限，这里仅以检索数据中的6个文档作为示例性说明，实际检索数据中具有海量的待检索文档。

表1

在步骤S220中，根据所述第一结构化数据和所述配置文件，对所述至少一个文档进行分词处理，生成至少一个索引词。

本公开实施例中，通过前述配置文件，获取该第一结构化数据对应的字段内容，并通过对字段内容进行切分，得到关键字段对应的分词。由于字段配置文件是业务方本身设置的，因此，可以使得基于字段内容得到的分词更符合业务方的实际需求，进而一定程度上提高后续基于这些分词构建的索引的准确性。目前，已有的分词技术很多。例如，基于规则分词技术：正向最长匹配、逆向最长匹配、双向最长匹配；基于统计机器学习分词技术：统计语言模型、隐马尔科夫模型、结构化感知算法；基于深度学习分词技术：训练预设分词模型等。本公开实施例可以使用任何现有的分词技术来对该第一结构化数据进行分词，均应视为在本公开保护范围之内。

经过分词处理可以将一段文本切分成若干关键词。这些关键词，基于前述配置文件的筛选，筛选出与业务相关的索引词(term)，以供后续进行检索。例如，文本“小白兔和乌龟比赛跑步”，经过分词处理后，可以被切分为“小”、“白兔”、“和”、“乌龟”、“比赛”、“跑步”。

在步骤S230中，确定所述至少一个文档对应的文档标识。

本公开实施例中，为所述各个文档分配对应的文档标识，作为唯一标识信息。该文档标识可以基于文档创建的时间顺序分配，或者基于预排序处理后，根据文档排序进行分配。任何本领域技术人员所知悉的现有文档标识分配方案，均可应用于该步骤的文档标识分配中。

在步骤S240中，根据所述索引词与所述文档之间的相关性，得到索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值。

本公开实施例中，经过对检索数据中的各个文档进行分词处理后，得到若干与这些文档相关联的索引词。索引词与文档的关系不仅体现在是否出现在文档中，索引词在文档中出现的位置、出现的频率、上下文语义关系、字体大小、文档的点赞数等都可能影响索引词与该文档之间的相关性。对索引词的相关性进行赋值，来衡量该索引词与文档的相关性大小，也对最终检索结果的准确性起到了关键性作用。因此，本公开实施例通过对各个索引词在各个文档中对应的相关性进行计算，来对索引词的相关性进行赋值，得到索引词赋值信息。并将该索引词赋值信息加入到所述第二结构化数据中，进行数据结构化整理，使得第二结构化数据可以反应各个索引词在各个文档中对应的相关性赋值。

应当指出，现有技术中用于进行索引词与文档的相关性分析的算法众多。例如，词频权重计算(Term Frequency，TF)、逆文本频率权重计算(Inverse Document Frequency，IDF)、TF-IDF权重计算(Term Frequency-Inverse Document Frequency)等。在本公开实施例中并不对具体采用何种相关性分析算法进行限定，应该理解为任何本领域技术人员所知悉的相关性分析算法用于本公开实施例中，均应视为在本公开保护范围之内。

本公开实施例中所提供的索引生成方法，通过计算索引词与文档之间的相关性赋值，提供从多维度衡量索引词与文档之间相关性关系的数据。为后续基于该相关性关系进行精准检索结果输出，提供数据基础。

在步骤S250中，根据所述文档和所述索引词，形成第二结构化数据；所述第二结构化数据中至少包括文档对应关系信息；所述文档对应关系信息，用于表征所述文档与索引词的对应关系。

本公开实施例中，经过对检索数据中的各个文档进行分词处理后，得到若干与这些文档相关联的索引词。这些索引词可能在多个文档中出现过。不同的索引词也可能在同一个文档中出现过。为了后续对索引词与各个文档之间的关系进行统计归类，以便于进行高效、精准的检索。这里，我们根据前述文档和索引词进行再次结构化梳理，形成第二结构化数据。该二结构化数据中至少包括有用于表征文档与索引词对应关系的文档对应关系信息。如图3所示的示例，由于索引词“兔”在所有6个文档中都出现过，所以索引词“兔”所对应的文档包括：文档1、文档2、文档3、文档4、文档5、文档6。索引词“故事”在文档5的题目中出现，在文档1、3的作者中出现。因此，索引词“故事”所对应的文档包括：文档1、文档3、文档5。索引词“跑”在文档1、3、5的正文中出现。因此，索引词“跑”所对应的文档包括：文档1、文档3、文档5。

应当指出，进行数据结构化整理的方案有很多，无论实施中采用何种数据结构化整理形式，只要相关结构化数据中能够具有能够表征文档与索引词之间对应关系的文档对应关系信息，均应视为在本公开保护范围之内。

在步骤S260中，根据所述第二结构化数据，生成用于表征各个所述索引词与所述文档标识对应关系的文档标识集合；根据所述文档标识集合，生成文档标识倒排索引表；

本公开实施例中，基于前述第二结构化数据中的文档对应关系信息，我们以各个索引词为基础，确定各个索引词所出现的文档标识集合。如图3所示的示例，其中索引词“兔”所对应的文档标识集合为{1，2，3，4，5，6}，其中集合中的数字为对应文档的ID编号；索引词“故事”所对应的文档标识集合为{1，3，5}；索引词“跑”所对应的文档标识集合为{1，3，5}。根据各个索引词所对应的文档标识集合，生成文档标识倒排索引表。该文档标识倒排索引表，用于表征各个索引词所对应的文档标识集合。通过该文档标识倒排索引表，可以基于索引词查找对应的文档标识集合。

在示例性实施例中，图4是根据一示例示出的文档标识倒排索引表的示意图。如图4所示，在该文档标识倒排索引表的左侧列为经过步骤S220分词处理后获得的各个索引词，在每个索引词对应的右侧数列对应于该索引词的文档标识集合的文档ID编号。例如，索引词“兔”所对应的文档标识集合为{1，2，3，4，5，6}；索引词“故事”所对应的文档标识集合为{1，3，5}；索引词“跑”所对应的文档标识集合为{1，3，5}；索引词“白”所对应的文档标识集合为{1，2，3，5}；索引词“儿歌”所对应的文档标识集合为{2}；索引词“乌龟”所对应的文档标识集合为{1}；索引词“鸡”所对应的文档标识集合为{4}。另外，各个索引词对应右侧数列的顺序可以按照文档ID的顺序编号，也可以基于该索引词与文档的相关性权重信息进行排序，均应视为在本公开保护范围之内。

在示例性实施例中，所述第二结构化数据基于RoaringBitmap(咆哮位图，简称RBM)数据结构构建。该RoaringBitmap数据结构，分为高位容器(Contriner)和低位容器两部分，每个高位容器对应有一组低位容器。该数据结构通过高位容器和低位容器分段存储数据，可以更有效的利用存储空间，避免数据存储空间的浪费。同时，该数据结构也与本公开的文档标识倒排索引表的索引结构相契合，可以更加高效的进行索引寻址。

在步骤S270中，将所述文档标识倒排索引表和所述索引词赋值信息，加入到检索索引文件集合中。

本公开实施例中，检索索引文件集合是在检索过程中所需要用到的索引文件集合。该检索索引文件集合中至少包括若干倒排索引表、正排索引表以及索引词赋值信息。在检索过程中根据检索需求，调用检索索引文件集合中对应索引文件，以获得对应于检索请求的召唤文档集合和索引词赋值信息，以供进行检索结果的输出和排序。

本公开实施例中所提供的索引生成方法，通过生成文档标识倒排索引表，在检索索引文件中建立基于索引词与其文档标识集合的对应关系。简化了检索索引文件中倒排索引表的结构，提高了基于该倒排索引表进行文档归并召回的效率。同时，通过使用RoaringBitmap数据存储结构，提高了数据的存储效率，节省了检索数据的存储空间。

本公开实施例中，图5所示索引生成方法中步骤S510、S520、S530、S540、S550、S560分别与图2所示索引生成方法中步骤S210、S220、S230、S240、S250、S260相对应，在此不再重复。

本公开实施例中，在图2所示索引生成方法的基础上，图6所示索引生成方法还可以包括以下步骤。

所述索引词赋值信息中至少包括：索引词位置信息和索引词位置赋值信息；所述索引词位置信息，用于表征各个所述索引词在各个所述文档中对应的字段位置；所述索引词位置赋值信息，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值；

如前所述，索引词在文档中出现的位置是影响索引词与该文档之间相关性的因素之一。本公开实施例中，索引词赋值信息中至少包括：索引词位置信息和索引词位置赋值信息。

其中，索引词位置信息，用于表征各个所述索引词在各个所述文档中对应的字段位置。例如，图3所示检索数据示例中，索引词“兔”在文档1、文档2、文档3、文档4、文档6中对应的字段位置为题目和正文，而在文档5中对应的字段位置仅为正文。索引词“故事”在文档1、文档3中对应的字段位置为作者，而在文档5中对应的字段位置为题目。索引词“跑”在文档3、文档5中对应的字段位置为正文，而在文档1中对应的字段位置为题目和正文。

另外，根据前述步骤S240，经过文档与索引词的相关性赋值，得到各个索引词在各个文档中不同字段位置的相关性赋值。该索引词位置赋值信息，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值。例如，图3所示检索数据示例中，索引词“兔”在文档1、文档2、文档3、文档4、文档6的题目字段的相关性赋值分别为4、5、3、4、5；在文档1、文档2、文档3、文档4、文档5、文档6的正文字段的相关性赋值分别为5、3、4、3、4、3。索引词“故事”在文档1、文档3的作者字段的相关性赋值分别为5，5；而在文档5题目字段的相关性赋值为3。索引词“跑”在文档3、文档5的正文字段的相关性赋值分别为2，3；而在文档1的题目和正文字段的相关性赋值分别为3，5。

在步骤S580中，根据所述索引词位置信息，生成索引词位置倒排索引表；根据所述索引词位置赋值信息，生成索引词位置赋值倒排索引表。

本公开实施例中，基于前述索引词赋值信息中的索引词位置信息和索引词位置赋值信息，分别构建索引词位置倒排索引表和索引词位置赋值倒排索引表。所述索引词位置倒排索引表，用于表征各个所述索引词在各个所述文档中对应的字段位置。所述索引词位置赋值倒排索引表，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值。

在示例性实施例中，图6是根据一示例示出的索引词位置倒排索引表的示意图。如图6所示，在该索引词位置倒排索引表的左侧列为索引词及对应的字段位置。在图3所示检索数据示例中，索引词包括“兔”、“故事”、“跑”等，字段位置包括“题目”、“正文”、“作者”等。在每个索引词对应字段位置的右侧数列对应于该索引词在该字段位置出现的文档集合。例如，索引词“兔”在题目字段的文档集合为{1，2，3，4，6}，而在正文字段的文档集合为{1，2，3，4，5，6}。索引词“故事”在作者字段的文档集合为{1，3}，而在题目字段的文档集合为{5}。索引词“跑”在题目字段的文档集合为{1}，而在正文字段的文档集合为{1，3，5}。

在示例性实施例中，图7是根据一示例示出的索引词位置赋值倒排索引表的示意图。如图7所示，在该引词位置赋值倒排索引表的左侧列为索引词对应各个字段位置的相关性赋值。在图3所示检索数据示例中，索引词包括“兔”、“故事”、“跑”等，字段位置包括“题目”、“正文”、“作者”等。在每个索引词对应字段位置的相关性赋值的右侧数列对应于该索引词在该字段位置对应于该相关性赋值的文档集合。例如，索引词“兔”在题目字段的相关性赋值为3的文档集合为{3}，相关性赋值为4的文档集合为{1，4}，相关性赋值为5的文档集合为{2，6}；正文字段的相关性赋值为3的文档集合为{2，4，6}，相关性赋值为4的文档集合为{3，5}，相关性赋值为5的文档集合为{1}。索引词“故事”在作者字段的相关性赋值为5的文档集合为{1，3}；题目字段的相关性赋值为3的文档集合为{5}。

另外，各个倒排索引表对应右侧数列的顺序可以按照文档ID的顺序编号，也可以基于该索引词与文档的相关性权重信息进行排序，均应视为在本公开保护范围之内。

在步骤S570中，在前述步骤S270的基础上，还包括：将所述索引词位置倒排索引表和索引词位置赋值倒排索引表，加入到所述检索索引文件集合中。

本公开实施例中，根据该索引词位置倒排索引表和索引词位置赋值倒排索引表，与前述文档标识倒排索引表一并，加入到所述检索索引文件集合中，以供在线检索服务使用。

本公开实施例中所提供的索引生成方法，通过索引词位置信息和索引词位置赋值信息生成索引词位置倒排索引表和索引词位置赋值倒排索引表。由于，索引词的位置确定及其索引词位置赋值的计算比较简单高效。因此，通过该相关倒排索引表，可以提供用户基于索引词位置进行高效初筛归并召回结果，从而优化归并召回结果，进一步提高整体检索效率。

本公开实施例中，图8所示索引生成方法中步骤S810、S820、S830、S840、S850、S860分别与图2所示索引生成方法中步骤S210、S220、S230、S240、S250、S260相对应，在此不再重复。

本公开实施例中，在图2所示索引生成方法的基础上，图8所示索引生成方法还可以包括以下步骤。

在步骤S880中，根据所述索引词赋值信息，生成索引词赋值跳转索引表和索引词赋值索引表；所述索引词赋值跳转索引表，用于表征各个所述文档标识对应的索引词赋值信息的存储地址；所述索引词赋值索引表，用于存储各个所述文档标识对应的索引词赋值信息。

如前所述，索引词在文档中出现的位置、出现的频率、上下文语义关系、字体大小、文档的点赞数等都可能影响索引词与该文档之间相关性的因素。因此，通过不同维度来衡量索引词与文档之间的相关性，能够为更精准的提供检索结果建立基础。

本公开实施例中，索引词赋值信息中还包括各个所述文档对应的更加丰富的索引词赋值信息。并将这些索引词赋值信息存储在索引词赋值索引表中。但是，由于这些索引词赋值信息内容比较丰富，直接进行索引表检索会造成系统响应较慢。因此，为了同时保证系统响应速度，针对该索引词赋值索引表，还同时构建了索引词赋值跳转索引表。该索引词赋值跳转索引表，用于表征各个所述文档对应的索引词赋值信息的存储地址。在检索过程中，确定目标文档后，可以首先基于该索引词赋值跳转索引表确定目标文档的索引词赋值信息的存储地址，再基于该存储地址获取目标文档对应的索引词赋值信息。通过该方法，既可以提供更加丰富的索引词赋值信息提高检索精确性，又可以保证检索系统整体的响应速度。

在步骤S870中，在前述步骤S270的基础上，还包括：将所述索引词赋值跳转索引表和索引词赋值索引表，加入到所述检索索引文件集合中。

本公开实施例中，根据索引词赋值跳转索引表和索引词赋值索引表，与前述文档标识倒排索引表一并，加入到所述检索索引文件集合中，以供在线检索服务使用。

本公开实施例中所提供的索引生成方法，通过索引词赋值跳转索引表和索引词赋值索引表，可以为归并召回检索结果提供精细化的检索词赋值信息，从而为进一步精细化检索结果提供数据基础。

本公开实施例中，提供一种索引生成方法。该索引生成方法，既包括图5所示索引生成方法中的步骤S580，又包括图8所示索引生成方法中的步骤S880。由于上述步骤在前述实施例方案中已经进行介绍，在此就不再重复。

该索引生成方法，通过步骤S580，生成索引词位置倒排索引表和索引词位置赋值倒排索引表。可以通过索引词位置信息和索引词位置赋值信息，对目标文档集合进行高效地快速粗筛，获得更小的目标文档集合。

该索引生成方法，通过步骤S880，生成索引词赋值跳转索引表和索引词赋值索引表。可以为目标文档集合提供更加丰富的索引词赋值信息。

该索引生成方法，可以对目标文档集合进行逐级筛选，通过索引词位置信息和索引词位置赋值信息，进行高效地快速粗筛，减小目标文档集合。同时，通过索引词赋值跳转索引表和索引词赋值索引表，为目标文档集合提供更加丰富的索引词赋值信息。使得该索引生成方法，可以兼顾检索效率和准确性。

本公开实施例中，提供一种索引生成方法。该索引生成方法还可以包括以下步骤。

在步骤S250中，根据所述第二结构化数据，生成基于各个所述文档的文档正排索引表；所述文档正排索引表，用于基于所述文档确定所对应的所述索引词。

本公开实施例中，所谓文档正排索引表是与文档标识倒排索引表相对的。通过文档标识倒排索引表，可以基于索引词查找到所对应的文档。而通过文档正排索引表，可以基于文档查找到所对应的索引词。文档正排索引表，通常基于预先设定的正排索引格式组织形成。例如，文档ID：题目+正文+作者+点赞数。在一些检索场景中，同样需要用到文档正排索引表。

在步骤S270中，所述将所述文档标识倒排索引表和所述索引词赋值信息，加入到检索索引文件集合中，还包括：将所述文档正排索引表，加入到检索索引文件集合中。

本公开实施例中，根据文档正排索引表，与前述文档标识倒排索引表一并，生成统一的检索索引文件，以供在线检索服务使用。

图9是根据一示例性实施例示出的一种文档检索方法的流程图。图9实施例提供的方法可以由任意的电子设备来执行，例如上述图1中的终端设备、或图1中的服务器、或图1中的终端设备和服务器联合执行，但本公开对此不作限定。

如图9所示，本公开实施例提供的文档检索方法可以包括以下步骤。

在步骤S910中，响应于检索请求，对所述检索请求进行语义分析，获得所述检索请求对应的至少一个检索词和语法树。

本公开实施例中，检索请求通常有若干检索词或由检索词组成的短语构成。通过对检索请求进行语义分析，可以从检索请求中分解出若干检索词。另外，检索词还会有其对应的同义词和近义词，为了检索全面、准确，通过语义分析还确定相关检索词的同义词和近义词。同时，检索请求中的检索词之间还存在相关联的语义关系，经过语义分析可以得到各个检索词之间的逻辑关系。这种逻辑关系可以通过由与关系(可用“and”表示)、或关系(可用“or”表示)构成的表达式来表达。最终，将所述检索词与逻辑关系组织起来，形成该检索请求的语法树，并确定至少一个检索词和逻辑运算式。

在示例性实施例中，图10是根据一示例示出的检索请求语法树的示意图。如图10所示，以检索请求“白兔赛跑”为例。该检索请求经过语义分析，被分解为检索词：“白”、“兔”、“赛跑”。进而，基于该检索词确定其相关的同义词和近义词。如，检索词“白”的同义词和近义词包括：“白色”；检索词“兔”的同义词和近义词包括：“小兔”、“兔子”；检索词“跑”的同义词和近义词包括：“赛跑”、“跑步”。同时，基于各个检索词之间的逻辑关系，形成如图10所示的语法树，并确定其逻辑运算式如下：

(((“白”or“白色”)and(“兔”or“小兔”or“兔子”))or(“白兔”))and(“跑”or“赛跑”or“跑步”)

在步骤S920中，确定与各个所述检索词相匹配的索引词；根据文档标识倒排索引表，确定与所述索引词对应的第一文档标识集合；所述文档标识倒排索引表，用于表征各个所述索引词与文档标识的对应关系。

本公开实施例中，根据文档标识倒排索引表，确定各个检索词在文档标识倒排索引表中相匹配的索引词。文档标识倒排索引表，由前述步骤S260确定，用于表征各个所述索引词所对应的所述第一文档标识集合。进而，确定各个检索词所对应的第一文档标识集合。

在示例性实施例中，图10所示检索请求“白兔赛跑”对应的检索词包括：白、白色、兔、小兔、兔子、白兔、跑、赛跑、跑步。根据图4所示的文档标识倒排索引表，确定各个检索词所对应的第一文档标识集合，如表2所示。

表2

在步骤S930中，根据所述语法树，对各个所述索引词所对应的第一文档标识集合进行逻辑归并运算，获得第二文档标识集合第二文档标识集合。

本公开实施例中，逻辑运算式中，“and”关系可以转换成集合运算中的“交集”运算(可用“∩”表示)，“or”关系可以转换成集合运算中的“并集”运算(可用“∪”表示)。基于此，可以将前述获得的各个索引词所对应的第一文档标识集合，通过逻辑运算式转换成各个第一文档标识集合之间的逻辑归并运算，进而得到符合检索请求语义关系的第二文档标识集合。

在示例性实施例中，图11是根据一示例示出的逻辑归并运算的示意图。基于图10所示检索请求的逻辑运算式，以及步骤S920中获得的各个索引词所对应的第一文档标识集合，基于检索请求“白兔赛跑”进行逻辑归并运算，得到第二文档标识集合为{1，3，5}。示意性逻辑归并运算过程，如下：

((({1，2，3，5}∪{})∩({1，2，3，4，5，6}∪{5}∪{1，3，4，5}))∪{1，2})∩({1，3，5}∪{1}∪{1})＝{1，3，5}

在步骤S940中，根据所述第二文档标识集合，确定检索召回文档标识集合。

本公开实施例中，第二文档标识集合为响应于检索请求，确定的检索召回文档标识集合。该检索召回文档标识集合，既可以作为检索结果输出，也可以作为进一步检索分析的基础，以供进一步更精准的检索分析。

本公开实施例中所提供的索引生成方法，基于对检索请求进行语义分析，确定检索词及其之间的逻辑运算式。通过对检索词所对应的第一文档标识集合进行逻辑归并运算，确定检索召回文档标识集合。通过该方法可以高效的实现检索的归并召回，提高检索效率。同时，不存在传统检索方式中召回截断数量的限制。

本公开实施例中，图12所示文档检索方法中步骤S1210、S1220、S1230分别与图9所示文档检索方法中步骤S910、S920、S930相对应，在此不再重复。

本公开实施例中，在图9所示文档检索方法的基础上，图12所示文档检索方法还可以包括以下步骤。

在步骤S1250中，根据索引词位置倒排索引表，确定所述索引词在各个所述文档中对应的字段位置；所述索引词位置倒排索引表，用于表征各个所述索引词在各个所述文档中对应的字段位置字段位置。

本公开实施例中，根据索引词位置倒排索引表，确定与各个所述检索词相匹配的索引词在各个所述文档中对应的字段位置。索引词位置倒排索引表，用于表征各个所述索引词在各个所述文档中对应的字段位置。

在示例性实施例中，为了提高整体检索效率，该根据索引词位置倒排索引表确定字段位置，可以基于前述步骤S930中所确定的第二文档标识集合来确定。

在示例性实施例中，图10所示检索请求“白兔赛跑”对应的检索词包括：白、白色、兔、小兔、兔子、白兔、跑、赛跑、跑步。如图11所示，基于检索请求“白兔赛跑”进行逻辑归并运算，得到第二文档标识集合为{1，3，5}。根据图6所示的索引词位置倒排索引表，确定各个检索词在第二文档标识集合中各个文档对应的字段位置，如表3所示(碍于篇幅有限，其中未涉及文档的部分被省略)。

表3

在步骤S1260中，根据索引词位置赋值倒排索引表，确定所述索引词在各个所述文档的对应字段位置的位置相关性赋值；所述索引词位置赋值倒排索引表，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值；所述位置相关性赋值为，基于所述字段位置，所述索引词与所述文档之间相关性赋值位置相关性赋值。

本公开实施例中，根据索引词位置赋值倒排索引表，确定与各个所述检索词相匹配的索引词在各个所述文档的对应字段位置的位置相关性赋值。索引词位置赋值倒排索引表，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值。

在示例性实施例中，基于前述表3所确定的各个检索词在第二文档标识集合中各个文档对应的字段位置，根据图7所示的索引词位置赋值倒排索引表，确定各个检索词在第二文档标识集合中各个文档的对应字段位置的位置相关性赋值，如表4所示。其中，表4中位置相关性赋值与前面文档集合中文档顺序相对应。

表4

在步骤S1270中，根据各个所述索引词对应的所述字段位置和位置相关性赋值，确定所述第二文档标识集合中各个文档的文档相关性赋值；所述文档相关性赋值，用于表征所述文档与所述检索请求之间相关性的赋值第二文档标识集合。

本公开实施例中，基于前述步骤获得的各个检索词与各个文档之间的字段位置和位置相关性赋值，可以基于预先设置的文档相关性赋值算法进行计算，得到第二文档标识集合中各个文档的文档相关性赋值。下面我们具体给出两种文档相关性赋值算法的可行实施例。

文档相关性赋值算法一

本公开实施例中，该文档相关性赋值算法，确定各个文档所对应索引词的字段位置和位置相关性赋值。将该文档所对应索引词在所有字段位置的位置相关性赋值进行求和计算，所获得的求和结果作为该文档的文档相关性赋值。

在示例性实施例中，基于前述表4所确定的各个索引词在第二文档标识集合中各个文档的对应字段位置的位置相关性赋值。各个文档的文档相关性赋值计算过程如下。为了方便说明，将位置相关性赋值表示为W_n(x，y)；其中n表示文档ID，x表示索引词，y表示字段位置。

文档1的文档相关性赋值W₁，计算如下：

W₁＝W_{1(白，正文)}+W_{1(兔，题目)}+W_{1(兔，正文)}+W_{1(兔子，正文)}+W_{1(白兔，正文)}+W_{1(跑，题目)}+W_{1(跑，正文)}+W_{1(赛跑，题目)}+W_{1(赛跑，正文)}+W_{1(跑步，正文)}＝3+4+5+4+3+3+5+5+1+3＝36

文档3的文档相关性赋值W₃，计算如下：

W₃＝W_{3(白，正文)}+W_{3(兔，题目)}+W_{3(兔，正文)}+W_{3(兔子，正文)}+W_{3(跑，正文)}＝2+3+4+4+2＝15

文档5的文档相关性赋值W₅，计算如下：

W₅＝W_{5(白，正文)}+W_{3(兔，正文)}+W_{3(小兔，正文)}+W_{3(兔子，正文)}+W_{3(跑，正文)}＝1+4+4+5+3＝13

文档相关性赋值算法二

本公开实施例中，该文档相关性赋值算法，确定索引词在第二文档中所对应的各个字段位置和位置相关性赋值。确定所述第二文档标识集合中各个文档的文档相关性赋值。该算法还包括：确定所述索引词在所述文档中各个所述位置相关性赋值中的最大值；根据所述文档所对应各个索引词的所述位置相关性赋值的最大值，确定所述文档相关性赋值。。

在示例性实施例中，基于前述表4所确定的各个检索词在第二文档标识集合中各个文档的对应字段位置的位置相关性赋值。各个文档的文档相关性赋值计算过程如下。为了方便说明，将位置相关性赋值表示为W_n(x，y)；其中n表示文档ID，x表示索引词，y表示字段位置。

文档1的文档相关性赋值W₁，计算如下：

W₁＝W_{1(白，正文)}+max{W_{1(兔，题目)}，W_{1(兔，正文)}}+W_{1(兔子，正文)}+W_{1(白兔，正文)}+max{W_{1(跑，题目)}，W_{1(跑，正文)}}+max{W_{1(赛跑，题目)}，W_{1(赛跑，正文)}}+W_{1(跑步，正文)}＝3+5+4+3+5+5+3＝28

文档3的文档相关性赋值W₃，计算如下：

W₃＝W_{3(白，正文)}+max{W_{3(兔，题目)}，W_{3(兔，正文)}}+W_{3(兔子，正文)}+W_{3(跑，正文)}＝2+4+4+2＝12

文档5的文档相关性赋值W₅，计算如下：

上述文档相关性赋值算法二还可以进一步优化，对于互为同义词的权值不是直接累加，而是取最大值。例如，上述索引词“白兔”、“白”、“兔子”、“兔”的相关性赋值可以基于max{W_(白兔)，(W_(白)+max{W_(兔子)，W_(兔})}计算。而不互为同义词的检索词的权值则累加，例如，上述索引词“白兔”、“赛跑”的相关性赋值可以基于W白_(白兔)+W_(赛跑)计算。

应当指出，根据实际业务的需要以及对检索结果的不同侧重，该文档相关性赋值算法可以通过多种不同算法方案实现，均应视为在本公开保护范围之内。

在步骤S1280中，根据所述文档相关性赋值，对所述第二文档标识集合中各个文档标识进行排序。

在步骤S1240中，所述根据所述第二文档标识集合，确定检索召回文档标识集合，还包括：根据所述第二文档标识集合中各个文档标识的排序，筛选出预设数量的文档标识，确定为所述检索召回文档标识集合。召回文档标识集合召回文档标识集合

本公开实施例中，基于步骤S1280对第二文档标识集合中各个文档的排序，筛选出文档相关性赋值较高的预设数量的文档，作为检索召回文档标识集合。

本公开实施例中所提供的索引生成方法，通过索引词位置倒排索引表和索引词位置赋值倒排索引表，获取检索词对应的字段位置和位置相关性赋值。由于，索引词的位置确定及其索引词位置赋值的计算比较简单高效。因此，通过该相关倒排索引表，可以提供用户基于索引词位置进行高效初筛归并召回结果，从而优化归并召回结果，进一步提高整体检索效率。

本公开实施例中，图13所示文档检索方法中步骤S1310、S1320、S1330分别与图9所示文档检索方法中步骤S910、S920、S930相对应，在此不再重复。

本公开实施例中，在图9所示文档检索方法的基础上，图13所示文档检索方法还可以包括以下步骤。

在步骤S1350中，根据索引词赋值跳转索引表，确定所述检索召回文档标识集合中各个文档标识对应的索引词赋值信息存储地址；所述索引词赋值跳转索引表，用于表征各个所述文档标识对应的索引词赋值信息的存储地址召回文档标识集合。

本公开实施例中，根据索引词赋值跳转索引表，确定所述检索召回文档标识集合中各个文档对应的索引词赋值信息存储地址。索引词赋值跳转索引表，用于表征各个所述文档对应的索引词赋值信息的存储地址。

在步骤S1360中，根据所述索引词赋值信息存储地址，通过索引词赋值索引表，获取所述各个文档标识对应的索引词赋值信息；所述索引词赋值索引表，用于存储各个所述文档标识对应的索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值。

本公开实施例中，根据所述索引词赋值信息存储地址，通过索引词赋值索引表，获取所述各个文档对应的索引词赋值信息。索引词赋值索引表，用于存储各个所述文档对应的索引词赋值信息。

在步骤S1340中，将所述检索召回文档标识集合及所述各个文档标识对应的索引词赋值信息，作为检索结果。

本公开实施例中，将检索召回文档标识集合及对应的索引词赋值信息一并作为检索结果，可以作为进一步检索分析的基础，以供进一步更精准的检索分析。

本公开实施例中，提供一种文档检索方法。该文档检索方法，既包括图12所示文档检索方法中的步骤S1250、步骤S1260、步骤S1270、步骤S1280，又包括图13所示文档检索方法中的步骤S1350、步骤S1360。由于上述步骤在前述实施例方案中已经进行介绍，在此就不再重复。

该文档检索方法，通过步骤S1250、步骤S1260、步骤S1270、步骤S1280，可以在第二文档标识集合的基础上，通过索引词位置信息和索引词位置赋值信息，对目标文档集合进行高效地快速粗筛，获得更小的目标文档集合。

该文档检索方法，通过步骤S1350、步骤S1360，通过索引词赋值跳转索引表和索引词赋值索引表，可以为目标文档集合提供更加丰富的索引词赋值信息。

该文档检索方法，可以对目标文档集合进行逐级筛选，通过索引词位置信息和索引词位置赋值信息，进行高效地快速粗筛，减小目标文档集合。同时，通过索引词赋值跳转索引表和索引词赋值索引表，为目标文档集合提供更加丰富的索引词赋值信息。使得该索引生成方法，可以兼顾检索效率和准确性。

本公开实施例中，提供一种文档检索方法。该文档检索方法还可以包括以下步骤。

在步骤S950中，根据文档正排索引表，确定所述检索召回文档标识集合中各个所述文档所对应的索引词；所述文档正排索引表，用于基于所述文档确定所对应的所述索引词。

本公开实施例中，检索召回文档标识集合中各个文档的索引词也一并输出，作为检索结果。

还应理解，在本公开的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

上文详细介绍了本公开提供的索引生成方法或文档检索方法示例。可以理解的是，计算机设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图14是根据一示例性实施例示出的一种索引生成装置的框图。参照图14，该装置1400可以包括：第一结构化数据生成模块1410、分词模块1420、文档标识模块1430、索引词赋值模块1440、第二结构化数据生成模块1450、索引表生成模块1460、检索索引文件生成模块1470。

其中，第一结构化数据生成模块1410，被配置为基于预设的配置文件，对检索数据库中的至少一个文档进行预处理，形成第一结构化数据。

分词模块1420，被配置为根据所述第一结构化数据和所述配置文件，对所述至少一个文档进行分词处理，生成至少一个索引词。

文档标识模块1430，被配置为确定所述至少一个文档对应的文档标识。

索引词赋值模块1440，被配置为根据所述索引词与所述文档之间的相关性，得到索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值。

第二结构化数据生成模块1450，被配置为根据所述文档和索引词，形成第二结构化数据；所述第二结构化数据中至少包括文档对应关系信息；所述文档对应关系信息，用于表征所述文档标识与索引词的对应关系。

索引表生成模块1460，被配置为根据所述第二结构化数据，生成用于表征各个所述索引词与所述文档标识对应关系的文档标识集合；根据所述文档标识集合，生成文档标识倒排索引表。

检索索引文件生成模块1470，被配置为将所述文档标识倒排索引表和所述索引词赋值信息，加入到检索索引文件集合中。

在本公开的一些示例性实施例中，所述索引表生成模块1460，还被配置为

所述索引词赋值信息中至少包括：索引词位置信息和索引词位置赋值信息；所述索引词位置信息，用于表征各个所述索引词在各个所述文档中对应的字段位置；所述索引词位置赋值信息，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值；所述位置相关性赋值为，基于所述字段位置，所述索引词与所述文档之间相关性赋值；根据所述索引词位置信息，生成索引词位置倒排索引表；根据所述索引词位置赋值信息，生成索引词位置赋值倒排索引表；所述检索索引文件生成模块1470，还被配置为将所述索引词位置倒排索引表和索引词位置赋值倒排索引表，加入到所述检索索引文件集合中。

在本公开的一些示例性实施例中，所述索引表生成模块1460，还被配置为根据所述索引词赋值信息，生成索引词赋值跳转索引表和索引词赋值索引表；所述索引词赋值跳转索引表，用于表征各个所述文档标识对应的索引词赋值信息的存储地址；所述索引词赋值索引表，用于存储各个所述文档标识对应的索引词赋值信息；所述检索索引文件生成模块1470，还被配置为将所述索引词赋值跳转索引表和索引词赋值索引表，加入到所述检索索引文件集合中。

图15是根据一示例性实施例示出的一种文档检索装置的框图。参照图15，该装置1500可以包括：检索请求分析模块1510、文档集合确定模块1520、逻辑运算模块1530、检索结果确定模块1540。

其中，检索请求分析模块1510，被配置为响应于检索请求，对所述检索请求进行语义分析，获得所述检索请求对应的至少一个检索词和语法树。

文档集合确定模块1520，被配置为确定与各个所述检索词相匹配的索引词；根据文档标识倒排索引表，确定与所述索引词对应的第一文档标识集合；所述文档标识倒排索引表，用于表征各个所述索引词与文档标识的对应关系。

逻辑运算模块1530，被配置为根据所述语法树，对各个所述索引词所对应的第一文档标识集合进行逻辑归并运算，获得第二文档标识集合。

检索结果确定模块1540，被配置为根据所述第二文档标识集合，确定检索召回文档标识集合。

在本公开的一些示例性实施例中，相关性赋值确定模块，被配置为根据索引词位置倒排索引表，确定所述索引词在各个所述文档中对应的字段位置；所述索引词位置倒排索引表，用于表征各个所述索引词在各个所述文档中对应的字段位置；根据索引词位置赋值倒排索引表，确定所述索引词在各个所述文档的对应字段位置的位置相关性赋值；所述索引词位置赋值倒排索引表，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值；所述位置相关性赋值为，基于所述字段位置，所述索引词与所述文档之间相关性赋值；根据各个所述索引词对应的所述字段位置和位置相关性赋值，确定所述第二文档标识集合中各个文档的文档相关性赋值；所述文档相关性赋值，用于表征所述文档与所述检索请求之间相关性的赋值；根据所述文档相关性赋值，对所述第二文档标识集合中各个文档标识进行排序。所述检索结果确定模块1540，还被配置为根据所述第二文档标识集合中各个文档标识的排序，筛选出预设数量的文档标识，确定为所述检索召回文档标识集合。

在本公开的一些示例性实施例中，所述相关性赋值确定模块，还被配置为确定所述索引词在所述文档中各个所述位置相关性赋值中的最大值；根据所述文档所对应各个索引词的所述位置相关性赋值的最大值，确定所述文档相关性赋值。

在本公开的一些示例性实施例中，所述相关性赋值确定模块，还被配置为根据索引词赋值跳转索引表，确定所述检索召回文档标识集合中各个文档标识对应的索引词赋值信息存储地址；所述索引词赋值跳转索引表，用于表征各个所述文档标识对应的索引词赋值信息的存储地址；根据所述索引词赋值信息存储地址，通过索引词赋值索引表，获取所述各个文档标识对应的索引词赋值信息；所述索引词赋值索引表，用于存储各个所述文档标识对应的索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值。所述检索结果确定模块1540，还被配置为将所述检索召回文档标识集合及所述各个文档标识对应的索引词赋值信息，作为检索结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

下面参照图16来描述根据本公开的这种实施例的电子设备1600。图16显示的电子设备1600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图16所示，电子设备1600以通用计算设备的形式表现。电子设备1600的组件可以包括但不限于：上述至少一个处理单元1610、上述至少一个存储单元1620、连接不同系统组件(包括存储单元1620和处理单元1610)的总线1630、显示单元1640。

其中，存储单元存储有程序代码，程序代码可以被处理单元1610执行，使得处理单元1610执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。例如，处理单元1610可以执行如图2或图10中所示的各个步骤。

又如，电子设备可以实现如图2或图9所示的各个步骤。

存储单元1620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1621和/或高速缓存存储单元1622，还可以进一步包括只读存储单元(ROM)1623。

存储单元1620还可以包括具有一组(至少一个)程序模块1625的程序/实用工具1624，这样的程序模块1625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1600也可以与一个或多个外部设备1670(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1600交互的设备通信，和/或与使得该电子设备1600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1650进行。并且，电子设备1600还可以通过网络适配器1660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1660通过总线1630与电子设备1600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述实施例中的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种索引生成方法，其特征在于，包括：

基于预设的配置文件，对检索数据库中的至少一个文档进行预处理，形成第一结构化数据；

根据所述第一结构化数据和所述配置文件，对所述至少一个文档进行分词处理，生成至少一个索引词；

确定所述至少一个文档对应的文档标识；

根据所述索引词与所述文档之间的相关性，得到索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值；

根据所述文档和所述索引词，形成第二结构化数据；所述第二结构化数据中至少包括文档对应关系信息；所述文档对应关系信息，用于表征所述文档标识与索引词的对应关系；

根据所述第二结构化数据，生成用于表征各个所述索引词与所述文档标识对应关系的文档标识集合；根据所述文档标识集合，生成文档标识倒排索引表；

将所述文档标识倒排索引表和所述索引词赋值信息，加入到检索索引文件集合中。

2.根据权利要求1所述的索引生成方法，其特征在于，所述方法还包括：

所述索引词赋值信息中至少包括：索引词位置信息和索引词位置赋值信息；所述索引词位置信息，用于表征各个所述索引词在各个所述文档中对应的字段位置；所述索引词位置赋值信息，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值；所述位置相关性赋值为，基于所述字段位置，所述索引词与所述文档之间相关性赋值；

根据所述索引词位置信息，生成索引词位置倒排索引表；根据所述索引词位置赋值信息，生成索引词位置赋值倒排索引表；

将所述索引词位置倒排索引表和索引词位置赋值倒排索引表，加入到所述检索索引文件集合中。

3.根据权利要求1所述的索引生成方法，其特征在于，所述方法还包括：

根据所述索引词赋值信息，生成索引词赋值跳转索引表和索引词赋值索引表；所述索引词赋值跳转索引表，用于表征各个所述文档标识对应的索引词赋值信息的存储地址；所述索引词赋值索引表，用于存储各个所述文档标识对应的索引词赋值信息；

将所述索引词赋值跳转索引表和索引词赋值索引表，加入到所述检索索引文件集合中。

4.一种文档检索方法，其特征在于，包括：

响应于检索请求，对所述检索请求进行语义分析，获得所述检索请求对应的至少一个检索词和语法树；

确定与各个所述检索词相匹配的索引词；根据文档标识倒排索引表，确定与所述索引词对应的第一文档标识集合；所述文档标识倒排索引表，用于表征各个所述索引词与文档标识的对应关系；

根据所述语法树，对各个所述索引词所对应的第一文档标识集合进行逻辑归并运算，获得第二文档标识集合；

根据所述第二文档标识集合，确定检索召回文档标识集合。

5.根据权利要求4所述的文档检索方法，其特征在于，所述方法还包括：

根据索引词位置倒排索引表，确定所述索引词在各个所述文档中对应的字段位置；所述索引词位置倒排索引表，用于表征各个所述索引词在各个所述文档中对应的字段位置；

根据索引词位置赋值倒排索引表，确定所述索引词在各个所述文档的对应字段位置的位置相关性赋值；所述索引词位置赋值倒排索引表，用于表征各个所述索引词在各个所述文档中对应字段位置的位置相关性赋值；所述位置相关性赋值为，基于所述字段位置，所述索引词与所述文档之间相关性赋值；

根据各个所述索引词对应的所述字段位置和位置相关性赋值，确定所述第二文档标识集合中各个文档的文档相关性赋值；所述文档相关性赋值，用于表征所述文档与所述检索请求之间相关性的赋值；

根据所述文档相关性赋值，对所述第二文档标识集合中各个文档标识进行排序；

所述根据所述第二文档标识集合，确定检索召回文档标识集合，还包括：根据所述第二文档标识集合中各个文档标识的排序，筛选出预设数量的文档标识，确定为所述检索召回文档标识集合。

6.根据权利要求5所述的文档检索方法，其特征在于，根据各个所述索引词对应的所述字段位置和位置相关性赋值，确定所述第二文档标识集合中各个文档的文档相关性赋值，还包括：

确定所述索引词在所述文档中各个所述位置相关性赋值中的最大值；

根据所述文档所对应各个索引词的所述位置相关性赋值的最大值，确定所述文档相关性赋值。

7.根据权利要求4至6中任一项所述的文档检索方法，其特征在于，所述方法还包括：

根据索引词赋值跳转索引表，确定所述检索召回文档标识集合中各个文档标识对应的索引词赋值信息存储地址；所述索引词赋值跳转索引表，用于表征各个所述文档标识对应的索引词赋值信息的存储地址；

根据所述索引词赋值信息存储地址，通过索引词赋值索引表，获取所述各个文档标识对应的索引词赋值信息；所述索引词赋值索引表，用于存储各个所述文档标识对应的索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值；

将所述检索召回文档标识集合及所述各个文档标识对应的索引词赋值信息，作为检索结果。

8.一种索引生成装置，其特征在于，包括：

第一结构化数据生成模块，被配置为基于预设的配置文件，对检索数据库中的至少一个文档进行预处理，形成第一结构化数据；

分词模块，被配置为根据所述第一结构化数据和所述配置文件，对所述至少一个文档进行分词处理，生成至少一个索引词；

文档标识模块，被配置为确定所述至少一个文档对应的文档标识；

索引词赋值模块，被配置为根据所述索引词与所述文档之间的相关性，得到索引词赋值信息；所述索引词赋值信息，用于表征各个所述索引词在各个所述文档中对应的相关性赋值；

第二结构化数据生成模块，被配置为根据所述文档和索引词，形成第二结构化数据；所述第二结构化数据中至少包括文档对应关系信息；所述文档对应关系信息，用于表征所述文档标识与索引词的对应关系；

索引表生成模块，被配置为根据所述第二结构化数据，生成用于表征各个所述索引词与所述文档标识对应关系的文档标识集合；根据所述文档标识集合，生成文档标识倒排索引表；

检索索引文件模块，被配置为将所述文档标识倒排索引表和所述索引词赋值信息，加入到检索索引文件集合中。

9.一种文档检索装置，其特征在于，包括：

检索请求分析模块，被配置为响应于检索请求，对所述检索请求进行语义分析，获得所述检索请求对应的至少一个检索词和语法树；

文档集合确定模块，被配置为确定与各个所述检索词相匹配的索引词；根据文档标识倒排索引表，确定与所述索引词对应的第一文档标识集合；所述文档标识倒排索引表，用于表征各个所述索引词与文档标识的对应关系；

逻辑运算模块，被配置为根据所述语法树，对各个所述索引词所对应的第一文档标识集合进行逻辑归并运算，获得第二文档标识集合；

检索结果确定模块，被配置为根据所述第二文档标识集合，确定检索召回文档标识集合。

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1至3中任一项所述的索引生成方法，或如权利要求4至7中任一项所述的文档检索方法。

11.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至3中任一项所述的索引生成方法，或如权利要求4至7中任一项所述的文档检索方法。