CN112948533A

CN112948533A - 一种多次检索和排序的文本检索方法

Info

Publication number: CN112948533A
Application number: CN202110397297.XA
Authority: CN
Inventors: 莫迪; 莫桐
Original assignee: Tianjin Luzhi Technology Co ltd
Current assignee: Tianjin Luzhi Technology Co ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-06-11

Abstract

本发明公开了一种多次检索和排序的文本检索方法，包括快速入门、索引管理和映射详解，所述索引管理包括索引管理、索引监控和状态管理。该种多次检索和排序的文本检索方法，本案在使用elasticsearch的基础上，再逐步使用更为复杂的算法进行多次的检索和排序，为后面的答案预测提供更加精确的权重。

Description

一种多次检索和排序的文本检索方法

技术领域

本发明涉及文本检索技术领域，具体为一种多次检索和排序的文本检索方法。

背景技术

在智能问答系统中的文档检索阶段，会使用elasticsearch对海量的文档进行检索，检索出最为相关的若干篇，这些相关文档会送到多文档阅读理解模型进行进一步的预测答案。然而这些检索出来的文档以及其相关度排序是在海量的文档基础上进行的，而且相关度计算的方法也相对比较简单。因此我们对此做出改进，提出一种多次检索和排序的文本检索方法。

发明内容

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种多次检索和排序的文本检索方法，包括快速入门、索引管理和映射详解，所述索引管理包括索引管理、索引监控和状态管理。

作为本发明的一种优选技术方案，所述快速入门包括以下步骤：

步骤一：查看集群的健康状况；

步骤二：查看所有索引；

步骤三：创建一个索引；

步骤四：索引一个文档到customer索引中；

步骤五：从customer索引中获取指定id的文档；

步骤六：查询所有文档。

作为本发明的一种优选技术方案，所述在步骤一中，查看集群的健康状况单元中，通过状态值说明情况，Green表示即最佳状态，Yellow表示即数据和集群可用，但是集群的备份有的是坏的，Red表示即数据和集群都不可用。

作为本发明的一种优选技术方案，所述索引监控包括以下步骤：

步骤一：创建索引，创建一个名为twitter的索引，设置索引的分片数为3，备份数为2；

步骤二：创建mapping映射，在ES中创建一个mapping映射类似于在数据库中定义表结构，即表里面有哪些字段、字段是什么类型、字段的默认值等；也类似于solr里面的模式schema的定义；

步骤三：创建索引时加入别名定义，一个索引可以接受多个别名，而一个别名也可以映射到多个索引，当指定别名时，别名将自动扩展到添加的索引，别名也可以关联到filter，然后自动应用到检索，和routingvalue，别名不能与索引同名，创建一个带过滤器的别名，首先需要确保所有的字段都存在于mapping中；

步骤四：创建索引时返回的结果说明；

步骤五：GetIndex查看索引的定义信息，GET/twitter，可以一次获取多个索引（以逗号间隔）获取所有索引_all或用通配符*；

步骤六：删除索引，DELETE/twitter，可以一次删除多个索引（以逗号间隔）删除所有索引_all或通配符*；

步骤七：判断索引是否存在，HEADtwitter，HTTPstatuscode表示结果404不存在，200存在；

步骤八：修改索引的settings信息，索引的设置信息分为静态信息和动态信息两部分，静态信息不可更改，如索引的分片数，动态信息可以修改。

步骤九：修改备份数；

步骤十：设置回默认值，用null；

步骤十一：设置索引的读写；

步骤十二：索引模板，在创建索引时，为每个索引写定义信息可能是一件繁琐的事情，ES提供了索引模板功能，让你可以定义一个索引模板，模板中定义好settings、mapping、以及一个模式定义来匹配创建的索引，模板只在索引创建时被参考，修改模板不会影响已创建的索引；

步骤十三：Open/CloseIndex打开/关闭索引，关闭的索引不能进行读写操作，几乎不占集群开销，关闭的索引可以打开，打开走的是正常的恢复流程；

步骤十四：ShrinkIndex收缩索引，索引的分片数是不可更改的，如要减少分片数可以通过收缩方式收缩为一个新的索引，新索引的分片数必须是原分片数的因子值，如原分片数是8，则新索引的分片数可以为4、2、1；

步骤十五：SplitIndex拆分索引，当索引的分片容量过大时，可以通过拆分操作将索引拆分为一个倍数分片数的新索引。能拆分为几倍由创建索引时指定的index.number_of_routing_shards路由分片数决定，这个路由分片数决定了根据一致性hash路由文档到分片的散列空间；

步骤十六：RolloverIndex别名滚动指向新创建的索引，对于有时效性的索引数据，如日志，过一定时间后，老的索引数据就没有用了，可以像数据库中根据时间创建表来存放不同时段的数据一样，在ES中也可用建多个索引的方式来分开存放不同时段的数据，比数据库中更方便的是ES中可以通过别名滚动指向最新的索引的方式，让你通过别名来操作时总是操作的最新的索引；

步骤十七：索引监控，可用于查看索引状态信息、查看索引段信息、查看索引恢复信息和查看索引分片的存储信息；

步骤十八：索引状态管理，用于ClearCache清理缓存、Refresh，重新打开读取索引、Flush，将缓存在内存中的索引数据刷新到持久存储中和Forcemerge强制段合并。

作为本发明的一种优选技术方案，所述步骤一中，在ES中创建一个索引类似于在数据库中建立一个数据库(ES6.0之后类似于创建一个表)，默认的分片数是5到1024，默认的备份数是1，索引的名称必须是小写的，不可重名。

作为本发明的一种优选技术方案，所述步骤十二中，新增/修改名为tempae_1的模板，匹配名称为te*或bar*的索引创建，查看索引模板，删除模板。

作为本发明的一种优选技术方案，所述步骤十五中，只有在创建时指定了index.number_of_routing_shards的索引才可以进行拆分，ES7开始将不再有这个限制，和solr的区别是，solr是对一个分片进行拆分，es中是整个索引进行拆分。

作为本发明的一种优选技术方案，所述映射详解为索引中有什么字段、字段的类型等结构信息，相当于数据库中表结构定义，或solr中的schema。因为lucene索引文档时需要知道该如何来索引存储文档的字段，ES中支持手动定义映射，动态映射两种方式。

本发明的有益效果是：该种多次检索和排序的文本检索方法，本案在使用elasticsearch的基础上，再逐步使用更为复杂的算法进行多次的检索和排序，为后面的答案预测提供更加精确的权重；

由于在确定每个词语的词权重时是利用的有监督的词权重模型实现的，这些模型是基于大量经过预先标注的数据集训练得到的，因此，所确定的词权重更为准确，从而进一步提高了文本检索的准确率；

进一步，在本说明书的实施例中，通过融合模型可以将词语召回和向量召回两种方式的召回结果进行融合，并保证检索结果中包含与用户输入的第一文本最为匹配的文本，也即包含文本检索的“最佳答案”。

具体实施方式

以下对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：本发明一种多次检索和排序的文本检索方法，包括快速入门、索引管理和映射详解，索引管理包括索引管理、索引监控和状态管理。

其中，快速入门包括以下步骤：

步骤一：查看集群的健康状况；

步骤二：查看所有索引；

步骤三：创建一个索引；

步骤四：索引一个文档到customer索引中；

步骤五：从customer索引中获取指定id的文档；

步骤六：查询所有文档。

其中，在步骤一中，查看集群的健康状况单元中，通过状态值说明情况，Green表示即最佳状态，Yellow表示即数据和集群可用，但是集群的备份有的是坏的，Red表示即数据和集群都不可用。

其中，索引监控包括以下步骤：

步骤四：创建索引时返回的结果说明；

步骤九：修改备份数；

步骤十：设置回默认值，用null；

步骤十一：设置索引的读写；

其中，步骤一中，在ES中创建一个索引类似于在数据库中建立一个数据库(ES6.0之后类似于创建一个表)，默认的分片数是5到1024，默认的备份数是1，索引的名称必须是小写的，不可重名。

其中，步骤十二中，新增/修改名为tempae_1的模板，匹配名称为te*或bar*的索引创建，查看索引模板，删除模板。

其中，步骤十五中，只有在创建时指定了index.number_of_routing_shards的索引才可以进行拆分，ES7开始将不再有这个限制，和solr的区别是，solr是对一个分片进行拆分，es中是整个索引进行拆分。

其中，映射详解为索引中有什么字段、字段的类型等结构信息，相当于数据库中表结构定义，或solr中的schema。因为lucene索引文档时需要知道该如何来索引存储文档的字段，ES中支持手动定义映射，动态映射两种方式。

工作原理：本案在使用elasticsearch的基础上，再逐步使用更为复杂的算法进行多次的检索和排序，为后面的答案预测提供更加精确的权重；由于在确定每个词语的词权重时是利用的有监督的词权重模型实现的，这些模型是基于大量经过预先标注的数据集训练得到的，因此，所确定的词权重更为准确，从而进一步提高了文本检索的准确率；

最后应说明的是：在本发明的描述中，需要说明的是，术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多次检索和排序的文本检索方法，包括快速入门、索引管理和映射详解，其特征在于，所述索引管理包括索引管理、索引监控和状态管理。

2.根据权利要求1所述的一种多次检索和排序的文本检索方法，其特征在于，所述快速入门包括以下步骤：

步骤一：查看集群的健康状况；

步骤二：查看所有索引；

步骤三：创建一个索引；

步骤四：索引一个文档到customer索引中；

步骤五：从customer索引中获取指定id的文档；

步骤六：查询所有文档。

3.根据权利要求2所述的一种多次检索和排序的文本检索方法，其特征在于，所述在步骤一中，查看集群的健康状况单元中，通过状态值说明情况，Green表示即最佳状态，Yellow表示即数据和集群可用，但是集群的备份有的是坏的，Red表示即数据和集群都不可用。

4.根据权利要求1所述的一种多次检索和排序的文本检索方法，其特征在于，所述索引监控包括以下步骤：

步骤四：创建索引时返回的结果说明；

步骤八：修改索引的settings信息，索引的设置信息分为静态信息和动态信息两部分，静态信息不可更改，如索引的分片数，动态信息可以修改;

步骤九：修改备份数；

步骤十：设置回默认值，用null；

步骤十一：设置索引的读写；

步骤十五：SplitIndex拆分索引，当索引的分片容量过大时，可以通过拆分操作将索引拆分为一个倍数分片数的新索引;

能拆分为几倍由创建索引时指定的index.number_of_routing_shards路由分片数决定，这个路由分片数决定了根据一致性hash路由文档到分片的散列空间；

5.根据权利要求4所述的一种多次检索和排序的文本检索方法，其特征在于，所述步骤一中，在ES中创建一个索引类似于在数据库中建立一个数据库(ES6.0之后类似于创建一个表)，默认的分片数是5到1024，默认的备份数是1，索引的名称必须是小写的，不可重名。

6.根据权利要求4所述的一种多次检索和排序的文本检索方法，其特征在于，所述步骤十二中，新增/修改名为tempae_1的模板，匹配名称为te*或bar*的索引创建，查看索引模板，删除模板。

7.根据权利要求4所述的一种多次检索和排序的文本检索方法，其特征在于，所述步骤十五中，只有在创建时指定了index.number_of_routing_shards的索引才可以进行拆分，ES7开始将不再有这个限制，和solr的区别是，solr是对一个分片进行拆分，es中是整个索引进行拆分。

8.根据权利要求1所述的一种多次检索和排序的文本检索方法，其特征在于，所述映射详解为索引中有什么字段、字段的类型等结构信息，相当于数据库中表结构定义，或solr中的schema,因为lucene索引文档时需要知道该如何来索引存储文档的字段，ES中支持手动定义映射，动态映射两种方式。