CN115408491B

CN115408491B - 一种历史数据的文本检索方法及系统

Info

Publication number: CN115408491B
Application number: CN202211358963.XA
Authority: CN
Inventors: 谢小能; 李思伟; 蓝建敏; 池沐霖; 纪绿彬
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-01-17
Anticipated expiration: 2042-11-02
Also published as: CN115408491A

Abstract

本发明提供了一种历史数据的文本检索方法及系统，属于大数据领域，通过文字检索技术，获取检索结果，检索结果为文档的列表；将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到该个关键词的文档序列；输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组；输入多批关键词，分别获取对应的多个文档对组；根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间，实现了增强历史数据使用的稳定性与复用性的有益效果。

Description

一种历史数据的文本检索方法及系统

技术领域

本发明属于大数据领域，具体涉及一种历史数据的文本检索方法及系统。

背景技术

社会数据设备随着时间的叠加规模增大，大型企业的信息系统产生的历史数据越来越多，而且历史数据的增长量也越来越快。

大型企业的历史数据包含较多的重要信息、敏感信息，基于企业自身业务需求或监管需求，不能轻易删除历史数据，需对信息系统所产生的历史数据进行存储。过去一般采用结构化存储方式，每个存储周期将结构化历史数据全量备份保存于专门搭建的数据库、数据表中，或保存在增设的磁带库中。然而，随着大数据时代的到来，存储于数据库中的结构化历史数据量将飞速增长，从而导致数据库和磁带库消耗的存储资源将越来越大、存储成本将越来越高。

发明内容

本发明的目的在于提出一种历史数据的文本检索方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

本发明提供了一种历史数据的文本检索方法及系统，输入一个关键词，通过文字检索技术，获取检索结果，检索结果为文档的列表；将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列；输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组；输入多批关键词，分别获取对应的多个文档对组；根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间。

为了实现上述目的，根据本发明的一方面，提供一种历史数据的文本检索方法，在计算机中储存有多个不同的文本文档，每个文本文档有其对应的唯一的索引号，其中以输入的字符串作为关键词对文本文档进行搜索，所述方法包括以下步骤：

S100，输入一个关键词，通过文字检索技术，获取检索结果，检索结果为文档的列表；

S200，将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列；

S300，输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组；

S400，输入多批关键词，分别获取对应的多个文档对组；

S500，根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间。

进一步地，在S100中，输入一个关键词，通过文字检索技术，获取检索结果，检索结果为文档的列表的方法为：将通过计算机输入设备得到的关键词，通过包括Elasticsearch的文字检索工具，获取检索结果，检索结果为文档的列表，文档的列表由检索得到的各个文档的索引号组成。

进一步地，在S200中，将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列的方法为：将检索结果中的各文档，根据各文档中的文字内容，使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度，通过语义相似度的顺序，将各个文档的索引号进行排序得到的序列即为文档序列，索引序列为一个文档在计算机存储系统中的索引。

进一步地，在S300中，输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组的方法为：分别获取所述一批关键词中的各关键词的文档序列，各文档序列的长度相等，以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵，记所述一批关键词中的各关键词的文档序列中文档序列的数量为m，每个文档序列包含有n个不同的文档的索引号，索引号的数值为正整数，其中，在m个文档序列中各元素的序号为j，在文档序列的n个索引号中各元素的序号为i，i∈[1,n]，j∈[1,m]，由此将文档索引矩阵记为n行m列的矩阵，使用i为文档索引矩阵的行序号，使用j为文档索引矩阵的列序号，文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列，文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号，记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j)，记文档索引矩阵中列的序号为j而行的序号为i的元素对应的索引号的数值为val(i,j)；

进而，构建文档对组的方法为：

构建一个与文档索引矩阵的行列大小相同且行列序号相同的二维数组作为该一批关键词的对应的文档对组，并记录文档对组中每个元素与其在文档索引矩阵中相同行列序号的元素的对应的索引号；

记文档对组为Du，Du中行序号为i列序号为j的元素记为Du(i,j)；

计算计算机中储存的各文本文档的索引号的算术平均值为val(avg)；

则Du(i,j)的数值的计算公式为：

，

，

以此分别计算得到Du中各Du(i,j)的数值，从而构建文档对组Du；

（在现有的文本存储技术中，如果不使用所述文档对组，则需要面临n乘以m大小的矩阵计算，其中m和n任一方稍有增加一个维度，计算量都会急剧增加，在此基础上若想利用此数据再进行任何特征工程还是模型学习都会严重加重负担，而构建文档对组有利于将各行各列隐形的语义相似度进行压缩，这将各行各列元素对应的数据间语义相似度有效地归纳，更方便于后续对存储的各关键词的文档序列的复用率的提高以及再次计算成本的减少）。

进一步地，在S400中，输入多批关键词，分别获取对应的多个文档对组的方法为：

以输入多个不同的关键词作为一批关键词，则以此重复多次得到多批关键词，再获取对应的多个文档对组。

进一步地，在S500中，根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间的方法为：

获取多个不同文档对组，并将所述多个不同文档对组所组成的序列作为文档对组序列；

记文档对组序列为Dseq，Dseq中元素的数量记为d，Dseq中元素的序号记为t，t∈[1,d]，Dseq中序号t的元素为Du_t，各Du_t中行列的数量及行列的序号与Du中行列的数量及行列的序号继续保持一致，Du_t亦为n行m列，Du_t的行序号为i而列序号为j，Du_t中行序号为i列序号为j的元素为Du_t(i,j)；

对文档对组序列中各个文档对组中相同行序号列序列的位置，计算各个位置的文本关节值，记各个文档对组中行序号为i列序号为j的位置的文本关节值为a(i,j)，a(i,j)的数值的计算公式为：

，

根据各个位置的文本关节值，选取出文本关节值最大的n个位置，再根据所述n个位置在Dseq中序号d的元素中选取相应位置的索引号所对应的文本文档，由此得到n个文本文档，再将这n个文本文档进行去除重复的后组成集合Nset；

（本方法这样操作有利于充分利用文本关节值对全体数据的局部性标识作用，在别的现有方法里面经常要再次获取历史数据进行重复计算，尤其是在有数据加入的情况下，而本发明所述ns个类别不同于现有技术中的产生方式，不需要对数据长时间的迭代计算，在节省时间的基础上，使得文本文档的大规模储存场景具有稳定性，因为计算得到的ns个类别在分布式数据集群中进行存储区域的划分是可复现的可再次并长期于大规模数据集群中使用的，即是说用户在大规模数据不能轻易再次查询、访问或获取的前提下，以及不可轻易增删改查的前提下，本方法的计算成果是稳定复用的）；

以Nset中的文本文档进行向量化作为聚类的核心，记Nset中元素的数量为ns，再将计算机中储存有的文本文档，根据聚类的核心进行划分成ns个类别，将ns个类别在分布式数据集群中进行存储区域的划分。

本发明还提供了一种历史数据的文本检索系统，所述一种历史数据的文本检索系统运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的任一计算设备中，所述计算设备包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种历史数据的文本检索方法中的步骤，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群，所述处理器执行所述计算机程序运行在以下系统的单元中：

文字检索单元，用于输入一个关键词，通过文字检索技术，获取检索结果，检索结果为文档的列表；

排序单元，用于将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列；

文档对组构建单元，用于输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组；

多批获取单元，用于输入多批关键词，分别获取对应的多个文档对组；

划分存储单元，用于根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间。

本发明的有益效果为：本发明提供了一种历史数据的文本检索方法及系统，通过文字检索技术，获取检索结果，检索结果为文档的列表；将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列；输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组；输入多批关键词，分别获取对应的多个文档对组；根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间，实现了增强历史数据使用的稳定性与复用性的有益效果。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种历史数据的文本检索方法的流程图；

图2所示为一种历史数据的文本检索系统的系统结构图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

如图1所示为根据本发明的一种历史数据的文本检索方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种历史数据的文本检索方法及系统。

本发明提出一种历史数据的文本检索方法，所述方法具体包括以下步骤：

S400，输入多批关键词，分别获取对应的多个文档对组；

进而，构建文档对组的方法为：

记文档对组为Du，Du中行序号为i列序号为j的元素记为Du(i,j)；

则Du(i,j)的数值的计算公式为：

，

，

以此分别计算得到Du中各Du(i,j)的数值，从而构建Du。

，

所述一种历史数据的文本检索系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种历史数据的文本检索方法实施例中的步骤，所述一种历史数据的文本检索系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群。

本发明的实施例提供的一种历史数据的文本检索系统，如图2所示，该实施例的一种历史数据的文本检索系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种历史数据的文本检索方法实施例中的步骤，所述处理器执行所述计算机程序运行在以下系统的单元中：

所述一种历史数据的文本检索系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中。所述一种历史数据的文本检索系统包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种历史数据的文本检索方法及系统的示例，并不构成对一种历史数据的文本检索方法及系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种历史数据的文本检索系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种历史数据的文本检索系统的控制中心，利用各种接口和线路连接整个一种历史数据的文本检索系统的各个分区域。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种历史数据的文本检索方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明提供了一种历史数据的文本检索方法及系统，通过文字检索技术，获取检索结果，检索结果为文档的列表；将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列；输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组；输入多批关键词，分别获取对应的多个文档对组；根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间，实现了增强历史数据使用的稳定性与复用性的有益效果。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

1.一种历史数据的文本检索方法，在计算机中储存有多个不同的文本文档，每个文本文档有其对应的唯一的索引号，其中以输入的字符串作为关键词对文本文档进行搜索，其特征在于，所述方法包括以下步骤：

S400，输入多批关键词，分别获取对应的多个文档对组；

S500，根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间；

其中，在S300中，输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组的方法为：分别获取所述一批关键词中的各关键词的文档序列，各文档序列的长度相等，以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵，记所述一批关键词中的各关键词的文档序列中文档序列的数量为m，每个文档序列包含有n个不同的文档的索引号，索引号的数值为正整数，其中，在m个文档序列中各元素的序号为j，在文档序列的n个索引号中各元素的序号为i，i∈[1,n]，j∈[1,m]，由此将文档索引矩阵记为n行m列的矩阵，使用i为文档索引矩阵的行序号，使用j为文档索引矩阵的列序号，文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列，文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号，记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j)，记文档索引矩阵中列的序号为j而行的序号为i的元素对应的索引号的数值为val(i,j)；

进而，构建文档对组的方法为：

记文档对组为Du，Du中行序号为i列序号为j的元素记为Du(i,j)；

则Du(i,j)的数值的计算公式为：

，

，

以此分别计算得到Du中各Du(i,j)的数值，从而构建Du；

在S500中，根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间的方法为：

记文档对组序列为Dseq，Dseq中元素的数量记为d，Dseq中元素的序号记为t，t∈[1,d]，Dseq中序号t的元素为Du_t，各Du_t中行列的数量及行列的序号与Du中行列的数量及行列的序号继续保持一致，Du_t亦为n行m列， Du_t中行序号为i列序号为j的元素为Du_t(i,j)；

，

2.根据权利要求1所述的一种历史数据的文本检索方法，其特征在于，在S100中，输入一个关键词，通过文字检索技术，获取检索结果，检索结果为文档的列表的方法为：将通过计算机输入设备得到的关键词，通过包括Elasticsearch的文字检索工具，获取检索结果，检索结果为文档的列表，文档的列表由检索得到的各个文档的索引号组成。

3.根据权利要求1所述的一种历史数据的文本检索方法，其特征在于，在S200中，将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列的方法为：将检索结果中的各文档，根据各文档中的文字内容，使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度，通过语义相似度的顺序，将各个文档的索引号进行排序得到的序列即为文档序列，索引序列为一个文档在计算机存储系统中的索引。

4.根据权利要求1所述的一种历史数据的文本检索方法，其特征在于，在S400中，输入多批关键词，分别获取对应的多个文档对组的方法为：

5.一种历史数据的文本检索系统，其特征在于，所述一种历史数据的文本检索系统运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的任一计算设备中，所述计算设备包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的一种历史数据的文本检索方法中的步骤。