CN115408491B - 一种历史数据的文本检索方法及系统 - Google Patents

一种历史数据的文本检索方法及系统 Download PDF

Info

Publication number
CN115408491B
CN115408491B CN202211358963.XA CN202211358963A CN115408491B CN 115408491 B CN115408491 B CN 115408491B CN 202211358963 A CN202211358963 A CN 202211358963A CN 115408491 B CN115408491 B CN 115408491B
Authority
CN
China
Prior art keywords
document
text
keywords
sequence
sequence number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211358963.XA
Other languages
English (en)
Other versions
CN115408491A (zh
Inventor
谢小能
李思伟
蓝建敏
池沐霖
纪绿彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excellence Information Technology Co ltd
Original Assignee
Excellence Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Excellence Information Technology Co ltd filed Critical Excellence Information Technology Co ltd
Priority to CN202211358963.XA priority Critical patent/CN115408491B/zh
Publication of CN115408491A publication Critical patent/CN115408491A/zh
Application granted granted Critical
Publication of CN115408491B publication Critical patent/CN115408491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种历史数据的文本检索方法及系统,属于大数据领域,通过文字检索技术,获取检索结果,检索结果为文档的列表;将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到该个关键词的文档序列;输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;输入多批关键词,分别获取对应的多个文档对组;根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间,实现了增强历史数据使用的稳定性与复用性的有益效果。

Description

一种历史数据的文本检索方法及系统
技术领域
本发明属于大数据领域,具体涉及一种历史数据的文本检索方法及系统。
背景技术
社会数据设备随着时间的叠加规模增大,大型企业的信息系统产生的历史数据越来越多,而且历史数据的增长量也越来越快。
大型企业的历史数据包含较多的重要信息、敏感信息,基于企业自身业务需求或监管需求,不能轻易删除历史数据,需对信息系统所产生的历史数据进行存储。过去一般采用结构化存储方式,每个存储周期将结构化历史数据全量备份保存于专门搭建的数据库、数据表中,或保存在增设的磁带库中。然而,随着大数据时代的到来,存储于数据库中的结构化历史数据量将飞速增长,从而导致数据库和磁带库消耗的存储资源将越来越大、存储成本将越来越高。
发明内容
本发明的目的在于提出一种历史数据的文本检索方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
本发明提供了一种历史数据的文本检索方法及系统,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;输入多批关键词,分别获取对应的多个文档对组;根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。
为了实现上述目的,根据本发明的一方面,提供一种历史数据的文本检索方法,在计算机中储存有多个不同的文本文档,每个文本文档有其对应的唯一的索引号,其中以输入的字符串作为关键词对文本文档进行搜索,所述方法包括以下步骤:
S100,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;
S200,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;
S300,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;
S400,输入多批关键词,分别获取对应的多个文档对组;
S500,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。
进一步地,在S100中,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表的方法为:将通过计算机输入设备得到的关键词,通过包括Elasticsearch的文字检索工具,获取检索结果,检索结果为文档的列表,文档的列表由检索得到的各个文档的索引号组成。
进一步地,在S200中,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列的方法为:将检索结果中的各文档,根据各文档中的文字内容,使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度,通过语义相似度的顺序,将各个文档的索引号进行排序得到的序列即为文档序列,索引序列为一个文档在计算机存储系统中的索引。
进一步地,在S300中,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组的方法为:分别获取所述一批关键词中的各关键词的文档序列,各文档序列的长度相等,以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵,记所述一批关键词中的各关键词的文档序列中文档序列的数量为m,每个文档序列包含有n个不同的文档的索引号,索引号的数值为正整数,其中,在m个文档序列中各元素的序号为j,在文档序列的n个索引号中各元素的序号为i,i∈[1,n],j∈[1,m],由此将文档索引矩阵记为n行m列的矩阵,使用i为文档索引矩阵的行序号,使用j为文档索引矩阵的列序号,文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列,文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号,记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j),记文档索引矩阵中列的序号为j而行的序号为i的元素对应的索引号的数值为val(i,j);
进而,构建文档对组的方法为:
构建一个与文档索引矩阵的行列大小相同且行列序号相同的二维数组作为该一批关键词的对应的文档对组,并记录文档对组中每个元素与其在文档索引矩阵中相同行列序号的元素的对应的索引号;
记文档对组为Du,Du中行序号为i列序号为j的元素记为Du(i,j);
计算计算机中储存的各文本文档的索引号的算术平均值为val(avg);
则Du(i,j)的数值的计算公式为:
Figure 100002_DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE004
以此分别计算得到Du中各Du(i,j)的数值,从而构建文档对组Du;
(在现有的文本存储技术中,如果不使用所述文档对组,则需要面临n乘以m大小的矩阵计算,其中m和n任一方稍有增加一个维度,计算量都会急剧增加,在此基础上若想利用此数据再进行任何特征工程还是模型学习都会严重加重负担,而构建文档对组有利于将各行各列隐形的语义相似度进行压缩,这将各行各列元素对应的数据间语义相似度有效地归纳,更方便于后续对存储的各关键词的文档序列的复用率的提高以及再次计算成本的减少)。
进一步地,在S400中,输入多批关键词,分别获取对应的多个文档对组的方法为:
以输入多个不同的关键词作为一批关键词,则以此重复多次得到多批关键词,再获取对应的多个文档对组。
进一步地,在S500中,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间的方法为:
获取多个不同文档对组,并将所述多个不同文档对组所组成的序列作为文档对组序列;
记文档对组序列为Dseq,Dseq中元素的数量记为d,Dseq中元素的序号记为t,t∈[1,d],Dseq中序号t的元素为Du_t,各Du_t中行列的数量及行列的序号与Du中行列的数量及行列的序号继续保持一致,Du_t亦为n行m列,Du_t的行序号为i而列序号为j,Du_t中行序号为i列序号为j的元素为Du_t(i,j);
对文档对组序列中各个文档对组中相同行序号列序列的位置,计算各个位置的文本关节值,记各个文档对组中行序号为i列序号为j的位置的文本关节值为a(i,j),a(i,j)的数值的计算公式为:
Figure 100002_DEST_PATH_IMAGE006
根据各个位置的文本关节值,选取出文本关节值最大的n个位置,再根据所述n个位置在Dseq中序号d的元素中选取相应位置的索引号所对应的文本文档,由此得到n个文本文档,再将这n个文本文档进行去除重复的后组成集合Nset;
(本方法这样操作有利于充分利用文本关节值对全体数据的局部性标识作用,在别的现有方法里面经常要再次获取历史数据进行重复计算,尤其是在有数据加入的情况下,而本发明所述ns个类别不同于现有技术中的产生方式,不需要对数据长时间的迭代计算,在节省时间的基础上,使得文本文档的大规模储存场景具有稳定性,因为计算得到的ns个类别在分布式数据集群中进行存储区域的划分是可复现的可再次并长期于大规模数据集群中使用的,即是说用户在大规模数据不能轻易再次查询、访问或获取的前提下,以及不可轻易增删改查的前提下,本方法的计算成果是稳定复用的);
以Nset中的文本文档进行向量化作为聚类的核心,记Nset中元素的数量为ns,再将计算机中储存有的文本文档,根据聚类的核心进行划分成ns个类别,将ns个类别在分布式数据集群中进行存储区域的划分。
本发明还提供了一种历史数据的文本检索系统,所述一种历史数据的文本检索系统运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的任一计算设备中,所述计算设备包括:处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种历史数据的文本检索方法中的步骤,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群,所述处理器执行所述计算机程序运行在以下系统的单元中:
文字检索单元,用于输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;
排序单元,用于将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;
文档对组构建单元,用于输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;
多批获取单元,用于输入多批关键词,分别获取对应的多个文档对组;
划分存储单元,用于根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。
本发明的有益效果为:本发明提供了一种历史数据的文本检索方法及系统,通过文字检索技术,获取检索结果,检索结果为文档的列表;将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;输入多批关键词,分别获取对应的多个文档对组;根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间,实现了增强历史数据使用的稳定性与复用性的有益效果。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为一种历史数据的文本检索方法的流程图;
图2所示为一种历史数据的文本检索系统的系统结构图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
如图1所示为根据本发明的一种历史数据的文本检索方法的流程图,下面结合图1来阐述根据本发明的实施方式的一种历史数据的文本检索方法及系统。
本发明提出一种历史数据的文本检索方法,所述方法具体包括以下步骤:
S100,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;
S200,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;
S300,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;
S400,输入多批关键词,分别获取对应的多个文档对组;
S500,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。
进一步地,在S100中,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表的方法为:将通过计算机输入设备得到的关键词,通过包括Elasticsearch的文字检索工具,获取检索结果,检索结果为文档的列表,文档的列表由检索得到的各个文档的索引号组成。
进一步地,在S200中,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列的方法为:将检索结果中的各文档,根据各文档中的文字内容,使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度,通过语义相似度的顺序,将各个文档的索引号进行排序得到的序列即为文档序列,索引序列为一个文档在计算机存储系统中的索引。
进一步地,在S300中,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组的方法为:分别获取所述一批关键词中的各关键词的文档序列,各文档序列的长度相等,以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵,记所述一批关键词中的各关键词的文档序列中文档序列的数量为m,每个文档序列包含有n个不同的文档的索引号,索引号的数值为正整数,其中,在m个文档序列中各元素的序号为j,在文档序列的n个索引号中各元素的序号为i,i∈[1,n],j∈[1,m],由此将文档索引矩阵记为n行m列的矩阵,使用i为文档索引矩阵的行序号,使用j为文档索引矩阵的列序号,文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列,文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号,记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j),记文档索引矩阵中列的序号为j而行的序号为i的元素对应的索引号的数值为val(i,j);
进而,构建文档对组的方法为:
构建一个与文档索引矩阵的行列大小相同且行列序号相同的二维数组作为该一批关键词的对应的文档对组,并记录文档对组中每个元素与其在文档索引矩阵中相同行列序号的元素的对应的索引号;
记文档对组为Du,Du中行序号为i列序号为j的元素记为Du(i,j);
计算计算机中储存的各文本文档的索引号的算术平均值为val(avg);
则Du(i,j)的数值的计算公式为:
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE004A
以此分别计算得到Du中各Du(i,j)的数值,从而构建Du。
进一步地,在S400中,输入多批关键词,分别获取对应的多个文档对组的方法为:
以输入多个不同的关键词作为一批关键词,则以此重复多次得到多批关键词,再获取对应的多个文档对组。
进一步地,在S500中,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间的方法为:
获取多个不同文档对组,并将所述多个不同文档对组所组成的序列作为文档对组序列;
记文档对组序列为Dseq,Dseq中元素的数量记为d,Dseq中元素的序号记为t,t∈[1,d],Dseq中序号t的元素为Du_t,各Du_t中行列的数量及行列的序号与Du中行列的数量及行列的序号继续保持一致,Du_t亦为n行m列,Du_t的行序号为i而列序号为j,Du_t中行序号为i列序号为j的元素为Du_t(i,j);
对文档对组序列中各个文档对组中相同行序号列序列的位置,计算各个位置的文本关节值,记各个文档对组中行序号为i列序号为j的位置的文本关节值为a(i,j),a(i,j)的数值的计算公式为:
Figure DEST_PATH_IMAGE006A
根据各个位置的文本关节值,选取出文本关节值最大的n个位置,再根据所述n个位置在Dseq中序号d的元素中选取相应位置的索引号所对应的文本文档,由此得到n个文本文档,再将这n个文本文档进行去除重复的后组成集合Nset;
以Nset中的文本文档进行向量化作为聚类的核心,记Nset中元素的数量为ns,再将计算机中储存有的文本文档,根据聚类的核心进行划分成ns个类别,将ns个类别在分布式数据集群中进行存储区域的划分。
所述一种历史数据的文本检索系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种历史数据的文本检索方法实施例中的步骤,所述一种历史数据的文本检索系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群。
本发明的实施例提供的一种历史数据的文本检索系统,如图2所示,该实施例的一种历史数据的文本检索系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种历史数据的文本检索方法实施例中的步骤,所述处理器执行所述计算机程序运行在以下系统的单元中:
文字检索单元,用于输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;
排序单元,用于将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;
文档对组构建单元,用于输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;
多批获取单元,用于输入多批关键词,分别获取对应的多个文档对组;
划分存储单元,用于根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。
所述一种历史数据的文本检索系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中。所述一种历史数据的文本检索系统包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种历史数据的文本检索方法及系统的示例,并不构成对一种历史数据的文本检索方法及系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种历史数据的文本检索系统还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种历史数据的文本检索系统的控制中心,利用各种接口和线路连接整个一种历史数据的文本检索系统的各个分区域。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种历史数据的文本检索方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明提供了一种历史数据的文本检索方法及系统,通过文字检索技术,获取检索结果,检索结果为文档的列表;将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;输入多批关键词,分别获取对应的多个文档对组;根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间,实现了增强历史数据使用的稳定性与复用性的有益效果。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims (5)

1.一种历史数据的文本检索方法,在计算机中储存有多个不同的文本文档,每个文本文档有其对应的唯一的索引号,其中以输入的字符串作为关键词对文本文档进行搜索,其特征在于,所述方法包括以下步骤:
S100,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;
S200,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;
S300,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;
S400,输入多批关键词,分别获取对应的多个文档对组;
S500,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间;
其中,在S300中,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组的方法为:分别获取所述一批关键词中的各关键词的文档序列,各文档序列的长度相等,以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵,记所述一批关键词中的各关键词的文档序列中文档序列的数量为m,每个文档序列包含有n个不同的文档的索引号,索引号的数值为正整数,其中,在m个文档序列中各元素的序号为j,在文档序列的n个索引号中各元素的序号为i,i∈[1,n],j∈[1,m],由此将文档索引矩阵记为n行m列的矩阵,使用i为文档索引矩阵的行序号,使用j为文档索引矩阵的列序号,文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列,文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号,记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j),记文档索引矩阵中列的序号为j而行的序号为i的元素对应的索引号的数值为val(i,j);
进而,构建文档对组的方法为:
构建一个与文档索引矩阵的行列大小相同且行列序号相同的二维数组作为该一批关键词的对应的文档对组,并记录文档对组中每个元素与其在文档索引矩阵中相同行列序号的元素的对应的索引号;
记文档对组为Du,Du中行序号为i列序号为j的元素记为Du(i,j);
计算计算机中储存的各文本文档的索引号的算术平均值为val(avg);
则Du(i,j)的数值的计算公式为:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
以此分别计算得到Du中各Du(i,j)的数值,从而构建Du;
在S500中,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间的方法为:
获取多个不同文档对组,并将所述多个不同文档对组所组成的序列作为文档对组序列;
记文档对组序列为Dseq,Dseq中元素的数量记为d,Dseq中元素的序号记为t,t∈[1,d],Dseq中序号t的元素为Du_t,各Du_t中行列的数量及行列的序号与Du中行列的数量及行列的序号继续保持一致,Du_t亦为n行m列, Du_t中行序号为i列序号为j的元素为Du_t(i,j);
对文档对组序列中各个文档对组中相同行序号列序列的位置,计算各个位置的文本关节值,记各个文档对组中行序号为i列序号为j的位置的文本关节值为a(i,j),a(i,j)的数值的计算公式为:
Figure DEST_PATH_IMAGE006
根据各个位置的文本关节值,选取出文本关节值最大的n个位置,再根据所述n个位置在Dseq中序号d的元素中选取相应位置的索引号所对应的文本文档,由此得到n个文本文档,再将这n个文本文档进行去除重复的后组成集合Nset;
以Nset中的文本文档进行向量化作为聚类的核心,记Nset中元素的数量为ns,再将计算机中储存有的文本文档,根据聚类的核心进行划分成ns个类别,将ns个类别在分布式数据集群中进行存储区域的划分。
2.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S100中,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表的方法为:将通过计算机输入设备得到的关键词,通过包括Elasticsearch的文字检索工具,获取检索结果,检索结果为文档的列表,文档的列表由检索得到的各个文档的索引号组成。
3.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S200中,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列的方法为:将检索结果中的各文档,根据各文档中的文字内容,使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度,通过语义相似度的顺序,将各个文档的索引号进行排序得到的序列即为文档序列,索引序列为一个文档在计算机存储系统中的索引。
4.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S400中,输入多批关键词,分别获取对应的多个文档对组的方法为:
以输入多个不同的关键词作为一批关键词,则以此重复多次得到多批关键词,再获取对应的多个文档对组。
5.一种历史数据的文本检索系统,其特征在于,所述一种历史数据的文本检索系统运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的任一计算设备中,所述计算设备包括:处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的一种历史数据的文本检索方法中的步骤。
CN202211358963.XA 2022-11-02 2022-11-02 一种历史数据的文本检索方法及系统 Active CN115408491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211358963.XA CN115408491B (zh) 2022-11-02 2022-11-02 一种历史数据的文本检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211358963.XA CN115408491B (zh) 2022-11-02 2022-11-02 一种历史数据的文本检索方法及系统

Publications (2)

Publication Number Publication Date
CN115408491A CN115408491A (zh) 2022-11-29
CN115408491B true CN115408491B (zh) 2023-01-17

Family

ID=84169431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211358963.XA Active CN115408491B (zh) 2022-11-02 2022-11-02 一种历史数据的文本检索方法及系统

Country Status (1)

Country Link
CN (1) CN115408491B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN106815252A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN109144954A (zh) * 2018-09-18 2019-01-04 天津字节跳动科技有限公司 编辑文档的资源推荐方法、装置及电子设备
CN110347820A (zh) * 2019-05-22 2019-10-18 贵州电网有限责任公司 一种电网文本信息匹配的方法、系统和存储介质
CN110866102A (zh) * 2019-11-07 2020-03-06 浪潮软件股份有限公司 检索处理方法
WO2020208728A1 (ja) * 2019-04-09 2020-10-15 株式会社 AI Samurai 文書検索装置、文書検索方法、及び、文書検索プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163811B2 (en) * 2017-10-30 2021-11-02 International Business Machines Corporation Ranking of documents based on their semantic richness
US20210049206A1 (en) * 2019-08-16 2021-02-18 E. Laxmi Lydia Computer implemented method and a computer system for document clustering and text mining
CN112256822A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN106815252A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN109144954A (zh) * 2018-09-18 2019-01-04 天津字节跳动科技有限公司 编辑文档的资源推荐方法、装置及电子设备
WO2020208728A1 (ja) * 2019-04-09 2020-10-15 株式会社 AI Samurai 文書検索装置、文書検索方法、及び、文書検索プログラム
CN110347820A (zh) * 2019-05-22 2019-10-18 贵州电网有限责任公司 一种电网文本信息匹配的方法、系统和存储介质
CN110866102A (zh) * 2019-11-07 2020-03-06 浪潮软件股份有限公司 检索处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
关键词有序排列的全文检索算法;杨等;《上海电力学院学报》;20130815(第04期);第395-398页 *

Also Published As

Publication number Publication date
CN115408491A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
US9418144B2 (en) Similar document detection and electronic discovery
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US11216618B2 (en) Query processing method, apparatus, server and storage medium
US8027961B2 (en) System and method for composite record keys ordered in a flat key space for a distributed database
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
WO2021047373A1 (zh) 基于大数据的列数据处理方法、设备及介质
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN112597284B (zh) 公司名称的匹配方法、装置、计算机设备及存储介质
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
Song et al. Brepartition: Optimized high-dimensional knn search with bregman distances
CN115982346A (zh) 一种问答库构建方法、终端设备及存储介质
CN116719822B (zh) 一种海量结构化数据的存储方法及系统
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN115408491B (zh) 一种历史数据的文本检索方法及系统
CN109657060B (zh) 安全生产事故案例推送方法及系统
US11709798B2 (en) Hash suppression
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
CN112417154B (zh) 确定文献相似度的方法和装置
CN110941743B (zh) 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法
CN112417131A (zh) 信息推荐方法和装置
CN113761213A (zh) 一种基于知识图谱的数据查询系统、方法及终端设备
CN114386384B (zh) 一种大规模长文本数据的近似重复检测方法、系统及终端
CN111625579A (zh) 一种信息处理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant