CN110413724B - 一种数据检索方法和装置 - Google Patents
一种数据检索方法和装置 Download PDFInfo
- Publication number
- CN110413724B CN110413724B CN201910527961.0A CN201910527961A CN110413724B CN 110413724 B CN110413724 B CN 110413724B CN 201910527961 A CN201910527961 A CN 201910527961A CN 110413724 B CN110413724 B CN 110413724B
- Authority
- CN
- China
- Prior art keywords
- document
- retrieval
- different
- mapping table
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000015654 memory Effects 0.000 claims abstract description 133
- 238000013507 mapping Methods 0.000 claims abstract description 74
- 230000004044 response Effects 0.000 claims abstract description 22
- 238000012546 transfer Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据检索方法与装置,包括:将检索引擎中的映射表和高频文档同步到非易失性内存储器,响应于接收到不同检索条件,通过映射表在易失性内存储器中执行反向索引,以获得不同被检索文档,根据不同被检索文档的各自的被检索频率重新确定高频文档,获取新增索引文档并写入非易失性内存储器,并在非易失性内存储器中根据新增索引文档更新映射表,将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎。本发明的技术方案能够以更快的速度检索非结构化数据,一次性载入数据并提高检索引擎读取数据的速度,降低检索引擎的响应时间,提高工作效率。
Description
技术领域
本发明涉及数据库领域,并且更具体地,特别是涉及一种数据检索方法与装置。
背景技术
由于互联网物联网应用的发展,检索海量数据成为技术发展的挑战。传统的关系型数据库只能满足关系型数据的检索需要,而当前非结构化数据的增长已经超出了结构化关系型数据。为解决海量非结构化数据的全文检索需求,高效快速的全文检索引擎技术成为当前的技术热点。
现有技术的全文检索引擎能够收集数据建立索引库,将现实中的结构化数据和非结构化数据进行提取信息创建索引。索引是为字符串到文件的映射,建立索引可以大大提高检索效率。问题在于,全文检索引擎将索引库、类型表、文档、映射表等等信息存储在磁盘中,磁盘读写性能限制了读取数据的速率;同时由于数据量大,读取的数据需要切分为多个分段文件,在进入内存时无法一次全部读入内存。这两个问题都会延长全文检索引擎的响应时间。
针对现有技术中检索引擎读取数据的速度慢、加载数据分段的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种数据检索方法与装置,能够以更快的速度检索非结构化数据,一次性载入数据并提高检索引擎读取数据的速度,降低检索引擎的响应时间,提高工作效率。
基于上述目的,本发明实施例的一方面提供了一种数据检索方法,包括周期性地执行以下步骤:
将检索引擎中的映射表和高频文档同步到非易失性内存储器;
响应于接收到不同检索条件,通过映射表在易失性内存储器中执行反向索引,以获得不同被检索文档;
根据不同被检索文档的各自的被检索频率重新确定高频文档;
获取新增索引文档并写入非易失性内存储器,并在非易失性内存储器中根据新增索引文档更新映射表;
将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎。
在一些实施方式中,检索引擎配置为包括用于连接到非易失性内存储器的非易失性内存储器接口;
将检索引擎中的映射表和高频文档同步到非易失性内存储器包括:将检索引擎中的映射表和高频文档通过非易失性内存储器接口同步到非易失性内存储器。
在一些实施方式中,将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎包括:将重新确定的高频文档的文档标识、新增索引文档的文档数据、和更新的映射表的表数据通过非易失性内存储器接口发送到检索引擎。
在一些实施方式中,接收到不同检索条件包括接收到一个或多个不同检索字符串;
响应于接收到不同检索条件,通过映射表在易失性内存储器中执行反向索引,以获得不同被检索文档,包括针对一个或多个不同检索字符串分别执行以下步骤:
根据一个或多个不同检索字符串分别从非易失性内存储器中存储的映射表中提取对应的文档链表;
当一个或多个不同检索字符串为多个不同检索字符串时,还将多个不同检索字符串各自对应的文档链表根据不同检索条件合并为总链表;
根据一个或多个不同检索字符串的文档链表或总链表确定并获取一个或多个不同被检索文档。
在一些实施方式中,每个文档链表记载有不同检索字符串与所有包括不同检索字符串的不同被检索文档之间的对应关系。
在一些实施方式中,获取一个或多个不同被检索文档包括:
分别确定每一个不同被检索文档是否属于高频文档;
将属于高频文档的不同被检索文档从非易失性内存储器输出;
将不属于高频文档的不同被检索文档从检索引擎加载到非易失性内存储器中,并进一步从非易失性内存储器输出。
在一些实施方式中,检索引擎配置为包括外存储器,该外存储器配置为存储映射表和所有文档,非易失性内存储器的数据传输速率配置为大于外存储器的数据传输速率;
将检索引擎中的映射表和高频文档同步到非易失性内存储器为:将外存储器中的映射表和高频文档同步到非易失性内存储器;
将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎为:将重新确定的高频文档、新增索引文档、和更新的映射表发送到外存储器。
在一些实施方式中,还包括:
响应于检索引擎停止服务;在检索引擎停止服务期间,将非易失性内存储器中存储的所有数据保存到外存储器中。
在一些实施方式中,易失性内存储器之间通过Skylake-X接口相互连接;每个非易失性内存储器均直接连接至一个相对应的易失性内存储器。
本发明实施例的另一方面,还提供了一种数据检索装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,其中程序代码在由处理器运行时执行如上述的数据检索方法。
本发明具有以下有益技术效果:本发明实施例提供的数据检索方法与装置,通过将检索引擎中的映射表和高频文档同步到非易失性内存储器,响应于接收到不同检索条件,通过映射表在易失性内存储器中执行反向索引,以获得不同被检索文档,根据不同被检索文档的各自的被检索频率重新确定高频文档,获取新增索引文档并写入非易失性内存储器,并在非易失性内存储器中根据新增索引文档更新映射表,将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎的技术方案,能够以更快的速度检索非结构化数据,一次性载入数据并提高检索引擎读取数据的速度,降低检索引擎的响应时间,提高工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的数据检索方法的流程示意图;
图2为本发明提供的数据检索方法的结构示意图;
图3为本发明提供的数据检索方法的检索引擎逻辑结构图;
图4为本发明提供的数据检索方法的反向索引数据结构图;
图5为本发明提供的数据检索方法的非易失性内存储器连接图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”、“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种一次性载入数据并提高检索引擎读取数据速度的数据检索方法的实施例。图1示出的是本发明提供的数据检索方法的实施例的流程示意图。
所述数据检索方法包括周期性地执行以下步骤:
步骤S101,将检索引擎中的映射表和高频文档同步到非易失性内存储器;
步骤S103,响应于接收到不同检索条件,通过映射表在易失性内存储器中执行反向索引,以获得不同被检索文档;
步骤S105,根据不同被检索文档的各自的被检索频率重新确定高频文档;
步骤S107,获取新增索引文档并写入非易失性内存储器,并在非易失性内存储器中根据新增索引文档更新映射表;
步骤S109,将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎。
本发明实施例将高频文档存储在非易失性内存储器中,利用非易失性内存储器到易失性内存储器的快速读取与响应来降低检索引擎的响应时间;同时,由于非易失性内存储器具有远大于易失性内存储器的容量,足以存储易失性内存储器不能完全载入的数据,因而能够一次性载入所需数据,避免了多次分段读取数据处理,这进一步降低了检索引擎的响应时间。
本发明提供的数据检索方法的结构如图2所示。将非易失性内存储器设置在易失性内存储器(内存)与外存储器之间,并将部分外存储器中存储的数据复制到非易失性内存储器中,利用高读取和高传输速度的非易失性内存储器替代外存储器可以大幅度提升检索引擎的数据处理速度;另一方面,在非易失性内存储器和易失性内存储器通信的同时,非易失性内存储器也可以与外存储器独立于前一过程地交换数据(例如提前载入所需要的数据),即非易失性内存储器与外存储器的通信不会直接影响检索引擎的响应速度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,检索引擎配置为包括用于连接到非易失性内存储器的非易失性内存储器接口。将检索引擎中的映射表和高频文档同步到非易失性内存储器包括:将检索引擎中的映射表和高频文档通过非易失性内存储器接口同步到非易失性内存储器。
在一些实施方式中,将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎包括:将重新确定的高频文档的文档标识、新增索引文档的文档数据、和更新的映射表的表数据通过非易失性内存储器接口发送到检索引擎。
本发明实施例使用非易失性内存储器来存储映射表。非易失性内存储器具有足够大的容量可以一次性载入整个映射表。检索引擎具有针对非易失性内存储器使用的非易失性内存储器接口,非易失性内存储器接口可以在非易失性内存储器和检索引擎(外存储器)之间传输数据。事先在检索引擎中配置非易失性内存储器的容量可以允许非易失性内存储器接口访问非易失性内存储器。
在一些实施方式中,接收到不同检索条件包括接收到一个或多个不同检索字符串;响应于接收到不同检索条件,通过映射表在易失性内存储器中执行反向索引,以获得不同被检索文档,包括针对一个或多个不同检索字符串分别执行以下步骤:
根据一个或多个不同检索字符串分别从非易失性内存储器中存储的映射表中提取对应的文档链表;
当一个或多个不同检索字符串为多个不同检索字符串时,还将多个不同检索字符串各自对应的文档链表根据不同检索条件合并为总链表;
根据一个或多个不同检索字符串的文档链表或总链表确定并获取一个或多个不同被检索文档。
在一些实施方式中,每个文档链表记载有不同检索字符串与所有包括不同检索字符串的不同被检索文档之间的对应关系。
图3和图4示出了检索引擎的工作原理。如图3所示,全文检索引擎将数据存储于一个或多个索引库中,索引库是具有类似特性的文档的集合。索引库由名称来标识,并通过引用此名称完成文档的创建、搜索、更新及删除操作。索引库具有称为类型表的内部逻辑分区,类型表由用户根据需求定义。一个索引库可定义一个或多个类型表。类型表是由某一类型应用处理的文档集合。在索引库中,可以定义一个用于存储用户数据的类型,一个存储日志数据的类型,以及一个存储评论数据的类型。文档是全文检索引擎索引和搜索的处理基本对象,由一个或多个域组成,每个域拥有一个名字及一个或多个值,有多个值的域通常称为“多值域”。文档还包括词项(搜索和索引的最小单位,代表文档中的一个词)、词条(词项在文档中出现的次数和出现的位置相对文档开始的偏移)等信息。全文检索引擎将索引库、类型表、文档等存储在磁盘(外存储器)中,系统在内存(易失性内存储器)中为映射表开辟有一个限定容量的缓存。
另外,索引库还包括映射表。映射表是词项与文档映射的倒排表,除词条数据外还包括词项文档权重因子、评分方法等。建立映射表是对现实中的结构化数据和非结构化数据进行提取信息、创建索引的过程。索引建立为字符串到文件的映射,可以大大提高检索效率。由于从字符串到文件的映射是文件到字符串的反向过程,于是保存这种信息的索引被称为反向索引。例如,假如文档集合里面有100篇文档,为了方便表示,为文档做编号,从1-100,可以得到如图4所示的结构。如图4所示,左边保存的是一系列字符串,称为词典。每个字符串都是指向包含此字符串的文档链表,此文档链表即映射表。
一个获取查询信息对索引库进行检索的示例如下:要寻找既包含字符串“Lucene”又包含字符串“solr”的文档,首先读取映射表,然后分别取出包含字符串“Lucene”和“solr”的文档链表,再合并链表获得既包含“Lucene”又包含“solr”的文档。获得的文档即被检索文档。
根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
在一些实施方式中,获取一个或多个不同被检索文档包括:
分别确定每一个不同被检索文档是否属于高频文档;
将属于高频文档的不同被检索文档从非易失性内存储器输出;
将不属于高频文档的不同被检索文档从检索引擎加载到非易失性内存储器中,并进一步从非易失性内存储器输出。
高频文档是一个快照机制。将高频文档存放在非易失性内存储器中可以在检索时降低访问外存储器获取被检索文档的概率,进而在宏观上提升检索引擎的工作效率。定期重新确定高频文档可以在不占用更多非易失性内存储器空间的情况下根据实际检所需求来进一步降低访问外存储器的概率,即进一步在宏观上提升检索引擎的工作效率。
在一些实施方式中,检索引擎配置为包括外存储器,外存储器配置为存储映射表和所有文档,非易失性内存储器的数据传输速率配置为大于外存储器的数据传输速率。将检索引擎中的映射表和高频文档同步到非易失性内存储器包括:将外存储器中的映射表和高频文档同步到非易失性内存储器。将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎包括:将重新确定的高频文档、新增索引文档、和更新的映射表发送到外存储器。
在一些实施方式中,方法还包括:响应于检索引擎停止服务,在检索引擎停止服务期间,将非易失性内存储器中存储的所有数据保存到外存储器中。
在一些实施方式中,易失性内存储器之间通过Skylake-X接口相互连接;每个非易失性内存储器均直接连接至一个相对应非易失性内存储器。具体的连接方式可以参照图5,每一个NVM(非易失性内存储器)均直接对应到一个DDR(易失性内存储器)上,这种连接方式使得可以并行使用多个非易失性内存储器,提高检索引擎整体的运行速度。
从上述实施例可以看出,本发明实施例提供的数据检索方法,通过将检索引擎中的映射表和高频文档同步到非易失性内存储器,响应于接收到不同检索条件,通过映射表在易失性内存储器中执行反向索引,以获得不同被检索文档,根据不同被检索文档的各自的被检索频率重新确定高频文档,获取新增索引文档并写入非易失性内存储器,并在非易失性内存储器中根据新增索引文档更新映射表,将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎的技术方案,能够以更快的速度检索非结构化数据,一次性载入数据并提高检索引擎读取数据的速度,降低检索引擎的响应时间,提高工作效率。
需要特别指出的是,上述数据检索方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于数据检索方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种一次性载入数据并提高检索引擎读取数据速度的数据检索装置的实施例。所述装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,其中程序代码在由处理器运行时执行如上述的数据检索方法。
本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
从上述实施例可以看出,本发明实施例提供的数据检索装置,通过将检索引擎中的映射表和高频文档同步到非易失性内存储器,响应于接收到不同检索条件,通过映射表在易失性内存储器中执行反向索引,以获得不同被检索文档,根据不同被检索文档的各自的被检索频率重新确定高频文档,获取新增索引文档并写入非易失性内存储器,并在非易失性内存储器中根据新增索引文档更新映射表,将重新确定的高频文档、新增索引文档、和更新的映射表反馈到检索引擎的技术方案,能够以更快的速度检索非结构化数据,一次性载入数据并提高检索引擎读取数据的速度,降低检索引擎的响应时间,提高工作效率。
需要特别指出的是,上述数据检索装置的实施例采用了所述数据检索方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述数据检索方法的其他实施例中。当然,由于所述数据检索方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述数据检索装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (9)
1.一种数据检索方法,其特征在于,包括周期性地执行以下步骤:
将检索引擎中的映射表和高频文档同步到非易失性内存储器;
响应于接收到不同检索条件,通过所述映射表在易失性内存储器中执行反向索引,以获得不同被检索文档,其中所述接收到不同检索条件包括接收到一个或多个不同检索字符串;响应于接收到不同检索条件,通过所述映射表在所述易失性内存储器中执行反向索引,以获得不同被检索文档,包括针对所述一个或多个不同检索字符串分别执行以下步骤:
根据所述一个或多个不同检索字符串分别从所述非易失性内存储器中存储的所述映射表中提取对应的文档链表;
当所述一个或多个不同检索字符串为多个不同检索字符串时,还将所述多个不同检索字符串各自对应的文档链表根据所述不同检索条件合并为总链表;
根据所述一个或多个不同检索字符串的所述文档链表或所述总链表确定并获取一个或多个所述不同被检索文档;
根据所述不同被检索文档的各自的被检索频率重新确定所述高频文档;
获取新增索引文档并写入所述非易失性内存储器,并在所述易失性内存储器中根据所述新增索引文档更新所述映射表;
将重新确定的所述高频文档、所述新增索引文档、和更新的所述映射表反馈到所述检索引擎。
2.根据权利要求1所述的方法,其特征在于,所述检索引擎配置为包括用于连接到所述非易失性内存储器的非易失性内存储器接口;
将所述检索引擎中的所述映射表和所述高频文档同步到所述非易失性内存储器包括:将所述检索引擎中的所述映射表和所述高频文档通过所述非易失性内存储器接口同步到所述非易失性内存储器。
3.根据权利要求2所述的方法,其特征在于,将重新确定的所述高频文档、所述新增索引文档、和更新的所述映射表反馈到所述检索引擎包括:将重新确定的所述高频文档的文档标识、所述新增索引文档的文档数据、和更新的所述映射表的表数据通过所述非易失性内存储器接口发送到所述检索引擎。
4.根据权利要求1所述的方法,其特征在于,每个所述文档链表记载有所述不同检索字符串与所有包括所述不同检索字符串的所述不同被检索文档之间的对应关系。
5.根据权利要求1所述的方法,其特征在于,获取一个或多个所述不同被检索文档包括:
分别确定每一个所述不同被检索文档是否属于所述高频文档;
将属于所述高频文档的所述不同被检索文档从所述非易失性内存储器输出;
将不属于所述高频文档的所述不同被检索文档从所述检索引擎加载到所述非易失性内存储器中,并进一步从所述非易失性内存储器输出。
6.根据权利要求1所述的方法,其特征在于,所述检索引擎配置为包括外存储器,所述外存储器配置为存储所述映射表和所有文档,所述非易失性内存储器的数据传输速率配置为大于所述外存储器的数据传输速率;
将所述检索引擎中的所述映射表和所述高频文档同步到所述非易失性内存储器包括:将所述外存储器中的所述映射表和所述高频文档同步到所述非易失性内存储器;
将重新确定的所述高频文档、所述新增索引文档、和更新的所述映射表反馈到所述检索引擎包括:将重新确定的所述高频文档、所述新增索引文档、和更新的所述映射表发送到所述外存储器。
7.根据权利要求6所述的方法,其特征在于,还包括:
响应于所述检索引擎停止服务,在所述检索引擎停止服务期间,将所述非易失性内存储器中存储的所有数据保存到所述外存储器中。
8.根据权利要求1所述的方法,其特征在于,所述易失性内存储器之间通过Skylake-X接口相互连接;每个所述非易失性内存储器均直接连接至一个相对应的所述易失性内存储器。
9.一种数据检索装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,其中所述程序代码在由所述处理器运行时执行如权利要求1-8中任意一项所述的数据检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910527961.0A CN110413724B (zh) | 2019-06-18 | 2019-06-18 | 一种数据检索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910527961.0A CN110413724B (zh) | 2019-06-18 | 2019-06-18 | 一种数据检索方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413724A CN110413724A (zh) | 2019-11-05 |
CN110413724B true CN110413724B (zh) | 2021-10-08 |
Family
ID=68359344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910527961.0A Active CN110413724B (zh) | 2019-06-18 | 2019-06-18 | 一种数据检索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413724B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111049729A (zh) * | 2019-11-29 | 2020-04-21 | 苏州浪潮智能科技有限公司 | 一种持久化消息传输方法与装置 |
CN115328878B (zh) * | 2022-10-17 | 2023-04-07 | 成都卫士通信息产业股份有限公司 | 日志数据存储系统、方法、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106406748A (zh) * | 2015-07-30 | 2017-02-15 | 伊姆西公司 | 存储器中心数据库架构 |
CN107710201A (zh) * | 2015-06-23 | 2018-02-16 | 微软技术许可有限责任公司 | 存储数据和从位向量搜索索引取回数据 |
CN109144893A (zh) * | 2018-09-11 | 2019-01-04 | 郑州云海信息技术有限公司 | 一种与非易失性内存储器进程交互的方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10740372B2 (en) * | 2015-04-02 | 2020-08-11 | Canon Information And Imaging Solutions, Inc. | System and method for extracting data from a non-structured document |
-
2019
- 2019-06-18 CN CN201910527961.0A patent/CN110413724B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107710201A (zh) * | 2015-06-23 | 2018-02-16 | 微软技术许可有限责任公司 | 存储数据和从位向量搜索索引取回数据 |
CN106406748A (zh) * | 2015-07-30 | 2017-02-15 | 伊姆西公司 | 存储器中心数据库架构 |
CN109144893A (zh) * | 2018-09-11 | 2019-01-04 | 郑州云海信息技术有限公司 | 一种与非易失性内存储器进程交互的方法与装置 |
Non-Patent Citations (1)
Title |
---|
面向大规模闪存存储的存储系统关键技术研究;巫小泉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110413724A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9858303B2 (en) | In-memory latch-free index structure | |
CN104679778B (zh) | 一种搜索结果的生成方法及装置 | |
CN107818115B (zh) | 一种处理数据表的方法及装置 | |
CN103390020B (zh) | 在数据库中存储数据的方法和系统 | |
EP2633413B1 (en) | Low ram space, high-throughput persistent key-value store using secondary memory | |
US9047330B2 (en) | Index compression in databases | |
US9495398B2 (en) | Index for hybrid database | |
KR101972645B1 (ko) | 클러스터링 저장 방법 및 장치 | |
US20180011861A1 (en) | Managing storage of individually accessible data units | |
US20080010238A1 (en) | Index having short-term portion and long-term portion | |
CN1979469A (zh) | 索引及其扩展和查询方法 | |
KR19990070838A (ko) | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 | |
CN103678556A (zh) | 列式数据库处理的方法和处理设备 | |
CN109726177A (zh) | 一种基于HBase的海量文件分区索引方法 | |
WO2020057272A1 (zh) | 一种索引数据存储及检索方法、装置及存储介质 | |
CN110413724B (zh) | 一种数据检索方法和装置 | |
CN105912696A (zh) | 一种基于对数归并的dns索引创建方法及查询方法 | |
CN109299143B (zh) | 基于Redis缓存的数据互操作测试知识库的知识快速索引方法 | |
US20130085997A1 (en) | Information search system, search server and program | |
CN108984626B (zh) | 一种数据处理方法、装置及服务器 | |
CN116150093B (zh) | 一种对象存储列举对象的实现方法及电子设备 | |
CN109213760B (zh) | 非关系数据存储的高负载业务存储及检索方法 | |
CN108984720B (zh) | 基于列存储的数据查询方法、装置、服务器及存储介质 | |
CN113536047A (zh) | 一种图数据库数据删除方法、系统、电子设备及存储介质 | |
Guo et al. | Memory database index optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |