CN110825936A - 生成倒排索引和用倒排索引检索的方法、系统及存储介质 - Google Patents

生成倒排索引和用倒排索引检索的方法、系统及存储介质 Download PDF

Info

Publication number
CN110825936A
CN110825936A CN201810813522.1A CN201810813522A CN110825936A CN 110825936 A CN110825936 A CN 110825936A CN 201810813522 A CN201810813522 A CN 201810813522A CN 110825936 A CN110825936 A CN 110825936A
Authority
CN
China
Prior art keywords
dimensional array
bitmap
bit
inverted index
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810813522.1A
Other languages
English (en)
Other versions
CN110825936B (zh
Inventor
胡伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Small Mutual Entertainment Technology Co Ltd
Original Assignee
Beijing Small Mutual Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Small Mutual Entertainment Technology Co Ltd filed Critical Beijing Small Mutual Entertainment Technology Co Ltd
Priority to CN201810813522.1A priority Critical patent/CN110825936B/zh
Publication of CN110825936A publication Critical patent/CN110825936A/zh
Application granted granted Critical
Publication of CN110825936B publication Critical patent/CN110825936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了生成用于文档检索系统的倒排索引的方法、通过倒排索引进行检索的方法、系统及计算机存储介质。生成倒排索引的方法包括:将与用于检索文档的关键字对应的第一二维数组转化为第一位示图;按照逐个读取比特位的方式在第一位示图中读取与关键字的文档编码对应的比特位;当所读取的比特位为0时,将所读取的比特位更改为1;以及;将更改后的第一位示图转化为第二二维数组。

Description

生成倒排索引和用倒排索引检索的方法、系统及存储介质
技术领域
本申请涉及互联网领域,且具体地涉及生成用于文档检索系统的倒排索引的方法、通过倒排索引进行检索的方法、系统及计算机存储介质。
背景技术
在文档检索系统中,倒排索引是一种索引方法,被用来存储在全文搜索下某个关键字在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据关键字快速获取包含这个关键字的文档列表。倒排索引主要由两个部分组成:“关键字词典”和“倒排索引”。
现有的搜索引擎系统中,倒排索引中不存储倒排索引项中的实际文档编码,而是代之以文档编码差值。文档编码差值是倒排列表中相邻的两个倒排索引项文档编码的差值,一般在索引构建过程中,可以保证倒排列表中后面出现的文档编码大于之前出现的文档编码,所以文档编码差值总是大于0的整数。但仍具有如下缺点:空间复杂度高。倒排索引占用大量存储空间;时间复杂度高,例如获取存在关键字的文档编码,根据关键字索引得到的编码差值,需要经过反差值编码转换才能得到实际的文档编码;关键字求交集时时间复杂度高,且占用额外空间,例如获取同时存在关键字A和关键字B的文档编码时,根据关键字A索引得到的编码差值,需要经过反差值编码转换才能得到实际的文档编码,同样的,需要对关键字B索引得到的编码差值做类似的计算,计算开销大,时间复杂度高。
发明内容
为了解决上述现有技术中的至少一个问题,本申请提出了生成用于文档检索系统的倒排索引的方法、通过倒排索引进行检索的方法、系统及计算机存储介质。
根据本申请的一方面,提出了一种用于文档检索系统的倒排索引生成方法。该方法包括:将与用于检索文档的关键字对应的第一二维数组转化为第一位示图;按照逐个读取比特位的方式在第一位示图中读取与关键字的文档编码对应的比特位;当所读取的比特位为0时,将所读取的比特位更改为1;以及将更改后的第一位示图转化为第二二维数组。
在一个实施方式中,第一二维数组为字符型二维数组。
在一个实施方式中,将与关键字对应的第一二维数组转化为第一位示图包括:逐行读取第一二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第一行矩阵,按照从左到右的顺序将第一行矩阵中的每一位由十进制转化为二进制。
根据本申请的另一方面,提供了通过根据上述方法生成的倒排索引进行检索的方法。该方法包括:将与用于检索文档的关键字对应的第二二维数组转化为第二位示图;按照逐个读取比特位的方式读取第二位示图中的比特位;以及当所读取的比特位为1时,确定存在与关键字对应的文档编码并且输出与所读取的比特位在第二位示图中的序号对应的数字。
在一个实施方式中,将与关键字对应的第二二维数组转化为第二位示图包括:逐行读取与关键字对应的第二二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第二行矩阵,按照从左到右的顺序将第二行矩阵中的每一位由十进制转化为二进制。
在一个实施方式中,在基于用于检索文档的多个关键字来对倒排索引进行检索的情况下,通过倒排索引进行检索的方法还包括:对分别与多个关键字对应的多个第二二维数组进行与运算以成第三二维数组;将第三二维数组转化为第三位示图;按照逐个读取比特位的方式读取第三位示图中的比特位;以及当所读取的比特位为1时,确定存在与关键字对应的文档编码并且输出与所读取的比特位在第三位示图中的序号对应的数字。
在一个实施方式中,将第三二维数组转化为第三位示图包括:逐行读取第三二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第三行矩阵,按照从左到右的顺序将第三行矩阵中的每一位由十进制转化为二进制,以生成第三位示图
根据本申请的又一方面,提供了一种通过倒排索引进行检索的系统,该系统包括:存储器,存储可执行指令;以及处理器,与存储器通信以执行可执行指令,从而完成与如用于文档检索系统的倒排索引生成方法对应的操作;或者完成与如通过倒排索引进行检索的方法对应的操作。
根据就本申请的再一方面,提供了一种计算机存储介质,计算机存储介质能够存储计算机可读指令,当计算机可读指令被执行时,致使处理器执行与如用于文档检索系统的倒排索引生成方法对应的操作;或者完成与如通过倒排索引进行检索的方法对应的操作。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显,在附图中:
图1是根据本申请生成倒排索引的方法的流程图;
图2是根据本申请的通过倒排索引进行检索的方法的流程图;
图3是根据本申请在基于多个关键词进行检索的情况中通过倒排索引进行检索的方法的流程图;以及
图4是根据本申请的电子设备的示意性框图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,在本文中所描述的具体实施例仅仅用于解释本申请,而非对本申请进行限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分。下面将参照附图并结合实施例来详细说明本申请。应理解,除非另有说明,否则本文中使用的序数词,诸如“第一”、“第二”等,仅用于将一个要素与另一要素区分开,而不表示重要性或优先级。例如,第一权重和第二权重表示不同的权重。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本技术方案提出了一种基于位示图的倒排索引压缩方案,结合文档编码自身的特性,充分利用其在稠密数据上具有良好的压缩性来进行数据压缩。位示图(bitmap)又叫位图,是一种利用二进制位的状态标记磁盘块分配状态的特殊结构,它的最小单元是一个比特(bit)。每个比特位具有1或0两种取值。当比特位的值为“0”时,表示对应的盘块空闲,当比特位的值为“1”时,表示对应的盘块已经分配。在一些其它实施方式中,可有相反的设置,例如,当比特位的值为“0”时,表示对应的盘块已经分配,当比特位的值为“1”时,表示对应的盘块空闲。由于每个块只用一个比特位位来表标识其分配状态,所以位示图的容量较小,便于查找和外存中存储。
参照图1,根据本申请实施方式的生成用于文档检索系统的倒排索引的方法包括步骤S110至步骤S140。
在步骤S110中,将与用于检索文档的关键字对应的第一二维数组转化为第一位示图。其中,关键字与第一二维数组存在映射关系,第一二维数组是预先设置的。本申请通过将与关键字对应的第一二维数组直接存储在位示图中来存储倒排索引项中的实际文档编码,进而生成压缩的倒排索引。在一个实施方式中,第一二维数组可以为字符型二维数组。例如,第一二维数组可以为n行m列的二维数组,每一个值占8个比特位。
即,第一二维数组为:
例如,可通过逐行读取与用于检索文档的关键字对应的第一二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第一行矩阵,按照从左到右的顺序将所述第一行矩阵中的每一位由十进制转化为二进制,从而生成第一位示图。
可对第一二维数组进行逐行读取。首先读取第一行数据,得到C[0][0]、C[0][1]…C[0][m-1]。接下来读取第二行数据,直至将第n行数据读取完毕。从而得到第一行矩阵:
[C[0][0],C[0][1]…C[0][m-1]…C[1][0]…C[n-1][m-1]]
可按顺序将上述数据集合中的每一位十进制数据转换为二进制数据,即可得到第一位示图。
例如,第一二维数组为字符型二维数组:
Figure BDA0001739766710000051
通过逐行读取第一二维数组,可得到第一行矩阵[1,2,3,4,5,6]。按照从左到右的顺序将第一行矩阵中的每一位转化为二进制。例如,首先将“1”转化为二进制1,不足8位以0填充后为00000001,颠倒后为100000000。同理,对‘’2‘’,转化为二进制10,不足8位以0填充后为00000010,颠倒后为01000000。以此类推,该数组转换为第一位示图:[100000001000000 11000000 00100000 10100000 01100000]。
在S120中,按照逐个读取比特位的方式在第一位示图中读取与所述关键字的文档编码对应的比特位。在S130中,当所读取的比特位为0时,将所读取的比特位更改为1。
假设要存储的用于检索文档的关键字对应的文档编码(2,13,16,19,28,34,36,41,44)。对于文档编码中的“2”,应存储在第一位示图中的第2个位置。第一位示图中的第2个位置是0,因此可将第一位示图中的第2位改为1,即位示图变为[11000000100000011000000 00100000 10100000 01100000],这样就可以将文档编码中的“2”存储到第一位示图中。对于文档编码中的“13”,应存储在第一位示图的第13个位置。将位示图第13位改为1,即位示图变为[110000001001000 11000000 00100000 10100000 01100000],依此类推,根据与关键字对应的文档编码而更改后的第一位示图变为[11000000100100111100000 00110000 11110000 11110000]。
在步骤S140中,将更改后的第一位示图转化为第二二维数组。
例如,首先取更改后的第一位示图中的8比特数据“11000000”,颠倒顺序为“00000011”,转换为十进制为“3”,再取下一组8比特数据“01001001”,颠倒顺序为“10010010”,转换为十进制为“144”,依次类推得到[3,144,4,12,15,15]。
接下来,可将[3,144,4,12,15,15]转换为第二二维数组
Figure BDA0001739766710000061
在本申请的实施方式中,通过上述方法,基于用于文档检索的全部关键字可生成分别与全部关键字对应的多个第二二维数组,进而生成倒排索引。换言之,在生成的倒排索引中,第二二维数组与随后用于检索文档的关键字存在映射关系。
根据本申请的另一方面,本申请的示例性实施方式涉及基于根据上述方法生成的倒排索引进行检索的方法。如图2所示,该方法包括步骤S210至步骤S230。该方法涉及已知与关键字对应的二维数组的情况下通过倒排索引来查找与关键字对应的文档编码的技术方案。
在步骤S210中,将与用于检索文档的关键字对应的第二二维数组转化为第二位示图。例如,可逐行读取与关键字对应的第二二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第二行矩阵,按照从左到右的顺序将第二行矩阵中的每一位由十进制转化为二进制,以生成第二位示图。其中,第二二维数组可与参照图1所描述的方法中的第二二维数组对应。
假设根据参照图1描述的方法而生成的倒排索引而已知与关键字对应的第二二维数组为字符型二维数组
Figure BDA0001739766710000062
逐行读取第二二维数组中的每个元素,并且所读取的元素按照被读取的顺序排列成第二行矩阵[1,2,3,4,5,6]。按照从左到右的顺序将第二行矩阵中的每一位由十进制转化为二进制以生成第二位示图[1000000 01000000 11000000 00100000 1010000001100000]。
在步骤S220中,按照逐个读取比特位的方式读取第二位示图中的比特位。在S230中,当所读取的比特位为1时,确定存在与关键字对应的文档编码并且输出与所读取的比特位在第二位示图中的序号对应的数字。
例如,第二位示图[1000000 01000000 11000000 0010000010100000 01100000]中的第1位为“1”,所以存在文档编码‘1’,则输出第二位示图中的第1位比特位在第二位示图中的序号对应的数字,即,输出1;第二位示图中的第2位至第9位为“0”,表示不存在文档编码“2”至文档编码“9”;第二位示图中的第10位为“1”,表示存在文档编码‘10’,则输出第二位示图中的第10位比特位在第二位示图中的序号对应的数字,即,输出10;以此类推,得出文档编码[1,10,14,18,24,33,35,42,43]。
参照图3,在本申请的一个实施方式中,在基于多个关键字进行检索的情况下,可通过步骤S310至步骤S340基于倒排索引进行检索。
在步骤S310中,对分别与多个关键字对应的多个第二二维数组进行与(&)运算以成第三二维数组。
例如,在基于关键字A和关键字B进行检索的情况下,根据参照图1生成的倒排索引得到分别与关键字A和关键字B对应的第二二维数组为:
以及
Figure BDA0001739766710000072
通过对分别与关键字A和关键字B对应的第二二维数组进行与运算,可得到第三二维数组:
Figure BDA0001739766710000073
接下来,在步骤S320中,将第三二维数组转化为第三位示图。具体地,逐行读取第三二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第三行矩阵,按照从左到右的顺序将第三行矩阵中的每一位由十进制转化为二进制,以生成第三位示图。
在步骤S330中,按照逐个读取比特位的方式读取第三位示图中的比特位。在步骤S340中,当所读取的比特位为1时,确定存在与关键字对应的文档编码并且输出与所读取的比特位在第三位示图中的序号对应的数字。
针对传统方法空间复杂度高的问题,根据本申请的基于位示图生成的倒排索引占用的空间是编号差值方法的32分之一。原因如下:编号差值方法为存储一个数字,将使用4字节存储,一字节占用8比特,4字节即占用32比特。而位示图方法只使用1比特来表示是否存在该数字,所以空间复杂度降低。在数据最稠密的情况下,编码差值方法是位示图方法占用空间的32倍。
根据本申请的示例性实施方式通过倒排索引进行检索的方法中,通过根据本申请而生成的倒排索引得到与关键字对应的二维数组,通过将二维数组转化为位示图,再对转化得到的位示图逐个读取比特位,若转化得到的位示图中的第b位为0,则代表文档编码b不存在;若第b位为1,则代表文档编码b存在,则输出b。这样可解决传统方法时间复杂度高的问题。
对于通过多个关键字进行检索的情况,在根据本申请的根据倒排索引进行检索的方法中,首先对分别与多个关键字对应的二维数组进行与运算得到新的二维数组,再转化为位示图,位示图中可使用1表示存在该数字,使用0表示不存在该数字。这解决了传统方法求交集时时间复杂度高,且占用额外空间的问题。编号差值方法既要反差值编码,又要循环遍历,时间复杂度远远高于根据申请的基于位示图来生成倒排索引的方法。同样,位示图需要的额外空间也小于编码差值法。
在根据本申请的一些其它实施方式中,位示图中的1可表示不存在文档编码,且位示图中的0可表示存在文档编码。
本申请实施例还提供了一种计算机系统(例如,一种电子设备),例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统400的结构示意图。如图4所示,计算机系统400包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)401,和/或一个或多个图像处理器(GPU)413等,处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡。
处理器可与只读存储器402和/或随机访问存储器403通信以执行可执行指令,通过总线404与通信部412相连、并经通信部412与其他目标设备通信,从而完成本申请实施例提供的任一项方法对应的操作,例如:逐行读取与关键字对应的第一二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第一行矩阵,按照从左到右的顺序将第一行矩阵中的每一位由十进制转化为二进制,以生成第一位示图;按照逐个读取比特位的方式在第一位示图中读取与关键字的文档编码对应的比特位;当所读取的比特位为0时,将所读取的比特位更改为1;以及将更改后的第一位示图转化为第二二维数组;或者逐行读取与关键字对应的第二二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第二行矩阵,按照从左到右的顺序将第二行矩阵中的每一位由十进制转化为二进制,以生成第二位示图;按照逐个读取比特位的方式读取第二位示图中的比特位;以及当所读取的比特位为1时,确定存在与关键字对应的文档编码并且输出与所读取的比特位在第二位示图中的序号对应的数字。
此外,在RAM 403中,还可存储有装置操作所需的各种程序和数据。CPU 401、ROM402以及RAM 403通过总线404彼此相连。在有RAM 403的情况下,ROM 402为可选模块。RAM403存储可执行指令,或在运行时向ROM 402中写入可执行指令,可执行指令使处理器401执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分404;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
需要说明的,如图4所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本申请公开的保护范围。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行如图1至图3的流程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令,例如:例如:逐行读取与关键字对应的第一二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第一行矩阵,按照从左到右的顺序将第一行矩阵中的每一位由十进制转化为二进制,以生成第一位示图;按照逐个读取比特位的方式在第一位示图中读取与关键字的文档编码对应的比特位;当所读取的比特位为0时,将所读取的比特位更改为1;以及将更改后的第一位示图转化为第二二维数组;或者逐行读取与关键字对应的第二二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第二行矩阵,按照从左到右的顺序将第二行矩阵中的每一位由十进制转化为二进制,以生成第二位示图;按照逐个读取比特位的方式读取第二位示图中的比特位;以及当所读取的比特位为1时,确定存在与关键字对应的文档编码并且输出与所读取的比特位在第二位示图中的序号对应的数字。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。
可能以许多方式来实现本申请的方法。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。
本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用,并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims (9)

1.一种用于文档检索系统的倒排索引生成方法,包括:
将与用于检索文档的关键字对应的第一二维数组转化为第一位示图;
按照逐个读取比特位的方式在所述第一位示图中读取与所述关键字的文档编码对应的比特位;
当所读取的比特位为0时,将所读取的比特位更改为1;以及
将更改后的第一位示图转化为第二二维数组。
2.如权利要求1所述用于文档检索系统的倒排索引生成方法,其中,所述第一二维数组为字符型二维数组。
3.如权利要求1所述用于文档检索系统的倒排索引生成方法,其中,将与关键字对应的第一二维数组转化为第一位示图包括:逐行读取所述第一二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第一行矩阵,按照从左到右的顺序将所述第一行矩阵中的每一位由十进制转化为二进制。
4.一种通过根据权利要求1至3中的任一项所述方法生成的倒排索引进行检索的方法,包括:
将与用于检索文档的关键字对应的第二二维数组转化为第二位示图;
按照逐个读取比特位的方式读取所述第二位示图中的比特位;以及
当所读取的比特位为1时,确定存在与所述关键字对应的文档编码并且输出与所读取的比特位在所述第二位示图中的序号对应的数字。
5.如权利要求4所述的方法,其中,将与关键字对应的第二二维数组转化为第二位示图包括:逐行读取与关键字对应的第二二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第二行矩阵,按照从左到右的顺序将所述第二行矩阵中的每一位由十进制转化为二进制。
6.如权利要求4所述的方法,在基于用于检索文档的多个关键字来对所述倒排索引进行检索的情况下,所述方法还包括:
对分别与所述多个关键字对应的多个第二二维数组进行与运算以成第三二维数组;
将所述第三二维数组转化为第三位示图;
按照逐个读取比特位的方式读取所述第三位示图中的比特位;以及
当所读取的比特位为1时,确定存在与所述关键字对应的文档编码并且输出与所读取的比特位在所述第三位示图中的序号对应的数字。
7.如权利要求6所述的方法,其中,将所述第三二维数组转化为第三位示图包括:逐行读取所述第三二维数组中的每个元素,将所读取的元素按照被读取的顺序排列成第三行矩阵,按照从左到右的顺序将所述第三行矩阵中的每一位由十进制转化为二进制,以生成所述第三位示图。
8.一种通过倒排索引进行检索的系统,所述系统包括:
存储器,存储可执行指令;以及
处理器,与所述存储器通信以执行可执行指令,从而完成与如权利要求1-3中任一项所述的倒排索引生成方法对应的操作或者完成与如权利要求4-7中任一项所述的通过倒排索引进行检索的方法对应的操作。
9.一种计算机存储介质,所述计算机存储介质能够存储计算机可读指令,当所述计算机可读指令被执行时,致使处理器执行与如权利要求1-3中任一项所述的生成倒排索引的方法对应的操作或者完成与如权利要求4-7中任一项所述的通过倒排索引进行检索的方法对应的操作。
CN201810813522.1A 2018-07-23 2018-07-23 生成倒排索引和用倒排索引检索的方法、系统及存储介质 Active CN110825936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810813522.1A CN110825936B (zh) 2018-07-23 2018-07-23 生成倒排索引和用倒排索引检索的方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810813522.1A CN110825936B (zh) 2018-07-23 2018-07-23 生成倒排索引和用倒排索引检索的方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN110825936A true CN110825936A (zh) 2020-02-21
CN110825936B CN110825936B (zh) 2024-04-30

Family

ID=69533674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810813522.1A Active CN110825936B (zh) 2018-07-23 2018-07-23 生成倒排索引和用倒排索引检索的方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110825936B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235794A (zh) * 2013-04-02 2013-08-07 中国科学院计算技术研究所 一种基于文档序号处理的倒排索引表示方法及系统
US20140129530A1 (en) * 2011-06-27 2014-05-08 Jethrodata Ltd. System, method and data structure for fast loading, storing and access to huge data sets in real time
CN103995887A (zh) * 2014-05-30 2014-08-20 上海达梦数据库有限公司 位图索引压缩方法和位图索引解压方法
CN104679776A (zh) * 2013-11-29 2015-06-03 腾讯科技(深圳)有限公司 倒排索引的压缩方法及装置
US20180196944A1 (en) * 2017-01-06 2018-07-12 CrowdStrike, Inc . Applications of a binary search engine based on an inverted index of byte sequences

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140129530A1 (en) * 2011-06-27 2014-05-08 Jethrodata Ltd. System, method and data structure for fast loading, storing and access to huge data sets in real time
CN103235794A (zh) * 2013-04-02 2013-08-07 中国科学院计算技术研究所 一种基于文档序号处理的倒排索引表示方法及系统
CN104679776A (zh) * 2013-11-29 2015-06-03 腾讯科技(深圳)有限公司 倒排索引的压缩方法及装置
CN103995887A (zh) * 2014-05-30 2014-08-20 上海达梦数据库有限公司 位图索引压缩方法和位图索引解压方法
US20180196944A1 (en) * 2017-01-06 2018-07-12 CrowdStrike, Inc . Applications of a binary search engine based on an inverted index of byte sequences

Also Published As

Publication number Publication date
CN110825936B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN110222048B (zh) 序列生成方法、装置、计算机设备及存储介质
US8065337B2 (en) Shared-memory multiprocessor system and method for processing information
US11755565B2 (en) Hybrid column store providing both paged and memory-resident configurations
RU2633178C2 (ru) Способ и система базы данных для индексирования ссылок на документы базы данных
CN110709829B (zh) 一种数据处理的系统和方法
CN110019865B (zh) 海量图片处理方法、装置、电子设备及存储介质
KR20180077060A (ko) 화소들의 리스트들을 인코딩 및 디코딩하는 방법 및 장치
US10340945B2 (en) Memory compression method and apparatus
KR102227912B1 (ko) 최적화된 데이터 콘덴서 및 방법
CN113360911A (zh) 恶意代码同源分析方法、装置、计算机设备和存储介质
CN110825936B (zh) 生成倒排索引和用倒排索引检索的方法、系统及存储介质
US8463759B2 (en) Method and system for compressing data
US11736119B2 (en) Semi-sorting compression with encoding and decoding tables
JP6931442B2 (ja) 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法
US9292553B2 (en) Queries for thin database indexing
CN109684324B (zh) 一种数据处理方法及其相关产品
WO2018082245A1 (zh) 栅格数据聚合方法和装置、栅格数据解耦方法和装置及系统
CN113630123B (zh) 一种数据压缩系统及方法
US20210157485A1 (en) Pattern-based cache block compression
US10797724B2 (en) Method and apparatus for processing data
US11928134B1 (en) Medoid-based data compression
JP6512294B2 (ja) 圧縮プログラム、圧縮方法および圧縮装置
CN115934730A (zh) 数据处理方法和装置、介质和计算机设备
CN117939127A (zh) 一种图像处理方法及其相关设备
CN117312306A (zh) 金融业务数据表转换方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant