CN104166736A - 倒排索引文件的存储方法和装置 - Google Patents

倒排索引文件的存储方法和装置 Download PDF

Info

Publication number
CN104166736A
CN104166736A CN201410449591.0A CN201410449591A CN104166736A CN 104166736 A CN104166736 A CN 104166736A CN 201410449591 A CN201410449591 A CN 201410449591A CN 104166736 A CN104166736 A CN 104166736A
Authority
CN
China
Prior art keywords
inverted index
index file
threshold value
file
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410449591.0A
Other languages
English (en)
Inventor
戴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410449591.0A priority Critical patent/CN104166736A/zh
Publication of CN104166736A publication Critical patent/CN104166736A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Abstract

本发明公开了一种倒排索引文件的存储方法和装置。其中,该方法包括:在存储介质中创建用于存储倒排索引文件的倒排索引文件夹;为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件;在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹。本发明解决了现有技术由于倒排索引文件夹中倒排索引文件过多导致的该倒排索引文件夹读取速度过慢的技术问题。

Description

倒排索引文件的存储方法和装置
技术领域
本发明涉及计算机互联网领域,具体而言,涉及一种倒排索引文件的存储方法和装置。
背景技术
目前,在关系数据库系统中,索引是检索数据最有效率的方式,。但对于拥有海量数据的关系数据库,单纯依靠索引对关系数据库中的数据进行检索的方式并不能满足对海量数据的检索速度的要求。
倒排索引的出现很好的解决了对于拥有海量数据的关系数据库的检索效率低的问题。倒排索引是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
但是,随着关系数据库的使用,倒排索引文件数量也会跟着关系数据库中数据的增加而增加。当大量的倒排索引文件存储到同一个存储介质中的同一个倒排索引文件夹下时,随着倒排索引文件数量的增加,存储介质的寻址时间也会跟着相应的增长。从而使得该倒排索引文件夹中的倒排序索引文件的读取效率的降低。
针对现有技术中由于倒排索引文件夹中倒排索引文件过多导致的该倒排索引文件夹读取速度过慢的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种倒排索引文件的存储方法和装置,以解决由于倒排索引文件夹中倒排索引文件过多导致的该倒排索引文件夹读取速度过慢的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种倒排索引文件的存储方法。根据本发明的倒排索引文件的存储方法包括:在存储介质中创建用于存储倒排索引文件的倒排索引文件夹;为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件;在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种倒排索引文件的存储装置。根据本发明的倒排索引文件的存储装置包括:存储模块,用于在存储介质中创建用于存储倒排索引文件的倒排索引文件夹;设置模块,用于为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件;处理模块,用于在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹。
根据发明实施例,通过在存储介质中创建用于存储倒排索引文件的倒排索引文件夹;为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件;在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹,解决了由于倒排索引文件夹中倒排索引文件过多导致的该倒排索引文件夹读取速度过慢的问题,达到了通过对倒排索引文件夹存储在多个倒排索引文件夹中,提高读取速度的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种倒排索引文件的存储方法的流程图;
图2是根据本发明实施例优选的一种倒排索引文件的存储方法的流程图;
图3是根据本发明实施例优选的一种倒排索引文件的存储方法的流程图;
图4是根据本发明实施例优选的一种倒排索引文件的存储方法的流程图;
图5是根据本发明实施例的一种倒排索引文件的存储装置的示意图;
图6是根据本发明实施例优选的一种倒排索引文件的存储装置的示意图;
图7是根据本发明实施例优选的一种倒排索引文件的存储装置的示意图;以及
图8是根据本发明实施例优选的一种倒排索引文件的存储装置的示意图;
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种倒排索引文件的存储方法。
图1是根据本发明实施例的倒排索引文件的存储方法的流程图。如图1所示,该倒排索引文件的存储方法包括步骤如下:
步骤S102,在存储介质中创建用于存储倒排索引文件的倒排索引文件夹。
在上述步骤S102中,将大量数据记录的倒排索引写入倒排索引文件中,可以对上述倒排索引文件的大小进行限定,将所有索引文件设置成固定大小。并且将这些生成的倒排索引文件存入指定的倒排索引文件夹中。
步骤S104,为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件。
在上述步骤S104中,对倒排索引文件夹设置阈值,阈值是作为监控是否生成新的倒排索引文件夹的判断标准。
步骤S106,在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹。
在上述步骤S106中,通过对倒排索引文件夹进行监控,根据倒排索引文件夹的属性值与设定的阈值进行比较,当倒排索引文件夹的属性值超过设定的阈值时,生成用于存储倒排索引文件的新的倒排索引文件夹,并将新生成的倒排索引文件存入该新的倒排索引文件夹中。
上述步骤S102至步骤S106,通过对倒排索引文件夹属性和相关参数的监控,根据阈值的限制,来控制新生成的倒排索引文件的存储位置。从而避免倒排索引文件存储在在单一倒排索引文件夹中导致的文件夹读取性能降低的问题。
优选地,图2是根据本发明实施例优选的倒排索引文件的存储方法的流程图。如图2所示,本申请上述实施例中,在步骤S106为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件中,当为倒排索引文件夹设置的阈值是对倒排索引文件夹中倒排索引文件数量设置的阈值时,在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹的方法包括:
步骤S10611,获取倒排索引文件夹中倒排索引文件数量;
步骤S10613,对倒排索引文件夹中倒排索引文件数量与阈值进行比较;
步骤S10615,当倒排索引文件夹中倒排索引文件数量大于阈值时,创建用于存储倒排索引文件的新的倒排索引文件夹。
上述步骤S10611至步骤S10615中,通过对倒排序文件夹中存储的文件数量设置阈值,当倒排索引文件夹中的文件数量超过阈值时,生成新的倒排索引文件夹,并修改新生成的倒排索引文件的目标文件夹,将目标文件夹指定为新的倒排索引文件夹。
优选地,该实施例的搜索内容的提示方法可以是上述实施例的倒排索引文件的存储方法的一种优选实施方式。在步骤S106为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件中,为倒排索引文件夹设置的阈值是对倒排索引文件夹的容量大小设置的阈值时,在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹的方法包括:
步骤S10621,获取倒排索引文件夹的容量大小;
步骤S10623,对倒排索引文件夹的容量与阈值进行比较;
步骤S10625,当倒排索引文件夹的容量大于阈值时,创建用于存储倒排索引文件的新的倒排索引文件夹。
上述步骤S10621至步骤S10625中,通过对倒排序文件夹的容量大小设置阈值,当倒排索引文件夹的容量超过阈值时,生成新的倒排索引文件夹,并修改新生成的倒排索引文件的目标文件夹,将目标文件夹指定为新的倒排索引文件夹。
优选地,该实施例的搜索内容的提示方法可以是上述实施例的倒排索引文件的存储方法的一种优选实施方式。在步骤S106为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件中,为倒排索引文件夹设置的阈值是对倒排索引文件夹中的文件进行随机读取的随机读取时间设置的阈值时,在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹的方法包括:
步骤S10631,通过对倒排索引文件夹中的倒排索引文件进行随机读取测试,获取倒排索引文件夹中的倒排索引文件的随机读取时间;
步骤S10633,根据倒排索引文件夹中的倒排索引文件的随机读取时间与阈值进行比较;
步骤S10635,当倒排索引文件夹的随机读取时间大于所阈值时,创建用于存储倒排索引文件的新的倒排索引文件夹。
上述步骤S10631至步骤S10635中,通过对倒排索引文件夹中的倒排索引文件进行随机读取测试,获取倒排索引文件夹中的倒排索引文件的随机读取时间。当对倒排索引文件夹中的随机读取时间超过阈值时,说明该倒排索引文件夹的查询性能过慢,生成新的倒排索引文件夹,并修改新生成的倒排索引文件的目标文件夹,将目标文件夹指定为新的倒排索引文件夹。
优选地,图3是根据本发明实施例优选的倒排索引文件的存储方法的流程图。该实施例的倒排索引文件的存储方法可以是上述实施例的倒排索引文件的存储方法的一种优选实施方式。如图3所示,该倒排索引文件的存储方法还包括步骤如下:
步骤S108,在倒排索引文件夹大于阈值时,根据倒排索引文件夹中存储的倒排索引文件,对倒排索引文件夹创建索引表,其中,索引表用于对倒排序索引文件夹中存储的倒排索引文件进行索引。
上述步骤S108中,当索引文件夹的数量过于庞大时,如果查询某条索引记录,需要对所有倒排索引文件夹和所有倒排索引文件夹中的倒排索引文件进行遍历,这样会大大增加系统的负荷。所以,当倒排索引文件夹的数量超过预先设定的阈值时,可以根据倒排索引文件夹中存储的倒排索引文件创建索引文件,以提高查询速度,降低系统负载。
优选地,图4是根据本发明实施例优选的倒排索引文件的存储方法的流程图。该实施例的倒排索引文件的存储方法可以是上述实施例的倒排索引文件的存储方法的一种优选实施方式。如图4所示,存储介质中创建用于存储倒排索引文件的倒排索引文件夹,该倒排索引文件的存储方法还包括步骤如下:
步骤S110,将倒排索引文件夹存储在多个索引服务器中,其中,各个索引服务器间通过网络相连,用于存储倒排索引文件夹。
上述步骤S110中,可以将生成的倒排索引文件夹存储在多个相互连接的索引服务器中,利用多台索引服务器分担负荷,利用位置服务器定为索引位置信息,可以提高对倒排序索引文件夹的读取速度。
当然,在实际应用当中,对于倒排索引文件夹阈值设定方法并不仅限于本事实例中提到的这三种,本申请实施例中的这三种根据阈值的判断方法只是对是否生成新的倒排索引文件夹的判断标准的启发。
倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。
其中,Lucene是用Java程序编写的高性能的全文检索工具,提供了完整的查询引擎,它可方便地嵌入各种实际应用中实现全文搜索/索引功能。Lucene在实现检索过程中采用倒排索引(Inverted index)方式进行。倒排索引与通过数据记录的标识检索该记录属性的传统索引方式不同,它是通过属性查找数据记录。写有倒排索引的文件通常称为倒排文件。Lucene通过包含倒排文件在内的倒排索引系统进行检索的方式极大提高了数据检索效率。
本发明实施例还提供了一种倒排索引文件的存储装置。需要说明的是,本发明实施例的倒排索引文件的存储装置可以用于执行本发明实施例所提供的倒排索引文件的存储方法,本发明实施例的倒排索引文件的存储方法也可以通过本发明实施例所提供的倒排索引文件的存储装置来执行。
图5是根据本发明实施例的倒排索引文件的存储装置的示意图。如图5所示,该倒排索引文件的存储装置,其特征在于,包括:存储模块202、设置模块204、处理模块206。
其中,存储模块202,用于在存储介质中创建用于存储倒排索引文件的倒排索引文件夹;
上述存储模块202中,将大量数据记录的倒排索引写入倒排索引文件中,可以对上述倒排索引文件的大小进行限定,将所有索引文件设置成固定大小。并且将这些生成的倒排索引文件存入指定的倒排索引文件夹中。
设置模块204,用于为倒排索引文件夹设置阈值,阈值是创建新的倒排索引文件夹的判断条件;
上述设置模块204中,对倒排索引文件夹设置阈值,阈值是作为监控是否生成新的倒排索引文件夹的判断标准。
处理模块206,用于在倒排索引文件夹的属性超过阈值,创建用于存储倒排索引文件的新的倒排索引文件夹。
上述处理模块206中,通过对倒排索引文件夹进行监控,根据倒排索引文件夹的属性值与设定的阈值进行比较,当倒排索引文件夹的属性值超过设定的阈值时,生成用于存储倒排索引文件的新的倒排索引文件夹,并将新生成的倒排索引文件存入该新的倒排索引文件夹中。
上述存储模块202、设置模块204、处理模块206,通过对倒排索引文件夹属性和相关参数的监控,根据阈值的限制,来控制新生成的倒排索引文件的存储位置。从而避免倒排索引文件存储在在单一倒排索引文件夹中导致的文件夹读取性能降低的问题。
优选地,图6是根据本发明实施例优选的倒排索引文件的存储方法的流程图。如图6所示,本申请上述实施例中,处理模块206还包括:
第一子获取模块20611,用于获取倒排索引文件夹中倒排索引文件数量;
第一子判断模块20613,用于对倒排索引文件夹中倒排索引文件数量与阈值进行比较;
第一子处理模块20615,用于当倒排索引文件夹中倒排索引文件数量大于阈值时,创建用于存储倒排索引文件的新的倒排索引文件夹。
上述第一子获取模块20611、第一子判断模块20613、第一子处理模块20615,通过对倒排序文件夹中存储的文件数量设置阈值,当倒排索引文件夹中的文件数量超过阈值时,生成新的倒排索引文件夹,并修改新生成的倒排索引文件的目标文件夹,将目标文件夹指定为新的倒排索引文件夹。
优选地,本申请上述实施例中,处理模块206还包括:
第二子获取模块20621,用于获取倒排索引文件夹的容量大小;
第二子判断模块20623,用于对倒排索引文件夹的容量与阈值进行比较;
第二子处理模块20625,用于当倒排索引文件夹的容量大于阈值时,创建用于存储倒排索引文件的新的倒排索引文件夹。
上述第二子获取模块20621、第二子判断模块20623、第二子处理模块20625,通过对倒排序文件夹的容量大小设置阈值,当倒排索引文件夹的容量超过阈值时,生成新的倒排索引文件夹,并修改新生成的倒排索引文件的目标文件夹,将目标文件夹指定为新的倒排索引文件夹。
优选地,本申请上述实施例中,处理模块206还包括:
第三子获取模块20631,用于通过对倒排索引文件夹中的倒排索引文件进行随机读取测试,获取倒排索引文件夹中的倒排索引文件的随机读取时间;
第三子判断模块20633,用于根据倒排索引文件夹中的倒排索引文件的随机读取时间与阈值进行比较;
第三子处理模块20635,用于当倒排索引文件夹的随机读取时间大于所阈值时,创建用于存储倒排索引文件的新的倒排索引文件夹。
上述第三子获取模块20631、第三子判断模块20633、第三子处理模块20635,通过对倒排索引文件夹中的倒排索引文件进行随机读取测试,获取倒排索引文件夹中的倒排索引文件的随机读取时间。当对倒排索引文件夹中的随机读取时间超过阈值时,说明该倒排索引文件夹的查询性能过慢,生成新的倒排索引文件夹,并修改新生成的倒排索引文件的目标文件夹,将目标文件夹指定为新的倒排索引文件夹。
优选地,图7是根据本发明实施例优选的倒排索引文件的存储装置的示意图。该实施例的倒排索引文件的存储装置可以是上述实施例的倒排索引文件的存储装置的一种优选实施方式。如图7所示,该倒排索引文件的存储装置还包括:
索引模块208,用于在倒排索引文件夹大于阈值时,根据倒排索引文件夹中存储的倒排索引文件,对倒排索引文件夹创建索引表,其中,索引表用于对倒排序索引文件夹中存储的倒排索引文件进行索引。
上述索引模块208中,当索引文件夹的数量过于庞大时,如果查询某条索引记录,需要对所有倒排索引文件夹和所有倒排索引文件夹中的倒排索引文件进行遍历,这样会大大增加系统的负荷。所以,当倒排索引文件夹的数量超过预先设定的阈值时,可以根据倒排索引文件夹中存储的倒排索引文件创建索引文件,以提高查询速度,降低系统负载。
优选地,图8是根据本发明实施例优选的倒排索引文件的存储装置的示意图。该实施例的倒排索引文件的存储装置可以是上述实施例的倒排索引文件的存储装置的一种优选实施方式。如图8所示,该倒排索引文件的存储装置还包括:
分布式存储模块210,用于将倒排索引文件夹存储在多个索引服务器中,索引服务器间通过网络相连,用于存储倒排索引文件夹。
上述分布式存储模块210中,可以将生成的倒排索引文件夹存储在多个相互连接的索引服务器中,利用多台索引服务器分担负荷,利用位置服务器定为索引位置信息,可以提高对倒排序索引文件夹的读取速度。
当然,在实际应用当中,对于倒排索引文件夹阈值设定方法并不仅限于本事实例中提到的这三种,本申请实施例中的这三种根据阈值的判断方法只是对是否生成新的倒排索引文件夹的判断标准的启发。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种倒排索引文件的存储方法,其特征在于,包括:
在存储介质中创建用于存储倒排索引文件的倒排索引文件夹;
为所述倒排索引文件夹设置阈值,所述阈值是创建新的倒排索引文件夹的判断条件;
在所述倒排索引文件夹的属性超过所述阈值,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹。
2.根据权利要求1所述方法,其特征在于,当所述为倒排索引文件夹设置的阈值是对所述倒排索引文件夹中所述倒排索引文件数量设置的阈值时,在所述倒排索引文件夹的属性超过所述阈值,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹的方法包括:
获取所述倒排索引文件夹中所述倒排索引文件数量;
对所述倒排索引文件夹中所述倒排索引文件数量与所述阈值进行比较;
当所述倒排索引文件夹中倒排索引文件数量大于所述阈值时,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹。
3.根据权利要求1所述方法,其特征在于,所述为倒排索引文件夹设置的阈值是对所述倒排索引文件夹的容量大小设置的阈值时,在所述倒排索引文件夹的属性超过所述阈值,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹的方法包括:
获取所述倒排索引文件夹的所述容量大小;
对所述倒排索引文件夹的容量与所述阈值进行比较;
当所述倒排索引文件夹的容量大于所述阈值时,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹。
4.根据权利要求1所述方法,其特征在于,所述为倒排索引文件夹设置的阈值是对所述倒排索引文件夹中的文件进行随机读取的所述随机读取时间设置的阈值时,在所述倒排索引文件夹的属性超过所述阈值,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹的方法包括:
通过对所述倒排索引文件夹中的倒排索引文件进行随机读取测试,获取所述倒排索引文件夹中的所述倒排索引文件的所述随机读取时间;
根据所述倒排索引文件夹中的所述倒排索引文件的所述随机读取时间与所述阈值进行比较;
当所述倒排索引文件夹的所述随机读取时间大于所所述阈值时,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹。
5.根据权利要求1所述方法,其特征在于,还包括:
在所述倒排索引文件夹大于阈值时,根据所述倒排索引文件夹中存储的所述倒排索引文件,对所述倒排索引文件夹创建索引表,其中,所述索引表用于对所述倒排序索引文件夹中存储的所述倒排索引文件进行索引。
6.根据权利要求1至5中任意一项所述方法,其特征在于,所述在存储介质中创建用于存储倒排索引文件的倒排索引文件夹,该倒排索引文件的存储方法包括:
将倒排索引文件夹存储在多个索引服务器中,所述索引服务器间通过网络相连,用于存储所述倒排索引文件夹。
7.一种倒排索引文件的存储装置,其特征在于,包括:
存储模块,用于在存储介质中创建用于存储倒排索引文件的倒排索引文件夹;
设置模块,用于为所述倒排索引文件夹设置阈值,所述阈值是创建新的倒排索引文件夹的判断条件;
处理模块,用于在所述倒排索引文件夹的属性超过所述阈值,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹。
8.根据权利要求7所述装置,其特征在于,所述处理模块中还包括:
第一子获取模块,用于获取所述倒排索引文件夹中所述倒排索引文件数量;
第一子判断模块,用于对所述倒排索引文件夹中所述倒排索引文件数量与所述阈值进行比较;
第一子处理模块,用于当所述倒排索引文件夹中倒排索引文件数量大于所述阈值时,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹。
9.根据权利要求7所述装置,其特征在于,所述处理模块中还包括:
第二子获取模块,用于获取所述倒排索引文件夹的所述容量大小;
第二子判断模块,用于对所述倒排索引文件夹的容量与所述阈值进行比较;
第二子处理模块,用于当所述倒排索引文件夹的容量大于所述阈值时,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹。
10.根据权利要求7所述装置,其特征在于,所述处理模块中还包括:
第三子获取模块,用于通过对所述倒排索引文件夹中的倒排索引文件进行随机读取测试,获取所述倒排索引文件夹中的所述倒排索引文件的所述随机读取时间;
第三子判断模块,用于根据所述倒排索引文件夹中的所述倒排索引文件的所述随机读取时间与所述阈值进行比较;
第三子处理模块,用于当所述倒排索引文件夹的所述随机读取时间大于所所述阈值时,创建用于存储所述倒排索引文件的所述新的倒排索引文件夹。
11.根据权利要求7所述装置,其特征在于,还包括:
索引模块,用于在所述倒排索引文件夹大于阈值时,根据所述倒排索引文件夹中存储的所述倒排索引文件,对所述倒排索引文件夹创建索引表,其中,所述索引表用于对所述倒排序索引文件夹中存储的所述倒排索引文件进行索引。
12.根据权利要求7至11中任意一项所述装置,其特征在于,所述存储模块包括:
分布式存储模块,用于将倒排索引文件夹存储在多个索引服务器中,所述索引服务器间通过网络相连,用于存储所述倒排索引文件夹。
CN201410449591.0A 2014-09-04 2014-09-04 倒排索引文件的存储方法和装置 Pending CN104166736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410449591.0A CN104166736A (zh) 2014-09-04 2014-09-04 倒排索引文件的存储方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410449591.0A CN104166736A (zh) 2014-09-04 2014-09-04 倒排索引文件的存储方法和装置

Publications (1)

Publication Number Publication Date
CN104166736A true CN104166736A (zh) 2014-11-26

Family

ID=51910549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410449591.0A Pending CN104166736A (zh) 2014-09-04 2014-09-04 倒排索引文件的存储方法和装置

Country Status (1)

Country Link
CN (1) CN104166736A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279287A (zh) * 2015-12-02 2016-01-27 中国电子科技集团公司第十五研究所 一种物资编目检索方法
CN106326337A (zh) * 2016-08-04 2017-01-11 王恩惠 文件存储装置及方法
CN107943908A (zh) * 2017-11-17 2018-04-20 郑州云海信息技术有限公司 一种文档获取方法及装置
CN105205126B (zh) * 2015-09-11 2018-08-24 武汉云空间地理信息技术有限公司 一种地图瓦片的存储方法及其存储系统
CN111049985A (zh) * 2019-12-19 2020-04-21 上海传英信息技术有限公司 终端的消息显示方法、移动终端和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205126B (zh) * 2015-09-11 2018-08-24 武汉云空间地理信息技术有限公司 一种地图瓦片的存储方法及其存储系统
CN105279287A (zh) * 2015-12-02 2016-01-27 中国电子科技集团公司第十五研究所 一种物资编目检索方法
CN106326337A (zh) * 2016-08-04 2017-01-11 王恩惠 文件存储装置及方法
CN107943908A (zh) * 2017-11-17 2018-04-20 郑州云海信息技术有限公司 一种文档获取方法及装置
CN111049985A (zh) * 2019-12-19 2020-04-21 上海传英信息技术有限公司 终端的消息显示方法、移动终端和存储介质

Similar Documents

Publication Publication Date Title
US7689574B2 (en) Index and method for extending and querying index
CN102270225B (zh) 数据变更日志监控方法和数据变更日志监控装置
CN102663090B (zh) 元数据查询方法和装置
KR101648204B1 (ko) 콘텐트 아이템들의 컬렉션과 연관하여 메타데이터 생성
CN104021161B (zh) 一种聚簇存储方法及装置
CN103597474B (zh) 用于管理文档的系统、设备和方法
US20150106352A1 (en) Aggregation of data from disparate sources into an efficiently accessible format
CN104166736A (zh) 倒排索引文件的存储方法和装置
CN102542052A (zh) 优先散列索引
US20130006996A1 (en) Clustering E-Mails Using Collaborative Information
CN104123332A (zh) 搜索结果的显示方法及装置
CN112765405B (zh) 空间数据搜索结果的聚类和查询的方法及系统
KR20070086804A (ko) 연관된 콘텐트 검색에서 위치 유사 문턱값의 조정
CN106294595A (zh) 一种文档存储、检索方法及装置
CN103019887A (zh) 数据备份方法及装置
CN103020255A (zh) 分级存储方法和装置
CN106708912B (zh) 垃圾文件识别及管理方法、识别装置、管理装置和终端
KR20160053933A (ko) 스마트 검색 정제 기법
EP2742437A2 (en) Clustering web pages on a search engine results page
CN102968464A (zh) 一种基于索引的本地资源快速检索系统及其检索方法
CN103473324A (zh) 基于非结构化数据存储的多维业务属性检索装置及方法
CN103279489A (zh) 一种元数据的存储方法、装置
CN103810300A (zh) 用于非索引覆盖的数据查询方法和装置
CN101963993B (zh) 一种数据库单表记录快速查找的方法
US20080033948A1 (en) Storage apparatus and method therefor

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141126

RJ01 Rejection of invention patent application after publication