CN109815194A - 索引方法、索引装置、计算机可读存储介质及电子设备 - Google Patents

索引方法、索引装置、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN109815194A
CN109815194A CN201910105150.1A CN201910105150A CN109815194A CN 109815194 A CN109815194 A CN 109815194A CN 201910105150 A CN201910105150 A CN 201910105150A CN 109815194 A CN109815194 A CN 109815194A
Authority
CN
China
Prior art keywords
document
index
expired
memory
rubbish
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910105150.1A
Other languages
English (en)
Other versions
CN109815194B (zh
Inventor
徐文胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201910105150.1A priority Critical patent/CN109815194B/zh
Publication of CN109815194A publication Critical patent/CN109815194A/zh
Application granted granted Critical
Publication of CN109815194B publication Critical patent/CN109815194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,具体而言,涉及一种索引方法、索引装置,以及实现所述索引方法的计算机可读存储介质及电子设备。其中,上述索引方法包括:通过原子操作将更新文档存入索引内存,以实现对所述更新文档对应的过期文档的更新;通过原子操作将所述过期文档存入垃圾内存池;响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档。本技术方案通过原子操作对索引内存中的文档进行更新,能够提高索引内存的有效使用率。并且,通过延迟删除过期文档的方法确保过期文档在不再被使用的情况下才进行删除,有利于提高用户的索引体验。同时,删除更新文档释放的内存空间可供进一步利用,从而提高索引内存的有效使用率。

Description

索引方法、索引装置、计算机可读存储介质及电子设备
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种索引方法、索引装置,以及实现所述索引方法的计算机可读存储介质及电子设备。
背景技术
随着互联网网民个性化需求的日益加剧,基于大数据、人工智能的千人千面产品越来越受到网民的追捧。例如:符合不同用户习惯的个性化的搜索系统、为用户提供个性化推荐系统的电商等。其中,索引技术时上述搜索技术、推荐系统提供高并发、低延时的个性化信息的核心技术。
索引(index)技术的索引对象统称为文档。文档的变更方式包括增加文档、删除文档、修改文档内容。索引内存一方面提供文档的更新,对正排索引和倒排索引进行修改,另一方面提供用户检索,对正排索引和倒排索引进行读取和查询。因此,索引技术中的读取和写入的冲突问题,是索引设计时需要考虑的重点问题。
现有的索引设计是通过双buffer(两份索引)机制来保证索引读取和写入的冲突问题。其中,一份索引提供用户查询(此索引称为“读索引”),同时,另一份索引提供文档更新(此索引称为“写索引”)。然后,写索引进行更新后读写索引相互进行切换。具体如图1所示,在第一时间段11中,索引(index1)作为写索引提供文档a的更新,同时,索引(index2)作为读索引提供请求1的查询。在第二时间段12中,索引(index2)作为写索引提供文档b的更新,同时,索引(index1)作为读索引提供请求2的查询。
然而,现有的索引方法的内存占用量较大造成内存的有效使用率有待提高。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种索引方法、索引装置,以及实现所述索引方法的计算机可读存储介质及电子设备,进而至少在一定程度上克服现有的索引方法的内存占用量较大造成内存的有效使用率有待提高的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种索引方法,包括:
通过原子操作将更新文档存入索引内存,以实现对所述更新文档对应的过期文档的更新;
通过原子操作将所述过期文档存入垃圾内存池;
响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档。
在本发明的一些实施例中,基于前述方案,通过原子操作将更新文档存入索引内存,包括:
将所述过期文档对应的目标指针的下一指针,作为所述更新文档对应的指针的下一指针;
将所述过期文档对应的目标指针的上一指针,作为所述更新文档对应的指针的上一指针。
在本发明的一些实施例中,基于前述方案,通过原子操作将所述过期文档存入垃圾内存池,包括:
将所述目标指针以及替换时间存入垃圾内存池;
其中,所述替换时间为将所述目标指针存入垃圾内存池的时间。
在本发明的一些实施例中,基于前述方案,将所述目标指针以及替换时间存入垃圾内存池,包括:
将目标指针以<garbage doc point,time>的数据结构存入垃圾内存池的尾部,以使所述垃圾内存池中的各个数据结构按照被替换时间升序排列;
其中,所述数字结构的第一个元素garbage doc point为所述目标指针,所述数字结构的第二个元素time所述目标指针的替换时间。
在本发明的一些实施例中,基于前述方案,响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档,包括:
通过所述目标指针对应的替换时间判断在所述垃圾内存池中的目标指针的存储时长是否大于预设时长;
响应于在所述垃圾内存池中的目标指针的存储时长大于所述预设时长,释放所述目标指针对应的存储空间。
在本发明的一些实施例中,基于前述方案,上述索引方法,还包括:
响应于在所述垃圾内存池中的过期文档的存储时长小于或等于预设时长时,继续保持所述目标指针在所述垃圾内存池中。
在本发明的一些实施例中,基于前述方案,在通过原子操作将更新文档存入索引内存之后,上述索引方法,还包括:
基于所述索引内存进行正排索引和/或倒排索引。
在本发明的一些实施例中,基于前述方案,基于所述索引内存进行正排索引和/或倒排索引,包括:
根据收集到的关于第一用户的兴趣数据,对所述索引内存进行正排索引和/或倒排索引,以确定所述兴趣数据对应的索引结果;
将所述索引结果作为推荐内容发送至用户终端,以提供至所述第一用户。
在本发明的一些实施例中,基于前述方案,基于所述索引内存进行正排索引和/或倒排索引,包括:
根据接收到的第二用户的搜索请求,对所述索引内存进行正排索引和/或倒排索引,以确定所述搜索请求对应的索引结果;
将所述索引结果作为搜索应答发送至用户终端,以提供至所述第二用户。
根据本发明实施例的第二方面,提供了一种索引装置,包括:
更新文档存入模块,用于通过原子操作将更新文档存入索引内存以实现对所述更新文档对应的过期文档的更新;
过期文档转存模块,用于通过原子操作将所述过期文档存入垃圾内存池;
删除模块,用于响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档。
根据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的索引方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的索引方法。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明的一些实施例所提供的技术方案中,一方面,通过原子操作将更新文档存入索引内存,以供用户进行读取操作。无需通过双buffer机制并能够解决对同一索引内存进行读操作和写操作的冲突问题,从而提高索引内存的有效使用率。另一方面,将更新文档对应的过期文档转存至垃圾内存池,并在所述垃圾内存池中的过期文档的存储时长大于预设时长后,才删除此过期文档。通过延迟删除过期文档的方法确保过期文档在不再被使用的情况下才进行删除,有利于提高用户的索引体验。同时,删除更新文档释放的内存空间可供进一步利用,从而提高索引内存的有效使用率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了现有技术中索引方法的示意图;
图2示出了根据本发明的实施例的索引方法的流程示意图;
图3示出了根据本发明的实施例的另一索引方法的流程示意图;
图4示出了根据本发明的实施例的再一索引方法的流程示意图;
图5示出了根据本发明实施例的对更新文档的原子操作方法的流程示意图;
图6示出了根据本发明实施例的对更新文档的原子操作的流程图;
图7示出了根据本发明实施例的对过期文档的处理方法的流程示意图;
图8示出了根据本发明实施例的对过期文档的处理的流程图;
图9示出了根据本发明的实施例的索引装置的结构示意图;
图10示意性示出一种用于实现上述索引方法的计算机可读存储介质;以及,
图11示意性示出一种用于实现上述索引方法的电子设备示例框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在检索引擎(如,搜索引擎、推荐系统引擎等)的索引技术(index)中,正排索引和倒排索引是最为关键的索引技术。其中,检索引擎检索的对象统一成为文档。倒排索引提供根据相关匹配条件快速查找符合条件的文档的能力,正排索引提供根据文档id快速查找文档内容的能力。检索引擎中的文档需进行变更,变更的主要方式有增加文档、删除文档、修改文档内容这三种,检索引擎提供快速进行文档变更的技术能力,本质上就是快速地将正排索引和倒排索引进行修改。
然而,检索引擎一边提供文档的快速更新,对正排索引和倒排索引进行修改,另一边提供用户检索,对正排索引和倒排索引进行读取和查询。从而,会引起到索引技术中的读取和写入的冲突问题。
然而,现有技术通过双buffer(两份索引)机制来保证索引读取和写入的冲突问题时,会造成内存的有效使用率有待提高。尤其是对于很多大型的检索引擎,可能需要加载上亿的文档,从而需要的机器资源非常多,导致造成很大的机器资源浪费。
图2示出了根据本发明的实施例的索引方法的流程示意图,至少在一定程度上克服上述现有相关技术提供的索引方法存在的问题。
其中,本实施例提供的索引方法的执行主体可以是具有计算处理功能的设备,比如服务器等。
参考图2,该实施例提供的索引方法,包括:
步骤S201,通过原子操作将更新文档存入索引内存,以实现对所述更新文档对应的过期文档的更新;
步骤S202,通过原子操作将所述过期文档存入垃圾内存池;以及,
步骤S203,响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档。
在图2所示实施例所提供的技术方案中,一方面,通过原子操作将更新文档存入索引内存,以供用户进行读取操作。无需通过双buffer机制并能够解决对同一索引内存进行读操作和写操作的冲突问题,从而提高索引内存的有效使用率。另一方面,将更新文档对应的过期文档转存至垃圾内存池,并在所述垃圾内存池中的过期文档的存储时长大于预设时长后,才删除此过期文档。通过延迟删除过期文档的方法确保过期文档在不再被使用的情况下才进行删除,有利于提高用户的索引体验。同时,删除更新文档释放的内存空间可供进一步利用,从而提高索引内存的有效使用率。
以下对图2所示实施例中的各个步骤的具体实施方式进行详细阐述。
在示例性的实施例中,对于索引内存中的各个文档,是通过指针执行各文档在索引内存中的存储地址的。上述步骤S201中通过原子操作即为对上述指针构成的链表的更新,并且,更新过程中可以供用户进行数据读取,也就是说,更新期间上述索引内存可以正常进行正排索引和/或倒排索引操作。
具体地,在示例性的实施例中,图3示出了基于索引内存获取索引结果,从而根据索引结果为用户进行推荐的使用场景。参考图3,该方法包括:
步骤S301,根据收集到的关于第一用户的兴趣数据,对所述索引内存进行正排索引和/或倒排索引,以确定所述兴趣数据对应的索引结果;以及,步骤S302,将所述索引结果作为推荐内容发送至用户终端,以提供至所述第一用户。
示例性的,根据第一用户的历史听歌记录,获取第一用户感兴趣的歌曲风格:风格a、风格b。用户感兴趣的歌曲风格:风格a、风格b作为上述兴趣数据,并根据上述兴趣数据对索引内存进行正排索引和/或倒排索引,从而获取索引结果:多首符合风格a、风格b的歌曲。进一步地,将上述索引结果作为推荐内容发送至用户终端,以提供至所述第一用户。从而,根据第一用户个性化的兴趣数据为不同的第一用户推荐其可能感兴趣的内容。
在示例性的实施例中,图4示出了基于索引内存获取索引结果,从而根据索引结果为用户进行提供搜索应答的使用场景。参考图4,该方法包括:
步骤S401,根据接收到的第二用户的搜索请求,对所述索引内存进行正排索引和/或倒排索引,以确定所述搜索请求对应的索引结果;以及,步骤S402,将所述索引结果作为搜索应答发送至用户终端,以提供至所述第二用户。
示例性的,接收第二用户的搜索请求,如:女士长款羽绒服。根据上述搜索请求对索引内存进行正排索引和/或倒排索引,从而获取索引结果:多个不同品牌的女士长款羽绒服。进一步地,将上述索引结果作为搜索应答发送至用户终端,以提供至所述第二用户。从而,根据第二用户搜索请求为其提供其搜索请求对应的搜索应答,实现了用户的搜索目的。
在示例性的实施例中,图5示出了根据本发明实施例的对更新文档的原子操作方法的流程示意图。可以用于对步骤S201的具体实施方式进行说明。参考图5,该实施例提供的对更新文档的原子操作方法,包括步骤S501和步骤S502。
在示例性的实施例中,参考图6,更新前索引内存中的链表的逻辑顺序可以表示为:文档1对应的指针–文档2(待更新)对应的指针–文档3对应的指针。示例性的,为了便于说明,将文档1对应的指针与文档2(待更新)对应的指针之间记作连接(1)、将文档2(待更新)对应的指针与文档3对应的指针之间记作连接(2)。
在步骤S501中,将所述过期文档对应的目标指针的下一指针,作为所述更新文档对应的指针的下一指针。
在示例性的实施例中,将过期文档对应的指针称作目标指针。
在示例性的实施例中,参考图6,在第一阶段61中,通过原子操作将文档2(已更新)写入索引内存。具体包括:链表中,文档2(已更新)对应的指针的下一指针对应的元素为文档3(即过期文档对应的指针的下一指针对应的文档),示例性的,将文档2(已更新)对应的指针与文档3对应的指针之间记作连接(2’)。
在步骤S502中,将所述过期文档对应的目标指针的上一指针,作为所述更新文档对应的指针的上一指针。
在示例性的实施例中,再次参考图6,在第二阶段62中,通过原子操作将文档2(已更新)写入索引内存。具体还包括:将连接(1)替换为连接(1’)。将文档2(已更新)设置为文档1对应的指针的下一指针对应的元素,其中,将文档1对应的指针与文档2(已更新)对应的指针之间记作连接(1’)。
在示例性的实施例中,图7示出了根据本发明实施例的对过期文档的处理方法的流程示意图。可以用于对步骤S202和步骤S203的具体实施方式进行说明。参考图7,该实施例提供的对过期文档的处理方法,包括步骤S701和步骤S704。
在步骤S701中,将所述目标指针以及替换时间存入垃圾内存池;其中,所述替换时间为将所述目标指针存入垃圾内存池的时间。
在示例性的实施例中,将各个过期文档对应的目标指针以<garbage doc point,time>的数据结构存入垃圾内存池的尾部,以使所述垃圾内存池中的各个数据结构按照被替换时间升序排列。其中,上述数字结构的第一个元素garbage doc point为过期文档对应的目标指针,上述数字结构的第二个元素time为对应的目标指针的替换时间,即更新文档写入索引内存的时间。
参考图8,索引内存index3为根据上述实施例提供的索引方法进行文档的更新以及向用户提供数据读取的,并且,读取操作与更新操作可同时进行。其中,docs表示多个更新文档(如doc1、doc2等),用于写入索引内存index3;request表示用户的读取请求。
在示例性的实施例中,将更新文档doc1、doc2…根本对应的过期文档表示为:DOC1’、DOC2’…。
示例性的,时间点为time1时,使用原子操作将更新文档doc1写入(write)索引内存index3,并将更新文档doc1对应的过期文档DOC1’的指针放入垃圾内存池的尾部,并记录此替换时间time1,则过期文档DOC1’对应的目标指针的数字结构为<garbage doc point,time1>。
示例性的,时间点为time2时,使用原子操作将更新文档doc2写入(write)索引内存index3,并将更新文档doc2对应的过期文档DOC2’的指针放入垃圾内存池的尾部,并记录此替换时间time2,则过期文档DOC2’对应的目标指针的数字结构为<garbage doc point,time2>。
以此类推,随着时间的推移,多个过期文档对应的目标指针被依次放入垃圾内存池的尾部。示例性的,可以使用push_back函数在垃圾内存池的末尾插入上述各个过期文档对应的目标指针。
在步骤S702中,通过所述目标指针对应的替换时间判断在所述垃圾内存池中的目标指针的存储时长是否大于预设时长。以及,
响应于在所述垃圾内存池中的目标指针的存储时长大于所述预设时长,在步骤S703中,释放所述目标指针对应的存储空间
响应于在所述垃圾内存池中的过期文档的存储时长小于或等于预设时长时,在步骤S704中,继续保持所述目标指针在所述垃圾内存池中。直至等待在垃圾内存池中的过期文档的存储时长大于预设时长,再执行步骤S703,从而释放对应的内存。
在示例性的实施例中,对索引内存进行回收时,需首先确保内存可以回收的安全时间,然后把安全时间之前的所有内存进行回收。示例性的,参考图8,本实施例中设置的安全时间(safe time)为time3,也就是说,<garbage doc point,time1>和<garbage docpoint,time2>对应的内存就可以进行回收。
在图7和图8所示实施例提供的技术方案中,将更新文档对应的过期文档转存至垃圾内存池,并在所述垃圾内存池中的过期文档的存储时长大于预设时长后,才删除此过期文档。通过延迟删除过期文档的方法确保过期文档在不再被使用的情况下才进行删除,有利于提高用户的索引体验。同时,删除更新文档释放的内存空间可供进一步利用,从而提高索引内存的有效使用率。
以下介绍本发明的装置实施例,可以用于执行本发明上述的索引方法。
图9示出了根据本发明的实施例的索引装置的结构示意图。参考图7,上述索引装置900,包括:更新文档存入模块901、过期文档转存模块902,以及删除模块903。
其中,上述更新文档存入模块901,用于通过原子操作将更新文档存入索引内存以实现对所述更新文档对应的过期文档的更新;
上述过期文档转存模块902,用于通过原子操作将所述过期文档存入垃圾内存池;以及,
上述删除模块903,用于响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档。
在本发明的一些实施例中,基于前述方案,上述更新文档存入模块901,具体用于:
将所述过期文档对应的目标指针的下一指针,作为所述更新文档对应的指针的下一指针;以及,
将所述过期文档对应的目标指针的上一指针,作为所述更新文档对应的指针的上一指针。
在本发明的一些实施例中,基于前述方案,上述过期文档转存模块902,具体用于:
将所述目标指针以及替换时间存入垃圾内存池;
其中,所述替换时间为将所述目标指针存入垃圾内存池的时间。
在本发明的一些实施例中,基于前述方案,上述过期文档转存模块902,还具体用于:
将目标指针以<garbage doc point,time>的数据结构存入垃圾内存池的尾部,以使所述垃圾内存池中的各个数据结构按照被替换时间升序排列;
其中,所述数字结构的第一个元素garbage doc point为所述目标指针,所述数字结构的第二个元素time所述目标指针的替换时间。
在本发明的一些实施例中,基于前述方案,上述删除模块703,包括判断单元、第一响应单元和第二响应单元。
其中,上述判断单元用于:
通过所述目标指针对应的替换时间判断在所述垃圾内存池中的目标指针的存储时长是否大于预设时长;
上述第一响应单元用于:响应于在所述垃圾内存池中的目标指针的存储时长大于所述预设时长,释放所述目标指针对应的存储空间。
在本发明的一些实施例中,基于前述方案,上述第二响应单元用于:
响应于在所述垃圾内存池中的过期文档的存储时长小于或等于预设时长时,继续保持所述目标指针在所述垃圾内存池中。
在本发明的一些实施例中,基于前述方案,上述索引装置900还包括索引模块。
其中,上述索引模块用于:基于所述索引内存进行正排索引和/或倒排索引。
在本发明的一些实施例中,基于前述方案,上述索引模块,包括:第一索引单元和推荐内容发送单元;
其中,上述第一索引单元用于:根据收集到的关于第一用户的兴趣数据,对所述索引内存进行正排索引和/或倒排索引,以确定所述兴趣数据对应的索引结果;
上述推荐内容发送单元用于:将所述索引结果作为推荐内容发送至用户终端,以提供至所述第一用户。
在本发明的一些实施例中,基于前述方案上述索引模块,包括:第二索引单元和搜索应答发送单元;
其中,上述第二索引单元用于:根据接收到的第二用户的搜索请求,对所述索引内存进行正排索引和/或倒排索引,以确定所述搜索请求对应的索引结果;
上述搜索应答发送单元用于:将所述索引结果作为搜索应答发送至用户终端,以提供至所述第二用户。
由于本发明的示例实施例的索引装置的各个功能模块与上述索引方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的索引的实施例。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的索引方法。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图10所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图11来描述根据本公开的这种实施方式的电子设备900。图11显示的电子设备1100仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1110执行,使得所述处理单元1110执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1110可以执行如图2中所示的:步骤S201,通过原子操作将更新文档存入索引内存,以实现对所述更新文档对应的过期文档的更新;步骤S202,通过原子操作将所述过期文档存入垃圾内存池;步骤S203,响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档。
存储单元1120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202,还可以进一步包括只读存储单元(ROM)11203。
存储单元1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204,这样的程序模块11205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1130可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1100交互的设备通信,和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且,电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (12)

1.一种索引方法,其特征在于,包括:
通过原子操作将更新文档存入索引内存,以实现对所述更新文档对应的过期文档的更新;
通过原子操作将所述过期文档存入垃圾内存池;
响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档。
2.根据权利要求1所述的索引方法,其特征在于,通过原子操作将更新文档存入索引内存,包括:
将所述过期文档对应的目标指针的下一指针,作为所述更新文档对应的指针的下一指针;
将所述过期文档对应的目标指针的上一指针,作为所述更新文档对应的指针的上一指针。
3.根据权利要求2所述的方法,其特征在于,通过原子操作将所述过期文档存入垃圾内存池,包括:
将所述目标指针以及替换时间存入垃圾内存池;
其中,所述替换时间为将所述目标指针存入垃圾内存池的时间。
4.根据权利要求3所述的方法,其特征在于,将所述目标指针以及替换时间存入垃圾内存池,包括:
将目标指针以<garbage doc point,time>的数据结构存入垃圾内存池的尾部,以使所述垃圾内存池中的各个数据结构按照被替换时间升序排列;
其中,所述数字结构的第一个元素garbage doc point为所述目标指针,所述数字结构的第二个元素time所述目标指针的替换时间。
5.根据权利要求3所述的方法,其特征在于,响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档,包括:
通过所述目标指针对应的替换时间判断在所述垃圾内存池中的目标指针的存储时长是否大于预设时长;
响应于在所述垃圾内存池中的目标指针的存储时长大于所述预设时长,释放所述目标指针对应的存储空间。
6.根据权利要求3所述的索引方法,其特征在于,还包括:
响应于在所述垃圾内存池中的过期文档的存储时长小于或等于预设时长时,继续保持所述目标指针在所述垃圾内存池中。
7.根据权利要求1至权利要求6中的任一项所述的方法,其特征在于,在通过原子操作将更新文档存入索引内存之后,还包括:
基于所述索引内存进行正排索引和/或倒排索引。
8.根据权利要求7所述的方法,其特征在于,基于所述索引内存进行正排索引和/或倒排索引,包括:
根据收集到的关于第一用户的兴趣数据,对所述索引内存进行正排索引和/或倒排索引,以确定所述兴趣数据对应的索引结果;
将所述索引结果作为推荐内容发送至用户终端,以提供至所述第一用户。
9.根据权利要求7所述的方法,其特征在于,基于所述索引内存进行正排索引和/或倒排索引,包括:
根据接收到的第二用户的搜索请求,对所述索引内存进行正排索引和/或倒排索引,以确定所述搜索请求对应的索引结果;
将所述索引结果作为搜索应答发送至用户终端,以提供至所述第二用户。
10.一种索引装置,其特征在于,包括:
更新文档存入模块,用于通过原子操作将更新文档存入索引内存以实现对所述更新文档对应的过期文档的更新;
过期文档转存模块,用于通过原子操作将所述过期文档存入垃圾内存池;
删除模块,用于响应于在所述垃圾内存池中的过期文档的存储时长大于预设时长时,删除所述过期文档。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至9中任一项所述的索引方法。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至9中任一项所述的索引方法。
CN201910105150.1A 2019-02-01 2019-02-01 索引方法、索引装置、计算机可读存储介质及电子设备 Active CN109815194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910105150.1A CN109815194B (zh) 2019-02-01 2019-02-01 索引方法、索引装置、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910105150.1A CN109815194B (zh) 2019-02-01 2019-02-01 索引方法、索引装置、计算机可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109815194A true CN109815194A (zh) 2019-05-28
CN109815194B CN109815194B (zh) 2024-07-16

Family

ID=66605201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910105150.1A Active CN109815194B (zh) 2019-02-01 2019-02-01 索引方法、索引装置、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109815194B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113419851A (zh) * 2021-06-15 2021-09-21 广联达科技股份有限公司 指针对象的删除方法、装置、电子设备及可读存储介质
CN118069590A (zh) * 2024-04-22 2024-05-24 极限数据(北京)科技有限公司 搜索数据库的正排索引处理方法、装置、介质和设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060161591A1 (en) * 2005-01-14 2006-07-20 Microsoft Corporation System and method for intelligent deletion of crawled documents from an index
CN101140531A (zh) * 2007-10-10 2008-03-12 中兴通讯股份有限公司 快速申请内存的方法
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
CN101944108A (zh) * 2010-09-07 2011-01-12 深圳市彩讯科技有限公司 一种索引文件及索引文件建立方法
US20120016864A1 (en) * 2010-07-13 2012-01-19 Microsoft Corporation Hierarchical merging for optimized index
CN103473277A (zh) * 2013-08-27 2013-12-25 华为技术有限公司 文件系统的快照方法和装置
CN103631937A (zh) * 2013-12-06 2014-03-12 北京趣拿信息技术有限公司 构建列存储索引的方法、装置及系统
CN104426926A (zh) * 2013-08-21 2015-03-18 腾讯科技(深圳)有限公司 定时发布数据的处理方法及装置
CN104794119A (zh) * 2014-01-17 2015-07-22 阿里巴巴集团控股有限公司 用于中间件消息的存储与传输方法及系统
CN106643718A (zh) * 2016-07-22 2017-05-10 禾麦科技开发(深圳)有限公司 智能导购系统及方法
CN108932236A (zh) * 2017-05-22 2018-12-04 北京金山云网络技术有限公司 一种文件管理方法、过期文件删除方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060161591A1 (en) * 2005-01-14 2006-07-20 Microsoft Corporation System and method for intelligent deletion of crawled documents from an index
CN101140531A (zh) * 2007-10-10 2008-03-12 中兴通讯股份有限公司 快速申请内存的方法
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
US20120016864A1 (en) * 2010-07-13 2012-01-19 Microsoft Corporation Hierarchical merging for optimized index
CN101944108A (zh) * 2010-09-07 2011-01-12 深圳市彩讯科技有限公司 一种索引文件及索引文件建立方法
CN104426926A (zh) * 2013-08-21 2015-03-18 腾讯科技(深圳)有限公司 定时发布数据的处理方法及装置
CN103473277A (zh) * 2013-08-27 2013-12-25 华为技术有限公司 文件系统的快照方法和装置
CN103631937A (zh) * 2013-12-06 2014-03-12 北京趣拿信息技术有限公司 构建列存储索引的方法、装置及系统
CN104794119A (zh) * 2014-01-17 2015-07-22 阿里巴巴集团控股有限公司 用于中间件消息的存储与传输方法及系统
CN106643718A (zh) * 2016-07-22 2017-05-10 禾麦科技开发(深圳)有限公司 智能导购系统及方法
CN108932236A (zh) * 2017-05-22 2018-12-04 北京金山云网络技术有限公司 一种文件管理方法、过期文件删除方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
沈薇薇;熊金波;黄阳群;姚志强;: "基于生命周期控制的电子文件安全删除方案", 小型微型计算机系统, no. 05, 15 May 2016 (2016-05-15) *
陈兵, 王立松: "基于哈希链表和时间链表的HTTP代理缓存机制的实现", 南京航空航天大学学报, no. 01, 30 March 2002 (2002-03-30) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113419851A (zh) * 2021-06-15 2021-09-21 广联达科技股份有限公司 指针对象的删除方法、装置、电子设备及可读存储介质
CN118069590A (zh) * 2024-04-22 2024-05-24 极限数据(北京)科技有限公司 搜索数据库的正排索引处理方法、装置、介质和设备
CN118069590B (zh) * 2024-04-22 2024-06-21 极限数据(北京)科技有限公司 搜索数据库的正排索引处理方法、装置、介质和设备

Also Published As

Publication number Publication date
CN109815194B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
US10154039B1 (en) Hierarchical policy-based shared resource access control
US11853334B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
US7680852B2 (en) Search processing method and search system
US20150100524A1 (en) Smart selection of text spans
CN108292302A (zh) 重复内容自动呈现
CN104731886B (zh) 一种海量小文件的处理方法及系统
WO2016196697A1 (en) Graph-driven authoring in productivity tools
US10198504B2 (en) Terms for query expansion using unstructured data
CN107710201A (zh) 存储数据和从位向量搜索索引取回数据
MX2013004765A (es) Metodos para indexacion y busqueda basados en lenguaje local.
CN107851108A (zh) 使用位向量搜索索引的匹配文档
CN109815194A (zh) 索引方法、索引装置、计算机可读存储介质及电子设备
JP2021500664A (ja) 方法、システム、およびコンピュータ・プログラム(クエリ処理)
CN110352410B (zh) 跟踪索引节点的访问模式以及预提取索引节点
US11361031B2 (en) Dynamic linguistic assessment and measurement
CN114371832A (zh) 基于语义分析的业务代码生成方法、装置和存储介质
CN107430596B (zh) 输入法编辑器的外部化执行
JP2007241378A (ja) 検索装置及びそのプログラム
US8818970B2 (en) Partitioning a directory while accessing the directory
CN111930684A (zh) 基于hdfs的小文件处理方法、装置、设备及存储介质
CN109359187A (zh) 语句条目交互方法与装置、电子设备、存储介质
US20220092049A1 (en) Workload-driven database reorganization
US11928180B2 (en) Automatic ground truth selection
US11625361B2 (en) Automated file naming and file organization using machine learning
KR102172321B1 (ko) 데이터 중복 제거 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant