CN115080684B - 网盘文档索引方法、装置、网盘及存储介质 - Google Patents

网盘文档索引方法、装置、网盘及存储介质 Download PDF

Info

Publication number
CN115080684B
CN115080684B CN202210894410.XA CN202210894410A CN115080684B CN 115080684 B CN115080684 B CN 115080684B CN 202210894410 A CN202210894410 A CN 202210894410A CN 115080684 B CN115080684 B CN 115080684B
Authority
CN
China
Prior art keywords
index
organization
document
determining
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210894410.XA
Other languages
English (en)
Other versions
CN115080684A (zh
Inventor
岳晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Lenovo Collaboration Technology Inc
Original Assignee
Tianjin Lenovo Collaboration Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Lenovo Collaboration Technology Inc filed Critical Tianjin Lenovo Collaboration Technology Inc
Priority to CN202210894410.XA priority Critical patent/CN115080684B/zh
Publication of CN115080684A publication Critical patent/CN115080684A/zh
Application granted granted Critical
Publication of CN115080684B publication Critical patent/CN115080684B/zh
Priority to PCT/CN2023/108029 priority patent/WO2024022180A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明实施例公开了一种网盘文档索引方法、装置、网盘及存储介质。其中,所述方法包括:获取所述文档创建者所在的组织,并获取所述组织的组织索引编码;为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;根据查询请求确定关键词,并利用关键词在对应索引分片的多组织索引字典中查找得到索引结果。以无需事先存储索引分片与组织之间的对应关系,进而减少了索引服务的压力,同时也提高了对外提供索引服务的效率。

Description

网盘文档索引方法、装置、网盘及存储介质
技术领域
本发明实施例涉及网盘技术领域,尤其涉及一种网盘文档索引方法、装置、网盘及存储介质。
背景技术
网盘,是由互联网公司推出的在线存储服务。网盘系统机房为用户划分一定的磁盘空间,为用户免费或收费提供文件的存储、访问、备份、共享等文件管理等功能,并且拥有高级的世界各地的容灾备份。用户可以把网盘看成一个放在网络上的硬盘或U盘,不管是在家中、单位或其它任何地方,只要连接到因特网,就可以实现管理、编辑网盘里的文件。不需要随身携带,更不怕丢失。
对于企业网盘来说,其中所包含的文档数量处于海量级别,为便于用户查找文档,目前网盘通常提供ES(ElasticSearch)索引服务。Elasticsearch是面向文档型数据库,支持分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。同时可以扩展到上百台服务器,便于处理PB级别的结构化或非结构化数据。
在实现本发明的过程中,发明人发现如下技术问题:目前出于成本考虑,普遍针对多租户企业采用同一SAAS服务搜索引擎。即每个索引服务面向多个企业。在此种情况下,需要首先确定查询发起方所属的企业,进而判断其所在的索引地址范围,从索引地址范围中获取索引结果。但网盘文件处于动态变化中,因此,需要时时调整索引地址范围,进而增加了索引服务的压力,同时也影响了对外提供索引服务的效率。
发明内容
本发明实施例提供一种网盘文档索引方法、装置、网盘及存储介质,以解决现有技术中在多组织场景下,网盘索引服务效率较低的技术问题。
第一方面,本发明实施例提供了一种网盘文档索引方法,包括:
获取所述文档创建者所在的组织,并获取所述组织的组织索引编码;
为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;
根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;
根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;
根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。
第二方面,本发明实施例还提供了一种网盘文档索引装置,包括:
获取模块,用于获取所述文档创建者所在的组织,并获取所述组织的组织索引编码;
增加模块,用于为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;
编码确定模块,用于根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;
索引分片确定模块,用于根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;
查找模块,用于根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。
第三方面,本发明实施例还提供了一种网盘,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例提供的网盘文档索引方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的网盘文档索引方法。
本发明实施例提供的网盘文档索引方法、装置、网盘及存储介质,通过获取所述文档创建者所在的组织,并获取所述组织的组织索引编码;为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。通过为每个组织设定组织索引编码,并将其附加到文档名称中进行存储,并利用索引结果生成多组织索引字典,在接收到查询请求时,将对应查询人所在的组织索引编码作为查询条件,确定对应的索引分片,并从该索引分片中的多组织索引字典中根据关键词获取到索引结果。可以无需事先存储索引分片与组织之间的对应关系,进而减少了索引服务的压力,同时也提高了对外提供索引服务的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一提供的网盘文档索引方法的流程示意图;
图2为本发明实施例二提供的网盘文档索引方法的流程示意图;
图3为本发明实施例三提供的网盘文档索引方法的流程示意图;
图4为本发明实施例四提供的网盘文档索引方法的流程示意图;
图5为本发明实施例五提供的网盘文档索引装置的结构示意图;
图6为本发明实施例六提供的一种网盘的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的网盘文档索引方法的流程示意图,本实施例可适用于在多组织场景下,对每个组织提供索引服务的情况,该方法可以网盘文档索引装置来执行,具体包括如下步骤:
步骤110、获取所述文档创建者所在的组织,并获取所述组织的组织索引编码。
在本实施例中,多个企业用户共同使用一个索引服务。该索引服务面向多个企业。因此,需要对索引进行划分,以满足多企业使用同一索引服务的要求。
可选的,可以为共同使用同一索引服务的每个企业用户分配一个编码,用于与使用同一索引服务的其它企业进行区分。在对该企业组织的文档生成索引时,首先确定该文档的创建者所在的企业组织。文档的创建者为企业组织成员时,可认为该文档的所有者即为该企业组织,因此,需要获取对应的组织索引编码。
步骤120、为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典。
索引通常是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。因此,索引中会包括文档名称,在为文档创建索引时,在对应的文档名称中增加组织索引编码。并将增加组织索引编码后的索引存储于索引分片中,然后根据索引结果为每个索引分片生成多组织索引字典。多组织索引字典为包括多组织文档的索引字典。所述为每个索引分片生成多组织索引字典,包括:根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典。可以利用分词结果和对应文档中的组织索引编码为每个索引分片生成该索引分片的多组织索引字典。
步骤130、根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码。
在网盘中,用户可发出文档查询请求,所述查询请求可以为关键词或者文档标识等信息。在本实施例中,首先根据查询请求确定查询请求人所在的组织。示例性的,可以获取查询请求人的ID,并通过ID确定所在的组织。由于组织索引编码与组织事先已经建立完成映射关系,通过查表方式即可确定查询请求人所在组织的组织索引编码。
步骤140、根据查询组织索引编码和索引分片数量确定查询请求对应索引分片。
由于索引较大,因此,目前普遍采用索引分片的方式保存索引。索引可以有多个分片,可将大的索引拆分成多个,分布在不同节点上。可以根据查询组织索引编码和总的索引分片数量确定该组织的索引分片。
步骤150、根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。
查询请求中包括关键词,利用上述步骤中确定的索引分片中多组织索引字典中建立的关键词与文档的对应关系,查找得到索引结果。
在本实施例中,对于盘符中文件的相应操作反馈运算由网盘执行。因此,可利用所述网盘侧预览操作响应功能函数执行结果。网盘在利用操作响应功能函数得到执行结果后,将执行结果发送至网盘。网盘将执行结果进行展示。示例性的,可以在当前界面设定预览区域,并在所述预览区域显示文件预览内容。
本实施例通过获取所述文档创建者所在的组织,并获取所述组织的组织索引编码;为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。通过为每个组织设定组织索引编码,并将其附加到文档名称中进行存储,并利用索引结果生成多组织索引字典,在接收到查询请求时,将对应查询人所在的组织索引编码作为查询条件,确定对应的索引分片,并从该索引分片中的多组织索引字典中根据关键词获取到索引结果。可以无需事先存储索引分片与组织之间的对应关系,进而减少了索引服务的压力,同时也提高了对外提供索引服务的效率。
实施例二
图2为本发明实施例二提供的网盘文档索引方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,将所述组织索引编码优化为按排列顺序生成的流水号;相应的,将所述根据查询组织索引编码和索引分片数量确定查询请求对应索引分片,具体优化为:提取所述索引结果中的组织索引编码;将提取到的组织索引编码对所述索引分片数量进行求模运算,根据求模运算结果确定对应的索引分片。
相应的,本实施例所提供的网盘文档索引方法,具体包括:
步骤210、获取所述文档创建者所在的组织,并获取所述组织的组织索引编码,所述组织索引编码为按排列顺序生成的流水号。
在本实施例中,可以按照每个企业组织加入的时间,为其分配组织索引编码,并且分配的组织索引编码采用按照顺序依次加一生成的流水号。
步骤220、为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典。
步骤230、根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码。
步骤240、将查询组织索引编码对所述索引分片数量进行求模运算,根据求模运算结果确定对应的索引分片。
在本实施例中,所述索引分片数量和对应的索引存储内容可根据所有公司组织实际对应的文档数量确定,在索引分片数量较为充裕时,也可按照预期发展规模对索引进行合理分配。因此,每个公司组织对应的索引分片是按照顺序排列设定的。
因此,可以将查询组织索引编码对所述索引分片数量进行求模运算,求模运算实质上相当于余数,因此,可确定该公司组织对应的索引分片。同时,在索引扩展时,仍然按照上述规律进行索引设置。同样,还可利用求模运算得到该公司组织对应的所有索引分片。
步骤250、根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。
本实施例通过将所述组织索引编码优化为按排列顺序生成的流水号;相应的,将所述根据查询组织索引编码和索引分片数量确定查询请求对应索引分片,具体优化为:提取所述索引结果中的组织索引编码;将提取到的组织索引编码对所述索引分片数量进行求模运算,根据求模运算结果确定对应的索引分片。利用上述方式可快速准确的得到该公司组织对应的索引分片,提高了确定索引分片的效率,同时利用上述优化方式,可以同样适用于在网盘文档规模增加导致的索引扩展的情况。
实施例三
图3为本发明实施例三提供的网盘文档索引方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,可以将所述为每个索引分片生成多组织索引字典,具体优化为:根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典。
相应的,本实施例所提供的网盘文档索引方法,具体包括:
步骤310、获取所述文档创建者所在的组织,并获取所述组织的组织索引编码。
步骤320、根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典。
由于每个索引分片中包括多个企业组织的索引字典。在用户进行查询时,利用该索引分片的索引字典可能会得出多个企业组织的索引字典。例如:索引分片包括:企业用户A、B和C的索引内容。其中每个企业用户文档中都存在“业务”词语的大量文档。在此种情况下,需要利用文档这种的组织索引编码从多组织索引字典中得到的结果再次进行筛选。才能得到相应的索引结果。
因此,在本实施例中,可以根据索引引擎的分词结果,和对应的文档组织索引编码,在多组织索引字典中直接写入组织索引编码,实现每个组织的索引字典的隔离。
进一步的,所述根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典,还可包括:获取每个组织的索引排序规则;
根据所述文档组织索引编码为同一组织的分词结果按照该组织的排序规则进行排序;按照所述排序结果为每个索引分片生成多组织索引字典。
在利用索引字典输出索引结果时,通常还需要根据相应的规则对索引结果进行排序,以实现更好的推荐效果,增大被选中的几率。目前,普遍采用的是TF-IDF(termfrequency–inverse document frequency)方法,其是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF *IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处。在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。但不同的组织使用的推荐规则是不同的。如果采用同一种方式排序,则必然会影响排序结果。
因此,在本实施例中,需要对多组织索引字典排序进行调整。具体的,首先获取多组织索引字典中每个企业组织的排序规则,通过组织索引编码获取该组织的所有索引,并按照每个企业组织自身的排序规则对该组织的所有索引进行排序。并重新生成多组织索引字典。在实现每个企业组织索引隔离的前提下,通过个性化的排序生成的多组织索引字典,能够输出个性化符合每个企业组织要求的索引结果,实现单索引的索引排序效果。
此外,为避免索引字典无限扩展,进而占用大量的索引资源。在本实施例中,所述按照所述排序结果为每个索引分片生成多组织索引字典,还可包括:确定多组织索引字典中每个分词在该多组织索引字典中的最大数量;根据所述最大数量和排序结果为每个索引分片生成多组织索引字典。通过排序结果选取重要的索引结果,并根据重要的索引结果生成每个企业组织的索引字典,进而生成多组织索引字典。
步骤330、根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码。
步骤340、根据查询组织索引编码和索引分片数量确定查询请求对应索引分片。
步骤350、根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。
本实施例通过将所述为每个索引分片生成多组织索引字典,具体优化为:根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典。实现在单个索引分片中实现每个企业组织的索引字典隔离。并可针对多组织索引字典按照每个企业组织的排序要求进行排序,能够输出个性化符合每个企业组织要求的索引结果,实现单索引的索引排序效果。
实施例四
图4为本发明实施例四提供的网盘文档索引方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,可将所述利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果,具体优化为:根据所述关键词在所述多组织索引字典中查找得到多组织索引结果;根据所述查询组织索引编码在多组织索引结果中查找得到索引结果。
相应的,本实施例所提供的网盘文档索引方法,具体包括:
步骤410、获取所述文档创建者所在的组织,并获取所述组织的组织索引编码。
步骤420、获取每个组织的索引排序规则。
步骤430、根据所述文档组织索引编码为同一组织的分词结果按照该组织的排序规则进行排序。
步骤440、确定多组织索引字典中每个分词在对应组织中的最大数量。
步骤450、根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码。
步骤460、根据查询组织索引编码和索引分片数量确定查询请求对应索引分片。
步骤470、根据所述查询请求确定关键词。
步骤480、根据所述关键词在所述多组织索引字典中查找得到多组织索引结果。
利用多组织索引字典中关键词和文档的对应关系,查找得到多组织索引结果。
步骤490、根据所述查询组织索引编码在多组织索引结果中查找得到索引结果。
示例性的,所述根据所述查询组织索引编码在多组织索引结果中查找得到索引结果,可以包括:将提取到的组织索引编码对所述最大数量进行求模运算,根据求模运算结果确定对应的索引结果。
将查询组织索引编码对所述每个索引分片中的多组织索引字典中每个词的最大数量进行求模运算,求模运算实质上相当于余数,因此,可确定该关键词在多组织索引字典中对应的该组织的索引。可以快速确定该关键词在多组织索引字典中对应的索引内容。同时,由于在多组织索引字典中已经对应进行了排序,通过求模运算得到的索引内容仍然能够按照重要程度进行排序显示。
本实施例通过将所述利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果,具体优化为:根据所述关键词在所述多组织索引字典中查找得到多组织索引结果;根据所述查询组织索引编码在多组织索引结果中查找得到索引结果。可以快速获取得到对应的索引结果,同时,还可利用求模运算能够按照重要程度进行排序显示。提升了多组织索引字典的索引效率。
实施例五
图5为本发明实施例五提供的网盘文档索引装置的结构示意图,如图5所示,所述装置包括:
获取模块510,用于获取所述文档创建者所在的组织,并获取所述组织的组织索引编码;
增加模块520,用于为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;
编码确定模块530,用于根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;
索引分片确定模块540,用于根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;
查找模块550,用于根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。
本实施例提供的网盘文档索引装置,通过获取所述文档创建者所在的组织,并获取所述组织的组织索引编码;为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果。通过为每个组织设定组织索引编码,并将其附加到文档名称中进行存储,并利用索引结果生成多组织索引字典,在接收到查询请求时,将对应查询人所在的组织索引编码作为查询条件,确定对应的索引分片,并从该索引分片中的多组织索引字典中根据关键词获取到索引结果。可以无需事先存储索引分片与组织之间的对应关系,进而减少了索引服务的压力,同时也提高了对外提供索引服务的效率。
在上述各实施例的基础上,所述组织索引编码为按排列顺序生成的流水号;
相应的,所述索引分片确定模块,包括:
运算单元,用于将查询组织索引编码对所述索引分片数量进行求模运算,根据求模运算结果确定对应的索引分片。
在上述各实施例的基础上,所述增加模块,包括:
生成单元,用于根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典。
在上述各实施例的基础上,所述生成单元包括:
获取子单元,用于获取每个组织的索引排序规则;
排序子单元,用于根据所述文档组织索引编码为同一组织的分词结果按照该组织的排序规则进行排序;
生成子单元,用于按照所述排序结果为每个索引分片生成多组织索引字典。
在上述各实施例的基础上,所述查找模块包括:
第一查找单元,用于根据所述关键词在所述多组织索引字典中查找得到多组织索引结果;
第二查找单元,用于根据所述查询组织索引编码在多组织索引结果中查找得到索引结果。
在上述各实施例的基础上,所述增加模块包括:
确定单元,用于确定多组织索引字典中每个分词在对应组织中的最大数量;
多组织索引字典生成单元,用于根据所述最大数量和排序结果为每个索引分片生成多组织索引字典。
在上述各实施例的基础上,所述第二查找单元,包括:
求模运算子单元,用于将提取到的组织索引编码对所述最大数量进行求模运算,根据求模运算结果确定对应的索引结果。
本发明实施例所提供的网盘文档索引装置可执行本发明任意实施例所提供的网盘文档索引方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的一种网盘的结构示意图。图6示出了适于用来实现本发明实施方式的示例性网盘12的框图。图6显示的网盘12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,网盘12以通用计算设备的形式表现。网盘12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
网盘12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被网盘12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存32。网盘12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM, DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
网盘12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该网盘12交互的设备通信,和/或与使得该网盘12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,网盘12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与网盘12的其它模块通信。应当明白,尽管图中未示出,可以结合网盘12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的网盘文档索引方法。
实施例七
本发明实施例七还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的任一所述的网盘文档索引方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种网盘文档索引方法,其特征在于,包括:
获取文档创建者所在的组织,并获取所述组织的组织索引编码,所述组织索引编码用于与使用同一索引服务的其它组织进行区分;
为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;
根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;
根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;
根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果;
所述为每个索引分片生成多组织索引字典,包括:
根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典。
2.根据权利要求1所述的方法,其特征在于,所述组织索引编码为按排列顺序生成的流水号;
相应的,所述根据查询组织索引编码和索引分片数量确定查询请求对应索引分片,包括:
将查询组织索引编码对所述索引分片数量进行求模运算,根据求模运算结果确定对应的索引分片。
3.根据权利要求1所述的方法,其特征在于,所述根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典,还包括:
获取每个组织的索引排序规则;
根据所述文档组织索引编码为同一组织的分词结果按照该组织的排序规则进行排序;
按照排序结果为每个索引分片生成多组织索引字典。
4.根据权利要求3所述的方法,其特征在于,所述利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果,包括:
根据所述关键词在所述多组织索引字典中查找得到多组织索引结果;
根据所述查询组织索引编码在多组织索引结果中查找得到索引结果。
5.根据权利要求4所述的方法,其特征在于,所述按照排序结果为每个索引分片生成多组织索引字典,包括:
确定多组织索引字典中每个分词在对应组织中的最大数量;
根据所述最大数量和排序结果为每个索引分片生成多组织索引字典。
6.根据权利要求5所述的方法,其特征在于,所述根据所述查询组织索引编码在多组织索引结果中查找得到索引结果,包括:
将提取到的组织索引编码对所述最大数量进行求模运算,根据求模运算结果确定对应的索引结果。
7.一种网盘文档索引装置,其特征在于,包括:
获取模块,用于获取文档创建者所在的组织,并获取所述组织的组织索引编码,所述组织索引编码用于与使用同一索引服务的其它组织进行区分;
增加模块,用于为所述文档创建索引,并为索引中文档名称增加组织索引编码,并存储于索引分片中,为每个索引分片生成多组织索引字典;
编码确定模块,用于根据查询请求确定查询请求人所在的组织,并根据所述所在的组织确定查询组织索引编码;
索引分片确定模块,用于根据查询组织索引编码和索引分片数量确定查询请求对应索引分片;
查找模块,用于根据所述查询请求确定关键词,并利用所述关键词在对应索引分片的多组织索引字典中查找得到索引结果;
所述增加模块,包括:
生成单元,用于根据分词结果和分词对应的文档组织索引编码为每个索引分片生成多组织索引字典。
8.一种网盘,其特征在于,所述网盘包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的网盘文档索引方法。
9.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的网盘文档索引方法。
CN202210894410.XA 2022-07-28 2022-07-28 网盘文档索引方法、装置、网盘及存储介质 Active CN115080684B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210894410.XA CN115080684B (zh) 2022-07-28 2022-07-28 网盘文档索引方法、装置、网盘及存储介质
PCT/CN2023/108029 WO2024022180A1 (zh) 2022-07-28 2023-07-19 网盘文档索引方法、装置、网盘及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210894410.XA CN115080684B (zh) 2022-07-28 2022-07-28 网盘文档索引方法、装置、网盘及存储介质

Publications (2)

Publication Number Publication Date
CN115080684A CN115080684A (zh) 2022-09-20
CN115080684B true CN115080684B (zh) 2023-01-06

Family

ID=83243319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210894410.XA Active CN115080684B (zh) 2022-07-28 2022-07-28 网盘文档索引方法、装置、网盘及存储介质

Country Status (2)

Country Link
CN (1) CN115080684B (zh)
WO (1) WO2024022180A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080684B (zh) * 2022-07-28 2023-01-06 天津联想协同科技有限公司 网盘文档索引方法、装置、网盘及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246500A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种实现数据快速索引的检索系统和方法
CN101408882A (zh) * 2008-08-05 2009-04-15 北大方正集团有限公司 一种授权文档的检索方法和系统
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN101599069A (zh) * 2009-07-10 2009-12-09 腾讯科技(深圳)有限公司 电子文档的搜索方法及系统
CN102073719A (zh) * 2011-01-10 2011-05-25 复旦大学 一种基于区间编码的gml文档索引方法
CN111737316A (zh) * 2020-06-19 2020-10-02 广联达科技股份有限公司 一种工程清单查询方法、装置、计算机设备和存储介质
CN112395387A (zh) * 2019-08-15 2021-02-23 北京京东尚科信息技术有限公司 全文检索方法及装置、计算机存储介质、电子设备
CN113486156A (zh) * 2021-07-30 2021-10-08 北京鼎普科技股份有限公司 一种基于es的关联文档检索方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012126180A1 (en) * 2011-03-24 2012-09-27 Microsoft Corporation Multi-layer search-engine index
US9589072B2 (en) * 2011-06-01 2017-03-07 Microsoft Technology Licensing, Llc Discovering expertise using document metadata in part to rank authors
CN108628867A (zh) * 2017-03-16 2018-10-09 北京科瑞云安信息技术有限公司 面向云存储的多关键词密文检索方法和系统
CN107506464A (zh) * 2017-08-30 2017-12-22 武汉烽火众智数字技术有限责任公司 一种基于ES实现HBase二级索引的方法
CN110019647B (zh) * 2017-10-25 2023-12-15 华为技术有限公司 一种关键词搜索方法、装置和搜索引擎
CN112612845A (zh) * 2020-12-22 2021-04-06 中国建设银行股份有限公司 一种组织机构视图实现方法、装置、电子设备及可读存储介质
CN113312355A (zh) * 2021-06-15 2021-08-27 北京沃东天骏信息技术有限公司 一种数据管理的方法和装置
CN114416670B (zh) * 2022-04-01 2022-07-26 天津联想协同科技有限公司 适用于网盘文档的索引创建方法、装置、网盘及存储介质
CN115080684B (zh) * 2022-07-28 2023-01-06 天津联想协同科技有限公司 网盘文档索引方法、装置、网盘及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN101246500A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种实现数据快速索引的检索系统和方法
CN101408882A (zh) * 2008-08-05 2009-04-15 北大方正集团有限公司 一种授权文档的检索方法和系统
CN101599069A (zh) * 2009-07-10 2009-12-09 腾讯科技(深圳)有限公司 电子文档的搜索方法及系统
CN102073719A (zh) * 2011-01-10 2011-05-25 复旦大学 一种基于区间编码的gml文档索引方法
CN112395387A (zh) * 2019-08-15 2021-02-23 北京京东尚科信息技术有限公司 全文检索方法及装置、计算机存储介质、电子设备
CN111737316A (zh) * 2020-06-19 2020-10-02 广联达科技股份有限公司 一种工程清单查询方法、装置、计算机设备和存储介质
CN113486156A (zh) * 2021-07-30 2021-10-08 北京鼎普科技股份有限公司 一种基于es的关联文档检索方法

Also Published As

Publication number Publication date
CN115080684A (zh) 2022-09-20
WO2024022180A1 (zh) 2024-02-01

Similar Documents

Publication Publication Date Title
US9959347B2 (en) Multi-layer search-engine index
US10114908B2 (en) Hybrid table implementation by using buffer pool as permanent in-memory storage for memory-resident data
US8977623B2 (en) Method and system for search engine indexing and searching using the index
US8782101B1 (en) Transferring data across different database platforms
CN111258966A (zh) 一种数据去重方法、装置、设备及存储介质
US20080109419A1 (en) Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document
US20090077078A1 (en) Methods and systems for merging data sets
US20120016863A1 (en) Enriching metadata of categorized documents for search
WO2013112415A1 (en) Indexing structures using synthetic document summaries
US10372718B2 (en) Systems and methods for enterprise data search and analysis
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN111400323B (zh) 数据检索方法、系统、设备及存储介质
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
CN110276009B (zh) 一种联想词的推荐方法、装置、电子设备及存储介质
US7587407B2 (en) System and method for creation, representation, and delivery of document corpus entity co-occurrence information
US20120310940A1 (en) Faceted search with relationships between categories
CN110990406B (zh) 一种模糊查询方法、装置、设备和介质
CN113204621A (zh) 文档入库、文档检索方法,装置,设备以及存储介质
CN115080684B (zh) 网盘文档索引方法、装置、网盘及存储介质
US20100198829A1 (en) Method and computer-program product for ranged indexing
US8805820B1 (en) Systems and methods for facilitating searches involving multiple indexes
US20080162165A1 (en) Method and system for analyzing non-patent references in a set of patents
CN106776772B (zh) 一种数据检索的方法及装置
CN113515504B (zh) 数据管理方法、装置、电子设备以及存储介质
US11954223B2 (en) Data record search with field level user access control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant