CN114168534A - 加快es文件进行本地全文检索的方法、系统、装置及介质 - Google Patents

加快es文件进行本地全文检索的方法、系统、装置及介质 Download PDF

Info

Publication number
CN114168534A
CN114168534A CN202111298880.1A CN202111298880A CN114168534A CN 114168534 A CN114168534 A CN 114168534A CN 202111298880 A CN202111298880 A CN 202111298880A CN 114168534 A CN114168534 A CN 114168534A
Authority
CN
China
Prior art keywords
file
full
disk
retrieval
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111298880.1A
Other languages
English (en)
Inventor
周磊
蓝飘
曹纪梅
蔡志坚
黄泓凯
田丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRG Banking Equipment Co Ltd
GRG Banking IT Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
GRG Banking IT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd, GRG Banking IT Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN202111298880.1A priority Critical patent/CN114168534A/zh
Publication of CN114168534A publication Critical patent/CN114168534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种加快ES文件进行本地全文检索的方法、系统、装置及介质,其中方法包括以下步骤:采用fsutil工具的文件记录读取功能对磁盘中文件夹的文件信息进行采集;将文件信息保存至预设的程序内存中,并命名为original;根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表;根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中;输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果。本发明利用fsutil查看usn相关信息并初始化为内存文件路径映射Map,将本地文件路径全部找出并加以内容提取存入Elasticsearch数据库中,在Elasticsearch相关API进行全文检索时可直接检索;极大地提高数据上传的效率,可广泛应用于数据检索技术领域。

Description

加快ES文件进行本地全文检索的方法、系统、装置及介质
技术领域
本发明涉及数据检索技术领域,尤其涉及一种加快ES文件进行本地全文检索的方法、系统、装置及介质。
背景技术
随着技术的发展,PC电脑的硬盘容量越来越大,电脑上可存放的文件也越来越多,也因此延伸出了以下问题:用户有时候为了检索查找一个文件,需要花费较长的时间。由于Windows系统自带的文件检索功能查找速度太慢,人们希望实现快速地对全盘文件夹和文件进行检索,因此诞生许多相应的检索软件,其中包括Elasticsearch软件。Elasticsearch软件的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,根据权重将结果排名,打分,再将返回结果呈现给用户。然而,其中将数据提交到Elasticsearch数据库中的过程中非常耗时,极大地影响了用户的使用体验。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种加快ES文件进行本地全文检索的方法、系统、装置及介质。
本发明所采用的技术方案是:
一种加快ES文件进行本地全文检索的方法,包括以下步骤:
采用fsutil工具的文件记录读取功能对磁盘中文件夹的文件信息进行采集;
将文件信息保存至预设的程序内存中,并命名为original;
根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表;
根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中;
输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果。
进一步,所述文件信息包括文件名、文件ID、父文件ID以及时间戳;
所述将文件信息保存至预设的程序内存中,并命名为original,包括:
利用HashMap对象将文件ID作为key,文件名作为value,保存至预设的程序内存中,并命名为original。
进一步,所述根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表,包括:
将全路径存放入TreeMap对象中,对TreeMap对象进行排序;
根据排序后的TreeMap对象将所有文件的全路径存入HashMap对象中,命名为fileListMap;
根据磁盘中文件夹从fileListMap中取出所有文件列表,命名为fileList。
进一步,存入HashMap对象的全路径与文件之间存有映射关系(key,value),其中,key表示文件夹全路径,value表示以全路径为前缀的文件保存的List对象。
进一步,所述根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中,包括:
根据文件列表对每个文件进行后缀过滤,获取预设格式文件中包含的文本内容;
采用createIndex方法,将获取的文本内容插入Elasticsearch数据库中。
进一步,所述预设格式包括Word格式、PDF格式、TXT格式、Excel格式、PPT格式以及HTML格式;
所述获取预设格式文件中包含的文本内容,包括:
利用多线程的方法并行获取预设格式文件中包含的文本内容。
进一步,所述输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果,包括:
输入需要检索的关键字;
根据关键字,采用QueryBuilders.matchPhraseQuery方法在Elasticsearch数据库中进行索引检索,获得检索结果。
本发明所采用的另一技术方案是:
一种加快ES文件进行本地全文检索的系统,包括:
信息采集模块,用于采用fsutil工具的文件记录读取功能对磁盘中文件夹的文件信息进行采集;
信息存储模块,用于将文件信息保存至预设的程序内存中,并命名为original;
路径获取模块,用于根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表;
路径上传模块,用于根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中;
检索模块,用于输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果。
本发明所采用的另一技术方案是:
一种加快ES文件进行本地全文检索的装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明利用fsutil查看usn相关信息并初始化为内存文件路径映射Map(存放以目录为key,目录下所有文件列表为value),将本地文件路径全部找出并加以内容提取存入Elasticsearch数据库中,在Elasticsearch相关API进行全文检索时可直接检索;极大地提高数据上传的效率。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种加快ES文件进行本地全文检索的方法的步骤流程图;
图2是本发明实施例中文件信息的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1所述,本实施例提供一种加快ES文件进行本地全文检索的方法,包括以下步骤:
S1、采用fsutil工具的文件记录读取功能对磁盘中文件夹的文件信息进行采集。
根据文件夹所在磁盘,利用fsutil系统工具的文件记录读取功能进行文件记录采集。例如采用命令“fsutil usn readJournal E:”对E盘中所有文件记录进行采集,采集获得的信息如图2所示。
S2、将文件信息保存至预设的程序内存中,并命名为original。
参见如2,采集的信息包含文件名、文件ID、父文件ID、时间戳等关键信息,我们利用HashMap对象将文件ID作为key,文件名作为value进行存储,保存到程序内存命名为original,方便进行下一步处理。
S3、根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表。
读取original,循环处理每个文件利用文件ID和父文件ID关系拼接还原文件在磁盘中的全路径(绝对路径),并将路径存放入TreeMap对象中。将TreeMap对象进行排序,并处理成以文件夹全路径(绝对路径)为key,包含此路径为前缀的所有文件保存为List对象作为value存入HashMap对象中,命名为fileListMap;根据传入的文件夹路径从fileListMap中取出所有文件列表,命名为fileList。
S4、根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中。
其中,步骤S4采用多线程方式来实现,包括步骤S41-S42:
S41、根据文件列表对每个文件进行后缀过滤,获取预设格式文件中包含的文本内容.
读取fileList;对每个文件进行后缀过滤,提取Word、PDF、TXT、Excel、PPT、HTML等文件中包含的文本内容。
S42、采用createIndex方法,将获取的文本内容插入Elasticsearch数据库中。
将提取到的文本内容利用createIndex(封装的插入Elasticsearch数据库方法)方法插入Elasticsearch数据库中。
S5、输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果。
其中,步骤S5包括步骤S51-S53:
S51、入需要检索的关键字;
S52、使用QueryBuilders.matchPhraseQuery()方法进行索引库关键字检索;
S53、得到检索结果并展示。
综上所述,本实施例可以极大提高使用Elasticsearch实现本地磁盘全文检索功能的检索速度,前期利用fsutil查看usn相关信息并初始化为内存文件路径映射Map(存放以目录为key,目录下所有文件列表为value),将本地文件路径全部找出并加以内容提取存入Elasticsearch数据库中,在Elasticsearch相关API进行全文检索时可直接检索。NTFS文件记录初始化文件目录,查找所有文件列表,相比传统递归浏览多级目录极大提高检索目录文件的速度,从而达到提高使用Elasticsearch实现本地磁盘全文检索的速度。
本实施例还提供一种加快ES文件进行本地全文检索的系统,包括:
信息采集模块,用于采用fsutil工具的文件记录读取功能对磁盘中文件夹的文件信息进行采集;
信息存储模块,用于将文件信息保存至预设的程序内存中,并命名为original;
路径获取模块,用于根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表;
路径上传模块,用于根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中;
检索模块,用于输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果。
本实施例的一种加快ES文件进行本地全文检索的系统,可执行本发明方法实施例所提供的一种加快ES文件进行本地全文检索的方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供一种加快ES文件进行本地全文检索的装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如图1所示方法。
本实施例的一种加快ES文件进行本地全文检索的装置,可执行本发明方法实施例所提供的一种加快ES文件进行本地全文检索的方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种加快ES文件进行本地全文检索的方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种加快ES文件进行本地全文检索的方法,其特征在于,包括以下步骤:
采用fsutil工具的文件记录读取功能对磁盘中文件夹的文件信息进行采集;
将文件信息保存至预设的程序内存中,并命名为original;
根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表;
根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中;
输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果。
2.根据权利要求1所述的一种加快ES文件进行本地全文检索的方法,其特征在于,所述文件信息包括文件名、文件ID、父文件ID以及时间戳;
所述将文件信息保存至预设的程序内存中,并命名为original,包括:
利用HashMap对象将文件ID作为key,文件名作为value,保存至预设的程序内存中,并命名为original。
3.根据权利要求2所述的一种加快ES文件进行本地全文检索的方法,其特征在于,所述根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表,包括:
将全路径存放入TreeMap对象中,对TreeMap对象进行排序;
根据排序后的TreeMap对象将所有文件的全路径存入HashMap对象中,命名为fileListMap;
根据磁盘中文件夹从fileListMap中取出所有文件列表,命名为fileList。
4.根据权利要求3所述的一种加快ES文件进行本地全文检索的方法,其特征在于,存入HashMap对象的全路径与文件之间存有映射关系(key,value),其中,key表示文件夹全路径,value表示以全路径为前缀的文件保存的List对象。
5.根据权利要求1所述的一种加快ES文件进行本地全文检索的方法,其特征在于,所述根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中,包括:
根据文件列表对每个文件进行后缀过滤,获取预设格式文件中包含的文本内容;
采用createIndex方法,将获取的文本内容插入Elasticsearch数据库中。
6.根据权利要求1所述的一种加快ES文件进行本地全文检索的方法,其特征在于,所述预设格式包括Word格式、PDF格式、TXT格式、Excel格式、PPT格式以及HTML格式;
所述获取预设格式文件中包含的文本内容,包括:
利用多线程的方法并行获取预设格式文件中包含的文本内容。
7.根据权利要求1所述的一种加快ES文件进行本地全文检索的方法,其特征在于,所述输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果,包括:
输入需要检索的关键字;
根据关键字,采用QueryBuilders.matchPhraseQuery方法在Elasticsearch数据库中进行索引检索,获得检索结果。
8.一种加快ES文件进行本地全文检索的系统,其特征在于,包括:
信息采集模块,用于采用fsutil工具的文件记录读取功能对磁盘中文件夹的文件信息进行采集;
信息存储模块,用于将文件信息保存至预设的程序内存中,并命名为original;
路径获取模块,用于根据original获取磁盘中文件的全路径,对全路径进行处理,获得文件列表;
路径上传模块,用于根据文件列表将磁盘中的文件内容上传至Elasticsearch数据库中;
检索模块,用于输入需要检索的关键字,根据关键字和Elasticsearch数据库获得检索结果。
9.一种加快ES文件进行本地全文检索的装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。
CN202111298880.1A 2021-11-04 2021-11-04 加快es文件进行本地全文检索的方法、系统、装置及介质 Pending CN114168534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111298880.1A CN114168534A (zh) 2021-11-04 2021-11-04 加快es文件进行本地全文检索的方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111298880.1A CN114168534A (zh) 2021-11-04 2021-11-04 加快es文件进行本地全文检索的方法、系统、装置及介质

Publications (1)

Publication Number Publication Date
CN114168534A true CN114168534A (zh) 2022-03-11

Family

ID=80477999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111298880.1A Pending CN114168534A (zh) 2021-11-04 2021-11-04 加快es文件进行本地全文检索的方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN114168534A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934825A (zh) * 2023-02-02 2023-04-07 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934825A (zh) * 2023-02-02 2023-04-07 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质
CN115934825B (zh) * 2023-02-02 2023-08-25 成都卓讯智安科技有限公司 基于Elasticsearch的数据接入方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US20220261427A1 (en) Methods and system for semantic search in large databases
US6122626A (en) Sparse index search method
WO2015078273A1 (en) Method and apparatus for search
US7853598B2 (en) Compressed storage of documents using inverted indexes
US6330567B1 (en) Searching system for searching files stored in a hard disk of a personal computer
CN107844493B (zh) 一种文件关联方法及系统
KR20090048624A (ko) 데이터 구조를 가지는 하나 이상의 장치 판독가능 매체, 및장치 실행가능 명령어를 구비한 하나 이상의 장치 판독가능 매체
CN104123366A (zh) 一种搜索方法及搜索服务器
US20080059432A1 (en) System and method for database indexing, searching and data retrieval
CN110019669B (zh) 一种文本检索方法及装置
CN111400323A (zh) 数据检索方法、系统、设备及存储介质
CN114168534A (zh) 加快es文件进行本地全文检索的方法、系统、装置及介质
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN114328983A (zh) 文档碎化方法、数据检索方法、装置及电子设备
CN116226515B (zh) 一种搜索结果排序方法、装置、电子设备和存储介质
CN115794745B (zh) 文件搜索方法、系统、设备及存储介质
CN117194322A (zh) 文件分类管理方法、系统及计算设备
CN105243073A (zh) 一种书签访问方法、装置及终端
Oliveira et al. Automatic tag suggestion based on resource contents
CN115017267A (zh) 无监督的语义检索方法、装置及计算机可读存储介质
CN112015853B (zh) 图书搜索方法、图书搜索系统、电子装置及介质
CN108256064A (zh) 一种数据搜索方法和装置
CN110968691B (zh) 司法热点确定方法及装置
CN112597106A (zh) 一种文档页面跳转方法及系统
JPH0561910A (ja) 全文インデツクス検索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination