CN109376121A - 一种基于ElasticSearch全文检索的文件索引系统及方法 - Google Patents

一种基于ElasticSearch全文检索的文件索引系统及方法 Download PDF

Info

Publication number
CN109376121A
CN109376121A CN201810907489.9A CN201810907489A CN109376121A CN 109376121 A CN109376121 A CN 109376121A CN 201810907489 A CN201810907489 A CN 201810907489A CN 109376121 A CN109376121 A CN 109376121A
Authority
CN
China
Prior art keywords
file
elasticsearch
management module
value
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810907489.9A
Other languages
English (en)
Other versions
CN109376121B (zh
Inventor
袁东
万修远
陶毅昊
冯骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN HUAXUN GUORONG TECHNOLOGY CO.,LTD.
Original Assignee
NANJING HUAXUN ARK COMMUNICATION EQUIPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING HUAXUN ARK COMMUNICATION EQUIPMENT Co Ltd filed Critical NANJING HUAXUN ARK COMMUNICATION EQUIPMENT Co Ltd
Priority to CN201810907489.9A priority Critical patent/CN109376121B/zh
Publication of CN109376121A publication Critical patent/CN109376121A/zh
Application granted granted Critical
Publication of CN109376121B publication Critical patent/CN109376121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于ElasticSearch全文检索的文件索引系统及方法,其中系统包括用户操作管理模块、文件系统管理模块、文件系统、ElasticSearch集群模块、数据库系统和ElasticSearch客户端模块,系统对文件内容的检索将是完全实时的,任意时刻的检索结果都不会有过时和错误,同时有效减少ElasticSearch在执行文件系统全文检索时造成的资源浪费;而且所述的方法能实现文件与ElasticSearch之间的双向交流,支持检索结果所在文件的路径的获取,以及对命中文件执行更多的操作。

Description

一种基于ElasticSearch全文检索的文件索引系统及方法
技术领域
本发明涉及软件检索系统及方法,具体涉及一种基于ElasticSearch全文检索的文件索引系统及方法。
背景技术
目前全世界两大主流全文检索工具分别是solr和Elasticsearch,它们都使用Lucene框架作为搜索引擎核心,但针对的场景不同,solr主要应用于数据格式多样、数据内容更新频率低的场景,而Elasticsearch应用于数据格式单一、数据内容更新频繁的场景,Elasticsearch相比较solr查询索引速度相对慢一些,但是创建索引的速度要明显高于solr,而对于文件系统这种经常存在频繁更新的场景,选用Elasticsearch可以达到快速更新索引的目的,但由于Elasticsearch只支持json格式的数据输入,并且索引字段在索引创建后不允许修改,这给针对文件系统构建索引系统的应用带来了一些应用上的麻烦,目前应用的技术尚存在许多不足:
1、目前针对文件系统使用全文检索工具ElasticSearch进行索引查询应用仅能对文件内容进行索引和显示,无法向文件系统管理程序反馈文件的路径信息,以便管理程序可以对检索的结果所属的文件执行各种管理操作;
2、目前使用全文检索工具ElasticSearch对文件系统进行索引查询是准实时或非实时的,无法做到实时,即文件系统有文件更新时,检索结果立刻体现这种更新,始终保持两者同步和一致性;
3、目前使用全文检索工具ElasticSearch对文件系统进行索引查询时存在多个数据副本,造成了存储资源浪费。
发明内容
发明目的:本发明目的是提供一种基于ElasticSearch全文检索的文件索引系统及方法,其中系统可实现对目录和文件执行增删改查、重命名、移动位置后实时在检索中保持结果一致性;所述的方法能向文件系统管理模块反馈文件的路径信息,以便对检索的结果所属的文件执行各种管理操作。
技术方案:本发明一种基于ElasticSearch全文检索的文件索引系统,包括:
用户操作管理模块,用于接收用户检索请求并发送至文件系统管理模块,以及从文件系统管理模块接收搜索到的文件url值;
文件系统,用于存储和管理文件与目录;
ElasticSearch集群模块,用于执行用户检索请求中的关键词检索,并返回检索结果给ElasticSearch客户端模块;
数据库系统,用于存储文件属性信息;
文件系统管理模块,与所述用户操作管理模块及所述文件系统连接,用于处理用户检索请求时,将用户检索请求中的关键词传送给ElasticSearch客户端模块,并且实时检测文件系统中的文件和目录更新;
ElasticSearch客户端模块,与所述文件系统管理模块、ElasticSearch集群模块和数据库系统连接,用于将用户检索请求中的关键词提交ElasticSearch集群模块检索;同时保障文件系统的文件和目录发生更新时,数据库系统中的文件属性信息和ElasticSearch集群模块的索引信息同步更新。
进一步的,所述数据库系统包括文件属性信息表,所述文件属性信息表中包含文件的url值与md5值,文件的url值为文件的路径信息;文件的md5值为文件内容计算值。
进一步的,所述ElasticSearch客户端模块设置ElasticSearch集群模块中的索引信息ID为文件的md5值。
进一步的,所述文件系统的文件和目录更新包括对目录和文件执行增删改查、重命名和移动位置。
本发明所述的一种基于ElasticSearch全文检索的文件索引方法,包括如下步骤:
1、用户操作管理模块接受用户检索请求并传递给文件系统管理模块;
2、文件系统管理模块在处理用户检索请求时,将用户检索请求中的关键词传送给ElasticSearch客户端模块;
3、ElasticSearch客户端模块将用户检索请求中的关键词提交ElasticSearch集群模块检索;
4、ElasticSearch集群模块执行用户检索请求中的关键词检索,并返回检索结果,检索结果为包含关键字的索引记录;
5、ElasticSearch客户端模块从检索结果中提取文件的md5值;
6、ElasticSearch客户端模块根据文件的md5值,查询数据库系统中的文件属性信息表,找到所有包含文件md5值的文件属性记录,并从文件属性记录中找出文件的url值,返回给ElasticSearch客户端模块;
7、ElasticSearch客户端模块将文件的url值向文件系统管理模块反馈,文件系统管理模块向用户操作管理模块显示搜索到的文件url值。
进一步的,所述用户操作管理模块根据搜索到的文件url值可对文件进行管理操作。
有益效果:本发明通过增加一个ElasticSearch客户端模块,可实时保证文件系统的更新与ElasticSearch集群模块中的索引以及数据库系统中的文件属性信息表之间的同步,实现对目录和文件执行增删改查、重命名、移动位置后可实时在检索中保持结果一致性;同时针对ElasticSearch存储冗余的情况,可选择不在ElasticSearch和数据库系统中存储数据,而是将检索的结果以文件路径和附加属性的形式通知文件系统管理模块;并且能实现文件系统管理模块与ElasticSearch之间的双向交流,支持检索结果所在文件的路径的获取,从而可以支持对命中文件执行更多的操作。
附图说明
图1为本发明系统的结构框图;
图2为新增目录索引同步处理流程图;
图3为删除目录索引同步处理流程图;
图4为重命名或移动目录索引同步处理流程图;
图5为增加文件索引同步处理流程图;
图6为删除文件索引同步处理流程图;
图7为重命名或移动文件索引同步处理流程图;
图8为修改文件内容索引同步处理流程图;
图9为获取文件内容流程图;
图10为本发明方法的流程图;
具体实施例
下面结合附图和实施例对本发明做进一步描述:
本发明一种基于ElasticSearch全文检索的文件索引系统,包括:用户操作管理模块,用于接收用户检索请求并发送至文件系统管理模块,以及从文件系统管理模块接收搜索到的文件url值;
文件系统,用于存储和管理文件与目录;
ElasticSearch集群模块,用于执行用户检索请求中的关键词检索,并返回检索结果给ElasticSearch客户端模块;
文件系统管理模块,与所述用户操作管理模块及所述文件系统连接,用于处理用户检索请求时,将用户检索请求中的关键词传送给ElasticSearch客户端模块,并且实时检测文件系统中的文件和目录更新;
ElasticSearch客户端模块,与所述文件系统管理模块、ElasticSearch集群模块和数据库系统连接,ElasticSearch客户端模块可实时保证文件系统的更新与ElasticSearch集群模块中的索引以及数据库系统中的文件属性信息表之间的同步,从而实现在对目录和文件执行增删改查、重命名、移动位置后可实时在检索中保持结果一致性,如图1。
如表1所示,数据库系统是用于存储文件属性信息,在数据库系统中维护一张文件属性信息表,包含文件的url值、md5值、作者等文件属性信息,其中url值是文件的绝对路径,可以是本地文件系统的路径,也可以是网络文件系统的路径,根据路径可以唯一定位一个文件,但路径并不是固定不变的,它会随着文件本身或者任何一个父级目录的重命名或者移动位置而改变;而另一方面,即使同一个文件也可以有多份拷贝,这些拷贝可以有相同或不同的目录层次和文件名称,这些文件共有同一个md5值,因为文件的md5值是根据文件内容计算的,只有内容不完全相同的文件才拥有不同的md5值。
表1文件属性信息表
如表2所示,在ElasticSearch集群模块中针对文本类文件创建索引,每条索引记录代表一个文件,从严格意义上说,代表一篇文件内容,因为索引的唯一标识是ID字段,而ID将被设置为文件的md5值,因此具有相同md5值的文件(亦即文件内容完全相同的文件)将对应ElasticSearch集群中同一个索引记录。由于ElasticSearch集群是对文件的内容进行关键字查询,因此每一个内容文本只需要一条索引记录表示即可,通过这种方式,不管源文件系统有多少文件是冗余的,也不管冗余多少份,在ElasticSearch集群中将始终保持最少的索引数据,有效保证了查询性能。
表2索引表
要实现ElasticSearch检索文件系统的实时性,就必须在每次更新文件时,都同步更新ElasticSearch索引以及数据库系统中的文件属性信息,始终保持两者的一致性,只有这样才能在更新文件系统后,查询的结果依然保持与文件完全系统一致。以下针对文件的各种类型的更新一一描述本系统的实现:
1、增加目录时,筛选其中的文本类文件在ElasticSearch中批量创建文件索引(若相同索引字段的索引已存在,则不重复添加),在数据库系统中批量添加文件属性信息;
当用户操作管理模块通过文件系统管理模块向文件系统上传了一个新的目录时,文件系统管理模块将目录的url值发送给ElasticSearch客户端模块,ElasticSearch客户端模块递归遍历该目录下的所有文件以及子目录下的所有文件,筛选出文本类文件,如txt文本文件、word、excel、ppt等办公文档,针对这些文件,读取url值、md5值等信息,添加到数据库系统的文件属性信息表中;紧接着,提取文件里面的纯文本,发送给ElasticSearch集群创建文件索引,同时指定ElasticSearch客户端模块将索引字段ID设置为相应文件的md5值,整个过程如图2所示。
2、删除目录时,在数据库系统中批量删除文件属性信息,然后筛选md5值在数据库系统中已经不存在的文件,在ElasticSearch集群中批量删除文件索引;
当文件系统管理模块检测到用户操作管理模块删除了一个目录时,将目录删除前的url值发送给ElasticSearch客户端模块,由于此时,该目录在文件系统中已经不存在,因此ElasticSearch客户端模块已无法获取该目录里面的信息,但可以确定的是,数据库系统中以该目录路径为前缀的文件都将不存在了,因此在数据库系统文件属性信息表中查找所有以删除目录url值开始的文件,保存它们的md5值并去重,然后删除这些文件记录,紧接着,在保存的md5列表中,剔除那些在数据库系统中还存在的(说明这些文件在其他目录下还有副本),最后针对剩下的在数据库系统中已经不存在的那些md5值,在ElasticSearch集群中按照索引字段ID=md5查找文件索引并删除,整个过程如图3所示。
3、重命名或者移动目录时,在数据库系统中批量更新文件属性的绝对路径信息;
当用户操作管理模块重命名或者移动目录后,目录中的文件的url值将发生变化,这些文件的url值在目录变动前是以目录的旧url值为前缀的,现在前缀变为了新url值,但文件的内容并没有变化,亦即md5值没有变化,因此只须更新数据库系统中文件属性信息表的url值即可。更新的过程为:文件系统管理模块检测到用户操作管理模块重命名或移动了一个目录,将目录的旧url值和新url值都发送给ElasticSearch客户端模块,ElasticSearch客户端模块在数据库系统的文件属性信息表中查找以目录旧url值为前缀的记录,并将记录中的url值更新为以目录的新url值为前缀,替换掉旧url值的前缀。整个过程如图4所示。
4、增加单个文件时,判断该文件是否是文本类文件,若不是忽略,若是,读取md5值后,在数据库系统中添加该文件的属性信息,在ElasticSearch集群添加文件索引;
当文件系统管理模块检测到用户操作管理模块新增一个文件后,将该文件的url值发送给ElasticSearch客户端模块,ElasticSearch客户端模块判断该文件是否是文本类文件,若不是,则忽略;若是,首先读取md5值、url值等信息,在数据库系统的文件属性信息表中添加该文件的属性信息,然后抽取文件内容的纯文本,提交ElasticSearch集群创建文件索引,并让ElasticSearch客户端模块设置索引的ID等于该文件的md5值,整个过程如图5所示。
5、删除单个文件时,在数据库系统中删除该文件的属性信息,然后判断该文件md5值在数据库系统中是否存在,若不存在,在ElasticSearch集群删除文件索引;
当文件系统管理模块检测到用户操作管理模块删除了一个文件时,将文件的url值发送给ElasticSearch客户端模块,ElasticSearch客户端模块首先根据url值在数据库系统的文件属性信息表中查找是否存在该文件,若不存在,忽略,若存在,读取该文件的md5值然后删除这条文件记录,然后判断文件属性信息表中是否还存在其它具有相同md5值的文件,若存在,处理结束,若不存在,说明没有其它该文件的副本,因此紧接着在ElasticSearch集群中按照索引字段ID=md5查找文件索引并删除,整个过程如图6所示。
6、重命名或移动单个文件时,判断该文件是否是文本类文件,若不是忽略,若是,在数据库系统中更新文件属性的绝对路径信息;
当用户操作管理模块重命名或者移动文件后,文件的url值将发生变化,但文件的内容并没有变化,即md5值没有变化,因此只须更新数据库系统中文件属性信息表的url值即可。更新的过程为:文件系统管理模块检测到用户操作管理模块重命名或移动了一个文件,将文件的旧url值和新url值都发送给ElasticSearch客户端模块,ElasticSearch客户端模块首先根据新url值判断该文件是否是文本类文件,如果不是,忽略,若是,根据旧url值在数据库系统的文件属性信息表中查找文件记录,然后将该条记录的旧url值修改为文件的新url值,整个过程如图7所示。
7、修改文件内容后,判断该文件是否是文本类文件,若不是忽略,若是,重新获取md5值,在数据库系统中更新文件属性的md5值信息,更新前临时保存旧的md5值,然后判断数据库系统中是否存在其它旧的md5值的文件,若不存在,在ElasticSearch集群中删除旧的文件索引,最后根据新的文件内容和md5值创建新的索引;
修改文件内容后,文件的url值保持不变,但是内容改变了,一方面需要重新获取md5值并更新数据库文件属性信息表中存储的md5值,另一方面,ElasticSearch集群中文件索引的md5值可能已经过期(如果没有其它文件的副本的话),如果过期,需要根据旧的md5值查找文件索引并删除之,最后提取文件的纯文本重新创建索引,并将索引字段ID赋值为文件新的md5值,整个过程如图8所示。
本发明系统可有效减少ElasticSearch在进行索引查询时存在多个数据副本,造成存储资源浪费,具体实现为:
在本发明系统中,数据库系统不存储文件内容,需要文件内容的时候,是通过ElasticSearch客户端模块根据文件的url值及对应文件的传输协议直接从文件系统获取,这可以有效避免把文件内容存储在数据库中造成的数据冗余及为了保持数据的同步更新而带来的麻烦和性能消耗,过程如图9所示。
同时ElasticSearch集群本身也可以不存储文件内容,由于查询到文件索引后,会获取文件的md5值,而根据md5值可以在数据库系统中匹配到对应的文件url值,根据url值即可打开文件并显示文件内容,这对于全文检索只需要文件url值作为检索结果的需求特别适合,可以有效减少ElasticSearch集群的存储压力。
如图10所示,所述的基于ElasticSearch全文检索的文件索引方法,包括如下步骤:
(1)用户操作管理模块接受用户检索请求并传递给文件系统管理模块;
(2)文件系统管理模块在处理用户检索请求时,将用户检索请求中的关键词传送给ElasticSearch客户端模块;
(3)ElasticSearch客户端模块将用户检索请求中的关键词提交ElasticSearch集群模块检索;
(4)ElasticSearch集群模块执行用户检索请求中的关键词检索,并返回检索结果,检索结果为包含关键字的索引记录;
(5)ElasticSearch客户端模块从检索结果中提取文件的md5值;
(6)ElasticSearch客户端模块根据文件的md5值,查询数据库系统中的文件属性信息表,找到所有包含该md5值的文件属性记录,并从文件属性记录中找出文件的url值,返回给ElasticSearch客户端模块;
(7)ElasticSearch客户端模块将文件的url值向文件系统管理模块反馈,文件系统管理模块向用户操作管理模块显示搜索到的文件url值;而用户操作管理模块根据搜索到的文件url值可对文件进行管理操作。
根据本发明的文件索引方法得到的文件url值,即文件的路径信息也能获取,这样在使用ElasticSearch全文检索各种文件实行查询检索时,除了能获取检索到的文件内容或者关键字所处的上下文片段,还能获取命中的文件在文件系统中的存储路径,以便查询客户端可以在获取查询结果后,根据文件路径自由操作该文件。

Claims (6)

1.一种基于ElasticSearch全文检索的文件索引系统,其特征在于,包括:
用户操作管理模块,用于接收用户检索请求并发送至文件系统管理模块,以及从文件系统管理模块接收搜索到的文件url值;
文件系统,用于存储和管理文件与目录;
ElasticSearch集群模块,用于执行用户检索请求中的关键词检索,并返回检索结果给ElasticSearch客户端模块;
数据库系统,用于存储文件属性信息;
文件系统管理模块,与所述用户操作管理模块及所述文件系统连接,用于处理用户检索请求时,将用户检索请求中的关键词传送给ElasticSearch客户端模块,并且实时检测文件系统中的文件和目录更新;
ElasticSearch客户端模块,与所述文件系统管理模块、ElasticSearch集群模块和数据库系统连接,用于将用户检索请求中的关键词提交ElasticSearch集群模块检索;同时保障文件系统的文件和目录发生更新时,数据库系统中的文件属性信息和ElasticSearch集群模块的索引信息同步更新。
2.根据权利要求1所述的一种基于ElasticSearch全文检索的文件索引系统,其特征在于:所述数据库系统包括文件属性信息表,所述文件属性信息表中包含文件的url值与md5值。
3.根据权利要求1所述的一种基于ElasticSearch全文检索的文件索引系统,其特征在于:所述ElasticSearch客户端模块设置ElasticSearch集群模块中的索引信息ID为文件的md5值。
4.根据权利要求1所述的一种基于ElasticSearch全文检索的文件索引系统,其特征在于:所述文件系统的文件和目录更新包括对目录和文件执行增删改查、重命名和移动位置。
5.一种基于ElasticSearch全文检索的文件索引方法,其特征在于,包括如下步骤:
(1)用户操作管理模块接受用户检索请求并传递给文件系统管理模块;
(2)文件系统管理模块在处理用户检索请求时,将用户检索请求中的关键词传送给ElasticSearch客户端模块;
(3)ElasticSearch客户端模块将用户检索请求中的关键词提交ElasticSearch集群模块检索;
(4)ElasticSearch集群模块执行用户检索请求中的关键词检索,并返回检索结果,检索结果为包含关键字的索引记录;
(5)ElasticSearch客户端模块从检索结果中提取文件的md5值;
(6)ElasticSearch客户端模块根据文件的md5值,查询数据库系统中的文件属性信息表,找到所有包含文件md5值的文件属性记录,并从文件属性记录中找出文件的url值,返回给ElasticSearch客户端模块;
(7)ElasticSearch客户端模块将文件的url值向文件系统管理模块反馈,文件系统管理模块向用户操作管理模块显示搜索到的文件url值。
6.根据权利要求5所述的一种基于ElasticSearch全文检索的文件索引方法,其特征在于:所述用户操作管理模块根据搜索到的文件url值可对文件进行管理操作。
CN201810907489.9A 2018-08-10 2018-08-10 一种基于ElasticSearch全文检索的文件索引系统及方法 Active CN109376121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810907489.9A CN109376121B (zh) 2018-08-10 2018-08-10 一种基于ElasticSearch全文检索的文件索引系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810907489.9A CN109376121B (zh) 2018-08-10 2018-08-10 一种基于ElasticSearch全文检索的文件索引系统及方法

Publications (2)

Publication Number Publication Date
CN109376121A true CN109376121A (zh) 2019-02-22
CN109376121B CN109376121B (zh) 2021-07-02

Family

ID=65404600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810907489.9A Active CN109376121B (zh) 2018-08-10 2018-08-10 一种基于ElasticSearch全文检索的文件索引系统及方法

Country Status (1)

Country Link
CN (1) CN109376121B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109948A (zh) * 2019-04-25 2019-08-09 数译(成都)信息技术有限公司 数据查询方法、计算机设备及计算机可读存储介质
CN112269807A (zh) * 2020-11-09 2021-01-26 浪潮软件股份有限公司 基于Elasticsearch技术的可配置信用档案检索方法及系统
CN112433987A (zh) * 2020-11-30 2021-03-02 中国人寿保险股份有限公司 一种文件维护的轨迹记录方法、装置及电子设备
CN114564628A (zh) * 2022-03-09 2022-05-31 云学堂信息科技(江苏)有限公司 基于企业培训的高效型知识库深度检索方法
CN115098648A (zh) * 2022-08-25 2022-09-23 歌尔股份有限公司 企业数据搜索方法、装置及电子设备
CN115329319A (zh) * 2022-08-31 2022-11-11 重庆市规划和自然资源信息中心 一种基于ElasticSearch技术的空间算子搜寻系统
CN115481387A (zh) * 2022-08-31 2022-12-16 重庆市规划和自然资源信息中心 一种基于ElasticSearch技术的空间数据检索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1235313A (zh) * 1998-05-12 1999-11-17 龙卷风科技股份有限公司 电脑文件名称搜寻系统
CN101019119A (zh) * 2004-07-14 2007-08-15 Google公司 基于名称的url输入
CN101133388A (zh) * 2005-01-25 2008-02-27 谷歌公司 基于多索引的信息检索系统
CN106484877A (zh) * 2016-10-14 2017-03-08 东北大学 一种基于hdfs的文件检索系统
US20170083534A1 (en) * 2015-09-23 2017-03-23 Smugmug, Inc. Multi-device upload integration application
CN107329987A (zh) * 2017-06-02 2017-11-07 广州启辰电子科技有限公司 一种基于mongo数据库的搜索系统
CN108319652A (zh) * 2017-12-28 2018-07-24 浙江新再灵科技股份有限公司 一种基于hdfs的电梯数据的列式文件存储系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1235313A (zh) * 1998-05-12 1999-11-17 龙卷风科技股份有限公司 电脑文件名称搜寻系统
CN101019119A (zh) * 2004-07-14 2007-08-15 Google公司 基于名称的url输入
CN101133388A (zh) * 2005-01-25 2008-02-27 谷歌公司 基于多索引的信息检索系统
US20170083534A1 (en) * 2015-09-23 2017-03-23 Smugmug, Inc. Multi-device upload integration application
CN106484877A (zh) * 2016-10-14 2017-03-08 东北大学 一种基于hdfs的文件检索系统
CN107329987A (zh) * 2017-06-02 2017-11-07 广州启辰电子科技有限公司 一种基于mongo数据库的搜索系统
CN108319652A (zh) * 2017-12-28 2018-07-24 浙江新再灵科技股份有限公司 一种基于hdfs的电梯数据的列式文件存储系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. CHEN 等: "Real-Time or Near Real-Time Persisting Daily Healthcare Data Into HDFS and ElasticSearch Index Inside a Big Data Platform", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》 *
陈亚杰 等: "ElasticSearch分布式搜索引擎在天文大数据检索中的应用研究", 《天文学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109948A (zh) * 2019-04-25 2019-08-09 数译(成都)信息技术有限公司 数据查询方法、计算机设备及计算机可读存储介质
CN112269807A (zh) * 2020-11-09 2021-01-26 浪潮软件股份有限公司 基于Elasticsearch技术的可配置信用档案检索方法及系统
CN112433987A (zh) * 2020-11-30 2021-03-02 中国人寿保险股份有限公司 一种文件维护的轨迹记录方法、装置及电子设备
CN112433987B (zh) * 2020-11-30 2024-06-25 中国人寿保险股份有限公司 一种文件维护的轨迹记录方法、装置及电子设备
CN114564628A (zh) * 2022-03-09 2022-05-31 云学堂信息科技(江苏)有限公司 基于企业培训的高效型知识库深度检索方法
CN115098648A (zh) * 2022-08-25 2022-09-23 歌尔股份有限公司 企业数据搜索方法、装置及电子设备
CN115329319A (zh) * 2022-08-31 2022-11-11 重庆市规划和自然资源信息中心 一种基于ElasticSearch技术的空间算子搜寻系统
CN115481387A (zh) * 2022-08-31 2022-12-16 重庆市规划和自然资源信息中心 一种基于ElasticSearch技术的空间数据检索方法

Also Published As

Publication number Publication date
CN109376121B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN109376121A (zh) 一种基于ElasticSearch全文检索的文件索引系统及方法
CN109299102B (zh) 一种基于Elastcisearch的HBase二级索引系统及方法
CN106663056B (zh) 文件系统中的元数据索引搜索
US8938459B2 (en) System and method for distributed index searching of electronic content
US7987217B2 (en) Transaction-aware caching for document metadata
US8229932B2 (en) Storing XML documents efficiently in an RDBMS
US8015165B2 (en) Efficient path-based operations while searching across versions in a repository
US9430539B2 (en) Universal data storage system that maintains data across one or more specialized data stores
WO2018036324A1 (zh) 一种智慧城市信息共享的方法和装置
US8694510B2 (en) Indexing XML documents efficiently
CN113986873B (zh) 一种海量物联网数据模型化的处理、存储与共享方法
US7991767B2 (en) Method for providing a shared search index in a peer to peer network
US7299404B2 (en) Dynamic maintenance of web indices using landmarks
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
US20200042510A1 (en) Method and device for correlating multiple tables in a database environment
CN111858760B (zh) 一种异构数据库的数据处理方法及装置
CN112148680B (zh) 一种基于分布式图数据库的文件系统元数据管理方法
US12079181B2 (en) Efficient indexing for querying arrays in databases
CN108241709B (zh) 一种数据集成方法、装置和系统
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN109491988B (zh) 一种支持全量更新的数据实时关联方法
EP3282372B1 (en) Method and apparatus for storing data
KR101475984B1 (ko) 수집을 이용한 다수의 콘텐츠 제공자에 대한 증분식 크롤링 방법
CN111159285B (zh) 一种基于分布式索引服务部署的企业跨系统检索方法
US8706705B1 (en) System and method for associating data relating to features of a data entity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220105

Address after: 430000 room 02, 4 / F, building A3, Wuhan International Enterprise Center, No. 1, Guanshan Second Road, Donghu New Technology Development Zone, Wuhan, Hubei Province

Patentee after: WUHAN HUAXUN GUORONG TECHNOLOGY CO.,LTD.

Address before: Room 1002, 301 Hanzhongmen street, Gulou District, Nanjing City, Jiangsu Province, 210000

Patentee before: CHINA COMMUNICATION TECHNOLOGY (NANJING) Co.,Ltd.

TR01 Transfer of patent right