CN102436513B - 分布式检索方法和系统 - Google Patents

分布式检索方法和系统 Download PDF

Info

Publication number
CN102436513B
CN102436513B CN201210016675.6A CN201210016675A CN102436513B CN 102436513 B CN102436513 B CN 102436513B CN 201210016675 A CN201210016675 A CN 201210016675A CN 102436513 B CN102436513 B CN 102436513B
Authority
CN
China
Prior art keywords
node
index
file
webpage
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210016675.6A
Other languages
English (en)
Other versions
CN102436513A (zh
Inventor
吴卫荣
刘玉龙
仪新宇
徐华
王团伟
陈正中
李志雄
耿庆斌
袁平
杜善姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN201210016675.6A priority Critical patent/CN102436513B/zh
Publication of CN102436513A publication Critical patent/CN102436513A/zh
Application granted granted Critical
Publication of CN102436513B publication Critical patent/CN102436513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种分布式检索方法和系统。所述方法包括:检索节点接收用户通过客户端浏览器输入的检索条件,对检索条件进行处理后,生成查询任务;并将查询任务发送给索引控制节点;索引控制节点将查询任务向索引节点集群中的每个索引节点发送;每个索引节点根据接收的查询任务对本节点存储的索引文件进行查询后得到查询结果向索引控制节点返回;索引控制节点将接收的查询结果向检索节点返回;检索节点合并接收的查询结果后发送到客户端。由于索引节点集群采用分布式结构,在进行检索时索引节点集群中的每个索引节点都可以执行对本节点索引文件的检索、查询,实现并行检索、查询,从而大大提高了检索速度和效率,及时为用户返回检索结果。

Description

分布式检索方法和系统
技术领域
本发明涉及计算机通信技术,尤其涉及一种分布式检索技术。
背景技术
信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。随着Internet在全世界范围内迅猛发展,数字化信息爆炸式增长。目前检索系统的主要数据来源是web,网络信息的检索技术成为发展趋势。网络信息进行检索可分为以下几个部分:
数据预处理:网络信息的主要数据来源是web,格式包括网页、WORD文档、PDF文档、图片、视频文件等,这些格式的数据除了正文内容外,还有大量的标记信息。因此,需要对这些数据进行数据预处理,从多种格式的数据中提取正文和其它所需信息。
索引生成:根据上述提取的信息来构建生成索引。索引中记录了提取的信息的来源。例如,提取的信息可以是文档中的若干关键词,索引文件中记录了这些关键词,以及关键词来源,那么,只要在索引文件中找到这些词,也就找到了包含它们的文档。
查询处理:用户在输入查询条件后,进一步对用户输入的查询条件做处理,采用查询扩展,以更准确把握用户的真实信息需求。比如,进行分词处理、或相近词汇联想处理后,从而生成最终的查询条件。
检索:检索系统根据最终的查询条件对生成的索引文件进行检索,查询到相应的结果时,返回查询结果。通常,为了把最符合用户需求的结果显示在前面,一般还会对查询结果进行重排序。
随着信息化的大力发展,全国很多大型企业、机构都建设了自己的门户网站,这些门户网站下面还设有很多个子网站,甚至多达1000多个子网站。有巨大的文件、视频和图片数据。现有的企业信息检索系统是基于集中式架构的,上述的数据预处理、索引生成、查询处理、以及检索操作都是基于单机的,生成的索引文件也是统一集中存储。这种检索系统在海量数据应用情况下,由于单机管理、保存索引文件数量有限,若保存索引文件数量过大,会导致索引文件进行查询、检索操作的速度缓慢,难以在用户可以接受的时间内返回所需结果。
发明内容
本发明实施例提供了一种分布式检索方法和系统,提高系统检索速度,及时返回检索结果。
根据本发明的一个方面,提供了一种分布式检索方法,包括:
检索节点接收用户通过客户端浏览器输入的检索条件,并对所述检索条件进行处理,生成查询任务;
所述检索节点将所述查询任务发送给索引节点集群中的索引控制节点;
所述索引控制节点将接收的查询任务向所述索引节点集群中的每个索引节点发送;
每个索引节点根据接收的查询任务对本节点存储的索引文件进行查询后得到查询结果,并将查询结果发送给所述索引控制节点;
所述索引控制节点将各索引节点发送的查询结果向所述检索节点返回;
所述检索节点合并接收的查询结果,并将合并后的查询结果发送给所述客户端。
其中,所述索引节点集群中的索引节点所存储的索引文件为采集节点集群发送的。
所述采集节点集群向所述索引节点集群中的索引节点发送索引文件具体为:
所述采集节点集群中的各采集节点将索引文件发送到所述索引控制节点;
所述索引控制节点负责管理各索引节点的索引文件存储。
在所述采集节点将索引文件发送到所述索引控制节点之前,所述方法还包括:
所述采集节点抓取网页,对抓取的网页进行结构化处理,生成所述索引文件。
较佳的,所述采集节点对抓取的网页进行结构化处理,生成所述索引文件具体为:
所述采集节点对抓取的网页,根据网页标签的种类设置权重;根据设置的权重生成所述索引文件。
根据本发明的另一个方面,还提供了一种分布式检索系统,包括:
检索节点,用于接收用户通过客户端浏览器输入的检索条件,对所述检索条件进行处理后,生成查询任务;并将所述查询任务进行发送;
索引节点集群,包括索引控制节点和多个索引节点;
其中,所述索引控制节点用于接收所述检索节点发送的查询任务,并将接收的查询任务向所述索引节点集群中的每个索引节点发送;
所述索引节点用于根据接收的查询任务对本节点存储的索引文件进行查询后得到查询结果,并将查询结果发送给所述索引控制节点;
所述索引控制节点将各索引节点发送的查询结果向所述检索节点返回;
所述检索节点合并接收的查询结果,并将合并后的查询结果发送给所述客户端。
进一步,所述系统还包括:采集节点集群;
所述采集节点集群包括多个采集节点;
所述采集节点用于向所述索引节点集群中的索引控制节点发送索引文件;以及,
所述索引控制节点还用于负责管理各索引节点的索引文件存储。
进一步,所述采集节点还用于抓取网页,对抓取的网页进行结构化处理,生成所述索引文件。
所述采集节点集群还包括:采集控制节点;
所述采集控制节点用于向各采集节点发送采集命令;以及,
所述采集节点具体用于在接收到所述采集命令后,抓取网页,对抓取的网页进行结构化处理,生成所述索引文件。
本发明实施例的索引节点集群由于采用分布式结构,在进行检索时索引节点集群中的每个索引节点都可以执行对本节点索引文件的检索、查询,实现并行检索、查询,从而大大提高了检索速度和效率,及时为用户返回检索结果。
附图说明
图1为本发明实施例的分布式检索系统架构示意图;
图2为本发明实施例的分布式软件的补丁更新方法流程图。
具体实施方式
本发明的核心在于采用一种分布式计算框架,能并行调用集群的CPU资源,实现分布式索引的构建和查询。进一步,本发明实施例的技术方案中还采用分步式抓取网页的方法,以提高网页抓取速度。
下面结合附图详细说明本发明实施例的技术方案,在如图1所示的分布式检索系统中,包括:采集节点集群、索引节点集群和检索节点105。
采集节点集群中包括多个采集节点101,每个采集节点101中具有网页爬虫器模块,用于在抓取网页后,对抓取的网页进行结构化处理,例如抽取网页时间、标题、内容、host等信息生成索引文件,并将生成的索引文件以分布式存储的方式存储到索引节点集群。现有开源的tagsoup技术,能提供很好的网页去标签处理,但是不能很好的处理每个标签的权重。为了达到更准确的检索目的,可以根据网页标签的种类设置权重,例如title标签、br标签等可能是极其重要的内容,那么在提取这些文本内容时,就将该类标签的权重设置为较大值。根据标签的权重生成索引文件,从而于在构建索引时,提高更高的分数,便于检索排序。
此外,采集节点101还可以采集其它类型的数据,如文档文件、视频文件、图片文件。文档文件可以包括office2003、office2007、office2010,pdf、txt等文件类型,采集节点101提取这些文件的文本内容,并提取文档文件的标题、索引时间、内容、文件地址、内容摘要等信息生成索引文件。视频文件可以包括avi、mp3、rm、rmvb、wmv、mov、asf等文件类型,采集节点101提取这些视频文件的描述信息,按标题、索引时间、描述内容、文件地址、描述摘要和文件类型等信息生成索引文件。图片文件的类型可以包括JPG、GIF、JPEG、PNG等图片文件类型类型,采集节点101提取图片文件中的标题、索引时间、内容、文件地址、内容摘要等信息生成索引文件。本发明实施例技术方案中采用lucene技术实现索引倒排,生成索引文件。
较佳的,采集节点集群中还可以包括采集控制节点102。各采集节点101具体根据采集控制节点102发出的采集命令,执行上述抓取网页、对抓取的网页进行结构化处理、生成索引文件、存储索引文件等操作。
采集节点集群为分布式架构,具体采用Hadoop分布式处理的软件框架。Hadoop是一个能够对大量数据进行分布式处理的软件框架,以并行的方式工作,从而大大提高分布式检索系统抓取网页,生成索引的速度。
此外,采集节点101还可以包括授权抓取模块,用以抓取需要用户名和密码登录的网站的网页。采集节点101还可以实现大数据索引文件重排等。
在索引节点集群中包括多个索引节点103。采集节点101将索引文件存储到分布式结构的索引节点集群中。在本发明实施例的技术方案中采集节点101具体通过HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)技术,将索引文件存储到索引节点集群。对于采集节点101而言,索引节点集群就像操作一个传统的分级文件系统,并不需要了解索引节点集群中各索引节点103的存储情况。具体地,在索引节点集群中包括一个索引控制节点104,用以负责管理文件系统名称空间和控制外部客户机的访问。索引控制节点104负责管理各索引节点103的索引文件存储,在接收到采集节点101发送的索引文件后,索引控制节点104决定将文件具体存储到索引节点集群中哪个索引节点103,以合理利用、调配索引节点集群的存储空间。HDFS内部的所有通信都基于标准的TCP/IP协议。索引节点集群采用hdfs框架并改进其存储块(最小块大小改进为16M),从而实现海量数据索引存储。
当用户通过浏览器输入了检索条件后,本发明实施例的分布式检索系统进行检索的具体过程,流程图如图2所示,包括如下步骤:
S201:用户通过浏览器输入了检索条件。例如,用户通过客户端的浏览器输入检索关键字。
S202:浏览器将用户输入的检索条件发送给检索节点105。
S203:检索节点105对接收到的检索条件进行处理,生成最终的查询任务。检索节点105可以通过智能分词、搜索提示、搜索联想、站内查询、相关搜索、索引摘要等技术生成最终的查询任务。例如,用户输入的是中文检索关键字,先调用智能中文分词模块,切成多个中文词语,并组合成查询条件,另外,对于切成的中文词语还可以根据该中文词语的同义词语,再生成查询条件,或者增加某些约束条件,如站内查询等,从而生成最终的查询任务。检索节点105可以通过浏览器向用户提供诸如实现智能中文分词、搜索提示、搜索联想、站内查询、相关搜索、索引摘要、索引排序、搜索分页、搜索缓存和搜索负载等功能。其中,智能中文分词采用HHMM(基于层级隐马尔可夫模型,hierarchical hid-den Markov model)模型,使用中文词库和统计模型来分解中文词汇,提取合适的中文分词信息;搜索提示功能实现根据用户输入关键字,返回搜索提示信息给用户;站内查询功能实现只检索特点某个站点的网页信息;相关搜索实现搜索具有相似性的网页;索引摘要功能实现在检索时,对用户输入的关键字进行摘要处理;搜索缓存采用分布式缓存对象,实现搜索结果缓存提高搜索性能。
S204:检索节点105将查询任务发送到索引节点集群。
S205:索引节点集群各索引节点103根据检索节点105发送的查询任务,对本节点存储的索引文件进行查询,并向检索节点105返回查询结果。
具体地,检索节点105可以是将查询任务发送到索引节点集群的索引控制节点104,索引控制节点104再将查询任务向索引节点集群中的每个索引节点103发送。每个索引节点103根据查询结果对本节点存储的索引文件进行查询后,得到查询结果,并将查询结果发送给索引控制节点104。索引控制节点104将每个索引节点103返回的查询结果发送给检索节点105。由于查询、检索的操作是各索引节点103单机并行处理的,大大提高了检索、查询的速度和效率。而且,通过这种检索方法,对于索引节点集群的外部访问者而言,与索引节点集群相交互就如同与一个单机的索引节点相交互一样,不必考虑索引节点集群内部的结构与处理方式,因此,这种模式的索引节点集群便于扩展,随着网络数据的增加,需要存储的索引文件也相应增加,可以方便地在索引节点集群中增加索引节点103,而不用对整个分布式检索系统进行改造。
S206:检索节点105接收到索引节点集群返回的查询结果后,合并这些查询结果,发送给客户端的浏览器。用户通过浏览器查看最终的查询结果。
具体地,检索节点105接收索引节点集群的索引控制节点104返回的各索引节点103查询结果。检索节点105在合并这些查询结果之前,还可以对这些查询结果进行一些处理,如根据使用频度对这些查询结果进行排序后,将最终的查询结果通过浏览器展示给用户。检索节点105中可以包括一个结果展示模块,通过结果展示模块构建一个友好易用的查询界面。用户可以通过客户端的浏览器访问该查询界面,该查询界面主要可以包括如下功能:分类检索,即按网页、视频、文件、图片进行检索,展示返回检索结果;综合检索,即在界面上综合查询网页、视频、文件和图片,展示返回检索结果;主题检索,即根据某一特定主题,展示检索结果。
本发明实施例的索引节点集群由于采用分布式结构,在进行检索时索引节点集群中的每个索引节点都可以执行对本节点索引文件的检索、查询,实现并行检索、查询,从而大大提高了检索速度和效率,及时为用户返回检索结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种分布式检索方法,包括:
采集节点集群中的各采集节点发送索引文件,索引节点集群中的索引控制节点在接收到所述采集节点发送的索引文件后,决定将文件具体存储到索引节点集群中合适的索引节点;
其中,每个采集节点在抓取网页后,对抓取的网页进行结构化处理,生成索引文件,并将生成的索引文件以分布式存储的方式存储到索引节点集群,在生成所述索引文件时,根据网页标签的种类设置不同的权重,根据文本内容的重要性,将所述网页标签的权重设置为不同大型的值,再根据所述网页标签的权重生成索引文件;
检索节点接收用户通过客户端浏览器输入的检索条件,并对所述检索条件进行处理,生成查询任务;
所述检索节点将所述查询任务发送给所述索引节点集群中的索引控制节点;
所述索引控制节点将接收的查询任务向所述索引节点集群中的每个索引节点发送;
每个索引节点根据接收的查询任务对本节点所述存储的索引文件进行查询后得到查询结果,并将查询结果发送给所述索引控制节点;
所述索引控制节点将各索引节点发送的查询结果向所述检索节点返回;
所述检索节点合并接收的查询结果,并将合并后的查询结果发送给所述客户端。
2.如权利要求1所述的方法,在所述采集节点将索引文件发送到所述索引控制节点之前,还包括:
所述采集节点抓取网页,对抓取的网页进行结构化处理,生成所述索引文件。
3.如权利要求2所述的方法,所述采集节点对抓取的网页进行结构化处理,生成所述索引文件具体为:
所述采集节点对抓取的网页,根据网页标签的种类设置权重;根据设置的权重生成所述索引文件。
4.一种分布式检索系统,包括:
采集节点集群,包括多个采集节点,各采集节点发送索引文件,其中,每个采集节点中具有网页爬虫器模块,用于在抓取网页后,对抓取的网页进行结构化处理,生成索引文件,并将生成的索引文件以分布式存储的方式存储到索引节点集群,其中,生成所述索引文件时,根据网页标签的种类设置不同的权重,根据文本内容的重要性,将所述网页标签的权重设置为不同大型的值,再根据所述网页标签的权重生成索引文件;
检索节点,用于接收用户通过客户端浏览器输入的检索条件,对所述检索条件进行处理后,生成查询任务;并将所述查询任务进行发送;
索引节点集群,包括索引控制节点和多个索引节点;
其中,所述索引控制节点用于接收所述检索节点发送的查询任务,并将接收的查询任务向所述索引节点集群中的每个索引节点发送,以及在接收到所述采集节点发送的索引文件后,决定将文件具体存储到索引节点集群中合适的索引节点;
所述索引节点用于根据接收的查询任务对本节点存储的索引文件进行查询后得到查询结果,并将查询结果发送给所述索引控制节点;
所述索引控制节点将各索引节点发送的查询结果向所述检索节点返回;
所述检索节点合并接收的查询结果,并将合并后的查询结果发送给所述客户端。
5.如权利要求4所述的系统,其特征在于,
所述采集节点还用于抓取网页,对抓取的网页进行结构化处理,生成所述索引文件。
6.如权利要求5所述的系统,其特征在于,所述采集节点集群还包括:采集控制节点;
所述采集控制节点用于向各采集节点发送采集命令;以及,
所述采集节点具体用于在接收到所述采集命令后,抓取网页,对抓取的网页进行结构化处理,生成所述索引文件。
CN201210016675.6A 2012-01-18 2012-01-18 分布式检索方法和系统 Active CN102436513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210016675.6A CN102436513B (zh) 2012-01-18 2012-01-18 分布式检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210016675.6A CN102436513B (zh) 2012-01-18 2012-01-18 分布式检索方法和系统

Publications (2)

Publication Number Publication Date
CN102436513A CN102436513A (zh) 2012-05-02
CN102436513B true CN102436513B (zh) 2014-11-05

Family

ID=45984575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210016675.6A Active CN102436513B (zh) 2012-01-18 2012-01-18 分布式检索方法和系统

Country Status (1)

Country Link
CN (1) CN102436513B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965921B2 (en) * 2012-06-06 2015-02-24 Rackspace Us, Inc. Data management and indexing across a distributed database
CN104111958B (zh) * 2013-04-22 2017-06-20 中国移动通信集团山东有限公司 一种数据查询方法及装置
CN103455619B (zh) * 2013-09-12 2016-09-07 焦点科技股份有限公司 一种基于Lucene分片结构的打分处理方法及系统
CN104778200A (zh) * 2015-01-13 2015-07-15 东莞中山大学研究院 一种结合历史数据的异构处理大数据检索的方法
CN106708876B (zh) * 2015-11-16 2020-04-21 任子行网络技术股份有限公司 一种基于Lucene的相似视频检索方法及系统
CN107203532B (zh) * 2016-03-16 2021-03-16 阿里巴巴集团控股有限公司 索引系统的构建方法、搜索的实现方法及装置
CN107203554A (zh) * 2016-03-17 2017-09-26 北大方正集团有限公司 一种分布式检索方法及装置
CN106095951B (zh) * 2016-06-13 2019-04-23 哈尔滨工程大学 基于负载均衡和查询日志的数据空间多维索引方法
CN107800729B (zh) * 2016-08-30 2021-02-05 中国移动通信集团广东有限公司 一种信息查询方法和系统
CN106528612A (zh) * 2016-09-29 2017-03-22 河海大学 一种面向行业元数据注册和分布式检索系统及方法
CN106484877B (zh) * 2016-10-14 2019-04-26 东北大学 一种基于hdfs的文件检索系统
CN107122437B (zh) * 2017-04-19 2020-08-04 高新兴科技集团股份有限公司 一种支持多条件检索和实时分析的大数据处理方法
CN109120885B (zh) * 2017-06-26 2021-01-05 杭州海康威视数字技术股份有限公司 视频数据获取方法及装置
CN107451289A (zh) * 2017-08-14 2017-12-08 四川汇源吉迅数码科技有限公司 基于垂直搜索引擎的数字内容查询系统
CN110109870A (zh) * 2018-01-24 2019-08-09 江苏友上科技实业有限公司 一种基于Solr的海量数据快速检索系统
EP3846026A4 (en) 2018-09-21 2021-11-03 Huawei Technologies Co., Ltd. DATA EXTRACTION PROCESS AND DEVICE
CN110442773B (zh) * 2019-08-13 2023-07-18 深圳市网心科技有限公司 分布式系统中节点缓存方法、系统、装置及计算机介质
CN111143427B (zh) * 2019-11-25 2023-09-12 中国科学院计算技术研究所 基于在网计算的分布式信息检索方法、系统与装置
CN112035895A (zh) * 2020-07-20 2020-12-04 江苏傲为控股有限公司 一种基于交易方式的电子合同取证方法及系统
CN112231513A (zh) * 2020-10-15 2021-01-15 北京爱论答科技有限公司 一种学习视频推荐方法、装置及系统
CN113824804A (zh) * 2021-11-24 2021-12-21 飞狐信息技术(天津)有限公司 一种关键词检测的方法及相关装置
CN114328887A (zh) * 2021-12-16 2022-04-12 苏州蔚盛网络科技有限公司 一种业务软件信息采集系统及采集方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006105160A2 (en) * 2005-03-30 2006-10-05 Axs-One Inc. Distributed search services for electronic data archive systems
CN201307870Y (zh) * 2008-12-10 2009-09-09 福建讯盟软件有限公司 话单分布式检索引擎系统
JP2010283488A (ja) * 2009-06-03 2010-12-16 Nihon Digital Kaden:Kk インターネット情報映像化収集装置
CN102200979A (zh) * 2010-03-26 2011-09-28 上海市浦东科技信息中心 一种分布式并行信息检索系统及其方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO992269D0 (no) * 1999-05-10 1999-05-10 Fast Search & Transfer Asa S°kemotor med todimensjonalt skalerbart, parallell arkitektur
JP4008954B2 (ja) * 2004-10-29 2007-11-14 松下電器産業株式会社 情報検索装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006105160A2 (en) * 2005-03-30 2006-10-05 Axs-One Inc. Distributed search services for electronic data archive systems
CN201307870Y (zh) * 2008-12-10 2009-09-09 福建讯盟软件有限公司 话单分布式检索引擎系统
JP2010283488A (ja) * 2009-06-03 2010-12-16 Nihon Digital Kaden:Kk インターネット情報映像化収集装置
CN102200979A (zh) * 2010-03-26 2011-09-28 上海市浦东科技信息中心 一种分布式并行信息检索系统及其方法

Also Published As

Publication number Publication date
CN102436513A (zh) 2012-05-02

Similar Documents

Publication Publication Date Title
CN102436513B (zh) 分布式检索方法和系统
US10452691B2 (en) Method and apparatus for generating search results using inverted index
CN104252536B (zh) 一种基于hbase的上网日志数据查询方法及装置
CN103390038B (zh) 一种基于HBase的构建和检索增量索引的方法
CN104516979B (zh) 一种基于二次检索的数据查询方法及系统
CN106682147A (zh) 一种基于海量数据的查询方法及装置
CN104516982A (zh) 一种基于Nutch的Web信息提取方法和系统
CN101676907A (zh) 一种互联网资源定向获取方法及系统
CN103279474A (zh) 一种视频文件索引方法及系统
CN102037465A (zh) 使冗余最小化的Web馈送聚合方法
CN106294826A (zh) 一种集群数据实时查询方法及系统
CN111258978A (zh) 一种数据存储的方法
CN109948044A (zh) 基于向量最近邻搜索的文档查询
Changtong An improved HDFS for small file
CN105138649B (zh) 数据的搜索方法、装置及终端
CN106570153A (zh) 一种海量url的数据提取方法及系统
CN106570151A (zh) 一种海量文件的数据收集处理方法及系统
CN111241142A (zh) 一种科技成果转化推送系统及方法
CN103020300B (zh) 一种信息检索方法和设备
CN111581420B (zh) 一种基于Flink的医学图像实时检索方法
US9426173B2 (en) System and method for elimination of spam in a data stream according to information density
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
US20140108420A1 (en) Index creation method and system
CN114564451A (zh) 基于java实现网盘中文件及标签的检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant