CN104572643A - 搜索方法和搜索引擎 - Google Patents

搜索方法和搜索引擎 Download PDF

Info

Publication number
CN104572643A
CN104572643A CN201310470200.9A CN201310470200A CN104572643A CN 104572643 A CN104572643 A CN 104572643A CN 201310470200 A CN201310470200 A CN 201310470200A CN 104572643 A CN104572643 A CN 104572643A
Authority
CN
China
Prior art keywords
node
index file
search
disk
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310470200.9A
Other languages
English (en)
Other versions
CN104572643B (zh
Inventor
张涛
于晓明
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201310470200.9A priority Critical patent/CN104572643B/zh
Publication of CN104572643A publication Critical patent/CN104572643A/zh
Application granted granted Critical
Publication of CN104572643B publication Critical patent/CN104572643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种搜索方法和搜索引擎,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于全部将索引文件存储在磁盘所导致的检索速度下降,提高了检索效率。

Description

搜索方法和搜索引擎
技术领域
本发明涉及信息检索技术,尤其涉及一种搜索方法和搜索引擎。
背景技术
搜索引擎是一种根据用户终端输入的关键字,利用倒排索引文件,也称索引文件,进行检索的系统。搜索引擎可分为全文搜索引擎、垂直搜索引擎、集合式搜索引擎和门户搜索引擎等不同种类。搜索引擎需要预先根据包括数十亿,甚至百亿数量级网页的原始网络数据创建索引文件,获得的索引文件的数据量也较大,以全文搜索引擎为例,约为102G到103G数量级。
现有技术中,通常采用将索引文件存储在磁盘上,当利用文件进行搜索时,需要频繁占用磁盘的输入/输出(I/O)接口,因而导致检索速度下降,效率较低。
发明内容
本发明提供一种搜索方法和搜索引擎,用于提高检索速度和效率。
本发明的第一个方面是提供一种搜索方法,包括:
接收用户终端发送的用于对网页进行搜索的关键字;
利用各从节点的内存中存储的第一索引文件,进行搜索,获得与所述关键字相匹配的第一匹配网页;
若所述第一匹配网页的个数少于第一阈值,利用所述各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页;所述第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件周期性持久化到磁盘中获得的;
向所述用户终端发送搜索结果;所述搜索结果包括所述第一匹配网页和/或所述第二匹配网页。
本发明的另一个方面是提供一种搜索引擎,包括:
接收模块,用于接收用户终端发送的用于对网页进行搜索的关键字;
第一搜索模块,用于利用各从节点的内存中存储的第一索引文件,进行搜索,获得与所述关键字相匹配的第一匹配网页;
第二搜索模块,用于若所述第一匹配网页的个数少于第一阈值,利用所述各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页;所述第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件,周期性持久化到磁盘中获得的;
发送模块,用于向所述用户终端发送搜索结果;所述搜索结果包括所述第一匹配网页和/或所述第二匹配网页。
本发明提供的搜索方法和搜索引擎,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于全部将索引文件存储在磁盘所导致的检索速度下降,提高了检索效率。
附图说明
图1为本发明一实施例提供的搜索方法的流程示意图;
图2为本发明另一实施例提供的搜索方法的流程示意图;
图3为本发明一实施例提供的搜索引擎的结构示意图;
图4为本发明另一实施例提供的搜索引擎的结构示意图。
具体实施方式
图1为本发明一实施例提供的搜索方法的流程示意图,本实施例所提供的搜索方法可由搜索引擎执行,如图1所示,该搜索方法包括:
101、接收用户终端发送的用于对网页进行搜索的关键字。
102、利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页。
其中,第一索引文件是各从节点根据原始网络数据创建的,原始网络数据是主节点以负载均衡为依据,根据各从节点的负载,向各从节点发送的。
搜索引擎包括上载系统和索引系统,其中索引系统包括主节点和各从节点。主节点以负载均衡为依据,根据各从节点的负载,向各从节点发送原始网络数据,以使各从节点根据原始网络数据创建索引文件。各从节点之间相互不进行通信,由主节点对各从节点进行统一管理,使得对从节点的删减更加灵活。经过测试,若原始网络数据的平均大小为1K,在单节点双核CPU、24G内存的配置的情况下,则该搜索引擎的平均索引速度达到2500条/秒,10个从节点的情况下,则该搜索引擎的平均索引速度达到20000条/秒。
从节点可采用多线程的工作模式根据原始网络数据创建索引文件。从节点接收主节点发送的原始网络数据,对原始网络数据进行解码,将解码后的原始网络数据加入到原始数据队列中,利用多个索引创建线程,对原始数据队列中的原始网络数据并行进行处理,获得索引文件,将该索引文件存储到内存中,并对内存索引进行更新。其中,内存索引用于指示索引文件的存储位置。
103、若第一匹配网页的个数少于第一阈值,利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页。
其中,第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件,周期性持久化到磁盘中获得的。
104、向用户终端发送搜索结果。
其中,搜索结果包括第一匹配网页和/或第二匹配网页。
本实施例中的搜索引擎可用于对舆情数据的处理中。
本实施例中,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于将索引文件存储在磁盘所导致的检索速度下降,提高了检索效率。
图2为本发明另一实施例提供的搜索方法的流程示意图,如图2所示,该搜索方法包括:
201、搜索引擎接收用户终端发送的用于对网页进行搜索的关键字。
202、搜索引擎利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页。
其中,第一索引文件是各从节点根据原始网络数据创建的,原始网络数据是主节点以负载均衡为依据,根据各从节点的负载,向各从节点发送的。
主节点通过各从节点发送的心跳包,获取各从节点的负载,心跳包记录各从节点的索引量和活动状态,活动状态为正在工作或未工作。搜索引擎包括上载系统和索引系统,上载系统向索引系统中的主节点发送原始网络数据,上载系统仅与索引系统中的主节点相联系,仅能获知主节点的网络地址。索引系统中的主节点根据心跳包,从各从节点中选择活动状态为正在工作,并且索引量最小的从节点作为目标从节点,向上载系统发送目标从节点的网络地址,以使上载系统根据该网络地址向目标从节点发送原始网络数据。目标从节点接收到原始网络数据之后,在该目标从节点的内存中创建索引文件,直接以增量方式更新内存的索引库后,该索引文件即可用于检索。
203、若第一匹配网页的个数少于第一阈值,搜索引擎利用各节点的磁盘中的往期索引库中存储的第二索引文件进行搜索。
其中,往期索引库用于存储持久化到磁盘的时间不大于第二时长的第二索引文件。第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件,周期性持久化到磁盘中获得的。
优先利用各从节点的内存中存储的第一索引文件,进行搜索,但由于内存具有易失性,为了提高索引文件的安全性,需要周期性的将内存中的第一索引文件存储到磁盘中,即持久化到磁盘,由于持久化到磁盘的操作需要对磁盘进行写操作,占用I/O接口,影响搜索引擎的搜索效率,因而持久化到磁盘的操作周期不需要太高,优选第一时长为1个小时。对持久化到磁盘后的第一索引文件进行标记,在每个该第一时长内,只需根据该标记,将最新创建的未持久化到磁盘的索引文件进行操作。
204、若利用所述各节点的磁盘中的往期索引库进行搜索所获得的匹配网页的个数少于第二阈值,搜索引擎利用所述各节点的磁盘中的历史索引库进行搜索,获得与所述关键字相匹配的第二匹配网页。
其中,历史索引库用于存储持久化到磁盘的时间大于所述第二时长的第二索引文件。
205、搜索引擎向用户终端发送搜索结果。
其中,搜索结果包括第一匹配网页和第二匹配网页。
进一步,本实施例中的搜索引擎还用于实时监控各从节点的内存的占用率,若各从节点中存在所述内存的占用率超过第三阈值的从节点,根据所述第一索引文件的创建时间,依次对所述内存的占用率超过第三阈值的从节点的内存中所存储的已持久化到磁盘的第一索引文件进行删除。
具体的,搜索引擎可预先设定第三阈值,以及所删除的已持久化到磁盘的第一索引文件的数据量,即每次删除所释放的存储空间大小。当从节点内存的占用率超过第三阈值时,从内存中选择已持久化到磁盘的第一索引文件,按照第一索引文件的创建时间,依次进行删除,直至所删除的第一索引文件达到预先设定的所释放的存储空间大小。以及将所删除的第一索引文件记录到已卸载队列中。其中,在计算内存的占用率时,不能够使用节点的操作系统所提供的内存信息,而是按照当前内存中加载的所有第一索引文件统计索引库的大小。这是由于搜索引擎在进行搜索时,索引文件是不能够被删除的,操作系统的删除操作仅是减少了索引文件的引用计数,而并没有真正的释放内存空间,是有当所有的搜索操作结束后,该索引文件所占用的内存才能够真正释放。搜索引擎还可在将所删除的第一索引文件记录到已卸载队列中之后,将持久化目录中记录的已卸载队列中的第一索引文件移动至磁盘主索引库目录,对磁盘主索引库目录进行更新,以重新划分磁盘中的往期索引库和历史索引库。
本实施例中,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于将索引文件全部存储在磁盘所导致的检索速度下降,提高了检索效率。
图3为本发明一实施例提供的搜索引擎的结构示意图,如图3所示,搜索引擎包括:接收模块31、第一搜索模块32、第二搜索模块33和发送模块34。
接收模块31,用于接收用户终端发送的用于对网页进行搜索的关键字。
第一搜索模块32,与接收模块31连接,用于利用各从节点的内存中存储的第一索引文件,进行搜索,获得与所述关键字相匹配的第一匹配网页。
其中,第一索引文件是所述各从节点根据原始网络数据创建的,所述原始网络数据是主节点以负载均衡为依据,根据所述各从节点的负载,向所述各从节点发送的。各从节点的负载是所述各从节点利用心跳包向所述主节点发送的。
第二搜索模块33,与第一搜索模块32连接,用于若所述第一匹配网页的个数少于第一阈值,利用所述各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页。
其中,第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件,周期性持久化到磁盘中获得的。
发送模块34,与第二搜索模块33连接,用于向所述用户终端发送搜索结果。
其中,搜索结果包括所述第一匹配网页和/或所述第二匹配网页。
本实施例中,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于将索引文件全部存储在磁盘所导致的检索速度下降,提高了检索效率。
图4为本发明另一实施例提供的搜索引擎的结构示意图,如图4所示,在上一实施例提供的搜索引擎的基础上,本实施例中的第二搜索模块33进一步包括:第一搜索单元331和第二搜索单元332。
第一搜索单元331,用于利用所述各节点的磁盘中的往期索引库所存储的第二索引文件进行搜索。
其中,往期索引库用于存储持久化到磁盘的时间不大于第二时长的第二索引文件。
第二搜索单元332,与第一搜索单元331连接,用于若利用所述各节点的磁盘中的往期索引库进行搜索所获得的匹配网页的个数少于第二阈值,利用所述各节点的磁盘中的历史索引库所存储的第二索引文件继续进行搜索,获得与所述关键字相匹配的第二匹配网页。
其中,历史索引库用于存储持久化到磁盘的时间大于所述第二时长的第二索引文件。
进一步,本实施例中的搜索引擎还包括:
监控模块35,与第一搜索模块32连接,用于监控各从节点的内存的占用率。
删除模块36,与监控模块35接,用于若各从节点中存在所述内存的占用率超过第三阈值的从节点,根据所述第一索引文件的创建时间,依次对所述内存的占用率超过第三阈值的从节点的内存中所存储的已持久化到磁盘的第一索引文件进行删除。
本实施例中,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,向用户终端发送包含第一匹配网页和第二匹配网页的搜索结果,由于首先利用内存中存储的第一索引文件进行搜索,不需要占用I/O接口,从而避免了由于将索引文件全部存储在磁盘所导致的检索速度下降,提高了检索效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种搜索方法,其特征在于,包括:
接收用户终端发送的用于对网页进行搜索的关键字;
利用各从节点的内存中存储的第一索引文件,进行搜索,获得与所述关键字相匹配的第一匹配网页;
若所述第一匹配网页的个数少于第一阈值,利用所述各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页;所述第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件周期性持久化到磁盘中获得的;
向所述用户终端发送搜索结果;所述搜索结果包括所述第一匹配网页和/或所述第二匹配网页。
2.根据权利要求1所述的搜索方法,其特征在于,所述若所述第一匹配网页的个数少于第一阈值,利用所述各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页,包括:
利用所述各节点的磁盘中的往期索引库所存储的第二索引文件进行搜索;所述往期索引库用于存储持久化到磁盘的时间不大于第二时长的第二索引文件;
若利用所述各节点的磁盘中的往期索引库进行搜索所获得的匹配网页的个数少于第二阈值,利用所述各节点的磁盘中的历史索引库所存储的第二索引文件继续进行搜索,获得与所述关键字相匹配的第二匹配网页;所述历史索引库用于存储持久化到磁盘的时间大于所述第二时长的第二索引文件。
3.根据权利要求1或2所述的搜索方法,其特征在于,所述搜索方法还包括:
监控所述各从节点的内存的占用率;
若所述各从节点中存在所述内存的占用率超过第三阈值的从节点,根据所述第一索引文件的创建时间,依次对所述内存的占用率超过所述第三阈值的从节点的内存中所存储的已持久化到磁盘的第一索引文件进行删除。
4.根据权利要求1或2所述的搜索方法,其特征在于,所述第一索引文件是所述各从节点根据原始网络数据创建的,所述原始网络数据是主节点以负载均衡为依据,根据所述各从节点的负载,向所述各从节点发送的。
5.根据权利要求4所述的搜索方法,其特征在于,所述各从节点的负载是所述各从节点利用心跳包向所述主节点发送的。
6.一种搜索引擎,其特征在于,包括:
接收模块,用于接收用户终端发送的用于对网页进行搜索的关键字;
第一搜索模块,用于利用各从节点的内存中存储的第一索引文件,进行搜索,获得与所述关键字相匹配的第一匹配网页;
第二搜索模块,用于若所述第一匹配网页的个数少于第一阈值,利用所述各节点的磁盘中所存储的第二索引文件,进行搜索,获得与所述关键字相匹配的第二匹配网页;所述第二索引文件是以第一时长为周期对所述各从节点的内存中所存储的所述第一索引文件周期性持久化到磁盘中获得的;
发送模块,用于向所述用户终端发送搜索结果;所述搜索结果包括所述第一匹配网页和/或所述第二匹配网页。
7.根据权利要求6所述的搜索引擎,其特征在于,所述第二搜索模块,包括:
第一搜索单元,用于利用所述各节点的磁盘中的往期索引库所存储的第二索引文件进行搜索;所述往期索引库用于存储持久化到磁盘的时间不大于第二时长的第二索引文件;
第二搜索单元,用于若利用所述各节点的磁盘中的往期索引库进行搜索所获得的匹配网页的个数少于第二阈值,利用所述各节点的磁盘中的历史索引库所存储的第二索引文件继续进行搜索,获得与所述关键字相匹配的第二匹配网页;所述历史索引库用于存储持久化到磁盘的时间大于所述第二时长的第二索引文件。
8.根据权利要求6或7所述的搜索引擎,其特征在于,所述搜索引擎还包括:
监控模块,用于监控所述各从节点的内存的占用率;
删除模块,用于若所述各从节点中存在所述内存的占用率超过第三阈值的从节点,根据所述第一索引文件的创建时间,依次对所述内存的占用率超过第三阈值的从节点的内存中所存储的已持久化到磁盘的第一索引文件进行删除。
9.根据权利要求6或7所述的搜索引擎,其特征在于,所述第一索引文件是所述各从节点根据原始网络数据创建的,所述原始网络数据是主节点以负载均衡为依据,根据所述各从节点的负载,向所述各从节点发送的。
10.根据权利要求9所述的搜索引擎,其特征在于,所述各从节点的负载是所述各从节点利用心跳包向所述主节点发送的。
CN201310470200.9A 2013-10-10 2013-10-10 搜索方法和搜索引擎 Active CN104572643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310470200.9A CN104572643B (zh) 2013-10-10 2013-10-10 搜索方法和搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310470200.9A CN104572643B (zh) 2013-10-10 2013-10-10 搜索方法和搜索引擎

Publications (2)

Publication Number Publication Date
CN104572643A true CN104572643A (zh) 2015-04-29
CN104572643B CN104572643B (zh) 2018-06-19

Family

ID=53088745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310470200.9A Active CN104572643B (zh) 2013-10-10 2013-10-10 搜索方法和搜索引擎

Country Status (1)

Country Link
CN (1) CN104572643B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062418A (zh) * 2018-01-05 2018-05-22 北京奇艺世纪科技有限公司 一种数据搜索方法、装置及服务器
CN112328587A (zh) * 2020-11-18 2021-02-05 山东健康医疗大数据有限公司 ElasticSearch的数据处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124277A1 (en) * 2005-11-29 2007-05-31 Chen Wei Z Index and Method for Extending and Querying Index
CN101075241A (zh) * 2006-12-26 2007-11-21 腾讯科技(深圳)有限公司 缓存处理方法以及缓存处理系统
CN102508884A (zh) * 2011-10-18 2012-06-20 盘古文化传播有限公司 热点事件与实时评论的获取方法及装置
CN103294731A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 实时索引建立、实时搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124277A1 (en) * 2005-11-29 2007-05-31 Chen Wei Z Index and Method for Extending and Querying Index
CN101075241A (zh) * 2006-12-26 2007-11-21 腾讯科技(深圳)有限公司 缓存处理方法以及缓存处理系统
CN102508884A (zh) * 2011-10-18 2012-06-20 盘古文化传播有限公司 热点事件与实时评论的获取方法及装置
CN103294731A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 实时索引建立、实时搜索方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062418A (zh) * 2018-01-05 2018-05-22 北京奇艺世纪科技有限公司 一种数据搜索方法、装置及服务器
CN108062418B (zh) * 2018-01-05 2022-07-22 北京奇艺世纪科技有限公司 一种数据搜索方法、装置及服务器
CN112328587A (zh) * 2020-11-18 2021-02-05 山东健康医疗大数据有限公司 ElasticSearch的数据处理方法和装置

Also Published As

Publication number Publication date
CN104572643B (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN103902623B (zh) 用于在存储系统上存取文件的方法和系统
CN106874348B (zh) 文件存储和索引方法、装置及读取文件的方法
CN102662992B (zh) 一种海量小文件的存储、访问方法及装置
KR102031588B1 (ko) 파일 저장 시의 색인 구현 방법 및 시스템
CN102467572B (zh) 支持重复数据删除程序的数据区块查询方法
WO2013152678A1 (zh) 元数据查询方法和装置
CN102591947A (zh) 用于数据去重复的快速且低ram占用的索引
CN102375853A (zh) 分布式数据库系统、在其中建立索引的方法和查询方法
CN103106158A (zh) 包括键-值存储的存储器系统
KR20200122994A (ko) 키 값 첨부
CN105512283A (zh) 数据质量管理控制方法及装置
CN103995855A (zh) 存储数据的方法和装置
CN110888837B (zh) 对象存储小文件归并方法及装置
CN103019887A (zh) 数据备份方法及装置
CN104424219A (zh) 一种数据文件的管理方法及装置
CN103744913A (zh) 一种基于搜索引擎技术的数据库检索方法
CN103229164A (zh) 数据访问方法和装置
CN103914483A (zh) 文件存储方法、装置及文件读取方法、装置
US20210011857A1 (en) Method and apparatus for buffering data blocks, computer device, and computer-readable storage medium
CN104516677A (zh) 磁盘数据读写方法及磁盘存储装置
CN109471860B (zh) 面向电动汽车充电网络大规模充电桩数据处理方法及装置
KR101666440B1 (ko) 환형큐 기반의 인-메모리 데이터베이스 시스템에서의 데이터 처리방법
US20140012879A1 (en) Database management system, apparatus, and method
CN102724301B (zh) 云数据库系统以及云数据读写处理方法、设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220620

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.