CN103778137A - 一种博客内容搜索方法及系统 - Google Patents

一种博客内容搜索方法及系统 Download PDF

Info

Publication number
CN103778137A
CN103778137A CN201210401046.5A CN201210401046A CN103778137A CN 103778137 A CN103778137 A CN 103778137A CN 201210401046 A CN201210401046 A CN 201210401046A CN 103778137 A CN103778137 A CN 103778137A
Authority
CN
China
Prior art keywords
data block
arranging
blog content
result
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210401046.5A
Other languages
English (en)
Other versions
CN103778137B (zh
Inventor
王佳强
何建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210401046.5A priority Critical patent/CN103778137B/zh
Priority to PCT/CN2013/082893 priority patent/WO2014059836A1/zh
Publication of CN103778137A publication Critical patent/CN103778137A/zh
Priority to US14/688,101 priority patent/US10678873B2/en
Application granted granted Critical
Publication of CN103778137B publication Critical patent/CN103778137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种博客内容搜索方法及系统,其中,所述博客内容搜索方法,包括:接收博客内容检索请求,该检索请求包括检索词和检索时间段范围;根据检索请求中的检索词从数据库中检索并获取该检索词的倒排数据块,根据倒排数据块的时间戳跳表和检索时间段范围,跳转到包含符合条件的倒排数据块;对符合条件数据的倒排块进行归并得到检索结果。本发明实施例的博客内容搜索方法及系统通过在倒排数据块的头部添加博客生成时间戳跳表,通过该跳表,可以根据用户输入的检索时间范围直接跳到可能取到结果的块进行检索,大大缩短了搜索时间,提高了搜索效率,另外,通过时间戳跳表可以检索到时间较老的数据,保证了搜索结果的准确性和完整性。

Description

一种博客内容搜索方法及系统
技术领域
本发明属于互联网技术领域,特别是涉及一种博客内容搜索方法及系统。
背景技术
在博客搜索特别是微博搜索中,存在搜索某个时间段发表过的文章的需求,例如用户记得大概某个时间有一篇很好的语录或文章,现在想找出来看看。现有的博客搜索入口中存在相关的搜索时间段,用户可以搜索最近1天、3天等的博客内容,也可以指定搜索一段时间内的博客内容。
现有的博客内容搜索方法采用的是按照文章发表时间逆序的顺序生成倒排数据块。在接收到检索请求时,首先取得每个检索词的第一块倒排,然后进行归并,对于归并出来的结果在判断其发表时间是否在请求所给的时间段内,如果不在,则丢弃该归并的结果,如果在所请求的时间段内,就将该归并结果作为一个满足条件的结果,当某个检索词的倒排块归并到末尾时,继续取该词的下一块归并,直到某个词的倒排块都做完或者找到了足够多的结果才结束。
但是,现有的博客内容搜索方法存在以下缺点:该博客内容搜索方法需要对每个倒排进行归并及判断,造成搜索花费时间长,用户需要长期等待才能得到搜索结果;另外,现有的博客内容搜索方法找到了一定的博客内容就会返回结果,不能将所有结果都返回,造成用户可能找不到期望的结果。
发明内容
本发明提供了一种博客内容搜索方法及系统,旨在解决现有技术中在需要对每个倒排进行归并及判断,造成搜索花费时间长以及不能将所有结果都返回的问题。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。
本发明提供一种博客内容搜索方法,包括:
接收博客内容检索请求,该检索请求包括检索词和检索时间段范围;
根据检索请求中的检索词从数据库中检索并获取该检索词的倒排数据块,根据倒排数据块的时间戳跳表和检索时间段范围,跳转到包含符合条件的倒排数据块;
对符合条件数据的倒排块进行归并得到检索结果。
本发明还提供一种博客内容搜索系统,包括:
请求接收模块:用于接收博客内容检索请求,该检索请求包括检索词和检索时间段范围;
数据跳转模块:根据检索请求中的检索词从数据库中检索并获取该检索词的倒排数据块,根据倒排数据块的时间戳跳表和检索时间段范围,跳转到包含符合条件的倒排数据块;
结果返回模块:对符合条件数据的倒排块进行归并得到检索结果。
本发明的技术方案具有如下优点或有益效果:本发明实施例的博客内容搜索方法和系统通过在倒排数据块的头部添加博客生成时间戳跳表,通过该跳表,可以根据用户输入的检索时间范围直接跳到可能取到结果的块进行检索,大大缩短了搜索时间,提高了搜索效率,另外,通过时间戳跳表可以检索到时间较老的数据,保证了搜索结果的准确性和完整性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
附图1是本发明第一实施例的博客内容搜索方法的流程图;
附图2是本发明第二实施例的博客内容搜索方法的流程图;
附图3是本发明第一实施例的博客内容搜索系统的结构示意图;
附图4是本发明第二实施例的博客内容搜索系统的结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的用户原创内容的推荐方法及推荐装置其具体实施方式、方法、步骤、结构、特征及其功效,详细说明如下。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
图1是本发明第一实施例的博客内容搜索方法的流程图。如图1所示,本发明第一实施例的博客内容搜索方法包括以下步骤:
步骤100:在博客内容倒排数据块中添加博客内容发表或生成的时间戳跳表;
在步骤100中,博客包括传统博客、微博及轻博。按照博客内容一定时间内的发表时间逆序的顺序生成倒排数据块,该一定时间可以为1个月、3个月或者用户、系统设置的时间,另外,也可以按照一定的博客数据条数的发表时间逆序的顺序生成倒排数据块,例如发表的5000条博客数据或者10000条博客数据或者用户、系统设置的博客条数,例如整个博客发表时间为1年,博客数据为50000条,按照3个月发表时间逆序的顺序生成倒排数据块,则有4个倒排数据块,如果按照10000条博客数据发表时间逆序的顺序生成倒排数据块,则有5个倒排数据块。另外,由于博客内容在时新性方面比较敏感,也可以按照博客数据生成时间进行排序;时间戳跳表可以添加在每个倒排数据块的头部,通过时间戳跳表,可以根据用户输入的检索时间范围直接跳到可能取到结果的块操作,具体的倒排数据块的头部结构如下:
Figure BDA00002279734300041
其中,时间戳跳表(TimeStampSkipList)为每个倒排数据块最后一篇文章的生成时间戳,形成一个数组,总共有4*BlockNum个字节,可以理解,本发明实施例的倒排数据块头部结构不限于上述具体结构。
步骤110:接收博客内容检索请求,该检索请求包括检索词和检索时间段范围;
在步骤110中,时间段范围可以根据用户的需求进行设定。
步骤120:根据检索请求中的检索词从数据库中检索并获取该检索词的倒排数据块,根据倒排数据块头部信息的时间戳跳表,跳转到包含符合条件的倒排数据块;
在步骤120中,可以获取检索词任意的倒排数据块,通过该块的头部信息,判断出哪一块倒排可能包含符合条件的数据,然后取该块倒排数据块进行后继的检索动作;另外,也可以获取检索词的其他块的倒排数据块步骤130:对符合条件的倒排数据块进行归并,对归并出的结果做时间过滤,返回检索结果。
步骤130中,对时间过滤为根据用户输入的检索时间段范围对归并结果进行过滤,如果对归并出的结果做时间过滤得到足够多的结果,就结束检索;否则跳转到步骤300继续找下一个可能归并出结果的倒排数据块。
以下为本发明实施例的博客数据搜索系统的一个具体应用,可以理解,本发明实施例不限于下面的具体应用。假设用户搜索A关键词和B关键词的组合,时间段是2011-4-1到2011-4-10,其中,A关键词和B关键词的组合可以为任意形式,例如:A关键词和B关键词组合在一起形成了“AB”字符串;或者A关键词和B关键词中间利用空格等等符号隔开。
建索引模块在倒排数据中添加时间信息,具体格式就是每一块倒排数据最后一篇文章的生成时间戳,形成一个数组,假设现在A关键词的时间戳跳表信息为{2012-4-010:0:0,2012-1-010:0:0,2011-8-010:0:0,2011-6-010:0:0,2011-1-010:0:0,2010-10-010:0:0........},B关键词的时间戳跳表信息为{2012-3-010:0:0,2011-12-010:0:0,2011-7-010:0:0,2011-3-010:0:0,2011-2-010:0:0,2010-11-010:0:0........}。
检索模块根据建索引模块提供的数据索引进行以下步骤:
1).分别取A、B两个关键词的第1块倒排数据,得到相关的信息;
2).根据第1块倒排数据中的时间戳跳表,确定第1块倒排数据中是否可以取到满足条件的结果;如果不能,则跳过第1块倒排数据,取第2块倒排数据,依次类推;
在此,根据时间戳跳表,可以确定由于A关键词的第1~4块倒排数据的时间戳跳表分别为2012-4-010:0:0,2012-1-010:0:0,2011-8-010:0:0,2011-6-010:0:0,其均晚于时间段2011-4-1到2011-4-10,因此第1~4块倒排数据不可能取到满足条件的结果。而第5块倒排数据的时间戳跳表2011-1-010:0:0,早于时间段2011-4-1到2011-4-10,因此A关键词直到第5块倒排数据才可能取到满足条件的结果。同理,B关键词直到第4块才可能取到满足条件的结果。
3).选取A、B两个关键词满足条件的的这两个倒排数据,即A关键词的第5块倒排数据和B关键词的第4块倒排数据,并进行归并处理以找到包含A和B两个关键词的博文,再对归并出的结果做时间过滤以找到在时间段2011-4-1到2011-4-10内的包含A和B两个关键词的博文;
4).如果在A、B两个关键词满足条件的的这两个倒排数据中已经得到了足够多的结果,那么就结束检索;否则跳转到步骤2继续找下一个可能归并出结果的倒排数据。
图2是本发明第二实施例的博客内容搜索方法的流程图。如图2所示,本发明第二实施例的博客内容搜索方法包括以下步骤:
步骤200:按照博客内容发表或生成时间生成倒排数据块;
在步骤200中,按照博客内容一定时间内的发表时间逆序的顺序生成倒排数据块,该一定时间可以为1个月、3个月或者用户、系统设置的时间,另外,也可以按照一定的博客数据条数的发表时间逆序的顺序生成倒排数据块,例如发表的5000条博客数据或者10000条博客数据或者用户、系统设置的博客条数,例如整个博客发表时间为1年,博客数据为50000条,按照3个月发表时间逆序的顺序生成倒排数据块,则有4个倒排数据块,如果按照10000条博客数据发表时间逆序的顺序生成倒排数据块,则有5个倒排数据块。
步骤210:在倒排数据块中添加博客内容发表或生成时间戳跳表;
在步骤210中,时间戳跳表可以添加在每个倒排数据块的头部,通过时间戳跳表,可以根据用户输入的检索时间范围直接跳到可能取到结果的块操作,具体的倒排数据块的头部结构如下:
Figure BDA00002279734300061
其中,时间戳跳表(TimeStampSkipList)为每个倒排数据块最后一篇文章的生成时间戳,所以总共有4*BlockNum个字节,可以理解,本发明实施例的倒排数据块头部结构不限于上述具体结构。
步骤220:接收博客内容检索请求,判断检索请求是否是带时间段范围的检索请求,如果是带时间段范围的检索请求,则进入步骤230,如果不是带时间段范围的检索请求,则进入步骤240;
在步骤220中,时间段范围可以根据用户的需求进行设定。
步骤230:获取检索词的倒排数据块,根据倒排数据块的头部信息的时间戳跳表,跳转到包含符合条件数据的倒排块;
在步骤230中,可以获取检索词任意的倒排数据块,通过该块的头部信息,判断出哪一块倒排可能包含符合条件的数据,然后取该块倒排数据块进行后继的检索动作;另外,也可以获取检索词的其他块的倒排数据块。
步骤240:对符合条件数据的倒排块进行归并,对归并出的结果做时间过滤;
步骤240中,对时间过滤为根据用户输入的检索时间段范围对归并结果进行过滤,
步骤250:判断过滤结果是否到达设定的数量,如果达到设定数量,则进入步骤260,否则返回步骤230;
步骤260:返回检索结果。
图3是本发明第一实施例的博客内容搜索系统的结构示意图。如图3所示,本发明第一实施例的博客内容搜索系统包括信息添加模块、请求接收模块、数据跳转模块和结果返回模块。
信息添加模块用于在博客内容倒排数据块中添加博客内容发表或生成的时间戳跳表。
时间戳跳表可以添加在每一倒排数据块的头部,通过时间戳跳表,可以根据用户输入的检索时间范围直接跳到可能取到结果的块操作,具体的倒排数据块的头部结构如下:
Figure BDA00002279734300071
其中,时间戳跳表(TimeStampSkipList)为每个倒排数据块最后一篇文章的生成时间戳,形成一个数组,总共有4*BlockNum个字节,可以理解,本发明实施例的倒排数据块头部结构不限于上述具体结构。
请求接收模块用于接收带时间段范围的博客内容检索请求,其中,时间段范围可以根据用户的需求进行设定。
数据跳转模块用于根据检索请求中的检索词从数据库中检索并获取该检索词的倒排数据块,根据倒排数据块的时间戳跳表和检索时间段范围,跳转到包含符合条件的倒排数据块;其中,数据跳转模块可以获取检索词任意的倒排数据块,通过该块的头部信息,判断出哪一块倒排可能包含符合条件的数据,然后取该块倒排数据块进行后继的检索动作;另外,也可以获取检索词的其他块的倒排数据块。
结果返回模块用于根据对符合条件数据的倒排块进行归并及过滤返回检索结果。
图4是本发明第二实施例的博客内容搜索系统的结构示意图。如图4所示,本发明第二实施例的博客内容搜索系统包括数据生成模块、信息添加模块、请求接收模块、请求判断模块、数据跳转模块、结果过滤模块、结果判断模块和结果返回模块。
数据生成模块用于按照博客内容发表或生成时间生成倒排数据块。其中,数据生成模块可以按照博客内容发表时间逆序的顺序生成倒排数据块,另外,由于博客内容在时新性方面比较敏感,也可以按照博客数据生成时间进行排序。
信息添加模块用于在博客内容倒排数据块中添加博客内容发表或生成的时间戳跳表。
时间戳跳表可以添加在倒排数据块的头部,通过时间戳跳表,可以根据用户输入的检索时间范围直接跳到可能取到结果的块操作,具体的倒排数据块的头部结构如下:
Figure BDA00002279734300081
其中,时间戳跳表(TimeStampSkipList)为每个倒排块最后一篇文章的生成时间戳,形成一个数组,总共有4*BlockNum个字节,可以理解,本发明实施例的倒排数据块头部结构不限于上述具体结构。
请求接收模块用于接收博客内容检索请求,其中,时间段范围可以根据用户的需求进行设定。
请求判断模块用于判断检索请求是否是带时间段范围的检索请求,如果是带时间段范围的检索请求,则由数据跳转模块获取检索词的倒排数据块,如果不是带时间段范围的检索请求,则由结果过滤模块对符合条件数据的倒排块进行归并。
数据跳转模块用于根据检索请求中的检索词从数据库中检索并获取该检索词的倒排数据块,根据倒排数据块的时间戳跳表和检索时间段范围,跳转到包含符合条件的倒排数据块;其中,数据跳转模块可以获取检索词第一块的倒排数据块,通过该块的头部信息,判断出哪一块倒排可能包含符合条件的数据,然后取该块倒排数据块进行后继的检索动作;另外,也可以获取检索词的其他块的倒排数据块。
结果过滤模块用于对符合条件数据的倒排块进行归并,对归并出的结果做时间过滤,返回过滤结果。
结果判断模块用于判断过滤结果是否到达设定的数量,如果达到设定数量,则由结果返回模块返回检索结果,否则继续由数据跳转模块获取检索词的倒排数据块。
结果返回模块用于返回检索结果。
本发明实施例的博客内容搜索方法和系统通过在倒排数据块的头部添加博客生成时间戳跳表,通过该跳表,可以根据用户输入的检索时间范围直接跳到可能取到结果的块进行检索,大大缩短了搜索时间,提高了搜索效率,另外,通过时间戳跳表可以检索到时间较老的数据,保证了搜索结果的准确性和完整性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (13)

1.一种博客内容搜索方法,包括:
接收博客内容检索请求,该检索请求包括检索词和检索时间段范围;
根据检索请求中的检索词从数据库中检索并获取该检索词的倒排数据块,根据倒排数据块的时间戳跳表和检索时间段范围,跳转到包含符合条件的倒排数据块;
对符合条件数据的倒排块进行归并得到检索结果。
2.根据权利要求1所述的博客内容搜索方法,其特征在于,所述接收博客内容检索请求步骤前还包括:按照博客内容发表或生成时间生成倒排数据块,在倒排数据块中添加博客内容发表或生成时间戳跳表,所述博客包括传统博客、微博及轻博。
3.根据权利要求2所述的博客内容搜索方法,其特征在于,所述时间戳跳表为每个倒排块最后一篇文章的生成时间戳,所述时间戳跳表添加在每一倒排数据块的头部。
4.根据权利要求1至3任一项所述的博客内容搜索方法,其特征在于,所述接收博客内容检索请求步骤还包括:判断检索请求是否是带时间段范围的检索请求,如果是带时间段范围的检索请求,则获取检索词的倒排数据块,如果不是带时间段范围的检索请求,则对倒排块进行检索。
5.根据权利要求1至3任一项所述的博客内容搜索方法,其特征在于,所述根据倒排数据块的时间戳跳表,跳转到倒排块步骤包括:获取检索词任意的倒排数据块,通过检索词倒排数据块的头部信息,判断出可能包含符合条件数据的倒排块,获取所述块倒排数据块进行检索。
6.根据权利要求1至3任一项所述的博客内容搜索方法,其特征在于,所述对倒排块进行检索并返回检索结果步骤包括:对符合条件数据的倒排块进行归并,对归并出的结果做时间过滤,判断过滤结果是否到达设定的数量,如果达到设定数量,则返回检索结果;如果没有达到设定数量,则重新根据倒排数据块头部信息的时间戳跳表,跳转到包含符合条件数据的倒排块进行检索。
7.一种博客内容搜索系统,包括:
请求接收模块:用于接收博客内容检索请求,该检索请求包括检索词和检索时间段范围;
数据跳转模块:根据检索请求中的检索词从数据库中检索并获取该检索词的倒排数据块,根据倒排数据块的时间戳跳表和检索时间段范围,跳转到包含符合条件的倒排数据块;
结果返回模块:对符合条件数据的倒排块进行归并得到检索结果。
8.根据权利要求7所述的博客内容搜索系统,其特征在于,还包括数据生成模块和信息添加模块,所述数据生成模块用于按照博客内容发表或生成时间生成倒排数据块,所述博客包括传统博客、微博及轻博,所述信息添加模块用于在倒排数据块中添加博客内容发表或生成时间戳跳表。
9.根据权利要求8所述的博客内容搜索系统,其特征在于,所述时间戳跳表为每个倒排块最后一篇文章的生成时间戳,所述时间戳跳表添加在倒排数据块的头部。
10.根据权利要求7至9任一项所述的博客内容搜索系统,其特征在于,还包括请求判断模块,所述请求判断模块用于判断检索请求是否是带时间段范围的检索请求,如果是带时间段范围的检索请求,则获取检索词的倒排数据块,如果不是带时间段范围的检索请求,则对倒排块进行检索。
11.根据权利要求7或8所述的博客内容搜索方法,其特征在于,所述数据跳转模块获取检索词第一块的倒排数据块,通过检索词第一块的头部信息,判断出可能包含符合条件数据的倒排块,获取所述块倒排数据块进行检索。
12.根据权利要求11所述的博客内容搜索系统,其特征在于,还包括结果过滤模块,所述结果过滤模块用于对符合条件数据的倒排块进行归并,对归并出的结果做时间过滤,返回过滤结果。
13.根据权利要求12所述的博客内容搜索系统,其特征在于,还包括结果判断模块,所叙述用于判断过滤结果是否到达设定的数量,如果达到设定数量,则由结果返回模块返回检索结果,否则继续由数据跳转模块获取检索词的倒排数据块。
CN201210401046.5A 2012-10-19 2012-10-19 一种博客内容搜索方法及系统 Active CN103778137B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210401046.5A CN103778137B (zh) 2012-10-19 2012-10-19 一种博客内容搜索方法及系统
PCT/CN2013/082893 WO2014059836A1 (zh) 2012-10-19 2013-09-04 博客内容搜索方法及系统
US14/688,101 US10678873B2 (en) 2012-10-19 2015-04-16 Method and system for blog content search

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210401046.5A CN103778137B (zh) 2012-10-19 2012-10-19 一种博客内容搜索方法及系统

Publications (2)

Publication Number Publication Date
CN103778137A true CN103778137A (zh) 2014-05-07
CN103778137B CN103778137B (zh) 2018-09-07

Family

ID=50487544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210401046.5A Active CN103778137B (zh) 2012-10-19 2012-10-19 一种博客内容搜索方法及系统

Country Status (3)

Country Link
US (1) US10678873B2 (zh)
CN (1) CN103778137B (zh)
WO (1) WO2014059836A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063441A (zh) * 2014-06-12 2014-09-24 北京东进航空科技股份有限公司 数据库运维系统及其对数据的运维方法
CN104268277A (zh) * 2014-10-15 2015-01-07 北京国双科技有限公司 用于数据库的数据读取方法及装置
CN107957842A (zh) * 2016-10-18 2018-04-24 腾讯科技(深圳)有限公司 一种用户生成内容的展示方法和终端设备
CN108287757A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种数据获取、数据显示的方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10725994B2 (en) * 2016-04-08 2020-07-28 International Business Machines Corporation Automatically revising synopsis table structure
CN109933708A (zh) * 2019-01-25 2019-06-25 平安科技(深圳)有限公司 信息检索方法、装置、存储介质及计算机设备
US11868335B2 (en) * 2019-05-22 2024-01-09 Druva Inc. Space-efficient change journal for a storage system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558786B2 (en) * 2004-12-24 2009-07-07 International Business Machines Corporation Method for storing text annotations with associated type information in a structured data store
US20090319518A1 (en) * 2007-01-10 2009-12-24 Nick Koudas Method and system for information discovery and text analysis
CN102110160A (zh) * 2011-02-24 2011-06-29 上海莱希信息科技有限公司 根据倾向性值进行网页搜索的方法和装置
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144168A1 (en) * 2007-07-13 2009-06-04 Grouf Nicholas A Methods and systems for searching across disparate databases
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
US8219574B2 (en) * 2009-06-22 2012-07-10 Microsoft Corporation Querying compressed time-series signals
US8335803B2 (en) * 2009-10-09 2012-12-18 Oracle International Corporation Hierarchical representation of time-related profiles
US20110231416A1 (en) * 2010-03-22 2011-09-22 Brandon Lee Goodchild Drake Analyzing script for scanning mass internet content
US8762326B1 (en) * 2010-09-23 2014-06-24 Google Inc. Personalized hot topics
US9497249B2 (en) * 2011-08-08 2016-11-15 Sony Corporation Information processing apparatus, information processing method, program, and information processing system
US8650198B2 (en) * 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
CN102708187B (zh) * 2012-05-14 2014-04-30 成都信息工程学院 基于Hbase数据库的倒排索引混合压缩及解压方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558786B2 (en) * 2004-12-24 2009-07-07 International Business Machines Corporation Method for storing text annotations with associated type information in a structured data store
US20090319518A1 (en) * 2007-01-10 2009-12-24 Nick Koudas Method and system for information discovery and text analysis
CN102110160A (zh) * 2011-02-24 2011-06-29 上海莱希信息科技有限公司 根据倾向性值进行网页搜索的方法和装置
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063441A (zh) * 2014-06-12 2014-09-24 北京东进航空科技股份有限公司 数据库运维系统及其对数据的运维方法
CN104268277A (zh) * 2014-10-15 2015-01-07 北京国双科技有限公司 用于数据库的数据读取方法及装置
CN107957842A (zh) * 2016-10-18 2018-04-24 腾讯科技(深圳)有限公司 一种用户生成内容的展示方法和终端设备
CN108287757A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种数据获取、数据显示的方法及装置

Also Published As

Publication number Publication date
WO2014059836A1 (zh) 2014-04-24
US20150220650A1 (en) 2015-08-06
US10678873B2 (en) 2020-06-09
CN103778137B (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN103778137A (zh) 一种博客内容搜索方法及系统
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
US8620948B2 (en) System and method for crowdsourced template based search
CN100504866C (zh) 一种综合搜索结果的排序系统及方法
KR101463974B1 (ko) 마케팅을 위한 빅데이터 분석 시스템 및 방법
CN105426514A (zh) 个性化的移动应用app推荐方法
KR101386832B1 (ko) 텔레비전 검색 보조 시스템 및 방법
CN102456058A (zh) 类目信息提供方法及装置
CN102193929A (zh) 确定词信息熵及利用词信息熵的搜索方法及其设备
JP6538866B2 (ja) 人が介在することなくアルゴリズム的に子供にとって適切なコンテンツを識別すること
Pallickara et al. Efficient metadata generation to enable interactive data discovery over large-scale scientific data collections
CN103984714A (zh) 一种基于本体语义的云制造服务供需智能匹配方法
CN103186509A (zh) 通配符类模板泛化方法和装置、通用模板泛化方法和系统
CN103559258A (zh) 基于云计算的网页排序方法
CN103106234A (zh) 一种网页内容搜索方法和装置
CN105069101A (zh) 分布式索引构建及检索方法
CN103198078B (zh) 一种互联网新闻事件报道趋势分析方法及系统
CN101561818A (zh) 分词处理方法及全文检索方法
CN106372123A (zh) 一种基于标签的相关内容推荐方法和系统
Anantha et al. Context tuning for retrieval augmented generation
CN112764749B (zh) 一种软件功能界面组的生成方法及系统
CN102467502A (zh) 一种检索方法及系统
CN102004737A (zh) 专利申请人区域技术路线分析方法
CN103778129A (zh) 一种博客数据搜索方法及系统
Matosevic The adoption of semantic annotations of products in web shops

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant