CN103778129A - 一种博客数据搜索方法及系统 - Google Patents

一种博客数据搜索方法及系统 Download PDF

Info

Publication number
CN103778129A
CN103778129A CN201210397767.3A CN201210397767A CN103778129A CN 103778129 A CN103778129 A CN 103778129A CN 201210397767 A CN201210397767 A CN 201210397767A CN 103778129 A CN103778129 A CN 103778129A
Authority
CN
China
Prior art keywords
data
blog
blog data
retrieval
certificate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210397767.3A
Other languages
English (en)
Other versions
CN103778129B (zh
Inventor
王佳强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210397767.3A priority Critical patent/CN103778129B/zh
Publication of CN103778129A publication Critical patent/CN103778129A/zh
Application granted granted Critical
Publication of CN103778129B publication Critical patent/CN103778129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种博客数据搜索方法及系统,其中,所述博客数据搜索方法,包括:根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引;接收微博数据检索请求;接收检索指令,根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,并给出各时间段博客数据的分布情况。本发明实施例的博客数据搜索方法及系统在博客数据建立数据索引,通过数据索引使检索更为快捷和方便,保证了检索的快速性及完整性,在不增加额外服务器的情况下可以方便、快捷的得到博客数据分布。

Description

一种博客数据搜索方法及系统
技术领域
本发明属于互联网技术领域,特别是涉及一种博客数据搜索方法及系统。
背景技术
近年来,以Internet为核心的现代网络技术和通信技术得到快速发展和广泛应用,其中,博客作为一种网络交流互动工具受到广泛的使用。博客特别是微博由于使用人数众多,信息量大,每天产生上亿的数据,现有技术中由于受限于检索服务器的数量以及庞大的数据,无法获取全部的博客数据进行检索,造成检索或者统计结果不准确。
发明内容
本发明提供了一种博客数据搜索方法及系统,旨在解决现有技术中受限于检索服务器的数量以及庞大的数据,无法获取全部的博客数据进行检索,造成检索或者统计结果不准确的问题。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。
本发明提供一种博客数据搜索方法,包括:
根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引;
接收微博数据检索请求;
接收检索指令,根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,并给出各时间段博客数据的分布情况。
本发明还提供一种博客数据搜索系统,包括:
至少一建索引模块,用于根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引;
代理模块,用于接收搜索需求并产生相应的检索指令;
至少一检索模块:用于接收代理模块发送的检索指令,调用建索引模块中的数据进行检索,并根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,给出各时间段博客数据的分布情况。
本发明的技术方案具有如下优点或有益效果:本发明实施例的博客数据搜索方法及系统在博客数据建立数据索引,通过数据索引使检索更为快捷和方便,保证了检索的快速性及完整性,在不增加额外服务器的情况下可以方便、快捷的得到博客数据分布。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
附图1是本发明实施例的博客数据搜索系统的结构示意图;
附图2是本发明第一实施例的博客数据搜索方法的结构示意图;
附图3是本发明第二实施例的博客数据搜索方法的结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的用户原创内容的推荐方法及推荐装置其具体实施方式、方法、步骤、结构、特征及其功效,详细说明如下。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
图1是本发明第一实施例的博客数据搜索方法的流程图。如图2所示,本发明第一实施例的博客数据搜索方法包括以下步骤:
步骤110:根据博客数据建立数据索引;
在步骤110中,在博客数据发表或生成时间生成倒排数据中添加时间戳跳表以建立数据索引。其中,可以按照博客数据发表时间逆序的顺序生成倒排数据,另外,由于博客内容在时新性方面比较敏感,也可以按照博客数据生成时间进行排序;时间戳跳表可以添加在倒排数据的头部,通过时间戳跳表,可以根据用户输入的检索需求直接跳到可能取到结果的块操作,具体的数据索引倒排头部的部分格式如下所示:
Figure BDA00002273673500031
时间戳跳表的组成形式是一个时间的数组,每个数组元素均为每个倒排块最后一篇文章生成的时间戳。根据时间戳跳表,可以快速定位到请求某个时间段文章的检索请求可能得到满足条件结果的倒排块,从而跳过那些没有必要的倒排块。
步骤120:接收微博数据检索请求,确定进行检索的检索模块;
在步骤120中,可以接收带时间段范围的微博数据检索请求,时间段范围可以根据用户的需求进行设定。
步骤130:接收检索指令,调用数据索引进行检索并返回检索结果。
在步骤130中,调用数据索引进行检索包括:获取检索词的倒排数据,根据倒排数据头部信息的时间戳跳表,跳转到包含符合条件数据的倒排块;其中,可以获取检索词第一块的倒排数据,通过该块的头部信息,判断出哪一块倒排可能包含符合条件的数据,然后取该块倒排数据进行后继的检索动作;另外,也可以获取检索词的其他块的倒排数据。
图2是本发明第二实施例的博客数据搜索方法的流程图。如图2所示,本发明第二实施例的博客数据搜索方法包括以下步骤:
步骤210:根据博客数据建立数据索引;
在步骤210中,在博客数据发表或生成时间生成倒排数据中添加时间戳跳表以建立数据索引。其中,可以按照博客数据发表时间逆序的顺序生成倒排数据,另外,由于博客内容在时新性方面比较敏感,也可以按照博客数据生成时间进行排序;时间戳跳表可以添加在倒排数据的头部,通过时间戳跳表,可以根据用户输入的检索需求直接跳到可能取到结果的块操作,具体的数据索引倒排头部的部分格式如下所示:
Figure BDA00002273673500041
时间戳跳表的组成形式是一个时间的数组,每个数组元素均为每个倒排块最后一篇文章生成的时间戳。根据时间戳跳表,可以快速定位到请求某个时间段文章的检索请求可能得到满足条件结果的倒排块,从而跳过那些没有必要的倒排块。
步骤220:接收微博数据检索请求;
在步骤220中,可以接收带时间段范围的微博数据检索请求,时间段范围可以根据用户的需求进行设定。
步骤230:判断检索请求是否是请求博客数据分布的检索,如果是请求博客数据分布的检索,则进入步骤240,如果不是请求博客数据分布的检索,则进入步骤250
在步骤230中,请求博客数据分布的检索包括博客数据的起始时间和结束时间,例如时间段是从2011-4-1到2011-4-10
步骤240:获取数据索引并确定进行检索的检索模块,根据检索请求跳转到包含符合条件数据的倒排块;
在步骤240中,根据检索请求跳转到包含符合条件数据的倒排块包括:获取检索词的倒排数据,根据倒排数据头部信息的时间戳跳表,跳转到包含符合条件数据的倒排块;其中,可以获取检索词第一块的倒排数据,通过该块的头部信息,判断出哪一块倒排可能包含符合条件的数据,然后取该块倒排数据进行后继的检索动作;另外,也可以获取检索词的其他块的倒排数据。
步骤250:根据检索请求的检索词进行检索;
在步骤250中,根据检索请求的检索词进行检索还包括:对符合条件数据的倒排块进行归并。
步骤260:判断是否所有的时间段都采样到,如果都采样到,则进入步骤270,否则重新返回步骤240.
步骤270:统计检索结果,并返回博客数据分布。
在步骤270中,根据各时间段采样情况和每个检索词在每天和每小时的文章数进行估算出该时间段数据的总量,并给出各时间段博客数据的分布情况。
图3是本发明实施例的博客数据搜索系统的结构示意图。如图3所示,本发明实施例的博客数据搜索系统包括代理模块(Broker)、至少一检索模块(Search unit)和至少一建索引模块(Index unit)。
代理模块用于接收搜索需求,并将搜索需求发送给检索模块进行检索。
建索引模块用于对博客数据建立数据索引,供检索模块调用。
建索引模块在博客数据发表或生成时间生成倒排数据中添加时间戳跳表以建立数据索引。博客数据包括传统博客、微博及轻博。其中,轻博(Lofter)是介于传统博客与微博之间的一种网络服务。传统博客是倾向于表达的,微博则更倾向于社交和传播。轻博吸收双方的优势,其既不同于微博也不同于博客,是一种全新的网络媒体。总体而言,轻博突出的是简单的发布流程和交互方式、精致的内容和美观的视觉设计,相较于交互更注重内容及其展示。具体而言,轻博是简化版的博客,去掉第一代博客复杂的界面、组件和页面样式,用极简的风格重点显示用户产生的文字、照片等内容。同时,轻博也是扩展版的微博,主要表现则是突破了140字的限制,保留了微博的转发、喜欢等社区特性。
其中,可以按照博客数据发表时间逆序的顺序生成倒排数据,另外,由于博客内容在时新性方面比较敏感,也可以按照博客数据生成时间进行排序;时间戳跳表可以添加在倒排数据的头部,通过时间戳跳表,可以根据用户输入的检索需求直接跳到可能取到结果的块操作,具体的数据索引倒排头部的部分格式如下所示:
Figure BDA00002273673500061
时间戳跳表的组成形式是一个时间的数组,每个数组元素均为每个倒排块最后一篇文章生成的时间戳。根据时间戳跳表,可以快速定位到请求某个时间段文章的检索请求可能得到满足条件结果的倒排块,从而跳过那些没有必要的倒排块。
检索模块用于接收代理模块发送的检索指令,调用建索引模块中的数据进行检索。
其中,检索模块根据检索请求所要请求的时间段,根据时间戳跳表跳转到可能归并出符合要求的结果的倒排块,然后执行正常的检索流程,在预取足够多的结果后,如果还有所要求的时间段没有取到,那么通过时间戳跳表跳到这些时间段的倒排块进行采样,根据该时间段采样情况和每个检索词在每天和每小时的文章数进行估算出该时间段文章的总量,直到所有时间段都有采样结果后终止。
以下为本发明实施例的博客数据搜索系统的一个具体应用,可以理解,本发明实施例不限于下面的具体应用。假设用户搜索A关键词和B关键词的组合,时间段是2011-4-1到2011-4-10,其中,A关键词和B关键词的组合可以为任意形式,例如:A关键词和B关键词组合在一起形成了“AB”字符串;或者A关键词和B关键词中间利用空格等等符号隔开。
建索引模块在倒排数据中添加时间信息,具体格式就是每一块倒排数据最后一篇文章的生成时间戳,形成一个数组,假设现在A关键词的时间戳跳表信息为{2012-4-01 0:0:0,2012-1-01 0:0:0,2011-8-01 0:0:0,2011-6-010:0:0,2011-1-01 0:0:0,2010-10-01 0:0:0........},B关键词的时间戳跳表信息为{2012-3-01 0:0:0,2011-12-01 0:0:0,2011-7-01 0:0:0,2011-3-01 0:0:0,2011-2-01 0:0:0,2010-11-01 0:0:0........}。
检索模块根据建索引模块提供的数据索引进行以下步骤:
1).分别取A、B两个关键词的第1块倒排数据,得到相关的信息;
2).根据第1块倒排数据中的时间戳跳表,确定第1块倒排数据中是否可以取到满足条件的结果;如果不能,则跳过第1块倒排数据,取第2块倒排数据,依次类推;
在此,根据时间戳跳表,可以确定由于A关键词的第1~4块倒排数据的时间戳跳表分别为2012-4-01 0:0:0,2012-1-01 0:0:0,2011-8-01 0:0:0,2011-6-01 0:0:0,其均晚于时间段2011-4-1到2011-4-10,因此第1~4块倒排数据不可能取到满足条件的结果。而第5块倒排数据的时间戳跳表2011-1-010:0:0,早于时间段2011-4-1到2011-4-10,因此A关键词直到第5块倒排数据才可能取到满足条件的结果。同理,B关键词直到第4块才可能取到满足条件的结果。
3).选取A、B两个关键词满足条件的的这两个倒排数据,即A关键词的第5块倒排数据和B关键词的第4块倒排数据,并进行归并处理以找到包含A和B两个关键词的博文,再对归并出的结果做时间过滤以找到在时间段2011-4-1到2011-4-10内的包含A和B两个关键词的博文;
4).如果在A、B两个关键词满足条件的的这两个倒排数据中已经得到了足够多的结果,那么就结束检索;否则跳转到步骤2继续找下一个可能归并出结果的倒排数据。
本发明实施例的博客数据搜索方法和系统通过在博客数据建立数据索引,通过数据索引使检索更为快捷和方便,保证了检索的快速性及完整性,在不增加额外服务器的情况下可以方便、快捷的得到博客数据分布。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种博客数据搜索方法,包括:
根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引;
接收微博数据检索请求;
接收检索指令,根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,并给出各时间段博客数据的分布情况。
2.根据权利要求1所述的博客数据搜索方法,其特征在于,所述倒排数据按照博客数据发表或生成时间逆序的顺序生成,所述时间戳跳表添加在倒排数据的头部。
3.根据权利要求2所述的博客数据搜索方法,其特征在于,所述时间戳跳表为每个倒排块最后一篇文章的生成时间戳,所述时间戳跳表添加在倒排数据的头部。
4.根据权利要求2或3所述的博客数据搜索方法,其特征在于,所述接收微博数据检索请求步骤后还包括:判断检索请求是否是请求博客数据分布的检索,如果是请求博客数据分布的检索,获取数据索引并确定进行检索的检索模块,根据检索请求跳转到包含符合条件数据的倒排块,如果不是请求博客数据分布的检索,则根据检索请求的检索词进行检索。
5.根据权利要求4所述的博客数据搜索方法,其特征在于,所述接收检索指令,调用数据索引进行检索步骤后还包括:判断是否所有的时间段都采样到,如果都采样到,统计检索结果并返回博客数据分布;否则重新获取数据索引,根据检索请求跳转到包含符合条件数据的倒排块。
6.一种博客数据搜索系统,包括:
至少一建索引模块,用于根据博客数据发表或生成时间生成倒排数据,在倒排数据中添加时间戳跳表建立数据索引;
代理模块,用于接收搜索需求并产生相应的检索指令;
至少一检索模块:用于接收代理模块发送的检索指令,调用建索引模块中的数据进行检索,并根据各时间段采样情况和每个检索词在每个时间段内的文章数计算出所述时间段数据的总量,给出各时间段博客数据的分布情况。
7.根据权利要求6所述的博客数据搜索系统,其特征在于,所述倒排数据按照博客数据发表或生成时间逆序的顺序生成,所述时间戳跳表添加在倒排数据的头部。
8.根据权利要求7所述的博客数据搜索系统,其特征在于,所述时间戳跳表包括至少一个时间数组,每个数组元素均为每个倒排块最后一篇文章生成的时间戳。
9.根据权利要求7或8所述的博客数据搜索系统,其特征在于,所述倒排数据按照博客数据发表时间或博客数据生成时间逆序的顺序生成。
10.根据权利要求7或8所述的博客数据搜索系统,其特征在于,所述检索模块调用建索引模块中的数据进行检索具体为:所述检索模块根据检索请求所要请求的时间段,根据时间戳跳表跳转到可能归并出符合要求的结果的倒排块,根据时间数组采样情况和检索词出现数统计搜素结果。
CN201210397767.3A 2012-10-18 2012-10-18 一种博客数据搜索方法及系统 Active CN103778129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210397767.3A CN103778129B (zh) 2012-10-18 2012-10-18 一种博客数据搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210397767.3A CN103778129B (zh) 2012-10-18 2012-10-18 一种博客数据搜索方法及系统

Publications (2)

Publication Number Publication Date
CN103778129A true CN103778129A (zh) 2014-05-07
CN103778129B CN103778129B (zh) 2019-02-05

Family

ID=50570374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210397767.3A Active CN103778129B (zh) 2012-10-18 2012-10-18 一种博客数据搜索方法及系统

Country Status (1)

Country Link
CN (1) CN103778129B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928868A (zh) * 2018-09-03 2020-03-27 浙江宇视科技有限公司 车辆数据检索方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558786B2 (en) * 2004-12-24 2009-07-07 International Business Machines Corporation Method for storing text annotations with associated type information in a structured data store
CN101477542A (zh) * 2009-01-22 2009-07-08 阿里巴巴集团控股有限公司 一种抽样分析方法、系统和设备
US20090319518A1 (en) * 2007-01-10 2009-12-24 Nick Koudas Method and system for information discovery and text analysis
CN102737133A (zh) * 2012-06-27 2012-10-17 北京城市网邻信息技术有限公司 一种实时搜索的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558786B2 (en) * 2004-12-24 2009-07-07 International Business Machines Corporation Method for storing text annotations with associated type information in a structured data store
US20090319518A1 (en) * 2007-01-10 2009-12-24 Nick Koudas Method and system for information discovery and text analysis
CN101477542A (zh) * 2009-01-22 2009-07-08 阿里巴巴集团控股有限公司 一种抽样分析方法、系统和设备
CN102737133A (zh) * 2012-06-27 2012-10-17 北京城市网邻信息技术有限公司 一种实时搜索的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928868A (zh) * 2018-09-03 2020-03-27 浙江宇视科技有限公司 车辆数据检索方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN103778129B (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
Wu et al. Mind: A large-scale dataset for news recommendation
CN101276361B (zh) 一种显示相关关键词的方法及系统
Dooms et al. Movietweetings: a movie rating dataset collected from twitter
US9183277B1 (en) Providing intent sensitive search results
US20120246302A1 (en) System and methodology for creating and using contextual user profiles
CN104111941B (zh) 信息展示的方法及设备
US20110302153A1 (en) Service for Aggregating Event Information
US12050613B1 (en) Query completions
Becker et al. Automatic identification and presentation of twitter content for planned events
CN102831170B (zh) 活动信息的推送方法及装置
JP2024521930A (ja) 内容検索方法、装置、機器及び媒体
US10783192B1 (en) System, method, and user interface for a search engine based on multi-document summarization
CN102929876A (zh) 一种搜索方法、装置和系统
CN111104583B (zh) 一种直播间推荐方法、存储介质、电子设备及系统
CN103778137B (zh) 一种博客内容搜索方法及系统
CN103605808A (zh) 基于搜索的ugc推荐的方法及系统
CN102902711B (zh) 一种语用关键词通用模版的生成、应用方法与装置
CN103186509A (zh) 通配符类模板泛化方法和装置、通用模板泛化方法和系统
CN101909049A (zh) 一种流媒体数据快速搜索及播放方法和系统
CN103200269A (zh) 互联网信息统计方法及系统
CN106156262A (zh) 一种搜索信息处理方法及系统
WO2014134944A1 (en) System and method for recommending multimedia information
CN102915312A (zh) 网站中的信息发布方法和系统
CN103778129A (zh) 一种博客数据搜索方法及系统
CN103312584A (zh) 一种在网络社区中发布信息的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant