CN101667198B - 实时垂直搜索引擎对象缓存优化方法 - Google Patents

实时垂直搜索引擎对象缓存优化方法 Download PDF

Info

Publication number
CN101667198B
CN101667198B CN2009101528771A CN200910152877A CN101667198B CN 101667198 B CN101667198 B CN 101667198B CN 2009101528771 A CN2009101528771 A CN 2009101528771A CN 200910152877 A CN200910152877 A CN 200910152877A CN 101667198 B CN101667198 B CN 101667198B
Authority
CN
China
Prior art keywords
object search
quota
attribute
search
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009101528771A
Other languages
English (en)
Other versions
CN101667198A (zh
Inventor
陈珂
陈刚
寿黎但
胡天磊
周佳庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2009101528771A priority Critical patent/CN101667198B/zh
Publication of CN101667198A publication Critical patent/CN101667198A/zh
Application granted granted Critical
Publication of CN101667198B publication Critical patent/CN101667198B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实时垂直搜索引擎对象缓存优化方法。利用对象及对象属性之间的关系,预测不同对象的热门度趋势,计算不同对象的缓存权重;利用用户对同一对象查询符合泊松过程以及数据抓取为查询驱动的特点,计算抓取配额在各个对象之间的初始分配和调整方法;利用数据的真实变化频率符合泊松过程的特点,计算抓取配额在各个对象之间的动态平衡方法。本发明增加了垂直搜索引擎对数据站点抓取配额的利用率,增加了实时垂直搜索引擎用户的体验,实现了实时垂直搜索引擎对不同数据站点的自适应配置。

Description

实时垂直搜索引擎对象缓存优化方法
技术领域
本发明涉及实时垂直搜索引擎系统数据缓存与抓取协调相关的技术,特别涉及基于泊松过程的一种实时垂直搜索引擎对象缓存优化的方法。
背景技术
实时垂直搜索引擎通过用户查询驱动的数据抓取、语义分析等技术,为用户提供更贴切、更准确实时、满意度更高的搜索结果。它从根本上解决了传统垂直搜索引擎数据结果过时严重的弊病,满足了用户对机票、股市等特定领域的搜索中日益强烈的高实时性需求。
利用爬虫实时查询的结果与服务器缓存结果的合并来提高用户搜索体验是实时垂直搜索引擎的核心技术。爬虫的实时查询能较好地保证数据的实时性,却增大了数据源站点的压力;适量的数据缓存虽能减少对数据源站点的访问压力,却无法保证数据的实时性。因此,如何在兼顾数据源站点压力的前提下提高实时垂直搜索结果的实时性和性能是缓存策略的重点。
但是由于实时垂直搜索引擎的发展历史尚短,并且实时垂直搜索引擎缓存调度比较复杂,因此产业界对此至今没有一个成熟的解决方案。现有的实时垂直搜索引擎仍然使用传统垂直搜索引擎的抓取调度方法,对抓取配额的利用率不高。
发明内容
本发明的目的在于提供一种实时垂直搜索引擎对象缓存优化方法。主要应用于实时垂直搜索引擎的抓取资源管理,计算了对抓取配额的自动分配平衡方法,提供了实时垂直搜索引擎自动调节管理抓取配额的功能。
本发明解决其技术问题采用的技术方案的步骤如下:
1)根据搜索对象之间的关联关系,预测搜索对象的热门度趋势,计算下一周期内各个搜索对象的缓存权重度;
2)根据步骤1)中所得各个搜索对象的缓存权重度,将抓取配额分配给不同搜索对象,并依据用户对同一搜索对象的访问规律,初步分配与调整抓取配额;
3)计算每个搜索对象的实际数据变化频率,动态平衡不同搜索对象的抓取配额。
所述步骤1)中搜索对象之间的关联关系,使用的是搜索对象之间的属性关联,不同搜索对象的缓存权重度的差异标志了不同搜索对象在周期内用户查询量的差异。
所述步骤1)中计算下一周期T内各个搜索对象缓存权重度的步骤如下:
3.1)定义搜索搜索对象的各个属性,并定义各属性的取值;
3.2)计算关系矩阵集合κ,其中κx代表属性Px的属性关系矩阵,该属性关系矩阵值Kij代表了属性取值pi与pj之间的关联度;
3.3)处理上一周期内的所有查询数据,提取出每个属性不同取值的查询次数,计算属性访问集合η,ηx表示属性Px的访问向量,该访问向量值Ni代表属性某一取值pi在T内的访问次数,tx为各个属性Px的权重度;
3.4)使用公式:
W i = Σ x = 0 m t x · η x · κ x , ( Σ x = 0 m t x = 1 )
计算下一个周期内各个搜索对象的缓存权重度。
所述步骤2)中用户对搜索对象的访问符合泊松过程,且用户对同一搜索对象的查询量随着时间的增长呈线性趋势,抓取配额的初步分配符合公式:
c i = C · Wi Σ i = 0 N Wi
其中C代表总抓取次数限制,N代表搜索对象个数,ci代表搜索对象i分配到的抓取配额;
针对查询驱动的特点进行抓取配额的初步调整符合公式:
c i = c i _ old · ( 1 + c i _ old 2 · T · λ v )
其中ci_old代表以上公式的ci,T代表计算周期,λv为用户对搜索对象i的查询频率。
所述步骤3)中动态平衡,计算搜索对象实际数据变化频率λc的计算方法,依据以下公式:
Σ i = 1 m t ci e λt ci - 1 = Σ j = 1 n - m t uj
其中tci表示发现第i次变化的间隔,tuj表示第j次没有发现变化的间隔,在总共n次重抓中,总共发现了m次变化。
所述步骤3)中的动态中,使用t表示搜索对象的更新间隔,具体方法为:
6.1)遍历所有搜索对象,计算每一个搜索对象的λc·t值与用户查询量值V,并计算每个搜索对象的V·[(1-eλc·t)/λc·t]值,定义其为F;
6.2)对每个搜索对象按照λc·t从大到小排序,同时对每个搜索对象按V从小到大排序;
6.3)依次筛选出λc·t最大,同时V最小的搜索对象与λc·t最小,同时V最大的搜索对象,并将前者的抓取配额平衡给后者,直到这两个搜索对象的F相同为止;
6.4)不断重复步骤6.3),直到所有搜索对象的F相同。
本发明具有的有益效果是:增加了垂直搜索引擎对数据站点抓取配额的利用率,增加了实时垂直搜索引擎用户的体验,实现了实时垂直搜索引擎对不同数据站点的自适应配置。
附图说明
图1是本发明实施步骤流程图。
图2是融合本发明的实时垂直搜索引擎系统架构图。
具体实施方式
现结合附图和实施例对本发明作进一步说明。
如图1所示,本发明具体实施过程和工作原理如下:
1)根据对象之间的关联关系,预测对象的热门度趋势,计算下一周期内各个对象的缓存权重度;
2)根据步骤1)中所得各个对象的缓存权重度,将抓取配额分配给不同对象,并依据用户对同一对象的访问规律,初步调整抓取配额;
3)计算每个对象的实际数据变化频率,动态平衡不同对象的抓取配额。
如图1)所示,步骤1)中对象之间的关联关系使用的是对象之间的属性关联。比如机票对象,包含了{出发城市,到达城市,日期}三个属性,不同的机票对象之间在不同的属性上都有关联,比如{北京,杭州,距今2天}的对象与{北京,上海,距今1天}两个对象仅到达城市不同,并且杭州与上海地理位置非常接近,可以理解为这两个机票的关联比较密切。不同对象的缓存权重度的差异标志了不同对象在一定周期内用户查询量的差异,反应到机票对象上可以理解为不同机票对象的热门程度。
其中计算下一周期内各个对象缓存权重度的具体步骤如下:
1)定义对象的各个属性,并定义各属性的取值,比如机票对象包含{出发城市,到达城市,日期}三个属性,而出发城市和到达城市的取值则为中国各个具有民用机场的城市;
2)计算关系矩阵集合κ,其中κx代表属性Px的属性关系矩阵,该属性关系矩阵值Kij代表了属性取值pi与pj之间的关联度;
3)处理上一周期内的所有查询数据,提取出每个属性不同取值的查询次数。计算属性访问集合η,ηx表示属性Px的访问向量。该访问向量值Ni代表属性某一取值pi在T内的访问次数,tx为各个属性Px的权重度;
4)使用公式
W i = Σ x = 0 m t x · η x · κ x , ( Σ x = 0 m t x = 1 )
计算各个对象的缓存权重度。
如图1)所示,进行完步骤1)处理后,步骤2)表征了对搜索对象抓取配额的初步分配,用户对相同对象的访问符合泊松过程,且用户对同一对象的查询量随着时间的增长呈线性趋势。抓取配额的初步分配符合公式:
c i = C · Wi Σ i = 0 N Wi
其中C代表总抓取次数限制,N代表对象个数,ci代表对象i分配到的抓取配额。比如两个对象的热门程度为W1=4、W2=9,则抓取配额的初步分配为c1=C*2/5、c2=C*3/5。
实时垂直搜索引擎的数据抓取为用户查询驱动,因此需要针对查询驱动的特点进行抓取配额的初步调整,使用以下公式进行:
c i = c i _ old · ( 1 + c i _ old 2 · T · λ v )
其中ci_old代表上式中的的ci,T代表计算周期,λv为用户对对象i的查询频率,依此公式调整后的抓取配额考虑了用户对同一对象查询的离散型。
如图1)所示,步骤3)中计算对象实际数据变化频率λc,依据公式:
Σ i = 1 m t ci e λt ci - 1 = Σ j = 1 n - m t uj
其中tci表示发现第i次变化的间隔,tuj表示第j次没有发现变化的间隔。在总共n次重抓中,总共发现了m次变化。
给定各个抓取对象的数据变化频率λc后,可以此为依据进行不同对象的动态平衡,具体方法为:
1)遍历所有搜索对象,计算每一个搜索对象的λc·t值与用户查询量值V,并计算每个搜索对象的F=V·[(1-eλc·t)/λc·t]值;
2)对每个搜索对象按照λc·t从大到小排序,同时对每个搜索对象按V从小到大排序;该步骤的目的为方便找出所有对象中F最小的搜索对象;
3)依据各个对象的λc·t与V,找出F最小的对象和F最大的对象,并将前者的抓取配额平衡给后者,直到这两个搜索对象的F相同;
4)不断重复步骤3),直到所有搜索对象的F相同。
在经过如上步骤之后,实现了抓取资源在一个周期内在所有搜索对象之间的最优化分配。
图2描述了实时垂直搜索引擎的整体抓取架构,方框代表了本缓存优化方法在整个实时垂直搜索引擎中的应用点,方框中各个节点即代表了缓存优化计算的各个步骤。【计算】步骤代表了不同缓存对象的缓存权重度计算,其计算数据来自网站日志。【分配】步骤即代表了依据缓存权重度进行抓取配额的初步分配与调整,分配的计算结果反应到对象信息表,以表征各个对象的实时信息。在垂直搜索引擎运行过程中,【动态平衡】步骤实时从对象信息表中读取对象信息,并使用动态平衡方法重新调整不同搜索对象的抓取配额。
本发明在实时垂直搜索引擎的切入点为【分发器】,对每个的查询请求,分发器依据本优化方法计算的不同抓取对象抓取配额度来调度决定用户的查询结果为实时从网络抓取还是数据服务器中数据。

Claims (2)

1.一种实时垂直搜索引擎对象缓存优化方法,其特征在于,该方法的步骤如下:
1)根据搜索对象之间的关联关系,预测搜索对象的热门度趋势,计算下一周期T内各个搜索对象的缓存权重度;其步骤如下:
1.1)定义搜索对象的各个属性,并定义各属性的取值;
1.2)计算关系矩阵集合κ,其中κx代表属性Px的属性关系矩阵,该属性关系矩阵值Kij代表了属性取值pi与pj之间的关联度;
1.3)处理上一周期内的所有查询数据,提取出每个属性不同取值的查询次数,计算属性访问集合η,ηx表示属性Px的访问向量,该访问向量值Ni代表属性某一取值pi在T内的访问次数,tx为各个属性Px的权重度;
1.4)使用公式:
Figure FSB00000725961100011
计算下一个周期内各个搜索对象的缓存权重度;
公式中Wi表示对象i的权重;m表示对象的属性个数;
2)根据步骤1)中所得各个搜索对象的缓存权重度,将抓取配额分配给不同搜索对象,并依据用户对同一搜索对象的访问规律,初步分配与调整抓取配额;用户对搜索对象的访问符合泊松过程,且用户对同一搜索对象的查询量随着时间的增长呈线性趋势,抓取配额的初步分配符合公式:
其中C代表总抓取次数限制,N代表搜索对象个数,ci代表搜索对象i分配到的抓取配额;
针对查询驱动的特点进行抓取配额的初步调整符合公式:
Figure FSB00000725961100013
其中ci_old代表抓取配额的初步分配公式中的ci,T代表计算周期,λv为用户 对搜索对象i的查询频率;
3)计算每个搜索对象的实际数据变化频率,动态平衡不同搜索对象的抓取配额;
所述计算搜索对象实际数据变化频率λc的计算方法,依据以下公式:
Figure FSB00000725961100021
其中tci表示发现第i次变化的间隔,tuj表示第j次没有发现变化的间隔,在总共n次重抓中,总共发现了m次变化;
所述动态平衡的过程中,使用t表示搜索对象的更新间隔,具体方法为:
3.1)遍历所有搜索对象,计算每一个搜索对象的λc·t值与用户查询量值V,并计算每个搜索对象的V·[(1-eλc·t)/λc·t]值,定义其为F;
3.2)对每个搜索对象按照λc·t从大到小排序,同时对每个搜索对象按V从小到大排序;
3.3)依次筛选出λc·t最大,同时V最小的搜索对象与λc·t最小,同时V最大的搜索对象,并将前者的抓取配额平衡给后者,直到这两个搜索对象的F相同为止;
3.4)不断重复步骤3.3),直到所有搜索对象的F相同。
2.根据权利要求1中所述的一种实时垂直搜索引擎对象缓存优化方法,其特征在于:所述步骤1)中搜索对象之间的关联关系,使用的是搜索对象之间的属性关联,不同搜索对象的缓存权重度的差异标志了不同搜索对象在周期内用户查询量的差异。 
CN2009101528771A 2009-09-18 2009-09-18 实时垂直搜索引擎对象缓存优化方法 Expired - Fee Related CN101667198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101528771A CN101667198B (zh) 2009-09-18 2009-09-18 实时垂直搜索引擎对象缓存优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101528771A CN101667198B (zh) 2009-09-18 2009-09-18 实时垂直搜索引擎对象缓存优化方法

Publications (2)

Publication Number Publication Date
CN101667198A CN101667198A (zh) 2010-03-10
CN101667198B true CN101667198B (zh) 2012-05-23

Family

ID=41803814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101528771A Expired - Fee Related CN101667198B (zh) 2009-09-18 2009-09-18 实时垂直搜索引擎对象缓存优化方法

Country Status (1)

Country Link
CN (1) CN101667198B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103037010A (zh) * 2012-12-26 2013-04-10 人民搜索网络股份公司 一种分布式网络爬虫系统及其抓取方法
CN104252424B (zh) * 2013-06-26 2018-04-17 腾讯科技(深圳)有限公司 一种用户原创内容消息的缓存处理方法及装置
CN104750682B (zh) * 2013-12-25 2018-04-06 任子行网络技术股份有限公司 一种海量日志的缓冲量分配方法
CN106919946B (zh) * 2015-12-25 2019-11-01 华为技术有限公司 一种受众选择的方法及装置
CN107193828B (zh) * 2016-03-14 2021-08-24 百度在线网络技术(北京)有限公司 小说网页抓取方法和装置
CN110019358B (zh) * 2017-09-30 2021-08-24 北京搜狗科技发展有限公司 一种数据处理方法、装置及设备和存储介质
CN109993334A (zh) * 2017-12-29 2019-07-09 顺丰科技有限公司 配额预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101667198A (zh) 2010-03-10

Similar Documents

Publication Publication Date Title
CN101667198B (zh) 实时垂直搜索引擎对象缓存优化方法
CN108846517B (zh) 一种分位数概率性短期电力负荷预测集成方法
CN103295075B (zh) 一种超短期电力负荷预测与预警方法
CN106598950B (zh) 一种基于混合层叠模型的命名实体识别方法
WO2015081660A1 (zh) 一种居民小区短期负荷预测方法
CN105787588B (zh) 一种用于提升新能源消纳能力的动态峰谷分时电价方法
CN103093285A (zh) 基于人工神经网络的短期负荷预测方法
CN110059875B (zh) 基于分布式鲸鱼优化算法的公共自行车需求量预测方法
CN109034898A (zh) 一种基于改进蚁群的bp神经网络二手车价格评估算法
CN110147919A (zh) 一种基于价格激励机制的公共自行车自动调度方法
CN113256022B (zh) 一种台区用电负荷预测方法及系统
CN101916335A (zh) 城市需水量时间序列-指数平滑模型预测方法
CN106910027A (zh) 一种基于大数据的旅游适游指数的计算系统及方法
CN105427002A (zh) 一种基于Logistic模型的客流预测方法
CN112149902A (zh) 一种基于客流特征分析的地铁短时进站客流预测方法
CN103605493A (zh) 基于图形处理单元的并行排序学习方法及系统
CN103020319A (zh) 一种实时移动空间关键字近似Top-k查询方法
CN109886449A (zh) 一种基于用户用电行为的地区电网负荷预测方法
CN105761489A (zh) 一种交通流预测的三次指数平滑最优方法
CN109214610A (zh) 一种基于长短期记忆神经网络的饱和电力负荷预测方法
CN105005623A (zh) 基于关键词检索指数相关性分析的用电需求预测方法
CN108376260A (zh) 一种基于最优子集优化的svr旅游需求预测方法
CN115392569A (zh) 一种电动汽车充电站选址定容方法及系统
CN113469440B (zh) 一种预测月尺度生活需水量的方法
CN110490488B (zh) 基于大数据分析技术的电力企业主网规划数据分析系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120523

Termination date: 20210918

CF01 Termination of patent right due to non-payment of annual fee