CN104361005A

CN104361005A - 一种垂直搜索引擎中对信息单元的调度方法

Info

Publication number: CN104361005A
Application number: CN201410535206.4A
Authority: CN
Inventors: 齐彦杰
Original assignee: Beijing Zhongsou Network Technology Co ltd
Current assignee: Beijing Zhongsou Network Technology Co ltd
Priority date: 2014-10-11
Filing date: 2014-10-11
Publication date: 2015-02-18
Anticipated expiration: 2034-10-11
Also published as: CN104361005B

Abstract

本发明提供一种垂直搜索引擎中对信息单元的调度方法，该方法基于采集调度系统，包括如下步骤：所述调度模块发起入口域名调度；所述抽取模块辨识抽取出的二级域名的类型并做标记；所述调度模块接收抽取出的二级域名并识别所述标记；判断识别出的信息单元是否出现更新；将信息单元的域名信息、历史更新记录加入或更新到更新单位页。根据历史更新记录预测下次出现更新的时间点，并在该时间点上执行信息单元调度。本方法对于垂直搜索中，具有信息单元特征，且每个信息单元更新周期和更新时间点差异性很大的网站有较好的适用效果。

Description

一种垂直搜索引擎中对信息单元的调度方法

技术领域

本发明涉及一种网络信息调度方法，具体讲涉及一种垂直搜索引擎中对信息单元的调度方法。

背景技术

现在用户有很多个性化的搜索要求，这类要求一般范围特定，对数据质量要求很高，所以对应的搜索厂商推出了基于特定方向的垂直搜索，例如新闻搜索、视频搜索、音乐搜索、微博搜索及小说搜索等等。这些垂直频道都有一些很明显的特点：1.数据类型一致，来源很窄，几乎都是定向抓取；2.对于数据及时性要求很高，希望在第一时间收录到系统中；3.数据需要持续更新；4.数据更新活跃度差异很大。

有了这些特定需求，对于采集系统，就不能像通用爬虫那样抓取数据了，会用一些垂直采集特定数据的方法。例如：只采集指定网站的数据，周期抓取对方网站的特定更新页面，同时不能对对方网站进行过于频繁的抓取。

在原有的采集系统中，调度算法是从指定网站入口页面进入，这些页面通常都是信息列表页。从列表页中抽取特定的url，通过调度，下载那些需要更新的页面。新页面回来后，继续抽取url进行调度。这样层层深入，能够逐渐抓取到所有的页面。

这个方法，简单实用，但不够高效。第一，所有的更新必须从入口发起，即使只有少量的页面有更新，也得把入口下所有的页面下载一遍；第二，每个页面的更新时间不一致，却要统一按入口的更新周期被调度，不能保证页面抓取的及时性，或为了保证信息的及时性而增加调度频次。这两个问题，都会造成大量的下载浪费；同时，还可能因为施加压力过大，导致对方网站封锁采集方的ip出口。

例如一个网站，A视频或者A小说是每日0点更新，B视频或者B小说是每日10点更新。如果按照常用更新办法，需要从入口页发起采集，两个信息单元共用一个调度时间，那么如果在0点的时候调度，只有A能更新，B会无效下载；如果在5点调度，A会更新不及时，B会无效下载；如果在10点调度，A会更晚被收录。而且通常一个入口会包含很多信息单元，每个信息单元的更新时间又不一致，那么该入口的采集周期会难以协调和预测，众口难调。

所以，如何在保证每个更新信息都能被及时采集的前提下，尽量减小下载量，是一个丞需解决的问题。

发明内容

为了克服上述现有技术的不足，本发明提供一种垂直搜索引擎中对信息单元的调度方法。

为了实现上述发明目的，本发明采取如下技术方案：

一种垂直搜索引擎中对信息单元的调度方法，该方法基于采集调度系统，所述采集调度系统包括：下载模块、抽取模块、框架和调度模块；所述信息单元为垂直搜索引擎中的一个事物的信息聚类单位；其特征在于，所述方法包括如下步骤：

A.所述调度模块发起入口域名调度；

B.所述抽取模块辨识抽取出的二级域名的类型并做标记；

C.所述调度模块接收抽取出的二级域名并识别所述标记；

D.判断识别出的信息单元是否出现更新；

E.将信息单元的域名信息、历史更新记录加入或更新到更新单位页。

F.根据历史更新记录预测下次出现更新的时间点，并在该时间点上执行信息单元调

度。

优选地，步骤A包括：调度模块根据预设期调度初始入口域名。

优选地，步骤B中，所述二级域名的类型包括：列表页、信息单元页、信息单元页下层页面和图片页；所述信息单元页为一个信息单元的顶层页面。

优选地，步骤C包括：

C-1.若接收到的所述二级域名的类型为列表页，调度模块按该二级域名所在入口的

调度周期进行调度；返回步骤A；

C-2.若接收到的所述二级域名的类型为信息单元页，执行步骤E；

C-3.若接收到的所述二级域名的类型为信息单元页下层页面，直接调度该二级域名；

继续执行步骤D。

优选地，步骤D包括：

D-1.生成所述信息单元的内容指纹，并将其与页面指纹信息表中的历史信息进行比

对，以判断该信息单元是否出现更新；

D-2.对所述信息单元的域名进行结构分析，并将其与域名排重表进行比对，以判断

该信息单元的域名是否为首次出现。

优选地，步骤E包括：调度模块创建所述更新单位表；所述更新单位表包括如下字段：更新单位页域名、更新时间点、更新单位位置权重、更新单位更新页面数和历史更新记录；所述更新单位为有更新需求的信息单元；所述调度包括：下载更新单位页及其下层页面；将每次调度的更新状况存入所述更新单位表的历史更新记录中。

优选地，步骤F包括：

F-1.判断一个更新单位是否完成全部调度，如果完成调度，将本次调度的更新状况存入所述更新单位表的历史更新记录中；否则，回到步骤A；

F-2.根据历史更新记录，调用预测模型，计算下次更新的时间点，并将该时间点存入所述更新单位表的更新时间点字段中，回到步骤A；

F-3.检查更新单位的更新时间点，当到达所述更新时间点时，继续执行调度。

优选地，所述预测模型用于计算下次的更新时间，该预测模型包括如下参数：本次更新的时间点，更新周期，未出现更新的时间跨度，信息单元页所在入口的位置，历史调度次数，下载失败次数；通过所述参数的权重配置完成所述计算。

与现有技术相比，本发明的有益效果在于：

本方法提出一种精确到更新单位的调度算法，定义单个信息体的描述单位及其更新所影响的范围，并建立信息单元级的更新记录，对于垂直搜索中，具有信息单元特征，且每个信息单元更新周期差异性很大的网站有较好的适用效果；

本方法应用于中搜视频搜索项目的采集模块中，根据每个信息单元的更新记录，通过计算模型预测下次更新的时间，并在该时间点调度，大幅降低下载的消耗，同时对于视频采集的及时性和稳定性，有一定的提高。

附图说明

图1是本发明实施例中的调度系统结构图；

图2是本发明实施例中更新单位表示意图；

图3是本发明实施例中入口调度流程图；

图4是本发明实施例中更新单位调度流程图；

图5是本发明实施例中更新单位调度时间预测流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明实现了一种以更新单位作为一个调度单位进行计算的调度方法。该方法基于这样一个现状：同一网站的不同更新单位的更新状态和更新时间点不同，无法统一时间更新。对于这类信息，如果以一个更新单位为一个信息更新单位，分别处理，每一个更新单位统计和使用自己的更新策略，就能及时有效的更新每一个调度单位，同时减少下载消耗。

本发明中的几个概念描述：

入口：是指一个网站的起始页面，通过这个页面，我们可以遍历出该网站的信息。调度模块会从入口开始进行周期调度，抽取模块会把抽取出的url在送还给调度模块。

信息单元是指，垂直搜索引擎中，表现一个事物的信息聚类单位。在采集目标网站中，一个信息单元所需要的数据分布在一个或多个页面。当页面多于一个时，分页面位于主页面的下层。

列表页：是指罗列出多个更新单位的页面。例如视频网站中的频道页，一个频道页包含多个视频。

更新单位：网站中的信息单元，当部分数据发生更新时，只会影响自身。并且信息单元在展示期，总处于持续更新中与更新完结两种状态之一。对于这种正在更新或曾经更新的信息单元，把它定义为一个更新单位。例如，一个视频网站的一部电视剧，在某个时期，它会定时增加新的分集信息，直到全部分集更新结束，那么这个电视剧所存在的页面上的任何更新，都视为该信息单元的更新，这些页面就是属于一个更新单位。

更新单位页：是指一个更新单位的顶层页，通过该页面，能够访问到该更新单位的几乎所有信息。例如视频网站中，“快乐大本营”这个视频的详情页，该页面会描述视频的详情信息，也会给出所有分集的超链接。它就可以作为“更新单位页”。

更新单位表：更新单位信息集合。记录了更新单位页的url、上次调度时间，预计下次更新的时间点、历史更新的记录及其他的相关信息等。“更新单位表”如图2所示。

本发明调度系统的结构图如图1所示，其流程包括：

1)框架类负责串联采集系统的多个模块：

a.从调度模块中获取需要下载的url，送给下载模块；

b.从下载模块拿到下载数据送给抽取抽取模块进行内容抽取；

c.从抽取模块拿到抽取内容后，判断更新单位是否发生内容更新；

d.把更新的内容送给发送模块进行信息输出；

e.拿到抽取url再传给调度模块，调度模块的决策系统决定是否调度该url。

2)调度模块负责采集系统的调度工作，包括入口周期调度，url存储，url调度，更新单位调度，入口调度算法，更新单位调度算法等工作。

3)下载模块负责下载页面，并对下载状态进行反馈，作为调度算法的依据。

4)抽取模块负责根据人工编写的抽取模板，从页面中抽取需要的数据，并进行类型标记。

具体方法是：调度模块在启动时，由人工加入的入口页url开始，进行调度；下载模块根据url下载到入口页的信息；抽取模块根据抽取模板，从页面中获取指定内容和待下载url。并标记url类型为url是信息列表页、更新单位页、更新单位页下层页面、图片页。当一个信息单位的主页面和下层页面被下载和抽取后，会被制作内容指纹，内容指纹会和页面指纹信息表中的历史信息进行对比，分辨页面内容是否更新。抽取出的url会进行结构分析，并和url排重表进行比对，分辨url是否是新url。

框架模块把抽取出的url和本页调度状态传入调度模块。

(1)对于信息列表页url继续进行调度，处理流程和入口页处理流程一致，依次是下载、抽取、分辨url类型、继续调度……

(2)对于更新单位页url，存入“更新单位表”中。更新单位页url第一次进入更新单位表中，没有任何历史更新记录，需要把上次调度时间初始化为零，预计下次更新周期初始化为九小时，下次更新时间点就是上次的更新时间加上预计更新周期且比当前时间小时的当前时间，所以在首次加入后，更新单位页会立即调度。如果更新单位页url已存在于更新单位表中，就对更新单位页所在入口的位置、入口的id、入口的调度类型进行修改。

(3)对于更新单位页分页以及图片url。这些页面是更新单位的附属页面，调度模块会根据更新单位的调度策略，对附属页面进行调度。

(4)更新本页调度信息。如果本页是更新单位的页面之一，根据本页的下载状态，抽取状态、页面更新状态，对更新单位表进行更新。当一个更新单位的所有页面都被下载以及更新完毕后，就意味着该更新单位的本次调度已经结束，同时记录本次调度的更新状况到“更新单位表”的“HISTORY”(历史更新记录)字段。这样每一个更新单位都有一个自己的更新状况记录。接着根据历史更新记录，使用预测模型，计算下次可能更新的时间点，存入“更新单位表”的“CYCLE”(更新时间点)字段。

预测模型是一个根据历史记录计算未来更新时间的计算方法。通过考虑影响更新时间的多个要素以及权重组成，要素主要有更新时间点，更新周期，未更新时间长度，更新单位页所在入口的位置，调度历史次数，下载失败次数。这些参数通过权重的配置，对未来的每一个按小时划分的时间点进行计算，每个时间点获得一个分数，如果该时间点的分数超过0.6，就把该时间点作为下次更新的预测时间。为了进行更精确的预测，会有一个探测期，在探测期，当预测时间大于九个小时，就按九小时作为预测时间，对于初期采样有更好的适用性。待探测器结束，再按实际预测时间执行。

因为每个更新单位都是使用自己的更新记录进行预测计算的，所以能够计算出最适合自己的调度时间点，从而避免了旧方法中一刀切的弊端。使得正在更新的数据，能够较精确的获得更新时间，从而获得更短的采集时间；对于停止更新的数据，能够逐渐停止调度，节约下载资源。

最后，更新单位调度线程就负责检查每个更新单位的调度时间点，当到达调度时间点，且当前入口处于工作状态时，就进行更新单位的调度。周而复始，持续更新。

例如，视频类网站调度时间预测模型实现过程如下：

i.记录最近128次更新单位的调度信息和更新信息，包括调度的时间和本次调度的更新页面数量。

ii.当本次调度结束时更新本次的调度记录并进行下次预测时间的计算。

iii.计算方法是把最近的128次更新记录放入7*24的表格中，标示一周的144个小时。

iv.不同日期同一时间的放入一个单元格中，并累加。例如第一周周二12点有更新，就放入第二列第12行，第二周周二12点也更新了，也放在第二列第12行。同一时间点的计算方法是，距离当前时间点越近的更新状态，占的比重越大，历史越远的更新状态，占得比重越小。这样，历史更新记录就被映射到一个一周的按每小时划分的时间表里。这是根据视频更新有周期性决定的。

v.同时根据两次更新的时间点，得到更新周期，并把多个更新周期去除最长和最短周期，计算一个平均的更新周期。

vi.再把记录映射到一个一周的按每天划分的时间表里，这是为了标示是否每天有更新。

vii.从当前时间开始，计算后面每个小时的更新概率，当更新概率大于0.6或时间超过144小时，计算停止。

viii.更新概率＝初始化区参数*权重+未调度次数参数*权重+未更新周期次数参数*权重+更新周期参数*权重+当前时间点历史更新参数*权重+当前时间点调度参数*权重+入口层级参数*权重+入口排序位置参数*权重+时间点未更新次数参数*-权重+未更新周参数*-权重；

ix.初始化区参数＝当前时间-第一次入库时间是否小于14天，如果是，就为1，否则为0。

x.未调度次数参数＝如果更新周期等于0，那么未调度次数参数等于0，否则，等于(当前时间点-上次调度时间)/更新周期。当未调度次数大于3时，未调度次数＝1/未调度次数。

xi.更新周期参数＝如果(取绝对值(当前时间点-上次更新时间-更新周期)+3600)/3600.0<＝0，更新周期参数等于1，否则等于1/((取绝对值(当前时间点-上次更新时间-更新周期)+3600)/3600.0)。同时，如果当前时间点-上次更新时间-更新周期的结果在0-3600秒，更新周期参数再增大0.2；

xii.当前时间点历史更新参数＝如果该时间点，历史更新、调度比大于0.3，就为1，否则为0；

xiii.当前时间点调度参数＝如果当前时间点在0-10点之间，就为1，否则为0；同时如果当前时间点在0点，历史上当日无调度或者更新/调度比大于0.2，当日最近无更新次数小于3,，那么当前时间点调度参数再扩大4倍。

xiv.入口层级参数＝1/视频在入口下所在页面的编号。

xv.入口排序位置参数＝1/视频在页面中的顺序号。

xvi.时间点未更新次数参数＝log(该时间点未更新最近次数*时间权重)

xvii.未更新周参数＝不更新时间长度小于1周时等于0，大于一周时，取一周的倍数。

xviii.根据计算公式，当分值大于0.6时，就认为该时间点的更新概率达到要求，就退出计算。或者计算144个小时还没有找到符合的时间也结束。

xix.如果当前时间点没有更新，但历史更新概率大于0.3，调度周期就是3600秒。

xx.如果找到了分值大于0.6的时间点，或者没找到，但最大分值的时间点的分值大于0.4，调度周期就是距离当前的小时数*3600秒。

xxi.如果最大分值都不超过0.4，那么调度周期等于(未更新时间/更新周期)倍数按斐波那契数列*更新周期+(最大分值时间点到当前时间的秒数)。

xxii.最后，如果当前调度次数在24次以内(初始化时期)，且调度周期大于九小时，就调整调度周期为九小时。这是为了在初期，为保证足够的采样次数，和采样密度做的限定。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种垂直搜索引擎中对信息单元的调度方法，该方法基于采集调度系统，所述采集调度系统包括：下载模块、抽取模块、框架和调度模块；所述信息单元为垂直搜索引擎中的一个事物的信息聚类单位；其特征在于，所述方法包括如下步骤：

A.所述调度模块发起入口域名调度；

B.所述抽取模块辨识抽取出的二级域名的类型并做标记；

C.所述调度模块接收抽取出的二级域名并识别所述标记；

D.判断识别出的信息单元是否出现更新；

F.根据历史更新记录预测下次出现更新的时间点，并在该时间点上执行信息单元调度。

2.如权利要求1所述的方法，其特征在于，步骤A包括：调度模块根据预设期调度初始入口域名。

3.如权利要求1所述的方法，其特征在于，步骤B中，所述二级域名的类型包括：列表页、信息单元页、信息单元页下层页面和图片页；所述信息单元页为一个信息单元的顶层页面。

4.如权利要求1所述的方法，其特征在于，步骤C包括：

C-1.若接收到的所述二级域名的类型为列表页，调度模块按该二级域名所在入口的调度周期进行调度；返回步骤A；

继续执行步骤D。

5.如权利要求1所述的方法，其特征在于，步骤D包括：

D-1.生成所述信息单元的内容指纹，并将其与页面指纹信息表中的历史信息进行比对，以判断该信息单元是否出现更新；

D-2.对所述信息单元的域名进行结构分析，并将其与域名排重表进行比对，以判断该信息单元的域名是否为首次出现。

6.如权利要求1所述的方法，其特征在于，步骤E包括：调度模块创建所述更新单位表；所述更新单位表包括如下字段：更新单位页域名、更新时间点、更新单位位置权重、更新单位更新页面数和历史更新记录；所述更新单位为有更新需求的信息单元；所述调度包括：下载更新单位页及其下层页面；将每次调度的更新状况存入所述更新单位表的历史更新记录中。

7.如权利要求1所述的方法，其特征在于，步骤F包括：

8.如权利要求7所述的方法，其特征在于，所述预测模型用于计算下次的更新时间，该预测模型包括如下参数：本次更新的时间点，更新周期，未出现更新的时间跨度，信息单元页所在入口的位置，历史调度次数，下载失败次数；通过所述参数的权重配置完成所述计算。