CN1716243A

CN1716243A - 利用网络爬行者程序在网上进行价格收集的方法

Info

Publication number: CN1716243A
Application number: CNA2004100622114A
Authority: CN
Inventors: 林彧弘; 陈宁; 刘建煌; 江顺莱; 崔恩赐
Original assignee: MAH RESEARCH Co
Current assignee: MAH RESEARCH Co
Priority date: 2004-06-30
Filing date: 2004-06-30
Publication date: 2006-01-04

Abstract

本发明公开了一种利用网络爬行者程序在网上进行价格收集的方法，包括：(1)下载压缩资料、(2)搜寻快捷方式、(3)集中化的价格收集、(4)管道式的搜寻与分析及(5)超级代理服务器；藉此，爬行者程序下载的封包可以先压缩，适时地可跳过不必要的中间网页，以改善网络流量，再通过集中式搜寻与互联网共享信息，大幅减低分布式爬行者程序所下载的资料量，并对于具有时间敏感性的产品价格，以管道式的逐项搜寻与分析，则能够得到接近实时的市场状况，且为了确保搜寻过程不中断，可采用超级代理服务器架构，将搜寻要求通过动态选出的公共代理服务器传送，如此价格收集的作业就可以有效率且有效地执行，而且超出以往所能预期的水准。

Description

利用网络爬行者程序在网上进行价格收集的方法

技术领域

本发明涉及一种利用网络爬行者程序在网上进行有效率且有效的价格收集方法。

背景技术

互联网革命建立了电子商务世界，愈来愈多传统的实体商店都通过线上商店来扩展销售信道。也有一种线上商店为厂商提供一个市场，列出厂商的产品，以便线上购物者能够在一个市场，从参与的厂商中搜寻并比较其产品。例如由Yahoo、Price Grabber、Next Tag…等等所主办的线上购物网站就属于此种商店。

由于厂商是通过这些购物网站销售产品，若能藉由上网搜寻而得知其它厂商的价格，将有助厂商的产品定价以提高竞争力，而在网络资源有限的环境中，连续搜寻作业所耗费的大量网络频宽是一个急待解决的重要问题。为了改善网络流量，因此本发明人已研发一套自动化系统，可通过网络爬行者程序在各购物网站上，针对厂商本身欲销售的各项产品，收集竞争者的价格信息，之后再进行分析，以设定厂商本身产品的销售价格。这里所述的爬行者程序是目前美国购物网站搜寻价格的一种常用软件。

该网络爬行者是指一组经排定时程后，会自动从挑选的线上购买网站撷取价格信息的计算机程序。对于销售清单中的各项产品，网络爬行者会搜寻目标网站，并依据符合的项目收集竞争厂商的售价(适当时还列出含税价格与运费)。为了完整搜寻所有目标网站的全部相对应货品，所需要的网站频宽将远超过原来的配置。而且，较长的爬行周期有时候会落后市场的变化，因为稍早取得的价格信息已不再能反映周期结束时的市场状况；因此，次序分明的两阶段“先爬行后分析”方法，对于价格变动大的产品并不适用。

在不会对价格收集程序产生负面影响的前提下，为缩短网络爬行的网络负载，可以并行采用下列的方法：

a、通过封包压缩，降低每个爬行者程序的资料下载量。

b、通过集中式的价格收集法，减少同时运作的爬行者程序数量。

为缩短单一产品的价格收集与分析、定价的时间延迟，可以采用一套平行的管道式处理法，如此一来，当一项产品的对应价格收集完成，就可以立即进入决定销售价格的阶段。

有些购物网站会监督网络客户的互联网协议(IP)地址，在特定时间内封锁繁琐的搜寻作业，可以采用超级代理服务器，动态地将爬行者程序的搜寻要求通过公共代理服务器送出，以确保价格收集程序不会被封锁或中断。

爬行者程序经过修改后，也可用来收集供货商的价格信息，以便补充存货。

发明内容

本发明的目的是提供一种利用网络爬行者程序在网上进行价格收集方法，其爬行者程序下载的封包可以先压缩，适当时也可以跳过不必要的中间网页，再通过集中式搜寻与厂商内部网络(intranet)共享信息，大幅减低分布式爬行者程序所下载的资料量。而对于具有时间敏感性的产品价格，管道式的逐项搜寻与分析，则能够得到接近实时的市场状况。为了确保搜寻过程不中断，可以采用超级代理服务器架构，将搜寻要求通过动态选出的公共代理服务器传送。

有了本发明，价格收集的作业就可以有效率且有效地执行，而且超出以往所能预期的水准。而除了竞争者的价格外，爬行者程序也可以用来下载并处理供货商的供货价格、数量及时间等情形，以便补充厂商本身的存货。

下面结合附图以具体实例对本实用新型进行详细说明。

附图说明

图1是本发明方法以集中式的价格收集的配置架构示意图；

图2是本发明方法以集中式的价格收集的中央爬行者程序执行作业流程图；

图3是本发明方法以集中式的价格收集的非中央爬行者程序执行作业流程图；

图4是本发明超级代理服务器与爬行者程序、目标网站、公共代理服务器之间互动示意图；

图5a和图5b分别说明非管道式与管道式方法的搜寻(或价格收集)与分析情形。

具体实施方式

本发明所提供一种利用网络爬行者程序在网上进行有效率且有效的价格收集方法，其采用实施方法如所下：

(1)下载压缩资料

当线上交易的产品清单增加时，为涵盖完整的清单，需要搜寻的目标购物网站页面就愈来愈多。如此会拉长下载时间，并增加网络频宽的消耗量。为了提高下载大量资料的效率，而且不用增加额外的网络资源，可以采用超文件传输通讯协议(HTTP)封包压缩功能，以缩小网络服务器传送过来的资料封包。如HTTP1.1规格中所建议，善用HTTP压缩功能，爬行者程序可以指定可接受的压缩格式，要求不同比价网站的网络服务器传送压缩的超文件置标语言(HTML)网页；在此项要求被准许而且收到压缩的HTML网页后，爬行者程序就会执行HTML网页的解压缩(通过内置的网络浏览器链接库)以做进一步的处理。与网络超载的情形比较起来，执行解压缩运算作业所耗费的资源则显得微不足道(假设支持HTTP封包压缩功能的网络服务器在启用压缩功能时仍然正常运作)。

为启用HTTP封包压缩功能，爬行者程序必须传送压缩要求给网络服务器，并在HTTP标头插入压缩选项。下列为网页要求标头的范例：

GET/search？q＝outgoing+ip+linux+&hl＝en&lr＝&ie＝UTF-8&oe＝utf-8&start＝20&sa＝NHTTP/1.1Host： www.google.comUser-Agent：Mozilla/5.0(X11；U；Linux i686；en-US；rv：1.4b)Gecko/20030516Mozilla Firebird/0.6Accept：text/xml，application/xml，applieation/xhtml+xml，text/html；q＝0.9，text/plain；q＝0.8，video/x-mng，image/png，image/jpeg，image/gif；q＝0.2，*/*；q＝0.1Accept-Language：en-us，en；q＝0.5Accept-Encoding：gzip，deflate，compress；q＝0.9Accept-Charset：ISO-8859-1，utf-8；q＝0.7，*；q＝0.7Keep-Alive：300Connection：keep-aliVeReferer：http：//www.google.com/search？q＝outgoing+ip+linux+&hl＝en&lr＝-&ie＝UTF-8&oe＝utf-8&start＝10&sa＝NCookie：PREF＝ID＝64c4da7d542017db：TM＝1051812754：LM＝1051812754：S＝GDSemuPFNxv06hTHCache-Control：max-age＝0

反白行中指定″gzip″、″deflate″与″compress″为可接受的压缩格式，而″q″为权重因子。

接受爬行者程序的要求并决定使用的压缩格式后，网络服务器会回传一份HTML网页并附上下列HTTP标头。

HTTP/1.1 200 OKDate：Wed，23 Jul 2003 23:40:33 GMTCache-control：privateContent-Type：text/htmlContent-Encoding：gzipTransfer-Encoding：chunkedServer：GWS/2.1

依照″Content-Encoding：gzip″反白行的建议，具有压缩功能的网络服务器已经以″gzip″格式压缩资料。爬行者程序在收到网络服务器所寄来的HTML网页后会分析标头，再依据标头中指定的压缩格式进行解压缩作业。

根据所采用的压缩格式与撷取的HTML网页特色，通过HTIP压缩所节省的网络频宽或下载时间，将会因个案而异；不过，由于与下载的网页数目愈来愈多，整体效益的改善将仍会非常显著。

(2)搜寻快捷方式

所有比价网站都会提供产品搜寻的功能，如此一来，线上购物者才能通过网络浏览器输入关键词来搜寻想要寻找的产品。视比价网站的产品多寡及关键词搜寻的机制而定，购物者从输入关键词到看见目标网页(列出多家厂商对符合项目所订定的价格)，可能需要点选多次鼠标才能缩小符合范围。在自动化此种搜寻程序以收集价格信息时，爬行者程序会送出HTTP要求(仿真鼠标点选的动作)给特定的统一资源定位器(Uniform Resource Locator，URL)并下载对应的网页进行分析。由于目标网站上有数千种产品等待搜寻，因此最好能尽量跳过中间的搜寻结果网页而尽快抵达目标网页，以降低网络的流量。

要达成此项功能，刚开始可以先修正搜寻关键词以避免模棱两可的情形；但即使以制造商的零件编号作为关键词，有时仍然只能回传几乎符合的一系列产品而仍待进一步的选择、比价。或者，某些比价网站会为存货清单的产品指定一组独一无二的主要识别号，而这些识别号会内建于定位器(URL)中，让浏览器直接达到符合项目的最终比价网页。举Price Grabber为例，当利用制造商零件编号″WRT54G″来搜寻而无法直接到达目标网页时，可以在定位器(URL)中附加主要识别号665967如下：

http://www.pricegrabber.com/search getprod.php/masterid＝665967

因此，此种定位器(URL)可以视为到达目标网页的快捷方式，而爬行者程序的目标网站如果采行类似做法，也可以在编写程序时尽可能利用此种快捷方式。

刚开始，内部零件编号与网站特别指定给该项产品的主要识别号之间，可以建立一个一对一的映像表并储存于数据库表格中。对于在最终比价网页上明白列出主要识别号的网站(例如iBuyer ID on iBuyernet.com)，爬行者程序可以分析这些网页以撷取识别号，而对于只在最终比价网页所对应的定位器(URL)上显示主要识别号的网站(如Price Grabber)，可藉由分析中间的搜寻结果网页上的超级链接(Hyperlinks)来得到识别号。

当目标网站的映像表内含零件编号与其主要识别号时，对应的爬行者程序就会针对所有产品，逐一查询对应的主识别号，以建造快捷方式的定位器(URL)。当送出的HTTP要求愈少，而且不用下载所有搜寻项目的中间搜寻结果网页，快捷方式搜寻法不只能够降低整个搜寻周期的网络负载量，还可以大幅加速价格收集程序。

(3)集中式的价格收集

如果一直像刚开始只需要搜寻少数网站，那么就不用担心网络频宽的消耗量，而且每一套爬行者程序都能够依照自己的行程搜寻目标网站，并将价格信息储存于自己的局部数据库；然而，当销售管道随着目标网站的数量增加而扩展时，就必须注意避免多余的搜寻，并利用一套爬行者程序来收集价格信息，而其余爬行者程序只有在绝对需要时才进行搜寻。为了让爬行者程序之间更容易分享信息，就需要建立一个中央数据库，除了产品清单外，还可储存竞争者的价格信息。如图1配置图表所示，其配置了中央数据库与局部数据库供爬行者程序存取信息，而且只有中央爬行者程序(被选来代表其它程序执行搜寻作业者)才可以更新中央数据库。

中央爬行者程序是依据网站流量来选出。由于它代表所有的爬行者程序，因此其目标网站必须是能够产生最大流量以吸引更多卖方与买方的销售管道。中央爬行者程序依排程下载目标网站的价格信息，并将信息储存在产品价格表中，如下表所示：

零件编号	价格1	价格2	价格3
零件编号	价格1	价格2	价格3	MB-P4S800	$81.49	$81.69	$85.79
...	...	...	...	MB-P4S800	$81.49	$81.69	$85.79

由于大部分产品的竞争者价格可以跨管道分享，其它爬行者程序可以依据中央数据库的竞争者价格为主，之后只要搜寻漏掉的项目或价格波动大而且可能是某管道独有的项目。

为了根据价格波动性来分类存货，就必须使用波动指数(Volatility Index，VI)，如此一来，当波动指数大于特定基准值时，该项产品的价格就被视为容易波动。刚开始最少需要10天的价格资料，之后再依下列方式计算波动指数：

1、N表示目标价格(分析后决定的销售价)在这10天内改变的次数。

2、将N除以9，如此N就会介于0至1之间。

以下列10天价格表中的零件编号MB-P4S800为例，N为1(假设价格直到第10天才改变)，则波动指数为1/9。

零件编号	第1天	第2天	...	第10天	VI
零件编号	第1天	第2天	...	第10天	VI	LS-WUSB12	$55.99	$54.99	...	$52.99	4/9
SAM-1.44WH	$6.2	$6.2	...	$6.2	0	LS-WUSB12	$55.99	$54.99	...	$52.99	4/9
SAM-1.44WH	$6.2	$6.2	...	$6.2	0	MB-P4S800	$81.49	$81.49	...	$83.99	1/9
...	...	...	...	...		MB-P4S800	$81.49	$81.49	...	$83.99	1/9

除了价格改变的频率，改变的量或百分比也可以用来计算波动指数。

当中央数据库中的波动指数(VI)栏存有足够的数据，波动指数低于2/9的产品就会被视为“稳定”(基准值可视需要动态调整)，而对于稳定的产品，其它爬行者程序都可以从中央数据库撷取相关的价格信息，而不需要再进一步搜寻。

下面参照图2及图3的流程图，说明中央爬行者程序与其它爬行者程序分别执行的作业。

当愈来愈多的销售信道加入时，因为减少搜寻互联网(Internet)而节省的时间与资源将会非常可观。

(4)管道式的搜寻与分析

对于市场上价格持续波动的产品，在决定或修改价格点以领先竞争者时，愈能接近市场状况而实时更新的厂商就愈有利；然而，根据目标网站与网络流量多寡，爬行者程序可能需要花费许多小时才完成一个完整的价格收集周期；而且如果必须在取得所有产品项目的价格信息后才能进行价格分析，那么对于特定项目而言，搜寻的努力将是徒劳无功。

为了确保价格收集可有效用于进一步的分析，可以采用一套分工切割的管道式程序，如此一来，在逐项取得价格资料后，就可以立即逐项进行价格的分析与更新。其中所述的管道式的搜寻与分析是在逐项取得价格资料后，立即逐项进行价格的分析与更新，以降低所有项目的总处理时间，并针对各个项目进行价格分析，对于具有时间敏感性的产品价格能够得到接近实时的市场状况。

图5a和图5b分别说明非管道式与管道式方法的搜寻(或价格收集)与分析情形：

非管道式搜寻与分析是等待全部分析项目之搜集完成后再进行一项一项逐一更新的方式，而管道式搜寻与分析采用一套分工切割的管道式程序，可立即逐项进行价格的分析与更新，以降低所有项目的总处理时间，并针对各个项目进行价格分析，对于具有时间敏感性的产品价格能够得到接近实时的市场状况。

如图所示，管道式方法不只能够缩短处理所有项目的时间，还可以尽早针对各个项目进行价格分析(项目1的时间为t1而不再是tn)。

(5)超级代理服务器

当爬行者程序试着从目标网站撷取信息时，就必须传送HTTP要求给网络服务器并等候响应。完成资料下载与处理程序必须视网络流量与存取的网站而定，大约需要数分钟至数小时；然而，由于某些网站已经采取反搜寻措施，在某特定时间内，若同一爬行者程序(依同一IP地址来辨别)不断在这些网站上撷取信息，中就会被网站拒绝任何网页要求。为了解决此问题，爬行者程序必须让网站以为这些网页要求，是随机而来自不同的客户端IP地址。介于网络客户端与服务器端之间的公共代理服务器可将爬行者程序的要求辗转送到网络服务器，而让网络服务器以为这些网页要求接源自公共代理服务器，因此，通过动态地选择代理服务器，爬行者程序就可以将被网站拒绝的机率降至最低。所以我们采用超级代理服务器(SPS)来简化此项作业。

超级代理服务器(SPS)主要负责(1)保存一份能够处理爬行者程序要求的公共代理服务器名单，(2)将爬行者程序的要求分配给这些代理服务器，并将响应回传给爬行者程序。超级代理服务器(SPS)包含两个模块：代理服务器管理程序(Proxy Server Manager，PSM)与代理服务器分配程序(Proxy ServerDispatcher，PSD)。代理服务器管理程序(PSM)与代理服务器分配程序(PSD)都可存取代理服务器集区(Proxy Server Pool，PSP)，而代理服务器集区(PSP)则用来储存经验证过的代理服务器的存取信息。

一开始先利用互联网(Internet)搜寻结果随机选择10部(或合理数量的)代理服务器并由代理服务器管理程序(PSM)输入代理服务器集区(PSP)。之后代理服务器管理程序(PSM)会定期检查集区并加以更新，如此一来，所有集区内的代理服务器都已就绪，以便接受经代理服务器分配程序(PSD)传递的爬行者程序的要求。代理服务器管理程序(PSM)会试着根据下列标准，来评估每部代理服务器的能力：

(a)正确性：

代理服务器管理程序(PSM)会比较通过代理服务器回传的网页与直接从目标网站回传的网页。只有回传网页没有错误的代理服务器，才有资格进入集区。

(b)响应速度：

依序由代理服务器管理程序(PSM)送出特定的HTTP要求给代理服务器，并分别纪录送出要求及收到响应的时间，如此一来，就可依照代理服务器处理此要求的速度加以分级。如果代理服务器的执行效能低于设定的基准值，而且在相同的更新周期内另有效能更佳的代理服务器，则效能不佳者就会被移除。

(c)网页压缩：

代理服务器管理程序(PSM)会通过代理服务器传送一项HTTP压缩要求，给已知有压缩功能的目标网站。如果一部代理服务器回传解压缩的网页给代理服务器管理程序(PSM)，则该部代理服务器就会从集区中被移除；也就是说，我们要选择的代理服务器，必须将解压缩工作留给网络客户端，否则就无法节省网络频宽。

当代理服务器从代理服务器集区(PSP)中被移除时，代理服务器管理程序(PSM)将根据上述评估标准，持续在互联网(Internet)上搜寻候补的代理服务器，直到找到新的合格代理服务器为止。之后合格者就会取代不合格的代理服务器。

收到爬行者程序的HTTP要求时，代理服务器分配程序(PSD)会循环地通过代理服务器集区(PSP)将此要求传送至随机选择的服务器。之后从目标网站回传的网页就会通过代理服务器分配程序(PSD)回传至爬行者程序。如果响应时间大于代理服务器管理程序(PSM)用来鉴定代理服务器是否合格的基准值，则代理服务器分配程序(PSD)会通知代理服务器管理程序(PSM)，以做好取代此代理服务器的准备。

如图4表示超级代理服务器(SPS)中的模块，以及爬行者程序、超级代理服务器(SPS)、公共代理服务器与目标网站之间的互动。

由上述说明可知，本发明爬行者程序除了收集竞争者的价格信息以外，还可以撷取供货商的产品供应信息，以便厂商补充存货。传统的供货模式在合约确定之前，厂商与供货商之间必须频繁的互动，但今日的供货商已经可以选择通过自己的网站来提供实时的价位与供货信息。只要设定爬行者程序后，就可以从这些网站收集相关信息，并自动分析收集到的资料，而线上零售商则可以更有效率地评估供货商，同时预备补充存货。

登入供货商的网站后，爬行者程序可针对每项产品执行下列作业，以便补充存货：

1、确定该项产品的制造商零件编号(MPN)或相关的关键词。

2、使用MPN或关键词在供货商网站上搜寻产品。

3、进入符合产品的网页，以收集价格与供货信息。

4、将收集到的信息储存于“项目-厂商表”，如下所示：

Mfr#	厂商	存货	订购中	ETA	价格1	价格10	价格50	QB
Mfr#	厂商	存货	订购中	ETA	价格1	价格10	价格50	QB	HDD2184	A	5	10	9/20/03	103.79	103.43	101.93	1-5，6-30
HDD2184	B	0	6	9/18/03	103.69	103.69	103.69		HDD2184	A	5	10	9/20/03	103.79	103.43	101.93	1-5，6-30
HDD2184	B	0	6	9/18/03	103.69	103.69	103.69		HDD2184	C	11	1	9/25/03	103.79	103.39	103.39	1-8，9-50

如表格中所示，提供产品“HDD2184”的供货商有三家(A，B和C)。以供货商A为例，他目前有5件存货，另外10件预期在9/20/2003(ETA)到货；所提供的量贩价格，一件的单位价格为103.79美元，当订单超过5件时，单位价格降至103.43美元，而订购超过30件时，每件的价格再降至101.93美元。“价格1”、“价格10”和“价格50”的字段，表示每张订单订购1件、10件与50件时的单位价格，而“QB”栏则是每位供货商量贩价的独特数量别。

我们也可以扩充爬行者程序，以自动筛选能够满足供货需求的供货商；举例来说，上列厂商A和C皆能满足“到9/20/03有10件HDD2184”的需求。在考量降低成本的前提下，根据目前的存货水准、市场状况与爬行者程序所收到及产生的信息，买方能够逐项拟定可达成补充存货目标的采购计划。

Claims

1、一种利用网络爬行者程序在网上进行价格收集的方法，包括以下步骤：

搜寻快捷方式，通过网络浏览器输入网址快捷方式来搜寻想要寻找的产品，此项快捷方式搜寻法能够降低整个搜寻周期的网络负载量，以大幅加速价格收集程序；

集中式的价格收集，其配置中央数据库与局部数据库供爬行者程序存取信息及分享信息，并利用一套中央爬行者程序来收集价格信息，其余多组爬行者程序在绝对需要时才进行搜寻，且只有中央爬行者程序可更新中央数据库，大幅减低分布式爬行者程序所下载的资料量，以减少搜寻互联网的时间与资源。

2、如权利要求1所述的利用网络爬行者程序在网上进行价格收集的方法，其中还包括：

下载压缩资料，爬行者程序采用超文件传输通讯协议(HTTP)封包压缩，以缩小网络服务器传送过来的资料封包，提高下载大量资料的效率，而不用增加额外的网络资源。

3、如权利要求1所述的利用网络爬行者程序在网上进行价格收集的方法，其中还包括：

管道式的搜寻与分析，在逐项取得价格资料后，可立即逐项进行价格的分析与更新，以降低所有项目的总处理时间，并针对各个项目进行价格分析，对于具有时间敏感性的产品价格能够得到接近实时的市场状况。

4、如权利要求1所述的利用网络爬行者程序在网上进行价格收集的方法，还包括：

超级代理服务器，负责保存一份能够处理爬行者程序要求的公共代理服务器名单及将爬行者程序的要求分配给这些代理服务器，并将响应回传给爬行者程序，以确保爬行者程序搜寻过程不中断，并将搜寻要求通过动态选出的公共代理服务器传送。

5、如权利要求1所述的利用网络爬行者程序在网上进行价格收集的方法，其中该爬行者程序除了收集竞争者的价格信息以外，进一步可撷取供货商的产品供应信息，并自动分析收集到的资料，使线上零售商可更有效率地评估供货商，同时预备补充存货。

6、如权利要求4所述的利用网络爬行者程序在网上进行价格收集的方法，其中超级代理服务器包含代理服务器管理程序(Proxy Server Manager，PSM)与代理服务器分配程序(Proxy Server Dispatcher，PSD)两个模块，代理服务器管理程序与代理服务器分配程序都可存取代理服务器集区(Proxy Server Pool，PSP)，而代理服务器集区则储存用来验证代理服务器的存取信息。