CN109670097A - 招投标相关网页爬取任务调度方法及系统 - Google Patents
招投标相关网页爬取任务调度方法及系统 Download PDFInfo
- Publication number
- CN109670097A CN109670097A CN201811481861.0A CN201811481861A CN109670097A CN 109670097 A CN109670097 A CN 109670097A CN 201811481861 A CN201811481861 A CN 201811481861A CN 109670097 A CN109670097 A CN 109670097A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- time
- daily
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Abstract
本发明涉及网络信息获取领域,具体涉及一种招投标相关网页爬取任务调度方法及系统,该系统包括:用户终端、总服务器和多台子服务器;所述用户终端用于用户关注、购买和查看对应企业网站上爬取的信息;所述总服务器用于获取企业网站日均访问人数、日访问时间记录信息、企业信息更新时间信息以及用户查看信息规律表,然后根据获取的所有信息生成分配模型,并根据生成的分配模型分配子服务器进行信息爬取。本方案适用于分别针对不同用户进行其关注信息的爬取。
Description
技术领域
本发明涉及网络信息获取领域,具体涉及一种招投标相关网页爬取任务调度方法及系统。
背景技术
网络爬虫(又称网页蜘蛛)为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。
但是,不管是传统爬虫还是聚焦爬虫,当需要访问的站点或网页数量较多时,单个机器或单个数据中心中蜘蛛的获取信息的能力将非常有限。这个时候就会需要使用到多个机器或多个数据中心的蜘蛛,来对大量的站点及网页进行爬取。现有使用多个机器或多个数据中心的蜘蛛时,蜘蛛任务的分配大多是将各个站点或各个需要抓取的页面任务,平均地进行分配,很多时候在信息还没有公布的时候便进行爬取,直至爬取到相关信息后才停止爬取,导致很多机器或数据中心蜘蛛做了很多无用功。且若访问的网站数据访问人数多,再加上不断的信息爬取,容易出现系统崩溃无法访问的现象,导致爬取失败等问题,且对于爬取的不同信息,用户需求迫切性并不一致,其查看时间也并不一致,若不对其进行区分并分别安排进行信息爬取,可能导致用户需求度并不高的信息先被爬取,而用户迫切度高的信息反而爬取不及时,给用户带来不好的体验。
发明内容
本发明目的在于提供一种招投标相关网页爬取任务调度方法,以解决现有网络爬虫爬取信息没有根据用户需求迫切性进行区分爬取导致重要信息爬取不及时的问题。
本发明提供的基础方案为:招投标相关网页爬取任务调度方法,包括如下步骤:
S1:用户注册登录并输入用户输入信息集,信息集包括关注企业名称和内容;
S2:根据用户输入的企业名称寻找对应企业网站日均访问人数、日访问时间记录信息以及企业信息更新时间信息;
S3:记录用户每天登录系统和查看信息的时间,生成用户查看信息规律表,用户查看信息规律表包括:每日登录时间规律、查看内容、查看每一个企业内容对应时间以及查看企业内容的先后排序;
S4:根据用户查看信息规律表、企业网站日均访问人数、日访问时间记录信息和企业信息更新时间信息生成分配模型,然后根据分配模型分配不同的子服务器进行信息爬取;其中,根据用户查看信息规律对每日登陆时间早的用户关注的企业名称和内容对应的企业网站信息优先进行爬取,同时还按照用户查看企业内容的先后排序对对应企业信息进行爬取。
本发明的优点在于:在步骤S1-S4中,依次对用户查看信息规律表、企业网站日均访问人数、日访问时间记录信息和企业信息更新时间信息等信息进行获取,由于用户若对信息获取的迫切度比较高,那么用户每日登陆时间可能就会比较早,优先对这些用户关注的信息进行爬取,与现有技术中对所有信息统一爬取相比,本方案在有限的子服务器能进行信息爬取的情况下优先对每日登陆时间早的用户关注的信息优先爬取,这样每日登陆时间晚的用户关注的信息便晚些再安排子服务器进行信息爬取,使得子服务器得到有效的利用,避免了子服务器盲目爬取还无法在用户查看前将用户需要查看信息爬取完成的问题。
另外,由于用户比较在意的信息会优先查看,按照用户查看企业内容的先后排序对对应企业信息进行爬取,便于用户能够及时获取其迫切想要知道的信息,增加用户使用体验感。
进一步,在步骤S3中,每日登录时间规律包括用户每天首次登录系统时间规律、用户每天二次登录系统时间规律和用户每天第三次登录系统时间规律;在步骤S5中,生成分配模型时,对同一用户关注的所有企业网站进行三种类型的划分,第一种类型为企业网站每天更新信息时间在用户每天首次登录系统时间前,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天首次登录系统时间期间;第二种类型为企业网站每天更新信息时间在用户每天首次登录系统时间和用户每天二次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天二次登录系统时间期间;第三种类型为企业网站每天更新信息时间在用户每天二次登录系统时间和用户每天第三次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天第三次登录系统时间期间。
本方案对用户每天首次登录系统时间规律、用户每天二次登录系统时间规律以及用户每天第三次登录系统时间规律进行采集,并根据企业网站每天更新信息时间将用户关注的所有企业网站进行三个爬取类型的划分,保证在企业网站更新信息内容后用户按照其每日登录时间规律登录系统时都能查看到想要查看的信息。
进一步,对同一用户关注的所有企业网站进行类型划分以后,对于属于相同类型的企业网站,按照用户查看企业内容的先后排序依次对比用户每日登录时间和其用户关注且常常浏览的企业网站对应的日访问时间记录信息;其中,日访问时间记录信息中记录了企业网站往常一天中访问人数高峰期和低谷期信息;然后确认在企业网站每天更新信息时间到用户每日登录时间之间的访问人数低谷期为最佳信息爬取时间,并在该最佳信息爬取时间内安排对应的子服务器进行招标信息和中标信息的爬取。
通过对企业网站每日访问人数变化规律进行统计,即对企业网站往常一天中访问人数高峰期和低谷期信息进行记录,并在确认的最佳信息爬取时间范围内进行信息爬取,减小爬取信息失败的可能性,加快爬取速度,避免同一个企业网站信息爬取时间过久而占用子服务器。
进一步,在确认最佳信息爬取时间后,若用户关注的多家企业网站最佳信息爬取时间预算相同,且多家企业网站对应的企业网站日均访问人数信息单获取的日均访问人数均相同,则按照用户查看企业内容的先后排序依次安排空闲的子服务器进行爬取。
对用户查看企业内容的先后排序依次安排空闲的子服务器进行爬取时,首先,用户先查看的信息其信息获取迫切度更高,所以优先进行爬取,其次,用户在查看信息时需要时间,若在用户查看前面信息时后面用户待查看的信息还没有爬取,那么在用户查看前一个信息时便还能对后面的信息进行爬取,尽量使得用户点击查看信息时都已经爬取对应信息。
进一步,若用户当天首次登录系统时间和用户查看信息规律表中记录的不一致,且用户当天首次登录系统时间在往常的用户每天首次登录系统时间之前,则根据该用户往常的用户查看信息规律表获取往常该用户首次登录系统时间与查看第一个企业内容时间之间的时间差值,同时获取该用户当天首次登录系统时间,并从用户当天首次登录系统时间开始安排子服务器开始从对应企业网站上爬取对应的招标信息或中标信息。
用户当天首次登录系统时间与往常用户每天首次登录系统时间不一致时,可能用户当天对相关信息获取迫切度比较高,这时便提前对这些信息进行爬取,且用户迫切度高时,可能在第一次登录没有看见信息后会在短时间内反复登录,这样即使在最初的时间差值内没有完成相关信息的爬取,在用户后续登录系统过程中,用户也能第一时间查看到。
针对上述招投标相关网页爬取任务调度方法,本方案还公开了一种招投标相关网页爬取任务调度系统,包括:用户终端、总服务器和多台子服务器;
所述用户终端用于用户关注、购买和查看对应企业网站上爬取的信息;
所述总服务器用于获取企业网站日均访问人数、日访问时间记录信息、企业信息更新时间信息以及用户查看信息规律表,然后根据获取的所有信息生成分配模型,并根据生成的分配模型分配子服务器进行信息爬取。
本方案中的分配模型是根据用户查看信息规律表、企业网站日均访问人数、日访问时间记录信息和企业信息更新时间信息等信息进行生成,便于进行信息爬取时能尽量满足所有用户需求,其中用户查看规律信息表能够反映用户对信息的迫切程度,比如用户查看信息的时间早晚便能反映用户对信息的迫切程度;企业网站日均访问人数便代表着关注该企业网站人数,同时也表示该企业网站中的信息获取可能会更加难,访问人数多时可能会导致网页无法加载,即爬取信息可能也会受到阻碍;而通过日访问时间记录信息便能够获取对应企业网站什么时候访问的人数比较多,什么时候访问的人数比较少,便于寻找最佳信息爬取时间;而用户查看信息规律表能够反映用户喜欢查看的信息以及查看信息的特点,便于知道用户的喜好。
附图说明
图1为本发明实施例一中一种招投标相关网页爬取任务调度系统的逻辑结构框图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例一
如图1所示,招投标相关网页爬取任务调度系统包括:用户终端、管理终端、总服务器和多台子服务器。子服务器和总服务器线路连接,用户终端和管理终端均和总服务器通过现有的WIFI模块进行网络通信,用户终端和管理终端均可以选用现有的手机或电脑。
一、用户终端
用户终端包括:
注册登录模块,用于用户进行信息注册和登录。
关注需求填写模块,用于用户输入自己关注的信息集,并将用户输入的信息集发送给总服务器。信息集包括用户想要关注和订阅的企业名称以及关注的信息内容关键词。
账户设置模块,用于用户对自己的个人信息进行填写设置。个人信息包括:姓名、联系方式和身份证号码等信息。
会员购买模块,用于用户购买会员,购买会员的用户才能查看爬取的中标信息和招标信息。
设置模块,用于用户进行密码修改和问题反馈。
信息搜索模块,用于用户进行招标信息搜索查看。
信息查看模块,用于对不同类型的招标信息进行查看、关注和订阅。
二、总服务器
总服务器包括:
数据库,用于存储总服务器生成和接收到的所有数据,并针对每一个用户建立了一个用户信息存储单元,便于分别对每一个用户对应的用户信息进行管理。
企业网站访问人数获取模块,用于从各个企业网站上获取该企业网站最近一年中的总访问人数,然后根据对应企业网站的近一年中的总访问人数计算其日均访问人数,之后根据每一家企业日均访问人数进行先后排序,生成企业网站日均访问人数信息单。企业网站日均访问人数信息单包括企业名称以及对应企业的日均访问人数,日均访问人数多的企业网站排在前,日均访问人数少的企业网站排在后。
企业网站访问人数记录模块,用于获取并记录每家企业网站每一天中每一个小时内其访问人数量,然后分别对每家企业网站每一天每一小时的访问人数生成随时间变化的折线图,然后分析每一家企业网站每一天访问人数高峰期到访问人数低谷期变化规律,然后判断同一家企业网站不同日期其访问人数高峰期到访问人数低谷期变化规律是否一致,若一致则生成该企业网站对应的日访问时间记录信息,若同一家企业网站不同日期其访问人数高峰期到访问人数低谷期变化规律不一致,则以周为单位分析对应企业网站周一到周日之间其不同日期访问人数高峰期到访问人数低谷期变化规律,并生成周访问时间记录信息。日访问时间记录信息包括往常一天中的企业网站访问人数高峰期和低谷期信息,周访问时间记录信息包括一周中每天访问人数变化信息、每天企业网站访问人数高峰期和低谷期信息、一周中周一至周日其访问人数变化规律信息以及访问人数高峰期和低谷期变化规律信息。
企业网站信息公布时间获取模块,用于获取企业网站每天更新信息时间,同时通过“招标”和“中标”等关键词寻找对应企业网站公布的网页信息,然后根据“公布时间”或“公开时间”等关键词爬取其中标公开时间,之后生成企业信息更新时间信息。本方案中的企业信息更新时间信息包括企业网站每天更新信息时间和中标公开信息时间。企业网站信息公布时间获取模块还用于将不同企业网站每天更新信息时间以天为单位的时间轴上进行标注,将同一时间更新信息的企业网站标注在同一个时间点,中标公开时间则标注在日历上,然后将标注的每天更新信息时间和中标公开时间生成时间信息记录表。
用户信息查阅规律获取模块,用于获取用户查看信息规律记录表。获取用户查看信息规律记录表时,先获取每一个用户在每天从注册登陆模块登陆查看信息的时间以及查看对应内容的时间,然后针对每一个用户生成一个用户查看信息规律记录表,每一个用户的用户查看信息规律表均包括:每日登录时间规律(或称用户习惯登录时间,包括用户每天首次登录系统时间规律、用户每天二次登录系统时间规律以及用户每天第三次登录系统时间规律)、查看内容、查看每一个企业内容对应时间以及查看企业内容的先后排序。
分配模型生成模块,用于根据企业网站日均访问人数信息单、日访问时间记录信息、周访问时间记录信息、时间信息记录表和用户查看信息规律表生成分配模型,并按照分配模型分配对应的子服务器执行信息爬取指令。
分配模型生成时,根据企业信息更新时间信息将用户关注的所有企业网站进行三种类型的划分。第一种类型为企业网站每天更新信息时间在用户每天首次登录系统时间前,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天首次登录系统时间期间;第二种类型为企业网站每天更新信息时间在用户每天首次登录系统时间和用户每天二次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间和用户每天二次登录系统时间期间;第三种类型为企业网站每天更新信息时间在用户每天二次登录系统时间和用户每天第三次登录系统时间,该企业网站信息爬取时间便是该企业网站每天更新信息时间和用户每天第三次登录系统时间期间。
对于属于相同类型的企业网站,按照用户查看企业内容的先后排序依次对比用户每日登录时间和其用户关注且常常浏览的企业网站(用户信息集中填写的企业名称以及用户查看信息规律表中记录的查看内容对应的企业网站)对应的日访问时间记录信息或周访问时间记录信息,并确认在企业网站每天更新信息时间(包括中标公开信息时间当天对应的企业网站每天更新信息时间)到用户每日登录时间之间的访问人数低谷期(称为最佳信息爬取时间),并在该最佳信息爬取时间内安排对应的子服务器进行招标信息和中标信息的爬取。
若用户关注的多家企业网站最佳信息爬取时间预算相同,且多家企业网站对应的企业网站日均访问人数信息单获取的日均访问人数均相同,则按照用户查看企业内容的先后排序依次安排空闲的子服务器进行爬取;若用户关注的多家企业网站最佳信息爬取时间预算相同,且多家企业网站对应的企业网站日均访问人数信息单获取的日均访问人数不同,则从企业网站日均访问人数信息单中企业网站先后排序顺序(访问人数多的排在前)以及用户查看企业内容的先后排序(用户先看的企业排在前)两个排序序列中优先安排爬取用户查看企业内容排在最前的一个企业网站,然后安排爬取企业网站日均访问人数信息单中企业网站排在前的企业网站,之后再安排爬取用户查看企业内容排在第二位的企业网站,然后安排爬取企业网站日均访问人数信息单中企业网站排在第二的企业网站,以此类推(由于同一家企业网站会在两个排序序列中均有,一旦一个企业网站已经被爬取,其在两个排序序列中的排序位置便失效,之后的爬取便不会再考虑该企业网站)。比如:同一个用户关注的A、B、C、D四个企业网站其最佳信息爬取时间在同一时间段,其在企业网站日均访问人数信息单中排列顺序为A-B-C-D;在用户查看信息规律表中四个企业网站的排列顺序为C-A-D-E,则优先安排C企业对应的企业网站信息爬取,然后是安排A企业对应的企业网站,之后安排D企业对应的企业网站,最后安排B企业对应的企业网站。
另外,若用户有一天登录系统时间和用户查看信息规律表中记录的并一样,比如往常用户每天首次登录系统时间比较晚,而有一天突然迫切的想要知道一个企业公开的招标信息或中标信息,所以这天用户首次登录系统的时间较往常都要早很多,而这时按照步骤一和步骤二的规则,即使企业网站更新信息时间在该用户首次登录系统以前,但由于企业更新信息时间到往常用户每天首次登录系统时间期间步骤二中确定出的访问人数低谷期并不在企业更新信息时间到该天用户首次登录系统时间之间,则会导致该用户关注且常常浏览的企业网站中公布的招标信息或中标信息便还没有进行爬取,这时,一旦用户当天首次登录系统时间在往常的用户每天首次登录系统时间之前,则根据该用户往常的用户首次登录系统时间与用户往常查看第一个企业网站上爬取的招标信息或中标信息时间之间的时间差值,同时获取该用户当天首次登录系统时间并从用户当天首次登录系统时间开始安排子服务器从对应企业网站上爬取对应的招标信息或中标信息,即时间差值内一段时间是获取企业网站招标信息和中标信息的时间。获取招标信息或中标信息时,根据该用户的用户查看信息记录表中的查看企业内容的先后排序对应对每一个企业网站信息爬取时间进行排序,即往常用户先查看的企业网站上爬取的信息在该次爬取中也是优先分配子服务器进行信息爬取。
三、子服务器
子服务器包括:
信息抓取模块,用于接收总服务器发送的信息爬取指令,然后在接收到该指令后到对应企业网站上进行招标信息或中标信息的爬取工作。
另外,针对上述招投标相关网页爬取任务调度系统,本实施例还提供了一种招投标相关网页爬取任务调度方法,该方法在本实施例中将以举例的方式进行说明,假设用户输入的信息集中表示自己想要关注甲公司和乙公司的招标信息,甲公司对应的企业网站每天早上九点进行信息的更新,每天均早上九点到十点这一个小时内访问人数最多,之后的时间段访问人数逐渐减小;乙公司对应的企业每天上午八点进行信息的更新,但每天上午八点到九点之间访问人数较少,九点到十一点之间访问人数均较多,其余时间访问人数一致。且甲公司的企业网站日均访问量多于乙公司,该用户习惯每天上午十一点查看是否有招标信息更新,之后便不再查看,每次查看时先查看甲公司对应招标信息再查看乙公司对应招标信息。
其具体实施步骤如下:
S1:用户填写信息集,该信息集包括填写的想要关注公司为甲公司和乙公司。
S2:总服务器获取该根据信息集获取甲公司和乙公司对应企业网站日均访问人数信息单、日访问时间记录信息以及企业信息更新时间信息。其中,获取的企业网站日均访问人数信息单中甲公司排在前,乙公司排在后;在从甲公司对应企业网站获取的日访问时间记录信息中记录了每天均早上九点到十点这一个小时内访问人数最多,之后的时间段访问人数逐渐减小的相关信息,而从乙公司对应企业网站上获取的日访问时间记录信息中记录了上午八点到九点之间访问人数较少,九点到十一点之间访问人数均较多,其余时间访问人数一致的相关信息。
S3:总服务器每天在甲公司和乙公司对应企业网站进行信息更新同时进行招标信息相关内容爬取。这样不管用户在哪个时间段查看,只要企业网站更新了信息,并信息爬取成功,用户便能够查看到对应的爬取信息。
S4:总服务器获取该用户每天登录系统并查看信息的时间,生成用户查看信息规律表。且用户查看信息规律表中记录了用户每天首次登录系统时间为上午十一点。
S5:总服务器根据企业网站日均访问人数信息单、日访问时间记录信息、时间信息记录表和用户查看信息规律表生成分配模型。分配模型生成时,首先判断这两个企业网站属于三种类型中的哪一种,由于两家企业网站每天信息更新时间均在用户每天首次登录系统时间前,所以两家企业网站判断结果均为第一种类型。其次判断两家企业的最佳信息爬取时间,判断结果为甲公司最佳访问时间为上午十点到十一点之间,乙公司最佳访问时间为上午八点到九点之间,两家企业的最佳信息爬取时间并不相同,则分别安排子服务器在两家企业对应的最佳信息爬取时间范围内进行信息爬取。
实施例二
实施例二与实施例一的区别在于,实施例二中总服务器还包括:
信息管理模块,用于从每一个用户的信息集中标记关注的企业名称以及用户访问爬取信息来源的对应企业名称(即企业网站上记录的该企业名称),然后统计所有注册用户中有多少个用户关注、订阅或查阅过该企业网站上爬取的信息,并生成用户关注信息记录表。
爬取信息调整模块,用于获取所有用户查看信息规律表中记录的用户每天首次登录系统时间,并进行先后排序后生成用户登录时间排布表,然后根据用户登录时间排布表以及用户关注信息记录表判断哪一个用户每天首次登录系统时间是最接近该企业网站每天更新时间,若该用户每天首次登录系统时间在该企业网站每天更新时间后,称这样的用户为该企业的接近用户,则该企业网站信息爬取的工作便是根据该接近用户对应的用户查看信息规律表中记录的信息执行分配模型,并在获取该企业网站对应的招标信息或中标信息后将不再对该企业网站进行同样信息的爬取,即该企业公布的招标信息或中标信息将在该企业网站更新信息时间和其接近用户每天首次登录系统时间期间进行爬取。
实施例二与实施例一相比,实施例二中避免了不同用户关注相同企业网站公布的招标信息和中标信息时,无需针对每一个用户重复进行同一个企业网站招标信息和中标信息的爬取。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (6)
1.招投标相关网页爬取任务调度方法,其特征在于:包括如下步骤:
S1:用户注册登录并输入用户输入信息集,信息集包括关注企业名称和内容;
S2:根据用户输入的企业名称寻找对应企业网站日均访问人数、日访问时间记录信息以及企业信息更新时间信息;
S3:记录用户每天登录系统和查看信息的时间,生成用户查看信息规律表,用户查看信息规律表包括:每日登录时间规律、查看内容、查看每一个企业内容对应时间以及查看企业内容的先后排序;
S4:根据用户查看信息规律表、企业网站日均访问人数、日访问时间记录信息和企业信息更新时间信息生成分配模型,然后根据分配模型分配不同的子服务器进行信息爬取;其中,根据用户查看信息规律对每日登陆时间早的用户关注的企业名称和内容对应的企业网站信息优先进行爬取,同时还按照用户查看企业内容的先后排序对对应企业信息进行爬取。
2.根据权利要求1所述的招投标相关网页爬取任务调度方法,其特征在于:在步骤S3中,每日登录时间规律包括用户每天首次登录系统时间规律、用户每天二次登录系统时间规律和用户每天第三次登录系统时间规律;在步骤S5中,生成分配模型时,对同一用户关注的所有企业网站进行三种类型的划分,第一种类型为企业网站每天更新信息时间在用户每天首次登录系统时间前,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天首次登录系统时间期间;第二种类型为企业网站每天更新信息时间在用户每天首次登录系统时间和用户每天二次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天二次登录系统时间期间;第三种类型为企业网站每天更新信息时间在用户每天二次登录系统时间和用户每天第三次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天第三次登录系统时间期间。
3.根据权利要求2所述的招投标相关网页爬取任务调度方法,其特征在于:对同一用户关注的所有企业网站进行类型划分以后,对于属于相同类型的企业网站,按照用户查看企业内容的先后排序依次对比用户每日登录时间和其用户关注且常常浏览的企业网站对应的日访问时间记录信息;其中,日访问时间记录信息中记录了企业网站往常一天中访问人数高峰期和低谷期信息;然后确认在企业网站每天更新信息时间到用户每日登录时间之间的访问人数低谷期为最佳信息爬取时间,并在该最佳信息爬取时间内安排对应的子服务器进行招标信息和中标信息的爬取。
4.根据权利要求3所述的招投标相关网页爬取任务调度方法,其特征在于:在确认最佳信息爬取时间后,若用户关注的多家企业网站最佳信息爬取时间预算相同,且多家企业网站对应的企业网站日均访问人数信息单获取的日均访问人数均相同,则按照用户查看企业内容的先后排序依次安排空闲的子服务器进行爬取。
5.根据权利要求4所述的招投标相关网页爬取任务调度方法,其特征在于:若用户当天首次登录系统时间和用户查看信息规律表中记录的不一致,且用户当天首次登录系统时间在往常的用户每天首次登录系统时间之前,则根据该用户往常的用户查看信息规律表获取往常该用户首次登录系统时间与查看第一个企业内容时间之间的时间差值,同时获取该用户当天首次登录系统时间,并从用户当天首次登录系统时间开始安排子服务器开始从对应企业网站上爬取对应的招标信息或中标信息。
6.招投标相关网页爬取任务调度系统,包括:用户终端、总服务器和多台子服务器;
所述用户终端用于用户关注、购买和查看对应企业网站上爬取的信息;
其特征在于:
所述总服务器用于获取企业网站日均访问人数、日访问时间记录信息、企业信息更新时间信息以及用户查看信息规律表,然后根据获取的所有信息生成分配模型,并根据生成的分配模型分配子服务器进行信息爬取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811481861.0A CN109670097B (zh) | 2018-12-05 | 2018-12-05 | 招投标相关网页爬取任务调度方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811481861.0A CN109670097B (zh) | 2018-12-05 | 2018-12-05 | 招投标相关网页爬取任务调度方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670097A true CN109670097A (zh) | 2019-04-23 |
CN109670097B CN109670097B (zh) | 2022-10-28 |
Family
ID=66143657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811481861.0A Active CN109670097B (zh) | 2018-12-05 | 2018-12-05 | 招投标相关网页爬取任务调度方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670097B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506795A (zh) * | 2020-04-20 | 2020-08-07 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144858A1 (en) * | 2011-01-21 | 2013-06-06 | Google Inc. | Scheduling resource crawls |
CN105117501A (zh) * | 2015-10-09 | 2015-12-02 | 广州神马移动信息科技有限公司 | 网络爬虫调度方法及应用其的网络爬虫系统 |
CN106909634A (zh) * | 2017-02-09 | 2017-06-30 | 苏州亮磊知识产权运营有限公司 | 基于条件的多媒体影像评论数据挖掘与处理方法及系统 |
-
2018
- 2018-12-05 CN CN201811481861.0A patent/CN109670097B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144858A1 (en) * | 2011-01-21 | 2013-06-06 | Google Inc. | Scheduling resource crawls |
CN105117501A (zh) * | 2015-10-09 | 2015-12-02 | 广州神马移动信息科技有限公司 | 网络爬虫调度方法及应用其的网络爬虫系统 |
CN106909634A (zh) * | 2017-02-09 | 2017-06-30 | 苏州亮磊知识产权运营有限公司 | 基于条件的多媒体影像评论数据挖掘与处理方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506795A (zh) * | 2020-04-20 | 2020-08-07 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
CN111506795B (zh) * | 2020-04-20 | 2023-09-15 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109670097B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100703917B1 (ko) | 위치별 대금지불식 검색 시스템의 위치 입찰 | |
US7054857B2 (en) | Use of extensible markup language in a system and method for influencing a position on a search result list generated by a computer network search engine | |
US7945522B2 (en) | Match-based employment system and method | |
US7277924B1 (en) | Method and mechanism for a portal website architecture | |
CN101432714B (zh) | 自动生成推荐链接的方法和设备 | |
US7552190B1 (en) | System and method for automated electronic notification and transaction execution | |
DE60038707T2 (de) | Internet-Schnittstellensystem | |
US20040158429A1 (en) | Method and system for classifying content and prioritizing web site content issues | |
CN1836437A (zh) | 为在线查号辅助业务收费的方法 | |
DE10235804A1 (de) | System und Verfahren für das Ermöglichen eines Mehrelementbietens für das Beeinflussen einer Position in einer Suchergebnisliste die durch eine Suchmaschine eines Computernetzes erzeugt wird | |
CN1679025A (zh) | 用于在计算机网络上对搜索结果进行基于拍卖的排名的系统和方法 | |
DE10235429A1 (de) | System und Verfahren für das Bereitstellen eines Orts- und Preisschutzes in einer Suchergebnisliste die durch eine Suchmaschine eines Computernetzes erzeugt wird | |
WO2003023563A2 (en) | Apparatus and method that modifies the ranking of the search results by the number of votes cast by end-users and advertisers | |
CN109670097A (zh) | 招投标相关网页爬取任务调度方法及系统 | |
CN109597927A (zh) | 招投标相关网页页面信息提取方法及系统 | |
CN108229993A (zh) | 一种数据处理的方法及装置 | |
DE102015008607A1 (de) | Adaptives Anpassen von Netzwerk-Anforderungen auf Client-Anforderungen in digitalen Netzwerken | |
CN111352949A (zh) | 一种信息显示方法及装置 | |
WO2002025469A2 (en) | Method and system for user-directed computer network directory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |