CN113297450B - 基于模糊综合评价法的爬虫方法、系统、介质和电子设备 - Google Patents
基于模糊综合评价法的爬虫方法、系统、介质和电子设备 Download PDFInfo
- Publication number
- CN113297450B CN113297450B CN202110565937.3A CN202110565937A CN113297450B CN 113297450 B CN113297450 B CN 113297450B CN 202110565937 A CN202110565937 A CN 202110565937A CN 113297450 B CN113297450 B CN 113297450B
- Authority
- CN
- China
- Prior art keywords
- website
- crawler
- crawling
- crawled
- pools
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000009193 crawling Effects 0.000 claims abstract description 151
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 6
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 229910052731 fluorine Inorganic materials 0.000 description 3
- 125000001153 fluoro group Chemical group F* 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 235000021438 curry Nutrition 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013433 optimization analysis Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种基于模糊综合评价法的爬虫方法、系统、计算机可读介质和电子设备。该爬虫方法包括:基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内的相似度进行计算,得到多个所述网站爬虫池之间的相似度;根据访问请求,选择参考网站,并根据所述参考网站对应的所述网站爬虫池与其它所述网站爬虫池之间的相似度,对待爬取网站进行筛选;基于模糊综合评价法,对筛选后的所述待爬取网站对应的所述网站爬虫池的爬取推荐值进行计算,以由所述参考网站对应的所述网站爬虫池,根据筛选后的所述待爬取网站对应的所述网站爬虫池的爬取推荐值,对筛选后的所述待爬取网站进行爬取。
Description
技术领域
本申请涉及数据搜索技术领域,特别涉及一种基于模糊综合评价法的爬虫方法、系统、计算机可读介质和电子设备。
背景技术
网络爬虫(Web Crawler)是一种按照一定的规则,自动提取Web网页的应用程序或者脚本,工作原理是基于http协议中请求与相应机制。其优点在于,可以将整个网页的源代码完整爬取下来,访问者通过相关设备发送请求并传输url到目标服务器,目标服务器通过相关处理和优化分析后返回访问者所需信息,访问者得到相关html信息后可利用Beautiful Soup、正则表达式、Xpath等技术区获取到想要的网页固定信息。
爬虫技术是用于代替人工去获取互联网上各式各样的信息,小到如下载小说、图片,达到如获取网站模板,都可以使用爬虫。通常,这些内容是固定的,且有规律可循的,爬虫的功能就是替代曾经需要人去一项项检查和记录的工作,常见的爬虫是采取点对点的爬取策略,即爬取某个固定网站的固定数据,如视频网站的播放量、评论数量、评论内容等,获取单一的固定数据,不能较为全面的获取跟主题相关的内容,且爬虫类型和数量较少,无法获取多个网站的信息,并难以在短时间完成大量爬取工作。
因此,需要提供一种针对上述现有技术不足的改进技术方案。
发明内容
本申请的目的在于提供一种基于模糊综合评价法的爬虫方法和系统,以解决或缓解上述现有技术中存在的问题。
为了实现上述目的,本申请提供如下技术方案:
本申请提供了一种基于模糊综合评价法的爬虫方法,包括:步骤S101、基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内的相似度进行计算,得到多个网站爬虫池之间的相似度;步骤S102、根据访问请求,选择参考网站,并根据参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度,对待爬取网站进行筛选;步骤S103、基于模糊综合评价法,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,以由参考网站对应的网站爬虫池,根据筛选后的待爬取网站对应的网站爬虫池的爬取推荐值,对筛选后的待爬取网站进行爬取。
优选的,步骤S101包括:在预设周期内对构建的多个网站爬虫池对应的网站进行爬取,得到每个网站爬虫池对应的网站文本数据;基于词向量余弦算法,对多个网站爬虫池对应的多个网站文本数据,两两之间进行相似度计算,得到多个网站爬虫池之间的相似度。
优选的,步骤S102具体为:根据访问请求,选择参考网站,并根据参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度的高低,依次对待爬取网站进行筛选。
优选的,在步骤S102中,在对待爬取网站进行筛选时,响应于待爬取网站对应的网站爬虫池与参考网站对应的网站爬虫池之间的相似度低于预设相似度阈值,则放弃待爬取网站。
优选的,步骤S103具体为:基于模糊综合评价法,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,以由于参考网站对应的网站爬虫池,根据筛选后的待爬取网站对应的网站爬虫池的爬取推荐值的高低,依次对筛选后的待爬取网站进行爬取。
优选的,在步骤S103中,基于模糊综合评价法,根据筛选后的待爬取网站的爬取影响因素的爬取权重,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,其中,爬取影响因素表征对待爬取网站进行爬取时的影响参数;爬取权重表征爬取影响因素对爬取推荐值的影响力水平。
优选的,爬取影响因素包括:网站热度、历史请求失败率、用户评分、站点防爬强度、站点耐受能力、和站点爬取风险;其中,网站热度表征待爬取网站还该的价值信息量,历史请求失败率表征爬取待爬取网站的失败概率,用户评分表征用户对待爬取网站的爬取结果的满意程度,站点防爬强度表征待爬取网站的爬取难易程度,站点耐受能力表征待爬取网站能承受的访问量的大小,站点爬取风险表征待爬取网站是否允许进行爬取。
本申请实施例还提供一种基于模糊综合评价法的爬虫系统,包括:相似度单元,配置为基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内的相似度进行计算,得到多个网站爬虫池之间的相似度;筛选单元,配置为根据访问请求,选择参考网站,并根据参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度,对待爬取网站进行筛选;爬取单元,配置为基于模糊综合评价法,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,以由参考网站对应的网站爬虫池,根据筛选后的待爬取网站对应的网站爬虫池的爬取推荐值,对筛选后的待爬取网站进行爬取。
本申请实施例还提供一种计算机可读介质,其上存储有计算机程序,程序为如上述任一实施例的基于模糊综合评价法的爬虫方法。
本申请实施例还提供一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的程序,处理器执行程序时实现如上述任一实施例的基于模糊综合评价法的爬虫方法。
有益效果:
本申请实施例提供的技术方案,基于词向量余弦算法,对构建的网站爬虫池定期进行相似度计算,得到各网站爬虫池之间的相似度;根据访问请求选择的参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度,对待爬取网站进行筛选,然后在筛选后的待爬取网站中,基于模糊综合评价法,计算相对应的网站爬虫池的爬取推荐值,按照各个网站爬虫池的爬取推荐值的高低,依次对待爬取网站进行爬取。籍此,实现了对网站爬虫池的优化,有效提高了爬取效率,同时,使获得的爬取结果更准确、可信度更高。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。其中:
图1为根据本申请的一些实施例提供的基于模糊综合评价法的爬虫方法的流程示意图;
图2为根据本申请的一些实施例提供的基于模糊综合评价法的爬虫方法中步骤S101的流程示意图;
图3为根据本申请的一些实施例提供的一种基于模糊综合评价法的爬虫系统的结构示意图;
图4为根据本申请的一些实施例提供的相似度单元的结构示意图;
图5为根据本申请的一些实施例提供的电子设备的结构示意图;
图6为根据本申请的一些实施例提供的电子设备的硬件结构图。
具体实施方式
下面将参考附图并结合实施例来详细说明本申请。各个示例通过本申请的解释的方式提供而非限制本申请。实际上,本领域的技术人员将清楚,在不脱离本申请的范围或精神的情况下,可在本申请中进行修改和变型。例如,示为或描述为一个实施例的一部分的特征可用于另一个实施例,以产生又一个实施例。因此,所期望的是,本申请包含归入所附权利要求及其等同物的范围内的此类修改和变型。
在本申请的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请而不是要求本申请必须以特定的方位构造和操作,因此不能理解为对本申请的限制。本申请中使用的术语“相连”、“连接”、“设置”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接;可以是直接相连,也可以通过中间部件间接相连;可以是有线电连接、无线电连接,也可以是无线通信信号连接,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
示例性方法
图1为根据本申请的一些实施例提供的基于模糊综合评价法的爬虫方法的流程示意图;如图1所示,该基于模糊综合评价法的爬虫方法包括:
步骤S101、基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内进行相似度计算,得到多个网站爬虫池之间的相似度;
在本申请实施例中,一个网站对应一个网站爬虫池,在网站爬虫池中具有多个爬虫,每个爬虫的功能不同,以分别对不同类别(比如,军事、科技、汽车、情感等)的数据进行爬取;由于每个网站的运维是随时间变化的,通过定期对网站爬虫池之间的相似度进行计算,可以有效的保证网站爬虫池之间相似度的准确性,籍此,使得爬取的数据准确、可信。
图2为根据本申请的一些实施例提供的基于模糊综合评价法的爬虫方法中步骤S101的流程示意图;如图2所示,基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内进行相似度计算,得到多个网站爬虫池之间的相似度,包括:
步骤S111、在预设周期内对构建的多个网站爬虫池对应的网站爬虫进行爬取,得到每个网站爬虫池对应的网站文本数据;
在本申请实施例中,在对构建的多个网站爬虫池之间在预设周期内进行相似度计算时,通过定期爬取各网站爬虫池对应的网站的网站主页,获取网站主页数据,然后将获取的网站主页数据全部进行拼接,得到对应的网站文本数据。
步骤S121、基于词向量余弦算法,对多个网站爬虫池对应的多个网站文本数据,两两之间进行相似度计算,得到多个网站爬虫池之间的相似度。
在本申请实施例中,通过词向量余弦算法,对各网站爬虫池之间的相似度进行计算,实现各网站爬虫池对应的各待爬取网站之间的文本关联分析。具体的,通过各待爬取网站之间的网站文本数据中语句组成成分的关联性,实现各网站爬虫池之间的相似度计算。
在本申请实施例中,基于词向量余弦算法对各网站爬虫池之间进行相似度计算的模型如公式(1)所示,公式(1)如下:
其中,cosθ表示各网站爬虫池之间的相似度,A、B分别表示两个待爬取网站的网站文本数据中的词向量;Ai表示词向量A的第i个分量,i为正整数;Bi表示词向量B的第i个分量;n表示词向量的维度,n取值为正整数。比如,词向量A=(3,5,7,8),那么,A就是一个4维向量,即n=4,A1=3,A2=5,A3=7,A4=8,1≤i≤4,i为正整数。
在此,首先使用jieba分别对两个待爬取网站的网站文本数据分别进行分词,然后使用sklearn中的TfidfVectorizer类对网站文本数据进行向量化处理,得到TF-IDF(termfrequency–inverse document frequency,简称TF-IDF);最后,使用cosine_similarity类对对两个待爬取网站的关联性做余弦方法计算。
步骤S102、根据访问请求,选择参考网站,并根据参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度,对待爬取网站进行筛选;
在本申请实施例中,在预设周期内两个网站爬虫池之间的相似度即为该周期内两个对应的网站之间的相似度,将各网站爬虫池之间的相似度作为预设周期内各待爬取网站的相似度表,存入数据库。根据目标用户的访问请求中的关键信息(比如,搜索关键词等)选择一个对应的参考网站,比如,目标用户搜索视频,对应的参考网站选择为爱奇艺、优酷视频或哔哩哔哩等。然后,依据各待爬取网站的相似度表,对待爬取网站进行筛选,从而提高爬取效率,减少资源消耗。
在一具体的例子中,步骤S102具体为:根据访问请求,选择参考网站,并根据参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度的高度,依次对待爬取网站进行筛选。
在本申请实施例中,依据各待爬取网站的相似度表,对各待爬取网站的相似度按照从高到低进行排序,由参考网站对应的网站爬虫池首选对相似度高的待爬取网站进行爬取,然后再对相似度低的待爬取网站进行爬取,籍此,有效提高爬取效率,减少资源消耗。
在一应用场景中,在对待爬取网站进行筛选时,响应于待爬取网站对应的网站爬虫池与参考网站对应的网站爬虫池之间的相似度低于预设相似度阈值,则放弃待爬取网站。
在本申请实施例中,待爬取网站与参考网站之间的相似度低于预设相似度阈值,则说明在预设周期内,该待爬取网站与参考网站之间的话题不一致,该待爬取网站中基本不存在目标用户的搜索信息,对该待爬取网站进行爬取时获取不到相应的数据,因而,可直接放弃对该待爬取网站的爬取。
步骤S103、基于模糊综合评价法,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,以由参考网站对应的网站爬虫池,根据筛选后的待爬取网站对应的网站爬虫池的爬取推荐值,对筛选后的待爬取网站进行爬取。
在本申请实施例中,在基于模糊综合评价法,对筛选后的待爬取网站的爬取推荐值进行计算时,基于模糊综合评价法,根据筛选后的待爬取网站的爬取影响因素的爬取权重,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,其中,爬取影响因素表征对所示待爬取网站进行爬取时的影响参数;爬取权重表征爬取影响因素对所示爬取推荐值的影响力水平。
具体的,爬取影响因素包括:网站热度、历史请求失败率、用户评分、站点防爬强度、站点耐受能力、和站点爬取风险;其中,网站热度表征待爬取网站涵盖的价值信息量,历史请求失败率表征爬取待爬取网站的失败概率,用户评分表征用户对待爬取网站的爬取结果的满意程度,站点防爬强度表征待爬取网站的爬取难易程度,站点耐受能力表征待爬取网站能承受的访问量的大小,站点爬取风险表征待爬取网站是否允许进行爬取。
在本申请实施例中,在基于模糊综合评价法,对筛选后的待爬取网站的爬取推荐值进行计算时,分别对网站热度、历史请求失败率、用户评分、站点防爬强度、站点耐受能力、和站点爬取风险进行评分。
在本申请实施例中,在对筛选后的待爬取网站的爬取推荐值进行计算过程中,网站热度、用户评分、站点耐受能力均为正面爬取影响因素。网站热度评分越高,说明预设周期内社会普遍对该网站的关注度越高,该网站的信息流动更活跃,有研究价值的内容更多,因此更具有爬取价值。用户评分则是根据用户对该网站进行历史爬取的爬取结果满意度确定,满意度越高,用户评分越高,对该网站进行爬取则越能够获取有价值的信息。站点耐受能力越高,说明该网站的架构越好,能够承受的访问量越大,对该网站进行爬取时越不容易对其它用户造成困扰。
在对筛选后的待爬取网站的爬取推荐值进行计算过程中,历史请求失败率越高、站点防爬强度、站点爬取风险均为负面爬取影响因素。历史请求失败率越高,说明该网站在预设周期内的运维状况较差,对该网站进行爬取时,爬取失败的可能性较高,爬取失败次数越多则造成的资源浪费越多,在对筛选后的待爬取网站的爬取推荐值进行计算时,对网站历史请求失败率的评分随着历史请求失败率的增高而降低。站点的防护强度越高,就越南进行爬取,即站点防爬强度的评分随站点防护强度的增强而降低。站点爬取风险越高,则说明该网站越不适合爬取,对该网站进行爬取承担的风险越大。
在本申请实施例中,爬取权重反映的是不同的爬取影响因素在评价该网站及对应的网站爬虫池的过程中,对应的爬取推荐值大小的影响力。比如,学生奖学金评定时,给学生的打分需要考虑“成绩”和“参加课外活动的积极性”两个因素,假设“成绩”比“参加课外活动的积极性”更重要,则“成绩”的权重设定为0.8,“参加课外活动的积极性”的权重设定为0.2;最终学生是否获取奖学金的评分等于0.8与“成绩”的乘积,加上0.2与“参加课外活动的积极性”的乘积的和。
在本申请实施例中,网站热度、历史请求失败率、用户评分、站点防爬强度、站点耐受能力、和站点爬取风险分别用u1、u2、u3、u4、u5、u6来表示,对应的爬取权重分别用a1、a2、a3、a4、a5、a6。
则爬取影响因素的因素集为:
U={u1,u2,u3,u4,u5,u6}
其中,网站热度的评分u1=x1,x1∈(0,100];历史请求失败率的评分u2=100-x2,x2∈(0,100];用户评分的评分u3=x3,x3∈(0,100];站点防爬强度的评分u4=100-x4,x4∈(0,100];站点耐受能力的评分u5=x5,x5∈(0,100];站点爬取风险的评分u6=100-x6,x6∈(0,100]。其中,x1反映了网站热度的排名情况,排名越高,x1的值越大;x2反映了历史请求失败率的实际情况,历史请求失败率越高,x2的值越大;x3反映了用户评分反馈的实际值,用户评分反馈越高,x3的值越大;x4反映了站点防爬强度的高低,站点防爬强度越高,x4的取值越大;x5反映了站点耐受能力的高低,站点耐受能力越高,x5的取值越大;x6反映了站点爬取风险的高低,站点爬取风险越高,则x6的取值越大。
然后,基于层次分析法(Analytic Hierarchy Process,简称AHP)确定各爬取影响因素的爬取权重的权重集为:
A={a1、a2、a3、a4、a5、a6}
构造因素集U的判别矩阵为:
其中,判别矩阵反映了因素集中各因素两两之间的重要程度。
则权重集为:
A={0.1638,0.1464,0.3557,0.0752,0.1744,0.0845}
然后,建立备择集:
V={非常推荐、推荐、一般、不推荐、非常不推荐}
从爬取影响因素出发,对待爬取网站进行评价,得到该待爬取网站的爬取推荐值。具体的,对各爬取影响因素进行单因素评价,得到各爬取影响因素的单因素评价结果,然后,根据各爬取影响因素的单因素评价结果,基于模糊综合评价法,对待爬取网站的爬取推荐值进行计算。
在此,以站点防爬强度u4为例进行说明:对于待爬取网站的站点防爬强度u4,有m(m为正整数)个用户进行打分,则有m个u4值,其中,有s1个值隶属于区间(80,100],s2个值隶属于区间(60,80],s3个值隶属于区间(40,60],s4个值隶属于区间(20,40],s5个值隶属于区间(0,20],其中,s1、s2、s3、s4、s5的和等于m,且s1、s2、s3、s4、s5均为正整数。
则该待爬取网站的爬取影响因素——站点防爬强度u4的单因素评价结果为:
Y4q={y41,y42,y43,y44,y45}
对待爬取网站的六个爬取影响因素分别进行单因素评价后,得到待爬取网站的单因素评价矩阵Y。单因素评价矩阵Y如下:
Y=[Y1j、Y2j、Y3j、Y4j、Y5j]T
其中,j表示爬取影响因素的打分的隶属区间,
即:
构建中间变量矩阵B=A*Y,基于模糊综合评价法中的指数模型求解中间变量矩阵B,其中,指数模型如公式(2)所示。公式(2)如下:
基于归一化模型,对中间变量矩阵B进行归一化处理,其中,归一化模型如公式(3)所示。公式(3)如下:
构建备择集V对应的隶属度集合Q,令
T=Q1+Q2
其中,推荐值T越大,表明该待爬取网站越推荐爬取。
在本申请实施例中,爬取推荐值表征对应的待爬取网站是否适合被爬取,爬取推荐值越高,则该待爬取网站越适合被爬取,爬取后得到的结果越符合目标对象的访问请求。具体的,基于模糊综合评价法,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,以由参考网站对应的网站爬虫池,根据筛选后的待爬取网站对应的网站爬虫池的爬取推荐值的高低,依次对筛选后的待爬取网站进行爬取。籍此,进一步提高网站爬虫池的爬取效率,进一步减少资源消耗,使获得的爬取结果更准确、可信度更高。
在本申请实施例中,在获取目标用户的访问请求后,爬虫运行时,自动读取其网站爬虫池中的数据进行爬取,多个爬虫在队列控制下进行爬取,爬取得到的数据在队列控制下进行数据清洗。
在本申请实施例中,爬虫在爬取过程中,并不是按照广度有限或深度优先进行爬取,而是根据推荐值的高低对待爬取网站进行爬取,优先爬取推荐值较高的网站;此外,还可以首先运用各网站的自主过滤模式,然后在运用本申请方案进行爬取,即先通过调用各网站的搜索框进行初步搜索,然后再初步搜索结果中进行爬取,籍此,提高爬取准确度以及爬取效率。
在本申请实施例中,而对于具有极其严格的发爬措施以及加密措施,难以大规模快速获取数据的网站,可以将爬虫的分布式部署变成分布式响应模式,利用POST和GET特性构建数据API接口,并通过多台服务器加强运算力和解析力,实现数据远端获取,远端存储,调取使用的效果。
示例性系统
图3为根据本申请的一些实施例提供的一种基于模糊综合评价法的爬虫系统的结构示意图;如图3所示,该基于模糊综合评价法的爬虫系统包括:相似度单元301,配置为基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内的相似度进行计算,得到多个网站爬虫池之间的相似度;筛选单元302,配置为根据访问请求,选材参考网站,并根据参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度,对待爬取网站进行筛选;爬取单元303,配置为基于模糊综合评价法,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,以由参考网站对应的网站爬虫池,根据筛选后的待爬取网站对应的网站爬虫池的爬取推荐值,对筛选后的待爬取网站进行爬取。
图4为根据本申请的一些实施例提供的相似度单元的结构示意图;如图4所示,该相似度单元301包括:文本子单元311,配置为在预设周期内对构建的多个网站爬虫池对应的网站进行爬取,得到每个网站爬虫池对应的网站文本数据;相似度计算子单元321,配置为基于词向量余弦算法,对多个网站爬虫池对应的多个网站文本数据,两两之间进行相似度计算,得到多个网站爬虫池之间的相似度。
本申请实施例提供的基于模糊综合评价法的爬虫系统能够实现上述基于模糊综合评价法的爬虫方法中的各个过程,并达到相同的功能和效果,在此不再一一赘述。
示例性设备
图5为根据本申请的一些实施例提供的电子设备的结构示意图;如图5所示,该电子设备包括:
一个或多个处理器501;
计算机可读介质502,可以配置为存储一个或多个程序502,一个或多个处理器501执行一个或多个程序时,实现如下步骤:基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内的相似度进行计算,得到多个网站爬虫池之间的相似度;根据访问请求,选择参考网站,并根据参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度,对待爬取网站进行筛选;基于模糊综合评价法,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,以由参考网站对应的网站爬虫池,根据筛选后的待爬取网站对应的网站爬虫池的爬取推荐值,对筛选后的待爬取网站进行爬取。
图6为根据本申请的一些实施例提供的电子设备的硬件结构图;如图6所示,该电子设备的硬件结构可以包括:处理器601、通信接口602、计算机可读介质603和通信总线604;
其中,处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信;
可选地,通信接口602可以为通信模块的接口,如GSM模块的接口;
其中,处理器601具体可以配置为:基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内的相似度进行计算,得到多个网站爬虫池之间的相似度;根据访问请求,选择参考网站,并根据参考网站对应的网站爬虫池与其它网站爬虫池之间的相似度,对待爬取网站进行筛选;基于模糊综合评价法,对筛选后的待爬取网站对应的网站爬虫池的爬取推荐值进行计算,以由参考网站对应的网站爬虫池,根据筛选后的待爬取网站对应的网站爬虫池的爬取推荐值,对筛选后的待爬取网站进行爬取。
处理器可以是通用处理器,包括中央处理器(central processing unit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如:IPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如Ipad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如:iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可以将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器存储介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的基于模糊综合评价法的爬虫方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和涉及约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述得设备及系统实施例仅仅是示意性的,其中作为分离不见说明的单元可以使或者也可以不是物理上分开的,作为单元提示的不见可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上实施方式仅用于说明本申请实施例,而非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专业保护范围应由权利要求限定。
Claims (6)
1.一种基于模糊综合评价法的爬虫方法,其特征在于,包括:
步骤S101、基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内的相似度进行计算,得到多个所述网站爬虫池之间的相似度;其中,一个网站对应一个网站爬虫池,在网站爬虫池中具有多个爬虫,每个爬虫的功能不同,以分别对不同类别的数据进行爬取;
步骤S102、根据访问请求,选择参考网站,并根据所述参考网站对应的所述网站爬虫池与其它所述网站爬虫池之间的相似度的高低,依次对待爬取网站进行筛选;
步骤S103、基于模糊综合评价法,根据筛选后的所述待爬取网站的爬取影响因素的爬取权重,对筛选后的所述待爬取网站对应的所述网站爬虫池的爬取推荐值进行计算,以由所述参考网站对应的所述网站爬虫池,根据筛选后的所述待爬取网站对应的所述网站爬虫池的爬取推荐值的高低,依次对筛选后的所述待爬取网站进行爬取;所述爬取影响因素表征对所述待爬取网站进行爬取时的影响参数;所述爬取权重表征所述爬取影响因素对所述爬取推荐值的影响力水平;
其中,步骤S101包括:
在预设周期内对构建的多个所述网站爬虫池对应的网站进行爬取,得到每个所述网站爬虫池对应的网站文本数据;
基于词向量余弦算法,按照公式:
对多个所述网站爬虫池对应的多个所述网站文本数据,两两之间进行相似度计算,得到多个所述网站爬虫池之间的相似度;
式中,表示各网站爬虫池之间的相似度,、分别表示两个待爬取网站的网站文本数据中的词向量;表示词向量的第个分量,为正整数;表示词向量的第个分量;表示词向量的维度,取值为正整数。
2.根据权利要求1所述的基于模糊综合评价法的爬虫方法,其特征在于,在步骤S102中,在对所述待爬取网站进行筛选时,
响应于所述待爬取网站对应的所述网站爬虫池与所述参考网站对应的所述网站爬虫池之间的相似度低于预设相似度阈值,则放弃所述待爬取网站。
3.根据权利要求1所述的基于模糊综合评价法的爬虫方法,其特征在于,所述爬取影响因素包括:网站热度、历史请求失败率、用户评分、站点防爬强度、站点耐受能力、和站点爬取风险;其中,所述网站热度表征所述待爬取网站的价值信息量,所述历史请求失败率表征爬取所述待爬取网站的失败概率,所述用户评分表征所述用户对所述待爬取网站的爬取结果的满意程度,所述站点防爬强度表征所述待爬取网站的爬取难易程度,所述站点耐受能力表征所述待爬取网站能承受的访问量的大小,所述站点爬取风险表征所述待爬取网站是否允许进行爬取。
4.一种基于模糊综合评价法的爬虫系统,其特征在于,包括:
相似度单元,配置为基于词向量余弦算法,对构建的多个网站爬虫池之间在预设周期内的相似度进行计算,得到多个所述网站爬虫池之间的相似度;其中,一个网站对应一个网站爬虫池,在网站爬虫池中具有个爬虫,每个爬虫的功能不同,以分别对不同类别的数据进行爬取;
筛选单元,配置为根据访问请求,选择参考网站,并根据所述参考网站对应的所述网站爬虫池与其它所述网站爬虫池之间的相似度的高低,依次对待爬取网站进行筛选;
爬取单元,配置为基于模糊综合评价法,根据筛选后的所述待爬取网站的爬取影响因素的爬取权重,对筛选后的所述待爬取网站对应的所述网站爬虫池的爬取推荐值进行计算,以由所述参考网站对应的所述网站爬虫池,根据筛选后的所述待爬取网站对应的所述网站爬虫池的爬取推荐值的高低,依次对筛选后的所述待爬取网站进行爬取;所述爬取影响因素表征对所述待爬取网站进行爬取时的影响参数;所述爬取权重表征所述爬取影响因素对所述爬取推荐值的影响力水平;
其中,所述相似度单元,进一步配置为:
在预设周期内对构建的多个所述网站爬虫池对应的网站进行爬取,得到每个所述网站爬虫池对应的网站文本数据;
基于词向量余弦算法,按照公式:
对多个所述网站爬虫池对应的多个所述网站文本数据,两两之间进行相似度计算,得到多个所述网站爬虫池之间的相似度;
式中,表示各网站爬虫池之间的相似度,、分别表示两个待爬取网站的网站文本数据中的词向量;表示词向量的第个分量,为正整数;表示词向量的第个分量;表示词向量的维度,取值为正整数。
5.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序为如权利要求1-3任一所述的基于模糊综合评价法的爬虫方法。
6.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-3任一所述的基于模糊综合评价法的爬虫方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110565937.3A CN113297450B (zh) | 2021-05-24 | 2021-05-24 | 基于模糊综合评价法的爬虫方法、系统、介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110565937.3A CN113297450B (zh) | 2021-05-24 | 2021-05-24 | 基于模糊综合评价法的爬虫方法、系统、介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297450A CN113297450A (zh) | 2021-08-24 |
CN113297450B true CN113297450B (zh) | 2023-04-14 |
Family
ID=77324325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110565937.3A Active CN113297450B (zh) | 2021-05-24 | 2021-05-24 | 基于模糊综合评价法的爬虫方法、系统、介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297450B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113709247A (zh) * | 2021-08-30 | 2021-11-26 | 北京知道创宇信息技术股份有限公司 | 资源获取方法、装置、系统、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446160A (zh) * | 2016-09-26 | 2017-02-22 | 南京邮电大学 | 一种面向移动互联网自适应增量的内容聚合方法及系统 |
CN111882247A (zh) * | 2020-08-07 | 2020-11-03 | 成都理工大学 | 一种基于综合模糊评价模型的在线学习系统评价方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
CN101833587A (zh) * | 2010-05-28 | 2010-09-15 | 上海交通大学 | 网络视频搜索系统 |
US20140164380A1 (en) * | 2012-07-26 | 2014-06-12 | Dmitriy Pavlov | Method and apparatus for aggregating, extracting and presenting review and rating data |
CN106547824B (zh) * | 2016-09-29 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种爬取路径规划方法及装置 |
CN107704535A (zh) * | 2017-09-21 | 2018-02-16 | 广州大学 | 基于主题相似度的网页信息获取方法、装置及系统 |
US11126673B2 (en) * | 2019-01-29 | 2021-09-21 | Salesforce.Com, Inc. | Method and system for automatically enriching collected seeds with information extracted from one or more websites |
CN112579853A (zh) * | 2019-09-30 | 2021-03-30 | 顺丰科技有限公司 | 一种对爬取链接排序的方法、装置及存储介质 |
-
2021
- 2021-05-24 CN CN202110565937.3A patent/CN113297450B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446160A (zh) * | 2016-09-26 | 2017-02-22 | 南京邮电大学 | 一种面向移动互联网自适应增量的内容聚合方法及系统 |
CN111882247A (zh) * | 2020-08-07 | 2020-11-03 | 成都理工大学 | 一种基于综合模糊评价模型的在线学习系统评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113297450A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145216B (zh) | 网络舆情监控方法、装置及存储介质 | |
CN112632359B (zh) | 信息推荐方法、装置、电子设备和存储介质 | |
CN105051732B (zh) | 本地应用内容的排名 | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN106446005B (zh) | 因子分解模型 | |
US20160335263A1 (en) | Method and system for ranking search content | |
CN111813905B (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
US20140089322A1 (en) | System And Method for Ranking Creator Endorsements | |
CN103246681A (zh) | 一种搜索方法及装置 | |
US11061893B2 (en) | Multi-domain query completion | |
JP6232607B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
US20110208735A1 (en) | Learning Term Weights from the Query Click Field for Web Search | |
US20200201915A1 (en) | Ranking image search results using machine learning models | |
US20150347543A1 (en) | Federated search | |
CN103455411B (zh) | 日志分类模型的建立、行为日志分类方法及装置 | |
CN103713894A (zh) | 一种用于确定用户的访问需求信息的方法与设备 | |
CN111967914A (zh) | 基于用户画像的推荐方法、装置、计算机设备和存储介质 | |
US11934977B2 (en) | Dynamic and continuous onboarding of service providers in an online expert marketplace | |
CN109344246B (zh) | 一种电子问卷生成方法、计算机可读存储介质及终端设备 | |
CN113297450B (zh) | 基于模糊综合评价法的爬虫方法、系统、介质和电子设备 | |
CN111538930B (zh) | 一种首页显示方法及相关设备 | |
CN110609958A (zh) | 数据推送方法、装置、电子设备及存储介质 | |
US20170235835A1 (en) | Information identification and extraction | |
CN113010771B (zh) | 搜索引擎中的个性化语义向量模型的训练方法及装置 | |
CN111507758B (zh) | 一种基于语义分析的调研方法、装置、系统及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |