CN112084390B

CN112084390B - 一种电商平台中利用自动结构化爬虫搜索的方法

Info

Publication number: CN112084390B
Application number: CN202010931165.6A
Authority: CN
Inventors: 刘勇勤; 吴肖峻; 蓝文广; 邓铭武
Original assignee: Guangdong Saboway Information Technology Co ltd
Current assignee: Guangdong Saboway Information Technology Co ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2024-03-19
Anticipated expiration: 2040-09-07
Also published as: CN112084390A

Abstract

本发明公开了一种电商平台中利用自动结构化爬虫搜索的方法，包括如下步骤：S1.确定搜索主题A，确定链接集合B，储存链接集合B，并将链接集合B放入缓存队列；S2.分别确定链接集合B中每个链接打开网页的类型C，如果是静态网页将该链接标记C=0，如果是动态网页将该链接标记C=1；S3.采用特定的策略抓取链接bk，获取链接bk包含的网页信息；S4.保存抓取的链接bk及链接bk包含的网页信息；本发明基于互联网对电商平台大数据进行整理收集，实现数据的快速搜索，解决现有技术中电商平台搜索、采集数据不方便的技术问题。

Description

一种电商平台中利用自动结构化爬虫搜索的方法

技术领域

本发明涉及互联网技术领域领域，尤其涉及一种电商平台中利用自动结构化爬虫搜索的方法。

背景技术

现在，互联网上的信息很多。整个internet互联网就像一张庞大而有向的蜘蛛网，每个网页就像蜘蛛网中的节点，网页相互有指向其他网页的地址。所以当爬虫在抓取网页的时候，将会使用有向遍历的算法进行遍历。目前的电商平台，如京东、淘宝网、拼多多、苏宁易购等平台，当需要各项有价值的数据时，搜索和采集都比较麻烦。尤其是当利用某一个主题搜索采集信息时，步骤较为繁琐，频繁需要人工操作，无法自动化搜索采集信息。

因此，有必要对现有技术改进以解决上述技术问题。

发明内容

有鉴于此，本发明的目的之一在于提供一种电商平台中利用自动结构化爬虫搜索的方法，解决了现有技术中搜索及采集电商平台上的数据不方便的技术问题。具体而言通过以下技术方案实现：

本发明实施例的第一方面，提供了一种电商平台中利用自动结构化爬虫搜索的方法，包括如下步骤：

S1.确定搜索主题A，确定链接集合B，B={b1，b2……bn}，b1，b2……bn表示不同的链接，且b1，b2……bn均与搜索主题A相关，n＞0，n为自然数，储存链接集合B，并将链接集合B放入缓存队列，将链接集合B放入缓存队列可以使系统运算过程更加迅速；

S2.分别确定链接集合B中每个链接打开网页的类型C，网页的类型C分为静态网页和动态网页，如果是静态网页将该链接标记C=0，如果是动态网页将该链接标记C=1；

S3.采用特定的策略抓取链接bk，获取链接bk包含的网页信息，确定抓取连接bk的策略的方法根据搜索主题A及用户的需求确定；

S4.保存抓取的链接bk及链接bk包含的网页信息；

所述步骤S3具体包括如下步骤：

S31.如果标记bk的C=0，抓取链接bk的策略为根据Shark Search算法和HITS算法抓取连接bk；

S32.如果标记bk的C=1，抓取连接bk的策略为异步加载。

进一步，所述步骤S32具体包括如下步骤：

S321.判断链接bk是否加密，如果加密将链接bk标记为D=1，如果没有加密将链接bk标记为D=0；

S322.根据链接bk是否加密对链接bk进行解析，获取链接bk包含的网页信息；

所述步骤S322具体包括如下步骤：

S3221.如果链接bk的标记为D=0，则直接通过解析器解析链接bk，获取链接bk包含的网页信息；

S3222.如果链接bk的标记为D=1，则对链接bk进行模拟人工操作，模拟人工操作后如果获取了链接bk包含的网页信息则生成E=1信号，如果仍未获取链接bk包含的网页信息则生成E=0信号；

S3223.如果生成E=0信号，则对链接bk进行嗅探操作，获取链接bk包含的网页信息。

进一步，所述步骤S31具体包括：

S311.根据Shark Search算法计算链接bi包含的网页信息与搜索主题A的相关性得分SIMbi，根据HITS算法计算链接集合B中每个链接的Hub值Hubbi和Authority值Authoritybi，n≥i＞0，m为自然数；

S312.计算链接bi的综合值COMbi，COMbi=SIMbi+Hubbi+Authoritybi；

S313.重复步骤S311、S312，直至分别计算出链接集合B中每个链接的综合值，生成综合值集合COM；

S314.取综合值最大的m个链接，组成综合值最大链接集合BMAX，BMAX={bmax1，bmax2……bmaxm}，BMAX∈B，n≥m＞0；

S315.用户从BMAX中按照用户自定义的规则中选择出链接bk，用户自定义的规则可以是用户随机的选择，也可以是用户根据自己的喜好的选择，也可以是用户根据BMAX中链接的排序作出的选择。

进一步，所述步骤S315中，用户从BMAX中按照自定义的规则选择出链接bk的方式为从BMAX中选择综合值最大的连接bk，bk=MAX（BMAX），链接在BMAX中的排序方式为按照综合值的大小从大至小排列，在外接显示装置上显示的顺序也为优先显示综合值最大的链接。

进一步，所述步骤S4还包括建立链接bk的索引，保存索引，用户以后再寻找bk时可以根据索引迅速的定位链接bk。

进一步，所述电商平台中利用自动结构化爬虫搜索的方法，还包括步骤S5：重复步骤S1、S2、S3、S4，直至抓取j个链接，n≥j＞0，j为自然数，即通过上述步骤可以获取并保存多个链接，用户可以获取多个链接中包含网页的信息。

进一步，所述步骤S322中，当链接bk为React、AngularJ S、vue搜索引擎时，自动将链接bk标记为D=1，自动确定链接bk为加密状态。

进一步，所述步骤S1、S2、S3、S4均采用.net语言编写，.net语言简单，可以实现复杂的功能，而且占用内存小，运算效率高。

本发明的积极有益的技术效果包括：利用爬虫自动搜索电商平台上的信息，可以方便的采集信息；通过对链接包含的网页进行分类，区分静态网页和动态网页，对两种类型的网页采用不同的搜索方式，实现电商平台在两种网页上信息的搜索和采集；采用.net语言编写整个系统，占用内存小，可以实现复杂的功能；本发明利用网络爬虫技术，通过自定义自动化的数据采集规则，批量采集电商品台上商品的规格参数、原价、成交价、运费、销量、店铺信息、客户评价、网址等信息，同时利用现有技术在实现免登陆、多目标爬取数据，针对爬取的数据进行了初步的筛选过滤，去掉无效信息，基于互联网模式对大规模数据整合采集进行快速收集整理；

本发明的其他有益效果将结合下文具体实施例进行进一步的说明。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种流程图；

图2为本发明实施例所提供的嗅探过程的结构图。

具体实施方式

实施例1：一种电商平台中利用自动结构化爬虫搜索的方法，如图1-2所示，包括如下步骤：

S1.确定搜索主题A，确定链接集合B，B={b1，b2……bn}，b1，b2……bn表示不同的链接，且b1，b2……bn均与搜索主题A相关，n＞0，n为自然数，储存链接集合B，并将链接集合B放入缓存队列，将链接集合B放入缓存队列可以使系统运算过程更加迅速，据提前设计对应网页的分析算法，分析过滤掉一些与搜索主题A无关的链接，存储下有效链接且将其放入将要抓取的缓存队列中；

S3.采用特定的策略抓取链接bk，根据一定的搜索策略从队列中选择下一步要抓取的网页URL，获取链接bk包含的网页信息，确定抓取连接bk的策略的方法根据搜索主题A及用户的需求确定；

S4.保存抓取的链接bk及链接bk包含的网页信息，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；

开始搜索后，获取传入链接的url，然后启动引擎对链接进行处理，首先判断链接打开的网页是否适合新网页的格式、结构等；如果不符合，使用分析器和解析器对链接进行处理，输出网页内容的结果；如果符合，再分析网页是静态页面还是动态页面，如果是静态页面可以直接通过解析器解析出网页的结果，如果是动态页面判断页面是否有加密，如果未加密也可以直接通过解析器解析出结果，如果加密了对链接进行模拟人工操作，模拟人工操作后如果链接可以被直接解析，则通过分析器和解析器解析该连接，如果仍然不能，则对链接进行嗅探处理，对经过嗅探处理后的链接在通过分析器和解析器解析出网页的结果信息。

所述步骤S3具体包括如下步骤：

S32.如果标记bk的C=1，抓取连接bk的策略为异步加载，即站点服务器初次响应的数据仅仅是页面结构框架和异步执行的代码,加载完毕后,再次请求服务器拿到数据,通过编写对应的动态js完成加载爬取整个过程。并重复上述过程，直到达到系统的某一条件时停止。

本实施例中，所述步骤S32具体包括如下步骤：

所述步骤S322具体包括如下步骤：

S3223.如果生成E=0信号，则对链接bk进行嗅探操作，获取链接bk包含的网页信息，通过获取对应页面的数据包，读取离线包，然后通过设置的预先设置的规则信息，对离线数据包进行过滤清洗，剔除不符合规则的部分，再对过滤完成的数据包进行分析和拆解，获取到所需要的内容，并进行汇总统计，具体方式如图2所示，从网络上获取数据包，数据包信息传递至内核层，然后再传递至用户层，其中数据包经过包括NIC驱动、过滤器、统计引擎、转存引擎等处理，在处理过程中的缓冲文件，在内核层存储在内核缓冲区，在用户层储存在用户缓冲区，最后数据包中的信息分别在捕获应用程序、监视应用程序和存入应用程序对数据包的信息中运行。

本实施例中，所述步骤S31具体包括：

S311.根据Shark Search算法计算链接bi包含的网页信息与搜索主题A的相关性得分SIMbi，根据HITS算法计算链接集合B中每个链接的Hub值Hubbi和Authority值Authoritybi，n≥i＞0，m为自然数，搜索确定bi时将基于搜索内容的Shark Search算法和基于链接结构的HITS算法相结合,提出一种新的网络爬虫算法,即SS-HITS算法,该算法不但可以减少基于内容算法的局部性问题和基于链接算法的主题漂移现象,而且提高了网络爬虫的页面回调率、查准率和主题相关度；

S312.计算链接bi的综合值COMbi，COMbi=SIMbi+Hubbi+Authoritybi；

本实施例中，所述步骤S315中，用户从BMAX中按照自定义的规则选择出链接bk的方式为从BMAX中选择综合值最大的连接bk，bk=MAX（BMAX），链接在BMAX中的排序方式为按照综合值的大小从大至小排列，在外接显示装置上显示的顺序也为优先显示综合值最大的链接。

本实施例中，所述步骤S4还包括建立链接bk的索引，保存索引，用户以后再寻找bk时可以根据索引迅速的定位链接bk。

本实施例中，所述电商平台中利用自动结构化爬虫搜索的方法，还包括步骤S5：重复步骤S1、S2、S3、S4，直至抓取j个链接，n≥j＞0，j为自然数，即通过上述步骤可以获取并保存多个链接，用户可以获取多个链接中包含网页的信息。

本实施例中，所述步骤S322中，当链接bk为React、AngularJ S、vue搜索引擎时，自动将链接bk标记为D=1，自动确定链接bk为加密状态，对于上述网站,可以通过模拟它的JS行为获得数据，或者更方便的方法是应用各平台的前端渲染支持库(Html Util、PhantomJS),这些渲染库带有JS引擎,运用好像真正在浏览器加载页面等待渲染完毕一样，全面的模拟人工去操作页面，把对机器的识别率降低。

本实施例中，所述步骤S1、S2、S3、S4均采用.net语言编写，.net语言简单，可以实现复杂的功能，而且占用内存小，运算效率高。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种电商平台中利用自动结构化爬虫搜索的方法，其特征在于，包括如下步骤：S1.确定搜索主题A，确定链接集合B，B＝{b1，b2……bn}，b1，b2……bn表示不同的链接，且b1，b2……bn均与搜索主题A相关，n＞0，n为自然数，储存链接集合B，并将链接集合B放入缓存队列；

S2.分别确定链接集合B中每个链接打开网页的类型C，如果是静态网页将该链接标记C＝0，如果是动态网页将该链接标记C＝1；

S3.采用特定的策略抓取链接bk，获取链接bk包含的网页信息；

S4.保存抓取的链接bk及链接bk包含的网页信息；

所述步骤S3具体包括如下步骤：

S31.如果标记bk的C＝0，抓取链接bk的策略为根据Shark Search算法和HITS算法抓取链接bk；

S32.如果标记bk的C＝1，抓取链接bk的策略为异步加载；

所述步骤S32具体包括如下步骤：S321.判断链接bk是否加密，如果加密将链接bk标记为D＝1，如果没有加密将链接bk标记为D＝0；

所述步骤S322具体包括如下步骤：

S3221.如果链接bk的标记为D＝0，则直接通过解析器解析链接bk，获取链接bk包含的网页信息；

S3222.如果链接bk的标记为D＝1，则对链接bk进行模拟人工操作，模拟人工操作后如果获取了链接bk包含的网页信息则生成E＝1信号，如果仍未获取链接bk包含的网页信息则生成E＝0信号；

S3223.如果生成E＝0信号，则对链接bk进行嗅探操作，获取链接bk包含的网页信息；

所述步骤S31具体包括：S311.根据Shark Search算法计算链接bi包含的网页信息与搜索主题A的相关性得分SIMbi，根据HITS算法计算链接集合B中每个链接Hub值Hubbi和Authority值Authoritybi，n≥i＞0，m为自然数；

S312.计算链接bi的综合值COMbi，COMbi＝SIMbi+Hubbi+Authoritybi；

S314.取综合值最大的m个链接，组成综合值最大链接集合BMAX，BMAX＝{bmax1，

bmax2……bmaxm}，BMAX∈B，n≥m＞0；

S315.用户从BMAX中按照用户自定义的规则选择出链接bk；

还包括步骤S5：重复步骤S1、S2、S3、S4，直至抓取j个链接，n≥j＞0，j为自然数，即通过上述步骤可以获取并保存多个链接，用户可以获取多个链接中包含网页的信息。

2.如权利要求1所述的电商平台中利用自动结构化爬虫搜索的方法，其特征在于：所述步骤S315中，用户从BMAX中按照用户自定义的规则选择出链接bk的方式为从BMAX中选择综合值最大的链接bk，bk＝MAX(BMAX)。

3.如权利要求2所述的电商平台中利用自动结构化爬虫搜索的方法，其特征在于：所述步骤S4还包括建立链接bk的索引。

4.如权利要求3所述的电商平台中利用自动结构化爬虫搜索的方法，其特征在于，还包括步骤S5：重复步骤S1、S2、S3、S4，直至抓取j个链接，n≥j＞0，j为自然数。

5.如权利要求4所述的电商平台中利用自动结构化爬虫搜索的方法，其特征在于：所述步骤S322中，当链接bk为React、AngularJ S、vue搜索引擎时，自动将链接bk标记为D＝1。