CN112084390B - 一种电商平台中利用自动结构化爬虫搜索的方法 - Google Patents
一种电商平台中利用自动结构化爬虫搜索的方法 Download PDFInfo
- Publication number
- CN112084390B CN112084390B CN202010931165.6A CN202010931165A CN112084390B CN 112084390 B CN112084390 B CN 112084390B CN 202010931165 A CN202010931165 A CN 202010931165A CN 112084390 B CN112084390 B CN 112084390B
- Authority
- CN
- China
- Prior art keywords
- link
- webpage
- search
- information contained
- links
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000003068 static effect Effects 0.000 claims abstract description 11
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 claims description 7
- 102100026983 Protein FAM107B Human genes 0.000 claims description 7
- 238000010845 search algorithm Methods 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 7
- 230000009193 crawling Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 241000239290 Araneae Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电商平台中利用自动结构化爬虫搜索的方法,包括如下步骤:S1.确定搜索主题A,确定链接集合B,储存链接集合B,并将链接集合B放入缓存队列;S2.分别确定链接集合B中每个链接打开网页的类型C,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;S3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息;S4.保存抓取的链接bk及链接bk包含的网页信息;本发明基于互联网对电商平台大数据进行整理收集,实现数据的快速搜索,解决现有技术中电商平台搜索、采集数据不方便的技术问题。
Description
技术领域
本发明涉及互联网技术领域领域,尤其涉及一种电商平台中利用自动结构化爬虫搜索的方法。
背景技术
现在,互联网上的信息很多。整个internet互联网就像一张庞大而有向的蜘蛛网,每个网页就像蜘蛛网中的节点,网页相互有指向其他网页的地址。所以当爬虫在抓取网页的时候,将会使用有向遍历的算法进行遍历。目前的电商平台,如京东、淘宝网、拼多多、苏宁易购等平台,当需要各项有价值的数据时,搜索和采集都比较麻烦。尤其是当利用某一个主题搜索采集信息时,步骤较为繁琐,频繁需要人工操作,无法自动化搜索采集信息。
因此,有必要对现有技术改进以解决上述技术问题。
发明内容
有鉴于此,本发明的目的之一在于提供一种电商平台中利用自动结构化爬虫搜索的方法,解决了现有技术中搜索及采集电商平台上的数据不方便的技术问题。具体而言通过以下技术方案实现:
本发明实施例的第一方面,提供了一种电商平台中利用自动结构化爬虫搜索的方法,包括如下步骤:
S1.确定搜索主题A,确定链接集合B,B={b1,b2……bn},b1,b2……bn表示不同的链接,且b1,b2……bn均与搜索主题A相关,n>0,n为自然数,储存链接集合B,并将链接集合B放入缓存队列,将链接集合B放入缓存队列可以使系统运算过程更加迅速;
S2.分别确定链接集合B中每个链接打开网页的类型C,网页的类型C分为静态网页和动态网页,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;
S3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息,确定抓取连接bk的策略的方法根据搜索主题A及用户的需求确定;
S4.保存抓取的链接bk及链接bk包含的网页信息;
所述步骤S3具体包括如下步骤:
S31.如果标记bk的C=0,抓取链接bk的策略为根据Shark Search算法和HITS算法抓取连接bk;
S32.如果标记bk的C=1,抓取连接bk的策略为异步加载。
进一步,所述步骤S32具体包括如下步骤:
S321.判断链接bk是否加密,如果加密将链接bk标记为D=1,如果没有加密将链接bk标记为D=0;
S322.根据链接bk是否加密对链接bk进行解析,获取链接bk包含的网页信息;
所述步骤S322具体包括如下步骤:
S3221.如果链接bk的标记为D=0,则直接通过解析器解析链接bk,获取链接bk包含的网页信息;
S3222.如果链接bk的标记为D=1,则对链接bk进行模拟人工操作,模拟人工操作后如果获取了链接bk包含的网页信息则生成E=1信号,如果仍未获取链接bk包含的网页信息则生成E=0信号;
S3223.如果生成E=0信号,则对链接bk进行嗅探操作,获取链接bk包含的网页信息。
进一步,所述步骤S31具体包括:
S311.根据Shark Search算法计算链接bi包含的网页信息与搜索主题A的相关性得分SIMbi,根据HITS算法计算链接集合B中每个链接的Hub值Hubbi和Authority值Authoritybi,n≥i>0,m为自然数;
S312.计算链接bi的综合值COMbi,COMbi=SIMbi+Hubbi+Authoritybi;
S313.重复步骤S311、S312,直至分别计算出链接集合B中每个链接的综合值,生成综合值集合COM;
S314.取综合值最大的m个链接,组成综合值最大链接集合BMAX,BMAX={bmax1,bmax2……bmaxm},BMAX∈B,n≥m>0;
S315.用户从BMAX中按照用户自定义的规则中选择出链接bk,用户自定义的规则可以是用户随机的选择,也可以是用户根据自己的喜好的选择,也可以是用户根据BMAX中链接的排序作出的选择。
进一步,所述步骤S315中,用户从BMAX中按照自定义的规则选择出链接bk的方式为从BMAX中选择综合值最大的连接bk,bk=MAX(BMAX),链接在BMAX中的排序方式为按照综合值的大小从大至小排列,在外接显示装置上显示的顺序也为优先显示综合值最大的链接。
进一步,所述步骤S4还包括建立链接bk的索引,保存索引,用户以后再寻找bk时可以根据索引迅速的定位链接bk。
进一步,所述电商平台中利用自动结构化爬虫搜索的方法,还包括步骤S5:重复步骤S1、S2、S3、S4,直至抓取j个链接,n≥j>0,j为自然数,即通过上述步骤可以获取并保存多个链接,用户可以获取多个链接中包含网页的信息。
进一步,所述步骤S322中,当链接bk为React、AngularJ S、vue搜索引擎时,自动将链接bk标记为D=1,自动确定链接bk为加密状态。
进一步,所述步骤S1、S2、S3、S4均采用.net语言编写,.net语言简单,可以实现复杂的功能,而且占用内存小,运算效率高。
本发明的积极有益的技术效果包括:利用爬虫自动搜索电商平台上的信息,可以方便的采集信息;通过对链接包含的网页进行分类,区分静态网页和动态网页,对两种类型的网页采用不同的搜索方式,实现电商平台在两种网页上信息的搜索和采集;采用.net语言编写整个系统,占用内存小,可以实现复杂的功能;本发明利用网络爬虫技术,通过自定义自动化的数据采集规则,批量采集电商品台上商品的规格参数、原价、成交价、运费、销量、店铺信息、客户评价、网址等信息,同时利用现有技术在实现免登陆、多目标爬取数据,针对爬取的数据进行了初步的筛选过滤,去掉无效信息,基于互联网模式对大规模数据整合采集进行快速收集整理;
本发明的其他有益效果将结合下文具体实施例进行进一步的说明。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种流程图;
图2为本发明实施例所提供的嗅探过程的结构图。
具体实施方式
实施例1:一种电商平台中利用自动结构化爬虫搜索的方法,如图1-2所示,包括如下步骤:
S1.确定搜索主题A,确定链接集合B,B={b1,b2……bn},b1,b2……bn表示不同的链接,且b1,b2……bn均与搜索主题A相关,n>0,n为自然数,储存链接集合B,并将链接集合B放入缓存队列,将链接集合B放入缓存队列可以使系统运算过程更加迅速,据提前设计对应网页的分析算法,分析过滤掉一些与搜索主题A无关的链接,存储下有效链接且将其放入将要抓取的缓存队列中;
S2.分别确定链接集合B中每个链接打开网页的类型C,网页的类型C分为静态网页和动态网页,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;
S3.采用特定的策略抓取链接bk,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,获取链接bk包含的网页信息,确定抓取连接bk的策略的方法根据搜索主题A及用户的需求确定;
S4.保存抓取的链接bk及链接bk包含的网页信息,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;
开始搜索后,获取传入链接的url,然后启动引擎对链接进行处理,首先判断链接打开的网页是否适合新网页的格式、结构等;如果不符合,使用分析器和解析器对链接进行处理,输出网页内容的结果;如果符合,再分析网页是静态页面还是动态页面,如果是静态页面可以直接通过解析器解析出网页的结果,如果是动态页面判断页面是否有加密,如果未加密也可以直接通过解析器解析出结果,如果加密了对链接进行模拟人工操作,模拟人工操作后如果链接可以被直接解析,则通过分析器和解析器解析该连接,如果仍然不能,则对链接进行嗅探处理,对经过嗅探处理后的链接在通过分析器和解析器解析出网页的结果信息。
所述步骤S3具体包括如下步骤:
S31.如果标记bk的C=0,抓取链接bk的策略为根据Shark Search算法和HITS算法抓取连接bk;
S32.如果标记bk的C=1,抓取连接bk的策略为异步加载,即站点服务器初次响应的数据仅仅是页面结构框架和异步执行的代码,加载完毕后,再次请求服务器拿到数据,通过编写对应的动态js完成加载爬取整个过程。并重复上述过程,直到达到系统的某一条件时停止。
本实施例中,所述步骤S32具体包括如下步骤:
S321.判断链接bk是否加密,如果加密将链接bk标记为D=1,如果没有加密将链接bk标记为D=0;
S322.根据链接bk是否加密对链接bk进行解析,获取链接bk包含的网页信息;
所述步骤S322具体包括如下步骤:
S3221.如果链接bk的标记为D=0,则直接通过解析器解析链接bk,获取链接bk包含的网页信息;
S3222.如果链接bk的标记为D=1,则对链接bk进行模拟人工操作,模拟人工操作后如果获取了链接bk包含的网页信息则生成E=1信号,如果仍未获取链接bk包含的网页信息则生成E=0信号;
S3223.如果生成E=0信号,则对链接bk进行嗅探操作,获取链接bk包含的网页信息,通过获取对应页面的数据包,读取离线包,然后通过设置的预先设置的规则信息,对离线数据包进行过滤清洗,剔除不符合规则的部分,再对过滤完成的数据包进行分析和拆解,获取到所需要的内容,并进行汇总统计,具体方式如图2所示,从网络上获取数据包,数据包信息传递至内核层,然后再传递至用户层,其中数据包经过包括NIC驱动、过滤器、统计引擎、转存引擎等处理,在处理过程中的缓冲文件,在内核层存储在内核缓冲区,在用户层储存在用户缓冲区,最后数据包中的信息分别在捕获应用程序、监视应用程序和存入应用程序对数据包的信息中运行。
本实施例中,所述步骤S31具体包括:
S311.根据Shark Search算法计算链接bi包含的网页信息与搜索主题A的相关性得分SIMbi,根据HITS算法计算链接集合B中每个链接的Hub值Hubbi和Authority值Authoritybi,n≥i>0,m为自然数,搜索确定bi时将基于搜索内容的Shark Search算法和基于链接结构的HITS算法相结合,提出一种新的网络爬虫算法,即SS-HITS算法,该算法不但可以减少基于内容算法的局部性问题和基于链接算法的主题漂移现象,而且提高了网络爬虫的页面回调率、查准率和主题相关度;
S312.计算链接bi的综合值COMbi,COMbi=SIMbi+Hubbi+Authoritybi;
S313.重复步骤S311、S312,直至分别计算出链接集合B中每个链接的综合值,生成综合值集合COM;
S314.取综合值最大的m个链接,组成综合值最大链接集合BMAX,BMAX={bmax1,bmax2……bmaxm},BMAX∈B,n≥m>0;
S315.用户从BMAX中按照用户自定义的规则中选择出链接bk,用户自定义的规则可以是用户随机的选择,也可以是用户根据自己的喜好的选择,也可以是用户根据BMAX中链接的排序作出的选择。
本实施例中,所述步骤S315中,用户从BMAX中按照自定义的规则选择出链接bk的方式为从BMAX中选择综合值最大的连接bk,bk=MAX(BMAX),链接在BMAX中的排序方式为按照综合值的大小从大至小排列,在外接显示装置上显示的顺序也为优先显示综合值最大的链接。
本实施例中,所述步骤S4还包括建立链接bk的索引,保存索引,用户以后再寻找bk时可以根据索引迅速的定位链接bk。
本实施例中,所述电商平台中利用自动结构化爬虫搜索的方法,还包括步骤S5:重复步骤S1、S2、S3、S4,直至抓取j个链接,n≥j>0,j为自然数,即通过上述步骤可以获取并保存多个链接,用户可以获取多个链接中包含网页的信息。
本实施例中,所述步骤S322中,当链接bk为React、AngularJ S、vue搜索引擎时,自动将链接bk标记为D=1,自动确定链接bk为加密状态,对于上述网站,可以通过模拟它的JS行为获得数据,或者更方便的方法是应用各平台的前端渲染支持库(Html Util、PhantomJS),这些渲染库带有JS引擎,运用好像真正在浏览器加载页面等待渲染完毕一样,全面的模拟人工去操作页面,把对机器的识别率降低。
本实施例中,所述步骤S1、S2、S3、S4均采用.net语言编写,.net语言简单,可以实现复杂的功能,而且占用内存小,运算效率高。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种电商平台中利用自动结构化爬虫搜索的方法,其特征在于,包括如下步骤:S1.确定搜索主题A,确定链接集合B,B={b1,b2……bn},b1,b2……bn表示不同的链接,且b1,b2……bn均与搜索主题A相关,n>0,n为自然数,储存链接集合B,并将链接集合B放入缓存队列;
S2.分别确定链接集合B中每个链接打开网页的类型C,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;
S3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息;
S4.保存抓取的链接bk及链接bk包含的网页信息;
所述步骤S3具体包括如下步骤:
S31.如果标记bk的C=0,抓取链接bk的策略为根据Shark Search算法和HITS算法抓取链接bk;
S32.如果标记bk的C=1,抓取链接bk的策略为异步加载;
所述步骤S32具体包括如下步骤:S321.判断链接bk是否加密,如果加密将链接bk标记为D=1,如果没有加密将链接bk标记为D=0;
S322.根据链接bk是否加密对链接bk进行解析,获取链接bk包含的网页信息;
所述步骤S322具体包括如下步骤:
S3221.如果链接bk的标记为D=0,则直接通过解析器解析链接bk,获取链接bk包含的网页信息;
S3222.如果链接bk的标记为D=1,则对链接bk进行模拟人工操作,模拟人工操作后如果获取了链接bk包含的网页信息则生成E=1信号,如果仍未获取链接bk包含的网页信息则生成E=0信号;
S3223.如果生成E=0信号,则对链接bk进行嗅探操作,获取链接bk包含的网页信息;
所述步骤S31具体包括:S311.根据Shark Search算法计算链接bi包含的网页信息与搜索主题A的相关性得分SIMbi,根据HITS算法计算链接集合B中每个链接Hub值Hubbi和Authority值Authoritybi,n≥i>0,m为自然数;
S312.计算链接bi的综合值COMbi,COMbi=SIMbi+Hubbi+Authoritybi;
S313.重复步骤S311、S312,直至分别计算出链接集合B中每个链接的综合值,生成综合值集合COM;
S314.取综合值最大的m个链接,组成综合值最大链接集合BMAX,BMAX={bmax1,
bmax2……bmaxm},BMAX∈B,n≥m>0;
S315.用户从BMAX中按照用户自定义的规则选择出链接bk;
还包括步骤S5:重复步骤S1、S2、S3、S4,直至抓取j个链接,n≥j>0,j为自然数,即通过上述步骤可以获取并保存多个链接,用户可以获取多个链接中包含网页的信息。
2.如权利要求1所述的电商平台中利用自动结构化爬虫搜索的方法,其特征在于:所述步骤S315中,用户从BMAX中按照用户自定义的规则选择出链接bk的方式为从BMAX中选择综合值最大的链接bk,bk=MAX(BMAX)。
3.如权利要求2所述的电商平台中利用自动结构化爬虫搜索的方法,其特征在于:所述步骤S4还包括建立链接bk的索引。
4.如权利要求3所述的电商平台中利用自动结构化爬虫搜索的方法,其特征在于,还包括步骤S5:重复步骤S1、S2、S3、S4,直至抓取j个链接,n≥j>0,j为自然数。
5.如权利要求4所述的电商平台中利用自动结构化爬虫搜索的方法,其特征在于:所述步骤S322中,当链接bk为React、AngularJ S、vue搜索引擎时,自动将链接bk标记为D=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010931165.6A CN112084390B (zh) | 2020-09-07 | 2020-09-07 | 一种电商平台中利用自动结构化爬虫搜索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010931165.6A CN112084390B (zh) | 2020-09-07 | 2020-09-07 | 一种电商平台中利用自动结构化爬虫搜索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084390A CN112084390A (zh) | 2020-12-15 |
CN112084390B true CN112084390B (zh) | 2024-03-19 |
Family
ID=73732048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010931165.6A Active CN112084390B (zh) | 2020-09-07 | 2020-09-07 | 一种电商平台中利用自动结构化爬虫搜索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084390B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076460A (zh) * | 2021-05-07 | 2021-07-06 | 北京华云安信息技术有限公司 | 页面数据爬取方法、装置、设备和计算机可读存储介质 |
CN113449168B (zh) * | 2021-07-14 | 2024-02-20 | 北京锐安科技有限公司 | 主题网页数据抓取方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561814A (zh) * | 2009-05-08 | 2009-10-21 | 华中科技大学 | 基于社会标注的主题爬虫系统 |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
CN104954234A (zh) * | 2015-05-19 | 2015-09-30 | 中国地质大学(北京) | 一种微博数据获取方法、装置及舆情分析方法 |
CN105956175A (zh) * | 2016-05-24 | 2016-09-21 | 考拉征信服务有限公司 | 网页内容爬取的方法和装置 |
CN106484895A (zh) * | 2016-10-21 | 2017-03-08 | 天津市普迅电力信息技术有限公司 | 基于多重分析的互联网信息精准爬取方法 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8539359B2 (en) * | 2009-02-11 | 2013-09-17 | Jeffrey A. Rapaport | Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic |
-
2020
- 2020-09-07 CN CN202010931165.6A patent/CN112084390B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561814A (zh) * | 2009-05-08 | 2009-10-21 | 华中科技大学 | 基于社会标注的主题爬虫系统 |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
CN104954234A (zh) * | 2015-05-19 | 2015-09-30 | 中国地质大学(北京) | 一种微博数据获取方法、装置及舆情分析方法 |
CN105956175A (zh) * | 2016-05-24 | 2016-09-21 | 考拉征信服务有限公司 | 网页内容爬取的方法和装置 |
CN106484895A (zh) * | 2016-10-21 | 2017-03-08 | 天津市普迅电力信息技术有限公司 | 基于多重分析的互联网信息精准爬取方法 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
Non-Patent Citations (1)
Title |
---|
The Crawling Strategy of Shark-Search Algorithm Based on Multi Granularity;Naiwen Liu,等;《Computer Science》;第41-44页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084390A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595583B (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
US20020055919A1 (en) | Method and system for gathering, organizing, and displaying information from data searches | |
CN112084390B (zh) | 一种电商平台中利用自动结构化爬虫搜索的方法 | |
US20020059333A1 (en) | Display text modification for link data items | |
US20100169301A1 (en) | System and method for aggregating and ranking data from a plurality of web sites | |
US8739024B2 (en) | Method and apparatus for processing world wide web page | |
US8359307B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
CN106790487A (zh) | 帮助信息的显示方法、装置及系统 | |
CN107844548A (zh) | 一种数据标签方法和装置 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN104281629A (zh) | 从网页中提取图片的方法、装置及客户端设备 | |
CN111444447A (zh) | 内容推荐页面的展现方法及装置 | |
CN116016365B (zh) | 一种加密流量下基于数据包长度信息的网页识别方法 | |
CN1308292A (zh) | 提供因特网拍卖信息的系统和方法及该方法的记录介质 | |
CN115544342A (zh) | 一种基于网站内容搜索引擎的方法及系统 | |
CN111680499B (zh) | 基于自然语言处理的物品应用分析方法及系统 | |
JP2011138441A (ja) | 関連するウェブページ内コンテンツを分類・整理し自由自在に再構成して表示する方法 | |
JP2003006221A (ja) | 予測分析型検索システム、予測分析型検索方法およびコンピュータプログラム | |
CN107463590A (zh) | 自动的对话阶段发现 | |
CN110825976A (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
CN112269619B (zh) | 一种基于大数据量的页面展示方法及装置 | |
CN113723720B (zh) | 页面浏览质量评估方法及装置 | |
CN113722631B (zh) | 页面合成方法及装置 | |
CN113190753B (zh) | 数据采集方法和装置、电子设备、计算机可读介质 | |
CN103365933B (zh) | 搜索结果显示系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |