CN105956004A - 一种基于url分析模型的移动用户上网行为分析方法及装置 - Google Patents

一种基于url分析模型的移动用户上网行为分析方法及装置 Download PDF

Info

Publication number
CN105956004A
CN105956004A CN201610248722.8A CN201610248722A CN105956004A CN 105956004 A CN105956004 A CN 105956004A CN 201610248722 A CN201610248722 A CN 201610248722A CN 105956004 A CN105956004 A CN 105956004A
Authority
CN
China
Prior art keywords
url
webpage
theme
link
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610248722.8A
Other languages
English (en)
Inventor
窦钰景
简宋全
李青海
邹立斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Original Assignee
Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jing Dian Computing Machine Science And Technology Ltd filed Critical Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority to CN201610248722.8A priority Critical patent/CN105956004A/zh
Publication of CN105956004A publication Critical patent/CN105956004A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于URL分析模型的移动用户上网行为分析方法及装置,该装置包括下载模块、网页分析模块、URL与主题相关性判定模块、排序模块和匹配模块。与现有技术比较本发明的有益效果在于:本发明提供的一种基于URL分析模型的移动用户上网行为分析方法及装置,实现了基于URL分析的用户上网行为分析,通过使用主题爬虫形成一个映射表,再用用户上网行为产生的URL与映射表进行匹配并归为相应的类别,这样能够将爬虫的工作提前到开发之前,减少系统后期的工作量。另外,针对一般主题爬虫单单利用PageRank算法会出现主题漂移的不足,在进行URL排序之前,通过进行主题相关性判定,从而在不显著增加算法复杂度的基础上能够减少主题的偏移程度。

Description

一种基于URL分析模型的移动用户上网行为分析方法及装置
技术领域
本发明涉及主题爬虫技术领域,尤其涉及一种基于URL分析模型的移动用户上网行为分析方法及装置。
背景技术
随着互联网2.0的到来,移动终端成了我们生活的一部分,这为运营商积累了庞大的用户上网行为。有效地利用这些上网行为,为用户推送他们感兴趣的业务,可以在改善用户体验的同时,提高运营商的竞争力。在对移动互联网用户上网行为的处理方法中,可以对用户的上网行为产生的URL进行增量式爬虫,对爬取的网页进行分析后再与运营商的业务进行匹配,但是这种方法对爬虫的性能要求很高,实现繁琐,系统后期的工作量大。
鉴于上述缺陷,本发明创作者经过长时间的研究和试验,最终获得了本发明。
发明内容
本发明的目的在于提供一种基于URL分析模型的移动用户上网行为分析方法及装置用以克服上述技术缺陷。
为实现上述目的,本发明采用的技术方案在于:
一方面提供了一种基于URL分析模型的移动用户上网行为分析方法,该方法包括以下步骤:
步骤S1,对网页进行下载;
步骤S2,对下载的网页进行预处理和信息抽取;
步骤S3,对抽取出来的所有有效链接进行主题相关性判定;
步骤S4,对与主题相关的URL根据它们PageRank值的大小进行排序,同时建立相应的URL与主题的映射表;
步骤S5,将用户上网行为产生的URL与所述映射表进行匹配,匹配成功则返回相应的关键字作为用户标签,并将所述用户标签输出。
较佳的,所述步骤S2中,所述对下载的网页进行预处理具体包括:
编码转换:对网页内容进行编码转换工作,将其他种类的编码类型转换成GBK形式的类型,同时将繁体字转换成简体字;
CSS处理:从网上抽取网页中相关的CSS,JS以及Title,Meta等信息;
DOM解析:根据网页HTML标签以及JS等信息构造DOM分析树并为后续网页分析提供分析依据。
较佳的,所述步骤S2中,所述信息抽取具体包括:标题、正文、链接等信息的抽取,生成摘要,以及对网页的分类。
较佳的,所述步骤S3具体包括:对抽取出来的链接进行内容判定,如果链接含锚文本则直接将锚文本作为该链接的内容,否则以链接所在的位置为基准,取链接附近上下文作为链接内容,将链接内容与关键字集进行匹配,匹配成功就将其归为与主题相关,否则就归为与主题不相关。
又一方面提供了一种基于URL分析模型的移动用户上网行为分析装置,该装置包括:
下载模块,用于对网页进行下载;
网页分析模块,用于对下载的网页进行预处理和信息抽取;
URL与主题相关性判定模块,用于对抽取出来的所有有效链接进行主题相关性判定;
排序模块,用于对与主题相关的URL根据它们PageRank值的大小进行排序,同时建立相应的URL与主题的映射表;
匹配模块,用于将用户上网行为产生的URL与映射表进行匹配,匹配成功则返回相应的关键字作为用户标签,并将用户标签输出。
较佳的,所述下载模块包括:
DNS解析单元,用于给DNS解析提供更大的缓存和更多的查询线程;
Host控制单元,用于防止抓取端在短时间内大量访问同一主机下的页面,造成封掉IP;
下载单元,用于通过HTTP协议与Web服务器进行通信,采用socket方式对网页进行下载。
较佳的,所述网页分析模块包括:
预处理单元,用于对下载的网页进行预处理;
信息抽取单元,用于对下载的网页进行信息抽取。
较佳的,所述URL与主题相关性判定模块包括:
链接内容确定单元,用于对抽取出来的链接进行内容判定,如果链接含锚文本则直接将锚文本作为该链接的内容,否则以链接所在的位置为基准,取链接附近上下文作为链接内容;
相关性判定单元,用于将链接内容与关键字集进行匹配,匹配成功就将其归为与主题相关,否则就归为与主题不相关。
较佳的,所述排序模块包括:
PageRank值计算单元,用于对与主题相关的URL进行PageRank值计算;
排序单元,用于根据URL的PageRank值进行排序,值越大,越快被抓取,同时建立相应的URL与主题的映射表。
较佳的,所述匹配模块包括:
查询匹配单元,用于对用户上网行为产生的URL与映射表进行匹配,匹配成功则返回相应的用户标签,否则认为该URL为业务不相干URL;
输出单元,用于将所述用户标签输出。
与现有技术比较本发明的有益效果在于:本发明提供的一种基于URL分析模型的移动用户上网行为分析方法及装置,实现了基于URL分析的用户上网行为分析,通过使用主题爬虫形成一个映射表,再用用户上网行为产生的URL与映射表进行匹配并归为相应的类别,这样能够将爬虫的工作提前到开发之前,减少系统后期的工作量。
另外,针对一般主题爬虫单单利用PageRank算法会出现主题漂移的不足,在进行URL排序之前,通过进行主题相关性判定,从而在不显著增加算法复杂度的基础上能够减少主题的偏移程度。
附图说明
图1为本发明提供的一种基于URL分析模型的移动用户上网行为分析方法的流程图;
图2为本发明提供的一种基于URL分析模型的移动用户上网行为分析装置的功能框图;
图3为下载模块的功能框图;
图4为网页分析模块的功能框图;
图5为URL与主题相关性判定模块的功能框图;
图6为排序模块的功能框图;
图7为匹配模块的功能框图。
具体实施方式
为便于进一步理解本发明的技术内容,下面结合附图对本发明作进一步说明。
实施例一
如图1所示,为本发明提供的一种基于URL分析模型的移动用户上网行为分析方法的流程图,该方法包括:
步骤S1,对网页进行下载。
具体的,通过HTTP协议与Web服务器进行通信,在防止抓取端在短时间内大量访问同一主机下页面的情况下采用socket方式对网页进行下载。
步骤S2,对下载的网页进行预处理和信息抽取。
具体的,对下载的网页进行预处理,具体包括:编码转换:对网页内容进行编码转换工作,将其他种类的编码类型转换成GBK形式的类型,同时将繁体字转换成简体字;CSS处理:从网上抽取网页中相关的CSS,JS以及Title,Meta等信息;DOM解析:根据网页HTML标签以及JS等信息构造DOM分析树并为后续网页分析提供分析依据。对网页进行信息抽取。包括标题、正文、链接等信息的抽取,生成摘要,以及对网页的分类。
步骤S3,对抽取出来的所有有效链接进行主题相关性判定。
具体的,对抽取出来的链接进行内容判定,如果链接含锚文本则直接将锚文本作为该链接的内容,否则以链接所在的位置为基准,取链接附近上下文作为链接内容,将链接内容与关键字集进行匹配,匹配成功就将其归为与主题相关,否则就归为与主题不相关。
步骤S4,对与主题相关的URL根据它们PageRank值的大小进行排序,同时建立相应的URL与主题的映射表。
具体的,对与主题相关的URL进行PageRank值计算。根据URL的PageRank值进行排序,值越大,越快被抓取,同时建立相应的URL与主题的映射表。
步骤S5,将用户上网行为产生的URL与映射表进行匹配,匹配成功则返回相应的关键字作为用户标签,并将用户标签输出。
具体的,对用户上网行为产生的URL与映射表进行匹配,匹配成功则返回相应的用户标签,否则认为该URL为业务不相干URL,将用户标签输出。
实施例二
如图2所示,为本发明提供的一种基于URL分析模型的移动用户上网行为分析装置的功能框图。一种基于URL分析模型的移动用户上网行为分析装置,该装置包括:下载模块10、网页分析模块20、URL与主题相关性判定模块30、排序模块40和匹配模块50。其中,下载模块10用于对网页进行下载。网页分析模块20,用于对下载的网页进行预处理和信息抽取。URL与主题相关性判定模块30用于对抽取出来的所有有效链接进行主题相关性判定。排序模块40用于对与主题相关的URL根据它们PageRank值的大小进行排序,同时建立相应的URL与主题的映射表。匹配模块50用于将用户上网行为产生的URL与映射表进行匹配,匹配成功则返回相应的关键字作为用户标签,并将用户标签输出。
如图3所示,为下载模块的功能框图。下载模块10包括:DNS解析单元101、Host控制单元102和下载单元103。DNS解析单元101,用于给DNS解析提供更大的缓存和更多的查询线程。Host控制单元102,用于防止抓取端在短时间内大量访问同一主机下的页面,造成类似于拒绝服务攻击的效果而封掉IP。其基本策略是某一时刻保证只有一个抓取线程访问某一特定主机,并且在一定时间内不会再次访问。下载单元103,用于通过HTTP协议与Web服务器进行通信,采用socket方式对网页进行下载。具体的,采用socket方式下载的网络编程模型主要有同步IO、非阻塞IO、异步IO。同步IO采用每一线程对应每一连接,编程简单,且性能随着CPU个数的增加而呈线性增加,但单个CPU的扩展性差,随着连接的增多线程的切换将是一个很大的开销。非阻塞IO性能较之同步IO有一定提高,适合中等规模的网络应用。异步IO是操作系统专门为之优化的一种模式,具有扩展性强、性能优越的特点。可以根据需要,选择相应的网络编程模型。
如图4所示,为网页分析模块的功能框图。网页分析模块20包括:预处理单元201和信息抽取单元202。预处理单元201,用于对下载的网页进行预处理,具体包括:编码转换:对网页内容进行编码转换工作,将其他种类的编码类型转换成GBK形式的类型,同时将繁体字转换成简体字;CSS处理:从网上抽取网页中相关的CSS,JS以及Title,Meta等信息;DOM解析:根据网页HTML标签以及JS等信息构造DOM分析树并为后续网页分析提供分析依据。信息抽取单元202,用于对下载的网页进行信息抽取。包括标题、正文、链接等信息的抽取,生成摘要,以及对网页的分类。
如图5所示,为URL与主题相关性判定模块的功能框图。URL与主题相关性判定模块30包括:链接内容确定单元301和相关性判定单元302。链接内容确定单元301,用于对抽取出来的链接进行内容判定,如果链接含锚文本则直接将锚文本作为该链接的内容,否则以链接所在的位置为基准,取链接附近上下文作为链接内容。相关性判定单元302,用于将链接内容与关键字集进行匹配,匹配成功就将其归为与主题相关,否则就归为与主题不相关。
如图6所示,为排序模块的功能框图。排序模块40包括:PageRank值计算单元401和排序单元402。PageRank值计算单元401,用于对与主题相关的URL进行PageRank值计算。具体的,一个网页的PageRank值取决于它的入链数及网页的质量,例如,指向网页D的有网页A、B、C,设PR(i)为网页i的PageRank值,L(i)为网页i的链接数,q为阻尼系数,一般取值为0.85,则PageRank值的计算公式为其中网页A、B、…、N指向网页X,q为阻尼系数。排序单元402,用于根据URL的PageRank值进行排序,值越大,越快被抓取,同时建立相应的URL与主题的映射表。
如图7所示,为匹配模块的功能框图。匹配模块50包括:查询匹配单元501和输出单元502。查询匹配单元501,用于对用户上网行为产生的URL与映射表进行匹配,匹配成功则返回相应的用户标签,否则认为该URL为业务不相干URL。输出单元502,用于将用户标签输出。
本发明提供的一种基于URL分析模型的移动用户上网行为分析方法及装置,实现了基于URL分析的用户上网行为分析,通过使用主题爬虫形成一个映射表,再用用户上网行为产生的URL与映射表进行匹配并归为相应的类别,这样能够将爬虫的工作提前到开发之前,减少系统后期的工作量。另外,针对一般主题爬虫单单利用PageRank算法会出现主题漂移的不足,在进行URL排序之前,通过进行主题相关性判定,从而在不显著增加算法复杂度的基础上能够减少主题的偏移程度。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (10)

1.一种基于URL分析模型的移动用户上网行为分析方法,其特征在于,该方法包括以下步骤:
步骤S1,对网页进行下载;
步骤S2,对下载的网页进行预处理和信息抽取;
步骤S3,对抽取出来的所有有效链接进行主题相关性判定;
步骤S4,对与主题相关的URL根据它们PageRank值的大小进行排序,同时建立相应的URL与主题的映射表;
步骤S5,将用户上网行为产生的URL与所述映射表进行匹配,匹配成功则返回相应的关键字作为用户标签,并将所述用户标签输出。
2.根据权利要求1所述的一种基于URL分析模型的移动用户上网行为分析方法,其特征在于,
所述步骤S2中,所述对下载的网页进行预处理具体包括:
编码转换:对网页内容进行编码转换工作,将其他种类的编码类型转换成GBK形式的类型,同时将繁体字转换成简体字;
CSS处理:从网上抽取网页中相关的CSS,JS以及Title,Meta等信息;
DOM解析:根据网页HTML标签以及JS等信息构造DOM分析树并为后续网页分析提供分析依据。
3.根据权利要求1所述的一种基于URL分析模型的移动用户上网行为分析方法,其特征在于,
所述步骤S2中,所述信息抽取具体包括:标题、正文、链接等信息的抽取,生成摘要,以及对网页的分类。
4.根据权利要求1所述的一种基于URL分析模型的移动用户上网行为分析方法,其特征在于,
所述步骤S3具体包括:对抽取出来的链接进行内容判定,如果链接含锚文本则直接将锚文本作为该链接的内容,否则以链接所在的位置为基准,取链接附近上下文作为链接内容,将链接内容与关键字集进行匹配,匹配成功就将其归为与主题相关,否则就归为与主题不相关。
5.一种基于URL分析模型的移动用户上网行为分析装置,其特征在于,该装置包括:
下载模块,用于对网页进行下载;
网页分析模块,用于对下载的网页进行预处理和信息抽取;
URL与主题相关性判定模块,用于对抽取出来的所有有效链接进行主题相关性判定;
排序模块,用于对与主题相关的URL根据它们PageRank值的大小进行排序,同时建立相应的URL与主题的映射表;
匹配模块,用于将用户上网行为产生的URL与映射表进行匹配,匹配成功则返回相应的关键字作为用户标签,并将用户标签输出。
6.根据权利要求5所述的一种基于URL分析模型的移动用户上网行为分析装置,其特征在于,所述下载模块包括:
DNS解析单元,用于给DNS解析提供更大的缓存和更多的查询线程;
Host控制单元,用于防止抓取端在短时间内大量访问同一主机下的页面,造成封掉IP;
下载单元,用于通过HTTP协议与Web服务器进行通信,采用socket方式对网页进行下载。
7.根据权利要求5所述的一种基于URL分析模型的移动用户上网行为分析装置,其特征在于,所述网页分析模块包括:
预处理单元,用于对下载的网页进行预处理;
信息抽取单元,用于对下载的网页进行信息抽取。
8.根据权利要求5所述的一种基于URL分析模型的移动用户上网行为分析装置,其特征在于,所述URL与主题相关性判定模块包括:
链接内容确定单元,用于对抽取出来的链接进行内容判定,如果链接含锚文本则直接将锚文本作为该链接的内容,否则以链接所在的位置为基准,取链接附近上下文作为链接内容;
相关性判定单元,用于将链接内容与关键字集进行匹配,匹配成功就将其归为与主题相关,否则就归为与主题不相关。
9.根据权利要求5所述的一种基于URL分析模型的移动用户上网行为分析装置,其特征在于,所述排序模块包括:
PageRank值计算单元,用于对与主题相关的URL进行PageRank值计算;
排序单元,用于根据URL的PageRank值进行排序,值越大,越快被抓取,同时建立相应的URL与主题的映射表。
10.根据权利要求5所述的一种基于URL分析模型的移动用户上网行为分析装置,其特征在于,所述匹配模块包括:
查询匹配单元,用于对用户上网行为产生的URL与映射表进行匹配,匹配成功则返回相应的用户标签,否则认为该URL为业务不相干URL;
输出单元,用于将所述用户标签输出。
CN201610248722.8A 2016-04-20 2016-04-20 一种基于url分析模型的移动用户上网行为分析方法及装置 Pending CN105956004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610248722.8A CN105956004A (zh) 2016-04-20 2016-04-20 一种基于url分析模型的移动用户上网行为分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610248722.8A CN105956004A (zh) 2016-04-20 2016-04-20 一种基于url分析模型的移动用户上网行为分析方法及装置

Publications (1)

Publication Number Publication Date
CN105956004A true CN105956004A (zh) 2016-09-21

Family

ID=56917778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610248722.8A Pending CN105956004A (zh) 2016-04-20 2016-04-20 一种基于url分析模型的移动用户上网行为分析方法及装置

Country Status (1)

Country Link
CN (1) CN105956004A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562966A (zh) * 2017-10-23 2018-01-09 郑州大学 用于网页链接检索排序的基于智能学习的优化系统及方法
CN110912861A (zh) * 2018-09-18 2020-03-24 北京数安鑫云信息技术有限公司 一种深度追踪团伙攻击行为的ai检测方法和装置
CN112579853A (zh) * 2019-09-30 2021-03-30 顺丰科技有限公司 一种对爬取链接排序的方法、装置及存储介质
CN116383029A (zh) * 2023-06-06 2023-07-04 和元达信息科技有限公司 一种基于小程序的用户行为标签生成方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655868A (zh) * 2009-09-03 2010-02-24 中国人民解放军信息工程大学 网络数据挖掘方法、网络数据推送方法及设备
CN104462241A (zh) * 2014-11-18 2015-03-25 北京锐安科技有限公司 基于url中锚文字和周边文本的人口属性分类方法及装置
US20150220499A1 (en) * 2014-02-06 2015-08-06 Vojin Katic Generating preview data for online content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655868A (zh) * 2009-09-03 2010-02-24 中国人民解放军信息工程大学 网络数据挖掘方法、网络数据推送方法及设备
US20150220499A1 (en) * 2014-02-06 2015-08-06 Vojin Katic Generating preview data for online content
CN104462241A (zh) * 2014-11-18 2015-03-25 北京锐安科技有限公司 基于url中锚文字和周边文本的人口属性分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈振等: "一种基于关联分类方法的Web用户兴趣预测", 《微机发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562966A (zh) * 2017-10-23 2018-01-09 郑州大学 用于网页链接检索排序的基于智能学习的优化系统及方法
CN107562966B (zh) * 2017-10-23 2020-10-30 郑州大学 用于网页链接检索排序的基于智能学习的优化系统及方法
CN110912861A (zh) * 2018-09-18 2020-03-24 北京数安鑫云信息技术有限公司 一种深度追踪团伙攻击行为的ai检测方法和装置
CN112579853A (zh) * 2019-09-30 2021-03-30 顺丰科技有限公司 一种对爬取链接排序的方法、装置及存储介质
CN116383029A (zh) * 2023-06-06 2023-07-04 和元达信息科技有限公司 一种基于小程序的用户行为标签生成方法和装置
CN116383029B (zh) * 2023-06-06 2024-04-26 和元达信息科技有限公司 一种基于小程序的用户行为标签生成方法和装置

Similar Documents

Publication Publication Date Title
CN109033115B (zh) 一种动态网页爬虫系统
CN101197849B (zh) 将互联网页面转换为无线应用协议页面的转换方法
KR100848319B1 (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
US9928282B2 (en) Method and apparatus for providing search results on a mobile terminal
CN101583072B (zh) 一种用于实现Mobile Internet的中间件产品及其方法
CN105956004A (zh) 一种基于url分析模型的移动用户上网行为分析方法及装置
US20020069296A1 (en) Internet content reformatting apparatus and method
CN102420813B (zh) 一种根据用户设备的终端属性提供目标信息的方法与设备
CN1609845A (zh) 用于改善由机器自动生成的摘要的可读性的方法和装置
CN101984429A (zh) 获取目标页面的方法、装置、搜索引擎和浏览器
KR101689745B1 (ko) 스크립트에 의한 동적 리소스 정보를 처리하는 웹 브라우징 시스템 및 방법
CN106649567A (zh) 一种基于浏览器内核的网络爬虫系统
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN101916285A (zh) 一种互联网网页内容解析方法及装置
CN106446113A (zh) 移动大数据解析方法及装置
CN113377373A (zh) 基于解析引擎的页面加载方法、装置、计算机设备及介质
US20130305131A1 (en) Method, system and computer storage medium for pre-reading network data
CN101963992A (zh) 提高网页显示速度的方法及浏览器
CN100543741C (zh) 自动下载和过滤网页的系统及方法
CN103458065A (zh) 一种HTML5标准下基于Webkit内核的视频地址提取方法
CN103902571A (zh) 保存网页完整内容的方法、系统及相应的客户端和服务器
CN103294717A (zh) 一种基于双内核浏览器的网页打开方法和装置
KR102214990B1 (ko) 북마크관리 및 정보검색 서비스 제공시스템 및 이를 이용한 북마크관리 및 정보검색 서비스 제공방법
CN108681571B (zh) 基于Word2Vec的主题爬虫系统和方法
CN101883128A (zh) 基于3g网络的手机上网支持系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160921