CN101354706A - 一种收集网页信息的方法及装置 - Google Patents

一种收集网页信息的方法及装置 Download PDF

Info

Publication number
CN101354706A
CN101354706A CNA2007101307905A CN200710130790A CN101354706A CN 101354706 A CN101354706 A CN 101354706A CN A2007101307905 A CNA2007101307905 A CN A2007101307905A CN 200710130790 A CN200710130790 A CN 200710130790A CN 101354706 A CN101354706 A CN 101354706A
Authority
CN
China
Prior art keywords
picture
user
additional information
web page
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101307905A
Other languages
English (en)
Inventor
丁祥龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CNA2007101307905A priority Critical patent/CN101354706A/zh
Publication of CN101354706A publication Critical patent/CN101354706A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种收集网页信息的方法,首先对网页进行截屏,将截屏后的网页保存为图片;并获取与所述图片对应的附加信息;然后根据所述附加信息为所述图片建立索引。本发明还公开了一种收集网页信息的装置,包括网页截屏单元、附加信息获取单元和索引建立单元。本发明通过对网页进行截屏,可以方便重现用户的使用场景和操作过程,然后根据截屏所获取的图片和搜索引擎,实现了快速地定位问题;另外,本发明通过按顺序对多个用户跳转页面进行截屏,使用户行为分析人员更好地主动去分析用户使用习惯。

Description

一种收集网页信息的方法及装置
技术领域
本发明涉及网络技术领域,特别是涉及一种收集网页信息的方法及装置。
背景技术
随着网络技术的不断更新和发展,互联网越来越广泛地应用在各个领域,而且当一个应用(比如在线支付)同时被大量的用户使用时,如何更好更快地回答和修复用户在使用过程中出现的问题,或者更好地改善用户的使用体验,对于提供互联网应用的公司而言是极为重要的。现有的互联网服务提供商一般采用以下方法解决相应的问题:通过查看后台日志来解决用户使用中的问题;根据使用用户问卷调查的方式来收集用户的使用习惯。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:互联网应用提供商的客户服务人员利用呼叫中心与用户沟通,来帮助用户解决疑问,但是很多问题用户只通过语言可能描述不清楚,导致客服人员的解答会比较费力或者不准确;另外,互联网应用提供商的技术人员利用后台的日志来查看应用的问题时,由于日志往往缺少完整的上下文,因此问题的定位比较困难;而且,互联网应用提供商的用户体验人员利用网站问卷调查来收集用户的使用习惯时,由于很多时候用户不会主动地去完整填写问卷内容,可能调查效果不会太好。
发明内容
本发明实施例要解决的问题是提供一种收集网页信息的方法及装置,能够重现用户的使用场景和操作过程,以克服现有技术中定位问题困难的缺陷。
为达到上述目的,本发明实施例的技术方案提供一种收集网页信息的方法,包括以下步骤:对网页进行截屏,并将截屏后的网页保存为图片;获取与所述图片对应的附加信息;根据所述附加信息为所述图片建立索引。
按照本发明的一个方面,所述网页为用户出错页面或用户跳转页面。
按照本发明的另一个方面,所述对网页进行截屏具体包括:按顺序对多个用户跳转页面进行截屏。
按照本发明的再一个方面,所述附加信息包括用户标识和截屏时间。
按照本发明的再一个方面,在建立索引后,还包括根据所述索引对所述图片进行检索。
按照本发明的再一个方面,所述图片的格式为PNG(Portable NetworkGraphics,便携网络图形)格式。
本发明实施例的技术方案还提供了一种收集网页信息的装置,包括网页截屏单元、附加信息获取单元和索引建立单元;所述网页截屏单元,用于对网页进行截屏,并将截屏后的网页保存为图片;所述附加信息获取单元,用于获取与所述图片对应的附加信息;所述索引建立单元,用于根据所述附加信息为所述图片建立索引。
上述技术方案中的一个实施例具有如下优点:
本发明实施例通过对网页进行截屏,可以方便重现用户的使用场景和操作过程,然后根据截屏所获取的图片和搜索引擎,实现了快速地定位问题;
另外,本发明实施例通过按顺序对多个用户跳转页面进行截屏,使用户行为分析人员更好地主动去分析用户使用习惯。
附图说明
图1是本发明实施例的一种收集网页信息的方法流程图;
图2是本发明实施例的另一种收集网页信息的方法流程图;
图3是本发明实施例的一种收集网页信息装置的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
本发明实施例的一种收集网页信息的方法流程如图1所示,首先对网页进行截屏,将截屏后的网页保存为图片;并获取与所述图片对应的附加信息;然后根据所述附加信息为所述图片建立索引。参照图1,本实施例包括以下步骤:
步骤s101,用户在网站上进行网络操作时,如果系统出现故障,则跳转到异常页面。
步骤s102,用户点击异常页面上提示的“请提交错误信息”按钮,上报出错信息。
步骤s103,系统对该用户出错页面进行截屏,并将截屏后的网页保存为PNG格式的图片。PNG格式的图片具有以下特点:采用该格式的图片不失真,且存贮形式丰富;另外,因为PNG是采用无损压缩方式来减少文件的大小,所以采用该格式能把图像文件压缩到极限以利于网络传输,但又能保留所有与图像品质有关的信息;而且采用该格式的图片显示速度很快,只需下载1/64的图像信息就可以显示出低分辨率的预览图像;PNG格式还支持透明图像,可让图像和网页背景很和谐地融合在一起。
步骤s104,系统从Session里面获取与所述图片对应的附加信息,并将该附加信息保存到数据库,该附加信息包括用户标识和截屏时间。
步骤s105,根据所述附加信息,搜索引擎为所述图片建立索引。其建立过程为:对获取的图片以及附加信息进行分析,根据该附加信息中的网页所在的URL(Uniform Resource Identifier,统一资源标识符),来提取相关网页信息(包括网页内容包含的关键词、关键词位置、与其他网页的链接关系等),并且和附加信息中的用户标识、截屏时间等作为关键词,为所述图片建立索引。
步骤s106,当需要查看所述出错页面的信息时(如用户来电寻求客服人员对操作问题的解答时),系统根据用户帐户等信息,利用搜索引擎查找建立的索引,获取与索引对应的图片。然后客服人员结合用户的提问和获取到的图片,以及相应的解答提示回答用户的提问;如果客服人员无法解答该用户的疑问,则将链接转发给技术人员,由技术人员分析问题,然后将答案告之客服人员。对一些确定的问题,客服人员也可以直接输入答案,当另外的客服人员搜索相应问题时,可以得到该答案的提示。
本实施例通过对网页进行截屏,可以方便重现用户的使用场景和操作过程,然后根据截屏所获取的图片和搜索引擎,实现了快速地定位问题。
本发明实施例的另一种收集网页信息的方法流程如图2所示,首先对网页进行截屏,将截屏后的网页保存为图片;并获取与所述图片对应的附加信息;然后根据所述附加信息为所述图片建立索引。参照图2,本实施例包括以下步骤:
步骤s201,用户在网站上进行网络操作时,系统按顺序对多个用户跳转页面进行截屏,并将截屏后的网页保存为PNG格式的图片。
步骤s202,系统从Session里面获取与所述图片对应的附加信息,并将该附加信息保存到数据库,该附加信息包括用户标识和截屏时间。
步骤s203,根据所述附加信息,搜索引擎为所述图片建立索引。其建立过程为:对获取的图片以及附加信息进行分析,根据该附加信息中的网页所在的URL,来提取相关网页信息(包括网页内容包含的关键词、关键词位置、与其他网页的链接关系等),并且和附加信息中的用户标识、截屏时间等作为关键词,为所述图片建立索引。
步骤s204,当需要查看所述用户跳转页面的信息时(如分析用户使用习惯时),系统根据用户帐户等信息,利用搜索引擎查找建立的索引,获取与索引对应的图片。然后网站用户行为分析人员通过所述图片展现的用户操作过程,分析用户的使用习惯,并对产品进行相应的改进。
本实施例通过按顺序对多个用户跳转页面进行截屏,使用户行为分析人员更好地主动去分析用户使用习惯。
图3是本发明实施例的一种收集网页信息装置的结构示意图。包括网页截屏单元31、附加信息获取单元32和索引建立单元33,其中索引建立单元33分别与网页截屏单元31和附加信息获取单元32连接。
网页截屏单元31用于对用户出错页面或用户跳转页面等网页进行截屏,并将截屏后的网页保存为图片,该图片的格式可以为PNG格式;附加信息获取单元32用于获取与所述图片对应的附加信息,该附加信息包括用户标识和截屏时间;索引建立单元33用于根据所述附加信息为所述图片建立索引。其建立过程为:对获取的图片以及附加信息进行分析,根据该附加信息中的网页所在的URL,来提取相关网页信息(包括网页内容包含的关键词、关键词位置、与其他网页的链接关系等),并且和附加信息中的用户标识、截屏时间等作为关键词,为所述图片建立索引。
本实施例通过对网页进行截屏,可以方便重现用户的使用场景和操作过程,然后根据截屏所获取的图片和搜索引擎,实现了快速地定位问题;另外,本实施例通过按顺序对多个用户跳转页面进行截屏,使用户行为分析人员更好地主动去分析用户使用习惯。
以上所述仅是本发明的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1、一种收集网页信息的方法,其特征在于,包括以下步骤:
对网页进行截屏,并将截屏后的网页保存为图片;
获取与所述图片对应的附加信息;
根据所述附加信息为所述图片建立索引。
2、如权利要求1所述收集网页信息的方法,其特征在于,所述网页为用户出错页面或用户跳转页面。
3、如权利要求2所述收集网页信息的方法,其特征在于,所述对网页进行截屏具体包括:按顺序对多个用户跳转页面进行截屏。
4、如权利要求1所述收集网页信息的方法,其特征在于,所述附加信息包括用户标识和截屏时间。
5、如权利要求1所述收集网页信息的方法,其特征在于,在建立索引后,还包括根据所述索引对所述图片进行检索。
6、如权利要求1至5任一项所述收集网页信息的方法,其特征在于,所述图片的格式为便携网络图形PNG格式。
7、一种收集网页信息的装置,其特征在于,包括网页截屏单元、附加信息获取单元和索引建立单元;
所述网页截屏单元,用于对网页进行截屏,并将截屏后的网页保存为图片;
所述附加信息获取单元,用于获取与所述图片对应的附加信息;
所述索引建立单元,用于根据所述附加信息为所述图片建立索引。
8、如权利要求7所述收集网页信息的装置,其特征在于,所述附加信息包括用户标识和截屏时间。
CNA2007101307905A 2007-07-25 2007-07-25 一种收集网页信息的方法及装置 Pending CN101354706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101307905A CN101354706A (zh) 2007-07-25 2007-07-25 一种收集网页信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101307905A CN101354706A (zh) 2007-07-25 2007-07-25 一种收集网页信息的方法及装置

Publications (1)

Publication Number Publication Date
CN101354706A true CN101354706A (zh) 2009-01-28

Family

ID=40307518

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101307905A Pending CN101354706A (zh) 2007-07-25 2007-07-25 一种收集网页信息的方法及装置

Country Status (1)

Country Link
CN (1) CN101354706A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385613A (zh) * 2011-09-30 2012-03-21 广州市动景计算机科技有限公司 一种网页页面定位方法及其系统
CN104796278A (zh) * 2014-01-21 2015-07-22 携程计算机技术(上海)有限公司 终端设备、Web前端错误的上报系统及方法
CN104881416A (zh) * 2014-02-28 2015-09-02 深圳市网安计算机安全检测技术有限公司 舆情的证据获取方法及系统
CN105867736A (zh) * 2016-03-29 2016-08-17 努比亚技术有限公司 多层级界面截图装置和方法
TWI549004B (zh) * 2010-11-01 2016-09-11 Alibaba Group Holding Ltd Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
CN107924420A (zh) * 2015-09-02 2018-04-17 三星电子株式会社 对包括在网页的屏幕截图中的链接进行标记的方法和设备
WO2018094930A1 (zh) * 2016-11-22 2018-05-31 华为技术有限公司 基于屏幕图像的用户行为获取方法及终端
CN110866212A (zh) * 2019-11-14 2020-03-06 北京无限光场科技有限公司 页面异常定位的方法、装置、电子设备及计算机可读介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI549004B (zh) * 2010-11-01 2016-09-11 Alibaba Group Holding Ltd Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
CN102385613A (zh) * 2011-09-30 2012-03-21 广州市动景计算机科技有限公司 一种网页页面定位方法及其系统
CN104796278A (zh) * 2014-01-21 2015-07-22 携程计算机技术(上海)有限公司 终端设备、Web前端错误的上报系统及方法
CN104881416A (zh) * 2014-02-28 2015-09-02 深圳市网安计算机安全检测技术有限公司 舆情的证据获取方法及系统
CN107924420A (zh) * 2015-09-02 2018-04-17 三星电子株式会社 对包括在网页的屏幕截图中的链接进行标记的方法和设备
CN105867736A (zh) * 2016-03-29 2016-08-17 努比亚技术有限公司 多层级界面截图装置和方法
WO2018094930A1 (zh) * 2016-11-22 2018-05-31 华为技术有限公司 基于屏幕图像的用户行为获取方法及终端
CN110866212A (zh) * 2019-11-14 2020-03-06 北京无限光场科技有限公司 页面异常定位的方法、装置、电子设备及计算机可读介质

Similar Documents

Publication Publication Date Title
CN102325188B (zh) 在移动终端上实现网页浏览的方法和系统
CN101354706A (zh) 一种收集网页信息的方法及装置
KR100307723B1 (ko) 무선 인터넷을 이용한 광고주 주도형의 광고 제공 시스템 및 그 방법
CN107562620A (zh) 一种埋点自动设置方法和装置
CN101847160B (zh) 一种移动终端个性化页面推送方法和装置
CA2769946C (en) A method and system for efficient and exhaustive url categorization
US20120310751A1 (en) Method and apparatus for providing online advertisement
CN101833570A (zh) 一种移动终端页面推送优化的方法和装置
CN102314455A (zh) 计算网页点击流量的方法及系统
CN101778168A (zh) 一种移动终端浏览器上网页优化显示方法和系统
CN110163654B (zh) 一种广告投放数据追踪方法和系统
CN102185923A (zh) 一种移动通讯设备终端网页浏览方法
CN103428076A (zh) 向多类型终端或应用发送信息的方法和装置
CN104580758A (zh) 来电评论信息获取方法和装置
CN102541853A (zh) 一种利用浏览器地址栏获取应用信息的方法和装置
CN108256092A (zh) 设备上的组合活动历史
CN102916994A (zh) 一种页面浏览方法、服务器和终端
CN102970348A (zh) 网络应用推送方法、系统和网络应用服务器
CN111177623A (zh) 信息处理方法及装置
CN103458065A (zh) 一种HTML5标准下基于Webkit内核的视频地址提取方法
CN106557584A (zh) 一种网址收藏方法及装置
CN106790589A (zh) 移动终端客户端中广告过滤方法及装置
CN101008946A (zh) 中文移动通信信息搜索方法及装置
CN102170463B (zh) 一种利用电话分机进行来电转化跟踪的网络广告监测方法
US9398105B2 (en) Method for providing a third party service associated with a network-accessible site using a single scripting approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1122624

Country of ref document: HK

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090128

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1122624

Country of ref document: HK