CN102393849A - 一种Web日志数据的预处理方法 - Google Patents
一种Web日志数据的预处理方法 Download PDFInfo
- Publication number
- CN102393849A CN102393849A CN2011102006155A CN201110200615A CN102393849A CN 102393849 A CN102393849 A CN 102393849A CN 2011102006155 A CN2011102006155 A CN 2011102006155A CN 201110200615 A CN201110200615 A CN 201110200615A CN 102393849 A CN102393849 A CN 102393849A
- Authority
- CN
- China
- Prior art keywords
- page
- website
- user
- session
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000007781 pre-processing Methods 0.000 title abstract description 14
- 238000012217 deletion Methods 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 238000009412 basement excavation Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 24
- 238000004140 cleaning Methods 0.000 abstract description 5
- 230000001502 supplementing effect Effects 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 6
- 230000009469 supplementation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102006155A CN102393849A (zh) | 2011-07-18 | 2011-07-18 | 一种Web日志数据的预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102006155A CN102393849A (zh) | 2011-07-18 | 2011-07-18 | 一种Web日志数据的预处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102393849A true CN102393849A (zh) | 2012-03-28 |
Family
ID=45861173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102006155A Pending CN102393849A (zh) | 2011-07-18 | 2011-07-18 | 一种Web日志数据的预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102393849A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102724059A (zh) * | 2012-03-31 | 2012-10-10 | 常熟市支塘镇新盛技术咨询服务有限公司 | 基于MapReduce的网站运行状态监控与异常检测 |
CN103412901A (zh) * | 2013-07-26 | 2013-11-27 | 北京奇虎科技有限公司 | 一种历史记录清理方法及装置 |
CN103501241A (zh) * | 2013-09-18 | 2014-01-08 | 华为技术有限公司 | 垃圾文件清理方法、装置和系统 |
CN103678667A (zh) * | 2013-12-24 | 2014-03-26 | 北京国双科技有限公司 | 用于在线访问的数据处理方法和装置 |
CN103678666A (zh) * | 2013-12-24 | 2014-03-26 | 北京国双科技有限公司 | 用于在线访问的数据处理方法和装置 |
CN103944995A (zh) * | 2014-04-28 | 2014-07-23 | 东华大学 | 一种识别宽带网络中独立用户账户的方法 |
WO2015154680A1 (zh) * | 2014-04-08 | 2015-10-15 | 北京奇虎科技有限公司 | 一种文件处理方法、设备和网络系统 |
CN105069087A (zh) * | 2015-08-03 | 2015-11-18 | 成都康赛信息技术有限公司 | 基于Web日志数据挖掘的网站优化方法 |
CN105590062A (zh) * | 2015-12-16 | 2016-05-18 | 国家电网公司 | 一种可配置的文件客体安全重用方法 |
CN105701237A (zh) * | 2016-02-23 | 2016-06-22 | 无锡中科富农物联科技有限公司 | Web访问日志处理方法 |
CN106202251A (zh) * | 2016-06-29 | 2016-12-07 | 泰华智慧产业集团股份有限公司 | 一种基于用户访问的关联页面挖掘方法及系统 |
CN106598832A (zh) * | 2015-10-16 | 2017-04-26 | 富士通株式会社 | 在众包测试中处理应用程序的运行上下文的装置和方法 |
CN106909559A (zh) * | 2015-12-23 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 堆栈日志处理方法及装置 |
CN109359263A (zh) * | 2018-10-16 | 2019-02-19 | 杭州安恒信息技术股份有限公司 | 一种用户行为特征提取方法及系统 |
CN110019074A (zh) * | 2017-12-30 | 2019-07-16 | 中国移动通信集团河北有限公司 | 访问路径的分析方法、装置、设备及介质 |
CN111079138A (zh) * | 2019-12-19 | 2020-04-28 | 北京天融信网络安全技术有限公司 | 异常访问检测方法、装置、电子设备及可读存储介质 |
CN111460004A (zh) * | 2020-04-06 | 2020-07-28 | 北方工业大学 | 一种融合用户行为及Web页面依赖关系的数据挖掘方法 |
CN113660238A (zh) * | 2021-08-10 | 2021-11-16 | 建信金融科技有限责任公司 | 人机识别方法、装置、系统、设备及可读存储介质 |
CN114077595A (zh) * | 2021-11-25 | 2022-02-22 | 中国银行股份有限公司 | Web中间件类型容器的日志备份清理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1791022A (zh) * | 2005-12-26 | 2006-06-21 | 阿里巴巴公司 | 一种日志分析方法和系统 |
CN101242307A (zh) * | 2008-02-01 | 2008-08-13 | 刘峰 | 用嵌入代码代理日志实现网站访问分析系统与方法 |
JP4429434B2 (ja) * | 1999-11-17 | 2010-03-10 | 富士通株式会社 | ログ読出し方法、ログ読出し装置、及び記録媒体 |
-
2011
- 2011-07-18 CN CN2011102006155A patent/CN102393849A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4429434B2 (ja) * | 1999-11-17 | 2010-03-10 | 富士通株式会社 | ログ読出し方法、ログ読出し装置、及び記録媒体 |
CN1791022A (zh) * | 2005-12-26 | 2006-06-21 | 阿里巴巴公司 | 一种日志分析方法和系统 |
CN101242307A (zh) * | 2008-02-01 | 2008-08-13 | 刘峰 | 用嵌入代码代理日志实现网站访问分析系统与方法 |
Non-Patent Citations (1)
Title |
---|
程博: "基于日志的Web挖掘相关技术研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102724059B (zh) * | 2012-03-31 | 2015-03-11 | 常熟市支塘镇新盛技术咨询服务有限公司 | 基于MapReduce的网站运行状态监控与异常检测 |
CN102724059A (zh) * | 2012-03-31 | 2012-10-10 | 常熟市支塘镇新盛技术咨询服务有限公司 | 基于MapReduce的网站运行状态监控与异常检测 |
CN103412901A (zh) * | 2013-07-26 | 2013-11-27 | 北京奇虎科技有限公司 | 一种历史记录清理方法及装置 |
CN103501241A (zh) * | 2013-09-18 | 2014-01-08 | 华为技术有限公司 | 垃圾文件清理方法、装置和系统 |
CN103501241B (zh) * | 2013-09-18 | 2017-02-01 | 华为技术有限公司 | 垃圾文件清理方法、装置和系统 |
CN103678667A (zh) * | 2013-12-24 | 2014-03-26 | 北京国双科技有限公司 | 用于在线访问的数据处理方法和装置 |
CN103678667B (zh) * | 2013-12-24 | 2017-10-27 | 北京国双科技有限公司 | 用于在线访问的数据处理方法和装置 |
CN103678666A (zh) * | 2013-12-24 | 2014-03-26 | 北京国双科技有限公司 | 用于在线访问的数据处理方法和装置 |
CN103678666B (zh) * | 2013-12-24 | 2017-02-15 | 北京国双科技有限公司 | 用于在线访问的数据处理方法和装置 |
WO2015154680A1 (zh) * | 2014-04-08 | 2015-10-15 | 北京奇虎科技有限公司 | 一种文件处理方法、设备和网络系统 |
CN103944995A (zh) * | 2014-04-28 | 2014-07-23 | 东华大学 | 一种识别宽带网络中独立用户账户的方法 |
CN103944995B (zh) * | 2014-04-28 | 2017-06-06 | 东华大学 | 一种识别宽带网络中独立用户账户的方法 |
CN105069087A (zh) * | 2015-08-03 | 2015-11-18 | 成都康赛信息技术有限公司 | 基于Web日志数据挖掘的网站优化方法 |
CN106598832A (zh) * | 2015-10-16 | 2017-04-26 | 富士通株式会社 | 在众包测试中处理应用程序的运行上下文的装置和方法 |
CN105590062A (zh) * | 2015-12-16 | 2016-05-18 | 国家电网公司 | 一种可配置的文件客体安全重用方法 |
CN106909559B (zh) * | 2015-12-23 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 堆栈日志处理方法及装置 |
CN106909559A (zh) * | 2015-12-23 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 堆栈日志处理方法及装置 |
CN105701237A (zh) * | 2016-02-23 | 2016-06-22 | 无锡中科富农物联科技有限公司 | Web访问日志处理方法 |
CN106202251A (zh) * | 2016-06-29 | 2016-12-07 | 泰华智慧产业集团股份有限公司 | 一种基于用户访问的关联页面挖掘方法及系统 |
CN110019074B (zh) * | 2017-12-30 | 2021-03-23 | 中国移动通信集团河北有限公司 | 访问路径的分析方法、装置、设备及介质 |
CN110019074A (zh) * | 2017-12-30 | 2019-07-16 | 中国移动通信集团河北有限公司 | 访问路径的分析方法、装置、设备及介质 |
CN109359263B (zh) * | 2018-10-16 | 2020-09-29 | 杭州安恒信息技术股份有限公司 | 一种用户行为特征提取方法及系统 |
CN109359263A (zh) * | 2018-10-16 | 2019-02-19 | 杭州安恒信息技术股份有限公司 | 一种用户行为特征提取方法及系统 |
CN111079138A (zh) * | 2019-12-19 | 2020-04-28 | 北京天融信网络安全技术有限公司 | 异常访问检测方法、装置、电子设备及可读存储介质 |
CN111460004A (zh) * | 2020-04-06 | 2020-07-28 | 北方工业大学 | 一种融合用户行为及Web页面依赖关系的数据挖掘方法 |
CN111460004B (zh) * | 2020-04-06 | 2023-04-14 | 北方工业大学 | 一种融合用户行为及Web页面依赖关系的数据挖掘方法 |
CN113660238A (zh) * | 2021-08-10 | 2021-11-16 | 建信金融科技有限责任公司 | 人机识别方法、装置、系统、设备及可读存储介质 |
CN113660238B (zh) * | 2021-08-10 | 2023-05-16 | 建信金融科技有限责任公司 | 人机识别方法、装置、系统、设备及可读存储介质 |
CN114077595A (zh) * | 2021-11-25 | 2022-02-22 | 中国银行股份有限公司 | Web中间件类型容器的日志备份清理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102393849A (zh) | 一种Web日志数据的预处理方法 | |
US10331758B2 (en) | Digital communications platform for webpage overlay | |
US9405746B2 (en) | User behavior models based on source domain | |
CN107590169B (zh) | 一种运营商网关数据的预处理方法及系统 | |
JP5443513B2 (ja) | ドメインにわたりクッキーを処理する方法およびシステム | |
US20180173375A1 (en) | Evaluation of interactions with a user interface | |
US20130185422A1 (en) | Media toolbar and aggregated/distributed media ecosystem | |
US20140279048A1 (en) | Systems and methods for providing relevant pathways through linked information | |
CN100416569C (zh) | 一种基于Web页面元数据的用户访问行为形式化描述方法 | |
US9756094B1 (en) | Determining a referral source by a mobile application or operating system | |
CN103593434A (zh) | 应用推荐方法及装置、服务器设备 | |
US20140280133A1 (en) | Structured Data to Aggregate Analytics | |
US8639560B2 (en) | Brand analysis using interactions with search result items | |
CN114328947A (zh) | 一种基于知识图谱的问答方法和装置 | |
Wong et al. | Design of a crawler for online social networks analysis | |
Ali et al. | An integrated framework for web data preprocessing towards modeling user behavior | |
Jones et al. | Interoperability for accessing versions of web resources with the Memento protocol | |
Bari et al. | Web usage mining | |
US11256853B2 (en) | Parameterizing network communication paths | |
JP5100855B2 (ja) | 潜在クラス分析装置、潜在クラス分析方法及びプログラム | |
Shu-yue et al. | The study on the preprocessing in web log mining | |
Liu et al. | Constructing a reliable Web graph with information on browsing behavior | |
Mary et al. | An efficient approach to perform pre-processing | |
US20170155705A1 (en) | System and method for providing a visually based social network | |
PATHAK et al. | WEB PATTERN ANALYSIS USING PARTITIONING ALGORITHM IN HYPERLINK STRUCTURE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent of invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Sun Jian Inventor after: Huang Yue Inventor after: Long Keping Inventor after: Zhou Weiqiang Inventor after: Li Jianghua Inventor after: Wang Yanfeng Inventor after: Lin Wei Inventor after: Li Chaohong Inventor after: Li Zhi Inventor after: Xie Fachuan Inventor before: Sun Jian Inventor before: Long Keping Inventor before: Li Zhi Inventor before: Xie Fachuan Inventor before: Huang Yue |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: SUN JIAN LONG KEPING LI ZHI XIE FACHUAN HUANG YUE TO: SUN JIAN LONG KEPINGZHOU WEIQIANG LI JIANGHUA WANG YANFENG LIN WEI LI CHAOHONG LI ZHI XIE FACHUAN HUANG YUE |
|
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120328 |