CN104573021A - 一种针对互联网行为进行分析的方法 - Google Patents
一种针对互联网行为进行分析的方法 Download PDFInfo
- Publication number
- CN104573021A CN104573021A CN201510013551.6A CN201510013551A CN104573021A CN 104573021 A CN104573021 A CN 104573021A CN 201510013551 A CN201510013551 A CN 201510013551A CN 104573021 A CN104573021 A CN 104573021A
- Authority
- CN
- China
- Prior art keywords
- app
- url
- user
- interest
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000006399 behavior Effects 0.000 title abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 description 5
- 230000002354 daily effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明一种针对互联网行为进行分析的方法,包括如下步骤:步骤一、利用接口服务器下载网络日志;步骤二、将上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单;步骤三、将APP清单与客户端应用库进行匹配;步骤四、将URL清单与关键词库和网址分类库进行匹配;步骤五、生成网络用户APP清单和APP兴趣点汇总表;步骤六、生成网络用户URL清单和URL兴趣点汇总表;步骤七、得出用户上网偏好表。本发明对海量数据进行处理和加工,实现对用户上网行为的识别,并进行相应的标签,通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。
Description
技术领域
本发明涉及大数据数据分析处理技术领域,具体涉及一种针对互联网行为进行分析的方法。
背景技术
在电商领域中,用户行为信息量之大令人难以想象,据专注于电商行业用户行为分析的不完全统计,一个用户在选择一个产品之前,平均要浏览5个网站、36个页面,在社会化媒体和搜索引擎上的交互行为也多达数十次。如果把所有可以采集的数据整合并进行衍生,一个用户的购买可能会受数千个行为维度的影响。对于一个一天PU近百万的中型电商上,这代表着一天近1TB的活跃数据。而放到整个中国电商的角度来看,更意味着每天高达数千TB的活跃数据。正是这些浏览的行为信息,可以深度地反映出潜在客户的心理和行为意向。如果对这些行为数据进行分析,通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐,则将具有重大意义。
发明内容
为解决上述问题,本发明的目的在于提供一种针对互联网行为进行分析的方法,以对海量数据进行处理和加工,实现对用户上网行为的识别,并进行相应的标签。
为实现上述目的,本发明的技术方案为:
一种针对互联网行为进行分析的方法,包括如下步骤:
步骤一、利用接口服务器通过FTP方式下载网络日志;
步骤二、将上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单,并进行清单去冗;
步骤三、将APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总;
步骤四、将URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总;
步骤五、根据APP兴趣点汇总结果生成网络用户APP清单和APP兴趣点汇总表;
步骤六、根据URL兴趣点汇总结果生成网络用户URL清单和URL兴趣点汇总表;
步骤七、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出用户上网偏好表。
进一步地,步骤三中,客户端应用库可以包括分别对应于IP及端口、域名以及网址的字段。
进一步地,步骤四中,关键词库可以包括对应于关键词的字段,网址匪类库可以包括对应于网址的字段。
进一步地,步骤四中,具体包括:
步骤41、通过网络爬虫爬取对应URL的网页内容,保留文本内容作为待分类文本;
步骤42、通过分词技术对网页内容分词;
步骤43、计算关键词在关键词库中的分布矩阵;
步骤44、计算关键词在关键词库中的分布系数;
步骤45、计算关键词对关键词库中各类的覆盖度、支持度、置信度;
步骤46、准备多个预先已确定分类的待分类文本作为样本,用枚举的方 法得到判断文本分类的拟合公式;
步骤47、对于待分类的文本用步骤46得到的拟合公式计算各类的得分, 实现对待分类文本的分类。
进一步地,步骤七中,用户上网偏好表可以包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。
进一步地。
相较于现有技术,本发明针对互联网行为进行分析的方法,以对海量数据进行处理和加工,实现对用户上网行为的识别,并进行相应的标签,通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。
附图说明
图1为本发明的方法流程图示。
图2为本发明整体架构图示。
具体实施方式
本发明实施例提供了一种针对互联网行为进行分析的方法。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
参照图1-图2所示,本发明一种针对互联网行为进行分析的方法,包括如下步骤:
步骤一、利用接口服务器通过FTP方式下载网络日志;
步骤二、上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单,并进行清单去冗;
步骤三、将APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总,客户端应用库可以包括分别对应于IP及端口、域名以及网址的字段;
步骤四、将URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总,关键词库可以包括对应于关键词的字段,网址匪类库可以包括对应于网址的字段;
步骤四中,具体包括:
步骤41、通过网络爬虫爬取对应URL的网页内容,保留文本内容作为待分类文本;通过网络爬虫,爬取网页内容,剔除图片、视频等无效资源,保留文本内容;
步骤42、通过分词技术对网页内容分词;
步骤43、计算关键词在关键词库中的分布矩阵;
步骤44、计算关键词在关键词库中的分布系数;
步骤45、计算关键词对关键词库中各类的覆盖度、支持度、置信度;
步骤46、准备多个预先已确定分类的待分类文本作为样本,用枚举的方 法得到判断文本分类的拟合公式;
步骤47、对于待分类的文本用步骤46得到的拟合公式计算各类的得分, 实现对待分类文本的分类;
步骤五、根据APP兴趣点汇总结果生成网络用户APP清单和APP兴趣点汇总表;
步骤六、根据URL兴趣点汇总结果生成网络用户URL清单和URL兴趣点汇总表;
步骤七、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出用户上网偏好表,该用户上网偏好表可以包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。实现了对互联网行为标签体系的设计;通过对用户访问网址、使用APP、在网页上进行搜索、上网时段、使用终端等方面,构建用户互联网行为标签库。
本发明能对海量数据有效的进行处理和加工,把互联网中杂乱无章的数据进行数据清洗和提炼出来,实现对用户上网行为的识别,针对客户的互联网行为打上相应的标签。通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种针对互联网行为进行分析的方法,其特征在于,包括如下步骤:
步骤一、利用接口服务器通过FTP方式下载网络日志;
步骤二、将上网日志交由Hadoop架构的分布式云计算处理平台进行处理,区分为APP清单和URL清单,并进行清单去冗;
步骤三、将APP清单与客户端应用库进行匹配,对APP兴趣点打标签,进而对APP兴趣点汇总;
步骤四、将URL清单与关键词库和网址分类库进行匹配,对URL兴趣点打标签,进而对URL兴趣点汇总;
步骤五、根据APP兴趣点汇总结果生成网络用户APP清单和APP兴趣点汇总表;
步骤六、根据URL兴趣点汇总结果生成网络用户URL清单和URL兴趣点汇总表;
步骤七、根据用户APP兴趣点汇总表和用户URL兴趣点汇总表得出用户上网偏好表。
2.如权利要求1所述针对互联网行为进行分析的方法,其特征在于:步骤三中,客户端应用库可以包括分别对应于IP及端口、域名以及网址的字段。
3.如权利要求2所述针对互联网行为进行分析的方法,其特征在于:步骤四中,关键词库可以包括对应于关键词的字段,网址匪类库可以包括对应于网址的字段。
4.如权利要求2所述针对互联网行为进行分析的方法,其特征在于:步骤四中,具体包括:
步骤41、通过网络爬虫爬取对应URL的网页内容,保留文本内容作为待分类文本;
步骤42、通过分词技术对网页内容分词;
步骤43、计算关键词在关键词库中的分布矩阵;
步骤44、计算关键词在关键词库中的分布系数;
步骤45、计算关键词对关键词库中各类的覆盖度、支持度、置信度;
步骤46、准备多个预先已确定分类的待分类文本作为样本,用枚举的方 法得到判断文本分类的拟合公式;
步骤47、对于待分类的文本用步骤46得到的拟合公式计算各类的得分, 实现对待分类文本的分类。
5.如权利要求4所述针对互联网行为进行分析的方法,其特征在于:步骤七中,用户上网偏好表可以包括分别对应于用户访问网址、使用APP、在网页上进行搜索、上网时段及使用终端的字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510013551.6A CN104573021A (zh) | 2015-01-12 | 2015-01-12 | 一种针对互联网行为进行分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510013551.6A CN104573021A (zh) | 2015-01-12 | 2015-01-12 | 一种针对互联网行为进行分析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104573021A true CN104573021A (zh) | 2015-04-29 |
Family
ID=53089083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510013551.6A Pending CN104573021A (zh) | 2015-01-12 | 2015-01-12 | 一种针对互联网行为进行分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573021A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095450A (zh) * | 2015-07-24 | 2015-11-25 | 江苏省公用信息有限公司 | 一种用于确定用户移动互联网访问兴趣点的方法 |
CN105809471A (zh) * | 2016-02-23 | 2016-07-27 | 北京金山安全软件有限公司 | 一种获取用户属性的方法、装置及电子设备 |
CN106649312A (zh) * | 2015-10-29 | 2017-05-10 | 北京北方微电子基地设备工艺研究中心有限责任公司 | 日志文件的分析方法和系统 |
CN106933883A (zh) * | 2015-12-31 | 2017-07-07 | 中移(苏州)软件技术有限公司 | 基于检索日志的兴趣点常用检索词分类方法、装置 |
CN107103523A (zh) * | 2017-05-18 | 2017-08-29 | 深圳众厉电力科技有限公司 | 一种服务性能好的电子商务系统 |
CN107463574A (zh) * | 2016-06-02 | 2017-12-12 | 广州市动景计算机科技有限公司 | 内容信息提供方法、设备、浏览器、电子设备和服务器 |
CN107704575A (zh) * | 2017-09-30 | 2018-02-16 | 郑州轻工业学院 | 基于数据挖掘的用户行为分析方法及用户行为分析装置 |
CN108280048A (zh) * | 2017-01-05 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 信息处理方法和装置 |
CN109886784A (zh) * | 2019-02-11 | 2019-06-14 | 杭州快盈信息科技有限公司 | 一种推荐方法及系统 |
CN113157540A (zh) * | 2021-03-31 | 2021-07-23 | 国家计算机网络与信息安全管理中心 | 一种用户行为分析方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020145975A1 (en) * | 2000-12-11 | 2002-10-10 | Melampy Patrick J. | System and method for assisting in controlling real-time transport protocol flow through multiple networks via use of a cluster of session routers |
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN101211339A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于用户行为的智能网页分类器 |
CN101609450A (zh) * | 2009-04-10 | 2009-12-23 | 南京邮电大学 | 基于训练集的网页分类方法 |
CN103714119A (zh) * | 2013-11-29 | 2014-04-09 | 北京奇虎科技有限公司 | 一种浏览器数据的处理方法和装置 |
-
2015
- 2015-01-12 CN CN201510013551.6A patent/CN104573021A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020145975A1 (en) * | 2000-12-11 | 2002-10-10 | Melampy Patrick J. | System and method for assisting in controlling real-time transport protocol flow through multiple networks via use of a cluster of session routers |
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN101211339A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于用户行为的智能网页分类器 |
CN101609450A (zh) * | 2009-04-10 | 2009-12-23 | 南京邮电大学 | 基于训练集的网页分类方法 |
CN103714119A (zh) * | 2013-11-29 | 2014-04-09 | 北京奇虎科技有限公司 | 一种浏览器数据的处理方法和装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095450A (zh) * | 2015-07-24 | 2015-11-25 | 江苏省公用信息有限公司 | 一种用于确定用户移动互联网访问兴趣点的方法 |
CN106649312B (zh) * | 2015-10-29 | 2019-10-29 | 北京北方华创微电子装备有限公司 | 日志文件的分析方法和系统 |
CN106649312A (zh) * | 2015-10-29 | 2017-05-10 | 北京北方微电子基地设备工艺研究中心有限责任公司 | 日志文件的分析方法和系统 |
CN106933883A (zh) * | 2015-12-31 | 2017-07-07 | 中移(苏州)软件技术有限公司 | 基于检索日志的兴趣点常用检索词分类方法、装置 |
CN106933883B (zh) * | 2015-12-31 | 2019-12-27 | 中移(苏州)软件技术有限公司 | 基于检索日志的兴趣点常用检索词分类方法、装置 |
CN105809471A (zh) * | 2016-02-23 | 2016-07-27 | 北京金山安全软件有限公司 | 一种获取用户属性的方法、装置及电子设备 |
CN105809471B (zh) * | 2016-02-23 | 2020-02-07 | 北京金山安全软件有限公司 | 一种获取用户属性的方法、装置及电子设备 |
CN107463574A (zh) * | 2016-06-02 | 2017-12-12 | 广州市动景计算机科技有限公司 | 内容信息提供方法、设备、浏览器、电子设备和服务器 |
CN108280048A (zh) * | 2017-01-05 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 信息处理方法和装置 |
CN107103523A (zh) * | 2017-05-18 | 2017-08-29 | 深圳众厉电力科技有限公司 | 一种服务性能好的电子商务系统 |
CN107704575A (zh) * | 2017-09-30 | 2018-02-16 | 郑州轻工业学院 | 基于数据挖掘的用户行为分析方法及用户行为分析装置 |
CN109886784A (zh) * | 2019-02-11 | 2019-06-14 | 杭州快盈信息科技有限公司 | 一种推荐方法及系统 |
CN113157540A (zh) * | 2021-03-31 | 2021-07-23 | 国家计算机网络与信息安全管理中心 | 一种用户行为分析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573021A (zh) | 一种针对互联网行为进行分析的方法 | |
CN107862553B (zh) | 广告实时推荐方法、装置、终端设备及存储介质 | |
Zhao et al. | Connecting social media to e-commerce: Cold-start product recommendation using microblogging information | |
US7849081B1 (en) | Document analyzer and metadata generation and use | |
US20160034514A1 (en) | Providing search results based on an identified user interest and relevance matching | |
US9436768B2 (en) | System and method for pushing and distributing promotion content | |
US10956476B2 (en) | Entropic classification of objects | |
CN106991175B (zh) | 一种客户信息挖掘方法、装置、设备以及存储介质 | |
US9578119B2 (en) | Method, server, and client for pushing and displaying splash screen | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
CN102693271A (zh) | 一种网络信息推荐方法及系统 | |
US20160306887A1 (en) | Methods, apparatuses and systems for linked and personalized extended search | |
US7962523B2 (en) | System and method for detecting templates of a website using hyperlink analysis | |
CN103617266A (zh) | 个性化扩展搜索方法及装置、系统 | |
CN108021651A (zh) | 一种网络舆情风险评估方法及装置 | |
Chiew et al. | Building standard offline anti-phishing dataset for benchmarking | |
CN110889045A (zh) | 标签分析方法、装置及计算机可读存储介质 | |
CN109819002B (zh) | 数据推送方法和装置、存储介质及电子装置 | |
CN106874368B (zh) | 一种rtb竞价广告位价值分析方法及系统 | |
JP6501936B1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Mazilu | Web Scraping and Ethics in Automated Data Collection | |
CN110457603A (zh) | 用户关系抽取方法、装置、电子设备及可读存储介质 | |
CN107609020B (zh) | 一种基于标注的日志分类的方法和装置 | |
CN104050174B (zh) | 一种个性化页面生成方法及装置 | |
CN110069691A (zh) | 用于处理点击行为数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150429 |