CN105930444A - 一种互联网用户分群方法及系统 - Google Patents

一种互联网用户分群方法及系统 Download PDF

Info

Publication number
CN105930444A
CN105930444A CN201610248416.4A CN201610248416A CN105930444A CN 105930444 A CN105930444 A CN 105930444A CN 201610248416 A CN201610248416 A CN 201610248416A CN 105930444 A CN105930444 A CN 105930444A
Authority
CN
China
Prior art keywords
url
piecemeal
classification
module
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610248416.4A
Other languages
English (en)
Inventor
李青海
简宋全
潘宇翔
邹立斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Original Assignee
Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jing Dian Computing Machine Science And Technology Ltd filed Critical Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority to CN201610248416.4A priority Critical patent/CN105930444A/zh
Publication of CN105930444A publication Critical patent/CN105930444A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种互联网用户分群方法及系统,其特征在于,包括步骤:S1:对URL进行分块;S2:为分块后的URL进行粗分类;S3:根据URL粗分类形成已分类URL队列;S4:依据URL队列进行网页抓取;S5:分析被抓取网页,得到URL细分类。本方法实现了基于网络爬虫的移动互联网用户分群;针对单单利用URL分析来对用户进行分类的不足,在该基础上再添加网络爬虫技术来进一步分析,从而实现对用户的精确分类,并提高分类的准确性。

Description

一种互联网用户分群方法及系统
技术领域
本发明涉及互联网数据处理领域,具体为一种互联网用户分群方法及系统。
背景技术
网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本。聚焦网络爬虫是指有选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。
URL,又称统一资源定位符,简单地讲就是我们平时在浏览器中输入的搜索地址。它由三部分组成,第一部分是协议(或称为服务方式),如http;第二部分是存有该资源的主机IP地址(有时也包括端口号);第三部分是主机资源的具体地址,如目录和文件名等。其中第一部分和第二部分有符号“://”隔开,第二部分和第三部分用符号“/”隔开。
随着移动互联网的快速发展,人们越来越离不开使用移动终端进行上网,运营商积累了越来越多的用户上网行为,如果能够有效地利用这些上网行为,对用户进行分群分类,从而对用户提供进一步的优质服务,可以使得运营商在激烈的市场竞争中提高自己的竞争力。
但是在以往对移动互联网用户分群上,只针对用户上网产生的URL进行URL分析,从而实现对用户的粗分类;这种粗分类无法对URL进行精准识别,从而影响运营商的运营效果。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种互联网用户分群方法,其特征在于,包括步骤:
S1:对URL进行分块;
S2:为分块后的URL进行粗分类;
S3:根据URL粗分类形成已分类URL队列;
S4:依据URL队列进行网页抓取;
S5:分析被抓取网页,得到URL细分类。
较佳的,所述步骤S1具体为:
步骤S11:从URL队列中获取URL;
步骤S12:对URL进行分块;
步骤S13:过滤无用分块;
步骤S14:形成URL分块。
较佳的,所述步骤S2具体为:
步骤S21:提取URL分块特征值;
步骤S22:将特征值与训练集进行匹配;
步骤S23:完成对URL进行粗分类。
较佳的,所述步骤S4具体为:
步骤S41:对已分类URL进行散列处理;
步骤S42:根据URL及其粗分类进行聚焦网络爬虫;
步骤S43:抓取网页内容、网页图片。
较佳的,所述步骤S5具体为:
步骤S51:对网页内容进行自然语言处理;
步骤S52:对网页图片进行图像处理;
步骤S53:整合处理结果;
步骤S54:形成URL的细分类。
较佳的,所述步骤S2还包括步骤S2后的:
步骤S220:若步骤S22中无法产生任何分类,则将该URL分类为“未分类”。
较佳的,还包括所述步骤S5后的:
步骤S6:对URL粗分类与URL细分类进行整合修正,确定最终URL细分类。
一种互联网用户分群系统,包括:
一URL分块单元,用于对URL进行分块;
一URL分类单元,用于为分块后的URL进行粗分类;
一URL分列单元,用于根据URL粗分类形成已分类URL队列;
一网络爬虫单元,用于依据URL队列进行网页抓取;
一页面与图片分析单元,用于分析被抓取网页,得到URL细分类。
较佳的,包括:
所述URL分块单元包括:
一URL获取模块,用于从URL队列中获取URL;
一URL分块模块:用于对URL进行分块;
一分块过滤模块:用于过滤无用分块;
一分块存储模块:用于形成URL分块;
所述URL分类单元包括:
一特征值提取模块:用于提取URL分块特征值;
一特征值匹配模块:用于将特征值与训练集进行匹配;
一URL粗分类模块:用于对URL进行粗分类;
所述网络爬虫单元包括:
一散列处理模块:用于对已分类URL进行散列处理;
一网络爬虫模块:用于根据URL及其粗分类进行聚焦网络爬虫;
一网页抓取模块:用于抓取网页内容、网页图片;
所述页面与图片分析单元包括:
一自然语言处理模块:用于对网页内容进行自然语言处理;
一图片处理模块:用于对网页图片进行图像处理;
一整合处理模块:用于整合处理结果;
一细分类模块:用于形成URL的细分类。
较佳的,还包括:一整合处理单元,用于对URL粗分类与URL细分类进行整合修正,确定最终URL细分类。
与现有技术相比,本发明的有益效果是:本方法实现了基于网络爬虫的移动互联网用户分群;针对单单利用URL分析来对用户进行分类的不足,在该基础上再添加网络爬虫技术来进一步分析,从而实现对用户的精确分类,并提高分类的准确性。
附图说明
图1为本发明方法流程图;
图2为本发明步骤S1流程图;
图3为本发明步骤S2流程图之一;
图4为本发明步骤S2流程图之二;
图5为本发明步骤S4流程图;
图6为本发明步骤S5流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
本发明所述方法能够在实时处理用户使用移动互联网产生的行为的过程中进行设置,该方法实现对移动互联网用户进行分群,即根据用户的上网行为,分析该用户浏览了哪方面的内容,从而分析该用户感兴趣的内容,进而对用户进行分群,以供实时处理系统对用户进行下一步的动作。
本发明所述的移动互联网用户分群方法,请参见图1所示,其为本发明所述方法流程图,本发明所述方法包括步骤:
S1:对URL进行分块;
S2:为分块后的URL进行粗分类;
S3:根据URL粗分类形成URL队列;
S4:依据URL队列进行网页抓取;
S5:分析被抓取网页,得到URL细分类。
请参见图2所示,其为本发明所述方法所述步骤S1流程图。
所述步骤S1中,对获得的URL数据源进行处理。我们知道URL的格式是[Protocol://连接类型.站名.网域类型.国别/path],我们根据URL中存在的符号和数字对该URL进行分块,并且同时过滤掉例如Protocol和“连接类型”这些对分类并没有太多帮助的词语,然后将完整的URL与分块后的URL进行分析。
具体的,所述步骤S1包括步骤:
S11:从URL队列中获取URL;
需要进行分类的所有URL均位于一URL队列中,首先从URL队列中,获取待分析的URL。
S12:对URL进行分块;对数据源传递过来的完整的URL,根据符号和数字将URL进行分块处理,形成URL块,以如下URL为例:http://www.scut.edu.cn/webpage/about.htm,按照“:”、“//”、“.”、“/”等符号对该URL进行分块,得到结果:“http”、“www”、“scut”、“edu”、“cn”、“webpage”、“about”、“htm”等URL块。
S13:过滤无用分块;
在所述步骤S12中,对完整的URL进行了分块,其中,“http”、“www”等分块对于分类没有实质性的作用,将此类分块进行剔除,实际操作中,预先存在一用于存放无用分块数据库,将分块的结果与该无用分块数据库进行对比,将所述无用分块中包含的无用分块进行剔除,留下对分类存在实质作用的分块。
S14:形成URL分块;
经过所述步骤S13后,形成最终的URL分块。
请参见图3所示,其为本发明所述方法所述步骤S2流程图。
所述步骤S2中,对各个URL块进行分析,将各个URL分块与预设的URL字典进行匹配,其中,字典中存储着URL分块与URL分类的匹配对。匹配过程中,提取各个URL中包含的可用于分析的特征词,并依据这些特征词在URL字典中进行寻找,找到匹配的大类,从而将URL进行粗分类。这里的粗分类,是指若一个URL中的URL块对应了不同的类别,那么选取对应的类别出现次数最多那个类别作为该URL的粗分类类别。
具体的,所述步骤S2包括步骤:
S21:提取URL分块特征值;
步骤S21中,首先获取所述步骤S1(步骤S14)中产生的URL分块,将分块内容与所述URL字典进行匹配,将所述URL字典中存在的URL分块提取出来,作为URL分块特征值。
此处URL分块特征值的物理含义为将对分类有实质性贡献的分块筛选出来,其与所述步骤S13中的事先过滤掉无用模块不同,所述步骤S13中所过滤掉的是一定不会对分类产生贡献的分块,将可能对分类产生贡献的分块留下来,而所述步骤S21是确定一定能够对分类产生贡献的分块。
S22:将特征值与训练集进行匹配;
确定对分类有实质贡献的分块之后,将这些分块与URL字典进行匹配,获得与这些对分类有实质性贡献的分块在所述URL字典中对应的分类。
S23:完成对URL进行粗分类;
根据所述步骤S22中确定的分类,对URL进行粗分类,如果一个URL在步骤S22中产生了多个分类,那么选择若干分类中出现频率最多的分类作为粗分类。
作为一种优选的方案,大类中包含一个未分类,专门归纳那些无法被粗分类的URL。当选用此种方案的时候,步骤S2变为如图4所述的流程。及所述步骤S2还包括步骤:S220:若步骤S22中无法产生任何分类,则将该URL分类为“未分类”。
所述步骤S3中,将不同的分类对应的URL分列,同一分类URL并入同一队列,形成若干已分类URL队列。
请参见图5所示,其为本发明所述方法所述步骤S4流程图。
所述步骤S4中,对于传递而来的每一个已分类URL队列,进行散列处理,这里的散列处理是为了方便后续的查重操作;根据URL和它对应的大类,,利用聚焦网络爬虫技术对相关网页上的内容和图片进行抓取,并将这些抓取的网页内容和网页上的图片与URL建立对应关系;将URL和抓取的对应网页传递到网页分析单元进行分析。
S41:对已分类URL进行散列处理;
利用的技术是典型的Bloom Filter(布隆过滤器),此处散列处理可以排除掉进入同一个已分类URL队列中的相同的URL,避免重复处理,避免浪费时间,也能够避免数据偏差。
S42:根据URL及其粗分类进行聚焦网络爬虫;
经过所述步骤S41散列处理后的已分类URL队列,对该队列进行主题设定,所述主题与粗分类类别一致。区别在于,粗分类所分的类别可能是例如阿拉伯数字或者是代码化的类别,而主题会根据粗分类的不同对应到具体的类别,例如粗分类中分类为“1”,主题为与粗分类“1”对应的“教育”。
S43:抓取网页内容、网页图片;
根据所述步骤S42中所确定的主题,选取相关网页进行抓取,获取其中的网页内容、网页图片并存储。
请参见图6所示,其为本发明所述方法所述步骤S4流程图。
所述步骤S5中,对传递而来的网页内容和网页上的图片,利用自然语言处理技术和图像处理技术,对其进行分析。我们知道如今的自然语言处理技术已经可以将网页内容进行分析然后将其分类,图像处理技术已经可以将图像表达的是什么分析出来,从而我们可以得到更加细致的主题,并对URL进行细分类。
所述步骤S5具体包括步骤:
S51:对网页内容进行自然语言处理;
首先对所述步骤S43中抓取到的网页(文字)内容进行自然语言处理,提取根据自然语言处理结果得到的详细分类信息;
S52:对网页图片进行图像处理;
与步骤S51同时进行所述步骤S52,对所述步骤S43中抓取到的网页(文字)内容进行自然语言处理,提取根据自然语言处理结果得到的详细分类信息;
S53:整合处理结果;
汇总所述步骤S51与所述步骤S52的信息,进行整合处理。
S54:形成URL的细分类。
根据所述步骤S53过程结果确定URL细分类。
作为一种改进的方案,包括所述步骤S5后的步骤S6,对URL粗分类与URL细分类进行整合修正,以确保数据库的数据正确,具体的,例如可以以粗分类为准、或者以细分类为准,或者根据一定条件进行判断,此处整合修正以最终修正的URL细分类与实际接近为准。
本发明还提供一种互联网用户分群系统,包括:
一URL分块单元,用于对URL进行分块;
一URL分类单元,用于为分块后的URL进行粗分类;
一URL分列单元,用于根据URL粗分类形成已分类URL队列;
一网络爬虫单元,用于依据URL队列进行网页抓取;
一页面与图片分析单元,用于分析被抓取网页,得到URL细分类。
所述URL分块单元包括:
一URL获取模块,用于从URL队列中获取URL;
一URL分块模块:用于对URL进行分块;
一分块过滤模块:用于过滤无用分块;
一分块存储模块:用于形成URL分块;
所述URL分类单元包括:
一特征值提取模块:用于提取URL分块特征值;
一特征值匹配模块:用于将特征值与训练集进行匹配;
一URL粗分类模块:用于对URL进行粗分类;
所述网络爬虫单元包括:
一散列处理模块:用于对已分类URL进行散列处理;
一网络爬虫模块:用于根据URL及其粗分类进行聚焦网络爬虫;
一网页抓取模块:用于抓取网页内容、网页图片;
所述页面与图片分析单元包括:
一自然语言处理模块:用于对网页内容进行自然语言处理;
一图片处理模块:用于对网页图片进行图像处理;
一整合处理模块:用于整合处理结果;
一细分类模块:用于形成URL的细分类。
作为一种改进的方案,本发明所述系统还包括:一整合处理单元,用于对URL粗分类与URL细分类进行整合修正,确定最终URL细分类。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种互联网用户分群方法,其特征在于,包括步骤:
S1:对URL进行分块;
S2:为分块后的URL进行粗分类;
S3:根据URL粗分类形成已分类URL队列;
S4:依据URL队列进行网页抓取;
S5:分析被抓取网页,得到URL细分类。
2.如权利要求1所述的互联网用户分群方法,其特征在于,所述步骤S1具体为:
步骤S11:从URL队列中获取URL;
步骤S12:对URL进行分块;
步骤S13:过滤无用分块;
步骤S14:形成URL分块。
3.如权利要求1所述的互联网用户分群方法,其特征在于,所述步骤S2具体为:
步骤S21:提取URL分块特征值;
步骤S22:将特征值与训练集进行匹配;
步骤S23:完成对URL进行粗分类。
4.如权利要求1所述的互联网用户分群方法,其特征在于,所述步骤S4具体为:
步骤S41:对已分类URL进行散列处理;
步骤S42:根据URL及其粗分类进行聚焦网络爬虫;
步骤S43:抓取网页内容、网页图片。
5.如权利要求1所述的互联网用户分群方法,其特征在于,所述步骤S5具体为:
步骤S51:对网页内容进行自然语言处理;
步骤S52:对网页图片进行图像处理;
步骤S53:整合处理结果;
步骤S54:形成URL的细分类。
6.如权利要求3所述的互联网用户分群方法,其特征在于,所述步骤S2还包括步骤S2后的:
步骤S220:若步骤S22中无法产生任何分类,则将该URL分类为“未分类”。
7.如权利要求1-6中任一项所述的互联网用户分群方法,其特征在于,还包括所述步骤S5后的:
步骤S6:对URL粗分类与URL细分类进行整合修正,确定最终URL细分类。
8.一种互联网用户分群系统,其特征在于,包括:
一URL分块单元,用于对URL进行分块;
一URL分类单元,用于为分块后的URL进行粗分类;
一URL分列单元,用于根据URL粗分类形成已分类URL队列;
一网络爬虫单元,用于依据URL队列进行网页抓取;
一页面与图片分析单元,用于分析被抓取网页,得到URL细分类。
9.如权利要求8所述的互联网用户分群系统,其特征在于,包括:
所述URL分块单元包括:
一URL获取模块,用于从URL队列中获取URL;
一URL分块模块:用于对URL进行分块;
一分块过滤模块:用于过滤无用分块;
一分块存储模块:用于形成URL分块;
所述URL分类单元包括:
一特征值提取模块:用于提取URL分块特征值;
一特征值匹配模块:用于将特征值与训练集进行匹配;
一URL粗分类模块:用于对URL进行粗分类;
所述网络爬虫单元包括:
一散列处理模块:用于对已分类URL进行散列处理;
一网络爬虫模块:用于根据URL及其粗分类进行聚焦网络爬虫;
一网页抓取模块:用于抓取网页内容、网页图片;
所述页面与图片分析单元包括:
一自然语言处理模块:用于对网页内容进行自然语言处理;
一图片处理模块:用于对网页图片进行图像处理;
一整合处理模块:用于整合处理结果;
一细分类模块:用于形成URL的细分类。
10.如权利要求9所述的互联网用户分群系统,其特征在于,还包括:一整合处理单元,用于对URL粗分类与URL细分类进行整合修正,确定最终URL细分类。
CN201610248416.4A 2016-04-20 2016-04-20 一种互联网用户分群方法及系统 Pending CN105930444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610248416.4A CN105930444A (zh) 2016-04-20 2016-04-20 一种互联网用户分群方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610248416.4A CN105930444A (zh) 2016-04-20 2016-04-20 一种互联网用户分群方法及系统

Publications (1)

Publication Number Publication Date
CN105930444A true CN105930444A (zh) 2016-09-07

Family

ID=56838619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610248416.4A Pending CN105930444A (zh) 2016-04-20 2016-04-20 一种互联网用户分群方法及系统

Country Status (1)

Country Link
CN (1) CN105930444A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269102A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于爬虫技术与购物分析相结合的目标营销方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458227B1 (en) * 2010-06-24 2013-06-04 Amazon Technologies, Inc. URL rescue by identifying information related to an item referenced in an invalid URL
CN103902703A (zh) * 2014-03-31 2014-07-02 辽宁四维科技发展有限公司 基于移动互联网访问的文本内容分类方法
CN105117436A (zh) * 2015-08-10 2015-12-02 上海晶赞科技发展有限公司 网站频道自动挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458227B1 (en) * 2010-06-24 2013-06-04 Amazon Technologies, Inc. URL rescue by identifying information related to an item referenced in an invalid URL
CN103902703A (zh) * 2014-03-31 2014-07-02 辽宁四维科技发展有限公司 基于移动互联网访问的文本内容分类方法
CN105117436A (zh) * 2015-08-10 2015-12-02 上海晶赞科技发展有限公司 网站频道自动挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L. K. SHIH等: "Using urls and table layout for web classification tasks", 《PROCEEDINGS OF THE 13TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 *
王立建等: "基于Web页面有效信息抽取的分类方法", 《电脑开发与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269102A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于爬虫技术与购物分析相结合的目标营销方法及装置

Similar Documents

Publication Publication Date Title
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN108256104A (zh) 基于多维特征的互联网网站综合分类方法
CN112001282A (zh) 一种图像识别方法
CN104504150A (zh) 新闻舆情监测系统
CN106708949A (zh) 一种视频有害内容识别方法
CN110647896B (zh) 一种基于logo图像的钓鱼页面识别方法及相关设备
CN107798068A (zh) 一种失信用户数据的处理方法、系统及相关装置
CN104424308A (zh) 网页分类标准获取方法、装置及网页分类方法、装置
CN105447147A (zh) 一种数据处理方法及装置
CN112258254B (zh) 基于大数据架构的互联网广告风险监测方法及系统
KR102060766B1 (ko) 다크웹 범죄 사이트 모니터링 시스템
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN110647895B (zh) 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN105117434A (zh) 一种网页分类方法和系统
CN113038153A (zh) 金融直播违规检测方法、装置、设备及可读存储介质
CN106934049B (zh) 一种新闻选题分析方法及装置
CN102073678A (zh) 一种网站信息分析系统及其方法
CN103838739A (zh) 一种搜索引擎中纠错词的检测方法及系统
CN106294765A (zh) 处理新闻数据的方法及装置
CN103617262A (zh) 图片内容属性识别方法和系统
CN105183843A (zh) 列表页识别系统及方法
CN102929948B (zh) 列表页识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160907

RJ01 Rejection of invention patent application after publication