CN107491513A - 一种网络行为聚类方法及装置 - Google Patents

一种网络行为聚类方法及装置 Download PDF

Info

Publication number
CN107491513A
CN107491513A CN201710667905.8A CN201710667905A CN107491513A CN 107491513 A CN107491513 A CN 107491513A CN 201710667905 A CN201710667905 A CN 201710667905A CN 107491513 A CN107491513 A CN 107491513A
Authority
CN
China
Prior art keywords
network behavior
network
data
incidence relation
targeted customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710667905.8A
Other languages
English (en)
Inventor
李子华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Youyi Si Information Technology LLC
Original Assignee
Anhui Youyi Si Information Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Youyi Si Information Technology LLC filed Critical Anhui Youyi Si Information Technology LLC
Priority to CN201710667905.8A priority Critical patent/CN107491513A/zh
Publication of CN107491513A publication Critical patent/CN107491513A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络行为聚类方法,所述方法包括步骤:根据预设规则,搜集目标用户的网络行为数据;从所述网络行为数据中提取任意一个目标用户网络行为数据的特征信息;根据所述特征信息,获取所述网络行为中任一个网络行为与其它网络行为的关联关系,其中,所述关联关系为:基于预设关键词,判断任意至少两个具有相同所述预设关键词的网络行为具有关联关系;根据所述关联关系,对所述网络行为进行聚类。应用本发明提供的实施例,提高对用户的网络行为的聚类结果的准确率。

Description

一种网络行为聚类方法及装置
技术领域
本发明涉及网络行为聚类技术领域,特别涉及一种网络行为聚类方法及装置。
背景技术
现有技术通常采用层次聚类的聚类方法为聚类间的通信选择合适的目标聚类,最初形成的聚类可以被称为初始聚类,在初始聚类的基础上,选取聚类中具有代表性的对等体测量聚类间的网络距离,将网络距离较近的初始聚类组成一个更高层次的聚类。
在形成更高层次的聚类时,通常使用全球网络定位(GNP,Global NetworkPositioning)坐标方式测量对等体之间的网络距离,首先在网络中选取K个对等体作为目标对等体,之后每个对等体测量它到这K个目标对等体的往返时间(RTT,Real Time Time)得到每个对等体到这K个目标对等体之间的网络距离,得到一个K维的坐标称GNP坐标,计算不同初始聚类中对等体间的网络距离作为初始聚类间的距离,将网络距离小于某个范围的初始聚类组成一个新的更高层次的聚类,在进行初始聚类间的通信时,就可以优先利用这些网络距离较近的初始聚类,每个对等体在需要与外部聚类进行通信时,可以从这个高级聚类中选择初始聚类,优先使用这些网络距离较近的初始聚类,与这些初始聚类内的对等体建立连接,显然可以更有效的利用网络资源。
在对现有技术的研究和实践过程中,发明人发现现有技术存在以下问题:
由于层次聚类的聚类方法为确定性聚类,在形成新的更高层次的聚类后的网络状况将不再被考虑,而在实际运行中,由于初始聚类之间的对等体通信比初始聚类内的对等体通信,需要经过更长的传输网络路径,在这么长的传输路径上,其实际可用带宽很容易受到网络运行状况的影响而变得不稳定,也就是说使用层次聚类的聚类方法确定的网络距离反映的是对等体间某一时间点的可用带宽,不能反映网络可用带宽的动态变化特性,相应采用这个网络距离来为初始聚类间的通信选择合适的目标聚类,在初始聚类间的网络带宽发生动态变化时,将不能根据这些变化选择较优的目标聚类。
发明内容
本发明所要解决的技术问题是提供一种网络行为聚类方法及装置,旨在提高对用户的网络行为的聚类结果的准确率。
为实现上述目的,本发明提供以下的技术方案:一种网络行为聚类方法,其特征在于,所述方法包括步骤:
根据预设规则,搜集目标用户的网络行为数据;
从所述网络行为数据中提取任意一个目标用户网络行为数据的特征信息;
根据所述特征信息,获取所述网络行为中任一个网络行为与其它网络行为的关联关系,其中,所述关联关系为:基于预设关键词,判断任意至少两个具有相同所述预设关键词的网络行为具有关联关系;
根据所述关联关系,对所述网络行为进行聚类。
可选的,所述方法还包括步骤:
确定用户所在的地理位置,并根据地理位置设置地理位置信息权重;
根据所述地理位置信息权重,计算聚类结果中每一类结果的等级值;
将计算出的等级值按照预先设置的排列顺序进行排序。
可选的,所述根据预设规则,搜集目标用户的网络行为数据的步骤,包括:
通过服务器日志分析系统、网络用户活动日志系统集、地理信息系统或第三方数据接口中的至少一种,搜集目标用户的网络行为数据。
可选的,所述网络行为数据包括:
网络购买数据和/或网络评价数据。
可选的,所述从所述网络行为数据中提取任意一个目标用户网络行为数据的步骤,包括:
采用文档词频的技术,从所述网络行为数据中提取任意一个目标用户网络行为数据。
另外,本发明实施例还提供了一种网络行为聚类装置,所述装置包括:
搜集模块,用于根据预设规则,搜集目标用户的网络行为数据;
提取模块,用于从所述网络行为数据中提取任意一个目标用户网络行为数据的特征信息;
获取模块,用于根据所述特征信息,获取所述网络行为中任一个网络行为与其它网络行为的关联关系,其中,所述关联关系为:基于预设关键词,判断任意至少两个具有相同所述预设关键词的网络行为具有关联关系;
聚类模块,用于根据所述关联关系,对所述网络行为进行聚类。
一种网络行为聚类方法,所述方法包括步骤:根据预设规则,搜集目标用户的网络行为数据;从所述网络行为数据中提取任意一个目标用户网络行为数据的特征信息;根据所述特征信息,获取所述网络行为中任一个网络行为与其它网络行为的关联关系,其中,所述关联关系为:基于预设关键词,判断任意至少两个具有相同所述预设关键词的网络行为具有关联关系;根据所述关联关系,对所述网络行为进行聚类。通过预设的关键词确定网络行为之间是否具有关联关系,当具有关联关系时对网络行为进行聚类,这样就提高了对用户的网络行为的聚类结果的准确率。
附图说明
图1是本发明实施例提供的网络行为聚类方法的流程示意图;
图2是本发明实施例提供的网络行为聚类装置的结构示意图。
具体实施方式
为使发明的目的、技术方案和优点更加清楚明了,下面通过附图中及实施例,对本发明技术方案进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明技术方案,并不用于限制本发明技术方案的范围。
为解决现有技术问题,本发明实施例提供一种网络行为聚类方法及装置,以下分别进行详细说明。
参见图1,图1是本发明实施例提供的网络行为聚类方法的流程示意图,所述方法包括步骤:
S101,根据预设规则,搜集目标用户的网络行为数据;
S102,从所述网络行为数据中提取任意一个目标用户网络行为数据的特征信息;
S103,根据所述特征信息,获取所述网络行为中任一个网络行为与其它网络行为的关联关系,其中,所述关联关系为:基于预设关键词,判断任意至少两个具有相同所述预设关键词的网络行为具有关联关系;
S104,根据所述关联关系,对所述网络行为进行聚类。
在本发明的一种实现方式汇总,所述根据预设规则,搜集目标用户的网络行为数据的步骤,包括:通过服务器日志分析系统、网络用户活动日志系统集、地理信息系统或第三方数据接口中的至少一种,搜集目标用户的网络行为数据。
具体的,预设规则是网络行为的限制条件,如产品的购买时间、购买的人群以及人群的性别和年龄等等,通过设置规则,可以获得目标用户,进而获得目标用户的网络行为。具体的,获得目标用户以及获得目标用户的网络行为可以通过爬虫系统进行搜集,也可以采用其他信息搜集的方式进行,只要能够获得对应的信息即可,本发明实施例在此不对其进行具体限定。
另外,需要说明的是,用户的网络行为可以是用户的购买数据或者对于购买产品的评价组成的评价数据等等。如,针对3-5岁的幼童服饰的购买信息进行采集,构成了针对3-5岁的幼童服饰的购买数据。
具体的,所述从所述网络行为数据中提取任意一个目标用户网络行为数据的步骤,可以包括:采用文档词频的技术,从所述网络行为数据中提取任意一个目标用户网络行为数据。
需要说明的是,TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。
本发明实施例中,通过对任意两个网络行为设定基于预设关键词是否存在关联关系,从而确定这两个网络行为是否具有关联关系,并且将所有具有关联关系的网络行为进行聚类,从而避免将抓取到的网络行为直接进行聚类,可能存在不不相关的网络行为聚类到了一起,聚类的准确率不高,另外这样进行聚类也会导致聚类的效率也较低。因此,应用本发明提供的实施例可以提高聚类的准确率的同时,也能够提高用户的网络行为的效率。
在本发明的一个实施例中,所述方法还可以包括如下步骤:确定用户所在的地理位置,并根据地理位置设置地理位置信息权重;根据所述地理位置信息权重,计算聚类结果中每一类结果的等级值;将计算出的等级值按照预先设置的排列顺序进行排序。
另外,为了有针对性的对用户行为进行聚类,还可以设置不同地区的用户以不同的权重,即地理位置信息权重,示例性的权重可以为1.0,2.0,2.5等等,可以将权重值与聚类的准确性进行相乘,作为该地区的用户的等级值,将不同地区的用户的等级值进行排序,从而可以得到不同地区的用户所具有网络行为的聚类结果,从而可以满足开发设根据这些结果有针对性的进行研究,增强了开发者的目的性,提高了开发者的数据体验。
参见图2,本发明实施例还提供了一种网络行为聚类装置,所述装置包括:
搜集模块201,用于根据预设规则,搜集目标用户的网络行为数据;
提取模块202,用于从所述网络行为数据中提取任意一个目标用户网络行为数据的特征信息;
获取模块203,用于根据所述特征信息,获取所述网络行为中任一个网络行为与其它网络行为的关联关系,其中,所述关联关系为:基于预设关键词,判断任意至少两个具有相同所述预设关键词的网络行为具有关联关系;
聚类模块204,用于根据所述关联关系,对所述网络行为进行聚类。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种网络行为聚类方法,其特征在于,所述方法包括步骤:
根据预设规则,搜集目标用户的网络行为数据;
从所述网络行为数据中提取任意一个目标用户网络行为数据的特征信息;
根据所述特征信息,获取所述网络行为中任一个网络行为与其它网络行为的关联关系,其中,所述关联关系为:基于预设关键词,判断任意至少两个具有相同所述预设关键词的网络行为具有关联关系;
根据所述关联关系,对所述网络行为进行聚类。
2.根据权利要求1所述的网络行为聚类方法,其特征在于,所述方法还包括步骤:
确定用户所在的地理位置,并根据地理位置设置地理位置信息权重;
根据所述地理位置信息权重,计算聚类结果中每一类结果的等级值;
将计算出的等级值按照预先设置的排列顺序进行排序。
3.根据权利要求1所述的网络行为聚类方法,其特征在于,所述根据预设规则,搜集目标用户的网络行为数据的步骤,包括:
通过服务器日志分析系统、网络用户活动日志系统集、地理信息系统或第三方数据接口中的至少一种,搜集目标用户的网络行为数据。
4.根据权利要求1-3任一项所述的网络行为聚类方法,其特征在于,所述网络行为数据包括:
网络购买数据和/或网络评价数据。
5.根据权利要求4所述的网络行为聚类方法,其特征在于,所述从所述网络行为数据中提取任意一个目标用户网络行为数据的步骤,包括:
采用文档词频的技术,从所述网络行为数据中提取任意一个目标用户网络行为数据。
6.一种网络行为聚类装置,其特征在于,所述装置包括:
搜集模块,用于根据预设规则,搜集目标用户的网络行为数据;
提取模块,用于从所述网络行为数据中提取任意一个目标用户网络行为数据的特征信息;
获取模块,用于根据所述特征信息,获取所述网络行为中任一个网络行为与其它网络行为的关联关系,其中,所述关联关系为:基于预设关键词,判断任意至少两个具有相同所述预设关键词的网络行为具有关联关系;
聚类模块,用于根据所述关联关系,对所述网络行为进行聚类。
CN201710667905.8A 2017-08-07 2017-08-07 一种网络行为聚类方法及装置 Pending CN107491513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710667905.8A CN107491513A (zh) 2017-08-07 2017-08-07 一种网络行为聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710667905.8A CN107491513A (zh) 2017-08-07 2017-08-07 一种网络行为聚类方法及装置

Publications (1)

Publication Number Publication Date
CN107491513A true CN107491513A (zh) 2017-12-19

Family

ID=60645112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710667905.8A Pending CN107491513A (zh) 2017-08-07 2017-08-07 一种网络行为聚类方法及装置

Country Status (1)

Country Link
CN (1) CN107491513A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101232415A (zh) * 2007-01-22 2008-07-30 华为技术有限公司 对等网络节点访问装置、方法和系统
CN101355504A (zh) * 2008-08-14 2009-01-28 成都市华为赛门铁克科技有限公司 一种用户行为的确定方法和装置
CN101901251A (zh) * 2010-06-28 2010-12-01 吉林大学 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
CN101996215A (zh) * 2009-08-27 2011-03-30 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
CN102542147A (zh) * 2010-12-31 2012-07-04 北京科东电力控制系统有限责任公司 一种电力网络中厂站之间拓扑相似性的度量方法
US20140337513A1 (en) * 2013-05-13 2014-11-13 BloomReach Inc. Cross platform user joining

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101232415A (zh) * 2007-01-22 2008-07-30 华为技术有限公司 对等网络节点访问装置、方法和系统
CN101355504A (zh) * 2008-08-14 2009-01-28 成都市华为赛门铁克科技有限公司 一种用户行为的确定方法和装置
CN101996215A (zh) * 2009-08-27 2011-03-30 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
CN101901251A (zh) * 2010-06-28 2010-12-01 吉林大学 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
CN102542147A (zh) * 2010-12-31 2012-07-04 北京科东电力控制系统有限责任公司 一种电力网络中厂站之间拓扑相似性的度量方法
US20140337513A1 (en) * 2013-05-13 2014-11-13 BloomReach Inc. Cross platform user joining

Similar Documents

Publication Publication Date Title
US11659050B2 (en) Discovering signature of electronic social networks
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
US8417654B1 (en) Decision tree refinement
CN109345302A (zh) 机器学习模型训练方法、装置、存储介质和计算机设备
CN109902708A (zh) 一种推荐模型训练方法及相关装置
US20200026759A1 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
CN108629413A (zh) 神经网络模型训练、交易行为风险识别方法及装置
CN110245301A (zh) 一种推荐方法、装置及存储介质
Oliveira et al. Evaluation of two methods for identifying trip purpose in GPS-based household travel surveys
EP2350819A2 (en) Determining user similarities based on location histories
CN106407349A (zh) 一种产品推荐方法及装置
CN108491714A (zh) 验证码的人机识别方法
US9882949B1 (en) Dynamic detection of data correlations based on realtime data
CN107003834B (zh) 行人检测设备和方法
CN108345601A (zh) 搜索结果排序方法及装置
Unger et al. Inferring contextual preferences using deep auto-encoding
Cholaquidis et al. Set estimation from reflected Brownian motion
CN108664515A (zh) 一种搜索方法及装置,电子设备
CN107203558A (zh) 对象推荐方法和装置、推荐信息处理方法和装置
CN107392392A (zh) 基于深度学习的微博转发预测方法
CN112950218A (zh) 一种业务风险评估方法、装置、计算机设备和存储介质
CN106547901A (zh) 一种基于能量优化的微博用户转发行为预测方法
Almaguer-Angeles et al. Choosing machine learning algorithms for anomaly detection in smart building iot scenarios
CN109949175B (zh) 一种基于协同过滤和相似性度量的用户属性推断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171219