CN106228178A - 网络用户行为预测系统 - Google Patents

网络用户行为预测系统 Download PDF

Info

Publication number
CN106228178A
CN106228178A CN201610542222.5A CN201610542222A CN106228178A CN 106228178 A CN106228178 A CN 106228178A CN 201610542222 A CN201610542222 A CN 201610542222A CN 106228178 A CN106228178 A CN 106228178A
Authority
CN
China
Prior art keywords
data
user
module
behavior analysis
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610542222.5A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610542222.5A priority Critical patent/CN106228178A/zh
Publication of CN106228178A publication Critical patent/CN106228178A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了网络用户行为预测系统,包括依次连接的数据集储模块、数据预处理模块、用户网络行为分析模块、数据展现模块;所述数据集储模块用于通过采集设备采集并存储用户移动互联网的有用数据;所述数据预处理模块,用于对所述有用数据进行数据清理和清洗,过滤掉包含噪音和异常的数据,形成用户行为分析的有效数据集,并将所述有效数据集传送给用户网络行为分析模块;所述用户网络行为分析模块用于对所述有效数据集进行分类整理和分析,并对用户的行为进行分析,输出用户行为分析结果;所述数据展现模块用于将所述用户行为分析结果展现给用户。本发明支持海量用户移动网络数据的分析挖掘,预测效果好。

Description

网络用户行为预测系统
技术领域
本发明涉及移动互联网技术领域,具体涉及网络用户行为预测系统。
背景技术
用户网络行为分析,是指在获得用户在网络操作行为的相关数据的情况下,对相关数据进行统计分析,从而判断发现网络用户的群体构成和各自的喜好,以及为后续相关操作提供依据。
相关技术中的用户网络行为分析系统,一般包括信息采集模块、信息存储模块、信息挖掘统计模块、系统展现模块。信息采集模块用以采集用户网络行为数据,将采集到的数据汇总上传给信息存储模块;信息存储模块用以存储信息采集模块采集上传的数据,并进行汇总,将汇总后的数据输出到原始数据库中;信息挖掘统计模块用以定期从原始数据库中提取出数据并进行统计、挖掘和分析,具体包括排名统计、用户行为分类、用户分类、用户聚类等,并将分析结果输出到统计数据库中;系统展现输出模块,用以从统计数据库中获取数据,展示用户网络行为分析的结果。上述用户网络行为分析系统,采用的数据大部分是部分媒体的数据或者是小样本的数据,这样无法准确的判别用户的行为,且不支持海量用户移动网络数据的分析挖掘;另外,基于K-means聚类方法的数据统计模块,不能有效避免单一采取随机抽样方法所带来的偶然性,聚类稳定性低。
发明内容
针对上述问题,本发明提供网络用户行为预测系统。
本发明的目的采用以下技术方案来实现:
网络用户行为预测系统,包括依次连接的数据集储模块、数据预处理模块、用户网络行为分析模块、数据展现模块;所述数据集储模块用于通过采集设备采集并存储用户移动互联网的有用数据;所述数据预处理模块,用于对所述有用数据进行数据清理和清洗,过滤掉包含噪音和异常的数据,形成用户行为分析的有效数据集,并将所述有效数据集传送给用户网络行为分析模块;所述用户网络行为分析模块用于对所述有效数据集进行分类整理和分析,并对用户的行为进行分析,输出用户行为分析结果;所述数据展现模块用于将所述用户行为分析结果展现给用户;所述用户网络行为分析模块包括依次连接的数据准备单元、数据挖掘单元和用户行为分析单元,所述数据准备单元用于剔除有效数据集中的缺失值和异常值,并进一步进行归一化处理,其中异常值采用统计学中的常用异常点判别方法GESR进行判别;所述数据挖掘单元用于采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,并建立用户分群模型;所述用户行为分析单元用于采用决策树算法对所述分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测并输出用户行为分析结果。
其中,所述数据集储模块包括通过专有的数据采集设备链接程序开发的采集设备,所述采集设备用于解析、存储所述访问日志和信令日志数据。
其中,所述用户移动互联网的有用数据包括:移动互联网的访问日志数据和信令日志数据中的一种或多种。
其中,所述数据集储模块定时向所述数据预处理模块传送最近时段的用户移动互联网的有用数据更新。
其中,所述数据挖掘单元采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,具体为:
1)设所述有效数据集具有n个样本,对n个样本进行向量化,通过夹角余弦函数计算所有样本两两之间的相似度,得到相似度矩阵XS;
2)对相似度矩阵XS的每一行进行求和,计算出每一个样本与整个有效数据集的相似度,设XS=[sim(ai,aj)]n×n,i,j=1,…,n,其中sim(ai,aj)表示样本ai,aj间的相似度,求和公式为:
XS p = Σ j = 1 n s i m ( a i , a j ) , p = 1 , ... , n
3)按降序排列XSp,p=1,…,n,设XSp按从大到小排列的前4个值为XSmax,XSmax-1,XSmax-2,XSmax-3,若选择与最大值XSmax相对应的样本作为第一个初始的聚簇中心,否则选择与XSmax,XSmax-1,XSmax-2,XSmax-3对应的四个样本的均值作为第一个初始的簇中心,T为设定的比例值;
4)将最大值为XSmax对应的矩阵中行向量的元素进行升序排列,假设前k-1个最小的元素为XSpq,q=1,…,k-1,选择前k-1个最小的元素XSpq相对应的样本aq作为剩余的k-1个初始的聚簇中心,其中所述k值的设定方法为:设定k值可能取值的区间,通过测试k的不同取值,并对区间内的各个值进行聚类,通过比较协方差,确定聚类之间的显著性差异,从而来探査聚类的类型信息,并最终确定合适的k值;
5)计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最高的聚簇中,形成变化后的k个聚簇;
6)计算变化后的聚簇中各样本的均值,将其作为更新后的聚簇中心代替更新前的聚簇中心;
7)若更新前的聚簇中心与更新后的聚簇中心相同,或者目标函数达到了最小值,停止更新,所述目标函数为:
J = Σ l = 1 k Σ a x ∈ C l | | a x - a x l ‾ | | 2
其中,Cl表示k个聚簇中的第l个聚簇,ax为第l个聚簇中的样本,为第l个聚簇的中心。
其中,所述设定的比例值T的取值范围为[1.45,1.55]。
本发明的有益效果为:
1、支持海量用户移动网络数据的分析挖掘;
2、设置基于改进K-means聚类方法的数据挖掘单元,采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,有效避免单一采取随机抽样方法所带来的偶然性,解决原有算法在选取k值以及初始化聚类中心时所存在的问题,提高了聚类稳定性,进一步提高了用户行为分析精度;
3、设置的用户行为分析单元采用决策树算法对分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测,识别效果好,预测精度较高。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明各模块的连接示意图;
图2是本发明用户网络行为分析模块的结构示意图。
附图标记:
数据集储模块1、数据预处理模块2、用户网络行为分析模块3、数据展现模块4。
具体实施方式
结合以下实施例对本发明作进一步描述。
实施例1
参见图1、图2,本实施例网络用户行为预测系统,包括依次连接的数据集储模块1、数据预处理模块2、用户网络行为分析模块3、数据展现模块4;所述数据集储模块1用于通过采集设备采集并存储用户移动互联网的有用数据;所述数据预处理模块2,用于对所述有用数据进行数据清理和清洗,过滤掉包含噪音和异常的数据,形成用户行为分析的有效数据集,并将所述有效数据集传送给用户网络行为分析模块3;所述用户网络行为分析模块3用于对所述有效数据集进行分类整理和分析,并对用户的行为进行分析,输出用户行为分析结果;所述数据展现模块4用于将所述用户行为分析结果展现给用户;所述用户网络行为分析模块3包括依次连接的数据准备单元、数据挖掘单元和用户行为分析单元,所述数据准备单元用于剔除有效数据集中的缺失值和异常值,并进一步进行归一化处理,其中异常值采用统计学中的常用异常点判别方法GESR进行判别;所述数据挖掘单元用于采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,并建立用户分群模型;所述用户行为分析单元用于采用决策树算法对所述分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测并输出用户行为分析结果。
其中,所述数据集储模块1包括通过专有的数据采集设备链接程序开发的采集设备,所述采集设备用于解析、存储所述访问日志和信令日志数据。
其中,所述用户移动互联网的有用数据包括:移动互联网的访问日志数据和信令日志数据中的一种或多种。
其中,所述数据集储模块1定时向所述数据预处理模块2传送最近时段的用户移动互联网的有用数据更新。
其中,所述数据挖掘单元采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,具体为:
1)设所述有效数据集具有n个样本,对n个样本进行向量化,通过夹角余弦函数计算所有样本两两之间的相似度,得到相似度矩阵XS;
2)对相似度矩阵XS的每一行进行求和,计算出每一个样本与整个有效数据集的相似度,设XS=[sim(ai,aj)]n×n,i,j=1,…,n,其中sim(ai,aj)表示样本ai,aj间的相似度,求和公式为:
XS p = Σ j = 1 n s i m ( a i , a j ) , p = 1 , ... , n
3)按降序排列XSp,p=1,…,n,设XSp按从大到小排列的前4个值为XSmax,XSmax-1,XSmax-2,XSmax-3,若选择与最大值XSmax相对应的样本作为第一个初始的聚簇中心,否则选择与XSmax,XSmax-1,XSmax-2,XSmax-3对应的四个样本的均值作为第一个初始的簇中心,T为设定的比例值;
4)将最大值为XSmax对应的矩阵中行向量的元素进行升序排列,假设前k-1个最小的元素为XSpq,q=1,…,k-1,选择前k-1个最小的元素XSpq相对应的样本aq作为剩余的k-1个初始的聚簇中心,其中所述k值的设定方法为:设定k值可能取值的区间,通过测试k的不同取值,并对区间内的各个值进行聚类,通过比较协方差,确定聚类之间的显著性差异,从而来探査聚类的类型信息,并最终确定合适的k值;
5)计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最高的聚簇中,形成变化后的k个聚簇;
6)计算变化后的聚簇中各样本的均值,将其作为更新后的聚簇中心代替更新前的聚簇中心;
7)若更新前的聚簇中心与更新后的聚簇中心相同,或者目标函数达到了最小值,停止更新,所述目标函数为:
J = Σ l = 1 k Σ a x ∈ C l | | a x - a x l ‾ | | 2
其中,Cl表示k个聚簇中的第l个聚簇,ax为第l个聚簇中的样本,为第l个聚簇的中心。
本实施例支持海量用户移动网络数据的分析挖掘;设置的用户行为分析单元采用决策树算法对分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测,识别效果好,预测精度较高;设置基于改进K-means聚类方法的数据挖掘单元,采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,有效避免单一采取随机抽样方法所带来的偶然性,解决原有算法在选取k值以及初始化聚类中心时所存在的问题,提高了聚类稳定性,进一步提高了用户行为分析精度;其中T=1.45,用户行为分析精度相对提高了5%。
实施例2
参见图1、图2,本实施例网络用户行为预测系统,包括依次连接的数据集储模块1、数据预处理模块2、用户网络行为分析模块3、数据展现模块4;所述数据集储模块1用于通过采集设备采集并存储用户移动互联网的有用数据;所述数据预处理模块2,用于对所述有用数据进行数据清理和清洗,过滤掉包含噪音和异常的数据,形成用户行为分析的有效数据集,并将所述有效数据集传送给用户网络行为分析模块3;所述用户网络行为分析模块3用于对所述有效数据集进行分类整理和分析,并对用户的行为进行分析,输出用户行为分析结果;所述数据展现模块4用于将所述用户行为分析结果展现给用户;所述用户网络行为分析模块3包括依次连接的数据准备单元、数据挖掘单元和用户行为分析单元,所述数据准备单元用于剔除有效数据集中的缺失值和异常值,并进一步进行归一化处理,其中异常值采用统计学中的常用异常点判别方法GESR进行判别;所述数据挖掘单元用于采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,并建立用户分群模型;所述用户行为分析单元用于采用决策树算法对所述分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测并输出用户行为分析结果。
其中,所述数据集储模块1包括通过专有的数据采集设备链接程序开发的采集设备,所述采集设备用于解析、存储所述访问日志和信令日志数据。
其中,所述用户移动互联网的有用数据包括:移动互联网的访问日志数据和信令日志数据中的一种或多种。
其中,所述数据集储模块1定时向所述数据预处理模块2传送最近时段的用户移动互联网的有用数据更新。
其中,所述数据挖掘单元采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,具体为:
1)设所述有效数据集具有n个样本,对n个样本进行向量化,通过夹角余弦函数计算所有样本两两之间的相似度,得到相似度矩阵XS;
2)对相似度矩阵XS的每一行进行求和,计算出每一个样本与整个有效数据集的相似度,设XS=[sim(ai,aj)]n×n,i,j=1,…,n,其中sim(ai,aj)表示样本ai,aj间的相似度,求和公式为:
XS p = Σ j = 1 n s i m ( a i , a j ) , p = 1 , ... , n
3)按降序排列XSp,p=1,…,n,设XSp按从大到小排列的前4个值为XSmax,XSmax-1,XSmax-2,XSmax-3,若选择与最大值XSmax相对应的样本作为第一个初始的聚簇中心,否则选择与XSmax,XSmax-1,XSmax-2,XSmax-3对应的四个样本的均值作为第一个初始的簇中心,T为设定的比例值;
4)将最大值为XSmax对应的矩阵中行向量的元素进行升序排列,假设前k-1个最小的元素为XSpq,q=1,…,k-1,选择前k-1个最小的元素XSpq相对应的样本aq作为剩余的k-1个初始的聚簇中心,其中所述k值的设定方法为:设定k值可能取值的区间,通过测试k的不同取值,并对区间内的各个值进行聚类,通过比较协方差,确定聚类之间的显著性差异,从而来探査聚类的类型信息,并最终确定合适的k值;
5)计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最高的聚簇中,形成变化后的k个聚簇;
6)计算变化后的聚簇中各样本的均值,将其作为更新后的聚簇中心代替更新前的聚簇中心;
7)若更新前的聚簇中心与更新后的聚簇中心相同,或者目标函数达到了最小值,停止更新,所述目标函数为:
J = Σ l = 1 k Σ a x ∈ C l | | a x - a x l ‾ | | 2
其中,Cl表示k个聚簇中的第l个聚簇,ax为第l个聚簇中的样本,为第l个聚簇的中心。
本实施例支持海量用户移动网络数据的分析挖掘;设置的用户行为分析单元采用决策树算法对分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测,识别效果好,预测精度较高;设置基于改进K-means聚类方法的数据挖掘单元,采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,有效避免单一采取随机抽样方法所带来的偶然性,解决原有算法在选取k值以及初始化聚类中心时所存在的问题,提高了聚类稳定性,进一步提高了用户行为分析精度;其中T=1.47,用户行为分析精度相对提高了4.8%。
实施例3
参见图1、图2,本实施例网络用户行为预测系统,包括依次连接的数据集储模块1、数据预处理模块2、用户网络行为分析模块3、数据展现模块4;所述数据集储模块1用于通过采集设备采集并存储用户移动互联网的有用数据;所述数据预处理模块2,用于对所述有用数据进行数据清理和清洗,过滤掉包含噪音和异常的数据,形成用户行为分析的有效数据集,并将所述有效数据集传送给用户网络行为分析模块3;所述用户网络行为分析模块3用于对所述有效数据集进行分类整理和分析,并对用户的行为进行分析,输出用户行为分析结果;所述数据展现模块4用于将所述用户行为分析结果展现给用户;所述用户网络行为分析模块3包括依次连接的数据准备单元、数据挖掘单元和用户行为分析单元,所述数据准备单元用于剔除有效数据集中的缺失值和异常值,并进一步进行归一化处理,其中异常值采用统计学中的常用异常点判别方法GESR进行判别;所述数据挖掘单元用于采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,并建立用户分群模型;所述用户行为分析单元用于采用决策树算法对所述分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测并输出用户行为分析结果。
其中,所述数据集储模块1包括通过专有的数据采集设备链接程序开发的采集设备,所述采集设备用于解析、存储所述访问日志和信令日志数据。
其中,所述用户移动互联网的有用数据包括:移动互联网的访问日志数据和信令日志数据中的一种或多种。
其中,所述数据集储模块1定时向所述数据预处理模块2传送最近时段的用户移动互联网的有用数据更新。
其中,所述数据挖掘单元采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,具体为:
1)设所述有效数据集具有n个样本,对n个样本进行向量化,通过夹角余弦函数计算所有样本两两之间的相似度,得到相似度矩阵XS;
2)对相似度矩阵XS的每一行进行求和,计算出每一个样本与整个有效数据集的相似度,设XS=[sim(ai,aj)]n×n,i,j=1,…,n,其中sim(ai,aj)表示样本ai,aj间的相似度,求和公式为:
XS p = Σ j = 1 n s i m ( a i , a j ) , p = 1 , ... , n
3)按降序排列XSp,p=1,…,n,设XSp按从大到小排列的前4个值为XSmax,XSmax-1,XSmax-2,XSmax-3,若选择与最大值XSmax相对应的样本作为第一个初始的聚簇中心,否则选择与XSmax,XSmax-1,XSmax-2,XSmax-3对应的四个样本的均值作为第一个初始的簇中心,T为设定的比例值;
4)将最大值为XSmax对应的矩阵中行向量的元素进行升序排列,假设前k-1个最小的元素为XSpq,q=1,…,k-1,选择前k-1个最小的元素XSpq相对应的样本aq作为剩余的k-1个初始的聚簇中心,其中所述k值的设定方法为:设定k值可能取值的区间,通过测试k的不同取值,并对区间内的各个值进行聚类,通过比较协方差,确定聚类之间的显著性差异,从而来探査聚类的类型信息,并最终确定合适的k值;
5)计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最高的聚簇中,形成变化后的k个聚簇;
6)计算变化后的聚簇中各样本的均值,将其作为更新后的聚簇中心代替更新前的聚簇中心;
7)若更新前的聚簇中心与更新后的聚簇中心相同,或者目标函数达到了最小值,停止更新,所述目标函数为:
J = Σ l = 1 k Σ a x ∈ C l | | a x - a x l ‾ | | 2
其中,Cl表示k个聚簇中的第l个聚簇,ax为第l个聚簇中的样本,为第l个聚簇的中心。
本实施例支持海量用户移动网络数据的分析挖掘;设置的用户行为分析单元采用决策树算法对分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测,识别效果好,预测精度较高;设置基于改进K-means聚类方法的数据挖掘单元,采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,有效避免单一采取随机抽样方法所带来的偶然性,解决原有算法在选取k值以及初始化聚类中心时所存在的问题,提高了聚类稳定性,进一步提高了用户行为分析精度;其中T=1.50,用户行为分析精度相对提高了5%。
实施例4
参见图1、图2,本实施例网络用户行为预测系统,包括依次连接的数据集储模块1、数据预处理模块2、用户网络行为分析模块3、数据展现模块4;所述数据集储模块1用于通过采集设备采集并存储用户移动互联网的有用数据;所述数据预处理模块2,用于对所述有用数据进行数据清理和清洗,过滤掉包含噪音和异常的数据,形成用户行为分析的有效数据集,并将所述有效数据集传送给用户网络行为分析模块3;所述用户网络行为分析模块3用于对所述有效数据集进行分类整理和分析,并对用户的行为进行分析,输出用户行为分析结果;所述数据展现模块4用于将所述用户行为分析结果展现给用户;所述用户网络行为分析模块3包括依次连接的数据准备单元、数据挖掘单元和用户行为分析单元,所述数据准备单元用于剔除有效数据集中的缺失值和异常值,并进一步进行归一化处理,其中异常值采用统计学中的常用异常点判别方法GESR进行判别;所述数据挖掘单元用于采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,并建立用户分群模型;所述用户行为分析单元用于采用决策树算法对所述分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测并输出用户行为分析结果。
其中,所述数据集储模块1包括通过专有的数据采集设备链接程序开发的采集设备,所述采集设备用于解析、存储所述访问日志和信令日志数据。
其中,所述用户移动互联网的有用数据包括:移动互联网的访问日志数据和信令日志数据中的一种或多种。
其中,所述数据集储模块1定时向所述数据预处理模块2传送最近时段的用户移动互联网的有用数据更新。
其中,所述数据挖掘单元采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,具体为:
1)设所述有效数据集具有n个样本,对n个样本进行向量化,通过夹角余弦函数计算所有样本两两之间的相似度,得到相似度矩阵XS;
2)对相似度矩阵XS的每一行进行求和,计算出每一个样本与整个有效数据集的相似度,设XS=[sim(ai,aj)]n×n,i,j=1,…,n,其中sim(ai,aj)表示样本ai,aj间的相似度,求和公式为:
XS p = Σ j = 1 n s i m ( a i , a j ) , p = 1 , ... , n
3)按降序排列XSp,p=1,…,n,设XSp按从大到小排列的前4个值为XSmax,XSmax-1,XSmax-2,XSmax-3,若选择与最大值XSmax相对应的样本作为第一个初始的聚簇中心,否则选择与XSmax,XSmax-1,XSmax-2,XSmax-3对应的四个样本的均值作为第一个初始的簇中心,T为设定的比例值;
4)将最大值为XSmax对应的矩阵中行向量的元素进行升序排列,假设前k-1个最小的元素为XSpq,q=1,…,k-1,选择前k-1个最小的元素XSpq相对应的样本aq作为剩余的k-1个初始的聚簇中心,其中所述k值的设定方法为:设定k值可能取值的区间,通过测试k的不同取值,并对区间内的各个值进行聚类,通过比较协方差,确定聚类之间的显著性差异,从而来探査聚类的类型信息,并最终确定合适的k值;
5)计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最高的聚簇中,形成变化后的k个聚簇;
6)计算变化后的聚簇中各样本的均值,将其作为更新后的聚簇中心代替更新前的聚簇中心;
7)若更新前的聚簇中心与更新后的聚簇中心相同,或者目标函数达到了最小值,停止更新,所述目标函数为:
J = Σ l = 1 k Σ a x ∈ C l | | a x - a x l ‾ | | 2
其中,Cl表示k个聚簇中的第l个聚簇,ax为第l个聚簇中的样本,为第l个聚簇的中心。
本实施例支持海量用户移动网络数据的分析挖掘;设置的用户行为分析单元采用决策树算法对分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测,识别效果好,预测精度较高;设置基于改进K-means聚类方法的数据挖掘单元,采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,有效避免单一采取随机抽样方法所带来的偶然性,解决原有算法在选取k值以及初始化聚类中心时所存在的问题,提高了聚类稳定性,进一步提高了用户行为分析精度;其中T=1.52,用户行为分析精度相对提高了4.5%。
实施例5
参见图1、图2,本实施例网络用户行为预测系统,包括依次连接的数据集储模块1、数据预处理模块2、用户网络行为分析模块3、数据展现模块4;所述数据集储模块1用于通过采集设备采集并存储用户移动互联网的有用数据;所述数据预处理模块2,用于对所述有用数据进行数据清理和清洗,过滤掉包含噪音和异常的数据,形成用户行为分析的有效数据集,并将所述有效数据集传送给用户网络行为分析模块3;所述用户网络行为分析模块3用于对所述有效数据集进行分类整理和分析,并对用户的行为进行分析,输出用户行为分析结果;所述数据展现模块4用于将所述用户行为分析结果展现给用户;所述用户网络行为分析模块3包括依次连接的数据准备单元、数据挖掘单元和用户行为分析单元,所述数据准备单元用于剔除有效数据集中的缺失值和异常值,并进一步进行归一化处理,其中异常值采用统计学中的常用异常点判别方法GESR进行判别;所述数据挖掘单元用于采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,并建立用户分群模型;所述用户行为分析单元用于采用决策树算法对所述分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测并输出用户行为分析结果。
其中,所述数据集储模块1包括通过专有的数据采集设备链接程序开发的采集设备,所述采集设备用于解析、存储所述访问日志和信令日志数据。
其中,所述用户移动互联网的有用数据包括:移动互联网的访问日志数据和信令日志数据中的一种或多种。
其中,所述数据集储模块1定时向所述数据预处理模块2传送最近时段的用户移动互联网的有用数据更新。
其中,所述数据挖掘单元采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,具体为:
1)设所述有效数据集具有n个样本,对n个样本进行向量化,通过夹角余弦函数计算所有样本两两之间的相似度,得到相似度矩阵XS;
2)对相似度矩阵XS的每一行进行求和,计算出每一个样本与整个有效数据集的相似度,设XS=[sim(ai,aj)]n×n,i,j=1,…,n,其中sim(ai,aj)表示样本ai,aj间的相似度,求和公式为:
XS p = Σ j = 1 n s i m ( a i , a j ) , p = 1 , ... , n
3)按降序排列XSp,p=1,…,n,设XSp按从大到小排列的前4个值为XSmax,XSmax-1,XSmax-2,XSmax-3,若选择与最大值XSmax相对应的样本作为第一个初始的聚簇中心,否则选择与XSmax,XSmax-1,XSmax-2,XSmax-3对应的四个样本的均值作为第一个初始的簇中心,T为设定的比例值;
4)将最大值为XSmax对应的矩阵中行向量的元素进行升序排列,假设前k-1个最小的元素为XSpq,q=1,…,k-1,选择前k-1个最小的元素XSpq相对应的样本aq作为剩余的k-1个初始的聚簇中心,其中所述k值的设定方法为:设定k值可能取值的区间,通过测试k的不同取值,并对区间内的各个值进行聚类,通过比较协方差,确定聚类之间的显著性差异,从而来探査聚类的类型信息,并最终确定合适的k值;
5)计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最高的聚簇中,形成变化后的k个聚簇;
6)计算变化后的聚簇中各样本的均值,将其作为更新后的聚簇中心代替更新前的聚簇中心;
7)若更新前的聚簇中心与更新后的聚簇中心相同,或者目标函数达到了最小值,停止更新,所述目标函数为:
J = Σ l = 1 k Σ a x ∈ C l | | a x - a x l ‾ | | 2
其中,Cl表示k个聚簇中的第l个聚簇,ax为第l个聚簇中的样本,为第l个聚簇的中心。
本实施例支持海量用户移动网络数据的分析挖掘;设置的用户行为分析单元采用决策树算法对分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测,识别效果好,预测精度较高;设置基于改进K-means聚类方法的数据挖掘单元,采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,有效避免单一采取随机抽样方法所带来的偶然性,解决原有算法在选取k值以及初始化聚类中心时所存在的问题,提高了聚类稳定性,进一步提高了用户行为分析精度;其中T=1.55,用户行为分析精度相对提高了4.7%。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (6)

1.网络用户行为预测系统,其特征在于,包括依次连接的数据集储模块、数据预处理模块、用户网络行为分析模块、数据展现模块;所述数据集储模块用于通过采集设备采集并存储用户移动互联网的有用数据;所述数据预处理模块,用于对所述有用数据进行数据清理和清洗,过滤掉包含噪音和异常的数据,形成用户行为分析的有效数据集,并将所述有效数据集传送给用户网络行为分析模块;所述用户网络行为分析模块用于对所述有效数据集进行分类整理和分析,并对用户的行为进行分析,输出用户行为分析结果;所述数据展现模块用于将所述用户行为分析结果展现给用户;所述用户网络行为分析模块包括依次连接的数据准备单元、数据挖掘单元和用户行为分析单元,所述数据准备单元用于剔除有效数据集中的缺失值和异常值,并进一步进行归一化处理,其中异常值采用统计学中的常用异常点判别方法GESR进行判别;所述数据挖掘单元用于采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,并建立用户分群模型;所述用户行为分析单元用于采用决策树算法对所述分群模型进行标识区分,识别用户身份,并根据标识区分识别结果建立人工神经网络模型,进而对用户行为进行预测并输出用户行为分析结果。
2.根据权利要求1所述的网络用户行为预测系统,其特征在于,所述数据集储模块包括通过专有的数据采集设备链接程序开发的采集设备,所述采集设备用于解析、存储所述访问日志和信令日志数据。
3.根据权利要求1所述的网络用户行为预测系统,其特征在于,所述用户移动互联网的有用数据包括:移动互联网的访问日志数据和信令日志数据中的一种或多种。
4.根据权利要求1所述的网络用户行为预测系统,其特征在于,所述数据集储模块定时向所述数据预处理模块传送最近时段的用户移动互联网的有用数据更新。
5.根据权利要求1所述的网络用户行为预测系统,其特征在于,所述数据挖掘单元采用改进K-means聚类方法对由数据准备单元处理过的有效数据集进行聚类,具体为:
1)设所述有效数据集具有n个样本,对n个样本进行向量化,通过夹角余弦函数计算所有样本两两之间的相似度,得到相似度矩阵XS;
2)对相似度矩阵XS的每一行进行求和,计算出每一个样本与整个有效数据集的相似度,设XS=[sim(ai,aj)]n×n,i,j=1,…,n,其中sim(ai,aj)表示样本ai,aj间的相似度,求和公式为:
XS p = Σ j = 1 n s i m ( a i , a j ) , p = 1 , ... , n
3)按降序排列XSp,p=1,…,n,设XSp按从大到小排列的前4个值为XSmax,XSmax-1,XSmax-2,XSmax-3,若选择与最大值XSmax相对应的样本作为第一个初始的聚簇中心,否则选择与XSmax,XSmax-1,XSmax-2,XSmax-3对应的四个样本的均值作为第一个初始的簇中心,T为设定的比例值;
4)将最大值为XSmax对应的矩阵中行向量的元素进行升序排列,假设前k-1个最小的元素为XSpq,q=1,…,k-1,选择前k-1个最小的元素XSpq相对应的样本aq作为剩余的k-1个初始的聚簇中心,其中所述k值的设定方法为:设定k值可能取值的区间,通过测试k的不同取值,并对区间内的各个值进行聚类,通过比较协方差,确定聚类之间的显著性差异,从而来探査聚类的类型信息,并最终确定合适的k值;
5)计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最高的聚簇中,形成变化后的k个聚簇;
6)计算变化后的聚簇中各样本的均值,将其作为更新后的聚簇中心代替更新前的聚簇中心;
7)若更新前的聚簇中心与更新后的聚簇中心相同,或者目标函数达到了最小值,停止更新,所述目标函数为:
J = Σ l = 1 k Σ a x ∈ C l | | a x - a x l ‾ | | 2
其中,Cl表示k个聚簇中的第l个聚簇,ax为第l个聚簇中的样本,为第l个聚簇的中心。
6.根据权利要求5所述的网络用户行为预测系统,其特征在于,所述设定的比例值T的取值范围为[1.45,1.55]。
CN201610542222.5A 2016-07-06 2016-07-06 网络用户行为预测系统 Withdrawn CN106228178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610542222.5A CN106228178A (zh) 2016-07-06 2016-07-06 网络用户行为预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610542222.5A CN106228178A (zh) 2016-07-06 2016-07-06 网络用户行为预测系统

Publications (1)

Publication Number Publication Date
CN106228178A true CN106228178A (zh) 2016-12-14

Family

ID=57519490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610542222.5A Withdrawn CN106228178A (zh) 2016-07-06 2016-07-06 网络用户行为预测系统

Country Status (1)

Country Link
CN (1) CN106228178A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729407A (zh) * 2017-09-26 2018-02-23 平安科技(深圳)有限公司 用户行为分析方法及服务器
CN108924100A (zh) * 2018-06-20 2018-11-30 广东电网有限责任公司 一种异常用户识别方法
WO2019007306A1 (zh) * 2017-07-06 2019-01-10 众安信息技术服务有限公司 一种用户异常行为检测方法、装置和系统
CN109447180A (zh) * 2018-11-14 2019-03-08 山东省通信管理局 一种基于大数据和机器学习的电信诈骗上当人发现方法
CN109740091A (zh) * 2018-12-26 2019-05-10 武汉大学 一种基于行为认知的用户网络行为的预测系统及方法
CN110084291A (zh) * 2019-04-12 2019-08-02 湖北工业大学 一种基于大数据极限学习的学生行为分析方法及装置
CN110609901A (zh) * 2019-09-17 2019-12-24 国家电网有限公司 一种基于向量化特征的用户网络行为预测方法
CN111966951A (zh) * 2020-07-06 2020-11-20 东南数字经济发展研究院 一种基于社交电商交易数据的用户群体阶层划分方法
CN114389838A (zh) * 2021-12-08 2022-04-22 广东电网有限责任公司 一种从多维度识别异常业务的终端安全接入控制方法
US12113768B2 (en) 2018-10-31 2024-10-08 Hewlett Packard Enterprise Development Lp Using intent to access in discovery protocols in a network for analytics

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007306A1 (zh) * 2017-07-06 2019-01-10 众安信息技术服务有限公司 一种用户异常行为检测方法、装置和系统
CN107729407A (zh) * 2017-09-26 2018-02-23 平安科技(深圳)有限公司 用户行为分析方法及服务器
WO2019061646A1 (zh) * 2017-09-26 2019-04-04 平安科技(深圳)有限公司 用户行为分析方法、装置、服务器及介质
CN108924100B (zh) * 2018-06-20 2020-12-01 广东电网有限责任公司 一种异常用户识别方法
CN108924100A (zh) * 2018-06-20 2018-11-30 广东电网有限责任公司 一种异常用户识别方法
US12113768B2 (en) 2018-10-31 2024-10-08 Hewlett Packard Enterprise Development Lp Using intent to access in discovery protocols in a network for analytics
CN109447180A (zh) * 2018-11-14 2019-03-08 山东省通信管理局 一种基于大数据和机器学习的电信诈骗上当人发现方法
CN109740091B (zh) * 2018-12-26 2021-08-03 武汉大学 一种基于行为认知的用户网络行为的预测系统及方法
CN109740091A (zh) * 2018-12-26 2019-05-10 武汉大学 一种基于行为认知的用户网络行为的预测系统及方法
CN110084291A (zh) * 2019-04-12 2019-08-02 湖北工业大学 一种基于大数据极限学习的学生行为分析方法及装置
CN110609901A (zh) * 2019-09-17 2019-12-24 国家电网有限公司 一种基于向量化特征的用户网络行为预测方法
CN110609901B (zh) * 2019-09-17 2022-04-15 国家电网有限公司 一种基于向量化特征的用户网络行为预测方法
CN111966951A (zh) * 2020-07-06 2020-11-20 东南数字经济发展研究院 一种基于社交电商交易数据的用户群体阶层划分方法
CN114389838A (zh) * 2021-12-08 2022-04-22 广东电网有限责任公司 一种从多维度识别异常业务的终端安全接入控制方法

Similar Documents

Publication Publication Date Title
CN106228178A (zh) 网络用户行为预测系统
CN109189901A (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN104933444B (zh) 一种面向多维属性数据的多层聚类融合机制的设计方法
CN108874959A (zh) 一种基于大数据技术的用户动态兴趣模型建立方法
CN101516099A (zh) 一种传感器网络异常检测方法
CN112287753B (zh) 一种基于机器学习提升人脸识别精度的系统及其算法
CN110046889A (zh) 一种异常行为主体的检测方法、装置及服务器
CN106055946A (zh) 一种身份识别系统及方法
CN104391879A (zh) 层次聚类的方法及装置
CN109784408A (zh) 一种边缘端的嵌入式时间序列决策树分类方法及系统
CN109062951A (zh) 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质
CN109660656A (zh) 一种智能终端应用程序识别方法
CN111597399A (zh) 基于数据融合的计算机数据处理系统及方法
CN106096060A (zh) 海洋网络安全风险防御系统
KR102014234B1 (ko) 무선 프로토콜 자동 분석 방법 및 그를 위한 장치
CN104484651A (zh) 人像动态对比方法及系统
CN114240639A (zh) 催收案件分案方法、装置、设备及存储介质
CN113726558A (zh) 基于随机森林算法的网络设备流量预测系统
CN104954351B (zh) 数据检测方法和装置
CN112559480A (zh) 一种并行计算场景下分布式数据集合计算方法和系统
CN111027771A (zh) 景区客流量预估方法、系统、装置及可存储介质
CN111209955A (zh) 基于深度神经网络和随机森林的飞机电源系统故障识别方法
CN110968570A (zh) 面向电商平台的分布式大数据挖掘系统
CN114021637A (zh) 一种基于度量空间下去中心化应用加密流量分类方法及装置
CN114066636A (zh) 一种基于大数据的金融信息系统与操作方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20161214