CN109615018B - 用户个性化行为评价方法、装置、计算机设备和存储介质 - Google Patents

用户个性化行为评价方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109615018B
CN109615018B CN201811583431.XA CN201811583431A CN109615018B CN 109615018 B CN109615018 B CN 109615018B CN 201811583431 A CN201811583431 A CN 201811583431A CN 109615018 B CN109615018 B CN 109615018B
Authority
CN
China
Prior art keywords
characteristic data
user
data
evaluation
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811583431.XA
Other languages
English (en)
Other versions
CN109615018A (zh
Inventor
龙美霖
柯维海
王鹏
胡永春
喻志翀
黄建超
胡永林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Decheng Science Co Ltd
Original Assignee
Guangdong Decheng Science Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Decheng Science Co Ltd filed Critical Guangdong Decheng Science Co Ltd
Priority to CN201811583431.XA priority Critical patent/CN109615018B/zh
Publication of CN109615018A publication Critical patent/CN109615018A/zh
Application granted granted Critical
Publication of CN109615018B publication Critical patent/CN109615018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种用户个性化行为评价方法、装置、计算机设备和存储介质,采集用户行为特征数据;根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据;根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征;根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。首先,利用PCA算法对用户行为特征数据进行主成分分析,提取用户主要特征数据,然后,利用基于信息熵的CFSFDP聚类算法对用户主要特征数据进行有效聚类分析,使得基于这两种算法生成的用户个性化评价报告的粒度更为细腻,更具针对性。

Description

用户个性化行为评价方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种用户个性化行为评价方法、装置、计算机设备和存储介质。
背景技术
传统的用户评价方法,更多的是依靠调查问卷收集数据,并由管理人员自行进行权值计算、分数汇总来进行评价。随着计算机技术与大数据分析技术的快速发展,用户个性化行为评价越来越受到大家的欢迎,但是现有的用户个性化行为评价方法大多都是基于专家系统,由于其固定的评价指标集与测评方法,以致于评价结果过于泛化。
以教学领域的教师评价为例,教师奖惩评价已落后于时代发展,现有的评价方法更多的集中于教师发展性评价,而对于教师发展性评价而言,由于其传统的固定指标集及评价方法和教师数目及所属专业繁多,导致现有的教师发展评价结果缺乏针对性。
发明内容
基于此,有必要针对传统用户个性化行为评价结果缺乏针对性的问题,提供一种用户个性化行为评价方法。
一种用户个性化行为评价方法,所述方法包括:
采集用户行为特征数据;
根据PCA(Principal Component Analysis,主成分分析方法)算法,对用户行为特征数据进行主成分分析,提取主要特征数据;
根据基于信息熵的CFSFDP(Clustering by Fast Search and Find of DensityPeaks,快速搜索与密度峰的发现)聚类算法,对主要特征数据进行聚类分析,提取核心类特征;
根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。
在其中一个实施例中,采集用户行为特征数据之后,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据之前,还包括:
对用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理。
在其中一个实施例中,根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征包括:
获取最优聚类数目;
根据最优聚类数目,根据CFSFDP聚类算法对主要特征数据进行聚类分析,得出聚类结果;
从聚类结果中提取核心类特征。
在其中一个实施例中,获取最优聚类数目包括:
根据信息熵,确定初始聚类参数;
获取聚类评价标准DBI(Davies-Bouldin,戴维·布兰)指数;
根据聚类评价标准DBI指数以及初始聚类参数,获取最优聚类数目。
在其中一个实施例中,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据之前,还包括:
根据用户行为特征数据,生成评价指标集;
推送评价指标集至用户;
当未接收到评价指标集勾选反馈消息时,进入根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据的步骤。
在其中一个实施例中,推送评价指标集至用户之后,还包括:
当接收到用户已勾选的评价指标消息时,对用户已勾选的评价指标消息携带的已勾选评价指标进行加权处理;
根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据包括:
根据已加权的评价指标和用户行为特征数据,采用PCA算法进行主成分分析,提取主要特征数据。
一种用户个性化行为评价装置,所述装置包括:
数据采集模块,用于采集用户行为特征数据;
主成分分析模块,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据;
聚类分析模块,根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征;
评价报告生成模块,根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。
在其中一个实施例中,装置还包括:
数据预处理模块,用于对用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理;
最优聚类数目获取模块,用于根据信息熵,确定初始聚类参数,获取聚类评价标准DBI指数,根据聚类评价标准DBI指数对初始聚类参数进行约束,获取最优聚类数目。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
采集用户行为特征数据;
根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据;
根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征;
根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集用户行为特征数据;
根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据;
根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征;
根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。
上述用户个性化行为评价方法、装置、计算机设备和存储介质,采集用户行为特征数据,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据,根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征,根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。首先,利用PCA算法对用户行为特征数据进行主成分分析,提取用户主要特征数据,然后,利用基于信息熵的CFSFDP聚类算法对用户主要特征数据进行有效聚类分析,使得基于这两种算法生成的用户个性化评价报告的粒度更为细腻,更具针对性。
附图说明
图1为用户个性化行为评价方法的应用环境图;
图2为一个实施例中用户个性化行为评价方法的流程图;
图3为一个实施例中用户个性化行为评价方法的详细流程图;
图4为一个实施例中获取最优聚类数目的流程图;
图5为一个实施例中用户个性化行为评价装置的结构示意图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的用户个性化行为评价方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104在接收终端102的用户个性化报告生成请求后,响应该请求,采集用户行为特征数据;根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据;根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征;根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。具体的,也可以是服务器104事先采集已有的大量的用户(如教师)数据,然后基于PCA算法和基于信息熵的CFSFDP聚类算法构建个性化评价模型,在接收到个性化评价报告生成请求之后,采集用户行为特征数据,将用户行为特征数据进行规范化处理之后,输入至构建好的个性化评价模型中,得到个性化行为评价报告。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。为更加清楚地解释本申请,下面用户将以教师为例进行说明。
在一个实施例中,如图2所示,提供了一种用户个性化行为评价方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S200,采集用户行为特征数据。
用户以教师为例,用户行为特征数据可以是教师成长档案所拥有的所有教师的数据以及教师教学过程、教学实践、学生教育以及培训的数据。具体的,可以包括教师个人信息、教学信息、教师自我发展数据、教学成果、教师评价数据以及科研能力数据等。更进一步的,教师个人信息可以包括教师姓名、性别、工龄、职称、教育理念、语言能力以及所属地区等,教学信息可以包括数辅资料、自我教学反以及学生学业情况等,教师自我发展可以包括培训数据、自我学习计划以及参加讲座学术报告等,教学成果可以包括荣誉证书、反应个人教学能力的奖励、获得好评的教案、指导学生获奖等数据,评价信息可以包括除了个人本身对自己教学情况的评价信息,科研能力可以包括科研论文、课题、专著出版物以及专利软著等数据。
步骤S400,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据。
PCA即主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在统计学中,主成分分析PCA是一种简化数据集的技术,它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。本实施例中,将上述实例中描述的教师行为特征数据作为数据样本集(此数据样本集为多维度的样本集,包含多个数据向量),然后对数据样本集中的数据进行规范化处理,使得数据每个属性都落入相同的区间,计算教师行为特征样本数据协方差矩阵,求出协方差矩阵相应的特征值,并进行最大最小排序,通过教师行为特征数据的方差贡献率确定主成分,当累积贡献率大于85%时,就认为该主成分(正交向量)能够反映原有变量信息,将该主成分提取出来,最后,分别求出对应于特征值对应的特征向量,将教师行为特征数据投影到该特征向量张成的空间中。本实施例中,每个用户行为特征数据不一样,利用PAC算法提取出来的主要特征数据也会随之不同,一般的,主要特征数据可以包括教学信息、教学成果、科研能力等数据,原有的教师行为特征数据包含45个维度的数据,通过PCA算法将维度降至20左右。可以理解的是,降维算法并不限于PCA降维算法,还可以是LDA(Linear Discriminant Analysis,线性判别式分析)算法以及其他降维算法。
步骤S600,根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征。
信息熵是信息论中用来衡量系统有序化程度的度量。在聚类评价中,信息熵表示聚类的混杂程度。信息熵越低,表示聚类后每一簇的类别数目越纯,聚类的混杂程度越低,反之聚类的混杂程度越高。CFSFDP聚类算法是一种新的基于密度的聚类算法,属于无监督聚类算法,该算法通过局部密度极点来挖掘潜在的聚类中心,再根据就近原则一次完成其余样本点的类标签分配。该算法思想简单,有着能够发现任意形状的数据集以及不需要预先指定聚类数目的优点。本实施例中,利用CFSFDP聚类算法对降维得到的主要特征数据进行聚类,然后利用信息熵优化算法初始参数,再结合DBI指数进行约束,确定最优聚类数目,得到聚类结果,从聚类结果中提取核心类特征。具体的,核心类特征为聚类结果中分布最为稠密的特征数据,也就是通过CFSFDP聚类算法所生成的各类型的教师簇。
步骤S800,根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。
具体的,教师个性化评价报告可以包括区域及学校教师情况分析,对于提取出的类特征及类内各数据分布,构建该学校或该区域的教师分析报告(基于类特征的各维度数据摆动情况分析)报告;教师成长情况分析,将教师个人数据与教师所在类特征进行对比分析,对教师各维度能力进行评价;教师成长建议,对于新注册的教师,可以根据KNN(K-NearestNeighbor,K最近邻)对其进行分类,并用该类特征进行成长建议;教师年度分析,对教师团体各年度数据信息进行上述建模分析,从历年类特征来刻画教师团体历年成长情况。本实例中,通过数据挖掘的方式得出教师个性化评价报告,相较于传统统计学而言,数据挖掘的统计数据集规模更大,且能精确分类教师类别以及提供针对性的分析。
上述用户个性化行为评价方法,采集用户行为特征数据;根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据;根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征;根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。首先,利用PCA算法对用户行为特征数据进行主成分分析,提取用户主要特征数据,然后,利用基于信息熵的CFSFDP聚类算法对用户主要特征数据进行有效聚类分析,使得基于这两种算法生成的用户个性化评价报告的粒度更为细腻,更具针对性。
如图3所示,在其中一个实施例中,采集用户行为特征数据之后,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据之前,还包括:S300,对用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理。
服务器在收集用户行为特征数据之后,需要对用户行为特征数据进行预处理。预处理可以是将用户行为特征数据进行合理量化,即在量化的过程当中需要考虑数据之间的差异性,并将这种差异性保留于量化后的数据当中,最大程度保留数据深层隐藏含义,然后对量化之后的数据进行数据清洗,对缺失的数据用平均值进行填充,填补空白,删除其中的离群点,并将教师单个属性数据作为潜在噪声去除,由于采集到的数据,其量化时的单位不一,所以要将其进行无量纲处理,使得各维数据表现统一。本实施例中,将采集到的数据进行量化、清洗、填充和无量纲处理后,提高了用户行为特征数据的质量,更有利于降维处理以及聚类分析。
如图3所示,在其中一个实施例中,步骤S600根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征包括:S620,获取最优聚类数目,S640,根据最优聚类数目,根据CFSFDP聚类算法对主要特征数据进行聚类分析,得出聚类结果,S660,从聚类结果中提取核心类特征。
在聚类分析中,最优聚类数目的确定是一个很大的技术问题,不管以什么形式,开发者需要在一开始,就给出无标记数据集中的类的数目。但由于没有明确的类成员划分,故聚类数目也无法直接给定。本实施例中,将信息熵和CFSFDP聚类算法结合起来,利用信息熵和聚类评价指标能够确定最优聚类数目,然后根据最优聚类数目,利用CFSFDP聚类算法进行聚类分析,得到聚类结果。CFSFDP聚类算法基本思想是:通过计算每个数据向量的密度,划分聚类中心,并依据密度大小排序,最后将剩余点划分至所属类别。其中,簇的中心点就是通过观察密度来确定。聚类中心被局部密度较大的领域包围,而与其他局部密度较大的样本点保持响度较大的距离。该算法只需计算样本样本点的两个属性值:局部密度值ρi和距离δi,但涉及到这两个计算的dij的时间复杂度为ο(n2)。该属性值具体公式如下:
Figure BDA0001918490110000081
当x<0时,χ(x)=1,当x>0时,χ(x)=0,dc是一个截断距离。由局部密度值公式可知,对于每一个样本点x(i)来说,ρi衡量的是比dc更靠近x(i)的其余样本的总数,描述的是每个样本的局部密度。
Figure BDA0001918490110000082
当ρi是最大值时,δi=maxj(dij)。由距离公式可知,当样本点x(i)的局部密度ρi达到最大时,δi表示除了x(i)点以外的其余样本点中与i点的最大距离dij,否则则表示在局部密度ρ较大的样本点中与x(i)的最小距离。具体的,算法步骤包括:
1)输入两两样本之间的相似度矩阵或距离矩阵,该步骤由聚类前的特征提取和相似度或距离计算完成;
2)计算样本点x(i)的局部密度值ρi和距离δi,其中,截断距离dc是根据信息熵约束获得,依据为:当全局信息熵最小时,参数dc最优;
3)以ρ为横坐标,δ为纵坐标画决策图;
4)对决策图中潜在聚类中心点进行DBI指数计算,获取最优聚类数目;
5)完成其余样本的类标签分配,即将ρi进行降序排序,并形成降序下标qi,使其满足:ρq1≥ρq2≥...≥ρqn,n为样本总数,然后计算Sq,Sq则为非聚类中心的归类属性:
Figure BDA0001918490110000091
按照上述步骤进行聚类,即完成教师行为特征的聚类分析。本实施例中,利用信息熵以及决策图能够很容易地确定聚类中心,提高算法处理效率。
在其中一个实施例中,步骤S620获取最优聚类数目包括:S622,根据信息熵,确定初始聚类参数,S624,获取聚类评价标准DBI指数,S626,根据聚类评价标准DBI指数以及初始聚类参数,获取最优聚类数目。
本实施例中,利用信息熵自动确定初始聚类参数即截断距离dc,信息熵定义公式如下:
Figure BDA0001918490110000092
其中,Pij=mij/mi,mij是第i个簇中类别j的数目,mi是第i个簇的样本总数。聚类评价标准DBI指数即戴维森堡丁指数(DBI),又称为分类适确性指标,是由大卫L·戴维斯和唐纳德·Bouldin提出的一种评估聚类算法优劣的指标。首先假设我们有m个数据集合,这些数据集合聚类为n个簇。m个数据集合设为输入矩阵X,n个簇类设为N作为参数传入算法。使用下列公式进行计算:
Figure BDA0001918490110000093
上述公式的含义是度量每个簇类最大相似度的均值。算法的具体计算步骤为:
1)计算Si,Si为类内数据到簇质心的平均距离,代表了簇类i中各数据集合的分散程度,计算公式为:
Figure BDA0001918490110000094
其中Xj代表簇类i中第j个数据点,也就是一个时间序列,Ai是簇类i的质心,T是簇类i中数据的个数,p在通常情况下取2,这样就可以计算独立的数据点和质心的欧式距离;
2)计算Mi,j
Figure BDA0001918490110000101
其中,ak,i代表簇类i质心点的第k个值,Mi,j就是簇类i与簇类j质心的距离;
3)计算DBI定义的衡量相似度的值Ri,j,计算公式为:
Figure BDA0001918490110000102
4)计算DBI,有了上述公式的基础,做一个基于簇类数n的n^2的嵌套循环,对每一个簇类i计算最大值的Ri,j,记为Di,即
Figure BDA0001918490110000103
也即簇类i与其他类的最大相似度值,也就是取出最差结果。然后对所有类的最大相似度取均值就得到了DBI指数,计算公式为:
Figure BDA0001918490110000104
本实施例中,DBI计算任意两类别的类内距离平均距离之和除以两聚类中心距离,求最大值,DBI的值越小意味着类内距离越小,同时类间距离越大。可以理解的是,聚类评价指标还可以是CP(Compactness,紧密性)、SP(Separation,间隔性)指数以及其他聚类评价指标。本实施例中,利用DBI指数确定最优聚类数目,使得到的聚类结果更加准确。
在其中一个实施例中,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据之前,还包括:根据用户行为特征数据,生成评价指标集,推送评价指标集至用户,当未接收到评价指标集勾选反馈消息时,进入根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据的步骤。
评价指标集是指用于指由表征评价对象各方面特性及其相互联系的多个指标的集合。这里的评价指标集可以理解为用户画像中的个性化用户标签集。一方面,由于各地区信息化建设水平不一导致教师信息提取种类存在差别;另一方面由于各专家学者对教师评价的理解有差异,导致各类评价体系层出不穷。所以,服务器可通过所拥有的教师数据,智能生成教师个性化评价指标集,有针对性地进行聚类分析。具体的,评价指标集可以包括专业知识、专业能力、专业精神以及专业理念等评价指标。当服务器采集完教师行为特征数据之后,经过数据处理之后,根据教师行为特征数据,生成评价指标集,并将评价指标集推送至用户,用户在终端上看到评价指标集,可以根据自己的喜好或实际情况进行勾选,也可以选择不勾选。当用户决定不勾选评价指标集时,服务器未接收到用户勾选评价集的消息,则默认提取所有相关属性进行分析,进入根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据的步骤。此处的用户主要面向教育专家,例如教育局管理人员、校级考评负责人以及其他负责教师评价的工作人员。本实施例中,通过提供评价指标集的选择,可以让用户根据自己喜好或实际情况来对评价对象进行分析,更具针对性。
在其中一个实施例中,推送评价指标集至用户之后,还包括:当接收到用户已勾选的评价指标消息时,对用户已勾选的评价指标消息携带的已勾选评价指标进行加权处理,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据包括:根据已加权的评价指标和用户行为特征数据,采用PCA算法进行主成分分析,提取主要特征数据。
当用户选择按照自己的喜好或实际情况勾选了评价指标时,服务器会获取用户所勾选的评价指标,并对勾选的评价指标进行加权处理,其中,加权处理的过程包括:获取加权处理方式;推送加权处理方式至用户;接收用户反馈的加权处理方式,反馈的加权处理方式为手动加权、自动加权(层次分析法)以及固定加权三种方式中的任一种;根据用户反馈的加权处理方式,对已勾选的评价指标进行加权处理。当对评价指标完成加权处理后,按照加权完成的评价指标以及用户行为特征数据进行主成分分析,聚类分析,得到按照用户勾选的评价指标生成的用户个性化评价报告。例如,当用户勾选了专业知识以及专业能力这两个评价指标并反馈加权处理方式之后,会根据这两个加权后的评价指标进行个性化分析,得出的个性化评价报告主要包括教师的专业知识以及专业能力的分析报告。本实施例中,通过构建评价指标集,能够有效解决区域教师信息化不平衡,教师评价标准差异带来的影响。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种用户个性化行为评价装置,包括:数据采集模块510、主成分分析模块520、聚类分析模块530以及评价报告生成模块540,其中:
数据采集模块510,用于采集用户行为特征数据。
主成分分析模块520,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据。
聚类分析模块530,根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征。
评价报告生成模块540,根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。
在一个实施例中,用户个性化行为评价装置还包括数据处理模块550,用于对用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理;
还包括最优聚类数目获取模块560,用于根据信息熵,确定初始聚类参数;获取聚类评价标准DBI指数;根据聚类评价标准DBI指数以及初始聚类参数,获取最优聚类数目。
在一个实施例中,聚类分析模块530还用于获取最优聚类数目,根据最优聚类数目,根据CFSFDP聚类算法对主要特征数据进行聚类分析,得出聚类结果,从聚类结果中提取核心类特征。
在一个实施例中,用户个性化行为评价装置还包括评价指标集推送模块570,评价指标集推送模块570用于根据用户行为特征数据,生成评价指标集,推送评价指标集至用户。
在一个实施例中,用户个性化行为评价装置还包括加权处理模块580,加权处理模块580用于当接收到用户已勾选的评价指标消息时,对用户已勾选的评价指标消息携带的已勾选评价指标进行加权处理。
在一个实施例中,主成分分析模块520还用于根据已加权的评价指标和用户行为特征数据,采用PCA算法进行主成分分析,提取主要特征数据。
关于用户个性化行为评价装置的具体限定可以参见上文中对于用户个性化行为评价方法的限定,在此不再赘述。上述用户个性化行为评价装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户行为特征数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户个性化行为评价方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:采集用户行为特征数据,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据,根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征,根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取最优聚类数目,根据最优聚类数目,根据CFSFDP聚类算法对主要特征数据进行聚类分析,得出聚类结果,从聚类结果中提取核心类特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据信息熵,确定初始聚类参数,获取聚类评价标准DBI指数,根据聚类评价标准DBI指数以及初始聚类参数,获取最优聚类数目。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据用户行为特征数据,生成评价指标集,推送评价指标集至用户,当未接收到评价指标集勾选反馈消息时,进入根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据的步骤。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当接收到用户已勾选的评价指标消息时,对用户已勾选的评价指标消息携带的已勾选评价指标进行加权处理,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据包括:根据已加权的评价指标和用户行为特征数据,采用PCA算法进行主成分分析,提取主要特征数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:采集用户行为特征数据,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据,根据基于信息熵的CFSFDP聚类算法,对主要特征数据进行聚类分析,提取核心类特征,根据核心类特征以及核心类特征内数据分布,生成用户个性化评价报告。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取最优聚类数目,根据最优聚类数目,根据CFSFDP聚类算法对主要特征数据进行聚类分析,得出聚类结果,从聚类结果中提取核心类特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据信息熵,确定初始聚类参数,获取聚类评价标准DBI指数,根据聚类评价标准DBI指数以及初始聚类参数,获取最优聚类数目。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据用户行为特征数据,生成评价指标集,推送评价指标集至用户,当未接收到评价指标集勾选反馈消息时,进入根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据的步骤。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当接收到用户已勾选的评价指标消息时,对用户已勾选的评价指标消息携带的已勾选评价指标进行加权处理,根据PCA算法,对用户行为特征数据进行主成分分析,提取主要特征数据包括:根据已加权的评价指标和用户行为特征数据,采用PCA算法进行主成分分析,提取主要特征数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种用户个性化行为评价方法,其特征在于,所述方法包括:
采集用户行为特征数据;
根据PCA算法,对所述用户行为特征数据进行主成分分析,提取主要特征数据;
根据基于信息熵的CFSFDP聚类算法,对所述主要特征数据进行聚类分析,提取核心类特征;
根据所述核心类特征以及所述核心类特征内数据分布,生成用户个性化评价报告;
所述根据PCA算法,对所述用户行为特征数据进行主成分分析,提取主要特征数据之前,还包括:根据用户行为特征数据,生成评价指标集,推送评价指标集至用户;
当未接收到评价指标集勾选反馈消息时,进入所述根据PCA算法,对所述用户行为特征数据进行主成分分析,提取主要特征数据的步骤;
当接收到用户已勾选的评价指标消息时,对所述用户已勾选的评价指标消息携带的已勾选评价指标进行加权处理,所述加权处理包括:获取加权处理方式,推送所述加权处理方式至所述用户,接收所述用户反馈的加权处理方式,根据用户反馈的加权处理方式,对已勾选的评价指标进行加权处理;
所述根据PCA算法,对所述用户行为特征数据进行主成分分析,提取主要特征数据包括:根据已加权的评价指标和所述用户行为特征数据,采用PCA算法进行主成分分析,提取主要特征数据;
所述根据基于信息熵的CFSFDP聚类算法,对所述主要特征数据进行聚类分析,提取核心类特征包括:
计算所述主要特征数据的信息熵;
根据所述信息熵,约束截断距离参数,确定所述主要特征数据之间的局部密度值和距离;
根据所述主要特征数据之间的局部密度值和距离,构建决策图;
对所述决策图中的潜在聚类中心点进行DBI指数计算,确定最优聚类数目;
基于所述最优聚类数目,根据所述CFSFDP聚类算法对所述主要特征数据进行聚类分析,得出聚类结果;
从所述聚类结果中提取核心类特征。
2.根据权利要求1所述的用户个性化行为评价方法,其特征在于,所述采集用户行为特征数据之后,所述根据PCA算法,对所述用户行为特征数据进行主成分分析,提取主要特征数据之前,还包括:
对所述用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理。
3.根据权利要求1所述的用户个性化行为评价方法,其特征在于,所述反馈的加权处理方式为手动加权、自动加权以及固定加权三种方式中的任一种。
4.根据权利要求2所述的用户个性化行为评价方法,其特征在于,所述对所述用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理包括:
对所述用户行为特征数据进行量化处理,对量化处理之后的所述用户行为特征数据进行数据清洗、均值填充、离群点删除、去噪以及无量纲处理。
5.一种用户个性化行为评价装置,其特征在于,所述装置包括:
数据采集模块,用于采集用户行为特征数据;
主成分分析模块,用于根据用户行为特征数据,生成评价指标集,推送评价指标集至用户,当未接收到评价指标集勾选反馈消息时,进入根据PCA算法,对所述用户行为特征数据进行主成分分析,提取主要特征数据的步骤,当接收到用户已勾选的评价指标消息时,对所述用户已勾选的评价指标消息携带的已勾选评价指标进行加权处理,所述加权处理包括:获取加权处理方式,推送所述加权处理方式至所述用户,接收所述用户反馈的加权处理方式,根据用户反馈的加权处理方式,对已勾选的评价指标进行加权处理;
聚类分析模块,用于计算所述主要特征数据的信息熵,根据所述信息熵,约束截断距离参数,确定所述主要特征数据之间的局部密度值和距离,根据所述主要特征数据之间的局部密度值和距离,构建决策图,对所述决策图中的潜在聚类中心点进行DBI指数计算,确定最优聚类数目,基于所述最优聚类数目,根据CFSFDP聚类算法对所述主要特征数据进行聚类分析,得出聚类结果,从所述聚类结果中提取核心类特征;
评价报告生成模块,用于根据所述核心类特征以及所述核心类特征内数据分布,生成用户个性化评价报告。
6.根据权利要求5所述的用户个性化行为评价装置,其特征在于,所述装置还包括:
数据预处理模块,用于对所述用户行为特征数据依次进行特征量化、清洗、填充和无量纲处理。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN201811583431.XA 2018-12-24 2018-12-24 用户个性化行为评价方法、装置、计算机设备和存储介质 Active CN109615018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811583431.XA CN109615018B (zh) 2018-12-24 2018-12-24 用户个性化行为评价方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811583431.XA CN109615018B (zh) 2018-12-24 2018-12-24 用户个性化行为评价方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109615018A CN109615018A (zh) 2019-04-12
CN109615018B true CN109615018B (zh) 2020-03-20

Family

ID=66011494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811583431.XA Active CN109615018B (zh) 2018-12-24 2018-12-24 用户个性化行为评价方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109615018B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363387B (zh) * 2019-06-14 2023-09-05 平安科技(深圳)有限公司 基于大数据的画像分析方法、装置、计算机设备及存储介质
CN113256351A (zh) * 2021-06-29 2021-08-13 南京冰鉴信息科技有限公司 用户业务需求识别方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139283A (zh) * 2015-08-25 2015-12-09 四川大学 一种220kV城市环网分区方案评估方法
US9516039B1 (en) * 2013-11-12 2016-12-06 EMC IP Holding Company LLC Behavioral detection of suspicious host activities in an enterprise
CN108280479A (zh) * 2018-01-25 2018-07-13 重庆大学 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN108875816A (zh) * 2018-06-05 2018-11-23 南京邮电大学 融合置信度准则和多样性准则的主动学习样本选择策略

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
CN105488103A (zh) * 2015-11-18 2016-04-13 中国农业大学 一种知识要点推送方法及系统
CN108280415A (zh) * 2018-01-17 2018-07-13 武汉理工大学 基于智能移动终端的驾驶行为识别方法
CN108460139B (zh) * 2018-03-09 2022-09-06 上海开放大学 基于网络爬虫数据挖掘在线课程教学质量评估管理系统
CN108764710A (zh) * 2018-05-25 2018-11-06 中山大学 教学质量评价方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9516039B1 (en) * 2013-11-12 2016-12-06 EMC IP Holding Company LLC Behavioral detection of suspicious host activities in an enterprise
CN105139283A (zh) * 2015-08-25 2015-12-09 四川大学 一种220kV城市环网分区方案评估方法
CN108280479A (zh) * 2018-01-25 2018-07-13 重庆大学 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN108875816A (zh) * 2018-06-05 2018-11-23 南京邮电大学 融合置信度准则和多样性准则的主动学习样本选择策略

Also Published As

Publication number Publication date
CN109615018A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
Al Hassanieh et al. Similarity measures for collaborative filtering recommender systems
Kabakchieva Student performance prediction by using data mining classification algorithms
CN109711459B (zh) 用户个性化行为评测方法、装置、计算机设备和存储介质
CN111242310B (zh) 特征有效性评估方法、装置、电子设备及存储介质
US20060112146A1 (en) Systems and methods for data analysis and/or knowledge management
CN111831905B (zh) 基于团队科研影响力及可持续性建模的推荐方法和装置
US9249287B2 (en) Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns
US20080228744A1 (en) Method and a system for automatic evaluation of digital files
Koper et al. A guide to developing resource selection functions from telemetry data using generalized estimating equations and generalized linear mixed models
CN111652291A (zh) 一种基于组稀疏融合医院大数据建立学生成长画像的方法
CN110674636B (zh) 一种用电行为分析方法
CN109726918A (zh) 基于生成式对抗网络和半监督学习的个人信用确定方法
CN109615018B (zh) 用户个性化行为评价方法、装置、计算机设备和存储介质
CN116994709A (zh) 一种个性化的饮食与运动推荐方法、系统及电子设备
Banumathi et al. A novel approach for upgrading Indian education by using data mining techniques
CN114297025A (zh) 数据中心资源分析系统及方法、存储介质及电子设备
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
Drăgulescu et al. Predicting assignment submissions in a multi-class classification problem
Yet et al. Estimating criteria weight distributions in multiple criteria decision making: a Bayesian approach
Kim et al. Automated detection of influential patents using singular values
de Sá et al. Algorithm recommendation for data streams
Zhang et al. Education data mining application for predicting students’ achievements of Portuguese using ensemble model
CN115689708A (zh) 训练数据的筛选方法、风险评估方法、装置、设备和介质
CN116778210A (zh) 教学影像评价系统以及教学影像评价方法
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: User personalized behavior evaluation method, device, computer equipment and storage medium

Effective date of registration: 20221104

Granted publication date: 20200320

Pledgee: Zhaoqing Rural Commercial Bank Co.,Ltd. Dinghu sub branch

Pledgor: GUANGDONG DECHENG SCIENTIFIC EDUCATION CO.,LTD.

Registration number: Y2022980020833

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20231027

Granted publication date: 20200320

Pledgee: Zhaoqing Rural Commercial Bank Co.,Ltd. Dinghu sub branch

Pledgor: GUANGDONG DECHENG SCIENTIFIC EDUCATION CO.,LTD.

Registration number: Y2022980020833

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: User personalized behavior evaluation methods, devices, computer devices, and storage media

Effective date of registration: 20231114

Granted publication date: 20200320

Pledgee: Zhaoqing Rural Commercial Bank Co.,Ltd. Dinghu sub branch

Pledgor: GUANGDONG DECHENG SCIENTIFIC EDUCATION CO.,LTD.

Registration number: Y2023980065552

PE01 Entry into force of the registration of the contract for pledge of patent right