CN112990291A - 一种基于数据挖掘技术的用户行为分析系统及方法 - Google Patents

一种基于数据挖掘技术的用户行为分析系统及方法 Download PDF

Info

Publication number
CN112990291A
CN112990291A CN202110260276.3A CN202110260276A CN112990291A CN 112990291 A CN112990291 A CN 112990291A CN 202110260276 A CN202110260276 A CN 202110260276A CN 112990291 A CN112990291 A CN 112990291A
Authority
CN
China
Prior art keywords
data
task
cloud
tasks
temperature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110260276.3A
Other languages
English (en)
Inventor
胡旭光
李正
马大中
胡旌伟
孙秋野
李希博
王鹏程
李程晨
王雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202110260276.3A priority Critical patent/CN112990291A/zh
Publication of CN112990291A publication Critical patent/CN112990291A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于数据挖掘技术的用户行为分析系统及方法,涉及互联网数据挖掘技术领域。本系统包括温度数据采集单元、手机控制终端以及服务器端;对互联网用户行为信息进行收集和整理;将收集到的数据进行数据预处理操作,目的是为了消除噪声,解决极值点长度的差异;对经过预处理的数据进行基于多目标决策的数据挖掘处理,实现对时间序列的数据挖掘;针对数据处理过程中消耗资源过大的情况,提出了云边协同计算方法,将边缘端服务器和云端服务器协同作业,实现对海量数据的实时分类;数据上传过程中存在隐私泄露风险,采用对称密钥对明文数据进行加密,订阅者只有持有正确密钥才可以解密明文数据。

Description

一种基于数据挖掘技术的用户行为分析系统及方法
技术领域
本发明涉及互联网数据挖掘技术领域,尤其涉及一种基于数据挖掘技术的用户行为分析系统及方法。
背景技术
随着互联网技术的迅速发展,人们的生活和工作越来越依赖于互联网,用户在使用企业应用系统提供的服务,同时所生成的用户行为操作日志数据也在逐渐的增加。通过分析和挖掘日志数据中隐藏的信息可以得到一些有趣的模式,而这些有趣的模式对分析用户的各项需求和评估产品的效果有着重要的意义。计算机技术的发展促进了社会迈向大数据时代,在复杂、海量的数据中挖掘有用的时间序列数据是当前亟需解决的问题。
近年来数据挖掘成为核心骨干技术被应用到数据处理中,数据挖掘技术的主要目的是将有价值的规律、知识和模式从海量数据中提取出来,并进行识别,根据挖掘识别结果对科学研究和商业决策进行指导。在时间序列数据分布的前提下,建立满足时间序列分布特征的数学模型,结合概率密度函数和相似性对时间序列数据进行挖掘。当前时间序列数据挖掘算法存在挖掘过程易受到噪声干扰、加速比低和可扩展性差的问题,需要研究时间序列数据挖掘算法。为了解决上述方法中存在的问题,提出基于多目标决策的时间序列数据挖掘算法。
发明内容
针对现有技术的不足,本发明提供一种基于数据挖掘技术的用户行为分析系统及方法,并应用于汽车空调智能控温技术,对不同环境下用户对汽车空调温度的选择进行采集和挖掘,使车载空调向环保、节能、舒适的方向发展。
本发明所采取的技术方案是:
一方面,一种基于数据挖掘技术的用户行为分析系统,包括温度数据采集单元、手机控制终端以及服务器端;
所述温度数据采集单元由单片机、温度传感器、Wi-Fi通信模块和电源模块构成,单片机与温度传感器连接,接收到手机控制终端的唤醒命令后,通过I2C总线协议从温度传感器读取温度数据,通过Wi-Fi通信模块发送给手机控制终端,电源模块是单节锂聚合物电池和稳压芯片,分别与单片机、温度传感器、Wi-Fi通信模块的电源接口连接;
所述手机控制终端为用户行为特征提取单元,通过Wi-Fi通信模块与温度数据采集单元通信,获取实时温度数据,对温度数据进行加工,添加对应的时间、GPS方位、当前天气温度数据等数据,并对温度数据进行中位值平均滤波处理,通过分布式存储技术分割存储,并将数据经手机上传至服务器端;
所述服务器端包括用户群体分类单元、关联因素辨识及综合应用单元;所述用户群体分类单元结合基于时间序列的数据挖掘技术,对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行分类,建立用户分类模型;
所述关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析,找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子,实现对用户行为的分析、预测和对异常行为的检测;
另一方面,一种基于数据挖掘技术的用户行为分析方法,基于前述一种基于数据挖掘技术的用户行为分析系统实现,包括以下步骤:
步骤1:手机控制终端通过测温节点采集温度信息,经过添加外部环境信息作为用户行为信息,并上传至服务器,完成基于互联网的用户行为信息数据;
步骤2:对用户行为信息数据进行预处理,对上传到服务器的基于时间序列的温度信息进行预处理和等长处理,通过时间序列上升和下降点对时间序列数据进行近似处理,
步骤2.1:对时间序列进行预处理,将时间序列数据都映射到区间[0,1]内,消除时间序列数据中存在的噪声,公式如下:
Figure BDA0002969674340000021
其中,x*代表的是进行转换后得到的归一化或标准化数据;max(x)代表的是时间序列中存在的最大值;min(x)代表的是时间序列中存在的最小值。
步骤2.2:提取以r为半径、o(ti,xi)为中心区域的极值点;将o(ti,xi)作为中心,时间序列点(tp,xp)依次向后或向前采集第i个时间序列点,得到r为半径、o(ti,xi)为中心的区域G(o),通过下式判断区域中存在的极值点:
Figure BDA0002969674340000022
其中,f(xi,1)代表的是以r为半径、o(ti,xi)为中心区域内存在的数值特征;-1、1分别代表的是区域内的极小值点和极大值点;当f(xi,1)的值为零时,表明该时间序列点不是极值点;ti代表时间序列中第i个点的对应的时间、GPS方位、天气、车外温度构成的数组,xi代表归一化处理后第i个点对应的车内温度,tp代表时间序列中第p个点的对应的时间、GPS方位、天气、车外温度构成的数组,xp代表第p个点对应的车内温度;
步骤2.3:对提取的时间序列中的极值点进行等长处理;提取两个时间序列中存在的极值点并集,重新划分具有新极值点的时间序列,使时间序列的长度相等,时间序列等长处理的具体方法如下式所示:
Figure BDA0002969674340000031
其中,X、Y为等长时间序列,SX、SY为极值点对应的极值点序列,长度分别为m、n,SX′、SY′为经过等长处理后的时间序列;
步骤3:对用户行为信息进行数据挖掘,将多目标决策理论应用到时间序列数据挖掘中;
步骤3.1:根据提取得到的区间极值点序列构建标准决策矩阵Z,决策矩阵Z中的行列均为时间序列中存在的极值点以及极值点对应的对象属性;设向量A={a1,…,an}是由n个极值点构成的集合;向量C={c1,…,cm}是由m个极值点属性构成的集合,即为评价指标,通过下式比较不同指标对应的决策对象:
dk(ai,aj)=ck(ai)-ck(aj)
其中,dk(ai,aj)代表的是在评价指标ck上极值点ai、aj存在的差值。
步骤3.2:通过偏好函数用标准化的偏好度πk(ai,aj)代替差值dk(ai,aj),方法为:
πk(ai,aj)=fk(dk(ai,aj))
其中,fk()代表的是偏好函数;
步骤3.3:基于多目标决策的时间序列数据挖掘算法在线性特征的基础上对偏好函数进行选择,如下式所示:
Figure BDA0002969674340000032
其中,pk代表的是偏好阈值;qk代表的是无差异阈值;上述两个阈值可以对偏好度的分布态势进行预测;dk(ai,aj)在评价指标ck上极值点ai、aj存在的差值;
步骤3.4:确定目标的正负偏好;决策对象a和决策对象b之间存在的多目标偏好度如下式所示:
Figure BDA0002969674340000033
正偏好流
Figure BDA0002969674340000034
和负偏好流
Figure BDA0002969674340000035
的计算公式分别如下:
Figure BDA0002969674340000041
其中,
Figure BDA0002969674340000042
代表的是正偏好流,在全部决策目标上决策对象ai的正偏好流
Figure BDA0002969674340000043
对应的偏好级别最高;
Figure BDA0002969674340000044
代表的是负偏好流,在全部决策目标上决策对象ai的负偏好流
Figure BDA0002969674340000045
对应的偏好级别最低;
步骤3.5:最优决策对象在极端情况下对应的负偏好流值和正偏好流的值分别为0和1;基于多目标决策的时间序列数据挖掘算法根据偏好流排序结果实现时间序列数据挖掘,净偏好流的值越大表明极值点对应的偏好级别越高,根据级别对时间序列数据进行分类,实现时间序列的数据挖掘,净偏好流计算如下式:
Figure BDA0002969674340000046
步骤4:利用云、边协同计算方法,将边缘端服务器和云端服务器进行协同作业;提高用户行为分析的执行效率,从整体上提高任务处理的速度;
步骤4.1:通过云端服务器集群组成的云端部件和边缘服务器集群组成的边缘部件的任务是否有相互干扰和数据往来,将云边协同模式分为三类任务:云边相离类任务、云边相交类任务以及云边包含类任务;
其中云边相离类任务为云端部件和边缘端部件中的任务没有数据往来,云边相交类任务为云端部件与边缘端部件中的任务有数据交换,云边包含类任务为云端部件中的任务是边缘端部件中任务的子任务;
步骤4.2:将云端服务器和边缘端服务器上的DAG(Directed acyclic graph:DAG)进行合并,如下式所示:
Figure BDA0002969674340000047
其中,A、B为集合1、集合2,C为合并后的集合;式①表示对于云边相离任务,合并的方法是增加一个虚拟的入口任务节点和出口任务节点,然后更新虚拟入口任务节点和出口任务节点;式②表示对于云边相交任务,合并的方式是入口任务节点同时作为每个子DAG入口任务节点的父亲节点,然后以替换的方法实现DGA合并;式③表示对于云边包含任务,通过判断较大任务节点来替代小任务节点实现合并;
步骤4.3:利用基于关键路径的分割策略划分任务。分割方法如下式所示:
Figure BDA0002969674340000051
其中,CTS(Critical tasks set)表示关键任务集,NCTS(Non-critical tasksset)非关键任务集,其中任务集类型分为边缘端任务EST(Edge-side tasks)和云端任务CST(Cloud-side tasks);
步骤4.4:根据DAG合并图关键路径的边的权值之和确定云边协同计算架构下任务图的优先级,云边协同计算架构下DAG合并图Dk的优先级rank(Dk)方法如下式所示:
Figure BDA0002969674340000052
其中n*表示任务个数;
步骤4.5:从任务图列表中具有较高优先级的任务图开始优先分配处理器资源,根据任务图列表构成相应的路径列表,路径pk的优先级rank(pk)如下式所示:
Figure BDA0002969674340000053
ηi代表任务图列表对应的路径值,ei代表该路径的权值;
步骤5:对用户行为隐私保护,对对称密钥进行加密保护,消息订阅者正确解密并得到正确的对称密钥,进而解密并恢复出元数据M,实现对用户行为的分析、预测和对异常行为的检测。
步骤5.1:数据安全分享的初始化算法;首先选择两个双线性群G0(阶为p,生成元为g)和G1,并且定义一个双线性映射e:G0×G0=G1;另外,选择两个安全哈希函数H1(·),H2(·)和访问参数α,β12∈Zp使得α≠0,β1≠0,,β2≠1且β2≠β1,公开密钥为:
Figure BDA0002969674340000054
主密钥MSK为:
MSK={β12,gα}
步骤5.2:数据安全分享的密钥生成算法;设S表示一个数据订阅者的属性集合,属性授权端首先选择
Figure BDA0002969674340000055
然后为每个订阅者产生私钥SK,公式如下所示:
Figure BDA0002969674340000056
步骤5.3:发布者对终端进行加密;执行一个具有签名策略的密钥产生算法,并且获得一个一次密钥对(sk,vk),根据消息内容构建一个访问树Γ=ΓuANDtc作为该消息的访问控制策略,然后计算K=e(g,g)αs,对称密钥ek=H2(K)和
Figure BDA0002969674340000061
用对称密钥ek对明文M进行对称加密得到C=Enc M,最后输出密文Cu,Cu计算公式如下:
Cu={Γ,C,C1}
步骤5.4:订阅者终端解密,当消息订阅者从网络中获取了其感兴趣的数据包之后,如果他的属性集满足该数据包的树形访问结构u,用验证密钥在密文上验证签名通过,并用对称密钥ek解密得到明文元数据M。
采用上述技术方案所产生的有益效果在于:
本发明提出一种基于数据挖掘技术的用户行为分析系统及方法,通过采用温度采集系统对环境温度采集并通过手机上传云端,并利用数据挖掘技术找出温度数据与所处环境之间的联系,分析用户的行为,达到行为预测的目的。该系统应用到汽车的空调系统之中,通过对区域用户车内温度的分析和挖掘,找出用户在不同环境下的偏好温度,达到智能控温的目的,营造出舒适的车内环境。
附图说明
图1为本发明具体实施方式的数据采集系统硬件结构框架图;
图2为本发明具体实施方式的数据预处理与数据挖掘流程图;
图3为本发明具体实施方式的云边协同计算示意图;
图4为本发明具体实施方式的用户隐私保护流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。
本实施方式的基于数据挖掘技术的用户行为分析方法及系统,包括温度数据采集单元、手机控制终端以及服务器端;
数据采集单元如图1测温节点结构所示,包括单片机MSP430F2132、12位精度温度传感器TMP275、Wi-Fi通信模块USRWIFI232-S和电源模块。MSP430F2132通过USART总线协议与Wi-Fi通信模块传输数据,通过FC总线协议与温度传感器进行通信。
单片机采用TI公司的超低功耗MSP430系类l'的单片机,MSP430F2132是一款具有8kBFlash,512B RAM的内存,2个USART,1个FC,28个引脚的小体积单片机。不仅拥有丰富外设资源,并且有4种可设定的低功耗模式,所以是一款超低功耗单片机,符合环保的设计初衷。温度传感器采用了TI公司的TMP275。TMP275是一款9到12位精度可设置的温度传感器,工作电流为50uA,待机电流只需0.1uA。
采集单元的工作过程是:单片机接收到手机控制终端发送的唤醒命令后,通过I2C总线协议从温度传感器读取温度寄存器的数据,然后通过Wi-Fi通信模块发送给手机控制终端,由单节锂聚合物电池和稳压芯片AMS1117组成的电源模块为采集单元各个模块供电;
手机控制终端为用户行为特征提取单元,首先对温度数据采集单元上传到手机终端的温度数据进行加工,对应添加温度数据对应的时间、GPS方位、当前天气温度数据,然后对采集温度数据进行数字滤波处理,滤除温度数据中存在有害成分和噪声。最后通过分布式存储技术分割存储,并将数据经手机上传至服务器端;数字滤波算法采用中位值平均滤波法,具体实现就是处理器首先会开辟一段存储空间,比如一个可以存放20个数据的数组,将温度数据存储在数组里,当数组被填满时,然后将数组里的最大值和最小值去掉求平均,这样可以减小偶尔出现过大或过小的错误温度数据的干扰。消去脉冲干扰后,还需将获取的温度值进行平滑滤波处理,防止出现过大的温度变化,降低系统的工作效率,处理器通过将中位值平均滤波后的数据存放在一个数组中,每次往数组中放入一个数据,数组中原有的数据将会依次向后移动一位,末尾的数据将会被丢弃,然后通过求平均得到此时的温度值。
用户群体分类单元结合基于时间序列的数据挖掘技术,对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行整理和分类,建立用户分类模型实现用户精细化分类;
关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析,找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子,实现对用户行为偏好的分析、预测和对异常行为的检测。
采用上述用户行为数据挖掘的方法,总体流程如图2所示,具体包括如下步骤:
步骤1:手机控制终端通过测温节点采集温度信息,经过添加外部环境信息作为用户行为信息,并上传至服务器,完成基于互联网的用户行为信息数据;
步骤2:对用户行为信息数据进行预处理,如图2数据预处理模块所示,首先对上传到服务器的基于时间序列的温度信息进行预处理和等长处理,通过时间序列上升和下降点对时间序列数据进行近似处理,
步骤2.1:对时间序列进行预处理,将时间序列数据都映射到区间[0,1]内,消除时间序列数据中存在的噪声,降低噪声对数据挖掘过程中造成的影响,便于后期时间序列数据的挖掘,提高算法的加速比。公式如下:
Figure BDA0002969674340000071
其中,x*代表的是进行转换后得到的归一化或标准化数据;max(x)代表的是时间序列中存在的最大值;min(x)代表的是时间序列中存在的最小值。
步骤2.2:提取以r为半径、o(ti,xi)为中心区域的极值点;将o(ti,xi)作为中心,时间序列点(tp,xp)依次向后或向前采集第i个时间序列点,得到r为半径、o(ti,xi)为中心的区域G(o),通过下式判断区域中存在的极值点:
Figure BDA0002969674340000081
其中,f(xi,1)代表的是以r为半径、o(ti,xi)为中心区域内存在的数值特征;-1、1分别代表的是区域内的极小值点和极大值点;当f(xi,1)的值为零时,表明该时间序列点不是极值点;ti代表时间序列中第i个点的对应的时间、GPS方位、天气、车外温度构成的数组,xi代表归一化处理后第i个点对应的车内温度,tp代表时间序列中第p个点的对应的时间、GPS方位、天气、车外温度构成的数组,xp代表第p个点对应的车内温度;
步骤2.3:对提取的时间序列中的极值点进行等长处理;提取两个时间序列中存在的极值点并集,重新划分具有新极值点的时间序列,使时间序列的长度相等,时间序列等长处理的具体方法如下式所示:
Figure BDA0002969674340000082
其中,X、Y为等长时间序列,SX、SY为极值点对应的极值点序列,长度分别为m、n,SX′、SY′为经过等长处理后的时间序列;
步骤3:对用户行为信息进行数据挖掘,将多目标决策理论应用到时间序列数据挖掘中,具体过程如图2数据挖掘模块所示;
步骤3.1:根据提取得到的区间极值点序列构建标准决策矩阵Z,决策矩阵Z中的行列均为时间序列中存在的极值点以及极值点对应的对象属性;设向量A={a1,…,an}是由n个极值点构成的集合;向量C={c1,…,cm}是由m个极值点属性构成的集合,即为评价指标,通过下式比较不同指标对应的决策对象:
dk(ai,aj)=ck(ai)-ck(aj)
其中,dk(ai,aj)代表的是在评价指标ck上极值点ai、aj存在的差值。
步骤3.2:通过偏好函数用标准化的偏好度πk(ai,aj)代替差值dk(ai,aj),方法为:
πk(ai,aj)=fk(dk(ai,aj))
其中,fk()代表的是偏好函数;
步骤3.3:基于多目标决策的时间序列数据挖掘算法在线性特征的基础上对偏好函数进行选择,如下式所示:
Figure BDA0002969674340000091
其中,pk代表的是偏好阈值;qk代表的是无差异阈值;上述两个阈值可以对偏好度的分布态势进行预测;dk(ai,aj)在评价指标ck上极值点ai、aj存在的差值。
步骤3.4:确定目标的正负偏好;决策对象a和决策对象b之间存在的多目标偏好度如下式所示:
Figure BDA0002969674340000092
正偏好流
Figure BDA0002969674340000093
和负偏好流
Figure BDA0002969674340000094
的计算公式分别如下:
Figure BDA0002969674340000095
其中,
Figure BDA0002969674340000096
代表的是正偏好流,在全部决策目标上决策对象ai的正偏好流
Figure BDA0002969674340000097
对应的偏好级别最高;
Figure BDA0002969674340000098
代表的是负偏好流,在全部决策目标上决策对象ai的负偏好流
Figure BDA0002969674340000099
对应的偏好级别最低;n代表n个极值点,与2.3中n含义相同;
步骤3.5:最优决策对象在极端情况下对应的负偏好流值和正偏好流的值分别为0和1;基于多目标决策的时间序列数据挖掘算法根据偏好流排序结果实现时间序列数据挖掘,净偏好流的值越大表明极值点对应的偏好级别越高,根据级别对时间序列数据进行分类,实现时间序列的数据挖掘,净偏好流计算如下式:
Figure BDA00029696743400000910
步骤4:利用云、边协同计算方法,如图3云边协同计算所示,将边缘端服务器和云端服务器进行协同作业,有效提高用户行为分析的执行效率,从整体上提高任务处理的速度;
步骤4.1:通过云端服务器集群组成的云端部件和边缘服务器集群组成的边缘部件的任务是否有相互干扰和数据往来,将云边协同模式分为三类任务:云边相离类任务、云边相交类任务以及云边包含类任务;其中云边相离类任务的特点是云端部件和边缘端部件中的任务没有数据往来,云边相交类任务的特点是云端部件与边缘端部件中的任务有数据交换,云边包含类任务的特点是云端部件中的任务是边缘端部件中任务的子任务;
步骤4.2:将云端服务器和边缘端服务器上的DAG(Directed acyclic graph:DAG)进行合并,如下式所示:
Figure BDA0002969674340000101
其中,A、B为集合1、集合2,C为合并后的集合;式①表示对于云边相离任务,合并的方法是增加一个虚拟的入口任务节点和出口任务节点,然后更新虚拟入口任务节点和出口任务节点;式②表示对于云边相交任务,合并的方式是入口任务节点同时作为每个子DAG入口任务节点的父亲节点,然后以替换的方法实现DGA合并;式③表示对于云边包含任务,通过判断较大任务节点来替代小任务节点实现合并;
步骤4.3:利用基于关键路径的分割策略划分任务。分割方法如下式所示:
Figure BDA0002969674340000102
其中,CTS(Critical tasks set)表示关键任务集,NCTS(Non-critical tasksset)非关键任务集,其中任务集类型分为边缘端任务EST(Edge-side tasks)和云端任务CST(Cloud-side tasks);
步骤4.4:根据DAG合并图关键路径的边的权值之和确定云边协同计算架构下任务图的优先级,云边协同计算架构下DAG合并图Dk的优先级rank(Dk)方法如下式所示:
Figure BDA0002969674340000103
其中n*表示任务个数;
步骤4.5:从任务图列表中具有较高优先级的任务图开始优先分配处理器资源,根据任务图列表构成相应的路径列表,路径pk的优先级rank(pk)如下式所示:
Figure BDA0002969674340000104
其中,ηi代表任务图列表对应的路径值,ei代表该路径的权值;
步骤5:对用户行为隐私保护,对对称密钥进行加密保护,消息订阅者正确解密并得到正确的对称密钥,进而解密并恢复出元数据M,具体流程如图4用户隐私保护图所示;
步骤5.1:数据安全分享的初始化算法;首先选择两个双线性群G0(阶为p,生成元为g)和G1,并且定义一个双线性映射e:G0×G0=G1;另外,选择两个安全哈希函数H1(·),H2(·)和访问参数α,β12∈Zp使得α≠0,β1≠0,,β2≠1且β2≠β1,公开密钥为:
Figure BDA0002969674340000111
主密钥MSK为:
MSK={β12,gα}
步骤5.2:数据安全分享的密钥生成算法;设S表示一个数据订阅者的属性集合,属性授权端首先选择
Figure BDA0002969674340000112
然后为每个订阅者产生私钥SK,公式如下所示:
Figure BDA0002969674340000113
步骤5.3:发布者对终端进行加密;执行一个具有签名策略的密钥产生算法,并且获得一个一次密钥对(sk,vk),根据消息内容构建一个访问树Γ=ΓuANDtc作为该消息的访问控制策略,然后计算K=e(g,g)αs,对称密钥ek=H2(K)和
Figure BDA0002969674340000114
用对称密钥ek对明文M进行对称加密得到C=Enc M,最后输出密文Cu,Cu计算公式如下:
Cu={Γ,C,C1}
步骤5.4:订阅者终端解密,当消息订阅者从网络中获取了其感兴趣的数据包之后,如果他的属性集满足该数据包的树形访问结构u,用验证密钥在密文上验证签名通过,并用对称密钥ek解密得到明文元数据M。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种基于数据挖掘技术的用户行为分析系统,其特征在于,包括温度数据采集单元、手机控制终端以及服务器端;
所述温度数据采集单元由单片机、温度传感器、Wi-Fi通信模块和电源模块构成,单片机与温度传感器连接,接收到手机控制终端的唤醒命令后,通过I2C总线协议从温度传感器读取温度数据,通过Wi-Fi通信模块发送给手机控制终端,电源模块是单节锂聚合物电池和稳压芯片,分别与单片机、温度传感器、Wi-Fi通信模块的电源接口连接;
所述手机控制终端为用户行为特征提取单元,通过Wi-Fi通信模块与温度数据采集单元通信,获取实时温度数据,对温度数据进行加工,添加对应的时间、GPS方位、当前天气温度数据等数据,并对温度数据进行中位值平均滤波处理,通过分布式存储技术分割存储,并将数据经手机上传至服务器端;
所述服务器端包括用户群体分类单元、关联因素辨识及综合应用单元;所述用户群体分类单元结合基于时间序列的数据挖掘技术,对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行分类,建立用户分类模型;所述关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析,找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子,实现对用户行为的分析、预测和对异常行为的检测。
2.一种基于数据挖掘技术的用户行为分析方法,通过权利要求1所述一种基于数据挖掘技术的用户行为分析系统实现,其特征在于:包括以下步骤:
步骤1:手机控制终端通过测温节点采集温度信息,经过添加外部环境信息作为用户行为信息,并上传至服务器,完成基于互联网的用户行为信息数据;
步骤2:对用户行为信息数据进行预处理,对上传到服务器的基于时间序列的温度信息进行预处理和等长处理,通过时间序列上升和下降点对时间序列数据进行近似处理,
步骤2.1:对时间序列进行预处理,将时间序列数据都映射到区间[0,1]内,消除时间序列数据中存在的噪声,公式如下:
Figure FDA0002969674330000011
其中,x*代表的是进行转换后得到的归一化或标准化数据;max(x)代表的是时间序列中存在的最大值;min(x)代表的是时间序列中存在的最小值;
步骤2.2:提取以r为半径、o(ti,xi)为中心区域的极值点;将o(ti,xi)作为中心,时间序列点(tp,xp)依次向后或向前采集第i个时间序列点,得到r为半径、o(ti,xi)为中心的区域G(o),通过下式判断区域中存在的极值点:
Figure FDA0002969674330000021
其中,f(xi,1)代表的是以r为半径、o(ti,xi)为中心区域内存在的数值特征;-1、1分别代表的是区域内的极小值点和极大值点;当f(xi,1)的值为零时,表明该时间序列点不是极值点;ti代表时间序列中第i个点的对应的时间、GPS方位、天气、车外温度构成的数组,xi代表归一化处理后第i个点对应的车内温度,tp代表时间序列中第p个点的对应的时间、GPS方位、天气、车外温度构成的数组,xp代表第p个点对应的车内温度;
步骤2.3:对提取的时间序列中的极值点进行等长处理;提取两个时间序列中存在的极值点并集,重新划分具有新极值点的时间序列,使时间序列的长度相等,时间序列等长处理的具体方法如下式所示:
Figure FDA0002969674330000022
其中,X、Y为等长时间序列,SX、SY为极值点对应的极值点序列,长度分别为m、n,SX′、SY′为经过等长处理后的时间序列;
步骤3:对用户行为信息进行数据挖掘,将多目标决策理论应用到时间序列数据挖掘中;
步骤3.1:根据提取得到的区间极值点序列构建标准决策矩阵Z,决策矩阵Z中的行列均为时间序列中存在的极值点以及极值点对应的对象属性;设向量A={a1,…,an}是由n个极值点构成的集合;向量C={c1,…,cm}是由m个极值点属性构成的集合,即为评价指标,通过下式比较不同指标对应的决策对象:
dk(ai,aj)=ck(ai)-ck(aj)
其中,dk(ai,aj)代表的是在评价指标ck上极值点ai、aj存在的差值;
步骤3.2:通过偏好函数用标准化的偏好度πk(ai,aj)代替差值dk(ai,aj),方法为:
πk(ai,aj)=fk(dk(ai,aj))
其中,fk()代表的是偏好函数;
步骤3.3:基于多目标决策的时间序列数据挖掘算法在线性特征的基础上对偏好函数进行选择,如下式所示:
Figure FDA0002969674330000023
其中,pk代表的是偏好阈值;qk代表的是无差异阈值;上述两个阈值可以对偏好度的分布态势进行预测;dk(ai,aj)在评价指标ck上极值点ai、aj存在的差值;
步骤3.4:确定目标的正负偏好;决策对象a和决策对象b之间存在的多目标偏好度如下式所示:
Figure FDA0002969674330000031
正偏好流
Figure FDA0002969674330000032
和负偏好流
Figure FDA0002969674330000033
的计算公式分别如下:
Figure FDA0002969674330000034
其中,
Figure FDA0002969674330000035
代表的是正偏好流,在全部决策目标上决策对象ai的正偏好流
Figure FDA0002969674330000036
对应的偏好级别最高;
Figure FDA0002969674330000037
代表的是负偏好流,在全部决策目标上决策对象ai的负偏好流
Figure FDA0002969674330000038
对应的偏好级别最低;
步骤3.5:最优决策对象在极端情况下对应的负偏好流值和正偏好流的值分别为0和1;基于多目标决策的时间序列数据挖掘算法根据偏好流排序结果实现时间序列数据挖掘,净偏好流的值越大表明极值点对应的偏好级别越高,根据级别对时间序列数据进行分类,实现时间序列的数据挖掘,净偏好流计算如下式:
Figure FDA0002969674330000039
步骤4:利用云、边协同计算方法,将边缘端服务器和云端服务器进行协同作业;提高用户行为分析的执行效率,从整体上提高任务处理的速度;
步骤4.1:通过云端服务器集群组成的云端部件和边缘服务器集群组成的边缘部件的任务是否有相互干扰和数据往来,将云边协同模式分为三类任务:云边相离类任务、云边相交类任务以及云边包含类任务;
其中云边相离类任务为云端部件和边缘端部件中的任务没有数据往来,云边相交类任务为云端部件与边缘端部件中的任务有数据交换,云边包含类任务为云端部件中的任务是边缘端部件中任务的子任务;
步骤4.2:将云端服务器和边缘端服务器上的DAG(Directed acyclic graph:DAG)进行合并,如下式所示:
Figure FDA0002969674330000041
其中,A、B为集合1、集合2,C为合并后的集合;式①表示对于云边相离任务,合并的方法是增加一个虚拟的入口任务节点和出口任务节点,然后更新虚拟入口任务节点和出口任务节点;式②表示对于云边相交任务,合并的方式是入口任务节点同时作为每个子DAG入口任务节点的父亲节点,然后以替换的方法实现DGA合并;式③表示对于云边包含任务,通过判断较大任务节点来替代小任务节点实现合并;
步骤4.3:利用基于关键路径的分割策略划分任务,分割方法如下式所示:
Figure FDA0002969674330000042
其中,CTS(Critical tasks set)表示关键任务集,NCTS(Non-critical tasks set)非关键任务集,其中任务集类型分为边缘端任务EST(Edge-side tasks)和云端任务CST(Cloud-side tasks);
步骤4.4:根据DAG合并图关键路径的边的权值之和确定云边协同计算架构下任务图的优先级,云边协同计算架构下DAG合并图Dk的优先级rank(Dk)方法如下式所示:
Figure FDA0002969674330000043
其中n*表示任务个数;
步骤4.5:从任务图列表中具有较高优先级的任务图开始优先分配处理器资源,根据任务图列表构成相应的路径列表,路径pk的优先级rank(pk)如下式所示:
Figure FDA0002969674330000044
ηi代表任务图列表对应的路径值,ei代表该路径的权值;
步骤5:对用户行为隐私保护,对对称密钥进行加密保护,消息订阅者正确解密并得到正确的对称密钥,进而解密并恢复出元数据M,实现对用户行为的分析、预测和对异常行为的检测。
3.根据权利要求2所述的一种基于数据挖掘技术的用户行为分析方法,其特征在于,步骤5具体包括:
步骤5.1:数据安全分享的初始化算法;首先选择两个双线性群G0(阶为p,生成元为g)和G1,并且定义一个双线性映射e:G0×G0=G1;另外,选择两个安全哈希函数H1(·),H2(·)和访问参数α,β12∈Zp使得α≠0,β1≠0,,β2≠1且β2≠β1,公开密钥为:
Figure FDA0002969674330000051
主密钥MSK为:
MSK={β12,gα}
步骤5.2:数据安全分享的密钥生成算法;设S表示一个数据订阅者的属性集合,属性授权端首先选择
Figure FDA0002969674330000052
然后为每个订阅者产生私钥SK,公式如下所示:
Figure FDA0002969674330000053
步骤5.3:发布者对终端进行加密;执行一个具有签名策略的密钥产生算法,并且获得一个一次密钥对(sk,vk),根据消息内容构建一个访问树Γ=ΓuANDtc作为该消息的访问控制策略,然后计算K=e(g,g)αs,对称密钥ek=H2(K)和
Figure FDA0002969674330000054
用对称密钥ek对明文M进行对称加密得到C=Enc M,最后输出密文Cu,Cu计算公式如下:
Cu={Γ,C,C1}
步骤5.4:订阅者终端解密,当消息订阅者从网络中获取了其感兴趣的数据包之后,如果他的属性集满足该数据包的树形访问结构u,用验证密钥在密文上验证签名通过,并用对称密钥ek解密得到明文元数据M。
CN202110260276.3A 2021-03-10 2021-03-10 一种基于数据挖掘技术的用户行为分析系统及方法 Pending CN112990291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110260276.3A CN112990291A (zh) 2021-03-10 2021-03-10 一种基于数据挖掘技术的用户行为分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110260276.3A CN112990291A (zh) 2021-03-10 2021-03-10 一种基于数据挖掘技术的用户行为分析系统及方法

Publications (1)

Publication Number Publication Date
CN112990291A true CN112990291A (zh) 2021-06-18

Family

ID=76334718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110260276.3A Pending CN112990291A (zh) 2021-03-10 2021-03-10 一种基于数据挖掘技术的用户行为分析系统及方法

Country Status (1)

Country Link
CN (1) CN112990291A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777367A (zh) * 2017-01-24 2017-05-31 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及系统
CN110909904A (zh) * 2018-09-17 2020-03-24 济南热力集团有限公司 基于无线互联与数据挖掘技术的终端用户负荷预测系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777367A (zh) * 2017-01-24 2017-05-31 深圳企管加企业服务有限公司 一种基于大数据挖掘的用户行为分析方法及系统
CN110909904A (zh) * 2018-09-17 2020-03-24 济南热力集团有限公司 基于无线互联与数据挖掘技术的终端用户负荷预测系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
DAVID CORNE等: "Synergies between operations research and data mining: The emerging use of multi-objective approaches", 《EUROPEAN JOURNAL OF OPERATIONAL RESEARCH》, vol. 221, no. 3, pages 469 - 479, XP028508824, DOI: 10.1016/j.ejor.2012.03.039 *
任延昭;陈雪瑞;贾敬敦;高万林;朱佳佳;: "基于微信平台的温室环境监测与温度预测系统", 农业机械学报, no. 1, pages 307 - 312 *
何保荣: "基于多目标决策的时间序列数据挖掘算法仿真", 《计算机仿真》, vol. 36, no. 11, pages 243 - 246 *
党林涛: "基于ACE和ABE的新型数据安全分享技术研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 6, 15 June 2020 (2020-06-15), pages 138 - 91 *
刘林东;陈宏滨;: "面向用户需求的数字家庭网络数据挖掘", 微计算机信息, no. 36, pages 165 - 167 *
王国勋: "基于多目标决策的数据挖掘模型选择研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 12, pages 138 - 13 *
赵龙乾: "基于云边协同计算架构的资源分配和任务调度方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 2, 15 February 2021 (2021-02-15), pages 137 - 15 *

Similar Documents

Publication Publication Date Title
CN106875066B (zh) 用车出行行为的预测方法、装置、服务器以及存储介质
CN111258767B (zh) 复杂系统仿真应用的云计算资源智能分配方法与装置
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN106708989B (zh) 基于空间时序数据流应用的Skyline查询方法
Junaid et al. Modeling an optimized approach for load balancing in cloud
CN106777093B (zh) 基于空间时序数据流应用的Skyline查询系统
CN108629358B (zh) 对象类别的预测方法及装置
CN111738341B (zh) 一种分布式大规模人脸聚类方法及装置
CN110334157B (zh) 一种云计算管理系统
CN111339818A (zh) 一种人脸多属性识别系统
Bhamidi et al. Change point detection in network models: Preferential attachment and long range dependence
CN107483451B (zh) 基于串并行结构网络安全数据处理方法及系统、社交网络
CN109636212B (zh) 作业实际运行时间的预测方法
CN110825545A (zh) 一种云服务平台异常检测方法与系统
CN112508726A (zh) 一种基于信息传播特点的虚假舆论识别系统及其处理方法
CN109858951A (zh) 新能源汽车加电或换电需求的预测
CN117996242B (zh) 用于动力电池的智能均衡控制方法及系统
Gao et al. A deep learning framework with spatial-temporal attention mechanism for cellular traffic prediction
CN115882455A (zh) 一种分布式光伏发电预测方法、系统及终端机
Sundarakumar et al. A heuristic approach to improve the data processing in big data using enhanced Salp Swarm algorithm (ESSA) and MK-means algorithm
CN117155701A (zh) 一种网络流量入侵检测方法
CN112990291A (zh) 一种基于数据挖掘技术的用户行为分析系统及方法
CN112053006A (zh) 基于迁移学习的冷热电联供系统优化时间加速方法及系统
CN114329127B (zh) 特征分箱方法、装置及存储介质
CN115883392A (zh) 算力网络的数据感知方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination