CN112990291A - 一种基于数据挖掘技术的用户行为分析系统及方法 - Google Patents
一种基于数据挖掘技术的用户行为分析系统及方法 Download PDFInfo
- Publication number
- CN112990291A CN112990291A CN202110260276.3A CN202110260276A CN112990291A CN 112990291 A CN112990291 A CN 112990291A CN 202110260276 A CN202110260276 A CN 202110260276A CN 112990291 A CN112990291 A CN 112990291A
- Authority
- CN
- China
- Prior art keywords
- data
- task
- cloud
- tasks
- temperature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005516 engineering process Methods 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 44
- 238000004891 communication Methods 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 229910052744 lithium Inorganic materials 0.000 claims description 3
- 229920000642 polymer Polymers 0.000 claims description 3
- 230000000087 stabilizing effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims 2
- 230000001568 sexual effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于数据挖掘技术的用户行为分析系统及方法,涉及互联网数据挖掘技术领域。本系统包括温度数据采集单元、手机控制终端以及服务器端;对互联网用户行为信息进行收集和整理;将收集到的数据进行数据预处理操作,目的是为了消除噪声,解决极值点长度的差异;对经过预处理的数据进行基于多目标决策的数据挖掘处理,实现对时间序列的数据挖掘;针对数据处理过程中消耗资源过大的情况,提出了云边协同计算方法,将边缘端服务器和云端服务器协同作业,实现对海量数据的实时分类;数据上传过程中存在隐私泄露风险,采用对称密钥对明文数据进行加密,订阅者只有持有正确密钥才可以解密明文数据。
Description
技术领域
本发明涉及互联网数据挖掘技术领域,尤其涉及一种基于数据挖掘技术的用户行为分析系统及方法。
背景技术
随着互联网技术的迅速发展,人们的生活和工作越来越依赖于互联网,用户在使用企业应用系统提供的服务,同时所生成的用户行为操作日志数据也在逐渐的增加。通过分析和挖掘日志数据中隐藏的信息可以得到一些有趣的模式,而这些有趣的模式对分析用户的各项需求和评估产品的效果有着重要的意义。计算机技术的发展促进了社会迈向大数据时代,在复杂、海量的数据中挖掘有用的时间序列数据是当前亟需解决的问题。
近年来数据挖掘成为核心骨干技术被应用到数据处理中,数据挖掘技术的主要目的是将有价值的规律、知识和模式从海量数据中提取出来,并进行识别,根据挖掘识别结果对科学研究和商业决策进行指导。在时间序列数据分布的前提下,建立满足时间序列分布特征的数学模型,结合概率密度函数和相似性对时间序列数据进行挖掘。当前时间序列数据挖掘算法存在挖掘过程易受到噪声干扰、加速比低和可扩展性差的问题,需要研究时间序列数据挖掘算法。为了解决上述方法中存在的问题,提出基于多目标决策的时间序列数据挖掘算法。
发明内容
针对现有技术的不足,本发明提供一种基于数据挖掘技术的用户行为分析系统及方法,并应用于汽车空调智能控温技术,对不同环境下用户对汽车空调温度的选择进行采集和挖掘,使车载空调向环保、节能、舒适的方向发展。
本发明所采取的技术方案是:
一方面,一种基于数据挖掘技术的用户行为分析系统,包括温度数据采集单元、手机控制终端以及服务器端;
所述温度数据采集单元由单片机、温度传感器、Wi-Fi通信模块和电源模块构成,单片机与温度传感器连接,接收到手机控制终端的唤醒命令后,通过I2C总线协议从温度传感器读取温度数据,通过Wi-Fi通信模块发送给手机控制终端,电源模块是单节锂聚合物电池和稳压芯片,分别与单片机、温度传感器、Wi-Fi通信模块的电源接口连接;
所述手机控制终端为用户行为特征提取单元,通过Wi-Fi通信模块与温度数据采集单元通信,获取实时温度数据,对温度数据进行加工,添加对应的时间、GPS方位、当前天气温度数据等数据,并对温度数据进行中位值平均滤波处理,通过分布式存储技术分割存储,并将数据经手机上传至服务器端;
所述服务器端包括用户群体分类单元、关联因素辨识及综合应用单元;所述用户群体分类单元结合基于时间序列的数据挖掘技术,对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行分类,建立用户分类模型;
所述关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析,找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子,实现对用户行为的分析、预测和对异常行为的检测;
另一方面,一种基于数据挖掘技术的用户行为分析方法,基于前述一种基于数据挖掘技术的用户行为分析系统实现,包括以下步骤:
步骤1:手机控制终端通过测温节点采集温度信息,经过添加外部环境信息作为用户行为信息,并上传至服务器,完成基于互联网的用户行为信息数据;
步骤2:对用户行为信息数据进行预处理,对上传到服务器的基于时间序列的温度信息进行预处理和等长处理,通过时间序列上升和下降点对时间序列数据进行近似处理,
步骤2.1:对时间序列进行预处理,将时间序列数据都映射到区间[0,1]内,消除时间序列数据中存在的噪声,公式如下:
其中,x*代表的是进行转换后得到的归一化或标准化数据;max(x)代表的是时间序列中存在的最大值;min(x)代表的是时间序列中存在的最小值。
步骤2.2:提取以r为半径、o(ti,xi)为中心区域的极值点;将o(ti,xi)作为中心,时间序列点(tp,xp)依次向后或向前采集第i个时间序列点,得到r为半径、o(ti,xi)为中心的区域G(o),通过下式判断区域中存在的极值点:
其中,f(xi,1)代表的是以r为半径、o(ti,xi)为中心区域内存在的数值特征;-1、1分别代表的是区域内的极小值点和极大值点;当f(xi,1)的值为零时,表明该时间序列点不是极值点;ti代表时间序列中第i个点的对应的时间、GPS方位、天气、车外温度构成的数组,xi代表归一化处理后第i个点对应的车内温度,tp代表时间序列中第p个点的对应的时间、GPS方位、天气、车外温度构成的数组,xp代表第p个点对应的车内温度;
步骤2.3:对提取的时间序列中的极值点进行等长处理;提取两个时间序列中存在的极值点并集,重新划分具有新极值点的时间序列,使时间序列的长度相等,时间序列等长处理的具体方法如下式所示:
其中,X、Y为等长时间序列,SX、SY为极值点对应的极值点序列,长度分别为m、n,SX′、SY′为经过等长处理后的时间序列;
步骤3:对用户行为信息进行数据挖掘,将多目标决策理论应用到时间序列数据挖掘中;
步骤3.1:根据提取得到的区间极值点序列构建标准决策矩阵Z,决策矩阵Z中的行列均为时间序列中存在的极值点以及极值点对应的对象属性;设向量A={a1,…,an}是由n个极值点构成的集合;向量C={c1,…,cm}是由m个极值点属性构成的集合,即为评价指标,通过下式比较不同指标对应的决策对象:
dk(ai,aj)=ck(ai)-ck(aj)
其中,dk(ai,aj)代表的是在评价指标ck上极值点ai、aj存在的差值。
步骤3.2:通过偏好函数用标准化的偏好度πk(ai,aj)代替差值dk(ai,aj),方法为:
πk(ai,aj)=fk(dk(ai,aj))
其中,fk()代表的是偏好函数;
步骤3.3:基于多目标决策的时间序列数据挖掘算法在线性特征的基础上对偏好函数进行选择,如下式所示:
其中,pk代表的是偏好阈值;qk代表的是无差异阈值;上述两个阈值可以对偏好度的分布态势进行预测;dk(ai,aj)在评价指标ck上极值点ai、aj存在的差值;
步骤3.4:确定目标的正负偏好;决策对象a和决策对象b之间存在的多目标偏好度如下式所示:
步骤3.5:最优决策对象在极端情况下对应的负偏好流值和正偏好流的值分别为0和1;基于多目标决策的时间序列数据挖掘算法根据偏好流排序结果实现时间序列数据挖掘,净偏好流的值越大表明极值点对应的偏好级别越高,根据级别对时间序列数据进行分类,实现时间序列的数据挖掘,净偏好流计算如下式:
步骤4:利用云、边协同计算方法,将边缘端服务器和云端服务器进行协同作业;提高用户行为分析的执行效率,从整体上提高任务处理的速度;
步骤4.1:通过云端服务器集群组成的云端部件和边缘服务器集群组成的边缘部件的任务是否有相互干扰和数据往来,将云边协同模式分为三类任务:云边相离类任务、云边相交类任务以及云边包含类任务;
其中云边相离类任务为云端部件和边缘端部件中的任务没有数据往来,云边相交类任务为云端部件与边缘端部件中的任务有数据交换,云边包含类任务为云端部件中的任务是边缘端部件中任务的子任务;
步骤4.2:将云端服务器和边缘端服务器上的DAG(Directed acyclic graph:DAG)进行合并,如下式所示:
其中,A、B为集合1、集合2,C为合并后的集合;式①表示对于云边相离任务,合并的方法是增加一个虚拟的入口任务节点和出口任务节点,然后更新虚拟入口任务节点和出口任务节点;式②表示对于云边相交任务,合并的方式是入口任务节点同时作为每个子DAG入口任务节点的父亲节点,然后以替换的方法实现DGA合并;式③表示对于云边包含任务,通过判断较大任务节点来替代小任务节点实现合并;
步骤4.3:利用基于关键路径的分割策略划分任务。分割方法如下式所示:
其中,CTS(Critical tasks set)表示关键任务集,NCTS(Non-critical tasksset)非关键任务集,其中任务集类型分为边缘端任务EST(Edge-side tasks)和云端任务CST(Cloud-side tasks);
步骤4.4:根据DAG合并图关键路径的边的权值之和确定云边协同计算架构下任务图的优先级,云边协同计算架构下DAG合并图Dk的优先级rank(Dk)方法如下式所示:
其中n*表示任务个数;
步骤4.5:从任务图列表中具有较高优先级的任务图开始优先分配处理器资源,根据任务图列表构成相应的路径列表,路径pk的优先级rank(pk)如下式所示:
ηi代表任务图列表对应的路径值,ei代表该路径的权值;
步骤5:对用户行为隐私保护,对对称密钥进行加密保护,消息订阅者正确解密并得到正确的对称密钥,进而解密并恢复出元数据M,实现对用户行为的分析、预测和对异常行为的检测。
步骤5.1:数据安全分享的初始化算法;首先选择两个双线性群G0(阶为p,生成元为g)和G1,并且定义一个双线性映射e:G0×G0=G1;另外,选择两个安全哈希函数H1(·),H2(·)和访问参数α,β1,β2∈Zp使得α≠0,β1≠0,,β2≠1且β2≠β1,公开密钥为:
主密钥MSK为:
MSK={β1,β2,gα}
步骤5.3:发布者对终端进行加密;执行一个具有签名策略的密钥产生算法,并且获得一个一次密钥对(sk,vk),根据消息内容构建一个访问树Γ=ΓuANDtc作为该消息的访问控制策略,然后计算K=e(g,g)αs,对称密钥ek=H2(K)和用对称密钥ek对明文M进行对称加密得到C=Enc M,最后输出密文Cu,Cu计算公式如下:
Cu={Γ,C,C1}
步骤5.4:订阅者终端解密,当消息订阅者从网络中获取了其感兴趣的数据包之后,如果他的属性集满足该数据包的树形访问结构u,用验证密钥在密文上验证签名通过,并用对称密钥ek解密得到明文元数据M。
采用上述技术方案所产生的有益效果在于:
本发明提出一种基于数据挖掘技术的用户行为分析系统及方法,通过采用温度采集系统对环境温度采集并通过手机上传云端,并利用数据挖掘技术找出温度数据与所处环境之间的联系,分析用户的行为,达到行为预测的目的。该系统应用到汽车的空调系统之中,通过对区域用户车内温度的分析和挖掘,找出用户在不同环境下的偏好温度,达到智能控温的目的,营造出舒适的车内环境。
附图说明
图1为本发明具体实施方式的数据采集系统硬件结构框架图;
图2为本发明具体实施方式的数据预处理与数据挖掘流程图;
图3为本发明具体实施方式的云边协同计算示意图;
图4为本发明具体实施方式的用户隐私保护流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。
本实施方式的基于数据挖掘技术的用户行为分析方法及系统,包括温度数据采集单元、手机控制终端以及服务器端;
数据采集单元如图1测温节点结构所示,包括单片机MSP430F2132、12位精度温度传感器TMP275、Wi-Fi通信模块USRWIFI232-S和电源模块。MSP430F2132通过USART总线协议与Wi-Fi通信模块传输数据,通过FC总线协议与温度传感器进行通信。
单片机采用TI公司的超低功耗MSP430系类l'的单片机,MSP430F2132是一款具有8kBFlash,512B RAM的内存,2个USART,1个FC,28个引脚的小体积单片机。不仅拥有丰富外设资源,并且有4种可设定的低功耗模式,所以是一款超低功耗单片机,符合环保的设计初衷。温度传感器采用了TI公司的TMP275。TMP275是一款9到12位精度可设置的温度传感器,工作电流为50uA,待机电流只需0.1uA。
采集单元的工作过程是:单片机接收到手机控制终端发送的唤醒命令后,通过I2C总线协议从温度传感器读取温度寄存器的数据,然后通过Wi-Fi通信模块发送给手机控制终端,由单节锂聚合物电池和稳压芯片AMS1117组成的电源模块为采集单元各个模块供电;
手机控制终端为用户行为特征提取单元,首先对温度数据采集单元上传到手机终端的温度数据进行加工,对应添加温度数据对应的时间、GPS方位、当前天气温度数据,然后对采集温度数据进行数字滤波处理,滤除温度数据中存在有害成分和噪声。最后通过分布式存储技术分割存储,并将数据经手机上传至服务器端;数字滤波算法采用中位值平均滤波法,具体实现就是处理器首先会开辟一段存储空间,比如一个可以存放20个数据的数组,将温度数据存储在数组里,当数组被填满时,然后将数组里的最大值和最小值去掉求平均,这样可以减小偶尔出现过大或过小的错误温度数据的干扰。消去脉冲干扰后,还需将获取的温度值进行平滑滤波处理,防止出现过大的温度变化,降低系统的工作效率,处理器通过将中位值平均滤波后的数据存放在一个数组中,每次往数组中放入一个数据,数组中原有的数据将会依次向后移动一位,末尾的数据将会被丢弃,然后通过求平均得到此时的温度值。
用户群体分类单元结合基于时间序列的数据挖掘技术,对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行整理和分类,建立用户分类模型实现用户精细化分类;
关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析,找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子,实现对用户行为偏好的分析、预测和对异常行为的检测。
采用上述用户行为数据挖掘的方法,总体流程如图2所示,具体包括如下步骤:
步骤1:手机控制终端通过测温节点采集温度信息,经过添加外部环境信息作为用户行为信息,并上传至服务器,完成基于互联网的用户行为信息数据;
步骤2:对用户行为信息数据进行预处理,如图2数据预处理模块所示,首先对上传到服务器的基于时间序列的温度信息进行预处理和等长处理,通过时间序列上升和下降点对时间序列数据进行近似处理,
步骤2.1:对时间序列进行预处理,将时间序列数据都映射到区间[0,1]内,消除时间序列数据中存在的噪声,降低噪声对数据挖掘过程中造成的影响,便于后期时间序列数据的挖掘,提高算法的加速比。公式如下:
其中,x*代表的是进行转换后得到的归一化或标准化数据;max(x)代表的是时间序列中存在的最大值;min(x)代表的是时间序列中存在的最小值。
步骤2.2:提取以r为半径、o(ti,xi)为中心区域的极值点;将o(ti,xi)作为中心,时间序列点(tp,xp)依次向后或向前采集第i个时间序列点,得到r为半径、o(ti,xi)为中心的区域G(o),通过下式判断区域中存在的极值点:
其中,f(xi,1)代表的是以r为半径、o(ti,xi)为中心区域内存在的数值特征;-1、1分别代表的是区域内的极小值点和极大值点;当f(xi,1)的值为零时,表明该时间序列点不是极值点;ti代表时间序列中第i个点的对应的时间、GPS方位、天气、车外温度构成的数组,xi代表归一化处理后第i个点对应的车内温度,tp代表时间序列中第p个点的对应的时间、GPS方位、天气、车外温度构成的数组,xp代表第p个点对应的车内温度;
步骤2.3:对提取的时间序列中的极值点进行等长处理;提取两个时间序列中存在的极值点并集,重新划分具有新极值点的时间序列,使时间序列的长度相等,时间序列等长处理的具体方法如下式所示:
其中,X、Y为等长时间序列,SX、SY为极值点对应的极值点序列,长度分别为m、n,SX′、SY′为经过等长处理后的时间序列;
步骤3:对用户行为信息进行数据挖掘,将多目标决策理论应用到时间序列数据挖掘中,具体过程如图2数据挖掘模块所示;
步骤3.1:根据提取得到的区间极值点序列构建标准决策矩阵Z,决策矩阵Z中的行列均为时间序列中存在的极值点以及极值点对应的对象属性;设向量A={a1,…,an}是由n个极值点构成的集合;向量C={c1,…,cm}是由m个极值点属性构成的集合,即为评价指标,通过下式比较不同指标对应的决策对象:
dk(ai,aj)=ck(ai)-ck(aj)
其中,dk(ai,aj)代表的是在评价指标ck上极值点ai、aj存在的差值。
步骤3.2:通过偏好函数用标准化的偏好度πk(ai,aj)代替差值dk(ai,aj),方法为:
πk(ai,aj)=fk(dk(ai,aj))
其中,fk()代表的是偏好函数;
步骤3.3:基于多目标决策的时间序列数据挖掘算法在线性特征的基础上对偏好函数进行选择,如下式所示:
其中,pk代表的是偏好阈值;qk代表的是无差异阈值;上述两个阈值可以对偏好度的分布态势进行预测;dk(ai,aj)在评价指标ck上极值点ai、aj存在的差值。
步骤3.4:确定目标的正负偏好;决策对象a和决策对象b之间存在的多目标偏好度如下式所示:
步骤3.5:最优决策对象在极端情况下对应的负偏好流值和正偏好流的值分别为0和1;基于多目标决策的时间序列数据挖掘算法根据偏好流排序结果实现时间序列数据挖掘,净偏好流的值越大表明极值点对应的偏好级别越高,根据级别对时间序列数据进行分类,实现时间序列的数据挖掘,净偏好流计算如下式:
步骤4:利用云、边协同计算方法,如图3云边协同计算所示,将边缘端服务器和云端服务器进行协同作业,有效提高用户行为分析的执行效率,从整体上提高任务处理的速度;
步骤4.1:通过云端服务器集群组成的云端部件和边缘服务器集群组成的边缘部件的任务是否有相互干扰和数据往来,将云边协同模式分为三类任务:云边相离类任务、云边相交类任务以及云边包含类任务;其中云边相离类任务的特点是云端部件和边缘端部件中的任务没有数据往来,云边相交类任务的特点是云端部件与边缘端部件中的任务有数据交换,云边包含类任务的特点是云端部件中的任务是边缘端部件中任务的子任务;
步骤4.2:将云端服务器和边缘端服务器上的DAG(Directed acyclic graph:DAG)进行合并,如下式所示:
其中,A、B为集合1、集合2,C为合并后的集合;式①表示对于云边相离任务,合并的方法是增加一个虚拟的入口任务节点和出口任务节点,然后更新虚拟入口任务节点和出口任务节点;式②表示对于云边相交任务,合并的方式是入口任务节点同时作为每个子DAG入口任务节点的父亲节点,然后以替换的方法实现DGA合并;式③表示对于云边包含任务,通过判断较大任务节点来替代小任务节点实现合并;
步骤4.3:利用基于关键路径的分割策略划分任务。分割方法如下式所示:
其中,CTS(Critical tasks set)表示关键任务集,NCTS(Non-critical tasksset)非关键任务集,其中任务集类型分为边缘端任务EST(Edge-side tasks)和云端任务CST(Cloud-side tasks);
步骤4.4:根据DAG合并图关键路径的边的权值之和确定云边协同计算架构下任务图的优先级,云边协同计算架构下DAG合并图Dk的优先级rank(Dk)方法如下式所示:
其中n*表示任务个数;
步骤4.5:从任务图列表中具有较高优先级的任务图开始优先分配处理器资源,根据任务图列表构成相应的路径列表,路径pk的优先级rank(pk)如下式所示:
其中,ηi代表任务图列表对应的路径值,ei代表该路径的权值;
步骤5:对用户行为隐私保护,对对称密钥进行加密保护,消息订阅者正确解密并得到正确的对称密钥,进而解密并恢复出元数据M,具体流程如图4用户隐私保护图所示;
步骤5.1:数据安全分享的初始化算法;首先选择两个双线性群G0(阶为p,生成元为g)和G1,并且定义一个双线性映射e:G0×G0=G1;另外,选择两个安全哈希函数H1(·),H2(·)和访问参数α,β1,β2∈Zp使得α≠0,β1≠0,,β2≠1且β2≠β1,公开密钥为:
主密钥MSK为:
MSK={β1,β2,gα}
步骤5.3:发布者对终端进行加密;执行一个具有签名策略的密钥产生算法,并且获得一个一次密钥对(sk,vk),根据消息内容构建一个访问树Γ=ΓuANDtc作为该消息的访问控制策略,然后计算K=e(g,g)αs,对称密钥ek=H2(K)和用对称密钥ek对明文M进行对称加密得到C=Enc M,最后输出密文Cu,Cu计算公式如下:
Cu={Γ,C,C1}
步骤5.4:订阅者终端解密,当消息订阅者从网络中获取了其感兴趣的数据包之后,如果他的属性集满足该数据包的树形访问结构u,用验证密钥在密文上验证签名通过,并用对称密钥ek解密得到明文元数据M。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (3)
1.一种基于数据挖掘技术的用户行为分析系统,其特征在于,包括温度数据采集单元、手机控制终端以及服务器端;
所述温度数据采集单元由单片机、温度传感器、Wi-Fi通信模块和电源模块构成,单片机与温度传感器连接,接收到手机控制终端的唤醒命令后,通过I2C总线协议从温度传感器读取温度数据,通过Wi-Fi通信模块发送给手机控制终端,电源模块是单节锂聚合物电池和稳压芯片,分别与单片机、温度传感器、Wi-Fi通信模块的电源接口连接;
所述手机控制终端为用户行为特征提取单元,通过Wi-Fi通信模块与温度数据采集单元通信,获取实时温度数据,对温度数据进行加工,添加对应的时间、GPS方位、当前天气温度数据等数据,并对温度数据进行中位值平均滤波处理,通过分布式存储技术分割存储,并将数据经手机上传至服务器端;
所述服务器端包括用户群体分类单元、关联因素辨识及综合应用单元;所述用户群体分类单元结合基于时间序列的数据挖掘技术,对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行分类,建立用户分类模型;所述关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析,找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子,实现对用户行为的分析、预测和对异常行为的检测。
2.一种基于数据挖掘技术的用户行为分析方法,通过权利要求1所述一种基于数据挖掘技术的用户行为分析系统实现,其特征在于:包括以下步骤:
步骤1:手机控制终端通过测温节点采集温度信息,经过添加外部环境信息作为用户行为信息,并上传至服务器,完成基于互联网的用户行为信息数据;
步骤2:对用户行为信息数据进行预处理,对上传到服务器的基于时间序列的温度信息进行预处理和等长处理,通过时间序列上升和下降点对时间序列数据进行近似处理,
步骤2.1:对时间序列进行预处理,将时间序列数据都映射到区间[0,1]内,消除时间序列数据中存在的噪声,公式如下:
其中,x*代表的是进行转换后得到的归一化或标准化数据;max(x)代表的是时间序列中存在的最大值;min(x)代表的是时间序列中存在的最小值;
步骤2.2:提取以r为半径、o(ti,xi)为中心区域的极值点;将o(ti,xi)作为中心,时间序列点(tp,xp)依次向后或向前采集第i个时间序列点,得到r为半径、o(ti,xi)为中心的区域G(o),通过下式判断区域中存在的极值点:
其中,f(xi,1)代表的是以r为半径、o(ti,xi)为中心区域内存在的数值特征;-1、1分别代表的是区域内的极小值点和极大值点;当f(xi,1)的值为零时,表明该时间序列点不是极值点;ti代表时间序列中第i个点的对应的时间、GPS方位、天气、车外温度构成的数组,xi代表归一化处理后第i个点对应的车内温度,tp代表时间序列中第p个点的对应的时间、GPS方位、天气、车外温度构成的数组,xp代表第p个点对应的车内温度;
步骤2.3:对提取的时间序列中的极值点进行等长处理;提取两个时间序列中存在的极值点并集,重新划分具有新极值点的时间序列,使时间序列的长度相等,时间序列等长处理的具体方法如下式所示:
其中,X、Y为等长时间序列,SX、SY为极值点对应的极值点序列,长度分别为m、n,SX′、SY′为经过等长处理后的时间序列;
步骤3:对用户行为信息进行数据挖掘,将多目标决策理论应用到时间序列数据挖掘中;
步骤3.1:根据提取得到的区间极值点序列构建标准决策矩阵Z,决策矩阵Z中的行列均为时间序列中存在的极值点以及极值点对应的对象属性;设向量A={a1,…,an}是由n个极值点构成的集合;向量C={c1,…,cm}是由m个极值点属性构成的集合,即为评价指标,通过下式比较不同指标对应的决策对象:
dk(ai,aj)=ck(ai)-ck(aj)
其中,dk(ai,aj)代表的是在评价指标ck上极值点ai、aj存在的差值;
步骤3.2:通过偏好函数用标准化的偏好度πk(ai,aj)代替差值dk(ai,aj),方法为:
πk(ai,aj)=fk(dk(ai,aj))
其中,fk()代表的是偏好函数;
步骤3.3:基于多目标决策的时间序列数据挖掘算法在线性特征的基础上对偏好函数进行选择,如下式所示:
其中,pk代表的是偏好阈值;qk代表的是无差异阈值;上述两个阈值可以对偏好度的分布态势进行预测;dk(ai,aj)在评价指标ck上极值点ai、aj存在的差值;
步骤3.4:确定目标的正负偏好;决策对象a和决策对象b之间存在的多目标偏好度如下式所示:
步骤3.5:最优决策对象在极端情况下对应的负偏好流值和正偏好流的值分别为0和1;基于多目标决策的时间序列数据挖掘算法根据偏好流排序结果实现时间序列数据挖掘,净偏好流的值越大表明极值点对应的偏好级别越高,根据级别对时间序列数据进行分类,实现时间序列的数据挖掘,净偏好流计算如下式:
步骤4:利用云、边协同计算方法,将边缘端服务器和云端服务器进行协同作业;提高用户行为分析的执行效率,从整体上提高任务处理的速度;
步骤4.1:通过云端服务器集群组成的云端部件和边缘服务器集群组成的边缘部件的任务是否有相互干扰和数据往来,将云边协同模式分为三类任务:云边相离类任务、云边相交类任务以及云边包含类任务;
其中云边相离类任务为云端部件和边缘端部件中的任务没有数据往来,云边相交类任务为云端部件与边缘端部件中的任务有数据交换,云边包含类任务为云端部件中的任务是边缘端部件中任务的子任务;
步骤4.2:将云端服务器和边缘端服务器上的DAG(Directed acyclic graph:DAG)进行合并,如下式所示:
其中,A、B为集合1、集合2,C为合并后的集合;式①表示对于云边相离任务,合并的方法是增加一个虚拟的入口任务节点和出口任务节点,然后更新虚拟入口任务节点和出口任务节点;式②表示对于云边相交任务,合并的方式是入口任务节点同时作为每个子DAG入口任务节点的父亲节点,然后以替换的方法实现DGA合并;式③表示对于云边包含任务,通过判断较大任务节点来替代小任务节点实现合并;
步骤4.3:利用基于关键路径的分割策略划分任务,分割方法如下式所示:
其中,CTS(Critical tasks set)表示关键任务集,NCTS(Non-critical tasks set)非关键任务集,其中任务集类型分为边缘端任务EST(Edge-side tasks)和云端任务CST(Cloud-side tasks);
步骤4.4:根据DAG合并图关键路径的边的权值之和确定云边协同计算架构下任务图的优先级,云边协同计算架构下DAG合并图Dk的优先级rank(Dk)方法如下式所示:
其中n*表示任务个数;
步骤4.5:从任务图列表中具有较高优先级的任务图开始优先分配处理器资源,根据任务图列表构成相应的路径列表,路径pk的优先级rank(pk)如下式所示:
ηi代表任务图列表对应的路径值,ei代表该路径的权值;
步骤5:对用户行为隐私保护,对对称密钥进行加密保护,消息订阅者正确解密并得到正确的对称密钥,进而解密并恢复出元数据M,实现对用户行为的分析、预测和对异常行为的检测。
3.根据权利要求2所述的一种基于数据挖掘技术的用户行为分析方法,其特征在于,步骤5具体包括:
步骤5.1:数据安全分享的初始化算法;首先选择两个双线性群G0(阶为p,生成元为g)和G1,并且定义一个双线性映射e:G0×G0=G1;另外,选择两个安全哈希函数H1(·),H2(·)和访问参数α,β1,β2∈Zp使得α≠0,β1≠0,,β2≠1且β2≠β1,公开密钥为:
主密钥MSK为:
MSK={β1,β2,gα}
步骤5.3:发布者对终端进行加密;执行一个具有签名策略的密钥产生算法,并且获得一个一次密钥对(sk,vk),根据消息内容构建一个访问树Γ=ΓuANDtc作为该消息的访问控制策略,然后计算K=e(g,g)αs,对称密钥ek=H2(K)和用对称密钥ek对明文M进行对称加密得到C=Enc M,最后输出密文Cu,Cu计算公式如下:
Cu={Γ,C,C1}
步骤5.4:订阅者终端解密,当消息订阅者从网络中获取了其感兴趣的数据包之后,如果他的属性集满足该数据包的树形访问结构u,用验证密钥在密文上验证签名通过,并用对称密钥ek解密得到明文元数据M。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260276.3A CN112990291A (zh) | 2021-03-10 | 2021-03-10 | 一种基于数据挖掘技术的用户行为分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260276.3A CN112990291A (zh) | 2021-03-10 | 2021-03-10 | 一种基于数据挖掘技术的用户行为分析系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112990291A true CN112990291A (zh) | 2021-06-18 |
Family
ID=76334718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110260276.3A Pending CN112990291A (zh) | 2021-03-10 | 2021-03-10 | 一种基于数据挖掘技术的用户行为分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990291A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777367A (zh) * | 2017-01-24 | 2017-05-31 | 深圳企管加企业服务有限公司 | 一种基于大数据挖掘的用户行为分析方法及系统 |
CN110909904A (zh) * | 2018-09-17 | 2020-03-24 | 济南热力集团有限公司 | 基于无线互联与数据挖掘技术的终端用户负荷预测系统 |
-
2021
- 2021-03-10 CN CN202110260276.3A patent/CN112990291A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777367A (zh) * | 2017-01-24 | 2017-05-31 | 深圳企管加企业服务有限公司 | 一种基于大数据挖掘的用户行为分析方法及系统 |
CN110909904A (zh) * | 2018-09-17 | 2020-03-24 | 济南热力集团有限公司 | 基于无线互联与数据挖掘技术的终端用户负荷预测系统 |
Non-Patent Citations (7)
Title |
---|
DAVID CORNE等: "Synergies between operations research and data mining: The emerging use of multi-objective approaches", 《EUROPEAN JOURNAL OF OPERATIONAL RESEARCH》, vol. 221, no. 3, pages 469 - 479, XP028508824, DOI: 10.1016/j.ejor.2012.03.039 * |
任延昭;陈雪瑞;贾敬敦;高万林;朱佳佳;: "基于微信平台的温室环境监测与温度预测系统", 农业机械学报, no. 1, pages 307 - 312 * |
何保荣: "基于多目标决策的时间序列数据挖掘算法仿真", 《计算机仿真》, vol. 36, no. 11, pages 243 - 246 * |
党林涛: "基于ACE和ABE的新型数据安全分享技术研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 6, 15 June 2020 (2020-06-15), pages 138 - 91 * |
刘林东;陈宏滨;: "面向用户需求的数字家庭网络数据挖掘", 微计算机信息, no. 36, pages 165 - 167 * |
王国勋: "基于多目标决策的数据挖掘模型选择研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 12, pages 138 - 13 * |
赵龙乾: "基于云边协同计算架构的资源分配和任务调度方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 2, 15 February 2021 (2021-02-15), pages 137 - 15 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106875066B (zh) | 用车出行行为的预测方法、装置、服务器以及存储介质 | |
CN111258767B (zh) | 复杂系统仿真应用的云计算资源智能分配方法与装置 | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
CN106708989B (zh) | 基于空间时序数据流应用的Skyline查询方法 | |
Junaid et al. | Modeling an optimized approach for load balancing in cloud | |
CN106777093B (zh) | 基于空间时序数据流应用的Skyline查询系统 | |
CN108629358B (zh) | 对象类别的预测方法及装置 | |
CN111738341B (zh) | 一种分布式大规模人脸聚类方法及装置 | |
CN110334157B (zh) | 一种云计算管理系统 | |
CN111339818A (zh) | 一种人脸多属性识别系统 | |
Bhamidi et al. | Change point detection in network models: Preferential attachment and long range dependence | |
CN107483451B (zh) | 基于串并行结构网络安全数据处理方法及系统、社交网络 | |
CN109636212B (zh) | 作业实际运行时间的预测方法 | |
CN110825545A (zh) | 一种云服务平台异常检测方法与系统 | |
CN112508726A (zh) | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 | |
CN109858951A (zh) | 新能源汽车加电或换电需求的预测 | |
CN117996242B (zh) | 用于动力电池的智能均衡控制方法及系统 | |
Gao et al. | A deep learning framework with spatial-temporal attention mechanism for cellular traffic prediction | |
CN115882455A (zh) | 一种分布式光伏发电预测方法、系统及终端机 | |
Sundarakumar et al. | A heuristic approach to improve the data processing in big data using enhanced Salp Swarm algorithm (ESSA) and MK-means algorithm | |
CN117155701A (zh) | 一种网络流量入侵检测方法 | |
CN112990291A (zh) | 一种基于数据挖掘技术的用户行为分析系统及方法 | |
CN112053006A (zh) | 基于迁移学习的冷热电联供系统优化时间加速方法及系统 | |
CN114329127B (zh) | 特征分箱方法、装置及存储介质 | |
CN115883392A (zh) | 算力网络的数据感知方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |