CN112990291A

CN112990291A - 一种基于数据挖掘技术的用户行为分析系统及方法

Info

Publication number: CN112990291A
Application number: CN202110260276.3A
Authority: CN
Inventors: 胡旭光; 李正; 马大中; 胡旌伟; 孙秋野; 李希博; 王鹏程; 李程晨; 王雷
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-18

Abstract

本发明提供一种基于数据挖掘技术的用户行为分析系统及方法，涉及互联网数据挖掘技术领域。本系统包括温度数据采集单元、手机控制终端以及服务器端；对互联网用户行为信息进行收集和整理；将收集到的数据进行数据预处理操作，目的是为了消除噪声，解决极值点长度的差异；对经过预处理的数据进行基于多目标决策的数据挖掘处理，实现对时间序列的数据挖掘；针对数据处理过程中消耗资源过大的情况，提出了云边协同计算方法，将边缘端服务器和云端服务器协同作业，实现对海量数据的实时分类；数据上传过程中存在隐私泄露风险，采用对称密钥对明文数据进行加密，订阅者只有持有正确密钥才可以解密明文数据。

Description

一种基于数据挖掘技术的用户行为分析系统及方法

技术领域

本发明涉及互联网数据挖掘技术领域，尤其涉及一种基于数据挖掘技术的用户行为分析系统及方法。

背景技术

随着互联网技术的迅速发展，人们的生活和工作越来越依赖于互联网，用户在使用企业应用系统提供的服务，同时所生成的用户行为操作日志数据也在逐渐的增加。通过分析和挖掘日志数据中隐藏的信息可以得到一些有趣的模式，而这些有趣的模式对分析用户的各项需求和评估产品的效果有着重要的意义。计算机技术的发展促进了社会迈向大数据时代，在复杂、海量的数据中挖掘有用的时间序列数据是当前亟需解决的问题。

近年来数据挖掘成为核心骨干技术被应用到数据处理中，数据挖掘技术的主要目的是将有价值的规律、知识和模式从海量数据中提取出来，并进行识别，根据挖掘识别结果对科学研究和商业决策进行指导。在时间序列数据分布的前提下，建立满足时间序列分布特征的数学模型，结合概率密度函数和相似性对时间序列数据进行挖掘。当前时间序列数据挖掘算法存在挖掘过程易受到噪声干扰、加速比低和可扩展性差的问题，需要研究时间序列数据挖掘算法。为了解决上述方法中存在的问题，提出基于多目标决策的时间序列数据挖掘算法。

发明内容

针对现有技术的不足，本发明提供一种基于数据挖掘技术的用户行为分析系统及方法，并应用于汽车空调智能控温技术，对不同环境下用户对汽车空调温度的选择进行采集和挖掘，使车载空调向环保、节能、舒适的方向发展。

本发明所采取的技术方案是：

一方面，一种基于数据挖掘技术的用户行为分析系统，包括温度数据采集单元、手机控制终端以及服务器端；

所述温度数据采集单元由单片机、温度传感器、Wi-Fi通信模块和电源模块构成，单片机与温度传感器连接，接收到手机控制终端的唤醒命令后，通过I2C总线协议从温度传感器读取温度数据，通过Wi-Fi通信模块发送给手机控制终端，电源模块是单节锂聚合物电池和稳压芯片，分别与单片机、温度传感器、Wi-Fi通信模块的电源接口连接；

所述手机控制终端为用户行为特征提取单元，通过Wi-Fi通信模块与温度数据采集单元通信，获取实时温度数据，对温度数据进行加工，添加对应的时间、GPS方位、当前天气温度数据等数据，并对温度数据进行中位值平均滤波处理，通过分布式存储技术分割存储，并将数据经手机上传至服务器端；

所述服务器端包括用户群体分类单元、关联因素辨识及综合应用单元；所述用户群体分类单元结合基于时间序列的数据挖掘技术，对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行分类，建立用户分类模型；

所述关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析，找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子，实现对用户行为的分析、预测和对异常行为的检测；

另一方面，一种基于数据挖掘技术的用户行为分析方法，基于前述一种基于数据挖掘技术的用户行为分析系统实现，包括以下步骤：

步骤1：手机控制终端通过测温节点采集温度信息，经过添加外部环境信息作为用户行为信息，并上传至服务器，完成基于互联网的用户行为信息数据；

步骤2：对用户行为信息数据进行预处理，对上传到服务器的基于时间序列的温度信息进行预处理和等长处理，通过时间序列上升和下降点对时间序列数据进行近似处理，

步骤2.1：对时间序列进行预处理，将时间序列数据都映射到区间[0，1]内，消除时间序列数据中存在的噪声，公式如下：

其中，x*代表的是进行转换后得到的归一化或标准化数据；max(x)代表的是时间序列中存在的最大值；min(x)代表的是时间序列中存在的最小值。

步骤2.2：提取以r为半径、o(ti，xi)为中心区域的极值点；将o(t_i，x_i)作为中心，时间序列点(t_p，x_p)依次向后或向前采集第i个时间序列点，得到r为半径、o(t_i，x_i)为中心的区域G(o)，通过下式判断区域中存在的极值点：

其中，f(x_i，1)代表的是以r为半径、o(t_i，x_i)为中心区域内存在的数值特征；－1、1分别代表的是区域内的极小值点和极大值点；当f(x_i，1)的值为零时，表明该时间序列点不是极值点；t_i代表时间序列中第i个点的对应的时间、GPS方位、天气、车外温度构成的数组，x_i代表归一化处理后第i个点对应的车内温度，t_p代表时间序列中第p个点的对应的时间、GPS方位、天气、车外温度构成的数组，x_p代表第p个点对应的车内温度；

步骤2.3：对提取的时间序列中的极值点进行等长处理；提取两个时间序列中存在的极值点并集，重新划分具有新极值点的时间序列，使时间序列的长度相等，时间序列等长处理的具体方法如下式所示：

其中，X、Y为等长时间序列，SX、SY为极值点对应的极值点序列，长度分别为m、n，SX′、SY′为经过等长处理后的时间序列；

步骤3：对用户行为信息进行数据挖掘，将多目标决策理论应用到时间序列数据挖掘中；

步骤3.1：根据提取得到的区间极值点序列构建标准决策矩阵Z，决策矩阵Z中的行列均为时间序列中存在的极值点以及极值点对应的对象属性；设向量A＝{a₁，…，a_n}是由n个极值点构成的集合；向量C＝{c₁，…，c_m}是由m个极值点属性构成的集合，即为评价指标，通过下式比较不同指标对应的决策对象：

d_k(a_i,a_j)＝c_k(a_i)-c_k(a_j)

其中，d_k(a_i,a_j)代表的是在评价指标c_k上极值点a_i、a_j存在的差值。

步骤3.2：通过偏好函数用标准化的偏好度π_k(a_i,a_j)代替差值d_k(a_i,a_j)，方法为：

π_k(a_i,a_j)＝f_k(d_k(a_i,a_j))

其中，f_k()代表的是偏好函数；

步骤3.3：基于多目标决策的时间序列数据挖掘算法在线性特征的基础上对偏好函数进行选择，如下式所示：

其中，p_k代表的是偏好阈值；q_k代表的是无差异阈值；上述两个阈值可以对偏好度的分布态势进行预测；d_k(a_i,a_j)在评价指标c_k上极值点a_i、a_j存在的差值；

步骤3.4：确定目标的正负偏好；决策对象a和决策对象b之间存在的多目标偏好度如下式所示：

正偏好流

和负偏好流

的计算公式分别如下：

其中，

代表的是正偏好流，在全部决策目标上决策对象a_i的正偏好流

对应的偏好级别最高；

代表的是负偏好流，在全部决策目标上决策对象a_i的负偏好流

对应的偏好级别最低；

步骤3.5：最优决策对象在极端情况下对应的负偏好流值和正偏好流的值分别为0和1；基于多目标决策的时间序列数据挖掘算法根据偏好流排序结果实现时间序列数据挖掘，净偏好流的值越大表明极值点对应的偏好级别越高，根据级别对时间序列数据进行分类，实现时间序列的数据挖掘，净偏好流计算如下式：

步骤4：利用云、边协同计算方法，将边缘端服务器和云端服务器进行协同作业；提高用户行为分析的执行效率，从整体上提高任务处理的速度；

步骤4.1：通过云端服务器集群组成的云端部件和边缘服务器集群组成的边缘部件的任务是否有相互干扰和数据往来，将云边协同模式分为三类任务：云边相离类任务、云边相交类任务以及云边包含类任务；

其中云边相离类任务为云端部件和边缘端部件中的任务没有数据往来，云边相交类任务为云端部件与边缘端部件中的任务有数据交换，云边包含类任务为云端部件中的任务是边缘端部件中任务的子任务；

步骤4.2：将云端服务器和边缘端服务器上的DAG(Directed acyclic graph:DAG)进行合并，如下式所示：

其中，A、B为集合1、集合2，C为合并后的集合；式①表示对于云边相离任务，合并的方法是增加一个虚拟的入口任务节点和出口任务节点，然后更新虚拟入口任务节点和出口任务节点；式②表示对于云边相交任务，合并的方式是入口任务节点同时作为每个子DAG入口任务节点的父亲节点，然后以替换的方法实现DGA合并；式③表示对于云边包含任务，通过判断较大任务节点来替代小任务节点实现合并；

步骤4.3：利用基于关键路径的分割策略划分任务。分割方法如下式所示：

其中，CTS(Critical tasks set)表示关键任务集，NCTS(Non-critical tasksset)非关键任务集，其中任务集类型分为边缘端任务EST(Edge-side tasks)和云端任务CST(Cloud-side tasks)；

步骤4.4：根据DAG合并图关键路径的边的权值之和确定云边协同计算架构下任务图的优先级，云边协同计算架构下DAG合并图D_k的优先级rank(D_k)方法如下式所示：

其中n*表示任务个数；

步骤4.5：从任务图列表中具有较高优先级的任务图开始优先分配处理器资源，根据任务图列表构成相应的路径列表，路径p_k的优先级rank(p_k)如下式所示：

η_i代表任务图列表对应的路径值，e_i代表该路径的权值；

步骤5：对用户行为隐私保护，对对称密钥进行加密保护，消息订阅者正确解密并得到正确的对称密钥，进而解密并恢复出元数据M，实现对用户行为的分析、预测和对异常行为的检测。

步骤5.1：数据安全分享的初始化算法；首先选择两个双线性群G₀(阶为p，生成元为g)和G₁，并且定义一个双线性映射e:G₀×G₀＝G₁；另外，选择两个安全哈希函数H₁(·),H₂(·)和访问参数α,β₁,β₂∈Z_p使得α≠0,β₁≠0，,β₂≠1且β₂≠β₁，公开密钥为：

主密钥MSK为：

MSK＝{β₁,β₂,g^α}

步骤5.2：数据安全分享的密钥生成算法；设S表示一个数据订阅者的属性集合，属性授权端首先选择

然后为每个订阅者产生私钥SK，公式如下所示：

步骤5.3：发布者对终端进行加密；执行一个具有签名策略的密钥产生算法，并且获得一个一次密钥对(sk,vk)，根据消息内容构建一个访问树Γ＝Γ_uANDt_c作为该消息的访问控制策略，然后计算K＝e(g,g)^αs，对称密钥ek＝H₂(K)和

用对称密钥ek对明文M进行对称加密得到C＝Enc M，最后输出密文C_u，C_u计算公式如下：

C_u＝{Γ,C,C₁}

步骤5.4：订阅者终端解密，当消息订阅者从网络中获取了其感兴趣的数据包之后，如果他的属性集满足该数据包的树形访问结构u，用验证密钥在密文上验证签名通过，并用对称密钥ek解密得到明文元数据M。

采用上述技术方案所产生的有益效果在于：

本发明提出一种基于数据挖掘技术的用户行为分析系统及方法，通过采用温度采集系统对环境温度采集并通过手机上传云端，并利用数据挖掘技术找出温度数据与所处环境之间的联系，分析用户的行为，达到行为预测的目的。该系统应用到汽车的空调系统之中，通过对区域用户车内温度的分析和挖掘，找出用户在不同环境下的偏好温度，达到智能控温的目的，营造出舒适的车内环境。

附图说明

图1为本发明具体实施方式的数据采集系统硬件结构框架图；

图2为本发明具体实施方式的数据预处理与数据挖掘流程图；

图3为本发明具体实施方式的云边协同计算示意图；

图4为本发明具体实施方式的用户隐私保护流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细说明。

本实施方式的基于数据挖掘技术的用户行为分析方法及系统，包括温度数据采集单元、手机控制终端以及服务器端；

数据采集单元如图1测温节点结构所示，包括单片机MSP430F2132、12位精度温度传感器TMP275、Wi-Fi通信模块USRWIFI232-S和电源模块。MSP430F2132通过USART总线协议与Wi-Fi通信模块传输数据,通过FC总线协议与温度传感器进行通信。

单片机采用TI公司的超低功耗MSP430系类l'的单片机，MSP430F2132是一款具有8kBFlash,512B RAM的内存,2个USART,1个FC,28个引脚的小体积单片机。不仅拥有丰富外设资源，并且有4种可设定的低功耗模式,所以是一款超低功耗单片机,符合环保的设计初衷。温度传感器采用了TI公司的TMP275。TMP275是一款9到12位精度可设置的温度传感器,工作电流为50uA,待机电流只需0.1uA。

采集单元的工作过程是：单片机接收到手机控制终端发送的唤醒命令后，通过I2C总线协议从温度传感器读取温度寄存器的数据，然后通过Wi-Fi通信模块发送给手机控制终端，由单节锂聚合物电池和稳压芯片AMS1117组成的电源模块为采集单元各个模块供电；

手机控制终端为用户行为特征提取单元，首先对温度数据采集单元上传到手机终端的温度数据进行加工，对应添加温度数据对应的时间、GPS方位、当前天气温度数据，然后对采集温度数据进行数字滤波处理，滤除温度数据中存在有害成分和噪声。最后通过分布式存储技术分割存储，并将数据经手机上传至服务器端；数字滤波算法采用中位值平均滤波法，具体实现就是处理器首先会开辟一段存储空间，比如一个可以存放20个数据的数组，将温度数据存储在数组里,当数组被填满时，然后将数组里的最大值和最小值去掉求平均，这样可以减小偶尔出现过大或过小的错误温度数据的干扰。消去脉冲干扰后,还需将获取的温度值进行平滑滤波处理，防止出现过大的温度变化，降低系统的工作效率，处理器通过将中位值平均滤波后的数据存放在一个数组中，每次往数组中放入一个数据,数组中原有的数据将会依次向后移动一位，末尾的数据将会被丢弃，然后通过求平均得到此时的温度值。

用户群体分类单元结合基于时间序列的数据挖掘技术，对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行整理和分类，建立用户分类模型实现用户精细化分类；

关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析，找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子，实现对用户行为偏好的分析、预测和对异常行为的检测。

采用上述用户行为数据挖掘的方法，总体流程如图2所示，具体包括如下步骤：

步骤2：对用户行为信息数据进行预处理，如图2数据预处理模块所示，首先对上传到服务器的基于时间序列的温度信息进行预处理和等长处理，通过时间序列上升和下降点对时间序列数据进行近似处理，

步骤2.1：对时间序列进行预处理，将时间序列数据都映射到区间[0，1]内，消除时间序列数据中存在的噪声，降低噪声对数据挖掘过程中造成的影响，便于后期时间序列数据的挖掘，提高算法的加速比。公式如下：

步骤3：对用户行为信息进行数据挖掘，将多目标决策理论应用到时间序列数据挖掘中，具体过程如图2数据挖掘模块所示；

d_k(a_i,a_j)＝c_k(a_i)-c_k(a_j)

π_k(a_i,a_j)＝f_k(d_k(a_i,a_j))

其中，f_k()代表的是偏好函数；

其中，p_k代表的是偏好阈值；q_k代表的是无差异阈值；上述两个阈值可以对偏好度的分布态势进行预测；d_k(a_i,a_j)在评价指标c_k上极值点a_i、a_j存在的差值。

正偏好流

和负偏好流

的计算公式分别如下：

其中，

对应的偏好级别最高；

对应的偏好级别最低；n代表n个极值点，与2.3中n含义相同；

步骤4：利用云、边协同计算方法，如图3云边协同计算所示，将边缘端服务器和云端服务器进行协同作业，有效提高用户行为分析的执行效率，从整体上提高任务处理的速度；

步骤4.1：通过云端服务器集群组成的云端部件和边缘服务器集群组成的边缘部件的任务是否有相互干扰和数据往来，将云边协同模式分为三类任务：云边相离类任务、云边相交类任务以及云边包含类任务；其中云边相离类任务的特点是云端部件和边缘端部件中的任务没有数据往来，云边相交类任务的特点是云端部件与边缘端部件中的任务有数据交换，云边包含类任务的特点是云端部件中的任务是边缘端部件中任务的子任务；

其中n*表示任务个数；

其中，η_i代表任务图列表对应的路径值，e_i代表该路径的权值；

步骤5：对用户行为隐私保护，对对称密钥进行加密保护，消息订阅者正确解密并得到正确的对称密钥，进而解密并恢复出元数据M，具体流程如图4用户隐私保护图所示；

主密钥MSK为：

MSK＝{β₁,β₂,g^α}

然后为每个订阅者产生私钥SK，公式如下所示：

C_u＝{Γ,C,C₁}

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于数据挖掘技术的用户行为分析系统，其特征在于，包括温度数据采集单元、手机控制终端以及服务器端；

所述服务器端包括用户群体分类单元、关联因素辨识及综合应用单元；所述用户群体分类单元结合基于时间序列的数据挖掘技术，对上传服务器端的不同时间、地点、天气下温度采集单元采集到的温度信息进行分类，建立用户分类模型；所述关联因素辨识及综合应用单元对经过整理和分类的温度信息进行分析，找出用户汽车内部温度信息与时间、地点、天气之间的潜在关联因子，实现对用户行为的分析、预测和对异常行为的检测。

2.一种基于数据挖掘技术的用户行为分析方法，通过权利要求1所述一种基于数据挖掘技术的用户行为分析系统实现，其特征在于：包括以下步骤：