CN109542944B

CN109542944B - 基于时序因果关系分析的智能家居用户操控行为推荐方法

Info

Publication number: CN109542944B
Application number: CN201811152217.9A
Authority: CN
Inventors: 徐雅芸; 曾碧
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2023-07-25
Anticipated expiration: 2038-09-29
Also published as: CN109542944A

Abstract

本发明涉及基于时序因果关系分析的智能家居用户操控行为推荐方法，将大量用户行为习惯的操作数据进行数据分割，然后通过序列模式挖掘算法从中提取用户频繁操作的序列，基于操作频繁序列构建贝叶斯网络挖掘序列之间的因果关系，以构建智能家居操控行为推荐方案的过程。本发明结合了模式挖掘算法和贝叶斯模型的优势，通过模式挖掘将整个数据集减少到选定的频繁操控序列集，极大地降低了计算复杂度和因果关系计算中的噪声，有利于更高效率形成一种更适合用户体验的智能家居操控行为推荐方案，同时增强了智能家居操控行为推荐方案的各设备两两之间的时间强关联性，填补了传统算法的不足。

Description

基于时序因果关系分析的智能家居用户操控行为推荐方法

技术领域

本发明涉及智能家居用户操控行为推荐的技术领域，尤其涉及到基于时序因果关系分析的智能家居用户操控行为推荐方法。

背景技术

智能家居是在互联网影响之下物联化的体现，其通过物联网技术将家中的各种设备(如音视频设备、照明系统、窗帘控制、空调控制、安防系统、数字影院系统、影音服务器、影柜系统、网络家电等)连接到一起，提供家电控制、照明控制、电话远程控制、室内外遥控、防盗报警、环境监测、暖通控制、红外转发以及可编程定时控制等多种功能和手段。而智能家居操控行为推荐更为用户控制自己需要的设备带来方便。

智能家居操控行为推荐，针对用户的历史行为数据提取用户一整天的操控行为特征，并形成符合用户操控习惯的推荐方案给予用户推荐。而在传统的模式挖掘算法和时序关联规则算法中主要有以下缺点：

①基于模式挖掘家居操控行为的方法，旨从历史数据中提取频繁出现的模式，这些模式可以捕获用户操控中存在的内在规律，但在很大程度上限制了模式集的可用性，且未能挖掘出频繁模式之间的依赖性；

②基于关联规则算法，可以从大量数据中挖掘出存在关联的事务，但仅能得到事务之间的相关性，无法分析出事务之间的因果关系；

③传统的基于贝叶斯学习模型因果关系算法，若数据中存在大量噪声和数据稀疏时，贝叶斯模型的性能十分有限，极可能会捕获到不可靠的因果关系。

发明内容

本发明的目的在于克服现有技术的不足，提供一种极大地降低计算复杂度和因果关系计算中的噪声、形成更高效、智能家居操控行为推荐方案的各设备两两之间的时间强关联性高的基于时序因果关系分析的智能家居用户操控行为推荐方法。

为实现上述目的，本发明所提供的技术方案为：

一种基于时序因果关系分析的智能家居用户操控行为推荐方法，包括以下步骤：

S1：结合无线或有线网络进行用户行为习惯数据的采集；

S2：进行用户行为习惯数据的预处理；

S3：挖掘智能家居用户的频繁操控序列；

S4：构建贝叶斯学习模型因果关系；

S5：形成智能家居操控行为推荐方案。

进一步地，所述步骤S2进行用户行为习惯数据的预处理，包括：

数据加载：包括在线记载和离线加载；

数据降维：只保留当前操作设备、操作行为和操作时间维度；

缺失值处理：采用平均值进行缺失值填充；

数据切分：将用户数据按照单位为天进行划分。

进一步地，所述步骤S2中数据切分的具体步骤为：

将用户数据按照单位为天进行划分，得到用户每天操作的序列数据集S，且数据集S中的数据项集按照操作时间排列，设置时间约束△t，在规定的时间约束内的操作归为一个项集，且项集内部依旧按照时间顺序排列；最终形成形如：的用户第i天的操控序列，且/>

其次，一个用户操控序列含有若干个项集＜X＞，其中X代表该项集的元素，其形式为(z,t_z)，z代表一个用户操控行为，定义为z∈(O_i,F_i)，O_i表示用户打开设备编号为i的智能家居设备，F_i表示关闭的操作；t_z表示用户操控行为z的操作时间；并且一个项集含有一个或多个项集元素；最终形成针对用户n条用户操控记录的用户每天操作的序列数据集S＝{d₁,d₂,...,d_n}。

进一步地，所述步骤S3基于PrefixSpan序列模式挖掘算法挖掘智能家居用户的频繁操控序列，具体步骤如下：

输入：序列数据集S和支持度阈值σ；

1)找出所有长度为1的前缀和对应的投影数据库；

2)对长度为1的前缀进行计数，将支持度低于阈值σ的前缀对应的项从数据集S删除，同时得到所有的频繁1项序列，i＝1；

3)对于每个长度为i满足支持度要求的前缀进行递归挖掘：

a)找出前缀所对应的投影数据库；若投影数据库为空，则递归返回；

b)统计对应投影数据库中各项的支持度；若所有项的支持度计数均低于阈值σ，则递归返回；

c)将满足支持度计数的各个单项和当前的前缀进行合并，得到若干新的前缀；

d)令i＝i+1，前缀为合并单项后的各个前缀，分别递归执行第3步；

输出：所有满足支持度要求的频繁序列集P。

进一步地，所述步骤S4构建贝叶斯学习模型因果关系的具体步骤如下：

S4-1：通过MDL打分算法确定最优的贝叶斯网络结构；

S4-2：构建一阶贝叶斯网络模型；

S4-3：构建二阶贝叶斯网络模型；

S4-4：生成因果关系子集。

进一步地，所述步骤S4-1中MDL打分算法的具体步骤如下：

(1)得到一个可能的父节点并计算该与该父节点有关的所有可能的先验概率；

(2)计算该父节点的惩罚项的值；

(3)计算机该父节点的似然项；

(4)对(2)和(3)中的值进行计算得到该父节点的MDL值并保存；

(5)根据步骤(2)-(4)计算机子节点的MDL值；

(6)将第(4)步中的值与子节点的MDL值进行比较，若小于子节点MDL值则该MDL值对应的节点便是子节点的父节点。

进一步地，所述步骤S4-2构建一阶贝叶斯网络模型的具体步骤如下：

(1统计各个节点的先验概率和维数；

(2由近到远的计算子节点之前的节点是否为其父节点；若是，则进入步骤(3，否则进入步骤(4；

(3保存该父节点，将该父节点和子节点合并，形成新的子节点，重复步骤(2；

(4节点往前移一个，进入步骤(2；

(5所有可能的父节点都计算完成后结束，画出节点之间的关系图。

进一步地，所述步骤S4-3进行二阶贝叶斯网络训练时首先要构建数据集，二阶贝叶斯网络的数据集来自一阶贝叶斯网络图结构，一个一阶贝叶斯网络转化成一条记录，N个贝叶斯网络图转化成N条记录。

与现有技术相比，本方案原理和优点如下：

本方案改进了传统模式挖掘算法和基于贝叶斯模型因果关系算法的缺点与不足，将大量用户行为习惯的操作数据进行数据分割，然后通过序列模式挖掘算法从中提取用户频繁操作的序列，基于操作频繁序列构建贝叶斯网络挖掘序列之间的因果关系，以构建智能家居操控行为推荐方案的过程。本方法结合了模式挖掘算法和贝叶斯模型的优势，通过模式挖掘将整个数据集减少到选定的频繁操控序列集，极大地降低了计算复杂度和因果关系计算中的噪声，有利于更高效率形成一种更适合用户体验的智能家居操控行为推荐方案，同时增强了智能家居操控行为推荐方案的各设备两两之间的时间强关联性，填补了传统算法的不足。

附图说明

图1为本发明基于时序因果关系分析的智能家居用户操控行为推荐方法的整体流程框图；

图2为本发明中的数据预处理流程图；

图3为本发明中的模型训练框架图；

图4为本发明中的一阶贝叶斯网络结构图；

图5为本发明中的贝叶斯结构图转化为记录过程图；

图6为本发明中的贝叶斯模型网络因果关系图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，本实施例所述的一种基于时序因果关系分析的智能家居用户操控行为推荐方法，包括以下步骤：

S1：结合无线或有线网络进行用户行为习惯数据的采集；

S2：进行用户行为习惯数据的预处理；

S3：挖掘智能家居用户的频繁操控序列；

S4：构建贝叶斯学习模型因果关系；

S5：形成智能家居操控行为推荐方案。

主要包括数据预处理、模式挖掘、构建贝叶斯网络模型因果关系以及用户操控行为推荐方案的形成等四大部分。下面的说明将对每一个流程进行详细的阐述：

如图2所示，用户行为习惯数据的预处理主要分为两大模块：数据加载与数据处理。本实施例提供了两种读取数据路径：一是在线入口，可直接在线访问数据接口，下载实时用户数据，保证数据的时效性；二是离线入口，读取本地用户数据，若用户数据不具备波动性，则可直接访问本地CSV文件，节省数据下载时间。

本方法的目标是用户在不同的时间点上，对智能家居操作变化的因果关系，如果将原始数据全部读入计算机进行计算显然是不科学的，会造成大量计算资源的浪费，并导致效率低下，所以处理原始数据的第一步工作就是对原始数据集进行降维，只保留当前操作设备、操作行为和操作时间维度。

下一步是缺失值的处理，在获取原始数据集时，数据样本中部分数据因某些原因导致丢失，采用平均值填充的方法来填充缺失值，设用户操控数据集为D＝{X₁X₂X₃......}，如果其中X₂由于某种原因缺失，将采用缺失值前后非空数值的平均值来填充X₂。

最后一步是数据切分，本方法是为了挖掘出用户某一天的行为习惯，所以将用户数据按照单位为天进行划分，得到用户每天操作的序列数据集S，且数据集S中的数据项集按照操作时间排列，设置时间约束△t，在规定的时间约束内的操作归为一个项集，且项集内部依旧按照时间顺序排列。假设时间约束△t为5分钟，即操作时间间隔在五分钟内的操作归为一个项集。最终形成形如：的用户第i天的操控序列，且/>其次，一个用户操控序列含有若干个项集＜X＞，其中X代表该项集的元素，其形式为(z,t_z)，其中z代表一个用户操控行为，在本发明的数据背景下定义为z∈(O_i,F_i)，其中O_i表示用户打开设备编号为i的智能家居设备，F_i表示关闭的操作；t_z表示用户操控行为z的操作时间。并且一个项集含有一个或多个项集元素。最终形成针对用户n条用户操控记录的用户每天操作的序列数据集S＝{d₁,d₂,...,d_n}。

接下来说明步骤S3基于PrefixSpan序列模式挖掘算法挖掘智能家居用户的频繁操控序列：

PrefixSpan算法的目标是挖掘出满足最小支持度的频繁序列。定义在S中的支持度(support)是S中事务同时包含X事件、Y事件的的百分比，即概率，通过公式求解支持度。算法中相同前缀对应的所有后缀的结合，称为前缀对应的投影数据库。其算法原理是从长度为1的前缀开始挖掘序列模式，搜索对应的投影数据库得到长度为1的前缀对应满足最小支持度的频繁序列，然后递归的挖掘长度为2的前缀所对应的频繁序列，以此类推，一直递归到不能挖掘到更长的前缀挖掘为止。

PrefixSpan算法的流程：

输入：序列数据集S和支持度阈值σ；

1)找出所有长度为1的前缀和对应的投影数据库；

3)对于每个长度为i满足支持度要求的前缀进行递归挖掘：

输出：所有满足支持度要求的频繁序列集P。

通过PrefixSpan序列模式挖掘算法可得到用户频繁操控序列{P_i},i＝1,2,3,...n，针对用户频繁操控序列进行贝叶斯建模，挖掘用户频繁操控序列之间的因果关系。

接下来说明步骤S4构建贝叶斯学习模型因果关系：

具体步骤如下：

S4-1：通过MDL打分算法确定最优的贝叶斯网络结构；

S4-2：构建一阶贝叶斯网络模型；

S4-3：构建二阶贝叶斯网络模型；

S4-4：生成因果关系子集。

下面对上述的各个步骤进行详细的介绍和说明：

S4-1：通过MDL打分算法确定最优的贝叶斯网络结构：

本步骤主要是基于信息论的评分算法来确定最优的贝叶斯网络结构，利用最小描述长度(MDL)来对用户频繁操作时间序列进行节点与节点之间，边与边之间的因果关系挖掘。模型训练框架如图3所示。

在信息论中有一种度量方法是最小描述长度法(MDL)，该方法的基本原理来自于数据的存储。假设存在某个数据集，现在需要将其保存，但是由于该数据集占用空间大，为了节约存储空间首先要对其进行压缩，比如使用某种压缩算法，然后再进行存储。此外，由于数据进行算法压缩后，数据结构已然改变，当需要该数据时需要将被压缩的数据还原，因此在存储压缩后数据的同时还需要一同保存压缩时使用的算法，另外还需保存用来描述恢复数据所需的存储空间，简称算法描述长度，所以真正所需的存储空间是压缩后的数据空间加上描述长度，总称描述长度。而MDL方法的原理就是要从众多的压缩算法中找出描述长度最短的算法。

贝叶斯网络结构(BN结构)学习的思想是：已知一个训练样本集D，找出所有符合该样本集BN网络结构，然后从中选出最符合的一个作为最优的贝叶斯网络。基于评分方法的思想是把BN结构学习看成是一个优化问题，首先定义一个评分函数，然后通过评分函数对数据空间中的各个变量进行打分，最后使用搜索算法找出打分最高的网络结构。评分最高说明该网络与原始数据集拟合最好。通过上述基于评分搜索方法的思想我们可以把BN结构学习看做一个优化模型：M＝(G,C,F)。该优化模型中G代表的是整个网络空间，网络空间中是数据集中所有节点之间的因果关系；C为所有的约束条件；F为指定的评分函数，用来评价贝叶斯网络的拟合程度，评分越高拟合度越好。

在BN结构学习中，MDL算法通过寻找具有最小描述长度的结构来确定最优的贝叶斯网络结构，但是这种方法显然存在着缺点：偏向于寻找结构简单的网络结构。因此需要在这个最小长度上添加一个惩罚项，用来平衡结构复杂度和准确度，保持总体的合理性。在传统的MDL算法中，惩罚项取决于参数的个数，惩罚函数如下：

上式中，m为数据集中的样本数；为网络结构中参数的个数，使用编码压缩后的数据长度通过下式计算得到：

根据上述两条公式可得到MDL评分函数，公式如下：

MDL打分方法的特点是该方法不需要变量的先验知识，而且当数据量足够并且相互独立时，通过MDL打分算法得出的最优网络结构理论上能够逼近任何样本分布。

MDL打分算法实现的步骤：

(2)计算该父节点的惩罚项的值；

(3)计算机该父节点的似然项；

(4)对(2)和(3)中的值进行计算得到该父节点的MDL值并保存；

(5)根据步骤(2)-(4)计算机子节点的MDL值；

S4-2：构建一阶贝叶斯网络模型：

在贝叶斯网络中，对频繁操控序列进行贝叶斯网络的推理，即贝叶斯网络的因果关系挖掘，其主要思想是：在给定某些证据变量取值的条件下，求解给定变量和目标变量之间的因果关系。有了MDL打分算法的实现后，我们便可以进行一阶贝叶斯网络的训练，利用MDL打分算法求出各个数据集中节点的父节点。下面将给出一阶贝叶斯网络训练核心步骤：

(1统计各个节点的先验概率和维数；

(4节点往前移一个，进入步骤(2；

利用上述模型对N个数据集进行循环训练，训练完成后将得到N个贝叶斯网络，将其节点和节点之间的关系保存，以方便后面建立二阶贝叶斯网络时使用。

S4-3：构建二阶贝叶斯网络模型：

在进行二阶贝叶斯网络训练时首先要构建数据集，和一阶贝叶斯网络构建数据集的方式不同，二阶贝叶斯网络的数据集来自一阶贝叶斯网络图结构，一个一阶贝叶斯网络可以转化成一条记录，N个贝叶斯网络图就可以转化成N条记录。N个数据集进行一阶贝叶斯网络训练后，每一个数据集都将得到一个节点之间的因果关系图，如图4所示；

从上图中可以看到节点1、3、4是节点5的父节点，为了进行二阶贝叶斯网络训练，需要将一阶贝叶斯网络结构图转化成一条记录。定义若节点i是节点5的父节点则记为1，否则记为2。对N个单层贝叶斯网络模型训练后得到了N个网络拓补结构图，将这些图结构按定义转化成数据集，这样个图结构就能转化为N条记录。图5为图结构转化成一条记录的过程：

图5过程将N个贝叶斯网络图转化成数据集之后便能进行二阶贝叶斯网络模型训练。二阶贝叶斯网络模型和一阶贝叶斯网络模型的不同之处在于：不再只找出某一节点的父节点，而是要找出所有节点的父节点。

S4-4：生成因果关系子集：

本步骤主要解释说明贝叶斯网络模型训练后得到的因果关系图，以及用户习惯推荐方案说明。

为了方便理解，本步骤对某一天用户频繁操作序列进行贝叶斯网络模型训练后得到图6。

上图6可以看到总共有5个节点，每个节点本身代表着在一阶贝叶斯网络中的一种因果关系。在一阶贝叶斯网络模型中，寻找的是节点之间的因果关系，对模型进行适当的简化后变成了寻找节点O₃和其他节点之间的因果关系。一阶贝叶斯网络图反映的是节点O₁,F₁,O₂,F₂是否为节点O₃的父节点，当进入二阶贝叶斯网络数据集构建时，按照节点是否为节点O₃的父节点来进行转化：O₁代表了该节点是节点O₃的父节点；O₂代表了该节点不是节点O₃的父节点，所以，在二阶贝叶斯网络图中的节点表示的含义是：该节点和节点O₃之间的因果关系。

图6中节点O₁表示在原始时间序列中第一个节点和第五个节点之间的因果关系，用因果关系1来表示。同理，用因果关系2和3分别表示图6中的节点O₂和F₁。从图6可以看到节点O₁是节点O₂和F₁的父节点，这说明因果关系1是因果关系2和3的父节点。由此可以得出以下结论：如果已知原始时间序列中节点O₁和节点O₃之间存在因果关系，那么节点O₂和节点F₁与节点O₃之间也存在着因果关系，即可得用户在打开设备1之后必然会打开设备2的推测。

其他节点之间的因果关系推理也如上所述，这里不再赘述。另外，可以看到图6中有一个孤立的节点O₃，那是因为在建立一阶贝叶斯网络模型时规定找出时间序列中节点O₃的父节点，由于节点O₃不可能是它本身的父节点，所以该因果关系无意义。

根据以上分析，可以得到若用户在某一天打开了设备1，可为用户推荐打开设备2和关闭设备1的方案，若用户选择了该推荐方案，则可继续推荐用户关闭设备2的操作。

S5：形成智能家居操控行为推荐方案：

本步骤主要实现对各操控频繁序列因果关系子集进行结果汇总，最终生成最终的具有时间约束的因果关系智能家居操控行为推荐方案。

本实施例改进了传统模式挖掘算法和基于贝叶斯模型因果关系算法的缺点与不足，将大量用户行为习惯的操作数据进行数据分割，然后通过序列模式挖掘算法从中提取用户频繁操作的序列，基于操作频繁序列构建贝叶斯网络挖掘序列之间的因果关系，以构建智能家居操控行为推荐方案的过程。本实施例结合了模式挖掘算法和贝叶斯模型的优势，通过模式挖掘将整个数据集减少到选定的频繁操控序列集，极大地降低了计算复杂度和因果关系计算中的噪声，有利于更高效率形成一种更适合用户体验的智能家居操控行为推荐方案，同时增强了智能家居操控行为推荐方案的各设备两两之间的时间强关联性，填补了传统算法的不足。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于时序因果关系分析的智能家居用户操控行为推荐方法，其特征在于,包括以下步骤：

S1：结合无线或有线网络进行用户行为习惯数据的采集；

S2：进行用户行为习惯数据的预处理；

S3：挖掘智能家居用户的频繁操控序列；

S4：构建贝叶斯学习模型因果关系；

S5：形成智能家居操控行为推荐方案；

所述步骤S2进行用户行为习惯数据的预处理，包括：

数据加载：包括在线记载和离线加载；

缺失值处理：采用平均值进行缺失值填充；

数据切分：将用户数据按照单位为天进行划分；

所述步骤S2中数据切分的具体步骤为：

其次，一个用户操控序列含有若干个项集<X>，其中X代表该项集的元素，其形式为(z,t_z)，z代表一个用户操控行为，定义为z∈(O_i,F_i)，O_i表示用户打开设备编号为i的智能家居设备，F_i表示关闭的操作；t_z表示用户操控行为z的操作时间；并且一个项集含有一个或多个项集元素；最终形成针对用户n条用户操控记录的用户每天操作的序列数据集S＝{d₁,d₂,...,d_n}。

2.根据权利要求1所述的基于时序因果关系分析的智能家居用户操控行为推荐方法，其特征在于，所述步骤S3基于PrefixSpan序列模式挖掘算法挖掘智能家居用户的频繁操控序列，具体步骤如下：

输入：序列数据集S和支持度阈值σ；

1)找出所有长度为1的前缀和对应的投影数据库；

3)对于每个长度为i满足支持度要求的前缀进行递归挖掘：

输出：所有满足支持度要求的频繁序列集P。

3.根据权利要求1所述的基于时序因果关系分析的智能家居用户操控行为推荐方法，其特征在于，所述步骤S4构建贝叶斯学习模型因果关系的具体步骤如下：

S4-1：通过MDL打分算法确定最优的贝叶斯网络结构；

S4-2：构建一阶贝叶斯网络模型；

S4-3：构建二阶贝叶斯网络模型；

S4-4：生成因果关系子集。

4.根据权利要求3所述的基于时序因果关系分析的智能家居用户操控行为推荐方法，其特征在于，所述步骤S4-1中MDL打分算法的具体步骤如下：

(1)得到一个可能的父节点并计算与该父节点有关的所有可能的先验概率；

(2)计算该父节点的惩罚项的值；

(3)计算机该父节点的似然项；

(4)对(2)和(3)中的值进行计算得到该父节点的MDL值并保存；

(5)根据步骤(2)-(4)计算机子节点的MDL值；

5.根据权利要求3所述的基于时序因果关系分析的智能家居用户操控行为推荐方法，其特征在于，所述步骤S4-2构建一阶贝叶斯网络模型的具体步骤如下：

(1统计各个节点的先验概率和维数；

(4节点往前移一个，进入步骤(2；

6.根据权利要求3所述的基于时序因果关系分析的智能家居用户操控行为推荐方法，其特征在于，所述步骤S4-3进行二阶贝叶斯网络训练时首先要构建数据集，二阶贝叶斯网络的数据集来自一阶贝叶斯网络图结构，一个一阶贝叶斯网络转化成一条记录，N个贝叶斯网络图转化成N条记录。