CN107967338A - 一种个人日常行为数据的多维分析方法 - Google Patents
一种个人日常行为数据的多维分析方法 Download PDFInfo
- Publication number
- CN107967338A CN107967338A CN201711275201.2A CN201711275201A CN107967338A CN 107967338 A CN107967338 A CN 107967338A CN 201711275201 A CN201711275201 A CN 201711275201A CN 107967338 A CN107967338 A CN 107967338A
- Authority
- CN
- China
- Prior art keywords
- vertex
- behavioral data
- behavior
- layer
- cube
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种个人日常行为数据的多维分析方法,属于数据挖掘领域。方法用于从多个角度分析个人日常行为数据,为个人行为决策提供数据支持,包括以下步骤:(1)基于个人日常行为数据的内容特征,构建行为网络;(2)首次提出采用一种新颖的维度——结构维,从顶点维、边维、子图维的角度对构建的行为网络进行多维分析,构建出顶点层行为数据立方体、边层行为数据立方体和子图层行为数据立方体;(3)根据行为网络、顶点层行为数据立方体、边层行为数据立方体和子图层行为数据立方体四者构建行为数据立方体,对行为数据立方体进行分析,挖掘出个人日常行为数据的潜在价值,用于阅读推荐、个人健康管理、个人财务管理等。
Description
技术领域
本发明涉及数据挖掘方法,具体涉及一种个人日常行为数据分析方法。
背景技术
21世纪以来随着计算机、互联网以及电子设备技术的不断发展与革新,使得人们的日常生活逐渐离不开手机、电脑、网络以及其他各种电子设备,人类生活正式进入了数据驱动的信息化时代。随着生活方式的数字化,人们在生活中的一举一动都会产生数字痕迹,即互联网与电子设备所记录的数据,例如,微博、微信等社交媒体数据、手机通话记录、个人消费数据、个人医疗数据、出行记录、各种刷卡记录等,这些数字痕迹所记录的活动可以被称为人们在日常生活中的个人行为数据,简称行为数据。计算机技术和互联网具有生产、采集、存储数据的能力,使得行为数据不仅在体量、速率与种类上持续增长,而且格式也越发多样,来源也越发广泛。日常行为数据不断的堆积,产生了从多角度多粒度进行数据分析的需求,如何高效的进行数据分析与数据挖掘,将这些日常行为数据广泛应用于解决现代生活中的一些重要问题,例如城市交通拥堵、个人健康、预防疾病传播、用户情绪预测、商品推荐等,是当前越来越迫切需要解决的问题。
近年来,数据分析技术被广泛应用于各种领域,相关分析技术也逐渐成熟,其中应用于行为数据的分析方法主要有基于经验模型的方法和基于机器学习的方法。经验模型方法侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析;机器学习方法则是使用大量样本数据进行训练,让机器代替人从数据中提取知识。
这两种方法应用非常广泛,但是都存在着不足之处。首先,它们都是单任务驱动的,也就是说,通常一个分析任务只能完成一个分析目标,一旦分析目标改变则需要重新设定整个分析过程。例如,在人类行为动力学的研究中,过去用于危机控制以及通讯的关于人类的动力学模型,都是假设人的行为在时间上是均匀分布的,并使用泊松过程来近似。然而,一些行为数据包括通讯模式、工作模式等并非满足泊松统计,其特点是在一系列快速事件发生后,会有一段长时间的静息,这样也就导致之前设计的整个模型都要推翻重新设计。其次,它们都忽略了数据元素之间的相关性,认为行为数据是非结构化的,这种定论是不完全准确的,因为现实世界中与人类相关的所有事物的产生与变化都与人们的行为息息相关。行为是人们与自然环境交互的过程,行为过程中会产生环境与事物的变化,所涉及到的事物之间也会产生一定的联系。此外,现有的技术对于行为数据均是存储在关系数据库中,采用事实表和维度表记录行为数据以及行为之间包含的各种关系,这使得在进行多维分析时,要涉及多表之间的join操作,速度慢,效率低。这些缺点使得上述方法不足以应用于所有的个人日常行为数据分析。
发明内容
发明目的:针对现有技术的不足,本发明提供了一种个人日常行为数据的多维分析方法,该方法基于人们的一系列行为之间包含的时序关系、因果关系,以及人与物品之间存在的拥有、依赖、改造等关系,使用图结构来描述行为数据,并且基于图结构对行为数据进行多维分析,帮助人们做个人行为决策,比如阅读推荐、个人健康管理、个人财务管理、个人生活观察等。
技术方案:本发明所述的一种个人日常行为数据的多维分析方法,使用图结构来描述行为数据,构建行为网络,以此来描述一系列行为之间包含的各种关系,然后首次提出采用一种新颖的维度——结构维,从顶点维、边维和子图维三个角度对行为网络进行分析,并构建顶点层行为数据立方体、边层行为数据立方体和子图层行为数据立方体。具体包括以下步骤:
(1)构建行为网络,以网络中的顶点表示发生的行为以及行为发生时的相关要素,网络中的边表示行为与行为之间、行为与行为发生时的相关要素之间的联系。具体地,选定发生的行为作为主题元素,行为发生时的相关要素作为属性元素,属性元素包括时间、地点、环境、情绪、相关的人、相关的物、工具、持续时间、移动距离、生理状况、身体状况等;将获取的每一条行为数据按照主题元素和属性元素进行分类存储,也就是将这些数据存入不同类型的顶点,主题顶点与属性顶点用属性边相连构成星型结构,这样每一条行为数据都是一个星型结构的子图,所有的行为数据根据时间序列进行排序,也就是所有的主题顶点根据时间序列用序列边连接构成一个线性结构。
(2)对行为网络中存在的所有类型的顶点元素按粒度层次进行次数统计,构建顶点层行为数据立方体。这里的粒度层次指的是:ALL->granularity,其中ALL表示该类顶点的总值,granularity表示该类顶点的具体粒度,不同类别的顶点粒度层次可能不同,所有类别的顶点又具有“ALL->type(ALL)->type(granularity)”的层次关系,比如时间类顶点的粒度层次:“ALL->年->月->日->时->分->秒”。根据每类元素顶点的粒度层次对行为网络中的所有顶点进行次数统计,得到该类元素对应粒度层次下的统计次数,每一类顶点的每一层统计之后都创建一个顶点元素存储该结果,根据层次结构,上层顶点与下层顶点之间用“group by”属性边相连,这样所有类型的元素都有了自己的粒度层次顶点层统计图,最后统计所有类型的元素ALL层数值之和,创建一个最顶层ALL层顶点存储该值,并且这个顶点与所有元素类型的ALL层顶点用“group by”属性边相连。
(3)基于边维对行为网络进行统计,构建边层行为数据立方体。对行为网络中存在的所有属性元素进行任意的组合,所有的属性组合构成边维的维度空间,维度空间中的元素根据元素包含属性个数进行由高到低的排序,依次选定维度空间中的元素作为对主题顶点的属性限制,统计行为网络中符合该限定模式的出现次数,对于得到的每一条统计结果记录都用一个“主题元素->属性元素”的星型结构图存储,也就是边层行为数据立方体是一个个星型结构图。边层行为数据立方体的维度层次指的是限定模式(也就是维度空间元素)中的元素个数。
(4)基于子图维对行为网络进行统计,构建子图层行为数据立方体。边层行为数据立方体只有属性边,子图层行为数据立方体在边层行为数据立方体的基础上加入了序列边,此处的序列边对应行为网络中的序列边——时间序列,即具有序列关系的多个主题元素顶点自身构成一个线性结构,每个主题元素顶点又带有0到多个属性元素顶点。
行为网络、顶点层行为数据立方体、边层行为数据立方体和子图层行为数据立方体都构建完成之后,四者共同构成了行为数据立方体。
(5)行为数据立方体构建完成之后,对于用户行为数据的预处理就此完成,接下来所有涉及到用户行为数据的分析都在行为数据立方体上进行。本发明中对于行为数据立方体的多维分析操作包括两种,一种是组内OLAP(Online Analytical Processing,联机分析处理)操作,另一种是组间OLAP操作。
(51)组内OLAP操作,也就是对顶点层行为数据立方体、边层行为数据立方体、子图层行为数据立方体进行多维分析的操作,包括:切片/切块、上卷、下钻。组内切片/切块,指的是返回子立方体内所指定维度层次内的立方体;组内上卷,指的是维度层次较小的立方体汇总为一个维度层次较大的立方体,即一系列包含多个元素的立方体汇总为一个包含较少元素的立方体,例如边层行为数据立方体从包含三个属性类型的立方体上卷到包含两个属性元素的立方体;组内下钻与组内上卷相反,指的是从一个维度层次较大的立方体分组为一系列维度层次较小的立方体。
(52)组间OLAP操作,是对行为数据立方体的多维分析操作,包括:切片/切块、上卷、下钻。组间切片/切块,指的是返回指定维度的子立方体,即返回结果可能是顶点层行为数据立方体、边层行为数据立方体、子图层行为数据立方体;组间上卷,指的是从一系列复杂的细节的结构层次汇总为一个简单的聚合的结构层次,如边层行为数据立方体上卷得到顶点层行为数据立方体,子图层行为数据立方体上卷得到边层行为数据立方体;组间下钻与组间上卷相反,从一个简单的汇总的结构层次,将相关数据分组为一系列更复杂更细节的结构层次,如顶点层下钻到边层,边层下钻到子图层。
有益效果:与现有技术相比,本发明具有以下有益效果:
1、本发明使用图结构构建行为网络,以此来描述一系列行为之间包含的时序关系、因果关系等一系列关系,相比于现有技术能够实现多任务分析,并且模型构建时考虑了各任务之间的联系,使得分析结果更全面准确。
2、本发明以行为网络为基础构建出行为数据立方体,通过对行为数据立方体进行多维分析,采用一种新颖的维度——结构维,从顶点维、边维、子图维的角度,对行为网络进行多维分析,顶点维提供从顶点结构分析行为网络的角度,边维提供从边的结构分析行为网络的角度,子图维提供从子图结构分析行为网络的角度。从而便于人们更全面地掌握日常活动、时间分布,并且能够挖掘出个人日常行为数据的潜在价值,用于阅读推荐、个人健康管理、个人财务管理和高效的工作学习模式推荐等,这不仅充分利用了大数据时代产生的各种数据,而且为现代社会智能化个人生活助手的实现提供了切实可行的方案。
附图说明
图1为行为网络示意图。
图2为顶点层行为数据立方体的粒度层次结构示意图。
图3为顶点层行为数据立方体示例图。
图4为边层行为数据立方体层次结构示意图。
图5为边层行为数据立方体一示意图。
图6为边层行为数据立方体二示意图。
图7为子图层行为数据立方体结构层次结构示意图。
图8为子图层行为数据立方体示意图。
图9为边层组内上卷、下钻的示例。
图10为顶点层组内切片、切块的示例。
图11为边层组内切片、切块的示例。
图12为顶点层与边层的相互上卷、下钻的示例。
图13为顶点层与子图层的上卷、下钻的示例。
图14为根据实例一的顶点层行为数据立方体示例。
图15为根据实例二的边层行为数据立方体示例。
图16为根据实例三的子图层行为数据立方体示例。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明所述的一种个人日常行为数据的多维分析方法,使用图结构来描述行为数据,构建行为网络,以此来描述一系列行为之间包含的各种关系,然后首次提出采用一种新颖的维度——结构维,从顶点维、边维和子图维三个角度对行为网络进行分析。作为本发明的方法的输入,首先要有行为数据。行为数据的采集可以使用无线传感器、穿戴设备、个人记录以及网络获取。无线传感器主要包括温度传感器、光照传感器、声音传感器、人体红外传感器和超声波传感器等;穿戴设备比如运动手环,可以采集个人的运动步数、消耗卡路里、距离、心率、GPS、肤温、久坐和睡眠质量检测等;个人记录主要是通过有意识的记录一些心理和生理特征;网络获取方面,例如可以获取由中国气象局提供的各个时间段的温度、湿度、天气、风力、紫外线状况等信息。下面详述对行为数据的处理过程。
步骤1、构建行为网络,以网络中的顶点表示发生的行为以及行为发生时的相关要素,网络中的边表示行为与行为之间、行为与行为发生时的相关要素之间的联系。具体地,选定发生的行为作为主题元素,行为发生时的相关要素作为属性元素,属性元素包括时间、地点、环境、情绪、相关的人、相关的物、工具、持续时间、移动距离、生理状况、身体状况等(属性元素的全集包括但不仅限于这些,只要是与行为发生时相关的元素都可以作为属性元素);将获取的每一条行为数据按照主题元素和属性元素进行分类存储,也就是将这些数据存入不同类型的顶点,主题顶点与属性顶点用属性边相连构成星型结构,这样每一条行为数据都是一个星型结构的子图,所有的行为数据根据时间序列进行排序,也就是所有的主题顶点根据时间序列用序列边连接构成一个线性结构。
图1所示为根据本发明的技术方案构建的行为网络示例,其中,主题元素是行为,包括吃饭、看电影、学习、休息等,主题元素按照时序依次相连,且各主题元素按时间序列分配有不同的编号;属性元素包括时间、地点、持续时间、心情、天气、相关人或物等。需要特别指出的是,属性元素的集合是所有行为顶点属性的总集合,一个具体的行为不一定会包含全部的属性,可以仅包含其中几个相关的内容,这取决于原始行为数据的获取,下面表1所示的四条记录是用户A通过个人记录记载的四次“睡觉”的行为信息:
表1用户A的睡觉行为记录
行为 | 时间 | 地点 | 天气 | 生理状况 | 情绪 |
睡觉 | 2017年4月25号22:35 | 学校寝室 | —— | —— | —— |
睡觉 | 2017年4月29号22:45 | 学校寝室 | 闷热 | —— | 烦躁 |
睡觉 | 2017年5月4号23:00 | 家中卧室 | 凉爽 | 感冒 | 放松 |
睡觉 | 2017年5月13号22:40 | 学校寝室 | 雷阵雨 | —— | 兴奋 |
表1中“——”代表无记录,可以看到,用户A自己记录的四条“睡觉”的行为信息,并不是每一条信息都有时间、地点、天气、生理状况、情绪这五个属性。也就是说,本发明构建的行为网络中每个主题节点连接的属性节点取决于原始行为数据,只要是该条行为记录相关的属性记录就把他添加到该行为节点的属性节点中,如果没有则不添加。
步骤2、对行为网络中存在的所有类型的顶点元素按粒度层次进行次数统计,构建顶点层行为数据立方体。这里的粒度层次指的是:ALL->granularity,其中ALL表示该类顶点的总值,granularity表示该类顶点的具体粒度,不同类别的顶点粒度层次可能不同,所有类别的顶点又具有“ALL->type(ALL)->type(granularity)”的层次关系,比如时间类顶点的粒度层次:“ALL->年->月->日->时->分->秒”。图2示出了顶点层行为数据立方体的粒度层次结构,顶端ALL表示对所有顶点的汇总,M(ALL)表示对主题元素顶点的汇总,Ai(ALL)表示对第i类属性元素顶点的汇总,每一类顶点又根据其自身的粒度进行分组统计。顶点层的粒度层次h分别为:ALL层内部维度h=0,M(ALL)层、Ai(ALL)层h=1,粒度层次依次累加,比如g11层h=2,g12层h=3,g1x层h=x+1。有了粒度层次之后,我们就可以对该层次下的行为网络进行统计分析。
顶点层行为数据立方体就是对行为网络中的每类元素顶点,按照该类元素类型自身的粒度层次进行统计,例如,对“去医院”这一行为元素的顶点进行顶点层统计,只考虑“去医院”这一行为的两层粒度,第一次是ALL层也就是Ai(ALL),h=1,语义理解就是总共去医院的次数,第二次是病症层g11,h=2,那么可以获取这样的知识:“2016年,李帅去过7次医院,其中1次体检,2次因为过敏,4次因为感冒”。根据每类元素顶点的粒度层次对行为网络中的所有顶点进行次数统计,得到该类元素对应粒度层次下的统计次数,每一类顶点的每一层统计之后都创建一个顶点元素存储该结果,根据层次结构,上层顶点与下层顶点之间用“group by”属性边相连,这样所有类型的元素都有了自己的粒度层次顶点层统计图,最后统计所有类型的元素ALL层数值之和,创建一个最顶层ALL层顶点存储该值,并且这个顶点与所有元素类型的ALL层顶点用“group by”属性边相连。图3为顶点层行为数据立方体实例,B代表行为元素顶点,Ps代表心情元素顶点,L代表地点元素顶点。其中最上层顶点是ALL,个数为31,意思是在行为网络中,行为元素顶点、心情元素顶点、地点元素顶点出现的次数一共是31;第二层三个顶点的含义是行为元素顶点一共出现13次,心情元素顶点一共出现6次,地点元素顶点一共出现12次;第三层顶点的含义是行为网络中,出现的行为元素顶点分别是:起床1次,吃饭6次,科研3次,开会1次,休息1次,看电影1次,出现的心情元素顶点分别是:紧张1次,疲惫1次,愉快3次,出现的地点元素顶点分别是:宿舍1次,实验室10次,梅园餐厅1次。
步骤3、对行为网络中存在的所有属性元素进行组合,所有可能的组合对构成边维的维度空间,再基于边维对行为网络进行统计,构建边层行为数据立方体。即边维的维度空间是属性边的集合,属性边描述主题顶点与属性顶点之间的相互关系。
顶点层行为数据立方体是对行为网络中的所有顶点按照元素类型以及粒度层次进行次数统计,也就是顶点层行为数据立方体只对顶点出现次数进行统计,不考虑顶点之间边的联系,边层行为数据立方体与顶点层行为数据立方体不同的是,边层行为数据立方体在进行统计时考虑属性边的联系。行为网络中,主题顶点与属性顶点用属性边相连构成星型结构,每一个星型结构中参与的属性顶点的个数和元素类型是不一样的,构建边层行为数据立方体时,先对主题顶点进行属性限制,包括属性元素类别和属性元素个数(0到多个),然后统计行为网络中符合经过限制之后的主题元素的模式的出现次数。如表2所示,限定属性个数为2,分别是地点属性和天气属性得到的统计结果:
表2限定属性个数得到的统计结果
对于每一条统计记录,创建一个新的星型结构图存储该结果。对行为网络中存在的所有属性元素进行任意的组合,所有的属性组合构成边维的维度空间,这里的任意组合指的是任意可能的组合,例如属性总集合是{时间、地点、环境},那么得到的维度空间是{{}、{时间}、{地点}、{环境}、{时间、地点}、{时间、环境}、{地点、环境}、{时间、地点、环境}},包括空集。维度空间中的元素根据元素包含属性个数进行由高到低的排序,依次选定维度空间中的元素作为对主题顶点的属性限制,统计行为网络中符合该限定模式的出现次数,对于得到的每一条统计结果记录都用一个“主题元素->属性元素”的星型结构图存储,也就是边层行为数据立方体是一个个星型结构图。边层行为数据立方体的维度层次指的是限定模式(也就是维度空间元素)中的元素个数。
如图4所示,边层行为数据立方体中,M代表主题元素,Ai代表属性元素,边层的内部层次h取决于指定的属性边的个数,定义一个函数dim(.)来计算边层内部维度层次,则h=|dim(.)|。边层的维度空间为属性边集RA={RA1,RA2,…,RAm},其中RAi=M→Ai,1≤i≤m。对于任意边维表示R'中非*的属性集合。例如R′=(M→A1,*,…,*),则dim(R′)={M→A1},基于指定边维R'计算得到的聚合图G',其h=|dim(R′)|=1。对于两个不同的边维R'和R”,计算得到两聚合图G'和G”,如果则称是G'是G”的祖先,反之G'是G”的子孙。其中,如果|dim(R”)|=|dim(R′)|+1,则称G'是G”的一个父亲粒子,G”是G'的一个孩子粒子;如果|dim(R”)|=|dim(R′)|,则G”与G'是兄弟粒子;对于ALL层,Rall=(*,*,…,*),则|dim(Rall)|=0,称之为边层的顶点粒子。根据这样的层次构建边层行为数据立方体。
图5和图6给出了边层行为数据立方体的示例,其中图5所示的边层行为数据立方体中只包含一个地点的属性元素,其中B代表行为元素,L代表地点元素。图6所示的边层行为数据立方体中包含地点和环境两个属性元素,其中L代表地点,E代表环境。这里属性元素的限制取自边层的维度空间,任意取维度空间中的元素,都会构建一个星型的边层行为数据立方体的子立方体。
步骤4、基于子图维对行为网络进行统计,构建子图层行为数据立方体。边层行为数据立方体只有属性边,子图层行为数据立方体在边层行为数据立方体的基础上加入了序列边,即具有序列关系的多个主题元素顶点自身构成一个线性结构,每个主题元素顶点又带有0到多个属性元素顶点。如图7所示,子图层行为数据立方体是由边层行为数据立方体构成的,多个边层行为数据立方体根据序列关系构成子图层行为数据立方体。本发明中,序列关系以时序关系来表示。图8示出了子图层行为数据立方体的示例,两个行为元素顶点构成一个序列,每个行为元素顶点都有一个地点属性元素。
行为网络、顶点层行为数据立方体、边层行为数据立方体和子图层行为数据立方体都构建完成之后,四者共同构成了行为数据立方体。行为网络是顶点层、边层、子图层数据立方体的基础,后三者都是在他的基础上构建的。顶点层、边层、子图层数据立方体三者之间相互联系,边层比顶点层多了属性边的联系,子图层比边层多了序列边的联系。边层行为数据立方体和子图层行为数据立方体经过上卷可以到达顶点层行为数据立方体,反之顶点层行为数据立方体下钻可以得到边层行为数据立方体和子图层行为数据立方体;边层行为数据立方体经过下钻可以得到子图层行为数据立方体,反之子图层行为数据立方体经过上卷可以得到边层行为数据立方体。也就是行为数据立方体内部层次之间可以相互通过上卷下钻彼此联系。本发明对顶点层行为数据立方体、边层行为数据立方体、子图层行为数据立方体的构建策略使得他们三者之间满足这一特征,也就是说这一特征是构建策略决定的。
步骤5、行为数据立方体构建完成之后,对于用户行为数据的预处理就此完成,接下来所有涉及到用户行为数据的分析都在行为数据立方体上进行。此时,顶点层行为数据立方体、边层行为数据立方体和子图层行为数据立方体称为最终行为数据立方体的子立方体。对于行为数据立方体的多维分析操作分为两种,一种是组内OLAP(Online AnalyticalProcessing,联机分析处理)操作,另一种是组间OLAP操作。需要指出的是,OLAP操作是多维分析的基本操作方法,本发明的模型特别之处在于可以进行组内OLAP操作和组间OLAP操作,也就是本发明所构建的行为数据立方体具有这样的特点:顶点层行为数据立方体、边层行为数据立方体、子图层行为数据立方体内部可以进行OLAP操作,整个行为数据立方体之间可以进行组间OLAP操作。
(1)组内OLAP操作,也就是对顶点层行为数据立方体、边层行为数据立方体、子图层行为数据立方体进行多维分析的操作,包括:切片/切块、上卷、下钻。组内切片/切块,指的是返回子立方体内所指定维度层次内的立方体;组内上卷,指的是维度层次较小的立方体汇总为一个维度层次较大的立方体,即一系列包含多个元素的立方体汇总为一个包含较少元素的立方体,例如边层行为数据立方体从包含三个属性类型的立方体上卷到包含两个属性元素的立方体;组内下钻与组内上卷相反。这里特别指出,维度层次大指的是包含的属性个数少,维度层次小指的是包含的属性个数多,参照图4,图4中的维度层次每一层由低到高,直到最高层ALL层,维度层次最小的包含所有的属性元素,维度层次最大的不包含属性。
(2)组间OLAP操作,是对行为数据立方体的多维分析操作,包括:切片/切块、上卷、下钻。组间切片/切块,指的是返回指定维度的子立方体,即返回结果可能是顶点层行为数据立方体、边层行为数据立方体、子图层行为数据立方体;组间上卷,指的是从一系列复杂的细节的结构层次汇总为一个简单的聚合的结构层次,如边层行为数据立方体上卷得到顶点层行为数据立方体,子图层行为数据立方体上卷得到边层行为数据立方体;组间下钻与组间上卷相反,从一个简单的汇总的结构层次,将相关数据分组为一系列更复杂更细节的结构层次,如顶点层下钻到边层,边层下钻到子图层。
图9-图13示出了各层内以及层间操作的示例。图9为边层组内上卷、下钻的例子,其中左侧是ALL层的“behavior->location”汇总图,右侧是“behavior->location”更细节的聚合图,右侧是左侧的下钻聚合图,左侧是右侧的上卷汇总图。图10为顶点层组内切片、切块的例子,是顶点层对行为类顶点的切块。图11为边层组内切片、切块的例子,是边层对“behavior->location”类聚合图的切块。图12为顶点层与边层的相互上卷、下钻的例子,展示了行为类顶点与地点类顶点分别在顶点层与边层的聚合图,以及相互转换的关系,两类顶点基于“behavior->location”的关系,从顶点层下钻到边层得到更细节的聚合图,如右侧虚线框内的图所示,对两类顶点消除边上的关系以进行汇总,上卷得到左侧两个汇总顶点。图13为顶点层与子图层的上卷、下钻的例子,展示了行为顶点在顶点层与子图层之间的相互转化实例,选择顶点层的行为顶点,下钻为路径长度为1的子图。
通过对行为数据立方体的钻取、切片、切块等操作,可以得到多维分析的结果,该结果数据可以帮助人们更加了解自己的各个方面。下面通过三个实例来描述本发明方法的分析过程。
实例一、李帅有过几次过敏史?过敏源是什么?
要解答这个问题,需要通过顶点维对行为网络进行分析,首先对所有的属于病症元素的顶点,进行分类统计得到里面属于“过敏史”的次数,然后对该类顶点的粒度层次进行下钻,分别统计导致过敏的原因,可以得到图14的立方体。由得到的立方体可以知道,李帅有过4次过敏史,其中,因为海鲜过敏2次,花粉过敏1次,青霉素过敏1次。
实例二、2016年期间,李帅一共去过几次医院,原因是什么?
要解答这个问题,需要通过边维对行为网络进行分析,找到主题顶点是“看病”的行为顶点,然后找该顶点的属性顶点,其中地点顶点是“医院”,时间顶点是“2016年”,病症顶点不限,可以得到图15的立方体。由得到的立方体可以知道,2016年期间,李帅一共去过10次医院,有4次是因为过敏,2次是因为扭伤,4次是因为感冒高烧。
实例三、周末的上午,李帅离开健身房之后,通常去哪吃午饭?
要解答这个问题,需要通过子图维对行为网络进行分析,找到主题顶点是“健身”的行为节点,与之相连的下一个行为顶点是“吃午饭”,“健身”顶点的地点属性顶点是“健身房”,时间属性顶点是“周末上午”,与“吃午饭”相连接的地点属性顶点不限,可以得到图16的立方体。由得到的立方体可以知道,李帅一共在周末上午去过12次健身房,从健身房离开之后,通常去喵小喵家吃饭,一个去过4次,胖仔家去过3次,外婆家去过2次,自己回公寓吃饭2次,肯德基去过一次。
此外,根据本发明的方法得到的分析结果可以为个人的后续日常行为提供决策依据,或者应用于用户偏好推荐、健康管理、财务管理等方面。比如通过对顶点层行为数据立方体进行分析,我们发现当前用户阅读过的书籍中,历史类书籍占75%,文学类书籍占10%,心理类书籍占5%,哲学类书籍占2%,社会科学类书籍占8%,有了这个数据,可以对该用户进行阅读推荐,推荐书目偏向于历史类书籍。再比如通过对子图层行为数据立方体进行分析,发现当前用户喜欢在周六下午去附近公园进行40公里长跑,但是本周周六下午空气质量状况不好,户外长跑对身体不好,所以推荐用户取消周六下午的长跑,尝试户内健身运动,根据该用户的子图层行为数据立方体分析知道该用户有过7次去“零距离健身房”健身的经历,并且没有去过其他的健身房健身的经历,所以可以推荐该用户周六下午去“零距离健身房”进行户内健身。
Claims (8)
1.一种个人日常行为数据的多维分析方法,其特征在于:包括以下步骤:
(1)使用图结构来描述行为数据,构建行为网络,该行为网络中的顶点表示发生的行为以及行为发生时的相关要素,行为网络中的边表示行为与行为之间、行为与行为发生时的相关要素之间的联系;
(2)对行为网络中存在的所有类型的顶点元素按粒度层次进行统计,构建顶点层行为数据立方体;
(3)基于边维对行为网络进行统计,构建边层行为数据立方体;
(4)基于子图维对行为网络进行统计,构建子图层行为数据立方体;
(5)对顶点层行为数据立方体、边层行为数据立方体、子图层行为数据立方体进行组间和组内的多维分析操作,得到分析结果。
2.根据权利要求1所述的一种个人日常行为数据的多维分析方法,其特征在于:所述行为网络中包括两类顶点,主题顶点和属性顶点,所述主题顶点表示发生的行为;所述属性顶点表示行为发生时的相关要素,包括时间、地点、环境、情绪、相关的人、相关的物、工具、持续时间、移动距离、生理状况、身体状况。
3.根据权利要求2所述的一种个人日常行为数据的多维分析方法,其特征在于:所述步骤(2)包括:
根据每类元素顶点的粒度层次对行为网络中的所有顶点进行次数统计,得到该类元素对应粒度层次下的统计次数,每一类顶点的每一层统计之后都创建一个顶点元素存储该结果,其中粒度层次指的是ALL->granularity,ALL表示该类顶点的总值,granularity表示该类顶点的具体粒度,所有类别的顶点又具有ALL->type(ALL)->type(granularity)的层次关系;
根据层次结构,上层顶点与下层顶点之间用group by属性边相连,最后统计所有类型的元素ALL层数值之和,创建一个最顶层ALL层顶点存储该值,并且这个顶点与所有元素类型的ALL层顶点用group by属性边相连。
4.根据权利要求2所述的一种个人日常行为数据的多维分析方法,其特征在于:所述步骤(3)包括:对行为网络中存在的所有属性元素进行任意的组合,所有的属性组合构成边维的维度空间,维度空间中的元素根据元素包含属性个数进行由高到低的排序,依次选定维度空间中的元素作为对主题顶点的属性限制,统计行为网络中符合该限定模式的出现次数,对于得到的每一条统计结果记录都用一个“主题元素->属性元素”的星型结构图存储,构建不同层次的边层行为数据立方体。
5.根据权利要求2所述的一种个人日常行为数据的多维分析方法,其特征在于:所述步骤(4)包括:以序列边连接多个主题顶点,将具有序列关系的多个主题顶点构成一个线性结构,每个主题顶点又带有0到多个属性顶点,由此得到由属性边连接每一个主题顶点和对应的属性顶点所构成的星型结构以及由序列边连接各主题顶点所构成的线性结构。
6.根据权利要求5所述的一种个人日常行为数据的多维分析方法,其特征在于:所述序列关系为时序关系。
7.根据权利要求1所述的一种个人日常行为数据的多维分析方法,其特征在于:所述组间多维分析操作包括:切片/切块、上卷、下钻,其中,
所述切片/切块,指的是返回顶点层行为数据立方体、边层行为数据立方体或子图层行为数据立方体中;
所述上卷,指的是从一系列细节结构层次汇总为一个聚合结构层次,包括:边层行为数据立方体上卷得到顶点层行为数据立方体,子图层行为数据立方体上卷得到边层行为数据立方体;
所述下钻,指的是将相关数据从一个汇总结构层次分组为一系列细节结构层次,包括从顶点层行为数据立方体下钻到边层行为数据立方体,从边层行为数据立方体下钻到子图层行为数据立方体。
8.根据权利要求1所述的一种个人日常行为数据的多维分析方法,其特征在于:所述组内多维分析的操作包括:切片/切块、上卷、下钻,其中,
所述切片/切块,指的是返回当前层行为数据立方体内所指定维度层次内的立方体;
所述上卷,指的是维度层次较小的立方体汇总为一个维度层次较大的立方体,即一系列包含多个元素的立方体汇总为一个包含较少元素的立方体;
所述下钻,指的是从一个维度层次较大的立方体分组为一系列维度层次较小的立方体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711275201.2A CN107967338A (zh) | 2017-12-06 | 2017-12-06 | 一种个人日常行为数据的多维分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711275201.2A CN107967338A (zh) | 2017-12-06 | 2017-12-06 | 一种个人日常行为数据的多维分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107967338A true CN107967338A (zh) | 2018-04-27 |
Family
ID=61999425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711275201.2A Pending CN107967338A (zh) | 2017-12-06 | 2017-12-06 | 一种个人日常行为数据的多维分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967338A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737805A (zh) * | 2019-10-18 | 2020-01-31 | 网易(杭州)网络有限公司 | 图模型数据的处理方法、装置和终端设备 |
CN111400568A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市腾讯计算机系统有限公司 | 行为意图分析方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1564160A (zh) * | 2004-04-22 | 2005-01-12 | 重庆市弘越科技有限公司 | 建立及查询多维数据立方体的方法 |
CN104794113A (zh) * | 2014-01-16 | 2015-07-22 | 中兴通讯股份有限公司 | 数据处理方法及装置 |
-
2017
- 2017-12-06 CN CN201711275201.2A patent/CN107967338A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1564160A (zh) * | 2004-04-22 | 2005-01-12 | 重庆市弘越科技有限公司 | 建立及查询多维数据立方体的方法 |
CN104794113A (zh) * | 2014-01-16 | 2015-07-22 | 中兴通讯股份有限公司 | 数据处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
JIANHUA LU等: "Multidimensional Analysis Framework on Massive Data of Observations of Daily Living", 《SPRINGER INTERNATIONAL PUBLISHING AG 2017》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737805A (zh) * | 2019-10-18 | 2020-01-31 | 网易(杭州)网络有限公司 | 图模型数据的处理方法、装置和终端设备 |
CN110737805B (zh) * | 2019-10-18 | 2022-07-19 | 网易(杭州)网络有限公司 | 图模型数据的处理方法、装置和终端设备 |
CN111400568A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市腾讯计算机系统有限公司 | 行为意图分析方法、装置、电子设备及存储介质 |
CN111400568B (zh) * | 2020-03-13 | 2021-06-08 | 深圳市腾讯计算机系统有限公司 | 行为意图分析方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vinkenburg et al. | Managerial career patterns: A review of the empirical evidence | |
CN106682212A (zh) | 一种基于用户移动行为的社会关系分类方法与装置 | |
CN111950708B (zh) | 一种发现大学生日常生活习惯的神经网络结构与方法 | |
Pedersen Zari | Understanding and designing nature experiences in cities: A framework for biophilic urbanism | |
Abbott et al. | Explaining economic and social transformations in Post-Soviet Russia, Ukraine and Belarus: The social quality approach | |
Dhelim et al. | Cyberentity and its consistency in the cyber-physical-social-thinking hyperspace | |
Van De Schoot et al. | Do delinquent young adults have a high or a low level of self-concept? | |
Brockington et al. | Assets and domestic units: methodological challenges for longitudinal studies of poverty dynamics | |
CN107967338A (zh) | 一种个人日常行为数据的多维分析方法 | |
Hawkes et al. | People, environment and place: The function and significance of human hybrid relationships at an allotment in South East England | |
Adelman et al. | Deep South demography: New immigrants and racial hierarchies | |
Crow | Recent rural community studies | |
Junkka | Voluntary associations and net fertility during the Swedish demographic transition | |
Goulias et al. | A decade of longitudinal travel behavior observation in the Puget Sound region: sample composition, summary statistics, and a selection of first order findings | |
Elmhirst | ‘Learning the ways of the Priyayi': Domestic servants and the mediation of modernity in Jakarta, Indonesia | |
Isikli et al. | The effects of environmental risk factors on city life cycle: A link analysis | |
Panian | The evolution of business intelligence: from historical data mining to mobile and location-based intelligence | |
Yuan | Temporal GIS for historical research | |
Salik | Exploring the relationship between internal migration and wellbeing: the case of rural Punjab, Pakistan | |
CN110364265A (zh) | 一种基于健康数据银行的数据价值生成与实现方法 | |
Tripathi et al. | Techniques for Data Mining Prediction in the Health Care Sector | |
Ninčević et al. | Mining demographic data with decision trees | |
Minooei et al. | Environmental tranquility: A conceptual framework and urban architectural features | |
Bar | Rethinking the individual–collective divide with biodigital architecture | |
Kim et al. | Adaptive modeling of a user's daily life with a wearable sensor network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180427 |
|
RJ01 | Rejection of invention patent application after publication |