CN102682041B - 用户行为识别设备及方法 - Google Patents

用户行为识别设备及方法 Download PDF

Info

Publication number
CN102682041B
CN102682041B CN201110077602.3A CN201110077602A CN102682041B CN 102682041 B CN102682041 B CN 102682041B CN 201110077602 A CN201110077602 A CN 201110077602A CN 102682041 B CN102682041 B CN 102682041B
Authority
CN
China
Prior art keywords
ratio
user
trip chain
duration
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110077602.3A
Other languages
English (en)
Other versions
CN102682041A (zh
Inventor
饶佳
张伟力
伍涛
厉程海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201110077602.3A priority Critical patent/CN102682041B/zh
Priority to JP2011242424A priority patent/JP5452568B2/ja
Priority to US13/348,017 priority patent/US20120239607A1/en
Publication of CN102682041A publication Critical patent/CN102682041A/zh
Application granted granted Critical
Publication of CN102682041B publication Critical patent/CN102682041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Navigation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种用户行为识别设备,包括:位置数据接收单元,接收用户位置数据并按照时间顺序进行整理,以获得基于时间序列的用户位置数据;数据预处理单元,对基于时间序列的用户位置数据进行预处理;特征向量提取单元,根据预处理后的用户位置数据,提取用于识别用户的活动类型的特征向量;以及用户行为识别单元,根据特征向量提取单元提取的特征向量来识别用户的活动类型,以获得用户的行为特征。本发明还提供了一种用户行为识别方法。本发明能够得到用户深层次的行为特征,使得每个用户的行为识别结果更加精确和丰富。

Description

用户行为识别设备及方法
技术领域
本发明涉及数据分析领域,具体涉及一种基于位置信息的用户行为识别设备及方法。
背景技术
随着定位技术的快速发展和普及,无论是全球卫星定位系统,还是基于无线蜂窝网的手机定位技术,都让人们能更高效地认知周边地理环境。这些位置信息不但可用于定位、导航以及提供一些基于位置的服务,也可用于表达用户在地理空间的历史行为。例如,将一个用户孤立的位置点按照时间顺序连成路线,便可表达该用户过去的历史轨迹。多条历史轨迹的累积便可用来反映用户的生活规律和行为特征。进一步地,从大量的用户数据集合中则可分析出一个区域内人们的生活模式和社会规律,如热点地区、经典旅行路线和交通状况等。
在当前众多的无线定位技术中,GPS以其覆盖范围广、定位精度高、定位时间短和定位依赖性小等优势逐渐在人们的日常生活中变得普及起来。各种车载GPS、手持GPS和GPS智能手机的相继问世也为人们提供了更加便捷的位置获取和轨迹记录方式。通过GPS获取的轨迹数据在各种应用中能够发挥重要的作用,例如能够帮助人们理解个人行为和社会规律。从数据源来看,可分为基于个人轨迹数据的理解和基于多人轨迹数据的理解两个方向。
个人轨迹数据的理解是指,用户可在不干扰生活的前提下记录自己的旅行路线、运动经历、以及日常生活和工作轨迹。结合现有的地理信息数据库和电子地图,这些轨迹数据可为个人提供以下服务:帮助用户更有效的回忆过去;更便捷的与朋友分享生活经历;理解自己的生活规律;以及提供个性化服务,等等。
单个用户的轨迹数据可以体现个人的生活规律,而多个用户轨迹数据的集合则可用来表达一个社区乃至一个城市里人们的生活模式,可以用于用户行为识别。在固定目的地的行为,如就餐、购物、运动等,也包含对用户在路程中的行为理解,例如用户当时采用的交通方式是开车、公交还是自行车等,以及预测用户可能选择的目的地。
然而,通过轨迹数据的理解识别出用户的行为进而得到区域内的用户生活模式,目前在技术实现上还存在问题。无论何种定位的方法,都存在定位上的误差,无法将用户准确位置同数字电子地图上的兴趣点(Point of Interest,POI)完全的吻合起来,于是只能精确到城区内某个较大的区域,如中央商务区(CBD)、中关村等,因而只能对用户的位置分布趋势进行大概分析,不能做到用户行为的准确识别。因此,无法准确理解单个用户的轨迹数据,进而无法得到个人详尽的行为方式,同样无法通过分析得到一个社区乃至一个城市里人们的生活模式。
现有技术中存在一种处理用户数据的方法,其根据用户位置信息的变化来获取用户的各种数据信息,然后对这些信息根据地理分布进行分类统计,以对用户的行为和习惯进行分析。该方法主要包括以下步骤:首先,获取关于用户的位置信息,其中该位置信息包含用户标识以及该用户的所在位置区域。然后,根据设定的条件准则,在位置信息历史记录中查找符合条件准则的用户标识。最后,根据查找到的所述用户标识提取用户资料,并根据所述用户资料发布用户数据。下面详细说明该方法的具体操作过程。
图1示出了在时间范围和区域范围中分布的用户轨迹。如图1所示,不规则形状表示用户轨迹分布的时间和区域范围,矩形框表示需要分析的时间和区域范围,多个点表示用户的位置点,坐标横轴表示区域,坐标纵轴表示时间。在图1所示的例子中,点3和点4是符合该范围的用户位置点,而点1和点2是不符合该范围的用户位置点。
将符合范围要求的用户位置点(例如点3和点4)形成集合,该集合由于包含用户的标识信息(例如手机号),如下表1所示:
Figure BSA00000462948300031
表1
然后,通过查找到的用户标识,在用户资料库中提取用户资料,如下表2所示:
  用户ID 年龄 性别 ......
  用户1 20 ......
  用户2 18 ......
  用户3 30 ......
  ...... ...... ...... ......
表2
因此,符合该范围的用户有用户1和用户2,分别是20岁和18岁的女性。
最后,根据查找到的用户资料结合用户的数据集合进行分类统计,并可发布该区域内的用户习惯行为数据,得到该时间和区域范围内的用户特征分布,如下表3所示:
Figure BSA00000462948300041
表3
可以看出,上述划定的时间和区域范围内的特征是:在年龄上年轻人为多数,而在性别上女性为多数。因此,可以得到结论:上述划定的时间和区域范围是年轻女性偏好的。
然而,该方法只是很简单地对散列的用户位置数据按照分布进行简单的分类统计,而基于地理分布的用户统计结果不能代表用户的真正行为,所以其结果也无法提供足够的信息为所在地区的用户兴趣点进行推荐。通过此种分类统计方法,无法准确地表达用户的真实意图和行为,存在很大的不确定性。另外,这种浅层意义上的分析无法为其他用户提供足够的信息,也无法为城市规划提供良好的建议。
发明内容
为了解决上述技术问题,本发明提供了一种基于时间序列的位置信息的用户行为识别设备及方法。首先,对用户出行的时间序列位置信息做数据预处理,提取出行链中的出行链和活动地点,并提取活动的备选类型。然后,从出行链和活动的时间和空间因素中提取用于识别活动类型的特征,形成特征向量作为分类器的输入。最后,建立基于支持向量机的两两分类器,采用分类器投票的方法从备选集中选择活动的类型。这样,能够获得用户的行为特征,即出行特征和活动特征。
根据本发明的一个方面,提供了一种用户行为识别设备,包括:位置数据接收单元,接收用户位置数据并按照时间顺序进行整理,以获得基于时间序列的用户位置数据;数据预处理单元,对基于时间序列的用户位置数据进行预处理;特征向量提取单元,根据预处理后的用户位置数据,提取用于识别用户的活动类型的特征向量;以及用户行为识别单元,根据特征向量提取单元提取的特征向量来识别用户的活动类型,以获得用户的行为特征。
优选地,基于时间序列的用户位置数据包括:用户标识信息、地理位置信息和时间信息。
优选地,数据预处理单元从基于时间序列的用户位置数据中获取用户的出行链和活动区域,并结合数字电子地图的兴趣点信息获得用户的活动备选地点。
优选地,特征向量提取单元提取的特征向量包括:针对用户出行链的基于时间的向量和基于空间的向量,以及针对用户活动的基于时间的向量和基于空间的向量。
优选地,针对用户出行链的基于时间的向量包括:出行链的开始时间与全天时间的比例、出行链的持续时间与全天时间的比例、主要活动的开始时间与全天时间的比例、主要活动的持续时间与全天时间的比例、所有活动持续时间占出行链持续时间的比例、平均活动持续时间占出行链持续时间的比例、所有分布的活动持续时间与出行链持续时间比例的标准差、主要活动持续时间占出行链所有活动持续时间的比例。
优选地,针对用户出行链的基于空间的向量包括:出行链长度与出行链长度最大距离的比例、出行链半径与出行链长度的比例、主要活动的离家距离与出行链长度的比例、活动之间相隔距离的平均值与出行链长度的比例、活动之间相隔距离的标准差。
优选地,针对用户活动的基于时间的向量包括:活动的开始时间与全天时间的比例、活动的持续时间与全天时间的比例、活动开始距出行链起点之间时间与出行链持续时间的比例、活动的持续时间与出行链持续时间的比例、活动开始距上一活动结束之间的时间与出行链持续时间的比例、活动结束距下一活动开始之间的时间与出行链持续时间的比例、活动的持续时间与主要活动持续时间的比例、活动开始距主要活动结束之间时间与出行链持续时间的比例、主要活动开始距活动结束之间时间与出行链持续时间的比例。
优选地,针对用户活动的基于空间的向量包括:活动离家距离与出行链长度的比例、活动距上一活动之间的出行距离与出行链长度的比例、活动距下一活动之间的出行距离与出行链长度的比例、活动的回家距离与主要活动回家距离的差与出行链长度的比例、活动的离家距离与主要活动离家距离的差与出行链长度的比例。
优选地,用户行为识别单元包括基于支持向量机的分类器。
优选地,用户行为识别设备还包括:用户行为汇总单元,通过用户标识信息将单个用户的行为特征与用户资料数据相关联,并对特定区域内的多个用户的数据进行汇总,以获得该区域的特征信息。
根据本发明的另一个方面,提供了一种用户行为识别方法,包括:接收用户位置数据并按照时间顺序进行整理,以获得基于时间序列的用户位置数据;对基于时间序列的用户位置数据进行预处理;根据预处理后的用户位置数据,提取用于识别用户的活动类型的特征向量;以及根据所述特征向量来识别用户的活动类型,以获得用户的行为特征。
优选地,基于时间序列的用户位置数据包括:用户标识信息、地理位置信息和时间信息。
优选地,对基于时间序列的用户位置数据进行预处理的步骤包括:从基于时间序列的用户位置数据中获取用户的出行链和活动区域,并结合数字电子地图的兴趣点信息获得用户的活动备选地点。
优选地,特征向量包括:针对用户出行链的基于时间的向量和基于空间的向量,以及针对用户活动的基于时间的向量和基于空间的向量。
优选地,针对用户出行链的基于时间的向量包括:出行链的开始时间与全天时间的比例、出行链的持续时间与全天时间的比例、主要活动的开始时间与全天时间的比例、主要活动的持续时间与全天时间的比例、所有活动持续时间占出行链持续时间的比例、平均活动持续时间占出行链持续时间的比例、所有分布的活动持续时间与出行链持续时间比例的标准差、主要活动持续时间占出行链所有活动持续时间的比例。
优选地,针对用户出行链的基于空间的向量包括:出行链长度与出行链长度最大距离的比例、出行链半径与出行链长度的比例、主要活动的离家距离与出行链长度的比例、活动之间相隔距离的平均值与出行链长度的比例、活动之间相隔距离的标准差。
优选地,针对用户活动的基于时间的向量包括:活动的开始时间与全天时间的比例、活动的持续时间与全天时间的比例、活动开始距出行链起点之间时间与出行链持续时间的比例、活动的持续时间与出行链持续时间的比例、活动开始距上一活动结束之间的时间与出行链持续时间的比例、活动结束距下一活动开始之间的时间与出行链持续时间的比例、活动的持续时间与主要活动持续时间的比例、活动开始距主要活动结束之间时间与出行链持续时间的比例、主要活动开始距活动结束之间时间与出行链持续时间的比例。
优选地,针对用户活动的基于空间的向量包括:活动离家距离与出行链长度的比例、活动距上一活动之间的出行距离与出行链长度的比例、活动距下一活动之间的出行距离与出行链长度的比例、活动的回家距离与主要活动回家距离的差与出行链长度的比例、活动的离家距离与主要活动离家距离的差与出行链长度的比例。
优选地,使用基于支持向量机的分类器根据所述特征向量来识别用户的活动类型,以获得用户的行为特征。
优选地,用户行为识别方法还包括:通过用户标识信息将单个用户的行为特征与用户资料数据相关联,并对特定区域内的多个用户的数据进行汇总,以获得该区域的特征信息。
本发明基于单个用户轨迹的理解而得到单个用户的行为和出行链特征,通过建立恰当的特征向量,能够分析得到用户深层次的行为特征,使得每个用户的识别结果更加精确和丰富。此外,本发明可以通过对一个区域的用户特征进行分类统计而得到一个城市区域内的用户行为特征,从而能够提高城市区域的特征识别的精确度。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1示出了现有技术中在时间范围和区域范围中分布的用户轨迹的示意图;
图2示出了根据本发明一个实施例的用户行为识别设备的框图;
图3(a)-(d)示出了根据本发明一个实施例的用户出行和活动过程的示意图;
图4示出了根据本发明一个实施例提取用户出行链的特征向量的示意图;
图5示出了根据本发明另一个实施例的用户行为识别设备的框图;以及
图6示出了根据本发明一个实施例的用户行为识别方法的流程图。
具体实施方式
下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。
图2示出了根据本发明一个实施例的用户行为识别设备20的框图。如图2所示,用户行为识别设备20包括:位置数据接收单元2 10、数据预处理单元220、特征向量提取单元230和用户行为识别单元240。下面对用户行为识别设备20中各个组件的操作详细进行描述。
位置数据接收单元210接收大量的用户位置数据。例如,这些数据可以包括但不限于:通过用户的GPS装置接收的数据,通过手机定位装置接收的数据,通过无线定位装置接收的数据,等等。在接收到用户位置数据后,位置数据接收单元210按照时间顺序整理用户位置数据,得到基于时间序列的用户位置数据。这些位置数据由一个个连续的用户出行链组成,包含用户的标识信息(例如用户的手机号码)、地理位置坐标(例如经度和纬度)以及时间。然后,位置数据接收单元210将整理后的用户位置数据提供给数据预处理单元220。
数据预处理单元220对来自位置数据接收单元210的用户位置数据进行预处理,判定并获取用户在这段时间内中的出行链和活动区域,并可以结合数字电子地图上的POI信息得到用户的活动备选地点。
图3(a)-(d)示出了根据本发明一个实施例的用户出行和活动过程的示意图。在图3(a)和3(b)中,圆点表示位置数据接收单元210接收的用户的GPS位置(GPS点),而小方块表示数字电子地图上的POI位置点。另外,图3(b)左下方的远端POI是距离用户较远的POI位置点,用户一般不会到达该POI位置点,因此远端POI一般不会用于该用户的行为识别。
在分辨用户的出行和活动地点的过程中,根据特定的判定规则,可将用户轨迹中的、定位误差范围内的两点之间的时间间隔超过阈值的点判定为驻留点,而将小于该阈值的点被判定为移动点。例如,如果在用户轨迹中的两个点之间的停留时间超过30分钟,则认为用户正在进行活动(活动状态),否则表示用户正在移动(移动状态)。经过上述判定,可以确定用户的活动POI备选,并排除某些POI备选(例如用户只是经过该POI位置点而未进行活动),例如图3(c)中所示。最终,数据预处理单元220获得了用户的移动路线(出行链)以及活动区域,如图3(d)所示。
之后,特征向量提取单元230提取用户出行链的特征向量和活动本身的特征向量。其中,用户出行链的特征向量包括基于时间的向量CT和基于空间的向量CS,活动本身的特征向量包括基于时间的向量AT和基于空间的向量AS。下面分别详细描述。
用户出行链的基于时间的向量CT
图4示出了根据本发明一个实施例提取用户出行链的特征向量的示意图。在特征提取前,要计算和描述出行链完整的时间和空间信息,包括居民从家出发开始出行的出行链开始时间
Figure BSA00000462948300091
居民所有活动结束后回到家的出行链结束时间
Figure BSA00000462948300092
第i项活动的开始时间和结束时间
Figure BSA00000462948300094
第i和j项活动之间的距离lij(如图4所示)。在出行链中,家可以看作回家休息的活动,活动序号为0。
具体地,出行链时间信息包括:出行时间、活动时间、出行链开始时间、出行链结束时间、出行链的持续时间、主要活动开始时间、主要活动持续时间、主要活动结束时间、平均活动时间。各个变量的计量单位为分钟。
从上述出行链时间信息提取的特征向量CT包括:(1)出行链的开始时间与全天时间的比例CT1;(2)出行链的持续时间与全天时间的比例CT2;(3)主要活动(即,在出行链的所有活动(除在家休息活动)中持续时间最长的活动)的开始时间与全天时间的比例CT3;(4)主要活动的持续时间与全天时间的比例CT4;(5)所有活动持续时间占出行链持续时间的比例CT5;(6)平均活动持续时间占出行链持续时间的比例CT6;(7)所有分布的活动持续时间与出行链持续时间比例的标准差CT7;(8)主要活动持续时间占出行链所有活动持续时间的比例CT8
下面给出计算CT向量中各个分量CT1-CT8的计算公式:
CT 1 = t 0 1 1440 - - - ( 1 )
CT 2 = t 0 2 - t 0 1 1440 - - - ( 2 )
CT 3 = t main 1 1440 - - - ( 3 )
CT 4 = t main 2 - t main 1 1440 - - - ( 4 )
CT 5 = Σ i ( t i 2 - t i 1 ) t 0 2 - t 0 1 - - - ( 5 )
CT 6 = Σ i ( t i 2 - t i 1 ) ( t 0 2 - t 0 1 ) · N - - - ( 6 )
CT 7 = ( 1 N Σ i = 1 N ( t i 2 - t i 1 - 1 N Σ i = 1 N ( t i 2 - t i 1 ) ) 2 ) 1 2 ( t 0 2 - t 0 1 ) - - - ( 7 )
CT 8 = t main 2 - t main 1 Σ i ( t i 2 - t i 1 ) - - - ( 8 )
以上公式中,
Figure BSA00000462948300113
为出行链开始时间;
Figure BSA00000462948300114
为出行链结束时间;
Figure BSA00000462948300115
为主要活动的开始时间;为主要活动结束时间;
Figure BSA00000462948300117
为第i个活动的开始时间;
Figure BSA00000462948300118
为第i个活动的结束时间;N为不包括在家休息活动的活动总数。
用户出行链的基于空间的向量CS
出行链空间信息描述出行链的空间构成因素,反映了用户出行链在空间方面的特征,包括:出行链的距离长度、出行链中活动之间的距离、出行链半径、活动的离家距离以及回家距离。出行链半径为出行链的空间跨度,即出行链中家与活动之间的最远距离。活动的离家距离为用户从家出发到达活动目的地开始活动所移动的距离;活动回家距离为居民结束活动后从活动地回到家所移动的距离;活动的离家距离和回家距离可以相同也可以不相同。为描述居民出行链的距离长度对活动内容的影响,引入出行链长度的最大距离,通过出行链长度与出行链长度最大距离的比值,将居民出行链长度的数量级与其它出行链特征向量保持相同。
从出行链空间信息提取的特征向量CS包括:(1)出行链长度与出行链长度最大距离(所有出行链长度的最大值)的比例CS1;(2)出行链半径与出行链长度的比例CS2;(3)主要活动的离家距离与出行链长度的比例CS3;(4)包括家的活动之间的相隔距离的平均值与出行链长度的比例CS4;(5)活动之间相隔距离的标准差CS5。计算公式如下:
CS 1 = L L max - - - ( 9 )
CS 2 = L R - - - ( 10 )
CS 3 = l 1 main L - - - ( 11 )
CS 4 = 1 N + 1 - - - ( 12 )
CS 5 = ( 1 N + 1 Σ i = 0 N ( l i , i + 1 - L N + 1 ) 2 ) 1 2 , - - - ( 13 )
以上公式中,L为出行链的长度,
Figure BSA00000462948300125
lN,N+1=LN,0;Lmax为所有出行链长度的最大值;N为除家之外的活动个数;R为出行链半径,
Figure BSA00000462948300126
Figure BSA00000462948300127
为第i个活动的离家距离,
Figure BSA00000462948300128
为第i个活动的回家离家距离;
Figure BSA00000462948300129
为主要活动的离家距离。
活动本身的基于时间的向量AT
活动自身的时间信息描述活动本身的时间构成因素,主要包括:绝对时间特征、相对时间特征、与前后活动的时间特征、与主要活动的时间特征。绝对时间特征是指在全天24小时内活动自身的开始时间、持续时间、结束时间;相对时间特征是指在以家为起点和终点的闭合出行链中活动的开始时间、持续时间、结束时间。
从活动自身时间信息提取的特征向量AT包括:(1)活动的开始时间与全天时间的比例AT1;(2)活动的持续时间与全天时间的比例AT2;(3)活动开始距出行链起点之间时间与整个出行链持续时间的比例AT3;(4)活动的持续时间与整个出行链持续时间的比例AT4;(5)活动开始距上一活动结束之间的时间与整个出行链持续时间的比例AT5;(6)活动结束距下一活动开始之间的时间与整个出行链持续时间的比例AT6;(7)活动的持续时间与主要活动持续时间的比例AT7;(8)活动开始距主要活动结束之间时间与出行链持续时间的比例AT8;(9)主要活动开始距活动结束之间时间与出行链持续时间的比例AT9。第i个活动的向量AT的计算公式如下:
AT 1 = t i 1 1440 - - - ( 14 )
AT 2 = t i 2 - t i 1 1440 - - - ( 15 )
AT 3 = t i 1 - t 0 1 t 0 2 - t 0 1 - - - ( 16 )
AT 4 = t i 2 - t i 1 t 0 2 - t 0 1 - - - ( 17 )
AT 5 = t i 1 - t i - 1 2 t 0 2 - t 0 1 - - - ( 18 )
AT 6 = t i 2 - t i + 1 1 t 0 2 - t 0 1 - - - ( 19 )
AT 7 = t i 2 - t i 1 t main 2 - t main 1 - - - ( 20 )
AT 8 = t i 1 - t main 2 t 0 2 - t 0 1 - - - ( 21 )
AT 9 = t main 1 - t i 2 t 0 2 - t 0 1 - - - ( 22 )
活动本身的基于空间的向量AS
活动自身的空间信息描述活动本身的空间构成因素,主要包括:活动的离家和回家距离特征、与前后活动的距离、与主要活动的距离等。
从活动自身空间信息提取的特征向量AS包括:(1)活动离家距离与整个出行链长度的比例AS1;(2)活动距上一活动之间的出行距离与整个出行链长度的比例AS2;(3)活动距下一活动之间的出行距离与整个出行链长度的比例AS3;(4)活动的回家距离与主要活动回家距离的差与出行链长度的比例AS4;(5)活动的离家距离与主要活动离家距离的差与出行链长度的比例AS5。第i个活动的向量AS的计算公式如下:
AS 1 = l i 1 L - - - ( 23 )
AS 2 = l i - 1 , i L - - - ( 24 )
AS 3 = l i , i + 1 L - - - ( 25 )
AS 4 = l i 2 - i mian 2 L - - - ( 26 )
AS 5 = l i 1 - l mian 1 L - - - ( 27 )
以上公式中,
Figure BSA00000462948300146
为第i个活动的离家距离,
Figure BSA00000462948300147
为第i个活动的回家距离,L为出行链的距离长度,li,i+1为第i个活动的距下一活动的距离,
Figure BSA00000462948300148
为主要活动的离家距离,为主要活动的回家距离。
最后,特征向量提取单元230得到用于识别出行链中的活动类型的特征向量V=(CT,CS,AT,AS)。
用户行为识别单元240根据特征向量提取单元230提取的特征向量V,识别用户的活动类型。在本发明的一个实施例中,采用基于支持向量机(Support Vector Machine,SVM)而设计活动类型的分类器,从活动的多个备选类型中选择正确的类型。例如,采用一对一分类器并根据得到的特征向量V进行活动的判定和识别。当活动类型备选集中的备选项为两条时,选择相应的成对分类器,判断活动的类型。当备选集中的备选项多于两条时,将备选项两两组合,选择相应的两类分类器对每项活动进行判断投票,最后选取票数最多的类型为最终的分类选择,也可以采用票数百份比的方式,给出每条备选类型的百分比。最终,用户行为识别单元240可得到单个用户的行为特征(出行特征和活动特征),如下表4所示:
表4
图5示出了根据本发明另一个实施例的用户行为识别设备50的框图。如图5所示,用户行为识别设备50包括:位置数据接收单元510、数据预处理单元520、特征向量提取单元530、用户行为识别单元540和用户行为汇总单元550。由于用户行为识别设备50中的各个单元510-540与图2所示的用户行为识别设备20中的单元210-240分别相同,为了简便起见,下文仅对用户行为汇总单元550进行详细描述。
用户行为汇总单元550通过用户标识将单个用户的行为特征关联到用户资料数据(例如上文的表2),并对特定区域内的多个用户的数据进行分类和汇总,从而得到该区域的特征信息。表5示出了用户行为汇总单元550经过汇总得到的区域特征信息的一个例子:
Figure BSA00000462948300152
表5
可见,相对于现有技术来说,本发明得到的区域特征信息更加具体,从而提高了城市区域特征识别的精确度。
图6示出了根据本发明一个实施例的用户行为识别方法60的流程图。首先,方法60在步骤S610处开始。
在步骤S620,接收用户位置数据。例如,这些数据可以是通过用户的GPS装置接收的数据、通过手机定位装置接收的数据、或通过无线定位装置接收的数据,等等。在接收到用户位置数据后,按照时间顺序整理用户位置数据,得到基于时间序列的用户位置数据。
在步骤S630,对基于时间序列的用户位置数据进行预处理,判定并获取用户在特定时间内中的出行链和活动区域,并结合数字电子地图上的POI信息得到用户的活动备选地点。
在步骤S640,提取用户的出行特征向量和活动特征向量。其中,出行特征向量包括基于时间的向量CT和基于空间的向量CS,活动特征向量包括基于时间的向量AT和基于空间的向量AS。具体提取过程可参见上文针对图2中的特征向量提取单元230的描述。之后,得到用于识别用户的活动类型的特征向量V=(CT,CS,AT,AS)。
在步骤S650,识别用户的活动类型。优选地,可采用基于支持向量机而设计活动类型的分类器,从活动的多个备选类型中选择正确的类型。例如,采用一对一分类器并根据得到的特征向量V进行活动的判定和识别。当活动类型备选集中的备选项为两条时,选择相应的成对分类器,判断活动的类型。当备选集中的备选项多于两条时,将备选项两两组合,选择相应的两类分类器对每项活动进行判断投票,最后选取票数最多的类型为最终的分类选择,也可以采用票数百份比的方式,给出每条备选类型的百分比。最终,可以得到单个用户的行为特征(出行特征和活动特征)。
备选地,方法60可包括步骤S660(图6中虚线框所示)。在步骤S660,通过用户标识将单个用户的行为特征关联到用户资料数据,并对特定区域内的多个用户的数据进行分类和汇总,从而得到该区域的特征信息(例如表5中所示)。
最后,方法60在步骤S670处结束。如果不执行可选的步骤S660,则方法60在步骤S650之后直接进行到步骤S670并结束。
本发明能够对大量用户的历史数据进行集中处理。通过建立恰当的特征向量,能够分析得到用户深层次的行为特征,使得每个用户的轨迹数据的识别结果更加精确和丰富。另外,本发明基于单个用户轨迹的理解,得到单个用户的行为特征,并且可以通过对一个区域的用户特征进行分类统计而得到一个城市区域内的用户行为特征,从而能够提高城市区域的特征识别的精确度。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。

Claims (16)

1.一种用户行为识别设备,包括:
位置数据接收单元,接收用户位置数据并按照时间顺序进行整理,以获得基于时间序列的用户位置数据;
数据预处理单元,对基于时间序列的用户位置数据进行预处理;
特征向量提取单元,根据预处理后的用户位置数据,提取用于识别用户的活动类型的特征向量;以及
用户行为识别单元,根据特征向量提取单元提取的特征向量来识别用户的活动类型,以获得用户的行为特征;
其中,所述数据预处理单元从基于时间序列的用户位置数据中获取用户的出行链和活动区域,并结合数字电子地图的兴趣点信息获得用户的活动备选地点;
所述特征向量提取单元提取的特征向量包括:针对用户出行链的基于时间的向量和基于空间的向量,以及针对用户活动的基于时间的向量和基于空间的向量。
2.如权利要求1所述的用户行为识别设备,其中,所述基于时间序列的用户位置数据包括:用户标识信息、地理位置信息和时间信息。
3.如权利要求1所述的用户行为识别设备,其中,所述针对用户出行链的基于时间的向量包括:出行链的开始时间与全天时间的比例、出行链的持续时间与全天时间的比例、主要活动的开始时间与全天时间的比例、主要活动的持续时间与全天时间的比例、所有活动持续时间占出行链持续时间的比例、平均活动持续时间占出行链持续时间的比例、所有分布的活动持续时间与出行链持续时间比例的标准差、主要活动持续时间占出行链所有活动持续时间的比例。
4.如权利要求1所述的用户行为识别设备,其中,所述针对用户出行链的基于空间的向量包括:出行链长度与所有出行链长度的最大值的比例、出行链半径与出行链长度的比例、主要活动的离家距离与出行链长度的比例、活动之间相隔距离的平均值与出行链长度的比例、活动之间相隔距离的标准差。
5.如权利要求1所述的用户行为识别设备,其中,所述针对用户活动的基于时间的向量包括:活动的开始时间与全天时间的比例、活动的持续时间与全天时间的比例、活动开始距出行链起点之间的时间与出行链持续时间的比例、活动的持续时间与出行链持续时间的比例、活动开始距上一活动结束之间的时间与出行链持续时间的比例、活动结束距下一活动开始之间的时间与出行链持续时间的比例、活动的持续时间与主要活动持续时间的比例、活动开始距主要活动结束之间的时间与出行链持续时间的比例、主要活动开始距活动结束之间的时间与出行链持续时间的比例。
6.如权利要求1所述的用户行为识别设备,其中,所述针对用户活动的基于空间的向量包括:活动离家距离与出行链长度的比例、活动距上一活动之间的出行距离与出行链长度的比例、活动距下一活动之间的出行距离与出行链长度的比例、活动的回家距离与主要活动回家距离的差与出行链长度的比例、活动的离家距离与主要活动离家距离的差与出行链长度的比例。
7.如权利要求1所述的用户行为识别设备,所述用户行为识别单元包括基于支持向量机的分类器。
8.如权利要求1所述的用户行为识别设备,还包括:
用户行为汇总单元,通过用户标识信息将单个用户的行为特征与用户资料数据相关联,并对特定区域内的多个用户的数据进行汇总,以获得该区域的特征信息。
9.一种用户行为识别方法,包括:
接收用户位置数据并按照时间顺序进行整理,以获得基于时间序列的用户位置数据;
对基于时间序列的用户位置数据进行预处理;
根据预处理后的用户位置数据,提取用于识别用户的活动类型的特征向量;以及
根据所述特征向量来识别用户的活动类型,以获得用户的行为特征;
其中,对基于时间序列的用户位置数据进行预处理的步骤包括:从基于时间序列的用户位置数据中获取用户的出行链和活动区域,并结合数字电子地图的兴趣点信息获得用户的活动备选地点;
所述特征向量包括:针对用户出行链的基于时间的向量和基于空间的向量,以及针对用户活动的基于时间的向量和基于空间的向量。
10.如权利要求9所述的用户行为识别方法,其中,所述基于时间序列的用户位置数据包括:用户标识信息、地理位置信息和时间信息。
11.如权利要求9所述的用户行为识别方法,其中,所述针对用户出行链的基于时间的向量包括:出行链的开始时间与全天时间的比例、出行链的持续时间与全天时间的比例、主要活动的开始时间与全天时间的比例、主要活动的持续时间与全天时间的比例、所有活动持续时间占出行链持续时间的比例、平均活动持续时间占出行链持续时间的比例、所有分布的活动持续时间与出行链持续时间比例的标准差、主要活动持续时间占出行链所有活动持续时间的比例。
12.如权利要求9所述的用户行为识别方法,其中,所述针对用户出行链的基于空间的向量包括:出行链长度与所有出行链长度的最大值的比例、出行链半径与出行链长度的比例、主要活动的离家距离与出行链长度的比例、活动之间相隔距离的平均值与出行链长度的比例、活动之间相隔距离的标准差。
13.如权利要求9所述的用户行为识别方法,其中,所述针对用户活动的基于时间的向量包括:活动的开始时间与全天时间的比例、活动的持续时间与全天时间的比例、活动开始距出行链起点之间的时间与出行链持续时间的比例、活动的持续时间与出行链持续时间的比例、活动开始距上一活动结束之间的时间与出行链持续时间的比例、活动结束距下一活动开始之间的时间与出行链持续时间的比例、活动的持续时间与主要活动持续时间的比例、活动开始距主要活动结束之间的时间与出行链持续时间的比例、主要活动开始距活动结束之间的时间与出行链持续时间的比例。
14.如权利要求9所述的用户行为识别方法,其中,所述针对用户活动的基于空间的向量包括:活动离家距离与出行链长度的比例、活动距上一活动之间的出行距离与出行链长度的比例、活动距下一活动之间的出行距离与出行链长度的比例、活动的回家距离与主要活动回家距离的差与出行链长度的比例、活动的离家距离与主要活动离家距离的差与出行链长度的比例。
15.如权利要求9所述的用户行为识别方法,其中,使用基于支持向量机的分类器根据所述特征向量来识别用户的活动类型,以获得用户的行为特征。
16.如权利要求9所述的用户行为识别方法,还包括:
通过用户标识信息将单个用户的行为特征与用户资料数据相关联,并对特定区域内的多个用户的数据进行汇总,以获得该区域的特征信息。
CN201110077602.3A 2011-03-18 2011-03-18 用户行为识别设备及方法 Active CN102682041B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201110077602.3A CN102682041B (zh) 2011-03-18 2011-03-18 用户行为识别设备及方法
JP2011242424A JP5452568B2 (ja) 2011-03-18 2011-11-04 ユーザ行動認識装置および方法
US13/348,017 US20120239607A1 (en) 2011-03-18 2012-01-11 Device and method for recognizing user behavior

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110077602.3A CN102682041B (zh) 2011-03-18 2011-03-18 用户行为识别设备及方法

Publications (2)

Publication Number Publication Date
CN102682041A CN102682041A (zh) 2012-09-19
CN102682041B true CN102682041B (zh) 2014-06-04

Family

ID=46813987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110077602.3A Active CN102682041B (zh) 2011-03-18 2011-03-18 用户行为识别设备及方法

Country Status (3)

Country Link
US (1) US20120239607A1 (zh)
JP (1) JP5452568B2 (zh)
CN (1) CN102682041B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101836080B (zh) 2007-10-26 2014-12-17 通腾科技股份有限公司 处理定位数据的方法
CN103581235B (zh) * 2012-07-27 2016-02-24 腾讯科技(深圳)有限公司 一种闪屏推送方法及服务器
JP5998945B2 (ja) * 2013-01-10 2016-09-28 富士通株式会社 滞在地点分析方法、滞在地点分析装置、及び滞在地点分析プログラム
US9098991B2 (en) * 2013-01-15 2015-08-04 Fitbit, Inc. Portable monitoring devices and methods of operating the same
JP2014182611A (ja) * 2013-03-19 2014-09-29 Univ Of Tokyo 情報処理装置、情報処理方法及びプログラム
CN103218442A (zh) * 2013-04-22 2013-07-24 中山大学 一种基于移动设备传感器数据的生活模式分析方法及系统
GB201307550D0 (en) * 2013-04-26 2013-06-12 Tomtom Dev Germany Gmbh Methods and systems of providing information indicative of a recommended navigable stretch
CN104581622B (zh) 2013-10-28 2018-09-07 华为技术有限公司 移动用户位置预测方法及设备
CN104636354B (zh) * 2013-11-07 2018-02-06 华为技术有限公司 一种位置兴趣点聚类方法和相关装置
GB2521433A (en) * 2013-12-19 2015-06-24 Daimler Ag Predicting an interface control action of a user with an in-vehicle user interface
CN103996068B (zh) * 2014-05-08 2017-01-25 百度在线网络技术(北京)有限公司 客流分布的统计方法和装置
WO2016067460A1 (ja) * 2014-10-31 2016-05-06 株式会社日立製作所 交通行動推定システム、交通シミュレーションシステム、交通行動推定方法
CN105718460A (zh) * 2014-12-02 2016-06-29 北京四维图新科技股份有限公司 一种基于历史定位信息的数据挖掘方法及装置
CN105989226A (zh) * 2015-02-12 2016-10-05 中兴通讯股份有限公司 一种分析用户轨迹的方法及装置
CN105989087B (zh) * 2015-02-12 2020-02-21 阿里巴巴集团控股有限公司 一种确定热点区域的方法和装置
KR102433931B1 (ko) 2015-07-30 2022-08-19 삼성전자주식회사 움직임 인식 방법 및 움직임 인식 장치
CN106488493B (zh) * 2015-08-24 2020-06-02 阿里巴巴集团控股有限公司 识别用户的网络热点类型的方法和装置及电子设备
CN105608890B (zh) * 2015-09-08 2017-11-03 上海美慧软件有限公司 一种基于手机信号数据的人员出行参数统计方法
CN106611017B (zh) * 2015-10-27 2021-06-29 北京嘀嘀无限科技发展有限公司 一种用户身份识别方法及装置
CN105447467A (zh) * 2015-12-01 2016-03-30 北京航空航天大学 一种用户行为模式的识别系统和识别方法
CN106919888A (zh) * 2015-12-25 2017-07-04 中国移动通信集团公司 一种吃饭行为识别方法、装置及家庭网关
CN105653637A (zh) * 2015-12-28 2016-06-08 苏州大学 一种基于层次结构的兴趣点推荐方法
WO2017120788A1 (zh) * 2016-01-13 2017-07-20 张阳 运动方式的推荐方法及系统
CN105959476A (zh) * 2016-05-11 2016-09-21 上海电机学院 一种移动定位行为数据的采集系统和方法
CN107529135A (zh) * 2016-06-20 2017-12-29 同济大学 基于智能设备数据的用户活动类型判别方法
CN107862862B (zh) * 2016-09-22 2020-11-20 杭州海康威视数字技术股份有限公司 一种车辆行为分析方法及装置
US20200082416A1 (en) * 2017-01-23 2020-03-12 Sony Corporation Information processing apparatus, information processing method, and computer program
CN106971534B (zh) * 2017-02-09 2019-09-06 江苏智通交通科技有限公司 基于号牌数据的通勤出行特征分析方法
CN108733721A (zh) * 2017-04-24 2018-11-02 叶君泰 以行事历实现的活动搜寻方法
CN107396306A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 基于移动终端的用户活动状态识别方法、装置及移动终端
CN108151732A (zh) * 2017-12-22 2018-06-12 浙江西湖高等研究院 一种远程的位置和行为估计方法
CN108985195A (zh) * 2018-06-29 2018-12-11 平安科技(深圳)有限公司 行为识别方法、装置、计算机设备及存储介质
CN109509021B (zh) * 2018-10-22 2021-05-28 武汉极意网络科技有限公司 基于行为轨迹的异常识别方法、装置、服务器及存储介质
CN110059919B (zh) * 2019-03-07 2020-06-12 特斯联(北京)科技有限公司 一种基于大数据的人口异常信息检测方法和系统
CN110427562A (zh) * 2019-08-14 2019-11-08 智慧足迹数据科技有限公司 语义标签划分方法、装置和电子设备
CN112413832B (zh) * 2019-08-23 2021-11-30 珠海格力电器股份有限公司 一种基于用户行为的用户身份识别方法及其电器设备
CN110705477A (zh) * 2019-09-30 2020-01-17 深圳市商汤科技有限公司 行为分析方法、装置、电子设备和计算机存储介质
CN111563190B (zh) * 2020-04-07 2023-03-14 中国电子科技集团公司第二十九研究所 一种区域网络用户行为的多维度分析与监管方法及系统
CN113573242B (zh) * 2020-04-28 2023-03-31 中国移动通信有限公司研究院 重入网用户的识别方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1682254A (zh) * 2002-09-09 2005-10-12 美国普西芬尼公司 定位和追踪人的方法及装置
JP2009043057A (ja) * 2007-08-09 2009-02-26 Nomura Research Institute Ltd 行動履歴分析装置及び方法
CN101398308A (zh) * 2008-10-15 2009-04-01 凯立德欣技术(深圳)有限公司 一种兴趣点检索方法、兴趣点检索装置及导航系统
JP2010198461A (ja) * 2009-02-26 2010-09-09 Nec Corp 関心度計測システム、関心度計測端末、関心度計測方法、及び関心度計測プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885764B2 (en) * 2007-09-06 2011-02-08 GM Global Technology Operations LLC Method for adaptively constructing and revising road maps
US8935195B2 (en) * 2010-05-11 2015-01-13 The Royal Institution For The Advancement Of Learning/Mcgill University Method of identification and devices thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1682254A (zh) * 2002-09-09 2005-10-12 美国普西芬尼公司 定位和追踪人的方法及装置
JP2009043057A (ja) * 2007-08-09 2009-02-26 Nomura Research Institute Ltd 行動履歴分析装置及び方法
CN101398308A (zh) * 2008-10-15 2009-04-01 凯立德欣技术(深圳)有限公司 一种兴趣点检索方法、兴趣点检索装置及导航系统
JP2010198461A (ja) * 2009-02-26 2010-09-09 Nec Corp 関心度計測システム、関心度計測端末、関心度計測方法、及び関心度計測プログラム

Also Published As

Publication number Publication date
JP5452568B2 (ja) 2014-03-26
JP2012198870A (ja) 2012-10-18
US20120239607A1 (en) 2012-09-20
CN102682041A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN102682041B (zh) 用户行为识别设备及方法
CN106096631B (zh) 一种基于手机大数据的流动人口分类识别分析方法
CN105532030B (zh) 用于分析目标实体的移动的装置、系统和方法
Liu et al. A real-time personalized route recommendation system for self-drive tourists based on vehicle to vehicle communication
CN105809292B (zh) 公交ic卡乘客下车站点推算方法
CN111582948B (zh) 一种基于手机信令数据与poi兴趣点的个体行为分析方法
CN103514251A (zh) 信息处理设备、信息处理方法、程序和信息处理系统
CN104156897B (zh) 基于情景感知的室内导览系统
KR20180006875A (ko) 주문형 서비스를 위한 정보를 제공하는 방법들 및 시스템들
Lee et al. Urban spatiotemporal analysis using mobile phone data: Case study of medium-and large-sized Korean cities
US20140370844A1 (en) Method for the automatic detection and labelling of user point of interest
KR101312927B1 (ko) 광고 제공 시스템
Marakkalage et al. Understanding the lifestyle of older population: Mobile crowdsensing approach
CN105045858A (zh) 基于投票的出租车载客点推荐方法
CN103995837A (zh) 一种基于群体足迹的个性化旅游路线规划方法
CN109034187B (zh) 一种用户家庭工作地址挖掘流程
EP3014491B1 (en) Displaying demographic data
CN105894089A (zh) 一种征信模型的建立方法、征信确定方法及对应装置
US20140379476A1 (en) Method and data processing apparatus
US20150006255A1 (en) Determining demographic data
Bwambale et al. Modelling long-distance route choice using mobile phone call detail record data: a case study of Senegal
CN111104468B (zh) 一种基于语义轨迹推断用户活动的方法
Zhang et al. Measuring positive public transit accessibility using big transit data
CN103440278A (zh) 一种数据挖掘系统和方法
CN106157601B (zh) 一种基于移动通信数据的公交客流需求的调查方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant