CN111797292A

CN111797292A - 一种基于uct行为轨迹数据挖掘方法及系统

Info

Publication number: CN111797292A
Application number: CN202010492434.3A
Authority: CN
Inventors: 王中琴; 周俊蓉
Original assignee: Chengdu Fangwei Technology Co ltd
Current assignee: Chengdu Fangwei Technology Co ltd
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-10-20
Anticipated expiration: 2040-06-02
Also published as: CN111797292B

Abstract

本发明公开了一种基于UCT行为轨迹数据信息挖掘方法及系统，其方法主要包括：S1、数据统计，首先将每个人的行为轨迹数据分别进行统计和提取，进入步骤S2；S2、数据分割，其次对轨迹数据按等时长片段进行分割切片，得到其轨迹数据分割为等时长的m份，进入步骤S3；S3、设定回报值，对每一份切片都设定一个回报值，通过回报值数值高低，判断个人对行为轨迹的倾向性，进入步骤S4；S4、输出预测结果值，通过UCT算法，从行为轨迹数据切片中分析出个人行为轨迹的预测值，结束流程。对人群轨迹行为数据的隐藏信息挖掘。如针对人群轨迹数据挖掘“住宿地”，“工作地”等信息，亦或针对人群购物数据挖掘“购物偏好”等信息。

Description

一种基于UCT行为轨迹数据挖掘方法及系统

技术领域

本发明涉及移动通信技术领域，具体而言，涉及一种基于UCT行为轨迹数据信息挖掘方法及系统。

背景技术

通常来讲，人群轨迹行为数据是很不规整的时间序列数据，具备不连续、片段长度不齐整、时效性等特点。针对如此繁杂而大量的数据进行隐藏信息挖掘本身就是很困难的。

在申请号为CN201811126914.7中，公开了一种基于移动通信信令数据的人口行为轨迹数字化编码方法的发明专利。其发明内容包括立足于人口统计学数据、行为数据以及内容数据定向体系，利用多接口的静态及动态数据，对多源数据进行融合，并时间空间化数据；利用上述数据，对用户行为事实与习惯归纳分析，挖掘用户喜好、兴趣，抽象出特征标签，通过特征标签聚类细分用户群，抽取特征标签并进行标准化编码。

专利上述的缺陷在于：1、现有的较为成熟的轨迹数据挖掘算法多为聚类问题型的分析，在语义的转化上不够直接；2、机器学习方法多用于“预测”未来的行为或轨迹模式，与提取隐藏信息有所差异，且机器学习方法需要极高的数据量与计算资源，不易于部署。

发明内容

本申请的主要目的在于提供一种基于UCT行为轨迹数据信息挖掘方法及系统，以解决现有的较为成熟的轨迹数据挖掘算法多为聚类问题型的分析，在语义的转化上不够直接的问题，还解决了目前机器学习方法需要极高的数据量与计算资源，不易于部署的问题。

为了实现上述目的，本发明提供了如下技术：

一种基于UCT对人的行为轨迹数据信息挖掘方法，包括步骤：

S1、数据统计，首先将每个人的行为轨迹数据分别进行统计和提取，进入步骤S2；

S2、数据分割，其次对轨迹数据按等时长片段进行分割切片，得到其轨迹数据分割为等时长的m份，进入步骤S3；

S3、设定回报值，对每一份切片都设定一个回报值，通过回报值数值高低，判断个人对行为轨迹的倾向性，进入步骤S4；

S4、输出预测结果值，通过UCT算法，从行为轨迹数据切片中分析出个人行为轨迹的预测值，结束流程。

对人群轨迹行为数据的隐藏信息挖掘。如针对人群轨迹数据挖掘“住宿地”，“工作地”等信息，亦或针对人群购物数据挖掘“购物偏好”等信息。

与现有技术相比较，本申请能够带来如下技术效果：

1、相较于机器学习方法，本方案节省了大量的计算资源，仅需要很少的算力与存储空间即可完成模型的建立与维护，方便推广部署至大数据。

2、相较于传统的数据挖掘聚类算法，本方案更直接的完成从数据到具备高程度语义信息的转换。

3、算法本身具备“在线学习”的能力，对时间序列型的数据具有很好的适应性；模型可以随数据集共同迭代学习，随着数据集的增加，模型的性能(评价准确性)也会越来越好，并且历史蕴含的信息量反映在了模型的中间量中(参数的Q和n)，即使在数据集里清除了冗余的历史数据，其信息量也保存在了模型里。

附图说明

构成本发明的一部分的附图用来提供对本申请的进一步理解，使得本发明的其它特征、目的和优点变得更明显。本发明的示意性实施例附图及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明一种基于UCT行为轨迹数据挖掘方法的实施流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

“UCT”的全称是Upper Confidence Bound for Tree，指蒙特卡洛树搜索算法中使用置信区间上限值衡量每个树节点的价值。蒙特卡洛树算法MCTS是当下最前沿最火热的树搜索算法，通常被用来解决博弈问题，其最为人所熟知的应用案例便是谷歌Deep Mind公司团队以MCTS算法为核心结合深度学习开发的人工智能AlphaZero与其先代AlphaGo。

实施例1

一种基于UCT行为轨迹数据挖掘方法，包括，

当“目标地”为“工作地”时，我们所需解决的问题被抽象为“从不同的某地中分析出哪个才是最可能的工作地”——不同的“某地”被抽象为离散的“节点”，每个“节点”储存评估价值Q与评估次数N。

以“工作地”问题为例，用户X的工作地可能会不止一个，存在主要工作地，次要工作地等情况。对一系列节点而言，评估价值Q达到一定阈值的节点，才会被认为“很可能”是该用户的工作地。在这些达标的节点中，评估次数n直接反应出该用户在该地点工作的时长，可用于区分主次工作地。

人群轨迹数据包含的信息为：“某人某时某地”。其中不同人不同地的停留时长很可能是不等的，因为“工作地”属于个人化的信息，故而我们首先将不同人的数据分别统计，接着按等时长片段对原始数据进行分割切片。

所采用的UCT算法使用置信区间上限值UCB的计算分为两个部分：鼓励深挖较为成熟区域的Q与鼓励探索未知区域的U，具体表达式为：

其中c是修正系数，p是当前父节点状态下做出该叶子节点选择的先验概率，n与N分别表示父节点与叶子节点的访问次数——因而，对同一父节点的若干子节点而言，访问的越少甚至从未探索过的子节点，其U值越高；

Q代表了一个叶子节点在多次模拟后总结经验得到的长期“动作价值”回报，由每一次模拟中作出选择该叶子节点选择后带来的回报值reward更新，具体表达式为：

对轨迹数据而言，用户X的m份数据，需要对每一份切片都设定一个reward值。Reward反应出行为的倾向性，对“工作地”信息挖掘而言reward越高则该时该地工作行为的倾向性(可能性)越高；预处理完成后的切片数据，每一条包含信息为“某人、某(固定时段长)起止时、某地、reward”。

我们所需解决的问题被数学抽象化为——针对若干“节点”，学习m份切片数据后综合节点的评估价值Q与评估次数N判断出最优的节点；

评估价值Q反应出该节点的倾向性价值，以“工作地”问题为例，则Q越高，该节点作为“工作地”的可能性越高；每个节点的Q随着每一次录入该地点的reward而更新，表达式为：

其中n是评估次数，代表该节点被访问过的次数；

α是价值修正系数，β是时间修正系数，项

的设计参考UCT算法中的探索价值U，意在对长期以“平庸评估价值”记录的节点，考虑累积价值；例如，对某一地点，初始的评估值一般，“不排除作为工作地的可能性”，随着该节点录入的次数增加，即轨迹数据中该用户频繁以一定的工作行为倾向性出现在该地点，则该节点的评估值会逐渐增加至较高的水准；节点的Q与N需要得以储存保留。

就挖掘方法更新学习而言，可进行灵活设置，一方面评估价值Q随着录入数据增加会越来越准，作为历史信息的一种抽象反映；同时，在具体应用时，对于过去久远的冗余的数据产生的Q值，也可截断后从某一时间点开始重新学习，或以权重的形式折算；因此该模型具备在线学习的特性，对随时间增加的时效性数据具备很好的适应性。

实施例2

一种基于UCT行为轨迹数据挖掘方法，包括，

当“目标地”为“住宿地”时，我们所需解决的问题被抽象为“从不同的购物地中分析出哪个才是最可能的长期住宿地”——不同的“住宿地”被抽象为离散的“节点”，每个“节点”储存评估价值Q与评估次数N。

以“住宿地”问题为例，用户X的住宿地可能会不止一个，存在家庭地止、长期居住地、办公地和出差地等情况。对一系列节点而言，评估价值Q达到一定阈值的节点，才会被认为“很可能”是该用户的长期居住地。在这些达标的节点中，评估次数n直接反应出该用户在该地点住宿的时长，可用于区分居住地的住宿特性。

人群轨迹数据包含的信息为：“某人某时某地”。其中不同人不同地的停留时长很可能是不等的，因为“住宿地”属于个人化的信息，故而我们首先将不同人的数据分别统计，接着按等时长片段对原始数据进行分割切片。

对轨迹数据而言，用户X的m份数据，需要对每一份切片都设定一个reward值。Reward反应出行为的倾向性，对“住宿地”信息挖掘而言reward越高则该时该地住宿行为的倾向性(可能性)越高；预处理完成后的切片数据，每一条包含信息为“某人、某(固定时段长)起止时、某地、reward”。

评估价值Q反应出该节点的倾向性价值，以“住宿地”问题为例，则Q越高，该节点作为“住宿地”的可能性越高；每个节点的Q随着每一次录入该地点的reward而更新，表达式为：

其中n是评估次数，代表该节点被访问过的次数；

α是价值修正系数，β是时间修正系数，项

的设计参考UCT算法中的探索价值U，意在对长期以“平庸评估价值”记录的节点，考虑累积价值；例如，对某一地点，初始的评估值一般，“不排除作为住宿地的可能性”，随着该节点录入的次数增加，即轨迹数据中该用户频繁以一定的工作行为倾向性出现在该地点，则该节点的评估值会逐渐增加至较高的水准；节点的Q与N需要得以储存保留。

实施例3

一种基于UCT行为轨迹数据挖掘方法，包括，

当“目标地”为“购物地”时，我们所需解决的问题被抽象为“从不同的购物地中分析出哪个才是用户的购物偏好”——不同的“购物地”被抽象为离散的“节点”，每个“节点”储存评估价值Q与评估次数N。

以“购物偏好”问题为例，用户X的购物地或者购买的物品可能会不止一个或一类，存在最喜欢购物地点和物品、较为喜欢的购物地点和物品等情况。对一系列节点而言，评估价值Q达到一定阈值的节点，才会被认为“很可能”是该用户的喜欢购物地点和物品。在这些达标的节点中，评估次数n直接反应出该用户在该地点购物的次数或者喜欢购买的物品，可用于区分用户的购物偏好的特性。

人群轨迹数据包含的信息为：“某人某时某地”。其中不同人不同地的停留时长很可能是不等的，因为“购物地”属于个人化的信息，故而我们首先将不同人的数据分别统计，接着按等时长片段对原始数据进行分割切片。

对轨迹数据而言，用户X的m份数据，需要对每一份切片都设定一个reward值。Reward反应出行为的倾向性，对“购物地”信息挖掘而言reward越高则该时该地购物行为的倾向性(可能性)越高；预处理完成后的切片数据，每一条包含信息为“某人、某(固定时段长)起止时、某地、reward”。

评估价值Q反应出该节点的倾向性价值，以“购物偏好”问题为例，则Q越高，该节点作为“购物地”的可能性越高；每个节点的Q随着每一次录入该地点的reward而更新，表达式为：

其中n是评估次数，代表该节点被访问过的次数；

α是价值修正系数，β是时间修正系数，项

与现有技术相比较，本申请能够带来如下技术效果：

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于UCT行为轨迹数据挖掘方法，包括，其特征在于，

2.如权利要求1所述的一种基于UCT行为轨迹数据挖掘方法，其特征在于，人群行为轨迹数据包含的信息为：某人、某时和某地，得到不同人不同地的停留时长是不等的。

3.如权利要求1或2所述的一种基于UCT行为轨迹数据挖掘方法，其特征在于，其UCT算法使用置信区间上限值UCB的计算分为两个部分：鼓励深挖成熟区域的Q与鼓励探索未知区域的U，具体表达式为：

其中c是修正系数，p是当前父节点状态下做出该叶子节点选择的先验概率，n与N分别表示父节点与叶子节点的访问次数；

Q代表了一个叶子节点在多次模拟后得到的长期回报值，由每一次模拟中作出选择该叶子节点选择后带来的回报值reward更新，具体表达式为：

4.如权利要求3所述的一种基于UCT行为轨迹数据挖掘方法，其特征在于，返回值设为reward，reward反应出行为的倾向性，对工作地、住宿地和购物地信息挖掘，reward值越高，则该时该地工作、住宿和购物行为的倾向性越高。

5.如权利要求4任一所述的一种基于UCT行为轨迹数据挖掘方法，其特征在于，针对若干树的节点，学习m份切片数据后综合节点的评估价值Q与评估次数N判断出最优的节点；

评估价值Q反应出该节点的倾向性价值表达式为：

其中n是评估次数，代表该节点被访问过的次数，

α是价值修正系数，β是时间修正系数。

6.如权利要求5所述的一种基于UCT行为轨迹数据挖掘方法，其特征在于，挖掘方法能自动更新学习，一方面评估价值Q随着录入数据增加会越来越准，作为历史信息的一种抽象反映；另一方面，对于过去久远的冗余的数据产生的Q值，也可截断后从某一时间点开始重新学习，或以权重的形式折算。

7.如权利要求2或4或5或6所述的一种基于UCT行为轨迹数据挖掘方法，其特征在于，针对在某地所停留的时长和时段，从行为轨迹数据切片中分析出个人行为轨迹的工作地。

8.如权利要求2或4或5或6所述的一种基于UCT行为轨迹数据挖掘方法，其特征在于，针对在某地所停留的时长和时段，从行为轨迹数据切片中分析出个人行为轨迹的住宿地。

9.如权利要求2或4或5或6所述的一种基于UCT行为轨迹数据挖掘方法，其特征在于，针对在某地所停留的时长和时段，从行为轨迹数据切片中分析出个人行为轨迹的购物地。

10.一种基于UCT行为轨迹数据挖掘系统，其特征在于，该系统包括：数据统计模块、数据分割模块、设定回报值模块和输出预测结果模块；

数据统计模块，用于将每个人的行为轨迹数据分别进行统计和提取，将行为轨迹数据传输给数据分割模块；

数据分割模块，用于对轨迹数据按等时长片段进行分割切片，得到其轨迹数据分割为等时长的m份，将分割后的行为轨迹数据传输给设定回报值模块；

设定回报值模块，对每一份切片都设定一个回报值，通过回报值数值高低，判断个人对行为轨迹的倾向性，将设定回报值以后的行为轨迹数据传输给输出预测结果模块；

输出预测结果模块，通过UCT算法，从行为轨迹数据切片中分析出个人行为轨迹的预测值，得到预测结果值。