CN106469181A

CN106469181A - 一种用户行为模式分析方法及装置

Info

Publication number: CN106469181A
Application number: CN201510520355.8A
Authority: CN
Inventors: 李欣; 张献涛; 刘跃虎; 王生; 祁明亮
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Priority date: 2015-08-21
Filing date: 2015-08-21
Publication date: 2017-03-01
Anticipated expiration: 2035-08-21
Also published as: CN106469181B

Abstract

本发明公开了一种用户行为模式识别方法及装置，包括：获取用户的刷卡数据，根据刷卡数据构建N个带有用户标识的数据点，数据点为单个用户在设定时间段内刷卡频率的多时段分布向量，对N个数据点进行聚类，得到k个目标簇；根据目标簇中数据点的用户标识，查找与用户标识对应的用户信息，并根据用户信息，确定用于标记目标簇的用户行为模式的标签信息；建立目标簇的中心点与标签信息的关联关系；将目标簇的中心点确定为表征用户行为模式的向量模型。基于向量模型，以模型去匹配查找其它用户，可以判断出用户的可能类型，以及识别出来有可能同样具备此行为的一些可疑用户，具有足够的甄别能力。

Description

一种用户行为模式分析方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种用户行为模式分析方法及装置。

背景技术

现有技术中针对电子门禁的刷卡记录的大多应用中，只能完成简单的查找操作，例如根据用户的唯一标示(ID)或者时段的信息，在数据记录中筛选出符合条件的记录集合，之后进行手工的分析、制图、操作、研判等。在部分应用中，对于门禁刷卡记录的使用只是停留在对于刷卡次数、重点时段的刷卡频次等简单的指标的统计。例如，对于图书馆进出刷卡记录的使用，对于读者的行为只是局限于提供日均的刷卡频次的统计数据，用于分析进入图书馆的人流数量和总体的变化趋势，为图书馆的日常管理，开放时间等提供规划。因为缺乏相应的分析算法和辅助的工具，仅依据简单的每日刷卡次数或者特殊时段的刷卡次数对门禁刷卡行为的分析方法，存在关注点单一，分析能力有限，效果较差的问题。

因此，面对大量的门禁数据，现有的分析能力有限，仅仅依靠简单的出入频次分析不能有足够的甄别能力，无法对门禁刷卡数据进行深入分析，根据用户的刷卡记录不能识别判断出用户的可能类型，无法真正刻画用户的行为模式。

当前，通过门禁的刷卡记录对刷卡用户的行为模式进行建模分析，尚未有较好的实现方案。

发明内容

本发明实施例提供一种用户行为模式分析方法及装置，用来实现对大量的门禁刷卡数据进行建模分析，达到根据刷卡用户的刷卡数据，识别出刷卡用户的行为模式的要求。

本发明实施例提供一种用于分析用户行为模式的模型的建立方法，包括：

获取用户的刷卡数据，根据所述刷卡数据构建N个带有用户标识的数据点，所述数据点为单个用户在设定时间段内刷卡频率的多时段分布向量，N为大于1的正整数；

对所述N个数据点进行迭代聚类，得到k个目标簇，每个目标簇中的数据点与该数据点归属的目标簇的中心点的相异度不大于该数据点与其他目标簇的中心点的相异度，k为大于1的正整数；

针对每个目标簇，执行：

根据第m个目标簇中数据点的用户标识，查找与所述用户标识对应的用户信息，并根据所述用户信息，确定用于标记所述第m个目标簇的用户行为模式的标签信息，其中，m的取值位于1和k之间；

建立所述第m个目标簇的中心点与所述标签信息的关联关系；

将所述第m个目标簇的中心点确定为表征所述用户行为模式的向量模型。

进一步地，所述对所述N个数据点进行迭代聚类，得到k个目标簇，包括以下步骤：

步骤1：从所述N个数据点中随机选择k个数据点分别作为k个目标簇的中心点，k为设定的目标簇的个数；

步骤2：将除中心点之外的每个数据点划分到与该数据点相异度最小的中心点所在的簇；

步骤3：计算每个簇中各数据点的平均值，将每个簇中离平均值最近的数据点作为新的中心点；

步骤4：重复步骤2和步骤3；若满足迭代次数或者每个簇的中心点不再发生变化，则停止；满足迭代次数或者每个簇的中心点不再发生变化时，得到k个目标簇和k个目标簇的中心点。

进一步地，所述用户信息为用户信息库中存储的，以所述用户标识为索引的用户身份信息；

所述根据目标簇中数据点的用户标识，查找与所述用户标识对应的用户信息，包括：

根据目标簇中数据点的用户标识，在用户信息库中查找与所述用户标识对应的用户信息。

基于上述向量模型的建立方法，本发明实施例提供一种用户行为模式分析方法，包括：

提取待识别用户的刷卡数据，根据所述待识别用户的刷卡数据构建带有用户标识的待识别数据点，所述待识别数据点为待识别用户在设定时间段内刷卡频率的多时段分布向量；

根据所述待识别数据点与标记为不同用户行为模式的k个向量模型之间的相似程度，确定出待识别用户的行为模式，其中，所述k个向量模型是通过对用户刷卡数据进行迭代聚类所得到的k个目标簇的中心点，每一个目标簇的中心点与用于标记该目标簇的用户行为模式的标签信息关联。

进一步地，所述根据所述待识别数据点与标记为不同用户行为模式的k个向量模型之间的相似程度，确定出待识别用户的行为模式，包括：

根据所述待识别数据点与每一个向量模型之间的距离，得到所述待识别数据点与每一个向量模型之间的相似程度；

将与待识别数据点相似度最高的向量模型所代表的用户行为模式确定为待识别用户的行为模式。

本发明实施例还提供一种用户行为模式分析方法，包括：

从获取的用户刷卡数据中选取特征时段内的用户刷卡数据作为备选集合；

统计备选集合中任一用户与其余用户的共现系数，所述共现系数是指在单个用户单次刷卡前后的阈值时间段内，备选集合中其余用户的刷卡次数；

根据第N用户与其余用户的共现系数，建立以所述第N用户为索引，与所述第N用户的相似程度按照由高到低排序的用户列表，N为大于1的正整数；

从以已知用户为索引的用户列表中截取满足相似程度阈值的用户，将满足相似程度阈值的用户确定为与已知用户的行为模式相似的用户，其中，备选集合中包括所述已知用户的刷卡数据。

本发明实施例提供一种用于分析用户行为模式的模型的建立装置，包括：

获取单元，用于获取用户的刷卡数据；

数据构建单元，用于根据所述刷卡数据构建N个带有用户标识的数据点，所述数据点为单个用户在设定时间段内刷卡频率的多时段分布向量，N为大于1的正整数；

聚类单元，用于对所述N个数据点进行迭代聚类，得到k个目标簇，每个目标簇中的数据点与该数据点归属的目标簇的中心点的相异度不大于该数据点与其他目标簇的中心点的相异度，k为大于1的正整数；

标签确定单元，用于根据第m个目标簇中数据点的用户标识，查找与所述用户标识对应的用户信息，并根据所述用户信息，确定用于标记所述第m个目标簇的用户行为模式的标签信息，其中，m的取值位于1和k之间；

标签标记单元，用于建立所述第m个目标簇的中心点与所述标签信息的关联关系；

向量模型确定单元，用于将所述第m个目标簇的中心点确定为表征所述用户行为模式的向量模型。

进一步地，所述聚类单元具体用于执行以下步骤：

步骤2：将除中心点之外的每个数据点划分到离与该数据点相异度最小的中心点所在的簇；

所述标签确定单元具体用于：

本发明实施例提供一种用户行为模式分析装置，包括：

获取单元，用于提取待识别用户的刷卡数据；

数据构建单元，用于根据所述待识别用户的刷卡数据构建带有用户标识的待识别数据点，所述待识别数据点为待识别用户在设定时间段内刷卡频率的多时段分布向量；

分析单元，用于根据所述待识别数据点与标记为不同用户行为模式的k个向量模型之间的相似程度，确定出待识别用户的行为模式，其中，所述k个向量模型是通过对用户刷卡数据进行迭代聚类所得到的k个目标簇的中心点，每一个目标簇的中心点与用于标记该目标簇的用户行为模式的标签信息关联。

进一步地，所述分析单元具体用于：

本发明实施例提供一种用户行为模式分析装置，包括：

获取单元，用于从获取的用户刷卡数据中选取特征时段内的用户刷卡数据作为备选集合；

统计单元，用于统计备选集合中任一用户与其余用户的共现系数，所述共现系数是指在单个用户单次刷卡前后的阈值时间段内，备选集合中其余用户的刷卡次数；

建立单元，用于根据第N用户与其余用户的共现系数，建立以所述第N用户为索引，与所述第N用户的相似程度按照由高到低排序的用户列表，N为大于1的正整数；

确定单元，用于从以已知用户为索引的用户列表中截取满足相似程度阈值的用户，将满足相似程度阈值的用户确定为与已知用户的行为模式相似的用户，其中，备选集合中包括所述已知用户的刷卡数据。

上述实施例中，将用户刷卡数据通过多时段分布向量进行表征，可以进行相似度、聚类等分析计算；采用聚类方法对典型模式进行自动分类学习，可以实现对大量的门禁刷卡数据进行深入的分析，达到对用户刷卡行为进行建模以及分类的要求，通过对用户的行为模式进行抽象的建模表示，可以自动学习到可能的用户行为模式，刻画出了用户的活动规律。本发明将聚类产生的类别与标签信息关联，实现根据用户的刷卡记录识别判断出用户的可能类型。比如，基于门禁数据可以有效的将人群行为进行归纳分类，并与实际人群的背景相结合，可以将一般用户(如正常上班)、特殊背景用户(吸毒用户)以及一些特殊职业的从业者(如早出晚归者、店铺经营者、小区安保)区分开。基于从刷卡记录中自动聚类生成某些用户类别相应的向量模型，以模型或者某重点用户去匹配查找其它用户，可以识别出来有可能同样具备此行为的一些可疑用户，具有足够的甄别能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为发明实施例提供的一种用于分析用户行为模式的向量模型的建立方法的流程图；

图2为本发明实施例提供的一种用户行为模式分析方法的流程图；

图3为本发明实施例提供的另一种用户行为模式分析方法的流程图；

图4为发明实施例提供的一种用于分析用户行为模式的向量模型的建立装置的结构示意图；

图5为本发明实施例提供的一种用户行为模式分析装置的结构示意图；

图6为本发明实施例提供的另一种用户行为模式分析装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

现有分析技术中仅依据简单的每日刷卡次数或者特殊时段的刷卡次数对门禁刷卡行为的分析方法，存在关注点单一，分析能力有限，效果较差的问题。通过门禁的刷卡记录对刷卡用户的行为模式进行建模分析，尚未有较好的实现方案。针对上述问题，本发明首次提出一种用户行为模式分析方法，首次提出利用门禁电子数据对用户的行为进行建模分析。首先对用户的刷卡数据进行抽取，通过构建多时段分布向量，完成用户刷卡数据的形式化表示；通过大量的向量聚类来获取代表性的用户行为模式。具体来说，对刷卡的数据进行聚类分析，将其归类不同的类别，标记不同类别的含义，通过对用户的行为模式进行抽象的建模表示，可以自动学习到可能的用户行为模式，刻画出了用户的活动规律。对于某一人的刷卡数据，可以与已经总结的用户行为模型相匹配搜索，识别出符合这一行为类型的用户。

基于上述发明构思，本发明实施例提供一种如图1所示的用于分析用户行为模式的模型的建立方法，该方法包括：

步骤101，获取用户的刷卡数据，根据刷卡数据构建N个带有用户标识的数据点，数据点为单个用户在设定时间段内刷卡频率的多时段分布向量，N为大于1的正整数；

步骤102，对N个数据点进行迭代聚类，得到k个目标簇，每个目标簇中的数据点与该数据点归属的目标簇的中心点的相异度不大于该数据点与其他目标簇的中心点的相异度，其中，k为大于1的正整数；

步骤103，针对每个目标簇，执行：根据第m个目标簇中数据点的用户标识，查找与所述用户标识对应的用户信息，并根据所述用户信息，确定用于标记所述第m个目标簇的用户行为模式的标签信息，其中，m的取值位于1和k之间；建立所述第m个目标簇的中心点与所述标签信息的关联关系；将所述第m个目标簇的中心点确定为表征所述用户行为模式的向量模型。

上述方法流程中，获取的刷卡数据包括但不限于：时间标识，用户身份标识(比如身份证号)，用户出入状态信息(比如在某个门禁处、进出状态)，刷卡数据一般为日志记录，例如提取到的所有用户的刷卡数据用{log₁,log₂...log_n}表示，n为用户总数目。

电子门禁系统在社区管理中的安装使用，不仅大大提升了警务管理的便利和有效性，同时也积累了海量的人员、房屋、以及刷卡的记录数据，为深入的数据挖掘提供了良好的数据基础。上述方法流程的步骤101中，从电子门禁系统存储的用户刷卡记录中提取用户的刷卡数据。电子门禁系统包括但不限于基于IC卡的门禁系统，基于其他开锁信号(例如指纹，图像，电话号码、短信消息、微信消息或电子邮件)的门禁系统也是适用的。所构建的每一个数据点是指单个用户在设定时间段内刷卡频率的多时段分布向量。将设定时间段按照单位时间长度可以分成多个时间段，因此，用户在设定时间段内刷卡频率的多时段分布向量可以用多维时段分布向量表示，其中每一维时段分布向量表征用户在每个时段内的刷卡频率。根据一个用户在设定时间段内的刷卡数据，构建用户在设定时间段内刷卡频率的多时段分布向量实现了将大量的门禁记录进行简洁的表示，同时可以用于后续相似度、聚类的计算和表示。

下面结合一个具体的例子说明上述步骤101构建数据点的过程。

假设设定时间段为一天，将一天按照小时分为24个时段，每个时段为1小时，例如0点到1点为一个时段，1点到2点为一个时段，以此类推。则单个用户在设定时间段内刷卡频率的多时段分布向量可以表示为24维的时段分布向量，实现对每一用户在24小时内的刷卡频次进行分时段统计。如果一个用户在1个小时内的刷卡次数为N1，在这一天内的刷卡次数是N2，则该用户在这1个时段内的刷卡频率是N1/N2。每一维时段分布向量表征用户在每个时段内的刷卡频率。例如，第0维d0是指用户在0点至1点的刷卡比例，第1维d1是指用户在1点至2点的刷卡比例，依存类推。24维的刷卡时段分布向量表示为：若用表示每一维时段分布向量，则：

其中，HourCount是指单一用户在每个时段(1小时)内的刷卡次数，是指单一用户在设定时间段(一天24小时内)的刷卡总次数。通过这样的方法，对每一个用户的刷卡数据构建成一个24维的时段分布向量，N个用户的刷卡数据，构建出N个24维的时段分布向量，即N个数据点，N为大于1的正整数。将用户刷卡行为通过24小时的时段分布向量进行表征，实现了将大量的门禁记录进行简洁的表示，也可以用于后续相似度、聚类的计算和表示。设定时间段并不局限于1天，多时段并不局限于24个小时，可以根据具体情况确定。例如，设定的时间段也可以是连续的几个小时，也可以是连续的几天。

上述构建的N个数据点是带有用户标识的数据点，用于后续步骤根据用户标识查找数据点的用户信息，用户标识是能够代表用户个人信息的标识，如用来标识用户IC卡的卡号，用户的身份证号，用户电话号码，用户邮箱号，用户微信号或者用户的居住地址等信息的用户标识。

上述步骤102可通过K-means算法对N个数据点进行聚类，得到k个目标簇，k是指定的参数，可能有些聚类的中心并没有太好的代表性，因此，k值一般大于或等于所期望的目标簇的个数。K-means聚类算法不仅对初始中心点敏感，同时簇个数的选择也是影响聚类结果的重要因素，因此，可以根据实际情况确定合适的初始中心点和簇的个数，以达到减少聚类过程的迭代次数，提高聚类效果的目的。

采取K-means(无监督)聚类方法对N个数据点进行聚类，可以实现对N个数据点自动归类，供后续建模使用。具体的，步骤102采用K-means聚类算法对N个数据点进行聚类，包括以下步骤：

步骤1：从N个数据点中随机选择k个数据点作为初始中心点，k为设定的目标簇的个数；

步骤2：将除中心点之外的每个数据点划分到与该数据点相异度最小的中心点所在的簇其中，划分到同一个中心点的点集为一个簇；

步骤3：计算每个簇中点集的平均值，将每个簇中离平均值最近的数据点作为新的中心点，进而得到新的k个中心点；

上述方法流程的步骤103的用户信息为用户信息库中存储的，以用户标识为索引的用户身份信息，可以是预先登记的信息，如用户建卡时采集的个人信息，也可以是后期更新的用户个人信息。用户信息包括用户IC卡的卡号，用户的身份证号，用户电话号码，用户邮箱号，用户微信号或者用户的居住地址等信息，还可包括记录的用户的一些背景信息，例如年龄，职业，病史，或者特殊背景信息。例如，用户信息库中可以包含一些用户的违法犯罪或者特定职业的背景信息。因此，根据目标簇中数据点的用户标识，在用户信息库中可以查找与用户标识对应的用户信息，并根据用户信息，确定用于标记目标簇的用户行为模式的标签信息。

具体的，通过步骤102得到k个目标簇之后，以第m个目标簇为例，根据第m个目标簇中每一数据点的用户标识，在用户信息库中查找每一个数据点对应的用户信息，查看所有用户信息，分析这些用户的行为特性，从所有用户信息中提取出能够代表大多数用户的用户行为模式的标签信息。比如在第2目标簇的数据点对应的所有用户信息中，发现80％的的用户都是有吸毒前科的人，则将“有吸毒前科用户”作为用于标记该目标簇的用户行为模式的标签信息，后续步骤将该目标簇的中心点与该标签信息关联，将第2目标簇的中心点确定为“有吸毒前科用户”行为模式的向量模型，作为吸毒可疑用户的行为代表向量。

通过步骤103，可以建立每一个目标簇的中心点与对应标签信息的关联关系，可以将每一个目标簇进行类别标记，使得每一个目标簇标记一种用户行为模式，不同的目标簇标记了不同的用户行为模式。将每一个目标簇的中心点作为表征每一类用户行为模式的向量模型。因此，根据各种用户的刷卡记录，在聚类的基础上，可以通过类别内包含的重点用户或者嫌疑用户的比例确定标签信息，对分类后的确定的模型进行区分定义，解决了分类后无法得到类别标签的问题。

上述实施例给出了一种建立向量模型的方法，通过对用户刷卡数据进行聚类得到k个目标簇，每一个目标簇的中心点与用于标记该目标簇的用户行为模式的标签信息关联，将每一个目标簇的中心点确定为表征每一类用户行为模式的向量模型，进而得到k个向量模型。基于这k个向量模型，以模型去匹配查找其它用户，可以判断出用户的可能类型，以及识别出来有可能同样具备此行为的一些可疑用户，具有足够的甄别能力。比如，基于门禁数据可以有效的将人群行为进行归纳分类，并与实际人群的背景相结合，可以将不同的类别标记为一般用户(如正常上班)、特殊背景用户(吸毒用户)以及一些特殊职业的从业者(如早出晚归者、店铺经营者、小区安保)。

基于上述实施例建立的代表不同用户行为模式的向量模型，本发明实施例还提供了一种如图2所示的一种用户行为模式分析方法，该方法包括：

步骤201，提取待识别用户的刷卡数据，根据待识别用户的刷卡数据构建带有用户标识的待识别数据点，待识别数据点为待识别用户在设定时间段内刷卡频率的多时段分布向量；

步骤202，根据待识别数据点与标记为不同用户行为模式的k个向量模型之间的相似程度，确定出待识别用户的行为模式，其中，k个向量模型是通过对用户刷卡数据进行聚类所得到的k个目标簇的中心点，每一个目标簇的中心点与用于标记该目标簇的用户行为模式的标签信息关联。

步骤201根据待识别用户的刷卡数据构建待识别用户的待识别数据点的方法参见上述实施例，此处不再累述。

上述方法流程的步骤202包括：根据待识别数据点与每一个向量模型之间的距离，得到待识别数据点与每一个向量模型之间的相似程度；将与待识别数据点相似度最高的向量模型所代表的用户行为模式确定为待识别用户的行为模式。

具体的，待识别数据点与每一个向量模型之间的距离，通过计算待识别数据点与每一个目标簇的中心点之间的距离来确定。

例如，针对前面实例中所列举的构建的数据点用24维的时段分布向量表示，因此，确定的每一个目标簇的中心点用24维的时段分布向量表示，为了计算待识别数据点与每一个目标簇的中心点之间的距离，待识别数据点也用24维的时段分布向量表示。所构建的待识别数据点24维的时段分布向量为每一个目标簇的中心点的时段分布向量为待识别数据点与每一个目标簇的中心点进行距离的计算时，距离的计算公式采用余弦距离Dis，其计算公式如下：

余弦距离Dis是0到1之间的数值，距离接近于1时，待识别数据点与目标簇的中心点越相似；距离接近0时，待识别数据点与目标簇的中心点越不相关。计算待识别数据点与各个中心点之间的距离之后，将待识别数据点与各个中心点之间的距离按照递增或递减进行排序，将余弦距离Dis值最大的中心点作为与待识别数据点相似度最高的向量模型，当然具体实施中也可以根据待识别数据点与各个中心点之间的距离，对每一个向量模型进行打分，将打分最高的向量模型作为与待识别数据点相似度最高的向量模型。确定出与待识别数据点相似度最高的向量模型后，将与待识别数据点相似度最高的向量模型所标记的用户行为模式确定为待识别用户的行为模式。

上述方法流程基于建立的向量模型进行用户行为模式分析，以模型去匹配查找其它用户，可以判断出用户的可能类型，以及识别出来有可能同样具备此行为的一些可疑用户，具有足够的甄别能力。

上述实施例可以实现对大量的门禁刷卡数据进行深入的分析，达到对用户行为进行建模以及分类的要求，通过对用户的行为模式进行抽象的建模表示，可以自动学习到可能的用户行为模式，刻画出了用户的活动规律。本发明可以根据用户的刷卡记录识别判断出用户的可能类型，比如，基于门禁数据可以有效的将人群行为进行归纳分类，并与实际人群的背景相结合，可以将一般用户(如正常上班)、特殊背景用户(吸毒用户)以及一些特殊职业的从业者(如早出晚归者、店铺经营者、小区安保)区分开；从刷卡记录中自动聚类生成某些用户类别相应的用户行为模型，以模型去匹配查找其它用户，可以识别出来有可能同样具备此行为的一些可疑用户，具有足够的甄别能力。

除了上述实施例提出的基于向量模型进行用户行为模式的分析之外，在已知用户的某种行为模式(比如某类用户的特有的行为是夜出昼归)的情况下，如何在海量的用户刷卡数据中查找出与已知用户的行为模式相近的用户的信息，针对这种“对于某个具体的用户，查找与其相似的用户或者用户群”的应用情景，本发明实施例给出了一种“启发式”的解决方案，可以快速进行计算，获取与已知用户的行为模式相似的用户及用户信息。启发式的策略是指：选取重点的时间段(如凌晨时间)，对相关用户的一段时间内的共现情况进行统计，根据交集的数目进行排序，选取比例或者绝对阈值进行截断得到排名靠前的相似用户。启发式策略可以达到比较好的搜索结果。

基于上述发明构思，本发明实施例提供一种如图3所示的一种用户行为模式分析方法，该方法包括：

步骤301，从获取的用户刷卡数据中选取特征时段内的用户刷卡数据作为备选集合S；

其中，可以从关注的重点时段入手，采用这种具有较强区分性的特征时段进行近似性的判断。例如，从获取的用户刷卡数据中，选取凌晨1点至3点的时间区间的用户刷卡数据作为备选集合S。

步骤302，统计备选集合S中任一用户与其余用户的共现系数，共现系数是指在单个用户单次刷卡前后的阈值时间段内，备选集合S中其余用户的刷卡次数；

统计备选集合S中任一用户与其余用户的共现系数时，可以对于集合S中的每个个体s_i，与集合中其余的个体一一比较，在个体si每次刷卡的前后某个时间段内，如果可以找到曾经刷卡的个体s_j，则得到共现对(s_i,s_j)并计数保存，如果个体sj在这个时间段内刷卡次数较多，则计数自增，计数可以保存为用户关系三元组，即(用户甲，用户乙，共现系数)。比如，用户A与备选集合S中用户B的共现系数用(A，B，x)表示，x为共现系数，用户A在凌晨1点30分刷卡，在A刷卡前的15分钟和刷卡后的15分钟内，备选集合S中用户B刷卡2次，用户C刷卡1次，用户D没有刷卡，用户A和用户B、C、D的共现系数可以表示为(A，B，2)，(A，C，1)(A，D，0)。

步骤303，根据第N用户与其余用户的共现系数，建立以第N用户为索引，与第N用户的相似程度按照由高到低排序的用户列表，N为大于1的正整数；

步骤304，从以已知用户为索引的用户列表中截取满足相似程度阈值的用户，将所述满足相似程度阈值的用户确定为与所述已知用户的行为模式相似的用户，其中，备选集合中包括所述已知用户的刷卡数据；

具体的，相似程度阈值是选取的表征相似程度高低的比例值或者阈值。从以已知用户为索引的用户列表中截取满足相似程度阈值的用户，将满足相似程度阈值的用户确定为与已知用户的行为模式重点相似的用户。。

基于以已知用户为索引，与已知用户的相似程度按照由高到低排序的的用户列表，可以取比例(比如排名前1％的用户)或者阈值(比如排名top前10名)来选择出与已知行为模式的用户重点相似的用户或用户群。

上述方法流程中，特征时间段可以是选取的重点时间段，利用关键区间的相似度判断法选取重点的时间段(如凌晨时间)，对相关用户的一段时间内的共现情况进行统计，根据交集的数目进行排序，优于上述实施例基于向量模型进行全量的向量相似度的计算。而且可以实现以某重点用户去匹配查找其它用户，进一步识别出来有可能同样具备此行为的一些可疑用户，具有足够的甄别能力。

针对上述方法流程，本发明实施例还提供一种用于分析用户行为模式的向量模型的建立装置和用户行为模式分析装置，这些装置的具体内容可以参照上述方法实施，在此不再赘述。

如图4所示的一种用于分析用户行为模式的模型的建立装置，该装置包括：

获取单元401，用于获取用户的刷卡数据；

数据构建单元402，用于根据刷卡数据构建N个带有用户标识的数据点，数据点为单个用户在设定时间段内刷卡频率的多时段分布向量，N为大于1的正整数；

聚类单元403，用于对N个数据点进行聚类，得到k个目标簇，使得任一目标簇中数据点的平均值不再发生变化，k为大于1的正整数；

标签确定单元404，用于根据第m个目标簇中数据点的用户标识，查找与所述用户标识对应的用户信息，并根据所述用户信息，确定用于标记所述第m个目标簇的用户行为模式的标签信息，其中，m的取值位于1和k之间；

标签标记单元405，用于建立所述第m个目标簇的中心点与所述标签信息的关联关系；

向量模型确定单元406，用于将所述第m个目标簇的中心点确定为表征所述用户行为模式的向量模型。

进一步地，聚类单元403具体用于执行以下步骤：

步骤2：将除中心点之外的每个数据点划分到与该数据点相异度最小的中心点所在的簇，其中，划分到一个中心点的点集为一个簇；

步骤3：计算每个簇中点集的平均值，将每个簇中离平均值最近的数据点作为新的中心点；

进一步地，用户信息为用户信息库中存储的，以用户标识为索引的用户身份信息；

标签确定单元404具体用于：

根据目标簇中数据点的用户标识，在用户信息库中查找与用户标识对应的用户信息。

如图5所示的一种用户行为模式分析装置，该装置包括：

获取单元501，用于提取待识别用户的刷卡数据；

数据构建单元502，用于根据待识别用户的刷卡数据构建带有用户标识的待识别数据点，待识别数据点为待识别用户在设定时间段内刷卡频率的多时段分布向量；

分析单元503，用于根据待识别数据点与标记为不同用户行为模式的k个向量模型之间的相似程度，确定出待识别用户的行为模式，其中，k个向量模型是通过对用户刷卡数据进行聚类所得到的k个目标簇的中心点，每一个目标簇的中心点与用于标记该目标簇的用户行为模式的标签信息关联。

进一步地，分析单元503具体用于：

根据待识别数据点与每一个向量模型之间的距离，得到待识别数据点与每一个向量模型之间的相似程度；

如图6所示的一种用户行为模式分析装置，包括：

获取单元601，用于从获取的用户刷卡数据中选取特征时段内的用户刷卡数据作为备选集合；

统计单元602，用于统计备选集合中任一用户与其余用户的共现系数，共现系数是指在单个用户单次刷卡前后的阈值时间段内，备选集合中其余用户的刷卡次数；

建立单元603，用于根据第N用户与其余用户的共现系数，建立以第N用户为索引，与第N用户的相似程度按照由高到低排序的用户列表，N为大于1的正整数；

确定单元604，用于从以已知用户为索引的用户列表中截取满足相似程度阈值的用户，将所述满足相似程度阈值的用户确定为与所述已知用户的行为模式相似的用户，其中，备选集合中包括所述已知用户的刷卡数据。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于分析用户行为模式的模型的建立方法，其特征在于，包括：

对所述N个数据点进行迭代聚类，得到k个目标簇，每个目标簇中的数据点与该数据点归属的目标簇的中心点的相异度不大于该数据点与其他目标簇的中心点的相异度，其中，k为大于1的正整数；

针对每个目标簇，执行：

建立所述第m个目标簇的中心点与所述标签信息的关联关系；

2.如权利要求1所述的方法，其特征在于，所述对所述N个数据点进行迭代聚类，得到k个目标簇，包括以下步骤：

3.如权利要求1所述的方法，其特征在于，所述用户信息为用户信息库中存储的，以所述用户标识为索引的用户身份信息；

4.一种用户行为模式分析方法，其特征在于，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述待识别数据点与标记为不同用户行为模式的k个向量模型之间的相似程度，确定出待识别用户的行为模式，包括：

6.一种用户行为模式分析方法，其特征在于，包括：

从以已知用户为索引的用户列表中截取满足相似程度阈值的用户，将所述满足相似程度阈值的用户确定为与所述已知用户的行为模式相似的用户，其中，备选集合中包括所述已知用户的刷卡数据。

7.一种用于分析用户行为模式的模型的建立装置，其特征在于，包括：

获取单元，用于获取用户的刷卡数据；

8.如权利要求7所述的装置，其特征在于，所述聚类单元具体用于执行以下步骤：

9.如权利要求7所述的装置，其特征在于，所述用户信息为用户信息库中存储的，以所述用户标识为索引的用户身份信息；

所述标签确定单元具体用于：

10.一种用户行为模式分析装置，其特征在于，包括：

获取单元，用于提取待识别用户的刷卡数据；

11.如权利要求10所述的装置，其特征在于，所述分析单元具体用于：

12.一种用户行为模式分析装置，其特征在于，包括：

确定单元，用于从以已知用户为索引的用户列表中截取满足相似程度阈值的用户，将所述满足相似程度阈值的用户确定为与已知用户的行为模式相似的用户，其中，备选集合中包括所述已知用户的刷卡数据。