CN112819230A - 一种基于打卡数据的用户打卡地点预测方法及装置 - Google Patents

一种基于打卡数据的用户打卡地点预测方法及装置 Download PDF

Info

Publication number
CN112819230A
CN112819230A CN202110157797.6A CN202110157797A CN112819230A CN 112819230 A CN112819230 A CN 112819230A CN 202110157797 A CN202110157797 A CN 202110157797A CN 112819230 A CN112819230 A CN 112819230A
Authority
CN
China
Prior art keywords
card punching
data
user
card
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110157797.6A
Other languages
English (en)
Inventor
胡璐锦
王坚
刘飞
石炀
张可威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Civil Engineering and Architecture
Original Assignee
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Civil Engineering and Architecture filed Critical Beijing University of Civil Engineering and Architecture
Priority to CN202110157797.6A priority Critical patent/CN112819230A/zh
Publication of CN112819230A publication Critical patent/CN112819230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Abstract

本发明提供一种基于打卡数据的用户打卡地点预测方法及装置。其中,该方法包括:确定待分析的打卡数据,将打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据;或者基于协同过滤模型对打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据,将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的目标用户,并基于所述目标用户对待预测用户的实际打卡地点进行预测。采用本发明公开的方法,能够通过分析用户的各种打卡行为特征及时发现用户的异常行为,对用户在不同时段可能去的地点进行提前预测,有效提高了预测效率和预测精度。

Description

一种基于打卡数据的用户打卡地点预测方法及装置
技术领域
本发明涉及大数据分析技术领域,具体涉及一种基于打卡数据的用户打卡地点预测方法和装置。另外,还涉及一种电子设备及非暂态计算机可读存储介质。
背景技术
随着大数据、人工智能等新技术快速发展,针对特定范围(比如学校范围或者工厂园区范围)内用户行为特征进行分析和异常行为检测成为了当前研究的重点内容。比如通过描述性统计分析、T分布随机邻域嵌入算法、基于机器学习的聚类算法、基于密度峰度的聚类算法、RBM模型和DBN模型以及基于BGLL算法的异常行为分析,可实现对用户的打卡数据、消费数据、充值数据、网络浏览数据等进行挖掘和分析。其中,利用描述性统计的频数分析和交叉频数分析能够反映数据之间的差异程度,检验数据的异常值;利用T分布领域嵌入算法可以将数据进行降维处理;利用聚类算法对用户进行分类,确定各类用户的行为特征;利用BGLL算法能够分析各类用户学习行为特征;利用DBN模型和RBM模型能够分析用户的兴趣特征,监控用户异常行为等,从而可对用户进行有针对性的教育引导。
目前用户行为特征和异常点检测方法,大部分是对用户行为的分析研究,主要针对用户的就餐或消费等数据进行特征分析,研究用户的成绩、兴趣、心理等方面的影响。然而,其在数据方面的局限性较大,不能有效分析用户的各种行为特征。现有技术缺少对用户异常行为的发现以及缺少对用户每日在不同时段可能去的地点进行提前预测,从而及时进行有针对性的教育引导。因此如何设计一种及时、有效的基于打卡数据的用户打卡地点预测方案成为本领域研究的重要课题。
发明内容
为此,本发明提供一种基于打卡数据的用户打卡地点预测方法及装置,以解决现有技术中存在的用户行为特征和异常点检测方法,局限性较高,预测效率和精度较差,导致无法满足实际使用需求的问题。
本发明提供一种基于打卡数据的用户打卡地点预测方法,包括:确定待分析的打卡数据;将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据;其中,所述孤立森林模型是以样本打卡数据、所述样本打卡数据对应的样本分析结果预先训练得到的。
进一步的,所述的基于打卡数据的用户打卡地点预测方法,还包括:获取目标用户预设时间段内的打卡数据集;将所述打卡数据集中的打卡数据按照打卡地点的不同进行分类处理;分类处理完成后,提取预设数量的样本打卡数据;将所述样本打卡数据作为训练样本集对初始孤立森林模型进行训练,得到所述孤立森林模型。
进一步的,所述的基于打卡数据的用户打卡地点预测方法,还包括:基于当前打异常卡地点数据和地点相关性特征,预测下一个相关的异常打卡地点,确定目标用户对应的异常行为轨迹。
本发明还提供一种基于打卡数据的用户打卡地点预测方法,包括:
确定待分析的打卡数据;
基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据;
将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户;
基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
进一步的,所述确定待分析的打卡数据,具体包括:
获得初始打卡数据;
对所述初始打卡数据进行预处理,确定打卡地点数据对应的标识;获得所述待分析的打卡数据;其中,所述初始打卡数据包括用户对应的所述打卡地点数据及相应的打卡频率数据。
进一步的,所述对所述初始打卡数据进行预处理,具体包括:
对所述初始打卡数据中的实际打卡地点进行分组;
针对不同分组按照预设的方式进行加权运算,确定相应的目标打卡地点数据,并对所述目标打卡地点数据进行去除噪声及归一化处理。
相应的,本发明还提供一种基于打卡数据的用户打卡地点预测装置,包括:
打卡数据确定单元,用于确定待分析的打卡数据;
异常打卡数据分析单元,用于将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据;其中,所述孤立森林模型是以样本打卡数据、所述样本打卡数据对应的样本分析结果预先训练得到的。
进一步的,所述的基于打卡数据的用户打卡地点预测装置,还包括:打卡数据预处理单元,用于获取目标用户预设时间段内的打卡数据集;将所述打卡数据集中的打卡数据按照打卡地点的不同进行分类处理;分类处理完成后,提取预设数量的样本打卡数据;将所述样本打卡数据作为训练样本集对初始孤立森林模型进行训练,得到所述孤立森林模型。
进一步的,所述的基于打卡数据的用户打卡地点预测装置,还包括:打卡地点预测单元,用于基于当前打异常卡地点数据和地点相关性特征,预测下一个相关的异常打卡地点,确定目标用户对应的异常行为轨迹。
相应的,本发明还提供一种基于打卡数据的用户打卡地点预测装置,包括:
打卡数据确定单元,用于确定待分析的打卡数据;
打卡数据相似度分析单元,用于基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据;
相似用户确定单元,用于将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户;
打卡地点预测单元,用于基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
进一步的,所述打卡数据确定单元,具体用于:
获得初始打卡数据;
对所述初始打卡数据进行预处理,确定打卡地点数据对应的标识;获得所述待分析的打卡数据;其中,所述初始打卡数据包括用户对应的所述打卡地点数据及相应的打卡频率数据。
进一步的,所述对所述初始打卡数据进行预处理,具体包括:
对所述初始打卡数据中的实际打卡地点进行分组;
针对不同分组按照预设的方式进行加权运算,确定相应的目标打卡地点数据,并对所述目标打卡地点数据进行去除噪声及归一化处理。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的基于打卡数据的用户打卡地点预测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上任意一项所述的基于打卡数据的用户打卡地点预测方法的步骤。
采用本发明所述的基于打卡数据的用户打卡地点预测方法,通过分析用户的各种打卡行为特征及时发现用户的异常行为,对用户在不同时段可能去的地点进行提前预测,有效提高了预测效率和预测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1为本发明实施例提供的第一种基于打卡数据的用户打卡地点预测方法的流程示意图;
图2为本发明实施例提供的第一种基于打卡数据的用户打卡地点预测装置的结构示意图;
图3为本发明实施例提供的第二种基于打卡数据的用户打卡地点预测方法的流程示意图;
图4为本发明实施例提供的第二种基于打卡数据的用户打卡地点预测装置的结构示意图;
图5为本发明实施例提供的一种电子设备的实体结构示意图;
图6为本发明实施例提供的17级某同学打卡数据的示意图;
图7为本发明实施例提供的18级某同学打卡数据的示意图;
图8为本发明实施例提供的19级某同学打卡数据的示意图;
图9为本发明实施例提供的20级某同学打卡数据的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的基于打卡数据的用户打卡地点预测方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的第一种基于打卡数据的用户打卡地点预测方法的流程示意图,具体实现过程包括以下步骤:
步骤101:确定待分析的打卡数据。
在执行本步骤之前,可利用频数统计方法以柱状图的方式展示各类用户打卡数据量的差异;根据对应的时间特征和地点特征以雷达图的方式展示用户的打卡兴趣地点;利用目标区域内热力图的方式展示每个时段的用户对应的打卡聚集点和打卡行为特征。其中,雷达图是用来进行多指标体系比较分析的专业图表,其主要特点是简洁、方便、精确、直观,可以体现较多的数据信息,可以将多维数据投影到平面上,从而实现多维数据的可视化。雷达图的结构:由中心点画出的数条雷达状直线代表各项指标或分类项目,可以长度代表数量大小。雷达图能够从动态和静态两个方面分析用户的打卡状况。静态分析将用户的各个地点的打卡比率、作横向比较;动态分析把用户各个时段的比率作纵向比较,就可以发现用户各地点及各时段的打卡频率的发展变化方向。统计特定时间段内每天各区域地点的打卡数据,绘制雷达图,能够确定经常打卡的地点所在区域。热力图是获取用户行为轨迹的有效数据统计工具,可以清晰的了解到哪些区域的人员更密集,可以冷暖色调来进行区分,颜色越深、面积越大,表明人员越集中和人数越多;反之,则人员比较分散和人数较少。热力图,红色的区域表示分析要素的密度大,而蓝色区域表示分析点的密度小。只要点密集,就会形成聚类区域。实现热力原理为:读取每个像素的alpha值(透明度)做一个颜色映射。从热力图可以大概了解到特定区域(比如校园内)中每个时段各个区域的人员分布情况,热力图能够数据以图形的样式展示出来,其中数据值的大小可以颜色来进行区分。
步骤102:将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据。其中,所述孤立森林模型是以样本打卡数据、所述样本打卡数据对应的样本分析结果预先训练得到的。
在本发明实施例中,利用所述孤立森林模型(Isolation Forest算法)进行预测之前,可预先获取目标用户预设时间段内的打卡数据集;将所述打卡数据集中的打卡数据按照打卡地点的不同进行分类处理;分类处理完成后,提取预设数量的样本打卡数据;将所述样本打卡数据作为训练样本集对初始孤立森林模型进行训练,得到孤立森林模型。
进一步的,将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据。基于当前打异常卡地点数据和地点相关性特征,预测下一个相关的异常打卡地点,进而确定目标用户对应的异常行为轨迹。
需要说明的是,个人异常点检测过程中,孤立森林算法(孤立森林模型)是一种用于挖掘数据的高效的异常检测算法。其适用于连续数据(Continuous numerical data)的异常检测,将异常定义为“容易被孤立的离群点(more likely to be separated)”,其可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀疏的区域表示数据发生在此区域的概率很低,因此可以认为落在这些区域里的数据是异常的。孤立森林模型中的“孤立”(isolation)指的是“把异常点从所有样本中孤立出来”,大多数基于孤立森林模型的异常检测算法会先确定正常点的范围或模式,如果某个点不符合这个模式,或者说不在正常范围内,那么孤立森林模型会将其判定为异常点。
以学校场景为例,异常点检测数据选取过程中,可从17-20年级打卡频繁的人群中速机抽取,比如时间跨度为9月每天的全部打卡数据,此时对应的打卡数据中横轴为时间,纵轴为打卡地点,背景颜色可由浅到深依次代表打卡点聚集度由高到低,每个颜色边缘为一条等高线,黄色与红色虚线代表上课时段,每两条黄线或红线表示一节课。
具体算法步骤可包括第一阶段和第二阶段。
第一阶段:
Step1:X={x1,...,xn}为给定打卡数据集,
Figure BDA0002934428680000081
从X中随机抽取ψ个样本数据点构成X的子集X’放入根节点。
Step2:从d个维度中随机指定一个q维度,在当前打卡数据中随机产生切割点p,min(xij,j=q,xij∈X′)<p<max(xij,j=q,xij∈X′)。
Step3:此切割点p生成了一个超平面,将当前打卡数据空间划分为两个子空间:指定维度小于p的样本数据点放入左子节点,大于或等于p的放入右子节点。
Step4:递归Step2和Step3,直至所有的叶子节点都只有一个样本点或者孤立树已经达到指定的高度。
Step5:循环Step1至Step4,直至生成t个孤立树。
第二阶段:Step1:对于每一个数据点,令其遍历每一棵孤立树,计算数据点在森林中的平均高度,对所有打卡数据点的平均高度h(xi)做归一化处理。异常值分数的计算公式如下所示:
Figure BDA0002934428680000082
其中,
Figure BDA0002934428680000083
以学校场景为例,具体实现步骤可包括:Step1:从数据中分别提取大一至大四每级单个学生的9月全部的打卡数据集。Step2:处理数据,将打卡地点进行分类处理,比如分为宿舍楼,食堂,基础楼,学院楼,图书馆,校门,体育馆,办公楼等位置区域。将时间序列提取相应的打卡数据集,并扩大100倍。Step3:选取100条数据作为训练集带入初始孤立森林模型中。Step4:将待预测的学生全部数据作为测试集带入训练完成的孤立森林模型,从而确定学生的打卡异常点。
相应的,具体可参考图6-9所示,实际预测结果为:打卡地点主要聚集在宿舍楼和食堂,宿舍楼和食堂的打卡地点的区域最浅,基础楼与教学楼的打卡地点略少,主要在比宿舍楼和食堂深一层的区域,图书馆、体育馆和校门的打卡地点主要集中在深色区域,可以判定这些打卡地点为异常数据。从打卡时间分布上看,打卡时间点主要聚集在11点至13点和14点至19点,区域划分以这两个时间段为中心由浅至深划分,但横轴的打卡时间点区域颜色基本为浅色,说明打卡数量较多但打卡时间不固定,将四个年级的打卡数据对比可看出四个年级的打卡数据基本集中在宿舍楼、食堂和教学楼,异常点很少;17级与19级打卡时间相对集中,18级与20级打卡时间较为分散。
采用本发明实施例所述的第一种基于打卡数据的用户打卡地点预测方法,通过分析用户的各种打卡行为特征及时发现用户的异常行为,对用户在不同时段可能去的地点进行提前预测,提高了预测效率和预测精度。
与上述提供的第一种基于打卡数据的用户打卡地点预测方法相对应,本发明还提供第一种基于打卡数据的用户打卡地点预测装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的基于打卡数据的用户打卡地点预测装置的实施例仅是示意性的。请参考图2所示,其为本发明实施例提供的第一种基于打卡数据的用户打卡地点预测装置的结构示意图。
本发明所述的第一种基于打卡数据的用户打卡地点预测装置具体包括如下部分:
打卡数据集获取单元201,用于获取待预测打卡数据集。
算法模型分析处理单元202,用于将所述待预测打卡数据集作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据。
实际打卡地点数据获得单元203,用于获得所述用户对应的实际打卡地点数据。
协同过滤单元204,用于基于协同过滤模型对所述用户对应的实际打卡地点数据进行分析,确定所述用户中打卡地点相似的目标用户;根据所述目标用户之间的打卡地点相似度以及所述目标用户对应的实际打卡地点数据,确定待预测用户的打卡地点数据。
采用本发明实施例所述的第一种基于打卡数据的用户打卡地点预测装置,通过分析用户的各种打卡行为特征及时发现用户的异常行为,对用户在不同时段可能去的地点进行提前预测,有效提高了预测效率和预测精度。
如图3所示,其为本发明实施例提供的第二种基于打卡数据的用户打卡地点预测方法的流程示意图,具体实现过程包括以下步骤:
步骤301:确定待分析的打卡数据。
具体的,首先获得初始打卡数据,对所述初始打卡数据进行预处理,确定打卡地点数据对应的标识,得到所述待分析的打卡数据;其中,所述初始打卡数据包括用户对应的所述打卡地点数据及相应的打卡频率数据。其中,所述对所述初始打卡数据进行预处理,具体包括:对所述初始打卡数据中的实际打卡地点进行分组,对实际打卡地点进行标号;针对不同分组按照预设的方式进行加权运算,确定相应的目标打卡地点数据,并对所述目标打卡地点数据进行去除噪声及归一化处理等,得到所述待分析的打卡数据。
步骤302:基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据。
在本发明实施例中,所述基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据,具体实现过程包括:基于预设的协同过滤模型对用户对应的实际打卡地点数据进行预处理,并对处理后的所述用户对应的实际打卡地点进行标识;根据所述用户在不同打卡地点的打卡频数,确定所述用户之间的打卡地点和频率相似度,从而根据所述打卡地点和频率相似度高低确定所述用户中打卡地点和频率相似的目标用户。
步骤303:将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户。
在具体实施过程中,获取输入的用户编号以及预设的相似用户的个数,根据不同打卡地点的打卡频数计算用户之间的相似度,找到打卡地点和频率相似的用户。计算用户之间的相似度并进行排序,根据打卡地点相似度预测用户下一个可能的打卡地点。
需要说明的是,计算打卡地点和频率相似度需要根据数据特点的不同选择不同的打卡地点相似度计算方法,其中包括但不限于基于杰卡德相似系数(Jaccard similaritycoefficient)或者基于夹角余弦(Cosine)等,在此不做具体限定。
步骤304:基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
与上述提供的第二种基于打卡数据的用户打卡地点预测方法相对应,本发明还提供第二种基于打卡数据的用户打卡地点预测装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的基于打卡数据的用户打卡地点预测装置的实施例仅是示意性的。请参考图4所示,其为本发明实施例提供的第二种基于打卡数据的用户打卡地点预测装置的结构示意图。
本发明所述的第二种基于打卡数据的用户打卡地点预测装置具体包括如下部分:
打卡数据确定单元401,用于确定待分析的打卡数据;
打卡数据相似度分析单元402,用于基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据;
相似用户确定单元403,用于将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户;
打卡地点预测单元404,用于基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
采用本发明实施例所述的第二种基于打卡数据的用户打卡地点预测方法和装置,通过分析用户的各种打卡行为特征及时发现用户的异常行为,对用户在不同时段可能去的地点进行提前预测,有效提高了预测效率和预测精度。
与上述提供的基于打卡数据的用户打卡地点预测方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图5所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)501、存储器(memory)502和通信总线503,其中,处理器501,存储器502通过通信总线503完成相互间的通信。处理器501可以调用存储器502中的逻辑指令,以执行基于打卡数据的用户打卡地点预测方法,该方法包括:确定待分析的打卡数据;将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据;其中,所述孤立森林模型是以样本打卡数据、所述样本打卡数据对应的样本分析结果预先训练得到的;或者基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据;将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户;基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
此外,上述的存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于打卡数据的用户打卡地点预测方法,该方法包括:确定待分析的打卡数据;将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据;其中,所述孤立森林模型是以样本打卡数据、所述样本打卡数据对应的样本分析结果预先训练得到的;或者基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据;将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户;基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于打卡数据的用户打卡地点预测方法,该方法包括:确定待分析的打卡数据;将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据;其中,所述孤立森林模型是以样本打卡数据、所述样本打卡数据对应的样本分析结果预先训练得到的;或者基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据;将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户;基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于打卡数据的用户打卡地点预测方法,其特征在于,包括:
确定待分析的打卡数据;
将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据;
其中,所述孤立森林模型是以样本打卡数据、所述样本打卡数据对应的样本分析结果预先训练得到的。
2.根据权利要求1所述的基于打卡数据的用户打卡地点预测方法,其特征在于,还包括:
获取目标用户预设时间段内的打卡数据集;
将所述打卡数据集中的打卡数据按照打卡地点的不同进行分类处理;分类处理完成后,提取预设数量的样本打卡数据;
将所述样本打卡数据作为训练样本集对初始孤立森林模型进行训练,得到所述孤立森林模型。
3.根据权利要求1所述的基于打卡数据的用户打卡地点预测方法,其特征在于,还包括:基于当前打异常卡地点数据和地点相关性特征,预测下一个相关的异常打卡地点,确定目标用户对应的异常行为轨迹。
4.一种基于打卡数据的用户打卡地点预测方法,其特征在于,包括:
确定待分析的打卡数据;
基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据;
将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户;
基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
5.根据权利要求4所述的基于打卡数据的用户打卡地点预测方法,其特征在于,所述确定待分析的打卡数据,具体包括:
获得初始打卡数据;
对所述初始打卡数据进行预处理,确定打卡地点数据对应的标识;获得所述待分析的打卡数据;其中,所述初始打卡数据包括用户对应的所述打卡地点数据及相应的打卡频率数据。
6.根据权利要求5所述的基于打卡数据的用户打卡地点预测方法,其特征在于,所述对所述初始打卡数据进行预处理,具体包括:
对所述初始打卡数据中的实际打卡地点进行分组;
针对不同分组按照预设的方式进行加权运算,确定相应的目标打卡地点数据,并对所述目标打卡地点数据进行去除噪声及归一化处理。
7.一种基于打卡数据的用户打卡地点预测装置,其特征在于,包括:
打卡数据确定单元,用于确定待分析的打卡数据;
异常打卡数据分析单元,用于将所述待分析的打卡数据作为测试集输入至预设的孤立森林模型中,获得所述孤立森林模型输出的用户的异常打卡地点数据;其中,所述孤立森林模型是以样本打卡数据、所述样本打卡数据对应的样本分析结果预先训练得到的。
8.一种基于打卡数据的用户打卡地点预测装置,其特征在于,包括:
打卡数据确定单元,用于确定待分析的打卡数据;
打卡数据相似度分析单元,用于基于预设的协同过滤模型对所述待分析的打卡数据进行分析,得到用户之间打卡地点和频率的相似度数据;
相似用户确定单元,用于将待预测用户对应的标识信息输入到所述协同过滤模型,根据打卡地点和频率的相似度高低,确定与所述待预测用户对应的打卡地点和频率相似的目标用户;
打卡地点预测单元,用于基于所述目标用户对应的打卡地点数据,对所述待预测用户的实际打卡地点进行预测,得到相应的预测打卡地点。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任意一项所述的基于打卡数据的用户打卡地点预测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的基于打卡数据的用户打卡地点预测方法的步骤。
CN202110157797.6A 2021-02-04 2021-02-04 一种基于打卡数据的用户打卡地点预测方法及装置 Pending CN112819230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110157797.6A CN112819230A (zh) 2021-02-04 2021-02-04 一种基于打卡数据的用户打卡地点预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110157797.6A CN112819230A (zh) 2021-02-04 2021-02-04 一种基于打卡数据的用户打卡地点预测方法及装置

Publications (1)

Publication Number Publication Date
CN112819230A true CN112819230A (zh) 2021-05-18

Family

ID=75861514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110157797.6A Pending CN112819230A (zh) 2021-02-04 2021-02-04 一种基于打卡数据的用户打卡地点预测方法及装置

Country Status (1)

Country Link
CN (1) CN112819230A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011894A (zh) * 2023-03-28 2023-04-25 河北长发铝业股份有限公司 一种铝合金棒生产数据管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829089A (zh) * 2018-12-12 2019-05-31 中国科学院计算技术研究所 基于关联图谱的社交网络用户异常检测方法和系统
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备
CN111929715A (zh) * 2020-06-28 2020-11-13 杭州云起智慧校园科技有限公司 一种用于校徽的定位方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829089A (zh) * 2018-12-12 2019-05-31 中国科学院计算技术研究所 基于关联图谱的社交网络用户异常检测方法和系统
CN111929715A (zh) * 2020-06-28 2020-11-13 杭州云起智慧校园科技有限公司 一种用于校徽的定位方法、装置、设备及存储介质
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孙兰兰;: "位置社交网络中区域多样性增强推荐算法", 兰州工业学院学报 *
李倩;韩斌;汪旭祥;: "基于模糊孤立森林算法的多维数据异常检测方法", 计算机与数字工程 *
王森;: "基于位置社交网络的地点推荐算法", 计算机工程与科学 *
祝彦森: "基于改进 iForest 的学生异常行为检测及分析系统研究", 中国优秀硕士学位论文全文数据库-信息科技辑 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011894A (zh) * 2023-03-28 2023-04-25 河北长发铝业股份有限公司 一种铝合金棒生产数据管理系统

Similar Documents

Publication Publication Date Title
Zhao et al. Spectral feature selection for data mining
CN103577475B (zh) 一种图片自动化分类方法、图片处理方法及其装置
Kočišová et al. Discriminant analysis as a tool for forecasting company's financial health
CN102938054B (zh) 基于视觉注意模型的压缩域敏感图像识别方法
CN108038627B (zh) 一种对象评估方法及装置
CN107545038B (zh) 一种文本分类方法与设备
CN110493262B (zh) 一种改进分类的网络攻击检测方法及系统
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN110503099B (zh) 基于深度学习的信息识别方法及相关设备
Briz-Redón et al. Reestimating a minimum acceptable geocoding hit rate for conducting a spatial analysis
CN113065474A (zh) 行为识别方法、装置及计算机设备
CN111506637A (zh) 一种基于kpi指标的多维异常检测方法、装置及存储介质
KR102163718B1 (ko) 설문조사 부정 응답자 판별 ai 프로그램
Chaudhari et al. Student performance prediction system using data mining approach
CN112016618A (zh) 一种用于对图像语义分割模型泛化能力的度量方法
CN115438102A (zh) 时空数据异常识别方法、装置和电子设备
CN112819230A (zh) 一种基于打卡数据的用户打卡地点预测方法及装置
CN110598794A (zh) 一种分类对抗的网络攻击检测方法及系统
CN114140663A (zh) 一种基于多尺度注意力学习网络的害虫识别方法及系统
CN111753642B (zh) 一种确定关键帧的方法及装置
CN111415081A (zh) 企业数据处理方法及装置
CN116340815A (zh) 一种基于卷积神经网络的高校异常行为学生识别方法
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN111160263B (zh) 一种获取人脸识别阈值的方法及系统
CN113516205A (zh) 基于人工智能的数据分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination