CN110544132A - 用户常活动位置的确定方法、装置、设备和存储介质 - Google Patents

用户常活动位置的确定方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110544132A
CN110544132A CN201910843822.9A CN201910843822A CN110544132A CN 110544132 A CN110544132 A CN 110544132A CN 201910843822 A CN201910843822 A CN 201910843822A CN 110544132 A CN110544132 A CN 110544132A
Authority
CN
China
Prior art keywords
login
login information
cluster
time
target cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910843822.9A
Other languages
English (en)
Other versions
CN110544132B (zh
Inventor
成梭宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Himalaya Technology Co Ltd
Original Assignee
Shanghai Himalaya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Himalaya Technology Co Ltd filed Critical Shanghai Himalaya Technology Co Ltd
Priority to CN201910843822.9A priority Critical patent/CN110544132B/zh
Publication of CN110544132A publication Critical patent/CN110544132A/zh
Application granted granted Critical
Publication of CN110544132B publication Critical patent/CN110544132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0261Targeted advertisements based on user location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种用户常活动位置的确定方法、装置、设备和存储介质。该方法包括:获取用户第一预设数量的第一登录信息;采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;当第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;当目标簇的可信度大于预设值时,根据目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。该方法确定的用户常活动位置的准确性更高,降低了确定的用户常活动位置与用户实际的常活动位置之间的偏差。

Description

用户常活动位置的确定方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户常活动位置的确定方法、装置、设备和存储介质。
背景技术
随着大数据技术的不断发展,通过大数据分析可以为用户更精准得推送业务。例如,利用用户的播放行为进行专辑的个性化推荐,通过用户的点击、播放行为进行广告的精准推送等。
在推送业务的过程中,首先需要估计用户的经常活动位置,然后基于用户的经常活动位置为用户推送相关的业务。但是,传统技术中估计的用户的常活动位置与用户实际的常活动位置之间的偏差仍较大。
发明内容
基于此,有必要针对传统技术中估计的用户的常活动位置与用户实际的常活动位置之间的偏差仍较大的技术问题,提供一种用户常活动位置的确定方法、装置、设备和存储介质。
一种用户常活动位置的确定方法,包括:
获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
一种用户常活动位置的确定装置,包括:
第一获取模块,用于获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
聚类模块,用于采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
第一确定模块,用于当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
第二确定模块,用于当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
本申请实施例提供的用户常活动位置的确定方法、装置、设备和存储介质,在确定用户常活动位置的过程中,计算机设备分别计算了第一聚类结果中的目标簇的可信度,以及目标簇的时间,并保留可信度大于预设值的目标簇,并基于保留的目标簇的时间以及保留的目标簇中包含的所有第一登录信息的登录位置信息,来确定用户常活动位置,使得确定的用户常活动位置的准确性更高,大大降低了确定的用户的常活动位置与用户实际的常活动位置之间的偏差。
附图说明
图1为一实施例提供的计算机设备的内部结构示意图;
图2为一实施例提供的用户常活动位置的确定方法流程示意图;
图3为另一实施例提供的用户常活动位置的确定方法流程示意图;
图4为另一实施例提供的用户常活动位置的确定方法流程示意图;
图5为另一实施例提供的用户常活动位置的确定方法流程示意图;
图6为另一实施例提供的用户常活动位置的确定方法流程示意图;
图7为另一实施例提供的用户常活动位置的确定方法流程示意图;
图8为另一实施例提供的用户常活动位置的确定方法流程示意图;
图9为另一实施例提供的用户常活动位置的确定方法流程示意图;
图10为另一实施例提供的用户常活动位置的确定方法流程示意图;
图11为一实施例提供的用户常活动位置的确定装置的内部结构示意图。
具体实施方式
本发明实施例提供的用户常活动位置的确定方法,可以适用于如图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器,该存储器中存储有计算机程序,处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选的,该计算机设备还可以包括网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。可选的,计算机设备可以为个人计算机PC(personal computer)、移动终端、便携式设备等具有数据处理功能、且可以与外部设备或者用户交互的电子设备,本实施例对计算机设备的具体形式并不做限定。
需要说明的是,下述方法实施例的执行主体可以是用户常活动位置的确定装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述计算机设备的部分或者全部。下述方法实施例以执行主体是计算机设备为例进行说明。
为了使本申请的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本申请实施例中的技术方案进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
图2为一实施例提供的用户常活动位置的确定方法流程示意图。本实施例涉及的是计算机设备如何根据用户的登录信息确定用户常活动位置的具体过程。具体的,如图2所示,该方法可以包括:
S101、获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上。
具体的,上述登录位置信息可以为登录位置的经纬度、也可以为登录位置的坐标,本实施例对此不做限定。登录标记时间用于表征用户是白天登录的应用软件,还是晚上登录的应用软件。以登录位置信息为登录位置的经纬度为例,用户在安装应用软件并授权计算机设备可以获取用户的登录位置信息之后,当用户登录应用软件时,计算机设备便可以通过全球卫星定位系统等定位装置获取到用户登录应用软件的登录位置经纬度。上述第一预设数量可以根据实际需求进行设置,为了能够更准确的确定用户常活动位置,可以选择登录应用软件较为频繁的用户进行分析,故而可以将第一预设数量设置的较大一些,例如,将第一预设数量设置为100条。
计算机设备可以从本设备的数据库中获取用户第一预设数量的第一登录信息,也可以从其它外部设备处获取用户第一预设数量的第一登录信息,本实施例对此不做限定。
S102、采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果。
具体的,预设的聚类算法可以为具有噪声的基于密度的聚类方法(Density-BasedSpatial Clustering of Applications with Noise,DBSCAB),也可以为Kmeans(K均值)算法,当然,也可以为其它聚类算法,本实施例对此不做限定。以聚类算法为DBSCAB为例,由于DBSCAB采用的聚类参数(如扫描半径和最小包含点数)不同,因此,聚类后得到的第一聚类结果会不同,即第一聚类结果可以为0个簇、1个簇、2个簇或者大于2个簇。
S103、当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间。
具体的,目标簇为第一聚类结果中包含的簇,目标簇的可信度用于表征目标簇被判断正确的信心程度。由于在工作日用户常活动位置为办公场所和家庭,通常用户白天的常活动位置为办公场所,晚上的常活动位置为家庭,因此,目标簇中包含的白天的第一登录信息数量或者晚上的第一登录信息数量越高,则该目标簇被判断正确的信心程度越高,即该目标簇的可信度越高。上述目标簇的时间用于表征目标簇为白天簇或者晚上簇。
当第一聚类结果为0个簇时,停止确定该用户的常活动位置。当第一聚类结果为1个簇时,该簇为目标簇,根据该目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及该目标簇中包含的所有第一登录信息数量,确定该目标簇的可信度和该目标簇的时间。当第一聚类结果为2个簇或者大于2个簇时,即第一聚类结果中包含的各个簇为目标簇,针对每个目标簇,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及各个目标簇中包含的所有第一登录信息数量,确定目标簇的可信度和目标簇的时间。
当第一聚类结果为大于2个簇时,为了提高计算机设备的性能,可选的,在上述根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及目标簇中包含的所有第一登录信息数量,确定目标簇的可信度之前,还包括:分别计算所述第一聚类结果中的每个簇包含的第一登录信息数量;选取包含第一登录信息数量最多的两个簇作为所述目标簇。
在第一聚类结果为大于2个簇时,计算机设备从各个簇中选取包含第一登录信息数量最多的两个簇作为目标簇,将其它簇丢弃,后续只需分别确定这两个目标簇的可信度和这两个目标簇的时间即可,不用对第一聚类结果中包含的所有簇进行簇的可信度和簇的时间的计算,大大减少了计算机设备的运算量,从而提高了计算机设备的性能。
S104、当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
具体的,上述预设值可以根据实际需求进行相应的设置。为了提高确定的用户常活动位置的准确性,可将上述预设值设置为70%。当目标簇的可信度小于或等于预设值时,说明该目标簇被判断为正确的信心程度较低,则计算机设备将该目标簇丢弃,只保留那些被判断为正确的信心程度较高的目标簇,即保留那些可信度大于预设值的目标簇,基于这些可信度较高的目标簇确定用户常活动位置。
用户在工作日主要的常活动位置为办公场所和家庭,通常白天的常活动位置为办公场所,晚上的常活动位置为家庭。在目标簇的可信度大于预设值时,当目标簇的时间为白天簇时,计算机设备确定用户的常活动位置为办公场所,且可以根据目标簇中包含的所有第一登录信息的登录位置信息确定办公场所的具体位置(如具体经纬度)。当目标簇的时间为晚上簇时,计算机设备确定用户的常活动位置为家庭,且可以根据目标簇中包含的所有第一登录信息的登录位置信息确定家庭的具体位置(如具体经纬度)。
可选的,计算机设备根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置可以包括:计算机设备根据所述目标簇中包含的所有第一登录信息的登录位置信息,计算所述目标簇的质心,并根据所述目标簇的时间和所述目标簇的质心,确定用户常活动位置。
具体的,计算机设备根据目标簇中包含的所有第一登录信息的登录位置信息的平均值,计算目标簇的质心。以登录位置信息为登录位置的经纬度为例,计算机设备根据目标簇中包含的各个第一登录信息的经度,计算所有第一登录信息的经度的平均值,根据目标簇中包含的各个第一登录信息的纬度,计算所有第一登录信息的纬度的平均值,将所有第一登录信息的经度的平均值和所有第一登录信息的纬度的平均值作为目标簇的质心。
在确定了用户常活动位置之后,计算机设备便可以为用户推荐更为精准的内容。
本实施例提供的用户常活动位置的确定方法,在确定用户常活动位置的过程中,计算机设备分别计算了第一聚类结果中的目标簇的可信度,以及目标簇的时间,并保留可信度大于预设值的目标簇,并基于保留的目标簇的时间以及保留的目标簇中包含的所有第一登录信息的登录位置信息,来确定用户常活动位置,使得确定的用户常活动位置的准确性更高,大大降低了确定的用户的常活动位置与用户实际的常活动位置之间的偏差。
作为一种可选的实施方式,如图3所示,上述S103中确定目标簇的可信度的过程可以为:
S201、根据所述目标簇中包含的白天的第一登录信息数量、以及所述目标簇中包含的所有第一登录信息数量,计算白天的第一登录信息比例。
其中,计算机设备将目标簇中包含的白天的第一登录信息数量与目标簇中包含的所有第一登录信息数量的比值,确定为白天的第一登录信息比例。
S202、根据所述目标簇中包含的晚上的第一登录信息数量,以及所述目标簇中包含的所有第一登录信息数量,计算晚上的第一登录信息比例。
其中,计算机设备将目标簇中包含的晚上的第一登录信息数量与目标簇中包含的所有第一登录信息数量的比值,确定为晚上的第一登录信息比例。
S203、将所述白天的第一登录信息比例和所述晚上的第一登录信息比例中较大的一个比例,确定为所述目标簇的可信度。
其中,在得到目标簇中白天的第一登录信息比例和晚上的第一登录信息比例之后,计算机设备从白天的第一登录信息比例和晚上的第一登录信息比例中选择一个较大的比例,作为目标簇的可信度。
在本实施例中,计算机设备分别计算了目标簇中的白天的第一登录信息比例和晚上的第一登录信息比例,并将白天的第一登录信息比例和晚上的第一登录信息比例中选择一个较大的比例作为目标簇的可信度,此计算方式使得确定的目标簇的可信度的准确性较高。
作为一种可选的实施方式,如图4所示,上述S103中确定目标簇的时间的过程可以为:
S301、根据所述目标簇中包含的白天的第一登录信息数量、以及所述目标簇中包含的所有第一登录信息数量,计算白天的第一登录信息比例。
S302、根据所述目标簇中包含的晚上的第一登录信息数量,以及所述目标簇中包含的所有第一登录信息数量,计算晚上的第一登录信息比例。
S303、将所述白天的第一登录信息比例和所述晚上的第一登录信息比例中较大的一个比例所对应的第一登录信息的登录标记时间,确定为所述目标簇的时间。
例如,假设目标簇中白天的第一登录信息比例为70%,晚上的第一登录信息比例为30%,则计算机设备将比例为70%所对应的第一登录信息的登录标记时间“白天”作为目标簇的时间,即计算机设备确定的目标簇的时间为白天。
在本实施例中,在确定目标簇的时间时,目标簇中哪一类第一登录信息的占比越高,将该类第一登录信息的登录标记时间确定为目标簇的时间,此计算方式使得确定的目标簇的时间的准确性较高。
在实际应用中,可能存在这样的一种情况,计算机设备确定的两个目标簇的时间相同,即计算机设备确定的两个目标簇均为白天簇或者晚上簇,针对此情况,可以参照下述如图5所示的过程确定用户常活动位置。在上述实施例的基础上,可选的,如图5所示,上述根据所述目标簇的时间和所述目标簇的质心,确定用户常活动位置包括:
S401、从两个所述目标簇中选取包含第一登录信息数量最多的目标簇作为最终目标簇。
S402、根据所述最终目标簇的时间和所述最终目标簇的质心,确定用户常活动位置。
在本实施例中,当两个目标簇的时间相同时,计算机设备根据包含第一登录信息数量最多的目标簇的时间和包含第一登录信息数量最多的目标簇的质心,确定用户常活动位置,由于包含的第一登录信息数量越多,说明该用户集中在该目标簇的可能性越高,因此,利用该目标簇的时间和该目标簇的质心所确定的用户常活动位置的准确性较高。
在实际应用中,由于用户登录应用软件时,计算机设备获取的是用户登录应用软件的登录位置信息和登录时间,因此,在上述实施例的基础上,可选的,在上述S101之前,如图6所示,该方法还包括:
S501、获取用户登录应用软件的登录记录,其中,所述登录记录包括登录时间和登录位置信息。
其中,当用户登录应用软件时,计算机设备便可以实时获取用户登录应用软件的登录记录。当然,计算机设备可以将实时获取的登录记录保存在数据库中,当需要确定用户常活动位置时,从数据库中获取用户的登录记录。
S502、根据所述登录时间和预设的时间标记规则,对所述登录记录进行标记,得到所述登录记录的登录标记时间,并将所述登录记录的登录标记时间和所述登录位置信息作为所述第一登录信息。
其中,由于用户在工作日的上班时间一般为9:00~17:00,且用户在工作日的常活动位置主要为办公场所和家庭,白天上班时间用户常活动位置为办公场所,晚上下班时间用户常活动位置为家庭,同时为了防止获取的用户的第一登录信息集中在某一个小时间段内,进而影响确定结果的准确性,因此,预设的时间标记规则可以为:在每个小时之内最多选取一次用户的登录记录,若登录记录的登录时间为周一到周五10:00~16:00,则将该登录记录的登录标记时间标记为白天,若登录记录的登录时间为周一到周五6:00之前或22:00之后,则将该登录记录的登录标记时间标记为晚上,其它登录时间的登录记录可不用标记(对于登录时间为周六周天的登录记录,由于用户白天可能在外逛街或者加班,晚上可能在外过夜,这些位置并不属于用户常活动位置,因此该时间段的登录记录也不用标记)。
例如,用户在周一8:00、11:00、11:30、11:45、11:50、12:00、18:10、22:30分别登录了应用软件,计算机设备将登录时间为11:00、12:00的登录记录的登录标记时间标记为白天,将登录时间为22:30的登录记录的登录标记时间标记为晚上,其余登录时间的登录记录不进行标记。
在计算机设备得到登录记录的登录标记时间之后,计算机设备将登录标记时间和登录位置信息作为第一登录信息。
在本实施例中,由于在对用户的登录记录进行时间标记时,计算机设备所选择的时间标记规则结合了用户的生活作息习惯,并考虑了选择的登录记录的时间集中对分析结果的影响,因此,所选择的时间标记规则的可信性较高,使得在确定用户常活动位置时所选取的样本数据(此样本数据为用户第一预设数量的第一登录信息)比较合理,从而进一步提高了所确定的用户常活动位置的准确性。
在一个实施例中,为了进一步提高确定的用户常活动位置的准确性,还需要对预设的聚类算法进行训练,得到参数最优的聚类算法。在上述实施例的基础上,可选的,如图7所示,在上述S102之前,该方法还包括:
S601、获取多个用户的第二预设数量的第二登录信息。
其中,第二登录信息包括登录应用软件的登录位置信息和登录标记时间。针对每个用户,获取用户的第二预设数量的第二登录信息可以参照上述S101中的描述,本实施例在此不再赘述。
可选的,在计算机设备获取多个用户的第二预设数量的第二登录信息之前,还包括:获取多个用户登录应用软件的登录记录;针对每个用户,根据所述登录时间和预设的时间标记规则,对所述登录记录进行标记,得到所述登录记录的登录标记时间,并将所述登录记录的登录标记时间和所述登录位置信息作为所述第二登录信息,其中,所述登录记录包括登录时间和登录位置信息。
S602、通过所述第二登录信息,对预设的分析算法进行训练,得到聚类参数实际值,其中,所述分析算法包括聚类参数初始值。
其中,针对每个用户,采用分析算法对用户的第二登录信息的登录位置信息进行聚类,得到聚类结果,然后基于每个用户的聚类结果确定聚类参数实际值。以预设的分析算法为DBSCAB为例,分析算法的聚类参数包括扫描半径和最小包含点数,计算机设备采用多个用户的第二登录信息,对DBSCAB进行训练,便可以得到扫描半径的实际值以及最小包含点数的实际值。
S603、将所述分析算法的聚类参数初始值调整为所述聚类参数实际值,得到所述聚类算法。
本实施例提供的用户常活动位置的确定方法,在确定用户常活动位置之前,计算机设备采用多个用户的第二登录信息对预设的分析算法进行了训练,得到在实际分析过程中使用的聚类算法,该聚类算法中的聚类参数是通过多次训练得到的最优值,因此,采用经过训练后得到的聚类算法进行聚类分析,进一步提高了分析结果的准确性。
作为一种可选的实施方式,当上述分析算法为DBSCAB时,如图8所示,上述S602可以包括:
S701、采用预设的DBSCAB算法,分别对每个用户的第二登录信息的登录位置信息进行聚类,得到第二聚类结果。
其中,针对每个用户,采用预设的DBSCAB算法,对用户的第二登录信息的登录位置信息进行聚类,得到第二聚类结果。由于DBSCAB采用的聚类参数(如扫描半径和最小包含点数)不同,因此,聚类后得到的第二聚类结果会不同,即每个用户的第二聚类结果可以为0个簇、1个簇、2个簇或者大于2个簇。
S702、计算第一比例以及每个簇的时间可信度,所述第一比例用于表征所述第二聚类结果为2个簇或1个簇的用户比例,所述时间可信度用于表征所述簇中包含的白天的第二登录信息比例或者所述簇中包含的晚上的第二登录信息比例。
其中,计算机设备统计第二聚类结果为2个簇或1个簇的用户数,并计算第二聚类结果为2个簇或1个簇的用户数与总的用户数的比值,该比值即为第一比例。
上述簇的时间可信度表示从时间上来看,该簇被判断正确的信心程度。针对第二聚类结果中的每个簇,计算机设备根据簇中包含的白天的第二登录信息数量和簇中包含的所有第二登录信息数量之间的比值,确定该簇包含的白天的第二登录信息比例,并根据簇中包含的晚上的第二登录信息数量和簇中包含的所有第二登录信息数量之间的比值,确定该簇包含的晚上的第二登录信息比例,然后将白天的第二登录信息比例和晚上的第二登录信息比例中较大的一个比例,确定为该簇的时间可信度。
S703、根据所述第一比例和所述每个簇的时间可信度,确定评估指标的目标值。
其中,评估指标的目标值为评估指标的期望值,该评估指标的期望值所对应的聚类参数的值最优。
可选的,上述S703可以包括:根据所述每个簇的时间可信度,计算所有簇的时间可信度均值confidence_ratio_avg1;根据如下公式确定评估指标的目标值target1:target1=A*clusters_ratio+B*confidence_ratio_avg1。
其中,clusters_ratio为所述第一比例,A的取值范围为[0,1],B的取值范围为[0,1],且所述A与所述B的和等于1。计算机设备可以根据每个簇的时间可信度的算术平均值,计算所有簇的时间可信度均值confidence_ratio_avg1。在实际应用中,在确定评估指标的目标值target1的过程中,可以根据第一比例clusters_ratio和所有簇的时间可信度均值confidence_ratio_avg1所占的权重,确定A和B的取值。比如,confidence_ratio_avg1所占的权重较高,则可以将B的取值设置的较高一些(如B的取值为0.7),A的取值设置的相对较低一些(如B的取值为0.3)。
S704、根据所述评估指标的目标值,调整所述聚类参数的值,得到所述聚类参数实际值。
其中,计算机设备得到评估指标的目标值之后,将评估指标的目标值与预设的阈值进行比对,若评估指标的目标值大于或等于预设的阈值,则将该评估指标的目标值所对应的聚类参数的值,确定为聚类参数实际值。若评估指标的目标值小于预设的阈值,则调整该评估指标的目标值所对应的聚类参数的值,并继续执行上述S701至S704,直至评估指标的目标值大于或等于预设的阈值为止,将此时刻评估指标的目标值所对应的聚类参数的值,确定为聚类参数实际值。
本实施例提供的用户常活动位置的确定方法,在确定用户常活动位置之前,计算机设备采用多个用户的第二登录信息对预设的DBSCAB算法进行了训练,并通过评估指标的目标值是否达到收敛条件,作为对DBSCAB算法训练的停止条件,从而使得训练后的DBSCAB算法中的聚类参数的值为最优值,因此,采用经过训练后的DBSCAB算法进行聚类分析,进一步提高了分析结果的准确性。
作为另种可选的实施方式,当所述分析算法为Kmeans算法时,如图9所示,上述S602可以包括:
S801、采用预设的Kmeans算法,分别对每个用户的第二登录信息的登录位置信息进行聚类,得到第三聚类结果。
其中,由于用户在工作日的常活动位置为两个位置(办公场所和家庭),因此可以预先将Kmeans算法中的K值设置为2。针对每个用户,采用Kmeans算法,对用户的第二登录信息的登录位置信息进行聚类,得到第三聚类结果。由于Kmeans算法中的K值设置为2,因此每个用户的第三聚类结果为2个簇。
S802、分别计算所述第三聚类结果中的每个簇的距离可信度和所述每个簇的时间可信度,其中,所述距离可信度用于表征所述簇中与质心距离小于预设值的第二登录信息的比例,所述时间可信度用于表征所述簇中包含的白天的第二登录信息比例或者所述簇中包含的晚上的第二登录信息比例。
具体的,簇的距离可信度表示从距离上来看,该簇被判断正确的信心程度。针对每个簇,计算机设备根据簇中包含的所有第二登录信息的登录位置信息,计算簇的质心,然后计算簇中与质心距离小于预设值的第二登录信息数量,并计算与质心距离小于预设值的第二登录信息数量与簇中包含的所有第二登录信息数量间的比值,该比值即为该簇的距离可信度。
簇的时间可信度表示从时间上来看,该簇被判断正确的信心程度。针对第二聚类结果中的每个簇,计算机设备根据簇中包含的白天的第二登录信息数量和簇中包含的所有第二登录信息数量间的比值,确定该簇包含的白天的第二登录信息比例,并根据簇中包含的晚上的第二登录信息数量和簇中包含的所有第二登录信息数量间的比值,确定该簇包含的晚上的第二登录信息比例,然后将白天的第二登录信息比例和晚上的第二登录信息比例中较大的一个比例,确定为该簇的时间可信度。
S803、根据所述每个簇的距离可信度和所述每个簇的时间可信度,确定评估指标的目标值。
其中,评估指标的目标值为评估指标的期望值,该评估指标的期望值所对应的聚类参数的值最优。
可选的,上述S803可以包括:根据所述每个簇的距离可信度,计算所有簇的距离可信度均值distance_confidence_ratio_avg;根据所述每个簇的时间可信度,计算所有簇的时间可信度均值confidence_ratio_avg2;根据如下公式确定评估指标的目标值target2:target2=C*distance_confidence_ratio_avg+D*confidence_ratio_avg2。
其中,C的取值范围为[0,1],D的取值范围为[0,1],且所述C与所述D的和等于1。计算机设备可以根据每个簇的距离可信度的算术平均值,计算所有簇的距离可信度均值distance_confidence_ratio_avg,根据每个簇的时间可信度的算术平均值,计算所有簇的时间可信度均值confidence_ratio_avg2。在实际应用中,在确定评估指标的目标值target2的过程中,可以根据所有簇的距离可信度均值distance_confidence_ratio_avg和所有簇的时间可信度均值confidence_ratio_avg2所占的权重,确定C和D的取值。比如,distance_confidence_ratio_avg所占的权重较高,则可以将C的取值设置的较高一些(如C的取值为0.7),D的取值设置的相对较低一些(如D的取值为0.3)。
S804、根据所述评估指标的目标值,调整所述聚类参数的值,得到所述聚类参数实际值。
其中,计算机设备得到评估指标的目标值之后,将评估指标的目标值与预设的阈值进行比对,若评估指标的目标值大于或等于预设的阈值,则将该评估指标的目标值所对应的聚类参数的值,确定为聚类参数实际值。若评估指标的目标值小于预设的阈值,则调整该评估指标的目标值所对应的聚类参数的值,并继续执行上述S801至S804,直至评估指标的目标值大于或等于预设的阈值为止,将此时刻评估指标的目标值所对应的聚类参数的值,确定为聚类参数实际值。
本实施例提供的用户常活动位置的确定方法,在对用户常活动位置确定前,计算机设备采用多个用户的第二登录信息对预设的Kmeans算法进行了训练,并通过评估指标的目标值是否达到收敛条件,作为对Kmeans算法训练的停止条件,从而使得训练后的Kmeans算法中的聚类参数的值为最优值,因此,采用经过训练后的Kmeans算法进行聚类分析,进一步提高了分析结果的准确性。
为了便于本领域技术人员的理解,以下对计算机设备确定用户常活动位置的过程进行详细介绍,如图10所示,该方法可以包括:
S901、获取多个用户的第二预设数量的第二登录信息。
S902、通过所述第二登录信息,对预设的分析算法进行训练,得到聚类参数实际值,其中,所述分析算法包括聚类参数初始值。
S903、将所述分析算法的聚类参数初始值调整为所述聚类参数实际值,得到所述聚类算法。
S904、获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上。
S905、采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果。
S906、当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间。
可选的,当所述第一聚类结果中包含的簇的个数大于2时,在上述S906中根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度之前,该方法还包括:分别计算所述第一聚类结果中的每个簇包含的第一登录信息数量;选取包含第一登录信息数量最多的两个簇作为目标簇。
可选的,上述S906中确定目标簇的可信度的过程可以为:根据所述目标簇中包含的白天的第一登录信息数量、以及所述目标簇中包含的所有第一登录信息数量,计算白天的第一登录信息比例;根据所述目标簇中包含的晚上的第一登录信息数量,以及所述目标簇中包含的所有第一登录信息数量,计算晚上的第一登录信息比例;将所述白天的第一登录信息比例和所述晚上的第一登录信息比例中较大的一个比例,确定为所述目标簇的可信度。
上述S906中确定目标簇的时间的过程可以为:根据所述目标簇中包含的白天的第一登录信息数量、以及所述目标簇中包含的所有第一登录信息数量,计算白天的第一登录信息比例;根据所述目标簇中包含的晚上的第一登录信息数量,以及所述目标簇中包含的所有第一登录信息数量,计算晚上的第一登录信息比例;将所述白天的第一登录信息比例和所述晚上的第一登录信息比例中较大的一个比例所对应的第一登录信息的登录标记时间,确定为所述目标簇的时间。
S907、当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
可选的,上述S907中根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置包括:根据所述目标簇中包含的所有第一登录信息的登录位置信息,计算所述目标簇的质心;根据所述目标簇的时间和所述目标簇的质心,确定用户常活动位置。
当两个所述目标簇的时间相同时,所述根据所述目标簇的时间和所述目标簇的质心,确定用户常活动位置包括:从两个所述目标簇中选取包含第一登录信息数量最多的目标簇作为最终目标簇;根据所述最终目标簇的时间和所述最终目标簇的质心,确定用户常活动位置。
本实施例提供的用户常活动位置的确定方法,在确定用户常活动位置的过程中,计算机设备分别计算了第一聚类结果中的目标簇的可信度,以及目标簇的时间,并保留可信度大于预设值的目标簇,并基于保留的目标簇的时间以及保留的目标簇中包含的所有第一登录信息的登录位置信息,来确定用户常活动位置,使得确定的用户常活动位置的准确性更高,大大降低了确定的用户的常活动位置与用户实际的常活动位置之间的偏差。
应该理解的是,虽然图2至图10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图10中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图11为一实施例提供的用户常活动位置的确定装置内部结构示意图。如图11所示,该装置包括:第一获取模块10、聚类模块11、第一确定模块12和第二确定模块13。
具体的,第一获取模块10用于获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
聚类模块11用于采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
第一确定模块12用于当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
第二确定模块13用于当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
本实施例提供的用户常活动位置的确定装置,在确定用户常活动位置的过程中,计算机设备分别计算了第一聚类结果中的目标簇的可信度,以及目标簇的时间,并保留可信度大于预设值的目标簇,并基于保留的目标簇的时间以及保留的目标簇中包含的所有第一登录信息的登录位置信息,来确定用户常活动位置,使得确定的用户常活动位置的准确性更高,大大降低了确定的用户的常活动位置与用户实际的常活动位置之间的偏差。
可选的,上述第一确定模块12具体用于根据所述目标簇中包含的白天的第一登录信息数量、以及所述目标簇中包含的所有第一登录信息数量,计算白天的第一登录信息比例;根据所述目标簇中包含的晚上的第一登录信息数量,以及所述目标簇中包含的所有第一登录信息数量,计算晚上的第一登录信息比例;将所述白天的第一登录信息比例和所述晚上的第一登录信息比例中较大的一个比例,确定为所述目标簇的可信度。
可选的,上述第一确定模块12具体用于根据所述目标簇中包含的白天的第一登录信息数量、以及所述目标簇中包含的所有第一登录信息数量,计算白天的第一登录信息比例;根据所述目标簇中包含的晚上的第一登录信息数量,以及所述目标簇中包含的所有第一登录信息数量,计算晚上的第一登录信息比例;将所述白天的第一登录信息比例和所述晚上的第一登录信息比例中较大的一个比例所对应的第一登录信息的登录标记时间,确定为所述目标簇的时间。
可选的,上述第二确定模块13包括第一计算单元和第一确定单元。
具体的,第一计算单元用于根据所述目标簇中包含的所有第一登录信息的登录位置信息,计算所述目标簇的质心;
第一确定单元用于根据所述目标簇的时间和所述目标簇的质心,确定用户常活动位置。
在上述实施例的基础上,可选的,当所述第一聚类结果中包含的簇的个数大于2时,该装置还包括:计算模块和选取模块。
具体的,计算模块用于在所述第一确定模块12根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度之前,分别计算所述第一聚类结果中的每个簇包含的第一登录信息数量;
选取模块用于选取包含第一登录信息数量最多的两个簇作为所述目标簇。
可选的,当两个所述目标簇的时间相同时,上述第一确定单元具体用于从两个所述目标簇中选取包含第一登录信息数量最多的目标簇作为最终目标簇;根据所述最终目标簇的时间和所述最终目标簇的质心,确定用户常活动位置。
本实施例提供的用户常活动位置的确定装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在上述实施例的基础上,可选的,该装置还包括:第二获取模块和处理模块。
具体的,第二获取模块用于在第一获取模块10获取用户第一预设数量的第一登录信息之前,获取用户登录应用软件的登录记录,其中,所述登录记录包括登录时间和登录位置信息;
处理模块用于根据所述登录时间和预设的时间标记规则,对所述登录记录进行标记,得到所述登录记录的登录标记时间,并将所述登录记录的登录标记时间和所述登录位置信息作为所述第一登录信息。
在上述实施例的基础上,可选的,该装置还包括:第三获取模块、训练模块和调整模块。
具体的,第三获取模块用于在所述聚类模块11采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果之前,获取多个用户的第二预设数量的第二登录信息;
训练模块用于通过所述第二登录信息,对预设的分析算法进行训练,得到聚类参数实际值,其中,所述分析算法包括聚类参数初始值;
调整模块用于将所述分析算法的聚类参数初始值调整为所述聚类参数实际值,得到所述聚类算法。
可选的,当所述分析算法为DBSCAB时,上述训练模块包括:第一聚类单元、第二计算单元、第二确定单元和第一调整单元。
具体的,第一聚类单元用于采用预设的DBSCAB算法,分别对每个用户的第二登录信息的登录位置信息进行聚类,得到第二聚类结果;
第二计算单元用于计算第一比例以及每个簇的时间可信度,所述第一比例用于表征所述第二聚类结果为2个簇或1个簇的用户比例,所述时间可信度用于表征所述簇中包含的白天的第二登录信息比例或者所述簇中包含的晚上的第二登录信息比例;
第二确定单元用于根据所述第一比例和所述每个簇的时间可信度,确定评估指标的目标值;
第一调整单元用于根据所述评估指标的目标值,调整所述聚类参数的值,得到所述聚类参数实际值。
可选的,第二确定单元具体用于根据所述每个簇的时间可信度,计算所有簇的时间可信度均值confidence_ratio_avg1;根据如下公式确定评估指标的目标值target1:target1=A*clusters_ratio+B*confidence_ratio_avg1,其中,clusters_ratio为所述第一比例,A的取值范围为[0,1],B的取值范围为[0,1],且所述A与所述B的和等于1。
本实施例提供的用户常活动位置的确定装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选的,当所述分析算法为Kmeans算法时,上述训练模块包括:第二聚类单元、第三计算单元、第三确定单元和第二调整单元。
具体的,第二聚类单元用于采用预设的Kmeans算法,分别对每个用户的第二登录信息的登录位置信息进行聚类,得到第三聚类结果;
第三计算单元用于分别计算所述第三聚类结果中的每个簇的距离可信度和所述每个簇的时间可信度,其中,所述距离可信度用于表征所述簇中与质心距离小于预设值的第二登录信息的比例,所述时间可信度用于表征所述簇中包含的白天的第二登录信息比例或者所述簇中包含的晚上的第二登录信息比例;
第三确定单元用于根据所述每个簇的距离可信度和所述每个簇的时间可信度,确定评估指标的目标值;
第二调整单元用于根据所述评估指标的目标值,调整所述聚类参数的值,得到所述聚类参数实际值。
可选的,第三确定单元具体用于根据所述每个簇的距离可信度,计算所有簇的距离可信度均值distance_confidence_ratio_avg;根据所述每个簇的时间可信度,计算所有簇的时间可信度均值confidence_ratio_avg2;根据如下公式确定评估指标的目标值target2:target2=C*distance_confidence_ratio_avg+D*confidence_ratio_avg2,其中,C的取值范围为[0,1],D的取值范围为[0,1],且所述C与所述D的和等于1。
在一个实施例中,提供了一种计算机设备,该计算机设备的内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户常活动位置的确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
上述实施例中提供的用户常活动位置的确定装置、计算机设备以及存储介质可执行本申请任意实施例所提供的用户常活动位置的确定方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的用户常活动位置的确定方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种用户常活动位置的确定方法,其特征在于,包括:
获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度,包括:
根据所述目标簇中包含的白天的第一登录信息数量、以及所述目标簇中包含的所有第一登录信息数量,计算白天的第一登录信息比例;
根据所述目标簇中包含的晚上的第一登录信息数量,以及所述目标簇中包含的所有第一登录信息数量,计算晚上的第一登录信息比例;
将所述白天的第一登录信息比例和所述晚上的第一登录信息比例中较大的一个比例,确定为所述目标簇的可信度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的时间,包括:
根据所述目标簇中包含的白天的第一登录信息数量、以及所述目标簇中包含的所有第一登录信息数量,计算白天的第一登录信息比例;
根据所述目标簇中包含的晚上的第一登录信息数量,以及所述目标簇中包含的所有第一登录信息数量,计算晚上的第一登录信息比例;
将所述白天的第一登录信息比例和所述晚上的第一登录信息比例中较大的一个比例所对应的第一登录信息的登录标记时间,确定为所述目标簇的时间。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置,包括:
根据所述目标簇中包含的所有第一登录信息的登录位置信息,计算所述目标簇的质心;
根据所述目标簇的时间和所述目标簇的质心,确定用户常活动位置。
5.根据权利要求1至4中任一项所述的方法,其特征在于,当所述第一聚类结果中包含的簇的个数大于2时,在所述根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度之前,还包括:
分别计算所述第一聚类结果中的每个簇包含的第一登录信息数量;
选取包含第一登录信息数量最多的两个簇作为所述目标簇。
6.根据权利要求5所述的方法,其特征在于,当两个所述目标簇的时间相同时,所述根据所述目标簇的时间和所述目标簇的质心,确定用户常活动位置,包括:
从两个所述目标簇中选取包含第一登录信息数量最多的目标簇作为最终目标簇;
根据所述最终目标簇的时间和所述最终目标簇的质心,确定用户常活动位置。
7.根据权利要求1至4中任一项所述的方法,其特征在于,在所述获取用户第一预设数量的第一登录信息之前,还包括:
获取用户登录应用软件的登录记录,其中,所述登录记录包括登录时间和登录位置信息;
根据所述登录时间和预设的时间标记规则,对所述登录记录进行标记,得到所述登录记录的登录标记时间,并将所述登录记录的登录标记时间和所述登录位置信息作为所述第一登录信息。
8.根据权利要求1至4中任一项所述的方法,其特征在于,在所述采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果之前,还包括:
获取多个用户的第二预设数量的第二登录信息;
通过所述第二登录信息,对预设的分析算法进行训练,得到聚类参数实际值,其中,所述分析算法包括聚类参数初始值;
将所述分析算法的聚类参数初始值调整为所述聚类参数实际值,得到所述聚类算法。
9.根据权利要求8所述的方法,其特征在于,当所述分析算法为具有噪声的基于密度的聚类方法DBSCAB时,所述通过所述第二登录信息,对预设的分析算法进行训练,得到聚类参数实际值,包括:
采用预设的DBSCAB算法,分别对每个用户的第二登录信息的登录位置信息进行聚类,得到第二聚类结果;
计算第一比例以及每个簇的时间可信度,所述第一比例用于表征所述第二聚类结果为2个簇或1个簇的用户比例,所述时间可信度用于表征所述簇中包含的白天的第二登录信息比例或者所述簇中包含的晚上的第二登录信息比例;
根据所述第一比例和所述每个簇的时间可信度,确定评估指标的目标值;
根据所述评估指标的目标值,调整所述聚类参数的值,得到所述聚类参数实际值。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一比例和所述每个簇的时间可信度,确定评估指标的目标值,包括:
根据所述每个簇的时间可信度,计算所有簇的时间可信度均值confidence_ratio_avg1;
根据如下公式确定评估指标的目标值target1:
target1=A*clusters_ratio+B*confidence_ratio_avg1,
其中,clusters_ratio为所述第一比例,A的取值范围为[0,1],B的取值范围为[0,1],且所述A与所述B的和等于1。
11.根据权利要求8所述的方法,其特征在于,当所述分析算法为K均值Kmeans算法时,所述通过所述第二登录信息,对预设的分析算法进行训练,得到聚类参数实际值,包括:
采用预设的Kmeans算法,分别对每个用户的第二登录信息的登录位置信息进行聚类,得到第三聚类结果;
分别计算所述第三聚类结果中的每个簇的距离可信度和所述每个簇的时间可信度,其中,所述距离可信度用于表征所述簇中与质心距离小于预设值的第二登录信息的比例,所述时间可信度用于表征所述簇中包含的白天的第二登录信息比例或者所述簇中包含的晚上的第二登录信息比例;
根据所述每个簇的距离可信度和所述每个簇的时间可信度,确定评估指标的目标值;
根据所述评估指标的目标值,调整所述聚类参数的值,得到所述聚类参数实际值。
12.根据权利要求11所述的方法,其特征在于,所述根据所述每个簇的距离可信度和所述每个簇的时间可信度,确定评估指标的目标值,包括:
根据所述每个簇的距离可信度,计算所有簇的距离可信度均值distance_confidence_ratio_avg;
根据所述每个簇的时间可信度,计算所有簇的时间可信度均值confidence_ratio_avg2;
根据如下公式确定评估指标的目标值target2:
target2=C*distance_confidence_ratio_avg+D*confidence_ratio_avg2,
其中,C的取值范围为[0,1],D的取值范围为[0,1],且所述C与所述D的和等于1。
13.一种用户常活动位置的确定装置,其特征在于,包括:
第一获取模块,用于获取用户第一预设数量的第一登录信息,其中,所述第一登录信息包括登录应用软件的登录位置信息和登录标记时间,所述登录标记时间为白天或晚上;
聚类模块,用于采用预设的聚类算法,对所述第一登录信息的登录位置信息进行聚类,得到第一聚类结果;
第一确定模块,用于当所述第一聚类结果中包含的簇的个数大于0时,根据目标簇中包含的白天的第一登录信息数量、晚上的第一登录信息数量以及所述目标簇中包含的所有第一登录信息数量,确定所述目标簇的可信度和所述目标簇的时间;
第二确定模块,用于当所述目标簇的可信度大于预设值时,根据所述目标簇的时间和所述目标簇中包含的所有第一登录信息的登录位置信息,确定用户常活动位置。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述方法的步骤。
CN201910843822.9A 2019-09-06 2019-09-06 用户常活动位置的确定方法、装置、设备和存储介质 Active CN110544132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910843822.9A CN110544132B (zh) 2019-09-06 2019-09-06 用户常活动位置的确定方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910843822.9A CN110544132B (zh) 2019-09-06 2019-09-06 用户常活动位置的确定方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110544132A true CN110544132A (zh) 2019-12-06
CN110544132B CN110544132B (zh) 2023-04-07

Family

ID=68712866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910843822.9A Active CN110544132B (zh) 2019-09-06 2019-09-06 用户常活动位置的确定方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110544132B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611500A (zh) * 2020-04-09 2020-09-01 中国平安财产保险股份有限公司 一种基于聚类的常去地识别方法及装置、存储介质
CN112347214A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 目标区域划分方法、装置、电子设备及存储介质
CN117390708A (zh) * 2023-12-11 2024-01-12 南京向日葵大数据有限公司 一种隐私数据安全保护方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636354A (zh) * 2013-11-07 2015-05-20 华为技术有限公司 一种位置兴趣点聚类方法和相关装置
CN106936806A (zh) * 2015-12-31 2017-07-07 阿里巴巴集团控股有限公司 一种账户异常登录的识别方法和装置
CN108076012A (zh) * 2016-11-14 2018-05-25 百度在线网络技术(北京)有限公司 异常登录判断方法及装置
CN108763538A (zh) * 2018-05-31 2018-11-06 北京嘀嘀无限科技发展有限公司 一种确定兴趣点poi地理位置的方法及装置
CN108804507A (zh) * 2018-04-16 2018-11-13 北京嘀嘀无限科技发展有限公司 用户的住址位置确定方法及系统
CN108966340A (zh) * 2017-05-17 2018-12-07 腾讯科技(深圳)有限公司 一种设备定位方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636354A (zh) * 2013-11-07 2015-05-20 华为技术有限公司 一种位置兴趣点聚类方法和相关装置
CN106936806A (zh) * 2015-12-31 2017-07-07 阿里巴巴集团控股有限公司 一种账户异常登录的识别方法和装置
CN108076012A (zh) * 2016-11-14 2018-05-25 百度在线网络技术(北京)有限公司 异常登录判断方法及装置
CN108966340A (zh) * 2017-05-17 2018-12-07 腾讯科技(深圳)有限公司 一种设备定位方法及装置
CN108804507A (zh) * 2018-04-16 2018-11-13 北京嘀嘀无限科技发展有限公司 用户的住址位置确定方法及系统
CN108763538A (zh) * 2018-05-31 2018-11-06 北京嘀嘀无限科技发展有限公司 一种确定兴趣点poi地理位置的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611500A (zh) * 2020-04-09 2020-09-01 中国平安财产保险股份有限公司 一种基于聚类的常去地识别方法及装置、存储介质
CN112347214A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 目标区域划分方法、装置、电子设备及存储介质
WO2022095351A1 (zh) * 2020-11-06 2022-05-12 平安科技(深圳)有限公司 目标区域划分方法、装置、电子设备及存储介质
CN117390708A (zh) * 2023-12-11 2024-01-12 南京向日葵大数据有限公司 一种隐私数据安全保护方法及系统
CN117390708B (zh) * 2023-12-11 2024-02-23 南京向日葵大数据有限公司 一种隐私数据安全保护方法及系统

Also Published As

Publication number Publication date
CN110544132B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110544132B (zh) 用户常活动位置的确定方法、装置、设备和存储介质
CN110210604B (zh) 一种终端设备移动轨迹预测方法及装置
US20180229723A1 (en) Feedback-Based Control Model Generation For An Autonomous Vehicle
WO2022105111A1 (zh) 区域画像图生成方法、装置、计算机设备及存储介质
CN110595017B (zh) 空调温度设置方法、装置、计算机设备和存储介质
EP3243168A1 (en) Predicting and utilizing variability of travel times in mapping services
CN108829766B (zh) 一种兴趣点推荐方法、系统、设备及计算机可读存储介质
JP6543215B2 (ja) 目的地予測装置、目的地予測方法、及び目的地予測プログラム
EP3192061B1 (en) Measuring and diagnosing noise in urban environment
CN113518000B (zh) 在线服务的实例数量调整的方法、装置及电子设备
CN111160394A (zh) 分类网络的训练方法、装置、计算机设备和存储介质
CN108764553B (zh) 用户规模预测方法、装置及计算机设备
TWI778411B (zh) 學習模型應用系統、學習模型應用方法及程式產品
CN112748453B (zh) 道路侧定位方法、装置、设备及存储介质
Zhang et al. A differentially private method for reward-based spatial crowdsourcing
US20140310211A1 (en) Method and device for creating a nonparametric, data-based function model
CN111782955A (zh) 兴趣点表示和推送方法、装置、电子设备及存储介质
CN111582378A (zh) 定位识别模型的训练生成方法、位置检测方法、装置
CN113313330B (zh) 电磁环境参数区间预测方法、装置和计算机设备
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
CN114138634A (zh) 测试用例的选取方法、装置、计算机设备和存储介质
CN114492905A (zh) 基于多模型融合的客诉率预测方法、装置和计算机设备
CN115455276A (zh) 推荐对象的方法、装置、计算机设备和存储介质
CN111190940B (zh) 用户访问的离散数据处理方法、装置、设备及介质
CN113256034B (zh) 信息投放方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant