CN111259931B - 一种用户分组以及活跃度确定方法及系统 - Google Patents

一种用户分组以及活跃度确定方法及系统 Download PDF

Info

Publication number
CN111259931B
CN111259931B CN202010021127.7A CN202010021127A CN111259931B CN 111259931 B CN111259931 B CN 111259931B CN 202010021127 A CN202010021127 A CN 202010021127A CN 111259931 B CN111259931 B CN 111259931B
Authority
CN
China
Prior art keywords
user
users
data
group
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010021127.7A
Other languages
English (en)
Other versions
CN111259931A (zh
Inventor
曹绍升
梁琛
吴郑伟
张志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010021127.7A priority Critical patent/CN111259931B/zh
Publication of CN111259931A publication Critical patent/CN111259931A/zh
Application granted granted Critical
Publication of CN111259931B publication Critical patent/CN111259931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本说明书实施例公开了一种用户分组及活跃度确定方法。所述用户活跃度确定方法包括:分别获取多个用户的特征数据;基于用户的第一属性,将所述多个用户划分为至少一个群组;对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇;对于每一个聚类簇,获取该聚类簇中的用户在预设时间段内产生的交互数据以确定用户的活跃度。本说明书将多个用户划分为聚类簇,可以较为精确的确定存在交互行为的多个用户的各自的活跃度。

Description

一种用户分组以及活跃度确定方法及系统
技术领域
本说明书涉及数据处理领域,特别涉及一种确定用户分组以及基于分组结果确定用户活跃度的方法、系统。
背景技术
随着网络人数的逐年增加,网络数据蕴含的信息越来越丰富。例如,通过网络数据确定网络用户的活跃度可以为生产、经营带来有价值的指导性信息。在一些应用场景下,在对网络数据进行处理的过程中,用户分类的方式对网络数据处理结果的准确性有着直接的影响。
因此,有必要提供一种更加准确、有效的用户分类(或分组)方法,以便更好的利用这些用户产生的网络数据确定用户活跃度。
发明内容
本说明书实施例之一提供一种用户活跃度确定方法。所述方法可以包括以下操作:分别获取多个用户的特征数据;基于用户的第一属性,将所述多个用户划分为至少一个群组;对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇;对于每一个聚类簇,获取该聚类簇中的用户在预设时间段内产生的交互数据以确定用户的活跃度。
本说明书实施例之一提供一种用户活跃度确定系统,所述系统包括第一获取模块、第一划分模块、第一确定模块以及执行模块;所述第一获取模块用于分别获取多个用户的特征数据;所述第一划分模块用于基于用户的第一属性,将所述多个用户划分为至少一个群组;所述第一确定模块用于对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇;所述执行模块用于对于每一个聚类簇,获取该聚类簇中的用户在预设时间段内产生的交互数据以确定用户的活跃度。
本说明书实施例之一提供一种用户活跃度确定装置,包括处理器以及存储介质,其中,存储介质用于存储计算机指令,所述处理器用于执行所述计算机指令以实现以上所述的一种用户活跃度确定方法。
本说明书实施例之一提供一种用户分组确定方法。所述方法可以包括以下操作:分别获取多个用户的特征数据;基于用户的第一属性,将所述多个用户划分为至少一个群组;对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇。
本说明书实施例之一提供一种用户分组确定系统。所述系统可以包括第二获取模块、第二划分模块以及第二确定模块;所述第二获取模块用于分别获取多个用户的特征数据;所述第二划分模块用于基于用户的第一属性,将所述多个用户划分为至少一个群组;所述第二确定模块,用于对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇。
本说明书实施例之一提供一种用户活跃度确定装置,包括处理器以及存储介质,其中,存储介质用于存储计算机指令,所述处理器用于执行所述计算机指令以实现以上所述的一种用户分组确定方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的用户活跃度确定系统的应用场景示意图;
图2是根据本说明书一些实施例所示的用户活跃度确定方法的示例性流程图;
图3是根据本说明书一些实施例所示的用户群组划分方法的示例性流程图;
图4是根据本说明书一些实施例所示的用户聚类簇确定方法的示例性流程图;
图5是根据本说明书一些实施例所示的用于用户活跃度确定的处理设备的模块图;
图6是根据本说明书一些实施例所示的用户分组确定方法的示例性流程图;
图7是根据本说明书一些实施例所示的用于用户分组确定的处理设备的模块图;
图8是根据本说明书一些实施例所示的示例性用户图网络的示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
在一些实施例中,用户活跃度可以反映用户在互联网应用平台中的操作行为(以下简称为用户行为)的频次,其可以基于用户在应用平台中的具体行为(如APP点击行为、开通平台中的某项功能、在平台内消费、加某用户为好友、发送信息、发表评论、咨询客服等)进行统计。在一些实施例中,用户活跃度可以反映用户对某一优惠活动、应用平台某一功能的接受度,较高的用户活跃度反映了更佳的用户体验。在一些应用场景中,用户行为是用户独立实施的,不需要与其他用户交互进行,在进行这类用户行为统计时,对用户的分类要求不高,可以基于相关的单维度(如用户性别、职业或年龄等)进行分类统计。在又一些应用场景中,用户行为需要与其他用户进行交互才能实施,对这类用户行为的统计则需要一种更加合理、准确的用户分类方式,以便提供统计结果的准确性。在本说明书一些实施例中,提出了一种基于用户关联关系的用户分类的方法,以便更准确的统计用户活跃度。
在一些应用场景下,为了得到应用平台中不同活动或不同功能所带来的用户活跃度提升的效果,通常的做法是A/B实验。将总的用户分为两组或者更多组,每一组使用不同的方案,最后来确定结果。但对于某些需要用户交互才能完成的活动或实现的功能(例如,分享红包,一个用户将红包的分享链接发送至另一用户,该用户点击链接获取红包并使用该红包后,分享红包的用户可以得到奖励),用户的活跃度提升较难被准确统计。假定进行A/B实验时,用户A与用户B在一组,而用户C在另一组。实验中用户A给用户B和用户C分别分享了红包,且用户B和用户C最后都使用了红包。这样,仅有用户B对用户A的影响被统计,而用户C对用户A的影响未统计。因此,本说明书披露了一种用户活跃度确定方法,可以有效地将相似用户划分至同一群组并进行活跃度确定。
图1是根据本说明书一些实施例所示的用户活跃度确定系统的应用场景示意图。
用户活跃度确定系统100可以适用于任何获取用户间交互数据(如用户与用户之间聊天数据、用户与用户之间的红包数据、用户与用户之间的点赞数据以及用户与商家之间的交易或聊天数据等)确定用户活跃度的场景。例如,在用户聊天交友中,需要根据用户的特点(如职业、爱好、性别等)推荐与该用户相适配的交友群体,进而用户可以通过交友群体交到相应的好友,利用用户活跃度确定系统100可以对根据用户的特点确定对应于每个用户的交友群体,最终统计用户与新交好友的聊天记录即可统计用户活跃度。又例如,在网络红包营销中,需要通过红包营销方案统计用户活跃度提升量,进而计算投资回报率,利用用户活跃度确定系统100可以根据用户的特点确定对应于每个用户的聚类簇,使每个聚类簇下的用户能够有较多的红包分享,每个聚类簇之间的用户有较少的红包分享,进而可以针对不同聚类簇的用户进行试验,投放不同比例的红包金额,确定用户活跃度提升量后,计算得到投资回报率,使得可以合理分配红包营销费用并得到最大投资回报率的营销方案。上述对用户活跃度确定系统100的应用场景仅是示例性举例,除此之外,用户活跃度确定系统100还可以用于经济、文化、教育、医疗、公共管理等各行各业进行用户活跃度提升统计。
如图1所示,用户活跃度确定系统100可以包括处理设备110、网络120、终端130、以及存储设备140。例如,用户活跃度确定系统100可以对用户群体进行聚类生成对应一个或多个的用户聚类簇,并获取用户交互数据以确定用户活跃度。
处理设备110可以处理来自用户活跃度确定系统100的至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。例如,处理设备110可以获取收用户群体对应的数据信息,并利用聚类算法基于用户的特征数据,确定对应于每个用户的聚类簇。又例如,处理设备110可以接收终端130之间产生的交互数据并确定用户的活跃度。
在一些实施例中,处理设备110可以包括一个或多个处理引擎(例如,单核心处理引擎或多核心处理器)。仅作为范例,处理设备110可以包括中央处理器(中央处理器)、特定应用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等中的一种或多种组合。在一些实施例中,处理设备110可以是单个服务器,也可以是服务器组。服务器组可以是经由接入点连接到网络120的集中式服务器组,或者经由至少一个接入点分别连接到网络120的分布式服务器组。在一些实施例中,处理设备110可以在云平台上实施。仅作为示例,云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
网络120可以连接用户活跃度确定系统100的各组成部分,使得各部分之间可以进行通讯,以促进信息和/或数据的交换。在一些实施例中,用户活跃度确定系统100中的至少一个组件(例如,处理设备110、终端130、存储设备140)可以经由网络120将信息和/或数据发送到用户活跃度确定系统100中的其他组件。
在一些实施例中,用户活跃度确定系统100中各部分之间的网络120可以是有线网络或无线网络中的任意一种或多种。例如,网络120可以包括有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络、全球移动通讯系统(GSM)网络、码分多址(CDMA)网络、时分多址(TDMA)网络、通用分组无线服务(GPRS)网络、增强数据速率GSM演进(EDGE)网络、宽带码分多址接入(WCDMA)网络、高速下行分组接入(HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、传输控制协议/互联网协议(TCP/IP)网络、短讯息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、移动通信(1G、2G、3G、4G、5G)网络、Wi-Fi、Li-Fi、窄带物联网(NB-IoT)、红外通信等中的一种或多种组合。在一些实施例中,网络120还可以包括至少一个网络接入点,通过网络接入点,用户活跃度确定系统100的至少一个部件可以连接到网络120以交换数据和/或信息。每两个部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。
终端130可以包括各类具有信息接收和/或发送功能的设备。例如,终端130可以获取自身位置信息并发送至处理设备110。在一些实施例中,终端130可以包括移动设备130-1、平板电脑130-2、笔记本电脑130-3、台式电脑130-4等或其任何组合。上述示例仅用于说明设备范围的广泛性而非对其范围的限制。在一些实施例中,终端130上可以安装有多种应用程序,例如,电脑程序、移动应用程序(手机APP)等。终端130的使用者可以使用安装于其上的应用程序并产生反映用户操作行为的行为数据。该使用者可以被称为“用户”。
存储设备140可以储存数据和/或指令。数据可以包括多个用户的特征数据、用户的交互数据、处理结果(如群组、聚类簇、用户的活跃度)等。在一些实施例中,存储设备140可以存储从终端130获得的数据。例如,用户的交互数据、用户的特征数据等。
在一些实施例中,存储设备140可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性易失性读写存储器可以包括随机存取存储器(RAM)。示例性RAM可包括动态随机存取存储器(DRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、静态随机存取存储器(SRAM)、晶闸管随机存取存储器(T-RAM)和零电容随机存取存储器(Z-RAM)等。示例性只读存储器可以包括掩模型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(PEROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)和数字多功能磁盘只读存储器等。在一些实施例中,存储设备140可在云平台上实现。仅作为示例,云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中,存储设备140可以是处理设备110的一部分。
图2是根据本说明书一些实施例所示的用户活跃度确定方法的示例性流程图。在一些实施例中,流程200可以由处理设备,例如处理系统500执行。例如,流程200可以以程序或指令的形式存储在存储装置(如存储设备140)中,所述程序或指令在被执行时,可以实现流程200。如图2所示,所述用户活跃度确定方法200可以包括:
步骤210,获取多个用户的个人特征数据。具体的,该步骤可以由第一获取模块510执行。
在一些实施例中,所述用户可以是指使用终端130上安装的各种程序(如电脑桌面程序、浏览器程序、手机APP等)的个体。例如,所述用户可以是使用通讯类应用程序进行通讯的个体。再例如,所述用户可以是使用金融服务类应用程序进行交易的个体。又例如,用户可以是使用购物类应用程序进行购物的个体。在一些实施例中,不同的用户可以通过各自的终端130与其他用户产生交互。例如,多个用户通过使用同一通讯类应用程序而产生交互数据,包括聊天、活动参与等。
基于此,所述用户的特征数据可以包括用户属性数据以及行为数据中的一种。示例性的,所述用户属性数据可以是用以表明用户身份的数据,包括身份证明、姓名、性别、年龄、爱好、职业、个人收入、籍贯地、居住地、家庭关系、网络昵称等。所述行为数据可以是指用户使用终端130上安装的应用程序所产生的使用数据,包括程序使用时间、使用频率、访问内容、访问时长等。针对不同类型的应用程序,所述行为数据可以不同。例如,对于通讯类应用程序,所述行为数据可以包括聊天记录等。对于购物类应用程序,所述行为数据可以包括购买记录等。
在一些实施例中,第一获取模块510可以从终端130处获取用户的特征数据。例如,用户在使用网络支付平台这类应用程序时,涉及个人财产安全以及信誉评级等方面,用户需要在使用初期进行注册。注册时用户需要将自身的属性数据输入以进行验证,同时,用户在使用时也将产生行为数据。此时,终端130可以存储用户的特征数据,同时收集用户在使用过程中产生的行为数据。终端130还可以将用输入的属性数据以及产生的行为数据通过加密方式传输至存储设备140(例如,云)中进行存储或直接发送给处理设备110。第一获取模块510可以通过与存储设备140进行通讯以获取所述用户的特征数据。在一些实施例中,用户还可以自主地将特征数据上传至存储设备140进行存储。同样地,在这种情况下,第一获取模块510可以与存储设备140进行通讯以获取储存在存储设备140中的用户的特征数据。
步骤220,基于用户的第一属性,将所述多个用户划分为至少一个群组。具体的,该步骤可以由第一划分模块520执行。
在一些实施例中,所述第一属性可以是反应用户的地域信息的属性,其可以是所述特征数据的组成部分,例如,用户的国籍、所在城市、所在区县、居住地所在街道等。所述第一属性也可以是在所述特征数据之外有第一获取模块510获取的。例如,用户在使用终端130时,终端130可以同时通过定位系统获取用户的位置。该位置可以作为用户的第一属性。又例如,用户在使用安装于终端130之上的应用程序比如网络支付类应用程序进行线下消费时,可以通过LBS(Location Based Service,基于位置的服务)系统获取用户的位置。该位置也可以作为用户的第一属性。所述第一属性在一定程度上可以反应用户之间的关联程度。例如,具有同一第一属性的用户之间可能具有较为紧密的关系。基于第一属性对多个用户进行划分,也在一定程度上避免了由于用户群体过多或过少导致群组划分不均匀的情况。
在一些实施例中,所述群组可以是指用于说明多个用户之间的关系的表示,例如,图网络。图网络中的每个节点可以表示一个用户,节点与节点之间的连线(或者可以被称为边)可以表示两个用户之间的关联关系。在一些实施例中,第一划分模块520可以首先基于所述特征数据,确定多个用户中任意两个用户之间的关系数据,以获得用户图网络。所述关系数据可以是指用户与用户特征数据之间的相似度,例如,欧几里得距离、皮尔逊相关系数、余弦相似度、Tanimoto系数等。第一划分模块520可以将用户的特征数据转化为向量的表示形式,再计算所述关系数据。在得到所述关系数据以后,第一划分模块520可以基于所述关系数据,获取用户图网络。用户图网络中,节点表示了用户,边指示了两个用户之间的关系数据。将所有的用户通过关系数据连接起来后,第一划分模块520可以获的所述图网络。
在获取用户图网络后,第一划分模块520可以基于用户的第一属性将所述用户图网络划分为至少一个子图网络。例如,第一划分模块520可以将具有相同/相似的第一属性的用户所对应的数据在用户图网络中构成的部分作为一个子图网络。例如,显示用户属于同一个城市的第一属性对应的所有的用户,其在用户图网络中构成的部分将被作为一个子图网络。分属于不同的子图网络的用户之间的关系数据将被舍弃。例如,用户a被划分到子图网络A,用户b被划分到子图网络B。在所述用户图网络中,用户a和用户b之间存在着关系数据例如相似度。但分组后,用户a和用户b之间的关系数据将被舍弃。参考图8,图8是根据本说明书一些实施例所示的示例性用户图网络的示意图。如图8所示,节点810表示用户,节点与节点之间的连线820表示两个用户之间的关系数据(如特征数据之间的相似度)。群组830中包含了多个用户,每个用户之间都有连线相互连接(即,都存在一条边),在图8中以实线表示。分属于不同群组的用户之间不存在连线(即,边被舍弃),在图8中以虚线表示。经过划分,多个用户将被分配到不同的群组中。
在一些实施例中,所述群组还可以是指用户的集合。一个群组里可以包括至少一个用户。第一划分模块520可以将具有相同/相似的第一属性的用户划分为一个群组。例如,可以将指示用户属于城市M的第一属性对应的用户划分为群组m,将指示用户属于城市N的第一属性对应的用户划分为群组n。
步骤230,对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇。具体的,该步骤可以由第一确定模块530执行。
在一些实施例中,第一划分模块520仅是根据第一属性将用户分为多个集合。此时,对于每个群组,第一确定模块530还可以基于分组内的用户的特征数据,确定组内任意两个用户之间的关系数据。之后,用户将被作为节点,用户间的关系数据将作为边,所得到的图网络即为该群组对应的子图网络。在一些实施例中,第一划分模块520可以对用户图网络基于第一属性进行划分,直接得到多个子图网络,第一确定模块530无需针对群组再次构造子图网络。第一确定模块530可以对各子图网络分别进行聚类处理,得到对应于各子图网络的多个聚类簇。
在一些实施例中,所述聚类簇可以是用于表示用户属于某一聚类类别的标识,例如,数字、字母、字符等。所述聚类簇也可以是具有相同聚类类别标识的用户的集合。具有相同的聚类簇,则可以表示用户之间具有较高的相似度。划分群组后,第一确定模块530可以利用聚类算法,对基于用户的特征数据所获取的子图网络进行处理,以确定对用于每个用户的聚类簇。其中,聚类算法可以包括louvain算法、k-means算法、或其他聚类算法。作为示例,利用(node_p,node_q,weight)表示对应于一个群组的子图网络,node_p表示用户p,node_q表示用户q,weight表示用户p和用户q之间的关系数据比如相似度。第一确定模块530可以利用louvain算法处理子图网络,获取对应于每个用户的聚类簇cluster x。关于确定对应于每个用户的聚类簇可以参见本说明书其他部分,例如,附图4,在此不再赘述。
步骤240,对于每一个聚类簇,获取该聚类簇中的用户在预设时间段内产生的交互数据以确定用户的活跃度。具体的,该步骤可以由执行模块540执行。
在一些实施例中,对于每个聚类簇,执行模块540可以持续的获取该聚类簇内的用户在预设时间段(如一天、一周、一个月等)内的交互数据,以确定用户的活跃度。所述交互数据可以是用户间通过交流交互活动所产生的数据,包括通过终端130进行的网络交流交互活动。例如,通过网络支付平台进行红包分享及核销、通过通讯软件行交友聊天、通过生活分享软件进行文章发布及点赞、通过网络购物平台进行链接(如购物链接)分享等。对于红包分享及核销,所述交互数据可以反映红包分享次数和/或红包核销次数。分享可以是说用户网络支付平台,将红包或是红包链接发送至另一用户。核销可以是说接收到红包的用户使用该红包。例如,用户将红包(如现金红包或优惠券等)分享给其他用户后,其他用户核销该红包(如使用该红包进行消费),分享红包的用户则可以获得返佣(如另一现金红包或优惠券等)。在一些实施例中,用户活跃度可以与交互数据所反映的交互行为的频次正相关。例如,利用红包所促使的分享及核销行为频次增加,一定程度上体现了用户的活跃度提升。
对于不同的交流交互活动,用户的活跃度的确定可以是有不同。例如,对于红包分享及核销,用户的活跃度的确定,可以是确定预设时间段内红包的分享次数和/或红包核销次数。更具体的,可以针对一个聚类簇中的每一个用户统计其在该簇内分享的红包数量,和/或其核销的来自该簇中其他用户分享的红包个数,作为其交互数据。又例如,对于交友聊天,用户的活跃度的确定,可以是统计该簇内某用户与该簇其他用户聊天次数及聊天时长。再例如,对于链接分享,用户的活跃度的确定,确定用户在其所在聚类簇中分享链接的次数以及该用户点击来自其所在聚类簇中其他用户链接的次数。
应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图3是根据本说明书一些实施例所示的用户群组划分方法的示例性流程图。在一些实施例中,流程300可以由处理设备,例如处理系统500执行。例如,流程300可以以程序或指令的形式存储在存储装置(如存储设备150)中,所述程序或指令在被执行时,可以实现流程300。在一些实施例中,流程300可以由第一划分模块520执行。如图3所示,所述用户群组划分方法300可以包括:
步骤310,基于所述特征数据,确定多个用户中任意两个用户之间的关系数据,以获得用户图网络。
关于特征数据的描述可以参考流程200中的步骤210,在此不再赘述。在一些实施例中,两个用户之间的关系数据可以基于两个用户的特征数据的相似度值确定。两个用户的特征数据的相似度也可以直接被指定为所述关系数据。所述相似度可以包括欧几里得距离、皮尔逊相关系数、余弦相似度、Tanimoto系数等。以余弦相似度为例,可以将两个用户的特征数据进行归一化,例如使用min-max标准化或z-score标准化,得到归一化的结果,然后将归一化的结果进行夹角余弦计算,最终得到的结果即为两个用户特征数据的相似度。
在确定多个用户中任意两个用户之间的相似度之后,第一划分模块520可以将用户作为节点,将用户与用户之间的相似度作为边的权重(本说明书中也可被称为边权)构建用户图网络。示例性的,用户图网络的可视化结果可以如图8所示,用户图网络中的每个节点(节点810)表示用户,两个节点间的连线表示用户的关系数据(相似度820)。
步骤320,基于各用户的第一属性,将所述用户图网络划分为至少一个子图网络,将所述至少一个子图网络确定为所述至少一个群组。
在一些实施例中,在获取用户图网络后,第一划分模块520可以基于各个用户的第一属性对多个用户进行划分。所述第一属性反映了用户的地域信息,第一划分模块520可以将具有相同和/或相似的地域信息的用户划分到一起。例如,以城市为例,第一划分模块520可以将分属于同一城市的用户划分到一起。完毕后,第一划分模块520可以得到这些用户在用户图网络中对应的部分,并将该部分作为一个子图网络。同时,该子图网络也将被确定一个群组。参考图8,用户图网络800包含了三个子图网络(群组830-1、830-2以及830-3)。每一个子图网络中的用户都具有相同和/或相似的地域信息,例如,处于同一个城市中。他们之间的关系数据将被保留。而不同的子图网络中的用户之间的关系数据将被舍弃。
应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图4是根据本说明书一些实施例所示的用户聚类簇确定方法的示例性流程图。在一些实施例中,流程400可以由处理设备,例如处理系统500执行。例如,流程400可以以程序或指令的形式存储在存储装置(如存储设备150)中,所述程序或指令在被执行时,可以实现流程400。在一些实施例中,流程300可以由第一确定模块530执行。如图4所示,所述聚类簇确定方法400可以包括:
步骤410,基于所述特征数据,确定该群组中任意两个用户之间的关系数据,以获得该群组对应的子图网络。
在一些实施例中,所述群组可以是指用户的集合。一个群组里可以包括至少一个用户。第一划分模块520可以将具有相同/相似的第一属性的用户划分为一个群组。例如,将同一城市的用户划分一个群组。划分完毕后,第一确定模块530可以确定群组中任意两个用户之间的关系数据。和本说明书之前的描述类似,所述关系数据可以是基于两个用户的特征数据的相似度值确定,例如,欧几里得距离、皮尔逊相关系数、余弦相似度、Tanimoto系数等。在确定多个用户中任意两个用户之间的相似度之后,第一划分模块520可以将用户作为节点,将用户与用户之间的相似度作为边的权重(本说明书中也可被称为边权)构建网络,该网络则为该群组对应的子图网络。在一些实施例中,所述群组可以是由第一划分模块520直接处理得到的子图网络,此时第一确定模块530可以直接对所述子图网络进行聚类处理。
步骤420,利用聚类算法处理所述子图网络,确定对应于每个用户的聚类簇。具体的,该步骤可以由第一确定模块530执行。
在一些实施例中,所述聚类簇是louvain、k-means、或其他聚类算法。以louvain聚类算法为例,louvain算法的输入是一个子图网络,如利用(node_p,node_q,weight)表示的子图网络,其中node_p、node_q表示用户对应的节点,weight表示node_1与node_2对应用户之间的关系数据(如相似度)。louvain算法的输出是每个用户对应的聚类簇,如(node_id,cluster_id),其中node_id可以表示用户的编号(如用户特征数据中所包含的身份证明),cluster_id可以表示聚类簇的编号(如用户属于哪一个聚类簇)。
作为示例,以下对基于louvain算法确定对应于用户的聚类簇的过程进行简要说明。louvain算法的优化目标是最大化整个数据的模块度。模块归属度可以采用如下公式计算:
Figure BDA0002360534980000101
其中,m表示子图网络中关系数据的总数,ki表示所有指向节点i的关系数据权重之和(例如,相似度weight之和),kj表示所有指向节点j的关系数据权重之和(例如,相似度weight之和),Aij表示节点i、节点j之间的连边权重(例如,节点i与节点j之间的相似度)。louvain算法包括两步迭代设计。首先算法扫描数据中所有节点,针对每个节点遍历该节点的所有邻节点,确定把该节点加入其邻节点所在的社区(例如,聚类类别)所带来的模块度的收益。并选择对应最大收益的邻节点,加入其所在的社区(例如,聚类类别)。这一过程重复进行直到每一个节点的社区(例如,聚类类别)归属都不再发生变化。随后,对以上步骤中形成的社区(例如,聚类类别)进行折叠形成一个单点(如,将该社区看成一个节点),分别确定这些新生的单点与群组中其他节点之间的连边权重(例如,将该社区中的节点与群组中且该社区外的节点之间的相似度作为该节点与群组中其他节点之间的连边权重),以及社区(例如,聚类类别)内的所有节点之间的连边权重之和,用于一次新的迭代。经过多次迭代后,每个节点(即用户)都可以得到一个聚类簇。
应当注意的是,上述有关流程400的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程400进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图5是根据本说明书一些实施例所示的用于确定用户活跃度的处理设备500的模块图。如图5所示,处理设备500可以包括第一获取模块510、第一划分模块520、第一确定模块530和执行模块540。
第一获取模块510可以用于分别获取多个用户的特征数据。在一些实施例中,所述用户的特征数据可以包括用户属性数据以及行为数据中的一种。示例性的,所述用户属性数据可以是用以表明用户身份的数据,包括身份证明、姓名、性别、年龄、爱好、职业、个人收入、籍贯地、居住地、家庭关系、网络昵称等。所述行为数据可以是指用户使用终端130上安装的应用程序所产生的使用数据,包括程序使用时间、使用频率、访问内容、访问时长等。针对不同类型的应用程序,所述行为数据可以不同。例如,对于通讯类应用程序,所述行为数据可以包括聊天记录等。对于购物类应用程序,所述行为数据可以包括购买记录等。
在一些实施例中,第一获取模块510可以从终端130处获取用户的特征数据。第一获取模块510也可以通过与存储设备140进行通讯以获取存储在其中的用户的特征数据。
第一划分模块520可以用于基于用户的第一属性,将所述多个用户划分为至少一个群组。在一些实施例中,第一划分模块520可以首先基于所述特征数据,确定多个用户中任意两个用户之间的关系数据,以获得用户图网络。在获取用户图网络后,第一划分模块520可以基于用户的第一属性将所述用户图网络划分为至少一个子图网络。例如,第一划分模块520可以将具有相同/相似的第一属性的用户所对应的数据在用户图网络中构成的部分作为一个子图网络。所述子图网络可以作为所述群组。在一些实施例中,所述群组还可以是指用户的集合。一个群组里可以包括至少一个用户。第一划分模块520可以将具有相同/相似的第一属性的用户划分为一个群组。
第一确定模块530可以用于对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇。所述聚类簇可以是用于表示用户属于某一聚类类别的标识,例如,数字、字母、字符等。所述聚类簇也可以是具有相同聚类类别标识的用户的集合。其中,所使用的聚类算法可以包括louvain算法或k-means算法。
执行模块540可以用于对于每一个聚类簇,获取该聚类簇中的用户在预设时间段内产生的交互数据以确定用户的活跃度。所述交互数据可以是用户间通过交流交互活动所产生的数据,包括通过终端130进行的网络交流交互活动。对于不同的交流交互活动,用户的活跃度的确定可以是有不同。例如,对于红包分享及核销,用户的活跃度的确定,可以是确定预设时间段内红包的分享次数和/或红包核销次数。更具体的,可以针对一个聚类簇中的每一个用户统计其在该簇内分享的红包数量,和/或其核销的来自该簇中其他用户分享的红包个数,作为其交互数据。
应当理解,图5所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于候选项显示、确定系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,例如,图5中披露的第一获取模块510、第一划分模块520、第一确定模块530和执行模块540可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,第一获取模块510、群组第一划分模块520可以是两个模块,也可以是一个模块同时具有获取和群组划分功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
图6是根据本说明书一些实施例所示的用户分组方法的示例性流程图。在一些实施例中,流程600可以由处理设备,例如处理系统700执行。例如,流程600可以以程序或指令的形式存储在存储装置(如存储设备150)中,所述程序或指令在被执行时,可以实现流程200。如图7所示,所述用户分组方法700可以包括:
步骤610,分别获取多个用户的特征数据。具体的,该步骤可以由第二获取模块710执行。
在一些实施例中,所述用户可以是指终端130的使用者。例如,用户可以使用安装在终端130上的各种应用程序执行诸如聊天购物娱乐休闲等各种操作。所述用户的特征数据可以包括用户属性数据以及行为数据中的一种。示例性的,所述用户属性数据可以是用以表明用户身份的数据,包括身份证明、姓名、性别、年龄、爱好、职业、个人收入、籍贯地、居住地、家庭关系、网络昵称等。所述行为数据可以是指用户使用终端130上安装的应用程序所产生的使用数据,包括程序使用时间、使用频率、访问内容、访问时长等。针对不同类型的应用程序,所述行为数据可以不同。例如,对于通讯类应用程序,所述行为数据可以包括聊天记录等。对于购物类应用程序,所述行为数据可以包括购买记录等。
在一些实施例中,第二获取模块710可以从终端130处获取用户的特征数据。例如,用户在使用网络支付平台这类应用程序时,涉及个人财产安全以及信誉评级等方面,用户需要在使用初期进行注册。注册时用户需要将自身的属性数据输入以进行验证,同时,用户在使用时也将产生行为数据。此时,终端130可以存储用户的特征数据,同时收集用户在使用过程中产生的行为数据。终端130还可以将用输入的属性数据以及产生的行为数据通过加密方式传输至存储设备140(例如,云)中进行存储。第二获取模块710可以通过与存储设备140进行通讯以获取所述用户的特征数据。在一些实施例中,用户还可以自主地将特征数据上传至存储设备140进行存储。同样地,在这种情况下,第二获取模块710可以与存储设备140进行通讯以获取储存在存储设备140中的用户的特征数据。
步骤620,基于用户的第一属性,将所述多个用户划分为至少一个群组。具体的,该步骤可以由第二划分模块720执行。
在一些实施例中,所述第一属性可以是反应用户的地域信息的属性,其可以是所述特征数据的组成部分,例如,用户的国籍、所在城市、所在区县、居住地所在街道等。所述群组可以是指用于说明多个用户之间的关系的表示,例如,图网络。图网络中的每个节点可以表示一个用户,节点与节点之间的连线(或者可以被称为边)可以表示两个用户之间的关联关系。在一些实施例中,第二划分模块720可以首先基于所述特征数据,确定多个用户中任意两个用户之间的关系数据,以获得用户图网络。所述关系数据可以是指用户与用户特征数据之间的相似度,例如,欧几里得距离、皮尔逊相关系数、余弦相似度、Tanimoto系数等。第二划分模块720可以将用户的特征数据转化为向量的表示形式,再计算所述关系数据。在得到所述关系数据以后,第二划分模块720可以基于所述关系数据,获取用户图网络。用户图网络中,节点表示了用户,边指示了两个用户之间的关系数据。将所有的用户通过关系数据连接起来后,第二划分模块720可以获的所述图网络。
在确定用户图网络后,第二划分模块720可以基于各用户的第一属性,将所述用户图网络划分为一个或多个子图网络。
在一些实施例中,所述第一属性可以是反应用户的地域信息的属性,其可以是所述特征数据的组成部分,例如,用户的国籍、所在城市、所在区县、居住地所在街道等。所述第一属性也可以是在所述特征数据之外由第二获取模块710获取的。例如,用户在使用终端130时,终端130可以同时通过定位系统获取用户的位置。该位置可以作为用户的第一属性。又例如,用户在使用安装于终端130之上的应用程序比如网络支付类应用程序进行线下消费时,可以通过LBS(Location Based Service,基于位置的服务)系统获取用户的位置。该位置也可以作为用户的第一属性。所述第一属性在一定程度上可以反应用户之间的关联程度。例如,具有同一第一属性的用户之间可能具有较为紧密的关系。基于第一属性对多个用户进行划分,也在一定程度上避免了由于用户群体过多或过少导致群组划分不均匀的情况。
在一些实施例中,第二划分模块720可以将具有相同/相似的第一属性的用户所对应的数据在用户图网络中构成的部分作为一个子图网络。例如,显示用户属于同一个城市的第一属性对应的所有的用户,其在用户图网络中构成的部分将被作为一个子图网络。分属于不同的子图网络的用户之间的关系数据将被舍弃。例如,用户a被划分到子图网络A,用户b被划分到子图网络B。在所述用户图网络中,用户a和用户b之间存在着关系数据例如相似度。但分组后,用户a和用户b之间的关系数据将被舍弃。一个子图网络可以被指定为一个群组。
在一些实施例中,所述群组还可以是指用户的集合。一个群组里可以包括至少一个用户。第一划分模块520可以将具有相同/相似的第一属性的用户划分为一个群组。例如,可以将指示用户属于城市M的第一属性对应的用户划分为群组m,将指示用户属于城市N的第一属性对应的用户划分为群组n。
步骤630,对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇。具体的,该步骤可以由第二确定模块730执行。在一些实施例中,第二确定模块730可以利用聚类算法处理每个子图网络,确定对应于每个用户的聚类簇。所述聚类簇可以是用于表示用户属于某一聚类类别的标识,例如,数字、字母、字符等。所述聚类簇也可以是具有相同聚类类别标识的用户的集合。具有相同的聚类簇,则可以表示用户之间具有较高的相似度。划分群组后,第二确定模块730可以利用聚类算法,对基于用户的特征数据所获取的子图网络进行处理,以确定对用于每个用户的聚类簇。其中,聚类算法可以包括louvain算法、k-means算法、或其他聚类算法。作为示例,利用(node_p,node_q,weight)表示对应于一个群组的子图网络,node_p表示用户p,node_q表示用户q,weight表示用户p和用户q之间的关系数据比如相似度。第一确定模块530可以利用louvain算法处理子图网络,获取对应于每个用户的聚类簇cluster x。
应当注意的是,上述有关流程600的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程600进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图7是根据本说明书一些实施例所示的用于确定用户分组的处理设备700的模块图。如图7所示,处理设备700可以包括第二获取模块710、第二划分模块720、以及第二确定模块730。
第二获取模块710可以用于分别获取多个用户的特征数据。
第二划分模块720可以用于基于用户的第一属性,将所述多个用户划分为至少一个群组。
第二确定模块730可以对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇。
关于处理设备700的具体描述可以参考图6。
本说明书实施例可能带来的有益效果包括但不限于:基于用户的特征数据将多个用户划分为多组,组内用户具有相同/相似属性,可以较为精确地确定多个用户的在交互中所得到活跃度的提升。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (18)

1.一种用户活跃度确定方法,其中,所述方法包括:
分别获取多个用户的特征数据;
基于用户的第一属性,将所述多个用户划分为至少一个群组;
对于每个群组,
利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇;
对于每一个聚类簇,获取该聚类簇中的用户在预设时间段内产生的交互数据以确定用户的活跃度;所述用户的活跃度反映该用户需要与其他用户进行交互的用户行为的频次。
2.根据权利要求1所述的方法,其中,所述特征数据包括用户属性数据以及行为数据中的至少一种;
所述第一属性反映用户的地域信息。
3.根据权利要求1所述的方法,其中,所述基于用户的第一属性,将所述多个用户划分为至少一个群组,包括:
基于所述特征数据,确定多个用户中任意两个用户之间的关系数据,以获得用户图网络;
基于各用户的第一属性,将所述用户图网络划分为至少一个子图网络,将所述至少一个子图网络确定为所述至少一个群组。
4.根据权利要求1所述的方法,其中,所述对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇,还包括:
基于所述特征数据,确定该群组中任意两个用户之间的关系数据,以获得该群组对应的子图网络;
利用聚类算法处理所述子图网络,确定对应于每个用户的聚类簇。
5.根据权利要求3或4所述的方法,其中,所述任意两个用户之间的关系数据基于该两个用户的特征数据的相似度确定。
6.根据权利要求1中所述的方法,所述聚类算法包括louvain算法或k-means算法。
7.根据权利要求1所述的方法,其中,所述交互数据至少反映红包分享次数和/或红包核销次数。
8.一种用户活跃度确定系统,所述系统包括第一获取模块、第一划分模块、第一确定模块以及执行模块;
所述第一获取模块用于分别获取多个用户的特征数据;
所述第一划分模块用于基于用户的第一属性,将所述多个用户划分为至少一个群组;
所述第一确定模块用于对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇;
所述执行模块用于对于每一个聚类簇,获取该聚类簇中的用户在预设时间段内产生的交互数据以确定用户的活跃度;所述用户的活跃度反映该用户需要与其他用户进行交互的用户行为的频次。
9.根据权利要求8所述的系统,其中,所述特征数据包括用户属性数据以及行为数据中的至少一种;
所述第一属性反映用户的地域信息。
10.根据权利要求8所述的系统,其中,为基于用户的第一属性,将所述多个用户划分为至少一个群组,所述第一划分模块用于:
基于所述特征数据,确定多个用户中任意两个用户之间的关系数据,以获得用户图网络;
基于各用户的第一属性,将所述用户图网络划分为至少一个子图网络,将所述至少一个子图网络确定为所述至少一个群组。
11.根据权利要求8所述的系统,其中,对于每个群组,为利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇,所述第一确定模块用于:
基于所述特征数据,确定该群组中任意两个用户之间的关系数据,以获得该群组对应的子图网络;
利用聚类算法处理所述子图网络,确定对应于每个用户的聚类簇。
12.根据权利要求10或11所述的系统,其中,所述任意两个用户之间的关系数据基于该两个用户的特征数据的相似度确定。
13.根据权利要求8中所述的系统,所述聚类算法包括louvain算法或k-means算法。
14.根据权利要求8所述的系统,其中,所述交互数据至少反映红包分享次数和/或红包核销次数。
15.一种用户活跃度确定装置,所述装置包括处理器以及存储介质,其中,存储介质用于存储计算机指令,所述处理器用于执行所述计算机指令以实现如权利要求1~7任一项所述的用户活跃度确定方法。
16.一种用户分组确定方法,其中,所述方法包括:
分别获取多个用户的特征数据;
基于用户的第一属性,将所述多个用户划分为至少一个群组;
对于每个群组,
利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇;其具体包括:
基于所述特征数据,确定该群组中任意两个用户之间的关系数据,以获得该群组对应的子图网络;
利用聚类算法处理所述子图网络,确定对应于每个用户的聚类簇。
17.一种用户分组确定系统,其中,所述系统包括第二获取模块、第二划分模块以及第二确定模块;
所述第二获取模块,用于分别获取多个用户的特征数据;
所述第二划分模块,用于基于用户的第一属性,将所述多个用户划分为至少一个群组;
所述第二确定模块,用于对于每个群组,利用聚类算法至少基于用户的特征数据,确定对应于每个用户的聚类簇;其具体包括:
基于所述特征数据,确定该群组中任意两个用户之间的关系数据,以获得该群组对应的子图网络;
利用聚类算法处理所述子图网络,确定对应于每个用户的聚类簇。
18.一种用户分组确定装置,所述装置包括处理器以及存储介质,其中,存储介质用于存储计算机指令,所述处理器用于执行所述计算机指令以实现如权利要求16所述的用户分组确定方法。
CN202010021127.7A 2020-01-09 2020-01-09 一种用户分组以及活跃度确定方法及系统 Active CN111259931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010021127.7A CN111259931B (zh) 2020-01-09 2020-01-09 一种用户分组以及活跃度确定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010021127.7A CN111259931B (zh) 2020-01-09 2020-01-09 一种用户分组以及活跃度确定方法及系统

Publications (2)

Publication Number Publication Date
CN111259931A CN111259931A (zh) 2020-06-09
CN111259931B true CN111259931B (zh) 2022-06-28

Family

ID=70951159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010021127.7A Active CN111259931B (zh) 2020-01-09 2020-01-09 一种用户分组以及活跃度确定方法及系统

Country Status (1)

Country Link
CN (1) CN111259931B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112162918A (zh) * 2020-09-07 2021-01-01 北京达佳互联信息技术有限公司 应用程序的测试方法、装置及电子设备
CN112085114A (zh) * 2020-09-14 2020-12-15 杭州中奥科技有限公司 线上线下身份匹配方法、装置、设备及存储介质
CN112486647B (zh) * 2020-11-28 2023-02-03 浪潮通用软件有限公司 一种基于SaaS公私库机制的资源调度方法及装置
CN113392219A (zh) * 2021-08-16 2021-09-14 北京易真学思教育科技有限公司 用户类型的获取方法、装置、计算机设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111946A (zh) * 2013-04-19 2014-10-22 腾讯科技(深圳)有限公司 基于用户兴趣的聚类方法和装置
CN107749033A (zh) * 2017-11-09 2018-03-02 厦门市美亚柏科信息股份有限公司 一种网络社区活跃用户簇的发现方法、终端设备及存储介质
CN108197224A (zh) * 2017-12-28 2018-06-22 广州虎牙信息科技有限公司 用户群分类方法、存储介质以及终端
CN108282761A (zh) * 2018-01-19 2018-07-13 重庆信科设计有限公司 一种d2d通信中利用社交属性进行资源分配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111946A (zh) * 2013-04-19 2014-10-22 腾讯科技(深圳)有限公司 基于用户兴趣的聚类方法和装置
CN107749033A (zh) * 2017-11-09 2018-03-02 厦门市美亚柏科信息股份有限公司 一种网络社区活跃用户簇的发现方法、终端设备及存储介质
CN108197224A (zh) * 2017-12-28 2018-06-22 广州虎牙信息科技有限公司 用户群分类方法、存储介质以及终端
CN108282761A (zh) * 2018-01-19 2018-07-13 重庆信科设计有限公司 一种d2d通信中利用社交属性进行资源分配方法

Also Published As

Publication number Publication date
CN111259931A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259931B (zh) 一种用户分组以及活跃度确定方法及系统
US11070643B2 (en) Discovering signature of electronic social networks
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN110046929B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN106817251B (zh) 一种基于节点相似度的链路预测方法及装置
US20170364933A1 (en) User maintenance system and method
US11816727B2 (en) Credit scoring method and server
CN108304935B (zh) 机器学习模型训练方法、装置和计算机设备
CN110032583B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN112214499B (zh) 图数据处理方法、装置、计算机设备和存储介质
CN112232833A (zh) 流失会员客群数据预测方法、模型训练方法及装置
CN112204610A (zh) 基于神经网络的电子内容
CN108428001B (zh) 信用分值预测方法及装置
KR20230155336A (ko) 본인 및 상대방의 선호 조건에 기반하여 매칭을 주선하는 ai 기반의 만남 매칭 서비스 제공 방법 및 장치
US11704598B2 (en) Machine-learning techniques for evaluating suitability of candidate datasets for target applications
CN116188174A (zh) 基于模块度和互信息的保险欺诈检测方法及系统
CN117216736A (zh) 异常账号的识别方法、数据调度平台及图计算平台
WO2021129368A1 (zh) 一种客户类型的确定方法及装置
US11023879B2 (en) Recommending target transaction code setting region
Krzyzanowski et al. Regionalization with self-organizing maps for sharing higher resolution protected health information
CN109460490B (zh) 社交网络中中心顶点的确定方法、装置、设备及存储介质
CN110175296B (zh) 网络图中的节点推荐方法和服务器以及存储介质
CN110728583A (zh) 一种骗赔行为识别方法和系统
CN112508725B (zh) 一种基于社区结构的位置感知影响力最大化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant