CN110737730A - 基于无监督学习的用户分类方法、装置、设备及存储介质 - Google Patents

基于无监督学习的用户分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110737730A
CN110737730A CN201911001169.8A CN201911001169A CN110737730A CN 110737730 A CN110737730 A CN 110737730A CN 201911001169 A CN201911001169 A CN 201911001169A CN 110737730 A CN110737730 A CN 110737730A
Authority
CN
China
Prior art keywords
user
expression
target
classified
topological relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911001169.8A
Other languages
English (en)
Other versions
CN110737730B (zh
Inventor
黄文炳
徐挺洋
荣钰
黄俊洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911001169.8A priority Critical patent/CN110737730B/zh
Publication of CN110737730A publication Critical patent/CN110737730A/zh
Application granted granted Critical
Publication of CN110737730B publication Critical patent/CN110737730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于无监督学习的用户分类方法、装置、计算机设备及存储介质,属于用户分类技术领域。该方法包括:获取待分类用户的第一原始特征;将第一原始特征输入到无监督学习的拓扑关系确定模型中;拓扑关系确定模型对应有目标损失函数;目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;第一特征表达式为第一原始特征对应的表达式,第二特征表达式为拓扑关系特征对应的表达式;根据拓扑关系确定模型的输出,得到待分类用户的目标拓扑关系特征;根据目标拓扑关系特征,确定待分类用户对应的用户类别。上述技术方案,在不需要人工提供用户标签的情况下,就能实现对网络用户的准确分类,能有效降低网络用户分类的成本。

Description

基于无监督学习的用户分类方法、装置、设备及存储介质
技术领域
本发明涉及用户分类技术领域,特别是涉及基于无监督学习的用户分类方法、装置、计算机设备及存储介质。
背景技术
随着网络技术的发展,网络用户的数量和种类越来越繁杂。很多情况下,需要对网络用户进行分类,并针对性地进行网络操作,例如:在社交网络分析领域,根据用户(在用户关系图中也可以称为节点)的特点进行精准广告投放、商品推荐、危险用户监控等。目前,主要通过用户关系图中的拓扑关系特征来表示用户信息以及各个用户之间的关系,并据此进行用户的分类。
在实现本发明过程中,发明人发现传统方式中至少存在如下问题:传统技术主要是通过监督式的方法来训练模型并确定拓扑关系特征。但监督式的方法需要依赖人工辅助,由人工提供用户标签。实际上,在网络用户分析中,由于涉及亿级以上的用户量,利用人工对各个用户进行标注的成本非常高,这就导致用户分类的成本非常高。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
基于此,本发明实施例提供了基于无监督学习的用户分类方法、装置、计算机设备及存储介质,能有效降低对用户进行分类的成本。
本发明实施例的内容如下:
第一方面,本发明实施例提供一种基于无监督学习的用户分类方法,包括以下步骤:获取待分类用户的第一原始特征;将所述第一原始特征输入到无监督学习的拓扑关系确定模型中;所述拓扑关系确定模型对应有目标损失函数;所述目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;所述拓扑关系特征用于表征所述待分类用户在用户关系图中的拓扑关系;根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征;根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
第二方面,本发明实施例提供一种基于无监督学习的用户分类装置,包括:原始特征获取模块,用于获取待分类用户的第一原始特征;特征输入模块,用于将所述第一原始特征输入到无监督学习的拓扑关系确定模型中;所述拓扑关系确定模型对应有目标损失函数;所述目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;所述拓扑关系特征用于表征所述待分类用户在用户关系图中的拓扑关系;拓扑关系确定模块,用于根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征;用户类别确定模块,用于根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
第三方面,本发明实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待分类用户的第一原始特征;将所述第一原始特征输入到无监督学习的拓扑关系确定模型中;所述拓扑关系确定模型对应有目标损失函数;所述目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;所述拓扑关系特征用于表征所述待分类用户在用户关系图中的拓扑关系;根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征;根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待分类用户的第一原始特征;将所述第一原始特征输入到无监督学习的拓扑关系确定模型中;所述拓扑关系确定模型对应有目标损失函数;所述目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;所述拓扑关系特征用于表征所述待分类用户在用户关系图中的拓扑关系;根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征;根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
上述技术方案中的一个技术方案具有如下优点或有益效果:获取待分类用户的第一原始特征,根据第一原始特征对应的表达式和拓扑关系特征对应的表达式的相关度构建目标损失函数,依据该目标损失函数构建的拓扑关系确定模型是无监督学习的,将待分类用户的第一原始特征输入到该无监督学习的拓扑关系确定模型中,根据拓扑关系确定模型的输出,得到待分类用户的目标拓扑关系特征;并根据该目标拓扑关系特征,确定待分类用户对应的用户类别。在不需要人工提供用户标签的情况下,就能实现对用户的准确分类,能有效降低用户分类的成本。
附图说明
图1为一个实施例中基于无监督学习的用户分类方法的应用环境图;
图2为一个实施例中基于无监督学习的用户分类方法的流程示意图;
图3为一个实施例中用户关系图的结构示意图;
图4为另一个实施例中用户关系图的结构示意图;
图5为再一个实施例中用户关系图的结构示意图;
图6为另一个实施例中基于无监督学习的用户分类方法的流程示意图;
图7为再一个实施例中基于无监督学习的用户分类方法的流程示意图;
图8为一个实施例中基于无监督学习的用户分类装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供的基于无监督学习的用户分类方法可以应用于如图1所示的计算机设备中。该计算机设备可以是服务器,也可以是终端设备,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,处理器用于提供计算和控制能力;存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统、计算机程序(该计算机程序被处理器执行时实现一种基于无监督学习的用户分类方法)和数据库,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境;数据库用于存储拓扑关系确定模型、目标损失函数、第一原始特征、目标拓扑关系特征、用户类别等数据;网络接口用于与外部的终端通过网络连接通信,例如,与输入装置连接,用于接收输入装置输入的第一原始特征。当然,输入装置也可以直接设置在该计算机设备上。其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,终端设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供一种基于无监督学习的用户分类方法、装置、计算机设备及存储介质。以下分别进行详细说明。
在一个实施例中,如图2所示,提供了一种基于无监督学习的用户分类方法。以该方法应用于图1中的处理器为例进行说明,包括以下步骤:
S201、获取待分类用户的第一原始特征。
其中,用户可以指网络媒体上的用户,可以是一个网络媒体账号,也可以是具体的自然人或组织,这些用户在网络媒体上进行网络操作,所产生的网络操作信息以及用户基本信息等就可以作为该用户的特征,处理器可以根据用户的特征对其进行分类。其中,网络操作信息可以指登录时间、登录时长、好友信息(好友数量、聊天次数、通话时长等)、所发表的网络言论、所参与的活动、所购买的产品、是否进行网络支付操作、点赞、评论等等信息;用户基本信息可以指用户的性别、年龄、个人标签(爱好、习惯等)、所在地点等。由于对网络用户进行分类往往是针对某一应用程序(可以是微信、微博、短视频平台等)而言的,因此,在需要对网络用户进行分类时,所针对的网络用户可以指使用该应用程序的各个用户。当然,本发明实施例并不限定所针对的应用程序种类以及数量,某一次的用户分类可以是整合用户在多种/多个应用程序中的特征后所进行的分类。
进一步的,待分类用户指的是类别未知的用户,其数量可以是一个、两个、甚至多个。为方便描述,本发明实施例以待分类用户为一个为例进行描述。其中,用户类别可以根据多种应用需要进行,例如,对于用户支付方面,用户类别可以包括:高消费用户、低消费用户,赌博用户、非赌博用户等;对于用户爱好方面,用户类别可以包括:运动爱好者、购物爱好者、阅读爱好者、股票爱好者,等。还可以对其进行进一步划分,例如,对于运动爱好者,用户类别可以包括:篮球爱好者、足球爱好者、羽毛球爱好者、游泳爱好者等。
第一原始特征可以指待分类用户的网络操作信息、用户基本信息等。更进一步地,第一原始特征可以由输入装置(智能手机、电脑等)输入,也可以由处理器主动访问外部设备以读取待分类用户的第一原始特征。另一方面,所获取的初始特征信息(即,应用程序直接生成的网络操作信息、用户基本信息等)可能是较多较杂的信息,可以对其进行数据清洗,将其中的无效数据清除,同时,可以对这些初始特征信息进行分类,例如:待分类用户的初始特征信息有1000条,对其进行数据清洗后得到800条数据,对这800条数据进行分类,得到的第一原始特征的数量如下:好友信息200条、聊天信息400条、登录信息100条、网络言论信息100条。
S202、将所述第一原始特征输入到无监督学习的拓扑关系确定模型中;所述拓扑关系确定模型对应有目标损失函数;所述目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;所述拓扑关系特征用于表征所述待分类用户在用户关系图中的拓扑关系。
本步骤根据第一特征表达式和第二特征表达式的相关度构建拓扑关系确定模型的目标损失函数。该目标损失函数作为无监督学习的拓扑关系确定模型的损失函数,用于确定拓扑关系确定模型中的待确定的评估参数的值(也称为目标值)。需要说明的是,本发明实施例中目标损失函数的构建不需要进行监督学习,通过无监督学习就可以得到目标值,因此,对应的拓扑关系确定模型称为无监督学习的拓扑关系确定模型。
其中,第一特征表达式指的是第一原始特征对应的表达式,可以是一个符号、也可以是公式等;第二特征表达式指的是拓扑关系特征对应的表达式,同样可以是符号、公式等。另外,第一特征表达式和第二特征表达式也可以称为是节点表示。因此,通过拓扑关系确定模型确定目标拓扑关系特征的过程也可以称为图节点表示学习。
拓扑关系确定模型的优化目标函数称为损失函数。目标损失函数中包含有第一特征表达式和第二特征表达式,该第二特征表达式中包含有待确定的评估参数。待确定的评估参数指的是评估参数为未知数,在初始的拓扑关系确定模型中,它是一个符号,通过目标损失函数确定评估参数对应的目标值之后,这个拓扑关系确定模型就可以用于确定目标拓扑关系特征。在确定第一原始特征后将其代入目标损失函数中,就能确定待确定的评估参数的值,而将该目标值代入到无监督学习的拓扑关系确定模型中,就能得到目标拓扑关系特征。因此,评估参数在拓扑关系确定模型中起到模型调整的作用,不同的评估参数得到的目标拓扑关系特征是不同的。
其中,用户关系图是指由许多节点通过相互之间的连接而组成的一种数据结构,节点通常是指人或组织(在本发明实施例中即指用户),连接(称作边)往往表示某种社会关系(如亲属关系、交易行为等)。在理想的用户关系图中,包括各个节点的原始特征、节点之间的连边、连边的权重值以及连边的方向所。其中,原始特征可以用来刻画该节点的属性,例如:微信支付图中每个用户的个人信息;权重值可以用来刻画连接的紧密程度,权重越大,连接越紧密;连边的方向可以用来表示连接具有方向性,具体的,连边的方向表示用户之间的交互方向。
进一步地,在实际场景中,图的每个节点对应一个特定长度的原始特征,然而该原始特征通常只是刻画节点本身的信息,没有考虑节点与节点之间的连边关系,从而没有考虑图的拓扑信息,缺乏足够的表达能力。如图3所示,图中的圆圈分别表示用户A/B/C/D/E以及其原始特征。实际上,根据图3中的用户关系图并不能全面地获知各个用户特征信息,如果直接据此进行分类,则分类过程中考虑更多的是各个用户自身的特征,并未考虑某一用户与其他用户之间的交互状态,导致分类结果不够准确。因此,本发明实施例通过拓扑关系确定模型来确定待分类用户对应的目标拓扑关系特征,并根据目标拓扑关系特征对待分类用户进行分类,能得到准确的分类结果。
确定目标拓扑关系特征和进行用户分类的过程如S203和S204。
S203、根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征。
拓扑关系确定模型可以输出连边信息、用户亲密度等信息,据此,控制器就能获知该待分类用户的目标拓扑关系特征。
在一个实施例中,可以对用户关系图中的各个用户进行编号,例如,可以将待分类用户编号确定为0,其他用户按照相关性(也可以是按照其他信息来编号,还可以是随机编号)分别确定为1、2、3等。当然,对各个用户的编号也可以不以待分类用户为中心,而是按照特定的规则将对应的应用程序中的所有用户进行编号。
进一步地,拓扑关系确定模型输出的可以是拓扑关系特征向量,控制器根据该拓扑关系特征向量就能确定出目标拓扑关系特征。例如:假设拓扑关系确定模型输出的拓扑关系特征向量为:[1,1,1,2,0,0,3,1,2,4,1,4,5,0,0],该特征向量中每三位表示一个相邻用户对应的信息,其中,第一位为相邻用户的编号,第二位表示与待分类用户是否为好友(0表示非好友,1表示好友),第三位表示该相邻用户与待分类用户的亲密度,以其中的“1,1,1”为例,它表示编号为1的相邻用户与待分类用户为好友关系且两者的亲密度为1;控制器根据该拓扑关系特征向量就能确定出各个相邻用户与待分类用户的关系,进而得到目标拓扑关系特征。其中,相邻用户可以通过以下方式来确定:1、相邻用户可以根据用户关系图中与待分类用户是否存在连边关系来确定,这个连边关系可以通过待分类用户与其他用户是否存在交互来确定,例如:待分类用户与某一用户存在互动,如发送网络视频、进行网络支付等操作,则在用户关系图中将两者用直线连接起来;2、相邻用户也可以根据连边关系更近一步的信息来确定,例如,通过待分类用户与其他用户之间的交互信息确定他们之间的关系,如果为亲属关系、朋友关系等,则认为对应的用户为相邻用户,其他用户则为非相邻用户,将通话频率高于某个阈值(阈值的具体数值可以根据实际情况确定)的用户确定为待分类用户的相邻用户,其他用户则为非相邻用户;3、相邻用户也可以根据地域等其他因素来确定,例如:将与待分类用户同处于一个小镇的其他用户确定为待分类用户的相邻用户,而不考虑它们之间是否存在网络交互或者是否为网络好友。
现对目标拓扑关系特征说明如下:图4为一个包含有目标拓扑关系特征的用户关系图,这些用户之间用虚线连接(即节点的连边),其中,用户A(即加粗的圆圈)表示待分类用户,用户之间的连线上的数字表征的是用户之间的亲密度(即权重值)。从图4中可以看出用户A/B/C/D/E之间的好友关系。而目标拓扑关系特征指的就是图4中这些用户之间的关系,具体可以为:用户关系图中包括用户A/B/C/D/E,A-B(1)、A-C(2)、A-D(4)、B-C(5)、C-D(1)、C-E(2)、D-E(4)互为好友,B/C/D为待分类用户A的相邻用户,E为待分类用户的非相邻用户,其中,待分类用户A的用户基本信息为XXX。具体,通过目标拓扑关系特征就能获知待分类用户A的特征,并对其进行准确分类,即可以通过图节点表示学习来研究如何有机融合节点的原始特征以及图节点的拓扑结构,以便得到每个节点更富有信息量的表达,为下游任务如商品推荐、关系预测等提供更强的信息参考。
S204、根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
网络用户好友之间往往能够对用户类别进行印证,因此,在获取到目标拓扑关系特征之后,就能据此对待分类用户进行分类,以确定其对应的用户类别。
进一步地,在一个实施例中,所述根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别的步骤,包括:根据所述目标拓扑关系特征,更新所述用户关系图;根据更新后的所述用户关系图,确定所述待分类用户对应的用户类别。具体的,初始的用户关系图如图3所示,更新后的用户关系图如图4所示,此时,控制器可以根据图4对待分类用户进行分类,例如,根据图4连线上的数字大小,数字大则表示对应的两个用户关系亲密,因此,可以将待分类用户A与用户D/E归为一类。
进一步地,可以根据连边权重更新用户之间的位置关系,即权重更大的连边用更短的线表示,更新后的用户关系图可以如图5所示,501表示待分类用户A所在的用户类别中包含的用户。
本发明实施例提供的基于无监督学习的用户分类方法,获取待分类用户的第一原始特征,根据第一原始特征对应的表达式和拓扑关系特征对应的表达式的相关度构建目标损失函数,依据该目标损失函数构建的拓扑关系确定模型是无监督学习的,在不需要人工提供用户标签的情况下,就能实现对网络用户的准确分类,能有效降低网络用户分类的成本。
在一个实施例中,所述用户关系图中还包含有初始分类评估用户,所述初始分类评估用户为所述用户关系图中与所述待分类用户的节点相邻的所有节点对应的用户;所述方法还包括以下步骤:获取所述用户关系图的邻接矩阵;根据所述邻接矩阵确定所述待分类用户的初始分类评估用户;从所述初始分类评估用户中取样得到所述目标分类评估用户。
其中,用户关系图的邻接矩阵可以从应用程序的后台数据中获取得到,该邻接矩阵表征了应用程序中各个用户之间的连接关系。控制器在获取到邻接矩阵之后,能够根据连接关系确定初始分类评估用户,例如:将与待分类用户存在连边的用户确定为相邻用户,其他用户则确定为非相邻用户(如图4所示,B/C/D为待分类用户A的相邻用户,E为待分类用户的非相邻用户)。
进一步地,待分类用户的好友数量可能较多(例如:一百万个,甚至一千万个),而其中可能存在僵尸好友(可以指没有互动的好友或者相关性过小),因此,可以将待分类用户的所有好友确定为初始分类评估用户,进而对这些初始分类评估用户进行清洗处理,清洗处理后得到候选分类评估用户,从候选分类评估用户中取样得到目标分类评估用户。
其中,对初始分类评估用户进行清洗的过程可以是:根据待分类用户与初始分类评估用户的互动次数,所在区域、所关注的资讯等的相似性,计算待分类用户与初始分类评估用户之间的相关性,将相似性低于某一阈值的初始分类评估用户去除掉,剩下的即为候选分类评估用户。也可以将信息不够全面的初始分类评估用户去除掉。
从候选分类评估用户中取样得到目标分类评估用户可以是:按照一定的取样频率从候选分类评估用户中取样得到目标分类评估用户,这个取样频率可以根据需要确定,可以为1/256等。取样也可以是按照变化的取样频率进行,例如,不同时间对应的取样率不同:9:01-17:00的取样率为1/256,17:01-24:00的取样频率为1/300,00:01-9:00的取样频率为1/200。另外,还可以不按照取样频率进行取样,而是按照设定取样条件进行取样,这个取样条件可以是用户性别、用户所在区域、登录时间等所需满足的条件。
应用程序的用户数量往往较大,如果对每一个都进行分析,则需要较大的运算量。本实施例提供的基于无监督学习的用户分类方法,从初始分类评估用户中取样得到目标分类评估用户,能有效减低运算量,提高用户分类的效率,进而降低网络用户分类的成本。
在一个实施例中,获取待分类用户的第一原始特征的步骤,包括:获取所述待分类用户的原始特征向量,作为所述第一原始特征;所述根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征的步骤,包括:根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标特征向量,作为所述目标拓扑关系特征。
其中,原始特征向量可以根据待分类用户的网络操作信息、用户基本信息等确定。原始特征向量与目标特征向量的形式可以相同也可以不同。
具体的,对原始特征向量举例如下:[1,1,1,2,0,0,3,1,1,4,1,1,5,0,0],该特征向量中每三位表示一个相邻用户对应的信息,其中,第一位为相邻用户的编号,第二位表示与待分类用户是否为好友(0表示非好友,1表示好友),第三位表示该相邻用户与待分类用户是否有交互操作,以其中的“1,1,1”为例,它表示编号为1的相邻用户与待分类用户为好友关系且两者的存在交互操作。经过拓扑关系确定模型分析得到的目标特征向量为:[1,1,1,2,0,0,3,1,2,4,1,4,5,0,0],从目标特征向量可以看出,其中,包含有待分类用户与相邻用户之间的亲密度,处理器据此就能更新用户关系图,并对待分类用户进行分类。
在一个实施例中,为了确定目标拓扑关系特征,即进行图(这个图即指用户关系图)的节点表示,需要一个带有参数的机器学习模型(在本发明实施例中,即为拓扑关系确定模型)。通过应用程序中的网络操作信息、用户基本信息等训练样本,对初始的拓扑关系确定模型进行训练,如果在训练过程中提供节点的标签来训练模型的参数则成为监督式学习,否则成为无监督学习。而本发明实施例中的拓扑关系确定模型就是无监督学习模型,不需要人工为其提供用户分类标签。其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在一个实施例中,所述用户关系图中还包含有目标分类评估用户,所述目标分类评估用户为所述用户关系图中与所述待分类用户的节点相邻的节点对应的用户;所述将所述第一原始特征输入到无监督学习的拓扑关系确定模型中的步骤之前,还包括构建拓扑关系确定模型的过程,具体为:获取第三特征表达式,以及所述目标分类评估用户与所述待分类用户之间的权重表达式;所述第三特征表达式为所述目标分类评估用户对应的第二原始特征的表达式;根据所述第三特征表达式、所述权重表达式以及待确定的评估参数,得到所述无监督学习的拓扑关系确定模型。
其中,第三特征表达式与第一特征表达式含义一样,只是第三特征表达式对应的是目标分类评估用户,而第一特征表达式对应的是待分类用户。目标分类评估用户与待分类用户之间的权重表达式可以指两者是否为好友或者好友亲密度的标识符号,例如,权重表达式的初始值可以为0或者1,0表示非好友,1表示是好友,在经过拓扑关系确定模型的训练过程后,可以将权重表达式对应的值确定为亲密度,例如1-10,1表示亲密度弱,10表示亲密度强。
无监督学习的拓扑关系确定模型可以是对第三特征表达式、权重表达式以及待确定的评估参数进行一定的运算得到的表达式,这个运算可以是求和、求乘积、计算加权和等。
具体的,所述根据所述第三特征表达式、所述权重表达式以及待确定的评估参数,得到所述无监督学习的拓扑关系确定模型的步骤,包括:计算所述第三特征表达式、所述权重表达式以及所述待确定的评估参数的乘积之和,得到所述无监督学习的拓扑关系确定模型。
进一步地,所得到的无监督学习的拓扑关系确定模型如下:
Figure BDA0002241372590000121
其中,vi表示待分类用户对应的节点,vj表示所述目标分类评估用户对应的节点,N表示目标分类评估用户的数量,W表示待确定的评估参数,h(vi)表示节点vi的第一特征表达式,h(vj)表示节点vj的第三特征表达式,h1(vi)表示节点vi的第二特征表达式,表示目标分类评估用户与所述待分类用户之间的权重表达式。进一步地,每个目标分类评估用户可以对应有一个待确定的评估参数,可以通过目标损失函数分别确定这些待确定的评估参数,代入到上述公式(1)中,进而目标拓扑关系特征;当然,待确定的评估参数也可以为一个,即通过目标损失函数确定的唯一目标值。
根据上述公式(1),在待确定的评估参数的目标值已经求解得到时,在获取到用户关系图后,根据用户关系图中的用户基本信息就能得知第二原始特征以及对应的权重,将第二原始特征替换无监督学习的拓扑关系确定模型的第三特征表达式,将权重替换权重表达式,就能得到拓扑关系确定模型的输出,进而确定出目标拓扑关系特征。
本实施例提供的基于无监督学习的用户分类方法,根据目标分类评估用户与待分类用户的权重以及待确定的评估参数等构建无监督学习的拓扑关系确定模型,所确定的模型充分考虑了用户之间的关系,使得所确定的目标拓扑关系特征具有较高的准确性,进而可以得到准确的用户分类结果。
从前述实施例可以看出,无监督学习的拓扑关系确定模型中的第三特征表达式和权重表达式对应的具体内容都可以直接获取,因此,待确定的评估参数就成了未知数,因此,有必要通过一定的方式确定待确定的评估参数对应的目标值。
在一个实施例中,所述将所述第一原始特征输入到无监督学习的拓扑关系确定模型中的步骤,包括:将所述第一原始特征输入到所述目标损失函数中;最小化所述目标损失函数,得到所述待确定的评估参数的目标值;将所述目标值输入到所述无监督学习的拓扑关系确定模型中。
在最小化目标损失函数的过程中,可以先对待确定的评估参数进行初始化(这个初始化可以根据实际情况确定,也可以随机确定),根据初始化后的待确定的评估参数确定各个目标分类评估用户对应的目标值,并根据这些目标值确定目标拓扑关系特征。当然,也可以在确定一个目标分类评估用户对应的目标值a后,通过目标值a对初始化的目标值进行更新,并确定下一个目标分类评估用户对应的目标值b,通过目标值b对前一步骤更新后的目标值进行更新,以此类推,直到确定完最后一个目标分类评估用户对应的目标值。其中,对目标值进行更新可以通过如下公式进行:
W=W-α▽W,
其中,α表示学习力,其值可以根据实际情况确定,例如,取值为0.001。
本发明实施例通过最小化目标损失函数的方式确定待确定的评估参数的目标值,进而将目标值输入到拓扑关系确定模型中,以得到对应的目标拓扑关系特征,确定过程简单,能有效提高用户分类的效率。
传统的监督式拓扑关系确定模型,通过GCN(图卷积网络)等机器学习模型来更新节点的特征向量,通过更新后的特征向量来对待分类用户进行分类。这种监督式方法允许每个节点vi获得人工的标注标签yi,并通过交叉熵来构建损失函数:
Figure BDA0002241372590000141
其中,
Figure BDA0002241372590000142
代表h1(vi)的第k个分量,exp(·)和log(·)分别为指数、对数函数。
Figure BDA0002241372590000143
中包含有待确定的评估参数W(如上述公式(1)),因此通过最小化上述公式(2)就能得到待确定的评估参数W的目标值。
为了构建损失函数(即公式(2)),我们需要为每个节点提供人工标签。然而这在实际中是很难满足的,特别是当需要处理亿级以上节点的网络时,给每个节点都标注会耗费大量的人力,非常昂贵。因此,有必要确定一种不需要提供人工标签就能确定待确定的评估参数的目标值的方法。
另外,无监督节点表示学习方法主要面临以下挑战:1)在不提供节点标签的情况下如何设置有效的损失函数来训练模型的参数。对于监督式学习,可以通过最小化模型对每个节点的预测和人工提供的节点标签之间的区别作为损失函数训练模型参数。但是对于无监督学习,没有人工提供的节点标签,所以难以计算损失函数;2)如何设计有效的损失函数来使得学习出的节点表示同时包含节点的原始特征以及图拓扑信息(即图中的连边以及权重值)。本发明实施例通过互信息来构建了不需要标注的损失函数来训练模型参数(即确定待确定的评估参数的目标值),不需要人工提供节点标签,同时,最终得到的目标拓扑关系特征同时包含节点的原始特征以及图拓扑信息,使得方法具有更广阔的应用潜力。
在一个实施例中,所述将所述第一原始特征输入到无监督学习的拓扑关系确定模型中的步骤之前,还包括:获取所述第一特征表达式和所述第二特征表达式;根据所述相关度、所述第一特征表达式和所述第二特征表达式,构建目标损失函数。
其中,相关度可以通过互信息来表示。所述根据所述相关度、所述第一特征表达式和所述第二特征表达式,构建目标损失函数的步骤,包括:确定所述第一特征表达式和所述第二特征表达式的互信息表达式;所述互信息表达式用于表征所述相关度;根据所述互信息表达式,得到所述目标损失函数。
具体的,可以通过公式(1)获得每个节点的表示h1(v1),…,h1(vN),此时没有节点标签,不能直接通过公式(2)来训练模型参数。为了构造和节点标签无关的损失函数,本发明实施用互信息来计算输出和输入之间的相关度。对于两个随机变量x,y,它们之间的互信息定义为:
Figure BDA0002241372590000151
其中,互信息越大,说明两者越相关,反之,越不相关。
具体到本发明实施例中,所述根据所述互信息表达式,得到所述目标损失函数的步骤,包括:获取所述用户关系图中各个用户对应的互信息表达式;确定所述各个用户对应的互信息表达式的平均值表达式,将所述平均值表达式确定为所述目标损失函数,所得到的目标损失函数如下:
Figure BDA0002241372590000152
其中,L′表示目标损失函数,vi表示待分类用户对应的节点,N表示目标分类评估用户的数量,h(vi)表示节点vi的第一特征表达式,h1(vi)表示节点vi的第二特征表达式,I(h1(vi);h(vi))表示互信息表达式。
本发明实施例的目标是保留输入的信息,因此通过最大化输出和输入的互信息来定义目标损失函数。对于每个节点vi的输出h1(vi),希望能保留该节点的输入h(vi)的信息,因此计算所有节点输出和输入之间的平均互信息作为新的损失函数,但是互信息的计算(如公式(3)所示)需要涉及概率密度函数,而概率密度函数是难以估计。因此可以将互信息转换成以下形式进行近似计算:
Figure BDA0002241372590000153
其中,
f(x,y)=xWfy,其中,Wf表示评价参数,具体到本发明实施例中,可以认为是h1(vi)和h(vi)相乘的权重。
Figure BDA0002241372590000161
是从所有初始节点中均匀采样出来的B个节点,即目标分类评估用户对应的节点。将公式(5)带入公式(4)就是完整的目标损失函数,从而通过最小化该目标损失函数(即最大化输入输出之间的互信息)来训练模型的评价参数Wf和待确定的评估参数W。
本实施例提供的基于无监督学习的用户分类方法,通过计算节点输出和输入之间的互信息,然后通过最大化该互信息来训练模型的参数(包括待确定的评估参数和评价参数),从而达到无监督表示学习的目的,摆脱了传统方法对数据标注的依赖,具有非常广泛的应用前景。
当然,在不提供节点标注的前提下,构造模型训练的损失函数还有很多,比如可以利用节点的输出来重构图的拓扑结构(例如边)来定义优化目标损失函数,重构得越好代表表示学习得越好,当重构效果满足一定条件时认为目标损失函数满足条件,进而确定对应的目标拓扑关系特征。
本发明实施例提供的基于无监督学习的用户分类方法应用广泛,可以用于微信支付网络中黑产用户(如传销、赌博等)的发现中。具体而言,可以获取若干微信用户的支付信息,根据这些支付信息构建无监督学习的拓扑关系确定模型。当需要对用户A进行分类时,获取用户A的支付信息作为第一原始特征,输入到所构建的无监督学习的拓扑关系确定模型中,获取拓扑关系特征的输出,根据该输出确定用户A的目标拓扑关系特征,进而根据目标拓扑关系特征确定用户A是否为赌博用户,例如:根据目标拓扑关系特征可以确定其特征信息以及相邻用户,根据特征信息、以及这些相邻用户是否为赌博用户以及用户A与这些相邻用户之间的亲密度,就可以确定出用户A是否为赌博用户。
在一个实施例中,在确定待分类用户的用户类别之后,可以通过显示器显示分类结果。也可以根据这个分类结果确定与该待分类用户对应的网络操作,并进一步执行该网络操作。其中,该网络操作可以包括赌博用户监控。如果确定该待分类用户为赌博用户,则可以将该待分类用户进行封号操作,或者限制其支付频率或支付金额等。
在一些实施例中,该网络操作还可以包括商品推荐等。例如,如果确定该待分类用户为运动爱好者,则可以向其推荐运动产品、运动培训课程等。
在一个实施例中,如图6所示,以下详细阐述一个本发明基于无监督学习的用户分类方法的应用实例。
S601、获取用户关系图的邻接矩阵;根据所述邻接矩阵确定待分类用户的初始分类评估用户;所述初始分类评估用户为所述用户关系图中与所述待分类用户的节点相邻的所有节点对应的用户。
S602、从所述初始分类评估用户中取样得到目标分类评估用户。
S603、获取第三特征表达式,以及所述目标分类评估用户与所述待分类用户之间的权重表达式;所述第三特征表达式为所述目标分类评估用户对应的第二原始特征的表达式。
S604、计算所述第三特征表达式、所述权重表达式以及待确定的评估参数的乘积之和,得到无监督学习的拓扑关系确定模型。
S605、获取第一特征表达式和第二特征表达式;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;其中,第二特征表达式中包含有待确定的评估参数。
S606、确定所述第一特征表达式和所述第二特征表达式的互信息表达式,作为所述待分类用户对应的互信息表达式。
S607、按照所述待分类用户对应的互信息表达式的确定方法,确定各个目标分类评估用户对应的互信息表达式。
S608、确定所述各个用户对应的互信息表达式的平均值表达式,将所述平均值表达式确定为所述目标损失函数。
S609、获取所述待分类用户的原始特征向量,作为第一原始特征。
S610、将所述第一原始特征输入到所述目标损失函数中。
S611、最小化所述目标损失函数,得到所述待确定的评估参数的目标值。
S612、将所述目标值输入到所述拓扑关系确定模型中。
S613、根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标特征向量,作为所述目标拓扑关系特征。
S614、根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
本实施例提供的基于无监督学习的用户分类方法,根据第一特征表达式和第二特征表达式的相关度构建目标损失函数,依据该目标损失函数构建的拓扑关系确定模型是无监督学习的,将待分类用户的第一原始特征输入到该无监督学习的拓扑关系确定模型中,根据拓扑关系确定模型的输出,得到待分类用户的目标拓扑关系特征;并根据该目标拓扑关系特征,确定待分类用户对应的用户类别。在不需要人工提供用户标签的情况下,就能实现对用户的准确分类,能有效降低用户分类的成本。
为了更好地理解上述方法,在一个实施例中,如图7所示,以下详细阐述一个本发明基于无监督学习的用户分类方法的应用实例。
S701、获取图节点信息,根据图节点信息确定待分类用户的第一原始特征。
S702、随机初始化评估参数的目标值。
S703、令t=0,其中t表示当前训练的次数。
S704、令i=1。
S705、获取无监督学习的拓扑关系确定模型。
S706、判断i是否小于M+1,如果i小于M+1,则执行S707;如果i大于或等于M+1,则执行S709。其中,i表示当前对应的初始分类评估用户,M表示用户节点关系图中初始分类评估用户的总数量。
S707、确定第一特征表达式和第二特征表达式的互信息表达式,得到目标损失函数,其中,第二特征表达式中包含有评估参数。
S708、令i=i+1,并返回执行S706。
S709、将第一原始特征输入到目标损失函数中,通过目标损失函数确定评估参数的目标值。
S710、更新目标值(包括对W和Wf目标值的更新,对Wf目标值的更新按照对W目标值进行更新的公式进行更新)。
S711、令t=t+1。
S712、如果t小于10000(其中,10000表示训练的次数上限值,具体数值也可以根据实际情况调整),则返回执行S704;如果t大于或等于10000,则执行S713。
S713、确定目标拓扑关系特征。
S714、根据目标拓扑关系特征,确定待分类用户对应的用户类别。
传统技术可以直接通过收集节点本身的信息得到节点的原始特征来进行图的节点表示,但是该特征没有考虑节点之间的连边关系,缺乏足够的表达能力。而目前利用机器学习方法对图节点的表示进行机器学习方面的研究还比较少,特别是,目前大多数方法都是监督式的,无监督的图节点表示学习方法几乎没有研究。而在社交网络分析中,往往很难得到每个节点用户的标签信息,而由于社交网络涉及亿级以上的用户量,利用人工对其进行标注也是非常昂贵和不现实。
本发明实施例提供的基于无监督学习的用户分类方法通过衡量节点的表示和原始特征之间的相关度(即互信息)来构建损失函数,从而训练机器学习模型的参数。不需要人工提供节点标签,具有较好的实用前景。同时,本方法可以应用到用户推荐、微信好友分类、网络安防系统监控、智能商品推荐、不良用户监控、知识图谱构建以及药物发现等场景中。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的基于无监督学习的用户分类方法相同的思想,本发明还提供基于无监督学习的用户分类装置,该装置可用于执行上述基于无监督学习的用户分类方法。为了便于说明,基于无监督学习的用户分类装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在一个实施例中,如图8所示,提供一种基于无监督学习的用户分类装置800,包括原始特征获取模块801、特征输入模块802、拓扑关系确定模块803和用户类别确定模块804,详细说明如下:
原始特征获取模块801,用于获取待分类用户的第一原始特征。
特征输入模块802,用于将所述第一原始特征输入到无监督学习的拓扑关系确定模型中;所述拓扑关系确定模型对应有目标损失函数;所述目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;所述拓扑关系特征用于表征所述待分类用户在用户关系图中的拓扑关系。
拓扑关系确定模块803,用于根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征。
用户类别确定模块804,用于根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
本实施例提供基于无监督学习的用户分类装置,根据第一特征表达式和第二特征表达式的相关度构建目标损失函数,依据该目标损失函数构建的拓扑关系确定模型是无监督学习的,将待分类用户的第一原始特征输入到该无监督学习的拓扑关系确定模型中,根据拓扑关系确定模型的输出,得到待分类用户的目标拓扑关系特征;并根据该目标拓扑关系特征,确定待分类用户对应的用户类别。在不需要人工提供用户标签的情况下,就能实现对用户的准确分类,能有效降低用户分类的成本。
在一个实施例中,所述用户关系图中还包含有目标分类评估用户,所述目标分类评估用户为所述用户关系图中与所述待分类用户的节点相邻的节点对应的用户;基于无监督学习的用户分类装置800,还包括:信息获取模块,用于获取第三特征表达式,以及所述目标分类评估用户与所述待分类用户之间的权重表达式;所述第三特征表达式为所述目标分类评估用户对应的第二原始特征的表达式;拓扑模型确定模块,用于根据所述第三特征表达式、所述权重表达式以及待确定的评估参数,得到所述无监督学习的拓扑关系确定模型。
在一个实施例中,信息获取模块,还用于计算所述第三特征表达式、所述权重表达式以及所述待确定的评估参数的乘积之和,得到所述无监督学习的拓扑关系确定模型。
在一个实施例中,信息获取模块,还用于计算所述第三特征表达式、所述权重表达式以及所述待确定的评估参数的乘积之和,所得到的无监督学习的拓扑关系确定模型如下:
Figure BDA0002241372590000211
其中,vi表示待分类用户对应的节点,vj表示所述目标分类评估用户对应的节点,N表示目标分类评估用户的数量,W表示待确定的评估参数,h(vi)表示节点vi的第一特征表达式,h(vj)表示节点vj的第三特征表达式,h1(vi)表示节点vi的第二特征表达式,
Figure BDA0002241372590000212
表示目标分类评估用户与所述待分类用户之间的权重表达式。
在一个实施例中,特征输入模块802,包括:特征输入子模块,用于将所述第一原始特征输入到所述目标损失函数中;目标值确定子模块,用于最小化所述目标损失函数,得到所述待确定的评估参数的目标值;目标值输入子模块,用于将所述目标值输入到所述无监督学习的拓扑关系确定模型中。
在一个实施例中,基于无监督学习的用户分类装置800,还包括:拓扑表达式获取模块,用于获取所述第一特征表达式和所述第二特征表达式;损失函数构建模块,用于根据所述相关度、所述第一特征表达式和所述第二特征表达式,构建目标损失函数。
在一个实施例中,损失函数构建模块,包括:表达式确定子模块,用于确定所述第一特征表达式和所述第二特征表达式的互信息表达式;所述互信息表达式用于表征所述相关度;损失函数确定子模块,用于根据所述互信息表达式,得到所述目标损失函数。
在一个实施例中,损失函数确定子模块,包括:表达式获取单元,用于获取所述用户关系图中各个用户对应的互信息表达式;损失函数确定单元,用于确定所述各个用户对应的互信息表达式的平均值表达式,将所述平均值表达式确定为所述目标损失函数。
在一个实施例中,损失函数确定单元,还用于确定所述各个用户对应的互信息表达式的平均值表达式,根据所述平均值表达式所得到的目标损失函数如下:
Figure BDA0002241372590000213
其中,L′表示目标损失函数,vi表示待分类用户对应的节点,N表示目标分类评估用户的数量,h(vi)表示节点vi的第一特征表达式,h1(vi)表示节点vi的第二特征表达式,I(h1(vi);h(vi))表示互信息表达式。
在一个实施例中,基于无监督学习的用户分类装置800,还包括:邻接矩阵获取模块,用于获取所述用户关系图的邻接矩阵;相邻用户确定模块,用于根据所述邻接矩阵确定所述待分类用户的初始分类评估用户;所述初始分类评估用户为所述用户关系图中与所述待分类用户的节点相邻的所有节点对应的用户;目标用户确定模块,用于从所述初始分类评估用户中取样得到所述目标分类评估用户。
在一个实施例中,原始特征获取模块801,还用于获取所述待分类用户的原始特征向量,作为所述第一原始特征;拓扑关系确定模块803,还用于根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标特征向量,作为所述目标拓扑关系特征。
在一个实施例中,用户类别确定模块804,包括:关系图更新子模块,用于根据所述目标拓扑关系特征,更新所述用户关系图;用户类别确定子模块,用于根据更新后的所述用户关系图,确定所述待分类用户对应的用户类别。
需要说明的是,本发明的基于无监督学习的用户分类装置与本发明的基于无监督学习的用户分类方法一一对应,在上述基于无监督学习的用户分类方法的实施例阐述的技术特征及其有益效果均适用于基于无监督学习的用户分类装置的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述示例的基于无监督学习的用户分类装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于无监督学习的用户分类装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
在一个实施例中,本申请提供的基于无监督学习的用户分类装置可以实现为一种计算机程序的形式,计算机程序可在如图1所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于无监督学习的用户分类装置的各个程序模块,比如,图8所示的原始特征获取模块801、特征输入模块802、拓扑关系确定模块803和用户类别确定模块804。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于无监督学习的用户分类方法中的步骤。
例如,图1所示的计算机设备可以通过如图8所示的基于无监督学习的用户分类装置中的原始特征获取模块801执行S201,可通过特征输入模块802执行S202,可通过拓扑关系确定模块803执行S203,可通过用户类别确定模块804执行S204。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于无监督学习的用户分类方法的步骤。此处基于无监督学习的用户分类方法的步骤可以是上述各个实施例的基于无监督学习的用户分类方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于无监督学习的用户分类方法的步骤。此处基于无监督学习的用户分类方法的步骤可以是上述各个实施例的基于无监督学习的用户分类方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种基于无监督学习的用户分类方法,其特征在于,包括:
获取待分类用户的第一原始特征;
将所述第一原始特征输入到无监督学习的拓扑关系确定模型中;所述拓扑关系确定模型对应有目标损失函数;所述目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;所述拓扑关系特征用于表征所述待分类用户在用户关系图中的拓扑关系;
根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征;
根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
2.根据权利要求1所述的方法,其特征在于,所述用户关系图中还包含有目标分类评估用户,所述目标分类评估用户为所述用户关系图中与所述待分类用户的节点相邻的节点对应的用户;
所述将所述第一原始特征输入到无监督学习的拓扑关系确定模型中的步骤之前,还包括:
获取第三特征表达式,以及所述目标分类评估用户与所述待分类用户之间的权重表达式;所述第三特征表达式为所述目标分类评估用户对应的第二原始特征的表达式;
根据所述第三特征表达式、所述权重表达式以及待确定的评估参数,得到所述无监督学习的拓扑关系确定模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第三特征表达式、所述权重表达式以及待确定的评估参数,得到所述无监督学习的拓扑关系确定模型的步骤,包括:
计算所述第三特征表达式、所述权重表达式以及所述待确定的评估参数的乘积之和,得到所述无监督学习的拓扑关系确定模型。
4.根据权利要求3所述的方法,其特征在于,所述计算所述第三特征表达式、所述权重表达式以及所述待确定的评估参数的乘积之和,得到所述无监督学习的拓扑关系确定模型的步骤,包括:
计算所述第三特征表达式、所述权重表达式以及所述待确定的评估参数的乘积之和,所得到的无监督学习的拓扑关系确定模型如下:
Figure FDA0002241372580000021
其中,vi表示待分类用户对应的节点,vj表示所述目标分类评估用户对应的节点,N表示目标分类评估用户的数量,W表示待确定的评估参数,h(vi)表示节点vi的第一特征表达式,h(vj)表示节点vj的第三特征表达式,h1(vi)表示节点vi的第二特征表达式,
Figure FDA0002241372580000022
表示所述目标分类评估用户与所述待分类用户之间的权重表达式。
5.根据权利要求4所述的方法,其特征在于,所述将所述第一原始特征输入到无监督学习的拓扑关系确定模型中的步骤,包括:
将所述第一原始特征输入到所述目标损失函数中;
最小化所述目标损失函数,得到所述待确定的评估参数的目标值;
将所述目标值输入到所述无监督学习的拓扑关系确定模型中。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一原始特征输入到无监督学习的拓扑关系确定模型中的步骤之前,还包括:
获取所述第一特征表达式和所述第二特征表达式;
根据所述相关度、所述第一特征表达式和所述第二特征表达式,构建目标损失函数。
7.根据权利要求6所述的方法,其特征在于,所述根据所述相关度、所述第一特征表达式和所述第二特征表达式,构建目标损失函数的步骤,包括:
确定所述第一特征表达式和所述第二特征表达式的互信息表达式;所述互信息表达式用于表征所述相关度;
根据所述互信息表达式,得到所述目标损失函数。
8.根据权利要求7所述的方法,其特征在于,所述根据所述互信息表达式,得到所述目标损失函数的步骤,包括:
获取所述用户关系图中各个用户对应的互信息表达式;
确定所述各个用户对应的互信息表达式的平均值表达式,将所述平均值表达式确定为所述目标损失函数。
9.根据权利要求8所述的方法,其特征在于,所述确定所述各个用户对应的互信息表达式的平均值表达式,将所述平均值表达式确定为所述目标损失函数的步骤,包括:
确定所述各个用户对应的互信息表达式的平均值表达式,根据所述平均值表达式所得到的目标损失函数如下:
Figure FDA0002241372580000031
其中,L′表示目标损失函数,vi表示待分类用户对应的节点,N表示目标分类评估用户的数量,h(vi)表示节点vi的第一特征表达式,h1(vi)表示节点vi的第二特征表达式,I(h1(vi);h(vi))表示互信息表达式。
10.根据权利要求2所述的方法,其特征在于,所述获取目标分类评估用户的第三特征表达式,以及所述目标分类评估用户与所述待分类用户之间的权重表达式的步骤之前,还包括:
获取所述用户关系图的邻接矩阵;
根据所述邻接矩阵确定所述待分类用户的初始分类评估用户;所述初始分类评估用户为所述用户关系图中与所述待分类用户的节点相邻的所有节点对应的用户;
从所述初始分类评估用户中取样得到所述目标分类评估用户。
11.根据权利要求1至10任一项所述的方法,其特征在于,
所述获取待分类用户的第一原始特征的步骤,包括:
获取所述待分类用户的原始特征向量,作为所述第一原始特征;
所述根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征的步骤,包括:
根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标特征向量,作为所述目标拓扑关系特征。
12.根据权利要求1至10任一项所述的方法,其特征在于,所述根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别的步骤,包括:
根据所述目标拓扑关系特征,更新所述用户关系图;
根据更新后的所述用户关系图,确定所述待分类用户对应的用户类别。
13.一种基于无监督学习的用户分类装置,其特征在于,包括:
原始特征获取模块,用于获取待分类用户的第一原始特征;
特征输入模块,用于将所述第一原始特征输入到无监督学习的拓扑关系确定模型中;所述拓扑关系确定模型对应有目标损失函数;所述目标损失函数根据第一特征表达式和第二特征表达式的相关度构建;所述第一特征表达式为所述第一原始特征对应的表达式,所述第二特征表达式为拓扑关系特征对应的表达式;所述拓扑关系特征用于表征所述待分类用户在用户关系图中的拓扑关系;
拓扑关系确定模块,用于根据所述拓扑关系确定模型的输出,得到所述待分类用户的目标拓扑关系特征;
用户类别确定模块,用于根据所述目标拓扑关系特征,确定所述待分类用户对应的用户类别。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12任一项所述的方法的步骤。
CN201911001169.8A 2019-10-21 2019-10-21 基于无监督学习的用户分类方法、装置、设备及存储介质 Active CN110737730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911001169.8A CN110737730B (zh) 2019-10-21 2019-10-21 基于无监督学习的用户分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911001169.8A CN110737730B (zh) 2019-10-21 2019-10-21 基于无监督学习的用户分类方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110737730A true CN110737730A (zh) 2020-01-31
CN110737730B CN110737730B (zh) 2024-03-26

Family

ID=69270324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911001169.8A Active CN110737730B (zh) 2019-10-21 2019-10-21 基于无监督学习的用户分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110737730B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814842A (zh) * 2020-06-17 2020-10-23 北京邮电大学 基于多通路图卷积神经网络的对象分类方法及装置
CN112232891A (zh) * 2020-12-10 2021-01-15 杭州次元岛科技有限公司 一种基于大数据分析的客户匹配方法和装置
CN113177602A (zh) * 2021-05-11 2021-07-27 上海交通大学 图像分类方法、装置、电子设备和存储介质
CN113657915A (zh) * 2020-05-12 2021-11-16 杭州海康威视数字技术股份有限公司 一种潜在用户推荐方法、装置、电子设备及可读存储介质
CN114254187A (zh) * 2021-12-10 2022-03-29 重庆邮电大学 基于自适应降噪训练的推荐方法、系统、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804704A (zh) * 2018-06-19 2018-11-13 北京顶象技术有限公司 一种用户深度画像方法及装置
US20190251480A1 (en) * 2018-02-09 2019-08-15 NEC Laboratories Europe GmbH Method and system for learning of classifier-independent node representations which carry class label information
CN110163344A (zh) * 2019-04-26 2019-08-23 北京迈格威科技有限公司 神经网络训练方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190251480A1 (en) * 2018-02-09 2019-08-15 NEC Laboratories Europe GmbH Method and system for learning of classifier-independent node representations which carry class label information
CN108804704A (zh) * 2018-06-19 2018-11-13 北京顶象技术有限公司 一种用户深度画像方法及装置
CN110163344A (zh) * 2019-04-26 2019-08-23 北京迈格威科技有限公司 神经网络训练方法、装置、设备和存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657915A (zh) * 2020-05-12 2021-11-16 杭州海康威视数字技术股份有限公司 一种潜在用户推荐方法、装置、电子设备及可读存储介质
CN113657915B (zh) * 2020-05-12 2024-04-05 杭州海康威视数字技术股份有限公司 一种潜在用户推荐方法、装置、电子设备及可读存储介质
CN111814842A (zh) * 2020-06-17 2020-10-23 北京邮电大学 基于多通路图卷积神经网络的对象分类方法及装置
CN111814842B (zh) * 2020-06-17 2023-11-03 北京邮电大学 基于多通路图卷积神经网络的对象分类方法及装置
CN112232891A (zh) * 2020-12-10 2021-01-15 杭州次元岛科技有限公司 一种基于大数据分析的客户匹配方法和装置
CN113177602A (zh) * 2021-05-11 2021-07-27 上海交通大学 图像分类方法、装置、电子设备和存储介质
CN113177602B (zh) * 2021-05-11 2023-05-26 上海交通大学 图像分类方法、装置、电子设备和存储介质
CN114254187A (zh) * 2021-12-10 2022-03-29 重庆邮电大学 基于自适应降噪训练的推荐方法、系统、电子设备及介质

Also Published As

Publication number Publication date
CN110737730B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN110737730A (zh) 基于无监督学习的用户分类方法、装置、设备及存储介质
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
CN111931062A (zh) 一种信息推荐模型的训练方法和相关装置
CN113705772A (zh) 一种模型训练方法、装置、设备及可读存储介质
CN111523047A (zh) 基于图神经网络的多关系协同过滤算法
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN112905876A (zh) 基于深度学习的信息推送方法、装置和计算机设备
CN111291618A (zh) 标注方法、装置、服务器和存储介质
CN117216281A (zh) 一种基于知识图谱的用户兴趣扩散推荐方法及系统
CN110807693A (zh) 专辑的推荐方法、装置、设备和存储介质
CN116764236A (zh) 游戏道具推荐方法、装置、计算机设备和存储介质
CN113609306A (zh) 对抗残差图变分自编码器的社交网络链接预测方法及系统
CN113643283A (zh) 一种人体衰老状况的检测方法、装置、设备及存储介质
CN109886299B (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN106096653B (zh) 基于跨平台用户社交多媒体行为的人口属性推断方法
CN117392714A (zh) 基于半监督学习的人脸美丽预测方法、设备及介质
CN114936327B (zh) 元素识别模型的获取方法、装置、计算机设备和存储介质
CN116720009A (zh) 一种社交机器人检测方法、装置、设备及存储介质
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN114862496A (zh) 一种基于用户个性化建模的会话推荐方法、装置及介质
CN113590720A (zh) 数据分类方法、装置、计算机设备和存储介质
CN112488355A (zh) 基于图神经网络预测用户评级的方法和装置
CN113495986A (zh) 数据处理的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020139

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant