CN111159576B - 一种用户分类方法、装置及系统 - Google Patents

一种用户分类方法、装置及系统 Download PDF

Info

Publication number
CN111159576B
CN111159576B CN201911418081.6A CN201911418081A CN111159576B CN 111159576 B CN111159576 B CN 111159576B CN 201911418081 A CN201911418081 A CN 201911418081A CN 111159576 B CN111159576 B CN 111159576B
Authority
CN
China
Prior art keywords
user
users
community
similarity
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911418081.6A
Other languages
English (en)
Other versions
CN111159576A (zh
Inventor
潘小健
朱学帅
乔吉良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo Technologies China Inc
Original Assignee
Asiainfo Technologies China Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asiainfo Technologies China Inc filed Critical Asiainfo Technologies China Inc
Priority to CN201911418081.6A priority Critical patent/CN111159576B/zh
Publication of CN111159576A publication Critical patent/CN111159576A/zh
Application granted granted Critical
Publication of CN111159576B publication Critical patent/CN111159576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用户分类方法、装置及系统,在用户分类过程中利用用户之间的关联关系以及用户之间的用户相似性进行分类,能够提高分类的准确性,由于模块度能够衡量用户社区的结构强度,模块度越高代表用户社区内部用户的相似性越高,因此,在参考用户社区的模块度满足预设模块度条件的情况下,参考用户社区结构的强度越强,参考用户社区中的用户相似性较高,也就是说,本发明中最终对用户进行分类得到的目标用户社区中的用户相似性较高,进一步提高用户分类的准确性。

Description

一种用户分类方法、装置及系统
技术领域
本发明涉及数据处理技术领域,更具体的说,是涉及一种用户分类方法、装置及系统。
背景技术
在通信运营商领域,通信运营商为了进行业务推广,通常会为同类用户推荐相同或相似类型的业务,因此,在进行业务推荐之前,需要在海量的用户群中对用户进行分类,例如将属于同一家庭的用户分为一类,将具有共同爱好的用户分为一类等等,而用户分类的准确性直接影响着业务推荐结果的准确性,因此,如何提高用户分类的准确性成为目前需要解决的技术问题。
发明内容
有鉴于此,本发明提供了一种用户分类方法、装置及系统,以提高用户分类的准确性。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种用户分类方法,所述方法包括:
从多个待分类用户中确定参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户;
利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;
在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。
优选的,所述从多个待分类用户中确定参考用户集包括:
依据待分类用户的属性信息,从多个待分类用户中确定与每个待分类用户存在关联关系的待分类用户,将存在关联关系的两个待分类用户作为关联关系用户对;
基于关联关系用户对,构建参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户。
优选的,所述利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区包括:
利用参考用户集中的任一个用户与其他用户之间的关联关系,确定参考用户集中任意一个用户对应的邻接矩阵;
利用任意一个用户对应的邻接矩阵,得到任意两个用户的用户相似性;
将用户相似性满足预设用户相似性条件的两个用户进行合并,得到至少一个参考用户社区。
优选的,所述在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区包括:
如果所述参考用户社区的模块度大于预设模块度阈值,则将所述参考用户社区确定为目标用户社区。
优选的,在所述参考用户社区的模块度小于等于预设模块度阈值的情况下,所述方法还包括:
将社区相似性满足预设社区相似性条件的两个参考用户社区进行合并,合并之后的社区作为合并社区;
在合并社区的模块度大于预设模块度阈值的情况下,将所述合并社区确定为目标用户社区;
在合并社区的模块度小于等于预设模块度阈值的情况下,对所述合并社区继续进行两两合并,直到满足终止条件时,终止合并,得到所有目标用户社区。
优选的,所述方法还包括:
从所述目标用户社区中筛选出符合预设筛选条件的用户作为目标用户群。
优选的,所述方法还包括:
按照预设角色识别规则,对所述目标用户群中的各用户进行角色识别,得到角色识别结果;
依据所述角色识别结果,向不同角色的用户发送与其对应的推荐信息。
一种用户分类装置,所述装置包括:
参考用户集确定单元,用于从多个待分类用户中确定参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户;
用户合并单元,用于利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;
目标用户社区确定单元,用于在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。
优选的,所述参考用户集确定单元包括:
关联关系用户对确定单元,用于依据待分类用户的属性信息,从多个待分类用户中确定与每个待分类用户存在关联关系的待分类用户,将存在关联关系的两个待分类用户作为关联关系用户对;
参考用户集构建单元,用于基于关联关系用户对,构建参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户。
一种用户分类系统,所述系统包括:
处理器和存储器;
所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器用于存储所述程序,所述程序至少用于:
执行如上所述的用户分类方法。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种用户分类方法、装置及系统,通过利用待分类用户之间的关联关系,从多个待分类用户中确定参考用户集,因此,参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户,从而利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;最后在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。本发明在用户分类过程中利用用户之间的关联关系以及用户之间的用户相似性进行分类,能够提高分类的准确性,由于模块度能够衡量用户社区的结构强度,在参考用户社区的模块度满足预设模块度条件的情况下,参考用户社区结构的强度越强,参考用户社区中的用户相似性较高,也就是说,本发明中最终对用户进行分类得到的目标用户社区中的用户相似性较高,进一步提高用户分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的用户分类方法的流程图;
图2为本发明实施例提供的网络图;
图3为本发明实施例提供的另一用户分类方法的流程图;
图4为本发明实施例提供的参考用户集示意图;
图5为本发明实施例提供的用户分类装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在通信运营商领域,通信运营商为了进行业务推广,通常会为同类用户推荐相同或相似类型的业务,因此,在进行业务推荐之前,需要在海量的用户群中对用户进行分类,例如将属于同一家庭的用户分为一类,将具有共同爱好的用户分为一类等等,而用户分类的准确性直接影响着业务推荐结果的准确性,因此,如何提高用户分类的准确性成为目前需要解决的技术问题。
为了解决上述技术问题,本发明提供了一种用户分类方法、装置及系统,通过利用待分类用户之间的关联关系,从多个待分类用户中确定参考用户集,因此,参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户,从而利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;最后在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。本发明在用户分类过程中利用用户之间的关联关系以及用户之间的用户相似性进行分类,能够提高分类的准确性,由于模块度能够衡量用户社区的结构强度,在参考用户社区的模块度满足预设模块度条件的情况下,参考用户社区结构的强度越强,参考用户社区中的用户相似性较高,也就是说,本发明中目标用户社区中的用户相似性较高,进一步提高用户分类的准确性。
下面对本发明实施例提供的用户分类方法进行介绍,图1为本发明实施例提供的用户分类方法的流程图,参照图1,所述方法可以包括:
步骤S100、从多个待分类用户中确定参考用户集;
所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户。
参考用户集可以采用如图2所示的网络图表示,网络图中任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户,网络图中以用户为网络节点、用户与用户间的关联关系为边而构建的无加权无方向的复杂网络图。
本发明实施例中从多个待分类用户中确定参考用户集的方法可以包括:
依据待分类用户的属性信息,从多个待分类用户中确定与每个待分类用户存在关联关系的待分类用户,将存在关联关系的两个待分类用户作为关联关系用户对;基于关联关系用户对,构建参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户。
具体的,本发明实施例主要利用线性回归模型,来依据待分类用户的属性信息,从多个待分类用户中确定与每个待分类用户存在关联关系的待分类用户。主要过程为:
调用线性回归模型,依据待分类用户的属性信息,从多个待分类用户中确定与每个待分类用户存在关联关系的待分类用户,所述线性回归模型依据待分类用户的属性信息,从多个待分类用户中确定与每个待分类用户存在关联关系的待分类用户的过程包括:
获取待分类用户的属性信息,利用线性回归方程,对待分类用户的属性信息进行线性回归处理,得到任意两个待分类用户的属性相似度;将任意两个待分类用户的属性相似度转化为任意两个待分类用户的属性相似度概率值;将属性相似度概率值大于预设属性相似度阈值的两个待分类用户确定为存在关联关系的两个待分类用户,并且,存在关联关系的两个待分类用户作为关联关系用户对。
待分类用户的属性信息具体为与用户分类角度相关的,用户分类角度不同,则采集的待分类用户的属性信息则不同,例如:如果从用户的共同爱好方面进行分类的话,则待分类用户的属性信息则是与用户的共同爱好相关的;如果从用户的家庭关系方面进行分类的话,则待分类用户的属性信息则是与用户的家庭关系相关的,如选择某省份某运营商某月份的相关指标数据,包括位置、通信、套餐业务、移动轨迹、终端等方面信息数据作为待分类用户的属性信息。
线性回归方程为z=wTx+b,w为线性回归方程的变量权值系数,b为线性回归方程的误差,x为用户的属性信息,x取值可以为n维实数向量,例如x=(x(1),x(2),...,x(n)),x(1),x(2),...,x(n)为不同的属性信息,n值本发明不做具体限定。
可选的,本发明实施例主要利用Sigmoid函数将任意两个待分类用户的属性相似度转化为任意两个待分类用户的属性相似度概率值,Sigmoid函数公式如下:
其中z=wTx+b。由于Sigmoid函数取值范围在[0,1],即可以用Sigmoid函数算出来的结果作为任意两个待分类用户的属性相似度概率值。
步骤S110、利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;
本发明实施例中利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区的过程包括:
利用参考用户集中的任一个用户与其他用户之间的关联关系,确定参考用户集中任意一个用户对应的邻接矩阵;利用任意一个用户对应的邻接矩阵,得到任意两个用户的用户相似性;将用户相似性满足预设用户相似性条件的两个用户进行合并,得到至少一个参考用户社区。
邻接矩阵是表示顶点之间相邻关系的矩阵,用户对应的邻接矩阵能够表示用户之间的关联关系,对于任何一个用户i,将它的邻接矩阵记为aij,这里aij表示用户i和其他用户j之间的连接关系,倘若用户i和其他用户j相连,那么aij=1,若不相连,那么aij=0。
任意两个用户的用户相似性可以采用余弦相似性表示,如果对于用户i的邻接矩阵记为对于用户j的邻接矩阵记为/>那么用户i与用户j的余弦相似性/>
本发明实施例中可以将用户相似性大于预设用户相似性阈值的两个用户进行合并,得到至少一个参考用户社区。即如果用户1与用户2的用户相似性大于预设用户相似性阈值,则将用户1与用户2进行合并;如果用户3与用户4的用户相似性大于预设用户相似性阈值,则将用户3与用户4进行合并。预设用户相似性阈值可以由本领域技术人员设定,本发明实施例不做具体限定。
步骤S120、在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。
本发明实施例可以在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。预设模块度阈值可以由本领域技术人员设定,本发明实施例不做具体限定。
模块度用来定量的衡量用户社区划分质量,模块度公式表示为:
上述公式中,Q代表用户社区的模块度,m为用户社区中边的数量,即用户社区之间存在的关联关系的数量,kv,kw分别指的是用户社区v与用户社区w的度,即与用户社区v和用户社区w分别存在关联关系的其他用户社区的个数,当用户社区v和用户社区w之间存在关联关系时,Av,w=1,否则Av,w=0。δv,w是用来判断用户社区v和用户社区w是不是位于相同的集合中,假如v和w在相同的集合中,那么δv,w=1,否则δv,w=0。模块度数值的大小由用户社区划分结果决定,模块度能够定量地判断社区划分结果的好坏,它的取值范围是[-0.5,1)。当Q的大小越趋向1时,就表示划分出的用户社区的强度越强,也就是说社区发现的结果越好。可选的,模块度的数值通常介于0.3~0.7之间,本发明实施例不做具体限定。
本发明在用户分类过程中利用用户之间的关联关系以及用户之间的用户相似性进行分类,能够提高分类的准确性,由于模块度能够衡量用户社区的结构强度,在参考用户社区的模块度满足预设模块度条件的情况下,参考用户社区结构的强度越强,参考用户社区中的用户相似性较高,也就是说,本发明中目标用户社区中的用户相似性较高,进一步提高用户分类的准确性。
由于本发明实施例中如果所述参考用户社区的模块度大于预设模块度阈值,则将所述参考用户社区确定为目标用户社区,在所述参考用户社区的模块度小于等于预设模块度阈值的情况下,本发明实施例则会继续执行合并操作,以提高合并后的用户社区的结构强度,进而进一步提高用户分类的准确性。具体执行方式为:
将社区相似性满足预设社区相似性条件的两个参考用户社区进行合并,合并之后的社区作为合并社区;
在合并社区的模块度大于预设模块度阈值的情况下,将所述合并社区确定为目标用户社区;
在合并社区的模块度小于等于预设模块度阈值的情况下,对所述合并社区继续进行两两合并,直到满足终止条件时,终止合并,得到所有目标用户社区。
社区相似性主要是通过计算两个用户社区中所包含的用户的相似性来得到的。
参考用户社区A和参考用户社区B之间相似性度量定义为:
这里,VA是参考用户社区A中全部节点的集合,VB是参考用户社区B中全部节点的集合。Sij表示参考用户社区A中的用户i与参考用户社区B中的用户j的余弦相似性。k(A)表示参考用户社区A中用户个数,k(B)表示参考用户社区B中用户个数,如果SAB的值越大,那么两个参考用户社区间的相似性值越高,社区A和社区B越有可能属于同一个大的社区。
社区相似性满足预设社区相似性条件的两个参考用户社区进行合并具体可以指的是将社区相似性大于预设社区相似性阈值的两个参考用户社区进行合并,预设社区相似性阈值可以由本领域技术人员设定,本发明实施例不做具体限定。
本发明实施例中终止合并的终止条件具体可以为:最终得到的用户社区的模块度大于预设模块度阈值,或者最终仅剩下一个用户社区,则将最终得到的这个用户社区作为目标用户社区。
如果两个参考用户社区间相似性越高,那么两个参考用户社区内的用户属于同一社区的可能性就越高,越倾向于将这两个参考用户社区合并成一个社区以便于得出新的社区结构。重复社区合并的过程,最后利用模块度选出最优的社区结构,作为目标用户社区。
优选的,在划分出用户社区之后,还可以进一步的对用户社区中的每个用户角色进行识别,以便在向用户推荐信息的时候,可以依据不同的用户角色推荐不同的信息,提高信息推荐的精准性。图3示出了本发明实施例提供的另一种用户分类方法流程图,参照图3,该方法可以包括:
步骤S200、从多个待分类用户中确定参考用户集;
所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户;
步骤S210、利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;
步骤S220、在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区;
本发明实施例中的步骤S200-步骤S220与上述实施例中的步骤S100-步骤S120相同,具体内容可以参照上述实施例,本发明实施例不做详细论述。
步骤S230、从所述目标用户社区中筛选出符合预设筛选条件的用户作为目标用户群;
本发明实施例可以从用户分类角度出发,设定不同的预设筛选条件,如果从用户的共同爱好读书方面进行分类的话,预设筛选条件可以为共同爱好读书的种类,如果从用户的家庭关系方面进行分类的话,预设筛选条件可以为居住地信息、小区编码等等,本发明实施例不做具体限定。
例如在家庭关系识别方面,本发明实施例可以利用用户的行为轨迹信息,通话信息,亲情网以及融合宽带等业务订购信息,从业务角度出发,制定筛选条件,对目标用户社区中的用户进行筛选,筛选出目标用户社区中的家庭单元。
具体的筛选条件可以为:
筛选条件1:基于MR(Measurement Report,测量报告)定位模型,将目标用户社区分别匹配上其居住地经纬度信息,筛选出同一目标用户社区中居住地经纬度距离小于等于预设距离阈值(例如100米)的用户作为目标用户群中的用户;
筛选条件2:基于常住地小区识别模型进行识别,筛选出同一目标用户社区中小区编码一致的用户作为目标用户群中的用户;
筛选条件3:基于信令轨迹相似度识别模型进行识别,筛选出同一目标用户社区中信令轨迹相似度满足预设信令归集阈值的用户作为目标用户群中的用户;
筛选条件4:基于通话频次信息进行识别,筛选出同一目标用户社区中通话频次满足预设通话频次阈值的用户作为目标用户群中的用户;
筛选条件5:基于其他业务信息进行目标用户群反向融合,具体为基于智能网关信息、主副卡信息、亲情网及融合群等信息,对已切分完成的目标用户群进行反向融合,
本发明实施例中可以从以上筛选条件中选择至少一种进行筛选操作,也可以按照预先设定的筛选条件优先级,按照筛选条件优先级从高到低的顺序从上述筛选条件中选择一种进行筛选操作,即如果优先级最高的筛选条件无法筛选出目标用户群,则利用优先级次高的筛选条件进行筛选,直到筛选出目标用户群,筛选条件优先级本发明实施例并不做具体限定。
步骤S240、按照预设角色识别规则,对所述目标用户群中的各用户进行角色识别,得到角色识别结果;
目标用户群中的各用户的角色可以为工作中的角色,还可以为家庭中的角色、社会中的角色等,本发明实施例不做具体限定。角色识别规则本发明实施例不做具体限定。
例如在家庭关系识别方面,本发明实施例中可以基于家庭成员的基础属性、互联网访问偏好、APP使用习惯、业务订购信息、费用支付状况等得到家庭成员的角色特征,利用家庭成员的角色特征得到家庭成员角色识别规则。
家庭成员角色识别规则例如可以至少包括:
(1)提取家庭成员的身份信息,根据年龄进行家庭成员角色识别;
(2)根据家庭成员的用户行为进行家庭成员角色识别:
如是否经常出没商场、每月累计位移、在学校区域驻留时长、手机套餐使用(套餐费用、套餐内容使用量)、流量使用、通话时长、通话次数、每天活跃时间段、终端机型、用户网龄等;如儿童手表终端持有者默认为儿童;如老人机用户使用者为老人正样本,集团用户作为负样本(年轻人);如家庭成员属于某一集团,则设定为男女主人;如家庭成员可以收到水电煤气短信等,则设定为男女主人;如家庭成员是家庭的主卡,则设定为男女主人;如经常访问娱乐视频app且使用流量较大的设定为女主人;如经常访问新闻app且使用流量较大的设定为男主人;如宽带电视经常有点播动画片的家庭,或包含作业app的家庭,或包含少儿培训类app的家庭包含儿童。
步骤S250、依据所述角色识别结果,向不同角色的用户发送与其对应的推荐信息。
本发明在用户分类过程中利用用户之间的关联关系以及用户之间的用户相似性进行分类,能够提高分类的准确性,由于模块度能够衡量用户社区的结构强度,模块度越高代表用户社区内部用户的相似性越高,因此,模块度满足预设模块度条件的参考用户社区中的用户相似性较高,也就是说,本发明中目标用户社区中的用户相似性较高,进一步提高用户分类的准确性。
并且,本发明实施例在识别出目标用户群中各个用户的角色之后,可以针对不同的角色的特点,向用户发送与相应角色对应的推荐信息,以提高信息推荐的精准性。
需要说明的是,本发明实施例提供的用户分类方法的应用例可以如下:
1、依据待分类用户的属性信息,确定任意两个待分类用户的属性相似度概率值;如下表1中示出了任意两个待分类用户的属性相似度概率值;
关系对序号 用户1 用户2 概率值
1 A B 0.12
2 A C 0.89
3 A D 0.32
4 A E 0.76
5 A F 0.24
6 B C 0.78
7 B D 0.23
8 B E 0.45
9 B F 0.13
10 C D 0.15
11 C E 0.9
12 C F 0.91
13 D E 0.21
14 D F 0.18
15 E F 0.25
表1
2、将属性相似度概率值大于预设属性相似度阈值的两个待分类用户确定为存在关联关系的两个待分类用户,将存在关联关系的两个待分类用户作为关联关系用户对;进而得到如下表2所示的关联关系用户对列表;
表2
3、基于关联关系用户对,构建参考用户集,分别以A、B、C、E、F为节点、以AC、BC、CE、CF为边构建示如图4所示的参考用户集;
4、利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区,参考用户社区中包含的用户为A、C、E;
5、在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区,目标用户社区中包含的用户为A、C、E;
6、从所述目标用户社区中筛选出居住地经纬度相同的用户作为目标用户群,目标用户群中包含的用户为A、C;
7、按照预设角色识别规则,对所述目标用户群中的各用户进行角色识别,得到角色识别结果:A为家庭中的男主人,C为家庭中的女主人;
8、依据所述角色识别结果,向不同角色的用户发送与其对应的推荐信息,例如向家庭中的男主人A推荐与汽车、体育方面的信息,向家庭中的女主人C推荐与购物、美容、瘦身方面的信息。
下面对本发明实施例提供的用户分类装置进行介绍,下文描述的用户分类装置可与上文用户分类方法相互对应参照。
图5为本发明实施例提供的用户分类装置的结构框图,参照图5,该用户分类装置可以包括:
参考用户集确定单元300,用于从多个待分类用户中确定参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户;
用户合并单元310,用于利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;
目标用户社区确定单元320,用于在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。
所述参考用户集确定单元包括:
关联关系用户对确定单元,用于依据待分类用户的属性信息,从多个待分类用户中确定与每个待分类用户存在关联关系的待分类用户,将存在关联关系的两个待分类用户作为关联关系用户对;
参考用户集构建单元,用于基于关联关系用户对,构建参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户。
用户合并单元包括:
邻接矩阵确定单元,用于利用参考用户集中的任一个用户与其他用户之间的关联关系,确定参考用户集中任意一个用户对应的邻接矩阵;
用户相似性确定单元,用于利用任意一个用户对应的邻接矩阵,得到任意两个用户的用户相似性;
用户合并子单元,用于将用户相似性满足预设用户相似性条件的两个用户进行合并,得到至少一个参考用户社区。
目标用户社区确定单元包括:
目标用户社区确定子单元,用于如果所述参考用户社区的模块度大于预设模块度阈值,则将所述参考用户社区确定为目标用户社区。
所述装置还用于:
将社区相似性满足预设社区相似性条件的两个参考用户社区进行合并,合并之后的社区作为合并社区;
在合并社区的模块度大于预设模块度阈值的情况下,将所述合并社区确定为目标用户社区;
在合并社区的模块度小于等于预设模块度阈值的情况下,对所述合并社区继续进行两两合并,直到满足终止条件时,终止合并,得到所有目标用户社区。
所述装置还用于:
从所述目标用户社区中筛选出符合预设筛选条件的用户作为目标用户群。
所述装置还用于:
按照预设角色识别规则,对所述目标用户群中的各用户进行角色识别,得到角色识别结果;
依据所述角色识别结果,向不同角色的用户发送与其对应的推荐信息。
本发明实施例还公开一种用户分类系统,所述系统包括:
处理器和存储器;
所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器用于存储所述程序,所述程序至少用于:
执行如上所述的用户分类方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种用户分类方法,其特征在于,所述方法包括:
获取待分类用户的属性信息,利用线性回归方程,对待分类用户的属性信息进行线性回归处理,得到任意两个待分类用户的属性相似度,待分类用户的属性信息与用户分类角度相关,用户分类角度不同,待分类用户的属性信息则不同;
将任意两个待分类用户的属性相似度转化为任意两个待分类用户的属性相似度概率值;
将属性相似度概率值大于预设属性相似度阈值的两个待分类用户确定为存在关联关系的两个待分类用户,并将存在关联关系的两个待分类用户作为关联关系用户对;
基于关联关系用户对,构建参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户;
利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;
在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。
2.根据权利要求1所述的方法,其特征在于,所述利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区包括:
利用参考用户集中的任一个用户与其他用户之间的关联关系,确定参考用户集中任意一个用户对应的邻接矩阵;
利用任意一个用户对应的邻接矩阵,得到任意两个用户的用户相似性;
将用户相似性满足预设用户相似性条件的两个用户进行合并,得到至少一个参考用户社区。
3.根据权利要求1所述的方法,其特征在于,所述在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区包括:
如果所述参考用户社区的模块度大于预设模块度阈值,则将所述参考用户社区确定为目标用户社区。
4.根据权利要求3所述的方法,其特征在于,在所述参考用户社区的模块度小于等于预设模块度阈值的情况下,所述方法还包括:
将社区相似性满足预设社区相似性条件的两个参考用户社区进行合并,合并之后的社区作为合并社区;
在合并社区的模块度大于预设模块度阈值的情况下,将所述合并社区确定为目标用户社区;
在合并社区的模块度小于等于预设模块度阈值的情况下,对所述合并社区继续进行两两合并,直到满足终止条件时,终止合并,得到所有目标用户社区。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述目标用户社区中筛选出符合预设筛选条件的用户作为目标用户群。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
按照预设角色识别规则,对所述目标用户群中的各用户进行角色识别,得到角色识别结果;
依据所述角色识别结果,向不同角色的用户发送与其对应的推荐信息。
7.一种用户分类装置,其特征在于,所述装置包括:
关联关系用户对确定单元,用于获取待分类用户的属性信息,利用线性回归方程,对待分类用户的属性信息进行线性回归处理,得到任意两个待分类用户的属性相似度,待分类用户的属性信息与用户分类角度相关,用户分类角度不同,待分类用户的属性信息则不同;将任意两个待分类用户的属性相似度转化为任意两个待分类用户的属性相似度概率值;将属性相似度概率值大于预设属性相似度阈值的两个待分类用户确定为存在关联关系的两个待分类用户,并将存在关联关系的两个待分类用户作为关联关系用户对;
参考用户集构建单元,用于基于关联关系用户对,构建参考用户集,所述参考用户集中的任一个用户均能在所述参考用户集中匹配到与其存在关联关系的用户;
用户合并单元,用于利用所述参考用户集中任意两个用户的用户相似性,将用户相似性满足预设相似性条件的两个用户进行合并,得到至少一个参考用户社区;
目标用户社区确定单元,用于在参考用户社区的模块度满足预设模块度条件的情况下,将所述参考用户社区确定为目标用户社区。
8.一种用户分类系统,其特征在于,所述系统包括:
处理器和存储器;
所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器用于存储所述程序,所述程序至少用于:
执行如上权利要求1-6任一项所述的用户分类方法。
CN201911418081.6A 2019-12-31 2019-12-31 一种用户分类方法、装置及系统 Active CN111159576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911418081.6A CN111159576B (zh) 2019-12-31 2019-12-31 一种用户分类方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911418081.6A CN111159576B (zh) 2019-12-31 2019-12-31 一种用户分类方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111159576A CN111159576A (zh) 2020-05-15
CN111159576B true CN111159576B (zh) 2023-08-11

Family

ID=70560393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911418081.6A Active CN111159576B (zh) 2019-12-31 2019-12-31 一种用户分类方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111159576B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115511582B (zh) * 2022-10-31 2023-06-27 深圳市快云科技有限公司 一种基于人工智能的商品推荐系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887441A (zh) * 2009-05-15 2010-11-17 华为技术有限公司 一种社会网络建立方法和系统及网络社区挖掘方法和系统
CN105512242A (zh) * 2015-11-30 2016-04-20 浙江工业大学 一种基于社会网络结构的并行推荐方法
CN106708953A (zh) * 2016-11-28 2017-05-24 西安电子科技大学 基于离散粒子群优化的局部社区检测协同过滤推荐方法
CN106780064A (zh) * 2016-12-02 2017-05-31 腾讯科技(深圳)有限公司 一种区域划分方法、装置及网络设备
CN107786943A (zh) * 2017-11-15 2018-03-09 北京腾云天下科技有限公司 一种用户分群方法及计算设备
CN108520471A (zh) * 2018-04-27 2018-09-11 广州杰赛科技股份有限公司 重叠社区发现方法、装置、设备及存储介质
CN109408712A (zh) * 2018-09-30 2019-03-01 重庆誉存大数据科技有限公司 一种旅行社用户多维信息画像的构建方法
CN109428928A (zh) * 2017-08-31 2019-03-05 腾讯科技(深圳)有限公司 信息推送对象的选择方法、装置及设备
CN109766913A (zh) * 2018-12-11 2019-05-17 东软集团股份有限公司 用户分群方法、装置、计算机可读存储介质及电子设备
CN110321492A (zh) * 2019-06-13 2019-10-11 华中科技大学 一种基于社区信息的项目推荐方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887441A (zh) * 2009-05-15 2010-11-17 华为技术有限公司 一种社会网络建立方法和系统及网络社区挖掘方法和系统
CN105512242A (zh) * 2015-11-30 2016-04-20 浙江工业大学 一种基于社会网络结构的并行推荐方法
CN106708953A (zh) * 2016-11-28 2017-05-24 西安电子科技大学 基于离散粒子群优化的局部社区检测协同过滤推荐方法
CN106780064A (zh) * 2016-12-02 2017-05-31 腾讯科技(深圳)有限公司 一种区域划分方法、装置及网络设备
CN109428928A (zh) * 2017-08-31 2019-03-05 腾讯科技(深圳)有限公司 信息推送对象的选择方法、装置及设备
CN107786943A (zh) * 2017-11-15 2018-03-09 北京腾云天下科技有限公司 一种用户分群方法及计算设备
CN108520471A (zh) * 2018-04-27 2018-09-11 广州杰赛科技股份有限公司 重叠社区发现方法、装置、设备及存储介质
CN109408712A (zh) * 2018-09-30 2019-03-01 重庆誉存大数据科技有限公司 一种旅行社用户多维信息画像的构建方法
CN109766913A (zh) * 2018-12-11 2019-05-17 东软集团股份有限公司 用户分群方法、装置、计算机可读存储介质及电子设备
CN110321492A (zh) * 2019-06-13 2019-10-11 华中科技大学 一种基于社区信息的项目推荐方法及系统

Also Published As

Publication number Publication date
CN111159576A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
Zheng et al. Diagnosing New York city's noises with ubiquitous data
CN106506705A (zh) 基于位置服务的人群分类方法及装置
WO2018041168A1 (zh) 信息推送方法、存储介质和服务器
CN107798557A (zh) 电子装置、基于lbs数据的服务场所推荐方法及存储介质
CN103389979A (zh) 在输入法中推荐分类词库的系统、装置及方法
CN110298687B (zh) 一种区域吸引力评估方法及设备
Huang et al. Unsupervised interesting places discovery in location-based social sensing
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN104077723A (zh) 一种社交网络推荐系统及方法
CN105224545A (zh) 一种位置推荐方法及装置
CN107577736A (zh) 一种基于bp神经网络的文件推荐方法及系统
CN111626767B (zh) 资源数据的发放方法、装置及设备
CN107368499A (zh) 一种客户标签建模及推荐方法及装置
CN111353103B (zh) 用于确定用户社群信息的方法和装置
CN110781256B (zh) 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置
CN111159576B (zh) 一种用户分类方法、装置及系统
Shafik et al. Recommendation system comparative analysis: internet of things aided networks
CN109325177B (zh) 信息推送方法、系统、可读存储介质和计算机设备
CN110210892B (zh) 产品推荐方法、装置和可读存储介质
US8140539B1 (en) Systems, devices, and/or methods for determining dataset estimators
CN110348717A (zh) 基于栅格粒度的基站价值评分方法和装置
CN112560105B (zh) 保护多方数据隐私的联合建模方法及装置
CN110992230B (zh) 基于终端信令数据的全量人口统计方法、装置及服务器
CN111401478B (zh) 数据异常识别方法以及装置
CN111340566B (zh) 一种商品分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant