用于确定用户社群信息的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及机器学习领域,尤其涉及一种用于确定用户社群信息的方法和装置。
背景技术
社群可以按照关联关系来定义,比如相近的地理区域或者社会关系,也可以按照抽象的思想定义,比如共同爱好或者精神情感等。在互联网领域,如电商或互联网金融等,用户之间往往存在千丝万缕的联系,比如拥有共同绑定手机号或者银行卡号的用户,或者热爱购买相同商品或理财产品的用户,挖掘这种联系与用户本身特性之间的关系可以更好的服务于多种业务。而在这些特性之中,用户的社群标签可以标识出用户本身的性质,可用于后续建模或其他数据分析。
相关技术中,一般通过规则匹配、传统机器学习中的有监督学习、无监督学习或图算法确定用户的社群归属信息。其中规则匹配仅能基于直观的标准对个体进行识别;有监督分类模型受限于已有标签的数量,泛化性较差,且无法发现用户的隐含社群类型;无监督模型与图关联模型只能提取局部信息。
发明内容
本公开的实施例提出了用于确定用户社群信息的方法和装置。
第一方面,本公开的实施例提供了一种用于确定用户社群信息的方法,该方法包括:获取预设的用户集合的用户信息,并基于用户集合中的用户信息构建连通图,连通图中的节点表征用户,连通图中的边基于各用户的用户信息表征的用户间关系构建;通过采样从连通图中提取出连通子图,并基于连通子图对应的用户子集中各用户的用户信息提取出连通子图的用户关系特征和社群特征,其中,用户关系特征表征连通子图中对应的用户子集中单个用户的关联特征,社群特征表征连通子图对应的用户子集的社群分布特征;基于连通子图的用户关系特征和社群特征,确定连通子图对应的用户关系先验信息和社群先验信息;基于用户关系先验信息和社群先验信息,以及连通子图,采用预设的主题模型估计出连通子图对应的用户子集中的用户所属社群的分布信息;基于连通子图对应的用户子集中的用户所属社群的分布信息,确定对应用户的社群归属信息。
在一些实施例中,连通子图的用户关系特征和社群特征,包括用户子集中每个用户的用户关系特征和社群特征,以及基于连通子图对应的用户关系特征和社群特征,确定连通子图对应的用户关系先验信息和社群先验信息,包括:基于每个用户对应的用户关系特征和社群特征,分别确定用户子集中各用户的特征集中度,基于用户子集中各用户的特征集中度确定连通子图对应的用户关系先验信息;基于连通子图的用户关系特征和社群特征,确定连通子图的特征集中度,将连通子图的特征集中度确定为连通子图对应的社群先验信息。
在一些实施例中,通过采样从连通图中提取出连通子图,包括:基于预设条件,对连通图进行随机游走采样,从中提取出预设数量的连通子图。
在一些实施例中,基于用户关系先验信息和社群先验信息,以及连通子图,采用预设的主题模型估计出连通子图对应的用户子集中的用户所属社群的分布信息,包括:将连通子图、社群、用户分别作为主题模型的文档、主题、词汇,基于预设的主题模型执行如下操作:基于社群先验信息和每个用户的用户关系先验信息,对连通子图进行随机游走采样,估计出连通子图中各社群的分布信息和各社群中用户的分布信息;基于连通子图中各社群的分布信息,对连通子图中的社群进行随机游走采样,估计出社群子集;基于各社群中用户的分布信息和社群子集,估计用户所属社群的分布信息。
在一些实施例中,基于连通子图对应的用户子集中的用户所属社群的分布信息,确定对应用户的社群归属信息,包括:基于连通子图中得到的用户所属社群的分布信息,采用投票机制确定对应用户的社群归属类型。
第二方面,本公开的实施例提供了一种用于确定用户社群信息的装置,装置包括:连通图构建单元,被配置成获取预设的用户集合的用户信息,并基于用户集合中的用户信息构建连通图,连通图中的节点表征用户,连通图中的边基于各用户的用户信息表征的用户间关系构建;特征提取单元,被配置成通过采样从连通图中提取出连通子图,并基于连通子图对应的用户子集中各用户的用户信息提取出连通子图的用户关系特征和社群特征,其中,用户关系特征表征连通子图中对应的用户子集中单个用户的关联特征,社群特征表征连通子图对应的用户子集的社群分布特征;先验信息确定单元,被配置成基于连通子图的用户关系特征和社群特征,确定连通子图对应的用户关系先验信息和社群先验信息;社群信息估计单元,被配置成基于用户关系先验信息和社群先验信息,以及连通子图,采用预设的主题模型估计出连通子图对应的用户子集中的用户所属社群的分布信息;社群信息确定单元,被配置成基于连通子图对应的用户子集中的用户所属社群的分布信息,确定对应用户的社群归属信息。
在一些实施例中,连通子图的用户关系特征和社群特征,包括用户子集中每个用户的用户关系特征和社群特征,以及先验信息确定单元,被进一步配置成通过如下方式确定连通子图对应的用户关系先验信息和社群先验信息:基于每个用户对应的用户关系特征和社群特征,分别确定用户子集中各用户的特征集中度,基于用户子集中各用户的特征集中度确定连通子图对应的用户关系先验信息;基于连通子图的用户关系特征和社群特征,确定连通子图的特征集中度,将连通子图的特征集中度确定为连通子图对应的社群先验信息。
在一些实施例中,特征提取单元,被进一步配置成通过如下方式从连通图中提取出连通子图:基于预设条件,对连通图进行随机游走采样,从中提取出预设数量的连通子图。
在一些实施例中,社群信息估计单元,被进一步配置成将连通子图、社群、用户分别作为主题模型的文档、主题、词汇,基于预设的主题模型执行如下操作:基于社群先验信息和每个用户的用户关系先验分布信息,对连通子图进行随机游走采样,估计出连通子图中各社群的分布信息和各社群中用户的分布信息;基于连通子图中各社群的分布信息,对连通子图中的社群进行随机游走采样,估计出社群子集;基于各社群中用户的分布信息和社群子集,估计用户所属社群的分布信息。
在一些实施例中,社群信息确定单元,被进一步配置成通过如下方式确定对应用户的社群归属信息:基于连通子图中得到的用户所属社群的分布信息,采用投票机制确定对应用户的社群归属类型。
本公开的实施例提供的用于确定用户社群信息的方法和装置,基于用户的社群特征和用户关系特征确定主题模型的先验分布信息,使得主题模型估计出的用户所属社群的分布信息,耦合了用户的社群特征和关系特征,从而提高了确定用户社群归属信息的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一些实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于确定用户社群信息的方法的一个实施例的流程图;
图3是图2所示的用于确定用户社群信息的方法的流程的另一个示意图;
图4是根据本公开的用于确定用户社群信息的方法的又一个实施例的流程图;
图5是根据本公开的用于确定用户社群信息的装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的实施例的用于确定用户社群信息的方法或用于确定用户社群信息的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等,例如可以将用户的信息发送至服务器,还可以从服务器接收用户的社群归属信息。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具备通信功能的电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的用户信息数据进行处理(例如基于用户信息确定用户的社群归属信息)的后台数据服务器,。后台数据服务器可以对接收到的用户信息数据进行分析、识别等处理,并将处理结果(例如用户的社群归属信息)反馈给终端设备。
需要说明的是,本公开的实施例所提供的用于确定用户社群信息的方法可以由终端设备101、102、103执行,也可以由服务器105执行。相应地,用于确定用户社群信息的装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。在此不做具体限定。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
继续参考图2,示出了根据本公开的用于确定用户社群信息的方法的一个实施例的流程200。该用于确定用户社群信息的方法,包括以下步骤:
步骤201,获取预设的用户集合的用户信息,并基于用户集合中的用户信息构建连通图。连通图中的节点表征用户,连通图中的边基于各用户的用户信息表征的用户间关系构建。
连通图是图论的基本概念,其定义为:一个图G=(V,E)中的两点x和y,若存在交替的顶点和边的序列Γ=(v0-e1-v1-υ2-…en-1-υn),则两点x和y是连通的。Γ是一条x到y的连通路径,x和y分别是起点和终点。当x=y时Γ被称为回路。如果通路中的边两两不同,则Γ是一条简单通路,否则Γ为一条复杂通路。如果图G中每两点间皆连通,则G是连通图。
在本实施例中构建的连通图中,每一个节点对应一个用户,由可以唯一标识出用户身份的信息组成,例如可以是用户的年龄、区域等信息,而连接节点的边则表征用户间的关系,例如,对于社交软件用户,可以采用共同群的数量作为相连的边;对于电商用户,可以采用用户记录中的共同绑定手机号、共同收货手机号等信息;对于互联网金融用户,可以采用共同绑定银行卡、共同绑定手机号等信息。由此可以看出,连通图中既包括了用户自身的社群特征(组成节点的标识用户身份的信息),又包括了用户间的关系特征(例如连通图中的边表征的信息)。
在一个具体的示例中,可以通过如下方式构建连通图。建立连通图时的V和E分别定义如下:
V(i)=UniqueUseri (1)
E(i,j)=count(common(i,j)) (2)
其中,i、j表示节点集合V中节点的序号,(common(i,j))表示节点i和节点j之间的相同特征,count(common(i,j))表示节点i和节点j之间的共同特征的数量,UniqueUseri表示第i个节点对应的用户的用户信息集合。节点V由可以唯一标识出用户的信息组成,节点之间连通的边E为用户之间存在的共同关系的数量,例如i和j两个用户如果存在3个共同绑定的手机号,那么E(i,j)=count(common(i,j))=3。
在本实施例中,用于确定用户社群信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行信息交互的终端接收用户集合,其中,用户集合中的用户信息用于构建连通图。上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
通常,用户利用终端将用户集合发送至本实施例的执行主体(例如图1所示的服务器),由执行主体根据用户集合中的用户信息构建连通图,其中连通图中包括了用户的社群特征和用户的关系特征。
步骤202,通过采样从连通图中提取出连通子图,并基于连通子图对应的用户子集中各用户的用户信息提取出连通子图的用户关系特征和社群特征,其中,用户关系特征表征连通子图中对应的用户子集中单个用户的关联特征,社群特征表征连通子图对应的用户子集的社群分布特征。
连通子图是指连通图的子集,连通子图中的节点和边均是连通图中节点和边的集合中的一部分。例如,一个连通图的生成树是该连通图节点集确定的极小连通子图。
在本实施例中,基于步骤201中构建的连通图,上述执行主体(例如图1所示的服务器)可以通过采样的方法从连通图中提取出连通子图,例如可以采用随机边采样方法,在已知连通图中节点和边的情况下,随机选取连通图中的边,对于选到的边等概率地选择其所连的节点或把两个节点全都加入样本集,该样本集即为提取出的连通子图;再例如,还可以采用广度优先采样的方法,从一个初始节点出发,在每一步的采样中,之前最早被发现但还未被采样的节点被选为下一个要采样的节点,得到的节点和边的集合即为连通子图。以上采样方法可以是已有的成熟技术,也可以是未来出现的采样方法,本实施例对此不做限定。
在本实施例的一些可选的实现方式中,基于预设条件,对连通图进行随机游走采样,从中提取出预设数量的连通子图。在一个具体的实现方式中,可以采用基于Metropolis-Hasting算法的随机游走采样方法(Metropolis-Hasting Random Walk,MHRW)从连通图中提取连通子图,相较于其他随机游走采样方法,MHRW可以更好的提取用户的多维关联特性,而不会偏向某一类特定的关联。结合具体场景举例说明采用MHRW方法从连通图中提取连通子图的的步骤:给定一个无向连通图G(V,E),其中V是节点集合,E是边集合。对任意一个节点i,记N(i)为i的邻居集合,d(i)为邻居个数。MHRW算法假定选举概率Q(i,j)=1/d(i),即随机均匀地从i的邻居中选择一个。若假定给定的分布是均匀分布,即π(i)=1/|V|。则对任意的j≠i:
其中,p(i,j)表示从状态i到状态j的一步转移概率,设定初始节点V并开始循环,循环终止条件可以设定为到达采样数量上限或样本总数的一部分,例如可以采用512个节点,每次循环时从V的邻居中按照概率1/(d(i))均匀选择一个节点W,然后利用均匀分布从[0,1]之间选择一个p值。将预设条件设置为p<d(V)/d(W),如果p<d(V)/d(W),则将节点V以及两个节点之间的边加入采样集合,再对节点W重复上述步骤;否则拒绝采样,继续对V重复上述步骤,直至采样集合中节点的数量达到512个,完成本次采样步骤,所获得的采样集合即为连通图中提取出的一个连通子图。上述采样步骤运行多次循环后,可以从连通图中提取出多张连通子图,每个连通子图中包括了512个节点以及一定数量的边。如果需要对连通图中所有的用户执行后续步骤,则可以将提取连通子图的数量设置为N。需要说明的是,连通子图的数量可以根据实际需求预先设定,本实施例对此同样不做限定。
连通子图中的节点信息和边的信息分别表征用户的社群特征和用户关系特征,从中提取出的特征也相应地包括了用户的社群特征和关系特征。例如,对于社交软件用户,其社群特征为“使用社交软件”,可以提取用户的每月登陆频率、兴趣话题数量以及朋友数量等关系特征;对于电商用户,其社群特征为“使用电商”,可以提取用户的每月订单数、购买品类数量、下单时间集中度等关系特征;对于互联网金融用户,其社群特征为“使用互联网金融”,可以提取用户的逾期信息、实名信息等关系特征。特征的维度越高,与后续尝试发现的社群相关性越大,结果的显著性就越强。
步骤203,基于连通子图的用户关系特征和社群特征,确定连通子图对应的用户关系先验信息和社群先验信息。
先验信息是指对样本进行采样前,所获取的样本的信息。在贝叶斯概率理论中,如果后验概率和先验概率满足同样的分布律,先验分布和后验分布被叫做共轭分布,而狄利克雷分布是多项式分布的共轭先验概率分布。在贝叶斯框架下的主题模型中,当数据分布符合多项式分布的时候,参数的先验分布和后验分布都能保持狄利克雷分布的形式,因而可以通过先验分布结合样本信息得到后验分布。
在本实施例中,假定连通子图中的社群分布以及用户在不同社群中的分布均符合多项式分布,通过主题模型从连通子图中估计出用户所属社群的分布信息。其中,用户关系先验信息用于表征用户分别在不同社群中的先验分布信息,社群先验信息用于表征不同的社群在连通子图中的先验分布信息。用于表征社群分布和用户分布的参数可以有多种类型,比如节点的度中心性、图中用户平均入度出度、网络的边数和用户数的比例等等,基于上述参数可以确定连通子图中的用户关系先验信息和社群先验信息。
作为示例,可以通过节点的度中心性确定连通子图中的用户关系先验信息和社群先验信息。度中心性用于表征连通图中一个节点与其他节点关联的程度,是在网络分析中刻画节点中心性的最直接度量指标,一个节点的节点度中心性越大就意味着这个节点在网络中就越重要。其计算方法是将该节点与其他节点直接相连的连接总数确定为节点的度中心性。首先计算连通子图中每个节点的度中心性,将连通子图中所有节点的度中心性的均值作为连通子图的用户关系先验信息;之后,对连通子图中全部节点的度中心性的加权和,作为连通子图的社群先验信息。
步骤204,基于用户关系先验信息和社群先验信息,以及连通子图,采用预设的主题模型估计出连通子图对应的用户子集中的用户所属社群的分布信息。
主题模型可以将文档的主题以概率分布的形式给出,然后通过采样提取出文档的主题分布后,再根据主题分布进行主题聚类或对文档中的词汇进行分类。在本实施例中,将连通子图、社群、用户分别作为主题模型的文档、主题、词汇,通过主题模型从连通子图中估计出用户所属社群的分布信息。例如可以包括如下步骤:首先将步骤203中得到的用户关系先验信息和社群先验信息输入预先构建的主题模型中,得到确定先验参数后的主题模型;然后,将连通子图输入确定先验参数后的主题模型中,主题模型输出的结果即为连通子图中每个用户的社群归属信息。其中,主题模型可以采用经典的LDA(Latent DirichletAllocation)模型。需要说明的是,构建主题模型、基于先验信息确定主题模型的超参数、通过采样优化主题模型的参数、以及结合先验信息和输入数据估计出对应的后验信息,均是本领域成熟的技术手段,本实施例对此不作限定。
在本实施例的一些可选的实现方式中,可以通过如下步骤从连通子图中估计出用户所属社群的分布信息,将连通子图、社群、用户分别作为主题模型的文档、主题、词汇,基于预设的主题模型执行如下操作:基于社群先验信息和每个用户的用户关系先验信息,对连通子图进行随机游走采样,估计出连通子图中各社群的分布信息和各社群中用户的分布信息;基于连通子图中各社群的分布信息,对连通子图中的社群进行随机游走采样,估计出社群子集;基于各社群中用户的分布信息和社群子集,估计用户所属社群的分布信息。
在该实现方式的一个具体的示例中,采用经典的LDA主题模型,将步骤203中确定的各个连通子图对应的用户关系先验信息和社群先验信息输入该模型中,得到确定先验参数后的LDA主题模型。之后将步骤202中提取出的连通子图分别输入对应的确定先验参数后的LDA主题模型中,每个连通子图对应一个独立的Dirichlet-Multinomial(狄利克雷多项式)共轭结构,同时,每个社群对应一个独立的Dirichlet-Multinomial共轭结构。基于社群先验信息,对每个连通子图分别进行MHRW采样,采样结果收敛后可以估计出该连通子图中多个社群的分布信息;基于用户关系先验信息,对每个社群分别进行MHRW采样,采样结果收敛后可以估计出该社群中用户的分布信息;结合估计出的连通子图中社群的分布信息与各社群中用户的分布信息,可以得到每个连通子图中各个社群中用户的分布信息。对于连通子图中的每个用户,包含有该用户的所有社群的集合即为该连通子图中用户所属的社群分布信息。
步骤205,基于连通子图对应的用户子集中的用户所属社群的分布信息,确定对应用户的社群归属信息。
在本实施例中,每个连通子图都对应一个用户所属社群的分布信息,将同一个用户在所有连通子图中的社群的分布信息集成后,即可确定该用户的社群归属信息。例如,可以直接将所有包括该用户的社群确定为该用户的社群归属类型;再例如,可以设置数量阈值,同一个用户在同一个社群中出现的次数大于该数量阈值时,将该社群作为用户的归属社群,其中,包含该用户的社群在所有连通子图对应的用户所属社群的分布信息中出现的次数即为该用户在社群中出现的次数。
在本实施例的一些可选的实现方式中,基于连通子图对应的用户子集中的用户所属社群的分布信息,确定对应用户的社群归属信息,包括:基于连通子图中得到的用户所属社群的分布信息,采用投票机制确定对应用户的社群归属类型。在一个具体的示例中,可以采用bagging算法(引导聚集算法)对获得的多个主题模型的输出结果进行集成,将得分最高的社群确定为用户的社群归属类型。
继续参见图3,图3是如2所示方法的流程另一个示意图。在图3中,执行主体301可以是服务器也可以是终端设备,在接收到确定用户社群信息的指令之后执行如下步骤:基于用户信息构建连通图;通过采样从连通图中提取出连通子图并从每个连通子图中提取出用户的关系特征和社群特征;基于关系特征和社群特征确定社群先验信息和用户关系先验信息;将关系特先验信息和社群先验信息输入预先构建的主题模型中,获得确定参数后的主题模型;将连通子图输入确定参数后的主题模型,获得用户在该连通子图中的用户所属社群分布信息;基于各连通子图对应的用户所属社群分布信息,确定用户社群归属信息。然后执行主体301可以将确定出的用户社群信息呈现给用户。
本公开的实施例提供的用于确定用户社群信息的方法和装置,基于用户的社群特征和关系特征确定主题模型的先验分布信息,使得主题模型估计出的用户所属社群的分布信息,耦合了用户的社群特征和关系特征,从而提高了确定用户社群信息的准确度。
进一步参考图4,其示出了用于确定用户社群信息的方法的又一个实施例的流程400。该用于确定用户社群信息的方法的流程400,包括以下步骤:
步骤401,获取预设的用户集合的用户信息,并基于用户集合中的用户信息构建连通图。在本实施例中,连通图中的节点表征用户,连通图中的边基于各用户的用户信息表征的用户间关系构建。此步骤与前述步骤201相近,此处不再赘述。
步骤402,通过采样从连通图中提取出连通子图,并基于连通子图对应的用户子集中各用户的用户信息提取出连通子图的用户关系特征和社群特征。在本实施例中,用户关系特征表征连通子图中对应的用户子集中单个用户的关联特征,社群特征表征连通子图对应的用户子集的社群分布特征。此步骤与前述步骤202相近,此处不再赘述。
步骤403,基于每个用户对应的用户关系特征和社群特征,分别确定用户子集中各用户的特征集中度,基于用户子集中各用户的特征集中度确定连通子图对应的用户关系先验信息。
步骤404,基于连通子图的用户关系特征和社群特征,确定连通子图的特征集中度,将连通子图的特征集中度确定为连通子图对应的社群先验信息。在本实施例中,步骤403与步骤404均是通过特征集中度来刻画连通子图中社群分布和社群中用户的分布,并基于特征集中度确定连通子图对应的用户关系先验信息和社群先验信息。与前文步骤203中提及的其他确定先验信息的方法相比,本实施例中采用特征集中度获取的先验信息,可以更好的体现出连通子图的结构关系,有利于提高识别用户社群信息的准确度。
在一个具体的实施例中,可以通过如下步骤确定连通子图对应的用户关系先验信息和社群先验信息。从连通子图中提取出m个特征,m个特征里面包括了用户的关系特征和社群特征,并根据特征的属性为特征赋值,例如对于社交软件用户,可以提取用户的每月登陆频率、兴趣话题数量以及朋友数量等特征,并将具体的数值作为对应的特征的值;对m个特征进行离散化处理,例如可以采用分箱算法,设定分箱数量Bins=20,最大值与最小值之间均分为Bins等份,此处只考虑边界,每个等份里面的特征数量可能并不相等;基于上述离散化后的m个特征,分别计算每个节点的HHI指数(Herfindahl-Hirschman Index,赫芬达尔-赫希曼指数),以及连通子图的HHI指数,HHI指数用于表征特征集中度,其计算公式如下所示:
其中,Xi为m个特征在第i个分箱中的数量,X为数据总量,m为特征总数,si为Xi在X中的占有率;将连通子图中所有特征的均值所对应的HHI指数确定为连通子图的特征集中度,即得到连通子图对应的社群先验信息;将连通子图中所有节点的HHI指数的均值确定为连通子图对应的用户关系先验信息。
步骤405,基于用户关系先验信息和社群先验信息,以及连通子图,采用预设的主题模型估计出连通子图对应的用户子集中的用户所属社群的分布信息。此步骤与前述步骤204相近,此处不再赘述。
步骤406,基于连通子图对应的用户子集中的用户所属社群的分布信息,确定对应用户的社群归属信息。此步骤与前述步骤205相近,此处不再赘述。
在本实施例的一些可选的实现方式中,基于连通子图对应的用户子集中的用户所属社群的分布信息,通过投票机制确定对应用户的社群归属信息,例如,可以采用bagging算法对获得的多个主题模型的输出结果进行集成,将得分最高的社群确定为用户的社群归属类型。以此可以降低主题模型的泛化误差。
从图4中可以看出,本实施例中的用于确定用户社群信息的方法的流程400增加基于特征集中度确定连通子图对应的用户关系先验信息和社群先验信息的步骤,其中,基于特征集中度确定出的连通子图对应的用户关系先验信息和社群先验信息,可以更好的体现出连通子图的结构关系。
本实施例的一些可选实现方式,基于投票机制确定用户的社群归属信息,可以降低主题模型的泛化误差,这两者均有助于提高确定用户社群信息的准确度。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于确定用户社群信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于确定用户社群信息的装置500包括:连通图构建单元501,被配置成获取预设的用户集合的用户信息,并基于用户集合中的用户信息构建连通图,连通图中的节点表征用户,连通图中的边基于各用户的用户信息表征的用户间关系构建;特征提取单元502,被配置成通过采样从连通图中提取出连通子图,并基于连通子图对应的用户子集中各用户的用户信息提取出连通子图的用户关系特征和社群特征,其中,用户关系特征表征连通子图中对应的用户子集中单个用户的关联特征,社群特征表征连通子图对应的用户子集的社群分布特征;先验信息确定单元503,被配置成基于连通子图对应的用户关系特征和社群特征,确定连通子图对应的用户关系先验信息和社群先验信息;社群信息估计单元504,被配置成基于用户关系先验信息和社群先验信息,以及连通子图,采用预设的主题模型估计出连通子图对应的用户子集中的用户所属社群的分布信息;社群信息确定单元505,被配置成基于连通子图对应的用户子集中的用户所属社群的分布信息,确定对应用户的社群归属信息。
在本实施例中,连通子图的用户关系特征和社群特征,包括用户子集中每个用户的关系特征和社群特征,以及先验信息确定单元503,被进一步配置成通过如下方式确定连通子图对应的用户关系先验信息和社群先验信息:基于每个用户对应的用户关系特征和社群特征,分别确定用户子集中各用户的特征集中度,基于用户子集中各用户的特征集中度确定连通子图对应的用户关系先验信息;基于连通子图的用户关系特征和社群特征,确定连通子图的特征集中度,将连通子图的特征集中度确定为连通子图对应的社群先验信息。
在本实施例中,特征提取单元502,被进一步配置成通过如下方式从连通图中提取出连通子图:基于预设条件,对连通图进行随机游走采样,从中提取出出预设数量的连通子图。
在本实施例中,社群信息估计单元503,被进一步配置成将连通子图、社群、用户分别作为主题模型的文档、主题、词汇,基于预设的主题模型执行如下操作:基于社群先验信息和每个用户的关系先验信息,对连通子图进行随机游走采样,估计出连通子图中各社群的分布信息和各社群中用户的分布信息;基于连通子图中各社群的分布信息,对连通子图中的社群进行随机游走采样,估计出社群子集;基于各社群中用户的分布信息和社群子集,估计用户所属社群的分布信息。
在本实施例中,社群信息确定单元505,被进一步配置成通过如下方式确定对应用户的社群归属信息:基于连通子图中得到的用户所属社群的分布信息,采用投票机制确定对应用户的社群归属类型。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)600的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的终端设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取预设的用户集合的用户信息,并基于用户集合中的用户信息构建连通图,连通图中的节点表征用户,连通图中的边基于各用户的用户信息表征的用户间关系构建;通过采样从连通图中提取出连通子图,并基于连通子图对应的用户子集中各用户的用户信息提取出连通子图的用户关系特征和社群特征,其中,用户关系特征表征连通子图中对应的用户子集中单个用户的关联特征,社群特征表征连通子图对应的用户子集的社群分布特征;基于连通子图对应的用户关系特征和社群特征,确定连通子图对应的用户关系先验信息和社群先验信息;基于用户关系先验信息和社群先验信息,以及连通子图,采用预设的主题模型估计出连通子图对应的用户子集中的用户所属社群的分布信息;基于连通子图对应的用户子集中的用户所属社群的分布信息,确定对应用户的社群归属信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括连通图构建单元、特征提取单元、先验信息确定单元、社群信息估计单元和社群信息确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,特征提取单元还可以被描述为“通过采样从连通图中提取出连通子图,并基于连通子图对应的用户子集中各用户的用户信息提取出连通子图的用户关系特征和社群特征的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。