CN110457387A

CN110457387A - 一种应用于网络中用户标签确定的方法及相关装置

Info

Publication number: CN110457387A
Application number: CN201910764779.7A
Authority: CN
Inventors: 黄引刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-15
Anticipated expiration: 2039-08-19
Also published as: CN110457387B

Abstract

本申请公开了一种应用于网络中用户标签确定的方法以及相关装置，通过确定用户集合中的种子用户与非种子用户，并通过计算种子用户与非种子用户的相似度实现对于非种子用户标签信息的设置，然后根据预设算法对设定标签信息后的非种子用户进行根据相关的特征信息进行筛选，得到了标签信息可信的用户集合，该过程利用了用户之间的关联关系，在不同的场景下均可以很好的运行，且整个过程可自动化运行，并及时的获取网络中的关联信息，进一步提高了网络中用户标签确定的便捷性及准确性。

Description

一种应用于网络中用户标签确定的方法及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种应用于网络中用户标签确定的方法及相关装置。

背景技术

随着互联网在全球范围内的飞速发展，互联网每日都会产生数以万计的数据，为了从这些数据中获取有价值的信息，则需要对这些数据进行有效的挖掘。其中，数据挖掘又称数据库中的知识发现(knowledge discover in database，KDD)，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析用户的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。

在社交网络上，用户的行业信息往往起到很重要的作用，例如对一些特定的广告来说，按行业网络定向投放广告给同一产业链的人群，可能效果更好，进而如何挖掘出同一个行业的人以及和上下游行业的关系网络成为一个难题。

一般情况下收集用户的行业信息是通过用户的自行输入，该过程不可控，且具有不确定性，影响信息获取的准确性以及效率。

发明内容

有鉴于此，本申请第一方面提供一种应用于网络中用户标签确定的方法，可应用于用户行业分析或用户推荐服务的系统或程序过程中，具体包括：获取包含X个用户的第一用户集合，以确定A个种子用户和B个非种子用户，所述种子用户为确定了标签信息的用户，所述非种子用户为未确定所述标签信息的用户，所述X个用户通过N个特征信息聚集，X＞A，X＞B，A、B、N和X均为正整数；

根据第一预设算法计算所述B个非种子用户分别与所述A个种子用户的相似度，所述第一预设算法基于所述第一用户集合中多个用户的文本信息设定，所述文本信息用于指示用户画像的词向量的集合；

若所述B个非种子用户中的C个非种子用户与所述A个种子用户的相似度满足预设条件，则根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合，所述第二用户集合中的用户存在对应的标签信息，B≥C，X＞Y＞A，C和Y为正整数；

根据第二预设算法对所述第二用户集合进行筛选计算，以得到包含Z个用户的第三用户集合，所述第二预设算法基于所述N个特征信息与所述Y个用户的标签信息相关度设定，所述第三用户集合用于指示确定所述标签信息的用户，Z≤Y，Z为正整数。

优选的，在本申请一些可能的实现方式中，所述根据第一预设算法计算所述B个非种子用户分别与所述A个种子用户的相似度，包括:

确定所述B个非种子用户的所述文本信息以按照预设规则建立词图，所述文本信息包括多个所述词向量；

根据第三预设算法分别计算所述词向量对于所述B个非种子用户的重要性，所述第三预设算法基于所述词向量在目标矩阵中的位置确定；

根据所述词向量对于所述B个非种子用户的重要性与所述词图进行关联，以得到所述B个非种子用户的向量表示；

确定所述A个种子用户的向量表示，以结合所述B个非种子用户的向量表示进行相似度计算。

优选的，在本申请一些可能的实现方式中，所述确定所述B个非种子用户的所述文本信息以按照预设规则建立词图，包括：

确定所述文本信息中满足筛选条件的多个词汇，所述筛选条件基于所述词汇的出现次数设定；

将所述多个词汇按照预设规则生成对应位置关系，以建立所述词图，所述词图用于计算任意多个所述词汇的出现概率。

优选的，在本申请一些可能的实现方式中，所述若所述B个非种子用户中的C个非种子用户与所述A个种子用户的相似度满足预设条件，则根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合，包括：

确定所述B个非种子用户与所述A个种子用户的相似度中大于第一阈值的所述D个非种子用户，B≥D≥C，D为正整数；

根据第四预设算法计算所述D个非种子用户与所述A个种子用户的标签信息的标签相似度；

选择所述D个非种子用户中标签相似度大于第二阈值的用户，以得到所述C个非种子用户；

根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合。

优选的，在本申请一些可能的实现方式中，所述根据第二预设算法对所述第二用户集合进行收敛计算，以得到包含Z个用户的第三用户集合，包括：

根据第五预设算法计算所述第二用户集合中用户与所述N个特征信息的权重矩阵；

根据第六预设算法计算所述N个特征信息与所述Y个用户的标签信息的相关度；

将所述权重矩阵和所述相关度输入所述第二预设算法，以得到所述Y个用户包含所述标签信息的概率；

获取满足概率规则的所述Z个用户，以得到所述第三用户集合。

优选的，在本申请一些可能的实现方式中，所述第一用户集合还包括第四用户集合，所述第四用户集合与所述第三用户集合组成所述第一用户集合的全集，所述根据第二预设算法对所述第二用户集合进行收敛计算，以得到包含Z个用户的第三用户集合之后，所述方法还包括：

获取与所述第三用户集合中Z个用户存在关联关系的E个用户，E为正整数；

获取所述E个用户中与所述Z个用户存在相同标签信息的用户的多个特征；

根据所述多个特征训练机器学习模型，以得到分类模型，所述分类模型用于计算所述第四用户集合中的用户包含所述标签信息的概率；

若所述第四用户集合中的F个用户包含所述标签信息的概率大于第三阈值，则将所述F个用户加入所述第三用户集合中，F为正整数。

优选的，在本申请一些可能的实现方式中，所述根据所述多个特征训练机器学习模型，以得到分类模型，包括：

确定所述A个种子用户中的多个用户作为正样本；

确定所述第一用户集合中不是所述A个种子用户的用户作为负样本；

将所述正样本与所述负样本输入所述机器学习模型，并根据所述多个特征进行训练，以得到分类模型。

本申请第二方面提供另一种数据测试的装置，包括：

获取单元，用于获取包含X个用户的第一用户集合，以确定A个种子用户和B个非种子用户，所述种子用户为确定了标签信息的用户，所述非种子用户为未确定所述标签信息的用户，所述X个用户通过N个特征信息聚集，X＞A，X＞B，A、B、N和X均为正整数；

计算单元，用于根据第一预设算法计算所述B个非种子用户分别与所述A个种子用户的相似度，所述第一预设算法基于所述第一用户集合中多个用户的文本信息设定，所述文本信息用于指示用户画像的词向量的集合；

确定单元，用于若所述B个非种子用户中的C个非种子用户与所述A个种子用户的相似度满足预设条件，则根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合，所述第二用户集合中的用户存在对应的标签信息，B≥C，X＞Y＞A，C和Y为正整数；

筛选单元，用于根据第二预设算法对所述第二用户集合进行筛选计算，以得到包含Z个用户的第三用户集合，所述第二预设算法基于所述N个特征信息与所述Y个用户的标签信息相关度设定，所述第三用户集合用于指示确定所述标签信息的用户，Z≤Y，Z为正整数。

优选的，在本申请一些可能的实现方式中，

所述计算单元，具体用于确定所述B个非种子用户的所述文本信息以按照预设规则建立词图，所述文本信息包括多个所述词向量；

所述计算单元，具体用于根据第三预设算法分别计算所述词向量对于所述B个非种子用户的重要性，所述第三预设算法基于所述词向量在目标矩阵中的位置确定；

所述计算单元，具体用于根据所述词向量对于所述B个非种子用户的重要性与所述词图进行关联，以得到所述B个非种子用户的向量表示；

所述计算单元，具体用于确定所述A个种子用户的向量表示，以结合所述B个非种子用户的向量表示进行相似度计算。

优选的，在本申请一些可能的实现方式中，

所述确定单元，具体用于确定所述文本信息中满足筛选条件的多个词汇，所述筛选条件基于所述词汇的出现次数设定；

所述确定单元，具体用于将所述多个词汇按照预设规则生成对应位置关系，以建立所述词图，所述词图用于计算任意多个所述词汇的出现概率。

优选的，在本申请一些可能的实现方式中，

所述确定单元，具体用于确定所述B个非种子用户与所述A个种子用户的相似度中大于第一阈值的所述D个非种子用户，B≥D≥C，D为正整数；

所述确定单元，具体用于根据第四预设算法计算所述D个非种子用户与所述A个种子用户的标签信息的标签相似度；

所述确定单元，具体用于选择所述D个非种子用户中标签相似度大于第二阈值的用户，以得到所述C个非种子用户；

所述确定单元，具体用于根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合。

优选的，在本申请一些可能的实现方式中，

所述计算单元，具体用于根据第五预设算法计算所述第二用户集合中用户与所述N个特征信息的权重矩阵；

所述计算单元，具体用于根据第六预设算法计算所述N个特征信息与所述Y个用户的标签信息的相关度；

所述计算单元，具体用于将所述权重矩阵和所述相关度输入所述第二预设算法，以得到所述Y个用户包含所述标签信息的概率；

所述计算单元，具体用于获取满足概率规则的所述Z个用户，以得到所述第三用户集合。

优选的，在本申请一些可能的实现方式中，所述第一用户集合还包括第四用户集合，所述第四用户集合与所述第三用户集合组成所述第一用户集合的全集，

所述计算单元，还用于获取与所述第三用户集合中Z个用户存在关联关系的E个用户，E为正整数；

所述计算单元，还用于获取所述E个用户中与所述Z个用户存在相同标签信息的用户的多个特征；

所述计算单元，还用于根据所述多个特征训练机器学习模型，以得到分类模型，所述分类模型用于计算所述第四用户集合中的用户包含所述标签信息的概率；

所述计算单元，还用于若所述第四用户集合中的F个用户包含所述标签信息的概率大于第三阈值，则将所述F个用户加入所述第三用户集合中，F为正整数。

优选的，在本申请一些可能的实现方式中，

所述计算单元，具体用于确定所述A个种子用户中的多个用户作为正样本；

所述计算单元，具体用于确定所述第一用户集合中不是所述A个种子用户的用户作为负样本；

所述计算单元，具体用于将所述正样本与所述负样本输入所述机器学习模型，并根据所述多个特征进行训练，以得到分类模型。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的应用于网络中用户标签确定的方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的应用于网络中用户标签确定的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过确定用户集合中的种子用户与非种子用户，并通过计算种子用户与非种子用户的相似度实现对于非种子用户标签信息的设置，然后根据预设算法对设定标签信息后的非种子用户进行根据相关的特征信息进行筛选，得到了标签信息可信的用户集合，该过程利用了用户之间的关联关系，在不同的场景下均可以很好的运行，且整个过程可自动化运行，并及时的获取网络中的关联信息，进一步提高了网络中用户标签确定的便捷性及准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为用户行业管理系统运行的网络架构图；

图2为一种基于用户行业查询的交互场景示意图；

图3为本申请实施例提供的一种应用于网络中用户标签确定的方法的流程图；

图4为本申请实施例提供的一种扩展用户标签确定范围的拓扑示意图；

图5为本申请实施例提供的另一种应用于网络中用户标签确定的方法的流程图；

图6为本申请实施例提供的一种用户标签确定的界面显示示意图；

图7为本申请实施例提供的标签确定装置的结构示意图；

图8为本申请实施例提供的另一种标签确定装置的结构示意图。

具体实施方式

本申请实施例提供了一种应用于网络中用户标签确定的方法以及相关装置，可应用于用户行业分析或用户推荐服务的系统或程序过程中，具体通过确定用户集合中的种子用户与非种子用户，并通过计算种子用户与非种子用户的相似度实现对于非种子用户标签信息的设置，然后根据预设算法对设定标签信息后的非种子用户进行根据相关的特征信息进行筛选，得到了标签信息可信的用户集合，该过程利用了用户之间的关联关系，在不同的场景下均可以很好的运行，且整个过程可自动化运行，并及时的获取网络中的关联信息，进一步提高了网络中用户标签确定的便捷性及准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的用户标签确定方法可以应用于用户行业管理系统的运行过程中，具体的，用户行业管理系统可以运行于如图1所示的网络架构中，如图1所示，是用户行业管理系统运行的网络架构图，如图可知，用户行业管理系统可以通过多个终端获取用户的行业数据或用户的查询请求，通过服务器获取用户数据以及进行相关的关联计算并为用户设置的标签，根据预设的规则对上述标签进行分析计算，得到可信的结果，可以理解的是，图1中示出了多个终端以及不同的用户交互设备，在实际场景中可以有更多或更少的终端设备参与到实验测试中，对于用户交互设备不仅限于图中所示的种类，具体数量或种类因实际场景而定，此处不做限定；另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多用户数据交互的场景中，具体服务器数量因实际场景而定。

可以理解的是，上述用户行业管理系统可以运行于个人移动终端，也可以运行于服务器，还可以作为运行于第三方设备以提供客户端输入数据与后台计算关联策略的快速迭代确定，以得出行业报告；具体的用户行业管理系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

应理解，在本发明实施例中，终端包括但不限于用户设备(User Equipment，UE)、移动台(Mobile Station，MS)、移动终端(Mobile Terminal)、移动电话(MobileTelephone)、手机(handset)及便携设备(portable equipment)等，该用户设备可以经无线接入网(Radio Access Network，RAN)与一个或多个核心网进行通信，例如，用户设备可以是移动电话(或称为“蜂窝”电话)、具有无线通信功能的计算机等，用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置。

在社交网络上，用户的行业信息往往起到很重要的作用，例如对一些特定的广告来说，按行业网络定向投放广告给同一产业链的人群，可能效果更好，进而如何挖掘出同一个行业的人以及和上下游行业的关系网络成为一个难题。一般情况下收集用户的行业信息是通过用户的自行输入，该过程不可控，且具有不确定性，影响信息获取的准确性以及效率。

为了解决上述问题，本申请提出了一种应用于网络中用户标签确定的方法，该方法可应用于图2所示的终端与服务器的交互场景中，如图2所示，是一种基于用户行业查询的交互场景示意图，图中包括终端的应用程序与服务器侧的社交平台的交互过程，终端的应用程序通过向服务器侧的社交平台发送相关的行业查询请求，例如:请求行业为X且有好友行业为Y的用户；请求行业为X的所有用户等，具体的请求模式应实际场景而定；服务器侧的社交平台接收到查询请求后会根据终端用户的相关信息根据本申请实施例提供的标签确定方法对请求所指示的用户进行查询及确认，然后将确定后的结果返回至终端应用程序，以供用户获取。

具体的服务器通过确定用户集合中的种子用户与非种子用户，并通过计算种子用户与非种子用户的相似度实现对于非种子用户标签信息的设置，然后根据预设算法对设定标签信息后的非种子用户进行根据相关的特征信息进行筛选，得到了标签信息可信的用户集合，该过程利用了用户之间的关联关系，在不同的场景下均可以很好的运行，且整个过程可自动化运行，并及时的获取网络中的关联信息，进一步提高了网络中用户标签确定的便捷性及准确性。

可以理解的是，标签信息可以用于指示用户的行业，也可以用于指示用户的兴趣、爱好等其他特征属性，具体特征因实际场景而定，本申请以行业查询为例进行说明。

结合上述交互场景，下面将对本申请中应用于网络中用户标签确定的方法进行介绍，请参阅图3，图3为本申请实施例提供的一种应用于网络中用户标签确定的方法的流程图，本申请实施例至少包括以下步骤：

301、获取包含X个用户的第一用户集合，以确定A个种子用户和B个非种子用户。

本实施例中，种子用户为确定了标签信息的用户，所述非种子用户为未确定所述标签信息的用户，所述X个用户通过N个特征信息聚集，X＞A，X＞B，A、B、N和X均为正整数。

可以理解的是，第一用户集合可以是终端所包含的所有用户的集合，例如：通讯录；也可以是某一用户在某特定应用程序中关联用户的集合，例如：微信、QQ等；还可以是网络中一类用户的集合，例如：年龄相同的用户，具体的集合方式因实际场景而定。

对应的，种子用户即为已确定标签信息的用户，可以是一个也可以是多个，例如：微信好友中已确定行业为金融的用户；非种子用户即为未知或为确定标签信息的用户，可以是一个也可以是多个，例如：微信好友中未标识所述行业，或对于已标识的行业信息可信度不高的情况。

302、根据第一预设算法计算所述B个非种子用户分别与所述A个种子用户的相似度。

本实施例中，所述第一预设算法基于所述第一用户集合中多个用户的文本信息设定，所述文本信息用于指示用户画像的词向量的集合。

具体的，首先收集第一用户集合中用户的文本信息，然后基于BERT模型，训练出每一个词的向量(K维向量)，其中，BERT模型可准确计算出每一个词w_i的向量v_i。接下来，对每一个用户所有文本，切词，筛选有代表性的词代表,词代表集合记为E，假设共有D个词，即w₁,w₂,…，w_i…w_D。

可选的，确定文本信息的词向量的过程可以采用如下步骤，首先确定所述B个非种子用户的所述文本信息以按照预设规则建立词图，所述文本信息包括多个所述词向量。

具体的，可以确定所述文本信息中满足筛选条件的多个词汇，所述筛选条件基于所述词汇的出现次数设定；将所述多个词汇按照预设规则生成对应位置关系，以建立所述词图，所述词图用于计算任意多个所述词汇的出现概率。例如：计算每一个词的得分，按得分大小排序，取值排在前30个并且值得大小大于阈值词的得分计算方式如下：

score(w_I)＝fun(p(w_i))–fun(base_p(w_i))

其中fun(x)＝x*log(x)+(1–x)*log(1–x)；

cnt(w_i)指的是这个用户文本中，包含词w_i的数量；

指的是所有用户的的文本中，包含词w_i的数量；

然后，对用户的E中的词，两两建立边，建立词图；词图中，计算词Wi和词Wj的权重：

Weight(i,j)＝S_i,j*(fun(r_i,j)–fun(base_r_i,j))

其中，

cnt(w_i w_j)为用户文本中，词w_i和词w_j连续在一起出现的次数，可反应出词w_i和词w_j连续在一起的出现概率；

结合上述公式可得：

然后根据第三预设算法分别计算所述词向量对于所述B个非种子用户的重要性，所述第三预设算法基于所述词向量在目标矩阵中的位置确定；例如：对于任意一个用户，计算每个词的重要性：

第三预设算法如下：

其中：f是一个激活函数，包括不限于sigmoid函数，tanh函数，relu函数，LReLU、PReLU与RReLU等

score(w_i)是step3计算出来该用户关于词w_i的值

v_i是词w_i的向量

Z(w_i)：表示这个用户，词w_i的重要性

Q是一个矩阵，待学习的参数

应当注意的是，对于Q可以采用如下计算过程：

首先，

其中y_i指的是收集到第i条记录的y变量(用户是否是可疑社交账号)；y变量的收集为随机抽取一批用户(记为Y)以及代表他的每个词的score(w_i)。

然后，生成样本，再对集合Y中的用户，等概率的划分成2个集合Y1和Y2；对于Y1中的任意一个用户i，选取出一个最能代表用户的词(score值最大)，y_i＝1,即形成一条训练记录<i，w_i，y_i>；对于Y2中的任意一个用户i，选取出一个最不能代表用户的词(score值最小)，y_i＝0,即形成一条训练记录<i，w_i，y_i>。

最后，使用反向传播算法，更新模型的参数Q。

在确定词向量的重要性后，接下来根据所述词向量对于所述B个非种子用户的重要性与所述词图进行关联，以得到所述B个非种子用户的向量表示；最后确定所述A个种子用户的向量表示，以结合所述B个非种子用户的向量表示进行相似度计算。

具体的，首先计算出每一个用户的向量h_i

计算方式如下：

其中D表示用户i词代表集合E的元素个数；

v_j是词w_j的向量；

Z(w_j)是词w_j的重要性；

最后，对于任意两个用户i和用户j，相似度计算公式，即第一预设算法如下：

303、若所述B个非种子用户中的C个非种子用户与所述A个种子用户的相似度满足预设条件，则根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合。

本实施例中，第二用户集合中的用户存在对应的标签信息，B≥C，X＞Y＞A，C和Y为正整数；其中，预设条件可以为C个非种子用户与A个种子用户的相似度满足预设条件，例如similarity(a,c)＞0.8。

可选的，为进一步提高标签确定的准确性，还可以先确定所述B个非种子用户与所述A个种子用户的相似度中大于第一阈值的所述D个非种子用户，B≥D≥C，D为正整数；然后，根据第四预设算法计算所述D个非种子用户与所述A个种子用户的标签信息的标签相似度；再选择所述D个非种子用户中标签相似度大于第二阈值的用户，以得到所述C个非种子用户；接下来，根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合。

具体的，例如用户x与行业i的预设条件判断过程如下：

Step1:对于用户x,行业i的种子用户集合A_I中的每一个用户j，计算出相似度similarity(x,j)

Step2:对similarity(x,j)的从大到小排序，取top10的结果形成集合Z(如果元素个数<10,则取所有元素)

Step3:计算用户x与行业i的相似度

公式如下：

其中m是集合Z的大小(1<＝m<＝10)；

Step4:按sim(x,A_I)的大小对所有行业进行排序，如果排在第一位的行业y，sim(x,A_y)的值大于阈值，则认为用户x所在的行业是y，并把用户x加入到第二用户集合；

Step5:把种子集合A中的用户也加入到第二用户集合中，B_i表示行业i的种子用户。

304、根据第二预设算法对所述第二用户集合进行筛选计算，以得到包含Z个用户的第三用户集合。

本实施例中，第二预设算法基于所述N个特征信息与所述Y个用户的标签信息相关度设定，所述第三用户集合用于指示确定所述标签信息的用户，Z≤Y，Z为正整数。其中，特征信息可以是用户的聚集场所，如群、专业论坛、专业页面、专业文章、wifi、专业app等。

可选的，对于所述根据第二预设算法对所述第二用户集合进行收敛计算的过程，可以包括：

Step1：根据第五预设算法计算所述第二用户集合中用户与所述N个特征信息的权重矩阵。

第五预设算法可以为：

其中，cnt表示用户i，在一个周期内(如一个月)访问聚集场所i的次数；当cnt＝0时，W_I,j＝0 W是一个M*n的矩阵，其中M是用户的总体个数，n是聚集场所的个数，即N个特征信息。

应当注意的是，当对于特定的一个j，对于任意一个k(1≤k≤n)g_j,k都小于阈值(如0.2)，那么则认为场所j没有行业聚集性，并且设置把矩阵W的第j列置0，即对于任意i，W_I,j＝0；

当对于特定的一个i，如果W_I,j小于阈值HH(如0.05)，那么就置W_I,j＝0。

Step:2：根据第六预设算法计算所述N个特征信息与所述Y个用户的标签信息的相关度。

对于聚集场所j，计算场所j和行业k的相关性，第六预设算法可以为：

其中：e∈C_k,表示用户e属于行业k的一员；

Step3：将所述权重矩阵和所述相关度输入所述第二预设算法，以得到所述Y个用户包含所述标签信息的概率。

计算用户i对于行业k的概率，第二预设算法可以为：

Step4：获取满足概率规则的所述Z个用户，以得到所述第三用户集合。

对于特定的一个用户i(不属于第三用户集合)，对于任意k，取最大的A_I,k值时最大时的k，如果最大值大于一个固定值(如0.7)，那么就认为用户i所属于的行业是k，并把用户i加入到第三用户集合中，从而得到具有对应标签信息的第三用户集合。

可选的，当迭代没有停止时，转到step1～step4迭代执行；其中迭代停止的条件是，迭代的次数大于一定的次数(如5)或者本轮迭代新增加到集合C中的用户<＝1000个)，然后把最后一步迭代计算出的A_I,k赋值给变量g_sim(I,A_k)。

结合上述实施例可知，通过确定用户集合中的种子用户与非种子用户，并通过计算种子用户与非种子用户的相似度实现对于非种子用户标签信息的设置，然后根据预设算法对设定标签信息后的非种子用户进行根据相关的特征信息进行筛选，得到了标签信息可信的用户集合，该过程利用了用户之间的关联关系，在不同的场景下均可以很好的运行，且整个过程可自动化运行，并及时的获取网络中的关联信息，进一步提高了网络中用户标签确定的便捷性及准确性。

在一些可能的场景中，第一用户集合的确定过程可能不是十分全面，此时可以根据种子用户在社交网络中的关联用户进一步的确定更多用户的标签，如图4所示，图4为本申请实施例提供的一种扩展用户标签确定范围的拓扑示意图，图中，可以通过种子用户采取图3所述的算法对第一集合中非种子用户进行标签确定，进一步的可以通过社交网络对种子用户的关联用户进行进一步的挖掘，以扩大标签确定范围。

下面，结合上述场景对本申请提出的标签确定方法进行说明，如图5所示，图5为本申请实施例提供的另一种应用于网络中用户标签确定的方法的流程图，本申请实施例至少包括以下步骤：

501、获取包含X个用户的第一用户集合，以确定A个种子用户和B个非种子用户。

502、根据第一预设算法计算所述B个非种子用户分别与所述A个种子用户的相似度。

503、若所述B个非种子用户中的C个非种子用户与所述A个种子用户的相似度满足预设条件，则根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合。

504、根据第二预设算法对所述第二用户集合进行筛选计算，以得到包含Z个用户的第三用户集合。

本实施例中，步骤501-504的相关描述可参照图3中的步骤301-304的描述，此处不做赘述。

505、获取与所述第三用户集合中Z个用户存在关联关系的E个用户，E为正整数；

本实施例中，与所述第三用户集合中Z个用户存在关联关系的E个用户可以是第一用户集合中的用户，也可以是社交网络中的其他用户；其中关联关系可以是好友关系，也可以是业务关系，还可以是具有相似的用户画像，具体的关系因实际场景而定。

506、获取所述E个用户中与所述Z个用户存在相同标签信息的用户的多个特征。

本实施例中，多个特征的确定过程可以是，抽取m+2个特征集合X_1：将sim(x,A_i)作为用户x的一个特征，g_sim(x,A_i)作为用户x的另一个特征，统计用户x的好友中，好友是行业i的用户个数cnt_i，共m个行业，故这里有m个特征。

然后，建立用户x的ego network，抽取好友之间的特征,形成特征集合X_2；具体的，假设用户x有R个好友，那么对于任意2个好友之间i1和i2，如果i和j都属于C中的集合，那么统计count(C(i1),C(i2))，共计有m*m个特征。

可以理解的是，对于长度为3的，count(C(i1),C(i2)，C(i3)),共计有m*m*m个特征；对于长度为k的，count(C(i1),C(i2)…C(ik)),共计有m^k个特征。

507、根据所述多个特征训练机器学习模型，以得到分类模型，所述分类模型用于计算所述第四用户集合中的用户包含所述标签信息的概率；

本实施例中，根据步骤506的获取的多个特征对机器学习模型进行训练，以得到分类模型。

具体的训练过程可以包括：

Step1：确定所述A个种子用户中的多个用户作为正样本；

Step2：确定所述第一用户集合中不是所述A个种子用户的用户作为负样本；

Step3：将所述正样本与所述负样本输入所述机器学习模型，并根据所述多个特征进行训练，以得到分类模型。

508、若所述第四用户集合中的F个用户包含所述标签信息的概率大于第三阈值，则将所述F个用户加入所述第三用户集合。

本实施例中，对所述Z个用户，使用训练好的模型，预测出用户所在的行业和概率，如果概率值大于第三阈值(如0.8)，那么该用户就加入到第三用户集合中。

可选的，对于最终的确定标签信息的用户，可以采用<i,t_i>的格式进行显示，其中i表示用户的id，t_i表示用户i的所在的行业。

在一种可能的显示方式中，可以采用如图6所述的显示方式，图6为本申请实施例提供的一种用户标签确定的界面显示示意图。该界面可以包括用户列表、用户的种类以及所属的行业，当用户需要知晓相关用户的行业信息时，可以点击确定标签按钮；通过上述实施例提供的用户标签确定的方法，既可以输出未知行业用户的相关信息，如图中，用户2为通过与种子用户的相似度比对计算而确定的行业，而用户3为用户1的好友，即与用户1具有关联关系，通过基于多个特征训练的模型计算而确定的行业，应当注意的是，上述实施例中的内容或相关模块均可以出现在图6所示的界面中，此处不做限定。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图7，图7为本申请实施例提供的标签确定装置的结构示意图，标签确定装置700包括：

获取单元701，用于获取包含X个用户的第一用户集合，以确定A个种子用户和B个非种子用户，所述种子用户为确定了标签信息的用户，所述非种子用户为未确定所述标签信息的用户，所述X个用户通过N个特征信息聚集，X＞A，X＞B，A、B、N和X均为正整数；

计算单元702，用于根据第一预设算法计算所述B个非种子用户分别与所述A个种子用户的相似度，所述第一预设算法基于所述第一用户集合中多个用户的文本信息设定，所述文本信息用于指示用户画像的词向量的集合；

确定单元703，用于若所述B个非种子用户中的C个非种子用户与所述A个种子用户的相似度满足预设条件，则根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合，所述第二用户集合中的用户存在对应的标签信息，B≥C，X＞Y＞A，C和Y为正整数；

筛选单元704，用于根据第二预设算法对所述第二用户集合进行筛选计算，以得到包含Z个用户的第三用户集合，所述第二预设算法基于所述N个特征信息与所述Y个用户的标签信息相关度设定，所述第三用户集合用于指示确定所述标签信息的用户，Z≤Y，Z为正整数。

优选的，在本申请一些可能的实现方式中，

所述计算单元702，具体用于确定所述B个非种子用户的所述文本信息以按照预设规则建立词图，所述文本信息包括多个所述词向量；

所述计算单元702，具体用于根据第三预设算法分别计算所述词向量对于所述B个非种子用户的重要性，所述第三预设算法基于所述词向量在目标矩阵中的位置确定；

所述计算单元702，具体用于根据所述词向量对于所述B个非种子用户的重要性与所述词图进行关联，以得到所述B个非种子用户的向量表示；

所述计算单元702，具体用于确定所述A个种子用户的向量表示，以结合所述B个非种子用户的向量表示进行相似度计算。

优选的，在本申请一些可能的实现方式中，

所述确定单元703，具体用于确定所述文本信息中满足筛选条件的多个词汇，所述筛选条件基于所述词汇的出现次数设定；

所述确定单元703，具体用于将所述多个词汇按照预设规则生成对应位置关系，以建立所述词图，所述词图用于计算任意多个所述词汇的出现概率。

优选的，在本申请一些可能的实现方式中，

所述确定单元703，具体用于确定所述B个非种子用户与所述A个种子用户的相似度中大于第一阈值的所述D个非种子用户，B≥D≥C，D为正整数；

所述确定单元703，具体用于根据第四预设算法计算所述D个非种子用户与所述A个种子用户的标签信息的标签相似度；

所述确定单元703，具体用于选择所述D个非种子用户中标签相似度大于第二阈值的用户，以得到所述C个非种子用户；

所述确定单元703，具体用于根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合。

优选的，在本申请一些可能的实现方式中，

所述计算单元702，具体用于根据第五预设算法计算所述第二用户集合中用户与所述N个特征信息的权重矩阵；

所述计算单元702，具体用于根据第六预设算法计算所述N个特征信息与所述Y个用户的标签信息的相关度；

所述计算单元702，具体用于将所述权重矩阵和所述相关度输入所述第二预设算法，以得到所述Y个用户包含所述标签信息的概率；

所述计算单元702，具体用于获取满足概率规则的所述Z个用户，以得到所述第三用户集合。

所述计算单元702，还用于获取与所述第三用户集合中Z个用户存在关联关系的E个用户，E为正整数；

所述计算单元702，还用于获取所述E个用户中与所述Z个用户存在相同标签信息的用户的多个特征；

所述计算单元702，还用于根据所述多个特征训练机器学习模型，以得到分类模型，所述分类模型用于计算所述第四用户集合中的用户包含所述标签信息的概率；

所述计算单元702，还用于若所述第四用户集合中的F个用户包含所述标签信息的概率大于第三阈值，则将所述F个用户加入所述第三用户集合中，F为正整数。

优选的，在本申请一些可能的实现方式中，

所述计算单元702，具体用于确定所述A个种子用户中的多个用户作为正样本；

所述计算单元702，具体用于确定所述第一用户集合中不是所述A个种子用户的用户作为负样本；

所述计算单元702，具体用于将所述正样本与所述负样本输入所述机器学习模型，并根据所述多个特征进行训练，以得到分类模型。

本申请实施例还提供了一种标签确定装置，请参阅图8，图8是本申请实施例提供的另一种标签确定装置的结构示意图，该标签确定装置800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对标签确定装置中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在标签确定装置800上执行存储介质830中的一系列指令操作。

标签确定装置800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由标签确定装置所执行的步骤可以基于该图8所示的标签确定装置结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有数据测试指令，当其在计算机上运行时，使得计算机执行如前述图3至图5所示实施例描述的方法中标签确定装置所执行的步骤。

本申请实施例中还提供一种包括数据测试指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图5所示实施例描述的方法中标签确定装置所执行的步骤。

本申请实施例还提供了一种数据测试系统，所述数据测试系统可以包含图7所描述实施例中的标签确定装置，或者图8所描述的标签确定装置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，标签确定装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种应用于网络中用户标签确定的方法，其特征在于，包括：

获取包含X个用户的第一用户集合，以确定A个种子用户和B个非种子用户，所述种子用户为确定了标签信息的用户，所述非种子用户为未确定所述标签信息的用户，所述X个用户通过N个特征信息聚集，X＞A，X＞B，A、B、N和X均为正整数；

2.根据权利要求1所述的方法，其特征在于，所述根据第一预设算法计算所述B个非种子用户分别与所述A个种子用户的相似度，包括:

3.根据权利要求2所述的方法，其特征在于，所述确定所述B个非种子用户的所述文本信息以按照预设规则建立词图，包括：

4.根据权利要求1所述的方法，其特征在于，所述若所述B个非种子用户中的C个非种子用户与所述A个种子用户的相似度满足预设条件，则根据所述A个种子用户的标签信息确定所述C个非种子用户的标签信息，以得到包含Y个用户的第二用户集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据第二预设算法对所述第二用户集合进行收敛计算，以得到包含Z个用户的第三用户集合，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述第一用户集合还包括第四用户集合，所述第四用户集合与所述第三用户集合组成所述第一用户集合的全集，所述根据第二预设算法对所述第二用户集合进行收敛计算，以得到包含Z个用户的第三用户集合之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述多个特征训练机器学习模型，以得到分类模型，包括：

确定所述A个种子用户中的多个用户作为正样本；

8.一种应用于网络中用户标签确定的装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的应用于网络中用户标签确定的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至7所述的应用于网络中用户标签确定的方法。