CN112699949A

CN112699949A - 一种基于社交平台数据的潜在用户识别方法及装置

Info

Publication number: CN112699949A
Application number: CN202110008007.8A
Authority: CN
Inventors: 韩天奇; 卢铮
Original assignee: Budweiser Investment China Co ltd
Current assignee: Budweiser Investment China Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-04-23
Anticipated expiration: 2041-01-05
Also published as: CN112699949B

Abstract

本申请的一个实施例公开了一种基于社交平台数据的潜在用户识别方法及装置，该方法包括：S10、基于白名单词表和/或第一黑名单词表对从社交平台获取的数据进行预提取，得到无标签帖子集合T和无标签图像集合I；S20、利用训练好的N个图像分类模型对所述图像集合I进行图像分类，得到所述图像集合I对应的用户的第一分值，其中，N大于等于2；S30、基于异常用户数据检测得到所述帖子集合T对应的用户的第二分值；S40、基于第一分值与第二分值获得潜在用户分值。本申请提出了对社交数据进行预提取的方法获取潜在有用户，仅采集可能对品牌感兴趣的用户子集中的关键社交数据来识别用户兴趣，大规模减少了数据获取量和不必要的数据获取开销。

Description

一种基于社交平台数据的潜在用户识别方法及装置

技术领域

本申请涉及数据挖掘领域。更具体地，涉及一种基于社交平台数据的潜在用户识别方法、装置、计算设备和存储介质。

背景技术

社交平台数据中存在海量数据，从中挖掘出用户的潜在兴趣。现有的数据挖掘、图像识别及自然与处理技术可以较好的挖掘出用户的一些通用兴趣，如美食、美妆和音乐等。现有技术中可以使用神经网络对用户文本进行embedding并提取用户兴趣或利用用户的文本信息和用户互动关系挖掘用户兴趣或针对某一用户的历史微博图文，分别从文本和图像提取语义特征，并通过这些特征识别用户兴趣倾向等。

实际应用中存在垂直领域的用户精细化兴趣挖掘，以啤酒行业为例，企业中需要挖掘的不仅仅是喜欢喝酒的用户，更需要进行精准定位，如啤酒还是白酒、什么档次、甚至具体到细分品牌和口味，经过喜欢酒＝>喜欢啤酒＝>喜欢高端啤酒＝>喜欢某牌高端啤酒某种口味的过滤后，细分用户的占比将在总数据中极少，这就大大增加了用户挖掘的难度，主要表现在：

1、细分兴趣用户的获取平均成本大幅度提升。在获取有效用户之前，需要先以一定策略在海量社交平台上获得原始数据，而细分兴趣用户在社交平台中占比和总量都很少。一方面由于占比很少，如果全量抓取社交平台数据会抓大大量数据，导致用户获取的平均成本极高；另一方面由于总量很少就希望能够尽可能少地遗漏掉这类用户。因此需要有一个较好的数据抓取策略可以以相对较少的数据抓取成本同时能够获得尽可能多的有效用户。

2、细分兴趣用户识别在召回率上要求更高。由于细分兴趣用户总量较少，因此希望能够尽可能高地提升有效用户的召回。例如识别喜欢喝酒的用户下单通过文字匹配就可以找到大量用户，并从中进一步筛选有效用户，而对于某品牌高端啤酒如果也用文字匹配，其总量本身就会很少，因此需要扩大搜索范围，例如某些提到酒的用户可能在配图中发出了该品牌啤酒的图，说明该用户也可能是一个有效用户，因此需要结合更多的信息进行筛选。

3、细分兴趣用户识别在准确率上要求更高。区别于通用兴趣，细分兴趣更加细化也更容易受到其他类似兴趣的干扰。例如在图像识别中啤酒和小动物在形状、颜色、材质反射上都会有很明显的特征差异，而具体到高端啤酒间不同品牌的识别，它们的形状材质通常非常接近，仅有一些如商标等细节上的差异，因此在识别上难度更大。

4、细分兴趣用户识别缺乏有效的数据训练模型。现有数据集中有很多通用的对象识别数据和算法可以使用(如imagenet,places365)，因此如果只是识别美食餐馆这种通用兴趣可以有效利用这些数据集，而特定到具体细分品牌则难以直接使用这些数据。此外，由于这些数据本身总量较少，直接人工标注也将浪费大量人力在负样本标注下。因此需要一种有效的半监督学习方法实现算法的冷启动。

5、细分兴趣用户识别更容易受到其他噪音的干扰。由于细分兴趣用户总量本身较少，有可能低于其他噪音的出现概率。例如啤酒品牌“福佳”出现的频率可能会小于以“福佳”命名的小区或者电视剧中的人名。又如在发图的用户中可能大量是进行推销的用户而并非对该品牌啤酒感兴趣。而传统的异常检测算法是假设要找的数据量远远大于异常数据量，这就增加了异常数据筛选的难度。

发明内容

有鉴于此，本申请提出了一种基于社交平台数据的潜在用户识别方法、装置、计算设备和存储介质。

第一方面，本申请提供一种基于社交平台数据的潜在用户识别方法，该方法包括：

S10、基于白名单词表和/或第一黑名单词表对从社交平台获取的数据进行预提取，得到无标签帖子集合T和无标签图像集合I；

S20、利用训练好的N个图像分类模型对所述图像集合I进行图像分类，得到所述图像集合I对应的用户的第一分值，其中，N大于等于2；

S30、基于异常用户数据检测得到所述帖子集合T对应的用户的第二分值；

S40、基于第一分值与第二分值获得潜在用户分值。

在一个具体实施例中，该方法还包括：对所述N个图像分类模型进行训练的步骤，其中，所述步骤包括：

S200、获取已标注训练集D0:{I0,y0}，其中，I0为已知图像集合，y0为与已知图像集合I0对应的标签，其中标签包括正样本标签和负样本标签；

S202、利用所述已标注训练集D0对所述N个图像分类模型进行训练；

S204、利用S202中训练的所述N个图像分类模型对未标注训练集D进行分类，得到分类结果；

S206、将分类结果中属于正样本标签的训练样本组成新训练集D1:{I1,y1}，重新训练所述N个图像分类模型，其中，I1为分类结果中为正样本标签的图像集合，y1为与与I1对应的标签；

S208、重复步骤S204和S206，直至所述N个图像分类模型的训练精度达到第一阈值。

在一个具体实施例中，所述S204包括：

利用S202中训练的所述N个图像分类模型对未标注训练集D进行分类，其中，所述未标注训练集D中的每个图片数据包括该图片的本身数据及该图片被P次区域分割后的P个子图片数据，对于每个图片，得到(P+1)×N个分类结果；

在一个具体实施例中，所述异常用户数据检测包括营销用户数据检测和非原创用户数据检测，所述第二分值包括营销用户分值和非原创用户分值。

在一个具体实施例中，所述营销用户数据检测包括：

S300、创建用于识别营销用户的第二黑名单词表；

S302、统计所述无标签帖子集合T中的每条帖子中出现所述第二黑名单词表的频率F1，若频率F1大于第二阈值，得到与所述帖子对应的所述营销用户分值。

在一个具体实施例中，所述非原创用户数据检测包括：

S304、创建数据库，所述数据库存储有所述无标签帖子集合T中的所有文章和图像；

S306、统计所述无标签帖子集合T中的每条帖子中的文章和图像在所述数据库中重复出现的频率F2，若F2大于第三阈值，得到与所述帖子对应的所述非原创用户分值。

在一个具体实施例中，所述统计所述无标签帖子集合T中的每条帖子中的文章和图像在所述数据库中重复出现的频率F2，包括：

任意选取两篇文章；

若文章的编辑距离与所述两篇文章长度总和的比例超过第四阈值则认为没有重复出现，否则认为重复出现。

任意选取两张图片；

分别将两张图片进行灰度化处理并伸缩到16×16大小的图；

若两张图片的均方误差超过第五阈值则认为没有重复出现，否则认为重复出现。

在一个具体实施例中，所述S40还包括：

基于用户基本信息，得到用户第三分值；

基于所述第一分值、第二分值和第三分值获得潜在用户分值。

在一个具体实施例中，该方法还包括：

S50、基于所述潜在用户分值与分值阈值的比较对所述黑名单和/或白名单的词表进行优化。

在一个具体实施例中，该方法还包括：

S60、基于所述潜在用户分值与分值阈值的比较对所述N个图像分类模型进行优化。

第二方面，本申请提供一种基于社交平台数据的潜在用户识别装置，该装置包括：

预提取模块，用于基于白名单和/或黑名单对从社交平台获取的数据进行预提取，得到无标签帖子集合T和无标签图像集合I；

图像分类模块，用于利用训练好的N个图像分类模型对所述图像集合I进行图像分类，得到所述图像集合I对应的用户的第一分值，其中，N大于等于2；

异常用户数据检测模块，用于基于异常用户数据检测得到所述帖子集合T对应的用户的第二分值；

潜在用户识别模块，用于基于第一分值与第二分值获得潜在用户分值。

第三方面，本申请还提供了一种计算设备，包括处理器及存储有程序的存储器，所述处理器执行所述程序时实现上述第一方面中所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述的方法。

本申请的有益效果如下：

本申请所述技术方案提出了对社交数据进行预提取的方法获取潜在有用户，仅采集可能对品牌感兴趣的用户子集中的关键社交数据来识别用户兴趣，大规模减少了数据获取量和不必要的数据获取开销，进一步针对缺乏标注数据的细粒度图像识别问题，提出了一种基于半监督学习的图像识别框架，可以高效地实现有正样本数据收集，大量降低了人力成本，并且对用户社交数据中的文本、图像、基础信息的多个维度同时考虑集成输出结果并进一步迭代优化系统精度的技术框架，有效提高了潜在用户的识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本申请的一个实施例的系统架构示意图。

图2示出根据本申请的一个实施例的基于社交平台数据的潜在用户识别方法的流程图。

图3示出根据本申请的一个实施例的对未标注训练集D进行分类的流程示意图。

图4示出根据本申请的一个实施例的基于社交平台数据的潜在用户识别装置的示意图。

图5示出根据本申请的一个实施例的计算设备的结构示意图。

具体实施方式

为了更清楚地说明本申请，下面结合优选实施例和附图对本申请做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本申请的保护范围。

本申请的目的是为了解决上述背景技术部分中细分用户兴趣识别的难点，提出了一种基于社交平台数据的潜在用户识别方法，该方法可以在较低的人力投入、数据获取成本下得到高精度高召回的有效用户。

如图1所示，首先从海量社交平台1获取社交平台数据，进一步将所述社交平台数据发送至服务器2，服务器2对所述社交平台数据进行一系列处理，提取出潜在用户子集，以达到识别潜在用户的目的，并且在保证召回率的条件下，大量降低了采集的成本。

在一个具体示例中，社交平台包括但不限于微博、小红书、百度贴吧等，社交平台数据即为用户在微博上发表的博文、小红书上发表的笔记或百度贴吧上发表的帖子，本领域技术人员应该明了，上述社交平台数据可以以文本或图像的形式呈现。

如图2所示，本申请提出了一种基于社交平台数据的潜在用户识别方法，该方法包括：

在一个具体示例中，基于现有的业务知识，设计要抓取的关键词表和过滤词表，关键词表即白名单词表，过滤词表即为第一黑名单词表，其中，关键词表为可能出现感兴趣用户的词表，例如，提到“酒”，“干杯”，“福佳”的帖子中会有较大概率反映出用户对“福佳”的兴趣，是需要采集的数据；过滤词表为可能是噪声的词语，例如：“福佳新城”中虽然提到了“福佳”，但大概率是与“福佳啤酒”无关的数据，是不需要采集的数据。”

在一个具体示例中，白名单词表被配置为：“福佳”、“白啤”、“覆盆子”、“小酌”、“干杯”、“喝一杯”、“鸡尾酒”、“特调”、“精酿”或“微醺”；第一黑名单词表被配置为：“福佳新城”、“福佳石化”或“贝福佳”。

预提取的社交数据需满足出现在白名单且不出现在第一黑名单的列表中，得到无标签的帖子集合T和无标签的图像集合I。从海量数据中提取出潜在用户子集并且仅获取该用户下最有价值的几条博文，大大降低了数据采集量，以微博为例，每月仅需采集几十万条数据。

需要说明的是，上述白名单词表和第一黑名单词表不是固定不变的，根据实际情况能够对上述白名单词表或第一黑名单词表进行优化，以减少不必要的数据采集。

S20、利用训练好的N个图像分类模型对所述无标签的图像集合I进行图像分类，得到所述图像集合I对应的用户的第一分值，其中，N大于等于2；

在一个具体实施例中，如图3所示，该方法还包括对所述N个图像分类模型进行训练的步骤，其中，所述步骤包括：

在一个具体示例中，正样本标签被配置为：“福佳白啤瓶装”，“福佳Rosee瓶装”，“福佳白啤易拉罐”，“福佳Rosee易拉罐”，“福佳六棱杯”，负样本标签被配置为：“不包含以上品牌”。

网上搜索典型的商品图片、实地采集或者从历史数据中获取包含有上述正样本标签的图像集合I0。例如，获取与品牌相关的数据图像作为正样本，每个产品50张图，并收集普通风景、吃饭场景等不含有啤酒品牌的数据图像作为负样本，共得到1000张训练数据。

以D0作为训练数据，使用不同CNN神经网络结果训所述N个图像分类模型。在一个具体示例中，N＝3，具体的，选取SeresNet50、DenseNet161和InceptionV4作为图像分类模型，并分别以imagenet、places365和imagenet为预训练模型，将已标注训练集D0中的已知图像集合I0中的图像拉伸为448×448大小的图像，进一步，以softmax+交叉熵作为损失函数，使用adam优化器以1e-4学习率对上述3个图像分类模型进行优化。

需要说明的是，现有技术中在图像识别中仅通过imagenet的预训练模型提取通用的语义特征，而“福佳啤酒”与“百威啤酒”都属于“酒”或“酒瓶”的范畴，在imagent预训练模型上不能有效区分，也因此不能找到“福佳啤酒”的特定用户；而本可以提供精准的品牌识别，不仅可以识别出“福佳啤酒”还可以进一步精细到“福佳白啤瓶装”，“福佳Rosee瓶装”，“福佳Rosee易拉罐”这种细粒度的分类。

在一个具体示例中，所述S204包括：

在一个具体示例中，对无标签图像集合I中的每一张图像进行P次切分截取和增强，截取方式包括K×K均匀截取(K＝1,2,…)或随机截取；增强方式包括但不限于对比度颜色变化、镜面翻转和旋转等。

例如，对图像做3×3截切、2×2截切和5次随机增强的处理，得到P＝3×3+2×2+5＝19。

在一个具体示例中，对每张图像的(P+1)*N个结果做集成并最终输出该图是否有要找的品牌下的啤酒，如果有则进入训练集合得到子图像集I1。例如，当P＝19，N＝3时，对每张图像的(P+1)*N＝60个结果做集成并最终输出该图像是否有要找的品牌下的啤酒的分类结果。

进一步，对60个数据标签中统计每个标签出现的频次，当且仅当全部为“不包含以上品牌”时输出为“不包含以上品牌”，否则输出剩余5个品牌中出现频次最高的品牌，并进入到待标注训练集I1。

对I1标注得到新训练集合D1:{I1,y1}，并重新训练这N个模型。

由于上述过程使用了多种模型、多种裁剪方式的集成，通过设计集成算法在适当牺牲准确率地情况下，最大限度地提升了召回率，因此可以以较高概率找到有效数据。

重复步骤S204和S206，不断扩充训练集合，直到模型在精度达到某一标准，本例中以每个模型在验证集精度上超过某一阈值作为评判模型精度标准。

在一个具体示例中，每个模型在验证集精度上超过95％为中止标准，共进行了3此迭代，最终得到数据集5W张图，正样本5K张。本申请提出了一种高精度的细粒度图像识别算法，在对福佳品牌的识别准确率达到95％以上。

需要说明的是，现有技术中以福佳为例在采集到的数据中仅有0.1％—0.5％的图像为需要的品牌图像，标注100W张图像仅能获得1000-5000张正样本数据。而本申请通过提出的半监督图像标注方法可以从100W张图象中预筛选出5W张图，仅通过标注5W张图就得到了5000张正样本数据，大量减少了人工成本。

进一步，使用训练好的N个图像分类模型，对未标注的无标签图像集合I进行分类，输入是图像集合I中的图像，输出是与所述图像对应的标签，作为优选，本申请的集成方式为对3个模型输出的概率取平均，并取概率最大的标签作为这张图象的标签LImage。当为正样本标签时，该图像对应的用户的第一分值记为1，当为负样本标签时，该图像对应的用户的第一分值记为0。

所述异常用户数据检测包括营销用户数据检测和非原创用户数据检测，所述第二分值包括营销用户分值和非原创用户分值。

针对大量噪声干扰的问题，本申请同样提出了一种新方法以识别异常用户，如下：

所述营销用户数据检测包括：

S300、创建用于识别营销用户的第二黑名单词表；

在一个具体示例中，营销用户即为卖酒用户而非对品牌感兴趣的用户；第二黑名单词表被配置为：‘券’，百升数*箱数的描述，手机号，出现价格符号等；第二阈值被配置为95％。例如，当某用户的社交数据中，出现上述第二黑名单词表中词语的概率达到了98％，则认为该用户为营销用户，即卖酒用户，基于上述方法，统计该用户历史上出现卖酒帖子的总数N_sell。

需要说明的是，第二黑名单词表以及第二阈值能够随实际情况进行优化，上述是示例性的而非限定性的。

在一个具体实施例中，所述非原创用户数据检测包括：

在一个具体示例中，定义文章和图像重复的识别标准，统计该文章和图像在文章、图像数据库中重复出现的频率F2。具体的，在本例中识别重复文章和图像的方法分别为：

判断两个文章是否相同的方法：判断其编辑距离与两条文章长度综总和的比例是否超过某一预设阈值，小于则认为相同，否则认为不同。

判断两张图像是否相同的方法：分别将其灰度化并伸缩到16*16大小的图，计算其MSE(均方误差)是否超过某一预设阈值，小于则认为相同，否则认为不同。作为优选本例设为10。基于此统计该图像对应的用户历史上出现非原创图像的总数N_dup。

S40、基于第一分值与第二分值获得潜在用户分值。

完成上述步骤后可以对新加入的用户进行分析，具体包括：

步骤S1，聚合出该用户下所有的图文数据，对每一条文本使用S30的算法计算其特为异常用户的分值S_ab，其中，异常用户的分值S_ab与营销用户N_sell和非原创用户N_dup有关，具体的，

S_ab＝max(0,min(N_sell+N_dup,1))

对每一张图像使用S20的算法预测其有是否有关注品牌有哪种关注品牌的分值S_img，以及S30的算法计算其特为异常数据的分值S_ab。其中，若标签L_Image为正样本标签则S_img＝1，否则S_im＝0。

在一个具体实施例中，所述S40还包括：

基于用户基本信息，得到用户第三分值S_usr；

基于所述第一分值S_ab、第二分值S_img和第三分值S_usr获得潜在用户分值。

在一个具体示例中，用户基本信息包括性别、年龄、粉丝数、转发数或点赞数等。例如，提取用户基本信息，作为补充特征，以粉丝数，转评赞作为评价标准，

S_usr＝1/(1+exp(-0.001*x))

其中，x为粉丝数与转评赞的和。

进一步，对上述三个分值集成，计算出该用户是否为潜在用户的分值S：

S＝((1-S_ab)+S_img+S_usr)/3.0

需要说明的是，得到的分值S越高，该用户越可能是所需用户，即为潜在用户。

在一个具体实施例中，该方法还包括：

S50、基于所述潜在用户分值与潜在用户分数阈值的比较对所述黑名单和/或白名单的词表进行优化。

在一个具体示例中，对得到的用户依照其分数进行排序，人工审核在潜在用户分数阈值以上的用户，作为优选本申请取分数阈值0.7。根据有效和无效用户的帖子统计词频，优化关键词表和过滤词表，即白名单词表和第一黑名单词表；

例如，发现潜在用户的社交数据里，大量出现了“福佳石化”的描述，但是显然“福佳石化”并不是与品牌相关的词语，因此，将“福佳石化”添加到第一黑名单词表中，对第一黑名单词表进行优化。

在一个具体实施例中，该方法还包括：S60、基于所述潜在用户分值与分值阈值的比较对所述N个图像分类模型进行优化。

针对错误识别的图像，优化S20中的图像分类模型；针对是否为异常数据的标注，优化异常数据检测用到的词表和参数。

本申请的技术框架通过模型词表等易于维护的方式设计，便于在不大量修改代码的情况下迭代优化，大规模减少维护成本。

实施例二

参考图4，作为对上述基于社交平台数据的潜在用户识别方法的实现，本申请提供了一种基于社交平台数据的潜在用户识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应。

如图4所示，本实施例的基于社交平台数据的潜在用户识别装置包括：预提取模块10、图像分类模块20、异常数据检测模块30和潜在用户识别模块40，其中，

预提取模块10，用于基于白名单词表和/或第一黑名单词表对从社交平台获取的数据进行预提取，得到无标签帖子集合T和无标签图像集合I；

图像分类模块20，用于利用训练好的N个图像分类模型对所述图像集合I进行图像分类，得到所述图像集合I对应的用户的第一分值，其中，N大于等于2；

异常数据检测模块30，用于基于异常用户数据检测得到所述帖子集合T对应的用户的第二分值；

潜在用户识别模块40，用于基于第一分值与第二分值获得潜在用户分值。

本领域技术人员可以理解，上述基于社交平台数据的潜在用户识别装置还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图4中未示出。

本申请所述技术方案提出了一种基于社交平台数据的潜在用户识别装置，对社交数据进行预提取的方法获取潜在有用户，仅采集可能对品牌感兴趣的用户子集中的关键社交数据来识别用户兴趣，大规模减少了数据获取量和不必要的数据获取开销，进一步针对缺乏标注数据的细粒度图像识别问题，提出了一种基于半监督学习的图像识别框架，可以高效地实现有正样本数据收集，大量降低了人力成本，并且对用户社交数据中的文本、图像、基础信息的多个维度同时考虑集成输出结果并进一步迭代优化系统精度的技术框架，有效提高了潜在用户的识别精度。

实施例三

图5示出了本申请的另一个实施例提供的一种计算设备的结构示意图。图5显示的计算设备50仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算设备50以通用计算设备的形式表现。计算设备50的组件可以包括但不限于：一个或者多个处理器或者处理单元500，系统存储器516，连接不同系统组件(包括系统存储器516和处理单元500)的总线501。

总线501表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算设备50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备50访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器516可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)504和/或高速缓存存储器506。计算设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统508可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线501相连。存储器516可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行实施例一的功能。

具有一组(至少一个)程序模块512的程序/实用工具510，可以存储在例如存储器516中，这样的程序模块512包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块512通常执行本申请所描述的实施例中的功能和/或方法。

计算设备50也可以与一个或多个外部设备70(例如键盘、指向设备、显示器60等)通信，还可与一个或者多个使得用户能与该计算机设备50交互的设备通信，和/或与使得该计算设备50能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口502进行。并且，计算设备50还可以通过网络适配器514与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器514通过总线501与计算设备50的其它模块通信。应当明白，尽管图5中未示出，可以结合计算设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器单元500通过运行存储在系统存储器516中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例一所提供的一种并行测试任务调度寻优的方法。

本申请针对目前现有问题，制定应用一种基于社交平台数据的潜在用户识别的计算设备，对社交数据采取预提取的方法获取潜在有用户，仅采集可能对品牌感兴趣的用户子集中的关键社交数据来识别用户兴趣，大规模减少了数据获取量和不必要的数据获取开销，进一步针对缺乏标注数据的细粒度图像识别问题，提出了一种基于半监督学习的图像识别框架，可以高效地实现有正样本数据收集，大量降低了人力成本，并且对用户社交数据中的文本、图像、基础信息的多个维度同时考虑集成输出结果并进一步迭代优化系统精度的技术框架，有效提高了潜在用户的识别精度。

实施例四

本申请的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例一所提供的方法。

在实际应用中，所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本申请所述技术方案提出了一种存储有基于社交平台数据的潜在用户识别方法的存储介质，对社交数据进行预提取的方法获取潜在有用户，仅采集可能对品牌感兴趣的用户子集中的关键社交数据来识别用户兴趣，大规模减少了数据获取量和不必要的数据获取开销，进一步针对缺乏标注数据的细粒度图像识别问题，提出了一种基于半监督学习的图像识别框架，可以高效地实现有正样本数据收集，大量降低了人力成本，并且对用户社交数据中的文本、图像、基础信息的多个维度同时考虑集成输出结果并进一步迭代优化系统精度的技术框架，有效提高了潜在用户的识别精度。

需要说明的是，在本申请的描述中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然，本申请的上述实施例仅仅是为清楚地说明本申请所作的举例，而并非是对本申请的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本申请的技术方案所引伸出的显而易见的变化或变动仍处于本申请的保护范围之列。

Claims

1.一种基于社交平台数据的潜在用户识别方法，其特征在于，包括：

S40、基于第一分值与第二分值获得潜在用户分值。

2.根据权利要求1所述的方法，其特征在于，还包括：对所述N个图像分类模型进行训练的步骤，其中，所述步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述S204包括：

利用S202中训练的所述N个图像分类模型对未标注训练集D进行分类，其中，所述未标注训练集D中的每个图片数据包括该图片的本身数据及该图片被P次区域分割后的P个子图片数据，对于每个图片，得到(P+1)×N个分类结果。

4.根据权利要求1所述的方法，其特征在于，所述异常用户数据检测包括营销用户数据检测和非原创用户数据检测，所述第二分值包括营销用户分值和非原创用户分值。

5.根据权利要求4所述的方法，其特征在于，所述营销用户数据检测包括：

S300、创建用于识别营销用户的第二黑名单词表；

6.根据权利要求4所述的方法，其特征在于，所述非原创用户数据检测包括：

7.根据权利要求6所述的方法，其特征在于，所述统计所述无标签帖子集合T中的每条帖子中的文章和图像在所述数据库中重复出现的频率F2，包括：

任意选取两篇文章；

8.根据权利要求6所述的方法，其特征在于，所述统计所述无标签帖子集合T中的每条帖子中的文章和图像在所述数据库中重复出现的频率F2，包括：

任意选取两张图片；

分别将两张图片进行灰度化处理并伸缩到16×16大小的图；

9.根据权利要求1所述的方法，其特征在于，所述S40还包括：

基于用户基本信息，得到用户第三分值；

10.根据权利要求1所述的方法，其特征在于，还包括：

11.根据权利要求1所述的方法，其特征在于，还包括：

12.一种基于社交平台数据的潜在用户识别装置，其特征在于，包括:

13.一种计算设备，包括处理器及存储有程序的存储器，其特征在于，所述处理器执行所述程序时实现如权利要求1-11中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11中任一项所述的方法。