CN108280670B

CN108280670B - 种子人群扩散方法、装置以及信息投放系统

Info

Publication number: CN108280670B
Application number: CN201710009673.7A
Authority: CN
Inventors: 肖映鹏; 朱张斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-01-06
Filing date: 2017-01-06
Publication date: 2022-06-21
Anticipated expiration: 2037-01-06
Also published as: US20190266624A1; US11301884B2; WO2018126953A1; CN108280670A

Abstract

本发明提供一种种子人群扩散方法、装置以及信息投放系统。所述方法包括如下步骤：获取正例样本集；获取负例样本集；将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量，将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量；根据目标群体指数、信息增益和逻辑回归模型中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集；将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散。本发明能够有效评价种子人群质量，避免质量不佳的种子人群的扩散。

Description

种子人群扩散方法、装置以及信息投放系统

技术领域

本发明属于互联网信息处理技术领域，尤其涉及一种种子人群扩散方法、装置以及信息投放系统。

背景技术

随着互联网技术的发展，各种即时通信和社交应用也如雨后春笋般应运而生。即时通信和社交应用中所涉及的大量用户数据，比如用户的喜好、年龄和需求等等，对于信息的投放，如广告的投放有着极大的意义。

现有技术方案中，将在特定业务场景下收集到的，对产品、服务具有相同需求和兴趣的人群称之为种子人群，种子人群通常数量不多，一般在十万以下；与种子人群具有相同特征的人群称之为扩展人群，扩展人群的数量通常为种子人群的数倍。一般的，进行广告投放时，先通过种子人群找到扩展人群，其后将扩展人群作为广告投放的目标用户，当有多个种子人群时，会先找到各个种子人群的扩展人群，然后会取各个种子人群的扩展人群的交集作为最终广告投放的目标用户。

在对现有技术的研究和实践过程中，本发明的发明人发现，由于现有技术中选取了所有种子人群的扩展人群的交集作为广告投放的目标用户，当种子人群较多时，会导致数据计算量较为庞大；并且，种子人群中可能会存在有冗余或可信度低等非优质种子用户，会对目标用户的确定造成影响，导致广告投放效果不佳的问题。

发明内容

为了解决现有技术中存在问题，本发明实施例提供一种种子人群扩散方法、装置以及信息投放系统。所述技术方案如下：

第一方面，提供一种种子人群扩散方法，所述方法包括如下步骤：获取种子人群信息，将所述种子人群作为正例样本集，所述正例样本集包括多个正例样本；获取非种子人群信息，将所述非种子人群作为负例样本集，所述负例样本集包括多个负例样本；将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量，将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量；根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集；将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散；若是，扩散所述种子人群。

第二方面，提供一种种子人群扩散装置，所述装置包括如下模块：正例样本获取模块，用于获取种子人群信息，将所述种子人群作为正例样本集，所述正例样本集包括多个正例样本；负例样本获取模块，用于获取非种子人群信息，将所述非种子人群作为负例样本集，所述负例样本集包括多个负例样本；样本特征拼接模块，用于将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量，将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量；目标样本特征获取模块，用于根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集；扩散判断模块，用于将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散。

第三方面，提供一种信息投放系统，所述系统包含前述的种子人群扩散装置。

本发明能够达到的有益效果：通过目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)实现目标特征集合的获取，并基于目标特征集合可以实现对于种子人群质量的有效评价，能够避免质量不佳的种子人群的扩散。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明；

图1是本发明实施例提供的一种实施环境的示意图。

图2是本发明实施例提供的种子人群扩散方法流程示意图。

图3是本发明实施例提供的种子人群扩散方法子流程示意图。

图4是本发明实施例提供的种子人群扩散方法子流程示意图。

图5是本发明实施例提供的种子人群扩散方法子流程示意图。

图6是本发明实施例提供的种子人群扩散方法子流程示意图。

图7是本发明实施例提供的种子人群扩散装置原理框图。

图8是本发明实施例提供的种子人群扩散装置原理框图。

图9是本发明实施例提供的实施终端结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种种子人群扩散系统，请参考图1，该图为本发明实施例所提供的信息的投放系统的应用场景示意图，该应用场景中，包括数据库，数据库主要用于获取各种收集平台收集获得的海量候选人群，该人群也称为大盘用户。种子人群是从大盘用户中获取的样本人群，种子人群是指在特定业务场景下收集到的，例如对产品、服务具有相同需求和兴趣的人群。种子人群由系统用户设定的目标条件在大盘用户中选择得到。

种子人群扩散服务器则是系统中用于根据种子人群的特征在大盘用户中寻找与种子人群具有相似特征的人群的装置。

前端服务器用于接收来自各个系统的信息，其还可用于将指定信息投放到目标人群。

决策服务器用于对种子人群扩散服务器获得的种子人群特征进行评价和判断，并获得种子人群是否适合进行扩散的决策。

请参考图2，其示出了本发明一个实施例提供的种子人群扩散方法，该方法可应用于图1所示实施环境中。该方法可以包括如下步骤：

S210,获取种子人群信息，将所述种子人群作为正例样本集，所述正例样本集包括多个正例样本。

本发明实施例中种子人群是指在特定业务场景下收集到的，可以通过各个信息平台或者数据库获得的，并且存储在预设数据库中。在一个示例中种子人群是对某种产品或服务具有相同需求和兴趣的人群，种子人群通常数量不多，一般在十万以下。种子人群可以从预设数据库中获取，其中该预设数据库可以通过各类信息(如广告)的信息主上传，或从对应的交易平台中获取数据。

由于种子人群是对产品、服务具有相同需求和兴趣的人群，将这类人群作为正例样本集。

S220,获取非种子人群信息，将所述非种子人群作为负例样本集，所述负例样本集包括多个负例样本。

将所述种子人群作为正例样本是为了对种子人群进行分析，需要对该种子人群进行分析，在分析过程中，还可能需要使用与种子人群相对的负例样本集。

可以理解的是，想从大盘用户里寻找出与种子人群相似的用户群，是将此问题转化为一个经典的二分类(0，1)问题，也就是输出结果只有两种类别，例如：(感兴趣/不感兴趣)、(喜欢/不喜欢)、(垃圾邮件/非垃圾邮件)、(敌军/非敌军)等。

其中，二分类模型中训练模型所用的样本数据中被标签化的样本称为正例样本，二分类模型中训练模型所用的样本数据中未被标签化的样本称为负例样本，里面却包含了潜在的标签样本。

例如，假设该种子人群是对某品牌平板电脑感兴趣的用户，这时的种子人群用户被定义为分类模型训练学习的正样本集，此处称为第一正例样本集。从大盘用户，即前述预设数据库中候选种子人群中找出对某品牌平板电脑不感兴趣的用户作为负样本供模型训练学习，此处将负样本称为第一负例样本集，在选择过程中，第一负例样本集的样本数量可以与第一正例样本集的数量相同，也可以与第一正例样本集的数量不同。

在一个示例中，在大盘用户中获取正例样本集后，在大盘人群中排除选择的正例样本集，之后再选择与正例样本数量相同的负例样本集。

S230,将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量，将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量。

样本特征是样本人群中的个体所具有的特征，这些特征反映样本在各个方面所具有的特性。例如在对某商品感兴趣的正例样本中，每个个体的个体特征各有不同，第一个个体是位于A地区的女性用户，年龄为36岁，第二个个体是处于B地区的男性用户，年龄为30岁，而第三个个体是处于C地区的男性用户，年龄为33岁。这三个个体至少具有的个体特征，地区、年龄和性别，这些特征既存在于正样本中，也存在于负样本中。当然也会存在某些特征是其他个体所不具有的，例如第四个个体是位于A地区的女性用户，年龄为30岁，这位用户是某视频网站的VIP用户。因此在将样本与样本特征拼接时，样本和样本特征是以向量的形式存在的，例如第一用户拼接后可以表示为{1，A，F，30-49，0，…}，第二用户拼接后可以表示为{2，B，M，30-49，0，…},第三用户拼接后可以表示为{3，C，M，30-49，0，…},第四用户拼接后可以表示为{4，A，F，30-49，1，…}。其中，数组的第一位表示样本编号，数组的第二位表示样本所处地区，数组的第三位表示性别，数组的第四位表示年龄段，数组的第五位是特殊标识位，例如在本示例中可以表示该用户是某视频网站的VIP用户。当然，由于样本个体的独立特性，样本属性有很多，最终得到的用于表征样本特征的向量维度可以达到几千个甚至几万个。

S240,根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集。

在所述正例样本和所述负例样本与样本特征对接后，需要获得反映正例样本和负例样本特性的目标特征集合。在本实施例中，基于目标群体指数(TGI)、信息增益(IG)和逻辑回归模型中的至少二个来实现。

目标群体指数(TGI，Target Group Index)，可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内对于目标的关注程度。本实施例中，其计算方法是：TGI＝目标群体中具有某一特征的群体所占比例/大盘用户中具有相同特征的群体所占比例]*标准数100。

例如，在正例样本中，在15-24岁的人群中，有8.9％的人过去一年内浏览过某视频网站，而在大盘用户中，浏览过该视频网站的人数比例为6.6％，则该视频网站在15-24岁人群中的TGI指数为8.9％/6.6％*100＝134.9。这说明，该视频网站主要定位在15-24岁的人群中。TGI指数的数值越大，就表明目标群体吻合度就越高。TGI指数表征不同用户特征的用户关注问题的差异情况，其中TGI指数等于100表示平均水平，高于100，代表该类用户对某类问题的关注程度高于整体水平。

本实施例中，首先对训练集中的正样本使用TGI公式计算各个特征的TGI值，TGI公式为：

其中TGI(i)表示特征i的TGI值，Rateseed(i)表示种子人群中具有特征i的用户占比，Ratetotal(i)表示大盘用户中具有特征i的用户占比。

在获得各个特征的TGI值后，根据TGI值对特征进行排序，根据TGI的性质可知，特征的TGI值越高表示该特征与目标样本人群的吻合度越高，因此，将TGI值最高的若干个特征作为有TGI值得到的目标特征，此处称为第一目标特征集合。

决策树中结点分裂的信息增益(IG：Information Gain)，当需要对一个随机事件的概率分布进行预测时，预测应当满足全部已知的条件，而对未知的情况不做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。在进行机器学习的过程中，需要建立决策树，决策树的形式类似于判断语句的树形分叉。那么问题是用哪个属性最适合充当这颗树的根节点，在它上面没有其他节点，其他的属性都是它的后续节点。借用信息论的概念，本实施例用一个统计量，“信息增益”(Information Gain)来衡量一个属性区分以上数据样本的能力。信息增益量越大，属性作为一棵树的根节点就能使这棵树更简洁。

本实施例中，首先对训练集中的样本使用IG公式计算各个特征的IG值，IG公式为：

Entropy(x)＝-p(x)log(p(x))

其中T代表训练集的label，p(xi＝a)表示xi＝a的概率值，p(x)表示x的概率值。

如前所述，机器学习的过程中，决策树的形式类似于判断语句的树形分叉，对于某一个样本特征而言，获得的信息增益(IG)值越大表明该特征对应的决策树的树形分叉越多，即能够反映更多的二叉树信息。因此，所以在获得信息增益(IG)之后，将IG值最高的若干个特征作为由IG值得到的目标特征，此处称为第二目标特征集合。

逻辑回归模型(LR,Logistic Regression)是在线性回归的基础上增加逻辑函数，以获得特征数据和分类数据之间的关系,通过构建逻辑回归模型，可以获得特征的权重值。例如某个特征xi，其权重值h(xi)>0.5表示该特征具有训练样本的正例样本倾向，h(xi)<0.5则表示该特征具有训练样本的负例样本倾向。

在本实施例中，首先使用正例样本和负例样本训练逻辑回归模型(LR)，之后取逻辑回归模型(LR)中权重排在前面的一系列特征，将该特征作为第三目标特征集合。

在对所述第一目标特征集合、第二目标特征集合和第三目标特征集合中的至少二个进行重排之后，获取所述正样本和负样本的目标特征集合。

在一个示例中，单独的第一目标特征集合、第二目标特征集合或第三目标特征集合即可实现目标特征集合的确定，在此情况下，第一特征目标集合即作为目标特征集合。

因为TGI更加倾向于表示用户的关注度，IG则倾向于二叉树选择的简洁，LR模型的训练结果则更加全面，那么可以根据不同的种子用户和对于种子用户的扩散目标，选择不同的目标特征集合组合。

在一个示例中，对第一目标特征集合和第二目标特征集合进行重排，首先，获取第一目标特征集合中包含有第一数量的样本特征，以及特征的TGI。然后，获取第二目标特征集合中包含有第二数量的样本特征，以及特征的IG。对于每一个特征，计算TGI和IG的加权和(A*TGI+B*IG)，基于该加权和对目标特征集合进行重新排序，从而得到重新排序的目标特征集合，按照从大到小的顺序取预定数量的特征作为目标样本特征。

在一个示例中，对第一目标特征集合、第二目标特征集合和第三目标特征集合进行重排。首先，获取第一目标特征集合中包含有第一数量的样本特征的TGI，获取第二目标特征集合中包含有第二数量的样本特征的IG，获取第三目标特征集合中包含有第三数量的样本特征的LR。然后，对于每一个特征，获得TGI、IG和LR的加权和(A*TGI+B*IG+C*(LR-0.5))，基于该加权和对目标特征集合进行重新排序，从而得到重新排序的目标特征集合，按照从大到小的顺序取预定数量的特征作为目标样本特征。

该加权和中的系数A、B和C也会根据TGI、IG以及LR模型的特点以及不同种子用户和种子用户的扩散目标不同而进行调整。例如，选取的正例用户是为了扩散对于某类服务关注的用户，这种用户扩散更加注重用户的关注度，那么TGI因为更加倾向于表示用户的关注度，其加权参数A的比重就会适当增大。如果选取的正例用户是为了扩散对于某类服务的细分，那么IG的加权系数所占的比重就会有所增大。

重排过程还伴随着排除负例特征的过程，在一个示例中，分别对LR模型训练获得的正例特征和负例特征排序。例如，在目标特征集合中包含年龄为30-40岁这特征，如果这个特征同样包含在负例样本中，那么这个特征对是否进行种子人群扩散没有意义，此时需要将该特征从目标特征集合中排除。

S250,将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散；

在确定目标样本特征后，需要通过该目标样本特征判断种子人群的优劣，进而确定是否进行种子扩散。该步骤可以是由系统用户判断的，也可以是根据预先设置的条件判断的。在图1所示的实施环境中，判断是在决策服务器中完成的。

S260,若是，扩散所述种子人群。

经过判断，如果种子人群满足条件，可以进行扩散，那么之后进行种子人群扩散的步骤，依据获得的目标样本特征，在大盘用户中寻找与其匹配的人群作为扩散人群。

在上述方法实施例中，通过目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)实现目标特征集合的获取，并基于目标特征集合可以实现对于种子人群质量的有效评价，能够避免质量不佳的种子人群的扩散。

在另一个示例中，请参见图3，其示出了本发明一个实施例提供的种子人群扩散方法，该方法可应用于图1所示实施环境中。该方法可以包括如下步骤：

S310,获取种子人群信息，将所述种子人群作为正例样本集，所述正例样本集包括多个正例样本。

本发明实施例中种子人群是指在特定业务场景下收集到的，可以通过各个信息平台或者数据库获得的，并且存储在预设数据库中。在一个示例中种子人群是对某种产品或服务具有相同需求和兴趣的人群，种子人群通常数量不多，一般在十万以下。种子人群可以具体到在预设数据库中收集到，其中该数据库数据可以由各类信息(如广告)的信息主上传，也可以由对应的交易平台中获取。

S320,获取非种子人群信息，将所述非种子人群作为负例样本集，所述负例样本集包括多个负例样本。

如图3所示，步骤S320还可以包含如下子步骤：

S3201,排除大盘用户中所述种子人群。

排除大盘用户中的种子人群是了避免在选择非种子人群时，将种子人群重复选入非种子人群，从而造成样本的错误。

S3202,在所述排除种子人群的大盘用户中选取与所述种子人群等量的人群。

选择与种子人群等量的非种子人群是为了正例样本和负例样本数量的等同。

S3203,将所述从大盘用户选取的与所述种子人群等量的人群作为负例样本集。

S330,为所述正例样本和负例样本对接样本特征。

将所述正例样本集中的每个正例样本与其对应的正例样本特征拼接形成正例样本特征向量，将所述负例样本集中的每个负例样本与其对应的负例样本特征拼接形成负例样本特征向量；

如图4所示，步骤330还可以包含如下子步骤：

S3301,获取所述正例样本和所述负例样本所包含的样本特征。

如前所述，无论是正例样本还是负例样本中均包含有多个特征，为了分析正负样本，需要首先获得所述正例样本和所述负例样本的特征。

S3302,将所述特征转换为向量的形式。

在获得了多个样本特征之后，为了表述这些样本特征，需要将样本特征转换为可以识别的形式，因此可以将特征转换为数组或向量的形式。

S3303，所述将正例样本和负例样本与样本特征拼接以形成样本特征向量。

获取所述正例样本的样本特征，将所述正例样本的样本特征转换为特征向量的形式，将所述正例样本和其对应的特征向量匹配拼接，以形成样本特征向量；

获取所述负例样本的样本特征，将所述负例样本的样本特征转换为特征向量的形式，将所述负例样本和其对应的特征向量匹配拼接，以形成样本特征向量。

在经过样本拼接步骤之后，样本和样本特征表现为特征向量的形式。S340,根据目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集；

基于目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)中的至少一个，获取所述正样本和负样本的目标特征集合。

如图5所示，步骤S340还可以包含如下子步骤：

S3401，获取基于所述目标群体指数(TGI)计算得到的第一目标样本特征集、基于信息增益(IG)计算得到的第二目标样本特征集、基于逻辑回归模型得到的第三目标样本集特征。

S3402，对所述第一目标样本特征集、第二目标样本特征集、第三目标样本特征集中的至少二个进行特征重排，得到所述目标样本特征。

步骤S3401中包含基于目标群体指数(TGI)计算第一目标样本特征集的步骤，其包含如下子步骤：

S34011，计算正例样本的样本特征的目标群体指数(TGI)。

S34012，选择目标群体指数(TGI)最大的第一数量的样本特征作为第一目标样本集。

步骤S3401中包含基于信息增益(IG)计算第二目标样本特征的步骤，其包含如下子步骤：

S34013，计算正例样本和负例样本的样本特征的信息增益(IG)。

S34014，选择信息增益(IG)最大的第二数量的样本特征作为第二目标样本集。

步骤S3401中包含基于逻辑回归模型(LR)得到第三目标样本特征的步骤，其包含如下子步骤：

S34015，基于所述正例样本和所述负例样本训练逻辑回归模型；

S34016，使用所述逻辑回归模型计算所述正例样本中样本特征的权重值；

S34017，选择所述权重值最大的第三数量的样本特征作为第三目标样本集。

S350,将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散；

经过在本步骤，如果反馈信息表示种子人群不适合扩散，那么服务器不再进行其他操作。可见，在上述方法实施例中，通过目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)实现目标特征集合的获取，并基于目标特征集合可以实现对于种子人群质量更加有效和客观的评价，能够避免质量不佳的种子人群的扩散。

如图6所示，该步骤可以包含如下子步骤：

S3501,将所述目标样本特征发送给决策端。

决策端可以由人工进行判断，也可以设置有判断条件，通过人工判断或者预置的条件通过目标样本特征判断种子人群的质量，并根据该质量对进行反馈。

S3502,接收所述决策端的反馈信息。

S3503,根据所述反馈信息判断是否对所述种子人群进行扩散。

在接收到决策端的反馈信息之后，服务器会根据反馈信息判断是否对种子人群进行扩散。

S360,若是，扩散所述种子人群。

如图6所示，该步骤可以包含如下子步骤：

S3601,对所述正样本和所述负样本进行训练，获得扩散模型。

扩散模型可以是一个逻辑回归模型，模型会根据输入的样本输出一个打分。

在一个示例中，扩散模型可以根据诸如经典的ADMMLR算法训练得到。

S3602,使用所述扩散模型对大盘用户进行预测，获得预测结果。

使用扩散模型，对大盘用户进行预测，预测结果是一个与输入用户相关的评分。例如，可以是对用户对某广告信息的点击率的评分或者估值。

S3603,根据所述预测结果获得扩散人群。

在获取评分结果之后，设定评分阈值，或者取评分结果最高的一定数量用户，将这些用户作为扩散人群。之后，输出扩散人群。

在上述方法实施例中，通过目标群体指数(TGI)、信息增益(IG)和逻辑回归模型(LR)实现目标特征集合的获取，并基于目标特征集合可以实现对于种子人群质量更加有效和客观的评价，并且直观地得到评价结果，能够避免质量不佳的种子人群的扩散。

请参考图7，其示出了本发明一个实施例提供的种子人群扩散装置的框图。该装置具有实现上述方法示例中种子扩散后台服务器的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

正例样本获取模块，执行步骤210，用于获取种子人群信息，将所述种子人群作为正例样本。

负例样本获取模块，执行步骤220，用于获取非种子人群信息，将所述非种子人群作为负例样本。

样本特征对接模块，执行步骤230，用于为所述正例样本和所述负例样本对接样本特征。

目标样本特征获取模块，执行步骤240，用于基于目标群体指数(TGI)、信息增益(IG)和逻辑回归模型中的至少二个获取所述正例样本和负例样本的目标样本特征。

扩散判断模块，执行步骤250，用于根据所述目标样本特征判断是否对所述种子人群进行扩散。

种子人群扩散模块，执行步骤260，用于扩散所述种子人群。

请参考图8，其示出了本发明一个实施例提供的种子人群扩散装置的框图。该装置具有实现上述方法示例中种子扩散后台服务器的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

正例样本获取模块，执行步骤310，用于获取种子人群信息，将所述种子人群作为正例样本。

负例样本获取模块，执行步骤320，用于获取非种子人群信息，将所述非种子人群作为负例样本。

所述负例样本获取模块包括如下子模块：

种子人群排除模块，执行步骤3201，用于排除大盘用户中所述种子人群。

非种子人群选取模块，执行步骤3202，用于在所述排除种子人群的大盘用户中，选取与所述种子人群等量的人群作为非种子人群。

负例样本确定模块，执行步骤3203，用于将所述从大盘用户选取的与所述种子人群等量的人群作为负例样本。

样本特征对接模块，执行步骤330，用于为所述正例样本和所述负例样本对接样本特征。

所述样本特征对接模块包含如下子模块：

样本特征获取子模块，执行步骤3301，用于获取所述正例样本和所述负例样本所包含的样本特征；

特征转换子模块，执行步骤3302，用于将所述特征转换为数组或向量的形式；

匹配对接子模块，执行步骤3303，用于将所述正例样本、所述负例样本和与其对应的数组或向量匹配对接。

目标样本特征获取模块，执行步骤340，用于基于目标群体指数(TGI)、信息增益(IG)和逻辑回归模型中的至少二个获取所述正例样本和负例样本的目标样本特征；

所述目标样本特征获取模块包含如下子模块：

样本特征获取子模块，执行步骤3401，用于获取基于所述目标群体指数(TGI)计算得到的第一目标样本特征集、基于信息增益(IG)计算得到的第二目标样本特征集、基于逻辑回归模型得到的第三目标样本特征集。

所述样本特征获取子模块还进一步包含如下子模块：

目标群体指数(TGI)计算子模块，执行步骤34011，用于计算正例样本的样本特征的目标群体指数(TGI)；

第一目标样本选择子模块，执行步骤34012，用于选择目标群体指数(TGI)最大的第一数量的样本特征作为第一目标样本特征集。

信息增益(IG)计算子模块，执行步骤34013，用于计算正例样本和负例样本的样本特征的信息增益(IG)；

第二目标样本选择子模块，执行步骤34014，用于选择信息增益(IG)最大的第二数量的样本特征作为第二目标样本特征集。

逻辑回归模型训练子模块，执行步骤34015，用于基于所述正例样本和所述负例样本训练逻辑回归模型；

特征权重值计算子模块，执行步骤34016，用于使用所述逻辑回归模型计算所述正例样本中样本特征的权重值；

第三目标样本选择子模块，执行步骤34017，用于选择所述权重值最大的第三数量的样本特征作为第三目标样本特征集。

样本特征重排子模块，执行步骤3402，用于对所述第一目标样本特征集、第二目标样本特征集、第三目标样本特征集中的至少二个进行特征重排，得到所述目标样本特征。

扩散判断模块，执行步骤350，用于根据所述目标样本特征判断是否对所述种子人群进行扩散。

所述扩散判断模块包括如下子模块：

特征发送子模块，执行步骤3501，用于将所述目标样本特征发送给决策端；

反馈接收子模块，执行步骤3502，用于接收所述决策端的反馈信息；

判断子模块，执行步骤3503，用于根据所述反馈信息判断是否对所述种子人群进行扩散。

种子人群扩散模块，执行步骤360，用于扩散所述种子人群。

所述种子人群扩散模块包括如下子模块：

扩散模型训练模块，执行步骤3601，用于对所述正样本和所述负样本进行训练，获得扩散模型；

预测结果获得模块，执行步骤3602，用于使用所述扩散模型对大盘用户进行预测，获得预测结果；

扩散人群获得模块，执行步骤3603，用于根据所述预测结果获得扩散人群。

请参考图9，其示出了本发明实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的服务器侧的种子人群扩散方法。具体来讲：

所述服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本发明的各种实施例，所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法的指令。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由终端的处理器执行以完成上述方法实施例中发送方客户端或接收方客户端侧的各个步骤，或者上述指令由服务器的处理器执行以完成上述方法实施例中后台服务器侧的各个步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种种子人群扩散方法，其特征在于，所述方法包括如下步骤：

获取种子人群信息，将所述种子人群作为正例样本集，所述正例样本集包括多个正例样本；

获取非种子人群信息，将所述非种子人群作为负例样本集，所述负例样本集包括多个负例样本；

将所述正例样本集中的每个正例样本与其对应的正例样本特征以向量的形式拼接形成正例样本特征向量，将所述负例样本集中的每个负例样本与其对应的负例样本特征以向量的形式拼接形成负例样本特征向量；

获取基于目标群体指数计算得到的第一目标样本特征集、基于信息增益计算得到的第二目标样本特征集、基于逻辑回归模型得到的第三目标样本特征集；

对所述第一目标样本特征集、第二目标样本特征集、第三目标样本特征集中的至少二个进行特征重排，得到目标样本特征集；

将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散;

若是，基于所述目标样本特征集的目标特征扩散所述种子人群。

2.根据权利要求1所述的方法，其特征在于，所述获取非种子人群信息，将所述非种子人群作为负例样本集步骤包括：

排除大盘用户中的所述种子人群得到非种子大盘用户；

从所述非种子大盘用户中选取与所述种子人群等量的人群作为非种子人群；

将所述非种子人群作为负例样本集。

3.根据权利要求1所述的方法，其特征在于，所述将所述正例样本集中的每个正例样本与其对应的正例样本特征以向量的形式拼接形成正例样本特征向量，将所述负例样本集中的每个负例样本与其对应的负例样本特征以向量的形式拼接形成负例样本特征向量步骤包括：

获取所述正例样本的正例样本特征，将所述正例样本特征转换为正例样本特征向量，将所述正例样本和其对应的正例样本特征向量匹配拼接，形成新的正例样本特征向量；

获取所述负例样本的负例样本特征，将所述负例样本特征转换为负例样本特征向量，将所述负例样本和其对应的负例样本特征向量匹配拼接，形成新的负例样本特征向量。

4.根据权利要求1所述的方法，其特征在于，基于所述目标群体指数计算得到第一目标样本特征集包括如下步骤：

计算正例样本的样本特征的目标群体指数；

选择目标群体指数最大的第一数量的样本特征作为第一目标样本特征集。

5.根据权利要求1所述的方法，其特征在于，基于信息增益计算得到的第二目标样本特征集包括如下步骤：

计算正例样本和负例样本的样本特征的信息增益；

选择信息增益最大的第二数量的样本特征作为第二目标样本特征集。

6.根据权利要求1所述的方法，其特征在于，基于逻辑回归模型得到第三目标样本特征集包括如下步骤：

基于所述正例样本和所述负例样本训练逻辑回归模型；

使用所述逻辑回归模型计算所述正例样本中样本特征的权重值；

选择所述权重值最大的第三数量的样本特征作为第三目标样本特征集。

7.一种种子人群扩散方法，其特征在于，所述方法包括：

若是，扩散所述种子人群包括：

对所述正例样本集和所述负例样本集进行训练，获得扩散模型；

使用所述扩散模型对大盘用户进行预测，获得预测结果；

根据所述预测结果获得扩散人群。

8.一种种子人群扩散装置，其特征在于，所述装置包括如下模块：

正例样本获取模块，用于获取种子人群信息，将所述种子人群作为正例样本集，所述正例样本集包括多个正例样本；

负例样本获取模块，用于获取非种子人群信息，将所述非种子人群作为负例样本集，所述负例样本集包括多个负例样本；

样本特征拼接模块，用于将所述正例样本集中的每个正例样本与其对应的正例样本特征以向量的形式拼接形成正例样本特征向量，将所述负例样本集中的每个负例样本与其对应的负例样本特征以向量的形式拼接形成负例样本特征向量；

目标样本特征获取模块，用于根据目标群体指数、信息增益和逻辑回归模型中的至少二个从所述正例样本特征向量和所述负例样本特征向量中获取目标样本特征集；所述目标样本特征获取模块包括：样本特征获取子模块，用于获取基于所述目标群体指数计算得到的第一目标样本特征集、基于信息增益计算得到的第二目标样本特征集、基于逻辑回归模型得到的第三目标样本特征集；样本特征重排子模块，用于对所述第一目标样本特征集、第二目标样本特征集、第三目标样本特征集中的至少二个进行特征重排，得到所述目标样本特征集；

扩散判断模块，用于将所述目标样本特征集发送给决策端,接收所述决策端的反馈信息,并根据所述反馈信息判断是否对所述种子人群进行扩散；

种子人群扩散模块，用于若判断结果为是，基于所述目标样本特征集的目标特征扩散所述种子人群。

9.根据权利要求8所述的装置，其特征在于，所述负例样本获取模块包括如下子模块：

种子人群排除模块，用于排除大盘用户中的所述种子人群得到非种子大盘用户；

非种子人群选取模块，从所述非种子大盘用户中选取与所述种子人群等量的人群作为非种子人群；

负例样本确定模块，将所述非种子人群作为负例样本集。

10.根据权利要求8所述的装置，其特征在于，所述样本特征拼接模块包括如下子模块：

正例样本获取模块，用于获取所述正例样本的正例样本特征，将所述正例样本特征转换为正例样本特征向量，将所述正例样本和其对应的正例样本特征向量匹配拼接，形成新的正例样本特征向量；

负例样本获取模块，用于获取所述负例样本的负例样本特征，将所述负例样本特征转换为负例样本特征向量，将所述负例样本和其对应的负例样本特征向量匹配拼接，形成新的负例样本特征向量。

11.根据权利要求8所述的装置，其特征在于，所述样本特征获取子模块包括如下子模块：

目标群体指数计算子模块，用于计算正例样本的样本特征的目标群体指数；

第一目标样本选择子模块，用于选择目标群体指数最大的第一数量的样本特征作为第一目标样本特征集。

12.根据权利要求8所述的装置，其特征在于，所述样本特征获取子模块包括如下子模块：

信息增益计算子模块，用于计算正例样本和负例样本的样本特征的信息增益；

第二目标样本选择子模块，用于选择信息增益最大的第二数量的样本特征作为第二目标样本特征集。

13.根据权利要求8所述的装置，其特征在于，所述样本特征获取子模块包括如下子模块：

逻辑回归模型训练子模块，用于基于所述正例样本和所述负例样本训练逻辑回归模型；

特征权重值计算子模块，用于使用所述逻辑回归模型计算所述正例样本集中样本特征的权重值；

第三目标样本选择子模块，用于选择所述权重值最大的第三数量的样本特征作为第三目标样本特征集。

14.一种种子人群扩散装置，其特征在于，所述装置包括如下模块：

种子人群扩散模块，用于若判断结果为是，扩散所述种子人群；

所述种子人群扩散模块包括：

扩散模型训练模块，用于对所述正例样本集和所述负例样本集进行训练，获得扩散模型；

预测结果获得模块，用于使用所述扩散模型对大盘用户进行预测，获得预测结果；

扩散人群获得模块，用于根据所述预测结果获得扩散人群。

15.一种信息投放系统，所述系统包含权利要求8-13任一或权利要求14所述的种子人群扩散装置。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1-6任一或权利要求7所述的种子人群扩散方法。