CN108153824B

CN108153824B - 目标用户群体的确定方法及装置

Info

Publication number: CN108153824B
Application number: CN201711279551.6A
Authority: CN
Inventors: 汪昊宇; 彭际群
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2020-04-24
Anticipated expiration: 2037-12-06
Also published as: TWI709927B; WO2019109698A1; TW201926170A; CN108153824A

Abstract

本说明书实施例提供一种目标用户群体的确定方法及装置，包括：按照不同的文本信息，将全体用户群体划分为两个以上的子用户群体。根据各个子用户群体对应的文本信息的筛选条件，从各个子用户群体中筛选出对应的候选用户群体。将各个候选用户群体对应的文本信息与关键词库中的关键词进行精确匹配，匹配成功时，确定文本信息的匹配分数。合并各个候选用户群体，得到核心用户群体。根据核心用户群体中用户的各类文本信息的匹配分数，从核心用户群体中选取种子用户。分别计算种子用户的每类文本信息与其它用户的该类文本信息的相似度。根据该相似度，从其它用户中选取扩展用户。将扩展用户扩充到核心用户群体，从而得到目标用户群体。

Description

目标用户群体的确定方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种目标用户群体的确定方法及装置。

背景技术

传统技术中，在从海量用户中选取目标用户群体时，通常是先对该海量用户主动提供的信息进行人工审核，之后根据经人工审核后确定的目标信息，来进行上述选取操作。或者，预先创建目标名单或者词库，该目标名单或者词库中包含目标信息，之后通过将海量用户各自的文本信息与目标名单或者词库进行匹配，来进行上述选取操作。

因此，需要提供一种更快速、更有效地确定目标用户群体的方案。

发明内容

本说明书一个或多个实施例描述了一种目标用户群体的确定方法及装置，可以更快速、更有效地确定目标用户群体。

第一方面，提供了一种目标用户群体的确定方法，包括：

获取全体用户群体；

将所述全体用户群体划分为两个以上的子用户群体，其中，不同的子用户群体分别对应不同的文本信息；

根据各个子用户群体对应的文本信息的筛选条件，从所述各个子用户群体中筛选出对应的候选用户群体，得到两个以上的候选用户群体；

对每个候选用户群体，将对应的文本信息与关键词库中的关键词进行精确匹配，若匹配成功，则确定所述文本信息的匹配分数；

合并所述两个以上的候选用户群体，得到核心用户群体；

根据所述核心用户群体中用户的各类文本信息的匹配分数，从所述核心用户群体中选取种子用户；

分别计算所述种子用户的每类文本信息与所述全体用户群体中除所述种子用户外的其它用户的该类文本信息的相似度；

根据所述相似度，从所述其它用户中选取扩展用户；

将所述扩展用户扩充到所述核心用户群体，从而得到目标用户群体。

第二方面，提供了一种目标用户群体的确定装置，包括：

获取单元，用于获取全体用户群体；

划分单元，用于将所述获取单元获取的所述全体用户群体划分为两个以上的子用户群体，其中，不同的子用户群体分别对应不同的文本信息；

筛选单元，用于根据所述划分单元划分的各个子用户群体对应的文本信息的筛选条件，从所述各个子用户群体中筛选出对应的候选用户群体，得到两个以上的候选用户群体；

匹配单元，用于对所述筛选单元筛选的每个候选用户群体，将对应的文本信息与关键词库中的关键词进行精确匹配，若匹配成功，则确定所述文本信息的匹配分数；

合并单元，用于合并所述筛选单元筛选的所述两个以上的候选用户群体，得到核心用户群体；

选取单元，用于根据所述核心用户群体中用户的各类文本信息的匹配分数，从所述核心用户群体中选取种子用户；

计算单元，用于分别计算所述选取单元选取的所述种子用户的每类文本信息与所述全体用户群体中除所述种子用户外的其它用户的该类文本信息的相似度；

所述选取单元，还用于根据所述计算单元计算的所述相似度，从所述其它用户中选取扩展用户；

扩充单元，用于将所述选取单元选取的所述扩展用户扩充到所述核心用户群体，从而得到目标用户群体。

本说明书一个或多个实施例提供的目标用户群体的确定方法及装置，按照不同的文本信息，将获取的全体用户群体划分为两个以上的子用户群体。根据各个子用户群体对应的文本信息的筛选条件，从各个子用户群体中筛选出对应的候选用户群体。将各个候选用户群体对应的文本信息与关键词库中的关键词进行精确匹配，并在匹配成功的情况下，确定文本信息的匹配分数。合并各个候选用户群体，得到核心用户群体。根据核心用户群体中用户的各类文本信息的匹配分数，从核心用户群体中选取种子用户。分别计算种子用户的每类文本信息与其它用户的该类文本信息的相似度。根据该相似度，从其它用户中选取扩展用户。将扩展用户扩充到核心用户群体，从而得到目标用户群体。由此，可以更快速、更有效地确定目标用户群体。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书一个实施例提供的目标用户群体的确定方法的应用场景示意图；

图2为本说明书一个实施例提供的目标用户群体的确定方法流程图；

图3为本说明书提供的用户的文本信息的匹配过程示意图；

图4为本说明书提供的用户的通讯录的相似度的计算过程示意图；

图5为本说明另一个实施例提供的目标用户群体的确定方法示意图；

图6为本说明书一个实施例提供的目标用户群体的确定装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

本说明书一个实施例提供的目标用户群体的确定方法可以应用于如图1所示的场景中。图1中，目标用户群体的确定装置可以根据用户的文本信息(包括但不限于收货地址以及通讯录等)，从全体用户群体中确定出高净值人群。此处的高净值人群可以是指具有稳定工作和较高收入的群体。其可以包括但不限于在金融行业(包括银行业、证券业、保险业)和IT行业(包括软件服务、互联网)工作的企业员工、在大型国企工作的企业职工、在政府机关工作的公务员、在行政事业单位工作的教师、医生和其他公职人员等。因为该群体偿债能力高，还款意愿强，具有较低的信用风险水平。所以目标用户群体确定装置可以将该高净值人群推送给消费信贷系统。从而消费信贷系统可以为该群体提供对应的消费信贷产品，由此，可以达到扩张发展信贷业务的目的，也可以为自动化和个性化的信贷审批流程和营销过程提供巨大的帮助。

当然，在实际应用中，本说明书实施例提供的目标用户群体的确定方法还可以应用于其它场景中，如，高消费用户群体的确定等，本说明书对此不作限制。

图2为本说明书一个实施例提供的目标用户群体的确定方法流程图。所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置，如，图1中的目标用户群体的确定装置。如图2所示，所述方法具体可以包括：

步骤210，获取全体用户群体。

例如，可以从支付宝系统的后台数据库中获取该全体用户群体。需要说明的是，该全体用户群体中的用户可以具有收货地址和/或通讯录等文本信息。一般而言，在购物网站上有过实体商品购买记录且完成交易订单的用户均有保存的收货地址。上述通讯录可以包括联系人的标注信息及对应的电话号码。其中，联系人的备注信息可以包括联系人的姓名、昵称以及其它用于表示该联系人所属行业或者公司的信息。例如，上述备注信息可以为阿里巴巴张三以及李行长等等。

步骤220，将全体用户群体划分为两个以上的子用户群体。

其中，不同的子用户群体分别对应不同的文本信息。此处的文本信息可以用于对子用户群体中的用户进行刻画。其通常具有明确的指向性，且关系到用户获得服务的质量，因此通常具有较高的辨识度和可信度。

在本说明书，用户的文本信息包括但不限于以下一种或者多种：收货地址、通讯录、无线网络(如，wifi)名称、全球定位系统(Global Positioning System，GPS)定位点对应的公司类地名、互联网协议(Internet Protocol，IP)地址所对应的公司名称、多媒体访问控制(Media Access Control，Mac)地址所对应的公司名称、社交软件的备注名称、社交软件的群名称、即时通讯工具的备注名称以及即时通讯工具的群名称等。

以文本信息包括收货地址和通讯录为例来说，可以将全体用户群体划分为两个子用户群体。其中，一个子用户群体中的用户均有收货地址，也即该一个子用户群体与收获地址相对应。另一个子用户群体中的用户均有通讯录，也即另一个子用户群体与通讯录相对应。

步骤230，根据各个子用户群体对应的文本信息的筛选条件，从各个子用户群体中筛选出对应的候选用户群体，得到两个以上的候选用户群体。

以文本信息包括收货地址和通讯录为例来说，收货地址的筛选条件包括以下一种或多种：收货地址为用户本人使用(收货人为本人或者联系电话为本人手机号码)、收货地址在近期(如，近一年)被用户使用过以及收货地址归属于公司类地址等。对通讯录，前提是通讯录中的联系人有绑定的手机号码。一般而言，为了便于验证身份和触达用户，许多网站都要求用户绑定手机号码。在上述大前提下，通讯录的筛选条件可以包括以下一种或多种：通讯录所属用户的电话号码为用户本人使用以及该电话号码包含在其它通讯录中。对于筛选条件“电话号码包含在其它通讯录中”解释如下：由于用户的通讯录内保存的实际是用户的联系人的信息，只有用户的联系人才会在他们的通讯录内保存该用户的信息。因此，要求用户的电话号码包含在其它通讯录中。

如前述例子，对一个子用户群体，可以根据对应的收货地址的筛选条件，从该一个子用户群体中筛选出对应的候选用户群体。可以理解的是，该候选用户群体也与收货地址相对应。也即该候选群体中的用户均具有收货地址。同理，对另一个子用户群体，可以根据对应的通讯录的筛选条件，从另一个子用户群体中筛选出对应的候选用户群体。可以理解的是，该候选用户群体也与通讯录相对应。也即该候选群体中的用户均具有通讯录。从而得到两个候选用户群体。

需要说明的是，通过该步骤可以减少不必要的计算和处理，从而仅关注可能是高净值人群的候选用户群体。

步骤240，对每个候选用户群体，将对应的文本信息与关键词库中的关键词进行精确匹配，若匹配成功，则确定文本信息的匹配分数。

对前述例子中的两个候选用户群体对应的收货地址和通讯录，其匹配和确定匹配分数的过程可以如图3所示。图3中，可以包括如下几个步骤：

步骤a，创建关键词库。该关键词库中可以包括所关注行业和公司的关键词。如，当所关注行业为金融行业时，该关键词库中可以包括：“中国银行”、“国泰君安证券”以及“太平洋保险”等关键词。而当所关注行业为IT行业时，该关键词库可以包括“阿里巴巴”、“腾讯”以及“华为”等关键词。需要说明的是，上述关键词可以包括公司的全称、简称或者其它具有辨识度的名称等。

步骤b，文本结构化。即对文本信息进行清洗，并按语义成分进行结构化。如，对于收货地址，可以将省市县分离，并提取关键性门址(也称兴趣点(point of interest，POI))。以收货地址为：“浙江省杭州市西湖区翠苑街道万塘路18号黄龙时代广场B座6楼支付宝公司”为例来说，提取的关键性门址可以为：“万塘路18号黄龙时代广场B座6楼支付宝公司”。对于通讯录，可以从通讯录中提取联系人的标注信息。并从标注信息中去除不相关词语，该不相关词语可以包括联系人的姓名、昵称以及其它无关称谓(如，“女士”或者“哥们”)等。

需要说明的是，在本说明书中，对收货地址进行文本结构化的步骤还可以包括切分的步骤。如，可以将收货地址切分为“省份/城市/区县/街道/路/门牌号/写字楼/楼层/公司/其他”的形式。

步骤c，文本精确匹配。在此说明书中，文本精确匹配的过程即为：判断关键性门址或者联系人的标注信息是否包含关键词库中的关键词的过程，若包含，则匹配成功；否则匹配不成功。举例来说，假设关键词库中的关键词包括：“中国银行”、“支付宝公司”以及“腾讯”等。且假设关键性门址为：“万塘路18号黄龙时代广场B座6楼支付宝公司”。由于该关键性门址中包含了关键词“支付宝公司”，所以该关键性门址与关键词库中的关键词匹配成功。

图3中，在对文本进行精确匹配之后，并在匹配成功的情况下，还包括确定匹配分数的步骤。具体地，确定收货地址的匹配分数的步骤可以为：根据在预设时间段内收货地址的使用次数，来确定对应的交易天数。之后将交易天数作为收货地址的匹配分数。确定通讯录的匹配分数的步骤可以为：确定标注信息中包含该通讯录所属用户的其它通讯录的个数。将其它通讯录的个数作为该通讯录的匹配分数。举例来说，以确定张三的通讯录的匹配分数为例来说，假设有5个人的通讯录中联系人的标注信息包含：“阿里张三”，3个人的通讯录中联系人的标注信息包含：“阿里巴巴张三”，1个人的通讯录中联系人的标注信息包含：“支付宝张三”，则张三的通讯录的匹配分数为：5+3+1＝9分。

以上是针对文本匹配成功时的说明。当文本匹配不成功时，如，当收货地址不包含关键词库中的关键词时，可以删除该收货地址，也即删除该收货地址对应的用户。由此可以看出，步骤240也是筛选用户的过程。

图3中，在确定匹配分数之后，还可以执行错误处理的步骤。由于语言的灵活多样性，不可避免存在错配情况，例“中国银行旁超市”、“工行小王介绍的客户”，实际并不应作为识别目标，因此可以设计对应的规则(如，公司名称加上方位词)尽可能地将错配案例剔除。此外，还将一些明显的黑产、诈骗、推销等人员剔除。

步骤250，合并两个以上的候选用户群体，得到核心用户群体。

如前述例子，可以合并与收货地址对应的候选用户群体和与通讯录对应的候选用户群体。可以理解的是，由于部分用户既有收货地址又有通讯录，因此，合并后的核心用户群体的用户数目会少于两个候选用户群体的用户数目之和。

步骤260，根据核心用户群体中用户的各类文本信息的匹配分数，从核心用户群体中选取种子用户。

在一种实现方式中，可以根据用户的每类文本信息的匹配分数，确定对应的等级信息。之后将与各类文本信息对应的等级信息进行交叉融合，来确定用户的匹配等级。在确定匹配等级之后，可以根据各个用户的匹配等级，从核心用户群体中选取种子用户。

以前述文本信息包括收货地址和通讯录为例来说，假设收货地址的等级信息的确定规则为：匹配分数大于100，等级信息为高(用“2”表示)；匹配分数在区间[100,50)之间时，等级信息为中(用“1”表示)；匹配分数小于等于50时，等级信息为低(用“0”表示)。还假设通讯录的等级信息的确定规则为：匹配分数大于20，等级信息为高(用“2”表示)；匹配分数在区间[20,10)之间时，等级信息为中(用“1”表示)；匹配分数小于等于10时，等级信息为低(用“0”表示)。则匹配等级可以包括六个：特高(2+2)、中高(2+1)、高(2+0)、中(1+1)、中低(1+0)以及低(0+0)。而假设用户A的收货地址的匹配分数为“60”(即等级信息为中)，通讯录的匹配分数为“5”(即等级信息为低)，则该用户的匹配等级为中低(即1+0＝1)。

当然，上述只是一种简单的用户匹配等级的确定方法，在实际应用中，还可以结合其它复杂算法来确定用户的匹配等级，如，可以设定各个等级信息的权重值，之后根据等级信息和权重值共同确定用户的匹配等级，本说明书对此不复赘述。

可以理解的是，当核心用户群体中的用户只有收货地址或者通讯录时，可以将根据该收货地址或者通讯录的匹配分数确定的等级信息作为用户的匹配等级。

在确定各个用户的匹配等级之后，可以根据该匹配等级，从核心用户群体中选取种子用户。如前述例子，可以选取核心用户群体中匹配等级为特高和中高的用户为种子用户。

步骤270，分别计算种子用户的每类文本信息与全体用户群体中除种子用户外的其它用户的该类文本信息的相似度。

以文本信息为收货地址为例来说，由于收货地址存在以下现象：1)同一公司的员工通常会使用现实中相同的收货地址(如公司的门卫/收发室等)；2)即便同样的地址，不同用户的写法也不一定完全相同。基于此，该步骤就是为了使实际上表示同一地址的不同收货地址写法都能归并至该地址下，从而使因写法存在差异而未被文本匹配的用户也能被识别。因此，可以计算其它用户的收货地址与种子用户的收货地址的相似度。当相似度满足阈值时，将该收货地址作为与种子用户的收货地址“文本相似”的地址。这里的“文本相似”可以是指“文本编辑(Levenshtein)距离”较近，文本编辑距离即为两个文本字符串间由一个经“增/删/改”操作转换成另一个所需要的最少操作次数。

需要说明的是，在对收货地址进行文本结构化的过程中，如果还对该收货地址进行了切分，则只需要将这些成分分别作为一个“字符”计算编辑距离即可。例如“浙江省/杭州市/西湖区/翠苑街道/万塘路/18号/黄龙时代广场B座/6楼/支付宝公司”与“浙江省/杭州市/西湖区/翠苑街道/万塘路/18号/黄龙时代广场B座/6楼”，在后者中没有“支付宝公司”字样，也即两者相差一个成分，由于该成分可以看作一个字符，在这种情况下依然可视为“支付宝公司”的收货地址。当然，这要求有预先设定两个文本相差一个字符可以作为相似文本的前提。

通讯录与收货地址不同，一方面不及收货地址结构规整、指向明确，另一方面不存在收货地址中可用于“协同判别””的“用户－地址”关系对和可作为“种子”的地址。但考虑到通讯录的丰富性和口语化特性，可充分利用其中的上下文语义信息，通过寻找近义词和关联词(统称相关词语)的方式将关键词库进行扩充，从而实现识别更多目标用户群体的目的。通讯录相似度的计算过程可以如图4所示。图4中，可以包括如下几个步骤：

步骤v，词嵌入(word embedding)。将通讯录对应的子用户群体的通讯录中联系人的标注信息进行分词处理，得到全量词语集合。之后可以采用Word2Vec算法(一种公认有效的词向量化算法，但不限于此算法)进行无监督训练得到每个词语的词向量。此时，任意两个词语均可将其词向量的余弦相似度(不限于此相似度计算方法)作为两者的相似度，进而可以确定出全量词语集合中各个词语的相关词语。

可以理解的是，通过该步骤，与种子用户的通讯录对应的种子词语的相关词语也确定了。需要说明的是，当种子词语的个数为多个时，该多个种子词语可以构成种子词语的集合。

步骤w，扩充关键词库。结合种子词语的集合，统计各个种子词语的词频。根据各个种子词语的词频以及相关词语，确定扩展词语。将扩展词语扩充到关键词库中。举例来说，假设种子词语的集合中，种子词语“阿里巴巴”的词频大于阈值，且“阿里巴巴”的相关词语包括：“阿里”和“支付宝”等，则可以将“阿里巴巴”、“阿里”和“支付宝”扩充到关键词库中。

步骤x，生成用户向量。从与其它用户的通讯录对应的词语中选取出现在扩充后的关键词库中的目标词语。结合全量词语集合，统计目标词语的词频。根据目标词语的词频以及对应的词向量(步骤x中确定的)，确定其它用户的用户向量。同理可以确定种子用户的用户向量。也即全体用户群体中的每个用户都有用户向量。

步骤y，生成种子向量。将所有种子用户的用户向量计算平均得到种子向量，该种子向量可以用于表示全部的种子用户。

步骤z，计算相似度。计算其它用户的用户向量与种子向量的余弦相似度(不限于此相似度计算方法)。将余弦该相似度作为其它用户的通讯录与种子用户的通讯录之间的相似度。该相似度越高，说明其它用户属于识别目标用户群体的概率越高。

至此，由收货地址和通讯录两个数据源经匹配和扩展等文本挖掘过程识别得到了目标用户群体，由匹配识别的带有匹配等级，由扩展识别的带有相似度。由于两个数据源是相互独立的，因此可将上述结果进行交叉融合。匹配等级越高，则融合后的等级(称为置信等级)越高；相似度越高，则置信等级越高。如从两个来源均能被识别，则置信等级也越高。最终，产出识别人群和置信等级，置信等级越高，则用户属于目标用户群体的概率越高。

步骤280,根据相似度，从其它用户中选取扩展用户。

如，可以选取其它用户中相似度大于阈值的用户作为扩展用户。

当然，在实际应用中，也可以通过其它方式，来选取扩展用户。以文本信息为收货地址为例来说，可以利用收货地址的经纬度信息进一步扩充该公司的收货地址。例如将在某公司园区范围内的所有收货地址认为是该公司地址，则使用该地址的用户均为该公司员工。再以文本信息为通讯录为例来说，可以利用由通讯录的联系人的标注信息形成的网络结构进行公司员工的扩散。例如将某公司员工甲标注为“老板”或“同事”等称谓的乙也认为是该公司员工。在通过上述两种方式识别出同一公司的员工之后，该同一公司的员工也可以选取为扩展用户。

步骤290，将扩展用户扩充到核心用户群体，从而得到目标用户群体。

需要说明的是，虽然本说明书上述实施例均以收货地址和通讯录为例进行了举例说明，但可以理解的是，当文本信息为无线网络名称等其它信息时，目标用户群体的确定过程类似，本说明书在此不复赘述。

需要说明的是，以确定消费信贷领域的高净值人群为例来说，在经过上述步骤210-步骤290之后，就可以提取出用户的职业和公司等信息，从而作为用户的职业属性标签。进而可以根据用户的职业属性标签，来确定高净值人群。

综上，本方案可以由编写好的程序利用现有数据自动执行，无需用户专门新增填写相关信息，也无需审批员人工操作或监督，在保证识别精度的前提下，不仅能大大减少人力成本投入，而且能提升用户体验。

本方案不受限于文本信息的可获取性和规整性。一方面，收货地址和通讯录两大数据源的覆盖率很高，不管是在网站上有过购物的物流记录，还是使用过通讯社交类产品，均可纳入识别范围。事实上，超过半数的用户都有这两类文本信息。另一方面，即使收货地址的填写和通讯录中联系人的标注信息存在不规范性，在精确匹配识别一部分用户的基础上，引入了计算相似度的步骤，能起到类似于模糊匹配的效果，有效地扩充了识别人群的覆盖度。此外，对由两类相互独立的数据源识别得到的结果进行了交叉验证，有效地保证了识别结果的准确度。

识别出的目标用户群体在百万数量级，信用风险约为全体用户群体的八分之一，后续通过开放准入、提高授信、降低定价等方式，能很好地提升消费信贷业务涵盖的人群范围和服务质量，也能有效地控制整体风险。

图5为本说明书另一个实施例提供的目标用户群体的确定方法示意图。图5中，可以通过样本筛选和文本挖掘两个过程，来从全体用户群体中确定出目标用户群体。其中，样本筛选的过程为：对全体用户群体，将有通讯录的用户划分到第一子用户群体，将有收货地址的用户划分到第二子用户群体。之后，根据通讯录的筛选条件(包括但不限于：通讯录所属用户的电话号码为用户本人使用以及电话号码包含在其它通讯录中)，从第一子用户群体中筛选对应的第一候选用户群体。并根据收货地址的筛选条件(包括但不限于：收货地址为用户本人使用、收货地址在近期被用户使用过以及收货地址归属于公司类地址)，从第二子用户群体中筛选对应的第二候选用户群体。

图5中，对于经过样本筛选的用户，分别从收货地址和通讯录两个方面对其进行文本挖掘。文本挖掘包括两个部分：匹配和扩展。匹配即为利用关键词库对文本信息进行精确匹配；扩展是在匹配的基础上，对未能匹配到的人群进一步加以识别，以扩大识别的覆盖度。

匹配的过程具体可以为：将第一候选用户群体中各个用户的通讯录与关键词库中的关键词进行匹配，若某一用户的通讯录与关键词库中的关键词匹配成功，则保留该用户，并确定该用户的通讯录的匹配分数；否则剔除该用户。此外，还可以将第二候选用户群体中各个用户的收货地址与关键词库中的关键词进行匹配，若某一用户的收货地址与关键词库中的关键词匹配成功，则保留该用户，并确定该用户的收货地址的匹配分数；否则剔除该用户。在对第一候选用户群体和第二候选用户群体执行上述匹配的步骤之后，可以合并该两个候选用户群体。合并后的候选用户群体也可以称为核心用户群体(也即两个候选用户群体的并集)。对核心用户群体中的用户，可以根据该用户的收货地址的匹配分数和通讯录的匹配分数，来确定该用户的匹配等级。之后，可以根据匹配等级，从核心用户群体中选取种子用户(也即两个候选用户群体的交集)。在选取种子用户之后，就可以进入到扩展部分了。

扩展的过程具体可以为：计算种子用户的收货地址与全体用户群体中除种子用户之外的其它用户的收货地址之间的相似度，并根据该相似度，从其它用户中选取扩展用户。此外，还可以计算种子用户的通讯录与其它用户的通讯录之间的相似度，并根据该相似度，从其它用户中选取扩展用户。在选取扩展用户之后，该扩展用户与核心用户群体共同构成目标用户群体。

总之，上述实施例提出了利用文本挖掘技术识别目标用户群体的方法。对于收货地址和通讯录两类不同形式的文本信息，结合目标行业的语料特性，针对性地设计了文本精确匹配算法。利用协同判别方式对收货地址进行扩展，利用文本向量化方式对通讯录进行扩展，从而扩大了识别人群的覆盖范围。将收货地址和通讯录两类来源上相互独立的数据加以融合，通过交叉验证的方式提升了识别准确度。

与上述目标用户群体的确定方法对应地，本说明书一个实施例还提供的一种目标用户群体的确定装置，如图6所示，该装置包括：

获取单元601，用于获取全体用户群体。

划分单元602，用于将获取单元601获取的全体用户群体划分为两个以上的子用户群体，其中，不同的子用户群体分别对应不同的文本信息。

其中，文本信息可以包括：收货地址、通讯录、无线网络名称、全球定位系统GPS定位点对应的公司类地名、互联网协议IP地址所对应的公司名称、多媒体访问控制Mac地址所对应的公司名称、社交软件的备注名称、社交软件的群名称、即时通讯工具的备注名称以及即时通讯工具的群名称中的若干个。

筛选单元603，用于根据划分单元602划分的各个子用户群体对应的文本信息的筛选条件，从各个子用户群体中筛选出对应的候选用户群体，得到两个以上的候选用户群体。

可选地，当文本信息为收货地址时，收货地址的筛选条件包括以下一种或多种：收货地址为用户本人使用、收货地址在近期被用户使用过以及收货地址归属于公司类地址。

可选地，当文本信息为通讯录时，通讯录包括联系人的标注信息及对应的电话号码；通讯录的筛选条件包括以下一种或多种：通讯录所属用户的电话号码为用户本人使用以及电话号码包含在其它通讯录中。

匹配单元604，用于对筛选单元603筛选的每个候选用户群体，将对应的文本信息与关键词库中的关键词进行精确匹配，若匹配成功，则确定文本信息的匹配分数。

可选地，匹配单元604具体可以用于：

从收货地址中提取关键性门址。

将关键性门址与关键词库中的关键词进行精确匹配。

若匹配成功，则根据在预设时间段内收货地址的使用次数，确定对应的交易天数。

将交易天数作为收货地址的匹配分数。

可选地，匹配单元604具体可以用于：

从通讯录中提取联系人的标注信息。

从标注信息中去除不相关词语，不相关词语包括联系人的姓名、昵称以及其它无关称谓。

将去除不相关词语后的标注信息与关键词库中的关键词进行精确匹配。

若匹配成功，则确定标注信息中包含通讯录所属用户的其它通讯录的个数。

将其它通讯录的个数作为通讯录的匹配分数。

合并单元605，用于合并筛选单元603筛选的两个以上的候选用户群体，得到核心用户群体。

选取单元606，用于根据核心用户群体中用户的各类文本信息的匹配分数，从核心用户群体中选取种子用户。

计算单元607，用于分别计算选取单元606选取的种子用户的每类文本信息与全体用户群体中除种子用户外的其它用户的该类文本信息的相似度。

可选地，计算单元607具体可以用于：

将通讯录对应的子用户群体的通讯录中联系人的标注信息进行分词处理，得到全量词语集合。

确定全量词语集合中各个词语的相关词语。

从全量词语集合中确定出与种子用户的通讯录对应的种子词语的集合。种子词语具有对应的相关词语。

结合种子词语的集合，统计各个种子词语的词频。

根据各个种子词语的词频以及相关词语，确定扩展词语。

将扩展词语扩充到关键词库中。

从与其它用户的通讯录对应的词语中选取出现在扩充后的关键词库中的目标词语。

计算目标词语与种子词语的相似度。

将相似度作为种子用户的通讯录与其它用户的通讯录的相似度。

可选地，计算单元607还具体可以用于：

结合全量词语集合，统计目标词语的词频。

根据词向量化算法，分别将目标词语以及种子词语表示为对应的词向量。

根据目标词语的词频以及对应的词向量，确定目标词语的用户向量，并根据种子词语的词频以及对应的词向量，确定种子词语的用户向量。

根据目标词语的用户向量以及种子词语的用户向量，确定目标词语与种子词语的相似度。

选取单元606，还用于根据计算单元607计算的相似度，从其它用户中选取扩展用户。

扩充单元608，用于将选取单元606选取的扩展用户扩充到核心用户群体，从而得到目标用户群体。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的目标用户群体的确定装置，获取单元601获取全体用户群体。划分单元602将全体用户群体划分为两个以上的子用户群体。筛选单元603根据各个子用户群体对应的文本信息的筛选条件，从各个子用户群体中筛选出对应的候选用户群体，得到两个以上的候选用户群体。匹配单元604对每个候选用户群体，将对应的文本信息与关键词库中的关键词进行精确匹配，若匹配成功，则确定文本信息的匹配分数。合并单元605合并两个以上的候选用户群体，得到核心用户群体。选取单元606根据核心用户群体中用户的各类文本信息的匹配分数，从核心用户群体中选取种子用户。计算单元607分别计算种子用户的每类文本信息与全体用户群体中除种子用户外的其它用户的该类文本信息的相似度。选取单元606于根据相似度，从其它用户中选取扩展用户。扩充单元608将扩展用户扩充到核心用户群体，从而得到目标用户群体。由此，可以更快速、更有效地确定目标用户群体。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种目标用户群体的确定方法，其特征在于，包括：

获取全体用户群体；

将所述全体用户群体划分为两个以上的子用户群体，其中，每个子用户群体对应于一个类别的文本信息；所述文本信息用于对对应子用户群体中的用户进行刻画，且对应于不同子用户群体的各类文本信息之间相互独立且形式不同；

根据各个子用户群体对应类别的文本信息的筛选条件，从所述各个子用户群体中筛选出对应的候选用户群体，得到两个以上的候选用户群体；

对每个候选用户群体，将对应类别的文本信息与关键词库中的关键词进行精确匹配，若匹配成功，则确定所述类别文本信息的匹配分数；

合并所述两个以上的候选用户群体，得到核心用户群体；

根据所述核心用户群体中用户的各类文本信息的匹配分数，确定该核心用户群体中各用户的匹配等级；所述匹配分数用于表征对应文本信息的重要度；

基于该核心用户群体中各用户的匹配等级，从所述核心用户群体中选取种子用户；

根据所述相似度，从所述其它用户中选取扩展用户；

2.根据权利要求1所述的方法，其特征在于，所述文本信息包括：收货地址、通讯录、无线网络名称、全球定位系统GPS定位点对应的公司类地名、互联网协议IP地址所对应的公司名称、多媒体访问控制Mac地址所对应的公司名称、社交软件的备注名称、社交软件的群名称、即时通讯工具的备注名称以及即时通讯工具的群名称中的若干个。

3.根据权利要求1所述的方法，其特征在于，

当所述文本信息为收货地址时，所述收货地址的筛选条件包括以下一种或多种：收货地址为用户本人使用、收货地址在近期被用户使用过以及收货地址归属于公司类地址。

4.根据权利要求3所述的方法，其特征在于，所述将对应的文本信息与关键词库中的关键词进行精确匹配，若匹配成功，则确定所述文本信息的匹配分数，包括：

从所述收货地址中提取关键性门址；

将所述关键性门址与关键词库中的关键词进行精确匹配；

若匹配成功，则根据在预设时间段内所述收货地址的使用次数，确定对应的交易天数；

将所述交易天数作为所述收货地址的匹配分数。

5.根据权利要求1所述的方法，其特征在于，

当所述文本信息为通讯录时，所述通讯录包括联系人的标注信息及对应的电话号码；所述通讯录的筛选条件包括以下一种或多种：通讯录所属用户的电话号码为所述用户本人使用以及所述电话号码包含在其它通讯录中。

6.根据权利要求5所述的方法，其特征在于，所述将对应的文本信息与关键词库中的关键词进行匹配，若匹配成功，则确定所述文本信息的匹配分数，包括：

从所述通讯录中提取联系人的标注信息；

从所述标注信息中去除不相关词语，所述不相关词语包括联系人的姓名、昵称以及其它无关称谓；

将去除不相关词语后的标注信息与关键词库中的关键词进行精确匹配；

若匹配成功，则确定标注信息中包含所述通讯录所属用户的其它通讯录的个数；

将所述其它通讯录的个数作为所述通讯录的匹配分数。

7.根据权利要求5或6所述的方法，其特征在于，所述分别计算所述种子用户的每类文本信息与所述全体用户群体中除所述种子用户外的其它用户的该类文本信息的相似度，包括：

将所述通讯录对应的子用户群体的通讯录中联系人的标注信息进行分词处理，得到全量词语集合；

确定所述全量词语集合中各个词语的相关词语；

从所述全量词语集合中确定出与所述种子用户的通讯录对应的种子词语的集合；所述种子词语具有对应的相关词语；

结合所述种子词语的集合，统计各个种子词语的词频；

根据所述各个种子词语的词频以及相关词语，确定扩展词语；

将所述扩展词语扩充到所述关键词库中；

从与所述其它用户的通讯录对应的词语中选取出现在扩充后的关键词库中的目标词语；

计算所述目标词语与所述种子词语的相似度；

将所述相似度作为所述种子用户的通讯录与所述其它用户的通讯录的相似度。

8.根据权利要求7所述的方法，其特征在于，所述计算所述目标词语与所述种子词语的相似度，包括：

结合所述全量词语集合，统计所述目标词语的词频；

根据词向量化算法，分别将所述目标词语以及所述种子词语表示为对应的词向量；

根据所述目标词语的词频以及对应的词向量，确定所述目标词语的用户向量，并根据所述种子词语的词频以及对应的词向量，确定所述种子词语的用户向量；

根据所述目标词语的用户向量以及所述种子词语的用户向量，确定所述目标词语与所述种子词语的相似度。

9.一种目标用户群体的确定装置，其特征在于，包括：

获取单元，用于获取全体用户群体；

划分单元，用于将所述获取单元获取的所述全体用户群体划分为两个以上的子用户群体，其中，每个子用户群体对应于一个类别的文本信息；所述文本信息用于对对应子用户群体中的用户进行刻画，且对应于不同子用户群体的各类文本信息之间相互独立且形式不同；

筛选单元，用于根据所述划分单元划分的各个子用户群体对应类别的文本信息的筛选条件，从所述各个子用户群体中筛选出对应的候选用户群体，得到两个以上的候选用户群体；

匹配单元，用于对所述筛选单元筛选的每个候选用户群体，将对应类别的文本信息与关键词库中的关键词进行精确匹配，若匹配成功，则确定所述类别文本信息的匹配分数；

选取单元，用于根据所述核心用户群体中用户的各类文本信息的匹配分数，确定该核心用户群体中各用户的匹配等级；所述匹配分数用于表征对应文本信息的重要度；基于该核心用户群体中各用户的匹配等级，从所述核心用户群体中选取种子用户；

10.根据权利要求9所述的装置，其特征在于，所述文本信息包括：收货地址、通讯录、无线网络名称、全球定位系统GPS定位点对应的公司类地名、互联网协议IP地址所对应的公司名称、多媒体访问控制Mac地址所对应的公司名称、社交软件的备注名称、社交软件的群名称、即时通讯工具的备注名称以及即时通讯工具的群名称中的若干个。

11.根据权利要求9所述的装置，其特征在于，

12.根据权利要求11所述的装置，其特征在于，所述匹配单元具体用于：