CN106878242B

CN106878242B - 一种确定用户身份类别的方法及装置

Info

Publication number: CN106878242B
Application number: CN201610388620.6A
Authority: CN
Inventors: 李辉; 梅炜; 操颖平; 林嘉南
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2020-08-25
Anticipated expiration: 2036-06-02
Also published as: CN106878242A

Abstract

本申请公开了确定用户身份类别的方法，包括：接收用户的数据信息，数据信息包括多个含有用户身份信息的标记文本；将多个标记文本与关键词词库中的属性关键词进行匹配；其中，关键词词库中包括至少一个属性关键词及与属性关键词对应的类别；统计标记文本与类别相对应的对应次数；其中，类别对应与标记文本相匹配的属性关键词；依据用户的标记文本与类别的对应次数，确定用户身份类别。本申请还公开了确定用户身份类别的装置，包括：接收模块、匹配模块、统计模块、身份类别确定模块。数据信息中还可包括认证信息、注册信息和/或业务信息。这就实现了对用户相关的数据信息进行主动收集和分析处理，从而确定用户身份类别。

Description

一种确定用户身份类别的方法及装置

技术领域

本申请涉及计算机信息技术领域，尤其涉及一种确定用户身份类别的方法及装置。

背景技术

许多服务提供商的业务的开展依赖于对客户资料的收集。服务提供商收集到上述客户的资料后，会依据客户提供的信息为客户提供服务。

现有技术中对客户资料的收集和处理，往往由客户直接向服务提供商提供所需资料，提出服务需求，服务提供商依据客户提供的资料为客户提供服务。但这种方式的缺陷在于：资料的收集完全依赖于客户主动，服务提供商只能被动接收，因此，服务提供商无法主动及时寻找到潜在客户，并且由于客户提供资料的局限性，也难以对客户提供的资料进行统计分析。

而与此同时，随着互联网的广泛应用，用户在使用互联网的过程中，在互联网上存储了大量带有用户信息的数据。如何利用用户留存在互联网上的数据对用户进行分析处理，确定用户的类别，例如用户的社会身份类别，从而寻找到潜在用户，成为了亟待解决的问题。

发明内容

本申请实施例提供了一种确定用户身份类别的方法和装置，旨在对用户相关的数据信息进行主动收集和分析处理，从而确定用户身份类别。

为实现上述目的，本申请实施例提供了一种确定用户身份类别的方法，其特征在于，所述方法包括：

接收用户的数据信息，所述数据信息包括多个含有用户身份信息的标记文本；

将多个所述标记文本与关键词词库中的属性关键词进行匹配；其中，所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别；

统计所述标记文本与类别相对应的对应次数；其中，所述类别对应与所述标记文本相匹配的属性关键词；

依据用户的所述标记文本与所述类别的对应次数，确定用户身份类别。

作为优选，本申请实施例中，在接收用户的数据信息之后，在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前，还包括：对所述标记文本进行分词，将所述标记文本切分成至少一个切分词；

将多个所述标记文本与关键词词库中的属性关键词进行匹配，包括：

将所述标记文本中的所述切分词分别与所述属性关键词进行匹配。

作为优选，本申请实施例中，统计所述标记文本与类别相对应的对应次数，包括：

若所述切分词与所述属性关键词匹配，则将所述属性关键词所对应的类别与包含所述切分词的标记文本相对应的对应次数增加一个步长单位或者计为一个步长单位；

将相同的类别与用户的各标记文本相对应的对应次数进行累加，确定用户的标记文本与各类别相对应的对应次数。

作为优选，本申请实施例中，所述数据信息还包括用户的认证信息；

依据用户的所述标记文本与所述类别的对应次数，确定用户身份类别，包括：

对于有认证信息的已认证用户，将与该用户的认证信息一致的类别作为已认证类别；将所述已认证类别对应的类别，确定为有认证信息的已认证用户的身份类别；

依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，记为第一概率；

依据所述第一概率，确定所述未认证用户的身份类别。

作为优选，本申请实施例中，依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，包括：

对所述已认证类别，计算已认证用户的标记文本与所述已认证类别相对应的条件下，各对应次数出现的条件概率，记为第二概率；

对已认证用户的标记文本与已认证类别相对应的对应次数，将不大于对应次数本数的各对应次数对应的所述第二概率进行累加，记为第三概率；

依据所述第三概率，确定所述第一概率；所述第一概率与所述第三概率在所述类别和所述对应次数上一一对应。

作为优选，本申请实施例中，对所述已认证类别，计算已认证用户的标记文本与所述已认证类别相对应的条件下，各对应次数出现的条件概率，包括：

对所述已认证类别，统计与所述已认证类别相对应的已认证用户的总数，记为第一统计量；

对已认证类别与已认证用户的标记文本相对应的对应次数，统计各相同的对应次数出现的数量，记为第二统计量；

对已认证类别与已认证用户的标记文本相对应的各对应次数，分别以所述第二统计量为被除数、以所述第一统计量为除数，计算得到已认证用户的标记文本与所述已认证类别相对应的条件下、各对应次数出现的条件概率，记为所述第二概率。

作为优选，本申请实施例中，依据所述第一概率，确定所述未认证用户的身份类别，包括：

将所述未认证用户的标记文本相对应的类别中所述第一概率最高的预设个类别对应的类别确定为所述未认证用户的身份类别。

作为优选，本申请实施例中，所述数据信息还包括用户的注册信息和业务信息；

在依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率之后，还包括：

将所述注册信息和所述业务信息分别进行分类；

将包含同类注册信息和同类业务信息的未认证用户分入同一群组中；

依据未认证用户的标记文本与各类别相对应的对应次数，将与所述对应次数相应的所述第一概率作为未认证用户的标记文本与各类别相对应的概率；

依据分入同一群组的各未认证用户的标记文本与相同类别相对应的概率，按照预设计算规则计算得到该组用户与各类别相对应的概率，记为第四概率；

依据所述第一概率和所述第四概率，确定所述未认证用户的身份类别。

作为优选，本申请实施例中，所述预设计算规则包括：

将分入同一群组的各未认证用户的标记文本与相同类别相对应的概率进行数学平均计算或者加权平均计算。

作为优选，本申请实施例中，依据所述第一概率和所述第四概率，确定所述未认证用户的身份类别，包括：

将与所述未认证用户的标记文本相对应的各类别所对应的所述第一概率和所述第四概率相比较，将概率最高的预设个类别对应的类别作为所述未认证用户的身份类别。

作为优选，本申请实施例中，所述标记文本包括用户的通讯录信息和/或用户被其他用户标注的备注信息。

作为优选，本申请实施例中，在接收用户的数据信息之后，在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前，还包括：

对所述标记文本进行预处理。

作为优选，本申请实施例中，所述预处理包括以下处理方式中的一种或多种的组合：

将大写字母转化为小写字母、将繁体字转化为简体字、将半角符号的字符转化为全角符号的字符、将无效字符转化为空格、删除中文字符之间的空格。

作为优选，本申请实施例中，所述处理方式还包括：

对所述标记文本中的同义词进行同义词替换。

本申请实施例还提供了一种确定用户身份类别的装置，所述装置包括：

接收模块，接收用户的数据信息，所述数据信息包括多个含有用户身份信息的标记文本；

匹配模块，将多个所述标记文本与关键词词库中的属性关键词进行匹配；其中，所述关键词词库中包括至少一个属性关键词及与属性关键词对应的类别；

统计模块，统计所述标记文本与类别相对应的对应次数；其中，所述类别对应与所述标记文本相匹配的属性关键词；

身份类别确定模块，依据用户的所述标记文本与所述类别的对应次数，确定用户身份类别。

作为优选，本申请实施例中，所述装置还包括：

分词模块，对所述标记文本进行分词，将所述标记文本切分成至少一个切分词；

所述匹配模块包括：

匹配组件，将所述标记文本中的所述切分词分别与所述属性关键词进行匹配。

作为优选，本申请实施例中，所述统计模块包括：

判断组件，判断所述切分词与所述属性关键词是否匹配；

计数组件，在所述切分词与所述属性关键词匹配时，将所述属性关键词所对应的类别与包含所述切分词的标记文本相对应的对应次数增加一个步长单位或者计为一个步长单位；

累加组件，将相同的类别与用户的各标记文本相对应的对应次数进行累加，确定用户的标记文本与各类别相对应的对应次数。

作为优选，本申请实施例中，所述数据信息还包括用户的认证信息；且

所述身份类别确定模块包括：

认证类别确定组件，对于有认证信息的已认证用户，将与该用户的认证信息一致的类别作为已认证类别；将所述已认证类别对应的类别，确定为有认证信息的已认证用户的身份类别；

第一概率计算组件，依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，记为第一概率；

第一未认证用户身份类别确定组件，依据所述第一概率，确定所述未认证用户的身份类别。

作为优选，本申请实施例中，所述第一概率计算组件包括：

第二概率计算组件，对所述已认证类别，计算已认证用户的标记文本与所述已认证类别相对应的条件下，各对应次数出现的条件概率，记为第二概率；

第三概率计算单元，对已认证用户的标记文本与已认证类别相对应的对应次数，将不大于对应次数本数的各对应次数对应的所述第二概率进行累加，记为第三概率；

第一概率确定单元，依据所述第三概率，确定所述第一概率；所述第一概率与所述第三概率在所述类别和所述对应次数上一一对应。

作为优选，本申请实施例中，所述第二概率计算组件包括：

第一统计量计算单元，对所述已认证类别，统计与所述已认证类别相对应的已认证用户的总数，记为第一统计量；

第二统计量计算单元，对已认证类别与已认证用户的标记文本相对应的对应次数，统计各相同的对应次数出现的数量，记为第二统计量；

第二概率计算单元，对已认证类别与已认证用户的标记文本相对应的各对应次数，分别以所述第二统计量为被除数、以所述第一统计量为除数，计算得到已认证用户的标记文本与所述已认证类别相对应的条件下、各对应次数出现的条件概率，记为所述第二概率。

作为优选，本申请实施例中，所述数据信息还包括用户的注册信息和业务信息；且

所述身份类别确定模块还包括：

信息分类组件，将所述注册信息和所述业务信息分别进行分类；

未认证用户分组组件，将包含同类注册信息和同类业务信息的未认证用户分入同一群组中；

概率对应组件，依据未认证用户的标记文本与各类别相对应的对应次数，将与所述对应次数相应的所述第一概率作为未认证用户的标记文本与各类别相对应的概率；

第四概率计算组件，依据分入同一群组的各未认证用户的标记文本与相同类别相对应的概率，按照预设计算规则计算得到该组用户与各类别相对应的概率，记为第四概率；

第二未认证用户身份类别确定组件，依据所述第一概率和所述第四概率，确定所述未认证用户的身份类别。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

1、本申请实施例主动对用户包括标记文本在内的数据信息进行收集，并在此基础上对标记文本按照与类别的对应关系进行分类统计，最终通过确定用户的标记文本与类别的对应关系完成对数据的分析处理，确定了用户的身份类别，解决了现有技术中难以主动收集数据并难以进行统计分析的问题。

2、本申请实施例还利用用户的认证信息的确定性和准确性，以认证信息为基准计算出已认证的用户的标记文本与某类别相对应的各对应次数的概率，再以此概率估算出未认证用户的标记文本与某类别相对应的各次数的出现概率，由此即可评估，当未认证用户被若干次标记为与某类别相对应时，该未认证用户确实归属于该类别对应的身份类别的可信程度。

3、本申请实施例在考虑标记文本和认证信息的基础上，进一步考虑用户的注册信息和业务信息，更全面地收集用户在使用互联网的过程中留存的数据，并加以分析处理，从而更准确地确定用户身份类别。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例的一种确定用户身份类别的方法的流程示意图；

图2为本申请实施例的第二种确定用户身份类别的方法的流程示意图；

图3为本申请实施例的第三种确定用户身份类别的方法的流程示意图；

图4为本申请实施例的第四种确定用户身份类别的方法的流程示意图；

图5为本申请实施例的第五种确定用户身份类别的方法的流程示意图；

图6为本申请实施例的第六种确定用户身份类别的方法的流程示意图；

图7为本申请实施例的第七种确定用户身份类别的方法的流程示意图；

图8为本申请实施例的第八种确定用户身份类别的方法的流程示意图；

图9为本申请实施例的一种确定用户身份类别的装置的结构示意图；

图10为本申请实施例的第二种确定用户身份类别的装置的结构示意图；

图11为本申请实施例的第三种确定用户身份类别的装置的结构示意图；

图12为本申请实施例的第四种确定用户身份类别的装置的结构示意图；

图13为本申请实施例的第五种确定用户身份类别的装置的结构示意图；

图14为本申请实施例的第六种确定用户身份类别的装置的结构示意图；

图15为本申请实施例的第七种确定用户身份类别的装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

本申请的实施例提供了一种确定用户身份类别的方法，参见图1所示，方法包括：

S11：接收用户的数据信息，数据信息包括多个含有用户身份信息的标记文本；

S12：将多个标记文本与关键词词库中的属性关键词进行匹配；其中，关键词词库中包括至少一个属性关键词及与属性关键词对应的类别；

S13：统计标记文本与类别相对应的对应次数；其中，类别对应与标记文本相匹配的属性关键词；

S14：依据用户的标记文本与类别的对应次数，确定用户身份类别。

本实施例主动对用户包括标记文本在内的数据信息进行收集，并在此基础上对标记文本按照与类别的对应关系进行分类统计，最终通过确定用户的标记文本与类别的对应关系完成对数据的分析处理。依据用户的标记文本与关键词词库中的属性关键词的对应关系，可以统计出各用户的标记文本对应各类别出现的次数，次数的多少可以一定程度上表征用户的标记文本与相应类别可以建立对应关系的可信程度，从而可以据此确定用户与类别的对应关系，进而确定用户身份类别。

本实施例可应用于对用户多种角度的分类分析。以将本实施例应用于对用户的社会身份分析为例，关键词词库可具体化为社会身份关键词词库，可以将社会身份划分成若干社会身份类别，对应本实施例的类别。每一类社会身份包含多个社会身份关键词，对应本实施例中的属性关键词。更具体地，例如，可以按照行业划分社会身份类别，则关键词词库中可以包括饮食行业、服装行业、机械行业、金融行业、移动互联网行业等类别；进一步地，对每一个类别，可按照各行业中的职能设定社会身份关键词，以“饮食行业”这一类别为例，该类别可包含的属性关键词有厨师、服务员、收银员、传菜员等。

在实施本实施例时，用户的标记文本中包含与用户的社会身份有关的信息，例如，用户被其某一好友标记为“厨师”，则用户的该条标记文本与上述属性关键词“厨师”匹配，属性关键词“厨师”属于“饮食行业”这一类别，则该用户的该条标记文本与“饮食行业”这一类别存在一次相对应的对应关系。

作为上述实施例的一个优选实施例，标记文本中可包括用户的通讯录信息和/或用户被其他用户标注的备注信息。这些信息由用户自身或其他用户标记，可以在一定程度上表征用户的身份类别，依据这些信息有利于确定用户身份类别。

作为上述实施例的一个优选实施例，在S11接收用户的数据信息之后，在S12将多个标记文本与关键词词库中的属性关键词进行匹配之前，还包括：

对标记文本进行预处理。

对标记文本进行预处理，方便了后续对标记文本的处理，有利于避免因标记文本本身的误差和噪音而影响确定的用户身份类别的可信度。

作为上述实施例的一个优选实施例，上述预处理可以包括以下处理方式中的一种或多种的组合：

进一步地，上述预处理的处理方式还可以包括：

对标记文本中的同义词进行同义词替换。

以上实施例中列举的多种预处理的处理方式可以根据实施的需要择一使用或者任意组合使用，也可以根据实施需要选择其他未列举的方式对标记文本进行预处理。

作为一个优选实施例，参见图2所示，在S11接收用户的数据信息之后，在S12将多个标记文本与关键词词库中的属性关键词进行匹配之前，还包括：

S15：对标记文本进行分词，将标记文本切分成至少一个切分词；

S12将多个标记文本与关键词词库中的属性关键词进行匹配，具体包括：

S121：将标记文本中的切分词分别与属性关键词进行匹配。

作为一个优选实施例，参见图3所述，S13统计标记文本与类别相对应的对应次数，包括：

若经S131判断切分词与属性关键词匹配，则S132将属性关键词所对应的类别与包含切分词的标记文本相对应的对应次数增加一个步长单位或者计为一个步长单位；

S133：将相同的类别与用户的各标记文本相对应的对应次数进行累加，确定用户的标记文本与各类别相对应的对应次数。

上述步骤S132中，当切分词与属性关键词相匹配时，表示包含有切分词的标记文本与包括有属性关键词的类别存在对应关系。对应次数“增加一个步长单位”，即当某条标记文本中有多个切分词与某类别中的一个或多个属性关键词相匹配时，对多次匹配进行累加，以步长单位为单位增加对应次数。对应次数“计为一个步长单位”，即当某条标记文本中有多个切分词与某类别中的一个或多个属性关键词相匹配时，对多次匹配不进行累加，只进行计数，这一计数值仅表示该条标记文本是否与某类别存在对应关系。

下面以将上述实施例应用于对用户的社会身份分析为例。包括：

(1)关键词词库可具体化为社会身份关键词词库。将社会身份关键词词库记为D＝{D1,D2,…,Dm}，其中Di表示每i类社会身份(即第i类类别)，m表示社会身份的类别数(即类别的个数)；每一类社会身份中还包含很多对应的关键词(属性关键词)，记为Di＝{Di1,Di2,…,Din}，其中Dij表示第i类社会身份中的第j个词(即第i个类别中的第j个属性关键词)，n表示第i类社会身份包含的关键词的数量(即第i个类别中包含的属性关键词的数量)。

(2)将用户A的标注信息记为S(A)＝{s1,s2,s3,…,st}，其中si表示用户A被标注的第i条标记文本，t表示该用户A的标记文本的总条数。标记文本可取为用户上传的通讯录数据和/或用户相互加好友对应的备注信息等。

(3)为规范标记文本的格式以便后续处理，优选对标记文本进行预处理，包括将大写字母转化为小写字母、将繁体字转化为简体字、将半角符号的字符转化为全角符号的字符、将无效字符转化为空格、删除中文字符之间的空格等，还可以对标记文本中的同义词进行同义词替换。若选择不在标记文本中进行同义词替换，也可将相对应的同义词均作为属性关键词列入关键词词库中。

(4)在以上基础上对标记文本进行分词，将标记文本切分成至少一个切分词。将用户A的第i条标记文本si分词后的结果记为W(si)＝{wi1,wi2,..,wik}，其中，wij表示标记文本si的第j个切分词，k表示标记文本si被切分成k个切分词。

(5)对标记文本si构建一个特征向量，即为vi＝[0,0,..,0]，由于总共有m种社会身份，因此该特征向量vi总共有m个0，vi[j]表示向量vi的第j个元素。

如果标记文本si中的第j个切分词wij与某一种社会身份j中的某一个关键词相匹配，那么标记文本si对应的特征向量vi的第j个元素加1(此处，步长单位具体为1)，即vi[j]变成了vi[j]+1。同一条标记文本si中的多个切分词与同一类社会身份中的多个关键词相匹配，优选在标记文本si同时与第j类社会身份中的多个关键词匹配时，只累加一次，避免重复计数，即若标记文本si中的第j个切分词wij与某一种社会身份j中的某一个关键词相匹配，则标记文本si对应的特征向量vi的第j个元素计为1(此处，步长单位具体为1)，即vi[j]的数值由0变成了1，并不再增加。

对标记文本si的每一个切分词做上述处理，特征向量vi中的vi[j]的数值表示标记文本si与第j种社会身份相对应的对应次数的情况。

(6)在以上基础上，可以得到用户A的每一条标记文本通过匹配和计算得到的特征向量，把用户A的各条标记文本对应的特征向量进行加和，即各特征向量的对应元素相加，亦即将相同的类别与用户A的各标记文本相对应的对应次数进行累加，就可以得到用户A汇总后的特征向量V(A)，V(A)中的V(A)[i]的数值表示用户A的标记文本与第i类社会身份相对应的对应次数。

在以上实施例中已统计完成用户的标记文本与相匹配的属性关键词所对应的类别相对应的对应次数，依据用户的标记文本与各类别相对应的对应次数，可以认为与用户的标记文本对应的次数越多的类别越可能是用户的身份类别，从而可以将与用户的标记文本对应的次数最多的预设个类别对应的身份类别作为用户的身份类别。

在某些情况下，用户在使用互联网时会上传自己的经官方认证的认证信息，例如身份证、工商注册号、或者从业资格证书等。这些认证信息都能准确的表征用户的社会身份类别。同时，一般情况下，上述实施例中的标注信息往往可以覆盖绝大多数用户，因此其中就会包含有认证信息的已认证用户和无认证信息的未认证用户。

为了更准确地确定用户身份类别，本申请提供又一优选实施例，参见图4所示，所述数据信息除包括用户的标记文本外，还包括用户的认证信息；并且，S14依据用户的标记文本与类别的对应次数，确定用户身份类别，包括：

S141：对于有认证信息的已认证用户，将与该用户的认证信息一致的类别作为已认证类别；将已认证类别对应的类别，确定为有认证信息的已认证用户的身份类别；

S142：依据已认证用户的标记文本与已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，记为第一概率；

S143：依据第一概率，确定未认证用户的身份类别。

作为上述实施例的一个优选实施例，参见图5所示，S142依据已认证用户的标记文本与已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，包括：

S1421：对已认证类别，计算已认证用户的标记文本与已认证类别相对应的条件下，各对应次数出现的条件概率，记为第二概率；

S1422：对已认证用户的标记文本与已认证类别相对应的对应次数，将不大于对应次数本数的各对应次数对应的第二概率进行累加，记为第三概率；

S1423：依据第三概率，确定第一概率；第一概率与第三概率在类别和对应次数上一一对应。

作为上述实施例的一个优选实施例，参见图6所示，S1421对已认证类别，计算已认证用户的标记文本与已认证类别相对应的条件下，各对应次数出现的条件概率，包括：

S14211：对已认证类别，统计与已认证类别相对应的已认证用户的总数，记为第一统计量；

S14212：对已认证类别与已认证用户的标记文本相对应的对应次数，统计各相同的对应次数出现的数量，记为第二统计量；

S14213：对已认证类别与已认证用户的标记文本相对应的各对应次数，分别以第二统计量为被除数、以第一统计量为除数，计算得到已认证用户的标记文本与已认证类别相对应的条件下、各对应次数出现的条件概率，记为第二概率。

上述步骤S14211和步骤S14212的执行可以并行进行，也可以按任意顺序进行。

作为上述实施例的一个优选实施例，S143依据第一概率，确定未认证用户的身份类别，包括：

将未认证用户的标记文本相对应的类别中第一概率最高的预设个类别对应的类别确定为未认证用户的身份类别。

下面仍然以将上述实施例应用于对用户的社会身份分析为例。在进行上述第(1)～(6)步骤后，已得到用户A的特征向量V(A)，V(A)中第i个元素的V(A)[i]的数值表示用户A的标记文本与第i类社会身份相对应的对应次数，可简称为用户A被标记为第i类社会身份的次数。采用同样方法可得到其他各用户的特征向量，即得到各用户的标记文本与各类别相对应的对应次数。以下结合数据信息中包含认证信息的情况确定用户身份类别，包括：

(7)对于有认证信息的已认证用户而言，依据其认证信息已能准确确定该用户的身份类别，因此，将该已认证用户的已认证类别对应的类别，确定为该已认证用户的身份类别。例如，某用户上传了自己的国家二级厨师证，与厨师证对应的类别为饮食行业，因此，该用户的身份类别可确定为饮食行业。

(8)对于每一类经过认证的社会身份类别，用户的特征向量V中与该社会身份类别对应的元素的数值即为用户与该类社会身份对应的次数。执行步骤S142计算得到第一概率。以下结合一具体实施例说明计算过程。假设：

a)用户组包含用户A、B、C、D、E、F、G

b)社会身份关键词库中包含3类社会身份

c)用户A、B、C有认证信息，其认证信息与第2类社会身份相对应；特征向量分别为：V(A)＝[3,2,0]，V(B)＝[6,5,9]，V(C)＝[2,2,6]

d)用户D、E有认证信息，其认证信息与第3类社会身份相对应；特征向量分别为：V(D)＝[3,2,7]，V(E)＝[7,4,9]

e)用户F、G无认证信息，特征向量分别为：V(F)＝[4,5,7]，V(G)＝[2,2,9]

首先执行步骤S14211，计算第一统计量。针对以上举例，被认证为第2类社会身份的已认证用户(用户A、用户B、用户C)数量为3，被认证为第3类社会身份的已认证用户(用户D、用户E)数量为2，则第2类社会身份的第一统计量为3，第3类社会身份的第一统计量为2。

可同时执行步骤S14212，统计得到第二统计量。针对以上举例，对第2类和第3类两类已认证的社会身份类别，第2类社会身份被2个用户(用户A和用户C)标记了2次，则第2类社会身份被标记2次对应的第二统计量为2；第2类社会身份被1个用户(用户B)标记了5次，则第2类社会身份被标记5次对应的第二统计量为1；第3类社会身份被1个用户(用户D)标记了7次，则第3类社会身份被标记7次对应的第二统计量为1；第3类社会身份被1个用户(用户E)标记了9次，则第3类社会身份被标记9次对应的第二统计量为1。

在此基础上，执行S14213计算得到第二概率。针对以上举例，可以计算得到第2类社会身份被标记2次对应的第二概率为2/3，第2类社会身份被标记5次对应的第二概率为1/3，第3类社会身份被标记7次对应的第二概率为1/2，第3类社会身份被标记9次对应的第二概率为1/2。

然后执行S1422计算第三概率。针对以上举例，可以计算得到第2类社会身份被标记2次对应的第三概率为2/3，第2类社会身份被标记5次对应的第三概率为2/3+1/3，第3类社会身份被标记7次对应的第三概率为1/2，第3类社会身份被标记9次对应的第三概率为1/2+1/2。在实际实施本实施例时，用户被标记为某社会身份的次数越多，该用户的身份类别为该社会身份的可能性越大，概率值越趋近于1。

最后执行S1423确定第一概率，针对以上举例，则第2类社会身份被标记2次对应的第一概率为2/3，第2类社会身份被标记5次对应的第一概率为1，第3类社会身份被标记7次对应的第一概率为1/2，第3类社会身份被标记9次对应的第一概率为1。

(9)依据第(8)步计算得到第一概率，执行S143依据第一概率，确定未认证用户的身份类别。针对以上举例，未认证用户F的特征向量为V(F)＝[4,5,7]，其中，可以将第2类社会身份被标记5次对应的概率作为用户F对应到第2类社会身份的概率，即1；将第3类社会身份被标记7次对应的概率作为用户F对应到第3类社会身份的概率，即1/2。同理，未认证用户G的特征向量为V(G)＝[2,2,9]，其中，将第2类社会身份被标记2次对应的概率作为用户G对应到第2类社会身份的概率，即2/3；将第3类社会身份被标记9次对应的概率作为用户G对应到第3类社会身份的概率，即1。

作为本申请实施例的一优选实施例，参见图7所示，S143依据第一概率，确定未认证用户的身份类别，具体包括：

S1431：将未认证用户的标记文本相对应的类别中第一概率最高的预设个类别对应的类别确定为未认证用户的身份类别。

确定未认证用户的身份类别时，可以按照用户对应到的各社会身份的概率进行排序，依据概率最高的预设个社会身份确定用户身份类别。针对以上举例，未认证用户F对应到第2类社会身份的概率更高，因此，可确定用户F的社会身份为第2类；未认证用户G对应到第2类社会身份的概率更高，因此，可确定用户G的社会身份为第2类。

图4～图7给出的实施例的实施原理在于：

用户的特征向量，表示用户的标记文本与各类社会身份相对应的对应次数。一般情况下，标记文本可以覆盖绝大多数用户，因此其中就有部分用户同时包含认证信息，这些有认证信息的已认证用户，可依据其认证信息确定对应的社会身份类别。

对于每一类已认证的社会身份，可以通过已认证用户的特征向量，获取已认证用户与该社会身份类别相对应的特征向量值，即已认证用户被标注为该类社会身份的次数。统计所有该类社会身份被标注的次数，就可以得到每一个标注次数对应的概率分布，即：p(x|i)＝已认证的第i类社会身份被标注x次的用户数量/已认证为第i类社会身份的用户数量。p(x|i)即表示被认证为第i类社会身份的用户中，已认证的第i类社会身份被标注x次的用户所占的比例。

在计算出p(x|i)的基础上，根据第i类社会身份被标注为x次对应的概率，可以采用以下公式进一步计算出累计到x次的累积概率：

根据以上公式，可以计算出被标注为不同社会身份次数对应到是该类社会身份的概率，从而可以计算出所有用户对应到每一类社会身份的概率。在此基础上即可确定用户身份类别。

作为本申请实施例的一个优选实施例，参见图8所示，数据信息还包括用户的注册信息和业务信息；

在S142依据已认证用户的标记文本与已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率之后，还包括：

S144：将注册信息和业务信息分别进行分类；

S145：将包含同类注册信息和同类业务信息的未认证用户分入同一群组中；

S146：依据未认证用户的标记文本与各类别相对应的对应次数，将与对应次数相应的第一概率作为未认证用户的标记文本与各类别相对应的概率；

S147：依据分入同一群组的各未认证用户的标记文本与相同类别相对应的概率，按照预设计算规则计算得到该组用户与各类别相对应的概率，记为第四概率；

S148：依据第一概率和第四概率，确定未认证用户的身份类别。

上述实施例中，预设计算规则优选包括：将分入同一群组的各未认证用户的标记文本与相同类别相对应的概率进行数学平均计算或者加权平均计算。

下面仍然以将上述实施例应用于对用户的社会身份分析为例。在进行上述第(1)～(8)步骤后，计算出无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，即第一概率。

为了充分利用用户的注册信息以及用户在各业务场景中留下的碎片化业务信息，进一步扩充认证用户和根据标记文本找出的社会身份，可以根据在第(1)～(8)步骤后得到的第一概率，对注册信息和业务信息中包含的社会身份信息也进行一层概率推断。假设注册信息和业务信息包括用户是否有公司、在公司的职位信息(假设有10个不同的职位)、交易金额(假设考虑5种不同的交易金额级别)等，根据这些信息对用户进行分群，根据用户是否有公司可以把用户分成2类，根据用户的职位信息可以把用户分为10类，根据交易金额可以把用户分成5类，最终根据这三个大类别，可以把用户分成2*10*5＝100组。

在计算得到第一概率的基础上，已知被标注的用户属于每一类社会身份的概率，则对于上述100组用户中被标注的用户，可以得到每一组被标注用户属于每一类社会身份的平均概率，将该平均概率可以作为该组用户在每一类社会身份中的概率；平均概率可以采用将分入同一群组的各用户对应各类社会身份的概率进行数学平均计算或者加权平均计算得到。

在实际实施中，如果对于100组中的某些组中并没有用户被标注过，即无法通过上述步骤求取概率平均值，则使用某一个大类中被标注用户的平均概率作为该组用户的概率即可。

作为优选实施例，在计算得到第一概率和第四概率的基础上，S148依据第一概率和第四概率，确定未认证用户的身份类别，包括：

将与未认证用户的标记文本相对应的各类别所对应的第一概率和第四概率相比较，将概率最高的预设个类别对应的类别作为未认证用户的身份类别。

本申请还提供了一种确定用户身份类别的装置的实施例，参见图9，该装置包括：

接收模块11，接收用户的数据信息，数据信息包括用户的标记文本；

匹配模块12，将标记文本与关键词词库中的属性关键词进行匹配；其中，关键词词库中包括多个类别，类别中包括至少一个属性关键词；

统计模块13，统计标记文本与相匹配的属性关键词所对应的类别相对应的对应次数；

身份类别确定模块14，依据用户的标记文本与类别的对应次数，确定用户身份类别。

作为一优选实施例，参见图10所示，装置还包括：

分词模块15，对标记文本进行分词，将标记文本切分成至少一个切分词；且匹配模块12包括：

匹配组件121，将标记文本中的切分词分别与属性关键词进行匹配。

作为一优选实施例，参见图11所示，统计模块13包括：

判断组件131，判断切分词与属性关键词是否匹配；

计数组件132，在切分词与属性关键词匹配时，将属性关键词所对应的类别与包含切分词的标记文本相对应的对应次数增加一个步长单位或者计为一个步长单位；

累加组件133，将相同的类别与用户的各标记文本相对应的对应次数进行累加，确定用户的标记文本与各类别相对应的对应次数。

作为上述装置的又一优选实施例，上述数据信息还包括用户的认证信息；并且，参见图12所示，身份类别确定模块14包括：

认证类别确定组件141，对于有认证信息的已认证用户，将与该用户的认证信息一致的类别作为已认证类别；将已认证类别对应的类别，确定为有认证信息的已认证用户的身份类别；

第一概率计算组件142，依据已认证用户的标记文本与已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，记为第一概率；

第一未认证用户身份类别确定组件143，依据第一概率，确定未认证用户的身份类别。

上述装置的又一优选实施例在于，参见图13所示，第一概率计算组件142包括：

第二概率计算组件1421，对已认证类别，计算已认证用户的标记文本与已认证类别相对应的条件下，各对应次数出现的条件概率，记为第二概率；

第三概率计算单元1422，对已认证用户的标记文本与已认证类别相对应的对应次数，将不大于对应次数本数的各对应次数对应的第二概率进行累加，记为第三概率；

第一概率确定单元1423，依据第三概率，确定第一概率；第一概率与第三概率在类别和对应次数上一一对应。

上述装置的又一优选实施例在于，参见图14所示，第二概率计算组件1421包括：

第一统计量计算单元14211，对已认证类别，统计与已认证类别相对应的已认证用户的总数，记为第一统计量；

第二统计量计算单元14212，对已认证类别与已认证用户的标记文本相对应的对应次数，统计各相同的对应次数出现的数量，记为第二统计量；

第二概率计算单元14213，对已认证类别与已认证用户的标记文本相对应的各对应次数，分别以第二统计量为被除数、以第一统计量为除数，计算得到已认证用户的标记文本与已认证类别相对应的条件下、各对应次数出现的条件概率，记为第二概率。

作为上述装置的又一优选实施例，数据信息还包括用户的注册信息和业务信息；并且，参见图15所示，身份类别确定模块14还包括：

信息分类组件144，将注册信息和业务信息分别进行分类；

未认证用户分组组件145，将包含同类注册信息和同类业务信息的未认证用户分入同一群组中；

概率对应组件146，依据未认证用户的标记文本与各类别相对应的对应次数，将与对应次数相应的第一概率作为未认证用户的标记文本与各类别相对应的概率；

第四概率计算组件147，依据分入同一群组的各未认证用户的标记文本与相同类别相对应的概率，按照预设计算规则计算得到该组用户与各类别相对应的概率，记为第四概率；

第二未认证用户身份类别确定组件148，依据第一概率和第四概率，确定未认证用户的身份类别。

所述装置与前述的方法流程描述对应，不足之处参考上述方法流程的叙述，不再一一赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种确定用户身份类别的方法，其特征在于，所述方法包括：

接收用户的数据信息，所述数据信息包括多个含有用户身份信息的标记文本，所述数据信息还包括用户的认证信息；

依据用户的所述标记文本与所述类别的对应次数，确定用户身份类别；

其中，依据用户的所述标记文本与所述类别的对应次数，确定用户身份类别，包括：对于有认证信息的已认证用户，将与该用户的认证信息一致的类别作为已认证类别；将所述已认证类别对应的类别，确定为有认证信息的已认证用户的身份类别；依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，记为第一概率；依据所述第一概率，确定所述未认证用户的身份类别。

2.按照权利要求1所述方法，其特征在于，在接收用户的数据信息之后，在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前，还包括：

对所述标记文本进行分词，将所述标记文本切分成至少一个切分词；

3.按照权利要求2所述方法，其特征在于，统计所述标记文本与类别相对应的对应次数，包括：

4.按照权利要求1所述方法，其特征在于，依据所述已认证用户的标记文本与所述已认证类别相对应的对应次数，计算无认证信息的未认证用户的标记文本与各类别相对应的各对应次数的分布概率，包括：

5.按照权利要求4所述方法，其特征在于，对所述已认证类别，计算已认证用户的标记文本与所述已认证类别相对应的条件下，各对应次数出现的条件概率，包括：

6.按照权利要求1所述方法，其特征在于，依据所述第一概率，确定所述未认证用户的身份类别，包括：

7.按照权利要求1所述方法，其特征在于，

所述数据信息还包括用户的注册信息和业务信息；

将所述注册信息和所述业务信息分别进行分类；

8.按照权利要求7所述方法，其特征在于，所述预设计算规则包括：

9.按照权利要求7所述方法，其特征在于，依据所述第一概率和所述第四概率，确定所述未认证用户的身份类别，包括：

10.按照权利要求1～9之任一所述方法，其特征在于，所述标记文本包括用户的通讯录信息和/或用户被其他用户标注的备注信息。

11.按照权利要求1～9之任一所述方法，其特征在于，在接收用户的数据信息之后，在将多个所述标记文本与关键词词库中的属性关键词进行匹配之前，还包括：

对所述标记文本进行预处理。

12.按照权利要求11所述方法，其特征在于，所述预处理包括以下处理方式中的一种或多种的组合：

13.按照权利要求12所述方法，其特征在于，所述处理方式还包括：

对所述标记文本中的同义词进行同义词替换。

14.一种确定用户身份类别的装置，其特征在于，所述装置包括：

接收模块，接收用户的数据信息，所述数据信息包括多个含有用户身份信息的标记文本，所述数据信息还包括用户的认证信息；

身份类别确定模块，依据用户的所述标记文本与所述类别的对应次数，确定用户身份类别；

其中，所述身份类别确定模块包括：

15.按照权利要求14所述装置，其特征在于，所述装置还包括：

所述匹配模块包括：

16.按照权利要求15所述装置，其特征在于，所述统计模块包括：

判断组件，判断所述切分词与所述属性关键词是否匹配；

17.按照权利要求14所述装置，其特征在于，所述第一概率计算组件包括：

18.按照权利要求17所述装置，其特征在于，所述第二概率计算组件包括：

19.按照权利要求14所述装置，其特征在于，

所述数据信息还包括用户的注册信息和业务信息；

所述身份类别确定模块还包括：