CN110826605A

CN110826605A - 一种跨平台识别用户的方法及装置

Info

Publication number: CN110826605A
Application number: CN201911017272.1A
Authority: CN
Inventors: 安达; 江金陵
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-21

Abstract

本文公开了一种跨平台识别用户的方法及装置。所述跨平台识别用户的方法包括：基于用户资料将用户身份信息相似的多个平台的用户进行聚类，生成多个用户块；对用户块内的用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征；将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征；根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。本文的技术方案能够快速实现跨平台识别用户，算法简单，识别效率高。

Description

一种跨平台识别用户的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及的是一种跨平台识别用户的方法及装置。

背景技术

同一用户可能在不同的平台(比如，社交平台、购物平台、视频网站等)同时拥有账号，识别和匹配出这些账号后可以进行好友推荐、产品推广等。

在跨平台进行用户识别和匹配时，可以基于社交网络的关系网络结构(比如好友关系，关注与被关注等)进行图计算。但是，社交网络的关系计算非常复杂，随着关系网层数的增加，计算量呈几何级数增加。另一方面，同一用户不同平台的好友关系可能并不稳定，比如，用户在A平台和B平台的好友可能并不是同一批人。

发明内容

本文提供一种跨平台识别用户的方法及装置，能够快速实现跨平台识别用户，算法简单，识别效率高。

根据本申请的第一方面，本发明实施例提供一种跨平台识别用户的方法，包括：

基于用户资料将用户身份信息相似的多个平台的用户进行聚类，生成多个用户块；

对用户块内的用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征；

将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征；

根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。

根据本申请的第二方面，本发明实施例提供一种跨平台识别用户的装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨平台识别用户的程序，所述跨平台识别用户的程序被所述处理器执行时实现上述跨平台识别用户的方法的步骤。

根据本申请的第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有跨平台识别用户的程序，所述跨平台识别用户的程序被处理器执行时实现上述跨平台识别用户的方法的步骤。

与相关技术相比，本发明实施例提供的一种跨平台识别用户的方法及装置，基于用户资料将用户身份信息相似的多个平台的用户进行聚类，生成多个用户块，上述分块处理能够缩小数据的匹配范围。对用户块内的用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征，将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征，根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。上述匹配算法在块内进行数据匹配，而块间无需做任何匹配，因此匹配范围大大缩小。并且通过将用户在平台上发表的内容作为一个整体进行特征提取，特征提取的范围更全面，从而提高了文本匹配的精确度。本发明实施例的技术方案能够快速实现跨平台识别用户，算法简单，识别效率高。上述实施例提出的跨平台识别用户的方法在好友推荐、产品推广方面具有很高的实用价值。

附图说明

图1为本发明实施例1的一种跨平台识别用户的方法的流程图；

图2为本发明实施例1中的一种Canopy聚类算法的流程图；

图3为本发明实施例1中的一种Canopy聚类算法的数据分布示意图；

图4为本发明实施例2的一种跨平台用户融合的装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例1

如图1所示，本发明实施例提供了一种跨平台识别用户的方法，包括：

步骤S110，基于用户资料将用户身份信息相似的多个平台的用户进行聚类，生成多个用户块；

步骤S120，对用户块内的用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征；

步骤S130，将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征；

步骤S140，根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户；

在上述实施方式中，首先基于用户资料对海量的平台用户进行分块处理，缩小匹配范围。然后在每一个用户块内，对用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征，将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征，根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。上述跨平台识别用户的方法能够快速实现跨平台识别用户，算法简单，识别效率高。上述跨平台识别用户的实施方式在好友推荐、产品推广方面具有很高的实用价值。

在一种实施方式中，所述用户资料至少包括以下用户身份信息：用户名；

所述用户资料还可以包括以下用户身份信息的至少一种：真实姓名，电话，家庭住址，性别，年龄，注册地，签名，头像；

其中，用户资料包含的用户身份信息越详细，数据分块时的匹配准确度越高，但数据分块时算法的运算时间也会相应有所增加。具体实施时可以根据实际需求确定用户资料中包含的用户信息项。

在一种实施方式中，在基于用户资料将用户身份信息相似的多个平台的用户进行聚类前，所述方法还包括：

对用户的身份信息进行数据预处理；

其中，所述数据预处理包括以下处理的至少一种：数据归一化处理、语法正规化处理、数据正规化处理。

其中，数据归一化处理比如：将数据映射到一个指定的范围内。语法正规化处理比如：将联系电话、家庭地址等信息的表示方式进行统一。数据正规化处理比如：移除空格、“-”等符号，用全称替换缩写等。数据归一化处理比如，对性别进行归一化，男性为0，女性为1，性别未知时采用0.5。再比如，对年龄进行归一化，归一化后的年龄x^*可以表示为x^*＝(x-x_min)/(x_max-x_min)，其中，x表示实际年龄，x_min是数据集中的最小年龄，x_max是数据集中的最大年龄。不同的数据集对同一实体的描述方式往往是不相同的，对数据进行预处理有利于加快匹配速度，提高匹配精度。

在一种实施方式中，所述基于用户资料将用户身份信息相似的多个平台的用户进行聚类，生成多个用户块，包括：

基于用户资料生成每一个用户的身份特征向量，所述身份特征向量包括N维身份特征信息；N≥1；

采用Canopy聚类算法对身份特征相似的用户进行聚类，根据聚类结果生成多个用户块；

所述身份特征信息至少包括以下信息：用户名；

所述身份特征信息还可以包括以下信息的至少一种：真实姓名，电话，家庭住址，性别，年龄，注册地，签名，头像；

比如，A用户的身份特征向量为(x1,x2,...,xn)，B用户的身份特征向量为(y1,y2,...,yn)。A用户的身份特征向量与B用户的身份特征向量之间的距离可以采用两个向量的余弦距离。计算两个向量的距离还可以采用其他的算法，此处不再进行赘述。

如图2所示，一种Canopy聚类算法的过程可以简单描述如下，包括：

步骤S101，根据用户资料由所有的用户生成列表(list)，列表中的每一个用户是N维特征向量(x_i1,x_i2,...,x_iN)；1≤i≤S，S是所有平台的用户的总数；

步骤S102，设置两个距离阈值T1和T2，且T1大于T2；

步骤S103，随机选取列表(list)中的一个用户作为当前Canopy的中心，将所述用户从列表中移除；

步骤S104，计算列表中所有用户到当前Canopy的中心的距离；

步骤S105，将所有距离小于T1的用户都归类到当前Canopy中，将所有距离小于T2的用户都从列表中移除；

步骤S106，判断所述列表是否为空，是则结束，否则返回步骤S103。

Canopy聚类结束后，将形成多个Canopy。如图3所示，Canopy1是以用户P(随机选取)为中心聚类后形成的第一个Canopy，Canopy2是以用户Q(随机选取)为中心聚类后形成的第二个Canopy，其他Canopy是以其他用户为中心聚类后形成的其他Canopy。在每一个Canopy中，用户到Canopy中心的距离均小于T1。

分块(Blocking)是从给定的知识库中的所有记录中，选出潜在匹配的记录对作为候选项，并将候选项的大小尽可能地缩小。在其他的实施方式中，所述聚类算法还可以采用K-means算法，高斯混合模型(GMM)聚类算法等。

在一种实施方式中，所述对用户块内的用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征，包括：

对用户块内的任意一个用户，由所述用户在平台上发表的多条文字记录生成所述用户的文本库；

对所述用户的文本库进行分词，计算所述文本库中的各个分词的词频-逆向文件频率(Term Frequency–Inverse Document Frequency，简称TF-IDF)值；根据分词的TF-IDF值确定所述分词的类别区分能力权重；

对各个分词按照类别区分能力权重从高到低进行排序，由类别区分能力权重排名靠前的多个分词生成所述用户发表内容的文本特征向量；

其中，TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(textmining)的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF实际上是TF与IDF的乘积。TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

其中，可以直接将分词的类别区分能力权重设置为所述分词的TF-IDF值，也可以将分词的类别区分能力权重设置为所述分词的TF-IDF值乘以一个调节系数(常数)后的数值。

在一种实施方式中，所述将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征，包括：

通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理，生成M维数字特征向量；其中，所述M维数字特征向量包括M个数字特征，每一个数字特征是一个数字序列；

为所述M维数字特征向量中的每一个数字特征分配权重，利用分配的权重对所述M维数字特征向量中的每一个数字特征分别进行加权处理得到M维加权数字特征向量；其中，所述数字特征的权重设置为所述数字特征在文本数字化处理时对应的原始分词的类别区分能力权重；

将所述M维加权数字特征向量中所有的加权数字特征合并为一个新的数字序列，所述新的数字序列作为用户发表内容的数字化签名；

在上述生成用户发表内容的数字化签名的过程中，通过哈希运算实现文本数字化，通过加权处理能够将分词在文本中的权重体现在数字化后的特征向量中，使得特征向量更准确地体现文本的特征。通过特征合并过程能够实现M维特征向量的降维，从而加快后续匹配的速度。

在一种实施方式中，所述文本数字化函数包括：哈希函数(Hash)。所述通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理，包括：通过哈希函数计算M维文本特征向量中的每一个文本特征的哈希值。

在其他的实施方式中，所述文本数字化函数也可以是其他的函数，只要通过函数运算能够将文本映射为唯一的数字序列即可，本申请并不限定函数的具体形式。

其中，M维文本特征向量包括M个文本特征，每一个文本特征是一个分词(word)。比如，文本特征向量中的一个文本特征为“今天”，“今天”的哈希值为“100101”。文本特征向量中的另一特征为“天气”，“天气”的哈希值为“101011”。

在一种实施方式中，所述利用分配的权重对所述M维数字特征向量中的任意一个数字特征进行加权处理，包括：

利用分配的权重对所述数字特征对应的数字序列的每一个比特进行加权处理：当所述比特的数值为1时，将所述比特的数值修改为所述权重，当所述比特的数值为0时，将所述比特的数值修改为所述权重乘以负1；其中，所述数字特征为n比特的二进制序列；

例如给“今天”的哈希值“100101”分配权重“4”，加权后的“今天”为“4 -4 -4 4 -44”。

再例如给“天气”的哈希值“101011”分配权重“5”，加权后的“天气”为“5 -5 5 -55 5”。

在一种实施方式中，所述将所述M维加权数字特征向量中所有的加权数字特征合并为一个数字序列，包括：

将所述M维加权数字特征向量中每一个加权数字特征对应的数字序列划分为n个数字子序列，每一个数字子序列对应于所述加权数字特征加权前的二进制数字序列的1个比特；

将所有的加权数字特征的数字子序列对应相加生成n个累加和，将所述n个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列；

其中，所述M维加权数字特征向量中任意两个加权数字特征的合并，可以按照下述的方法：假设第一个加权数字特征是“4 -4 -4 4-4 4”(对应于“今天”的加权数字特征)，第二个加权数字特征是“5 -5 5 -5 5 5”(对应于“天气”的加权数字特征)。将第一个加权数字特征划分为6个数字子序列：4 -4 -4 4 -4 4，将第二个加权数字特征划分为6个数字子序列：5 -5 5 -5 5 5。将两个加权数字特征的6个数字子序列分别对应相加：“4+5”，“-4+-5”，“-4+5”，“4+-5”，“-4+5”，“4+5”，得到6个累加和：“9”，“-9”，“1”，“-1”，“1”和“9”。将6个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列为“9 -9 1 -1 1 9”。M个加权数字特征向量的合并与两个加权数字特征向量的合并方法是一样的。M个加权数字特征向量合并后生成的新的数字序列(用户发表内容的数字化签名)包括n个子序列，每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。比如，M个加权数字特征向量合并后生成的新的数字序列(用户发表内容的数字化签名)可以是：“13 108 -22 -5 -32 55”。其中，空格是为了清楚地显示新的数字序列所包含的6个数字子序列，空格不是数字序列的组成部分。

在一种实施方式中，根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户，包括：

对同一个用户块内的任意两个用户，计算所述两个用户发表内容的数字化签名之间的相似度，将相似度满足预设要求的两个用户识别为同一个人注册的不同用户；

在一种实施方式中，所述根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户，包括：

对同一个用户块内的任意两个用户，由每一个用户发表内容的数字化签名生成一个n维特征向量，所述n维特征向量中的每一个特征对应于数字化签名的一个子序列；计算两个用户的n维特征向量的余弦相似度，当所述余弦相似度大于阈值时，判定所述两个用户归属于同一个人；

其中，所述数字化签名包括n个子序列，每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。

对同一个用户块内的任意两个用户，将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理，生成一个新的n比特二进制序列作为所述用户发表内容的二进制数字化签名；计算两个用户的发表内容的二进制数字化签名之间的海明距离，当所述海明距离小于阈值时，判定所述两个用户归属于同一个人；

在一种实施方式中，所述将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理，包括：

对用户发表内容的数字化签名包含的任意一个子序列进行如下处理：当所述子序列代表的数值大于0时，将所述子序列修改为“1”，当所述子序列代表的数值小于或等于0时，将所述子序列修改为“0”。

例如，假设用户发表内容的数字化签名为“13 108 -22 -5 -32 55”，则对所述数字序列进行二值化处理后得到的新的二进制序列为“1 1 0 0 0 1”。其中，空格是为了清楚地显示新的数字序列所包含的6个数字子序列，空格不是数字序列的组成部分。

其中，计算两个用户的发表内容的二进制数字化签名之间的海明距离，包括：

对两个用户的发表内容的二进制数字化签名进行按位异或运算，统计经过异或运算后生成的1的个数，所述统计得到的1的个数为两个用户的发表内容的二进制数字化签名之间的海明距离。

其中，海明距离的求法是：异或时，只有在两个比较的位不同时其结果为1，否则结果为0；两个二进制序列“异或”后得到1的个数即为海明距离的大小。例如，假设两个二进制数字化签名分别是“1 0 1 0 1 1”和“1 0 1 0 0 0”，两个签名经过异或运算后得到的海明距离为2。

根据实验经验，当两个64位的二进制数字化签名之间的海明距离小于或等于3时，判定两个二进制数字化签名之间的相似度比较高。

实施例2

如图4所示，本发明实施例提供了一种跨平台识别用户的装置，包括：

分块模块201，用于基于用户资料将用户身份信息相似的多个平台的用户进行聚类，生成多个用户块；

特征提取模块202，用于对用户块内的用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征；

特征数字化模块203，用于将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征；

匹配模块204，用于根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。

在一种实施方式中，所述分块模块，用于采用以下方式基于用户资料将用户身份信息相似的多个平台的用户进行聚类，生成多个用户块：基于用户资料生成每一个用户的身份特征向量，所述身份特征向量包括N维身份特征信息；N≥1；采用Canopy聚类算法对身份特征相似的用户进行聚类，根据聚类结果生成多个用户块。

在一种实施方式中，特征提取模块，用于采用以下方式对用户块内的用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征：对用户块内的任意一个用户，由所述用户在平台上发表的多条文字记录生成所述用户的文本库；对所述用户的文本库进行分词，计算所述文本库中的各个分词的词频-逆向文件频率TF-IDF值；根据分词的TF-IDF值确定所述分词的类别区分能力权重；对各个分词按照类别区分能力权重从高到低进行排序，由类别区分能力权重排名靠前的多个分词生成所述用户发表内容的文本特征向量。

在一种实施方式中，特征数字化模块，用于采用以下方式将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征：

将所述M维加权数字特征向量中所有的加权数字特征合并为一个新的数字序列，所述新的数字序列作为用户发表内容的数字化签名。

在一种实施方式中，特征数字化模块，用于采用以下方式将所述M维加权数字特征向量中所有的加权数字特征合并为一个数字序列：将所述M维加权数字特征向量中每一个加权数字特征对应的数字序列划分为n个数字子序列，每一个数字子序列对应于所述加权数字特征加权前的二进制数字序列的1个比特；将所有的加权数字特征的数字子序列对应相加生成n个累加和，将所述n个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列；

在一种实施方式中，匹配模块，用于采用以下方式根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户：对同一个用户块内的任意两个用户，由每一个用户发表内容的数字化签名生成一个n维特征向量，所述n维特征向量中的每一个特征对应于数字化签名的一个子序列；计算两个用户的n维特征向量的余弦相似度，当所述余弦相似度大于阈值时，判定所述两个用户归属于同一个人；其中，所述数字化签名包括n个子序列，每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。

在一种实施方式中，匹配模块，用于采用以下方式根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户：对同一个用户块内的任意两个用户，将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理，生成一个新的n比特二进制序列作为所述用户发表内容的二进制数字化签名；计算两个用户的发表内容的二进制数字化签名之间的海明距离，当所述海明距离小于阈值时，判定所述两个用户归属于同一个人；其中，所述数字化签名包括n个子序列，每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。

在一种实施方式中，特征数字化模块，用于采用以下方式利用分配的权重对所述M维数字特征向量中的任意一个数字特征进行加权处理：利用分配的权重对所述数字特征对应的数字序列的每一个比特进行加权处理：当所述比特的数值为1时，将所述比特的数值修改为所述权重，当所述比特的数值为0时，将所述比特的数值修改为所述权重乘以负1；其中，所述数字特征为n比特的二进制序列。

在一种实施方式中，特征数字化模块，用于采用以下方式将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理：对用户发表内容的数字化签名包含的任意一个子序列进行如下处理：当所述子序列代表的数值大于0时，将所述子序列修改为“1”，当所述子序列代表的数值小于或等于0时，将所述子序列修改为“0”。

在一种实施方式中，特征数字化模块，用于采用以下方式通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理：通过哈希函数计算M维文本特征向量中的每一个文本特征的哈希值。

实施例3

本发明实施例提供了一种跨平台识别用户的装置，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨平台识别用户的程序，所述跨平台识别用户的程序被所述处理器执行时实现上述实施例1中的跨平台识别用户的方法的步骤。

实施例4

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有跨平台识别用户的程序，所述跨平台识别用户的程序被处理器执行时实现上述实施例1中的跨平台识别用户的方法的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

需要说明的是，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种跨平台识别用户的方法，包括：

2.如权利要求1所述的方法，其特征在于：

所述基于用户资料将用户身份信息相似的多个平台的用户进行聚类，生成多个用户块，包括：

采用Canopy聚类算法对身份特征相似的用户进行聚类，根据聚类结果生成多个用户块。

3.如权利要求1所述的方法，其特征在于：

所述对用户块内的用户在平台上发表的内容进行分析和特征提取，获得用户发表内容的文本特征，包括：

对所述用户的文本库进行分词，计算所述文本库中的各个分词的词频-逆向文件频率TF-IDF值；根据分词的TF-IDF值确定所述分词的类别区分能力权重；

对各个分词按照类别区分能力权重从高到低进行排序，由类别区分能力权重排名靠前的多个分词生成所述用户发表内容的文本特征向量。

4.如权利要求3所述的方法，其特征在于：

所述将用户发表内容的文本特征进行文本数字化处理，得到用户发表内容的数字化特征，包括：

5.如权利要求4所述的方法，其特征在于：

所述将所述M维加权数字特征向量中所有的加权数字特征合并为一个数字序列，包括：

将所有的加权数字特征的数字子序列对应相加生成n个累加和，将所述n个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列。

6.如权利要求5所述的方法，其特征在于：

所述根据用户发表内容的数字化特征对用户块内的用户进行匹配，将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户，包括：

7.如权利要求5所述的方法，其特征在于：

8.如权利要求4所述的方法，其特征在于：

所述利用分配的权重对所述M维数字特征向量中的任意一个数字特征进行加权处理，包括：

利用分配的权重对所述数字特征对应的数字序列的每一个比特进行加权处理：当所述比特的数值为1时，将所述比特的数值修改为所述权重，当所述比特的数值为0时，将所述比特的数值修改为所述权重乘以负1；其中，所述数字特征为n比特的二进制序列。

9.一种跨平台识别用户的装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨平台识别用户的程序，所述跨平台识别用户的程序被所述处理器执行时实现上述权利要求1-8中任一项所述的跨平台识别用户的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有跨平台识别用户的程序，所述跨平台识别用户的程序被处理器执行时实现上述权利要求1-8中任一项所述的跨平台识别用户的方法的步骤。