CN110826605A - 一种跨平台识别用户的方法及装置 - Google Patents
一种跨平台识别用户的方法及装置 Download PDFInfo
- Publication number
- CN110826605A CN110826605A CN201911017272.1A CN201911017272A CN110826605A CN 110826605 A CN110826605 A CN 110826605A CN 201911017272 A CN201911017272 A CN 201911017272A CN 110826605 A CN110826605 A CN 110826605A
- Authority
- CN
- China
- Prior art keywords
- user
- digital
- users
- published
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文公开了一种跨平台识别用户的方法及装置。所述跨平台识别用户的方法包括:基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块;对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征;将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征;根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。本文的技术方案能够快速实现跨平台识别用户,算法简单,识别效率高。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及的是一种跨平台识别用户的方法及装置。
背景技术
同一用户可能在不同的平台(比如,社交平台、购物平台、视频网站等)同时拥有账号,识别和匹配出这些账号后可以进行好友推荐、产品推广等。
在跨平台进行用户识别和匹配时,可以基于社交网络的关系网络结构(比如好友关系,关注与被关注等)进行图计算。但是,社交网络的关系计算非常复杂,随着关系网层数的增加,计算量呈几何级数增加。另一方面,同一用户不同平台的好友关系可能并不稳定,比如,用户在A平台和B平台的好友可能并不是同一批人。
发明内容
本文提供一种跨平台识别用户的方法及装置,能够快速实现跨平台识别用户,算法简单,识别效率高。
根据本申请的第一方面,本发明实施例提供一种跨平台识别用户的方法,包括:
基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块;
对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征;
将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征;
根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。
根据本申请的第二方面,本发明实施例提供一种跨平台识别用户的装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨平台识别用户的程序,所述跨平台识别用户的程序被所述处理器执行时实现上述跨平台识别用户的方法的步骤。
根据本申请的第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有跨平台识别用户的程序,所述跨平台识别用户的程序被处理器执行时实现上述跨平台识别用户的方法的步骤。
与相关技术相比,本发明实施例提供的一种跨平台识别用户的方法及装置,基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块,上述分块处理能够缩小数据的匹配范围。对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征,将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征,根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。上述匹配算法在块内进行数据匹配,而块间无需做任何匹配,因此匹配范围大大缩小。并且通过将用户在平台上发表的内容作为一个整体进行特征提取,特征提取的范围更全面,从而提高了文本匹配的精确度。本发明实施例的技术方案能够快速实现跨平台识别用户,算法简单,识别效率高。上述实施例提出的跨平台识别用户的方法在好友推荐、产品推广方面具有很高的实用价值。
附图说明
图1为本发明实施例1的一种跨平台识别用户的方法的流程图;
图2为本发明实施例1中的一种Canopy聚类算法的流程图;
图3为本发明实施例1中的一种Canopy聚类算法的数据分布示意图;
图4为本发明实施例2的一种跨平台用户融合的装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例1
如图1所示,本发明实施例提供了一种跨平台识别用户的方法,包括:
步骤S110,基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块;
步骤S120,对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征;
步骤S130,将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征;
步骤S140,根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户;
在上述实施方式中,首先基于用户资料对海量的平台用户进行分块处理,缩小匹配范围。然后在每一个用户块内,对用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征,将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征,根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。上述跨平台识别用户的方法能够快速实现跨平台识别用户,算法简单,识别效率高。上述跨平台识别用户的实施方式在好友推荐、产品推广方面具有很高的实用价值。
在一种实施方式中,所述用户资料至少包括以下用户身份信息:用户名;
所述用户资料还可以包括以下用户身份信息的至少一种:真实姓名,电话,家庭住址,性别,年龄,注册地,签名,头像;
其中,用户资料包含的用户身份信息越详细,数据分块时的匹配准确度越高,但数据分块时算法的运算时间也会相应有所增加。具体实施时可以根据实际需求确定用户资料中包含的用户信息项。
在一种实施方式中,在基于用户资料将用户身份信息相似的多个平台的用户进行聚类前,所述方法还包括:
对用户的身份信息进行数据预处理;
其中,所述数据预处理包括以下处理的至少一种:数据归一化处理、语法正规化处理、数据正规化处理。
其中,数据归一化处理比如:将数据映射到一个指定的范围内。语法正规化处理比如:将联系电话、家庭地址等信息的表示方式进行统一。数据正规化处理比如:移除空格、“-”等符号,用全称替换缩写等。数据归一化处理比如,对性别进行归一化,男性为0,女性为1,性别未知时采用0.5。再比如,对年龄进行归一化,归一化后的年龄x*可以表示为x*=(x-xmin)/(xmax-xmin),其中,x表示实际年龄,xmin是数据集中的最小年龄,xmax是数据集中的最大年龄。不同的数据集对同一实体的描述方式往往是不相同的,对数据进行预处理有利于加快匹配速度,提高匹配精度。
在一种实施方式中,所述基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块,包括:
基于用户资料生成每一个用户的身份特征向量,所述身份特征向量包括N维身份特征信息;N≥1;
采用Canopy聚类算法对身份特征相似的用户进行聚类,根据聚类结果生成多个用户块;
所述身份特征信息至少包括以下信息:用户名;
所述身份特征信息还可以包括以下信息的至少一种:真实姓名,电话,家庭住址,性别,年龄,注册地,签名,头像;
比如,A用户的身份特征向量为(x1,x2,...,xn),B用户的身份特征向量为(y1,y2,...,yn)。A用户的身份特征向量与B用户的身份特征向量之间的距离可以采用两个向量的余弦距离。计算两个向量的距离还可以采用其他的算法,此处不再进行赘述。
如图2所示,一种Canopy聚类算法的过程可以简单描述如下,包括:
步骤S101,根据用户资料由所有的用户生成列表(list),列表中的每一个用户是N维特征向量(xi1,xi2,...,xiN);1≤i≤S,S是所有平台的用户的总数;
步骤S102,设置两个距离阈值T1和T2,且T1大于T2;
步骤S103,随机选取列表(list)中的一个用户作为当前Canopy的中心,将所述用户从列表中移除;
步骤S104,计算列表中所有用户到当前Canopy的中心的距离;
步骤S105,将所有距离小于T1的用户都归类到当前Canopy中,将所有距离小于T2的用户都从列表中移除;
步骤S106,判断所述列表是否为空,是则结束,否则返回步骤S103。
Canopy聚类结束后,将形成多个Canopy。如图3所示,Canopy1是以用户P(随机选取)为中心聚类后形成的第一个Canopy,Canopy2是以用户Q(随机选取)为中心聚类后形成的第二个Canopy,其他Canopy是以其他用户为中心聚类后形成的其他Canopy。在每一个Canopy中,用户到Canopy中心的距离均小于T1。
分块(Blocking)是从给定的知识库中的所有记录中,选出潜在匹配的记录对作为候选项,并将候选项的大小尽可能地缩小。在其他的实施方式中,所述聚类算法还可以采用K-means算法,高斯混合模型(GMM)聚类算法等。
在一种实施方式中,所述对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征,包括:
对用户块内的任意一个用户,由所述用户在平台上发表的多条文字记录生成所述用户的文本库;
对所述用户的文本库进行分词,计算所述文本库中的各个分词的词频-逆向文件频率(Term Frequency–Inverse Document Frequency,简称TF-IDF)值;根据分词的TF-IDF值确定所述分词的类别区分能力权重;
对各个分词按照类别区分能力权重从高到低进行排序,由类别区分能力权重排名靠前的多个分词生成所述用户发表内容的文本特征向量;
其中,TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(textmining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF实际上是TF与IDF的乘积。TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
其中,可以直接将分词的类别区分能力权重设置为所述分词的TF-IDF值,也可以将分词的类别区分能力权重设置为所述分词的TF-IDF值乘以一个调节系数(常数)后的数值。
在一种实施方式中,所述将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征,包括:
通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理,生成M维数字特征向量;其中,所述M维数字特征向量包括M个数字特征,每一个数字特征是一个数字序列;
为所述M维数字特征向量中的每一个数字特征分配权重,利用分配的权重对所述M维数字特征向量中的每一个数字特征分别进行加权处理得到M维加权数字特征向量;其中,所述数字特征的权重设置为所述数字特征在文本数字化处理时对应的原始分词的类别区分能力权重;
将所述M维加权数字特征向量中所有的加权数字特征合并为一个新的数字序列,所述新的数字序列作为用户发表内容的数字化签名;
在上述生成用户发表内容的数字化签名的过程中,通过哈希运算实现文本数字化,通过加权处理能够将分词在文本中的权重体现在数字化后的特征向量中,使得特征向量更准确地体现文本的特征。通过特征合并过程能够实现M维特征向量的降维,从而加快后续匹配的速度。
在一种实施方式中,所述文本数字化函数包括:哈希函数(Hash)。所述通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理,包括:通过哈希函数计算M维文本特征向量中的每一个文本特征的哈希值。
在其他的实施方式中,所述文本数字化函数也可以是其他的函数,只要通过函数运算能够将文本映射为唯一的数字序列即可,本申请并不限定函数的具体形式。
其中,M维文本特征向量包括M个文本特征,每一个文本特征是一个分词(word)。比如,文本特征向量中的一个文本特征为“今天”,“今天”的哈希值为“100101”。文本特征向量中的另一特征为“天气”,“天气”的哈希值为“101011”。
在一种实施方式中,所述利用分配的权重对所述M维数字特征向量中的任意一个数字特征进行加权处理,包括:
利用分配的权重对所述数字特征对应的数字序列的每一个比特进行加权处理:当所述比特的数值为1时,将所述比特的数值修改为所述权重,当所述比特的数值为0时,将所述比特的数值修改为所述权重乘以负1;其中,所述数字特征为n比特的二进制序列;
例如给“今天”的哈希值“100101”分配权重“4”,加权后的“今天”为“4 -4 -4 4 -44”。
再例如给“天气”的哈希值“101011”分配权重“5”,加权后的“天气”为“5 -5 5 -55 5”。
在一种实施方式中,所述将所述M维加权数字特征向量中所有的加权数字特征合并为一个数字序列,包括:
将所述M维加权数字特征向量中每一个加权数字特征对应的数字序列划分为n个数字子序列,每一个数字子序列对应于所述加权数字特征加权前的二进制数字序列的1个比特;
将所有的加权数字特征的数字子序列对应相加生成n个累加和,将所述n个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列;
其中,所述M维加权数字特征向量中任意两个加权数字特征的合并,可以按照下述的方法:假设第一个加权数字特征是“4 -4 -4 4-4 4”(对应于“今天”的加权数字特征),第二个加权数字特征是“5 -5 5 -5 5 5”(对应于“天气”的加权数字特征)。将第一个加权数字特征划分为6个数字子序列:4 -4 -4 4 -4 4,将第二个加权数字特征划分为6个数字子序列:5 -5 5 -5 5 5。将两个加权数字特征的6个数字子序列分别对应相加:“4+5”,“-4+-5”,“-4+5”,“4+-5”,“-4+5”,“4+5”,得到6个累加和:“9”,“-9”,“1”,“-1”,“1”和“9”。将6个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列为“9 -9 1 -1 1 9”。M个加权数字特征向量的合并与两个加权数字特征向量的合并方法是一样的。M个加权数字特征向量合并后生成的新的数字序列(用户发表内容的数字化签名)包括n个子序列,每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。比如,M个加权数字特征向量合并后生成的新的数字序列(用户发表内容的数字化签名)可以是:“13 108 -22 -5 -32 55”。其中,空格是为了清楚地显示新的数字序列所包含的6个数字子序列,空格不是数字序列的组成部分。
在一种实施方式中,根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户,包括:
对同一个用户块内的任意两个用户,计算所述两个用户发表内容的数字化签名之间的相似度,将相似度满足预设要求的两个用户识别为同一个人注册的不同用户;
在一种实施方式中,所述根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户,包括:
对同一个用户块内的任意两个用户,由每一个用户发表内容的数字化签名生成一个n维特征向量,所述n维特征向量中的每一个特征对应于数字化签名的一个子序列;计算两个用户的n维特征向量的余弦相似度,当所述余弦相似度大于阈值时,判定所述两个用户归属于同一个人;
其中,所述数字化签名包括n个子序列,每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。
在一种实施方式中,所述根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户,包括:
对同一个用户块内的任意两个用户,将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理,生成一个新的n比特二进制序列作为所述用户发表内容的二进制数字化签名;计算两个用户的发表内容的二进制数字化签名之间的海明距离,当所述海明距离小于阈值时,判定所述两个用户归属于同一个人;
其中,所述数字化签名包括n个子序列,每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。
在一种实施方式中,所述将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理,包括:
对用户发表内容的数字化签名包含的任意一个子序列进行如下处理:当所述子序列代表的数值大于0时,将所述子序列修改为“1”,当所述子序列代表的数值小于或等于0时,将所述子序列修改为“0”。
例如,假设用户发表内容的数字化签名为“13 108 -22 -5 -32 55”,则对所述数字序列进行二值化处理后得到的新的二进制序列为“1 1 0 0 0 1”。其中,空格是为了清楚地显示新的数字序列所包含的6个数字子序列,空格不是数字序列的组成部分。
其中,计算两个用户的发表内容的二进制数字化签名之间的海明距离,包括:
对两个用户的发表内容的二进制数字化签名进行按位异或运算,统计经过异或运算后生成的1的个数,所述统计得到的1的个数为两个用户的发表内容的二进制数字化签名之间的海明距离。
其中,海明距离的求法是:异或时,只有在两个比较的位不同时其结果为1,否则结果为0;两个二进制序列“异或”后得到1的个数即为海明距离的大小。例如,假设两个二进制数字化签名分别是“1 0 1 0 1 1”和“1 0 1 0 0 0”,两个签名经过异或运算后得到的海明距离为2。
根据实验经验,当两个64位的二进制数字化签名之间的海明距离小于或等于3时,判定两个二进制数字化签名之间的相似度比较高。
实施例2
如图4所示,本发明实施例提供了一种跨平台识别用户的装置,包括:
分块模块201,用于基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块;
特征提取模块202,用于对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征;
特征数字化模块203,用于将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征;
匹配模块204,用于根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。
在一种实施方式中,所述分块模块,用于采用以下方式基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块:基于用户资料生成每一个用户的身份特征向量,所述身份特征向量包括N维身份特征信息;N≥1;采用Canopy聚类算法对身份特征相似的用户进行聚类,根据聚类结果生成多个用户块。
在一种实施方式中,特征提取模块,用于采用以下方式对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征:对用户块内的任意一个用户,由所述用户在平台上发表的多条文字记录生成所述用户的文本库;对所述用户的文本库进行分词,计算所述文本库中的各个分词的词频-逆向文件频率TF-IDF值;根据分词的TF-IDF值确定所述分词的类别区分能力权重;对各个分词按照类别区分能力权重从高到低进行排序,由类别区分能力权重排名靠前的多个分词生成所述用户发表内容的文本特征向量。
在一种实施方式中,特征数字化模块,用于采用以下方式将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征:
通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理,生成M维数字特征向量;其中,所述M维数字特征向量包括M个数字特征,每一个数字特征是一个数字序列;
为所述M维数字特征向量中的每一个数字特征分配权重,利用分配的权重对所述M维数字特征向量中的每一个数字特征分别进行加权处理得到M维加权数字特征向量;其中,所述数字特征的权重设置为所述数字特征在文本数字化处理时对应的原始分词的类别区分能力权重;
将所述M维加权数字特征向量中所有的加权数字特征合并为一个新的数字序列,所述新的数字序列作为用户发表内容的数字化签名。
在一种实施方式中,特征数字化模块,用于采用以下方式将所述M维加权数字特征向量中所有的加权数字特征合并为一个数字序列:将所述M维加权数字特征向量中每一个加权数字特征对应的数字序列划分为n个数字子序列,每一个数字子序列对应于所述加权数字特征加权前的二进制数字序列的1个比特;将所有的加权数字特征的数字子序列对应相加生成n个累加和,将所述n个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列;
在一种实施方式中,匹配模块,用于采用以下方式根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户:对同一个用户块内的任意两个用户,由每一个用户发表内容的数字化签名生成一个n维特征向量,所述n维特征向量中的每一个特征对应于数字化签名的一个子序列;计算两个用户的n维特征向量的余弦相似度,当所述余弦相似度大于阈值时,判定所述两个用户归属于同一个人;其中,所述数字化签名包括n个子序列,每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。
在一种实施方式中,匹配模块,用于采用以下方式根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户:对同一个用户块内的任意两个用户,将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理,生成一个新的n比特二进制序列作为所述用户发表内容的二进制数字化签名;计算两个用户的发表内容的二进制数字化签名之间的海明距离,当所述海明距离小于阈值时,判定所述两个用户归属于同一个人;其中,所述数字化签名包括n个子序列,每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。
在一种实施方式中,特征数字化模块,用于采用以下方式利用分配的权重对所述M维数字特征向量中的任意一个数字特征进行加权处理:利用分配的权重对所述数字特征对应的数字序列的每一个比特进行加权处理:当所述比特的数值为1时,将所述比特的数值修改为所述权重,当所述比特的数值为0时,将所述比特的数值修改为所述权重乘以负1;其中,所述数字特征为n比特的二进制序列。
在一种实施方式中,特征数字化模块,用于采用以下方式将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理:对用户发表内容的数字化签名包含的任意一个子序列进行如下处理:当所述子序列代表的数值大于0时,将所述子序列修改为“1”,当所述子序列代表的数值小于或等于0时,将所述子序列修改为“0”。
在一种实施方式中,特征数字化模块,用于采用以下方式通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理:通过哈希函数计算M维文本特征向量中的每一个文本特征的哈希值。
实施例3
本发明实施例提供了一种跨平台识别用户的装置,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨平台识别用户的程序,所述跨平台识别用户的程序被所述处理器执行时实现上述实施例1中的跨平台识别用户的方法的步骤。
实施例4
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有跨平台识别用户的程序,所述跨平台识别用户的程序被处理器执行时实现上述实施例1中的跨平台识别用户的方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种跨平台识别用户的方法,包括:
基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块;
对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征;
将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征;
根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。
2.如权利要求1所述的方法,其特征在于:
所述基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块,包括:
基于用户资料生成每一个用户的身份特征向量,所述身份特征向量包括N维身份特征信息;N≥1;
采用Canopy聚类算法对身份特征相似的用户进行聚类,根据聚类结果生成多个用户块。
3.如权利要求1所述的方法,其特征在于:
所述对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征,包括:
对用户块内的任意一个用户,由所述用户在平台上发表的多条文字记录生成所述用户的文本库;
对所述用户的文本库进行分词,计算所述文本库中的各个分词的词频-逆向文件频率TF-IDF值;根据分词的TF-IDF值确定所述分词的类别区分能力权重;
对各个分词按照类别区分能力权重从高到低进行排序,由类别区分能力权重排名靠前的多个分词生成所述用户发表内容的文本特征向量。
4.如权利要求3所述的方法,其特征在于:
所述将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征,包括:
通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理,生成M维数字特征向量;其中,所述M维数字特征向量包括M个数字特征,每一个数字特征是一个数字序列;
为所述M维数字特征向量中的每一个数字特征分配权重,利用分配的权重对所述M维数字特征向量中的每一个数字特征分别进行加权处理得到M维加权数字特征向量;其中,所述数字特征的权重设置为所述数字特征在文本数字化处理时对应的原始分词的类别区分能力权重;
将所述M维加权数字特征向量中所有的加权数字特征合并为一个新的数字序列,所述新的数字序列作为用户发表内容的数字化签名。
5.如权利要求4所述的方法,其特征在于:
所述将所述M维加权数字特征向量中所有的加权数字特征合并为一个数字序列,包括:
将所述M维加权数字特征向量中每一个加权数字特征对应的数字序列划分为n个数字子序列,每一个数字子序列对应于所述加权数字特征加权前的二进制数字序列的1个比特;
将所有的加权数字特征的数字子序列对应相加生成n个累加和,将所述n个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列。
6.如权利要求5所述的方法,其特征在于:
所述根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户,包括:
对同一个用户块内的任意两个用户,由每一个用户发表内容的数字化签名生成一个n维特征向量,所述n维特征向量中的每一个特征对应于数字化签名的一个子序列;计算两个用户的n维特征向量的余弦相似度,当所述余弦相似度大于阈值时,判定所述两个用户归属于同一个人;
其中,所述数字化签名包括n个子序列,每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。
7.如权利要求5所述的方法,其特征在于:
所述根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户,包括:
对同一个用户块内的任意两个用户,将每一个用户发表内容的数字化签名包含的n个子序列进行二值化处理,生成一个新的n比特二进制序列作为所述用户发表内容的二进制数字化签名;计算两个用户的发表内容的二进制数字化签名之间的海明距离,当所述海明距离小于阈值时,判定所述两个用户归属于同一个人;
其中,所述数字化签名包括n个子序列,每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。
8.如权利要求4所述的方法,其特征在于:
所述利用分配的权重对所述M维数字特征向量中的任意一个数字特征进行加权处理,包括:
利用分配的权重对所述数字特征对应的数字序列的每一个比特进行加权处理:当所述比特的数值为1时,将所述比特的数值修改为所述权重,当所述比特的数值为0时,将所述比特的数值修改为所述权重乘以负1;其中,所述数字特征为n比特的二进制序列。
9.一种跨平台识别用户的装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨平台识别用户的程序,所述跨平台识别用户的程序被所述处理器执行时实现上述权利要求1-8中任一项所述的跨平台识别用户的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有跨平台识别用户的程序,所述跨平台识别用户的程序被处理器执行时实现上述权利要求1-8中任一项所述的跨平台识别用户的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017272.1A CN110826605A (zh) | 2019-10-24 | 2019-10-24 | 一种跨平台识别用户的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911017272.1A CN110826605A (zh) | 2019-10-24 | 2019-10-24 | 一种跨平台识别用户的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110826605A true CN110826605A (zh) | 2020-02-21 |
Family
ID=69550428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911017272.1A Pending CN110826605A (zh) | 2019-10-24 | 2019-10-24 | 一种跨平台识别用户的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826605A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680224A (zh) * | 2020-04-22 | 2020-09-18 | 威比网络科技(上海)有限公司 | 跨平台课程推送方法、装置、电子设备、存储介质 |
CN111753210A (zh) * | 2020-05-27 | 2020-10-09 | 浙江口碑网络技术有限公司 | 资源推送方法、装置、计算机设备及计算机可读存储介质 |
CN111767438A (zh) * | 2020-06-16 | 2020-10-13 | 上海同犀智能科技有限公司 | 一种基于Hash结合积分的身份识别方法 |
CN111881304A (zh) * | 2020-07-21 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 一种作者识别方法、装置、设备和存储介质 |
CN112463955A (zh) * | 2020-11-25 | 2021-03-09 | 浪潮商用机器有限公司 | 一种文本摘要生成方法及相关装置 |
CN112632285A (zh) * | 2020-12-31 | 2021-04-09 | 北京有竹居网络技术有限公司 | 一种文本聚类方法、装置、电子设备及存储介质 |
US20220261396A1 (en) * | 2021-02-16 | 2022-08-18 | King.Com Limited | Computing arrangement and method for determining relationships between identity data |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317784A (zh) * | 2014-09-30 | 2015-01-28 | 苏州大学 | 一种跨平台用户识别方法和系统 |
CN104424235A (zh) * | 2013-08-26 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 实现用户信息聚类的方法和装置 |
CN104765729A (zh) * | 2014-01-02 | 2015-07-08 | 中国人民大学 | 一种跨平台微博社区账户匹配方法 |
CN105183806A (zh) * | 2015-08-26 | 2015-12-23 | 苏州大学张家港工业技术研究院 | 一种不同平台间识别同一用户的方法与系统 |
CN108846422A (zh) * | 2018-05-28 | 2018-11-20 | 中国人民公安大学 | 跨社交网络的账号关联方法及系统 |
CN108897789A (zh) * | 2018-06-11 | 2018-11-27 | 西南科技大学 | 一种跨平台的社交网络用户身份识别方法 |
CN109472293A (zh) * | 2018-10-12 | 2019-03-15 | 国家电网有限公司 | 一种基于机器学习的电网设备档案数据纠错方法 |
CN109543040A (zh) * | 2018-11-26 | 2019-03-29 | 北京知道创宇信息技术有限公司 | 相似账户识别方法及装置 |
CN110222790A (zh) * | 2019-06-17 | 2019-09-10 | 南京中孚信息技术有限公司 | 用户身份识别方法、装置及服务器 |
-
2019
- 2019-10-24 CN CN201911017272.1A patent/CN110826605A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424235A (zh) * | 2013-08-26 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 实现用户信息聚类的方法和装置 |
CN104765729A (zh) * | 2014-01-02 | 2015-07-08 | 中国人民大学 | 一种跨平台微博社区账户匹配方法 |
CN104317784A (zh) * | 2014-09-30 | 2015-01-28 | 苏州大学 | 一种跨平台用户识别方法和系统 |
CN105183806A (zh) * | 2015-08-26 | 2015-12-23 | 苏州大学张家港工业技术研究院 | 一种不同平台间识别同一用户的方法与系统 |
CN108846422A (zh) * | 2018-05-28 | 2018-11-20 | 中国人民公安大学 | 跨社交网络的账号关联方法及系统 |
CN108897789A (zh) * | 2018-06-11 | 2018-11-27 | 西南科技大学 | 一种跨平台的社交网络用户身份识别方法 |
CN109472293A (zh) * | 2018-10-12 | 2019-03-15 | 国家电网有限公司 | 一种基于机器学习的电网设备档案数据纠错方法 |
CN109543040A (zh) * | 2018-11-26 | 2019-03-29 | 北京知道创宇信息技术有限公司 | 相似账户识别方法及装置 |
CN110222790A (zh) * | 2019-06-17 | 2019-09-10 | 南京中孚信息技术有限公司 | 用户身份识别方法、装置及服务器 |
Non-Patent Citations (4)
Title |
---|
ITEYE: "TF-IDF及其算法", 《HTTPS://WWW.ITEYE.COM/BLOG/WX1569578408-2500917》 * |
LENGYE7: "simhash算法及原理简介", 《HTTPS://BLOG.CSDN.NET/LENGYE7/ARTICLE/DETAILS/79789206》 * |
一年又半: "TF-IDF算法加权", 《HTTPS://BLOG.CSDN.NET/QQ_34446614/ARTICLE/DETAILS/98027108》 * |
如果的事: "TF-IDF加权及其应用", 《HTTPS://WWW.CNBLOGS.COM/CHENNY7/P/4002368.HTML》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680224A (zh) * | 2020-04-22 | 2020-09-18 | 威比网络科技(上海)有限公司 | 跨平台课程推送方法、装置、电子设备、存储介质 |
CN111753210A (zh) * | 2020-05-27 | 2020-10-09 | 浙江口碑网络技术有限公司 | 资源推送方法、装置、计算机设备及计算机可读存储介质 |
CN111767438A (zh) * | 2020-06-16 | 2020-10-13 | 上海同犀智能科技有限公司 | 一种基于Hash结合积分的身份识别方法 |
CN111881304A (zh) * | 2020-07-21 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 一种作者识别方法、装置、设备和存储介质 |
CN111881304B (zh) * | 2020-07-21 | 2024-04-26 | 百度在线网络技术(北京)有限公司 | 一种作者识别方法、装置、设备和存储介质 |
CN112463955A (zh) * | 2020-11-25 | 2021-03-09 | 浪潮商用机器有限公司 | 一种文本摘要生成方法及相关装置 |
CN112632285A (zh) * | 2020-12-31 | 2021-04-09 | 北京有竹居网络技术有限公司 | 一种文本聚类方法、装置、电子设备及存储介质 |
US20220261396A1 (en) * | 2021-02-16 | 2022-08-18 | King.Com Limited | Computing arrangement and method for determining relationships between identity data |
US11599534B2 (en) * | 2021-02-16 | 2023-03-07 | King.Com Limited | Computing arrangement and method for determining relationships between identity data |
US11995074B2 (en) | 2021-02-16 | 2024-05-28 | King.Com Limited | Computing arrangement and method for determining relationships between identity data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826605A (zh) | 一种跨平台识别用户的方法及装置 | |
US11727053B2 (en) | Entity recognition from an image | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN111461637A (zh) | 简历筛选方法、装置、计算机设备和存储介质 | |
CN109582813B (zh) | 一种文物展品的检索方法、装置、设备和存储介质 | |
Pan et al. | Product quantization with dual codebooks for approximate nearest neighbor search | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
JP5598925B2 (ja) | 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム | |
CN110796088A (zh) | 视频相似性判定方法及装置 | |
CN111368867B (zh) | 档案归类方法及系统、计算机可读存储介质 | |
CN109885831B (zh) | 关键术语抽取方法、装置、设备及计算机可读存储介质 | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
US11281714B2 (en) | Image retrieval | |
CN106933878B (zh) | 一种信息处理方法及装置 | |
US20160283582A1 (en) | Device and method for detecting similar text, and application | |
CN117216239A (zh) | 文本去重方法、装置、计算机设备及存储介质 | |
CN109359481B (zh) | 一种基于bk树的反碰撞搜索约减方法 | |
CN112818859A (zh) | 一种基于深度哈希的多级检索行人重识别方法 | |
CN112257689A (zh) | 人脸识别模型的训练和识别方法、存储介质及相关设备 | |
CN111741009A (zh) | 一种业务数据管理方法、系统、服务器及存储介质 | |
CN115374793A (zh) | 基于服务场景识别的语音数据处理方法及相关装置 | |
CN111428482B (zh) | 一种信息识别方法和装置 | |
CN114444464A (zh) | 文档检测处理方法、装置、存储介质及电子设备 | |
CN113221786A (zh) | 数据分类方法及装置、电子设备和存储介质 | |
Alford et al. | Genetic and evolutionary methods for biometric feature reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |
|
RJ01 | Rejection of invention patent application after publication |