CN109543040A - 相似账户识别方法及装置 - Google Patents
相似账户识别方法及装置 Download PDFInfo
- Publication number
- CN109543040A CN109543040A CN201811419389.8A CN201811419389A CN109543040A CN 109543040 A CN109543040 A CN 109543040A CN 201811419389 A CN201811419389 A CN 201811419389A CN 109543040 A CN109543040 A CN 109543040A
- Authority
- CN
- China
- Prior art keywords
- account
- identified
- field
- similarity
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种相似账户识别方法及装置,数据处理设备获得多个待识别账户的账户信息,对获得的账户信息进行聚类;针对属于相同聚类的至少两个待识别账户的账户信息,计算其预设主字段的相似度作为第一相似度,计算其预设辅助字段的相似度作为第二相似度;对第一相似度和第二相似度进行加权平均,得到平均相似度;若该平均相似度达到预设阈值,则确定该至少两个待识别账户为相同用户的账户,并将来自该至少两个待识别账户的数据融合。如此,能够准确识别同一用户的不同虚拟身份标识,从而对该用户在网络上的行为进行准确分析。
Description
技术领域
本申请涉及互联网技术领域,具体而言,涉及一种相似账户识别方法及装置。
背景技术
在用户通过互联网获取信息、参与交流分享的过程中,用户通常会使用邮箱、手机号、账号等能够标识用户的虚拟身份标识在网站上进行注册,从而能够使用互联网服务。随着用户使用的场景越来越多,使用互联网服务的人越来越多,邮箱、账号等会出现冲突的情况。针对此情况,用户通常会注册相似的账户,从而出现一个用户使用多个账户的情形,使得识别同一个用户的虚拟身份标识变成困难。
发明内容
有鉴于此,本申请的目的包括提供一种相似账户识别方法及装置,以至少部分地改善上述问题。
为了达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种相似账户识别方法,应用于数据处理设备,所述方法包括:
获得多个待识别账户的账户信息,对所述多个待识别账户的账户信息进行聚类;
针对属于相同聚类的至少两个待识别账户的账户信息,计算所述至少两个待识别账户的账户信息中的预设主字段的相似度作为第一相似度,以及计算所述至少两个待识别账户的账户信息中的预设辅助字段的相似度作为第二相似度;
对所述第一相似度和所述第二相似度进行加权平均,得到平均相似度;
若所述平均相似度达到预设阈值,则将所述至少两个待识别账户确定为相同用户的账户,并将来自所述至少两个待识别账户的数据融合。
可选地,在对所述多个待识别账户的账户信息进行聚类之前,所述方法还包括:
针对每个待识别账户,将该待识别账户的账户信息中的所述预设主字段和至少一个所述预设辅助字段确定为待处理字段;
将所述待处理字段从字符型字段转换为数值型字段。
可选地,将所述待处理字段从字符型字段转换为数值型字段,包括:
将所述待处理字段切分成多个片段;
以所述片段为词,以所述待处理字段为文章,分别计算所述多个片段的词频-逆向文件频率;
使用词袋法生成所述待处理字段的高维稀疏向量,其中,所述高维稀疏向量包括所述待处理字段中的各个片段的词频-逆向文件频率;
对所述高维稀疏向量的维度进行压缩,得到所述数值型字段。
可选地,对所述高维稀疏向量的维度进行压缩,包括:
通过主成分分析PCA算法确定所述高维稀疏向量中的低维主成分,并删除除所述低维主成分之外的其他成分。
可选地,在对所述多个待识别账户的账户信息进行聚类之前,所述方法还包括:
将所述多个待识别账户的账户信息处理成预设格式;
当任一待识别账户为邮箱账户时,删除该邮箱账户的域名字段。
第二方面,本申请实施例提供一种相似账户识别装置,应用于数据处理设备,所述装置包括:
聚类模块,用于获得多个待识别账户的账户信息,对所述多个待识别账户的账户信息进行聚类;
第一计算模块,用于针对属于相同聚类的至少两个待识别账户的账户信息,计算所述至少两个待识别账户的账户信息中的预设主字段的相似度作为第一相似度,以及计算所述至少两个待识别账户的账户信息中的预设辅助字段的相似度作为第二相似度;
第二计算模块,用于对所述第一相似度和所述第二相似度进行加权平均,得到平均相似度;
相似账户确定模块,用于在所述平均相似度达到预设阈值的情况下,将所述至少两个待识别账户确定为相同用户的账户,并将来自所述至少两个待识别账户的数据融合。
可选地,所述装置还包括:
预处理模块,用于在所述聚类模块对所述多个待识别账户的账户信息进行聚类之前,针对每个待识别账户,将该待识别账户的账户信息中的所述预设主字段和至少一个所述预设辅助字段确定为待处理字段;将所述待处理字段从字符型字段转换为数值型字段。
可选地,所述预处理模块通过以下方式将所述待处理字段从字符型字段转换为数值型字段:
将所述待处理字段切分成多个片段;以所述片段为词,以所述待处理字段为文章,分别计算所述多个片段的词频-逆向文件频率;使用词袋法生成所述待处理字段的高维稀疏向量,其中,所述高维稀疏向量包括所述待处理字段中的各个片段的词频-逆向文件频率;对所述高维稀疏向量的维度进行压缩,得到所述数值型字段。
可选地,所述预处理模块对所述高维稀疏向量的维度进行压缩的具体方式为:
通过PCA算法确定所述高维稀疏向量中的低维主成分,并删除除所述低维主成分之外的其他成分。
可选地,所述预处理模块,还用于在所述聚类模块对所述多个待识别账户的账户信息进行聚类之前,将所述多个待识别账户的账户信息处理成预设格式;当任一待识别账户为邮箱账户时,删除该邮箱账户的域名字段。
第三方面,本申请实施例还提供一种数据处理设备,包括机器可读存储介质和处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时促使所述处理器实现本申请实施例第一方面提供的方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供一种相似账户识别方法及装置,其中,数据处理设备获得多个待识别账户的账户信息,对获得的账户信息进行聚类;针对属于相同聚类的至少两个待识别账户的账户信息,计算所述至少两个待识别账户的账户信息的预设主字段的相似度作为第一相似度,以及计算所述至少两个待识别账户的账户信息的预设辅助字段的相似度作为第二相似度;对第一相似度和第二相似度进行加权平均,得到平均相似度;若该平均相似度达到预设阈值,则将该至少两个待识别账户确定为相同用户的账户,并将来自该至少两个待识别账户的数据融合。如此,能够准确识别同一用户的不同虚拟身份标识,从而对该用户在网络上的行为进行准确分析。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据处理设备的方框示意图;
图2为本申请实施例提供的一种相似账户识别方法的流程示意图;
图3为本申请实施例提供的一种预处理过程的流程示意图;
图4为本申请实施例提供的预处理过程的又一流程示意图;
图5为本申请实施例提供的一种相似账户识别装置的功能模块框图。
图标:100-数据处理设备;110-相似账户识别装置;111-聚类模块;112-第一计算模块;113-第二计算模块;114-相似账户确定模块;115-预处理模块;120-机器可读存储介质;130-处理器;140-通信单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参照图1,图1是本申请实施例提供的一种数据处理设备100的方框示意图。所述数据处理设备100例如可以是服务器、个人计算机(PersonalComputer,PC)等任意具有数据处理功能的电子设备。其中,所述服务器可以是单台服务器,也可以相互通信的多台服务器组成的服务器集群,本实施例对此不做限制。
所述数据处理设备100包括相似账户识别装置110、机器可读存储介质120、处理器130及通信单元140。
所述机器可读存储介质120、处理器130及通信单元140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或多条通讯总线或信号线实现电性连接。所述机器可读存储介质120存储有机器可执行指令,通过读取并执行机器可读存储介质120中与相似账户识别逻辑对应的机器可执行指令,处理器130可执行下文描述的相似账户识别方法。
本文中提到的机器可读存储介质120可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质120可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。
所述通信单元140用于建立数据处理设备100与其他设备诸如外部数据源的服务器等的通信连接,以实现数据交互。
应当理解,图1所示的结构仅为示意,数据处理设备100可以包括比图1所示更多或更少的组件,或是具有与图1所示完全不同的配置。其中,图1所示的各组件可以以软件、硬件或其组合实现,本实施例不以此为限制。
经研究发现,在实际应用中,一个用户使用多个账户,对于识别该用户的虚拟身份标识会造成困扰。原因在于:在分析一个用户在不同互联网应用的行为时,由于该用户使用了多个账户,如果只对单个账户的数据进行分析,将丢失该用户的部分维度的信息,导致最终得到的行为分析结果不准确。
基于此,相关技术中通过识别同一用户在不同互联网服务(或应用)的不同账户,并对来自该用户的不同账户的数据进行融合,从而复现一个用户在互联网上的完整行为,确保了行为分析结果的准确性。
在一些实施方式中,通常采用如下方式来识别同一用户的不同账户:
第一,通过不同账户对应的身份证号、手机号等信息是否相同来判断所述不同账户是否为同一用户的账户。然而,随着对个人信息的保护的加强,采用身份证号、手机号等敏感信息来分析多源数据的方式不再可行。
第二,根据不同账户的账号信息所包括的字符串的相似度来判断该不同账户是否为同一用户的账户。然而,这种方式所采用的的判断维度单一,容易将不相关的账户识别为相似账户,出现误判的情况。在海量数据的情况下,误判的几率会大大上升。
第三,综合使用前述的两种判断方式,即:在记录有账户对应的手机号或身份证号的情况下,采用第一种方式判断;在没有记录账户对应的手机号或身份证号的情况下,采用第二种方式判断。但是,这种方式仍旧依赖于前述的两种方式来实现,因此,仍旧存在前述的两种方式的缺陷。
为了至少部分地改善上述问题,本申请实施例提供一种相似账户识别方法及装置,下面对该内容进行描述。
请参照图2,是本申请实施例提供的一种应用于图1所示的数据处理设备100的相似账户识别方法的流程示意图。下面对该方法包括的各步骤做详细阐述。
步骤S21,获得多个待识别账户的账户信息,对所述多个待识别账户的账户信息进行聚类。
在本实施例中,在获得多个待识别账户的账户信息之后,在对所述多个待识别账户的账户信息进行聚类之前,可以对所述账户信息进行清洗和预处理,再对处理后的数据进行聚类和规约。可选地,可以在聚类的过程中,调整聚类宽度,以使聚类宽度小于设定的宽度阈值。
在本实施例中可选地,预处理的过程可以包括图3所示的步骤。
步骤S31,针对每个待识别账户,将该待识别账户的账户信息中的所述预设主字段和所述预设辅助字段确定为待处理字段。
其中,所述预设主字段和所述预设辅助字段可以由用户根据业务需求进行选取,所述预设辅助字段通常可以为多个。例如,所述预设主字段可以为邮箱字段,所述预设辅助字段可以为待识别账户对应的用户的昵称、性别、地址、年龄等。
步骤S32,将所述待处理字段从字符型字段转换为数值型字段。
在本实施例中,步骤S32可以包括图4所示的步骤。
步骤S41,将所述待处理字段切分成多个片段。
在实施时,可以通过滑窗法进行切词,从而将切分得到所述多个片段。
步骤S42,以所述片段为词,以所述待处理字段为文章,分别计算所述多个片段的词频-逆向文件频率。
在实施时,针对切分得到的每个片段,可以将该片段作为一个词,将待处理字段作为文章,计算每个词(即,每个片段)的词频-逆向文件频率(Term frequency-inversedocument frequency,TF-IDF)。其中,TF-IDF是一种用于信息检索与数据挖掘的加权技术,其实质上是TF值和IDF值的乘积。TF表示词频,即某个词在其所处的文章中的出现频率。DF表示某个词和其所处的文章的整体相关性,如果该词在某一类别的文章中出现的多,在其他类别的文章中出现的少,那么该词的IDF值就会较大;如果该词在所有类别的文章中都出现的多,那么该词的IDF值将随着出现该词的文章的类别的增加而下降。换言之,IDF反映的是一个词能将其所处的文章与其他文章区分开的能力。
步骤S43,使用词袋法生成所述待处理字段的高维稀疏向量,其中,所述高维稀疏向量包括所述待处理字段中的各个片段的词频-逆向文件频率。
在本实施例中,对于特定的片段,该片段的词频-逆向文件频率越大,标识该片段区分所述待处理字段的效果越好。
步骤S44,对所述高维稀疏向量的维度进行压缩,得到所述数值型字段。
可选地,在本实施例中,步骤S44可以通过如下子步骤实现:
通过PCA(PrincipleComponents Analysis,主成分分析)算法确定所述高维稀疏向量中的低维主成分,并删除除所述低维主成分之外的其他成分。
如此,一方面可以保证向量中的信息的有效性,另一方面可以减少后续聚类过程的计算量。
可选地,在本实施例中,在测试过程中,可以对维度参数进行调整,以改善本方法的效果。
可选地,在本实施例中,前述的预处理的过程还可以包括以下步骤:
第一,将所述多个待识别账户的账户信息处理成预设格式。
例如,对于邮箱账户,有的来源数据的标识为“Email”,有的来源数据的标识为“email”,有的来源数据的标识为“登录邮箱”,在实施时,可以将上述标识均转换成“邮箱字段”。又如,对于来自不同数据源的邮箱账户,其邮箱账户的格式不同,比如通常存在以下几种:XXX@XXX.com、XXX#XXX.com、<XXX>XXX@XXX.com等,可以将这些不同类型的邮箱账户转换成统一的预设格式,例如转换成xxx@xxx.com,如此,可以便于后续计算相似度。
第二,当任一待识别账户为邮箱账户时,删除该邮箱账户的域名字段。
经研究发现,对邮箱账户而言,当任意两个邮箱账户的邮箱名相似时,该两个邮箱账户可能是同一用户的账户,而具有相同邮箱域名的两个邮箱账户可能是不同用户的账户,因此,为了降低计算复杂度,可以去除邮箱账户的邮箱域名。
步骤S22,针对属于相同聚类的至少两个待识别账户的账户信息,计算所述至少两个待识别账户的账户信息的预设主字段的相似度作为第一相似度,以及计算所述至少两个待识别账户的账户信息的预设辅助字段的相似度作为第二相似度。
步骤S23,对所述第一相似度和所述第二相似度进行加权平均,得到平均相似度。
在实施时,在步骤S21的聚类结果,一个聚类中可能存在两个或两个以上的待识别账户的账户信息。在此情况下,对于每个聚类,可以计算属于该聚类的各待识别账户的账户信息的预设主字段的相似度(例如为S1)作为所述第一相似度。对于所设定的每个预设辅助字段,计算该聚类的各待识别账户的账户信息的预设辅助字段的相似度(例如为Sx)作为该聚类的所述第二相似度。
在本实施例中,随着所设定的预设辅助字段的数量的不同,每个聚类可能对应有多个第二相似度,例如有n-1个预设辅助字段,则上述Sx中的x的取值范围可以为2至n。
在此情况下,可以对S1至Sn这n个相似度进行加权平均,得到一平均相似度S。
步骤S24,若所述平均相似度达到预设阈值,则将所述至少两个待识别账户确定为相同用户的账户,并将来自所述至少两个待识别账户的数据融合。
其中,所述预设阈值可以根据实际统计结果或业务需求进行设定,本实施例对此不做限制。
请参照图5,本实施例还提供一种相似账户识别装置110,相似账户识别装置110包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分,相似账户识别装置110可以包括聚类模块111、第一计算模块112、第二计算模块113以及相似账户确定模块114。
其中,所述聚类模块111用于获得多个待识别账户的账户信息,对所述多个待识别账户的账户信息进行聚类。
在本实施例中,所述聚类模块111可以用于执行步骤S21,关于所述聚类模块111的描述可以参考对步骤S21的详细描述。
所述第一计算模块112用于针对属于相同聚类的至少两个待识别账户的账户信息,计算所述至少两个待识别账户的账户信息中的预设主字段的相似度作为第一相似度,以及计算所述至少两个待识别账户的账户信息中的预设辅助字段的相似度作为第二相似度。
在本实施例中,所述第一计算模块112可以用于执行步骤S22,关于所述第一计算模块112的描述可以参考对步骤S22的详细描述。
所述第二计算模块113用于对所述第一相似度和所述第二相似度进行加权平均,得到平均相似度。
在本实施例中,所述第二计算模块113可以用于执行步骤S23,关于所述第二计算模块113的描述可以参考对步骤S23的详细描述。
所述相似账户确定模块114用于在所述平均相似度达到预设阈值的情况下,将所述至少两个待识别账户确定为相同用户的账户,并将来自所述至少两个待识别账户的数据融合。
在本实施例中,所述相似账户确定模块114可以用于执行步骤S24,关于所述步骤S24的描述可以参考对步骤S24的详细描述。
可选地,所述相似账户识别装置110还可以包括预处理模块115。
所述预处理模块115用于在所述聚类模块111对所述多个待识别账户的账户信息进行聚类之前,针对每个待识别账户,将该待识别账户的账户信息中的所述预设主字段和至少一个所述预设辅助字段确定为待处理字段;将所述待处理字段从字符型字段转换为数值型字段。
可选地,所述预处理模块115可以通过以下方式将所述待处理字段从字符型字段转换为数值型字段:
将所述待处理字段切分成多个片段;以所述片段为词,以所述待处理字段为文章,分别计算所述多个片段的词频-逆向文件频率;使用词袋法生成所述待处理字段的高维稀疏向量,其中,所述高维稀疏向量包括所述待处理字段中的各个片段的词频-逆向文件频率;对所述高维稀疏向量的维度进行压缩,得到所述数值型字段。
可选地,所述预处理模块115对所述高维稀疏向量的维度进行压缩的具体方式,可以为:
通过PCA算法确定所述高维稀疏向量中的低维主成分,并删除除所述低维主成分之外的其他成分。
可选地,所述预处理模块115还可以用于在所述聚类模块111对所述多个待识别账户的账户信息进行聚类之前,将所述多个待识别账户的账户信息处理成预设格式;当任一待识别账户为邮箱账户时,删除该邮箱账户的域名字段。关于所述预处理模块115的描述可以参照上文中对相关步骤的详细描述。
综上所述,本申请实施例提供一种相似账户识别方法及装置,其中,数据处理设备获得多个待识别账户的账户信息,对获得的账户信息进行聚类;针对属于相同聚类的至少两个待识别账户的账户信息,计算所述至少两个待识别账户的账户信息的预设主字段的相似度作为第一相似度,以及计算所述至少两个待识别账户的账户信息的预设辅助字段的相似度作为第二相似度;对第一相似度和第二相似度进行加权平均,得到平均相似度;若该平均相似度达到预设阈值,则将该至少两个待识别账户确定为相同用户的账户,并将来自该至少两个待识别账户的数据融合。如此,能够准确识别同一用户的不同虚拟身份标识,从而对该用户在网络上的行为进行准确分析。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种相似账户识别方法,其特征在于,应用于数据处理设备,所述方法包括:
获得多个待识别账户的账户信息,对所述多个待识别账户的账户信息进行聚类;
针对属于相同聚类的至少两个待识别账户的账户信息,计算所述至少两个待识别账户的账户信息的预设主字段的相似度作为第一相似度,以及计算所述至少两个待识别账户的账户信息的预设辅助字段的相似度作为第二相似度;
对所述第一相似度和所述第二相似度进行加权平均,得到平均相似度;
若所述平均相似度达到预设阈值,则将所述至少两个待识别账户确定为相同用户的账户,并将来自所述至少两个待识别账户的数据融合。
2.根据权利要求1所述的相似账户识别方法,其特征在于,在对所述多个待识别账户的账户信息进行聚类之前,所述方法还包括:
针对每个待识别账户,将该待识别账户的账户信息中的所述预设主字段和所述预设辅助字段确定为待处理字段;
将所述待处理字段从字符型字段转换为数值型字段。
3.根据权利要求2所述的相似账户识别方法,其特征在于,将所述待处理字段从字符型字段转换为数值型字段,包括:
将所述待处理字段切分成多个片段;
以所述片段为词,以所述待处理字段为文章,分别计算所述多个片段的词频-逆向文件频率;
使用词袋法生成所述待处理字段的高维稀疏向量,其中,所述高维稀疏向量包括所述待处理字段中的各个片段的词频-逆向文件频率;
对所述高维稀疏向量的维度进行压缩,得到所述数值型字段。
4.根据权利要求3所述的相似账户识别方法,其特征在于,对所述高维稀疏向量的维度进行压缩,包括:
通过主成分分析PCA算法确定所述高维稀疏向量中的低维主成分,并删除除所述低维主成分之外的其他成分。
5.根据权利要求1-4中任一项所述的相似账户识别方法,其特征在于,在对所述多个待识别账户的账户信息进行聚类之前,所述方法还包括:
将所述多个待识别账户的账户信息处理成预设格式;
当任一待识别账户为邮箱账户时,删除该邮箱账户的域名字段。
6.一种相似账户识别装置,其特征在于,应用于数据处理设备,所述装置包括:
聚类模块,用于获得多个待识别账户的账户信息,对所述多个待识别账户的账户信息进行聚类;
第一计算模块,用于针对属于相同聚类的至少两个待识别账户的账户信息,计算所述至少两个待识别账户的账户信息中的预设主字段的相似度作为第一相似度,以及计算所述至少两个待识别账户的账户信息中的预设辅助字段的相似度作为第二相似度;
第二计算模块,用于对所述第一相似度和所述第二相似度进行加权平均,得到平均相似度;
相似账户确定模块,用于在所述平均相似度达到预设阈值的情况下,将所述至少两个待识别账户确定为相同用户的账户,并将来自所述至少两个待识别账户的数据融合。
7.根据权利要求6所述的相似账户识别装置,其特征在于,所述装置还包括:
预处理模块,用于在所述聚类模块对所述多个待识别账户的账户信息进行聚类之前,针对每个待识别账户,将该待识别账户的账户信息中的所述预设主字段和至少一个所述预设辅助字段确定为待处理字段;将所述待处理字段从字符型字段转换为数值型字段。
8.根据权利要求7所述的相似账户识别装置,其特征在于,所述预处理模块通过以下方式将所述待处理字段从字符型字段转换为数值型字段:
将所述待处理字段切分成多个片段;以所述片段为词,以所述待处理字段为文章,分别计算所述多个片段的词频-逆向文件频率;使用词袋法生成所述待处理字段的高维稀疏向量,其中,所述高维稀疏向量包括所述待处理字段中的各个片段的词频-逆向文件频率;对所述高维稀疏向量的维度进行压缩,得到所述数值型字段。
9.根据权利要求8所述的相似账户识别装置,其特征在于,所述预处理模块对所述高维稀疏向量的维度进行压缩的具体方式为:
通过PCA算法确定所述高维稀疏向量中的低维主成分,并删除除所述低维主成分之外的其他成分。
10.根据权利要求7-9中任一项所述的相似账户识别装置,其特征在于,所述预处理模块,还用于在所述聚类模块对所述多个待识别账户的账户信息进行聚类之前,将所述多个待识别账户的账户信息处理成预设格式;当任一待识别账户为邮箱账户时,删除该邮箱账户的域名字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811419389.8A CN109543040A (zh) | 2018-11-26 | 2018-11-26 | 相似账户识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811419389.8A CN109543040A (zh) | 2018-11-26 | 2018-11-26 | 相似账户识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543040A true CN109543040A (zh) | 2019-03-29 |
Family
ID=65850526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811419389.8A Pending CN109543040A (zh) | 2018-11-26 | 2018-11-26 | 相似账户识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543040A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110224851A (zh) * | 2019-04-19 | 2019-09-10 | 平安科技(深圳)有限公司 | 账户信息的合并方法、装置、计算机设备及计算机存储介质 |
CN110826605A (zh) * | 2019-10-24 | 2020-02-21 | 北京明略软件系统有限公司 | 一种跨平台识别用户的方法及装置 |
CN111127094A (zh) * | 2019-12-19 | 2020-05-08 | 秒针信息技术有限公司 | 一种账户匹配方法、装置、电子设备和存储介质 |
CN111835730A (zh) * | 2020-06-18 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 服务账号处理方法、装置、电子设备及可读存储介质 |
WO2021007757A1 (zh) * | 2019-07-15 | 2021-01-21 | 深圳市欢太科技有限公司 | 用户识别方法及相关产品 |
CN112487250A (zh) * | 2019-09-11 | 2021-03-12 | 武汉斗鱼网络科技有限公司 | 识别养号账号群的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066616A (zh) * | 2017-05-09 | 2017-08-18 | 北京京东金融科技控股有限公司 | 用于账号处理的方法、装置及电子设备 |
CN108846422A (zh) * | 2018-05-28 | 2018-11-20 | 中国人民公安大学 | 跨社交网络的账号关联方法及系统 |
-
2018
- 2018-11-26 CN CN201811419389.8A patent/CN109543040A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066616A (zh) * | 2017-05-09 | 2017-08-18 | 北京京东金融科技控股有限公司 | 用于账号处理的方法、装置及电子设备 |
CN108846422A (zh) * | 2018-05-28 | 2018-11-20 | 中国人民公安大学 | 跨社交网络的账号关联方法及系统 |
Non-Patent Citations (3)
Title |
---|
ALEXANDROS NTOULAS等: "Detecting Spam Web Pages through Content Analysis", 《WWW "06: PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
YUHUAN121: "词袋模型与TF-IDF", 《HTTPS://WWW.JIANSHU.COM/P/0422853B57A8》 * |
王明月: "基于深度学习的林业信息文本分类算法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110224851A (zh) * | 2019-04-19 | 2019-09-10 | 平安科技(深圳)有限公司 | 账户信息的合并方法、装置、计算机设备及计算机存储介质 |
CN110224851B (zh) * | 2019-04-19 | 2022-08-19 | 平安科技(深圳)有限公司 | 账户信息的合并方法、装置、计算机设备及计算机存储介质 |
WO2021007757A1 (zh) * | 2019-07-15 | 2021-01-21 | 深圳市欢太科技有限公司 | 用户识别方法及相关产品 |
CN113940033A (zh) * | 2019-07-15 | 2022-01-14 | 深圳市欢太科技有限公司 | 用户识别方法及相关产品 |
CN113940033B (zh) * | 2019-07-15 | 2023-10-20 | 深圳市欢太科技有限公司 | 用户识别方法及相关产品 |
CN112487250A (zh) * | 2019-09-11 | 2021-03-12 | 武汉斗鱼网络科技有限公司 | 识别养号账号群的方法及装置 |
CN112487250B (zh) * | 2019-09-11 | 2022-06-21 | 武汉斗鱼网络科技有限公司 | 识别养号账号群的方法及装置 |
CN110826605A (zh) * | 2019-10-24 | 2020-02-21 | 北京明略软件系统有限公司 | 一种跨平台识别用户的方法及装置 |
CN111127094A (zh) * | 2019-12-19 | 2020-05-08 | 秒针信息技术有限公司 | 一种账户匹配方法、装置、电子设备和存储介质 |
CN111127094B (zh) * | 2019-12-19 | 2023-08-25 | 秒针信息技术有限公司 | 一种账户匹配方法、装置、电子设备和存储介质 |
CN111835730A (zh) * | 2020-06-18 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 服务账号处理方法、装置、电子设备及可读存储介质 |
CN111835730B (zh) * | 2020-06-18 | 2023-04-28 | 北京嘀嘀无限科技发展有限公司 | 服务账号处理方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543040A (zh) | 相似账户识别方法及装置 | |
Karimi et al. | News recommender systems–Survey and roads ahead | |
CN109033200B (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
CN110413870B (zh) | 商品推荐方法、装置及服务器 | |
CN110503459B (zh) | 基于大数据的用户信用度评估方法、装置及存储介质 | |
CN112052394B (zh) | 专业内容信息的推荐方法、系统、终端设备和存储介质 | |
CN110795584B (zh) | 一种用户标识生成方法、装置及终端设备 | |
CN102622399A (zh) | 搜索装置、搜索方法和程序 | |
CN109460519B (zh) | 浏览对象推荐方法及装置、存储介质、服务器 | |
CN110706026A (zh) | 一种异常用户的识别方法、识别装置及可读存储介质 | |
CN107908616B (zh) | 预测趋势词的方法和装置 | |
CN110781955A (zh) | 无标签对象的分类和检测套码的方法、装置及计算机可读存储介质 | |
CN107332905A (zh) | 信息推送方法、装置及服务器 | |
CN113767403B (zh) | 知识图中过指定和欠指定的自动解析 | |
CN113538154A (zh) | 风险对象的识别方法、装置、存储介质和电子设备 | |
CN113836429A (zh) | 书籍推荐方法、终端及存储介质 | |
WO2013095755A2 (en) | Systems and methods for relevance scoring of a digital resource | |
CN112163158A (zh) | 一种基于搜索历史、浏览足迹的搜索推荐方法 | |
CN113077292B (zh) | 一种用户分类方法、装置、存储介质及电子设备 | |
CN113590914B (zh) | 信息处理方法、装置、电子设备和存储介质 | |
CN112560433B (zh) | 一种信息处理的方法及装置 | |
CN108133383A (zh) | 跨区域商品对应方法及系统 | |
TWI613604B (zh) | 推薦系統、方法及其電腦可讀取記錄媒體 | |
CN113407859B (zh) | 一种资源推荐方法、装置、电子设备及存储介质 | |
CN113420214B (zh) | 一种电子交易对象推荐方法和装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing Applicant after: Beijing Zhichuangyu Information Technology Co., Ltd. Address before: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing Applicant before: Beijing Knows Chuangyu Information Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |