CN113536252B - 账号识别方法和计算机可读存储介质 - Google Patents

账号识别方法和计算机可读存储介质 Download PDF

Info

Publication number
CN113536252B
CN113536252B CN202110827571.2A CN202110827571A CN113536252B CN 113536252 B CN113536252 B CN 113536252B CN 202110827571 A CN202110827571 A CN 202110827571A CN 113536252 B CN113536252 B CN 113536252B
Authority
CN
China
Prior art keywords
account
characteristic
data
determining
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110827571.2A
Other languages
English (en)
Other versions
CN113536252A (zh
Inventor
靳泽雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Seashell Housing Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seashell Housing Beijing Technology Co Ltd filed Critical Seashell Housing Beijing Technology Co Ltd
Priority to CN202110827571.2A priority Critical patent/CN113536252B/zh
Publication of CN113536252A publication Critical patent/CN113536252A/zh
Application granted granted Critical
Publication of CN113536252B publication Critical patent/CN113536252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种账号识别方法和计算机可读存储介质,其中,方法包括:接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据;基于第一账号数据确定第一账号对应的第一账号特征,基于每个第二账号数据确定第二账号对应的第二账号特征;基于第一账号数据和第二账号数据,得到第一账号对应的第一关联特征,以及至少一个第二账号对应的至少一个第二关联特征;基于第一账号特征和第一关联特征,以及至少一个第二账号特征和至少一个第二关联特征,从至少部分第二账号中确定与第一账号相似的至少一个第二账号;本实施例利用了账号在多个维度的信息,更灵活的判断两个账号是否相似。

Description

账号识别方法和计算机可读存储介质
技术领域
本公开实施例涉及一种账号识别方法和计算机可读存储介质。
背景技术
随着科技的不断发展,越来越多的人使用手机等移动通讯工具相互联系,用户每更换一次手机号码或设备等工具,关于该账号的各方面信息就需要重新计算和积累,不利于分析业务对象特征,因此如果能将多个账号归属到同一自然人,则可以给每个自然人提供一个完整的信息图。在房产行业可以发现经纪人的虚假行为(如影子经纪人等)、不诚信行为,对同一自然人的行为做到有迹可循。
发明内容
本公开的实施例提供了一种账号识别方法和计算机可读存储介质。
根据本公开实施例的一个方面,提供了一种账号识别方法,包括:
接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据;其中,所述账号集中包括至少一个第二账号;
基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征;
基于所述第一账号数据和所述第二账号数据,得到表征所述第一账号分别与所述至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征所述至少部分第二账号中的每个第二账号与所述第一账号之间的关联性的第二关联特征;
基于所述第一账号特征和所述第一关联特征,以及所述至少部分第二账号特征和所述第二关联特征,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号。
可选地,所述基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征,包括:
使用哈希算法对所述第一账号数据进行编码,得到设定长度的低维度向量表达的至少一个第一账号特征;
使用哈希算法对每个所述第二账号数据进行编码,得到设定长度的低维度向量表达的至少一个第二账号特征。
可选地,所述基于所述第一账号数据和所述第二账号数据,得到表征所述第一账号分别与所述至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征所述至少部分第二账号中的每个第二账号与所述第一账号之间的关联性的第二关联特征,包括:
基于所述第一账号数据和所述第二账号数据,构建包括多个节点和至少一条路径的连通图;
基于所述连通图,得到所述第一关联特征和至少一个所述第二关联特征。
可选地,所述基于所述第一账号数据和所述第二账号数据,构建包括多个节点和至少一条路径的连通图,包括:
将所述第一账号作为所述连通图的起点,将所述第一账号数据中包括的多个类别数据分别作为所述连通图的中间节点;
将所述多个中间节点中与所述第一账号之间存在关联关系的至少一个中间节点与所述起点连接;
根据所述多个中间节点之间的关联关系,将所述多个中间节点进行连接;
基于所述至少部分第二账号与所述至少一个中间节点之间的关联关系,将所述至少部分第二账号分别与对应的所述中间节点进行连接,作为所述连通图的至少一个终点。
可选地,所述基于所述第一账号特征和所述第一关联特征,以及所述至少部分第二账号特征和所述第二关联特征,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号,包括:
针对所述至少部分第二账号中的每个所述第二账号,将所述第二账号对应的所述第二账号特征和所述第二关联特征,以及所述第一账号特征和所述第一关联特征,输入神经网络,基于所述神经网络输出所述第二账号与所述第一账号之间的相似度值;
基于所述至少部分第二账号对应的相似度值,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号。
可选地,所述将所述第二账号对应的所述第二账号特征和所述第二关联特征,以及所述第一账号特征和所述第一关联特征,输入神经网络,基于所述神经网络输出所述第二账号与所述第一账号之间的相似度值,包括:
基于所述神经网络中的第一拼接分支网络对所述第一账号特征和所述第一关联特征进行维度拼接,得到所述第一账号的第一连接特征;
基于所述神经网络中的第二拼接分支网络对所述第二账号特征和所述第二关联特征进行维度拼接,得到所述第二账号的第二连接特征;
基于所述神经网络中的第三拼接分支网络对所述第二连接特征与所述第一连接特征进行维度拼接,得到的拼接特征;
基于所述神经网络中的相似度分支网络对所述拼接特征进行相似度预测,得到所述第二账号与所述第一账号之间的相似度值。
可选地,所述基于所述神经网络中的相似度分支网络对所述拼接特征进行相似度预测,得到所述第二账号与所述第一账号之间的相似度值,包括:
基于所述相似度分支网络中的全连接单元对所述拼接特征进行归一化处理,得到归一化特征;
基于所述相似度分支网络中与所述全连接单元并行的权重单元确定所述拼接特征中每个维度特征的权重值;
基于每个所述维度特征的权重值和所述拼接特征,确定权重拼接特征;
基于所述归一化特征和所述权重拼接特征输入所述相似度分支网络中的预测单元,得到所述第二账号与所述第一账号之间的相似度值。
可选地,所述基于所述至少部分第二账号对应的相似度值,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号,包括:
基于所述至少一个相似度值中的每个相似度值与相似度阈值进行比较;
将所述相似度值大于或等于所述相似度阈值的至少一个相似度值对应的至少一个第二账号,确定为与所述第一账号相似的至少一个第二账号。
可选地,所述将所述第二账号对应的所述第二账号特征和所述第二关联特征,以及所述第一账号特征和所述第一关联特征,输入神经网络之前,还包括:
基于训练账号对对应的训练账号数据,得到训练特征对;其中,所述训练账号对包括具有已知相似度值的一对训练账号;
将所述训练特征对输入所述神经网络,得到预测相似度值;
基于所述预测相似度值和所述已知相似度值确定网络损失;
基于所述网络损失调整所述神经网络的网络参数。
可选地,所述基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征之前,还包括:
基于所述第一账号特征中的关键特征对所述账号集中的所有第二账号进行筛选,得到所述至少部分第二账号构成的候选集合;
所述基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征,包括:
基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于所述候选集合确定所述第二账号对应的第二账号特征。
根据本公开实施例的另一方面,提供了一种账号识别装置,包括:
数据获取模块,用于接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据;其中,所述账号集中包括至少一个第二账号;
特征确定模块,用于基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征;
关联特征确定模块,用于基于所述第一账号数据和所述第二账号数据,得到表征所述第一账号分别与所述至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征所述至少部分第二账号中的每个第二账号与所述第一账号之间的关联性的第二关联特征;
账号识别模块,用于基于所述第一账号特征和所述第一关联特征,以及所述至少部分第二账号特征和所述第二关联特征,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号。
可选地,所述特征确定模块,具体用于使用哈希算法对所述第一账号数据进行编码,得到设定长度的低维度向量表达的至少一个第一账号特征;使用哈希算法对每个所述第二账号数据进行编码,得到设定长度的低维度向量表达的至少一个第二账号特征。
可选地,所述关联特征确定模块,包括:
连通图单元,用于基于所述第一账号数据和所述第二账号数据,构建包括多个节点和至少一条路径的连通图;
图特征单元,用于基于所述连通图,得到所述第一关联特征和至少一个所述第二关联特征。
可选地,所述连通图单元,具体用于将所述第一账号作为所述连通图的起点,将所述第一账号数据中包括的多个类别数据分别作为所述连通图的中间节点;将所述多个中间节点中与所述第一账号之间存在关联关系的至少一个中间节点与所述起点连接;根据所述多个中间节点之间的关联关系,将所述多个中间节点进行连接;基于所述至少部分第二账号与所述至少一个中间节点之间的关联关系,将所述至少部分第二账号分别与对应的所述中间节点进行连接,作为所述连通图的至少一个终点。
可选地,所述账号识别模块,包括:
相似度确定单元,用于针对所述至少部分第二账号中的每个所述第二账号,将所述第二账号对应的所述第二账号特征和所述第二关联特征,以及所述第一账号特征和所述第一关联特征,输入神经网络,基于所述神经网络输出所述第二账号与所述第一账号之间的相似度值;
账号确定单元,用于基于所述至少部分第二账号对应的相似度值,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号。
可选地,所述相似度确定单元,具体用于基于所述神经网络中的第一拼接分支网络对所述第一账号特征和所述第一关联特征进行维度拼接,得到所述第一账号的第一连接特征;基于所述神经网络中的第二拼接分支网络对所述第二账号特征和所述第二关联特征进行维度拼接,得到所述第二账号的第二连接特征;基于所述神经网络中的第三拼接分支网络对所述第二连接特征与所述第一连接特征进行维度拼接,得到的拼接特征;基于所述神经网络中的相似度分支网络对所述拼接特征进行相似度预测,得到所述第二账号与所述第一账号之间的相似度值。
可选地,所述相似度确定单元在基于所述神经网络中的相似度分支网络对所述拼接特征进行相似度预测,得到所述第二账号与所述第一账号之间的相似度值时,用于基于所述相似度分支网络中的全连接单元对所述拼接特征进行归一化处理,得到归一化特征;基于所述相似度分支网络中与所述全连接单元并行的权重单元确定所述拼接特征中每个维度特征的权重值;基于每个所述维度特征的权重值和所述拼接特征,确定权重拼接特征;基于所述归一化特征和所述权重拼接特征输入所述相似度分支网络中的预测单元,得到所述第二账号与所述第一账号之间的相似度值。
可选地,所述账号确定单元,具体用于基于所述至少一个相似度值中的每个相似度值与相似度阈值进行比较;将所述相似度值大于或等于所述相似度阈值的至少一个相似度值对应的至少一个第二账号,确定为与所述第一账号相似的至少一个第二账号。
可选地,所述装置还包括:
网络训练模块,用于基于训练账号对对应的训练账号数据,得到训练特征对;其中,所述训练账号对包括具有已知相似度值的一对训练账号;将所述训练特征对输入所述神经网络,得到预测相似度值;基于所述预测相似度值和所述已知相似度值确定网络损失;基于所述网络损失调整所述神经网络的网络参数。
可选地,所述装置还包括:
筛选模块,用于基于所述第一账号特征中的关键特征对所述账号集中的所有第二账号进行筛选,得到所述至少部分第二账号构成的候选集合;
所述特征确定模块,具体用于基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于所述候选集合确定所述第二账号对应的第二账号特征。
根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的账号识别方法。
根据本公开实施例的还一方面,提供了一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的账号识别方法。
根据本公开实施例的再一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上任一项实施例所述的账号识别方法的步骤。
基于本公开上述实施例提供的一种账号识别方法和计算机可读存储介质,接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据;其中,所述账号集中包括至少一个第二账号;基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征;基于所述第一账号数据和所述第二账号数据,得到表征所述第一账号分别与所述至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征所述至少部分第二账号中的每个第二账号与所述第一账号之间的关联性的第二关联特征;基于所述第一账号特征和所述第一关联特征,以及所述至少部分第二账号特征和所述第二关联特征,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号;本实施例利用了账号在多个维度的信息,更灵活的判断两个账号是否相似,提供了一种高稳定性高差异性的账号识别方法。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的账号识别方法的流程示意图。
图2是本公开图1所示的实施例中步骤106的一个流程示意图。
图3是本公开一示例性实施例提供的账号识别方法中一个具体示例确定的连通图示意图。
图4是本公开一示例性实施例提供的账号识别方法中基于神经网络确定相似度值的流程示意图。
图5是本公开一示例性实施例提供的账号识别装置的结构示意图。
图6是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,在一些技术方案中,账号识别主要是利用索引技术对两个账号进行信息特征匹配,再根据两个账号的信息特征匹配数量是否超过某一阈值来识别账号是否为同一自然人;但这些技术方案至少存在以下问题:由于修改设备参数、更换手机号等行为导致用户信息变更,该方法便无法精准的将该部分账号识别为同一自然人,最终导致准确率上限较低。
示例性方法
图1是本公开一示例性实施例提供的账号识别方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
步骤102,接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据。
其中,账号集中包括至少一个第二账号。
其中,第一账号数据和第二账号数据都是账号数据,其中账号数据可以包括但不限于:属性数据和行为数据等,属性数据指表示对应账号的属性的相关数据,例如,账号名、电话号码等;行为数据表示对应账号的行为的相关数据,例如,登录某一设备、查看某一信息等。
步骤104,基于第一账号数据确定第一账号对应的第一账号特征,基于每个第二账号数据确定第二账号对应的第二账号特征。
在一实施例中,可以通过编码将第一账号数据转换为向量形式表达的第一账号特征,同样基于编码将第二账号数据转换为第二账号特征;编码方式可以包括但不限于哈希算法等,例如:输入任意长度的数据,经过哈希算法处理后输出一个定长的数据。这样可以将不同类型的数据(字符/中文/英文…)压缩转化为低维稠密向量(例如,16位等),且尽量不损失原始数据的表达能力,即本实施例中得到的第一账号特征和第二账号特征表现为定长的低维稠密向量;例如,将第一账号数据中的“经纪人:小明”和“手机号:13000000000”分别进行编码,得到对应的两个第一账号特征为:“1472984659245573”和“1895728590375398”;本实施例中不限制具体编码方式,只需编码后的特征能唯一指向编码前的数据即可。
可选地,使用哈希算法对第一账号数据进行编码,得到设定长度的低维度向量表达的至少一个第一账号特征;
使用哈希算法对每个第二账号数据进行编码,得到设定长度的低维度向量表达的至少一个第二账号特征。
步骤106,基于第一账号数据和第二账号数据,得到表征第一账号分别与至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征至少部分第二账号中的每个第二账号与第一账号之间的关联性的第二关联特征。
其中,每个第二账号对应一个第二关联特征。
本实施例中,通过第一关联特征表达第一账号与每个第二账号之间的关联关系,而每个第二关联特征分别表示每个第二账号与第一账号之间的关联关系。
步骤108,基于第一账号特征和第一关联特征,以及至少部分第二账号特征和第二关联特征,从至少部分第二账号中确定与第一账号相似的至少一个第二账号。
本实施例中,确定的与第一账号相似的至少一个第二账号可以作为可能与第一账号为同一自然人的账号,通过相似度识别,提高了确定账号为同一自然人的效率和准确率。
本公开上述实施例提供的一种账号识别方法,接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据;其中,所述账号集中包括至少一个第二账号;基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征;基于所述第一账号数据和所述第二账号数据,得到表征所述第一账号分别与所述至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征所述至少部分第二账号中的每个第二账号与所述第一账号之间的关联性的第二关联特征;基于所述第一账号特征和所述第一关联特征,以及所述至少部分第二账号特征和所述第二关联特征,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号;本实施例利用了账号在多个维度的信息,更灵活的判断两个账号是否相似,提供了一种高稳定性高差异性的账号识别方法。
如图2所示,在上述图1所示实施例的基础上,步骤106可包括如下步骤:
步骤1061,基于第一账号数据和第二账号数据,构建包括多个节点和至少一条路径的连通图。
可选地,将第一账号作为连通图的起点,将第一账号数据中包括的多个类别数据分别作为连通图的中间节点;
将多个中间节点中与第一账号之间存在关联关系的至少一个中间节点与起点连接;
根据多个中间节点之间的关联关系,将多个中间节点进行连接;
基于至少部分第二账号与至少一个中间节点之间的关联关系,将至少部分第二账号分别与对应的中间节点进行连接,作为连通图的至少一个终点。
本实施例中,每个第一账号数据与其他至少一个第一账号数据之间存在关联关系,不同数据之间的关联类型不同,本实施例通过将存在关联关系的多个第一账号数据进行连接,建立连通图中的起点路径,每个第二账号对应的所有第二账号数据之间同样存在关联关系,本实施例通过第二账号数据与第一账号数据的对应关系(例如,相同),将第二账号连接到起点路径上,实现第二账号与第一账号之间的关联。
例如,以下表1所示的数据为例:
Figure BDA0003174217460000131
Figure BDA0003174217460000141
表1
基于上述表1可知,员工1(第一账号)对应的账号数据包括:Employee1、Phone1和Device1,其中,Employee1与Phone1之间是绑定关系,Phone1与Device1之间是SIM卡插入关系,因此,基于员工1可建立的起点路径包括3个节点,起点为Employee1,依次连接Phone1和Device1;而员工2(一个第二账号)对应的第二账号数据包括:Employee2和Phone1,二者之间存在绑定关系,员工3(另一个第二账号)对应的第二账号数据包括:Employee3和Device1,二者之间存在登录关系;由于员工2中存在与起点路径相同的节点Phone1,因此,将节点Employee2与起点路径中的节点Phone1连接,而员工3中存在与起点路径相同的节点Device1,因此将节点Employee3与起点路径中的节点Device1连接,得到如图3所示的连通图。
步骤1062,基于连通图,得到第一关联特征和至少一个第二关联特征。
本实施例通过建立连通图,根据连通图求取度特征数,度特征数包括一度数、二度数……n度数,n的值由连通图中路径中包括的边(或中间节点)的数量决定;其中,自然人A与自然人B的一度数为这两个节点之间有路径且路径上的中间节点数为0的路径数;自然人A与自然人B的2度数为这两个节点之间有路径且路径上的顶点数为1的路经数;自然人A与自然人B的n度数为这两个节点之间有路径且路径上的顶点数为n-1的路经数。例如,如图3所示Employee1与Employee2的一度数为0,二度数为1;Employee1与Employee3的一度数为0,二度数为0,三度数为1;图3所示实施例中,最长路径边数为3,因此n取为3,此时员工1对应的第一关联特征为:011,员工2对应的第二关联特征为:010,员工3对应的第二关联特征为:001,另外:如果Employee1与Employee2之间有两条路径,且每条路径之前都有1个中间节点,则二度数为2,对应的第二关联特征为020。
本实施例中,通过连通图可以快速确定第一账号与所有第二账号之间的连通路径,基于该连通路径可确定第一账号对应的第一关联特征,而对于至少一个第二账号得到的第二关联特征,只需确定该第二账号与第一账号的连通路径,通过该连通路径包括的中间节点的数量确定第二账号的度数,进而确定每个第二账号对应的第二关联特征。
在一些可选的实施例中,本申请上述实施例中的步骤108包括:
针对至少部分第二账号中的每个第二账号:将第二账号对应的第二账号特征和第二关联特征,以及第一账号特征和第一关联特征,输入神经网络,基于神经网络输出第二账号与第一账号之间的相似度值;
本实施例中,神经网络具有两个输入端,分别用于接受第一账号的特征和第二账号的特征,通过神经网络的处理,输出输入神经网络的第二账号与第一账号之间的相似度值;可选地,该神经网络经过训练。
基于至少部分第二账号对应的相似度值,从至少部分第二账号中确定与第一账号相似的至少一个第二账号。
可选地,基于至少一个相似度值中的每个相似度值与相似度阈值进行比较;
将相似度值大于或等于相似度阈值的至少一个相似度值对应的至少一个第二账号,确定为与第一账号相似的至少一个第二账号。
本实施例中,通过设置一个相似度阈值,通过与相似度阈值比较确定哪些第二账号与第一账号对应的是同一自然人,实现了自然人对应多账号的快速识别,其中,相似度阈值可根据实际情况进行预先设定。
如图4所示,在上述实施例的基础上,基于神经网络输出第二账号与第一账号之间的相似度值,可包括如下步骤:
步骤401,基于神经网络中的第一拼接分支网络对第一账号特征和第一关联特征进行维度拼接,得到第一账号的第一连接特征。
步骤402,基于神经网络中的第二拼接分支网络对第二账号特征和第二关联特征进行维度拼接,得到第二账号的第二连接特征。
可选地,本实施例中步骤401和402可同时执行,第一拼接分支网络和第二拼接分支网络分别作为神经网络的两个输入端接收第一账号的多个特征和第二账号的多个特征,可选地,第一拼接分支网络和第二拼接分支网络实现的功能相同,同样实现多个特征的维度拼接。
可选地,在将第一账号特征和第一关联特征进行维度拼接之前,还可以将第一关联特征转换为低维稠密向量,例如,利用第一拼接分支网络中的嵌入层(embedding layer)实现第一关联特征的维度转换;同样的,在将第二账号特征和第二关联特征进行维度拼接之前,还可以将第二关联特征转换为低维稠密向量,例如,利用第二拼接分支网络中的嵌入层(embedding layer)实现第二关联特征的维度转换。
步骤403,基于神经网络中的第三拼接分支网络对第二连接特征与第一连接特征进行维度拼接,得到的拼接特征。
可选地,该第三拼接分支网络可以至少包括组合层(combination layer),通过组合成将第一连接特征和第二连接特征进行维度拼接。
步骤404,基于神经网络中的相似度分支网络对拼接特征进行相似度预测,得到第二账号与第一账号之间的相似度值。
本实施例中,将维度拼接后向量形式表达的拼接特征输入到相似度分支网络,基于相似度分支网络对该拼接特征进行处理,得到相似度值,实现了通过神经网络的相似度预测,克服了现有技术中相似度预测存在的问题。
可选地,在上述实施例的基础上,步骤404可以包括:
基于相似度分支网络中的全连接单元对拼接特征进行归一化处理,得到归一化特征。
基于相似度分支网络中与全连接单元并行的权重单元确定拼接特征中每个维度特征的权重值。
基于每个维度特征的权重值和拼接特征,确定权重拼接特征;
基于归一化特征和权重拼接特征输入相似度分支网络中的预测单元,得到第二账号与第一账号之间的相似度值。
本实施例中,相似度分支网络的结构包括并行的全连接单元和权重单元,以及与全连接单元和权重单元连接的预测单元;全连接单元中包括多层全连接层,其中,每层全连接层通过激活函数将每层全连接层的输出限定在某个数值内(例如,(-1,1)之间);其中,激活函数可以为tanh函数、sigmoid等函数等,确保全连接单元中每一层全连接层的输出归一化为某个数值范围之内。与全连接单元并行的权重单元可以是一个SENET网络模块,其目的是学习不同维度特征的重要程度,对重要的维度特征通过增大其权重值实现特征增强,对蕴含信息量不多的维度特征通过减小其权重值实现特征削弱。权重单元的输入为拼接特征,例如,对维度为f的拼接特征,权重单元产生一个对应拼接特征维度的权重向量A=[a1,...,ai,...af],最后将拼接特征乘上权重向量A得到权重拼接特征V=[v1,...,vi,...vf]。
在一些可选的实施例中,将第二账号对应的第二账号特征和第二关联特征,以及第一账号特征和第一关联特征,输入神经网络之前,还可以包括:
基于训练账号对对应的训练账号数据,得到训练特征对;其中,训练账号对包括具有已知相似度值的一对训练账号;
将训练特征对输入神经网络,得到预测相似度值;
基于预测相似度值和已知相似度值确定网络损失;
基于网络损失调整神经网络的网络参数。
本实施例中,在应用神经网络进行相似度预测之前,需要利用已知相似度值的多对训练账号对神经网络进行训练,其中,训练账号对中的两个训练账号对应的特征可以基于上述实施例相同的方式获得,即,训练账号对应相应的账号特征和关联特征(基于训练账号对之间的关联关系建立连通图得到的);训练神经网络的目标函数如以下公式(1)所示:
Figure BDA0003174217460000181
其中,前两项表示神经网络的交叉熵,第三项表示权重的正则项,正则项使用的是L2正则项,λ为设定的常数;yi表示第i对训练账号对之间的已知相似度值,pi表示神经网络输出的预测相似度值,wl表示网络参数,N表示训练账号集合中训练账号对的数量。
本实施例将确定的网络损失通过梯度反向传播的方式对神经网络中的网络参数进行调整,在未达到训练停止条件之前循环对训练账号对进行预测,得到新的网络损失,其中,训练停止条件可以包括但不限于:训练次数达到设定次数、网络损失小于设定值、连续两次训练得到的网络损失之差小于设定值等。可选地,本实施例中,在对神经网络中的网络参数进行调整的时,还对神经网络中的权重单元中的权重值进行调整,以使训练后的神经网络中的对不同维度提供的权重值是适合当前任务场景的。
在一些可选的实施例中,步骤104之前,还可以包括:
基于第一账号特征中的关键特征对账号集中的所有第二账号进行筛选,得到至少部分第二账号构成的候选集合。
此时步骤104包括:
基于第一账号数据确定第一账号对应的第一账号特征,基于候选集合确定第二账号对应的第二账号特征。
本实施例为了提高账号识别的效率,在进行账号识别之前,将所有第二账号先通过关键特征与第一账号进行匹配,只有关键特征匹配第二账号才存入候选集合中,第一账号从候选集合中识别与其对应同一自然人的第二账号,进一步提高了账号识别的效率。
本公开实施例提供的任一种账号识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种账号识别方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种账号识别方法。下文不再赘述。
示例性装置
图5是本公开一示例性实施例提供的账号识别装置的结构示意图。如图5所示,本实施例提供的装置包括:
数据获取模块51,用于接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据。
其中,账号集中包括至少一个第二账号。
特征确定模块52,用于基于第一账号数据确定第一账号对应的第一账号特征,基于每个第二账号数据确定第二账号对应的第二账号特征。
关联特征确定模块53,用于基于第一账号数据和第二账号数据,得到表征第一账号分别与至少部分第二账号中每个第二账号之间的关联性的第一关联特征,以及表征至少部分第二账号中的每个第二账号与第一账号之间的关联性的的第二关联特征。
其中,每个第二账号对应一个第二关联特征。
账号识别模块54,用于基于第一账号特征和第一关联特征,以及至少部分第二账号特征和第二关联特征,从至少部分第二账号中确定与第一账号相似的至少一个第二账号。
本公开上述实施例提供的一种账号识别装置,接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据;其中,所述账号集中包括至少一个第二账号;基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征;基于所述第一账号数据和所述第二账号数据,得到表征所述第一账号分别与所述至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征所述至少部分第二账号中的每个第二账号与所述第一账号之间的关联性的第二关联特征;基于所述第一账号特征和所述第一关联特征,以及所述至少部分第二账号特征和所述第二关联特征,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号;本实施例利用了账号在多个维度的信息,更灵活的判断两个账号是否相似,提供了一种高稳定性高差异性的账号识别装置。
可选地,特征确定模块52,具体用于使用哈希算法对第一账号数据进行编码,得到设定长度的低维度向量表达的至少一个第一账号特征;使用哈希算法对每个第二账号数据进行编码,得到设定长度的低维度向量表达的至少一个第二账号特征。
在一些可选的实施例中,关联特征确定模块53,包括:
连通图单元,用于基于第一账号数据和第二账号数据,构建包括多个节点和至少一条路径的连通图;
图特征单元,用于基于连通图,得到第一关联特征和至少一个第二关联特征。
可选地,连通图单元,具体用于将第一账号作为连通图的起点,将第一账号数据中包括的多个类别数据分别作为连通图的中间节点;将多个中间节点中与第一账号之间存在关联关系的至少一个中间节点与起点连接;根据多个中间节点之间的关联关系,将多个中间节点进行连接;基于至少部分第二账号与至少一个中间节点之间的关联关系,将至少部分第二账号分别与对应的中间节点进行连接,作为连通图的至少一个终点。
在一些可选的实施例中,账号识别模块54,包括:
相似度确定单元,用于针对至少部分第二账号中的每个第二账号,将第二账号对应的第二账号特征和第二关联特征,以及第一账号特征和第一关联特征,输入神经网络,基于神经网络输出第二账号与第一账号之间的相似度值;
账号确定单元,用于基于至少部分第二账号对应的相似度值,从至少部分第二账号中确定与第一账号相似的至少一个第二账号。
可选地,相似度确定单元,具体用于基于神经网络中的第一拼接分支网络对第一账号特征和第一关联特征进行维度拼接,得到第一账号的第一连接特征;基于神经网络中的第二拼接分支网络对第二账号特征和第二关联特征进行维度拼接,得到第二账号的第二连接特征;基于神经网络中的第三拼接分支网络对第二连接特征与第一连接特征进行维度拼接,得到的拼接特征;基于神经网络中的相似度分支网络对拼接特征进行相似度预测,得到第二账号与第一账号之间的相似度值。
可选地,相似度确定单元在基于神经网络中的相似度分支网络对拼接特征进行相似度预测,得到第二账号与第一账号之间的相似度值时,用于基于相似度分支网络中的全连接单元对拼接特征进行归一化处理,得到归一化特征;基于相似度分支网络中与全连接单元并行的权重单元确定拼接特征中每个维度特征的权重值;基于每个维度特征的权重值和拼接特征,确定权重拼接特征;基于归一化特征和权重拼接特征输入相似度分支网络中的预测单元,得到第二账号与第一账号之间的相似度值。
可选地,账号确定单元,具体用于基于至少一个相似度值中的每个相似度值与相似度阈值进行比较;将相似度值大于或等于相似度阈值的至少一个相似度值对应的至少一个第二账号,确定为与第一账号相似的至少一个第二账号。
在一些可选的实施例中,本实施例提供的装置还包括:
网络训练模块,用于基于训练账号对对应的训练账号数据,得到训练特征对;其中,训练账号对包括具有已知相似度值的一对训练账号;将训练特征对输入神经网络,得到预测相似度值;基于预测相似度值和已知相似度值确定网络损失;基于网络损失调整神经网络的网络参数。
在一些可选的实施例中,本实施例提供的装置还包括:
筛选模块,用于基于第一账号特征中的关键特征对账号集中的所有第二账号进行筛选,得到至少部分第二账号构成的候选集合;
特征确定模块52,具体用于基于第一账号数据确定第一账号对应的第一账号特征,基于候选集合确定第二账号对应的第二账号特征。
示例性电子设备
下面,参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图6图示了根据本公开实施例的电子设备的框图。
如图6所示,电子设备60包括一个或多个处理器61和存储器62。
处理器61可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备60中的其他组件以执行期望的功能。
存储器62可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的账号识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备60还可以包括:输入装置63和输出装置64,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置63可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置63可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入装置63还可以包括例如键盘、鼠标等等。
该输出装置64可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置64可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备60中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备60还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的账号识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的账号识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (9)

1.一种账号识别方法,其特征在于,包括:
接收第一账号对应的第一账号数据,以及账号集中至少部分第二账号对应的第二账号数据;其中,所述账号集中包括至少一个第二账号;
基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征;
基于所述第一账号数据和所述第二账号数据,得到表征所述第一账号分别与所述至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征所述至少部分第二账号中的每个第二账号与所述第一账号之间的关联性的第二关联特征;
基于所述第一账号特征和所述第一关联特征,以及所述至少部分第二账号特征和所述第二关联特征,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号;包括:针对所述至少部分第二账号中的每个所述第二账号,基于神经网络中的第一拼接分支网络对所述第一账号特征和所述第一关联特征进行维度拼接,得到所述第一账号的第一连接特征;基于所述神经网络中的第二拼接分支网络对所述第二账号特征和所述第二关联特征进行维度拼接,得到所述第二账号的第二连接特征;基于所述神经网络中的第三拼接分支网络对所述第二连接特征与所述第一连接特征进行维度拼接,得到拼接特征;基于所述神经网络中的相似度分支网络对所述拼接特征进行相似度预测,得到所述第二账号与所述第一账号之间的相似度值;
基于所述至少部分第二账号对应的相似度值,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征,包括:
使用哈希算法对所述第一账号数据进行编码,得到设定长度的低维度向量表达的至少一个第一账号特征;
使用哈希算法对每个所述第二账号数据进行编码,得到设定长度的低维度向量表达的至少一个第二账号特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一账号数据和所述第二账号数据,得到表征所述第一账号分别与所述至少部分第二账号中的每个第二账号之间的关联性的第一关联特征,以及表征所述至少部分第二账号中的每个第二账号与所述第一账号之间的关联性的第二关联特征,包括:
基于所述第一账号数据和所述第二账号数据,构建包括多个节点和至少一条路径的连通图;
基于所述连通图,得到所述第一关联特征和至少一个所述第二关联特征。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一账号数据和所述第二账号数据,构建包括多个节点和至少一条路径的连通图,包括:
将所述第一账号作为所述连通图的起点,将所述第一账号数据中包括的多个类别数据分别作为所述连通图的中间节点;
将所述多个中间节点中与所述第一账号之间存在关联关系的至少一个中间节点与所述起点连接;
根据所述多个中间节点之间的关联关系,将所述多个中间节点进行连接;
基于所述至少部分第二账号与所述至少一个中间节点之间的关联关系,将所述至少部分第二账号分别与对应的所述中间节点进行连接,作为所述连通图的至少一个终点。
5.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述神经网络中的相似度分支网络对所述拼接特征进行相似度预测,得到所述第二账号与所述第一账号之间的相似度值,包括:
基于所述相似度分支网络中的全连接单元对所述拼接特征进行归一化处理,得到归一化特征;
基于所述相似度分支网络中与所述全连接单元并行的权重单元确定所述拼接特征中每个维度特征的权重值;
基于每个所述维度特征的权重值和所述拼接特征,确定权重拼接特征;
基于所述归一化特征和所述权重拼接特征输入所述相似度分支网络中的预测单元,得到所述第二账号与所述第一账号之间的相似度值。
6.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述至少部分第二账号对应的相似度值,从所述至少部分第二账号中确定与所述第一账号相似的至少一个第二账号,包括:
基于所述至少一个相似度值中的每个相似度值与相似度阈值进行比较;
将所述相似度值大于或等于所述相似度阈值的至少一个相似度值对应的至少一个第二账号,确定为与所述第一账号相似的至少一个第二账号。
7.根据权利要求1-4任一所述的方法,其特征在于,基于神经网络中的第一拼接分支网络对所述第一账号特征和所述第一关联特征进行维度拼接,得到所述第一账号的第一连接特征之前,还包括:
基于训练账号对对应的训练账号数据,得到训练特征对;其中,所述训练账号对包括具有已知相似度值的一对训练账号;
将所述训练特征对输入所述神经网络,得到预测相似度值;
基于所述预测相似度值和所述已知相似度值确定网络损失;
基于所述网络损失调整所述神经网络的网络参数。
8.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征之前,还包括:
基于所述第一账号特征中的关键特征对所述账号集中的所有第二账号进行筛选,得到所述至少部分第二账号构成的候选集合;
所述基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于每个所述第二账号数据确定所述第二账号对应的第二账号特征,包括:
基于所述第一账号数据确定所述第一账号对应的第一账号特征,基于所述候选集合确定所述第二账号对应的第二账号特征。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的账号识别方法。
CN202110827571.2A 2021-07-21 2021-07-21 账号识别方法和计算机可读存储介质 Active CN113536252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110827571.2A CN113536252B (zh) 2021-07-21 2021-07-21 账号识别方法和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110827571.2A CN113536252B (zh) 2021-07-21 2021-07-21 账号识别方法和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113536252A CN113536252A (zh) 2021-10-22
CN113536252B true CN113536252B (zh) 2022-08-09

Family

ID=78088602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110827571.2A Active CN113536252B (zh) 2021-07-21 2021-07-21 账号识别方法和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113536252B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704566B (zh) * 2021-10-29 2022-01-18 贝壳技术有限公司 识别号主体识别方法、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768659A (zh) * 2011-05-03 2012-11-07 阿里巴巴集团控股有限公司 重复账号自动识别方法和系统
CN110019193A (zh) * 2017-09-25 2019-07-16 腾讯科技(深圳)有限公司 相似帐号识别方法、装置、设备、系统及可读介质
CN111581235A (zh) * 2020-03-25 2020-08-25 贝壳技术有限公司 识别常见关联关系的方法及系统
CN111701247A (zh) * 2020-07-13 2020-09-25 腾讯科技(深圳)有限公司 用于确定统一账号的方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960143B (zh) * 2017-03-23 2020-03-17 网易(杭州)网络有限公司 用户账号的识别方法及装置、存储介质、电子设备
CN110162956B (zh) * 2018-03-12 2024-01-19 华东师范大学 确定关联账户的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768659A (zh) * 2011-05-03 2012-11-07 阿里巴巴集团控股有限公司 重复账号自动识别方法和系统
CN110019193A (zh) * 2017-09-25 2019-07-16 腾讯科技(深圳)有限公司 相似帐号识别方法、装置、设备、系统及可读介质
CN111581235A (zh) * 2020-03-25 2020-08-25 贝壳技术有限公司 识别常见关联关系的方法及系统
CN111701247A (zh) * 2020-07-13 2020-09-25 腾讯科技(深圳)有限公司 用于确定统一账号的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于多维信息的跨平台用户身份识别模型研究》;张淑婷;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210415(第04期);全文 *

Also Published As

Publication number Publication date
CN113536252A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN112036955B (zh) 用户识别方法和装置、计算机可读存储介质、电子设备
CN110929505A (zh) 房源标题的生成方法和装置、存储介质、电子设备
CN109726291B (zh) 分类模型的损失函数优化方法、装置及样本分类方法
CN111159409A (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN114612743A (zh) 深度学习模型的训练方法、目标对象识别方法和装置
CN115809887B (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
CN113536252B (zh) 账号识别方法和计算机可读存储介质
CN110647832A (zh) 获取证件中信息的方法和装置、电子设备和存储介质
CN116701411B (zh) 一种多领域数据归档方法、装置、介质及设备
CN114444476A (zh) 信息处理方法、装置和计算机可读存储介质
CN113704566B (zh) 识别号主体识别方法、存储介质和电子设备
CN114049502B (zh) 神经网络的训练、特征提取、数据处理方法和设备
CN116186708A (zh) 类别识别模型生成方法、装置、计算机设备和存储介质
CN114863162A (zh) 对象分类方法、深度学习模型的训练方法、装置和设备
CN110704619B (zh) 文本分类方法、装置及电子设备
CN110516717B (zh) 用于生成图像识别模型的方法和装置
CN114282049A (zh) 一种视频检索方法、装置、设备及存储介质
CN112185367A (zh) 关键词检测方法和装置、计算机可读存储介质、电子设备
CN115775067B (zh) 会话综合评价方法和装置、电子设备、存储介质
CN111178944B (zh) 房源转化率的预测方法和装置、存储介质、设备
KR20190027560A (ko) 컨텐츠에 포함되는 객체를 분류하는 방법, 장치 및 컴퓨터 프로그램
CN113591987B (zh) 图像识别方法、装置、电子设备和介质
CN114547455B (zh) 热门对象确定方法、装置、存储介质及电子设备
CN113391989B (zh) 程序评估方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220107

Address after: 100085 Floor 101 102-1, No. 35 Building, No. 2 Hospital, Xierqi West Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 101300 room 24, 62 Farm Road, Erjie village, Yangzhen Town, Shunyi District, Beijing

Applicant before: Beijing fangjianghu Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant