CN110110218A - 一种身份关联方法及终端 - Google Patents

一种身份关联方法及终端 Download PDF

Info

Publication number
CN110110218A
CN110110218A CN201810105358.9A CN201810105358A CN110110218A CN 110110218 A CN110110218 A CN 110110218A CN 201810105358 A CN201810105358 A CN 201810105358A CN 110110218 A CN110110218 A CN 110110218A
Authority
CN
China
Prior art keywords
data
virtual objects
real object
similarity
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810105358.9A
Other languages
English (en)
Other versions
CN110110218B (zh
Inventor
陈龙
李葱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Changshengbao Digital Technology Development Co.,Ltd.
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810105358.9A priority Critical patent/CN110110218B/zh
Publication of CN110110218A publication Critical patent/CN110110218A/zh
Application granted granted Critical
Publication of CN110110218B publication Critical patent/CN110110218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种身份关联方法和终端,其中方法包括,获取第一真实对象的身份数据,找到第一真实对象在社交网络中对应的第一虚拟对象,以第一虚拟对象的身份数据为搜索信息确定第二虚拟对象,找到第二虚拟对象对应的第二真实对象,并检测第一真实对象和第二真实对象的相似度,进而确定第一真实对象和第二真实对象的关系。本发明实施例还公开了一种身份数据相似度计算方法,具体包括获取真实对象和虚拟对象的身份数据,构建身份数据模型,计算身份数据相似度,进而判断真实对象与虚拟对象之间,不同虚拟对象之间,不同真实对象之间的身份关联性。通过实施上述方法,可以自动地计算对象之间的身份数据相似度并判断对象之间的身份关联性。

Description

一种身份关联方法及终端
技术领域
本发明涉及计算机领域,尤其涉及一种身份关联方法及终端。
背景技术
随着计算机技术和网络技术的发展,社交网络已经融入了人们的日常生活, 几乎每个人在社交网络中都有自己的虚拟身份,人们通过社交网络上的虚拟身 份进行沟通,极大的方便了人们日常的交流,在社交网络上也会留下大量的可 以在一定程度上表明用户身份的身份数据。
目前在对某些违法违纪的嫌疑人进行追踪时,除了通过办案人员实地考察 追踪以外,还可以借助社交网络等网络上的虚拟身份数据,来查找识别嫌疑人。 在网络上查找嫌疑人的过程中,主要是通过人工查找虚拟身份数据并进行分析, 现有的查找确定方式费时费力,效率低下。
发明内容
本发明实施例提供了一种身份关联方法和终端,可以自动地计算对象之间 的身份数据相似度并判断对象之间的身份关联性。
为了解决上述技术问题,本发明实施例第一方面公开了一种身份关联方法, 所述方法包括:
获取第一真实对象的身份数据;
以所述第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的身份数 据,并根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象;
以所述第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数 据,并根据所述关联虚拟对象的身份数据确定第二虚拟对象。
本发明实施例第二方面公开了一种终端,所述终端包括:
获取模块,用于获取第一真实对象的身份数据;
搜索模块,用于以所述第一真实对象的身份数据作为搜索信息搜索得到虚 拟对象的身份数据,并根据所述搜索得到的虚拟对象的身份数据确定第一虚拟 对象;
所述搜索模块,还用于以所述第一虚拟对象的身份数据作为搜索信息得到 关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚拟 对象。
本发明实施例第三方面公开了一种终端,所述终端包括处理器、输入设备、 输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其 中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处 理器被配置用于调用所述程序指令,执行所述身份关联的方法。
本发明实施例第四方面公开了一种计算机可读存储介质,所述计算机存储 介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处 理器执行时使所述处理器执行所述身份关联的方法。
本发明实施例中,终端获取第一真实对象的身份数据,终端以第一真实对 象的身份数据为搜索信息搜索得到虚拟对象的身份数据,并根据搜索得到的虚 拟对象的身份数据确定第一虚拟对象;终端以第一虚拟对象的身份数据为搜索 信息得到关联虚拟对象的身份数据,并确定第二虚拟对象;终端以第二虚拟对 象的身份数据为搜索信息得到关联真实对象的身份数据,并确定第二真实对象; 终端检测第一真实对象与第二真实对象的身份数据相似度;根据身份数据相似 度大小确定第一真实对象与第二真实对象的关系。通过实施上述方法,可以找 出真实对象在社交网络中对应的虚拟对象,以及与真实对象具有亲密关系的其 他真实对象。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的 前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种身份关联方法的流程示意图;
图2为本发明实施例提供的另一种身份关联方法的流程示意图;
图3为本发明实施例提供的一种身份数据相似度检测方法的流程示意图;
图4为本发明实施例提供的一种终端的结构示意图;
图5为本发明实施例提供的另一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,为本发明实施例提供的一种身份关联方法的流程示意图,该方 法可包括:
S101、终端获取第一真实对象的身份数据。
本发明实施例中,该身份数据包括背景数据、兴趣数据和社交数据,其中, 背景数据为记录对象的身份背景的数据;兴趣数据为记录对象的兴趣爱好的数 据;社交数据为记录对象的人际关系的数据。背景数据可以为对象的姓名、性 别、地址、出生日期、身份证号、电话号、教育/工作经历等,兴趣数据可以为 对象喜爱的体育、军事、动漫、明星、宠物、美食等,社交数据可以为对象的 情侣/配偶、父母/子女、兄弟、朋友等。对象可以为现实中一个实际的人物,也 可以是社交网络上的一个虚拟身份,如各类应用软件的账号等,第一真实对象 可以为现实中一个实际的人物。
S102、终端以第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的 身份数据。
本发明实施例中,终端获取到该第一真实对象的身份数据之后,会以第一 真实对象的身份数据作为搜索信息在社交网络上搜索得到虚拟对象的身份数据。 搜索得到的虚拟对象与该第一真实对象有一定的共同点。
例如,该共同点为相同的名字,该第一真实对象的名字为小明,则可以在 社交网络上寻找用户名为小明的虚拟对象,或者好友中包含小明的虚拟对象; 或者,该共同点为相同的爱好,该第一真实对象的爱好为足球,则可以在社交 网络上寻找兴趣爱好为足球的虚拟对象,或者,该共同点为出生地址、所在学 校、工作单位等,共同点可以是一个,也可以是多个,对于具体的共同点,本 发明实施例不做限定。
S103、终端根据搜索得到的虚拟对象的身份数据确定第一虚拟对象。
本发明实施例中,终端以第一真实对象的身份数据为搜索信息搜索得到虚 拟对象的身份数据之后,可以计算第一真实对象与虚拟对象之间的身份数据相 似度,并确定该第一真实对象在社交网络上对应的第一虚拟对象。
可选的,该第一虚拟对象为与该第一真实对象身份数据相似度最高的虚拟 对象,为了减少计算第一真实对象与虚拟对象的相似度时的运算量,本发明实 施例首先计算社交网络上的多个虚拟对象的背景数据与第一真实对象的背景数 据相似度,将各个虚拟对象按背景数据相似度从高到低的顺序降序排列。
可选的,在计算背景数据相似度时,具体计算的数据可包括背景数据中的 字符串数据和数字数据,其中,字符串数据包括对象的姓名和地址,数字数据 包括对象的生日和性别。第一真实对象和虚拟对象的背景数据相似度的计算过 程可参见步骤S303。
可选的,在计算第一真实对象和虚拟对象的背景数据相似度之后,将该多 个虚拟对象按背景数据相似度从高到低的顺序降序排列;然后从中提取出排名 前n位的虚拟对象,并计算排序为前n位的虚拟对象与所述第一真实对象的兴 趣数据和社交数据相似度。其中,n为大于等于1的整数,其具体可由研发人员 设定,本发明实施例不做限定。
可选的,在计算第一真实对象与虚拟对象的兴趣数据相似度时,根据预设 的关键词与权重的对应关系确定第一真实对象的兴趣数据中的兴趣关键词对应 的第一权重;获取虚拟对象在社交网路上发布的文本数据;检测兴趣关键词在 文本数据中出现的频率;根据预设的频率与权重的对应关系确定虚拟对象的兴 趣关键词对应的第二权重。将兴趣数据采用空间向量模型表示为兴趣向量,其 第k个向量的值为第k个关键词对应的权重,计算第一真实对象的兴趣向量与 虚拟对象的兴趣向量的余弦值,将得到的余弦值作为所述第一真实对象和所述 虚拟对象的兴趣数据相似度,其中,k为大于等于1的整数。可选的,第一真实 对象和虚拟对象的兴趣数据相似度的计算过程可参见步骤S304。
可选的,在计算第一真实对象与虚拟对象的社交数据相似度时,获取与第 一真实对象有关联的第三真实对象集合和与虚拟对象有关联的第三虚拟对象集 合;检测第三真实对象集合与第三虚拟对象集合的交集的人数,将交集的人数 与所述第三虚拟对象集合中的人数的比值作为虚拟对象与第一真实对象的社交 数据相似度。其中,第三真实对象集合包括第一真实对象的亲人、朋友、同事 等;第三虚拟对象集合包括第一虚拟对象在社交网络中的好友。例如,第三真 实对象集合中包括真实对象A、真实对象B和真实对象C,第三虚拟对象集合 中包括真实对象A创建的虚拟身份A、真实对象B创建的虚拟身份B和真实对象D创建的虚拟身份D,则第三真实对象集合与第三虚拟对象集合的交集的人 数为2个,第三虚拟对象集合中人数为3个,则第一真实对象与虚拟对象的社 交数据相似度为2/3,可选的,第一真实对象与虚拟对象的社交数据相似度计算 过程可参见步骤S305。
在获取到第一真实对象和虚拟对象的背景数据相似度,兴趣数据相似度和 社交数据相似度之后,将排序为前n位的虚拟对象与第一真实对象的背景数据 相似度、兴趣数据相似度和社交数据相似度进行加权汇总,得到排序为前n位 的虚拟对象与第一真实对象的身份数据相似度;将排序为前n位的虚拟对象按 身份数据相似度从高到低的顺序降序排列,并将排序为第一位的虚拟对象确定 为第一虚拟对象(即该第一真实对象在社交网络上的虚拟身份)。可选的,也可 以再次提取排名前m位的虚拟对象,m为小于等于n的正整数,再对该前m位 的虚拟对象进行其他数据分析对比,找到该第一真实对象对应的第一虚拟对象, 其他数据可以是对象的字符串风格、情感倾向、定位数据、设备持有情况、文 化水平和计算机操作能力等。
S104、终端以第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的 身份数据,并根据关联虚拟对象的身份数据确定第二虚拟对象。
本发明实施例中,终端确定第一真实对象在社交网络上的虚拟身份(即第 一虚拟对象)之后,分析第一虚拟对象的身份数据,以第一虚拟对象的身份数 据作为搜索信息得到关联虚拟对象的身份数据,并根据关联虚拟对象的身份数 据确定第二虚拟对象,可选的,第二虚拟对象为与该第一虚拟对象相似度最高 的虚拟对象。其中,第二虚拟对象与第一虚拟对象的相似度计算方法也是通过 计算虚拟对象之间的背景数据相似度、兴趣数据相似度和社交数据相似度得到, 其具体过程与S103类似,本发明实施例不在赘述。
S105、终端以第二虚拟对象的身份数据作为搜索信息得到关联真实对象的 身份数据,并根据关联真实对象的身份数据确定第二真实对象。
本发明实施例中,终端在社交网络上找到第二虚拟对象的身份数据之后, 终端以第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据, 并根据关联真实对象的身份数据确定第二真实对象,可选的,第二真实对象为 与该第二虚拟对象相似度最高的虚拟对象,或者,第二真实对象为与第二虚拟 对象相似度大于预设阈值的真实对象,其相似度计算的具体过程与S103类似, 本发明实施例不在赘述。
S106、终端检测第一真实对象与第二真实对象的身份数据相似度;
本发明实施例中,终端确定第一真实对象和第二真实对象之后,可以继续 计算第一真实对象和第二真实对象之间的相似度。其相似度计算的具体过程与 S103类似,本发明实施例不在赘述。
S107、终端根据身份数据相似度,确定第一真实对象与第二真实对象的关系。
本发明实施例中,若第一真实对象与第二真实对象的相似度大于第一预设 阈值,则确定第一真实对象与第二真实对象为同一个人;其中第一预设阈值可 以为95%、99%等,具体可由研发人员具体设定,本发明实施例不做限定。
若第一真实对象与第二真实对象的相似度介于第一预设阈值和第二预设阈 值之间,则确定所述第二真实对象与所述第一真实对象为亲密关系;其中,亲 密关系可以是父母、兄弟等。若第一真实对象为犯罪嫌疑人,则该第一真实对 象的亲密关系也可以为共犯等。其中,第一预设阈值大于第二预设阈值,第二 预设阈值可以为75%、80%等,本发明实施例不做限定。
当第一真实对象与第二真实对象的相似度大小小于第二预设阈值时,则可 以将第一真实对象与第二真实对象的关系设置为待定关系,并通过其他数据(如 对象的字符串风格、情感倾向、定位数据等)综合考量第一真实对象与第二真 实对象的关系。
需要说明的是,本发明实施例只是举例,在其他可能的情况中,终端可以 直接获取社交网络中第一虚拟对象的身份数据,然后通过图3所示的相似度计 算方法找到该第一虚拟对象对应的第一真实对象,进一步的,终端获取到第一 真实对象之后,可以找到与该第一真实对象有关联的第二真实对象。并通过图3 所示的相似度计算方法找到该第二真实对象对应的第二虚拟对象。并判断第一 虚拟对象和第二虚拟对象在社交网络中的关系。
举例说明,将第一真实对象表示为A,第一虚拟对象表示为A’,第二虚拟 对象表示为B’,第二真实对象表示为A。可选的,终端获取A的身份数据,分 析找出相似度最高的A’。可选的,终端获取A’的身份数据,在社交网络中分析 找出相似度最高的B’。可选的,终端获取B’的身份数据,分析找出与其相似度 最高的B。可选的,终端检测A和B之间的相似度,判断A和B之间的关系。
在一种可能实现的方式中,终端获取A的身份数据,分析找出相似度最高 的A’,并分析A’的身份数据,找出相似度最高的B’。
在一种可能实现的方式中,终端获取A的身份数据,分析找出相似度最高 的A’,并分析A’的身份数据,找出相似度最高的B’之后,分析B’的身份数据, 找出相似度最高的B。
在一种可能实现的方式中,终端获取A的身份数据,分析找出相似度最高 的A’,并分析A’的身份数据,找出相似度最高的B’,分析B’的身份数据,找出 相似度最高的B之后,检测A和B的相似度,并根据相似度的大小判定A和B 之间的关系。可选的,若A和B的相似度大于第一预设阈值,则确定A和B为 同一个人;若A和B的相似度介于第一预设阈值和第二预设阈值之间,则确定 A和B为亲密关系;可选的,若A和B的相似度小于第二预设阈值,则交由人 工判断A和B之间的关系;其中,所述第一预设阈值大于所述第二预设阈值。
在一种可能的实现方式中,终端获取A’的身份数据,分析A’的身份数据, 找出相似度最高的B’,分析B’的身份数据,找出相似度最高的B。
在一种可能的实现方式中,终端获取A’的身份数据,分析A’的身份数据, 找出相似度最高的B’,分析B’的身份数据,找出相似度最高的B之后,获取A’ 对应的A的身份信息,检测A和B的相似度,并根据相似度的大小判定A和B 之间的关系。
在一种可能实现的方式中,终端获取B’的身份数据,分析B’的身份数据, 找出相似度最高的B之后,获取A的身份数据,检测A和B的相似度,并根据 相似度的大小判定A和B之间的关系。
本发明实施例中,在已知第一真实对象身份信息的情况下,在社交网络上 通过相似度检测算法分析找出与第一真实对象相似度最高的第一虚拟对象,在 取证过程中,可以直接通过控制犯罪嫌疑人(即第一真实对象)的设备来获取 到第一真实对象在社交网络上的虚拟身份(即第一虚拟对象),对第一虚拟对象 的身份数据进行分析,找出与第一虚拟对象相似度最高的第二虚拟对象,在取 证过程中,有可能推断出第二虚拟对象是第一虚拟对象的共犯,或者第二虚拟 对象和第一虚拟对象对应同一个真实对象。然后对第二虚拟对象的身份数据进 行分析,找出与第二虚拟对象相似度最高的第二真实对象,则第二真实对象可 能与第一真实对象为同一个人,或者第二真实对象与第一真实对象为亲密关系, 在取证过程中,若已经获得了目标嫌疑人的虚拟身份信息,和若干嫌疑人,则 可以通过分析判断出谁是真正的嫌疑人。本发明实施例可以运用于以下两种场 景,如已知目标嫌疑人的真实身份信息,从大量虚拟身份数据中,找到目标嫌 疑人的虚拟身份,或者,已经控制目标嫌疑人,从其设备获取到其虚拟身份信 息,从而找出该目标嫌疑人再社交网络中可能存在的其他虚拟身份和现实中的 共犯。
请参见图2,为本发明实施例提供的另一种身份关联方法的流程示意图,该 方法可包括:
S201、终端获取真实对象和虚拟对象的身份数据。
本发明实施例中,真实对象和虚拟对象的身份数据包括背景数据、兴趣数 据和社交数据。
可选的,终端以显式的方式与对象进行交互获取对象的身份数据,例如, 终端首先提出一些关于身份数据的初始问题,根据对象的回答确定对象的身份 数据。可选的,根据对象答案的不同,终端提供给对象的问题也不同,例如, 当问到对象的年龄时,根据对象输入的结果确定对象年龄对应的问题组,以更 为准确的针对不同人群获取更精细的身份数据。
可选的,终端以隐式方式获取对象的身份数据,具体的,终端在社交网络 上跟踪、分析、挖掘一些对象的身份数据。具体的,通过对象的网络使用数据 进行挖掘。或者,根据对象点击流数据进行分析、挖掘,对于点击流数据的分 析,将对象、查询及点击的网页作为一组数据来考虑,并对该组数据进行潜在 语义分析和概率潜在语义分析。或者,通过对对象查询历史或浏览历史进行分 析处理,通过反馈建立对象兴趣评价,获取用户的身份数据。
S202、终端根据身份数据的类别与相似度检测算法的对应关系,从预设的 多种相似度检测算法中筛选出与所述真实对象和虚拟对象的身份数据相对应的 目标相似度检测算法。
本发明实施例中,身份数据的类别包括背景数据、兴趣数据和社交数据, 终端根据预设的相似度检测算法计算真实对象和虚拟对象的身份数据相似度, 其中,身份数据中的背景数据对应第一相似度检测算法,兴趣数据对应第二相 似度检测算法,社交数据对应第三相似度检测算法。
S203、终端根据目标相似度检测算法检测真实对象和虚拟对象的相似度。
本发明实施例中,终端根据第一相似度检测算法检测真实对象和虚拟对象 的背景数据的相似度,并得到第一相似值;具体的,分别提取所述真实对象和 所述虚拟对象的背景数据中的字符串数据和数字数据;根据预设的字符串数据 相似度检测算法检测字符串数据的相似度,得到字符串相似度值;根据预设的 数字数据相似度检测算法检测数字数据的相似度,得到数字相似度值,对计算 得到的字符串数据相似度值和数字数据相似度值进行汇总得到背景数据相似度 对应的第一相似值。其详细步骤可参见步骤S303。
终端根据第二相似度检测算法检测真实对象和虚拟对象的兴趣数据的相似 度,并得到第二相似值。具体的,终端提取兴趣数据中的关键词;记录所述关 键词出现的次数,并根据次数与权值的对应关系得到所述关键字对应的权值; 根据所述权值对所述兴趣数据进行向量表示,计算兴趣数据的向量积,得到真 实对象和虚拟对象的兴趣数据相似度对应的第二相似值。其详细步骤可参见步 骤S304。
终端根据第三相似度检测算法检测真实对象和虚拟对象的兴趣数据相似度, 并得到第三相似值。具体的,终端找到真实对象的社交关系圈和虚拟对象的社 交关系圈,检测两者社交关系圈中相同对象的个数,并将相同人数与总数的比 值作为第三相似值,以此得到真实对象和虚拟对象的社交数据相似度。其详细 步骤可参见步骤S305。
最终汇总真实对象和虚拟对象的背景数据相似度、兴趣数据相似度和社交 数据相似度即可得到真实对象和虚拟对象的身份数据相似度,详细步骤可参见 步骤S306。
本发明实施例中,终端获取真实对象和虚拟对象的身份数据,身份数据包 括背景数据、兴趣数据和社交数据,终端根据身份数据的类别与相似度检测算 法的对应关系,从预设的多种相似度检测算法中筛选出与真实对象和虚拟对象 的身份数据相对应的目标相似度检测算法,终端根据目标相似度检测算法检测 真实对象和虚拟对象的相似度。通过本发明实施例,可以判断真实对象与虚拟 对象的相似度,进而找到真实对象在社交网络上的虚拟身份,或者,通过获取 社交网络上的虚拟身份,找到该虚拟身份对应的真实对象。
请参见图3,为本发明实施例提供的一种身份数据相似度检测方法的流程示 意图,该方法可包括:
S301、终端获取真实对象和虚拟对象的身份数据。
本发明实施例中,真实对象和虚拟对象的身份数据包括背景数据、兴趣数 据和社交数据。
S302、终端根据获取到的身份数据构建身份数据模型。
本发明实施例中,终端获取到真实对象和虚拟对象的身份数据之后,会根 据获取到的身份数据构建身份数据模型。
具体的,给定一个真实对象u,其身份数据包括3种属性数据(背景数据, 兴趣数据和社交数据),身份数据Profile(u)的具体表达式为:
Profile(u)={Background(u),Interest(u),Relative(u)}
其中,Background(u)表示真实对象u的背景数据,Interest(u)表示u的 兴趣数据,Relative(u)表示u的社交数据。
给定一个虚拟对象v,其身份数据也包括3种属性数据(背景数据,兴趣数 据和社交数据),身份数据Profile(v)的具体表达式为:
Profile(v)={Node(v),Tweet(u),Relation(v)}
其中,Node(v)表示虚拟对象v的背景数据,Tweet(v)表示v的兴趣数据, Relation(v)表示v的社交数据。
S303、终端根据第一相似度检测算法检测真实对象和虚拟对象的背景数据 的相似度,并得到第一相似值。
本发明实施例中,终端构建了真实对象u和虚拟对象v的身份数据模型之 后,可以进一步构建u和v的背景数据模型,并根据第一相似度检测算法检测 真实对象u和虚拟对象v的背景数据的相似度,得到第一相似值。
具体的,终端构建真实对象u的背景数据模型Backrgound(u)。
Background(u)={String(u),Number(u)}
其中,本发明实施例将背景数据中的字符串和数字分开表示,String(u)表 示真实对象u的背景数据中的字符串集合,由背景数据中的字符串组成, Number(u)表示u的背景数据中的数字集合,由背景数据中的数字组成。
具体的,String(u)可以具体表示为:
String(u)={Name(u),lace(u),Describe(u)}
其中,Name(u)表示对象u的名称数据,包括现用名、曾用名、英文名、 学校名称和公司名称等。Place(u)表示对象u的地址数据,包括生源地、工作地、 旅游地等,Describe(u)表示对对象u的描述数据,包括星座、生肖、教育经历、 工作经历等。
具体的,Number(u)可以具体表示为:
Number(u)={Date(u),Figure(u)}
其中,Date(u)表示对象u的日期数据,包括生日、纪念日、节日等,Figure(u) 表示与对象u有关的数字数据,包括车牌号、门牌号、幸运数字、手机号和身 份证号等。
终端构建虚拟对象v的背景数据模型Node(v)。
Node(v)={String(v),Number(v)}
其中,String(v)表示虚拟对象v的背景数据中的字符串集合,由v的背景 数据中的字符串组成,Number(v)表示v的背景数据中的数字集合,由v的背 景数据中的数字组成。
具体的,String(v)可以具体表示为:
String(v)={UName(v),Address(v),Tag(v)}
其中,UName(v)表示虚拟对象v的用户名数据。Address(v)表示虚拟对象 v的注册时填写的地址数据,Tag(v)表示对虚拟对象v的标签数据,如星座、生 肖等。
Number(v)可以具体表示为:
Number(v)={Birth(v),Sex(v),Other(v)}
其中:Birth(v)表示虚拟对象v注册时填写的生日;Sex(v)中,男性Male 用1表示,女性Female用0表示。Other(v)用于存储用户名中包含的数字和用 户发布文本中出现的日期或数字。
终端创建真实对象u和虚拟对象v的背景数据模型之后,则会根据第一相 似度检测算法计算真实对象u和虚拟对象v的背景数据相似度,得到第一相似 值。
具体的,采用第一相似度检测算法计算真实对象u和虚拟对象v的背景数 据相似度Sim1(Background(u),Node(v)),具体计算公式为:
Sim1(Background(u),Node(v))
=ω1Sim11(String(u),String(v))
2Sim12(Number(v),Number(v))
对于String(u)和String(v),相似度可以根据他们的姓名相似度、地址相似 度、个人描述相似度来度量。其中,姓名相似度和地址相似度更能揭示(u,v) 之间潜在的身份相似性,而身份的描述数据在真实对象对自己的个人描述和虚 拟对象对自己选择的标签中,可能会存在描述范围太广而只有极少部分的重叠, 甚至是严重的数据缺失等情况。因此本发明实施例在对字符串相似性进行度量 的时候,只考虑姓名相似度和地址相似度。
具体的,String(u)和String(v)的相似度计算公式为:
Sim11(String(u),String(v))
=ω11Sim111(Name(u),UName(v))
12Sim112(Place(v),Address(v))
其中,ωi为各个属性相似度的权值,ω12=1,ω1112=1,对于ωi的 具体数值,本发明实施例不做限定。
对于真实对象u和虚拟对象v的姓名相似度Sim111(Name(u),UName(v))的 计算之前,将字符串数据中的汉字转化为拼音,二是对用户名字符串进行处理, 只保留字母,如果原用户名中含有数字,则将数字另存入Number(v)数据集中 的Other(v)集中。
真实对象u和虚拟对象v的姓名相似度Sim111(Name(u),UName(v))的具体 计算算法如下:
输入:两个名字字符串Name(u)和UName(v)记做Nu和Nv
输出:Nu和Nv的相似度
1.cn←0//cn为对比次数
2.while(Nu和Nv中存在相同字符)DO
3.lcsi←Nu和Nv中最长公共子字符串长度
4.cn++
5.删除检测到的Nu和Nv中的最长公共字符串
6.end while
7.if(cn==0)//当不存在相同字符时进行参数调整
8.cn←1
9.end if
10.return
其中,|Nu|和|Nv|为最终删除所有最长公共子字符串后字符串Nu和Nv的长度。
举例说明,若Nu为abcde,Nv为abcdf,则|Nu|=1,|Nv|=1, cn=1,则求出最终的Sim111=0.67,若Nu为abcd,Nv为abcd, |Nu|=0,|Nv|=0,cn=1,求出最终的Sim111=1。
对于真实对象u和虚拟对象v的地址相似度Sim112(Place(v),Address(v)), 首先采用国家-省份-地市三段数据结构来表示,通过分层比较计算转换次数的方 式来计算其相似度,Sim112(Place(v),Address(v))的具体计算公式为:
其中,ωai表示地理位置的权值,所有ωai相加之和为1,对于ωai的具体数 值,本发明实施例不做限定。T(Place(u),Address(v))表示两个地理位置属性的 转换次数,即分别比较真实对象u和虚拟对象v的地址中的国家、省份和地市 是否相同,如果不同,则转换次数加1。若国家、省份和地市都相同,则转换次 数为0,若国家、省份和地市都不同,则转换次数为3。
例如,终端获取到真实对象u和虚拟对象v之间需要对比的地址有3个, 分别为当前所在地,户籍地,工作地址。则可以为当前所在地分配权值ωa1=0.5, 户籍地权值ωa2=0.3,工作地址ωa3=0.2。且三个地址的国家和省份都相同,地市 都不同,即T(Place(u),Address(v))=1,则Sim112(Place(v),Address(v))最终 的计算结果为0.67。
对于真实对象u和虚拟对象v之间的数字数据Number(v)和Number(v), 相似度可以根据他们的生日相似度和性别相似度来度量。
Sin12(Number(v),umber(v))
=ω21Sim121(Birth(u),Birth(v))+ω22Sim122(Sex(u),Sex(v))
其中,ω21+ω22=1,Birth(u)和Birth(v)分别表示u和v的生日数据, Sex(v)和Sex(v)分别表示u和v的性别数据。
对于对象的生日数据,按年-月-日(YYYY-MM-DD)的格式记录8位数字,如 1995-05-26表示对象的生日是1995年5月26日。对于生日的相似度计算,本发 明实施例将分为两步计算,第一步完成对年份的相似度计算,第二步完成对月 和日的相似度计算。
Sim121(Birth(u),Birth(v))
=ω23Sim123(Y(u),(v))+ω24Sim124(MD(u),MD(v))
第一步:因为不同年龄层的对象往往拥有不同的阅历和关注点,本发明实 施例通过生日中的年份直接得出年龄。一般而言,年龄差越小,用户的相似度 越高,但仅用年龄差不能准确描述年龄相似度,年龄差对年龄值的比也是重要 的计算因素,则关于年份的相似度计算公式:
其中:m表示当年年份,如2018,Y(u)表示真实对象u的生日的年份,Y(v)表 示虚拟用户v的生日的年份,MAX((m-Y(u)),(m-Y(v)))表示u和v之中年 龄较大的年龄值。
对于月和日的部分(4位),本发明实施例采用编辑距离方法来计算相似度, 编辑距离用于评价两个字符串间的相似度。编辑距离反映了两个字符串的绝对 差异,而相似度以一个[0,1]之间的数值反应两个字符串的相似程度,数值越大表 示相似程度越高。生日中月日的相似度的计算公式:
其中:MD(u)表示真实对象的生日的月日部分,MD(v)表示虚拟用户的生 日的月日部分,T(MD(u),MD(v))表示转换次数。
基于生日的月日部分的相似度Sim124(MD(u),MD(v))的计算,本发明实施 例提出的算法如下:
输入:两个生日月日部分的数字MD(u)和MD(v)记做Mu,Mv
输出:相似度;
1.定义
m=Mu的长度=4,n=Mv的长度=4,
d[m+1][n+1]//矩阵
temp//记录相同字符,在某个矩阵位置值的增量,非0即1;
整型变量i,j;字符型变量ch1,ch2;
2.d[i][0]=i d[0][j]=j//初始化第一行和第一列;
3.遍历Mu去匹配Mv
if(ch1==ch2)temp=0;
else temp=1;//ch1记录Mu的字符,ch2记录Mv的字符;
4.d[i][j]=min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+temp)
//矩阵上边+1,左边+1,左上+temp取最小;
5.T=d[m][n]//d[m][n]即为Mu转换为Mv需要编辑的次数;
6.return
对于对象的性别数据,当真实对象u和虚拟用户v的性别相同时,在性别 这一维度的相似度为1,反之相似度为0(本发明实施例不考虑将虚拟用户的性别 故意设置为与本人真实性别相反的情况)。性别相似度的计算公式为:
根据上述算法计算出背景数据中的各个子相似度值之后,将计算出的各个 子相似度值带入背景数据相似度计算公式Sim1(Background(u),Node(v))中即 可计算真实对象u与虚拟对象v的背景数据相似度,得到第一相似值S1
S304、终端根据第二相似度检测算法检测真实对象和虚拟对象的兴趣数据 的相似度,并得到第二相似值。
本发明实施例中,终端构建了真实对象u和虚拟对象v的身份数据模型之 后,可以进一步构建u和v的兴趣数据模型,并根据第二相似度检测算法检测 真实对象u和虚拟对象v的兴趣数据的相似度,得到第二相似值。
具体的,终端构建真实对象u的兴趣数据模型Interest(u),本发明实施例 在记录真实对象的兴趣数据时,获取到的兴趣数据的文档中可能包含是字、词、 句、章等,因此采用空间向量模型VSM的表示法,将兴趣数据Interest(u)表示 为:
Interest(u)=(ωu1u2,…ωun)
其中,i可以对应记录的对象感兴趣的特征词,ωui为i对应的特征词的权 重。
其中,tfi(Interest(u))表示i对应的特征词在文档中的频率,log(N/ni+ 0.01)表示为i对应的特征词的逆文档频率。N表示全部训练集的文本数,ni表示 训练文本中出现i对应的特征词的文本频数。
终端构建虚拟对象v的兴趣数据模型Tweet(v),具体的,Tweet(v)表示虚 拟对象v在社交网络中发布的各个文本数据组成的长文本(其文本内容可能包含 兴趣词、情感词、事件时间词、数字等)。本发明实施例将其表示为一个文本向 量。过程如下:
第一步:文本预处理:对Tweet(v)进行过滤噪音数据、分词、词性标注、 去除停用词等处理;
第二步:数字处理:把文本中出现的日期和数字存入Other(v)中;
第三步:特征提取:采用数据增益的特征选择算法提取Tweet(v)的特征词, 对文本进行降维处理;
第四步:权重计算:Tweet(v)中的每个特征词tvi的权重ωvi
其中,tfi(Tweet(v))表示i对应的特征词在文档中的频率,log(N/ni+0.01) 表示为i对应的特征词的逆文档频率。N表示全部训练集的文本数,ni表示训练 文本中出现i对应的特征词的文本频数,取对数是为了平衡,避免N/ni值过大而 占据主要作用,0.01的作用是为了避免当N=ni时对数为0。
第五步:向量表示:Tweet(v)=(ωv1,ωv2,…ωvn),其中ωvi为虚拟对象v 在社交网络中发布的各个文本数据中某个i对应的特征词的权重。
终端构建真实对象u和虚拟对象v的兴趣数据模型之后,将根据第二相似 度检测算法检测真实对象和虚拟对象的兴趣数据的相似度,得到第二相似值。
具体的,对于真实对象u的兴趣文本可以表示为文本特征向量:
Interest(u)=(ωu1u2,…ωun)
对于虚拟用户v的兴趣文本可表示为文本特征向量:
Tweet(v)=(ωv1v2,…ωvn)
则真实对象u和虚拟对象v之间的兴趣数据相似度对应的第二相似度检测 算法Sim2(Interest(u),Tweet(v))的计算公式为:
其对应的具体算法如下:
输入:两个兴趣向量Interest(u)和Tweet(v)记做arrayNum1[],arrayNum2[];
输出:真实对象u和虚拟对象v之间的兴趣数据相似度;
1.定义
arrayNum1[],arrayNum2[]//1,2数组分别存放Interest(u),Tweet(v)
arrayKey[]//存放关键词合并后的数据
2.计算两个向量的点积
x=0 i=0
while
i<arrayKey[]的长度
x=x+arrayNum1[i]*arrayNum2[i]
i++
printx
3.计算两个向量的模
sq1=0 i=0
while
i<arrayKey[]的长度
sq1=sq1+pow(arrayNum1[i],2)//pow(a,2)=a*a
i++
sq2=0 j=0
while
j<arrayKey[]的长度
sq2=sq2+pow(arrayNum2[j],2)
j++
4.return
终端将计算出的i对应的特征词的权重ωui和ωv1带入上述相似度计算公式Sim1(Background(u),Node(v))中,即可计算真实对象u与虚拟对象v的兴趣 数据相似度,得到第二相似值S2
S305、终端根据第三相似度检测算法检测所述真实对象和虚拟对象的社交 数据的相似度,并得到第三相似值。
本发明实施例中,终端构建了真实对象u和虚拟对象v的身份数据模型之 后,可以进一步构建u和v的社交数据模型,并根据第三相似度检测算法检测 真实对象和虚拟对象的兴趣数据的相似度,得到第三相似值。
具体的,构建真实对象u的社交数据模型,Relative(u):表示u的社交数 据,用树型结构来表示,对象u为根节点,其余对象为子节点,按与对象u的 亲疏关系依次往下排列,其中每条边的权值为1,从该子节点出发到根节点的距 离越远,数值越大,则两人关系越疏远,反之,若距离为1,则说明与对象u关 系密切,一般为伴侣,父母,子女等。
构建虚拟对象v的社交数据模型,Relation(v),表示v的社交数据,包括2 种属性(链接数据、互动数据),其中链接数据包括关注数据和粉丝数据,互动数 据包括转发数据、评论数据和@数据。本发明实施例将它们分别表示为五个向 量:关注向量Followee(v)、粉丝向量Follower(v)、转发向量Repost(v)、评论 向量Comment(v),@(v),则Relation(v)可以表示为:
Relation(v)={Followee(v),Follower(v),Repost(v),Comment(v),@(v)}
终端构建虚拟对象v的社交数据模型之后,会在社交网络上寻找与虚拟对 象相关联的其他虚拟对象v’,并计算根据v与v’的相似度。其中v与v’的相 似度Relation(v,v′)的计算公式为:
Relation(v,v’)
=ω4Sim4(Link(v),Link(v’))
5Sim5(Interactuon(v),Interaction(v’))
其中,Sim4(Link(v),Link(v’))表示v与v’链接数据相似度,v与v’的互动 数据相似度表示为Sim5(Interaction(v),Interaction(v’)),ω45=1。对于 ω4和ω5的具体数值,本发明实施例不做限定。
可选的,对于虚拟对象的链接数据相似度,本发明实施例提供了如下分析 方法,用户的链接数据包含2种属性数据(关注数据和粉丝数据),表示为:
Link(v)={Followee(v),Follower(v)}
其对象链接数据相似度,可以根据(v,v’)之间的各种属性相似度而计算,链 接数据相似度Sim4(Link(v),Link(v’))的计算公式为:
Sim4(Link(v),Link(v’))
=ω6Sim6(Followee(v),Followee(v’))
7Sim7(Follower (v),Follower(v’))
其中,
可选的,对于虚拟对象的互动数据相似度,本发明实施例提供了如下分析 方法,用户的互动数据包含3种属性数据(转发数据、评论数据、@数据),表 示为:
Interaction(v)={Repost(v),Comment(v),@(v)}
其对象互动数据相似度,可以根据(v,v’)之间的各种属性相似度而计算,链 接数据相似度Sim5(Interaction(v),Interaction(v’))的计算公式为:
Sim5(Interaction(v),Interaction(v’))
=ω8Sim8(Repost(v),epost(v’))
9Sim9(Comment(v),Comment(v’))+ω10Sim10(@(v),@(v’))
其中,ω8910=1,对于ω8、ω9和ω10的具体数值,本发明实施例 不做限定。
具体的,
其中,Repost_num(v->v’)表示虚拟对象v是否转发对象v’在社交网络上 发布的数据文本;Repost_num(v’->v)表示虚拟对象v’是否转发对象v在社交 网络上发布的数据文本,若是,则为1,若否,则为0。
其中,Comment_num(v->v’)表示虚拟对象v是否评论对象v’在社交网 络上发布的数据文本,Comment_num(v’->v)表示虚拟对象v’是否评论对象v 在社交网络上发布的数据文本。若是,则为1,若否,则为0。
其中,@_num(v->v’)表示虚拟对象v是否@对象v’,@_num(v’->v)表 示虚拟对象v’是否@对象v。若是,则为1,若否,则为0。
最终将上述公式计算得出的相似度带入Relation(v,v′)的计算公式中,即可 得到虚拟对象v和v’的相似度。选取相似度排名前k位的虚拟对象v’即为与虚 拟对象v相关联的虚拟对象,构成虚拟对象v的社交关系。
终端构建虚拟对象v的社交关系之后,可以根据第三相似度检测算法检测 真实对象和虚拟对象的社交数据的相似度Sim3(Relative(u),Relation(v)),并得 到第三相似值S3,第三检测算法的具体公式为:
其中,Relative(u)表示真实对象u的社交关系,包括多个与对象u有关联 的真实对象,Relationk(v)表示与虚拟对象v相似度排名前k位的虚拟对象v’。
举例说明,若k个虚拟对象v’都与真实对象u的社交数据中的对象对应, 则第三相似值S3=1,若k个虚拟对象v’都不与真实对象u的社交数据中的对象 对应,则第三相似值S3=0。若有m个虚拟对象v’与真实对象u的社交数据中 的对象对应,则S3=m/k,其中,m≤k。
S306、终端根据预设的加权规则对第一相似值、第二相似值和第三相似值 进行加权处理。
本发明实施例中,根据相似度检测算法计算出第一相似值S1、第二相似值S2和第三相似值S3之后,会给计算出的相似值赋予一个加权系数,得到真实对象u 和虚拟对象v的身份数据相似度
Sim(Profile(u),Profile(v))=β1Sim1(Background(u),Node(v))
2Sim2(Interest(u),Tweet(v))
3Sim3(Relative(u),Relation(v))
其中,β1、β2和β3为加权系数,β123=1,对于β1、β2和β3的具体 数值,本发明实施例不做限定。
S307、终端将加权处理后的各个相似值进行汇总得到所述真实对象和虚拟 对象的身份数据的相似度对应的相似值。
本发明实施例中,终端根据S306获取到各个相似值的加权系数之后,对各 个相似值进行汇总处理即可得到真实对象u和虚拟对象v的身份数据相似度对 应的相似值S。
S=β1S12S23S3
其中,S1为第一相似值,S2为第二相似值,S3为第三相似值。
可选的,当知道一个真实对象u,需要在社交网络上找到该真实对象u的虚 拟身份时,可以根据上述相似度检测算法找到身份数据相似度排名前n位的虚 拟对象v,根据数值大小对S(u)中的虚拟用户再进行降序排列,得到一个新的身 份相似序列S’(u),最后根据真实对象u的其它数据(例如:文化水平、计算机操 作能力、性格、气质、行为等)对比虚拟身份v的字符串风格、情感倾向、时间 属性、设备持有情况、定位数据等。选择S’(u)中排名靠前的k位用户,来综合 考虑虚拟用户v是不是真实对象u在社交网络上的虚拟身份。
本发明实施例中,终端获取真实对象和虚拟对象的身份数据之后,会根据 身份数据构建背景数据模型、兴趣数据模型和社交数据模型,并计算出真实对 象和虚拟对象的背景数据相似度、兴趣数据相似度和社交数据相似度,最后汇 总得到真实对象和虚拟对象的身份数据相似度。通过本发明实施例,可以判断 真实对象与虚拟对象的相似度,进而找到真实对象在社交网络上的虚拟身份, 或者,通过知道社交网络上的虚拟身份,知道该虚拟身份对应的真实对象。
下面将结合附图4对本发明实施例提供的终端进行详细介绍。需要说明的 是,附图4所示的终端,用于执行本发明图1-图3所示实施例的方法,为了便 于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,经参 照本发明图1-图3所示的实施例。
请参见图4,为本发明提供的一种终端的结构示意图;该终端40可包括: 获取模块401、搜索模块402、检测模块403、确定模块404、计算模块405和 排序模块406。
获取模块401,用于获取第一真实对象的身份数据;
搜索模块402,用于以所述第一真实对象的身份数据作为搜索信息搜索得到 虚拟对象的身份数据,并根据所述搜索得到的虚拟对象的身份数据确定第一虚 拟对象;
所述搜索模块402,还用于以所述第一虚拟对象的身份数据作为搜索信息得 到关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚 拟对象;
所述搜索模块402,还用于以所述第二虚拟对象的身份数据作为搜索信息得 到关联真实对象的身份数据,并根据所述关联真实对象的身份数据确定第二真 实对象;
检测模块403,用于检测所述第一真实对象与所述第二真实对象的身份数据 相似度;
确定模块404,根据所述身份数据相似度,确定所述第一真实对象与所述第 二真实对象的关系。
可选的,本发明实施例所述的终端,还包括:
计算模块405,用于分别计算各个虚拟对象的背景数据与所述第一真实对象 的背景数据相似度;
排序模块406,用于将所述虚拟对象按所述背景数据相似度从高到低的顺序 降序排列;
所述计算模块405,还用于计算排序为前n位的虚拟对象与所述第一真实对 象的兴趣数据相似度;
所述计算模块405,还用于计算排序为前n位的虚拟对象与所述第一真实对 象的社交数据相似度;
所述计算模块405,还用于将所述排序为前n位的虚拟对象与所述第一真实 对象的背景数据相似度、兴趣数据相似度和社交数据相似度进行加权汇总,得 到所述排序为前n为的虚拟对象与所述第一真实对象的身份数据相似度;
所述排序模块406,还用于将所述排序为前n位的虚拟对象按所述身份数据 相似度从高到低的顺序降序排列;
所述确定模块404,还用于将排序为第一位的虚拟对象确定为所述第一虚拟 对象,其中,n为大于1的整数。
可选的,本发明实施例所述的终端,还包括:
所述获取模块401,还用于提取背景数据中的字符串数据和数字数据,所述 字符串数据包括姓名数据和地址数据,所述数字数据包括生日数据和性别数据;
所述计算模块405,还用于分别计算所述第一真实对象和虚拟对象的姓名数 据相似度和地址数据相似度;
所述计算模块405,还用于将所述姓名数据相似度和所述地址数据相似度进 行加权汇总得到所述第一真实对象和所述虚拟对象的字符串数据相似度;
所述计算模块405,还用于分别计算所述第一真实对象和所述虚拟对象的生 日数据相似度和性别数据相似度;
所述计算模块405,还用于将所述生日数据相似度和所述性别数据相似度进 行加权汇总得到所述第一真实对象和所述虚拟对象的数字数据相似度;
所述计算模块405,还用于将所述字符串数据相似度和所述数字数据相似度 进行加权汇总得到所述第一真实对象与所述虚拟对象的背景数据相似度。
可选的,本发明实施例所述的终端,还包括:
所述获取模块401,还用于提取所述第一真实对象和虚拟对象的兴趣数据中 的兴趣关键词;
所述获取模块401,还用于获取所述兴趣关键词的在所述兴趣数据中的权重;
所述计算模块405,还用于将所述兴趣数据采用空间向量模型表示为兴趣向 量,其第k个向量的值为第k个关键词对应的权重,其中,k为大于或等于1的 整数;
所述计算模块405,还用于计算所述第一真实对象的兴趣向量与所述虚拟对 象的兴趣向量的余弦值;
所述计算模块405,还用于将所述余弦值作为所述第一真实对象和所述虚拟 对象的兴趣数据相似度。
所述获取模块401,还用于获取与所述第一真实对象有关联的第三真实对象 集合和与虚拟对象有关联的第三虚拟对象集合;
所述检测模块403,还用于检测所述第三真实对象集合与所述第三虚拟对象 集合的交集的人数;
所述计算模块405,还用于将所述交集的人数与所述第三虚拟对象集合中的 人数的比值作为虚拟对象与所述第一真实对象的社交数据相似度。
若所述第一真实对象与所述第二真实对象的相似度大于第一预设阈值,则 所述确定模块404确定所述第一真实对象与所述第二真实对象为同一个人;
若所述第一真实对象与所述第二真实对象的相似度介于第一预设阈值和第 二预设阈值之间,则所述确定模块404确定所述第二真实对象与所述第一真实 对象为亲密关系;
本发明实施例中,通过对真实对象与真实对象之间的相似度计算、真实对 象与虚拟对象之间的相似度计算,可自动地进行虚拟身份数据的查找以及对象 之间相似度的识别确定.
请参见图5,为本发明实施例提供了另一种终端的结构示意图。如图5所示, 该终端包括:至少一个处理器501,输入设备503,输出设备504,存储器505, 至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。 其中,输入设备503可以是控制面板或者麦克风等,输出设备504可以是显示 屏等。其中,存储器505可以是高速RAM存储器,也可以是非不稳定的存储器 (non-volatile memory),例如至少一个磁盘存储器。存储器505可选的还可以是 至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图4 所描述的终端,存储器505中存储一组程序代码,且处理器501,输入设备503, 输出设备504调用存储器505中存储的程序代码,用于执行以下操作:
输入设备503获取第一真实对象的身份数据;
处理器501以所述第一真实对象的身份数据作为搜索信息搜索得到虚拟对 象的身份数据,输出设备504根据所述搜索得到的虚拟对象的身份数据确定第 一虚拟对象
处理器501以所述第一虚拟对象的身份数据作为搜索信息得到关联虚拟对 象的身份数据,输出设备504根据所述关联虚拟对象的身份数据确定第二虚拟 对象;
若处理器501以所述第二虚拟对象的身份数据作为搜索信息得到关联真实 对象的身份数据,输出设备504根据所述关联真实对象的身份数据确定第二真 实对象;
若处理器501检测所述第一真实对象与所述第二真实对象的身份数据相似 度;
处理器501根据所述身份数据相似度,确定所述第一真实对象与所述第二 真实对象的关系;
本发明实施例中,通过对真实对象与真实对象之间的相似度计算、真实对 象与虚拟对象之间的相似度计算,可自动地进行虚拟身份数据的查找以及对象 之间相似度的识别确定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机 存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中, 所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之 权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机 存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中, 所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之 权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种身份关联方法,其特征在于,包括:
获取第一真实对象的身份数据;
以所述第一真实对象的身份数据作为搜索信息搜索得到虚拟对象的身份数据,并根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象;
以所述第一虚拟对象的身份数据作为搜索信息得到关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚拟对象。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关联虚拟对象的身份数据确定第二虚拟对象之后,还包括:
以所述第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据,并根据所述关联真实对象的身份数据确定第二真实对象。
3.根据权利要求1所述的方法,其特征在于,所述根据所述关联真实对象的身份数据确定第二真实对象之后,还包括:
检测所述第一真实对象与所述第二真实对象的身份数据相似度;
根据所述身份数据相似度,确定所述第一真实对象与所述第二真实对象的关系。
4.根据权利要求1任一项所述的方法,其特征在于,所述根据所述搜索得到的虚拟对象的身份数据确定第一虚拟对象,包括:
分别计算各个虚拟对象的背景数据与所述第一真实对象的背景数据相似度;
将所述虚拟对象按所述背景数据相似度从高到低的顺序降序排列;
计算排序为前n位的虚拟对象与所述第一真实对象的兴趣数据相似度;
计算排序为前n位的虚拟对象与所述第一真实对象的社交数据相似度;
将所述排序为前n位的虚拟对象与所述第一真实对象的背景数据相似度、兴趣数据相似度和社交数据相似度进行加权汇总,得到所述排序为前n位的虚拟对象与所述第一真实对象的身份数据相似度;
将所述排序为前n位的虚拟对象按所述身份数据相似度从高到低的顺序降序排列;
将排序为第一位的虚拟对象确定为所述第一虚拟对象,其中,n为大于1的整数。
5.根据权利要求4所述的方法,其特征在于,所述分别计算各个虚拟对象的背景数据与所述第一真实对象的背景数据相似度,包括:
提取背景数据中的字符串数据和数字数据,所述字符串数据包括姓名数据和地址数据,所述数字数据包括生日数据和性别数据;
分别计算所述第一真实对象和虚拟对象的姓名数据相似度和地址数据相似度;
将所述姓名数据相似度和所述地址数据相似度进行加权汇总得到所述第一真实对象和所述虚拟对象的字符串数据相似度;
分别计算所述第一真实对象和所述虚拟对象的生日数据相似度和性别数据相似度;
将所述生日数据相似度和所述性别数据相似度进行加权汇总得到所述第一真实对象和所述虚拟对象的数字数据相似度;
将所述字符串数据相似度和所述数字数据相似度进行加权汇总得到所述第一真实对象与所述虚拟对象的背景数据相似度。
6.根据权利要求4所述的方法,其特征在于,所述计算排序为前n位的虚拟对象与所述第一真实对象的兴趣数据相似度,包括:
提取所述第一真实对象和虚拟对象的兴趣数据中的兴趣关键词;
获取所述兴趣关键词的在所述兴趣数据中的权重;
将所述兴趣数据采用空间向量模型表示为兴趣向量,其第k个向量的值为第k个关键词对应的权重,其中,k为大于或等于1的整数;
计算所述第一真实对象的兴趣向量与所述虚拟对象的兴趣向量的余弦值;
将所述余弦值作为所述第一真实对象和所述虚拟对象的兴趣数据相似度。
7.一种身份关联方法,其特征在于,包括:
获取第一虚拟对象的身份数据;
以所述第一虚拟对象的身份数据作为搜索信息搜索得到关联虚拟对象的身份数据,并根据所述关联虚拟对象的身份数据确定第二虚拟对象;
以所述第二虚拟对象的身份数据作为搜索信息得到关联真实对象的身份数据,并根据所述关联真实对象的身份数据确定第二真实对象。
8.根据权利要求4所述的方法,其特征在于,所述根据所述关联真实对象的身份数据确定第二真实对象之后,还包括:
获取第一虚拟对象对应的第一真实对象的身份数据;
检测所述第一真实对象与所述第二真实对象的身份数据相似度;
根据所述身份数据相似度,确定所述第一真实对象与所述第二真实对象的关系。
9.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。
CN201810105358.9A 2018-02-01 2018-02-01 一种身份关联方法及终端 Active CN110110218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810105358.9A CN110110218B (zh) 2018-02-01 2018-02-01 一种身份关联方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810105358.9A CN110110218B (zh) 2018-02-01 2018-02-01 一种身份关联方法及终端

Publications (2)

Publication Number Publication Date
CN110110218A true CN110110218A (zh) 2019-08-09
CN110110218B CN110110218B (zh) 2023-10-31

Family

ID=67483129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810105358.9A Active CN110110218B (zh) 2018-02-01 2018-02-01 一种身份关联方法及终端

Country Status (1)

Country Link
CN (1) CN110110218B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598126A (zh) * 2019-09-05 2019-12-20 河南科技大学 基于行为习惯的跨社交网络用户身份识别方法
CN110851661A (zh) * 2019-10-25 2020-02-28 北京深演智能科技股份有限公司 用户id映射关系的确定方法及装置、电子设备
CN111461186A (zh) * 2020-03-20 2020-07-28 支付宝(杭州)信息技术有限公司 数据相似度的处理方法、装置、存储介质和计算机设备
US20220239633A1 (en) * 2021-01-26 2022-07-28 Cisco Technology, Inc. Email security based on display name and address

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968510A (zh) * 2012-12-21 2013-03-13 厦门市美亚柏科信息股份有限公司 互联网人物信息的搜索方法及系统
CN103368917A (zh) * 2012-04-01 2013-10-23 阿里巴巴集团控股有限公司 一种网络虚拟用户的风险控制方法及系统
CN103745014A (zh) * 2014-01-29 2014-04-23 中国科学院计算技术研究所 一种社交网络用户虚实映射方法和系统
US20150234913A1 (en) * 2012-08-16 2015-08-20 Tencent Technology (Shenzhen) Company Limited Natural person information setting method and electronic device
CN104899267A (zh) * 2015-05-22 2015-09-09 中国电子科技集团公司第二十八研究所 一种社交网站账号相似度的综合数据挖掘方法
CN104933139A (zh) * 2015-06-17 2015-09-23 中国科学院计算技术研究所 一种社交网络用户身份虚实映射的方法及装置
CN105376223A (zh) * 2015-11-02 2016-03-02 北京锐安科技有限公司 网络身份关系的可靠度计算方法
CN105550307A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种网民身份关系网络图的生成方法
CN105630978A (zh) * 2015-12-25 2016-06-01 曙光信息产业(北京)有限公司 信息收集方法和装置
US9554418B1 (en) * 2013-02-28 2017-01-24 F5 Networks, Inc. Device for topology hiding of a visited network

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368917A (zh) * 2012-04-01 2013-10-23 阿里巴巴集团控股有限公司 一种网络虚拟用户的风险控制方法及系统
US20150234913A1 (en) * 2012-08-16 2015-08-20 Tencent Technology (Shenzhen) Company Limited Natural person information setting method and electronic device
CN102968510A (zh) * 2012-12-21 2013-03-13 厦门市美亚柏科信息股份有限公司 互联网人物信息的搜索方法及系统
US9554418B1 (en) * 2013-02-28 2017-01-24 F5 Networks, Inc. Device for topology hiding of a visited network
CN103745014A (zh) * 2014-01-29 2014-04-23 中国科学院计算技术研究所 一种社交网络用户虚实映射方法和系统
CN104899267A (zh) * 2015-05-22 2015-09-09 中国电子科技集团公司第二十八研究所 一种社交网站账号相似度的综合数据挖掘方法
CN104933139A (zh) * 2015-06-17 2015-09-23 中国科学院计算技术研究所 一种社交网络用户身份虚实映射的方法及装置
CN105376223A (zh) * 2015-11-02 2016-03-02 北京锐安科技有限公司 网络身份关系的可靠度计算方法
CN105550307A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种网民身份关系网络图的生成方法
CN105630978A (zh) * 2015-12-25 2016-06-01 曙光信息产业(北京)有限公司 信息收集方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王玙 等: "基于社交圈的在线社交网络朋友推荐算法" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598126A (zh) * 2019-09-05 2019-12-20 河南科技大学 基于行为习惯的跨社交网络用户身份识别方法
CN110851661A (zh) * 2019-10-25 2020-02-28 北京深演智能科技股份有限公司 用户id映射关系的确定方法及装置、电子设备
CN110851661B (zh) * 2019-10-25 2023-04-21 北京深演智能科技股份有限公司 用户id映射关系的确定方法及装置、电子设备
CN111461186A (zh) * 2020-03-20 2020-07-28 支付宝(杭州)信息技术有限公司 数据相似度的处理方法、装置、存储介质和计算机设备
US20220239633A1 (en) * 2021-01-26 2022-07-28 Cisco Technology, Inc. Email security based on display name and address
US11700234B2 (en) * 2021-01-26 2023-07-11 Cisco Technology, Inc. Email security based on display name and address

Also Published As

Publication number Publication date
CN110110218B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
Qi et al. Finding all you need: web APIs recommendation in web of things through keywords search
US9501467B2 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
CN108288067A (zh) 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
CN111061946A (zh) 场景化内容推荐方法、装置、电子设备及存储介质
CN104765729B (zh) 一种跨平台微博社区账户匹配方法
CN109933660B (zh) 面向自然语言形式基于讲义和网站的api信息检索方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN106462626A (zh) 利用深度神经网络对兴趣度建模
CN110110218A (zh) 一种身份关联方法及终端
CN110413888B (zh) 一种书籍推荐方法及装置
CN110197389A (zh) 一种用户识别方法及装置
Paul et al. Focused domain contextual AI chatbot framework for resource poor languages
CN111428503A (zh) 同名人物的识别处理方法及处理装置
Nguyen et al. Seagull: A bird’s-eye view of the evolution of technical games research
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
KR101826594B1 (ko) 지식 구조 기반의 전자책 추천 방법 및 시스템
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116775815B (zh) 对话数据的处理方法、装置、电子设备及存储介质
CN112328799B (zh) 问题分类方法和装置
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质
CN113821592A (zh) 一种数据处理方法、装置、设备以及存储介质
Sun et al. Urban region function mining service based on social media text analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230607

Address after: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Applicant after: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Address before: Chongqing University of Posts and telecommunications, No.2 Chongwen Road, Nan'an District, Chongqing 400065

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240419

Address after: 310000, Room 1611, Building 1, Wanrong City, Gongshu District, Hangzhou City, Zhejiang Province (self declared)

Patentee after: Hangzhou Changshengbao Digital Technology Development Co.,Ltd.

Country or region after: China

Address before: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Patentee before: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right