CN110413900A - 基于维特比算法的多社交网络账号匹配方法 - Google Patents
基于维特比算法的多社交网络账号匹配方法 Download PDFInfo
- Publication number
- CN110413900A CN110413900A CN201910707360.8A CN201910707360A CN110413900A CN 110413900 A CN110413900 A CN 110413900A CN 201910707360 A CN201910707360 A CN 201910707360A CN 110413900 A CN110413900 A CN 110413900A
- Authority
- CN
- China
- Prior art keywords
- account
- user
- social networks
- viterbi algorithm
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于维特比算法的多社交网络账号匹配方法,属于社交网络账号匹配技术领域。本发明首先通过社交网络的搜索快速构建待匹配用户集合,极大的减少了待匹配社交账号的数量;然后,以账号间用户名的相似概率为边权重构建篱笆网络,通过维特比算法求解最优路径,即得到符合目标函数的初步匹配结果,采用维特比算法可降低多社交网络账号匹配算法的时间复杂度,算法加速效果明显;最后,引入其他属性特征对初步匹配结果进行精确匹配,解决初步匹配结果中用户名相同出现歧义的情况,对于用户名相同的账号,可以得到其他属性相似度最大的账号作为最终结果。
Description
技术领域
本发明属于社交网络账号匹配技术领域,特别涉及一种基于维特比算法的多社交网络账号匹配方法。
背景技术
随着网络技术的发展,社会已经进入了web2.0时代,各种互联网应用层出不穷。社交网络作为网络应用中的佼佼者,在极大的丰富了人们的生活的同时,也成为了一个蕴含大量信息的数据库。社交网络中的信息也成为了改变人们生活的原动力,但同时社交网络中的信息也存在着隔离性和不完整等特点。同一个用户会在不同的网络应用中注册多个不同账号,而且可能提供的身份信息不一致。识别不同的社交媒体账号是否属于同一人物实体,对于人物属性融合以及个人信息挖掘有着重要的意义。
跨社交媒体的账号匹配问题通常被建模为一个分类问题:给定两个账号a、b分别属于社交媒体平台A和B,研究的目的就是获得一个分类判别函数,当输入输入账户a和b的信息后,如果两个账户属于同一人物实体则输出1,否则输出0。
通过社交媒体用户识别分辨出不同社交网络中属于同一个人的账号,构建相对完整的人物信息画像,在商业应用、信息检索、网络空间安全等许多领域都具有重大的研究意义与实用价值。
网络空间治安管理。随着社交网络的广泛普及与飞速发展,一些不法分子也会借助这个信息传播平台,同时在不同的社交网站上注册多个账号,针对不同网站提供的各类行为接口,进行例如欺诈、钓鱼、隐私窃取等恶意行为和非法活动,甚至是谋划恐怖袭击。通过社交媒体用户识别技术,国家可以更好地进行网络空间治安管理,及时制止违法犯罪行为的发生,保护合法用户的权益与安全。
个性化服务推荐。在商业领域,商家希望尽可能多的掌握关于潜在顾客的购物需求与喜好方面的信息,从而可以进行有效的推销活动,实现利益最大化,推荐系统就是应此需求而产生的。商家可以从多个社交网站中搜集出潜在客户的所有网络账号,给每个用户构建一个综合性的、全面完整的个人资料档案,为推荐系统建立一个更好的用户兴趣模型,从而就能够及时地、准确地向用户推送他们最感兴趣的商品和服务,以此来实现营销利益最大化。
社交网络数据挖掘。社交网络数据挖掘研究综合了计算机技术、互联网技术、复杂网络理论、传播学等多个学科的研究方法,成为了一门新兴的交叉学科。将多个社交网络关联起来进行数据挖掘,有时可能会展现出单独观察一个网络时所不能看到的有趣的现象,获取更多有价值的信息。除此之外,从另一个角度来讲,由于利用网络的各种属性,可以不经过用户允许就挖掘出其在各个网络中的身份信息,造成用户隐私的泄露,人们应当从中学会如何隐藏自己的身份信息,从而保护自己的人身和财产安全。
现有的社交媒体用户识别方法大都关注于两个社交网络之间账号的识别,而对于三个或三个以上的社交网络账号的识别鲜有研究。同时社交网络账号识别算法在存在着待匹配账号数量巨大,算法时间复杂度过高的问题。两个社交网络账号进行匹配的时候,会将账号相似度最大的一对账号作为正确结果。但这种匹配策略使用到三个或三个以上的社交网络的时候会出现以下匹配不合理的问题。对于社交网络A和B,最优匹配结果是a和b。对于社交网络A和C,最优匹配结果是a和c。这时对于社交网络B和C,属于同一个人的账号应该为b和c。但是实际上,社交账号b和c并不属于同一个人,而且b和c的相似度极低。
发明内容
本发明的目的在于解决现有技术中对于三个及三个以上社交网络账号的识别匹配存在的匹配错误问题,提出了一种基于维特比算法的多社交网络账号匹配方法,通过构建待匹配用户集合,减少了多社交网络匹配算法的时间复杂度,并且对结果中相同用户名的情况进行了消歧。
一种基于维特比算法的多社交网络账号匹配方法,包括以下步骤:
S1、建立目标函数,根据输入的用户构建待匹配用户集合;
S2、根据所述输入的用户和待匹配用户集合中用户之间用户名的相似概率构建篱笆网络,基于维特比算法对所述输入的用户和待匹配用户集合中用户进行匹配,得到初步匹配结果;
S3、根据所述初步匹配结果,以用户之间属性特征的相似度构建相似度向量,以所述相似度向量为特征训练分类器,得到最终匹配结果。
进一步地,所述步骤S1包括:
建立目标函数
Func(ai,bj,ck)=max(sim(ai,bj)+sim(bj,ck)+sim(ai,ck))
其中,ai、bj、ck分别表示社交网络A、B、C的账号用户名,sim(m,n)表示两个用户m、n之间的相似概率;
分别在社交网络B和C中输入社交网络A的账号a的用户名usernamea进行搜索,得到与usernamea相同或相似的账号,得到社交网络B和C中的待匹配用户集合SB和SC。
进一步地,所述步骤S2包括:
S21、计算账号a、SB中账号、SC中账号两两之间用户名的相似概率;
S22、以所述用户名的相似概率构建篱笆网络;
所述篱笆网络的第一层节点为账号a,第二层节点为SB中的账号,第三层节点为SC中的账号,第四层节点为账号a,相邻层级中节点之间的权重为账号用户名的相似概率;
S23、基于维特比算法计算所述篱笆网络中的最优路径,所述最优路径上的节点为符合所述目标函数的匹配账号组合,得到初步匹配结果。
进一步地,所述步骤S3包括:
根据所述初步匹配结果,以用户之间属性特征的相似度构建相似度向量,构建训练集,以所述相似度向量为特征训练分类器,选取所述分类器输出结果中概率最大的匹配账号组合作为最优匹配账号,得到最终匹配结果。
本发明的有益效果:本发明提供了一种基于维特比算法的多社交网络账号匹配方法,首先快速构建待匹配用户集合,通过社交网络的搜索快速构建待匹配用户集合,极大的减少了待匹配社交账号的数量;然后,通过维特比算法降低了多社交网络账号匹配算法的时间复杂度,当使用暴力法对所有的路径进行计算,其时间复杂度为O(DK),使用维特比算法计算时间复杂度为O(KD2),其中D为篱笆网络每一层节点的个数,K为篱笆网络层数,当D和K比较大的时候,算法加速效果明显,极大的降低了算法的时间复杂度;最后,引入其他属性特征对初步匹配结果进行精确匹配,解决初步匹配结果中用户名相同出现歧义的情况,对于用户名相同的账号,可以得到其他属性相似度最大的账号作为最终结果。
附图说明
图1为本发明实施例的流程图。
图2为图1中步骤S2的流程图。
图3为本发明实施例的篱笆网络示意图。
具体实施方式
下面结合附图对本发明的实施例做进一步的说明。
请参阅图1,一种基于维特比算法的多社交网络账号匹配方法,通过以下步骤实现:
S1、建立目标函数,根据输入的用户构建待匹配用户集合。
本实施例中,本发明首先设置了全局最优目标函数,如下
Func(ai,bj,ck)=max(sim(ai,bj)+sim(bj,ck)+sim(ai,ck))
其中,ai、bj、ck分别表示社交网络A、B、C的账号用户名,sim(m,n)表示两个用户m、n之间的相似概率。
社交网络搜索服务是社交网络提供给用户的一种服务,搜索服务使用关键词作为输入,返回与关键词相关的推文、用户、图片和视频等内容。使用用户名作为输入,指定返回结果为用户,可以得到与输入用户名相同或相似的账号。然后,将返回结果爬取下来作为待匹配的用户集合。
本实施例中,已知社交网络A的账号a,目标是获得社交网络B和C中与账号a属于同一个用户的账号b和c。分别在社交网络B和C中输入社交网络A的账号a的用户名usernamea进行搜索,在社交网络B和C中分别得到与usernamea相同或相似的账号,得到社交网络B和C中的待匹配用户集合SB和SC。基于同一个用户在不同社交网络中的账号用户名相同或相似的事实,账号b在SB中,账号c在SC。通过以上方式获得了待匹配的用户集合。
S2、根据输入的用户和待匹配用户集合中用户之间用户名的相似概率构建篱笆网络,基于维特比算法对输入的用户和待匹配用户集合中用户进行匹配,得到初步匹配结果。
本实施例中,针对同一个社交网络中可能存在多个用户名相同的账号的问题,首先采用用户名特征对多个社交网络的账号进行匹配,即初步匹配。步骤S2通过以下子步骤实现:
S21、计算账号a、SB中账号、SC中账号两两之间用户名的相似概率。
本实施例中,用户名的相似概率计算以账号的用户名为输入,账号间用户名相似概率为输出。具体为:使用不同的字符串度量方式度量用户名的相似性,一种度量方式对应用户名相似性的一个维度特征,最终得到一个关于用户名相似性的多维度特征向量。构建训练集,训练一个二分类模型,使用二分类模型预测账号之间的相似概率。
S22、以用户名的相似概率构建篱笆网络。
本实施例中,如图3所示,篱笆网络的第一层节点为账号a,第二层节点为SB中的账号,第三层节点为SC中的账号,第四层节点为账号a,相邻层级中节点之间的权重为账号用户名的相似概率。求解篱笆网络中的最优路径就可以求解出符合目标函数Func(ai,bj,ck)的匹配账号。
S23、基于维特比算法计算篱笆网络中的最优路径,最优路径上的节点为符合目标函数的匹配账号组合,得到初步匹配结果。
本实施例中,对于目标函数Func(ai,bj,ck)的求解,如果采用暴力法,则会导致惊人的计算复杂度。对于一个层数为K,宽度为D的篱笆网络而言,使用暴力法对所有的路径进行计算,其时间复杂度为O(DK),显然不能使用暴力法。
本实施例中,采用维特比算法进行求解,可大大降低匹配的时间复杂度。维特比算法是一种动态规划算法,通常被用来对篱笆网络中的最优路径进行求解。篱笆网络中的每一层都包含了若干状态,维特比算法的目标就是逐层计算到达每个状态的序列,只保留到达当前状态的最可能序列,直到计算到最后一层,得到全局最可能的状态序列。维特比算法的核心思想在于,一旦计算出了第i层的每个状态的最可能的取值,就可以在此基础上计算第i+1层中每个状态的最可能取值。对于一个层数为K,宽度为D的篱笆网络而言,其计算复杂度为O(KD2)。利用维特比算法得到每个状态的最可能取值以后,通过回溯的方式就能够得到到达每个状态的最优路径。最优路径上的节点就是符合目标函数的最优匹配账号。
S3、根据初步匹配结果,以用户之间属性特征的相似度构建相似度向量,以相似度向量为特征训练分类器,得到最终匹配结果。
本实施例中,因社交网络的用户名可以重复,所以采用维特比算法进行初步匹配后的结果中可能会出现多条最优途径。例如,社交网络B中的账号b1和b2用户名完全一样,所以b1和b2都出现在初步匹配的结果集中,这时候单单从用户名角度无法判别b1和b2哪个和a更加匹配。为了解决上述问题,需要引入了其它特征进行进一步的匹配,找到和账号a更加匹配的账号。在本发明中我们通过引入教育经历、工作经历、个人描述和地理位置信息等属性特征来进一步匹配。
对于社交网络中的描述信息,先将描述信息进行分词得到两个分词列表A1和A2,然后计算A1和A2的交并比。对于教育经历和工作经历采用史密斯-沃特曼距离(Smith-Waterman distance)来表示相似度。对于个人描述信息采用SoftTFIDF来衡量相似性。对于位置信息,当位置相同的时候相似度为1,当位置不同的时候相似度为0。采用以上特征的相似度构建相似度向量,如下:
V(u1,u2)=<score1,score2,score3,...,scoren>
其中,scorek对应第k个属性特征的相似度。
构建训练集,以相似度向量为特征训练分类器,选取分类器输出结果中属性特征相似概率最大的账号作为最优匹配账号,得到最终匹配结果。
本领域的普通技术人员将会意识到,这里的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (4)
1.一种基于维特比算法的多社交网络账号匹配方法,其特征在于,包括以下步骤:
S1、建立目标函数,根据输入的用户构建待匹配用户集合;
S2、根据所述输入的用户和待匹配用户集合中用户之间用户名的相似概率构建篱笆网络,基于维特比算法对所述输入的用户和待匹配用户集合中用户进行匹配,得到初步匹配结果;
S3、根据所述初步匹配结果,以用户之间属性特征的相似度构建相似度向量,以所述相似度向量为特征训练分类器,得到最终匹配结果。
2.如权利要求1所述的基于维特比算法的多社交网络账号匹配方法,其特征在于,所述步骤S1包括:
建立目标函数
Func(ai,bj,ck)=max(sim(ai,bj)+sim(bj,ck)+sim(ai,ck))
其中,ai、bj、ck分别表示社交网络A、B、C的账号用户名,sim(m,n)表示两个用户m、n之间的相似概率;
分别在社交网络B和C中输入社交网络A的账号a的用户名usernamea进行搜索,得到与usernamea相同或相似的账号,得到社交网络B和C中的待匹配用户集合SB和SC。
3.如权利要求2所述的基于维特比算法的多社交网络账号匹配方法,其特征在于,所述步骤S2包括:
S21、计算账号a、SB中账号、SC中账号两两之间用户名的相似概率;
S22、以所述用户名的相似概率构建篱笆网络;
所述篱笆网络的第一层节点为账号a,第二层节点为SB中的账号,第三层节点为SC中的账号,第四层节点为账号a,相邻层级中节点之间的权重为账号用户名的相似概率;
S23、基于维特比算法计算所述篱笆网络中的最优路径,所述最优路径上的节点为符合所述目标函数的匹配账号组合,得到初步匹配结果。
4.如权利要求3所述的基于维特比算法的多社交网络账号匹配方法,其特征在于,所述步骤S3包括:
根据所述初步匹配结果,以用户之间属性特征的相似度构建相似度向量,构建训练集,以所述相似度向量为特征训练分类器,选取所述分类器输出结果中概率最大的匹配账号组合作为最优匹配账号,得到最终匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910707360.8A CN110413900A (zh) | 2019-08-01 | 2019-08-01 | 基于维特比算法的多社交网络账号匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910707360.8A CN110413900A (zh) | 2019-08-01 | 2019-08-01 | 基于维特比算法的多社交网络账号匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413900A true CN110413900A (zh) | 2019-11-05 |
Family
ID=68365078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910707360.8A Pending CN110413900A (zh) | 2019-08-01 | 2019-08-01 | 基于维特比算法的多社交网络账号匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413900A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969201A (zh) * | 2019-11-28 | 2020-04-07 | 广州云徙科技有限公司 | 一种企业会员和潜客关系的识别匹配方法 |
CN111160130A (zh) * | 2019-12-12 | 2020-05-15 | 中国电子科技网络信息安全有限公司 | 一种多平台虚拟身份账号的多维碰撞识别方法 |
CN111339437A (zh) * | 2020-02-14 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种团伙成员角色的确定方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130122926A (ko) * | 2013-10-22 | 2013-11-11 | 허민 | 친구찾기 방법 및 이를 위한 시스템 |
CN109284589A (zh) * | 2018-09-05 | 2019-01-29 | 武汉大学 | 一种跨社交网络实体身份解析方法 |
CN109949174A (zh) * | 2019-03-14 | 2019-06-28 | 哈尔滨工程大学 | 一种异构社交网络用户实体锚链接识别方法 |
-
2019
- 2019-08-01 CN CN201910707360.8A patent/CN110413900A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130122926A (ko) * | 2013-10-22 | 2013-11-11 | 허민 | 친구찾기 방법 및 이를 위한 시스템 |
CN109284589A (zh) * | 2018-09-05 | 2019-01-29 | 武汉大学 | 一种跨社交网络实体身份解析方法 |
CN109949174A (zh) * | 2019-03-14 | 2019-06-28 | 哈尔滨工程大学 | 一种异构社交网络用户实体锚链接识别方法 |
Non-Patent Citations (2)
Title |
---|
DONGSHENG ZHAO等: "An improved User Identifcation Method Across Social Networks Via Tagging Behaviors", 《2018 IEEE 30TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE》 * |
王川: "基于自然语言处理的作文自动评分系统研究", 《万方数据》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969201A (zh) * | 2019-11-28 | 2020-04-07 | 广州云徙科技有限公司 | 一种企业会员和潜客关系的识别匹配方法 |
CN111160130A (zh) * | 2019-12-12 | 2020-05-15 | 中国电子科技网络信息安全有限公司 | 一种多平台虚拟身份账号的多维碰撞识别方法 |
CN111339437A (zh) * | 2020-02-14 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种团伙成员角色的确定方法、装置及电子设备 |
CN111339437B (zh) * | 2020-02-14 | 2023-07-14 | 支付宝(杭州)信息技术有限公司 | 一种团伙成员角色的确定方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Farnadi et al. | User profiling through deep multimodal fusion | |
CN111611472B (zh) | 一种基于图卷积神经网络的捆绑推荐方法及系统 | |
Zhu et al. | Online purchase decisions for tourism e-commerce | |
CN107800801A (zh) | 一种基于用户学习偏好的学习资源推送方法及系统 | |
CN110413900A (zh) | 基于维特比算法的多社交网络账号匹配方法 | |
CN107330798A (zh) | 一种基于种子节点传播的社交网络间用户身份识别方法 | |
CN108629671B (zh) | 一种融合用户行为信息的餐馆推荐方法 | |
CN112380453B (zh) | 物品推荐方法、装置、存储介质及设备 | |
Samanta et al. | A new approach to social networks based on fuzzy graphs | |
CN104239399A (zh) | 社交网络中的潜在好友推荐方法 | |
CN106384259A (zh) | 一种融合社交信息的推荐系统解决方法 | |
Wang et al. | Discover micro-influencers for brands via better understanding | |
CN113806630A (zh) | 基于注意力的多视角特征融合跨域推荐方法及装置 | |
CN113254652A (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN107424016A (zh) | 一种在线招聘广告推荐的实时竞价方法及其系统 | |
Yu et al. | Graph learning for fake review detection | |
CN114139066A (zh) | 一种基于图神经网络的协同过滤推荐系统 | |
CN117251586A (zh) | 多媒体资源推荐方法、装置及存储介质 | |
Bouzidi et al. | LSTM-based automated learning with smart data to improve marketing fraud detection and financial forecasting | |
Chae et al. | Uncertainty-based visual question answering: estimating semantic inconsistency between image and knowledge base | |
CN114168804A (zh) | 一种基于异质子图神经网络的相似信息检索方法和系统 | |
Wan et al. | A learner’s role-based multi dimensional collaborative recommendation (LRMDCR) for group learning support | |
Xue et al. | An incremental group-specific framework based on community detection for cold start recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |
|
RJ01 | Rejection of invention patent application after publication |