CN110427999B - 一种账号相关性评估方法、装置、设备及介质 - Google Patents
一种账号相关性评估方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110427999B CN110427999B CN201910684752.7A CN201910684752A CN110427999B CN 110427999 B CN110427999 B CN 110427999B CN 201910684752 A CN201910684752 A CN 201910684752A CN 110427999 B CN110427999 B CN 110427999B
- Authority
- CN
- China
- Prior art keywords
- behavior
- sequence
- behavior sequence
- traversed
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种账号相关性评估方法、装置、设备及介质,其中该方法包括:按时序构建各账号在预设时间段内的行为序列,其中所述行为序列由行为事件构成,且所述行为事件属于预定义的事件集合;遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离;根据所述编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据所述相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。本发明实施例提供的一种账号相关性评估方法、装置、设备及介质,实现了在保证黑用户识别正确率的基础上,提高识别效率。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种账号相关性评估方法、装置、设备及介质。
背景技术
随着互联网及流媒体技术的快速发展,各类直播平台琳琅满目,为用户提供了丰富多彩的娱乐生活。
目前,直播平台可根据直播间的人气热度(例如直播间的在线观看人数、礼物数额、评论数和点赞数等)为直播间分配平台资源(例如带宽等资源)。某些不良主播为获取更高的直播平台资源,常利用黑用户(一用户多账号)为其刷取热度,导致了平台资源的严重浪费。
现有的黑用户识别方法通常为,根据多账号的硬件相关性(例如多账号使用的IP或MAC地址相同)来识别黑用户。这种方法对于黑用户的识别正确率高,但是识别数量非常有限,从而识别效率较低。
发明内容
有鉴于此,本发明实施例提供一种账号相关性评估方法、装置、设备及介质,实现了在保证黑用户识别正确率的基础上,提高识别效率。
第一方面,本发明实施例提供了一种账号相关性评估方法,所述方法包括:
按时序构建各账号在预设时间段内的行为序列,其中所述行为序列由行为事件构成,且所述行为事件属于预定义的事件集合;
遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离;
根据所述编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据所述相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
第二方面,本发明实施例提供了一种账号相关性评估装置,所述装置包括:
行为序列构建模块,用于按时序构建各账号在预设时间段内的行为序列,其中所述行为序列由行为事件构成,且所述行为事件属于预定义的事件集合;
编辑距离计算模块,用于遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离;
相关性评估模块,用于根据所述编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据所述相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的账号相关性评估方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的账号相关性评估方法。
本发明实施例提供的一种账号相关性评估方法,预先定义应用平台上全部可发生事件的事件集合,例如直播平台上的事件集合包括直播平台上全部可发生事件(观看直播事件、关注主播事件和发送弹幕事件等);按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于事件集合;遍历各行为序列,计算当前遍历的行为序列与其他行为序列的编辑距离;根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据所述相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。对于黑用户来说,无论如何更改硬件关联性设置,一用户多账号之间的行为事件关联性会很强。基于此可通过构建账号的行为序列,并计算各行为序列之间的相似度,可实现账号之间相关性的评估,从而在保证黑用户识别正确率的基础上,提高识别效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1为本发明实施例一提供的一种账号相关性评估方法流程示意图;
图2为本发明实施例三提供的一种账号相关性评估装置结构示意图;
图3为本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下述各实施例中,每个实施例中同时提供了可选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不应将每个编号的实施例仅视为一个技术方案。
实施例一
图1为本发明实施例一提供的一种账号相关性评估方法流程示意图。本实施例公开的账号相关性评估方法可适用于应用平台对多账号进行相关性评估的情况。例如直播平台上存在黑用户(一用户多账号)为主播刷取热度的情况,可通过对多账号进行相关性评估来识别黑用户,从而可通过清洗黑用户保持直播平台良性的生态环境。本实施例公开的账号相关性评估方法可以由服务器来执行,具体可由服务器中的软件和/或硬件实现。具体参见图1所示,该方法包括如下步骤:
S110、按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于预定义的事件集合。
其中,不同应用平台上可发生的事件不同,例如购物平台上可发生的事件包括购买商品、收藏商品和添加购物车等,直播平台上可发生的事件包括观看直播、关注主播、赠送礼物和发送弹幕等。在进行应用平台上,账号相关性评估之前,可以预先定义应用平台上全部可发生事件的事件集合,例如可以定义每个可发生事件唯一对应的标识,各标识的集合即为事件集合。示例性的,某平台的全部可发生事件包括事件1、事件2、事件3...事件n,则可以定义事件1、事件2、事件3...事件n分别对应的唯一标识为act1、act2、act3...事件actn,进而事件集合可为A={act1,act2,act3,...,actn}。
其中,按时序构建各账号在预设时间段内的行为序列可以是,在预设时间段内,按照时间先后顺序依次记录账号触发的行为事件所对应的唯一标识,并将记录的行为事件的标识序列作为行为序列。其中,预设时间段可以自定义设置,例如可以是每天的00:00-23:59,也可以是每天的06:00-23:59,在此不做具体限定。其中,所记录的各行为事件的标识皆属于预定义的事件集合。其中,按时序记录账号在预设时间段内的所触发的行为事件唯一对应的标识,即可获取账号在预设时间段的行为轨迹。示例性的,预定义某平台的事件集合为A={act1,act2,act3,...,actn},则账号1的行为序列可以是a={a1,a2,...,ak|ai∈A},账号2的行为序列可以是b={b1,b2,...,bl|bj∈A}。
对于黑用户来说,一用户多账号之间的行为轨迹关联性较强。例如,黑用户1为主播1刷取热度时,可用账号A关注主播1,赠送主播1礼物,观看了主播1的直播;之后再用账号B、C和D等其他账号关注主播1,赠送主播1礼物,观看主播1直播。因此黑用户1所对应的账号A与账号B、C和D等多个账号间的行为轨迹相似度高。基于此,通过记录每个账号在预设时间段的行为轨迹,可以为评估多个账号间的相似性奠定基础。
S120、遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离。
其中,行为序列由各行为事件唯一对应的标识构成,因此可以将行为序列视为一种长文本,即可将计算行为序列的相似性的过程类比为计算长文本的相似性的过程。在文本相似性中,编辑距离是一种常用的方法,因此在构建好各账号的行为序列后,可以通过计算当前行为序列与其他行为序列的编辑距离,来确定当前遍历的行为序列和其他行为序列的相似性。
其中,常用的编辑距离可以为莱文斯坦(Levenshtein)距离,莱文斯坦距离指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符和删除一个字符。
可选的,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离,包括:
按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,d(i,j)表示当前遍历的行为序列a中前i个字符与其他行为序列b中前j个字符的编辑距离;d(i-1,j)表示当前遍历的行为序列a中前i-1个字符与其他行为序列b的编辑距离;d(i,j-1)表示当前遍历的行为序列a与其他行为序列b中前j-1个字符的编辑距离;d(i-1,j-1)表示当前遍历的行为序列a中前i-1个字符与其他行为序列b中前j-1个字符的编辑距离;其中,当i迭代至当前遍历的行为序列a的长度,以及当j迭代至其他行为序列b的长度时,d(i,j)表示当前遍历的行为序列a与其他行为序列b的编辑距离。
其中,编辑距离的计算方法为迭代法,即d(i,j)可以由d(i-1,j)、d(i,j-1)或d(i-1,j-1)确定。由公式(1)可知,当i为0或者j为0时,d(i,j)等于i和j中的最大值,可以理解为当前遍历的行为序列a中前i个字符对应的行为事件的标识为空,或者其他行为序列b中前j个字符对应的行为事件的标识为空时,d(i,j)等于i和j中的最大值。当i和j都不为0时,d(i,j)等于d(i-1,j)+1、d(i,j-1)+1、d(i-1,j-1)+1或d(i-1,j-1)中的最小值。其中,d(i,j)等于d(i-1,j)+1可以理解为,编辑距离d(i,j)等于删除当前遍历的行为序列a中第i个字符的一次修改操作,加上编辑距离d(i-1,j);d(i,j)等于d(i,j-1)+1可以理解为,编辑距离d(i,j)等于删除其他行为序列b第j个字符的一次修改操作,加上编辑距离d(i,j-1)+1;d(i,j)等于d(i-1,j-1)+1可以理解为,编辑距离d(i,j)等于将当前行为序列a中第i个字符替换为其他行为序列b第j个字符的一次修改操作,加上编辑距离d(i-1,j-1);d(i,j)等于d(i-1,j-1)可以理解为,当前行为序列a中第i个字符与其他行为序列b第j个字符相同,则编辑距离d(i,j)等于编辑距离d(i-1,j-1)。
S130、根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
其中,编辑距离与相似度呈反相关,即编辑距离越近,相似度越大,编辑距离越远,相似度越小。因此,可以基于编辑距离计算当前遍历的行为序列与其他行为序列的相似度。其中,相似度高则可以评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间相关,相似度低则可以评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间不相关。
可选的,根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,包括:
按照如下公式计算当前遍历的行为序列与其他行为序列的相似度:
其中,similarity(a,b)表示当i迭代至当前遍历的行为序列a的长度,以及当j迭代至其他行为序列b的长度时,当前遍历的行为序列a与其他行为序列b的相似度。
其中,当i迭代至当前遍历的行为序列a的长度,以及当j迭代至其他行为序列b的长度时,d(i,j)表示当前遍历的行为序列a与其他行为序列b的编辑距离。其中,similarity(a,b)可以与d(i,j)呈反比,且由于编辑距离过长,将带来倒数计算时精度过高,因此利用log函数对编辑距离进行处理,以减少对于计算精度的要求。其中,对d(i,j)求取log时加1是避免相似度为负数的情况,求取log后加1是避免分母为0的情况,以保证公式有意义。
可选的,根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性,包括:当相似度大于等于预设阈值时,则确定当前遍历的行为序列对应的账号与其他行为序列对应的账号相关。
其中,可以预先进行阈值设置,当相似度大于等于该预设阈值时,则确定当前遍历的行为序列对应的账号与其他行为序列对应的账号相关,当相似度小于该预设阈值时,则确定当前遍历的行为序列对应的账号与其他行为序列对应的账号不相关。其中,可以根据不同应用场景设置阈值,例如可以为0.8,也可以为0.9,在此不做具体限定。
其中,当前遍历的行为序列对应的账号可以与至少一个其他行为序列对应的账号相关。其中,可以将相关的账号进行记录,且遍历下一行为序列时,可以不再计算下一行为序列与已记录的行为序列之间的的相似度。其中,当遍历完成各行为序列时即可确认相关的账号,从而实现一用户多账号的识别。基于识别的相关的多个账号,可以进行黑用户清洗,以保证平台环境良性发展。
上述步骤S110-S130由应用平台对应的服务器执行,服务器通过按时序构建各账号在预设时间段内的行为序列,并通过计算各行为序列之间的编辑距离,确定各行为序列之间的相似度,进而确定各行为序列对应账号之间的相关性,从而在保证黑用户识别正确率的基础上,提高识别效率。
本实施例提供的一种账号相关性评估方法,预先定义应用平台上全部可发生事件的事件集合,例如直播平台上的事件集合包括直播平台上全部可发生事件(观看直播事件、关注主播事件和发送弹幕事件等);按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于事件集合;遍历各行为序列,计算当前遍历的行为序列与其他行为序列的编辑距离;根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。对于黑用户来说,无论如何更改硬件关联性设置,一用户多账号之间的行为事件关联性会很强。基于此可通过构建账号的行为序列,并计算各行为序列之间的相似度,可实现账号之间相关性的评估,从而在保证黑用户识别正确率的基础上,提高识别效率。
实施例二
本实施例在上述实施例基础上,对编辑距离的计算公式进行了优化。具体是在上述实施例提供的编辑距离的计算公式基础上,依次引入了两行为事件之间的事件关联距离,相同事件的属性关联距离以及行为序列中前后事件之间的时间间隔参数,从而使的计算行为序列之间的编辑距离更符合应用场景,提高了编辑距离的计算准确性。与上述实施例提出的账号相关性评估方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例。
本发明实施例二提供了一种账号相关性评估方法,包括如下步骤:
S211、按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于预定义的事件集合。
S212、遍历各行为序列,按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,pd(i,j)表示当前遍历的行为序列a中第i个字符对应的行为事件ai,与其他行为序列b中第j个字符对应的行为事件bj之间的事件关联距离;
其中,按照如下公式计算行为事件ai与行为事件bj之间的事件关联距离:
其中,S表示预先构建的行为序列集合;|{S|ai∈S}|表示行为序列集合S中包含行为事件ai的行为序列的条数;|{S|bj∈S}|表示行为序列集合S中包含行为事件bj的行为序列的条数;|{S|ai∈S,bj∈S}|表示行为序列集合S中既包含行为事件ai,又包含行为事件bj的行为序列的条数。
其中,针对两不同行为事件之间,其关联性可以存在强弱之分,例如购物平台上,行为事件1为收藏商品,行为事件2为查找相似商品,行为事件3为领取登录奖励,则行为事件1与行为事件2的关联性较强,与行为事件3的关联性较弱。因此,若将计算行为序列的相似性的过程简单类比为计算长文本的相似性的过程,当两行为事件不相同时,用加1来增大编辑距离,则根据编辑距离计算的行为序列的相似度的准确率较低。基于此,可以预先收集大量用户在预设时间段的行为序列,并将各行为序列组成行为序列集合。通过对大量行为序列的集合的数据分析,可以确定不同行为事件之间的事件关联距离。
具体的,可根据公式(3)计算两行为事件之间的事件关联距离。将行为序列集合S中包含行为事件ai的行为序列的条数,与行为序列集合S中包含行为事件bj的行为序列的条数求和,并用和除以行为序列集合S中既包含行为事件ai,又包含行为事件bj的行为序列的条数,可以表示行为事件ai与行为事件bj的共现性(同时出现的可能性)进行评价。同时,为了防止高频序列导致的相除计算后序列数值过高,利用了log函数对高频序列进行处理,以减少事件频率对共现性的影响。其中,如果行为事件ai与行为事件bj几乎都是一起出现,那么说明两个行为事件的关联性很强,计算得到pd(i,j)趋近于0,如果两个事件完全不相关,则pd(i,j)越大,利用log函数可以防止数值过大导致的溢出。其中,分母|{S|ai∈S,bj∈S}|加1,以保证分式分母不为0;分式后加1,以保证log函数的结果大于0,保证事件关联距离不为负数。
由公式(2)可知,当两行为事件不相同时,若两行为事件关联性越强,则事件关联距离pd(i,j)越趋近于0,若行为事件关联性越弱,则事件关联距离pd(i,j)越大。因此,在计算两行为序列的编辑距离的过程中,当两行为事件不相同时,用加pd(i,j)来替代加1,可以增加编辑距离与两行为事件的事件关联距离的相关性,从而使计算得到的编辑距离更加具备科学性,提高了相似度的准确率。
S213、根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
在上述实施基础上,本发明实施例二提供了另一种账号相关性评估方法,包括如下步骤:
S221、按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于预定义的事件集合。
S222、遍历各行为序列,按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,fd(i,j)表示行为事件ai与行为事件bj相同时,行为事件ai与行为事件bj之间的属性关联距离;σ表示预设调和因子;
其中,按照如下公式计算行为事件ai与行为事件bj之间的属性关联距离:
其中,针对两相同的行为事件,其关联性也可以存在强弱之分,例如在直播平台上,当行为事件为发送弹幕时,发送弹幕的内容相同的关联性比发送弹幕不同的关联性强。因此,当两行为事件相同时,若令编辑距离d(i,j)等于编辑距离,则根据编辑距离计算的行为序列的相似度的准确率较低。基于此,针对不同行为事件,预先定义不同属性特征向量。示例性的,针对直播平台上的观看直播事件,可以通过将观看时长进行切分编码、观看时间段进行编码,和/或观看直播间进行编码得到观看事件的属性特征向量。通过计算属性特征向量之间的属性关联距离,则可以得到相同行为事件之间的关联性大小。
具体的,可根据公式(5)计算相同行为事件之间的属性关联距离,即将两个属性特征向量之间的余弦相似度,作为两个属性特征向量之间的关联距离,且fd(i,j)的取值范围为向量的余弦值的取值范围。由于属性特征向量之间的关联距离与编辑距离呈负相关,参见公式(4),可在两行为事件相同时,用加σ*(1-fd(i,j))来替代加0,以计算编辑距离。其中,在加入属性关联距离之后,如果属性关联距离过大,则相同行为事件之间的编辑距离可能比不同行为事件之间的编辑距离还大,因此通过乘以调和因子σ可调节属性关联距离对于编辑距离的影响。其中,调和因子σ的取值可根据实际情况进行设置,当(1-fd(i,j))的绝对值越大时,σ取值越小,以调节属性关联距离对于编辑距离的影响,一般σ的取值范围可为[0.5-1],例如可以取0.8。
由公式(4)可知,当两行为事件相同时,若属性特征向量之间差异越小,则属性关联距离fd(i,j)越小,若属性特征向量之间差异越大,则属性关联距离fd(i,j)越大。因此,在计算两行为序列的编辑距离的过程中,当两行为事件相同时,用加σ*(1-fd(i,j))来替代加0,可以增加编辑距离与事件的属性相关距离的相关性,从而使计算得到的编辑距离更加具备科学性,提高了相似度的准确率。
S223、根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
在上述实施例基础上,本发明实施例二提供了又一种账号相关性评估方法,包括如下步骤:
S231、按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于预定义的事件集合。
S232、遍历各行为序列,按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,T(ai-1,ai)为行为事件ai与前一行为事件ai-1之间的时间间隔,T(bj-1,bj)为行为事件bj与前一行为事件bj-1之间的时间间隔。
由公式(6)可知,在上述实施例公开的编辑距离公式的基础上,还可以增加行为序列中前后事件之间的时间间隔参数,以提高编辑距离的准确性。其中,T(ai-1,ai)与T(bj-1,bj)差的绝对值,表示两事件间隔的时间差;将时间差除以两个事件间隔的最大值,可以计算出时间占比的数值。其中,时间占比与账号触发行为事件的频率相关,若行为事件ai与前一行为事件ai-1之间的时间间隔,与行为事件bj与前一行为事件bj-1之间的时间间隔越相近,则账号触发行为事件的频率越相近,占比数值越趋近于0,从而编辑距离越小;若行为事件ai与前一行为事件ai-1之间的时间间隔,与行为事件bj与前一行为事件bj-1之间的时间间隔相差越大,则账号触发行为事件的频率相差越大,占比数值越趋近于1,从而编辑距离越大。其中,当计算两行为序列的编辑距离时,若不增加时间间隔对编辑距离的影响,则pd(i,j)或σ*(1-fd(i,j))的所乘的权重系数可认为是1。在此基础上,将权重系数1加上了时间占比,可以理解为通过时间占比调整了原pd(i,j)或σ*(1-fd(i,j))的权重,即根据行为事件ai与前一行为事件ai-1之间的时间间隔,与行为事件bj与前一行为事件bj-1之间的时间间隔调整了原pd(i,j)或σ*(1-fd(i,j))的权重,可以增加编辑距离与行为序列中相邻两行为事件的时间间隔的相关性。
由公式(6)可知,从两行为序列的时间维度进行分析,若两行为序列中的行为事件的触发频率差异越小,则时间占比越小,若两行为序列中的行为事件的触发频率差异越大,则时间占比越大。因此,在计算两行为序列的编辑距离的过程中,根据时间占比确定调整权重,以调整事件关联距离或属性关联距离的大小,可以增加编辑距离与行为序列中相邻两行为事件的时间间隔的相关性,从而使计算得到的编辑距离更加具备科学性,提高了相似度的准确率。
S233、根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
本发明实施例在上述实施例提供的编辑距离公式的基础上,依次引入了两行为事件之间的事件关联距离,相同事件的属性关联距离以及行为序列中前后事件之间的时间间隔参数,从而使的计算行为序列之间的编辑距离更符合应用场景,提高了编辑距离的计算准确性。此外,本公开实施例与上述实施例提出的账号相关性评估方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,且本实施例与上述实施例具有相同的有益效果。
实施例三
图2为本发明实施例三提供的一种账号相关性评估装置结构示意图。参见图2所示,装置包括:
行为序列构建模块210,用于按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于预定义的事件集合;
编辑距离计算模块220,用于遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离;
相关性评估模块230,用于根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
可选的,编辑距离计算模块,具体用于:
按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,d(i,j)表示当前遍历的行为序列a中前i个字符与其他行为序列b中前j个字符的编辑距离;d(i-1,j)表示当前遍历的行为序列a中前i-1个字符与其他行为序列b的编辑距离;d(i,j-1)表示当前遍历的行为序列a与其他行为序列b中前j-1个字符的编辑距离;d(i-1,j-1)表示当前遍历的行为序列a中前i-1个字符与其他行为序列b中前j-1个字符的编辑距离;
其中,当i迭代至当前遍历的行为序列a的长度,以及当j迭代至其他行为序列b的长度时,d(i,j)表示当前遍历的行为序列a与其他行为序列b的编辑距离。
进一步的,编辑距离计算模块,具体用于:
按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,pd(i,j)表示当前遍历的行为序列a中第i个字符对应的行为事件ai,与其他行为序列b中第j个字符对应的行为事件bj之间的事件关联距离;
其中,按照如下公式计算行为事件ai与行为事件bj之间的事件关联距离:
其中,S表示预先构建的行为序列集合;|{S|ai∈S}|表示行为序列集合S中包含行为事件ai的行为序列的条数;|{S|bj∈S}|表示行为序列集合S中包含行为事件bj的行为序列的条数;|{S|ai∈S,bj∈S}|表示行为序列集合S中既包含行为事件ai,又包含行为事件bj的行为序列的条数。
进一步的,编辑距离计算模块,具体用于:
按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,fd(i,j)表示行为事件ai与行为事件bj相同时,行为事件ai与行为事件bj之间的属性关联距离;σ表示预设调和因子;
其中,按照如下公式计算行为事件ai与行为事件bj之间的属性关联距离:
进一步的,编辑距离计算模块,具体用于:
按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,T(ai-1,ai)为行为事件ai与前一行为事件ai-1之间的时间间隔,T(bj-1,bj)为行为事件bj与前一行为事件bj-1之间的时间间隔。
可选的,相关性评估模块,包括:
相似度计算子模块,用于按照如下公式计算当前遍历的行为序列与其他行为序列的相似度:
其中,similarity(a,b)表示当i迭代至当前遍历的行为序列a的长度,以及当j迭代至其他行为序列b的长度时,当前遍历的行为序列a与其他行为序列b的相似度。
可选的,相关性评估模块,包括:
相关性评估子模块,用于当相似度大于等于预设阈值时,则确定当前遍历的行为序列对应的账号与其他行为序列对应的账号相关。
本发明实施例所提供的账号相关性评估装置可执行本发明任一实施例所提供的账号相关性评估方法,具备执行方法相应的功能模块和有益效果。未详尽描述的技术细节,可参见本发明任一实施例所提供的账号相关性评估方法。
实施例四
图3为本发明实施例四提供的一种电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图3显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,内存28,连接不同系统组件(包括内存28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
内存28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。内存28可以包括至少一个程序产品,该程序产品具有一组(例如账号相关性评估装置的行为序列构建模块210、编辑距离计算模块220、相关性评估模块230)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(例如账号相关性评估装置的行为序列构建模块210、编辑距离计算模块220、相关性评估模块230)程序模块42的程序/实用工具40,可以存储在例如内存28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在内存28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的账号相关性评估方法,该方法包括:
按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于预定义的事件集合;
遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离;
根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
处理单元16通过运行存储在内存28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的账号相关性评估方法。
当然,本领域技术人员可以理解,处理器还可以实现本发明任一实施例所提供的账号相关性评估方法的技术方案。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的账号相关性评估方法,该方法包括:
按时序构建各账号在预设时间段内的行为序列,其中行为序列由行为事件构成,且行为事件属于预定义的事件集合;
遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离;
根据编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上的方法操作,还可以执行本发明任一实施例所提供的账号相关性评估方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种账号相关性评估方法,其特征在于,包括:
按时序构建各账号在预设时间段内的行为序列,其中所述行为序列由行为事件构成,且所述行为事件属于预定义的事件集合;
遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离;
根据所述编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据所述相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性;
所述计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离,包括:
按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,d(i,j)表示当前遍历的行为序列a中前i个字符与其他行为序列b中前j个字符的编辑距离;d(i-1,j)表示当前遍历的行为序列a中前i-1个字符与其他行为序列b的编辑距离;d(i,j-1)表示当前遍历的行为序列a与其他行为序列b中前j-1个字符的编辑距离;d(i-1,j-1)表示当前遍历的行为序列a中前i-1个字符与其他行为序列b中前j-1个字符的编辑距离;
其中,当i迭代至当前遍历的行为序列a的长度,以及当j迭代至其他行为序列b的长度时,d(i,j)表示当前遍历的行为序列a与其他行为序列b的编辑距离。
2.根据权利要求1所述的方法,其特征在于,所述计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离,包括:
按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,pd(i,j)表示当前遍历的行为序列a中第i个字符对应的行为事件ai,与其他行为序列b中第j个字符对应的行为事件bj之间的事件关联距离;
其中,按照如下公式计算行为事件ai与行为事件bj之间的事件关联距离:
其中,S表示预先构建的行为序列集合;|{S|ai∈S}|表示行为序列集合S中包含行为事件ai的行为序列的条数;|{S|bj∈S}|表示行为序列集合S中包含行为事件bj的行为序列的条数;|{S|ai∈S,bj∈S}|表示行为序列集合S中既包含行为事件ai,又包含行为事件bj的行为序列的条数。
6.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性,包括:
当所述相似度大于等于预设阈值时,则确定当前遍历的行为序列对应的账号与其他行为序列对应的账号相关。
7.一种账号相关性评估装置,其特征在于,所述装置包括:
行为序列构建模块,用于按时序构建各账号在预设时间段内的行为序列,其中所述行为序列由行为事件构成,且所述行为事件属于预定义的事件集合;
编辑距离计算模块,用于遍历各行为序列,计算当前遍历的行为序列与各行为序列中除当前遍历的行为序列外的其他行为序列的编辑距离;
相关性评估模块,用于根据所述编辑距离,计算当前遍历的行为序列与其他行为序列的相似度,并根据所述相似度,评估当前遍历的行为序列对应的账号与其他行为序列对应的账号之间的相关性;
所述编辑距离计算模块,具体用于:
按照如下公式计算当前遍历的行为序列与其他行为序列的编辑距离:
其中,d(i,j)表示当前遍历的行为序列a中前i个字符与其他行为序列b中前j个字符的编辑距离;d(i-1,j)表示当前遍历的行为序列a中前i-1个字符与其他行为序列b的编辑距离;d(i,j-1)表示当前遍历的行为序列a与其他行为序列b中前j-1个字符的编辑距离;d(i-1,j-1)表示当前遍历的行为序列a中前i-1个字符与其他行为序列b中前j-1个字符的编辑距离;
其中,当i迭代至当前遍历的行为序列a的长度,以及当j迭代至其他行为序列b的长度时,d(i,j)表示当前遍历的行为序列a与其他行为序列b的编辑距离。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的账号相关性评估方法。
9.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-6中任一项所述的账号相关性评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910684752.7A CN110427999B (zh) | 2019-07-26 | 2019-07-26 | 一种账号相关性评估方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910684752.7A CN110427999B (zh) | 2019-07-26 | 2019-07-26 | 一种账号相关性评估方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427999A CN110427999A (zh) | 2019-11-08 |
CN110427999B true CN110427999B (zh) | 2022-02-22 |
Family
ID=68412806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910684752.7A Active CN110427999B (zh) | 2019-07-26 | 2019-07-26 | 一种账号相关性评估方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427999B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325578B (zh) * | 2020-02-20 | 2023-10-31 | 深圳市腾讯计算机系统有限公司 | 预测模型的样本确定方法及装置、介质和设备 |
CN111695019B (zh) * | 2020-06-11 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 一种识别关联账号的方法及装置 |
CN113297840B (zh) * | 2021-04-28 | 2024-05-24 | 百果园技术(新加坡)有限公司 | 恶意流量账号检测方法、装置、设备和存储介质 |
CN113521750B (zh) * | 2021-07-15 | 2023-10-24 | 珠海金山数字网络科技有限公司 | 异常账号检测模型训练方法和异常账号检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017191577A (ja) * | 2016-04-15 | 2017-10-19 | Nhn テコラス株式会社 | サーバ装置及び不正判定方法 |
CN108174296A (zh) * | 2018-01-02 | 2018-06-15 | 武汉斗鱼网络科技有限公司 | 恶意用户识别方法及装置 |
CN108898418A (zh) * | 2018-05-31 | 2018-11-27 | 康键信息技术(深圳)有限公司 | 用户账号检测方法、装置、计算机设备和存储介质 |
CN108984721A (zh) * | 2018-07-10 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 垃圾账号的识别方法和装置 |
CN109086422A (zh) * | 2018-08-08 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种机器弹幕用户的识别方法、装置、服务器和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8280833B2 (en) * | 2008-06-12 | 2012-10-02 | Guardian Analytics, Inc. | Fraud detection and analysis |
-
2019
- 2019-07-26 CN CN201910684752.7A patent/CN110427999B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017191577A (ja) * | 2016-04-15 | 2017-10-19 | Nhn テコラス株式会社 | サーバ装置及び不正判定方法 |
CN108174296A (zh) * | 2018-01-02 | 2018-06-15 | 武汉斗鱼网络科技有限公司 | 恶意用户识别方法及装置 |
CN108898418A (zh) * | 2018-05-31 | 2018-11-27 | 康键信息技术(深圳)有限公司 | 用户账号检测方法、装置、计算机设备和存储介质 |
CN108984721A (zh) * | 2018-07-10 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 垃圾账号的识别方法和装置 |
CN109086422A (zh) * | 2018-08-08 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种机器弹幕用户的识别方法、装置、服务器和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110427999A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427999B (zh) | 一种账号相关性评估方法、装置、设备及介质 | |
CN107609152B (zh) | 用于扩展查询式的方法和装置 | |
CN110020411B (zh) | 图文内容生成方法及设备 | |
CN110096614B (zh) | 信息推荐方法及装置、电子设备 | |
US11748389B1 (en) | Delegated decision tree evaluation | |
CN109714636B (zh) | 一种用户识别方法、装置、设备及介质 | |
CN110851712B (zh) | 书籍信息的推荐方法、设备以及计算机可读介质 | |
WO2017185652A1 (zh) | 实现分享文件的方法及电子设备 | |
CN111127051B (zh) | 多渠道动态归因方法、装置、服务器及存储介质 | |
CN112003834B (zh) | 异常行为检测方法和装置 | |
JP2022159405A (ja) | データのアペンド方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN111798281B (zh) | 作弊操作的判定方法、装置、计算机可读存储介质及设备 | |
CN106484773B (zh) | 确定多媒体资源的关键词的权重的方法及装置 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN110347900B (zh) | 一种关键词的重要度计算方法、装置、服务器及介质 | |
CN105809488B (zh) | 一种信息处理方法及电子设备 | |
JP7454630B2 (ja) | ラベル推奨モデルのトレーニング方法及び装置、ラベル取得方法及び装置 | |
CN113836390A (zh) | 资源推荐方法、装置、计算机设备及存储介质 | |
CN110297982B (zh) | 一种推荐方法、装置、设备及介质 | |
CN115204931A (zh) | 用户服务策略确定方法、装置及电子设备 | |
CN109348236B (zh) | 一种存储容量评估方法、装置、服务器及存储介质 | |
CN110262856B (zh) | 一种应用程序数据采集方法、装置、终端及存储介质 | |
CN113779403A (zh) | 书籍资讯的获取方法、展示方法、服务端以及用户终端 | |
CN111127057B (zh) | 一种多维用户画像恢复方法 | |
CN112003833A (zh) | 异常行为检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |