CN110166344A - 一种身份标识识别方法、装置以及相关设备 - Google Patents
一种身份标识识别方法、装置以及相关设备 Download PDFInfo
- Publication number
- CN110166344A CN110166344A CN201810380645.0A CN201810380645A CN110166344A CN 110166344 A CN110166344 A CN 110166344A CN 201810380645 A CN201810380645 A CN 201810380645A CN 110166344 A CN110166344 A CN 110166344A
- Authority
- CN
- China
- Prior art keywords
- identity
- sample
- abnormality score
- target
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000005856 abnormality Effects 0.000 claims abstract description 382
- 230000006399 behavior Effects 0.000 claims description 119
- 238000010586 diagram Methods 0.000 claims description 36
- 230000003542 behavioural effect Effects 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000011273 social behavior Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 230000006870 function Effects 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 238000005295 random walk Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 241001632427 Radiola Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 108010080865 Factor XII Proteins 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种身份标识识别方法、装置以及相关设备,方法包括:获取多个身份标识,根据多个身份标识对应的业务关系数据和多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;目标异常分数表示身份标识属于虚假类型的身份标识的概率;根据目标异常分数从多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定样本身份标识对应的样本标签为虚假身份标签;根据多个身份标识对应的业务行为数据、样本身份标识对应的虚假身份标签,在多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;目标虚假身份标识包括样本身份标识。采用本发明,可以提高身份标识识别的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种身份标识识别方法、装置以及相关设备。
背景技术
随着社会的发展,社交网已经成为一种重要的交互媒体,正在逐渐改变传统的信息传播方式。任何人在任何时间任何地点都可以在社交网平台上发布信息,其中不乏有经济价值和社会意义的需求信息。与此同时,信息的甄别也变得尤为重要,由于网络的快速发展,社交网络上信息的传播速度极其迅速,因此识别社交网络平台中的虚假用户,阻止其传播虚假信息就变得非常重要。
现有识别虚假用户的方式主要分为有监督的识别和无监督的识别,有监督的识别的过程是:通过大量带有标签的训练样本训练分类器,利用分类器识别虚假账号;无监督的识别过程是:通过聚类的方法直接识别多个账号中的虚假账号。基于有监督的识别方法难以获取大量的训练样本且训练分类器的时间花销庞大,基于无监督的识别方法需要很强的专家知识来设定识别过程中的各项参数且还需计算两两账号之间的相似度,就要耗费大量的计算时间。
上述可见,无论是有监督的识别虚假账号或者无监督的识别虚假账号,都需要花费大量的计算时间,识别效率低下。
发明内容
本发明实施例提供一种身份标识识别方法、装置以及相关设备,可以提高识别虚假账号的效率。
本发明一方面提供了一种身份标识识别方法,包括:
获取多个身份标识,根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;所述目标异常分数表示身份标识属于虚假类型的身份标识的概率;
根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签;
根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;所述目标虚假身份标识包括所述样本身份标识。
其中,所述根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数,包括:
根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识;
根据所述多个身份标识对应的业务关系数据和所述种子身份标识,计算所述每个身份标识分别对应的目标异常分数。
其中,所述根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识,包括:
根据所述多个身份标识对应的业务关系数据,将所述多个身份标识划分为至少一个身份标识社区;
根据所述多个身份标识对应的业务行为数据,在每个身份标识社区中识别属于正常类型的身份标识,作为所述种子身份标识。
其中,所述根据所述多个身份标识对应的业务关系数据,将所述多个身份标识划分为至少一个身份标识社区,包括:
将所述每个身份标识分别确定为初始节点,并将所述每个初始节点分别划分至不同的原始社区;
计算处于不同原始社区的初始节点的模块度,作为原始模块度,根据所述多个身份标识对应的业务关系数据和所述原始模块度,调整每个原始社区所覆盖的身份标识,将调整后的原始社区作为参考社区,将处于同一个参考社区中的多个身份标识作为一个初始节点,并将所述参考社区确定为所述原始社区,在所述每个参考社区所覆盖的身份标识满足收敛条件时,将所述每个参考社区分别确定为所述身份标识社区。
其中,所述根据所述多个身份标识对应的业务关系数据和所述原始模块度,调整每个原始社区所覆盖的身份标识,将调整后的原始社区作为参考社区,包括:
为每个身份标识设置轮询优先级;
根据所述轮询优先级从所述多个身份标识中选择用于当前轮询的身份标识,确定为目标待设置身份标识;
根据所述多个身份标识对应的业务关系数据,确定与所述目标待设置身份标识相邻的参考身份标识;
将所述目标待设置身份标识划分至所述参考身份标识所在的原始社区,并计算划分后的模块度,作为调整模块度;
若所述调整模块度大于所述原始模块度,则确定所述目标待设置身份标识属于所述参考身份标识所在的原始社区,并将所述调整模块度确定为所述原始模块度;
若所述调整模块度小于所述原始模块度,则保持所述目标待设置身份标识处于所属的原始社区;
将所述目标待设置身份标识所在的原始社区,作为所述目标待设置身份标识对应的参考社区;
当每个身份标识均被确定为目标待设置身份标识,且所述原始模块度不再增大时,停止轮询。
其中,所述根据所述多个身份标识对应的业务行为数据,在每个身份标识社区中识别属于正常类型的身份标识,作为所述种子身份标识,包括:
根据所述每个身份标识对应的业务行为数据中的登录行为数据和社交行为数据,计算每个身份标识的信用值;所述信用值表示身份标识属于正常类型的身份标识的概率;
根据每个身份标识社区所覆盖的身份标识数量,确定所述每个身份标识社区对应的信用阈值;
在所述每个身份标识社区中,将所述信用值大于所述信用阈值的身份标识,作为所述种子身份标识。
其中,所述根据所述多个身份标识对应的业务关系数据和所述种子身份标识,计算所述每个身份标识分别对应的目标异常分数,包括:
为所述种子身份标识设置第一异常分数,为非种子身份标识设置第二异常分数,并将所述第一异常分数和所述第二异常分数作为初始异常分数;所述非种子身份标识是指所述多个身份标识中除了所述种子身份标识以外的身份标识;
若所述多个身份标识的数量小于数量阈值,则根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
其中,所述根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数,包括:
根据所述每个身份标识的业务关系数据,分别调整每个身份标识的初始异常分数,将调整后的初始异常分数作为辅助异常分数,并将每个身份标识的辅助异常分数确定初始异常分数,进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
其中,所述根据所述每个身份标识的业务关系数据,分别调整每个身份标识的初始异常分数,将调整后的初始异常分数作为辅助异常分数,并将每个身份标识的辅助异常分数确定初始异常分数,进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数,包括:
从所述多个身份标识中获取待处理身份标识;
根据所述待处理身份标识的业务关系数据,确定与所述待处理身份标识相邻的身份标识,作为辅助身份标识,并确定所述辅助身份标识与所述待处理身份标识之间的连接权重;
根据所述辅助身份标识的初始异常分数和所述连接权重,调整所述待处理身份标识的初始异常分数,得到所述待处理身份标识的辅助异常分数;
当所有身份标识均被确定为待处理身份标识时,将每个身份标识的辅助异常分数确定为初始异常分数,并进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
其中,还包括:
若所述多个身份标识的数量大于或等于所述数量阈值,则为所述多个身份标识设置编号,并根据所述编号的顺序、所述多个身份标识对应的业务关系数据将所述多个身份标识划分为多个身份标识区块;每个身份标识区块包括边集合和点集合;点集合包括身份标识区块所覆盖的身份标识;边集合包括所述点集合中的各身份标识之间的连接权重;
根据所述点集合和所述边集合,对各身份标识区块中的每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
其中,所述根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签,包括:
将所述目标异常分数小于分数阈值的身份标识,作为所述样本身份标识;所述样本身份标识对应的样本标签为虚假身份标签。
其中,所述根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识,包括:
根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对;其中每个样本对包括一个身份标识和一个样本身份标识;
根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数;
根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数;
根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识。
其中,所述根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对,包括:
将满足约束条件的身份标识和样本身份标组合为身份标识子集合;
在每个身份标识子集合中,将一个身份标识和一个样本身份标识组合为所述样本对。
其中,所述根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数,包括:
根据所述多个身份标识对应的业务行为数据中的业务行为时间,划分多个时间段;所述多个时间段之间在时间区间内不重叠或局部重叠;
在每个时间段内,统计所述样本对中的身份标识与所述样本对中的样本身份标识之间具有相同业务行为类型的分段匹配次数,并将所述每个时间段内统计出的分段匹配次数之和,作为所述样本对对应的行为匹配次数。
其中,所述根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数,包括:
根据所述多个身份标识对应的业务行为数据,在每个时间段内,统计所述样本对中的身份标识对应的业务行为次数,并统计所述样本对中的样本身份标识对应的业务行为次数;
将所述每个时间段内统计出的所述样本对中的身份标识对应的业务行为次数之和,作为所述样本对对应的第一数量;
将所述每个时间段内统计出的所述样本对中的样本身份标识对应的业务行为次数之和,作为所述样本对对应的第二数量;
根据所述样本对对应的行为匹配次数、所述样本对对应的第一数量、所述样本对对应的第二数量,计算所述样本对对应的行为相似系数。
其中,所述根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识,包括:
将所述行为匹配次数大于匹配阈值,且所述行为相似系数大于系数阈值的所述样本对中的身份标识,作为所述目标虚假身份标识。
其中,还包括:
根据所述多个身份标识、所述目标虚假身份标识、各样本对分别对应的行为匹配次数,构建虚假身份标识拓扑图;
将所述虚假身份标识拓扑图中的每个联通分量所对应的目标虚假身份标识,组合为目标虚假身份标识子集合。
本发明另一方面提供了一种身份标识识别装置,包括:
获取模块,用于获取多个身份标识;
计算模块,用于根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;所述目标异常分数表示身份标识属于虚假类型的身份标识的概率;
选取模块,用于根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签;
识别模块,用于根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;所述目标虚假身份标识包括所述样本身份标识。
其中,所述计算模块,包括:
识别单元,用于根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识;
分数计算单元,用于根据所述多个身份标识对应的业务关系数据和所述种子身份标识,计算所述每个身份标识分别对应的目标异常分数。
其中,所述识别单元,包括:
社区划分子单元,用于根据所述多个身份标识对应的业务关系数据,将所述多个身份标识划分为至少一个身份标识社区;
识别子单元,根据所述多个身份标识对应的业务行为数据,在每个身份标识社区中识别属于正常类型的身份标识,作为所述种子身份标识。
其中,所述社区划分子单元,包括:
第一确定子单元,用于将所述每个身份标识分别确定为初始节点,并将所述每个初始节点分别划分至不同的原始社区;
所述第一确定子单元,还用于计算处于不同原始社区的初始节点的模块度,作为原始模块度;
调整子单元,用于根据所述多个身份标识对应的业务关系数据和所述原始模块度,调整每个原始社区所覆盖的身份标识,将调整后的原始社区作为参考社区;
所述第一确定子单元,还用于将处于同一个参考社区中的多个身份标识作为一个初始节点,并将所述参考社区确定为所述原始社区,在所述每个参考社区所覆盖的身份标识满足收敛条件时,将所述每个参考社区分别确定为所述身份标识社区。
其中,所述调整子单元,包括:
设置子单元,用于为每个身份标识设置轮询优先级;
设置子单元,还用于根据所述轮询优先级从所述多个身份标识中选择用于当前轮询的身份标识,确定为目标待设置身份标识,并根据所述多个身份标识对应的业务关系数据,确定与所述目标待设置身份标识相邻的参考身份标识;
所述设置子单元,还用于将所述目标待设置身份标识划分至所述参考身份标识所在的原始社区,并计算划分后的模块度,作为调整模块度;
所述设置子单元,还用于若所述调整模块度大于所述原始模块度,则确定所述目标待设置身份标识属于所述参考身份标识所在的原始社区,并将所述调整模块度确定为所述原始模块度;
所述设置子单元,还用于若所述调整模块度小于所述原始模块度,则保持所述目标待设置身份标识处于所属的原始社区;
所述设置子单元,还用于将所述目标待设置身份标识所在的原始社区,作为所述目标待设置身份标识对应的参考社区;
停止子单元,用于当每个身份标识均被确定为目标待设置身份标识,且所述原始模块度不再增大时,停止轮询。
其中,所述识别子单元,包括:
检测子单元,用于所述根据所述每个身份标识对应的业务行为数据中的登录行为数据和社交行为数据,计算每个身份标识的信用值;所述信用值表示身份标识属于正常类型的身份标识的概率;
所述检测子单元,还用于根据每个身份标识社区所覆盖的身份标识数量,确定所述每个身份标识社区对应的信用阈值;
提取确定子单元,用于在所述每个身份标识社区中,将所述信用值大于所述信用阈值的身份标识,作为所述种子身份标识。
其中,所述分数计算单元,包括:
提取子单元,用于为所述种子身份标识设置第一异常分数,为非种子身份标识设置第二异常分数,并将所述第一异常分数和所述第二异常分数作为初始异常分数;所述非种子身份标识是指所述多个身份标识中除了所述种子身份标识以外的身份标识;
分数确定子单元,用于若所述多个身份标识的数量小于数量阈值,则根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
其中,所述分数确定子单元,具体用于:根据所述每个身份标识的业务关系数据,分别调整每个身份标识的初始异常分数,将调整后的初始异常分数作为辅助异常分数,并将每个身份标识的辅助异常分数确定初始异常分数,进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
其中,所述分数确定子单元,包括:
获取子单元,用于从所述多个身份标识中获取待处理身份标识;
所述获取子单元,还用于根据所述待处理身份标识的业务关系数据,确定与所述待处理身份标识相邻的身份标识,作为辅助身份标识,并确定所述辅助身份标识与所述待处理身份标识之间的连接权重;
所述获取子单元,还用于根据所述辅助身份标识的初始异常分数和所述连接权重,调整所述待处理身份标识的初始异常分数,得到所述待处理身份标识的辅助异常分数;
第二确定子单元,用于当所有身份标识均被确定为待处理身份标识时,将每个身份标识的辅助异常分数确定为初始异常分数,并进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
其中,还包括:
区块划分子单元,用于若所述多个身份标识的数量大于或等于所述数量阈值,则为所述多个身份标识设置编号,并根据所述编号的顺序、所述多个身份标识对应的业务关系数据将所述多个身份标识划分为多个身份标识区块;每个身份标识区块包括边集合和点集合;点集合包括身份标识区块所覆盖的身份标识;边集合包括所述点集合中的各身份标识之间的连接权重;
所述分数确定子单元,还用于根据所述点集合和所述边集合,对各身份标识区块中的每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
其中,所述选取模块,具体用于:
将所述目标异常分数小于分数阈值的身份标识,作为所述样本身份标识;所述样本身份标识对应的样本标签为虚假身份标签。
其中,所述识别模块,包括:
设置单元,用于根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对;其中每个样本对包括一个身份标识和一个样本身份标识;
次数计算单元,还用于根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数;
系数计算单元,还用于根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数;
虚假确定单元,用于根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识。
其中,所述设置单元,包括:
第一组合子单元,用于将满足约束条件的身份标识和样本身份标组合为身份标识子集合;
第二组合子单元,用于在每个身份标识子集合中,将一个身份标识和一个样本身份标识组合为所述样本对。
其中,所述次数计算单元,包括:
时间划分子单元,用于根据所述多个身份标识对应的业务行为数据中的业务行为时间,划分多个时间段;所述多个时间段之间在时间区间内不重叠或局部重叠;
次数统计子单元,用于在每个时间段内,统计所述样本对中的身份标识与所述样本对中的样本身份标识之间具有相同业务行为类型的分段匹配次数,并将所述每个时间段内统计出的分段匹配次数之和,作为所述样本对对应的行为匹配次数。
其中,所述系数计算单元,包括:
系数统计子单元,用于根据所述多个身份标识对应的业务行为数据,在每个时间段内,统计所述样本对中的身份标识对应的业务行为次数,并统计所述样本对中的样本身份标识对应的业务行为次数;
所述系数统计子单元,还用于将所述每个时间段内统计出的所述样本对中的身份标识对应的业务行为次数之和,作为所述样本对对应的第一数量;
所述系数统计子单元,还用于将所述每个时间段内统计出的所述样本对中的样本身份标识对应的业务行为次数之和,作为所述样本对对应的第二数量;
系数计算子单元,用于根据所述样本对对应的行为匹配次数、所述样本对对应的第一数量、所述样本对对应的第二数量,计算所述样本对对应的行为相似系数。
其中,所述虚假确单元,具体用于:将所述行为匹配次数大于匹配阈值,且所述行为相似系数大于系数阈值的所述样本对中的身份标识,作为所述目标虚假身份标识。
其中,还包括:
构建模块,用于根据所述多个身份标识、所述目标虚假身份标识、各样本对分别对应的行为匹配次数,构建虚假身份标识拓扑图;
组合模块,用于将所述虚假身份标识拓扑图中的每个联通分量所对应的目标虚假身份标识,组合为目标虚假身份标识子集合。
本发明另一方面提供了一种终端设备,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。
本发明实施例另一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例通过获取多个身份标识,根据多个身份标识对应的业务关系数据和多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;根据目标异常分数从多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定样本身份标识对应的样本标签为虚假身份标签;根据多个身份标识对应的业务行为数据、样本身份标识对应的虚假身份标签,在多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;目标虚假身份标识包括样本身份标识。通过提取种子身份标识,可以增加后续计算目标异常分数的可信度,同时通过计算目标异常分数,可以提取少量且准确的带有标签的样本身份标识,并利用少量的样本身份标识和业务行为数据,识别出大量的目标虚假身份标识。因此可以降低计算量,避免由于计算任意两个身份标识之间的相似度所造成的大量计算,进而提高识别目标虚假身份标识的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种身份标识识别方法的场景示意图;
图2a是本发明实施例提供的一种身份标识识别方法的流程示意图;
图2b是本发明实施例提供的一种身份标识社区划分方法的场景示意图;
图3a是本发明实施例提供的一种识别虚假身份标识方法的流程示意图;
图3b-图3d是本发明实施例提供的一种计算行为匹配次数的场景示意图;
图4a是本发明实施例提供的另一种身份标识识别方法的场景示意图;
图4b是本发明实施例提供的一种计算目标异常分数的场景示意图;
图4c是本发明实施例提供的一种提取联通分量的场景示意图;
图5是本发明实施例提供的一种身份标识识别装置的结构示意图;
图6是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种身份标识识别方法的场景示意图。如图1所示,以社交平台中的用户账号为例,提取社交网络中的虚假用户账号,保护社交平台的网络安全。首先,在社交网络用户关系数据库中提取所有用户账号,以及所有用户账号之间的连接关系。若社交网络中任意两个用户账号之间存在信息交互,则表示它们之间存在一条连接边,且连接边的连接权重是由它们之间的信息交互频率决定的。根据提取出来的用户账号和连接关系,构建社交关系网10a。根据社交关系网10a中各用户账号之间的连接关系和社区划分算法,将社交关系网划分为多个子图,划分原则是子图和子图之间的连接尽可能松弛,子图中各用户账号之间的连接尽可能紧密,即是子图之间连接权重小,而子图中各用户账号的连接权重大。当然,每个子图也包括对应的用户账号和用户账号之间的连接关系。对每个子图来说,根据每个子图中的用户账号的登录行为数据、社交行为数据等行为数据,分别计算每个用户账号的正常分数,该正常分数用于表示对应的用户账号是正常用户账号的概率,分数高说明对应用户账号是正常用户账号的概率就高。在每个子图中提取多个正常分数较高的用户账号作为种子正常用户账号,该种子正常用户账号是正常用户账号,其中每个子图选择出来的种子正常用户账号的数量和该子图所包含的用户账号的数量成正相关关系。得到所有子图中的种子正常用户账号后,为社交关系网10a 中的所有用户账号设置初始异常分数,为所有的种子正常用户账号设置一个相同数值的初始异常分数,为其余的非种子正常用户账号的用户账号设置另一个相同数值的初始异常分数,且种子正常用户账号的初始异常分数是大于除种子正常用户账号以外的用户账号的初始异常分数。基于随机游走和多轮迭代,并根据与用户账号相邻的用户账号的初始异常分数和与相邻用户账号之间的连接权重,确定该用户账号的目标异常分数,对每个用户账号采用上述相同的方法,即可以计算到所有用户账号的目标异常分数,组合所有用户账号和用户账号的目标异常分数,得到目标异常分数列表10b,目标异常分数用于表示对应的用户账号是虚假用户账号的概率,分数越低说明对应用户账号是虚假用户账号的概率就高。将目标异常分数较低的用户账号作为样本用户账号,且该样本用户账号是虚假用户账号,组合所有的样本用户账号,得到样本用户账号集合10c。将所有样本用户账号和所有的用户账号两两配对,得到样本对,样本对的数量就等于样本用户账号的数量和所有用户账号数量的乘积。对每一个样本对来说,在请求行为数据流水10d中提取该样本对中样本用户账号的请求行为数据和该样本对中用户账号的请求行为数据,根据样本对中样本用户账号的请求行为数据和该样本对中用户账号的请求行为数据,计算该样本对的行为匹配次数和行为相似系数。若该样本对的行为匹配次数大于匹配阈值,且行为相似系数大于系数阈值,则认为该样本对是虚假样本对,且虚假样本对中的用户账号是虚假用户账号。通过上述方式,可以检测所有的样本对是否为虚假样本对,进而检测所有用户账号中的虚假用户账号,并组合检测到的虚假用户账号得到虚假用户账号集合10e,需要说明的是,由于样本用户账号也是虚假用户账号,因此从所有用户账号中检测出来的虚假用户账号集合10e中是包括样本用户账号集合 10c的,且虚假用户账号集合10e的数量要远远大于样本用户账号集合10c的数量。根据得到的虚假用户账号集合10e,构建社交关系网10a所对应的协同行为图,协同行为图的顶点集合是所有的用户账号,协同行为图的边集合是虚假样本对中样本用户账号和用户账号之前的连接边,根据社交关系网10a所对应的协同行为图,提取了2个联通分量,分别是联通分量10f(如包含图1所示的4 个用户虚假账号)和联通分量10g(如包含图1所示的5个虚假用户账号),同时可以确定联通分量10f中的4个虚假用户账号是具有群体恶意行为的一个虚假用户账号团伙、联通分量10g中的5个虚假用户账号是具有群定恶意行为的另一个虚假用户账号团伙。
可选的,选取出种子正常用户账号后,为所有的种子正常用户账号设置一个相同数值的初始异常分数,为其余的非种子正常用户账号的用户账号设置另一个相同数值的初始异常分数,且种子正常用户账号的初始异常分数是小于除种子正常用户账号以外的用户账号的初始异常分数。基于随机游走和多轮迭代,可以计算到所有用户账号的目标异常分数,目标异常分数表示对应的用户账号是虚假用户账号的概率,此时,分数越高说明对应用户账号是虚假用户账号的概率就高,因此将目标异常分数较高的用户账号作为样本用户账号,用于后续识别大量的虚假用户账号。
此外,计算目标异常分数、识别虚假用户账号的具体过程可以参见以下图 2a至图4c所对应的实施例。
请参见图2a,是本发明实施例提供的一种身份标识识别方法的流程示意图。如图2a所示,所述身份标识识别方法可以包括:
步骤S101,获取多个身份标识,根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数。
具体的,获取多个身份标识(如上述图1所对应实施例中的用户账号),身份标识是能够证明用户本人的身份凭证,例如,身份标识可以是电话号码、在网络上注册的账号、身份证号码等,身份标识具有唯一性和排他性。身份标识存在对应的业务关系数据和业务行为数据,业务关系数据是用于表示多个身份标识之间关联关系的数据,举例来说,身份标识A和身份标识B之间存在邮件往来,说明身份标识A和身份标识B之间存在连接关系,且身份标识A和身份标识B之间的连接权重可以是由它们之间的交互频率、共同相邻身份标识的数量、共同关注的信息的数量等因素决定的,且可以选择任意数量的因素进行组合,以确定连接权重。业务行为数据是身份标识对应的用户执行任意操作时所生成的数据,每个业务行为数据可以包括:业务行为类型、业务行为时间、业务行为地点等。业务行为数据可以是登录行为数据、社交行为数据等。例如,身份标识A所对应的用户于12:00在北京市登录了账号,因此与身份标识A对应的的业务行为数据的业务行为类型是登录、业务行为时间是12:00、业务行为地点是北京市。根据多个身份标识和每个身份标识对应的业务关系数据,可以构建一个社交关系网G(V,E),如上述图1所对应实施例中的社交关系网10a,其中社交关系网中顶点集合V就代表所有身份标识,社交关系网中的边集合E 就是根据各身份标识对应的业务关系数据所生成的,其中两个身份标识交互越频繁,说明这两个身份标识在社交关系网G中的连接边的权重(连接权重)越大。根据构建完成的社交关系网G,利用社区发现算法,将社交关系网G划分为多个子图,划分原则是子图和子图之间的连接边尽可能少,子图中的连接边尽可能多,划分后的每个子图中的所有身份标识所组成的集合称之身份标识社区。
基于社区发现算法将所有身份标识划分为多个身份标识社区的具体过程是:将每个身份标识分别确定为初始节点,为每个初始节点设置一个唯一的原始社区标签,即是将每个初始节点划分至不同的原始社区,也就是将社交关系网G中每个顶点划分至不同的原始社区。计算当前处于不同原始社区的初始节点的模块度,作为原始模块度。模块度可以采用公式(1)计算:
其中,表示原始社区c内部边的权重和,表示的是与原始社区c内部的点连接的边的权重和,包括原始社区c内部的边以及原始社区c外部的边,m为社交关系网G中所有边的权重和,模块度越大说明身份标识社区划分越合理。为社交关系网G中所包含的身份标识(初始节点)均设置轮询优先级,根据轮询优先级从多个身份标识中选择用户当前轮的身份标识,称为目标待设置身份标识。根据社交关系网G,确定与目标待设置身份标识相邻的身份标识,称之为参考身份标识。将目标待设置身份标识尝试划分至参考身份标识所在的原始社区,并计算划分后的模块度,作为调整模块度。若调整模块度(此处的模块度是目标待设置身份标识划分至参考身份标识所在的原始社区后的模块度)大于原始模块度,则说明此次尝试是可以接受的,即确定目标待设置身份标识属于参考身份标识所在的原始社区,并将调整模块度作为原始模块度,即增大原始模块度的数值;若调整模块度小于原始模块度,则说明此次尝试是不可接受的,即确定目标待设置身份标识仍属于原来的原始社区,而不做任何调整。将目标待设置身份标识所在的原始社区(或者是参考身份标识的原始社区,或者是初步划分时所在的原始社区),作为参考社区。当社交关系网G中的所有身份标识都被确定为目标待设置身份标识,且原始模块度不再增大时,停止轮询。即将社交关系网G中的所有身份标识都至少执行一遍划分至相邻身份标识所在原始社区的操作,用于不断地增大模块度。轮询完所有身份标识后,就可以确定每个参考社区所覆盖的身份标识,将处于同一个参考社区中的多个身份标识作为社交关系网G中的一个顶点,即是将处于同一个参考社区中的多个身份标识作为一个初始节点,即第一次循环完成,此时社交关系网G中的每个顶点(此处顶点可能包括多个身份标识)再次被划分至不同的原始社区。开始第二次循环,再将参考社区确定为原始社区,并再次调整每个顶点所归属的原始社区(调整每个原始社区覆盖的身份标识,通过轮询所有的初始节点不断增大原始模块度),再次将调整后的原始社区作为参考社区,并将同一个参考社区中的多个身份标识再次作为社交关系网G中的一个顶点,不断地循环,当每个参考社区所覆盖的身份标识满足收敛条件时,即当每个参考社区所覆盖的身份标识不再发生变化时,循环结束。最后一次循环所得到的参考社区即是身份标识社区。换句话说,划分身份标识社区是通过将每个身份标识划分至相邻身份标识所在的原始社区,使得模块度不断增大,调整多个原始社区之间的结构,不断循环,直到多个原始社区之间的结构不再发生变化。
请参见图2b,是本发明实施例提供的一种身份标识社区划分方法的场景示意图。如图2b所示,现有6个身份标识,首先将上述6个身份标识作为6个初始节点,并将6个身份标识划分至6个不同的原始社区。根据6个身份标识所对应的业务关系数据,计算当前的模块度,作为原始模块度。对身份标识1来说,尝试将身份标识1划分至相邻身份标识所在的原始社区,即是将身份标识1 尝试划分至身份标识6所在的原始社区,并计算将身份标识1调整后的模块度,作为调整模块度。由于调整模块度比原始模块度大,因此本次尝试可接受的,即当前身份标识1和身份标识6均属于身份标识6所在的原始社区,且将调整模块度替换原始模块度。对身份标识2来说,尝试将身份标识2划分至相邻身份标识所在的原始社区,即是将身份标识2尝试划分至身份标识1所在的原始社区(此处身份标识1已经属于身份标识6所在的原始社区),并计算将身份标识2调整后的模块度,作为调整模块度。由于调整模块度比原始模块度小,因此本次尝试不可接受的,即身份标识2所在的原始社区不做任何调整。按照上述步骤,将身份标识3、身份标识4、身份标识5、身份标识6分别进行模块度增大的轮询。当6个身份标识轮询且模块度不再增大时,完成了第一轮循环。可以得到身份标识1和身份标识6属于同一个原始社区;身份标识2和身份标识3属于同一个原始社区;身份标识4和身份标识5分别属于不同的原始社区。将身份标识1和身份标识6作为一个初始节点,身份标识2和身份标识3作为一个初始节点,身份标识4作为一个初始节点,身份标识5作为一个初始节点,将最后一次轮询得到的调整模块作为原始模块度。执行第二轮循环,再次轮询上述4个初始节点。当4个初始节点均轮询完毕且模块度不再增大时,完成了第二轮循环。可以得到身份标识1、身份标识4、身份标识6属于同一个原始社区;身份标识2、身份标识3、身份标识5属于同一个原始社区,并将身份标识1、身份标识4、身份标识6作为一个初始节点,身份标识2、身份标识3、身份标识5作为一个初始节点,将最后一次轮询得到的调整模块作为原始模块度。执行第三轮循环,分别轮询上述2个初始节点。当2个节初始点均轮询完毕且模块度不再增大时,完成了第三轮循环。由于第三轮循环后原始社区的结构没有发生改变,即仍旧是身份标识1、身份标识4、身份标识6属于一个原始社区,身份标识2、身份标识3、身份标识5属于另一个原始社区。停止循环,说明将 6个身份标识划分后,可以得到2个身份标识社区。
划分多个身份标识社区后,在每个身份标识社区中,根据各身份标识社区所包含的身份标识所对应的业务行为数据,在每个身份标识社区所包含的身份标识中,提取属于正常类型的身份标识(即正常身份标识),称之为种子身份标识。其中,正常身份标识是真实可信赖的身份标识,正常身份标识所对应的用户不会威胁到其他用户的信息安全和社交网络中的信用体系。下面以提取一个身份标识社区中的种子身份标识为例,进行说明。根据每个身份标识所对应的业务行为数据中的登录行为数据、社交行为数据等,计算每个身份标识的信用值,信用值表示对应的身份标识是正常身份标识的概率,信用值越高说明对应的身份标识是正常身份标识的概率就越高。根据身份标识社区所覆盖的身份标识的数量,确定该身份标识社区所对应的信用阈值(每个身份标识社区的信用值是由该身份标识社区所包含的身份标识的数量决定的),当然身份标识的数量和信用阈值也成正比例关系。将身份标识社区中,信用值大于信用阈值的身份标识,作为正常身份标识,称之为种子身份标识,选取出来的种子身份标识的数量和身份标识社区所包含的身份标识的数量也成正比例关系,身份标识社区所包含的身份标识的数量越多,那么选取出来的种子身份标识的数量就越多。若有多个身份标识社区,可以在其余的身份标识社区中都按照同样的处理方式,提取每个身份标识社区中的种子身份标识。
确定多个身份标识中的种子身份标识后,为种子身份标识设置第一异常分数,为多个身份标识中除了种子身份标识以外的身份标识设置第二异常分数。第一异常分数的数值可以大于第二异常分数的数值,也可以小于第二异常分数的数值。将第一异常分数和第二异常分数作为初始异常分数,也就是身份标识对应的初始异常分数是由该身份标识是否是种子身份标识决定的。根据构建的社交关系网G,通过随机游走,调整所有身份标识对应的初始异常分数,调整后可以得到辅助异常分数,并将每个身份标识的辅助异常分数作为初始异常分数,再次根据社交关系网G,再次调整所有身份标识的初始异常分数,再次得到辅助异常分数,通过不断的循环,不断的调整每个身份标识的辅助异常分数,当循环次数达到预设的次数阈值时,即每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值,将最后一次循环得到的每个身份标识的辅助分数作为每个身份标识的目标异常分数(如上述图1所对应实施例中的目标异常分数列表10b中的目标异常分数)。其中,目标异常分数表示对应的身份标识属于虚假类型的身份标识的概率,若第一异常分数的数值大于第二异常分数的数值,那么目标异常分数越低说明对应的身份标识是虚假身份标识的概率就越高;若第一异常分数的数值小于第二异常分数的数值,那么目标异常分数越高说明对应的身份标识是虚假身份标识的概率就越高。将循环次数设置为logN,就可以计算出每个身份标识可信的的目标异常分数,N表示身份标识的数量。属于虚假类型的身份标识(即虚假身份标识)是虚假不可信赖的用户身份标识,虚假身份标识所对应的用户会严重威胁到其他用户的信息安全和社交网络中的信用体系。
步骤S102,根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签。
具体的,计算出每个身份标识的目标异常分数后,将目标异常分数小于预设的分数阈值的身份标识,作为虚假类型的身份标识,也称之为样本身份标识 (如上述图1所对应实施例中的样本用户账号集合10c中的样本用户账号),且该样本身份标识对应的样本标签是虚假身份标签,即是通过无监督的方式,从多个身份标识中提取了少量带有样本标签的样本身份标识,作为样本数据。
步骤S103,根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识。
删除不满足约束条件的身份标识后,设置多个样本对,每个样本对中包括一个身份标识和一个样本身份标识,样本对的数量就等于身份标识的数量和样本身份标识的数量之积。对每个样本对来说,根据每个样本对中身份标识对应的业务行为数据和样本对中样本身份标识对应的业务行为数据(可以是根据关于请求的业务行为数据),计算每个样本对对应的行为匹配次数,其中行为匹配次数是每个样本对中身份标识所对应的用户和样本身份标识所对应的用户执行相似行为的次数。根据每个样本对中身份标识对应的业务行为数据和样本对中样本身份标识对应的业务行为数据,计算每个样本对对应的行为相似系数,其中行为相似系数是度量身份标识和样本身份标识之间具有相似行为的数量在样本对的行为总量中所占的比值。在每个样本对中,将行为匹配次数大于匹配阈值,且行为相似系数大于系数阈值的样本对作为虚假样本对,将虚假样本对中的身份标识,确定为虚假类型的身份标识(即虚假身份标识),从多个身份标识识别出来的虚假身份标识称之为目标虚假身份标识(如上述图1所对应实施例中的虚假用户账号集合10e中的虚假用户账号)。由于样本身份标识也是虚假身份标识,因此目标虚假身份标识包括样本身份标识。通过无监督的方式提取少量带有样本标签的样本身份标识,在根据有监督的方式提取大量的虚假身份标识,即通过半监督的方式可以提取海量身份标识中的虚假身份标识。
请参见图3a,是本发明实施例提供的一种识别虚假身份标识方法的流程示意图,识别虚假身份标识的具体过程包括如下步骤S201-步骤S204,且步骤S201- 步骤S204是图2a所对应实施例中步骤S103的一个具体实施例:
步骤S201,根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对。
具体的,为了减少计算量,也可以只在满足约束条件的身份标识和样本身份标识所组合而成的身份标识子集合中设置样本对,其中满足约束条件可以是身份标识所对应的业务行为的IP地址和样本身份标识所对应的业务行为的IP地址相同;也可以是身份标识所对应的业务行为的WIFI名称和样本身份标识所对应的业务行为的WIFI名称相同;还可以是身份标识所对应的业务行为中被点赞身份标识和样本身份标识所对应的业务行为中被点赞身份标识相同。例如,约束条件是业务行为的IP地址,若身份标识A发起请求的IP地址和样本身份标识A发起请求的IP相同,则说明身份标识A和样本身份标识A满足约束条件,且身份标识A和样本身份标识A均属于同一个身份标识子集合。在每个身份标识子集合中,将任意一个身份标识和任意一个样本身份标识组合为样本对。
步骤S202,根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数;
具体的,根据所有身份标识所对应的业务行为数据中所涉及的业务行为时间,划分多个时间段,每个时间段可以用t表示,例如,业务行为时间包括10 个小时(8:00-18:00),则可以按照小时划分10个不重叠的时间段(8:00-9:00、 9:00-10:00、...、17:00-18:00),每个时间段为1小时,此处划分的多个时间段之间的时间区间不重叠。又例如,业务行为时间包括10个小时(10个小时的时间区间是8:00-18:00),则可以划分18个重叠的时间段(8:00-9:00、8:30-9:30、 9:00-10:00、...、16:30-17:30、17:00-18:00),每个时间段仍为1小时,此处划分的多个时间段之间的时间区间存在重叠。也可以将时间段的时长设置为10分钟,而每次滑动5分钟,即重叠时长就是5分钟。下面以一个样本对为例进行说明,若有多个样本对,对每个样本对都执行相同的步骤,用于计算所有样本对对应的行为匹配次数。在每个时间段内,统计样本对中样本身份标识和身份标识之间具有相似业务行为类型的分段匹配次数分段匹配次数是样本对中样本身份标识和身份标识之间具有相似业务行为类型的数量,并将所有时间段统计出来的分段匹配次数之和作为该样本对对应的行为匹配次数,行为匹配次数可以用表示,其中表示样本对中身份标识在b时间段内对应的业务行为数据,表示样本对中样本身份标识在b时间段内对应的业务行为数据。
举例说明,划分了2个时间段(1:00-2:00、2:00-3:00),在1:00-2:00时间段内,样本对A中的样本身份标识A发送2次请求A,发送1次请求B;样本对A中的身份标识A发送3次请求A,发送2次请求C,因此在1:00-2:00时间段内,具有相似业务行为类型的分段匹配数是2次(因为都最多发送2次请求A)。在2:00-3:00时间段内,样本对A中的样本身份标识A发送1次请求D,发送1 次请求E;样本对A中的身份标识A发送1次请求D,发送1次请求E,因此在2:00-3:00时间段内,具有相似业务行为类型的分段匹配数是2次(都发送1 次请求D以及都发送了1次请求E)。2个时间段内的分段匹配次数之和为: 2+2=4,因此样本对A对应的行为匹配次数为4。
步骤S203,根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数。
具体的,下面仍以一个样本对为例进行说明,若有多个样本对,对每个样本对都执行相同的步骤,用于计算所有样本对对应的行为相似系数。在每个时间段内,统计样本对中样本身份标识所对应的业务行为次数以及样本对中身份标识对应的业务行为次数其中业务行为次数就等于业务行为数据的数量。将所有时间段内统计出来的身份标识对应的业务行为次数之和,作为该样本对对应的第一数量,可以用表示,将所有时间段内统计出来的样本身份标识对应的业务行为次数之和,作为该样本对对应的第二数量,可以用表示,根据由步骤S202计算出来的样本对对应的行为匹配次数、样本对对应的第一数量、样本对对应的第二数量,计算样本对对应的行为相似系数。可以采用Jaccard相似系数的度量方式计算样本对对应的行为相似系数,行为相似系数可以用sim表示,Jaccard相似系数的计算方式为公式(2):
其中,表示第一数量、用表示第二数量、表示行为匹配次数,当然,也可以采用皮尔逊系数来计算样本对中样本身份标识和身份标识之间的行为相似系数。若时间段较多,为了减少中间计算结果占用的空间,对同一个样本对,中途就可以归并部分时间段所生成的分段匹配次数和行为次数,而不必所有的时间段都计算完成后,再一并归并所有时间段所生成的匹配次数和行为次数。
举例来说,划分了2个时间段(8:30-9:00、9:00-9:30),在8:30-9:00时间段内,样本对A中的样本身份标识A发送2次请求A,发送1次请求B;在 9:00-9:30时间段内,样本身份标识A发送1次请求D,发送1次请求E。因此在8:30-9:00时间段内,样本身份标识A对应的业务行为次数是3次(2次A请求和1次B请求),在9:00-9:30时间段内,样本身份标识A对应的业务行为次数是2次(1次D请求和1次E请求),且样本对A对应的第一数量是:3+2=5。在8:30-9:00时间段内,样本对A中的身份标识A发送3次请求A;在9:00-9:30 时间段内,身份标识A发送2次请求D,发送3次请求E。因此在8:30-9:00时间段内,身份标识A对应的业务行为次数是3次(3次A请求),在9:00-9:30 时间段内,样本身份标识A对应的业务行为次数是5次(2次D请求和3次E 请求),且样本对A对应的第二数量是:3+5=8。
步骤S204,根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识。
具体的,下面仍以一个样本对为例进行说明,若有多个样本对,对每个样本对都执行相同的步骤,用于识别所有样本对中的目标虚假身份标识。检测样本对中的行为匹配次数和行为相似系数,若行为匹配次数大于匹配阈值,且行为相似系数大于系数阈值,则说明该样本对是虚假样本对,且虚假样本对中的身份标识就是目标虚假身份标识。
请一并参见图3b-图3d,是本发明实施例提供的一种计算行为匹配次数的场景示意图。如图3b所示,以一个样本对在时间区间8:00-10:20为例,区域20a 中的圆形表示身份标识在8:00-10:20区间内的业务行为,圆形中不同数值表示不同业务类型的业务行为。区域20b中的圆形表示样本身份标识在8:00-10:20区间内的业务行为,圆形中不同数值用于表示不同业务类型的业务行为。根据上述业务行为所涉及的业务行为时间,划分了3个时间段(时间段20c、时间段20d、时间段20e,时间段20c时间区间为8:00-9:00、时间段20d时间区间为8:40-9:40、时间段20e时间区间为9:20-10:20,上述3个时间段中存在时间区间重叠)。如图3b所示,在时间段20c内,身份标识和样本身份标识之间具有相同业务类型的是“类型1”业务行为,因此具有相同行为类型的分段匹配次数是1。在时间段20c内,身份标识对应的业务行为数量是3,样本身份标识对应的业务行为数量也是3。如图3c所示,在时间段20d内,身份标识和样板身份标识之间具有相同业务类型的是“类型1”业务行为、“类型2”业务行为,以及“类型4”业务行为,因此具有相同行为类型的分段匹配次数是3。在时间段20d内,身份标识对应的业务行为数量是3,样本身份标识对应的业务行为数量也是3。如图 3d所示,在时间段20e内,身份标识和样板身份标识之间具有相同业务类型的是“类型4”业务行为,因此具有相同行为类型的分段匹配次数是1。在时间段 20e内,身份标识对应的业务行为数量是2,样本身份标识对应的业务行为数量是3。综上,样本对对应的行为匹配次数为:1+3+1=5;样本对对应的第一数量是:3+3+2=8;样本对对应的第二数量是:3+3+3=9。根据计算得到行为匹配次数,第一数量、第二数量,基于公式(2),可以计算得到样本对的行为相似系数5/12。根据样本对对应的行为匹配次数5,和行为相似系数5/12,确定该样本对是否是虚假样本对,进而确定样本对中的身份标识是否是目标虚假身份标识。
本发明实施例通过获取多个身份标识,根据多个身份标识对应的业务关系数据和多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;根据目标异常分数从多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定样本身份标识对应的样本标签为虚假身份标签;根据多个身份标识对应的业务行为数据、样本身份标识对应的虚假身份标签,在多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;目标虚假身份标识包括样本身份标识。通过提取种子身份标识,可以增加后续计算目标异常分数的可信度,同时通过计算目标异常分数,可以提取少量且准确的带有标签的样本身份标识,并利用少量的样本身份标识和业务行为数据,识别出大量的目标虚假身份标识。因此可以降低计算量,避免由于计算任意两个身份标识之间的相似度所造成的大量计算,进而提高识别目标虚假身份标识的效率。
请参见图4a,是本发明实施例提供的另一种身份标识识别方法,所述方法可以包括如下步骤:
步骤S301,获取多个身份标识,根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识。
其中,步骤S301的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101,此处不再进行赘述。
步骤S302,为所述种子身份标识设置第一异常分数,为非种子身份标识设置第二异常分数,并将所述第一异常分数和所述第二异常分数作为初始异常分数。
具体的,为种子身份标识设置第一异常分数,为非种子身份标识设置第二异常分数。第一异常分数的数值可以大于第二异常分数的数值,也可以小于第二异常分数的数值,非种子身份标识是指多个身份标识中除了种子身份标识以外的身份标识。将第一异常分数和第二异常分数作为初始异常分数,例如,可以将种子身份标识对应的初始异常分数设置为1/S,其中S表示种子身份标识的数量,其余除种子身份标识以外的身份标识对应的初始异常分数设置为0。例如,现有身份标识1、身份标识2、身份标识3、身份标识4,且身份标识1和身份标识4是种子身份标识,为上述4个身份标识设置初始异常分数为:将身份标识1和身份标识4的初始异常分数设置为1/2,将身份标识2和身份标识3的初始异常分数设置为0。
步骤S303,若所述多个身份标识的数量小于数量阈值,则根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行更新,得到所述每个身份标识的目标异常分数;
具体的,检测获取到的身份标识的数量,若检测到的数量小于预设的数量阈值,则执行步骤S303、步骤S306-步骤S309;若检测到的数量大于或等于预设的数量阈值,则执行步骤S304-步骤S309。从所有身份标识中随机选取一个身份标识作为待处理身份标识,根据社交关系网G,确定与待处理身份标识相邻身份标识,作为辅助身份标识,并确定待处理身份标识和辅助身份标识在社交关系网G中的连接权重,相邻是指待处理身份标识与辅助身份标识在社交关系网G中存在连接边,连接边的权重就是待处理身份标识与辅助身份标识之间的连接权重。根据辅助身份标识和待处理身份标识之间的连接权重和辅助身份标识对应的初始异常分数,对待处理身份标识的初始异常分数进行更新,得到待处理身份标识的辅助异常分数,其中可以采用公式(3)计算辅助异常分数:
其中,T(u)表示待处理身份标识u的辅助异常分数,Told(v)表示辅助身份标识v的初始异常分数,deg(v)为辅助身份标识v的度,辅助身份标识v的度可以是身份标识v在社交关系网G中连接边的数量,wuv为社交关系网G中待处理身份标识u和辅助身份标识v之间的连接权重。
上述是更新一个身份标识的初始异常分数的过程,而整体过程可以是通过遍历所有的身份标识以更新它们的初始异常分数,当所有身份标识的初始异常分数都更新后,即是当所有身份标识均被确定为待处理身份标识后,可以得到所有身份标识的辅助异常分数,此时,完成一轮迭代。再将所有辅助异常分数作为初始异常分数,再选取待处理身份标识,并利用待处理身份标识相邻的辅助身份标识和连接权重,更新待处理身份标识的初始异常分数,得到辅助异常分数。同样的方法,更新所有身份标识的初始异常分数,得到辅助异常分数,此时完成第二轮迭代。当迭代次数达到预设的次数阈值时,即是每个身份标识的初始异常分数所对应的调整次数均达到次数阈值时,停止迭代,并将最后一次迭代所得到的辅助异常分数,作为目标异常分数。可以将重复阈值设置为 logN,N表示身份标识的数量。其中,目标异常分数表示对应的身份标识是虚假身份标识的概率,若第一异常分数的数值大于第二异常分数的数值,那么目标异常分数越低说明对应的身份标识是虚假身份标识的概率就越高;若第一异常分数的数值小于第二异常分数的数值,那么目标异常分数越高说明对应的身份标识是虚假身份标识的概率就越高。由于所有身份标识的初始异常分数可以分为两类(第一异常分数和第二异常分数),而调整初始异常分数就是将各身份标识向第一异常分数所代表的类靠近或者向第二异常分数所代表的类靠近,且越靠近第一异常分数所代表的类表示该身份标识是正常类型的身份标识的概率越大,越靠近第二异常分数所代表的类表示该身份标识是虚假类型的身份标识的概率越大。因此,第一异常分数和第二异常分数的大小关系可以直接决定目标异常分数数值大小所代表的意义,且通过调整初始异常分数得到的目标异常分数具有较高的可信度。
请参见图4b,是本发明实施例提供的一种计算目标异常分数的场景示意图。身份标识A、身份标识B、身份标识C和身份标识D构成社交关系网30a,社交关系网30a中4个顶点对应4个身份标识(身份标识A对应顶点1、...、身份标识D对应顶点4),括号中的数值表示该身份标识的初始异常分数,顶点之间连接边的数值表示对应身份标识之间的连接权重。在第一轮迭代中,对身份标识A来说,根据身份标识B的初始异常分数(此处初始异常分数为1/2)和身份标识A与身份标识B之间的连接权重(此处连接权重为5)、身份标识D的初始异常分数(此处初始异常分数为0)和身份标识A与身份标识D之间的连接权重(此处连接权重为3)调整初始异常分数,得到身份标识A的辅助异常分数为:((5*(1/2)/2)+(3*(0)/2))=5/4。对身份标识B来说,根据身份标识A的初始异常分数(此处初始异常分数为0)和身份标识A与身份标识B之间的连接权重(此处连接权重为5)、身份标识C的初始异常分数(此处初始异常分数为1/2)和身份标识B与身份标识C之间的连接权重(此处连接权重为4),调整身份标识B的初始异常分数,得到身份标识B的辅助异常分数: ((5*(0)/2)+(4*(1/2)/2))=1,值得注意的是,此处虽然身份标识A 的初始异常分数已经由0调整为4/5,但在这一轮迭代中,仍旧使用身份标识A 未调整前的初始异常分数,只有当所有的身份标识的初始异常分数都调整完成后,才使用调整后的初始异常分数(即辅助异常分数)。对身份标识C来说,根据身份标识B的初始异常分数(此处初始异常分数为1/2)和身份标识B与身份标识C之间的连接权重(此处连接权重为4)、身份标识D的初始异常分数 (此处初始异常分数为0)和身份标识C与身份标识D之间的连接权重(此处连接权重为4),调整身份标识C的初始异常分数,得到身份标识C的辅助异常分数:(4*(1/2)/2)+(4*(0)/2))=1,此处虽然身份标识B的初始异常分数已经由1/2调整为1,但在这一轮迭代中,仍旧使用身份标识B未调整前的初始异常分数。对身份标识D来说,根据身份标识A的初始异常分数(此处初始异常分数为0)和身份标识A与身份标识D之间的连接权重(此处连接权重为3)、身份标识C的初始异常分数(此处初始异常分数为1/2)和身份标识 C与身份标识D之间的连接权重(此处连接权重为4),调整身份标识D的初始异常分数,得到身份标识D的辅助异常分数:((3*(0)/2)+(4*(1/2) /2))=1,此处虽然身份标识A和身份标识C的初始异常分数已经调整过了,但在这一轮迭代中,仍旧使用身份标识A和身份标识C未调整前的初始异常分数。即第一轮迭代可以得到4个身份标识的辅助异常分数数组30b:[5/4、1、1、 1]。此时完成一轮迭代,更新4个身份标识的初始异常分数,即将上述4个辅助异常分数作为4个身份标识的初始异常分数,得到身份标识A、身份标识B、身份标识C和身份标识D所构成的社交关系网30c,社交关系网30c中括号中的数值仍表示该身份标识的初始异常分数,按照上述步骤再分别调整每个身份标识的辅助异常分数,不断的迭代,当迭代次数达到次数阈值时,即4个身份标识中每个身份标识的调整次数都达到次数阈值时,停止迭代。并将最后一次迭代得到的各身份标识的辅助异常分数作为各身份标识的目标异常分数。
步骤S304,若所述多个身份标识的数量大于或等于所述数量阈值,则为所述多个身份标识设置编号,并根据所述编号顺序将所述多个身份标识划分为多个身份标识区块。
具体的,若检测到多个身份标识的数量大于或者等于预设的数量阈值,则为每个身份标识设置编号,并根据设置的编号顺序将所有身份标识划分多个身份标识区块,每个身份标识区块所包含的身份标识互不相交,即若身份标识A 属于身份标识区块A,那么身份标识A就必然不属于除身份标识区块A之外其他身份标识区块。同时,每个身份标识区块包括点集合和边集合,每个区块中的身份标识组成点集合,点集合中各身份标识之间的连接权重组成边集合。换句话说,每个用户身份区块就是社交关系网G中的一个子图。将多个身份标识划分为多个身份标识区块是为了增强扩展性。当身份标识的数量较多时,内存不能一次读入所有的身份标识以及连接权重,划分为多个身份标识区块就可以按照区块分别读入内存,每个身份标识区块分别用于执行后续调整初始异常分数等操作,进而可以提高计算资源的使用率。
步骤S305,根据所述每个身份标识对应的业务关系数据,对各身份标识区块中的每个身份标识的初始异常分数进行更新,得到所述目标异常分数。
具体的,接下来以一个身份标识区块为例,当存在多个身份标识区块时,对每个身份标识区块执行相同的操作,分别计算每个身份标识区块内的身份标识对应的目标异常分数。为区块内的种子身份标识设置第一异常分数,为区块内除种子身份标识以外的身份标识设置第二异常分数。第一异常分数的数值可以大于第二异常分数的数值,也可以小于第二异常分数的数值。将第一异常分数和第二异常分数作为初始异常分数。根据相邻身份标识的初始异常分数和连接权重,通过随机游走调整身份标识区块内所有身份标识的初始异常分数,得到辅助异常分数,并将每个身份标识的辅助异常分数作为初始异常分数,再次根据点集合和边集合,调整所有身份标识的初始异常分数,再次得到辅助异常分数,通过不断的循环,不断的调整身份标识区块内每个身份标识的辅助异常分数,当循环次数达到预设的重复阈值时,将最后一次循环得到的每个身份标识的辅助分数作为每个身份标识的目标异常分数。其中,目标异常分数表示对应的身份标识是虚假身份标识的概率,若第一异常分数的数值大于第二异常分数的数值,那么目标异常分数越低说明对应的身份标识是虚假身份标识的概率就越高;若第一异常分数的数值小于第二异常分数的数值,那么目标异常分数越高说明对应的身份标识是虚假身份标识的概率就越高。虚假身份标识是虚假不可信赖的用户身份标识,虚假身份标识对应用户会严重威胁到其他用户的信息安全和社交网络中的信用体系。一个身份标识区块中的身份标识对应的目标异常分数计算完成后,就可以写回硬盘,将计算资源空出,用于计算下一个身份标识区块中身份标识对应的目标异常分数。其余的身份标识区块基于上述步骤执行相同的操作,可以计算所有身份标识区块中每个身份标识的目标异常分数。
步骤S306,根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签。
步骤S307,根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识。
其中,步骤S306-步骤S307的具体功能实现方式可以参见上述图2a对应实施例中的步骤S102-步骤S103,且识别目标虚假身份标识的具体过程可以参见上述图3a中的步骤S201-步骤S204,此处不再进行赘述。
步骤S308,根据所述目标虚假身份标识、各样本对分别对应的行为匹配次数,构建虚假身份标识拓扑图。
具体的,构建虚假身份标识拓扑图,该拓扑图的顶点就是所有身份标识;拓扑图的边就是虚假样本对中目标虚假身份标识和样本身份标识之间的连接边,连接边的连接权重是虚假样本对对应的匹配次数。
步骤S309,将所述虚假身份标识拓扑图中的每个联通分量所对应的目标虚假身份标识,组合为目标虚假身份标识子集合。
具体的,提取上述虚假身份标识拓扑图中的联通分量(如上述图1所对应实施例中的联通分量10f和联通分量10g),联通分量是虚假身份标识拓扑图的极大联通子图。将每个联通分量所包含的目标虚假身份标识,组合为目标虚假身份标识子集合,上述目标虚假身份标识子集合的数量和提取出来的联通分量的数量相同。目标虚假身份标识子集合中所包含的目标虚假身份标识是具有群体恶意行为的虚假身份标识,目标虚假身份标识子集合也就是虚假账号团伙。
请一遍参见图4c,是本发明实施例提供的一种提取联通分量的场景示意图。如图4c所示,现有9个身份标识,其中虚假样本对是:身份标识1和身份标识 4;身份标识1和身份标识5;身份标识2和身份标识6;身份标识3和身份标识8;身份标识3和身份标识9,即是虚假样本对中的样本身份标识和目标虚假身份标识之间存在连接边,构建了如4c所示的虚假身份标识拓扑图,在该虚假身份标识拓扑图中可以提取3个联通分量。3个联通分量分别是:身份标识1、身份标识4、身份标识5所构成的一个联通分量。身份标识2、身份标识6构成一个联通分量。身份标识3、目标虚假身份标识8、目标虚假身份标识9构成的另外一个联通分量。也就是身份标识1、身份标识4、身份标识5组合为一个目标虚假身份标识子集合;身份标识2、身份标识6组合为一个目标虚假身份标识子集合;身份标识3、目标虚假身份标识8、目标虚假身份标识9组合为另一个目标虚假身份标识子集合。子集合中的目标虚假身份标识具有相似的群体恶意行为。
本发明实施例通过获取多个身份标识,根据多个身份标识对应的业务关系数据和多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;根据目标异常分数从多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定样本身份标识对应的样本标签为虚假身份标签;根据多个身份标识对应的业务行为数据、样本身份标识对应的虚假身份标签,在多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;目标虚假身份标识包括样本身份标识。通过提取种子身份标识,可以增加后续计算目标异常分数的可信度,同时通过计算目标异常分数,可以提取少量且准确的带有标签的样本身份标识,并利用少量的样本身份标识和业务行为数据,识别出大量的目标虚假身份标识。因此可以降低计算量,避免由于计算任意两个身份标识之间的相似度所造成的大量计算,进而提高识别目标虚假身份标识的效率。
进一步的,请参见图5,是本发明实施例提供的一种身份标识识别装置的结构示意图。如图5所示,所述身份标识识别装置1可以包括:获取模块11、计算模块12、选取模块13、识别模块14;
获取模块11,用于获取多个身份标识;
计算模块12,用于根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;所述目标异常分数表示身份标识属于虚假类型的身份标识的概率;
选取模块13,用于根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签;
识别模块14,用于根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;所述目标虚假身份标识包括所述样本身份标识。
其中,获取模块11、计算模块12、选取模块13、识别模块14的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
请参见图5,计算模块12可以包括:识别单元121、分数计算单元122。
识别单元121,用于根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识;
分数计算单元122,用于根据所述多个身份标识对应的业务关系数据和所述种子身份标识,计算所述每个身份标识分别对应的目标异常分数。
其中,识别单元121、分数计算单元122的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101,这里不再进行赘述。
请参见图5,识别单元121可以包括:社区划分子单元1211、识别子单元 1212。
社区划分子单元1211,用于根据所述多个身份标识对应的业务关系数据,将所述多个身份标识划分为至少一个身份标识社区;
识别子单元1212,用于根据所述多个身份标识对应的业务行为数据,在每个身份标识社区中识别属于正常类型的身份标识,作为所述种子身份标识。
其中,社区划分子单元1211、识别子单元1212的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101,这里不再进行赘述。
请参见图5,社区划分子单元1211可以包括:第一确定子单元12111、调整子单元12112。
第一确定子单元12111,用于将所述每个身份标识分别确定为初始节点,并将所述每个初始节点分别划分至不同的原始社区;
所述第一确定子单元12111,还用于计算处于不同原始社区的初始节点的模块度,作为原始模块度;
调整子单元12112,用于根据所述多个身份标识对应的业务关系数据和所述原始模块度,调整每个原始社区所覆盖的身份标识,将调整后的原始社区作为参考社区;
所述第一确定子单元12111,还用于将处于同一个参考社区中的多个身份标识作为一个初始节点,并将所述参考社区确定为所述原始社区,在所述每个参考社区所覆盖的身份标识满足收敛条件时,将所述每个参考社区分别确定为所述身份标识社区。
其中,第一确定子单元12111、调整子单元12112的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101,这里不再进行赘述。
请参见图5,调整子单元12112可以包括:设置子单元121121、停止子单元121122。
设置子单元121121,用于为每个身份标识设置轮询优先级;
设置子单元121121,还用于根据所述轮询优先级从所述多个身份标识中选择用于当前轮询的身份标识,确定为目标待设置身份标识,并根据所述多个身份标识对应的业务关系数据,确定与所述目标待设置身份标识相邻的参考身份标识;
所述设置子单元121121,还用于将所述目标待设置身份标识划分至所述参考身份标识所在的原始社区,并计算划分后的模块度,作为调整模块度;
所述设置子单元121121,还用于若所述调整模块度大于所述原始模块度,则确定所述目标待设置身份标识属于所述参考身份标识所在的原始社区,并将所述调整模块度确定为所述原始模块度;
所述设置子单元121121,还用于若所述调整模块度小于所述原始模块度,则保持所述目标待设置身份标识处于所属的原始社区;
所述设置子单元121121,还用于将所述目标待设置身份标识所在的原始社区,作为所述目标待设置身份标识对应的参考社区;
停止子单元121122,用于当每个身份标识均被确定为目标待设置身份标识,且所述原始模块度不再增大时,停止轮询。
其中,设置子单元121121、停止子单元121122的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101,这里不再进行赘述。
请参见图5,识别子单元1212可以包括:检测子单元12121、提取确定子单元12122。
检测子单元12121,用于所述根据所述每个身份标识对应的业务行为数据中的登录行为数据和社交行为数据,计算每个身份标识的信用值;所述信用值表示身份标识属于正常类型的身份标识的概率;
所述检测子单元12121,还用于根据每个身份标识社区所覆盖的身份标识数量,确定所述每个身份标识社区对应的信用阈值;
提取确定子单元12122,用于在所述每个身份标识社区中,将所述信用值大于所述信用阈值的身份标识,作为所述种子身份标识。
其中,检测子单元12121、提取确定子单元12122的具体功能实现方式可以参见上述图2a对应实施例中的步骤S101,这里不再进行赘述。
请参见图5,分数计算单元122可以包括:提取子单元1221、分数确定子单元1222。
提取子单元1221,用于为所述种子身份标识设置第一异常分数,为非种子身份标识设置第二异常分数,并将所述第一异常分数和所述第二异常分数作为初始异常分数;所述非种子身份标识是指所述多个身份标识中除了所述种子身份标识以外的身份标识;
分数确定子单元1222,用于若所述多个身份标识的数量小于数量阈值,则根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
其中,提取子单元1221、分数确定子单元1222的具体功能实现方式可以参见上述图4a对应实施例中的步骤S301-步骤S302,这里不再进行赘述。
请参见图5,分数计算单元122具体用于:根据所述每个身份标识的业务关系数据,分别调整每个身份标识的初始异常分数,将调整后的初始异常分数作为辅助异常分数,并将每个身份标识的辅助异常分数确定初始异常分数,进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
其中,分数计算单元122的具体功能实现方式可以参见上述图4a对应实施例中的步骤S303,这里不再进行赘述。
请参见图5,分数确定子单元1222可以包括:获取子单元12221、第二确定子单元12222。
获取子单元12221,用于从所述多个身份标识中获取待处理身份标识;
所述获取子单元,还用于根据所述待处理身份标识的业务关系数据,确定与所述待处理身份标识相邻的身份标识,作为辅助身份标识,并确定所述辅助身份标识与所述待处理身份标识之间的连接权重;
所述获取子单元12221,还用于根据所述辅助身份标识的初始异常分数和所述连接权重,调整所述待处理身份标识的初始异常分数,得到所述待处理身份标识的辅助异常分数;
第二确定子单元12222,用于当所有身份标识均被确定为待处理身份标识时,将每个身份标识的辅助异常分数确定为初始异常分数,并进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
其中,获取子单元12221、第二确定子单元12222的具体功能实现方式可以参见上述图4a对应实施例中的步骤S303,这里不再进行赘述。
请参见图5,分数计算单元122可以包括:提取子单元1221、分数确定子单元1222,还可以包括:区块划分子单元1223。
区块划分子单元1223,还用于若所述多个身份标识的数量大于或等于所述数量阈值,则为所述多个身份标识设置编号,并根据所述编号的顺序、所述多个身份标识对应的业务关系数据将所述多个身份标识划分为多个身份标识区块;每个身份标识区块包括边集合和点集合;点集合包括身份标识区块所覆盖的身份标识;边集合包括所述点集合中的各身份标识之间的连接权重;
所述分数确定子单元1222,还用于根据所述点集合和所述边集合,对各身份标识区块中的每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
其中,分数确定子单元1222、区块划分子单元1223的具体功能实现方式可以参见上述图4a对应实施例中的步骤S304-步骤S305,这里不再进行赘述。
请参见图5,选取模块13具体用于:将所述目标异常分数小于分数阈值的身份标识,作为所述样本身份标识;所述样本身份标识对应的样本标签为虚假身份标签。
其中,选取模块13的具体功能实现方式可以参见上述图2a对应实施例中的步骤S102,这里不再进行赘述。
请参见图5,识别模块14可以包括:设置单元141、次数计算单元142、系数计算单元143、虚假确定单元144。
设置单元141,用于根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对;其中每个样本对包括一个身份标识和一个样本身份标识;
次数计算单元142,还用于根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数;
系数计算单元143,还用于根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数;
虚假确定单元144,用于根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识。
其中,设置单元141、次数计算单元142、系数计算单元143、虚假确定单元144的具体功能实现方式可以参见上述图3a对应实施例中的步骤S201-步骤 S204,这里不再进行赘述。
请参见图5,设置单元141可以包括:第一组合子单元1411、第二组合子单元1412;
第一组合子单1411元,用于将满足约束条件的身份标识和样本身份标组合为身份标识子集合;
第二组合子单元1412,用于在每个身份标识子集合中,将一个身份标识和一个样本身份标识组合为所述样本对。
其中,第一组合子单元1411、第二组合子单元1412的具体功能实现方式可以参见上述图3a对应实施例中的步骤S201,这里不再进行赘述。
请参见图5,次数计算单元142可以包括:时间划分子单元1421、次数统计子单元1422。
时间划分子单元1421,用于根据所述多个身份标识对应的业务行为数据中的业务行为时间,划分多个时间段;所述多个时间段之间在时间区间内不重叠或局部重叠;
次数统计子单元1422,用于在每个时间段内,统计所述样本对中的身份标识与所述样本对中的样本身份标识之间具有相同业务行为类型的分段匹配次数,并将所述每个时间段内统计出的分段匹配次数之和,作为所述样本对对应的行为匹配次数。
其中,时间划分子单元1421、次数统计子单元1422的具体功能实现方式可以参见上述图3a对应实施例中的步骤S202,这里不再进行赘述。
请参见图5,系数计算单元143可以包括:系数统计子单元1431、系数计算子单元1432。
系数统计子单元1431,用于根据所述多个身份标识对应的业务行为数据,在每个时间段内,统计所述样本对中的身份标识对应的业务行为次数,并统计所述样本对中的样本身份标识对应的业务行为次数;
所述系数统计子单元1431,还用于将所述每个时间段内统计出的所述样本对中的身份标识对应的业务行为次数之和,作为所述样本对对应的第一数量;
所述系数统计子单元1431,还用于将所述每个时间段内统计出的所述样本对中的样本身份标识对应的业务行为次数之和,作为所述样本对对应的第二数量;
系数计算子单元1432,用于根据所述样本对对应的行为匹配次数、所述样本对对应的第一数量、所述样本对对应的第二数量,计算所述样本对对应的行为相似系数。
其中,系数统计子单元1431、系数计算子单元1432的具体功能实现方式可以参见上述图3a对应实施例中的步骤S203,这里不再进行赘述。
请参见图5,虚假确单元144具体用于:将所述行为匹配次数大于匹配阈值,且所述行为相似系数大于系数阈值的所述样本对中的身份标识,作为所述目标虚假身份标识。
其中,虚假确单元144的具体功能实现方式可以参见上述图3a对应实施例中的步骤S204,这里不再进行赘述。
进一步的,请参见图5,所述身份标识识别装置1可以包括:获取模块11、计算模块12、选取模块13、识别模块14;还可以包括:构建模块15、组合模块16。
构建模块15,用于根据所述多个身份标识、所述目标虚假身份标识、各样本对分别对应的行为匹配次数,构建虚假身份标识拓扑图;
组合模块16,用于将所述虚假身份标识拓扑图中的每个联通分量所对应的目标虚假身份标识,组合为目标虚假身份标识子集合。
其中,构建模块15、组合模块16的具体功能实现方式可以参见上述图4a 对应实施例中的步骤S308-步骤S309,这里不再进行赘述。
本发明实施例通过获取多个身份标识,根据多个身份标识对应的业务关系数据和多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;根据目标异常分数从多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定样本身份标识对应的样本标签为虚假身份标签;根据多个身份标识对应的业务行为数据、样本身份标识对应的虚假身份标签,在多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;目标虚假身份标识包括样本身份标识。通过提取种子身份标识,可以增加后续计算目标异常分数的可信度,同时通过计算目标异常分数,可以提取少量且准确的带有标签的样本身份标识,并利用少量的样本身份标识和业务行为数据,识别出大量的目标虚假身份标识。因此可以降低计算量,避免由于计算任意两个身份标识之间的相似度所造成的大量计算,进而提高识别目标虚假身份标识的效率。
进一步地,请参见图6,是本发明实施例提供的一种终端设备的结构示意图。如图6所示,上述图5中的身份标识识别装置可以应用于所述终端设备1000,所述终端设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述终端设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003 可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器 1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图6所示的终端设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1004中存储的设备控制应用程序,以实现:
获取多个身份标识,根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;所述目标异常分数表示身份标识属于虚假类型的身份标识的概率;
根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签;
根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;所述目标虚假身份标识包括所述样本身份标识。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数时,具体执行以下步骤:
根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识;
根据所述多个身份标识对应的业务关系数据和所述种子身份标识,计算所述每个身份标识分别对应的目标异常分数。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识时,具体执行以下步骤:
根据所述多个身份标识对应的业务关系数据,将所述多个身份标识划分为至少一个身份标识社区;
根据所述多个身份标识对应的业务行为数据,在每个身份标识社区中识别属于正常类型的身份标识,作为所述种子身份标识。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务关系数据,将所述多个身份标识划分为至少一个身份标识社区时,具体执行以下步骤:
将所述每个身份标识分别确定为初始节点,并将所述每个初始节点分别划分至不同的原始社区;
计算处于不同原始社区的初始节点的模块度,作为原始模块度,根据所述多个身份标识对应的业务关系数据和所述原始模块度,调整每个原始社区所覆盖的身份标识,将调整后的原始社区作为参考社区,将处于同一个参考社区中的多个身份标识作为一个初始节点,并将所述参考社区确定为所述原始社区,在所述每个参考社区所覆盖的身份标识满足收敛条件时,将所述每个参考社区分别确定为所述身份标识社区。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务关系数据和所述原始模块度,调整每个原始社区所覆盖的身份标识,将调整后的原始社区作为参考社区时,具体执行以下步骤:
为每个身份标识设置轮询优先级;
根据所述轮询优先级从所述多个身份标识中选择用于当前轮询的身份标识,确定为目标待设置身份标识;
根据所述多个身份标识对应的业务关系数据,确定与所述目标待设置身份标识相邻的参考身份标识;
将所述目标待设置身份标识划分至所述参考身份标识所在的原始社区,并计算划分后的模块度,作为调整模块度;
若所述调整模块度大于所述原始模块度,则确定所述目标待设置身份标识属于所述参考身份标识所在的原始社区,并将所述调整模块度确定为所述原始模块度;
若所述调整模块度小于所述原始模块度,则保持所述目标待设置身份标识处于所属的原始社区;
将所述目标待设置身份标识所在的原始社区,作为所述目标待设置身份标识对应的参考社区;
当每个身份标识均被确定为目标待设置身份标识,且所述原始模块度不再增大时,停止轮询。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务行为数据,在每个身份标识社区中识别属于正常类型的身份标识,作为所述种子身份标识时,具体执行以下步骤:
根据所述每个身份标识对应的业务行为数据中的登录行为数据和社交行为数据,计算每个身份标识的信用值;所述信用值表示身份标识属于正常类型的身份标识的概率;
根据每个身份标识社区所覆盖的身份标识数量,确定所述每个身份标识社区对应的信用阈值;
在所述每个身份标识社区中,将所述信用值大于所述信用阈值的身份标识,作为所述种子身份标识。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务关系数据和所述种子身份标识,计算所述每个身份标识分别对应的目标异常分数时,具体执行以下步骤:
为所述种子身份标识设置第一异常分数,为非种子身份标识设置第二异常分数,并将所述第一异常分数和所述第二异常分数作为初始异常分数;所述非种子身份标识是指所述多个身份标识中除了所述种子身份标识以外的身份标识;
若所述多个身份标识的数量小于数量阈值,则根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
一个实施例中,所述处理器1001在执行根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数时,具体执行以下步骤:
根据所述每个身份标识的业务关系数据,分别调整每个身份标识的初始异常分数,将调整后的初始异常分数作为辅助异常分数,并将每个身份标识的辅助异常分数确定初始异常分数,进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数
在一个实施例中,所述处理器1001在执行根据所述每个身份标识的业务关系数据,分别调整每个身份标识的初始异常分数,将调整后的初始异常分数作为辅助异常分数,并将每个身份标识的辅助异常分数确定初始异常分数,进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数时,具体执行以下步骤:
从所述多个身份标识中获取待处理身份标识;
根据所述待处理身份标识的业务关系数据,确定与所述待处理身份标识相邻的身份标识,作为辅助身份标识,并确定所述辅助身份标识与所述待处理身份标识之间的连接权重;
根据所述辅助身份标识的初始异常分数和所述连接权重,调整所述待处理身份标识的初始异常分数,得到所述待处理身份标识的辅助异常分数;
当所有身份标识均被确定为待处理身份标识时,将每个身份标识的辅助异常分数确定为初始异常分数,并进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
在一个实施例中,所述处理器1001还执行以下步骤:
若所述多个身份标识的数量大于或等于所述数量阈值,则为所述多个身份标识设置编号,并根据所述编号的顺序、所述多个身份标识对应的业务关系数据将所述多个身份标识划分为多个身份标识区块;每个身份标识区块包括边集合和点集合;点集合包括身份标识区块所覆盖的身份标识;边集合包括所述点集合中的各身份标识之间的连接权重;
根据所述点集合和所述边集合,对各身份标识区块中的每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
在一个实施例中,所述处理器1001在执行根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签时,具体执行以下步骤:
将所述目标异常分数小于分数阈值的身份标识,作为所述样本身份标识;所述样本身份标识对应的样本标签为虚假身份标签。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识时,具体执行以下步骤:
根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对;其中每个样本对包括一个身份标识和一个样本身份标识;
根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数;
根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数;
根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对时,具体执行以下步骤:
将满足约束条件的身份标识和样本身份标组合为身份标识子集合;
在每个身份标识子集合中,将一个身份标识和一个样本身份标识组合为所述样本对。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数时,具体执行以下步骤:
根据所述多个身份标识对应的业务行为数据中的业务行为时间,划分多个时间段;所述多个时间段之间在时间区间内不重叠或局部重叠;
在每个时间段内,统计所述样本对中的身份标识与所述样本对中的样本身份标识之间具有相同业务行为类型的分段匹配次数,并将所述每个时间段内统计出的分段匹配次数之和,作为所述样本对对应的行为匹配次数。
在一个实施例中,所述处理器1001在执行根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数时,具体执行以下步骤:
根据所述多个身份标识对应的业务行为数据,在每个时间段内,统计所述样本对中的身份标识对应的业务行为次数,并统计所述样本对中的样本身份标识对应的业务行为次数;
将所述每个时间段内统计出的所述样本对中的身份标识对应的业务行为次数之和,作为所述样本对对应的第一数量;
将所述每个时间段内统计出的所述样本对中的样本身份标识对应的业务行为次数之和,作为所述样本对对应的第二数量;
根据所述样本对对应的行为匹配次数、所述样本对对应的第一数量、所述样本对对应的第二数量,计算所述样本对对应的行为相似系数。
在一个实施例中,所述处理器1001在执行根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识时,具体执行以下步骤:
将所述行为匹配次数大于匹配阈值,且所述行为相似系数大于系数阈值的所述样本对中的身份标识,作为所述目标虚假身份标识。
在一个实施例中,所述处理器1001还执行以下步骤:
根据所述多个身份标识、所述目标虚假身份标识、各样本对分别对应的行为匹配次数,构建虚假身份标识拓扑图;
将所述虚假身份标识拓扑图中的每个联通分量所对应的目标虚假身份标识,组合为目标虚假身份标识子集合。
本发明实施例通过获取多个身份标识,根据多个身份标识对应的业务关系数据和多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;根据目标异常分数从多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定样本身份标识对应的样本标签为虚假身份标签;根据多个身份标识对应的业务行为数据、样本身份标识对应的虚假身份标签,在多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;目标虚假身份标识包括样本身份标识。通过提取种子身份标识,可以增加后续计算目标异常分数的可信度,同时通过计算目标异常分数,可以提取少量且准确的带有标签的样本身份标识,并利用少量的样本身份标识和业务行为数据,识别出大量的目标虚假身份标识。因此可以降低计算量,避免由于计算任意两个身份标识之间的相似度所造成的大量计算,进而提高识别目标虚假身份标识的效率。
应当理解,本发明实施例中所描述的终端设备1000可执行前文图2a到图 4c所对应实施例中对所述身份标识识别方法的描述,也可执行前文图5所对应实施例中对所述身份标识识别装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的身份标识识别装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2a到图4c所对应实施例中对所述身份标识识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (20)
1.一种身份标识识别方法,其特征在于,包括:
获取多个身份标识,根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;所述目标异常分数表示身份标识属于虚假类型的身份标识的概率;
根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签;
根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;所述目标虚假身份标识包括所述样本身份标识。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数,包括:
根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识;
根据所述多个身份标识对应的业务关系数据和所述种子身份标识,计算所述每个身份标识分别对应的目标异常分数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,在所述多个身份标识中识别属于正常类型的身份标识,作为种子身份标识,包括:
根据所述多个身份标识对应的业务关系数据,将所述多个身份标识划分为至少一个身份标识社区;
根据所述多个身份标识对应的业务行为数据,在每个身份标识社区中识别属于正常类型的身份标识,作为所述种子身份标识。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个身份标识对应的业务关系数据,将所述多个身份标识划分为至少一个身份标识社区,包括:
将所述每个身份标识分别确定为初始节点,并将所述每个初始节点分别划分至不同的原始社区;
计算处于不同原始社区的初始节点的模块度,作为原始模块度,根据所述多个身份标识对应的业务关系数据和所述原始模块度,调整每个原始社区所覆盖的身份标识,将调整后的原始社区作为参考社区,将处于同一个参考社区中的多个身份标识作为一个初始节点,并将所述参考社区确定为所述原始社区,在所述每个参考社区所覆盖的身份标识满足收敛条件时,将所述每个参考社区分别确定为所述身份标识社区。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个身份标识对应的业务关系数据和所述原始模块度,调整每个原始社区所覆盖的身份标识,将调整后的原始社区作为参考社区,包括:
为每个身份标识设置轮询优先级;
根据所述轮询优先级从所述多个身份标识中选择用于当前轮询的身份标识,确定为目标待设置身份标识;
根据所述多个身份标识对应的业务关系数据,确定与所述目标待设置身份标识相邻的参考身份标识;
将所述目标待设置身份标识划分至所述参考身份标识所在的原始社区,并计算划分后的模块度,作为调整模块度;
若所述调整模块度大于所述原始模块度,则确定所述目标待设置身份标识属于所述参考身份标识所在的原始社区,并将所述调整模块度确定为所述原始模块度;
若所述调整模块度小于所述原始模块度,则保持所述目标待设置身份标识处于所属的原始社区;
将所述目标待设置身份标识所在的原始社区,作为所述目标待设置身份标识对应的参考社区;
当每个身份标识均被确定为目标待设置身份标识,且所述原始模块度不再增大时,停止轮询。
6.根据权利要求3所述的方法,其特征在于,所述根据所述多个身份标识对应的业务行为数据,在每个身份标识社区中识别属于正常类型的身份标识,作为所述种子身份标识,包括:
根据所述每个身份标识对应的业务行为数据中的登录行为数据和社交行为数据,计算每个身份标识的信用值;所述信用值表示身份标识属于正常类型的身份标识的概率;
根据每个身份标识社区所覆盖的身份标识数量,确定所述每个身份标识社区对应的信用阈值;
在所述每个身份标识社区中,将所述信用值大于所述信用阈值的身份标识,作为所述种子身份标识。
7.根据权利要求2所述的方法,其特征在于,所述根据所述多个身份标识对应的业务关系数据和所述种子身份标识,计算所述每个身份标识分别对应的目标异常分数,包括:
为所述种子身份标识设置第一异常分数,为非种子身份标识设置第二异常分数,并将所述第一异常分数和所述第二异常分数作为初始异常分数;所述非种子身份标识是指所述多个身份标识中除了所述种子身份标识以外的身份标识;
若所述多个身份标识的数量小于数量阈值,则根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
8.根据权利要求7所述的方法,其特征在于,所述根据所述每个身份标识对应的业务关系数据,对每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数,包括:
根据所述每个身份标识的业务关系数据,分别调整每个身份标识的初始异常分数,将调整后的初始异常分数作为辅助异常分数,并将每个身份标识的辅助异常分数确定初始异常分数,进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
9.根据权利要求8所述的方法,其特征在于,所述根据所述每个身份标识的业务关系数据,分别调整每个身份标识的初始异常分数,将调整后的初始异常分数作为辅助异常分数,并将每个身份标识的辅助异常分数确定初始异常分数,进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数,包括:
从所述多个身份标识中获取待处理身份标识;
根据所述待处理身份标识的业务关系数据,确定与所述待处理身份标识相邻的身份标识,作为辅助身份标识,并确定所述辅助身份标识与所述待处理身份标识之间的连接权重;
根据所述辅助身份标识的初始异常分数和所述连接权重,调整所述待处理身份标识的初始异常分数,得到所述待处理身份标识的辅助异常分数;
当所有身份标识均被确定为待处理身份标识时,将每个身份标识的辅助异常分数确定为初始异常分数,并进行下一轮的初始异常分数调整,并在每个身份标识的初始异常分数所对应的调整次数均到达所述次数阈值时,将所述每个身份标识的辅助异常分数确定为所述目标异常分数。
10.根据权利要求7所述的方法,其特征在于,还包括:
若所述多个身份标识的数量大于或等于所述数量阈值,则为所述多个身份标识设置编号,并根据所述编号的顺序、所述多个身份标识对应的业务关系数据将所述多个身份标识划分为多个身份标识区块;每个身份标识区块包括边集合和点集合;点集合包括身份标识区块所覆盖的身份标识;边集合包括所述点集合中的各身份标识之间的连接权重;
根据所述点集合和所述边集合,对各身份标识区块中的每个身份标识的初始异常分数进行调整,得到所述每个身份标识的目标异常分数。
11.根据权利要求1所述的方法,其特征在于,所述根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签,包括:
将所述目标异常分数小于分数阈值的身份标识,作为所述样本身份标识;所述样本身份标识对应的样本标签为虚假身份标签。
12.根据权利要求1所述的方法,其特征在于,所述根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识,包括:
根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对;其中每个样本对包括一个身份标识和一个样本身份标识;
根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数;
根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数;
根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识。
13.根据权利要求12所述的方法,其特征在于,所述根据所述多个身份标识和所述样本身份标识对应的虚假身份标签,设置样本对,包括:
将满足约束条件的身份标识和样本身份标组合为身份标识子集合;
在每个身份标识子集合中,将一个身份标识和一个样本身份标识组合为所述样本对。
14.根据权利要求12所述的方法,其特征在于,所述根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为匹配次数,包括:
根据所述多个身份标识对应的业务行为数据中的业务行为时间,划分多个时间段;所述多个时间段之间在时间区间内不重叠或局部重叠;
在每个时间段内,统计所述样本对中的身份标识与所述样本对中的样本身份标识之间具有相同业务行为类型的分段匹配次数,并将所述每个时间段内统计出的分段匹配次数之和,作为所述样本对对应的行为匹配次数。
15.根据权利要求14所述的方法,其特征在于,所述根据所述多个身份标识对应的业务行为数据,计算所述样本对对应的行为相似系数,包括:
根据所述多个身份标识对应的业务行为数据,在每个时间段内,统计所述样本对中的身份标识对应的业务行为次数,并统计所述样本对中的样本身份标识对应的业务行为次数;
将所述每个时间段内统计出的所述样本对中的身份标识对应的业务行为次数之和,作为所述样本对对应的第一数量;
将所述每个时间段内统计出的所述样本对中的样本身份标识对应的业务行为次数之和,作为所述样本对对应的第二数量;
根据所述样本对对应的行为匹配次数、所述样本对对应的第一数量、所述样本对对应的第二数量,计算所述样本对对应的行为相似系数。
16.根据权利要求12所述的方法,其特征在于,所述根据所述样本对的行为匹配次数和行为相似系数,识别所述多个身份标识中的目标虚假身份标识,包括:
将所述行为匹配次数大于匹配阈值,且所述行为相似系数大于系数阈值的所述样本对中的身份标识,作为所述目标虚假身份标识。
17.根据权利要求12所述的方法,其特征在于,还包括:
根据所述多个身份标识、所述目标虚假身份标识、各样本对分别对应的行为匹配次数,构建虚假身份标识拓扑图;
将所述虚假身份标识拓扑图中的每个联通分量所对应的目标虚假身份标识,组合为目标虚假身份标识子集合。
18.一种身份标识识别装置,其特征在于,包括:
获取模块,用于获取多个身份标识;
计算模块,用于根据所述多个身份标识对应的业务关系数据和所述多个身份标识对应的业务行为数据,计算每个身份标识分别对应的目标异常分数;所述目标异常分数表示身份标识属于虚假类型的身份标识的概率;
选取模块,用于根据所述目标异常分数从所述多个身份标识中选取至少一个身份标识,作为样本身份标识,并确定所述样本身份标识对应的样本标签为虚假身份标签;
识别模块,用于根据所述多个身份标识对应的业务行为数据、所述样本身份标识对应的虚假身份标签,在所述多个身份标识中识别属于虚假类型的身份标识,作为目标虚假身份标识;所述目标虚假身份标识包括所述样本身份标识。
19.一种终端设备,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-17任一项所述的方法。
20.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-17任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810380645.0A CN110166344B (zh) | 2018-04-25 | 2018-04-25 | 一种身份标识识别方法、装置以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810380645.0A CN110166344B (zh) | 2018-04-25 | 2018-04-25 | 一种身份标识识别方法、装置以及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110166344A true CN110166344A (zh) | 2019-08-23 |
CN110166344B CN110166344B (zh) | 2021-08-24 |
Family
ID=67644867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810380645.0A Active CN110166344B (zh) | 2018-04-25 | 2018-04-25 | 一种身份标识识别方法、装置以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110166344B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN110737915A (zh) * | 2019-09-26 | 2020-01-31 | 如般量子科技有限公司 | 基于联盟链和隐式证书的抗量子计算匿名身份识别方法及系统 |
CN111292008A (zh) * | 2020-03-03 | 2020-06-16 | 电子科技大学 | 一种基于知识图谱的隐私保护数据发布风险评估方法 |
CN112491694A (zh) * | 2020-11-20 | 2021-03-12 | 完美世界(北京)软件科技发展有限公司 | 基于多媒体的交互方法、装置、电子设备及可读介质 |
CN113129480A (zh) * | 2019-12-31 | 2021-07-16 | 广州海英智慧家居科技有限公司 | 一种用于物联网的指纹锁控制方法 |
CN113946758A (zh) * | 2020-06-30 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880644A (zh) * | 2012-08-24 | 2013-01-16 | 电子科技大学 | 社区发现方法 |
CN103577987A (zh) * | 2012-07-20 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种风险用户的识别方法和装置 |
CN103729475A (zh) * | 2014-01-24 | 2014-04-16 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
CN105378790A (zh) * | 2013-03-15 | 2016-03-02 | 索库里公司 | 使用社交联网数据的风险评估 |
CN105491444A (zh) * | 2015-11-25 | 2016-04-13 | 珠海多玩信息技术有限公司 | 一种数据识别处理方法以及装置 |
CN105592405A (zh) * | 2015-10-30 | 2016-05-18 | 东北大学 | 基于派系过滤和标签传播的移动通信用户群组构造方法 |
CN105718564A (zh) * | 2016-01-20 | 2016-06-29 | 清华大学 | 推广行为的检测方法及装置 |
CN105931046A (zh) * | 2015-12-16 | 2016-09-07 | 中国银联股份有限公司 | 一种可疑交易节点集合侦测方法及装置 |
CN106485559A (zh) * | 2015-08-19 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 针对网店的作弊识别方法及装置 |
CN106557942A (zh) * | 2015-09-30 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 一种用户关系的识别方法和装置 |
CN107026881A (zh) * | 2016-02-02 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 业务数据的处理方法、装置及系统 |
CN107169629A (zh) * | 2017-04-17 | 2017-09-15 | 四川九洲电器集团有限责任公司 | 一种电信诈骗识别方法及数据处理设备 |
CN107590769A (zh) * | 2016-07-06 | 2018-01-16 | 华为技术有限公司 | 一种图数据计算的方法、主机以及图计算系统 |
CN107590504A (zh) * | 2017-07-31 | 2018-01-16 | 阿里巴巴集团控股有限公司 | 异常主体识别方法和装置、服务器 |
CN107609982A (zh) * | 2017-09-14 | 2018-01-19 | 福州大学 | 考虑社区结构稳定度和增量相关节点进行社区发现的方法 |
CN107657536A (zh) * | 2017-02-20 | 2018-02-02 | 平安科技(深圳)有限公司 | 社保欺诈行为的识别方法和装置 |
CN107832353A (zh) * | 2017-10-23 | 2018-03-23 | 同济大学 | 一种社交媒体平台虚假信息识别方法 |
-
2018
- 2018-04-25 CN CN201810380645.0A patent/CN110166344B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577987A (zh) * | 2012-07-20 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种风险用户的识别方法和装置 |
CN102880644A (zh) * | 2012-08-24 | 2013-01-16 | 电子科技大学 | 社区发现方法 |
CN105378790A (zh) * | 2013-03-15 | 2016-03-02 | 索库里公司 | 使用社交联网数据的风险评估 |
CN103729475A (zh) * | 2014-01-24 | 2014-04-16 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
CN106485559A (zh) * | 2015-08-19 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 针对网店的作弊识别方法及装置 |
CN106557942A (zh) * | 2015-09-30 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 一种用户关系的识别方法和装置 |
CN105592405A (zh) * | 2015-10-30 | 2016-05-18 | 东北大学 | 基于派系过滤和标签传播的移动通信用户群组构造方法 |
CN105491444A (zh) * | 2015-11-25 | 2016-04-13 | 珠海多玩信息技术有限公司 | 一种数据识别处理方法以及装置 |
CN105931046A (zh) * | 2015-12-16 | 2016-09-07 | 中国银联股份有限公司 | 一种可疑交易节点集合侦测方法及装置 |
CN105718564A (zh) * | 2016-01-20 | 2016-06-29 | 清华大学 | 推广行为的检测方法及装置 |
CN107026881A (zh) * | 2016-02-02 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 业务数据的处理方法、装置及系统 |
CN107590769A (zh) * | 2016-07-06 | 2018-01-16 | 华为技术有限公司 | 一种图数据计算的方法、主机以及图计算系统 |
CN107657536A (zh) * | 2017-02-20 | 2018-02-02 | 平安科技(深圳)有限公司 | 社保欺诈行为的识别方法和装置 |
CN107169629A (zh) * | 2017-04-17 | 2017-09-15 | 四川九洲电器集团有限责任公司 | 一种电信诈骗识别方法及数据处理设备 |
CN107590504A (zh) * | 2017-07-31 | 2018-01-16 | 阿里巴巴集团控股有限公司 | 异常主体识别方法和装置、服务器 |
CN107609982A (zh) * | 2017-09-14 | 2018-01-19 | 福州大学 | 考虑社区结构稳定度和增量相关节点进行社区发现的方法 |
CN107832353A (zh) * | 2017-10-23 | 2018-03-23 | 同济大学 | 一种社交媒体平台虚假信息识别方法 |
Non-Patent Citations (2)
Title |
---|
RADOSLAW BRENDEL: "E-mail User Roles Identification Using OWL-based Ontology Approach", 《PROCEEDINGS OF THE 2008 1ST INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY》 * |
刘畅: "基于深度学习的网上虚假交易识别研究", 《CNKI博士学位论文全文库》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN110347701B (zh) * | 2019-06-28 | 2021-07-20 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN110737915A (zh) * | 2019-09-26 | 2020-01-31 | 如般量子科技有限公司 | 基于联盟链和隐式证书的抗量子计算匿名身份识别方法及系统 |
CN113129480A (zh) * | 2019-12-31 | 2021-07-16 | 广州海英智慧家居科技有限公司 | 一种用于物联网的指纹锁控制方法 |
CN111292008A (zh) * | 2020-03-03 | 2020-06-16 | 电子科技大学 | 一种基于知识图谱的隐私保护数据发布风险评估方法 |
CN113946758A (zh) * | 2020-06-30 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
CN112491694A (zh) * | 2020-11-20 | 2021-03-12 | 完美世界(北京)软件科技发展有限公司 | 基于多媒体的交互方法、装置、电子设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110166344B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110166344A (zh) | 一种身份标识识别方法、装置以及相关设备 | |
US20220294821A1 (en) | Risk control method, computer device, and readable storage medium | |
CN110462604A (zh) | 基于设备使用关联互联网设备的数据处理系统和方法 | |
CN109784636A (zh) | 欺诈用户识别方法、装置、计算机设备及存储介质 | |
CN113347156B (zh) | 一种网站指纹防御的智能流量混淆方法、系统及计算机存储介质 | |
CN106560811A (zh) | 一种基于主播风格的直播间推荐方法及系统 | |
CN108197285A (zh) | 一种数据推荐方法以及装置 | |
CN110769283B (zh) | 一种视频推送方法、装置、计算机设备和存储介质 | |
CN103647800A (zh) | 推荐应用资源的方法及系统 | |
CN113543178A (zh) | 基于用户感知的业务优化方法、装置、设备及存储介质 | |
KR101427233B1 (ko) | 데이터 마이닝을 이용한 당첨 확률이 높은 번호를 제공하는 로또 번호 추천 시스템 및 방법 | |
US20130211873A1 (en) | Determining a churn risk | |
CN107657286A (zh) | 一种广告识别方法及计算机可读存储介质 | |
CN107508914A (zh) | 一种基于云计算分析的消息精准推送方法和系统 | |
CN107133268B (zh) | 一种用于Web服务推荐的协同过滤方法 | |
CN105354343B (zh) | 基于远程对话的用户特征挖掘方法 | |
CN107948149B (zh) | 基于随机森林的策略自学习和优化方法及装置 | |
CN112347100B (zh) | 数据库索引优化方法、装置、计算机设备和存储介质 | |
CN107948047A (zh) | 一种用户推荐方法及终端 | |
CN108259363B (zh) | 一种阶梯式业务流量控制的方法及装置 | |
CN112667869B (zh) | 数据处理方法、设备、系统及存储介质 | |
CN112235254A (zh) | 一种高速主干网中Tor网桥的快速识别方法 | |
CN110704612B (zh) | 一种社交群体发现方法、装置和存储介质 | |
CN104090950B (zh) | 融入簇存在强度的数据流聚类方法 | |
CN104954873A (zh) | 一种智能电视视频定制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |