CN111339436A - 一种数据识别方法、装置、设备以及可读存储介质 - Google Patents

一种数据识别方法、装置、设备以及可读存储介质 Download PDF

Info

Publication number
CN111339436A
CN111339436A CN202010086855.6A CN202010086855A CN111339436A CN 111339436 A CN111339436 A CN 111339436A CN 202010086855 A CN202010086855 A CN 202010086855A CN 111339436 A CN111339436 A CN 111339436A
Authority
CN
China
Prior art keywords
user
node
abnormal
users
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010086855.6A
Other languages
English (en)
Other versions
CN111339436B (zh
Inventor
郑巧玲
石志林
应秋芳
胡彬
张�浩
张纪红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010086855.6A priority Critical patent/CN111339436B/zh
Publication of CN111339436A publication Critical patent/CN111339436A/zh
Priority to PCT/CN2020/126055 priority patent/WO2021159766A1/zh
Application granted granted Critical
Publication of CN111339436B publication Critical patent/CN111339436B/zh
Priority to US17/672,814 priority patent/US20220172090A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Abstract

本申请实施例公开了一种数据识别方法、装置、设备以及可读存储介质,本申请属于计算机技术领域,方法包括:获取目标用户集合;上述目标用户集合中包括至少两个具有社交关联关系的用户;获取默认异常用户,根据上述默认异常用户确定上述目标用户集合中的异常用户;根据上述异常用户,确定上述目标用户集合的状态;若上述目标用户集合的状态为异常状态,则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系,在上述待确认用户中识别扩散异常用户;上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。采用本申请,提高数据识别的准确率。

Description

一种数据识别方法、装置、设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据识别方法、装置、设备以 及可读存储介质。
背景技术
在工作与生活中,部分用户存在违法行为,这些存在违法行为的用户可被 认为是异常用户。为减少异常用户的违法行为发生,高效快速的识别出异常用 户,显得十分有必要。
在现有技术中,对于异常用户的识别,主要是通过对用户的行为特征数据 进行识别,若用户的行为特征数据符合异常用户的行为特征数据,则将该用户 确定为异常用户,但可能存在异常用户会模仿正常用户的合法行为,使得这类 异常用户所对应的行为特征数据更趋近于合法的行为特征数据,这样会使得在 识别过程中,会将本该为异常的用户识别为正常用户,从而造成识别不准确。
申请内容
本申请实施例提供一种数据识别方法、装置、设备以及可读存储介质,可 以提高数据识别的准确率。
本申请实施例一方面提供了一种数据识别方法,包括:
获取目标用户集合;上述目标用户集合中包括至少两个具有社交关联关系 的用户;
获取默认异常用户,根据上述默认异常用户确定上述目标用户集合中的异 常用户;
根据上述异常用户,确定上述目标用户集合的状态;
若上述目标用户集合的状态为异常状态,则根据上述异常用户与上述目标 用户集合中的待确认用户之间的社交关联关系,在上述待确认用户中识别扩散 异常用户;上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。
本申请实施例一方面提供了一种数据识别装置,包括:
目标用户集合获取模块,用于获取目标用户集合;上述目标用户集合中包 括至少两个具有社交关联关系的用户;
异常用户确定模块,用于获取默认异常用户,根据上述默认异常用户确定 上述目标用户集合中的异常用户;
行为状态检测模块,用于根据上述异常用户,确定上述目标用户集合的状 态;
扩散异常用户识别模块,用于若上述目标用户集合的状态为异常状态,则 根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系, 在上述待确认用户中识别扩散异常用户;上述待确认用户为上述目标用户集合 中除上述异常用户以外的用户。
其中,上述异常用户确定模块,包括:
异常用户确定单元,用于将上述目标用户集合中的用户与上述默认异常用 户进行匹配,将匹配率达到匹配阈值的用户确定为上述目标用户集合中的异常 用户。
其中,上述行为状态检测模块,包括:
用户总数量获取单元,用于获取上述异常用户的数量,获取上述目标用户 集合中用户的总数量;
异常浓度确定单元,用于根据上述异常用户的数量以及上述目标用户集合 中用户的总数量,确定上述目标用户集合的异常浓度;
第一状态确定单元,用于若上述异常浓度小于浓度阈值,则将上述目标用 户集合的状态确定为正常状态;
上述第一状态确定单元,还用于若上述异常浓度大于或等于浓度阈值,则 将上述目标用户集合的状态确定为异常状态。
其中,上述行为状态检测模块,包括:
行为特征获取单元,用于获取用户社交行为特征集合;上述用户社交行为 特征集合中包括上述用户群中每个用户的社交行为特征;
特征分布度确定单元,用于根据上述用户社交行为特征集合中的社交行为 特征,确定上述异常用户的第一特征分布度;上述第一特征分布度用于表征上 述异常用户具备的社交行为特征的种类数;
上述特征分布度确定单元,还用于根据上述用户社交行为特征集合中的社 交行为特征,确定上述目标用户集合中用户的第二特征分布度;上述第二特征 分布度用于表征上述目标用户集合中用户具备的社交行为特征的种类数;
特征分布差异度确定单元,用于根据上述第一特征分布集中度以及上述第 二特征分布度,确定上述异常用户与上述目标用户集合中的用户之间的特征分 布差异度;
第二状态确定单元,用于根据上述第一特征分布度以及上述特征分布差异 度,确定上述目标用户集合的状态。
其中,上述第二状态确定单元,还用于若上述特征分布差异度小于差异度 阈值,且上述第一特征分布度小于分布阈值,则将上述目标用户集合的状态确 定为正常状态;
上述第二状态确定单元,还用于若上述特征分布差异度大于或等于上述差 异度阈值,且上述第一特征分布度大于或等于上述分布阈值,则将上述目标用 户集合的状态确定为正常状态;
上述第二状态确定单元,还用于若上述特征分布差异度大于或等于上述差 异度阈值,且上述第一特征分布度小于上述分布阈值,则将上述目标用户集合 的状态确定为异常状态。
其中,上述目标用户集合获取模块,包括:
关系拓扑图获取单元,用于获取用户群对应的关系拓扑图;上述关系拓扑 图包括N个节点k,N个上述节点k与上述用户群中的用户一一对应,N为上 述用户群中的用户数;两个节点k之间的边权重是基于上述用户群中的两个用 户之间的社交关联关系所确定的;
抽样路径获取单元,用于根据路径抽样数量,在上述关系拓扑图中获取上 述节点k对应的抽样路径;
跳转概率确定单元,用于根据上述关系拓扑图中的边权重,确定上述节点 k与上述抽样路径中的关联节点之间的跳转概率;上述关联节点是指上述抽样 路径中除上述节点k以外的节点;
目标用户集合确定单元,用于根据上述跳转概率更新上述关系拓扑图,得 到更新后的关系拓扑图,在上述更新后的关系拓扑图中确定上述目标用户集合。
其中,上述关系拓扑图获取单元,包括:
用户群获取子单元,用于获取用户群,将上述用户群中的每个用户均作为 节点k;
权重设置子单元,用于在具有社交关联关系的用户所对应的节点k之间进 行边连接,根据上述具有社交关联关系的用户之间的社交行为记录,对上述节 点k之间的边设置初始权重;
概率转换子单元,用于将上述初始权重进行概率转换,得到上述边权重;
关系拓扑图生成子单元,用于根据上述用户群对应的节点k以及上述边权 重,生成上述关系拓扑图。
其中,上述跳转概率确定单元,包括:
中间节点获取子单元,用于若上述节点k与上述关联节点之间不具有边, 则在上述抽样路径中获取上述节点k与上述关联节点之间的中间节点;上述节 点k通过上述中间节点可到达上述关联节点;
连接节点对确定子单元,用于在上述节点k、上述中间节点以及上述关联 节点中,将具有边的两个节点,作为连接节点对,获取上述连接节点对对应的 边权重;
跳转概率确定子单元,用于根据上述连接节点对对应的边权重,确定上述 节点k与上述关联节点之间的跳转概率。
其中,上述目标用户集合确定单元,包括:
更新节点边子单元,用于根据上述节点k和上述关联节点,对上述关系拓 扑图中所连接的边进行更新,得到过渡关系拓扑图;上述过渡关系拓扑图中的 上述节点k与上述关联节点均连接有边;
边权重设置子单元,用于在上述过渡关系拓扑图中,将上述节点k与上述 关联节点之间的跳转概率,设置为上述节点k与上述关联节点之间的边权重, 得到目标关系拓扑图;
目标用户集合确定子单元,用于在上述目标关系拓扑图中确定上述目标用 户集合。
其中,上述目标用户集合确定子单元,还用于将上述跳转概率进行指数增 长,将进行指数增长后得到的跳转概率进行概率转换,得到目标概率,根据上 述目标概率更新上述节点k与上述关联节点之间的边权重;
上述目标用户集合确定子单元,还用于将更新后的边权重大于权重阈值的 关联节点,确定为上述节点k的重要关联节点;
上述目标用户集合确定子单元,还用于根据上述节点k和上述重要关联节 点,将上述目标关系拓扑图划分为至少两个社区拓扑图,在上述至少两个社区 拓扑图中获取目标社区拓扑图,作为上述目标用户集合。
其中,上述扩散异常用户识别模块,包括:
第一关联关系用户确定单元,用于若上述目标用户集合的状态为异常状态, 则在上述待确认用户中确定出与上述异常用户具有社交关联关系的用户;
第一扩散异常用户确定单元,用于将上述与上述异常用户具有社交关联关 系的用户确定为上述扩散异常用户。
其中,上述扩散异常用户识别模块,包括:
第二关联关系用户确定单元,用于若上述目标用户集合的状态为异常状态, 则在上述待确认用户中确定出与上述异常用户具有社交关联关系的用户;
第二扩散异常用户确定单元,用于获取上述异常用户对应的异常用户节点, 获取上述与上述异常用户具有社交关联关系的用户对应的关联用户节点,将上 述异常用户节点与上述关联用户节点之间的边权重大于关联阈值的关联用户节 点,确定为扩散异常节点,将上述扩散异常节点对应的用户确定为上述扩散异 常用户。
其中,还包括:
待识别用户集合确定模块,用于将上述处于异常状态的上述目标用户集合 确定为待识别用户集合;
关键文本数据提取模块,用于获取上述待识别用户集合中用户的用户文本 数据,在上述用户文本数据中提取出关键文本数据;
敏感源数据获取模块,用于获取敏感源数据;
异常类别确定模块,用于将上述关键文本数据与上述敏感源数据进行匹配, 根据匹配结果确定上述待识别用户集合的异常类别。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
上述存储器存储有计算机程序,上述计算机程序被上述处理器执行时,使 得所诉处理器执行如本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存 储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令当被 处理器执行时,执行如本申请实施例中的方法。
本申请实施例通过获取目标用户集合;上述目标用户集合中包括至少两个 具有社交关联关系的用户;获取默认异常用户,根据上述默认异常用户确定上 述目标用户集合中的异常用户;根据上述异常用户,确定上述目标用户集合的 状态;若上述目标用户集合的状态为异常状态,则根据上述异常用户与上述目 标用户集合中的待确认用户之间的社交关联关系,在上述待确认用户中识别扩 散异常用户;上述待确认用户为上述目标用户集合中除上述异常用户以外的用 户。上述可知,通过将具有社交关联关系的用户划分至目标用户集合中,在确 定出该目标用户集合中的异常用户,且该目标用户集合为异常状态时,可以在 该目标用户集合中获取到与该异常用户具有社交关联关系的用户,直接将上述 与该异常用户具有社交关联关系的用户作为扩散异常用户,无需再对每一个用 户都进行一次特征匹配,通过社交关联关系即可进行扩散异常用户的识别,因 此,即使扩散异常用户具有与正常用户相似的特征,但由于该扩散异常用户与 异常用户具有社交关联关系,依然可以被识别出来,从而可以提高识别的准确 率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构图;
图2a是本申请实施例提供的一种确定扩散异常用户的场景示意图;
图2b是本申请实施例提供的一种确定扩散异常用户的场景示意图;
图3是本申请实施例提供的一种数据识别方法的流程示意图;
图4a是本申请实施例提供的一种确定目标用户集合的状态的场景示意图;
图4b是本申请实施例提供的一种确定目标用户集合的状态的场景示意图;
图5是本申请实施例提供的一种获取目标用户集合的流程示意图;
图6a是本申请实施例提供的一种节点关系列表的示意图;
图6b是本申请实施例提供的一种节点关系的示意图;
图6c是本申请实施例提供的一种包含初始权重的节点关系的示意图;
图6d是本申请实施例提供的一种关系拓扑图的示意图;
图7是本申请实施例提供的一种划分社区拓扑图的场景示意图;
图8是本申请实施例提供的一种确定处于异常状态的目标用户集合的异常 类别的流程示意图;
图9是本申请实施例提供的一种数据识别装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是 全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的一种网络架构图。如图1所示,该网络架构可 以包括业务服务器1000以及后台服务器集群,其中,上述后台服务器集群可以 包括多个每个后台服务器,如图1所示,具体可以包括后台服务器100a、后台 服务器100b、后台服务器100c、…、后台服务器100n。如图1所示,后台服 务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n可以分 别与上述业务服务器1000进行网络连接,以便于每个后台服务器可以通过该网 络连接与业务服务器1000进行数据交互,以便于上述业务服务器1000可以接收到来自于每个后台服务器的业务数据。
如图1所示的每个后台服务器均与用户终端相对应,可以用于存储对应的 用户终端的业务数据。每个用户终端均可以集成安装有目标应用,当该目标应 用运行于各用户终端中时,则每个用户终端对应的后台服务器可以对应用中的 业务数据进行存储,并与上述图1所示的业务服务器1000之间进行数据交互。 其中,该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功 能的应用。如,应用可以为支付应用,该支付应用可以用于用户之间进行资金 转账;也可以为社交类应用,如即时通讯应用,可以用于用户之间进行沟通联 系。本申请中的业务服务器1000可以从这些应用的后台(如上述后台服务器集群)收集到数据,如,该数据可以为用于表征用户的用户身份信息(如用户id)、 用户之间的转账记录以及用户之间的通信记录等,根据收集的数据,业务服务 器1000可以将这些数据中的用户作为社区中的用户节点,还可以确定这些用户 节点之间的社交关联关系。
本申请实施例可以在多个用户终端中选择一个用户终端作为目标用户终端, 该目标用户终端可以包括:智能手机、平板电脑、桌上型电脑等携带显示和播 放数据信息功能的智能终端。例如,本申请实施例可以将图1所示的后台服务 器100a对应的用户终端作为该目标用户终端,该目标用户终端中可以集成有上 述目标应用,此时,该目标用户终端对应的后台服务器100a可以与业务服务器 1000之间进行数据交互。如,大量的用户在使用用户终端中的各种应用时,业 务服务器1000通过后台服务器可以检测并收集到这些大量用户之间的社交关 联关系,如,用户A与用户B具有通信记录,则业务服务器1000可以确定用 户A与用户B之间具有社交关联关系,且该社交关联关系为通信关系。在检测 到大量用户且确定出这些用户之间的社交关联关系后,业务服务器1000可以将 这些大量用户作为用户群,将该用户群中的每个用户均作为一个节点,并将具 有社交关联关系的用户所对应的节点之间进行边连接。根据该具有社交关联关 系的用户之间的社交行为记录,对节点之间的边设置边权重,根据该用户群以 及该边权重,可以构建生成关系拓扑图,根据节点之间的边权重大小,可以在 该关系拓扑图中划分出至少两个不同的社区拓扑图。也就是说,业务服务器 1000可以根据用户群中用户之间的社交关联关系以及社交行为记录,将用户群 划分成至少两个社区。后续,根据已有的异常用户样本,业务服务器1000可以 在上述社区中识别出异常用户,根据每个社区中的异常用户,业务服务器1000 可以确定出社区是正常状态或是异常状态。若社区为异常状态,则业务服务器 1000可以获取该异常社区中的异常用户,根据该异常社区中异常用户与该异常 社区中的非异常用户之间的社交关联关系,业务服务器1000可以在该异常社区 的非异常用户中确定出扩散异常用户。需要说明的是,这里确定出扩散异常用 户的目的在于识别出更大范围的异常用户,因为预先检测出来的异常用户样本 可能存在样本数量小,异常用户范围覆盖度不高的情况,进而使得根据异常用 户样本在异常社区中识别出的异常用户的覆盖度小,有部分异常用户未被识别 出来。所以,为了提高识别的准确率,扩大覆盖度,可以根据异常社区中已识 别出的异常用户的社交关联关系来确定出扩散异常用户。
以在一个社区拓扑图中确定扩散异常用户为例,对于确定扩散异常用户, 业务服务器1000可以采取以下的实现方式,业务服务器1000可以在划分出的 社区拓扑图中选择一个社区拓扑图作为目标用户集合,也就是说,该目标用户 集合中包括至少两个具有社交关联关系的用户,业务服务器1000可以获取默认 异常用户(即已有的异常用户样本),根据该默认异常用户,业务服务器1000 可以确定出该目标用户集合中的异常用户,根据该异常用户的数量以及该目标 用户集合中用户的总数量,业务服务器1000可以检测出该目标用户集合的状态, 当该目标用户集合为异常状态时,业务服务器1000可以根据该异常用户与该目 标用户集合中的待确认用户之间的社交关联关系,在该待确认用户中识别出扩 散异常用户,并将该扩散异常用户也作为异常用户,其中,该待确认用户为该 目标用户集合中除该异常用户之外的用户。在确定出每个关系拓扑图中的异常 用户(包括扩散异常用户)后,业务服务器1000可以根据每个关系拓扑图的异 常用户生成识别结果,将该识别结果返回至后台服务器。
可选的,可以理解的是,后台服务器可以将各自对应的用户终端所对应的 大量用户确定为用户群,根据用户群划分成不同的社区拓扑图,进而得到不同 的用户集合,在用户集合中识别出异常用户与扩散异常用户,这里的后台服务 器识别出异常用户与扩散异常用户的具体实现方式可以参见上述业务服务器识 别出异常用户与扩散异常用户的描述,这里将不再进行赘述。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机 设备包括但不限于终端或服务器。
进一步地,为便于理解,请参见图2a,是本申请实施例提供的一种确定扩 散异常用户的场景示意图。如图2a所示,以目标用户集合为200a为例,业务 服务器2000可以获取到已有的默认异常用户(即已有的异常用户样本),,将该 默认异常用户与目标用户集合200a中的节点所对应的用户进行匹配,将匹配率 达到匹配阈值的用户作为异常用户。如,目标用户集合200a中的用户d与用户 k与默认异常用户的匹配率大于了匹配阈值,则可以将用户d与用户k作为异 常用户,则目标用户集合200a的用户总数量为5(用户c+用户e+用户d+用户 g+用户k),异常用户的数量为2(异常用户d与异常用户k),根据用户总数量 5以及异常用户数量2,可以确定出目标用户集合200a的异常浓度为40%,大 于了浓度阈值30%,则业务服务器2000可以将目标用户集合200a的状态确定 为异常状态,即目标用户集合200a为异常社区。后续,根据异常用户d与异常 用户k的社交关联关系(即在目标用户集合200a中是否具有边),可以在异常 的目标用户集合200a中确定出扩散异常用户,如,用户d与用户e具有边,且 用户d与用户e的边权重为0.8,大于了关联阈值0.75,则可以说明用户e与异 常用户d具有很强的关联关系,用户e有极大的概率也为异常用户,则可以将 用户e作为扩散异常用户,用户d与用户c之间也具有边,但用户d与用户c 之间的边权重为0.56,可以看出,0.56远小于关联阈值0.75,则可以说明用户 d与用户c之间虽存在社交关联关系,但关联程度很弱,用户c是异常用户的 概率很小,则可以将用户c作为非异常用户。同理,用户k与用户g之间具有 边,但用户k与用户g之间的边权重为0.5,0.5远小于关联阈值0.75,则可以将 用户g作为非异常用户,用户k与用户e之间具有边,但不是由用户k到达用户e的边,所以可以考虑为用户k无法到达用户e,则对于用户k而言,用户e 是非异常用户,但对于用户d而言,用户e是扩散异常用户,则业务与服务器 2000可以将用户e确定为扩散异常用户。后续,业务服务器2000可以确定目 标用户集合200a中的异常用户,该异常用户可以包括扩散异常用户e、异常用 户d以及异常用户k。
进一步地,请参见图2b,是本申请实施例提供的一种确定扩散异常用户的 场景示意图。如图2b所示,以上述图2a所对应实施例中的目标用户集合200a 为例,业务服务器2000可以在目标用户集合200a中识别出用户d与用户k为 异常用户,其中,业务服务器2000在目标用户集合200a中识别出用户d与用 户k为异常用户的具体实现方式可以参见上述图2a中业务服务器2000在目标 用户集合200a中识别出用户d与用户k为异常用户的描述,这里将不再进行赘 述。根据异常用户d与异常用户k,业务服务器2000可以确定目标用户集合200a 为异常状态,后续,根据异常用户d与异常用户k的社交关联关系(即在目标 用户集合200a中是否具有边),可以确定出扩散异常用户,如,异常用户d与 用户e之间具有边,则可以说明用户e与异常用户d之间具有社交关联关系, 用户e有一定概率是异常用户d的同伙,则业务服务器2000可以将用户e确定 为扩散异常用户;同理,异常用户d与用户c之间具有边,则业务服务器2000 可以将用户c确定为扩散异常用户;同理,异常用户k与用户g之间具有边, 则业务服务器2000可以将用户g确定为扩散异常用户,业务服务器2000可以 确定目标用户集合200a中的异常用户,该异常用户为扩散异常用户e、异常用 户d、异常用户k、扩散异常用户c以及扩散异常用户g。
进一步地,请参见图3,是本申请实施例提供的一种数据识别方法的流程 示意图。如图3所示,该方法的流程可以包括:
步骤S101,获取目标用户集合;上述目标用户集合中包括至少两个具有社 交关联关系的用户。
本申请实施例中,目标用户集合可以为社区拓扑图,该社区拓扑图中包括 用户对应的节点、节点之间的边以及每条边的边权重,其中,节点之间的边用 于表示节点(用户)之间的社交关联关系,边权重用于表示关联程度,可以理 解的是,若两个用户具有社交关联关系,则这两个用户对应的节点之间具有边, 两个用户的关系越紧密,则关联程度越大,则边权重也会越大,该社区拓扑图 可以用于表明节点之间是否具有社交关联关系,以及具有社交关联关系的两个 节点的关联程度。其中,这里的社交关联关系可以为支付关系、通信好友关系 以及设备关联关系等,如,用户a使用用户b的通信设备(如智能手机)登录 过账号,则可以将用户a与用户b确定为具有设备关联关系。对于社交关联关 系的包括范围,除支付关系、通信好友关系以及设备关联关系外,还可以为其 他形式的关系(如,两个用户社交账号并不具有好友关系,但通过社交账号进 行过对话),本申请对社交关联关系的包括范围不作限制。
目标用户集合可以由用户群对应的关系拓扑图得到,也就是说,该目标用 户集合中的节点为用户群的关系拓扑图中的部分节点。根据关系拓扑图中节点 之间的边权重(即用户之间的关联程度),可以对关系拓扑图进行划分,从而可 以得到至少两个社区拓扑图,在该至少两个社区拓扑图中任选一个可作为目标 用户集合。也就是说,根据用户群中用户之间的社交关联关系以及关联程度, 可以将用户群划分成至少两个社区,其中,每个社区中的用户之间的关联程度 紧密。
步骤S102,获取默认异常用户,根据上述默认异常用户确定上述目标用户 集合中的异常用户。
本申请实施例中,该默认异常用户可以为预设的异常用户样本,该异常用 户样本可为预先检测到的异常用户。该默认异常用户的数量可以包括至少两个, 默认异常用户可以包括用户的属性信息(如id、姓名、指纹等),以属性信息 为id为例,可将上述目标用户集合中的每个用户的id与该默认异常用户的id 进行匹配,可将该目标用户集合中匹配率达到匹配阈值的用户,确定为该目标 用户集合中的异常用户。
可以理解的是,该默认异常用户包括<默认异常用户1,1>与<默认异常用 户2,2>,即包括默认异常用户1以及默认异常用户1的id为1,还包括默认 异常用户2以及默认异常用户2的id为2,目标用户集合中包括{<用户A,1>, <用户B,4>,<用户C,6>},则可以将默认异常用户1的id(即1与2)与该 目标用户集合用户的id(即1,4,6)进行匹配,可得到匹配结果为用户A的 id1与默认异常用户1的id1匹配,则可将用户A确定为该目标用户集合中的异常用户。
步骤S103,根据上述异常用户,确定上述目标用户集合的状态。
本申请中,可根据异常用户的数量以及该目标用户集合中用户的总数量来 对该目标用户集合的状态进行确定。根据该异常用户数量以及该目标用户集合 中用户的总数量,可确定出该目标用户集合的异常浓度,其中,该异常浓度是 指该目标用户集合中异常用户数量占用户总数量的比例,若该异常浓度小于浓 度阈值,则可说明目标用户集合中,异常用户的占比低,则可将该目标用户集 合的状态确定为正常状态;若该异常浓度大于浓度阈值,则可说明该目标用户 集合中,异常用户的占比高,则可将该目标用户集合的状态确定为异常状态。 其中,确定目标用户集合的异常浓度的方法可以如公式(1)所示:
C=N/M (1)
其中,C可用于表示目标用户集合的异常浓度,N可用于表示目标用户集 合中异常用户的数量,M可用于表示目标用户集合中用户的总数量。
可选的,可以通过用户社交行为特征集合来确定目标用户集合的状态,具 体为,获取用户社交行为特征集合,这里的用户社交行为特征集合中包括上述 用户群中的每个用户的社交行为特征,也就是说,该用户社交行为特征集合中 可以包括检测到的用户群中的每个用户的社交行为特征的历史数据,如用户A 去过中心公园与花卉小镇,则可以将用户A去过中心公园与花卉小镇这两个社 交行为特征存储至用户社交行为特征集合中。可以理解为,该用户社交行为特 征集合可以包括用户使用的通信设备、无线网络以及用户的行为(如频繁去同 一个地点)等。根据该用户社交行为特征集合,可以统计出该目标用户集合中 异常用户的社交行为特征的种类和数量,根据异常用户具有的每个社交行为特 征的分布度,可以确定出信息熵,信息熵越小,则可以表明异常用户在社交行 为特征上的分布越集中。信息熵的具体确定方法可以如公式(2)所示:
Figure BDA0002382363000000131
其中,H(x)可用于表示信息熵,P(xi)可用于表示用户的每一个社交行为特 征的分布度。
可以理解的是,如,上述社交行为特征集包括无线网络、用户的行为以及 通信设备这三个社交行为特征,则上述公式(2)中的i可以为1、2以及3。 则无线网络这一社交行为特征可用x1、x2以及x3表示,用户的行为这一社交行 为特征可以用x1、x2以及x3表示,通信设备这一社交行为特征可用x1、x2以及 x3表示。以下以无线网络用x1表示、用户的行为用x2表示以及通信设备用x3表示为例,对于无线网络这一社交行为特征,异常用户的数量为50个,在这 50个异常用户中,有48个异常用户都使用的同一个无线网络A,有2个异常 用户使用的是其他不同的无线网络B,则无线网络这一社交行为特征的数量即 为3(1个无线网络A+1个无线网络B+1个无线网络C)。因为在50个异常用 户中,有48个异常用户都使用了同一个无线网络A,无线网络的数量小且差异 性小则可表明异常用户在无线网络这一社交行为特征上分布集中,可得到异常 用户在无线网络这一社交行为特征上的分布度P(无线网络)(即P(x1)的值为P(无线网络));对于用户的行为这一社交行为特征,有30个异常用户在同一天都去了同 一个咖啡店超过10次,有20个异常用户在相同的一天去过20个不同的其他地 方,则异常用户在用户的行为这一社交行为特征上的分布数量即为21(即1个 咖啡店+20个其他地方),因为在50个异常用户中,有30个异常用户都在同一 天去了同一个咖啡店,则可表明异常用户在用户的行为这一社交行为上分布较 集中,可得到异常用户在用户的行为这一社交行为特征上的分布度P(用户的行为)(即 P(x2)的值为P(用户的行为));对于通信设备这一社交行为特征,有10个异常用户 使用了同一个通信设备A登录账号,有5个异常用户使用了同一个通信设备B 登录账号,有35个异常用户使用了35个不同的其他通信设备登录账号,则异 常用户在通信设备这一社交行为特征上的分布数量为37(即1个通信设备A+1 个通讯设备B+35个其他通信设备),因为在50个异常用户中,有35个异常用 户都使用的是不同的通信设备,通信设备的数量多且差异性大,则可表明异常 用户在通信设备这一社交行为特征上分布分散,即集中度低,可得到异常用户 在通信设备这一社交行为特征上的分布度P(通信设备)(即P(x3)的值为P(通信设备))。 根据异常用户在无线网络这一社交行为特征上的分布度P(无线网络)、异常用户在 用户的行为这一社交行为特征上的分布度P(用户的行为)、异常用户在通信设备这一社交行为特征上的分布度P(通信设备)以及上述公式(2),可得到异常用户的第一 特征分布度为H(x)。也就是说,这里的第一特征分布度H(x)是指异常用户在无 线网络、用户的行为以及通信设备这三个社交行为特征上的一个总的分布值。
同理,根据该用户社交行为特征集合中的社交行为特征,可确定出目标用 户集合中用户(包括异常用户)的第二特征分布度,即目标用户集合整体的特 征分布度。其中,对于确定第二特征分布度的具体实现方式可以参见上述确定 第一特征分布度的描述,这里将不再进行赘述。根据该第一特征分布度以及该 第二特征分布度,可确定出该异常用户与该目标用户集合中用户之间的特征分 布差异度(第一特征分布度与第二特征分布度的差异度),若该特征分布差异度 小于差异度阈值,且该第一特征分布度小于分布度阈值,则可以说明异常用户 的社交行为特征分布集中,且与目标用户集合整体的分布差异小,则可以说明 该目标用户集合中的异常用户的社交行为特征为正常且大众化的,则该目标用 户集合为正常状态;若该特征分布差异度大于或等于差异度阈值,且该第一特 征分布度大于或等于分布阈值,则可以说明异常用户的社交行为特征分布分散, 且与目标用户集合整体的分布差异大,则可以说明异常用户之间的社交行为特 征不一致,且异常用户与非异常用户之间的社交行为特征也不一致,则可以说 明该目标用户集合中的异常用户的社交行为特征是具有小众化的特性,则该目 标用户集合为正常状态;若该特征分布差异度大于或等于差异度阈值,且该第 一特征分布度小于该分布阈值,则可以说明异常用户的社交行为特征分布集中, 异常用户之间的社交行为特征比较一致,且异常用户与该目标用户集合中非异常用户之间的社交行为特征差异很大,则该目标用户集合为异常状态。其中, 对于特征分布差异度的具体确定方法,可以如公式(3)所示:
Figure BDA0002382363000000151
其中,DKL(P||Q)可用于表示特征分布差异度,P(i)可用于表示第一特征 分布度(即异常用户的社交行为特征的分布度),Q(i)可用于表示第二特征分布 度(即目标用户集合中用户整体的社交行为特征的分布度)。
可选的,可以理解的是,对于目标用户集合的状态的确定,可以通过目标 用户集合的异常浓度来确定,也可以通过用户社交行为特征来确定,还可以通 过异常浓度与用户社交行为特征组合的方式来进行确定,即先确定出异常浓度, 在异常浓度大于浓度阈值后,再通过用户社交行为特征来确定,也就是说,需 同时满足异常浓度大于浓度阈值,且第一特征分布度小于分布阈值,且特征分 布差异度大于或等于差异度阈值时,才将目标用户的状态确定为异常状态。
步骤S104,若上述目标用户集合的状态为异常状态,则根据上述异常用户 与上述目标用户集合中的待确认用户之间的社交关联关系,在上述待确认用户 中识别扩散异常用户;上述待确认用户为上述目标用户集合中除上述异常用户 以外的用户。
本申请中,若该目标用户集合的状态为异常状态,则可以在待确认用户中 确定出与该异常用户具有社交关联关系的用户,并将该与该异常用户具有社交 关联关系的用户确定为扩散异常用户。其中,这里的具有社交关联关系可以是 指在异常用户对应的节点所在的社区拓扑图中,异常用户对应的节点与待确认 用户对应的节点之间,具有从异常用户出发的边。
可以理解的是,以上述图2b为例,异常用户为用户d与用户k,对于节点 d,可到达节点e与节点c,对于节点k,可到达节点g,则可以将节点e对应 的用户e、节点c对应的用户c以及节点g对应的用户g,均确定为扩散异常用 户。
可选的,若该目标用户集合的状态为异常状态,则在该待确认用户中确定 出与该异常用户具有社交关联关系的用户,并获取该异常用户对应的异常用户 节点,获取该与该异常用户具有社交关联关系的用户对应的关联用户节点,将 该异常用户节点与该关联用户节点之间的边权重大于关联阈值的关联用户节点, 确定为扩散异常节点,将该扩散异常节点对应的用户确定为该扩散异常用户。
可以理解的是,以上述图2a所对应实施例为例,异常用户为用户d与用户 k,对于节点d,可到达节点e与节点c,则可将节点e与节点c确定为节点d 的关联用户节点,节点d到关联用户节点e的边权重为0.8,大于了关联阈值 0.75,节点d到关联用户节点c的边权重为0.56,远小于关联阈值0.75,则可 将关联用户节点e确定为扩散异常节点;对于节点k,可到达节点g,可将节点 g确定为节点k的关联用户节点,节点k到关联用户节点g的边权重为0.5,0.5 远小于关联阈值0.75,则关联用户节点g不是扩散异常节点。
上述可知,通过将具有社交关联关系的用户划分至目标用户集合中,在确 定出该目标用户集合中的异常用户,且该目标用户集合为异常状态时,可以在 该目标用户集合中获取到与该异常用户具有社交关联关系的用户,直接将上述 与该异常用户具有社交关联关系的用户作为扩散异常用户,无需再对每一个用 户都进行一次特征匹配,通过社交关联关系即可进行扩散异常用户的识别,从 而,即使扩散异常用户具有与非异常用户相同的特征,但由于该扩散异常用户 与异常用户具有社交关联关系,依然可以被识别出来,从而可以提高识别的准 确率。
为便于理解,进一步地,请参见图4a,是本申请实施例提供的一种确定目 标用户集合的状态的场景示意图。如图4a所示,以目标用户集合为400a为例, 其中,目标用户集合400a中的异常用户为用户e与用户f,根据异常用户e与 异常用户f,业务服务器可以统计出异常用户的数量为2,根据目标用户集合 400a中的用户a、用户b、用户c、用户d、用户e以及用户f,业务服务器可 以统计出目标用户集合400a的用户总数量为6,则该目标用户集合400a的异 常浓度为2/6=33%,因为该异常浓度33%大于了浓度阈值20%,则业务服务 器可以将目标用户集合400a的状态确定为异常状态。
进一步地,请参见图4b,是本申请实施例提供的一种确定目标用户集合的 状态的场景示意图。如图4b所示,以目标用户集合为400b为例,其中,目标 用户集合400b中的异常用户为用户e、用户f、用户g、用户h以及用户i,用 户社交行为特征集合中包括wifi以及用户设备,也就是说,根据该用户社交行 为特征集合,可以得知,异常用户h使用的wifi名称为“Z”,异常用户i使用 的wifi名称为“X”,异常用户e、异常用户f以及异常用户g使用的wifi名称 均为“W”,则可以看出,针对wifi这一社交行为特征,有60%的异常用户都 使用同一个wifi,异常用户在wifi这一社交行为特征上的分布较集中,根据这 一分布情况,可以得到异常用户在wifi这一社交行为特征上的分布度为P(wifi); 同理,根据该用户社交行为特征集合,可以得知,异常用户e使用过的设备为 设备A与设备B、异常用户f使用过的设备为设备B与设备C、异常用户g使 用过的设备为设备D、异常用户h使用过的设备为设备A与设备E、异常用户 使用过的设备为设备B与设备F,可以看出,有3个异常用户使用过同一个设 备,即设备B,有2个异常用户使用过同一个设备A,异常用户在用户设备这 一社交行为特征上的分布较为集中,根据这一分布情况,可以得到异常用户在 用户设备这一社交行为特征上的分布度为P(用户设备)。根据上述异常用户在 wifi这一社交行为特征上的分布度P(wifi)以及异常用户在用户设备这一社交 行为特征上的分布度P(用户设备)以及上述公式(2),可以得到异常用户在 社交行为特征上的第一特征分布度为A;同理,可以求出目标用户集合中用户 (包括异常用户e、异常用户f、异常用户g、异常用户h以及异常用户i)整体的社交行为特征的第二特征分布度为B,根据第一特征分布度A、第二特征 分布度B以及上述公式(3),可以得到异常用户的社交行为特征分布与目标用 户集合400b整体的社交行为特征分布的差异度,即异常用户的特征分布差异度 为C,其中,因该第一特征分布度A小于分布度阈值D,且该特征分布差异度 C大于差异度阈值E,则业务服务器可以将该目标用户集合400b的状态确定为 异常状态。
进一步地,请参见图5,是本申请实施例提供的一种获取目标用户集合的 流程示意图。如图5所示,该流程可以包括:
步骤S201,获取用户群对应的关系拓扑图;上述关系拓扑图包括N个节 点k,N个上述节点k与上述用户群中的用户一一对应,N为上述用户群中的 用户数;两个节点k之间的边权重是基于上述用户群中的两个用户之间的社交 关联关系所确定的。
本申请中,N可以该用户群中的用户数,在获取到用户群后,可以将用户 群中的每个用户均作为节点k,如,将用户A作为节点A,将用户B作为节点 B,根据该用户群中的两个用户之间的社交关联关系,可以确定出该关系拓扑 图中两个节点k之间的边权重。可以理解的是,一个用户群中有N个用户,每 个用户可以对应一个节点k,若两个用户之间具有社交关联关系,则可将这两 个用户对应的两个节点k之间进行边连接,根据该具有社交关联关系的用户之 间的社交行为记录,可以对这些节点k之间的边设置初始权重,并将该初始权 重进行概率转换,将概率转换后的结果作为节点k之间的边的边权重,根据该 用户群对应的节点k以及该边权重,可以生成用户群对应的关系拓扑图。其中, 这里的社交行为记录可以为具有社交关联关系的用户之间的转账金额、转账频 次、通信频次以及通信时长等,可以理解的是,两个用户之间的转账金额,或 转账频次,或通信频次,或通信时长越大,则对这两个用户的边设置的初始权 重越大。其中,这里的概率转换可以指对每条边的初始权重进行标准化处理, 如,对于节点i与节点j,节点i与节点j之间存在边,则节点i与节点j之间的 边可以表示为Mij,则对于Mij的概率转换,可以如公式(4)所示:
Figure BDA0002382363000000181
其中,Wij表示节点i与节点j之间的初始权重,
Figure BDA0002382363000000182
表示n个节点与 节点j之间的初始权重之和。
可以理解的是,以用户群中包括用户A、用户B、用户C以及用户D为例, 将用户A作为节点A、将用户B作为节点B、将用户C作为节点C以及将用 户D作为节点D,为便于直观展现用户之间的社交关联关系,以下以列表的形 式表示节点A、节点B、节点C以及节点D之间的关联关系,如图6a所示的 列表可以用于表示用户对应的节点关系列表,其中,该节点关系列表可以由第 一表头参数、第二表头参数,以及,第一表头参数和第二表头参数共同对应的 数据组成。其中,第一表头参数和第二表头参数共同对应的数据可以包括边权 重数据。一个边权重数据对应两个节点,边权重数据可以用于指示两个节点之 间的关联程度,可以理解的是,边权重越大,则两个节点之间的关联程度越大。 其中,第一表头参数可以为行参数,第二表头参数可以为列参数;或者,第一 表头参数可以为列参数,第二表头参数可以为行参数。
根据图6a所示的节点关系列表,可得到一个用于表征节点A、节点B、节 点C以及节点D之间的关联关系的邻接矩阵A1,邻接矩阵A1如下列矩阵所示:
Figure BDA0002382363000000191
邻接矩阵A1
其中,邻接矩阵A1为4×4的矩阵。邻接矩阵A1中的数值1可以用于表示 两个用户之间具有社交关联关系(即节点之间连接有边),数值0可以用于表示 两个用户之间不具有社交关联关系(即节点之间未连接边)。如,用户A与用 户B之间存在社交关联关系,需要将节点A与节点B进行边连接,则可以将 节点A与节点B共同对应的边权重数据12设置为1;用户D与用户A之间不 具有社交关联关系,无需将节点D与节点A进行边连接,则可以将节点D与节点A共同对应的边权重数据41设置为0。需要说明的是,这里对每个节点都 添加了自环,也就是说对每个节点都添加了一条到自己的边,也就是说,将边 权重数据11、边权重数据22、边权重数据33以及边权重数据44都设置为1。 根据邻接矩阵A1,可以得到用户A、用户B、用户C以及用户D对应的节点 关系图,应为图6b所示(将邻接矩阵A1中,数值1对应的节点之间进行边连 接,即可得到图6b),需要说明的是,这里对每个节点添加自环边的意义在于后续计算过程中,需要使用到自环边对应的边权重(该边权重为1),即,只需 要知道每条自环边的边权重即可,所以在图6b中将不展现出每个节点的自环边。
进一步地,根据用户A、用户B、用户C以及用户D之间的社交行为记录, 可以对每条边都设置初始权重,对于用户A与用户B,用户A向用户B转账 过两次,其中依次转账金额达到10万,则可以将节点A与节点B的边的初始 权重设置为10;对于用户A与用户C,用户A与用户C之间没有社交行为记 录(即用户A与用户C之间无转账行为、无通话行为),则可以将节点A与节 点B的边的初始权重设置为1;对于用户B与用户C,用户B与用户C之间通 信频繁,且每次的通话时长都于20分钟以上,则可以将节点B与节点C的边 的初始权重设置为8;对于用户B与用户D,用户B向用户D转账频繁,则可 以将节点B与节点D的边的初始权重设置为9。则根据社交行为记录,可以得 到包含初始权重的节点关系图6c,根据初始权重与邻接矩阵A1,可以得到一个 用于表征节点A、节点B、节点C以及节点D之间的关联关系以及关联程度的 邻接矩阵A2,邻接矩阵A2如下列矩阵所示:
Figure BDA0002382363000000201
邻接矩阵A2
邻接矩阵A2为4×4的矩阵。
对邻接矩阵A2中的元素(即初始权重)可以进行概率转换(即标准化处理), 具体概率转换的方法可以为,以元素M12(即节点A至节点B的边的初始权重) 为例,可以先获取到节点A到节点B(即元素M12)的初始权重为1,再获取 到节点B至节点B的边的初始权重为1,节点C至节点B的初始权重为8,节 点D至节点B的边的初始权重为9,即,获取到邻接矩阵A2中元素M12所在 列的元素M12、元素M22、元素M32以及元素M42,将元素M12、元素M22、元 素M32以及元素M42的值进行相加,可以得到相加后的结果为28,根据元素 M12的值10与相加结果28,可以得到元素M12进行概率转换后的结果为 10/28=0.36,则可以将0.36作为节点A至节点B的边权重。同理,可以得到其 他边的边权重,根据邻接矩阵A2以及每个元素进行概率转换后的边权重,可以 得到一个用于表征节点A、节点B、节点C以及节点D之间的关联关系以及关联程度的概率矩阵A3,概率矩阵A3如下列矩阵所示:
Figure BDA0002382363000000202
概率矩阵A3
概率矩阵A3为4×4的矩阵。
需要说明的是,每个节点到自身节点的边权重(即元素M11、元素M22、 元素M33以及元素M44)无需进行概率转换。
根据节点A、节点B、节点C以及节点D以及节点之间的边权重,可以得 到用户群(包括用户A、用户B、用户C以及用户D)对应的关系拓扑图为图 6d所示。
步骤S202,根据路径抽样数量,在上述关系拓扑图中获取上述节点k对应 的抽样路径。
本申请中,对于关系拓扑图中的每个节点,可以通过游走的方式,计算出 每个节点到达该关系拓扑图中其他节点的跳转概率,从而可以得到每个节点的 社区归,具体计算方式可以如公式(5)所示:
Expa(Mij)=∑k=1:nMik*Mkj (5)
其中,(Mij)可以用于表示节点i至节点j的跳转概率,Mik可以用于表示节 点i到节点k的概率(边权重),Mkj可以用于表示节点k到节点j的概率(边 权重)。
如,节点A与节点D之间不具有边连接,但节点A与节点B之间具有边 连接,节点B与节点C之间具有边连接,节点C与节点D之间具有边连接, 则可以说明节点A可以游走3步到达节点D(即节点A-节点B-节点C-节点D)。 其中,节点A到节点B的边权重为0.2,节点B到节点C的边权重为0.3,节 点C到节点D的边权重为0.4,则根据上述公式(5),可以得到节点A到节点 D的跳转概率为0.2×0.3×0.4=0.024。
因为用户群中用户数量庞大,即节点数量多,若计算关系拓扑图中每个节 点到其余节点的跳转概率,则规模巨大,可能会造成时间以及空间上的浪费。 为节约时间与空间,本方案采用蒙特卡洛(Monte-Carlo,MCL)抽样游走方法 来进行计算,即对每个节点的路径进行抽样,从而计算每个节点到该节点的抽 样路径中其他节点的跳转概率,也就是说,本方案不用计算每个节点到其他所 有节点的概率,只需根据路径抽样数量度每个节点的路径进行抽样,获取每个 节点的抽样路径,再根据跳转阈值可以获取到抽样路径中的关联节点,随后计 算每个节点到抽样路径中的关联节点的跳转概率即可。因为只计算了每个节点到关系拓扑图中的部分节点的跳转概率,而无需计算每个节点到关系拓扑图中 所有节点的跳转概率,这样可以减少大量的计算,从而可以减少时间消耗以及 空间消耗,且对于路径抽样数量以及每个节点的跳转次数是可以人为控制调整 的,所以进行抽样后所得到的结果也可以控制在误差范围内;同时,由于对数 据进行了抽样,所以在用户群即数据规模庞大时,MCL抽样游走方法也可以快 速完成计算并得到高准确率的结果。
其中,本申请中的路径抽样数量为非零的正整数,路径抽样数量可以为人 为规定的一个数值,也可以为服务器在数值允许范围内,随机生成的一个数值。 根据路径抽样数量,可以在用户群对应的关系拓扑图中,获取每个节点k对应 的抽样路径,抽样路径是指在以节点k为起始节点的路径中,抽取出路径抽样 数量对应的部分路径。进一步地,根据跳转阈值,可以在每个节点k的抽样路 径中,确定出每个节点k的关联节点,其中,该关联节点是在抽样路径中,除 节点k以外的节点,具体可以指从节点k开始,在跳转阈值内(含跳转阈值) 进行跳转可到达的节点,如,以上述图6d所对应实施例中的关系拓扑图为例, 在图6d的关系拓扑图中,以节点A为起始节点的路径有路径A-B-C、路径A-B-C 以及路径A-C-B,抽样路径数量为1,也就是说需要在节点A的路径中抽取出 一条路径出来作为节点A的抽样路径,如路径A-B-C为节点A的抽样路径; 跳转阈值为1,也就是说在路径A-B-C中,从节点A开始,从节点A跳转1 步可以到达节点B,则在路径A-B-C中,可将节点B作为节点A的关联节点。可以理解的是,该关联阈值是指在抽样路径中,对跳转步数的最大限制,对于 关系拓扑图中的每个节点k,将节点k作为起始节点从跳转步数为1开始跳转, 每次跳转的步数进行递增,如,节点c的一条抽样路径为c-e-g-k-i-j,跳转阈值 为4,则以节点c开始,从节点c跳转1步可以到达节点e,将跳转步数进行加 1后,跳转步数1递增变为2,则跳转2步可以到达节点g(经过节点e到达节 点g),将跳转步2递增则变为3,则跳转3步(经过节点e与节点g)可以到 达节点k,将跳转步数3递增变为4,则跳转4步(经过节点e、节点g以及节 点k)可以到达节点i,则在节点c的抽样路径c-e-g-k-i-j中,可以将节点e、 节点g、节点k以及节点i均确定为节点c的关联节点。
步骤S203,根据上述关系拓扑图中的边权重,确定上述节点k与上述抽样 路径中的关联节点之间的跳转概率;上述关联节点是指上述抽样路径中除上述 节点k以外的节点。
本申请中,根据用户群对应的关系拓扑图中的边权重,可以确定节点k与 该关联节点的跳转概率,具体的,若节点k与关联节点之间不具有边,则在节 点k的抽样路径中,可以获取到节点k与节点k的关联节点之间的中间节点, 该节点k可以通过该中间节点达到关联节点,在该节点k、该中间节点以及该 关联节点中,可将具有边的两个节点,作为连接节点对,根据该连接节点对对 应的边权重,可以确定出节点k与关联节点之间的跳转概率。
可以理解的是,以图6d为例,节点A的抽样路径为A-B-D,跳转阈值为3, 跳转步数可为1与2,则节点A的关联节点为节点B与节点D,其中,节点A 与节点D之间不具有边,但节点A可以通过节点B到达节点D,则可将节点B 作为节点A与节点D之间的中间节点,节点A与节点B之间具有边,节点B 与节点C之间具有边,则可将节点A与节点B作为连接节点对AB,可将节点 B与节点C作为连接节点对BC,根据上述概率矩阵A3,可得到连接节点对AB 之间的边权重为0.36,连接节点对BC之间的边权重为0.8,则节点A与节点C 之间的跳转概率可为0.36×0.8=0.288。
步骤S204,根据上述跳转概率更新上述关系拓扑图,得到更新后的关系拓 扑图,在上述更新后的关系拓扑图中确定上述目标用户集合。
本申请中,根据跳转概率,可以更新上述关系拓扑图,即,根据节点k与 关联节点,可以对上述关系拓扑图中所连接的边进行更新,也就是说,将每个 节点k与其不具有边的关联节点,进行边连接(在关系拓扑图中增加了新的边), 可得到过渡关系拓扑图。如,以图6d所对应实施例为例,节点A的关联节点 为节点B与节点D,其中,节点A可通过节点B到达节点D,则可将节点A 与节点D进行边连接,并将边加上方向,用于指示该边是由节点A到节点D的。在该过渡关系拓扑图中,可将节点k与关联节点之间的跳转概率,设置为 节点k与关联节点之间的边权重,得到目标关系拓扑图,该目标关系拓扑图即 为更新后的关系拓扑图。
可以理解的是,以图6d所对应实施例为例,节点A的抽样路径为A-B-D, 可根据上述概率矩阵A3得到节点A到节点D的跳转概率为0.36×0.9=0.324, 节点B的抽样路径为B-A-C,可得到节点B到节点C的跳转概率为 0.83×0.1=0.083,节点C的抽样路径为C-A-B-D,可得到节点C都节点B 的跳转概率为0.08×0.36=0.029,节点C到节点D的跳转概率为0.08×0.36× 0.9=0.026,节点D的抽样路径为D-B-A,则节点D到节点A的跳转概率为 0.32×0.83=0.266。将该跳转概率作为边权重,则可将上述概率矩阵A3进行 更新,可得到一个用于表征节点A、节点B、节点C以及节点D之间的关联关 系以及关联程度的概率矩阵A4,概率矩阵A4如下列矩阵所示:
Figure BDA0002382363000000241
概率矩阵A4
概率矩阵A4为4×4的矩阵,需要说明的是,上述概率矩阵A4中的元素0, 表示节点之间无法到达。如,以元素M13(即节点A到节点C的边权重)为例, 虽在概率矩阵A3中,节点A到节点C存在概率0.1(也就是节点A可以到达 节点C,节点A与节点C之间存在边),但因为对节点A的抽取路径为A-B-D, 则对节点A的其他未抽取路径不再考虑,只需要考虑节点A到节点B以及节 点A到节点D(即概率矩阵A4中的元素M12以及元素M14)。
进一步地,在上述目标关系拓扑图中,可以将该目标关系拓扑图中的边权 重(跳转概率)进行凸的变换,即,将边权重进行指数增长,并将进行指数增 长后得到的跳转概率进行概率转换(即标准化处理)。通过凸的变换后,可以得 到目标概率。根据该目标概率可更新节点k以及节点k的关联节点之间的边权 重,在这些更新后的边权重中,若存在大于权重阈值的关联节点,则可将该更 新后的边权重大于或等于权重阈值的关联节点,确定为节点k的重要关联节点, 根据节点k、以及节点k的重要关联节点,可将该目标关系拓扑图划分为至少 两个社区拓扑图,在该至少两个社区拓扑图中获取目标社区拓扑图,可作为目 标用户集合。
其中,对跳转概率进行指数增长,并将进行指数增长后得到的跳转概率进 行概率转换(标准化处理),即对跳转概率进行凸的变换,得到目标概率的具体 方法可以如公式(6)所示:
Figure BDA0002382363000000242
其中,Γr(Mij)用于表示节点i到节点j的目标概率,Mij用于表示节点i到 节点j的边权重,(Mij)r用于表示节点i到节点j的边权重进行r次指数增长,
Figure BDA0002382363000000243
表示n个节点到节点j的边权重分别进行r次指数增长后的权重之和。
可以理解的是,以上述概率矩阵A4以及r为3为例,对于节点B到节点A的目标概率(即Γr(M21)),可以先将M21进行3次指数增长,即0.83×0.83× 0.83=0.572,元素M11、元素M21、元素M31以及元素M41分别进行3次指数增 长后的和为03+0.833+0.083+0.266=0.591,则Γr(M21)可为 0.572/0.591=0.968;对于节点D到节点A的目标概率(即Γr(M41)),可以先将M41进行3次指数增长,即0.266×0.266×0.266=0.019,元素M11、元素M21、 元素M31以及元素M41分别进行3次指数增长后的和为03+0.833+0.083+ 0.266=0.591,则Γr(M41)可为0.019/0.591=0.032。元素M21为0.83,进行指数 增长并标准化处理后的值为0.968,元素M41为0.266,进行指数增长并标准化 处理后的值为0.032,可以看出,通过对元素进行指数增长并标准化处理,可以 使元素(边权重)大的值变得更大(如0.83变为0.968),可以使元素(边权重) 小的值变得更小(如0.266变为0.032)。也就是说,本方案通过MCL抽样游走 方法以及凸的变换,可以使用户之间的关联程度紧密的变得更紧密,使用户之 间的关联程度弱的变得更弱,这样更有利于社区的划分,使得划分的结果更准 确。
可选的,可以理解的是,在划分社区拓扑图前,可以设置迭代次数,以使 获取抽样路径到计算目标概率的步骤可以重复进行多次,也就是说,第一次进 行对每个节点k的随机抽样,再计算得到节点之间的目标概率后,可将该目标 概率作为节点之间的边权重,进行第二次随机抽样并计算节点之间的目标概率, 在第二次的抽样路径中,可以以目标概率为边权重来计算节点之间的新的目标 概率,这样重复直到达到迭代次数后,可将最终的目标概率确定为稳定的概率, 再通过稳定的目标概率进行社区拓扑图的划分。
上述可知,通过将具有社交关联关系的用户划分至目标用户集合中,在确 定出该目标用户集合中的异常用户,且该目标用户集合为异常状态时,可以在 该目标用户集合中获取到与该异常用户具有社交关联关系的用户,直接将上述 与该异常用户具有社交关联关系的用户作为扩散异常用户,无需再对每一个用 户都进行一次特征匹配,通过社交关联关系即可进行扩散异常用户的识别,因 此,即使扩散异常用户具有与非异常用户相同的特征,但由于该扩散异常用户 与异常用户具有社交关联关系,依然可以被识别出来,从而可以提高识别的准 确率。
为便于理解,进一步地,请参见图7,是本申请实施例提供的一种划分社 区拓扑图的场景示意图。如图7所示,业务服务器1000可以将终端A对应的 用户a、终端B对应的用户b、…、终端K对应的用户k,确定为一个用户群 {a,b,c,e,f,g,i,j,k},业务服务器1000可以将用户群中的每一个用户 都作为一个节点,根据用户之间的社交关联关系,业务服务器1000可以在节点 之间进行边连接,生成用户群{a,b,c,e,f,g,i,j,k}所分别对应的关系拓扑图,后续,根据用户之间的社交行为记录,可以对该关系拓扑图中的边确 定边权重,如图7所示,节点c与节点e的边权重为0.7、节点e与节点d的边 权重为0.8、节点e与节点g的边权重为0.6、节点g与节点k的边权重为0.5、 节点k与节点i的边权重为0.4、节点i与节点j的边权重为0.8、节点i与节点 a的边权重为0.7、节点i与节点b的边权重为0.5,根据抽样路径数量2,业务 服务器1000可以对关系拓扑图(抽样前)20a中的节点进行路径抽样,得到每个节点对应的抽样路径,以下以节点b为例,其他节点与节点b的获取抽样路 径的方式一致,这里将不再进行赘述。以节点b为起始节点的路径有b-i-j、b-i-a、 b-i-k-g-e-c以及b-i-k-g-e-d共4条,业务服务器1000可以在b-i-j、b-i-a、b-i-k-g-e-c 以及b-i-k-g-e-d这4条路径中,抽取出b-i-j以及b-i-k-g-e-c这2条路径,并将 b-i-j以及b-i-k-g-e-c作为节点b的抽样路径,后续,业务服务器1000可以获取 到跳转阈值为2,根据跳转阈值2,如图7所示,在b-i-j这条抽样路径中,在 节点b的位置处跳2次(从节点b跳至与节点b相连接的节点i,再从节点i 跳至与节点i相连接的节点j),可以到达节点j,即节点b与节点j之间虽不具有边,但具有间接连接的关系,则业务服务器1000可以将节点b与节点j之间 进行边连接,并将该边加上方向,用于表示这条边是由节点b到达节点j的, 根据节点b与节点i的边权重0.5,以及节点i与节点j的边权重0.8,业务服务 器1000可以得到节点b与节点j的边权重为0.4;在b-i-k-g-e-c这条抽样路径 中,以节点b位置开始,跳2次可以到达的节点为节点k,则在b-i-k-g-e-c这 条抽样路径中,虽然节点g、节点e以及节点c都在这条抽样路径中,但业务 服务器1000无需计算节点b与节点g、节点e以及节点c之间的跳转概率,只 需计算节点b至节点k之间的跳转概率,根据节点b与节点i的边权重0.5,以 及节点i与节点k的边权重0.4,业务服务器1000可以得到节点b到达节点k 的跳转概率为0.2,业务服务器1000可以将节点b与节点k进行边连接,并将 该边加上方向,用于表示这条边是由节点b到达节点j的,并将0.2作为节点b 与节点k的边权重,业务服务器1000可以将抽样路径中的除节点b以外的节点 (即节点i、节点j以及节点k)作为节点b的关联节点,则对节点b进行路径 抽样后,可以得到节点b与节点b的关联节点(即节点i、节点j以及节点k) 的边权重分别为0.5(节点b到节点i)、0.4(节点b到节点j)以及0.2(节点 b到节点)。同理,业务服务器1000可以得到其他节点的抽样路径以及其他节 点到达关联节点的跳转概率,则每个节点的抽样路径以及该节点到达其关联节 点的跳转概率可以如表1所示:
表1
Figure BDA0002382363000000271
在表1中,列数据为起始节点,行数据为到达节点,以节点a为例,节点 a到达节点b的跳转概率为0.35,节点a到达节点i的跳转概率为0.7,节点a 到达节点k的跳转概率为0.28,从表1可以看出,大于或等于权重阈值0.5的 边权重有:节点a到节点i的跳转概率为0.7,节点b到节点i的跳转概率为0.5, 节点c到节点d的跳转概率为0.56,节点c到节点e的跳转概率为0.7,节点d 到节点c的跳转概率为0.56,节点d到节点e的跳转概率为0.8,节点e到节点 d的跳转概率为0.8,节点e到节点g的跳转概率为0.6,节点g到节点k的跳 转概率为0.5,节点i到节点a的跳转概率为0.7,节点j到节点a的跳转概率为 0.7,节点j到节点i的跳转概率为0.8,则业务服务器1000可以将跳转概率作 为每条边的边权重,得到目标关系拓扑图(抽样后)20b,可以将边权重大于权 重阈值的节点划分至一个社区中,即业务服务器1000可以将节点c、节点e、 节点d、节点g以及节点k划分至一个社区中,将节点i、节点j、节点a以及 节点b划分至一个社区中,由此,可以由目标关系拓扑图(抽样后)20b来得 到社区拓扑图(即社区)200a与社区拓扑图(即社区)200b,如图7所示,可 以看出,社区200a与社区200b中的节点之间的边权重都小于了权重阈值或者 两个节点之间不具有边(也就是两个社区中的用户之间的关联程度低),如,以 节点k与节点i为例,节点k与节点i的边权重为0.4,小于权重阈值0.5,则 可以表明节点k对应的用户k与节点i对应的用户i之间的关联程度低,可以 将用户k与用户i划分至不同的社区中,以节点c与节点j为例,节点c与节点 j之间并未有边,则表1中不具有节点c到节点j或节点j到节点c的跳转概率, 可以表明节点c与节点j之间的关联程度低,可以将节点c与节点j划分至不同 的社区中。
进一步地,请参见图8,是本申请实施例提供的一种确定处于异常状态的 目标用户集合的异常类别的流程示意图。如图8所示,该流程可以包括:
步骤S301,将上述处于异常状态的上述目标用户集合确定为待识别用户集 合。
步骤S302,获取上述待识别用户集合中用户的用户文本数据,在上述用户 文本数据中提取出关键文本数据。
本申请中,用户文本数据可以为用户在进行转账时的备注信息以及在进行 通话时的对话信息等,可以对用户文本数据进行关键字识别,以提取出关键文 本数据。如,用户在转账时的备注信息为“赌债偿还”,则可以提取关键字“赌 债”。
步骤S303,获取敏感源数据。
本申请中,敏感源数据为预设的异常类别集合,该敏感源数据可以包括赌 博、套现、诈骗、抢劫、偷窃等异常类别。
步骤S304,将上述关键文本数据与上述敏感源数据进行匹配,根据匹配结 果确定上述待识别用户集合的异常类别。
上述可知,通过将具有社交关联关系的用户划分至目标用户集合中,在确 定出该目标用户集合中的异常用户,且该目标用户集合为异常状态时,可以在 该目标用户集合中获取到与该异常用户具有社交关联关系的用户,直接将上述 与该异常用户具有社交关联关系的用户作为扩散异常用户,无需再对每一个用 户都进行一次特征匹配,通过社交关联关系即可进行扩散异常用户的识别,因 此,即使扩散异常用户具有与非异常用户相同的特征,但由于该扩散异常用户 与异常用户具有社交关联关系,依然可以被识别出来,从而可以提高识别的准 确率。
本申请中,可将上述关键文本数据与上述敏感源数据进行匹配,如,关键 文本数据为“赌债”,与敏感源数据进行匹配后,可得到“赌债”与“赌博”的 匹配率可达到90%,则可将该待识别用户集合的异常类别确定为“赌博”。
请参见图9,是本申请实施例提供的一种数据识别装置的结构示意图。上 述数据识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码), 例如该数据识别装置为一个应用软件;该装置可以用于执行本申请实施例提供 的方法中的相应步骤。如图9所示,该数据识别装置1可以包括:目标用户集 合获取模块11、异常用户确定模块12、行为状态检测模块13以及扩散异常用 户识别模块14。
目标用户集合获取模块11,用于获取目标用户集合;上述目标用户集合中 包括至少两个具有社交关联关系的用户;
异常用户确定模块12,用于获取默认异常用户,根据上述默认异常用户确 定上述目标用户集合中的异常用户;
行为状态检测模块13,用于根据上述异常用户,确定上述目标用户集合的 状态;
扩散异常用户识别模块14,用于若上述目标用户集合的状态为异常状态, 则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系, 在上述待确认用户中识别扩散异常用户;上述待确认用户为上述目标用户集合 中除上述异常用户以外的用户。
其中,目标用户集合获取模块11、异常用户确定模块12、行为状态检测模 块13以及扩散异常用户识别模块14的具体实现方式可以参见上述图3所对应 实施例中的步骤S101-步骤S104的描述,这里将不再进行赘述。
请参见图9,异常用户确定模块12可以包括:异常用户确定单元121。
异常用户确定单元122,用于将上述目标用户集合中的用户与上述默认异 常用户进行匹配,将上述目标用户集合中匹配率达到匹配阈值的用户确定为上 述目标用户集合中的异常用户。
其中,异常用户确定单元121的具体实现方式可以参见上述图4所对应实 施例中步骤S102的描述,这里将不再进行赘述。
请参见图9,行为状态检测模块13可以包括:用户总数量获取单元131、 异常浓度确定单元132以及第一状态确定单元133。
用户总数量获取单元131,用于获取上述异常用户的数量,获取上述目标 用户集合中用户的总数量;
异常浓度确定单元132,用于根据上述异常用户的数量以及上述目标用户 集合中用户的总数量,确定上述目标用户集合的异常浓度;
第一状态确定单元133,用于若上述异常浓度小于浓度阈值,则将上述目 标用户集合的状态确定为正常状态;
上述第一状态确定单元133,还用于若上述异常浓度大于或等于浓度阈值, 则将上述目标用户集合的状态确定为异常状态。
其中,用户总数量获取单元131、异常浓度确定单元132以及第一状态确 定单元133的具体实现方式可以参见上述图3所对应实施例中步骤S103的描 述,这里将不再进行赘述。
请参见图9,行为状态检测模块13可以包括:行为特征获取单元134、特 征分布度确定单元135、特征分布差异度确定单元136以及第二状态确定单元 137。
行为特征获取单元134,用于获取用户社交行为特征集合;上述用户社交 行为特征集合中包括上述用户群中每个用户的社交行为特征;
特征分布度确定单元135,用于根据上述用户社交行为特征集合中的社交 行为特征,确定上述异常用户的第一特征分布度;上述第一特征分布度用于表 征上述异常用户具备的社交行为特征的种类数;
上述特征分布度确定单元135,还用于根据上述用户社交行为特征集合中 的社交行为特征,确定上述目标用户集合中用户的第二特征分布度;上述第二 特征分布度用于表征上述目标用户集合中用户具备的社交行为特征的种类数;
特征分布差异度确定单元136,用于根据上述第一特征分布集中度以及上 述第二特征分布度,确定上述异常用户与上述目标用户集合中的用户之间的特 征分布差异度;
第二状态确定单元137,用于根据上述第一特征分布度以及上述特征分布 差异度,确定上述目标用户集合的状态。
其中,上述第二状态确定单元137,还用于若上述特征分布差异度小于差 异度阈值,且上述第一特征分布度小于分布阈值,则将上述目标用户集合的状 态确定为正常状态;
上述第二状态确定单元137,还用于若上述特征分布差异度大于或等于上 述差异度阈值,且上述第一特征分布度大于或等于上述分布阈值,则将上述目 标用户集合的状态确定为正常状态;
上述第二状态确定单元137,还用于若上述特征分布差异度大于或等于上 述差异度阈值,且上述第一特征分布度小于上述分布阈值,则将上述目标用户 集合的状态确定为异常状态。
其中,行为特征获取单元134、特征分布度确定单元135、特征分布差异度 确定单元136以及第二状态确定单元137的具体实现方式可以参见上述图3所 对应实施例中步骤S103的描述,这里将不再进行赘述。
请参见图9,目标用户集合获取模块11可以包括:关系拓扑图获取单元111、 抽样路径获取单元112、跳转概率确定单元113以及目标用户集合确定单元114。
关系拓扑图获取单元111,用于获取用户群对应的关系拓扑图;上述关系 拓扑图包括N个节点k,N个上述节点k与上述用户群中的用户一一对应,N 为上述用户群中的用户数;两个节点k之间的边权重是基于上述用户群中的两 个用户之间的社交关联关系所确定的;
抽样路径获取单元112,用于根据路径抽样数量,在上述关系拓扑图中获 取上述节点k对应的抽样路径;
跳转概率确定单元113,用于根据上述关系拓扑图中的边权重,确定上述 节点k与上述抽样路径中的关联节点之间的跳转概率;上述关联节点是指上述 抽样路径中除上述节点k以外的节点;
目标用户集合确定单元114,用于根据上述跳转概率更新上述关系拓扑图, 得到更新后的关系拓扑图,在上述更新后的关系拓扑图中确定上述目标用户集 合。
其中,关系拓扑图获取单元111、抽样路径获取单元112、跳转概率确定单 元113以及目标用户集合确定单元114的具体实现方式可以参见上述图3所对 应实施例中步骤S101的描述,这里将不再进行赘述。
请参见图9,关系拓扑图获取单元111可以包括:用户群获取子单元1111、 权重设置子单元1112、概率转换子单元1113以及关系拓扑图生成子单元1114。
用户群获取子单元1111,用于获取用户群,将上述用户群中的每个用户均 作为节点k;
权重设置子单元1112,用于在具有社交关联关系的用户所对应的节点k之 间进行边连接,根据上述具有社交关联关系的用户之间的社交行为记录,对上 述节点k之间的边设置初始权重;
概率转换子单元1113,用于将上述初始权重进行概率转换,得到上述边权 重;
关系拓扑图生成子单元1114,用于根据上述用户群对应的节点k以及上述 边权重,生成上述关系拓扑图。
其中,用户群获取子单元1111、权重设置子单元1112、概率转换子单元 1113以及关系拓扑图生成子单元1114的具体实现方式可以参见上述图3所对 应实施例中步骤S101中获取关系拓扑图的描述,这里将不再进行赘述。
请参见图9,跳转概率确定单元113可以包括:中间节点获取子单元1131、 连接节点对确定子单元1132以及跳转概率确定子单元1133。
中间节点获取子单元1131,用于若上述节点k与上述关联节点之间不具有 边,则在上述抽样路径中获取上述节点k与上述关联节点之间的中间节点;上 述节点k通过上述中间节点可到达上述关联节点;
连接节点对确定子单元1132,用于在上述节点k、上述中间节点以及上述 关联节点中,将具有边的两个节点,作为连接节点对,获取上述连接节点对对 应的边权重;
跳转概率确定子单元1133,用于根据上述连接节点对对应的边权重,确定 上述节点k与上述关联节点之间的跳转概率。
其中,中间节点获取子单元1131、连接节点对确定子单元1132以及跳转 概率确定子单元1133的具体实现方式可以参见上述图3所对应实施例中步骤 S101中对于确定跳转概率的描述,这里将不再进行赘述。
请参见图9,目标用户集合确定单元114可以包括:更新节点边子单元1141、 边权重设置子单元1142以及目标用户集合确定子单元1143。
更新节点边子单元1141,用于根据上述节点k和上述关联节点,对上述关 系拓扑图中所连接的边进行更新,得到过渡关系拓扑图;上述过渡关系拓扑图 中的上述节点k与上述关联节点均连接有边;
边权重设置子单元1142,用于在上述过渡关系拓扑图中,将上述节点k与 上述关联节点之间的跳转概率,设置为上述节点k与上述关联节点之间的边权 重,得到目标关系拓扑图;
目标用户集合确定子单元1143,用于在上述目标关系拓扑图中确定上述目 标用户集合。
其中,上述目标用户集合确定子单元1143,还用于将上述跳转概率进行指 数增长,将进行指数增长后得到的跳转概率进行概率转换,得到目标概率,根 据上述目标概率更新上述节点k与上述关联节点之间的边权重;
上述目标用户集合确定子单元1143,还用于将更新后的边权重大于权重阈 值的关联节点,确定为上述节点k的重要关联节点;
上述目标用户集合确定子单元1143,还用于根据上述节点k和上述重要关 联节点,将上述目标关系拓扑图划分为至少两个社区拓扑图,在上述至少两个 社区拓扑图中获取目标社区拓扑图,作为上述目标用户集合。
其中,更新节点边子单元1141、边权重设置子单元1142以及目标用户集 合确定子单元1143的具体实现方式可以参见上述图3所对应实施例中步骤 S101的描述,这里将不再进行赘述。
请参见图9,扩散异常用户识别模块14可以包括:第一关联关系用户确定 单元141以及第一扩散异常用户确定单元142。
第一关联关系用户确定单元141,用于若上述目标用户集合的状态为异常 状态,则在上述待确认用户中确定出与上述异常用户具有社交关联关系的用户;
第一扩散异常用户确定单元142,用于将上述与上述异常用户具有社交关 联关系的用户确定为上述扩散异常用户。
其中,第一关联关系用户确定单元141以及第一扩散异常用户确定单元142 的具体实现方式可以参见上述图3所对应实施例中步骤S104的描述,这里将 不再进行赘述。
请参见图9,扩散异常用户识别模块14可以包括:第二关联关系用户确定 单元143以及第二扩散异常用户确定单元144。
第二关联关系用户确定单元143,用于若上述目标用户集合的状态为异常 状态,则在上述待确认用户中确定出与上述异常用户具有社交关联关系的用户;
第二扩散异常用户确定单元144,用于获取上述异常用户对应的异常用户 节点,获取上述与上述异常用户具有社交关联关系的用户对应的关联用户节点, 将上述异常用户节点与上述关联用户节点之间的边权重大于关联阈值的关联用 户节点,确定为扩散异常节点,将上述扩散异常节点对应的用户确定为上述扩 散异常用户。
其中,第二关联关系用户确定单元143以及第二扩散异常用户确定单元144 的具体实现方式可以参见上述图3所对应实施例中步骤S104的描述,这里将 不再进行赘述。
请参见图9,该数据识别装置1可以包括目标用户集合获取模块11、异常 用户确定模块12、行为状态检测模块13以及扩散异常用户识别模块14,还可 以包括:待识别用户集合确定模块15、关键文本数据提取模块16、敏感源数据 获取模块17以及异常类别确定模块18。
待识别用户集合确定模块15,用于将上述处于异常状态的上述目标用户集 合确定为待识别用户集合;
关键文本数据提取模块16,用于获取上述待识别用户集合中用户的用户文 本数据,在上述用户文本数据中提取出关键文本数据;
敏感源数据获取模块17,用于获取敏感源数据;
异常类别确定模块18,用于将上述关键文本数据与上述敏感源数据进行匹 配,根据匹配结果确定上述待识别用户集合的异常类别。
其中,待识别用户集合确定模块15、关键文本数据提取模块16、敏感源数 据获取模块17以及异常类别确定模块18的具体实现方式可以参见上述图5所 对应实施例中步骤S201-步骤S204的描述,这里将不再进行赘述。
本申请实施例通过获取目标用户集合;上述目标用户集合中包括至少两个 具有社交关联关系的用户;获取默认异常用户,根据上述默认异常用户确定上 述目标用户集合中的异常用户;根据上述异常用户,确定上述目标用户集合的 状态;若上述目标用户集合的状态为异常状态,则根据上述异常用户与上述目 标用户集合中的待确认用户之间的社交关联关系,在上述待确认用户中识别扩 散异常用户;上述待确认用户为上述目标用户集合中除上述异常用户以外的用 户。上述可知,通过将具有社交关联关系的用户划分至目标用户集合中,在确 定出该目标用户集合中的异常用户,且该目标用户集合为异常状态时,可以在 该目标用户集合中获取到与该异常用户具有社交关联关系的用户,直接将上述 与该异常用户具有社交关联关系的用户作为扩散异常用户,无需再对每一个用 户都进行一次特征匹配,通过社交关联关系即可进行扩散异常用户的识别,从 而,即使扩散异常用户具有与非异常用户相同的特征,但由于该扩散异常用户 与异常用户具有社交关联关系,依然可以被识别出来,从而可以提高识别的准 确率。
进一步地,请参见图10,是本申请实施例提供的一种计算机设备的结构示 意图。如图10所示,上述图9所对应实施例中的装置1可以应用于上述计算机 设备1000,上述计算机设备1000可以包括:处理器1001,网络接口1004和存 储器1005,此外,上述计算机设备1000还包括:用户接口1003,和至少一个 通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其 中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户 接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以 包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM 存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁 盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的 存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以 包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能; 而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调 用存储器1005中存储的设备控制应用程序,以实现:
获取目标用户集合;上述目标用户集合中包括至少两个具有社交关联关系 的用户;
获取默认异常用户,根据上述默认异常用户确定上述目标用户集合中的异 常用户;
根据上述异常用户,确定上述目标用户集合的状态;
若上述目标用户集合的状态为异常状态,则根据上述异常用户与上述目标 用户集合中的待确认用户之间的社交关联关系,在上述待确认用户中识别扩散 异常用户;上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3到图 8所对应实施例中对该视频数据处理方法的描述,也可执行前文图9所对应实 施例中对该视频数据处理装置1的描述,在此不再赘述。另外,对采用相同方 法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介 质,且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备 1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执 行上述程序指令时,能够执行前文图3到图8所对应实施例中对上述数据处理 方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果 描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未 披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据识别装置或者 上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可 读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备 的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既 包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介 质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机 可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等 是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们 任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、 方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括 没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或 设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地 描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决 于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用 来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范 围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程 图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或 结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框 的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理 机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其 他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或 多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算 机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工 作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括 指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示 意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算 机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系 列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行 的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或 多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之 权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据识别方法,其特征在于,包括:
获取目标用户集合;所述目标用户集合中包括至少两个具有社交关联关系的用户;
获取默认异常用户,根据所述默认异常用户确定所述目标用户集合中的异常用户;
根据所述异常用户,确定所述目标用户集合的状态;
若所述目标用户集合的状态为异常状态,则根据所述异常用户与所述目标用户集合中的待确认用户之间的社交关联关系,在所述待确认用户中识别扩散异常用户;所述待确认用户为所述目标用户集合中除所述异常用户以外的用户。
2.根据权利要求1所述的方法,其特征在于,所述获取默认异常用户,根据所述默认异常用户确定所述目标用户集合中的异常用户,包括:
将所述目标用户集合中的用户与所述默认异常用户进行匹配,将匹配率达到匹配阈值的用户确定为所述目标用户集合中的异常用户。
3.根据权利要求1所述的方法,其特征在于,所述根据所述异常用户,确定所述目标用户集合的状态,包括:
获取所述异常用户的数量,获取所述目标用户集合中用户的总数量;
根据所述异常用户的数量以及所述目标用户集合中用户的总数量,确定所述目标用户集合的异常浓度;
若所述异常浓度小于浓度阈值,则将所述目标用户集合的状态确定为正常状态;
若所述异常浓度大于或等于浓度阈值,则将所述目标用户集合的状态确定为异常状态。
4.根据权利要求1所述的方法,其特征在于,所述根据所述异常用户,确定所述目标用户集合的状态,包括:
获取用户社交行为特征集合;所述用户社交行为特征集合中包括所述用户群中每个用户的社交行为特征;
根据所述用户社交行为特征集合中的社交行为特征,确定所述异常用户的第一特征分布度;所述第一特征分布度用于表征所述异常用户具备的社交行为特征的种类数;
根据所述用户社交行为特征集合中的社交行为特征,确定所述目标用户集合中用户的第二特征分布度;所述第二特征分布度用于表征所述目标用户集合中用户具备的社交行为特征的种类数;
根据所述第一特征分布集中度以及所述第二特征分布度,确定所述异常用户与所述目标用户集合中的用户之间的特征分布差异度;
根据所述第一特征分布度以及所述特征分布差异度,确定所述目标用户集合的状态。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一特征分布度以及所述特征分布差异度,确定所述目标用户集合的状态,包括:
若所述特征分布差异度小于差异度阈值,且所述第一特征分布度小于分布阈值,则将所述目标用户集合的状态确定为正常状态;
若所述特征分布差异度大于或等于所述差异度阈值,且所述第一特征分布度大于或等于所述分布阈值,则将所述目标用户集合的状态确定为正常状态;
若所述特征分布差异度大于或等于所述差异度阈值,且所述第一特征分布度小于所述分布阈值,则将所述目标用户集合的状态确定为异常状态。
6.根据权利要求1所述的方法,其特征在于,所述获取目标用户集合,包括:
获取用户群对应的关系拓扑图;所述关系拓扑图包括N个节点k,N个所述节点k与所述用户群中的用户一一对应,N为所述用户群中的用户数;两个节点k之间的边权重是基于所述用户群中的两个用户之间的社交关联关系所确定的;
根据路径抽样数量,在所述关系拓扑图中获取所述节点k对应的抽样路径;
根据所述关系拓扑图中的边权重,确定所述节点k与所述抽样路径中的关联节点之间的跳转概率;所述关联节点是指所述抽样路径中除所述节点k以外的节点;
根据所述跳转概率更新所述关系拓扑图,得到更新后的关系拓扑图,在所述更新后的关系拓扑图中确定所述目标用户集合。
7.根据权利要求6所述的方法,其特征在于,所述获取用户群对应的关系拓扑图,包括:
获取用户群,将所述用户群中的每个用户均作为节点k;
在具有社交关联关系的用户所对应的节点k之间进行边连接,根据所述具有社交关联关系的用户之间的社交行为记录,对所述节点k之间的边设置初始权重;
将所述初始权重进行概率转换,得到所述边权重;
根据所述用户群对应的节点k以及所述边权重,生成所述关系拓扑图。
8.根据权利要求6所述的方法,其特征在于,所述根据所述关系拓扑图中的边权重,确定所述节点k与所述抽样路径中的关联节点之间的跳转概率,包括:
若所述节点k与所述关联节点之间不具有边,则在所述抽样路径中获取所述节点k与所述关联节点之间的中间节点;所述节点k通过所述中间节点可到达所述关联节点;
在所述节点k、所述中间节点以及所述关联节点中,将具有边的两个节点,作为连接节点对,获取所述连接节点对对应的边权重;
根据所述连接节点对对应的边权重,确定所述节点k与所述关联节点之间的跳转概率。
9.根据权利要求6所述的方法,其特征在于,所述根据所述跳转概率更新所述关系拓扑图,得到目标关系拓扑图,在所述更新后的关系拓扑图中确定所述目标用户集合,包括:
根据所述节点k和所述关联节点,对所述关系拓扑图中所连接的边进行更新,得到过渡关系拓扑图;所述过渡关系拓扑图中的所述节点k与所述关联节点均连接有边;
在所述过渡关系拓扑图中,将所述节点k与所述关联节点之间的跳转概率,设置为所述节点k与所述关联节点之间的边权重,得到目标关系拓扑图;
在所述目标关系拓扑图中确定所述目标用户集合。
10.根据权利要求9所述的方法,其特征在于,所述在所述目标关系拓扑图中确定所述目标用户集合,包括:
将所述跳转概率进行指数增长,将进行指数增长后得到的跳转概率进行概率转换,得到目标概率,根据所述目标概率更新所述节点k与所述关联节点之间的边权重;
将更新后的边权重大于权重阈值的关联节点,确定为所述节点k的重要关联节点;
根据所述节点k和所述重要关联节点,将所述目标关系拓扑图划分为至少两个社区拓扑图,在所述至少两个社区拓扑图中获取目标社区拓扑图,作为所述目标用户集合。
11.根据权利要求1所述的方法,其特征在于,所述若所述目标用户集合的状态为异常状态,则根据所述异常用户与所述目标用户集合中的待确认用户之间的社交关联关系,在所述待确认用户中识别扩散异常用户,包括:
若所述目标用户集合的状态为异常状态,则在所述待确认用户中确定出与所述异常用户具有社交关联关系的用户;
将所述与所述异常用户具有社交关联关系的用户确定为所述扩散异常用户。
12.根据权利要求6所述的方法,其特征在于,所述若所述目标用户集合的状态为异常状态,则根据所述异常用户与所述目标用户集合中的待确认用户之间的社交关联关系,在所述待确认用户中识别扩散异常用户,包括:
若所述目标用户集合的状态为异常状态,则在所述待确认用户中确定出与所述异常用户具有社交关联关系的用户;
获取所述异常用户对应的异常用户节点,获取所述与所述异常用户具有社交关联关系的用户对应的关联用户节点,将所述异常用户节点与所述关联用户节点之间的边权重大于关联阈值的关联用户节点,确定为扩散异常节点,将所述扩散异常节点对应的用户确定为所述扩散异常用户。
13.根据权利要求1所述的方法,其特征在于,还包括:
将所述处于异常状态的所述目标用户集合确定为待识别用户集合;
获取所述待识别用户集合中用户的用户文本数据,在所述用户文本数据中提取出关键文本数据;
获取敏感源数据;
将所述关键文本数据与所述敏感源数据进行匹配,根据匹配结果确定所述待识别用户集合的异常类别。
14.一种计算机设备,其特征在于,包括:处理器和存储器;
所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至13中任一项所述的方法。
CN202010086855.6A 2020-02-11 2020-02-11 一种数据识别方法、装置、设备以及可读存储介质 Active CN111339436B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010086855.6A CN111339436B (zh) 2020-02-11 2020-02-11 一种数据识别方法、装置、设备以及可读存储介质
PCT/CN2020/126055 WO2021159766A1 (zh) 2020-02-11 2020-11-03 一种数据识别方法、装置、设备以及可读存储介质
US17/672,814 US20220172090A1 (en) 2020-02-11 2022-02-16 Data identification method and apparatus, and device, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010086855.6A CN111339436B (zh) 2020-02-11 2020-02-11 一种数据识别方法、装置、设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN111339436A true CN111339436A (zh) 2020-06-26
CN111339436B CN111339436B (zh) 2021-05-28

Family

ID=71183384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010086855.6A Active CN111339436B (zh) 2020-02-11 2020-02-11 一种数据识别方法、装置、设备以及可读存储介质

Country Status (3)

Country Link
US (1) US20220172090A1 (zh)
CN (1) CN111339436B (zh)
WO (1) WO2021159766A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112370793A (zh) * 2020-11-25 2021-02-19 上海幻电信息科技有限公司 用户账号的风险控制方法及装置
CN112929348A (zh) * 2021-01-25 2021-06-08 北京字节跳动网络技术有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
WO2021159766A1 (zh) * 2020-02-11 2021-08-19 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备以及可读存储介质
CN113326178A (zh) * 2021-06-22 2021-08-31 北京奇艺世纪科技有限公司 一种异常账号传播方法、装置、电子设备和存储介质
CN113393250A (zh) * 2021-06-09 2021-09-14 北京沃东天骏信息技术有限公司 一种信息处理方法及装置、存储介质
CN113590798A (zh) * 2021-08-09 2021-11-02 北京达佳互联信息技术有限公司 对话意图识别、用于识别对话意图的模型的训练方法
CN113946758A (zh) * 2020-06-30 2022-01-18 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质
CN116055385A (zh) * 2022-12-30 2023-05-02 中国联合网络通信集团有限公司 路由方法、管理节点、路由节点及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577987A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 一种风险用户的识别方法和装置
CN107730262A (zh) * 2017-10-23 2018-02-23 阿里巴巴集团控股有限公司 一种欺诈识别方法和装置
US20180173777A1 (en) * 2013-02-25 2018-06-21 Leidos, Inc. System and Method For Correlating Cloud-Based Big Data in Real-Time For Intelligent Analytics and Multiple End Uses
US20180365697A1 (en) * 2017-06-16 2018-12-20 Nec Laboratories America, Inc. Suspicious remittance detection through financial behavior analysis
CN109495378A (zh) * 2018-12-28 2019-03-19 广州华多网络科技有限公司 检测异常帐号的方法、装置、服务器及存储介质
US20190138571A1 (en) * 2017-11-08 2019-05-09 Coupa Software Incorporated Automatically identifying risk in contract negotiations using graphical time curves of contract history and divergence
CN110070364A (zh) * 2019-03-27 2019-07-30 北京三快在线科技有限公司 基于图模型检测团伙欺诈的方法和装置、存储介质
CN110517097A (zh) * 2019-09-09 2019-11-29 平安普惠企业管理有限公司 识别异常用户的方法、装置、设备及存储介质
CN110555564A (zh) * 2019-09-06 2019-12-10 中国农业银行股份有限公司 一种客户关联风险的预测方法及装置
CN110689084A (zh) * 2019-09-30 2020-01-14 北京明略软件系统有限公司 一种异常用户识别方法及装置
CN110706026A (zh) * 2019-09-25 2020-01-17 精硕科技(北京)股份有限公司 一种异常用户的识别方法、识别装置及可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103581355A (zh) * 2012-08-02 2014-02-12 北京千橡网景科技发展有限公司 用户行为异常处理方法和设备
WO2017037444A1 (en) * 2015-08-28 2017-03-09 Statustoday Ltd Malicious activity detection on a computer network and network metadata normalisation
CN107093090A (zh) * 2016-10-25 2017-08-25 北京小度信息科技有限公司 异常用户识别方法及装置
CN109255024A (zh) * 2017-07-12 2019-01-22 车伯乐(北京)信息科技有限公司 一种异常用户同党的搜索方法,装置,及系统
CN108615119B (zh) * 2018-05-09 2024-02-06 广州地铁小额贷款有限公司 一种异常用户的识别方法及设备
CN111339436B (zh) * 2020-02-11 2021-05-28 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备以及可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577987A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 一种风险用户的识别方法和装置
US20180173777A1 (en) * 2013-02-25 2018-06-21 Leidos, Inc. System and Method For Correlating Cloud-Based Big Data in Real-Time For Intelligent Analytics and Multiple End Uses
US20180365697A1 (en) * 2017-06-16 2018-12-20 Nec Laboratories America, Inc. Suspicious remittance detection through financial behavior analysis
CN107730262A (zh) * 2017-10-23 2018-02-23 阿里巴巴集团控股有限公司 一种欺诈识别方法和装置
US20190138571A1 (en) * 2017-11-08 2019-05-09 Coupa Software Incorporated Automatically identifying risk in contract negotiations using graphical time curves of contract history and divergence
CN109495378A (zh) * 2018-12-28 2019-03-19 广州华多网络科技有限公司 检测异常帐号的方法、装置、服务器及存储介质
CN110070364A (zh) * 2019-03-27 2019-07-30 北京三快在线科技有限公司 基于图模型检测团伙欺诈的方法和装置、存储介质
CN110555564A (zh) * 2019-09-06 2019-12-10 中国农业银行股份有限公司 一种客户关联风险的预测方法及装置
CN110517097A (zh) * 2019-09-09 2019-11-29 平安普惠企业管理有限公司 识别异常用户的方法、装置、设备及存储介质
CN110706026A (zh) * 2019-09-25 2020-01-17 精硕科技(北京)股份有限公司 一种异常用户的识别方法、识别装置及可读存储介质
CN110689084A (zh) * 2019-09-30 2020-01-14 北京明略软件系统有限公司 一种异常用户识别方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021159766A1 (zh) * 2020-02-11 2021-08-19 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备以及可读存储介质
CN113946758A (zh) * 2020-06-30 2022-01-18 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质
CN113946758B (zh) * 2020-06-30 2023-09-19 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质
CN112370793A (zh) * 2020-11-25 2021-02-19 上海幻电信息科技有限公司 用户账号的风险控制方法及装置
CN112929348A (zh) * 2021-01-25 2021-06-08 北京字节跳动网络技术有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN112929348B (zh) * 2021-01-25 2022-11-25 北京字节跳动网络技术有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN113393250A (zh) * 2021-06-09 2021-09-14 北京沃东天骏信息技术有限公司 一种信息处理方法及装置、存储介质
CN113326178A (zh) * 2021-06-22 2021-08-31 北京奇艺世纪科技有限公司 一种异常账号传播方法、装置、电子设备和存储介质
CN113590798A (zh) * 2021-08-09 2021-11-02 北京达佳互联信息技术有限公司 对话意图识别、用于识别对话意图的模型的训练方法
CN113590798B (zh) * 2021-08-09 2024-03-26 北京达佳互联信息技术有限公司 对话意图识别、用于识别对话意图的模型的训练方法
CN116055385A (zh) * 2022-12-30 2023-05-02 中国联合网络通信集团有限公司 路由方法、管理节点、路由节点及介质

Also Published As

Publication number Publication date
WO2021159766A1 (zh) 2021-08-19
US20220172090A1 (en) 2022-06-02
CN111339436B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN111339436B (zh) 一种数据识别方法、装置、设备以及可读存储介质
JP6689515B2 (ja) ユーザ地理的ロケーションのタイプを識別するための方法および装置
CN107404408B (zh) 一种虚拟身份关联识别方法及装置
EP4198775A1 (en) Abnormal user auditing method and apparatus, electronic device, and storage medium
CN105894028B (zh) 用户识别方法和装置
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN108985048B (zh) 模拟器识别方法及相关装置
CN106055630A (zh) 日志存储的方法及装置
CN110929141B (zh) 团伙挖掘方法、装置、设备及存储介质
CN113572752A (zh) 异常流量的检测方法和装置、电子设备、存储介质
CN110197426B (zh) 一种信用评分模型的建立方法、装置及可读存储介质
CN112085087A (zh) 业务规则生成的方法、装置、计算机设备及存储介质
CN112464058A (zh) 一种基于XGBoost算法的电信互联网诈骗识别方法
CN111125118B (zh) 关联数据查询方法、装置、设备及介质
CN110288468B (zh) 数据特征挖掘方法、装置、电子设备及存储介质
CN111612085A (zh) 一种对等组中异常点的检测方法及装置
CN112966756A (zh) 一种可视化的准入规则的生成方法、装置、机器可读介质及设备
CN112182520B (zh) 非法账号的识别方法、装置、可读介质及电子设备
CN109284307B (zh) 一种流量数据的聚类处理方法、装置及电子设备
CN110210884B (zh) 确定用户特征数据的方法、装置、计算机设备及存储介质
CN109660676B (zh) 异常对象的识别方法、装置及设备
CN109697224B (zh) 一种账单消息处理方法、装置和存储介质
CN116150355A (zh) 类别划分方法、文本分类方法及装置、电子设备、介质
CN113220949B (zh) 一种隐私数据识别系统的构建方法及装置
CN110457600B (zh) 查找目标群体的方法、装置、存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40023625

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant