CN114781517A - 风险识别的方法、装置及终端设备 - Google Patents

风险识别的方法、装置及终端设备 Download PDF

Info

Publication number
CN114781517A
CN114781517A CN202210431364.XA CN202210431364A CN114781517A CN 114781517 A CN114781517 A CN 114781517A CN 202210431364 A CN202210431364 A CN 202210431364A CN 114781517 A CN114781517 A CN 114781517A
Authority
CN
China
Prior art keywords
community
vector
user
edge
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210431364.XA
Other languages
English (en)
Inventor
李俊兵
陈振兴
王美青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202210431364.XA priority Critical patent/CN114781517A/zh
Publication of CN114781517A publication Critical patent/CN114781517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Technology Law (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出一种风险识别的方法和装置,其中,方法包括:获取预设时间段内的各用户对应的业务数据集;对每个用户对应的业务数据进行预处理,以确定每个用户对应的媒介向量及行为向量;根据各个媒介向量间的相似度及各个行为向量间的相似度,确定各用户间的边关系;根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区;根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。由此,通过基于媒介向量与行为向量,在各用户之间的建立边的关系,再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区,从而即简化了风险识别的复杂度,又提高了风险识别的准确度。

Description

风险识别的方法、装置及终端设备
技术领域
本公开涉及人工智能识别分类技术领域,尤其涉及一种风险识别的方法、装置及终端设备。
背景技术
随着人工智能技术的迅速发展,风险控制的需求越来越多。
相关技术中,通常基于用户时序行为事件,训练分类模型,并基于此分类模型,识别对应的业务是否存在风险。该方法需要依赖大量的带标签的训练数据,但是由于带标签的训练数据集的获得难度较大,导致模型存在误判或者漏判的现象。因此,如何提供一种可靠的风险识别的方法,是目前亟需解决的问题。
发明内容
本公开提出一种风险识别的方法、装置及终端设备,以至少解决相关技术风险识别可靠性较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,本公开实施例提供一种风险识别的方法,包括:
获取预设时间段内的各用户对应的业务数据集,其中,每条所述业务数据中包括媒介数据及行为数据;
对每个所述用户对应的业务数据进行预处理,以确定每个所述用户对应的媒介向量及行为向量;
根据各个所述媒介向量间的相似度及各个所述行为向量间的相似度,确定所述各用户间的边关系;
根据所述各用户间的边关系,将所述关系图谱进行社区划分,以确定所述关系图谱中包含的各个社区;
根据每个所述社区中包含的边的属性信息,确定每个所述社区是否为具有风险的社区。
本公开中,服务端在获取预设时间段内的各用户对应的业务数据集后,可以对每个用户对应的业务数据进行预处理,以确定每个用户对应的媒介向量及行为向量,之后根据各个媒介向量间的相似度及各个行为向量间的相似度,确定各用户间的边关系,并根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区,然后再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。由此,通过基于媒介向量与行为向量,在各用户之间的建立边的关系,再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区,从而即简化了风险识别的复杂度,又提高了风险识别的准确度。
在本公开第一方面实施例一种可能的实现方式中,在所述确定所述各用户间的边关系之后,还包括:
确定每条所述行为数据对应的操作对象的属性信息;
根据所述操作对象的属性信息,确定每个所述用户对应的扩展向量;
根据各个所述扩展向量间的相似度,对所述各用户间的边关系进行更新。
在本公开第一方面实施例一种可能的实现方式中,所述对每个所述用户对应的业务数据进行预处理,以确定每个所述用户对应的媒介向量及行为向量,包括:
将所述用户对应的每条业务数据中的媒介数据及行为数据分布进行向量映射,以确定所述用户对应的每个媒介向量及每个行为向量。
在本公开第一方面实施例一种可能的实现方式中,所述根据各个所述媒介向量间的相似度及各个所述行为向量间的相似度,确定所述各用户间的边关系,包括:
在任一媒介向量与另一媒介向量间的相似度大于阈值的情况下,确定所述任一媒介向量对应的第一用户与所述另一媒介向量对应的第二用户间具有第一边,其中,所述第一边的属性信息为所述任一媒介向量对应的媒介数据。
在本公开第一方面实施例一种可能的实现方式中,所述根据每个所述社区中包含的边的属性信息,确定每个所述社区是否为具有风险的社区,包括:
根据每个所述社区中各个边的属性信息,分别与预设的参考信息间的匹配度,确定所述社区是否为具有风险的社区。
根据本公开实施例的第二方面,本公开实施例提供了一种风险识别的装置,包括:
获取模块,用于获取预设时间段内的各用户对应的业务数据集,其中,每条所述业务数据中包括媒介数据及行为数据;
确定模块,用于对每个所述用户对应的业务数据进行预处理,以确定每个所述用户对应的媒介向量及行为向量;
建边模块,还用于根据各个所述媒介向量间的相似度及各个所述行为向量间的相似度,确定所述各用户间的边关系;
划分模块,用于根据所述各用户间的边关系,将所述关系图谱进行社区划分,以确定所述关系图谱中包含的各个社区;
所述确定模块,还用于根据每个所述社区中包含的边的属性信息,确定每个所述社区是否为具有风险的社区。
在本公开第二方面实施例一种可能的实现方式中,所述确定模块,还用于:
确定每条所述行为数据对应的操作对象的属性信息;根据所述操作对象的属性信息,确定每个所述用户对应的扩展向量;
所述装置还包括:
更新模块,用于根据各个所述扩展向量间的相似度,对所述各用户间的边关系进行更新。
在本公开第二方面实施例一种可能的实现方式中,所述确定模块,具体用于:
将所述用户对应的每条业务数据中的媒介数据及行为数据分布进行向量映射,以确定所述用户对应的每个媒介向量及每个行为向量。
在本公开第二方面实施例一种可能的实现方式中,所述建边模块,具体用于:
在任一媒介向量与另一媒介向量间的相似度大于阈值的情况下,确定所述任一媒介向量对应的第一用户与所述另一媒介向量对应的第二用户间具有第一边,其中,所述第一边的属性信息为所述任一媒介向量对应的媒介数据。
在本公开第二方面实施例一种可能的实现方式中,所述确定模块,具体用于:
根据每个所述社区中各个边的属性信息,分别与预设的参考信息间的匹配度,确定所述社区是否为具有风险的社区。
根据本公开实施例的第三方面,提供一种终端设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现如上述第一方面实施例所述的风险识别的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由终端设备的处理器执行时,使得终端设备能够执行如上述一方面实施例所述的风险识别的方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述一方面实施例所述的风险识别的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:本公开中,服务端在获取预设时间段内的各用户对应的业务数据集后,可以对每个用户对应的业务数据进行预处理,以确定每个用户对应的媒介向量及行为向量,之后根据各个媒介向量间的相似度及各个行为向量间的相似度,确定各用户间的边关系,并根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区,然后再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。由此,通过基于媒介向量与行为向量,在各用户之间的建立边的关系,再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区,从而即简化了风险识别的复杂度,又提高了风险识别的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1为本公开第一实施例提供的一种风险识别的方法的流程示意图;
图2为本公开第二实施例提供的另一种风险识别的方法的流程示意图;
图3为本公开第三实施例提供的另一种风险识别的方法的流程示意图
图4为本公开第四实施例提供的一种风险识别的处理装置的结构示意图;
图5是根据一示例性实施例示出的一种风险识别的处理的终端设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开中,主要针对相关技术中,需要依赖大量的带标签的训练数据,但是由于带标签的训练数据集的获得难度较大,导致模型存在误判或者漏判的问题,提出一种风险识别的方法。本公开提供的方法中,仅需要基于一段时间内的用户业务数据,确定用户的关系图谱,进而根据每个社区中包含的边的属性信息,即可确定每个社区是否为具有风险的社区,从而在简化风险识别复杂度的同时,提高了风险识别的准确度。
图1为本公开实施例所提供的一种风险识别的处理方法的流程图,包括以下步骤:
步骤101,获取预设时间段内的各用户对应的业务数据集,其中,每条业务数据中包括媒介数据及行为数据。
其中,用户对应的业务可以为业务供应方可提供的任何业务。举例来说,若业务供应方为电商服务商时,则用户对应的业务可以包括注册、登录、交易、退款等业务。
媒介数据,可以为用户请求业务时所使用的媒介信息。比如,媒介数据可以为计算机设备的IP地址、移动终端设备的媒体存取控制位址(Media Access Control Address,MAC)、所属行动热点(Wi-Fi)的MAC地址等,本公开对此不作限制。
行为数据,可以为用户在申请某一业务服务时所产生的操作数据。比如,申请注册账号的时间、交易编号、交易时间、交易物品等,本公开对此不作限制。
本公开中,为了保证风险识别的准确性,可以根据一段时间内的各用户对应的业务数据集,判断社区是否为风险社区。比如,每隔一天、一周或一个月,根据近一天、一周或一个月内的业务数据集,进行风险识别分析。
本公开中,当任一用户申请任一业务服务时,服务端可以将每条业务数据,按照业务类型,存储在相应的业务表中,并将各业务表存储在数据仓库中。由此,在进行风险识别时,可以从数据仓库的各业务表中,提取预设时间段内各用户的业务数据,进行风险分析。
步骤102,对每个用户对应的业务数据进行预处理,以确定每个用户对应的媒介向量及行为向量。
本公开中,服务端可以从业务数据集中,提取各用户的媒介数据,并将各用户对应的多种媒介数据整合成字符串,作为用户对应的媒介向量。比如,当用户的媒介数据包括移动终端设备的MAC地址和所使用WIFI的MAC地址时,可以将移动终端设备的MAC地址和所属WIFI的MAC地址进行拼接,作为用户对应的媒介向量。
本公开中,服务端可以从业务数据集中,提取各用户的行为数据,并将每个行为数据中的业务编号、发生时间拼接成字符串,作为用户对应的行为向量。可以理解的是,由于每个行为数据都有对应的发生时间,因此,生成的行为向量可以为时序向量。
步骤103,根据各个媒介向量间的相似度及各个行为向量间的相似度,确定各用户间的边关系。
本公开中,服务端可以对各用户对应的媒介向量,两两计算距离,并利用两向量间的距离来表征相似度,当距离越大时,对应的相似度越小,当距离越小时,对应的相似度越大。当相似度大于预设阈值时,即可在两用户间建立媒介向量对应的边。同理,可以通过相同的方式,建立各用户间行为向量对应的边。由此,通过各个媒介向量间的相似度及各个行为向量间的相似度,建立各用户间的边关系,为后续社区划分过滤了部分无效数据,从而有利于提高风险识别的效率。
可选的,服务端还可以分别对各用户对应的各个媒介向量及各个行为向量,两两进行比较,以确定两用户间的边关系。当两用户对应的媒介向量相同时,可以在两用户之间建立一条媒介向量对应的边。当两用户对应的行为向量相同时,可以在两用户之间建立一条行为向量对应的边。
可以理解的是,通过上述建边方式,两用户间可能存在0-2条边,分别无关联边,或者,存在媒介向量对应的边,或者存在行为向量对应的边,或者既存在媒介向量对应的边又存在行为向量对应的边。
步骤104,根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区。
其中,关系图谱可以包括多个节点、节点间的连接边和各边的属性信息等,其中,一个节点可以代表一个用户,本公开对此不作限制。
本公开中,服务端可以将关系图谱输入到Infomap等社群划分算法中,社群划分算法可以初始化多个起始点,并根据各用户之间的边关系,通过随机游走的方式,将用户划分为多个社区。
步骤105,根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。
其中,边的属性信息可以包括边的类型,边对应的属性信息以及对应的相似度值等,本公开对此不作限制。其中,边的类型可以由建边依据的向量确定。比如,通过计算两用户媒介向量的相似度确定的边,所对应的边的类型可以为媒介边。通过计算两用户行为向量的相似度确定的边,所对应的边的类型可以为行为边。此外,当边的类型为媒介边时,边的属性信息还可以包括此边所连接任一用户的媒介数据,当边的类型为行为边时,边的属性信息还可以包括此边所连接任一用户的行为数据。
本公开中,可以根据各个风险行为的特征,确定各种风险行为对应的社区参考边属性,进而再根据实际社区中的边的属性信息,与参考边属性的关系,确定社区是否为风险社区。
举例来说,在恶意刷单场景中,用户的操作行为相似,那么若某个社区中,行为边的属性信息相同时,则可以认为此社区可能存在恶意刷单行为。
本公开中,服务端在获取预设时间段内的各用户对应的业务数据集后,可以对每个用户对应的业务数据进行预处理,以确定每个用户对应的媒介向量及行为向量,之后根据各个媒介向量间的相似度及各个行为向量间的相似度,确定各用户间的边关系,并根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区,然后再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。由此,通过基于媒介向量与行为向量,在各用户之间的建立边的关系,再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区,从而即简化了风险识别的复杂度,又提高了风险识别的准确度。
图2为本公开实施例所提供的一种风险识别的处理方法的流程图,包括以下步骤:
步骤201,获取预设时间段内的各用户对应的业务数据集,其中,每条业务数据中包括媒介数据及行为数据。
步骤202,对每个用户对应的业务数据进行预处理,以确定每个用户对应的媒介向量及行为向量。
步骤203,根据各个媒介向量间的相似度及各个行为向量间的相似度,确定各用户间的边关系。
本公开中,步骤201-步骤203的具体实现过程,可参见上述实施例的详细描述,在此不再赘述。
步骤204,确定每条行为数据对应的操作对象的属性信息。
本公开中,除了依据业务编号、发生时间等时序相关的行为数据进行风险识别外,还可以依据每条行为数据对应的操作对象的属性信息,进行风险识别,进一步提高风险识别的准确度。
举例来说,在交易场景中,每条行为数据对应的操作对象可以为任一商品,操作对象的属性信息可以为商品标识,商品所属店铺标识,商品参与的活动标识等等,本公开对此不作限制。
其中,商品标识可以为商品编号等任一可以唯一确定商品的信息。商品所属店铺标识可以为店铺编号等任一可以唯一确定店铺的信息。商品参与的活动标识可以为活动申请编号等任一可以唯一确定活动的信息。
本公开中,当任一用户申请任一业务服务时,服务端可以将操作对象的属性信息,与行为数据对应,存储在相应的业务表中。服务端可以通过查询数据库中相应的业务表,获取到每条行为数据对应的操作对象的属性信息。
步骤205,根据操作对象的属性信息,确定每个用户对应的扩展向量。
本公开中,在确定操作对象的属性信息后,可以将操作对象的属性信息转换成字符串向量,并将此字符串向量,作为用户对应的扩展向量。比如,当操作对象的属性信息包括商品标识,商品所属店铺标识,商品参与的活动标识时,可以将商品标识,商品所属店铺标识,商品参与的活动标识拼接成字符串向量,作为用户对应的扩展向量。
可选的,还可以确定每条行为数据对应的账号ID所属的区域,并根据账号ID所属的区域,对操作对象的属性信息做进一步的拓展,从而进一步提高风险识别的准确度。
本公开中,可以对账号ID所属的区域进行编号,并将每个账号ID所属的区域的编号与对应的操作对象的属性信息拼接成字符串向量,作为用户对应的拓展向量。
步骤206,根据各个扩展向量间的相似度,对各用户间的边关系进行更新。
本公开中,服务端可以将各用户对应的扩展向量,两两计算距离,并利用两向量间的距离来表征相似度,当距离越大时,对应的相似度越小,当距离越小时,对应的相似度越大。当相似度大于预设阈值时,即可在两用户间建立扩展向量对应的边。
可以理解的是,根据各个扩展向量间的相似度,对各用户间的边关系进行更新后,两用户间可能存在0-3条边,分别无关联边,或者,存在媒介向量对应的边,或者存在行为向量对应的边,或者,存在扩展向量对应的边,或者存在媒介向量对应的边、行为向量对应的边、扩展向量对应的边中的任意两边,或者既存在媒介向量对应的边、又存在行为向量对应的边、又存在扩展向量对应的边三条边。
步骤207,根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区。
步骤208,根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。
本公开中,步骤207-步骤208的具体实现过程,可参见上述实施例的详细描述,在此不再赘述。
本公开中,服务端根据媒介向量和时序先关的行为向量确定各用户间边关系后,还可以根据操作对象的属性信息,确定每个用户对应的扩展向量,再根据各个扩展向量间的相似度,对各用户间的边关系进行更新,然后再根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区,并根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。从而通过媒介向量、行为向量及扩展向量,在各用户之间的建立边的关系,再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区,进一步提高了风险识别的准确度。
图3为本公开实施例所提供的一种风险识别的处理方法的流程图,包括以下步骤:
步骤301,获取预设时间段内的各用户对应的业务数据集,其中,每条业务数据中包括媒介数据及行为数据。
其中,步骤301的具体实现过程,可参见上述实施例的详细描述,在此不再赘述。
步骤302,将用户对应的每条业务数据中的媒介数据及行为数据分布进行向量映射,以确定用户对应的每个媒介向量及每个行为向量。
在实际应用中,在一段时间内,一个用户可能多次请求业务,因此一个用户可能产生多条业务数据。本公开中,可以根据各用户标识,筛选出设时间段内各用户对应的业务数据,然后,再按照发生时间顺序,将各用户在该预设时间段内各业务数据中的业务编号、发生时间拼接成字符串,从而确定该用户在该预设时间段内对应的行为向量。其中,用户标识可以为用户编号等任一可以唯一确定用户的信息。同理,可以确定各用户在预设时间段内对应的媒介向量。
比如,某一用户在预设时间段内的业务数据包括:注册-9;登录-10;交易-11。则用户在该预设时间段内对应的行为向量可以为“注册-9-登录-10-交易-11”。其中,数字9,10,11为业务发生时间。
通过将预设时间段内各用户的行为数据,按照发生时间顺序,拼接成行为向量,因此,该行为向量包含了业务发生的时序信息,后续根据该行为向量进行风险识别,可以提高风险识别的准确性。
步骤303,在任一媒介向量与另一媒介向量间的相似度大于阈值的情况下,确定任一媒介向量对应的第一用户与另一媒介向量对应的第二用户间具有第一边,其中,第一边的属性信息为任一媒介向量对应的媒介数据。
本公开中,服务端可以取第一用户对应的任一媒介向量,与第二用户对应的另一媒介向量,计算距离,并利用此距离来表征两向量之间的相似度。当距离越大时,对应的相似度越小,当距离越小时,对应的相似度越大。当相似度大于预设阈值时,即可在两用户间建立此媒介向量对应的边,并将此边确定为第一边。同理,可以通过相同的方式,可以将两两用户间的各媒介向量及各行为向量分别进行比较、建边,以确定各用户间对应的边。
可以理解的是,由于第一用户与第二用户都可能对应多个媒介向量,当第一用户与第二用户中有多组媒介向量相似度较高时,第一用户与第二用户之间即可以存在多条媒介边。同理,两用户之间也可能存在多条行为向量对应的边。
步骤304,根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区。
其中,步骤304的具体实现过程,可参见上述实施例的详细描述,在此不再赘述。
步骤305,根据每个社区中各个边的属性信息,分别与预设的参考信息间的匹配度,确定社区是否为具有风险的社区。
本公开中,参考信息可以通过经验人工设置,还可以为系统通过统计各类具有风险行为的特征,自动生成的,本公开对此不作限制。
此外,参考信息可以为任一风险行为的特征,比如,刷单行为对应的参考信息可以为:各用户的行为边的属性信息相同;黄牛行为对应的参考信息可以为:各用户的媒介边的属性信息相同等等,本公开对此不作限制。
本公开中,可以根据预设的参考信息,对每个社区中各个边的属性信息进行统计,当统计结果与预设的参考信息匹配时,可以确定此社区为具有风险的社区。
比如,预设的参考信息为:各用户的媒介边相同时。服务端查询某个社区中所有媒介边的属性信息是否相同,如果相同,则可以确定此社区为具有风险的社区。
本公开中,服务端在获取预设时间段内的各用户对应的业务数据集后,可以将用户对应的每条业务数据中的媒介数据及行为数据分布进行向量映射,以确定用户对应的每个媒介向量及每个行为向量,之后,在任一媒介向量与另一媒介向量间的相似度大于阈值的情况下,确定任一媒介向量对应的第一用户与另一媒介向量对应的第二用户间具有第一边,然后,再根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区,并根据每个社区中各个边的属性信息,分别与预设的参考信息间的匹配度,确定社区是否为具有风险的社区。由此,通过媒介向量与行为向量,在各用户之间的建立边的关系,再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区,在简化算法的复杂度的同时,提高了风险识别的准确度。
图4是根据一示例性实施例示出的一种业务请求的处理装置框图。参照图4,该装置包括获取模块410、确定模块420、建边模块430、划分模块440。
获取模块410,用于获取预设时间段内的各用户对应的业务数据集,其中,每条所述业务数据中包括媒介数据及行为数据;
确定模块420,用于对每个所述用户对应的业务数据进行预处理,以确定每个所述用户对应的媒介向量及行为向量;
建边模块430,还用于根据各个所述媒介向量间的相似度及各个所述行为向量间的相似度,确定所述各用户间的边关系;
划分模块440,用于根据所述各用户间的边关系,将所述关系图谱进行社区划分,以确定所述关系图谱中包含的各个社区;
所述确定模块420,还用于根据每个所述社区中包含的边的属性信息,确定每个所述社区是否为具有风险的社区。
在本公开实施例一种可能的实现方式中,上述确定模块420,还用于:
确定每条所述行为数据对应的操作对象的属性信息;根据所述操作对象的属性信息,确定每个所述用户对应的扩展向量;
上述装置还包括:
更新模块,用于根据各个所述扩展向量间的相似度,对所述各用户间的边关系进行更新。
在本公开实施例一种可能的实现方式中,上述确定模块420,具体用于:
将所述用户对应的每条业务数据中的媒介数据及行为数据分布进行向量映射,以确定所述用户对应的每个媒介向量及每个行为向量。
在本公开实施例一种可能的实现方式中,上述建边模块430,具体用于:
在任一媒介向量与另一媒介向量间的相似度大于阈值的情况下,确定所述任一媒介向量对应的第一用户与所述另一媒介向量对应的第二用户间具有第一边,其中,所述第一边的属性信息为所述任一媒介向量对应的媒介数据。
在本公开实施例一种可能的实现方式中,上述确定模块420,具体用于:
根据每个所述社区中各个边的属性信息,分别与预设的参考信息间的匹配度,确定所述社区是否为具有风险的社区。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开中,服务端在获取预设时间段内的各用户对应的业务数据集后,可以对每个用户对应的业务数据进行预处理,以确定每个用户对应的媒介向量及行为向量,之后根据各个媒介向量间的相似度及各个行为向量间的相似度,确定各用户间的边关系,并根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区,然后再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。由此,通过基于媒介向量与行为向量,在各用户之间的建立边的关系,再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区,从而即简化了风险识别的复杂度,又提高了风险识别的准确度。
图5是根据一示例性实施例示出的一种风险识别的终端设备的框图。
如图5所示,该终端设备500包括:
存储器510及处理器520,连接不同组件(包括存储器510和处理器520)的总线530,存储器510存储有计算机程序,当处理器520执行所述程序时实现本公开实施例所述的业务请求的处理方法。
总线530表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
终端设备500典型地包括多种电子设备可读介质。这些介质可以是任何能够被终端设备600访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器510还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)540和/或高速缓存存储器550。终端设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统560可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线530相连。存储器510可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块570的程序/实用工具580,可以存储在例如存储器510中,这样的程序模块570包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块570通常执行本公开所描述的实施例中的功能和/或方法。
终端设备500也可以与一个或多个外部设备590(例如键盘、指向设备、显示器591等)通信,还可与一个或者多个使得用户能与该终端设备500交互的设备通信,和/或与使得该终端设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口592进行。并且,终端设备500还可以通过网络适配器593与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器593通过总线530与终端设备500的其它模块通信。应当明白,尽管图中未示出,可以结合终端设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器520通过运行存储在存储器510中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的终端设备的实施过程和技术原理参见前述对本公开实施例的业务请求的处理方法的解释说明,此处不再赘述。
本公开中,服务端在获取预设时间段内的各用户对应的业务数据集后,可以对每个用户对应的业务数据进行预处理,以确定每个用户对应的媒介向量及行为向量,之后根据各个媒介向量间的相似度及各个行为向量间的相似度,确定各用户间的边关系,并根据各用户间的边关系,将关系图谱进行社区划分,以确定关系图谱中包含的各个社区,然后再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区。由此,通过基于媒介向量与行为向量,在各用户之间的建立边的关系,再根据每个社区中包含的边的属性信息,确定每个社区是否为具有风险的社区,从而即简化了风险识别的复杂度,又提高了风险识别的准确度。
在示例性实施例中,本公开还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由终端设备的处理器执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序由终端设备的处理器执行时,使得终端设备能够执行如前所述的业务请求的处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种风险识别的方法,其特征在于,包括:
获取预设时间段内的各用户对应的业务数据集,其中,每条所述业务数据中包括媒介数据及行为数据;
对每个所述用户对应的业务数据进行预处理,以确定每个所述用户对应的媒介向量及行为向量;
根据各个所述媒介向量间的相似度及各个所述行为向量间的相似度,确定所述各用户间的边关系;
根据所述各用户间的边关系,将所述关系图谱进行社区划分,以确定所述关系图谱中包含的各个社区;
根据每个所述社区中包含的边的属性信息,确定每个所述社区是否为具有风险的社区。
2.如权利要求1所述的方法,其特征在于,在所述确定所述各用户间的边关系之后,还包括:
确定每条所述行为数据对应的操作对象的属性信息;
根据所述操作对象的属性信息,确定每个所述用户对应的扩展向量;
根据各个所述扩展向量间的相似度,对所述各用户间的边关系进行更新。
3.如权利要求1所述的方法,其特征在于,所述对每个所述用户对应的业务数据进行预处理,以确定每个所述用户对应的媒介向量及行为向量,包括:
将所述用户对应的每条业务数据中的媒介数据及行为数据分布进行向量映射,以确定所述用户对应的每个媒介向量及每个行为向量。
4.如权利要求3所述的方法,其特征在于,所述根据各个所述媒介向量间的相似度及各个所述行为向量间的相似度,确定所述各用户间的边关系,包括:
在任一媒介向量与另一媒介向量间的相似度大于阈值的情况下,确定所述任一媒介向量对应的第一用户与所述另一媒介向量对应的第二用户间具有第一边,其中,所述第一边的属性信息为所述任一媒介向量对应的媒介数据。
5.如权利要求1-4任一所述的方法,其特征在于,所述根据每个所述社区中包含的边的属性信息,确定每个所述社区是否为具有风险的社区,包括:
根据每个所述社区中各个边的属性信息,分别与预设的参考信息间的匹配度,确定所述社区是否为具有风险的社区。
6.一种风险识别的装置,其特征在于,包括
获取模块,用于获取预设时间段内的各用户对应的业务数据集,其中,每条所述业务数据中包括媒介数据及行为数据;
确定模块,用于对每个所述用户对应的业务数据进行预处理,以确定每个所述用户对应的媒介向量及行为向量;
建边模块,还用于根据各个所述媒介向量间的相似度及各个所述行为向量间的相似度,确定所述各用户间的边关系;
划分模块,用于根据所述各用户间的边关系,将所述关系图谱进行社区划分,以确定所述关系图谱中包含的各个社区;
所述确定模块,还用于根据每个所述社区中包含的边的属性信息,确定每个所述社区是否为具有风险的社区。
7.如权利要求6所述的装置,其特征在于,所述确定模块,还用于:
确定每条所述行为数据对应的操作对象的属性信息;根据所述操作对象的属性信息,确定每个所述用户对应的扩展向量;
所述装置还包括:
更新模块,用于根据各个所述扩展向量间的相似度,对所述各用户间的边关系进行更新。
8.如权利要求6所述的装置,其特征在于,所述确定模块,具体用于:
将所述用户对应的每条业务数据中的媒介数据及行为数据分布进行向量映射,以确定所述用户对应的每个媒介向量及每个行为向量。
9.如权利要求8所述的装置,其特征在于,所述建边模块,具体用于:
在任一媒介向量与另一媒介向量间的相似度大于阈值的情况下,确定所述任一媒介向量对应的第一用户与所述另一媒介向量对应的第二用户间具有第一边,其中,所述第一边的属性信息为所述任一媒介向量对应的媒介数据。
10.如权利要求6-9任一所述的装置,其特征在于,所述确定模块,具体用于:
根据每个所述社区中各个边的属性信息,分别与预设的参考信息间的匹配度,确定所述社区是否为具有风险的社区。
11.一种终端设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-5中任一项所述的风险识别的方法。
12.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由终端设备的处理器执行时,使得终端设备能够执行如权利要求1-5中任一项所述的风险识别的方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的风险识别的方法。
CN202210431364.XA 2022-04-22 2022-04-22 风险识别的方法、装置及终端设备 Pending CN114781517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210431364.XA CN114781517A (zh) 2022-04-22 2022-04-22 风险识别的方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210431364.XA CN114781517A (zh) 2022-04-22 2022-04-22 风险识别的方法、装置及终端设备

Publications (1)

Publication Number Publication Date
CN114781517A true CN114781517A (zh) 2022-07-22

Family

ID=82430560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210431364.XA Pending CN114781517A (zh) 2022-04-22 2022-04-22 风险识别的方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN114781517A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391670A (zh) * 2022-11-01 2022-11-25 南京嘉安网络技术有限公司 一种基于知识图谱的互联网行为分析方法与系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391670A (zh) * 2022-11-01 2022-11-25 南京嘉安网络技术有限公司 一种基于知识图谱的互联网行为分析方法与系统

Similar Documents

Publication Publication Date Title
CN108399564B (zh) 信用评分方法及装置
CN110224859B (zh) 用于识别团伙的方法和系统
CN110795584B (zh) 一种用户标识生成方法、装置及终端设备
CN109740129B (zh) 基于区块链的报表生成方法、装置、设备及可读存储介质
CN105721629A (zh) 用户标识匹配方法和装置
CN111666346A (zh) 信息归并方法、交易查询方法、装置、计算机及存储介质
CN110796269B (zh) 一种生成模型的方法、装置、信息处理的方法及装置
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN109408522A (zh) 一种用户特征数据的更新方法和装置
CN110798467A (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN110941978A (zh) 一种未识别身份人员的人脸聚类方法、装置及存储介质
CN112800197A (zh) 一种目标故障信息的确定方法和装置
CN111177481B (zh) 用户标识映射方法及装置
CN107871277B (zh) 服务器、客户关系挖掘的方法及计算机可读存储介质
CN112860993A (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN113556368A (zh) 用户识别方法、装置、服务器及存储介质
CN114781517A (zh) 风险识别的方法、装置及终端设备
CN112100452B (zh) 数据处理的方法、装置、设备及计算机可读存储介质
CN106779899B (zh) 恶意订单识别方法及装置
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN115936758A (zh) 基于大数据的智能拓客方法及相关装置
CN111339373B (zh) 一种图谱特征的提取方法、系统、计算机设备和存储介质
CN114443493A (zh) 一种测试案例生成方法、装置、电子设备和存储介质
CN113923190A (zh) 设备标识跳变的识别方法及装置、服务器及存储介质
CN112347102A (zh) 多表拼接方法和多表拼接装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination