CN115205025A - 风险账户识别方法、装置、计算机设备和存储介质 - Google Patents

风险账户识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115205025A
CN115205025A CN202210823702.4A CN202210823702A CN115205025A CN 115205025 A CN115205025 A CN 115205025A CN 202210823702 A CN202210823702 A CN 202210823702A CN 115205025 A CN115205025 A CN 115205025A
Authority
CN
China
Prior art keywords
risk
account
data
accounts
community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210823702.4A
Other languages
English (en)
Inventor
刘恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210823702.4A priority Critical patent/CN115205025A/zh
Publication of CN115205025A publication Critical patent/CN115205025A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种人工智能领域的风险账户识别方法、装置、计算机设备和存储介质。所述方法包括:根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数据;将所述待识别账户风险数据输入至预先训练的风险账户识别模型中,预测风险账户;对所述风险账户进行局部社区挖掘处理,得到所述风险账户对应的风险账户社区。采用本方法能够提高风险账户的识别准确性。

Description

风险账户识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种风险账户识别方法、装置、 计算机设备、存储介质和计算机程序产品。
背景技术
随着通信技术的发展,人们越来越习惯于利用互联网处理各种工作和生活 事项,互联网本身具有的匿名、快速、便捷等特点,在极大的便利人们生活的 同时,也为非法分子通过注册的风险账户实施各种非法行为,如欺诈等行为提 供了有利条件,对合法账户的利益造成了损害。传统方式,是基于专家规则来 识别风险账户,过于依赖人工经验。
然而,随着时间的推移,非法分子的手段越发复杂、多变,导致传统方式 识别风险账户的准确性较低。因此,如何提高风险账户的识别准确性成为目前 需要解决的一个技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高风险账户的识别准 确性的风险账户识别方法、装置、计算机设备、计算机可读存储介质和计算机 程序产品。
第一方面,本申请提供了一种风险账户识别方法。所述方法包括:
根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数 据;
将所述待识别账户风险数据输入至预先训练的风险账户识别模型中,预测 风险账户;
对所述风险账户进行局部社区挖掘处理,得到所述风险账户对应的风险账 户社区。
在其中一个实施例中,所述对所述风险账户进行局部社区挖掘处理,得到 所述风险账户对应的风险账户社区包括:
对所述风险账户进行局部社区挖掘,识别与所述风险账户相关联的关联账 户;
根据所述风险账户以及所述关联账户构建社区网络图;
根据所述社区网络图对所述风险账户以及对应的关联账户进行分类,得到 所述风险账户对应的风险账户社区。
在其中一个实施例中,所述根据所述社区网络图对所述风险账户以及所述 关联账户进行分类,得到所述风险账户对应的风险账户社区包括:
根据所述社区网络图计算所述关联账户的关联值;
根据所述关联值以及预设筛选条件对所述风险账户以及所述关联账户进行 分类,得到所述风险账户对应的风险账户社区。
在其中一个实施例中,所述根据所述关联值以及预设筛选条件对所述风险 账户以及所述关联账户进行分类,得到所述风险账户对应的风险账户社区包括:
将所述关联值按照预设排列顺序进行排序;
根据排序后的关联值以及预设筛选条件在所述关联账户中确定目标关联账 户;
将所述目标关联账户以及所述目标关联账户对应的风险账户划分为同一个 风险账户社区,得到所述风险账户对应的风险账户社区。
在其中一个实施例中,在所述根据预先构建的风险特征指标库在账户历史 数据中获取待识别账户风险数据之前,所述方法还包括:
根据预设风险指标对所述账户历史数据进行统计分析,得到所述预设风险 指标对应的数据分布;
根据所述数据分布在所述预设风险指标中筛选目标风险指标;
根据所述账户历史数据、所述目标风险指标以及对应的指标数据构建风险 特征指标库。
在其中一个实施例中,在所述根据所述账户历史数据、所述目标风险指标 以及对应的指标数据构建风险特征指标库之前,所述方法还包括:
对所述账户历史数据以及所述目标风险指标对应的指标数据进行清洗处 理;
所述根据所述账户历史数据、所述目标风险指标以及对应的指标数据构建 风险特征指标库包括:
根据所述目标风险指标以及清洗处理后的数据构建风险特征指标库。
第二方面,本申请还提供了一种风险账户识别装置。所述装置包括:
风险数据获取模块,用于根据预先构建的风险特征指标库在账户历史数据 中获取待识别账户风险数据;
风险账户识别模块,用于将所述待识别账户风险数据输入至预先训练的风 险账户识别模型中,预测风险账户;
社区挖掘模块,用于对所述风险账户进行局部社区挖掘处理,得到所述风 险账户对应的风险账户社区。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器 和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时 实现以下步骤:
根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数 据;
将所述待识别账户风险数据输入至预先训练的风险账户识别模型中,预测 风险账户;
对所述风险账户进行局部社区挖掘处理,得到所述风险账户对应的风险账 户社区。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存 储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步 骤:
根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数 据;
将所述待识别账户风险数据输入至预先训练的风险账户识别模型中,预测 风险账户;
对所述风险账户进行局部社区挖掘处理,得到所述风险账户对应的风险账 户社区。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品, 包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数 据;
将所述待识别账户风险数据输入至预先训练的风险账户识别模型中,预测 风险账户;
对所述风险账户进行局部社区挖掘处理,得到所述风险账户对应的风险账 户社区。
上述风险账户识别方法、装置、计算机设备、存储介质和计算机程序产品, 根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数据, 能够获取到用于准确识别风险账户的有效账户风险数据,避免冗余数据的影响。 将待识别账户风险数据输入至预先训练的风险账户识别模型中,预测风险账户, 能够准确识别风险账户。对风险账户进行局部社区挖掘处理,得到风险账户对 应的风险账户社区,能够有效定位相关风险账户社区,实现风险账户的从点到 群,提高了风险账户的识别准确性。
附图说明
图1为一个实施例中风险账户识别方法的应用环境图;
图2为一个实施例中风险账户识别方法的流程示意图;
图3为一个实施例中构建风险特征指标库的步骤的流程示意图;
图4为一个实施例中社区网络图的示意图;
图5为一个实施例中对图4所示的社区网络图进行分类得到的风险账户社 区示意图;
图6为另一个实施例中风险账户识别方法的流程示意图;
图7为一个实施例中风险账户识别装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅 用以解释本申请,并不用于限定本申请。
本申请实施例提供的风险账户识别方法,可以应用于如图1所示的应用环 境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存 储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可 以放在云上或其他网络服务器上。服务器104获取终端102发送的风险账户识 别请求,对风险账户识别请求进行解析,得到待识别账户标识。从而服务器104 根据预先构建的风险特征指标库在账户历史数据中获取待识别账户标识对应的 待识别账户风险数据,将待识别账户风险数据输入至预先训练的风险账户识别 模型中,预测风险账户,进而对风险账户进行局部社区挖掘处理,得到风险账户对应的风险账户社区。其中,终端102可以但不限于是各种个人计算机、笔 记本电脑、智能手机、平板电脑。服务器104可以用独立的服务器或者是多个 服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种风险账户识别方法,以该方法 应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,根据预先构建的风险特征指标库在账户历史数据中获取待识别账 户风险数据。
其中,风险特征指标库是指在大量的风险指标中进行指标筛选得到的风险 特征指标库。账户历史数据是指与账户相关的历史数据。待识别账户风险数据 是指与风险特征指标库对应的,用于进行风险账户识别的账户历史数据。账户 可以是指账户在金融机构设立的银行账户。
具体地,服务器获取终端发送的风险账户识别请求,对风险账户识别请求 进行解析,得到待识别账户标识。其中,待识别账户标识是指用于区分待识别 账户的唯一标识,如账号。待识别账户是指需要进行风险账户识别的账户。风 险账户识别是指识别账户是否实施了非法行为,如诈骗、销赃、非正常金融行 为等。
服务器的数据库中存储有多个账户标识以及各账户标识对应的账户历史数 据。账户历史数据可以包括账户基本数据、账户资产数据以及账户历史资源转 移数据。账户基础数据可以包括性别、年龄、职业、婚姻状况、教育程度、归 属单位种类、行政级别、星级指标等。账户资产数据可以包括预设时间段内的 平均存款,如近3、6、12个月的月均存款以及日均存款、预设时间段内的消费 金额,如近3、6、12个月的消费金额(包括借记卡和信用卡)、是否为贷款账 户,是否为信用卡账户等。账户历史资源转移数据可以是账户历史交易数据, 账户历史交易数据可以包括账户历史交易金额、交易渠道、交易时间、交易工 具、交易对手等数据。
风险特征指标库可以是基于上述数据库中存储的账户历史数据统计分析得 到的,之后,服务器可以将风险特征指标库存储至数据库中。服务器预先构建 的风险特征指标库中可以包括多个目标风险指标。各目标风险指标是指能够准 确区分正常账户和风险账户的特征。例如,目标风险指标可以包括账户基本数 据风险、交易渠道风险、时间风险、小金额交易频繁风险、交易摘要风险、日 常风险、账户余额风险、交易资金快进快出风险以及交易工具风险。
在解析得到待识别账户标识后,服务器根据预先构建的风险特征指标库在 数据库存储的账户历史数据中获取待识别账户标识对应的待识别账户风险数 据。可选地,服务器可以先在数据库存储的账户历史数据中确定待识别账户标 识对应的账户历史数据,从而在确定的账户历史数据中获取预先构建的风险特 征指标库对应的待识别账户风险数据。
进一步地,风险特征指标库中的目标风险指标具有对应的指标数据,指标 数据是指各指标所表示的含义,用于识别是否存在目标风险指标所表示的风险。 服务器从而在确定的账户历史数据中获取风险特征指标库中的指标数据对应的 待识别账户风险数据。由此得到的待识别账户风险数据是与上述指标数据相对 应的,能够更准确地识别风险账户。
可以理解的是,待识别账户风险数据可以是待识别账户标识对应的账户历 史数据中的部分数据,且是能够准确识别风险账户的有效风险数据。
可选地,待识别账户标识可以是数据库中多个账户标识中的部分账户标识, 也可以是数据库中的全部账户标识,本实施例中不作限定。
步骤204,将待识别账户风险数据输入至预先训练的风险账户识别模型中, 预测风险账户。
服务器中存储有预先训练的风险账户识别模型。风险账户识别模型是通过 大量的样本账户数据训练得到的。样本账户数据可以包括风险账户数据以及正 常账户数据。例如,风险账户识别模型可以是随机森林(Random Forest,简称 RF)模型。
服务器调用预先训练的风险账户识别模型,将获取到的待识别账户风险数 据输入至风险账户识别模型中,通过风险账户识别模型对待识别账户数据进行 风险预测,输出风险账户识别结果。风险账户识别结果中可以包括风险账户以 及正常账户。
具体地,通过风险账户识别模型对待识别账户数据进行风险预测包括:通 过风险账户识别模型预测待识别账户数据是否存在预设风险。预设风险可以是 与风险特征指标库中的目标风险指标相对应的风险,包括账户基本数据风险、 交易渠道风险、时间风险、小金额交易频繁风险、交易摘要风险、日常风险、 账户余额风险、交易资金快进快出风险以及交易工具风险。当待识别账户数据 存在预设风险中的任意一种风险时,确定待识别账户为风险账户。
进一步地,每种预设风险均具有对应的风险阈值,将待识别账户数据与风 险阈值进行比,根据比对结果确定相应的待识别账户数据存在预设风险。风险 阈值可以根据业务需求通过业务专家讨论决定,如强监管下,将风险阈值设置 的小一些,筛选出的风险账户就会更多,弱监管下,将风险阈值设置的大一些, 筛选的风险账户就会更少。
示例性地,账户基本数据风险用于表示账户七要素特征是否齐全,七要素 特征包括:账户姓名、身份证号、手机号、家庭住址、职业、单位名称、教育 程度。若七要素特征缺失三个及以上,则该待识别账户存在账户基本数据风险。 交易渠道风险是指过去一年内账户无柜面交易,或者通过线上渠道,如网银、 手机等渠道完成的交易量大于渠道风险阈值。如渠道风险阈值可以是95%。时 间风险是指过去一年中周一至周五的交易量占比大于第一时间风险阈值,如 85%,以及,21:00-7:00(交易多发生在夜晚)时段所发生的交易量占比大于第 二时间风险阈值,如75%。小金额交易频繁风险是指过去一年转账金额小于100 元的占比大于小金额风险阈值,如70%,或者,发生1分钱交易次数大于次数 阈值,如20次。交易摘要风险是指过去一年内附言内容较为奇怪的交易笔数超 过摘要风险阈值,如10笔。例如,较为奇怪的附言内容可以是“风险账户识别 请告诉XX入账金、充值、字母加数字、数字串、手机号、英文字母、会员、ID 注释、会费”等。日常风险是指过去一年待识别账户均未发生代发工资、信用 卡消费、借记卡消费交易等。账户余额风险是指预设时间段内,如过去3、6、 12个月的账户日均留存资金少于余额风险阈值,如1000元。交易资金快进快出 风险是指过去一年内,存在某三天内累计转账的对公账户数量大于第一预设阈 值,如20个,或者个人转账数量大于第二预设阈值,如50个。上述转账的业 务不包括批量或代发业务。交易工具风险是指过去一年内,待识别账户登录设 备的数量大于第一数量阈值,如15个,或某一设备登录的账户数量大于第二数 量阈值,如10个。
步骤206,对风险账户进行局部社区挖掘处理,得到风险账户对应的风险账 户社区。
其中,风险账户社区是指风险账户以及与风险账户存在密切关系的账户所 组成的局部风险社区。
服务器可以对风险账户进行局部社区挖掘,识别与风险账户相关联的关联 账户。关联账户是指与风险账户存在密切关系的账户。密切关系可以包括存在 资源转移链接、合作关系、具有相同的账户数据等。从而对风险账户以及关联 账户进行分类,得到风险账户对应的风险账户社区。
上述风险账户识别方法中,根据预先构建的风险特征指标库在账户历史数 据中获取待识别账户风险数据,能够获取到用于准确识别风险账户的有效账户 风险数据,避免冗余数据的影响。将待识别账户风险数据输入至预先训练的风 险账户识别模型中,预测风险账户,能够准确识别风险账户。对风险账户进行 局部社区挖掘处理,得到风险账户对应的风险账户社区,能够有效定位相关风 险账户社区,实现风险账户的从点到群,提高了风险账户的识别准确性。
在一个实施例中,如图3所示,在根据预先构建的风险特征指标库在账户 历史数据中获取待识别账户风险数据之前,上述方法还包括:构建风险特征指 标库的步骤,该步骤具体可以包括:
步骤302,根据预设风险指标对账户历史数据进行统计分析,得到预设风险 指标对应的数据分布。
步骤304,根据数据分布在预设风险指标中筛选目标风险指标。
步骤306,根据账户历史数据、目标风险指标以及对应的指标数据构建风险 特征指标库。
其中,预设风险指标是人工预先设计的指标。目标风险指标是指能够准确 区分风险账户以及正常账户的指标。指标数据是指各指标所表示的含义。用于 识别是否存在目标风险指标所表示的风险。
服务器在构建风险特征指标库的过程中,首先在数据库中获取多个账户的 账户历史数据。账户历史数据可以包括账户基本数据、账户资产数据以及账户 历史资源转移数据。服务器中预先设计有预设风险指标,由于预设风险指标是 人工预先设计的,可能包含较多无法准确区分风险账户以及正常账户的无效指 标。因此,服务器可以在预设风险指标中筛选能够准确区分风险账户以及正常 账户的指标。
具体地,服务器根据预设风险指标对账户历史数据进行统计分析,得到每 一个预设风险指标对应的数据分布。例如,数据分布可以是概率分布。获取历 史经验数据,以及历史风险账户的特征数据,根据历史经验数据以及历史风险 账户的特征数据在数据分布中筛选分布较集中的风险指标,作为目标风险指标。 目标风险指标可以包括账户基本数据风险、交易渠道风险、时间风险、小金额 交易频繁风险、交易摘要风险、日常风险、账户余额风险、交易资金快进快出 风险以及交易工具风险。进而根据账户历史数据、目标风险指标以及对应的指 标数据构建风险特征指标库。
可选地,当账户存在目标风险指标所表示的风险时,可以将目标风险指标 的指标变量值设置为1,否则,设置为0。以便快速确定账户存在的风险。
在本实施例中,根据预设风险指标对账户历史数据进行统计分析,从而根 据统计得到的数据分布在预设风险指标中筛选目标风险指标,进而根据目标风 险指标以及对应的指标数据构建风险特征指标库。由于目标风险指标是能够准 确区分风险账户以及正常账户的指标,由此构建的风险特征指标库也是能够准 确获取账户风险数据的指标库,进一步提高了风险账户识别的准确性。
进一步地,在根据账户历史数据、目标风险指标以及对应的指标数据构建 风险特征指标库之前,上述方法还包括:对账户历史数据以及目标风险指标对 应的指标数据进行清洗处理;根据目标风险指标以及清洗处理后的数据构建风 险特征指标库。
具体地,服务器可以分别账户历史数据以及目标风险指标对应的指标数据 进行特征提取,得到账户历史数据对应的账户特征,以及目标风险指标对应的 指标特征,根据指标特征以及账户特征生成账户的数据表。账户的数据表可以 表示为
Figure BDA0003745522810000101
其中,1≤i≤N,N表示获取的账 户历史数据对应的账户的数量,a表示第i个账户的账户历史数据的账户特征, b表示目标风险指标的指标特征。
从而对数据宽表进行清洗处理,清洗处理可以包括对离散特征变量进行量 化、合并、删除等处理,对连续特征变量进行同类填充和剔除离群点等操作以 及对奇异值和缺失值进行删除和填充。为考虑变量的多样性和可解释性,清洗 处理还可以包括在原有变量的基础上进行变量衍生,对衍生的变量以及原有变 量进行one-hot编码。进而服务器可以根据目标风险指标以及清洗处理后的数据 构建风险特征指标库。
在本实施例中,通过对账户历史数据以及目标风险指标对应的指标数据进 行清洗处理,进一步提高了风险特征指标库的准确性。
更进一步地,上述方法还包括:训练风险账户识别模型的步骤,具体可以 包括:获取样本数据集;根据样本数据集对待训练的风险账户识别模型进行训 练,直至满足训练停止条件,得到预先训练的风险账户识别模型。
具体地,服务器可以在数据库中获取第一数量的风险账户的账户数据,以 及在未知是否为风险账户中随机抽取第二数量的未知账户的账户数据,将获取 的上述数据组成样本数据集。例如,第一预设数量可以为M个,第二预设数量 可以为3*M个。
将样本数据集输入至待训练的风险账户识别模型中进行训练。例如,待训 练的风险账户识别模型可以是随机森林(Random Forest,简称RF)模型。在训 练过程中调整模型参数,直至满足训练停止条件。训练停止条件可以是模型参 数为最佳参数。例如,可以通过网格搜索法,如gridSearchCV,确认模型的最 佳参数,包括RF的深度、叶子数、最大迭代次数等,得到最优参数下的RF模 型。
在本实施例中,根据风险账户的账户数据以及未知账户的账户数据训练风 险账户识别模型,能够提高风险账户识别模型的识别准确性。
在一个实施例中,对风险账户进行局部社区挖掘处理,得到风险账户对应 的风险账户社区包括:对风险账户进行局部社区挖掘,识别与风险账户相关联 的关联账户;根据风险账户以及关联账户构建社区网络图;根据社区网络图对 风险账户以及关联账户进行分类,得到风险账户对应的风险账户社区。
服务器可以采用现有的局部社区挖掘算法,以风险账户为起点,进行局部 社区挖掘,识别与风险账户相关联的关联账户。具体地,服务器可以获取风险 账户的资源转移网络,例如,资源转移网络可以是上下游等资金交易网络。通 过局部社区挖掘算法对风险账户以及风险账户的资源转移网络进行全面筛查, 识别与风险账户相关联的关联账户。关联账户可以是与风险账户存在资源转移 链接、合作关系、具有相同的账户数据等的账户,例如,资源转移链接可以是 资金流量链接,如首付款账户,合作关系可以是法人客户关系,具有相同的账 户数据可以是相同手机号、相同IP地址(Internet Protocol Address,互联网协议 地址)、相同MAC地址(Media Access Control Address,局域网地址)等。
从而可以通过预先构建的仓库内客户社区网络(Graph Generator),根据风 险账户以及关联账户构建社区网络图。社区网络图中包括多个节点,各节点分 别表示不同的账户。节点之间的边表示账户之间存在密切关系,如风险账户与 相关联的关联账户通过一条边来连接。社区网络图的示意图可以如图4所示, 其中,节点A1、A2、A3和A4表示风险账户对应的黑种子节点,节点B1至 B12表示关联账户对应的关联节点。
服务器根据社区网络图对风险账户以及对应的关联账户进行分类,将与风 险账户紧密程度较高的关联账户划分至风险账户所在的社区,从而得到多个风 险账户社区。风险账户社区中可以包括风险账户以及异常账户。一个风险账户 社区中可以包括一个或者多个风险账户。异常账户是指风险疑似账户。
本实施例中,通过对风险账户进行局部社区挖掘,以及构建社区网络图, 由于账户社区挖掘更有针对性,以明确的风险账户为起点,计算消耗小,能快 速、准确挖掘出团伙式活动的风险账户社区,大大节省了人力,提高了识别风 险账户的效率和概率。
在一个实施例中,根据社区网络图对风险账户以及关联账户进行分类,得 到风险账户对应的风险账户社区包括:根据社区网络图计算关联账户的关联值; 根据关联值以及预设筛选条件对风险账户以及关联账户进行分类,得到风险账 户对应的风险账户社区。
服务器可以采用基于Personalized PageRank(个性化网页排名)的局部社区 挖掘算法,计算社区网络图中关联账户的关联值。关联值用于表示关联账户相 对于风险账户的相关度。例如,关联值可以是PPR值(Personalized PageRank, 个性化网页排名值)。具体地,将风险账户作为黑种子节点,通过随机游走的 方式,计算各关联账户相对于风险账户的关联值。关联值的高低反映了社区网 络图中节点与黑种子节点的紧密程度,PPR值越高越能体现关联紧密。
根据各关联账户的关联值以及预设筛选条件,对风险账户以及关联账户进 行分类,得到风险账户对应的风险账户社区。预设筛选条件是指用于评价将关 联账户与风险账户划分至同一风险账户社区的条件。例如,预设筛选条件可以 是关联账户与风险账户划分至同一风险账户社区后,使得电阻率减小。如图5 所示,为对图4所示的社区网络图进行分类得到的风险账户社区示意图。
进一步地,根据关联值以及预设筛选条件对风险账户以及关联账户进行分 类,得到风险账户对应的风险账户社区包括:将关联值按照预设排列顺序进行 排序;根据排序后的关联值以及预设筛选条件在关联账户中确定目标关联账户; 将目标关联账户以及目标关联账户对应的风险账户划分为同一个风险账户社 区,得到风险账户对应的风险账户社区。
服务器可以将同一个风险账户对应的多个关联账户的关联值预设排列顺序 进行排序。例如,预设排列顺序可以是由高到低的顺序。服务器可以将各风险 账户作为初始社区,根据现有的电导率计算方式,按照排序后的关联值依次计 算各关联账户加入对应风险账户所在的初始社区后,该社区的电导率,根据计 算的电导率识别各关联账户是否满足预设筛选条件,若满足,则将该关联账户 确定为目标关联账户。预设筛选条件可以是关联账户与风险账户划分至同一风 险账户社区后,使得电阻率减小。目标关联账户是指风险疑似账户。将目标关 联账户划分至对应风险账户所在的初始社区,从而实现将目标关联账户以及目 标关联账户对应的风险账户划分为同一个风险账户社区,按照上述社区分类方 式对风险账户以及关联账户进行分类,当所有风险账户对应的关联账户中均不 存在满足预设筛选条件的目标关联账户时,风险账户社区划分完成,从而得到 风险账户对应的风险账户社区。
可选地,服务器还可以识别不同的风险账户社区中是否存在相同的风险账 户,若是,则将存在相同风险账户的风险账户社区进行合并。
在本实施例中,根据排序后的关联值以及预设筛选条件在关联账户中确定 目标关联账户,将目标关联账户以及目标关联账户对应的风险账户划分为同一 个风险账户社区,得到风险账户对应的风险账户社区。能准确地识别出团伙中 隐蔽的而又与团伙中风险账户联系密切的风险疑似账户,大大提高了风险账户 社区的定位准确性。
在另一个实施例中,如图6所示,提供了一种风险账户识别方法,包括以 下步骤:
步骤602,根据预设风险指标对账户历史数据进行统计分析,得到预设风险 指标对应的数据分布。
步骤604,根据数据分布在预设风险指标中筛选目标风险指标。
步骤606,对账户历史数据以及目标风险指标对应的指标数据进行清洗处 理。
步骤608,根据目标风险指标以及清洗处理后的数据构建风险特征指标库。
步骤610,根据预先构建的风险特征指标库在账户历史数据中获取待识别账 户风险数据。
步骤612,将待识别账户风险数据输入至预先训练的风险账户识别模型中, 预测风险账户。
步骤614,对风险账户进行局部社区挖掘,识别与风险账户相关联的关联账 户。
步骤616,根据风险账户以及关联账户构建社区网络图。
步骤618,根据社区网络图计算关联账户的关联值。
步骤620,将关联值按照预设排列顺序进行排序。
步骤622,根据排序后的关联值以及预设筛选条件在关联账户中确定目标关 联账户。
步骤624,将目标关联账户以及目标关联账户对应的风险账户划分为同一个 风险账户社区,得到风险账户对应的风险账户社区。
在本实施例中,由于目标风险指标是能够准确区分风险账户以及正常账户 的指标,由此构建的风险特征指标库也是能够准确获取账户风险数据的指标库, 进一步提高了风险账户识别的准确性。通过对账户历史数据以及目标风险指标 对应的指标数据进行清洗处理,进一步提高了风险特征指标库的准确性。通过 对风险账户进行局部社区挖掘,以及构建社区网络图,由于账户社区挖掘更有 针对性,以明确的风险账户为起点,计算消耗小,能快速、准确挖掘出团伙式 活动的风险账户社区,大大节省了人力,提高了识别风险账户的效率和概率。 根据排序后的关联值以及预设筛选条件在关联账户中确定目标关联账户,将目 标关联账户以及目标关联账户对应的风险账户划分为同一个风险账户社区,得到风险账户对应的风险账户社区,能够有效定位相关风险账户社区,实现风险 账户的从点到群,从而准确地识别出团伙中隐蔽的而又与团伙中风险账户联系 密切的风险疑似账户,提高了风险账户的识别准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按 照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执 行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些 步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的 至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然 是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执 行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者 阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的 风险账户识别方法的风险账户识别装置。该装置所提供的解决问题的实现方案 与上述方法中所记载的实现方案相似,故下面所提供的一个或多个风险账户识 别装置实施例中的具体限定可以参见上文中对于风险账户识别方法的限定,在 此不再赘述。
在一个实施例中,如图7所示,提供了一种风险账户识别装置,包括:风 险数据获取模块702、风险账户识别模块704和社区挖掘模块706,其中:
风险数据获取模块702,用于根据预先构建的风险特征指标库在账户历史数 据中获取待识别账户风险数据。
风险账户识别模块704,用于将待识别账户风险数据输入至预先训练的风险 账户识别模型中,预测风险账户。
社区挖掘模块706,用于对风险账户进行局部社区挖掘处理,得到风险账户 对应的风险账户社区。
在一个实施例中,社区挖掘模块706还包括:
关联账户识别模块,用于对风险账户进行局部社区挖掘,识别与风险账户 相关联的关联账户;
社区网络构建模块,用于根据风险账户以及关联账户构建社区网络图;
社区划分模块,用于根据社区网络图对风险账户以及对应的关联账户进行 分类,得到风险账户对应的风险账户社区。
在一个实施例中,社区划分模块还用于根据社区网络图计算关联账户的关 联值;根据关联值以及预设筛选条件对风险账户以及关联账户进行分类,得到 风险账户对应的风险账户社区。
在一个实施例中,社区划分模块还用于将关联值按照预设排列顺序进行排 序;根据排序后的关联值以及预设筛选条件在关联账户中确定目标关联账户; 将目标关联账户以及目标关联账户对应的风险账户划分为同一个风险账户社 区,得到风险账户对应的风险账户社区。
在一个实施例中,上述装置还包括:
风险特征指标库构建模块,用于根据预设风险指标对账户历史数据进行统 计分析,得到预设风险指标对应的数据分布;根据数据分布在预设风险指标中 筛选目标风险指标;根据账户历史数据、目标风险指标以及对应的指标数据构 建风险特征指标库。
在一个实施例中,上述装置还包括:
数据清洗模块,用于对账户历史数据以及目标风险指标对应的指标数据进 行清洗处理;
风险特征指标库构建模块,还用于根据目标风险指标以及清洗处理后的数 据构建风险特征指标库。
上述风险账户识别装置中的各个模块可全部或部分通过软件、硬件及其组 合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中, 也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以 上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器, 其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出 接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出 接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中, 该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括 非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机 程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的 运行提供环境。该计算机设备的数据库用于存储风险特征指标库、账户历史数 据、风险账户识别模型等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通 信。该计算机程序被处理器执行时以实现一种风险账户识别方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器 中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数 据;
将待识别账户风险数据输入至预先训练的风险账户识别模型中,预测风险 账户;
对风险账户进行局部社区挖掘处理,得到风险账户对应的风险账户社区。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对风险账户 进行局部社区挖掘,识别与风险账户相关联的关联账户;根据风险账户以及关 联账户构建社区网络图;根据社区网络图对风险账户以及对应的关联账户进行 分类,得到风险账户对应的风险账户社区。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据社区网 络图计算关联账户的关联值;根据关联值以及预设筛选条件对风险账户以及关 联账户进行分类,得到风险账户对应的风险账户社区。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将关联值按 照预设排列顺序进行排序;根据排序后的关联值以及预设筛选条件在关联账户 中确定目标关联账户;将目标关联账户以及目标关联账户对应的风险账户划分 为同一个风险账户社区,得到风险账户对应的风险账户社区。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据预设风 险指标对账户历史数据进行统计分析,得到预设风险指标对应的数据分布;根 据数据分布在预设风险指标中筛选目标风险指标;根据账户历史数据、目标风 险指标以及对应的指标数据构建风险特征指标库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对账户历史 数据以及目标风险指标对应的指标数据进行清洗处理;根据目标风险指标以及 清洗处理后的数据构建风险特征指标库。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算 机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的账户信息(包括但不限于账户设备信息、 账户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示 的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数 据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一 种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、 软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、 磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器 (Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase ChangeMemory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器 (Random AccessMemory,RAM)或外部高速缓冲存储器等。作为说明而非局 限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory, DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库 和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数 据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计 算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和 改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利 要求为准。

Claims (10)

1.一种风险账户识别方法,其特征在于,所述方法包括:
根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数据;
将所述待识别账户风险数据输入至预先训练的风险账户识别模型中,预测风险账户;
对所述风险账户进行局部社区挖掘处理,得到所述风险账户对应的风险账户社区。
2.根据权利要求1所述的方法,其特征在于,所述对所述风险账户进行局部社区挖掘处理,得到所述风险账户对应的风险账户社区包括:
对所述风险账户进行局部社区挖掘,识别与所述风险账户相关联的关联账户;
根据所述风险账户以及所述关联账户构建社区网络图;
根据所述社区网络图对所述风险账户以及对应的关联账户进行分类,得到所述风险账户对应的风险账户社区。
3.根据权利要求2所述的方法,其特征在于,所述根据所述社区网络图对所述风险账户以及所述关联账户进行分类,得到所述风险账户对应的风险账户社区包括:
根据所述社区网络图计算所述关联账户的关联值;
根据所述关联值以及预设筛选条件对所述风险账户以及所述关联账户进行分类,得到所述风险账户对应的风险账户社区。
4.根据权利要求2所述的方法,其特征在于,所述根据所述关联值以及预设筛选条件对所述风险账户以及所述关联账户进行分类,得到所述风险账户对应的风险账户社区包括:
将所述关联值按照预设排列顺序进行排序;
根据排序后的关联值以及预设筛选条件在所述关联账户中确定目标关联账户;
将所述目标关联账户以及所述目标关联账户对应的风险账户划分为同一个风险账户社区,得到所述风险账户对应的风险账户社区。
5.根据权利要求1至4任意一项所述的方法,其特征在于,在所述根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数据之前,所述方法还包括:
根据预设风险指标对所述账户历史数据进行统计分析,得到所述预设风险指标对应的数据分布;
根据所述数据分布在所述预设风险指标中筛选目标风险指标;
根据所述账户历史数据、所述目标风险指标以及对应的指标数据构建风险特征指标库。
6.根据权利要求5所述的方法,其特征在于,在所述根据所述账户历史数据、所述目标风险指标以及对应的指标数据构建风险特征指标库之前,所述方法还包括:
对所述账户历史数据以及所述目标风险指标对应的指标数据进行清洗处理;
所述根据所述账户历史数据、所述目标风险指标以及对应的指标数据构建风险特征指标库包括:
根据所述目标风险指标以及清洗处理后的数据构建风险特征指标库。
7.一种风险账户识别装置,其特征在于,所述装置包括:
风险数据获取模块,用于根据预先构建的风险特征指标库在账户历史数据中获取待识别账户风险数据;
风险账户识别模块,用于将所述待识别账户风险数据输入至预先训练的风险账户识别模型中,预测风险账户;
社区挖掘模块,用于对所述风险账户进行局部社区挖掘处理,得到所述风险账户对应的风险账户社区。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210823702.4A 2022-07-14 2022-07-14 风险账户识别方法、装置、计算机设备和存储介质 Pending CN115205025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210823702.4A CN115205025A (zh) 2022-07-14 2022-07-14 风险账户识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210823702.4A CN115205025A (zh) 2022-07-14 2022-07-14 风险账户识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115205025A true CN115205025A (zh) 2022-10-18

Family

ID=83579680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210823702.4A Pending CN115205025A (zh) 2022-07-14 2022-07-14 风险账户识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115205025A (zh)

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN101493913A (zh) 一种评估网上用户信用的方法及系统
US11538044B2 (en) System and method for generation of case-based data for training machine learning classifiers
CN112990386B (zh) 用户价值聚类方法、装置、计算机设备和存储介质
CN111639690A (zh) 基于关系图谱学习的欺诈分析方法、系统、介质及设备
CN110310114A (zh) 对象分类方法、装置、服务器及存储介质
CN114782161A (zh) 识别风险用户的方法、装置、存储介质及电子装置
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN115630221A (zh) 终端应用界面展示数据处理方法、装置及计算机设备
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN115018210B (zh) 业务数据分类预测方法、装置、计算机设备和存储介质
CN115879819A (zh) 企业信用评估方法及装置
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
CN113706258A (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
CN114998001A (zh) 业务类别识别方法、装置、设备、存储介质和程序产品
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN115205025A (zh) 风险账户识别方法、装置、计算机设备和存储介质
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN110610378A (zh) 产品需求分析方法、装置、计算机设备和存储介质
CN117350461B (zh) 企业异常行为预警方法、系统、计算机设备及存储介质
CN111833171B (zh) 异常操作检测和模型训练方法、装置以及可读存储介质
CN114428900A (zh) 潜在用户挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination