CN113902037A - 非正常银行账户识别方法、系统、电子设备及存储介质 - Google Patents
非正常银行账户识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113902037A CN113902037A CN202111314098.4A CN202111314098A CN113902037A CN 113902037 A CN113902037 A CN 113902037A CN 202111314098 A CN202111314098 A CN 202111314098A CN 113902037 A CN113902037 A CN 113902037A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- mobile network
- network signaling
- behavior data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Neurology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Development Economics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本公开提供一种非正常银行账户识别方法、系统、电子设备及计算机可读存储介质,以解决只根据银行交易数据不能很好的识别非正常银行卡的问题,方法包括:分别获取运营商侧网络信令数据和包括用户是否违规标签的银行业务行为数据;根据用户身份信息对网络信令数据和业务行为数据进行匹配,对匹配成功的用户,抽取双方数据中的相关信息进行数据对照并合并成训练样本数据集;构建神经网络模型,并基于联邦学习算法通过训练样本数据集对模型进行训练,得到账户识别模型;基于账号识别模型对待识别的用户业务行为数据进行非正常银行账户识别,判定出违规账户。本公开技术方案能够提高非正常银行账户识别准确率和效率,并且可以保证用户隐私和数据安全。
Description
技术领域
本公开涉及金融安全领域,具体涉及一种非正常银行账户识别方法,一种非正常银行账户识别系统,一种电子设备以及一种计算机可读存储介质。
背景技术
当前,不法分子利用买卖的银行账户和支付账户转移赃款、违法行为等现象频发,催生出开卡、收购、出售、使用他人银行卡的“黑色产业链”。不法分子以牟利为目的,收买卡后出售给他人用于注册第三方交易平台资金结算账户,形成非正常银行账户。非正常银行账户极易成为滋生金融犯罪、电信诈骗等犯罪的温床,同时对办卡人个人信息安全造成重大隐患。
目前非正常银行账户识别主要依托情报收集、违法信息收集、非正常信息(征信数据)库等技术手段;对于情报收集,也就是所谓的众标众享,主要来自于互联网厂商,准确率不高,银行使用容易引发用户投诉;对于违法信息收集,即通过一些涉案转账信息来追查时发现,通常为事后处理,及时性不高,对社会威胁伤害大,而对于非正常信息库手段来说,非正常用户具有分散性、潜伏性、复杂性等特点,单方的数据很难满足检测要求。而对于一些银行建立的自己的非正常账户识别模型,其数据仅限于自己的银行卡交易数据,无法定位用户实际使用人,无法识别用户风险,并不能很好的达到对违规的银行卡及时冻结。
发明内容
为了至少解决现有技术中只根据银行卡交易数据不能很好的识别违规的银行卡的技术问题,本公开提供一种非正常银行账户识别方法、系统、电子设备及计算机可读存储介质,能够基于电信行业用户行为基础数据及银行侧业务数据构建模型,对双方数据源进行扩充,提高非正常银行账户识别准确率和效率,并且可以保证用户隐私和数据安全。
第一方面,本公开提供一种非正常银行账户识别方法,所述方法包括:
分别获取运营商侧用户移动网络信令数据和银行侧用户业务行为数据,所述用户业务行为数据中包括用户是否违规标签;
根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,并将对照处理后的用户移动网络信令数据和用户业务行为数据合并成训练样本数据集;
构建神经网络模型,并基于联邦学习算法通过所述训练样本数据集对所述神经网络模型进行训练,得到账户识别模型;
基于所述账号识别模型对待识别的银行侧用户业务行为数据进行非正常银行账户识别,判定出违规账户。
进一步的,所述方法还包括:
根据用户的历史业务数据标记出用户是否违规标签,标签结果分为非违规账户和疑似违规账户。
进一步的,所述用户移动网络信令数据包括用户身份信息、手机号码信息、在线时段、活跃城市、通信轨迹和通信特征指标,所述通信特征指标包括对应IMSI数,对应IMEI数、对应终端类型数、流量类型数和宽带流量类型占比中的至少一个;
所述用户业务行为数据包括用户身份信息、手机号码信息、交易时间、活动城市、交易地点、银行账号、IP、金额和账号标签;
在根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配之前,还包括:
对用户移动网络信令数据中的通信特征指标分别计算其数据集的平均数值及标准差,并进行归一化处理;
分别对用户移动网络信令数据和用户业务行为数据中的用户身份信息和手机号码信息通过相同的国密算法进行加密处理。
进一步的,所述根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,包括:
对用户移动网络信令数据中加密后的用户身份信息与用户业务行为数据中加密后的用户身份信息进行匹配,对每一个匹配成功的用户,生成一个特征值作为匹配成功的用户标识,并且每一个匹配成功的用户的特征值不同。
进一步的,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,包括:
设定时间认证、异地交易和交易轨迹符合性特征;
对每一个匹配成功的用户,分别将交易时间与在线时段,活动城市与活跃城市,交易地点与通信轨迹进行对照,并根据对照结果分别对时间认证、异地交易和交易轨迹符合性特征进行标注得到各自对应的特征值;
所述方法还包括:
将时间认证、异地交易和交易轨迹符合性特征值加入到训练样本数据集;以及,
将训练样本数据集处理成{(x1,y1),(x2,y2),…,(xi,yi),…, (xw,yw)}的形式,
其中xi表示第i个用户的用户特征值、手机号码、银行账号、 IP、金额、交易时间、时间认证特征值、异地交易特征值、交易轨迹符合性特征值及各通信特征指标的参数集合;yi为第i个用户是否违规标签。
进一步的,所述神经网络模型为BP神经网络模型,包括输入层、隐藏层和输出层,其中输入层为训练样本数据集中xi的各项参数,输出为yi的标签值,以及添加的异地交易和异常信息,隐藏层和输出层的激活函数使用Sigmod函数,设定的终止递归条件为误差小于设定的阈值。
进一步的,所述方法还包括:
基于所述账号识别模型对待识别的运营商侧用户移动网络信令数据进行非正常银行账户对应的手机号码识别,识别出疑似号卡贩卖信息。
第二方面,本公开提供一种非正常银行账户识别系统,包括:
获取模块,其设置为分别获取运营商侧用户移动网络信令数据和银行侧用户业务行为数据,所述用户业务行为数据中包括用户是否违规标签;
数据处理模块,其设置为根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,并将对照处理后的用户移动网络信令数据和用户业务行为数据合并成训练样本数据集;
训练模块,其设置为构建神经网络模型,并基于联邦学习算法通过所述训练样本数据集对所述神经网络模型进行训练,得到账户识别模型;
识别模块,其设置为基于所述账号识别模型对待识别的银行侧用户业务行为数据进行非正常银行账户识别,判定出违规账户。
第三方面,本公开提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如第一方面中任一所述的非正常银行账户识别方法。
第四方面,本公开提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面和第二方面中任一所述的非正常银行账户识别方法。
有益效果:
本公开提供的非正常银行账户识别方法、系统、电子设备及计算机可读存储介质,通过分别获取运营商侧用户移动网络信令数据和银行侧用户业务行为数据,所述用户业务行为数据中包括用户是否违规标签;根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,并将对照处理后的用户移动网络信令数据和用户业务行为数据合并成训练样本数据集;构建神经网络模型,并基于联邦学习算法通过所述训练样本数据集对所述神经网络模型进行训练,得到账户识别模型;基于所述账号识别模型对待识别的银行侧用户业务行为数据进行非正常银行账户识别,判定出违规账户。本公开技术方案能够基于电信行业用户行为基础数据及银行侧业务数据构建模型,对双方数据源进行扩充,并且通过通信数据和银行业务数据对照识别交易合理性,在保证用户隐私和数据安全的同时提高非正常银行账户识别准确率和效率,对违规银行卡及时封停,避免财产损失。
附图说明
图1为本公开实施例一提供的一种非正常银行账户识别方法的流程示意图;
图2为本公开实施例一提供的一种Bp神经网络模型示意图;
图3为本公开实施例一提供的一种采用XGBoost进行本地模型构建过程示意图;
图4为本公开实施例二提供的一种非正常银行账户识别系统的架构图;
图5为本公开实施例三提供的一种电子设备的架构图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和实施例对本公开作进一步详细描述。应当理解的是,此处描述的具体实施例和附图仅仅用于解释本发明,而非对本发明的限定。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序;并且,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。
其中,在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决只根据银行卡交易数据,无法准确有效的识别出违规账户,无法定位用户实际使用人,无法识别用户风险,并不能很好的达到对违规的银行卡及时冻结的问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本公开实施例一提供的一种非正常银行账户识别方法的流程示意图,如图1所示,所述方法包括:
步骤S101:分别获取运营商侧用户移动网络信令数据和银行侧用户业务行为数据,所述用户业务行为数据中包括用户是否违规标签;
步骤S102:根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,并将对照处理后的用户移动网络信令数据和用户业务行为数据合并成训练样本数据集;
步骤S103:构建神经网络模型,并基于联邦学习算法通过所述训练样本数据集对所述神经网络模型进行训练,得到账户识别模型;
步骤S104:基于所述账号识别模型对待识别的银行侧用户业务行为数据进行非正常银行账户识别,判定出违规账户。
为了解决银行单一数据源无法准确有效的识别出违规账户的问题,本实例在获取到银行侧用户业务行为数据外,还通过获取运营商侧的用户移动网络信令数据辅助对银行卡交易行为进行识别,运营商侧的用户移动网络信令数据由电信运营商日常采集并存储,包括所有可能与交易相关的用户日常网络信令信息;在用户业务行为数据中存在部分已被识别出的可能违规账户的数据,并已被标记,用于后续进行模型训练。
由于运营商和银行采集的数据会根据各自的需求进行统计,为了进行数据对照并能输入模型训练,需要进行数据预处理,包括:为保证输入模型的训练数据所有的特征都是零均值并且具有同一阶数上的方差,对电信运营商数据集进行归一化处理;以及为了保证用户隐私和数据安全,需要对数据自中包含用户属性信息的部分进行加密,然后根据加密后的用户身份信息进行匹配,将用户移动网络信令数据和用户业务行为数据进行样本对齐,对于匹配的数据,包含了同一用户的用户移动网络信令数据和用户业务行为数据,将数据中的一些特征指标进行对照可以识别出银行账户交易中的一些异常情形,将异常情形标注,然后将匹配成功的用户移动网络信令数据和用户业务行为数据及标注的数据合并成训练样本数据集,得到训练样本数据后,通过构建神经网络模型,并基于联邦学习算法通过所述训练样本数据集对所述神经网络模型进行训练,神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。具体的神经网络模型可以根据各自情况选用,如前馈神经感知网络(FFNN:Feed forward neural networks)、BP神经网络(Back Propagation NeuronNet Wok)等。完成训练后得到模型的各个适用参数,训练完成的模型被称为账户识别模型;然后基于账号识别模型对待识别的银行侧用户业务行为数据进行非正常银行账户识别,判定出违规账户。并将结果用于违法行为的及时处理。
本实施例利用联邦学习对双方数据源进行训练扩充,建立账户识别模型,其获得的模型覆盖范围更广,使得识别结果也更加准确,此外,还可以在双方数据更新是再次对模型进行更新,解决解决现有技术中覆盖范围有限问题,并且通过通信数据和银行业务数据对照识别交易合理性,在保证用户隐私和数据安全的同时提高非正常银行账户识别准确率和效率,对违规银行卡及时封停,避免财产损失。
进一步的,所述方法还包括:
根据用户的历史业务数据标记出用户是否违规标签,标签结果分为非违规账户和疑似违规账户。
获取用户业务行为数据是对后续分类模型的构建进行数据准备,需根据业务历史数据进行欺诈标记,标记结果分为2个类型 (0:非违规账户、1:疑似违规账户)。
进一步的,所述用户移动网络信令数据包括用户身份信息、手机号码信息、在线时段、活跃城市、通信轨迹和通信特征指标,所述通信特征指标包括对应IMSI数,对应IMEI数、对应终端类型数、流量类型数和宽带流量类型占比中的至少一个;
所述用户业务行为数据包括用户身份信息、手机号码信息、交易时间、活动城市、交易地点、银行账号、IP、金额和账号标签;
在根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配之前,还包括:
对用户移动网络信令数据中的通信特征指标分别计算其数据集的平均数值及标准差,并进行归一化处理;
分别对用户移动网络信令数据和用户业务行为数据中的用户身份信息和手机号码信息通过相同的国密算法进行加密处理。
电信运营商采集用户移网信令数据,包括用户手机号、IMSI、 IMEI、终端类型、当前所在省份、当前所在城市、当前所在小区编号、流量类型、在线时长、开始时间、结束时间等指标、为辅助银行卡交易行为进行识别,原数据需进行预处理。根据采集的信息统计可以得到:用户身份信息、手机号码信息、在线时段、活跃城市、通信轨迹和通信特征指标,通信特征指标可以包括对应IMSI数、对应IMEI数、对应终端类型数、流量类型数和宽带流量类型占比中的一个或多个;数据采集后形成如下表1所示结构,构建数据集A。
表1-用户移网信令数据统计信息数据结构
银行侧采集用户业务行为数据,包括用户手机号、银行账号、 IP、交易时间、金额等指标,以及提取标注的账号标签(0:非违规账户、1:疑似违规账户)。构建数据集B,其数据结构如下所示:
表2-户业务行为数据结构
为保证输入模型的训练数据所有的特征都是零均值并且具有同一阶数上的方差,对电信运营商用户移网信令数据的数据集A 进行归一化处理,对于通信特征指标,计算全量号码每个指标的平均数值及标准差,以跨越小区数为例:Cell_cntavg=∑ (cell_cnt1+…cell_cntn)/n,其中n为数据集A的样本数据量大小, Cell_cntStandarddeviation=sqrt(((cell_cnt1-Cell_cntavg)^2+(cell_cnt2- Cell_cntavg)^2+......(cell_cntn-Cell_cntavg)^2)/(n-1))。之后对该特征指标进行归一化处理,公式如下:(Cell_cnt-Cell_cntavg) /(Cell_cntStandard deviation),归一化处理后,再分别将数据集A和数据集B中的用户身份信息和手机号码信息通过相同的国密算法进行加密。在数据加密前数据分别存储在运营商侧和银行侧,国密算法可以使用国密SM2(256位椭圆曲线)加密算法,密码复杂度高、处理速度快、机器性能消耗更小。加密后得到运营商侧的数据集A'和银行侧的数据集B'上传到在协调方节点。在协同方节点进行后续模型训练,对用户数据进行用户属性信息加密后将加密的数据集上传可以保证数据的安全,防止用户隐私泄露。
进一步的,所述根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,包括:
对用户移动网络信令数据中加密后的用户身份信息与用户业务行为数据中加密后的用户身份信息进行匹配,对每一个匹配成功的用户,生成一个特征值作为匹配成功的用户标识,并且每一个匹配成功的用户的特征值不同。
首先根据用户身份证信息进行匹配,由于加密算法相同,因此两个数据集中的相同用户身份信息的用户可以匹配成功,若匹配成功,则生成一个特征值Q,作为匹配成功的用户标识,每一个匹配成功的用户的Q值不同。然后通过匹配到的用户,抽取相关信息然后进行第三步的处理。即:运营商用户身份证信息样本 A={user1,user2,…,usern};通过SM4加密:SM4(A)={SM4(user1), SM4(usr2),…SM4(usern);银行B={b_user1,b_user2,…,b_usern};通过SM4加密SM4(B)={SM4(b_user1),SM4(b_user2),…, SM4(b_userk)};若存在SM4(user i)=SM4(user j)i∈(1,n); j∈(1,k)则匹配成功,生成Q,Q=Q(SM4(useri))。生成的每一个特征值都代表一个用户,通过特征值可以对应到双方的数据集中该用户的相应数据信息。
对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,包括:
设定时间认证、异地交易和交易轨迹符合性特征;
对每一个匹配成功的用户,分别将交易时间与在线时段,活动城市与活跃城市,交易地点与通信轨迹进行对照,并根据对照结果分别对时间认证、异地交易和交易轨迹符合性特征进行标注得到各自对应的特征值;
所述方法还包括:
将时间认证、异地交易和交易轨迹符合性特征值加入到训练样本数据集;以及,
将训练样本数据集处理成{(x1,y1),(x2,y2),…,(xi,yi),…, (xw,yw)}的形式,
其中xi表示第i个用户的用户特征值、手机号码、银行账号、 IP、金额、交易时间、时间认证特征值、异地交易特征值、交易轨迹符合性特征值及各通信特征指标的参数集合;yi为第i个用户是否违规标签。
设定时间认证、异地交易和交易轨迹符合性特征来表征银行交易信息中的合理性,提升模型训练效果。进行标注时,若City_use ∈City,则异地交易long_distance=1,否则long_distance=0;若 SQ_Bank∈Trace,则交易轨迹符合性pass_by=1,否则pass_by=0;若Serv_cnt∈Time,则时间认证DTS=1,否则DTS=0;得到如下表3的训练样本数据集;
表3-训练样本数据集结构
然后将训练样本数据集处理,此时对齐后的数据集可看为 C={(x1,y1),(x2,y2),……,(xw,yw)},x_i={ID,Number, bank_acc,sery_cnt,……,Acc_cnt},yi为标签,0表示非黑账户、 1表示疑似违规账户,i∈(1,w)。
进一步的,所述神经网络模型为BP神经网络模型,包括输入层、隐藏层和输出层,其中输入层为训练样本数据集中xi的各项参数,输出为yi的标签值,以及添加的异地交易和异常信息,隐藏层和输出层的激活函数使用Sigmod函数,设定的终止递归条件为误差小于设定的阈值。
建立Bp神经网络模型,Bp神经网络模型有3层结构,输入层、隐藏层和输出层,构建的模型可如图2所示。对于已有的样本,输入层即为各项参数指标,输出层则为标签(违规)、异地交易和异常信息(交易轨迹不符合、时间认证不通过)。输入层到隐藏层的权值,设为Vih,隐藏层第h个神经元的阈值设为γh。隐藏层到输出层的权值,设为w hj,输出层第j个神经元的阈值我们用θj表示。在图2中,有d输入神经元,q个隐藏神经元,隐藏有q个隐藏神经元阈值,l个输出神经元,因此有l个输出神经元阈值。
其中βj中的bh=f(αh-γh),隐藏层和输出层的激活函数,使用Sigmod函数。假设在某个训练示例(x k,y k)中,假设神经网络的训练输出为 预测误差为通过调整计算参数(d+l+1)q+l的值,进一步缩小Ek,使得Ek的减少量小于阈值θ。
对于Bp神经网络模型的训练过程目前已相当较为成熟,训练时可参照现有技术。误差小于设定的阈值后表示模型训练完成,得到账户识别模型;并分别将模型发送到运营商和银行节点。
在本公开的另一种实施方式中,也可以基于联邦学习的方式采用XGBoost进行本地模型构建,构建过程如图3所示,包括: S1:初始化每一个样本i的预测值;S2:计算损失函数l对于每一个样本预测值的导数;S3:根据导数信息建立一棵新的树k;S4:将第1到k棵书中对应每一个特征的分数进行累加;S5:循环构建新的树,直至损失函数的减小量小于阈值或达到次数上限;即通过每次添加一棵树即学习新的函数来拟合上次预测的误差。假设模型训练完成后得到K棵树,那么每一个特征均对应到K棵树的K个叶子节点上,每个叶子节点对应一个分数,将每棵树对应的分数加起来即为该样本的预测值ypre,二元分类y经过sigmoid 函数后通过和阈值比较输出对应的yi。
模型的目标函数为假设对于第i个样本是否为非正常的预测值为其中K 表示树的棵数,xi表示样本特征,fk(xi)表示第k棵树对样本xi的预测结果,将所有的结果相加即得到了最终的结果结合实际的标签yi进行损失函数l的构建。本模型中使用均方差。代表正则化项,定义复杂度,希望得到复杂度更小的模型。通过计算当前树的损失函数,取损失函数下降最多的树作为当前树的形状,直至损失函数的减少量小于阈值θ。由运营商和银行双方采用安全加密的形式将损失上传至协调方节点,由协调方根据加密参数计算更新模型并返回至双方节点处,进行本地模型的更新。
进一步的,所述方法还包括:
基于所述账号识别模型对待识别的运营商侧用户移动网络信令数据进行非正常银行账户对应的手机号码识别,识别出疑似号卡贩卖信息。
通过将账号识别模型发送到运营商侧,可以在运营处识别疑似号卡贩卖信息,隔断违规账户的产业链。
进一步的,所述方法还包括:
将违规账户的用户属性信息按预设加密算法进行加密存入非正常账户数据库;
接收外部用户发送的非正常银行账户查询请求,请求中包括加密后的用户属性信息,
将所述查询请求中加密后的用户属性信息与非正常账户数据库中对应的加密数据进行对比,识别出此外部用户是否涉及违规,并将识别结果返回到外部用户。
通过定期更新账户识别模型,并定期进行违规用户识别,可以丰富非正常用户数据库;并实现本地非正常库对外输出,为企业客户提供更准确的违规账户识别。
本公开实施例基于电信行业用户行为基础数据及银行侧业务数据构建模型,通过纵向联邦学习对双方数据源进行扩充,利用对非正常银行卡数据进行建模,对用户通信轨迹与银行卡交易地点进行分析并生成非正常账号库,对非正常银行卡及时封停,避免财产损失。
图4为本公开实施例二提供的一种非正常银行账户识别系统的架构图,如图4所示,包括:
获取模块11,其设置为分别获取运营商侧用户移动网络信令数据和银行侧用户业务行为数据,所述用户业务行为数据中包括用户是否违规标签;
数据处理模块12,其设置为根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,并将对照处理后的用户移动网络信令数据和用户业务行为数据合并成训练样本数据集;
训练模块13,其设置为构建神经网络模型,并基于联邦学习算法通过所述训练样本数据集对所述神经网络模型进行训练,得到账户识别模型;
识别模块14,其设置为基于所述账号识别模型对待识别的银行侧用户业务行为数据进行非正常银行账户识别,判定出违规账户。
进一步的,所述获取模块11还设置为根据用户的历史业务数据标记出用户是否违规标签,标签结果分为非违规账户和疑似违规账户。
进一步的,所述用户移动网络信令数据包括用户身份信息、手机号码信息、在线时段、活跃城市、通信轨迹和通信特征指标,所述通信特征指标包括对应IMSI数,对应IMEI数、对应终端类型数、流量类型数和宽带流量类型占比中的至少一个;
所述用户业务行为数据包括用户身份信息、手机号码信息、交易时间、活动城市、交易地点、银行账号、IP、金额和账号标签;
所述数据处理模块12包括:
归一化单元,其设置为对用户移动网络信令数据中的通信特征指标分别计算其数据集的平均数值及标准差,并进行归一化处理;
加密单元,其设置为分别对用户移动网络信令数据和用户业务行为数据中的用户身份信息和手机号码信息通过相同的国密算法进行加密处理。
进一步的,所述数据处理模块12还包括:
匹配单元,其设置为对用户移动网络信令数据中加密后的用户身份信息与用户业务行为数据中加密后的用户身份信息进行匹配,对每一个匹配成功的用户,生成一个特征值作为匹配成功的用户标识,并且每一个匹配成功的用户的特征值不同。
进一步的,所述数据处理模块12还包括:
设定单元,其设置为设定时间认证、异地交易和交易轨迹符合性特征;
标注单元,其设置为对每一个特征值对应的匹配成功的用户,分别将交易时间与在线时段,活动城市与活跃城市,交易地点与通信轨迹进行对照,并根据对照结果分别对时间认证、异地交易和交易轨迹符合性特征进行标注得到各自对应的特征值;
处理单元,其设置为将时间认证、异地交易和交易轨迹符合性特征值加入到训练样本数据集;以及,
将训练样本数据集处理成{(x1,y1),(x2,y2),…(xi,yi)…, (xw,yw)}的形式,
其中xi表示第i个用户的用户特征值、手机号码、银行账号、 IP、金额、交易时间、时间认证特征值、异地交易特征值、交易轨迹符合性特征值及各通信特征指标的参数集合;yi为第i个用户是否违规标签。
进一步的,所述神经网络模型为BP神经网络模型,包括输入层、隐藏层和输出层,其中输入层为训练样本数据集中xi的各项参数,输出为yi的标签值,以及添加的异地交易和异常信息,隐藏层和输出层的激活函数使用Sigmod函数,设定的终止递归条件为误差小于设定的阈值。
进一步的,所述识别模块14还设置为:
基于所述账号识别模型对待识别的运营商侧用户移动网络信令数据进行非正常银行账户对应的手机号码识别,识别出疑似号卡贩卖信息。
本公开实施例的非正常银行账户识别系统用于实施方法实施例一中的非正常银行账户识别方法,所以描述的较为简单,具体可以参见前面方法实施例一中的相关描述,此处不再赘述。
此外,如图5所示,本公开实施例三还提供一种电子设备,包括存储器10和处理器20,所述存储器10中存储有计算机程序,当所述处理器20运行所述存储器10存储的计算机程序时,所述处理器20执行上述各种可能的方法。
其中,存储器10与处理器20连接,存储器10可采用闪存或只读存储器或其他存储器,处理器20可采用中央处理器或单片机。
此外,本公开实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行上述各种可能的方法。
该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器), EEPROM(Electrically ErasableProgrammable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM (Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。
Claims (10)
1.一种非正常银行账户识别方法,其特征在于,所述方法包括:
分别获取运营商侧用户移动网络信令数据和银行侧用户业务行为数据,所述用户业务行为数据中包括用户是否违规标签;
根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,并将对照处理后的用户移动网络信令数据和用户业务行为数据合并成训练样本数据集;
构建神经网络模型,并基于联邦学习算法通过所述训练样本数据集对所述神经网络模型进行训练,得到账户识别模型;
基于所述账号识别模型对待识别的银行侧用户业务行为数据进行非正常银行账户识别,判定出违规账户。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据用户的历史业务数据标记出用户是否违规标签,标签结果分为非违规账户和疑似违规账户。
3.根据权利要求1所述的方法,其特征在于,所述用户移动网络信令数据包括用户身份信息、手机号码信息、在线时段、活跃城市、通信轨迹和通信特征指标,所述通信特征指标包括对应IMSI数,对应IMEI数、对应终端类型数、流量类型数和宽带流量类型占比中的至少一个;
所述用户业务行为数据包括用户身份信息、手机号码信息、交易时间、活动城市、交易地点、银行账号、IP、金额和账号标签;
在根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配之前,还包括:
对用户移动网络信令数据中的通信特征指标分别计算其数据集的平均数值及标准差,并进行归一化处理;
分别对用户移动网络信令数据和用户业务行为数据中的用户身份信息和手机号码信息通过相同的国密算法进行加密处理。
4.根据权利要求3所述的方法,其特征在于,所述根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,包括:
对用户移动网络信令数据中加密后的用户身份信息与用户业务行为数据中加密后的用户身份信息进行匹配,对每一个匹配成功的用户,生成一个特征值作为匹配成功的用户标识,并且每一个匹配成功的用户的特征值不同。
5.根据权利要求4所述的方法,其特征在于,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,包括:
设定时间认证、异地交易和交易轨迹符合性特征;
对每一个匹配成功的用户,分别将交易时间与在线时段,活动城市与活跃城市,交易地点与通信轨迹进行对照,并根据对照结果分别对时间认证、异地交易和交易轨迹符合性特征进行标注得到各自对应的特征值;
所述方法还包括:
将时间认证、异地交易和交易轨迹符合性特征值加入到训练样本数据集;以及,
将训练样本数据集处理成{(x1,y1),(x2,y2),…,(xi,yi),…,(xw,yw)}的形式,
其中xi表示第i个用户的用户特征值、手机号码、银行账号、IP、金额、交易时间、时间认证特征值、异地交易特征值、交易轨迹符合性特征值及各通信特征指标的参数集合;yi为第i个用户是否违规标签。
6.根据权利要求5所述的方法,其特征在于,所述神经网络模型为BP神经网络模型,包括输入层、隐藏层和输出层,其中输入层为训练样本数据集中xi的各项参数,输出为yi的标签值,以及添加的异地交易和异常信息,隐藏层和输出层的激活函数使用Sigmod函数,设定的终止递归条件为误差小于设定的阈值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述账号识别模型对待识别的运营商侧用户移动网络信令数据进行非正常银行账户对应的手机号码识别,识别出疑似号卡贩卖信息。
8.一种非正常银行账户识别系统,其特征在于,包括:
获取模块,其设置为分别获取运营商侧用户移动网络信令数据和银行侧用户业务行为数据,所述用户业务行为数据中包括用户是否违规标签;
数据处理模块,其设置为根据用户身份信息对用户移动网络信令数据和用户业务行为数据进行匹配,对每一个匹配成功的用户,抽取其移动网络信令数据和业务行为数据中的相关信息进行数据对照处理,并将对照处理后的用户移动网络信令数据和用户业务行为数据合并成训练样本数据集;
训练模块,其设置为构建神经网络模型,并基于联邦学习算法通过所述训练样本数据集对所述神经网络模型进行训练,得到账户识别模型;
识别模块,其设置为基于所述账号识别模型对待识别的银行侧用户业务行为数据进行非正常银行账户识别,判定出违规账户。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如权利要求1-7中任一项所述的非正常银行账户识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的非正常银行账户识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111314098.4A CN113902037A (zh) | 2021-11-08 | 2021-11-08 | 非正常银行账户识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111314098.4A CN113902037A (zh) | 2021-11-08 | 2021-11-08 | 非正常银行账户识别方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113902037A true CN113902037A (zh) | 2022-01-07 |
Family
ID=79193650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111314098.4A Pending CN113902037A (zh) | 2021-11-08 | 2021-11-08 | 非正常银行账户识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902037A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064440A (zh) * | 2022-01-18 | 2022-02-18 | 恒生电子股份有限公司 | 可信度分析模型的训练方法、可信度分析方法及相关装置 |
CN115439236A (zh) * | 2022-11-10 | 2022-12-06 | 天聚地合(苏州)科技股份有限公司 | 基于人脸识别和联邦学习的银行业务处理方法及装置 |
CN115982664A (zh) * | 2023-03-09 | 2023-04-18 | 北京芯盾时代科技有限公司 | 一种异常账户识别方法、装置、设备及存储介质 |
CN117195060A (zh) * | 2023-11-06 | 2023-12-08 | 上海零数众合信息科技有限公司 | 基于多方安全计算的电信诈骗识别方法和模型训练方法 |
-
2021
- 2021-11-08 CN CN202111314098.4A patent/CN113902037A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064440A (zh) * | 2022-01-18 | 2022-02-18 | 恒生电子股份有限公司 | 可信度分析模型的训练方法、可信度分析方法及相关装置 |
CN115439236A (zh) * | 2022-11-10 | 2022-12-06 | 天聚地合(苏州)科技股份有限公司 | 基于人脸识别和联邦学习的银行业务处理方法及装置 |
CN115982664A (zh) * | 2023-03-09 | 2023-04-18 | 北京芯盾时代科技有限公司 | 一种异常账户识别方法、装置、设备及存储介质 |
CN115982664B (zh) * | 2023-03-09 | 2023-08-04 | 北京芯盾时代科技有限公司 | 一种异常账户识别方法、装置、设备及存储介质 |
CN117195060A (zh) * | 2023-11-06 | 2023-12-08 | 上海零数众合信息科技有限公司 | 基于多方安全计算的电信诈骗识别方法和模型训练方法 |
CN117195060B (zh) * | 2023-11-06 | 2024-02-02 | 上海零数众合信息科技有限公司 | 基于多方安全计算的电信诈骗识别方法和模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112534453B (zh) | 区块链交易安全 | |
CN113902037A (zh) | 非正常银行账户识别方法、系统、电子设备及存储介质 | |
CN108876600B (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
US20190164173A1 (en) | Synthetic online entity detection | |
CN112053221A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
CN110070359B (zh) | 基于区块链的数据核对系统、方法、计算设备及存储介质 | |
CN108876133A (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
CN108717606A (zh) | 一种基于区块链的食品安全多元利益主体信用评价方法 | |
KR20180060044A (ko) | 클라우드 환경에서 개인정보 보호를 지원하는 p2p 중개 보안 시스템 | |
CN111652732A (zh) | 一种基于交易图匹配的比特币异常交易实体识别方法 | |
CN112418520A (zh) | 一种基于联邦学习的信用卡交易风险预测方法 | |
CN112801780B (zh) | 基于联邦学习的境内外风险客户识别方法、装置及系统 | |
CN112200660B (zh) | 一种银行柜面业务的监督方法、装置及设备 | |
CN110209729B (zh) | 数据转移对象识别的方法及装置 | |
CN109903045B (zh) | 行为轨迹监控方法、装置、计算机设备和介质 | |
CN110796539A (zh) | 一种征信评估方法及装置 | |
CN112039702A (zh) | 基于联邦学习和相互学习的模型参数训练方法及装置 | |
CN113379530A (zh) | 用户风险的确定方法、装置和服务器 | |
CN112910953B (zh) | 业务数据的推送方法、装置和服务器 | |
KR20180060005A (ko) | 클라우드 환경에서 개인정보 보호를 지원하는 p2p 중개 보안 시스템 | |
CN107835247A (zh) | 一种信用认证、保障系统及方法 | |
CN114331719A (zh) | 一种基于大数据的交易风控指标智能分析系统 | |
CN113220447B (zh) | 基于边缘计算的金融风控系统及方法 | |
Xu et al. | MSEs credit risk assessment model based on federated learning and feature selection | |
Liu | [Retracted] Construction of Rural Financial Organization Spatial Structure and Service Management Model Based on Deep Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |