CN114049204A - 可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质 - Google Patents

可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质 Download PDF

Info

Publication number
CN114049204A
CN114049204A CN202111299757.1A CN202111299757A CN114049204A CN 114049204 A CN114049204 A CN 114049204A CN 202111299757 A CN202111299757 A CN 202111299757A CN 114049204 A CN114049204 A CN 114049204A
Authority
CN
China
Prior art keywords
transaction data
data
suspicious
user
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111299757.1A
Other languages
English (en)
Inventor
刘杰勋
狄先红
龚剑
石荣华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202111299757.1A priority Critical patent/CN114049204A/zh
Publication of CN114049204A publication Critical patent/CN114049204A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请涉及一种交易数据录入方法、装置、计算机设备和存储介质。涉及金融科技领域或其他相关领域,应用于流程自动化机器人,所述方法包括:从数据库中获取银行的用户交易数据;将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。采用本方法能够实现将可疑交易数据自动录入系统,有效节省了人力资源以及提高可疑交易数据录入工作的效率。

Description

可疑交易数据录入方法、装置、计算机设备和计算机可读存储 介质
技术领域
本申请涉及数据处理领域,特别是涉及一种可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质。
背景技术
随着计算机、人工智能以及大数据的发展,银行信息化建设逐渐趋向于信息数字化方向。在银行数字化转型的背景下,对银行的反洗钱监控系统录入反洗钱可疑数据提出了更高的要求和挑战。
但是,在将反洗钱可疑数据录入银行的反洗钱监控系统时,传统方式,主要通过人工将反洗钱可疑数据录入至银行的反洗钱监控系统。显然,这样会导致工作量大且较为耗时。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据录入的效率的可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质,具体涉及金融科技领域或其他相关领域。
第一方面,本申请提供了一种可疑交易数据录入方法,应用于流程自动化机器人,所述方法包括:
从数据库中获取银行的用户交易数据;
将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;
若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。
在其中一个实施例中,所述方法还包括:
获取多个交易样本数据集及与所述交易样本数据集对应的业务场景的类型;
针对各所述交易样本数据集,根据与所述交易样本数据集对应的所述业务场景的类型,构建与所述交易样本数据集对应的交易样本数据识别模型.
在其中一个实施例中,所述根据与所述交易样本数据集对应的所述业务场景的类型,构建与所述交易样本数据集对应的交易样本数据识别模型,包括:
根据所述业务场景的类型,确定与所述交易样本数据集对应的目标识别模型为逻辑回归模型;
对所述逻辑回归模型的参数进行初始化处理及迭代训练,生成所述逻辑回归模型的中间参数;
基于预设评价指标从所述逻辑回归模型的中间参数中,确定所述逻辑回归模型的目标参数;
基于所述逻辑回归模型的目标参数,构建与所述交易样本数据对应的目标识别模型。
在其中一个实施例中,在所述从数据库中获取银行的用户交易数据之后,包括:
对所述用户交易数据进行数据清洗,生成数据清洗后的用户交易数据;
对所述数据清洗后的用户交易数据,从用户特征、账户特征以及交易明细特征中的至少一个维度进行特征提取,生成所述数据清洗后的用户交易数据的目标特征。
在其中一个实施例中,所述将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据,包括:
获取与所述用户交易数据对应的业务场景的类型;
根据所述业务场景的类型从所述交易样本数据识别模型中,确定目标识别模型;
通过所述目标识别模型判断所述用户交易数据中的目标特征是否具有可疑性;
若是,则根据所述用户交易数据的目标特征确定所述用户交易数据为可疑交易数据。
在其中一个实施例中,所述将所述可疑交易数据录入至所述银行的可疑数据监控系统,包括:
将所述可疑交易数据录入至所述银行的可疑数据监控系统,生成所述可疑交易数据的补录结果;
基于所述可疑交易数据的补录结果生成所述可疑交易数据的补录文件;
将所述可疑交易数据的补录文件写入至预设邮件模板,生成所述可疑交易数据的补录邮件;
将所述可疑交易数据的补录邮件以邮件的方式发送至目标业务人员。
在其中一个实施例中,所述目标识别模型包括:基于支持向量机算法构建的模型、基于随机森林算法构建的模型、基于梯度提升决策树算法构建的模型以及基于神经网络算法构建的模型。
第二方面,本申请还提供了一种设备盘点装置。所述装置包括:
交易数据获取模块,用于从数据库中获取银行的用户交易数据;
交易数据判断模块,用于将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;
交易数据录入模块,用于若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从数据库中获取银行的用户交易数据;
将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;
若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从数据库中获取银行的用户交易数据;
将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;
若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
从数据库中获取银行的用户交易数据;
将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;
若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。
上述可疑交易数据录入方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,应用于流程自动化机器人,所述方法包括:从数据库中获取银行的用户交易数据;将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。由于在传统的可疑交易数据录入方法需要通过人工将可疑交易数据录入至可疑数据监控系统,进而导致可疑交易数据录入耗费大量人力以及数据录入效率低的问题。本申请中服务器中部署有流程自动化机器人,上述流程自动化机器人从数据库中获取银行的用户交易数据,并将用户交易数据输入至目标识别模型中,进而可以判断用户交易数据是否为可疑交易数据,若用户交易数据为可疑交易数据,上述流程自动化机器人将可疑交易数据录入至银行的可疑数据监控系统,通过将可疑交易数据判断以及可疑交易数据录入与流程自动化机器人相结合,进而实现了可疑交易数据的自动录入。从而,有效节省了人力资源以及提高了可疑交易数据录入工作的效率。
附图说明
图1为一个实施例中可疑交易数据录入方法的应用环境图;
图2为一个实施例中可疑交易数据录入方法的流程示意图;
图3为另一个实施例中可疑交易数据录入方法的流程示意图;
图4为一个实施例中构建与交易样本数据集对应的交易样本数据识别模型的流程示意图;
图5为另一个实施例中可疑交易数据录入方法的流程示意图;
图6为一个实施例中通过目标识别模型判断用户交易数据是否为可疑交易数据的流程示意图;
图7为一个实施例中将可疑交易数据录入至银行的可疑数据监控系统的流程示意图;
图8为一个具体实施例中可疑交易数据录入方法的流程示意图;
图9为一个具体实施例中应用于银行的反洗钱监控系统的可疑交易数据录入方法的示意图;
图10为一个实施例中可疑交易数据录入装置的结构框图;
图11为另一个实施例中可疑交易数据录入装置的结构框图;
图12为一个实施例中数据识别模型构建模块的结构框图;
图13为另一个实施例中可疑交易数据录入装置的结构框图;
图14为一个实施例中交易数据判断模块的结构框图;
图15为一个实施例中交易数据录入模块的结构框图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的可疑交易数据录入方法,可以应用于如图1所示的应用环境中,包括终端120以及服务器140。其中,终端120以及服务器140之间通过网络进行通信。终端120以及服务器140可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备、独立的服务器或者是多个服务器组成的服务器集群等,本申请对此不作限定。
具体的,如图1所示,服务器140首先从数据库中获取银行的用户交易数据,上述用户交易数据来自于终端120,然后服务器140将用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据是否为可疑交易数据;目标识别模型为与用户交易数据的业务场景的类型相对应的模型,最后若服务器140判断用户交易数据为可疑交易数据,则服务器140将可疑交易数据录入至银行的可疑数据监控系统。
在其中一个实施例中,如图2所示,提供了一种可疑交易数据录入方法,应用于流程自动化机器人,以该方法应用于图1中的终端为例进行说明,包括以下步骤220至步骤260:
S220、从数据库中获取银行的用户交易数据。
其中,银行的用户交易数据包括但不限于以下三个维度的信息,第一个维度为用户信息,第二个维度为用户的账户信息,第三个维度为用户的交易明细信息。具体的,用户信息包括用户的属性信息,比如,用户信息包括但不限于用户的姓名、性别、出生地、年龄、身份证号、职业、公司名称、公司注册地等;用户的账户信息包括银行产品协议相关信息,比如,账户信息包括但不限于用户开通网银情况、用户名下账户数量、账户最早开户日期等;用户的交易明细信息包括不同时间尺度下用户名下所有资金交易情况,比如,交易明细信息包括但不限于1、7、15、30天内借方交易金额、借方交易笔数、IP所在国家个数、交易渠道个数等。
进一步的,上述银行的用户交易数据存储于本地数据库或者云服务器中,流程自动化机器人可以从数据库或者云服务器中自动获取银行的用户交易数据。其中,流程自动化机器人(Robotic Process Automation,RPA)技术是一种自动化软件技术,流程自动化机器人通过配置自动化软件模拟和人类在软件系统中交互的动作来执行业务流程。具体的,流程自动化机器人结构由机器人组件和流程单元、机器人任务单元、机器人管理单元构成,具体的,机器人组件和流程单元,组件单元是执行一个个具体逻辑业务的独立模块,用脚本语言编写,可以模拟日常人工操作流程,例如文件生成、鼠标点击、键盘模拟、复制\粘贴等方法,流程单元用于将一个个的独立组件单元串联为全步骤流程,形成业务流程闭环,实现规则设计的流程自动化;机器人任务单元,负责对自动任务的时间配置,按照所设定的任务时间参数自动执行机器人流程单元,实现自动化执行流程任务操作;机器人管理单元,用于对多台机器人资源调度及监控管理,通过可视化视图方式监控和追踪当前机器人运行情况和历史执行情况,同时,对于机器人每次执行的历史流程,操作日志会将机器人每个节点执行结果、执行时间等所有操作记录都记录下来,用于用户跟踪查看。
进一步的,如图1所示,终端120将用户交易数据通过网络发送至服务器140中,服务器140将接收到的用户交易数据存储至本地数据库中,或者服务器140将用户交易数据上传至云服务器中,流程自动化机器人部署于服务器140中,进而流程自动化机器人可以自动从数据库或者云服务器中获取银行的用户交易数据。
S240、将用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据是否为可疑交易数据;目标识别模型为与用户交易数据的业务场景的类型相对应的模型。
其中,目标识别模型包括但不限于基于逻辑回归算法构建的模型、基于支持向量机算法构建的模型、基于随机森林算法构建的模型、基于梯度提升决策树算法构建的模型以及基于神经网络算法构建的模型,本申请对此不作限定。其中,逻辑回归算法一种广义线性回归分析模型,逻辑回归算法的因变量为二分类的分类变量或某事件的发生率,且是数值型变量,另外,逻辑回归算法的残差和因变量都服从二项分布,二项分布对应的是分类变量,所以不是正态分布,进而逻辑回归算法不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
基于支持向量机(Support Vector Machine,SVM)算法是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器,另外,SVM可以通过核方法进行非线性分类,是常见的核学习方法之一。对于SVM算法有多种改进算法,SVM的改进算法包括但不限于:偏斜数据的改进算法、概率支持向量机算法、多分类支持向量机算法、最小二乘支持向量机算法以及多核支持向量机算法等,上述基于SVM算法的改进算法仅仅为一些示例,还包括其它用于分类预测的SVM改进算法,本申请对此不作限定。
随机森林算法是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林算法具有极好的准确率能够有效地运行在大数据集上能够处理具有高维特征的输入样本,而且不需要降维能够评估各个特征在分类问题上的重要性在生成过程中,能够获取到内部生成误差的一种无偏估计对于缺省值问题也能够获得很好的结果。
梯度提升决策树算法(Gradient Boosting Decision Tree,GBDT)是为了解决一般损失函数的优化问题,方法是用损失函数的负梯度在当前模型的值来模拟回归问题中残差的近似值。GBDT算法中的树都是回归树,GBDT算法多用来做回归预测,调整后也可以用于分类,GBDT算法的核心在于,每棵树学习的都是之前所有树结论和的残差,呈现负梯度形式,也就是说,该残差值就是一个加预测值后能得到真实值的累加量。
神经网络算法就是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重,在网络学习阶段,网络通过调整权重来实现输入样本与其相应类别的对应。由于神经网络学习主要是针对其中的连接权重进行的,因此神经网络的学习有时也称为连接学习;神经网络的优点就是对噪声数据有较好适应能力,并且对未知数据也具有很好的预测分类能力。用于预测分类的神经网络模型有多种,包括但不限于:后向传播(BackPropagation,BP)神经网络、径向基函数神经网络、感知器神经网络、线性神经网络,还包括卷积神经网络(Convolutional Neural Networks,CNN)、残差网络(Residual Network,ResNet)、对抗神经网络(Generative Adversarial Nets,GAN)、LeNet-5网络等其它可用于分类预测的神经网络模型,本申请对此不作限定。
进一步的,上述目标识别模型为与用户交易数据的业务场景的类型相对应的模型,也就是说,不同的用户交易数据具有不同的业务场景类型,每个业务场景类型具有相对应的目标识别模型。这是由于针对不同的业务场景使用不同的识别模型具有更好的分类效果,避免使用单一识别模型的局限性,进而可以更加准确地判断该用户交易数据是否为可疑交易数据。
进一步的,如图1所示,服务器140通过流程自动化机器人将用户交易数据输入至目标识别模型中,进而通过目标识别模型判断用户交易数据是否为可疑交易数据;其中,目标识别模型为与用户交易数据的业务场景的类型相对应的模型。
S260、若用户交易数据为可疑交易数据,则将可疑交易数据录入至银行的可疑数据监控系统。
其中,用户交易数据输入至目标识别模型中后,目标识别模型基于用户交易数据的特征判断上述用户交易数据是否为可疑交易数据,其中,用户交易数据的特征包括用户特征、账户特征以及交易明细特征,用户特征用于表征用户信息的特征,账户特征用于表征用户账户信息的特征,交易明细特征用于表征用户交易明细信息的特征。
进一步的,若用户交易数据为可疑交易数据,则流程自动化机器人将可疑交易数据录入至银行的可疑数据监控系统。具体的,在流程自动化机器人将可疑交易数据录入至银行的可疑数据监控系统的过程中,由于银行系统的保密性较强,因此流程自动化机器人首先需要解锁计算机的保护控制。然后,流程自动化机器人获取可疑数据监控系统登陆页面的访问网址,并打开网页浏览器,流程自动化机器人将上述可疑数据监控系统登陆页面的访问网址输入至网页浏览器中,进而打开上述可疑数据监控系统的登陆页面。随后,流程自动化机器人将用户账号以及密码信息输入至可疑数据监控系统的登陆页面的对应位置中,进而登录可疑数据监控系统。最后,流程自动化机器人获取可疑数据监控系统的网页字段标签,根据网页字段标签在数据库中查询对应的输入字段。例如网页字段标签为客户姓名,数据仓库中存储的有(“客户姓名”,“张三”),则流程自动化机器人基于网页字段标签“客户姓名”在数据库中查到输入字段“张三”,流程自动化机器人将输入字段“张三”填入至可疑数据监控系统网页的对应区域中。
上述可疑交易数据方法中,流程自动化机器人从数据库中获取银行的用户交易数据;将用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据是否为可疑交易数据;目标识别模型为与用户交易数据的业务场景的类型相对应的模型;若用户交易数据为可疑交易数据,则将可疑交易数据录入至银行的可疑数据监控系统。由于在传统的可疑交易数据录入方法需要通过人工将可疑交易数据录入至可疑数据监控系统,进而导致可疑交易数据录入耗费大量人力以及数据录入效率低的问题。本申请中服务器中部署有流程自动化机器人,上述流程自动化机器人从数据库中获取银行的用户交易数据,并将所述用户交易数据输入至目标识别模型中,进而判断所述用户交易数据是否为可疑交易数据,若用户交易数据为可疑交易数据,上述流程自动化机器人将可疑交易数据录入至银行的可疑数据监控系统,通过将可疑交易数据判断以及可疑交易数据录入与流程自动化机器人相结合,进而实现了可疑交易数据的自动录入。从而,有效节省了人力资源以及提高了可疑交易数据录入工作的效率。
在其中一个实施例中,如图3所示,上述可疑交易数据录入方法,还包括步骤320至步骤340:
S320、获取多个交易样本数据集及与交易样本数据集对应的业务场景的类型。
其中,上述交易样本数据集用于对识别模型进行训练,交易样本数据集包括多个交易样本数据,由于交易样本数据集中的交易样本数据包括但不限于以下三个维度的信息,第一个维度为用户信息,第二个维度为用户的账户信息,第三个维度为用户的交易明细信息,用户在办理不同的业务时,三个维度的信息会出现差异,具体体现在,涵盖用户的基本属性与用户的留档信息具有差异性,用户名下产品账户的基本情况具有差异性以及用户资金活动的交易流水明细具有差异性,因此,不同的交易样本数据具有不同的业务场景类型,也就是说每个交易样本数据都有对应的业务场景类型。
S340、针对各交易样本数据集,根据与交易样本数据集对应的业务场景的类型,构建与交易样本数据集对应的交易样本数据识别模型。
其中,在不同的业务场景下,由于不同金融产品使用限制,如个人客户和对公客户的日常交易的限额差异等,用户所表现的金融交易行为也各不相同,不同的业务场景下,不同的识别模型对可疑交易数据进行预测的判断能力也大不相同。因此,针对不同业务场景的类型应进行多个识别模型的搭建,以实现覆盖行内全量客户的有效甄别。上述识别模型包括但不限于基于逻辑回归算法构建的模型、基于支持向量机算法构建的模型、基于随机森林算法构建的模型、基于梯度提升决策树算法构建的模型以及基于神经网络算法构建的模型,本申请对此不作限定。
进一步的,针对各交易样本数据集,根据与交易样本数据集对应的业务场景的类型,构建与交易样本数据集对应的交易样本数据识别模型,也就是说,不同的交易样本数据具有不同的业务场景类型,而每个业务场景类型具有相对应的目标识别模型。针对不同的业务场景使用不同的识别模型具有更好的分类效果,避免使用单一识别模型的局限性,进而可以更加准确地判断该用户交易数据是否为可疑交易数据。
本申请实施例中,上述可疑交易数据录入方法还包括:获取多个交易样本数据集及与交易样本数据集对应的业务场景的类型;针对各交易样本数据集,根据与交易样本数据集对应的业务场景的类型,构建与交易样本数据集对应的交易样本数据识别模型。通过对不同的业务场景类型采用不同的识别模型,有效避免使用单一识别模型的局限性,进而可以更加准确地判断该用户交易数据是否为可疑交易数据。
在其中一个实施例中,如图4所示,上述根据与交易样本数据集对应的业务场景的类型,构建与交易样本数据集对应的交易样本数据识别模型,包括步骤342至步骤348:
S342、根据业务场景的类型,确定与交易样本数据集对应的目标识别模型为逻辑回归模型。
其中,上述逻辑回归模型为基于逻辑回归算法构建的模型,逻辑回归算法一种广义线性回归分析模型,其作为数据建模领域的经典算法,有着建模形式简单、效果稳定、可解释性和可扩展性都比较好等诸多实用的特性。逻辑回归算法的因变量为二分类的分类变量或某事件的发生率,且是数值型变量,另外,逻辑回归算法的残差和因变量都服从二项分布,二项分布对应的是分类变量,所以不是正态分布,进而逻辑回归算法不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。逻辑回归模型的表达式为:
Figure BDA0003337950860000111
其中,Y是逻辑回归模型的输出结果,取值{0,1};而(x1,x2,...,xk),xi∈R,i∈{1,2,...,k}为逻辑回归模型的输入特征向量;(β01,...,βk),βi∈R,i∈{1,2,...,k}为模型参数向量。
进一步的,确定交易样本数据集中的交易样本数据的业务场景的类型,基于上述业务场景的类型确定与交易样本数据集对应的目标识别模型为逻辑回归模型。
S344、对逻辑回归模型的参数进行初始化处理及迭代训练,生成逻辑回归模型的中间参数。
其中,在对逻辑回归模型训练时,首先确定逻辑回归模型的参数,由式(1)可得,(β01,...,βk),βi∈R,i∈{1,2,...,k}为逻辑回归模型的模型参数向量,将交易样本数据集中的交易样本数据分批输入至逻辑回归模型中进行迭代训练,在训练过程中,模型参数向量(β01,...,βk),βi∈R,i∈{1,2,...,k}不断的进行更新,进而生成逻辑回归模型的中间参数。
进一步的,在对逻辑回归模型训练之前,对交易样本数据集中的交易样本数据进行不均衡处理。通常交易样本数据集中包括黑、白两类样本数据,比如,黑样本数据表示可疑用户交易数据,对于黑样本数据可以标记为1,白样本数据表示非可疑用户交易数据,对于白样本数据可以标记为0。由于针对银行业务,用户存量较大大,每日相关的资金交易量也巨大,而可疑用户的数量占比远小于非可疑用户,进而会导致出现黑白样本数据的数量极其不均衡,也就是说黑白样本数据的数量差距较大,而黑白样本数据的数量不均衡的问题会导致模型训练过程中学习不充分,故而,需要对交易样本数据集中的交易样本数据进行不均衡处理。比如,由于银行的业务交易中的洗钱现象通常涉及大量资金的交易,因此可依据往期的洗钱个人用户表现,根据历史经验设定如相关资金交易等的阈值,在给定阈值范围内的用户进行建模纳入,将不在阈值范围内的用户摒弃。
进一步的,对于交易样本数据集中的黑、白两类样本数据,可能存在除样本编号id以外,其余字段取值相同的样本,因此,可以对重复的样本进行去重处理,保留一条即可。另外,也可以对交易样本数据集中数据量较大的白样本数据尝试不同比例的抽样,进而解决不均衡的问题。比如,在对逻辑回归模型训练之前将交易样本数据集划分为训练集与测试集,对交易样本数据集中的黑、白两类样本数据都按照8:2的比例随机抽取样本分别归入训练集和测试集中,另外,训练集中的白样本数据,按照原始比例、1000:1、100:1、10:1进行随机抽样,而测试集合保持不变,进而有效解决不均衡的问题。
S346、基于预设评价指标从逻辑回归模型的中间参数中,确定逻辑回归模型的目标参数。
其中,评价指标包括但不限于混淆矩阵、准确率、查准率、查全率、精准率与召回率曲线(Precision and Recall Curve,PR曲线)、受试者工作特征曲线(Receiver OperatingCharacteristic Curve,ROC曲线)以及ROC曲线下面积指标(Area under the Curve ofROC,AUC指标)等,本申请对此不作限定。可选的,针对逻辑回归模型来说,预设评价指标可以为AUC指标,AUC指标衡量的是二分类中分类样本区分程度的大小,具体来说,如果正样本都集中在预测分数高的区域,负样本都在预测分数低的区域,那么AUC指标就越高。进一步的,基于AUC指标从逻辑回归模型的中间参数中,可以确定逻辑回归模型的目标参数,上述目标参数对应的逻辑回归模型的分类能力较好。
S348、基于逻辑回归模型的目标参数,构建与交易样本数据对应的目标识别模型。
其中,基于AUC指标从逻辑回归模型的中间参数中,可以确定逻辑回归模型的目标参数,根据上述目标参数构建与交易样本数据对应的目标识别模型,上述目标识别模型的对可疑交易数据的识别能力较好。
在本申请实施例中,根据与交易样本数据集对应的业务场景的类型,构建与交易样本数据集对应的交易样本数据识别模型,包括:根据业务场景的类型,确定与交易样本数据集对应的目标识别模型为逻辑回归模型;对逻辑回归模型的参数进行初始化处理及迭代训练,生成逻辑回归模型的中间参数;基于预设评价指标从逻辑回归模型的中间参数中,确定逻辑回归模型的目标参数;基于逻辑回归模型的目标参数,构建与交易样本数据对应的目标识别模型。通过对逻辑回归模型进行训练得到目标识别模型,可以有效提高对可疑交易数据的识别能力。
在其中一个实施例中,如图5所示,在从数据库中获取银行的用户交易数据之后,包括步骤420至步骤440:
S420、对用户交易数据进行数据清洗,生成数据清洗后的用户交易数据。
其中,在信息系统录入或者采集过程中,用户交易数据主要从用户相关的三个维度进行收集,第一个维度为用户信息,第二个维度为用户的账户信息,第三个维度为用户的交易明细信息。也就是说,用户信息用于表征用户的基本属性与用户留档信息,用户的账户信息用于表征用户名下银行账户的基本情况,用户的交易明细信息用于表征用户资金活动的交易流水明细。
而上述用户交易数据往往出现重复录入或采集的情况,用户交易数据中包含数值、文本、日期等多种数据类型,且在采集用户交易数据的过程中由于系统或人为误差,会导致用户交易数据异常值或者缺失的问题。因此,因此需要对用户交易数据进行数据清洗,上述数据清洗过程包括:对用户交易数据进行去重处理;对用户交易数据中职业、开户日期等非数值类的数据进行数值化,从而用户交易数据类型对齐;对用户交易数据中的缺失值以及异常值依照数据字段属性,进行填充、统一值赋值或者置空处理,部分连续型变量字段数据,如客户年龄、交易金额等可以进行分箱处理等,本申请对数据清洗的过程不作限定。进一步的,对用户交易数据进行数据清洗后,生成数据清洗后的用户交易数据。
S440、对数据清洗后的用户交易数据,从用户特征、账户特征以及交易明细特征中的至少一个维度进行特征提取,生成数据清洗后的用户交易数据的目标特征。
其中,数据清洗后的用户交易数据主要包括三个维度的信息,第一个维度为用户信息,第二个维度为用户的账户信息,第三个维度为用户的交易明细信息。具体的,具体的,用户信息包括用户的属性信息,比如,用户信息包括用户的姓名、性别、出生地、年龄、身份证号、职业、公司名称、公司注册地;用户的账户信息包括银行产品协议相关信息,比如,账户信息包括用户开通网银情况、用户名下账户数量、账户最早开户日期;用户的交易明细信息包括不同时间尺度下用户名下所有资金交易情况,比如,交易明细信息包括1、7、15、30天内借方交易金额、借方交易笔数、IP所在国家个数以及交易渠道个数。通过对数据清洗后的用户交易数据进行特征提取,进而生成数据清洗后的用户交易数据的目标特征。其中,从用户信息中可以提取用户特征,从用户的账户信息中可以提取账户特征,从用户的交易明细信息可以提取交易明细特征。
在本申请实施例中,在从数据库中获取银行的用户交易数据之后,包括:对用户交易数据进行数据清洗,生成数据清洗后的用户交易数据;对数据清洗后的用户交易数据,从用户特征、账户特征以及交易明细特征中的至少一个维度进行特征提取,生成数据清洗后的用户交易数据的目标特征。通过对用户交易数据进行数据清洗以及特征提取,可以获取到用户交易数据的目标特征,进而基于上述目标特征实现对可疑交易数据的识别。
在其中一个实施例中,如图6所示,将用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据是否为可疑交易数据,包括步骤242至步骤248:
S242、获取与用户交易数据对应的业务场景的类型。
其中,用户交易数据包括以下三个维度的信息,第一个维度为用户信息,第二个维度为用户的账户信息,第三个维度为用户的交易明细信息,用户在办理不同的业务时,三个维度的信息会出现差异,具体体现在,涵盖用户的基本属性与用户的留档信息具有差异性,用户名下产品账户的基本情况具有差异性以及用户资金活动的交易流水明细具有差异性,因此,不同的用户交易数据具有不同的业务场景类型,也就是说每个用户交易数据都有对应的业务场景类型。进一步的,基于用户交易数据的三个维度信息,获取与用户交易数据对应的业务场景的类型。
S244、根据业务场景的类型从交易样本数据识别模型中,确定目标识别模型。
其中,在不同的业务场景下,由于不同金融产品使用限制,用户所表现的金融交易行为也各不相同,不同的业务场景下,不同的识别模型对可疑交易数据进行预测的判断能力也大不相同。因此,针对不同业务场景的类型应进行多个识别模型的搭建,以实现覆盖行内全量客户的有效甄别。上述识别模型包括但不限于基于逻辑回归算法构建的模型、基于支持向量机算法构建的模型、基于随机森林算法构建的模型、基于梯度提升决策树算法构建的模型以及基于神经网络算法构建的模型。进一步的,根据业务场景的类型从交易样本数据识别模型中,确定目标识别模型。
S246、通过目标识别模型判断用户交易数据中的目标特征是否具有可疑性。
其中,将上述用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据中的目标特征是否具有可疑性,其中,用户交易数据的特征包括用户特征、账户特征以及交易明细特征,用户特征用于表征用户信息的特征,账户特征用于表征用户账户信息的特征,交易明细特征用于表征用户交易明细信息的特征。
S248、若是,则根据用户交易数据的目标特征确定用户交易数据为可疑交易数据。
其中,若目标识别模型基于用户交易数据的目标特征判断上述用户交易数据是否为可疑交易数据,其中,用户交易数据的特征包括用户特征、账户特征以及交易明细特征,用户特征用于表征用户信息的特征,账户特征用于表征用户账户信息的特征,交易明细特征用于表征用户交易明细信息的特征。若根据上述目标特征目标识别模型判断上述用户交易数据具有可疑性,则根据用户交易数据的目标特征确定用户交易数据为可疑交易数据。
在本申请实施例中,将用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据是否为可疑交易数据,包括:获取与用户交易数据对应的业务场景的类型;根据业务场景的类型从交易样本数据识别模型中,确定目标识别模型;通过目标识别模型判断用户交易数据中的目标特征是否具有可疑性;若是,则根据用户交易数据的目标特征确定用户交易数据为可疑交易数据。通过目标识别模型可疑判断用户交易数据是否具有可疑性,进而将具有可疑性的用户交易数据确定为可疑交易数据,进而实现了对可疑交易数据较为准确的识别。
在其中一个实施例中,如图7所示,将可疑交易数据录入至银行的可疑数据监控系统,包括步骤262至步骤268:
S262、将可疑交易数据录入至银行的可疑数据监控系统,生成可疑交易数据的补录结果。
其中,流程自动化机器人将可疑交易数据录入至银行的可疑数据监控系统后,判断可疑交易数据录入是否成功,若可疑交易数据成功录入至可疑数据监控系统,则流程自动化机器人生成可疑交易数据录入成功的补录结果;若可疑交易数据没有成功录入至可疑数据监控系统,则流程自动化机器人生成可疑交易数据录入失败的补录结果。
具体的,流程自动化机器人完成将可疑交易数据录入至银行的可疑数据监控系统时,在可疑数据监控系统网页点击保存按钮,并依据依据可疑数据监控系统网页的弹出对话框判断该笔交易是否补录成功。例如,流程自动化机器人可以依据网页弹出对话框的文本内容来判断是否补录成功,若网页弹出对话框的文本内容出现“成功”文本内容,则流程自动化机器人判断补录成功,若网页弹出对话框的文本内容出现“失败”文本内容,则流程自动化机器人判断补录失败。随后,流程自动化机器人依据可疑交易数据录入至银行的可疑数据监控系统的补录情况,生成可疑交易数据的补录结果。
S264、基于可疑交易数据的补录结果生成可疑交易数据的补录文件。
其中,流程自动化机器人将可疑交易数据的录入详情信息生成补录文件。上述录入详情信息包括交易流水号、补录字段、补录数据、日期等信息。流程自动化机器人还可以根据可疑交易数据的录入详情信息生成补录日报、月报明细报表等。
S266、将可疑交易数据的补录文件写入至预设邮件模板,生成可疑交易数据的补录邮件。
其中,流程自动化机器人将可疑交易数据补录文件中内容写入预设邮件模板,进而生成可疑交易数据的补录邮件,上述预设邮件模板包括邮件标题、收件人、正文及附件等信息,供业务人员进行查看和审核,其中对于录入失败的可疑交易数据还需返回失败原因。
S268、将可疑交易数据的补录邮件以邮件的方式发送至目标业务人员。
流程自动化机器人将可疑交易数据的补录邮件以邮件的方式发送至目标业务人员,具体可以通过简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)或邮局协议版本3(Post Office Protocol-Version 3,POP3)等方式发送至业务人员的指定邮箱,实现可疑交易数据自动录入的邮件实时提醒。
另外,流程自动化机器人还可以根据当月、当季时间维度和各个区域监控划分要求,筛选当前需要报送的用户交易数据。流程自动化机器人还可以根据报送监管报文要求,校验各字段是否复核报送要求,对不完整、不正确要素字段进行记录。流程自动化机器人还可以根据核验记录,生成待补录清单数据,系统分发至个地区进行补录确认工作。
在本申请实施例中,将可疑交易数据录入至银行的可疑数据监控系统,包括:将可疑交易数据录入至银行的可疑数据监控系统,生成可疑交易数据的补录结果;基于可疑交易数据的补录结果生成可疑交易数据的补录文件;将可疑交易数据的补录文件写入至预设邮件模板,生成可疑交易数据的补录邮件;将可疑交易数据的补录邮件以邮件的方式发送至目标业务人员。流程自动化机器人将可疑交易数据录入结果以邮件的形式发送至目标业务人员,可以实现对可疑交易数据实时监测。
在其中一个实施例中,目标识别模型包括:基于支持向量机算法构建的模型、基于随机森林算法构建的模型、基于梯度提升决策树算法构建的模型以及基于神经网络算法构建的模型。
其中,基于支持向量机(Support Vector Machine,SVM)算法是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器,另外,SVM可以通过核方法进行非线性分类,是常见的核学习方法之一。对于SVM算法有多种改进算法,下面对SVM的一些改进算法进行大致介绍:
(1)偏斜数据的改进算法:偏斜数据的改进算法的特点是可以通过修改其正则化系数为偏斜数据赋权,比如若学习样本中正例的数量远大于负例,则可按样本比例设定正则化系数;
(2)概率支持向量机算法:概率支持向量机算法可以视为Logistic回归算法和支持向量机算法的结合,SVM算法由决策边界直接输出样本的分类,而概率SVM算法则通过Sigmoid(S型生长曲线)函数计算样本属于其类别的概率。在计算标准支持向量机算法得到学习样本的决策边界后,概率支持向量机算法通过缩放和平移参数对决策边界进行线性变换,并使用极大似然估计得到的值,将样本线性变换后超平面的距离作为Sigmoid函数的输入进而得到概率结果值;
(3)多分类支持向量机算法:支持向量机算法是基于二元分类问题设计的算法,无法直接处理多分类问题,而多分类支持向量机算法利用支持向量机算法的计算流程有序地构建多个决策边界以实现样本的多分类,多分类支持向量机算法通常的实现为“一对多”和“一对一;
(4)最小二乘支持向量机(Least Square SVM,LS-SVM)算法:LS-SVM算法是SVM算法的一种变体,两者的差别是LS-SVM算法没有使用铰链损失函数,而是将其优化问题改写为类似于岭回归;
(5)多核支持向量机算法:多核支持向量机算法是多核学习在监督学习中的实现,是在非线性支持向量机算法中将单个核函数替换为核函数族的改进算法。
上述基于支持向量机算法的改进算法仅仅为一些示例,还包括其它用于分类预测的支持向量机改进算法,本申请对此不作限定。
进一步的,随机森林算法是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果,而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。随机森林算法具有极好的准确率能够有效地运行在大数据集上能够处理具有高维特征的输入样本,而且不需要降维能够评估各个特征在分类问题上的重要性在生成过程中,能够获取到内部生成误差的一种无偏估计对于缺省值问题也能够获得很好的结果。
进一步的,梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是为了解决一般损失函数的优化问题,方法是用损失函数的负梯度在当前模型的值来模拟回归问题中残差的近似值。GBDT算法中的树都是回归树,GBDT算法多用来做回归预测,调整后也可以用于分类,比如,通过设定预设阈值来用作分类问题中,大于该预设阈值则为正例,反之则为反例。由于GBDT算法是通过将多种有区分性的特征进行特征组合,因此GBDT算法是把所有树的结论累加起来得出最终的结论的,GBDT算法的核心在于,每棵树学习的都是之前所有树结论和的残差,呈现负梯度形式,也就是说,该残差值就是一个加预测值后能得到真实值的累加量。
进一步的,神经网络算法就是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重,在网络学习阶段,网络通过调整权重来实现输入样本与其相应类别的对应。由于神经网络学习主要是针对其中的连接权重进行的,因此神经网络的学习有时也称为连接学习;神经网络的优点就是对噪声数据有较好适应能力,并且对未知数据也具有很好的预测分类能力。用于预测分类的神经网络模型有多种,下面对基于神经网络算法的模型进行大致介绍:
(1)BP神经网络是一种神经网络学习算法,其由输入层、中间层、输出层组成的阶层型神经网络,中间层可扩展为多层,相邻层之间各神经元进行全连接,而每层各神经元之间无连接,当一对学习模式提供给网络后,各神经元获得网络的输入响应产生连接权值,然后按减小希望输出与实际输出误差的方向,从输出层经各中间层逐层修正各连接权,回到输入层,此过程反复交替进行,直至网络的全局误差趋向给定的极小值,即完成学习的过程;
(2)径向基函数神经网络是具有单隐层的三层前馈网络,其模拟了人脑中局部调整、相互覆盖接收域(或称感受野)的神经网络结构,因此,RBF网络是一种局部逼近网络,径向基函数神经网络能够以任意精度逼近任意连续函数,特别适合于解决分类问题;
(3)感知器神经网络是一个具有单层计算神经元的神经网络,网络的传递函数是线性阈值单元,感知器神经网络主要用来模拟人脑的感知特征,由于采取阈值单元作为传递函数,适合简单的模式分类问题;
(4)线性神经网络由一个或者多个线性神经元构成,其采用线性函数作为传递函数,所以输出可以是任意值,线性神经网络可以采用基于最小二乘学习规则调节网络的权值和阈值,线性神经网络可以处理反应输入输出样本向量空间的线性映射关系,适用于处理线性可分问题;
上述基于神经网络的算法仅仅为一些示例,除了上述提到的神经网络之外,还可以包括卷积神经网络(Convolutional Neural Networks,CNN)、残差网络(ResidualNetwork,ResNet)、对抗神经网络(Generative Adversarial Nets,GAN)、LeNet网络等其它可用于分类预测的神经网络模型,本申请对此不作限定。
在本申请实施例中,目标识别模型包括:基于支持向量机算法构建的模型、基于随机森林算法构建的模型、基于梯度提升决策树算法构建的模型以及基于神经网络算法构建的模型。
在一个具体的实施例中,如图8所示,提供了一种可疑交易数据录入方法,应用于流程自动化机器人,包括以下步骤501至步骤516。
S501、获取多个交易样本数据集及与交易样本数据集对应的业务场景的类型;
S502、根据业务场景的类型,确定与交易样本数据集对应的目标识别模型为逻辑回归模型;
S503、对逻辑回归模型的参数进行初始化处理及迭代训练,生成逻辑回归模型的中间参数;
S504、基于预设评价指标从逻辑回归模型的中间参数中,确定逻辑回归模型的目标参数;
S505、基于逻辑回归模型的目标参数,构建与交易样本数据对应的目标识别模型;
S506、从数据库中获取银行的用户交易数据;
S507、对用户交易数据进行数据清洗,生成数据清洗后的用户交易数据;
S508、对数据清洗后的用户交易数据,从用户特征、账户特征以及交易明细特征中的至少一个维度进行特征提取,生成数据清洗后的用户交易数据的目标特征;
S509、获取与用户交易数据对应的业务场景的类型;
S510、根据业务场景的类型从交易样本数据识别模型中,确定目标识别模型;
S511、通过目标识别模型判断用户交易数据中的目标特征是否具有可疑性;
S512、若是,则根据用户交易数据的目标特征确定用户交易数据为可疑交易数据;
S513、将可疑交易数据录入至银行的可疑数据监控系统,生成可疑交易数据的补录结果;
S514、基于可疑交易数据的补录结果生成可疑交易数据的补录文件;
S515、将可疑交易数据的补录文件写入至预设邮件模板,生成可疑交易数据的补录邮件;
S516、将可疑交易数据的补录邮件以邮件的方式发送至目标业务人员。
上述可疑交易数据录入方法,具体涉及金融科技领域或其他相关领域,随着全球金融环境不确定因素的增加,国际社会对反洗钱关注度急剧上升,反洗钱范围趋广、标准趋高、要求趋严、处罚趋重的特征愈发明显。鉴于严峻复杂的反洗钱形势,建立新型智能反洗钱系统,对于维护国际金融秩序、以及保障国际化进程的顺利推进具有十分重要的意义,其中,银行是国内反洗钱监控系统中重要的一环,因此需要不断提升银行的反洗钱监控系统对反洗钱风险的防控能力。本申请实施例中,将上述可疑交易数据录入方法应用于银行的反洗钱监控系统,实现对银行交易中的可疑交易数据识别,并且自动将可疑交易数据录入至银行的反洗钱监控系统中。如图9所示,提供了一种应用于银行的反洗钱监控系统的可疑交易数据录入方法示意图,应用于流程自动化机器人,包括步骤601至步骤608:
S601、若用户申请在银行开设账户,业务人员将用户的身份信息上传至银行系统;
S602、流程自动化机器人获取用户的身份信息,对用户的身份信息进行验证,若验证成功,流程自动化机器人准许该用户在银行开设账户,执行步骤603;若验证失败,流程自动化机器人拒绝该用户在银行开设账户;
具体的,上述用户的身份信息可以但不限于用户的姓名、性别、出生日期、年龄以及身份证号,本申请对此不做限定。流程自动化机器人通过验证用户的身份信息是否正确,比如,若流程自动化机器人验证用户的出生日期与身份证号不一致的,则用户的身份信息验证失败,流程自动化机器人拒绝该用户在银行开设账户,并且流程自动化机器人可以向用户返回身份信息验证失败的提示信息,若流程自动化机器人验证用户的出生日期与身份证号是一致的,则用户的身份信息验证成功,流程自动化机器人准许该用户在银行开设账户,并且流程自动化机器人可以可以向用户返回开设的账户信息。
S603、流程自动化机器人将开设的账户信息上传至银行系统的数据库中;
S604、若用户申请在银行办理业务,流程自动化机器人获取到用户交易数据,将用户交易数据进行黑名单检查,判断上述用户交易数据是否为可以候选可疑交易数据,若是,则流程自动化机器人拒绝该用户在银行办理业务的申请;若否,则执行步骤605;
具体的,上述用户交易数据包括但不限于用户的身份信息数据以及交易信息数据,身份信息数据可以但不限于用户的姓名、性别、出生日期、年龄、职业、公司名称以及身份证号等,交易信息数据可以但不限于用户的开通网银的情况、用户名下账户数量、用户最早开户日期、用户在不同时间尺度下资金交易情况等,本申请对此不做限定。上述黑名单由国家政府、金融监管机构以及金融组织发布的黑名单库组成,黑名单中包括了可疑用户的身份信息数据以及交易信息数据等。流程自动化机器人获取到用户交易数据,将用户交易数据进行黑名单检查,若用户交易数据没有通过黑名单检查,则流程自动化机器人拒绝该用户在银行办理业务的申请,并且流程自动化机器人可以向用户返回业务申请失败的提示信息;若用户交易数据通过黑名单检查,则流程自动化机器人将上述用户交易数据上传至银行系统,并且银行的业务人员从银行系统获取上述用户交易数据,并从用户交易数据中筛选出大额或者异常的交易,随后执行步骤605。
S605、流程自动化机器人将上述大额或者异常的用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据是否为可疑交易数据;若否,则流程自动化机器人将上述用户交易数据整理为报告归档;若否,则流程自动化机器人将上述用户交易数据录入至银行的反洗钱监控系统,生成可疑交易数据的补录结果,并执行步骤606,目标识别模型为与用户交易数据的业务场景的类型相对应的模型;
S606、流程自动化机器人基于可疑交易数据的补录结果生成可疑交易数据的补录文件,并将可疑交易数据的补录文件写入至预设邮件模板,生成可疑交易数据的补录邮件,随后将可疑交易数据的补录邮件以邮件的方式报送至目标业务人员,上述目标业务人员可以为金融监管机构的相关业务人员。
S607、流程自动化机器人基于可疑交易数据的补录结果更新该可疑交易数据的用户风险等级,并将上述可疑交易数据以及对应的用户风险等级上传至黑名单中,对上述黑名单进行更新;
S608、流程自动化机器人将上述已报送的可疑交易数据的补录文件存储于银行系统的数据库中,并基于可疑交易数据的报送结果生成报告归档,银行的业务人员可以从银行系统的数据库中实时查询可疑交易数据的报送信息,银行的业务人员也可以对报告文档实时查询以及维护报告文档。
在本申请实施例中,提供了一种可疑交易数据录入方法,应用于流程自动化机器人,上述方法包括:从数据库中获取银行的用户交易数据;将用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据是否为可疑交易数据;目标识别模型为与用户交易数据的业务场景的类型相对应的模型;若用户交易数据为可疑交易数据,则将可疑交易数据录入至银行的可疑数据监控系统。由于在传统的可疑交易数据录入方法需要通过人工将可疑交易数据录入至可疑数据监控系统,进而导致可疑交易数据录入耗费大量人力以及数据录入效率低的问题。本申请中服务器中部署有流程自动化机器人,上述流程自动化机器人从数据库中获取银行的用户交易数据,并将用户交易数据输入至目标识别模型中,进而判断用户交易数据是否为可疑交易数据,若用户交易数据为可疑交易数据,上述流程自动化机器人将可疑交易数据录入至银行的可疑数据监控系统,通过将可疑交易数据判断以及可疑交易数据录入与流程自动化机器人相结合,进而实现了可疑交易数据的自动录入。从而,有效节省了人力资源以及提高了可疑交易数据录入工作的效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的可疑交易数据录入方法的可疑交易数据录入装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个设备盘点装置实施例中的具体限定可以参见上文中对于可疑交易数据录入方法的限定,在此不再赘述。
在其中一个实施例中,如图10所示,提供了一种可疑交易数据录入装置700,包括:交易数据获取模块710、交易数据判断模块720以及交易数据录入模块730,其中:
交易数据获取模块710,用于从数据库中获取银行的用户交易数据;
交易数据判断模块720,用于将用户交易数据输入至目标识别模型中,通过目标识别模型判断用户交易数据是否为可疑交易数据;目标识别模型为与用户交易数据的业务场景的类型相对应的模型;
交易数据录入模块730,用于若用户交易数据为可疑交易数据,则将可疑交易数据录入至银行的可疑数据监控系统。
在其中一个实施例中,如图11所示,上述可疑交易数据录入装置700,还包括:场景类型获取模块740以及数据识别模型构建模块750,其中:
场景类型获取模块740,用于获取多个交易样本数据集及与交易样本数据集对应的业务场景的类型;
数据识别模型构建模块750,用于针对各交易样本数据集,根据与交易样本数据集对应的业务场景的类型,构建与交易样本数据集对应的交易样本数据识别模型。
在其中一个实施例中,如图12所示,数据识别模型构建模块750,包括:逻辑回归模型确定单元752、中间参数生成单元754、目标参数确定单元756以及目标识别模型构建单元758,其中:
逻辑回归模型确定单元752,用于根据业务场景的类型,确定与交易样本数据集对应的目标识别模型为逻辑回归模型;
中间参数生成单元754,用于对逻辑回归模型的参数进行初始化处理及迭代训练,生成逻辑回归模型的中间参数;
目标参数确定单元756,用于基于预设评价指标从逻辑回归模型的中间参数中,确定逻辑回归模型的目标参数;
目标识别模型构建单元758,用于基于逻辑回归模型的目标参数,构建与交易样本数据对应的目标识别模型。
在其中一个实施例中,如图13所示,可疑交易数据录入装置700,还包括:数据清洗模块760以及特征提取模块770,其中:
数据清洗模块760,用于对用户交易数据进行数据清洗,生成数据清洗后的用户交易数据;
特征提取模块770,用于对数据清洗后的用户交易数据,从用户特征、账户特征以及交易明细特征中的至少一个维度进行特征提取,生成数据清洗后的用户交易数据的目标特征。
在其中一个实施例中,如图14所示,交易数据判断模块720,包括:业务场景类型获取单元722、识别模型确定单元724、可疑性判断单元726以及可疑交易数据确定单元728,其中:
业务场景类型获取单元722,用于获取与用户交易数据对应的业务场景的类型;
识别模型确定单元724,用于根据业务场景的类型从交易样本数据识别模型中,确定目标识别模型;
可疑性判断单元726,用于通过目标识别模型判断用户交易数据中的目标特征是否具有可疑性;
可疑交易数据确定单元728,用于根据用户交易数据的目标特征确定用户交易数据为可疑交易数据。
在其中一个实施例中,如图15所示,交易数据录入模块730,包括:补录结果生成单元732、补录文件生成单元734、补录邮件生成单元736以及补录邮件发送单元738,其中:
补录结果生成单元732,用于将可疑交易数据录入至银行的可疑数据监控系统,生成可疑交易数据的补录结果;
补录文件生成单元734,用于基于可疑交易数据的补录结果生成可疑交易数据的补录文件;
补录邮件生成单元736,用于将可疑交易数据的补录文件写入至预设邮件模板,生成可疑交易数据的补录邮件;
补录邮件发送单元738,用于将可疑交易数据的补录邮件以邮件的方式发送至目标业务人员。
关于可疑交易数据录入装置的具体限定可以参见上文中对于可疑交易数据录入方法的限定,在此不再赘述。上述可疑交易数据录入装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储设备盘点数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种可疑交易数据录入方法。
本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行可疑交易数据录入方法的步骤。
一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行可疑交易数据录入方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种可疑交易数据录入方法,其特征在于,应用于流程自动化机器人,所述方法包括:
从数据库中获取银行的用户交易数据;
将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;
若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个交易样本数据集及与所述交易样本数据集对应的业务场景的类型;
针对各所述交易样本数据集,根据与所述交易样本数据集对应的所述业务场景的类型,构建与所述交易样本数据集对应的交易样本数据识别模型。
3.根据权利要求2所述的方法,其特征在于,所述根据与所述交易样本数据集对应的所述业务场景的类型,构建与所述交易样本数据集对应的交易样本数据识别模型,包括:
根据所述业务场景的类型,确定与所述交易样本数据集对应的目标识别模型为逻辑回归模型;
对所述逻辑回归模型的参数进行初始化处理及迭代训练,生成所述逻辑回归模型的中间参数;
基于预设评价指标从所述逻辑回归模型的中间参数中,确定所述逻辑回归模型的目标参数;
基于所述逻辑回归模型的目标参数,构建与所述交易样本数据对应的目标识别模型。
4.根据权利要求1所述的方法,其特征在于,在所述从数据库中获取银行的用户交易数据之后,包括:
对所述用户交易数据进行数据清洗,生成数据清洗后的用户交易数据;
对所述数据清洗后的用户交易数据,从用户特征、账户特征以及交易明细特征中的至少一个维度进行特征提取,生成所述数据清洗后的用户交易数据的目标特征。
5.根据权利要求4所述的方法,其特征在于,所述将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据,包括:
获取与所述用户交易数据对应的业务场景的类型;
根据所述业务场景的类型从所述交易样本数据识别模型中,确定目标识别模型;
通过所述目标识别模型判断所述用户交易数据中的目标特征是否具有可疑性;
若是,则根据所述用户交易数据的目标特征确定所述用户交易数据为可疑交易数据。
6.根据权利要求1所述的方法,其特征在于,所述将所述可疑交易数据录入至所述银行的可疑数据监控系统,包括:
将所述可疑交易数据录入至所述银行的可疑数据监控系统,生成所述可疑交易数据的补录结果;
基于所述可疑交易数据的补录结果生成所述可疑交易数据的补录文件;
将所述可疑交易数据的补录文件写入至预设邮件模板,生成所述可疑交易数据的补录邮件;
将所述可疑交易数据的补录邮件以邮件的方式发送至目标业务人员。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述目标识别模型包括:基于支持向量机算法构建的模型、基于随机森林算法构建的模型、基于梯度提升决策树算法构建的模型以及基于神经网络算法构建的模型。
8.一种可疑交易数据录入装置,其特征在于,所述装置包括:
交易数据获取模块,用于从数据库中获取银行的用户交易数据;
交易数据判断模块,用于将所述用户交易数据输入至目标识别模型中,通过所述目标识别模型判断所述用户交易数据是否为可疑交易数据;所述目标识别模型为与所述用户交易数据的业务场景的类型相对应的模型;
交易数据录入模块,用于若所述用户交易数据为可疑交易数据,则将所述可疑交易数据录入至所述银行的可疑数据监控系统。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111299757.1A 2021-11-04 2021-11-04 可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质 Pending CN114049204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111299757.1A CN114049204A (zh) 2021-11-04 2021-11-04 可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111299757.1A CN114049204A (zh) 2021-11-04 2021-11-04 可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114049204A true CN114049204A (zh) 2022-02-15

Family

ID=80207223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111299757.1A Pending CN114049204A (zh) 2021-11-04 2021-11-04 可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114049204A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913517A (zh) * 2022-04-11 2022-08-16 四川新网银行股份有限公司 一种自动获取并分析关键数据形成避免可疑资金交易报告的方法及装置
CN117215545A (zh) * 2023-11-09 2023-12-12 江西三叉数信息科技有限公司 业务流程化应用开发方法、系统及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767322A (zh) * 2018-12-20 2019-05-17 平安科技(深圳)有限公司 基于大数据的可疑交易分析方法、装置和计算机设备
CN111191720A (zh) * 2019-12-30 2020-05-22 中国建设银行股份有限公司 一种业务场景的识别方法、装置及电子设备
CN111967801A (zh) * 2020-09-23 2020-11-20 中国建设银行股份有限公司 交易风险的预测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767322A (zh) * 2018-12-20 2019-05-17 平安科技(深圳)有限公司 基于大数据的可疑交易分析方法、装置和计算机设备
CN111191720A (zh) * 2019-12-30 2020-05-22 中国建设银行股份有限公司 一种业务场景的识别方法、装置及电子设备
CN111967801A (zh) * 2020-09-23 2020-11-20 中国建设银行股份有限公司 交易风险的预测方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913517A (zh) * 2022-04-11 2022-08-16 四川新网银行股份有限公司 一种自动获取并分析关键数据形成避免可疑资金交易报告的方法及装置
CN117215545A (zh) * 2023-11-09 2023-12-12 江西三叉数信息科技有限公司 业务流程化应用开发方法、系统及设备
CN117215545B (zh) * 2023-11-09 2024-01-26 江西三叉数信息科技有限公司 业务流程化应用开发方法、系统及设备

Similar Documents

Publication Publication Date Title
Mittal et al. Monitoring the impact of economic crisis on crime in India using machine learning
CN109657918B (zh) 关联评估对象的风险预警方法、装置和计算机设备
Baesens et al. Using neural network rule extraction and decision tables for credit-risk evaluation
CN111724083A (zh) 金融风险识别模型的训练方法、装置、计算机设备及介质
US20210303970A1 (en) Processing data using multiple neural networks
US11568197B2 (en) Method, system, and apparatus for generating and training a digital signal processor for evaluating graph data
US11526261B1 (en) System and method for aggregating and enriching data
CA3125582A1 (en) Micro-loan system
US11538029B2 (en) Integrated machine learning and blockchain systems and methods for implementing an online platform for accelerating online transacting
CN114049204A (zh) 可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质
Li et al. Stock trading strategies based on deep reinforcement learning
US11789935B2 (en) Data aggregation with microservices
CN113011646A (zh) 一种数据处理方法、设备以及可读存储介质
CN116452333A (zh) 异常交易检测模型的构建方法、异常交易检测方法及装置
Yavuz A leading indicator approach with data mining techniques in analysing bitcoin market value
Elaziz et al. Deep reinforcement learning for data-efficient weakly supervised business process anomaly detection
Wambura et al. Robust anomaly detection in feature-evolving time series
Fernández-Navarro et al. Evolutionary q-Gaussian radial basis function neural network to determine the microbial growth/no growth interface of Staphylococcus aureus
Ling et al. Financial Crisis Prediction Based on Long‐Term and Short‐Term Memory Neural Network
Lin et al. Integrated business prestige and artificial intelligence for corporate decision making in dynamic environments
Qasem et al. Extreme learning machine for credit risk analysis
US20240161117A1 (en) Trigger-Based Electronic Fund Transfers
CN118786449A (zh) 用于基于监管报告和分析来生成洞察的系统和方法
US20240028931A1 (en) Directed Acyclic Graph of Recommendation Dimensions
US11593406B2 (en) Dynamic search parameter modification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination