CN112101952B

CN112101952B - 银行可疑交易评估、数据处理方法及装置

Info

Publication number: CN112101952B
Application number: CN202011032514.7A
Authority: CN
Inventors: 张海锋
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2024-05-10
Anticipated expiration: 2040-09-27
Also published as: CN112101952A

Abstract

本发明提供了一种银行可疑交易评估、数据处理方法及装置，银行可疑交易评估数据处理方法，包括：获取银行交易相关数据；对银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集；对交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据。本发明解决了专家模型中基于有限样本集的局限性问题，摆脱了专家模型中专家的领域知识的约束，进而解决了传统专家模型中较高的人力成本和模型后期的升级改造成本，通过样本平衡处理，解决了样本失衡问题，提高了模型的准确率和召回率。通过对特征进行降维处理，提高了模型的学习效率，降低了时间成本。

Description

银行可疑交易评估、数据处理方法及装置

技术领域

本发明涉及数据处理技术，具体的讲是一种银行可疑交易评估、数据处理方法及装置。

背景技术

随着互联网科技的创新发展，在经济全球化的背景之下，金钱交易方式变得更加多元化、组织化以及专业化。交易的途径与方式参差不齐，相关的客户数据和交易数据散落各处，这给可疑交易的监管带来更大的挑战。

在金融领域业务的快速发展下，伴随而来的是海量数据的高效处理的要求。在此背景下，传统的规则集模型越发显现出了不足，需要投入更多的人力成本来支持模型的搭建。为此，金融领域开始引进了人工智能、大数据和机器学习等技术。基于大数据技术，对数据自身的价值进行挖掘分析，同时通过机器学习技术来学得各类鲁棒的模型，其中就包括了可疑交易模型。

传统的可疑交易模型采用基于规则集的专家模型进行匹配筛查，如图1所示。专家系统的核心在于领域专家对知识或者规则的提取。领域专家基于可疑交易的抽样样本集的数据，进行特征提取等数据分析操作，进而提取出有价值的、可识别出可疑交易信息的有效规则集，并通过人机交互界面等方式最终转换为机器可理解的知识库或规则集。一旦形成了规则集知识库，那么就可以将日常产生的交易数据通过人机交互界面录入并进行规则集知识库匹配。模型将对输入的交易数据进行逐条规则的匹配，最终输入匹配结果。若结果显示命中可疑模型的规则集，那么该笔交易即被模型判断为可疑交易。

传统的基于规则集的专家方法虽然简单直接，但受限于人力资源，专家在进行规则提炼获取时，主要采用抽样模式进行归纳分析，其中必然不可避免的遗漏掉一些可疑交易的特征，从而导致提炼的基于规则集的专家模型存在一定的局限性。同时，金融行业领域众多，业务宽泛，专家模型往往局限于各自熟知的领域，这将提高对模型的全局把控与后期维护带来成本的提高，并且一旦专家对模型规则进行改进后，需要投入新的人力成本进行相应模型的重新开发、测试与上线升级等操作，模型的升级成本较高，在时效性上，由于传统的基于规则集的专家模型主要用于事后周期性批量作业，存在一定的滞后性。

发明内容

为至少解决现有技术中的一个问题，本发明实施例提供了一种银行可疑交易评估数据处理方法，包括：

获取银行交易相关数据；

对所述银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集；

对所述的交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据。

本发明实施例中，所述的银行交易相关数据包括：银行可疑交易和银行正常交易的客户信息、交易对手信息、交易信息。

本发明实施例中，所述的对所述银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集包括：

对所述银行交易数据中的噪声数据、缺失字段数据及重复数据进行清理；

将清理后的银行交易数据按类型转换处理；

将转换处理后的数据加载到数据仓库；

将数据仓库中的交易数据进行特征工程处理生成可用于机器模型学习训练的交易数据样本集。

本发明实施例中，所述的对所述的交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据包括：

对交易数据样本集中的可疑交易数据进行过采样处理生成可疑交易样本数据；

对交易数据样本集中的正常交易数据进行欠采样，并对欠采样处理后的样本数据进行随机均分处理，以生成与所述可疑交易样本数据同一数量级的正常交易样本数据；

根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据。

本发明实施例中，所述的根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据包括：

对所述的可疑交易样本数据和正常交易样本数据进行降维处理，生成银行可疑交易评估数据。

同时，本发明还提供一种银行可疑交易评估数据处理装置，装置包括：

数据获取模块，用于获取银行交易相关数据；

样本集生成模块，用于对所述银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集；

评估数据生成模块，用于对所述的交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据。

本发明实施例中，所述的样本集生成模块包括：

清理单元，用于对所述银行交易数据中的噪声数据、缺失字段数据及重复数据进行清理；

转换单元，用于将清理后的银行交易数据按类型转换处理；

加载单元，用于将转换处理后的数据加载到数据仓库；

特征处理单元，用于将数据仓库中的交易数据进行特征工程处理生成可用于机器模型学习训练的交易数据样本集。

本发明实施例中，所述的评估数据生成模块包括：

可疑数据处理单元，用于对交易数据样本集中的可疑交易数据进行过采样处理生成可疑交易样本数据；

正常交易数据处理单元，用于对交易数据样本集中的正常交易数据进行欠采样，并对欠采样处理后的样本数据进行随机均分处理，以生成与所述可疑交易样本数据同一数量级的正常交易样本数据；

评估数据生成单元，用于根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据。

本发明实施例中，所述的评估数据生成单元根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据包括：

本发明还提供一种银行可疑交易评估方法，利用前述的方法生成的银行可疑交易评估数据进行银行可疑交易评估，其包括：

获取银行交易数据及所述的银行可疑交易评估数据；

将银行可疑交易评估数据作为模型训练特征集，利用k-折交叉验证方法进行机器算法模型训练生成k个评估模型并确定各评估模型的准确率；

利用各模型的的准确率作为各模型的权重对k个评估模型进行加权平均确定可疑交易评估模型；

利用确定的可用交易评估模型对获取的银行交易数据进行可以交易评估。

本发明实施例中，所述的方法还包括：

利用随机森林算法并利用PR曲线作为模型评估标准，确定所述的k个评估模型的准确率。

再进一步，本发明还提供一种银行可疑交易评估装置，利用前述的装置生成的银行可疑交易评估数据进行银行可疑交易评估，所述银行可疑交易评估装置包括：

评估数据获取模块，用于获取银行交易数据及所述的银行可疑交易评估数据；

训练模块，用于将银行可疑交易评估数据作为模型训练特征集，利用k-折交叉验证方法进行机器算法模型训练生成k个评估模型并确定各评估模型的准确率；

可疑交易评估模型确定模块，用于剩利用各模型的的准确率作为各模型的权重对k个评估模型进行加权平均确定可疑交易评估模型；

评估模块，用于利用确定的可用交易评估模型对获取的银行交易数据进行可以交易评估。

同时，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法。

同时，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有执行上述方法的计算机程序。

针对传统的基于规则集的专家模型，本发明采用机器学习算法来自动学习得出评估模型。由于机器学习基于海量的数据进行模型的学习，解决了专家模型中基于有限样本集的局限性问题，摆脱了专家模型中专家的领域知识的约束，进而解决了传统专家模型中较高的人力成本和模型后期的升级改造成本。针对模型训练集数据，本发明通过样本平衡处理，解决了样本失衡问题，提高了模型的准确率和召回率。通过对特征进行降维处理，提高了模型的学习效率，降低了时间成本。此外，通过k-折交叉验证方法和PR曲线评估标准作为模型训练的条件，提高了模型的鲁棒性。最后，通过对k个模型进行准确率的加权平均来获取得到最后的结果，提高了模型的可靠性。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中基于规则集的专家模型；

图2为本发明实施例中基于机器学习的评估模型；

图3为本发明提供的银行可疑交易评估数据处理方法的流程图；

图4为本发明提供的一种银行可疑交易评估数据处理装置的框图；

图5为本发明提供一种银行可疑交易评估方法的流程图；

图6为本发明实施例中提供的适用于样本失衡的特征降维可疑交易模型方法的示意图；

图7为本发明提供的银行可疑交易评估装置的框图；

图8为本发明实施例中提供的电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在金融领域业务的快速发展下，伴随而来的是海量数据的高效处理的要求。在此背景下，传统的规则集模型越发显现出了不足，需要投入更多的人力成本来支持模型的搭建。为此，金融领域开始引进了人工智能、大数据和机器学习等技术。基于大数据技术，对数据自身的价值进行挖掘分析，同时通过机器学习技术来学得各类鲁棒的模型，其中就包括了可疑交易模型。基于机器学习的模型是通过学习算法自动对数据自身特征进行建模的，摆脱了传统规则集模型需要基于专家领域知识认知的限制，能够更为全面的对数据特征进行归纳学习；同时，与传统规则集模型基于有限抽样集不同，基于机器学习的模型是在大量数据样本的基础上进行模型学习的，因此一个设计优秀的机器学习模型，在准确性和可靠性上是优于传统的规则集模型的。

金融领域近年来新起的基于机器学习的评估模型在实现流程上都大同小异，如图2所示。与基于规则集的专家模型最大的不同在于，基于机器学习的评估模型是用机器学习算法来替代专家在特定领域的知识储备的，也就是说，机器需要归纳学习出领域专家所能获取到的知识，例如规则集。因为机器本身不存在专家的领域知识，所以要想归纳出有价值的特征、规则等，就必须基于海量的可疑交易数据集进行不断的学习，同时要告知机器每笔数据是否可疑。

基于机器学习的评估模型主要可以分为四个步骤：首先，通过ETL技术将海量的可疑交易数据进行抽取、转换和加载处理，进而提炼出可供机器学习算法进行学习的特征集合；其次，将提取出的特征集和选定的评估指标作为机器学习算法的输入，进而学习得到可疑交易评估模型；然后，将评估模型作用于测试集上，进行模型的准确性、可靠性等评估，进一步调整优化模型；最后，得到的最终模型即可用于日常交易数据进行可疑评估。

对于日常交易数据进行可疑评估，主要采用的就是以上的基于规则集的模型和基于机器学习的模型来对可疑交易进行识别。二者各有其优缺点，基于规则集的模型的优点是系统设计简单明了，对命中的可疑交易能够进行规则集的直观解释。而基于机器学习的模型将是未来的重点发展方向，它能够在提高准确性和可靠性的同时，较好的降低人力成本，通过让机器自动学习知识，来摆脱领域专家的限制。

如图3所示，为本发明提供的银行可疑交易评估数据处理方法，其包括：

步骤S101，获取银行交易相关数据；

步骤S102，对所述银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集；

在金融领域，一笔交易相关的数据信息往往涵盖广泛，即本发明方法中涉及的银行交易相关数据包括客户自身信息、交易对手信息、交易信息等。

具体的，为了对更好的对交易进行可疑判断，往往还是引入附加的第三方数据，例如第三方金融机构、海关和司法等领域的个人数据。由于这些数据都散落在各处，本发明实施例中，通过对银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集，即将银行交易相关数据转变为可用的特征样本集。

即本发明实施例中，对所述银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集包括：

将清理后的银行交易数据按类型转换处理；

将转换处理后的数据加载到数据仓库；

具体的，本发明实施例中，将银行交易相关数据转变为可用的特征样本集具体的主要通过以下4个步骤：

1.数据抽取，将散落在各处系统中有价值的数据通过数据接口或者数据库语句等方式从各自等系统出抽取出来。

2.数据转换，对抽取出来对数据需要进行清理和转换操作。通过数据清理，将噪声数据、缺失字段数据和重复数据等去掉；通过数据转换操作，将来自各系统中相同的类型的数据进行数据统一，并对必要对数据进行汇总层面的转换。

3.数据加载，将各系统中抽取并进过转换处理后的数据加载到数据仓库中。

4.特征工程，该过程是将数据仓库中原始的数据转变为可供模型学习训练的数据。主要包括时间戳处理、离散值处理以及数据归一化处理等。

以上步骤中对前3个过程，即数据抽取、转换和加载，可以通过ETL(Extract-Transform-Load，抽取、转换、加载)技术进行完成；而第4步对特征工程，可以通过特征工程技术，例如独热编码、简单缩放和数据标准化等技术来完成。

步骤S103，对所述的交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据。

虽然对银行交易样本数据进行数据抽取、转换、加载和特征工程处理后，已经能够输出用于机器学习算法进行模型学习使用的特征集，但是由于可疑交易领域的原始样本数据存在严重的样本失衡问题，即可疑和正常的交易样本的数据量存在明显的差别，正常的样本数据往往远大于可疑样本，若直接将其用于模型学习使用，将影响学得模型的评估性能。

本发明实施例中，对所述的交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据包括：

所述的根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据包括：

具体的，本发明实施例中不直接将进行数据抽取、转换、加载和特征工程处理后的银行交易样本数据作为模型的学习特征，而是通过以下步骤，解决特征集失衡问题，并创建更有利于模型学习的特征集。

过采样处理，由于可疑交易和正常交易样本存在严重的失衡问题，为了解决可疑交易样本数据不足的问题，通过欠采样处理方法，人为生成新的可疑交易样本，该过程可通过SMOTE(Synthetic Minority Oversampling Technique，合成少数类过采样技术)实现。

欠采样和k等分，过采样处理可以在一定程度上增加可疑交易样本集的数量，但是仍然无法达到和正常交易样本集一样的数量集。因此，还需要通过欠采样处理，将正常交易样本集进行随机均分处理，使每一份均分后的样本集和过采样后的可疑交易样本集处于同一个数量级。

特征降维，由于提取的特征集是基于海量的数据集的，因此特征集的维度较高，即一条样本记录包含了非常多的字段信息。如果将这些字段都直接作为模型学习的特征，那么将导致学习时间成本非常大。因此，本发明实施例中，通过特征降维方法对一些冗余特征或者相关性较小的特征进行剔除，本发明实施例中，该过程可以通过PCA(PrincipalComponents Analysis，主成分分析)技术实现。

本发明实施例提供的银行可疑交易评估数据处理方法，通过欠采样和过采样技术，对失衡样本进行处理，保障正负样本的平衡，通过对失衡样本中占比较大的样本进行k均分处理，保障样本的均衡，通过降维技术，对高维特征集进行降维处理，提高机器学习的效率，降低时间成本。

同时，如图4所示，本发明还提供一种银行可疑交易评估数据处理装置，包括：

数据获取模块401，用于获取银行交易相关数据；

样本集生成模块402，用于对银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集；

评估数据生成模块403，用于对交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据。

具体的，本发明实施例中，所述的样本集生成模块402包括：

转换单元，用于将清理后的银行交易数据按类型转换处理；

加载单元，用于将转换处理后的数据加载到数据仓库；

所述的评估数据生成模块403包括：

评估数据生成单元根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据包括：对所述的可疑交易样本数据和正常交易样本数据进行降维处理，生成银行可疑交易评估数据。

对本领域技术人员而言，通过本发明实施例中前述银行可疑交易评估数据处理方法的描述可清楚获知本发明银行可疑交易评估数据处理装置的实现方式，在此不再赘述。

进一步，本发明还提供一种银行可疑交易评估方法，前述的银行可疑交易评估数据处理方法生成的银行可以交易评述数据进行银行可疑交易评估，如图5所示，本方法其包括：

步骤S501，获取银行交易数据及所述的银行可疑交易评估数据；

步骤S502，将银行可疑交易评估数据作为模型训练特征集，利用k-折交叉验证方法进行机器算法模型训练生成k个评估模型并确定各评估模型的准确率；

步骤S503，利用各模型的的准确率作为各模型的权重对k个评估模型进行加权平均确定可疑交易评估模型；

步骤S504，利用确定的可用交易评估模型对获取的银行交易数据进行可以交易评估。

本发明实施例中，还进一步包括：利用随机森林算法并利用PR曲线作为模型评估标准，确定所述的k个评估模型的准确率。

本发明实施例中，首先是对原始交易相关数据集进行数据清理和特征工程操作，从而获取到失衡特征样本集；然后，对失衡特征样本集进行再平衡操作、k折均分以及特征降维等操作后，获得可供机器学习算法进行模型训练的特征集；最后，通过挑选合适的模型评估指标和模型训练方法，学习得出最终鲁棒的评估模型。

如图6所示，为本发明实施例中，提供的适用于样本失衡的特征降维可疑交易模型方法的示意图。具体包括：

失衡特征样本集的创建：将散落在各处的交易相关数据，转变为可用的特征样本集；

1)数据抽取，将散落在各处系统中有价值的数据通过数据接口或者数据库语句等方式从各自等系统出抽取出来。

2)数据转换，对抽取出来对数据需要进行清理和转换操作。通过数据清理，将噪声数据、缺失字段数据和重复数据等去掉；通过数据转换操作，将来自各系统中相同的类型的数据进行数据统一，并对必要对数据进行汇总层面的转换。

3)数据加载，将各系统中抽取并进过转换处理后的数据加载到数据仓库中。

4)特征工程，该过程是将数据仓库中原始的数据转变为可供模型学习训练的数据。主要包括时间戳处理、离散值处理以及数据归一化处理等。

模型学习特征集的创建：

虽然经过数据抽取、转换、加载和特征工程处理后，已经能够输出用于机器学习算法进行模型学习使用的特征集，但是由于可疑交易领域的原始样本数据存在严重的样本失衡问题，即可疑和正常的交易样本的数据量存在明显的差别，正常的样本数据往往远大于可疑样本，若直接将其用于模型学习使用，将影响学得模型的评估性能。因此，本实施例中不直接将其作为模型的学习特征，而是通过以下步骤，解决特征集失衡问题，并创建更有利于模型学习的特征集。

过采样处理，由于可疑交易和正常交易样本存在严重的失衡问题，为了解决可疑交易样本数据不足的问题，通过过采样处理方法，人为生成新的可疑交易样本，该过程可通过SMOTE(Synthetic Minority Oversampling Technique，合成少数类过采样技术)实现。

欠采样和k等分，过采样处理可以在一定程度上增加可疑交易样本集的数量，但是仍然无法达到和正常交易样本集一样的数量集。因此，还需要通过欠采样处理，将正常交易样本集进行随机均分处理，即k等分处理，使每一份均分后的样本集和过采样后的可疑交易样本集处于同一个数量级。

特征降维，由于提取的特征集是基于海量的数据集的，因此特征集的维度较高，即一条样本记录包含了非常多的字段信息。如果将这些字段都直接作为模型学习的特征，那么将导致学习时间成本非常大。因此，可以通过特征降维方法对一些冗余特征或者相关性较小的特征进行剔除，该过程可以通过PCA(Principal Components Analysis，主成分分析)技术实现。

评估模型的学习：

通过以上两部获取到质量较优的可供机器学习算法进行模型训练的特征集后，即可进行最后一步的评估模型的学习。该过程主要经过以下步骤完成。

1)挑选合适的机器学习算法进行模型的训练学习。该步骤中，本发明采用k-折交叉验证方法来训练出k个评估模型，每个模型采用随机森林算法，同时以PR曲线曲线作为模型评估标准，在保证每个模型的召回率下，尽可能提高模型的准确率。随机森林算法只是本发明实施例中训练每个模型时挑选的一种学习算法，作用就是在于学习得出模型，也可以采用其它机器学习算法来获取模型，本发明实施例中并不以此为限。

2)模型学习得到k个评估模型的同时，也将获取到每个模型自身的准确率。通过对每个模型的准确率进行归一化处理后，以每个模型准确率作为其自身的权重，对k个模型进行加权平均，得到最终的可疑交易评估模型，

基于机器学习的模型是通过学习算法自动对数据自身特征进行建模的，摆脱了传统规则集模型需要基于专家领域知识认知的限制，能够更为全面的对数据特征进行归纳学习；同时，与传统规则集模型基于有限抽样集不同，基于机器学习的模型是在大量数据样本的基础上进行模型学习的，因此一个设计优秀的机器学习模型，在准确性和可靠性上是优于传统的规则集模型的。

本发明实施例提供的银行可疑交易评估方法，通过k-折交叉验证方法来对模型进行学习，提高模型对鲁棒性，本实施例中采用PR曲线作为模型评估指标，保障模型的召回率的同时，尽可能提高模型的准确率，采用多模型进行准确率加权平均的方式，得到最终的评估模型，提高模型的可靠性

同时，如图7所示，本发明还提供一种银行可疑交易评估装置利用前述的数据处理方法生成的银行可疑交易评估数据进行银行可疑交易评估，所述银行可疑交易评估装置包括：

评估数据获取模块701，用于获取银行交易数据及所述的银行可疑交易评估数据；

训练模块702，用于将银行可疑交易评估数据作为模型训练特征集，利用k-折交叉验证方法进行机器算法模型训练生成k个评估模型并确定各评估模型的准确率；

可疑交易评估模型确定模块703，用于剩利用各模型的的准确率作为各模型的权重对k个评估模型进行加权平均确定可疑交易评估模型；

评估模块704，用于利用确定的可用交易评估模型对获取的银行交易数据进行可以交易评估。

针对传统的基于规则集的专家模型，本发明采用机器学习算法来自动学习得出评估模型。由于机器学习基于海量的数据进行模型的学习，解决了专家模型中基于有限样本集的局限性问题，摆脱了专家模型中专家的领域知识的约束，进而解决了传统专家模型中较高的人力成本和模型后期的升级改造成本。

针对现有的基于机器学习的评估模型，本发明通过引入欠采样、过采样和k均分方法，解决了样本失衡问题，提高了模型的准确率和召回率。通过对特征进行降维处理，提高了模型的学习效率，降低了时间成本。此外，通过k-折交叉验证方法和PR曲线评估标准作为模型训练的条件，提高了模型的鲁棒性。最后，通过对k个模型进行准确率的加权平均来获取得到最后的结果，提高了模型的可靠性。

本实施例还提供一种电子设备，该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照前述方法及装置的实施例，其内容被合并于此，重复之处不再赘述。

图8为本发明实施例的电子设备600的系统构成的示意框图。如图8所示，该电子设备600可以包括中央处理器100和存储器140；存储器140耦合到中央处理器100。值得注意的是，该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，银行可疑交易评估数据处理功能可以被集成到中央处理器100中。其中，中央处理器100可以被配置为进行如下控制：

获取银行交易相关数据；

将清理后的银行交易数据按类型转换处理；

将转换处理后的数据加载到数据仓库；

在另一实施例中，银行可疑交易评估功能可以被集成到中央处理器100中。其中，中央处理器100可以被配置为进行如下控制：

获取银行交易数据及所述的银行可疑交易评估数据；

在另一个实施方式中，银行可疑交易评估数据处理装置可以与中央处理器100分开配置，例如可以将银行可疑交易评估数据处理装置配置为与中央处理器100连接的芯片，通过中央处理器的控制来实现银行可疑交易评估数据处理功能。

在另一个实施方式中，银行可疑交易评估装置可以与中央处理器100分开配置，例如可以将银行可疑交易评估装置配置为与中央处理器100连接的芯片，通过中央处理器的控制来实现银行可疑交易评估功能。

如图8所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图8中所示的所有部件；此外，电子设备600还可以包括图8中没有示出的部件，可以参考现有技术。

如图8所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读程序，其中当在电子设备中执行所述程序时，所述程序使得计算机在所述电子设备中执行如上面实施例所述的银行可疑交易评估数据处理方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在电子设备中执行上面实施例所述的银行可疑交易评估数据处理。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的，因此所附权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外，由于本领域的技术人员容易想到很多修改和改变，因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作，而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种银行可疑交易评估数据处理方法，其特征在于，所述的方法包括：

获取银行交易相关数据；

对所述的交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据；

所述的对所述的交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据，包括：

对交易数据样本集中的正常交易数据进行欠采样，并对欠采样处理后的样本数据进行随机均分处理，使每一份均分后的样本集和过采样后的可疑交易样本集处于同一个数量级，以生成与所述可疑交易样本数据同一数量级的正常交易样本数据；

根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据；

所述的根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据，包括：

对所述的可疑交易样本数据和正常交易样本数据进行降维处理，生成银行可疑交易评估数据，其中，通过主成分分析来进行降维处理，通过降维处理对冗余特征或者相关性较小的特征进行剔除。

2.如权利要求1所述的银行可疑交易评估数据处理方法，其特征在于，所述的银行交易相关数据包括：银行可疑交易和银行正常交易的客户信息、交易对手信息、交易信息。

3.如权利要求1所述的银行可疑交易评估数据处理方法，其特征在于，所述的对所述银行交易相关数据进行数据清理、数据转换及特征工程处理生成交易数据样本集包括：

将清理后的银行交易数据按类型转换处理；

将转换处理后的数据加载到数据仓库；

4.一种银行可疑交易评估数据处理装置，其特征在于，所述的装置包括：

数据获取模块，用于获取银行交易相关数据；

评估数据生成模块，用于对所述的交易数据样本集进行样本平衡处理以使交易样本集中的可疑交易数据和正常交易数据处于同一数量级，生成银行可疑交易评估数据；

所述的评估数据生成模块包括：

正常交易数据处理单元，用于对交易数据样本集中的正常交易数据进行欠采样，并对欠采样处理后的样本数据进行随机均分处理，使每一份均分后的样本集和过采样后的可疑交易样本集处于同一个数量级，以生成与所述可疑交易样本数据同一数量级的正常交易样本数据；

评估数据生成单元，用于根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据；

所述的评估数据生成单元根据生成的可疑交易样本数据和正常交易样本数据生成银行可疑交易评估数据，包括：

5.如权利要求4所述的银行可疑交易评估数据处理装置，其特征在于，所述的银行交易相关数据包括：银行可疑交易和银行正常交易的客户信息、交易对手信息、交易信息。

6.如权利要求4所述的银行可疑交易评估数据处理装置，其特征在于，所述的样本集生成模块包括：

转换单元，用于将清理后的银行交易数据按类型转换处理；

加载单元，用于将转换处理后的数据加载到数据仓库；

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一项所述方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至3任一项所述方法的计算机程序。

9.一种银行可疑交易评估方法，其特征在于，所述的评估方法利用权利要求1-3中任一项所述的方法生成的银行可疑交易评估数据进行银行可疑交易评估，其包括：

获取银行交易数据及所述的银行可疑交易评估数据；

将银行可疑交易评估数据作为模型训练特征集，利用k-折交叉验证方法进行机器算法模型训练生成k个评估模型并利用PR曲线作为模型评估标准确定各评估模型的准确率，每个模型采用随机森林算法，同时以PR曲线作为模型评估标准，在保证每个模型的召回率下，尽可能提高模型的准确率；

通过对每个模型的准确率进行归一化处理后，以每个模型准确率作为其自身的权重，对k个评估模型进行加权平均确定可疑交易评估模型；

10.一种银行可疑交易评估装置，其特征在于，所述的装置利用权利要求4-6任一项所述的装置生成的银行可疑交易评估数据进行银行可疑交易评估，所述银行可疑交易评估装置包括：

训练模块，用于将银行可疑交易评估数据作为模型训练特征集，利用k-折交叉验证方法进行机器算法模型训练生成k个评估模型并利用PR曲线作为模型评估标准确定各评估模型的准确率，每个模型采用随机森林算法，同时以PR曲线作为模型评估标准，在保证每个模型的召回率下，尽可能提高模型的准确率；

可疑交易评估模型确定模块，用于通过对每个模型的准确率进行归一化处理后，以每个模型准确率作为其自身的权重，对k个评估模型进行加权平均确定可疑交易评估模型；

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求9所述方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求9所述方法的计算机程序。