CN106897931A

CN106897931A - 一种异常交易数据的识别方法及装置

Info

Publication number: CN106897931A
Application number: CN201610408006.1A
Authority: CN
Inventors: 潘健民
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2016-06-12
Filing date: 2016-06-12
Publication date: 2017-06-27

Abstract

本发明公开了一种异常交易数据的识别方法及装置，涉及计算机技术领域，主要目的在于通过大量的判断指标对交易数据进行综合量化打分，以此细化交易数据的异常指数，从而提高异常交易数据判断的准确性。本发明主要的技术方案为：基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重，所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度；利用加权分隔森林算法以及所述指标权重对待识别数据进行处理得到所述待识别交易数据对应的可疑分数值；当所述可疑分数值大于预置分数时，确定所述待识别交易数据为异常交易数据。

Description

一种异常交易数据的识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种异常交易数据的识别方法及装置。

背景技术

随着互联网金融的不断发展，互联网金融犯罪的种类也随之增加，互联网金融犯罪既包括互联网金融产品或服务可能涉嫌的犯罪，也包括利用互联网金融平台实施的犯罪。当前已有的互联网金融犯罪类型包括非法吸收公众存款、非法集资、诈骗、擅自发行股票公司企业债券、非法侵入计算机信息系统、洗钱等。互联网金融犯罪相比于传统金融犯罪具有作案方式与互联网金融业态相适应，智能化、隐蔽化的特征，并且其影响范围广、消费者权益救助难，证据存在形式隐蔽、取证难度大。

针对网络洗钱这一互联网金融犯罪类型，当前的金融机构在识别该型互联网金融犯罪时，主要依靠识别网络洗钱交易与大部分证照交易的不同点，普遍所采用的侦测方式还是通过人工设定规则的方法，例如对于某种洗钱手法，会对用户的交易行为定义如下规则：如果用户在一定时间周期内满足指标A大于m，且指标B小于n，指标C不等于x，则输出该用户，系统认为该用户是可疑用户，交给相关人员审核。

而通过人工设定规则的方法检测异常交易行为，则存在有如下缺点：

(1)相关指标阈值由人工设定，只要低于某一个条件的阈值，该用户就不会被判定可疑，阈值很难精确设定导致检测结果准确率降低。

(2)通过人工设定规则，只能组合有限的几个指标集合，很难发挥出大数据海量指标集的优势。

(3)规则设定需要人工修改，无法通过已有的已判定的案例数据，对未来规则提供规则调整建议，很难起到量化作用。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种异常交易数据的识别方法及装置，通过大量的判断指标对交易数据进行综合量化打分，以此细化交易数据的异常指数，从而提高异常交易数据判断的准确性。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种异常交易数据的识别方法，该方法应用于计算机设备，该方法包括：

基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重，所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度；

利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别数据对应的可疑分数值；

当所述可疑分数值大于预置分数时，确定所述待识别交易数据为异常交易数据。

另一方面，本发明提供一种异常交易数据的识别装置，该装置设置于应用异常交易数据的识别方法的计算机设备中，该装置包括：

计算单元，用于基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重，所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度；

处理单元，用于利用加权分隔森林算法以及所述计算单元计算的指标权重对待识别数据进行处理得到所述待识别数据对应的可疑分数值；

判断单元，用于当所述处理单元得到的可疑分数值大于预置分数时，确定所述待识别交易数据为异常交易数据。

借由上述技术方案，本发明提供的一种异常交易数据的识别方法及装置，是通过整理已被识别的样本数据来确定数据所包含的各个指标在所有指标中的权重值，再根据得到的指标权重对待识别交易数据进行计算处理得到一个用于表示该数据是异常交易数据的可疑分数值，在该可疑分数值达到某一预置值时确定该待识别交易数据为异常交易数据，并输出显示以供系统对该异常交易数据进行进一步的核实分析。相对于现有的识别交易异常交易数据的方法，该方法通过计算所有指标的权重来综合分析待识别交易数据，并得出一个量化分数来衡量该数据的异常指数，避免了由人工设定指标所产生的判断不全面，准确率低下的问题。同时，随着已识别样本量的增加，数据指标的权重也会随之改变，导致得到的可以分数产生变化，如此，在判断待识别交易数据的可疑性时，其识别结果会随样本数据量的增加而改变，也就是说，本方法通过对大量已识别数据的训练与学习能够提高对待识别交易数据的判断准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种异常交易数据的识别方法的流程图；

图2示出了本发明实施例提出的另一种异常交易数据的识别方法的流程图；

图3示出了本发明实施例提出的一种异常交易数据的识别装置的组成框图；

图4示出了本发明实施例提出的另一种异常交易数据的识别装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种异常交易数据的识别方法，该方法应用于计算机设备，如图1所示，该方法具体步骤包括：

101、基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重。

一个样本数据中的交易数据内容可以看成是由一部数据指标的指标值所组成的，指标数量的多少也确定了样本数据内容的复杂程度。而由多个具有相同或相似数据指标的样本数据就组成了样本数据集。在本发明实施例中，已识别样本数据集是指对样本数据进行异常交易识别后所组成的样本数据集，其中的每个样本数据都标注有该样本数据的识别结果，如正样本即为交易数据异常的样本，负样本即为交易数据正常的样本。

在已识别样本数据集中，不同的数据指标根据取值的不同可以将数据集中的不同样本数据加以区分。而对于正、负样本的区分则可能需要对多个数据指标进行组合加以判断。对于一个样本数据，通过该样本数据所在的样本数据集中所有的数据指标来加以区分则是最全面、最准确的方式。据此可以得出，一个样本数据中的每一个数据指标都对该样本数据与其他样本数据的区分具有不同程度的区分作用，所以，计算一个数据指标的指标权重就是计算该数据指标对于区分样本数据的贡献程度。指标权重越高，说明使用该指标来区分样本数据的准确性越大。

权重计算的方法包括层次分析法、网络分析法、熵值法等，对于具体的使用方法本发明实施例不做具体限定，可根据实际情况进行选择使用。

102、利用加权分隔森林算法以及指标权重对待识别交易数据进行处理得到该待识别交易数据对应的可疑分数值。

其中，加权分隔森林算法属于随机森林算法的一种改进算法，属于机器学习算法，能通过加权分隔树对文本进行分类，再通过加权分隔森林中的多个加权分隔树的计算结果综合计算文本的所述分类。本发明实施例中，应用加权分隔森林算法来计算待识别交易数据属于异常交易数据类别的可能性分值。

通过步骤101得到的指标权重以及待识别交易数据中对应指标的值通过异常交易数据计算模型的计算，得出该待识别交易数据的一个可疑分值，该可疑分值用于描述产生该交易数据可能为异常交易的系数。分值越高，该数据为异常交易的可能性越大。在本发明实施例中，加权分隔森林算法的具体应用可以是以公式组的形式参与对待识别交易数据的可疑分值计算，也可以是基于该加权分隔森林算法构建出一个计算模型来计算交易数据对应的可疑分值。本发明对加权分隔森林算法的应用方式不作具体限定。

而针对应用于计算模型的方式，则需要预先对异常交易数据计算模型进行训练并达到预置要求后，才可以应用该模型对待识别交易数据进行计算，其中，预置要求是对异常交易数据计算模型的计算结果判断的一个经验值，通过该模型计算的结果与数据实际的异常指数进行对比，当该比值达到一个可接受的值时就认为该异常交易数据计算模型是可用的。需要说明的是，异常交易数据计算模型可以通过大量输入已识别样本数据集中的交易数据内容进行反复训练来提高其识别计算的准确性。在具体计算待识别交易数据的可疑分数时，主要是通过将待识别交易数据所包含的各数据指标的指标值输入异常交易数据计算模型中的多个加权分隔树分别进行计算，再综合计算各加权分隔树的计算结果得到该待识别交易数据的一个可疑分数值。

103、当可疑分数值大于预置分数时，确定待识别交易数据为异常交易数据。

在得到一个待识别交易数据的可以分数后，通过与预置分数的对比来确定该数据是否为异常交易数据。本发明实施例中所预置的分数为异常交易数据的临界分数，当待识别交易数据的可以分数值大于该临界分数时，就确认待识别交易数据为异常交易数据，其对应的交易行为异常交易。其中，异常交易数据的临界分数为一个经验值，可根据不同数据内容的实际情况进行差别调整。

在实际应用中，还可以是先计算出一批待识别交易数据的可疑分数，并将这些可疑分数按照从大到小的顺序排序，按照异常交易数据出现的概率来确定预置分数，将大于该预置分数的待识别交易数据确定为异常交易数据。

最后，将确定为异常交易数据的待识别交易数据以单独的报表或报警信息的形式进行输出显示，当系统中存在二级审核流程或人工审核流程时，还可以将该待识别交易数据以标记有可疑异常交易数据标签的形式发送至二级审核流程进行进一步的分析判断及相关的处理操作。

结合上述的实现方式可以看出，本发明实施例所采用的一种异常交易数据的识别方法，是通过整理已被识别的样本数据来确定数据所包含的各个指标在所有指标中的权重值，再根据得到的指标权重对待识别交易数据进行计算处理得到一个用于表示该数据是交易异常交易数据的可疑分数值，在该可疑分数值达到某一预置值时确定该待识别交易数据为异常交易数据，并输出显示以供系统对该异常交易数据进行进一步的核实分析。相对于现有的识别交易异常交易数据的方法，该方法通过计算所有指标的权重来综合分析待识别交易数据，并得出一个量化分数来衡量该数据的异常指数，避免了由人工设定指标所产生的判断不全面，准确率低下的问题。同时，随着已识别样本量的增加，数据指标的权重也会随之改变，导致得到的可以分数产生变化，如此，在判断待识别交易数据的可疑性时，其识别结果会随样本数据量的增加而改变，也就是说，本发明实施例通过对大量已识别数据的训练与学习能够提高对待识别交易数据的判断准确性。

为了更加详细地说明本发明提出的一种异常交易数据的识别方法，本发明实施例将对上述步骤的具体实现逐一说明，尤其对指标权重的计算以及异常交易数据计算模型的设置进行具体的实现描述，如图2所示，该方法具体包括：

201、获取已识别样本数据中指定数据指标的指标值。

要确定数据的指标权重首先要确定用于评价该数据的所有数据指标，通过指定数据指标的范围再计算其中各个指标的指标权重。本发明实施例中，可以通过获取已识别样本数据集中所包括的所有数据指标来确定数据指标的范围，也可以根据预置的规则或由人工指定来确定数据指标的范围。

根据确定的数据指标范围，在已识别样本数据集中分别获取各个指标所对应的样本数据的取值。在实际应用中，已识别样本数据集是以标注有正负样本标记的样本数据目录的形式存储的(正样本标记为异常交易数据样本，负样本标记为正常交易数据样本)，其中并不记录有相应的指标值或记录的指标值并不完全，此时，需要通过全量数据集来获取已识别样本数据集中各个样本相对应的数据指标的指标值。其中，全量数据集是记录有所有样本数据的数据信息的数据集合，包括有已识别样本数据和未识别样本数据。

202、利用熵计算每个数据指标的指标值所对应的信息增益。

熵值可以用于衡量数据的混乱程度，熵值越大，数据越混乱。通过计算一个数据指标在某一个取值时的熵值，就可以确定出该数据指标取为该取值时对数据样本的区分情况。例如对于一个指标v，设定其取值存在2个值(如用户性别为男或女)，那该指标在取值为v_i时，具体的熵值计算公式可以表示为：

其中，j取1到2是因为有正负样本两类，p_j表示对于所有指标取值为v_i样本中，第j类样本占总样本的比例。其中，由于该指标的取值设定为2个，因此该指标的熵还可以表示为：

其中，i取1到2是因为指标有2个取值，n为样本数量，n_i为取值为i的样本数量。

数据指标的指标值所对应的信息增益表示为已识别样本数据集所有样本数据的熵值的与该数据指标的熵值的差值，用于表示该数据指标的指标值相对于述已识别样本数据集中所有样本数据的区分程度，差值越大，说明该指标值的区分程度越高。其中，所有样本数据的熵可以表示为：

其中，j取1到2是因为有正负样本两类，p_j表示总体样本里第j类样本占总样本的比例。

如此，该数据指标在取值为i时的信息增益Info_i就可以表示为：

Info_i＝E_total-E_index(i)

需要说明的是，通过上述的一系列公式所计算出的信息增益是基于数据指标的取值为2个时得到的计算结果。而在实际的应用中，数据指标的取值还会存在有多个取值的情况，当数据指标的指标值具有多个取值时，可以将数据指标的指标值调整为两值形式的取值组合，例如，指标的取值被分为优、中、差三个值，经过调整后，可以表示为(优，非优)，(中，非中)，(差，非差)的取值组合，之后再利用上述的公式逐一地计算该取值组合中的每一对取值的信息增益，最后将得到的三组信息增益的值进行比较，选取值最大的一组取值确定为该数据指标的信息增益。

此外，对于多个取值情况的一种特例，当数据指标的取值为多个连续值的时候，还可以将该数据指标的取值按从小到大的顺序排列，再对每个值都计算一次信息增益，即将样本数据按照小于该值，大于等于该值的两种形式带入到上述的公式中进行计算。

203、将信息增益确定为数据指标的指标权重。

在计算得到每一个数据指标的信息增益后，就可以将该信息增益值确定为该数据指标的指标权重。然而在实际应用中，还需要信息增益的取值加以判断，从而避免出现某一指标的指标权重过大的情况。具体的判断规则可以是判断所有数据指标的信息增益的差值，如果所有数据指标之间的信息增益的差值都较小，或保持在一个被许可的预置值范围内，则可以将各个数据指标的信息增益直接输出为对应的指标权重。而当信息增益的差值中存在较大的差值，或者是超出了预置值范围时，则需要对所有的信息增益进行二次计算，以使差值符合预置值范围，例如可以通过对信息增益的值取对数的方式来平滑信息增益，将计算后符合预置值范围的信息增益确定为数据指标的指标权重。

此外，由于样本数据集中的样本数据量较小，数据信息不够充足导致的指标信息增益计算得到的结果明显存在误差时，还可以引入人工手段调整该指标的权重，而对于被确定为没有任何区分度的数据指标，则可以直接将该数据指标的指标权重设置为0，从而减少指标的数量，以减少后续计算的工作量。

204、利用全量数据集中的交易数据与指标权重创建基于加权分隔森林算法的异常交易数据计算模型。

本步骤是通过机器学习算法来创建一个异常交易数据计算模型，该计算模型的目的在与对待识别交易数据进行计算并得出对应的量化分数。其中，机器学习的过程是通过全量数据集中的数据信息对异常交易数据计算模型进行反复训练的过程。本发明实施例中所采用的异常交易数据计算模型采用的是加权分隔森林算法，该计算模型是基于随机森林的学习算法引入数据指标的指标权重所创建的，具体的创建过程为：在全量样本数据集中随机获取一组样本数据，该组样本数据的数量可根据实际情况自定义设置，也可是完全随机确定该数量，再根据这一组样本数据生成一棵加权分隔树。通过多次随机获取一组样本数据所生成的加权分隔树就组成了一个加权分隔森林，也就完成了异常交易数据计算模型的创建。其中，计算模型中加权分隔树的数量是根据随机获取样本数据的次数确定的，而数据的采集次数可以根据数据指标的数量或数据样本数量等实际情况进行自定义设置，也可以通过设定取值范围以随机数来确定数据采集的次数。

下面说明加权分隔森林中一棵加权分隔树的生成过程：

首先，基于随机获取的一组样本数据，以及之前计算确定的各个数据指标的指标权重，随机获取一个加权数据指标。需要说明的是，该加权数据指标是对所有的数据指标经过加权随机抽取所得到的数据指标。而加权随机抽取的意思是，总量是所有权重之和，每个指标被抽到的可能性是该指标的权重除以所有权重之和。例如，有两个指标A和指标B，其对应的指标权重是7和3，那么，加权随机抽取到指标A的概率就是0.7，而加权随机抽取到指标B的概率就是0.3。而对于一般的随机抽取，指标A和指标B被抽取到的概率是相同的，都为0.5。

其次，根据所获取到的加权数据指标，统计这一组样本数据中每一个样本数据对应该加权数据指标的指标值，并确定出所有指标值得最大值与最小值。其中，最大值与最小值特别是针对具有多个取值的数据指标。

第三，在确定了加权数据指标的最大值与最小值后，以这两个值确定一个取值区间，并在该区间内随机获取一个值q，以该值作为判断标准对该组样本数据进行分隔分类。定义该指标的这个取值为加权分隔树的一个节点，通过该节点将这组样本数据分为两个分支，一支的取值小于q，量一支的取值大于等于q。需要说明的是，在该区间内随机获取一个值q可以不是该组样本数据中加权数据指标的取值。

第四，对分隔后的两支样本数据组分别进行判断，当数据组中的数据量小于等于1时或者该节点的分隔层级达到预置值时，就停止对该分支中的样本数据进行次一级的分隔；否则就对该分支中的样本数据再次进行加权随机抽取一个加权数据指标重复上述的分隔过程，直至所有的节点全部无法再进行分隔时，一棵加权分隔树就创建完成了。

需要说明的是，异常交易数据计算模型是依赖于全量数据集中的样本数据进行训练的，其计算结果的准确性也就与该全量数据集中所保存的样本数据量存在直接关联，样本数据量越大，训练出的计算模型的计算准确率也就越高。

205、将待识别交易数据中所含有的数据指标的指标值输入异常交易数据计算模型，计算得到待识别交易数据的可疑分数值。

具体的计算过程为：

首先，获取待识别交易数据中所含有的指定数据指标的指标值，将这些指标值输入到异常交易数据计算模型中的每一棵加权分隔树中，计算待识别交易数据最终所处的节点位置，根据该节点位置再计算得到该节点与首节点的距离，定义为中止距离。也就是看该待识别交易数据在加权分隔树从首节点开始分流，直至流入一个节点中止后计算待识别交易数据所经过的节点个数。

其次，在得到待识别交易数据在每一棵加权分隔树中的中止距离后，统计计算出一个平均值，即该待识别交易数据在加权分隔森林中的中止距离平均值。

最后，将该中止距离平均值以量化分数值的形式表示就得到了可疑分数值。需要说明的是，该可以分数值为一个相对分数值，该分值的大小取决于如下的设置：

1、待识别交易数据的中止距离越短，表示该数据与总体数据相比就越异常。

2、该分数值是相对于一个预置中止距离计算得到的，该预置中止距离为样本数据集中数据量一定的前提下，任意一个样本数据通过加权分隔森林计算得到的期望值，或者平均值，当一个样本数据的中止距离小于预置中止距离时，说明该样本数据为一个异常交易数据。其中，预置中止距离可以是一个经验值，也可以根据具体计算公式计算得到的科学值。

基于上述的设置，本发明实施例给出一个可以分数的计算公式：

其中，s为分数值，x表示待识别交易数据，n表示总体样本数据量，path_avg表示待识别交易数据在加权分隔森林中的中止距离平均值，c(n)表示预置中止距离。

206、当可疑分数值大于预置分数时，确定待识别交易数据为异常交易数据。

此步骤的内容可参考上述图1的步骤103中说明的具体内容，此处不再赘述。

进一步的，作为对上述方法的实现，本发明实施例提供了一种异常交易数据的识别装置，设置于应用异常交易数据的识别方法的计算机设备中，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示，具体包括：

计算单元31，用于基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重，所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度；

处理单元32，用于利用加权分隔森林算法以及所述计算单元31计算的指标权重对待识别数据进行处理得到所述待识别数据对应的可疑分数值；

判断单元33，用于当所述处理单元32得到的可疑分数值大于预置分数时，确定所述待识别交易数据为异常交易数据。

进一步的，如图4所示，所述计算单元31包括：

获取模块311，用于获取已识别样本数据中指定数据指标的指标值，所述已识别样本数据为经过识别后所确定的正常交易数据或异常交易数据；

计算模块312，用于利用熵计算所述获取模块311所获取的每个数据指标的指标值所对应的信息增益；

确定模块313，用于将所述计算模块312得到的信息增益确定为所述数据指标的指标权重。

进一步的，如图4所示，所述计算模块312包括：

转换子模块3121，用于当所述数据指标的指标值具有多个值时，将所述数据指标的指标值调整为两值形式的取值组合；

计算子模块3122，用于逐一计算所述转换子模块3121得到的取值组合中每对取值的信息增益；

确定子模块3123，用于选取所述计算子模块3122得到的信息增益最大的一组取值组合所对应的信息增益确定为所述数据指标的信息增益。

进一步的，如图4所示，所述确定模块313包括：

判断子模块3131，用于根据预置规则判断所述信息增益的取值，将符合取值范围的信息增益的取值设置为指标权重；

计算子模块3132，用于将所述判断子模块3131判断不符合取值范围的信息增益进行二次计算，得到符合取值范围的信息增益并将计算后的所述信息增益设置为指标权重。

进一步的，如图4所示，所述处理单元32包括：

创建模块321，用于利用全量数据集中的交易数据和所述指标权重创建基于加权分隔森林算法的异常交易数据计算模型，所述全量数据集中包括已识别样本数据和未识别样本数据；

计算模块322，用于将待识别交易数据中所含有的数据指标的指标值输入所述创建模块321创建的异常交易数据计算模型，计算得到所述待识别交易数据的可疑分数值。

进一步的，如图4所示，所述创建模块321包括：

生成子模块3211，用于随机获取所述全量数据集中的一组样本数据及所述指标权重，生成一棵加权分隔树；

组合子模块3212，用于根据预置的采集次数，将所述生成子模块3211每一次生成的加权分隔树组成加权分隔森林，得到所述异常交易数据计算模型。

进一步的，所述生成子模块3211还用于：随机获取全量数据集中的一组样本数据，并根据所述指标权重随机获取一个加权数据指标；统计所述一组样本数据中各样本数据对应所述加权数据指标的指标值，确定所述指标值得最大值与最小值；在所述最大值与最小值之间随机获取一个数值，根据所述数值对所述一组样本数据进行分隔；判断所述分隔的层级是否达到预置值，若达到则停止对加权分隔树进行分隔，若未达到则对分隔后的每组样本数据分别再次随机获取一个加权数据指标进行加权分隔。

进一步的，如图4所示，所述计算模块322包括：

第一计算子模块3221，用于通过所述异常交易数据计算模型计算所述待识别交易数据在每一棵加权分隔树中的中止距离，所述中止距离为所述待识别交易数据完成所述加权分隔树的分隔后所处的节点与首节点的距离；

统计子模块3222，用于统计所述待识别交易数据在异常交易数据计算模型中所有加权分隔树的中止距离平均值；

第二计算子模块3223，用于根据所述统计子模块3222统计的中止距离平均值以及预置中止距离计算得到所述待识别交易数据的可疑分数值。

综上所述，本发明实施例所采用的异常交易数据的识别方法及装置，是通过整理已被识别的样本数据来确定数据所包含的各个指标在所有指标中的权重值，再根据得到的指标权重以及全量数据集来创建一个异常交易数据计算模型，即加权分隔森林，通过该异常交易数据计算模型对待识别交易数据进行计算处理得到一个用于表示该数据是交易异常交易数据的可疑分数值，在该可疑分数值达到某一预置值时确定该待识别交易数据为异常交易数据，并输出显示以供系统对该异常交易数据进行进一步的核实分析。相对于现有的识别交易异常交易数据的方法，该方法通过计算所有指标的权重来综合分析待识别交易数据，并得出一个量化分数来衡量该数据的异常指数，避免了由人工设定指标所产生的判断不全面，准确率低下的问题。同时，随着已识别样本量的增加，数据指标的权重也会随之改变，导致得到的可以分数产生变化，如此，在判断待识别交易数据的可疑性时，其识别结果会随样本数据量的增加而改变，也就是说，本方法通过对大量已识别数据的训练与学习能够提高对待识别交易数据的判断准确性。此外，本发明实施例中的异常交易数据计算模型在计算过程中所选取的数据指标是随机选取加权指标，使得指标的获取更加分散，从而增加在判断时的维度以提高数据判断的全面性。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种异常交易数据的识别方法，该方法应用于计算机设备，其特征在于，所述方法包括：

利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别交易数据对应的可疑分数值；

2.根据权利要求1所述的方法，其特征在于，基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重包括：

获取已识别样本数据中指定数据指标的指标值，所述已识别样本数据为经过识别后所确定的正常交易数据或异常交易数据；

利用熵计算每个数据指标的指标值所对应的信息增益；

将所述信息增益确定为所述数据指标的指标权重。

3.根据权利要求2所述的方法，其特征在于，利用熵计算每个数据指标的指标值所对应的信息增益包括：

当所述数据指标的指标值具有多个值时，将所述数据指标的指标值调整为两值形式的取值组合；

逐一计算所述取值组合中每对取值的信息增益；

选取信息增益最大的一组取值组合所对应的信息增益确定为所述数据指标的信息增益。

4.根据权利要求2或3所述的方法，其特征在于，将所述信息增益确定为所述数据指标的指标权重包括：

根据预置规则判断所述信息增益的取值，将符合取值范围的信息增益的取值设置为指标权重；

将不符合取值范围的信息增益进行二次计算，得到符合取值范围的信息增益并将计算后的所述信息增益设置为指标权重。

5.根据权利要求1所述的方法，其特征在于，利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别交易数据对应的可疑分数值包括：

利用全量数据集中的交易数据和所述指标权重创建基于加权分隔森林算法的异常交易数据计算模型，所述全量数据集中包括已识别样本数据和未识别样本数据；

将待识别交易数据中所含有的数据指标的指标值输入所述异常交易数据计算模型，计算得到所述待识别交易数据的可疑分数值。

6.根据权利要求5所述的方法，其特征在于，利用全量数据集中的交易数据和所述指标权重创建异常交易数据计算模型包括：

随机获取所述全量数据集中的一组样本数据及所述指标权重，生成一棵加权分隔树；

根据预置的采集次数，将每一次生成的加权分隔树组成加权分隔森林，得到所述异常交易数据计算模型。

7.根据权利要求6所述的方法，其特征在于，随机获取所述全量数据集中的一组样本数据及所述指标权重，生成一棵加权分隔树包括：

随机获取全量数据集中的一组样本数据，并根据所述指标权重随机获取一个加权数据指标；

统计所述一组样本数据中各样本数据对应所述加权数据指标的指标值，确定所述指标值得最大值与最小值；

在所述最大值与最小值之间随机获取一个数值，根据所述数值对所述一组样本数据进行分隔；

判断所述分隔的层级是否达到预置值，若达到则停止对加权分隔树进行分隔，若未达到则对分隔后的每组样本数据分别再次随机获取一个加权数据指标进行加权分隔。

8.根据权利要求7所述的方法，其特征在于，将待识别交易数据中所含有的数据指标的指标值输入所述异常交易数据计算模型，计算得到所述待识别交易数据的可疑分数值包括：

通过所述异常交易数据计算模型计算所述待识别交易数据在每一棵加权分隔树中的中止距离，所述中止距离为所述待识别交易数据完成所述加权分隔树的分隔后所处的节点与首节点的距离；

统计所述待识别交易数据在异常交易数据计算模型中所有加权分隔树的中止距离平均值；

根据所述中止距离平均值以及预置中止距离计算得到所述待识别交易数据的可疑分数值。

9.一种异常交易数据的识别装置，该装置设置于应用异常交易数据的识别方法的计算机设备中，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述计算单元包括：

获取模块，用于获取已识别样本数据中指定数据指标的指标值，所述已识别样本数据为经过识别后所确定的正常交易数据或异常交易数据；

计算模块，用于利用熵计算所述获取模块所获取的每个数据指标的指标值所对应的信息增益；

确定模块，用于将所述计算模块得到的信息增益确定为所述数据指标的指标权重。

11.根据权利要求10所述的装置，其特征在于，所述计算模块包括：

转换子模块，用于当所述数据指标的指标值具有多个值时，将所述数据指标的指标值调整为两值形式的取值组合；

计算子模块，用于逐一计算所述转换子模块得到的取值组合中每对取值的信息增益；

确定子模块，用于选取所述计算子模块得到的信息增益最大的一组取值组合所对应的信息增益确定为所述数据指标的信息增益。

12.根据权利要求10或11所述的装置，其特征在于，所述确定模块包括：

判断子模块，用于根据预置规则判断所述信息增益的取值，将符合取值范围的信息增益的取值设置为指标权重；

计算子模块，用于将所述判断子模块判断不符合取值范围的信息增益进行二次计算，得到符合取值范围的信息增益并将计算后的所述信息增益设置为指标权重。

13.根据权利要求9所述的装置，其特征在于，所述处理单元包括：

创建模块，用于利用全量数据集中的交易数据和所述指标权重创建基于加权分隔森林算法的异常交易数据计算模型，所述全量数据集中包括已识别样本数据和未识别样本数据；

计算模块，用于将待识别交易数据中所含有的数据指标的指标值输入所述创建模块创建的异常交易数据计算模型，计算得到所述待识别交易数据的可疑分数值。

14.根据权利要求13所述的装置，其特征在于，所述创建模块包括：

生成子模块，用于随机获取所述全量数据集中的一组样本数据及所述指标权重，生成一棵加权分隔树；

组合子模块，用于根据预置的采集次数，将所述生成子模块每一次生成的加权分隔树组成加权分隔森林，得到所述异常交易数据计算模型。

15.根据权利要求14所述的装置，其特征在于，所述生成子模块还用于：

16.根据权利要求15所述的装置，其特征在于，所述计算模块包括：

第一计算子模块，用于通过所述异常交易数据计算模型计算所述待识别交易数据在每一棵加权分隔树中的中止距离，所述中止距离为所述待识别交易数据完成所述加权分隔树的分隔后所处的节点与首节点的距离；

统计子模块，用于统计所述待识别交易数据在异常交易数据计算模型中所有加权分隔树的中止距离平均值；

第二计算子模块，用于根据所述统计子模块统计的中止距离平均值以及预置中止距离计算得到所述待识别交易数据的可疑分数值。