CN112711577A

CN112711577A - 一种异常交易企业识别方法及装置

Info

Publication number: CN112711577A
Application number: CN202011495146.XA
Authority: CN
Inventors: 马谊骏; 刘雅婷; 林文辉; 王志刚; 王泽皓; 李瑞祥; 张朝霞
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-27

Abstract

本发明提供一种异常交易企业识别方法及装置。所述异常交易企业识别方法包括步骤：根据预获取的企业交易数据获取企业交易金额数据；基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据；基于孤立森林算法对所述一次筛选异常数据进行筛选，得到二次筛选异常数据；将所述二次筛选异常数据的关联企业判定为异常交易企业。所述异常交易企业识别装置包括一一对应实现上述每个步骤的企业交易金额数据获取模块、一次筛选异常数据获取模块、二次筛选异常数据获取模块和异常交易企业判定模块。根据本发明，能够有效地解决现有异常交易企业识别方法的准确率低和效率低的问题。

Description

一种异常交易企业识别方法及装置

技术领域

本发明属于大数据分析技术领域，更具体地，涉及一种异常交易企业识别方法及装置。

背景技术

随着我国经济的飞速发展，各类企业越来越多，企业间的交易量也取得了大幅度的增加，而交易风险是企业最常见的风险之一，经常会出现购买方支付货款后，销方不供货、少供货或提供未符合规定质量的商品的问题，从而使企业资产的蒙受巨大损失。面对日益增多的企业交易，如何采取行之有效的措施，识别异常交易的企业，规避相关的交易风险，是当前所有企业包括国家税务机关亟需解决的重要问题。

目前已有的异常交易企业识别方法主要包括以下两种：

一、通过企业账户资料上的信息来识别企业是否存在异常交易，例如查询法人是否有多个单位账户和个人账户、是否伪造证件或提供虚假信息。

二、基于个人经验去判断一个企业是否存在异常交易。

由此可知，现有的异常交易企业识别方法费事费力，需要大量的人力去调查企业信息，且没有统一的标准来判断一个企业是否存在异常交易，导致调查结果不准确。

发明内容

本发明的目的在于解决现有异常交易企业识别方法的准确率低和效率低的问题。

为了实现上述目的，本发明提供一种异常交易企业识别方法及装置。

根据本发明的第一方面，提供了一种异常交易企业识别方法。

本发明的异常交易企业识别方法包括以下步骤：

根据预获取的企业交易数据获取企业交易金额数据；

基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据；

基于孤立森林算法对所述一次筛选异常数据进行筛选，得到二次筛选异常数据；

将所述二次筛选异常数据的关联企业判定为异常交易企业。

作为优选的是，在所述根据预获取的企业交易数据获取企业交易金额数据的步骤之前，还包括：

获取所述企业交易数据，所述企业交易数据获取自税务系统。

作为优选的是，所述根据预获取的企业交易数据获取企业交易金额数据的步骤包括：

对所述企业交易数据进行清洗处理；

对清洗处理后的企业交易数据进行格式统一处理，格式统一处理后的企业交易数据包含有以下字段：

企业纳税人识别号、交易时间、交易金额、企业所属行业和企业所在地。

作为优选的是，所述根据预获取的企业交易数据获取企业交易金额数据的步骤还包括：

根据格式统一处理后的企业交易数据获取企业进项数据和企业销项数据；

将每个企业的预定统计周期内的企业进项金额进行累加，得到该企业作为销方时的多个企业交易金额数据；

将每个企业的预定统计周期内的企业销项金额进行累加，得到该企业作为购方时的多个企业交易金额数据；

所述企业交易金额数据包含有以下字段：

企业纳税人识别号、交易金额和交易时间。

作为优选的是，所述基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据的步骤包括：

获取每个企业作为销方时的交易金额的平均值和标准差；

判断每个企业作为销方时的每个交易金额与交易金额平均值的差值的绝对值是否大于3倍的标准差；

若是，将该交易金额标记为一次筛选异常数据。

作为优选的是，所述基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据的步骤还包括：

获取每个企业作为购方时的交易金额的平均值和标准差；

判断每个企业作为购方时的每个交易金额与交易金额平均值的差值的绝对值是否大于3倍的标准差；

若是，将该交易金额标记为一次筛选异常数据。

作为优选的是，所述基于孤立森林算法对所述一次筛选异常数据进行筛选，得到二次筛选异常数据的步骤包括：

根据获取的所有企业交易金额数据训练孤立森林模型，得到多个二叉树；

基于所述多个二叉树获取每个一次筛选异常数据的异常分值；

将异常分值大于预定异常分值阈值的一次筛选异常数据判定为二次筛选异常数据。

作为优选的是，所述根据获取的所有企业交易金额数据训练孤立森林模型，得到多个二叉树的步骤包括：

在获取的所有企业交易金额数据中随机抽取预定数量的训练样本；

根据所述训练样本训练所述孤立森林模型。

作为优选的是，所述基于所述多个二叉树获取每个一次筛选异常数据的异常分值的步骤包括：

令每个一次筛选异常数据遍历每个二叉树；

获取每个一次筛选异常数据在所述多个二叉树上的平均路径长度；

根据以下异常分值计算公式确定每个一次筛选异常数据的异常分值：

上式中，Score(x)为一次筛选异常数据的异常分值，E(h(x))为一次筛选异常数据在所述多个二叉树上的平均路径长度，C(Ψ)为所述多个二叉树的平均路径长度。

根据本发明的第二方面，提供了一种异常交易企业识别装置。

本发明的异常交易企业识别装置包括以下功能模块：

企业交易金额数据获取模块，用于根据预获取的企业交易数据获取企业交易金额数据；

一次筛选异常数据获取模块，用于基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据；

二次筛选异常数据获取模块，用于基于孤立森林算法对所述一次筛选异常数据进行筛选，得到二次筛选异常数据；

异常交易企业判定模块，用于将所述二次筛选异常数据的关联企业判定为异常交易企业。

本发明的有益效果在于：

本发明的异常交易企业识别方法，首先根据预获取的企业交易数据获取企业交易金额数据，其次基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据，再次基于孤立森林算法对所述一次筛选异常数据进行筛选，得到二次筛选异常数据，最后将所述二次筛选异常数据的关联企业判定为异常交易企业。

本发明的异常交易企业识别方法先基于正态分布原则在获取的企业交易金额数据中筛选出具有显著异常交易特征的一次筛选异常数据，再基于孤立森林算法对获取的一次筛选异常数据进行二次筛选，有效地解决了现有异常交易企业识别方法不仅费时费力而且识别结果准确率低的问题，能够更好地实现异常企业的分析和交易风险的预警。

本发明的异常交易企业识别装置与上述异常交易企业识别方法属于一个总的发明构思，故与上述异常交易企业识别方法具有相同的有益效果。

本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的实施例的异常交易企业识别方法的实现流程图。

图2示出了根据本发明的实施例的异常交易企业识别装置的结构框图。

具体实施方式

下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

实施例：图1示出了根据本发明的实施例的异常交易企业识别方法的实现流程图。参照图1，本实施例的异常交易企业识别方法包括以下步骤：

步骤S100、根据预获取的企业交易数据获取企业交易金额数据；

步骤S200、基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据；

步骤S300、基于孤立森林算法对所述一次筛选异常数据进行筛选，得到二次筛选异常数据；

步骤S400、将所述二次筛选异常数据的关联企业判定为异常交易企业。

本实施例的异常交易企业识别方法还包括：

本实施例的步骤S100具体包括：

对所述企业交易数据进行清洗处理；

所述企业交易金额数据包含有以下字段：

企业纳税人识别号、交易金额和交易时间。

本实施例的步骤S200具体包括：

获取每个企业作为销方时的交易金额的平均值和标准差；

若是，将该交易金额标记为一次筛选异常数据。

获取每个企业作为购方时的交易金额的平均值和标准差；

若是，将该交易金额标记为一次筛选异常数据。

本实施例的步骤S300具体包括：

具体地，所述根据获取的所有企业交易金额数据训练孤立森林模型，得到多个二叉树的步骤包括：

根据所述训练样本训练所述孤立森林模型。

具体地，所述基于所述多个二叉树获取每个一次筛选异常数据的异常分值的步骤包括：

令每个一次筛选异常数据遍历每个二叉树；

相应地，本实施例还提出了一种异常交易企业识别装置。

图2示出了本实施例的异常交易企业识别装置的结构框图。参照图2，本实施例的异常交易企业识别装置包括以下功能模块：

以下对本实施例的异常交易企业识别方法进行更为详细的说明：

1、企业交易金额特征提取：

步骤1：获取企业税务数据，并对企业数据进行预处理、清洗数据。

从税务系统中提取企业交易数据，对有缺失值的数据进行清理，并统一数据格式，数据中包括以下字段：企业纳税人识别号，交易时间、交易金额、企业的行业、企业所在地域。

步骤2：进销数据汇聚。

根据预处理完毕的数据，提取企业间进项和销项的数据，并按照交易时间的顺序进行排列，将每个企业在相同时间内的交易金额进行累加。

步骤3：交易金额特征提取。

根据步骤2中处理后的数据，分别提取企业作为购方时的交易金额数据，和企业作为销方时的交易金额数据，数据中包括以下字段：企业纳税人识别号，交易金额，交易时间。数据保存至关系型数据库中。

2、基于3sigma原则的异常企业初步筛选：

步骤1：分别计算企业做为销方和购方时交易金额的平均值和标准差。

由于企业交易数据量较大，使用3sigma原则可以初步将同一企业明显高于和低于其他交易金额的数据标记为异常数据。

首先使用企业交易金额特征提取模块中处理的数据，并计算其平均值和标准差，平均值公式如下：

其中x₁和x₂为单个企业的交易金额，n为单个企业的交易金额数量，

为单个企业交易金额的平均值。

标准差公式如下：

其中x_i为采样点，n为单个企业的交易金额数量，

为单个企业交易金额的平均值，σ为该企业所有交易金额的标准差。

步骤2：使用3sigma原则，标注异常企业。

完成计算单个企业交易金额的平均值和标准差后，将企业的每一个交易金额与均值的差的绝对值与3倍标准差比较，若大于三倍标准差则认定为异常交易金额，标记为异常交易记录，在数据中增加列表示改条交易记录是否为异常交易，以0或1进行标注，标注为1的数据为异常交易数据，标注为0的数据为正常交易数据。判断是否为异常交易的公式如下所示：

其中x_i为采样点，

3、基于孤立森林模型的二次异常企业筛选：

为了更好的利用企业多维度信息，如交易时间、企业所处行业、企业所在地域，获得更准确的交易异常企业，本实施例使用多维度的孤立森林异常检测算法。孤立森林通过二叉树对数据进行切分，通过计算每个数据点的异常分值，即在二叉树中的深度判断该数据是否疏离其他数据，若一数据明显疏离其他数据点则判断该数据为异常数据。

步骤1：训练孤立森林模型，构建多个二叉树。

首先从所有企业交易数据中随机抽取部分样本数据，然后指定一个维度，在当前的节点中产生一个切割点p，该切割点位于该样本数据中的最大值和最小值之间，将样本中小于该切割点的数据分到左分支中，大于等于该切割点的数据划到右分支。然后在两个分支中重复以上步骤，分别对每个维度进行切分，直到数据不可再进行切分和二叉树达到限定的最大深度，本方法一共切割8个平面。通过该方法，可以得到多个不同的二叉树。

步骤2：计算每个数据点的异常分值，识别异常交易。

得到多个二叉树后，计算每个企业交易数据的异常分值。首先计算单条交易数据x在每个二叉树中的路径长度，公式如下所示：

h(x)＝e+C(n)

其中e表示数据x在二叉树中经过的边的数据，C(n)表示在用n条样本数据构建的二叉树的平均路径长度，C(n)的公式如下所示：

其中H(n-1)为ln(n-1)+ε，ε＝0.5772156649，常数为欧拉常数。最后计算交易数据x的异常分值，公式如下：

其中E(h(x))表示交易数据x在多个二叉树上的路径长度的均值，ψ为单个二叉树的样本数。

根据公式判断样本数据x是否为异常交易记录的方法如下：

对于交易数据x在多棵二叉树中的平均路径长度越短，异常分值越接近于1，则表明该交易数据越异常。

对于交易数据x在多棵二叉树中的平均路径长度越长，异常分值越接近于0，则表明该交易数据越正常。

对于交易数据x在多棵二叉树中的平均路径长度越接近整体均值，则异常分值接近于0.5。

若异常分值越接近1则表明该数据越异常，最后将孤立森林得到交易异常企业输出并保存在关系型数据库中。

本实施例的异常交易企业识别方法创造性地提出3sigma原则和孤立森林相融合的方式，通过3sigma原则得到带有标记的交易数据，在通过孤立森林进行训练得到异常企业。解决了传统异常企业检测方法准确率低的问题，又明显地提高了效率。本实施例的异常交易企业识别方法基于异常检测的孤立森林算法，根据企业的行业、规模、交易时间等多重信息，从多维度全面分析企业交易信息，能够更准确和更有效率的根据不同企业信息得到异常的交易记录。

与现有的异常交易企业识别方法相比，本实施例的异常交易企业识别方法提出了一种融合正态分布与孤立森林方法的税务行业交易企业金额异常检测算法。首先基于税务数据中各类不同企业间交易金额，使用3sigma原则，得到了带有异常交易记录标记的数据。然后使用基于异常检测孤立森林算法，通过企业的行业、规模、交易时间等多维度信息建立多个二叉树结构的孤立树，得到所有交易异常的企业，更加准确的实现了识别企交易金额异常的情况。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种异常交易企业识别方法，其特征在于，包括：

根据预获取的企业交易数据获取企业交易金额数据；

将所述二次筛选异常数据的关联企业判定为异常交易企业。

2.根据权利要求1所述的异常交易企业识别方法，其特征在于，在所述根据预获取的企业交易数据获取企业交易金额数据的步骤之前，还包括：

3.根据权利要求1所述的异常交易企业识别方法，其特征在于，所述根据预获取的企业交易数据获取企业交易金额数据的步骤包括：

对所述企业交易数据进行清洗处理；

4.根据权利要求3所述的异常交易企业识别方法，其特征在于，所述根据预获取的企业交易数据获取企业交易金额数据的步骤还包括：

所述企业交易金额数据包含有以下字段：

企业纳税人识别号、交易金额和交易时间。

5.根据权利要求4所述的异常交易企业识别方法，其特征在于，所述基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据的步骤包括：

获取每个企业作为销方时的交易金额的平均值和标准差；

若是，将该交易金额标记为一次筛选异常数据。

6.根据权利要求5所述的异常交易企业识别方法，其特征在于，所述基于正态分布原则对获取的企业交易金额数据进行筛选，得到一次筛选异常数据的步骤还包括：

获取每个企业作为购方时的交易金额的平均值和标准差；

若是，将该交易金额标记为一次筛选异常数据。

7.根据权利要求6所述的异常交易企业识别方法，其特征在于，所述基于孤立森林算法对所述一次筛选异常数据进行筛选，得到二次筛选异常数据的步骤包括：

8.根据权利要求7所述的异常交易企业识别方法，其特征在于，所述根据获取的所有企业交易金额数据训练孤立森林模型，得到多个二叉树的步骤包括：

根据所述训练样本训练所述孤立森林模型。

9.根据权利要求7所述的异常交易企业识别方法，其特征在于，所述基于所述多个二叉树获取每个一次筛选异常数据的异常分值的步骤包括：

令每个一次筛选异常数据遍历每个二叉树；

10.一种异常交易企业识别装置，其特征在于，包括：