CN112711577A - 一种异常交易企业识别方法及装置 - Google Patents

一种异常交易企业识别方法及装置 Download PDF

Info

Publication number
CN112711577A
CN112711577A CN202011495146.XA CN202011495146A CN112711577A CN 112711577 A CN112711577 A CN 112711577A CN 202011495146 A CN202011495146 A CN 202011495146A CN 112711577 A CN112711577 A CN 112711577A
Authority
CN
China
Prior art keywords
enterprise
transaction
data
abnormal
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011495146.XA
Other languages
English (en)
Inventor
马谊骏
刘雅婷
林文辉
王志刚
王泽皓
李瑞祥
张朝霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011495146.XA priority Critical patent/CN112711577A/zh
Publication of CN112711577A publication Critical patent/CN112711577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种异常交易企业识别方法及装置。所述异常交易企业识别方法包括步骤:根据预获取的企业交易数据获取企业交易金额数据;基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据;基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据;将所述二次筛选异常数据的关联企业判定为异常交易企业。所述异常交易企业识别装置包括一一对应实现上述每个步骤的企业交易金额数据获取模块、一次筛选异常数据获取模块、二次筛选异常数据获取模块和异常交易企业判定模块。根据本发明,能够有效地解决现有异常交易企业识别方法的准确率低和效率低的问题。

Description

一种异常交易企业识别方法及装置
技术领域
本发明属于大数据分析技术领域,更具体地,涉及一种异常交易企业识别方法及装置。
背景技术
随着我国经济的飞速发展,各类企业越来越多,企业间的交易量也取得了大幅度的增加,而交易风险是企业最常见的风险之一,经常会出现购买方支付货款后,销方不供货、少供货或提供未符合规定质量的商品的问题,从而使企业资产的蒙受巨大损失。面对日益增多的企业交易,如何采取行之有效的措施,识别异常交易的企业,规避相关的交易风险,是当前所有企业包括国家税务机关亟需解决的重要问题。
目前已有的异常交易企业识别方法主要包括以下两种:
一、通过企业账户资料上的信息来识别企业是否存在异常交易,例如查询法人是否有多个单位账户和个人账户、是否伪造证件或提供虚假信息。
二、基于个人经验去判断一个企业是否存在异常交易。
由此可知,现有的异常交易企业识别方法费事费力,需要大量的人力去调查企业信息,且没有统一的标准来判断一个企业是否存在异常交易,导致调查结果不准确。
发明内容
本发明的目的在于解决现有异常交易企业识别方法的准确率低和效率低的问题。
为了实现上述目的,本发明提供一种异常交易企业识别方法及装置。
根据本发明的第一方面,提供了一种异常交易企业识别方法。
本发明的异常交易企业识别方法包括以下步骤:
根据预获取的企业交易数据获取企业交易金额数据;
基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据;
基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据;
将所述二次筛选异常数据的关联企业判定为异常交易企业。
作为优选的是,在所述根据预获取的企业交易数据获取企业交易金额数据的步骤之前,还包括:
获取所述企业交易数据,所述企业交易数据获取自税务系统。
作为优选的是,所述根据预获取的企业交易数据获取企业交易金额数据的步骤包括:
对所述企业交易数据进行清洗处理;
对清洗处理后的企业交易数据进行格式统一处理,格式统一处理后的企业交易数据包含有以下字段:
企业纳税人识别号、交易时间、交易金额、企业所属行业和企业所在地。
作为优选的是,所述根据预获取的企业交易数据获取企业交易金额数据的步骤还包括:
根据格式统一处理后的企业交易数据获取企业进项数据和企业销项数据;
将每个企业的预定统计周期内的企业进项金额进行累加,得到该企业作为销方时的多个企业交易金额数据;
将每个企业的预定统计周期内的企业销项金额进行累加,得到该企业作为购方时的多个企业交易金额数据;
所述企业交易金额数据包含有以下字段:
企业纳税人识别号、交易金额和交易时间。
作为优选的是,所述基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据的步骤包括:
获取每个企业作为销方时的交易金额的平均值和标准差;
判断每个企业作为销方时的每个交易金额与交易金额平均值的差值的绝对值是否大于3倍的标准差;
若是,将该交易金额标记为一次筛选异常数据。
作为优选的是,所述基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据的步骤还包括:
获取每个企业作为购方时的交易金额的平均值和标准差;
判断每个企业作为购方时的每个交易金额与交易金额平均值的差值的绝对值是否大于3倍的标准差;
若是,将该交易金额标记为一次筛选异常数据。
作为优选的是,所述基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据的步骤包括:
根据获取的所有企业交易金额数据训练孤立森林模型,得到多个二叉树;
基于所述多个二叉树获取每个一次筛选异常数据的异常分值;
将异常分值大于预定异常分值阈值的一次筛选异常数据判定为二次筛选异常数据。
作为优选的是,所述根据获取的所有企业交易金额数据训练孤立森林模型,得到多个二叉树的步骤包括:
在获取的所有企业交易金额数据中随机抽取预定数量的训练样本;
根据所述训练样本训练所述孤立森林模型。
作为优选的是,所述基于所述多个二叉树获取每个一次筛选异常数据的异常分值的步骤包括:
令每个一次筛选异常数据遍历每个二叉树;
获取每个一次筛选异常数据在所述多个二叉树上的平均路径长度;
根据以下异常分值计算公式确定每个一次筛选异常数据的异常分值:
Figure BDA0002841921940000041
上式中,Score(x)为一次筛选异常数据的异常分值,E(h(x))为一次筛选异常数据在所述多个二叉树上的平均路径长度,C(Ψ)为所述多个二叉树的平均路径长度。
根据本发明的第二方面,提供了一种异常交易企业识别装置。
本发明的异常交易企业识别装置包括以下功能模块:
企业交易金额数据获取模块,用于根据预获取的企业交易数据获取企业交易金额数据;
一次筛选异常数据获取模块,用于基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据;
二次筛选异常数据获取模块,用于基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据;
异常交易企业判定模块,用于将所述二次筛选异常数据的关联企业判定为异常交易企业。
本发明的有益效果在于:
本发明的异常交易企业识别方法,首先根据预获取的企业交易数据获取企业交易金额数据,其次基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据,再次基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据,最后将所述二次筛选异常数据的关联企业判定为异常交易企业。
本发明的异常交易企业识别方法先基于正态分布原则在获取的企业交易金额数据中筛选出具有显著异常交易特征的一次筛选异常数据,再基于孤立森林算法对获取的一次筛选异常数据进行二次筛选,有效地解决了现有异常交易企业识别方法不仅费时费力而且识别结果准确率低的问题,能够更好地实现异常企业的分析和交易风险的预警。
本发明的异常交易企业识别装置与上述异常交易企业识别方法属于一个总的发明构思,故与上述异常交易企业识别方法具有相同的有益效果。
本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明的实施例的异常交易企业识别方法的实现流程图。
图2示出了根据本发明的实施例的异常交易企业识别装置的结构框图。
具体实施方式
下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
实施例:图1示出了根据本发明的实施例的异常交易企业识别方法的实现流程图。参照图1,本实施例的异常交易企业识别方法包括以下步骤:
步骤S100、根据预获取的企业交易数据获取企业交易金额数据;
步骤S200、基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据;
步骤S300、基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据;
步骤S400、将所述二次筛选异常数据的关联企业判定为异常交易企业。
本实施例的异常交易企业识别方法还包括:
获取所述企业交易数据,所述企业交易数据获取自税务系统。
本实施例的步骤S100具体包括:
对所述企业交易数据进行清洗处理;
对清洗处理后的企业交易数据进行格式统一处理,格式统一处理后的企业交易数据包含有以下字段:
企业纳税人识别号、交易时间、交易金额、企业所属行业和企业所在地。
根据格式统一处理后的企业交易数据获取企业进项数据和企业销项数据;
将每个企业的预定统计周期内的企业进项金额进行累加,得到该企业作为销方时的多个企业交易金额数据;
将每个企业的预定统计周期内的企业销项金额进行累加,得到该企业作为购方时的多个企业交易金额数据;
所述企业交易金额数据包含有以下字段:
企业纳税人识别号、交易金额和交易时间。
本实施例的步骤S200具体包括:
获取每个企业作为销方时的交易金额的平均值和标准差;
判断每个企业作为销方时的每个交易金额与交易金额平均值的差值的绝对值是否大于3倍的标准差;
若是,将该交易金额标记为一次筛选异常数据。
获取每个企业作为购方时的交易金额的平均值和标准差;
判断每个企业作为购方时的每个交易金额与交易金额平均值的差值的绝对值是否大于3倍的标准差;
若是,将该交易金额标记为一次筛选异常数据。
本实施例的步骤S300具体包括:
根据获取的所有企业交易金额数据训练孤立森林模型,得到多个二叉树;
基于所述多个二叉树获取每个一次筛选异常数据的异常分值;
将异常分值大于预定异常分值阈值的一次筛选异常数据判定为二次筛选异常数据。
具体地,所述根据获取的所有企业交易金额数据训练孤立森林模型,得到多个二叉树的步骤包括:
在获取的所有企业交易金额数据中随机抽取预定数量的训练样本;
根据所述训练样本训练所述孤立森林模型。
具体地,所述基于所述多个二叉树获取每个一次筛选异常数据的异常分值的步骤包括:
令每个一次筛选异常数据遍历每个二叉树;
获取每个一次筛选异常数据在所述多个二叉树上的平均路径长度;
根据以下异常分值计算公式确定每个一次筛选异常数据的异常分值:
Figure BDA0002841921940000071
上式中,Score(x)为一次筛选异常数据的异常分值,E(h(x))为一次筛选异常数据在所述多个二叉树上的平均路径长度,C(Ψ)为所述多个二叉树的平均路径长度。
相应地,本实施例还提出了一种异常交易企业识别装置。
图2示出了本实施例的异常交易企业识别装置的结构框图。参照图2,本实施例的异常交易企业识别装置包括以下功能模块:
企业交易金额数据获取模块,用于根据预获取的企业交易数据获取企业交易金额数据;
一次筛选异常数据获取模块,用于基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据;
二次筛选异常数据获取模块,用于基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据;
异常交易企业判定模块,用于将所述二次筛选异常数据的关联企业判定为异常交易企业。
以下对本实施例的异常交易企业识别方法进行更为详细的说明:
1、企业交易金额特征提取:
步骤1:获取企业税务数据,并对企业数据进行预处理、清洗数据。
从税务系统中提取企业交易数据,对有缺失值的数据进行清理,并统一数据格式,数据中包括以下字段:企业纳税人识别号,交易时间、交易金额、企业的行业、企业所在地域。
步骤2:进销数据汇聚。
根据预处理完毕的数据,提取企业间进项和销项的数据,并按照交易时间的顺序进行排列,将每个企业在相同时间内的交易金额进行累加。
步骤3:交易金额特征提取。
根据步骤2中处理后的数据,分别提取企业作为购方时的交易金额数据,和企业作为销方时的交易金额数据,数据中包括以下字段:企业纳税人识别号,交易金额,交易时间。数据保存至关系型数据库中。
2、基于3sigma原则的异常企业初步筛选:
步骤1:分别计算企业做为销方和购方时交易金额的平均值和标准差。
由于企业交易数据量较大,使用3sigma原则可以初步将同一企业明显高于和低于其他交易金额的数据标记为异常数据。
首先使用企业交易金额特征提取模块中处理的数据,并计算其平均值和标准差,平均值公式如下:
Figure BDA0002841921940000081
其中x1和x2为单个企业的交易金额,n为单个企业的交易金额数量,
Figure BDA0002841921940000082
为单个企业交易金额的平均值。
标准差公式如下:
Figure BDA0002841921940000091
其中xi为采样点,n为单个企业的交易金额数量,
Figure BDA0002841921940000092
为单个企业交易金额的平均值,σ为该企业所有交易金额的标准差。
步骤2:使用3sigma原则,标注异常企业。
完成计算单个企业交易金额的平均值和标准差后,将企业的每一个交易金额与均值的差的绝对值与3倍标准差比较,若大于三倍标准差则认定为异常交易金额,标记为异常交易记录,在数据中增加列表示改条交易记录是否为异常交易,以0或1进行标注,标注为1的数据为异常交易数据,标注为0的数据为正常交易数据。判断是否为异常交易的公式如下所示:
Figure BDA0002841921940000093
其中xi为采样点,
Figure BDA0002841921940000094
为单个企业交易金额的平均值,σ为该企业所有交易金额的标准差。
3、基于孤立森林模型的二次异常企业筛选:
为了更好的利用企业多维度信息,如交易时间、企业所处行业、企业所在地域,获得更准确的交易异常企业,本实施例使用多维度的孤立森林异常检测算法。孤立森林通过二叉树对数据进行切分,通过计算每个数据点的异常分值,即在二叉树中的深度判断该数据是否疏离其他数据,若一数据明显疏离其他数据点则判断该数据为异常数据。
步骤1:训练孤立森林模型,构建多个二叉树。
首先从所有企业交易数据中随机抽取部分样本数据,然后指定一个维度,在当前的节点中产生一个切割点p,该切割点位于该样本数据中的最大值和最小值之间,将样本中小于该切割点的数据分到左分支中,大于等于该切割点的数据划到右分支。然后在两个分支中重复以上步骤,分别对每个维度进行切分,直到数据不可再进行切分和二叉树达到限定的最大深度,本方法一共切割8个平面。通过该方法,可以得到多个不同的二叉树。
步骤2:计算每个数据点的异常分值,识别异常交易。
得到多个二叉树后,计算每个企业交易数据的异常分值。首先计算单条交易数据x在每个二叉树中的路径长度,公式如下所示:
h(x)=e+C(n)
其中e表示数据x在二叉树中经过的边的数据,C(n)表示在用n条样本数据构建的二叉树的平均路径长度,C(n)的公式如下所示:
Figure BDA0002841921940000101
其中H(n-1)为ln(n-1)+ε,ε=0.5772156649,常数为欧拉常数。最后计算交易数据x的异常分值,公式如下:
Figure BDA0002841921940000102
其中E(h(x))表示交易数据x在多个二叉树上的路径长度的均值,ψ为单个二叉树的样本数。
根据公式判断样本数据x是否为异常交易记录的方法如下:
对于交易数据x在多棵二叉树中的平均路径长度越短,异常分值越接近于1,则表明该交易数据越异常。
对于交易数据x在多棵二叉树中的平均路径长度越长,异常分值越接近于0,则表明该交易数据越正常。
对于交易数据x在多棵二叉树中的平均路径长度越接近整体均值,则异常分值接近于0.5。
若异常分值越接近1则表明该数据越异常,最后将孤立森林得到交易异常企业输出并保存在关系型数据库中。
本实施例的异常交易企业识别方法创造性地提出3sigma原则和孤立森林相融合的方式,通过3sigma原则得到带有标记的交易数据,在通过孤立森林进行训练得到异常企业。解决了传统异常企业检测方法准确率低的问题,又明显地提高了效率。本实施例的异常交易企业识别方法基于异常检测的孤立森林算法,根据企业的行业、规模、交易时间等多重信息,从多维度全面分析企业交易信息,能够更准确和更有效率的根据不同企业信息得到异常的交易记录。
与现有的异常交易企业识别方法相比,本实施例的异常交易企业识别方法提出了一种融合正态分布与孤立森林方法的税务行业交易企业金额异常检测算法。首先基于税务数据中各类不同企业间交易金额,使用3sigma原则,得到了带有异常交易记录标记的数据。然后使用基于异常检测孤立森林算法,通过企业的行业、规模、交易时间等多维度信息建立多个二叉树结构的孤立树,得到所有交易异常的企业,更加准确的实现了识别企交易金额异常的情况。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims (10)

1.一种异常交易企业识别方法,其特征在于,包括:
根据预获取的企业交易数据获取企业交易金额数据;
基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据;
基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据;
将所述二次筛选异常数据的关联企业判定为异常交易企业。
2.根据权利要求1所述的异常交易企业识别方法,其特征在于,在所述根据预获取的企业交易数据获取企业交易金额数据的步骤之前,还包括:
获取所述企业交易数据,所述企业交易数据获取自税务系统。
3.根据权利要求1所述的异常交易企业识别方法,其特征在于,所述根据预获取的企业交易数据获取企业交易金额数据的步骤包括:
对所述企业交易数据进行清洗处理;
对清洗处理后的企业交易数据进行格式统一处理,格式统一处理后的企业交易数据包含有以下字段:
企业纳税人识别号、交易时间、交易金额、企业所属行业和企业所在地。
4.根据权利要求3所述的异常交易企业识别方法,其特征在于,所述根据预获取的企业交易数据获取企业交易金额数据的步骤还包括:
根据格式统一处理后的企业交易数据获取企业进项数据和企业销项数据;
将每个企业的预定统计周期内的企业进项金额进行累加,得到该企业作为销方时的多个企业交易金额数据;
将每个企业的预定统计周期内的企业销项金额进行累加,得到该企业作为购方时的多个企业交易金额数据;
所述企业交易金额数据包含有以下字段:
企业纳税人识别号、交易金额和交易时间。
5.根据权利要求4所述的异常交易企业识别方法,其特征在于,所述基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据的步骤包括:
获取每个企业作为销方时的交易金额的平均值和标准差;
判断每个企业作为销方时的每个交易金额与交易金额平均值的差值的绝对值是否大于3倍的标准差;
若是,将该交易金额标记为一次筛选异常数据。
6.根据权利要求5所述的异常交易企业识别方法,其特征在于,所述基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据的步骤还包括:
获取每个企业作为购方时的交易金额的平均值和标准差;
判断每个企业作为购方时的每个交易金额与交易金额平均值的差值的绝对值是否大于3倍的标准差;
若是,将该交易金额标记为一次筛选异常数据。
7.根据权利要求6所述的异常交易企业识别方法,其特征在于,所述基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据的步骤包括:
根据获取的所有企业交易金额数据训练孤立森林模型,得到多个二叉树;
基于所述多个二叉树获取每个一次筛选异常数据的异常分值;
将异常分值大于预定异常分值阈值的一次筛选异常数据判定为二次筛选异常数据。
8.根据权利要求7所述的异常交易企业识别方法,其特征在于,所述根据获取的所有企业交易金额数据训练孤立森林模型,得到多个二叉树的步骤包括:
在获取的所有企业交易金额数据中随机抽取预定数量的训练样本;
根据所述训练样本训练所述孤立森林模型。
9.根据权利要求7所述的异常交易企业识别方法,其特征在于,所述基于所述多个二叉树获取每个一次筛选异常数据的异常分值的步骤包括:
令每个一次筛选异常数据遍历每个二叉树;
获取每个一次筛选异常数据在所述多个二叉树上的平均路径长度;
根据以下异常分值计算公式确定每个一次筛选异常数据的异常分值:
Figure FDA0002841921930000031
上式中,Score(x)为一次筛选异常数据的异常分值,E(h(x))为一次筛选异常数据在所述多个二叉树上的平均路径长度,C(Ψ)为所述多个二叉树的平均路径长度。
10.一种异常交易企业识别装置,其特征在于,包括:
企业交易金额数据获取模块,用于根据预获取的企业交易数据获取企业交易金额数据;
一次筛选异常数据获取模块,用于基于正态分布原则对获取的企业交易金额数据进行筛选,得到一次筛选异常数据;
二次筛选异常数据获取模块,用于基于孤立森林算法对所述一次筛选异常数据进行筛选,得到二次筛选异常数据;
异常交易企业判定模块,用于将所述二次筛选异常数据的关联企业判定为异常交易企业。
CN202011495146.XA 2020-12-17 2020-12-17 一种异常交易企业识别方法及装置 Pending CN112711577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011495146.XA CN112711577A (zh) 2020-12-17 2020-12-17 一种异常交易企业识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011495146.XA CN112711577A (zh) 2020-12-17 2020-12-17 一种异常交易企业识别方法及装置

Publications (1)

Publication Number Publication Date
CN112711577A true CN112711577A (zh) 2021-04-27

Family

ID=75543888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011495146.XA Pending CN112711577A (zh) 2020-12-17 2020-12-17 一种异常交易企业识别方法及装置

Country Status (1)

Country Link
CN (1) CN112711577A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469235A (zh) * 2021-06-24 2021-10-01 珠海卓邦科技有限公司 用水波动异常识别方法及装置、计算机装置及存储介质
CN114304033A (zh) * 2022-01-25 2022-04-12 海南大学 一种河流生态系统中鱼类功能指示物种的筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN110362612A (zh) * 2019-07-19 2019-10-22 中国工商银行股份有限公司 由电子设备执行的异常数据检测方法、装置和电子设备
CN111666169A (zh) * 2020-05-13 2020-09-15 云南电网有限责任公司信息中心 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111932268A (zh) * 2020-08-03 2020-11-13 中国工商银行股份有限公司 企业风险识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN110362612A (zh) * 2019-07-19 2019-10-22 中国工商银行股份有限公司 由电子设备执行的异常数据检测方法、装置和电子设备
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111666169A (zh) * 2020-05-13 2020-09-15 云南电网有限责任公司信息中心 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法
CN111932268A (zh) * 2020-08-03 2020-11-13 中国工商银行股份有限公司 企业风险识别方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469235A (zh) * 2021-06-24 2021-10-01 珠海卓邦科技有限公司 用水波动异常识别方法及装置、计算机装置及存储介质
CN113469235B (zh) * 2021-06-24 2024-04-26 珠海卓邦科技有限公司 用水波动异常识别方法及装置、计算机装置及存储介质
CN114304033A (zh) * 2022-01-25 2022-04-12 海南大学 一种河流生态系统中鱼类功能指示物种的筛选方法

Similar Documents

Publication Publication Date Title
CN109767322B (zh) 基于大数据的可疑交易分析方法、装置和计算机设备
US20030074251A1 (en) Clustering
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN107993143A (zh) 一种信贷风险评估方法及系统
CN112116437A (zh) 一种线上招标方法及系统、装置
CN111178005B (zh) 数据处理系统、方法及存储介质
CN112711577A (zh) 一种异常交易企业识别方法及装置
CN115204995A (zh) 一种税务数据采集分析方法、系统及计算机存储介质
CN116739607B (zh) 一种基于数据分析的商户收银数据监测管理系统
CN113592512A (zh) 一种线上商品身份唯一性识别确认系统
CN112257644A (zh) 一种基于云计算的电子商务平台店铺商品库存智能管理系统
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
CN116843346A (zh) 一种基于云平台的异常订单监控预警方法及系统
CN116702089A (zh) 基于物联网的超市数据监测系统
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN113393169B (zh) 基于大数据技术的金融行业交易系统性能指标分析方法
CN106779843B (zh) 一种基于客户群体特征的商户竞合关系分析的方法和装置
CN114741617A (zh) 一种企业财务数据采集分析方法、系统及计算机存储介质
CN112418652A (zh) 一种风险识别方法及相关装置
CN114266594A (zh) 一种基于东南亚跨境电商平台的大数据分析方法
CN113379211A (zh) 基于区块链的物流信息平台违约风险管控系统及方法
CN113763143A (zh) 审计处理方法、计算机设备及存储装置
CN108242019A (zh) 基于spark的小规模纳税人年应税销售额的监控方法及系统
CN115187387B (zh) 一种风险商家的识别方法及设备
CN114119052B (zh) 一种基于大数据的假冒农产品监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination