CN109754265B

CN109754265B - 一种数据处理方法及装置

Info

Publication number: CN109754265B
Application number: CN201711060081.4A
Authority: CN
Inventors: 贺勇; 李楠; 李屾; 张凯; 龚坚
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2023-04-07
Anticipated expiration: 2037-11-01
Also published as: CN109754265A

Abstract

本申请公开了一种数据处理方法及装置，包括：获取企业的进项商品集合和销项商品集合；分别将进项商品集合中的至少一部分进项商品，与销项商品集合中的至少一部分销项商品两两组合，形成该企业的进销二元对集合；分别计算进销二元对集合中进销二元对的置信度；对进销二元对的置信度进行处理，确定该企业是否为异常企业。本申请提供的进销处理方法中，融入了商品之间的置信度，而且基于进销二元对构建二部图并得到联通分支集合，这样，考虑了多种商品对多种商品对企业的影响，自动、准确地实现了对异常企业的判定。并且，本申请相对于已有的基于规则的方法，大量降低了漏选和误选问题。

Description

一种数据处理方法及装置

技术领域

本申请涉及但不限于计算机技术，尤指一种数据处理方法及装置。

背景技术

对于一个企业，如果是正常经营的企业，那么其购买的商品集合(也称为进项商品集合)与其销售的商品集合(也称为销项商品集合)应该是相关的。如果一个企业购买了大量的与其销售的商品无关的商品，亦或是销售了大量的与其购买的商品无关的商品，那么，该企业便很大可能是异常企业，比如在税务中，该企业很大概率是一个变票企业或者虚开发票的企业；再如在海关中，该企业很大概率是一个骗退免税的企业。而对这类企业的识别，是有关部门的重点业务，能够为国家税收带来巨大的收益，并打击偷税漏税骗税等违法行为，营造良好的商业环境。

其中，企业的进项商品集合，指的是企业所购买所有的商品或者服务与这些商品或者服务的金额所构成的集合；企业的销项商品集合，指的是企业所销售所有的商品或者服务与这些商品或者服务的金额所构成的集合；企业的进销项商品集合，指的是企业的进项商品集合与销项商品集合。

为了判定某个企业是否为异常企业，相关技术中都是通过业务专家将自己的业务知识转化为规则，然后，利用这些规则去圈筛选出一些企业，再通过人工观察这些企业的进销商品来判定这些企业是否异常。比如：规则中认为进“黄金”销“钢铁”不正常，那么，使用该规则去选择一批企业再通过人工进一步筛选出异常企业。

这种判定企业是否为异常企业的方式中，一方面，规则是无法枚举的，需要将业务知识翻译成规则，这样会存在有些业务知识并不能很好地翻译成规则的问题，而且特别有赖于人工经验，无法实现一般化；比如：业务知识是很多企业的进项商品是农产品，销项产品是与农产品不相关的商品如“煤”类、“钢”类等，但是农产品是有很多商品，如“水稻”、“玉米”等，并且对于同种商品，其名称也是五花八门，比如“水稻”就有很多品种，这样，这条业务知识就无法进行规则化，因为需要在规则中一一枚举农产品，这显然是做不到的。另一方面，就是需要人工去选案并进行判断，这样一旦数据量大，那么人工是难以应对的，并且由于规则本身是不能一一枚举的，因此会存在大量的漏选或误选的问题。

发明内容

为了解决上述技术问题，本发明提供一种数据处理方法及装置，能够自动、准确实现对异常企业的判定。

为了达到本发明目的，本发明提供了一种数据处理方法，包括：

获取企业的进项商品集合和销项商品集合；

分别将进项商品集合中的至少一部分进项商品，与销项商品集合中的至少一部分销项商品两两组合，形成该企业的进销二元对集合；

分别计算进销二元对集合中进销二元对的置信度；

对进销二元对的置信度进行处理，确定该企业是否为异常企业。

可选地，所述形成该企业的进销二元对集合之前，还包括：

根据预先设置的过滤条件，对获得的所述企业的进项商品集合和销项商品集合进行过滤。

可选地，所述过滤条件包括以下一项或任意组合：金额不小于金额阈值、按照金额降序排序的累计占比百分比不小于占比阈值、按照金额排序后的前k项；其中，k为预先设置的自然数。

可选地，所述分别计算进销二元对集合中进销二元对的置信度包括：

计算每一个所述进销二元对的存在购进商品A销售商品B的企业总企业数目N_A→B、计算购进商品A的进企业数目N_A，以及计算销售商品B的销企业数目N_B；

根据计算得到的总企业数目N_A→B、进企业数目N_A和销企业数目N_B，计算每一个所述进销二元对A->B的置信度，并且购进商品A与销售商品B相同的进销二元对的置信度为1。

可选地，按照以下公式计算所述每一个所述进销二元对A->B的置信度：

sim{A→B}＝Confidence{A→B}＝max{P_A→B/A，P_A→B/B}∈[0，1]且sim{A→A}＝Confidence{A→A}＝1.0；其中，

为购进商品A销售的是商品B的条件概率；

为销售商品B购进的是商品A的条件概率。

可选地，所述对进销二元对的置信度进行处理，确定该企业是否为异常企业包括：

使用每个企业的所述进销二元对的置信度构建每个企业的进销二元对的二部图；

根据每个企业的所述进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度；

对企业的所有联通分支的相关度进行加权求和，得到每个企业的进销相关度得分；

如果进销相关度得分小于预先设置的相关度阈值t，则认为该企业异常。

可选地，所述构建每个企业的进销二元对的二部图包括：

对每个企业，遍历该企业的每一所述进销二元对，如果该进销二元对之间的置信度不小于预先设置的置信度阈值，表明该进销二元对之间有边连接，否则该进销二元对之间无边连接；

根据有边连接构建每个企业的进销二元对的二部图，并得到的每个企业的二部图的所有联通分支。

可选地，所述根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度包括：

对得到的企业的所述进销二元对的二部图的联通分支集合union，计算每个联通分支union_i的进项商品集合g_hw_i中每个进项商品的进项金额比例之和g_hw_rate_i，，以及销项商品集合x_hw_i中每个销项商品的销项金额比例之和g_hw_rate_i，按照预先设置的策略获取每个联通分支union_i的进项商品集合g_hw_i与销项商品集合x_hw_i的相关度sin(union_i)，其中，i为联通分支序号；对每个联通分支，融合金额比例对联通分支的进销集合之间的相关度进行评价。

可选地，所述预先设置的策略包括以下之一：

取所述联通分支的最大边值作为该联通分支的进项商品集合和销项商品集合的相关度；或者，取所述联通分支中所有边的均值作为该联为联通分支的进项商品集合和销项商品集合的相关度；或者，取所述联通分支中所有边的中位数作为该联通分支的进项商品集合和销项商品集合的相关度。

可选地，所述方法采用映射-归纳MR分布式框架实现。

本申请还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的数据处理方法。

本申请再提供了一种用于实现进销处理的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：获取企业的进项商品集合和销项商品集合；分别将进项商品集合中的至少一部分进项商品，与销项商品集合中的至少一部分销项商品两两组合，形成该企业的进销二元对集合；分别计算进销二元对集合中进销二元对的置信度；对进销二元对的置信度进行处理，确定该企业是否为异常企业。

本申请又提供了一种数据处理装置，包括：获取模块、第一处理模块，以及第二处理模块；其中，

获取模块，用于获取企业的进项商品集合和销项商品集合，分别将进项商品集合中的至少一部分进项商品，与销项商品集合中的至少一部分销项商品两两组合，形成该企业的进销二元对集合；

第一处理模块，用于分别计算进销二元对集合中进销二元对的置信度；

第二处理模块，用于对进销二元对的置信度进行处理，确定该企业是否为异常企业。

可选地，所述获取模块还用于：根据预先设置的过滤条件，对获得的企业的进项商品集合和销项商品集合进行过滤。

可选地，所述第一处理模块具体用于：

计算每一个所述进销二元对A->B的总企业数目N_A→B，购进商品A的进企业数目N_A，以及销售商品B的销企业数目N_B；根据计算得到的总企业数目N_A→B、进企业数目N_A和销企业数目N_B，计算每一个所述进销二元对A->B的置信度。

可选地，所述第二处理模块具体用于：

使用每个企业的所述进销二元对的置信度构建每个企业的进销二元对的二部图；根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度；对企业的所有联通分支的相关度进行加权求和，得到每个企业的进销相关度得分，如果进销相关度得分小于预先设置的相关度阈值t，则认为该企业异常。

可选地，所述第二处理模块中的根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度包括：

对得到的企业的进销二元对的二部图的联通分支集合union，计算每个联通分支union_i的进项商品集合g_hw_i中每个进项商品的进项金额比例之和g_hw_rate_i，，以及销项商品集合x_hw_i中每个销项商品的销项金额比例之和x_hw_rate_i，按照预先设置的策略获取每个联通分支union_i的进项商品集合g_hw_i与销项商品集合x_hw_i的相关度sim(union_i)，其中，i为联通分支序号；对每个联通分支，融合金额比例对联通分支的进销集合之间的相关度进行评价。

可选地，所述预先设置的策略包括以下之一：

本申请至少包括：获取企业的进项商品集合和销项商品集合；分别将进项商品集合中的至少一部分进项商品，与销项商品集合中的至少一部分销项商品两两组合，形成该企业的进销二元对集合；分别计算进销二元对集合中进销二元对的置信度；对进销二元对的置信度进行处理，确定该企业是否为异常企业。本申请提供的数据处理方法中，融入了商品之间的置信度，而且基于进销二元对构建二部图并得到联通分支集合，这样，考虑了多种商品对多种商品对企业的影响，自动、准确地实现了对异常企业的判定。并且，本申请相对于已有的基于规则的方法，大量降低了漏选和误选问题。

可选地，本申请可以很好地进行分布式设计与实现，即使数据量再大，计算也非常快速。

可选地，本申请提供的数据处理方法中，还融入了金额比例，使得对异常企业的判定更加准确。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请数据处理方法的流程示意图；

图2为本申请生成二部图联通分支实施例示意图；

图3为本申请数据处理装置的组成结构示意图；

图4为本申请数据处理方法实施例中第一个MapReduce过程的流程示意图；

图5为本申请数据处理方法实施例中第二个MapReduce过程的流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

假设在全国范围内，绝大部分是正常经营的企业，而异常企业只是少数。并且假设对于一个企业其进项商品集合包括进项商品A(简称为进A)，销项集包括销项商品B(简称为销B)，如果这个企业是正常的，那么，进A销B便是一个置信度高的二元模式即A->B模式，也就是说，如果A->B模式置信度高，那么，对于购进商品A的企业，其较大可能是销售商品B；或者，对于销售商品B的企业，其较大可能是购进商品A。本申请发明人经过仔细研究后，提出：可以使用A->B模式的条件概率作为该模式是否正常的判断条件，即将A->B模式的条件概率作为该模式的置信度，置信度越大，这种模式越正常。其中，进A销B模式也称为进销商品二元对，并且在具体计算中会同时考虑进A的金额信息与销B的金额信息。假设购进商品A的企业数目为N_A，销售商品B的企业数目为N_B，进A销B的企业数目为N_A→B，那么，对于购进商品A销售的是商品B的条件概率为

对于销售商品B购进的是商品A的条件概率为

如果一个正常的但不经常出现的进销商品二元对，比如某建筑公司购进“水泥”，销售的是“XX广场工程”，因为“XX广场工程”在销售数据中出现的次数也就一次，而购进“水泥”出现的次数会很多，因为很多工程都会购进“水泥”，即购进A可以销售多种商品，这样的话，如果只考虑购进商品A销售的是商品B的条件概率P_A→B/A，该建筑公司的置信度会很小，这样会将正常的购销对作为异常处理，是不合理；同理，对于生产型企业，得到某种商品，可以由多种不同的原料根据不同的工艺而得到，比如生产“油脂”的企业，有些企业是购进“棉籽”，有些企业是购进“油菜籽”，有些企业是购进“玉米”等，如果只考虑销售商品B购进的是商品A的条件概率P_A→B/B，那么生产“油脂”的每一种购进商品的置信度都会很小，这样也会导致正常的模式被判定为异常的模式。

因此，本申请发明人提出，A->B模式的置信度如公式(1)所示：

Confidence{A→B}＝max{P_A→B/A，P_A→B/B}∈[0，1] (1)

公式(1)中不仅考虑了进商品A时销的是商品B的置信度，也考虑了销商品B时进的是商品A的置信度，而且会取进商品A时销的是商品B的置信度和销商品B时进的是商品A的置信度中最大的一个作为进销二元对的置信度。如果按照公式(1)所示综合考虑进商品A时销的是商品B的置信度和销商品B时进的是商品A的置信度的两种条件概率，那么，上述某建筑公司和生产“油脂”的企业的两种模式都会认为是正常的。

再如：某企业购进的是“黄金”，销售的是“钢铁”，对于正常企业，购进“黄金”则会销售与“黄金”相关的商品，那么“黄金->钢铁”的购进黄金销售的是钢铁的条件概率P_A→B/A则会很小；同理销售“钢铁”，则会购进与钢铁相关的商品，那么“黄金->钢铁”的销售钢铁购进的是黄金的条件概率P_A→B/B也会很小。也就是说，对于该企业来讲上述两种条件概率都会很小，按照公式(1)计算得到的黄金->钢铁的置信度Confidence{黄金→钢铁}也会很小，因此，如果按照上述本申请发明人提出的A->B模式的置信度的计算方式，该企业会被判定为异常的模式。

图1为本申请数据处理方法的流程示意图，如图1所示，包括：

步骤100：获取企业的进项商品集合和销项商品集合。

对于每个企业，分别获取其第一进项商品集合g_hw1与第一销项商品集合x_hw1，每个集合中的商品都包括其金额(对于进项商品集合是进项金额，对于销项商品集合是销项金额)。这里，如何获取属于本领域技术人员的熟知技术，并不用于限定本申请的保护范围，这里不再赘述。

可选地，本步骤还包括：根据预先设置的过滤条件，对获得的企业的进项商品集合和销项商品集合进行过滤。

预先设置的过滤条件包括以下一项或任意组合：金额不小于金额阈值t1、按照金额降序排序的累计占比百分比不小于占比阈值t2、按照金额排序后的前k(topk)项，其中，k为预先设置的自然数。

对于得到的第一进项商品集合g_hw1与第一销项商品集合x_hw1，按照上述过滤条件进行处理分别只留下金额不小于金额阈值t1的商品，或者按照金额降序排序的累计占比百分比不小于占比阈值t2的商品，或者按照金额排序后的前k(topk)项的商品，或者上述条件中的一部分或者全部同时满足。

可选地，金额阈值t1可以取值为如10万，占比阈值t2可以取值为如95％，k可以取值为如20。

这样，便得到了每个企业过滤后的第二进项商品集合g_hw2与第二销项商品集合x_hw2，并计算每个企业的第二进项商品集合g_hw2中每个进项商品的金额占该企业进项商品集合总进项金额的比例，以及每个企业的第二销项商品集合x_hw2中每个销项商品的金额占该企业销项总金额的比例。这样，得到：

每个企业的进项商品集合为：g_hw＝{A：rate_g_A，B：rate_g_B...}；

每个企业的销项商品集合为：x_hw＝{C：rate_x_C，D：rate_x_D...}；

进销集合可能存在相同的商品(如商贸企业)。

步骤101：分别将进项商品集合中的至少一部分进项商品，与销项商品集合中的至少一部分销项商品两两组合，形成该企业的进销二元对集合。

本步骤中，通过对每个企业的第二进项商品集合g_hw2与第二销项商品集合x_hw2做进销商品对笛卡尔集，得到每个企业的进销二元对集合pair_set。具体实现属于本领域技术人员的熟知技术，并不用于限定本申请的保护范围，这里不再赘述。

步骤102：分别计算进销二元对集合中进销二元对的置信度。

也就是说，根据获得的每个进销二元对、进销二元对对应的进项商品和销项商品，分别计算该进销二元对的置信度。

本步骤包括：计算每一个进销二元对A->B的总企业数目N_A→B，即存在购进商品A销售商品B的企业的企业数；同时，计算购进商品A的进企业数目N_A，以及销售商品B的销企业数目N_B；

根据计算得到的总企业数目N_A→B、进企业数目N_A和销企业数目N_B，计算每一个进销二元对A->B的置信度confidence{A→B}以作为进A销B的相关度sim{A→B}，并且购进商品A与销售商品B相同(即商品A与商品B相同)的进销二元对的置信度为1.0，具体计算公式如下所示：

购进商品A销售的是商品B的条件概率

销售商品B购进的是商品A的条件概率

因此，

sim{A→B}＝Confidence{A→B}＝max{P_A→B/A，P_A→B/B}∈[0，1]，且sim{A→A}＝Confidence{A→A}＝1.0。

步骤103：对获得的进销二元对的置信度进行处理，确定该企业是否为异常企业。可选地，包括：

首先，(一)使用每个企业的进销二元对的置信度构建每个企业的进销二元对的二部图。

其中，对于无向图G＝(V，E)，如果顶点V可分割为两个互不相交的子集(A，B)，并且该无向图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A，j in B)，则称图G为一个二部图。

可选地，构建每个企业的进销二元对的二部图具体包括：

对每个企业，遍历其每一进销二元对，如果该进销二元对的置信度不小于预先设置的置信度阈值threshold，那么，表明这个进销二元对之间有边连接(即相关)，否则这个进销二元对之间无边连接(即不相关)，这里，进销二元对包括两个商品，一个是进项商品，一个是销项商品，进销二元对之间指的就是这两个商品之间。按照这种方式根据有边连接构建每个企业的进销二元对的二部图，并获知得到的二部图的所有联通分支。其中，一个联通分支中任意两个点是可达的，即存在可以到达的路径，可达包括直接边连接的，也包括通过其它点而可以到达的。比如，企业X的进项商品集合为：g_hw＝{A:0.45,B:0.35,C:0.2}，销项商品集合为：x_hw＝{A:0.4,E:0.4,F:0.2}，那么，

该企业的进销二元对集合pair_set为：

pair_set＝{A->A,A->E,A->F,B->A,B->E,B->F,C->A,C->E,C->F}；

根据步骤102计算得到的所有进销二元对的置信度为：{sim{A->A}＝1.0,sim{A->E}＝0.01,sim{A->F}＝0.02,sim{B->A}＝0.01,sim{B->E}＝0.75,sim{B->F}＝0.03,sim{C->A}＝0.04,sim{C->E}＝0.8sim{C->F}＝0.015}，假设本例中置信度阈值threshold为0.5，那么，得到的二部图联通分支如图2所示。图2中，虚线标识置信度小于置信度阈值的分支即无边连接(即需要过滤掉的边)，实线连接则表示有边连接，图2所示示例中，联通分支集合union包括联通分支1、联通分支2和联通分支3。

然后，(二)根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度。可选地，包括：

1)对得到的企业的进销二元对的二部图的联通分支集合union，计算每个联通分支union_i的进项商品集合g_hw_i中的每个进项商品的进项金额比例之和g_hw_rate_i，，以及销项商品集合x_hw_i中的每个销项商品的销项金额比例之和x_hw_rate_i，按照预先设置的策略获取每个联通分支union_i的进项商品集合g_hw_i与销项商品集合x_hw_i的相关度sim(union_i)，其中，i为联通分支序号。

比如：某企业的进项商品集合包括A,B,C,D四个商品，所占的进项金额比例分别是0.3,0.3,0.2,0.2(加起来为1)，假设该企业有两个联通分支，这两个联通分支的进项商品集合分别是{A,B}，{C,D},那么，第一个联通分支的g_hw_rate1＝0.3+0.3＝0.6，第二个联通分支的g_hw_rate2＝0.2+0.2＝0.4。对于这两个联通分支的每个联通分支的销项商品集合也是一样处理，这里不再赘述。

2)对每个联通分支，按照公式(2)融合金额比例对联通分支的进销集合之间的相关度进行评价。

可选地，预先设置的策略可以是以下之一：

取该联通分支的最大边值作为该联通分支的进项商品集合和销项商品集合的相关度；或者，取该联通分支中所有边的均值作为该联为联通分支的进项商品集合和销项商品集合的相关度；或者，取该联通分支中所有边的中位数作为该联通分支的进项商品集合和销项商品集合的相关度。这样，得到企业的联通分支集合为：

union＝{union_i＝{{g_hw_i：g_hw_rate_i}，{x_hw_i：x_hw_rate_i}，sim(union_i)}}，其中，i为联通分支序号。

仍以图2为例，如果采用的策略为：取该联通分支的最大边值作为该联通分支的进项商品集合和销项商品集合的相关度，那么，联通分支的进项商品集合和销项商品集合的相关度为：

union＝{union1＝{{{A}:0.45},{{A}:0.4},1.0},union2＝{{{B,C}:0.55},{{E}:0.4},0.8},union2＝{{{}:0.0},{{F}:0.2}},0.0}}。

可选地，融合金额比例对联通分支的进销集合之间的相关度进行评价包括：按照公式(2)对每个联通分支的进销集合之间的相关度融合金额比例。

由于本申请中将金额比例融合进了联通分支的进销集合之间的相关度，因此，对于如在一个企业进销集合中，存在进A金额占比10％，销A金额占比80％，虽然进A销A商品很相关，但是金额比例相差悬殊的情况，利用本申请的方法也能合理地找出异常的企业。

最后，(三)按照公式(3)对企业的所有联通分支的相关度进行加权求和，得到每个企业的进销相关度得分，如果进销相关度得分小于预先设置的相关度阈值t，则认为该企业异常。

公式(3)中，g_hw_rate_i表示第i个联通分支的所有进项商品的金额所占进项总金额比例，x_hw_rate_i表示第i个联通分支的所有销项商品的金额所占销项总金额比例，new_sim(union_i)表示第i个联通分支中进项商品集合与销项商品集合的相关度，进销相关度得分score∈[0，1]，得分越小，表明该进销相关度得分对应的企业越异常。

本申请提供的数据处理方法中，不仅融入了商品之间的置信度，融入了金额比例，而且基于进销二元对对构建二部图并得到联通分支集合，这样，考虑了多种商品对多种商品对企业的影响，如一个企业，可能进多种商品产出一种商品或者多种商品，或者进一种商品产出多种商品，或者多个经营范围等，自动、准确地实现了对异常企业的判定。并且，本申请相对于已有的基于规则的方法，大量降低了漏选和误选问题。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的进销处理方法。

本申请还提供一种用于实现数据处理的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：获取企业的进项商品集合和销项商品集合；分别将进项商品集合中的至少一部分进项商品，与销项商品集合中的至少一部分销项商品两两组合，形成该企业的进销二元对集合；分别计算进销二元对集合中进销二元对的置信度；对进销二元对的置信度进行处理，确定该企业是否为异常企业。

图3为本申请数据处理装置的组成结构示意图，如图3所示，至少包括：获取模块、第一处理模块，以及第二处理模块；其中，

第一处理模块，用于分别计算进销二元对集合中进销二元对的置信度；第二处理模块，用于对获得的进销二元对的置信度进行处理，确定该企业是否为异常企业。

可选地，获取模块还用于：根据预先设置的过滤条件，对获得的企业的进项商品集合和销项商品集合进行过滤。

可选地，预先设置的过滤条件包括以下一项或任意组合：金额不小于金额阈值t1、按照金额降序排序的累计占比百分比不小于占比阈值t2、按照金额排序后的前k(topk)项。

可选地，第一处理模块具体用于：

计算每一个进销二元对A->B的总企业数目N_A→B，购进商品A的进企业数目N_A，以及销售商品B的销企业数目N_B；根据计算得到的总企业数目N_A→B、进企业数目N_A和销企业数目N_B，计算每一个进销二元对A->B的置信度。

可选地，第二处理模块具体用于：

使用每个企业的进销二元对的置信度构建每个企业的进销二元对的二部图；根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度；对企业的所有联通分支的相关度进行加权求和，得到每个企业的进销相关度得分，如果进销相关度得分小于预先设置的相关度阈值t，则认为该企业异常。

可选地，第二处理模块中的构建每个企业的进销二元对的二部图包括：

对每个企业，遍历其每一进销二元对，如果该进销二元对的置信度不小于预先设置的置信度阈值threshold，那么，表明这个进销二元对之间有边连接(即相关)，否则这个进销二元对之间无边连接(即不相关)，并构建每个企业的进销二元对的二部图，获知得到的二部图的所有联通分支。这里，进销二元对包括两个商品，一个是进项商品，一个是销项商品，进销二元对之间指的就是这两个商品之间。

可选地，第二处理模块中的根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度包括：

对得到的企业的进销二元对的二部图的联通分支集合union，计算每个联通分支union_i的进项商品集合g_hw_i中每个进项商品的进项金额比例之和g_hw_rate_i，，以及销项商品集合x_hw_i中每个销项商品的销项金额比例之和x_hw_rate_i，按照预先设置的策略获取每个联通分支union_i的进项商品集合g_hw_i与销项商品集合x_hw_i的相关度sim{union_i)，其中，i为联通分支序号；对每个联通分支，融合金额比例对联通分支的进销集合之间的相关度进行评价。

可选地，

预先设置的策略可以是以下之一：

取该联通分支的最大边值作为该联通分支的进项商品集合和销项商品集合的相关度；或者，取该联通分支中所有边的均值作为该联为联通分支的进项商品集合和销项商品集合的相关度；或者，取该联通分支中所有边的中位数作为该联通分支的进项商品集合和销项商品集合的相关度。

本申请提供的技术方案可以采用映射-归纳(MR，MapReduce)分布式框架进行计算。其中，MapReduce是Google提出的一个软件架构，用于大规模数据集(大于1TB)的并行运算。软件实现是指定一个Map(映射)函数，用来将一组键值对映射成一组新的键值对，指定并发的Reduce(归纳)函数，用来保证所有映射的键值对中的每一个共享相同的键组。

本申请实施例中，可以采用两个MapReduce过程和一个JOIN过程来实现本申请的进销处理方法中的计算过程。

图4为本申请数据处理方法实施例中第一个MapReduce过程的流程示意图，如图4所示，包括：

步骤400：在Mapper阶段，输入的数据集是所有企业的进销数据记录。Mapper阶段处理每一条数据记录，输出为kv，其中，k为企业标识(ID)；v中包括三个字段，第一字段是数据记录的类型(type)，代表该条记录是企业购买记录(可以用0表示)还是销售记录(可以用1表示)，第二个字段是商品名称(hw)，代表该条记录中购买或者销售的商品名称，第三个字段是金额(je)，代表该条记录中购买或者销售该商品的金额。

步骤401：在Reducer1阶段，将上一阶段企业标识相同(k相同)即将每一户企业的数据聚集到一起，那么这样分别对每个企业每种进销商品进行聚合，得到每个企业的进项商品集合g_hw和销项商品集合x_hw，即对每个企业的每种购进或者销售的商品按照金额进行聚合(进项商品按照进项金额聚合，销项商品按照销项金额进行聚合)，然后构成这两个集合；

对于这两个集合，分别只留下金额不小于金额阈值t1的商品，或者按照金额降序排序的累计百分比不小于占比阈值t2的商品，或者按照金额排序后的topk的商品，或者这几个条件中一部分或者全部同时满足。本实施例中，假设金额阈值t1取值为10万，占比阈值t2取值为95％，k取值为20。这样每个企业便产生了过滤后的进项商品集合g_hw与销项商品集合x_hw；

然后对过滤后的进项商品集合g_hw与销项商品集合x_hw两个集合产生笛卡尔集，得到每个企业的进销二元对集合pair_set，并输出kv。

每一个企业X会产生多个kv，具体产生方式可以是：遍历进销二元对集合pair_set的每一对A->B，假设输出4个kv，第一个kv中的k有两个字段：商品A的商品名称、0(表示商品A是购进商品)，第一个kv中的v有两个字段：商品B的商品名称、企业X的ID；第二个kv中的k有两个字段：A的商品名称、0(表示商品A是购进商品)，第二个kv中的v有一个字段为：企业X的ID；第三个kv中的k有两个字段：商品B的商品名称，1(表示商品B是销售商品)，第三个kv中的v有两个字段分别为：商品A的商品名称、企业X的id；第四kv的k有两个字段：商品B的商品名称，1(表示商品B是销售商品)，第四个kv中的v有一个字段为：企业X的ID。

步骤402：在Reducer2阶段，按照Reduce计算框架，会将Reducer1阶段输出的相同的k的数据聚集到一起。这样，对于每一种进项商品A，会得到进A的所有企业集合即得到购进商品A的企业数目N_A，以及所有进A销每一种与商品A构成进销对的商品的企业集合即得到A->B,A->C…进A而销每一种与商品A构成进销二元对的企业数目N_A→B，N_A→C…。同理，对于每一种销项商品B，会得到销B的所有企业集合即得到销售商品B的企业数目N_B，以及所有销B而进每一种与商品B构成进销二元对的商品的企业集合即得到A->B,C->B…销B而进每一种与商品B构成进销二元对的企业数目N_A→B，N_C→B…。

进一步，计算在Reducer1阶段输出的k的第二个字段为0的商品对每种销项商品的条件概率，即每一种进项商品A与其构成进销二元对的所有销项商品B的条件概率：

此时输出的kv中k有两个字段，分别为：进项商品A的名称、销项商品B的名称；此时输出的kv中的v有两个字段，分别为：0(表示是进项条件概率)、P_A→B/A值；计算在Reducer1阶段输出的k的第二个字段为1的商品对每种进项商品的条件概率，即每一种销项商品B与其构成进销二元对的所有进项商品A的条件概率：

此时输出的kv中k有两个字段，分别为：进项商品A的名称、销项商品B的名称。此时输出的kv中的v有两个字段，分别为：1(表示为销项条件概率)，P_A→B/B值。

步骤403：Reducer3阶段：对Reducer2阶段的相同的k的数据进行聚合，即每一种进销二元对A->B，其聚合数据有两个值，P_A→B/A与P_A→B/B，两个值取大者为该进销二元对A->B的置信度。即：

Confidence{A→B}＝max{P_A→B/A，P_A→B/B}且Confidence{A→A}＝1.0。

之后是一个JOIN过程，包括：

在第一个MR过程中的Reducer1阶段已经得到了每个企业的进销二元对集合，将每个企业的的每个进销二元对与Reducer3阶段得到的每个进销二元对的置信度的集合进行JOIN，即：进项商品名称＝进项商品名称and销项商品名称＝销项商品名称进行连接。

这样得到了每个企业中，每一对进销二元对都带上了该进销二元对的置信度信息。

通过图4中一个Mapper阶段与三个Reducer阶段组成的MR过程，计算出了每个进销二元对的置信度。举例来看，

假设进销数据集有如下12条记录：

企业X，购买，商品A，金额100；

企业X，购买，商品A，金额50；

企业X，购买，商品C，金额50；

企业X，购买，商品D，金额1；

企业X，销售，商品A，金额100；

企业X，销售，商品B，金额50；

企业X，购买，商品E，金额1；

企业Y，购买，商品A，金额50；

企业Y，购买，商品B，金额50；

企业Z，购买，商品A，金额50；

企业Z，购买，商品E，金额80；

在Mapper阶段：

输入为：上述12条进销记录。

输出如下：

{k＝{X}，v＝{0,A,100}}；

{k＝{X}，v＝{0,A,50}}；

{k＝{X}，v＝{0,C,50}}；

{k＝{X}，v＝{0,D,1}}；

{k＝{X}，v＝{1,A,100}}；

{k＝{X}，v＝{1,B,50}}；

{k＝{X}，v＝{1,E,1}}；

{k＝{Y}，v＝{0,A,50}}；

{k＝{Y}，v＝{1,B,50}}；

{k＝{Z}，v＝{0,A,50}}；

{k＝{Z}，v＝{1,E,80}}；

在Reducer1阶段：

输入为：Mapper阶段的输出，并且相同的k数据会聚集在一起，假设使用金额阈值10进行过滤，那么，对于k为X的，聚合为：g_hw＝{A:150,C:50}，x_hw＝{A:100,B:100}；对于k为Y的，聚合为：g_hw＝{A:50}，x_hw＝{B:50}；对于k为Z的，聚合为：g_hw＝{A:50}，x_hw＝{E:80}。

输出为：

对于k为X的输出：

有4个进销二元对：A->A，A->B，C->A，C->B，每个进销二元对产生四条kv。

进销二元对A->A：

{k＝{A,0}，v＝{A,X}}；

{k＝{A,0}，v＝{X}}；

{k＝{A,1}，v＝{A,X}}；

{k＝{A,1}，v＝{X}}；

进销二元对A->B：

{k＝{A,0}，v＝{B,X}}；

{k＝{A,0}，v＝{X}}；

{k＝{B,1}，v＝{A,X}}；

{k＝{B,1}，v＝{X}}；

进销二元对C->A：

{k＝{C,0}，v＝{A,X}}；

{k＝{C,0}，v＝{X}}；

{k＝{A,1}，v＝{C,X}}；

{k＝{A,1}，v＝{X}}；

进销二元对C->B：

{k＝{C,0}，v＝{B,X}}；

{k＝{C,0}，v＝{X}}；

{k＝{B,1}，v＝{C,X}}；

{k＝{B,1}，v＝{X}}；

对于k为Y的输出：

有1个进销二元对：A->B，产生四条kv：

{k＝{A,0}，v＝{B,Y}}；

{k＝{A,0}，v＝{Y}}；

{k＝{B,1}，v＝{A,Y}}；

{k＝{B,1}，v＝{Y}}；

对于k为Z的输出：

有1个进销二元对：A->E，产生四条kv：

{k＝{A,0}，v＝{E,Z}}；

{k＝{A,0}，v＝{Z}}；

{k＝{E,1}，v＝{A,Z}}；

{k＝{E,1}，v＝{Z}}；

在Reducer2阶段：

输入为：

对k＝{A,0}，有数据：

{k＝{A,0}，v＝{A,X}}；

{k＝{A,0}，v＝{X}}；

{k＝{A,0}，v＝{B,X}}；

{k＝{A,0}，v＝{X}}；

{k＝{A,0}，v＝{B,Y}}；

{k＝{A,0}，v＝{Y}}；

{k＝{A,0}，v＝{E,Z}}；

{k＝{A,0}，v＝{Z}}；

这样进A的企业集合为{X,Z},数目为2；A->A的企业集合为{X}，数目为1；A->B的企业集合为{X,Y}，数目为2；A->E的企业集合为{Z}，数目为1。因此，

输出为：

{k＝{A,A}，v＝{0,0.5}}；

{k＝{A,B}，v＝{0,1.0}}；

{k＝{A,E}，v＝{0,0.5}}；

对k＝{A,1}，有数据：

{k＝{A,1}，v＝{A,X}}；

{k＝{A,1}，v＝{X}}；

{k＝{A,1}，v＝{C,X}}；

{k＝{A,1}，v＝{X}}；

这样销A的企业集合为{X},数目为1；A->A的企业集合为{X}，数目为1；C->A的企业集合为{X}，数目为1。进一步

输出为：

{k＝{A,A}，v＝{1,1.0}}；

{k＝{C,A}，v＝{0,1.0}}；

对k＝{B,1}，有数据：

{k＝{B,1}，v＝{A,X}}；

{k＝{B,1}，v＝{X}}；

{k＝{B,1}，v＝{C,X}}；

{k＝{B,1}，v＝{X}}；

{k＝{B,1}，v＝{A,Y}}；

{k＝{B,1}，v＝{Y}}；

这样销B的企业集合为{X,Y},数目为2；A->B的企业集合为{X,Y}，数目为2；C->B的企业集合为{X}，数目为1。进一步

输出为：

{k＝{A,B}，v＝{1,1.0}}；

{k＝{C,B}，v＝{1,0.5}}；

对k＝{C,0}，有数据：

{k＝{C,0}，v＝{A,X}}；

{k＝{C,0}，v＝{X}}；

{k＝{C,0}，v＝{B,X}}；

{k＝{C,0}，v＝{X}}；

这样进C的企业集合为{X},数目为1；C->A的企业集合为{X}，数目为1；C->B的企业集合为{X}，数目为1；。进一步

输出为：

{k＝{C,A}，v＝{0,1.0}}；

{k＝{C,B}，v＝{0,1.0}}；

对k＝{E,1}，有数据：

{k＝{E,1}，v＝{A,Z}}；

{k＝{E,1}，v＝{Z}}；

这样销E的企业集合为{Z},数目为1；A->E的企业集合为{Z}，数目为1。进一步

输出为：

{k＝{A,E}，v＝{1,1.0}}；

在Reducer3阶段：

输入为：Reducer2阶段的输出，并且相同的k的数据聚集在一起。

k为{A,A}的数据有：

{k＝{A,A}，v＝{0,0.5}}；

{k＝{A,A}，v＝{1,1.0}}；

那么，confidence{A->A}＝1.0，相同商品置信度为1.0。

k为{A,B}的数据有：

{k＝{A,B}，v＝{0,1.0}}；

{k＝{A,B}，v＝{1,1.0}}；

那么，confidence{A->B}＝max{1.0,1.0}＝1.0。

k为{A,E}的数据有：

{k＝{A,E}，v＝{0,0.5}}；

{k＝{A,E}，v＝{1,1.0}}；

那么，confidence{A->E}＝max{0.5,1.0}＝0.5。

k为{C,A}的数据有：

{k＝{C,A}，v＝{0,1.0}}；

那么，confidence{C->A}＝max{1.0,1.0}＝1.0。

k为{C,B}的数据有：

{k＝{C,B}，v＝{1,0.5}}；

{k＝{C,B}，v＝{0,1.0}}；

那么，confidence{C->B}＝max{0.5,1.0}＝0.5。

最后输出上面的每个进销二元对的置信度。

在JOIN阶段：

接着使用第二个MapReducer过程对每个企业的进销集合进行相关度打分。图5为本申请数据处理方法实施例中第二个MapReduce过程的流程示意图，如图5所示，包括：

步骤500：在Mapper阶段，以JOIN过程的输出作为输入，输出kv，一个企业有多少进销二元对，该企业便会输出多少对kv。其中，k有一个字段，为企业的ID；v为该企业的进销二元对，有五个字段，分别为：进项商品的名称A、进项商品的所占进项总额比例rate_g_A、销项商品的名称B，销项商品的所占销项总额比例rate_x_B、该进销二元对的置信度sim(A->B)。

步骤501：在Reducer阶段，以Mapper的输出作为Reducer的输入。相同的k的数据聚集在一起，即同一个企业的数据聚集在一起。这样，按照图1中的二部图的建立方式、联通分支集合求取方式、联通分支的进销集合相关度评价方式、以及联通分支加权求和得到企业的进销集合相关度得分方式，得到每个企业进销相关度得分。如果该企业的进销相关度得分得分小于给定相关度阈值t，则认为该企业异常。

在实际操作中，首先，在初始离线计算阶段，包括：对于历史一段时期的进销数据，首先使用第一个MapReducer过程得到每个进销二元对的置信度。并使用JOIN过程与第二个MapReducer过程计算每个企业的进销相关度得分score。如果进销相关度得分score小于预先设置的相关度阈值t，则认为该企业异常，相关度阈值t可以通过人工验证来调整。其次，在在线更新与检测阶段，包括：每次新增一条数据，如果该数据记录对应的企业已经存在，那么直接对该企业的进销二元对集合进行更新，即对于进项记录，如果该进项商品在其进销集合的进项商品集中，则直接更新该进项商品的所有进销二元对的进项金额，否则，新增该进项商品与该企业的所有销项商品的进销二元对；对于销项记录，如果该销项商品在其进销集合的销项商品集中，则直接更新该销项商品的所有进销二元对的销项金额，否则，新增该企业的所有进项商品到该销项商品的进销二元对。如果企业不存在，则新增一个企业记录，并将该商品加入其进销集合(如果是进项商品则加入进项商品集合，如果是销项商品则加入销项商品集合)。更新之后，对于那些存在更新的企业，则使用上文的进销相关度得分score计算公式更新企业得分，一旦其进销相关度得分score小于给定相关度阈值t，则认为该企业异常，进行告警。再者，在离线更新阶段，包括：一旦新数据积累一段时间，如一个月，需要对进销二元对的相关度进行更新，那么重新按照第一个MapReducer过程对每一个进销二元对的置信度进行更新。并使用JOIN过程与第二个MapReducer过程计算每个企业的进销相关度得分score。如果进销相关度得分score小于给定相关度阈值t，则认为该企业异常。并经过人工验证来调整相关度阈值t，使得其更加合理。系统每隔一段时间进行一次离线更新，一般可以是一个月离线更新一次。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获取企业的进项商品集合和销项商品集合；

分别计算进销二元对集合中进销二元对的置信度；

对进销二元对的置信度进行处理，确定该企业是否为异常企业，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述形成该企业的进销二元对集合之前，还包括：

3.根据权利要求2所述的数据处理方法，其特征在于，所述过滤条件包括以下一项或任意组合：金额不小于金额阈值、按照金额降序排序的累计占比百分比不小于占比阈值、按照金额排序后的前k项；其中，k为预先设置的自然数。

4.根据权利要求1或2所述的数据处理方法，其特征在于，所述分别计算进销二元对集合中进销二元对的置信度包括：

根据计算得到的总企业数目N_A→B、进企业数目N_A和销企业数目N_B，计算每一个所述进销二元对A-＞B的置信度，并且购进商品A与销售商品B相同的进销二元对的置信度为1。

5.根据权利要求4所述的数据处理方法，其特征在于，按照以下公式计算所述每一个所述进销二元对A-＞B的置信度：

为购进商品A销售的是商品B的条件概率；

为销售商品B购进的是商品A的条件概率。

6.根据权利要求1所述的数据处理方法，其特征在于，所述构建每个企业的进销二元对的二部图包括：

7.根据权利要求1所述的数据处理方法，其特征在于，所述根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度包括：

对得到的企业的所述进销二元对的二部图的联通分支集合union，计算每个联通分支union_i的进项商品集合g_hw_i中每个进项商品的进项金额比例之和g_hw_rate_i，，以及销项商品集合x_hw_i中每个销项商品的销项金额比例之和x_hw_rate_i，按照预先设置的策略获取每个联通分支union_i的进项商品集合g_hw_i与销项商品集合x_hw_i的相关度sim(union_i)，其中，i为联通分支序号；对每个联通分支，融合金额比例对联通分支的进销集合之间的相关度进行评价。

8.根据权利要求7所述的数据处理方法，其特征在于，所述预先设置的策略包括以下之一：

9.根据权利要求1所述的数据处理方法，其特征在于，所述方法采用映射-归纳MR分布式框架实现。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述权利要求1～9任一项所述的数据处理方法。

11.一种用于实现进销处理的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：获取企业的进项商品集合和销项商品集合；分别将进项商品集合中的至少一部分进项商品，与销项商品集合中的至少一部分销项商品两两组合，形成该企业的进销二元对集合；分别计算进销二元对集合中进销二元对的置信度；对进销二元对的置信度进行处理，确定该企业是否为异常企业，包括：

12.一种数据处理装置，其特征在于，包括：获取模块、第一处理模块，以及第二处理模块；其中，

第二处理模块，用于对进销二元对的置信度进行处理，确定该企业是否为异常企业；

所述第二处理模块具体用于，使用每个企业的所述进销二元对的置信度构建每个企业的进销二元对的二部图；根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度；对企业的所有联通分支的相关度进行加权求和，得到每个企业的进销相关度得分，如果进销相关度得分小于预先设置的相关度阈值t，则认为该企业异常。

13.根据权利要求12所述的数据处理装置，其特征在于，所述获取模块还用于：根据预先设置的过滤条件，对获得的企业的进项商品集合和销项商品集合进行过滤。

14.根据权利要求12或13所述的数据处理装置，其特征在于，所述第一处理模块具体用于：

计算每一个所述进销二元对A-＞B的总企业数目N_A→B，购进商品A的进企业数目N_A，以及销售商品B的销企业数目N_B；根据计算得到的总企业数目N_A→B、进企业数目N_A和销企业数目N_B，计算每一个所述进销二元对A-＞B的置信度。

15.根据权利要求12所述的数据处理装置，其特征在于，所述第二处理模块中的根据每个企业的进销二元对的二部图，获取二部图中每个联通分支的进项商品集合与销项商品集合的相关度包括：

对得到的企业的进销二元对的二部图的联通分支集合union，计算每个联通分支union_i的进项商品集合g_hw_i中每个进项商品的进项金额比例之和g_hw_rate_i，以及销项商品集合x_hw_i中每个销项商品的销项金额比例之和x_hw_rate_i，按照预先设置的策略获取每个联通分支union_i的进项商品集合g_hw_i与销项商品集合x_hw_i的相关度sim(union_i)，其中，i为联通分支序号；对每个联通分支，融合金额比例对联通分支的进销集合之间的相关度进行评价。

16.根据权利要求15所述的数据处理装置，其特征在于，所述预先设置的策略包括以下之一：