CN114077872A

CN114077872A - 一种数据异常检测方法及相关装置

Info

Publication number: CN114077872A
Application number: CN202111435970.0A
Authority: CN
Inventors: 郑庆华; 王奕琛; 王嘉祥; 师斌; 刘勇; 董博; 钱力扬; 涂昶; 朱华童
Original assignee: Servyou Software Group Co ltd
Current assignee: Servyou Software Group Co ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-02-22

Abstract

本申请公开了一种数据异常检测方法，包括：基于数据格式对原始数据进行预处理，得到多个数据矩阵；采用卷积降噪自动编码器模型对所述多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量；将所有所述表示向量进行多输入融合，得到目标表示向量；基于密度DBSCAN算法对所述目标表示向量进行聚类分析，得到异常点；将所述异常点的数据标记为异常数据。实现在缺少标签数据的背景下，借助无监督的聚类算法检测出异常数据，提高数据检测的准确性。本申请还公开了一种数据异常检测装置、服务器以及计算机可读存储介质，具有以上有益效果，在此不做赘述。

Description

一种数据异常检测方法及相关装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种数据异常检测方法、数据异常检测装置、服务器以及计算机可读存储介质。

背景技术

随着信息技术的不断发展，使用数据处理手段对各行各业的数据进行处理，以提高数据处理的效率，提前发现数据中存在的问题。

相关技术中，基于数据挖掘进行异常交易检测，首先采用了贝叶斯信念网络算法判断当前交易属于异常交易的后验概率。另外，将当前交易之前一定数量的历史交易组成交易序列，将该序列与已知异常交易序列对比，得到相似度。最终，综合后验概率和相似度两个指标来判别交易是否异常。但是，在真实的纳税人交易场景中，足够的有标签数据是十分理想化的。使用贝叶斯信念网络分类器对交易进行分类，在无标签数据的前提下是难以实施的；其次在对比历史交易序列和异常交易序列时，也没有考虑到异常交易序列的多样性与复杂性。也就是，无法准确的进行数据检测，降低了数据检查的准确性。

因此，如何提高对数据进行检测的准确性是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种数据异常检测方法、数据异常检测装置、服务器以及计算机可读存储介质，以提高对数据进行检测的准确性，及时发现数据中的异常数据。

为解决上述技术问题，本申请提供一种数据异常检测方法，包括：

基于数据格式对原始数据进行预处理，得到多个数据矩阵；

采用卷积降噪自动编码器模型对所述多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量；

将所有所述表示向量进行多输入融合，得到目标表示向量；

基于密度DBSCAN算法对所述目标表示向量进行聚类分析，得到异常点；

将所述异常点的数据标记为异常数据。

可选的，基于数据格式对原始数据进行预处理，得到多个数据矩阵，包括：

对所述原始数据进行清洗，得到待整理数据；

基于所述数据格式和数据属性对所述待整理数据进行数据矩阵整理，得到所述多个数据矩阵。

可选的，采用卷积降噪自动编码器模型对所述多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量，包括：

基于预设模型结构进行构建，得到所述卷积降噪自动编码器模型；

采用所述卷积降噪自动编码器模型对所述多个数据矩阵进行模型训练；

当所述模型训练完成时，将所述模型训练的结果作为所述每个数据矩阵对应的表示向量。

可选的，将所有所述表示向量进行多输入融合，得到目标表示向量，包括：

基于预设比例将所有所述表示向量进行多输入融合，得到所述目标表示向量。

可选的，基于密度DBSCAN算法对所述目标表示向量进行聚类分析，得到异常点，包括：

对所述密度DBSCAN算法进行参数设定；

基于所述密度DBSCAN算法对所述目标表示向量进行聚类分析，得到所述异常点。

可选的，还包括：

基于所述异常数据发送提示信息。

本申请还提供一种数据异常检测装置，包括：

数据预处理模块，用于基于数据格式对原始数据进行预处理，得到多个数据矩阵；

表示向量提取模块，用于采用卷积降噪自动编码器模型对所述多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量；

多输入融合模块，用于将所有所述表示向量进行多输入融合，得到目标表示向量；

聚类分析模块，用于基于密度DBSCAN算法对所述目标表示向量进行聚类分析，得到异常点；

异常数据标记模块，用于将所述异常点的数据标记为异常数据。

可选的，所述数据预处理模块，具体用于对所述原始数据进行清洗，得到待整理数据；基于所述数据格式和数据属性对所述待整理数据进行数据矩阵整理，得到所述多个数据矩阵。

本申请还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的数据异常检测方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的数据异常检测方法的步骤。

本申请所提供的一种数据异常检测方法，包括：基于数据格式对原始数据进行预处理，得到多个数据矩阵；采用卷积降噪自动编码器模型对所述多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量；将所有所述表示向量进行多输入融合，得到目标表示向量；基于密度DBSCAN算法对所述目标表示向量进行聚类分析，得到异常点；将所述异常点的数据标记为异常数据。

通过先对原始数据进行预处理，得到多个数据矩阵，再进行表示向量提取，得到每个数据矩阵对应的表示向量再进行多输入融合得到多个表示向量融合的目标表示向量，最后再进行聚类分析，得到异常点，实现在缺少标签数据的背景下，借助无监督的聚类算法检测出异常数据，提高数据检测的准确性。

本申请还提供一种数据异常检测装置、服务器以及计算机可读存储介质，具有以上有益效果，在此不做赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种数据异常检测方法的流程图；

图2为本申请实施例所提供的一种数据异常检测装置的结构示意图。

具体实施方式

本申请的核心是提供一种数据异常检测方法、数据异常检测装置、服务器以及计算机可读存储介质，以提高对数据进行检测的准确性，及时发现数据中的异常数据。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

因此，本申请提供一种数据异常检测方法，通过先对原始数据进行预处理，得到多个数据矩阵，再进行表示向量提取，得到每个数据矩阵对应的表示向量再进行多输入融合得到多个表示向量融合的目标表示向量，最后再进行聚类分析，得到异常点，实现在缺少标签数据的背景下，借助无监督的聚类算法检测出异常数据，提高数据检测的准确性。

以下通过一个实施例，对本申请提供的一种数据异常检测方法进行说明。

请参考图1，图1为本申请实施例所提供的一种数据异常检测方法的流程图。

本实施例中，该方法可以包括：

S101，基于数据格式对原始数据进行预处理，得到多个数据矩阵；

可见，本步骤旨在基于数据格式对原始数据进行预处理，得到多个数据矩阵。其中，数据格式可以是将数据按照类别按照矩阵形式进行显示的格式。

其中，原始数据可以是从企业经营过程中获取到的纳税发票数据。

进一步的，本步骤可以包括：

步骤1，对原始数据进行清洗，得到待整理数据；

步骤2，基于数据格式和数据属性对待整理数据进行数据矩阵整理，得到多个数据矩阵。

可见，本可选方案中主要是说明如何进行预处理进行说明。本可选方案中首先对原始数据进行清洗，得到待整理数据，然后基于数据格式和数据属性对待整理数据进行数据矩阵整理，得到多个数据矩阵。可见，本可选方案中对原始数据进行清洗，得到待整理数据也就是剔除原始数据中不用的数据，以便降低数据量，提高有效数据的含量，然后将数据按照数据格式和数据属性进行整理，得到多个数据矩阵。也就是，将相同数据属性的数据整理得到对应的数据矩阵。

S102，采用卷积降噪自动编码器模型对多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量；

在S101的基础上，本步骤旨在采用卷积降噪自动编码器模型对多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量。

其中，卷积降噪自动编码器模型是将卷积神经网络与降噪自动编码器结合。卷积神经网络是一项成熟的技术，可以用来构建数据之间的关联映射。降噪自动编码器可看作一种无监督学习的人工神经网络，降噪是为了去除数据中异常值对训练的扰动，提高模型的鲁棒性。该模型结构有两个阶段：编码阶段与解码阶段。

进一步的，本步骤可以包括：

步骤1，基于预设模型结构进行构建，得到卷积降噪自动编码器模型；

步骤2，采用卷积降噪自动编码器模型对多个数据矩阵进行模型训练；

步骤3，当模型训练完成时，将模型训练的结果作为每个数据矩阵对应的表示向量。

可见，本可选方案中主要是说明如何获取到每个数据矩阵的表示向量。本可选方案中基于预设模型结构进行构建，得到卷积降噪自动编码器模型，采用卷积降噪自动编码器模型对多个数据矩阵进行模型训练，当模型训练完成时，将模型训练的结果作为每个数据矩阵对应的表示向量。也就是，首先构建出需要使用的卷积降噪自动编码器模型，然后进行循环训练，将训练过程中的结果作为该数据矩阵对应的表示向量。实现了在进行特征提取过程中将数据的噪声进行剔除，以便提高数据的纯度，保持数据的有效性，并剔除多余的冗余数据。

S103，将所有表示向量进行多输入融合，得到目标表示向量；

在S102的基础上，本步骤旨在将所有表示向量进行多输入融合，得到目标表示向量。

进一步的，本步骤可以包括：

基于预设比例将所有表示向量进行多输入融合，得到目标表示向量。

可见，本可选方案中主要是说明如何进行多输入融合。本可选方案中，首先对不同的数据矩阵设置对应的数据比例，然后基于该设置的预设比例将所有表示向量进行多输入融合，得到该目标表示向量。

S104，基于密度DBSCAN算法对目标表示向量进行聚类分析，得到异常点；

在S103的基础上，本步骤旨在基于密度DBSCAN算法对目标表示向量进行聚类分析，得到异常点。

其中，密度DBSCAN(Density-Based Spatial Clustering of Applications withNoise，具有噪声的基于密度的聚类方法)算法是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。

进一步的，本步骤可以包括：

步骤1，对密度DBSCAN算法进行参数设定；

步骤2，基于密度DBSCAN算法对目标表示向量进行聚类分析，得到异常点。

可见，本可选方案中主要是说明如何进行聚类分析。本可选方案中，首先对密度DBSCAN算法进行参数设定，然后基于密度DBSCAN算法对目标表示向量进行聚类分析，得到异常点。

S105，将异常点的数据标记为异常数据。

在S104的基础上，本步骤旨在将异常点的数据标记为异常数据。

此外，本实施例还可以包括：

基于异常数据发送提示信息。

可见，基于本可选方案，在实施例执行结束时还可以基于异常数据发送对应的提示信息。以便将异常数据的相关属性信息进行提示。

综上，本实施例通过先对原始数据进行预处理，得到多个数据矩阵，再进行表示向量提取，得到每个数据矩阵对应的表示向量再进行多输入融合得到多个表示向量融合的目标表示向量，最后再进行聚类分析，得到异常点，实现在缺少标签数据的背景下，借助无监督的聚类算法检测出异常数据，提高数据检测的准确性。

以下通过一个具体的实施例，对本申请提供的一种数据异常检测方法做进一步说明。

本实施例中，该方法可以包括：

步骤1，对从纳税发票中获取的各企业各类信息进行整理、清洗，将企业投入、产出的金额，投产时间差，商品所属类别分别以矩阵形式呈现。同时对数据进行归一化处理，将数据映射到[0，1]之间；

步骤2，构建卷积降噪自动编码器模型，用预处理后的数据训练模型，提取企业表示向量；

步骤3，将企业的投产金额表示向量、投产时间差表示向量、商品所属类别向量通过多输入融合的方式进行融合，得到最终的企业表示向量，来作为下一步的输入；

步骤4，将各企业的表示向量作为输入，使用基于密度的DBSCAN算法，设定合适的参数，对企业表示向量进行聚类分析，找到异常点；

步骤5，异常点代表的企业即为投产异常的企业，可能存在虚开发票等逃税偷税行为，可交由税务稽查人员进一步审查。

其中，交易过程中产生的发票是研究交易、纳税信息的唯一数据来源，通常将发票信息整理在数据库中。该数据包含纳税人进行一项交易行为而具备的所有相关属性，包括交易双方纳税人编号、交易商品编号、交易金额、开票时间等重要信息。但也存在很多冗余信息，对识别异常企业的帮助微乎其微。并且，发票的数据格式主要便于人类进行读写与理解，并不适用于计算机处理，因此需要对发票数据进行预处理。处理后得到的企业交易信息矩阵，包含“企业投产矩阵A”、“企业投产时间差矩阵T”、“商品类别矩阵C”三类。

下面分别介绍三种交易矩阵的处理方法：

其中，企业投产矩阵A的处理。首先，在数据库中通过SQL(Structured QueryLanguage，结构化查询语言)语句操作，得到各企业的“投入”表与各企业的“产出”表，为之后建立企业“投入”矩阵与“产出”矩阵做铺垫。“投入”矩阵与“产出”矩阵的行索引均为各企业编号，列索引则表示各类商品编码，“投入”矩阵中的数值表示某企业购买某商品所花费的金额总量，“产出”矩阵中的数值表示某企业销售某商品所赚取的金额总量。

由于企业规模不同，以及商品之间成本的差异，金额数值分散在不同的量级上，因此必须对矩阵进行归一化处理。这里将企业总数记作M，将商品总数记作N，“投入”矩阵用G表示，“产出”矩阵用X表示。本实施例中，沿企业轴对数据做归一化，计算每种商品金额在该企业交易中占据的比例，处理后的数值范围在[0，1]中。

对于“投入”矩阵而言，第i行企业的向量归一化结果为：

其中，G_ij是“投入”矩阵中第i行企业购买第j种商品花费的金额。同理，“产出”矩阵的归一化结果为：

最后，将“投入”矩阵G与“产出”矩阵X拼接，得到企业投产矩阵A。各企业的购买信息与销售信息分别合成一个完整的向量，该向量表示该企业全年的交易行为在金额数值上的体现。从几何意义上讲，在n维的空间中，每个企业向量都在空间中有唯一一个点表示。

企业投产时间差矩阵T的处理。

企业投产时间差矩阵信息从已有的发票数据中提取，按照开票日期，将已有的发票分为企业购买发票和企业销售发票。企业投产矩阵的构建以企业数量为行数，商品类别为列数，其中一行内不同元素代表一个企业的不同商品购销时间差，规定对于同一种商品，以其一个月内的开票时间差为输入，具体计算公式如下：

T_ij＝A_Time(js)-A_Time(jp)。

其中，T_ij为第i家企业第j种商品的购销时间差，A_Time(js)和A_Time(jp)分别代表在发票矩阵A中，i企业对应第j种商品的销售时间和购买时间。T_ij最大为30，最小为-30。对于上述公式，有以下几种情形需要讨论：

1、在单个月内，该种商品购买销售各一次，按上述计算即可；

2、在单个月内，该种商品销售在前，购买在后，仍按照上述计算；

3、在单个月内，该种商品无购销记录的，结果记为0；

4、在单个月内，该种商品存在多笔购销记录，按照如下公式加权计算时

间差：

其中，S_ij表示在该月内，第i家企业对于j种商品的销售总金额，S_ijn表示第n笔销售的金额；P_ij表示在该月内，第i家企业对于j种商品的购买总金额，P_ijm表示第m笔购买的金额。

将得到的企业投产时间差矩阵T，按如下公式进行归一化处理：

其中，T_ij是投产时间差矩阵中第i行企业投产第j种商品的时间差。

商品类别矩阵C的处理

C_ij＝sgn(A_ij)，其中sgn函数定义如下：

对于矩阵C的解释：如果企业购买或销售过某种商品，那么在其投产矩阵A中对应位置会有正值，经过sgn函数，在C的对应位置上将其转化为1，代表着该企业有过这类商品的购销记录。0则意味着该企业无对应于这类商品的购销记录。

基于卷积降噪自动编码器的表示学习。

构建卷积降噪自动编码器模型，用以处理上述提及的三种企业交易矩阵，学习企业交易向量的数据表示。该模型将卷积神经网络与降噪自动编码器结合。卷积神经网络是一项成熟的技术，可以用来构建数据之间的关联映射。降噪自动编码器可看作一种无监督学习的人工神经网络，降噪是为了去除数据中异常值对训练的扰动，提高模型的鲁棒性。该模型结构有两个阶段：编码阶段与解码阶段。

首先，是对输入数据的破坏。采用降噪自编码算法，以高斯分布对输入数据进行随机置零，致使数据丢失部分特征。这不仅使得在随机置零过程中将一些噪声去除，减少扰动，而且能够让模型在之后的训练中尽可能填补被破坏的特征，提高学习能力。

其次，使用破坏后数据作为编码阶段的输入。编码阶段具有数据输入层、卷积层、池化层、全连接层、编码输出层。经过编码阶段，输入数据被压缩为特征向量。然后经过解码阶段再将特征向量复原，解码阶段具有编码输入层、全连接层、上采样层、逆卷积层、输出层。

利用自编码器获取企业交易数据的表示学习，有如下重要步骤：

步骤1，设置目标函数。

编码阶段中，卷积层的目标函数定义为f_θ(x)，用于表示经过处理的输出。此处的x表示输入的企业交易数据。卷积层的输出特征向量记作h，该向量表示企业交易的特征，有：

h＝f_θ(x)＝s(Wx+b)。

其中，W表示编码阶段卷积层的权重，b表示卷积层的偏置向量。

对于输入破坏后的企业交易数据向量x^(t)∈{x⁽¹⁾,...,x^(N)}，每个向量都有对应输出：

h^(t)＝f_θ(x^(t))。

卷积层之后为池化层，本发明采用最大池化层，主要用于数据的下采样，避免发生过拟合现象。最大池化保留一次滑动窗口的最大值。

在解码阶段，卷积层的目标函数定义为g_β(h)，这里的h是编码阶段的企业交易特征向量。解码阶段主要将编码得到的企业交易特征向量进行“复原”。模型复原后的向量记作r。有：

r＝g_β(h)＝s(W′h+b')

其中，W'表示解码阶段卷积层的权重矩阵，b'表示偏置向量。

对于每个编码向量h^(t)∈{h⁽¹⁾,...,h^(N)}，都有：

r^(t)＝g_β(h^(t))。

上述编码阶段与解码阶段提及参数θ与β，两个阶段均会通过训练不断修正θ与β。θ为编码阶段参数，θ＝{W,b}，β为解码阶段参数，且β＝{W′,b'}。且s(·)在解码阶段和编码阶段中均表示激活函数。

步骤2，模型训练优化。

在训练的过程中，需要确保误差Loss越来越小。误差Loss由输入企业交易数据x与最后的经解码后得到的结果r比较得出，需要注意的是此处x与r的维度应是相同的。误差Loss会随着模型迭代不断降低，越小表明模型训练得越好，表示向量h的质量也会越高。误差函数定义为：

其中，考虑到企业交易特征数值维度较大，可以采用均方误差损失函数，其中，g_β(f_θ(x^(t)))表示解码阶段的输出结果。

利用反向传播算法调整参数，调整公式如下：

首先是解码阶段参数θ，利用反向传播算法更新，更新过程如下：

其中，α为预先设置的学习率。

步骤3，获取降维处理后的企业交易数据。

通过训练中的不断调整设置合适的超参数，使得损失函数低于设定的阈值。待模型训练完成后，提取出编码阶段的结果作为输入数据的表示向量，作为接下来多输入融合的输入。

多输入融合。

将上述经过自编码器降维处理后的输入按照一定的比例融合，得到用于聚类的样本向量，其结果X_ij利用如下公式计算：

其中

分别为企业投产矩阵、企业投产时间差矩阵和商品类别矩阵经过自编码器降维处理后的结果。α和β分别为时间差输入权重和商品类别权重。α和β可以动态调整，且要满足：

α+β＜0.3，

α＞＞β。

DBSCAN聚类算法对企业特征向量进行聚类。

DBSCAN算法是一种基于密度的聚类算法，主要用以寻找被低密度区域分离的高密度区域。DBSCAN算法的相关名词解释如下。

核心点：核心点在基于密度的簇的内部。点的邻域由距离函数和用户指定的距离参数e决定。且一个点的给定邻域内的点数超过用户指定的域最小数量P_min。那么该点可以称作核心点。

边界点：如果一个点不是核心点，但是落在核心点的邻域内，那么该点称作边界点。

噪声点：如果一个点既不属于核心点也不属于边界点，那么该点称作噪声点。

本发明的任务便是找出这些噪声点，噪声点的实际含义是潜在的投产异常企业，也可以称作异常点。需要进一步审查其税务行为。

该DBSCAN算法的主要步骤，可以包括：

步骤1，算法初始化。

首先算法的输入为企业交易数据集D＝{x⁽¹⁾,...,x^(M)}‘。这里的输入为前一步骤经过自动编码器处理得到的企业表示向量。然后进行算法的初始设定，初始化核心点集合

初始化聚类簇数k＝0，初始化未访问点集合Ψ＝D，并且设定距离度量方法。距离度量方法通常选用欧氏距离，表示为：

其中，x与y分别为两个企业表示向量，N为向量的维度。

步骤2，循环处理每个数据。

循环数据集中每一个企业数据点，通过距离度量方法计算，寻找每个企业的邻域点集合N_x。如果该数据点的邻域集合样本数|N_x|≥P_min，则将该数据点加入核心点集合：

Ω＝Ω∪{x}。

步骤3，选择核心点生成簇。

在核心企业点集合Ω中，随机选择一个核心企业点d，建立一个以企业d为核心的簇C_d，将企业d的邻域点都纳入该簇内。并且更新未访问点集合Ψ＝Ψ-{d}，将该点标记为已访问。

步骤4，判定核心点邻域的样本。

接下来，对企业d的邻域N_d内所有的点进行判断，对于q∈N_d，若q存在于未访问点的集合Ψ中，检测q的邻域是否满足|N_q|≥P_min，若满足，则将N_q集合中未归入任何一个簇的点归入C_d簇。然后返回步骤3继续选择下一个核心点，直至

说明所有的点都访问完毕。

为了进行簇评估，引入轮廓系数。轮廓系数的取值范围为[-1，1]，值越接近1说明聚类的性能越好，簇内凝聚度高且簇间分离度高；相反，值越接近-1说明聚类性能较差。将某个数据点与其所在簇内数据点的平均距离记作a，将某个数据点与其他簇样本的平均距离记作b。针对该数据点，轮廓系数s为：

s是单独数据点的轮廓系数，将所有点的轮廓系数取均值得到的是整体聚类的性能。最终整体聚类的轮廓系数记作S：

根据轮廓系数判断聚类效果，并调整参数e与P_min，直至聚类效果优良，算法结束。最后得到聚类的簇数k，以及不在任何簇中的异常点。

最后，根据模型从发票数据识别企业是否在投产过程中存在异常，将企业的投产金额经过预处理，输入到基于卷积降噪自动编码的多输入融合模型中获取数据表示，然后将得到的数据表示作为DBSCAN算法的输入，根据无监督的聚类找寻投产明显背离的异常企业。

本实施例是用于解决数据缺少标签难以识别企业是否投产异常的问题，通过卷积网络与自动编码器的结合，提取企业投产的表示向量，提升训练及检测的效率。使用了降噪自编码算法，在训练时排除了噪声的影响，模型的鲁棒性较强。属于无监督学习，即使没有标签数据也能够识别企业是否存在异常。本实施例借助多输入融合手段，将企业购销时间差和商品类别作为辅助因素考虑在内，充分利用了现有的发票数据。

进一步的，在实际应用中可以选取590家商贸业企业，获取此类企业一年的交易信息。利用该信息通过算法进行企业投产异常检测。该异常检测方法可以包括：

步骤1，数据预处理。

首先获取590家商贸业企业全年交易后得到的发票数据，其中每张发票都具有的信息为FPDM，FPHM，QDBZ，HWMC，SPBM，KPSJ，JE，SE，GFNSRDZDAH，XFNSRDZDAH，DZDZFPZT_ID，ID。这些信息表示的含义为发票代码，发票号码，清单标志，货物名称，商品编码，开票时间，金额，税额，购方纳税人电子档案号，销方纳税人电子档案号，电子底账发票状态，同一张发票中的货物ID。由于真实场景中，存在商品编码漏填、错填的现象，采用机器学习的方法根据其他信息对商品编码进行补充、修正，从而得到XXHSPBM，即学习后商品编码。

在本实施例中，需要使用的信息为购方纳税人电子档案号(GFNSRDZDAH)，销方纳税人电子档案号(XFNSRDZDAH)，学习后商品编码(XXHSPBM)，金额(JE)，商品名称(SPMC)，开票时间(KPSJ)六类。其中，购方纳税人电子档案号与销方纳税人电子档案号均是企业唯一的识别编号，代表唯一的企业。商品编码由19位长度的数字字符串表示，代表唯一的商品。商品名称表示商品的汉字名及其他表述。金额表示该项交易中发票的金额，正值表示正常交易，负值表示退货。

通过数据库操作，得到各企业的“投入”表和“产出”表，“投入”表结构为(购方纳税人电子档案号，学习后商品编码，金额，商品名称)，表示企业投入商品的金额记录；“产出”表结构为(销方纳税人电子档案号，学习后商品编码，金额，商品名称)，表示企业产出商品的金额记录。记录中不同的商品共有3345种。因此，通过进一步预处理得到的“投入”矩阵与“产出”矩阵均为590*3345维度矩阵，表示590家企业在3345种商品中花费(赚取)的金额数值，若没有记录则记为0。

本实施例中，对“投入”矩阵与“产出”矩阵分别沿着矩阵的企业轴对数据做归一化处理，计算企业购买(销售)某种商品金额在该企业购买(销售)所有商品的占比。以“投入”矩阵G的第i个企业为例，进行归一化处理：

其中，G_ij是“投入”矩阵中第i行企业购买第j种商品花费的金额，N＝3345为企业向量维度。同理，对“产出”矩阵进行归一化：

本实施例中，在归一化处理之后，将“投入”矩阵与“产出”矩阵拼接成590*6690维度矩阵，企业的“投入”信息与“产出”信息合成一个向量，表示企业全年交易信息的综合体现。

对于购销时间差矩阵T，其中每一行代表一个企业的所有商品购销时间差，规定对于同一种商品，以其一个月内的开票时间差为输入，具体计算公式如下：

没有涉及到的商品购销时间差记为0，最后生成590*3345的矩阵。将得到的企业投产时间差矩阵T，按如下公式进行归一化处理：

对于商品类别矩阵C。其中每一行代表一家企业的所有商品购销情况，具体计算如下：

C_ij＝sgn(A_ij)

最后生成590*6690的矩阵C。

步骤2，基于卷积降噪自动编码器的表示学习。

使用590家企业全年“投入”与“产出”的金额信息作为卷积降噪自动编码器模型的输入，对企业的交易特征进行提取。模型以高斯分布对输入数据进行随机置零，进行破坏，使用破坏后数据作为新的输入进行训练。

卷积降噪自动编码器模型的详细构建步骤如下：

步骤2.1，结构设计。

模型分两个阶段，编码阶段与解码阶段。在编码阶段提取590家商贸业企业的交易特征。根据步骤1得到的矩阵中商品维度确定编码阶段卷积层的输入神经元个数M，本实施例中M为6690，编码阶段具有数据输入层、卷积层、池化层、全连接层、编码输出层，解码阶段内部为编码输入层、全连接层、上采样层、逆卷积层、输出层。此处可以看出解码阶段的目的在于复原被压缩的原数据，再将复原结果与原数据比较。

步骤2.2，确定模型的网络参数。

网络结构确定后，需要确定具体的参数。本实施例中除解码阶段最后输出的激活函数为Sigmoid函数外，其余层使用的激活函数均为线性整流函数，即ReLU函数。

Sigmoid函数的形式化表示为：

ReLU函数的形式化表示为：

f(x)＝max(0,x)。

编码阶段卷积层和解码阶段卷积层的目标函数分别为f_θ(x)与g_β(h)，x为输入数据，h为编码阶段输出的特征向量，模型的损失函数为：

其中，g_β(f_θ(x^(t)))表示解码阶段的输出，θ为编码阶段参数，β为解码阶段参数。M为企业数量，本实施例中为590。网络在训练过程中为前向传播，在调整网络参数时采用反向传播算法。反向传播时，先调整解码阶段参数，后调整编码阶段参数。

输入一条企业向量x_i，目标向量也设置为x_i，输出设置为y_i。根据损失函数计算输出与目标的误差：

Loss(θ,β,x_i,y_i)＝∑x_i-y_i ²。

其中的输出y_i表示为：

y_i＝g_β(f_θ(x_i))。

实施例中使用反向传播算法调整网络参数，调整过程：

其中，α为学习率。另外，编码阶段卷积层的参数为{filter number,kernelsize}，表示filter数量和卷积核大小，三个卷积层的参数分别是{10，10}，{32，10}，{1，10}，池化层参数为k，每个卷积层后的池化层参数设定为k＝3，k＝2，k＝4。解码阶段同理，三个卷积层的参数分别是{1，10}，{32，10}，{10，10}，池化层参数分别是k＝4，k＝2，k＝3。

重复该过程计算处理所有企业向量，最终得到可以提取企业特征向量的自动编码器模型。

对于企业投产时间差矩阵和商品类别矩阵，做上述同样处理。

步骤3，多输入融合。

根据步骤2得到的模型对590家企业交易信息进行特征提取，最后得到的企业投产矩阵维度为590*128。各个企业向量的维度均从6690维压缩至128维。类似的，企业投产时间差矩阵维度为590*128，商品类别矩阵590*128。将上述处理过的矩阵按照如下公式进行融合：

融合后得到最终输入矩阵X，用于后续密度聚类。

步骤4，基于密度的DBSCAN算法进行聚类分析。

将处理后的企业特征向量作为输入，设计DBSCAN算法对企业进行聚类分析，检测投产背离的异常企业。

在本实施例中，DBSCAN的距离度量方法采用欧氏距离，形式化的表示如下：

其中，x与y为任意两个数据点，即两个企业特征向量，N＝128为企业特征向量维度。

DBSCAN算法的两个参数，距离参数e与簇内最小样本量P_min，根据数据点的分布区间，定义合适的距离参数、簇内最小样本量区间，分别为[0.6，1.5]与[5，12]。

采用嵌套循环的结构进行多次聚类，最终得到每一种参数下的聚类结果。结果包含聚类的簇数k，异常点的个数n_o，以及该聚类结果的轮廓系数S。轮廓系数表示为：

其中，a与b分别为某个数据点与簇内数据点的平均距离，某个数据点与其他簇样本的平均距离。s_i为单一数据点的轮廓系数，S为整体聚类的轮廓系数。该数值越接近1说明性能越好。

选择最高轮廓系数的一组进行详细评估，获取全部异常点的详细交易信息进行审查。

步骤5，企业异常投产识别。

根据步骤2设计的表示学习方法提取590家商贸业企业的表示向量。根据步骤4提出的DBSCAN算法对590家商贸业企业进行聚类分析。得到聚集的簇的数量，以及不在簇中的异常企业。将该类具有嫌疑的异常企业交由税务稽查人员进一步核查。该方法为企业发票数据缺乏标签，难以识别投产背离提供了可解决的方案。

可见，本实施例通过先对原始数据进行预处理，得到多个数据矩阵，再进行表示向量提取，得到每个数据矩阵对应的表示向量再进行多输入融合得到多个表示向量融合的目标表示向量，最后再进行聚类分析，得到异常点，实现在缺少标签数据的背景下，借助无监督的聚类算法检测出异常数据，提高数据检测的准确性。

下面对本申请实施例提供的数据异常检测装置进行介绍，下文描述的数据异常检测装置与上文描述的数据异常检测方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种数据异常检测装置的结构示意图。

本实施例中，该装置可以包括：

数据预处理模块100，用于基于数据格式对原始数据进行预处理，得到多个数据矩阵；

表示向量提取模块200，用于采用卷积降噪自动编码器模型对多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量；

多输入融合模块300，用于将所有表示向量进行多输入融合，得到目标表示向量；

聚类分析模块400，用于基于密度DBSCAN算法对目标表示向量进行聚类分析，得到异常点；

异常数据标记模块500，用于将异常点的数据标记为异常数据。

可选的，该数据预处理模块100，具体用于对原始数据进行清洗，得到待整理数据；基于数据格式和数据属性对待整理数据进行数据矩阵整理，得到多个数据矩阵。

本申请还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如以上实施例所述的数据异常检测方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的数据异常检测方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种数据异常检测方法、数据异常检测装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种数据异常检测方法，其特征在于，包括：

基于数据格式对原始数据进行预处理，得到多个数据矩阵；

将所有所述表示向量进行多输入融合，得到目标表示向量；

将所述异常点的数据标记为异常数据。

2.根据权利要求1所述的数据异常检测方法，其特征在于，基于数据格式对原始数据进行预处理，得到多个数据矩阵，包括：

对所述原始数据进行清洗，得到待整理数据；

3.根据权利要求1所述的数据异常检测方法，其特征在于，采用卷积降噪自动编码器模型对所述多个数据矩阵进行表示向量提取，得到每个数据矩阵对应的表示向量，包括：

4.根据权利要求1所述的数据异常检测方法，其特征在于，将所有所述表示向量进行多输入融合，得到目标表示向量，包括：

5.根据权利要求1所述的数据异常检测方法，其特征在于，基于密度DBSCAN算法对所述目标表示向量进行聚类分析，得到异常点，包括：

对所述密度DBSCAN算法进行参数设定；

6.根据权利要求1所述的数据异常检测方法，其特征在于，还包括：

基于所述异常数据发送提示信息。

7.一种数据异常检测装置，其特征在于，包括：

8.根据权利要求7所述的数据异常检测装置，其特征在于，所述数据预处理模块，具体用于对所述原始数据进行清洗，得到待整理数据；基于所述数据格式和数据属性对所述待整理数据进行数据矩阵整理，得到所述多个数据矩阵。

9.一种服务器，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的数据异常检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据异常检测方法的步骤。