CN110084620A

CN110084620A - 基于深度学习的电子凭据高频异常开具检测系统及方法

Info

Publication number: CN110084620A
Application number: CN201910302523.4A
Authority: CN
Inventors: 邱卫东; 陈爽; 唐鹏; 段国蕊; 郭捷; 黄征
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-08-02
Anticipated expiration: 2039-04-16
Also published as: CN110084620B

Abstract

一种基于深度学习的电子凭据高频异常开具检测系统及方法，包括：特征提取模块、深度学习训练模块以及异常行为检测模块，其中：特征提取模块与深度学习训练模块相连并传输训练数据信息，深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息，异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息。本发明针对电子凭据服务体系中开具感知组件端发生的同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据以及企业异常时间开具大额凭据这四种异常行为，能够有效地分辨出异常电子凭据数据。

Description

基于深度学习的电子凭据高频异常开具检测系统及方法

技术领域

本发明涉及的是一种信息安全领域的技术，具体是一种基于深度学习的电子凭据高频异常开具检测系统及方法。

背景技术

随着电子凭据的广泛应用，保障电子凭据数据安全日趋重要。现有技术通过数字签名来保护合法用户的身份验证和数据的完整性；基于数字签名和时间戳确保电子凭据真实性；使用 HTTPS保护最终用户与其服务提供商之间的链接；通过WS-Security标准保护通过Web服务实现的服务提供者之间的通信等。在服务监管方面，设置电子凭据信息管理与服务平台，实现对用户与企业的资格审核，以及对开具凭据以及凭据流转中的异常进行审核。

现有技术对于单张凭据中的异常信息可通过在感知组件端简单研判即可实现，但是对于在开具电子凭据感知组件产生的海量数据间关联而形成的异常信息并没有明确的研判方法。

发明内容

本发明针对现有技术存在的所述不足，提出一种基于深度学习的电子凭据高频异常开具检测系统及方法，针对电子凭据服务体系中开具感知组件端发生的同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据以及企业异常时间开具大额凭据这四种异常行为，能够有效地分辨出异常电子凭据数据。

本发明是通过以下技术方案实现的：

本发明涉及一种基于深度学习的电子凭据高频异常开具检测系统，包括：特征提取模块、深度学习训练模块以及异常行为检测模块，其中：特征提取模块与深度学习训练模块相连并传输训练数据信息，深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息，异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息。

所述的特征提取模块包括：数据读取单元、数据处理单元以及数据标记单元，其中：数据读取单元与数据处理单元相连并传输从开具凭据数据库中读取的的历史数据信息，数据处理单元与数据标记单元相连并传输用于划分异常种类的数据信息，数据标记单元输出数据作为本模块的输出数据与深度学习训练模块相连并为其提供训练数据。

所述的数据处理单元包括两个部分：研判开票时间和统计开票频率，其中：

所述的研判开票时间是指：将读取的电子凭据数据中的时间信息与企业正常开票时间段进行比对，由此判断每条数据是否为该企业正常开具凭据时间段内所开具。

所述的统计开票频率是指：分别对正常时间段内的数据与异常时间段内的数据进行处理，分别提取两种数据的固定时间段内的开票数量并标记在相应数据上。

所述的数据标记单元是指：为数据划分异常种类并标记，即对统计开票频率后的数据进行聚类分析，由聚类结果研判出所读数据是否为异常数据，并对异常数据进行异常种类标记。

所述的深度学习训练模块包括：数据划分单元和训练单元，其中：数据划分单元与训练单元相连并传输划分好的训练集与测试集数据信息，训练单元输出数据作为本模块输出数据与异常行为检测模块相连并为其提供深度学习研判模型。

所述的异常行为检测模块包括：数据读取单元、数据处理单元以及异常行为研判单元，其中：数据读取单元与数据处理单元相连并传输从开具凭据数据库读取的实时开票信息，数据处理单元与异常行为研判单元相连接并传输特征提取后的数据信息，异常行为研判单元将处理好的数据输入到深度学习训练模块中的模型中进行智能研判，得到异常行为判定结果。

技术效果

与现有技术相比，本发明技术效果包括：在不增加人工监管与硬件设备的条件下，即可对电子凭据开具感知组件处产生的海量数据间关联而形成的同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据、企业异常时间开具大额凭据四种异常行为进行实时研判；本发明以历史开具凭据数据作为训练数据来训练研判模型，并实时输入新开具数据，研判效率较高，准确率可到到95％以上；灵活性强，有具体个案更正可调整参数重新训练。

附图说明

图1为本发明系统逻辑结构框图

图2为实施例流程图。

具体实施方式

本实施例涉及的一种基于深度学习的电子凭据异常行为研判系统，包括：特征提取模块、深度学习训练模块以及异常行为检测模块，其中：特征提取模块与深度学习训练模块相连并传输训练数据信息，深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息，异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息。

所述的特征提取模块包括：数据读取单元、数据处理单元以及数据标记单元，其中：数据读取单元与数据处理单元相连并传输开具凭据数据库中的历史数据信息，数据处理单元与数据标记单元相连并传输用于划分异常种类的数据信息，数据标记单元输出数据作为本模块的输出数据与深度学习训练模块相连并为其提供训练数据。

本实施例中的异常行为包括同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据、企业异常时间开具大额凭据四种异常行为。

本实施例基于上述系统的基于深度学习的电子凭据高频异常开具检测方法，具体步骤包括：

S1)读取历史电子凭据数据一，读取企业正常开具凭据时间段数据二。具体电子凭据数据一的字段信息如图2所示：包括ID、开具企业ID、开具用户ID、开具时间和开具金额；企业正常开具凭据时间段数据二的字段信息：包括：企业ID、企业开具凭据起始时间、企业开具凭据结束时间。

S2)根据开具企业ID字段从数据一中提取每条数据的开具时间字段一，根据开具企业 ID字段从数据二中提取该企业正常开具凭据时间段字段二，依次判断每条数据的字段一是否位于字段二所描述的时间段内。

S3)根据开具企业ID字段提取字段一位于字段二所描述的时间段内的电子凭据数据，分别提取1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值，提取所选数据的所述五类数量值并进行标准化处理，通过k-means聚类算法得出开票频率阈值(F1)，根据聚类结果将大于F1的数据标记为“同一企业短时间开具大量凭据”异常行为(Event1)，其余数据标记为0。其中k-means聚类算法，聚类中心个数为2，最大迭代次数为1000。

S4)根据开具企业ID字段提取字段一位于字段二所描述的时间段内的电子凭据数据，提取开具金额字段，通过k-means聚类算法得出该企业开具金额阈值(M1)，根据聚类结果提取开具金额大于M1的数据的1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值，提取所选数据的所述五类数量值并进行标准化处理，通过k-means 聚类算法得出开票频率阈值(F2)，根据聚类结果将大于F2的数据标记为“同一企业短时间开具大量大额凭据”异常行为(Event2)，其余数据标记为0。其中k-means聚类算法，聚类中心个数为2，最大迭代次数为1000。

S5)根据开具企业ID字段提取字段一不在字段二所描述的时间段内的电子凭据数据，提取1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值，提取所选数据的所述五类数量值并进行标准化处理，通过k-means聚类算法得出开票频率阈值(F3)，根据聚类结果将大于F3的数据标记为“企业异常时间开具大量凭据”异常行为 (Event3)，其余数据标记为0。其中k-means聚类算法，聚类中心个数为2，最大迭代次数为 1000。

S6)根据开具企业ID字段提取字段一不在字段二所描述的时间段内的电子凭据数据，提取开具金额字段并进行标准化处理，通k-means聚类算法得出该企业开具金额阈值(M2)，根据聚类结果将开具金额大于M2的数据标记为“企业异常时间开具大量凭据”异常行为(Event4)，其余数据标记为0。其中k-means聚类算法，聚类中心个数为2，最大迭代次数为1000。

S7)选定开源项目提供的MLP作为深度学习网络模型程序，MLP的参数为：输入神经元个数为提取的特征数目，中间层为1层，输出神经元个数为1，即是否为异常行为，允许误差为0.001，最大训练递归次数为1000。

S8)依次将步骤S3～步骤S6中所述四类数据划分为训练集和测试集，其中训练集与测试集的数据量比例均为7：3。

S9)将划分好的四类数据依次输入MLP网络模型进行训练，得到异常行为研判模型一、异常行为研判模型二、异常行为研判模型三、异常行为研判模型四。

对于输入的特征数目：异常行为研判模型一的输入特征为：1分钟内开具凭据数量、2 分钟内开具凭据数量、3分钟内开具凭据数量、4分钟内开具凭据数量以及5分钟内开具凭据数量；

异常行为研判模型二的输入特征数为：1分钟内开具凭据数量、2分钟内开具凭据数量、 3分钟内开具凭据数量、4分钟内开具凭据数量、5分钟内开具凭据数量以及开具金额；

异常行为研判模型三的输入特征为：1分钟内开具凭据数量、2分钟内开具凭据数量、3 分钟内开具凭据数量、4分钟内开具凭据数量以及5分钟内开具凭据数量；

异常行为研判模型四的输入特征数为：1分钟内开具凭据数量、2分钟内开具凭据数量、 3分钟内开具凭据数量、4分钟内开具凭据数量、5分钟内开具凭据数量以及开具金额。

S10)定时读取数据库新数据，根据开具企业ID字段判断数据的开具时间字段值是否位于企业正常开具凭据时间段内。

S11)将开具时间字段值位于企业正常开具凭据时间段内的数据依次输入到异常行为研判模型一、异常行为研判模型二中进行研判，得到的输出就是异常行为的判定。

S12)将开具时间字段值不是位于企业正常开具凭据时间段内的数据依次输入到异常行为研判模型三、异常行为研判模型四中进行研判，得到的输出就是异常行为的判定。

本发明基于深度学习的多层感知机算法对异常行为进行智能分类，以历史开具凭据数据作为训练数据来训练研判模型，通过聚类分析算法为历史数据进行异常标记，并实时输入新开具数据，研判效率较高，准确率可到到95％以上。与现有技术相比，本发明在不增加人工监管与硬件设备的条件下，即可对电子凭据开具感知组件处产生的海量数据间关联而形成的同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据、企业异常时间开具大额凭据四种异常行为进行实时准确研判。

所述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由所述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于深度学习的电子凭据异常行为研判系统，其特征在于，包括：特征提取模块、深度学习训练模块以及异常行为检测模块，其中：特征提取模块与深度学习训练模块相连并传输训练数据信息，深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息，异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息；

2.根据权利要求1所述的系统，其特征是，所述的数据处理单元包括两个部分：研判开票时间和统计开票频率，其中：所述的研判开票时间是指：将读取的电子凭据数据中的时间信息与企业正常开票时间段进行比对，由此判断每条数据是否为该企业正常开具凭据时间段内所开具；所述的统计开票频率是指：分别对正常时间段内的数据与异常时间段内的数据进行处理，分别提取两种数据的固定时间段内的开票数量并标记在相应数据上。

3.根据权利要求1所述的系统，其特征是，所述的数据标记单元是指：为数据划分异常种类并标记，即对统计开票频率后的数据进行聚类分析，由聚类结果研判出所读数据是否为异常数据，并对异常数据进行异常种类标记。

4.根据权利要求1所述的系统，其特征是，所述的深度学习训练模块包括：数据划分单元和训练单元，其中：数据划分单元与训练单元相连并传输划分好的训练集与测试集数据信息，训练单元输出数据作为本模块输出数据与异常行为检测模块相连并为其提供深度学习研判模型。

5.根据权利要求1所述的系统，其特征是，所述的异常行为检测模块包括：数据读取单元、数据处理单元以及异常行为研判单元，其中：数据读取单元与数据处理单元相连并传输从开具凭据数据库读取的实时开票信息，数据处理单元与异常行为研判单元相连接并传输特征提取后的数据信息，异常行为研判单元将处理好的数据输入到深度学习训练模块中的模型中进行智能研判，得到异常行为判定结果。