CN110084620A - 基于深度学习的电子凭据高频异常开具检测系统及方法 - Google Patents

基于深度学习的电子凭据高频异常开具检测系统及方法 Download PDF

Info

Publication number
CN110084620A
CN110084620A CN201910302523.4A CN201910302523A CN110084620A CN 110084620 A CN110084620 A CN 110084620A CN 201910302523 A CN201910302523 A CN 201910302523A CN 110084620 A CN110084620 A CN 110084620A
Authority
CN
China
Prior art keywords
data
module
unit
abnormal
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910302523.4A
Other languages
English (en)
Other versions
CN110084620B (zh
Inventor
邱卫东
陈爽
唐鹏
段国蕊
郭捷
黄征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910302523.4A priority Critical patent/CN110084620B/zh
Publication of CN110084620A publication Critical patent/CN110084620A/zh
Application granted granted Critical
Publication of CN110084620B publication Critical patent/CN110084620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于深度学习的电子凭据高频异常开具检测系统及方法,包括:特征提取模块、深度学习训练模块以及异常行为检测模块,其中:特征提取模块与深度学习训练模块相连并传输训练数据信息,深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息,异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息。本发明针对电子凭据服务体系中开具感知组件端发生的同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据以及企业异常时间开具大额凭据这四种异常行为,能够有效地分辨出异常电子凭据数据。

Description

基于深度学习的电子凭据高频异常开具检测系统及方法
技术领域
本发明涉及的是一种信息安全领域的技术,具体是一种基于深度学习的电子凭据高频异常开具检测系统及方法。
背景技术
随着电子凭据的广泛应用,保障电子凭据数据安全日趋重要。现有技术通过数字签名来保护合法用户的身份验证和数据的完整性;基于数字签名和时间戳确保电子凭据真实性;使用 HTTPS保护最终用户与其服务提供商之间的链接;通过WS-Security标准保护通过Web服务实现的服务提供者之间的通信等。在服务监管方面,设置电子凭据信息管理与服务平台,实现对用户与企业的资格审核,以及对开具凭据以及凭据流转中的异常进行审核。
现有技术对于单张凭据中的异常信息可通过在感知组件端简单研判即可实现,但是对于在开具电子凭据感知组件产生的海量数据间关联而形成的异常信息并没有明确的研判方法。
发明内容
本发明针对现有技术存在的所述不足,提出一种基于深度学习的电子凭据高频异常开具检测系统及方法,针对电子凭据服务体系中开具感知组件端发生的同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据以及企业异常时间开具大额凭据这四种异常行为,能够有效地分辨出异常电子凭据数据。
本发明是通过以下技术方案实现的:
本发明涉及一种基于深度学习的电子凭据高频异常开具检测系统,包括:特征提取模块、深度学习训练模块以及异常行为检测模块,其中:特征提取模块与深度学习训练模块相连并传输训练数据信息,深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息,异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息。
所述的特征提取模块包括:数据读取单元、数据处理单元以及数据标记单元,其中:数据读取单元与数据处理单元相连并传输从开具凭据数据库中读取的的历史数据信息,数据处理单元与数据标记单元相连并传输用于划分异常种类的数据信息,数据标记单元输出数据作为本模块的输出数据与深度学习训练模块相连并为其提供训练数据。
所述的数据处理单元包括两个部分:研判开票时间和统计开票频率,其中:
所述的研判开票时间是指:将读取的电子凭据数据中的时间信息与企业正常开票时间段进行比对,由此判断每条数据是否为该企业正常开具凭据时间段内所开具。
所述的统计开票频率是指:分别对正常时间段内的数据与异常时间段内的数据进行处理,分别提取两种数据的固定时间段内的开票数量并标记在相应数据上。
所述的数据标记单元是指:为数据划分异常种类并标记,即对统计开票频率后的数据进行聚类分析,由聚类结果研判出所读数据是否为异常数据,并对异常数据进行异常种类标记。
所述的深度学习训练模块包括:数据划分单元和训练单元,其中:数据划分单元与训练单元相连并传输划分好的训练集与测试集数据信息,训练单元输出数据作为本模块输出数据与异常行为检测模块相连并为其提供深度学习研判模型。
所述的异常行为检测模块包括:数据读取单元、数据处理单元以及异常行为研判单元,其中:数据读取单元与数据处理单元相连并传输从开具凭据数据库读取的实时开票信息,数据处理单元与异常行为研判单元相连接并传输特征提取后的数据信息,异常行为研判单元将处理好的数据输入到深度学习训练模块中的模型中进行智能研判,得到异常行为判定结果。
技术效果
与现有技术相比,本发明技术效果包括:在不增加人工监管与硬件设备的条件下,即可对电子凭据开具感知组件处产生的海量数据间关联而形成的同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据、企业异常时间开具大额凭据四种异常行为进行实时研判;本发明以历史开具凭据数据作为训练数据来训练研判模型,并实时输入新开具数据,研判效率较高,准确率可到到95%以上;灵活性强,有具体个案更正可调整参数重新训练。
附图说明
图1为本发明系统逻辑结构框图
图2为实施例流程图。
具体实施方式
本实施例涉及的一种基于深度学习的电子凭据异常行为研判系统,包括:特征提取模块、深度学习训练模块以及异常行为检测模块,其中:特征提取模块与深度学习训练模块相连并传输训练数据信息,深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息,异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息。
所述的特征提取模块包括:数据读取单元、数据处理单元以及数据标记单元,其中:数据读取单元与数据处理单元相连并传输开具凭据数据库中的历史数据信息,数据处理单元与数据标记单元相连并传输用于划分异常种类的数据信息,数据标记单元输出数据作为本模块的输出数据与深度学习训练模块相连并为其提供训练数据。
所述的深度学习训练模块包括:数据划分单元和训练单元,其中:数据划分单元与训练单元相连并传输划分好的训练集与测试集数据信息,训练单元输出数据作为本模块输出数据与异常行为检测模块相连并为其提供深度学习研判模型。
所述的异常行为检测模块包括:数据读取单元、数据处理单元以及异常行为研判单元,其中:数据读取单元与数据处理单元相连并传输从开具凭据数据库读取的实时开票信息,数据处理单元与异常行为研判单元相连接并传输特征提取后的数据信息,异常行为研判单元将处理好的数据输入到深度学习训练模块中的模型中进行智能研判,得到异常行为判定结果。
本实施例中的异常行为包括同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据、企业异常时间开具大额凭据四种异常行为。
本实施例基于上述系统的基于深度学习的电子凭据高频异常开具检测方法,具体步骤包括:
S1)读取历史电子凭据数据一,读取企业正常开具凭据时间段数据二。具体电子凭据数据一的字段信息如图2所示:包括ID、开具企业ID、开具用户ID、开具时间和开具金额;企业正常开具凭据时间段数据二的字段信息:包括:企业ID、企业开具凭据起始时间、企业开具凭据结束时间。
S2)根据开具企业ID字段从数据一中提取每条数据的开具时间字段一,根据开具企业 ID字段从数据二中提取该企业正常开具凭据时间段字段二,依次判断每条数据的字段一是否位于字段二所描述的时间段内。
S3)根据开具企业ID字段提取字段一位于字段二所描述的时间段内的电子凭据数据,分别提取1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值,提取所选数据的所述五类数量值并进行标准化处理,通过k-means聚类算法得出开票频率阈值(F1),根据聚类结果将大于F1的数据标记为“同一企业短时间开具大量凭据”异常行为(Event1),其余数据标记为0。其中k-means聚类算法,聚类中心个数为2,最大迭代次数为1000。
S4)根据开具企业ID字段提取字段一位于字段二所描述的时间段内的电子凭据数据,提取开具金额字段,通过k-means聚类算法得出该企业开具金额阈值(M1),根据聚类结果提取开具金额大于M1的数据的1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值,提取所选数据的所述五类数量值并进行标准化处理,通过k-means 聚类算法得出开票频率阈值(F2),根据聚类结果将大于F2的数据标记为“同一企业短时间开具大量大额凭据”异常行为(Event2),其余数据标记为0。其中k-means聚类算法,聚类中心个数为2,最大迭代次数为1000。
S5)根据开具企业ID字段提取字段一不在字段二所描述的时间段内的电子凭据数据,提取1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值,提取所选数据的所述五类数量值并进行标准化处理,通过k-means聚类算法得出开票频率阈值(F3),根据聚类结果将大于F3的数据标记为“企业异常时间开具大量凭据”异常行为 (Event3),其余数据标记为0。其中k-means聚类算法,聚类中心个数为2,最大迭代次数为 1000。
S6)根据开具企业ID字段提取字段一不在字段二所描述的时间段内的电子凭据数据,提取开具金额字段并进行标准化处理,通k-means聚类算法得出该企业开具金额阈值(M2),根据聚类结果将开具金额大于M2的数据标记为“企业异常时间开具大量凭据”异常行为(Event4),其余数据标记为0。其中k-means聚类算法,聚类中心个数为2,最大迭代次数为1000。
S7)选定开源项目提供的MLP作为深度学习网络模型程序,MLP的参数为:输入神经元个数为提取的特征数目,中间层为1层,输出神经元个数为1,即是否为异常行为,允许误差为0.001,最大训练递归次数为1000。
S8)依次将步骤S3~步骤S6中所述四类数据划分为训练集和测试集,其中训练集与测试集的数据量比例均为7:3。
S9)将划分好的四类数据依次输入MLP网络模型进行训练,得到异常行为研判模型一、异常行为研判模型二、异常行为研判模型三、异常行为研判模型四。
对于输入的特征数目:异常行为研判模型一的输入特征为:1分钟内开具凭据数量、2 分钟内开具凭据数量、3分钟内开具凭据数量、4分钟内开具凭据数量以及5分钟内开具凭据数量;
异常行为研判模型二的输入特征数为:1分钟内开具凭据数量、2分钟内开具凭据数量、 3分钟内开具凭据数量、4分钟内开具凭据数量、5分钟内开具凭据数量以及开具金额;
异常行为研判模型三的输入特征为:1分钟内开具凭据数量、2分钟内开具凭据数量、3 分钟内开具凭据数量、4分钟内开具凭据数量以及5分钟内开具凭据数量;
异常行为研判模型四的输入特征数为:1分钟内开具凭据数量、2分钟内开具凭据数量、 3分钟内开具凭据数量、4分钟内开具凭据数量、5分钟内开具凭据数量以及开具金额。
S10)定时读取数据库新数据,根据开具企业ID字段判断数据的开具时间字段值是否位于企业正常开具凭据时间段内。
S11)将开具时间字段值位于企业正常开具凭据时间段内的数据依次输入到异常行为研判模型一、异常行为研判模型二中进行研判,得到的输出就是异常行为的判定。
S12)将开具时间字段值不是位于企业正常开具凭据时间段内的数据依次输入到异常行为研判模型三、异常行为研判模型四中进行研判,得到的输出就是异常行为的判定。
本发明基于深度学习的多层感知机算法对异常行为进行智能分类,以历史开具凭据数据作为训练数据来训练研判模型,通过聚类分析算法为历史数据进行异常标记,并实时输入新开具数据,研判效率较高,准确率可到到95%以上。与现有技术相比,本发明在不增加人工监管与硬件设备的条件下,即可对电子凭据开具感知组件处产生的海量数据间关联而形成的同一企业短时间开具大量凭据、同一企业短时间开具大量大额凭据、企业异常时间开具大量凭据、企业异常时间开具大额凭据四种异常行为进行实时准确研判。
所述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由所述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (5)

1.一种基于深度学习的电子凭据异常行为研判系统,其特征在于,包括:特征提取模块、深度学习训练模块以及异常行为检测模块,其中:特征提取模块与深度学习训练模块相连并传输训练数据信息,深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息,异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息;
所述的特征提取模块包括:数据读取单元、数据处理单元以及数据标记单元,其中:数据读取单元与数据处理单元相连并传输从开具凭据数据库中读取的的历史数据信息,数据处理单元与数据标记单元相连并传输用于划分异常种类的数据信息,数据标记单元输出数据作为本模块的输出数据与深度学习训练模块相连并为其提供训练数据。
2.根据权利要求1所述的系统,其特征是,所述的数据处理单元包括两个部分:研判开票时间和统计开票频率,其中:所述的研判开票时间是指:将读取的电子凭据数据中的时间信息与企业正常开票时间段进行比对,由此判断每条数据是否为该企业正常开具凭据时间段内所开具;所述的统计开票频率是指:分别对正常时间段内的数据与异常时间段内的数据进行处理,分别提取两种数据的固定时间段内的开票数量并标记在相应数据上。
3.根据权利要求1所述的系统,其特征是,所述的数据标记单元是指:为数据划分异常种类并标记,即对统计开票频率后的数据进行聚类分析,由聚类结果研判出所读数据是否为异常数据,并对异常数据进行异常种类标记。
4.根据权利要求1所述的系统,其特征是,所述的深度学习训练模块包括:数据划分单元和训练单元,其中:数据划分单元与训练单元相连并传输划分好的训练集与测试集数据信息,训练单元输出数据作为本模块输出数据与异常行为检测模块相连并为其提供深度学习研判模型。
5.根据权利要求1所述的系统,其特征是,所述的异常行为检测模块包括:数据读取单元、数据处理单元以及异常行为研判单元,其中:数据读取单元与数据处理单元相连并传输从开具凭据数据库读取的实时开票信息,数据处理单元与异常行为研判单元相连接并传输特征提取后的数据信息,异常行为研判单元将处理好的数据输入到深度学习训练模块中的模型中进行智能研判,得到异常行为判定结果。
CN201910302523.4A 2019-04-16 2019-04-16 基于深度学习的电子凭据高频异常开具检测系统及方法 Active CN110084620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910302523.4A CN110084620B (zh) 2019-04-16 2019-04-16 基于深度学习的电子凭据高频异常开具检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910302523.4A CN110084620B (zh) 2019-04-16 2019-04-16 基于深度学习的电子凭据高频异常开具检测系统及方法

Publications (2)

Publication Number Publication Date
CN110084620A true CN110084620A (zh) 2019-08-02
CN110084620B CN110084620B (zh) 2022-08-12

Family

ID=67415220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910302523.4A Active CN110084620B (zh) 2019-04-16 2019-04-16 基于深度学习的电子凭据高频异常开具检测系统及方法

Country Status (1)

Country Link
CN (1) CN110084620B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679972A (zh) * 2013-12-26 2014-03-26 北京德信易税网络技术有限公司 税控终端的监控方法、装置及系统
KR20140069923A (ko) * 2012-11-30 2014-06-10 한국인터넷진흥원 이동통신망에서 비정상 과금 유발 데이터 패킷 탐지 방법
CN108765040A (zh) * 2018-05-18 2018-11-06 北京票通信息技术有限公司 基于网络的嵌入式税控开票方法和系统
CN109299259A (zh) * 2018-09-26 2019-02-01 深圳壹账通智能科技有限公司 企业发票数据监测方法、装置、计算机设备和存储介质
CN109409969A (zh) * 2018-10-24 2019-03-01 仲恺农业工程学院 一种企业税务欺诈检测方法、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140069923A (ko) * 2012-11-30 2014-06-10 한국인터넷진흥원 이동통신망에서 비정상 과금 유발 데이터 패킷 탐지 방법
CN103679972A (zh) * 2013-12-26 2014-03-26 北京德信易税网络技术有限公司 税控终端的监控方法、装置及系统
CN108765040A (zh) * 2018-05-18 2018-11-06 北京票通信息技术有限公司 基于网络的嵌入式税控开票方法和系统
CN109299259A (zh) * 2018-09-26 2019-02-01 深圳壹账通智能科技有限公司 企业发票数据监测方法、装置、计算机设备和存储介质
CN109409969A (zh) * 2018-10-24 2019-03-01 仲恺农业工程学院 一种企业税务欺诈检测方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN110084620B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN107395590B (zh) 一种基于pca和随机森林分类的入侵检测方法
CN103581186B (zh) 一种网络安全态势感知方法及系统
CN110019074B (zh) 访问路径的分析方法、装置、设备及介质
CN108764267B (zh) 一种基于对抗式决策树集成的拒绝服务攻击检测方法
CN109379379A (zh) 基于改进卷积神经网络的网络入侵检测方法
CN108809745A (zh) 一种用户异常行为检测方法、装置及系统
Alhaidari et al. New approach to determine DDoS attack patterns on SCADA system using machine learning
CN110502897A (zh) 一种基于混合分析的网页恶意JavaScript代码识别和反混淆方法
CN104102687A (zh) 加密网络隧道内的Web业务的标识和分类的方法和系统
CN107577945A (zh) Url攻击检测方法、装置以及电子设备
CN109670302B (zh) 一种基于svm的虚假数据注入攻击的分类方法
CN103944887B (zh) 基于隐条件随机场的入侵事件检测方法
CN109903053B (zh) 一种基于传感器数据进行行为识别的反欺诈方法
CN106982230A (zh) 一种流量检测方法及系统
CN110493142B (zh) 基于谱聚类和随机森林算法的移动应用程序行为识别方法
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
CN112787984B (zh) 一种基于相关分析的车载网络异常检测方法及系统
CN110677430A (zh) 一种基于网络安全设备日志数据的用户风险度评估方法和系统
CN108881283A (zh) 评估网络攻击的模型训练方法、装置及储存介质
CN110457601A (zh) 社交账号的识别方法和装置、存储介质及电子装置
CN107368592A (zh) 一种用于网络安全报告的文本特征模型建模方法及装置
CN116668039A (zh) 基于人工智能的计算机远程登录识别系统及方法
CN117972687B (zh) 一种基于区块链的电力智能监控系统
CN110365625B (zh) 物联网安全检测方法、装置及存储介质
CN117978530A (zh) 基于多粒度特征提取的恶意加密流量识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant