CN112613928A - 一种基于机器学习的防止增值税虚开的方法及系统 - Google Patents

一种基于机器学习的防止增值税虚开的方法及系统 Download PDF

Info

Publication number
CN112613928A
CN112613928A CN202011494628.3A CN202011494628A CN112613928A CN 112613928 A CN112613928 A CN 112613928A CN 202011494628 A CN202011494628 A CN 202011494628A CN 112613928 A CN112613928 A CN 112613928A
Authority
CN
China
Prior art keywords
tax
model
false
value
related data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011494628.3A
Other languages
English (en)
Inventor
刘若雯
李建
张学军
张飚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011494628.3A priority Critical patent/CN112613928A/zh
Publication of CN112613928A publication Critical patent/CN112613928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的防止增值税虚开的方法及系统,包括:对税收核心征管和发票电子底账系统中的数据进行采集,获取多个企业的原始的涉税数据,并进行预处理,以获取经过预处理的涉税数据;根据获取的涉税数据确定多个企业,并对问题企业存在的异常开票行为进行标记;构建基于机器学习的初始的增值税防虚开模型,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型;根据目标企业的涉税数据,利用所述增值税防虚开最优模型对企业的开票行为进行监控。本发明能够有效预防增值税专用发票的虚开行为;相比人工方式,节省了人工成本,并提高了效率。

Description

一种基于机器学习的防止增值税虚开的方法及系统
技术领域
本发明涉及税务管控技术领域,并且更具体地,涉及一种基于机器学习的防止增值税虚开的方法及系统。
背景技术
虚开增值税专用发票问题一直是增值税管理上的顽疾,不仅造成国家税流失,扰乱市场经济秩序,而且严重危害国家经济安全,给税务人员带来了极大的执法风险。随着税收信息化的不断推进,税务机关对增值税专用发票的管理手段不断提升、管理力度不断加强,但是虚开增值税专用发票案例仍时有发生,且发现时间滞后,虚开行为已经发生,已造成财政收入损失,所以税务机关亟需能有效预防纳税人虚开发票的有效方法。
目前税务机关已有的大数据分析系统只是利用大数据技术分析企业的涉税数据,然后对有疑点的企业进一步分析,但是准确度偏低导致系统中无法对分析结果进行自动处理,需要人工干预及判断。
因此,需要一种基于机器学习的防止增值税虚开的方法。
发明内容
本发明提出一种基于机器学习的防止增值税虚开的方法及系统,以解决如何高效地防止企业虚开增值税发票的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种基于机器学习的防止增值税虚开的方法,所述方法包括:
对税收核心征管和发票电子底账系统中的数据进行采集,获取多个企业的原始的涉税数据,并对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据;
根据获取的涉税数据确定多个企业,并对问题企业存在的异常开票行为进行标记;
构建基于机器学习的初始的增值税防虚开模型,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型;
根据目标企业的涉税数据,利用所述增值税防虚开最优模型对企业的开票行为进行监控。
优选地,其中所述对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据,包括:
对所述原始的涉税数据依次进行数据转换、数据清洗、缺失值补充和脏数据剔除处理,以获取经过预处理的涉税数据。
优选地,其中所述利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型,包括:
初始化模型参数,将所述获取的经过预处理的涉税数据输入至初始的增值税防虚开模型,确定预测的问题企业和每个问题企业的异常开票行为;
将预测的问题企业的异常开票行为和标记的问题企业的异常开票行为进行比对,根据比对结果确定模型预测的准确度;
若所述准确度满足预设的准确度阈值,则直接确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型;若所述准确度不满足预设的准确度阈值,则按照预设的策略对模型参数进行调整,并利用新的增值税防虚开模型进行训练,直至根据比对结果确定的模型预测的准确度满足预设的准确度阈值时,确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型。
优选地,其中所述方法还包括:
当利用所述增值税防虚开最优模型确定企业存在异常开票行为时,发送包括企业信息和异常票行为的告警信息至税务监控终端。
根据本发明的另一个方面,提供了一种基于机器学习的防止增值税虚开的系统,所述系统包括:
涉税数据获取单元,用于对税收核心征管和发票电子底账系统中的数据进行采集,获取多个企业的原始的涉税数据,并对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据;
异常开票行为标记单元,用于根据获取的涉税数据确定多个企业,并对问题企业存在的异常开票行为进行标记;
防虚开模型确定单元,用于构建基于机器学习的初始的增值税防虚开模型,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型;
防虚开监控单元,用于根据目标企业的涉税数据,利用所述增值税防虚开最优模型对企业的开票行为进行监控。
优选地,其中所述涉税数据获取单元,对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据,包括:
对所述原始的涉税数据依次进行数据转换、数据清洗、缺失值补充和脏数据剔除处理,以获取经过预处理的涉税数据。
优选地,其中所述防虚开模型确定单元,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型,包括:
初始化模型参数,将所述获取的经过预处理的涉税数据输入至初始的增值税防虚开模型,确定预测的问题企业和每个问题企业的异常开票行为;
将预测的问题企业的异常开票行为和标记的问题企业的异常开票行为进行比对,根据比对结果确定模型预测的准确度;
若所述准确度满足预设的准确度阈值,则直接确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型;若所述准确度不满足预设的准确度阈值,则按照预设的策略对模型参数进行调整,并利用新的增值税防虚开模型进行训练,直至根据比对结果确定的模型预测的准确度满足预设的准确度阈值时,确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型。
优选地,其中所述系统还包括:
告警单元,用于当利用所述增值税防虚开最优模型确定企业存在异常开票行为时,发送包括企业信息和异常票行为的告警信息至税务监控终端。
本发明提供了一种基于机器学习的防止增值税虚开的方法及系统,利用机器学习技术及海量涉税数据,将海量历史数据代入防虚开模型中进行验证,并将结果与历史结果进行比对,判断防虚开模型的准确度,并根据结果对虚开模型的参数进行调整,然后再度进行验证,提高模型的准确度,确定增值税防虚开最优模型,并利用所述增值税防虚开最优模型对企业的涉税数据进行分析,能够有效预防增值税专用发票的虚开行为;相比传统的人工验证方式,节省了人工成本,并提高了效率。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的基于机器学习的防止增值税虚开的方法100的流程图;
图2为根据本发明实施方式的基于机器学习的防止增值税虚开的系统200的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的基于机器学习的防止增值税虚开的方法100的流程图。图1所示,本发明实施方式提供的基于机器学习的防止增值税虚开的方法及系统,利用机器学习技术及海量涉税数据,将海量历史数据代入防虚开模型中进行验证,并将结果与历史结果进行比对,判断防虚开模型的准确度,并根据结果对虚开模型的参数进行调整,然后再度进行验证,提高模型的准确度,确定增值税防虚开最优模型,并利用所述增值税防虚开最优模型对企业的涉税数据进行分析,能够有效预防增值税专用发票的虚开行为;相比传统的人工验证方式,节省了人工成本,并提高了效率。本发明实施方式提供的基于机器学习的防止增值税虚开的方法100,从步骤101处开始,在步骤101对税收核心征管和发票电子底账系统中的数据进行采集,获取多个企业的原始的涉税数据,并对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据。
优选地,其中所述对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据,包括:
对所述原始的涉税数据依次进行数据转换、数据清洗、缺失值补充和脏数据剔除处理,以获取经过预处理的涉税数据。
在步骤102,根据获取的涉税数据确定多个企业,并对问题企业存在的异常开票行为进行标记。
在步骤103,构建基于机器学习的初始的增值税防虚开模型,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型。
优选地,其中所述利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型,包括:
初始化模型参数,将所述获取的经过预处理的涉税数据输入至初始的增值税防虚开模型,确定预测的问题企业和每个问题企业的异常开票行为;
将预测的问题企业的异常开票行为和标记的问题企业的异常开票行为进行比对,根据比对结果确定模型预测的准确度;
若所述准确度满足预设的准确度阈值,则直接确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型;若所述准确度不满足预设的准确度阈值,则按照预设的策略对模型参数进行调整,并利用新的增值税防虚开模型进行训练,直至根据比对结果确定的模型预测的准确度满足预设的准确度阈值时,确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型。
针对纳税主体海量、异常行为隐蔽,违规行为不断演变等特点,本发明通过将现有的已有的企业异常行为指标与大数据分析、机器学习得出的新指标相比对,提高防虚开模型的准确度。
本发明利用海量的税务数据和企业经营数据,进行企业异常情况分析建立增值税防虚开模型,并利用机器学习技术,将海量数据代入模型汇总进行验证,确定防虚开模型。具体地,为实现上述目标,本发明基于机器学习的增值税虚开模型的确定方法包括:
(1)采集税收核心征管、发票电子底账系统数据;
(2)建立防虚开模型,将采集到的数据进行数据清洗,带入到模型中进行训练择优;
(3)将数据带入到训练择优的模型中进行数据分析,发现企业的异常开票行为;
(4)将企业的异常行为与历史结果进行比对;
(5)根据比对结果调整模型参数。
(6)再将数据带入到训练择优的模型中进行数据分析,发现企业的异常开票行为;
(7)再次将企业的异常行为与历史结果进行比对,直到准确度符合预期指标,确定增值税防虚开最优模型。
在本发明的方法基于三个联动的税局端税务管控平台实现,其中,数据采集平台,用于获取业务模型数据,及用于分析新模型指标的涉税数据,产生问题企业的异常行为标记;机器学习平台,用于将海量数据代入模型进行验证,并与历史结果进行比对;参数调整平台,用于根据比对结果调整模型参数。
数据采集平台包括数据存储模块、ETL模块、数据挖掘模块、数据分析模块、数据展现模块。数据存储模块用于存储企业业务模型数据;企业涉税数据;税务政策数据;成熟指标规则;企业基本信息;企业登记信息。ETL模块用于对数据存储模块的数据完成数据转换、清洗、缺失值补充和脏数据处理等功能。数据挖掘模块用于模型训练、模型选优、模型验证、并将验证完成的模型推送到系统中作为新分析模型。数据分析模块用于使用成熟规则和数据挖掘训练规则完成实时数据分析和分析结果自动推送。数据展现模块提供在线展现分析结果及对外数据接口;
机器学习平台包括数据源选择模块和执行模块。数据源选择模块用于选择机器学习加载的数据源。执行模块用于开始执行机器学习功能;
参数调整平台包括模型建立、模型载入和参数调整模块。模型建立用于建立新的防虚开模型。模型载入用于载入各种防虚开模型。参数调整用于对载入的模型进行模型参数调整。
本发明利用机器学习技术,通过海量涉税数据,不停地代入防虚开模型中进行验证,根据验证结果调整模型参数,使模型结果准确度更高,提高了效率,提高了模型发现企业虚开行为的能力;实现了用机器学习技术代替了传统的人工验证方式,节省了人工成本。
在步骤104,根据目标企业的涉税数据,利用所述增值税防虚开最优模型对企业的开票行为进行监控。
优选地,其中所述方法还包括:
当利用所述增值税防虚开最优模型确定企业存在异常开票行为时,发送包括企业信息和异常票行为的告警信息至税务监控终端。
图2为根据本发明实施方式的基于机器学习的防止增值税虚开的系统200的结构示意图。如图2所示,本发明实施方式提供的基于机器学习的防止增值税虚开的系统200,包括:涉税数据获取单元201、异常开票行为标记单元202、防虚开模型确定单元203和防虚开监控单元204。
优选地,所述涉税数据获取单元201,用于对税收核心征管和发票电子底账系统中的数据进行采集,获取多个企业的原始的涉税数据,并对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据。
优选地,其中所述涉税数据获取单元201,对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据,包括:
对所述原始的涉税数据依次进行数据转换、数据清洗、缺失值补充和脏数据剔除处理,以获取经过预处理的涉税数据。
优选地,所述异常开票行为标记单元202,用于根据获取的涉税数据确定多个企业,并对问题企业存在的异常开票行为进行标记。
优选地,所述防虚开模型确定单元203,用于构建基于机器学习的初始的增值税防虚开模型,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型。
优选地,其中所述防虚开模型确定单元203,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型,包括:
初始化模型参数,将所述获取的经过预处理的涉税数据输入至初始的增值税防虚开模型,确定预测的问题企业和每个问题企业的异常开票行为;
将预测的问题企业的异常开票行为和标记的问题企业的异常开票行为进行比对,根据比对结果确定模型预测的准确度;
若所述准确度满足预设的准确度阈值,则直接确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型;若所述准确度不满足预设的准确度阈值,则按照预设的策略对模型参数进行调整,并利用新的增值税防虚开模型进行训练,直至根据比对结果确定的模型预测的准确度满足预设的准确度阈值时,确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型。
优选地,所述防虚开监控单元204,用于根据目标企业的涉税数据,利用所述增值税防虚开最优模型对企业的开票行为进行监控。
优选地,其中所述系统还包括:
告警单元,用于当利用所述增值税防虚开最优模型确定企业存在异常开票行为时,发送包括企业信息和异常票行为的告警信息至税务监控终端。
本发明的实施例的基于机器学习的防止增值税虚开的系统200与本发明的另一个实施例的基于机器学习的防止增值税虚开的方法100相对应,在此不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (8)

1.一种基于机器学习的防止增值税虚开的方法,其特征在于,所述方法包括:
对税收核心征管和发票电子底账系统中的数据进行采集,获取多个企业的原始的涉税数据,并对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据;
根据获取的涉税数据确定多个企业,并对问题企业存在的异常开票行为进行标记;
构建基于机器学习的初始的增值税防虚开模型,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型;
根据目标企业的涉税数据,利用所述增值税防虚开最优模型对企业的开票行为进行监控。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据,包括:
对所述原始的涉税数据依次进行数据转换、数据清洗、缺失值补充和脏数据剔除处理,以获取经过预处理的涉税数据。
3.根据权利要求1所述的方法,其特征在于,所述利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型,包括:
初始化模型参数,将所述获取的经过预处理的涉税数据输入至初始的增值税防虚开模型,确定预测的问题企业和每个问题企业的异常开票行为;
将预测的问题企业的异常开票行为和标记的问题企业的异常开票行为进行比对,根据比对结果确定模型预测的准确度;
若所述准确度满足预设的准确度阈值,则直接确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型;若所述准确度不满足预设的准确度阈值,则按照预设的策略对模型参数进行调整,并利用新的增值税防虚开模型进行训练,直至根据比对结果确定的模型预测的准确度满足预设的准确度阈值时,确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当利用所述增值税防虚开最优模型确定企业存在异常开票行为时,发送包括企业信息和异常票行为的告警信息至税务监控终端。
5.一种基于机器学习的防止增值税虚开的系统,其特征在于,所述系统包括:
涉税数据获取单元,用于对税收核心征管和发票电子底账系统中的数据进行采集,获取多个企业的原始的涉税数据,并对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据;
异常开票行为标记单元,用于根据获取的涉税数据确定多个企业,并对问题企业存在的异常开票行为进行标记;
防虚开模型确定单元,用于构建基于机器学习的初始的增值税防虚开模型,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型;
防虚开监控单元,用于根据目标企业的涉税数据,利用所述增值税防虚开最优模型对企业的开票行为进行监控。
6.根据权利要求5所述的系统,其特征在于,所述涉税数据获取单元,对所述原始的涉税数据进行预处理,以获取经过预处理的涉税数据,包括:
对所述原始的涉税数据依次进行数据转换、数据清洗、缺失值补充和脏数据剔除处理,以获取经过预处理的涉税数据。
7.根据权利要求5所述的系统,其特征在于,所述防虚开模型确定单元,利用获取的经过预处理的涉税数据和标记的问题企业的异常开票行为对所述初始的增值税防虚开模型进行训练和优化,以确定增值税防虚开最优模型,包括:
初始化模型参数,将所述获取的经过预处理的涉税数据输入至初始的增值税防虚开模型,确定预测的问题企业和每个问题企业的异常开票行为;
将预测的问题企业的异常开票行为和标记的问题企业的异常开票行为进行比对,根据比对结果确定模型预测的准确度;
若所述准确度满足预设的准确度阈值,则直接确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型;若所述准确度不满足预设的准确度阈值,则按照预设的策略对模型参数进行调整,并利用新的增值税防虚开模型进行训练,直至根据比对结果确定的模型预测的准确度满足预设的准确度阈值时,确定当前的模型参数对应的增值税防虚开模型为增值税防虚开最优模型。
8.根据权利要求5所述的系统,其特征在于,所述系统还包括:
告警单元,用于当利用所述增值税防虚开最优模型确定企业存在异常开票行为时,发送包括企业信息和异常票行为的告警信息至税务监控终端。
CN202011494628.3A 2020-12-17 2020-12-17 一种基于机器学习的防止增值税虚开的方法及系统 Pending CN112613928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011494628.3A CN112613928A (zh) 2020-12-17 2020-12-17 一种基于机器学习的防止增值税虚开的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011494628.3A CN112613928A (zh) 2020-12-17 2020-12-17 一种基于机器学习的防止增值税虚开的方法及系统

Publications (1)

Publication Number Publication Date
CN112613928A true CN112613928A (zh) 2021-04-06

Family

ID=75240510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011494628.3A Pending CN112613928A (zh) 2020-12-17 2020-12-17 一种基于机器学习的防止增值税虚开的方法及系统

Country Status (1)

Country Link
CN (1) CN112613928A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642735A (zh) * 2021-07-28 2021-11-12 浪潮软件科技有限公司 虚开纳税人识别的持续学习方法
CN113642657A (zh) * 2021-08-18 2021-11-12 一数智融(广州)科技有限公司 数据推送方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595621A (zh) * 2018-04-23 2018-09-28 泰华智慧产业集团股份有限公司 一种虚开增值税发票的预警分析方法及系统
CN111192126A (zh) * 2019-12-27 2020-05-22 航天信息股份有限公司 一种基于大数据分析的发票防虚开方法及系统
CN111724241A (zh) * 2020-06-05 2020-09-29 西安交通大学 基于动态边特征增强的图注意力网络的企业发票虚开检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595621A (zh) * 2018-04-23 2018-09-28 泰华智慧产业集团股份有限公司 一种虚开增值税发票的预警分析方法及系统
CN111192126A (zh) * 2019-12-27 2020-05-22 航天信息股份有限公司 一种基于大数据分析的发票防虚开方法及系统
CN111724241A (zh) * 2020-06-05 2020-09-29 西安交通大学 基于动态边特征增强的图注意力网络的企业发票虚开检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642735A (zh) * 2021-07-28 2021-11-12 浪潮软件科技有限公司 虚开纳税人识别的持续学习方法
CN113642735B (zh) * 2021-07-28 2023-07-18 浪潮软件科技有限公司 虚开纳税人识别的持续学习方法
CN113642657A (zh) * 2021-08-18 2021-11-12 一数智融(广州)科技有限公司 数据推送方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111192126A (zh) 一种基于大数据分析的发票防虚开方法及系统
CN112613928A (zh) 一种基于机器学习的防止增值税虚开的方法及系统
CN113780991B (zh) 建设工程项目的动态成本管控方法、装置及电子设备
CN105447634A (zh) 一种基于大数据平台的实时风险控制方法及系统
CN106709665A (zh) 一种企业内部经济管理控制系统
CN115936438A (zh) 一种用于企业税务风控的预警方法及系统
CN117391292A (zh) 碳排放节能管理分析系统及方法
CN115755614A (zh) 基于碳排监测的用能优化调控方法及装置
CN115719283A (zh) 一种智能化会计管理系统
CN108446318A (zh) 一种海量数据智能决策分析系统
CN111222968A (zh) 一种企业税务风险管控方法及系统
CN114880312A (zh) 一种可柔性设置的应用系统业务数据稽核方法
CN114612018A (zh) 一种内控风险监测方法、系统和可读存储介质
CN112801766A (zh) 一种税收风险动态防控方法及系统
CN111538833A (zh) 一种基于政策知识图谱的低保鉴别方法
CN112651685B (zh) 一种增值税电子发票的自动补仓方法及系统
CN115330120A (zh) 一种海关数据风控类型识别系统
CN112926781A (zh) 基于监管领域的市场主体行为图谱智能分析方法及系统
CN111222928A (zh) 一种用于监控企业规范开具发票的方法及系统
CN116720731B (zh) 一种煤矿金融全要素风险防控预警方法和预警系统
CN110400041B (zh) 风险稽核方法、装置、计算机设备及计算机可读存储介质
CN116933062B (zh) 一种文件智能判定系统及方法
CN111222766A (zh) 一种用于预警企业虚开发票的方法及系统
CN116739387B (zh) 一种多维度分析数据的方法及装置、计算机存储介质
Oleiniuc Strategic controlling implementation in Moldovan bakery industry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination