CN116720787A - 一种基于XGBoost模型的新变更异常企业检测方法 - Google Patents
一种基于XGBoost模型的新变更异常企业检测方法 Download PDFInfo
- Publication number
- CN116720787A CN116720787A CN202310975920.4A CN202310975920A CN116720787A CN 116720787 A CN116720787 A CN 116720787A CN 202310975920 A CN202310975920 A CN 202310975920A CN 116720787 A CN116720787 A CN 116720787A
- Authority
- CN
- China
- Prior art keywords
- change
- enterprise
- abnormal
- tax
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008859 change Effects 0.000 title claims abstract description 151
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 86
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000012986 modification Methods 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 238000007689 inspection Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000073677 Changea Species 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及变更异常企业领域,本发明公开了一种基于XGBoost模型的新变更异常企业检测方法,包括以下步骤数据获取与预处理;新变更企业特征抽取;基于XGBoost模型的新变更异常企业检测;所述步骤一中数据获取通过基于税务大数据平台获取S市N区指定所属期内进行法人、企业名称、经营范围变更的企业名单,获取企业法人身份信息、财务负责人身份信息、办税员身份信息、企业绑定办税信息、变更前后开票信息等数据;随后对上述数据的数据格式进行标准化处理,对缺失值进行处理,本发明采用XGBoost作为最终的检测算法可以充分挖掘新变更企业数据中蕴含的风险因素,显著提高新变更异常企业检测的精确率以及召回率,在提高检测效率的同时确保风控工作的有效开展。
Description
技术领域
本发明涉及变更异常企业领域,具体涉及一种基于XGBoost模型的新变更异常企业检测方法。
背景技术
鉴于新变更异常企业检测任务对于税务征收管理、风控、稽查等涉税业务的开展具有非常重要的辅助意义,该问题引起了相关学者以及税务从业者的注意,产出了一些工作成果。目前新变更异常企业检测问题的主要解决方案是基于专家评价指标体系的检测方案。现有方案在新变更异常企业检测方面取得了一定的成效,同时也存在着一些局限和不足;
首先,基于评价指标体系的检测方案的检测性能取决于评价指标的选取、指标权重的设定以及风险定性阈值的设定等三项工作,但是评价指标的选取、指标权重和风险定性阈值的设定工作非常依赖税务专家的领域经验。因此,基于评价指标体系的检测方案存在泛化性能较差以及检测方案的可扩展性较差等局限,其次,基于专家评价指标体系的新变更异常企业检测方案中指标阈值的确定是基于专家经验进行的,是一个固定数值。上述阈值设定策略难以适应作案手法的变化更新,导致检测方案对于新型作案手法的适应性较差,最后,基于专家评价指标体系的检测方案未能充分挖掘利用新变更企业的登记注册数据,导致检测方案的识别精确性不足,因此,我们提出了一种基于XGBoost模型的新变更异常企业检测方法。
发明内容
针对现有技术的不足,本发明解决其技术问题所采用的技术方案是:本发明所述的一种基于XGBoost模型的新变更异常企业检测方法,包括以下步骤:
步骤一:数据获取与预处理;
步骤二:新变更企业特征抽取;
步骤三:基于XGBoost模型的新变更异常企业检测;
所述步骤一中数据获取通过基于税务大数据平台获取S市N区指定所属期内进行法人、企业名称、经营范围变更的企业名单,获取企业法人身份信息、财务负责人身份信息、办税员身份信息、企业绑定办税信息、变更前后开票信息等数据;
随后对上述数据的数据格式进行标准化处理,对缺失值进行处理;
所述步骤二依据异常企业的特点抽取了变更后法人年龄分箱、变更后财务负责人年龄分箱、变更后办税员年龄分箱、企业历史关联人员年龄异常、变更后购票人员办理业务异常、变更前后开具增值税普通发票金额差异、变更前后开具增值税专用发票金额差异、变更前下游企业检索情况、变更后下游企业检索情况等特征;
所述步骤三中利用XGBoost模型对新变更异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新变更异常企业的精准检测和识别。
所述步骤二中变更后购票人员办理业务异常反映了购票人员办理过业务的企业中,有涉税风险、位于涉税风险实体库下企业的占比,是刻画变更后担任购票员的人员其风险程度的特征之一,其计算公式定义如下:
其中表示购票员历史为其办理过业务的企业中位于涉税风险实体库下的企业
数量,表示购票员历史为其办理过业务的所有企业数量,表示购票人员办理过业
务的企业中,有涉税风险、位于涉税风险实体库下企业的占比。
所述步骤二中变更前后开具增值税普通发票金额差异为企业变更前、后选定的某时间范围内月均开具增值税普通发票金额之差,是刻画变更后开票行为变化的特征之一,其计算公式定义如下:
其中表示变更后企业开具增值税普通发票在某个选定时间范围内的月均金
额,其中表示变更前企业开具增值税普通发票在某个选定时间范围内的月均金额,其
中为企业变更前、后选定的某时间范围内月均开具增值税普通发票金额之差。
变更前后开具增值税专用发票金额差异为企业变更前、后选定的某时间范围内月均开具增值税专用发票金额之差,是刻画变更后开票行为变化的特征之一,其计算公式定义如下:
其中表示变更后企业开具增值税专用发票在某个选定时间范围内的月均金
额,其中表示变更前企业开具增值税专用发票在某个选定时间范围内的月均金额,其
中表示企业变更前、后选定的某时间范围内月均开具增值税专用发票金额之差。
所述步骤二中变更前下游企业检索情况为变更前企业发票下游接收方异地占比以及异常占比的加权和,是刻画企业经营风险情况的特征之一,其计算公式定义如下:
其中、表示实验得到的权重数值,表示变更前下游企业中检索不到的
非S市本地企业数量,表示变更前下游中位于涉税风险实体库下的企业数量,表示
变更前下游企业总数,表示变更前企业发票下游接收方异地占比以及异常占比的加
权和。
所述步骤二中变更后下游企业检索情况为变更后企业发票下游接收方异地占比以及异常占比的加权和,是刻画企业经营风险情况的特征之一,其计算公式定义如下:
其中、表示实验得到的权重数值,表示变更后下游企业中检索不到的
非S市本地企业数量,表示变更后下游中位于涉税风险实体库下的企业数量,表示
变更后下游企业总数,表示变更后企业发票下游接收方异地占比以及异常占比的加
权和。
所述步骤三中利用XGBoost模型对新变更异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新变更异常企业的精准检测和识别。
0015.所述步骤三基于XGBoost模型的新变更异常企业检测包括模型训练和模型性能评估;
所述模型训练包括基于历史风控数据构建训练数据集合,按照7:3的比例将数据集合划分为训练数据集合、测试数据集合,验证数据集合采用时间范围外抽取构建的数据集合,基于训练数据集合和测试数据集合采用交叉验证的方式进行模型训练和参数调整,获得新变更异常企业风险量化模型并进行本地化。
所述模型性能评估包括使用训练所得的模型对训练数据进行标签预测,计算模型在训练数据集合上的推理性能。同时记录训练数据中被误分类的样本,用于后续特征工程调整。
现存解决方案主要依赖专家经验建立指标评价体系,业务人员对疑点企业进行逐户核对,现存方案的检测准确率较低、检测方案泛化性能较差、检测方案的可扩展性较差,难以满足税务征收管理、风控、稽查等部门实际工作中的业务需求,所述该种XGBoost模型的新变更异常企业检测方法能够在新变更异常企业检测建模的过程中,充分利用各个涉税环节的特征数据,实现在大量新变更异常企业检测任务中可以更加精准稳定地检测出异常企业,缩短检测任务的时间延迟,提高税务征管、风控以及稽查部门对涉税风险预警响应的时效性和敏捷性。
所述通过上述的计算公式可以获得代表每家企业的特征向量,实现了对新变更的一家企业的精准刻画。本发明基于上述构造的特征向量,利用XGBoost模型对新变更异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新变更异常企业的精准检测和识别;
XGBoost是一种基于Boosting策略的集成树算法,由多个简单的弱学习器组合成一个高效的强学习器,每轮迭代后算法会计算当前模型预测值和样本真实值的差异度,下一轮迭代会针对这个差异度来继续训练模型,XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度下降得更快更准,同时XGBoost显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。
本发明的有益效果如下:
本发明在新变更异常企业检测建模过程中充分考虑了代表一家企业的特征的提取及量化,对新变更企业是否存在异常进行推理,可显著提升训练所得模型的推理性能和泛化性能及扩大方案的适用性,本发明使用XGBoost模型对新变更企业数据进行处理和抽象,利用XGBoost在有监督学习上强悍的处理能力可以显著提高新变更异常企业检测模型的推理准确性,根据模型判别结果,打击了一些隐藏较深、危害较大的企业,且通过对新变更企业的各种特征进行提取,随后分析其异常情况,能够在新变更异常企业检测建模的过程中,充分利用各个涉税环节的特征数据,实现在大量新变更异常企业检测任务中可以更加精准稳定地检测出异常企业,缩短检测任务的时间延迟,提高税务征管、风控以及稽查部门对涉税风险预警响应的时效性和敏捷性,本发明采用XGBoost作为最终的检测算法可以充分挖掘新变更企业数据中蕴含的风险因素,显著提高新变更异常企业检测的精确率以及召回率,在提高检测效率的同时确保风控工作的有效开展。
附图说明
图1是本发明的方法流程图;
图2是本发明技术流程示意图;
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例,使用图1-图2对本发明一实施方式的一种基于XGBoost模型的新变更异常企业检测方法进行如下说明。
如图1-图2所示,本发明所述的一种基于XGBoost模型的新变更异常企业检测方法,包括以下步骤:
步骤一:数据获取与预处理;
步骤二:新变更企业特征抽取;
步骤三:基于XGBoost模型的新变更异常企业检测;
步骤一中数据获取通过基于税务大数据平台获取S市N区指定所属期内进行法人、企业名称、经营范围变更的企业名单,获取企业法人身份信息、财务负责人身份信息、办税员身份信息、企业绑定办税信息、变更前后开票信息等数据;
随后对上述数据的数据格式进行标准化处理,对缺失值进行处理;
步骤二依据异常企业的特点抽取了变更后法人年龄分箱、变更后财务负责人年龄分箱、变更后办税员年龄分箱、企业历史关联人员年龄异常、变更后购票人员办理业务异常、变更前后开具增值税普通发票金额差异、变更前后开具增值税专用发票金额差异、变更前下游企业检索情况、变更后下游企业检索情况等特征;
步骤三中利用XGBoost模型对新变更异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新变更异常企业的精准检测和识别。
步骤二中变更后购票人员办理业务异常反映了购票人员办理过业务的企业中,有涉税风险、位于涉税风险实体库下企业的占比,是刻画变更后担任购票员的人员其风险程度的特征之一,其计算公式定义如下:
其中表示购票员历史为其办理过业务的企业中位于涉税风险实体库下的企业
数量,表示购票员历史为其办理过业务的所有企业数量,表示购票人员办理过业
务的企业中,有涉税风险、位于涉税风险实体库下企业的占比。
步骤二中变更前后开具增值税普通发票金额差异为企业变更前、后选定的某时间范围内月均开具增值税普通发票金额之差,是刻画变更后开票行为变化的特征之一,其计算公式定义如下:
其中表示变更后企业开具增值税普通发票在某个选定时间范围内的月均金
额,其中表示变更前企业开具增值税普通发票在某个选定时间范围内的月均金额,其
中为企业变更前、后选定的某时间范围内月均开具增值税普通发票金额之差。
变更前后开具增值税专用发票金额差异为企业变更前、后选定的某时间范围内月均开具增值税专用发票金额之差,是刻画变更后开票行为变化的特征之一,其计算公式定义如下:
其中表示变更后企业开具增值税专用发票在某个选定时间范围内的月均金
额,其中表示变更前企业开具增值税专用发票在某个选定时间范围内的月均金额,其
中表示企业变更前、后选定的某时间范围内月均开具增值税专用发票金额之差。
步骤二中变更前下游企业检索情况为变更前企业发票下游接收方异地占比以及异常占比的加权和,是刻画企业经营风险情况的特征之一,其计算公式定义如下:
其中、表示实验得到的权重数值,表示变更前下游企业中检索不到的
非S市本地企业数量,表示变更前下游中位于涉税风险实体库下的企业数量,表示
变更前下游企业总数,表示变更前企业发票下游接收方异地占比以及异常占比的加
权和。
步骤二中变更后下游企业检索情况为变更后企业发票下游接收方异地占比以及异常占比的加权和,是刻画企业经营风险情况的特征之一,其计算公式定义如下:
其中、表示实验得到的权重数值,表示变更后下游企业中检索不到的
非S市本地企业数量,表示变更后下游中位于涉税风险实体库下的企业数量,表示
变更后下游企业总数,表示变更后企业发票下游接收方异地占比以及异常占比的加
权和。
步骤三中利用XGBoost模型对新变更异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新变更异常企业的精准检测和识别。
步骤三基于XGBoost模型的新变更异常企业检测包括模型训练和模型性能评估;
模型训练包括基于历史风控数据构建训练数据集合,按照7:3的比例将数据集合划分为训练数据集合、测试数据集合,验证数据集合采用时间范围外抽取构建的数据集合,基于训练数据集合和测试数据集合采用交叉验证的方式进行模型训练和参数调整,获得新变更异常企业风险量化模型并进行本地化。
模型性能评估包括使用训练所得的模型对训练数据进行标签预测,计算模型在训练数据集合上的推理性能。同时记录训练数据中被误分类的样本,用于后续特征工程调整。
现存解决方案主要依赖专家经验建立指标评价体系,业务人员对疑点企业进行逐户核对,现存方案的检测准确率较低、检测方案泛化性能较差、检测方案的可扩展性较差,难以满足税务征收管理、风控、稽查等部门实际工作中的业务需求,该种XGBoost模型的新变更异常企业检测方法能够在新变更异常企业检测建模的过程中,充分利用各个涉税环节的特征数据,实现在大量新变更异常企业检测任务中可以更加精准稳定地检测出异常企业,缩短检测任务的时间延迟,提高税务征管、风控以及稽查部门对涉税风险预警响应的时效性和敏捷性。
通过上述的计算公式可以获得代表每家企业的特征向量,实现了对新变更的一家企业的精准刻画。本发明基于上述构造的特征向量,利用XGBoost模型对新变更异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新变更异常企业的精准检测和识别;
XGBoost是一种基于Boosting策略的集成树算法,由多个简单的弱学习器组合成一个高效的强学习器,每轮迭代后算法会计算当前模型预测值和样本真实值的差异度,下一轮迭代会针对这个差异度来继续训练模型,XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度下降得更快更准,同时XGBoost显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。
具体工作流程如下:
工作时,首先获取企业变更类型、企业变更时间、变更后法人身份证件号码、变更后财务负责人身份证件号码、变更后办税员身份证件号码、历史关联人员身份证件号码、变更前开具的增值税普通发票、变更后开具的增值税普通发票、变更前开具的增值税专用发票、变更后开具的增值税专用发票等数据;
对上述数据进行缺失值处理、异常值处理、量纲处理、去重处理、噪声处理等数据预处理步骤,实现数据的标准使之符合机器学习算法的要求,降低数据因素对检测模型推理性能的影响。
对基于处理后的数据依据上述为企业抽取变更后法人年龄分箱、变更后法人性别特征;
对基于处理后的数据依据上述为企业抽取变更后财务负责人年龄分箱特征;
对基于处理后的数据依据上述为企业抽取变更后办税员年龄分箱特征;
对基于处理后的数据依据上述为企业抽取企业历史关联人员年龄异常特征;
对基于处理后的数据依据上述为企业抽取变更后购票人员办理业务异常特征;
对基于处理后的数据依据上述为企业抽取变更前后开具增值税普通发票金额差异特征;
对基于处理后的数据依据上述为企业抽取变更前后开具增值税专用发票金额差异特征;
对基于处理后的数据依据上述为企业抽取变更前下游企业检索情况特征;
对基于处理后的数据依据上述为企业抽取变更后下游企业检索情况特征;
变更后法人年龄分箱:
其中x表示样本的年龄,B(x)表示样本所属的年龄分箱,ai和 bi分别表示第i个年龄分箱的左右边界,k表示总共有 k个年龄分箱;
一个五维的one-hot向量,分别表示5种兼职情况:
其中 xi表示第i维的二元特征。
随后进行模型训练:基于历史风控数据构建训练数据集合,按照7:3的比例将数据集合划分为训练数据集合、测试数据集合,验证数据集合采用时间范围外抽取构建的数据集合。基于训练数据集合和测试数据集合采用交叉验证的方式进行模型训练和参数调整,获得新变更异常企业风险量化模型并进行本地化;
使用训练所得的模型对训练数据进行标签预测,计算模型在训练数据集合上的推理性能。同时记录训练数据中被误分类的样本,用于后续特征工程调整;
给出一家企业,判断是正类还是负类(异常企业):
XGBoost的目标函数为:
其中,是损失函数,是正则化项,T是树的数量,和是
正则化系数,对目标函数进行泰勒展开,得到:
对目标函数进行二阶泰勒展开,得到:
其中,表示损失函数关于的二阶导数。
在实施电子税务的大背景下,显著提高了税收征管效率,降低了纳税征收的成本,电子税务突破了时间与空间的限制,可以让纳税人随时随地通过电脑、手机等电子设备方便、快捷地办理涉税事务;但同时也为人员进行虚开、骗税等违法活动提供了便利。
新变更企业中存在异常风险,变更范围如法人变更、企业名称变更、企业经营范围变更等。以法人变更为例,一家正常经营的企业出于某种原因无法再经营下去,当人员掌握这一信息后,会去买下这样的企业;在变更法人之后,进行虚开、骗税等涉税违法行为。而由于这样的企业有经营基础,往往具有较高的价值、较低的风险性,可以虚开更多的发票,为人员的违法行为提供了掩盖,同时给税务工作带来极大风险。
对新变更异常企业的精确检测,有助于尽早地发现风险企业,起到有效预警的作用,可以有效提高税收征管、风控、稽查等工作的效率。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。
Claims (9)
1.一种基于XGBoost模型的新变更异常企业检测方法,包括以下步骤:
步骤一:数据获取与预处理;
步骤二:新变更企业特征抽取;
步骤三:基于XGBoost模型的新变更异常企业检测;
所述步骤一中数据获取通过基于税务大数据平台获取S市N区指定所属期内进行法人、企业名称、经营范围变更的企业名单,获取企业法人身份信息、财务负责人身份信息、办税员身份信息、企业绑定办税信息、变更前后开票信息等数据;
随后对上述数据的数据格式进行标准化处理,对缺失值进行处理;
所述步骤二依据异常企业的特点抽取了变更后法人年龄分箱、变更后财务负责人年龄分箱、变更后办税员年龄分箱、企业历史关联人员年龄异常、变更后购票人员办理业务异常、变更前后开具增值税普通发票金额差异、变更前后开具增值税专用发票金额差异、变更前下游企业检索情况、变更后下游企业检索情况等特征;
所述步骤三中利用XGBoost模型对新变更异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新变更异常企业的精准检测和识别。
2.根据权利要求1所述的一种基于XGBoost模型的新变更异常企业检测方法,其特征在于:所述步骤二中变更后购票人员办理业务异常反映了购票人员办理过业务的企业中,有涉税风险、位于涉税风险实体库下企业的占比,是刻画变更后担任购票员的人员其风险程度的特征之一,其计算公式定义如下:
;
其中表示购票员历史为其办理过业务的企业中位于涉税风险实体库下的企业数量,表示购票员历史为其办理过业务的所有企业数量,/>表示购票人员办理过业务的企业中,有涉税风险、位于涉税风险实体库下企业的占比。
3.根据权利要求1所述的一种基于XGBoost模型的新变更异常企业检测方法,其特征在于:所述步骤二中变更前后开具增值税普通发票金额差异为企业变更前、后选定的某时间范围内月均开具增值税普通发票金额之差,是刻画变更后开票行为变化的特征之一,其计算公式定义如下:
;
其中表示变更后企业开具增值税普通发票在某个选定时间范围内的月均金额,其中/>表示变更前企业开具增值税普通发票在某个选定时间范围内的月均金额,其中为企业变更前、后选定的某时间范围内月均开具增值税普通发票金额之差。
4.根据权利要求1所述的一种基于XGBoost模型的新变更异常企业检测方法,其特征在于:变更前后开具增值税专用发票金额差异为企业变更前、后选定的某时间范围内月均开具增值税专用发票金额之差,是刻画变更后开票行为变化的特征之一,其计算公式定义如下:
;
其中表示变更后企业开具增值税专用发票在某个选定时间范围内的月均金额,其中/>表示变更前企业开具增值税专用发票在某个选定时间范围内的月均金额,其中表示企业变更前、后选定的某时间范围内月均开具增值税专用发票金额之差。
5.根据权利要求1所述的一种基于XGBoost模型的新变更异常企业检测方法,其特征在于:所述步骤二中变更前下游企业检索情况为变更前企业发票下游接收方异地占比以及异常占比的加权和,是刻画企业经营风险情况的特征之一,其计算公式定义如下:
;
其中、/>表示实验得到的权重数值,/>表示变更前下游企业中检索不到的非S市本地企业数量,/>表示变更前下游中位于涉税风险实体库下的企业数量,/>表示变更前下游企业总数,/>表示变更前企业发票下游接收方异地占比以及异常占比的加权和。
6.根据权利要求1所述的一种基于XGBoost模型的新变更异常企业检测方法,其特征在于:所述步骤二中变更后下游企业检索情况为变更后企业发票下游接收方异地占比以及异常占比的加权和,是刻画企业经营风险情况的特征之一,其计算公式定义如下:
;
其中、/>表示实验得到的权重数值,/>表示变更后下游企业中检索不到的非S市本地企业数量,/>表示变更后下游中位于涉税风险实体库下的企业数量,/>表示变更后下游企业总数,/>表示变更后企业发票下游接收方异地占比以及异常占比的加权和。
7.根据权利要求1所述的一种基于XGBoost模型的新变更异常企业检测方法,其特征在于:所述步骤三中利用XGBoost模型对新变更异常企业问题进行建模,利用XGBoost模型在有监督学习上强悍的处理和抽象能力尝试实现对新变更异常企业的精准检测和识别。
8.根据权利要求1所述的一种基于XGBoost模型的新变更异常企业检测方法,其特征在于:所述步骤三基于XGBoost模型的新变更异常企业检测包括模型训练和模型性能评估;
所述模型训练包括基于历史风控数据构建训练数据集合,按照7:3的比例将数据集合划分为训练数据集合、测试数据集合,验证数据集合采用时间范围外抽取构建的数据集合,基于训练数据集合和测试数据集合采用交叉验证的方式进行模型训练和参数调整,获得新变更异常企业风险量化模型并进行本地化。
9.根据权利要求8所述的一种基于XGBoost模型的新变更异常企业检测方法,其特征在于:所述模型性能评估包括使用训练所得的模型对训练数据进行标签预测,计算模型在训练数据集合上的推理性能,同时记录训练数据中被误分类的样本,用于后续特征工程调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310975920.4A CN116720787A (zh) | 2023-08-04 | 2023-08-04 | 一种基于XGBoost模型的新变更异常企业检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310975920.4A CN116720787A (zh) | 2023-08-04 | 2023-08-04 | 一种基于XGBoost模型的新变更异常企业检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116720787A true CN116720787A (zh) | 2023-09-08 |
Family
ID=87875450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310975920.4A Pending CN116720787A (zh) | 2023-08-04 | 2023-08-04 | 一种基于XGBoost模型的新变更异常企业检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720787A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700304A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 通过增值税普通发票的金额监控企业逃税的方法和系统 |
CN109657932A (zh) * | 2018-11-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 企业风险分析方法、装置、计算机设备和存储介质 |
CN110991777A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 虚开发票企业的查找方法及装置、存储介质及电子设备 |
CN112270553A (zh) * | 2020-11-09 | 2021-01-26 | 浪潮软件股份有限公司 | 基于孤立森林算法的恶意注册企业行为识别方法及系统 |
CN113034019A (zh) * | 2021-03-31 | 2021-06-25 | 建信金融科技有限责任公司 | 企业风险预测方法、装置、计算机设备及可读存储介质 |
CN114626863A (zh) * | 2022-02-28 | 2022-06-14 | 北京中科闻歌科技股份有限公司 | 出口骗税企业的检测方法、装置、设备及存储介质 |
CN114723542A (zh) * | 2022-04-08 | 2022-07-08 | 北京中科闻歌科技股份有限公司 | 办税异常绑定行为的检测方法、装置、设备及存储介质 |
CN116245657A (zh) * | 2022-12-22 | 2023-06-09 | 江苏税软软件科技有限公司 | 基于半监督学习的税务预警分析方法及系统 |
-
2023
- 2023-08-04 CN CN202310975920.4A patent/CN116720787A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700304A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 通过增值税普通发票的金额监控企业逃税的方法和系统 |
CN110991777A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 虚开发票企业的查找方法及装置、存储介质及电子设备 |
CN109657932A (zh) * | 2018-11-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 企业风险分析方法、装置、计算机设备和存储介质 |
CN112270553A (zh) * | 2020-11-09 | 2021-01-26 | 浪潮软件股份有限公司 | 基于孤立森林算法的恶意注册企业行为识别方法及系统 |
CN113034019A (zh) * | 2021-03-31 | 2021-06-25 | 建信金融科技有限责任公司 | 企业风险预测方法、装置、计算机设备及可读存储介质 |
CN114626863A (zh) * | 2022-02-28 | 2022-06-14 | 北京中科闻歌科技股份有限公司 | 出口骗税企业的检测方法、装置、设备及存储介质 |
CN114723542A (zh) * | 2022-04-08 | 2022-07-08 | 北京中科闻歌科技股份有限公司 | 办税异常绑定行为的检测方法、装置、设备及存储介质 |
CN116245657A (zh) * | 2022-12-22 | 2023-06-09 | 江苏税软软件科技有限公司 | 基于半监督学习的税务预警分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108062674B (zh) | 基于gps的订单欺诈识别方法、系统、存储介质和电子设备 | |
Ucoglu | Current machine learning applications in accounting and auditing | |
CN107545422B (zh) | 一种套现检测方法及装置 | |
CN107633030B (zh) | 基于数据模型的信用评估方法及装置 | |
CN112926651A (zh) | 企业信贷评估方法及系统 | |
CN111709844A (zh) | 一种保险洗钱人员检测方法、装置和计算机可读存储介质 | |
CN111046184A (zh) | 文本的风险识别方法、装置、服务器和存储介质 | |
CN111915218A (zh) | 基于lstm-cnn的财务造假识别方法及系统 | |
CN111160695A (zh) | 计算机运行的风险账户的识别方法、系统、装置及存储介质 | |
CN114612239A (zh) | 基于算法、大数据、人工智能的股票舆情监测和风控系统 | |
CN117893321A (zh) | 一种账户异常检测方法及系统 | |
CN117575595A (zh) | 支付风险识别方法、装置、计算机设备及存储介质 | |
CN110910002B (zh) | 一种应收账款违约风险识别方法及系统 | |
CN112365352A (zh) | 一种基于图神经网络的反套现方法及装置 | |
CN116629998A (zh) | 一种自动计息方法、装置、电子设备及可读存储介质 | |
KR102710397B1 (ko) | 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램 | |
Maina et al. | Detecting Fraud in Motor Insurance Claims Using XGBoost Algorithm with SMOTE | |
US11715120B1 (en) | Predictive machine learning models | |
CN116720787A (zh) | 一种基于XGBoost模型的新变更异常企业检测方法 | |
CN114626863A (zh) | 出口骗税企业的检测方法、装置、设备及存储介质 | |
CN115713427A (zh) | 新迁入企业税前税源管理方法、装置、设备及存储介质 | |
CN115187259A (zh) | 基于无监督式机器学习的区块链异常交易识别方法和系统 | |
Lee et al. | Application of machine learning in credit risk scorecard | |
Lawrencia et al. | Fraud detection decision support system for Indonesian financial institution | |
CN116681358A (zh) | 一种基于XGBoost模型的新注册异常企业检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230908 |