CN109409969A - 一种企业税务欺诈检测方法、电子设备及存储介质 - Google Patents
一种企业税务欺诈检测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109409969A CN109409969A CN201811243258.9A CN201811243258A CN109409969A CN 109409969 A CN109409969 A CN 109409969A CN 201811243258 A CN201811243258 A CN 201811243258A CN 109409969 A CN109409969 A CN 109409969A
- Authority
- CN
- China
- Prior art keywords
- invoice
- data
- tax
- enterprise
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 100
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000007637 random forest analysis Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 10
- 241001269238 Data Species 0.000 claims description 8
- 241000209202 Bromus secalinus Species 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012956 testing procedure Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000029305 taxis Effects 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 abstract description 27
- 238000000034 method Methods 0.000 abstract description 18
- 230000008569 process Effects 0.000 abstract description 9
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract 1
- 238000013480 data collection Methods 0.000 description 14
- 238000007689 inspection Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000005194 fractionation Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种企业税务欺诈检测方法、电子设备及存储介质,方法包括:获取若干发票训练数据;发票训练数据包括税务异常企业发票数据和税务正常企业发票数据;将所述发票训练数据进行特征处理;根据特征处理后的发票训练数据建立税务欺诈模型;获取发票待检测数据,将发票待检测数据进行特征处理;将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测,以获得企业税务欺诈结果。本发明根据企业发票数据实现了税务企业的检测,避免了传统检测方法需要企业全部经营数据的缺点,又同时解决了理由发票数据检测时存在的数据不平衡和异常企业与正常企业高度交叉融合的难题。
Description
技术领域
本发明涉及企业税务检测技术,尤其涉及一种企业税务欺诈检测方法、电子设备及存储介质。
背景技术
税务欺诈检测是税务机关税收征管和稽查中面临的一个重要温特。在传统上,我国税务机关的纳税评估工作主要采用对所辖企业进行普查的形式,即通过对企业纳税状况和经营状况的分析,判断其中是否存在偷逃税行为,从而决定税收检查的重点。但是这种普查工作没有重点,容易导致普查的方式费时费力,而且结果也不好。
如何确定一个企业是否有税务其中问题,在已有的研究中是对企业经营的诸多属性,比如基于企业经营的61个属性(注册资金、营业面积、员工人数,当月缴纳的增值税额的合计项目等)采用基于SVM贝叶斯分类、SGNN等方法实现检测企业是否存在税欺诈。但是这种方法需要待查企业完整的经营属性数据,这在现实中是非常难以得到的,因此该方法的实用性不高。
2018年国家税务总局与科技公司腾讯合作,专注于税务管理现代化,拟采用区块链技术对抗税务欺诈,但是目前仍处于筹建之中。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种企业税务欺诈检测方法,其能解决现有税务检测方法不完善、实用性不高、效率低等的问题。
本发明的目的之一采用以下技术方案实现:
一种企业税务欺诈检测方法,包括如下步骤:
S1:获取若干发票训练数据;所述发票训练数据包括税务异常企业发票数据和税务正常企业发票数据;
S2:将所述发票训练数据进行特征处理;
S3:根据特征处理后的发票训练数据建立税务欺诈模型;
S4:获取发票待检测数据,将发票待检测数据进行特征处理;
S5:将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测,以获得企业税务欺诈结果。
优选的,在S2中,具体包括如下子步骤:
S21:提取发票训练数据中的信息,所述信息包括采购方企业信息、销售方企业信息、企业所述行业、发票总金额、开票日期、货物名称、货物规格、货物单价、货物数量、单项货物的金额、单项货物的税额,以及采购方企业当前是否标定为税务异常企业;将上述信息中的发票总金额、货物单价、货物数量、单项货物的金额、单项货物的税额按比例缩放,以使发票训练数据标准化;
S22:依据交易类型结合所述信息将发票训练数据进行划分,所述交易类型包括有进有出、有进无出、无进有出和无进无出;
S23:计算发票训练数据中税务异常企业发票数据和税务正常企业发票数据的比例值,将比例值取整,并将取整后的整数作为继续划分的类数,以将交易类型划分后的发票训练数据按照所述类数继续分成若干更小类别的数据集。
优选的,在S3中,包括如下步骤:
S31:将更小类别的数据集分为训练集和测试集;
S32:将训练集中的数据基于随机森林模型算法训练以得到税务欺诈模型;
S33:根据税务欺诈模型对测试集中的数据进行测试,计算召回率,并判断召回率是否大于预设值,若是,则得到一随机深林分类模型,否则,重新调整随机森林模型的参数。
优选的,所述预设值为0.6。
优选的,所述预设值为0.8。
本发明的目的之二在于提供一种电子设备,其能解决现有税务检测方法不完善、实用性不高、效率低等的问题。
本发明的目的之二采用以下技术方案实现:
一种电子设备,包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
第一获取步骤:获取若干发票训练数据;所述发票训练数据包括税务异常企业发票数据和税务正常企业发票数据;
第一处理步骤:将所述发票训练数据进行特征处理;
模型建立步骤:根据特征处理后的发票训练数据建立税务欺诈模型;
第二获取步骤:获取发票待检测数据,将发票待检测数据进行特征处理;
数据检测步骤:将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测,以获得企业税务欺诈结果。
优选的,第一处理步骤具体包括如下子步骤:
提取步骤:提取发票训练数据中的信息,所述信息包括采购方企业信息、销售方企业信息、企业所述行业、发票总金额、开票日期、货物名称、货物规格、货物单价、货物数量、单项货物的金额、单项货物的税额,以及采购方企业当前是否标定为税务异常企业;将上述信息中的发票总金额、货物单价、货物数量、单项货物的金额、单项货物的税额按比例缩放,以使发票训练数据标准化;
划分步骤:依据交易类型结合所述信息将发票训练数据进行划分,所述交易类型包括有进有出、有进无出、无进有出和无进无出;
计算步骤:计算发票训练数据中税务异常企业发票数据和税务正常企业发票数据的比例值,将比例值取整,并将取整后的整数作为继续划分的类数,以将交易类型划分后的发票训练数据按照所述类数继续分成若干更小类别的数据集。
优选的,在模型建立步骤中,具体包括如下子步骤:
拆分步骤:将更小类别的数据集分为训练集和测试集;
训练步骤:将训练集中的数据基于随机森林模型算法训练以得到税务欺诈模型;
测试步骤:根据税务欺诈模型对测试集中的数据进行测试,计算召回率,并判断召回率是否大于预设值,若是,则得到一随机深林分类模型,否则,重新调整随机森林模型的参数。
优选的,所述预设值为0.6。
本发明的目的之三在于提供一种计算机可读存储介质,其能解决现有税务检测方法不完善、实用性不高、效率低等的问题。
本发明的目的之三采用以下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本发明目的之一任一项所述的企业税务欺诈检测方法。
相比现有技术,本发明的有益效果在于:
本发明根据企业发票数据实现了税务企业的检测,避免了传统检测方法需要企业全部经营数据的缺点,又同时解决了理由发票数据检测时存在的数据不平衡和异常企业与正常企业高度交叉融合的难题。
附图说明
图1为本发明的一种企业税务欺诈检测方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
本发明提供一种企业税务欺诈检测方法,在目前税务稽查中发现,出现税务异常的企业相对于正常企业而言是少数情况,此外税务异常企业的发票数据信息特征与税务正常企业的发票数据信息特征差别不是非常明显,这两点是目前做税务欺诈中遇到的难题,本发明采用措施予以克服。本发明的企业税务欺诈检测方法包括两个大阶段,一是税务欺诈模型训练阶段,二是企业税务欺诈检测阶段。如图1所示,包括如下步骤:
S1:获取若干发票训练数据;所述发票训练数据包括税务异常企业发票数据和税务正常企业发票数据;
发票训练数据是之前已经标定好的税务正常企业发票数据和税务异常企业发票数据;
S2:将所述发票训练数据进行特征处理;特征处理是进行特征抽取、拆分和均匀化处理。
在本步骤中,具体包括如下子步骤:
S21:提取发票训练数据中的信息,所述信息包括采购方企业信息、销售方企业信息、企业所述行业、发票总金额、开票日期、货物名称、货物规格、货物单价、货物数量、单项货物的金额、单项货物的税额,以及采购方企业当前是否标定为税务异常企业;将上述信息中的发票总金额、货物单价、货物数量、单项货物的金额、单项货物的税额按比例缩放,以使发票训练数据标准化;
由于一个段时间内一个企业的交易数量是不定的,因此需要构造一条能够描述企业交易和税务情况的特征信息,该步骤主要是采用数据统计等方法构造如下企业记录。企业(企业信用代码、企业所属行业、总采购金额、总销售金额、总销售交易企业数量、总销售交易笔数、销售交易企业存在税务异常数量、总采购交易企业数量、销售货物最多类型、参与销售货物最多类型中异常企业比率、总采购交易笔数、采购交易企业存在税务异常数据、采购货物最多类型、参与采购货物最多类型中异常企业比率、企业是否税务异常)。
特征标准化处理指的是将特征集中涉及数值型的数据数据按比例缩放,使之落入一个小的特定区间。
S22:依据交易类型结合所述信息将发票训练数据进行划分,所述交易类型包括有进有出、有进无出、无进有出和无进无出;
不同进出交易量的企业中税务异常比率是不一致的。因此本发明首先将依据企业采购(定义为进)和企业销售(定义为出)的数量分成4大类,分别为有进有出企业数据集、有进无出企业数据集、无进有出数据集、无进无出企业数据集。而这四种情况中,对于无进无出企业数据集值得是在企业信息名录中存在该企业,但是在发票交易数据中没有该企业的交易情况,对于这种情况对于判断税务异常企业的特征无作用,因此可以舍弃。
S23:计算发票训练数据中税务异常企业发票数据和税务正常企业发票数据的比例值,将比例值取整,并将取整后的整数作为继续划分的类数,以将交易类型划分后的发票训练数据按照所述类数继续分成若干更小类别的数据集。
税务异常企业在实际企业中毕竟是少数,因此得到的各个数据集是一个不平衡数据集(指的是正常企业和异常企业的比率非常大),如果将这种数据集直接放入到训练模型中,则异常企业容易被当做噪音数据被忽略掉。目前对于不平衡数据处理的策略主要采用的是上采样或者下采样。上采样典型的算法有SMOT,SMOT通过模拟生成一些异常数据,使得正常企业和异常企业的比率趋于1:1。下采样指的是在正常数据中按照一定的规则或者随机取得与异常数据等量的数据,同样使得正常企业和异常企业的比率趋于1:1。由于本发明涉及的数据集中异常企业量非常小,如果采用下采样,容易丢失很多正常企业的特征。而如果采用SMOT上采样算法,由于SMOT是采用模拟生成异常数据附近的数据,但是本发明涉及的数据集中异常企业和正常企业交叉程度很深,如果贸然在异常企业附近生成数据,很难保证该数据是异常企业还是正常企业。
本发明针对某一类别的数据集,比如有进无出企业数据集,首先统计异常企业的量,然后计算正常企业与异常企业的比例后取整,以该整数作为划分数据集的类数,然后将正常企业随机的分配到具体的类别,从而形成一个一个的正常企业数据集1,正常企业数据集2,...,正常企业数据集N。这种处理策略分别应用到有进有出企业数据集、有进无出企业数据集、无进有出数据集从而形成众多的小的正常企业数据集。
构建小类别训练数据集指的是将得到的正常企业数据集1-N分别与异常企业数据集合并,并采用随机打乱顺序的方式,从新生成一个训练数据集,该数据集包括正常企业和异常企业数据,并且比率趋近为1:1。
S3:根据特征处理后的发票训练数据建立税务欺诈模型;
本步骤中,主要包括如下步骤:
S31:将更小类别的数据集分为训练集和测试集;
S32:将训练集中的数据基于随机森林模型算法训练以得到税务欺诈模型;
S33:根据税务欺诈模型对测试集中的数据进行测试,计算召回率,并判断召回率是否大于预设值,若是,则得到一随机深林分类模型,否则,重新调整随机森林模型的参数。
上述预设值优选在0.6-0.8,例如,0.6、0.8。
将训练数据集拆分训练集与测试集,指的是将训练数据集依据一定的比例(一般是7:3,7训练集,3为测试集)拆分,拆分的方式可以采用随机抽取的方式完成。
利用训练集数据基于随机森林算法训练模型,本发明将检测企业税务欺诈的过程定义为一种分类的过程,即根据某种特征将一些企业分类为正常企业,一些企业分类为异常企业。常见的机器学习分类算法有:logistics回归算法、SVM、贝叶斯分类算法、随机森林、xgboost等算法,本发明以随机森林为例进行过程进行讲解,但实际中不限于随机森林算法。随机森林算法是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。利用训练集数据基于随机森林算法训练模型的过程指的是先构建随机森林模型,设定好相关的参数,然后将步骤S31中的训练集输入到随机森林算法模型进行参数拟合训练,从而得到一个用于检测税务欺诈的随机森林模型。
利用测试数据集基于训练得的模型进行测试指的是将步骤S31中得到的测试集,输入到步骤S32中得到用于检测税务欺诈的随机森林模型,从而得到测试集中每个企业的税务欺诈与否的判断结果,然后与测试集中的真实值进行判断,计算召回率。召回率(Recall Rate,也叫查全率)是检索出的目标异常企业数和数据集中所有的异常企业的比率。比如假设测试集中一共有20个异常企业,通过检测税务欺诈的随机森林模型检查出16个来,那么这个模型的召回率就是16/20=0.8。
模型是否可以接受判断主要指的是步骤S32中得到的用于检测税务欺诈的随机森林模型在进行测试中是否达到可以接受的召回率,这是一个阈值问题,可以设定阈值为前面所述的0.6-0.8。
调整随机森林模型参数指的是调整随机森林的超参,比如森林中数的个数、度量分裂的标准为基尼和是信息增益、最大特征数、树的最大深度等。本发明并不限于一定采用随机森林算法,但是任何一种算法都有存在超参,因此S33步骤可以针对任何算法。得到一个随机森林分类模型指的得到一个召回率较高的用于检测税务欺诈的随机森林模型。
S4:获取发票待检测数据,将发票待检测数据进行特征处理;本步骤中的特征处理流程跟发票训练数据的特征处理流程类似,同样需要提取发票待检测数据中的信息,依据交易类型结合所述信息将发票待检测数据进行划分,不同的是本步骤中划分处理之后无需再次处理。
S5:将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测,以获得企业税务欺诈结果。
第二阶段企业税务欺诈检测阶段主要包括以下流程,将发票待检测数据通过发票待测数据特征处理模块进行处理,有税务欺诈检测模块根据处理后的待检测发票数据和企业税务欺诈模型联合检测,最终得到企业税务欺诈结果,标定出这一批发票中那个企业可能存在税务欺诈可能性。
首先输入发票待检测数据特征数据集,通过判断特征数据集的类别,根据所属类别决定采用哪一种税务欺诈检测模型。例如为无进有出类别,则用无进有出税务欺诈模型检测,如果是有进有出类别,则用有进有出税务欺诈模型检测。由于每一种类别的税务欺诈检测模型都是由多个随机森林的企业税务欺诈检测模型构成,因此得到的结果也是多个,因此在通过投票机制的税务欺诈检测结果判定,再通过企业税务欺诈结果聚集最终的各企业税务欺诈结果。
在第一个阶段税务欺诈模型训练阶段的处理过程和税务欺诈模型训练和训练模型结果评估中针对四种不同类型的企业数据集都生成了多个税务欺诈检测模型,可以支持本步骤中对于不同类别的交易类型的数据集进行检测运算得到检测结果。
基于投票机制的税务欺诈检测结果判定是实现对一个企业是否存在税务欺诈的判断。由于每一个企业经过多个多个税务欺诈检测模型检测得到了多个结果,为此本发明拟采用投票的机制决定最后的结果。假设有N个税务欺诈检测模型,某一企业经过检查后发现其中p个模型检测该企业为正常企业,其中q个模型检测该企业为异常企业。如果p>q,本发明认为其企业为正常企业,如果p<q,本发明认为该企业存在税务欺诈。
企业税务欺诈结果聚集是指输入的待检测企业数据集不是一个企业,而是多个企业,也是多种类型的,主要是将前面阐述的不同类型的模型产生的结果聚合在一起,得到一个总的列表。
在本发明中,利用训练集数据基于随机森林算法训练模型中的分类算法不仅仅限于随机森林算法,还可以是其他的分类算法,比如logistics回归算法、SVM、贝叶斯分类算法、随机森林、xgboost等算法。
本发明显著的提高了检测的召回率;避免了传统税务欺诈检测中需要大量的企业内部经营数据的问题;通过企业类别划分、训练数据拆分解决了数据集不平衡问题,而且也解决了不平衡数据集中正常企业与异常企业数据高度交叉融合问题。
另外,本发明还提供一种电子设备,包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
第一获取步骤:获取若干发票训练数据;所述发票训练数据包括税务异常企业发票数据和税务正常企业发票数据;
第一处理步骤:将所述发票训练数据进行特征处理;
模型建立步骤:根据特征处理后的发票训练数据建立税务欺诈模型;
第二获取步骤:获取发票待检测数据,将发票待检测数据进行特征处理;
数据检测步骤:将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测,以获得企业税务欺诈结果。
第一处理步骤具体包括如下子步骤:
提取步骤:提取发票训练数据中的信息,所述信息包括采购方企业信息、销售方企业信息、企业所述行业、发票总金额、开票日期、货物名称、货物规格、货物单价、货物数量、单项货物的金额、单项货物的税额,以及采购方企业当前是否标定为税务异常企业;将上述信息中的发票总金额、货物单价、货物数量、单项货物的金额、单项货物的税额按比例缩放,以使发票训练数据标准化;
划分步骤:依据交易类型结合所述信息将发票训练数据进行划分,所述交易类型包括有进有出、有进无出、无进有出和无进无出;
计算步骤:计算发票训练数据中税务异常企业发票数据和税务正常企业发票数据的比例值,将比例值取整,并将取整后的整数作为继续划分的类数,以将交易类型划分后的发票训练数据按照所述类数继续分成若干更小类别的数据集。
在模型建立步骤中,具体包括如下子步骤:
拆分步骤:将更小类别的数据集分为训练集和测试集;
训练步骤:将训练集中的数据基于随机森林模型算法训练以得到税务欺诈模型;
测试步骤:根据税务欺诈模型对测试集中的数据进行测试,计算召回率,并判断召回率是否大于预设值,若是,则得到一随机深林分类模型,否则,重新调整随机森林模型的参数。
电子设备中处理器实现的步骤与企业税务欺诈检测方法中的原理流程完全相同,在此不再赘述。
此外,本发明还将提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本发明所述的企业税务欺诈检测方法。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种企业税务欺诈检测方法,其特征在于,包括如下步骤:
S1:获取若干发票训练数据;所述发票训练数据包括税务异常企业发票数据和税务正常企业发票数据;
S2:将所述发票训练数据进行特征处理;
S3:根据特征处理后的发票训练数据建立税务欺诈模型;
S4:获取发票待检测数据,将发票待检测数据进行特征处理;
S5:将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测,以获得企业税务欺诈结果。
2.如权利要求1所述的企业税务欺诈检测方法,其特征在于,在S2中,具体包括如下子步骤:
S21:提取发票训练数据中的信息,所述信息包括采购方企业信息、销售方企业信息、企业所述行业、发票总金额、开票日期、货物名称、货物规格、货物单价、货物数量、单项货物的金额、单项货物的税额,以及采购方企业当前是否标定为税务异常企业;将上述信息中的发票总金额、货物单价、货物数量、单项货物的金额、单项货物的税额按比例缩放,以使发票训练数据标准化;
S22:依据交易类型结合所述信息将发票训练数据进行划分,所述交易类型包括有进有出、有进无出、无进有出和无进无出;
S23:计算发票训练数据中税务异常企业发票数据和税务正常企业发票数据的比例值,将比例值取整,并将取整后的整数作为继续划分的类数,以将交易类型划分后的发票训练数据按照所述类数继续分成若干更小类别的数据集。
3.如权利要求2所述的企业税务欺诈检测方法,其特征在于,在S3中,包括如下步骤:
S31:将更小类别的数据集分为训练集和测试集;
S32:将训练集中的数据基于随机森林模型算法训练以得到税务欺诈模型;
S33:根据税务欺诈模型对测试集中的数据进行测试,计算召回率,并判断召回率是否大于预设值,若是,则得到一随机深林分类模型,否则,重新调整随机森林模型的参数。
4.如权利要求3所述的企业税务欺诈检测方法,其特征在于,所述预设值为0.6。
5.如权利要求3所述的企业税务欺诈检测方法,其特征在于,所述预设值为0.8。
6.一种电子设备,包括存储器、处理器以及存储在存储器并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
第一获取步骤:获取若干发票训练数据;所述发票训练数据包括税务异常企业发票数据和税务正常企业发票数据;
第一处理步骤:将所述发票训练数据进行特征处理;
模型建立步骤:根据特征处理后的发票训练数据建立税务欺诈模型;
第二获取步骤:获取发票待检测数据,将发票待检测数据进行特征处理;
数据检测步骤:将特征处理后的发票待检测数据通过税务欺诈模型进行计算检测,以获得企业税务欺诈结果。
7.如权利要求6所述的电子设备,其特征在于,第一处理步骤具体包括如下子步骤:
提取步骤:提取发票训练数据中的信息,所述信息包括采购方企业信息、销售方企业信息、企业所述行业、发票总金额、开票日期、货物名称、货物规格、货物单价、货物数量、单项货物的金额、单项货物的税额,以及采购方企业当前是否标定为税务异常企业;将上述信息中的发票总金额、货物单价、货物数量、单项货物的金额、单项货物的税额按比例缩放,以使发票训练数据标准化;
划分步骤:依据交易类型结合所述信息将发票训练数据进行划分,所述交易类型包括有进有出、有进无出、无进有出和无进无出;
计算步骤:计算发票训练数据中税务异常企业发票数据和税务正常企业发票数据的比例值,将比例值取整,并将取整后的整数作为继续划分的类数,以将交易类型划分后的发票训练数据按照所述类数继续分成若干更小类别的数据集。
8.如权利要求7所述的电子设备,其特征在于,在模型建立步骤中,具体包括如下子步骤:
拆分步骤:将更小类别的数据集分为训练集和测试集;
训练步骤:将训练集中的数据基于随机森林模型算法训练以得到税务欺诈模型;
测试步骤:根据税务欺诈模型对测试集中的数据进行测试,计算召回率,并判断召回率是否大于预设值,若是,则得到一随机深林分类模型,否则,重新调整随机森林模型的参数。
9.如权利要求8所述的电子设备,其特征在于,所述预设值为0.6。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的企业税务欺诈检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811243258.9A CN109409969A (zh) | 2018-10-24 | 2018-10-24 | 一种企业税务欺诈检测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811243258.9A CN109409969A (zh) | 2018-10-24 | 2018-10-24 | 一种企业税务欺诈检测方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109409969A true CN109409969A (zh) | 2019-03-01 |
Family
ID=65468903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811243258.9A Pending CN109409969A (zh) | 2018-10-24 | 2018-10-24 | 一种企业税务欺诈检测方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109409969A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020868A (zh) * | 2019-03-11 | 2019-07-16 | 同济大学 | 基于线上交易特征的反欺诈模块决策融合方法 |
CN110084620A (zh) * | 2019-04-16 | 2019-08-02 | 上海交通大学 | 基于深度学习的电子凭据高频异常开具检测系统及方法 |
CN110543904A (zh) * | 2019-08-26 | 2019-12-06 | 河北航天信息技术有限公司 | 一种基于贝叶斯的企业风险分类模型构建方法 |
CN110930218A (zh) * | 2019-11-07 | 2020-03-27 | 中诚信征信有限公司 | 一种识别欺诈客户的方法、装置及电子设备 |
CN111242422A (zh) * | 2019-12-31 | 2020-06-05 | 航天信息股份有限公司 | 一种识别虚开成品油发票的方法及装置 |
CN111553563A (zh) * | 2020-04-07 | 2020-08-18 | 国网电子商务有限公司 | 企业欺诈风险的确定方法及装置 |
CN111598580A (zh) * | 2020-04-26 | 2020-08-28 | 杭州云象网络技术有限公司 | 一种基于XGBoost算法的区块链产品检测方法、系统及装置 |
CN111783577A (zh) * | 2020-06-19 | 2020-10-16 | 航天信息股份有限公司 | 一种基于发票数据分析的疑似税务异常企业筛选方法 |
CN111967993A (zh) * | 2020-09-25 | 2020-11-20 | 北京信息科技大学 | 一种在线交易反欺诈方法及系统 |
CN112365116A (zh) * | 2020-09-02 | 2021-02-12 | 税安科技(杭州)有限公司 | 一种数据风险分析方法及相关装置 |
CN113205271A (zh) * | 2021-05-12 | 2021-08-03 | 国家税务总局山东省税务局 | 一种基于机器学习对企业所得税风险评估的方法 |
CN114398942A (zh) * | 2021-12-08 | 2022-04-26 | 河北航天信息技术有限公司 | 一种基于集成的个人所得税异常检测方法及装置 |
CN114782120A (zh) * | 2022-05-10 | 2022-07-22 | 深圳市粤港科技有限公司 | 一种基于互联网的电子发票税务数据智能分析方法 |
CN117876140A (zh) * | 2024-03-13 | 2024-04-12 | 杭州工猫科技有限公司 | 税务信息处理方法、系统与存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1569187A1 (de) * | 2004-02-24 | 2005-08-31 | Tagswiss AG | Sicherheitslabel |
CN101937551A (zh) * | 2009-06-30 | 2011-01-05 | 埃森哲环球服务有限公司 | 报税评估系统 |
CN104700304A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 通过增值税普通发票的金额监控企业逃税的方法和系统 |
CN104700303A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 从增值税普通发票中分析货物流向监控企业逃税的方法 |
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种发票虚开企业监控识别方法及系统 |
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
CN107862785A (zh) * | 2017-10-16 | 2018-03-30 | 深圳市中钞信达金融科技有限公司 | 票据鉴定方法及装置 |
CN108038701A (zh) * | 2018-03-20 | 2018-05-15 | 杭州恩牛网络技术有限公司 | 一种集成学习反欺诈测试方法及系统 |
-
2018
- 2018-10-24 CN CN201811243258.9A patent/CN109409969A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1569187A1 (de) * | 2004-02-24 | 2005-08-31 | Tagswiss AG | Sicherheitslabel |
CN101937551A (zh) * | 2009-06-30 | 2011-01-05 | 埃森哲环球服务有限公司 | 报税评估系统 |
CN104700304A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 通过增值税普通发票的金额监控企业逃税的方法和系统 |
CN104700303A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 从增值税普通发票中分析货物流向监控企业逃税的方法 |
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种发票虚开企业监控识别方法及系统 |
CN107862785A (zh) * | 2017-10-16 | 2018-03-30 | 深圳市中钞信达金融科技有限公司 | 票据鉴定方法及装置 |
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
CN108038701A (zh) * | 2018-03-20 | 2018-05-15 | 杭州恩牛网络技术有限公司 | 一种集成学习反欺诈测试方法及系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020868B (zh) * | 2019-03-11 | 2021-02-23 | 同济大学 | 基于线上交易特征的反欺诈模块决策融合方法 |
CN110020868A (zh) * | 2019-03-11 | 2019-07-16 | 同济大学 | 基于线上交易特征的反欺诈模块决策融合方法 |
CN110084620A (zh) * | 2019-04-16 | 2019-08-02 | 上海交通大学 | 基于深度学习的电子凭据高频异常开具检测系统及方法 |
CN110084620B (zh) * | 2019-04-16 | 2022-08-12 | 上海交通大学 | 基于深度学习的电子凭据高频异常开具检测系统及方法 |
CN110543904A (zh) * | 2019-08-26 | 2019-12-06 | 河北航天信息技术有限公司 | 一种基于贝叶斯的企业风险分类模型构建方法 |
CN110930218A (zh) * | 2019-11-07 | 2020-03-27 | 中诚信征信有限公司 | 一种识别欺诈客户的方法、装置及电子设备 |
CN110930218B (zh) * | 2019-11-07 | 2024-01-23 | 中诚信征信有限公司 | 一种识别欺诈客户的方法、装置及电子设备 |
CN111242422A (zh) * | 2019-12-31 | 2020-06-05 | 航天信息股份有限公司 | 一种识别虚开成品油发票的方法及装置 |
CN111553563A (zh) * | 2020-04-07 | 2020-08-18 | 国网电子商务有限公司 | 企业欺诈风险的确定方法及装置 |
CN111598580A (zh) * | 2020-04-26 | 2020-08-28 | 杭州云象网络技术有限公司 | 一种基于XGBoost算法的区块链产品检测方法、系统及装置 |
CN111783577A (zh) * | 2020-06-19 | 2020-10-16 | 航天信息股份有限公司 | 一种基于发票数据分析的疑似税务异常企业筛选方法 |
CN111783577B (zh) * | 2020-06-19 | 2023-11-10 | 航天信息股份有限公司 | 一种基于发票数据分析的疑似税务异常企业筛选方法 |
CN112365116A (zh) * | 2020-09-02 | 2021-02-12 | 税安科技(杭州)有限公司 | 一种数据风险分析方法及相关装置 |
CN111967993A (zh) * | 2020-09-25 | 2020-11-20 | 北京信息科技大学 | 一种在线交易反欺诈方法及系统 |
CN113205271A (zh) * | 2021-05-12 | 2021-08-03 | 国家税务总局山东省税务局 | 一种基于机器学习对企业所得税风险评估的方法 |
CN114398942A (zh) * | 2021-12-08 | 2022-04-26 | 河北航天信息技术有限公司 | 一种基于集成的个人所得税异常检测方法及装置 |
CN114782120A (zh) * | 2022-05-10 | 2022-07-22 | 深圳市粤港科技有限公司 | 一种基于互联网的电子发票税务数据智能分析方法 |
CN117876140A (zh) * | 2024-03-13 | 2024-04-12 | 杭州工猫科技有限公司 | 税务信息处理方法、系统与存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409969A (zh) | 一种企业税务欺诈检测方法、电子设备及存储介质 | |
JP5566422B2 (ja) | 高リスク調達の解析およびスコアリング・システム | |
US8170998B2 (en) | Methods, systems, and computer program products for estimating accuracy of linking of customer relationships | |
CN109711955B (zh) | 基于当前订单的差评预警方法、系统、黑名单库建立方法 | |
US20230081051A1 (en) | Systems and methods using inventory data to measure and predict availability of products and optimize assortment | |
CN107025596A (zh) | 一种风险评估方法和系统 | |
CN106997493A (zh) | 基于多维度数据的彩票用户流失预测方法及其系统 | |
CN105931068A (zh) | 一种持卡人消费画像的生成方法及装置 | |
CN106651573A (zh) | 一种业务数据处理方法及装置 | |
CN110163467A (zh) | 一种基于纺织行业中小型企业信用的风险量化建模方法 | |
CN109754157A (zh) | 一种反映企业健康经营、融资增信的评分方法及系统 | |
CN110322335A (zh) | 一种基于woe转换通过机器学习的信贷客户资质分类方法 | |
Da Silva et al. | Selecting audit samples using Benford's Law | |
Kongmanila et al. | Innovation, export performance and profitability of Lao garment exporters | |
CN113393328A (zh) | 融资贷前审批评估方法、装置及计算机存储介质 | |
Domashova et al. | Application of machine learning methods for risk analysis of unfavorable outcome of government procurement procedure in building and grounds maintenance domain | |
Ingaldi | E-service quality assessment according to hierarchical service quality models | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
US8650050B1 (en) | Presentation of benefits of insurance related products | |
CN111046947A (zh) | 分类器的训练系统及方法、异常样本的识别方法 | |
Kuzmanovic et al. | Performance management methods: a case study from international industrial companies | |
Shahhoseini et al. | Identifying key performance indicators of an Iranian Islamic bank based on BSC and AHP | |
CN115423631A (zh) | 基于产业互联网平台交易数据的交易会员评分方法及系统 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN112823502B (zh) | 针对资源访问规则配置的实时反馈服务 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |