CN112183948B - 基于进销项比对的商贸企业增值税发票虚开风险评估方法 - Google Patents

基于进销项比对的商贸企业增值税发票虚开风险评估方法 Download PDF

Info

Publication number
CN112183948B
CN112183948B CN202010929732.4A CN202010929732A CN112183948B CN 112183948 B CN112183948 B CN 112183948B CN 202010929732 A CN202010929732 A CN 202010929732A CN 112183948 B CN112183948 B CN 112183948B
Authority
CN
China
Prior art keywords
commodity
enterprise
codes
sales
invoices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010929732.4A
Other languages
English (en)
Other versions
CN112183948A (zh
Inventor
吴敬
周宏立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital China Information Systems Co ltd
Original Assignee
Digital China Information Systems Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital China Information Systems Co ltd filed Critical Digital China Information Systems Co ltd
Priority to CN202010929732.4A priority Critical patent/CN112183948B/zh
Publication of CN112183948A publication Critical patent/CN112183948A/zh
Application granted granted Critical
Publication of CN112183948B publication Critical patent/CN112183948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于进销项比对的商贸企业增值税发票虚开风险评估方法,包括以下步骤:步骤1,提取待评估地区全部增值税发票数据;步骤2,计算任意两个商品编码和的相似度,形成商品编码相似度矩阵;步骤3,根据企业登记行业信息、开票信息和增值税申报数据,筛选待评估企业;步骤4,对筛选出企业的涉及到的所有商品编码,利用步骤2的相似度矩阵SIM,对商品简称、商品编码和/或货物名称进行进销项比对,找出进销不匹配企业及对应商品编码,形成风险企业清单;步骤5,去除因某些商品企业在购进后,自行使用并没有对外销售的企业,形成最终风险清单。与现有技术相比,本发明虚开风险识别准确性高,并能够精确定位到存在风险的具体发票及金额大小。

Description

基于进销项比对的商贸企业增值税发票虚开风险评估方法
技术领域
本发明涉及税务风险评估技术领域,具体涉及一种基于进销项比对的商贸企业增值税发票虚开风险评估方法。
背景技术
虚开发票指开具与实际经营业务情况不符的发票的违法行为,纳税单位和个人为了达到偷税的目的或者购货单位为了某种需要在商品交易过程中开具发票时,在商品名称、商品数量、商品单价以及金额上采取弄虚作假的手法。包括为他人虚开,为自己虚开,让他人为自己虚开,介绍他人虚开四种情况。
为应对针对纳税人存在的发票虚开问题,税务机关运用数据信息比对分析的方法,对发票开具的真实性、准确性进行评估核实,对纳税人发票虚开风险做出定性、定量判断,进而采取进一步征管措施。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种基于进销项比对的商贸企业增值税发票虚开风险评估方法,从商品简称、商品编码、货物信息三个层次进行综合分析比对,提升虚开风险识别准确性。
本发明采用如下的技术方案。
一种基于进销项比对的商贸企业增值税发票虚开风险评估方法,其特征在于,包括以下步骤:
步骤1,提取待评估地区设定时间区间内全部增值税发票数据,以SP表示全部发票的商品编码向量,SP=(sp1,sp2,…,spj,…,spβ),spj表示SP中第j个商品编码,β表示SP包括的商品编码数量,j=1,2,…,β;
步骤2,计算任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵
步骤3,根据企业登记行业信息、开票信息和增值税申报数据,筛选待评估企业,形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ;
步骤4,对筛选出企业的涉及到的所有商品编码,利用步骤2的相似度矩阵SIM,对商品简称、商品编码和/或货物名称进行进销项比对,找出进销不匹配企业及对应商品编码,形成风险企业清单;
步骤5,去除因某些商品企业在购进后,由于自行使用并没有对外销售,因此没有相应的销项发票的企业,形成最终风险清单。
优选地,步骤1中所述设定时间区间为两年。
优选地,步骤2具体包括:
步骤2.1,提取全部发票的货物名称,为每个商品编码spj生成一个词频向量CPj,j=1,2,…,β;
步骤2.2,使用每个商品编码spj的词频向量CPj,提取关键词,形成每个商品编码spj的关键词词频向量CPj″;
步骤2.3,使用CP″a和CP″b计算出任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵
优选地,步骤2.1中,将步骤1提取的全部增值税发票的货物名称合并后进行分词,形成全部发票分词向量,提取商品编码为spj的全部发票,对这些发票的货物名称合并后进行分词,形成与全部发票分词向量相同长度的分词出现次数向量,分词出现次数向量的元素进行归一化,形成商品编码为spj的词频向量CPj
步骤2.2中,以CPj中分量的cpji作为元素,形成β×α矩阵M,对矩阵M的每个元素cpji进行TFIDF变换,以变换结果cp′ji作为元素,形成β×α矩阵M′,若cp′ji在矩阵M′的第j行中数值排名不在前γ名内将其置零,以变换结果cp″ji作为元素,形成β×α矩阵M″;
步骤2.3中,以如下公式计算simab
式中:
·表示两个向量的数量积,
‖‖表示向量的长度。
优选地,步骤.2.1中,以如下公式计算获得wi在商品编码为spj的全部发票货物名称中的词频cpji
tji表示FCall中第i个词语wi在商品编码为spj的全部发票货物名称中出现的次数,若未出现过,则计为0,
形成商品编码为spj的词频向量CPj=(cpj1,cpj2,…,cpji,…,cp)。
优选地,步骤3具体包括:
步骤3.1,根据企业登记行业信息,筛选出属于批发行业的企业;
步骤3.2,根据企业开票信息,去除服务类发票占比高于阈值的企业;
步骤3.3,根据企业增值税申报数据,筛选出开具发票销售额占总销售额比例大于筛选阈值的企业,形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ。
优选地,步骤4具体包括:
利用步骤2的相似度矩阵SIM,对商品简称、商品编码和/或货物名称进行有进无销对比和有销无进对比,综合有销无进与有进无销两个结果,得出风险企业清单,以及存在风险的商品编码。
优选地,有进无销对比包括:以SPk表示企业ck进项发票涉及的商品编码向量,SPk=(spk1,spk2,…,spkm,…,sp),spkm表示SPk中第m个商品编码,θ1表示涉及商品编码的数量,以amt1km表示商品编码为spkm的全部进项发票的汇总金额,
步骤4.1.1,商品简称对比,以ti1km表示商品编码spkm的商品简称,在SPk中提取所有商品简称为ti1km的商品编码,将其对应的进项发票金额汇总,以amt1′km表示;在企业ck的销项发票中,提取全部商品简称为ti1km的商品编码,其对应的销项发票金额汇总,以amt1″km表示,若amt1″km≥amt1′km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.2;
步骤4.1.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业销项发票存在与spkm相似度大于给定阈值的销项商品编码,提取全部这些商品编码对应的销项发票,以amt1″′km表示销项发票金额汇总,若amt1″′km≥amt1km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.3;
步骤4.1.3,货物信息对比,将企业ck全部销项发票的货物名称与商品编码为spkm的进项发票进行对比,查找货物信息相一致的销项发票,货物信息相一致指,销项发票货物与spkm全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的销项发票,并且提取销项发票对应的商品编码,以amt1″″km表示销项发票金额汇总,若amt1″′km+amt1″″km≥amt1km,表示企业该商品编码进销相符,否则表示企业ck的该商品编码存在“有进无销”风险。
优选地,步骤4.1.3中问题商品编码金额大小amt1km和进销金额差额amt1km-amt1″″km-amt1″″km,表示实际风险大小。
优选地,有销无进对比包括:以SP′k表示企业ck销项发票涉及的商品编码向量,SP′k=(sp′k1,sp′k2,…,sp′kn,…,sp′kθ2),sp′kn表示SP′k中第n个商品编码,θ2表示涉及商品编码的数量,
步骤4.2.1,商品简称对比,以ti2kn表示商品编码sp′kn的商品简称,在SP′k中提取所有商品简称为ti2km的商品编码,在企业ck的进项发票中,提取全部商品简称为ti2km的商品编码,若存在进项发票,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.2,
步骤4.2.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业进项发票存在与sp′kn相似度大于给定阈值的销项商品编码,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.3,
步骤4.2.3,货物信息对比,将企业ck全部进项发票的货物名称与商品编码为sp′kn的销项发票进行对比,查找货物信息相一致的进项发票,货物信息相一致指,销项发票货物与sp′kn全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的进项发票,表示企业该商品编码进销相符,否则表示企业ck的该商品编码,存在“有销无进”风险,风险大小于取决于问题商品编码金额大小。
本发明的有益效果在于,与现有技术相比,本发明提出的一种于发票进销项比对的商贸企业增值税发票虚开风险评估方法,是针对纳人发票虚开问题的数据信息比对分析方法。主要特点为,根据商贸企业的行业特点进行设计,从商品简称、商品编码、货物信息三个层次进行综合分析比对,虚开风险识别准确性高,并且能够精确定位到存在风险的具体发票及金额大小,方便税务机关对风险进行后续风险应对。
附图说明
图1为本发明提供了基于进销项比对的商贸企业增值税发票虚开风险评估方法的流程图;
图2为本发明计算待评估地区所有商品编码之间相似度矩阵的流程图;
图3为本发明“有进无销”和“有销无进”的进销项对比示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明提供了一种基于进销项比对的商贸企业增值税发票虚开风险评估方法,包括以下步骤:
步骤1,提取待评估地区全部增值税发票数据。以SP表示全部发票的商品编码向量,SP=(sp1,sp2,…,spj,…,spβ),spj表示SP中第j个商品编码,β表示SP包括的商品编码数量。
待评估地区全行业企业的全部增值税发票,时间区间为2年,取从评估时间点起倒推2年的数据,包含增值税专用发票和增值税普通发票。生成的数据表中,包含发票代码、发票号码、销方企业id、购方企业id、货物名称、商品编码、开票日期、发票金额、发票税额,9个主要字段。
步骤2,计算待评估地区所有商品编码之间相似度矩阵。如图2所示,具体包括:
步骤2.1,提取全部发票的货物名称,为每个商品编码生成一个词频向量。
将步骤1提取的全部增值税发票的货物名称合并后进行分词,形成全部增值税发票分词向量FCall=(w1,w2,…,wi,…,wα),wi表示FCall中第i个词语,α表示FCall包括的词语数量。
提取商品编码为spj的全部发票,对这些发票的货物名称合并后进行分词,形成与FCall相同长度的分词出现次数向量Tj=(tj1,tj2,…,tji,…,t),tji表示FCall中第i个词语wi在商品编码为spj的全部发票货物名称中出现的次数,若未出现过,则计为0,对分词出现次数向量Tj的元素进行归一化处理,形成商品编码为spj的词频向量CPj=(cpj1,cpj2,…,cpji,…,cp),cpji表示wi在商品编码为spj的全部发票货物名称中的词频,一个优选但非限制性的实施方式为,以如下公式计算获得cpji
步骤2.2,使用步骤2.1中每个商品编码的词频向量,提取关键词,形成每个商品编码的关键词词频向量。
以cpji作为元素,形成β×α矩阵M,
以如下公式对矩阵M的每个元素cpji进行TFIDF变换,
以cp′ji作为元素,形成β×α矩阵M′,
以如下公式对矩阵M′进行处理,
一个优选但非限制性的实施方式为,γ=500。
以cp″ji作为元素,形成β×α矩阵M″,
矩阵M″的第j行CP″j表示商品编码为spj的全部发票的关键词向量,其中非零的分量对应的词语为其关键词,相应的数值为其词频。
步骤2.3,对全部商品编码,使用CP″a和CP″b计算出任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵其中以如下公式计算simab
式中:
·表示两个向量的数量积。
‖‖表示向量的长度。
步骤3,待评估企业筛选。
对待评估地区全部企业按照如下条件进行筛选,形成待评估企业清单:
步骤3.1,根据企业登记行业信息,筛选出属于批发行业(商贸)的企业。
步骤3.2,根据企业开票信息,去除服务类发票占比高于设定比例的企业,一个优选但非限制性的实施方式为,该比例可以设定为40%。
步骤3.3,根据企业增值税申报数据,筛选出开具发票销售额占总销售额比例大于筛选阈值的企业。一个优选但非限制性的筛选阈值为80%。形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ。
步骤4,对筛选出企业的涉及到的所有商品编码,利用步骤2中结果,从商品简称、商品编码、货物名称,三个角度进行进销项比对,找出进销不匹配企业及对应商品编码,形成风险企业清单,如图3所示。企业增值税发票涉税风险包括虚抵虚开两种类型,对应到进销项比对有“有进无销”和“有销无进”两种比对方法。具体包括:
步骤4.1,“有进无销”对比,以ε1k表示企业ck的进项发票数量,以SPk表示涉及的商品编码向量,SPk=(spk1,spk2,…,spkm,…,spkθ1),spkm表示SPk中第m个商品编码,θ1表示涉及商品编码的数量,以AMT1k表示进项发票金额向量,AMT1k=(amt1k1,amt1k2,…,amt1km,…,amt1kθ1),amt1km表示商品编码为spkm的全部进项发票的汇总金额。
步骤4.1.1,商品简称对比,以ti1km表示商品编码为spkm的商品的商品简称,其中,商品简称是税局发布的商品编码表中的字段,商品简称与商品编码是一对多关系,在SPk中提取所有商品简称为ti1km的商品编码,将其对应的进项发票金额汇总,以amt1′km表示;在企业ck的销项发票中,提取全部商品简称为ti1km的商品编码,其对应的销项发票金额汇总,以amt1″km表示,若amt1″km≥amt1″km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.2。
步骤4.1.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业销项发票存在与spkm相似度大于给定阈值的销项商品编码,提取这个/这些商品编码对应的销项发票,所属领域技术人员可以任意设定阈值,一个优选但非限制性的实施方式为,将阈值设置为0.4到0.6,根据比对准确性要求动态调整,以amt1″′km表示销项金额汇总,若amt1″′km≥amt1km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.3。
步骤4.1.3,货物信息对比,将企业ck全部销项发票的货物名称与商品编码为spkm的进项发票进行对比,查找货物信息相一致的销项发票,货物信息相一致指,销项发票货物与spkm全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的销项发票,并且提取销项发票对应的商品编码,以amt1″″km表示销项发票金额汇总,若amt1″′km+amt1″″km≥amt1km,表示企业该商品编码进销相符,否则表示企业ck的该商品编码存在“有进无销”风险。
问题商品编码金额大小amt1km和进销金额差额amt1km-amt1″′km-amt1″″km,表示实际风险大小。
步骤4.2,“有销无进”对比,以ε2k表示企业ck的销项发票数量,以SPk表示涉及的商品编码向量,SPk=(spk1,spk2,…,spkm,…,spk02),spkm表示SPk中第m个商品编码,θ2表示涉及商品编码的数量,以AMT2k表示销项发票金额向量,AMT2k=(amt2k1,amt2k2,…,amt2km,…,amt2),amt2km表示商品编码为spkm的全部销项发票的汇总金额。
步骤4.2.1,商品简称对比,以ti2km表示商品编码为spkm的商品的商品简称,在SPk中提取所有商品简称为ti2km的商品编码,在企业ck的进项发票中,提取全部商品简称为ti2km的商品编码,若存在进项发票,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.2。
步骤4.2.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业进项发票存在与spkm相似度大于给定阈值的销项商品编码,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.3。
步骤4.2.3,货物信息对比,将企业ck全部进项发票的货物名称与商品编码为spkm的销项发票进行对比,查找货物信息相一致的进项发票,货物信息相一致指,销项发票货物与spkm全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的进项发票,表示企业该商品编码进销相符,否则表示企业ck的该商品编码,存在“有销无进”风险,风险大小于取决于问题商品编码金额大小。
步骤4.3,综合“有销无进”与“有进无销”两个结果,可以得出风险企业清单,以及存在问题的商品编码。
步骤5,对步骤4中风险清单,进行进一步筛选,某些商品企业在购进后,由于自行使用并没有对外销售,因此没有相应的销项发票,对这类问题企业可以从风险清单中去除,形成最终风险清单。
本发明的有益效果在于,与现有技术相比,本发明提出的一种于发票进销项比对的商贸企业增值税发票虚开风险评估方法,是针对纳人发票虚开问题的数据信息比对分析方法。主要特点为,根据商贸企业的行业特点进行设计,从商品简称、商品编码、货物信息三个层次进行综合分析比对,虚开风险识别准确性高,并且能够精确定位到存在风险的具体发票及金额大小,方便税务机关对风险进行后续风险应对。本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (7)

1.一种基于进销项比对的商贸企业增值税发票虚开风险评估方法,其特征在于,包括以下步骤:
步骤1,提取待评估地区设定时间区间内全部增值税发票数据,以SP表示全部发票的商品编码向量,SP=(sp1,sp2,…,spj,…,spβ),spj表示SP中第j个商品编码,β表示SP包括的商品编码数量,j=1,2,…,β;
步骤2,计算任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵
步骤3,根据企业登记行业信息、开票信息和增值税申报数据,筛选待评估企业,形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ;
步骤4,对筛选出企业的涉及到的所有商品编码,利用步骤2的相似度矩阵SIM,对商品简称、商品编码和/或货物名称进行有进无销对比和有销无进对比,综合有销无进与有进无销两个结果,找出进销不匹配企业及对应商品编码,形成风险企业清单,以及存在风险的商品编码;有进无销对比包括:以SPk表示企业ck进项发票涉及的商品编码向量,SPk=(spk1,spk2,…,spkm,…,spkθ1),spkm表示SPk中第m个商品编码,θ1表示涉及商品编码的数量,以amt1km表示商品编码为spkm的全部进项发票的汇总金额,
步骤4.1.1,商品简称对比,以ti1km表示商品编码spkm的商品简称,在SPk中提取所有商品简称为ti1km的商品编码,将其对应的进项发票金额汇总,以amt1′km表示;在企业ck的销项发票中,提取全部商品简称为ti1km的商品编码,其对应的销项发票金额汇总,以amt1″km表示,若amt1″km≥amt1′km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.2;
步骤4.1.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业销项发票存在与spkm相似度大于给定阈值的销项商品编码,提取全部这些商品编码对应的销项发票,以amt1″′km表示销项发票金额汇总,若amt1″′km≥amt1km,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.1.3;
步骤4.1.3,货物信息对比,将企业ck全部销项发票的货物名称与商品编码为spkm的进项发票进行对比,查找货物信息相一致的销项发票,货物信息相一致指,销项发票货物与spkm全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的销项发票,并且提取销项发票对应的商品编码,以amt1″″km表示销项发票金额汇总,若amt1″′km+amt1″″km≥amt1km,表示企业该商品编码进销相符,否则表示企业ck的该商品编码存在“有进无销”风险;
有销无进对比包括:以SP′k表示企业ck销项发票涉及的商品编码向量,SP′k=(sp′k1,sp′k2,…,sp′kn,…,sp′kθ2),sp′kn表示SP′k中第n个商品编码,θ2表示涉及商品编码的数量,
步骤4.2.1,商品简称对比,以ti2kn表示商品编码sp′kn的商品简称,在SP′k中提取所有商品简称为ti2km的商品编码,在企业ck的进项发票中,提取全部商品简称为ti2km的商品编码,若存在进项发票,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.2,
步骤4.2.2,商品编码对比,根据步骤2商品相似度矩阵,如果企业进项发票存在与sp′kn相似度大于给定阈值的销项商品编码,表示企业该商品编码进销相符,不再进行下面的比对,否则继续执行步骤4.2.3,
步骤4.2.3,货物信息对比,将企业ck全部进项发票的货物名称与商品编码为sp′kn的销项发票进行对比,查找货物信息相一致的进项发票,货物信息相一致指,销项发票货物与sp′kn全部货物名称,至少一个完全相同或相互包含,若存在货物信息相一致的进项发票,表示企业该商品编码进销相符,否则表示企业ck的该商品编码,存在“有销无进”风险,风险大小于取决于问题商品编码金额大小;
步骤5,去除因某些商品企业在购进后,由于自行使用并没有对外销售,因此没有相应的销项发票的企业,形成最终风险清单。
2.根据权利要求1所述的基于进销项比对的商贸企业增值税发票虚开风险评估方法,其特征在于:
步骤1中所述设定时间区间为两年。
3.根据权利要求1所述的基于进销项比对的商贸企业增值税发票虚开风险评估方法,其特征在于:
步骤2具体包括:
步骤2.1,提取全部发票的货物名称,为每个商品编码spj生成一个词频向量CPj,j=1,2,…,β;
步骤2.2,使用每个商品编码spj的词频向量CPj,提取关键词,形成每个商品编码spj的关键词词频向量CPj″;
步骤2.3,使用CP″a和CP″b计算出任意两个商品编码spa和spb的相似度simab,a,b=1,2,…,β,以simab作为元素形成商品编码相似度矩阵
4.根据权利要求3所述的基于进销项比对的商贸企业增值税发票虚开风险评估方法,其特征在于:
步骤2.1中,将步骤1提取的全部增值税发票的货物名称合并后进行分词,形成全部发票分词向量,提取商品编码为spj的全部发票,对这些发票的货物名称合并后进行分词,形成与全部发票分词向量相同长度的分词出现次数向量,分词出现次数向量的元素进行归一化,形成商品编码为spj的词频向量CPj
步骤2.2中,以CPj中分量的cpji作为元素,形成β×α矩阵M,对矩阵M的每个元素cpji进行TFIDF变换,以变换结果cp′ji作为元素,形成β×α矩阵M′,若cp′ji在矩阵M′的第j行中数值排名不在前γ名内将其置零,以变换结果cp″ji作为元素,形成β×α矩阵M″;
步骤2.3中,以如下公式计算simab
式中:
·表示两个向量的数量积,
||||表示向量的长度。
5.根据权利要求4所述的基于进销项比对的商贸企业增值税发票虚开风险评估方法,其特征在于:
步骤.2.1中,以如下公式计算获得wi在商品编码为spj的全部发票货物名称中的词频cpji
tji表示全部增值税发票分词向量FCall中第i个词语wi在商品编码为spj的全部发票货物名称中出现的次数,若未出现过,则计为0,形成商品编码为spj的词频向量CPj=(cpj1,cpj2,…,cpji,…,cp)。
6.根据权利要求1至5中任一项所述的基于进销项比对的商贸企业增值税发票虚开风险评估方法,其特征在于:
步骤3具体包括:
步骤3.1,根据企业登记行业信息,筛选出属于批发行业的企业;
步骤3.2,根据企业开票信息,去除服务类发票占比高于阈值的企业;
步骤3.3,根据企业增值税申报数据,筛选出开具发票销售额占总销售额比例大于筛选阈值的企业,形成待对比企业向量C=(c1,c2,…,ck,…,cδ),ck表示第k家待对比企业,δ表示待对比企业数量,k=1,2,…,δ。
7.根据权利要求1所述的基于进销项比对的商贸企业增值税发票虚开风险评估方法,其特征在于:
步骤4.1.3中问题商品编码金额大小amt1km和进销金额差额amt1km-amt1″′km-amt1″″km,表示实际风险大小。
CN202010929732.4A 2020-09-07 2020-09-07 基于进销项比对的商贸企业增值税发票虚开风险评估方法 Active CN112183948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010929732.4A CN112183948B (zh) 2020-09-07 2020-09-07 基于进销项比对的商贸企业增值税发票虚开风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010929732.4A CN112183948B (zh) 2020-09-07 2020-09-07 基于进销项比对的商贸企业增值税发票虚开风险评估方法

Publications (2)

Publication Number Publication Date
CN112183948A CN112183948A (zh) 2021-01-05
CN112183948B true CN112183948B (zh) 2024-05-28

Family

ID=73925632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010929732.4A Active CN112183948B (zh) 2020-09-07 2020-09-07 基于进销项比对的商贸企业增值税发票虚开风险评估方法

Country Status (1)

Country Link
CN (1) CN112183948B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268758A (zh) * 2014-09-15 2015-01-07 周刚 一种基于发票和第三方电子商务平台的商品防伪系统
CN104424613A (zh) * 2013-09-04 2015-03-18 航天信息股份有限公司 一种增值税发票的监控方法及其系统
CN104636973A (zh) * 2013-11-06 2015-05-20 航天信息股份有限公司 一种通过商品构成监控企业虚开发票的方法及其系统
CN110659948A (zh) * 2018-06-13 2020-01-07 中国软件与技术服务股份有限公司 一种进销商品匹配度计算方法及虚开发票风险发现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424613A (zh) * 2013-09-04 2015-03-18 航天信息股份有限公司 一种增值税发票的监控方法及其系统
CN104636973A (zh) * 2013-11-06 2015-05-20 航天信息股份有限公司 一种通过商品构成监控企业虚开发票的方法及其系统
CN104268758A (zh) * 2014-09-15 2015-01-07 周刚 一种基于发票和第三方电子商务平台的商品防伪系统
CN110659948A (zh) * 2018-06-13 2020-01-07 中国软件与技术服务股份有限公司 一种进销商品匹配度计算方法及虚开发票风险发现方法

Also Published As

Publication number Publication date
CN112183948A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
US20160342999A1 (en) Method, system, and computer program product for linking customer information
WO2005101265A2 (en) Systems and methods for investigation of financial reporting information
US20080208780A1 (en) System and method for evaluating documents
US10509811B2 (en) System and method for improved analysis of travel-indicating unstructured electronic documents
CN110019324B (zh) 一种生成纳税人资金回路的方法及系统
US11138372B2 (en) System and method for reporting based on electronic documents
CN112131348B (zh) 基于文本和图像相似度防止项目重复申报的方法
Shome et al. Financial distress in Indian aviation industry: Investigation using bankruptcy prediction models
CN112182207B (zh) 基于关键词提取和快速文本分类的发票虚抵风险评估方法
US8078533B1 (en) Systems and methods for monitoring remittances for reporting requirements
US8505811B2 (en) Anomalous billing event correlation engine
Elefterie et al. The impact of information technology on the audit process
US20130006820A1 (en) System and Method of Determining the Quality of Enhanced Transaction Data
CN114187084A (zh) 一种根据电子发票税收分类简称识别凭证科目的方法
CN112183948B (zh) 基于进销项比对的商贸企业增值税发票虚开风险评估方法
CN110874745A (zh) 一种退单管理系统
CN115108222B (zh) 一种针对跨境货物的智能分拣系统的分拣方法
CN113869802B (zh) 一种基于进销项比对的生产企业发票虚开风险评估方法
US20100257073A1 (en) Duplicate Payment Prevention
US20070265886A1 (en) Warranty management system and method
CN111724093B (zh) 一种用于b2c商品出口的hs编码管理方法及系统
CN112232894A (zh) 基于增值税发票的数据分析方法
Branstetter et al. Does
CN106204174A (zh) 对销售单中的商品进行分类的方法
CN115187387B (zh) 一种风险商家的识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant