CN112182207B - 基于关键词提取和快速文本分类的发票虚抵风险评估方法 - Google Patents

基于关键词提取和快速文本分类的发票虚抵风险评估方法 Download PDF

Info

Publication number
CN112182207B
CN112182207B CN202010972389.1A CN202010972389A CN112182207B CN 112182207 B CN112182207 B CN 112182207B CN 202010972389 A CN202010972389 A CN 202010972389A CN 112182207 B CN112182207 B CN 112182207B
Authority
CN
China
Prior art keywords
invoice
commodity
word
value
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010972389.1A
Other languages
English (en)
Other versions
CN112182207A (zh
Inventor
金语泽
周宏立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital China Information Systems Co ltd
Original Assignee
Digital China Information Systems Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital China Information Systems Co ltd filed Critical Digital China Information Systems Co ltd
Priority to CN202010972389.1A priority Critical patent/CN112182207B/zh
Publication of CN112182207A publication Critical patent/CN112182207A/zh
Application granted granted Critical
Publication of CN112182207B publication Critical patent/CN112182207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于关键词提取和快速文本分类的发票虚抵风险评估方法,包括:步骤1,建立待评估地区增值税发票样本数据库;步骤2,将相似度不小于阈值的商品编码合并为一个商品类别,并选定设定的商品类别CA;步骤3,形成正向关键词集合SET放入词袋模型ModelCA;步骤4,形成反向关键词集合SET,更新正向关键词集合SET,更新词袋模型ModelCA;步骤5,获得最终词袋模型ModelCA;步骤6,输入待评估地区待评估时间段内的全量增值税发票;步骤7,利用步骤5中的最终词袋模型ModelCA,筛选出商品类别CA的发票,判断购方纳税人是否将发票用于销项税额抵扣;步骤8,统计整理形成风险企业清单和报告。与现有技术相比,可准确判断发票是否为虚抵发票,快速精准定位风险。

Description

基于关键词提取和快速文本分类的发票虚抵风险评估方法
技术领域
本发明属于税务风险筛查技术领域,更具体地,涉及一种基于关键词提取和快速文本分类的发票虚抵风险评估方法。
背景技术
本发明中增值税发票虚抵是指营改增纳税人和原增值税纳税人购进旅客运输服务、贷款服务、餐饮服务、居民日常服务和娱乐服务,不得抵扣销项税额。
为应对针对纳税人存在的此类增值税发票虚抵问题,税务机关需要在海量的增值税发票中筛查出旅客运输服务、贷款服务、餐饮服务、居民日常服务和娱乐服务相关发票,运用数据信息比对分析的方法,判定发票是否用于抵扣销项税额,对开具发票的纳税人和接收发票的纳税人做出定性、定量判断,进而采取进一步征管措施。
发票数据包含商品编码、货物名称字段。这里,商品编码是开票纳税人根据销售的货物在税务总局编订《商品和服务税收分类与编码》规范中选取的。货物名称是开票纳税人销售的货物信息。
在实际数据中,增值税发票数量巨大、涉及销售商品名称内容繁杂,而且实际情况中发票填开货物名称与商品编码存在大量的不对应。这导致了税务机关无法仅使用发票中商品类别信息找出虚抵发票,而仅依赖于人工排查、经验规则筛选的方式,筛查虚抵发票的精度和效率比较受限,随着增值税发票日益增长,面临挑战随之增加。除此之外,商品编码与实际销售货物类别之间存在一定差距,需要归并和拆分。
发明内容
针对现有增值税发票虚抵筛查人工量大、精度低、效率低的问题,本发明的目的在于,提出一种基于关键词提取和快速文本分类的发票虚抵风险评估方法,能够针对不同商品类别,根据发票上填开的内容信息,高准确率、高覆盖率地提取商品特征词,结合专家系统,形成发票文本分类模型。再结合发票抵扣比对算法,快速定位出虚抵增值税发票。
本发明采用如下的技术方案。一种基于关键词提取和快速文本分类的发票虚抵风险评估方法,包括以下步骤:
步骤1,建立待评估地区增值税发票样本数据库;
步骤2,提取每个商品编码下的全量发票数据作为一篇文本,提取正向关键词,以快速文本分类算法计算商品编码的文本向量,以文本向量计算不同商品编码间的相似度,将商品编码相似度不小于阈值的商品编码合并为一个商品类别,并选定设定的商品类别CA;
步骤3,提取设定的商品类别CA下的全量发票数据作为一篇文本,提取正向关键词,形成正向关键词集合SET,将其放入词袋模型ModelCA
步骤4,使用词袋模型ModelCA筛选当前商品类别CA的全量发票数据,人工筛选错误筛选结果,形成反向关键词集合SET,将其放入词袋模型ModelCA,更新正向关键词集合SET,进而更新词袋模型ModelCA
步骤5,使用步骤4更新后的词袋模型ModelCA分别在全量发票中当前商品类别CA下的发票数据和非当前商品类别CA下的发票数据中,筛选出属于商品类别CA的发票数据,计算差集后提取反向关键词,以新获得的反向关键词更新反向关键词集合SET,进而获得最终的词袋模型ModelCA
步骤6,输入待评估地区待评估时间段内的全量增值税发票;
步骤7,利用步骤5中的最终词袋模型ModelCA,从全量增值税发票中筛选出商品类别CA的发票,判断购方纳税人是否将发票用于销项税额抵扣;
步骤8,将参与抵扣的购方纳税人信息和发票信息,统计整理形成风险企业清单和报告。
优选地,步骤2具体包括:
步骤2.1,将每个商品编码下的全量发票数据作为一篇文本,进行分词,获得每个词语的TF-IDF值,筛选每个商品编码的正向关键词;
步骤2.2,以快速文本分类算法计算商品编码的文本向量,以文本向量计算不同商品编码间的相似度;
步骤2.3,相似度大于阈值的商品编码合并为商品分类;
步骤2.4,选择设定的商品分类CA。
优选地,步骤2.1具体包括:
步骤2.1.1,提取每个商品编码下的全量发票数据,作为一篇文本,去除停用词、分词去重后形成分词向量;
步骤2.1.2,计算该商品编码的分词向量中每个词语的TF值;
步骤2.1.3,提取样本数据库全量发票数据,作为一篇文本,去除停用词、分词去重后形成分词向量,计算每个词语的IDF值;
步骤2.1.4,使用步骤2.1.2和步骤2.1.3的计算结果,计算该商品编码的分词向量中每个词语的TF-IDF值;TF值是指词频值,IDF值是指逆文本频率指数值。
步骤2.1.5,筛选商品编码spj的正向关键词,形成描述特征词集合s1jc
优选地,步骤2.1.5具体包括:
以如下公式计算商品编码spj各个分词的
Figure BDA0002684559790000031
占商品编码spj下所有词语TF-IDF值之和的比例/>
Figure BDA0002684559790000032
Figure BDA0002684559790000033
式中:
τ表示商品编码spj去除停用词、分词去重后词语的数量;
Figure BDA0002684559790000034
按照从大到小排序,并且从大到小开始累加,累加至首次超过阈值β,将这些词语作为商品编码spj的正向关键词,将正向关键词作为当前发票数据的描述特征词,形成描述特征词集合s1jc
优选地,步骤2.2具体包括:
步骤2.2.1,使用fastText算法获得描述特征词集合s1jc中每个词语的词向量,与其TF-IDF值相乘,全部分词的乘积结果求和,获得该商品编码的文本向量;
步骤2.2.2,使用文本向量,通过余弦相似度公式计算任意两个商品编码的相似度。
优选地,以
Figure BDA0002684559790000041
表示分词词语wp经过fastText模型训练出来的词向量,以Dj表示商品编码spj的发票文本向量,以如下公式计算Dj
Figure BDA0002684559790000042
式中:
商品编码spj的分词wis1j即全量发票数据分词中的wp
s1jc表示商品编码spj的描述特征词集合。
优选地,步骤3具体包括:
步骤3.1,提取商品类别CA下的全量发票数据,作为一篇文本,去除停用词、分词去重后形成分词向量;
步骤3.2,计算该商品类别CA的分词向量中每个词语的TF值;
步骤3.3,提取样本数据库全量发票数据,作为一篇文本,去除停用词、分词去重后形成分词向量,计算每个词语的IDF值;
步骤3.4,使用步骤3.2和步骤3.3的计算结果,计算该商品类别CA的分词向量中每个词语的TF-IDF值;
TF值是指词频值,IDF值是指逆文本频率指数值;
步骤3.5,以商品分类CA的每个词语的TF-IDF值筛选商品类别CA的正向关键词;
步骤3.6,形成商品类别CA的正向关键词集合SET,将正向关键词集合加入词袋模型ModelCA
优选地,步骤4具体包括:
步骤4.1,提取商品类别CA下的全量发票数据;
步骤4.2,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据t1和不属于商品类别CA的发票数据t2;
步骤4.3,人工筛选发票数据t1,筛选不属于商品分类CA的发票,形成一篇文本,并进行分词,去除停用词、分词去重后,wit1表示其中任意一个分词;
步骤4.4,若任意一个分词wit1∈SET,则从SET中删除该分词wit1;对不属于正向关键词集合SET的分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入反向关键词集合SET
步骤4.5,人工筛选发票数据t2,筛选属于商品分类CA的发票,形成一篇文本,并进行分词,去除停用词、分词去重后,wit2表示其中任意一个分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入正向关键词集合SET
步骤4.6,以步骤4.4、步骤4.5修正过的正向关键词集合SET和以及步骤4.4形成的反向关键词集合SET更新词袋模型ModelCA
优选地,步骤5具体包括:
步骤5.1,提取商品类别CA下的全量发票数据,即提取商品类别CA下所有商品编码下的全量发票数据;
步骤5.2,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据D1;
步骤5.3,提取非商品类别CA下的全量发票数据,即提取全量发票中非当前商品类别CA下所有商品编码下的发票数据;
步骤5.4,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据D2;
步骤5.5,计算两个文本数据的差集D2-D1,形成一篇差集文本s4j,对于差集文本s4j,提取反向关键词,更新反向关键词集合SET,进而获得最终的词袋模型ModelCA
优选地,步骤7具体包括:从全量增值税发票中筛选出指定商品类别的发票后,判断发票是否在认证发票数据集中,如果不在,该发票不是虚抵发票;如果在,统计接收该发票的纳税人对应申报期内,总认证发票税额和当期进项抵扣税额,如果两个数值相等,则该发票参与了进项抵扣,属于虚抵发票;如果两个数值不相等,计算总认证发票税额与当期进项抵扣税额差值,如果差值小于该发票税额值,则该发票参与了进项抵扣,属于虚抵发票,否则,该发票存在虚抵风险,需要实地核查。
本发明的有益效果在于,与现有技术相比,本发明极大降低了现有税务人员筛查虚抵发票人工工作量,并且本发明提供风险企业清单和报告,税务人员仅通过阅读报告,即可明确风险企业存在的问题,快速做出处理判断,极大提高了税务人员核实风险企业的效率。
具体而言,本发明使用关键词提取机器学习模型,并与深度学习模型fastText词向量相结合,将相似商品编码合并。使用正向关键词提取和反向关键词提取的算法,高效提取语义关键词,极大程度上减少了人工工作量。在实际业务应用中,结合人工校验去除数据错误的影响因素,分类准确率可达98%+。在找出指定商品类别发票后,该方法能够准确判断发票是否为虚抵发票,快速精准定位风险。
附图说明
图1为本发明的整体实现流程图;
图2为将相似度高于阈值的商品编码合并为商品类别的流程图;
图3为商品编码各个分词的TF-IDF的计算流程图;
图4为形成正向关键词集合并加入词袋模型的流程图;
图5为修正词袋模型的流程图;
图6为形成最终词袋模型的流程图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明提供了一种基于关键词提取和快速文本分类的发票虚抵风险评估方法,包括以下步骤:
步骤1,提取待评估地区的全量发票原始数据,建立增值税发票样本数据库。
提取待评估地区的全量发票原始数据,包含增值税专用发票、增值税普通发票、电子发票和卷式发票。合并生成的数据表中,包含发票代码、发票号码、销方企业id、购方企业id、货物名称、商品编码、开票日期、发票金额、发票税额和发票类型,10个主要字段。
步骤2,提取每个商品编码下的全量发票数据,将每个商品编码下的全量发票数据作为一篇文本,提取正向关键词,计算不同商品编码间的相似度,将商品编码相似度不小于阈值的商品编码合并为一个商品类别,并选定设定的商品类别。如图2所示,步骤2具体包括:
步骤2.1,将每个商品编码下的全量发票数据作为一篇文本,进行分词,获得每个词语的TF-IDF值,筛选每个商品编码的正向关键词。如图3所示,步骤2.1具体包括:
步骤2.1.1,以SP表示商品编码向量,SP=(sp1,sp2,…,spj,…,spN),spj表示第j个商品编码,N表示商品编码数量,j=1,2,…,N,提取商品编码spj下的全量发票数据,作为一篇文本,以s1j表示,对s1j进行分词,以FCs1j表示s1j的分词向量,FCs1j=(w1s1j,w2s1j,…,wis1j,…,wτs1j),wis1j表示FCs1j的第i个词语,τ表示FCs1j中去除停用词、分词去重后词语的数量,i=1,2,…,τ。
步骤2.1.2,以
Figure BDA0002684559790000071
表示分词向量FCs1j中第i个词语wis1j的TF(Term Frequency,词频值),以如下公式计算/>
Figure BDA0002684559790000072
Figure BDA0002684559790000073
式中:
nij表示词语wis1j在商品编码spj中出现的次数,
sij表示词语wis1j在商品编码spj下发票对应的总税额,
Figure BDA0002684559790000074
表示商品编码spj中所有词语出现次数之和,
Figure BDA0002684559790000075
表示商品编码spj中所有词语对应的总税额。
步骤2.1.3,对全量发票数据进行分词,去除停用词、分词去重后,计算每个词语的IDF值。
将全量发票数据作为一篇文本stotal,以FC表示stotal的分词向量,FC=(w1,w2,…,wp,…,wto),wp表示FC的第p个词语,to表示FC中去除停用词、分词去重后词语的数量,p=1,2,…,to,以
Figure BDA0002684559790000081
表示wp的IDF(Inverse Document Frequency,逆文本频率指数值),以如下公式计算/>
Figure BDA0002684559790000082
Figure BDA0002684559790000083
式中:
分子N表示商品编码数量,即由每个商品编码形成的单篇文本的数量,
|{j:wp∈s1j}|表示当nij≠0时,包含词语wp的商品编码数量,即包含词语wp的单篇文本的数量,如果词语wp不在商品编码中,|{j:wp∈s1j}|为0,为防止分母为0,因此在本发明中使用的分母是1+|{j:wp∈s1j}|。
步骤2.1.4,以
Figure BDA0002684559790000084
表示商品编码spj的分词向量FCs1j中wis1j的TF-IDF值,以如下公式计算/>
Figure BDA0002684559790000085
Figure BDA0002684559790000086
式中:
商品编码spj的分词向量FCs1j中wis1j即全量发票数据分词向量FC中的wp
步骤2.1.5,筛选商品编码spj的正向关键词,形成描述特征词集合s1jc
以如下公式计算
Figure BDA0002684559790000087
占商品编码spj下所有词语TF-IDF值之和的比例,
Figure BDA0002684559790000088
Figure BDA0002684559790000089
按照从大到小排序,并且从大到小开始累加,累加至首次超过阈值β,将这些词语作为商品编码spj的正向关键词,将正向关键词作为当前发票数据的描述特征词,形成描述特征词集合s1jc。所属领域技术人员可以任意设置阈值β,一个优选但非限制性的实施方式为,将阈值β设置为80%、85%或90%。
步骤2.2,计算不同商品编码间的相似度。步骤2.2具体包括:
步骤2.2.1,计算商品编码spj的文本向量Dj
fastText是Facebook于2016年开源的一个词向量计算和文本分类工具(https://github.com/facebookresearch/fastText)。
以Vwp表示分词词语wp经过fastText模型训练出来的词向量,以Dj表示商品编码spj的发票文本向量,以如下公式计算Dj
Figure BDA0002684559790000091
式中:
商品编码spj的分词向量FCs1j中wis1j即全量发票数据分词向量FC中的wp,s1jc表示商品编码spj的描述特征词集合。
通常
Figure BDA0002684559790000092
维度为200,由此生成的文本向量Dj同样是200维,大大降低了计算相似度过程中的计算量。
步骤2.2.2,以simji表示商品编码spj的文本向量Dj与商品编码spi的文本向量Di之间的相似度,以如下公式计算simji
Figure BDA0002684559790000093
式中:
j,i=1,2,…,N,j≠i,simji可以表示两两商品编码的文本向量间的相似度,由此可以生成商品编码相似度矩阵。
由以上公式可知0≤simji≤1,如果simji=1,则表示商品编码spj的文本向量Dj与商品编码spi的文本向量Di完全一致,simji值越小,表示商品编码spj的文本向量Dj与商品编码spi的文本向量Di越不相关。
步骤2.3,相似度大于阈值的商品编码合并为商品分类。
将商品编码相似度不小于阈值的商品编码合并为一个商品类别。即,输入待合并的商品编码spj,计算商品编码spj与其他所有商品编码的相似度,simj1,simj2,…,simjN,从小到大排序相似度。
因为商品编码是按层级划分,即篇、类、章、节、条、款、项、目、子目、细目,一共10个层级。最高层级“篇”有6大类,分别是货物、劳务、销售服务、无形资产、不动产和未发生销售行为的不征税项目。第二层级“类”是在最高层级“篇”的基础上进一步细分,以此类推,参见国家税务总局公告2017年第45号,《关于增值税发票管理若干事项的公告》附件:商品和服务税收分类编码表。
所属领域技术人员可以任意设定相似度阈值α,一个优选但非限制性的实施方式为,相似度阈值α的取值范围为0.5≤α≤0.6,如果simji≥α,且商品编码spj与商品编码spi均在同一第四层级以内,则商品编码i与商品编码j合并,形成商品类别,以N′表示商品类别数量。
步骤2.4,通过输入商品编码或其正向关键词,可获得该商品编码所属的商品分类,以CA表示。例如,输入“餐饮”即可获得餐饮对应的商品分类。
步骤3,提取设定的商品类别CA下的全量发票数据,将商品类别CA下的全量发票数据作为一篇文本,提取正向关键词,形成正向关键词集合,将正向关键词集合放入词袋模型。步骤3中的正向关键词提取与步骤2中正向关键词提取步骤相同,区别在于步骤2将每个商品编码下的全量发票数据作为一篇文本,步骤3将商品类别CA下的全量发票数据作为一篇文本。如图4所示,步骤3具体包括:
步骤3.1,提取商品类别CA下的全量发票数据,即提取商品类别CA下的全部商品编码的全量发票数据,作为一篇文本,以s2j表示商品类别CA下的全量发票形成的一篇文本,对s2j进行分词,以FCs2j表示s2j的分词向量,FCs2j=(w1s2j,w2s2j,…,wis2j,…,wτ′s2j),wis2j表示FCs2j的第i个词语,τ′表示FCs2j中去除停用词、分词去重后词语的数量,i=1,2,…,τ′。
步骤3.2,以
Figure BDA0002684559790000101
表示分词向量FCs2j中wis2j的TF值,以如下公式计算/>
Figure BDA0002684559790000102
Figure BDA0002684559790000111
式中:
nij表示词语wis2j在商品类别CA中出现的次数,
sij表示词语wis2j在商品类别CA中对应的总税额,
Figure BDA0002684559790000112
表示商品类别CA中所有词语出现次数之和,
Figure BDA0002684559790000113
表示商品类别CA中所有词语对应的总税额。
步骤3.3,以
Figure BDA0002684559790000114
表示全部商品类别的分词向量FC中第q个词语wq的IDF值,以如下公式计算/>
Figure BDA0002684559790000115
Figure BDA0002684559790000116
式中:
分子N′表示商品类别总数。
|{j:wq∈s2j}|表示当nij≠0时,包含词语wq的商品类别数量,如果词语wq不在商品类别CA中,|{j:wq∈s2j}|为0,因此在本发明中使用的分母是1+|{j:wi∈s2j}|。
步骤3.4,以
Figure BDA0002684559790000117
表示wis2j的TF-IDF值,以如下公式计算/>
Figure BDA0002684559790000118
Figure BDA0002684559790000119
式中:
商品类别CA的分词向量FCs2j中wis2j即全量发票数据分词向量FC中的wq
步骤3.5,筛选商品类别CA的正向关键词。
以如下公式计算
Figure BDA00026845597900001110
占商品分类CA下所有词语TF-IDF值之和的比例,
Figure BDA0002684559790000121
Figure BDA0002684559790000122
按照从大到小排序,并且从大到小开始累加,累加至首次超过阈值β′,将这些词语作为商品类别CA的正向关键词。所属领域技术人员可以任意设置阈值β′,一个优选但非限制性的实施方式为将阈值β′设置为80%、85%或90%。
步骤3.6,形成商品类别CA的正向关键词集合,将正向关键词集合加入词袋模型。
以SET表示正向关键词结合,
SET=(w正1,w正2,…,w正i,…,w正ω),w正i表示其中的第i个正向关键词,ω表示SET中正向关键词数量,i=1,2,…,ω。
以ModelCA表示商品分类CA的词袋模型,将SET加入词袋模型ModelCA
词袋模型ModelCA可以用于判断未知商品类型的发票是否属于该商品类型CA,例如,一张未知商品类型的发票x,对该发票进行分词,去除停用词、分词去重后,以wix表示其中任意一个分词,
Figure BDA0002684559790000123
式中:
ModelCA表示商品类别CA的词袋模型。
步骤4,使用词袋模型ModelCA筛选当前商品类别CA的全量发票数据,人工筛选出词袋模型ModelCA的错误筛选结果,形成反向关键词集合,更新正向关键词集合,更新词袋模型ModelCA。如图5所示,步骤4具体包括:
步骤4.1,提取商品类别CA下的全量发票数据,即提取商品类别CA下所有商品编码下的全量发票数据。
步骤4.2,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据t1和不属于商品类别CA的发票数据t2。
步骤4.3,人工筛选发票数据t1,筛选不属于商品分类CA的发票,形成一篇文本,并进行分词,去除停用词、分词去重后,wit1表示其中任意一个分词。
步骤4.4,若任意一个分词wit1∈SET,则从SET中删除该分词wit1;对不属于正向关键词集合SET的分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入反向关键词集合SET,SET=(w反1,w反2,…,w反i,…,w反δ)。
步骤4.5,人工筛选发票数据t2,筛选属于商品分类CA的发票,形成一篇文本,并进行分词,去除停用词、分词去重后,wit2表示其中任意一个分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入正向关键词集合SET
步骤4.6,以步骤4.4、步骤4.5修正过的正向关键词集合SET和以及步骤4.4形成的反向关键词集合SET更新词袋模型ModelCA
同样地,更新后的词袋模型ModelCA可以用于判断未知商品类型的发票是否属于该商品类型CA,例如,一张未知商品类型的发票x,对该发票进行分词,去除停用词、分词去重后,以wix表示其中任意一个分词,
Figure BDA0002684559790000131
式中:
ModelCA表示商品类别CA的词袋模型,
SET表示词袋模型ModelCA中的正向关键词集合,
SET表示词袋模型ModelCA中的反向关键词集合。
步骤5,使用步骤4更新后的词袋模型ModelCA分别在全量发票中当前商品类别CA下的发票数据和非当前商品类别CA下的发票数据中,筛选出属于商品类别CA的发票数据,计算差集后提取反向关键词,以新获得的反向关键词更新SET,进而获得最终的词袋模型ModelCA。如图6所示,步骤5具体包括:
步骤5.1,提取商品类别CA下的全量发票数据,即提取商品类别CA下所有商品编码下的全量发票数据;
步骤5.2,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据D1;
步骤5.3,提取非商品类别CA下的全量发票数据,即提取全量发票中非当前商品类别CA下所有商品编码下的发票数据;
步骤5.4,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据D2;
步骤5.5,计算两个文本数据的差集D2-D1,形成一篇差集文本s4j,对于差集文本s4j,提取反向关键词,更新反向关键词集合SET。提取反向关键词包括:
对文本数据s4j分词,去除停用词、分词去重后,以FCs4j表示s4j的分词向量,FCs4j=(w1s4j,w2s4j,…,wis4j,…,wτ″′s4j),wis4j表示FCs4j的第i个词语,τ″′表示FCs4j中去除停用词、分词去重后词语的数量,i=1,2,…,τ″′。
Figure BDA0002684559790000141
表示与商品类别不符的文本数据s4j的分词向量FCs4j中wis4j的TF值,以如下公式计算/>
Figure BDA0002684559790000142
Figure BDA0002684559790000143
式中:
分子nij表示词语wis4j在文本数据s4j中出现的次数。
分母
Figure BDA0002684559790000144
表示FCs4j中全部词语在文本数据s4j中出现的次数总和。
将FCs4j的全部词语按照
Figure BDA0002684559790000145
从大到小排序,设定阈值γ′,如果/>
Figure BDA0002684559790000146
Figure BDA0002684559790000147
则wis4j可作为反向关键词。以新获得的反向关键词更新SET,进而获得最终的词袋模型ModelCA
步骤6,输入待评估地区待评估时间段内的全量增值税发票。
步骤7,利用步骤5中的最终词袋模型ModelCA,从全量增值税发票中筛选出指定商品类别的发票,进行发票抵扣对比,判断购方纳税人是否将发票用于销项税额抵扣。
从全量增值税发票中筛选出指定商品类别的发票后,判断发票是否在认证发票数据集中,如果不在,该发票不是虚抵发票。如果在,统计接收该发票的纳税人对应申报期内,总认证发票税额和当期进项抵扣税额,如果两个数值相等,则该发票参与了进项抵扣,属于虚抵发票。如果两个数值不相等,计算总认证发票税额与当期进项抵扣税额差值,如果差值小于该发票税额值,则该发票参与了进项抵扣,属于虚抵发票,否则,该发票存在虚抵风险,需要实地核查。
步骤8,将参与抵扣的购方纳税人信息和发票信息,统计整理形成风险企业清单和报告。
本发明的有益效果在于,与现有技术相比,本发明极大降低了现有税务人员筛查虚抵发票人工工作量,并且本发明提供风险企业清单和报告,税务人员仅通过阅读报告,即可明确风险企业存在的问题,快速做出处理判断,极大提高了税务人员核实风险企业的效率。
具体而言,本发明使用关键词提取机器学习模型,并与深度学习模型fastText词向量相结合,将相似商品编码合并。使用正向关键词提取和反向关键词提取的算法,高效提取语义关键词,极大程度上减少了人工工作量。在实际业务应用中,结合人工校验去除数据错误的影响因素,分类准确率可达98%+。在找出指定商品类别发票后,该方法能够准确判断发票是否为虚抵发票,快速精准定位风险。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (6)

1.一种基于关键词提取和快速文本分类的发票虚抵风险评估方法,其特征在于,包括以下步骤:
步骤1,建立待评估地区增值税发票样本数据库;
步骤2,将商品编码相似度不小于阈值的商品编码合并为一个商品类别,并选定设定的商品类别CA;包括:
步骤2.1,将每个商品编码下的全量发票数据作为一篇文本,进行分词,获得每个词语的TF-IDF值,筛选每个商品编码的正向关键词;具体包括:
步骤2.1.1,以SP表示商品编码向量,SP=(sp1,sp2,…,spj,…,spN),spj表示第j个商品编码,N表示商品编码数量,j=1,2,…,N,提取商品编码spj下的全量发票数据,作为一篇文本,以s1j表示,对s1j进行分词,以FCs1j表示s1j的分词向量,FCs1j=(w1s1j,w2s1j,…,wis1j,…,wτs1j),wis1j表示FCs1j的第i个词语,τ表示FCs1j中去除停用词、分词去重后词语的数量,i=1,2,…,τ;
步骤2.1.2,计算该商品编码的分词向量中每个词语的TF值;
步骤2.1.3,提取样本数据库全量发票数据,作为一篇文本,去除停用词、分词去重后形成分词向量,计算每个词语的IDF值;
步骤2.1.4,使用步骤2.1.2和步骤2.1.3的计算结果,计算该商品编码的分词向量中每个词语的TF-IDF值;TF值是指词频值,IDF值是指逆文本频率指数值;
步骤2.1.5,筛选商品编码spj的正向关键词,形成描述特征词集合s1jc,以如下公式计算商品编码spj各个分词的
Figure FDA0004262140580000011
占商品编码spj下所有词语TF-IDF值之和的比例
Figure FDA0004262140580000012
Figure FDA0004262140580000013
式中:
Figure FDA0004262140580000014
表示商品编码spj的分词向量FCs1j中wis1j的TF-IDF值;
τ表示商品编码spj去除停用词、分词去重后词语的数量;
Figure FDA0004262140580000021
按照从大到小排序,并且从大到小开始累加,累加至首次超过阈值β,将这些词语作为商品编码spj的正向关键词,将正向关键词作为当前发票数据的描述特征词,形成描述特征词集合s1jc
步骤2.2,以快速文本分类算法计算商品编码的文本向量,以文本向量计算不同商品编码间的相似度;
步骤2.3,相似度大于阈值的商品编码合并为商品分类;
步骤2.4,选择设定的商品分类CA;
步骤3,提取商品类别CA下的全量发票数据作为一篇文本,提取正向关键词,形成正向关键词集合SET,将其放入词袋模型ModelCA
步骤4,使用词袋模型ModelCA筛选当前商品类别CA的全量发票数据,人工筛选出错误筛选结果,形成反向关键词集合SET,将其放入词袋模型ModelCA,更新正向关键词集合SET,进而更新词袋模型ModelCA;包括:
步骤4.1,提取商品类别CA下的全量发票数据;
步骤4.2,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据t1和不属于商品类别CA的发票数据t2;
步骤4.3,人工筛选发票数据t1,筛选不属于商品分类CA的发票,形成一篇文本,并进行分词,去除停用词、分词去重后,wit1表示其中任意一个分词;
步骤4.4,若任意一个分词wit1∈SET,则从SET中删除该分词wit1;对不属于正向关键词集合SET的分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入反向关键词集合SET
步骤4.5,人工筛选发票数据t2,筛选属于商品分类CA的发票,形成一篇文本,并进行分词,去除停用词、分词去重后,wit2表示其中任意一个分词,判断该分词的TF值是否超过阈值,若超过阈值,将该分词加入正向关键词集合SET
步骤4.6,以步骤4.4、步骤4.5修正过的正向关键词集合SET和以及步骤4.4形成的反向关键词集合SET更新词袋模型ModelCA
步骤5,使用步骤4更新后的词袋模型ModelCA分别在全量发票中当前商品类别CA下的发票数据和非当前商品类别CA下的发票数据中,筛选出属于商品类别CA的发票数据,计算差集后提取反向关键词,以新获得的反向关键词更新反向关键词集合SET,进而获得最终的词袋模型ModelCA
步骤6,输入待评估地区待评估时间段内的全量增值税发票;
步骤7,利用步骤5中的最终词袋模型ModelCA,从全量增值税发票中筛选出商品类别CA的发票,判断购方纳税人是否将发票用于销项税额抵扣;
步骤8,将参与抵扣的购方纳税人信息和发票信息,统计整理形成风险企业清单和报告。
2.根据权利要求1所述的基于关键词提取和快速文本分类的发票虚抵风险评估方法,其特征在于:
步骤2.2具体包括:
步骤2.2.1,使用快速文本分类算法,即使用fastText算法获得描述特征词集合s1jc中每个词语的词向量,与其TF-IDF值相乘,全部分词的乘积结果求和,获得该商品编码的文本向量;
步骤2.2.2,使用文本向量,通过余弦相似度公式计算任意两个商品编码的相似度。
3.根据权利要求2所述的基于关键词提取和快速文本分类的发票虚抵风险评估方法,其特征在于:
Figure FDA0004262140580000031
表示分词词语wp经过fastText模型训练出来的词向量,以Dj表示商品编码spj的发票文本向量,以如下公式计算Dj
Figure FDA0004262140580000032
式中:
商品编码spj的分词wis1j即全量发票数据分词中的wp
s1jc表示商品编码spj的描述特征词集合。
4.根据权利要求1至3中任一项所述的基于关键词提取和快速文本分类的发票虚抵风险评估方法,其特征在于:
步骤3具体包括:
步骤3.1,提取商品类别CA下的全量发票数据,作为一篇文本,去除停用词、分词去重后形成分词向量;
步骤3.2,计算该商品类别CA的分词向量中每个词语的TF值;
步骤3.3,提取样本数据库全量发票数据,作为一篇文本,去除停用词、分词去重后形成分词向量,计算每个词语的IDF值;
步骤3.4,使用步骤3.2和步骤3.3的计算结果,计算该商品类别CA的分词向量中每个词语的TF-IDF值;
TF值是指词频值,IDF值是指逆文本频率指数值;
步骤3.5,以商品分类CA的每个词语的TF-IDF值筛选商品类别CA的正向关键词;
步骤3.6,形成商品类别CA的正向关键词集合SET,将正向关键词集合加入词袋模型ModelCA
5.根据权利要求4所述的基于关键词提取和快速文本分类的发票虚抵风险评估方法,其特征在于:
步骤5具体包括:
步骤5.1,提取商品类别CA下的全量发票数据,即提取商品类别CA下所有商品编码下的全量发票数据;
步骤5.2,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据D1;
步骤5.3,提取非商品类别CA下的全量发票数据,即提取全量发票中非当前商品类别CA下所有商品编码下的发票数据;
步骤5.4,使用词袋模型ModelCA,筛选出属于商品类别CA的发票数据D2;
步骤5.5,计算两个文本数据的差集D2-D1,形成一篇差集文本s4j,对于差集文本s4j,提取反向关键词,更新反向关键词集合SET,进而获得最终的词袋模型ModelCA
6.根据权利要求5所述的基于关键词提取和快速文本分类的发票虚抵风险评估方法,其特征在于:
步骤7具体包括:从全量增值税发票中筛选出指定商品类别的发票后,判断发票是否在认证发票数据集中,如果不在,该发票不是虚抵发票;如果在,统计接收该发票的纳税人对应申报期内,总认证发票税额和当期进项抵扣税额,如果两个数值相等,则该发票参与了进项抵扣,属于虚抵发票;如果两个数值不相等,计算总认证发票税额与当期进项抵扣税额差值,如果差值小于该发票税额值,则该发票参与了进项抵扣,属于虚抵发票,否则,该发票存在虚抵风险,需要实地核查。
CN202010972389.1A 2020-09-16 2020-09-16 基于关键词提取和快速文本分类的发票虚抵风险评估方法 Active CN112182207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010972389.1A CN112182207B (zh) 2020-09-16 2020-09-16 基于关键词提取和快速文本分类的发票虚抵风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010972389.1A CN112182207B (zh) 2020-09-16 2020-09-16 基于关键词提取和快速文本分类的发票虚抵风险评估方法

Publications (2)

Publication Number Publication Date
CN112182207A CN112182207A (zh) 2021-01-05
CN112182207B true CN112182207B (zh) 2023-07-11

Family

ID=73921917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010972389.1A Active CN112182207B (zh) 2020-09-16 2020-09-16 基于关键词提取和快速文本分类的发票虚抵风险评估方法

Country Status (1)

Country Link
CN (1) CN112182207B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159874A (zh) * 2021-05-25 2021-07-23 北京中科闻歌科技股份有限公司 增值税发票的检测方法、装置和可读存储介质
CN113869802B (zh) * 2021-12-01 2022-03-11 神州数码信息系统有限公司 一种基于进销项比对的生产企业发票虚开风险评估方法
CN117634873A (zh) * 2023-11-15 2024-03-01 中国人寿保险股份有限公司江苏省分公司 一种评估保险行业销售人员风险的系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法
CN109857862A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及介质
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110874407A (zh) * 2018-08-14 2020-03-10 中国软件与技术服务股份有限公司 一种增值税发票商品和服务税收分类编码识别及纠错方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法
CN110874407A (zh) * 2018-08-14 2020-03-10 中国软件与技术服务股份有限公司 一种增值税发票商品和服务税收分类编码识别及纠错方法
CN109857862A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及介质
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112182207A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112182207B (zh) 基于关键词提取和快速文本分类的发票虚抵风险评估方法
CN111445028A (zh) Ai驱动的交易管理系统
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
CN106776897B (zh) 一种用户画像标签确定方法及装置
US20210374164A1 (en) Automated and dynamic method and system for clustering data records
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN112102073A (zh) 信贷风险控制方法及系统、电子设备及可读存储介质
CN111581193A (zh) 数据处理方法、设备、计算机系统及存储介质
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN113837886A (zh) 一种基于知识图谱的车险理赔欺诈风险识别方法和系统
CN113204603A (zh) 金融数据资产的类别标注方法及装置
CN105359172A (zh) 计算企业存在拖欠的概率
CN114723492A (zh) 一种企业画像的生成方法及设备
CN113159881B (zh) 一种数据聚类及b2b平台客户偏好获取方法、系统
CN110197140A (zh) 基于文字识别的材料审核方法及设备
Sana et al. Data transformation based optimized customer churn prediction model for the telecommunication industry
CN105512914B (zh) 一种信息处理方法及电子设备
Edi Surya et al. Recommendation System with Content-Based Filtering in NFT Marketplace
KR102392644B1 (ko) 유사도 기반의 문서 분류 장치 및 방법
Chasanah et al. Data Attribute Selection with Information Gain to Improve Credit Approval Classification Performance using K-Nearest Neighbor Algorithm
CN113298447A (zh) 基于数据处理的融资租赁管理系统
CN110737700A (zh) 一种基于贝叶斯算法的进销存用户分类方法及系统
CN112016975A (zh) 产品筛选方法、装置、计算机设备及可读存储介质
US20230385951A1 (en) Systems and methods for training models
CN108549669A (zh) 一种面向大数据的离群点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant