CN115455960A - 一种税收风险检测方法、装置、设备及存储介质 - Google Patents
一种税收风险检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115455960A CN115455960A CN202211034507.XA CN202211034507A CN115455960A CN 115455960 A CN115455960 A CN 115455960A CN 202211034507 A CN202211034507 A CN 202211034507A CN 115455960 A CN115455960 A CN 115455960A
- Authority
- CN
- China
- Prior art keywords
- project
- data
- enterprise
- tax
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 38
- 238000010276 construction Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 230000000052 comparative effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 abstract description 6
- 230000002776 aggregation Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种税收风险检测方法、装置、设备及存储介质,包括:获取与待检测企业的目标项目相关的全部发票数据和第三方数据;从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。可见,本申请通过对税务数据做项目属性信息归集,从而综合第三方数据构造企业的项目台账,并在此基础上识别风险企业,提高税收风险的检测效率和准确度。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种税收风险检测方法、装置、设备及存储介质。
背景技术
建筑业是国民经济的重要部门,在社会总产值中占有相当大比重,对税收方面的贡献也很大。同时,由于建筑企业是资金密集型企业和人员密集型企业,涉及的税种较多,存在偷税漏税的风险。
现有技术中,主要通过以下两种技术手段对建筑相关企业的税收风险进行检测:第一种是通过业务专家对建筑企业的申报数据和发票数据进行分析,以此找出有风险的建筑企业。该方法通过专家去分析建筑企业的数据耗时费力,且过度依赖于专家的水平;第二种是通过机器学习的方法,通过构造问题企业和正常企业的训练集,训练一个二分类的机器学习模型,利用模型来判断企业是否存在风险。通过机器学习方法虽然能提升效率,但是在训练的集的获取以及模型的可解释性方面效果较差,不能在查处企业风险时提供所需的证据链。
因此,上述技术问题亟待本领域技术人员解决。
发明内容
有鉴于此,本发明的目的在于提供一种税收风险检测方法、装置、设备及存储介质,能够提高税收风险的检测效率和准确度。其具体方案如下:
本申请的第一方面提供了一种税收风险检测方法,包括:
获取与待检测企业的目标项目相关的全部发票数据和第三方数据;
从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;
基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。
可选的,所述获取与待检测企业的目标项目相关的全部发票数据之前,还包括:
以税务登记中的行业编码为索引确定出建筑行业中为正常户、为一般纳税人、且开具建筑服务类型的发票金额的占比超过预设阈值的全部企业得到企业白名单;
将所述待检测企业与所述企业白名单进行匹配,如果匹配成功,则执行获取发票数据的步骤。
可选的,所述从全部所述发票数据中提取出所述目标项目的项目属性信息,包括:
通过正则匹配对全部所述发票数据备注栏中的信息进行初步清洗;
通过正则表达式对全部所述发票数据初步清洗后的备注栏中与地址相关的前后文进行定位并识别定位位置的地址,得到项目地址;
对全部所述发票数据初步清洗后的备注栏中的项目名称进行提取,得到包含所述项目地址和所述项目名称的所述项目属性信息。
可选的,所述通过正则表达式对全部所述发票数据初步清洗后的备注栏中与地址相关的前后文进行定位并识别定位位置的地址之后,还包括:
如果位置识别失败,则对初步清洗后的备注栏中的信息进行整体分词,并与全国区划地址进行匹配,得到所述项目地址。
可选的,所述对提取到的全部所述项目属性信息进行归集处理,得到归集后信息,包括:
利用SimBERT模型对所述项目名称进行格式转化,得到符合归集模型输入格式的所述项目名称;其中,所述归集模型的框架为对比句向量表征的框架;
将格式转化后的所述项目名称输入所述归集模型,以便所述归集模型对包含归集后项目名称的所述归集后信息进行输出。
可选的,所述税收风险检测方法,还包括:
通过词重复方法对训练样本中的字词进行随机复制,以构建正例;
通过动量对比方法将动量模型生成的新文本放入队列并从队列中剔除旧文本,以构建负例;
利用构建后的正例和负例对由对比句向量表征的框架搭建的空白模型进行训练,得到所述归集模型。
可选的,所述第三方数据包括项目申报数据和三方招投标数据;
相应的,所述基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测,包括:
基于所述归集后信息、所述项目申报数据和所述三方招投标数据构建与所述目标项目对应的所述项目台账;
根据所述项目台账中的建安服务收入、合同金额及建安服务发票金额计算各级风险指标值;
判断各级风险指标值是否满足所述预设条件,如果是,则判定所述待检测企业存在税收风险。
本申请的第二方面提供了一种税收风险检测装置,包括:
获取模块,用于获取与待检测企业的目标项目相关的全部发票数据;
提取及归集模块,用于从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;
构建及检测模块,用于基于所述归集后信息构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。
本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述税收风险检测方法。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述税收风险检测方法。
本申请中,先获取与待检测企业的目标项目相关的全部发票数据和第三方数据;然后从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;最后基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。可见,本申请通过对税务数据做项目属性信息归集,从而综合第三方数据构造企业的项目台账,并在此基础上识别风险企业,提高税收风险的检测效率和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种税收风险检测方法流程图;
图2为本申请提供的一种具体的税收风险检测方法示意图;
图3为本申请提供的一种税收风险检测装置结构示意图;
图4为本申请提供的一种税收风险检测电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的通过专家去分析建筑企业的数据耗时费力,且过度依赖于专家的水平,然而通过机器学习方法虽然能提升效率,但是在训练的集的获取以及模型的可解释性方面效果较差,不能在查处企业风险时提供所需的证据链。针对上述技术缺陷,本申请提供一种税收风险检测方案,通过对税务数据做项目属性信息归集,从而综合第三方数据构造企业的项目台账,并在此基础上识别风险企业,提高税收风险的检测效率和准确度。
图1为本申请实施例提供的一种税收风险检测方法流程图。参见图1所示,该税收风险检测方法包括:
S11:获取与待检测企业的目标项目相关的全部发票数据和第三方数据。
本实施例中,首先获取与待检测企业的目标项目相关的全部发票数据和第三方数据。所述目标项目一般为分包项目,存在很多发票数据,所述第三方数据包括项目申报数据和三方招投标数据。本实施例可以对各种行业的企业进行税收风险检测,需要识别出待检测企业属于是否属于检测的行业。
特别的,对建筑企业的税收风险进行检测时,需要先确定所述待检测企业是否是建筑行业的企业。为了实现这个功能,第一步是先确定分析对象的名单,即确定出建筑企业名单。可以用税务登计的行业代码,筛选“房屋建筑业(E47)”、“土木工程建筑业(E48)”、“建筑安装业(E49)”这三大类的企业。但在实际情况中是有问题的,因为登记行业是在办理税务登计时填写,之后并没有及时更新。而且登记行业涉及很多行业专业知识,要求税务人员按《国民经济行业分类注释》准确确认行业,一般很难做到。
多方面因素导致登记行业并不准确,需要通过规则和算法重新确定企业的实际经营行业。本实施例中,可以先以税务登记中的行业编码为索引确定出建筑行业中为正常户、为一般纳税人、且开具建筑服务类型的发票金额的占比超过预设阈值的全部企业得到企业白名单。然后将所述待检测企业与所述企业白名单进行匹配,如果匹配成功,则执行获取发票数据的步骤。具体的,所述企业白名单中的企业为正常户和一般纳税人,当所述预设阈值为50%,所述企业白名单中的企业开具商品名称为“建筑服务”的发票金额占比超过50%,也就是说存在开具发票商品编码“305%”的发票占所有开具发票金额比大于50%。如果建筑服务发票金额占比小于50%,计算建筑服务发票金额占top5的发票金额占比,top5发票金额中的占比需要大于50%。
在此基础上,可以根据建筑企业白名单,从税务数据平台获取企业的申报、发票相关数据。从外部门获取项目招投标、总分包数据。外部门的数据获取可以通过网络爬虫的方式以及部门之间的数据共享。
S12:从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息。
本实施例中,获取到分析对象数据后,需要从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息。具体包括如下步骤(如图2所示):
S121:通过正则匹配对全部所述发票数据备注栏中的信息进行初步清洗。
S122:通过正则表达式对全部所述发票数据初步清洗后的备注栏中与地址相关的前后文进行定位并识别定位位置的地址,得到项目地址。
S123:对全部所述发票数据初步清洗后的备注栏中的项目名称进行提取,得到包含所述项目地址和所述项目名称的所述项目属性信息。
本实施例中,考虑到数据不规范性,获取到所述发票数据之后,先对其进行清洗,可以通过正则匹配对全部所述发票数据备注栏中的信息进行初步清洗。例如,通过正则匹配规则进行中英文替换、清理无意义符号、单位、日期末尾序号等,得到初步清洗后的备注栏信息。
本实施例中,一方面对备注栏中的项目地址识别,识别建安发票项目发生的地理位置,精确到区县,用于辅助后续的项目名称归集。关于地址部分文字识别。可以通过正则表达式对全部所述发票数据初步清洗后的备注栏中与地址相关的前后文进行定位并识别定位位置的地址,得到项目地址。考虑到可能存在位置识别失败的情况,因此还可以进一步从国家统计局下载全国省市区县划分表,以备后续做分词字典与匹配库。如果位置识别失败,则对初步清洗后的备注栏中的信息进行整体分词,并与全国区划地址进行匹配,得到所述项目地址。如果位置识别成功,则返回地址。另一方面对备注栏中的项目名称识别,对全部所述发票数据初步清洗后的备注栏中的项目名称进行提取,得到包含所述项目地址和所述项目名称的所述项目属性信息。
S124:利用SimBERT模型对所述项目名称进行格式转化,得到符合归集模型输入格式的所述项目名称;其中,所述归集模型的框架为对比句向量表征的框架。
S125:将格式转化后的所述项目名称输入所述归集模型,以便所述归集模型对包含归集后项目名称的所述归集后信息进行输出。
本实施例中,归集处理主要针对项目名称,使同一纳税人相关发票备注为同一项目的归集为同一项目名称。由于同一个项目,发票的项目名称、申报涉及到的项目名称、三方招投标数据、三方总分包数据中的项目名称会存在差异,因此需要进行算法的归集,将同一个项目归集到一起去,便于实现后续的管理。归集项目名称第一位以三方(包括当地维护的项目、发改委有的数据、招投标数据)的项目名称为准,当没有三方数据时可以以申报,报验项目为准,当以上都没有,可以按对方纳税人为业主方的发票提取的项目名称为准。
表1建筑服务的发票数据示例
表1所示为某家公司开具的建筑服务的发票,备注栏里有相关工程项目的信息,但是项目名称不规范,需要归集到同一个项目名称上。归集后的项目名称应该归集为标准的项目名称:杭州市滨江区香水湾项目E区房屋精装修工程。为了实现这一目的,本实施例对比学习,基于税务大数据和第三方数据,运用专家规则+Simbert预训练模型+归集模型提取发票备注栏的项目信息,同时利用地址识别后的标准地址辅助判断,提升项目归集的准确性。
具体的,先利用SimBERT模型对所述项目名称进行格式转化,得到符合归集模型输入格式的所述项目名称;其中,所述归集模型的框架为对比句向量表征的框架。然后将格式转化后的所述项目名称输入所述归集模型,以便所述归集模型对包含归集后项目名称的所述归集后信息进行输出。本实施例中,所述归集模型为ESimCSE模型,ESimCSE模型属于SimCSE的增强版(Enhance),核心内容是通过词重复(word repetition)和动量对比(momentum contrast)优化SimCSE构建正负例。
可以理解,SimCSE模型是一种高效的对比句向量表征的框架,包含无监督和有监督两种方法。无监督学习会采用Dropout技术,对原始文本进行数据增强,构造出正样本,用于对比学习训练;监督学习由于本身有正样本(相近样本),故无需使用Dropout技术,直接训练即可。但是SimCSE有两个缺陷,其一,dropout构建正样本的句子长度一样大。由于SimCSE是通过调节dropout率构建的正例对,长度是一样大的,负例则长度不等,这会使得模型倾向于判断相同或相似长度的句子在表达上更相近。其二,在训练SimCSE时,当把batch_size增大到一定大小时,负例增多,SimCSE效果却下降。
而ESimCSE模型可以很好解决这个问题,但重点是如何训练得到ESimCSE模型。本实施例通过词重复方法对训练样本中的字词进行随机复制,以构建正例,并通过动量对比方法将动量模型生成的新文本放入队列并从队列中剔除旧文本,以构建负例。进而利用构建后的正例和负例对由对比句向量表征的框架搭建的空白模型进行训练,得到所述归集模型。具体的,首先利用词重复(Word-Repetition)方法,通过随机复制句子中的一些单词,解决句子长度对模型的影响问题。采用一个重复率的超参数控制重复比率。采取均匀分布随机选取n个词进行重复。其次利用动量对此(Momentum Contrast)方法,通过维护一个负例的队列,采用一个动量模型产生负例句子入队,同时队列中“老句子”出队列,解决批次大小对模型的影响问题。ESimCSE通过以上词重复和动量对比两种措施,分别针对SimCSE中的正例及负例构建进行了重建,从而优化SimCSE存在的问题,提高模型的准确率。
S13:基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。
本实施例中,为了能够提供证据链,进一步基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账。具体基于所述归集后信息、所述项目申报数据和所述三方招投标数据构建与所述目标项目对应的所述项目台账,也即利用申报、发票、三方数据构建以项目为对象的项目台账,项目取自各个数据归集后的项目并集。表2为项目台账示例。
表2项目台账示例
本实施中,在构建项目台账的基础上,利用风险指标模型识别风险企业,不仅更加科学可靠,而且能大大减少人力和物力成本。通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。因此,需要构建能识别建筑企业的税收风险的指标模型。第一指标为同项目建安服务收入与同项目合同金额差异率,第二指标为同项目建安服务收入与同项目合同金额差异额,第三指标为同项目招标合同金额。
本实施例中,根据所述项目台账中的建安服务收入、合同金额及建安服务发票金额计算各级风险指标值,判断各级风险指标值是否满足所述预设条件,如果是,则判定所述待检测企业存在税收风险。具体的,计算同项目建安服务收入与同项目合同金额差异率得到第一指标值(同项目建安服务收入与同项目合同金额差异率=同项目建安服务收入与同项目合同金额差异额/同项目招标合同金额)、计算同项目建安服务收入与同项目合同金额差异额得到第二指标值(同项目建安服务收入与同项目合同金额差异额=同项目开具建筑服务发票金额-同项目取得建安服务发票金额(分包款)-同项目招标合同金额)、计算同项目招标合同金额得到第三指标值。如果第一指标值大于50%、第二指标值大于100万、或第三指标值不等于0,则判定对应的待检测企业为虚开建筑服务发票的风险企业。同时还能估算涉税金额,涉税金额=同项目开具建筑服务发票金额-同项目取得建安服务发票金额(分包款)-同项目招标合同金额。
本实施例中,上述过程可以通过自动扫描、分析和比对发票、税收、报验及三方合同等相关数据,识别建筑企业涉嫌虚开的风险。
可见,本申请实施例先获取与待检测企业的目标项目相关的全部发票数据和第三方数据;然后从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;最后基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。本申请实施例通过对税务数据做项目属性信息归集,从而综合第三方数据构造企业的项目台账,并在此基础上识别风险企业,提高税收风险的检测效率和准确度。
参见图3所示,本申请实施例还相应公开了一种税收风险检测装置,包括:
获取模块11,用于获取与待检测企业的目标项目相关的全部发票数据;
提取及归集模块12,用于从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;
构建及检测模块13,用于基于所述归集后信息构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。
可见,本申请实施例先获取与待检测企业的目标项目相关的全部发票数据和第三方数据;然后从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;最后基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。本申请实施例通过对税务数据做项目属性信息归集,从而综合第三方数据构造企业的项目台账,并在此基础上识别风险企业,提高税收风险的检测效率和准确度。
在一些具体实施例中,所述提取及归集模块12,具体包括:
清洗单元,用于通过正则匹配对全部所述发票数据备注栏中的信息进行初步清洗;
地址提取单元,用于通过正则表达式对全部所述发票数据初步清洗后的备注栏中与地址相关的前后文进行定位并识别定位位置的地址,得到项目地址;
分词提取单元,用于如果位置识别失败,则对初步清洗后的备注栏中的信息进行整体分词,并与全国区划地址进行匹配,得到所述项目地址;
名称提取单元,用于对全部所述发票数据初步清洗后的备注栏中的项目名称进行提取,得到包含所述项目地址和所述项目名称的所述项目属性信息;
转化单元,用于利用SimBERT模型对所述项目名称进行格式转化,得到符合归集模型输入格式的所述项目名称;其中,所述归集模型的框架为对比句向量表征的框架;
归集单元,用于将格式转化后的所述项目名称输入所述归集模型,以便所述归集模型对包含归集后项目名称的所述归集后信息进行输出。
在一些具体实施例中,所述税收风险检测装置还包括:
名单确定模块,用于以税务登记中的行业编码为索引确定出建筑行业中为正常户、为一般纳税人、且开具建筑服务类型的发票金额的占比超过预设阈值的全部企业得到企业白名单;
匹配模块,用于将所述待检测企业与所述企业白名单进行匹配,如果匹配成功,则执行获取发票数据的步骤;
模型构建模块,用于通过词重复方法对训练样本中的字词进行随机复制,以构建正例,并通过动量对比方法将动量模型生成的新文本放入队列并从队列中剔除旧文本,以构建负例,以及利用构建后的正例和负例对由对比句向量表征的框架搭建的空白模型进行训练,得到所述归集模型。
在一些具体实施例中,所述构建及检测模块13,具体包括:
构建单元,用于基于所述归集后信息、所述项目申报数据和所述三方招投标数据构建与所述目标项目对应的所述项目台账;
计算单元,用于根据所述项目台账中的建安服务收入、合同金额及建安服务发票金额计算各级风险指标值;
判断单元,用于判断各级风险指标值是否满足所述预设条件,如果是,则判定所述待检测企业存在税收风险。
进一步的,本申请实施例还提供了一种电子设备。图4是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的税收风险检测方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的税收风险检测方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的发票数据和第三方数据。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的税收风险检测方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的税收风险检测方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种税收风险检测方法,其特征在于,包括:
获取与待检测企业的目标项目相关的全部发票数据和第三方数据;
从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;
基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。
2.根据权利要求1所述的税收风险检测方法,其特征在于,所述获取与待检测企业的目标项目相关的全部发票数据之前,还包括:
以税务登记中的行业编码为索引确定出建筑行业中为正常户、为一般纳税人、且开具建筑服务类型的发票金额的占比超过预设阈值的全部企业得到企业白名单;
将所述待检测企业与所述企业白名单进行匹配,如果匹配成功,则执行获取发票数据的步骤。
3.根据权利要求1所述的税收风险检测方法,其特征在于,所述从全部所述发票数据中提取出所述目标项目的项目属性信息,包括:
通过正则匹配对全部所述发票数据备注栏中的信息进行初步清洗;
通过正则表达式对全部所述发票数据初步清洗后的备注栏中与地址相关的前后文进行定位并识别定位位置的地址,得到项目地址;
对全部所述发票数据初步清洗后的备注栏中的项目名称进行提取,得到包含所述项目地址和所述项目名称的所述项目属性信息。
4.根据权利要求3所述的税收风险检测方法,其特征在于,所述通过正则表达式对全部所述发票数据初步清洗后的备注栏中与地址相关的前后文进行定位并识别定位位置的地址之后,还包括:
如果位置识别失败,则对初步清洗后的备注栏中的信息进行整体分词,并与全国区划地址进行匹配,得到所述项目地址。
5.根据权利要求3所述的税收风险检测方法,其特征在于,所述对提取到的全部所述项目属性信息进行归集处理,得到归集后信息,包括:
利用SimBERT模型对所述项目名称进行格式转化,得到符合归集模型输入格式的所述项目名称;其中,所述归集模型的框架为对比句向量表征的框架;
将格式转化后的所述项目名称输入所述归集模型,以便所述归集模型对包含归集后项目名称的所述归集后信息进行输出。
6.根据权利要求5所述的税收风险检测方法,其特征在于,还包括:
通过词重复方法对训练样本中的字词进行随机复制,以构建正例;
通过动量对比方法将动量模型生成的新文本放入队列并从队列中剔除旧文本,以构建负例;
利用构建后的正例和负例对由对比句向量表征的框架搭建的空白模型进行训练,得到所述归集模型。
7.根据权利要求1至6任一项所述的税收风险检测方法,其特征在于,所述第三方数据包括项目申报数据和三方招投标数据;
相应的,所述基于所述归集后信息和所述第三方数据构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测,包括:
基于所述归集后信息、所述项目申报数据和所述三方招投标数据构建与所述目标项目对应的所述项目台账;
根据所述项目台账中的建安服务收入、合同金额及建安服务发票金额计算各级风险指标值;
判断各级风险指标值是否满足所述预设条件,如果是,则判定所述待检测企业存在税收风险。
8.一种税收风险检测装置,其特征在于,包括:
获取模块,用于获取与待检测企业的目标项目相关的全部发票数据;
提取及归集模块,用于从全部所述发票数据中提取出所述目标项目的项目属性信息,并对提取到的全部所述项目属性信息进行归集处理,得到归集后信息;
构建及检测模块,用于基于所述归集后信息构建与所述目标项目对应的项目台账,并通过判断根据所述项目台账生成的风险指标值是否满足预设条件的方式对所述待检测企业的税收风险进行检测。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的税收风险检测方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的税收风险检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211034507.XA CN115455960A (zh) | 2022-08-26 | 2022-08-26 | 一种税收风险检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211034507.XA CN115455960A (zh) | 2022-08-26 | 2022-08-26 | 一种税收风险检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115455960A true CN115455960A (zh) | 2022-12-09 |
Family
ID=84300965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211034507.XA Pending CN115455960A (zh) | 2022-08-26 | 2022-08-26 | 一种税收风险检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455960A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288158A (zh) * | 2020-10-28 | 2021-01-29 | 税友软件集团股份有限公司 | 一种业务数据预测方法及相关装置 |
-
2022
- 2022-08-26 CN CN202211034507.XA patent/CN115455960A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288158A (zh) * | 2020-10-28 | 2021-01-29 | 税友软件集团股份有限公司 | 一种业务数据预测方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
CN112348520A (zh) | 基于XGBoost的风险评估方法、装置和电子设备 | |
CN112231431B (zh) | 一种异常地址识别方法、设备和计算机可读存储介质 | |
CN104702492A (zh) | 垃圾消息模型训练方法、垃圾消息识别方法及其装置 | |
CN111428599A (zh) | 票据识别方法、装置和设备 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
WO2023025330A1 (zh) | 企业筛选方法、装置、电子设备及存储介质 | |
CN111062208B (zh) | 一种文件审核的方法、装置、设备及存储介质 | |
CN115455960A (zh) | 一种税收风险检测方法、装置、设备及存储介质 | |
CN113535813A (zh) | 一种数据挖掘方法、装置、电子设备以及存储介质 | |
CN114298845A (zh) | 一种理赔票据处理方法和装置 | |
CN116821903A (zh) | 检测规则确定及恶意二进制文件检测方法、设备及介质 | |
US20190057456A1 (en) | System and methods thereof for associating electronic documents to evidence | |
CN113379169B (zh) | 信息处理方法、装置、设备及介质 | |
CN115545437A (zh) | 一种基于多源异构数据融合的金融企业经营风险预警方法 | |
US20220172301A1 (en) | System and method for clustering an electronic document that includes transaction evidence | |
CN115935231A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN111782803B (zh) | 一种工单的处理方法、装置、电子设备及存储介质 | |
CN111522750B (zh) | 一种功能测试问题的处理方法及系统 | |
CN113204954A (zh) | 基于大数据的数据检测方法、设备及计算机可读存储介质 | |
CN112818972A (zh) | 兴趣点图像的检测方法、装置、电子设备及存储介质 | |
CN112380321A (zh) | 基于票据知识图谱的主次数据库分配方法及相关设备 | |
CN111125345A (zh) | 数据应用方法和装置 | |
CN113850085B (zh) | 企业的等级评估方法、装置、电子设备及可读存储介质 | |
CN117456532B (zh) | 一种药品金额的校正方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |