CN113807614A - 一种企业税务风险预测方法 - Google Patents
一种企业税务风险预测方法 Download PDFInfo
- Publication number
- CN113807614A CN113807614A CN202111194470.2A CN202111194470A CN113807614A CN 113807614 A CN113807614 A CN 113807614A CN 202111194470 A CN202111194470 A CN 202111194470A CN 113807614 A CN113807614 A CN 113807614A
- Authority
- CN
- China
- Prior art keywords
- risk
- enterprise
- tax
- matrix
- enterprises
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 88
- 230000007704 transition Effects 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000029305 taxis Effects 0.000 claims description 3
- 238000013277 forecasting method Methods 0.000 claims 1
- 238000013058 risk prediction model Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000005242 forging Methods 0.000 description 2
- 238000012067 mathematical method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011479 proximal gradient method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种企业税务风险预测方法,包括:根据企业风险信息和企业总数计算所述税收风险的先验概率矩阵和状态转移矩阵;根据所述先验概率矩阵和所述状态转移矩阵计算出所述税收风险项的风险状态概率;计算出所述税收风险项对应的目标数量;获取企业信息并根据所述企业信息构建企业和风险之间的风险路径链路,根据所述风险路径链路生成多维矩阵;按照所述风险项对应的目标数量,在所述税收风险项对应的企业中,按照所述企业风险项概率由高到低的顺序,筛选出目标数量的企业,并作为预测结果输出。本实施例提供一种基于企业关系链条的税务风险主动预测模型,用以克服传统税收风险预测结果不准确,企业风险数量与宏观经济相脱离的等问题。
Description
技术领域
本申请实施例涉及电子信息技术领域,尤其涉及一种企业税务风险预测方法。
背景技术
目前税务风险主要是靠税务稽查部门进行税务信息核对,这种处理方法需要耗费大量人力并且缺乏对纳税整体的把握,同时由于稽查是对已有申报信息进行事后核对,税局通过人工稽查的方式往往无法及时获得企业或地区的风险情况。例如经典风险预测方法有决策树、随机森林、逻辑回归等机器学习模型等神经网络模型,这些模型可以通过历史数据对某类税收风险情况有一定的预测,但是很难获得较为全面准确的预测结果。
发明内容
有鉴于此,本实施例提供一种基于企业关系链条的税务风险主动预测模型,用以克服传统税收风险预测结果不准确,企业风险数量与宏观经济相脱离的等问题。
第一方面,本申请实施例提供了一种企业税务风险预测方法,包括:
通过设置的第一通讯接口,获取第三方网络应用发送的至少一种税收风险项,并根据第三方网络应用发送的企业风险信息和企业总数通过第一信息处理器计算税收风险的先验概率矩阵和状态转移矩阵;当第三方网络应用发送的税收风险项大于一个时,任意两个税收风险项不同;
根据先验概率矩阵和状态转移矩阵通过第一信息处理器计算出税收风险项的风险状态概率;
根据税收风险项的风险状态概率和企业总数,通过第一信息处理器计算出税收风险项对应的目标数量;
通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据企业信息通过第二信息处理器构建企业和风险之间的风险路径链路,根据风险路径链路生成多维矩阵;通过多维矩阵对分解因子机特征提取模型进行参数调整;
根据分解因子机特征提取模型通过第二信息处理器确定出税收风险项对应的企业以及企业风险概率;
根据风险项对应的目标数量,通过第三信息处理器,在税收风险项对应的企业中,按照企业风险项概率由高到低的顺序,筛选出目标数量的企业,并作为预测结果输出至应用程序终端。
可选地,在一种实现方式中,根据风险路径链路生成多维矩阵包括:
通过第二信息处理器从构建的企业和风险路径链路中抽取企业税务风险特征对;进而根据每种企业相同的企业税务风险特征对,构建多维矩阵。
可选地,在一种实现方式中,企业税务风险预测方法还包括:
通过第二信息处理器对多维矩阵进行矩阵分解,得到税务风险项矩阵及其对应的企业风险概率特征矩阵;
通过第二信息处理器对企业风险概率特征矩阵的二阶关系进行建模得到初始的分解因子机特征提取模型;初始的分解因子机特征提取模型输出结果计算最小化均方损失函数,根据最小化均方损失函数的损失函数值调整分解因子机特征提取模型中的参数。
可选地,在一种实现方式中,企业税务风险预测方法还包括:
通过第二信息处理器对二阶关系的损失函数进行正则化处理,根据正则化损失函数的损失函数值调整分解因子机特征提取模型,得到正则化后的分解因子机特征提取模型。
可选地,在一种实现方式中,企业税务风险预测方法还包括:
根据近端梯度法通过第二信息处理器对二阶关系损失函数进行迭代计算,根据迭代后损失函数的损失函数值调整分解因子机特征提取模型,得到迭代后的分解因子机特征提取模型。
可选地,在一种实现方式中,通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据企业信息通过第二信息处理器构建企业和风险之间的风险路径链路,根据风险路径链路生成多维矩阵,包括:通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据企业信息通过第二信息处理器构建异质信息网络,从异质信息网络中构建企业和风险之间的风险路径链路,根据风险路径链路生成多维矩阵。
可选地,在一种实现方式中,第三方网络应用发送的税收风险项包括:
虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票;偷税;虚开普通发票;骗取出口退税;走逃;私自印制、伪造、变造发票,非法制造发票防伪专用品,伪造发票监制章。
第二方面,本申请实施例提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行如第一方面或第一方面的任意一种实现方式中所描述的的企业税务风险预测方法对应的操作。
第三方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第一方面的任意一种实现方式中所描述的的企业税务风险预测方法。
第四方面,本申请实施例提供了一种计算机程序产品,包括计算机指令,计算机指令指示计算设备执行如第一方面或第一方面的任意一种实现方式中所描述的的企业税务风险预测方法。
本发明通过对于至少一种税收风险项,根据企业风险信息和企业总数计算税收风险的先验概率矩阵和状态转移矩阵;当税收风险项大于一个时,任意两个税收风险项不同;根据先验概率矩阵和状态转移矩阵计算出税收风险项的风险状态概率;通过税收风险项的风险状态概率和企业总数,计算出税收风险项对应的目标数量;获取企业信息并根据企业信息构建企业和风险之间的风险路径链路,根据风险路径链路生成多维矩阵;通过分解因子机特征提取模型确定出税收风险项对应的企业以及企业风险概率;按照风险项对应的目标数量,在税收风险项对应的企业中,按照企业风险项概率由高到低的顺序,筛选出目标数量的企业,并作为预测结果输出。因为通过税收风险项的风险状态概率和企业总数,计算出税收风险项对应的目标数量,即宏观上对企业进行预测,通过分解因子机特征提取模型确定出税收风险项对应的企业以及企业风险概率,即对企业进行个体微观上的预测,最后通过按照风险项对应的目标数量,在税收风险项对应的企业中,按照企业风险项概率由高到低的顺序,筛选出目标数量的企业,综合宏观和微观对企业进行综合预测,因此,本发明实现了对企业税务风险从宏观和微观角度进行了税务风险主动预测,解决了传统税收风险预测结果不准确,企业风险数量与宏观经济相脱离的缺点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种企业税务风险预测方法流程图;
图2为本申请实施例提供的一种异质信息网络结构;
图3为本申请实施例提供的一种异质信息网络元路径知识链;
图4为本申请实施例提供的一种电子设备。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一
本申请实施例一提供一种企业税务风险预测方法,参照图1所示,该方法可以在后台服务器上运行,其具体包括以下步骤:
步骤101、通过设置的第一通讯接口,获取第三方网络应用发送的至少一种税收风险项,并根据第三方网络应用发送的企业风险信息和企业总数通过第一信息处理器计算税收风险的先验概率矩阵和状态转移矩阵;当第三方网络应用发送的税收风险项大于一个时,任意两个税收风险项不同;
需要说明的是,税收风险项可以根据相关部门定义进行分类,也可以自定义进行分类,企业风险信息为企业的税收风险信息,此处企业是指企业所得税法及其实施条例规定的居民企业和非居民企业。居民企业,是指依法在中国境内成立,或者依照外国(地区)法律成立但实际管理机构在中国境内的企业。非居民企业,是指依照外国(地区)法律成立且实际管理机构不在中国境内,但在中国境内设立机构、场所的,或者在中国境内未设立机构、场所,但有来源于中国境内所得的企业;企业总数为某一地区企业数量总数,企业风险信息和企业总数可通过官方渠道获得。
可选地,第三方网络应用发送的税收风险项包括:虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票;偷税;虚开普通发票;骗取出口退税;走逃(失联);私自印制、伪造、变造发票,非法制造发票防伪专用品,伪造发票监制章;以及其他风险中的至少一项。风险项的获悉,通过与税务机构建立通信接口进行连接,例如,通过设置第一通信接口获悉税务机构异常代码或税务公告风险项数据,此处的第一接口仅表示接口的区分。例如,异常代码为001表示企业偷税。
其中企业风险信息为已知的风险企业信息,此处计算先验概率矩阵为根据不同风险对应的代码计算获得当前月份的风险企业数量占比的初始概率矩阵π,此处按月份进行获取既保证了准确度又降低了运算量,也可以按照季度、周、年进行获取,企业数量占比可以用某类风险项的概率乘以企业总数得出
此处计算状态转移矩阵可以为计算企业状态变化的状态转移概率Pij,其中企业状态变化可以是正常企业变为风险企业,风险企业变为正常企业,也可也是正常变为正常,风险变为风险,可以概括为风险企业风险类型变更,Ei代表变化前的值,Ei变化后的值,变化过程可以是正常变为正常,风险变为风险,也可以是风险变为正常,正常变为风险,也就是同一企业前后月份的状态,
Pij=P(Ei→Ej)=P(Ej|Ei)
其中Ei和Ej分别代表不同的风险状态,具体地,Ei表示预测前企业的风险状态矩阵,Ej表示预测后的风险状态矩阵。
设置税收风险预测模型,通过对模型进行利用状态转移概率和先验概率计算从而得到预测月份的状态概率π(k)对应的税收风险预测模型,其中,先验概率就是初始概率:
π(k)=π(k-1)P=π(0)Pk
对税收风险预测模型经过k次状态转移计算后(一般为1次),得到在第k个时刻对应的税务风险状态的概率。利用状态概率和预测月份的企业数,可以获得不同税收风险的企业总数Ri(表示第i个风险项具有Ri个风险企业),其中,K次代表多少月之后例如k为3次就代表预测3次之后的概率取1次更准确。获得预测结果后,表示获得不同税收风险的企业总数Ri的预测过程。
步骤102、根据先验概率矩阵和状态转移矩阵通过第一信息处理器计算出税收风险项的风险状态概率;
需要说明的是,先验概率矩阵是指获得不同税务风险在当前月份的风险企业数量占比的初始概率矩阵。矩阵中的元素即不同税务风险在当前月份的风险企业数量占比,此处的占比因为是对整体企业进行的计算,也可表述为概率;状态转移矩阵指的是企业从某一风险状态转变另一风险状态的概率矩阵,即风险状态的一种映射关系,例如,企业A由具有风险经过状态转移矩阵运算得到企业A不具有风险;企业状态变化可以是正常企业变为风险企业,风险企业变为正常企业,也可也是正常变为正常,风险变为风险,可以概括为风险企业风险类型变更,变化过程可以是正常变为正常,风险变为风险,也可以是风险变为正常,正常变为风险。
步骤103、根据税收风险项的风险状态概率和企业总数,通过第一信息处理器计算出税收风险项对应的目标数量;
需要说明的是,对计算出税收风险项对应的目标数量进行举例说明,例如,A地区具有偷税风险项的风险状态概率为30%,,即表示A地区具有偷税风险项企业的占比为30%,例如,A地区总计有100家企业,则A地区具有偷税风险项的企业数量为30家。
步骤104、通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据企业信息通过第二信息处理器构建企业和风险之间的风险路径链路,根据风险路径链路生成多维矩阵;通过多维矩阵对分解因子机特征提取模型进行参数调整;
需要说明的是,在一种可选的实现方式中,对于一组企业-税务风险对,其中企业-税务风险对是从某一知识链中抽取出的,我们将企业和风险用ui和bj表示,然后将所有相同的企业-税务风险特征对联合起来,可以获得L组特征,如公式1所示:
式中F是每种矩阵的秩,ui (l)和bj (l)分别代表从第l个知识链中提取的企业特征具体值和风险特征具体值,需要说明的是,此处的风险特征具体值包括风险特征对应的具体概率。不同的特征矩阵的秩不同,本发明中将特征矩阵固定为相同值。xn表示第n个采样经过合并后的特征向量。此处的多维矩阵是指每种企业-风险对可以用L×F维的特征矩阵。
需要说明的是,此处的企业信息指的是除企业税务风险信息外的与企业有关的所有信息,例如,企业交易信息,企业人员信息等。此处的企业和风险之间的风险路径链路,也可称为知识链,用来表示用户和服务之间的关系,每条知识链表示一种企业和风险之间存在的路径,即一个企业和与之相关事项的联系,其知识链可以穷举,代表企业和风险之间存在的某种关系。此处的多维矩阵指的每种企业-风险对用L×F维形式表达的特征矩阵,用来更高效地统计归纳相同的特征对。
可选地,根据风险路径链路生成多维矩阵包括:
通过第二信息处理器从构建的企业和风险路径链路中抽取企业税务风险特征对;进而根据每种企业相同的企业税务风险特征对,构建多维矩阵。
需要说明的是,通过抽取风险特征对,可以更加准确得出多维矩阵,对于一组企业-税务风险对,其中企业-税务风险对是从某一知识链中抽取出的,可以将企业和风险分别用矩阵元素A和矩阵元素B表示,然后将所有相同的企业-税务风险特征对联合起来。
可选地,通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据企业信息通过第二信息处理器构建企业和风险之间的风险路径链路,根据风险路径链路生成多维矩阵,包括:通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据企业信息通过第二信息处理器构建异质信息网络,从异质信息网络中构建企业和风险之间的风险路径链路,根据风险路径链路生成多维矩阵。
需要说明的是,通过构建异质网络可以更方便的构建出风险路径链路。如图2所示的一个税务异质信息网络结构,本专利利用企业交易信息和企业登记信息构造异质信息网络,异质信息网络是一种信息网络,包含了节点和边,并且该节点和边具有一种或多种类型,异质信息网络包含了更更丰富的语义信息,可以将企业的登记信息、风险信息、交易信息等囊括在一起。为了更好的将异质信息网络转换为多维矩阵,其中多维矩阵表示有N个不同企业的异质信息网络,如图3所示,从异质信息网络中抽取并构建七条知识链来表示用户和服务之间的关系,每条知识链表示一种企业和风险之间存在的路径,即一个企业和与之相关事项的联系,其知识链可以穷举,代表企业和风险之间存在的某种关系。
步骤105、根据分解因子机特征提取模型通过第二信息处理器确定出税收风险项对应的企业以及企业风险概率;
可选地,通过第二信息处理器对多维矩阵进行矩阵分解,得到税务风险项矩阵及其对应的企业风险概率特征矩阵;
通过第二信息处理器对企业风险概率特征矩阵的二阶关系进行建模得到初始的分解因子机特征提取模型;根据初始的分解因子机特征提取模型的输出结果计算最小化均方损失函数,根据最小化均方损失函数的损失函数值调整分解因子机特征提取模型中的参数;相应地,通过分解因子机特征提取模型确定出税收风险项对应的企业以及企业风险概率,为通过初始的分解因子机特征提取模型确定出税收风险项对应的企业以及企业风险概率。
需要说明的是,在生成特征矩阵后,对特征之间的二阶关系进行建模,通过二阶关系建模可以获得不同特征间的关系,但不能采用1阶段和3阶,原因是,1阶不能与公式2进行结合运算,3阶及以上不能进行分解。本发明中通过对二阶参数进行低秩分解如公式2所示:
其中w0是偏置,d=2LF表示由L个知识链组成的矩阵的所有特征,w∈Rd表示一阶参数,V=[vi]∈Rd×k表示不同参数交叉点乘的二阶参数,vi表示矩阵V的第i行,xi n是xn中的第i个特征。通过最小化均方损失函数的方式来学习参数,目的是减少公式2运算时产生的误差,如公式3所示:
式中yn由第n次采样获得,N是总的采样次数。
需要说明的是,通过对特征矩阵的二阶关系建模,可以找出不同风险特征间的关系。
可选地,通过第二信息处理器对二阶关系的损失函数进行正则化处理,根据正则化损失函数的损失函数值调整分解因子机特征提取模型,得到正则化后的分解因子机特征提取模型;相应地,通过分解因子机特征提取模型确定出税收风险项对应的企业以及企业风险概率,为通过正则化后的分解因子机特征提取模型确定出税收风险项对应的企业以及企业风险概率。
需要说明的是,本发明通过元路径知识链,其中元路径就是知识链,两者概率相同的方式构造企业和风险之间的一些隐式特征,为了防止训练结果过拟合,即为了防止数据不均导致训练无意义,本发明利用因子分解机(FM)的方式解决稀疏矩阵(即没有风险的矩阵)下特征组合的问题,排除掉无用的知识链,无用知识链表示没有风险特征的知识链,放弃了对相似度计算无用的特征组,将目标函数简化为非凸非光滑的的问题,正则化后的二阶关系如公式4所示,其中公式4是公式3的具体运算:
需要说明的是,通过对二阶关系模型进行正则化处理,可以剔除正常风险特征,防止训练过拟合。此处正常风险即为没有风险的情况。
可选地,根据近端梯度法通过第二信息处理器对二阶关系损失函数进行迭代计算,根据迭代后损失函数的损失函数值调整分解因子机特征提取模型,得到迭代后的分解因子机特征提取模型;相应地,通过分解因子机特征提取模型确定出税收风险项对应的企业以及企业风险概率,为通过迭代后的分解因子机特征提取模型确定出税收风险项对应的企业以及企业风险概率。
此处的近端梯度法是一种可选地矩阵分解数学方法,经过迭代训练从而获得训练后的参数,有益于减少运算误差,此处的迭代限度设置可以是次数设定,例如100次,也可以是数值设定,例如0.01或0.001。
需要说明的是,近端梯度法是一种可选地矩阵分解数学方法。经过迭代训练获得一阶和二阶参数,迭代的目的是为了减少运算误差,迭代限度设置可以是次数设定,例如100次,也可以是数值设定,例如0.01或0.001。
步骤106、根据风险项对应的目标数量,通过第三信息处理器,在税收风险项对应的企业中,按照企业风险项概率由高到低的顺序,筛选出目标数量的企业,并作为预测结果输出至应用程序终端;
当输入新的企业信息时,新的信息包括企业及其相关的所有信息,将新企业所形成的税务元路径知识链带入模型中获得企业-风险相似度,最后输出企业和风险的关联概率,也就是说将每种企业信息依次输入至模型中,针对按照不同风险,对不同企业依照风险概率大小顺序进行排序再结合得出的不同风险概率对应的企业数目Ri,截取不同风险类型的前Ri项,最后得出风险项目-企业风险概率(由高到低)的矩阵,概率越大说明企业具有该风险的可能性就越大,根据概率大小完成初步风险排序。
最终,获得的不同税收风险企业总数Ri和元路径知识链计算得到的企业风险概率综合排序,根据概率从高到低选择第i个风险项的前Ri个企业作为最终的风险预测结果进行输出
实施例二
结合上述实施例一所描述的企业税务风险预测方法,参照图4所示,本申请实施例二提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述实施例一所描述的企业税务风险预测方法对应的操作。
实施例三
结合上述实施例一所描述的企业税务风险预测方法,本申请实施例三提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时上述实施例一所描述的企业税务风险预测方法。
实施例四
结合上述实施例一所描述的企业税务风险预测方法,本申请实施例四提供了一种计算机程序产品,包括计算机指令,计算机指令指示计算设备执行上述实施例一所描述的企业税务风险预测方法对应的操作。
Claims (10)
1.一种企业税务风险预测方法,其特征在于,包括:
通过设置的第一通讯接口,获取第三方网络应用发送的至少一种税收风险项,并根据第三方网络应用发送的企业风险信息和企业总数通过第一信息处理器计算所述税收风险的先验概率矩阵和状态转移矩阵;当所述第三方网络应用发送的税收风险项大于一个时,任意两个税收风险项不同;
根据所述先验概率矩阵和所述状态转移矩阵通过第一信息处理器计算出所述税收风险项的风险状态概率;
根据所述税收风险项的风险状态概率和企业总数,通过第一信息处理器计算出所述税收风险项对应的目标数量;
通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据所述企业信息通过第二信息处理器构建企业和风险之间的风险路径链路,根据所述风险路径链路生成多维矩阵;通过所述多维矩阵对分解因子机特征提取模型进行参数调整;
根据分解因子机特征提取模型通过第二信息处理器确定出所述税收风险项对应的企业以及企业风险概率;
根据所述风险项对应的目标数量,通过第三信息处理器,在所述税收风险项对应的企业中,按照所述企业风险项概率由高到低的顺序,筛选出目标数量的企业,并作为预测结果输出至应用程序终端。
2.根据权利要求1所述企业税务风险预测方法,其特征在于,所述根据所述风险路径链路生成多维矩阵包括:
通过第二信息处理器从构建的企业和风险路径链路中抽取企业税务风险特征对;进而根据每种企业相同的企业税务风险特征对,构建多维矩阵。
3.根据权利要求2所述企业税务风险预测方法,其特征在于,所述方法还包括:
通过第二信息处理器对多维矩阵进行矩阵分解,得到所述税务风险项矩阵及其对应的企业风险概率特征矩阵;
通过第二信息处理器对所述企业风险概率特征矩阵的二阶关系进行建模得到初始的分解因子机特征提取模型;根据所述初始的分解因子机特征提取模型的输出结果计算最小化均方损失函数,根据所述最小化均方损失函数的损失函数值调整所述分解因子机特征提取模型中的参数;相应地,通过分解因子机特征提取模型确定出所述税收风险项对应的企业以及企业风险概率,为通过所述初始的分解因子机特征提取模型确定出所述税收风险项对应的企业以及企业风险概率。
4.根据权利要求3所述企业税务风险预测方法,其特征在于,所述方法还包括:
通过第二信息处理器对所述二阶关系的损失函数进行正则化处理,根据所述正则化损失函数的损失函数值调整所述分解因子机特征提取模型,得到正则化后的分解因子机特征提取模型;相应地,通过分解因子机特征提取模型确定出所述税收风险项对应的企业以及企业风险概率,为通过所述正则化后的分解因子机特征提取模型确定出所述税收风险项对应的企业以及企业风险概率。
5.根据权利要求3所述企业税务风险预测方法,其特征在于,所述方法还包括:
根据近端梯度法通过第二信息处理器对所述二阶关系损失函数进行迭代计算,根据所述迭代后损失函数的损失函数值调整所述分解因子机特征提取模型,得到迭代后的分解因子机特征提取模型;相应地,通过分解因子机特征提取模型确定出所述税收风险项对应的企业以及企业风险概率,为通过所述迭代后的分解因子机特征提取模型确定出所述税收风险项对应的企业以及企业风险概率。
6.根据权利要求1所述企业税务风险预测方法,其特征在于,所述通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据所述企业信息通过第二信息处理器构建企业和风险之间的风险路径链路,根据所述风险路径链路生成多维矩阵,包括:
通过设置的第二通讯接口,获取第三方网络应用发送的企业信息并根据企业信息通过第二信息处理器构建异质信息网络,从异质信息网络中构建企业和风险之间的风险路径链路,根据所述风险路径链路生成所述多维矩阵。
7.根据权利要求1所述企业税务风险预测方法,其特征在于,所述第三方网络应用发送的税收风险项包括:
虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票;偷税;虚开普通发票;骗取出口退税;走逃;私自印制、伪造、变造发票,非法制造发票防伪专用品,伪造发票监制章。
8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的校验码生成方法对应的操作。
9.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任一所述的校验码生成方法。
10.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-7中任一所述的校验码生成方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111194470.2A CN113807614A (zh) | 2021-10-13 | 2021-10-13 | 一种企业税务风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111194470.2A CN113807614A (zh) | 2021-10-13 | 2021-10-13 | 一种企业税务风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113807614A true CN113807614A (zh) | 2021-12-17 |
Family
ID=78897661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111194470.2A Pending CN113807614A (zh) | 2021-10-13 | 2021-10-13 | 一种企业税务风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807614A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10659488B1 (en) * | 2017-02-28 | 2020-05-19 | University Of South Florida | Statistical predictive model for expected path length |
US10754959B1 (en) * | 2017-01-20 | 2020-08-25 | University Of South Florida | Non-linear stochastic models for predicting exploitability |
US10848515B1 (en) * | 2016-12-02 | 2020-11-24 | University Of South Florida | Predictive model for overall network security risk |
WO2021012783A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 基于大数据的保单核保模型训练方法和核保风险评估方法 |
CN113159874A (zh) * | 2021-05-25 | 2021-07-23 | 北京中科闻歌科技股份有限公司 | 增值税发票的检测方法、装置和可读存储介质 |
CN113190754A (zh) * | 2021-05-11 | 2021-07-30 | 四川大学 | 一种基于异构信息网络表示学习的推荐方法 |
-
2021
- 2021-10-13 CN CN202111194470.2A patent/CN113807614A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10848515B1 (en) * | 2016-12-02 | 2020-11-24 | University Of South Florida | Predictive model for overall network security risk |
US10754959B1 (en) * | 2017-01-20 | 2020-08-25 | University Of South Florida | Non-linear stochastic models for predicting exploitability |
US10659488B1 (en) * | 2017-02-28 | 2020-05-19 | University Of South Florida | Statistical predictive model for expected path length |
WO2021012783A1 (zh) * | 2019-07-23 | 2021-01-28 | 平安科技(深圳)有限公司 | 基于大数据的保单核保模型训练方法和核保风险评估方法 |
CN113190754A (zh) * | 2021-05-11 | 2021-07-30 | 四川大学 | 一种基于异构信息网络表示学习的推荐方法 |
CN113159874A (zh) * | 2021-05-25 | 2021-07-23 | 北京中科闻歌科技股份有限公司 | 增值税发票的检测方法、装置和可读存储介质 |
Non-Patent Citations (3)
Title |
---|
SAN GULTEKIN等: "Online Forecasting Matrix Factorization", 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 * |
邱昱: "面向移动广告的欺诈检测算法研究", 《中国优秀硕士论文 信息科技 》 * |
陈静;黄光辉;: "基于融资融券业务的新投资策略及应用", 重庆理工大学学报(自然科学), no. 04 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188198B (zh) | 一种基于知识图谱的反欺诈方法及装置 | |
Grbac et al. | A second replicated quantitative analysis of fault distributions in complex software systems | |
Jiang et al. | Online risk monitoring using offline simulation | |
CN108614778B (zh) | 基于高斯过程回归的安卓App程序演化变更预测方法 | |
CN113505936A (zh) | 项目审批结果的预测方法、装置、设备及存储介质 | |
CN113849542A (zh) | 基于人工智能的区域温室气体排放清单核算系统与方法 | |
CN113361963A (zh) | 识别企业风险性的方法及装置 | |
Mitra | A white paper on scenario generation for stochastic programming | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
Chu et al. | On the evolution of the United Kingdom price distributions | |
CN114298815A (zh) | 上市公司财务异常识别方法及系统 | |
CN114493619A (zh) | 一种基于电力数据的企业征信标签构建方法 | |
Yang et al. | Combining quantiles of calibrated solar forecasts from ensemble numerical weather prediction | |
CN113807614A (zh) | 一种企业税务风险预测方法 | |
Yu et al. | A new two-stage stochastic model for reverse logistics network design under government subsidy and low-carbon emission requirement | |
Zhao et al. | A new hybrid model for multi-step WTI futures price forecasting based on self-attention mechanism and spatial–temporal graph neural network | |
CN115204501A (zh) | 企业评估方法、装置、计算机设备和存储介质 | |
Ying et al. | Research on tax inspection case selection model based on Bayesian network | |
Zhang et al. | Flexible binomial AR (1) processes using copulas | |
CN112215514A (zh) | 一种经营分析报告生成方法及系统 | |
Yi et al. | Novel Approach to Discover Precise Process Model by Filtering out Log Chaotic Activities | |
CN114493379B (zh) | 基于政务数据的企业评价模型自动生成方法、装置及系统 | |
CN117709908B (zh) | 一种电网工程人、材、机分配合理性智慧审计方法与系统 | |
CN113902496B (zh) | 数据分析方法、装置及电子设备 | |
Gao et al. | Risk Analysis and Prediction of Enterprise Operations Based on Random Forest Algorithm and Power Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |