CN109636036B - 一种企业发票数量预测的方法、系统及设备 - Google Patents
一种企业发票数量预测的方法、系统及设备 Download PDFInfo
- Publication number
- CN109636036B CN109636036B CN201811518854.3A CN201811518854A CN109636036B CN 109636036 B CN109636036 B CN 109636036B CN 201811518854 A CN201811518854 A CN 201811518854A CN 109636036 B CN109636036 B CN 109636036B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- invoice
- data
- data set
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种企业发票数量预测的方法,包括:根据数据库中的企业发票数据表建立训练数据集和验证数据集;利用训练数据集训练各预设模型,并利用验证数据集对各训练后的预设模型进行验证;选择验证结果最优的预设模型作为企业发票数量预测模型,并利用企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量。本申请利用机器学习挖掘企业发票数量与企业属性、发票内容(如发票的金额、税额等信息)的关系,实现了企业发票数量的准确预测,能够精准地辅助税务人员为企业开票,降低企业偷漏税风险,同时可以保证企业有足够的发票可用。本申请同时还提供了一种企业发票数量预测的系统、设备及计算机可读存储介质,具有上述有益效果。
Description
技术领域
本申请涉及字符定位与识别领域,特别涉及一种企业发票数量预测的方法、系统、设备及计算机可读存储介质。
背景技术
目前,现有发票申请领用,需要纳税人员到办税服务大厅排队领取,并且时间限制紧,税局工作量大,纳税人积压到大厅,使得纳税人以及税务人员压力大。
税务人员根据特定的业务公式来对企业的开票数量进行计算并且预测,所涉及的公式包括如下:
发票平均开票面额(对应票种)=前六个月(票种)正常票累计销售额/正常票数量;
红字作废率(对应票种)=前六个月(票种)作废红字发票/前六个月(票种)发票总票量;
当月限量=(1+红字作废率(对应票种))*(票种开具最大销售额3个月的平均票种销售额+前6个月未开票收入平均*(票种销售/开具发票的销售额))/发票平均开票面额;
从上述的公式可以得知,企业的发票预测数量与其前半年的开票信息有关,并且受到最大销售额的巨大影响,使得企业得到的发票数出现激增或者骤减的现象,这就容易导致企业和税务机关的关系不和谐,例如当税务人员估算过大时,很容易增加企业偷税漏税的风险;反之,企业会不断地安排人员到税务大厅来领票,导致税务大厅拥挤以及降低税务人员的办事效率。
因此,如何实现企业发票数量的准确预测是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种企业发票数量预测的方法、系统、设备及计算机可读存储介质,用于实现企业发票数量的准确预测。
为解决上述技术问题,本申请提供一种企业发票数量预测的方法,该方法包括:
获取数据库中的企业发票数据表,并对所述企业发票数据表进行预处理操作,得到企业属性联合表;
根据所述企业属性联合表建立训练数据集和验证数据集;
利用所述训练数据集训练各预设模型,并利用所述验证数据集对各训练后的预设模型进行验证;
选择验证结果最优的预设模型作为企业发票数量预测模型,并利用所述企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量。
可选的,在得到企业发票数量的第一预测数量之后,还包括:
根据所述企业发票数据表确定所述企业发票数量的历史波动范围;
判断所述第一预测数量是否在所述历史波动范围内;
若是,则将所述第一预测数量作为企业发票数量的最优预测数量;
若否,则利用预设时间序列模型对企业发票数量进行预测,得到所述企业发票数量的第二预测数量,并将所述第二预测数量作为所述企业发票数量的最优预测数量。
可选的,对所述企业发票数据表进行预处理操作,得到企业属性联合表,包括:
获取所述企业发票数据表中的企业申请审批类表,并根据所述企业申请审批类表确定企业静态属性值;其中,所述企业静态属性值包括企业的行业代码、企业登记注册类型、增值税企业类型代码、企业注册资本、企业年龄、企业资格类型代码中的至少一项;
根据所述企业发票数据表建立各预设字段的数据透视表,并根据所述各所述预设字段的数据透视表确定企业动态属性值;其中,所述企业动态属性值包括企业开票营业额、企业税额中的至少一项;
根据所述企业静态属性值和所述企业动态属性值建立所述企业属性联合表。
可选的,根据所述企业属性联合表建立训练数据集和验证数据集,包括:
根据数据的分布特征在所述企业属性联合表中进行数据筛选,得到企业数据表;
对所述企业数据表进行特征构建,得到数据特征表;
将所述数据特征表按时间属性进行分割,得到所述训练数据集和所述验证数据集。
可选的,对所述企业数据表进行特征构建,得到数据特征表,包括:
根据所述企业数据表中的已有特征构建新特征;其中,所述新特征包括红字发票所占比例、红字发票金额所占比例、未开票金额与开票金额比例中的至少一项;
将所述新特征添加到所述企业数据表中,得到所述数据特征表。
可选的,在得到所述数据特征表之后,还包括:
接收输入的所述数据特征表的缺失值补充命令;
根据所述缺失值补充命令确定补充值及待补充位置;
将所述补充值添加至所述待补充位置中。
可选的,所述预设模型具体为极限提升树模型。
本申请还提供一种企业发票数量预测的系统,该系统包括:
预处理模块,用于获取数据库中的企业发票数据表,并对所述企业发票数据表进行预处理操作,得到企业属性联合表;
建立模块,用于根据所述企业属性联合表建立训练数据集和验证数据集;
训练及验证模块,用于利用所述训练数据集训练各预设模型,并利用所述验证数据集对各训练后的预设模型进行验证;
预测模块,用于选择验证结果最优的预设模型作为企业发票数量预测模型,并利用所述企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量。
本申请还提供一种企业发票数量预测的设备,该设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述企业发票数量预测的方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述企业发票数量预测的方法的步骤。
本申请所提供的一种企业发票数量预测的方法,包括:获取数据库中的企业发票数据表,并对企业发票数据表进行预处理操作,得到企业属性联合表;根据企业属性联合表建立训练数据集和验证数据集;利用训练数据集训练各预设模型,并利用验证数据集对各训练后的预设模型进行验证;选择验证结果最优的预设模型作为企业发票数量预测模型,并利用企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量。
本申请所提供的技术方案,通过根据企业发票数据表建立训练数据集和验证数据集,然后利用训练数据集训练各预设模型,并利用验证数据集对各训练后的预设模型进行验证,最后选择验证结果最优的预设模型作为企业发票数量预测模型,并利用企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量,本申请利用机器学习挖掘企业发票数量与企业属性、发票内容(如发票的金额、税额等信息)的关系,从而实现了企业发票数量的准确预测,能够精准地辅助税务人员为企业开票,降低企业偷漏税风险,同时可以保证企业有足够的发票可用。另外,本申请效率高,可以快速地帮助税务人员分析出企业的发票用量,缓解税务大厅拥堵现象。本申请同时还提供了一种企业发票数量预测的系统、设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种企业发票数量预测的方法的流程图;
图2为本申请实施例所提供的另一种企业发票数量预测的方法的流程图;
图3为图1所提供的一种企业发票数量预测的方法中S101的一种实际表现方式的流程图;
图4为图1所提供的一种企业发票数量预测的方法中S102的一种实际表现方式的流程图;
图5为图1所提供的一种企业发票数量预测的方法中S102的另一种实际表现方式的流程图;
图6为本申请实施例所提供的一种企业发票数量预测的系统的结构图;
图7为本申请实施例所提供的另一种企业发票数量预测的系统的结构图;
图8为本申请实施例所提供的一种企业发票数量预测设备的结构图。
具体实施方式
本申请的核心是提供一种企业发票数量预测的方法、系统、设备及计算机可读存储介质,用于实现企业发票数量的准确预测。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种企业发票数量预测的方法的流程图。
其具体包括如下步骤:
S101:获取数据库中的企业发票数据表,并对企业发票数据表进行预处理操作,得到企业属性联合表;
这里提到的数据库中的企业发票数据表,并不特指某一具体的表格,而是指数据库中有关企业发票数据的所有表格,本申请对企业发票数据表进行预处理操作,得到用于建立训练数据集和验证数据集的企业属性联合表;
这里提到的企业属性联合表中包含企业静态属性值和企业动态属性值,其目的在于利用机器学习挖掘企业发票数量与企业属性的关系,进而实现利用企业的属性值预测企业发票数量;
其中,该企业静态属性值具体可以包括企业的行业代码、企业登记注册类型、增值税企业类型代码、企业注册资本、企业年龄、企业资格类型代码中的至少一项;该企业动态属性值具体可以包括企业开票营业额、企业税额中的至少一项。
S102:根据企业属性联合表建立训练数据集和验证数据集;
可选的,这里提到的根据该企业属性联合表建立训练数据集和验证数据集,其具体可以为将企业属性联合表中的数据进行按照某一特定时间分割,根据该特定时间前的数据建立训练数据集,根据该特定时间后的数据间验证数据集。
S103:利用训练数据集训练各预设模型,并利用验证数据集对各训练后的预设模型进行验证;
可选的,这里提到的预设模型具体为极限提升树模型,也可以为决策树模型或其他模型;
进一步的,该预设模型可以由多个不同类型的模型组成,以便于选择验证结果最优的预设模型对企业发票数量进行预测,使得得到的预测结果更为准确。
S104:选择验证结果最优的预设模型作为企业发票数量预测模型,并利用企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量。
需要说明的是,针对于同一企业或同一批次企业,步骤S101-S103仅执行一次即可;
可选的,这里提到的,利用企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量,其具体可以为:
利用企业发票数量预测模型根据输入的企业属性值对该企业发票数量进行预测,得到企业发票数量的第一预测数量;
可选的,当用户发现发票预测数目与实际数目相差较大时,还可以输入模型修正指令,以使系统执行该模型修正指令,对该企业发票数量预测模型中的相关参数进行修正,以提高企业发票数量的预测准确度。
基于上述技术方案,本申请所提供的一种企业发票数量预测的方法,通过根据企业发票数据表建立训练数据集和验证数据集,然后利用训练数据集训练各预设模型,并利用验证数据集对各训练后的预设模型进行验证,最后选择验证结果最优的预设模型作为企业发票数量预测模型,并利用企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量,本申请利用机器学习挖掘企业发票数量与企业属性、发票内容(如发票的金额、税额等信息)的关系,从而实现了企业发票数量的准确预测,能够精准地辅助税务人员为企业开票,降低企业偷漏税风险,同时可以保证企业有足够的发票可用。另外,本申请效率高,可以快速地帮助税务人员分析出企业的发票用量,缓解税务大厅拥堵现象。
基于上述实施例,步骤S104中利用企业发票数量预测模型进行预测,得到了企业发票数量的第一预测数量,然而,由于模型训练过程中所使用的训练数据集和验证数据集可能包含着若干企业的数据,利用该企业发票数量预测模型对某一企业的发票数量进行预测时,可能存在着数量误差较大的情况,故本申请实施例结合时间序列模型的预测结果对预测发票预测数量进行修正,下面结合图2进行详细说明。
请参考图2,图2为本申请实施例所提供的另一种企业发票数量预测的方法的流程图。
在步骤S104之后,其具体包括以下步骤:
S201:根据企业发票数据表确定企业发票数量的历史波动范围;
S202:判断第一预测数量是否在历史波动范围内;
若是,则进入步骤S203;若否,则进入步骤S204。
S203:将第一预测数量作为企业发票数量的最优预测数量;
当第一预测数量在企业发票数量的历史波动范围内时,则证明第一预测数量与企业发票的实际数量误差不大,此时将第一预测数量作为企业发票数量的最优预测数量供税务人员进行参考。
S204:利用预设时间序列模型对企业发票数量进行预测,得到企业发票数量的第二预测数量,并将第二预测数量作为企业发票数量的最优预测数量。
当第一预测数量不在企业发票数量的历史波动范围内时,则证明第一预测数量与企业发票的实际数量误差较大,此时利用预设时间序列模型对企业发票数量进行预测,得到企业发票数量的第二预测数量,并将第二预测数量作为企业发票数量的最优预测数量供税务人员进行参考,以降低预测误差。
基于上述实施例,请参考图3,图3为图1所提供的一种企业发票数量预测的方法中S101的一种实际表现方式的流程图;本实施例是针对上一实施例的S101,是对S101描述的内容做出了具体实现方式的描述,下面为图3所示的流程图,其具体包括以下步骤:
S301:获取企业发票数据表中的企业申请审批类表,并根据企业申请审批类表确定企业静态属性值;
这里提到的企业静态属性值包括企业的行业代码、企业登记注册类型、增值税企业类型代码、企业注册资本、企业年龄、企业资格类型代码中的至少一项,
S302:根据企业发票数据表建立各预设字段的数据透视表,并根据各预设字段的数据透视表确定企业动态属性值;
这里提到的预设字段具体可以为开票数量、开票金额、开票税额、红字开票金额等,本申请根据企业发票数据表建立各预设字段的数据透视表,如企业开票数量分布表、企业开票金额表、企业开票税额表、企业红字开票金额表等,并根据各预设字段的数据透视表确定企业动态属性值;
这里提到的企业动态属性值具体可以包括企业开票营业额、企业税额中的至少一项。
S303:根据企业静态属性值和企业动态属性值建立企业属性联合表。
本申请实施例在确定了企业静态属性值和企业动态属性值之后,建立包含了企业静态属性值和企业动态属性的企业属性联合表,便于机器学习挖掘企业发票数量与企业属性的关系,进而实现企业发票数量的准确预测。
基于上述实施例,请参考图4,图4为图1所提供的一种企业发票数量预测的方法中S102的一种实际表现方式的流程图;本实施例是针对上一实施例的S102,是对S102描述的内容做出了具体实现方式的描述,下面为图3所示的流程图,其具体包括以下步骤:
S401:根据数据的分布特征在企业属性联合表中进行数据筛选,得到企业数据表;
这里提到的,根据数据的分布特征在企业属性联合表中进行数据筛选,得到企业数据表,其目的在于得到具有持续开票历史的企业数据以及开票数量不在离群点的企业数据,即将处于离群点的企业以及税务人员提供的白名单企业删除,防止其影响预设模型的训练和验证,进而影响到企业发票数量预测模型的预测准确度。
S402:对企业数据表进行特征构建,得到数据特征表;
这里提到的特征构建即为获取到企业数据表的特征,并据其建立数据特征表;
可选的,这里提到的对企业数据表进行特征构建,得到数据特征表,其具体可以为:
根据企业数据表中的已有特征构建新特征;其中,新特征包括红字发票所占比例、红字发票金额所占比例、未开票金额与开票金额比例中的至少一项;
将新特征添加到企业数据表中,得到数据特征表。
S403:将数据特征表按时间属性进行分割,得到训练数据集和验证数据集。
进一步的,请参考图5,图5为图1所提供的一种企业发票数量预测的方法中S102的另一种实际表现方式的流程图。
在上述步骤S403之后,还包括如下步骤:
S501:接收输入的数据特征表的缺失值补充命令;
S502:根据缺失值补充命令确定补充值及待补充位置;
S503:将补充值添加至待补充位置中。
在得到数据特征表之后,本申请实施例还可以接收输入的数据特征表的缺失值补充命令,并根据该缺失值补充命令确定补充值及待补充位置,最后将补充值添加至待补充位置中,避免影响到训练数据集和验证数据集的建立,进而影响到预设模型的训练和验证。
请参考图6,图6为本申请实施例所提供的一种企业发票数量预测的系统的结构图。
该系统可以包括:
预处理模块100,用于获取数据库中的企业发票数据表,并对企业发票数据表进行预处理操作,得到企业属性联合表;
建立模块200,用于根据企业属性联合表建立训练数据集和验证数据集;
训练及验证模块300,用于利用训练数据集训练各预设模型,并利用验证数据集对各训练后的预设模型进行验证;
预测模块400,用于选择验证结果最优的预设模型作为企业发票数量预测模型,并利用企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量。
请参考图7,图7为本申请实施例所提供的另一种企业发票数量预测的系统的结构图。
该系统还可以包括:
第一确定模块,用于根据企业发票数据表确定企业发票数量的历史波动范围;
判断模块,用于判断第一预测数量是否在历史波动范围内;
第二确定模块,用于当第一预测数量在历史波动范围内时,将第一预测数量作为企业发票数量的最优预测数量;当第一预测数量不在历史波动范围内时,利用预设时间序列模型对企业发票数量进行预测,得到企业发票数量的第二预测数量,并将第二预测数量作为企业发票数量的最优预测数量。
该预处理模块100可以包括:
获取子模块,用于获取企业发票数据表中的企业申请审批类表,并根据企业申请审批类表确定企业静态属性值;其中,企业静态属性值包括企业的行业代码、企业登记注册类型、增值税企业类型代码、企业注册资本、企业年龄、企业资格类型代码中的至少一项;
第一建立子模块,用于根据企业发票数据表建立各预设字段的数据透视表,并根据各预设字段的数据透视表确定企业动态属性值;其中,企业动态属性值包括企业开票营业额、企业税额中的至少一项;
第二建立子模块,用于根据企业静态属性值和企业动态属性值建立企业属性联合表。
该建立模块200可以包括:
筛选子模块,用于根据数据的分布特征在企业属性联合表中进行数据筛选,得到企业数据表;
特征构建子模块,用于对企业数据表进行特征构建,得到数据特征表;
分割子模块,用于将数据特征表按时间属性进行分割,得到训练数据集和验证数据集。
该特征构建子模块可以包括:
新特征构建单元,用于根据企业数据表中的已有特征构建新特征;其中,新特征包括红字发票所占比例、红字发票金额所占比例、未开票金额与开票金额比例中的至少一项;
新特征添加单元,用于将新特征添加到企业数据表中,得到数据特征表。
进一步的,该特征构建子模块还可以包括:
接收单元,用于接收输入的数据特征表的缺失值补充命令;
确定单元,用于根据缺失值补充命令确定补充值及待补充位置;
添加单元,用于将补充值添加至待补充位置中。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
请参考图8,图8为本申请实施例所提供的一种企业发票数量预测设备的结构图。
该企业发票数量预测设备822可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对系统中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在企业发票数量预测设备800上执行存储介质830中的一系列指令操作。
企业发票数量预测设备800还可以包括一个或一个以上电源828,一个或一个以上有线或无线网络接口880,一个或一个以上输入输出接口888,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述图1至图5所描述的企业发票数量预测的方法中的步骤由企业发票数量预测的设备基于该图8所示的结构实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,系统和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用系统,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种企业发票数量预测的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (8)
1.一种企业发票数量预测的方法,其特征在于,包括:
获取数据库中的企业发票数据表,并对所述企业发票数据表进行预处理操作,得到企业属性联合表;
根据所述企业属性联合表建立训练数据集和验证数据集;
利用所述训练数据集训练各预设模型,并利用所述验证数据集对各训练后的预设模型进行验证;
选择验证结果最优的预设模型作为企业发票数量预测模型,并利用所述企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量;
其中,根据所述企业属性联合表建立训练数据集和验证数据集,包括:
根据数据的分布特征在所述企业属性联合表中进行数据筛选,得到企业数据表;
对所述企业数据表进行特征构建,得到数据特征表;
将所述数据特征表按时间属性进行分割,得到所述训练数据集和所述验证数据集;
其中,对所述企业数据表进行特征构建,得到数据特征表,包括:
根据所述企业数据表中的已有特征构建新特征;其中,所述新特征包括红字发票所占比例、红字发票金额所占比例、未开票金额与开票金额比例中的至少一项;
将所述新特征添加到所述企业数据表中,得到所述数据特征表。
2.根据权利要求1所述的方法,其特征在于,在得到企业发票数量的第一预测数量之后,还包括:
根据所述企业发票数据表确定所述企业发票数量的历史波动范围;
判断所述第一预测数量是否在所述历史波动范围内;
若是,则将所述第一预测数量作为企业发票数量的最优预测数量;
若否,则利用预设时间序列模型对企业发票数量进行预测,得到所述企业发票数量的第二预测数量,并将所述第二预测数量作为所述企业发票数量的最优预测数量。
3.根据权利要求1所述的方法,其特征在于,对所述企业发票数据表进行预处理操作,得到企业属性联合表,包括:
获取所述企业发票数据表中的企业申请审批类表,并根据所述企业申请审批类表确定企业静态属性值;其中,所述企业静态属性值包括企业的行业代码、企业登记注册类型、增值税企业类型代码、企业注册资本、企业年龄、企业资格类型代码中的至少一项;
根据所述企业发票数据表建立各预设字段的数据透视表,并根据所述各预设字段的数据透视表确定企业动态属性值;其中,所述企业动态属性值包括企业开票营业额、企业税额中的至少一项;
根据所述企业静态属性值和所述企业动态属性值建立所述企业属性联合表。
4.根据权利要求1所述的方法,其特征在于,在得到所述数据特征表之后,还包括:
接收输入的所述数据特征表的缺失值补充命令;
根据所述缺失值补充命令确定补充值及待补充位置;
将所述补充值添加至所述待补充位置中。
5.根据权利要求1所述的方法,其特征在于,所述预设模型具体为极限提升树模型。
6.一种企业发票数量预测的系统,其特征在于,包括:
预处理模块,用于获取数据库中的企业发票数据表,并对所述企业发票数据表进行预处理操作,得到企业属性联合表;
建立模块,用于根据所述企业属性联合表建立训练数据集和验证数据集;
训练及验证模块,用于利用所述训练数据集训练各预设模型,并利用所述验证数据集对各训练后的预设模型进行验证;
预测模块,用于选择验证结果最优的预设模型作为企业发票数量预测模型,并利用所述企业发票数量预测模型进行预测,得到企业发票数量的第一预测数量;
其中,根据所述企业属性联合表建立训练数据集和验证数据集,包括:
根据数据的分布特征在所述企业属性联合表中进行数据筛选,得到企业数据表;
对所述企业数据表进行特征构建,得到数据特征表;
将所述数据特征表按时间属性进行分割,得到所述训练数据集和所述验证数据集;
其中,对所述企业数据表进行特征构建,得到数据特征表,包括:
根据所述企业数据表中的已有特征构建新特征;其中,所述新特征包括红字发票所占比例、红字发票金额所占比例、未开票金额与开票金额比例中的至少一项;
将所述新特征添加到所述企业数据表中,得到所述数据特征表。
7.一种企业发票数量预测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述企业发票数量预测的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述企业发票数量预测的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811518854.3A CN109636036B (zh) | 2018-12-12 | 2018-12-12 | 一种企业发票数量预测的方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811518854.3A CN109636036B (zh) | 2018-12-12 | 2018-12-12 | 一种企业发票数量预测的方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109636036A CN109636036A (zh) | 2019-04-16 |
CN109636036B true CN109636036B (zh) | 2021-03-26 |
Family
ID=66073276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811518854.3A Active CN109636036B (zh) | 2018-12-12 | 2018-12-12 | 一种企业发票数量预测的方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109636036B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458633B (zh) * | 2019-08-20 | 2022-04-01 | 东莞盟大集团有限公司 | 基于区块链技术的发票数据生成方法、系统和计算机设备 |
CN110992118B (zh) * | 2019-11-29 | 2024-02-06 | 远光软件股份有限公司 | 电子发票的开具方法、装置、存储介质、设备和系统 |
CN111507822A (zh) * | 2020-04-13 | 2020-08-07 | 深圳微众信用科技股份有限公司 | 一种基于特征工程的企业风险评估方法 |
CN112288158A (zh) * | 2020-10-28 | 2021-01-29 | 税友软件集团股份有限公司 | 一种业务数据预测方法及相关装置 |
CN114298427B (zh) * | 2021-12-30 | 2024-04-19 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7127425B1 (en) * | 2000-01-14 | 2006-10-24 | H & R Block Tax Services, Inc. | System and method for providing a loan to a taxpayer based on a pre year-end tax refund |
CN101901448A (zh) * | 2010-06-30 | 2010-12-01 | 北京恒远志卓科技有限公司 | 一种新发票种销售曲线的预测方法及装置 |
CN104700304A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 通过增值税普通发票的金额监控企业逃税的方法和系统 |
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种发票虚开企业监控识别方法及系统 |
CN106934705A (zh) * | 2015-12-28 | 2017-07-07 | 航天信息股份有限公司 | 一种基于支持向量机的增值税专票疑点纳税人监控方法 |
CN107749028A (zh) * | 2017-10-11 | 2018-03-02 | 江苏税软软件科技有限公司 | 一种税务数字化稽查方法 |
CN108197758A (zh) * | 2018-01-29 | 2018-06-22 | 方欣科技有限公司 | 一种基于纳税人行为分析优化税务系统产品体验的方法 |
CN108595621A (zh) * | 2018-04-23 | 2018-09-28 | 泰华智慧产业集团股份有限公司 | 一种虚开增值税发票的预警分析方法及系统 |
CN108629516A (zh) * | 2018-05-07 | 2018-10-09 | 深圳壹账通智能科技有限公司 | 企业风险评估方法、装置、设备及可读存储介质 |
-
2018
- 2018-12-12 CN CN201811518854.3A patent/CN109636036B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7127425B1 (en) * | 2000-01-14 | 2006-10-24 | H & R Block Tax Services, Inc. | System and method for providing a loan to a taxpayer based on a pre year-end tax refund |
CN101901448A (zh) * | 2010-06-30 | 2010-12-01 | 北京恒远志卓科技有限公司 | 一种新发票种销售曲线的预测方法及装置 |
CN104700304A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 通过增值税普通发票的金额监控企业逃税的方法和系统 |
CN106934705A (zh) * | 2015-12-28 | 2017-07-07 | 航天信息股份有限公司 | 一种基于支持向量机的增值税专票疑点纳税人监控方法 |
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种发票虚开企业监控识别方法及系统 |
CN107749028A (zh) * | 2017-10-11 | 2018-03-02 | 江苏税软软件科技有限公司 | 一种税务数字化稽查方法 |
CN108197758A (zh) * | 2018-01-29 | 2018-06-22 | 方欣科技有限公司 | 一种基于纳税人行为分析优化税务系统产品体验的方法 |
CN108595621A (zh) * | 2018-04-23 | 2018-09-28 | 泰华智慧产业集团股份有限公司 | 一种虚开增值税发票的预警分析方法及系统 |
CN108629516A (zh) * | 2018-05-07 | 2018-10-09 | 深圳壹账通智能科技有限公司 | 企业风险评估方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109636036A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109636036B (zh) | 一种企业发票数量预测的方法、系统及设备 | |
CN107274231A (zh) | 数据预测方法及装置 | |
US8020147B2 (en) | Software package implementation sizing | |
CN111192144A (zh) | 一种金融数据预测方法、装置、设备及存储介质 | |
CN113362025B (zh) | 数据核算系统、方法、计算机可读存储介质、电子设备 | |
CN110020773A (zh) | 一种数据处理方法、设备及计算机可读介质 | |
CN109345166B (zh) | 用于生成信息的方法和装置 | |
CN107103453A (zh) | 公用薪酬计算方法和系统 | |
CN109598631B (zh) | 基于社保政策的人力资源外包客户账单生成方法及生成系统 | |
CN110503564A (zh) | 基于大数据的保全案件处理方法、系统、设备及存储介质 | |
CN111951045A (zh) | 一种基于大数据的电费核算方法及装置 | |
CN110555758A (zh) | 一种企业财税智能管理系统 | |
CN111367982A (zh) | 导入tririga基础数据的方法、装置、计算机设备及存储介质 | |
EP4207018A1 (en) | Stocking quantity determination method and apparatus, and computer storage medium and electronic device | |
CN104573127B (zh) | 评估数据差异性的方法和系统 | |
CN109583773A (zh) | 一种纳税信用积分确定的方法、系统及相关装置 | |
US20230385820A1 (en) | Methods and Systems for Predicting Cash Flow | |
WO2021207780A1 (en) | Systems, computer-implemented methods and computer programs for capital management | |
CN116777592A (zh) | 一种金融业务审批方法、装置、设备和存储介质 | |
CN114723145B (zh) | 基于交易量确定智能柜台数量的方法及系统 | |
CN112637793B (zh) | 一种基于5g的场景化计费方法、系统、电子设备和存储介质 | |
CN112416983B (zh) | 一种数据处理方法及装置、计算机可读存储介质 | |
CN110851717A (zh) | 一种迷你仓位的推荐方法、设备及介质 | |
CN113592263A (zh) | 基于动态资源归还增比的资源归还增量预测方法和装置 | |
CN115082179A (zh) | 一种数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210310 Address after: Room 708, 268 Xiangke Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120 Applicant after: 17WIN NETWORK TECHNOLOGY Co.,Ltd. Address before: 310053 no.3738, South Ring Road, Puyan street, Binjiang District, Hangzhou City, Zhejiang Province Applicant before: SERVYOU SOFTWARE GROUP Co.,Ltd. Applicant before: 17WIN NETWORK TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |