CN109933614A - 一种基于大数据行为分析的电子税务局数据预处理方法 - Google Patents
一种基于大数据行为分析的电子税务局数据预处理方法 Download PDFInfo
- Publication number
- CN109933614A CN109933614A CN201910102569.1A CN201910102569A CN109933614A CN 109933614 A CN109933614 A CN 109933614A CN 201910102569 A CN201910102569 A CN 201910102569A CN 109933614 A CN109933614 A CN 109933614A
- Authority
- CN
- China
- Prior art keywords
- tax
- data
- taxpayer
- batch processing
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据行为分析的电子税务局数据预处理方法。该方法包括:办税行为分类步骤:根据纳税人办税行为构建不同业务下的纳税人办税行为模型,以将不同业务下的纳税人进行行为分类;办税行为时间优化步骤:根据办税行为分类结果,将每一类的聚类频次均值分布纳入纳税人办税行为模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间进行分类;数据预处理步骤,在业务流程梳理的基础上,根据纳税人办税行为模型的批处理时间分类结果,分别进行数据预处理。本发明提供的数据预处理方法以削峰填谷为目标,充分利用夜间或闲暇时间资源,对电子税务局相关业务数据分流预处理,提高各业务场景的办税效率。
Description
技术领域
本发明属于数据处理技术领域,特别是涉及一种基于大数据行为分析的数据预处理方法。
背景技术
随着互联网的不断发展,纳税人办税逐渐从实体办税厅转移到网上办税,电子税务局作为纳税人网上办税的主要渠道,在纳税人高并发办税的情况下,其办理效率变得至关重要。数据预处理可以直接提高纳税人在电子税务局的办税效率。而如何应用大数据处理技术成为提高电子税务局办税效率的关键。
目前很多电子税务局主要针对申报等业务将相关发票等数据进行预处理,具有业务局限性。当很多纳税人在同一时段集中办理业务时,还是会造成电子税务局客户端频繁与后台数据交互,增大后台数据处理压力,降低办税效率。
发明内容
基于现有书中存在的问题,本发明的目的是提供一种基于大数据行为分析的电子税务局数据预处理方法,在充分利用系统闲暇时间资源基础上进行数据预处理,提高纳税人在电子税务局的办税效率。
为实现上述目的,本发明采用的技术方案如下:
一种基于大数据行为分析的电子税务局数据预处理方法,其特征在于,包括:
办税行为分类步骤:根据纳税人办税行为构建不同业务下的纳税人办税行为模型,以将不同业务下的纳税人进行行为分类;
办税行为时间优化步骤:根据办税行为分类结果,将每一类的聚类频次均值分布纳入纳税人办税行为模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间进行分类;
数据预处理步骤,在业务流程梳理的基础上,根据纳税人办税行为模型的批处理时间分类结果,分别进行数据预处理。
进一步的,办税行为分类步骤中,所述的纳税人办税行为是指纳税人针对某一业务在近一年内每月的办理频次。
进一步的,办税行为分类步骤中,所述的构建纳税人办税行为模型是指利用k-means算法,将纳税人办税行为数据进行聚类,以便得到纳税人的办税行为特征。
进一步的,所述的办税行为时间优化步骤,批处理时间分为按日批处理、按周批处理、按月批处理。批处理时间的选取具体包括以下四种:
某一类的频次均值等于0,则不做批处理;若只有某几个月的频次等于0,则只对这几个月不做批处理;
某一类的频次均值大于0且小于1,则按月批处理;若只有某几个月的频次大于0且小于1,则只在这几个月进行按月批处理;
某一类的频次均值大于1且小于4,则按周批处理;若只有某几个月的频次大于1且小于4,则只在这几个月进行按周批处理;
某一类的频次均值大于4,则按日批处理;若只有某几个月的频次大于4,则只在这几个月进行按日批处理。
进一步的,若某一类在每个月的频次均值存在四种的混合情况,则对每个月份按照其频次均值分别进行不做批处理、按月批处理、按周批处理、按日批处理。
进一步的,所述数据预处理步骤具体包括:
基于电子税务局业务系统数据,将电子税务局客户端每个业务处理对应的服务端的数据以及程序进行梳理;服务端数据项应用于多个业务,可复用,保证同一个数据的出口一致;
根据以上数据批处理的分类,在某一业务的某一分类的预处理时间开始时,将该分类对应的所有纳税人的电子税务局客户端待处理的数据集传至服务端,由服务端的程序将数据集进行加载,启动相关交互程序处理数据集生成客户端需要的结果数据存储待用,完成数据预处理;
其中,某一业务的某一分类的预处理时间选择夜间或者闲暇资源。
作为本发明的一种优选方式,本发明的方法还包括办税行为诊断步骤,是对构建好的纳税人办税行为模型进行评价、诊断,实现纳税人办税行为分类最优化。
进一步的,所述的办税行为诊断具体方法如下:计算SSE:
其中,uj为第j簇的质心;
重复执行几次k-means算法,选取SSE最小的一次作为最终的聚类结果。
本发明提供的一种基于大数据行为分析的电子税务局数据预处理方法,通过对纳税人的办税行为分析,将涉税业务、纳税人、办税频次、预处理时间分别对应分析,同一涉税业务针对不同纳税人分类群体,根据其办税频次分析进行数据预处理的时间不同,合理将预处理时间进行分流,避免不必要的数据预处理。
附图说明
图1为本发明实施例基于大数据行为分析的电子税务局数据预处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于大数据行为分析的电子税务局数据预处理方法,充分利用夜间或闲暇时间资源,对电子税务局相关业务数据分流预处理,提高各业务场景的办税效率。
图1为本发明实施例基于大数据行为分析的电子税务局数据预处理方法的流程图,如图1所示,本发明提供的基于大数据行为分析的电子税务局数据预处理方法,包括以下步骤:
步骤101:办税行为分类,针对某一业务将纳税人近一年内每月的办理频次进行提取;利用k-means算法,将纳税人办税行为数据进行聚类,构建出纳税人办税行为模型,以便得到纳税人的办税行为特征,将不同业务下的纳税人进行行为分类;
步骤102:办税行为诊断,对上述步骤构建好的纳税人办税行为模型进行评价、诊断,实现划分效果最优化。
k-means算法评价准则是基于欧几里得距离,使得簇内误差平方和(within-cluster sum of squared errors,SSE)最小;特别地,但是由于SSE是一个非凸函数,只能确保局部最优解。通过重复执行几次k-means算法,选取SSE最小的一次作为最终的聚类结果。
其中,uj为第j簇的质心。
步骤103:办税行为时间优化,在办税行为分类结果的基础上,将每一类的聚类频次均值分布纳入模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间分为按日批处理、按周批处理、按月批处理等;批处理时间选取方式具体包括:
某一类的频次均值等于0,则不做预处理;进一步地,若只有某几个月的频次等于0,则只对这几个月不做批处理;
某一类的频次均值大于0且小于1,则按月批处理;进一步地,若只有某几个月的频次大于0且小于1,则只在这几个月进行按月批处理;
某一类的频次均值大于1且小于4,则按周批处理;进一步地,若只有某几个月的频次大于1且小于4,则只在这几个月进行按周批处理;
某一类的频次均值大于4,则按日批处理;进一步地,若只有某几个月的频次大于4,则只在这几个月进行按日批处理;
若某一类在每个月的频次均值存在以上四种的混合情况,则对每个月份按照其频次均值分别进行不做批处理、按月批处理、按周批处理、按日批处理。
步骤104:数据预处理,在业务流程梳理的基础上,根据办税行为分析模型的批处理时间分类结果,分别进行数据预处理,具体包括:基于电子税务局业务系统数据,将电子税务局客户端每个业务处理对应的服务端的数据以及程序进行梳理,服务端数据项应用于多个业务,可复用,保证同一个数据的出口一致;根据以上数据批处理的分类,在某一业务的某一分类的预处理时间开始时,将该分类对应的所有纳税人的电子税务局客户端待处理的数据集传至服务端,由服务端的程序将数据集进行加载,启动相关交互程序处理数据集生成客户端需要的结果数据存储待用,完成数据预处理;其中,某一业务的某一分类的预处理时间一般选择夜间或者闲暇资源。
本发明提供的基于大数据行为分析的电子税务局数据预处理技术通过对纳税人的办税行为分析,将涉税业务、纳税人、办税频次、预处理时间分别对应分析,同一涉税业务针对不同纳税人分类群体,根据其办税频次分析进行数据预处理的时间不同,合理将预处理时间进行分流,避免不必要的数据预处理。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种基于大数据行为分析的电子税务局数据预处理方法,其特征在于,包括:
办税行为分类步骤:根据纳税人办税行为构建不同业务下的纳税人办税行为模型,以将不同业务下的纳税人进行行为分类;
办税行为时间优化步骤:根据办税行为分类结果,将每一类的聚类频次均值分布纳入纳税人办税行为模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间进行分类;
数据预处理步骤,在业务流程梳理的基础上,根据纳税人办税行为模型的批处理时间分类结果,分别进行数据预处理。
2.根据权利要求1所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,办税行为分类步骤中,所述的纳税人办税行为是指纳税人针对某一业务在近一年内每月的办理频次。
3.根据权利要求2所述的基于大数据行为分析的电子税务局数据预处理方法,其特征在于,办税行为分类步骤中,所述的构建纳税人办税行为模型是指利用k-means算法,将纳税人办税行为数据进行聚类,以便得到纳税人的办税行为特征。
4.据权利要求1所述的基于大数据行为分析的电子税务局数据预处理技术,其特征在于,所述的办税行为时间优化步骤,批处理时间分为按日批处理、按周批处理、按月批处理。
5.根据权利要求4所述的据权利要求1所述的基于大数据行为分析的电子税务局数据预处理技术,其特征在于,批处理时间的选取包括以下四种:
某一类的频次均值等于0,则不做批处理;若只有某几个月的频次等于0,则只对这几个月不做批处理;
某一类的频次均值大于0且小于1,则按月批处理;若只有某几个月的频次大于0且小于1,则只在这几个月进行按月批处理;
某一类的频次均值大于1且小于4,则按周批处理;若只有某几个月的频次大于1且小于4,则只在这几个月进行按周批处理;
某一类的频次均值大于4,则按日批处理;若只有某几个月的频次大于4,则只在这几个月进行按日批处理。
6.据权利要求5所述的基于大数据行为分析的电子税务局数据预处理技术,其特征在于,若某一类在每个月的频次均值存在四种的混合情况,则对每个月份按照其频次均值分别进行不做批处理、按月批处理、按周批处理、按日批处理。
7.根据权利要求6所述的基于大数据行为分析的电子税务局数据预处理技术,其特征在于,所述数据预处理步骤具体包括:
基于电子税务局业务系统数据,将电子税务局客户端每个业务处理对应的服务端的数据以及程序进行梳理;服务端数据项应用于多个业务,可复用,保证同一个数据的出口一致;
根据以上数据批处理的分类,在某一业务的某一分类的预处理时间开始时,将该分类对应的所有纳税人的电子税务局客户端待处理的数据集传至服务端,由服务端的程序将数据集进行加载,启动相关交互程序处理数据集生成客户端需要的结果数据存储待用,完成数据预处理;
其中,某一业务的某一分类的预处理时间选择夜间或者闲暇资源。
8.根据权利要求3-7任一项所述的基于大数据行为分析的电子税务局数据预处理技术,其特征在于,还包括办税行为诊断步骤,是对构建好的纳税人办税行为模型进行评价、诊断,实现纳税人办税行为分类最优化。
9.根据权利要求所述的基于大数据行为分析的电子税务局数据预处理技术,其特征在于,所述的办税行为诊断的具体方法如下:计算SSE
其中,uj为第j簇的质心;
重复执行几次k-means算法,选取SSE最小的一次作为最终的聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910102569.1A CN109933614B (zh) | 2019-02-01 | 2019-02-01 | 一种基于大数据行为分析的电子税务局数据预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910102569.1A CN109933614B (zh) | 2019-02-01 | 2019-02-01 | 一种基于大数据行为分析的电子税务局数据预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933614A true CN109933614A (zh) | 2019-06-25 |
CN109933614B CN109933614B (zh) | 2021-08-06 |
Family
ID=66985481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910102569.1A Active CN109933614B (zh) | 2019-02-01 | 2019-02-01 | 一种基于大数据行为分析的电子税务局数据预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933614B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577480A (zh) * | 2012-08-07 | 2014-02-12 | 中国银联股份有限公司 | 一种参数划分系统及其方法、一种业务处理系统及其方法 |
CN103729557A (zh) * | 2013-12-25 | 2014-04-16 | 大连理工大学 | 基于psd-bpa的静态n-x批处理方法 |
CN104021194A (zh) * | 2014-06-13 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 一种面向行业大数据多样性应用的混合型处理系统及处理方法 |
CN105449671A (zh) * | 2015-12-14 | 2016-03-30 | 国网智能电网研究院 | 一种电力用户电能质量经济性评价系统 |
CN105653354A (zh) * | 2015-12-28 | 2016-06-08 | 北京金山安全软件有限公司 | 一种批处理的方法及装置 |
CN106484800A (zh) * | 2016-09-22 | 2017-03-08 | 济南浪潮高新科技投资发展有限公司 | 一种高效归集多系统大数据的实现方法 |
CN106844507A (zh) * | 2016-12-27 | 2017-06-13 | 星环信息科技(上海)有限公司 | 一种数据批处理的方法及设备 |
CN107025573A (zh) * | 2017-02-28 | 2017-08-08 | 广州地理研究所 | 一种驾培计时收费的学员分类调度方法和装置 |
CN107067324A (zh) * | 2017-04-18 | 2017-08-18 | 上海翼翎数据信息技术有限公司 | 一种利用网络抓包数据实现交易风险控制的方法和系统 |
CN108229733A (zh) * | 2017-12-21 | 2018-06-29 | 中南大学 | 一种考虑用户满意度评价的电动汽车充电调度方法 |
US20180365081A1 (en) * | 2016-05-31 | 2018-12-20 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for Application Action Synchronization, Terminal Device, and Storage Medium |
-
2019
- 2019-02-01 CN CN201910102569.1A patent/CN109933614B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577480A (zh) * | 2012-08-07 | 2014-02-12 | 中国银联股份有限公司 | 一种参数划分系统及其方法、一种业务处理系统及其方法 |
CN103729557A (zh) * | 2013-12-25 | 2014-04-16 | 大连理工大学 | 基于psd-bpa的静态n-x批处理方法 |
CN104021194A (zh) * | 2014-06-13 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 一种面向行业大数据多样性应用的混合型处理系统及处理方法 |
CN105449671A (zh) * | 2015-12-14 | 2016-03-30 | 国网智能电网研究院 | 一种电力用户电能质量经济性评价系统 |
CN105653354A (zh) * | 2015-12-28 | 2016-06-08 | 北京金山安全软件有限公司 | 一种批处理的方法及装置 |
US20180365081A1 (en) * | 2016-05-31 | 2018-12-20 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for Application Action Synchronization, Terminal Device, and Storage Medium |
CN106484800A (zh) * | 2016-09-22 | 2017-03-08 | 济南浪潮高新科技投资发展有限公司 | 一种高效归集多系统大数据的实现方法 |
CN106844507A (zh) * | 2016-12-27 | 2017-06-13 | 星环信息科技(上海)有限公司 | 一种数据批处理的方法及设备 |
CN107025573A (zh) * | 2017-02-28 | 2017-08-08 | 广州地理研究所 | 一种驾培计时收费的学员分类调度方法和装置 |
CN107067324A (zh) * | 2017-04-18 | 2017-08-18 | 上海翼翎数据信息技术有限公司 | 一种利用网络抓包数据实现交易风险控制的方法和系统 |
CN108229733A (zh) * | 2017-12-21 | 2018-06-29 | 中南大学 | 一种考虑用户满意度评价的电动汽车充电调度方法 |
Non-Patent Citations (1)
Title |
---|
赖欢欢: "基于连续时间的批处理调度研究及应用", 《万方数据》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109933614B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11004157B2 (en) | XBRL-based intelligent financial cloud platform system, construction method and business implementation method thereof | |
CN107766929B (zh) | 模型分析方法及装置 | |
US7640273B2 (en) | Business intelligence data reconciliation system | |
US6256624B1 (en) | Computing system for operating report production facilities | |
CN107229693A (zh) | 基于深度学习的大数据系统配置参数调优的方法和系统 | |
CN110147361A (zh) | 大数据环境下实现主数据编码规则维护功能的系统及其方法 | |
CN110807059A (zh) | 一种财务共享模式下的会计凭证转换装置及其方法 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN106384280B (zh) | 一种人工智能记账系统及其计算方法 | |
CN114841788B (zh) | 一种工程项目建设管理竣工决算全过程管理系统 | |
CN109948913A (zh) | 一种基于双层的xgboost算法的多源特征电力用户综合画像系统 | |
Sadik-Zada et al. | Privatization and the role of sub-national governments in the Latin American power sector: A plea for less subsidiarity? | |
CN115619234A (zh) | 一种投票处理方法、装置和存储介质 | |
CN112990721B (zh) | 一种基于缴费行为的电力用户价值分析方法及系统 | |
CN105991298B (zh) | 一种重做话单的方法和装置 | |
CN109933614A (zh) | 一种基于大数据行为分析的电子税务局数据预处理方法 | |
WO2024011864A1 (zh) | 公交线路排班的处理方法、装置、设备及可读存储介质 | |
Jiao et al. | An integration model for generating and selecting product configuration plans | |
CN115860958A (zh) | 一种债券资产规模配置的系统及方法 | |
CN115577274A (zh) | 一种基于多维度特征的企业批量聚类方法和系统 | |
CN114971380A (zh) | 一种共享储能电站商业化运营模式的评价方法及系统 | |
US20110320225A1 (en) | Method and apparatus for automatic healthplan data retrieval and reconciliation using a processing device | |
CN1588405A (zh) | 用于风险控制系统的数据处理装置及方法 | |
CN113377823A (zh) | 价值数据处理方法、装置、设备及存储介质 | |
CN109359825A (zh) | 银行数字化运营产品价值分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210708 Address after: 266000 2nd floor, 79 Xuzhou Road, Qingdao, Shandong Province Applicant after: QINGDAO WEIZHIHUI INFORMATION Co.,Ltd. Address before: 266071 2 / F, curiosity workshop, 79 Xuzhou Road, Qingdao, Shandong Province Applicant before: Wang Yaping |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |