CN111192122A - 一种基于协同过滤的进销项差异度计算的方法及系统 - Google Patents
一种基于协同过滤的进销项差异度计算的方法及系统 Download PDFInfo
- Publication number
- CN111192122A CN111192122A CN201911354963.0A CN201911354963A CN111192122A CN 111192122 A CN111192122 A CN 111192122A CN 201911354963 A CN201911354963 A CN 201911354963A CN 111192122 A CN111192122 A CN 111192122A
- Authority
- CN
- China
- Prior art keywords
- commodity
- entry
- sales
- taxpayer
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000001914 filtration Methods 0.000 title claims abstract description 59
- 239000011159 matrix material Substances 0.000 claims abstract description 127
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000002776 aggregation Effects 0.000 claims description 43
- 238000004220 aggregation Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 21
- 238000004140 cleaning Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000977 initiatory effect Effects 0.000 claims 2
- 230000006399 behavior Effects 0.000 description 19
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Economics (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于协同过滤的进销项差异度计算的方法及系统,其中方法包括:将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;将销项商品评分矩阵和商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。
Description
技术领域
本发明涉及技术领域税务数据监管技术领域,更具体地,涉及一种基于协同过滤的进销项差异度计算的方法及系统。
背景技术
我国的国税地税征管体制改革以后,新税务机构正式运行的第一年,税收征管环境正在发生着巨大的变化,随着减税降费政策的贯彻执行,必然伴生的是利用金税三期系统、大数据和信息化手段加强税收征管与税务稽查的力度。在虚开行为中,进销项比对是一个重要指标。现在大数据和人工智能技术逐渐成熟,如何结合新技术提高进销项比对准确性是现阶段亟需解决的问题。现有的进销项比对是基于进销项商品编码比对来实现的,存在两个缺点:首先该方法是通过对纳税人购进和销售的商品编码进行简单比对,没有考虑充分发挥税务大数据的优势。另外,该方法对于进销项不完全一致的情况,缺少一个准确进销项差异度度量,无法满足精确监控的要求。
现有技术(申请号:CN201611219220.9)公开了一种用于计算进项物品列表和销项物品列表之间差异度的方法,方法包括:进行进项物品的数据准备并且执行进项数据查询,对纳税人按照物品名称和单位进行分组统计,得到进项数据的集合;进行销项物品的数据准备并且执行销项数据查询,对纳税人按照物品名称和单位进行分组统计,得到销项数据的集合;读取进项物品的列表和销项物品的列表,将进项物品的列表和销项物品的列表按照纳税人的识别号进行分组,得到每个纳税人的进项物品集合和销项物品集合;获取同一纳税人的进项物品集合和销项物品集合,对进项物品集合和销项物品集合进行数据分析,得到多个税额差异度;以及将同一纳税人的多个税额差异度相加,以获得进项数据和销项数据之间差异度集合。然而,现有技术步骤繁琐,人力物力投入大,效率低。
因此,需要一种技术,以实现基于协同过滤的进销项差异度计算的方法。
发明内容
本发明技术方案提供一种基于协同过滤的进销项差异度计算的方法及系统,以解决如何基于协同过滤进行进销项差异度计算的问题。
为了解决上述问题,本发明提供了一种基于协同过滤的进销项差异度计算的方法,所述方法包括:
将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;
将销项商品评分矩阵和商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;
根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。
优选地,所述方法还包括:
获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;
对所述进项发票信息表和所述销项发票信息表的数据进行清洗;
对清洗后的所述进项发票信息表和所述销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。
优选地,所述方法还包括:
对所述进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取所述进项商品最终加权评分,建立包括所述进项商品最终加权评分的进项商品评分事实表;
对所述销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取所述销项商品最终加权评分,建立包括所述销项商品最终加权评分的销项商品评分事实表。
优选地,所述方法还包括:
建立进项商品评分矩阵,所述进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;
建立销项商品评分矩阵,所述销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。
优选地,所述方法中的字段包括:购进金额、购进数量和购进频次。
基于本发明的另一方面,本申请一种基于协同过滤的进销项差异度计算的系统,所述系统包括:
第一获取单元,用于将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;
第二获取单元,用于将销项商品评分矩阵和商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;
计算单元,用于根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。
优选地,所述系统还包括初始单元,用于:
获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;
对所述进项发票信息表和所述销项发票信息表的数据进行清洗;
对清洗后的所述进项发票信息表和所述销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。
优选地,所述初始单元还用于:
对所述进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取所述进项商品最终加权评分,建立包括所述进项商品最终加权评分的进项商品评分事实表;
对所述销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取所述销项商品最终加权评分,建立包括所述销项商品最终加权评分的销项商品评分事实表。
优选地,所述初始单元还用于:
建立进项商品评分矩阵,所述进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;
建立销项商品评分矩阵,所述销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。
优选地,所述系统中的字段包括:购进金额、购进数量和购进频次。
本发明技术方案提供一种基于协同过滤的进销项差异度计算方法及系统,其中方法包括:将进项商品评分矩阵作为协同过滤算法模型的输入,对协同过滤算法模型进行训练,获取纳税人进项特征矩阵;将销项商品评分矩阵作为协同过滤算法模型的输入,对协同过滤算法模型进行训练,获取纳税人销项特征矩阵;根据纳税人进项特征矩阵的购进特征向量和纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。本发明技术方案利用TensorFlow深度学习框架来计算纳税人进销项差异度,并使用Spark来加速机器学习算法的计算效率。然后,本发明技术方案是通过对纳税人的购进和销售行为进行学习,提取其进销项行为特征,作为计算纳税人进销项差异度的依据。最后,本发明技术方案实现了数据压缩,保留了反映纳税人进销项行为特征的重要信息,能够减少冗余计算,提高了系统的处理效率,提高了进销项差异度的准确性。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的基于协同过滤的进销项差异度计算的方法流程图;
图2为根据本发明优选实施方式的基于协同过滤的进销项差异度计算的方法流程图;以及
图3为根据本发明优选实施方式的基于协同过滤的进销项差异度计算的系统结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式基于协同过滤的进销项差异度计算的方法流程图。本申请在充分挖掘纳税人进销项发票数据的基础上,利用机器学习算法对纳税人购进和销售商品行为特征进行学习和量化,进一步通过对纳税人购进和销售特征相似度比对,来达到进销项比对的目的,提供了衡量纳税人进销项差异度的依据。本申请提出了一种基于协同过滤的进销项差异度计算方法,其设计思路为:首先是获取纳税人在某一所属期内全部进销项发票数据,并根据纳税人行为分析得到训练集。然后,通过协同过滤算法对购进行为特征和商品内容特征进行学习,进一步,求解销售行为特征矩阵的问题就转化成了矩阵运算问题。最后,通过纳税人购进和销售行为特征矩阵,可以得到纳税人进销项行为差异度集合。如图1所示,本申请提供的一种基于协同过滤的进销项差异度计算的方法,方法包括:
优选地,在步骤101:将进项商品评分矩阵作为协同过滤算法模型的输入,对协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵。本申请使用Spark程序,建立进项商品评分矩阵,矩阵的每一行对应着所有纳税人索引名称,矩阵的每一列对应着购进和销售的所有商品的索引名称,将进项商品评分事实表的数据填充到矩阵中对应的位置。本申请使用Spark程序,建立销项商品评分矩阵,矩阵的每一行对应着所有纳税人索引名称,矩阵的每一列对应着购进和销售的所有商品的索引名称,将销项商品评分事实表的数据填充到矩阵中对应的位置。本申请的进销项商品矩阵的行列索引名称保持一致。
优选地,在步骤102:将销项商品评分矩阵和商品内容矩阵作为协同过滤算法模型的输入,对协同过滤算法模型进行训练,获取纳税人销项特征矩阵。本申请通过协同过滤算法学习纳税人进销项特征,由于变票虚开案件中,高风险纳税人购进商品行为特征与销售商品行为特征参数具有显著的不同,但是商品内容特征一致的,因此本发明利用这一重要信息来对纳税人进销项特征进行学习。本申请首先使用Tensorflow程序,将进项商品评分矩阵作为协同过滤算法的输入,进行模型训练,模型中的特征参数有:购进商品的特征数量,学习速率,一阶矩估计的指数衰减率,二阶矩估计的指数衰减率,数值稳定性常数和迭代次数。在模型训练中,我们使用Tensorflow中的Adam优化器对进项特征进行学习,从而得到纳税人进项特征矩阵和商品内容矩阵。
由于有了销项商品评分矩阵和商品内容矩阵,那么求解纳税人销项特征的问题就转化为基于内容的推荐问题,可以利用Tensorflow程序建立一个基于内容的推荐算法来对纳税人销项特征进行学习,从而得到纳税人销项特征矩阵。
优选地,在步骤103:根据纳税人进项特征矩阵的购进特征向量和纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。本申请的进项特征矩阵中每一行代表每个纳税人的购进特征向量,销项特征矩阵中每一行代表每个纳税人的销售特征向量。使用Spark程序,计算同一个纳税人进项和销项特征向量之间的余弦相似度,我们最后用1减去相似度就是纳税人进销项差异度。
优选地,方法还包括:获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;对进项发票信息表和销项发票信息表的数据进行清洗;对清洗后的进项发票信息表和销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。如图2所示,本申请首先获取纳税人进销项商品数据集,由于纳税人开票数据在不同的地域具有一定的差异,且随着时间会产生一定的变化,因此需要运行Spark程序,对纳税人的发票数据进行收集,获取当前所属期内每个纳税人进项和销项发票数据,包括纳税人名称、纳税人识别号、商品和服务税收分类编码、金额、物品单位、物品数量和交易时间,存入HIVE的进项发票信息表和销项发票信息表。本申请形成纳税人进销项发票聚合表,通过使用Spark程序对进项发票信息表进行数据清洗,清洗方法如下:商品和服务税收分类编码保留前7位,即取三级分类。对于同一商品的物品单位和物品数量进行标准化处理,将每个商品尽量设置成统一单位以及相应的数量。交易时间,将该字段标签化处理,购买月份。对清洗好的进项发票信息表进行聚合运算,得到纳税人在所属期内的购进商品名称、商品编码、购进金额、购进数量和购进频次,将数据存入到HIVE的进项发票聚合表。使用Spark程序对销项发票信息表进行清洗方法与进项发票信息表类似,经过聚合后得到纳税人在所属期内的销售商品名称、商品编码、销售金额、销售数量和销售频次,将数据存入到HIVE的销项发票聚合表。
优选地,方法还包括:对进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取进项商品最终加权评分,建立包括进项商品最终加权评分的进项商品评分事实表;对销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取销项商品最终加权评分,建立包括销项商品最终加权评分的销项商品评分事实表。优选地,方法中的字段包括:购进金额、购进数量和购进频次。
优选地,方法还包括:建立进项商品评分矩阵,进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;建立销项商品评分矩阵,销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。
本申请使用Spark程序,对进项发票聚合表中的购进金额、购进数量和购进频次三个字段进行min-max标准化,在得到标准化后的购买金额、购买数量和购进频次后,按照5:3:2的权重比为各个字段进行加权平均处理,得到区间[0,1]的商品加权评分结果。为了使评分结果接近实际,通过线性变换将评分映射到[0,5]区间,最后将纳税人购买的所有商品的评分存入到HIVE的进项商品评分事实表中。
本申请使用Spark程序,对销项发票聚合表中的购进金额、购进数量和购进频次三个字段进行min-max标准化,在得到标准化后的购买金额、购买数量和购进频次后,按照5:3:2的权重比为各个字段进行加权平均处理,得到区间[0,1]的商品加权评分结果。为了使评分结果接近实际,通过线性变换将评分映射到[0,5]区间,最后将纳税人销售的所有商品的评分存入到HIVE的销项商品评分事实表中。
本申请实施方式运行Spark程序,对进销项发票信息表进行数据清洗,对金额、数量和频次进行统一处理,尤其是将具有多个不同单位的商品信息进行数据清洗,统一标准化的单位和相应的数量,存入HIVE的进销项发票聚合表;本申请基于协同过滤算法,使用Tensorflow程序学习出纳税人的进项特征矩阵和商品内容矩阵;本申请将计算纳税人的销项特征矩阵的问题转化为基于内容的推荐问题,使用Tensorflow程序学习出纳税人销项特征矩阵,使复杂问题简单化,提高了数据处理的效率;本申请为每一户纳税人的购进和销售行为建立差异度模型,实现了精准监控。
本申请实施方式提供了一种基于协同过滤的进销项差异度计算方法,融合了当今热门Spark和Tensorflow计算框架,通过对纳税人购进和销售行为分析来进行进销项差异度比对,既解决了大规模数据处理问题,又填补了人工智能技术在税务大数据领域应用的空白。本申请是对国税总局现有进销项比对方法的改进,除了利用商品编码信息,还充分考虑了商品购进和销售的金额、数量、频次等因素,对纳税人购进和销售行为进行特征提取,通过对纳税人进销项行为特征的比对来计算进销项差异,实现了数据压缩,使结果更加全面、真实和客观。本申请针对每一户纳税人购进和销售行为特征进行了提取,对于有异常行为的纳税人能够进行及时预警,能够提高系统的处理效率,加强监控的针对性和准确性。
图3为根据本发明优选实施方式的基于协同过滤的进销项差异度计算的系统结构图。如图3所示,本申请提供一种基于协同过滤的进销项差异度计算的系统,系统包括:
第一获取单元301,用于将进项商品评分矩阵作为协同过滤算法模型的输入,对协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵。本申请使用Spark程序,建立进项商品评分矩阵,矩阵的每一行对应着所有纳税人索引名称,矩阵的每一列对应着购进和销售的所有商品的索引名称,将进项商品评分事实表的数据填充到矩阵中对应的位置。本申请使用Spark程序,建立销项商品评分矩阵,矩阵的每一行对应着所有纳税人索引名称,矩阵的每一列对应着购进和销售的所有商品的索引名称,将销项商品评分事实表的数据填充到矩阵中对应的位置。本申请的进销项商品矩阵的行列索引名称保持一致。
第二获取单元302,用于将销项商品评分矩阵和商品内容矩阵作为协同过滤算法模型的输入,对协同过滤算法模型进行训练,获取纳税人销项特征矩阵。本申请通过协同过滤算法学习纳税人进销项特征,由于变票虚开案件中,高风险纳税人购进商品行为特征与销售商品行为特征参数具有显著的不同,但是商品内容特征一致的,因此本发明利用这一重要信息来对纳税人进销项特征进行学习。本申请首先使用Tensorflow程序,将进项商品评分矩阵作为协同过滤算法的输入,进行模型训练,模型中的特征参数有:购进商品的特征数量,学习速率,一阶矩估计的指数衰减率,二阶矩估计的指数衰减率,数值稳定性常数和迭代次数。在模型训练中,我们使用Tensorflow中的Adam优化器对进项特征进行学习,从而得到纳税人进项特征矩阵和商品内容矩阵。
由于有了销项商品评分矩阵和商品内容矩阵,那么求解纳税人销项特征的问题就转化为基于内容的推荐问题,可以利用Tensorflow程序建立一个基于内容的推荐算法来对纳税人销项特征进行学习,从而得到纳税人销项特征矩阵。
计算单元303,用于根据纳税人进项特征矩阵的购进特征向量和纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。本申请的进项特征矩阵中每一行代表每个纳税人的购进特征向量,销项特征矩阵中每一行代表每个纳税人的销售特征向量。使用Spark程序,计算同一个纳税人进项和销项特征向量之间的余弦相似度,我们最后用1减去相似度就是纳税人进销项差异度。
优选地,系统还包括初始单元,用于:获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;对进项发票信息表和销项发票信息表的数据进行清洗;对清洗后的进项发票信息表和销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。如图2所示,本申请首先获取纳税人进销项商品数据集,由于纳税人开票数据在不同的地域具有一定的差异,且随着时间会产生一定的变化,因此需要运行Spark程序,对纳税人的发票数据进行收集,获取当前所属期内每个纳税人进项和销项发票数据,包括纳税人名称、纳税人识别号、商品和服务税收分类编码、金额、物品单位、物品数量和交易时间,存入HIVE的进项发票信息表和销项发票信息表。本申请形成纳税人进销项发票聚合表,通过使用Spark程序对进项发票信息表进行数据清洗,清洗方法如下:商品和服务税收分类编码保留前7位,即取三级分类。对于同一商品的物品单位和物品数量进行标准化处理,将每个商品尽量设置成统一单位以及相应的数量。交易时间,将该字段标签化处理,购买月份。对清洗好的进项发票信息表进行聚合运算,得到纳税人在所属期内的购进商品名称、商品编码、购进金额、购进数量和购进频次,将数据存入到HIVE的进项发票聚合表。使用Spark程序对销项发票信息表进行清洗方法与进项发票信息表类似,经过聚合后得到纳税人在所属期内的销售商品名称、商品编码、销售金额、销售数量和销售频次,将数据存入到HIVE的销项发票聚合表。
优选地,系统还包括初始单元,用于:对进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取进项商品最终加权评分,建立包括进项商品最终加权评分的进项商品评分事实表;对销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取销项商品最终加权评分,建立包括销项商品最终加权评分的销项商品评分事实表。优选地,系统中的字段包括:购进金额、购进数量和购进频次。
优选地,系统还包括初始单元,用于:建立进项商品评分矩阵,进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;建立销项商品评分矩阵,销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。
本申请使用Spark程序,对进项发票聚合表中的购进金额、购进数量和购进频次三个字段进行min-max标准化,在得到标准化后的购买金额、购买数量和购进频次后,按照5:3:2的权重比为各个字段进行加权平均处理,得到区间[0,1]的商品加权评分结果。为了使评分结果接近实际,通过线性变换将评分映射到[0,5]区间,最后将纳税人购买的所有商品的评分存入到HIVE的进项商品评分事实表中。
本申请使用Spark程序,对销项发票聚合表中的购进金额、购进数量和购进频次三个字段进行min-max标准化,在得到标准化后的购买金额、购买数量和购进频次后,按照5:3:2的权重比为各个字段进行加权平均处理,得到区间[0,1]的商品加权评分结果。为了使评分结果接近实际,通过线性变换将评分映射到[0,5]区间,最后将纳税人销售的所有商品的评分存入到HIVE的销项商品评分事实表中。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
Claims (10)
1.一种基于协同过滤的进销项差异度计算的方法,所述方法包括:
将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;
将销项商品评分矩阵和所述商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;
根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。
2.根据权利要求1所述的方法,所述方法还包括:
获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;
对所述进项发票信息表和所述销项发票信息表的数据进行清洗;
对清洗后的所述进项发票信息表和所述销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。
3.根据权利要求2所述的方法,所述方法还包括:
对所述进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取所述进项商品最终加权评分,建立包括所述进项商品最终加权评分的进项商品评分事实表;
对所述销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取所述销项商品最终加权评分,建立包括所述销项商品最终加权评分的销项商品评分事实表。
4.根据权利要求3所述的方法,所述方法还包括:
建立进项商品评分矩阵,所述进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;
建立销项商品评分矩阵,所述销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。
5.根据权利要求3所述的方法,所述方法中的字段包括:购进金额、购进数量和购进频次。
6.一种基于协同过滤的进销项差异度计算的系统,所述系统包括:
第一获取单元,用于将进项商品评分矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人进项特征矩阵和商品内容矩阵;
第二获取单元,用于将销项商品评分矩阵和所述商品内容矩阵作为协同过滤算法模型的输入,对所述协同过滤算法模型进行训练,获取纳税人销项特征矩阵;
计算单元,用于根据所述纳税人进项特征矩阵的购进特征向量和所述纳税人销项特征矩阵的销项特征向量之间的余弦相似度计算纳税人进销项差异度。
7.根据权利要求6所述的系统,所述系统还包括初始单元,用于:
获取纳税人的进项发票信息和销项发票信息,构建纳税人的进项发票信息表和销项发票信息表;
对所述进项发票信息表和所述销项发票信息表的数据进行清洗;
对清洗后的所述进项发票信息表和所述销项发票信息表的数据进行聚合运算,获取进项发票信息聚合表和销项发票信息聚合表。
8.根据权利要求7所述的系统,所述初始单元还用于:
对所述进项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取进项商品加权评分结果;并将进项商品加权评分结果映射到预定区间,获取所述进项商品最终加权评分,建立包括所述进项商品最终加权评分的进项商品评分事实表;
对所述销项发票信息聚合表中的字段进行标准化,按预定权重对各个字段进行加权平均处理,获取销项商品加权评分结果;并将销项商品加权评分结果映射到预定区间,获取所述销项商品最终加权评分,建立包括所述销项商品最终加权评分的销项商品评分事实表。
9.根据权利要求8所述的系统,所述初始单元还用于:
建立进项商品评分矩阵,所述进项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及进项商品评分事实表;
建立销项商品评分矩阵,所述销项商品评分矩阵包括:纳税人索引名称、购进和销售的所有商品的索引名称以及销项商品评分事实表。
10.根据权利要求8所述的系统,所述系统中的字段包括:购进金额、购进数量和购进频次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911354963.0A CN111192122A (zh) | 2019-12-25 | 2019-12-25 | 一种基于协同过滤的进销项差异度计算的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911354963.0A CN111192122A (zh) | 2019-12-25 | 2019-12-25 | 一种基于协同过滤的进销项差异度计算的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111192122A true CN111192122A (zh) | 2020-05-22 |
Family
ID=70709352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911354963.0A Pending CN111192122A (zh) | 2019-12-25 | 2019-12-25 | 一种基于协同过滤的进销项差异度计算的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192122A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108242019A (zh) * | 2016-12-26 | 2018-07-03 | 航天信息股份有限公司 | 基于spark的小规模纳税人年应税销售额的监控方法及系统 |
CN108242020A (zh) * | 2016-12-26 | 2018-07-03 | 航天信息股份有限公司 | 一种计算进项和销项物品列表之间差异度的方法及系统 |
CN109740655A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 基于矩阵分解及神经协同过滤的物品评分预测方法 |
CN110019798A (zh) * | 2017-11-20 | 2019-07-16 | 航天信息股份有限公司 | 一种用于对进销项商品种类差异进行度量的方法及系统 |
-
2019
- 2019-12-25 CN CN201911354963.0A patent/CN111192122A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108242019A (zh) * | 2016-12-26 | 2018-07-03 | 航天信息股份有限公司 | 基于spark的小规模纳税人年应税销售额的监控方法及系统 |
CN108242020A (zh) * | 2016-12-26 | 2018-07-03 | 航天信息股份有限公司 | 一种计算进项和销项物品列表之间差异度的方法及系统 |
CN110019798A (zh) * | 2017-11-20 | 2019-07-16 | 航天信息股份有限公司 | 一种用于对进销项商品种类差异进行度量的方法及系统 |
CN109740655A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 基于矩阵分解及神经协同过滤的物品评分预测方法 |
Non-Patent Citations (1)
Title |
---|
李楚桐: "基于协同过滤算法的推荐系统研究", 《信息通信》, pages 40 - 41 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105184574B (zh) | 一种套用商户类别码欺诈行为的检测方法 | |
KR102286415B1 (ko) | 제품수명주기에 따른 수명주기별 온라인과 오프라인 정보분석 서비스 시스템 | |
CN108335216A (zh) | 一种保险风险评估方法、装置、终端设备及存储介质 | |
CN104321794B (zh) | 一种使用多维评级来确定一实体的未来商业可行性的系统和方法 | |
CN109360084A (zh) | 征信违约风险的评估方法及装置、存储介质、计算机设备 | |
CN109472626B (zh) | 一种面向手机租赁业务的智能金融风险控制方法及系统 | |
CN108388974A (zh) | 基于随机森林和决策树的优质客户优化识别方法及装置 | |
CN113469730A (zh) | 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置 | |
CN110659961A (zh) | 一种用于识别线下商户的方法和装置 | |
CN107609771A (zh) | 一种供应商价值评价方法 | |
CN108154311A (zh) | 基于随机森林和决策树的优质客户识别方法及装置 | |
CN108629467B (zh) | 一种样品信息处理方法及系统 | |
CN107944761A (zh) | 基于人工智能消费维权指数企业投诉预警监测分析方法 | |
CN110458576A (zh) | 一种融合事前预测和事中检测的网络交易反欺诈方法 | |
CN115760119A (zh) | 基于数据处理和特征识别的金融支付监管系统及方法 | |
CN111695979A (zh) | 一种原材料与成品的关系分析方法、装置及设备 | |
CN111695938A (zh) | 产品推送方法及系统 | |
CN114118793A (zh) | 一种地方交易所风险预警方法、装置及设备 | |
CN110163683A (zh) | 价值用户关键指标确定方法、广告投放方法及装置 | |
CN112767081A (zh) | 一种跨境保税仓商品分类方法及装置 | |
Zhai et al. | Big data analysis of accounting forecasting based on machine learning | |
KR101536536B1 (ko) | 조정재생산 비용접근법에 따른 기술가치평가 방법 | |
CN111192122A (zh) | 一种基于协同过滤的进销项差异度计算的方法及系统 | |
CN109508340A (zh) | 精准营销的方法 | |
CN108242019A (zh) | 基于spark的小规模纳税人年应税销售额的监控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |