CN110175235A

CN110175235A - 基于神经网络的智能商品税分类编码方法及系统

Info

Publication number: CN110175235A
Application number: CN201910327394.4A
Authority: CN
Inventors: 蒋旭曦; 肖静; 欧文祥; 张曙光; 杨波
Original assignee: Suningcom Group Co Ltd
Current assignee: Suningcom Group Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-27

Abstract

本申请公开了一种基于神经网络的智能商品税分类编码方法及系统，该方法包括：从平台数据库获取大量已开票的商品数据并以指定格式保存到文本数据库；对文本数据库中的该文本数据进行预处理后进入到词嵌入生成模型，进行生词嵌入；将生成的词嵌入组合成n‑gram词嵌入序列作为商品税分类模型的输入，经过训练，输出该次词嵌入序列属于不同类别的概率；训练结束后将该商品税分类模型部署在服务器上供调用。本发明提出的智能商品税分类编码系统及方法，不需要人工筛选商品关键词，直接将原始完整的商品名输入给系统即可，不需要做任何其他处理，系统即可输出对应的税分类编码、商品名称、税率和分类评分，效率高，且分类准确率较高。

Description

基于神经网络的智能商品税分类编码方法及系统

技术领域

本申请属于智能神经网络技术领域，具体涉及一种基于神经网络的智能商品税分类编码方法及系统。

背景技术

目前企业财务人员开取商品增值税发票时，票面上的商品需要与税务总局核定的税分类编码进行关联，按分类编码上注明的税率和征收率开具发票，使得税务机关可以统计、筛选、比对数据等，最终加强征收管理。为了满足这一要求，最关键的地方就在于确定商品的税分类编码。传统的方法是人工筛选商品关键字，然后在税务总局提供的税分类编码列表中查找，无法直接查找到的，根据政策先进行行业、大类的划分，再进行小类细划分，对于无法清楚界定、归类的，按照商品的材料或用途选择最近似的编码，最后根据编码确定商品名称和税率。

根据税务总局公布的商品税分类编码列表，目前商品税分类编码共分为6大类，共4227个细分类别。传统的人工查找方法，在筛选商品关键词后，需要逐一确定商品所属大类和细分类别，由于商品细分类别众多且有很多非常近似的类别，人工查找不仅工作量巨大，而且非常容易出错。现存的部分自动编码系统，对输入要求非常严格，需要人工筛选准确的商品关键词输入系统，而目前实际的商品名称五花八门，为了提高商品的检索量添加了大量的修饰词语，在人工筛选关键词这一步仍然存在不少工作量，此外该系统输出准确率也较为一般。

目前现有的产品主要是运用贝叶斯算法或者支持向量机。其中贝叶斯算法是根据历史数据求出商品对于税收分类编码的先验概率，然后计算出目前商品对于各编码的后验概率，根据概率大小判断该商品所属税收编码，贝叶斯模型假设特征相互独立以及需要知道先验概率，但实际中各个特征并非互相独立且先验概率有误差，最终会导致预测效果不佳。而支持向量机是特征空间上间隔最大的线性分类器，需要大量的人工特征工程，比如统计词频、特征哈希和特征降维，模型的泛化性能较差。

发明内容

基于现有技术的上述缺陷，本申请提供一种基于神经网络的智能商品税分类编码方法及系统。

根据本申请的第一方面，提供一种基于神经网络的智能商品税分类编码方法，该方法包括：

从平台数据库获取大量已开票的商品数据并以指定格式保存到文本数据库；

对文本数据库中的该文本数据进行预处理后进入到词嵌入生成模型，进行生词嵌入；

将生成的词嵌入组合成n-gram词嵌入序列作为商品税分类模型的输入，经过训练，输出该次词嵌入序列属于不同类别的概率；

训练结束后将该商品税分类模型部署在服务器上供调用。

进一步地，所述方法还包括：用户通过客户端远程调用此项服务，服务器将接收的商品名称输入至商品税分类模型，模型输出判断得到的实际商品税信息，并对认为输出错误的商品税信息通过客户端反馈给服务器，由服务器控制商品税分类模型重新进行训练和更新。

进一步地，所述预处理包括对文本数据库中的文本进行文本分词和/或去停用词处理，进而将文本内容分割成若干关键词的形式。

进一步地，所述词嵌入生成模型对生词嵌入的过程包括：

对经过预处理形成的关键词先进行前向传播，计算某个词出现的概率；

对模型在输入至输出之间的权重矩阵不断赋值，计算输出与真实值之间的误差，然后在梯度反方向纠正和更新权重矩阵；

经过足够多次数的迭代，当损失函数足够小时，得到权重矩阵中某关键词对应的词嵌入，进而得到多个关键词的词嵌入序列。

进一步地，将生成的词嵌入组合成n-gram特征序列作为商品税分类模型的输入，对词嵌入加权平均之后映射到隐藏层，再有隐藏层映射到输出层，对输出层的结果进行softmax分类得到文本属于税分类编码类别的概率大小。

进一步地，对所述商品税分类模型的训练采用反向传播和梯度下降的方法去更新权重矩阵，结束训练后的权重矩阵的数值被存储到内存。

进一步地，所述商品税分类模型的输出层改为一颗霍夫曼树，每一个叶子节点作为一个词的对应标签，在模型训练时，设定只需更新根节点到输出条件概率最大的叶子节点之间的路径上的节点向量。

根据本申请的第二方面，提供一种基于神经网络的智能商品税分类编码系统，包括：

平台数据库，用以提供大量供词嵌入生成模型和/或商品税分类模型训练的样本数据；

文本预处理模块，对文本进行分词处理分割成若干连续的关键词；

词嵌入生成模型，将每个词映射到一个向量，一个文本映射到多维向量空间，形成一个n-gram的词嵌入序列并输出给商品税分类模型；

商品税分类模型，将生成的词嵌入序列作为该分类模型的输入，经过训练，输出该次词嵌入序列属于不同类别的概率，并供服务器供调用。

进一步地，所述系统还包括反馈模块，所述反馈模块将客户端反馈的错误结果反馈给商品税分类模型，以进行模型的更新。

与现有技术相比，本申请的技术方案具备以下有益技术效果：

1、本发明中提出的智能商品税分类编码系统及方法，不需要人工筛选商品关键词，直接将原始完整的商品名输入给系统即可，不需要做任何其他处理，系统即可输出对应的税分类编码、商品名称、税率和分类评分，效率高，且分类准确率较高。

2、本发明提出的智能商品税分类编码系统及方法支持持续学习和升级，对于系统开票错误的商品数据，可以统一反馈给系统，系统重新学习后再更新模型，这一特性让系统真正做到了智能化，通过持续学习系统的覆盖范围和编码准确率将不断提升，理论上来说通过学习最终编码准确率可以无限趋近于100％。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明一示例性实施例所示出的一种基于神经网络的智能商品税分类编码方法的流程图。

图2是根据本发明一示例性实施例所示出的词嵌入生成模型的架构图。

图3是根据本发明一示例性实施例所示出的商品税税分类模型的架构图。

图4是传统的神经网络输入输出框架架构图。

图5是根据本发明一示例性实施例所示出的商品税分类模型的 softmax层的架构图。

图6是根据本发明一示例性实施例所示出的采用本发明的分类方法及系统预测的商品税分类的实际效果图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

参照图1所示，本申请提供一种基于神经网络的智能商品税分类编码方法，该方法应用于用户的税务开票，包括以下步骤：

步骤101：从平台数据库获取大量已开票的商品数据并以指定格式保存到文本数据库。

具体来说，本发明实施例的平台数据库内已存有大量的已开票的商品数据，从这些已开票的商品数据中提取出商品名称、税分类编码和税率三个字段，同时要筛选掉税分类编码字段为空或者编码错误的数据，将最终获取的数据按行存储到文本文件中，为训练商品模型提供数据服务。

步骤102：对文本数据库中的该文本数据进行预处理后进入到词嵌入生成模型，进行生词嵌入。

文本预处理是在文本中提取关键词表示文本的过程，主要包括文本分词和去停用词两个阶段。例如商品名“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏”经文本分词和去停用词之后商品示例标题变成了下面“/”分割的一个个关键词的形式：夏装/雪纺/条纹/短袖/t恤/女/春/半袖/衣服/夏天/ 中长款/大码/胖mm/显瘦/上衣/夏。其中，分词可采用目前常用的jieba中文分词，或者HanLP分词。

词嵌入模型，主要完成对分割后的多个关键词进行转换，将词汇映射到实数向量，以方便计算机处理。单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量。举个例子，比如在一个文本中包含“猫”“狗”“爱情”等若干单词，而这若干单词映射到向量空间中，“猫”对应的向量为(0.1 0.2 0.3)，“狗”对应的向量为(0.2 0.2 0.4)，“爱情”对应的映射为(-0.4-0.5-0.2)(本数据仅为示意)。像这种将文本X{x1,x2,x3,x4,x5……xn}映射到多维向量空间 Y{y1,y2,y3,y4,y5……yn}，这个映射的过程就叫做词嵌入。

参照图2所示，具体在本发明实施例中，词嵌入模型的处理过程包括如下：

一、前对经过预处理形成的关键词先进行前向传播，计算某个词出现的概率；其中，前向传播过程具体实施如下：

a)Input layer(输入层)输入的是输入上下文的one-hot编码表示 {x₁，x₂，..，x_C}，考虑一个词表V(商品名分词后得到)中的每一个词w_i都有一个编号i∈{1，2，...，|V|}，那么词w_i的one-hot编码x_i就是一个维度为 |V|的向量，其中第i个元素为1，其余元素全为0，例如：x₂＝[0，1，0，...，0]^T；

b)Input layer(输入层)到hidden layer(隐藏层)之间有一个权重矩阵W， C是某个词前后连续的词的数目，计算隐藏层h的输出，如下：

其中表示对所有输入词的one-hot编码求平均，因为文本分类受词的顺序影响较小，因此可以将其叠加求平均作为组合特征，与权重矩阵相乘即得到隐藏层的输出向量。

c)hidden layer(隐藏层)到output layer(输出层)之间也有一个权重矩阵W′，计算在输出层每个节点的输入，如下：

其中是输出矩阵W′的第j列，h是隐藏层的输出向量，二者相乘得到输出层输出向量的第j个元素u_j，所以输出向量的维度与矩阵W的列数相等。

d)计算输出层的softmax输出，也就是已知前后C个词，某个词出现的概率，如下：

w₁，...，w_C是词w_y，j前后的C个词，y_c，j表示w_y，j出现的概率，V是输出向量的维度，exp(u_j)表示对输出向量的第j个元素求指数，表示对输出向量所有元素求指数再求和，表示第j个元素出现的概率，取值大小刚好在0～1之间。

二、对模型在输入至输出之间的权重矩阵不断赋值，计算输出与真实值之间的误差，然后在梯度反方向纠正和更新权重矩阵；其中，该步骤涉及到反向传播和随机梯度下降的学习权重。

前向传递输入信号直至输出产生误差，反向传播误差信息更新权重矩阵。对于多隐层的神经网络，输出层可以直接求出误差来更新参数，但其中隐藏层的误差是不存在的，因此不能对它直接应用梯度下降，而是先将误差反向传播至隐藏层，然后再应用梯度下降。

在学习权重矩阵W与W′过程中，我们可以给这些权重赋一个随机值来初始化。然后按序训练样本，逐个观察输出与真实值之间的误差，并计算这些误差的梯度，并在梯度反方向纠正权重矩阵，这种方法被称为随机梯度下降，但这个衍生出来的方法叫做反向传播误差算法。具体步骤如下：

a)首先定义loss function(损失函数)，这个损失函数就是给定输入上下文的输出词语的条件概率，一般都是取对数，如下所示：

其中w₀就是要预测的目标词，w_I就是前后的C个词，j^*表示目标词在词表V中的索引，表示输出目标词语的概率，h为隐藏层输出，为矩阵W′的第j^*列，为矩阵W′的第j′列。

b)接下来对损失函数求导，得到输出权重矩阵W′的更新规则：

其中w′_ij是权重矩阵W的第i行第j列，h是隐藏层输出， ε是一个接近0的正值即更新因子，下同。

c)类似地可以得到权重矩阵W的更新规则：

其中C是目标词前后词的数目，ε是更新因子，V是词表大小，x_k是第k个词的one-hot编码，w_ki是权重矩阵W的第k行第i列。

三、经过足够多次数的迭代，当损失函数足够小时，得到权重矩阵中某关键词对应的词嵌入，进而得到多个关键词的词嵌入序列。在第二步中经过足够次数的迭代，损失函数足够小时，我们可以得到权重矩阵W，其中矩阵W的第k行就是词表V中编号为k的词所对应的词嵌入。

步骤103：将生成的词嵌入组合成n-gram词嵌入序列作为商品税分类模型的输入，经过训练，输出该次词嵌入序列属于不同商品税类别的概率。

本发明实施例中的商品税分类用到了商品税分类模型，该模型的架构如图3所示，步骤102中的词嵌入生成模型，是通过上下文预测中间词，而本步骤103中的分类模型则是通过上下文预测标签，该标签就是文本的类别，对应到本发明中就是商品名对应的税分类编码，这是训练模型之前通过人工标注等方法事先确定的。

再请参照图3所示，该商品税分类模型的架构，沿用了词嵌入生成模型的单层神经网络的模式。模型的输入是一个n-gram词嵌入的序列(由词嵌入模型生成的1～n个连续的词嵌入求和得到)，输出是这个词序列属于不同类别的概率。对词嵌入加权平均之后映射到隐藏层，再由隐藏层映射到输出层，对输出层的结果进行softmax分类可以得到文本属于各个类别的概率，可以得到loss function(损失函数)为：

其中，y_n是真实的标签，x_n是文档归一化后的n-gram词嵌入，A和 B是权重矩阵，函数f为softmax函数，N是词的数目。softmax用于多分类过程中，它将多个神经元的输出，映射到(0,1)区间内，而这些值的累和为1(满足概率的性质)，那么我们就可以将它理解成概率，在最后选取输出结点的时候，我们就可以选取概率最大(也就是值对应最大的)结点，作为我们的预测目标。

传统的神经网络输入输出框架如图4所示，hierarchical(层次化) 的softmax结构如图5所示。对比图4、图5，可以看出本模型采用图3的softmax层与传统的神经网络有一定区别，hierarchical softmax 结构是把输出层改成了一颗霍夫曼树，其中图中白色的叶子节点表示词汇表中所有的|V|个词,黑色节点表示非叶子节点，每一个叶子节点也就是每一个label(标签)，都对应唯一的一条从root(根)节点出发的路径。我们的目的是使的W＝W_O这条路径的概率最大，即:P(W＝W_O|W_I)最大，假设最后输出的条件概率是W2最大，那么我只需要去更新从根结点到W2这一个叶子结点的路径上面节点的向量即可，而不需要更新所有label的出现概率，这样大大的缩小了模型训练更新的时间，提高了模型的训练效率。

在本商品税分类模型的训练时，例如可以采用：从数据库调用 500万条已开票数据，根据前述的分词处理，选取其中400万条数据作为训练集，剩下100万条数据作为测试集，其中，数据以UTF-8 格式存储，格式如图5所示。训练方法采用与前述词嵌入生成模型类似的反向传播和梯度下降去更新权重矩阵A和B，在32G CPU×3 条件下，模型训练时间约40分钟左右，训练结束后会得到一个二进制文件，该文件内存储了权重矩阵的数值，约40M大小。

将输入的商品名分词与去停用词后，通过词嵌入生成模型生成词嵌入，再根据生成的词嵌入组合成n-gram特征，n-gram特征就是商品税分类编码分类模型的输入，根据训练出的模型权重矩阵A将 n-gram特征加权平均后输入到隐藏层，再根据训练出的权重矩阵B 将隐藏层的输入线性变换到输出层，最后将输出层的结果通过 softmax函数f得到编码分类结果，如下式所示：

label＝f(BAx_n)

由于商品税分类编码唯一标示商品，可根据编码在税务总局提供的税分类表格中检索到商品所属大类、细分类别名称以及对应的税率。

步骤104：将训练结束完成的该商品税分类模型部署在服务器上供调用。

训练结束后将模型部署在服务器上，服务器提供远程调用服务，用户在客户端远程调用该服务并传入商品名称数据，服务器将接收的商品名称数据输入商品税分类模型，模型输出商品税分类编码、商品所属大类和细分类别名称以及税率，服务器再将模型输出结果返回到客户端。用户在客户端获取商品税分类结果后，可以进行下一步工作如开具发票等，如果用户发现税编码有明显错误可以将错误结果反馈给服务器，服务器将会对模型进行升级更新。

对于商品税分类编码预测结果确认有明显错误的，可以反馈给系统，系统会结合原始训练数据集与反馈的纠正数据重新训练模型，最终只需要更新系统的税分类模型文件即可，大概40M，不会占用过多的内存，而不会影响整个系统的架构。通过这种再学习的模式，模型性能将越来越好，误差率将越来越低。

采用本发明实施例所提供的方法的一个完整实施过程为：首先从 hive数据库中采集已开票商品数据，按照指定格式存储到内存数据库，将商品数据进行分词后通过词嵌入生成模型生词嵌入，将生成的词嵌入组合成n-gram特征作为商品税分类模型的输入，然后训练模型的参数，训练结束后将模型部署在服务器上，服务器提供远程调用服务，用户在客户端远程调用该服务并传入商品名称数据，服务器将接收的商品名称数据输入商品税分类模型，模型输出商品税分类编码、商品所属大类和细分类别名称以及税率，服务器再将模型输出结果返回到客户端。用户在客户端获取商品税分类结果后，可以进行下一步工作如开具发票等，如果用户发现编码有明显错误可以将错误结果反馈给服务器，服务器将会对商品税分类模型进行升级更新。

本发明的另一实施例还提供了一种基于神经网络的智能商品税分类编码系统，该系统包括：

文本预处理模块，对文本进行分词处理分割成若干连续的关键词，以关键词来表示文本；

词嵌入生成模型，将前述分割的关键词映射为向量模式，形成一个n-gram的词嵌入序列并输出给商品税分类模型。

商品税分类模型，将生成的词嵌入序列作为该分类模型的输入，经过训练，输出该次词嵌入序列属于不同类别的概率，并部署在服务器端供客户端远程调用。其中，商品税分类模型和前述的词嵌入生成模型一样，经过反向传播和梯度下降去更新权重矩阵，最终的商品税分类模型为一个大约40M大小的数值被存储到文件内存中，后续用户对反馈认为开错且被后台确认错误的税票信息，只需对该40M大小的商品税分类模型进行更改部分字段即可，然后重新部署在服务器。

本实施例中的商品税分类编码系统还包括反馈模块，所述反馈模块将用户从客户端反馈的错误结果反馈给商品税分类模型，以进行模型的更新，如此不断对模型进行校正，使得输出的商品税信息越来越准确。

本实施例中的系统用以执行前述实施例的方法，故在此不再赘述。

相比现有技术中传统的人工查找方法和类似的自动编码方法和系统而言。使用本发明实施例的方法及系统，系统部署十分轻便，模型文件只有40M，只需配置好环境即可马上投入使用，同时系统可以直接输入商品名称(附图5)(长短商品输入对比)，不需要做任何人工处理，能够节省大量劳动成本。此外，经过测试，从商品数据库中随机取出111.3万已开票数据，利用本发明的智能商品税分类编码系统对111.3万商品(测试商品数量)进行预测，将预测的商品税收编码与已开票的税收编码对比，可以验证预测准确率为95.48％以上，而系统支持持续学习更新，系统升级时只需要替换几十M大小的模型文件，更新和维护都非常方便。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于神经网络的智能商品税分类编码方法，其特征在于，包括：

将生成的词嵌入组合成n-gram词嵌入序列作为商品税分类模型的输入，经过训练，输出该次词嵌入序列属于不同商品税类别的概率；

训练结束后将该商品税分类模型部署在服务器上供调用。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：用户通过客户端远程调用此项智能服务，服务器将接收的商品名称输入至商品税分类模型，商品税分类模型输出用户下单的实际商品税信息，用户还通过客户端对认为输出错误的商品税信息反馈给服务器，由服务器控制商品税分类模型重新进行训练和更新。

3.根据权利要求1或2所述的方法，其特征在于，所述预处理包括对文本数据库中的文本进行文本分词和/或去停用词处理，进而将文本内容分割成若干关键词的形式。

4.根据权利要求1或3所述的方法，其特征在于，所述词嵌入生成模型对生词嵌入的过程包括：

5.根据权利要求4所述的方法，其特征在于，将生成的词嵌入组合成n-gram特征序列作为商品税分类模型的输入，对词嵌入加权平均之后映射到隐藏层，再有隐藏层映射到输出层，对输出层的结果进行softmax分类得到文本属于税分类编码类别的概率大小。

6.根据权利要求5所述的方法，其特征在于，对所述商品税分类模型的训练采用反向传播和梯度下降的方法去更新权重矩阵，结束训练后的权重矩阵的数值被存储等待调用。

7.根据权利要求5或6所述的方法，其特征在于，所述商品税分类模型的输出层为一颗霍夫曼树，每一个叶子节点作为一个词的对应标签，在模型训练时，设定只需更新根节点到输出条件概率最大的叶子节点之间的路径上的节点向量。

8.根据权利要求1所述的方法，其特征在于，从平台数据库获取的已开票的该商品数据包括：商品名称、税分类编码和税率三个字段。

9.一种基于神经网络的智能商品税分类编码系统，其特征在于，包括：

词嵌入生成模型，将一个文本的多个词映射到多维向量空间，形成一个n-gram的词嵌入序列并输出给商品税分类模型；

10.根据权利要求8所述的系统，其特征在于，所述系统还包括反馈模块，所述反馈模块将客户端反馈的错误结果反馈给商品税分类模型，以进行模型的更新。