CN110019807A

CN110019807A - 一种商品分类方法及装置

Info

Publication number: CN110019807A
Application number: CN201711450750.9A
Authority: CN
Inventors: 苏斌
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-16
Anticipated expiration: 2037-12-27
Also published as: CN110019807B

Abstract

本发明公开了一种商品分类方法及装置，所述方法包括：确定纳税人企业信息的每个第一分词，和开票商品信息的每个第二分词；确定每个第一分词对应的每个第一向量，和每个第二分词对应的每个第二向量；基于CNN，对第一向量进行卷积计算，确定第一特征向量；基于LSTM，确定开票商品信息对应的第二特征向量；根据每个第一特征向量和所述第二特征向量，及softmax分类层，确定所述发票中的商品的类型。由于纳税人企业信息多为连续的规范信息，开票商品信息多为不规范信息，而CNN对于规范信息生成的向量进行卷积计算的准确性好，LSTM对于不规范信息生成的向量进行计算的准确性好，因此能够准确的进行商品分类。

Description

一种商品分类方法及装置

技术领域

本发明涉及商品分类技术领域，尤其涉及一种商品分类方法及装置。

背景技术

商品分类编码用在增值税发票升级版中，纳税人开具发票时票面上的商品应与税务总局核定的分类编码进行关联，按分类编码上注明的税率和征收率开具发票。目前商品分类共4000多个，包括了货物、劳务、服务和转让无形资产各类型。由于开票人多数情况下，无法直接确定所开发票上的商品是属于哪一个分类的，所以需要程序根据纳税人企业信息和发票商品内容自动确定商品类型。

目前在商品分类编码中，常用的确定商品类型的方法包括：1、基于大数据平台的机器学习方法，这种方法根据关键词条在文本中出现的频率和包含该关键词条的文本数量这2个参数来作为分类参数。缺点是会放大某些生僻词的重要性，对于某些未出现关键词的文本无法执行分类，因此该方法对商品进行分类不准确。2、朴素贝叶斯分类方法，即先从文本中提取出一些关键词，计算出这些关键词在每个类别中的出现的概率。再据以往数据统计出每个类别和关键词出现的概率，通过贝叶斯公式，进行分类。缺点是发票信息中的纳税人企业信息一般是连续规范的信息，而且纳税人企业信息中的关键词意思相关度很高，该方法无法区分相关性高的连续规范的信息，导致对商品进行分类不准确。3、决策树分类方法，该方法对于类别太多时，一旦出现一个分类错误，就会使错误增加的很快，且在处理关键词关联性较强的数据时表现不好，且对连续规范的纳税人企业信息表现也不好。4、支持向量机分类方法，这种方法在对参数的调节和核函数的选择方面难度较大。一旦参数的调节和核函数的选择不准确，对商品进行分类也就不准确。

因此，现有技术中存在对商品进行分类不准确的问题。

发明内容

本发明实施例提供了一种商品分类方法及装置，用以解决现有技术中对商品进行分类不准确的问题。

本发明实施例提供了一种商品分类方法，所述方法包括：

识别发票中的纳税人企业信息和开票商品信息；

确定所述纳税人企业信息的每个第一分词，和开票商品信息的每个第二分词；

基于词转向量算法，确定所述每个第一分词对应的每个第一向量，和所述每个第二分词对应的每个第二向量；

基于预先训练完成的分类模型中的卷积神经网络CNN，针对所述每个第一向量，根据所述CNN中的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第一特征向量；基于所述分类模型中的长短时记忆网络LSTM，将所述每个第二向量按顺序依次输入所述LSTM中的对应的计算单元，根据所述LSTM中的每个计算单元对应的参数值，以及输入的每个第二向量，确定所述开票商品信息对应的第二特征向量；

根据所述每个第一特征向量和所述第二特征向量，及所述分类模型中的softmax分类层，确定所述发票中的商品的类型。

进一步地，所述确定所述纳税人企业信息的每个第一分词之后，基于词转向量算法，确定所述每个第一分词对应的每个第一向量之前，所述方法还包括：

针对每相邻两个第一分词，判断预先保存的词典库中是否包括该相邻两个第一分词组合后的第三分词，如果是，采用所述第三分词对该相邻两个第一分词进行更新。

进一步地，所述CNN包括卷积层和最大池化层；其中，所述卷积层包括至少一个卷积核；

所述根据所述CNN中的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第一特征向量包括：

针对所述卷积层中的每个卷积核，根据该卷积核对应的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第三特征向量；将针对每个卷积核确定的每个第三特征向量输入所述最大池化层，从每个第三特征向量中确定该第一向量对应的第一特征向量。

进一步地，所述CNN包括第一全连接层；

所述确定所述每个第一向量对应的每个第一特征向量之后，所述方法还包括：

基于所述第一全连接层，采用第一预设维度对所述每个第一特征向量进行调整。

进一步地，所述基于所述分类模型中的长短时记忆网络LSTM，将所述每个第二向量按顺序依次输入所述LSTM中的对应的计算单元之前，所述方法还包括：

识别第二向量的数量信息，根据所述第二向量的数量信息，确定LSTM中包含的计算单元的数量。

进一步地，所述LSTM包括第二全连接层；

所述确定所述开票商品信息对应的第二特征向量之后，所述方法还包括：

基于所述第二全连接层，采用第二预设维度对所述第二特征向量进行调整。

进一步地，预先训练分类模型的过程包括：

针对训练数据库中的每个商品，识别该商品对应的发票中的纳税人企业信息和开票商品信息；

确定所述纳税人企业信息的每个第四分词，和开票商品信息的每个第五分词；

基于词转向量算法，确定所述每个第四分词对应的每个第三向量，和所述每个第五分词对应的每个第四向量；

基于CNN，针对所述每个第三向量，根据所述CNN中的权重系数，对该第三向量进行卷积计算，确定该第三向量对应的第四特征向量；基于LSTM，将所述每个第四向量按顺序依次输入所述LSTM中的对应的计算单元，根据所述LSTM中的每个计算单元对应的参数值，以及输入的每个第四向量，确定所述开票商品信息对应的第五特征向量；

基于softmax分类层，针对所述训练数据库中的每个商品，根据确定的该商品对应的每个第四特征向量和第五特征向量，以及该商品的类型，对分类模型进行训练。

另一方面，本发明实施例提供了一种商品分类装置，所述装置包括：

识别模块，用于识别发票中的纳税人企业信息和开票商品信息；

第一确定模块，用于确定所述纳税人企业信息的每个第一分词，和开票商品信息的每个第二分词；

第二确定模块，用于基于词转向量算法，确定所述每个第一分词对应的每个第一向量，和所述每个第二分词对应的每个第二向量；

第三确定模块，用于基于预先训练完成的分类模型中的卷积神经网络CNN，针对所述每个第一向量，根据所述CNN中的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第一特征向量；基于所述分类模型中的长短时记忆网络LSTM，将所述每个第二向量按顺序依次输入所述LSTM中的对应的计算单元，根据所述LSTM中的每个计算单元对应的参数值，以及输入的每个第二向量，确定所述开票商品信息对应的第二特征向量；

第四确定模块，用于根据所述每个第一特征向量和所述第二特征向量，及所述分类模型中的softmax分类层，确定所述发票中的商品的类型。

进一步地，所述装置还包括：

更新模块，用于针对每相邻两个第一分词，判断预先保存的词典库中是否包括该相邻两个第一分词组合后的第三分词，如果是，采用所述第三分词对该相邻两个第一分词进行更新。

进一步地，所述第三确定模块，具体用于针对CNN的卷积层中的每个卷积核，根据该卷积核对应的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第三特征向量；将针对每个卷积核确定的每个第三特征向量输入CNN的最大池化层，从每个第三特征向量中确定该第一向量对应的第一特征向量。

进一步地，所述第三确定模块，还用于基于CNN的第一全连接层，采用第一预设维度对所述每个第一特征向量进行调整。

进一步地，所述装置还包括：

第五确定模块，用于识别第二向量的数量信息，根据所述第二向量的数量信息，确定LSTM中包含的计算单元的数量。

进一步地，所述第三确定模块，还用于基于LSTM的第二全连接层，采用第二预设维度对所述第二特征向量进行调整。

进一步地，所述装置还包括：

训练模块，用于针对训练数据库中的每个商品，识别该商品对应的发票中的纳税人企业信息和开票商品信息；确定所述纳税人企业信息的每个第四分词，和开票商品信息的每个第五分词；基于词转向量算法，确定所述每个第四分词对应的每个第三向量，和所述每个第五分词对应的每个第四向量；基于CNN，针对所述每个第三向量，根据所述CNN中的权重系数，对该第三向量进行卷积计算，确定该第三向量对应的第四特征向量；基于LSTM，将所述每个第四向量按顺序依次输入所述LSTM中的对应的计算单元，根据所述LSTM中的每个计算单元对应的参数值，以及输入的每个第四向量，确定所述开票商品信息对应的第五特征向量；基于softmax分类层，针对所述训练数据库中的每个商品，根据确定的该商品对应的每个第四特征向量和第五特征向量，以及该商品的类型，对分类模型进行训练。

本发明实施例提供了一种商品分类方法及装置，所述方法包括：识别发票中的纳税人企业信息和开票商品信息；确定所述纳税人企业信息的每个第一分词，和开票商品信息的每个第二分词；基于词转向量算法，确定所述每个第一分词对应的每个第一向量，和所述每个第二分词对应的每个第二向量；基于预先训练完成的分类模型中的卷积神经网络CNN，针对所述每个第一向量，根据所述CNN中的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第一特征向量；基于所述分类模型中的长短时记忆网络LSTM，将所述每个第二向量按顺序依次输入所述LSTM中的对应的计算单元，根据所述LSTM中的每个计算单元对应的参数值，以及输入的每个第二向量，确定所述开票商品信息对应的第二特征向量；根据所述每个第一特征向量和所述第二特征向量，及所述分类模型中的softmax分类层，确定所述发票中的商品的类型。

由于在本发明实施例中，针对发票中的纳税人企业信息和开票商品信息，确定纳税人企业信息对应的每个第一向量和开票商品信息对应的每个第二向量，并且基于预先训练完成的分类模型中的CNN，确定每个第一特征向量，基于分类模型中的LSTM，确定开票商品信息对应的第二特征向量，进而根据每个第一特征向量和第二特征向量，及预先训练完成的分类模型，确定商品的类型。由于纳税人企业信息多为连续的规范信息，开票商品信息多为不规范信息，而CNN对于连续的规范信息生成的向量进行卷积计算的准确性好，LSTM对于不规范信息生成的向量进行计算的准确性好，因此本发明实施例提供的商品分类方法能够确定出准确的第一特征向量和第二特征向量，进而能够准确的进行商品分类。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的商品分类过程示意图；

图2为本发明实施例提供的商品分类装置结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的一种商品分类过程示意图，该过程包括以下步骤：

S101：识别发票中的纳税人企业信息和开票商品信息。

本发明实施例提供的商品分类方法应用于具有数据分析与机器学习能力的电子设备。

电子设备在确定商品类型时，需要识别出发票中的纳税人企业信息和开票商品信息，一般纳税人企业信息多为连续的规范信息，开票商品信息多为不规范信息。例如，纳税人企业信息可以是企业机构代码信息、企业名称信息等等，开票商品信息可以是商品名称。电子设备可以从发票中的识别纳税人企业信息和开票商品信息。

S102：确定所述纳税人企业信息的每个第一分词，和开票商品信息的每个第二分词。

在确定发票中的纳税人企业信息和开票商品信息之后，分别针对纳税人企业信息和开票商品信息进行分词处理，其中，可以采用常用的分词处理算法进行分词处理，常用的分词处理算法可以是语言模型N-Gram分词算法。根据N-Gram分词算法，可以确定出纳税人企业信息的每个第一分词，以及开票商品信息的每个第二分词。

其中，根据N-Gram分词算法分别确定纳税人企业信息和开票商品信息的分词的过程属于现有技术，在此不对该过程进行赘述。

S103：基于词转向量算法，确定所述每个第一分词对应的每个第一向量，和所述每个第二分词对应的每个第二向量。

电子设备在确定出纳税人企业信息的每个第一分词，以及开票商品信息的每个第二分词之后，需要将确定出的每个分词转换为向量。其中，可以采用常用的词转向量算法将每个分词转换为向量。常用的词转向量算法可以是one-hot编码算法。根据one-hot编码算法，可以将每个第一分词转换为对应的每个第一向量，将每个第二分词转换为对应的每个第二向量。

其中，根据one-hot编码算法，将每个分词转换为对应的每个向量的过程属于现有技术，在此不对该过程进行赘述。

另外，由于电子设备根据N-Gram分词算法确定出的纳税人企业信息的每个第一分词，以及开票商品信息的每个第二分词中，有可能出现助词或者符号，而助词或者符号对商品类型的确定没有影响，因此在确定纳税人企业信息的每个第一分词，以及开票商品信息的每个第二分词之后，可以将每个第一分词和每个第二分词中的助词或者符号滤除，针对剩余的每个第一分词和每个第二分词，基于词转向量算法，确定每个第一分词对应的每个第一向量，和每个第二分词对应的每个第二向量。

S104：基于预先训练完成的分类模型中的卷积神经网络CNN，针对所述每个第一向量，根据所述CNN中的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第一特征向量；基于所述分类模型中的长短时记忆网络LSTM，将所述每个第二向量按顺序依次输入所述LSTM中的对应的计算单元，根据所述LSTM中的每个计算单元对应的参数值，以及输入的每个第二向量，确定所述开票商品信息对应的第二特征向量。

电子设备中保存有预先训练完成的分类模型，分类模型中包括卷积神经网络(Convolutional Neural Network，CNN)。电子设备确定出每个第一分词对应的每个第一向量之后，针对每个第一向量，将该第一向量输入到CNN中，CNN中保存有权重系数，CNN接收到输入的第一向量之后，根据权重系数可以对接收到的第一向量进行卷积计算，经过卷积计算可以得到第一向量对应的第一特征向量。这样，针对每个第一向量，基于CNN可以计算出每个第一向量对应的每个第一特征向量。

分类模型中还包括长短时记忆网络(Long Short Term Memory Network，LSTM)。电子设备确定出每个第二分词对应的每个第二向量之后，将每个第二向量按顺序依次输入LSTM中的对应的计算单元，每个计算单元有对应的参数值，根据输入的每个第二向量和每个计算单元有对应的参数值，可以确定出开票商品信息对应的第二特征向量。

具体的，在确定出每个第二分词对应的每个第二向量之后，按照顺序将第一个第二向量输入LSTM中的第一个计算单元，第一个计算单元根据自身对应的参数值和该第一个第二向量，可以确定该第一个第二向量对应的第一个特征向量。然后LSTM将第一个特征向量和第二个第二向量进行拼接，将拼接后的向量输入LSTM中的第二个计算单元，第二个计算单元根据自身对应的参数值和拼接后的向量，可以确定该拼接后的向量对应的第二个特征向量。然后LSTM将第二个特征向量和第三个第二向量进行拼接，将拼接后的向量输入LSTM中的第三个计算单元，第三个计算单元确定出第三个特征向量。以此类推，将每个第二向量按顺序依次输入LSTM中的对应的计算单元，可以确定出开票商品信息对应的第二特征向量。

S105：根据所述每个第一特征向量和所述第二特征向量，及所述分类模型中的softmax分类层，确定所述发票中的商品的类型。

分类模型中还包括softmax分类层。电子设备在确定出每个第一特征向量和开票商品信息对应的第二特征向量之后，将每个第一特征向量和开票商品信息对应的第二特征向量输入到分类模型中的softmax分类层中，softmax分类层根据输入的每个第一特征向量和开票商品信息对应的第二特征向量，输出发票中的商品的类型。

由于在本发明实施例中，针对发票中的纳税人企业信息和开票商品信息，确定纳税人企业信息对应的每个第一向量和开票商品信息对应的每个第二向量，并且基于预先训练完成的分类模型中的CNN，确定每个第一特征向量，基于分类模型中的LSTM，确定开票商品信息对应的第二特征向量，进而根据每个第一特征向量和第二特征向量，及分类模型中的softmax分类层，确定商品的类型。由于纳税人企业信息多为连续的规范信息，开票商品信息多为不规范信息，而CNN对于连续的规范信息生成的向量进行卷积计算的准确性好，LSTM对于不规范信息生成的向量进行计算的准确性好，因此本发明实施例提供的商品分类方法能够确定出准确的第一特征向量和第二特征向量，进而能够准确的进行商品分类。

实施例2：

为了减小商品分类过程中的计算量，在上述实施例的基础上，在本发明实施例中，所述确定所述纳税人企业信息的每个第一分词之后，基于词转向量算法，确定所述每个第一分词对应的每个第一向量之前，所述方法还包括：

电子设备中预先保存有词典库，词典库中包含分词信息。在确定纳税人企业信息的每个第一分词之后，针对每相邻两个第一分词，判断该相邻两个第一分词组合后的第三分词是否存在于词典库中，如果存在，则说明可以将该相邻两个第一分词作为一个分词，也就是采用该第三分词代替该相邻两个第一分词。

例如，确定纳税人企业信息的相邻两个第一分词分别为a和b，该相邻两个第一分词组合后的第三分词为ab，如果词典库中有ab这个分词，则采用ab这个第三分词对第一分词a和b进行替换。如果词典库中没有ab这个分词，则保存第一分词a和b不变。

由于在本发明实施例中，针对每相邻两个第一分词，如果词典库中包括该相邻两个第一分词组合后的第三分词，采用第三分词对该相邻两个第一分词进行更新。这样可以减少第一分词的数量，也就减少了后续确定的第一向量的数量，从而可以减小商品分类过程中的计算量。

实施例3：

在上述各实施例的基础上，在本发明实施例中，所述CNN包括卷积层和最大池化层；其中，所述卷积层包括至少一个卷积核；

CNN中包括卷积层，卷积层中包括至少一个卷积核，每个卷积核对应有权重系数。针对每个卷积核，根据该卷积核对应的权重系数，可以对输入到CNN中的第一向量进行卷积计算，确定该第一向量对应的第三特征向量。

例如，卷积层中包括128个卷积核，针对每个卷积核，都可以确定第一向量对应的第三特征向量，也就是可以确定出128个第三特征向量。

CNN中还包括最大池化层，针对每个第一向量，可以确定出该第一向量对应的多个第三特征向量，然后将确定的多个第三特征向量输入到最大池化层，最大池化层根据输入的多个第三特征向量，可以从多个第三特征向量中确定该第一向量对应的第一特征向量。其中，多个第三特征向量输入到最大池化层之后，最大池化层可以计算每个第三特征向量的大小，然后将最大的第三特征向量作为该第一向量对应的第一特征向量。

由于在本发明实施例中，针对每个第一向量，CNN通过卷积层，确定该第一向量对应的多个第三特征向量，进而通过最大池化层，从多个第三特征向量中确定该第一向量对应的第一特征向量。使得确定该第一向量对应的第一特征向量更准确。

实施例4：

为了进一步减小商品分类的计算量，在上述各实施例的基础上，在本发明实施例中，所述CNN包括第一全连接层；

CNN中包括第一全连接层，针对每个第一向量，通过CNN的卷积层和最大池化层确定出该第一向量对应的第一特征向量之后，该第一特征向量的维度可能很大，这样在将第一特征向量输入到预先训练完成的分类模型中确定商品类型时，分类模型的计算量就会很大。为了减小商品分类的计算量，在确定出该第一向量对应的第一特征向量之后，将第一特征向量输入到CNN的第一全连接层，第一全连接层中保存有第一预设维度，在接收到第一特征向量后，根据该第一特征向量的维度和第一预设维度，对该第一特征向量的维度进行调整。这样，基于CNN的第一全连接层，采用第一预设维度可以对每个第一特征向量进行调整。

例如，第一特征向量的维度为1000维，第一预设维度为500维，则将该第一特征向量的维度调整为500维。

其中，第一全连接层采用第一预设维度对第一特征向量进行调整的过程属于现有技术，在此不再对该过程进行赘述。

由于在本发明实施例中，在确定出第一向量对应的第一特征向量之后，将第一特征向量输入到CNN的第一全连接层，第一全连接层采用第一预设维度，对该第一特征向量的维度进行调整。从而可以降低第一特征向量的维度，进一步减小商品分类的计算量。

实施例5：

为了使确定第二特征向量准确，在上述各实施例的基础上，在本发明实施例中，所述基于所述分类模型中的长短时记忆网络LSTM，将所述每个第二向量按顺序依次输入所述LSTM中的对应的计算单元之前，所述方法还包括：

LSTM中包含的计算单元的数量可以进行配置，LSTM中包含的计算单元的数量不同，将每个第二向量按顺序依次输入LSTM中之后，确定第二特征向量的效果是不同的。例如，将10个第二向量输入到包含10个计算单元的LSTM中确定的第二特征向量和将10个第二向量输入到包含20个计算单元的LSTM中确定的第二特征向量是不同的。

电子设备在确定出每个第二向量之后，基于LSTM，将每个第二向量按顺序依次输入LSTM中的对应的计算单元之前，可以识别确定出的第二向量的数量信息，根据第二向量的数量信息，确定LSTM中包含的计算单元的数量。

例如，电子设备在确定出每个第二向量之后，识别确定出的第二向量的数量为10个，则确定LSTM中包含的计算单元的数量为10个，在将每个第二向量按顺序依次输入LSTM中的对应的计算单元时，是分别将这10个第二向量输入到LSTM中的对应的10个计算单元，根据LSTM中的每个计算单元对应的参数值，以及输入的每个第二向量，确定开票商品信息对应的第二特征向量。

由于在本发明实施例中，电子设备在确定出每个第二向量之后，识别确定出的第二向量的数量信息，根据第二向量的数量信息，确定LSTM中包含的计算单元的数量，根据LSTM中的每个计算单元对应的参数值，以及输入的每个第二向量，确定开票商品信息对应的第二特征向量。这样LSTM中包含的计算单元的数量与第二向量的数量一一对应，可以准确地确定第二特征向量。

实施例6：

为了进一步减小商品分类的计算量，在上述各实施例的基础上，在本发明实施例中，所述LSTM包括第二全连接层；

LSTM中包括第二全连接层，将每个第二向量按顺序依次输入LSTM中的对应的计算单元，根据LSTM中的每个计算单元对应的参数值，以及输入的每个第二向量，确定开票商品信息对应的第二特征向量之后，该第二特征向量的维度可能很大，这样在将第二特征向量输入到预先训练完成的分类模型中确定商品类型时，分类模型的计算量就会很大。为了减小商品分类的计算量，在确定出该第二特征向量之后，将第二特征向量输入到LSTM的第二全连接层，第二全连接层中保存有第二预设维度，第二预设维度和第一预设维度可以相同也可以不听。第二全连接层在接收到第二特征向量后，根据该第二特征向量的维度和第二预设维度，对该第二特征向量的维度进行调整。

例如，第二特征向量的维度为1200维，第二预设维度为400维，则将第二特征向量的维度调整为400维。

其中，第二全连接层采用第二预设维度对第二特征向量进行调整的过程属于现有技术，在此不再对该过程进行赘述。

由于在本发明实施例中，在确定出第二特征向量之后，将第二特征向量输入到LSTM的第二全连接层，第二全连接层采用第二预设维度，对第二特征向量的维度进行调整。从而可以降低第二特征向量的维度，进一步减小商品分类的计算量。

实施例7：

在上述各实施例的基础上，在本发明实施例中，预先训练分类模型的过程包括：

在本发明实施例中，电子设备中保存有训练数据库，针对训练数据库中的每个商品，电子设备可以识别该商品对应的发票中的纳税人企业信息和开票商品信息。在确定发票中的纳税人企业信息和开票商品信息之后，分别针对纳税人企业信息和开票商品信息进行分词处理，其中，可以采用常用的分词处理算法进行分词处理，常用的分词处理算法可以是语言模型N-Gram分词算法。根据N-Gram分词算法，可以确定出纳税人企业信息的每个第四分词，以及开票商品信息的每个第五分词。其中，根据N-Gram分词算法分别确定纳税人企业信息和开票商品信息的分词的过程属于现有技术，在此不对该过程进行赘述。

电子设备在确定出纳税人企业信息的每个第四分词，以及开票商品信息的每个第五分词之后，需要将确定出的每个分词转换为向量。其中，可以采用常用的词转向量算法将每个分词转换为向量。常用的词转向量算法可以是one-hot编码算法。根据one-hot编码算法，可以将每个第四分词转换为对应的每个第三向量，将每个第五分词转换为对应的每个第四向量。其中，根据one-hot编码算法，将每个分词转换为对应的每个向量的过程属于现有技术，在此不对该过程进行赘述。

电子设备确定出每个第四分词对应的每个第三向量之后，针对每个第三向量，将该第三向量输入到CNN中，CNN中保存有权重系数，CNN接收到输入的第三向量之后，根据权重系数可以对接收到的第三向量进行卷积计算，经过卷积计算可以得到第三向量对应的第四特征向量。这样，针对每个第三向量，基于CNN可以计算出每个第三向量对应的每个第四特征向量。

电子设备确定出每个第五分词对应的每个第四向量之后，将每个第四向量按顺序依次输入LSTM中的对应的计算单元，每个计算单元有对应的参数值，根据输入的每个第四向量和每个计算单元有对应的参数值，可以确定出开票商品信息对应的第五特征向量。

具体的，在确定出每个第五分词对应的每个第四向量之后，按照顺序将第一个第四向量输入LSTM中的第一个计算单元，第一个计算单元根据自身对应的参数值和该第一个第四向量，可以确定该第一个第四向量对应的第一个特征向量。然后LSTM将第一个特征向量和第二个第四向量进行拼接，将拼接后的向量输入LSTM中的第二个计算单元，第二个计算单元根据自身对应的参数值和拼接后的向量，可以确定该拼接后的向量对应的第二个特征向量。然后LSTM将第二个特征向量和第三个第四向量进行拼接，将拼接后的向量输入LSTM中的第三个计算单元，第三个计算单元确定出第三个特征向量。以此类推，将每个第四向量按顺序依次输入LSTM中的对应的计算单元，可以确定出开票商品信息对应的第五特征向量。

电子设备针对训练数据库中的每个商品，可以确定出该商品对应的每个第四特征向量和第五特征向量，根据该商品对应的每个第四特征向量和第五特征向量，以及该商品的类型，对分类模型进行训练。具体的，在训练时，针对每个商品，将该商品对应的每个第四特征向量和第五特征向量，以及该商品的类型，输入到分类模型的softmax分类层中，softmax分类层根据输入的信息，输出训练结果。电子设备根据每个商品的类型，以及每个商品对应的训练结果，对CNN中的权重系数进行调整，具体的，是对CNN中每个卷积核对应的权重系数进行调整；并且，电子设备根据每个商品的类型，以及每个商品对应的训练结果，对LSTM中的每个计算单元对应的参数值进行调整。经过对CNN中每个卷积核对应的权重系数进行调整，以及对LSTM中的每个计算单元对应的参数值进行调整，当softmax分类层输出每个商品的类型的准确率达到预设的阈值时，分类模型训练完成。其中，预设的阈值可以是90％、95％、98％等。

其中，对分类模型进行训练的过程属于现有技术，在本发明实施例中对上述过程不再进行赘述。

图2为本发明实施例提供的商品分类装置结构示意图，该装置包括：

识别模块21，用于识别发票中的纳税人企业信息和开票商品信息；

第一确定模块22，用于确定所述纳税人企业信息的每个第一分词，和开票商品信息的每个第二分词；

第二确定模块23，用于基于词转向量算法，确定所述每个第一分词对应的每个第一向量，和所述每个第二分词对应的每个第二向量；

第三确定模块24，用于基于预先训练完成的分类模型中的卷积神经网络CNN，针对所述每个第一向量，根据所述CNN中的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第一特征向量；基于所述分类模型中的长短时记忆网络LSTM，将所述每个第二向量按顺序依次输入所述LSTM中的对应的计算单元，根据所述LSTM中的每个计算单元对应的参数值，以及输入的每个第二向量，确定所述开票商品信息对应的第二特征向量；

第四确定模块25，用于根据所述每个第一特征向量和所述第二特征向量，及所述分类模型中的softmax分类层，确定所述发票中的商品的类型。

所述装置还包括：

更新模块26，用于针对每相邻两个第一分词，判断预先保存的词典库中是否包括该相邻两个第一分词组合后的第三分词，如果是，采用所述第三分词对该相邻两个第一分词进行更新。

所述第三确定模块24，具体用于针对CNN的卷积层中的每个卷积核，根据该卷积核对应的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第三特征向量；将针对每个卷积核确定的每个第三特征向量输入CNN的最大池化层，从每个第三特征向量中确定该第一向量对应的第一特征向量。

所述第三确定模块24，还用于基于CNN的第一全连接层，采用第一预设维度对所述每个第一特征向量进行调整。

所述装置还包括：

第五确定模块27，用于识别第二向量的数量信息，根据所述第二向量的数量信息，确定LSTM中包含的计算单元的数量。

所述第三确定模块24，还用于基于LSTM的第二全连接层，采用第二预设维度对所述第二特征向量进行调整。

所述装置还包括：

训练模块28，用于针对训练数据库中的每个商品，识别该商品对应的发票中的纳税人企业信息和开票商品信息；确定所述纳税人企业信息的每个第四分词，和开票商品信息的每个第五分词；基于词转向量算法，确定所述每个第四分词对应的每个第三向量，和所述每个第五分词对应的每个第四向量；基于CNN，针对所述每个第三向量，根据所述CNN中的权重系数，对该第三向量进行卷积计算，确定该第三向量对应的第四特征向量；基于LSTM，将所述每个第四向量按顺序依次输入所述LSTM中的对应的计算单元，根据所述LSTM中的每个计算单元对应的参数值，以及输入的每个第四向量，确定所述开票商品信息对应的第五特征向量；基于softmax分类层，针对所述训练数据库中的每个商品，根据确定的该商品对应的每个第四特征向量和第五特征向量，以及该商品的类型，对分类模型进行训练。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种商品分类方法，其特征在于，所述方法包括：

识别发票中的纳税人企业信息和开票商品信息；

2.如权利要求1所述的方法，其特征在于，所述确定所述纳税人企业信息的每个第一分词之后，基于词转向量算法，确定所述每个第一分词对应的每个第一向量之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述CNN包括卷积层和最大池化层；其中，所述卷积层包括至少一个卷积核；

4.如权利要求1或3所述的方法，其特征在于，所述CNN包括第一全连接层；

5.如权利要求1所述的方法，其特征在于，所述基于所述分类模型中的长短时记忆网络LSTM，将所述每个第二向量按顺序依次输入所述LSTM中的对应的计算单元之前，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述LSTM包括第二全连接层；

7.如权利要求1所述的方法，其特征在于，预先训练分类模型的过程包括：

8.一种商品分类装置，其特征在于，所述装置包括：

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

10.如权利要求8所述的装置，其特征在于，所述第三确定模块，具体用于针对CNN的卷积层中的每个卷积核，根据该卷积核对应的权重系数，对该第一向量进行卷积计算，确定该第一向量对应的第三特征向量；将针对每个卷积核确定的每个第三特征向量输入CNN的最大池化层，从每个第三特征向量中确定该第一向量对应的第一特征向量。

11.如权利要求8或10所述的装置，其特征在于，所述第三确定模块，还用于基于CNN的第一全连接层，采用第一预设维度对所述每个第一特征向量进行调整。

12.如权利要求8所述的装置，其特征在于，所述装置还包括：

13.如权利要求8所述的装置，其特征在于，所述第三确定模块，还用于基于LSTM的第二全连接层，采用第二预设维度对所述第二特征向量进行调整。

14.如权利要求8所述的装置，其特征在于，所述装置还包括：