CN107871144A

CN107871144A - 发票商品名分类方法、系统、设备及计算机可读存储介质

Info

Publication number: CN107871144A
Application number: CN201711191699.4A
Authority: CN
Inventors: 史源源; 陈宏仁; 王培勇; 姜巍
Original assignee: SERVYOU SOFTWARE GROUP Co Ltd
Current assignee: SERVYOU SOFTWARE GROUP Co Ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-04-03

Abstract

本申请公开了一种发票商品名分类方法、系统、设备及计算机可读存储介质，该方法包括：根据预设规则，确定待分类发票商品名的商品名向量；将所述商品名向量输入至预先创建的目标训练后模型，得到所述目标训练后模型输出的发票商品名类型，以判断该类型是否为目标类型；其中，所述目标训练后模型为预先利用目标训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行训练后得到的模型，其中，所述目标训练样本包括已标注目标发票商品名类型的训练样本以及根据Rocchio算法获取到的未标注商品名类别的训练样本。使用本发明提供的一种发票商品名分类方法，可以降低人工成本，同时还可以显著地提高分类结果的准确率。

Description

发票商品名分类方法、系统、设备及计算机可读存储介质

技术领域

本发明涉及自动分类技术领域，特别涉及一种发票商品名分类方法、系统、设备及计算机可读存储介质。

背景技术

发票的种类繁多，每种发票都有特定的使用范围。在现实生活中对发票进行分类是很常见的，而在发票的众多信息中，例如商品品名、发票单价、购票公司、开票公司等，利用商品品名来对发票进行分类是一种较为常见的做法。根据发票上的商品名，将“稻花香大米”分到谷物类别中，“小米手机”分到电子产品下。

在现有的解决方案中，一般是根据关键词匹配来判断类别，比如对于酒这一类，提前准备一些诸如“酒”、“茅台”、“醇香”之类的词语，如果商品名中有字与这些关键词重合，则分到这一类中。比如“国窖1573典藏53°500ml”归为酒，而“苹果手机6S”这种商品名的发票就不会被归到酒类中。然而，商品名繁多而复杂，准备关键词的过程需要消耗大量人力，对于每一个专项类别，都需要提前准备好专属关键词库。此外，若只匹配字符会漏掉语义上的关系，因此依赖关键词匹配的结果并不一定准确。以酒类为例，“医用酒精”也会被归为酒类，如果加上含有“酒”而不含“酒精”的限制，“正品二锅头(非酒精勾兑)”这种商品名的分类就会错误。

因此，如何提供一种发票品名分类方法，以减少在对发票进行分类过程中的人力消耗，同时提高分类结果的准确率，是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种发票品名分类方法，以减少在对发票进行分类过程中的人力消耗，同时提高分类结果的准确率。其具体方案如下：

一种发票商品名分类方法，包括：

根据预设规则，确定待分类发票商品名的商品名向量；

将所述商品名向量输入至预先创建的目标训练后模型，得到所述目标训练后模型输出的发票商品名类型，以判断该类型是否为目标类型；

其中，所述目标训练后模型为预先利用目标训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行训练后得到的模型，其中，所述目标训练样本包括已标注目标发票商品名类型的训练样本以及根据Rocchio算法获取到的未标注商品名类别的训练样本。

优选的，所述将所述词向量输入至预先创建的训练后模型，得到所述训练后模型输出的发票品名类型的步骤之前，还包括：

利用所述目标训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行训练，得到所述目标训练后模型。

优选的，所述利用所述目标训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行训练，得到所述目标训练后模型的步骤，包括：

获取已标注目标发票商品名类型的商品名，得到正标注训练样本集合；

获取未标注发票商品名类别的商品名，得到负标注训练样本集合；

利用所述正标注训练样本集合和所述负标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型。

优选的，所述利用所述正标注训练样本集合和所述负标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型的步骤，包括：

根据所述正标注训练样本集合的分布情况从所述负标注训练样本集合中筛选出相应的未标注商品名类别的商品名，得到目标负标注训练样本集合；

根据梯度增强决策树算法，利用所述正标注训练样本集合和所述目标负标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型。

优选的，所述根据所述正标注训练样本集合的分布情况从所述负标注训练样本集合中筛选出相应的未标注商品名类别的商品名，得到目标负标注训练样本集合的步骤，包括：

对所述正标注训练样本集合和所述负标注训练样本集合中的每一商品名进行分词，得到当前词特征组合，然后利用word2vec算法，将当前词特征组合中的每一词特征映射到向量空间，得到相应的词向量；

利用语言模型对当前词特征组合进行扩词，得到相应的目标词特征组合，并计算每一目标词特征组合的权重，以利用相应目标词特征组合中的词向量以及对应的权重确定相应的商品名向量；

分别利用第一计算公式和第二计算公式计算所述正标注训练样本集合的原型特征向量和所述负标注训练样本集合的原型特征向量，得到对应的正标记样本原型特征向量和负标记样本原型特征向量；其中，所述第一计算公式和所述第二计算公式计算分别为：

式中，α、β均表示常量系数，分别表示所述正标记样本原型特征向量和所述负标记样本原型特征向量，P、U分别表示所述正标注训练样本集合和所述目标负标注训练样本集合，表示商品名向量；

分别计算所述负标注训练样本集合中每一商品名的商品名向量与所述正标记样本原型特征向量和所述负标记样本原型特征向量的余弦相似程度，得到对应的正余弦相似度和负余弦相似度；若任一正余弦相似度小于或等于相应的负余弦相似度，则将该商品名确定为目标负标注训练样本，以得到所述目标负标注训练样本集合，并且将剩余的商品名作为待分类商品名。

优选的，所述根据梯度增强决策树算法，利用所述已标注训练样本集合和所述目标未标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型的步骤，包括：

利用所述正标注训练样本集合和所述目标负标注训练样本集合对预先建立的待训练模型进行迭代训练，得到当前训练后模型；

利用当前训练后模型对所述待分类商品名进行分类，若分类结果为当前商品名的标注为负，则将该商品名确定为所述目标负标注训练样本，得到当前目标负标注训练样本集合和当前待分类商品名，然后利用所述正标注训练样本集合和当前目标负标注训练样本集合重新进行迭代训练，得到当前训练后模型，否则，则将当前训练后模型确定为所述目标训练后模型。

优选的，所述将该商品名确定为目标负标注训练样本的步骤之后，还包括：

利用KMeans算法对所述目标负标注训练样本集合进行聚类。

优选的，所述对所述第一训练样本中的每一发票商品名进行分词的步骤之前，进一步包括：

对每一发票商品名进行文本清洗，以去除商品名中的干扰特征。

优选的，所述干扰特征包括商品名中的乱码和/或符号和/或单位和/或英文和/或数字。

相应的，本发明还提供了一种发票商品名分类系统，包括：

商品名向量确定模块，用于根据预设规则，确定待分类发票商品名的商品名向量；

商品名类型确定模块，用于将所述商品名向量输入至预先创建的目标训练后模型，得到所述目标训练后模型输出的发票商品名类型，以判断该类型是否为目标类型；

相应的，本发明还提供了一种发票商品名分类设备，包括：

包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述发票商品名分类方法的步骤。

相应的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述发票商品名分类方法的步骤。

本发明提供的发票商品名分类方法，首先，根据预设规则，确定待分类发票商品名的商品名向量；然后，将所述商品名向量输入至预先创建的目标训练后模型，得到所述目标训练后模型输出的发票商品名类型，以判断该类型是否为目标类型；其中，所述目标训练后模型为预先利用目标训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行训练后得到的模型，其中，所述目标训练样本包括已标注目标发票商品名类型的训练样本以及根据Rocchio算法获取到的未标注商品名类别的训练样本。

考虑到现有技术中通过关键词匹配来对发票商品名进行分类或判断发票商品名类别的方法中，商品名繁多而复杂，准备关键词的过程需要消耗大量人力，并且若只匹配字符会漏掉语义上的关系，因此依赖关键词匹配的结果并不一定准确。而本发明提供的发票商品名分类方法正是基于上述原因而提出的，只需根据预设规则确定出较为准确的商品名向量，然后将所述商品名向量输入至预先创建的目标训练后模型，以便用向量的之间的距离来衡量发票商品名语义的相似性，故同种类别的商品将会比不同类商品更容易聚集在一起，最终使得机器能够使用语义上的相似性来判断通过该模型分类结果是否为目标类型，需要说明的是，该模型为预先利用已标注目标发票商品名类型的训练样本以及根据Rocchio算法获取到的未标注商品名类别的训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行训练后得到的模型，该训练方法为半监督机器学习算法，可以有效减少模型对已标注目标发票商品名类型的训练样本的依赖，因此降低了人工成本。同时，可以显著地提高分类结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明公开的一种发票商品名分类方法流程图；

图2为本发明实施例公开的一种具体的发票商品名分类方法流程图；

图3为本发明实施例公开的一种具体的发票商品名分类方法中确定目标负标注训练样本集合流程图；

图4为本发明实施例公开的一种具体的发票商品名分类方法中确定目标训练后模型流程图；

图5为本发明实施例公开的一种发票商品名分类系统结构示意图；

图6为本发明实施例公开的一种发票商品名分类设备的目标训练后模型的确定流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种发票商品名分类方法，参见图1所示，该方法包括：

步骤S11：根据预设规则，确定待分类发票商品名的商品名向量。

需要说明的是，由于本申请实施例公开的发票商品名分类方法是通过商品名向量之间的距离来衡量商品名语义上的相似性，故可将商品名向量作为一个有效特征，上述预设规则为确定发票商品名的商品名向量的规则，具体的，可以通过以下步骤确定发票商品名的商品名向量：

可以将所有的待分类的发票商品名作为语料库，也可以根据实际情况在所述语料库的基础上添加对应的资料文档等，以得到更准确的语料库。语料库中语句经过文本清洗与分词等文本预处理后，则每个发票商品名对应若干分好的词语组成的词组。而对于商品名这样的短文本，信息量较为浓缩，故可以在分词结果上利用n-gram(即n元语法模型，n＝1,2,3)进行扩词，以便于得到一个新的词组，尽可能多地挖掘出短文本所包含的信息。例如分词后发票商品名为“张裕，巴保，世家，贵人，香干，白”，则经过上述扩词后得到新的词组“张裕，巴保，世家，贵人，香干，白，张裕巴保，巴保世家，世家贵人，贵人香干，香干白，张裕巴保世家，巴保世家贵人，世家贵人香干，贵人香干白”。然后使用深度学习word2vec算法，将上述词语表示为分布式distributed representation(即词向量)，可以理解的是，语义相近的词语对应的词向量在空间上的距离，例如欧氏距离或余弦相似度也是接近的。最后，可以通过以下权重计算公式，计算新的词组中每个词的Okapi-BM25值(即最佳匹配值)，作为与相应词语对应的权重，最后，可以将每个词词向量的加权平均确定为相应的商品名向量。

式中，Q表示对发票商品名进行上述扩词后得到的新的词组，tf(q_i)表示上述Q中任一词语q_i出现的次数，即词频，|Q|表示所述新词组Q的长度，avgql表示商品名词组的平均长度，k₁和b分别表示可调参数，IDF(q_i)表示词语q_i的反文档频率，N表示上述新的词组Q的个数，n(q_i)表示包含有词语q_i的词组的数量。

步骤S12：将所述商品名向量输入至预先创建的目标训练后模型，得到所述目标训练后模型输出的发票商品名类型，以判断该类型是否为目标类型。

需要说明的是，在发票商品名分类工作中，若不是第一次采用本申请实施例公开的发票商品名分类方法对发票商品名进行分类，则可以直接选用之前建立的目标训练后模型。当然，若是第一次使用本申请实施例公开的发票商品名分类方法进行分类时，在步骤S12之前还可以先创建目标训练后模型，再将所述商品名向量输入至上述目标数据模型，具体的，可以利用目标训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行相应训练，得到所述目标训练后模型。

相对于现有技术，采用本申请实施例提供的发票商品名分类方法只需根据预设规则确定出较为准确的商品名向量，然后将所述商品名向量输入至预先创建的目标训练后模型，以便用向量的之间的距离来衡量发票商品名语义的相似性，故同种类别的商品将会比不同类商品更容易聚集在一起，最终使得机器能够使用语义上的相似性来判断通过该模型分类结果是否为目标类型，需要说明的是，该模型为预先利用已标注目标发票商品名类型的训练样本以及根据Rocchio算法获取到的未标注商品名类别的训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行训练后得到的模型，该训练方法为半监督机器学习算法，可以有效减少模型对已标注目标发票商品名类型的训练样本的依赖，因此降低了人工成本。同时，可以显著地提高分类结果的准确率。

本发明实施例还公开了一种具体的发票商品名分类方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。参照图2所示，该方法具体包括：

步骤S21：获取已标注目标发票商品名类型的商品名，得到正标注训练样本集合；获取未标注发票商品名类别的商品名，得到负标注训练样本集合。

其中，上述已标注目标发票商品名类型的商品名可以是属于某专项类别的商品品名，需要说明的是本申请实施例中，对其数量需求较小，一般而言，只需五千户左右即可，然后可以将它们标记为+1，以得到所述正标注训练样本集合，另外，再选取一定数量的未标注是否属于该专项类别的商品名，以得到上述负标注训练样本集合，其中，该集合中既可以有该专项类别商品品名，也可以有其他类别商品品名，此外，该集合的商品名数量可以是所述正标注训练样本集合中商品名数量的十倍左右，当然也可以是其他倍数，本申请实施例对上述负标注训练样本集合中商品名数量不做限制，只要合理即可。

步骤S22：利用所述正标注训练样本集合和所述负标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型。

需要说明的是，可以根据所述正标注训练样本集合的分布情况从所述负标注训练样本集合中筛选出相应的未标注商品名类别的商品名，得到目标负标注训练样本集合；然后根据梯度增强决策树算法，利用所述正标注训练样本集合和所述目标负标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型。

具体的，参照图3所示，上述根据所述正标注训练样本集合的分布情况从所述负标注训练样本集合中筛选出相应的未标注商品名类别的商品名，得到目标负标注训练样本集合可以通过以下步骤实现：

步骤S31：对所述正标注训练样本集合和所述负标注训练样本集合中的每一商品名进行分词，得到当前词特征组合，然后利用word2vec算法，将当前词特征组合中的每一词特征映射到向量空间，得到相应的词向量。

需要说明的是，在对每一发票商品名进行分词的步骤之前，还可以具体包括：

具体的，去除商品名中乱码和/或符号和/或单位和/或无意义的英文和/或数字，或去掉词语中的连接词比如“包括、等、或者”等等，反复清洗得到干净的语句。可以理解的是，越大的语料库训练出的词向量越准确，因此除了将所有的发票商品品名作为语料库外，还可以根据实际情况将相应的资料文档经过上述文本清洗后添加到语料库中。

步骤S32：利用语言模型对当前词特征组合进行扩词，得到相应的目标词特征组合，并计算每一目标词特征组合的权重，以利用相应目标词特征组合中的词向量以及对应的权重确定相应的商品名向量。

需要说明的是，步骤S32中确定商品名的具体过程可参照上述实施例中的步骤S11的具体说明，在此不再赘述。

其中，上述语言模型可以是n-gram，即n元语法模型。具体的，将分词后得到的当前词特征组合中前后相连的三个及以下的词特征连在一起，予以扩词，以组成新的词组，这样既可以避免分词时的遗漏，降低中文分词可能带来的错误，又可以引入新的信息，最大限度地保留了商品名的内涵。

步骤S33：分别利用第一计算公式和第二计算公式计算所述正标注训练样本集合的原型特征向量和所述负标注训练样本集合的原型特征向量，得到对应的正标记样本原型特征向量和负标记样本原型特征向量；其中，所述第一计算公式和所述第二计算公式计算分别为：

式中，α、β均表示常量系数，分别表示所述正标记样本原型特征向量和所述负标记样本原型特征向量，P、U分别表示所述正标注训练样本集合和所述目标负标注训练样本集合，表示商品名向量。

步骤S34：分别计算所述负标注训练样本集合中每一商品名的商品名向量与所述正标记样本原型特征向量和所述负标记样本原型特征向量的余弦相似程度，得到对应的正余弦相似度和负余弦相似度；若任一正余弦相似度小于或等于相应的负余弦相似度，则将该商品名确定为目标负标注训练样本，以得到所述目标负标注训练样本集合N，并且将剩余的商品名作为待分类商品名。

可以理解的是，所述目标负标注训练样本集合在一定程度上属于数量级较小的样本，故为了克服所述目标负标注训练样本集合分布的复杂度以及样本聚类的不准确性，可以利用KMeans算法(即K均值算法)对所述目标负标注训练样本集合进行聚类。正如本领域技术人员所知，该算法本身具有优化迭代功能，在已经求得的聚类上再次进行迭代，以修正剪枝确定部分样本的聚类，优化了初始监督学习样本分类不合理的地方。具体的，可以采用K均值算法将所述目标负标注训练样本集合划分为k个聚类N₁，N₂，…，N_k，以便使得所获得的聚类可满足：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。则按照K均值算法的定义，每个聚类的平均商品名向量称为该聚类的重心。

具体的，可以通过以下第三计算公式和第四计算公式计算，针对每一个负类聚集n_j和正标注训练样本集合生成相应的正标记样本原型特征向量和负标记样本原型特征向量然后重新对之前划分的所述目标负标注训练样本集合N的每一商品名进行验证，将可能被错误划分的商品名放入该集合或从该集合中排除，最终得到新的目标负标注训练样本集合N′。其中，所述第三计算公式和所述第四计算公式计算分别为：

式中，表示负标记样本原型特征向量，表示正标记样本原型特征向量，N_j表示第j个上述聚类。

令j＝1，2，···，k，通过迭代使得最大，也即正标记样本原型特征向量与所述负标注训练样本集合N中任一商品名的商品名向量的余弦相似度最大时，若存在使得则N′＝N′∪{d}，也即将该商品名放到新的目标负标注训练样本集合N′中。

基于上述，参照图4所示，上述根据梯度增强决策树算法，利用所述已标注训练样本集合和所述目标未标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型的步骤，可以具体包括：

步骤S41：利用所述正标注训练样本集合和所述目标负标注训练样本集合对预先建立的待训练模型进行迭代训练，得到当前训练后模型。

步骤S42：利用当前训练后模型对所述待分类商品名进行分类，若分类结果为当前商品名的标注为负，则将该商品名确定为所述目标负标注训练样本，得到当前目标负标注训练样本集合和当前待分类商品名，然后利用所述正标注训练样本集合和当前目标负标注训练样本集合重新进行迭代训练，得到当前训练后模型，否则，则将当前训练后模型确定为所述目标训练后模型。

具体的，利用上述正标注训练样本集合P和当前目标负标注训练样本集合N来训练一个二元分类器，这个分类器可以选用梯度增强决策树XGBoost模型，令Q表示未分类商品名中剩余的那部分数据，即上述待分类商品名，则Q＝U-N。将上述正标注训练样本集合P中所有数据标注为+1，当前目标负标注训练样本集N或N′中所有数据标注为-1，然后利用P和N来训练分类器S_i(i从0开始)；然后，重复以下步骤：

用S_i来对上述待分类商品名Q进行分类，可以用W表示标记为-1的分类结果，并将W放入N或N′中，得到新的N集合，此时，当前待分类商品名Q1＝Q–W。

用上述正标注训练样本集合P和新的N集合训练一个新的分类器S_i+1，当W中没有数据时，则新的分类器S_i+1即为最终需要的分类器，也即所述目标训练后模型。

步骤S23：根据预设规则，确定待分类发票商品名的商品名向量。

需要说明的是，该步骤的相关说明可参照上述实施例。

步骤S24：将所述商品名向量输入至预先创建的目标训练后模型，得到所述目标训练后模型输出的发票商品名类型，以判断该类型是否为目标类型。

需要说明的是，利用所述目标训练后模型可以预测出未知发票商品名类别的商品名是否属于专项分类。

本实施例公开的发票商品名分类方法，通过以下方式来得到所述目标训练后模型：对发票商品名这样的短文本分词后扩词的处理方式，减少了中文分词时会带来的误差和信息遗漏。需要说明的是，扩词这步操作使得商品名真正的关键词信息得到增强，而边缘信息则得到一定的削弱。通过引入了机器学习的方法训练词向量，利用扩词后的词组中每一个词的词向量，得到相应的加权平均，以便于表征商品名。由此，将发票商品名映射到了向量空间中。在这个向量空间里，同种类别的商品将比别的商品更容易聚集在一起。最终使得机器能够使用语义上的相似性来判断分类。此外，使用半监督学习方法，只需要一个较少量的正样本即可进行模型训练。比起监督学习方法，极大减少了对已标记数据的依赖，降低了人工成本的同时显著地提高了分类过程中的预测准确率。

相应的，本申请实施例还公开了一种发票商品名分类系统，参见图5所示，该系统包括：

商品名向量确定模块51，用于根据预设规则，确定待分类发票商品名的商品名向量。

商品名类型确定模块52，用于将所述商品名向量输入至预先创建的目标训练后模型，得到所述目标训练后模型输出的发票商品名类型，以判断该类型是否为目标类型。

需要说明的是，本申请实施例公开的发票商品名分类系统还可以具体包括目标训练后模型确定模块，用于利用上述正标注训练样本集合和上述负标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型。

需要说明的是，本实施例中的各个模块的工作原理及相应技术部分的具体内容以及有益效果可参见本文上述实施例公开的发票商品名分类方法，在此不再赘述。

相应的，本申请实施例还公开了一种发票商品名分类设备，包括：

参见图6所示，图6为本申请实施例公开的发票商品名分类设备的目标训练后模型的确定流程图，在此流程中，大至可概括为目标训练样本准备、特征工程以及模型训练这三大步骤，其中，每一步骤的具体过程及原理可参照上述实施例。

需要说明的是，本申请实施例技术部分的具体内容及有益效果可参见本文上述实施例，在此不再赘述。

相应的，本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述发票商品名分类方法的步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种发票商品名分类方法、系统、设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种发票商品名分类方法，其特征在于，包括：

根据预设规则，确定待分类发票商品名的商品名向量；

2.根据权利要求1所述的发票商品名分类方法，其特征在于，所述将所述词向量输入至预先创建的训练后模型，得到所述训练后模型输出的发票品名类型的步骤之前，还包括：

3.根据权利要求2所述的发票商品名分类方法，其特征在于，所述利用所述目标训练样本对基于梯度增强决策树XGBoost模型构建的待训练模型进行训练，得到所述目标训练后模型的步骤，包括：

4.根据权利要求3所述的发票商品名分类方法，其特征在于，所述利用所述正标注训练样本集合和所述负标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型的步骤，包括：

5.根据权利要求4所述的发票商品名分类方法，其特征在于，所述根据所述正标注训练样本集合的分布情况从所述负标注训练样本集合中筛选出相应的未标注商品名类别的商品名，得到目标负标注训练样本集合的步骤，包括：

<mrow> <msup> <mover> <mi>c</mi> <mo>&RightArrow;</mo> </mover> <mo>+</mo> </msup> <mo>=</mo> <mi>&alpha;</mi> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>P</mi> <mo>|</mo> </mrow> </mfrac> <msub> <mi>&Sigma;</mi> <mrow> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <mfrac> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>|</mo> <mo>|</mo> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mi>&beta;</mi> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>U</mi> <mo>|</mo> </mrow> </mfrac> <msub> <mi>&Sigma;</mi> <mrow> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <mfrac> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>|</mo> <mo>|</mo> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>;</mo> </mrow>

<mrow> <msup> <mover> <mi>c</mi> <mo>&RightArrow;</mo> </mover> <mo>-</mo> </msup> <mo>=</mo> <mi>&alpha;</mi> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>U</mi> <mo>|</mo> </mrow> </mfrac> <msub> <mi>&Sigma;</mi> <mrow> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <mfrac> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>|</mo> <mo>|</mo> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mi>&beta;</mi> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>P</mi> <mo>|</mo> </mrow> </mfrac> <msub> <mi>&Sigma;</mi> <mrow> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <mfrac> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>|</mo> <mo>|</mo> <mover> <mi>d</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>;</mo> </mrow>

6.根据权利要求5所述的发票商品名分类方法，其特征在于，所述根据梯度增强决策树算法，利用所述已标注训练样本集合和所述目标未标注训练样本集合对预先建立的待训练模型进行训练，得到所述目标训练后模型的步骤，包括：

7.根据权利要求6所述的发票商品名分类方法，其特征在于，所述将该商品名确定为目标负标注训练样本的步骤之后，还包括：

利用KMeans算法对所述目标负标注训练样本集合进行聚类。

8.根据权利要求3至7任一项所述的发票商品名分类方法，其特征在于，所述对所述第一训练样本中的每一发票商品名进行分词的步骤之前，进一步包括：

9.根据权利要求8任一项所述的发票商品名分类方法，其特征在于，所述干扰特征包括商品名中的乱码和/或符号和/或单位和/或英文和/或数字。

10.一种发票商品名分类系统，其特征在于，包括：

11.一种发票商品名分类设备，其特征在于，包括：

包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至9任一项所述发票商品名分类方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述发票商品名分类方法的步骤。