CN110781675A

CN110781675A - 文本分类方法和装置

Info

Publication number: CN110781675A
Application number: CN201910912343.8A
Authority: CN
Inventors: 左赛; 魏树桂; 王丹丹; 赵楠; 徐祥朕
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-02-11

Abstract

本申请涉及一种文本分类方法和装置，所述方法包括：对文本进行分词处理，提取文本中的分词信息；分别使用第一分类模型和第二分类模型对所述分词信息进行分类预测，分别获得对应的第一分类列表和第二分类列表；将第一分类列表和第二分类列表进行融合处理，获得最终分类列表。本申请的方案提供一种组合算法，融合了两种不同的分类器模型，形成一个适用于大规模类目的以及不均衡训练数据的分类器；适用于数据量大，类目体系复杂，类目数量上万，且类目之间有交叉包含等情况。

Description

文本分类方法和装置

技术领域

本申请涉及文本分类技术领域，具体涉及一种文本分类方法和装置。

背景技术

随着互联网技术，尤其是电子商务领域的发展，越来越多的用户开始使用网络平台进行商品购买，大量电子商务平台应运而生。电商平台不仅要吸引用户购买，还要管理大量商家的商品信息。随着商家入驻，大量商品上架，平台需要一种智能的分类器，对商品进行智能分类。用于商品的质量管理，以及搜索推荐。

电商平台上的商品数据有以下特点：(1)类目体系复杂，类目数量上万，且类目之间有交叉包含等情况。(2)训练数据在不同类目中的数量极不均匀，有的只有几个，有的有上百万。

作为NLP领域最经典的场景之一，文本分类积累了大量的技术实现方法，如果将是否使用深度学习技术作为标准来衡量，实现方法大致可以分成两类：基于传统机器学习的文本分类；基于深度学习的文本分类。但是，这两类分类器都很难应对大规模类目的多分类预测，以及训练数据不均衡的问题。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种适用于大量类目及不均匀训练数据的文本分类方法和装置。

根据本申请实施例的第一方面，提供一种文本分类方法，包括：

对文本进行分词处理，提取文本中的分词信息；

分别使用第一分类模型和第二分类模型对所述分词信息进行分类预测，分别获得对应的第一分类列表和第二分类列表；

将第一分类列表和第二分类列表进行融合处理，获得最终分类列表。

进一步地，所述第一分类模型和所述第二分类模型均为预先训练好的分类器模型，用于根据输入的分词信息将对应的文本进行分类。

进一步地，所述第一分类模型为朴素贝叶斯模型；所述朴素贝叶斯模型的训练方法包括：

获取训练数据；

采用TF-IDF算法提取训练数据的特征信息；

根据朴素贝叶斯算法计算出特征概率，保存为多分类模型。

进一步地，所述根据朴素贝叶斯算法计算出特征概率，包括：

P(yi|x1,x2,...,xd)＝P(x1|yi)×P(x2|yi)×...×P(xd|yi)；

其中，x1,x2,...,xd为文本中的词序列，yi为类目i，P(yi|x1,x2,...,xd)表示文本x1,x2,...,xd属于类目yi的概率，P(xdyi)表示类目yi中xd这个词出现的概率。

进一步地，所述第二分类模型为神经网络模型；所述神经网络模型的训练方法包括：

获取训练数据，所述训练数据是从训练数据集中提取的分词信息；

采用N-Gram算法对分词信息进行数据加工，增加词语的前后关联信息；

使用单层全连接神经网络进行训练；

采用Softmax产生归一化效果，生成神经网络模型。

进一步地，所述第一分类列表/所述第二分类列表中的信息包括：所述第一分类模型/所述第二分类模型预测的若干个类目及每个类目对应的权重；

所述将第一分类列表和第二分类列表进行融合处理，包括：

对第一分类列表和第二分类列表进行去噪处理；

将去噪结果取交集，形成推荐类目列表；

对推荐类目列表进行融合处理。

进一步地，所述对第一分类列表和第二分类列表进行去噪处理，包括：

获取权重阈值；

根据所述权重阈值，分别从第一分类列表和第二分类列表筛选出权重大于所述权重阈值的类目。

进一步地，所述获取权重阈值，包括：

分别获取所述第一分类列表对应的第一权重阈值和所述第二分类列表对应的第二权重阈值；

其中，所述第一权重阈值和所述第二权重阈值均为预设值。

进一步地，所述对推荐类目列表进行融合处理，包括：

根据所述推荐类目列表进行权重融合计算；

将融合计算后的结果进行排序和归一化处理。

根据本申请实施例的第二方面，提供一种文本分类装置，包括：

提取模块，用于对文本进行分词处理，提取文本中的分词信息；

第一分类模型，用于对所述分词信息进行分类预测，获得对应的第一分类列表；

第二分类模型，用于对所述分词信息进行分类预测，获得对应的第一分类列表和第二分类列表；

融合模块，用于将第一分类列表和第二分类列表进行融合处理，获得最终分类列表。

本申请的实施例提供的技术方案具备以下有益效果：

本申请的方案提供一种组合算法，融合了两种不同的分类器模型，形成一个适用于大规模类目的以及不均衡训练数据的分类器；适用于数据量大，类目体系复杂，类目数量上万，且类目之间有交叉包含等情况。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种文本分类方法的流程图。

图2是根据一示例性实施例示出的一种模型训练流程图。

图3是根据一示例性实施例示出的一种模型测试流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种文本分类方法的流程图。该方法可以应用于电商平台，对商品进行智能分类，包括以下步骤：

步骤S1：对文本进行分词处理，提取文本中的分词信息；

步骤S2：分别使用第一分类模型和第二分类模型对所述分词信息进行分类预测，分别获得对应的第一分类列表和第二分类列表；

步骤S3：将第一分类列表和第二分类列表进行融合处理，获得最终分类列表。

一些实施例中，所述第一分类模型和所述第二分类模型均为预先训练好的分类器模型，用于根据输入的分词信息将对应的文本进行分类。

本申请的方法主要分为模型训练和分类检测两部分。

如图2所示，训练部分包括：

首先对文本进行分词处理，提取文本中的分词信息。

然后分为两条线，朴素贝叶斯模型训练和神经网络模型训练。

一些实施例中，所述第一分类模型为朴素贝叶斯模型；所述朴素贝叶斯模型的训练方法包括：

获取训练数据；

采用TF-IDF算法提取训练数据的特征信息；

根据朴素贝叶斯算法计算出特征概率，保存为多分类模型。

其中，朴素贝叶斯模型采用TF-IDF算法提取训练数据的特征信息，根据朴素贝叶斯算法，计算出特征概率，保存为多分类模型(bys_model)。

相关技术中，传统的朴素贝叶斯公式是：P(Y|X)＝P(Y)P(X|Y)/P(X)；

其中，P(Y|X)表示文本X属于分类Y的概率，P(Y)是分类Y的概率，P(X)是文本X的概率，P(X|Y)是分类Y中出现文本X的概率。P(X)是不变的，需要计算P(Y)和P(X|Y)的值。

本申请的方案针对传统的朴素贝叶斯公式进行了优化。在分类检验的场景下，P(Y)对于每个分类来说都是相同的，如果根据分类概率来计算，会影响到预测结果。所以，本申请的算法去掉了P(Y)这个计算值。

最终，本申请的特征概率的计算公式为：

P(yi|x1,x2,...,xd)＝P(x1|yi)×P(x2|yi)×...×P(xd|yi)；

其中，x1,x2,...,xd为文本中的分词序列，yi为类目i，P(yi|x1,x2,...,xd)表示文本x1,x2,...,xd属于类目yi的概率，P(xd|yi)表示类目yi中xd这个词出现的概率。

一些实施例中，所述第二分类模型为神经网络模型；所述神经网络模型的训练方法包括：

使用单层全连接神经网络进行训练；

采用Softmax产生归一化效果，生成神经网络模型。

神经网络模型采用N-Gram算法，对分词信息进行数据加工，增加词语的前后关联信息。使用单层全连接神经网络进行训练，采用Softmax产生归一化效果，保证结果覆盖所有类目，产生神经网络模型(snn_model)。

需要说明的是，N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,Chinese Language Model)。常用的是二元的Bi-Gram和三元的Tri-Gram。

一些实施例中，所述第一分类列表/所述第二分类列表中的信息包括：所述第一分类模型/所述第二分类模型预测的若干个类目及每个类目对应的权重；

所述将第一分类列表和第二分类列表进行融合处理，包括：

对第一分类列表和第二分类列表进行去噪处理；

将去噪结果取交集，形成推荐类目列表；

对推荐类目列表进行融合处理。

下面结合具体的应用场景，对本申请的方案进行拓展说明。

如图3所示，预测部分包括如下的几个步骤。

第一步，对文本进行分词处理，提取文本中的分词信息。

第二步，分别使用朴素贝叶斯模型(bys_model)和神经网络模型(snn_model)进行分类预测，分别获得对应的分类得分排序列表，及其权重。

比如，在一个具体的分类预测实施例中，朴素贝叶斯模型输出的得分排序列表bys_list(第一列是分类，第二列是权重)为：

分类1	-0.5
		分类2	-1
分类3	-1.2
		分类4	-5

单层全连接神经网络模型输出的排序列表snn_list为：

分类3	-0.3
		分类2	-1.1
分类4	-1.3
		分类5	-7

第三步，根据权重设置固定阈值，过滤取出权重高的分类作为推荐列表。

一些实施例中，所述对第一分类列表和第二分类列表进行去噪处理，包括：

获取权重阈值；

一些实施例中，所述获取权重阈值，包括：

其中，所述第一权重阈值和所述第二权重阈值均为预设值。

比如，朴素贝叶斯模型的阈值可以是，bys_list得分>-4；单层全连接神经网络模型的阈值可以是，snn_list得分>-6；则根据阈值进行过滤后，-5和-7会被过滤掉。过滤后的结果如下：

朴素贝叶斯得分排序列表bys_list：

分类1	-0.5
		分类2	-1
分类3	-1.2

单层全连接神经网络排序列表snn_list：

分类3	-0.3
		分类2	-1.1
分类4	-1.3

第四步，针对两个分类推荐列表，取交集形成推荐类目列表。

取交集的运算是：Result_list＝intersect(bys_list,snn_list)。

两个表中都包含分类2和分类3，取交集的结果(推荐类目列表)是：

分类2	-1	分类3	-0.3
				分类3	-1.2	分类2	-1.1

第五步，针对推荐类目列表，进行权重融合，并进行归一化，给出最终排序推荐类目信息。

一些实施例中，所述对推荐类目列表进行融合处理，包括：

根据所述推荐类目列表进行权重融合计算；

将融合计算后的结果进行排序和归一化处理。

权重融合的运算是：Result_list＝merge(Result_list)。

比如，权重融合可以是取均值，则权重融合的结果是：

分类2：(-1-1.1)/2＝-1.05；

分类3：(-1.2-0.3)/2＝-0.75；

分类2	-1.05
		分类3	-0.75

排序的运算是：Result_list＝sort(Result_list)。

比如，可以按照权重由大到小进行排序，则排序结果是：

分类3	-0.75
		分类2	-1.05

归一化的运算是：Result_list＝normalize(Result_list)。

比如，可以通过取幂的运算进行归一化：

分类3对10取幂：10^(-0.75)＝0.1778；

分类2对10取幂：10^(-0.75)＝0.089；

总数为：0.1778+0.089＝0.2668；

分类3占比为：0.1778/0.2668＝66.6％；

分类2占比为：0.089/0.2668＝33.4％；

归一化的结果是：

分类3	66.6％
		分类2	33.4％

Result_list为最终结果，即分类器推荐的最有可能的分类。这个结果是一个排序的列表，按顺序代表文本最可能的分类。

结合了朴素贝叶斯不依赖于训练数据密度的优点，以及神经网络不受非核心词干扰的优点。对结果进行量化组合排序。得出适用性极强的分类器，适用于数据量大，电商商品多种多样，数量极不均衡的场景。

神经网络使用单层全连接softmax应对大规模类目体系的多分类问题。

本申请的方案针对多种复杂且可能有交叉类目的分类体系效果很好。可以有效的提高针对大规模类目以及不均衡训练数据多分类的准确率。

本申请还提供如下的实施例：

一种文本分类装置，该装置包括：

关于上述实施例中的装置，其中各个模块执行操作的具体步骤已经在有关该方法的实施例中进行了详细描述，此处不再详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文本分类方法，其特征在于，包括：

对文本进行分词处理，提取文本中的分词信息；

2.根据权利要求1所述的方法，其特征在于，所述第一分类模型和所述第二分类模型均为预先训练好的分类器模型，用于根据输入的分词信息将对应的文本进行分类。

3.根据权利要求2所述的方法，其特征在于，所述第一分类模型为朴素贝叶斯模型；所述朴素贝叶斯模型的训练方法包括：

获取训练数据；

采用TF-IDF算法提取训练数据的特征信息；

根据朴素贝叶斯算法计算出特征概率，保存为多分类模型。

4.根据权利要求3所述的方法，其特征在于，所述根据朴素贝叶斯算法计算出特征概率，包括：

P(yi|x1,x2,...,xd)＝P(x1|yi)×P(x2|yi)×...×P(xd|yi)；

5.根据权利要求2所述的方法，其特征在于，所述第二分类模型为神经网络模型；所述神经网络模型的训练方法包括：

使用单层全连接神经网络进行训练；

采用Softmax产生归一化效果，生成神经网络模型。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述第一分类列表/所述第二分类列表中的信息包括：所述第一分类模型/所述第二分类模型预测的若干个类目及每个类目对应的权重；

所述将第一分类列表和第二分类列表进行融合处理，包括：

对第一分类列表和第二分类列表进行去噪处理；

将去噪结果取交集，形成推荐类目列表；

对推荐类目列表进行融合处理。

7.根据权利要求6所述的方法，其特征在于，所述对第一分类列表和第二分类列表进行去噪处理，包括：

获取权重阈值；

8.根据权利要求7所述的方法，其特征在于，所述获取权重阈值，包括：

其中，所述第一权重阈值和所述第二权重阈值均为预设值。

9.根据权利要求6所述的方法，其特征在于，所述对推荐类目列表进行融合处理，包括：

根据所述推荐类目列表进行权重融合计算；

将融合计算后的结果进行排序和归一化处理。

10.一种文本分类装置，其特征在于，包括：