CN111488459A

CN111488459A - 一种基于关键词的产品分类方法

Info

Publication number: CN111488459A
Application number: CN202010295098.3A
Authority: CN
Inventors: 张灿; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-04
Anticipated expiration: 2040-04-15
Also published as: CN111488459B

Abstract

本发明公开了一种基于关键词的产品分类方法，包括如下步骤：步骤一：准备训练集，从训练集中提取产品数据，标注产品数据的目录码，形成样本；步骤二：产品数据的预处理，所述预处理包括噪声样本过滤、词形变换、平衡样本；步骤三：采用预训练语言模型Bert搭建产品分类模型；步骤四：加载并微调预训练语言模型Bert；步骤五：基于语言模型Bert，预测产品的目录码。通过有监督的深度学习，能够克服关键词检索匹配技术的局限，智能解决具有相同关键词但所属不同类别、同一类别内有不同关键词的产品分类、细粒度产品目录分类较难等难题，达到同时采用多种数据预处理方案克服深度学习中样本不平衡、同义异形、标签错误等噪声干扰的效果。

Description

一种基于关键词的产品分类方法

技术领域

本发明涉及深度学习和自然语言处理领域，特别是涉及一种基于关键词的产品分类方法。

背景技术

很多场景都需要将某种产品分类到已有产品目录体系，例如新产品上架，清洗已有产品分类不规范问题，检索同类产品等。当未知类别的产品数量过多时，人工分类已不能满足大规模分类的需求。传统的搜索引擎检索技术只适用于检索一批包含相同关键词的产品，这批产品很可能具有不一样的类别分布，因此不适用于产品分类。

BERT模型的全称是Bidirectional Encoder Representation fromTransformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的，模型在pre-train方法上，用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于关键词的产品分类方法。

为解决上述技术问题，本发明提供一种基于关键词的产品分类方法，其特征在于，包括如下步骤：

步骤一：准备训练集，从训练集中提取产品数据，标注产品数据的目录码，形成样本；

步骤二：产品数据的预处理，所述预处理包括噪声样本过滤、词形变换、平衡样本；

步骤三：采用预训练语言模型Bert搭建产品分类模型，定义预训练语言模型Bert的模型结构和损失函数；

步骤四：加载预训练语言模型Bert，微调预训练语言模型Bert；

步骤五：基于训练后的语言模型Bert，输入产品的关键词，预测产品的目录码。

所述步骤一中，所述训练集为已有产品的目录体系，所述产品数据为产品名称和关键词，所述目录码为细粒度目录码，所述标注产品数据的目录码的过程是将产品名称、产品关键词和目录码处理成文本标签对的形式。

所述步骤二中，所述噪声样本过滤是指：计算文本标签对中产品名称和产品关键词的交集，将所述交集作为代理关键词，统计代理关键词所在目录的分布频次，对于每个代理关键词，若分布的目录数量在5个以上，则删除频次低于10的目录中的相应文本标签对；

所述词形变换是指：将文本标签对中的产品名称变换成具有不同词形的文本，所述变换的方法包括词形还原、词形扩充、符号转换；

所述平衡采样是指：对于经过噪声样本过滤和词形变换后的数据集，统计每个目录码拥有的样本数量并计算均值，对低于均值的目录码的样本，以上采样或重复采样至达到均值，对于高于均值的目录码的样本，以下采样至达到样本平衡。

所述步骤二中，若文本标签对中产品名称和产品关键词的交集为空，则选择产品关键词作代理关键词；所述词形还原具体指，利用词形还原工具将复数、形容词、副词转换为原形词，对这些转换词进行记录；所述词形扩充具体指，反向将训练集中的原形词扩充成复数、形容词或副词；所述符号转换具体指，将“-”，“_”删除或转换成空格；所述上采样的方法包括：对原样本随机选择若干位置插入词，用以形成新样本，所述下采样的方法包括：以指定概率P随机删除该样本，其中P＝(source-target)÷source，source代表未采样样本的总数量，target代表目标样本综述。

所述步骤三中，所述预训练语言模型Bert的网络结构依次为：输入层、嵌入层、transformer结构、全连接层，定义损失函数为交叉熵损失函数。

所述步骤三中，预训练语言模型Bert中，将接收的产品数据输入进嵌入层，得到Token embeddings、Segment embeddings和Position embeddings，将这三个嵌入向量进行拼接，基于transformer结构的encoder block学习语义信息，全连接层通过公式

output＝transformer_vector_(b,w)*weight_(w,c)+bais_c

将transformer输出向量转化为预测概率，即预测该产品属于每个类别的概率，其中b代表batch size,w代表权重，c代表产品种类数；

损失函数的使用为，计算真实标签的one-hot向量与模型预测值softmax概率的损失，训练至损失函数收敛，所述交叉熵损失函数为

其中p(x_i)是真实概率分布，q(x_i)是预测概率分布。

所述步骤四中，加载预训练语言模型Bert的参数，全连接层中的weight_(w,c)和bais_c是自定义参数，以0.02为标准差，采用截断正态分布对自定义参数进行随机初始化，输入训练集，微调预训练语言模型Bert，预训练语言模型Bert中输入的文本对为三种形式：形式一：预训练语言模型Bert中输入的文本对为“产品名称+目录码”文本对；形式二：预训练语言模型Bert中输入的文本对为“产品关键词+目录码”文本对；形式三：预训练语言模型Bert中输入的文本对为“产品名称+[SEP]+产品关键词+目录码”文本对；所述[SEP]是bert中定义的特殊分隔符，代表将两段文本进行拼接和区分，对比输入所述三种形式的文本对的预训练语言模型Bert，根据对比结果选择测试集分类准确率最高的预训练语言模型Bert。

所述步骤五中，基于步骤四训练得到的预训练语言模型Bert，输入一个产品的关键词，返回预测结果中分类概率最高的三个目录码。

本发明所达到的有益效果:针对产品分类问题进行了方案设计，利用预训练语言模型Bert训练基于关键词的产品分类模型，通过该模型，输入产品完整名称或者关键词即可预测产品所属目录。通过有监督的深度学习，能够克服关键词检索匹配技术的局限，智能解决具有相同关键词但所属不同类别、同一类别内有不同关键词的产品分类、细粒度产品目录分类较难等难题，同时采用多种数据预处理方案克服深度学习中样本不平衡、同义异形、标签错误等噪声干扰。

附图说明

图1为本发明的示例性实施例的方法流程简图；

图2为本发明的示例性实施例中的噪声样本示意图；

图3为本发明的示例性实施例中的词形变换示意图；

图4为本发明的示例性实施例中的产品分类模型结构示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示，本发明公开一种基于关键词的产品分类方法的方法，包括：

步骤11：准备训练集，从产品数据库中提取产品的名称、关键词、细粒度目录码作为训练样本，每条样本是一个包含(名称、关键词、目录码)的文本标签对。

步骤12：数据预处理，对提取的产品名称和产品关键词作数据预处理。

噪声样本过滤，如图2所示，圆圈中的数字num代表某一个关键词例如bag在不同类别中的样本数量，num值低于10说明bag关键词在该类中的样本数量非常稀少，因此白色圆圈代表的样本是噪声样本，噪声样本的特点是关于一个关键词所在目录频次分布的稀有异常值。这里的关键词并非产品数据库中提取的产品关键词，因为产品关键词是由用户人工自定义的，具有一定随机性，而产品名称中通常包含核心关键词和其他修饰词，因此对每条样本产品名称和产品关键词的交集作为代理关键词，若交集为空则选择产品关键词作代理关键词。统计这些代理关键词所在目录的频次分布。对每个代理关键词，若分布在超过5个目录以上，则删除频次低于10时目录对应的文本标签对样本。

词形变换，如图3所示，采取的词形变换措施包括单复数转换、形容词副词转换、符号转换。利用词形还原工具将复数、形容词、副词转换为原形词，同时对这些转换词进行记录，反向将训练集中的原形词扩充成复数、形容词或副词。此外，英文短语中常用“-”，“_”等符号将两个词连接，这些符号转换成空格或者去掉后两个单词基本含义不变，因此加入符号转换进行预处理。通过上述方法将文本标签对中的产品名称、关键词变换成具有不同词形的文本以扩充样本，避免训练和测试时输入形式不一致但含义一致的关键词导致误分类问题。

平衡采样。基于步骤122扩充后的数据集，对目录码频次进行统计，并计算所有频次的均值。对不足均值的目录码样本进行上采样或重复采样至均值，对高于均值的目录码样本进行下采样至均值。上采样的措施是：对原样本随机选择若干位置并插入一些词形成新样本，下采样的措施是以一定概率P随机删除该样本，其中P＝(source-target)÷source，source代表未采样样本的总数量，target代表目标样本综述。

步骤13：采用预训练语言模型搭建基于Bert的产品分类模型，如图4所示，定义预训练语言模型Bert的模型结构和损失函数,在transformer结构的基础上加入全连接和softmax分类层并定义损失函数。

Bert模型接收输入后，进入嵌入层，得到Token embeddings、Segment embeddings和Position embeddings，将这三个嵌入向量进行拼接。然后基于transformer结构的encoder block学习语义信息，全连接层(Dense)通过公式(2)和公式(3)将transformer输出向量转化为预测概率，即预测该产品属于每个类别的概率。其中b代表batch size,w代表权重，c代表产品种类数。

output＝transformer_vector_(b,w)*weight_(w,c)+bais_c

损失函数采用交叉熵损失函数Cross Entropy Loss function：

其中p(x_i)是真实概率分布，q(x_i)是预测概率分布，

计算真实标签的one-hot向量与模型预测值softmax概率的损失，训练至损失函数收敛。其中one-hot向量是将类别变量转换为机器学习算法易于利用的一种形式的过程，假设共有5种产品类型，目录码分别为1101,1102,1103,1104,1105,当一个样本的真实标签为1104时，其one-hot向量为[0,0,0,1,0]。

步骤14：加载预训练Bert模型的参数，全连接层中的weight_(w,c)和bais_c是自定义参数，以0.02为标准差，采用截断正态分布对自定义参数进行随机初始化，输入训练集，训练并微调模型。可选择下列几种方式作为训练集输入方式，方式一：输入为(产品名称，目录码)文本对，方式二：输入为(产品关键词，目录码)文本对，方式三：输入为(产品名称+[SEP]+产品关键词，目录码)文本对，[SEP]是bert中定义的特殊分隔符，代表将两段文本进行拼接和区分。因为用户指定的关键词不一定是该产品的真实类别，例如产品名称cotton babysleeping bag的产品关键词为(sleeping bag,baby sleeping bag)前一个关键词常在户外运动产品类别下出现，因此产品关键词中具有一定噪声干扰，可以根据最终测试集分类准确率最高的模型选择合适的训练方式。

步骤15：基于训练后的语言模型Bert，输入产品的关键词，预测产品的目录码，即基于步骤14训练得到的最优模型，向模型输入一个完整的产品名称或简短的关键词皆可，计算图4所示的softmax probability，选择概率最高的三个目录码反馈给用户。

本发明主要用于提供一种基于关键词的产品分类方法，该方法能够高效准确的完成产品分类功能。分类模型准确性高、输入产品名称、关键词及其各种词形变体均能准确判别产品类别。适用场景多，包括搜索引擎检索、产品上架、数据清洗、智能推荐等多个业务场景。可快速对大规模产品进行归类，能帮助企业降低人力成本。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种基于关键词的产品分类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于关键词的产品分类方法，其特征在于：所述步骤一中，所述训练集为已有产品的目录体系，所述产品数据为产品名称和关键词，所述目录码为细粒度目录码，所述标注产品数据的目录码的过程是将产品名称、产品关键词和目录码处理成文本标签对的形式。

3.如权利要求2所述的一种基于关键词的产品分类方法，其特征在于：所述步骤二中，所述噪声样本过滤是指：计算文本标签对中产品名称和产品关键词的交集，将所述交集作为代理关键词，统计代理关键词所在目录的分布频次，对于每个代理关键词，若分布的目录数量在5个以上，则删除频次低于10的目录中的相应文本标签对；

4.如权利要求3所述的一种基于关键词的产品分类方法，其特征在于，所述步骤二中，若文本标签对中产品名称和产品关键词的交集为空，则选择产品关键词作代理关键词；所述词形还原具体指，利用词形还原工具将复数、形容词、副词转换为原形词，对这些转换词进行记录；所述词形扩充具体指，反向将训练集中的原形词扩充成复数、形容词或副词；所述符号转换具体指，将“-”，“_”删除或转换成空格；所述上采样的方法包括：对原样本随机选择若干位置插入词，用以形成新样本，所述下采样的方法包括：以指定概率P随机删除该样本，其中P＝(source-target)÷source，source代表未采样样本的总数量，target代表目标样本综述。

5.如权利要求4所述的一种基于关键词的产品分类方法，其特征在于：所述步骤三中，所述预训练语言模型Bert的网络结构依次为：输入层、嵌入层、transformer结构、全连接层，定义损失函数为交叉熵损失函数。

6.如权利要求5所述的一种基于关键词的产品分类方法，其特征在于，所述步骤三中，预训练语言模型Bert中，将接收的产品数据输入进嵌入层，得到Token embeddings、Segment embeddings和Position embeddings，将这三个嵌入向量进行拼接，基于transformer结构的encoder block学习语义信息，全连接层通过公式

output＝transformer_vector_(b,w)*weight_(w,c)+bais_c

其中p(x_i)是真实概率分布，q(x_i)是预测概率分布。

7.如权利要求6所述的一种基于关键词的产品分类方法，其特征在于：所述步骤四中，加载预训练语言模型Bert的参数，全连接层中的weight_(w,c)和bais_c是自定义参数，以0.02为标准差，采用截断正态分布对自定义参数进行随机初始化，输入训练集，微调预训练语言模型Bert，预训练语言模型Bert中输入的文本对为三种形式：形式一：预训练语言模型Bert中输入的文本对为“产品名称+目录码”文本对；形式二：预训练语言模型Bert中输入的文本对为“产品关键词+目录码”文本对；形式三：预训练语言模型Bert中输入的文本对为“产品名称+[SEP]+产品关键词+目录码”文本对；所述[SEP]是bert中定义的特殊分隔符，代表将两段文本进行拼接和区分，对比输入所述三种形式的文本对的预训练语言模型Bert，根据对比结果选择测试集分类准确率最高的预训练语言模型Bert。

8.如权利要求7所述的一种基于关键词的产品分类方法，其特征在于，所述步骤五中，基于步骤四训练得到的预训练语言模型Bert，输入一个产品的关键词，返回预测结果中分类概率最高的三个目录码。