CN116186249B

CN116186249B - 一种电商商品的品目预测机器人及其实现方法

Info

Publication number: CN116186249B
Application number: CN202211300861.2A
Authority: CN
Inventors: 郑新刚; 邱华淞; 严友金; 陈诚; 林铖伟; 王赛; 雷晶强
Original assignee: Shucai Xiaobo Technology Development Co ltd
Current assignee: Shucai Xiaobo Technology Development Co ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-10-13
Anticipated expiration: 2042-10-24
Also published as: CN116186249A

Abstract

本发明提供一种电商商品的品目预测机器人及其实现方法，先通过海量无标注语料对下载的所述bert预训练语言模型bert‑base‑chinese进行预训练，得到预训练后bert模型；再经过模型微调过程对预训练后bert模型进行微调，从而得到最佳模型，并保存最佳模型的模型参数列表。最后通过运行所述最佳模型，加载所述最佳模型的模型参数列表，核验模型对商品归类的准确率；直到准确率不低于阈值时结束，此时得到的bert模型即为所述电商商品的品目预测机器人。本发明根据品目库标准，依托大数据，通过人工智能算法模型实现商品品目预测，能快速、精准、智能地从大规模商品数据中识别商品类目，助力企业采购数字化、自动化、智能化转型升级，为供应链端商品治理归类降本增效。

Description

一种电商商品的品目预测机器人及其实现方法

技术领域

本发明涉及计算机技术领域，特别涉及一种电商商品的品目预测机器人及其实现方法。

背景技术

在大数据时代，随着大数据、人工智能、区块链等技术的广泛应用，技术的发展推动了采购业务数字化升级的进程。电子商务的蓬勃发展已经成为推动我国商业经济发展的重要增长点，电商企业也在充分运用大数据的技术优势来完善商品管理模式，并取得了显著成效。目前，电商企业面临的市场竞争有增无减，尤其是面对新时代下采购平台的海量商品数据，企业只有不断提高商品、人力等方面的成本控制管理水平，不断提高商品标准化治理水平，才能有效地降低供应链成本、提高自身的竞争优势。

由于商品种类五花八门，商品分类问题往往涉及庞大的数据量。与此同时，新产品层出不穷，商品分类需要紧跟商品更新迭代的速度。采用传统的人工标注的方式进行商品分类和审核已经无法满足大数据时代下商品分类的需求，这种方式不仅工作量大，费时费力，而且判断标准较为主观，误判率较高。因此，对商品进行自动化分类已成为当前的主要发展趋势。

发明内容

本发明要解决的技术问题，在于提供一种电商商品的品目预测机器人的实现方法，依托大数据、人工智能等技术实现电商商品的品目预测机器人，解决传统人工为主方式商品数据治理分类低效问题。

第一方面，本发明提供了一种电商商品的品目预测机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序的实现方法包括：

环境搭建过程，下载bert预训练语言模型bert-base-chinese；通过海量无标注语料对下载的所述bert预训练语言模型bert-base-chinese进行预训练，得到预训练后bert模型；该海量无标注语料未作商品标题的标注；

模型微调过程，基于品目库标准构建品目标签集文件class.txt，供预训练后bert模型读取；将品目清单进行one-hot编码形成标签矩阵；选取run_classifier.py文件作为下游分类任务的分类器；在所述run_classifier.py文件中关联数据集文件、品目标签集文件class.txt和初始模型参数列表，从而能加载标注数据集C和所述标签矩阵作为分类器的输入，加载初始模型参数列表并配置初始学习率参数值后运行分类器，通过分类器对输入的各个商品标题信息进行所属品目的推理，列出推理结果；重新配置学习率参数值和模型参数列表，继续运行分类器，并进行推理，如此反复，得到多个推理能力不同的bert模型；选择分类器推理能力最高的bert模型作为最佳模型，并保存最佳模型的模型参数列表；

模型评估过程，运行所述最佳模型，加载所述最佳模型的模型参数列表；输入测试数据集核验输出结果的置信度，核验模型对商品归类的准确率，若准确率低于阈值，则重新配置学习率取值和模型参数列表后再进行模型微调，直到准确率不低于阈值时结束，此时得到的bert模型即为所述电商商品的品目预测机器人；

其中，所述下游分类任务是用于将商品标题信息文本分为若干商品类目；所述标注数据集C标注了商品标题和品目标签；所述模型参数列表包括商品属性、名称和品牌的相关参数；所述测试数据集为一定数量的商品标题信息的数据集。

第二方面，本发明提供了一种电商商品的品目预测机器人的实现方法，包括：

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：本发明根据品目库标准，依托大数据，通过人工智能算法模型实现商品品目预测，能快速、精准、智能地从大规模商品数据中识别商品类目，无需人工识别归类同款商品，以算力解放人力，助力企业采购数字化、自动化、智能化转型升级，为供应链端商品治理归类降本增效。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明下游分类任务的源码结构的示意图；

图2为本发明实施例一中电商商品的品目预测机器人的实现方法流程图；

图3为本发明实施例中学习率参数值对模型精度的影响曲线示意图。

具体实施方式

本申请实施例通过提供一种电商商品的品目预测机器人及其实现方法，依托大数据、人工智能等技术实现电商商品的品目预测机器人，解决传统人工为主方式商品数据治理分类低效问题。

本申请实施例中的技术方案，总体思路如下：通过下载bert预训练语言模型bert-base-chinese，先通过海量无标注语料对下载的所述bert预训练语言模型bert-base-chinese进行预训练，得到预训练后bert模型；再经过模型微调过程对预训练后bert模型进行微调，从而得到最佳模型，并保存最佳模型的模型参数列表。最后通过运行所述最佳模型，加载所述最佳模型的模型参数列表，核验模型对商品归类的准确率；直到准确率不低于阈值时结束，此时得到的bert模型即为所述电商商品的品目预测机器人。

其中，BERT（Bidirectional Encoder Representation from Transformers）是2018年10月由Google AI研究院提出的一种预训练模型。针对不同语言和不同模型大小，google提供了多种预训练好的bert模型，本申请的品目预测机器人基于bert-base-chinese预训练语言模型。bert-base-chinese预训练语言模型的下载地址为：https://github.com/google-research/bert；下游分类任务的下载地址：https://github.com/google-research/bert。下游分类任务的源码结构如图1所示。

在bert模型完成特定领域知识的学习后，还需要根据下游任务做相应的微调。因为不同类型的任务的特性跟关注的重点有所区别，为了让bert模型应用到下游任务在商品品目预测上取得更好的结果，需要根据特定的任务做下调整，用监督学习方式进行微调，让模型学到下游任务应该具备的知识跟能力。

自然语言处理一般分为四种主要的任务类型：分类任务是将文本分为若干类别的任务，用于情感分析、新闻分类等；序列标注任务可以对文本中的每个特征预测对应的类别，输出标签序列，用于命名实体识别，词性标注等；推理任务是从段落和问题中找到答案的任务，用于阅读理解等；生成类任务是根据上下文内容生成内容的任务，用于文本生成等。本申请是一种电商商品的品目预测机器人，因此需使用分类任务作为下游任务。

标注数据集C的准备：构建1万条标注数据集（标注了商品标题和品目标签）转化为train.csv文件。用监督学习方式对bert预训练语言模型参数进行微调。标注数据集C中的数据举例如下：

商品智能归类一个重要的基础是标准化的品目库。本申请通过多年来各种采购平台项目建设、管理、运营的一些经验，整合多家综合电商及多个政府、企业采购平台品目标准，经过多年的积累与提升，最终梳理出了统一的品目库标准，品目库的部分品目清单举例如下：

基于上述品目库标准，构建品目标签集class.txt文件，供bert预训练语言模型读取。

实施例一

如图2所示，本实施例提供一种电商商品的品目预测机器人，通过下述方法实现，所述方法包括环境搭建过程、模型微调过程和模型评估过程。

所述环境搭建过程是：下载bert预训练语言模型bert-base-chinese；通过海量无标注语料对下载的所述bert预训练语言模型bert-base-chinese进行预训练，得到预训练后bert模型；该海量无标注语料未作商品标题的标注；

模型微调过程，基于品目库标准构建品目标签集文件class.txt，供预训练后bert模型读取；将品目清单进行one-hot编码形成标签矩阵；选取run_classifier.py文件作为下游分类任务的分类器；所述下游分类任务是用于将商品标题信息文本分为若干商品类目；在所述run_classifier.py文件中关联数据集文件、品目标签集文件class.txt和初始模型参数列表，从而能加载标注数据集C和所述标签矩阵作为分类器的输入，加载初始模型参数列表并配置初始学习率参数值后运行分类器。代码实现如下：

bert_config = modeling.BertConfig.from_json_file("chinese_L-12_H-768_A-12/bert_config.json")

model = modeling.BertModel(

config=bert_config,

is_training=is_training,

input_ids=input_ids,

input_mask=input_mask,

token_type_ids=segment_ids,

use_one_hot_embeddings=use_one_hot_embeddings)。

通过分类器对输入的各个商品标题信息进行所属品目的推理，列出推理结果；重新配置学习率参数值和模型参数列表，继续运行分类器，并进行推理，如此反复，得到多个推理能力不同的bert模型；选择分类器推理能力最高的bert模型作为最佳模型，并保存最佳模型的模型参数列表；所述模型参数列表包括商品属性、名称和品牌的相关参数；

所述对输入的各个商品标题信息进行所属品目的推理是：先将输入某个商品标题信息中的汉字预处理转为整数编码，每个汉字对应一个整数后再进行推理。

所述模型微调过程采用的算法具体是：

采用如下目标函数训练LM语言模型：

P(w_i | w₁, ..., w_i-1, w_i+1, ..., w_n)

所述品目标签集文件train.csv从所述标注数据集C中读取商品标题X作为输入，将商品标题X从汉字级别进行拆分，得到n个汉字，把每个汉字进行特征转换为整数编码，得到n个整数编码，输出为品目清单的一个分类的one-hot标签y，one-hot标签y即为品目标签的一种表达方式；把所述整数编码/>输入至Transformer模型，得到最上层最后一个时刻的输出集/>，将/>通过softmax层进行分类，所述softmax层的参数为Wy，Wy为某个one-hot标签y的标签编码，最后用CrossEntropyLoss计算损失，调整Transformer模型的学习率以及参数Wy，等价于最大似然估计：

还是之前语言模型的损失，使用的数据为当前任务的标注数据集C，而且只使用其中的商品标题X，而不需要one-hot标签y；

是微调过程中的损失，使用的数据为当前任务的标注数据集C，同时使用其中的商品标题X和one-hot标签y;

是最大似然值，即为置信度。

所述推理结果的输出是一个数组，数组的每个元素的值表示一个商品品目的置信度，每个元素的值为0.00-1.00之间，数值越小，表示是相应商品品目的概率越低，数值越大，表示是相应商品品目的概率越高。

例如：

run_classifier.py文件的分类器加载标注数据集C的train.csv文件，遍历读取train.csv文件中的每个商品标题信息，比如某个商品标题信息为“联想（Lenovo）LJ2605DA4自动双面黑白激光打印机”。

将商品标题X从汉字级别进行拆分，得到13个汉字，把每个汉字进行特征转换为整数编码，每个汉字对应一个整数，即：[135, 2102, 75, 13, ……, 0, 0, 0]。

将品目清单进行one-hot编码形成标签矩阵。比如对"打印机", "个人防护", "清洁用品"三个类目进行one-hot编码，结果如下：

[["打印机"], ["个人防护"], ["清洁用品"]] → [[1, 0, 0], [0, 1, 0],[0, 0, 1]]

经过推理后，输出结果数组：[0.91, 0.01, …, 0.06]，表示模型推理商品是打印机的置信度是91%。数组中每个元素与品目清单中的类目一一对应，每个元素的值，表示模型推理商品是该类目的置信度，元素个数与品目清单的类目个数一致。

重新配置学习率参数值和模型参数列表，继续运行分类器，并进行推理，如此反复，得到多个推理能力不同的bert模型；选择分类器推理能力最高的bert模型作为最佳模型，并保存最佳模型的模型参数列表；所述模型参数列表包括商品属性、名称和品牌的相关参数。

初始模型参数列表可以从网上的参数文件config.json获得，本实施例一最佳模型参数列表举例如下：

{

"architectures": [

"BertForMaskedLM"

],

"attention_probs_dropout_prob": 0.1,

"directionality": "bidi",

"hidden_act": "gelu",

"hidden_dropout_prob": 0.1,

"hidden_size": 768,

"initializer_range": 0.02,

"intermediate_size": 3072,

"layer_norm_eps": 1e-12,

"max_position_embeddings": 512,

"model_type": "bert",

"num_attention_heads": 12,

"num_hidden_layers": 12,

"pad_token_id": 0,

"pooler_fc_size": 768,

"pooler_num_attention_heads": 12,

"pooler_num_fc_layers": 3,

"pooler_size_per_head": 128,

"pooler_type": "first_token_transform",

"type_vocab_size": 2,

"vocab_size": 21128

}

模型评估过程：运行所述最佳模型，加载所述最佳模型的模型参数列表；准备1000条商品标题信息作为测试数据集，输入商品标题核验输出结果的置信度，核验模型对商品归类的准确率。测试数据集的数据举例如下：

输入测试数据集核验输出结果的置信度，核验模型对商品归类的准确率，若准确率低于阈值，则重新配置学习率取值和模型参数列表后再进行模型微调，直到准确率不低于阈值时结束，此时得到的bert模型即为所述电商商品的品目预测机器人；所述测试数据集为一定数量的商品标题信息的数据集。

值得注意的是：如果学习率参数值设置太高，则会降低模型精度。为保证模型性能，建议学习率取值在2×10^-5 ~ 5×10^-5之间。或者用损失函数确定最优的学习率，如图3所示，为学习率参数值-损失函数曲线，横坐标为学习率参数值，纵坐标为损失函数loss，损失函数loss越小，模型精度则越高。

基于同一发明构思，本申请还提供了用于实现实施例一中的装置的方法，详见实施例二。

实施例二

如图2所示，在本实施例中提供了一种电商商品的品目预测机器人的实现方法，包括：

所述方法包括环境搭建过程、模型微调过程和模型评估过程。

model = modeling.BertModel(

config=bert_config,

is_training=is_training,

input_ids=input_ids,

input_mask=input_mask,

token_type_ids=segment_ids,

use_one_hot_embeddings=use_one_hot_embeddings)。

所述模型微调过程采用的算法具体是：

采用如下目标函数训练LM语言模型：

P(w_i | w₁, ..., w_i-1, w_i+1, ..., w_n)

所述品目标签集文件train.csv从所述标注数据集C中读取商品标题X作为输入，将商品标题X从汉字级别进行拆分，得到n个汉字，把每个汉字进行特征转换为整数编码，得到n个整数编码输出为品目清单的一个分类的one-hot标签y；

把所述整数编码输入至Transformer模型，得到最上层最后一个时刻的输出集/>，将/>通过softmax层进行分类，所述softmax层的参数为Wy，Wy为某个one-hot标签y的标签编码，最后用CrossEntropyLoss计算损失，调整Transformer模型的学习率以及参数Wy，等价于最大似然估计：

是最大似然值，即为置信度。

例如：

{

"architectures": [

"BertForMaskedLM"

],

"attention_probs_dropout_prob": 0.1,

"directionality": "bidi",

"hidden_act": "gelu",

"hidden_dropout_prob": 0.1,

"hidden_size": 768,

"initializer_range": 0.02,

"intermediate_size": 3072,

"layer_norm_eps": 1e-12,

"max_position_embeddings": 512,

"model_type": "bert",

"num_attention_heads": 12,

"num_hidden_layers": 12,

"pad_token_id": 0,

"pooler_fc_size": 768,

"pooler_num_attention_heads": 12,

"pooler_num_fc_layers": 3,

"pooler_size_per_head": 128,

"pooler_type": "first_token_transform",

"type_vocab_size": 2,

"vocab_size": 21128

}

本申请实施例提供的方法至少具有如下技术效果或优点：本发明根据品目库标准，依托大数据，通过人工智能算法模型实现商品品目预测，能快速、精准、智能地从大规模商品数据中识别商品类目，无需人工识别归类同款商品，以算力解放人力，助力企业采购数字化、自动化、智能化转型升级，为供应链端商品治理归类降本增效。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种电商商品的品目预测机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述计算机程序的实现方法包括：

模型微调过程，基于品目库标准构建品目标签集文件class.txt，供预训练后bert模型读取；将品目清单进行one-hot编码形成标签矩阵；选取run_classifier.py文件作为下游分类任务的分类器；在所述run_classifier.py文件中关联数据集文件、品目标签集文件class.txt和初始模型参数列表，从而能加载标注数据集C和所述标签矩阵作为分类器的输入，加载初始模型参数列表并配置初始学习率参数值后运行分类器，通过分类器对输入的各个商品标题信息进行所属品目的推理，列出推理结果；重新配置学习率参数值和模型参数列表，继续运行分类器，并进行推理，如此反复，得到多个推理能力不同的bert模型；选择分类器推理能力最高的bert模型作为最佳模型，并保存最佳模型的模型参数列表；所述模型微调过程采用的算法具体是：

采用如下目标函数训练LM语言模型：

P(w_i|w₁,...,w_i-1,w_i+1,...,w_n)

所述品目标签集文件class.txt从所述标注数据集C中读取商品标题X作为输入，将商品标题X从汉字级别进行拆分，得到n个汉字，把每个汉字进行特征转换为整数编码，得到n个整数编码W1,…,Wn，输出为品目清单的一个分类的one-hot标签y；w_i为第i个整数编码；

把所述整数编码W1,…,Wn输入至Transformer模型，得到最上层最后一个时刻的输出集h₁ ⁿ，将h₁ ⁿ通过softmax层进行分类，所述softmax层的参数为Wy，Wy为某个one-hot标签y的标签编码，最后用CrossEntropyLoss计算损失，调整Transformer模型的学习率以及参数Wy，等价于最大似然估计：

L₂(C)＝∑_(x,y)log P(y|W₁,...,W_n)；

使用Multi-Task Learning，同时最大似然L₁和L₂；

L₃(C)＝L₂(C)+λ×L_i(C)；

L₁还是之前语言模型的损失，使用的数据为当前任务的标注数据集C，而且只使用其中的商品标题X，而不需要one-hot标签y；

L₂是微调过程中的损失，使用的数据为当前任务的标注数据集C，同时使用其中的商品标题X和one-hot标签y；

L₃是最大似然值，即为置信度；

模型评估过程，运行所述最佳模型，加载所述最佳模型的模型参数列表；输入测试数据集核验输出结果的置信度，核验模型对商品归类的准确率，若准确率低于阈值，则重新配置学习率取值和模型参数列表后再进行模型微调，直到准确率不低于阈值时结束；

2.根据权利要求1所述的一种电商商品的品目预测机器人，其特征在于：所述学习率参数值配置为2×10^-5～5×10^-5之间；

且所述对输入的各个商品标题信息进行所属品目的推理是：先将输入某个商品标题信息中的汉字预处理转为整数编码，每个汉字对应一个整数后再进行推理。

3.根据权利要求1所述的一种电商商品的品目预测机器人，其特征在于：所述推理结果的输出是一个数组，数组的每个元素的值表示一个商品品目的置信度，每个元素的值为0.00-1.00之间，数值越小，表示是相应商品品目的概率越低，数值越大，表示是相应商品品目的概率越高。

4.一种电商商品的品目预测机器人的实现方法，其特征在于：包括：

采用如下目标函数训练LM语言模型：

P(w_i|w₁,...,w_i-1,w_i+1,...,w_n)

L₂(C)＝Σ_(x,y)logP(y|W₁,...,W_n)；

使用Multi-Task Learning，同时最大似然L₁和L₂；

L₃(C)＝L₂(C)+λ×L₁(C)

L₃是最大似然值，即为置信度；

5.根据权利要求4所述的方法，其特征在于：所述学习率参数值配置为2×10^-5～5×10^-5之间；

6.根据权利要求4所述的方法，其特征在于：所述推理结果的输出是一个数组，数组的每个元素的值表示一个商品品目的置信度，每个元素的值为0.00-1.00之间，数值越小，表示是相应商品品目的概率越低，数值越大，表示是相应商品品目的概率越高。