CN114997163A

CN114997163A - 一种商品属性模型的确定方法和装置

Info

Publication number: CN114997163A
Application number: CN202210596833.3A
Authority: CN
Inventors: 李家东; 宫礼星; 周孝青; 赵嘉文; 李勇; 陶通; 包勇军; 颜伟鹏
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-02

Abstract

本发明公开了一种商品属性模型的确定方法和装置，涉及深度学习技术领域。该方法的具体实施方式包括：获取多个商品标题训练文本；分别对所述商品标题训练文本进行分词处理，确定分词结果；将多个所述分词结果作为所述商品属性模型的输入、将所述商品标题训练文本的样本商品属性作为所述商品属性模型的输出，对所述商品属性模型进行训练。该实施方式能够根据预设分隔符进行分词，在训练阶段，根据预构建的属性特征、携带位置标签和属性标签的样本数据对模型训练；在使用阶段，模型对输入的标题文本进行识别，从而提高商品属性的识别效率，准确确定商品属性，进而为用户提供精准推荐服务，提升用户的使用体验，提高用户满意度。

Description

一种商品属性模型的确定方法和装置

技术领域

本发明涉及深度学习技术领域，尤其涉及一种商品属性模型的确定方法和装置。

背景技术

NER(Name Entity Recognition，即命名实体识别)用于识别文本中的人名、日期、百分比等实体。现有的用户服务中，通常利用NER对商品的标题文本进行识别以提取商品属性，进而为用户推荐商品。

目前常用的商品属性确定方法包括：属性词典匹配、机器学习和深度学习等。属性词典需要人工构建，人力成本较高，由于新词更新频率较高导致词典覆盖率不足；深度学习严重依赖文本通顺性，而标题文本通顺性一般较差，同样导致识别结果准确率较低。

发明内容

有鉴于此，本发明实施例提供一种商品属性模型的确定方法和装置，能够根据预设分隔符进行分词，在训练阶段，根据预构建的属性特征、携带位置标签和属性标签的样本数据对模型进行训练；在使用阶段，模型对输入的标题文本进行识别，从而提高商品属性的识别效率，准确确定商品属性，进而为用户提供精准推荐服务，提升用户的使用体验，提高用户满意度。

为实现上述目的，根据本发明实施例的一个方面，提供了一种商品属性模型的确定方法，包括：

获取多个商品标题训练文本；

分别对所述商品标题训练文本进行分词处理，确定分词结果；

将多个所述分词结果作为商品属性模型的输入、将所述商品标题训练文本的样本商品属性作为所述商品属性模型的输出，对所述商品属性模型进行训练，确定所述商品属性模型；其中，在所述商品属性模型的训练过程中，确定所述商品标题训练文本的位置标签和属性标签。

可选地，所述分别对所述商品标题训练文本进行分词处理，确定分词结果，包括：

利用预置的分隔符，对所述商品标题训练文本进行分词，确定包括多个词和所述分隔符的所述分词结果；

所述确定所述商品标题训练文本的位置标签和属性标签，包括：

将所述分词结果进行编码，确定与所述分词结果对应的包括多个目标字和所述分隔符的编码结果；

根据所述编码结果，确定目标字组；其中，所述目标字组包括一个或多个所述目标字；

根据所述目标字组，确定所述商品标题训练文本的位置标签和属性标签。

可选地，所述位置标签包括第一位置和第二位置；所述确定所述商品标题训练文本的位置标签，包括：

确定所述分隔符是否在所述目标字组内，在所述分隔符在所述目标字组内的情况下，确定所述分隔符的位置标签为所述第一位置。

可选地，所述确定所述商品标题训练文本的属性标签，包括：

确定所述目标字组内除所述分隔符以外的其它目标字的中间属性；

分别确定所述目标字组内不同所述中间属性的出现频次；

确定出现频次最高的所述中间属性为所述目标字组的属性标签。

可选地，包括：

接收一个或多个商品标题文本；

将所述商品标题文本输入预训练的所述商品属性模型；

根据所述商品属性模型的输出，确定所述商品标题文本对应的目标商品属性；其中，所述商品属性包括一个或多个实体、以及所述实体的实体特征。

可选地，还包括：

接收多个待推荐商品标题文本和用户的历史交易数据；其中，所述历史交易数据指示了历史交易商品标题文本；

分别将所述待推荐商品标题文本和所述历史交易商品标题文本输入预训练的商品属性模型，根据所述商品属性模型的输出，确定所述待推荐商品标题文本的推荐商品属性和所述历史交易商品标题文本的交易商品属性；

确定多个所述待推荐商品属性中与所述交易商品属性不同的一个或多个目标推荐商品属性；根据与所述目标推荐商品属性对应的待推荐商品标题文本，确定推荐商品清单，将所述推荐商品清单发送给用户。

可选地，所述实体特征指示了实体对应的商品类型和类型特点，其中：

所述商品类型为主商品、配件商品或者适用商品；

所述类型特点包括以下中的一项或多项：品牌词、系列词、型号词、产品词、适用人群、适用时间、功能、颜色、材质、样式、规格。

根据本发明实施例的再一个方面，提供了一种商品属性模型的确定装置，包括：

获取模块，用于获取多个商品标题训练文本；

预处理模块，用于分别对所述商品标题训练文本进行分词处理，确定分词结果；

训练模块，用于将多个所述分词结果作为商品属性模型的输入、将所述商品标题训练文本的样本商品属性作为所述商品属性模型的输出，对所述商品属性模型进行训练；其中，在所述商品属性模型的训练过程中，确定所述商品标题训练文本的位置标签和属性标签。

根据本发明实施例的另一个方面，提供了一种商品属性模型的确定的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明提供的商品属性模型的确定方法。

根据本发明实施例的还一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的商品属性的确定方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用根据预训练的商品属性模型对商品标题文本进行识别以确定商品属性；在模型训练开始前，根据利用jieba分词工具的原始词典和构建的人工词典进行分词，并将预设分隔符插入jieba分词的分词结果，进而将分词结果作为模型输入；在模型训练过程中，对分词结果进行编码，确定分隔符的位置标签、目标字组/词汇的属性标签，将预构建的实体特征作为模型输出，将训练阶段模型输出的样本商品属性和人工标注的样本商品属性进行对比，迭代训练模型的技术手段，所以克服了目前常用的商品属性确定方法人力成本较高，词典覆盖率不足、识别结果准确率较低的技术问题，进而达到能够根据预设分隔符进行分词，在训练阶段，根据预构建的属性特征、携带位置标签和属性标签的样本数据对模型进行训练；在使用阶段，模型对输入的标题文本进行识别，从而提高商品属性的识别效率，准确确定商品属性，进而为用户提供精准推荐服务，提升用户的使用体验，提高用户满意度。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的商品属性模型的确定方法的主要流程的示意图；

图2是根据本发明实施例的商品标题训练文本的分词方法的主要流程的示意图；

图3是根据本发明实施例的商品属性模型的训练方法的主要流程的示意图；

图4是根据本发明实施例的商品属性的确定方法的主要流程的示意图；

图5是根据本发明实施例的商品标题文本的预处理方法的主要流程的示意图；

图6是根据本发明实施例的商品推荐方法的主要流程的示意图；

图7是根据本发明实施例的商品属性模型的确定装置的主要模块的示意图；

图8示出了适于应用于本发明实施例的商品属性模型的确定方法或商品属性模型的确定装置的示例性系统架构图；

图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的商品属性模型的确定方法的主要流程的示意图，如图1所示，本发明的商品属性模型的确定方法包括如下步骤：

在各个平台根据用户的历史消费记录向用户进行推荐时，通常提取并识别历史消费记录的标题文本中与商品相关的商品属性后，根据商品属性推荐用户可能消费的商品。现有的推荐通常是向用户推荐与历史消费记录相同的商品，然而，此类商品属于用户最近刚刚消费过的商品，通常已不属于用户的目标需求。

目前，常用的商品属性提取和识别方法包括属性词典匹配、机器学习和深度学习等。其中：

属性词典匹配需要人工构建属性词典，在标题文本中检索词典中出现的词从而抽取商品属性。然而，商品种类多种多样而且层出不穷，人工构建属性词典覆盖全类商品并及时更新的成本极高。

深度学习严重依赖文本通顺性，鉴于标题文本的语法特性，即由多个关键词组合而成，其中甚至包括多个近似关键词的重叠(比如，iPhoneX/XS)，使得标题文本通顺性通常较差，导致深度学习的学习结果识别准确率较低。

因此，为了提升用户体验，通过本发明的商品属性模型的确定方法，可以准确从标题文本中确定商品属性，避免同品推荐，从而提升用户体验，提高用户满意度。

步骤S101，获取多个商品标题训练文本。

在本发明实施例中，比如，商品标题训练文本为“亿舟电信级光缆光纤线中心管束室外单模多模万兆4芯6芯8芯12芯24芯铠装光纤线缆室外单模6芯50米”。

步骤S102，分别对所述商品标题训练文本进行分词处理，确定分词结果。

在本发明实施例中，如图2所示，本发明的商品标题训练文本的分词方法包括如下步骤：

步骤S201，添加人工词典。

在本发明实施例中，在训练之前，基于标题文本关键词稠密、语法连贯性弱的特点，可以添加与标题文本对应对应的关键词的人工词典。

步骤S202，对商品标题训练文本进行一次分词处理。

在本发明实施例中，一次分词的分词工具可以是jieba分词，相应地，在jieba分词原始词典的基础上，结合人工词典，可以适配标题文本的特性，提高分词的准确性。

步骤S203，确定一次分词处理的第一分词结果。

在本发明实施例中，比如，商品标题训练文本一次分词处理后的第一分词结果包括一个或多个词，即“亿舟电信级光缆光纤线中心管束室外单模多模万兆4芯6芯8芯12芯24芯铠装光纤线缆室外单模6芯50米”。

步骤S204，根据预设分隔符，对第一分词结果进行二次分词处理，确定二次分词处理的第二分词结果。

在本发明实施例中，通过预设的分隔符，对第一分词结果进行二次分词处理，将分词结果中的各个词分隔开，比如，分隔符为“space”，根据步骤S203的分词结果，在各个词之间插入分隔符。

进一步地，分隔符可以根据需要，选择性设定为不同于商品标题训练文本的字符或者词组等。

在本发明实施例中，比如，商品标题训练文本二次分词处理后的第二分词结果包括一个或多个词和分隔符，即“亿舟space电信级space光缆space光纤线space中心space管束space室外space单模space多模space万兆space4space芯space6space芯space8space芯space12space芯space24space芯space铠装space光纤space线缆space室外space单模space6space芯space50space米”为模型输入。

步骤S103，将多个所述分词结果作为商品属性模型的输入、将所述商品标题训练文本的样本商品属性作为所述商品属性模型的输出，对所述商品属性模型进行训练，确定所述商品属性模型；其中，在所述商品属性模型的训练过程中，确定所述商品标题训练文本的位置标签和属性标签。

在本发明实施例中，如图3所示，本发明的商品属性模型的训练方法包括如下步骤：

步骤S301，根据第二分词结果，确定与商品标题训练文本对应的模型输入。

在本发明实施例中，将步骤S204确定的第二分词结果，作为与商品标题训练文本对应的商品属性模型的输入。

步骤S302，确定商品属性模型的输出。

在本发明实施例中，商品属性模型的模型输出为样本商品属性，包括商品标题训练文本的样本实体、以及与样本实体对应的样本实体特征。

在本发明实施例中，实体特征包括商品类型和类型特点两部分，类型特点用于进一步描述商品类型，商品类型如表1所示，类型特点如表2所示，比如，实体特征可以是“主商品产品词”、“适用商品样式特点”、“配件商品适用人群”等。

需要说明的是，实体特征的粒度很细，包括50多种，表1和表2仅是示例，并未将全部的实体特征列出。

在本发明实施例中，实体特征是预先构建的，如表1和表2所示：

表1

表2

步骤S303，对商品属性模型进行训练。

在本发明实施例中，在商品属性模型的训练过程中，还包括：

步骤S3031，将所述分词结果进行编码，确定与所述分词结果对应的包括多个目标字和所述分隔符的编码结果。

在本发明实施例中，将第二分词结果输入商品属性模型的BERT模型，使得BERT模型对第二分词结果进行编码，确定与第二分词结果对应的编码结果。

在本发明实施例中，传统的编码器如LSTM等以词作为模型输入，将词通过向量embedding进行映射。本发明的商品属性模型将预训练的BERT模型作为语义编码器，其embedding层的输入为字粒度。因此，将BERT词表中预留的未使用占位符替换为预设的分隔符，使得模型能够学习到哪些字属于一个字组(也即，一个实体或者一个词汇)。BERT词表的一个字对应一个embedding(即向量)，也即，BERT词表与embedding之间形成映射；其中，BERT模型预留了100个未指定embedding的占位符，可以添加分隔符将其对应至预留embedding。

进一步地，根据确定的与商品标题训练文本对应的模型输入，将其输入商品属性模型，商品属性模型的语义编码器BERT模型对输入进行编码，将其处理为字粒度并映射至embedding层，比如，与第二分词结果对应的编码结果为“亿舟SPACE电信级SPACE光缆SPACE光纤线SPACE中心管束SPACE室外SPACE单模SPACE多模SPACE万兆SPACE 4SPACE芯SPACE6SPACE芯SPACE 8SPACE芯SPACE 1 2SPACE芯SPACE 2 4SPACE芯SPACE铠装SPACE光纤SPACE线缆SPACE室外SPACE单模SPACE 6SPACE芯SPACE 5 0SPACE米”。编码结果包括一个或多个目标字和一个或多个分隔符，比如，“亿”、“舟”、“电”、“信”、“级”、……、“单”、“模”、“6”、“芯”、“5”、“0”、“米”各自分别对应一个目标字。

也即，BERT模型输出对应每个token(即字符)的向量表征。

或者，也可以将分隔符作为一个目标字，根据需要选择性设定即可。

步骤S3032，根据所述编码结果，确定目标字组；其中，所述目标字组包括一个或多个所述目标字，转至步骤S303和步骤S305。

在本发明实施例中，在模型训练的初始阶段，目标字组的确定可以是随机的，从而在训练过程中，可以根据人工标注的样本商品属性，将模型输出与样本商品属性进行对比，根据对比误差值进行修正，不断迭代训练，最终使得模型的损失函数回归。

在本发明实施例中，比如，其中一个目标字组为“对应的编码结果为“万兆SPACE4SPACE芯SPACE””。

步骤S3033，将BERT模型的输出输入第一任务层。

在本发明实施例中，在BERT模型之后，商品属性模型还包括两个级联的任务层，将BERT模型输出的对应每个token的向量表征作为共享向量表征，在后续训练过程中，分别输入两个级联的任务层。

在本发明实施例中，第一任务层为Linear+softmax网络，将BERT模型的输出作为Linear+softmax模型的输入。

在本发明实施例中，Linear是神经网络中的线性层，softmax是神经网络中用于分类的函数。

步骤S3034，根据第一任务层的输出，确定分隔符的位置标签。

在本发明实施例中，第一任务层可以根据分隔符和目标字组的位置关系进行解码，对分隔符的位置标签进行判断，确定分隔符的位置标签。具体地：

确定所述分隔符是否在所述目标字组内，在所述分隔符在所述目标字组内的情况下，确定所述分隔符的位置标签为所述第一位置；在所述分隔符不在所述目标字组内的情况下，确定所述分隔符的位置标签为所述第二位置。

进一步地，第一位置可以表示为“In”，第二位置可以表示为“Out”，或者，其它方式表示，比如，第一位置和第二位置通过二进制形式进行表示，第一位置为“1”，第二位置为“0”等，根据需要进行选择性设定即可。比如，目标字组“万兆SPACE 4SPACE芯SPACE”，其中，目标字组的第一个space和第二个space在目标字组内、第三个space不在目标字组内，对应第一个space和第二个space的位置标签为“In”、第三个space的位置标签为“Out”。

在本发明实施例中，比如，商品标题训练文本对应的分隔符的位置标签如表3所示：

表3

不同于传统方法，本方法的位置标签的确定在全部实体上全局进行，常规方法直接进行实体抽取很难兼顾每一个实体的正确率，本方法中的属性标签数目众多，通过全局的分隔符的位置标签的确定能够通过累积样本数量的方式大大减小分类的难度，为后续过程提供更好的结果。

进一步地，对于除分隔符以外的目标字，其位置标签可以不表示；或者，其位置标签可以为其它位置，表示为“Other1”，简记为“O1”。

通过本发明的分隔符的位置标签的确定，qa在商品属性模型使用时，可以准确地确定商品标题文本/标题文本中的实体。

步骤S3035，将BERT模型的输出输入第二任务层。

在本发明实施例中，第二任务层为Linear+softmax网络，将BERT模型输出的向量表征作为第二任务层的输入。

步骤S3036，根据第二任务层的输出，确定商品标题训练文本的属性标签。

在本发明实施例中，根据第二任务层，确定商品标题训练文本的属性标签。

进一步地，第二任务层根据目标字组中每一个目标字的属性标签进行解码，确定目标字组的属性标签。在目标字组内的目标字的属性标签相同的情况下，确定该属性标签为目标字组的属性标签；在目标字组内的目标字的属性标签不同的情况下，利用投票策略，对目标字组中的各个属性标签进行投票，确定出现频次最高的属性标签为目标字组的属性标签，具体地：

步骤S30361，确定所述目标字组内除所述分隔符以外的其它目标字的中间属性。

在本发明实施例中，比如，目标字组“万兆SPACE 4SPACE芯SPACE”，各个目标字的中间属性如表4所示：

表4

步骤S30362，分别确定所述目标字组内不同所述中间属性的出现频次。

在本发明实施例中，比如，中间属性“主商品规格”的出现频次为3次，中间属性“主商品产品词”的出现频次为1次。

步骤S30363，确定出现频次最高的所述中间属性为所述目标字组的属性标签。

在本发明实施例中，比如，中间属性“主商品规格”的出现频次最高，确定“主商品规格”为目标字组“万兆SPACE 4SPACE芯SPACE”的属性标签。

进一步地，对于分隔符，其属性标签可以不表示；或者，其属性标签可以为非属性词，表示为“Other2”，简记为“O2”。

步骤S3037，将模型输出的样本商品属性和人工标注的样本商品属性进行对比，对商品属性模型进行迭代训练。

在本发明实施例中，人工标注商品标题训练文本的样本实体、以及与样本实体对应的样本实体特征，如表5所示：

表5

样本实体	样本实体特征	样本实体	样本实体特征
				亿舟	主商品品牌词	8芯	主商品规格
电信级	主商品功能	12芯	主商品规格
				光缆	主商品产品词	24芯	主商品规格
光纤线	主商品产品词	铠装	主商品样式
				中心管束	主商品样式	光纤线缆	主商品产品词
室外	主商品适用地点	室外	主商品适用地点
				单模	主商品样式	单模	主商品样式
多模	主商品样式	6芯	主商品规格
				万兆4芯	主商品规格	50米	主商品规格
6芯	主商品规格

在本发明实施例中，根据模型输出的样本商品属性和人工标注的样本商品属性的对比结果，对商品属性模型进行迭代训练时，比如，随机确定的目标字组划分不准确，其多个space的位置标签为“In”，人工标注的样本商品属性与其对应的多个space的位置标签皆为“Out”，则根据模型输出进行修正，多次迭代之后使得模型在使用过程中确定的目标字组划分精准。

在本发明实施例中，在使用过程中，根据第一任务层的输出，可以确定与标题文本对应的实体(也即，划分正确的目标词组)；根据实体和第二任务层的输出，可以确定与实体对应的实体特征，最终，将第一任务层和第二任务层的输出作为商品属性模型的输出，确定标题文本对应的实体、以及与实体对应的实体特征。

通过本发明训练后的商品属性模型确定的商品属性，相较于传统的商品属性识别方法，商品属性的识别准确率大大提高，尤其是对于商品型号、近似关键词的重叠的识别。比如，对于商品型号来说，以“便利贴n次便签贴纸便条本子彩色荧光膜指示贴分类留言记号贴中号荧光/YS61”为例，传统方法识别出荧光即已结束，无法抽取便利贴型号“YS61”；而通过本发明的商品属性确定方法，将属性识别分为两个级联的任务层的输出，确定“YS61”为，两个任务层为相互独立的监督任务，从而保障了整体属性确定的准确性。

对于近似关键词的重叠来说，以“点金石(DIANJINSHI)苹果X钢化膜XsMax防窥防摔XR非全屏防窥膜XS全屏无边框创意保护膜苹果X/XS”为例，“苹果X/XS”为一个重叠的属性词，代表型号苹果X和苹果Xs，传统方法仅能抽取出其中的“苹果X”即已结束；而通过本发明的商品属性的确定方法，能够识别出整个重叠词“苹果X/XS”为“主商品型号词”，提高了商品属性确定的准确性。

在本发明实施例中，相较于传统的LSTM+CRF模型而言，本发明的商品属性的确定方法的准确率提升如下表6所示：

表6

指标	LSTM+CRF	Linear+softmax
			精确率(precision)	0.8007	0.8125
召回率(recall)	0.8133	0.8312
			F1	0.8070	0.8217

在本发明实施例中，通过本发明的商品属性模型的训练方法，在商品标题训练文本中增加分隔符，添加人工词典，基于分词工具原有词典和添加的人工词典进行分词，构建位置标签对分隔符进行分类、属性标签对目标词组的属性进行分类，并将模型输出与人工标注进行对比，从而迭代训练模型以提高模型准确性，最终确定本发明的商品属性模型，大大地提高了商品属性的识别准确度，降低了模型的预测难度。

在本发明实施例中，通过获取多个商品标题训练文本；分别对所述商品标题训练文本进行分词处理，确定分词结果；将多个所述分词结果作为商品属性模型的输入、将所述商品标题训练文本的样本商品属性作为所述商品属性模型的输出，对所述商品属性模型进行训练，确定所述商品属性模型；其中，在所述商品属性模型的训练过程中，确定所述商品标题训练文本的位置标签和属性标签等步骤，能够根据预设分隔符进行分词，在训练阶段，根据预构建的属性特征、携带位置标签和属性标签的样本数据对模型进行训练；在使用阶段，模型对输入的标题文本进行识别，从而提高商品属性的识别效率，准确确定商品属性，进而为用户提供精准推荐服务，提升用户的使用体验，提高用户满意度。

在本发明实施例中，如图4所示，本发明的商品属性的确定方法包括如下步骤：

步骤S401，接收一个或多个商品标题文本。

在本发明实施例中，商品标题文本为根据用户的历史消费记录确定的用户消费过的商品商品的标题文本。

步骤S402，将所述商品标题文本输入预训练的所述商品属性模型。

在本发明实施例中，根据本发明的商品属性的确定方法，商品属性模型的训练过程为有监督训练。

在本发明实施例中，商品属性模型为BERT+Linear+softmax模型。

进一步地，在将商品标题文本输入商品属性模型之前，如图5所示，本发明的商品标题文本的预处理方法包括如下步骤：

步骤S501，获取商品标题文本。

在本发明实施例中，比如，商品标题文本为“点金石果果11pro防窥膜钢化膜iPhonX手机贴膜xr防偷窥Xs Max防偷瞄防窥全屏Promax 1片装防窥不眩晕iPhonx/xs/11Pro”

步骤S502，对商品标题文本进行一次分词处理。

在本发明实施例中，分词工具可以是jieba分词，根据jieba分词原始词典和预添加的人工词典，对商品标题文本进行一次分词。

步骤S503，确定第一分词结果。

在本发明实施例中，比如，商品标题文本一次分词处理后的第一分词结果为“点金石果果11pro防窥膜钢化膜iPhonX手机贴膜xr防偷窥Xs Max防偷瞄防窥全屏Pro max 1片装防窥不眩晕iPhonx/xs/11Pro”。

步骤S504，根据预设分隔符，对商品标题文本进行二次分词处理。

在本发明实施例中，通过预设的分隔符，将第一分词结果中的各个词分隔开，比如，分隔符为“space”。

步骤S505，确定第二分词结果。

在本发明实施例中，根据步骤S503的分词结果，在各个词之间插入分隔符，确定第二分词结果，比如“点金石space果果space11spaceprospace防窥膜space钢化膜spaceiPhonXspace手机space贴膜spacexrspace防偷窥spaceXsspaceMaxspace防偷瞄space防窥space全屏spaceProspacemaxspace1space片装space防窥space不眩晕spaceiPhonxspace/spacexsspace/space11spacePro”为模型输入。

步骤S506，根据第二分词结果，确定与商品标题文本对应的模型输入。

在本发明实施例中，将步骤S505确定的第二分词结果，作为与商品标题文本对应的商品属性模型的输入。

在本发明实施例中，通过本发明的商品标题文本的预处理方法，能够对商品标题文本进行预处理，从而后续可以将预处理后的商品标题文本的分词结果输入商品数学模型，以识别商品标题文本的商品属性，提高模型的识别效率。

在本发明实施例中，商品属性模型为预训练的BERT模型，BERT作为语义编码器，其embedding层的输入为字粒度。根据确定的与商品标题文本对应的模型输入，将其输入商品属性模型，商品属性模型对输入进行处理，将其处理为字粒度并映射至embedding层，比如，模型输入对应的字粒度为“点金石space果果space 1 1space p r ospace防窥膜space钢化膜space i P h o n X space手机space贴膜space x r space防偷窥space X s spaceM a x space防偷瞄space防窥space全屏space P r o space m a x space 1space片装space防窥space不眩晕space i P h o n x space/space x s space/space 1 1space Pr o”。

在本发明实施例中，编码是指神经网络中将输入信息编码成高维的特征，该特征在神经网络中成为隐藏状态。解码是指神经网络将隐藏状态重构出原始数据形式。

步骤S403，根据所述商品属性模型的输出，确定所述商品标题文本对应的目标商品属性；其中，所述商品属性包括一个或多个实体、以及所述实体的实体特征。

在本发明实施例中，根据商品模型的输出，即可确定商品标题文本的目标商品属性，比如，目标商品属性如表7所示：

表7

实体	实体特征	实体	实体特征
				点金石	主商品品牌词	Xs Max	适用商品型号词
果果11pro	适用商品型号词	防偷瞄	主商品功能
				防窥膜	主商品产品词	防窥	主商品功能
钢化膜	主商品产品词	全屏	主商品样式
				iPhonX	适用商品型号词	Promax	适用商品型号词
手机	适用商品产品词	1片装	主商品规格
				贴膜	主商品产品词	防窥	主商品功能
xr	适用商品型号词	不眩晕	主商品功能
				防偷窥	主商品功能	iPhonx/xs/11Pro	适用商品型号词

在本发明实施例中，“iPhonx/xs/11Pro”为一个重叠的属性词，表示3个型号iPhonx、iPhonxs和iPhon11Pro，现有技术的识别方法仅能识别“iPhonx”，而本发明的商品属性确定方法可以识别整个属性词“iPhonx/xs/11Pro”，从而实现目标商品属性的精准确定。

在本发明实施例中，确定商品标题文本的目标商品属性之后，后续平台执行推荐任务时，就可以基于目标商品属性，确定与目标商品属性对应的除用户历史消费记录以外的非同类商品，从而精准定位用户需求，提升用户使用体验。比如，用户历史消费记录包括iPhonxs手机，在向用户进行推荐时，现有技术会基于用户的消费记录向其推荐相同或者相似商品，比如，iPhonxs手机、iPhonx手机、iPhon11Pro手机等，导致用户体验较差；而本发明的商品属性确定方法可以确定“iPhonx/xs/11Pro”的适用商品型号词属性，可以从众多的标题文本中确定与“iPhonx/xs/11Pro”相关的各种附件商品、适用商品，进而向用户推荐，极大地提升了用户使用体验。

又比如，用户历史消费记录包括iPhonxs手机，在向用户进行推荐时，由于现有技术无法识别出“iPhonx/xs/11Pro”包括的“iPhonxs”的适用商品型号词属性，故而无法从众多与“iPhonx/xs”相关的标题文本中确定“iPhonxs”，也就无法向用户推荐包括“iPhonx/xs”的标题文本的相关商品，导致向用户推荐的产品极其有限，无法满足用户需求，使得用户使用体验较差；而本发明的商品属性确定方法可以确定“iPhonx/xs”属性，故而向用户推荐种类丰富的相关产品，使得用户的选择性大大提高，极大地提升了用户使用体验，提高用户满意度。

在本发明实施例中，如图6所示，本发明的商品推荐方法包括如下步骤：

步骤S601，接收多个待推荐商品标题文本和用户的历史交易数据；其中，所述历史交易数据指示了历史交易商品标题文本。

在本发明实施例中，比如，用户历史交易商品标题文本对应的交易商品为手机ccc，待推荐商品标题文本对应的推荐商品为手机ccc、手机壳bbb、手机支架bbb/ccc等。

步骤S602，分别将所述待推荐商品标题文本和所述历史交易商品标题文本输入预训练的商品属性模型，根据所述商品属性模型的输出，确定所述待推荐商品标题文本的推荐商品属性和所述历史交易商品标题文本的交易商品属性。

在本发明实施例中，确定历史交易商品标题文本的交易商品属性为手机ccc—主商品型号词；确定待推荐商品标题文本的推荐商品属性为手机ccc—主商品型号词、手机壳bbb—配件商品型号词、手机支架bbb/ccc—配件商品型号词。

步骤S603，确定多个所述推荐商品属性中与所述交易商品属性不同的一个或多个目标推荐商品属性。

在本发明实施例中，确定多个推荐商品属性与交易商品属性不同的目标推荐商品属性为手机支架bbb/ccc—配件商品型号词；其中，手机支架bbb由于与主商品的型号词不同被排除在外。

步骤S604，根据与所述目标推荐商品属性对应的待推荐商品标题文本，确定推荐商品清单，将所述商品清单发送给用户商品商品。

在本发明实施例中，推荐商品清单可以是一个或多个商品的购买链接的形式，根据与手机支架bbb/ccc—配件商品型号词对应的手机支架bbb/ccc，确定推荐商品清单为与手机支架bbb/ccc对应的购买链接，将与手机支架bbb/ccc对应的购买链接发送给用户。

在本发明实施例中，根据本发明的商品推荐方法，可以对用户的历史交易数据进行分析，确定用户历史交易数据的交易商品属性，将多个推荐商品标题文本的推荐商品属性与交易商品属性进行对比，从众多推荐商品标题文本中获取与用户历史交易数据的交易商品属性不同的推荐商品属性，并将对应的推荐商品清单发送给客户，从而提升用户体验，满足用户的交易需求，提高用户满意度。

图7是根据本发明实施例的商品属性的确定装置的主要模块的示意图，如图7所示，本发明的商品属性的确定装置700包括：

获取模块701，用于获取多个商品标题训练文本。

预处理模块702，用于分别对所述商品标题训练文本进行分词处理，确定分词结果。

训练模块703，用于将多个所述分词结果作为商品属性模型的输入、将所述商品标题训练文本的样本商品属性作为所述商品属性模型的输出，对所述商品属性模型进行训练；其中，在所述商品属性模型的训练过程中，确定所述商品标题训练文本的位置标签和属性标签。

在本发明实施例中，通过获取模块、预处理模块和训练模块等模块，能够根据预设分隔符进行分词，在训练阶段，根据预构建的属性特征、携带位置标签和属性标签的样本数据对模型进行训练；在使用阶段，模型对输入的标题文本进行识别，从而提高商品属性的识别效率，准确确定商品属性，进而为用户提供精准推荐服务，提升用户的使用体验，提高用户满意度。

图8示出了适于应用于本发明实施例的商品属性的确定方法或商品属性的确定装置的示例性系统架构图，如图8所示，本发明实施例的商品属性的确定方法或商品属性的确定装置的示例性系统架构包括：

如图8所示，系统架构800可以包括终端设备801、802、803，网络804和服务器805。网络804用以在终端设备801、802、803和服务器105之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备801、802、803通过网络804与服务器805交互，以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器805可以是提供各种服务的服务器，例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的历史交易数据等进行分析，并将处理结果(例如目标推荐商品标题文本)反馈给终端设备801、802、803。

需要说明的是，本发明实施例所提供的商品属性的确定方法一般由服务器805执行，相应地，商品属性的确定装置一般设置于服务器805中。

应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图，如图9所示，本发明实施例的终端设备或服务器的计算机系统900包括：

中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM903中，还存储有系统900操作所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、预处理模块和训练模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，训练模块还可以被描述为“用于将多个所述分词结果作为商品属性模型的输入、将所述商品标题训练文本的样本商品属性作为所述商品属性模型的输出，对所述商品属性模型进行训练的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取多个商品标题训练文本；分别对所述商品标题训练文本进行分词处理，确定分词结果；将多个所述分词结果作为商品属性模型的输入、将所述商品标题训练文本的样本商品属性作为所述商品属性模型的输出，对所述商品属性模型进行训练；其中，在所述商品属性模型的训练过程中，确定所述商品标题训练文本的位置标签和属性标签。

目前的人工构建属性词典覆盖率有限，而且更新速度远远无法企及层出不穷的商品类型；由于标题文本的语法元素缺失，深度学习对类似标题文本之类的不通顺文本学习效果较差，

深度学习的网络模型首先对文本进行编码，比如，编码器可以是LSTM(LongShort-Term Memory)、BERT(Bidirectional Encoder Representation fromTransformers)等网络；再利用解码器对文本进行预测，比如，解码器可以是CRF(Conditional Random Field，条件随机场)，CRF的实体标签可以是“BIO”标签(B为Begin，指实体片段的开始；I为Intermediate，指实体片段的中间；O为Other/Outside，指其他非属性词)，对于属性预测来说，比如，“黑色苹果手机”中的“苹果手机”预测出来是“O O B I OI“，根据解码规则，O作为其他非属性词，“苹果”即为其中一个实体，然而，正确的实体应该是苹果手机，虽然模型确定了属性词的正确位置，但是由于标签解码错误，使得深度学习的学习结果整体预测错误。

根据本发明实施例的技术方案，不同于传统的BIO标注或者首尾位置标注的标签体系，由于语法元素不完整，标题文本通常是包括多个关键词的不通顺文本，本发明的商品属性模型的模型输入引入预设分隔符，根据分隔符的位置标签进行实体识别，解决了传统CRF等解码器容易出现不合法标签问题。

进一步地，本发明的标签体系可以与合法的“BIO”标签或者首尾标记标签进行转化，通过将复杂的任务分解为两个相对简单的子任务，分而治之。

根据本发明实施例的技术方案，能够根据预设分隔符进行分词，在训练阶段，根据预构建的属性特征、携带位置标签和属性标签的样本数据对模型进行训练；在使用阶段，模型对输入的标题文本进行识别，从而提高商品属性的识别效率，准确确定商品属性，进而为用户提供精准推荐服务，提升用户的使用体验，提高用户满意度。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种商品属性模型的确定方法，其特征在于，包括：

获取多个商品标题训练文本；

2.根据权利要求1所述的方法，其特征在于，所述分别对所述商品标题训练文本进行分词处理，确定分词结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述位置标签包括第一位置和第二位置；所述确定所述商品标题训练文本的位置标签，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述确定所述商品标题训练文本的属性标签，包括：

分别确定所述目标字组内不同所述中间属性的出现频次；

5.根据权利要求1所述的方法，其特征在于，包括：

接收一个或多个商品标题文本；

将所述商品标题文本输入预训练的所述商品属性模型；

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，所述实体特征指示了实体对应的商品类型和类型特点，其中：

所述商品类型为主商品、配件商品或者适用商品；

8.一种商品属性模型的确定装置，其特征在于，包括：

获取模块，用于获取多个商品标题训练文本；

9.一种商品属性模型的确定的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。