CN109754317B

CN109754317B - 融合评论的可解释性服装推荐方法、系统、设备及介质

Info

Publication number: CN109754317B
Application number: CN201910024347.2A
Authority: CN
Inventors: 陈竹敏; 林于杰; 任鹏杰; 任昭春; 马军; 马尔腾·德莱克
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2020-11-06
Anticipated expiration: 2039-01-10
Also published as: CN109754317A

Abstract

本公开公开了融合评论的可解释性服装推荐方法、系统、设备及介质，包括：构建基于深度学习的编码器‑解码器神经网络模型；对基于深度学习的编码器‑解码器神经网络模型进行训练；将待推荐的上衣图片和下衣图片，同时输入到训练好的编码器‑解码器神经网络模型，该模型对上衣图片和下衣图片的匹配程度进行打分，根据打分排序给出推荐结果，同时给出匹配程度的模拟评论。其利用潜藏在用户评论中的有用信息来训练推荐模型，从而提升推荐的效果，同时能模拟用户给推荐的结果生成评论作为推荐的解释，提高推荐的可解释性。

Description

融合评论的可解释性服装推荐方法、系统、设备及介质

技术领域

本公开涉及服装推荐领域，尤其涉及融合评论的可解释性服装推荐方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

服装推荐的目的是通过给用户推荐可能感兴趣的时尚服装来促进人们对网上购物的兴趣和参与度。服装推荐技术一方面能帮助用户在琳琅满目的在线时尚商品中快速搜索自己满意的服装，另一方面也能帮助在线零售商提高服务质量和扩大收益。因此，现在服装推荐技术在在线零售市场中扮演了越来越重要的角色，也引起了工业界和学术界的广泛重视。

服装推荐领域包含了许多问题，本发明所面向的具体问题是为用户给定的上衣(如T恤、外套等)来推荐合适的下衣(如裙子、短裤等)，反之亦然。该问题的解决可以帮助用户更好地搭配自己的服装，让用户变得更加时尚。早期的服装推荐研究基于专家标注的数据集，这些数据集多太小，限制了复杂模型的开发(例如，基于深度学习的模型)。近年来，随着时尚导向的在线社区(例如Polyvore和Chictopia)的出现，人们可以分享和评论服装搭配。除了大量的服装搭配，这些来源于众包的数据也包含其它有价值的信息(例如大量的用户评论)，可用于构建更准确和智能的推荐系统。

目前的服装推荐技术多单纯地依赖于从上衣和下衣的图片中提取视觉特征来判断给定的上衣和候选的下衣之间的匹配程度。它们都忽视了用户评论中的信息，没有参考用户的评论来学习一般的服装间的匹配规律。同时目前的服装推荐技术多只给出一个判定结果，没有模拟用户生成评论推荐的理由。这使得推荐缺乏透明性和可信性。

发明内容

为了解决现有技术的不足，本公开提供了融合评论的可解释性服装推荐方法、系统、设备及介质，其利用潜藏在用户评论中的有用信息来训练推荐模型，从而提升推荐的效果，同时能模拟用户给推荐的结果生成评论作为推荐的解释，提高推荐的可解释性。

第一方面，本公开提供了融合评论的可解释性服装推荐方法；

融合评论的可解释性服装推荐方法，包括：

构建基于深度学习的编码器-解码器神经网络模型；

对基于深度学习的编码器-解码器神经网络模型进行训练；

将待推荐的上衣图片和下衣图片，同时输入到训练好的编码器-解码器神经网络模型，该模型对上衣图片和下衣图片的匹配程度进行打分，根据打分排序给出推荐结果，同时给出匹配程度的模拟评论。

作为一种可能的实现方式，所述基于深度学习的编码器-解码器神经网络模型，包括：

上衣编码器、下衣编码器、匹配解码器和生成解码器；

所述上衣编码器用于接收上衣图片，并提取上衣图片的上衣视觉特征和上衣编码表示；所述上衣编码表示包括上衣图片和下衣图片之间的匹配信息；

所述下衣编码器用于接收下衣图片，并提取下衣图片的下衣视觉特征和下衣编码表示；所述下衣编码表示包括上衣图片和下衣图片之间的匹配信息；

所述匹配解码器用于根据上衣编码表示和下衣编码表示，对上衣图片和下衣图片之间的匹配程度进行打分；

所述生成解码器用于根据上衣视觉特征、上衣编码表示、下衣视觉特征和下衣编码表示，对上衣图片和下衣图片的组合生成模拟评论。

作为一种可能的实现方式，提取上衣图片的上衣视觉特征的具体步骤为：

所述上衣编码器，包括：依次连接的第一卷积层、第二卷积层、第一拼接层以及第一池化层；

所述第一卷积层对上衣图片进行视觉特征提取，得到第一视觉特征；

所述第二卷积层对上衣图片进行视觉特征提取，得到第二视觉特征；

所述第一拼接层对第一视觉特征和第二视觉特征进行串联拼接，将拼接得到的第三视觉特征送入第一池化层；

所述第一池化层对第三视觉特征进行处理，得到上衣图片的上衣视觉特征。

作为一种可能的实现方式，提取下衣图片的下衣视觉特征的具体步骤为：

所述下衣编码器，包括：依次连接的第三卷积层、第四卷积层、第二拼接层以及第二池化层；

所述第三卷积层对下衣图片进行视觉特征提取，得到第四视觉特征；

所述第四卷积层对下衣图片进行视觉特征提取，得到第五视觉特征；

所述第二拼接层对第四视觉特征和第五视觉特征进行串联拼接，将拼接后得到的第六视觉特征送入第二池化层；

所述第二池化层对第六视觉特征进行处理，得到下衣图片的视觉特征。

作为一种可能的实现方式，提取上衣图片的上衣编码表示的具体步骤为：

利用交互注意力机制，将上衣图片和下衣图片之间的匹配信息编码到提取的上衣图片的视觉特征中，得到上衣图片的编码表示。

作为一种可能的实现方式，提取下衣图片的下衣编码表示的具体步骤为：

利用交互注意力机制，将上衣图片和下衣图片之间的匹配信息编码到提取的下衣图片的视觉特征中，得到下衣图片的编码表示。

作为一种可能的实现方式，利用交互注意力机制，将上衣图片和下衣图片之间的匹配信息编码到提取的上衣图片的视觉特征中，得到上衣图片的编码表示的具体步骤为：

首先，通过计算下衣视觉特征的平均值得到下衣图片的全局特征；

然后，对上衣图片的每个视觉特征，计算下衣图片的全局特征对上衣图片的视觉特征的注意力权值；对注意力权值进行归一化处理；

其次，利用下衣图片的全局特征对上衣图片的视觉特征的注意力权值，对上衣图片的视觉特征进行加权求和，得到上衣图片的注意力全局特征；

再次，将上衣图片的注意力全局特征映射成视觉特征向量；

再次，将上衣图片的视觉特征向量与上衣图片对应的上衣物品向量进行串联拼接，拼接到的结果即为最终上衣图片的编码表示。

作为一种可能的实现方式，上衣物品向量的获取步骤为：

首先，随机初始化一个上衣物品向量矩阵，其中的每一行对应一件上衣；

然后，根据输入的上衣图片，从上衣物品向量矩阵中获取对应的向量，用于之后的计算；

最后，上衣物品向量矩阵将与神经网络的参数一起，以损失函数值最小为目标，通过后向传播BP算法进行更新，最后得到更新后的上衣物品向量。

上衣物品向量通过后向传播BP算法捕获历史匹配记录中的有用信息来作为对上衣视觉特征的补充。

所述随机初始化使用Xavier方法、均匀分布或者正态分布方法之一。

作为一种可能的实现方式，利用交互注意力机制，将上衣图片和下衣图片之间的匹配信息编码到提取的下衣图片的视觉特征中，得到下衣图片的编码表示的具体步骤为：

首先，通过计算上衣视觉特征的平均值得到上衣图片的全局特征；

然后，对下衣图片的每个视觉特征，计算上衣图片的全局特征对下衣图片的视觉特

征的注意力权值；对注意力权值进行归一化处理；

其次，利用上衣图片的全局特征对下衣图片的视觉特征的注意力权值，对下衣图片的视觉特征进行加权求和，得到下衣图片的注意力全局特征；

再次，将下衣图片的注意力全局特征映射成视觉特征向量；

再次，将下衣图片的视觉特征向量与下衣图片对应的下衣物品向量进行串联拼接，拼接到的结果即为最终下衣图片的编码表示。

作为一种可能的实现方式，下衣物品向量的获取步骤为：

首先，随机初始化一个下衣物品向量矩阵，其中的每一行对应一件下衣；

然后，根据输入的下衣图片，从下衣物品向量矩阵中获取对应的向量，用于之后的计算；

最后，下衣物品向量矩阵将与神经网络的参数一起，以损失函数值最小为目标，通过后向传播BP算法进行更新，最后得到更新后的下衣物品向量。

下衣物品向量通过后向传播BP算法捕获历史匹配记录中的有用信息来作为对下衣视觉特征的补充。

作为一种可能的实现方式，根据上衣编码表示和下衣编码表示，对上衣图片和下衣图片之间的匹配程度进行打分的具体步骤为：

将上衣编码表示和下衣编码表示作为输入值，输入到MLP多层感知机中，输出即为上衣图片和下衣图片的匹配打分结果。

作为一种可能的实现方式，根据上衣视觉特征、上衣编码表示、下衣视觉特征和下衣编码表示，对上衣图片和下衣图片的组合生成模拟评论的步骤为：

步骤(1)：构建门控循环神经网络GRU；

步骤(2)：利用上衣和下衣的编码表示，计算门控循环神经网络GRU的初始状态；

步骤(3)：门控循环神经网络GRU进行步骤(31)到步骤(33)的循环操作直到生成一个完整的句子：

步骤(31)：先对上衣视觉特征和下衣视觉特征，利用跨模态注意力机制进行处理得到当前时间步的上下文向量；

步骤(32)：将门控循环神经网络GRU的上一个时间步的状态，上一时间步生成单词的词向量和当前时间步的上下文向量输入到门控循环神经网络GRU中，得到当前时间步的新状态以及对当前生成单词的预测概率分布；

步骤(33)：选取概率最大的单词作为当前的生成结果；所述单词包括标点符号；如果当前的生成结果为句号，说明已经生成了一个完整的句子，则将所有时间步生成的单词依序串联成一个句子返回。

作为一种可能的实现方式，对上衣视觉特征和下衣视觉特征，利用跨模态注意力机制进行处理得到上下文向量的具体步骤为：

首先，对上衣视觉特征和下衣视觉特征一一对应串联组合；

然后，计算门控循环神经网络GRU上一个时间步的状态对上衣视觉特征以及下衣视觉特征串联组合后，每个组合的注意力权值；

然后，利用计算的注意力权值，对所有的串联组合做加权求和，最后返回的结果就是当前时间步的上下文向量。

作为一种可能的实现方式，词向量的获取方式是：

首先，随机初始化一个词向量矩阵，其中的每一行对应一个单词；

然后，根据当前输入的单词，从词向量矩阵中获取对应的向量，用于之后的计算；

最后，词向量矩阵将与神经网络的参数一起，以损失函数最小为目标，通过后向传播BP算法进行更新。

作为一种可能的实现方式，对基于深度学习的编码器-解码器神经网络模型进行训练的具体步骤为：

训练集包括从在线时尚社区网站上爬取的真实用户给出的匹配的上衣和下衣的组合，每一个组合都包括上衣图片、下衣图片、点赞数以及用户评论；

将点赞数大于阈值的组合视为匹配组合；然后通过负采样来获取不匹配组合，即随机选取一件上衣和一件下衣构成一个组合，若该组合没有在匹配组合中出现，则将该组合视为不匹配组合；对匹配组合中的上衣图片和下衣图片，分别提取上衣图片的视觉特征、上衣图片的编码表示、下衣图片的视觉特征和下衣图片的编码表示；

对不匹配组合中的上衣图片和下衣图片，分别提取上衣图片的视觉特征、上衣图片的编码表示、下衣图片的视觉特征和下衣图片的编码表示；

利用匹配组合和不匹配组合提取的所有特征和所有编码表示对基于深度学习的编码器-解码器神经网络模型进行训练，直至损失函数值最小，训练结束，得到训练好的基于深度学习的编码器-解码器神经网络模型。

基于深度学习的编码器-解码器神经网络模型，通过训练集，学习到网络参数、上衣物品向量、下衣物品向量以及词向量。

训练过程中，损失函数，包括：匹配损失、生成损失和正则化损失；其中，

匹配损失衡量的是匹配预测的准确程度，预测越准确，损失越小；

生成损失衡量的是网络生成真实评论的概率，概率越大，损失越小。

正则化损失用来约束网络中的参数，避免其过大，网络中的参数值越小，损失越小。

使用后向传播BP算法对网络参数、上衣物品向量、下衣物品向量以及词向量进行更新以减小损失。

因此，在申请实施例中，其利用潜藏在用户评论中的有用信息来训练推荐模型，从而提升推荐的效果，同时能模拟用户给推荐的结果生成评论作为推荐的解释，提高推荐的可解释性。

第二方面，本公开还提供了融合评论的可解释性服装推荐系统；

融合评论的可解释性服装推荐系统，包括：

模型构建模块，被配置为构建基于深度学习的编码器-解码器神经网络模型；

模型训练模块，被配置为对基于深度学习的编码器-解码器神经网络模型进行训练；

模型使用模块，被配置为将待推荐的上衣图片和下衣图片，同时输入到训练好的编码器-解码器神经网络模型，该模型对上衣图片和下衣图片的匹配程度进行打分，根据打分排序给出推荐结果，同时给出匹配程度的模拟评论。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面任一可能的实现方式中的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面任一可能的实现方式中方法的步骤。

与现有技术相比，本公开的有益效果是：

本发明旨在结合评论生成来提升服装推荐的效果以及服装推荐的可解释性。本发明相对于过去的服装推荐方法，由于利用了用户评论中的有用信息来训练模型，从而在服装推荐领域的多个评测指标上都取得了不错的提升。同时本发明能在推荐的同时模拟用户生成评论，大大提高了推荐的可解释性，让推荐系统变得更加透明、可信，也能帮助用户做出更快的、更好的决策。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为一个或多个实施方式的NOR的工作流程图；

图2为一个或多个实施方式的上衣编码器和下衣编码器；

图3为一个或多个实施方式的匹配解码器；

图4为一个或多个实施方式的生成解码器。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一：

本发明采用了目前流行的基于深度学习的编码器-解码器框架，名称为NeuralOutfit Recommendation(简称为NOR)，其包含了三大部分：上衣和下衣编码器，匹配解码器和生成解码器。其中上衣和下衣编码器用于从上衣和下衣图片中提取视觉特征。我们为上衣和下衣编码器提出了一种交互注意力机制，可以将上衣和下衣之间的匹配信息编码进所提取的视觉特征中。匹配解码器基于所提取的视觉特征得到一个打分来评估给定的上衣和候选的下衣之间的匹配程度。生成解码器则可以利用所提取的视觉特征来生成一句话作为对该上衣和下衣组合的评论。我们为生成解码器提出了一种跨模态注意力机制，其可以更有效地利用视觉特征来生成每一个字。NOR的工作流程图如图1所示。

下面详细介绍NOR的各个部分。

1.上衣和下衣编码器

上衣编码器和下衣编码器使用的是两个结构完全相同，参数共享的卷积神经网络(简称CNN)，工作流程如图2所示；

输入的上衣和下衣图片首先经过两层卷积层，提取出视觉特征，然后我们把这两层卷积特征沿着通道这一轴拼接在一起，最后再经过一层池化层，得到的特征记为

和

其中L是特征数，D是特征的维度。

之后我们应用了一种交互注意力机制来将上衣图片和下衣图片间的匹配信息编码进提取出的特征里。这里以计算上衣图片对下衣图片的注意力权值为例。首先我们用全局池化来计算上衣图片的全局特征g_t∈R^D，如式(1)所示：

表示上衣图片的第i个特征；

然后对

我们用式(2)计算g_t对它的注意力权值e_t,i：

其中W_a和U_a∈R^D×D，v_a∈R^D是网络中的参数。接着我们需要对e_t,i进行归一化：

最后我们用上衣图片对下衣图片的注意力权值来对下衣图片的视觉特征进行加权求和以得到下衣图片的注意力全局特征

表示下衣图片的第i个特征；

我们用同样的方式计算出下衣图片对上衣图片的注意力权值，并得到上衣图片的注意力全局特征，记为

接着，我们把

和

进一步映射成两个视觉特征向量

和

如式(5)所示：

其中

是网络中的参数。为了从时尚物品的历史匹配记录中学习有用的信息，我们还为每个上衣和下衣学习了一个物品向量表示，记为

和

我们将视觉特征向量和物品向量拼接在一起作为上衣和下衣最终的编码表示v_t和v_b∈R^m，如式(6)所示：

其中m＝2m_v。

2.匹配解码器

我们基于所得到的上衣和下衣的编码表示v_t和v_b，用多层感知机(简称为MLP)来预测给定的上衣和下衣之间的匹配打分，如图3所示：

具体的数学过程如式(7)和式(8)所示：

h_r＝ReLU(W_sv_t+U_sv_b) (7)

p(r_tb)＝softmax(W_rh_r) (8)

其中h_r∈Rⁿ，W_s and U_s∈R^n×m，W_r∈R^2×n是网络中的参数。最后输出的p(r_tb)是一个概率分布，对应p(r_tb＝0)和p(r_tb＝1)，其中r_tb＝1表示给定的上衣和下衣匹配，而r_tb＝0表示给定的上衣和下衣不匹配。我们将上衣和下衣的匹配程度即p(r_tb＝1)视为匹配打分。

3.生成解码器

为了给给定的上衣和下衣的组合生成评论，我们使用了门控循环神经网络(简称为GRU)作为生成编码器，如图4所示：

首先我们用上衣和下衣的编码表示来计算GRU的初始状态s₀∈R^q，如式(9)所示：

s₀＝tanh(W_iv_t+U_iv_b) (9)

其中W_i和U_t∈R^q×m是网络中的参数。之后每一个时间步τ，我们给GRU输入之前输出的单词的词向量w_τ-1∈R^e，当前的上下文向量ctx_τ∈R^D和之前的状态s_τ-1∈R^q来计算新的状态s_τ和当前的输出o_τ∈R^q，如式(10)所示：

s_τ,o_τ＝GRU(w_τ-1,ctx_τ,s_τ-1) (10)

其中上下文向量ctx_τ，通过我们提出的跨模态注意力机制来计算。具体地，我们将提取出的上衣视觉特征和下衣视觉特征组合在一起，得到

然后我们按式(11)到式(13)来计算ctx_τ：

其中W_g∈R^q×D是网络中的参数。通过跨模态注意力机制，我们让生成解码器能把注意力放在有效的视觉特征上来保证对提取的视觉特征的充分利用。最后我们按式(14)来预测当前时间步要生成的单词：

p(w_τ|w₁,…,w_τ-1)＝softmax(W_oo_τ+U_octx_τ) (14)

NOR在应用前，需要在训练集上学习网络参数、物品向量以及词向量。训练集由从在线时尚社区爬取的真实用户认为匹配的上衣和下衣组合以及用户评论构成。同时我们通过负采样技术得到我们认为不匹配的上衣和下衣组合。之后我们定义损失函数如式(15)到式(18)所示：

L＝L_mat+L_gen+L_reg (18)

其中P⁺是匹配组合集，P^-是不匹配组合集，C^tb是匹配组合(t,b)的评论集合，Θ是网络中的全部参数及，L_mat对应匹配损失，L_gen对应生成损失，L_reg对应正则化损失。由于对不匹配的组合，我们没有评论，所以我们不考虑其中的生成损失。而从这些真实的用户评论中，NOR可以学习到有用的服装匹配信息。随后我们用深度学习常用的后向传播算法(简称为BP算法)对网络进行参数更新以减小损失。

NOR训练完毕后，参数、物品向量以及词向量便全部固定，然后可用于给给定的上衣和下衣预测匹配打分以及评论生成。在为给定的上衣推荐下衣时，我们首先用NOR给候选的每个下衣计算它与上衣的匹配打分，而后根据分数高低对下衣做排序以得到推荐结果。同时NOR还生成了评论作为推荐的理由。为下衣推荐上衣也同样如此。

实施例二：

本公开还提供了融合评论的可解释性服装推荐系统；

融合评论的可解释性服装推荐系统，包括：

实施例三：

本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

实施例四：

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.融合评论的可解释性服装推荐方法，其特征是，包括：

构建基于深度学习的编码器-解码器神经网络模型；

对基于深度学习的编码器-解码器神经网络模型进行训练；

将待推荐的上衣图片和下衣图片，同时输入到训练好的编码器-解码器神经网络模型，该模型对上衣图片和下衣图片的匹配程度进行打分，根据打分排序给出推荐结果，同时给出匹配程度的模拟评论；

所述基于深度学习的编码器-解码器神经网络模型，包括：

上衣编码器、下衣编码器、匹配解码器和生成解码器；

所述上衣编码器用于接收上衣图片，并提取上衣图片的上衣视觉特征和上衣编码表示；

所述上衣编码表示包括上衣图片和下衣图片之间的匹配信息；

所述提取上衣图片的上衣编码表示的具体步骤为：利用交互注意力机制，将上衣图片和下衣图片之间的匹配信息编码到提取的上衣图片的视觉特征中，得到上衣图片的编码表示；

所述下衣编码器用于接收下衣图片，并提取下衣图片的下衣视觉特征和下衣编码表示；

所述下衣编码表示包括上衣图片和下衣图片之间的匹配信息；

所述提取下衣图片的下衣编码表示的具体步骤为：利用交互注意力机制，将上衣图片和下衣图片之间的匹配信息编码到提取的下衣图片的视觉特征中，得到下衣图片的编码表示；

2.如权利要求1所述的方法，其特征是，提取上衣图片的上衣视觉特征的具体步骤为：

3.如权利要求1所述的方法，其特征是，提取下衣图片的下衣视觉特征的具体步骤为：

4.如权利要求1所述的方法，其特征是，利用交互注意力机制，将上衣图片和下衣图片之间的匹配信息编码到提取的上衣图片的视觉特征中，得到上衣图片的编码表示的具体步骤为：

再次，将上衣图片的注意力全局特征映射成视觉特征向量；

再次，将上衣图片的视觉特征向量与上衣图片对应的上衣物品向量进行串联拼接，拼接到的结果即为最终上衣图片的编码表示；

所述上衣物品向量的获取步骤为：

5.如权利要求1所述的方法，其特征是，利用交互注意力机制，将上衣图片和下衣图片之间的匹配信息编码到提取的下衣图片的视觉特征中，得到下衣图片的编码表示的具体步骤为：

然后，对下衣图片的每个视觉特征，计算上衣图片的全局特征对下衣图片的视觉特征的注意力权值；对注意力权值进行归一化处理；

再次，将下衣图片的注意力全局特征映射成视觉特征向量；

再次，将下衣图片的视觉特征向量与下衣图片对应的下衣物品向量进行串联拼接，拼接到的结果即为最终下衣图片的编码表示；

所述下衣物品向量的获取步骤为：

6.如权利要求1所述的方法，其特征是，根据上衣编码表示和下衣编码表示，对上衣图片和下衣图片之间的匹配程度进行打分的具体步骤为：

7.如权利要求1所述的方法，其特征是，根据上衣视觉特征、上衣编码表示、下衣视觉特征和下衣编码表示，对上衣图片和下衣图片的组合生成模拟评论的步骤为：

步骤(1)：构建门控循环神经网络GRU；

8.如权利要求7所述的方法，其特征是，对上衣视觉特征和下衣视觉特征，利用跨模态注意力机制进行处理得到当前时间步的上下文向量的具体步骤为：

首先，对上衣视觉特征和下衣视觉特征一一对应串联组合；

9.如权利要求7所述的方法，其特征是，词向量的获取方式是：

10.如权利要求1所述的方法，其特征是，对基于深度学习的编码器-解码器神经网络模型进行训练的具体步骤为：

11.融合评论的可解释性服装推荐系统，其特征是，包括：

模型使用模块，被配置为将待推荐的上衣图片和下衣图片，同时输入到训练好的编码器-解码器神经网络模型，该模型对上衣图片和下衣图片的匹配程度进行打分，根据打分排序给出推荐结果，同时给出匹配程度的模拟评论；

所述基于深度学习的编码器-解码器神经网络模型，包括：

上衣编码器、下衣编码器、匹配解码器和生成解码器；

12.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-10任一项方法所述的步骤。

13.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-10任一项方法所述的步骤。