CN113032415B

CN113032415B - 一种基于用户偏好与知识图谱的个性化产品描述生成方法

Info

Publication number: CN113032415B
Application number: CN202110236093.8A
Authority: CN
Inventors: 郭斌; 郝少阳; 於志文; 梁韵基; 王柱
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2024-04-19
Anticipated expiration: 2041-03-03
Also published as: CN113032415A

Abstract

本发明公开了一种基于用户偏好与知识图谱的个性化产品描述生成方法，通过对产品标题进行实体信息提取，再使用Graph Attention从外部知识库中提取与实体信息最相关的知识并进行融合，进一步增强实体中的知识；同时基于模型预测出用户的多个兴趣标签，再对用户进行聚类分析，通过TFIDF为同类用户构建专属的个性化词库；最后提出了一种多重指针生成网络融合来自产品标题、外部知识库与个性化词库中的知识，最终生成具有信息量、多样性的个性化产品描述。本发明能够通过产品标题与外部知识库，依据用户历史行为自动批量生成个性化的产品描述，解决人工撰写产品描述费事费力的问题。

Description

一种基于用户偏好与知识图谱的个性化产品描述生成方法

技术领域

本发明属于知识表示技术领域，具体涉及一种个性化产品描述生成方法。

背景技术

计算机与互联网技术极大的改变了人们的生活与行为方式，其中居民消费习惯的变化最为明显。依据商务部数据，2019年电子商务交易额已经达全年GDP的35.13％，可以看出，电子商务经济已经成为中国经济体系的重要组成部分。

与传统线下商店相不同，用户在网络空间中无法与产品实体进行交互，只能依靠产品描述进一步了解产品信息，从而做出购买决策。产品描述是用户获取产品信息的主要渠道，其目的是向顾客提供有关产品的特性和优点。传统的产品描述通常是由商家聘用“专家”，根据产品信息进行手工撰写。然而手工撰写商品描述效率低下且成本较高，对于公司推广产品来说是一个较大的负担。在互联网如此庞大的电商规模之下，传统的手工撰写产品描述的方式已无法满足新时代的需求。人类撰写的商品描述受限于撰写者的经验、知识、对于产品的了解程度，在这样大规模、高频率的产品更新的情况下，人类撰写者没有时间、也没有精力去了解每一个产品的详细情况，导致写出的商品描述质量难以保证。另一方面，人工撰写的产品描述难以满足个性化需求，大多是尽可能覆盖所有的产品卖点，不同用户看到的都是相同的产品描述，可能会导致用户无法瞬间抓取到自己感兴趣的信息，最终丧失了进一步了解产品的动力。

现有的关于商品描述和评论生成的方法，大多基于人工构建的规则或简单的生成模型，根据产品标题或结合外部知识库生成通用的产品描述。其仍然存在一些问题需要解决。首先，现有的方法大多停留在通用产品描述的层面，并没有考虑用户的偏好，从而进一步生成个性化的产品描述。其次，已有的方法大多仅利用产品标题作为输入信息。由于产品标题内包含的信息极为有限，因而生成的产品描述的信息量与多样性普遍不佳。第三，少部分方法引入了外部知识库用于丰富产品知识，但外部知识库中包含了大量冗余、低质的信息，对于这些信息，现有工作并没有很好的进行处理。

发明内容

为了克服现有技术的不足，本发明提供了一种基于用户偏好与知识图谱的个性化产品描述生成方法，通过对产品标题进行实体信息提取，再使用Graph Attention从外部知识库中提取与实体信息最相关的知识并进行融合，进一步增强实体中的知识；同时基于模型预测出用户的多个兴趣标签，再对用户进行聚类分析，通过TFIDF为同类用户构建专属的个性化词库；最后提出了一种多重指针生成网络融合来自产品标题、外部知识库与个性化词库中的知识，最终生成具有信息量、多样性的个性化产品描述。本发明能够通过产品标题与外部知识库，依据用户历史行为自动批量生成个性化的产品描述，解决人工撰写产品描述费事费力的问题。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：获取产品描述数据集，采集互联网电商网站中的产品描述Y＝(y₁,y₂,...y_n)、产品标题X＝(x₁,x₂,...x_m)、与用户评论数据<user_id,user_review>；

步骤2：以产品标题中的实体在知识库中进行检索，将检索出的知识G分为两个部分：关系r＝DESC的知识表示为G₁＝G_r＝DESC，剩余的知识表示为G₂＝G_r≠DESC；使用TransE将知识库中检索到的实体与关系映射到低维空间；

步骤3：将知识库中检索到的知识G₁所包含三元组K₁中的值按照它们对应的实体在产品标题X中的顺序进行拼接，然后使用双向GRU对K₁进行编码；

使用Attention机制选择知识，Attention机制描述为式(1)：

其中，为编码阶段的第i个时间步的隐状态，/>是解码阶段第t个时间步的隐向量，W_k,W′_k,b_k和v是需进行学习的参数，v用于调整权重/>的维度，j表示时间步，/>为用Attention机制选择结果的上下文向量；

步骤4：将知识库中检索到的知识G₂，使用TransE将知识G₂中所有的实体与关系映射为低维向量，知识G₂的三元组K₂被映射为τ＝(e,r,val)＝MLP(TransE(e,r,val))，其中τ,e,r和val分别为τ,e,r和val的TransE向量表示，MLP是全连接神经网络，用于消除结构化数据与非结构化的文本数据之间的隔阂，τ为映射后的三元组，e表示实体，val表示值；

使用Graph Attention对检索出的知识进行选择与整合，如以下式(2)所示：

其中，r_n，与val_n分别是g_i中第n个三元组的实体、关系与值；α_n为Attention权重，α_n用来衡量关系r_n与实体/>和值val_n之间连接的紧密性；/>表示将x_i作为关键实体从G₂中抽取得到的信息；W_e ^k和W_r ^k为可学习参数；

将与xi进行拼接，将拼接后的向量/>输入编码时的每一个GRU单元；

步骤5：由步骤1采集的用户评论数据对用户进行分类，根据用户类别获取该类别对应的产品描述，使用TF-IDF从产品描述中选取词汇构成用户专属个性化词库V_u；

使用Attention机制对个性化词库V_u中的词汇进行选取，表示为式(3)：

其中，为用户专属词库中第i个词汇的编码表示，，W_v，W′_k与b_v均为可学习的参数，m^T为进行维度变换的矩阵，/>即为计算出的第i个词汇的权重，/>表示上下文向量；

步骤6：使用多重指针生成网络计算从知识库、个性化词库和产品标题中进行单词复制时的生成概率，表示为式(4)：

其中，P_k、P_v、P_g分别为从知识库、个性化词库和产品标题中进行单词复制时的生成概率，σ为系数，均为可学习参数，x_t为为输入词汇的编码向量；

步骤7：计算最终生成的个性化产品描述词汇概率，表示为式(5)：

其中与/>为当生成第t个词汇时，分别从知识库、个性化词库与产品标题中选取第i个词的权重信息，W_p为可学习的参数，p_voc(w)为仅考虑生成模型部分的生成概率，P(w)为最终生成的产品描述中下一个词汇的概率分布，概率最大值对应的即为预测词汇。

本发明的有益效果如下：

本发明能够通过产品标题与外部知识库，依据用户历史行为自动批量生成个性化的产品描述，解决人工撰写产品描述费事费力的问题，一定程度上降低中小企业运营成本。

附图说明

图1为本发明方法架构图。

图2本发明方法信息增强模块方法架构图。

图3为本发明实施例生成的个性化产品描述结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明为基于用户偏好与知识图谱的个性化产品描述生成方法，设计了一种能够提取用户偏好的用户语言偏好提取方式，并提出了一种使从不同数据源中抽取高度相关异质数据的方法，并设计了合理的数据融合方式，最终生成信息丰富的个性化的产品描述。

如图1所示，一种基于用户偏好与知识图谱的个性化产品描述生成方法，包括以下步骤：

步骤2：如图2所示，以产品标题中的实体在知识库中进行检索，在知识库中，与实体的关系为“DESC”的值是实体的描述性文本，包含大量的信息，使用TransE进行编码会有较大的信息丢失，因此将检索出的知识G分为两个部分：关系r＝DESC的知识表示为G₁＝G_r＝DESC，剩余的知识表示为G₂＝G_r≠DESC；使用TransE将知识库中检索到的实体与关系映射到低维空间；此模块为信息增强模块；

使用Attention机制选择其中最为重要的知识，Attention机制描述为式(1)：

将与x_i进行拼接，将拼接后的向量/>输入编码时的每一个GRU单元；

步骤5：由步骤1采集的用户评论数据对用户进行分类，本方法分析用户偏好，根据用户类别获取该类别对应的产品描述，使用TF-IDF从产品描述中选取能够表达用户语言特点的特殊词汇构成用户专属个性化词库V_u；此模块为个性化信息增强模块；

图3为采用本发明方法生成的个性化产品描述结果，从结果能够看出，针对同一个产品不同的用户类型生成了个性化的产品描述，达到了较好的效果。

Claims

1.一种基于用户偏好与知识图谱的个性化产品描述生成方法，其特征在于，包括以下步骤：

步骤1：获取产品描述数据集，采集互联网电商网站中的产品描述Y＝(y₁，y₂，...y_n)、产品标题X＝(x₁，x₂，...x_m)、与用户评论数据<user_id，user_review>；

使用Attention机制选择知识，Attention机制描述为式(1)：

其中，为编码阶段的第i个时间步的隐状态，/>是解码阶段第t个时间步的隐向量，W_k，W′_k，b_k和v是需进行学习的参数，v用于调整权重/>的维度，j表示时间步，/>为用Attention机制选择结果的上下文向量；

步骤4：将知识库中检索到的知识G₂，使用TransE将知识G₂中所有的实体与关系映射为低维向量，知识G₂的三元组K₂被映射为τ＝(e，r，val)＝MLP(TransE(e，r，val))，其中τ，e，r和val分别为τ，e，r和val的TransE向量表示，MLP是全连接神经网络，用于消除结构化数据与非结构化的文本数据之间的隔阂，τ为映射后的三元组，e表示实体，val表示值；

使用GraphAttention对检索出的知识进行选择与整合，如以下式(2)所示：

其中，r_n，与val_n分别是g_i中第n个三元组的实体、关系与值；α_n为Attention权重，α_n用来衡量关系r_n与实体/>和值val_n之间连接的紧密性；/>表示将x_i作为关键实体从G₂中抽取得到的信息；/>和/>为可学习参数；