CN113032415B - 一种基于用户偏好与知识图谱的个性化产品描述生成方法 - Google Patents
一种基于用户偏好与知识图谱的个性化产品描述生成方法 Download PDFInfo
- Publication number
- CN113032415B CN113032415B CN202110236093.8A CN202110236093A CN113032415B CN 113032415 B CN113032415 B CN 113032415B CN 202110236093 A CN202110236093 A CN 202110236093A CN 113032415 B CN113032415 B CN 113032415B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- product
- word
- personalized
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 4
- 238000007621 cluster analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户偏好与知识图谱的个性化产品描述生成方法,通过对产品标题进行实体信息提取,再使用Graph Attention从外部知识库中提取与实体信息最相关的知识并进行融合,进一步增强实体中的知识;同时基于模型预测出用户的多个兴趣标签,再对用户进行聚类分析,通过TFIDF为同类用户构建专属的个性化词库;最后提出了一种多重指针生成网络融合来自产品标题、外部知识库与个性化词库中的知识,最终生成具有信息量、多样性的个性化产品描述。本发明能够通过产品标题与外部知识库,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题。
Description
技术领域
本发明属于知识表示技术领域,具体涉及一种个性化产品描述生成方法。
背景技术
计算机与互联网技术极大的改变了人们的生活与行为方式,其中居民消费习惯的变化最为明显。依据商务部数据,2019年电子商务交易额已经达全年GDP的35.13%,可以看出,电子商务经济已经成为中国经济体系的重要组成部分。
与传统线下商店相不同,用户在网络空间中无法与产品实体进行交互,只能依靠产品描述进一步了解产品信息,从而做出购买决策。产品描述是用户获取产品信息的主要渠道,其目的是向顾客提供有关产品的特性和优点。传统的产品描述通常是由商家聘用“专家”,根据产品信息进行手工撰写。然而手工撰写商品描述效率低下且成本较高,对于公司推广产品来说是一个较大的负担。在互联网如此庞大的电商规模之下,传统的手工撰写产品描述的方式已无法满足新时代的需求。人类撰写的商品描述受限于撰写者的经验、知识、对于产品的了解程度,在这样大规模、高频率的产品更新的情况下,人类撰写者没有时间、也没有精力去了解每一个产品的详细情况,导致写出的商品描述质量难以保证。另一方面,人工撰写的产品描述难以满足个性化需求,大多是尽可能覆盖所有的产品卖点,不同用户看到的都是相同的产品描述,可能会导致用户无法瞬间抓取到自己感兴趣的信息,最终丧失了进一步了解产品的动力。
现有的关于商品描述和评论生成的方法,大多基于人工构建的规则或简单的生成模型,根据产品标题或结合外部知识库生成通用的产品描述。其仍然存在一些问题需要解决。首先,现有的方法大多停留在通用产品描述的层面,并没有考虑用户的偏好,从而进一步生成个性化的产品描述。其次,已有的方法大多仅利用产品标题作为输入信息。由于产品标题内包含的信息极为有限,因而生成的产品描述的信息量与多样性普遍不佳。第三,少部分方法引入了外部知识库用于丰富产品知识,但外部知识库中包含了大量冗余、低质的信息,对于这些信息,现有工作并没有很好的进行处理。
发明内容
为了克服现有技术的不足,本发明提供了一种基于用户偏好与知识图谱的个性化产品描述生成方法,通过对产品标题进行实体信息提取,再使用Graph Attention从外部知识库中提取与实体信息最相关的知识并进行融合,进一步增强实体中的知识;同时基于模型预测出用户的多个兴趣标签,再对用户进行聚类分析,通过TFIDF为同类用户构建专属的个性化词库;最后提出了一种多重指针生成网络融合来自产品标题、外部知识库与个性化词库中的知识,最终生成具有信息量、多样性的个性化产品描述。本发明能够通过产品标题与外部知识库,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:获取产品描述数据集,采集互联网电商网站中的产品描述Y=(y1,y2,...yn)、产品标题X=(x1,x2,...xm)、与用户评论数据<userid,userreview>;
步骤2:以产品标题中的实体在知识库中进行检索,将检索出的知识G分为两个部分:关系r=DESC的知识表示为G1=Gr=DESC,剩余的知识表示为G2=Gr≠DESC;使用TransE将知识库中检索到的实体与关系映射到低维空间;
步骤3:将知识库中检索到的知识G1所包含三元组K1中的值按照它们对应的实体在产品标题X中的顺序进行拼接,然后使用双向GRU对K1进行编码;
使用Attention机制选择知识,Attention机制描述为式(1):
其中,为编码阶段的第i个时间步的隐状态,/>是解码阶段第t个时间步的隐向量,Wk,W′k,bk和v是需进行学习的参数,v用于调整权重/>的维度,j表示时间步,/>为用Attention机制选择结果的上下文向量;
步骤4:将知识库中检索到的知识G2,使用TransE将知识G2中所有的实体与关系映射为低维向量,知识G2的三元组K2被映射为τ=(e,r,val)=MLP(TransE(e,r,val)),其中τ,e,r和val分别为τ,e,r和val的TransE向量表示,MLP是全连接神经网络,用于消除结构化数据与非结构化的文本数据之间的隔阂,τ为映射后的三元组,e表示实体,val表示值;
使用Graph Attention对检索出的知识进行选择与整合,如以下式(2)所示:
其中,rn,与valn分别是gi中第n个三元组的实体、关系与值;αn为Attention权重,αn用来衡量关系rn与实体/>和值valn之间连接的紧密性;/>表示将xi作为关键实体从G2中抽取得到的信息;We k和Wr k为可学习参数;
将与xi进行拼接,将拼接后的向量/>输入编码时的每一个GRU单元;
步骤5:由步骤1采集的用户评论数据对用户进行分类,根据用户类别获取该类别对应的产品描述,使用TF-IDF从产品描述中选取词汇构成用户专属个性化词库Vu;
使用Attention机制对个性化词库Vu中的词汇进行选取,表示为式(3):
其中,为用户专属词库中第i个词汇的编码表示,,Wv,W′k与bv均为可学习的参数,mT为进行维度变换的矩阵,/>即为计算出的第i个词汇的权重,/>表示上下文向量;
步骤6:使用多重指针生成网络计算从知识库、个性化词库和产品标题中进行单词复制时的生成概率,表示为式(4):
其中,Pk、Pv、Pg分别为从知识库、个性化词库和产品标题中进行单词复制时的生成概率,σ为系数,均为可学习参数,xt为为输入词汇的编码向量;
步骤7:计算最终生成的个性化产品描述词汇概率,表示为式(5):
其中与/>为当生成第t个词汇时,分别从知识库、个性化词库与产品标题中选取第i个词的权重信息,Wp为可学习的参数,pvoc(w)为仅考虑生成模型部分的生成概率,P(w)为最终生成的产品描述中下一个词汇的概率分布,概率最大值对应的即为预测词汇。
本发明的有益效果如下:
本发明能够通过产品标题与外部知识库,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题,一定程度上降低中小企业运营成本。
附图说明
图1为本发明方法架构图。
图2本发明方法信息增强模块方法架构图。
图3为本发明实施例生成的个性化产品描述结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明为基于用户偏好与知识图谱的个性化产品描述生成方法,设计了一种能够提取用户偏好的用户语言偏好提取方式,并提出了一种使从不同数据源中抽取高度相关异质数据的方法,并设计了合理的数据融合方式,最终生成信息丰富的个性化的产品描述。
如图1所示,一种基于用户偏好与知识图谱的个性化产品描述生成方法,包括以下步骤:
步骤1:获取产品描述数据集,采集互联网电商网站中的产品描述Y=(y1,y2,...yn)、产品标题X=(x1,x2,...xm)、与用户评论数据<userid,userreview>;
步骤2:如图2所示,以产品标题中的实体在知识库中进行检索,在知识库中,与实体的关系为“DESC”的值是实体的描述性文本,包含大量的信息,使用TransE进行编码会有较大的信息丢失,因此将检索出的知识G分为两个部分:关系r=DESC的知识表示为G1=Gr=DESC,剩余的知识表示为G2=Gr≠DESC;使用TransE将知识库中检索到的实体与关系映射到低维空间;此模块为信息增强模块;
步骤3:将知识库中检索到的知识G1所包含三元组K1中的值按照它们对应的实体在产品标题X中的顺序进行拼接,然后使用双向GRU对K1进行编码;
使用Attention机制选择其中最为重要的知识,Attention机制描述为式(1):
其中,为编码阶段的第i个时间步的隐状态,/>是解码阶段第t个时间步的隐向量,Wk,W′k,bk和v是需进行学习的参数,v用于调整权重/>的维度,j表示时间步,/>为用Attention机制选择结果的上下文向量;
步骤4:将知识库中检索到的知识G2,使用TransE将知识G2中所有的实体与关系映射为低维向量,知识G2的三元组K2被映射为τ=(e,r,val)=MLP(TransE(e,r,val)),其中τ,e,r和val分别为τ,e,r和val的TransE向量表示,MLP是全连接神经网络,用于消除结构化数据与非结构化的文本数据之间的隔阂,τ为映射后的三元组,e表示实体,val表示值;
使用Graph Attention对检索出的知识进行选择与整合,如以下式(2)所示:
其中,rn,与valn分别是gi中第n个三元组的实体、关系与值;αn为Attention权重,αn用来衡量关系rn与实体/>和值valn之间连接的紧密性;/>表示将xi作为关键实体从G2中抽取得到的信息;We k和Wr k为可学习参数;
将与xi进行拼接,将拼接后的向量/>输入编码时的每一个GRU单元;
步骤5:由步骤1采集的用户评论数据对用户进行分类,本方法分析用户偏好,根据用户类别获取该类别对应的产品描述,使用TF-IDF从产品描述中选取能够表达用户语言特点的特殊词汇构成用户专属个性化词库Vu;此模块为个性化信息增强模块;
使用Attention机制对个性化词库Vu中的词汇进行选取,表示为式(3):
其中,为用户专属词库中第i个词汇的编码表示,,Wv,W′k与bv均为可学习的参数,mT为进行维度变换的矩阵,/>即为计算出的第i个词汇的权重,/>表示上下文向量;
步骤6:使用多重指针生成网络计算从知识库、个性化词库和产品标题中进行单词复制时的生成概率,表示为式(4):
其中,Pk、Pv、Pg分别为从知识库、个性化词库和产品标题中进行单词复制时的生成概率,σ为系数,均为可学习参数,xt为为输入词汇的编码向量;
步骤7:计算最终生成的个性化产品描述词汇概率,表示为式(5):
其中与/>为当生成第t个词汇时,分别从知识库、个性化词库与产品标题中选取第i个词的权重信息,Wp为可学习的参数,pvoc(w)为仅考虑生成模型部分的生成概率,P(w)为最终生成的产品描述中下一个词汇的概率分布,概率最大值对应的即为预测词汇。
图3为采用本发明方法生成的个性化产品描述结果,从结果能够看出,针对同一个产品不同的用户类型生成了个性化的产品描述,达到了较好的效果。
Claims (1)
1.一种基于用户偏好与知识图谱的个性化产品描述生成方法,其特征在于,包括以下步骤:
步骤1:获取产品描述数据集,采集互联网电商网站中的产品描述Y=(y1,y2,...yn)、产品标题X=(x1,x2,...xm)、与用户评论数据<userid,userreview>;
步骤2:以产品标题中的实体在知识库中进行检索,将检索出的知识G分为两个部分:关系r=DESC的知识表示为G1=Gr=DESC,剩余的知识表示为G2=Gr≠DESC;使用TransE将知识库中检索到的实体与关系映射到低维空间;
步骤3:将知识库中检索到的知识G1所包含三元组K1中的值按照它们对应的实体在产品标题X中的顺序进行拼接,然后使用双向GRU对K1进行编码;
使用Attention机制选择知识,Attention机制描述为式(1):
其中,为编码阶段的第i个时间步的隐状态,/>是解码阶段第t个时间步的隐向量,Wk,W′k,bk和v是需进行学习的参数,v用于调整权重/>的维度,j表示时间步,/>为用Attention机制选择结果的上下文向量;
步骤4:将知识库中检索到的知识G2,使用TransE将知识G2中所有的实体与关系映射为低维向量,知识G2的三元组K2被映射为τ=(e,r,val)=MLP(TransE(e,r,val)),其中τ,e,r和val分别为τ,e,r和val的TransE向量表示,MLP是全连接神经网络,用于消除结构化数据与非结构化的文本数据之间的隔阂,τ为映射后的三元组,e表示实体,val表示值;
使用GraphAttention对检索出的知识进行选择与整合,如以下式(2)所示:
其中,rn,与valn分别是gi中第n个三元组的实体、关系与值;αn为Attention权重,αn用来衡量关系rn与实体/>和值valn之间连接的紧密性;/>表示将xi作为关键实体从G2中抽取得到的信息;/>和/>为可学习参数;
将与xi进行拼接,将拼接后的向量/>输入编码时的每一个GRU单元;
步骤5:由步骤1采集的用户评论数据对用户进行分类,根据用户类别获取该类别对应的产品描述,使用TF-IDF从产品描述中选取词汇构成用户专属个性化词库Vu;
使用Attention机制对个性化词库Vu中的词汇进行选取,表示为式(3):
其中,为用户专属词库中第i个词汇的编码表示,,Wv,W′k与bv均为可学习的参数,mT为进行维度变换的矩阵,/>即为计算出的第i个词汇的权重,/>表示上下文向量;
步骤6:使用多重指针生成网络计算从知识库、个性化词库和产品标题中进行单词复制时的生成概率,表示为式(4):
其中,Pk、Pv、Pg分别为从知识库、个性化词库和产品标题中进行单词复制时的生成概率,σ为系数,均为可学习参数,xt为为输入词汇的编码向量;
步骤7:计算最终生成的个性化产品描述词汇概率,表示为式(5):
其中与/>为当生成第t个词汇时,分别从知识库、个性化词库与产品标题中选取第i个词的权重信息,Wp为可学习的参数,pvoc(w)为仅考虑生成模型部分的生成概率,P(w)为最终生成的产品描述中下一个词汇的概率分布,概率最大值对应的即为预测词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110236093.8A CN113032415B (zh) | 2021-03-03 | 2021-03-03 | 一种基于用户偏好与知识图谱的个性化产品描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110236093.8A CN113032415B (zh) | 2021-03-03 | 2021-03-03 | 一种基于用户偏好与知识图谱的个性化产品描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032415A CN113032415A (zh) | 2021-06-25 |
CN113032415B true CN113032415B (zh) | 2024-04-19 |
Family
ID=76466542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110236093.8A Active CN113032415B (zh) | 2021-03-03 | 2021-03-03 | 一种基于用户偏好与知识图谱的个性化产品描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032415B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220233A (zh) * | 2017-05-09 | 2017-09-29 | 北京理工大学 | 一种基于高斯混合模型的用户知识需求模型构建方法 |
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
CN111460249A (zh) * | 2020-02-24 | 2020-07-28 | 桂林电子科技大学 | 一种基于学习者偏好建模的个性化学习资源推荐方法 |
CN111507796A (zh) * | 2020-04-07 | 2020-08-07 | 桂林电子科技大学 | 一种基于知识图谱的网上商城商品推荐方法 |
CN112084347A (zh) * | 2020-09-15 | 2020-12-15 | 东北大学 | 一种基于知识表示学习的数据检索方法及系统 |
JP2021033995A (ja) * | 2019-08-16 | 2021-03-01 | 株式会社Nttドコモ | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 |
-
2021
- 2021-03-03 CN CN202110236093.8A patent/CN113032415B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220233A (zh) * | 2017-05-09 | 2017-09-29 | 北京理工大学 | 一种基于高斯混合模型的用户知识需求模型构建方法 |
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
JP2021033995A (ja) * | 2019-08-16 | 2021-03-01 | 株式会社Nttドコモ | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 |
CN111460249A (zh) * | 2020-02-24 | 2020-07-28 | 桂林电子科技大学 | 一种基于学习者偏好建模的个性化学习资源推荐方法 |
CN111507796A (zh) * | 2020-04-07 | 2020-08-07 | 桂林电子科技大学 | 一种基于知识图谱的网上商城商品推荐方法 |
CN112084347A (zh) * | 2020-09-15 | 2020-12-15 | 东北大学 | 一种基于知识表示学习的数据检索方法及系统 |
Non-Patent Citations (1)
Title |
---|
CrowdDepict:多源群智数据驱动的个性化商品描述生成方法;张秋韵;郭斌;郝少阳;王豪;於志文;景瑶;计算机科学与探索;20201231(010);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113032415A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Do users rate or review? Boost phrase-level sentiment labeling with review-level sentiment classification | |
Gong et al. | Hierarchical graph transformer-based deep learning model for large-scale multi-label text classification | |
WO2019084005A1 (en) | ARTIFICIAL INTELLIGENCE SYSTEM FOR REFINING RESULTS OF REQUEST BASED ON VISUAL FEEDBACK IN REAL-TIME | |
Li et al. | Dual attentive sequential learning for cross-domain click-through rate prediction | |
Li et al. | Large language models for generative recommendation: A survey and visionary discussions | |
JP7486250B2 (ja) | 高速スクリーニングのためのドメイン固有言語インタープリタ及び対話型視覚インターフェース | |
JPH0877010A (ja) | データ分析方法および装置 | |
Manikandan et al. | Deep sentiment learning for measuring similarity recommendations in twitter data | |
JP2021068053A (ja) | 生成装置、及び生成プログラム | |
CN111221881B (zh) | 用户特征数据合成方法、装置及电子设备 | |
Kong et al. | Predicting product review helpfulness–A hybrid method | |
CN113379432B (zh) | 一种基于机器学习的销售系统客户匹配方法 | |
Vedula et al. | Generating explainable product comparisons for online shopping | |
Zhang et al. | Dyngraphtrans: Dynamic graph embedding via modified universal transformer networks for financial transaction data | |
CN114065063A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
Wu et al. | How Airbnb tells you will enjoy sunset sailing in Barcelona? Recommendation in a two-sided travel marketplace | |
CN113032415B (zh) | 一种基于用户偏好与知识图谱的个性化产品描述生成方法 | |
CN114429384B (zh) | 基于电商平台的产品智能推荐方法及系统 | |
WO2021136009A1 (zh) | 搜索信息的处理方法、装置及电子设备 | |
Xu et al. | [Retracted] Metrological Analysis of Online Consumption Evaluation Influence Commodity Marketing Decision Based on Data Mining | |
JP2022082525A (ja) | 機械学習基盤情報の提供方法および装置 | |
Li et al. | Joint inter-word and inter-sentence multi-relation modeling for summary-based recommender system | |
Sonje et al. | draw2code: Ai based auto web page generation from hand-drawn page mock-up | |
Nalini et al. | Github Recommendation System And User Analytics | |
US11727215B2 (en) | Searchable data structure for electronic documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |