CN113221513A - 一种跨模态数据融合的个性化产品描述生成方法 - Google Patents
一种跨模态数据融合的个性化产品描述生成方法 Download PDFInfo
- Publication number
- CN113221513A CN113221513A CN202110416512.6A CN202110416512A CN113221513A CN 113221513 A CN113221513 A CN 113221513A CN 202110416512 A CN202110416512 A CN 202110416512A CN 113221513 A CN113221513 A CN 113221513A
- Authority
- CN
- China
- Prior art keywords
- product
- attribute
- image
- description
- explicit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 title claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种跨模态数据融合的个性化产品描述生成方法,首先需要采集电商网站中的产品描述数据集,包括了产品标题、描述、图像与产品属性对;其次对图像数据、文本数据进行格式化处理,对产品属性数据进行向量表征与聚类合并;然后预测图像的显示属性门控,再基于该门控机制提取图像中的显式属性,接下来识别产品图像中的显著性区域,再分别对不同的区域进行编码表示,最后使用提取出的视觉特征指导的产品描述生成。本发明能够通过产品标题与产品图像,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题。
Description
技术领域
本发明属于知识挖掘技术领域,具体涉及一种个性化产品描述生成方法。
背景技术
计算机与互联网技术极大的改变了人们的生活与行为方式,其中居民消费习惯的变化最为明显。依据商务部数据,2019年电子商务交易额已经达全年GDP的35.13%,可以看出,电子商务经济已经成为中国经济体系的重要组成部分。
与传统线下商店相不同,用户在网络空间中无法与产品实体进行交互,只能依靠产品描述进一步了解产品信息,从而做出购买决策。产品描述是用户获取产品信息的主要渠道,其目的是向顾客提供有关产品的特性和优点。传统的产品描述通常是由商家聘用“专家”,根据产品信息进行手工撰写。然而手工撰写商品描述效率低下且成本较高,对于公司推广产品来说是一个较大的负担。在互联网如此庞大的电商规模之下,传统的手工撰写产品描述的方式已无法满足新时代的需求。人类撰写的商品描述受限于撰写者的经验、知识和对于产品的了解程度,在这样大规模、高频率的产品更新的情况下,人类撰写者没有时间、也没有精力去了解每一个产品的详细情况,导致写出的商品描述质量难以保证。另一方面,人工撰写的产品描述难以满足个性化需求,大多是尽可能覆盖所有的产品卖点,不同用户看到的都是相同的产品描述,可能会导致用户无法瞬间抓取到自己感兴趣的信息,最终丧失了进一步了解产品的动力。
现有的关于商品描述和评论生成的方法,大多基于人工构建的规则或简单的生成模型,根据产品标题或结合外部知识库生成通用的产品描述,然而当产品标题与产品描述缺乏直接的实体联系时,此类方法将无法使用,但产品图像中往往包含这些信息,可以从产品图像中提取合适的视觉信息指导产品描述生成。
发明内容
为了克服现有技术的不足,本发明提供了一种跨模态数据融合的个性化产品描述生成方法,首先需要采集电商网站中的产品描述数据集,包括了产品标题、描述、图像与产品属性对;其次对图像数据、文本数据进行格式化处理,对产品属性数据进行向量表征与聚类合并;然后预测图像的显示属性门控,再基于该门控机制提取图像中的显式属性,接下来识别产品图像中的显著性区域,再分别对不同的区域进行编码表示,最后使用提取出的视觉特征指导的产品描述生成。本发明能够通过产品标题与产品图像,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:获取产品描述数据集;
采集互联网电商网站中的产品描述,定义数据格式为<producttitle,productdesc,productimage,productattr_dict>,其中producttitle为产品标题;productdesc为产品描述;productimage为产品图像;productattr_dict为产品属性的键值对,以字典形式存储;
步骤2:产品图像数据格式化;
对产品图像进行统一缩放处理,分辨率统一为R*R,分辨率不足的图像使用白色填充;
步骤3:文本数据格式化;
去除长度小于L1的产品标题,对产品标题不足L2的文本进行补全,超过L2的进行截断处理;
去除长度小于L3的产品描述,对产品描述不足L4的文本进行补全,超过L4的进行截断处理;
步骤4:产品属性格式化;
使用预训练的Word2Vec将产品属性值进行向量化表征;再通过K-Means++算法对每一类属性的值进行聚类分析,将产品属性值划分为含义相近的类簇,共有A种;
步骤5:显式属性值门控预测;
采用ResNet网络从产品图像v中提取显式属性,判定图像中是否存在该种属性;
门控分布为:
其中,v表示产品图像,avgPool(v)为ResNet网络中平均池化层的输出,Wa与ba为可学习参数,i表示产品属性,i=1,...,A;
使用属性门控gai表示产品是否具有第i个属性,gai的取值为0或1,表示为:
其中,maxid(.)表示输入向量最大值对应的索引;gai=1表示产品具有第i个属性,gai=0表示产品不具有第i个属性;
步骤6:显式属性值预测;
对每个产品属性构建属性分类器预测属性值,属性分类器均由一层全局平均池化和两层全连接神经网络构成;第i个属性分类器表示为Attri,Attri的全局平均池化层具有2048个7×7卷积核,第一层全连接神经网络具有2048个神经元,第二层全连接神经网络的神经元数量为ti∈(t1,t2,...tA),其中ti为第i类属性的能够取值的数量;
则对于第i个属性,显式属性值预测的分布为:
其中,W1、W2、b1、b2为可学习的网络参数;
步骤7:隐式视觉特征提取;
步骤8:视觉特征指导的产品描述生成;
其中,WI、bI表示可学习的网络参数;
步骤8-3:采用视觉门控机制gI用于过滤视觉信息中的噪音,其计算方式为:
其中WV、Wh与bv为可学习的参数;
其中,Wimg、bw为可学习的网络参数,w表示产品描述词汇。
优选地,所述R=800,L1=7,L2=30,L3=10,L4=50。
本发明的有益效果如下:
本发明能够通过产品标题与产品图像,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题,一定程度上降低中小企业运营成本。传统方法一般通过产品标题从知识库中进行检索,但当标题与知识库缺乏实体联系时这种方法很难奏效,本发明通过产品图像重新建立起了该联系,一定程度上解决了该问题。
附图说明
图1为本发明方法产品描述生成框架。
图2为本发明方法显式属性提取框架。
图3为本发明实施例产品属性值合并归类结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明利用以下原理:图像中往往包含产品标题实体中不存在的信息,可以用来指导产品描述生成。提取图像中的显式语义能够明确的提取出图像中的微观视觉信息。采用事先定义的属性设置,构建一个图像的属性集合,再使用分类器检测图像中所具有的属性以及对应的值,并提出一种特殊的属性门控机制,用来过滤图像中不存在的属性。另一方面,提取图像隐式向量编码以提高对视觉信息的利用率,最终使用两种不同层次、不同粒度的视觉特征指导产品描述生成。
一种跨模态数据融合的个性化产品描述生成方法,包括以下步骤:
步骤1:获取产品描述数据集;
采集互联网电商网站中的产品描述,定义数据格式为<producttitle,productdesc,productimage,productattr_dict>,其中producttitle为产品标题;productdesc为产品描述;productimage为产品图像;productattr_dict为产品属性的键值对,以字典形式存储;
步骤2:产品图像数据格式化;
由于直接采集到的图像的分辨率与比例大小各异,不利于进一步的特征提取与训练。因而对图像进行统一的缩放处理,分辨率统一为800*800,尺寸不足的图像使用白色填充(图像矩阵中填充255);
步骤3:文本数据格式化;
去除长度小于7的产品标题,对产品标题不足30的文本进行补全,超过30的进行截断处理。去除长度小于10的产品描述,对产品描述不足50的文本进行补全,超过50的进行截断处理;
步骤4:产品属性格式化;
整个产品数据集存在几十种属性,上千种值,这对于模型生成是必要且冗余的;使用预训练的Word2Vec将产品属性值进行向量化表征;再通过K-Means++算法对每一类属性的值进行聚类分析,将产品属性值划分为含义相近的类簇,共有11种;
步骤5:显式属性值门控预测;
由于预定义出的属性集由全部产品得来,并非每一个产品都具有全部属性,因而需要判断其是否存在该属性。
采用ResNet网络从产品图像v中提取显式属性,判定图像中是否存在该种属性;
门控分布为:
其中,v表示产品图像,avgPool(v)为ResNet网络中平均池化层的输出,Wa与ba为可学习参数,i表示产品属性,i=1,...,A;
使用属性门控gai表示产品是否具有第i个属性,gai的取值为0或1,表示为:
其中,maxid(.)表示输入向量最大值对应的索引;gai=1表示产品具有第i个属性,gai=0表示产品不具有第i个属性;
步骤6:显式属性值预测;
对于聚合出的11种属性,每一种属性都使用单独的属性分类器预测属性的值,属性分类器均由一层全局平均池化和两层全连接神经网络构成;第i个属性分类器表示为Attri,Attri的全局平均池化层具有2048个7×7卷积核,第一层全连接神经网络具有2048个神经元,第二层全连接神经网络的神经元数量为ti∈(t1,t2,...tA),其中ti为第i类属性的能够取值的数量;
则对于第i个属性,显式属性值预测的分布为:
其中,W1、W2、b1、b2为可学习的网络参数;
步骤7:隐式视觉特征提取;
步骤8:视觉特征指导的产品描述生成;
其中,WI、bI表示可学习的网络参数;
步骤8-3:采用视觉门控机制gI用于过滤视觉信息中的噪音,其计算方式为:
其中WV、Wh与bv为可学习的参数;
其中,Wimg、bw为可学习的网络参数,w表示产品描述词汇。
Claims (2)
1.一种跨模态数据融合的个性化产品描述生成方法,其特征在于,包括以下步骤:
步骤1:获取产品描述数据集;
采集互联网电商网站中的产品描述,定义数据格式为<producttitle,productdesc,productimage,productattr_dict>,其中producttitle为产品标题;productdesc为产品描述;productimage为产品图像;productattr_dict为产品属性的键值对,以字典形式存储;
步骤2:产品图像数据格式化;
对产品图像进行统一缩放处理,分辨率统一为R*R,分辨率不足的图像使用白色填充;
步骤3:文本数据格式化;
去除长度小于L1的产品标题,对产品标题不足L2的文本进行补全,超过L2的进行截断处理;
去除长度小于L3的产品描述,对产品描述不足L4的文本进行补全,超过L4的进行截断处理;
步骤4:产品属性格式化;
使用预训练的Word2Vec将产品属性值进行向量化表征;再通过K-Means++算法对每一类属性的值进行聚类分析,将产品属性值划分为含义相近的类簇,共有A种;
步骤5:显式属性值门控预测;
采用ResNet网络从产品图像v中提取显式属性,判定图像中是否存在该种属性;
门控分布为:
其中,v表示产品图像,avgPool(v)为ResNet网络中平均池化层的输出,Wa与ba为可学习参数,i表示产品属性,i=1,…,A;
使用属性门控gai表示产品是否具有第i个属性,gai的取值为0或1,表示为:
其中,maxid(.)表示输入向量最大值对应的索引;gai=1表示产品具有第i个属性,gai=0表示产品不具有第i个属性;
步骤6:显式属性值预测;
对每个产品属性构建属性分类器预测属性值,属性分类器均由一层全局平均池化和两层全连接神经网络构成;第i个属性分类器表示为Attri,Attri的全局平均池化层具有2048个7×7卷积核,第一层全连接神经网络具有2048个神经元,第二层全连接神经网络的神经元数量为ti∈(t1,t2,…tA),其中ti为第i类属性的能够取值的数量;
则对于第i个属性,显式属性值预测的分布为:
其中,W1、W2、b1、b2为可学习的网络参数;
步骤7:隐式视觉特征提取;
步骤8:视觉特征指导的产品描述生成;
其中,WI、bI表示可学习的网络参数;
步骤8-3:采用视觉门控机制gI用于过滤视觉信息中的噪音,其计算方式为:
其中WV、Wh与bv为可学习的参数;
其中,Wimg、bw为可学习的网络参数,w表示产品描述词汇。
2.根据权利要求1所述的一种跨模态数据融合的个性化产品描述生成方法,其特征在于,所述R=800,L1=7,L2=30,L3=10,L4=50。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110416512.6A CN113221513B (zh) | 2021-04-19 | 2021-04-19 | 一种跨模态数据融合的个性化产品描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110416512.6A CN113221513B (zh) | 2021-04-19 | 2021-04-19 | 一种跨模态数据融合的个性化产品描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221513A true CN113221513A (zh) | 2021-08-06 |
CN113221513B CN113221513B (zh) | 2024-07-12 |
Family
ID=77087676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110416512.6A Active CN113221513B (zh) | 2021-04-19 | 2021-04-19 | 一种跨模态数据融合的个性化产品描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221513B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN110531754A (zh) * | 2018-05-24 | 2019-12-03 | 通用汽车环球科技运作有限责任公司 | 自主车辆的控制系统、控制方法和控制器 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN112136143A (zh) * | 2018-05-17 | 2020-12-25 | 国际商业机器公司 | 使用神经网络的时间序列数据依赖的动态发现 |
-
2021
- 2021-04-19 CN CN202110416512.6A patent/CN113221513B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN112136143A (zh) * | 2018-05-17 | 2020-12-25 | 国际商业机器公司 | 使用神经网络的时间序列数据依赖的动态发现 |
CN110531754A (zh) * | 2018-05-24 | 2019-12-03 | 通用汽车环球科技运作有限责任公司 | 自主车辆的控制系统、控制方法和控制器 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
Non-Patent Citations (1)
Title |
---|
张秋韵;郭斌;郝少阳;王豪;於志文;景瑶;: "CrowdDepict:多源群智数据驱动的个性化商品描述生成方法", 计算机科学与探索, no. 10, 20 January 2020 (2020-01-20) * |
Also Published As
Publication number | Publication date |
---|---|
CN113221513B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN111680217B (zh) | 内容推荐方法、装置、设备及存储介质 | |
CN110309306B (zh) | 一种基于wsd层级记忆网络的文档建模分类方法 | |
Zhao et al. | The study on the text classification for financial news based on partial information | |
CN109871491A (zh) | 论坛帖子推荐方法、系统、设备及存储介质 | |
CN112328900A (zh) | 一种融合评分矩阵和评论文本的深度学习推荐方法 | |
CN110991464A (zh) | 一种基于深度多模态数据融合的商品点击率预测方法 | |
CN107609563A (zh) | 图片语义描述方法及装置 | |
CN112085565A (zh) | 基于深度学习的信息推荐方法、装置、设备及存储介质 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN112287672A (zh) | 文本意图识别方法及装置、电子设备、存储介质 | |
CN112884551A (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
CN116468460B (zh) | 基于人工智能的消费金融客户画像识别系统及其方法 | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
Li et al. | Mining online reviews for ranking products: A novel method based on multiple classifiers and interval-valued intuitionistic fuzzy TOPSIS | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN115017320A (zh) | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 | |
CN113076425B (zh) | 一种用于微博评论的事件相关观点句分类方法 | |
Liu | Deep learning in marketing: a review and research agenda | |
CN114266241A (zh) | 基于文本和情感极性的评论有用性预测方法、设备及介质 | |
Zhang et al. | Describe the house and I will tell you the price: House price prediction with textual description data | |
CN116910294A (zh) | 一种基于情感分析的图像滤镜生成方法 | |
CN113221513B (zh) | 一种跨模态数据融合的个性化产品描述生成方法 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |