CN113449193A - 基于多分类图像的信息推荐方法及装置 - Google Patents
基于多分类图像的信息推荐方法及装置 Download PDFInfo
- Publication number
- CN113449193A CN113449193A CN202110773756.XA CN202110773756A CN113449193A CN 113449193 A CN113449193 A CN 113449193A CN 202110773756 A CN202110773756 A CN 202110773756A CN 113449193 A CN113449193 A CN 113449193A
- Authority
- CN
- China
- Prior art keywords
- visual
- user
- target
- feature vector
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000000007 visual effect Effects 0.000 claims abstract description 276
- 239000013598 vector Substances 0.000 claims abstract description 136
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 69
- 230000003993 interaction Effects 0.000 claims description 34
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 17
- 238000003062 neural network model Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000010207 Bayesian analysis Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多分类图像的信息推荐方法及装置,可应用但不限于人工智能领域,该方法包括:采集目标物品在多个视觉类别下的多张物品图像;将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量;根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量;根据目标物品在每个视觉分类下的视觉特征向量,以及目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度;根据目标用户对目标物品每个视觉分类的喜好程度,确定向目标用户推荐的待推荐信息。本发明能够有效分析用户对物品不同视角侧面的感兴趣程度。
Description
技术领域
本发明公开了一种基于多分类图像的信息推荐方法及装置,可应用于人工智能领域,也可应用于除人工智能领域以外的任意领域,本发明公开的基于多分类图像的信息推荐方法及装置的应用领域不作限定。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
推荐系统作为一种有效的数据挖掘方法,广泛应用于电商、在线视频观看等领域。推荐系统通过研究用户的兴趣偏好与交互历史数据,从海量数据中基于推荐算法智能生成针对每个用户的个性化信息推荐列表,由推荐系统发现用户的兴趣点,从而引导用户发现自己想要查看的信息或商品需求,向用户精准推荐信息或产品。
在电商、在线视频观看等现实应用场景,通常需要结合图像、视频等非结构化数据作为视觉辅助信息以增强推荐系统性能。因此,对图像、视频等视觉辅助信息的特征工程,以及融合视觉特征进入推荐系统的方法,成为产品推荐领域重点研究的课题。
现有的针对视觉特征的特征工程已经从传统的人工特征提取方式转入更加高效的通过深度神经网络自动提取视觉特征的方式,但是大多数推荐系统都是仅仅使用单一的视觉特征向量,即只使用一个全局的视觉特征向量来表示物品的视觉信息。这种方法忽视了视觉信息局部表达与全局表达的相关性。
对于一个特定物品,往往有着不同的侧面来表示该物品的视觉信息,不同的侧面可展现不同的视觉特征,如果单纯使用平均池化或最值池化将物品的多个图像特征整合在一起,会丢失该物品不同视角的视觉信息。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种基于多分类图像的信息推荐方法,用以解决现有信息推荐系统中利用的视觉辅助信息是单一视觉特征向量表示的物品视觉信息,存在物品视觉信息表达不完整的技术问题,该方法包括:采集目标物品在多个视觉类别下的多张物品图像,其中,每个视觉分类对应目标物品的一个侧面;将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量;根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量;根据目标物品在每个视觉分类下的视觉特征向量,以及目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度;根据目标用户对目标物品每个视觉分类的喜好程度,确定向目标用户推荐的待推荐信息。
本发明实施例还提供一种基于多分类图像的信息推荐装置,用以解决现有信息推荐系统中利用的视觉辅助信息是单一视觉特征向量表示的物品视觉信息,存在物品视觉信息表达不完整的技术问题,该装置包括:图像采集模块,用于采集目标物品在多个视觉类别下的多张物品图像,其中,每个视觉分类对应目标物品的一个侧面;图像特征向量提取模块,用于将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量;物品视觉特征向量确定模块,用于根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量;用户喜好程度确定模块,用于根据目标物品在每个视觉分类下的视觉特征向量,以及目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度;信息推荐模块,用于根据目标用户对目标物品每个视觉分类的喜好程度,确定向目标用户推荐的待推荐信息。
本发明实施例还提供一种计算机设备,用以解决现有信息推荐系统中利用的视觉辅助信息是单一视觉特征向量表示的物品视觉信息,存在物品视觉信息表达不完整的技术问题,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于多分类图像的信息推荐方法。
本发明实施例还提供一种计算机可读存储介质,用以解决现有信息推荐系统中利用的视觉辅助信息是单一视觉特征向量表示的物品视觉信息,存在物品视觉信息表达不完整的技术问题,该计算机可读存储介质存储有执行上述基于多分类图像的信息推荐方法的计算机程序。
本发明实施例中提供的基于多分类图像的信息推荐方法、装置、计算机设备及计算机可读存储介质,在采集到目标物品在多个视觉类别下的多张物品图像后,将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量,进而根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量,结合目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度,最后根据目标用户对目标物品每个视觉分类的喜好程度,确定向目标用户推荐的待推荐信息。
与现有技术中仅适用单一视觉特征向量的信息推荐方案相比,本发明实施例中,考虑到用户对物品不同视角的视觉偏好不同,能够有效分析用户对物品不同视角侧面的感兴趣程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中的一种基于多分类图像的信息推荐方法流程图;
图2为本发明实施例中的一种对用户视觉特征信息进行分析的方法流程图;
图3为本发明实施例中的一种对用户视觉特征信息进行降维分析的方法流程图;
图4为本发明实施例中的一种VGG深度神经网络模型架构示意图;
图5为本发明实施例中的一种基于多分类图像的信息推荐模型示意图;
图6为本发明实施例中的一种基于多分类图像的信息推荐装置示意图;
图7为本发明实施例中的一种可选的基于多分类图像的信息推荐装置示意图;
图8为本发明实施例中的一种可选的基于多分类图像的信息推荐装置示意图;
图9为本发明实施例中的一种计算机设备示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在介绍本发明实施例之前,首先对本发明实施例中涉及的专业术语解释如下:
一、推荐算法:常见的推荐算法包括基于内容的推荐、协同过滤推荐和混合推荐。
1)基于内容的推荐(Content-based Recommendation)算法,是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征属性来定义,系统基于用户评价对象的特征、学习用户的兴趣、考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。
2)协同过滤推荐(Collaborative Filtering Recommendation)算法,是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。
3)混合推荐(Hybrid Recommendation)算法,是将多种推荐方法结合起来以达到扬长避短的作用,混合推荐理论上不会比单一任何一种推荐算法差。现实生产中使用各种各样的方法对单一的算法进行混合。
二、视觉特征向量:视觉作为人类最重要的感受信息渠道之一,在人类的生活中具有不可替代的重要性。图像、视频等视觉信息作为人更易于理解的抽象信息很早就被尝试量化并应用于数据挖掘与推荐工作。计算机从图像视觉信息中提取特征,常见的视觉特征包括颜色特征、纹理特征、形状特征、空间关系特征等。得益于深度学习领域的迅速发展,复杂的深度神经网络以其深层次的非线性网络获取特征从底层具体到高度抽象的各种表达,能自适应地学习异构数据的分布式特征。这为从图像中提取符合人类描述与认知、适应大规模机器学习的高纬度视觉特征向量打下了基础。基于迁移学习的研究表明,在基准数据集(如ImageNet Dataset)上训练的深度神经网络可以泛化来提取其他数据集的视觉特征,并在这些新数据集上对不同的视觉任务表现出优秀的泛化性能和较高的准确度。
本发明实施例中提供了一种基于多分类图像的信息推荐方法,可以应用但不限于视频、产品等信息的推荐。
图1为本发明实施例中提供的一种基于多分类图像的信息推荐方法流程图,如图1所示,该方法包括如下步骤:
S101,采集目标物品在多个视觉类别下的多张物品图像,其中,每个视觉分类对应目标物品的一个侧面。
需要说明的是,本发明实施例中的目标物品可以是用户在电商平台浏览的商品,也可以是用户在视频播放平台观看的视频对象。由于不同的用户,对于同一物品不同视角侧面的视觉偏好存在不同,因而,在根据用户浏览的商品或观看的视频对象,向用户推荐相关商品或视频对象时,根据用户对物品不同侧面的视觉偏好进行推荐,能够进一步提高推荐效率。
S102,将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量。
需要说明的是,上述图像特征向量提取模型是指预先通过机器学习训练得到的一个能够根据物品图像提取图像特征向量的模型,可选地,本发明实施例中,可对深度学习神经网络模型进行机器学习,训练得到一个图像特征向量提取模型。
S103,根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量。
需要说明的是,针对每个视觉类别(也即目标物品的每个侧面),根据多张图像的图像特征向量确定物品的在该视觉类别下的视觉特征向量,准确率更高。
可选地,上述S103可采用均值池化算法,根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量。
S104,根据目标物品在每个视觉分类下的视觉特征向量,以及目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度。
需要说明的是,不同用户对物品的不同视觉分类具有不同的视觉偏好,可通过分析大量用户历史浏览商品或观看视频对象时的交互数据,分析得到不同对不同视觉分类的喜好程度。在确定目标物品在每个视觉分类下的视觉特征向量后,可根据目标用户对不同视觉分类的喜好程度和目标物品在每个视觉分类下的视觉特征向量,确定目标用户对目标物品每个视觉分类的喜好程度。
S105,根据目标用户对目标物品每个视觉分类的喜好程度,确定向目标用户推荐的待推荐信息。
在确定目标用户对目标物品每个视觉分类的喜好程度后,可向目标用户推荐其感兴趣的视觉分类下的物品信息。
在一个实施例中,如图2所示,本发明实施例中提供的基于多分类图像的信息推荐方法可以通过如下步骤来分析用户视觉特征信息:
S201,采集多个用户对多个物品的用户物品交互数据;
S202,根据采集的用户物品交互数据,生成用户物品交互矩阵;
S203,基于贝叶斯优化的矩阵分解模型,对用户物品交互矩阵进行分解,得到用户视觉特征向量矩阵和物品视觉特征向量矩阵;
S204,根据用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度。
在一个实施例中,如图3所示,本发明实施例中提供的基于多分类图像的信息推荐方法可以通过S301来对用户视觉特征信息进行降维处理,则上述S204可通过S302确定目标用户对不同视觉分类的喜好程度:
S301,利用嵌入矩阵,对用户视觉特征向量矩阵进行降维,得到降维后的用户视觉特征向量矩阵;
S302,根据降维后的用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度。
本发明实施例中,使用预训练的深度神经网络模型提取图像的视觉特征向量;使用贝叶斯优化的矩阵分解模型,能够在短时间内有效处理大量数据,从而提供一种多分类图像的信息推荐系统。
本发明实施例中提供的基于多分类图像的信息推荐方法,能够分析不同图像分类对物品视觉特征的表达影响,从而实现用户潜在兴趣点的挖掘。在具体实施时,本发明实施例中提供的基于多分类图像的信息推荐方法,可以通过如下流程来实现:
1)使用预训练深度神经网络提取图像特征向量:
深度学习通过反向传播算法(Back Propagation,BP)拟合数据,采用非线性的激活函数处理数据中复杂的非线性关系。在大规模并行计算的算力辅助下,端到端的深度学习模型通过多层神经网络从原始数据中逐层学习表征,这些表征被视为该层的数据特征,基于深度学习提取的数据特征相比于传统人工设计特征要更加简洁、高效,且经过训练后的模型和特征各自都具有一定的泛化性。其中,深度卷积网络(Convolutional NeuralNetworks,CNN)通过卷积连接层替代全连接层,降低计算消耗,加速模型拟合,常用于图像处理等任务。
如图4所示为VGG深度神经网络模型架构示意图,VGG模型具有多种实现形式,表现在其卷积层数的不同上。其不同模型的层数从左边的A类模型的11层一直增加到右边E类模型的19层。以E类模型VGG19为例,模型以(224,224)大小的RGB三通道彩色图片作为输入(因此,像素较大的图像需先经过缩放处理),经过conv3-64(其中,3为卷积核大小,64为通道大小)两层卷积层后,做一次最大值池化操作,如此再以相同的卷积核大小重复四次,之后连接三层大小分别为4096,4096,1000的全连接层,最后一层的输出采用soft-max进行数据归一化。需要注意的是,经过端到端预训练的VGG19模型可以在其内部的任意一层提取图像视觉特征向量,但是越靠前的网络层提取的特征向量越底层、越简单,越靠后的网络层提取出的特征向量具有更高维度的特征表达。考虑到模型最后的全连接层具有更强的模型整合能力,并且为了获取图像较底层、较原始的视觉表达,本发明实施例中,使用第一个全连接层的输出向量作为从预训练深度神经网络中提取出的图像特征。
需要说明的是,常见的卷积神经网络模型(例如,VGG、Inception、ResNet等卷积模型)都可用作视觉特征向量提取模型。本领域技术人员可视实际应用场景,对提取模型进行相应的改造。
本发明实施例中,使用经大规模图像数据预训练的深度神经网络模型提取图像特征向量,该图像特征向量作为视觉辅助信息,以分析用户视觉特征偏好程度,可增强信息推荐系统的性能;
2)数据集与数据预处理(包括采集数据信息获取用户-物品交互(评分)矩阵,视觉特征向量分析):
推荐系统建立在广泛的的用户物品行为数据基础之上,在做推荐之前往往需要对数据进行预处理及分析。
①用户-物品交互矩阵:
本发明方法中的用户-物品交互数据使用用户隐式反馈数据,比如使用用户点击图像的次数作为用户对该图像感兴趣程度的置信度。在该类场合中可直接假设用户对图像的点击次数或是否点击图像作为用户对该图像喜好程度的标志。
②视觉特征向量分析:
在提取视觉特征之后,需对视觉特征向量进行定量分析。剔除无效图像(如纯色图像)提取出的视觉特征,剔除错误特征向量,如特征全0的向量。对于整体特征向量值均值与方差不合理的情况,需调整预训练模型相关参数。对于特征向量值过大或过小的情况,需对特征值进行标准化与归一化操作。
③使用均值池化(Average Pooling)每一图像类别下多个图像特征:
假设一个物品具有c个图像类别,并且每个类别具有不同数量的多张图像。为了在减少视觉信息冗余的基础上尽可能多的保留每个图像类别的视觉信息,本发明采用均值池化获取每一类图像的视觉特征表达。因此,经过视觉特征提取和均值池化后,将获取一个维度为(c×s)的视觉特征向量标识物品的c个不同侧面的视觉信息,其中,s表示经预训练网络提取出的特征向量的长度,该长度由预训练深度神经网络模型控制。
3)建模用户视觉隐式特征,通过与模型共同学习的自适应参数模拟用户的视觉特征偏好,使用基于贝叶斯优化的矩阵分解模型训练数据:
基于贝叶斯优化矩阵分解模型,本发明通过建模用户隐式特征、物品隐式特征、用户视觉隐式特征、物品视觉隐式特征,实现用户对物品喜好程度的预测。
其中,表示模型预测的用户u对物品i的喜好程度,α为全局偏移量,βu和βi本别表示用户、物品的偏差,和γi分别表示用户和物品的隐式特征向量,θu表示用户u的视觉隐式特征,E为嵌入矩阵。使用Fi来表示物品i的视觉特征。考虑到用户对不同视角的视觉偏好不同,我们引入了一个参数Wu来表示用户对物品不同视角视觉信息的个人偏好。这里,Wu是一个权重向量(维度为c×1),对应于物品的c个视觉视角。最后,A是多视角视觉特性的总体偏差权重。W是所有用户的类别视觉偏好矩阵。
图5展示了本发明提出的模型结构。首先,利用预训练神经网络模型提取每张图像的视觉特征。对于每张图像,从预训练神经网络模型中提取特定维度(比如4096维)的视觉特征。对每个类别(不同视角侧面)下的多张图像的视觉特征向量进行平均池化,得到一个新的视觉特征向量来表示该物品此图像类别下的视觉信息。然后将物品不同视角侧面的视觉特征向量进行拼接,组成一个视觉特征矩阵,表示物品的多视角视觉特征。视觉特征矩阵通过与用户相关的权值wu(w1,w2,...,wc)投影到一个特征向量,该权值反映了用户u对物品不同视角侧面的个性化视觉偏好。最后,通过嵌入矩阵E对视觉特征向量进行降维,得到一个低维度的特征向量。
本发明提出的模型是一种由贝叶斯分析的最大后验估计的成对排序方法。定义训练集Ds由一个三元组(u,i,j)组成:
这里γij是γi和γj之间的差值,Fij是Fi和Fj之间的差值。
用于个性化排序的优化准则C被定义为:
其中σ为sigmoid函数,λθ为通过实验结果进行调整的正则化超参数。
利用随机梯度下降法可以有效地学习该排序模型。优化准则C相对于模型参数θ的梯度为:
所有参数通过学习率η调节更新速度:
由用户物品交互对组成的反馈数据集和物品视觉特征是模型的输入。输出是模型学习到的所有参数。在每次迭代中,使用所有用户物品交互对遍历更新模型。对于训练数据中的每个用户物品交互对,随机选择一个用户未知的物品j形成一个三元组(u,i,j),参照公式更新每个三元组的参数。对于每个采样的三元组(u,i,j),模型的时间复杂度是O(K2×F)。F是视觉特征的维数。假设一个完整的迭代有n个随机采样的三元组,则每次迭代的时间复杂度为O(n(K2×F))。三元组的数量n取决于用户物品交互对的数量。
本发明实施例中,基于深度神经网络特征提取和贝叶斯优化矩阵分解模型,实现多分类图像的推荐系统。支持输入目标物品的多个视觉类别图像特征,使用自适应参数学习目标物品不同侧面的视觉特征表达。获取用户-物品交互(评分)矩阵,使用贝叶斯优化矩阵分解模型对交互矩阵建模,使用一个在模型中共同学习的置换矩阵训练视觉特征的隐式表达,通过贝叶斯优化矩阵分解模型进行模型预测。
基于同一发明构思,本发明实施例中还提供了一种基于多分类图像的信息推荐装置,如下面的实施例所述。由于该装置解决问题的原理与基于多分类图像的信息推荐方法相似,因此该装置的实施可以参见基于多分类图像的信息推荐方法的实施,重复之处不再赘述。
图6为本发明实施例中的一种基于多分类图像的信息推荐装置示意图,如图6所示,该装置包括:图像采集模块601、图像特征向量提取模块602、物品视觉特征向量确定模块603、用户喜好程度确定模块604和信息推荐模块605。
其中,图像采集模块601,用于采集目标物品在多个视觉类别下的多张物品图像,其中,每个视觉分类对应目标物品的一个侧面;图像特征向量提取模块602,用于将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量;物品视觉特征向量确定模块603,用于根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量;用户喜好程度确定模块604,用于根据目标物品在每个视觉分类下的视觉特征向量,以及目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度;信息推荐模块605,用于根据目标用户对目标物品每个视觉分类的喜好程度,确定向目标用户推荐的待推荐信息。
此处需要说明的是,上述图像采集模块601、图像特征向量提取模块602、物品视觉特征向量确定模块603、用户喜好程度确定模块604和信息推荐模块605对应于方法实施例中的S101~S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一个实施例中,如图7所示,本发明实施例中提供基于多分类图像的信息推荐装置还可包括:用户物品交互数据采集模块606、用户交互矩阵生成模块607、矩阵分解模块608和用户视觉特征分析模块609。
其中,用户物品交互数据采集模块606,用于采集多个用户对多个物品的用户物品交互数据;用户交互矩阵生成模块607,用于根据采集的用户物品交互数据,生成用户物品交互矩阵;矩阵分解模块608,用于基于贝叶斯优化的矩阵分解模型,对用户物品交互矩阵进行分解,得到用户视觉特征向量矩阵和物品视觉特征向量矩阵;用户视觉特征分析模块609,用于根据用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度。
此处需要说明的是,上述用户物品交互数据采集模块606、用户交互矩阵生成模块607、矩阵分解模块608和用户视觉特征分析模块609对应于方法实施例中的S201~S204,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一个实施例中,如图8所示,本发明实施例中提供基于多分类图像的信息推荐装置还可包括:用户视觉特征降维模块610,用于利用嵌入矩阵,对用户视觉特征向量矩阵进行降维,得到降维后的用户视觉特征向量矩阵;该实施例中,上述用户喜好程度确定模块604还用于根据降维后的用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度。
此处需要说明的是,上述用户视觉特征降维模块610、用户喜好程度确定模块604对应于方法实施例中的S301~S302,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一个实施例中,本发明实施例中提供基于多分类图像的信息推荐装置中,物品视觉特征向量确定模块603还用于:采用均值池化算法,根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量。
基于同一发明构思,本发明实施例还提供一种计算机设备,用以解决现有信息推荐系统中利用的视觉辅助信息是单一视觉特征向量表示的物品视觉信息,存在物品视觉信息表达不完整的技术问题,图9为本发明实施例中的一种计算机设备示意图,如图9所示,该计算机设备90包括存储器901、处理器902及存储在存储器901上并可在处理器902上运行的计算机程序,处理器902执行计算机程序时实现上述基于多分类图像的信息推荐方法。
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,用以解决现有信息推荐系统中利用的视觉辅助信息是单一视觉特征向量表示的物品视觉信息,存在物品视觉信息表达不完整的技术问题,该计算机可读存储介质存储有执行上述基于多分类图像的信息推荐方法的计算机程序。
综上所述,本发明实施例中提供的基于多分类图像的信息推荐方法、装置、计算机设备及计算机可读存储介质,在采集到目标物品在多个视觉类别下的多张物品图像后,将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量,进而根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量,结合目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度,最后根据目标用户对目标物品每个视觉分类的喜好程度,确定向目标用户推荐的待推荐信息。
与现有技术中仅适用单一视觉特征向量的信息推荐方案相比,本发明实施例中,考虑到用户对物品不同视角的视觉偏好不同,能够有效分析用户对物品不同视角侧面的感兴趣程度。
本发明实施例中提供的基于多分类图像的信息推荐方法,能够实现但不限于如下技术效果:①数据集使用隐式反馈信息,相比于显式反馈数据(如用户打分),隐式反馈数据在实际生产中具有数据量大,交互矩阵更加稠密、更稳定,且隐式反馈由用户自然生成,天然具有更加全面有效的用户信息表达;②通过在模型中共同学习的自适应参数训练用户对不同视角侧面的视觉偏好,相对于现有方法单一视角的视觉信息挖掘,本方法能有效分析用户对物品不同视角侧面的感兴趣程度;③使用预训练的深度神经网络模型提取图像的视觉特征向量而不使用端到端的深度神经模型直接进行数据挖掘,有效利用了深度神经网络模型提取了丰富的特征信息又避免了深度神经网络模型普遍耗时长的问题。使用贝叶斯优化的矩阵分解模型,该模型具有建模速度快,数据挖掘效率高的优点,相比于各类端到端深度神经网络模型的算法能在短时间内有效处理大量数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多分类图像的信息推荐方法,其特征在于,包括:
采集目标物品在多个视觉类别下的多张物品图像,其中,每个视觉分类对应目标物品的一个侧面;
将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量;
根据所述目标物品在每个视觉类别下多张物品图像的图像特征向量,确定所述目标物品在每个视觉分类下的视觉特征向量;
根据所述目标物品在每个视觉分类下的视觉特征向量,以及所述目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度;
根据所述目标用户对所述目标物品每个视觉分类的喜好程度,确定向所述目标用户推荐的待推荐信息。
2.如权利要求1所述的方法,其特征在于,在根据所述目标物品在每个视觉分类下的视觉特征向量,以及所述目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度之前,所述方法还包括:
采集多个用户对多个物品的用户物品交互数据;
根据采集的用户物品交互数据,生成用户物品交互矩阵;
基于贝叶斯优化的矩阵分解模型,对所述用户物品交互矩阵进行分解,得到用户视觉特征向量矩阵和物品视觉特征向量矩阵;
根据用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度。
3.如权利要求1所述的方法,其特征在于,在根据用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度之前,所述方法还包括:
利用嵌入矩阵,对用户视觉特征向量矩阵进行降维,得到降维后的用户视觉特征向量矩阵;
其中,根据用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度,包括:根据降维后的用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度。
4.如权利要求1所述的方法,其特征在于,根据所述目标物品在每个视觉类别下多张物品图像的图像特征向量,确定所述目标物品在每个视觉分类下的视觉特征向量,包括:
采用均值池化算法,根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量。
5.一种基于多分类图像的信息推荐装置,其特征在于,包括:
图像采集模块,用于采集目标物品在多个视觉类别下的多张物品图像,其中,每个视觉分类对应目标物品的一个侧面;
图像特征向量提取模块,用于将采集的每张物品图像,输入至预先训练好的图像特征向量提取模型中,输出每张图像对应的图像特征向量;
物品视觉特征向量确定模块,用于根据所述目标物品在每个视觉类别下多张物品图像的图像特征向量,确定所述目标物品在每个视觉分类下的视觉特征向量;
用户喜好程度确定模块,用于根据所述目标物品在每个视觉分类下的视觉特征向量,以及所述目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度;
信息推荐模块,用于根据所述目标用户对所述目标物品每个视觉分类的喜好程度,确定向所述目标用户推荐的待推荐信息。
6.如权利要求5所述的装置,其特征在于,在根据所述目标物品在每个视觉分类下的视觉特征向量,以及所述目标用户对不同视觉分类的喜好程度,确定目标用户对目标物品每个视觉分类的喜好程度之前,所述装置还包括:
用户物品交互数据采集模块,用于采集多个用户对多个物品的用户物品交互数据;
用户交互矩阵生成模块,用于根据采集的用户物品交互数据,生成用户物品交互矩阵;
矩阵分解模块,用于基于贝叶斯优化的矩阵分解模型,对所述用户物品交互矩阵进行分解,得到用户视觉特征向量矩阵和物品视觉特征向量矩阵;
用户视觉特征分析模块,用于根据用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
用户视觉特征降维模块,用于利用嵌入矩阵,对用户视觉特征向量矩阵进行降维,得到降维后的用户视觉特征向量矩阵;
其中,所述用户喜好程度确定模块还用于:根据降维后的用户视觉特征向量矩阵,确定目标用户对不同视觉分类的喜好程度。
8.如权利要求5所述的装置,其特征在于,所述物品视觉特征向量确定模块还用于:
采用均值池化算法,根据目标物品在每个视觉类别下多张物品图像的图像特征向量,确定目标物品在每个视觉分类下的视觉特征向量。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述基于多分类图像的信息推荐方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一项所述基于多分类图像的信息推荐方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110773756.XA CN113449193A (zh) | 2021-07-08 | 2021-07-08 | 基于多分类图像的信息推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110773756.XA CN113449193A (zh) | 2021-07-08 | 2021-07-08 | 基于多分类图像的信息推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449193A true CN113449193A (zh) | 2021-09-28 |
Family
ID=77815557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110773756.XA Pending CN113449193A (zh) | 2021-07-08 | 2021-07-08 | 基于多分类图像的信息推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449193A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023124793A1 (zh) * | 2021-12-27 | 2023-07-06 | 北京沃东天骏信息技术有限公司 | 图像推送方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201216185A (en) * | 2010-10-06 | 2012-04-16 | Chunghwa Telecom Co Ltd | Multi-aspect merchandise recommendation method and system thereof |
CN109889855A (zh) * | 2019-01-31 | 2019-06-14 | 南京理工大学 | 基于移动app的智能全景视频直播网络购物系统及方法 |
CN110853073A (zh) * | 2018-07-25 | 2020-02-28 | 北京三星通信技术研究有限公司 | 确定关注点的方法、装置、设备、系统及信息处理方法 |
WO2021033124A1 (en) * | 2019-08-16 | 2021-02-25 | Subfiber OÜ | Method and system for navigating within and determining non-binary, subjective preferences within very large and specific data sets having objectively characterized metadata |
CN112561082A (zh) * | 2020-12-22 | 2021-03-26 | 北京百度网讯科技有限公司 | 生成模型的方法、装置、设备以及存储介质 |
CN112652038A (zh) * | 2019-10-12 | 2021-04-13 | 阿里巴巴集团控股有限公司 | 生成商品对象动态图像的方法、装置及电子设备 |
CN112862538A (zh) * | 2021-03-02 | 2021-05-28 | 中国工商银行股份有限公司 | 预测用户偏好的方法、装置、电子设备和介质 |
-
2021
- 2021-07-08 CN CN202110773756.XA patent/CN113449193A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201216185A (en) * | 2010-10-06 | 2012-04-16 | Chunghwa Telecom Co Ltd | Multi-aspect merchandise recommendation method and system thereof |
CN110853073A (zh) * | 2018-07-25 | 2020-02-28 | 北京三星通信技术研究有限公司 | 确定关注点的方法、装置、设备、系统及信息处理方法 |
CN109889855A (zh) * | 2019-01-31 | 2019-06-14 | 南京理工大学 | 基于移动app的智能全景视频直播网络购物系统及方法 |
WO2021033124A1 (en) * | 2019-08-16 | 2021-02-25 | Subfiber OÜ | Method and system for navigating within and determining non-binary, subjective preferences within very large and specific data sets having objectively characterized metadata |
CN112652038A (zh) * | 2019-10-12 | 2021-04-13 | 阿里巴巴集团控股有限公司 | 生成商品对象动态图像的方法、装置及电子设备 |
CN112561082A (zh) * | 2020-12-22 | 2021-03-26 | 北京百度网讯科技有限公司 | 生成模型的方法、装置、设备以及存储介质 |
CN112862538A (zh) * | 2021-03-02 | 2021-05-28 | 中国工商银行股份有限公司 | 预测用户偏好的方法、装置、电子设备和介质 |
Non-Patent Citations (2)
Title |
---|
HAIHUA LUO ET AL.: ""CONVOLUTIONAL ATTENTION MODEL FOR RESTAURANT RECOMMENDATION WITH MULTI-VIEW VISUAL FEATURES"", 《2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》, 30 September 2020 (2020-09-30), pages 838 - 842 * |
XIAOYAN ZHANG ET AL.: ""Multi-view visual Bayesian personalized ranking for restaurant recommendation"", 《APPLIED INTELLIGENCE》, vol. 50, 13 April 2020 (2020-04-13), pages 2901 - 2915 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023124793A1 (zh) * | 2021-12-27 | 2023-07-06 | 北京沃东天骏信息技术有限公司 | 图像推送方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | What and how: generalized lifelong spectral clustering via dual memory | |
CN109359564B (zh) | 一种图像场景图生成方法及装置 | |
Sahu et al. | A survey on deep learning: convolution neural network (CNN) | |
Korban et al. | Ddgcn: A dynamic directed graph convolutional network for action recognition | |
Wang et al. | Towards unified depth and semantic prediction from a single image | |
CN112597883A (zh) | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 | |
CN110619081A (zh) | 一种基于交互图神经网络的新闻推送方法 | |
WO2021139415A1 (zh) | 数据处理方法、装置、计算机可读存储介质及电子设备 | |
Grigorev et al. | Depth estimation from single monocular images using deep hybrid network | |
CN115618098B (zh) | 基于知识增强与空洞卷积的冷链物流推荐方法及装置 | |
CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN111949885A (zh) | 一种面向旅游景点的个性化推荐方法 | |
CN116431914A (zh) | 一种基于个性化偏好转移模型的跨域推荐方法及系统 | |
Shambharkar et al. | Movie trailer classification using deer hunting optimization based deep convolutional neural network in video sequences | |
CN113536970A (zh) | 一种视频分类模型的训练方法及相关装置 | |
Liao et al. | FERGCN: facial expression recognition based on graph convolution network | |
Bayoudh | A survey of multimodal hybrid deep learning for computer vision: Architectures, applications, trends, and challenges | |
Zheng et al. | Visiting the invisible: Layer-by-layer completed scene decomposition | |
CN117216281A (zh) | 一种基于知识图谱的用户兴趣扩散推荐方法及系统 | |
CN114842542A (zh) | 基于自适应注意力与时空关联的面部动作单元识别方法及装置 | |
CN114330514A (zh) | 一种基于深度特征与梯度信息的数据重建方法及系统 | |
US20240037133A1 (en) | Method and apparatus for recommending cold start object, computer device, and storage medium | |
CN113449193A (zh) | 基于多分类图像的信息推荐方法及装置 | |
González et al. | Synthetic sample generation for label distribution learning | |
CN115019342A (zh) | 一种基于类关系推理的濒危动物目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |