CN111177467A

CN111177467A - 对象推荐方法与装置、计算机可读存储介质、电子设备

Info

Publication number: CN111177467A
Application number: CN201911415714.8A
Authority: CN
Inventors: 何果财; 曹俊豪; 付靖玲; 单珂; 周秋生
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19

Abstract

本公开属于图像处理技术领域，涉及一种对象推荐方法及装置、计算机可读存储介质、电子设备。该方法包括：响应于针对目标视频的触发操作，从目标视频中确定图像帧，并获取触发操作在图像帧中的位置信息；根据图像帧和位置信息得到实例分割图和关键词；根据实例分割图和关键词分别进行搜索，得到与实例分割图和关键词对应的两个对象序列；对两个对象序列进行融合处理，生成目标视频的推荐对象序列。本公开一方面实例分割效果较好，无需进行图像帧的全局搜索，提高算法的运行效率；另一方面，丰富了图像检索结果，使推荐结果更加精准有效，提高推荐对象序列的相关性和鲁棒性。

Description

对象推荐方法与装置、计算机可读存储介质、电子设备

技术领域

本公开涉及图像处理技术领域，尤其涉及一种对象推荐方法与对象推荐装置、计算机可读存储介质及电子设备。

背景技术

随着直播和短视频的兴起，视频俨然成为移动互联网时代极为重要的流量，是电商平台流量的重要来源。在网站和视频应用中开放广告位，或者在影视剧中添加镜头特写等广告创意可以使观众更容易接受，也可以使流量变现。除此之外，视频购物和拍照购物等形式也可以在电商平台上通过图像搜索技术和排序技术将相似商品推荐给用户。

但是，在视频网站或在用户观看的视频中弹出广告弹窗，不仅将用户置于非常被动的地位，还会引起用户反感。而且无法在视频购物或者拍照购物的时候利用到图像中蕴含的语义信息，仅仅使用图像搜索的方式导致搜索结果不够准确，为用户推荐的商品种类十分单一，且交互方式过于复杂，降低用户的购买欲。

鉴于此，本领域亟需开发一种新的对象推荐方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种对象推荐方法、对象推荐装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的交互方式复杂和推荐商品单一且不准确等问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本发明实施例的第一个方面，提供一种对象推荐方法，所述方法包括：响应于针对目标视频的触发操作，从所述目标视频中确定图像帧，并获取所述触发操作在所述图像帧中的位置信息；根据所述图像帧和所述位置信息得到实例分割图和关键词；根据所述实例分割图和所述关键词分别进行搜索，得到与所述实例分割图和所述关键词对应的两个对象序列；对所述两个对象序列进行融合处理，生成所述目标视频的推荐对象序列。

在本发明的一种示例性实施例中，所述根据所述图像帧和所述位置信息得到实例分割图和关键词，包括：将所述图像帧和所述位置信息输入至预先训练好的第一卷积神经网络模型中，以得到实例分割图和关键词。

在本发明的一种示例性实施例中，所述第一卷积神经网络模型包括实例分割模型和关键词提取模型；所述将所述图像帧和所述位置信息输入至预先训练好的第一卷积神经网络模型中，得到实例分割图和关键词，包括：将所述图像帧和所述位置信息输入至预先训练好的实例分割模型中，得到实例分割图；将所述图像帧和所述位置信息输入至预先训练好的关键词提取模型中，得到关键词。

在本发明的一种示例性实施例中，所述将所述图像帧和所述位置信息输入至预先训练好的实例分割模型中，得到实例分割图，包括：将所述图像帧和所述位置信息输入至预先训练好的实例分割模型中，得到所述图像帧中的感兴趣区域参数，并根据所述感兴趣区域参数生成图像帧的特征图；对所述特征图进行卷积处理，得到对应的特征矩阵，并根据所述特征矩阵生成实例分割图。

在本发明的一种示例性实施例中，所述关键词包括对象类别关键词和形容词类别关键词；所述将所述图像帧和所述位置信息输入至预先训练好的关键词提取模型中，得到关键词，包括：将所述图像帧和所述位置信息输入至预先训练好的关键词提取模型中，将所述位置信息与所述图像帧中的位置信息样本进行匹配；根据匹配结果确定与所述位置信息样本对应的对象类别样本和形容词类别样本，并将所述对象类别样本和所述形容词类别样本确定为与所述位置信息对应的所述对象类别关键词和所述形容词类别关键词；输出所述对象类别关键词和所述形容词类别关键词。

在本发明的一种示例性实施例中，所述两个对象序列包括图像搜索序列；所述根据所述实例分割图和所述关键词分别进行搜索，得到与所述实例分割图和所述关键词对应的两个对象序列，包括：根据所述实例分割图进行搜索，生成与所述实例分割图对应的第一对象序列；获取所述第一对象序列中的第一对象的文本描述信息，并对所述关键词和所述文本描述信息进行向量转换，得到关键词向量和文本信息向量；根据所述关键词向量和所述文本信息向量之间的第一相似度调整所述第一对象序列，以将调整后的第一对象序列确定为图像搜索序列。

在本发明的一种示例性实施例中，所述两个对象序列包括关键词搜索序列；所述根据所述实例分割图和所述关键词分别进行搜索，得到与所述实例分割图和所述关键词对应的两个对象序列，包括：根据所述关键词进行搜索，生成与所述关键词对应的第二对象序列；获取所述第二对象序列中的第二对象的对象图像，并将所述实例分割图和所述对象图像分别输入至预先训练好的第二卷积神经网络模型中，得到图像特征和序列特征；根据所述图像特征和所述序列特征之间的第二相似度调整所述第二对象序列，以将调整后的第二对象序列确定为所述关键词搜索序列。

在本发明的一种示例性实施例中，所述对所述两个对象序列进行融合处理，生成所述目标视频的推荐对象序列，包括：将所述图像搜索序列划分为图像搜索优先序列和图像搜索普通序列，并将所述关键词搜索序列划分为关键词搜索优先序列和关键词搜索普通序列；按照预设优先级对所述图像搜索优先序列、所述图像搜索普通序列、所述关键词搜索优先序列和所述关键词搜索普通序列进行排序，并根据排序结果生成所述目标视频的推荐对象序列。

根据本发明实施例的第二个方面，提供一种对象推荐装置，所述装置包括：信息获取模块，被配置为响应于针对目标视频的触发操作，从所述目标视频中确定图像帧，并获取所述触发操作在所述图像帧中的位置信息；数据输出模块，被配置为根据所述图像帧和所述位置信息得到实例分割图和关键词；序列生成模块，被配置为根据所述实例分割图和所述关键词分别进行搜索，得到与所述实例分割图和所述关键词对应的两个对象序列；融合处理模块，被配置为对所述两个对象序列进行融合处理，生成所述目标视频的推荐对象序列。

根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的对象推荐方法。

根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的对象推荐方法。

由上述技术方案可知，本发明示例性实施例中的对象推荐方法、对象推荐装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，通过触发操作确定目标视频对应的图像帧和位置信息，并将图像帧和位置信息输入至卷积神经网络模型中，得到实例分割图和关键词，以进一步将实例分割图和关键词对应的对象序列进行融合处理得到推荐对象序列。一方面，根据图像帧和位置信息生成实例分割图，使得实例分割模型能够更准确地进行目标的检测和分割，实例分割效果较好，并且无需进行图像帧的全局搜索，提高了算法的运行效率；另一方面，在用户观看视频的同时只需进行简单的交互，即可将两个对象序列进行融合处理得到推荐对象序列，使得推荐对象序列兼顾图像相似性和语义相关性，丰富了图像检索结果，使推荐结果更加精准有效，提高了推荐对象序列的相关性和鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种对象推荐方法的流程图；

图2示意性示出本公开示例性实施例中得到实例分割图和关键词的方法的流程示意图；

图3示意性示出本公开示例性实施例中得到实例分割图的方法的流程示意图；

图4示意性示出本公开示例性实施例中得到关键词的方法的流程示意图；

图5示意性示出本公开示例性实施例中生成图像搜索序列的方法的流程示意图；

图6示意性示出本公开示例性实施例中生成关键词搜索序列的方法的流程示意图；

图7示意性示出本公开示例性实施例中生成推荐对象序列的方法的流程示意图；

图8示意性示出本公开示例性实施例中在应用场景中对象推荐方法的流程示意图；

图9示意性示出本公开示例性实施例中在应用场景中生成实例分割图的方法的流程示意图；

图10示意性示出本公开示例性实施例中在应用场景中生成关键词的方法的流程示意图；

图11示意性示出本公开示例性实施例中在应用场景中生成推荐对象序列的方法的流程示意图；

图12示意性示出本公开示例性实施例中一种对象推荐装置的结构示意图；

图13示意性示出本公开示例性实施例中一种用于实现对象推荐方法的电子设备；

图14示意性示出本公开示例性实施例中一种用于实现对象推荐方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

针对相关技术中存在的问题，本公开提出了一种对象推荐方法。图1示出了对象推荐方法的流程图，如图1所示，对象推荐方法至少包括以下步骤：

步骤S110.响应于针对目标视频的触发操作，从目标视频中确定图像帧，并获取触发操作在图像帧中的位置信息。

步骤S120.根据图像帧和位置信息得到实例分割图和关键词。

步骤S130.根据实例分割图和关键词分别进行搜索，得到与实例分割图和关键词对应的两个对象序列。

步骤S140.对两个对象序列进行融合处理，生成目标视频的推荐对象序列。

在本公开的示例性实施例中，通过触发操作确定目标视频对应的图像帧和位置信息，并将图像帧和位置信息输入至卷积神经网络模型中，得到实例分割图和关键词，以进一步将实例分割图和关键词对应的对象序列进行融合处理得到推荐对象序列。

一方面，根据图像帧和位置信息生成实例分割图，使得实例分割模型能够更准确地进行目标的检测和分割，实例分割效果较好，并且无需进行图像帧的全局搜索，提高了算法的运行效率；另一方面，在用户观看视频的同时只需进行简单的交互，即可将两个对象序列进行融合处理得到推荐对象序列，使得推荐对象序列兼顾图像相似性和语义相关性，丰富了图像检索结果，使推荐结果更加精准有效，提高了推荐对象序列的相关性和鲁棒性。

下面对对象推荐方法的各个步骤进行详细说明。

在步骤S110中，响应于针对目标视频的触发操作，从目标视频中确定图像帧，并获取触发操作在图像帧中的位置信息。

在本公开的示例性实施例中，用户终端可以在访问目标应用时，在该目标应用对象的显示界面上显示用于承载多个业务数据信息的业务数据展示平台。其中，用户终端可以包括手机、平板电脑、笔记本、账上电脑、移动可联网设备机、可穿戴设备或其他具有存储视频数据功能的终端设备。

例如，该业务数据展示平台上的每个业务数据信息可以为一个目标视频。当目标用户针对该业务数据展示平台上的目标视频执行播放操作时，可以从该应用服务器对应的业务数据库中加载得到该目标视频对应的视频数据，进而在该用户终端的视频播放界面中播放该加载到的视频数据。进一步的，用户终端可以在播放视频数据的过程中，获取该目标用户针对该视频播放界面中目标视频执行的触发操作，并可以将该触发操作对应的视频帧确定为图像帧。

视频数据本身是由一个个连续的图像帧组成的，一帧图像就是一幅静止的画面，连续的图像帧就形成了视频。在视频数据中，每秒钟的帧数越多，所显示的画面就会越流畅，越逼真；每秒钟的帧数越少，视频画面就会显示的不连贯，流畅度变低。举例而言，视频数据中可以由60帧图像帧组成，也可以由80帧图像帧组成，二者可以显示相同的内容，但是，视频数据的流畅度上会存在明显的差异。

对视频数据的图像帧进行确定的方法可以是对视频数据进行分解，本示例性实施例对视频数据包括的图像帧的个数不做限定，举例而言，若该视频数据包括4个图像帧，则可以分解该视频数据以得到4个图像帧。除此之外，本示例性实施例对视频数据的格式也不做限定，可以是实时直播视频数据，也可以是mp4、avi、mkv、dvd、flv等格式的视频数据，也可以是其他格式的视频文件，还可以包括单通道的灰度视频数据和三通道的彩色视频数据。

为确定图像帧中触发操作作用的位置信息，可以通过屏幕坐标系进行确定。屏幕坐标系以屏幕的左下角作为原点，以像素为单位，坐标轴向屏幕的走上方延伸，但不会超过屏幕的最大宽度和最大高度。按照触发操作在屏幕坐标系中的对应像素可以确定该图像帧中的功能区域的位置信息。其中，触发操作可以是目标用户通过手指等触发介质发起的操作，也可以通过鼠标操作的，本示例性实施例对触发操作的具体实现方式以及位置信息的大小等属性不做特殊限定。

在步骤S120中，根据图像帧和位置信息得到实例分割图和关键词。

在本公开的一种示例性实施例中，通过图像帧和位置信息得到对应的实例分割图和关键词。具体的，可以通过卷积神经网络模型得到实例分割图和关键词。卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)。卷积神经网络模型可以包括输入层、卷积层、池化层、全连接层和输出层。因此，图像帧和位置信息首先输入至卷积神经网络模型中的输入层，该卷积神经网络模型是通过模式分类器能够对图像帧和位置信息进行检测和识别的前馈式神经网络。

在可选的实施例中，将图像帧和位置信息输入至预先训练好的第一卷积神经网络模型中，得到实例分割图和关键词。

在可选的实施例中，第一卷积神经网络模型包括实例分割模型和关键词提取模型，图2示出了得到实例分割图和关键词的方法的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤S210中，将图像帧和位置信息输入至预先训练好的实例分割模型中，得到实例分割图。

在可选的实施例中，图3示出了得到实例分割图的方法的流程示意图，如图3所示，该方法至少包括以下步骤：在步骤S310中，将图像帧和位置信息输入至预先训练好的实例分割模型中，得到图像帧中的感兴趣区域参数，并根据感兴趣区域参数生成图像帧的特征图。考虑到Mark R-CNN能够对每个目标单独计数归类，在一定程度上能够减少黏连造成的漏分割，因此，可以将Mark R-CNN模型确定为本实施例中的实例分割模型。除此之外，也可以使用其他模型作为实例分割模型，本示例性实施例对此不做特殊限定。

Mark R-CNN模型是一种简单灵活的用于实例分割的模型，不仅可以对图像中的目标进行有效的检测，还能对每个目标给出高精度的分割掩膜结果。

Mark R-CNN模型新增一个用来独立地预测二值掩膜的分值，每个目标二值掩膜的类别省去了类间竞争，根据兴趣区域分类分支进行分类预测，该分支与现有的边界框识别分支并行，只增加一个小的开销，从而扩展了速度。Mark R-CNN模型能够广泛适用于多种类型的任务，包括实例分割、候选框目标检测和人脸关键点检测等。

其中，感兴趣区域参数表征图像帧中图像目标的边界框，该边界框可以是锚箱(Anchor Boxes)。具体的，为生成Anchor Boxes可以预设有5个尺寸和3种长宽比，该5个尺寸可以是32像素、64像素、128像素、256像素和512像素，该3种长宽比可以是0.5、1和1.5，因此可以在触发位置附近生成15个Anchor Boxes。进一步的，可以根据15个固定尺寸的Anchor Boxes和Anchor Boxes所在的图像帧可以生成对应的特征图。

在步骤S320中，对特征图进行卷积处理，得到对应的特征矩阵，并根据特征矩阵生成实例分割图。

通常，可以利用预设数据的卷积核对特征图进行卷积处理，从而得到预设数据的特征矩阵。卷积核可以为矩阵形式，其中的元素为预设的权重值，利用该权重值可以对特征图对应的至少一个矩阵进行卷积运算。其中，卷积核包括的权重值可以是预先设置的，也可以是预先利用机器学习方法对卷积核所属的卷积神经网络进行训练后确定的，本示例性实施例对此不做特殊限定。特征矩阵为图像大小维度的0-1矩阵，图像目标的位置矩阵值为1，背景位置矩阵值为0，因此，可以设置一预设阈值对该特征矩阵中的矩阵值进行划分。具体的，该预设阈值可以是0.5，并且将特征矩阵中的每个元素与0.5进行比较，若大于0.5表明该元素对应于图像目标的概率较大，若小于等于0.5表明对应于图像目标的概率较小。因此，根据比较结果将图像帧中大于0.5的坐标标注出来，该标注结果为图像帧中的目标掩膜。其中，该目标掩膜可以理解为图像帧中目标的边界轮廓组成的区域，目标掩膜位于目标边界框内部。并且，该目标掩膜即为实例分割图。

在本示例性实施例中，利用实例分割模型可以得到图像帧的实例分割图，使得实例分割模型能够更准确地进行目标的检测与分割，实例分割效果较好。

在步骤S220中，将图像帧和位置信息输入至预先训练好的关键词提取模型中，得到关键词。

在可选的实施例中，关键词包括对象类别关键词和形容词类别关键词，图4示出了得到关键词的方法的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S410中，将图像帧和位置信息输入至预先训练好的关键词提取模型中，将位置信息与图像帧中的位置信息样本进行匹配。其中，关键词提取模型可以是Faster R-CNN模型。Faster R-CNN模型已经量特征抽取、区域生成网络(Region Proposal Networks)、边框回归(bounding boxregression)和归类(classification)整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显。将图像帧和位置信息输入至预先训练好的Faster R-CNN模型中之后，可以将触发指令的位置信息与该图像帧中的位置信息样本进行比对和匹配。举例而言，位置信息样本可以有6404个样本信息，也可以有其他数目的样本信息，本示例性实施例对此不做特殊限定。

在步骤S420中，根据匹配结果确定与位置信息样本对应的对象类别样本和形容词类别样本，并将对象类别样本和形容词类别样本确定为与位置信息对应的对象类别关键词和形容词类别关键词。

举例而言，当位置信息样本有6404个样本信息时，该6404个样本信息可以是1601*4得到的。1601表示与位置信息样本对应的1601种对象类别样本，包括1600类和1个背景类，4表示2个像素点的X和Y两个坐标确定的目标所在的边界框。并且，形容词类别样本可以有401个，包括400个形容词类和1个无形容词类。边界框与对象类别样本和形容词类别样本之间具有映射关系。因此，将位置信息与位置信息样本确定的边界框进行比对，若位置信息在目标边界框中，可以得到与该目标边界框对应的对象类别样本和形容词类别样本。

进一步的，将与位置信息样本对应的对象类别样本和形容类别样本确定为与位置信息对应的对象类别关键词和形容词类别关键词。其中，对象类别关键词可以是表征对象种类的关键词，例如短袖、牛仔裤、电视、相机、电脑等关键词；形容词类别关键词可以是表征对象状态的关键词，例如黄色、绿色、开启、关闭等关键词。

在步骤S430中，输出对象类别关键词和形容词类别关键词。在Faster R-CNN模型的全连接层可以设置有两个分支的输出，分别可以是对象类别关键词和形容词类别关键词。除此之外，还可以设置有三个分支的输出，分别可以是对象类别关键词、形容词类别关键词和位置信息样本。因此，在确定与位置信息对应的位置信息样本，并确定与位置信息样本对应的对象类别关键词和形容词类别关键词之后，可以使Faster R-CNN模型输出位置信息样本、对象类别关键词和形容词类别关键词。除此之外，还可以在目标用户向目标视频发起触发操作的同时，获取目标视频的视频标题或描述，以将视频标题或描述作为辅助关键词，以丰富根据图像帧和位置信息得到的关键词种类。进一步的，将对象类别关键词、形容词类别关键词和/或辅助类别关键词用空格拼接起来，生成对应的关键词。

在本示例性实施例中，通过关键词提取模型可以提取到与图像帧和位置信息对应的关键词，提高了关键词检测效率，进一步丰富了图像检索结果，提高了图像检索的鲁棒性和相关性。

在步骤S130中，根据实例分割图和关键词分别进行搜索，得到与实例分割图和关键词对应的两个对象序列。

在本公开的一种示例性实施例中，图5和图6分别示出了得到两个对象序列的方法的流程示意图。

在可选的实施例中，两个对象序列包括图像搜索序列，图5示出了生成图像搜索序列的方法的流程示意图，如图5所示，该方法至少包括以下步骤：在步骤S510中，根据实例分割图进行搜索，生成与实例分割图对应的第一对象序列。根据实例分割图进行搜索的方式可以是图像搜索。图像搜索是通过搜索图像文本或者视觉特征为用户提供互联网上相关图形图像资料检索服务的专业搜索引擎系统，是搜索引擎的一部分。具体的，一种是通过输入与图片名称或内容相似的关键字来进行检索，另一种通过上传与搜索结果相似的图片或图片的同一资源定位符进行搜索。在本实施例中，可以采用第二种方式，亦即输入实例分割图进行搜索，并将搜索结果排列成第一对象序列。举例而言，若实例分割图是商品的实例分割图时，可以生成与商品对应的推荐商品的序列作为第一对象序列。

在步骤S520中，获取第一对象序列中的第一对象的文本描述信息，并对关键词和文本描述信息进行向量转换，得到关键词向量和文本信息向量。

在得到第一对象序列之后，可以进一步获取第一对象序列中包括的第一对象的文本描述信息。举例而言，若第一对象序列为推荐商品序列时，第一对象的文本描述信息可以是商品的相关描述的文本信息。对关键词和文本描述信息进行向量转换可以通过词向量模型对关键词和文本描述信息进行向量转换，该词向量模型可以是Word2Vec模型。

其中，Word2Vec模型是2013年谷歌发布的Word2Vec工具，可以看作是深度学习在自然语言处理领域的一个重要应用。虽然Word2Vec只有三层神经网络，但是已经取得了非常好的效果。通过Word2Vec模型可以将分词表示为词向量，将文字进行数字化处理，能够更好的让计算机理解，也能够让分词生成的向量体现语义信息。为了利用这种语义信息，Word2Vec模型可以采用两种具体的实现方法，分别是连续词袋模型(Continuous Bag-of-Words Model，简称CBOW)和Skip-grams模型。其中，CBOW模型是给定上下文信息，来预测输入分词；Skip-grams模型是给定输入分词来预测上下文，其中，第一部分为建立模型，第二部分通过模型获取嵌入词向量。优选的，对文本描述信息和关键词进行向量转换可以采用Skip-grams模型。利用Skip-grams模型进行词向量的转换，可以用一个300维度的实数向量在词空间唯一表示一个词，文本描述信息和关键词是分别用词序列个数乘以300向量矩阵来表示，以得到对应的关键词向量和文本信息向量。

在步骤S530中，根据关键词向量和文本信息向量之间的相似度调整第一对象序列，以将调整后的第一对象序列确定为图像搜索序列。

关键词向量和文本信息向量之间的相似度可以通过计算余弦距离确定。两个向量之间的余弦距离可以通过欧几里得点积公式推到得到，当给定关键词向量和文本信息向量两个向量时，余弦相似性由点积和向量长度计算得到。相似度的范围可以从-1到1，其中，-1可以表示两个向量指向的方向正好相反，1可以表示两个向量的指向相同，0可以表示两个向量之间是相互独立的，在-1至1之间的值标识两个向量之间的相似性或相异性。

在计算得到关键词向量和文本信息向量之间的余弦距离之后，可以将余弦距离按照从小到大的顺序进行排序。其中，余弦距离越大表示关键词向量和文本信息向量之间的相似度越低，余弦距离越小表示关键词向量和文本信息向量之间的相似度越高。因此，将余弦距离按照从小到大的顺序排列，亦即将相似度按照从大到小的顺序进行排列。进一步的，按照相似度从大到小的排列方式对第一对象序列进行调整，并将调整结果确定为图像搜索序列。

在本示例性实施例中，将图像搜索得到的第一对象序列按照相似度调整得到图像搜索序列，调整方式简单灵活，搜索序列排列准确，为融合处理提供了数据基础。

在可选的实施例中，图6示出了生成关键词搜索序列的方法的流程示意图，如图6所示，该方法至少包括以下步骤：在步骤S610中，根据关键词进行搜索，生成与关键词对应的第二对象序列。根据关键词进行搜索的方式可以是在搜索引擎中进行搜索。搜索引擎是根据用户需求与一定算法，运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，例如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术和自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可以添加一系列辅助模块，以为用户创造和提供更好的网络使用环境，方便用户的各项需求。将关键词输入至搜索引擎中进行搜索，并根据搜索结果生成第二对象序列。举例而言，若关键词是关于商品的关键词时，可以生成与商品对应的推荐商品序列作为第二对象序列。

在步骤S620中，获取第二对象序列中的第二对象的对象图像，并将实例分割图和对象图像分别输入至预先训练好的第二卷积神经网络模型中，得到图像特征和序列特征。

在得到第二对象序列之后，可以进一步获取第二对象序列中包括的第二对象的对象图像。举例而言，若第二对象序列为推荐商品序列时，第二对象的对象图像可以是商品的商品图像。其中，第二卷积神经网络模型可以是Se-ResNet50卷积神经网络模型。ResNet卷积神经网络模型的思想主要是加深浅层网络，并通过恒等连接和残差连接将上下两层连接，跳跃结构的增加能够增强浅层网络的影响从而避免精度衰减的问题。进一步，Se-ResNet卷积神经网络模型是通过一个模块来量化不同桥连接不同通道的特征的重要程度以进一步以增强桥连接提出的。Se-ResNet50卷积神经网络模型表示有50层网络的Se-ResNet卷积神经网络模型。将实例分割图输入至Se-ResNet50卷积神经网络模型中可以得到一个向量作为实例分割图的图像特征，将对象图像输入至Se-ResNet50卷积神经网络模型中可以得到另一个向量作为序列特征。

在步骤S630中，根据图像特征和序列特征之间的第二相似度调整第二对象序列，以将调整后的第二对象序列确定为关键词搜索序列。

图像特征和序列特征之间的相似度可以通过计算余弦距离确定。两个向量之间的余弦距离可以通过欧几里得点积公式推到得到，当给定关键词向量和文本信息向量两个向量时，余弦相似性由点积和向量长度计算得到。相似度的范围可以从-1到1，其中，-1表示两个向量指向的方向正好相反，1表示两个向量的指向相同，0表示两个向量之间是相互独立的，在-1至1之间的值标识两个向量之间的相似性或相异性。

在计算得到图像特征和序列特征之间的余弦距离之后，可以将余弦距离按照从小到大的顺序进行排序。其中，余弦距离越大表示图像特征和序列特征之间的相似度越低，余弦距离越小表示图像特征和序列特征之间的相似度越高。因此，将余弦距离按照从小到大的顺序排列，亦即将相似度按照从大到小的顺序进行排列。进一步的，按照相似度从大到小的排列方式对第二对象序列进行调整，并将调整结果确定为关键词搜索序列。

在本示例性实施例中，将关键词搜索得到的第二对象序列按照相似度调整得到关键词搜索序列，调整方式简单，搜索序列排列灵活，为融合处理提供了数据基础。

在步骤S140中，对两个对象序列进行融合处理，生成目标视频的推荐对象序列。

在可选的实施例中，图7示出了生成推荐对象序列的方法的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，将图像搜索序列划分为图像搜索优先序列和图像搜索普通序列，并将关键词搜索序列划分为关键词搜索优先序列和关键词搜索普通序列。举例而言，对图像搜索序列的划分方式可以是在图像搜索序列中确定n个图像作为图像搜索优先序列，将剩余的图像作为图像搜索普通序列，n的具体取值可以根据实际情况确定，本示例性实施例对此不做特殊限定；对关键词搜索序列的划分方式可以是在关键词搜索序列中确定m个图像作为关键词搜索优先序列，将剩余的图像作为关键词搜索普通序列，m的具体取值也可以根据实际情况确定，本示例性实施例对此不做特殊限定。值得说明的是，n与m可以是相同的个数取值，也可以是不同的个数取值，本示例性实施例对此不做特殊限定。

在步骤S720中，按照预设优先级对图像搜索优先序列、图像搜索普通序列、关键词搜索优先序列和关键词搜索普通序列进行排序，并根据排序结果生成目标视频的推荐对象序列。

鉴于图像搜索结果具有更好的相似性，因此预设优先级可以是将图像搜索序列的排列顺序靠前，将关键词搜索序列的结果作为检索结果的补充。举例而言，图像搜索优先序列的优先级最高，关键词搜索优先序列的优先级次之，图像搜索普通序列的优先级第三，关键词搜索普通序列的优先级最低。因此，排序结果可以是将n个图像搜索优先序列排在最前面，接下来是m个关键词搜索优先序列，排在第三的是剩余的图像搜索普通序列，排在最后的是剩余的关键词搜索普通序列。因此，将融合处理之后的排序结果生成的序列可以作为推荐对象序列，以向用户推荐。

在本示例性实施例中，通过对图像搜索序列和关键词搜索序列进行融合处理，可以生成推荐对象序列，可以兼顾图像相似性和语义相关性，使推荐结果更加合理有效。

下面结合一应用场景对本公开实施例中的对象推荐方法做出详细说明。

图8示出了在应用场景下的对象推荐方法的流程示意图，如图8所示，在步骤S810中，前端和后端可以进行交互。当目标用户在视频应用或者网站等前端上观看视频时，可以点击或者长按感兴趣的物品所在的区域，例如穿搭、汽车或者家具等。响应于触发操作，视频会暂停，并将用户点击的位置、点击的视频帧以及视频标题或描述传给后端，后端对这些信息进行分析和处理，实时返回推荐的商品结果。

前端接收到后端推荐的商品列表之后，对商品进行有效展示，若该用户对商品感兴趣，可以点击该商品并查看相似商品列表进行购买。

在步骤S820中，接收到前端推送的数据之后，后端会调用视觉算法逻辑，得到用户点击目标的实例分割图。

具体的，图9示出了在应用场景下生成实例分割图的方法的流程示意图，如图9所示，在步骤S910中，将目标视频中的图像帧与作用于图像帧的触发操作的位置信息输入至实例分割模型中。考虑到Mark R-CNN能够对每个目标单独计数归类，在一定程度上能够减少黏连造成的漏分割，因此，可以将Mark R-CNN模型确定为本实施例中的实例分割模型。

在步骤S920中，对图像帧进行ROIAlign操作，得到感兴趣区域参数，并根据感兴趣区域参数生成与图像帧对应的特征图。

感兴趣区域参数表征图像帧中图像目标的锚箱。具体的，为生成锚箱可以预设有5个尺寸和3种长宽比，该5个尺寸可以是32像素、64像素、128像素、256像素和512像素，该3种长宽比可以是0.5、1和1.5，因此可以在触发位置附近生成15个锚箱。进一步的，根据15个固定尺寸的锚箱和锚箱所在的图像帧可以生成对应的特征图。根据预设的尺寸信息和长宽比还可以生成9个锚箱，或者其他数目的锚箱，本示例性实施例对此不做特殊限定。

在步骤S930中，对特征图进行卷积处理，得到对应的特征矩阵。

通常，可以利用预设数据的卷积核对特征图进行卷积处理，从而得到预设数据的特征矩阵。特征矩阵为图像大小维度的0-1矩阵，图像目标的位置矩阵值为1，背景位置矩阵值为0，因此，可以设置一预设阈值对该特征矩阵中的矩阵值进行划分。具体的，该预设阈值可以是0.5，并且将特征矩阵中的每个元素与0.5进行比较，若大于0.5表明该元素对应于图像目标的概率较大，若小于等于0.5表明对应于图像目标的概率较小。因此，根据比较结果将图像帧中大于0.5的坐标标注出来，该标注结果为图像帧中的目标掩膜。

在步骤S940中，将目标掩膜标注出来，得到实例分割图。目标掩膜可以理解为图像帧中目标的边界轮廓组成的区域，目标掩膜位于目标边界框内部。将该目标掩膜作为MarkR-CNN的输出，可以得到图像帧的实例分割图。

在步骤S830中，接收到前端推送的数据之后，后端会调用视觉算法逻辑，得到用户点击目标的关键词。

具体的，图10示出了在应用场景下生成关键词的方法的流程示意图，如图10所示，在步骤S1010中，将图像帧和位置信息输入至关键词提取模型中，对图像帧进行池化处理，生成与图像帧对应的池化特征图。

其中，关键词提取模型可以是Faster R-CNN模型。Faster R-CNN模型已经量特征抽取、区域生成网络(Region Proposal Networks)、边框回归(bounding box regression)和归类(classification)整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显。

在步骤S1020中，在全连接层对池化特征图进行融合处理，提取图像全连接层特征。

在步骤S1030中，将全连接层进行修改，以输出位置信息样本、对象类别关键词和形容词类别关键词。具体的，可以设置1601个对象类别样本、401个形容词类别样本和6404个位置样本信息。其中，该6404个样本信息可以是1601*4得到的。1601表示与位置信息样本对应的1601种对象类别样本，包括1600类和1个背景类，4表示2个像素点的X和Y两个坐标确定的目标所在的边界框。并且，形容词类别样本可以有401个，包括400个形容词类和1个无形容词类。

边界框与对象类别样本和形容词类别样本之间具有映射关系。因此，将位置信息与位置信息样本确定的边界框进行比对，若位置信息在目标边界框中，可以得到与该目标边界框对应的对象类别样本和形容词类别样本。进一步的，将与位置信息样本对应的对象类别样本和形容类别样本确定为与位置信息对应的对象类别关键词和形容词类别关键词。

在确定与位置信息对应的位置信息样本，并确定与位置信息样本对应的对象类别关键词和形容词类别关键词之后，可以使Faster R-CNN模型输出位置信息样本、对象类别关键词和形容词类别关键词。除此之外，还可以在目标用户向目标视频发起触发操作的同时，获取目标视频的视频标题或描述，以将视频标题或描述作为辅助关键词，以丰富根据图像帧和位置信息得到的关键词种类。进一步的，将对象类别关键词、形容词类别关键词和/或辅助类别关键词用空格拼接起来，生成与之对应的关键词。

在步骤S840中，分别利用图像检索服务和关键词检索服务对实例分割图和关键词进行搜索，得到与实例分割图和关键词对应的两个对象序列。

当实例分割图是商品的实例分割图时，可以生成与商品对应的推荐商品的序列作为第一对象序列，并对第一对象序列中的第一对象的文本描述信息，并对关键词和文本描述信息进行向量转换，得到关键词向量和文本信息向量。进一步的，计算关键词向量和文本信息向量之间的余弦距离，以将余弦距离按照从小到大的顺序进行排序。余弦距离越大表示关键词向量和文本信息向量之间的相似度越低，余弦距离越小表示关键词向量和文本信息向量之间的相似度越高。因此，将余弦距离按照从小到大的顺序排列，亦即将相似度按照从大到小的顺序进行排列。进一步的，按照相似度从大到小的排列方式对第一对象序列进行调整，并将调整结果确定为图像搜索序列。

当关键词是关于商品的关键词时，可以生成与商品对应的推荐商品序列作为第二对象序列。在得到第二对象序列之后，可以进一步获取第二对象序列中包括的第二对象的对象图像，并将对象图像输入至Se-ResNet50卷积神经网络模型中可以得到一个向量作为对象图形的序列特征特征，将实例分割图输入至Se-ResNet50卷积神经网络模型中可以得到另一个向量作为图像特征。图像特征和序列特征之间的相似度可以通过计算余弦距离确定。在计算得到图像特征和序列特征之间的余弦距离之后，可以将余弦距离按照从小到大的顺序进行排序。其中，余弦距离越大表示图像特征和序列特征之间的相似度越低，余弦距离越小表示图像特征和序列特征之间的相似度越高。因此，将余弦距离按照从小到大的顺序排列，亦即将相似度按照从大到小的顺序进行排列。进一步的，按照相似度从大到小的排列方式对第二对象序列进行调整，并将调整结果确定为关键词搜索序列。

在步骤S850中，对图像搜索序列和关键词搜索序列进行融合处理，生成目标视频的推荐对象序列。

图11示出了应用场景下生成推荐对象序列的方法的流程示意图，如图11所示，在步骤S1110中，可以得到图像搜索序列。具体的操作方式与步骤S840中相同，在此不再赘述。

在步骤S1120中，可以得到关键词搜索序列。具体的操作方式与步骤S840中相同，在此不再赘述。

在步骤S1130中，将图像搜索序列与关键词搜索序列进行划分。

举例而言，可以对图像搜索序列的划分方式可以是在图像搜索序列中确定n个图像作为图像搜索优先序列，并且将剩余的图像作为图像搜索普通序列，其中，n的具体取值可以根据实际情况确定，本示例性实施例对此不做特殊限定；对关键词搜索序列的划分方式可以是在关键词搜索序列中确定m个图像作为关键词搜索优先序列，也可以将剩余的图像作为关键词搜索普通序列，m的具体取值也可以根据实际情况确定，本示例性实施例对此不做特殊限定。值得说明的是，n与m可以是相同的个数取值，也可以是不同的个数取值，本示例性实施例对此不做特殊限定。

在步骤S1140中，对划分结果进行融合处理，生成推荐对象序列。

鉴于图像搜索结果具有更好的相似性，因此预设优先级可以是将图像搜索序列的排列顺序靠前，将关键词搜索序列的结果作为检索结果的补充。举例而言，图像搜索优先序列的优先级最高，关键词搜索优先序列的优先级次之，图像搜索普通序列的优先级第三，关键词搜索普通序列的优先级最低。因此，排序结果可以是将n个图像搜索优先序列排在最前面，接下来是m个关键词搜索优先序列，排在第三的是剩余的图像搜索普通序列，排在最后的是剩余的关键词搜索普通序列。因此，将融合处理之后的排序结果生成的序列可以作为推荐对象序列，以向用户进行推荐。

在本公开的示例性实施例中，通过触发操作确定目标视频对应的图像帧和位置信息，并将图像帧和位置信息输入至卷积神经网络模型中，得到实例分割图和关键词，以进一步将实例分割图和关键词对应的对象序列进行融合处理得到推荐对象序列。一方面，根据图像帧和位置信息生成实例分割图，使得实例分割模型能够更准确地进行目标的检测和分割，实例分割效果较好，并且无需进行图像帧的全局搜索，提高了算法的运行效率；另一方面，在用户观看视频的同时只需进行简单的交互，即可将两个对象序列进行融合处理得到推荐对象序列，使得推荐对象序列兼顾图像相似性和语义相关性，丰富了图像检索结果，使推荐结果更加精准有效，提高了推荐对象序列的相关性和鲁棒性。

此外，在本公开的示例性实施例中，还提供一种对象推荐装置。图12示出了对象推荐装置的结构示意图，如图12所示，对象推荐装置1200可以包括：信息获取模块1210、数据输出模块1220、序列生成模块1230和融合处理模块1240。其中：

信息获取模块1210，被配置为响应于针对目标视频的触发操作，从所述目标视频中确定图像帧，并获取触发操作在图像帧中的位置信息；数据输出模块1220，被配置为根据图像帧和位置信息得到实例分割图和关键词；序列生成模块1230，被配置为根据实例分割图和关键词分别进行搜索，得到与实例分割图和关键词对应的两个对象序列；融合处理模块1240，被配置为对两个对象序列进行融合处理，生成目标视频的推荐对象序列。

在本公开的一些实施例中，数据输出模块包括：数据输出单元，被配置为将图像帧和位置信息输入至预先训练好的第一卷积神经网络模型中，得到实例分割图和关键词。

在本公开的一些实施例中，数据输出单元包括：分割图输出单元，被配置为将图像帧和位置信息输入至预先训练好的实例分割模型中，得到实例分割图；关键词输出单元，被配置为将图像帧和位置信息输入至预先训练好的关键词提取模型中，得到关键词。

在本公开的一些实施例中，分割图输出单元，包括：特征图生成子单元，被配置为将图像帧和位置信息输入至预先训练好的实例分割模型中，得到图像帧中的感兴趣区域参数，并根据感兴趣区域参数生成图像帧的特征图；分割图生成子单元，被配置为对特征图进行卷积处理，得到对应的特征矩阵，并根据特征矩阵生成实例分割图。

在本公开的一些实施例中，关键词输出单元包括：样本匹配子单元，被配置为将图像帧和位置信息输入至预先训练好的关键词提取模型中，将位置信息与图像帧中的位置信息样本进行匹配；结果确定子单元，被配置为根据匹配结果确定与位置信息样本对应的对象类别样本和形容词类别样本，并将对象类别样本和形容词类别样本确定为与位置信息对应的对象类别关键词和形容词类别关键词；关键词输出子单元，被配置为输出对象类别关键词和形容词类别关键词。

在本公开的一些实施例中，序列生成模块包括：第一序列单元，被配置为根据实例分割图进行搜索，生成与实例分割图对应的第一对象序列；向量转换单元，被配置为获取第一对象序列中的第一对象的文本描述信息，并对关键词和文本描述信息进行向量转换，得到关键词向量和文本信息向量；第一序列调整单元，被配置为根据关键词向量和文本信息向量之间的第一相似度调整第一对象序列，以将调整后的第一对象序列确定为图像搜索序列。

在本公开的一些实施例中，序列生成模块包括：第二序列单元，被配置为根据关键词进行搜索，生成与关键词对应的第二对象序列；图像获取单元，被配置为获取第二对象序列中的第二对象的对象图像，并将实例分割图和对象图像分别输入至预先训练好的第二卷积神经网络模型中，得到图像特征和序列特征；第二序列调整单元，被配置为根据图像特征和序列特征之间的第二相似度调整第二对象序列，以将调整后的第二对象序列确定为关键词搜索序列。

在本公开的一些实施例中，融合处理模块包括：序列划分单元，被配置为将图像搜索序列划分为图像搜索优先序列和图像搜索普通序列，并将关键词搜索序列划分为关键词搜索优先序列和关键词搜索普通序列；序列排序单元，被配置为按照预设优先级对图像搜索优先序列、图像搜索普通序列、关键词搜索优先序列和关键词搜索普通序列进行排序，并根据排序结果生成所述目标视频的推荐对象序列。

上述对象推荐装置的具体细节已经在对应的对象推荐方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及对象推荐装置1200的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图13来描述根据本发明的这种实施例的电子设备1300。图13显示的电子设备1300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示，电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于：上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330、显示单元1340。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1310执行，使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1321和/或高速缓存存储单元1322，还可以进一步包括只读存储单元(ROM)1323。

存储单元1320还可以包括具有一组(至少一个)程序模块1325的程序/实用工具1324，这样的程序模块1325包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1300也可以与一个或多个外部设备1500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1300交互的设备通信，和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且，电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1340通过总线1330与电子设备1300的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图14所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种对象推荐方法，其特征在于，所述方法包括：

响应于针对目标视频的触发操作，从所述目标视频中确定图像帧，并获取所述触发操作在所述图像帧中的位置信息；

根据所述图像帧和所述位置信息得到实例分割图和关键词；

根据所述实例分割图和所述关键词分别进行搜索，得到与所述实例分割图和所述关键词对应的两个对象序列；

对所述两个对象序列进行融合处理，生成所述目标视频的推荐对象序列。

2.根据权利要求1所述的对象推荐方法，其特征在于，所述根据所述图像帧和所述位置信息得到实例分割图和关键词，包括：

将所述图像帧和所述位置信息输入至预先训练好的第一卷积神经网络模型中，得到实例分割图和关键词。

3.根据权利要求2所述的对象推荐方法，其特征在于，所述第一卷积神经网络模型包括实例分割模型和关键词提取模型；

所述将所述图像帧和所述位置信息输入至预先训练好的第一卷积神经网络模型中，得到实例分割图和关键词，包括：

将所述图像帧和所述位置信息输入至预先训练好的实例分割模型中，得到实例分割图；

将所述图像帧和所述位置信息输入至预先训练好的关键词提取模型中，得到关键词。

4.根据权利要求3所述的对象推荐方法，其特征在于，所述将所述图像帧和所述位置信息输入至预先训练好的实例分割模型中，得到实例分割图，包括：

将所述图像帧和所述位置信息输入至预先训练好的实例分割模型中，得到所述图像帧中的感兴趣区域参数，并根据所述感兴趣区域参数生成图像帧的特征图；

对所述特征图进行卷积处理，得到对应的特征矩阵，并根据所述特征矩阵生成实例分割图。

5.根据权利要求3所述的对象推荐方法，其特征在于，所述关键词包括对象类别关键词和形容词类别关键词；

所述将所述图像帧和所述位置信息输入至预先训练好的关键词提取模型中，得到关键词，包括：

将所述图像帧和所述位置信息输入至预先训练好的关键词提取模型中，将所述位置信息与所述图像帧中的位置信息样本进行匹配；

根据匹配结果确定与所述位置信息样本对应的对象类别样本和形容词类别样本，并将所述对象类别样本和所述形容词类别样本确定为与所述位置信息对应的所述对象类别关键词和所述形容词类别关键词；

输出所述对象类别关键词和所述形容词类别关键词。

6.根据权利要求1所述的对象推荐方法，其特征在于，所述两个对象序列包括图像搜索序列；

所述根据所述实例分割图和所述关键词分别进行搜索，得到与所述实例分割图和所述关键词对应的两个对象序列，包括：

根据所述实例分割图进行搜索，生成与所述实例分割图对应的第一对象序列；

获取所述第一对象序列中的第一对象的文本描述信息，并对所述关键词和所述文本描述信息进行向量转换，得到关键词向量和文本信息向量；

根据所述关键词向量和所述文本信息向量之间的第一相似度调整所述第一对象序列，以将调整后的第一对象序列确定为图像搜索序列。

7.根据权利要求6所述的对象推荐方法，其特征在于，所述两个对象序列包括关键词搜索序列；

根据所述关键词进行搜索，生成与所述关键词相对应的第二对象序列；

获取所述第二对象序列中的第二对象的对象图像，并将所述实例分割图和所述对象图像分别输入至预先训练好的第二卷积神经网络模型中，得到图像特征和序列特征；

根据所述图像特征和所述序列特征之间的第二相似度调整所述第二对象序列，以将调整后的第二对象序列确定为关键词搜索序列。

8.根据权利要求7所述的对象推荐方法，其特征在于，所述对所述两个对象序列进行融合处理，生成所述目标视频的推荐对象序列，包括：

将所述图像搜索序列划分为图像搜索优先序列和图像搜索普通序列，并将所述关键词搜索序列划分为关键词搜索优先序列和关键词搜索普通序列；

按照预设优先级对所述图像搜索优先序列、所述图像搜索普通序列、所述关键词搜索优先序列和所述关键词搜索普通序列进行排序，并根据排序结果生成所述目标视频的推荐对象序列。

9.一种对象推荐装置，其特征在于，包括：

信息获取模块，被配置为响应于针对目标视频的触发操作，从所述目标视频中确定出图像帧，并获取所述触发操作在所述图像帧中的位置信息；

数据输出模块，被配置为根据所述图像帧和所述位置信息得到实例分割图和关键词；

序列生成模块，被配置为根据所述实例分割图和所述关键词分别进行搜索，得到与所述实例分割图和所述关键词对应的两个对象序列；

融合处理模块，被配置为对所述两个对象序列进行融合处理，生成所述目标视频的推荐对象序列。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任意一项所述的对象推荐方法。

11.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-8中任意一项所述的对象推荐方法。