CN114399699A

CN114399699A - 目标推荐对象确定方法、装置、电子设备及存储介质

Info

Publication number: CN114399699A
Application number: CN202111480805.7A
Authority: CN
Inventors: 邓桥; 黄浩; 付嘉懿
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-04-26

Abstract

本公开关于一种目标推荐对象确定方法、装置、电子设备及存储介质，该方法包括在目标直播间的直播流播放过程中，对目标直播间的直播帧图像进行目标检测，得到直播帧图像中目标检测对象的对象图像和目标检测对象对应的第一类目信息；基于直播帧图像对应的直播内容信息进行直播对象类目识别，得到目标直播间中直播对象的第二类目信息；基于第二类目信息和第一类目信息，从目标检测对象中，确定直播意图对象；基于直播意图对象的对象图像，从目标直播间的待推荐对象中，确定目标推荐对象。利用本公开实施例可以快速准确的从待推荐对象中自动匹配出讲解意图对应的目标推荐对象，进而提升目标推荐对象投放操作的便捷性。

Description

目标推荐对象确定方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种目标推荐对象确定方法、装置、电子设备及存储介质。

背景技术

随着互联网和直播技术的发展，基于直播的信息推广成为信息传播的新形态。其中，商品、小说、应用程序等对象的推广过程中，常常需要将相应的对象推荐信息投放到直播间。

相关技术中，主播在某一待推荐对象讲解开始的时候，通过手动将某一对象的讲解状态设置为正在讲解的状态，可以将对应的待推荐对象的对象推荐信息以卡片等形式展示在直播页面中。然而，这种依赖人工的方式存在对象覆盖率较低，操作不便等问题。因此，如何自动准确的从大量的待推荐对象中确定出直播流中讲解的对象已经变成亟待解决的问题。

发明内容

本公开提供一种目标推荐对象确定方法、装置、电子设备及存储介质，可以快速准确的从待推荐对象中自动匹配出讲解意图对应的推荐对象，进而提升推荐对象投放操作的便捷性。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种目标推荐对象确定方法，包括：

在目标直播间的直播流播放过程中，对所述目标直播间的直播帧图像进行目标检测，得到所述直播帧图像中目标检测对象的对象图像和所述目标检测对象对应的第一类目信息；

基于所述直播帧图像对应的直播内容信息进行直播对象类目识别，得到所述目标直播间中直播对象的第二类目信息；

基于所述第二类目信息和所述第一类目信息，从所述目标检测对象中，确定直播意图对象；

基于所述直播意图对象的对象图像，从所述目标直播间的待推荐对象中，确定目标推荐对象。

可选的，所述基于所述直播意图对象的对象图像，从所述目标直播间的待推荐对象中，确定目标推荐对象包括：

获取所述待推荐对象的对象图像；

将所述待推荐对象的对象图像和所述直播意图对象的对象图像，分别输入细粒度表征网络进行细粒度表征，分别得到所述直播意图对象对应的第一细粒度特征信息和所述待推荐对象对应的第二细粒度特征信息；

基于所述第一细粒度特征信息和所述第二细粒度特征信息，从所述待推荐对象中匹配出初始推荐对象；

将所述直播意图对象的对象图像和所述直播意图对象对应的语音识别文本信息，输入多模态表征网络进行多模态表征，得到所述直播意图对象对应的第一多模态特征信息；

将所述初始推荐对象的对象图像和所述初始推荐对象对应的关联文本信息输入多模态表征网络进行多模态表征，得到所述初始推荐对象对应的第二多模态特征信息；

基于所述第一多模态特征信息和所述第二多模态特征信息，从所述初始推荐对象中匹配出所述目标推荐对象。

可选的，所述基于所述第一细粒度特征信息和所述第二细粒度特征信息，从所述待推荐对象中匹配出初始推荐对象包括：

根据所述第一细粒度特征信息和所述第二细粒度特征信息，确定所述直播意图对象和所述待推荐对象间的第一匹配信息；

基于所述第一匹配信息，从所述待推荐对象中匹配出所述初始推荐对象；

所述基于所述第一多模态特征信息和所述第二多模态特征信息，从所述初始推荐对象中匹配出所述目标推荐对象包括：

根据所述第一多模态特征信息和所述第二多模态特征信息，确定所述直播意图对象和所述初始推荐对象间的第二匹配信息；

基于所述第二匹配信息，从所述初始推荐对象中匹配出所述目标推荐对象。

可选的，所述方法还包括：

根据所述第一匹配信息和所述第二匹配信息，确定目标匹配信息；

所述基于所述第二匹配信息，从所述初始推荐对象中匹配出所述目标推荐对象包括：

基于所述目标匹配信息，从所述初始推荐对象中匹配出所述目标推荐对象。

可选的，所述方法还包括：

获取第一样本对象的样本对象图像和所述第一样本对象的第一目标类别标识；

将所述样本对象图像，输入第一深度学习网络进行细粒度表征，得到所述第一样本对象对应的样本细粒度特征信息；

将所述样本细粒度特征信息输入第一预设分类网络进行分类处理，得到第一预测分类信息；

基于所述第一预测分类信息和所述第一目标类别标识，确定第一目标损失信息；

基于所述第一目标损失信息，训练所述第一预设分类网络和所述第一深度学习网络；

将训练好的第一深度学习网络，作为所述细粒度表征网络。

可选的，所述第一预测分类信息包括所述第一样本对象的第一预测类别标识；所述第一目标损失信息包括类别标识损失；

所述基于所述第一预测分类信息和所述第一目标类别标识，确定第一目标损失信息包括：

根据所述第一预测类别标识和所述第一目标类别标识，确定所述类别标识损失。

可选的，所述第一目标损失信息还包括类目损失和/或类别度量损失；

在所述第一目标损失包括所述类目损失的情况下，所述第一预测分类信息还包括所述第一样本对象的预测类目信息；

在所述第一目标损失包括所述类别度量损失的情况下，所述第一样本对象包括正样本对象对象对和负样本对象对象对，所述正样本对象对象对为同一样本对象对应的样本直播意图对象和样本推荐对象，所述负样本对象对象对为不同样本对象对应的样本直播意图对象和样本推荐对象；所述第一预测分类信息还包括所述正样本对象对象对中对象的第一分类特征信息和所述负样本对象对象对中对象的第二分类特征信息；

所述基于所述第一预测分类信息和所述第一目标类别标识，确定第一目标损失信息还包括：

获取所述第一样本对象的目标类目信息；

根据所述目标类目信息和所述预测类目信息，确定所述类目损失；

和/或，

根据所述第一分类特征信息，确定所述正样本对象对中对象间的第一类别相似度；

根据所述第二分类特征信息，确定所述负样本对象对中对象间的第二类别相似度；

根据所述第一类别相似度和所述第二类别相似度，确定所述类别度量损失。

可选的，所述方法还包括：

获取第二样本对象的样本对象图像、所述第二样本对象的对象文本信息和所述第二样本对象的第二目标类别标识；

将所述样本对象图像、所述对象文本信息输入第二深度学习网络进行多模态表征，得到所述第二样本对象对应的样本多模态特征信息；

将所述样本多模态特征信息输入第二预设分类网络进行分类处理，得到第二预测分类信息；

基于所述第二预测分类信息和所述第二目标类别标识，确定第二目标损失信息；

基于所述第二目标损失信息，训练所述第二预设分类网络和所述第二深度学习网络；

将训练好的第二深度学习网络，作为所述多模态表征网络。

获取所述待推荐对象的对象图像；

将所述待推荐对象的对象图像和所述直播意图对象的对象图像，分别输入特征表征网络进行对象特征表征，分别得到所述待推荐对象的第一对象特征信息和所述直播意图对象的第二对象特征信息；

基于所述第一对象特征信息和所述第二对象特征信息，从所述待推荐对象中匹配出所述目标推荐对象。

可选的，所述对所述目标直播间的直播帧图像进行目标检测，得到所述直播帧图像中目标检测对象的对象图像和所述目标检测对象对应的第一类目信息包括：

将所述直播帧图像输入目标检测网络进行目标检测，得到所述目标检测对象的对象图像和所述目标检测对象对应的第一类目信息。

可选的，所述方法还包括：

获取标注样本图像和非标注样本图像，所述标注样本图像为具有对象检测信息标注的样本对象图像；

基于所述标注样本图像，对待训练检测网络进行目标检测训练，得到初始检测网络；

将所述非标注样本图像输入所述初始检测网络进行目标检测，得到所述非标注样本图像中第三样本对象的样本类目信息和类目置信数据；

根据所述类目置信数据，从所述非标注样本图像中，确定目标样本图像；

基于所述目标样本图像对应的样本类目信息对所述目标样本图像进行类目标注，得到增量标注样本图像；

基于所述标注样本图像和所述增量标注样本图像，对初始检测网络进行目标检测训练，得到目标检测网络。

可选的，所述基于所述直播帧图像对应的直播内容信息进行直播对象类目识别，得到所述目标直播间中直播对象的第二类目信息包括：

将所述直播内容信息输入类目识别网络进行类目识别，得到所述第二类目信息。

可选的，所述方法还包括：

将所述目标推荐对象的对象推荐信息，展示在所述目标直播间对应的直播页面。

根据本公开实施例的第二方面，提供一种目标推荐对象确定装置，包括：

第一目标检测模块，被配置为执行在目标直播间的直播流播放过程中，对所述目标直播间的直播帧图像进行目标检测，得到所述直播帧图像中目标检测对象的对象图像和所述目标检测对象对应的第一类目信息；

类目识别模块，被配置为执行基于所述直播帧图像对应的直播内容信息进行直播对象类目识别，得到所述目标直播间中直播对象的第二类目信息；

直播意图对象确定模块，被配置为执行基于所述第二类目信息和所述第一类目信息，从所述目标检测对象中，确定直播意图对象；

目标推荐对象确定模块，被配置为执行基于所述直播意图对象的对象图像，从所述目标直播间的待推荐对象中，确定目标推荐对象。

可选的，所述目标推荐对象确定模块包括：

第一对象图像获取单元，被配置为执行获取所述待推荐对象的对象图像；

细粒度表征单元，被配置为执行将所述待推荐对象的对象图像和所述直播意图对象的对象图像，分别输入细粒度表征网络进行细粒度表征，分别得到所述直播意图对象对应的第一细粒度特征信息和所述待推荐对象对应的第二细粒度特征信息；

初始推荐对象匹配单元，被配置为执行基于所述第一细粒度特征信息和所述第二细粒度特征信息，从所述待推荐对象中匹配出初始推荐对象；

第一多模态表征单元，被配置为执行将所述直播意图对象的对象图像和所述直播意图对象对应的语音识别文本信息，输入多模态表征网络进行多模态表征，得到所述直播意图对象对应的第一多模态特征信息；

第二多模态表征单元，被配置为执行将所述初始推荐对象的对象图像和所述初始推荐对象对应的关联文本信息输入多模态表征网络进行多模态表征，得到所述初始推荐对象对应的第二多模态特征信息；

第一目标推荐对象匹配单元，被配置为执行基于所述第一多模态特征信息和所述第二多模态特征信息，从所述初始推荐对象中匹配出所述目标推荐对象。

可选的，所述初始推荐对象匹配单元包括：

第一匹配信息确定单元，被配置为执行根据所述第一细粒度特征信息和所述第二细粒度特征信息，确定所述直播意图对象和所述待推荐对象间的第一匹配信息；

初始推荐对象确定单元，被配置为执行基于所述第一匹配信息，从所述待推荐对象中匹配出所述初始推荐对象；

所述目标推荐对象匹配单元包括：

第二匹配信息确定单元，被配置为执行根据所述第一多模态特征信息和所述第二多模态特征信息，确定所述直播意图对象和所述初始推荐对象间的第二匹配信息；

目标推荐对象确定单元，被配置为执行基于所述第二匹配信息，从所述初始推荐对象中匹配出所述目标推荐对象。

可选的，所述装置还包括：

目标匹配信息确定单元，被配置为执行根据所述第一匹配信息和所述第二匹配信息，确定目标匹配信息；

所述目标推荐对象确定单元还被配置为执行基于所述目标匹配信息，从所述初始推荐对象中匹配出所述目标推荐对象。

可选的，所述装置还包括：

第一样本数据获取模块，被配置为执行获取第一样本对象的样本对象图像和所述第一样本对象的第一目标类别标识；

细粒度表征模块，被配置为执行将所述样本对象图像，输入第一深度学习网络进行细粒度表征，得到所述第一样本对象对应的样本细粒度特征信息；

第一分类处理模块，被配置为执行将所述样本细粒度特征信息输入第一预设分类网络进行分类处理，得到第一预测分类信息；

第一目标损失信息确定模块，被配置为执行基于所述第一预测分类信息和所述第一目标类别标识，确定第一目标损失信息；

第一网络训练模块，被配置为执行基于所述第一目标损失信息，训练所述第一预设分类网络和所述第一深度学习网络；

细粒度表征网络确定模块，被配置为执行将训练好的第一深度学习网络，作为所述细粒度表征网络。

所述第一目标损失信息确定模块包括：

类别标识损失确定单元，被配置为执行根据所述第一预测类别标识和所述第一目标类别标识，确定所述类别标识损失。

所述第一目标损失信息确定模块还包括：

目标类目信息获取单元，被配置为执行获取所述第一样本对象的目标类目信息；

类目损失确定单元，被配置为执行根据所述目标类目信息和所述预测类目信息，确定所述类目损失；

和/或，

第一类别相似度确定单元，被配置为执行根据所述第一分类特征信息，确定所述正样本对象对中对象间的第一类别相似度；

第二类别相似度确定单元，被配置为执行根据所述第二分类特征信息，确定所述负样本对象对中对象间的第二类别相似度；

类别度量损失确定单元，被配置为执行根据所述第一类别相似度和所述第二类别相似度，确定所述类别度量损失。

可选的，所述装置还包括：

第二样本数据获取模块，被配置为执行获取第二样本对象的样本对象图像、所述第二样本对象的对象文本信息和所述第二样本对象的第二目标类别标识；

多模态表征模块，被配置为执行将所述样本对象图像、所述对象文本信息输入第二深度学习网络进行多模态表征，得到所述第二样本对象对应的样本多模态特征信息；

第二分类处理模块，被配置为执行将所述样本多模态特征信息输入第二预设分类网络进行分类处理，得到第二预测分类信息；

第二目标损失信息确定模块，被配置为执行基于所述第二预测分类信息和所述第二目标类别标识，确定第二目标损失信息；

第二网络训练模块，被配置为执行基于所述第二目标损失信息，训练所述第二预设分类网络和所述第二深度学习网络；

多模态表征网络确定模块，被配置为执行将训练好的第二深度学习网络，作为所述多模态表征网络。

可选的，所述目标推荐对象确定模块包括：

第二对象图像获取单元，被配置为执行获取所述待推荐对象的对象图像；

对象特征表征单元，被配置为执行将所述待推荐对象的对象图像和所述直播意图对象的对象图像，分别输入特征表征网络进行对象特征表征，分别得到所述待推荐对象的第一对象特征信息和所述直播意图对象的第二对象特征信息；

第二目标推荐对象匹配单元，被配置为执行基于所述第一对象特征信息和所述第二对象特征信息，从所述待推荐对象中匹配出所述目标推荐对象。

可选的，所述第一目标检测模块还被配置为执行将所述直播帧图像输入目标检测网络进行目标检测，得到所述目标检测对象的对象图像和所述目标检测对象对应的第一类目信息。

可选的，所述装置还包括：

样本图像获取模块，被配置为执行获取标注样本图像和非标注样本图像，所述标注样本图像为具有对象检测信息标注的样本对象图像；

第一检测网络训练模块，被配置为执行基于所述标注样本图像，对待训练检测网络进行目标检测训练，得到初始检测网络；

第二目标检测模块，被配置为执行将所述非标注样本图像输入所述初始检测网络进行目标检测，得到所述非标注样本图像中第三样本对象的样本类目信息和类目置信数据；

目标样本图像确定模块，被配置为执行根据所述类目置信数据，从所述非标注样本图像中，确定目标样本图像；

类目标注模块，被配置为执行基于所述目标样本图像对应的样本类目信息对所述目标样本图像进行类目标注，得到增量标注样本图像；

第二检测网络训练模块，被配置为执行基于所述标注样本图像和所述增量标注样本图像，对初始检测网络进行目标检测训练，得到目标检测网络。

可选的，所述类目识别模块还被配置为执行将所述直播内容信息输入类目识别网络进行类目识别，得到所述第二类目信息。

可选的，所述装置还包括：

对象推荐信息展示模块，被配置为执行将所述目标推荐对象的对象推荐信息，展示在所述目标直播间对应的直播页面。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一项所述方法。

根据本公开实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一方面中任一项所述方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在直播流播放过程中，在对直播帧图像进行目标检测，提取出直播画面中展示对象(目标检测对象)的对象图像和展示对象对应的第一类目信息之后，结合对该直播帧图像对应的直播内容信息进行直播对象类目识别，可以识别出的直播间正在讲解的对象的第二类目信息；并基于第一类目信息和第二类目信息，对检测出的目标检测对象进行筛选，可以准确的识别出当前直播画面讲解意图上的目标推荐对象，有效避免仅从视觉维度识别出的目标推荐对象准确性低的问题，大大提升直播意图对象识别的准确性和覆盖率，进而提升后续目标推荐对象投放操作的便捷性和投放操作效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种目标推荐对象确定方法的流程图；

图2是根据一示例性实施例示出的一种预先训练出目标检测网络的流程图；

图3是根据一示例性实施例示出的一种基于直播意图对象的对象图像，从目标直播间的待推荐对象中，确定目标推荐对象的流程图；

图4是根据一示例性实施例示出的一种预先训练出细粒度表征网络的流程图；

图5是根据一示例性实施例示出的一种预先训练出多模态表征网络的流程图；

图6是根据一示例性实施例示出的另一种目标推荐对象确定方法的流程图；

图7是根据一示例性实施例示出的一种目标推荐对象确定装置框图；

图8是根据一示例性实施例示出的一种用于目标推荐对象确定的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图1是根据一示例性实施例示出的一种目标推荐对象确定方法的流程图，如图1所示，该目标推荐对象确定方法用于终端电子设备中，包括以下步骤。

在步骤S101中，在目标直播间的直播流播放过程中，对目标直播间的直播帧图像进行目标检测，得到直播帧图像中目标检测对象的对象图像和目标检测对象对应的第一类目信息。

在一个具体的实施例中，上述目标直播间的直播流播放过程中，可以为目标直播间的直播过程中，也可以为目标直播间的直播流回放过程中。具体的，目标直播间可以为任一可以进行对象推荐的直播间。

在一个具体的实施例中，可以按帧对直播帧图像进行目标检测，相应的，可以按照预设频率抽取目标直播间的某一帧直播图像，例如每10s抽取一帧直播图像(直播帧图像)，具体的，预设频率可以结合实际应用预先设置。相应的，上述目标直播间的直播帧图像可以为按照预设频率抽取的目标直播间的某一帧直播图像。

在另一个具体的实施例中，也可以按片段进行目标检测，相应的，上述目标直播间的直播帧图像可以为预设检测周期的直播片段中每一帧直播图像。具体的，预设检测周期可以结合实际应用预先进行设置。

本说明书实施例中，按帧或者按片段进行目标检测，可以结合实际应用场景下性能需求进行设置。

在一个可选的实施例中，可以结合目标检测网络进行目标检测，相应的，上述对目标直播间的直播帧图像进行目标检测，得到直播帧图像中目标检测对象的对象图像和目标检测对象对应的第一类目信息可以包括：

将直播帧图像输入目标检测网络进行目标检测，得到目标检测对象的对象图像和目标检测对象对应的第一类目信息。

在一个具体的实施例中，上述目标检测网络可以为预先基于标注样本图像对待训练检测网络进行目标检测训练得到的。具体的，上述标注样本图像可以为具有对象检测信息标注的样本对象图像，具体的，对象检测信息可以包括样本对象图像中对象所在区域的位置信息和对象类目信息。可选的，上述目标检测网络输出的可以为目标检测对象在直播帧图像中的位置信息和目标检测对象对应的类目信息(第一类目信息)，相应的，可以基于目标检测对象在直播帧图像中的位置信息确定出目标检测对象的对象图像。

在一个具体的实施例中，待训练检测网络(深度学习网络)的网络结构可以结合实际应用进行设置。

此外，需要说明的是，在实际应用中，目标检测并不仅限于结合上述基于深度学习获取的目标检测网络，还可以结合传统的目标检测算法，即通常用滑动窗口的方式，将滑动窗口，在检测图像上滑动，依次选取感兴趣区域，分别对滑动的每个窗口进行特征提取，比如基于HOG(Histogram ofOriented Gradient，方向梯度直方图)等特征提取算法进行特征提取，之后对提取的特征利用机器学习算法，比如支持向量机等进行分类，最终得到该窗口是否包含某一类对象的检测信息。

上述实施例中，将直播帧图像输入目标检测网络进行目标检测，可以快速精准的提取出直播画面中对象图像和对应的类目信息。

在一个可选的实施例中，上述方法还包括：预先训练出目标检测网络的步骤，具体的，如图2所示，预先训练出目标检测网络可以包括以下步骤：

在步骤S201中，获取标注样本图像和非标注样本图像；

在步骤S203中，基于标注样本图像，对待训练检测网络进行目标检测训练，得到初始检测网络；

在步骤S205中，将非标注样本图像输入初始检测网络进行目标检测，得到非标注样本图像中第三样本对象的样本类目信息和类目置信数据；

在步骤S207中，根据类目置信数据，从非标注样本图像中，确定目标样本图像；

在步骤S209中，基于目标样本图像对应的样本类目信息对目标样本图像进行类目标注，得到增量标注样本图像；

在步骤S211中，基于标注样本图像和增量标注样本图像，对初始检测网络进行目标检测训练，得到目标检测网络。

在一个具体的实施例中，上述标注样本图像可以为具有对象检测信息标注的样本对象图像，相应的，非标注样本图可以为不具有对象检测信息标注的样本对象图像。

在一个具体的实施例中，基于标注样本图像，对待训练检测网络进行目标检测训练，得到初始检测网络可以包括将标注样本图像输入待训练检测网络进行目标检测，得到标注样本图像中预测检测信息(待训练检测网络预测的标注样本图像中对象所在区域的位置信息和对象类目信息)；并根据预测检测信息和标注的对象检测信息，确定检测损失信息；基于检测损失信息，更新待训练检测网络中的网络参数；接着，基于更新后的待训练检测网络重复上述将标注样本图像输入待训练检测网络进行目标检测，得到标注样本图像中预测检测信息至基于检测损失信息，更新待训练检测网络中的网络参数的训练迭代操作，直至达到检测收敛条件。在达到检测收敛条件的情况下，将当前的待训练检测网络作为上述初始检测网络。

在一个可选的实施例中，上述达到检测收敛条件可以为训练迭代操作的次数达到第一预设训练次数。可选的，达到检测收敛条件也可以为检测损失信息小于指定阈值。本说明书实施例中，第一预设训练次数和指定阈值可以结合实际应用中对网络的训练速度和精准度预先设置。

在一个具体的实施例中，在得到初始检测网络之后，可以将非标注样本图像输入初始检测网络进行目标检测，得到非标注样本图像中第三样本对象的样本类目信息和类目置信数据。具体的，类目置信数据可以表征初始检测网络预测出的第三样本对象的样本类目信息的准确概率。可选的，可以将类目置信数据较高的非标注样本图像作为目标样本图像。例如可以将类目置信数据大于第一预设置信度的非标注样本图像作为目标样本图像，也可以将类目置信数据较大的前第一预设数量个非标注样本图像作为目标样本图。可选的，也可以也可以将中置信度的样本对象图像(类目置信数据小于等于第一预设置信度，且大于第二预设置信度的样本对象图像)通过人工纠正后也加入样本对象图像。进一步的，基于初始检测网络预测出的目标样本图像对应的样本类目信息对目标样本图像进行类目标注，可以得到增量标注样本图像。

在一个具体的实施例中，第一预设数量、第一预设置信度、第二预设置信度可以结合实际应用预先设置，第一预设置信度大于第二预设置信度。

在一个具体的实施例中，基于标注样本图像和增量标注样本图像，对初始检测网络进行目标检测训练，得到目标检测网络的具体细化步骤，可以参见上述基于标注样本图像，对待训练检测网络进行目标检测训练，得到初始检测网络的具体细化，在此不再赘述。

上述实施例中，在基于标注样本图像对待训练检测网络进行训练后，结合初始检测网络从非标注样本图像中提取增量标注样本图像，可以快速获得海量的训练数据，有效降低标注成本，提升网络训练速度和效率。

在步骤S103中，基于直播帧图像对应的直播内容信息进行直播对象类目识别，得到目标直播间中直播对象的第二类目信息。

在一个具体的实施例中，可以预先设置直播内容信息的采集周期(以下简称预设采集周期)，相应的，在目标直播间的直播流播放过程中，可以按照预设采集周期进行直播内容信息的采集，并结合采集的直播内容信息进行直播对象类目识别。可选的，直播内容信息可以为能够反映目标直播间直播过程中所讲解的对象的信息。可选的，直播内容信息可以包括直播帧图像和直播语音信息。

在一个具体的实施例中，在按帧对直播帧图像进行目标检测的情况下，上述预设采集周期的结束时间可以为上述直播帧图像对应的采集时间。在按片段进行目标检测的情况下，上述预设采集周期可以与预设检测周期相同。

在一个具体的实施例中，可以在每个预设采集周期内等频抽帧第二预设数量帧直播图像(直播帧图像)，以及该第二预设数量帧直播图像对应的直播语音信息；并将该第二预设数量帧直播图像和该第二预设数量帧直播图像对应的直播语音信息作为相应的预设采集周期内的直播内容信息。具体的，抽帧频率可以结合实际应用预先设置，例如每10s抽取一帧直播图像。

在另一个具体的实施例中，可以获取每个预设采集周期内每一帧直播图像(直播帧图像)，以及该每一帧直播图像对应的直播语音信息；并将每一帧直播图像和每一帧直播图像对应的直播语音信息作为相应的预设采集周期内的直播内容信息。

在一个可选的实施例中，可以结合预先训练好的类目识别网络来进行直播对象类目识别。相应的，上述基于直播帧图像对应的直播内容信息进行直播对象类目识别，得到目标直播间中直播对象的第二类目信息可以包括：

将直播内容信息输入类目识别网络进行类目识别，得到第二类目信息。

在一个具体的实施例中，对象可以包括但不限于直播过程中需要推广的对象，例如商品、应用程序等。对象的类目可以结合实际应用进行设定，例如商品对应的类目可以包括电子产品、化妆品类、服饰类等。

在一个具体的实施例中，基于直播内容信息进行直播对象类目识别，所识别出的目标直播间中直播对象的第二类目信息可以为通过对直播内容信息的语义理解所确定出的直播流播放过程中正在讲解的对象的类目信息。

在一个具体的实施例中，类目识别网络可以为预先基于样本对象对应的直播内容信息(例如包括对象的图像和用于讲解对象的语音信息)和样本对象对应的类目信息对第三深度学习网络进行类目识别训练得到的。在一个具体的实施例中，类目识别网络(第三深度学习网络)的网络结构可以结合实际应用需求预先设置。相应的，训练好的类目识别网络可以用于进行类目识别。

此外，需要说明的是，在直播内容信息包括直播语音信息的情况下，可以将直播语音信息转换成相应的文本信息后，输入上述类目识别网络。且直播对象类目识别也并不仅限于上述结合类目识别网络，例如基于直播内容信息，提取HOG特征和颜色直方图，然后，结合svm(支持向量机)进行直播对象类目识别。

上述实施例中，将直播内容信息输入类目识别网络进行类目识别，可以结合对直播内容信息的语义理解，快速精准的识别出直播间正在讲解的对象的类目信息。

在步骤S105中，基于第二类目信息和第一类目信息，从目标检测对象中，确定直播意图对象。

在一个具体的实施例中，可以将目标检测对象中类目信息(第一类目信息)与第二类目信息相同的检测对象作为直播意图对象。

本说明书实施例中，结合对直播内容信息的语义理解所识别出的直播间正在讲解的对象的第二类目信息，对检测出的目标检测对象进行筛选，可以识别出讲解意图上的推荐对象，进而可以避免仅从视觉维度识别出的推荐对象准确性低，无法应对复杂直播场景(直播画面中对象较多的场景)下的对象识别等问题，大大提升直播意图对象识别的准确性。

在步骤S107中，基于直播意图对象的对象图像，从目标直播间的待推荐对象中，确定目标推荐对象。

在一个具体的实施例中，目标直播间的待推荐对象可以为目标直播间可推荐的对象，具体的，待推荐对象可以包括多个对象。

在一个可选的实施例中，如图3所示，上述基于直播意图对象的对象图像，从目标直播间的待推荐对象中，确定目标推荐对象可以包括：

在步骤S301中，获取待推荐对象的对象图像。

在步骤S303中，将待推荐对象的对象图像和直播意图对象的对象图像，分别输入细粒度表征网络进行细粒度表征，分别得到直播意图对象对应的第一细粒度特征信息和待推荐对象对应的第二细粒度特征信息；

在步骤S305中，基于第一细粒度特征信息和第二细粒度特征信息，从待推荐对象中匹配出初始推荐对象；

在步骤S307中，将直播意图对象的对象图像和直播意图对象对应的语音识别文本信息，输入多模态表征网络进行多模态表征，得到直播意图对象对应的第一多模态特征信息；

在步骤S309中，将初始推荐对象的对象图像和初始推荐对象对应的关联文本信息输入多模态表征网络进行多模态表征，得到初始推荐对象对应的第二多模态特征信息；

在步骤S311中，基于第一多模态特征信息和第二多模态特征信息，从初始推荐对象中匹配出目标推荐对象。

在实际应用中，获取预先获取待推荐对象的推荐图像，一般的，推荐图像中可以包括待推荐对象。可选的，可以预先对待推荐对象的推荐图像进行目标检测，以获取待推荐对象的对象图像。可选的，也可以在目标直播间的直播流播放过程中，对待推荐对象的推荐图像进行目标检测，以获取待推荐对象的对象图像。在一个具体的实施例中，对待推荐对象的推荐图像进行目标检测的具体细化，可以参见上述对目标直播间的直播帧图像进行目标检测的具体细化，在此不再赘述。

在一个具体的实施例中，可以结合目标检测网络对待推荐对象的推荐图像进行目标检测，相应的，可以获取待推荐对象的对象图像和对应的对象置信数据。具体的，对象置信数据可以表征目标检测网络预测出的待推荐对象在推荐图像中位置信息的准确概率；可选的，可以将对象置信数据大于预设对象置信度的对象图像作为上述待推荐对象的对象图像。具体的，预设对象置信度可以结合实际应用预先设置。

在一个具体的实施例中，细粒度表征网络可以为预先基于具有类别标识标注的样本对象图像，对第一深度学习网络进行细粒度表征训练得到的。

在一个具体的实施例中，多模态表征网络可以为预先基于具有类别标识标注的样本对象图像和样本对象图像对应的对象文本信息，对第二深度学习网络进行多模态表征训练得到的。

在一个具体的实施例中，直播意图对象对应的语音识别文本信息可以为直播意图对象对应直播语音的文本信息；初始推荐对象对应的关联文本信息可以为用于描述初始推荐对象的文本信息，具体的，例如对象推荐标题、对象推荐简介信息和从对象推荐图像中识别出的文本信息等。

在一个具体的实施例中，第一细粒度特征信息可以为能够反映直播意图对象的细粒度特征的信息；待推荐对象对应的第二细粒度特征信息可以为能够反映待推荐对象的细粒度特征的信息。

在一个具体的实施例中，第一多模态特征信息可以为能够反映直播意图对象的多模态特征的信息；待推荐对象对应的第二多模态特征信息可以为能够反映初始推荐对象的多模态特征的信息。

在一个可选的实施例中，上述基于第一细粒度特征信息和第二细粒度特征信息，从待推荐对象中匹配出初始推荐对象可以包括：

根据第一细粒度特征信息和第二细粒度特征信息，确定直播意图对象和待推荐对象间的第一匹配信息；

基于第一匹配信息，从待推荐对象中匹配出初始推荐对象；

在一个具体的实施例中，上述待推荐对象可以包括多个对象。相应的，直播意图对象和待推荐对象间的第一匹配信息可以从对象对应的细粒度特征维度来表征直播意图对象和待推荐对象中每个对象间的匹配程度。可选的，可以通过确定第一细粒度特征信息和每个对象的第二细粒度特征信息间的距离，将该距离作为直播意图对象和待推荐对象中每个对象间的第一匹配信息。

在一个具体的实施例中，第一细粒度特征信息和第二细粒度特征信息间的距离可以包括但不限于余弦距离、欧式距离和曼哈顿距离等。

在一个可选的实施例中，可以将与直播意图对象间的第一匹配信息对应数值大于等于第一预设关联阈值的对象作为上述初始推荐对象，也可以将与直播意图对象间的第一匹配信息对应数值较大的前第三预设数量个对象作为上述初始推荐对象。

在一个具体的实施例中，第一预设关联阈值和第三预设数量可以结合实际应用预先设置。

在一个具体的实施例中，上述基于第一多模态特征信息和第二多模态特征信息，从初始推荐对象中匹配出目标推荐对象可以包括：

根据第一多模态特征信息和第二多模态特征信息，确定直播意图对象和初始推荐对象间的第二匹配信息；

基于第二匹配信息，从初始推荐对象中匹配出目标推荐对象。

在一个具体的实施例中，初始推荐对象可以包括多个对象。相应的，直播意图对象和初始推荐对象间的第二匹配信息可以从对象对应的多模态特征维度来表征直播意图对象和初始推荐对象中每个对象间的匹配程度。可选的，可以通过确定第一多模态特征信息和每个对象的第二多模态特征信息间的距离，将该距离作为直播意图对象和初始直播对中每个对象间的第二匹配信息。

在一个具体的实施例中，第一多模态特征信息和第二多模态特征信息间的距离可以包括但不限于余弦距离、欧式距离和曼哈顿距离等。

在一个可选的实施例中，直播意图对象可以为一个对象，可选的，目标推荐对象也可以为一个对象，相应的，可以将与直播意图对象间的第二匹配信息对应数值最大的对象作为上述目标推荐对象。

在一个可选的实施例中，目标推荐对象也可以为多个对象，可选的，可以将与直播意图对象间的第二匹配信息对应数值最大的大于等于第二预设关联阈值的对象作为上述目标推荐对象，也可以将与直播意图对象间的第二匹配信息对应数值较大的前第四预设数量个对象作为上述目标推荐对象。

在一个具体的实施例中，第二预设关联阈值和第四预设数量可以结合实际应用预先设置。

上述实施例中，结合对象对应的细粒度特征和多模态特征，进行了两阶段的对象匹配；在第一阶段，先结合对象图像的细粒度特征对待筛选对象进行了匹配筛选，接着，在第二阶段，利用对象图像以及相关文本信息，提取了对象对应的多模态特征，并结合多模态特征在再次进行匹配，可以大大提升匹配出的目标推荐对象的精准度。另外，在结合细粒度特征和多模态特征进行对象匹配的过程中，先后分别结合细粒度特征和多模态特征来表征对象间的匹配程度，可以有效提升对对象间匹配程度度量的精准性。

在一个可选的实施例中，上述方法还可以包括：

根据第一匹配信息和第二匹配信息，确定目标匹配信息；

基于第二匹配信息，从初始推荐对象中匹配出目标推荐对象包括：

基于目标匹配信息，从初始推荐对象中匹配出目标推荐对象。

在一个具体的实施例中，可以对直播意图对象和初始推荐对象间的第一匹配信息和第二匹配信息进行加权处理，得到上述目标匹配信息。具体的，第一匹配信息和第二匹配信息各自对应的权重可以结合实际应用应用需求中，细粒度特征和多模态特征在对象表征特征中所占比重进行设置。相应的，目标匹配信息可以从对象对应的细粒度特征和多模态特征维度来表征直播意图对象和初始推荐对象中每个对象间的匹配程度。

在一个可选的实施例中，目标推荐对象可以为一个对象，可以将与直播意图对象间的目标匹配信息对应数值最大的对象作为上述目标推荐对象。

在一个可选的实施例中，目标推荐对象也可以为多个对象，可选的，可以将与直播意图对象间的目匹配信息对应数值最大的大于等于第三预设关联阈值的对象作为上述目标推荐对象，也可以将与直播意图对象间的目标匹配信息对应数值较大的前第五预设数量个对象作为上述目标推荐对象。

在一个具体的实施例中，第三预设关联阈值和第五预设数量可以结合实际应用预先设置。

上述实施例中，在结合对象对应的细粒度特征和多模态特征，进行了两阶段的对象匹配过程中，在第一阶段结合细粒度特征所表征的对象间的匹配信息进行对象匹配后，在第二阶段融合了细粒度特征和多模态特征所表征的对象间的匹配信息进行对象匹配，可以更好的提升对对象间匹配程度度量的精准性，进而更好的从待推荐对象中匹配出讲解意图对应的目标推荐对象，提升后续对象自动投放服务的稳定性。

在一个可选的实施例中，上述方法还可以包括：预先训练出细粒度表征网络的步骤，具体的，如图4所示，预先训练出细粒度表征网络可以包括以下步骤：

在步骤S401中，获取第一样本对象的样本对象图像和第一样本对象的第一目标类别标识；

在步骤S403中，将样本对象图像，输入第一深度学习网络进行细粒度表征，得到第一样本对象对应的样本细粒度特征信息；

在步骤S405中，将样本细粒度特征信息输入第一预设分类网络进行分类处理，得到第一预测分类信息；

在步骤S407中，基于第一预测分类信息和第一目标类别标识，确定第一目标损失信息；

在步骤S409中，基于第一目标损失信息，训练第一预设分类网络和第一深度学习网络；

在步骤S411中，将训练好的第一深度学习网络，作为细粒度表征网络。

在一个具体的实施例中，第一样本对象的样本对象图像可以为用于训练细粒度表征网络的对象图像，可选的，第一样本对象的样本对象图像可以为从大量包括对象的直播图像和/或包括对象的对象推荐图像中提取的。在一个具体的实施例中，第一样本对象的样本对象图像中可以包括多种对象的对象图像，相应的，每一种对象对应这个一个类别标识，例如对象“连衣裙”对应的类别标识可以为0、对象“运动鞋”对应的类别标识可以为1，具体的，类别标识可以为结合实际应用设置的可以区分不同对象的标识信息。

在一个具体的实施例中，在训练细粒度表征网络的过程中，可以结合分类任务的处理，相应的，可以在第一深度学习网络(待训练的细粒度表征网络)之后连接一个第一预设分类网络。

在一个可选的实施例中，上述第一预测分类信息可以包括第一样本对象的第一预测类别标识；相应的，上述第一目标损失信息可以包括类别标识损失；

相应的，上述基于第一预测分类信息和第一目标类别标识，确定第一目标损失信息可以包括：

根据第一预测类别标识和第一目标类别标识，确定类别标识损失。

在一个具体的实施例中，上述根据第一预测类别标识和第一目标类别标识，确定类别标识损失可以包括基于预设损失函数，确定第一预测类别标识和第一目标类别标识间的类别标识损失。

在一个具体的实施例中，类别标识损失可以表征第一预测类别标识和第一目标类别标识间的差异。在细粒度表征网络训练过程中，结合类别标识损失可以训练细粒度表征网络对同一对象在不同对象图像(例如直播图像和对象推荐图像)中表征一致性，进而提升细粒度表征网络的对象表征精准性的同时，保证后续结合细粒度特征进行对象匹配时，可以更好的对不同对象图像中对象匹配的准确性。

在一个具体的实施例中，预设损失函数可以包括但不限于交叉熵损失函数、逻辑损失函数、指数损失函数等。

在一个可选的实施例中，基于第一目标损失信息，训练第一预设分类网络和第一深度学习网络可以包括：基于第一目标损失信息，更新第一深度学习网络和第一预设分类网络的网络参数；基于更新后的第一深度学习网络和第一预设分类网络，重复步骤S403至基于第一目标损失信息，更新第一深度学习网络的网络参数的分类训练迭代操作，至基于第一目标损失信息，更新第一深度学习网络和第一预设分类网络的网络参数的分类迭代操作，至达到分类收敛条件；将达到分类收敛条件的情况下得到的第一深度学习网络，作为细粒度表征网络。

在一个具体的实施例中，达到分类收敛条件的具体细化可以参见上述达到检测收敛条件的具体细化，在此不再赘述。

上述实施例中，在细粒度表征网络训练过程中，结合了分类网络进行分类任务的处理，可以更好的提升细粒度表征网络对不同对象图像的表征精准性。

在一个可选的实施例中，上述第一目标损失信息还可以包括类目损失和/或类别度量损失；

在第一目标损失包括类目损失的情况下，上述第一预测分类信息还可以包括第一样本对象的预测类目信息；

在第一目标损失包括类别度量损失的情况下，第一样本对象包括正样本对象对象对和负样本对象对象对，正样本对象对象对为同一样本对象对应的样本直播意图对象和样本推荐对象，负样本对象对象对为不同样本对象对应的样本直播意图对象和样本推荐对象；第一预测分类信息还包括正样本对象对象对中对象的第一分类特征信息和负样本对象对象对中对象的第二分类特征信息；

相应的，上述基于第一预测分类信息和第一目标类别标识，确定第一目标损失信息还可以包括：

获取第一样本对象的目标类目信息；

根据目标类目信息和预测类目信息，确定类目损失；

和/或，

根据第一分类特征信息，确定正样本对象对中对象间的第一类别相似度；

根据第二分类特征信息，确定负样本对象对中对象间的第二类别相似度；

根据第一类别相似度和第二类别相似度，确定类别度量损失。

在一个具体的实施例中，上述目标类目信息可以为预先标注的第一样本对象的类目信息。上述根据目标类目信息和预测类目信息，确定类目损失的具体细化，可以参见上述根据第一预测类别标识和第一目标类别标识，确定类别标识损失的具体细化，在此不再赘述。

在一个具体的实施例中，类目损失可以表征目标类目信息和预测类目信息间的差异。在网络训练过程中，结合类目损失可以训练细粒度表征网络对相同类目下的不同对象的表征区分度，进而提升细粒度表征网络的对象表征精准性的同时，保证后续结合细粒度特征无法匹配到同一对象时，也能找到相同类目下的相似对象，更好的提升对象匹配的精准性。

在一个具体的实施例中，类别度量损失可以表征细粒度表征网络对相同对象表征精度。在网络训练过程中，结合类别度量损失可以进一步提升细粒度表征网络对相同对象和相似对象的表征区分能力，进而更好提升细粒度表征网络的对象表征精准性。

在一个具体的实施例中，正样本对象对可以包括多对对象；根据第一分类特征信息，确定正样本对象对中对象间的第一类别相似度可以包括确定每一对对象对应的第一分类特征信息间的距离，将该距离作为该对对象间的第一类别相似度。

在一个具体的实施例中，负样本对象对可以包括多对对象；根据第二分类特征信息，确定负样本对象对中对象间的第二类别相似度可以包括确定每一对对象对应的第二分类特征信息间的距离，将该距离作为该对对象间的第二类别相似度。

在一个可选的实施例中，根据第一类别相似度和第二类别相似度，确定类别度量损失可以包括将第二类别相似度减去第一类别相似度，得到类别度量损失。

此外，需要说明的是，在第一目标损失信息包括至少两种损失的情况下，可以对至少两种进行加权求和，并基于加权求和后的损失信息，更新第一深度学习网络和第一预设分类网络的网络参数。具体的，至少两种损失的权重可以结合实际应用预先设置，一般的，类别标识损失的权重相对其他损失较大。

上述实施例中，在细粒度表征网络训练过程中，结合类目损失和/或类别度量损失，可以更好的训练细粒度表征网络对相同类目下的不同对象的表征区分度，以及对相同对象和相似对象的表征区分能力，进而更好提升细粒度表征网络的对象表征精准性，保证后续结合细粒度特征无法匹配到同一对象时，也能找到相同类目下的相似对象，更好的提升后续结合细粒度进行对象匹配的精准性。

在一个可选的实施例中，上述方法还可以包括：预先训练出多模态表征网络的步骤，具体的，如图5所示，预先训练出多模态表征网络可以包括以下步骤：

在步骤S501中，获取第二样本对象的样本对象图像、第二样本对象的对象文本信息和第二样本对象的第二目标类别标识；

在步骤S503中，将样本对象图像、对象文本信息输入第二深度学习网络进行多模态表征，得到第二样本对象对应的样本多模态特征信息；

在步骤S505中，将样本多模态特征信息输入第二预设分类网络进行分类处理，得到第二预测分类信息；

在步骤S507中，基于第二预测分类信息和第二目标类别标识，确定第二目标损失信息；

在步骤S509中，基于第二目标损失信息，训练第二预设分类网络和第二深度学习网络；

在步骤S511中，将训练好的第二深度学习网络，作为多模态表征网络。

在一个具体的实施例中，第二样本对象的样本对象图像可以为用于训练多模态表征网络的对象图像。可选的，第二样本对象的样本对象图像可以为从大量包括对象的直播图像和/或包括对象的对象推荐图像中提取的。在一个具体的实施例中，第二样本对象的样本对象图像中可以包括多种对象的对象图像，相应的，每一种对象对应这个一个类别标识，例如对象“连衣裙”对应的类别标识可以为0、对象“运动鞋”对应的类别标识可以为1，具体的，类别标识可以为结合实际应用设置的可以区分不同对象的标识信息。第二样本对象的对象文本信息可以为能够描述第二样本对象的文本信息，例如第二样本对象为直播图像中的对象的情况下，对象文本信息可以为对应的直播语音识别文本信息，第二样本对象为对象推荐图像中的对象的情况下，对象文本信息可以为对象推荐标题、对象推荐简介信息和从对象推荐图像中识别出的文本信息等。

在一个具体的实施例中，上述步骤S507至S509的具体细化可以参见上述步骤S407和S409的具体细化，在此不再赘述。

上述实施例中，在多模态表征网络训练过程中，结合了分类网络进行分类任务的处理，可以更好的提升多模态表征网络对不同对象的多模态表征的精准性。

在一个可选的实施例中，在确定目标推荐对象的过程中，也可以进行单阶段的匹配，相应的，上述基于直播意图对象的对象图像，从目标直播间的待推荐对象中，确定目标推荐对象可以包括：

获取待推荐对象的对象图像；

将待推荐对象的对象图像和直播意图对象的对象图像，分别输入特征表征网络进行对象特征表征，分别得到待推荐对象的第一对象特征信息和直播意图对象的第二对象特征信息；

基于第一对象特征信息和第二对象特征信息，从待推荐对象中匹配出目标推荐对象。

在一个具体的实施例中，特征表征网络可以为样本对象图像(从大量包括对象的直播图像和/或包括对象的对象推荐图像中提取的)和样本对象图像对应的类别标识对第四深度学习网络和第三预设分类网络进行特征表征和分类联合训练得到的。在一个具体的实施例中，特征表征网络(第四深度学习网络)的网络结构可以结合实际应用需求预先设置。相应的，训练好的特征表征网络可以用于进行对象特征表征。

在一个具体的实施例中，上述基于第一对象特征信息和第二对象特征信息，从待推荐对象中匹配出目标直播对可以包括：根据第一对象特征信息和第二对象特征信息，确定直播意图对象和待推荐对象间的第三匹配信息；基于第三匹配信息，从待推荐对象中，确定目标推荐对象。

上述实施例中，结合对象对应的对象特征信息，可以快速准确的从待推荐对象中匹配出讲解意图对应的目标推荐对象。

在一个可选的实施例中，如图6所示，上述方法还可以包括以下步骤：

在步骤S109中，将目标推荐对象的对象推荐信息，展示在目标直播间对应的直播页面。

在一个具体的实施例中，对象推荐信息可以为用于描述目标推荐对象的信息，且可以用于触发目标推荐对象对应的对象转化操作。

上述实施例中，将确定出的讲解意图上的目标推荐对象的对象推荐信息，展示在直播页面，可以实现推荐对象的自动投放，大大提升推荐对象投放操作的便捷性和投放操作效率。

由以上本说明书实施例提供的技术方案，在直播流播放过程中，在对直播帧图像进行目标检测，提取出直播画面中展示对象(目标检测对象)的对象图像和展示对象对应的第一类目信息之后，结合对该直播帧图像对应的直播内容信息进行直播对象类目识别，可以识别出的直播间正在讲解的对象的第二类目信息；并基于第一类目信息和第二类目信息，对检测出的目标检测对象进行筛选，可以准确的识别出当前直播画面讲解意图上的目标推荐对象，有效避免仅从视觉维度识别出的目标推荐对象准确性低的问题，大大提升直播意图对象识别的准确性和覆盖率，进而提升后续目标推荐对象投放操作的便捷性和投放操作效率。

图7是根据一示例性实施例示出的一种目标推荐对象确定装置框图。参照图7，该装置包括：

第一目标检测模块710，被配置为执行在目标直播间的直播流播放过程中，对目标直播间的直播帧图像进行目标检测，得到直播帧图像中目标检测对象的对象图像和目标检测对象对应的第一类目信息；

类目识别模块720，被配置为执行基于直播帧图像对应的直播内容信息进行直播对象类目识别，得到目标直播间中直播对象的第二类目信息；

直播意图对象确定模块730，被配置为执行基于第二类目信息和第一类目信息，从目标检测对象中，确定直播意图对象；

目标推荐对象确定模块740，被配置为执行基于直播意图对象的对象图像，从目标直播间的待推荐对象中，确定目标推荐对象。

可选的，目标推荐对象确定模块740包括：

第一对象图像获取单元，被配置为执行获取待推荐对象的对象图像；

细粒度表征单元，被配置为执行将待推荐对象的对象图像和直播意图对象的对象图像，分别输入细粒度表征网络进行细粒度表征，分别得到直播意图对象对应的第一细粒度特征信息和待推荐对象对应的第二细粒度特征信息；

初始推荐对象匹配单元，被配置为执行基于第一细粒度特征信息和第二细粒度特征信息，从待推荐对象中匹配出初始推荐对象；

第一多模态表征单元，被配置为执行将直播意图对象的对象图像和直播意图对象对应的语音识别文本信息，输入多模态表征网络进行多模态表征，得到直播意图对象对应的第一多模态特征信息；

第二多模态表征单元，被配置为执行将初始推荐对象的对象图像和初始推荐对象对应的关联文本信息输入多模态表征网络进行多模态表征，得到初始推荐对象对应的第二多模态特征信息；

第一目标推荐对象匹配单元，被配置为执行基于第一多模态特征信息和第二多模态特征信息，从初始推荐对象中匹配出目标推荐对象。

可选的，初始推荐对象匹配单元包括：

第一匹配信息确定单元，被配置为执行根据第一细粒度特征信息和第二细粒度特征信息，确定直播意图对象和待推荐对象间的第一匹配信息；

初始推荐对象确定单元，被配置为执行基于第一匹配信息，从待推荐对象中匹配出初始推荐对象；

目标推荐对象匹配单元包括：

第二匹配信息确定单元，被配置为执行根据第一多模态特征信息和第二多模态特征信息，确定直播意图对象和初始推荐对象间的第二匹配信息；

目标推荐对象确定单元，被配置为执行基于第二匹配信息，从初始推荐对象中匹配出目标推荐对象。

可选的，上述装置还包括：

目标匹配信息确定单元，被配置为执行根据第一匹配信息和第二匹配信息，确定目标匹配信息；

目标推荐对象确定单元还被配置为执行基于目标匹配信息，从初始推荐对象中匹配出目标推荐对象。

可选的，上述装置还包括：

第一样本数据获取模块，被配置为执行获取第一样本对象的样本对象图像和第一样本对象的第一目标类别标识；

细粒度表征模块，被配置为执行将样本对象图像，输入第一深度学习网络进行细粒度表征，得到第一样本对象对应的样本细粒度特征信息；

第一分类处理模块，被配置为执行将样本细粒度特征信息输入第一预设分类网络进行分类处理，得到第一预测分类信息；

第一目标损失信息确定模块，被配置为执行基于第一预测分类信息和第一目标类别标识，确定第一目标损失信息；

第一网络训练模块，被配置为执行基于第一目标损失信息，训练第一预设分类网络和第一深度学习网络；

细粒度表征网络确定模块，被配置为执行将训练好的第一深度学习网络，作为细粒度表征网络。

可选的，第一预测分类信息包括第一样本对象的第一预测类别标识；第一目标损失信息包括类别标识损失；

第一目标损失信息确定模块包括：

类别标识损失确定单元，被配置为执行根据第一预测类别标识和第一目标类别标识，确定类别标识损失。

可选的，第一目标损失信息还包括类目损失和/或类别度量损失；

在第一目标损失包括类目损失的情况下，第一预测分类信息还包括第一样本对象的预测类目信息；

第一目标损失信息确定模块还包括：

目标类目信息获取单元，被配置为执行获取第一样本对象的目标类目信息；

类目损失确定单元，被配置为执行根据目标类目信息和预测类目信息，确定类目损失；

和/或，

第一类别相似度确定单元，被配置为执行根据第一分类特征信息，确定正样本对象对中对象间的第一类别相似度；

第二类别相似度确定单元，被配置为执行根据第二分类特征信息，确定负样本对象对中对象间的第二类别相似度；

类别度量损失确定单元，被配置为执行根据第一类别相似度和第二类别相似度，确定类别度量损失。

可选的，上述装置还包括：

第二样本数据获取模块，被配置为执行获取第二样本对象的样本对象图像、第二样本对象的对象文本信息和第二样本对象的第二目标类别标识；

多模态表征模块，被配置为执行将样本对象图像、对象文本信息输入第二深度学习网络进行多模态表征，得到第二样本对象对应的样本多模态特征信息；

第二分类处理模块，被配置为执行将样本多模态特征信息输入第二预设分类网络进行分类处理，得到第二预测分类信息；

第二目标损失信息确定模块，被配置为执行基于第二预测分类信息和第二目标类别标识，确定第二目标损失信息；

第二网络训练模块，被配置为执行基于第二目标损失信息，训练第二预设分类网络和第二深度学习网络；

多模态表征网络确定模块，被配置为执行将训练好的第二深度学习网络，作为多模态表征网络。

可选的，目标推荐对象确定模块740包括：

第二对象图像获取单元，被配置为执行获取待推荐对象的对象图像；

对象特征表征单元，被配置为执行将待推荐对象的对象图像和直播意图对象的对象图像，分别输入特征表征网络进行对象特征表征，分别得到待推荐对象的第一对象特征信息和直播意图对象的第二对象特征信息；

第二目标推荐对象匹配单元，被配置为执行基于第一对象特征信息和第二对象特征信息，从待推荐对象中匹配出目标推荐对象。

可选的，第一目标检测模块710还被配置为执行将直播帧图像输入目标检测网络进行目标检测，得到目标检测对象的对象图像和目标检测对象对应的第一类目信息。

可选的，上述装置还包括：

样本图像获取模块，被配置为执行获取标注样本图像和非标注样本图像，标注样本图像为具有对象检测信息标注的样本对象图像；

第一检测网络训练模块，被配置为执行基于标注样本图像，对待训练检测网络进行目标检测训练，得到初始检测网络；

第二目标检测模块，被配置为执行将非标注样本图像输入初始检测网络进行目标检测，得到非标注样本图像中第三样本对象的样本类目信息和类目置信数据；

目标样本图像确定模块，被配置为执行根据类目置信数据，从非标注样本图像中，确定目标样本图像；

类目标注模块，被配置为执行基于目标样本图像对应的样本类目信息对目标样本图像进行类目标注，得到增量标注样本图像；

第二检测网络训练模块，被配置为执行基于标注样本图像和增量标注样本图像，对初始检测网络进行目标检测训练，得到目标检测网络。

可选的，类目识别模块720还被配置为执行将直播内容信息输入类目识别网络进行类目识别，得到第二类目信息。

可选的，上述装置还包括：

对象推荐信息展示模块，被配置为执行将目标推荐对象的对象推荐信息，展示在目标直播间对应的直播页面。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于目标推荐对象确定的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标推荐对象确定方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的目标推荐对象确定方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的目标推荐对象确定方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的目标推荐对象确定方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标推荐对象确定方法，其特征在于，包括：

2.根据权利要求1所述的目标推荐对象确定方法，其特征在于，所述基于所述直播意图对象的对象图像，从所述目标直播间的待推荐对象中，确定目标推荐对象包括：

获取所述待推荐对象的对象图像；

3.根据权利要求2所述的目标推荐对象确定方法，其特征在于，所述基于所述第一细粒度特征信息和所述第二细粒度特征信息，从所述待推荐对象中匹配出初始推荐对象包括：

4.根据权利要求3所述的目标推荐对象确定方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的目标推荐对象确定方法，其特征在于，所述方法还包括：

将训练好的第一深度学习网络，作为所述细粒度表征网络。

6.根据权利要求5所述的目标推荐对象确定方法，其特征在于，所述第一预测分类信息包括所述第一样本对象的第一预测类别标识；所述第一目标损失信息包括类别标识损失；

7.一种目标推荐对象确定装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的目标推荐对象确定方法。

9.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的目标推荐对象确定方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至6中任一项所述的目标推荐对象确定方法。