CN111368101A

CN111368101A - 多媒体资源信息的展示方法、装置、设备以及存储介质

Info

Publication number: CN111368101A
Application number: CN202010147062.0A
Authority: CN
Inventors: 彭江军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-03
Anticipated expiration: 2040-03-05
Also published as: CN111368101B

Abstract

本申请公开了一种多媒体资源信息的展示方法、装置、设备以及存储介质，属于图像识别领域。方法包括：将视频图像中的人脸图像输入图像识别模型中，由图像识别模型对人脸图像进行卷积处理，得到人脸图像对应的目标特征图；基于目标特征图，对人脸图像所包括的对象进行识别，得到对象的对象身份信息；基于对象身份信息进行查询，展示查询得到的对象身份信息所关联的多媒体资源信息。通过本申请提供的技术方案，计算机设备可以基于图像识别模型对视频图像中的人脸图像进行识别，得到人脸图像所包括的对象的身份信息。基于对象的身份信息进行查询，可以缩小计算机设备查询多媒体资源信息的范围，提升查询速度，减少计算资源的消耗。

Description

多媒体资源信息的展示方法、装置、设备以及存储介质

技术领域

本申请涉及图像识别领域，特别涉及一种多媒体资源信息的展示方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，越来越多的用户通过各类计算机设备观看视频。用户在观看视频的过程中，可能会发现一些感兴趣但是却不认识的演员。在这种情况下，用户可能会有想观看该演员其他作品的想法。

相关技术中，用户可以在观看视频的过程中对包含该演员的视频图像进行截图，并将图像输入搜索引擎，由搜索引擎基于截取图像进行搜索，确定与截取图像相关的信息。

但是，在进行图像搜索的过程中，搜索引擎需要从大量的数据库中寻找与该图像相关的信息，需要耗费较多的时间。数据库中还可能存在一些与表面上与截取图像相近但是本质上不相关的数据，图像的识别精度较低，导致搜索出的结果可能与用户截取图像的相关性不强，多媒体资源信息的展示效果不佳。

发明内容

本申请实施例提供了一种多媒体资源信息的展示方法、装置、设备以及存储介质，可以提升展示的多媒体资源信息的展示效果。所述技术方案如下：

一方面，提供了一种多媒体资源信息的展示方法，所述方法包括：

将视频图像中的人脸图像输入图像识别模型中，由所述图像识别模型对所述人脸图像进行卷积处理，得到所述人脸图像对应的目标特征图；

基于所述目标特征图，对所述人脸图像所包括的对象进行识别，得到所述对象的对象身份信息；

基于所述对象身份信息进行查询，展示查询得到的所述对象身份信息所关联的多媒体资源信息。

一方面，提供了一种多媒体资源信息的展示装置，所述装置包括：

输入模块，用于将视频图像中的人脸图像输入图像识别模型中，由所述图像识别模型对所述人脸图像进行卷积处理，得到所述人脸图像对应的目标特征图；

识别模块，用于基于所述目标特征图，对所述人脸图像所包括的对象进行识别，得到所述对象的对象身份信息；

查询模块，用于基于所述对象身份信息进行查询，展示查询得到的所述对象身份信息所关联的多媒体资源信息。

在一种可能的实施方式中，所述识别模块包括：

相似度确定单元，用于基于所述目标特征图和图像集中多个参照人脸图像对应的参照特征图，确定所述人脸图像与所述多个参照人脸图像的相似度；

身份信息确定单元，用于将所述相似度符合目标相似度条件的参照人脸图像对应的对象身份信息确定为所述对象的身份信息。

在一种可能的实施方式中，所述输入模块还用于将所述图像集中多个参照人脸图像输入所述图像识别模型中，由所述图像识别模型对所述多个参照人脸图像进行卷积处理，得到与所述多个参照人脸图像对应的多个参照特征图。

在一种可能的实施方式中，所述查询模块还用于确定所述视频图像对应的视频类型，基于所述对象身份信息和所述目标视频类型进行查询，展示查询得到的所述对象身份信息和所述目标视频类型所关联的多媒体信息。

在一种可能的实施方式中，所述查询模块还用于将所述视频图像输入视频类型识别模型中，由所述视频类型识别模型基于所述视频图像进行预测，得到所述视频图像属于多个视频类型的概率，将概率最高的视频类型确定为所述视频图像对应的视频类型。

在一种可能的实施方式中，所述视频类型识别模型的训练方法包括：

将视频类型识别模型的样本图像输入初始视频类型识别模型，由所述初始视频类型识别模型基于所述视频类型识别模型的样本图像进行预测，得到所述视频类型识别模型的样本图像属于多个视频类型的概率；

将所述概率最高的视频类型确定为样本视频类型；

基于所述样本视频类型与所述视频类型识别模型的样本图像对应的实际视频类型的差异，调整所述初始视频类型识别模型的模型参数，直至所述初始视频类型识别模型符合视频类型识别模型的迭代截至条件，将此时的初始视频类型识别模型作为所述视频类型识别模型。

在一种可能的实施方式中，所述查询模块还用于获取所述视频图像对应视频的风格标签，将所述风格标签确定为所述视频图像对应的视频类型。

在一种可能的实施方式中，所述查询模块还用于获取所述视频图像对应视频的标题，基于所述标题确定所述视频对应的视频类型。

在一种可能的实施方式中，所述图像识别模型的训练方法包括：

将图像识别模型的样本图像输入初始图像识别模型，由所述初始图像识别模型基于所述图像识别模型的样本图像进行预测，得到所述图像识别模型的样本图像与所述图像集中图像的相似度；

将相似度最高的图像确定为目标图像；

基于所述目标图像与所述图像识别模型的样本图像对应的实际图像的差异，调整所述初始图像识别模型的模型参数，直至所述初始图像识别模型符合图像识别模型的迭代截至条件，将此时的初始图像识别模型作为所述图像识别模型。

在一种可能的实施方式中，所述输入模块还用于将所述视频图像输入区域确定模型，由所述区域确定模型将所述视频图像划分成多个备选区域；

所述装置还包括：

第一卷积处理模块，用于对所述多个备选区域中的至少一个备选区域进行卷积处理，得到所述至少一个备选区域对应的备选特征图；

第三概率确定模块，用于基于所述备选特征图，确定所述至少一个备选区域为人脸区域的概率；

人脸图像确定模块，用于将概率符合目标概率条件的备选区域确定为所述视频图像中的人脸图像。

在一种可能的实施方式中，所述区域确定模型的训练方法包括：

将区域确定模型的样本图像输入初始区域确定模型，由所述初始区域确定模型将所述区域确定模型的样本图像划分成多个训练备选区域；

对所述多个训练备选区域进行卷积处理，得到所述多个训练备选区域对应的多个训练备选特征图；

基于所述多个训练备选特征图，确定所述多个备选区域属于第一类型的概率，将概率最高的训练备选区域确定为第一类型。

基于所述概率最高的训练备选区域对应的实际区域类型和所述第一类型的差异，调整所述初始区域确定模型的模型参数，直至所述初始区域确定模型符合区域确定模型的迭代截至条件，将此时的初始区域确定模型作为所述区域确定模型。

在一种可能的实施方式中，所述查询模块包括：

多媒体资源信息查询单元，用于基于所述对象身份信息，查询所述对象身份信息所关联的多媒体资源；

角色定位信息确定单元，用于确定所述多媒体资源中所述对象的角色定位信息；

展示单元，用于将所述对象身份信息所关联的多媒体资源信息按照所述角色定位信息的不同进行展示。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现所述多媒体资源信息的展示方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述多媒体资源信息的展示方法所执行的操作。

通过本申请实施例提供的技术方案，计算机设备可以基于图像识别模型对视频图像中的人脸图像进行识别，得到人脸图像所包括的对象的身份信息。基于对象的身份信息进行查询，可以缩小计算机设备查询多媒体资源信息的范围，提升查询速度，减少计算资源的消耗，同时，在较小的范围进行查询，也可以提高计算机设备进行图像识别的精确度，查询到的多媒体资源信息与视频图像相关性较高。计算机设备通过这样的方式向用户展示查询到的多媒体资源信息，展示的结果更加符合用户的喜好，多媒体资源信息的展示效果较好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多媒体资源信息的展示方法的实施环境的示意图；

图2是本申请实施例提供的一种绘画作品和风格标签对应的示意图；

图3是本申请实施例提供的一种多媒体资源信息的展示方法流程图；

图4是本申请实施例提供的一种多媒体资源信息的展示方法流程图；

图5是本申请实施例提供的一种基于区域确定模型在视频图像中确定人脸图像的结果示意图；

图6是本申请实施例提供的一种基于图像识别模型确定对象身份信息的方法示意图；

图7是本申请实施例提供的一种多媒体资源信息的展示方法；

图8是本申请实施例提供的一种应用基于视频图像进行搜索的界面示意图；

图9是本申请实施例提供的一种应用展示搜索结果的界面示意图；

图10是本申请实施例提供的一种基于视频类型识别模型确定视频图像对应的视频类型结果示意图；

图11是本申请实施例提供的一种多媒体资源信息的展示装置结构示意图；

图12是本申请实施例提供的一种终端设备的结构示意图；

图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个参照人脸图像是指两个或两个以上的参照人脸图像。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

图1是本申请实施例提供的一种多媒体资源信息的展示方法的实施环境示意图，参见图1，该实施环境中可以包括终端设备110和服务器140。

终端设备110通过无线网络或有线网络与服务器140相连。终端设备110可以是智能手机、平板电脑、智能电视、台式计算机，车载计算机以及便携计算机等设备。终端设备110安装和运行有支持多媒体资源信息展示的应用程序。

可选地，服务器140可以为一台服务器、也可以为多台服务器、云计算平台或虚拟化中心等。服务器140用于提供多媒体资源信息展示有关的后台服务。

终端设备110可以泛指多个终端设备中的一个，本申请实施例仅以终端设备110来举例说明。

本领域技术人员可以知晓，上述终端设备的数量可以更多或更少。比如上述终端设备可以仅为一个，或者上述终端设备为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端设备。本申请实施例对终端设备的数量和设备类型不加以限定。

在本申请实施例中，可以由服务器或终端设备作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端设备和服务器之间的交互来实施本申请提供的技术方法，本申请实施例对此不作限定。下面将以执行主体为服务器为例进行说明：

在本申请实施例中，服务器可以借助三个模型来实现本申请提供的多媒体资源信息的展示方法，该三个模型包括视频类型识别模型、图像识别模型以及区域确定模型。视频类型识别模型可以用于识别视频图像对应的视频类型；图像识别模型可以用于识别视频图像中的对象，得到对象的身份信息，例如视频图像中的人脸对应的姓名；区域确定模型可以用于在视频图像中确定目标对象所在的位置，例如区域确定模型可以确定视频图像中人脸的位置。

为了便于理解，首先对本申请实施例中涉及的三个模型的训练方法进行说明，每个模型的训练方法可以包括数据准备过程和模型训练过程。

1、视频类型识别模型的训练方法包括：

在数据准备过程中，服务器可以从不同类型的视频中截取视频图像，并基于截取的视频图像对应的视频类型，为截取的视频图像添加视频类型标签，将添加视频标签的视频图像作为视频类型识别模型的样本图像。其中，视频类型可以包括但不限于现代剧、古装剧以及魔幻剧等，基于这样的样本训练得到的视频类型识别模型，可以基于输入的视频图像确定其对应的视频类型。除此之外，服务器也可以获取不同风格的绘画作品，例如图2中展示的绘画作品，将这些绘画作品作为样本训练模型，基于这样的样本训练过后的模型，具有基于输入的图像确定其对应风格的能力。

在模型训练过程中，服务器可以将视频类型识别模型的样本图像输入初始视频类型识别模型，由初始视频类型识别模型基于视频类型识别模型的样本图像进行预测，得到视频类型识别模型的样本图像属于多个视频类型的概率，将概率最高的视频类型确定为样本视频类型。服务器可以基于样本视频类型与视频类型识别模型的样本图像对应的实际视频类型的差异，调整初始视频类型识别模型的模型参数，直至初始视频类型识别模型符合视频类型识别模型的迭代截至条件，将此时的初始视频类型识别模型作为视频类型识别模型。

举例来说，服务器可以对初始视频类型识别模型进行初始化，将视频类型识别模型的样本图像输入初始视频类型识别模型中，由初始视频类型识别模型基于初始卷积核对视频类型识别模型的样本图像进行卷积处理，得到视频类型识别模型的样本图像对应的样本特征图。初始视频类型识别模型可以基于该样本特征图，确定视频类型识别模型的样本图像属于多个视频类型的概率，例如，初始视频类型识别模型可以输出一个用于表示概率的向量，[0.2,0.1,0.1,0.7……]，其中不同数字可以表示视频类型识别模型的样本图像属于不同视频类型的概率，数字的数量可以表示视频类型的数量，服务器可以将最大数字对应的视频类型确定为样本视频类型。服务器可以基于视频类型识别模型的样本图像的标签确定图像识别模型的样本图像对应的真实视频类型，基于真实视频类型和样本视频类型之间的差异，调整初始视频类型识别模型的模型参数，直至初始视频类型识别模型的损失函数值达到目标函数值或迭代次数达到目标次数时，停止初始视频类型识别模型的训练，将此时的初始视频类型识别模型作为视频类型识别模型。

2、图像识别模型的训练方法包括：

在数据准备过程中，服务器可以获取每个对象的参照图像，并基于每个对象的参照图像生成图像集。服务器还可以获取每个对象的其他图像，将其他图像作为图像识别模型的样本图像。具体来说，若对象为演员，那么服务器可以获取多个演员的参照人脸图像，参照人脸图像也即是能完整反映演员面部特征的图像。服务器可以将多个演员的参照人脸图像进行组合，得到图像集。服务器还可以获取多个演员的其他图像，将多个演员的其他图像作为图像识别模型的样本图像，其中，其他图像可以为多个演员在不同视频中的剧照；若对象为汽车，那么服务器可以获取多种汽车的参照图像，参照图像也即是能够完整反映汽车特征的图像。服务器可以将多种汽车的参照图像进行组合，得到图像集。服务器还可以获取多种汽车的其他图像，将多种汽车的其他图像作为图像识别模型的样本图像，其中，其他图像可以为多种汽车在不同角度拍摄的图像。当然，上述对象所对应的内容仅为了便于理解而示出，在实际使用过程中，对象可以对应于更多类型的内容，本申请实施例对此不做限定。

在模型训练过程中，服务器可以将图像识别模型的样本图像输入初始图像识别模型，由初始图像识别模型基于图像识别模型的样本图像进行预测，得到图像识别模型的样本图像与图像集中图像的相似度。服务器可以将相似度最高的图像确定为目标图像。服务器可以基于目标图像与图像识别模型的样本图像对应的实际图像的差异，调整初始图像识别模型的模型参数，直至初始图像识别模型符合图像识别模型的迭代截至条件，将此时的初始图像识别模型作为图像识别模型。

举例来说，服务器可以对初始图像识别模型进行初始化，将图像识别模型的样本图像输入初始图像识别模型中，由初始图像识别模型基于初始卷积核对图像识别模型的样本图像进行卷积处理，得到图像识别模型的样本图像对应的样本特征图。服务器可以确定该样本特征图与图像集中图像对应的特征图的相似度，例如，初始图像识别模型可以输出一个用于表示相似度的值，例如0.1，数字可以表示图像识别模型的样本图像与图像集中某个图像对应的特征图的相似度，服务器可以将最大数字对应的图像集中图像确定为目标图像。服务器可以基于图像识别模型的样本图像的标签确定图像识别模型的样本图像在图像集中对应的真实图像，基于目标图像和真实图像之间的差异，调整初始图像识别模型的模型参数，直至初始图像识别模型的损失函数值达到目标函数值或迭代次数达到目标次数时，停止初始图像识别模型的训练，将此时的初始图像识别模型作为图像识别模型。

3、区域确定模型的训练方法包括：

在数据准备过程中，服务器可以从不同的视频中截取视频图像，由相关技术人员对服务器截取的视频图像进行筛选，将包含目标区域的视频图像作为区域确定模型的样本图像，其中目标区域可以为包含人脸的区域，也可以是包含其他物体的区域。在对视频图像进行筛选的过程中，相关技术人员还可以在视频图像中标注目标区域，服务器可以以相关技术人员标注的区域为监督，对初始区域确定模型进行训练。

在模型训练过程中，服务器可以将区域确定模型的样本图像输入初始区域确定模型，由初始区域确定模型将区域确定模型的样本图像划分成多个训练备选区域。初始区域确定模型可以对多个训练备选区域进行卷积处理，得到多个训练备选区域对应的多个训练备选特征图。初始区域确定模型可以基于多个训练备选特征图，确定多个备选区域属于第一类型的概率。初始区域确定模型可以将概率最高的训练备选区域确定为第一类型。服务器可以基于概率最高的训练备选区域对应的实际区域类型和第一类型的差异，调整初始区域确定模型的模型参数，直至初始区域确定模型符合区域确定模型的迭代截至条件，将此时的初始区域确定模型作为区域确定模型。

其中，若某个训练备选区域被模型确定为第一类型，则可以表示该区域被模型识别为目标区域，若某个区域被模型确定为非第一类型，则可以表示该区域被模型识别为非目标区域。目标区域可以为视频图像中人脸的区域，训练得到的区域确定模型可以具有在视频图像中确定人脸区域的能力，若某个区域被模型确定为第一类型，则可以表示该区域为人脸区域，或者，目标区域可以为视频图像中汽车的区域，训练得到的区域确定模型可以具有在视频图像中确定汽车所在区域的能力。若某个区域被模型确定为第一类型，则可以表示该区域为汽车所在的区域。当然，上述目标区域所对应的内容仅为了便于理解而示出，在实际使用过程中，目标区域可以对应于更多类型的内容，本申请实施例对此不做限定。

举例来说，服务器可以对初始区域确定模型进行初始化，将区域确定模型的样本图像输入初始区域确定模型中，初始区域确定模型可以基于多种划分方法对区域确定模型的样本图像进行划分，例如3ⅹ3，4ⅹ4，5ⅹ5以及3ⅹ5等规格，划分过后的每个区域可以作为一个训练备选区域，由初始区域确定模型基于初始卷积核对训练备选区域内的图像进行卷积处理，得到多个训练备选区域内的图像对应的多个训练备选特征图。初始区域确定模型可以基于多个训练备选特征图，确定多个备选区域属于第一类型的概率，例如，初始区域确定模型可以输出一个用于表示概率的向量，[0.1,0.2,0.5,0.6……]，其中每个数字可以表示与数字对应的训练备选区域为第一类型的概率，数字的数量可以表示备选区域的数量，服务器可以将最大数字对应的训练备选区域确定为第一类型。若相关技术人员在图像识别模型的样本图像中标注了目标区域，那么服务器可以基于标注的目标区域和初始区域确定模型确定的第一类型的区域之间的位置差异，调整初始区域确定模型的模型参数，直至初始区域确定模型的损失函数值达到目标函数值或迭代次数达到目标次数时，停止初始区域确定模型的训练，将此时的初始区域确定模型作为区域确定模型。

需要说明的是，上述说明中均是以采用服务器训练模型为例进行说明的，在其他可能的实现方式中，上述三个模型也可以由终端设备进行训练，或者通过终端设备与服务器之间的交互来进行模型训练，例如由终端设备收集三个模型的训练图像，并将三个模型的训练图像发送至服务器，由服务器对三个模型进行训练。

除此之外，在训练上述三个模型之前，服务器可以将网络上开源的具有相似功能的模型作为初始模型，在初始模型的基础上进行训练，可以提高模型的收敛速度。

需要注意的是，在下述对本申请提供的技术方案进行说明的过程中，是以服务器作为执行主体为了进行的。在其他可能的实施方式中，也可以由终端设备作为执行主体来执行本申请提供的技术方案，本申请实施例对于执行主体的类型不做限定。

图3是本申请实施例提供的一种多媒体资源信息的展示方法的流程图，参见图3，方法包括：

301、服务器将视频图像中的人脸图像输入图像识别模型中，由图像识别模型对人脸图像进行卷积处理，得到人脸图像对应的目标特征图。

302、服务器基于目标特征图，对人脸图像所包括的对象进行识别，得到对象的对象身份信息。

在步骤302之后，服务器基于对象身份信息进行查询，将查询得到的对象身份信息所关联的多媒体资源信息发送至终端设备，由终端设备展示对象身份信息所关联的多媒体资源信息。

在一种可能的实施方式中，基于目标特征图，对人脸图像所包括的对象进行识别，得到对象的对象身份信息包括：

基于目标特征图和图像集中多个参照人脸图像对应的参照特征图，确定人脸图像与多个参照人脸图像的相似度。

将相似度符合目标相似度条件的参照人脸图像对应的对象身份信息确定为对象的身份信息。

在一种可能的实施方式中，基于目标特征图和图像集中多个参照人脸图像对应的参照特征图，确定人脸图像与多个参照人脸图像的相似度之前，方法还包括：

将图像集中多个参照人脸图像输入图像识别模型中，由图像识别模型对多个参照人脸图像进行卷积处理，得到与多个参照人脸图像对应的多个参照特征图。

在一种可能的实施方式中，基于对象身份信息进行查询，展示查询得到的对象身份信息所关联的多媒体资源信息包括：

确定视频图像对应的视频类型，基于对象身份信息和目标视频类型进行查询，展示查询得到的对象身份信息和目标视频类型所关联的多媒体信息。

在一种可能的实施方式中，确定视频图像对应的视频类型包括：

将视频图像输入视频类型识别模型中，由视频类型识别模型基于视频图像进行预测，得到视频图像属于多个视频类型的概率，将概率最高的视频类型确定为视频图像对应的视频类型。

在一种可能的实施方式中，视频类型识别模型的训练方法包括：

将视频类型识别模型的样本图像输入初始视频类型识别模型，由初始视频类型识别模型基于视频类型识别模型的样本图像进行预测，得到视频类型识别模型的样本图像属于多个视频类型的概率。

将概率最高的视频类型确定为样本视频类型。

基于样本视频类型与视频类型识别模型的样本图像对应的实际视频类型的差异，调整初始视频类型识别模型的模型参数，直至初始视频类型识别模型符合视频类型识别模型的迭代截至条件，将此时的初始视频类型识别模型作为视频类型识别模型。

在一种可能的实施方式中，确定视频图像对应的目标视频类型包括：

获取视频图像对应视频的风格标签，将风格标签确定为视频图像对应的视频类型。

获取视频图像对应视频的标题，基于标题确定视频对应的视频类型。

在一种可能的实施方式中，图像识别模型的训练方法包括：

将视频类型识别模型的样本图像输入初始图像识别模型，由初始图像识别模型基于视频类型识别模型的样本图像进行预测，得到视频类型识别模型的样本图像与图像集中图像的相似度。

将相似度最高的图像确定为目标图像。

基于目标图像与视频类型识别模型的样本图像对应的实际图像的差异，调整初始图像识别模型的模型参数，直至初始图像识别模型符合图像识别模型的迭代截至条件，将此时的初始图像识别模型作为图像识别模型。

在一种可能的实施方式中，将视频图像中的人脸图像输入图像识别模型中之前，方法还包括：

将视频图像输入区域确定模型，由区域确定模型将视频图像划分成多个备选区域。

对多个备选区域中的至少一个备选区域进行卷积处理，得到至少一个备选区域对应的备选特征图。

基于备选特征图，确定至少一个备选区域为人脸区域的概率。

将概率符合目标概率条件的备选区域确定为视频图像中的人脸图像。

在一种可能的实施方式中，区域确定模型的训练方法包括：

将视频类型识别模型的样本图像输入初始区域确定模型，由初始区域确定模型将视频类型识别模型的样本图像划分成多个训练备选区域。

对多个训练备选区域进行卷积处理，得到多个训练备选区域对应的多个训练备选特征图。

基于多个训练备选特征图，确定多个备选区域属于第一类型的概率。

将概率最高的训练备选区域确定为第一类型。

基于概率最高的训练备选区域对应的实际区域类型和第一类型的差异，调整初始区域确定模型的模型参数，直至初始区域确定模型符合区域确定模型的迭代截至条件，将此时的初始区域确定模型作为区域确定模型。

基于对象身份信息，查询对象身份信息所关联的多媒体资源。

确定多媒体资源中对象的角色定位信息。

将对象身份信息所关联的多媒体资源信息按照角色定位信息的不同进行展示。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图4是本申请实施例提供的一种多媒体资源信息的展示方法的流程图，参见图4，方法包括：

401、服务器将视频图像输入区域确定模型。

其中，视频图像可以为用户在观看视频过程中截取的图像，也可以是某个视频的剧照。区域确定模型具有在视频图像中确定目标区域的能力，区域确定模型的训练方法可以参见之前的说明，在此不再赘述。在本申请实施例中，目标区域可以为视频图像中包含人脸的区域，也可以为视频图像中的包含其他物体的区域，例如水杯、汽车甚至是红绿灯。区域确定模型可以为一个二分类模型，也即是在区域确定模型在视频图像中确定目标区域时，可以通过逐个判断视频图像中多个区域是否为目标区域来实现。

上述服务器可以响应于用户对多媒体资源信息的查询请求，获取该查询请求对应的视频图像，从而执行步骤401中将获取到的视频图像输入区域确定模型的过程。在一种可能的实施方式中，服务器还可以更智能的来触发步骤401，例如，服务器可以响应于截屏指令，触发将截取的视频图像输入区域确定模型的操作。用户在观看视频的过程中发出截屏指令，可能是视频中出现了包含目标区域的图像，服务器可以响应于用户的截屏指令，将截取的图像输入区域确定模型。在这种实现方式下，用户无需手动发出将视频图像输入区域确定模型的指令，服务器可以自动完成这一过程，减少了用户的操作负担。

在一种可能的实施方式中，在服务器将视频图像输入区域确定模型之前，服务器可以对视频图像进行尺寸变换，将不同尺寸的视频图像转化为同一尺寸的视频图像。举例来说，不同用户使用不同设备观看视频时截取的视频图像，其尺寸可能是不同的，比如A用户使用A品牌的设备截取的视频图像的尺寸为800ⅹ600，B用户使用B品牌的设备截取的视频图像的尺寸为1024ⅹ768，那么服务器可以将A用户和B用户截取的视频图像的尺寸进行变换，得到同一尺寸的视频图像，比如服务器可以将A用户和B用户截取的视频图像的尺寸统一变换为600ⅹ400。在这种实现方式下，区域确定模型在视频图像中确定目标区域时，可以保证每次确定目标区域时的视频图像的尺寸一致，提高了目标区域确定的精确度。

需要说明的是，上述说明是以服务器作为执行主体进行说明的，在其他可能的实现方式中，也可以由终端设备作为执行主体来执行步骤401，或者由终端设备和服务器之间的交互来执行步骤401，也即是由终端设备将视频图像上传至服务器，由服务器将视频图像输入区域确定模型，具体的实现方式与步骤401的说明属于同一发明构思，在此不再赘述。

402、服务器通过区域确定模型将视频图像划分成多个备选区域，对各个备选区域进行卷积处理，得到各个备选区域对应的备选特征图，基于备选特征图，确定各个备选区域为人脸区域的概率，将概率符合目标概率条件的备选区域确定为视频图像中的人脸图像。

下面以目标区域为人脸区域为例进行说明，在一种可能的实施方式中，服务器将用户截取的视频图像输入区域确定模型之后，可以通过区域确定模型基于目标划分方式将视频图像划分成多个备选区域，每个备选区域均可能为视频图像中的人脸区域。其中，每种目标划分方式可以对应有多种具体的划分方式。例如，服务器可以结合备选区域基础尺寸和比例的形式作为备选区域的划分方式，其中，备选区域基础尺寸可以为[300]的形式，比例可以为[1：1、1：1.2、1：1.5等]，备选区域基础尺寸可以表示备选区域的长和宽的基础尺寸；比例可以用于在备选区域的长或宽的基础尺寸的基础上调整备选区域的长宽比例，比如1：1可以表示将视频图像划分成多个尺寸为[200ⅹ200]的备选区域，1：1.5可以表示将视频图像划分成多个尺寸为[200ⅹ300]的备选区域。

服务器通过区域确定模型将视频图像划分成多个备选区域之后，可以对各个备选区域进行卷积处理，得到各个备选区域对应的备选特征图，将各个备选区域对应的备选特征图映射为各个备选区域对应的备选特征向量，基于各个备选区域对应的备选特征向量，得到各个备选区域为人脸区域的概率，将概率符合目标概率条件的备选区域确定为视频图像中的人脸图像。

下面对服务器通过区域确定模型基于备选特征图确定各个备选区域是否为人脸区域的概率的方法进行说明：

在一种可能的实施方式中，服务器可以将各个备选特征图输入池化层，过滤各个备选特征图中的一些无关特征，将过滤后的多个备选特征图输入全连接层，将过滤后的多个备选特征图映射为多个备选特征向量。服务器可以通过区域确定模型对各个备选特征向量进行归一化处理，得到各个备选区域为人脸区域的概率。若该概率大于目标概率，则服务器可以将该备选区域确定为视频图像中的人脸图像，服务器基于区域确定模型在视频图像中确定人脸图像的结果可以参见图5，其中501为检测出的人脸图像，502为视频图像。

在一种可能的实施方式中，区域确定模型在确定出视频图像中的人脸图像之后，服务器可以基于人脸图像在视频图像中进行边框回归(Bounding Box Regression，BBR)，进一步调整人脸在视频图像中的大小和位置。具体来说，区域确定模型在确定出视频图像中的人脸图像之后，服务器可以通过一个四维向量来标定人脸图像在视频图像中的大小和位置，例如[x，y，w，h]，其中x人脸图像的中心点在视频图像中的横坐标，y表示人脸图像的中心点在视频图像中的纵坐标，w表示人脸图像的宽，h表示人脸图像的长。服务器可以调整四维向量的值，确定视频图像中是否还存在属于人脸的区域，或者确定人脸图像中是否存在不包含人脸的区域，若服务器检测到之前确定的人脸图像外还存在其他包含人脸的区域，则可以通过改变四维向量的取值，对人脸图像的位置和范围进行调整，扩大人脸图像在视频图像中的范围；若服务器检测到之前确定的人脸图像中存在较多的不包含人脸的区域，则可以通过改变四维向量的取值，对人脸图像的位置和范围进行调整，缩小人脸图像在视频图像中的范围。具体的确定方法可以与上述区域确定模型确定人脸图像的方法类似，再次不再赘述。在这种实现方式下，服务器可以更加精确的在视频图像中确定出人脸图像，提高后续识别的准确性。

上述说明是以区域确定模型存储在服务器上为例进行说明的，实际上区域确定模型也可以存储在其他设备上，例如区域确定模型存储在于终端设备上。若区域确定模型存储在终端设备上，那么可以由终端设备作为执行主体来执行步骤402。

403、服务器将视频图像中的人脸图像输入图像识别模型中，由图像识别模型对人脸图像进行卷积处理，得到人脸图像对应的目标特征图。

其中，图像识别模型具有在视频图像中确定目标对象的能力，图像识别模型的训练方法可以参见之前的说明，在此不再赘述。若目标对象为人脸，那么图像识别模型可以基于输入的人脸图像，识别该人脸图像是否与图像集中某一参照人脸图像指向同一个对象。

上述说明是以图像识别模型存储在服务器上为例进行说明的，实际上图像识别模型也可以存储在其他设备上，例如图像识别模型存储在于终端设备上。若图像识别模型存储在终端设备上，可以由终端设备单独执行步骤403-405。当然，也可以通过终端设备和服务器之间的交互来实施步骤403-405。举例来说，终端设备可以将视频图像中的人脸图像发送至服务器，由服务器将人脸图像输入图像识别模型，并将结果返回至终端设备，本申请实施例对于图像识别模型存储的位置不做限定。

404、服务器将图像集中多个参照人脸图像输入图像识别模型中，由图像识别模型对多个参照人脸图像进行卷积处理，得到与多个参照人脸图像对应的多个参照特征图。

其中，图像集中可以存储有多个参照人脸图像，每个参照人脸图像可以对应于一个身份信息，参照人脸图像可以为对象的代表图像，在本申请实施例中，对象可以为演艺工作者，例如歌手、演员、主播，参照人脸图像可以为最能反映演艺工作者面部特征的人脸图像，例如演艺工作者完整无遮挡的人脸图像。图像集可以由服务器收集参照人脸图像生成，也可以是服务器从互联网上获取的图像集，本申请实施例对于图像集的来源不做限定。

上述步骤404的说明是以服务器通过图像识别模型实时对参照人脸图像进行卷积处理，得到参照特征图像为例进行说明的。在其他可能的实现方式中，服务器可以在步骤401之前将图像集中的参照人脸图像输入图像识别模型，由图像识别模型对参照人脸图像进行卷积处理，得到相应的参照特征图。在这种实现方式下，服务器可以提前对参照人脸图像进行处理，得到相应参照特征图。在后续服务器基于图像识别模型确定目标特征图和参照特征图时，可以很直接获取相应的参照特征图，减少了计算资源的消耗，提高了人脸图像的识别效率。

405、服务器通过图像识别模型基于目标特征图和多个参照特征图，确定人脸图像与图像集中多个参照人脸图像的相似度。

图像中人脸之间的相似度可以用于确定两个图像中是否包括相同的对象，而通过基于特征图来确定人脸图像的相似度可以大大减小计算量，以达到避免占用过多计算资源的目的。

在一种可能的实施方式中，服务器可以通过图像识别模型将目标特征图映射为目标特征向量，将多个参照特征图映射为多个参照特征向量。服务器可以基于目标特征向量和多个参照特征向量确定人脸图像和多个参照人脸图像之间的相似度。

下面对服务器通过图像识别模型将目标特征图映射为目标特征向量，将多个参照特征图映射为多个参照特征向量的方法进行说明：

在一种可能的实施方式中，服务器可以将目标特征图输入图像识别模型的池化层，由池化层过滤目标特征图中的一些无关特征。服务器将过滤后的目标特征图输入图像识别模型的全连接层，由全连接层将过滤后的目标特征图映射为目标特征向量。服务器可以将参照特征图输入图像识别模型的池化层，由池化层过滤参照特征图中的一些无关特征。服务器可以将过滤后的参照特征图输入全连接层，由全连接层将过滤后的参照特征图映射为参照特征向量。

下面对服务器基于目标特征向量和多个参照特征向量确定人脸图像和多个参照人脸图像之间的相似度的方法进行说明：

在一种可能的实施方式中，服务器可以获取目标特征向量和参照特征向量之间的余弦相似度，将余弦相似度作为人脸图像和多个参照人脸图像之间的相似度。向量之间的余弦相似度可以用于表示图像之间的相似程度，因此可以采用余弦相似度来作为图像的相似度。当然，还可以采用其他形式来表示该图像之间的相似度，在此不作赘述。

406、服务器将相似度符合目标相似度条件的参照人脸图像对应的身份信息确定为对象的身份信息。

其中，对象身份信息可以为演艺工作者的姓名或艺名。

在一种可能的实施方式中，若以目标特征向量和参照特征向量之间的余弦相似度作为人脸图像和多个参照人脸图像之间的相似度，那么服务器可以将目标相似度条件确定为目标特征向量和参照特征向量之间的余弦相似度是否大于目标相似度。若目标特征向量和某个参照特征向量之间的余弦相似度大于目标相似度，则服务器可以将该参照特征向量对应的参照人脸图像确定为目标人脸图像，将目标人脸图像对应的身份信息确定为对象的身份信息，服务器基于图像识别模型确定对象身份信息的方法示意图可以参见图6。

在一种可能的实施方式中，若以目标特征向量和参照特征向量之间的余弦距离作为人脸图像和多个参照人脸图像之间的相似度，那么服务器可以将目标相似度条件确定为目标特征向量和参照特征向量之间的余弦距离是否小于目标余弦距离。若目标特征向量和某个参照特征向量之间的余弦距离小于目标余弦距离，则服务器可以将该参照特征向量对应的参照人脸图像确定为目标人脸图像，将目标人脸图像对应的身份信息确定为对象的身份信息。

需要说明的是，上述是以目标相似度条件为目标特征向量和参照特征向量之间的余弦相似度是否大于目标相似度和目标特征向量和参照特征向量之间的余弦距离是否小于目标余弦距离为例进行说明的。在其他可能的实施方式中，若服务器其他形式来表示图像之间的相似度，那么服务器可以对目标相似度条件进行相应调整，在此不在赘述。

上述对步骤406的说明是以服务器作为执行主体进行的，在其他可能的实现方式中，上述步骤406也可以由终端设备来执行，具体的执行过程与上述步骤406的说明属于同一发明构思，在此不再赘述。

在步骤406之后，服务器基于对象身份信息进行查询，将查询得到的对象身份信息所关联的多媒体资源信息发送至终端设备，由终端设备展示对象身份信息所关联的多媒体资源信息。若上述步骤401-406均是由终端设备执行的，那么在步骤406之后，也可以由终端设备基于对象身份信息进行查询，展示对象身份信息所关联的多媒体资源信息。当然，若服务器具有显示屏，那么也可以由服务器对应的显示屏展示对象身份信息所关联的多媒体资源信息，本申请实施例对此不做限定。

其中，多媒体资源可以为演员参演的作品，多媒体资源信息可以为该演员参演作品的资源链接、资源介绍页面等。在一种可能的实施方式中，服务器可以将对象身份信息作为关键词，进行关键词查询，确定与关键词相对应的多媒体资源信息，将查询到的多媒体资源信息作为对象身份信息所关联的多媒体资源信息，将多媒体资源信息展示给用户。

进一步地，服务器查询对象身份信息所关联的多媒体资源信息之后，还可以获取多媒体资源中对象的角色定位信息，该角色定位信息可以是指该对象是主演、助演或是特邀演出等，从而可以确定多媒体资源中对象的重要性。

服务器可以将对象在多媒体资源中的角色定位信息发送给终端设备，由终端设备将对象身份信息所关联的多媒体资源信息按照对象在多媒体资源中的角色定位信息的不同进行展示。例如，若该演员的姓名或艺名在某个参演作品的角色定位信息为主演，终端设备可以确定该演员在该参演作品中的重要性较高，那么在展示该演员的作品时，就可以将该参演作品对应的多媒体资源信息放置在靠前的位置；若该演员的姓名或艺名在某个参演作品的角色定位信息为助演，终端设备可以确定该演员在该参演作品中的重要性不高，那么在展示该参演作品时，就可以将该参演作品对应的多媒体资源信息放置在靠后的位置，具体的结果可以参见图7。在这种实现方式下，终端设备可以为用户优先推荐该演员重要性较高的参演作品，推荐效果可能更加符合用户的喜好。

上述步骤是以服务器基于对象身份信息进行查询，得到对象身份信息所关联的多媒体信息为例进行说明的，在另一种可能的实施方式中，服务器还可以确定视频图像对应的视频类型，基于对象身份信息和目标视频类型进行查询，将查询得到的对象身份信息和目标视频类型所关联的多媒体资源信息发送至终端设备，由终端设备展示查询得到的对象身份信息和目标视频类型所关联的多媒体信息，图8可以为一示例性的应用基于视频图像进行搜索的界面示意图，其中801为搜索框，用户可以直接在搜索框内输入相应的内容进行搜索，802为视频图像输入按钮，用户可以点击该按钮，选择想要进行搜索的视频图像进行搜索；图9为一示例性的应用展示搜索结果的界面示意图，其中901为搜索框，展示了视频图像搜索的结果，902为界面边框，903为界面中展示的多媒体资源信息。

在一种可能的实施方式中，服务器可以将视频图像输入视频类型识别模型中，由视频类型识别模型基于视频图像进行预测，得到视频图像属于多个视频类型的概率。服务器可以将概率最高的视频类型确定为视频图像对应的视频类型，服务器基于视频类型识别模型确定视频图像对应的视频类型的示例性结果可以参见图10。其中，视频类型识别模型具有基于视频图像预测视频图像对应的视频类型的能力，其训练方法可以参见模型训练部分的说明，在此不再赘述。服务器可以将对象的身份信息和视频图像对应的视频类型作为关键词，在数据库中进行关键词查询，确定与关键词所关联的多媒体信息，将查询到的多媒体信息发送给终端设备，由终端设备展示给用户。

下面对服务器通过视频类型识别模型基于视频图像预测视频图像对应的视频类型的方法进行说明：

服务器可以将视频图像输入视频类型识别模型中，由视频类型识别模型对视频图像进行卷积处理，得到视频图像对应的特征图。服务器可以基于视频图像对应的特征图，得到预测向量，基于预测向量，确定视频图像对应的视频类型。

举例来说，服务器可以将视频图像对应的特征图输入视频类型识别模型的池化层中，由池化层过滤视频图像对应的特征图中的无关特征。服务器可以将过滤后的视频图像对应的特征图输入视频类型识别模型的全连接层，得到视频图像对应的特征向量。服务器可以通过激活函数对该特征向量进行处理，得到[0.1,0.3,0.4,0.6,0.7……]形式的预测向量，其中数字可以表示该视频图像属于某个视频类型的概率，数字的数量可以表示视频类型的数量。服务器可以将数字最大的视频类型确定为该视频图像对应的视频类型。

在一种可能的实施方式中，服务器可以获取视频图像对应视频的风格标签，将风格标签确定为视频图像对应的视频类型，其中，风格标签可以包括但不限于古装剧、现代剧以及魔幻剧。服务器可以将对象的身份信息和视频图像对应的视频的风格标签作为关键词，在数据库中进行关键词查询，确定与关键词所关联的多媒体信息，将查询到的多媒体信息发送给终端设备，由终端设备展示给用户。

举例来说，服务器识别到视频图像中的人脸图像对应于演员A，同时获取到视频图像对应的风格标签为古装剧，则可以基于演员A以及古装剧进行查询，向用户展示演员A所参演的古装剧。

在一种可能的实施方式中，服务器可以获取视频图像对应视频的标题，基于标题确定视频对应的视频类型。服务器可以将对象的身份信息和视频图像对应的视频类型作为关键词，在数据库中进行关键词查询，确定与关键词所关联的多媒体信息，将查询到的多媒体信息发送给终端设备，由终端设备展示给用户。

下面以一个具体的例子对服务器基于视频的标题确定视频类型的方法进行说明：在一种可能的实施方式中，若用户观看的视频标题为“红楼梦”，那么服务器可以确定与“红楼梦”对应的视频类型为古装剧，可以将古装剧与“红楼梦”绑定存储，将古装剧确定为视频图像对应的视频类型。

在上述实施方式中，服务器不仅可以识别出视频图像中的演员的身份信息，还可以识别出视频图像对应的视频类型，基于演员的身份信息和视频类型进行搜索，得到的结果可能更加符合用户的需求。

通过本申请实施例提供的技术方案，计算机设备可以基于图像识别模型对视频图像中的人脸图像进行识别，得到人脸图像所包括的对象的身份信息。基于对象的身份信息进行查询，可以缩小计算机设备查询多媒体资源信息的范围，提升查询速度，减少计算资源的消耗，同时，在较小的范围进行查询，也可以提高计算机设备进行图像识别的精确度，查询到的多媒体资源信息与视频图像相关性较高。计算机设备通过这样的方式向用户展示查询到的多媒体资源信息，展示的结果更加符合用户的喜好，多媒体资源信息的展示效果较好。除此之外，计算机设备还可以对视频图像对应的视频类型进行识别，基于对象的身份信息和视频类型进行搜索，可以进一步缩小查询范围，从而进一步提高图像识别的精准度，查询到的多媒体资源信息与用户输入的视频图像的相关性更强，多媒体资源信息展示的效果更好。例如，上述实现过程可以应用于用户在对感兴趣的人进行搜索的过程中，用户在观看视频过程中对某个演员感兴趣，但是却不认识该演员，则截取了一张包括该演员脸部的视频图像，则用户可以触发上述步骤401以及之后的步骤，来得到相应的搜索结果，从而在提高了识别精度的前提下，能够提供相关性更强的搜索结果，也提高了展示效果。

图11是本申请实施例提供的一种多媒体资源信息的展示装置结构示意图，参见图11，装置包括：输入模块1101、识别模块1102以及查询模块1103。

输入模块1101，用于将视频图像中的人脸图像输入图像识别模型中，由图像识别模型对人脸图像进行卷积处理，得到人脸图像对应的目标特征图。

识别模块1102，用于基于目标特征图，对人脸图像所包括的对象进行识别，得到对象的对象身份信息。

查询模块1103，用于基于对象身份信息进行查询，展示查询得到的对象身份信息所关联的多媒体资源信息。

在一种可能的实施方式中，识别模块包括：

相似度确定单元，用于基于目标特征图和图像集中多个参照人脸图像对应的参照特征图，确定人脸图像与多个参照人脸图像的相似度。

身份信息确定单元，用于将相似度符合目标相似度条件的参照人脸图像对应的对象身份信息确定为对象的身份信息。

在一种可能的实施方式中，输入模块还用于将图像集中多个参照人脸图像输入图像识别模型中，由图像识别模型对多个参照人脸图像进行卷积处理，得到与多个参照人脸图像对应的多个参照特征图。

在一种可能的实施方式中，查询模块还用于确定视频图像对应的视频类型，基于对象身份信息和目标视频类型进行查询，展示查询得到的对象身份信息和目标视频类型所关联的多媒体信息。

在一种可能的实施方式中，查询模块还用于将视频图像输入视频类型识别模型中，由视频类型识别模型基于视频图像进行预测，得到视频图像属于多个视频类型的概率，将概率最高的视频类型确定为视频图像对应的视频类型。

将概率最高的视频类型确定为样本视频类型。

在一种可能的实施方式中，查询模块还用于获取视频图像对应视频的风格标签，将风格标签确定为视频图像对应的视频类型。

在一种可能的实施方式中，查询模块还用于获取视频图像对应视频的标题，基于标题确定视频对应的视频类型。

在一种可能的实施方式中，图像识别模型的训练方法包括：

将图像识别模型的样本图像输入初始图像识别模型，由初始图像识别模型基于图像识别模型的样本图像进行预测，得到图像识别模型的样本图像与图像集中图像的相似度。

将相似度最高的图像确定为目标图像。

基于目标图像与图像识别模型的样本图像对应的实际图像的差异，调整初始图像识别模型的模型参数，直至初始图像识别模型符合图像识别模型的迭代截至条件，将此时的初始图像识别模型作为图像识别模型。

在一种可能的实施方式中，输入模块还用于将视频图像输入区域确定模型，由区域确定模型将视频图像划分成多个备选区域。

装置还包括：

第一卷积处理模块，用于对多个备选区域中的至少一个备选区域进行卷积处理，得到至少一个备选区域对应的备选特征图。

第三概率确定模块，用于基于备选特征图，确定至少一个备选区域为人脸区域的概率。

在一种可能的实施方式中，区域确定模型的训练方法包括：

将区域确定模型的样本图像输入初始区域确定模型，由初始区域确定模型将区域确定模型的样本图像划分成多个训练备选区域。

基于多个训练备选特征图，确定多个备选区域属于第一类型的概率，将概率最高的训练备选区域确定为第一类型。

在一种可能的实施方式中，查询模块包括：

多媒体资源信息查询单元，用于基于对象身份信息，查询对象身份信息所关联的多媒体资源。

角色定位信息确定单元，用于确定多媒体资源中对象的角色定位信息。

展示单元，用于将对象身份信息所关联的多媒体资源信息按照角色定位信息的不同进行展示。

需要说明的是：上述实施例提供的多媒体资源信息的展示装置在展示多媒体资源信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体资源信息的展示装置与多媒体资源信息的展示方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端设备或者服务器，下面先对终端设备的结构进行介绍：

图12是本申请实施例提供的一种终端设备的结构示意图。该终端设备1200可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端设备1200还可能被称为用户设备、便携式终端设备、膝上型终端设备、台式终端设备等其他名称。

通常，终端设备1200包括有：一个或多个处理器1201和一个或多个存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的多媒体资源信息的展示方法。

在一些实施例中，终端设备1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端设备的前面板，后置摄像头设置在终端设备的背面。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。

定位组件1208用于定位终端设备1200的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。

电源1209用于为终端设备1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端设备1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端设备1200建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器1212可以检测终端设备1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端设备1200的3D动作。

压力传感器1213可以设置在终端设备1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端设备1200的侧边框时，可以检测用户对终端设备1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。接近传感器1216用于采集用户与终端设备1200的正面之间的距离。

本领域技术人员可以理解，图12中示出的结构并不构成对终端设备1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述计算机设备还可以提供为服务器，下面对服务器的结构进行介绍：

图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1301和一个或多个的存储器1302，其中，所述一个或多个存储器1302中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1300还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的多媒体资源信息的展示方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多媒体资源信息的展示方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标特征图，对所述人脸图像所包括的对象进行识别，得到所述对象的对象身份信息包括：

基于所述目标特征图和图像集中多个参照人脸图像对应的参照特征图，确定所述人脸图像与所述多个参照人脸图像的相似度；

将所述相似度符合目标相似度条件的参照人脸图像对应的对象身份信息确定为所述对象的身份信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标特征图和图像集中多个参照人脸图像对应的参照特征图，确定所述人脸图像与所述多个参照人脸图像的相似度之前，所述方法还包括：

将所述图像集中多个参照人脸图像输入所述图像识别模型中，由所述图像识别模型对所述多个参照人脸图像进行卷积处理，得到与所述多个参照人脸图像对应的多个参照特征图。

4.根据权利要求1所述的方法，其特征在于，所述基于所述对象身份信息进行查询，展示查询得到的所述对象身份信息所关联的多媒体资源信息包括：

确定所述视频图像对应的视频类型，基于所述对象身份信息和所述目标视频类型进行查询，展示查询得到的所述对象身份信息和所述目标视频类型所关联的多媒体信息。

5.根据权利要求4所述的方法，其特征在于，所述确定所述视频图像对应的视频类型包括：

将所述视频图像输入视频类型识别模型中，由所述视频类型识别模型基于所述视频图像进行预测，得到所述视频图像属于多个视频类型的概率，将概率最高的视频类型确定为所述视频图像对应的视频类型。

6.根据权利要求5所述的方法，其特征在于，所述视频类型识别模型的训练方法包括：

将概率最高的视频类型确定为样本视频类型；

7.根据权利要求4所述的方法，其特征在于，所述确定所述视频图像对应的目标视频类型包括：

获取所述视频图像对应视频的风格标签，将所述风格标签确定为所述视频图像对应的视频类型。

8.根据权利要求4所述的方法，其特征在于，所述确定所述视频图像对应的目标视频类型包括：

获取所述视频图像对应视频的标题，基于所述标题确定所述视频对应的视频类型。

9.根据权利要求1所述的方法，其特征在于，所述图像识别模型的训练方法包括：

将相似度最高的图像确定为目标图像；

10.根据权利要求1所述的方法，其特征在于，所述将视频图像中的人脸图像输入图像识别模型中之前，所述方法还包括：

将所述视频图像输入区域确定模型，由所述区域确定模型将所述视频图像划分成多个备选区域；

对所述多个备选区域中的至少一个备选区域进行卷积处理，得到所述至少一个备选区域对应的备选特征图；

基于所述备选特征图，确定所述至少一个备选区域为人脸区域的概率；

将概率符合目标概率条件的备选区域确定为所述视频图像中的人脸图像。

11.根据权利要求10所述的方法，其特征在于，所述区域确定模型的训练方法包括：

基于所述多个训练备选特征图，确定所述多个训练备选区域属于第一类型的概率；

将概率最高的训练备选区域确定为第一类型；

12.根据权利要求1所述的方法，其特征在于，所述基于所述对象身份信息进行查询，展示查询得到的所述对象身份信息所关联的多媒体资源信息包括：

基于所述对象身份信息，查询所述对象身份信息所关联的多媒体资源；

确定所述多媒体资源中所述对象的角色定位信息；

将所述对象身份信息所关联的多媒体资源信息按照所述角色定位信息的不同进行展示。

13.一种多媒体资源信息的展示装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的多媒体资源信息的展示方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的多媒体资源信息的展示方法所执行的操作。