CN110163066A

CN110163066A - 多媒体数据推荐方法、装置及存储介质

Info

Publication number: CN110163066A
Application number: CN201811497054.8A
Authority: CN
Inventors: 肖磊; 蒋杰; 芦清林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-08-23
Anticipated expiration: 2038-12-07
Also published as: CN110163066B

Abstract

本发明实施例公开了一种多媒体数据推荐方法、装置及存储介质，属于互联网技术领域。该方法包括：获取目标视频，目标视频包括多个视频帧，多个视频帧包括第一类视频帧和第二类视频帧；对第一类视频帧进行目标检测，确定目标视频中出现的目标物体，以及目标物体在所处视频帧中的显示区域；对第二类视频帧进行目标追踪，确定目标物体在所处视频帧中的显示区域；获取与目标物体匹配的多媒体数据；根据目标物体在所处视频帧中的显示区域，确定多媒体数据的投放位置。减少了计算量，降低了消耗的计算资源，缓解了压力。并且由于多媒体数据与目标视频中出现的目标物体匹配，因此与目标视频之间的关联度较高，容易引起用户的兴趣，避免了对用户的打扰。

Description

多媒体数据推荐方法、装置及存储介质

技术领域

本发明实施例涉及互联网技术领域，特别涉及一种多媒体数据推荐方法、装置及存储介质。

背景技术

随着互联网技术的飞速发展和网络信息的爆炸式增长，如何精准投放广告、提高广告曝光率已成为广告主非常关注的问题。近年来，视频行业逐渐兴起，观看视频已成为人们日常生活中丰富精神生活的一种常用方式，这使得在视频中投放广告成为一种趋势。

广告主通常会将广告提供给视频发布者，由视频发布者将广告与视频结合，共同展示给用户。例如，将广告插入至视频的片头或者片尾，当播放视频时，在视频的片头或片尾播放该广告。或者，在播放视频的过程中，在视频播放界面中展示该广告。

视频中投放的广告通常由广告主与视频发布者确定，随机性较强，与视频的关联度较低，很容易造成对用户的干扰，引起用户的反感。因此，亟需提供一种在视频中投放广告的方法，以提高视频与广告的关联度。

发明内容

本发明实施例提供了一种多媒体数据推荐方法、装置及存储介质，可以解决相关技术存在的问题。所述技术方案如下：

一方面，提供了一种多媒体数据推荐方法，所述方法包括：

获取目标视频，所述目标视频包括多个视频帧，所述多个视频帧包括第一类视频帧和第二类视频帧，任两个相邻的第一类视频帧之间包括至少一个第二类视频帧；

对所述第一类视频帧进行目标检测，确定所述目标视频中出现的目标物体，以及所述目标物体在所处视频帧中的显示区域；

对所述第二类视频帧进行目标追踪，确定所述目标物体在所处视频帧中的显示区域；

获取与所述目标物体匹配的多媒体数据；

根据所述目标物体在所处视频帧中的显示区域，确定所述多媒体数据的投放位置。

另一方面，提供了一种多媒体数据推荐方法，所述方法包括：

获取基于目标视频推荐的多媒体数据，以及所述多媒体数据在所述目标视频中的投放位置，所述投放位置由所述目标视频中出现的目标物体在所处视频帧中的显示区域确定；

基于所述目标视频的播放界面，在所述投放位置显示数据标识，所述数据标识用于调用所述多媒体数据；

当接收到对所述数据标识的调用指令时，显示所述多媒体数据。

另一方面，提供了一种多媒体数据推荐装置，所述装置包括：

视频获取模块，用于获取目标视频，所述目标视频包括多个视频帧，所述多个视频帧包括第一类视频帧和第二类视频帧，任两个相邻的第一类视频帧之间包括至少一个第二类视频帧；

第一确定模块，用于对所述第一类视频帧进行目标检测，确定所述目标视频中出现的目标物体，以及所述目标物体在所处视频帧中的显示区域；

第二确定模型，用于对所述第二类视频帧进行目标追踪，确定所述目标物体在所处视频帧中的显示区域；

数据获取模块，用于获取与所述目标物体匹配的多媒体数据；

位置确定模块，用于根据所述目标物体在所处视频帧中的显示区域，确定所述多媒体数据的投放位置。

获取模块，用于获取基于目标视频推荐的多媒体数据，以及所述多媒体数据在所述目标视频中的投放位置，所述投放位置由所述目标视频中出现的目标物体在所处视频帧中的显示区域确定；

第一显示模块，用于基于所述目标视频的播放界面，在所述投放位置显示数据标识，所述数据标识用于调用所述多媒体数据；

第二显示模块，用于当接收到对所述数据标识的调用指令时，显示所述多媒体数据。

另一方面，提供了一种多媒体数据推荐装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如所述多媒体数据推荐方法中所执行的操作。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并具有以实现如所述多媒体数据推荐方法中所执行的操作。

本发明实施例提供的方法、装置及存储介质，通过获取目标视频，对目标视频包括的第一类视频帧进行目标检测，对第二类视频帧进行目标追踪，确定目标视频中出现的目标物体以及目标物体在所处视频帧中的显示区域，获取与目标物体匹配的多媒体数据，并根据目标物体在所处视频帧中的显示区域确定多媒体数据的投放位置。通过将多个视频帧进行划分，仅对第一类视频帧进行目标检测，对第二类视频帧进行目标追踪，减少了逐帧检测视频帧中出现的目标物体带来的庞大计算量，降低了消耗的计算资源，缓解了计算压力。并且，由于多媒体数据与目标视频中出现的目标物体匹配，因此与目标视频之间的关联度较高，容易引起用户的兴趣，避免了对用户的打扰。

并且，根据目标物体和请求播放目标视频的用户标识，获取用户标识的用户特征，获取与目标物体和用户特征匹配的多媒体数据，综合考虑了目标物体和用户特征，使得获取的多媒体数据更具有针对性，能够达到个性化推荐的效果，提升了多媒体数据的转化率。

并且，随着目标视频中出现的目标物体动态变化，能够动态推荐关联的多媒体数据，提高了多媒体数据的数量，进而提高了目标视频的利用率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种多媒体数据推荐方法的流程图；

图3是本发明实施例提供的一种faster-rcnn算法的网络结构示意图；

图4是本发明实施例提供的一种目标视频中出现目标物体的时间段示意图；

图5是是本发明实施例提供一种全连接网络的结构示意图；

图6是本发明实施例提供的一种预测模型的结构示意图；

图7是本发明实施例提供的一种编码方式的示意图；

图8是本发明实施例提供的一种目标物体显示区域的示意图；

图9是本发明实施例提供的一种显示数据标识的示意图；

图10是本发明实施例提供的一种显示多媒体数据的示意图；

图11是本发明实施例提供的一种操作流程的示意图；

图12是本发明实施例提供的一种多媒体数据推荐装置的结构示意图；

图13是本发明实施例提供的另一种多媒体数据推荐装置的结构示意图；

图14是本发明实施例提供的一种终端的结构示意图；

图15是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种多媒体数据推荐方法，将目标视频包括的多个视频帧分为第一类视频帧和第二类视频帧，通过对第一类视频帧进行目标检测以及对第二类视频帧进行目标追踪，确定在目标视频中出现的目标物体以及该目标物体在目标视频中的显示区域，获取与上述目标物体相匹配的多媒体数据，根据该显示区域确定多媒体数据的投放位置，以便在该投放位置为用户推荐该多媒体数据。由于仅对第一类视频帧进行目标检测，对第二类视频帧进行目标追踪，减少了逐帧检测视频帧中出现的目标物体带来的庞大计算量，降低消耗的计算资源，缓解了计算压力。并且，由于该多媒体数据与目标视频中出现的目标物体匹配，因此与目标视频之间的关联度较强，容易引起用户的兴趣，避免了对用户的打扰，而且还能够提高该多媒体数据的转化率。

图1是本发明实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：终端101和服务器102，终端101和服务器102之间通过网络连接。

其中，终端101可以为手机、计算机、平板电脑、智能电视等多种类型的设备，服务器102可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

终端101具备播放视频的功能，而服务器102可以存储多媒体数据，将多媒体数据发送至终端，以便在终端101的视频播放界面中显示多媒体数据，从而为终端101的用户推荐多媒体数据。

本发明实施例提供了一种方法，能够根据目标视频中出现的目标物体，以及目标物体在所处视频帧中的显示区域，确定多媒体数据的投放位置。

在一种可能实现方式中，该方法应用于服务器102，服务器102获取目标视频，根据目标视频中出现的目标物体，以及目标物体在所处视频帧中的显示区域，确定多媒体数据的投放位置，之后将目标视频、多媒体数据以及多媒体数据的投放位置发送给终端101，由终端101播放目标视频，并在确定的投放位置显示多媒体数据。

在另一种可能实现方式中，该方法应用于终端101，终端101播放目标视频，并根据目标视频中出现的目标物体，以及目标物体在所处视频帧中的显示区域，从服务器102获取目标物体匹配的多媒体数据，之后终端101确定多媒体数据的投放位置，在确定的投放位置显示多媒体数据。

本发明实施例可以应用于根据目标视频推荐多媒体数据的任一场景下。例如，在线播放视频的场景下，在视频播放界面上会根据当前出现的目标人物，在目标人物附近显示匹配的多媒体数据，用户观看视频时即可查看该多媒体数据，获知目标人物佩戴的饰品、所穿的衣物等。

图2是本发明实施例提供的一种多媒体数据推荐方法的流程图。本发明实施例的执行主体为推荐装置，该推荐装置可以为图1所示的终端或服务器，参见图2，该方法包括：

201、推荐装置获取目标视频。

其中，目标视频包括按照顺序排列的多个视频帧，该多个视频帧共同构成目标视频，在播放目标视频时，可以依次播放多个视频帧。

从目标视频的内容来说，目标视频包括视频画面和音频，其中视频画面可以包括物体和环境等多种内容，物体可以包括人物、动物、植物以及视频画面中出现的其他物品，环境用于描述视频画面所处的环境，可以为背景的景色、所处的房间等。且根据目标视频的内容，可以确定目标视频的类型，如电影、电视剧等。

例如，目标视频为情景类的电视剧，目标视频中的内容为一个头戴发卡，身穿粉色公主裙的小女孩，坐在沙发上玩拼图。

从目标视频的来源来说，若该推荐装置为终端，则该目标视频可以由终端拍摄得到，或者由终端从互联网中下载，或者由其他设备发送至终端。若该推荐装置为服务器，则该目标视频可以由终端上传至服务器，或者由视频发布者提供给维护人员后，由维护人员存储至服务器，或者由其他设备发送至服务器。

本公开实施例中，考虑到若逐帧检测视频帧中出现的目标物体，计算量庞大，会消耗过多的计算资源，造成极大的计算压力，因此，采用目标检测和目标追踪相结合的方式，对一部分视频帧进行目标检测，确定目标视频中出现的目标物体以及目标物体的显示区域，针对检测出的目标物体，在另一部分视频帧预测目标物体的显示区域。这样，与每个视频帧均进行目标检测相比，可以减小计算量，降低消耗的计算资源，缓解计算压力。

其中，上述多个视频帧中，进行目标检测的视频帧确定为第一类视频帧，将进行目标追踪的视频帧确定为第二类视频帧。则目标视频包括第一类视频帧和第二类视频帧，且任两个相邻的第一类视频帧之间包括至少一个第二类视频帧。

关于第一类视频帧和第二类视频帧的确定方式，在一种可能实现的方式中，确定目标视频中每个视频帧的播放时间点，将目标视频中的任一视频帧确定为第一类视频帧，将播放时间点位于该第一类视频帧的播放时间点之后的预设时长内的视频帧确定为第二类视频帧，将已确定的最后一个第二类视频帧之后的视频帧确定为第一类视频帧，以此类推。

例如，预设时长为1秒，将第1个视频帧确定为第一类视频帧，将之后1秒内的3个视频帧确定为第二类视频帧，之后将第5个视频帧也确定为第一类视频帧，以此类推。

在另一种可能实现的方式中，将目标视频中的任一视频帧确定为第一类视频帧，将该第一类视频帧之后预设个数的视频帧确定为第二类视频帧，将已确定的最后一个第二类视频帧之后的视频帧确定为第一类视频帧，以此类推。

例如，预设个数为3，将第1个视频帧确定为第一类视频帧，将第2个视频帧、第3个视频帧和第4个视频帧确定为第二类视频帧，之后将第5个视频帧也确定为第一类视频帧，以此类推。

采用上述两种方式，可以实现第一类视频帧与第二类视频帧的间隔设置，既能够减小计算量，降低消耗的计算资源，还考虑到目标追踪造成的误差，在进行一次或多次目标追踪之后，重新进行目标检测，从而对目标追踪造成的误差及时进行修正，提高了准确率。

在另一种可能实现的方式中，物体分为静态物体和动态物体两种类型，静态物体包括家具、景物等，动态物体包括人物、动物等。则推荐装置可以根据目标视频中出现的目标物体所属的类型划分第一类视频帧和第二类视频帧。划分过程中，将目标视频中的任一视频帧确定为第一类视频帧，对第一类视频帧进行目标检测，确定目标视频中出现的目标物体，判断目标物体为静态物体还是动态物体，当该第一类视频帧中出现的目标物体为动态物体时，将该动态物体作为追踪目标，将该第一类视频帧之后的视频帧作为第二类视频帧，对第二类视频帧进行目标追踪，从而识别出动态物体在第一类视频帧中之后的多个第二类视频帧中的运动轨迹，直至对某一视频帧进行目标追踪时追踪失败为止，此时表示该目标物体消失，将该目标物体消失的视频帧确定为第一类视频帧，对该第一类视频帧进行目标检测，以此类推。

例如，目标视频中出现一个小女孩，将该小女孩第一次出现的视频帧确定为第一类视频帧，将该第一类视频帧之后的第一个视频帧确定为第二类视频帧，并在该第二类视频帧中对该小女孩进行追踪，若该第二类视频帧中依然出现该小女孩，则将该第二类视频帧之后的视频帧也确定为第二类视频帧，直到该小女孩消失为止，将该小女孩消失的视频帧作为第一类视频帧，以此类推。

采用上述方式，可以实现第一类视频帧与第二类视频帧的间隔设置，既能够减小计算量，降低消耗的计算资源，还考虑到目标视频中的动态物体连续出现的视频帧，按照动态物体的运动轨迹进行目标追踪，保证了追踪的连续性，待目标物体消失后，重新进行目标检测，还能够对目标追踪造成的误差及时进行修正，提高了准确率。

本公开实施例中，该目标视频可以为推荐装置当前待播放的视频，或者为其他设备请求播放的视频。推荐装置获取到目标视频后，将基于目标视频中出现的目标物体，以及目标物体在所处视频帧中的显示区域推荐多媒体数据。

202、推荐装置对第一类视频帧进行目标检测，确定目标视频中出现的目标物体，以及目标物体在所处视频帧中的显示区域。

对于第一类视频帧，确定该视频帧中出现的目标物体，以及该目标物体在该视频帧中的检测状态数据。

检测状态数据用于表示该目标物体在所处视频帧中的状态，至少包括目标物体的显示区域，还可以包括目标物体的尺寸、外观等。

其中，对第一类视频帧进行目标检测时，可以确定目标物体的类别和轮廓，则根据目标物体的类别可以确定该目标物体是哪一种物体，根据目标物体的轮廓可以确定该目标物体的显示区域。另外，根据目标物体的轮廓还可以确定目标物体的尺寸、外观等。

在一种可能实现的方式中，获取已训练的物体检测模型，对于第一类视频帧，基于该物体检测模型，确定该视频帧中出现的目标物体，以及该目标物体在该视频帧中的检测状态数据。

训练物体检测模型的过程可以包括：获取多个样本图像以及每个样本图像中出现的物体，基于该多个样本图像以及每个样本图像中出现的物体，采用预设训练算法进行训练，得到物体检测模型，该物体检测模型用于检测视频帧中出现的物体，如检测物体的类别和轮廓。

其中，该预设训练算法可以为深度学习算法、卷积神经网络算法或者循环神经网络算法等，采用不同的预设训练算法可以训练得到不同的模型，如深度学习模型、卷积神经网络模型或者循环神经网络模型等。

例如，参见图3，采用faster-rcnn(基于区域的快速卷积神经网络)算法训练物体检测模型时，将样本图像输入至卷积神经网络的卷积层，提取样本图像的图像特征，将图像特征输入至区域推荐网络和卷积神经网络中的第一个卷积特征映射层，则通过区域推荐网络生成候选区域，并将候选区域映射到卷积神经网络的最后一个卷积特征映射层，在最后一个卷积特征映射层提取候选区域中的图像特征，输入至候选区域池化层，通过候选区域池化层使每个候选区域生成固定尺寸的图像特征后输出。

另外，训练物体检测模型时还可以结合pascal voc 2012数据库，pascal voc2012数据库数据库中包括20类物体的特征，采用faster-rcnn算法和pascal voc2012数据库训练出的物体检测模型可以检测并识别20类物体。

203、推荐装置对第二类视频帧进行目标追踪，确定目标物体在所处视频帧中的显示区域。

对于第二类视频帧，基于目标物体在该第二类视频帧的上一个视频帧中的状态数据，确定目标物体在该第二类视频帧中预测状态数据。

其中，预测状态数据用于预测该目标物体在所处视频帧中的状态，至少包括目标物体的显示区域，还可以包括目标物体的尺寸、外观以及移动速度等数据。可选地，该移动速度可以通过目标物体在任两个相邻的视频帧中的显示区域之间的差异和这两个视频帧之间的时间间隔确定。

在一种可能实现的方式中，获取已训练的物体追踪模型，对于第二类视频帧，基于该物体追踪模型和目标物体在该第二类视频帧的上一个视频帧中的状态数据，确定目标物体在第二类视频帧中的预测状态数据。

其中，物体追踪模型用于对视频中出现的目标物体进行追踪，根据目标物体在之前的一个或多个视频帧中的状态数据，预测目标物体在当前视频帧中的预测状态数据。

训练物体追踪模型的过程可以包括：获取多个样本视频以及每个样本视频中每个视频帧中出现的物体以及该物体在所处视频帧中的显示区域，确定每个样本视频中的物体移动轨迹，根据该多个样本视频以及每个样本视频中的物体移动轨迹，采用预设算法进行训练，得到物体追踪模型。

其中，该预设算法可以为采用卡尔曼滤波算法、例子滤波算法或聚类算法等。

在另一种可能实现方式中，为了保证物体追踪模型能够适应目标物体的实际状态，提高准确率，可以在追踪目标物体的过程中，对物体追踪模型进行修正。

因此，对于第一类视频帧，不仅会基于物体检测模型确定目标物体在该视频帧中的检测状态数据，而且还会基于物体追踪模型和目标物体在该视频帧的上一个视频帧中的状态数据，确定目标物体在该视频帧中的预测状态数据。

然后根据目标物体在该视频帧中的检测状态数据和预测状态数据，对物体追踪模型进行修正，得到修正后的物体追踪模型，之后基于修正后的物体追踪模型，继续在之后的视频帧中进行目标追踪。

例如，目标视频包括t个视频帧，该t个视频帧构成的序列为{I₁,I₂,...,I_t,...}，基于物体检测模型对第一类视频帧中出现的目标物体进行检测，目标视频中出现M_t个目标物体，因此会得到M_t个目标物体的检测状态数据。对于该多个目标物体，基于物体追踪模型，采用多目标追踪的方式进行追踪，得到M_t个目标物体的预测状态数据。则根据M_t个目标物体在第一类视频帧中的检测状态数据和预测状态数据，对上述物体追踪模型进行修正，得到修正后的物体追踪模型，并基于该修正后的物体追踪模型对之后的视频帧中出现的目标物体继续进行追踪。

其中，每个目标物体的预测状态数据用S_t ⁱ表示，那么每个视频帧中所有的目标物体的预测状态数据表示为其中第i个目标物体的移动轨迹可以表示为Sⁱ _1:t＝{Sⁱ ₁,Sⁱ ₂,...,Sⁱ _t}。

204、推荐装置获取与目标物体匹配的多媒体数据。

本发明实施例中，为了提高目标视频与投放的多媒体数据之间的关联度，确定目标视频中出现的目标物体后，获取与目标物体匹配的多媒体数据，这些多媒体数据可以认为是与目标物体关联的多媒体数据。

在一种可能实现方式中，获取与目标物体匹配的多媒体数据，包括以下至少一项：

2041、获取预设数据库。

其中，预设数据库用于存储多个多媒体数据以及每个多媒体数据匹配的物体。每个多媒体数据具有一个对应的物体，用于描述对应物体的详情信息，而每个多媒体数据匹配的物体可以包括多媒体数据对应的物体，以及多媒体数据对应的物体的相似物体。

物体的详情信息可以包括物体的尺寸、外观、型号、功能以及使用方法等信息。而多媒体数据可以为包括对应物体的详情信息的视频、图片、文本等数据，还可以为链接至某一展示页面的视频、图片、文本等，该展示页面用于展示对应物体的详情信息。

另外，预设数据库中还可以包括每个多媒体数据的数据特征，该数据特征用于对多媒体数据进行说明，可以包括多媒体数据的数据标识、简介、可投放的位置、多媒体数据包括的图像等。

2042、根据目标物体查询预设数据库，获取与目标物体对应的多媒体数据。

2043、根据目标物体查询预设数据库，得到目标物体的相似物体，获取与该相似物体对应的多媒体数据。

在该预设数据库中，目标物体采用属性特征的形式进行存储，属性特征用于描述目标物体的详情信息，详情信息包括多个维度上的详情信息，而属性特征可以由多个维度上的详情信息的特征组成。例如，目标物体的属性特征由尺寸特征、型号特征和颜色特征组成。

相应地，根据目标物体查询预设数据库时，先获取目标物体的属性特征，将该属性特征与预设数据库中的属性特征进行匹配，获取该属性特征对应的多媒体数据，即为目标物体对应的多媒体数据，或者，获取该属性特征的相似属性特征对应的多媒体数据，即为目标物体的相似物体对应的多媒体数据。

其中，任两个属性特征相似是指这两个属性特征相似度足够大，如这两个属性特征的余弦相似度大于预设阈值，或者这两个属性特征的欧式距离小于预设阈值，或者这两个属性特征在预设个数的维度上的特征相同。

上述步骤2042和2043可以结合，如根据目标物体查询预设数据库，获取与目标物体对应的多媒体数据，并获取与该相似物体对应的多媒体数据，均作为待投放的多媒体数据。或者，将预设数据库中是否存在目标物体作为判断标准，当预设数据库中存在目标物体时，获取目标物体对应的多媒体数据，该多媒体数据即为与目标物体匹配的多媒体数据。而当预设数据库中不存在目标物体时，获取与目标物体的相似物体对应的多媒体数据，将该多媒体数据作为目标物体匹配的多媒体数据。

在另一种可能实现方式中，目标视频中可能会出现一个或多个目标物体，且每个目标物体的出现时长各不相同，若针对出现时长较短的目标物体推荐多媒体数据，会导致多媒体数据的展示时间过短，造成不必要的资源浪费。因此，可以根据目标物体的出现时长确定是否要进行投放。当该目标物体在目标视频中的出现时长大于预设时长时，根据预设数据库，获取与该目标物体匹配的多媒体数据，而当目标物体在目标视频中的出现时长不大于预设时长，不再获取与该目标物体匹配的多媒体数据。其中出现时长根据连续出现该目标物体的第一个视频帧与最后一个视频帧之间的时间间隔确定。

例如，参见图4，蛋糕在目标视频的第6分00秒出现，在第6分21秒消失，则蛋糕连续出现的第一个视频帧为目标视频的第6分00秒对应的视频帧，最后一个视频帧为第6分20秒对应的视频帧，蛋糕的出现时长为20秒。同样在该目标视频中，汽车在目标视频的第7分00秒出现，在第7分21秒消失，则汽车连续出现的第一个视频帧为目标视频的第7分00秒对应的视频帧，最后一个视频帧为第7分20秒对应的视频帧，汽车的出现时长为20秒。

若预设时长设置为5秒，则蛋糕和汽车的出现时长均大于预设时长，则根据预设数据库，获取与蛋糕匹配的多媒体数据，以及与汽车匹配的多媒体数据。

在另一种可能实现的方式中，目标视频可以展示给多个用户，且每个用户喜好的多媒体数据不同，为了避免对用户的打扰，可以根据用户特征获取匹配的多媒体数据，以便为每个用户推荐感兴趣的多媒体数据，实现个性化推荐。

为此，推荐装置确定目标物体，以及请求播放目标视频的用户标识，获取该用户标识的用户特征，根据预设数据库，获取与目标物体和用户特征均匹配的多媒体数据。

其中，用户特征用于描述用户标识对应的用户的特征。该用户特征包括历史行为特征和属性特征，历史行为特征由历史行为记录确定，历史行为记录中包括终端基于用户标识执行的多种操作，该多种操作包括请求播放操作、触摸操作和查看操作等，历史行为记录中还包括曾播放的视频，以及该视频中展示的多媒体数据和用户曾点击过的多媒体数据等。属性特征用于描述用户标识的属性信息，如用户的性别、年龄、地域以及特点等。

当推荐装置为终端时，终端检测到用户请求播放目标视频的操作时，确定当前登录的用户标识，即为请求播放目标视频的用户标识。当推荐装置为服务器时，终端向服务器发送视频播放请求，视频播放请求携带终端登录的用户标识，服务器接收到视频播放请求时，确定该视频播放请求对应的目标视频，将终端登录的用户标识确定为请求播放目标视频的用户标识。

在另一种可能实现方式中，每个多媒体数据可以设置投放条件，该投放条件可以由多媒体数据的提供方设置，或者由推荐装置的管理者确定。该投放条件可以包括投放多媒体数据的视频的历史播放次数大于预设次数、多媒体数据的提供方付出的资源数量大于预设数量等，在获取目标物体匹配的多媒体数据时，还要考虑每个多媒体数据的投放条件，获取到满足投放条件的多媒体数据。

本发明实施例中，为了便于综合考虑投放多媒体数据的多种因素，可以根据多个多媒体数据、多个多媒体数据的数据特征、投放条件以及多个用户的用户特征，建立预测模型，该预测模型可以预测任一用户对任一多媒体数据感兴趣的概率。因此，获取到目标物体匹配的多媒体数据后，将多媒体数据和当前的用户标识对应的用户特征输入至预测模型，通过该预测模型确定多媒体数据与用户标识之间的匹配程度，从而确定是否要过滤该多媒体数据，从而实现了多媒体数据的自动筛选。

当目标物体存在多个与其匹配的多媒体数据时，通过上述预测模型，获取该多个多媒体数据与目标物体的匹配程度，并根据匹配程度进行排序，根据排列顺序选择待投放的多媒体数据。

可选地，参见图5和图6，预测模型的网络结构采用全连接的MLP(Multi-LayerPerceptron，多层感知机)结构，该全连接结构为具有4个隐藏层的MLP神经网络结构。将用户历史行为记录和属性信息，以及多媒体数据的描述信息进行离散化处理和编码处理后，得到以数值形式表达的用户特征和多媒体数据的数据特征，将两者拼接得到的特征向量，作为预测模型的输入，进而依靠预测模型学习用户特征和数据特征之间的关系。另外，训练后采用反向传播算法对MLP进行修正，将MLP的输出反向传播，启动反向传播过程，进而使得MLP输出的结果更加准确。

参见图7，上述编码过程可以采用One-Hot编码(独热编码)方式实现，通过该One-Hot编码方式将用户标识的用户特征等特征映射为可以被机器识别的数值来表示，并作为预测模型的输入向量。

例如，当请求播放目标视频的用户标识对应的用户为一个居住在广东、年龄为25岁的女性，经常请求播放内容为美食类的视频，并且购买过的商品大多数为美食。此时，当目标视频中出现腊肠时，根据预设数据库，获取包含腊肠的多媒体数据，或者包含香肠类食物的多媒体数据，或者包含制作腊肠工具的多媒体数据，以推荐给用户。

205、推荐装置根据目标物体在所处视频帧中的显示区域，确定多媒体数据的投放位置。

其中，投放位置包括时间位置和空间位置，其中时间位置是指多媒体数据投放的视频帧在目标视频中的播放时间点，空间位置是指在该视频帧中提供多媒体数据的位置。

推荐装置确定目标物体所处的视频帧以及目标物体在该视频帧中的显示区域，将该视频帧对应的播放时间点确定为多媒体数据的时间位置，将该显示区域确定为多媒体数据的空间位置。

如果目标物体所处的视频帧包括多个连续的视频帧，则将该多个视频帧对应的播放时间点构成的时间段确定为多媒体数据的时间位置，将每个视频帧中目标物体的显示区域确定为多媒体数据的空间位置。

例如，参见图8，目标视频中出现一件衣服，获取到该衣服的广告后，确定该衣服出现的视频帧以及在该视频帧中的显示区域，从而将该视频帧中的显示区域(虚线区域)确定为广告的投放位置。

206、推荐装置基于目标视频的播放界面，在投放位置显示数据标识。

在播放界面中播放目标视频的过程中，当播放至某一视频帧时，根据已确定的每个多媒体数据的投放位置，确定投放位置位于该视频帧的某一显示区域的多媒体数据，在该显示区域内显示数据标识。其中，数据标识用于表示当前存在与目标物体匹配的多媒体数据，数据标识还用于调用该多媒体数据。

在一种可能实现的方式中，当暂停播放目标视频，且当前视频帧中的某一显示区域出现目标物体时，在该显示区域内显示数据标识。若当前视频帧中包括多个目标物体时，则在每个投放位置均显示数据标识。

可选地，数据标识的尺寸和形状可以任意设置，如形状可以为圆形、方形或者与目标物体的形状一致，数据标识的尺寸可以为固定尺寸，或者根据目标物体的尺寸等比例缩小。

在另一种可能的实现方式中，在播放界面中播放目标视频的过程中，当播放至某一视频帧，且该视频帧中的某一显示区域出现目标物体时，还可以在播放界面的某一区域显示图形码，该图形码用于调用目标物体匹配的多媒体数据。通过扫描该图像码可以调用与目标物体匹配的多媒体数据。

207、当接收到对数据标识的调用指令时，推荐装置显示多媒体数据。

该调用指令可以通过观看目标视频的用户点击数据标识或触摸数据标识等操作触发，当接收到对目标物体的显示区域内的数据标识的调用指令时，即可显示目标物体匹配的多媒体数据。多媒体数据链接至对应物体的操作页面。当接收到对多媒体数据的访问指令时，显示该多媒体数据对应物体的操作页面。

其中，当多媒体数据的对应物体为目标物体时，该多媒体数据链接至目标物体的操作页面。当多媒体数据的对应物体为目标物体的相似物体时，该多媒体数据链接至目标物体的相似物体的操作页面。通过操作页面可以执行与操作页面的对应物体相关的操作，包括收藏该物体的操作、购买该物体的操作或其他针对该物体执行的操作。

例如，参见图9和图10，终端的播放界面播放目标视频，当目标视频暂停播放且当前视频帧中出现目标物体A、目标物体B、目标物体C、目标物体D，目标物体E、目标物体F和目标物体G时，分别在当前视频帧中各个目标物体的投放位置显示圆形标识。

用户点击目标物体B的圆形标识后，在该圆形标识的附近显示目标物体B匹配的多媒体数据，该多媒体数据链接至目标物体B的操作页面。用户点击该多媒体数据后，从播放界面切换至目标物体B的操作页面，在操作页面中可以执行将目标物体B添加收藏的操作、购买目标物体B的操作等。

在另一种可能实现的方式中，在显示多媒体数据时，在当前视频帧的上层生成浮层，在浮层中显示该多媒体数据，将多媒体数据与目标视频一起在播放界面显示。

本发明实施例提供的方法，通过获取目标视频，对目标视频包括的第一类视频帧进行目标检测，对第二类视频帧进行目标追踪，确定目标视频中出现的目标物体以及目标物体在所处视频帧中的显示区域，获取与目标物体匹配的多媒体数据，并根据目标物体在所处视频帧中的显示区域确定多媒体数据的投放位置。通过将多个视频帧进行划分，仅对第一类视频帧进行目标检测，对第二类视频帧进行目标追踪，减少了逐帧检测视频帧中出现的目标物体带来的庞大计算量，降低了消耗的计算资源，缓解了计算压力。并且，由于多媒体数据与目标视频中出现的目标物体匹配，因此与目标视频之间的关联度较高，容易引起用户的兴趣，避免了对用户的打扰，提升了用户体验。

在上述图2所示实施例的基础上，本发明实施例针对上述步骤202提供了一种示例性操作流程，图11是本发明实施例提供的一种操作流程的示意图，以目标视频包括10个视频帧为例，其中第1个视频帧和第6个视频帧为第一类视频帧，该10个视频帧中除第一类视频帧以外的其他视频帧为第二类视频帧。

参见图11，该操作流程包括：

1101、对第1个视频帧进行目标检测，确定该第1个视频帧中出现的物体a以及物体a的状态数据S_a1。

该物体a的检测状态数据S_a1为基于物体检测模型确定的检测状态数据。

1102、根据状态数据S_a1，对第2个视频帧进行目标追踪，确定物体a在第2个视频帧中的状态数据S_a2。

1103、依次对第3个视频帧、第4个视频帧和第5个视频帧进行目标追踪，确定物体a分别在第3个视频帧、第4个视频帧、第5个视频帧和第6个视频帧中的状态数据S_a3、S_a4、S_a5和S_a6。

该物体a分别在第3个视频帧、第4个视频帧、第5个视频帧和第6个视频帧中的状态数据S_a3、S_a4、S_a5和S_a6分别为基于物体追踪模型确定的预测状态数据。

1104、对第6个视频帧进行目标检测，确定该第6个视频帧中出现的物体a、物体a的状态数据S_a6’、在该第6个视频帧中新出现的物体b以及物体b的状态数据S_b6。

该物体a的状态数据S_a6’以及物体b的状态数据S_b6为基于物体检测模型确定的检测状态数据。

1105、根据物体a在第6个视频帧中的状态数据S_a6和S_a6’，对物体追踪模型进行修正，得到修正后的物体追踪模型。

1106、在后续的视频帧中，基于修正后的物体追踪模型，继续追踪物体a和物体b。

图12是本发明实施例提供的一种多媒体数据推荐装置的结构示意图，参见图12，该装置包括：

视频获取模块1201，用于执行上述实施例中获取目标视频的步骤；

第一确定模块1202，用于执行上述实施例中对第一类视频帧进行目标检测，确定目标视频中出现的目标物体，以及目标物体在所处视频帧中的显示区域的步骤；

第二确定模型1203，用于对第二类视频帧进行目标追踪，确定目标物体在所处视频帧中的显示区域的步骤；

数据获取模块1204，用于执行上述实施例中获取与目标物体匹配的多媒体数据的步骤；

位置确定模块1205，用于执行上述实施例中根据目标物体在所处视频帧中的显示区域，确定多媒体数据的投放位置的步骤。

可选地，第一确定模块1202，包括：

第一确定单元，用于执行上述实施例中对于第一类视频帧，基于物体检测模型，确定第一类视频帧中出现的目标物体，以及目标物体在第一类视频帧中的检测状态数据的步骤；

第二确定模块1203，包括：

第二确定单元，用于执行上述实施例中对于第二类视频帧，基于物体追踪模型和目标物体在第二类视频帧的上一个视频帧中的状态数据，确定目标物体在第二类视频帧中的预测状态数据的步骤。

可选地，第一确定模块1202，还包括：

第三确定单元，用于执行上述实施例中对于第一类视频帧，基于物体追踪模型和目标物体在第一类视频帧的上一个视频帧中的状态数据，确定目标物体在第一类视频帧中的预测状态数据的步骤；

修正单元，用于执行上述实施例中根据目标物体在第一类视频帧中的检测状态数据和预测状态数据，对物体追踪模型进行修正，得到修正后的物体追踪模型的步骤。

可选地，数据获取模块1204，包括：

第一获取单元，用于执行上述实施例中当目标物体在目标视频中的出现时长大于预设时长时，根据预设数据库，获取与目标物体匹配的多媒体数据的步骤。

可选地，预设数据库中包括多个物体对应的多媒体数据，多媒体数据用于描述对应物体的详情信息；数据获取模块1204，包括以下至少一项：

第一查询单元，用于执行上述实施例中根据目标物体查询预设数据库，获取与目标物体对应的多媒体数据的步骤；

第二查询单元，用于执行上述实施例中根据目标物体查询预设数据库，得到目标物体的相似物体，获取与相似物体对应的多媒体数据的步骤。

可选地，数据获取模块1204，还包括：

用户特征确定单元，用于执行上述实施例中确定请求播放目标视频的用户标识，获取用户标识的用户特征的步骤；

第二获取单元，用于执行上述实施例中获取与目标物体和用户特征匹配的多媒体数据的步骤。

可选地，装置还包括：

第一显示模块，用于执行上述实施例中基于目标视频的播放界面，在投放位置显示数据标识的步骤；

第二显示模块，用于执行上述实施例中当接收到对数据标识的调用指令时，显示多媒体数据的步骤。

可选地，多媒体数据链接至目标物体或目标物体的相似物体的操作页面；装置还包括：

第三显示模块，用于执行上述实施例中当接收到对多媒体数据的访问指令时，显示操作页面的步骤。

图13是本发明实施例提供的一种多媒体数据推荐装置的结构示意图，参见图13，该装置包括：

获取模块1301，用于执行上述实施例中获取基于目标视频推荐的多媒体数据，以及多媒体数据在目标视频中的投放位置的步骤；

第一显示模块1302，用于执行上述实施例中基于目标视频的播放界面，在投放位置显示数据标识的步骤；

第二显示模块1303，用于执行上述实施例中当接收到对数据标识的调用指令时，显示多媒体数据的步骤。

需要说明的是：上述实施例提供的多媒体数据推荐装置在推荐多媒体数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将推荐装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体数据推荐装置与多媒体数据推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14示出了本发明一个示例性实施例提供的终端1400的结构框图。该终端1400可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1401所具有以实现本申请中方法实施例提供的多媒体数据推荐方法。

在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。

外围设备接口1403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时，显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时，显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1405可以为一个，设置终端1400的前面板；在另一些实施例中，显示屏1405可以为至少两个，分别设置在终端1400的不同表面或呈折叠设计；在再一些实施例中，显示屏1405可以是柔性显示屏，设置在终端1400的弯曲表面上或折叠面上。甚至，显示屏1405还可以设置成非矩形的不规则图形，也即异形屏。显示屏1405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1407还可以包括耳机插孔。

定位组件1408用于定位终端1400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。当电源1409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。

加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号，控制显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1412可以检测终端1400的机体方向及转动角度，陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3D动作。处理器1401根据陀螺仪传感器1412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1413可以设置在终端1400的侧边框和/或显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时，可以检测用户对终端1400的握持信号，由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在显示屏1405的下层时，由处理器1401根据用户对显示屏1405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1414用于采集用户的指纹，由处理器1401根据指纹传感器1414采集到的指纹识别用户的身份，或者，由指纹传感器1414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1401授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1414可以被设置终端1400的正面、背面或侧面。当终端1400上设置有物理按键或厂商Logo时，指纹传感器1414可以与物理按键或厂商标志集成在一起。

光学传感器1415用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1415采集的环境光强度，控制显示屏1405的显示亮度。具体地，当环境光强度较高时，调高显示屏1405的显示亮度；当环境光强度较低时，调低显示屏1405的显示亮度。在另一个实施例中，处理器1401还可以根据光学传感器1415采集的环境光强度，动态调整摄像头组件1406的拍摄参数。

接近传感器1416，也称距离传感器，通常设置在终端1400的前面板。接近传感器1416用于采集用户与终端1400的正面之间的距离。在一个实施例中，当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变小时，由处理器1401控制显示屏1405从亮屏状态切换为息屏状态；当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变大时，由处理器1401控制显示屏1405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图15是本发明实施例提供的一种服务器的结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1501和一个或一个以上的存储器1502，其中，所述存储器1502中存储有至少一条指令，所述至少一条指令由所述处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1500可以用于执行上述多媒体数据推荐方法中推荐装置所执行的步骤。

本发明实施例还提供了一种多媒体数据推荐装置，该装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的多媒体数据推荐方法中所执行的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的多媒体数据推荐方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明实施例的较佳实施例，并不用以限制本发明实施例，凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体数据推荐方法，其特征在于，所述方法包括：

获取与所述目标物体匹配的多媒体数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述第一类视频帧进行目标检测，确定所述目标视频中出现的目标物体，以及所述目标物体在所处视频帧中的显示区域，包括：

对于所述第一类视频帧，基于物体检测模型，确定所述第一类视频帧中出现的目标物体，以及所述目标物体在所述第一类视频帧中的检测状态数据，所述检测状态数据至少包括所述目标物体的显示区域；

所述对所述第二类视频帧进行目标追踪，确定所述目标物体在所处视频帧中的显示区域，包括：

对于所述第二类视频帧，基于物体追踪模型和所述目标物体在所述第二类视频帧的上一个视频帧中的状态数据，确定所述目标物体在所述第二类视频帧中的预测状态数据，所述预测状态数据至少包括所述目标物体的显示区域。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对于所述第一类视频帧，基于所述物体追踪模型和所述目标物体在所述第一类视频帧的上一个视频帧中的状态数据，确定所述目标物体在所述第一类视频帧中的预测状态数据；

根据所述目标物体在所述第一类视频帧中的检测状态数据和预测状态数据，对所述物体追踪模型进行修正，得到修正后的物体追踪模型。

4.根据权利要求1所述的方法，其特征在于，获取与所述目标物体匹配的多媒体数据，包括：

当所述目标物体在所述目标视频中的出现时长大于预设时长时，根据预设数据库，获取与所述目标物体匹配的多媒体数据，所述出现时长根据连续出现所述目标物体的第一个视频帧与最后一个视频帧之间的时间间隔确定，所述预设数据库用于存储多个多媒体数据以及每个多媒体数据匹配的物体。

5.根据权利要求4所述的方法，其特征在于，所述预设数据库中包括多个物体对应的多媒体数据，所述多媒体数据用于描述对应物体的详情信息；所述获取与所述目标物体匹配的多媒体数据，包括以下至少一项：

根据所述目标物体查询所述预设数据库，获取与所述目标物体对应的多媒体数据；

根据所述目标物体查询所述预设数据库，得到所述目标物体的相似物体，获取与所述相似物体对应的多媒体数据。

6.根据权利要求1所述的方法，其特征在于，所述获取与所述目标物体匹配的多媒体数据，包括：

确定请求播放所述目标视频的用户标识，获取所述用户标识的用户特征，所述用户特征用于描述所述用户标识所属用户的特征；

获取与所述目标物体和所述用户特征匹配的多媒体数据。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标物体在所处视频帧中的显示区域，确定所述多媒体数据的投放位置之后，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述多媒体数据链接至所述目标物体或所述目标物体的相似物体的操作页面；所述显示所述多媒体数据之后，所述方法还包括：

当接收到对所述多媒体数据的访问指令时，显示所述操作页面。

9.一种多媒体数据推荐方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述多媒体数据链接至所述目标物体或所述目标物体的相似物体的操作页面；所述显示所述多媒体数据之后，所述方法还包括：

11.一种多媒体数据推荐装置，其特征在于，所述装置包括：

12.一种多媒体数据推荐装置，其特征在于，所述装置包括：

13.一种多媒体数据推荐装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至8任一权利要求所述的多媒体数据推荐方法中所执行的操作；或者，实现如权利要求9至10任一权利要求所述的多媒体数据推荐方法中所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至8任一权利要求所述的多媒体数据推荐方法中所执行的操作；或者，实现如权利要求9至10任一权利要求所述的多媒体数据推荐方法中所执行的操作。