CN110636322B

CN110636322B - 多媒体数据的处理方法、装置、智能终端及存储介质

Info

Publication number: CN110636322B
Application number: CN201910951809.5A
Authority: CN
Inventors: 高萌; 马标; 曹超利; 黄小凤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-06-21
Anticipated expiration: 2039-09-29
Also published as: CN110636322A

Abstract

本发明实施例公开了一种多媒体数据的处理方法、装置、智能终端及存储介质，其中方法包括：在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则从所述多媒体数据中确定出目标图像帧；获取所述目标图像帧对应的像素点集合；根据所述像素点集合中各像素点对应的像素值，确定所述目标图像帧包括的图像元素；基于所述目标图像帧包括的图像元素生成多媒体影像，并在所述多媒体播放界面中显示所述多媒体影像，可将用户操作和多媒体数据进行有效的关联，可提升多媒体数据在播放过程中的趣味性。

Description

多媒体数据的处理方法、装置、智能终端及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种多媒体数据的处理方法、装置、智能终端及存储介质。

背景技术

随着终端技术的不断发展，智能终端中的应用也不断丰富，以提升用户的日常娱乐活动，如随之兴起的短视频播放软件，极大地改变了用户对视频的观看习惯。为了增强用户在观看视频过程中和播放的视频的互动性，在短视频播放软件中常配置有点赞功能，在智能终端检测到用户的点赞操作时，可基于点赞功能生成反馈动画，并将反馈动画显示在播放界面中，以实现用户和视频播放的交互，提升用户对短视频软件的使用满意度。

而当前基于用户的点赞操作生成的反馈动画，一般是智能终端设定好的固定动画，在检测到用户的点赞操作时进行机械式的反馈，如检测到用户的点赞操作时显示点赞手势或者爱心图案等，而机械式的点赞反馈不能体现出和视频内容的关联性，互动性较低，可见，如何增强点赞操作和视频内容的关联性，成为当前的研究热点。

发明内容

本发明实施例提供了一种多媒体数据的处理方法、装置、智能终端及存储介质，可将用户操作和多媒体数据进行有效的关联，可提升多媒体数据在播放过程中的趣味性。

一方面，本发明实施例提供了一种多媒体数据的处理方法，所述方法包括：

在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则从所述多媒体数据中确定出目标图像帧；

获取所述目标图像帧对应的像素点集合；

根据所述像素点集合中各像素点对应的像素值，确定所述目标图像帧包括的图像元素；

基于所述目标图像帧包括的图像元素生成多媒体影像，并在所述多媒体播放界面中显示所述多媒体影像。

另一方面，本发明实施例提供了一种多媒体数据的处理装置，所述装置包括：

确定单元，用于在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则从所述多媒体数据中确定出目标图像帧；

获取单元，用于获取所述目标图像帧对应的像素点集合；

所述确定单元，还用于根据所述像素点集合中各像素点对应的像素值，确定所述目标图像帧包括的图像元素；

显示单元，用于基于所述目标图像帧包括的图像元素生成多媒体影像，并在所述多媒体播放界面中显示所述多媒体影像。

再一方面，本发明实施例提供了一种智能终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下步骤：

获取所述目标图像帧对应的像素点集合；

再一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如第一方面所述的多媒体数据的处理方法。

在本发明实施例中，智能终端在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则可从所述多媒体数据中确定出目标图像帧，进一步地，所述智能终端可获取所述目标图像帧对应的像素点集合，从而可基于该像素点集合中各像素点对应的像素值，确定该目标图像帧包括的图像元素，所述智能终端则可基于所述目标图像帧中包括的图像元素生成多媒体影像，并在所述多媒体播放界面中显示所述多媒体影像，实现了基于目标操作指令实时生成不同的多媒体影像，可增强多媒体播放数据的趣味性，以及与用户之前的交互乐趣。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种多媒体数据的处理方法的示意流程图；

图1b是本发明实施例提供的一种多媒体播放界面的示意图；

图1c是本发明另一实施例提供的一种多媒体播放界面的示意图；

图1d是本发明另一实施例提供的一种多媒体数据的处理方法的示意流程图；

图2是本发明又一实施例提供的一种多媒体数据的处理方法的示意流程图；

图3a是本发明实施例提供的一种目标图像帧的示意图；

图3b是本发明实施例提供的一种对目标图像帧进行语义分割后的示意图；

图4a是本发明实施例提供的一种目标图像帧的示意图；

图4b是本发明实施例提供的一种在多媒体播放界面显示多媒体影像的示意图；

图4c是本发明另一实施例提供的一种在多媒体播放界面显示多媒体影像的示意图；

图5是本发明又一实施例提供的一种多媒体数据的处理方法的示意流程图；

图6是本发明实施例提供的一种风格迁移的示意图；

图7是本发明又一实施例提供的一种在多媒体播放界面显示多媒体影像的示意图；

图8是本发明实施例提供的一种多媒体数据的处理装置的示意性框图；

图9是本发明实施例提供的一种智能终端的示意性框图。

具体实施方式

本发明实施例提出了一种针对多媒体数据的处理方法，智能终端可在所述多媒体数据的播放过程中，对操作指令进行检测，在所述智能终端检测到目标操作指令时，可基于图像识别技术，确定出该多媒体数据中包括的图像元素，其中，所述目标操作指令包括点赞操作，所述多媒体数据包括视频数据以及直播数据等，所述视频数据例如可以是短视频数据等；所述图像识别技术包括基于增强现实(Augmented Reality，AR)的图像识别技术。在确定出该多媒体数据包括的图像元素后，所述智能终端可基于提取的图像元素生成对应的多媒体影像，并可将生成的多媒体影像显示在该多媒体播放界面上，实现对目标操作指令和多媒体影像的相关展示，增强内容的互动性，让目标操作指令的反馈效果更佳的个性化和智能化，提升用户在观看多媒体数据过程中的满意度。在一个实施例中，所述智能终端可采用人工智能(Artificial Intelligence，AI)算法，基于提取的图像元素生成对应的多媒体影像。

在一个实施例中，基于所述AR图像识别技术，智能终端可确定出所述多媒体数据中的图像元素，进一步地，所述智能终端可采用抠图技术，从所述多媒体数据中得到所述图像元素，然后，可基于AI算法，对所述图像元素在所述多媒体数据中出现的次数，面积以及位置等，确定所述图像元素的显示优先级，从而可基于该显示优先级，绘制对应图像元素的多媒体影像，从而可在所述多媒体播放界面中显示所述多媒体影像，实现目标操作指令与多媒体影像的互动展示，增强用户对所述多媒体数据的观赏性。在一个实施例中，在所述目标操作指令为点赞操作时，智能终端可基于所述点赞操作生成对应的多媒体影像，并将生成的多媒体影像展示在所述多媒体播放界面中，使得点赞反馈效果和多媒体数据的显示内容实现强相关，提升了点赞操作的互动性和趣味性，同时，还实现了用户反馈的个性化诉求，可改善用户对点赞操作的反馈体验。

在一个实施例中，以所述目标操作指令为点赞操作时，对所述多媒体数据的处理方法进行详细说明，具体地，可参见如图1a所示的一种多媒体数据的处理方法的示意流程图，如图1a所示，智能终端在检测到点赞操作时，可通过AR 图像识别技术对所述多媒体数据中的目标图像帧进行识别，以确定出所述目标图像帧包括的图像元素。其中，在所述多媒体数据的播放过程中，若所述智能终端检测到对目标按键的点击指令，或者对终端屏幕的连击指令，则可确定检测到对所述多媒体数据的点赞操作，其中，所述目标按键例如可以是如图1b中用10标识的按键，也可以是如图1c中用11标识的按键，所述连击指令包括双击指令或者三击指令等。所述目标图像帧中的图像元素例如可以是如图1b中所示的夹子等。

在所述智能终端确定出目标图像帧包括的图像元素后，可基于该图像元素在所述目标图像帧中出现的面积、次数以及位置，从目标图像帧中提取出图像元素，在一个实施例中，可采用抠图技术从该目标图像帧中提取得到图像元素，在所述智能终端提取到图像元素后，可基于该图像元素绘制对应的多媒体影像，具体地，所述智能终端可先按照算法指令转化，确定提取的图像元素的显示优先级。在一个实施例中，若提取的图像元素包括夹子、火柴和轮子，可基于不同用户在观看所述多媒体数据的过程中出现点赞操作时，该点赞操作作用的当前图像帧中包括的图像元素，确定各图像元素获取到的点赞次数，从而可基于用户的不断点赞，确定用户对不同图像元素的感兴趣程度，也即确定出所述不同图像元素对应的显示优先级，并可基于用户的点赞的变化，对所述不同图像元素的显示优先级进行实时更新。

在一个实施例中，如图1d所示，所述智能终端在确定出图像元素后，还可先基于AI识别，将确定出的所述图像元素转化为可用于和预设数据库进行检索的文字信息或者图像信息，进一步地，所述智能终端可向所述预设数据库发送检索请求，以从所述预设数据库中确定出和所述文字信息或者图片信息匹配的图像元素，所述智能终端则可将包括所述匹配的图像元素的多媒体影像作为基于所述目标图像帧中图像元素生成的多媒体影像，保证了点赞反馈元素和当前视频图像内容的关联性。

智能终端在确定出不同图像元素的显示优先级后，还可按照该显示优先级指示的先后顺序，绘制(生成)对应图像元素的多媒体影像，并可按照该显示优先级指示的顺序，对所述多媒体影像进行依次展示。举例来说，如上述图像元素的显示优先级分别为火柴、夹子和轮子，则所述智能终端可优先展示基于火柴元素绘制的多媒体影像，再展示基于夹子元素绘制的多媒体影像，最后展示基于轮子元素绘制的多媒体影像。

在所述智能终端基于图像元素生成对应的多媒体影像时，还可先对所述图像元素进行优化处理，在所述智能终端对所述图像元素进行优化时，可将该图像元素转化为对应的图标元素，从而可基于该图标元素生成对应的多媒体影像，其中，所述智能终端在将图像元素转化为图标元素时，可对该图像元素进行剪裁，颜色优化以及边缘平滑处理，从而得到所述图像元素对应的图标元素。在一个实施例中，所述智能终端在对所述图像元素进行优化时，还可先确定所述点赞操作作用的当前图像帧的图像风格，从而可对该图像元素进行风格迁移处理，将所述图像元素的风格转换为所述当前图像帧对应的图像风格。

在一个实施例中，所述智能终端提取的图像元素包括一个或多个，在所述智能图像提取到多个图像元素时，可基于该多个图像元素对应的显示优先级，构建显示队列，并基于该显示队列对由该图像元素生成的多媒体影像进行显示，在所述智能终端显示所述多媒体影像时，还可为各多媒体影像添加显示动画，所述显示动画例如可以是一下一种或多种：飘动、平移以及渐进显示。

请参见图2，是本发明实施例提出的一种多媒体数据的处理方法的示意流程图，如图2所示，该方法包括：

S201，在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则从所述多媒体数据中确定出目标图像帧。

在一个实施例中，所述多媒体数据包括直播数据和短视频数据，其中，直播数据是指不经过事先录制，直播用户进行现场演出而生成的实时播放数据，短视频数据是指提前录制的几秒～几分钟不等的播放数据，所述多媒体播放界面用于支持运行多媒体数据的播放过程，所述多媒体播放界面例如可以是如图1b 所示的界面。

在一个实施例中，所述目标操作指令例如可以是点赞操作，智能终端可在检测到对所述多媒体播放界面中目标按键的操作指令(如点击指令，按压指令以及触摸指令等)时，确定检测到目标操作指令，也可检测到特定的操作指令时，确定检测到所述目标操作指令，其中，所述目标按键可以是如图1b中由编号10标识的按键，也可以是如图1c中由编号11标识的按键，所述特定的操作指令例如可以是针对终端屏幕的双击指令，或者连击指令，其中，连击指令为在预设时间间隔内针对所述终端屏幕连续进行三次或三次以上的点击指令。

在一个实施例中，智能终端在检测到所述目标操作后，为了使得基于该目标操作显示的多媒体影像和当前播放的多媒体数据具有较强的关联性，所述智能终端可基于该目标操作确定该多媒体数据中的目标图像帧，以便于进一步地基于该目标图像帧中的图像元素生成该多媒体影像，以丰富所述多媒体数据的趣味性和并提升用户与所述多媒体数据之间的互动性。在一个实施例中，所述智能终端在基于所述多媒体数据确定出目标图像帧时，可将所述目标操作指令作用于所述多媒体数据的当前图像帧作为所述目标图像帧，也可将所述目标操作指令作用于所述多媒体数据的当前图像帧，以及位于所述当前图像帧的播放时间之前的历史图像帧作为所述目标图像帧，其中，所述历史图像帧可以是基于所述多媒体数据的播放时间顺序，位于所述当前图像帧的播放时间之前的所有图像帧，也可以是对位于所述当前图像帧的播放时间之前的所有图像帧进行隔帧抽取得到的图像帧。

在所述智能终端从所述多媒体数据中确定出目标图像帧后，为了确定出该目标图像帧包括的图像元素，可采用实例分割技术，其中，实例分割技术具体包括物品检测以及语义分割技术，具体地，物品检测技术是指对所述目标图像帧中的物体进行识别，以确定出所述目标图像帧中的物体(object)，语义分割技术是指对物品检测技术识别出的物体进行进一步的精确的分割，确定该物体所属的物体类别，对应于目标图像帧的位置，以及像素等信息。在一个实施例中，智能终端在采用示例分割技术确定目标图像帧中的图像元素时，可先执行步骤S202。

S202，获取所述目标图像帧对应的像素点集合。

在一个实施例中，在所述目标图像帧为所述目标操作指令作用于所述多媒体数据的当前图像帧时，所述目标图像帧对应的像素点集合即为所述当前图像帧对应的像素点集合；在所述目标图像帧为所述当前图像帧和历史图像帧时，所述目标图像帧对应的像素点集合即是所述当前图像帧和历史图像帧中各帧图像分别对应的像素点集合。在本发明实施例中，可以所述目标图像帧为当前图像帧时具体说明获取所述目标图像帧对应的像素点集合的执行步骤，在所述目标图像帧还包括历史图像帧时，确定该目标图像帧对应的像素点集合的执行步骤还可参见所述目标图像帧为所述当前图像帧时的执行步骤。

在一个实施例中，所述智能终端在确定所述当前图像帧对应的像素点集合时，可先基于物品检测算法对所述当前图像帧进行物品检测，从而可基于物品检测结果确定所述当前图像帧对应的像素点集合，其中，所述智能终端可基于物品检测结果，将检测到的一个物品对应的像素点作为所述当前图像帧对应的像素点集合，也可将检测到的每个物品对应的像素点，作为所述当前图像帧对应的像素点集合。在所述智能终端采用物品检测算法对所述当前图像帧进行物品检测时，可先随机选取一个窗口(box)，从而可对所述窗口中的图像元素进行图像识别(classify)，进一步地，可对该窗口的位置、大小等信息进行暴力穷举，从而得到每个不同的窗口对应的图像识别分值(classification scores)，进一步地，可选取所述图像识别分值最高的窗口作为目标窗口，并将该目标窗口中的物品确定为对所述当前图像帧进行物品检测的结果输出。

在一个实施例中，为了更好地使得物品检测算法适应于移动端的模型迁移，所述智能终端采用物品检测算法对所述当前图像帧进行物品检测时，还可先采用卷积神经网络(Region Convolutional Neural Networks，R-CNN)算法，从所述当前图像帧中确定出物品的候选位置(Region Proposal)，从而可基于物品的纹理以及颜色等信息，确定出该候选位置中的物品，基于候选位置确定对应物品的方法，可保证在较少的窗口数量时，保持较高的召回率(Recall)，从而可更好地适用于智能终端等移动端的模型迁移。

在所述智能终端获取到所述目标图像帧对应的像素点集合后，基于该像素点集合中各像素点对应的像素值，确定出该目标图像帧包括的图像元素，即转而执行步骤S203。

S203，根据所述像素点集合中各像素点对应的像素值，确定所述目标图像帧包括的图像元素。

在一个实施例中，智能终端在基于该像素点集合中各像素点对应的像素值，确定该目标图像帧包括的图像元素时，可对所述目标图像帧对应的像素点集合进行语义分割处理，从而可基于语义分割处理结果，确定所述目标图像帧包括的图像元素。其中，语义分割是指在像素层面上对物品进行分类，由于在确定所述目标图像帧对应的像素点集合时，可确定出所述目标图像帧中包含物品的窗口，从而可对所述窗口中的物品进行像素级的标注，得到对应的掩码层(mask)，实现基于物品类别的不同的切割。

所述智能终端可采用多层卷积神经网络实现对所述目标图像帧中像素点集合的语义分割处理，由于浅层神经网络结构中纹理特征表现明显，分辨率较高，所以对像素定位比较准确，而深层神经网络结构虽然分辨率较低，但分类特征明显，对像素的分类比较准确，所以，可采用由所述浅层神经网络结构以及所述深层神经网络结构合并得到的多层卷积神经网络结构，从而可结合所述浅层神经网络结构以及深层神经网络结构的优势，确定出所述目标图像帧中不同位置对应的像素点，以及该像素点对应的物品类别，从而可确定出所述目标图像帧包括的图像元素，在一个实施例中，所述目标图像帧包括的图像元素即是由一个或多个像素点组成的物品图像，如人物图像，树木图像，以及动物图像等等。在一个实施例中，所述多层卷积神经网络例如可以是全卷积网络(Fully ConvolutionalNetworks，FCN)或者U形卷积网络(U-Net)等。

在一个实施例中，所述目标图像帧可以如图3a中用标号30标记的图像帧所示，对由30标记的图像帧进行语义分割处理时，可基于该图像帧30中包含物品的窗口进行像素级标注，得到对应的掩码层，如图像帧30中包含物品301 的窗口，对该窗口进行像素级标注后，得到对应的掩码层，确定所述目标图像帧中的图像元素后，所述智能终端可得到如图3a中用标号31标记的图像。在一个实施例中，所述智能终端在确定所述目标图像帧中的图像元素时，可基于对所述目标图像帧的语义分割结果，在标号为31的图像中对所述图像帧中的图像元素进行标记，并同时标记基于该语义分割得到的图像元素所属的类别的准确度，如图3b所示，由31标记的物品进行语义分割后，确定该图像元素所属的类别为人，且该判别的准确度为0.869，由32标记的物品进行语义分割后，确定该图像元素所属的类别为球，且该判别的准确度为0.953，从而可基于各图像元素对应的所属类别的准确度，确定出该图像元素的类别。

在一个实施例中，所述智能终端可对所述多媒体数据的每帧图像进行实时的实例分割(具体包括物品检测和语义分割)处理，或者也可对所述多媒体数据中的目标图像帧进行实时的实例分割处理，以得到对应图像帧包括的图像元素，以及每个图像元素对应的分类结果，在所述目标图像帧中的位置信息，以及像素位置等信息。其中，所述目标图像帧例如可以是所述多媒体数据中的隔帧图像，或者，也可将所述多媒体数据中每隔两帧的图像作为所述目标图像帧。在所述智能终端确定出所述目标图像帧中的图像元素后，可执行步骤S204，以基于确定出的图像元素生成多媒体影像，从而实现基于当前播放的多媒体数据中图像元素的区别，动态生成不同的多媒体影像，以增强用户对所述多媒体数据的趣味性，以及和所述多媒体数据的互动性。

S204，基于所述目标图像帧包括的图像元素生成多媒体影像，并在所述多媒体播放界面中显示所述多媒体影像。

在所述智能终端确定出所述目标图像帧包括的图像元素后，在基于所述图像元素生成多媒体影像时，可基于所述目标图像帧中各图像元素出现的频次、位置、面积以及视觉焦点等信息，确定各图像元素的显示优先级，从而可基于该显示优先级指示的显示顺序，生成对应图像元素的多媒体影像，并按照该显示顺序在所述多媒体播放界面中显示生成的所述多媒体影像。在一个实施例中，所述智能终端在基于显示优先级指示的显示顺序，生成对应图像元素的多媒体影像时，可先基于不同图像元素分别指示的显示优先级，从所述目标图像帧包括的图像元素中确定出关键图像元素，从而基于关键图像元素生成对应的多媒体影像，并在所述多媒体播放界面中显示所述多媒体影像。

在一个实施例中，所述智能终端在确定所述目标图像帧中各图像元素的显示优先级时，可先按照预设的权重累计算法，确定图像元素中各信息数据，如上述的频次、位置以及面积等信息数据的权重值，具体地，所述智能终端可将所述频次、位置以及面积等信息数据加权成一个浮点数值，从而可将确定的所述浮点数值作为所述各个信息数据对应的权重值，或者，所述智能终端还可预先将不同的图像元素，以及该图像元素的频次、位置、面积以及视觉焦点等信息输入到预设的学习模型中，从而可通过机器学习算法，确定出不同信息数据分别对应的权重值。其中，所述机器学习算法例如可以是Light GBM算法，所述智能终端在确定不同信息数据对应的权重值后，可基于图像元素中对应的信息数据，以及不同信息数据分别对应的权重值，计算该图像元素的显示优先级。

在一个实施例中，所述智能终端确定出的图像元素可能包括一个或者多个，所述智能终端可基于所述图像元素分别生成对应的多媒体影像，从而可基于各图像元素对应的显示优先级，在所述多媒体播放界面中显示所述多媒体影像。具体地，所述智能终端在将所述多媒体影像显示在所述多媒体播放界面中时，可将所述多媒体影像显示在所述目标操作指令作用的当前图像帧中，所述智能终端可将每个图像元素对应的多媒体影像显示在所述多媒体播放界面上，也可只显示基于图像元素的显示优先级最高的图像元素对应的多媒体影像，其中，所述多媒体影像包括多媒体图像以及多媒体动画。

在一个实施例中，若所述智能终端检测到点赞操作(即目标操作指令)后，确定出的目标图像帧包括如图4a所示的三帧图像，在所述智能终端分别获取所述目标图像帧中包括的三帧图像中的像素点集合后，可确定出所述目标图像帧包括的图像元素有：夹子40，火柴41和轮子43，进一步地，所述智能终端可基于所述夹子40，火柴41和轮子43分别生成对应的多媒体影像，从而可将生成的多媒体影像显示在所述多媒体播放界面中。在所述智能终端在将生成的多媒体影像显示在所述多媒体播放界面中时，可先确定所述图像元素夹子40，火柴41和轮子43分别对应的显示优先级，其中，若所述智能终端确定所述图像元素对应的显示优先级为夹子40，轮子43和火柴41，所述智能终端可仅将基于夹子40生成的多媒体影像展示在所述多媒体播放界面上，如图4b所示，所述多媒体影像包括由401，402，403和404标记的图形，且所述多媒体影像均是基于夹子40生成的；或者，所述智能终端也可将基于夹子40生成的多媒体影像，以及基于火柴41生成的多媒体影像分别显示在所述多媒体播放界面上，如图4c所示，所述多媒体影像包括由405，406，407，408和409标记的图形，且由405,407和409标记的图形是由火柴41生成的，而由406和408标记的图形则是由夹子40生成的；或者，所述智能终端还可将基于夹子40、火柴41和轮子43分别生成的多媒体影像显示在所述多媒体播放界面上。

请参见图5，是本发明另一实施例提出的一种多媒体数据的处理方法，如图 5所示，该方法包括：

S501，在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则从所述多媒体数据中确定出目标图像帧。

在一个实施例中，智能终端在检测到目标操作指令后，所述智能终端可先确定所述目标操作指令在所述多媒体数据中作用的当前图像帧，从而所述智能终端可将所述当前图像帧作为所述目标图像帧；或者，所述智能终端在确定出当前图像帧后，所述智能终端可进一步地基于所述多媒体数据的播放时间顺序确定位于所述当前图像帧之前的历史图像帧，从而可将所述当前图像帧和所述历史图像帧作为所述目标图像帧。

在一个实施例中，基于所述智能终端确定出所述目标操作指令作用的当前图像帧后，在所述智能终端确定出所述目标图像帧包括的图像元素后，可将基于所述图像元素生成的多媒体影像显示在所述当前图像帧中，使得在所述当前图像帧中显示的多媒体影像是基于所述目标图像帧中图像元素的不同而动态展示的，从而实现对所述多媒体数据播放过程趣味性的提升。

S502，获取所述目标图像帧对应的像素点集合。

S503，根据所述像素点集合中各像素点对应的像素值，确定所述目标图像帧包括的图像元素。

在步骤S502和步骤S503中，所述智能终端在获取所述目标图像帧对应的像素点集合时，可先确定所述目标图像帧对应的窗口划分，并基于所述窗口划分确定所述目标图像帧中的图像窗口集；进一步地，所述智能终端在确定窗口划分后，可对所述图像窗口集中的任一图像窗口进行图像识别，并根据识别结果确定所述任一图像窗口中图像元素对应的分值；所述智能终端在确定任一图像窗口中图像元素对应的分值后，可根据所述分值确定对所述目标图像帧进行划分的目标图像窗口，从而可将所述目标图像窗口中的像素点作为所述目标图像帧对应的像素点集合。

在所述智能终端确定所述目标图像帧对应的像素点集合后，在基于所述像素点集合中各像素点对应的像素值，确定所述目标图像帧包括的图像元素时，可先根据所述像素点集合中各像素点对应的像素值，对所述目标图像帧进行语义分割处理，并根据处理结果确定所述像素点集合中各像素点对应的元素类别；从而可根据所述像素点集合中各像素点对应的元素类别，确定所述目标图像帧包括的图像元素，在一个实施例中，所述智能终端确定的目标图像帧中的图像元素，例如可以是如图4a中用40标记的夹子，用41标记的火柴，以及用42 标记的轮子等。

在一个实施例中，所述智能终端在确定所述目标图像帧包括的图像元素后，所述智能终端在基于所述图像元素生成多媒体影像之前，所述智能终端还可对所述图像元素进行优化处理，从而可得到所述图像元素对应的图标元素，使得优化后的图像元素能更好地适应于多媒体影像的展示。具体地，所述智能终端在对所述图像元素进行优化处理时，可先获取所述目标操作指令作用的当前图像帧的图像风格，从而可根据所述图像风格对所述图像元素进行风格迁移处理，使得所述图像元素的图像风格为所述当前图像帧的图像风格；或者，所述智能终端在对所述图像元素进行优化处理时，还可对所述图像元素进行裁剪，边缘平滑或者颜色优化处理，以得到优化后的图像元素。如图6所示的一种进行风格迁移的示意图，图像元素的原始图像风格为由60标记的图像帧对应的图像风格，在经风格迁移处理后，得到的图像元素的风格可为61标记的图像帧对应的图像风格，或者，在得到61标记的图像帧对应的图像风格的图像元素后，还可进行进一步的风格迁移，得到由62标记的图像帧对应的图像风格的图像元素。在一个实施例中，在确定所述图像元素对应的图标元素后，所述智能终端可基于得到的图标元素生成多媒体影像，基于图标元素生成的多媒体影像为和产品风格一致的图标图像。

S504，确定所述目标图像帧中各个所述图像元素对应的显示优先级，所述显示优先级用于确定由对应图像元素生成的多媒体影像的显示顺序。

S505，根据所述显示优先级指示的显示顺序，在所述多媒体播放界面中显示所述由对应图像元素生成的多媒体影像。

在一个实施例中，步骤S504和步骤S505是对上述实施例中步骤S204的具体细化，在步骤S504和步骤S505中，所述智能终端在确定所述目标图像帧中各个所述图像元素对应的显示优先级时，可先确定所述目标图像帧中不同图像元素的属性信息，所述属性信息包括以下至少一个维度下的属性值：对应于所述目标图像帧的位置维度的位置值，在所述目标图像帧中出现的次数，以及在所述目标图像帧中出现的面积；进一步地，所述智能终端可获取所述至少一个维度对应的预设权重，并基于所述预设权重对所述属性值进行计算，确定所述目标图像帧包括的各个所述图像元素的显示优先级。

在一个实施例中，所述智能终端在确定所述各个图像元素对应的显示优先级时，还可先确定针对所述目标图像帧中不同图像元素的目标操作指令的指令数量，具体地，所述智能终端可获取在所述多媒体数据播放过程中，一个或多个用户对所述多媒体数据的目标操作指令，并确定所述目标操作指令产生时，当前图像帧包括的图像元素，从而可确定出各图像元素接收到的目标操作指令的指令数量，基于所述不同图像元素对应的指令数量，所述智能终端可确定所述各个图像元素对应的显示优先级。随着多媒体数据的播放过程，目标操作指令的数量不断变化，而每个图像元素对应的指令数量也是不断变化的，则可基于所述每个图像元素对应的指令数量的变化，实现基于多媒体数据的点赞反馈效果，也就是说，基于每个图像元素对应的指令数量的变化，可实时更新所述图像元素对应的显示优先级，使得基于所述显示优先级显示的多媒体影像是更符合用户偏好的，可为用户带来更好的点赞互动体验。

在一个实施例中，如图7所示，若基于所述目标操作指令确定出的目标图像帧包括的图像元素，生成的多媒体影像显示在所述多媒体播放界面后为由70 标记的播放界面，随着所述目标操作指令的不断增加，确定每个图像元素对应的指令数量不断变化，基于变化后的图像元素对应的指令数量，对所述图像元素对应的显示优先级进行更新，基于更新后的显示优先级，可在所述多媒体播放界面中显示如图7中由71标记的多媒体影像数据。

在一个实施例中，所述智能终端在确定所述目标图像帧包括的图像元素，并基于确定的所述图像元素生成多媒体影像后，可同时生成所述多媒体影像对应的动画效果，具体地，在为所述智能终端配置的操作系统为安卓(Android) 系统时，可将所述图像元素对应的图标元素绘制在一个自定义的圆角图像子窗口(Image View)上，同时，在为所述圆角Image View配备点赞动画，所述点赞动画例如可以是：飘动、平移或者透明度变化中的一种或多种，在所述智能终端检测到目标操作指令(如点赞操作)后，基于为所述圆角ImageView配备的点赞动画，可在所述多媒体播放界面的特定位置处，以该点赞动画显示所述多媒体影像。

在本发明实施例中，智能终端在多媒体播放界面中播放多媒体数据的过程中，如果检测到目标操作指令，则可从该多媒体数据中确定出目标图像帧，从而可获取该目标图像帧对应的像素点集合，并基于该像素点集合中各像素点对应的像素值，可确定出所述目标图像帧包括的图像元素，在所述智能终端确定出所述目标图像帧包括的图像元素后，可基于所述各图像元素对应的显示优先级，并按照该显示优先级指示的显示顺序，在所述多媒体播放界面上显示由对应图像元素生成的多媒体影像，实现了基于目标操作指令确定用户感兴趣的图像元素，基于该用户感兴趣的图像元素生成的多媒体影像，可提升和用户之间的互动性，从提升用户的使用满意度。

基于上述多媒体数据的处理方法实施例的描述，本发明实施例还提供了一种多媒体数据的处理装置，该多媒体数据的处理装置可以是运行于上述智能终端中的一个计算机程序(包括程序代码)。多媒体数据的处理方法可执行如图2 和图5所示的多媒体数据的处理方法，请参见图8，所述多媒体数据的处理装置包括：确定单元801，获取单元802和显示单元803。

确定单元801，用于在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则从所述多媒体数据中确定出目标图像帧；

获取单元802，用于获取所述目标图像帧对应的像素点集合；

所述确定单元801，还用于根据所述像素点集合中各像素点对应的像素值，确定所述目标图像帧包括的图像元素；

显示单元803，用于基于所述目标图像帧包括的图像元素生成多媒体影像，并在所述多媒体播放界面中显示所述多媒体影像。

在一个实施例中，所述目标图像帧包括一个或多个图像元素；所述显示单元803，具体用于：

确定所述目标图像帧中各个所述图像元素对应的显示优先级，所述显示优先级用于确定由对应图像元素生成的多媒体影像的显示顺序；

根据所述显示优先级指示的显示顺序，在所述多媒体播放界面中显示所述由对应图像元素生成的多媒体影像。

在一个实施例中，所述确定单元801，具体用于：

确定所述目标图像帧中不同图像元素的属性信息，所述属性信息包括以下至少一个维度下的属性值：对应于所述目标图像帧的位置维度的位置值，在所述目标图像帧中出现的次数，以及在所述目标图像帧中出现的面积；

获取所述至少一个维度对应的预设权重，并基于所述预设权重对所述属性值进行计算，确定所述目标图像帧包括的各个所述图像元素的显示优先级。

在一个实施例中，所述确定单元801，具体用于：

确定针对所述目标图像帧中不同图像元素的目标操作指令的指令数量；

根据所述不同图像元素对应的指令数量，确定所述各个图像元素对应的显示优先级。

在一个实施例中，所述确定单元801，具体用于：

确定所述目标操作指令在所述多媒体数据中作用的当前图像帧，并基于所述多媒体数据的播放时间顺序确定位于所述当前图像帧之前的历史图像帧；

将所述当前图像帧和所述历史图像帧作为所述目标图像帧。

在一个实施例中，所述获取单元802，具体用于：

确定所述目标图像帧对应的窗口划分，并基于所述窗口划分确定所述目标图像帧中的图像窗口集；

对所述图像窗口集中的任一图像窗口进行图像识别，并根据识别结果确定所述任一图像窗口中图像元素对应的分值；

根据所述分值确定对所述目标图像帧进行划分的目标图像窗口，并将所述目标图像窗口中的像素点作为所述目标图像帧对应的像素点集合。

在一个实施例中，所述确定单元801，具体用于：

根据所述像素点集合中各像素点对应的像素值，对所述目标图像帧进行语义分割处理，并根据处理结果确定所述像素点集合中各像素点对应的元素类别；

根据所述像素点集合中各像素点对应的元素类别，确定所述目标图像帧包括的图像元素。

在一个实施例中，所述装置还包括：优化单元804。

优化单元804，用于对所述图像元素进行优化处理，得到所述图像元素对应的图标元素；

所述显示单元803，具体用于：

基于所述图像元素对应的图标元素生成多媒体影像。

在本发明实施例中，确定单元801在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则可从所述多媒体数据中确定出目标图像帧，进一步地，获取单元802可获取所述目标图像帧对应的像素点集合，从而可基于该像素点集合中各像素点对应的像素值，所述确定单元801确定该目标图像帧包括的图像元素，所述智能终端则可基于所述目标图像帧中包括的图像元素生成多媒体影像，显示单元803在所述多媒体播放界面中显示所述多媒体影像，实现了基于目标操作指令实时生成不同的多媒体影像，可增强多媒体播放数据的趣味性，以及与用户之前的交互乐趣。

请参见图9，是本发明实施例提供的一种智能终端的结构示意性框图，如图 9所示的本发明实施例中的智能终端可包括：一个或多个处理器901；一个或多个输入设备902，一个或多个输出设备903和存储器904。上述处理器901、输入设备902、输出设备903和存储器904通过总线905连接。存储器902用于存储计算机程序，所述计算机程序包括程序指令，处理器901用于执行存储器902 存储的程序指令。

所述存储器904可以包括易失性存储器(volatile memory)，如随机存取存储器(random-access memory，RAM)；存储器904也可以包括非易失性存储器 (non-volatilememory)，如快闪存储器(flash memory)，固态硬盘(solid-state drive， SSD)等；存储器904还可以包括上述种类的存储器的组合。

所述处理器901可以是中央处理器(central processing unit，CPU)。所述处理器901还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路 (application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)等。所述处理器 901也可以为上述结构的组合。

在一个实施例中，所述程序代码被调用时处理器901具体用于执行：

获取所述目标图像帧对应的像素点集合；

在一个实施例中，所述程序代码被调用时处理器901具体还用于执行：

所述基于所述目标图像帧包括的图像元素生成多媒体影像，并在所述多媒体播放界面中显示所述多媒体影像，包括：

将所述当前图像帧和所述历史图像帧作为所述目标图像帧。

对所述图像元素进行优化处理，得到所述图像元素对应的图标元素；

所述基于所述图像元素生成多媒体影像，包括：

基于所述图像元素对应的图标元素生成多媒体影像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所揭露的仅为本发明的局部实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种多媒体数据的处理方法，其特征在于，包括：

在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则从所述多媒体数据中确定出目标图像帧；所述目标图像帧包括一个或多个图像元素；

获取所述目标图像帧对应的像素点集合；

确定所述目标图像帧中各个所述图像元素对应的显示优先级，所述显示优先级用于确定由对应图像元素生成的多媒体影像的显示顺序；并根据所述显示优先级指示的显示顺序，在所述多媒体播放界面中显示所述由对应图像元素生成的多媒体影像。

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标图像帧中各个所述图像元素对应的显示优先级，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标图像帧中各个所述图像元素对应的显示优先级，包括：

4.根据权利要求1所述的方法，其特征在于，所述从所述多媒体数据中确定出目标图像帧，包括：

将所述当前图像帧和所述历史图像帧作为所述目标图像帧。

5.根据权利要求1所述的方法，其特征在于，所述获取所述目标图像帧对应的像素点集合，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述像素点集合中各像素点对应的像素值，确定所述目标图像帧包括的图像元素，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述图像元素生成多媒体影像之前，所述方法还包括：

所述基于所述图像元素生成多媒体影像，包括：

基于所述图像元素对应的图标元素生成多媒体影像。

8.一种多媒体数据的处理装置，其特征在于，包括：

确定单元，用于在多媒体播放界面播放多媒体数据的过程中，若检测到目标操作指令，则从所述多媒体数据中确定出目标图像帧；所述目标图像帧包括一个或多个图像元素；

获取单元，用于获取所述目标图像帧对应的像素点集合；

显示单元，用于确定所述目标图像帧中各个所述图像元素对应的显示优先级，所述显示优先级用于确定由对应图像元素生成的多媒体影像的显示顺序；并根据所述显示优先级指示的显示顺序，在所述多媒体播放界面中显示所述由对应图像元素生成的多媒体影像。

9.一种智能终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-7任一项所述的多媒体数据的处理方法。