CN114374867A

CN114374867A - 多媒体数据的处理方法、装置及介质

Info

Publication number: CN114374867A
Application number: CN202210059109.7A
Authority: CN
Inventors: 王水连
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-04-19
Anticipated expiration: 2042-01-19
Also published as: CN114374867B

Abstract

本申请实施例涉及计算机技术领域和人工智能技术领域，公开了一种多媒体数据的处理方法、装置及介质。该方法包括：响应对多媒体数据的播放指令，获取多媒体数据中各帧图像对应的图像帧数据，各帧图像对应的图像帧数据包括各帧图像对应的音频段，以及各帧图像中各个像素点的透明度数据和颜色数据；对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到各帧图像对应的渲染后的图像；将多帧图像对应的渲染后的图像与音频段进行合成处理，以对多媒体数据进行更新，得到更新后的多媒体数据；播放更新后的多媒体数据。采用本申请实施例能够实现多媒体数据在播放的过程中声音与画面一致且保持画面背景透明的效果，有利于提升用户体验。

Description

多媒体数据的处理方法、装置及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种多媒体数据的处理方法、装置及介质。

背景技术

随着即时通讯技术的发展，越来越多的人开始通过发送一些如动画特效之类的多媒体数据去表达当下的情绪。常见的播放如动画特效之类的多媒体数据的方式主要有两种：第一种是采用定时器定时渲染每帧动画，从而实现播放图形交换格式(gif)等格式的动画特效；第二种是采用视频播放器播放传统的mp4格式的动画特效。其中，第一种方式在播放动画特效时无法播放声音，现有的解决方法是在播放动画特效时单独使用声音接口去播放声音，但仍然容易出现声音与画面的时间轨迹难以完美对齐的问题；第二种方式可以播放出有声音的动画特效，并且能解决声音与画面的时间轨迹难以完美对齐的问题，但是无法实现动画画面背景透明的效果，影响视觉体验。因此，现有的多媒体数据在播放的过程中无法实现在声音与画面同步的同时保持画面背景透明的效果。

发明内容

本申请实施例提供了一种多媒体数据的处理方法、装置及介质，可实现多媒体数据音画同步的同时保持画面背景透明的效果。

一方面，本申请实施例提供一种多媒体数据的处理方法，该方法包括：

响应对多媒体数据的播放指令，获取所述多媒体数据中各帧图像对应的图像帧数据，所述各帧图像对应的图像帧数据包括所述各帧图像对应的音频段，以及所述各帧图像中各个像素点的透明度数据和颜色数据，所述各帧图像对应的音频段指的是：与所述各帧图像在时间上对齐的音频段；

对所述各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到所述各帧图像对应的渲染后的图像；

将所述多帧图像对应的渲染后的图像与所述音频段进行合成处理，以对所述多媒体数据进行更新，得到更新后的多媒体数据；

播放所述更新后的多媒体数据。

在一个实施例中，还包括：获取图像数据以及所述图像数据对应的音频数据，所述图像数据包括所述各帧图像；在所述音频数据中确定所述各帧图像对应的音频段；将所述各帧图像和所述各帧图像对应的音频段进行合成处理，得到所述多媒体数据。

在一个实施例中，所述在所述音频数据中确定所述各帧图像对应的音频段，包括：对所述各帧图像的透明度数据和颜色数据进行数据分离处理，得到所述各帧图像中各个像素点的透明度数据和颜色数据；基于所述各帧图像中各个像素点的透明度数据和颜色数据，以及所述图像数据对应的音频数据，在所述音频数据中确定所述各帧图像对应的音频段。

在一个实施例中，所述在所述音频数据中确定所述各帧图像对应的音频段，包括：对所述各帧图像进行识别处理，得到所述各帧图像的一个或多个维度的图像特征；对所述一个或多个维度的图像特征进行分析处理，得到所述各帧图像对应的一个或多个维度的程度值；在所述音频数据中查找与所述一个或多个维度的程度值匹配的音频段，并将查找到的音频段作为所述各帧图像对应的音频段。

在一个实施例中，所述在所述音频数据中确定所述各帧图像对应的音频段，包括：确定所述图像数据的第一播放时长，以及所述图像数据对应的音频数据的第二播放时长；基于所述第一播放时长和所述第二播放时长对所述音频数据进行时长调整处理，得到处理后的音频数据，所述处理后的音频数据的第二播放时长与所述第一播放时长的时长相同；在所述处理后的音频数据中确定所述各帧图像对应的音频段。

在一个实施例中，所述在所述音频数据中确定所述各帧图像对应的音频段，包括：确定所述图像数据的第一播放时长，以及所述图像数据对应的音频数据的第二播放时长；基于所述第一播放时长和所述第二播放时长对所述图像数据进行时长调整处理，得到处理后的图像数据，所述处理后的图像数据的第一播放时长与所述第二播放时长的时长相同；在所述音频数据中确定所述处理后的图像数据所包含的各帧图像对应的音频段。

在一个实施例中，所述将所述多帧图像对应的渲染后的图像与所述音频段进行合成处理，以对所述多媒体数据进行更新，得到更新后的多媒体数据，包括：确定所述各帧图像对应的音频段，以及所述各帧图像对应的渲染后的图像，将确定的音频段作为确定的渲染后的图像对应的音频段；将各帧渲染后的图像，以及所述各帧渲染后的图像对应的音频段进行合成处理，以对所述多媒体数据进行更新，得到所述更新后的多媒体数据。

在一个实施例中，所述对所述各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到所述各帧图像对应的渲染后的图像，包括：根据所述各帧图像的像素点尺寸，以及预设的关于渲染后的图像的像素点尺寸，确定渲染因子；基于所述渲染因子建立所述各帧图像中至少一个第一像素点和所述各帧图像对应的渲染后的图像中各个第二像素点的对应关系，所述至少一个第一像素点的数量与所述渲染因子相同；将所述各帧图像中与所述各个第二像素点对应的至少一个第一像素点的透明度数据进行融合处理，得到所述各个第二像素点的透明度数据；将所述各帧图像中与所述各个第二像素点对应的至少一个第一像素点的颜色数据进行融合处理，得到所述各个第二像素点的颜色数据；根据所述各个第二像素点的透明度数据和颜色数据，生成所述各帧图像对应的渲染后的图像。

另一方面，本申请实施例提供了一种多媒体数据的处理装置，该多媒体数据的处理装置包括：

获取单元，用于响应对多媒体数据的播放指令，获取所述多媒体数据中各帧图像对应的图像帧数据，所述各帧图像对应的图像帧数据包括所述各帧图像对应的音频段，以及所述各帧图像中各个像素点的透明度数据和颜色数据，所述各帧图像对应的音频段指的是：与所述各帧图像在时间上对齐的音频段；

处理单元，用于对所述各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到所述各帧图像对应的渲染后的图像；

所述处理单元，还用于将所述多帧图像对应的渲染后的图像与所述音频段进行合成处理，以对所述多媒体数据进行更新，得到更新后的多媒体数据；

输出单元，用于播放所述更新后的多媒体数据。

再一方面，本申请实施例提供一种电子设备，包括处理器、存储装置和通信接口，处理器、存储装置和通信接口相互连接，其中，存储装置用于存储支持终端执行上述方法的计算机程序，计算机程序包括程序指令，处理器被配置用于调用程序指令，执行如下步骤：响应对多媒体数据的播放指令，获取所述多媒体数据中各帧图像对应的图像帧数据，所述各帧图像对应的图像帧数据包括所述各帧图像对应的音频段，以及所述各帧图像中各个像素点的透明度数据和颜色数据，所述各帧图像对应的音频段指的是：与所述各帧图像在时间上对齐的音频段；对所述各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到所述各帧图像对应的渲染后的图像；将所述多帧图像对应的渲染后的图像与所述音频段进行合成处理，以对所述多媒体数据进行更新，得到更新后的多媒体数据；播放所述更新后的多媒体数据。

又一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行上述多媒体数据的处理方法。

本申请实施例中，通过响应对多媒体数据的播放指令，获取多媒体数据中各帧图像对应的图像帧数据，其中，各帧图像对应的图像帧数据包括各帧图像对应的音频段，以及各帧图像中各个像素点的透明度数据和颜色数据；然后对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到渲染后的图像；将渲染后的图像与音频段进行合成处理，以对多媒体数据进行更新，得到并播放更新后的多媒体数据。本申请实施例通过对获取到各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到渲染后的图像，可以实现多媒体数据在播放时可以保持画面背景透明的效果；此外，通过将渲染后的图像与音频段进行合成处理，可以使得具有渲染后的图像与音频段之间保持完美对齐，最后通过播放更新后的多媒体数据，可以实现多媒体数据在播放的过程中声音与画面一致且保持画面背景透明的效果，有利于提升用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多媒体数据的处理方法的流程示意图；

图2是本申请实施例提供的一种像素点尺寸变化的示意图；

图3是本申请实施例提供的一种像素点的对应关系的示意图；

图4是本申请实施例提供的一种合成处理的示意图；

图5是本申请实施例提供的另一种多媒体数据的处理方法的流程示意图；

图6是本申请实施例提供的一种基于程度值确定音频段的示意图；

图7是本申请实施例提供的一种基于重点帧图像调整播放时长的示意图；

图8是本申请实施例提供的一种多媒体数据的处理装置的结构示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着即时通讯技术的发展，越来越多的人开始通过发送一些如动画特效之类的多媒体数据去表达当下的情绪。虽然动画特效中的各帧图像已经能够在一定程度上表达出使用者想要传达的含义与情绪，但缺少了声音的配合，总会使得动画特效所想要达到的效果减弱。现有的动画特效鲜少有与其配合的音效以实现多层次地表达出使用者所想要传达的含义与情绪。常见的播放如动画特效之类的多媒体数据的方式主要有两种：第一种是采用定时器定时渲染每帧动画，从而实现动画特效的播放；第二种是直接通过视频播放器播放动画特效。前者可以更大程序地还原动画特效，但是由于播放动画特效时需要单独使用声音接口去播放声音，因此无法实现声音与画面的完美同步。后者虽然可以实现多媒体数据在播放的过程中声音与画面的完美同步，但由于是直接通过视频播放器进行播放的原因，无法实现动画画面背景透明的效果，影响视觉体验。因此，现有的多媒体数据在播放的过程中无法实现在音画同步的同时保持画面背景透明的效果。

基于此，本申请实施例还提供了一种多媒体数据的处理方法，该多媒体数据的处理方法，第一方面，通过获取多媒体数据中各帧图像对应的图像帧数据，其中通过对图像帧数据中的各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到渲染后的图像，从而可以实现多媒体数据在播放时保持画面背景透明的效果；第二方面，通过将渲染后的图像与音频段进行合成处理，可以使得具有渲染后的图像与音频之间保持完美对齐，最后通过播放更新后的多媒体数据，可以实现多媒体数据在播放的过程中声音与画面一致且保持画面背景透明的效果，有利于提升用户体验。

需要说明的是，本申请实施例以播放动画特效的相关场景为例介绍本申请实施例提及的多媒体数据的处理方案，并不会对本申请实施例起到限定作用，本申请实施例提及的多媒体数据的处理方案还可以运用于播放其他多媒体数据的场景，本申请实施例对此不作限定。

请参见图1，图1是本申请实施例提供的一种多媒体数据的处理方法的流程示意图；如图1所示的多媒体数据的处理方案可由电子设备来执行，该方案包括但不限于步骤S101～步骤S104，其中：

S101，响应对多媒体数据的播放指令，获取多媒体数据中各帧图像对应的图像帧数据。

在本申请实施例中，各帧图像对应的图像帧数据包括各帧图像对应的音频段，以及各帧图像中各个像素点的透明度数据和颜色数据，其中，各帧图像对应的音频段指的是：与各帧图像在时间上对齐的音频段。

在本申请实施例中，所述播放指令用于指示播放多媒体数据。其中，播放指令中可以包括多媒体数据的标识信息，也可以包括播放多媒体数据的终端设备的标识信息。优选地，生成播放指令的方式具体可以是电子设备的显示屏幕识别用户触摸选择的多媒体数据，并基于该多媒体数据生成对应的播放指令；也可以是电子设备识别用户的语音，确定用户选择的多媒体数据，然后基于该多媒体数据生成对应的播放指令；还可以是电子设备的识别预设的手势或者图像去确定用户选择的多媒体数据，然后基于该多媒体数据生成对应的播放指令。优选地，还可以是通过其他方式生成播放指令，在此不限定。

在一种可能的实现方式中，在响应对多媒体数据的播放指令之前，还可以对多媒体数据进行数据解析处理，得到多媒体数据中各帧图像的图像帧数据，也就是各帧图像中各个像素点的透明度数据和颜色数据，以及各帧图像对应的音频段；并将该所述媒体数据和所述多帧图像的图像帧数据对应存储。优选地，还可以是在响应对多媒体数据的播放指令时，对多媒体数据进行数据解析处理，得到多媒体数据中各帧图像的图像帧数据，在此不限定。

在一种可能的实现方式中，所述获取多媒体数据中各帧图像对应的图像帧数据的方式可以是基于播放指令中多媒体数据的标识信息，在数据库中查找该标识信息对应的图像帧数据，然后将所述图像帧数据发送至播放多媒体数据的终端设备；也可以是基于播放指令中多媒体数据的标识信息，向服务器发送数据获取请求，其中，数据获取请求中包括该标识信息，然后服务器查找与标识信息对应的图像帧数据，最后将所述图像帧数据发送至终端设备。优选地，所述获取所述多媒体数据中各帧图像对应的图像帧数据的方式还可以是其他方式，在此不限定。

S102，对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到各帧图像对应的渲染后的图像。

在本申请实施例中，所述对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到所述各帧图像对应的渲染后的图像的过程，具体可以是：1)根据各帧图像的像素点尺寸，以及预设的关于渲染后的图像的像素点尺寸，确定渲染因子；2)基于渲染因子建立各帧图像中至少一个第一像素点和各帧图像对应的渲染后的图像中各个第二像素点的对应关系，至少一个第一像素点的数量与渲染因子相同；3)将各帧图像中与各个第二像素点对应的至少一个第一像素点的透明度数据进行融合处理，得到各个第二像素点的透明度数据；4)将各帧图像中与各个第二像素点对应的至少一个第一像素点的颜色数据进行融合处理，得到各个第二像素点的颜色数据；5)根据各个第二像素点的透明度数据和颜色数据，生成各帧图像对应的渲染后的图像。优选地，渲染因子可以是各帧图像的像素点尺寸与预设的关于渲染后的图像的像素点尺寸之间的比值。

举例来说，请参见附图2，示出了像素点尺寸变化的示意图，多媒体数据中多帧图像的其中一帧图像201的像素点尺寸为90x90，预设图像201的渲染后的图像202的像素点尺寸为10x10，那么可以确定渲染因子为9。

然后，再基于渲染因子建立各帧图像中的至少一个第一像素点与各帧图像对应的渲染后的图像中各个第二像素点的对应关系，请参见附图3，示出了像素点的对应关系的示意图，因为渲染因子为9，所以可以确定每帧图像301中的9个不同的第一像素点303对应渲染后的图像302中的1个第二像素点304；然后将9个像素点中的透明度数据进行融合处理、颜色数据进行融合处理，融合处理后得到的透明度数据和颜色数据为所述9个像素点所对应1个第二像素点的透明度数据和颜色数据。优选地，融合处理的方式可以是按照一定比例提取9个第一像素点的透明度数据或颜色数据，最终形成第二像素点的透明度数据或颜色数据，也可以是将9个第一像素点透明度数据或颜色数据进行平均，从而得到第二像素点的透明度数据或颜色数据，在此不限定。最后在已经确定了每个第二像素点30的透明度数据和颜色数据的情况下，可以生成渲染后的图像302。

在一种可能的实现方式中，渲染因子还可以是小数，具体来说，多媒体数据中的各帧图像的像素点尺寸为100x100，预设的渲染后的图像的像素点尺寸为200x200，那么可以确定渲染因子为0.5。也就是说，可以将1个第一像素点对应2个第二像素点，然后将所述第一像素点的透明度数据和颜色数据按照一定的比例作为所述2个第二像素点的透明度数据和颜色数据。优选地，渲染因子还可以是各帧图像的像素点尺寸与预设的关于渲染后的图像的像素点尺寸之间的其他对应关系，在此不限定。优选地，还可以是基于渲染因子随机从各帧图像中选取一个或多个第一像素点与预设的渲染后的图像的第二像素点建立对应关系，在此不限定。

在一种可能的实现方式中，所述透明度数据为每帧图像的Alpha通道数据，所述颜色数据为每帧图像的RGB通道数据，所以对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理的方式还可以是：通过图形设备接口(gdi+)进行每一帧图像进行渲染，也就是将每一帧图像的RGB通道数据与Alpha通道数据进行合成。其中，合成的方式具体可以是逐行逐列，用原始数据中的Alpha通道数据与RGB数据合成要渲染的每一个像素点的数据并存储到分配的存储空间。其中，代码示例如下：

S103，将多帧图像对应的渲染后的图像与音频段进行合成处理，以对多媒体数据进行更新，得到更新后的多媒体数据。

在本申请实施例中，所述将多帧图像对应的渲染后的图像与音频段进行合成处理，以对多媒体数据进行更新，得到更新后的多媒体数据的具体过程可以是：1)确定各帧图像对应的音频段，以及各帧图像对应的渲染后的图像，将确定的音频段作为确定的渲染后的图像对应的音频段；2)将各帧渲染后的图像，以及各帧渲染后的图像对应的音频段进行合成处理，以对多媒体数据进行更新，得到更新后的多媒体数据。

具体来说，各帧图像有其对应的音频段，因此，在对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到各帧图像对应的渲染后的图像之后，可以确定各帧图像对应的音频段，以及各帧图像对应的渲染后的图像，然后可以将各帧图像对应的音频段作为各帧图像对应的渲染后的图像的音频段，最后进行合成处理，以对所述多媒体数据进行更新，得到更新后的多媒体数据。

举例来说，请参见附图4，示出了合成处理的示意图，多媒体数据中包括8帧图像401，以及8个音频段403，表达了一辆小车从左边行驶到右边的过程。其中，每帧图像都有其对应的音频段，分别为图像01对应的音频段为音频段01，图像02～图像08分别对应音频段02～音频段08。在对多媒体数据中的8帧图像401进行渲染后，得到了8帧图像401所分别对应的8帧渲染后的图像402(渲染后的图像01～渲染后的图像08)，将8帧图像401对应的8个音频段403，与8帧渲染后的图像402对应，也就是渲染后的图像01对应的音频段01，渲染后的图像02～渲染后的图像08分别对应音频段02～音频段08。最后将渲染后的图像01～08与音频段01～音频段08对应进行合成处理，以对多媒体数据进行更新，从而得到更新后的多媒体数据。

S104，播放更新后的多媒体数据。

在本申请实施例中，更新后的多媒体数据指的是有音画同步，且有透明背景的多媒体数据。所述播放更新后的多媒体数据的方式可以是当任意一帧渲染后的图像与音频段完成合成处理后，直接播放该帧图像；也可以是当所有渲染后的图像与音频段完成合成处理后，得到整体的更新后的多媒体数据，然后播放该更新后的多媒体数据。优选地，还可以接收用户的显示指令，显示指令中包括显示设备的标识信息，在得到更新后的多媒体数据后，基于标识信息将更新后的多媒体数据发送至对应的显示设备，然后在对应的显示设备中播放该更新后的多媒体数据。

请参见图5，图5是本申请实施例提供的另一种多媒体数据的处理方法的流程示意图；如图5所示的多媒体数据的处理方案可由电子设备来执行，该方案包括但不限于步骤S501～步骤S507，其中：

S501，获取图像数据以及图像数据对应的音频数据，图像数据包括一帧或多帧图像。

本申请实施例中，获取图像数据对应的音频数据的方式可以是在获取图像数据之后，对该图像数据进行图像识别处理，得到整个图像数据的一个或多个图像特征，基于图像特征从数据库中查找与所述图像数据匹配的音频数据，将该匹配的音频数据作为图像数据对应的音频数据。优选地，可以输出所述匹配的音频数据，待用户确认后，再将该音频数据作为图像数据对应的音频数据。在一种可能的实现方式中，还可以是在获取图像数据之后，将用户对应上传的音频数据作为图像数据对应的音频数据。优选地，获取图像数据对应的音频数据的方式还可以是其他方式，在此不限定。

需要说明的是，步骤S501中获取图像数据以及图像数据对应的音频数据的具体获取过程可参见图1所示实施例步骤S101所示的图像帧数据的具体获取过程的相关描述，在此不做赘述。

S502，在音频数据中确定各帧图像对应的音频段。

本申请实施例中，在音频数据中确定各帧图像对应的音频段可以是：对各帧图像的透明度数据和颜色数据进行数据分离处理，得到各帧图像中各个像素点的透明度数据和颜色数据；基于各帧图像中各个像素点的透明度数据和颜色数据，以及图像数据对应的音频数据，在音频数据中确定各帧图像对应的音频段。

具体来说，先分离出各帧图像的透明度数据和颜色数据，然后根据每帧图像中各个像素点的透明度数据和颜色数据从音频数据中确定各帧图像对应的音频段。优选地，可以是用户直接根据每帧图像中各个像素点的透明度数据和颜色数据从音频数据中确定该帧图像对应的音频段，然后将该音频段导入到该帧图像对应的声音文件位置；也可以是设备识别每帧图像的中各个像素点的透明度数据和颜色数据的数据大小，然后基于数据大小确定从音频数据中确定该帧图像对应的音频段，最后自动将该音频段导入到该帧图像对应的声音文件位置。优选地，基于透明度数据和颜色数据确定音频段的方式还可以是其他方式，在此不限定。

在一种可能的实现方式中，在音频数据中确定所述各帧图像对应的音频段的方式可以是：对各帧图像进行识别处理，得到各帧图像的一个或多个维度的图像特征；对一个或多个维度的图像特征进行分析处理，得到各帧图像对应的一个或多个维度的程度值；在音频数据中查找与一个或多个维度的程度值匹配的音频段，并将查找到的音频段作为各帧图像对应的音频段。

示例性地，请参见附图6，示出了一种基于程度值确定音频段的示意图，其中，图像数据601为一个“小孩从哭泣到开心”的动画特效，音频数据602为音频段01～音频段n。图像数据601中小孩的情绪过程为小声瘪嘴到嚎啕大哭，最后到开心大笑，对图像数据601中的图像01进行图像识别后，可以得到图像01的情绪维度的图像特征“不开心”和动作维度的图像特征“瘪嘴”，对图像特征“不开心”和“瘪嘴”进行分析处理，可以得到情绪维度中“哭泣”的程度值为1和动作维度中“瘪嘴”的程度值为2；因此，可以根据所述两个程度值从音频数据602中查找到图像01对应的音频“哼哼”。每个维度得到程度值的大小用于指示其图像特征所代表的情绪或动作的大小；分析后可以得到图像02对应音频段“呜呜”，图像03～图像05对应音频段“哇哇”，图像06对应音频段“哈哈”。

在一种可能的实现方式中，在音频数据中确定各帧图像对应的音频段的方式还可以是：确定图像数据的第一播放时长，以及图像数据对应的音频数据的第二播放时长；基于第一播放时长和第二播放时长对音频数据进行时长调整处理，得到处理后的音频数据，处理后的音频数据的第二播放时长与第一播放时长的时长相同；在处理后的音频数据中确定各帧图像对应的音频段。具体来说，由于常常不能保证图像数据和音频数据的播放时长是一致的，因此为了实现图像数据中的各帧图像与音频数据中的音频段的同步，可以基于第一播放时长和第二播放时长对音频数据进行时长调整处理，使得处理后的音频数据的第二播放时长与第一播放时长的时长相同。

示例性地，图像数据的第一播放时长为3秒，音频数据的第二播放时长为9秒，此时可以对音频数据进行倍速处理，从而使得处理后的音频数据的第二播放时长为3秒；再如，图像数据的第一播放时长为6秒，音频数据的第二播放时长为2秒，此时可以对音频数据进行慢速处理，从而使得处理后的音频数据的第二播放时长为6秒。

在一种可能的实现方式中，在音频数据中确定各帧图像对应的音频段的方式还可以是：确定图像数据的第一播放时长，以及图像数据对应的音频数据的第二播放时长；基于第一播放时长和第二播放时长对图像数据进行时长调整处理，得到处理后的图像数据，处理后的图像数据的第一播放时长与第二播放时长的时长相同；在音频数据中确定处理后的图像数据所包含的各帧图像对应的音频段。具体来说，由于常常不能保证图像数据和音频数据的播放时长是一致的，因此为了实现图像数据中的各帧图像与音频数据中的音频段的同步，可以基于第一播放时长和第二播放时长对图像数据进行时长调整处理，使得处理后的图像数据的第一播放时长与所述第二播放时长的时长相同。示例性地，图像数据的第一播放时长为3秒，音频数据的第二播放时长为9秒，此时可以对图像数据中的各帧图像进行慢速处理，从而使得处理后的图像数据的第一播放时长为9秒。

优选地，还可以对图像数据中各帧图像进行识别处理，确定图像数据中的重点帧图像，然后对重点帧图像的播放时长进行适当延长，非重点帧图像的播放时长适当缩短，突出图像数据所想要表达的主题，同时还可以对重点帧图像和非重点图像对应的音频段进行适应性调整，从而使得各帧图像与音频同步。

示例性地，请参见附图7，示出了基于重点帧图像调整播放时长的示意图，对图像数据701进行识别处理，识别出图像数据701为一个小孩从哭泣到开心的过程，由于图像数据701主要是需要突出“哭泣”，因此可以将体现哭泣过程的图像03作为重点帧图像，体现瘪嘴的图像01、将哭未哭的图像02以及开心的图像04作为非重点帧图像。图像数据701中每帧图像所对应的播放时长分别是0.5秒，此时可以将重点帧图像的播放时长从0.5秒延长至1.5秒，非重点帧图像的播放时长缩短至0.2秒，得到处理后的图像数据703。此外，图像数据701所对应的音频数据702为一段小孩哭泣的音频，共2秒；对音频数据702进行语音识别后可以得到，音频数据702可以分为4段音频，分别为“哼哼”、“呜呜”、“哇哇”和“哈哈”，且所述4段音频对应的播放时长均为0.5秒。为了使得音频数据和图像数据对应，可以对音频数据702进行语音识别，将“哼哼”、“呜呜”和“哈哈”的音频段的播放时长调整为0.2秒，“哇哇”的音频段的播放时长调整为1.5秒，最后得到音频数据704。

优选地，步骤S502中所提及的图像识别和语音识别的方式可以是采用人工智能技术中建立图像识别模型和语音识别模型，然后将图像或语音输入对应的图像识别模型或语音识别模型进行识别。

S503，将各帧图像和各帧图像对应的音频段进行合成处理，得到多媒体数据。

需要说明的是，步骤S503的具体实施过程可参见图1所示实施例步骤S103所示的具体实施过程的相关描述，在此不做赘述。

S504，响应对多媒体数据的播放指令，获取多媒体数据中各帧图像对应的图像帧数据。

S505，对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到各帧图像对应的渲染后的图像。

S506，将多帧图像对应的渲染后的图像与音频段进行合成处理，以对多媒体数据进行更新，得到更新后的多媒体数据。

S507，播放更新后的多媒体数据。

需要说明的是，步骤S504～S507的具体实施过程可参见图1所示实施例步骤S101～S104所示的具体实施过程的相关描述，在此不做赘述。

本申请实施例中，先获取图像数据以及图像数据对应的音频数据，并在音频数据中确定各帧图像对应的音频段；然后将各帧图像和各帧图像对应的音频段进行合成处理，得到多媒体数据；最后响应对多媒体数据的播放指令，获取多媒体数据中各帧图像对应的图像帧数据，对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到各帧图像对应的渲染后的图像，将多帧图像对应的渲染后的图像与音频段进行合成处理，以对多媒体数据进行更新，得到并播放更新后的多媒体数据。本申请实施例通过预先在音频数据中确定各帧图像对应的音频段，然后将各帧图像和各帧图像对应的音频段进行合成处理，得到多媒体数据，可以实现基于图像数据的具体情况匹配相应的音频数据，有利于提升多媒体数据的合成效率；此外，还通过响应对多媒体数据的播放指令，对多媒体数据中的各帧图像进行渲染，并将渲染后的图像与音频段进行合成处理，可以实现多媒体数据在播放的过程中声音与画面一致且保持画面背景透明的效果，有利于提升用户体验。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

再请参见图8，图8是本申请实施例的提供一种多媒体数据的处理装置的结构示意图。

本申请实施例的装置的一个实现方式中，装置包括如下结构。

获取单元801，用于响应对多媒体数据的播放指令，获取多媒体数据中各帧图像对应的图像帧数据，各帧图像对应的图像帧数据包括各帧图像对应的音频段，以及各帧图像中各个像素点的透明度数据和颜色数据，各帧图像对应的音频段指的是：与各帧图像在时间上对齐的音频段；

处理单元802，用于对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到各帧图像对应的渲染后的图像；

处理单元802，还用于将多帧图像对应的渲染后的图像与音频段进行合成处理，以对多媒体数据进行更新，得到更新后的多媒体数据；

输出单元803，用于播放更新后的多媒体数据。

在一个实施例中，处理单元802还用于：获取图像数据以及图像数据对应的音频数据，图像数据包括各帧图像；

在音频数据中确定各帧图像对应的音频段；

将各帧图像和各帧图像对应的音频段进行合成处理，得到多媒体数据。

在一个实施例中，处理单元802还用于：对各帧图像的透明度数据和颜色数据进行数据分离处理，得到各帧图像中各个像素点的透明度数据和颜色数据；

基于各帧图像中各个像素点的透明度数据和颜色数据，以及图像数据对应的音频数据，在音频数据中确定各帧图像对应的音频段。

在一个实施例中，处理单元802还用于：对各帧图像进行识别处理，得到各帧图像的一个或多个维度的图像特征；

对一个或多个维度的图像特征进行分析处理，得到各帧图像对应的一个或多个维度的程度值；

在音频数据中查找与一个或多个维度的程度值匹配的音频段，并将查找到的音频段作为各帧图像对应的音频段。

在一个实施例中，处理单元802还用于：确定图像数据的第一播放时长，以及图像数据对应的音频数据的第二播放时长；

基于第一播放时长和第二播放时长对音频数据进行时长调整处理，得到处理后的音频数据，处理后的音频数据的第二播放时长与第一播放时长的时长相同；

在处理后的音频数据中确定各帧图像对应的音频段。

基于第一播放时长和第二播放时长对图像数据进行时长调整处理，得到处理后的图像数据，处理后的图像数据的第一播放时长与第二播放时长的时长相同；

在音频数据中确定处理后的图像数据所包含的各帧图像对应的音频段。

在一个实施例中，处理单元802还用于：确定各帧图像对应的音频段，以及各帧图像对应的渲染后的图像，将确定的音频段作为确定的渲染后的图像对应的音频段；

将各帧渲染后的图像，以及各帧渲染后的图像对应的音频段进行合成处理，以对多媒体数据进行更新，得到更新后的多媒体数据。

在一个实施例中，处理单元802还用于：根据各帧图像的像素点尺寸，以及预设的关于渲染后的图像的像素点尺寸，确定渲染因子；

基于渲染因子建立各帧图像中至少一个第一像素点和各帧图像对应的渲染后的图像中各个第二像素点的对应关系，至少一个第一像素点的数量与渲染因子相同；

将各帧图像中与各个第二像素点对应的至少一个第一像素点的透明度数据进行融合处理，得到各个第二像素点的透明度数据；

将各帧图像中与各个第二像素点对应的至少一个第一像素点的颜色数据进行融合处理，得到各个第二像素点的颜色数据；

根据各个第二像素点的透明度数据和颜色数据，生成各帧图像对应的渲染后的图像。

再请参见图9，图9是本申请实施例提供的一种电子设备的结构示意图，本申请实施例的电子设备包括供电模块等结构，并包括处理器901、存储装置902以及通信接口903。处理器901、存储装置902以及通信接口903之间可以交互数据，由处理器901实现相应的多媒体数据的处理方法。

存储装置902可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置902也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置902还可以包括上述种类的存储器的组合。

处理器901可以是中央处理器901(central processing unit，CPU)。处理器901也可以是由CPU和GPU的组合。在电子设备中，可以根据需要包括多个CPU和GPU进行相应的数据处理。在一个实施例中，存储装置902用于存储程序指令。处理器901可以调用程序指令，实现如本申请实施例中上述涉及的各种方法。

在第一个可能的实施方式中，电子设备的处理器901，调用存储装置902中存储的程序指令，用于响应对多媒体数据的播放指令，获取多媒体数据中各帧图像对应的图像帧数据，各帧图像对应的图像帧数据包括各帧图像对应的音频段，以及各帧图像中各个像素点的透明度数据和颜色数据，各帧图像对应的音频段指的是：与各帧图像在时间上对齐的音频段；对各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到各帧图像对应的渲染后的图像；将多帧图像对应的渲染后的图像与音频段进行合成处理，以对多媒体数据进行更新，得到更新后的多媒体数据；播放更新后的多媒体数据。

在一个实施例中，处理器901还用于：获取图像数据以及所述图像数据对应的音频数据，所述图像数据包括所述各帧图像；

在所述音频数据中确定所述各帧图像对应的音频段；

将所述各帧图像和所述各帧图像对应的音频段进行合成处理，得到所述多媒体数据。

在一个实施例中，处理器901还用于：对所述各帧图像的透明度数据和颜色数据进行数据分离处理，得到所述各帧图像中各个像素点的透明度数据和颜色数据；

基于所述各帧图像中各个像素点的透明度数据和颜色数据，以及所述图像数据对应的音频数据，在所述音频数据中确定所述各帧图像对应的音频段。

在一个实施例中，处理器901还用于：对所述各帧图像进行识别处理，得到所述各帧图像的一个或多个维度的图像特征；

对所述一个或多个维度的图像特征进行分析处理，得到所述各帧图像对应的一个或多个维度的程度值；

在所述音频数据中查找与所述一个或多个维度的程度值匹配的音频段，并将查找到的音频段作为所述各帧图像对应的音频段。

在一个实施例中，处理器901还用于：确定所述图像数据的第一播放时长，以及所述图像数据对应的音频数据的第二播放时长；

基于所述第一播放时长和所述第二播放时长对所述音频数据进行时长调整处理，得到处理后的音频数据，所述处理后的音频数据的第二播放时长与所述第一播放时长的时长相同；

在所述处理后的音频数据中确定所述各帧图像对应的音频段。

基于所述第一播放时长和所述第二播放时长对所述图像数据进行时长调整处理，得到处理后的图像数据，所述处理后的图像数据的第一播放时长与所述第二播放时长的时长相同；

在所述音频数据中确定所述处理后的图像数据所包含的各帧图像对应的音频段。

在一个实施例中，处理器901还用于：确定所述各帧图像对应的音频段，以及所述各帧图像对应的渲染后的图像，将确定的音频段作为确定的渲染后的图像对应的音频段；

将各帧渲染后的图像，以及所述各帧渲染后的图像对应的音频段进行合成处理，以对所述多媒体数据进行更新，得到所述更新后的多媒体数据。

在一个实施例中，处理器901还用于：根据所述各帧图像的像素点尺寸，以及预设的关于渲染后的图像的像素点尺寸，确定渲染因子；

基于所述渲染因子建立所述各帧图像中至少一个第一像素点和所述各帧图像对应的渲染后的图像中各个第二像素点的对应关系，所述至少一个第一像素点的数量与所述渲染因子相同；

将所述各帧图像中与所述各个第二像素点对应的至少一个第一像素点的透明度数据进行融合处理，得到所述各个第二像素点的透明度数据；

将所述各帧图像中与所述各个第二像素点对应的至少一个第一像素点的颜色数据进行融合处理，得到所述各个第二像素点的颜色数据；

根据所述各个第二像素点的透明度数据和颜色数据，生成所述各帧图像对应的渲染后的图像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

其中，本申请所指的人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种多媒体数据的处理方法，其特征在于，包括：

播放所述更新后的多媒体数据。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取图像数据以及所述图像数据对应的音频数据，所述图像数据包括所述各帧图像；

在所述音频数据中确定所述各帧图像对应的音频段；

3.根据权利要求2所述的方法，其特征在于，所述在所述音频数据中确定所述各帧图像对应的音频段，包括：

对所述各帧图像的透明度数据和颜色数据进行数据分离处理，得到所述各帧图像中各个像素点的透明度数据和颜色数据；

4.根据权利要求2所述的方法，其特征在于，所述在所述音频数据中确定所述各帧图像对应的音频段，包括：

对所述各帧图像进行识别处理，得到所述各帧图像的一个或多个维度的图像特征；

5.根据权利要求2所述的方法，其特征在于，所述在所述音频数据中确定所述各帧图像对应的音频段，包括：

确定所述图像数据的第一播放时长，以及所述图像数据对应的音频数据的第二播放时长；

6.根据权利要求2所述的方法，其特征在于，所述在所述音频数据中确定所述各帧图像对应的音频段，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述多帧图像对应的渲染后的图像与所述音频段进行合成处理，以对所述多媒体数据进行更新，得到更新后的多媒体数据，包括：

确定所述各帧图像对应的音频段，以及所述各帧图像对应的渲染后的图像，将确定的音频段作为确定的渲染后的图像对应的音频段；

8.根据权利要求1-7任一项所述的方法，其特征在于，所述对所述各帧图像中各个像素点的透明度数据和颜色数据进行渲染处理，得到所述各帧图像对应的渲染后的图像，包括：

根据所述各帧图像的像素点尺寸，以及预设的关于渲染后的图像的像素点尺寸，确定渲染因子；

9.一种多媒体数据的处理装置，其特征在于，所述装置包括：

输出单元，用于播放所述更新后的多媒体数据。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-8任一项所述的多媒体数据的处理方法。