CN111246124A

CN111246124A - 一种多媒体数字融合方法和装置

Info

Publication number: CN111246124A
Application number: CN202010156672.7A
Authority: CN
Inventors: 焦彦柱; 张�浩
Original assignee: Sanya Zhitu Technology Co Ltd
Current assignee: Hainan Fengyuzhu Digital Technology Co.,Ltd.
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-06-05
Anticipated expiration: 2040-03-09
Also published as: CN111246124B

Abstract

本公开提供了一种多媒体数字融合方法，获取待融合的多媒体数据集；根据预设策略对多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定多媒体数据集的分类信息；提取多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；将至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；将融合帧以及标定帧进行融合，完成多媒体数据集的融合操作。该方法能够精准，快捷地完成多媒体数字融合操作，具有融合操作的易用性与实用性。本公开还提出了一种多媒体数字融合装置。

Description

一种多媒体数字融合方法和装置

技术领域

本公开涉及多媒体与图像处理技术领域，具体而言，涉及一种多媒体数字融合方法和装置。

背景技术

随着科技技术的发展，多媒体技术在人们的日常生活中有着不可替代的地位。在播放音频时展示对应的文字信息与图片信息，可以让音频的展示更富有表达力。但是，目前音视频融合手段都比较单一，无法更加精准、快捷地进行多方面的表达，且音视频的融合度也存在精度较低的情况，不具有易用性与实用性，如何使得融合底层更具有代表性的视觉、听觉、语义特征，是需要解决的问题。

发明内容

为了解决现有技术中的技术问题，本公开实施例提供了一种多媒体数字融合方法和装置，能够精准，快捷地完成多媒体数字融合操作，具有融合操作的易用性与实用性。

第一方面，本公开实施例提供了一种多媒体数字融合方法，获取待融合的多媒体数据集；根据预设策略对所述多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定所述多媒体数据集的分类信息；提取所述多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；将所述至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；将所述融合帧以及所述标定帧进行融合，完成所述多媒体数据集的融合操作。

在其中一个实施例中，所述根据预设策略对所述多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定所述多媒体数据集的分类信息包括：根据预设策略从预设多媒体数据库中查找所述多媒体数据集的每个音视频数据的类别，并统计所述音视频数据的类别出现的频率；根据所述频率确定所述多媒体数据集的分类信息。

在其中一个实施例中，所述根据预设策略对所述多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定所述多媒体数据集的分类信息之前，还包括：获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集；根据所述训练数据集对预设的分类模型进行训练，生成所述预设分类模型。

在其中一个实施例中，还包括：确定所述融合帧与所述标定帧之间的属性关系。

在其中一个实施例中，所述属性关系包括亮度关系与色度关系。

在其中一个实施例中，还包括：针对融合帧，基于确定的所述融合帧与所述标定帧之间的属性关系，对所述融合帧的属性进行自适应调整。

第二方面，本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的方法的步骤。

第三方面，本公开实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法的步骤。

第四方面，本公开实施例提供了一种多媒体数字融合装置，所述装置包括：获取模块，用于获取待融合的多媒体数据集；分析与确定模块，用于根据预设策略对所述多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定所述多媒体数据集的分类信息；提取模块，用于提取所述多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；定义模块，用于将所述至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；融合模块，用于将所述融合帧以及所述标定帧进行融合，完成所述多媒体数据集的融合操作。

在其中一个实施例中，还包括：自适应调整模块，用于针对融合帧，基于确定的所述融合帧与所述标定帧之间的属性关系，对所述融合帧的属性进行自适应调整。

本发明提供的一种多媒体数字融合方法和装置，获取待融合的多媒体数据集；根据预设策略对多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定多媒体数据集的分类信息；提取多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；将至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；将融合帧以及标定帧进行融合，完成多媒体数据集的融合操作。该方法能够精准，快捷地完成多媒体数字融合操作，具有融合操作的易用性与实用性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面对实施例描述中所需要使用的附图作简单地介绍：

图1（a）-（c）为本发明一个实施例中的一种多媒体数字融合方法的步骤流程示意图；

图2（a）-（b）为本发明另一实施例中的一种多媒体数字融合方法的步骤流程示意图；

图3为本发明一个实施例中的一种多媒体数字融合装置的结构示意图；

图4为本发明另一实施例中的一种多媒体数字融合装置的结构示意图；

图5为本发明一个实施例中的一种多媒体数字融合装置的硬件框图；

图6为本发明一个实施例中的计算机可读存储介质的示意图。

具体实施方式

下面结合附图和实施例对本申请进行进一步的详细介绍。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本公开的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

为了使本发明的目的、技术方案及优点更加清楚明白，以下通过实施例，并结合附图，对本发明一种多媒体数字融合方法和装置的具体实施方式进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

如图1（a）-（c）所示，为一个实施例中的一种多媒体数字融合方法的流程示意图，具体包括以下步骤：

步骤11，获取待融合的多媒体数据集。

步骤12，根据预设策略对多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定多媒体数据集的分类信息。

在一个实施例中，根据预设策略对多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定多媒体数据集的分类信息之前，还包括：

步骤111，获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集。

步骤211，根据训练数据集对预设的分类模型进行训练，生成预设分类模型。

其中，需要说明的是，步骤111获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集，具体可以包括：

步骤1111获取多种类型，以及各类型的多个类别，对每个类别建立至少一个搜索关键字。

步骤1112利用关键字查找多个类别对应的多张目标图片样本，以及与类别无关的多张无关图片样本。

步骤1113将多张目标图片样本和多张无关图片样本作为训练数据集。

此外，步骤211根据训练数据集对预设的分类模型进行训练，得到分类模型，具体可以包括：

步骤2111，对训练数据集的图片样本提取目标特征信息。

步骤2112，根据目标特征信息对图片样本进行分析，利用多个全连接层子网络分别得到多种类型的得分预测值。

步骤2113，获取训练数据集的得分真实值，根据得分真实值和得分预测值对预设的分类模型进行收敛，生成预设分类模型。

步骤13，提取多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列。

步骤14，将至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧。

步骤15，将融合帧以及标定帧进行融合，完成多媒体数据集的融合操作。

本多媒体数字融合方法不仅仅适用于广告、新闻等领域,并且处理过程中建立了一个相对完备的视频检索分类处理模型。该模型利用视频底层特征的多模态性质,对内容进行特征提取,从原始视频中构造出视频数据的数据帧序列。基于此过程提取出视频的关键帧,并从视频的音频流中提取出音频特征。

本实施例中，获取待融合的多媒体数据集；根据预设策略对多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定多媒体数据集的分类信息；提取多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；将至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；将融合帧以及标定帧进行融合，完成多媒体数据集的融合操作。该方法具有极高的识别效果，能够精准，快捷地完成多媒体数字融合操作，具有融合操作的易用性与实用性。

实施例2

以下实施例进一步考虑到尤其是噪声环境下，声学噪声环境下视觉信息的识别性能，进一步提高多媒体数字融合的精准性与操作的可适用性。

如图2（a）-（b）所示，为另一实施例中的一种多媒体数字融合方法的流程示意图，具体包括以下步骤：

步骤21，获取待融合的多媒体数据集。

步骤22，根据预设策略从预设多媒体数据库中查找多媒体数据集的每个音视频数据的类别，并统计音视频数据的类别出现的频率。

步骤22中，预设策略可以是预先配置的，用以查找每个音视频数据的类别的策略。该预设策略包括：预设一个或多个用于识别每个音视频数据的类别的关键词；若接收的待融合的多媒体数据集中的信息包含部分或全部的关键词，则使得该项待融合的多媒体数据集中的信息所对应的音视频数据的类别被识别出来。

优选地，步骤22预设策略包括：步骤221，根据不同声学噪声环境下的音视频数据，得到声学似然度和视觉似然度，并据此得到声学模态可靠度、视觉模态可靠度和最优权重，并据此训练人工神经网络。

步骤222，根据声学类别和视觉类别，利用人工神经网络，对待测音视频进行并行的基于声学和视觉的双模态的二次关键词识别，从而得到音视频数据的类别出现的频率。

步骤23，根据频率确定多媒体数据集的分类信息。

步骤24，提取多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列。

步骤25，将至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧。

步骤26，确定融合帧与标定帧之间的属性关系。其中，需要说明的是，属性关系包括亮度关系与色度关系。

步骤27，针对融合帧，基于确定的融合帧与标定帧之间的属性关系，对融合帧的属性进行自适应调整。

步骤28，将融合帧以及标定帧进行融合，完成多媒体数据集的融合操作。

本实施例中，通过根据预设策略从预设多媒体数据库中查找多媒体数据集的每个音视频数据的类别，并统计音视频数据的类别出现的频率；根据频率确定多媒体数据集的分类信息。以及确定融合帧与标定帧之间的属性关系，并针对融合帧，基于确定的融合帧与标定帧之间的属性关系，对融合帧的属性进行自适应调整。由此，提高了多媒体数字融合的精准性与操作的可适用性。

基于同一发明构思，还提供了一种多媒体数字融合装置。由于此装置解决问题的原理与前述一种多媒体数字融合方法相似，因此，该装置的实施可以按照前述方法的具体步骤实现，重复之处不再赘述。

如图3所示，为一个实施例中的一种多媒体数字融合装置的结构示意图。该一种多媒体数字融合装置10包括：获取模块100、分析与确定模块200、提取模块300、定义模块400和融合模块500。

其中，获取模块100用于获取待融合的多媒体数据集；分析与确定模块200用于根据预设策略对多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定多媒体数据集的分类信息；提取模块300用于提取多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；定义模块400用于将至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；融合模块500用于将融合帧以及标定帧进行融合，完成多媒体数据集的融合操作。

本实施例中，通过获取模块获取待融合的多媒体数据集；再根据分析与确定模块根据预设策略对多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定多媒体数据集的分类信息；再通过提取模块提取多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；再通过定义模块将至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；最终通过融合模块将融合帧以及标定帧进行融合，完成多媒体数据集的融合操作。该装置能够精准，快捷地完成多媒体数字融合操作，具有融合操作的易用性与实用性。

如图4所示，为另一实施例中的一种多媒体数字融合装置的结构示意图。该一种多媒体数字融合装置10还包括：自适应调整模块600用于针对融合帧，基于确定的融合帧与标定帧之间的属性关系，对融合帧的属性进行自适应调整。

本实施例中，新增的自适应调整模块使得多媒体数字融合操作具有更强的灵活性与易用性。

图5是图示根据本公开的实施例的一种多媒体数字融合装置的硬件框图。如图5所示，根据本公开实施例的一种多媒体数字融合装置50包括存储器501和处理器502。一种多媒体数字融合装置50中的各组件通过总线系统和/或其它形式的连接机构（未示出）互连。

存储器501用于存储非暂时性计算机可读指令。具体地，存储器501可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。

处理器502可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制一种多媒体数字融合装置50中的其它组件以执行期望的功能。在本公开的一个实施例中，所述处理器502用于运行存储器501中存储的计算机可读指令，使得一种多媒体数字融合装置50执行上述一种多媒体数字融合方法。一种多媒体数字融合装置与上述一种多媒体数字融合方法描述的实施例相同，在此将省略其重复描述。

图6是图示根据本公开的实施例的计算机可读存储介质的示意图。如图6所示，根据本公开实施例的计算机可读存储介质600其上存储有非暂时性计算机可读指令601。当所述非暂时性计算机可读指令601由处理器运行时，执行参照上述描述的根据本公开实施例的一种多媒体数字融合方法。

以上，根据本公开实施例的一种多媒体数字融合方法和装置，以及计算机可读存储介质，能够精准，快捷地完成多媒体数字融合操作，具有融合操作的易用性与实用性的有益效果。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC（即A和B和C）。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种多媒体数字融合方法，其特征在于，所述方法包括：

获取待融合的多媒体数据集；

根据预设策略对所述多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定所述多媒体数据集的分类信息；

提取所述多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；

将所述至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；

将所述融合帧以及所述标定帧进行融合，完成所述多媒体数据集的融合操作。

2.根据权利要求1所述的一种多媒体数字融合方法，其特征在于，所述根据预设策略对所述多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定所述多媒体数据集的分类信息包括：

根据预设策略从预设多媒体数据库中查找所述多媒体数据集的每个音视频数据的类别，并统计所述音视频数据的类别出现的频率；

根据所述频率确定所述多媒体数据集的分类信息。

3.根据权利要求1所述的一种多媒体数字融合方法，其特征在于，所述根据预设策略对所述多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定所述多媒体数据集的分类信息之前，还包括：获取多种类型、各类型的多个类别和每个类别对应的多张图片样本作为训练数据集；

根据所述训练数据集对预设的分类模型进行训练，生成所述预设分类模型。

4.根据权利要求1所述的一种多媒体数字融合方法，其特征在于，还包括：确定所述融合帧与所述标定帧之间的属性关系。

5.根据权利要求4所述的一种多媒体数字融合方法，其特征在于，所述属性关系包括亮度关系与色度关系。

6.根据权利要求1所述的一种多媒体数字融合方法，其特征在于，还包括：针对融合帧，基于确定的所述融合帧与所述标定帧之间的属性关系，对所述融合帧的属性进行自适应调整。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-6中任一项所述方法的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-6中任一项所述方法的步骤。

9.一种多媒体数字融合装置，其特征在于，所述装置包括：

获取模块，用于获取待融合的多媒体数据集；

分析与确定模块，用于根据预设策略对所述多媒体数据集的每个音视频数据进行分析，并通过生成的分析结果经过预设分类模型确定所述多媒体数据集的分类信息；

提取模块，用于提取所述多媒体数据集同一分类信息下的至少两个待处理的音视频数据帧序列；

定义模块，用于将所述至少两个待处理的音视频数据帧序列定义为融合帧，其它音视频数据帧序列定义为标定帧；

融合模块，用于将所述融合帧以及所述标定帧进行融合，完成所述多媒体数据集的融合操作。

10.根据权利要求9所述的一种多媒体数字融合装置，其特征在于，还包括：自适应调整模块，用于针对融合帧，基于确定的所述融合帧与所述标定帧之间的属性关系，对所述融合帧的属性进行自适应调整。