CN113709548A

CN113709548A - 基于图像的多媒体数据合成方法、装置、设备及存储介质

Info

Publication number: CN113709548A
Application number: CN202110910718.4A
Authority: CN
Inventors: 汪谷; 王倩; 田蕾; 任家锐
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-26
Anticipated expiration: 2041-08-09
Also published as: CN113709548B; WO2023015862A1

Abstract

本公开关于一种基于图像的多媒体数据合成方法、装置、设备及存储介质，包括：获取待处理图像，并对待处理图像进行特征分析，得到待处理图像的图像特征，其中，待处理图像包括人脸区域；获取与图像特征相匹配的第一文本信息，根据第一文本信息及预先获取的背景音乐，生成与待处理图像对应的音频数据；根据第一文本信息，对待处理图像的人脸区域进行变换处理，得到视频数据，将视频数据与音频数据进行合成，得到待处理图像对应的多媒体数据，其中，视频数据中人脸对应的动作变换与第一文本信息相匹配。本方法根据待处理图像的特征，获取到相匹配的多媒体数据，多媒体数据的合成方式较为灵活和新颖，有利于提升用户体验，提高对用户的吸引力。

Description

基于图像的多媒体数据合成方法、装置、设备及存储介质

技术领域

本公开涉及短视频领域，尤其涉及一种基于图像的多媒体数据合成方法、装置、设备及存储介质。

背景技术

目前，短视频平台之间的竞争越来越激烈，所提供的功能也越来越丰富。比如，现有技术中，用户上传图像之后，短视频平台可以为图像添加特效、滤镜或背景音乐等，使得图像的展示效果更为丰富。

但是，现有技术中，通常为用户提供数量有限的应用模板，比如，可以为用户提供一些基于rap歌曲的模板，当用户选择其中任一模板之后，为用户上传的图像所添加的都是该rap歌曲中的固定的歌词和音乐，对图像的处理方式也是固定的。

因此，每个模板能够实现的效果都比较单一，用户很容易感到厌倦，用户体验较差，进而使得短视频平台对用户的吸引力较低。

发明内容

本公开提供一种基于图像的多媒体数据合成方法、装置、设备及存储介质，以至少解决相关技术中每个模板能够实现的效果都比较单一，用户很容易感到厌倦，用户体验较差，进而使得短视频平台对用户的吸引力较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种基于图像的多媒体数据合成方法，包括：

获取待处理图像，所述待处理图像包括人脸区域；

对所述待处理图像进行特征分析，得到所述待处理图像的图像特征；

获取与所述图像特征相匹配的第一文本信息；

根据所述第一文本信息及预先获取的背景音乐，生成与所述待处理图像对应的音频数据；

根据所述第一文本信息，对所述待处理图像的人脸区域进行变换处理，得到视频数据，所述视频数据中人脸对应的动作变换与所述第一文本信息相匹配；

将所述视频数据与所述音频数据进行合成，得到所述待处理图像对应的多媒体数据。

可选的，所述背景音乐中携带对应的卡点信息，所述获取与所述图像特征相匹配的第一文本信息，包括：

获取与所述图像特征相匹配的第二文本信息；

根据所述卡点信息，生成所述背景音乐对应的分词模板；

根据所述分词模板，对所述第二文本信息进行处理，得到与所述分词模板相匹配的第一文本信息。

根据所述卡点信息，生成所述背景音乐对应的分词模板；

获取与所述图像特征及所述分词模板相匹配的第一文本信息。

可选的，所述根据所述第一文本信息及预先获取的背景音乐，生成与所述待处理图像对应的音频数据，包括：

获取声学特征；

利用所述声学特征对所述第一文本信息进行处理，得到文本对应的音频数据；

合成所述背景音乐及所述文本对应的音频数据，得到与所述待处理图像对应的音频数据。

可选的，所述获取声学特征，包括：

随机选择声学特征；或，

根据所述待处理图像的图像特征选择声学特征。

可选的，在所述根据所述第一文本信息及预先获取的背景音乐，生成与所述待处理图像对应的音频数据之前，所述方法还包括：

从预设数据库中随机获取背景音乐；或，

从预设数据库中获取与所述图像特征相匹配的背景音乐。

可选的，所述获取与所述图像特征相匹配的第一文本信息，包括：

根据所述图像特征，确定所述待处理图像对应的内容标签；

获取与所述内容标签相匹配的第一文本信息。

可选的，所述将所述视频数据与所述音频数据进行合成，得到所述待处理图像对应的多媒体数据，包括：

将所述视频数据、所述音频数据与所述第一文本信息进行合成，得到所述待处理图像对应的多媒体数据，所述多媒体数据中展示所述第一文本信息，且所述视频数据中人脸对应的动作变换与所述第一文本信息的展示效果相匹配。

根据本公开实施例的第二方面，提供一种基于图像的多媒体数据合成装置，包括：

获取单元，被配置为执行获取待处理图像，所述待处理图像包括人脸区域；

分析单元，被配置为执行对所述待处理图像进行特征分析，得到所述待处理图像的图像特征；

匹配单元，被配置为执行获取与所述图像特征相匹配的第一文本信息；

生成单元，被配置为执行根据所述第一文本信息及预先获取的背景音乐，生成与所述待处理图像对应的音频数据；

变换单元，被配置为执行根据所述第一文本信息，对所述待处理图像的人脸区域进行变换处理，得到视频数据，所述视频数据中人脸对应的动作变换与所述第一文本信息相匹配；

合成单元，被配置为执行将所述视频数据与所述音频数据进行合成，得到所述待处理图像对应的多媒体数据。

可选的，所述背景音乐中携带对应的卡点信息，所述匹配单元，具体被配置为执行：

获取与所述图像特征相匹配的第二文本信息；

根据所述卡点信息，生成所述背景音乐对应的分词模板；

可选的，，所述背景音乐中携带对应的卡点信息，所述匹配单元，具体被配置为执行：

根据所述卡点信息，生成所述背景音乐对应的分词模板；

可选的，所述生成单元，具体被配置为执行：

获取声学特征；

可选的，所述生成单元，具体被配置为执行：

随机选择声学特征；或，

根据所述待处理图像的图像特征选择声学特征。

可选的，所述生成单元，还被配置为执行：

从预设数据库中随机获取背景音乐；或，

从预设数据库中获取与所述图像特征相匹配的背景音乐。

可选的，所述匹配单元，具体被配置为执行：

根据所述图像特征，确定所述待处理图像对应的内容标签；

获取与所述内容标签相匹配的第一文本信息。

可选的，所述合成单元，具体被配置为执行：

根据本公开实施例的第三方面，提供一种基于图像的多媒体数据合成电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一项所述的基于图像的多媒体数据合成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由基于图像的多媒体数据合成电子设备的处理器执行时，使得基于图像的多媒体数据合成电子设备能够执行上述任一项所述的基于图像的多媒体数据合成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述任一项所述的基于图像的多媒体数据合成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

首先，获取待处理图像，并对待处理图像进行特征分析，得到待处理图像的图像特征，其中，待处理图像包括人脸区域；然后，获取与图像特征相匹配的第一文本信息，根据第一文本信息及预先获取的背景音乐，生成与待处理图像对应的音频数据；进而，根据第一文本信息，对待处理图像的人脸区域进行变换处理，得到视频数据，将视频数据与音频数据进行合成，得到待处理图像对应的多媒体数据，其中，视频数据中人脸对应的动作变换与第一文本信息相匹配。

这样，通过对待处理图像的处理，可以生成与每个待处理图像相匹配的多媒体数据，相比于现有技术中每个模板只能为待处理图像添加固定的歌词、音乐或特效等效果的功能，本方法根据待处理图像的特征，获取到相匹配的多媒体数据，多媒体数据的合成方式较为灵活和新颖，有利于提升用户体验，提高对用户的吸引力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种基于图像的多媒体数据合成方法的流程图。

图2是根据一示例性实施例示出的另一种基于图像的多媒体数据合成方法的流程图。

图3是根据一示例性实施例示出的一种基于图像的多媒体数据合成装置的框图。

图4是根据一示例性实施例示出的一种用于基于图像的多媒体数据合成的电子设备的框图。

图5是根据一示例性实施例示出的一种基于图像的多媒体数据合成的装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于图像的多媒体数据合成方法的流程图，如图1所示，该基于图像的多媒体数据合成方法用于用户设备或与用户设备通信连接的服务器中，具体不作限定，其中，用户设备可以与用户进行交互，该基于图像的多媒体数据合成方法包括以下步骤。

在步骤S11中，获取待处理图像，待处理图像包括人脸区域。

在本公开中，可以根据待处理图像生成对应的音频数据，其中，待处理图像即为用户上传的包括人脸区域的图像，举例而言，用户可以通过图像采集设备进行拍摄，得到待处理图像，或者，也可以通过对预先获取的视频进行截取，得到待处理图像，具体不作限定。

一种实现方式中，本步骤所获取的待处理图像包括多张图像，在这种情况下，可以从多张待处理图像中随机选择一张进行后续的处理，或者，也可以对多张待处理图像进行质量检测，选择清晰度较高的图像进行后续处理，另外，也可以先识别多张待处理图像的拍摄对象，然后，从多张待处理图像中选择拍摄对象较为清晰的图像进行后续处理，等等，本发明实施例对此不作限定。

举例而言，若获取到多张拍摄对象为人脸的待处理图像，那么，可以随机从多张待处理图像中选择一张包括人脸区域的图像进行后续处理，这样，后续的处理与拍摄对象的相关性更强，也更容易提升用户体验。

在步骤S12中，对待处理图像进行特征分析，得到待处理图像的图像特征。

一种实现方式中，对待处理图像进行特征分析，可以采取图像分类算法，基于预先训练得到的图像分类模型，对待处理图像进行分类，进而，将待处理图像所属类别的类别标签，作为待处理图像的图像特征。

其中，图像分类模型可以采用KNN(k-nearest neighbor classification，k近邻分类)模型、SVM(support vector machines，支持向量机)模型、BP(BackPropagationNeural Network，多层前馈神经网络)神经网络模型等等，具体不作限定。

本步骤中，在得到待处理图像的图像特征之后，可以根据图像特征，确定待处理图像对应的内容标签，进而根据待处理图像的内容标签进行后续的处理。其中，内容标签用于指示待处理图像的具体内容，如待处理图像中所包括的物体、场景及人脸表情等。

举例而言，可以对待处理图像进行特征分析，得到待处理图像的图像特征，根据图像特征，对待处理图像进行分类，并将分类结果作为待处理图像的内容标签，比如，待处理图像中场景为夜景，那么，该待处理图像的对应的分类结果可以为“夜景人像”，也就是说，“夜景人像”即为待处理图像的内容标签。

或者，也可以对待处理图像进行特征分析，也可以采取表情识别算法，对待处理图像进行特征分析，得到待处理图像的图像特征，根据图像特征，确定待处理图像中人脸表情，将待处理图像中人脸的表情对应的表情标签，作为待处理图像的内容标签。其中，如果待处理图像中包括多张人脸，那么，可以随机选择一张人脸进行后续的处理，或者，也可以从中选择所占区域最大的人脸或处于中央位置的人脸进行后续的处理，具体不作限定。

另外，对待处理图像进行特征分析，得到待处理图像的图像特征，具体可以采取图像特征提取算法，提取待处理图像的基本特征，作为待处理图像的图像特征，进而进行后续的处理，比如，待处理图像的图像特征颜色特征、形状特征、纹理特征及空间关系特征等信息，都可以作为待处理图像的图像特征。在本步骤中，可以根据待处理图像包括的内容及具体的应用场景，选择不同的图像特征分析方法，本公开对此不做限定。

在步骤S13中，获取与图像特征相匹配的第一文本信息。

在本公开中，在得到待处理图像的图像特征之后，可以从文本信息数据库中查询并获取与图像特征相匹配的文本内容，作为第一文本信息，其中，文本信息数据库可以存储在网络云端，也可以存储在本地存储空间中，具体不作限定。第一文本信息是预先获取到的文本信息，具体可以是影视剧中的一段台词、一首歌曲的歌词或文学作品中的某一段落，等等。在本步骤中，通常有多个与图像特征相匹配的文本信息，第一文本信息可以为其中的任意一个或多个，具体不作限定。

举例而言，一种实现方式中，可以预先对文本信息数据库中的文本信息进行分类，每一类文本信息分别对应不同的文本分类标签，进而，根据图像特征与文本分类标签之间的对应关系，可以获取到与图像特征相匹配的第一文本信息。比如，图像特征可以为待处理图像的内容标签，如“夜景人像”，那么，可以先确定与“夜景人像”相关的文本分类标签，然后，从相关的文本分类标签对应的分类中获取第一文本信息。

其中，对文本信息数据库中的文本信息进行分类，可以是按照预先设定的分类规则进行的，也可以对文本信息进行语义识别，按照文本信息对应的语义标签，对文本信息进行分类，具体不作限定。

另一种实现方式中，也可以在本文信息中进行关键字查询，判断在文本信息中是否包括与图像特征相同或相近的文字，若包括，则将查询到的文本信息作为第一文本信息。比如，若待处理图像中包括人脸，图像特征为待处理图像中人脸的表情标签“微笑”，那么，可以在文本信息中查询关键字“微笑”，将包括“微笑”的文本信息作为第一文本信息。

在本公开中，还需要获取背景音乐，其中，第一文本信息与背景音乐可以具有对应关系，比如，若第一文本信息为某一首歌曲的歌词，那么，可以获取该歌曲的音乐作为背景音乐，或者，若第一文本信息中包括某位歌手的名字，那么，可以获取该歌手演唱的歌曲的音乐，作为背景音乐，等等，具体不作限定。

或者，第一文本信息与背景音乐也可以是互不关联的，可以在获取第一文本信息之前，或在获取第一文本信息的同时，从预设数据库中获取背景音乐。在预设数据库中，存储大量的背景音乐，这些背景音乐可以是预先筛选过的具有较高热度或较为经典的音乐，从而可以进一步提高对用户的吸引力。预设数据库可以存储在网络云端，也可以存储在本地存储空间中，具体不作限定。

其中，一种实现方式中，背景音乐可以是从预设数据库中随机获取的，这样，即使使用同样的待处理图像，每次处理过程中采用的背景音乐大概率也是不同的，从而可以进一步提高本方案的新颖性，有助于吸引用户。

或者，另一种实现方式中，也可以从预设数据库中选择与图像特征相匹配的音乐，作为背景音乐，比如，可以预先为预设数据库中的每一段音乐添加音乐分类标签，进而，根据图像特征与音乐分类标签之间的对应关系，选择到与图像特征相匹配的音乐，作为背景音乐。这样，生成的音频数据将与待处理图像匹配性更强，用户体验更好。

在第一文本信息与背景音乐互不关联的情况下，在本步骤中，可以先获取背景音乐，再获取与背景音乐及图像特征均匹配的第一文本信息。

举例而言，可以包括如下步骤：

首先，获取与图像特征相匹配的第二文本信息。其中，第二文本信息与图像特征相匹配，可以是影视剧中的一段台词、一首歌曲的歌词或文学作品中的某一段落，等等。

然后，根据背景音乐中携带的卡点信息，生成背景音乐对应的分词模板，其中，卡点信息可以指示背景音乐中的停顿点，背景音乐的卡点信息可以是人工设置的，也可以通过对背景音乐的节奏进行分析，自动生成对应的卡点信息，具体不作限定。

进而，根据分词模板，对第二文本信息进行处理，得到与分词模板相匹配的第一文本信息。其中，可以根据每两个相邻卡点之间的时长及预设的每个字对应的时长，计算这两个卡点之间的字数。举例而言，分词模板可以表示为3-4-5-4，其中的数字代表字数，这样，将第二文本信息处理为字数分别为3-4-5-4的4个短句，可以使得得到的第一文本信息能够与背景音乐相匹配。

这样，对于不同的待处理图像而言，即使获取到相同的第二文本信息，根据背景音乐的不同，会得到不同的第一文本信息，进而生成不同的音频数据，使得本方案更为灵活新颖。

或者，也可以在获取背景音乐之后，先根据卡点信息，生成背景音乐对应的分词模板，然后，直接获取与图像特征及分词模板相匹配的第一文本信息。这样，不需要执行对文本信息进行分词处理的步骤，可以减轻计算量，加快处理速度。

在步骤S14中，根据第一文本信息及预先获取的背景音乐，生成与待处理图像对应的音频数据。

在本步骤中，可以先获取声学特征，并利用声学特征对第一文本信息进行处理，得到文本对应的音频数据，然后，合成背景音乐及文本对应的音频数据，得到与待处理图像对应的音频数据。

其中，不同的声学特征对应声音的不同音色，声学特征可以是随机选择的，这样，即使使用同样的待处理图像，每次处理过程中采用的声学特征大概率也是不同的，得到的音频数据的音色也随之不同，从而可以进一步提高本方案的新颖性，有助于吸引用户。

或者，在待处理图像中包括人脸的情况下，也可以根据待处理图像的图像特征选择对应的声学特征，其中，图像特征可以为待处理图像中的人脸性别、人脸年龄、肤色、表情等。这样，最终得到的音频数据与待处理图像匹配性更强，效果更真实，用户体验更好。

在步骤S15中，根据第一文本信息，对待处理图像的人脸区域进行变换处理，得到视频数据，视频数据中人脸对应的动作变换与第一文本信息相匹配。

其中，视频数据中人脸对应的动作变换可以包括人脸表情、嘴部动作或肢体动作等动作的变换，也就是说，在得到的视频数据中，人脸的动作变化与第一文本信息相匹配，这样，得到的音频数据与待处理图像的内容相匹配，包括第一文本信息对应的文本音频数据以及背景音乐，而得到的视频数据则呈现出待处理图像中的人物在阅读第一文本信息的效果，因此，多媒体数据所呈现的效果较为新颖，有助于吸引用户。

举例而言，一种实现方式中，可以根据待处理图像中的人脸特征点对人脸区域进行变换处理，具体包括：对人脸区域进行特征识别，识别出人脸中嘴部区域的特征点，同时，对第一文本信息进行处理，得到第一文本信息对应的音素序列，然后，基于第一文本信息对应的音素序列以及嘴部区域的特征点，对人脸区域进行变换处理，得到视频数据。

或者，另一种实现方式中，可以采取图像区域掩模的方式对人脸区域进行变换处理，具体包括：从预先获取的多张嘴型动作图像中，选择与第一文本信息中的每个文字或单词对应的嘴型动作图像，然后，对待处理图像人脸区域中的嘴部进行遮挡，并将与第一文本信息对应的嘴型动作图像覆盖在待处理图像人脸区域中的嘴部图层之上，得到视频数据。

或者，还可以采取其他的方式对人脸区域进行变换处理，本公开对此不做限定。

在步骤S16中，将视频数据与音频数据进行合成，得到待处理图像对应的多媒体数据。

其中，可以对视频数据与音频数据进行编解码、压缩、加密等操作，这样，得到的多媒体数据可以是任一种通用格式的数据，便于进一步传输。

一种实现方式中，还可以将视频数据、音频数据与第一文本信息一起进行合成，得到待处理图像对应的多媒体数据，其中，多媒体数据中展示第一文本信息，且视频数据中人脸对应的动作变换与第一文本信息的展示效果相匹配。

具体而言，可以根据第一文本信息生成对应的字幕文件，然后，将视频数据、音频数据与字幕文件一起进行合成，得到多媒体数据，或者，也可以在视频数据中渲染第一文本信息，然后将渲染后的视频数据和音频数据进行合成，得到多媒体数据，具体不作限定。

如图2所示，为一种实现方式中，本公开所提供的一种基于图像的多媒体数据合成方法的示意图，该方法包括如下步骤：

在步骤S21中，获取待处理图像，其中，待处理图像包括人脸区域。其中，待处理图像可以为用户上传的图像，若用户上传的图像中没有人脸区域，那么，可以向用户反馈提示失败，提示用户重新上传待处理图像，若待处理图像中包括多张人脸，那么，可以随机选择一张人脸进行后续的处理。

在步骤S22中，对待处理图像进行特征分析，得到待处理图像的图像特征。其中，图像特征可以为待处理图像中所包括的物体或场景的分类标签，比如，可以为“夜景人像”。

在步骤S23中，获取与图像特征相匹配的第二文本信息。其中，第二文本信息可以为与待处理图像的图像特征相匹配的歌词，比如，若待处理图像的图像特征为其对应的分类标签“夜景人像”，那么，与之相匹配的歌词可以为任一与夜景相关的歌曲的歌词。

在步骤S24中，根据预先获取的背景音乐的卡点信息，生成背景音乐对应的分词模板。其中，背景音乐可以为Rap歌曲，卡点信息是预先在背景音乐中标注好的，根据每两个相邻卡点之间的时间长度，可以计算出这两个相邻卡点之间可以插入的字数，比如，背景音乐对应的分词模板可以为3-4-5-4。

在步骤S25中，根据分词模板，对第二文本信息进行处理，得到与分词模板相匹配的第一文本信息。延续上述例子，可以按照分词模板3-4-5-4对第二文本信息进行处理，得到字数分别为3-4-5-4的4个短句，也就是第一文本信息。

在步骤S26中，根据背景音乐及第一文本信息，生成与待处理图像对应的音频数据。具体的，可以先获取与待处理图像中的人脸性别对应的声学特征，并利用声学特征对第一文本信息进行处理，得到文本对应的音频数据，然后，合成背景音乐及文本对应的音频数据，得到与待处理图像对应的音频数据，举例而言，若待处理图像中的人脸性别为男性，则得到的音频数据为某一男性音色的声音按照背景音乐的节奏演唱第一文本信息。

在步骤S27中，根据第一文本信息，对人脸区域进行变换处理，得到视频数据，视频数据中人脸对应的动作变换与第一文本信息相匹配。比如，人脸对应的动作变换可以为人脸嘴型的变换，也就是说，视频数据内为待处理图像中的人脸在唱歌，而且该人脸的嘴型能够和第二文本信息对应，节奏也与背景音乐一致。

在步骤S28中，将视频数据与音频数据进行合成，得到待处理图像对应的多媒体数据。其中，可以对视频数据与音频数据进行编解码、压缩、加密等操作，这样，得到的多媒体数据可以是任一种通用格式的数据，也便于进一步传输。

由以上可见，本公开的实施例提供的技术方案，通过对待处理图像的处理，可以生成与每个待处理图像相匹配的多媒体数据，相比于现有技术中每个模板只能为待处理图像添加固定的歌词、音乐或特效等效果的功能，本方法根据待处理图像的特征，获取到相匹配的多媒体数据，多媒体数据的合成方式较为灵活和新颖，有利于提升用户体验，提高对用户的吸引力。

图3是根据一示例性实施例示出的一种基于图像的多媒体数据合成装置框图，该装置包括：

获取单元301，被配置为执行获取待处理图像，所述待处理图像包括人脸区域；

分析单元302，被配置为执行对所述待处理图像进行特征分析，得到所述待处理图像的图像特征；

匹配单元303，被配置为执行获取与所述图像特征相匹配的第一文本信息；

生成单元304，被配置为执行根据所述第一文本信息及预先获取的背景音乐，生成与所述待处理图像对应的音频数据；

变换单元305，被配置为执行根据所述第一文本信息，对所述待处理图像的人脸区域进行变换处理，得到视频数据，所述视频数据中人脸对应的动作变换与所述第一文本信息相匹配；

合成单元306，被配置为执行将所述视频数据与所述音频数据进行合成，得到所述待处理图像对应的多媒体数据。

一种实现方式中，所述背景音乐中携带对应的卡点信息，所述匹配单元303，具体被配置为执行：

获取与所述图像特征相匹配的第二文本信息；

根据所述卡点信息，生成所述背景音乐对应的分词模板；

一种实现方式中，所述生成单元304，具体被配置为执行：

获取声学特征；

一种实现方式中，所述生成单元304，具体被配置为执行：

随机选择声学特征；或，

根据所述待处理图像的图像特征选择声学特征。

一种实现方式中，所述生成单元304，还被配置为执行：

从预设数据库中随机获取背景音乐；或，

从预设数据库中获取与所述图像特征相匹配的背景音乐。

一种实现方式中，所述匹配单元303，具体被配置为执行：

根据所述图像特征，确定所述待处理图像对应的内容标签；

获取与所述内容标签相匹配的第一文本信息。

一种实现方式中，所述合成单元306，具体被配置为执行：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，当其在计算机上运行时，使得计算机实现上述基于图像的多媒体数据合成的方法。

图5是根据一示例性实施例示出的一种用于基于图像的多媒体数据合成的装置800的框图。

例如，装置800可以是移动电话，计算机，数字广播电子设备，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件807为装置800的各种组件提供电力。电源组件807可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行第一方面和第二方面所述的方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。可选地，例如，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性非临时性计算机可读存储介质计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于图像的多媒体数据合成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于图像的多媒体数据合成方法，其特征在于，包括：

获取待处理图像，所述待处理图像包括人脸区域；

获取与所述图像特征相匹配的第一文本信息；

2.根据权利要求1所述的基于图像的多媒体数据合成方法，其特征在于，所述背景音乐中携带对应的卡点信息，所述获取与所述图像特征相匹配的第一文本信息，包括：

获取与所述图像特征相匹配的第二文本信息；

根据所述卡点信息，生成所述背景音乐对应的分词模板；

3.根据权利要求1所述的基于图像的多媒体数据合成方法，其特征在于，所述背景音乐中携带对应的卡点信息，所述获取与所述图像特征相匹配的第一文本信息，包括：

根据所述卡点信息，生成所述背景音乐对应的分词模板；

4.根据权利要求1～3任一项所述的基于图像的多媒体数据合成方法，其特征在于，所述根据所述第一文本信息及预先获取的背景音乐，生成与所述待处理图像对应的音频数据，包括：

获取声学特征；

5.根据权利要求4所述的基于图像的多媒体数据合成方法，其特征在于，所述获取声学特征，包括：

随机选择声学特征；或，

根据所述待处理图像的图像特征选择声学特征。

6.根据权利要求1～3任一项所述的基于图像的多媒体数据合成方法，其特征在于，在所述根据所述第一文本信息及预先获取的背景音乐，生成与所述待处理图像对应的音频数据之前，所述方法还包括：

从预设数据库中随机获取背景音乐；或，

从预设数据库中获取与所述图像特征相匹配的背景音乐。

7.一种基于图像的音频合成多媒体数据合成装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的基于图像的多媒体数据合成方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由基于图像的多媒体数据合成电子设备的处理器执行时，使得基于图像的多媒体数据合成电子设备能够执行如权利要求1至6中任一项所述的基于图像的多媒体数据合成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的基于图像的多媒体数据合成方法。