CN113722513A

CN113722513A - 多媒体数据的处理方法及设备

Info

Publication number: CN113722513A
Application number: CN202111036662.0A
Authority: CN
Inventors: 陈映宜; 焦少慧
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-11-30
Anticipated expiration: 2041-09-06
Also published as: CN113722513B

Abstract

本公开实施例提供一种多媒体数据的处理方法及设备，该方法包括：获取第一多媒体数据，第一多媒体数据包括第一图像数据和音频数据；确定第一图像数据对应的第一文本信息和上述音频数据对应的第二文本信息；若第一文本信息和第二文本信息不匹配，则生成与第二文本信息匹配的第二图像数据；根据第二图像数据和第一多媒体数据生成第二多媒体数据，第二多媒体数据中至少包括第二图像数据和音频数据。本公开实施例可以生成与音频数据在语言上匹配的图像数据，以替换掉多媒体数据中的图像数据。如此，可以使图像中的口型和/或字幕与配音在语言上一致，提高多媒体数据中的图像和音频之间的一致性。

Description

多媒体数据的处理方法及设备

技术领域

本公开实施例涉及计算机处理技术领域，尤其涉及一种多媒体数据的处理方法及设备。

背景技术

随着计算机处理技术的迅速发展，影视剧的制作方式也更加灵活。拍摄的影视剧通常为多媒体数据存储，多媒体数据中包括图像数据和音频数据。在影视剧的制作过程中，配音是一种常见的处理方式。也就是说，在拍摄得到多媒体数据之后，将其中的音频数据替换为后期配音得到的音频数据。

在对影视剧的多媒体数据进行上述处理之后，如何保证多媒体数据中的图像和音频的一致性是亟待解决的问题。

发明内容

本公开实施例提供一种多媒体数据的处理方法及设备，以保证多媒体数据中的图像和音频的一致性。

第一方面，本公开实施例提供一种多媒体数据的处理方法，包括：

获取第一多媒体数据，所述第一多媒体数据包括第一图像数据和音频数据；

确定所述第一图像数据对应的第一文本信息和所述音频数据对应的第二文本信息；

若所述第一文本信息和所述第二文本信息不匹配，则生成与所述第二文本信息匹配的第二图像数据；

根据所述第二图像数据和第一多媒体数据生成第二多媒体数据，所述第二多媒体数据中至少包括所述第二图像数据和所述音频数据。

第二方面，本公开实施例提供一种多媒体数据的处理装置，包括：

第一数据获取模块，用于获取第一多媒体数据，所述第一多媒体数据包括第一图像数据和音频数据；

文本信息确定模块，用于确定所述第一图像数据对应的第一文本信息和所述音频数据对应的第二文本信息；

图像数据生成模块，用于若所述第一文本信息和所述第二文本信息不匹配，则生成与所述第二文本信息匹配的第二图像数据；

第二数据生成模块，用于根据所述第二图像数据和第一多媒体数据生成第二多媒体数据，所述第二多媒体数据中至少包括所述第二图像数据和所述音频数据。

第三方面，本公开实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备实现如上第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，使计算设备实现如上述第一方面所述的方法。

第五方面，本公开实施例提供一种计算机程序，所述计算机程序用于实现如上述第一方面所述的方法。

本实施例提供的多媒体数据的处理方法及设备，该方法包括：获取第一多媒体数据，第一多媒体数据包括第一图像数据和音频数据；确定第一图像数据对应的第一文本信息和上述音频数据对应的第二文本信息；若第一文本信息和第二文本信息不匹配，则生成与第二文本信息匹配的第二图像数据；根据第二图像数据和第一多媒体数据生成第二多媒体数据，所述第二多媒体数据中至少包括所述第二图像数据和所述音频数据。本公开实施例可以生成与音频数据在语言上匹配的图像数据，以替换掉多媒体数据中的图像数据。如此，可以使图像中的口型和/或字幕与配音在语言上一致，提高多媒体数据中的图像和音频之间的一致性。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有的影视剧的一种制作过程示意图；

图2是本公开实施例提供的多媒体数据的处理方法的一种步骤流程图；

图3是本公开实施例提供的口型图像生成模型中的子网络原理图；

图4是本公开实施例中口型图像生成模型对第一口型图像数据进行仿射变换的原理图；

图5是本公开实施例提供的多媒体数据的处理装置的一种结构示意图；

图6是本公开实施例提供的电子设备的一种结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开实施例可以应用于影视剧的制作过程中。图1是现有的影视剧的一种制作过程示意图。参照图1所示，在影视剧的制作过程中，首先，拍摄影视剧得到多媒体数据，多媒体数据中包括拍摄音频数据和图像数据，拍摄音频数据是用于表示影视剧中的声音，图像数据用于表示影视剧中的图像；然后，对影视剧进行配音，得到配音音频数据；最后，采用配音音频数据替换掉多媒体数据中的拍摄音频数据。

在上述配音过程中，配音的语言和演员在演戏时讲的语言可以是同语种的。例如，演员在演戏时讲的是“1234”，但是后期配音是“我今天很开心”。

当然，配音的语言和演戏时讲的语言还可以是不同语种的。例如，演员在演戏时讲的中文，后期配音是英文。

这种后期配音和演戏时使用的语言不同有多种原因，例如，演员不会讲某种语言，或，该影视剧需要在其余语种的国家上映。

可以看出，在配音之后会出现图像与音频不一致的场景，也就是说图像中演员的口型和/或字幕，与配音不一致。如此，导致观众体验较差。例如，配音是“我今天很开心”，而从图像中看出演员的口型是“1234”的口型。

为了解决上述技术问题，本公开实施例可以生成与音频数据在语言上匹配的图像数据，以替换掉多媒体数据中的图像数据。如此，可以使图像中的口型和/或字幕与配音在语言上一致，提高多媒体数据中的图像和音频之间的一致性。

下面以具体地实施例对本公开实施例的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开实施例进行描述。

图2是本公开实施例提供的多媒体数据的处理方法的一种步骤流程图。图2中的方法可以由任意具有计算能力的电子设备执行，例如，计算机、平板电脑、手机等。参照图2所示，该多媒体数据的处理方法包括：

S101：获取第一多媒体数据，第一多媒体数据包括第一图像数据和音频数据。

其中，第一图像数据是图1中的图像数据，也就是拍摄得到的图像数据。音频数据是图1中的配音音频数据，从而第一多媒体数据可以是图1中包括配音音频数据和图像数据的多媒体数据。

上述第一图像数据包括以下至少一种：第一字幕图像数据、人物的第一口型图像数据。第一字幕图像数据用于表示第一多媒体数据中的字幕，也就是纠正之前的字幕，第一口型图像数据用于表示所述第一多媒体数据中的人物的口型，也就是纠正之前的口型。

S102：确定第一图像数据对应的第一文本信息和上述音频数据对应的第二文本信息。

其中，第一文本信息是口型和/或字幕对应的语言信息，第二文本信息是音频数据对应的语言信息。第一文本信息和第二文本信息代表的语义可以相同也可以不同，语种可以相同也可以不同。当第一文本信息和第二文本信息的语义相同时，语种不同；当第一文本信息和第二文本信息的语种相同时，语义不同。例如，第一文本信息可以为“1234”，第二文本信息可以是“wo jin tian hen kai xin”。又例如，第一文本信息可以为“wo jin tianhen kai xin”，第二文本信息可以是“i am happy today”。

可以看出，上述第一文本信息和第二文本信息均有一定的语义。为了表示语义，第一文本信息可以和第二文本信息可以包括至少一个按照顺序排列的语言元素。每个语言元素可以为字母。例如，语言元素可以为“a”。不同的语种包括的语言元素可以相同也可以不同。

为了得到上述包括语言元素的第一文本信息和第二文本信息，可以通过图像识别算法从第一图像数据中识别得到第一文本信息，每个第一文本信息中包括至少一个第一语言元素，以及，通过音频识别算法从音频数据中识别得到第二文本信息，每个第二文本信息中包括至少一个第二语言元素。

其中，图像识别算法采用的神经网络模型可以划分为第一神经网络模型和第二神经网络模型。

第一神经网络模型的输入为第一口型图像数据，输出为第一文本信息包括的至少一个第一语言元素，输出代表人讲的语言信息。第一神经网络可以包括唇部特征提取器和分类器，唇部特征提取器可以从第一口型图像数据中提取出来唇部特征，分类器可以根据唇部特征进行分类，以得到该唇部特征对应的语言元素。每帧第一图像数据均可以得到一个第一语言元素，连续的多帧第一图像数据可以得到多个第一语言元素，也就构成了第一文本信息。

上述唇部特征提取器和分类器可以是预先训练得到的神经网络模型，本公开实施例对其具体结构不加以限制。

第二神经网络模型的输入为第一图像数据中的字幕区域，输出为第一文本信息包括的至少一个第一语言元素，输出代表字母的语言信息。

上述字幕区域是第一图像数据中的文字区域，可以通过边缘检测算法得到。在实际应用中，由于通常情况下文字区域有着较高的边缘密度，字符边缘与背景有着较为明显的颜色差别。因此，可以通过预设的边缘检测算法对第一图像数据进行边缘检测，以检测第一图像数据中的字符的边缘。在进行边缘检测之后，边缘检测后的第一图像数据中不可避免地产生了噪声，这些噪声会影响字幕区域定位的准确性。接着，可以对边缘检测后的第一图像数据中的噪声进行去除长直线、去除孤立的噪声点以及形态学操作等，以减少噪声对文字区域定位的影响。进一步地，可以利用连通域标记算法对去除噪声后的图像帧进行标记，再用先验知识进行连通域分析来剔除非文本区域，从而得到最终的文字区域，即字幕区域。

在得到上述字幕区域之后，第二神经网络模型可以从中识别得到至少一个第一语言元素。第二神经网络可以是预先训练得到的，第二神经网络可以根据字幕区域输出至少一个向量，然后根据每个向量确定对应的文字，最后将这些文字转换为第一语言元素，得到第一文本信息。

可选地，在识别第一语言元素之前，可以对字幕区域进行预处理，包括去噪、图像增强以及缩放等，以去除字幕区域内的背景或者噪点，突出文字部分，并缩放图像为适于处理的大小；接着，可以提取字幕区域内的文字的边缘特征、笔画特征以及结构特征，基于所提取的文字特征识别字幕区域内的字幕信息，以得到第一语言元素。

上述音频识别算法的输入为音频数据，输出为包括至少一个第二语言元素的第二文本信息。具体地，可以利用预设的语音库来对音频数据进行语音识别。其中，语音库中可以包括多个文字，以及每一个文字对应的至少一个标准发音。在将音频数据输入至语音库中之后，可以基于输入的音频数据，从语音库中查找到相应的文字，并将文字转换为第二语言元素得到第二文本信息。

在得到上述第一文本信息和第二文本信息之后，可以确定第一文本信息和第二文本信息是否匹配。具体地，确定第一文本信息中包括的至少一个第一语言元素和第二文本信息中包括的至少一个第二语言元素之间的匹配度；若匹配度小于预设匹配度阈值，则确定第一文本信息和第二文本信息不匹配。若匹配度大于或等于上述预设匹配度阈值，则确定第一文本信息和第二文本信息匹配。

其中，匹配度可以用第一文本信息和第二文本信息中包括的相同语言元素的数量确定，该相同语言元素的位置也相同。例如，第一文本信息中包括的至少一个第一语言元素为“wo hen kuai le”，第二文本信息中包括的至少一个第二语言元素为：“wo hen kaixin”。可以看出，第一个第一语言元素和第一个第二语言元素均为“w”，第二个第一语言元素和第二个第二语言元素均为“o”，以此类推，得到相同语言元素包括：“w”、“o”、“h”、“e”、“n”、“k”，一共六个。

在本公开实施例的一种示例中，匹配度可以是上述数量。例如，对于上述包括6个相同语言元素的第一文本信息和第二文本信息，匹配度可以是6。

当然，匹配度还可以是对上述数量的函数。该数量越大，代表匹配度越大；该数量越小，代表匹配度越小。从而，该函数可以是满足数量和匹配度的上述关系的任意函数。

在本公开实施例的另一种示例中，匹配度可以是上述数量与参考数量的比值。其中，参考数量是第一语言元素和第二语言元素的总数量或平均数量。例如，对于上述包括6个相同语言元素的第一文本信息和第二文本信息，由于第一语言元素和第二语言元素的总数量、平均数量分别为11+11＝22、22/2＝11，从而匹配度可以是6/22＝0.27，或6/11＝0.54。

当然，匹配度还可以是该比值的函数。该比值越大，代表匹配度越大；该比值越小，代表匹配度越小。从而，该函数可以是满足比值和匹配度的上述关系的任意函数。

可选地，当第一图像数据包括人物的第一口型图像数据时，确定第一图像数据对应的第一文本信息可以包括以下主要步骤：首先，从第一图像数据中确定目标对象区域；然后，确定目标对象区域的数量，若目标对象区域为至少两个，则根据最大的目标对象区域识别得到第一文本信息；若目标对象区域为一个，则根据该目标对象区域识别得到第一文本信息。

从目标对象区域中识别得到第一文本信息可以包括：首先，从目标对象区域中识别得到唇部区域，然后，根据唇部区域识别口型，最后，根据口型识别得到第一文本信息。

可以理解的是，在影视剧拍摄的过程中，最大的目标对象区域通常对应正在说话的人物。从而可以准确的将同一个人物的音频和口型对应上，避免根据人物A的语言对人物B的口型进行校正，提高了第二多媒体数据的准确度。

S103：若第一文本信息和第二文本信息不匹配，则生成与第二文本信息匹配的第二图像数据。

其中，第一文本信息和第二文本信息不匹配包括以下至少一种：第一文本信息的语种与第二文本信息的语种不同、第一文本信息的语义与第二文本信息的语义不同。

上述第二图像数据包括以下至少一种：第二字幕图像数据、人物的第二口型图像数据。第二字幕图像数据用于表示第二多媒体数据中的字幕，也就是根据配音音频数据纠正之后的字幕，第二口型图像数据用于表示所述第二多媒体数据中的人物的口型，也就是根据配音音频数据纠正之后的口型。

为了生成上述第二口型图像数据，可以采用口型图像生成模型，口型图像生成模型为神经网络模型。其输入为第二文本信息中包括的至少一个第二语言元素和第一口型图像数据，输出为第二口型图像数据。

上述口型图像生成模型用于对第一口型图像数据进行仿射变换，具体可以包括：至少一个子网络和至少一个仿射变换模块；子网络包括全局均值池化层、特征拼接层、至少两个全连接层及维度变换层，子网络的输出为子仿射变换系数，仿射变换模块用于根据子仿射变换系数对第一口型图像数据进行仿射变换。

图3是本公开实施例提供的口型图像生成模型中的子网络原理图。如图3所述，虚线框内为子网络的结构图，第一口型图像数据(C,H,W)输入全局均值池化层(globalaverage pooling，gap)进行池化处理；池化处理后的图像特征(C)输入特征拼接层(cancate)，和输入特征拼接层的第二文本信息(D)进行特征拼接；拼接后的特征(C+D)输入至少两个全连接层(Multi-LayerPerceptron，MLP)进行特征提取后获得(C*6)，将特征(C*6)输入维度变换层(reshape)，获得子仿射变换系数(C，2，3)；仿射变换模块根据子仿射变换系数对输入子网络的第一口型图像数据进行仿射变换，获得仿射变换后的口型特征数据；若子网络是最后一个子网络，则根据仿射变换后的口型特征数据确定第二口型图像数据；若子网络不是最后一个子网络，则将仿射变换后的口型特征数据输入下一个子网络。

其中，全连接层可以包括2层或者3层。

本公开实施例中，图4是本公开实施例中口型图像生成模型对第一口型图像数据进行仿射变换的原理图。如图4所示，口型图像生成模型包括至少两个子网络，第1个子网络的输入为第二文本信息和第一口型图像数据，第N个子网络的输入为第二文本信息和根据第N-1个子网络输出的子仿射变换系数变换后的口型特征数据；其中，N≥2。

示例性的，假设口型图像生成模型包括3个子网络，先将第二文本信息和第一口型图像数据输入第一个子网络中，获得第一子仿射变换系数。第一子仿射变换系数与第一口型图像数据经仿射变换模块处理，获得仿射变换后的口型特征数据，称为第一中间数据。然后将第二文本信息和第一中间数据输入第二个子网络，获得第二子仿射变换系数，第二子仿射变换系数和第一中间数据经仿射变换模块处理，获得仿射变换后的口型特征数据，称为第二中间数据。再然后将第二文本信息和第二中间数据输入第三个子网络，获得第三子仿射变换系数，第三子仿射变换系数与第二中间数据经仿射变换模块处理，获得仿射变换后的口型特征数据，称为第三中间数据，第三中间数据也就是第二口型图像数据。

上述第二字幕图像数据可以通过字幕库生成，字幕库中包括每个文字的图像数据，以及构成该文字的语言元素，根据第二文本信息中包括的至少一个第二语言元素去字幕库中查找一个或多个连续的第二语言元素对应的文字图像数据，得到第二字幕图像数据。

上述第一文本信息和第二文本信息匹配包括：第一文本信息的语种与第二文本信息的语种相同，且第一文本信息的语义与第二文本信息的语义相同。此时，代表第一图像信息和音频信息匹配，不需要生成第二图像数据，也不需要将第一多媒体数据中的第一图像数据进行替换。

S104：根据第二图像数据和第一多媒体数据生成第二多媒体数据，所述第二多媒体数据中至少包括所述第二图像数据和所述音频数据。

其中，第二多媒体数据中至少包括第二图像数据和第一多媒体数据中的音频数据。也就是说，可以将第一多媒体数据中的第一图像数据替换为第二图像数据，得到第二多媒体数据。

进一步地，当第二图像数据为字幕图像数据时，第二多媒体数据中除上述第二图像数据和第一多媒体数据中的音频数据之外，还可以包括第一图像数据。也就是说，第二多媒体数据中可以同时包括原字幕和新字幕，原字幕是配音前的字幕，与配音不一致，新字幕是配音后的字幕，与配音一致。

为了使第二图像多媒体数据中同时包括上述第一图像数据、第二图像数据和音频数据，可以将第二图像数据添加到第一多媒体数据中得到第二多媒体数据，第二图像数据对应的图像位置和第一图像数据对应的图像位置相关联。

其中，第二图像数据对应的图像位置和第一图像数据对应的图像位置可以是相邻的，或距离小于或等于预设距离阈值。如此，可以方便用户根据第一图像数据对第二图像数据进行比对。

可选地，在第二多媒体数据中包括第一图像数据和第二图像数据时，还可以在播放器界面中播放第二多媒体数据，并接收在播放器界面中的第一操作指令；响应于该第一操作指令，对第二多媒体数据进行目标处理，该目标处理包括以下至少一种：从第二多媒体数据中删除第一图像数据、对第二多媒体数据中的第二图像数据进行修改。

其中，第一操作指令可以是对第二图像数据的确认指令，或对第二图像数据的修改指令。

本公开实施例可以通过用户的第一操作指令对第二多媒体数据进行管理，以进一步提高第二多媒体数据中的第二图像数据与音频数据的一致性。

可选地，在播放器界面中同步显示第二文本信息，第二文本信息用于提示用户根据第二文本信息对第二图像数据进行校准。如此，进一步第二多媒体数据中的第二图像数据与音频数据的一致性。

在上述生成第二多媒体数据的过程中，需要将第一多媒体数据中的字幕区域中的文字进行擦除。具体地，可以根据字幕区域的位置信息，擦除第一多媒体数据中的字幕区域中的文字；根据当前帧以及当前帧的相邻帧的图像信息，对当前帧中已擦除内容的字幕区域进行信息重建，直至第一多媒体数据处理完毕，得到无字幕多媒体数据。

具体的，上述位置信息可以为字幕区域的具体坐标。在识别出第一图像数据中的字幕区域之后，可以基于各字幕区域的位置信息，对各字幕区域内的图像所表征的字幕进行擦除处理。其中，可以使用一些擦除工具或抠图工具将图像所表征的字幕擦除。擦除之后，字幕区域会存在内容缺失，需要对其进行背景填充。因此，接下来，电子设备对第一图像数据中字幕擦除后所导致的缺失区域进行内容填充。在实际应用中，字幕区域往往具有前后图像帧关联性较强的特点。经过对常见视频进行统计，相同字幕往往会持续相邻的15-40个图像帧。随着镜头的移动，某些图像中被字幕所遮挡住的部分会显现出来。基于此，可以利用当前图像帧以及相邻图像帧的图像信息，对当前图像帧中已擦除内容的字幕区域进行信息重建。其中，当前图像帧的相邻图像帧可以是当前图像帧之前的最邻近的指定数量的图像帧，也可以是当前图像帧之后的最邻近的指定数量的图像帧。上述指定数量可以基于实际情况进行设置。

在一个具体的示例中，可以基于当前图像帧以及当前图像帧的相邻图像帧中目标区域的图像信息，采用线性插值的方式，对当前图像帧中已擦除内容的字幕区域进行信息重建。其中，该目标区域可以为与字幕区域满足预设距离条件的区域，即可以将目标区域理解为字幕区域的周边区域。

在另一个具体的示例中，还可以通过机器学习的方式对第一图像数据中已擦除内容的字幕区域进行信息重建。具体地，可以构建一编码器-解码器模型，并采用大量的样本视频数据对该编码器-解码器模型进行训练。其中，样本视频数据包括待重建的样本图像帧、该待重建的样本图像帧对应的样本相邻图像帧以及重建后的样本图像帧。在该编码器-解码器模型训练结束之后，可以将当前图像帧以及当前图像帧的相邻图像帧输入至编码器-解码器模型中，通过该模型中的编码器提取当前图像帧以及相邻图像帧中的特征信息，然后通过该模型中的解码器以及上述特征信息完成对当前图像帧缺失部分的信息重建，从而得到没有字幕的当前图像帧。重复按照上述方式对第一多媒体数据中的其它第一图像数据进行处理，进而可得到无字幕多媒体数据。

在得到无字幕多媒体数据之后，将新生成的第二图像数据对应的字幕信息嵌入到第一多媒体数据中得到第二多媒体数据。在一种可选的方式中，还可以将第二图像数据中的字幕图像数据生成独立的字幕数据文件，并将字幕数据文件与无字幕多媒体数据打包成第二多媒体数据。

对应于上述多媒体数据的处理方法实施例，图5是本公开实施例提供的多媒体数据的处理装置的一种结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图5，上述多媒体数据的处理装置200包括：第一数据获取模块201、文本信息确定模块202、图像数据生成模块203和第二数据生成模块204。

其中，第一数据获取模块201，用于获取第一多媒体数据，所述第一多媒体数据包括第一图像数据和音频数据。

文本信息确定模块202，用于确定所述第一图像数据对应的第一文本信息和所述音频数据对应的第二文本信息。

图像数据生成模块203，用于若所述第一文本信息和所述第二文本信息不匹配，则生成与所述第二文本信息匹配的第二图像数据。

第二数据生成模块204，用于根据所述第二图像数据和第一多媒体数据生成第二多媒体数据，所述第二多媒体数据中至少包括所述第二图像数据和所述音频数据。

可选地，所述第一文本信息和所述第二文本信息不匹配包括以下至少一种：所述第一文本信息的语种与所述第二文本信息的语种不同、所述第一文本信息的语义与所述第二文本信息的语义不同。

可选地，所述第一文本信息包括按照顺序排列的至少一个第一语言元素，所述第二文本信息包括按照顺序排列的至少一个第二语言元素；所述装置还包括匹配度确定模块和匹配模块：

匹配度确定模块，用于确定所述至少一个第一语言元素和所述至少一个第二语言元素之间的匹配度。

匹配模块，用于若所述匹配度小于预设匹配度阈值，则确定所述第一文本信息和所述第二文本信息不匹配。

可选地，所述音频数据是配音音频数据，所述第一图像数据包括以下至少一种：第一字幕图像数据、人物的第一口型图像数据，所述第二图像数据包括以下至少一种：第二字幕图像数据、人物的第二口型图像数据。

可选地，当所述第一图像数据包括人物的第一口型图像数据时，所述文本信息确定模块202，还用于：

从所述第一图像数据中确定目标对象区域；若所述目标对象区域为至少两个，则根据最大的所述目标对象区域识别得到所述第一文本信息。

可选地，所述第二数据生成模块204还用于：

将所述第一多媒体数据中的所述第一图像数据替换为所述第二图像数据，得到第二多媒体数据；或，将所述第二图像数据添加到所述第一多媒体数据中得到第二多媒体数据，所述第二图像数据对应的图像位置和所述第一图像数据对应的图像位置相关联。

可选地，在所述第二多媒体数据中包括所述第一图像数据和所述第二图像数据时，所述装置还包括第二多媒体数据播放模块、第一操作指令接收模块和目标处理模块：

第二多媒体数据播放模块，用于在播放器界面中播放所述第二多媒体数据。

第一操作指令接收模块，用于接收在所述播放器界面中的第一操作指令。

目标处理模块，用于响应于所述第一操作指令，对所述第二多媒体数据进行目标处理，所述目标处理包括以下至少一种：从所述第二多媒体数据中删除所述第一图像数据、对所述第二多媒体数据中的所述第二图像数据进行修改。

可选地，所述装置还包括：

同步显示模块，用于在所述播放器界面中同步显示所述第二文本信息，所述第二文本信息用于提示用户根据所述第二文本信息对所述第二图像数据进行校准。

本实施例提供的多媒体数据的处理装置，可用于执行上述图2所示的方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图6是本公开实施例提供的一种电子设备的结构框图。该电子设备600包括存储器602和至少一个处理器601。

其中，存储器602存储计算机执行指令。

至少一个处理器601执行存储器602存储的计算机执行指令，使得电子设备实现前述图2中的多媒体数据的处理方法。

此外，该电子设备还可以包括接收器603和发送器604，接收器603用于接收从其余装置或设备的信息，发给处理器601，发送器604用于将信息发送到其余装置或设备。

在第一方面的第一种示例中，本公开实施例提供了一种多媒体数据的处理方法，包括：

基于第一方面的第一种示例，在第一方面的第二种示例中，所述第一文本信息包括按照顺序排列的至少一个第一语言元素，所述第二文本信息包括按照顺序排列的至少一个第二语言元素；所述方法还包括：

确定所述至少一个第一语言元素和所述至少一个第二语言元素之间的匹配度；

若所述匹配度小于预设匹配度阈值，则确定所述第一文本信息和所述第二文本信息不匹配。

基于第一方面的第一种示例，在第一方面的第三种示例中，所述音频数据是配音音频数据，所述第一图像数据包括以下至少一种：第一字幕图像数据、人物的第一口型图像数据，所述第二图像数据包括以下至少一种：第二字幕图像数据、人物的第二口型图像数据。

基于第一方面的第三种示例，在第一方面的第四种示例中，当所述第一图像数据包括人物的第一口型图像数据时，所述确定所述第一图像数据对应的第一文本信息，包括：

从所述第一图像数据中确定目标对象区域；

若所述目标对象区域为至少两个，则根据最大的所述目标对象区域识别得到所述第一文本信息。

基于第一方面的第一种示例，在第一方面的第五种示例中，所述根据所述第二图像数据和第一多媒体数据生成第二多媒体数据，包括：

将所述第一多媒体数据中的所述第一图像数据替换为所述第二图像数据，得到第二多媒体数据；

或，将所述第二图像数据添加到所述第一多媒体数据中得到第二多媒体数据，所述第二图像数据对应的图像位置和所述第一图像数据对应的图像位置相关联。

基于第一方面的第五种示例，在第一方面的第六种示例中，在所述第二多媒体数据中包括所述第一图像数据和所述第二图像数据时，所述方法还包括：

在播放器界面中播放所述第二多媒体数据；

接收在所述播放器界面中的第一操作指令；

响应于所述第一操作指令，对所述第二多媒体数据进行目标处理，所述目标处理包括以下至少一种：从所述第二多媒体数据中删除所述第一图像数据、对所述第二多媒体数据中的所述第二图像数据进行修改。

基于第一方面的第六种示例，在第一方面的第七种示例中，所述方法还包括：

在所述播放器界面中同步显示所述第二文本信息，所述第二文本信息用于提示用户根据所述第二文本信息对所述第二图像数据进行校准。

在第二方面的第一种示例中，提供了一种多媒体数据的处理装置，包括：

基于第二方面的第一种示例，在第二方面的第二种示例中，所述第一文本信息包括按照顺序排列的至少一个第一语言元素，所述第二文本信息包括按照顺序排列的至少一个第二语言元素；所述装置还包括匹配度确定模块和匹配模块：

基于第二方面的第一种示例，在第二方面的第三种示例中，所述音频数据是配音音频数据，所述第一图像数据包括以下至少一种：第一字幕图像数据、人物的第一口型图像数据，所述第二图像数据包括以下至少一种：第二字幕图像数据、人物的第二口型图像数据。

基于第二方面的第三种示例，在第二方面的第四种示例中，当所述第一图像数据包括人物的第一口型图像数据时，所述文本信息确定模块，还用于：

基于第二方面的第一种示例，在第二方面的第五种示例中，所述第二数据生成模块还用于：

基于第二方面的第五种示例，在第二方面的第六种示例中，在所述第二多媒体数据中包括所述第一图像数据和所述第二图像数据时，所述装置还包括第二多媒体数据播放模块、第一操作指令接收模块和目标处理模块：

基于第二方面的第六种示例，在第二方面的第七种示例中，所述装置还包括：

第三方面，根据本公开的一个或多个实施例，提供了一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备实现如第一方面任一项所述的方法。

第四方面，根据本公开的一个或多个实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面所述的方法。

第五方面，根据本公开的一个或多个实施例，提供了一种计算机程序，所述计算机程序用于实现如上第一方面所述的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种多媒体数据的处理方法，其特征在于，所述方法包括：

根据所述第二图像数据和所述第一多媒体数据生成第二多媒体数据，所述第二多媒体数据中至少包括所述第二图像数据和所述音频数据。

2.根据权利要求1所述的方法，其特征在于，所述第一文本信息包括按照顺序排列的至少一个第一语言元素，所述第二文本信息包括按照顺序排列的至少一个第二语言元素；所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述音频数据是配音音频数据，所述第一图像数据包括以下至少一种：第一字幕图像数据、人物的第一口型图像数据，所述第二图像数据包括以下至少一种：第二字幕图像数据、人物的第二口型图像数据。

4.根据权利要求3所述的方法，其特征在于，当所述第一图像数据包括人物的第一口型图像数据时，所述确定所述第一图像数据对应的第一文本信息，包括：

从所述第一图像数据中确定目标对象区域；

5.根据权利要求1所述的方法，其特征在于，所述根据所述第二图像数据和所述第一多媒体数据生成第二多媒体数据，包括：

6.根据权利要求5所述的方法，其特征在于，在所述第二多媒体数据中包括所述第一图像数据和所述第二图像数据时，所述方法还包括：

在播放器界面中播放所述第二多媒体数据；

接收在所述播放器界面中的第一操作指令；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种多媒体数据的处理装置，其特征在于，包括：

第二数据生成模块，用于根据所述第二图像数据和所述第一多媒体数据生成第二多媒体数据，所述第二多媒体数据中至少包括所述第二图像数据和所述音频数据。

9.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，使计算设备实现如权利要求1至7任一项所述的方法。

11.一种计算机程序，其特征在于，所述计算机程序用于实现如权利要求1至7任一项所述的方法。