CN110427930A

CN110427930A - 多媒体数据处理方法及装置、电子设备和可读存储介质

Info

Publication number: CN110427930A
Application number: CN201910693768.4A
Authority: CN
Inventors: 刘攀; 杨瑞光; 施佳子; 罗涛
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-08

Abstract

本公开提供了一种多媒体数据处理方法，其中，多媒体数据包括音频数据和视频数据，该方法包括：将视频数据包含的多帧图像划分为多个图像组，其中，多个图像组中的每一个图像组包含N帧图像，N为大于等于1的整数；对每一个图像组中的N帧图像进行识别，确定N帧图像中的字幕；获取每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻；根据每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻，对音频数据进行切分，得到多个子音频数据；以及将多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据。本公开还提供了一种多媒体数据处理装置、一种电子设备和一种计算机可读存储介质。

Description

多媒体数据处理方法及装置、电子设备和可读存储介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种多媒体数据处理方法、一种多媒体数据处理装置、一种电子设备和一种计算机可读存储介质。

背景技术

目前，为了将语音识别模型识别语音的准确度提升到满意的程度，需要使用大量的语料对机器学习算法模型进行训练。然而，在语音识别领域可以公开使用的中文语料数据集不多，基于少量语料数据生成的语音识别模型效果并不理想。

发明内容

有鉴于此，本公开提供了一种多媒体数据处理方法、一种多媒体数据处理装置、一种电子设备和一种计算机可读存储介质。

本公开的一个方面提供了一种多媒体数据处理方法，其中，上述多媒体数据包括音频数据和视频数据，上述方法包括：将上述视频数据包含的多帧图像划分为多个图像组，其中，上述多个图像组中的每一个图像组包含N帧图像，N为大于等于1的整数；对上述每一个图像组中的N帧图像进行识别，确定上述N帧图像中的字幕；获取上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻；根据上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻，对上述音频数据进行切分，得到多个子音频数据；以及将上述多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据。

根据本公开的实施例，对上述每一个图像组中的N帧图像进行识别，确定上述N帧图像中的字幕包括：确定上述每一个图像组中的N帧图像中的字幕区域；以及对上述字幕区域中的字幕进行识别，确定上述N帧图像中的字幕。

根据本公开的实施例，多媒体数据处理方法还包括：针对上述每一个图像组中的N帧图像中的字幕，生成对应的拼音文本；以及将上述多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据包括：将上述多个子音频数据中的每个子音频数据与对应的拼音文本进行关联，生成语料数据。

根据本公开的实施例，上述多媒体数据为电影数据或电视剧数据。

根据本公开的实施例，对上述视频数据包含的多帧图像进行划分，将上述多帧图像分成多个图像组包括：对上述视频数据包含的多帧图像，按照每隔N帧图像进行划分；以及在按照每隔N帧图像进行划分的过程中，调整上述N的大小。

本公开的另一个方面提供了一种多媒体数据处理装置，其中，上述多媒体数据包括音频数据和视频数据，上述装置包括：划分模块，用于将上述视频数据包含的多帧图像划分为多个图像组，其中，上述多个图像组中的每一个图像组包含N帧图像，N为大于等于1的整数；识别模块，用于对上述每一个图像组中的N帧图像进行识别，确定上述N帧图像中的字幕；获取模块，用于获取上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻；切分模块，用于根据上述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻，对上述音频数据进行切分，得到多个子音频数据；以及关联模块，用于将上述多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据。

根据本公开的实施例，上述识别模块包括：确定单元，用于确定上述每一个图像组中的N帧图像中的字幕区域；以及识别单元，用于对上述字幕区域中的字幕进行识别，确定上述N帧图像中的字幕。

根据本公开的实施例，多媒体数据处理装置还包括：生成模块，用于针对上述每一个图像组中的N帧图像中的字幕，生成对应的拼音文本；以及上述关联模块还用于将上述多个子音频数据中的每个子音频数据与对应的拼音文本进行关联，生成语料数据。

根据本公开的实施例，上述划分模块包括划分单元，用于对上述视频数据包含的多帧图像，按照每隔N帧图像进行划分；以及调整单元，用于在按照每隔N帧图像进行划分的过程中，调整上述N的大小。

本公开的另一方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个指令，其中，当上述一个或多个指令被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，上述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，上述计算机程序包括计算机可执行指令，上述指令在被执行时用于实现如上所述的方法。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用多媒体数据处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的多媒体数据处理方法的流程图；

图3示意性示出了根据本公开实施例的确定N帧图像中的字幕的流程图；

图4示意性示出了根据本公开实施例的将多帧图像分成多个图像组的流程图；

图5示意性示出了根据本公开实施例的多媒体数据处理装置的框图；以及

图6示意性示出了根据本公开实施例的适于实现上文描述的多媒体数据处理方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

为了将语音识别模型提升到满意的程度，需要使用大量的语料对机器学习算法模型进行训练。而目前互联网上又存在大量未利用的中文语料，如电影/电视剧，电影/电视剧具有音频数据和标注文本数据两部分。如果能充分利用这些信息，将为机器学习算法模型的训练提供很大便利，因此，可以考虑如何将其抽取成可训练的语料数据。

本公开的实施例提供了一种多媒体数据处理方法，其中，多媒体数据包括音频数据和视频数据，该方法包括：将视频数据包含的多帧图像划分为多个图像组，其中，多个图像组中的每一个图像组包含N帧图像，N为大于等于1的整数；对每一个图像组中的N帧图像进行识别，确定N帧图像中的字幕；获取每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻；根据每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻，对音频数据进行切分，得到多个子音频数据；以及将多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据。

图1示意性示出了根据本公开实施例的可以应用多媒体数据处理方法及装置的示例性系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备110，数据源120和网络130。网络130用以在终端设备110和数据源120之间提供通信链路的介质。网络130可以包括各种连接类型，例如有线和/或无线通信链路等等。数据源120包括设备121、设备122和设备123。

用户可以使用终端设备110通过网络130与数据源120交互，以接收或发送消息等。终端设备110可以是具有具有计算能力的各种电子设备，包括但不限于服务器、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

数据源120可以包括提供各种服务的服务器。数据源120中可以存储大量的多媒体数据，例如，可以存储电影或电视剧等等。

本公开实施例所提供的多媒体数据处理方法可以由终端设备110执行，或者也可以由不同于终端设备110的其他终端设备执行。相应地，本公开实施例所提供的多媒体数据处理装置可以设置于终端设备110中，或设置于不同于终端设备110的其他终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的多媒体数据处理方法的流程图。

如图2所示，该方法包括操作S210～S250。

在操作S210，将视频数据包含的多帧图像划分为多个图像组，其中，多个图像组中的每一个图像组包含N帧图像，N为大于等于1的整数。

根据本公开的实施例，以多媒体数据为电影为例，电影中可以包括视频数据和音频数据。其中，音频数据可以是电影中字幕的语音数据。

根据本公开的实施例，例如，视频数据包括10万张图像，N可以是24。需要说明的是，N的大小可以调节。

在操作S220，对每一个图像组中的N帧图像进行识别，确定N帧图像中的字幕。

在操作S230，获取每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻。

在操作S240，根据每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻，对音频数据进行切分，得到多个子音频数据。

根据本公开的实施例，音频数据的切分可以根据抽取的音频数据和字幕信息数据切分音频，具体的切分逻辑依据了保存的字幕起始时刻和结束时刻，这样使得切分后的音频尽可能匹配字幕出现的时间段。

在操作S250，将多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据。

根据本公开的实施例，可以将字幕和切分后得到的对应子音频数据信息关联保存，生成的语料数据作为标注数据，用于语音识别模型的训练。

根据本公开的实施例，例如，通过对电影中带标准字幕的视频进行字幕提取，并根据提取到的字幕进行音频切分，可以实现自动获取语料数据。

根据本公开的实施例，对电影中的字幕进行识别可以采用如下方式。

首先确定电影的起始帧和结束帧，跳过片头和片尾；截取每帧下方的字幕区域生成图像，为了兼容不同分辨率的电影，截取的字幕区域要尽可能包含字幕可能出现的位置，并大小适中；生成图像后调用OCR识别服务，为了减少识别时间，一般设置每隔数帧调用一次识别服务；由于一行字幕的出现时间可以覆盖多帧，所以对连续帧识别出相同结果的数据进行保存，以确定该行字幕的起始帧和结束帧。

在对整个电影文件进行字幕识别的过程中，将每行字幕的起始时间、结束时间、字幕文本可以保存在本地文件中，起始时间和结束时间的计算是根据当前帧和总帧数的比值与视频总时长的乘积得到，以便后续音频切分使用。

根据本公开的实施例，可以对多媒体数据进行如下操作：抽取音频、OCR(OpticalCharacter Recognition，光学字符识别，简称OCR)字幕识别、音频切分、生成标注文本、批量视频处理等等。

根据本公开的实施例，可以提供音频提取模块，用于从电影视频中抽取对应的音频，以供后续音频切分使用。

根据本公开的实施例，可以针对每一个图像组中的N帧图像中的字幕，生成对应的拼音文本，将多个子音频数据中的每个子音频数据与对应的字幕进行关联，将多个子音频数据中的每个子音频数据与对应的拼音文本进行关联，生成语料数据。

根据本公开的实施例，可以达到快速获取语料数据的效果。并且，通过对多媒体数据进行处理后得到的语料数据的准确度高，将为机器学习算法模型的训练提供很大便利。

根据本公开的实施例，电影或电视剧具有音频数据和标注文本数据两部分，可以充分利用这些数据，使电影或电视剧抽取成可训练的语料数据。无需人工生成语料数据，提高了工作效率，降低了获取语料数据的成本。

下面参考图3～图4，结合具体实施例对图2所示的方法做进一步说明。

图3示意性示出了根据本公开实施例的确定N帧图像中的字幕的流程图。

如图3所示，对每一个图像组中的N帧图像进行识别，确定N帧图像中的字幕包括操作S221～S222。

在操作S221，确定每一个图像组中的N帧图像中的字幕区域。

在操作S222，对字幕区域中的字幕进行识别，确定N帧图像中的字幕。

根据本公开的实施例，可以利用OCR技术确定每一个图像组中的N帧图像中的字幕区域。每隔N帧对图像的字幕区域做切分，识别区域中的文字，将字幕的起始时刻、结束时刻、字幕文本保存在文件中，用于后续的音频切分。

图4示意性示出了根据本公开实施例的将多帧图像分成多个图像组的流程图。

如图4所示，对视频数据包含的多帧图像进行划分，将多帧图像分成多个图像组包括操作S211～S212。

在操作S211，对视频数据包含的多帧图像，按照每隔N帧图像进行划分。

在操作S212，在按照每隔N帧图像进行划分的过程中，调整N的大小。

根据本公开的实施例，在按照每隔N帧图像进行划分的过程中，可以将N调大或者调小。

根据本公开的实施例，在按照每隔N帧图像进行划分的过程中，可以手动调整N的大小，或者，也可以自适应的动态调整N的大小。

根据本公开的实施例，例如，视频数据包括100帧图像，在按照每10帧图像进行划分的过程中，如果检测到每20帧图像才可能出现字幕，可以自适应动态调整N的大小为20。

图5示意性示出了根据本公开实施例的多媒体数据处理装置的框图。

如图5所示，多媒体数据处理装置500包括划分模块510、识别模块520、获取模块530、切分模块540和关联模块550。

划分模块510用于将视频数据包含的多帧图像划分为多个图像组，其中，多个图像组中的每一个图像组包含N帧图像，N为大于等于1的整数。

识别模块520用于对每一个图像组中的N帧图像进行识别，确定N帧图像中的字幕。

获取模块530用于获取每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻。

切分模块540用于根据每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻，对音频数据进行切分，得到多个子音频数据。

关联模块550用于将多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据。

根据本公开的实施例，识别模块520包括确定单元和识别单元。

确定单元用于确定每一个图像组中的N帧图像中的字幕区域。识别单元用于对字幕区域中的字幕进行识别，确定N帧图像中的字幕。

根据本公开的实施例，多媒体数据处理装置500还包括生成模块，用于针对每一个图像组中的N帧图像中的字幕，生成对应的拼音文本。

关联模块550还用于将多个子音频数据中的每个子音频数据与对应的拼音文本进行关联，生成语料数据。

根据本公开的实施例，多媒体数据为电影数据或电视剧数据。

根据本公开的实施例，划分模块510包括划分单元和调整单元。

划分单元用于对视频数据包含的多帧图像，按照每隔N帧图像进行划分。调整单元用于在按照每隔N帧图像进行划分的过程中，调整N的大小。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，划分模块510、识别模块520、获取模块530、切分模块540和关联模块550中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，划分模块510、识别模块520、获取模块530、切分模块540和关联模块550中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，划分模块510、识别模块520、获取模块530、切分模块540和关联模块550中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中多媒体数据处理装置部分与本公开的实施例中多媒体数据处理方法部分是相对应的，多媒体数据处理装置部分的描述具体参考多媒体数据处理方法部分，在此不再赘述。

图6示意性示出了根据本公开实施例的适于实现上文描述的多媒体数据处理方法的电子设备的框图。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，根据本公开实施例的电子设备600包括处理器601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中，存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备600还可以包括输入/输出(I/O)接口605，输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种多媒体数据处理方法，其中，所述多媒体数据包括音频数据和视频数据，所述方法包括：

将所述视频数据包含的多帧图像划分为多个图像组，其中，所述多个图像组中的每一个图像组包含N帧图像，N为大于等于1的整数；

对所述每一个图像组中的N帧图像进行识别，确定所述N帧图像中的字幕；

获取所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻；

根据所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻，对所述音频数据进行切分，得到多个子音频数据；以及

将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据。

2.根据权利要求1所述的方法，对所述每一个图像组中的N帧图像进行识别，确定所述N帧图像中的字幕包括：

确定所述每一个图像组中的N帧图像中的字幕区域；以及

对所述字幕区域中的字幕进行识别，确定所述N帧图像中的字幕。

3.根据权利要求1所述的方法，还包括：

针对所述每一个图像组中的N帧图像中的字幕，生成对应的拼音文本；以及

将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据包括：将所述多个子音频数据中的每个子音频数据与对应的拼音文本进行关联，生成语料数据。

4.根据权利要求1所述的方法，其中，所述多媒体数据为电影数据或电视剧数据。

5.根据权利要求1所述的方法，对所述视频数据包含的多帧图像进行划分，将所述多帧图像分成多个图像组包括：

对所述视频数据包含的多帧图像，按照每隔N帧图像进行划分；以及

在按照每隔N帧图像进行划分的过程中，调整所述N的大小。

6.一种多媒体数据处理装置，其中，所述多媒体数据包括音频数据和视频数据，所述装置包括：

划分模块，用于将所述视频数据包含的多帧图像划分为多个图像组，其中，所述多个图像组中的每一个图像组包含N帧图像，N为大于等于1的整数；

识别模块，用于对所述每一个图像组中的N帧图像进行识别，确定所述N帧图像中的字幕；

获取模块，用于获取所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻；

切分模块，用于根据所述每一个图像组中的N帧图像中的字幕输出时的起始时刻和结束时刻，对所述音频数据进行切分，得到多个子音频数据；以及

关联模块，用于将所述多个子音频数据中的每个子音频数据与对应的字幕进行关联，生成语料数据。

7.根据权利要求6所述的装置，所述识别模块包括：

确定单元，用于确定所述每一个图像组中的N帧图像中的字幕区域；以及

识别单元，用于对所述字幕区域中的字幕进行识别，确定所述N帧图像中的字幕。

8.根据权利要求6所述的装置，还包括：

生成模块，用于针对所述每一个图像组中的N帧图像中的字幕，生成对应的拼音文本；以及

所述关联模块还用于将所述多个子音频数据中的每个子音频数据与对应的拼音文本进行关联，生成语料数据。

9.根据权利要求6所述的装置，其中，所述多媒体数据为电影数据或电视剧数据。

10.根据权利要求6所述的装置，所述划分模块包括：

划分单元，用于对所述视频数据包含的多帧图像，按照每隔N帧图像进行划分；以及

调整单元，用于在按照每隔N帧图像进行划分的过程中，调整所述N的大小。

11.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个指令，

其中，当所述一个或多个指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至5中任一项所述的方法。