CN111798543B

CN111798543B - 模型训练方法、数据处理方法、装置、设备及存储介质

Info

Publication number: CN111798543B
Application number: CN202010943958.XA
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-04
Anticipated expiration: 2040-09-10
Also published as: CN111798543A

Abstract

本申请提出一种模型训练方法、视频数据处理方法、装置、设备及存储介质；其中，该方法包括：获取待处理图像，以及获取文本内容；将所述待处理图像与所述文本内容进行图像合成处理后，得到展示有所述文本内容的目标图像；至少将展示有所述文本内容的目标图像作为样本图像来对文本识别模型进行训练，以便利用训练完成后的文本识别模型对图像中文本内容进行识别，如此，避免了人工标注样本数据，提升了模型训练效率，同时，也降低了成本。

Description

模型训练方法、数据处理方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术，尤其涉及一种视频数据处理方法、装置、设备及存储介质。

背景技术

现有以深度学习神经网络模型为主导的技术都需要使用训练数据，但就目前而言，大多训练数据均需要通过人工标注来实现，极大地提高了模型训练的成本。

发明内容

本申请实施例提供一种模型训练方法、数据处理方法、装置、设备及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种模型训练方法，包括：

获取待处理图像，以及获取文本内容；

将所述待处理图像与所述文本内容进行图像合成处理后，得到展示有所述文本内容的目标图像；

至少将展示有所述文本内容的目标图像作为样本图像来对文本识别模型进行训练，以便利用训练完成后的文本识别模型对图像中文本内容进行识别。

在一种实施方式中，所述得到展示有所述文本内容的目标图像，包括：

对合成处理后得到的图像进行剪裁处理，将剪裁处理后得到的至少包含有所述文本内容的图像作为所述目标图像。

在一种实施方式中，还包括：确定视频信息，所述视频信息是从预设视频信息中选出去的，所述预设视频信息是对视频数据进行视频和音频分离后所得到的；

将所述视频信息中视频帧作为所述待处理图像。

在一种实施方式中，所述将所述视频信息中视频帧作为所述待处理图像，包括：

将所述视频信息的视频帧中字幕内容进行剪裁处理，以去除掉字幕内容；

将去除掉字幕内容的视频帧作为所述待处理图像。

在一种实施方式中，所述获取文本内容，包括：

从网络资源中获取文本信息；

从所述文本信息中选取出文本句子作为所述文本内容。

第二方面，本申请实施例提供了一种视频数据处理方法，包括：

确定视频信息，所述视频信息是从预设视频信息中选出去的，所述预设视频信息是对视频数据进行视频和音频分离后所得到的；

利用文本识别模型确定出所述视频信息中视频帧所展示的字幕内容，其中，所述文本识别模型为以上方法所得到的模型；

至少基于字幕内容对所述视频信息中的视频帧进行归类处理，得到视频帧序列，其中，所述视频帧序列中各视频帧所展示的字幕内容相关联；

确定所述视频帧序列所对应的时间信息，得到所述视频帧序列对应的字幕内容的时间信息，以从所述视频数据的音频信息中确定出与所述视频帧序列所对应的字幕内容相匹配的目标音频信息。

在一种实施方式中，还包括：

基于所述视频帧序列、所述视频帧序列对应的字幕内容、以及确定出的所述视频帧序列所对应的目标音频信息，生成视频片段；其中，所述视频片段中所述目标音频信息与所述视频片段所呈现的字幕内容相匹配。

在一种实施方式中，还包括：

将所述视频帧序列，以及确定出的所述视频帧序列所对应的目标音频信息作为训练数据；或者，将基于所述视频帧序列和所述目标音频信息生成的视频片段作为训练数据；

至少将所述训练数据输入至预设模型，以利用所述训练数据的视频帧中人脸图像的关键点特征与所述目标音频信息的音频特征之间的对应关系对预设模型进行训练。

在一种实施方式中，还包括：

获取视频数据，其中，所述视频数据中展示有字幕内容；

将所述视频数据中视频和音频进行分离处理，得到视频信息和音频信息；

将分离得到的所述视频信息作为预设视频信息。

在一种实施方式中，所述利用文本识别模型确定出所述视频信息中视频帧所展示的字幕内容，包括：

检测得到所述视频信息的视频帧中字幕内容所处位置；

至少将视频帧中字幕内容所处位置的图像输入至所述文本识别模型，得到所述视频信息中视频帧所展示的字幕内容。

在一种实施方式中，所述检测得到所述视频信息的视频帧中字幕内容所处位置，包括：

获取文本检测模型；

将所述视频信息的视频帧输入至所述文本检测模型，得到所述视频信息的视频帧中字幕内容所处位置。

第三方面，本申请实施例提供了一种模型训练装置，包括：

待处理图像获取单元，用于获取待处理图像；

文本内容获取单元，用于获取文本内容；

图像合成单元，用于将所述待处理图像与所述文本内容进行图像合成处理后，得到展示有所述文本内容的目标图像；

模型训练单元，用于至少将展示有所述文本内容的目标图像作为样本图像来对文本识别模型进行训练，以便利用训练完成后的文本识别模型对图像中文本内容进行识别。

在一种实施方式中，所述图像合成单元，还用于对合成处理后得到的图像进行剪裁处理，将剪裁处理后得到的至少包含有所述文本内容的图像作为所述目标图像。

在一种实施方式中，还包括：

待处理图像确定单元，用于确定视频信息，将所述视频信息中视频帧作为所述待处理图像；其中，所述视频信息是从预设视频信息中选出去的，所述预设视频信息是对视频数据进行视频和音频分离后所得到的。

在一种实施方式中，所述待处理图像确定单元，还用于：

将去除掉字幕内容的视频帧作为所述待处理图像。

在一种实施方式中，所述文本内容获取单元，还用于：

从网络资源中获取文本信息；

从所述文本信息中选取出文本句子作为所述文本内容。

第四方面，本申请实施例提供了一种视频数据处理装置，包括：

视频信息确定单元，用于确定视频信息，所述视频信息是从预设视频信息中选出去的，所述预设视频信息是对视频数据进行视频和音频分离后所得到的；

字幕内容确定单元，用于利用文本识别模型确定出所述视频信息中视频帧所展示的字幕内容，其中，所述文本识别模型为以上模型训练方法所得到的模型；

归类处理单元，用于至少基于字幕内容对所述视频信息中的视频帧进行归类处理，得到视频帧序列，其中，所述视频帧序列中各视频帧所展示的字幕内容相关联；

音频信息确定单元，用于确定所述视频帧序列所对应的时间信息，得到所述视频帧序列对应的字幕内容的时间信息，以从所述视频数据的音频信息中确定出与所述视频帧序列所对应的字幕内容相匹配的目标音频信息。

在一种实施方式中，还包括：视频片段生成单元，用于基于所述视频帧序列、所述视频帧序列对应的字幕内容、以及确定出的所述视频帧序列所对应的目标音频信息，生成视频片段；其中，所述视频片段中所述目标音频信息与所述视频片段所呈现的字幕内容相匹配。

在一种实施方式中，还包括：数据传输单元，还用于：

在一种实施方式中，所述视频信息确定单元，还用于：

获取视频数据，其中，所述视频数据中展示有字幕内容；

将分离得到的所述视频信息作为预设视频信息。

在一种实施方式中，所述字幕内容确定单元，还用于：

检测得到所述视频信息的视频帧中字幕内容所处位置；

在一种实施方式中，所述字幕内容确定单元，还用于：

获取文本检测模型；

第五方面，本申请实施例提供了一种模型训练设备，包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如以上所述的模型训练方法。

第六方面，本申请实施例提供了一种视频数据处理设备，包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行以上所述的视频数据处理方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的模型训练方法被执行，或者，上述各方面任一种实施方式中的视频数据处理方法被执行。

上述技术方案中的优点或有益效果至少包括：

利用本申请方案无需人工标注目标图像中的文本内容即可直接作为样本图像来进行模型训练，因此，与通过人工标注得到样本图像的方式相比，本申请方案能够大幅降低模型训练的成本，同时，也提升了模型训练效率。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1示出根据本申请一实施例的模型训练方法的流程图；

图2示出根据本申请一实施例的视频数据处理方法的流程图；

图3示出根据本申请一实施例的视频数据处理方法在一具体示例中的流程图；

图4示出根据本发明一实施例的模型训练装置的结构框图；

图5示出根据本发明一实施例的视频数据处理装置的结构框图；

图6示出根据本发明一实施例的视频数据处理设备或模型训练设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本申请一实施例的模型训练方法的流程图。如图1所示，该方法包括：

步骤S101：获取待处理图像，以及获取文本内容。

步骤S102：将所述待处理图像与所述文本内容进行图像合成处理后，得到展示有所述文本内容的目标图像。

步骤S103：至少将展示有所述文本内容的目标图像作为样本图像来对文本识别模型进行训练，以便利用训练完成后的文本识别模型对图像中文本内容进行识别。

这里，由于目标图像中的文本内容为已知内容，所以，可以直接将该文本内容作为输出结果来完成对文本识别模型的训练，如此，来提升文本识别的准确率。

这样，本申请方案所述的待处理图像为任意图像，文本内容也可以为任意已知内容，进而，将该待处理图像和文本内容进行图像合成后得到的目标图像来作为样本图像，此时，由于该文本内容为已知内容，所以，无需人工标注目标图像中的文本内容即可直接作为样本图像来进行模型训练，因此，与通过人工标注得到样本图像的方式相比，本申请方案能够大幅降低模型训练的成本，同时，也提升了模型训练效率。

在本申请方案的一具体示例中，可以对合成处理后得到的图像进行剪裁处理，将剪裁处理后得到的至少包含有所述文本内容的图像作为所述目标图像。也就是说，无需将合成后得到的全部图像作为目标图像，仅将合成后得到的图像中包含有所述文本内容的图像作为目标图像，如此，利用仅包含有所述文本内容的图像来进行模型训练，提升模型训练效率。

在本申请方案的一具体示例中，还可以通过如下方式得到待处理图像，即确定视频信息，所述视频信息是从预设视频信息中选出去的，所述预设视频信息是对视频数据进行视频和音频分离后所得到的；将所述视频信息中视频帧作为所述待处理图像。也就是说，所述待处理图像可以为任意视频数据中的视频帧，如此，简化了待处理图像的获取方式，即该待处理图像可以为互联网中任意图像，进而进一步为提升模型训练效率奠定了基础。

当然，实际应用中，所述待处理图像还可以为其他任意图像，本申请方案对此不作限制。

在本申请方案的一具体示例中，若视频帧中包含有字幕内容，此时，为了避免人工对字幕内容进行标注，可以将所述视频信息的视频帧中字幕内容进行剪裁处理，以去除掉字幕内容；将去除掉字幕内容的视频帧作为所述待处理图像。如此，来提升模型训练效率，进而，降低人工标注成本。

在本申请方案的一具体示例中，可以采用如下方式获取文本内容，具体地，从网络资源中获取文本信息，从所述文本信息中选取出文本句子作为所述文本内容。也就是说，本申请方案所述的文本内容可以为任意已知的内容，如此，简化了文本内容的获取方式，即该文本内容可以为互联网中任意文本内容，进而进一步为提升模型训练效率奠定了基础。

图2示出根据本申请一实施例的视频数据处理方法的流程图。如图2所示，该方法可以包括：

步骤S201：确定视频信息，所述视频信息是从预设视频信息中选出去的，所述预设视频信息是对视频数据进行视频和音频分离后所得到的。

这里，需要说明的是，该示例中所述的视频数据可以与模型训练方法所使用的视频数据不相关，即两者可以不同，也可以相同，本申请方案对此不作限制。

步骤S202：利用文本识别模型确定出所述视频信息中视频帧所展示的字幕内容，其中，所述文本识别模型为以上模型训练方法所得到的模型。

步骤S203：至少基于字幕内容对所述视频信息中的视频帧进行归类处理，得到视频帧序列，其中，所述视频帧序列中各视频帧所展示的字幕内容相关联。

步骤S204：确定所述视频帧序列所对应的时间信息，得到所述视频帧序列对应的字幕内容的时间信息，以从所述视频数据的音频信息中确定出与所述视频帧序列所对应的字幕内容相匹配的目标音频信息。

这里，本申请方案所述的视频数据可以为从互联网中收集到的任意带有字幕内容的视频数据，利用本申请方案能够从任意视频数据中确定出与视频帧序列对应的目标音频信息，且该目标音频信息与视频帧序列所呈现的字幕内容相匹配，该过程无需人工标注，提高了视频数据的处理效率。

而且，由于本申请方案能够高效的得到视频帧序列对应的目标音频信息，且该目标音频信息与视频帧序列所呈现的字幕内容相匹配，所以，为后续模型训练提供了训练数据，与通过人工标注得到训练数据的方式相比，本申请方案能够大幅降低训练数据的成本。

同时，由于利用了文本识别模型来进行字幕内容的识别，所以，提升了字幕内容的准确率，进而为提高后续视频数据的处理效率奠定了基础。

这里，在一具体示例中，对视频信息中的各视频帧进行归类处理，使字幕内容相同的视频帧归为一类，得到视频帧序列，该视频帧序列中各视频帧的字幕内容相同，且该视频帧序列按照视频信息所对应的时间顺序排列。

在本申请方案的一具体示例中，还可以基于所述视频帧序列、所述视频帧序列对应的字幕内容、以及确定出的所述视频帧序列所对应的目标音频信息，生成视频片段；其中，所述视频片段中所述目标音频信息与所述视频片段所呈现的字幕内容相匹配。如此，实现将任意视频数据切割成视频片段的目的，且得到的视频片段中视频帧所呈现的字幕内容与音频信息相匹配，便于为后续模型训练提供训练数据。

在本申请方案的一具体示例中，可以将所述视频帧序列，以及确定出的所述视频帧序列所对应的目标音频信息作为训练数据，进而至少将所述训练数据输入至预设模型，以利用所述训练数据的视频帧中人脸图像的关键点特征与所述目标音频信息的音频特征之间的对应关系对预设模型进行训练。

或者，在另一具体示例中，将基于所述视频帧序列和所述目标音频信息生成的视频片段作为训练数据，进而至少将所述训练数据输入至预设模型，以利用所述训练数据的视频帧中人脸图像的关键点特征与所述目标音频信息的音频特征之间的对应关系对预设模型进行训练。

这样，由于本申请方案能够高效的得到视频帧序列对应的目标音频信息，且该目标音频信息与视频帧序列所呈现的字幕内容相匹配，所以，与通过人工标注得到训练数据的方式相比，本申请方案能够大幅降低训练数据的成本。

在本申请方案的一具体示例中，可以采用如下方式得到预设视频信息，具体地，获取视频数据，其中，所述视频数据中展示有字幕内容；将所述视频数据中视频和音频进行分离处理，得到视频信息和音频信息；将分离得到的所述视频信息作为预设视频信息，如此，为后续进行视频数据的处理奠定了数据基础。

在本申请方案的一具体示例中，可以采用如下方式得到视频信息中视频帧所展示的字幕内容，具体地，检测得到所述视频信息的视频帧中字幕内容所处位置；至少将视频帧中字幕内容所处位置的图像输入至所述文本识别模型，得到所述视频信息中视频帧所展示的字幕内容，如此，一方面能够降低识别成本，避免不必要的识别处理任务，另一方面，也为精确识别出字幕内容奠定了基础，同时，为提升识别结果，也即字幕内容的准确率奠定了基础。

在本申请方案的一具体示例中，可以利用模型来得到所述视频信息的视频帧中字幕内容所处位置，具体地，获取文本检测模型；将所述视频信息的视频帧输入至所述文本检测模型，得到所述视频信息的视频帧中字幕内容所处位置。也就是说，可以先利用文本检测模型，得到所述视频信息的视频帧中字幕内容所处位置，然后，利用文本识别模型，得到所述视频帧所展示的字幕内容，如此，一方面能够降低识别成本，避免不必要的识别处理任务，另一方面，也能够有效提升识别出的字幕内容的准确率。

这样，利用本申请方案能够从任意视频数据中确定出与视频帧序列对应的目标音频信息，且该目标音频信息与视频帧序列所呈现的字幕内容相匹配，该过程无需人工标注，提高了视频数据的处理效率。

以下结合具体示例对本申请方案做进一步详细说明，具体地，如图3所示，

本申请方案目的在于提出一种将可微分二值化方法（DB，DifferentiableBinarization）和卷积循环神经网络（CRNN，Convolutional Recurrent Neural Networks）方法以及跨平台的通用库，如DLIB库提供的人脸检测、识别和匹配技术作用于电视剧、动画片和综艺节目等带字幕的视频中，进而得到大量用于音频驱动的特定人交谈脸视频生成模型所需要的训练数据，从而降低人工录制训练数据的成本。这里，所述音频驱动的特定人交谈脸视频生成模型（也即以上的预设模型），能够利用人脸图像中的关键点特征（如嘴型的关键点特征）与音频信息的音频特征之间的对应关系，得到特定人的演讲、聊天等交谈场景中的嘴型与音频（嘴型变化与音频变化）相匹配的视频数据。具体地，所述音频驱动的特定人交谈脸视频生成模型需要的训练数据包含两部分，第一个是大量音频信息及其对应的嘴型关键点坐标信息，第二个是大量除嘴唇外其他区域带掩膜的人脸图像及其对应的完整人脸图像，而这些信息均可以从特定人的带字幕的交谈视频中分离出来，因此只需要从电视剧、动画片和综艺节目等视频中收集得到特定的音频片段及其对应的视频片段即可得到训练上述模型所需的训练数据。

基于此，本申请方案的核心技术方案包括三部分，分别为：第一部分，利用DB模型（也即文本检测模型）和CRNN模型（也即文本识别模型）得到大量音频片段及其对应的视频片段，第二部分：使用DLIB库提供的人脸检测、识别和匹配模型，对每个视频片段进行处理，得到大量符合要求的特定视频片段及其对应的音频片段，第三部分，数据处理和整理，得到需要收集的训练数据。具体如下：

第一部分：

收集大量的带字幕内容的视频数据，包括电视剧、动画片和综艺节目等，接着随机选取少量视频数据，将每个视频数据按帧切分成图片，然后人工标注其字幕位置，利用人工标注后的图片训练DB模型，得到一个可检测图像上文本位置的文本检测模型。具体地，

随机选择大量视频数据，将每个视频数据按帧切分成图片，然后将每张图片的下半部分裁掉（即裁掉图片的文字部分或字幕部分），仅保留上半部分，接着从网络上爬取大量小说，将小说中随机选择的每个文本句子（字体、大小、内容随机变化）贴到上步保留的每个图片的上半部分的下沿（这里，针对每张裁剪后的图片，可随机生成多张文本句子、字体、大小不同的新合成的图片；且由于图片的平移不变性可知，文字部分切除后添加新的文字内容，对整个图片本身的识别度不会有太大影响）；然后，针对每张带新合成的文本句子的图片进行剪裁，将带文本句子的部分裁剪下来，作为CRNN模型的输入数据，由于文本句子为从网络中爬取到的，且为已知数据，所以可以将该已知数据作为输出数据，以训练CRNN模型，得到一个可识别图像上文本的文本内容的文本识别模型。这里，通过爬取小说，提取文本句子，再贴到图片上的方式来获得大量的样本数据，避免了针对每张图片进行人工标识，提升了模型训练效率。

将收集到的每个视频数据（即上述大量的带字幕视频数据，包括电视剧、动画片和综艺节目）按帧切分，送入DB模型，得到每帧图像上字幕位置；然后将图像上带字幕部分裁剪下来，送入CRNN模型进行文本识别，得到字幕内容；针对识别出的字幕内容，按时间顺序进行排列，并依次放入一个集合中；合并相同字幕内容，并记录合并的视频帧，然后根据每个视频数据的总帧数和总时长，得到每个文本句子的起始时间和结束时间，然后根据起始时间和结束时间，在视频数据对应的音频上截取音频片段，并按时间顺序，截取音频片段对应的视频片段，以将该视频片段作为训练数据；这里，实际应用中，如果收集的视频数据为中文视频，则爬取大量的中文小说；若收集的视频数据为英文视频，则爬取大量的英文小说。

第二部分：

使用DLIB库提供的人脸检测模型对第一部分得到的视频片段依次进行人脸检测，将每个视频片段中存在两个及以上人脸的视频删除，同时将同一个人人脸视频进行归类处理，如此，为后续得到音频驱动的特定人交谈脸视频生成模型的训练数据奠定了基础，避免了多个人脸对训练过程的干扰，同时，为提升模型的精确度奠定了基础。

第三部分：

使用DLIB库提供的人脸关键点检测模型，对第二部分得到的人脸视频中的每帧图像，提取人脸68个关键点，然后保留20个嘴唇关键点，音频片段与嘴唇关键点序列组成将音频信息转化为嘴型关键点信息的模型的训练数据，然后根据嘴唇关键点，为其对应人脸图像打上掩膜，并勾勒出唇线，得到嘴唇带掩膜人脸图像，嘴唇带掩膜人脸图像与其对应完整人脸图像组成生成式模型（也即音频驱动的特定人交谈脸视频生成模型）的训练数据集。

具体步骤如下：

第一步，通过互联网和网络爬虫收集大量带有字幕的视频数据；

第二步，将第一步收集到的每个视频数据中的音频信息和视频信息使用FFMPEG（Fast Forward Mpeg）工具分别提取出来；

第三步，从第二步得到的视频信息中随机选取少量视频信息，将每个视频信息按帧切分成图片；

第四步，对第三步得到的图片上的字幕位置进行人工标注；

第五步，使用第四步得到字幕位置被标注过的图片对DB模型进行训练，得到一个可以检测图片上文字位置的文本检测模型；

第六步，从第二步得到的视频信息中随机选取大量视频信息，将每个视频信息按帧切分成图片，与第三步类似；

第七步，使用opencv中自带的函数，将第六步得到的图片中的下半部分包含有字幕内容的裁剪掉，只保留每张图片的上半部分，且上半部分图片几乎不带字幕内容，称为同纹理结构图片；

第八步，通过互联网和网络爬虫在网络上爬取大量小说；

第九步，将第八步得到的小说的文本内容，如文本句子，使用opencv中自带的函数，贴在第七步得到的同纹理结构图片的下沿，文本句子的字体、颜色和大小在指定范围内随机变化，此步得到的图片称为贴字图片，该贴字图片的下半部分即为小说中的文本句子；

第十步，将第九步贴字图片中文本句子所在位置的图片裁剪下来，作为用于识别图片；利用该步骤得到的用于识别图片对CRNN模型进行训练。

这里，由于该用于识别图片中的文本句子是从网络中爬取到的，为已知内容，无需人工标注，所以，利用该用于识别图片对CRNN模型进行训练，能够避免人工标注，降低了人工成本。

第十一步，使用第十步得到的用于识别图片和该用于识别图片中的文本句子训练CRNN模型，得到一个可以对文本内容识别进行识别的文字识别模型。

以上，为对文本检测模型和文本识别模型的训练步骤，以得到训练完成后的文本检测模型和文本识别模型；实际应用中，上述两个模型在训练过程中的执行步骤并非为本申请所述的步骤，本申请所述的方案仅为以示例，并非用于限制具体的执行流程。以下步骤即为训练完成后的文本检测模型和文本识别模型的应用过程。

第十二步，继续使用第二步得到的视频数据中的各视频信息，并按帧切分成图片；以视频信息为单位，将每个视频信息切分得到的图片送入文本检测模型，得到视频信息中各图片对应的字幕位置信息；

这里，需要说明的是，实际应用中，模型训练过程中使用的视频数据和本步骤使用的视频数据不相关，即可以相同，也可以不相同。本示例为简单起见，继续使用第二步得到的视频数据进行后续处理。

第十三步，对第十二步得到的每个视频信息对应的各图片（已识别得到图片中的字幕位置，即包含有字幕位置信息）进行截取处理，截取出带字幕内容的图片，得到按时序（即视频信息中的时序）排列的图片序列。

第十四步，将第十三步得到的按时序排列的图片序列送入文字识别模型（也即对CRNN模型训练后得到的模型），识别字幕内容，得到图片序列中各图片对应的文本句子；

第十五步，按照每个视频信息的时间顺序（也即记录图片在整个视频中所处的位置），对第十四步得到的相同的文本句子进行合并，并记录同一个文本句子出现的次数；比如记录属于视频信息中每张图片属于该视频信息的第几张，然后，将字幕内容（也即文本句子，或句子）分别放入集合，即不同字幕内容放入不同集合中，然后合并相同字幕，并记录合并的图片的张数。

第十六步，根据第十五步的合并处理结果，结合对应视频信息的总时长和总帧数，得到文本句子出现的起始和结束时间点；比如，根据一个句子出现在多少张图片上，以及整个视频信息的总时长和总帧数，得到一个句子出现的起始和结束时间点。

第十七步，基于第十六步得到的一个视频信息中一个文本句子出现的起始和结束时间点，从第二步抽取的此视频信息对应的音频信息中进行截取操作，截取得到该文本句子出现的起始和结束时间点对应的目标音频信息，即得到文本句子和其对应的目标音频信息（也即音频片段）。

第十八步，根据第十六步得到的一个视频信息中一个文本句子出现的起始和结束时间点，从第二步抽取的视频信息中进行截取操作，截取得到该文本句子出现的起始和结束时间点对应的目标视频信息，即得到文本句子和其对应的目标视频信息（也即视频片段）。

综上，得到目标视频信息对应的文本句子（也即字幕内容），以及该目标视频信息对应的目标音频信息，进而生成视频片段，该视频片段中包含有含义字幕内容的视频信息，和与该视频信息和字幕内容相匹配的音频信息。

第十九步，使用DLIB库提供的人脸检测模型对第十八步得到的视频片段依次进行人脸检测，将每个视频片段中存在两个及以上人脸的视频删除，同时将同一个人人脸视频归到一起；

第二十步，使用DLIB库提供的人脸关键点检测模型，对第十九步得到的人脸视频中的每帧图像，提取人脸68个关键点，然后保留20个嘴唇关键点；

第二十一步，第十七步得到的音频片段与第二十步得到的嘴唇关键点序列组成将音频信息转化为嘴型关键点坐标信息的模型的训练数据；

第二十二步，根据第二十步嘴唇关键点坐标信息，为其对应人脸图像打上掩膜，并勾勒唇线，得到嘴唇带掩膜人脸图像，嘴唇带掩膜人脸图像与其对应完整人脸图像组成生成式模型的训练数据集。

第二十三步，第二十一步和第二十二步得到的数据集组成基于音频驱动的特定人交谈脸视频生成框架的训练数据。

图4示出根据本发明一实施例的模型训练装置的结构框图，如图4所示，该模型训练装置包括：

待处理图像获取单元401，用于获取待处理图像。

文本内容获取单元402，用于获取文本内容。

图像合成单元403，用于将所述待处理图像与所述文本内容进行图像合成处理后，得到展示有所述文本内容的目标图像。

模型训练单元404，用于至少将展示有所述文本内容的目标图像作为样本图像来对文本识别模型进行训练，以便利用训练完成后的文本识别模型对图像中文本内容进行识别。

在本申请方案的一具体示例中，所述图像合成单元，还用于对合成处理后得到的图像进行剪裁处理，将剪裁处理后得到的至少包含有所述文本内容的图像作为所述目标图像。

在本申请方案的一具体示例中，还包括：

在本申请方案的一具体示例中，所述待处理图像确定单元，还用于：

将去除掉字幕内容的视频帧作为所述待处理图像。

在本申请方案的一具体示例中，所述文本内容获取单元，还用于：

从网络资源中获取文本信息；

从所述文本信息中选取出文本句子作为所述文本内容。

本发明实施例各装置中的各模块的功能可以参见上述模型训练方法中的对应描述，在此不再赘述。

图5示出根据本发明一实施例的视频数据处理装置的结构框图。如图5所示，该装置可以包括：

视频信息确定单元501，用于确定视频信息，所述视频信息是从预设视频信息中选出去的，所述预设视频信息是对视频数据进行视频和音频分离后所得到的；

字幕内容确定单元502，用于利用文本识别模型确定出所述视频信息中视频帧所展示的字幕内容，其中，所述文本识别模型为权利要求1至5任一项方法所得到的模型；

归类处理单元503，用于至少基于字幕内容对所述视频信息中的视频帧进行归类处理，得到视频帧序列，其中，所述视频帧序列中各视频帧所展示的字幕内容相关联；

音频信息确定单元504，用于确定所述视频帧序列所对应的时间信息，得到所述视频帧序列对应的字幕内容的时间信息，以从所述视频数据的音频信息中确定出与所述视频帧序列所对应的字幕内容相匹配的目标音频信息。

在本申请方案的一具体示例中，还包括：视频片段生成单元，用于基于所述视频帧序列、所述视频帧序列对应的字幕内容、以及确定出的所述视频帧序列所对应的目标音频信息，生成视频片段；其中，所述视频片段中所述目标音频信息与所述视频片段所呈现的字幕内容相匹配。

在本申请方案的一具体示例中，还包括：数据传输单元，还用于：

在本申请方案的一具体示例中，所述视频信息确定单元，还用于：

获取视频数据，其中，所述视频数据中展示有字幕内容；

将分离得到的所述视频信息作为预设视频信息。

在本申请方案的一具体示例中，所述字幕内容确定单元，还用于：

检测得到所述视频信息的视频帧中字幕内容所处位置；

获取文本检测模型；

本发明实施例各装置中的各模块的功能可以参见上述视频数据处理方法中的对应描述，在此不再赘述。

图6示出根据本发明一实施例的视频数据处理设备（或模型训练设备）的结构框图。实际应用中，视频数据处理设备和模型训练设备的结构类似，为避免赘述，下属以目标设备来代表视频数据处理设备或模型训练设备，以此来对设备结构做进一步详细说明。具体地，如图6所示，该目标设备包括：存储器610和处理器620，存储器610内存储有可在处理器620上运行的计算机程序。处理器620执行该计算机程序时实现上述实施例中的视频数据处理方法或者模型处理方法。即当目标设备为视频数据处理设备，此时，处理器620执行该计算机程序时实现上述实施例中的视频数据处理方法；或者，当目标设备为模型训练设备，此时，处理器620执行该计算机程序时实现上述实施例中的模型训练方法。存储器610和处理器620的数量可以为一个或多个。

该设备还包括：

通信接口630，用于与外界设备进行通信，进行数据交互传输。

如果存储器610、处理器620和通信接口630独立实现，则存储器610、处理器620和通信接口630可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponentInterconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器610、处理器620及通信接口630集成在一块芯片上，则存储器610、处理器620及通信接口630可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的视频数据处理方法或者模型训练方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的视频数据处理方法或模型训练方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的视频数据处理方法或模型训练方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data dateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频数据处理方法，其特征在于，所述方法包括：

利用文本识别模型确定出所述视频信息中视频帧所展示的字幕内容；

确定所述视频帧序列所对应的时间信息，得到所述视频帧序列对应的字幕内容的时间信息，以从所述视频数据的音频信息中确定出与所述视频帧序列所对应的字幕内容相匹配的目标音频信息；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

获取视频数据，其中，所述视频数据中展示有字幕内容；

将分离得到的所述视频信息作为预设视频信息。

4.根据权利要求1所述的方法，其特征在于，所述利用文本识别模型确定出所述视频信息中视频帧所展示的字幕内容，包括：

检测得到所述视频信息的视频帧中字幕内容所处位置；

5.根据权利要求4所述的方法，其特征在于，所述检测得到所述视频信息的视频帧中字幕内容所处位置，包括：

获取文本检测模型；

6.根据权利要求1所述的方法，其特征在于，所述文本识别模型的训练步骤包括：

获取待处理图像，以及获取文本内容；

7.根据权利要求6所述的方法，其特征在于，所述得到展示有所述文本内容的目标图像，包括：

8.根据权利要求6或7所述的方法，其特征在于，还包括：

将所述视频信息中视频帧作为所述待处理图像。

9.根据权利要求8所述的方法，其特征在于，所述将所述视频信息中视频帧作为所述待处理图像，包括：

将去除掉字幕内容的视频帧作为所述待处理图像。

10.根据权利要求6所述的方法，其特征在于，所述获取文本内容，包括：

从网络资源中获取文本信息；

从所述文本信息中选取出文本句子作为所述文本内容。

11.一种视频数据处理装置，其特征在于，包括：

字幕内容确定单元，用于利用文本识别模型确定出所述视频信息中视频帧所展示的字幕内容；

音频信息确定单元，用于确定所述视频帧序列所对应的时间信息，得到所述视频帧序列对应的字幕内容的时间信息，以从所述视频数据的音频信息中确定出与所述视频帧序列所对应的字幕内容相匹配的目标音频信息；

数据传输单元，用于将所述视频帧序列，以及确定出的所述视频帧序列所对应的目标音频信息作为训练数据；或者，将基于所述视频帧序列和所述目标音频信息生成的视频片段作为训练数据；至少将所述训练数据输入至预设模型，以利用所述训练数据的视频帧中人脸图像的关键点特征与所述目标音频信息的音频特征之间的对应关系对预设模型进行训练。

12.根据权利要求11所述的装置，其特征在于，还包括：视频片段生成单元，用于基于所述视频帧序列、所述视频帧序列对应的字幕内容、以及确定出的所述视频帧序列所对应的目标音频信息，生成视频片段；其中，所述视频片段中所述目标音频信息与所述视频片段所呈现的字幕内容相匹配。

13.根据权利要求11所述的装置，其特征在于，所述视频信息确定单元，还用于：

获取视频数据，其中，所述视频数据中展示有字幕内容；

将分离得到的所述视频信息作为预设视频信息。

14.根据权利要求11所述的装置，其特征在于，所述字幕内容确定单元，还用于：

检测得到所述视频信息的视频帧中字幕内容所处位置；

15.根据权利要求14所述的装置，其特征在于，所述字幕内容确定单元，还用于：

获取文本检测模型；

16.根据权利要求11所述的装置，其特征在于，还包括：

待处理图像获取单元，用于获取待处理图像；

文本内容获取单元，用于获取文本内容；

17.根据权利要求16所述的装置，其特征在于，所述图像合成单元，还用于对合成处理后得到的图像进行剪裁处理，将剪裁处理后得到的至少包含有所述文本内容的图像作为所述目标图像。

18.根据权利要求16或17所述的装置，其特征在于，还包括：

19.根据权利要求18所述的装置，其特征在于，所述待处理图像确定单元，还用于：

将去除掉字幕内容的视频帧作为所述待处理图像。

20.根据权利要求16所述的装置，其特征在于，所述文本内容获取单元，还用于：

从网络资源中获取文本信息；

从所述文本信息中选取出文本句子作为所述文本内容。

21.一种视频数据处理设备，其特征在于，包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至10任一项所述的方法。

22.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的方法。