CN110197177B

CN110197177B - 提取视频字幕的方法、装置、计算机设备及存储介质

Info

Publication number: CN110197177B
Application number: CN201910324978.6A
Authority: CN
Inventors: 肖玉宾; 喻红
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2024-03-19
Anticipated expiration: 2039-04-22
Also published as: WO2020215696A1; CN110197177A

Abstract

本申请揭示了提取视频字幕的方法、装置、计算机设备及存储介质，其中，提取视频字幕的方法，包括：通过混合高斯模型算法获取视频的第二帧图片相比于第一帧图片的变化像素区域；判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域；若所述视频显示界面的预设区域范围内存在所述第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征；若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为所述字幕区域；从字幕区域中提取字幕文字。通过混合高斯模型算法确定第二帧图片相比于第一帧图片的变化像素区域，进而根据变化像素区域确定字幕区域，提高字幕提取的精准度。

Description

提取视频字幕的方法、装置、计算机设备及存储介质

技术领域

本申请涉及到计算机领域，特别是涉及到提取视频字幕的方法、装置、计算机设备及存储介质。

背景技术

目前自动语音识别技术的训练需要大量的标注数据，但是想要获取标注数据目前大多采用两类方法,一类方法是投入大量人力去录音，然后人工标注；另一类是将已有的录音进行人工的听写标注，标注数据的成本非常高，且标注的质量并不高。若将现有视频中的音频数据制成标注数据可大大节省成本，但音频数据制成标注数据是需要一一对应的文字内容对应，而目前市场上绝大多数的视频字幕都是与视频合成为一体，未对视频和字幕进行分离，现有通过文本定位的方式从视频图片中进行文本定位并提取字幕，识别过程复杂、识别效率较低。

发明内容

本申请的主要目的为提供提取视频字幕的方法，旨在解决现有从视频中直接获取到音频对应的字幕信息时过程复杂行且识别效率低的技术问题。

本申请提出一种提取视频字幕的方法，包括：

通过混合高斯模型算法获取视频的第二帧图片相比于第一帧图片的变化像素区域，其中所述第一帧图片和所述第二帧图片是所述视频中相邻的任意两帧图片，所述变化像素区域至少包括一个；

判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域，其中所述第一变化像素区域包含于所述变化像素区域；

若所述视频显示界面的预设区域范围内存在所述第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征；

若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为所述字幕区域；

从所述字幕区域中提取字幕文字。

优选地，所述判断所述第一变化像素区域是否满足预设字幕区特征的步骤，包括：

计算所述第一变化像素区域的宽高比，其中所述第一变化像素区域中沿所述视频时序播放方向为所述宽，垂直于所述宽的方向为所述高，所述宽高比为所述宽除以所述高；

判断所述宽高比是否大于预设阈值；

若所述宽高比大于预设阈值，则判定所述第一变化像素区域满足所述预设字幕区特征；

若所述宽高比不大于预设阈值，则判定所述第一变化像素区域不满足所述预设字幕区特征。

优选地，所述判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域的步骤之前，包括：

获取所述视频的视频宽和视频高，其中所述视频显示界面中沿所述视频时序播放方向为所述视频宽，垂直于所述视频宽的方向为所述视频高；

设定所述预设值等于第一预设值，设定靠近所述视频显示界面的底部边缘，占比第二预设值的区域范围为所述预设区域范围。

优选地，所述从所述字幕区域中提取字幕文字的步骤，包括：

将所述字幕区域从所述第二帧图片中切割分离；

将分离后的所述字幕区域通过图像文字识别算法识别出所述字幕文字；

将所述字幕文字复制到预设文件中；

通过预设格式标注所述字幕文字并存储。

优选地，所述预设格式至少包括所述视频的视频文件名和所述第二帧图片对应的帧索引，所述通过预设格式标注所述字幕文字并存储的步骤之后，包括：

根据所述视频的视频文件名和所述第二帧图片对应的帧索引，判断所述预设文件中是否存在与第一字幕文字具有相同标注信息的第二字幕文字，其中所述第一字幕文字和所述第二字幕文字，分别包含于所述预设文件中所有所述字幕文字中；

若所述预设文件中存在与第一字幕文字具有相同标注信息的第二字幕文字，则判断所述第一字幕文字和所述第二字幕文字的文字内容是否相同；

若所述第一字幕文字和所述第二字幕文字的文字内容相同，则删除所述所述第一字幕文字或所述第二字幕文字。

优选地，通过预设格式标注所述字幕文字并存储的步骤之后，还包括：

根据所述视频的视频文件名和所述第二帧图片的帧索引，判断所述预设文件中是否存在与第一帧索引对应的空字幕文件，其中所述第一帧索引包含于所述预设文件中所有帧索引中；

若存在，则将所述第一帧索引对应的帧图片，输入文本定位模型；

判断根据所述文本定位模型是否提取到所述第一帧索引对应的帧图片的指定字幕文字；

若提取到，则将所述指定字幕文字补充到所述预设文件中所述第一帧索引对应位置；

若未提取到，则在所述预设文件中所述第一帧索引对应位置标记为空字幕。

优选地，所述从所述字幕区域中提取字幕文字的步骤之后，包括：

获取所述第二字幕文字的起始时间和终止时间；

确定所述起始时间和终止时间范围内对应的第一音频文件；

将所述第一音频文件通过音频截取工具从所述视频对应的音频文件中截取分离；

将所述第二字幕文字与所述第一音频文件一一对应进行音频标注。

本申请还提供了一种提取视频字幕的装置，包括：

第一获取模块，用于通过混合高斯模型算法获取视频的第二帧图片相比于第一帧图片的变化像素区域，其中所述第一帧图片和所述第二帧图片是所述视频中相邻的任意两帧图片，所述变化像素区域至少包括一个；

第一判断模块，用于判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域，其中所述第一变化像素区域包含于所述变化像素区域；

第二判断模块，用于若所述视频显示界面的预设区域范围内存在第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征；

判定模块，用于若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为所述字幕区域；

提取模块，用于从所述字幕区域中提取字幕文字。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过将前一时间序列对应的第一帧图片，作为后一时间序列对应的第二帧图片的背景，以便通过混合高斯模型算法确定第二帧图片相比于第一帧图片的变化像素区域，进而根据变化像素区域确定字幕区域，以便从字幕区域中提取字幕文字，实现字幕文字与视频显示界面的分离，提高字幕提取的精准度。通过字幕区域特有的宽高比特征作为预设字幕区特征。上述预设阈值为获取到字幕的最小宽高比，上述最小宽高比r的设定值范围为r大于等于视频宽的三分之一。以防r设置得太大会造成视频的一个帧图片中，满足条件的字幕区域太少，容易漏选；r设置得太小会造成提取的字幕位置不准确，计算量增大，且使定位字幕区域的误差增大。本申请的预设区域范围内指视频显示界面中靠近所述视频显示界面的底部边缘，占比所述视频高的四分之一区域，与位于中部区域的视频宽的三分之一区域的交界区域，通过预先设定选择的预设区域范围可极大地降低数据处理量，有利于快速且准确的定位到字幕区域。本申请采用现有的音频分离工具将视频中的音频提取出来并保存，并将字幕文字与切割后的音频文件一一对应完成音频标注，上述标注数据可用于自动语音识别技术的训练时的样本数据，以降低现有人工标注数据的成本，且提高标注数据的质量。

附图说明

图1本申请一实施例的提取视频字幕的方法流程示意图；

图2本申请一实施例的提取视频字幕的装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本实施例的提取视频字幕的方法，包括：

S1：通过混合高斯模型算法获取视频的第二帧图片相比于第一帧图片的变化像素区域，其中所述第一帧图片和第二帧图片是所述视频中相邻的任意两帧图片，所述变化像素区域至少包括一个。

本实施例的混合高斯模型算法是多个单模型的组合，提高数据分配的合理性。本实施例中视频的每帧图片中的每个像素由多个单模型描述：P(p)＝{[w_i(x,y,t),u_i(x,y,t),σ_i(x,y,t)²]},i＝1,2,......,k，k的值为3到5，表示混合高斯模型中单模型的个数，w_i(x,y,t)表示每个单模型的权重，满足u_i(x,y,t)表示每个单模型的均值，σ_i(x,y,t)²表示每个单模型对应的方差，上述权重、均值和方差共同确定一个单模型。本实施例中通过将视频的图像序列中的相邻的第一帧图片和第二帧图片输入到混合高斯模型算法中，若第一帧图片和第二帧图片在(x,y)处的像素值对于i＝1,2,......,k满足I(x,y,t)-u_i(x,y,t)≤λ*σ_i(x,y,t)，则像素值与该单模型匹配，则判定该像素值为背景，若不存在与该像素值匹配的单模型，则为前景，即视频内容。本实施例通过将相邻且时间早于第二帧图片的第一帧图片，作为第二帧图片的背景，以便确定第二帧图片相比于第一帧图片的变化像素区域，上述变化像素区域为包括差异像素点的区域。

S2：判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域，其中所述第一变化像素区域包含于所述变化像素区域。

本实施例的预设区域范围包括现有字幕常设置的视频显示区域，比如，预设区域范围包括视频显示界面的底部区域的中间位置范围，可通过视频显示界面中的坐标数据，实现定位预设区域范围，以便提高获取字幕区域的精准性，降低数据处理过程中的计算量。本实施通过识别预设区域范围内存在的第一变化像素区域，初步确定可能存在字幕区域。

S3：若所述视频显示界面的预设区域范围内存在第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征。

本实施例通过将第一变化像素区域的特征与预设字幕区特征进行比较，以便通过预设字幕区特征确定第一变化像素区域是否为字幕区域，提高确定字幕区域的精准度。第一变化像素区域的特征与预设字幕区特征一致，或处于预设差异范围之内，则均认为第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为所述字幕区域，否则第一变化像素区域不是所述字幕区域。上述预设字幕区特征包括字幕区的高度值范围、字幕区的宽高比等。

S4：若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为所述字幕区域。

本实施例的视频中第二帧图片相比于第一帧图片的变化像素区域中，包括字幕区域的变化、视频图像变化等，比如不同帧图像对应不同的字幕内容。本实施例的预设规则遵循现有视频中字幕区域的设置特点进行设定。比如现有字幕区域多设置于视频显示界面的底部区域中间位置，且常以宽条状形态存在。本实施例首先通过混合高斯模型算法获取各帧图片对应的变化像素区域，然后再从变化像素区域中确定字幕区域，进而实现对字幕区域的字幕文字的提取，可快速从视频文件中准确提取相对应的字幕文字，以便将字幕文字进行二次处理，比如标注音频、优化显示过程甚至制作文本训练样本等。上述字幕区域为字幕文字的图像映射区域，根据不同的文字对应的映射像素不同，进而区别不同字幕文字的字幕区域。

S5：从所述字幕区域中提取字幕文字。

本实施例通过图片中文字识别技术，从所述字幕区域中提取字幕文字，实现字幕文字与视频显示界面的分离。以便对字幕文字实现进一步的优化处理。包括优化字幕文字的显示方式，比如设置为3D显示状态、改变字幕文字的显示颜色，优化字幕文字的动画显示效果等，扩大字幕文字的使用范围。

进一步地，所述判断所述第一变化像素区域是否满足预设字幕区特征的步骤S3，包括：

S31：计算所述第一变化像素区域的宽高比，其中所述第一变化像素区域中沿所述视频时序播放方向为所述宽，垂直于所述宽的方向为所述高，所述宽高比为所述宽除以所述高。

S32：判断所述宽高比是否大于预设阈值。

S33：若所述宽高比大于预设阈值，则判定所述第一变化像素区域满足所述预设字幕区特征。

S34：若所述宽高比不大于预设阈值，则判定所述第一变化像素区域不满足所述预设字幕区特征。

本实施例通过字幕区域特有的宽高比特征作为预设字幕区特征。上述预设阈值为获取到字幕的最小宽高比，上述最小宽高比r的设定值范围为r大于等于视频宽的三分之一。以防r设置得太大会造成视频的一个帧图片中，满足条件的字幕区域太少，容易漏选；r设置得太小会造成提取的字幕位置不准确，计算量增大，且使定位字幕区域的误差增大。

进一步地，所述判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域的步骤S2之前，包括：

S20a：获取所述视频的视频宽和视频高，其中所述视频显示界面中沿所述视频时序播放方向为所述视频宽，垂直于所述视频宽的方向为所述视频高。

S20b：设定所述预设值等于第一预设值，设定靠近所述视频显示界面的底部边缘，占比第二预设值的区域范围为所述预设区域范围。

本实施例的预设区域范围内指视频显示界面中靠近所述视频显示界面的底部边缘，占比所述视频高的四分之一区域，与位于中部区域的视频宽的三分之一区域的交界区域，即上述第一预设值为所述视频宽的三分之一，第二预设值为所述视频高的四分之一。通过预先设定选择的预设区域范围可极大地降低数据处理量，有利于快速且准确的定位到字幕区域。

进一步地，所述从所述字幕区域中提取字幕文字的步骤S5，包括：

S51：将所述字幕区域从所述第二帧图片中切割分离。

S52：将分离后的所述字幕区域通过图像文字识别算法识别出所述字幕文字。

S53：将所述字幕文字复制到预设文件中。

S54：通过预设格式标注所述字幕文字并存储。

本实施例通过将字幕区域从第二帧图片中切割分离，进行单独存储，以便精准地处理字幕区域。通过将按照视频时序依次获得的各帧图片中的字幕区域按照顺序依次输入到OCR(optical character recognition)文字识别模型中进行文字识别。OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将字符形状翻译成计算机文字的过程；通过对字幕区域对应的文本资料进行扫描，然后对字幕区域对应的图像文件进行分析处理，获取文字及版面信息的过程。本实施例的预设格式包括视频的视频文件名、第二帧图片的帧索引、字幕的文字内容、视频总帧数及视频宽高尺寸等。上述预设文本为按照字幕所在帧图片的时序，依次存储的字幕文字内容。

进一步地，所述预设格式至少包括所述视频的视频文件名和第二帧图片对应的帧索引，所述通过预设格式标注所述字幕文字并存储的步骤S54之后，包括：

S55：根据所述视频的视频文件名和所述第二帧图片对应的帧索引，判断所述预设文件中是否存在与第一字幕文字具有相同标注信息的第二字幕文字，其中所述第一字幕文字和所述第二字幕文字，分别包含于所述预设文件中所有所述字幕文字。

S56：若所述预设文件中存在与第一字幕文字具有相同标注信息的第二字幕文字，则判断所述第一字幕文字和所述第二字幕文字的文字内容是否相同。

S57：若所述第一字幕文字和所述第二字幕文字的文字内容相同，则删除所述所述第一字幕文字或所述第二字幕文字。

本实施例的视频文件名为当前视频的文件名，比如AVI.123等等；上述帧索引指帧图片处于所有帧中的排序，比如按照时序位于第三帧的图片。本实施例通过标注格式中标注内容，包括视频的视频文件名和所述第二帧图片的帧索引，初步判断是否出现重复字幕文字，若标注内容不同，则第一字幕文字和第二字幕文字的文字内容不相同；若标注内容相同，再判断具体的文字内容是否相同，若不相同，则第一字幕文字和第二字幕文字的文字内容不相同。通过逐步判断的方式，以便通过标注信息初步判断字幕文字是否相同，以便节省重复调用字符识别方法将字符形状翻译成计算机文字的过程，以节省流程，加快响应效率。本实施例通过识别变化像素区域，避免了连续多帧图片具有相同字幕时重复提取字幕文字的情况，且通过上述的逐步判断方式剔除由于视频背景干扰，而导致重复提取的字幕文字，以净化预设文件中的字幕文字。

进一步地，从所述字幕区域中提取字幕文字的步骤S5之后，包括：

S6：获取所述第二字幕文字的起始时间和终止时间。

S7：确定所述起始时间和终止时间范围内对应的第一音频文件。

S8：将所述第一音频文件通过音频截取工具从所述视频对应的音频文件中截取分离。

S9：将所述第二字幕文字与所述第一音频文件一一对应进行音频标注。

本实施例通过遍历视频中所有的变化像素区域a1,a2,a3,…an，计算各变化像素区域的宽高比(w/h)是否大于设定r，如果大于设定r，则从当前帧的图片中切割对应的字幕区域，并将当前帧的帧索引换算成对应的时间[帧索引*(1/视频帧率)就得到当前帧在视频中的时间位置]，并缓存该时间点的字幕区域，将本次缓存的字幕区域与上一时序缓存的字幕区域进行像素对比，差异小于预设阈值时，则上一次缓存的时间位置与当前新的缓存时间位置作为上一时序对应帧的字幕区域的时间间隔，并将时间间隔与上一时序对应帧的字幕区域的字幕文字关联保存。本实施例采用现有的音频分离工具将视频中的音频提取出来并保存，并将字幕文字与切割后的音频文件一一对应完成音频标注，上述标注数据可用于自动语音识别技术的训练时的样本数据，以降低现有人工标注数据的成本，且提高标注数据的质量。

进一步地，所述通过预设格式标注所述字幕文字并存储的步骤S54之后，还包括：

S541：根据所述视频的视频文件名和所述第二帧图片的帧索引，判断所述预设文件中是否存在与第一帧索引对应的空字幕文件，其中所述第一帧索引包含于所述预设文件中所有帧索引中；

S542：若存在，则将所述第一帧索引对应的帧图片，输入文本定位模型；

S543：判断根据所述文本定位模型是否提取到所述第一帧索引对应的帧图片的指定字幕文字；

S544：若提取到，则将所述指定字幕文字补充到所述预设文件中所述第一帧索引对应位置；

S545：若未提取到，则在所述预设文件中所述第一帧索引对应位置标记为空字幕。

本实施例通过帧索引与字幕文字的对应关系，查找遗漏提取的字幕文字，以保证整个视频文件中的字幕文字的完整性。当查找到第一帧索引对应空字幕文件，即无对应的字幕文字与其相对应，则判定存在遗漏提取，则将第一帧索引对应的帧图片，输入文本定位模型，以根据文本定位模型进行字幕文字定位与提取。上述文本定位模型为CTPN，CTPN结合CNN与LSTM深度网络，CTPN是从Faster R-CNN改进而来，能有效的检测出复杂场景的横向分布的文字，比如识别视频图片中的文字，虽然识别过程复杂、识别效率较低，但识别精度高，可有效补充通过混合高斯模型算法遗漏的字幕区域，提高整个视频文件中的字幕文字的完整性。

本实施例通过将前一时间序列对应的第一帧图片，作为后一时间序列对应的第二帧图片的背景，以便通过混合高斯模型算法确定第二帧图片相比于第一帧图片的变化像素区域，进而根据变化像素区域确定字幕区域，以便从字幕区域中提取字幕文字，实现字幕文字与视频显示界面的分离，提高字幕提取的精准度。通过字幕区域特有的宽高比特征作为预设字幕区特征。上述预设阈值为获取到字幕的最小宽高比，上述最小宽高比r的设定值范围为r大于等于视频宽的三分之一。以防r设置得太大会造成视频的一个帧图片中，满足条件的字幕区域太少，容易漏选；r设置得太小会造成提取的字幕位置不准确，计算量增大，且使定位字幕区域的误差增大。本实施例的预设区域范围内指视频显示界面中靠近所述视频显示界面的底部边缘，占比所述视频高的四分之一区域，与位于中部区域的视频宽的三分之一区域的交界区域，通过预先设定选择的预设区域范围可极大地降低数据处理量，有利于快速且准确的定位到字幕区域。本实施例采用现有的音频分离工具将视频中的音频提取出来并保存，并将字幕文字与切割后的音频文件一一对应完成音频标注，上述标注数据可用于自动语音识别技术的训练时的样本数据，以降低现有人工标注数据的成本，且提高标注数据的质量。

参照图2，本实施例的提取视频字幕的装置，包括：

第一获取模块1，用于通过混合高斯模型算法获取视频的第二帧图片相比于第一帧图片的变化像素区域，其中所述第一帧图片和第二帧图片是所述视频中相邻的任意两帧图片，所述变化像素区域至少包括一个。

第一判断模块2，用于判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域，其中所述第一变化像素区域包含于所述变化像素区域。

第二判断模块3，用于若所述视频显示界面的预设区域范围内存在第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征。

判定模块4，用于若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为所述字幕区域。

提取模块5，用于从所述字幕区域中提取字幕文字。

进一步地，所述第二判断模块，包括：

计算单元，用于计算所述第一变化像素区域的宽高比，其中所述第一变化像素区域中沿所述视频时序播放方向为所述宽，垂直于所述宽的方向为所述高，所述宽高比为所述宽除以所述高。

第一判断单元，用于判断所述宽高比是否大于预设阈值。

第一判定单元，用于若所述宽高比大于预设阈值，则判定所述第一变化像素区域满足所述预设字幕区特征。

第二判定单元，用于若所述宽高比不大于预设阈值，则判定所述第一变化像素区域不满足所述预设字幕区特征。

进一步地，提取视频字幕的装置，包括：

第二获取模块，用于获取所述视频的视频宽和视频高，其中所述视频显示界面中沿所述视频时序播放方向为所述视频宽，垂直于所述视频宽的方向为所述视频高。

设定模块，用于设定所述预设值等于第一预设值，设定靠近所述视频显示界面的底部边缘，占比第二预设值的区域范围为所述预设区域范围。

进一步地，所述提取模块5，包括：

分离单元，用于将所述字幕区域从所述第二帧图片中切割分离。

识别单元，用于将分离后的所述字幕区域通过图像文字识别算法识别出所述字幕文字。

赋值单元，用于将所述字幕文字复制到预设文件中。

标注单元，用于通过预设格式标注所述字幕文字并存储。

进一步地，所述预设格式至少包括所述视频的视频文件名和第二帧图片对应的帧索引，所述提取模块5，包括：

第二判断单元，用于根据所述视频的视频文件名和所述第二帧图片对应的帧索引，判断所述预设文件中是否存在与第一字幕文字具有相同标注信息的第二字幕文字，其中所述第一字幕文字和所述第二字幕文字，分别包含于所述预设文件中所有所述字幕文字。

第三判断单元，用于若所述预设文件中存在与第一字幕文字具有相同标注信息的第二字幕文字，则判断所述第一字幕文字和所述第二字幕文字的文字内容是否相同。

删除单元，用于若所述第一字幕文字和所述第二字幕文字的文字内容相同，则删除所述所述第一字幕文字或所述第二字幕文字。

进一步地，本申请另一实施例的提取视频字幕的装置，包括：

第三获取模块，用于获取所述第二字幕文字的起始时间和终止时间。

确定模块，用于确定所述起始时间和终止时间范围内对应的第一音频文件。

截取模块，用于将所述第一音频文件通过音频截取工具从所述视频对应的音频文件中截取分离。

标注模块，用于将所述第二字幕文字与所述第一音频文件一一对应进行音频标注。

进一步地，所述提取模块5，还包括：

第四判断单元，用于根据所述视频的视频文件名和所述第二帧图片的帧索引，判断所述预设文件中是否存在与第一帧索引对应的空字幕文件，其中所述第一帧索引包含于所述预设文件中所有帧索引中；

输入单元，用于所述预设文件中存在与第一帧索引对应的空字幕文件，则将所述第一帧索引对应的帧图片，输入文本定位模型；

第五判断单元，用于判断根据所述文本定位模型是否提取到所述第一帧索引对应的帧图片的指定字幕文字；

补充单元，用于若根据所述文本定位模型提取到所述第一帧索引对应的帧图片的指定字幕文字，则将所述指定字幕文字补充到所述预设文件中所述第一帧索引对应位置；

标记单元，用于若根据所述文本定位模型未提取到所述第一帧索引对应的帧图片的指定字幕文字，则在所述预设文件中所述第一帧索引对应位置标记为空字幕。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储提取视频字幕的过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现提取视频字幕的方法。

上述处理器执行上述提取视频字幕的方法，包括：通过混合高斯模型算法获取视频的第二帧图片相比于第一帧图片的变化像素区域，其中所述第一帧图片和所述第二帧图片是所述视频中相邻的任意两帧图片，所述变化像素区域至少包括一个；判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域，其中所述第一变化像素区域包含于所述变化像素区域；若所述视频显示界面的预设区域范围内存在所述第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征；若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为所述字幕区域；从所述字幕区域中提取字幕文字。

上述计算机设备，通过将前一时间序列对应的第一帧图片，作为后一时间序列对应的第二帧图片的背景，以便通过混合高斯模型算法确定第二帧图片相比于第一帧图片的变化像素区域，进而根据变化像素区域确定字幕区域，以便从字幕区域中提取字幕文字，实现字幕文字与视频显示界面的分离，提高字幕提取的精准度。通过字幕区域特有的宽高比特征作为预设字幕区特征。上述预设阈值为获取到字幕的最小宽高比，上述最小宽高比r的设定值范围为r大于等于视频宽的三分之一。以防r设置得太大会造成视频的一个帧图片中，满足条件的字幕区域太少，容易漏选；r设置得太小会造成提取的字幕位置不准确，计算量增大，且使定位字幕区域的误差增大。上述预设区域范围内指视频显示界面中靠近所述视频显示界面的底部边缘，占比所述视频高的四分之一区域，与位于中部区域的视频宽的三分之一区域的交界区域，通过预先设定选择的预设区域范围可极大地降低数据处理量，有利于快速且准确的定位到字幕区域。采用现有的音频分离工具将视频中的音频提取出来并保存，并将字幕文字与切割后的音频文件一一对应完成音频标注，上述标注数据可用于自动语音识别技术的训练时的样本数据，以降低现有人工标注数据的成本，且提高标注数据的质量。

在一个实施例中，上述处理器判断所述第一变化像素区域是否满足预设字幕区特征的步骤，包括：计算所述第一变化像素区域的宽高比，其中所述第一变化像素区域中沿所述视频时序播放方向为所述宽，垂直于所述宽的方向为所述高，所述宽高比为所述宽除以所述高；判断所述宽高比是否大于预设阈值；若所述宽高比大于预设阈值，则判定所述第一变化像素区域满足所述预设字幕区特征；若所述宽高比不大于预设阈值，则判定所述第一变化像素区域不满足所述预设字幕区特征。

在一个实施例中，上述处理器判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域的步骤之前，包括：获取所述视频的视频宽和视频高，其中所述视频显示界面中沿所述视频时序播放方向为所述视频宽，垂直于所述视频宽的方向为所述视频高；设定所述预设值等于第一预设值，设定靠近所述视频显示界面的底部边缘，占比第二预设值的区域范围为所述预设区域范围。

在一个实施例中，上述处理器从所述字幕区域中提取字幕文字的步骤，包括：将所述字幕区域从所述第二帧图片中切割分离；将分离后的所述字幕区域通过图像文字识别算法识别出所述字幕文字；将所述字幕文字复制到预设文件中；通过预设格式标注所述字幕文字并存储。

在一个实施例中，所述预设格式至少包括所述视频的视频文件名和所述第二帧图片对应的帧索引，上述处理器通过预设格式标注所述字幕文字并存储的步骤之后，包括：根据所述视频的视频文件名和所述第二帧图片对应的帧索引，判断所述预设文件中是否存在与第一字幕文字具有相同标注信息的第二字幕文字，其中所述第一字幕文字和所述第二字幕文字，分别包含于所述预设文件中所有所述字幕文字中；若所述预设文件中存在与第一字幕文字具有相同标注信息的第二字幕文字，则判断所述第一字幕文字和所述第二字幕文字的文字内容是否相同；若所述第一字幕文字和所述第二字幕文字的文字内容相同，则删除所述所述第一字幕文字或所述第二字幕文字。

在一个实施例中，上述处理器通过预设格式标注所述字幕文字并存储的步骤之后，还包括：根据所述视频的视频文件名和所述第二帧图片的帧索引，判断所述预设文件中是否存在与第一帧索引对应的空字幕文件，其中所述第一帧索引包含于所述预设文件中所有帧索引中；若存在，则将所述第一帧索引对应的帧图片，输入文本定位模型；判断根据所述文本定位模型是否提取到所述第一帧索引对应的帧图片的指定字幕文字；若提取到，则将所述指定字幕文字补充到所述预设文件中所述第一帧索引对应位置；若未提取到，则在所述预设文件中所述第一帧索引对应位置标记为空字幕。

在一个实施例中，上述处理器从所述字幕区域中提取字幕文字的步骤之后，包括：获取所述第二字幕文字的起始时间和终止时间；确定所述起始时间和终止时间范围内对应的第一音频文件；将所述第一音频文件通过音频截取工具从所述视频对应的音频文件中截取分离；将所述第二字幕文字与所述第一音频文件一一对应进行音频标注。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现提取视频字幕的方法，包括：通过混合高斯模型算法获取视频的第二帧图片相比于第一帧图片的变化像素区域，其中所述第一帧图片和所述第二帧图片是所述视频中相邻的任意两帧图片，所述变化像素区域至少包括一个；判断所述视频显示界面的预设区域范围内是否存在第一变化像素区域，其中所述第一变化像素区域包含于所述变化像素区域；若所述视频显示界面的预设区域范围内存在所述第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征；若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为所述字幕区域；从所述字幕区域中提取字幕文字。

上述计算机可读存储介质，通过将前一时间序列对应的第一帧图片，作为后一时间序列对应的第二帧图片的背景，以便通过混合高斯模型算法确定第二帧图片相比于第一帧图片的变化像素区域，进而根据变化像素区域确定字幕区域，以便从字幕区域中提取字幕文字，实现字幕文字与视频显示界面的分离，提高字幕提取的精准度。通过字幕区域特有的宽高比特征作为预设字幕区特征。上述预设阈值为获取到字幕的最小宽高比，上述最小宽高比r的设定值范围为r大于等于视频宽的三分之一。以防r设置得太大会造成视频的一个帧图片中，满足条件的字幕区域太少，容易漏选；r设置得太小会造成提取的字幕位置不准确，计算量增大，且使定位字幕区域的误差增大。上述预设区域范围内指视频显示界面中靠近所述视频显示界面的底部边缘，占比所述视频高的四分之一区域，与位于中部区域的视频宽的三分之一区域的交界区域，通过预先设定选择的预设区域范围可极大地降低数据处理量，有利于快速且准确的定位到字幕区域。采用现有的音频分离工具将视频中的音频提取出来并保存，并将字幕文字与切割后的音频文件一一对应完成音频标注，上述标注数据可用于自动语音识别技术的训练时的样本数据，以降低现有人工标注数据的成本，且提高标注数据的质量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种提取视频字幕的方法，其特征在于，包括：

判断所述视频的显示界面的预设区域范围内是否存在第一变化像素区域，其中所述第一变化像素区域包含于所述变化像素区域；

若所述视频的显示界面的预设区域范围内存在所述第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征；

若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为字幕区域；

从所述字幕区域中提取字幕文字；

所述从所述字幕区域中提取字幕文字的步骤，包括：

将所述字幕区域从所述第二帧图片中切割分离；

将所述字幕文字复制到预设文件中；

通过预设格式标注所述字幕文字并存储；所述预设格式包括视频的视频文件名、第二帧图片的帧索引、字幕的文字内容、视频总帧数及视频宽高尺寸，所述字幕文字为按照字幕所在帧图片的时序，依次存储的字幕文字内容；

所述预设格式至少包括所述视频的视频文件名和所述第二帧图片对应的帧索引，所述通过预设格式标注所述字幕文字并存储的步骤之后，包括：

若所述第一字幕文字和所述第二字幕文字的文字内容相同，则删除所述第一字幕文字或所述第二字幕文字。

2.根据权利要求1所述的提取视频字幕的方法，其特征在于，所述判断所述第一变化像素区域是否满足预设字幕区特征的步骤，包括：

计算所述第一变化像素区域的宽高比，其中所述第一变化像素区域中沿所述视频的时序播放方向为所述宽，垂直于所述宽的方向为所述高，所述宽高比为所述宽除以所述高；

判断所述宽高比是否大于预设阈值；

3.根据权利要求2所述的提取视频字幕的方法，其特征在于，所述判断所述视频的显示界面的预设区域范围内是否存在第一变化像素区域的步骤之前，包括：

获取所述视频的视频宽和视频高，其中所述视频的显示界面中沿所述视频的时序播放方向为所述视频宽，垂直于所述视频宽的方向为所述视频高；

设定所述预设阈值等于第一预设值，设定靠近所述视频的显示界面的底部，占比第二预设值的区域范围为所述预设区域范围。

4.根据权利要求1所述的提取视频字幕的方法，其特征在于，所述通过预设格式标注所述字幕文字并存储的步骤之后，还包括：

5.根据权利要求1所述的提取视频字幕的方法，其特征在于，所述从所述字幕区域中提取字幕文字的步骤之后，包括：

获取所述第二字幕文字的起始时间和终止时间；

确定所述起始时间和终止时间范围内对应的第一音频文件；

6.一种提取视频字幕的装置，其特征在于，包括：

第一判断模块，用于判断所述视频的显示界面的预设区域范围内是否存在第一变化像素区域，其中所述第一变化像素区域包含于所述变化像素区域；

第二判断模块，用于若所述视频的显示界面的预设区域范围内存在第一变化像素区域，则判断所述第一变化像素区域是否满足预设字幕区特征；

判定模块，用于若所述第一变化像素区域满足预设字幕区特征，则判定所述第一变化像素区域为字幕区域；

提取模块，用于从所述字幕区域中提取字幕文字；

所述提取模块，包括：

分离单元，用于将所述字幕区域从所述第二帧图片中切割分离；

识别单元，用于将分离后的所述字幕区域通过图像文字识别算法识别出所述字幕文字；

复制单元，用于将所述字幕文字复制到预设文件中；

标注单元，用于通过预设格式标注所述字幕文字并存储；所述预设格式包括视频的视频文件名、第二帧图片的帧索引、字幕的文字内容、视频总帧数及视频宽高尺寸，所述字幕文字为按照字幕所在帧图片的时序，依次存储的字幕文字内容；

所述预设格式至少包括所述视频的视频文件名和第二帧图片对应的帧索引，所述提取模块，包括：

第二判断单元，用于根据所述视频的视频文件名和所述第二帧图片对应的帧索引，判断所述预设文件中是否存在与第一字幕文字具有相同标注信息的第二字幕文字，其中所述第一字幕文字和所述第二字幕文字，分别包含于所述预设文件中所有所述字幕文字；

第三判断单元，用于若所述预设文件中存在与第一字幕文字具有相同标注信息的第二字幕文字，则判断所述第一字幕文字和所述第二字幕文字的文字内容是否相同；

删除单元，用于若所述第一字幕文字和所述第二字幕文字的文字内容相同，则删除所述第一字幕文字或所述第二字幕文字。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。