CN109918987B

CN109918987B - 一种视频字幕关键词识别方法及装置

Info

Publication number: CN109918987B
Application number: CN201811642015.2A
Authority: CN
Inventors: 熊荔; 张峰; 王子玮
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-05-14
Anticipated expiration: 2038-12-29
Also published as: CN109918987A

Abstract

本发明公开一种视频字幕关键词识别方法及装置，该方法包括：从视频数据中提取视频关键帧；获取视频关键帧对应的文本行图像；识别文本行图像中包括的所有文字字符；根据预设的关键词库，从所有文字字符中提取关键词。本发明从视频数据中提取了视频关键帧，基于深度神经网络对视频关键帧进行处理，去除视频复杂背景中的噪声影响，从视频关键帧中获取对应的文本行图像，基于文本行图像实现视频复杂背景中的文字检测、识别及关键词提取，提高了视频字幕识别及关键词提取的效率及准确性。

Description

一种视频字幕关键词识别方法及装置

技术领域

本发明属于图像识别技术领域，具体涉及一种视频字幕关键词识别方法及装置。

背景技术

文字包含着丰富准确的语义信息，可传达人类的思想和情感。文字识别是智能视觉识别技术中的一个重要技术，在很多领域得到了广泛地研究及应用。其中，视频字幕识别就是文字识别技术在视频数据处理领域的应用。

目前，相关技术中提供了一种视频字幕识别的方法，从视频帧中分割出文字图像区域，从文字图像区域中分离出单个文字，识别单个文字，将识别出的多个单个文字连接起来。

但上述相关技术需要切割单个文字进行识别，识别效率很低。

发明内容

为解决上述问题，本发明提供一种视频字幕关键词识别方法及装置，基于深度神经网络对视频关键帧进行处理，去除视频复杂背景中的噪声影响，提高了视频字幕识别及关键词提取的效率及准确性。本发明通过以下几个方面来解决以上问题：

第一方面，本发明实施例提供了一种视频字幕关键词识别方法，所述方法包括：

从视频数据中提取视频关键帧；

获取所述视频关键帧对应的文本行图像；

识别所述文本行图像中包括的所有文字字符；

根据预设的关键词库，从所述所有文字字符中提取关键词。

结合第一方面，本发明实施例提供了上述第一方面的第一种可能的实现方式，其中，所述从视频数据中提取视频关键帧，包括：

每隔预设时长从所述视频数据中提取一帧图像；

将提取的当前帧图像与上一帧图像进行灰度值差值运算，得到所述当前帧图像对应的差值矩阵；

根据所述差值矩阵包括的非零像素值，计算判定阈值；

根据所述差值矩阵及所述判定阈值，确定所述当前帧图像是否为视频关键帧。

结合第一方面的第一种可能的实现方式，本发明实施例提供了上述第一方面的第二种可能的实现方式，其中，所述根据所述差值矩阵包括的非零像素值，计算判定阈值，包括：

计算所述差值矩阵包括的所有非零像素值的平均值及方差；

确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量，及像素值大于所述方差的非零像素值的第二数量；

根据所述第一数量和所述第二数量，计算判定阈值。

结合第一方面的第一种可能的实现方式，本发明实施例提供了上述第一方面的第三种可能的实现方式，其中，所述根据所述差值矩阵及所述判定阈值，确定所述当前帧图像是否为视频关键帧，包括：

统计所述差值矩阵包括的非零像素值的数量；

若所述非零像素值的数量大于所述判定阈值，则将所述当前帧图像确定为视频关键帧。

结合第一方面，本发明实施例提供了上述第一方面的第四种可能的实现方式，其中，所述获取所述视频关键帧对应的文本行图像，包括：

通过预设的卷积神经网络对所述视频关键帧进行特征提取，得到所述视频关键帧对应的特征图；

识别所述特征图中包括的各个文本框；

根据所述各个文本框，获取所述视频关键帧对应的文本行图像。

结合第一方面的第四种可能的实现方式，本发明实施例提供了上述第一方面的第五种可能的实现方式，其中，所述识别所述特征图中包括的各个文本框，包括：

通过预设尺寸的滑动窗对所述特征图进行滑动检测，得到每个所述滑动窗对应的多个文本框的坐标；

对每个所述滑动窗对应的所述多个文本框的坐标进行过滤，得到每个所述滑动窗对应的文本框。

结合第一方面的第四种可能的实现方式，本发明实施例提供了上述第一方面的第六种可能的实现方式，其中，所述根据所述各个文本框，获取所述视频关键帧对应的文本行图像，包括：

将所述各个文本框合并为文本行；

通过区域特征提取MSER分水岭算法对所述文本行进行文字分割，得到所述文本行包括的每个文字区域的坐标；

根据所述每个文字区域的坐标，从所述文本行中去除长宽比大于预设比值的文字区域；

从所述特征图中截取所述文本行对应的文本行图像。

结合第一方面，本发明实施例提供了上述第一方面的第七种可能的实现方式，其中，所述识别所述文本行图像中包括的所有文字字符，包括：

获取所述文本行图像对应的卷积特征矩阵；

通过双向长短期记忆网络LSTM的循环神经网络对所述卷积特征矩阵进行类别预测；

将预测结果转化为文字字符。

结合第一方面，本发明实施例提供了上述第一方面的第八种可能的实现方式，其中，所述根据预设的关键词库，从所述所有文字字符中提取关键词，包括：

计算第一文字字符对应的第一转码序列，所述第一文字字符为所述所有文字字符中的任一文字字符；

查询预设的关键词库包括的关键词与第二转码序列的对应关系中是否存在与所述第一转码序列相同的第二转码序列；

如果是，则从所述所有文字字符中提取所述第一文字字符作为关键词。

第二方面，本发明实施例提供了一种视频字幕关键词识别装置，所述装置包括：

关键帧提取模块，用于从视频数据中提取视频关键帧；

获取模块，用于获取所述视频关键帧对应的文本行图像；

识别模块，用于识别所述文本行图像中包括的所有文字字符；

关键词提取模块，用于根据预设的关键词库，从所述所有文字字符中提取关键词。

在本发明实施例中，从视频数据中提取视频关键帧；获取视频关键帧对应的文本行图像；识别文本行图像中包括的所有文字字符；根据预设的关键词库，从所有文字字符中提取关键词。本发明从视频数据中提取了视频关键帧，基于深度神经网络对视频关键帧进行处理，去除视频复杂背景中的噪声影响，从视频关键帧中获取对应的文本行图像，基于文本行图像实现视频复杂背景中的文字检测、识别及关键词提取，提高了视频字幕识别及关键词提取的效率及准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例1所提供的一种视频字幕关键词识别方法的流程示意图；

图2示出了本发明实施例1所提供的另一种视频字幕关键词识别方法的流程示意图；

图3示出了本发明实施例2所提供的一种视频字幕关键词识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例1

参见图1，本发明实施例提供了一种视频字幕关键词识别方法，该方法具体包括以下步骤：

步骤101：从视频数据中提取视频关键帧。

本发明实施例依据视频镜头变化的剧烈程度，减少视频数据在内容上的冗余度，从视频数据中提取能够反映视频内容的视频关键帧，具体通过如下步骤A1-A4的操作来提取视频关键帧，包括：

A1：每隔预设时长从视频数据中提取一帧图像。

上述预设时长可以为20秒、30秒或40秒等。读入视频数据的视频流。每个预设时长从视频流中提取一帧图像，如每个半分钟提取一帧图像。对于提取的每一帧图像都按照如下步骤A2和A3的操作来确定是否为视频关键帧。

A2：将提取的当前帧图像与上一帧图像进行灰度值差值运算，得到当前帧图像对应的差值矩阵。

对于提取的每一帧图像都进行灰度化处理，并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理。之后为了提高运算效率，本发明实施例还将每一帧图像对应的灰度图缩小至原图的预设比例，如将灰度图缩小至原图的四分之一或三分之一等。

由于对于每一帧图像的处理过程都是相同的，因此本发明实施例以当前帧图像为例来说明，提取的其他每一帧图像都与当前帧图像一样，按照相同的操作方式来确定其他每一帧图像是否为视频关键帧。

具体地，将提取的当前帧图像对应的灰度图与上一帧图像对应的灰度图进行灰度值差值运算，即将当前帧图像对应的灰度图与上一帧图像对应的灰度图中对应位置处的像素灰度值相减，得到当前帧图像对应的差值矩阵。

A3：根据差值矩阵包括的非零像素值，计算判定阈值。

具体地，计算差值矩阵包括的所有非零像素值的平均值及方差。确定差值矩阵中像素值大于平均值的非零像素值的第一数量，及像素值大于方差的非零像素值的第二数量。根据第一数量和第二数量，通过如下公式(1)计算判定阈值。

T＝1.85×sd+mean…(1)

其中，在公式(1)中，T为判定阈值，mean为第一数量，sd为第二数量。

A4：根据差值矩阵及判定阈值，确定当前帧图像是否为视频关键帧。

统计差值矩阵包括的非零像素值的数量；比价非零像素值的数量与上述判定阈值，若非零像素值的数量大于判定阈值，则将当前帧图像确定为视频关键帧。否则，确定当前帧图像不是视频关键帧。

对于提取的每一帧图像按照上述方式来确定是否为视频关键帧，对于确定出的视频关键帧通过如下步骤102-104的操作，来从视频关键帧中提取字幕关键词。

步骤102：获取视频关键帧对应的文本行图像。

本发明实施例中，基于CTPN(Connectionist Text Proposal Network)对复杂视频背景的文字进行检测，主要步骤包括：检测小尺度文本框、循环连接文本框、文本行边细化以及区域特征提取MSER(Maximally Stable Extremal Regions)算法改进。

本发明实施例具体通过如下步骤B1-B3的操作来获取视频关键帧对应的文本行图像，包括：

B1：通过预设的卷积神经网络对视频关键帧进行特征提取，得到视频关键帧对应的特征图。

预设的卷积神经网络可以为VGG16网络，如通过VGG16网络对视频关键帧进行特征提取，VGG16网络的卷积层conv5_3输出该视频关键帧对应的特征图。该特征图的大小为W×H×C。

B2：识别特征图中包括的各个文本框。

具体地，通过预设尺寸的滑动窗对特征图进行滑动检测，得到每个滑动窗对应的多个文本框的坐标；对每个滑动窗对应的多个文本框的坐标进行过滤，得到每个滑动窗对应的文本框。

上述预设尺寸可以为3×3或4×4等。如通过3×3的滑动窗对特征图进行滑动检测，滑动检测时滑动窗的滑动顺序可以为从特征图的左上角开始从左到右从上到下进行滑动，或者从特征图的右下角开始从右到左从下到上进行滑动等。每次滑动后滑动窗都能够覆盖特征图上大小为上述预设尺寸的区域，依据滑动窗的中心坐标及上述预设尺寸，能够确定出滑动窗覆盖的区域的坐标，进而能够获取到该区域的特征向量。而且滑动窗能够对具有文字特征的区域进行检测，依据滑动窗的中心坐标及预设尺寸，滑动窗能够检测出位于滑动窗覆盖区域内具有文字特征的文本款的坐标。本发明实施例中，每次滑动窗滑动能够检测出覆盖区域的k个文本框的坐标。其中，k可以为7、8、9等。

通过滑动检测得到每个滑动窗对应的特征向量及多个文本框之后，将每个滑动窗对应的特征向量及多个文本框(k个文本框)输入到一个双向的LSTM(Long Short-TermMemory，长短期记忆网络)网络中，该双向的LSTM网络连接一个全连接层，对于每个滑动窗全连接层输出2k个文本框。之后本发明实施例使用一个标准的非极大值抑制算法来滤除每个滑动窗对应的多个文本框中多余的文本框。滤除之后每个滑动窗只对应一个文本框，每个滑动窗对应的文本框即为视频关键帧对应的特征图包括的各个文本框。

B3：根据各个文本框，获取视频关键帧对应的文本行图像。

通过步骤B2识别出特征图包括的各个文本框之后，使用基于图的文本行构造算法，将各个文本框合并为文本行，然后从特征图中截取文本行对应的文本行图像。

具体地，可以先截取该文本行对应的文本行图片，然后将MSER算法应用于该文本行图片，识别出该文本行图片中的空白区域及有非文字的图案区域等，从该文本行图片中剔除这些空白区域及有非文字的图案区域等，从而进一步第对文本检测进行优化，使文本检测结果更加精确。然后通过MSER分水岭算法，将连通域面积设为预设面积值，如400或500等，对文本行进行文字分割，得到文本行包括的每个文字区域的坐标。根据每个文字区域的坐标，能够计算出每个文字区域的长度及宽度，由于出于美学要求及方便辨认的需求，各种场景下文字中单个字符的长宽比通常不会过于悬殊，因此本发明实施例中还将文本行中长宽比大于预设比值的文字区域确定为非文字区域，从文本行中去除长宽比大于预设比值的文字区域。上述预设比值可以为5或6等。

经过上述处理之后，还根据每个文字区域的坐标计算剩余的每个文字区域的高度，以文本行中最大的文字高度为边界，从上述处理之后的文本行图片中截取最终的文本行图像。

步骤103：识别文本行图像中包括的所有文字字符。

通过上述步骤102的操作截取到文本行图像之后，通过本步骤的操作来识别文本行图像中包含的文字字符，即进行文字识别。文字识别是在文字检测的基础上对文字进行识别，通过级联的卷积神经网络、循环神经网络以及转录层进行最终的识别，可以实现不定长的文字识别。

具体地，通过如下步骤C1-C3的操作来识别文本行图像包括的所有文字字符，包括：

C1：获取文本行图像对应的卷积特征矩阵。

在本发明实施例中，为了满足后续使用的级联的卷积神经网络、循环神经网络等模型对自向量的要求，需要对文本行图像进行归一化处理。即在对文本行图像进行文字识别处理之前，先将文本行图像缩放到一定的图像高度，如缩放到(32,100,3)等。

对文本行图像进行缩放之后通过预设网络对文本行图像提取特征，该预设网络可以为VGG16深度卷积网络。如通过VGG16深度卷积网络对文本行图像提取特征，从VGG16深度卷积网络的卷积层conv5_3输出提取的特征向量序列。其中，特征向量序列的每一个特征向量在文本行图像上都是按列从左到右生成的。

上述提取的特征向量序列的大小与文本行图像的大小相同。如若文本行图像的大小为(32,100,3)，则提取的特征向量序列的大小也为(32,100,3)。之后将提取的特征向量序列转换为预设大小的卷积特征矩阵，如转换为(1,25,512)大小的卷积特征矩阵。

C2：通过双向长短期记忆网络LSTM的循环神经网络对卷积特征矩阵进行类别预测。

将转换得到的卷积特征矩阵输入到双向LSTM的循环神经网络中，将双向LSTM的循环神经网络的最大时间长度设为预设长度，该预设长度与文本行图像的尺寸相关，如若文本行图像的大小为(32,100,3)，则将最大时间长度设为25。通过双向LSTM的循环神经网络预测出卷积特征矩阵包括的每种类别的最大概率。

C3：将预测结果转化为文字字符。

双向LSTM的循环神经网络连接一个转入层，通过双向LSTM的循环神经网络预测出卷积特征矩阵包括的每种类别的最大概率之后，通过转入层将预测出的各个最大概率的类别转化为文字字符，得到文本行图像包括的所有文字字符。

步骤104：根据预设的关键词库，从所有文字字符中提取关键词。

本发明实施例中预先设置了关键词库，预设的关键词库包含政治、军事、涉黄、暴力等敏感词库。每个敏感词库中都包括关键词与第二转码序列的对应关系。其中，关键词对应的第二转码序列为对关键词进行转码得到的ASCII(American Standard Code forInformation Interchange)码。

从文本行图像中识别出所有文字字符之后，由于对每个文字字符的处理相同，因此从所有文字字符中随机选择任一个文字字符，将选择的文字字符称为第一文字字符，以第一文字字符为例进行详细说明，其他文字字符与第一文字字符相同，都按照相同的处理方式来判断其他文字字符是否为关键词。

具体地，计算第一文字字符对应的第一转码序列，第一文字字符为所有文字字符中的任一文字字符；查询预设的关键词库包括的关键词与第二转码序列的对应关系中是否存在与第一转码序列相同的第二转码序列；如果是，则从所有文字字符中提取第一文字字符作为关键词。如果否，则认为第一文字字符不是关键词。

在本发明实施例中，通过上述方式来确定第一文字字符是否为关键词之前，还可以先判断第一文字字符的长度是否大于预设值，该预设值可以为2或3等，若第一文字字符的长度大于预设值，则继续通过上述方式来确定第一文字字符是否为关键词。如果第一文字字符的长度小于或等于预设值，则直接确定第一文字字符不是关键词。如此可以依据文字字符的长度剔除掉一些文字字符，能够加快提取关键词的处理速度。

对于文本行图像包括的所有文字字符，均通过上述方式来确定每个文字字符是否为关键词，从而从视频关键帧中提取出字幕的关键词。

对于视频数据包括的每一个视频关键帧都通过上述步骤102-104的操作来提取每个视频关键帧的字幕中的关键词。

为了进一步便于理解本发明实施例提供的方法，下面结合附图进行简要说明。如图2所示，输入视频数据之后进行视频关键帧提取，然后对视频关键帧依次进行文本检测、文本识别及关键词提取操作。

实施例2

参见图3，本案实施例提供了一种视频字幕关键词识别装置，该装置用于执行上述实施例1所提供的视频字幕关键词识别方法，装置包括：

关键帧提取模块20，用于从视频数据中提取视频关键帧；

获取模块21，用于获取视频关键帧对应的文本行图像；

识别模块22，用于识别文本行图像中包括的所有文字字符；

关键词提取模块23，用于根据预设的关键词库，从所有文字字符中提取关键词。

上述关键帧提取模块20包括：

提取单元，用于每隔预设时长从视频数据中提取一帧图像；

差值运算单元，用于将提取的当前帧图像与上一帧图像进行灰度值差值运算，得到当前帧图像对应的差值矩阵；

计算单元，用于根据差值矩阵包括的非零像素值，计算判定阈值；

确定单元，用于根据差值矩阵及判定阈值，确定当前帧图像是否为视频关键帧。

上述计算单元，用于计算差值矩阵包括的所有非零像素值的平均值及方差；确定差值矩阵中像素值大于平均值的非零像素值的第一数量，及像素值大于方差的非零像素值的第二数量；根据第一数量和第二数量，计算判定阈值。

上述确定单元，用于统计差值矩阵包括的非零像素值的数量；若非零像素值的数量大于判定阈值，则将当前帧图像确定为视频关键帧。

上述获取模块21包括：

特征提取单元，用于通过预设的卷积神经网络对视频关键帧进行特征提取，得到视频关键帧对应的特征图；

识别单元，用于识别特征图中包括的各个文本框；

获取单元，用于根据各个文本框，获取视频关键帧对应的文本行图像。

上述识别单元，用于通过预设尺寸的滑动窗对特征图进行滑动检测，得到每个滑动窗对应的多个文本框的坐标；对每个滑动窗对应的多个文本框的坐标进行过滤，得到每个滑动窗对应的文本框。

上述获取单元，用于将各个文本框合并为文本行；通过区域特征提取MSER分水岭算法对文本行进行文字分割，得到文本行包括的每个文字区域的坐标；根据每个文字区域的坐标，从文本行中去除长宽比大于预设比值的文字区域；从特征图中截取文本行对应的文本行图像。

上述识别模块22，用于获取文本行图像对应的卷积特征矩阵；通过双向长短期记忆网络LSTM的循环神经网络对卷积特征矩阵进行类别预测；将预测结果转化为文字字符。

上述关键词提取模块23，用于计算第一文字字符对应的第一转码序列，第一文字字符为所有文字字符中的任一文字字符；查询预设的关键词库包括的关键词与第二转码序列的对应关系中是否存在与第一转码序列相同的第二转码序列；如果是，则从所有文字字符中提取第一文字字符作为关键词。

实施例3

本发明实施例提供一种视频字幕关键词识别设备，该设备包括一个或多个处理器，以及一个或多个存储装置，所述一个或多个存储装置中存储有一个或多个程序，所述一个或多个程序被所述一个或多个处理器加载并执行时，实现上述实施例1所提供视频字幕关键词识别方法。

实施例4

本发明实施例提供一种计算机可存储介质，该存储介质中存储有可执行程序，所述可执行程序被处理器加载并执行时实现上述实施例1所提供的视频字幕关键词识别方法。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频字幕关键词识别方法，其特征在于，所述方法包括：

每隔预设时长从所述视频数据中提取一帧图像；

计算所述差值矩阵包括的所有非零像素值的平均值及方差；

根据所述第一数量和所述第二数量，计算判定阈值；

根据所述差值矩阵及所述判定阈值，确定所述当前帧图像是否为视频关键帧；

获取所述视频关键帧对应的文本行图像；

识别所述文本行图像中包括的所有文字字符；

根据预设的关键词库，从所述所有文字字符中提取关键词。

2.根据权利要求1所述的方法，其特征在于，所述根据所述差值矩阵及所述判定阈值，确定所述当前帧图像是否为视频关键帧，包括：

统计所述差值矩阵包括的非零像素值的数量；

3.根据权利要求1所述的方法，其特征在于，所述获取所述视频关键帧对应的文本行图像，包括：

识别所述特征图中包括的各个文本框；

4.根据权利要求3所述的方法，其特征在于，所述识别所述特征图中包括的各个文本框，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述各个文本框，获取所述视频关键帧对应的文本行图像，包括：

将所述各个文本框合并为文本行；

从所述特征图中截取所述文本行对应的文本行图像。

6.根据权利要求1所述的方法，其特征在于，所述识别所述文本行图像中包括的所有文字字符，包括：

获取所述文本行图像对应的卷积特征矩阵；

将预测结果转化为文字字符。

7.根据权利要求1所述的方法，其特征在于，所述根据预设的关键词库，从所述所有文字字符中提取关键词，包括：

8.一种视频字幕关键词识别装置，其特征在于，所述装置包括：

关键帧提取模块，用于每隔预设时长从所述视频数据中提取一帧图像；将提取的当前帧图像与上一帧图像进行灰度值差值运算，得到所述当前帧图像对应的差值矩阵；计算所述差值矩阵包括的所有非零像素值的平均值及方差；确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量，及像素值大于所述方差的非零像素值的第二数量；根据所述第一数量和所述第二数量，计算判定阈值；根据所述差值矩阵及所述判定阈值，确定所述当前帧图像是否为视频关键帧；

获取模块，用于获取所述视频关键帧对应的文本行图像；