CN114359942A

CN114359942A - 基于人工智能的字幕提取方法、装置、设备和存储介质

Info

Publication number: CN114359942A
Application number: CN202210027244.3A
Authority: CN
Inventors: 庞烨; 高欣建; 韩茂琨; 刘玉宇; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-04-15

Abstract

本发明提供了一种基于人工智能的字幕提取方法、装置、设备和存储介质，包括：获取目标文本框图像；将目标文本框图像输入至训练好的识别模型，以识别得到目标文本框图像中的目标文本，识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络，文本图像信息提取网络由样本文本框图像预训练得到，语言模型信息提取网络由样本视频文本预训练得到，联合前馈神经网络用于将两者提取网络在预训练之后的权重参数进行结合。本发明能够将文本图像信息提取和语言模型信息提取的结果通过联合前馈神经网络将二者结合，弥补CTC条件独立性假设带来的问题，在预测时能够利用图像纹理特征和语言特征，减少了替换错误，提高了文字识别准确度。

Description

基于人工智能的字幕提取方法、装置、设备和存储介质

技术领域

本发明实施例涉及但不限于人工智能技术领域，尤其涉及一种基于人工智能的字幕提取方法、字幕提取装置、计算机设备和计算机可读存储介质。

背景技术

对于视频字幕的提取过程，主要包括文本框位置提取和文本框内的文字识别。其中，对于文本框位置提取，可以通过DB算法来实现；另外，对于文本框内的文字识别，当前文字检测识别的方法通常采用较为普遍的CRNN和CTC的方法。由于CTC会假设当前的输出与历史输出之间的条件独立性，从而没有很好的挖掘字幕语句中的上下文关系，因此有可能会导致文字识别出错，影响文字识别的准确度。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于人工智能的字幕提取方法、字幕提取装置、计算机设备和计算机可读存储介质，能够弥补CTC这种条件独立性假设带来的问题，提高视频字幕文字识别的准确度。

第一方面，本发明实施例提供了一种基于人工智能的字幕提取方法，包括：

获取目标文本框图像；

将所述目标文本框图像输入至训练好的识别模型，其中，训练好的所述识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络，所述文本图像信息提取网络由样本文本框图像预训练得到，所述语言模型信息提取网络由样本视频文本预训练得到，所述联合前馈神经网络用于将所述文本图像信息提取网络和所述语言模型信息提取网络在预训练之后的权重参数进行结合，所述权重参数包括所述文本图像信息提取网络的图像纹理特征信息以及所述语言模型信息提取网络的语言特征信息；

通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别，以输出得到所述目标文本框图像中的目标文本。

在一些实施例中，所述获取目标文本框图像，包括：

获取目标视频，并从所述目标视频中提取出若干帧目标图像；

基于DB算法对所述目标图像进行文本框提取，以提取得到所述目标图像中的目标文本框图像。

在一些实施例中，所述文本图像信息提取网络包括第一LSTM网络、第二LSTM网络和第三LSTM网络，其中，所述第一LSTM网络、所述第二LSTM网络、所述第三LSTM网络和所述联合前馈神经网络依次连接，所述第一LSTM网络和所述第二LSTM网络的层数均为六层，所述第三LSTM网络的层数为两层。

在一些实施例中，所述语言模型信息提取网络包括Google Bert网络和第四LSTM网络，其中，所述Google Bert网络、所述第四LSTM网络和所述联合前馈神经网络依次连接，所述第四LSTM网络的层数为两层。

在一些实施例中，当目标文本框图像为多个，所述目标文本对应为多个，在所述通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别，以输出得到所述目标文本框图像中的目标文本之后，所述字幕提取方法还包括：

获取所述目标文本框图像在目标视频中的时间信息；

根据所述时间信息，按照时间先后顺序对多个所述目标文本进行排序；

当相邻的两个所述目标文本的内容一致并且相邻的两个所述目标文本之间的间隔时间小于预设间隔时，删去相邻的两个所述目标文本中的其中一个。

第二方面，本发明实施例还提供了一种字幕提取装置，包括：

图像获取单元，用于获取目标文本框图像；

图像输入单元，用于将所述目标文本框图像输入至训练好的识别模型，其中，训练好的所述识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络，所述文本图像信息提取网络由样本文本框图像预训练得到，所述语言模型信息提取网络由样本视频文本预训练得到，所述联合前馈神经网络用于将所述文本图像信息提取网络和所述语言模型信息提取网络在预训练之后的权重参数进行结合，所述权重参数包括所述文本图像信息提取网络的图像纹理特征信息以及所述语言模型信息提取网络的语言特征信息；

文本识别单元，用于通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别，以输出得到所述目标文本框图像中的目标文本。

在一些实施例中，所述图像获取单元还用于获取目标视频，并从所述目标视频中提取出若干帧目标图像，且基于DB算法对所述目标图像进行文本框提取，以提取得到所述目标图像中的目标文本框图像。

在一些实施例中，当目标文本框图像为多个，所述目标文本对应为多个，所述字幕提取装置还包括文本去重单元，用于获取所述目标文本框图像在目标视频中的时间信息，根据所述时间信息，按照时间先后顺序对多个所述目标文本进行排序，当相邻的两个所述目标文本的内容一致并且相邻的两个所述目标文本之间的间隔时间小于预设间隔时间，删去相邻的两个所述目标文本中的其中一个。

第三方面，本发明实施例还提供了一种计算机设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的字幕提取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上述第一方面所述的字幕提取方法。

本发明实施例包括：首先，获取目标文本框图像；接着，将所述目标文本框图像输入至训练好的识别模型，其中，训练好的所述识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络，所述文本图像信息提取网络由样本文本框图像预训练得到，所述语言模型信息提取网络由样本视频文本预训练得到，所述联合前馈神经网络用于将所述文本图像信息提取网络和所述语言模型信息提取网络在预训练之后的权重参数进行结合，所述权重参数包括所述文本图像信息提取网络的图像纹理特征信息以及所述语言模型信息提取网络的语言特征信息；最后，通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别，以输出得到所述目标文本框图像中的目标文本。根据本发明实施例的技术方案，由于本发明实施例能够将文本图像信息提取和语言模型信息提取的结果通过联合前馈神经网络将二者结合，即能够将文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息进行结合，从而可以使得识别模型能够基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别，依据图像纹理特征和语言特征来实现文本识别，类似于RNN-T，通过RNN-T引入预测网络来弥补CTC这种条件独立性假设带来的问题，在预测最终输出时能够同时利用图像纹理特征和语言特征信息，有效地减少了替换错误，提高视频字幕文字识别的准确度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的用于执行基于人工智能的字幕提取方法的系统架构平台的示意图；

图2是本发明一个实施例提供的用于执行基于人工智能的字幕提取方法的网络架构图；

图3是本发明一个实施例提供的基于人工智能的字幕提取方法的流程图；

图4是本发明另一个实施例提供的基于人工智能的字幕提取方法的流程图；

图5是本发明另一个实施例提供的基于人工智能的字幕提取方法的流程图；

图6是本发明一个实施例提供的字幕提取装置的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在相关技术中，对于视频字幕的提取过程，主要包括文本框位置提取和文本框内的文字识别。其中，对于文本框位置提取，可以通过DB算法来实现；另外，对于文本框内的文字识别，当前文字检测识别的方法通常采用较为普遍的CRNN和CTC的方法。由于CTC会假设当前的输出与历史输出之间的条件独立性，从而没有很好的挖掘字幕语句中的上下文关系，因此有可能会导致文字识别出错，影响文字识别的准确度。

需要说明的是，关于CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)，是一个识别文本的方法，该模型主要用于解决基于图像的序列识别问题，特别是场景文字识别问题。CRNN的主要特点是：(1)可以进行端到端的训练；(2)不需要对样本数据进行字符分割，可识别任意长度的文本序列；(3)模型速度快、性能好，并且模型很小。CRNN模型的结构包括卷积层、循环层和转录层，其中，卷积层用于从输入图像中提取出特征序列；循环层用于预测从卷积层获取的特征序列的标签分布；转录层用于把从循环层获取的标签分布通过去重、整合等操作转换成最终的识别结果。

另外，需要说明的是，关于CTC(Connectionist Temporal Classification，联结时序分类)用于训练网络，被广泛应用于文本行识别和语音识别中。

基于上述情况，本发明提供了一种基于人工智能的字幕提取方法、字幕提取装置、计算机设备和计算机可读存储介质，该字幕提取方法包括但不限于如下步骤：首先，获取目标文本框图像；接着，将目标文本框图像输入至训练好的识别模型，其中，训练好的识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络，文本图像信息提取网络由样本文本框图像预训练得到，语言模型信息提取网络由样本视频文本预训练得到，联合前馈神经网络用于将文本图像信息提取网络和语言模型信息提取网络在预训练之后的权重参数进行结合，权重参数包括文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息；最后，通过识别模型基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别，以输出得到目标文本框图像中的目标文本。根据本发明实施例的技术方案，由于本发明实施例能够将文本图像信息提取和语言模型信息提取的结果通过联合前馈神经网络将二者结合，即能够将文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息进行结合，从而可以使得识别模型能够基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别，依据图像纹理特征和语言特征来实现文本识别，类似于RNN-T，通过RNN-T引入预测网络来弥补CTC这种条件独立性假设带来的问题，在预测最终输出时能够同时利用图像纹理特征和语言特征信息，有效地减少了替换错误，提高视频字幕文字识别的准确度。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一个实施例提供的用于执行基于人工智能的字幕提取方法的系统架构平台的示意图。

在图1的示例中，该系统架构平台100包括有处理器110和存储器120，其中，处理器110和存储器120可以通过总线或者其他方式连接，图1中以通过总线连接为例。

存储器120作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器120可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至该系统架构平台。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域技术人员可以理解的是，该系统架构平台可以应用于3G通信网络系统、LTE通信网络系统、5G通信网络系统以及后续演进的移动通信网络系统等，本实施例对此并不作具体限定。

本领域技术人员可以理解的是，图1中示出的系统架构平台并不构成对本发明实施例的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在图1所示的系统架构平台中，处理器110可以调用储存在存储器120中的字幕提取程序，从而执行基于人工智能的字幕提取方法。

基于上述系统架构平台，下面提出本发明的用于执行基于人工智能的字幕提取方法的网络架构的各个实施例。

如图2所示，图2是本发明一个实施例提供的用于执行基于人工智能的字幕提取方法的网络架构图。具体地，本发明实施例的网络架构主要包括但不限于有文本图像信息提取网络210、语言模型信息提取网络220和联合前馈神经网络230。

其中，关于文本图像信息提取网络210，包括但不限于有第一LSTM网络211、第二LSTM网络212和第三LSTM网络213，其中，第一LSTM网络211、第二LSTM网络212、第三LSTM网络213和联合前馈神经网络230依次连接，第一LSTM网络211和第二LSTM网络212的层数均为六层，第三LSTM网络213的层数为两层。这部分与CRNN类似，使用Resnet 101进行特征编码，图像纹理采用6层700cell的LSTM，双向然后经过2层700cell的LSTM，该部分类似于CRNN+CTC。

另外，关于语言模型信息提取网络220，包括但不限于有Google Bert网络221和第四LSTM网络222，其中，Google Bert网络221、第四LSTM网络222和联合前馈神经网络230依次连接，第四LSTM网络222的层数为两层。关于这部分，基于Google Bert的预训练，接一个2层1000cell的LSTM。后面接一个2层1000cell的LSTM是为了让上下的输出差异不要太大。

另外，关于联合前馈神经网络230，用于将文本图像信息提取和语言模型信息提取的结果通过联合前馈神经网络将二者结合，该部分类似于RNN-T。

具体地，各个部分均针对融合进行了相应的改造。添加视频文本和图像分别对前述的两个部分即文本图像信息提取网络和语言模型信息提取网络进行预训练，预训练完成后，将训练的权重参数，权重参数包括文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息；通过联合前馈神经网络将二者结合，即能够将文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息进行结合，从而可以使得识别模型能够基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别，依据图像纹理特征和语言特征来实现文本识别。在预测最终输出时能够同时利用图像纹理特征和语言特征信息，有效的较少了替换错误。

基于上述系统架构平台和上述的用于执行基于人工智能的字幕提取方法的网络架构，下面提出本发明的基于人工智能的字幕提取方法的各个实施例。

如图3所示，图3是本发明一个实施例提供的基于人工智能的字幕提取方法的流程图，该方法包括但不限于有步骤S100、步骤S200和步骤S300。

步骤S100、获取目标文本框图像；

步骤S200、将目标文本框图像输入至训练好的识别模型，其中，训练好的识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络，文本图像信息提取网络由样本文本框图像预训练得到，语言模型信息提取网络由样本视频文本预训练得到，联合前馈神经网络用于将文本图像信息提取网络和语言模型信息提取网络在预训练之后的权重参数进行结合，权重参数包括文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息；

步骤S300、通过识别模型基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别，以输出得到目标文本框图像中的目标文本。

具体地，在本发明实施例中，首先，获取目标文本框图像；接着，将目标文本框图像输入至训练好的识别模型，以识别得到目标文本框图像中的目标文本，具体地，识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络，联合前馈神经网络能够将文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息进行结合，根据图像纹理特征信息识别到文本的图像纹理特征，以及根据语言特征信息识别到文本的语言特征，其中，训练好的识别模型可以如图2所示。根据本发明实施例的技术方案，由于本发明实施例能够将文本图像信息提取和语言模型信息提取的结果通过联合前馈神经网络将二者结合，即能够将文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息进行结合，从而可以使得识别模型能够基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别，依据图像纹理特征和语言特征来实现文本识别，类似于RNN-T，通过RNN-T引入预测网络来弥补CTC这种条件独立性假设带来的问题，在预测最终输出时能够同时利用图像纹理特征和语言特征信息，有效地减少了替换错误，提高视频字幕文字识别的准确度。

需要说明的是，在本发明实施例中，添加视频文本和图像分别对前述的两个部分即文本图像信息提取网络和语言模型信息提取网络进行预训练，预训练完成后，将训练的权重参数，通过联合前馈神经网络将二者结合，在预测最终输出时能够同时利用图像纹理特征和语言特征信息，有效的较少了替换错误。

值得注意的是，关于上述的RNN-T，实际上是在CTC模型的一种改进，针对CTC的不足，进行了改进，使得模型具有了端到端联合优化、具有语言建模能力等突出的优点。

值得注意的是，关于上述的LSTM(Long short-term memory，长短期记忆)，是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。LSTM(是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构。

值得注意的是，关于上述的Google Bert(Bidirectional EncoderRepresentation from Transformers)，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和NextSentence Pred iction两种方法分别捕捉词语和句子级别的representation。BERT模型是Google在2018年10月发布的语言表示模型，其基本结构由多层的双向Transformer组成。Transformer是谷歌2017年提出的架构，在机器翻译任务上取得了非常好的效果。Transformer舍弃了以往该任务上常用的CNN、RNN等神经网络结构，利用自注意力机制将文本中的上下文内容联系起来，并行处理序列中的单词符号。这样的结构使训练速度显著提升，效果也更为优秀。目前这一结构已经被广泛应用。

另外，值得注意的是，本发明实施例可以基于人工智能技术对相关的图像进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

基于本发明实施例的技术方案，本发明实施例可以通过人工智能方式对目标文本框图像进行获取处理，并将目标文本框图像输入至训练好的识别模型，以识别得到目标文本框图像中的目标文本。

另外，如图4所示，图4是本发明另一个实施例提供的基于人工智能的字幕提取方法的流程图，关于上述步骤S100中的获取目标文本框图像，包括但不限于有步骤S410和步骤S420。

步骤S410、获取目标视频，并从目标视频中提取出若干帧目标图像；

步骤S420、基于DB算法对目标图像进行文本框提取，以提取得到目标图像中的目标文本框图像。

具体地，在本发明实施例中，可以对视频进行抽帧，抽取若干帧的方式获得图片序列，接着再对每张图像进行文本框提取，从而得到目标文本框图像。

需要说明的是，本发明实施例可以通过间隔一定帧的方式来抽取若干帧的方式获得图片序列。

具体地，在本发明实施例中，可以通过DB算法对目标图像进行文本框提取，从而可以提取得到目标图像中的目标文本框图像。

值得注意的是，关于上述的DB算法，DB(Differentiable Binarization)算法全称可微分二值化处理，基于分割的场景文本检测即把分割方法产生的概率图(热力图)转化为边界框和文字区域，其中会包含二值化的后处理过程。二值化的过程非常关键，常规二值化操作通过设定固定的阈值，然而固定的阈值难以适应复杂多变的检测场景。

值得注意的是，在本发明实施例中，首先，添加视频文本和图像分别对前述的两个部分即文本图像信息提取网络和语言模型信息提取网络进行预训练，预训练完成后，将训练的权重参数，通过联合前馈神经网络将二者结合，在预测最终输出时能够同时利用图像纹理特征和语言特征信息，有效的较少了替换错误。

需要说明的是，关于上述的语言特征信息，可以是指文字语言的习惯。示例性地，在预训练之后，若出现文字“我”，那么就会得到在文字“我”的后续文字的概率，例如，在文字“我”的后续文字“是”的概率，以及在文字“我”的后续文字“要”的概率。因此，本发明实施例能够预训练得到文本的语言习惯特征。另外，需要说明的是，关于上述的图像纹理特征，就是指文本框图像的图像纹理。

另外，如图5所示，图5是本发明另一个实施例提供的基于人工智能的字幕提取方法的流程图，当目标文本框图像为多个，目标文本对应为多个，在上述步骤S300的通过识别模型基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别，以输出得到目标文本框图像中的目标文本之后，本发明实施例的字幕提取方法还包括但不限于有步骤S510、步骤S520和步骤S530。

步骤S510、获取目标文本框图像在目标视频中的时间信息；

步骤S520、根据时间信息，按照时间先后顺序对多个目标文本进行排序；

步骤S530、当相邻的两个目标文本的内容一致并且相邻的两个目标文本之间的间隔时间小于预设间隔时间，删去相邻的两个目标文本中的其中一个。

具体地，由于前后的目标图像中的所识别出来的目标文本的内容有可能会一致，因此，本发明实施例会将识别的结果集对应的帧号记录，相邻帧中间的文本进行去重，获得最终结果并带有初始时间戳。

基于上述基于人工智能的字幕提取方法，下面分别提出本发明的字幕提取装置、计算机设备和计算机可读存储介质的各个实施例。

如图6所示，图6是本发明一个实施例提供的字幕提取装置的示意图。本发明实施例的字幕提取装置300包括但不限于图像获取单元310、图像输入单元320和文本识别单元330。

具体地，图像获取单元310用于获取目标文本框图像；

另外，图像输入单元320用于将目标文本框图像输入至训练好的识别模型，其中，训练好的识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络，文本图像信息提取网络由样本文本框图像预训练得到，语言模型信息提取网络由样本视频文本预训练得到，联合前馈神经网络用于将文本图像信息提取网络和语言模型信息提取网络在预训练之后的权重参数进行结合，权重参数包括文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息。

另外，文本识别单元330用于通过识别模型基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别，以输出得到目标文本框图像中的目标文本。

另外，图像获取单元310还用于获取目标视频，并从目标视频中提取出若干帧目标图像；并基于DB算法对目标图像进行文本框提取，以提取得到目标图像中的目标文本框图像。

此外，本发明实施例的字幕提取装置300包括但不限于文本去重单元340。该文本去重单元340用于获取目标文本框图像在目标视频中的时间信息，并根据时间信息，按照时间先后顺序对多个目标文本进行排序；当相邻的两个目标文本的内容一致并且相邻的两个目标文本之间的间隔时间小于预设间隔时间，删去相邻的两个目标文本中的其中一个。

值得注意的是，本发明实施例的字幕提取装置的具体实施方式及对应的技术效果，可对应参照上述基于人工智能的字幕提取方法的具体实施方式及对应的技术效果。

另外，本发明的一个实施例还提供了一种计算机设备，该计算机设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

需要说明的是，本实施例中的计算机设备，可以应用于如图1所示实施例中的系统架构平台，本实施例中的计算机设备，能够构成图1所示实施例中的系统架构平台的一部分，两者属于相同的发明构思，因此两者具有相同的实现原理以及有益效果，此处不再详述。

实现上述实施例的基于人工智能的字幕提取方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例的基于人工智能的字幕提取方法，例如，执行以上描述的图3至图5中的方法步骤。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于执行上述的基于人工智能的字幕提取方法。例如，被上述字幕提取装置的一个处理器执行，可使得上述处理器执行上述实施例中的基于人工智能的字幕提取方法，例如，执行以上描述的图3至图5中的方法步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种基于人工智能的字幕提取方法，其特征在于，包括：

获取目标文本框图像；

2.根据权利要求1所述的字幕提取方法，其特征在于，所述获取目标文本框图像，包括：

3.根据权利要求1所述的字幕提取方法，其特征在于，所述文本图像信息提取网络包括第一LSTM网络、第二LSTM网络和第三LSTM网络，其中，所述第一LSTM网络、所述第二LSTM网络、所述第三LSTM网络和所述联合前馈神经网络依次连接，所述第一LSTM网络和所述第二LSTM网络的层数均为六层，所述第三LSTM网络的层数为两层。

4.根据权利要求1所述的字幕提取方法，其特征在于，所述语言模型信息提取网络包括Google Bert网络和第四LSTM网络，其中，所述Google Bert网络、所述第四LSTM网络和所述联合前馈神经网络依次连接，所述第四LSTM网络的层数为两层。

5.根据权利要求1所述的字幕提取方法，其特征在于，当目标文本框图像为多个，所述目标文本对应为多个，在所述通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别，以输出得到所述目标文本框图像中的目标文本之后，所述字幕提取方法还包括：

获取所述目标文本框图像在目标视频中的时间信息；

当相邻的两个所述目标文本的内容一致并且相邻的两个所述目标文本之间的间隔时间小于预设间隔时间，删去相邻的两个所述目标文本中的其中一个。

6.一种字幕提取装置，其特征在于，包括：

图像获取单元，用于获取目标文本框图像；

7.根据权利要求6所述的字幕提取装置，其特征在于，所述图像获取单元还用于获取目标视频，并从所述目标视频中提取出若干帧目标图像，且基于DB算法对所述目标图像进行文本框提取，以提取得到所述目标图像中的目标文本框图像。

8.根据权利要求6所述的字幕提取装置，其特征在于，当目标文本框图像为多个，所述目标文本对应为多个，所述字幕提取装置还包括文本去重单元，用于获取所述目标文本框图像在目标视频中的时间信息，根据所述时间信息，按照时间先后顺序对多个所述目标文本进行排序，当相邻的两个所述目标文本的内容一致并且相邻的两个所述目标文本之间的间隔时间小于预设间隔时间，删去相邻的两个所述目标文本中的其中一个。

9.一种计算机设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的字幕提取方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至5中任意一项所述的字幕提取方法。