CN106604125A

CN106604125A - 一种视频字幕的确定方法及装置

Info

Publication number: CN106604125A
Application number: CN201611250142.9A
Authority: CN
Inventors: 余咸国; 胡明清
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-04-26
Anticipated expiration: 2036-12-29
Also published as: CN106604125B

Abstract

本发明实施例提供了一种视频字幕的确定方法及装置，所述方法包括：获取目标视频片段的包含原始字幕的一个或多个视频帧图片以及与多个视频帧图片对应的音频信息，并从多个视频帧图片中选取一个作为目标视频帧图片；将音频信息转化成对应的文本信息；将目标视频帧图片的原始字幕转化成对应的文本信息；在音频信息对应的文本信息和目标视频帧图片的原始字幕对应的文本信息不相同的情况下，针对每个不相同的字符，采用神经网络语言模型分别对音频信息对应的文本信息和目标视频帧图片的原始字幕对应的文本信息进行预测；根据预测结果，确定目标视频片段的目标字幕。应用本发明实施例，提高了目标视频字幕的准确率。

Description

一种视频字幕的确定方法及装置

技术领域

本发明涉及视频分析技术领域，特别是涉及一种视频字幕的确定方法及装置。

背景技术

字幕指以文本形式显示电视、电影、舞台作品里面的对话，通常是指影视作品后期加工的文字。网络上现有的视频大多是有字幕的，由于管理员权限等问题无法直接去获得视频的原始字幕。对于视频而言，获得视频的字幕有助于对视频的内容或者看点进行分析。

现有技术中，视频字幕的获取方式是：获取视频片段对应的音频信息，采用语音分析技术将音频信息转化成对应的文本信息作为视频的目标字幕。这种方法的缺点是：音频信息容易受环境噪声和视频背景噪声的影响，通过语音分析技术获取的音频信息对应的文本和视频的原始字幕相比较错误率较高。

发明内容

本发明实施例的目的在于提供一种视频字幕的确定方法及装置，以提高目标视频字幕的准确率。

具体技术方案如下：

一种视频字幕的确定方法，所述方法包括：

获取目标视频片段的包含原始字幕的一个或多个视频帧图片以及与所述多个视频帧图片对应的音频信息，并从所述多个视频帧图片中选取一个作为目标视频帧图片；

将所述音频信息转化成对应的文本信息；

将所述目标视频帧图片的原始字幕转化成对应的文本信息；

在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息不相同的情况下，针对每个不相同的字符，采用神经网络语言模型分别对所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息进行预测；

根据预测结果，确定所述目标视频片段的目标字幕。

可选的，所述从所述多个视频帧图片中选取一个作为目标视频帧图片，包括：

采用神经网络语言模型对每一个视频帧图片的原始字幕对应的文本信息进行打分，以获得每一个文本信息的困惑度值；

将困惑度值最小的文本信息对应的视频帧图片作为目标视频帧图片。

可选的，所述将所述音频信息转化成对应的文本信息，包括：

采用自动语音识别技术，将所述音频信息转化成对应的文本信息。

可选的，所述将目标视频帧图片的原始字幕转化成对应的文本信息，包括：

采用光学字符识别技术，将目标视频帧图片的原始字幕转化成对应的文本信息。

可选的，在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息不相同的情况下，所述方法还包括：

获得除所述目标视频帧图片之外的视频帧图片的原始字幕对应的字符；

采用所获得的字符，对所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息的中的每个不相同的字符进行预测。

可选的，所述根据预测结果，确定所述目标视频片段的字幕，包括：

采用神经网络语言模型对所述预测结果中的每一个文本进行打分，以获得每一个文本的困惑度值；

将最小困惑度值对应的文本，确定为所述目标视频片段的目标字幕。

可选的，所述神经网络语言模型为长短时间记忆模型。

可选的，在将所述目标视频帧图片的原始字幕转化成对应的文本信息之后，所述方法还包括：

在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息完全相同的情况下，将所述音频信息对应的文本信息或所述目标视频帧图片的原始字幕对应的文本信息确定为所述目标视频片段的目标字幕。

一种视频字幕的确定装置，所述装置包括：

获取模块，用于获取目标视频片段的包含原始字幕的一个或多个视频帧图片以及与所述多个视频帧图片对应的音频信息，并从所述多个视频帧图片中选取一个作为目标视频帧图片；

第一转化模块，用于将所述音频信息转化成对应的文本信息；

第二转化模块，用于将所述目标视频帧图片的原始字幕转化成对应的文本信息；

第一预测模块，用于在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息不相同的情况下，针对每个不相同的字符，采用神经网络语言模型分别对所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息进行预测；

第一确定模块，用于根据预测结果，确定所述目标视频片段的目标字幕。

可选的，所述获取模块，具体用于：

可选的，所述第一转化模块，具体用于：

可选的，所述第二转化模块，具体用于：

可选的，所述装置还包括：

获得模块，用于获得除所述目标视频帧图片之外的视频帧图片的原始字幕对应的字符；

第二预测模块，用于采用所获得的字符，对所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息的中的每个不相同的字符进行预测。

可选的，所述第一确定模块，包括：

打分子模块，用于采用神经网络语言模型对所述预测结果中的每一个文本进行打分，以获得每一个文本的困惑度值；

确定子模块，用于将最小困惑度值对应的文本，确定为所述目标视频片段的目标字幕。

可选的，所述神经网络语言模型为长短时间记忆模型。

可选的，所述装置还包括：第二确定模块，

所述第二确定模块，用于在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息完全相同的情况下，将所述音频信息对应的文本信息或所述目标视频帧图片的原始字幕对应的文本信息确定为所述目标视频片段的目标字幕。

应用本发明的实施例，通过获取目标视频片段对应的多个视频帧图片和音频信息，将目标视频帧图片的原始字幕对应的文本和音频信息对应的文本进行比较，当不相同时，对每个不相同的字符采用神经网络语音模型进行预测，从预测结果中确定视频片段的目标字幕。即使在音频信息存在噪声而得到错误的文本信息的情况下，同目标视频帧图片的原始字幕对应的文本信息进行比较，针对不同的字符采用神经网络语言模型进行预测，从预测结果中确定目标视频片段的目标字幕，以消除由于噪声存在而获得错误的目标字幕，解决了现有技术中直接将音频信息对应的文本作为目标视频的字幕，而由于噪声的存在造成音频信息对应的文本信息的存在错误的问题，从而提高了目标视频片段字幕的准确率。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明是实例提供的视频字幕的确定方法的一种流程示意图；

图2为本发明是实例提供的视频字幕的确定方法的另一种流程示意图；

图3为本发明是实例提供的视频字幕的确定方法的再一种流程示意图；

图4为本发明是实例提供的视频字幕的确定装置的一种结构示意图；

图5为本发明是实例提供的视频字幕的确定装置的另一种结构示意图；

图6为本发明是实例提供的视频字幕的确定装置的再一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术问题，本发明实施例提供了一种视频字幕的确定方法及装置，以下分别进行详细说明。

参见图1，图1为本发明是实例提供的视频字幕的确定方法的一种流程示意图，所述方法包括步骤：

S101，获取目标视频片段的包含原始字幕的一个或多个视频帧图片以及与所述多个视频帧图片对应的音频信息，并从所述多个视频帧图片中选取一个作为目标视频帧图片。

在本发明实施例中，目标视频片段中包含原始字幕，且目标视频片段可以划分为若干个视频帧图片，在一个或多个视频帧图片上会包含原始字幕，具体的，原始字幕可以是视频的对白信息；对应的，对白信息可以通过语音的形式体现在视频片段的音频上，即与该目标视频片段对应的音频信息。示例性的，目标视频片段划分为15个视频帧图片，其中有5个视频帧图片中包含原始字幕，所以获取这5个包含原始字幕的视频帧图片。同时，根据视频和音频的播放同步，可以获得与这5个图片对应的音频信息；本领域技术人员可以理解的是，根据音频和视频的同步原则，当对白停顿时体现在音频信息上也会出现语音的停顿，在视频帧图片上会出现一个或多个视频帧图片上不包含原始字幕。并从中选取目标视频帧图片，示例性的，选取第5个视频帧图片为目标视频帧图片。

本领域技术人员可以理解的是，从获取的视频帧图片中任意选择一个确定为目标视频帧图片，而该视频帧图片上包含的原始字幕信息量的大小和完整性却是不知道的。可以理解的是，当目标视频帧图片上的原始字幕对应的信息量越大且越完整，越有利于目标字幕的确定。

为了进一步使得本发明实施例取得更好的效果，采用神经网络语言模型对每一个视频帧图片的原始字幕对应的文本信息进行打分，以获得每一个文本信息的困惑度值；将所获得的困惑度值最小的文本对应的视频帧图片作为目标视频帧图片。困惑度一般在自然语言处理中用来衡量语言模型的质量，困惑度的值越小，说明对应的文本越接近自然语言，即符合设定的评价标准。

示例性的，第1个到第5个视频帧图片的原始字幕对应的文本信息经过神经网络语言模型打分，得到文本信息的困惑度值分别为：115、139、60、200、180，可以得知，第3个视频帧图片的原始字幕对应的文本的困惑度值60最小，则第3个视频帧图片作为目标视频帧图片。

S102，将所述音频信息转化成对应的文本信息。

具体的，可以采用自动语音识别技术，将音频信息转化成对应的文本信息。自动语音识别技术是一种将人的语音转换为文本的技术。示例性的，音频信息转化后得到的文本信息是：“整么在这时候被发现啊”。采用自动语音识别技术将音频信息转化成对应的文本信息为现有技术，本发明实施例在此不对其进行赘述。

S103，将所述目标视频帧图片的原始字幕转化成对应的文本信息。

具体的，可以采用光学字符识别技术，将目标视频帧图片的原始字幕转化成对应的文本信息。光学识别技术是指电子设备(例如扫描仪或数码相机)检查图片或者纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；或通过识别软件将图像中的文字转换成文本格式。示例性的，以第5个视频帧图片为目标视频帧图片，原始字幕经过转化后得到的文本信息为：“怎义在这时候被发现啊”。具体的转化过程为现有技术本发明实施例在此不对其进行赘述。

S104，在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息不相同的情况下，针对每个不相同的字符，采用神经网络语言模型分别对所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息进行预测。

目标视频帧图片的原始字幕对应的文本信息为：怎义在这时候被发现啊，音频信息对应的文本信息为：整么在这时候被发现啊，经过比较两个文本是不相同的。具体的，可以采用最小编辑距离技术进行两个文本的比较，最小编辑距离是找出两个字符串之间需要改动多少个字符后变成一致，可以用来直接进行比较两个文本的字符串，当比较结果为0时，表示两个文本的字符完全相同；当比较结果不为0，表示文本不相同。将“怎义在这时候被发现啊”，表示为文本1、“整么在这时候被发现啊”表示为文本2，得到文本1和文本2中每个字符的比较结果，如表1所示。

表1

对表1中每个不相同的字符，采用神经网络语言模型对文本1和文本2进行预测。具体的，针对每个不相同的字符，根据所在文本的语意对不相同的字符进行前向和后向预测。例性的，文本1中的不同字符“义”，前向预测有“意义”，“含义”等，后向预测有“义务”，“义工”等。对文本1中不同字符“怎”，利用神经网络做后向预测有“怎么”，“怎样”等。示例性的，文本2中不同字符“整”，前向预测的结果有“咋整”，其后向预测有“整齐”等。同时对“整”的后向字符“么”做前向预测有“怎么”，“整么”等。示例性的，得到神经网络语言模型对文本1和文本2的预测结果，如表2所示。

表2

S105，根据预测结果，确定所述目标视频片段的目标字幕。

具体的，对音频信息对应的文本信息或者目标视频帧图片的原始字幕对应的文本信息进行预测，得到的的预测结果可能是一个文本，也有可能是多个文本。具体的，可以采用神经网络语言模型对预测结果进行预测，并对预测结果中每一个文本进行打分；将预测结果中最小困惑度值对应的文本，确定为目标视频片段的目标字幕。示例性的，对预测结果中的每一个文本进行打分，得到的困惑度值如表3所示，困惑度值最小为40，对应的文本为：怎么在这时候被发现啊。因此，确定文本“怎么在这时候被发现啊”为目标视频片段的目标字幕。

表3

具体的，本发明实施例中的神经网络语言模型为长短时间记忆模型(long-shortterm memory，简称LSTM)，还可以采用基于传统的RNNs(recurrent neural networks，递归神经网络)的语言模型、Ngram(统计语言模型)等。LSTM是一种双向神经网络语言模型，该模型已经被证实比基于传统的RNNs的语言模型更加有效。传统的RNNs语言模型，在训练的梯度下降过程中，更加倾向于按照序列结尾处的权值的正确方向进行更新，也就是说，越远的序列输入的对权值的正确变化所能起到的“影响”越小，所以训练的结果就是往往出现偏向于新的信息，即不太能有较长的记忆功能。而采用LSTM为了保证在记忆单元的内部的误差不会衰减，采用截断梯度回传算法，以使所有到达这个处理模块的输入误差，不会继续朝更前一个时间状态进行反向传播，从而解决传统的RNNs语言模型的问题。因此，采用LSTM模型作为双向神经网络语言模型进行文本的训练，结果更加精确，可以对很长的上下文关系进行建模。

当文本为汉语时可以采用CLM(Chinese Language Model，汉语言模型)，CLM属于Ngram中的一种。Ngram主要原理是当两个历史的最近的N-1个词(或字)相同时，映射两个历史到同一个等价类，被称为一阶马尔科夫链。可见，Ngram从字或词出现的结果去判断，而不能根据上下文进行建模。

本发明提供的实施例可以应用于电影或者综艺视频中进行内容和看点分析，根据获得的分析结果可以有针对性的提取出视频的摘要、获取场景信息以及生成人物情感图谱，例如，生成电视剧中每一集的看点，这样，用户可以在不用点开具体视频的情况下，只需从视频相应的介绍信息中就可以看到该视频的看点和剧情走向。还可以根据某一看点或者场景推荐个性化的广告，提高商业应用性。

应用本发明图1所示的实施例，通过获取目标视频片段对应的多个视频帧图片和音频信息，将目标视频帧图片的原始字幕对应的文本和音频信息对应的文本进行比较，当不相同时，对每个不相同的字符采用神经网络语音模型进行预测，从预测结果中确定视频片段的目标字幕。即使在音频信息存在噪声而得到错误的文本信息的情况下，同目标视频帧图片的原始字幕对应的文本信息进行比较，针对不同的字符进行神经网络语言模型进行预测，从预测结果中确定目标视频片段的目标字幕，以消除由于噪声存在而获得错误的目标字幕，解决了现有技术中直接将音频信息对应的文本作为目标视频的字幕，而由于噪声的存在造成音频信息对应的文本信息的存在错误的问题，从而提高了目标视频片段字幕的准确率。

参见图2，图2为本发明实施例提供的视频字幕的确定方法的另一种流程示意图，图2所示的实施例在图1所示实施例的基础上，增加S106和S107。

S106，获得除所述目标视频帧图片之外的视频帧图片的原始字幕对应的字符。

采用S101-S105得到目标视频片段的目标字幕为“怎么在这时候被发现啊”，而目标视频帧图片的文本2为：整么在这时候被发现啊，音频信息对应的文本1为：怎义在这时候被发现啊，对于目标视频帧图片中的“整”字未体现出来，虽然目标字幕对应的文本的困惑度值最小，主要是从整体的语义和语法等设定的标准去评价，而对于其与目标视频片段真正的字幕相比，正确性却无法比较。

示例性的，从目标视频片段的片段中获取3个视频帧图片，第3个视频帧图片为目标视频帧图片，然后从第1个和第2个视频帧图片的原始字幕中获得对应的字符，分别为：咋、整、怎。

S107，采用所获得的字符，对所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息的中的每个不相同的字符进行预测。

应用本发明的实施例，可以采用S106获得的字符分别对目标视频帧图片的原始字幕对应的文本、音频信息对应的文本中每个不同的字符进行预测，可以将所获的字符分别放在该不相同字符的前端、后端进行预测。

对于文本2中的不相同字符“整”，分别采用获得的字符咋、整、怎进行预测，具体的，可以采用神经网络语言模型进行预测。以“咋”为例，可以获得文本2的预测结果有：咋整么在这时候被发现啊、整咋么在这时候被发现啊。再将预测结果采用步骤S105确定目标字幕，示例性的，确定的结果为：咋整，怎么在这时候被发现啊。

可见，应用本发明图2所示的实施例，从除目标视频帧图片以外的其他视频帧图片的原始字幕中获得的字符进行文本的预测，进一步提高预测结果的准确性。

参见图3，图3为本发明实施例提供的视频字幕的确定方法的再一种流程示意图，图3所示的实施例在图1所示实施例的基础上，增加S108。

S108，在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息完全相同的情况下，将所述音频信息对应的文本信息或所述目标视频帧图片的原始字幕对应的文本信息确定为所述目标视频片段的目标字幕。

本领域技术人员可以理解的是，当目标视频帧图片的原始字幕对应的文本与因信息对应的文本完全相同的情况下，可以将两个文本都视作准确的表达了目标视频片段的字幕信息，因此，可以直接将音频信息对应的文本信息或目标视频帧图片的原始字幕对应的文本信息确定为目标视频片段的目标字幕，而无需采用神经网络语言模型进行预测，从而提高了效率。

应用本发明图3所示的实施例，在音频信息对应的文本信息和目标视频帧图片的原始字幕对应的文本信息相同的情况下，直接确定目标视频帧片段的目标字幕，提高了确定目标字幕准确性和效率。

参见图4，图4为本发明是实例提供的视频字幕的确定装置的一种结构示意图，所述装置可以包括：获取模块201、第一转化模块202、第二转化模块203、第一预测模块204和第一确定模块205。

获取模块201，用于获取目标视频片段的包含原始字幕的一个或多个视频帧图片以及与所述多个视频帧图片对应的音频信息，并从所述多个视频帧图片中选取一个作为目标视频帧图片；

第一转化模块202，用于将所述音频信息转化成对应的文本信息；

第二转化模块203，用于将所述目标视频帧图片的原始字幕转化成对应的文本信息；

第一预测模块204，用于在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息不相同的情况下，针对每个不相同的字符，采用神经网络语言模型分别对所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息进行预测；

第一确定模块205，用于根据预测结果，确定所述目标视频片段的目标字幕。

具体的，实际应用中，所述获取模块201，可以用于采用神经网络语言模型对每一个视频帧图片的原始字幕对应的文本信息进行打分，以获得每一个文本信息的困惑度值；将困惑度值最小的文本信息对应的视频帧图片作为目标视频帧图片。

具体的，实际应用中，所述第一转化模块202，可以用于采用自动语音识别技术，将所述音频信息转化成对应的文本信息。

具体的，实际应用中，所述第二转化模块203，可以用于采用光学字符识别技术，将目标视频帧图片的原始字幕转化成对应的文本信息。

具体的，实际应用中，所述第一确定模块205，可以包括：打分子模块和确定子模块；

具体的，实际应用中，所述神经网络语言模型为长短时间记忆模型。

应用本发明图4所示的实施例，通过获取目标视频片段对应的多个视频帧图片和音频信息，将目标视频帧图片的原始字幕对应的文本和音频信息对应的文本进行比较，当不相同时，对每个不相同的字符采用神经网络语音模型进行预测，从预测结果中确定视频片段的目标字幕。即使在音频信息存在噪声而得到错误的文本信息的情况下，同目标视频帧图片的原始字幕对应的文本信息进行比较，针对不同的字符进行神经网络语言模型进行预测，从预测结果中确定目标视频片段的目标字幕，以消除由于噪声存在而获得错误的目标字幕，解决了现有技术中直接将音频信息对应的文本作为目标视频的字幕，而由于噪声的存在造成音频信息对应的文本信息的存在错误的问题，从而提高了目标视频片段字幕的准确率。

参见图5，图5为本发明是实例提供的视频字幕的确定装置的另一种结构示意图，图5所示的实施例在图4所示实施例的基础上，增加获得模块206和第二预测模块207。

获得模块206，用于获得除所述目标视频帧图片之外的视频帧图片的原始字幕对应的字符；

第二预测模块207，用于采用所获得的字符，对所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息的中的每个不相同的字符进行预测。

应用本发明图5所示的实施例，从除目标视频帧图片以外的其他视频帧图片的原始字幕中获得的字符进行文本的预测，进一步提高预测结果的准确性。

参见图6，图6为本发明是实例提供的视频字幕的确定装置的再一种结构示意图，图6所示的实施例在图4所示实施例的基础上，增加第二确定模块208。

所述第二确定模块208，用于在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息完全相同的情况下，将所述音频信息对应的文本信息或所述目标视频帧图片的原始字幕对应的文本信息确定为所述目标视频片段的目标字幕。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频字幕的确定方法，其特征在于，所述方法包括：

将所述音频信息转化成对应的文本信息；

将所述目标视频帧图片的原始字幕转化成对应的文本信息；

根据预测结果，确定所述目标视频片段的目标字幕。

2.根据权利要求1所述的方法，其特征在于，所述从所述多个视频帧图片中选取一个作为目标视频帧图片，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述音频信息转化成对应的文本信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述将目标视频帧图片的原始字幕转化成对应的文本信息，包括：

5.根据权利要求1所述的方法，其特征在于，在所述音频信息对应的文本信息和所述目标视频帧图片的原始字幕对应的文本信息不相同的情况下，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据预测结果，确定所述目标视频片段的字幕，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述神经网络语言模型为长短时间记忆模型。

8.根据权利要求1-6任一项所述的方法，其特征在于，在将所述目标视频帧图片的原始字幕转化成对应的文本信息之后，所述方法还包括：

9.一种视频字幕的确定装置，其特征在于，所述装置包括：

10.根据权利要求1所述的装置，其特征在于，所述获取模块，具体用于：

11.根据权利要求9所述的装置，其特征在于，所述第一转化模块，具体用于：

12.根据权利要求9所述的装置，其特征在于，所述第二转化模块，具体用于：

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求9所述的装置，其特征在于，所述第一确定模块，包括：

15.根据权利要求9-14任一项所述的装置，其特征在于，所述神经网络语言模型为长短时间记忆模型。

16.根据权利要求9-14任一项所述的装置，其特征在于，所述装置还包括：第二确定模块，