CN112738640A

CN112738640A - 一种视频流的字幕的确定方法、装置及可读存储介质

Info

Publication number: CN112738640A
Application number: CN202011576783.XA
Authority: CN
Inventors: 张彬彬; 陈晓宇; 曾晨晨; 杨超
Original assignee: Go Out And Ask Wuhan Information Technology Co ltd
Current assignee: Go Out And Ask Wuhan Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-30
Anticipated expiration: 2040-12-28
Also published as: CN112738640B

Abstract

本发明公开了一种视频流的字幕的确定方法、装置及可读存储介质，该方法包括：获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。通过实施本发明，可以确定每个候选字幕图像对应的第一文本与第二文本是否对应，根据对应最好的第一文本就可以确定为视频流的字幕，从而可以确定一个有效、准确的字幕。

Description

一种视频流的字幕的确定方法、装置及可读存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种视频流的字幕的确定方法、装置及可读存储介质。

背景技术

互联网上有大量的带内嵌字幕的视频节目，如电视剧、综艺节目、访谈节目等很多都带有质量很高的内嵌字幕，提取其内嵌字幕及每段字幕对应的语音，可以作为语音识别模型的训练数据。

在提取内嵌字幕和该段字幕段对应的语音中，一个重要的步骤是进行字幕的提取。一般的字幕提取大都利用一些字幕的经验知识，如字幕一般是在视频的底部，一般是居中或者左对齐，字幕一般为矩形等信息，对字幕进行定位，然后提取字幕。但该方法在遇到视频背景中字幕位置发生变化、字幕中出现其他文字(典型的如双语字幕、综艺节目中字幕标头有赞助商和嘉宾姓名时)等情况时，则非常容易受到干扰而导致字幕提取失败或不准确。

申请内容

本发明实施例通过提供一种视频流的字幕的确定方法、装置及可读存储介质，用以解决现有技术中利用字幕的经验知识进行字幕提取时，容易受到干扰而导致字幕提取失败或不准确的问题。

为了解决上述问题，第一方面，本发明实施例提供了一种视频流的字幕的确定方法，包括：获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。

可选地，获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段，包括：获取视频流中的第t帧图像，第t帧图像包括至少第一文本区域；对于每一个第一文本区域，获取视频流中的第t+1帧图像，并从第t+1帧图像中确定与第一文本区域的位置坐标相同的区域作为第二文本区域；当第二文本区域与第一文本区域的相似度大于或等于预设阈值，以步长为1，依次获取视频流中的第t+2、第t+3…第t+n帧图像，直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值，并计算第t帧图像至第t+n-1帧图像之间的时间段；提取第t帧图像中的第一文本区域，得到一个候选字幕图像；提取视频流中时间段的语音，得到候选字幕图像对应的语音段。

可选地，计算每个候选字幕图像对应的第一文本与第二文本之间的相似度，包括：计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离；根据编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。

可选地，在根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕之前，视频流的字幕的确定方法还包括：确定最大相似度值大于预设阈值。

第二方面，本发明实施例提供了一种视频流的字幕的确定装置，包括：获取单元，用于获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；文本识别单元，用于对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；语音识别单元，用于对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；计算单元，用于计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；第一确定单元，用于根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。

可选地，获取单元包括：获取子单元，用于获取视频流中的第t帧图像，第t帧图像包括多个第一文本区域；提取子单元，用于对于每一个第一文本区域，获取视频流中的第t+1帧图像，并从第t+1帧图像中确定与第一文本区域的位置坐标相同的区域作为第二文本区域；当第二文本区域与第一文本区域的相似度大于或等于预设阈值，以步长为1，依次获取视频流中的第t+2、第t+3…第t+n帧图像，直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值，并计算第t帧图像至第t+n-1帧图像之间的时间段；提取第t帧图像中的第一文本区域，得到一个候选字幕图像；提取视频流中时间段的语音，得到候选字幕图像对应的语音段。

可选地，计算单元包括：第一计算子单元，用于计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离；第二计算字单元，用于根据编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。

可选地，在第一确定单元之前，还包括：第二确定单元，用于确定最大相似度值大于预设阈值。

第三方面，本发明实施例提供了一种计算机，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如第一方面或第一方面任意实施方式中的视频流的字幕的确定方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如第一方面或第一方面任意实施方式中的视频流的字幕的确定方法。

本发明实施例提供的视频流的字幕的确定方法、装置及可读存储介质，通过获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕，从而可以确定每个候选字幕图像对应的第一文本与第二文本是否对应，根据对应最好的第一文本就可以确定为视频流的字幕，从而可以确定一个有效、准确的字幕，可以解决现有技术中利用字幕的经验知识进行字幕提取时，容易受到干扰而导致字幕提取失败或不准确的问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本发明实施例中一种视频流的字幕的确定方法的流程示意图；

图2为本发明实施例中一种视频流的字幕的确定方装置的结构示意图；

图3为本发明实施例中一种计算机的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种视频流的字幕的确定方法，包括：

S101.获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；具体地，可以通过获取视频流中的第1、第2…第n帧图像，并识别每帧图像中每一个第一文本区域，通过图像相似度确定视频流中的每一个第一文本区域出现的时间段，提取图像中的一个第一文本区域，就可以得到一个对应的候选字幕图像，然后根据该第一文本区域出现的时间段提取视频流中的语音，就可以准确得到该候选字幕图像对应的语音段，从而得到视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段。

S102.对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；具体地，可以将每个互选字幕图像输入到文本识别模型，从而得到每个候选字幕图像对应的第一文本。

S103.对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；具体地，可以将每个候选字幕图像对应的语音段输入语音识别模型，可以得到每个候选字幕图像对应的第二文本。

S104.计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；具体地，可以通过第一文本与第二文本之间的编辑距离来计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。

S105.根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。具体地，对相似度按照相似度值的大小进行排序，取最大相似度值对应的候选字幕图像的第一文本为该段视频流的最有效、最好的一个字幕。

本发明实施例提供的视频流的字幕的确定方法，通过获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕，从而可以确定每个候选字幕图像对应的第一文本与第二文本是否对应，根据对应最好的第一文本就可以确定为视频流的字幕，从而可以确定一个有效、准确的字幕，可以解决现有技术中利用字幕的经验知识进行字幕提取时，容易受到干扰而导致字幕提取失败或不准确的问题。

在可选的实施例中，步骤S101，获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段，可以包括：获取视频流中的第t帧图像，第t帧图像包括至少一个第一文本区域；对于每一个第一文本区域，获取视频流中的第t+1帧图像，并从第t+1帧图像中确定与第一文本区域的位置坐标相同的区域作为第二文本区域；当第二文本区域与第一文本区域的相似度大于或等于预设阈值，以步长为1，依次获取视频流中的第t+2、第t+3…第t+n帧图像，直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值，并计算第t帧图像至第t+n-1帧图像之间的时间段；提取第t帧图像中的第一文本区域，得到一个候选字幕图像；提取视频流中时间段的语音，得到候选字幕图像对应的语音段。

具体地，可依次从视频流中读取并识别第1帧图像、第2帧图像中的第一文本区域，直到第t帧图像包括至少一个第一文本区域，并计算第一文本区域的位置坐标，t≥1，且t为自然数。第一文本区域用于显示第t帧图像的字符。对于第t帧图像中的每一个第一文本区域，可以读取视频流中的第t+1帧图像，并从第t+1帧图像中确定与第一文本区域的位置坐标相同的区域作为第二文本区域，并对第一文本区域和第二文本区域进行图像的相似度判断。如果第二文本区域与第一文本区域的相似度大于或等于预设阈值，说明第一文本区域与第二文本区域内的字符没有发生变化，则可以以步长为1，依次获取视频流中的第t+2、第t+3…第t+n帧图像，直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值，则认为第n+1文本区域与第n文本区域内的字符发生了变化，则该段字符对应的时间段为第t帧至第t+n-1帧之间的时段。提取第t帧图像中对应的第一文本区域，可以得到一个候选字幕图像。根据该段字符对应的时间段提取视频流中的语音，可以得到该候选字幕图像对应的语音段。

通过遍历该段视频流中的每帧图像，可以得到视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段。

本发明实施例中，通过获取视频流中的第t帧图像，对于第t帧图像中每一个第一文本区域，通过相似度方法确定每一个第一文本区域出现的时间段，从而根据该时间段就可以准确得到每一个候选字幕图像对应的语音段，提取第t帧图像中对应的第一文本区域，就可以得到一个候选字幕图像，从而可以快速、准确、自动化地得到视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段。

在可选的实施例中，步骤S104中，计算每个候选字幕图像对应的第一文本与第二文本之间的相似度，包括：计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离；根据编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。

具体地，编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。根据编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度的公式为：1-(1/k)，其中k为第一文本的长度。例如，“abcd”和“abed”的编辑距离为1，以“abcd”作为参考字符串，其长度为4，则其相似度为1–(1/4)＝0.75。

由于编辑距离能够体现字串之间的相似度，因此通过计算第一文本与第二文本之间的编辑距离，然后计算第一文本与第二文本之间相似度，可以计算到的相似度可以准确反映第一文本与第二文本之间的相似性。

在可选的实施例中，在步骤S105，根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕之前，视频流的字幕的确定方法还包括：确定最大相似度值大于预设阈值。

具体地，对相似度值设定阈值，并确定最大相似度值大于预设阈值，可以保证根据最大相似度值确定的视频流的字幕是准确的、高精度的。

本发明实施例还提供了一种视频流的字幕的确定装置，如图2所示，包括：获取单元201，用于获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；具体的实施方式详见上述方法实施例步骤S101的描述，在此不再赘述。识别单元202，用于对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；具体的实施方式详见上述方法实施例步骤S102的描述，在此不再赘述。语音识别单元203，用于对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；具体的实施方式详见上述方法实施例步骤S103的描述，在此不再赘述。计算单元204，用于计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；具体的实施方式详见上述方法实施例步骤S104的描述，在此不再赘述。第一确定单元205，用于根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。具体的实施方式详见上述方法实施例步骤S105的描述，在此不再赘述。

本发明实施例提供的视频流的字幕的确定装置，通过获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕，从而可以确定每个候选字幕图像对应的第一文本与第二文本是否对应，根据对应最好的第一文本就可以确定为视频流的字幕，从而可以确定一个有效、准确的字幕，可以解决现有技术中利用字幕的经验知识进行字幕提取时，容易受到干扰而导致字幕提取失败或不准确的问题。

在可选的实施例中，获取单元201包括：获取子单元，用于获取视频流中的第t帧图像，第t帧图像包括多个第一文本区域；提取子单元，用于对于每一个第一文本区域，获取视频流中的第t+1帧图像，并从第t+1帧图像中确定与第一文本区域的位置坐标相同的区域作为第二文本区域；当第二文本区域与第一文本区域的相似度大于或等于预设阈值，以步长为1，依次获取视频流中的第t+2、第t+3…第t+n帧图像，直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值，并计算第t帧图像至第t+n-1帧图像之间的时间段；提取第t帧图像中的第一文本区域，得到一个候选字幕图像；提取视频流中时间段的语音，得到候选字幕图像对应的语音段。

在可选的实施例中，计算单元204包括：第一计算子单元，用于计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离；第二计算字单元，用于根据编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。

具体地，具体地，编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。根据编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度的公式为：1-(1/k)，其中k为第一文本的长度。例如，“abcd”和“abed”的编辑距离为1，以“abcd”作为参考字符串，其长度为4，则其相似度为1–(1/4)＝0.75。

在可选的实施例中，在第一确定单元205之前，还包括：第二确定单元，用于确定最大相似度值大于预设阈值。

基于与前述实施例中一种视频流的字幕的确定方法同样的发明构思，本发明还提供一种计算机，如图3所示，包括：处理器31和存储器32，其中处理器31和存储器32可以通过总线或者其他方式连接，图3中以通过总线连接为例进行说明。

处理器31可以为中央处理器(Central Processing Unit，CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器32作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的视频流的字幕的确定方法对应的程序指令/模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的视频流的字幕的确定方法。

存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器31所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的一个或者多个模块存储在存储器32中，当被处理器31执行时，执行如图1所示实施例中的视频流的字幕的确定方法。

上述计算机具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频流的字幕的确定方法，其特征在于，包括：

获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；

对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；

对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；

计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；

根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕。

2.根据权利要求1所述的视频流的字幕的确定方法，其特征在于，所述获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段，包括：

获取视频流中的第t帧图像，所述第t帧图像包括至少一个第一文本区域；

对于每一个第一文本区域，获取视频流中的第t+1帧图像，并从所述第t+1帧图像中确定与所述第一文本区域的位置坐标相同的区域作为第二文本区域；当所述第二文本区域与所述第一文本区域的相似度大于或等于预设阈值，以步长为1，依次获取视频流中的第t+2、第t+3…第t+n帧图像，直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值，并计算第t帧图像至第t+n-1帧图像之间的时间段；提取所述第t帧图像中的所述第一文本区域，得到一个候选字幕图像；提取所述视频流中所述时间段的语音，得到所述候选字幕图像对应的语音段。

3.根据权利要求1所述的视频流的字幕的确定方法，其特征在于，所述计算每个候选字幕图像对应的第一文本与第二文本之间的相似度，包括：

计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离；

根据所述编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。

4.根据权利要求1所述的视频流的字幕的确定方法，其特征在于，在根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕之前，还包括：

确定所述最大相似度值大于预设阈值。

5.一种视频流的字幕的确定装置，其特征在于，包括：

获取单元，用于获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；

文本识别单元，用于对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；

语音识别单元，用于对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；

计算单元，用于计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；

第一确定单元，用于根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕。

6.根据权利要求5所述的视频流的字幕的确定装置，其特征在于，所述获取单元包括：

获取子单元，用于获取视频流中的第t帧图像，所述第t帧图像包括多个第一文本区域；

提取子单元，用于对于每一个第一文本区域，获取视频流中的第t+1帧图像，并从所述第t+1帧图像中确定与所述第一文本区域的位置坐标相同的区域作为第二文本区域；当所述第二文本区域与所述第一文本区域的相似度大于或等于预设阈值，以步长为1，依次获取视频流中的第t+2、第t+3…第t+n帧图像，直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值，并计算第t帧图像至第t+n-1帧图像之间的时间段；提取所述第t帧图像中的所述第一文本区域，得到一个候选字幕图像；提取所述视频流中所述时间段的语音，得到所述候选字幕图像对应的语音段。

7.根据权利要求5所述的视频流的字幕的确定装置，其特征在于，所述计算单元包括：

第一计算子单元，用于计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离；

第二计算字单元，用于根据所述编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。

8.根据权利要求5所述的视频流的字幕的确定装置，其特征在于，在第一确定单元之前，还包括：

第二确定单元，用于确定所述最大相似度值大于预设阈值。

9.一种计算机，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-4任意一项所述的视频流的字幕的确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行如权利要求1-4任意一项所述的视频流的字幕的确定方法。