CN115484477A

CN115484477A - 字幕生成方法及装置

Info

Publication number: CN115484477A
Application number: CN202110604852.1A
Authority: CN
Inventors: 俞泓飞; 李顺; 华达; 杨家栋; 钱程
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-12-16

Abstract

本申请提供字幕生成方法及装置，其中所述字幕生成方法包括：识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴；对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本；基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕。

Description

字幕生成方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及字幕生成方法及装置。

背景技术

目前，为了迎合大众需求，在进行视频播放的时候一般会为视频添加字幕，而现有技术中，为视频添加字幕的技术中采用的工具较为粗糙，只能识别到视频中口齿清晰的部分语言，并且为了满足不同语言的用户观看视频，对视频进行其他语言翻译时，也会存在大量的错误，因此，为视频中添加的字幕的完整性以及准确性均较差。

发明内容

有鉴于此，本申请实施例提供了两种字幕生成方法。本申请同时涉及两种字幕生成装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的针对视频生成的字幕的完整性以及准确性不足的缺陷。

根据本申请实施例的第一方面，提供了一种字幕生成方法，应用于服务器，包括：

识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；

识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴；

对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本；

基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕。

根据本申请实施例的第二方面，提供了另一种字幕生成方法，应用于客户端，包括：

接收初始用户上传的目标视频，将所述目标视频发送至服务器；

接收所述服务器对所述目标视频处理后生成的初始字幕，其中，所述初始字幕采用上述一种字幕生成方法生成。

根据本申请实施例的第三方面，提供了一种字幕生成装置，应用于服务器，包括：

识别音频模块，被配置为识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；

识别图像模块，被配置为识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴；

翻译模块，被配置为对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本；

融合模块，被配置为基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕。

根据本申请实施例的第四方面，提供了另一种字幕生成装置，应用于客户端，包括：

接收视频模块，被配置为接收初始用户上传的目标视频，将所述目标视频发送至服务器；

接收字幕模块，被配置为接收所述服务器对所述目标视频处理后生成的初始字幕，其中，所述初始字幕采用上述一种字幕生成方法生成。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述字幕生成方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，所述计算机指令被处理器执行时实现所述字幕生成方法的步骤。

本申请提供的字幕生成方法，执行主体是服务器，通过与客户端相互配合，识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；以及识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴；并对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本；基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕，实现了对目标视频中的音频以及图像进行文本识别，获得目标视频中包含的初始音频文本以及初始图像文本，并将识别出的初始音频文本以及初始图像文本进行翻译后，生成目标音频文本以及目标图像文本，并基于时间轴将这些文本进行融合，以便生成多语种的初始字幕，且该初始字幕中图像文本和音频文本相互补充，增加了初始字幕的完整性以及准确性，提高了用户的观看体验。

附图说明

图1是本申请一实施例提供的一种字幕生成方法的示意图；

图2是本申请一实施例提供的一种字幕生成方法的流程图；

图3是本申请一实施例提供的另一种字幕生成方法的流程图；

图4是本申请一实施例提供的一种应用于交互场景的字幕生成方法的处理流程图；

图5是本申请一实施例提供的一种字幕生成装置的结构示意图；

图6是本申请一实施例提供的另一种字幕生成装置的结构示意图；

图7是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

API：(Application Programming Interface，应用程序接口)是一些预先定义的接口(如函数、HTTP接口)，或指软件系统不同组成部分衔接的约定。

翻译弹幕：通过卡点(视频中某句外语出现时)发送弹幕来对外语进行翻译的方式生成的弹幕，对于一部未经加工(如翻译)的视频，有一定双语能力的用户可以通过弹幕的方式对未经加工(如翻译)的视频中的外语进行翻译。这类翻译弹幕一般不是通过专业汉化团队对某一视频直接嵌字，而是用户兴趣使然，通过非专业或非刻意的方式，对未翻译的语种进行翻译，以造福后续观看的用户。

在本申请中，提供了两种字幕生成方法，本申请同时涉及两种字幕生成装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本申请一实施例提供的一种字幕生成方法的示意图。

图1中包括客户端102以及服务器104。

具体的，初始用户通过客户端102在某个视频网站上传了一个视频a，该视频a通过客户端102发送至服务器104，服务器104接收到该视频a后，对该视频a中的音频以及图像分别进行文本识别，获得该视频a的音频中的音频文本以及图像中包含的视频文本以及这些文本在该视频a中出现的时间信息(时间轴)，并进一步基于时间信息，对识别出的音频文本以及视频文本进行融合，形成该视频a的初始字幕，并将该视频a的初始字幕展示给初始用户。

图2示出了根据本申请一实施例提供的一种字幕生成方法的流程图，应用于服务器，具体包括以下步骤：

步骤202：识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴。

本说明书方法实施例的执行主体是服务器，本说明书另一个方法实施例的执行主体是客户端，本说明书通过服务器和客户端相配合实现针对目标视频的字幕生成方法。

其中，目标视频可以理解为任意类型、任意时长以及任意格式的视频，例如娱乐类视频、体育类视频、三分钟的短视频、一个小时以上的长视频、MPEG格式的视频或者AVI格式的视频等等，在此不做限制。通常目标视频中可以包括图像数据和音频数据，具体的，图像数据，可以理解为目标视频中的视频帧，例如人物、动物、其他物品等形成的画面；音频数据，可以理解为目标视频中的音频帧，例如通过人、电子设备、和/或物体碰撞等方式产生的声音数据。

具体实施时，可以通过语音识别工具，比如ARS(Automatic Speech Recognition，自动语音识别技术)对目标视频中的音频数据进行识别，从而识别出音频数据中人声部分对应的文本信息(即初始音频文本)，以及初始音频文本在目标视频中出现的时间，并进一步基于一些预设的规则(比如断句、说话人切换等规则)对初始音频文本在目标视频中出现的时间，对目标视频的播放时间区间(初始时间轴)进行标记(打轴)，并将携带时间标记的初始时间轴作为初始音频文本对应的音频文本时间轴，此外，还可以进一步将标记出的时间区间从初始时间轴中切分出来(分轴)，从而形成初始音频文本对应的音频文本时间轴。

可选地，所述识别接收的目标视频中的音频数据之前，还包括：

接收初始用户通过客户端发送的目标视频。

其中，初始用户，可以理解为目标视频的发送用户，实际应用中，为了提高用户的视频观看体验和/或视频分享体验，可以为其提供视频转字幕的服务，使初始用户可以通过客户端将目标视频发送至服务器，以便服务器基于该目标视频生成对应的字幕并提供至初始用户。

实际应用中，由于以视频内容为核心的社区门户，其中有许多用户会搬运大量具有优质内容的未经加工(如翻译)的视频。这些未经加工(如翻译)的视频需要被翻译出字幕以供观看，目前这些视频可以通过翻译弹幕的形式卡点翻译部分内容，此外，还可以通过语音识别工具对未经加工(如翻译)的视频转字幕，但此工具较为粗糙，使得翻译出的字幕并非传统的经过加工(如翻译)的视频一样具有完整的时间轴，因此，可能出现翻译出的字幕不准确的情况。

具体实施时，本申请实施例提供的一种可选实施方式中，所述识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴，包括：

识别接收的目标视频中的音频数据，基于所述音频数据的声音特征确定所述音频数据的音频起始时间以及音频结束时间；

根据所述音频起始时间以及所述音频结束时间，确定所述音频数据中的音频文本时间轴；

基于所述音频文本时间轴，识别所述音频数据中与所述音频文本时间轴对应的初始音频文本。

其中，声音特征，可以理解为语音的时长、抑扬顿挫、断句、说话人切换等特征，实际应用中，基于这些声音特征即可对目标视频的播放时间区间(初始时间轴)中的存在人声的部分进行标记(打轴)，从而获得在该播放时间区间(初始时间轴)中包含人声的至少一个音频起始时间以及音频结束时间，具体的，由音频起始时间以及音频结束时间即可形成一个时间区间，该时间区间表示目标视频中具有人声部分的时间区间，比如，在目标视频中00：00：01：122-00：00：01：971之间出现人声，则在初始时间轴中对这部分时间区间进行打轴，从而确定该段人声的音频起始时间以及音频结束时间。

基于音频起始时间以及音频结束时间，确定音频数据中包含人声数据(至少包括人的发声、录音或音乐中的人声等)的各个时间区间(音频文本时间轴)，并进一步的，基于音频文本时间轴，识别出音频数据中与音频文本时间轴对应的初始音频文本，实现了在一个完整的播放时间轴的基础上，识别出音频文本时间轴以及音频文本时间轴对应的初始音频文本，增加了识别的准确性，也保障了识别出的初始音频文本可以与目标视频实现播放时间上的对齐。

实际应用中，由于有些音频数据中人声为方言或小语种，而方言或小语种无法被成功识别，本申请实施例提供的一种可选实施方式中，所述获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴，包括：

在目标视频中的音频数据被成功识别的情况下，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；或

在目标视频中的音频数据未被成功识别的情况下，接收所述客户端确定的所述音频数据中的初始音频文本，并确定所述初始音频文本对应的音频文本时间轴。

具体的，在目标视频中的音频数据被成功识别的情况下，参考上述获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴的具体实现即可，在此不再赘述。

而在音频数据中的人声为方言或小语种的情况下，由于服务器中可能没有API能自动解析出方言或小语种，因此，无法成功识别该音频数据，此时则可以根据目标视频中发音语句的停顿，音调转变(识别不同人说话的切换)，只进行时间轴打轴，打轴后的时间轴(音频文本时间轴)如下表1所示：

表1

并进一步向客户端或第三方(比如编辑方)发送针对该音频数据对应的初始音频文本，以便接收客户端或第三方针对该音频数据的文本编辑，从而确定音频数据中的初始语音文本，并将接收的初始音频文本作为从音频数据中提取的原文，具体如下表2所示，表2中原文提取的内容，即为从客户端或第三方确定的初始音频文本。

表2

本申请实施例，在音频数据未被成功识别的情况下，可以通过接收客户端确定的针对音频数据中的初始音频文本，增强了客户端和服务器之间的交互，也实现了对音频数据的识别不成功情况的补充，保障了初始音频文本的获得。

此外，在识别音频数据的基础上，本申请实施例提供的一种可选实施方式中，所述识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴之后，还包括：

在所述初始音频文本中包含预设文本信息的情况下，接收针对所述预设文本信息提交的文本信息；

基于所述文本信息更新所述初始音频文本。

其中，预设文本信息，可以理解为表示空文本信息的字符(比如null)、或乱码信息等，具体的，初始音频文本中包含预设文本信息，表明音频数据中包含未能成功的识别的语言，因此，可以接收客户端或其他方针对这部分预设文本信息提交的文本信息，用以替代预设文本信息，从而生成新的初始音频本文，避免了初始音频文本中出现不可用的信息，并保障了初始音频文本的可用性。

步骤204：识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴。

实际应用中，考虑到语音转字幕只能识别出声音，当目标视频中存在不会读出来的文字(如哑巴用写字板向外人“说话”)时则无法被提取文字，因此，可以通过图像文字识别技术，对目标视频中的文字进行提取，并形成初始图像文本以及对应的图像文本时间轴。

具体实施时，本申请实施例提供的一种可选实施方式中，识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴，包括：

识别所述目标视频中的图像数据，确定包含文字信息的目标图像帧；

确定所述目标图像帧在所述目标视频中对应的播放起始时间以及播放结束时间；

根据所述播放起始时间以及所述播放结束时间，生成所述图像数据中的图像文本时间轴；

基于所述图像文本时间轴，识别所述目标图像帧中与所述图像文本时间轴对应的初始图像文本。

其中，目标图像帧，可以理解为包含图像数据中包含文字信息的图像帧。实际应用中，通过识别目标视频中的图像数据，则可以在该图像数据中筛查出包含文字信息的至少一个目标图像帧，并进一步确定每个目标图像帧在目标视频中的播放起始时间以及播放结束时间，根据确定的播放起始时间以及播放结束时间，生成图像数据中的图像文本时间轴。

由于播放起始时间以及播放结束时间，是以目标视频中的播放时间为基准确定的，因此，图像文本时间轴也是以目标视频的播放时间区间(初始时间轴)为基准确定的。

在生成图像文本时间轴的基础上，进一步通过识别目标图像帧中的文字，获得与图像文本时间轴对应的初始图像文本，增加了识别的准确性，也保障了识别出的初始图像文本可以与目标视频实现播放时间上的对齐。

步骤206：对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本。

实际应用中，为了增加目标视频的可看性，在识别出初始音频文本以及初始图像文本的基础上，还可以对初始音频文本以及初始图像文本进行翻译。具体的，对初始音频文本以及初始图像文本进行翻译，可以理解为将方言翻译为普通话，也可以理解为将一国语言翻译为其他国家的语言，在此不做限制。

具体实施时，为了增加翻译的灵活性，可以预先确定需要翻译成为的目标语种，比如目标语种可以为普通话、英语、法语等，在此不做限制，进一步的，确定需要翻译成为的目标语种，可以是初始用户通过客户端发送目标视频时选择的语种，也可以在服务器预先设定的默认语种，在此不做限制。

具体的，以将上表2中提取出的初始音频文本翻译为中文普通话为例，可以获得如下表3所示的翻译结果(即目标音频文本)。

表3

此外，还可以在翻译为一个语种的基础上，基于翻译后的语种再次翻译为其他语种，沿用上例，在将初始音频文本中的方言翻译为中文普通话的基础上，还可以将中文普通话翻译为英文，具体的如下表4所示：

表4

实际应用中，为了使用户在观看目标视频的过程中，更好地区分音频文本和图像文本，本申请实施例提供的一种可选实施方式中，所述获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴之后，还包括：

通过对所述初始图像文本添加预设格式，生成更新后的初始图像文本；

相应地，所述获得翻译后的目标音频文本和目标图像文本之后，还包括：

通过对所述目标图像文本添加预设格式，生成更新后的目标图像文本。

其中，预设格式，可以是括号、双引号、下划线等格式，也可以是背景色或特定字体颜色(比如红色、绿色)等格式，还可以是斜体或字号等格式，实际应用中，在获得初始图像文本的基础上，对初始图像文本添加预设格式，生成更新后的初始图像文本，相应地，在获得翻译后的目标图像文本之后，也可以为目标图像文本添加同样的预设格式，生成更新后的目标图像文本，使得目标图像文本和初始图像文本具有统一的格式，此外，通过添加预设格式将图像文本与音频文本进行区别，避免了将图像文本与音频文本混淆，提高了用户观看目标视频的体验。

比如：在类似默剧场景，或者哑巴使用手语时，即便是原本没有字幕的未经加工(如翻译)的视频一般也会有文字辅助(或者一位哑巴在纸上写字后向镜头展示“自己想要说的话”<此类没有语音的文字一般会在字幕中添加括号>)，针对这类场景通常可以通过API单独识别语音，再配合图片文字识别提取技术进行互补就能做出完整字幕的时间轴，此时根据原生画面中出现的辅助字幕或者文字图片出现的时间段，同样进行时间轴打轴(图片文字或辅助字幕出现→结束消失为一段时间轴)插入到语音识别的时间轴中，使整条字幕时间轴更加完整，例如以下情景：在一部无字幕日语的未经加工(如翻译)的视频(目标视频)中主人公向一位哑巴打招呼，从该目标视频中提取出的初始音频文本为未带有括号的日文，从目标视频中提取出的初始图像文本为带有括号的日文，将初始音频文本以及初始图像文本从日文翻译为中文之后，获得中文的目标音频文本以及中文的目标图像文本，其中，目标音频文本也未带有括号，而目标图像文本带有括号，具体如下表5所示：

表5

其中，そっか(这样啊)虽然后面被识别出语句停顿，但由于太短，不足以组成一段时间轴内的字幕，因此将后面的长对话并入一部分，该停顿不断开时间轴而是插入“空格”来表示停顿。

步骤208：基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕。

具体的，由于音频文本时间轴和图像文本时间轴，都是在目标视频的播放时间区间的基准上生成的时间轴，因此，这两种时间轴彼此之间具有时序性，因此，可以按照这两个时间轴中时间的先后次序，将上述初始音频文本、初始图像文本、目标音频文本和目标图像文本进行融合，生成目标视频的初始字幕。

进一步的，在上述接收初始用户通过客户端发送的目标视频的基础上，相应地，在生成所述目标视频的初始字幕之后，还包括：

将所述初始字幕发送至所述客户端，基于所述客户端将所述初始字幕展示给所述初始用户。

本申请实施例，在初始用户将目标视频通过客户端发送至服务器，服务器在完成对目标视频的字幕生成之后，将生成的初始字幕发送至客户端并展示给初始用户，使初始用户可以观看添加字幕的目标视频，提高了初始用户的观看体验，也便于初始用户将带有字幕的目标视频分享给其他用户，从而提高目标视频的传播速度。

实际应用中，由于上述识别过程中可能出现识别错误，或上述翻译过程中，可能存在翻译错误情况，为了使发现错误的观众可以有机会对识别/翻译错误的地方进行修改校正，本申请实施例提供的一种可选实施方式中，所述基于所述客户端将所述初始字幕展示给所述初始用户之后，还包括：

接收编辑用户通过所述客户端对所述初始字幕中的所述初始音频文本更新后发送的音频更新文本；和/或

接收所述编辑用户通过所述客户端对所述初始字幕中的所述初始图像文本更新后发送的图像更新文本；和/或

接收所述编辑用户通过所述客户端对所述初始字幕中的所述目标音频文本更新后发送的目标音频更新文本；和/或

接收所述编辑用户通过所述客户端对所述初始字幕中的所述目标图像文本更新后发送的目标图像更新文本。

具体的，服务器将初始字幕发送至初始用户后，携带有初始字幕的目标视频，可以被初始用户或其他用户观看，而这些用户在观看目标视频的过程中，可能发现初始字幕中的识别/翻译错误，因此，可以通过客户端对初始字幕中的初始音频文本、初始图像文本、目标音频文本，和/或，目标图像文本进行更新，并将更新后的音频更新文本、图像更新文本、目标音频更新文本，和/或，目标图像更新文本发送至服务器，服务器则接收这些更新的文本。

进一步的，在服务器接收到这些更新文本之后，为了避免这些更新的文本中存在重大错误，本申请实施例提供的一种可选实施方式中，所述字幕生成方法，还包括：

对所述音频更新文本、所述图像更新文本、所述目标音频更新文本和/或所述目标图像更新文本进行审核；

基于审核通过的所述音频更新文本、审核通过的所述图像更新文本、审核通过的所述目标音频更新文本和/或审核通过的所述目标图像更新文本，生成更新字幕；

将所述更新字幕发送至所述客户端。

具体的，对从客户端接收的音频更新文本、图像更新文本、目标音频更新文本，和/或，目标图像更新文本进行审核，可以理解为对这些文本中的语法、错别字、语句的通顺性等进行审核，并基于审核通过的音频更新文本、审核通过的图像更新文本、审核通过的目标音频更新文本和/或审核通过的目标图像更新文本，对初始字幕进行更新，从而生成更新字幕，并将更新字幕发送至客户端，以供用户在客户端观看带有更新字幕的目标视频。

综上所述，本申请提供的字幕生成方法，执行主体是服务器，通过与客户端相互配合，识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；以及识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴；并对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本；基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕，实现了对目标视频中的音频以及图像进行文本识别，获得目标视频中包含的初始音频文本以及初始图像文本，并将识别出的初始音频文本以及初始图像文本进行翻译后，生成目标音频文本以及目标图像文本，并基于时间轴将这些文本进行融合，以便生成多语种的初始字幕，且该初始字幕中图像文本和音频文本相互补充，增加了初始字幕的完整性以及准确性，提高了用户的观看体验。

本说明书提供的另一种方法实施例与上述方法实施例相对应，本实施例的执行主体为客户端，而上述方法实施例的执行主体是服务器，两个实施例相互配合实现针对目标视频的字幕生成方法，阅读本实施例时，可与上述方法实施例相对应。图3示出了根据本说明书一实施例提供的另一种字幕生成方法的流程图，具体包括以下步骤：

步骤302：接收初始用户上传的目标视频，将所述目标视频发送至服务器。

步骤304：接收所述服务器对所述目标视频处理后生成的初始字幕。

其中，所述初始字幕采用上述一种字幕生成方法生成。

进一步的，由于服务器在对目标视频进行视频处理后生成的初始字幕中可能包含识别错误/或翻译错误的情况下，本申请实施例提供的一种可选实施方式中，在接收到服务器针对目标视频处理后生成的初始字幕之后，还包括：

接收编辑用户针对所述初始字幕中的初始音频文本提交的音频文本变更信息，基于所述音频文本变更信息对所述初始音频文本进行更新，生成音频更新文本，并将所述音频更新文本发送至所述服务器；和/或

接收所述编辑用户针对所述初始字幕中的初始图像文本提交的图像文本变更信息，基于所述图像文本变更信息对所述初始图像文本进行更新，生成图像更新文本，并将所述图像更新文本发送至所述服务器；和/或

接收所述编辑用户针对所述初始字幕中的目标音频文本提交的目标音频文本变更信息，基于所述目标音频文本变更信息对所述目标音频文本进行更新，生成目标音频更新文本，并将所述目标音频更新文本发送至所述服务器；和/或

接收所述编辑用户针对所述初始字幕中的目标图像文本提交的目标图像文本变更信息，基于所述目标图像文本变更信息对所述目标图像文本进行更新，生成目标图像更新文本，并将所述目标图像更新文本发送至所述服务器。

其中，所述编辑用户，可以理解为对初始字幕进行二次编辑(更新)的用户。

具体的，由于服务器对目标视频处理后生成的初始字幕中包括：初始音频文本、初始图像文本、目标音频文本以及目标图像文本，其中任意一种文本都有可能出现错误，为了使发现错误的观众可以对错误的地方进行修改校正，本申请实施例通过客户端向编辑用户提供更新接口，以便编辑用户可以通过客户端提交针对其认为有错误文本(比如初始字幕中的初始音频文本、所述初始字幕中的初始图像文本、初始字幕中的目标音频文本，和/或所述初始字幕中的目标图像文本)的文本变更信息(比如，针对初始音频文本的音频文本变更信息，针对初始图像文本的图像文本变更信息，针对目标音频文本的目标音频文本变更信息，和/或针对目标图像文本的目标图像文本变更信息)。

客户端基于编辑用户提交的文本变更信息对对应的错误文本进行更新，并将更新后的更新文本(比如音频更新文本、图像更新文本、目标音频更新文本，和/或目标图像更新文本)发送至服务器，以便服务器对这些更新文本进行审核。

再进一步的，在将上述更新文本发送至服务器的基础上，本申请实施例提供的一种可选实施方式中，在将音频更新文本、图像更新文本、目标音频更新文本和/或目标图像更新文本发送至服务器之后，还包括：

接收所述服务器基于所述音频更新文本、所述图像更新文本、所述目标音频更新文本和/或所述目标图像更新文本发送的更新字幕。

具体的，在将上述更新文本发送至服务器的基础上，服务器对客户端发送的更新文本进行审核，并基于审核通过的更新文本更新初始字幕，从而生成更新字幕，并将更新字幕发送至客户端，以便观众可以通过客户端观看到更新字幕。

本申请实施例提供的一种可选实施方式中，在接收到服务器针对目标视频处理后生成的初始字幕之后，还包括：

接收观看用户针对所述目标视频的所述初始字幕提交的字幕选项，其中，所述观看用户与所述初始字幕关联；

基于所述字幕选项从所述初始字幕中确定目标字幕并展示。

其中，观看用户，可以理解为对目标视频的观众；字幕选项，可以理解为针对初始字幕中包含的初始音频文本、初始图像文、目标音频文本和/或目标图像文本的选项。增加了字幕显示的灵活性，也满足了不同观看用户的观看需求。

比如：观看用户需要空耳对英语视频进行听力练习，该观看用户可以自行选择显示或不显示原文(即初始音频文本和/或初始图像文本-英语文本)，也可以自由选择显示不显示译文(目标音频文本和/或目标图像文本-中文文本)。此外，还可以在学习过程中先空耳无字幕进行第一遍听力，再选择仅显示原文(即原生字幕-英语字幕)来校对自己的听力，第三遍则选择显示原文(英语)和译文(中文)来练习自己的翻译。

进一步的，本申请实施例提供的一种可选实施方式中，所述确定目标字幕之后，还包括：

接收所述观看用户针对所述目标字幕设置的展示样式；

将所述目标字幕按照所述展示样式在所述目标视频中进行展示。

其中，展示样式，可以是字号设置、透明度设置等，实际应用中，通过对目标字幕中包含的文本设置展示样式，可以满足用户不同的观看需求，提高用户的观看体验。

比如用户可以再追美剧(目标视频)的过程中，设置原文(英文)50％的透明度，需要仔细看才能看清原文字幕，这样观看用户在看视频练听力的过程中，当遇到不确定的词时，也不需要暂停选择显示原文(英语)，只需要仔细看半透明的英文字幕来确定即可。

再比如观看用户可以将目标字幕中的译文(目标音频文本和/或目标图像文本)设置成小号字体(比如七号)，在观看用户练习外语时，当对某一句话不确定该如何翻译时，就可以仔细看目标视频的小号字体译文(如果译文有其他用户对应的语法补充，也能看到)，避免观看用户在遇到生词、短语或不确定的语法时，暂停目标视频的播放，并通过复制或手工输入外语到翻译软件来进行翻译，节约了观看用户的学习时间。

综上所述，本申请提供的字幕生成方法，执行主体是客户端，通过与服务器相互配合，接收初始用户上传的目标视频，将所述目标视频发送至服务器，并接收所述服务器对所述目标视频处理后生成的初始字幕，其中，初始字幕采用上述一种字幕生成方法生成，实现了对目标视频中的音频以及图像进行文本识别，获得目标视频中包含的初始音频文本以及初始图像文本，并将识别出的初始音频文本以及初始图像文本进行翻译后，生成目标音频文本以及目标图像文本，并基于时间轴将这些文本进行融合，以便生成多语种的初始字幕，且该初始字幕中图像文本和音频文本相互补充，增加了初始字幕的完整性以及准确性，提高了用户的观看体验。

下述结合附图4，以本申请提供的字幕生成方法在交互场景的应用为例，对所述字幕生成方法进行进一步说明。其中，图4示出了本申请一实施例提供的一种应用于交互场景的字幕生成方法的处理流程图，具体包括以下步骤：

步骤402：客户端接收初始用户发送的目标视频，并将该目标视频发送至服务器。

本申请实施例通过客户端、服务器以及数据库相互配合，共同实现针对目标视频的初始字幕生成，并对生成的初始字幕进行二次编辑。

步骤404：服务器接收客户端发送的该目标视频，通过识别工具对该目标视频中的音频数据以及图像数据进行识别，获得识别后的初始文本和该初始文本对应的文本时间轴。

其中，初始文本包括上述实施例中的初始音频文本以及初始图像文本，文本时间轴包括上述实施例中的音频文本时间轴以及图像文本时间轴。

具体的，通过识别工具对该目标视频中的音频数据以及图像数据进行识别，可以理解为通过语音识别工具对该目标视频中的音频数据进行识别，获得识别后的初始音频文本和初始音频文本对应的音频文本时间轴；以及通过图像文本识别工具对该目标视频中的图像数据进行识别，获得识别后的初始图像文本和初始图像文本对应的图像文本时间轴。

步骤406：服务器将初始文本进行多语言翻译，获得翻译后的目标文本，并基于文本时间轴将初始文本和目标文本进行融合，生成该目标视频的初始字幕，且将该初始字幕存储至数据库，同时发送至客户端。

其中，所述目标文本包括上述实施例中的目标音频文本以及目标图像文本。

具体的，服务器将初始文本进行多语言翻译，获得翻译后的目标文本，可以理解为，服务器根据客户端发送的初始用户的目标语种对初始文本进行翻译，获得翻译后的目标文本。例如初始文本的目标语种为英语，初始文本的原始语种为中文，那么服务器则可以将初始文本从中文翻译为英语，此时，获得翻译后的目标文本则是为英语文本。

实际应用中，服务器在将初始字幕存储至数据库以及发送给客户端之前，为了保证初始字幕的准确性和安全性，会对初始字幕进行审核，在审核通过后，在会将其存储至数据库以及发送至客户端。

步骤408：数据库接收并保存服务器发送的该目标视频的初始字幕。

步骤410：客户端接收服务器发送的该目标视频的初始字幕，并将该初始字幕展示给观看该目标视频的观看用户。

实际应用中，观看用户可以包括上述初始用户。

具体的，通过上述步骤可以实现对目标视频中初始字幕的生成，以下步骤则为介绍对目标视频中初始字幕的二次编辑。

步骤412：客户端接收编辑用户针对该目标视频的初始字幕的编辑指令，将初始字幕调整为可编辑状态，并接收编辑用户在可编辑状态下将初始字幕编辑后形成的候选字幕，且将该候选字幕发送至服务器。

其中，候选字幕中包括上述实施例中的音频更新文本、图像更新文本、目标音频更新文本和/或目标图像更新文本。

步骤414：服务器按照既定方案对客户端发送的该候选字幕进行审核，将审核通过的候选字幕作为更新字幕发送至数据库。

其中，既定方案，可以理解为预设的录入方案，实际应用中，该既定方案可以是：如果编辑用户是优质用户会则表示可以直接录入数据库并增加该更新字幕的可选项。如果编辑用户是普通用户则会进入审核步骤，验证翻译校对的合理性，并在审核通过后将更新字幕发送至数据库并增加该更新字幕的可选项。

步骤416：数据库接收并存储服务器发送的该目标视频的初始字幕对应的更新字幕。

步骤418：服务器同步最新数据库中的该目标视频的更新字幕，并将该更新字幕发送至客户端。

步骤420：客户端接收服务器发送的该目标视频的更新字幕，并将更新字幕展示给观看用户。

步骤422：客户端实时刷新，默认显示投票最多的字幕作为该目标视频最终显示的字幕。

其中，该字幕可以是初始字幕，也可以是更新字幕，还可以是上述实施例中的目标字幕，在此不做限制。

具体实施时，观看用户可以对该目标视频中的字幕进行投票，客户端可以基于投票结果对该目标视频中显示的字幕进行实时更新，以保证将投票次数最多的字幕作为最终的显示字幕，提升用户体验。

综上所述，本申请提供的字幕生成方法，通过服务器、客户端与数据库相互配合，识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；以及识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴；并对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本；基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕，实现了对目标视频中的音频以及图像进行文本识别，获得目标视频中包含的初始音频文本以及初始图像文本，并将识别出的初始音频文本以及初始图像文本进行翻译后，生成目标音频文本以及目标图像文本，并基于时间轴将这些文本进行融合，以便生成多语种的初始字幕，且该初始字幕中图像文本和音频文本相互补充，增加了初始字幕的完整性以及准确性，提高了用户的观看体验。

与上述方法实施例相对应，本申请还提供了一种字幕生成装置实施例，图5示出了本申请一实施例提供的一种字幕生成装置的结构示意图。如图5所示，该装置包括：

识别音频模块502，被配置为识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；

识别图像模块504，被配置为识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴；

翻译模块506，被配置为对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本；

融合模块508，被配置为基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕。

可选地，所述字幕生成装置，还包括：

接收视频模块，被配置为接收初始用户通过客户端发送的目标视频；

相应地，所述字幕生成装置，还包括：

发送字幕模块，被配置为将所述初始字幕发送至所述客户端，基于所述客户端将所述初始字幕展示给所述初始用户。

可选地，所述识别音频模块502，进一步被配置为：

在所述音频数据被成功识别的情况下，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；或

在所述音频数据未被成功识别的情况下，接收所述客户端确定的所述音频数据中的初始音频文本，并确定所述初始音频文本对应的音频文本时间轴。

可选地，所述字幕生成装置，还包括：

接收信息模块，被配置为在所述初始音频文本中包含预设文本信息的情况下，接收针对所述预设文本信息提交的文本信息；

更新文本模块，被配置为基于所述文本信息更新所述初始音频文本。

可选地，所述字幕生成装置，还包括：

接收音频更新文本模块，被配置为接收编辑用户通过所述客户端对所述初始字幕中的所述初始音频文本更新后发送的音频更新文本；和/或

接收图像更新文本模块，被配置为接收所述编辑用户通过所述客户端对所述初始字幕中的所述初始图像文本更新后发送的图像更新文本；和/或

接收目标音频更新文本模块，被配置为接收所述编辑用户通过所述客户端对所述初始字幕中的所述目标音频文本更新后发送的目标音频更新文本；和/或

接收目标图像更新文本模块，被配置为接收所述编辑用户通过所述客户端对所述初始字幕中的所述目标图像文本更新后发送的目标图像更新文本。

可选地，所述字幕生成装置，还包括：

审核模块，被配置为对所述音频更新文本、所述图像更新文本、所述目标音频更新文本和/或所述目标图像更新文本进行审核；

生成模块，被配置为基于审核通过的所述音频更新文本、审核通过的所述图像更新文本、审核通过的所述目标音频更新文本和/或审核通过的所述目标图像更新文本，生成更新字幕；

发送更新字幕模块，被配置为将所述更新字幕发送至所述客户端。

可选地，所述识别音频模块502，进一步被配置为：

可选地，所述识别图像模块504，进一步被配置为：

综上所述，本申请提供的字幕生成装置，执行主体是服务器，通过与客户端相互配合，识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴；以及识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴；并对所述初始音频文本以及所述初始图像文本进行翻译，获得翻译后的目标音频文本和目标图像文本；基于所述音频文本时间轴以及所述图像文本时间轴，将所述初始音频文本、所述初始图像文本、所述目标音频文本和所述目标图像文本进行融合，生成所述目标视频的初始字幕，实现了对目标视频中的音频以及图像进行文本识别，获得目标视频中包含的初始音频文本以及初始图像文本，并将识别出的初始音频文本以及初始图像文本进行翻译后，生成目标音频文本以及目标图像文本，并基于时间轴将这些文本进行融合，以便生成多语种的初始字幕，且该初始字幕中图像文本和音频文本相互补充，增加了初始字幕的完整性以及准确性，提高了用户的观看体验。

上述为本实施例的一种字幕生成装置的示意性方案。需要说明的是，该字幕生成装置的技术方案与上述的一种字幕生成方法的技术方案属于同一构思，该字幕生成装置的技术方案未详细描述的细节内容，均可以参见上述一种字幕生成方法的技术方案的描述。

与上述方法实施例相对应，本申请还提供了另一种字幕生成装置实施例，图6示出了本申请一实施例提供的另一种字幕生成装置的结构示意图。如图6所示，该装置包括：

接收视频模块602，被配置为接收初始用户上传的目标视频，将所述目标视频发送至服务器；

接收字幕模块604，被配置为接收所述服务器对所述目标视频处理后生成的初始字幕，其中，所述初始字幕采用上述一种字幕生成方法生成。

可选地，所述字幕生成装置，还包括：

音频文本更新模块，被配置为接收编辑用户针对所述初始字幕中的初始音频文本提交的音频文本变更信息，基于所述音频文本变更信息对所述初始音频文本进行更新，生成音频更新文本，并将所述音频更新文本发送至所述服务器；和/或

图像文本更新模块，被配置为接收所述编辑用户针对所述初始字幕中的初始图像文本提交的图像文本变更信息，基于所述图像文本变更信息对所述初始图像文本进行更新，生成图像更新文本，并将所述图像更新文本发送至所述服务器；和/或

目标音频文本更新模块，被配置为接收所述编辑用户针对所述初始字幕中的目标音频文本提交的目标音频文本变更信息，基于所述目标音频文本变更信息对所述目标音频文本进行更新，生成目标音频更新文本，并将所述目标音频更新文本发送至所述服务器；和/或

目标图像文本更新模块，被配置为接收所述编辑用户针对所述初始字幕中的目标图像文本提交的目标图像文本变更信息，基于所述目标图像文本变更信息对所述目标图像文本进行更新，生成目标图像更新文本，并将所述目标图像更新文本发送至所述服务器。

可选地，所述字幕生成装置，还包括：

接收更新字幕模块，被配置为接收所述服务器基于所述音频更新文本、所述图像更新文本、所述目标音频更新文本和/或所述目标图像更新文本发送的更新字幕。

可选地，所述字幕生成装置，还包括：

接收字幕选项模块，被配置为接收观看用户针对所述目标视频的所述初始字幕提交的字幕选项，其中，所述观看用户与所述初始字幕关联；

第一展示模块，被配置为基于所述字幕选项从所述初始字幕中确定目标字幕并展示。

可选地，所述字幕生成装置，还包括：

接收展示样式模块，被配置为接收所述观看用户针对所述目标字幕设置的展示样式；

第二展示模块，被配置为将所述目标字幕按照所述展示样式在所述目标视频中进行展示。

综上所述，本申请提供的字幕生成装置，执行主体是客户端，通过与服务器相互配合，接收初始用户上传的目标视频，将所述目标视频发送至服务器，并接收所述服务器对所述目标视频处理后生成的初始字幕，其中，初始字幕采用上述一种字幕生成方法生成，实现了对目标视频中的音频以及图像进行文本识别，获得目标视频中包含的初始音频文本以及初始图像文本，并将识别出的初始音频文本以及初始图像文本进行翻译后，生成目标音频文本以及目标图像文本，并基于时间轴将这些文本进行融合，以便生成多语种的初始字幕，且该初始字幕中图像文本和音频文本相互补充，增加了初始字幕的完整性以及准确性，提高了用户的观看体验。

上述为本实施例的另一种字幕生成装置的示意性方案。需要说明的是，该字幕生成装置的技术方案与上述的另一种字幕生成方法的技术方案属于同一构思，字幕生成装置的技术方案未详细描述的细节内容，均可以参见上述另一种字幕生成方法的技术方案的描述。

图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720执行所述计算机指令时实现所述的字幕生成方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的字幕生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述字幕生成方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，所述计算机指令被处理器执行时实现如前所述字幕生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的字幕生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述字幕生成方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种字幕生成方法，其特征在于，应用于服务器，包括：

2.根据权利要求1所述的字幕生成方法，其特征在于，所述识别接收的目标视频中的音频数据之前，还包括：

接收初始用户通过客户端发送的目标视频；

相应地，所述生成所述目标视频的初始字幕之后，还包括：

3.根据权利要求2所述的字幕生成方法，其特征在于，所述获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴，包括：

4.根据权利要求1所述的字幕生成方法，其特征在于，所述识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴之后，还包括：

基于所述文本信息更新所述初始音频文本。

5.根据权利要求2所述的字幕生成方法，其特征在于，所述基于所述客户端将所述初始字幕展示给所述初始用户之后，还包括：

6.根据权利要求5所述的字幕生成方法，其特征在于，还包括：

将所述更新字幕发送至所述客户端。

7.根据权利要求1所述的字幕生成方法，其特征在于，所述识别接收的目标视频中的音频数据，获得所述音频数据中的初始音频文本以及所述初始音频文本对应的音频文本时间轴，包括：

8.根据权利要求1所述的字幕生成方法，其特征在于，所述识别所述目标视频中的图像数据，获得所述图像数据中的初始图像文本以及所述初始图像文本对应的图像文本时间轴，包括：

9.一种字幕生成方法，其特征在于，应用于客户端，包括：

接收所述服务器对所述目标视频处理后生成的初始字幕，其中，所述初始字幕采用权利要求1-8任意一项所述字幕生成方法生成。

10.根据权利要求9所述的字幕生成方法，其特征在于，还包括：

11.根据权利要求10所述的字幕生成方法，其特征在于，还包括：

12.根据权利要求9所述的字幕生成方法，其特征在于，还包括：

基于所述字幕选项从所述初始字幕中确定目标字幕并展示。

13.根据权利要求12所述的字幕生成方法，其特征在于，所述确定目标字幕之后，还包括：

接收所述观看用户针对所述目标字幕设置的展示样式；

14.一种字幕生成装置，其特征在于，应用于服务器，包括：

15.一种字幕生成装置，其特征在于，应用于客户端，包括：

接收字幕模块，被配置为接收所述服务器对所述目标视频处理后生成的初始字幕，其中，所述初始字幕采用权利要求1-8任意一项所述字幕生成方法生成。

16.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1-8或者9-13任意一项所述方法的步骤。

17.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-8或者9-13任意一项所述方法的步骤。