CN108184135B

CN108184135B - 字幕生成方法及装置、存储介质及电子终端

Info

Publication number: CN108184135B
Application number: CN201711465976.6A
Authority: CN
Inventors: 刘兴旺; 王睿昆; 刘岩; 蒲秋霞
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2020-11-03
Anticipated expiration: 2037-12-28
Also published as: CN108184135A

Abstract

本发明涉及多媒体技术领域，具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。所述方法包括：接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；对所述第一音频文件进行预处理以获取第二音频文件；将所述第二音频文件按预设长度分割为若干音频块；利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据；根据所述期望文本数据生成字幕数据。本发明能够保证音频识别结果的连续性和准确性，进而实现对网络直播的音频进行实时识别，有效的保证网络直播视频字幕的时效性和准确性。

Description

字幕生成方法及装置、存储介质及电子终端

技术领域

本发明实施例涉及多媒体技术领域，具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。

背景技术

随着我国互联网的普及以及直播流媒体的流行，网络直播已经成为大众社交的一个重要媒介，被广泛的用在了电子商务、新闻发布会、视频会议等多种即时通讯场景中。网络直播能够提供提供及时的视频、音频服务，但是由于其较强的时效性，无法及时为用户提供字幕服务。

相关的视频字幕生成方法往往针对录播视频，且具有一定的处理时间，无法满足网络直播的及时性。而且，由于网络直播往往不具有专业的录制环境，并且视频传出端的网络环境各异，网络直播视频中的音频往往具有更多音质问题。因此，需要一种能够有效应对网络直播视频的实时性、适应网络直播形态的网络直播视频字幕生成方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端，进而至少在一定程度上克服相关技术中没有针对网络直播视频进行自动化字幕生成的工具的问题。

本发明实施例的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供一种字幕生成方法，包括：

接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；

对所述第一音频文件进行预处理以获取第二音频文件；

将所述第二音频文件按预设长度分割为若干音频块；

利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据；

根据所述期望文本数据生成字幕数据。

可选的，对所述第二音频文件分割音频块之前，所述方法还包括：

对所述第二音频文件进行去噪处理；

对去噪处理后的所述第二音频文件进行语音端点检测。

可选的，所述CTC损失函数模型包括：

F(a-ab-)＝F(-aa-abb)＝aab

其中：a-ab-’、‘-aa-abb’分别为不同的输入序列。

可选的，所述对所述第一音频文件进行预处理包括：

提取所述网络直播视频数据中的音频数据并实时判断当前音频数据块是否不可解析；

在判断当前音频数据块不可解析时，根据所述视频数据中各数据块的数据类型标志及媒体流ID确定下一个可解析的音频数据块。

可选的，在获取所述第一文本数据后，所述方法还包括：

确定与所述不可解析数据块的相邻数据块的文本数据；

利用适应性动量估计模型根据所述相邻数据块的文本数据生成所述不可解析数据块对应的文本数据。

可选的，在生成字幕数据后，所述方法还包括：

按预设延时时长将所述字幕数据及对应的所述音频数据发送至延时缓存；

对所述字幕数据及对应的所述音频数据进行校对匹配处理以生成播放时间轴；

将所述视频数据、字幕数据及所述播放时间轴发送至客户端。

可选的，在生成字幕数据后，所述方法还包括：

对所述视频数据、字幕数据及所述播放时间轴进行同步处理；

将同步处理后的字幕数据嵌入所述视频数据并将该视频数据发送至客户端。

根据本发明的第二方面，提供一种字幕生成装置，包括：

音频提取模块，设置为接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；

音频预处理模块，设置为对所述第一音频文件进行预处理以获取第二音频文件

音频切割模块，设置为将所述第二音频文件按预设长度分割为若干音频块；

语音识别模块，设置为利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据；

字幕生成模块，设置为根据所述期望文本数据生成字幕数据。

根据本发明的第三方面，提供一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的字幕生成方法。

根据本发明的第四方面，提供一种电子终端，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行以下操作：

本发明的一种实施例所提供的字幕生成方法中，通过通过实时提取网络直播视频的音频文件并进行预处理，对音频进行修正、恢复，进而保证后续对音频文件进行语音识别时的准确性。通过利用LSTM模型对音频块进行语音识别，能够更好的预测具有时序性的音频数据。并且通过将LSTN模型的识别结果作为CTC损失函数模型的输入，能够保证音频识别结果的连续性和准确性，进而实现对音频进行实时识别，进而有效的保证字幕的时效性和准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本发明实施例中一种字幕生成方法的示意图；

图2示意性示出本发明实施例中一种字幕生成方法中音频数据预处理的方法示意图；

图3示意性示出本发明实施例中一种flv格式的数据头示意图；

图4示意性示出本发明实施例中一种视频文件片段数据示意图；

图5示意性示出本发明实施例中一种将字幕与视频文件匹配的方法示意图；

图6示意性示出本发明实施例中另一种将字幕数据与原始视频文件匹配的方法示意图；

图7示意性示出本发明实施例中一种字幕生成装置的组成示意图；

图8示意性示出本发明实施例中一种字幕生成装置的另一种示意图；

图9示意性示出本发明实施例中一种字幕生成装置的再一种示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种字幕生成方法，可以应用于对网络直播视频生成字幕数据。同样的，所述字幕生成方法也可以应用于直播视频会议、电视直播等场景中。网络直播的影响越来越大，直播视频的数量越来越多，但当前的网络直播却并没有同步的字幕可以供用户使用；同样的一般的视频会议中也并不能提供字幕。为解决上述问题，参考图1中所示，上述的字幕生成方法可以包括以下步骤：

S1，接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；

S2，对所述第一音频文件进行预处理以获取第二音频文件；

S3，将所述第二音频文件按预设长度分割为若干音频块；

S4，利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据；

S5，根据所述期望文本数据生成字幕数据。

本示例实施方式所提供的字幕生成方法中，通过通过实时提取网络直播视频的音频文件并进行预处理，对音频进行修正、恢复，进而保证后续对音频文件进行语音识别时的准确性。通过利用LSTM模型对音频块进行语音识别，能够更好的预测具有时序性的音频数据。并且通过将LSTN模型的识别结果作为CTC损失函数模型的输入，能够保证音频识别结果的连续性和准确性，进而实现对音频进行实时识别，进而有效的保证字幕的时效性和准确性。

下面，将结合附图及实施例对本示例实施方式中的字幕生成方法的各个步骤进行更详细的说明。

步骤S1，接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件。

本示例实施方式中，首可以由服务器接收一直播视频流数据。该视频流数据可以为网络直播视频，也可以为其他的直播视频，如电视直播。

在接收到视频数据后，可以利用软件从视频数据中提取音频数据，例如，可以利用moviepy库提取音频数据，该工具的参数设置灵活，可以处理多种格式的视频文件。然后可以将提取后的音频数据保存为预设格式文件，得到第一音频文件。例如，可以将音频数据保存为wav格式单声道的音频文件或flv格式的音频文件。

步骤S2，对所述第一音频文件进行预处理以获取第二音频文件。

在提取音频数据时，可以对已提取的音频数据进行预处理，对已经提取的音频数据中可预期的数据错误进行纠正，防止直播视频出现卡顿或暂停现象。参考图2所示，上述的预处理方法可以包括：

步骤S21，提取所述网络直播视频数据中的音频数据并实时判断当前音频数据块是否不可解析；

步骤S22，在判断当前音频数据块不可解析时，根据所述视频数据中各数据块的数据类型标志及媒体流ID确定下一个可解析的音频数据块。

举例而言，在音频内容提取时，可能由于网络问题或其他情况造成无法成功解析的数据片段，此时会直接跳过并数据头的规律寻找下一段可用数据。

具体来说，以flv格式的音频文件为例，在flv文件的格式定义文档里有一字节的数据类型标志和3个总是零的字节，而在真正的数据片段里出现3个连续零字节的几率非常小，且类型标志和3个零字节距离固定。在判断一数据块无法解析时，便可根据该数据类型标志和3个总是零的字节直接搜索出下一个可用数据段继续解析。

参见图3所示，为flv格式的数据头。其中，TagType即为一字节的数据类型标志，可能的数值只有8、9和18，分别对应音频数据、视频数据和脚本数据。接下来三字节表示本块数据大小，再有三字节时间戳加一字节时间戳扩展一起表示本段数据的毫秒时间戳，一共7字节；这7字节会随数据块变动，无法用作数据块搜索。StreamID为3字节的连续零，不会随数据块改变。因此，可以利用StreamID的3字节的连续零以及可能的数据类型标志8、9或18的字节来联合判断下一个数据块的位置。

参见图4所示的视频文件片段，其中，(1)处为定义的一个数据头，(2)、(3)、(4)处均为按上述方法寻找到的合法数据头。(5)处有连续3各字节的0，但是7个字节前的数据类型标志是一个不可能的数值3，故此处不是数据头。而(5)处应当节归属于数据块尾部的大小标识、前面1+7个字节归属于一个视频数据块。

步骤S3，将所述第二音频文件按预设长度分割为若干音频块。

本示例实施方式中，在对第一音频文件进行纠错并获取第二音频文件后，可以对其分割成预设长度的音频块。例如，将音频数据分割为15ms、20ms或其他长度的音频块。

在本发明的其他实施例中，在生成第二音频文件后，对音频文件进行切割之前，上述的步骤S3还可以包括：

步骤S31，对所述第二音频文件进行去噪处理；

步骤S32，对去噪处理后的所述第二音频文件进行语音端点检测。

在获取第二音频文件后，可以首先对其进行去噪处理，以去除第二音频文件的背景噪声或其他杂音。在进行去噪处理后，可以对音频进行语音端点检测，从而获取只包含语音的音频文件，然后再对该只包含语音的音频文件按预设长度切割音频块。通过语音端点识别可以在音频信号中准确的确定语音的起始点以及终止点，区分语音以及非语音信号；进而可以有效的减少数据的采样率，节约处理时间，排除噪声段的干扰，提高语音识别率。

步骤S4，利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据。

在本示例实施方式中，在通过上述步骤S3获取预设长度的音频块后，可以将各音频块数据输入至LSTM模型(长短期记忆模型)，利用所述LSTM模型递归神经网络对各语音块进行语音识别找出各音频块对应的文字，并输出第一文本数据。

由于LSTM模型循环神经网络具有一定的记忆功能，能将前一时刻音频块识别出的文字传递到下一时刻的音频块，即当前时刻的神经节点不只有当前的音频块输入，还有前一时刻的音频块传入，因此LSTM模型能更好的预测具有时序性的音频数据。举例来说，若当前音频块识别出的文本为“中国的首都是”，则相邻的下一音频块的识别结果应当为“北京”，而不应当是“纽约”或者其它地名。

在获取第一文本数据后，可将所述第一文本数据作为CTC损失函数模型(Connectionist Temporal Classification)的输入，通过CTC损失函数模型对第一文本数据进行处理后生成期望文本数据。

由于所述CTC损失函数模型只需要一个输入序列和一个输出序列就可以训练，放宽了传统声学模型一一对应的限制要求。例如，有五帧音频输入：m1，m2，m3，m4，m5，对应的标注分别是状态:s1，s2，s3，s4，s5。

所述CTC损失函数模型的输出和标签满足下式要求：

F(a-ab-)＝F(-aa-abb)＝aab

其中：a-ab-’、‘-aa-abb’分别为不同的输入序列。

CTC损失函数模型能够对输入的标签序列所有的子序列之和的概率进行计算，即对“-”、“a”以及“b”的所有连续重复的序列的概率分布进行计算。并且，CTC损失函数模型的输出在标注符号集中加一个空白符号blank，然后利用循环神经网络模型进行标注，最后把blank符号和预测出的重复符号消除。通过引入blank，CTC损失函数模型能够将不同的输入序列映射到一个输出，即正确的标签(label)上。

通过利用CTC损失函数模型对第一文本数据进行处理，将LSTM模型与CTC损失函数模型的有机结合，实现了对音频数据的端到端训练，即语音特征(输入端)到文字串(输出端)，使得语音模型和语言模型训练相结合，有效避免了传统语音识别方法中音模型和语言模型是分开训练造成的误差传递累加的问题。

进一步，为了保证字幕数据准确度和完整性，在本示例实施方式中，在获取所述第一文本数据后，所述方法还包括：

步骤S421，确定与所述不可解析数据块的相邻数据块的文本数据；

步骤S422，利用适应性动量估计模型根据所述相邻数据块的文本数据生成所述不可解析数据块对应的文本数据。

对于无法解析的音频数据块，可以根据其相邻的文本数据进行数据修复，然后还可以通过LSTM模型进行语音识别，并且利用汉语N-gram语言模型进行文字纠错，从而保证期望文本的完整性和连续性。

步骤S5，根据所述期望文本数据生成字幕数据。

在本示例实施方式中，在得到所述音频数据对应的期望文本后，便可根据该期望文本生成字幕数据。

基于上述内容，在本示例实施方式中，在生成字幕数据后，上述的字幕生成方法还可以对字幕与接收的视频流进行进一步的处理，参考图5所示，具体可以包括：

步骤S611，按预设延时时长将所述字幕数据及对应的所述音频数据发送至延时缓存；

步骤S612，对所述字幕数据及对应的所述音频数据进行校对匹配处理以生成播放时间轴；

步骤S613，将所述视频数据、字幕数据及所述播放时间轴发送至客户端。

通过将生成的字幕数据及对应的所述音频数据进行校对匹配处理以生成播放时间轴，然后视频数据、字幕数据及所述播放时间轴发送至客户端，使用户可以在客户端观看直播的同时，获取直播视频对应的字幕。

此外，在本示例实施方式中，上述的对字幕与接收的视频流进行进一步的处理，参考图6所示，还可以采用以下方法，具体可以包括：

步骤S621，按预设延时时长将所述字幕数据及对应的所述音频数据发送至延时缓存；

步骤S622，对所述字幕数据及对应的所述音频数据进行校对匹配处理以生成播放时间轴；

步骤S623，对所述视频数据、字幕数据及所述播放时间轴进行同步处理；

步骤S624，将同步处理后的字幕数据嵌入所述视频数据并将该视频数据发送至客户端。

通过将字幕数据嵌入所述视频数据，可以提前将字幕与视频进行整合，使用户在客户端可以直接观看带有字幕的直播视频，而不需在客户端对接收的数据进行再次处理，降低客户端的运算压力。

本发明提供的字幕生成方法，在服务器端接收实时录制的直播视频，然后提取直播视频中的音频数据，并对音频进行纠错。然后对音频数据分别进行去噪及音频端点检测，将音频流按预设长度分割为音频块。通过对媒体流进行预加载，利用LSTM模型+CTC损失函数模型对音频块进行识别，从而实现“端到端”的音频数据处理，进而提高音频识别速度，减少延迟；并有效的保证音频识别的准确率。本发明提供的字幕识别方法可以应用于直播会议、网络直播以及电视直播等场景。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图7所示，本示例的实施方式中还提供字幕生成装置7，包括：音频提取模块71、音频预处理模块72、音频切割模块73、语音识别模块74以及字幕生成模块75。其中：

所述音频提取模块71可以设置为接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件。

所述音频预处理模块72可以设置为对所述第一音频文件进行预处理以获取第二音频文件。

所述音频切割模块73可以设置为将所述第二音频文件按预设长度分割为若干音频块；

所述语音识别模块74可以设置为利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据。

所述字幕生成模块75可以设置为根据所述期望文本数据生成字幕数据。

上述的字幕生成装置中各模块的具体细节已经在对应的字幕生成方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本发明的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元810执行，使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元810可以执行如图1中所示的步骤S1：接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；步骤S2：对所述第一音频文件进行预处理以获取第二音频文件；步骤S3：将所述第二音频文件按预设长度分割为若干音频块；步骤S4：利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据；步骤S5：根据所述期望文本数据生成字幕数据。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备800交互的设备通信，和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图9所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限。

Claims

1.一种字幕生成方法，其特征在于，包括：

对所述第一音频文件进行预处理以获取第二音频文件；

将所述第二音频文件按预设长度分割为若干音频块；

利用长短期记忆模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入连接时序分类损失函数模型以获取期望文本数据；

根据所述期望文本数据生成字幕数据；

其中，所述对所述第一音频文件进行预处理包括：

在判断当前音频数据块不可解析时，根据所述视频数据中各数据块的数据类型标志及媒体流ID确定下一个可解析的音频数据块；

在获取所述第一文本数据后，确定不可解析数据块的相邻数据块的文本数据；

2.根据权利要求1所述的字幕生成方法，其特征在于，对所述第二音频文件分割音频块之前，所述方法还包括：

对所述第二音频文件进行去噪处理；

对去噪处理后的所述第二音频文件进行语音端点检测。

3.根据权利要求1所述的字幕生成方法，其特征在于，所述连接时序分类损失函数模型包括：

F(a-ab-)＝F(-aa-abb)＝aab

其中：‘a-ab-’、‘-aa-abb’分别为不同的输入序列，a和b分别为不同的标签。

4.根据权利要求1所述的字幕生成方法，其特征在于，在生成字幕数据后，所述方法还包括：

5.根据权利要求1所述的字幕生成方法，其特征在于，在生成字幕数据后，所述方法还包括：

6.一种字幕生成装置，其特征在于，包括：

音频预处理模块，设置为对所述第一音频文件进行预处理以获取第二音频文件；

语音识别模块，设置为利用长短期记忆模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入连接时序分类损失函数模型以获取期望文本数据；

字幕生成模块，设置为根据所述期望文本数据生成字幕数据；

其中，所述音频预处理模块设置为提取所述网络直播视频数据中的音频数据并实时判断当前音频数据块是否不可解析；在判断当前音频数据块不可解析时，根据所述视频数据中各数据块的数据类型标志及媒体流ID确定下一个可解析的音频数据块；

所述语音识别模块还设置为在获取所述第一文本数据后，确定不可解析数据块的相邻数据块的文本数据；利用适应性动量估计模型根据所述相邻数据块的文本数据生成所述不可解析数据块对应的文本数据。

7.一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至5中任一项所述的字幕生成方法。

8.一种用于生成字幕的电子终端，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来实现根据权利要求1至5中任一项所述的字幕生成方法。