CN113343675A

CN113343675A - 一种字幕生成方法、装置和用于生成字幕的装置

Info

Publication number: CN113343675A
Application number: CN202110745554.4A
Authority: CN
Inventors: 卫林钰; 陈伟; 张旭
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-03

Abstract

本发明实施例提供了一种字幕生成方法、装置和用于生成字幕的装置。所述方法包括：对待处理的音视频信号进行语音识别处理，得到所述音视频信号对应的文本序列以及所述文本序列的时间戳映射表，所述时间戳映射表包括所述文本序列中各个分词对应的时间戳；在所述文本序列中确定边界分词；根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件。本发明实施例可以提高生成的字幕文件的准确性和流畅度。

Description

一种字幕生成方法、装置和用于生成字幕的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种字幕生成方法、装置和用于生成字幕的装置。

背景技术

用户在收看一些音视频例如网络直播、电影时，可以通过音视频展示画面上显示的字幕理解音视频内容。

在传统的音视频字幕生成方法中，主要根据静音片段来处理音频流，以便生成字幕。静音片段可以是音视频的音频流中没有语音的片段，根据静音片段将音频流切分为多个语音片段，然后对切分的语音片段进行语音识别，得到该语音片段对应的字幕。

然而，基于静音片段这种单一的音频信号特征来切分音频流的方法，难以区分人物语音中一句话内的表达停顿和句子间的表达停顿，切分的语音片段表达的语义往往并不完整，针对切分后的语音片段进行语音识别，识别结果往往不够准确，依此生成的字幕的准确性和流畅度较差，不利于用户理解音视频内容。

发明内容

本发明实施例提供一种字幕生成方法、装置和用于生成字幕的装置，可以提高生成的字幕行的准确性和流畅度，并能够保证生成的字幕行的合理性，便于用户理解音视频内容。

为了解决上述问题，本发明实施例公开了一种字幕生成方法，所述方法包括：

对待处理的音视频信号进行语音识别处理，得到所述音视频信号对应的文本序列以及所述文本序列的时间戳映射表，所述时间戳映射表包括所述文本序列中各个分词对应的时间戳；

在所述文本序列中确定边界分词；

根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件。

可选地，所述在所述文本序列中确定边界分词，包括：

基于预置的边界检测模型或者边界检测规则确定所述文本序列中各个分词的边界标签，根据所述边界标签确定所述文本序列中的边界分词；或者，

根据所述文本序列的文本语义确定所述文本序列中的边界分词。

可选地，所述根据所述文本序列的文本语义确定所述文本序列中的边界分词，包括：

对所述文本序列进行语义分析，确定所述文本序列中各个分词对应的语义类型；

按照所述语义类型对所述文本序列中的各个分词进行分组，确定语义类型相同的分词属于同一个分词组；

根据所述分词组中的各个分词在所述文本序列中的位置确定所述分词组中的末位分词；

将所述文本序列中的末位分词确定为边界分词。

可选地，所述根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件，包括：

根据所述边界分词对所述文本序列进行拆分处理，得到所述音视频信号对应的字幕行文本；

根据所述边界分词对应的时间戳确定每个字幕行文本对应的起止时间；

根据所述字幕行文本和所述字幕行文本对应的起止时间，生成所述音视频信号对应的字幕行文件。

可选地，所述根据所述边界分词对所述文本序列进行拆分处理，得到所述音视频信号对应的字幕行文本，包括：

判断所述文本序列中是否存在与第一边界分词相对应的第二边界分词，所述第二边界分词位于所述第一边界分词之前；

若所述文本序列中存在与第一边界分词相对应的第二边界分词，则从所述文本序列中提取所述第一边界分词与所述第二边界分词之间的各个分词，并对提取的各个分词进行合并处理，得到所述文本序列对应的字幕行文本；

若所述文本序列中不存在与第一边界分词相对应的第二边界分词，则从所述文本序列中提取所述文本序列的起始位分词与所述第一边界分词之间的各个分词，并对提取的各个分词进行合并处理，得到所述文本序列对应的字幕行文本。

可选地，所述方法还包括：

对所述字幕行文件包含的源语言字幕行文本进行合并处理，得到待翻译语句；

对所述待翻译语句进行翻译处理，得到目标语言语句；

对所述目标语言语句进行拆分处理，得到目标语言字幕行文本，所述目标语言字幕行文本与所述源语言字幕行文本一一对应；

根据所述字幕行和所述目标字幕行生成所述音视频信号的双语字幕文件。

可选地，所述方法还包括：

获取训练样本集，所述训练样本集包括字幕语料和所述字幕语料对应的边界标签；

将所述字幕语料输入至预设边界检测模型中进行边界检测，得到所述字幕语料对应的检测结果；

基于所述字幕语料对应的检测结果和边界标签计算所述预设边界检测模型的损失值，并根据所述损失值调整所述预设边界检测模型的模型参数，直至满足收敛条件得到训练完成的字幕边界检测模型。

另一方面，本发明实施例公开了一种字幕生成装置，所述装置包括：

语音识别模块，用于对待处理的音视频信号进行语音识别处理，得到所述音视频信号对应的文本序列以及所述文本序列的时间戳映射表，所述时间戳映射表包括所述文本序列中各个分词对应的时间戳；

边界分词确定模块，用于在所述文本序列中确定边界分词；

字幕生成模块，用于根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件。

可选地，所述边界分词确定模块，包括：

边界检测子模块，用于基于预置的边界检测模型或者边界检测规则确定所述文本序列中各个分词的边界标签，根据所述边界标签确定所述文本序列中的边界分词；或者，

语义分析子模块，用于根据所述文本序列的文本语义确定所述文本序列中的边界分词。

可选地，所述语义分析子模块，包括：

语义类型确定单元，用于对所述文本序列进行语义分析，确定所述文本序列中各个分词对应的语义类型；

词组确定单元，用于按照所述语义类型对所述文本序列中的各个分词进行分组，确定语义类型相同的分词属于同一个分词组；

末位分词确定单元，用于根据所述分词组中的各个分词在所述文本序列中的位置确定所述分词组中的末位分词；

边界分词确定单元，用于将所述文本序列中的末位分词确定为边界分词。

可选地，所述字幕生成模块，包括：

边界分词确定子模块，用于确定所述文本序列中边界标签标识为字幕边界的边界分词；

字幕行文本确定子模块，用于根据所述边界分词对所述文本序列进行拆分处理，得到所述音视频信号对应的字幕行文本；

起止时间确定子模块，用于根据所述边界分词对应的时间戳确定每个字幕行文本对应的起止时间；

字幕行生成子模块，用于根据所述字幕行文本和所述字幕行文本对应的起止时间，生成所述音视频信号对应的字幕行文件。

可选地，所述字幕行文本确定子模块，包括：

边界分词判断单元，用于判断所述文本序列中是否存在与第一边界分词相对应的第二边界分词，所述第二边界分词位于所述第一边界分词之前；

第一字幕行文本确定单元，用于若所述文本序列中存在与第一边界分词相对应的第二边界分词，则从所述文本序列中提取所述第一边界分词与所述第二边界分词之间的各个分词，并对提取的各个分词进行合并处理，得到所述文本序列对应的字幕行文本；

第二字幕行文本确定单元若所述文本序列中不存在与第一边界分词相对应的第二边界分词，则从所述文本序列中提取所述文本序列的起始位分词与所述第一边界分词之间的各个分词，并对提取的各个分词进行合并处理，得到所述文本序列对应的字幕行文本。

可选地，所述装置还包括：

字幕行合并模块，用于对所述字幕行文件包含的源语言字幕行文本进行合并处理，得到待翻译语句；

翻译处理模块，用于对所述待翻译语句进行翻译处理，得到目标语言语句；

语句拆分模块，用于对所述目标语言语句进行拆分处理，得到目标语言字幕行文本，所述目标语言字幕行文本与所述源语言字幕行文本一一对应；

双语字幕生成模块，用于根据所述字幕行和所述目标字幕行生成所述音视频信号的双语字幕文件。

可选地，所述装置还包括：

样本集获取模块，用于获取训练样本集，所述训练样本集包括字幕语料和所述字幕语料对应的边界标签；

边界检测模块，用于将所述字幕语料输入至预设边界检测模型中进行边界检测，得到所述字幕语料对应的检测结果；

模型调整模块，用于基于所述字幕语料对应的检测结果和边界标签计算所述预设边界检测模型的损失值，并根据所述损失值调整所述预设边界检测模型的模型参数，直至满足收敛条件得到训练完成的字幕边界检测模型。

再一方面，本发明实施例公开了一种用于生成字幕的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如前述一个或多个所述的字幕生成方法的指令。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的字幕生成方法。

本发明实施例包括以下优点：

本发明实施例通过对待处理的音视频信号进行语音识别处理，得到所述音视频信号对应的文本序列以及所述文本序列的时间戳映射表，所述时间戳映射表包括所述文本序列中各个分词对应的时间戳，然后在所述文本序列中确定边界分词，根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件。本发明实施例在生成音视频信号对应的字幕行文件的过程中，对待处理的音视频信号整体进行语音识别处理，相比于传统的根据静音片段将音视频信号切分为多个语音片段，再对每个语音片段进行语音识别处理，本发明实施例可以保证语音识别对象的语义完整性，有利于提升语音识别的准确性和流畅度，从而提高了生成的字幕行文件的准确性和流畅度；并且，本发明实施例通过语音识别确定音视频信号对应的文本序列后，进一步确定文本序列中的边界分词，并基于边界分词和边界分词对应的时间戳生成字幕行文件，进一步保证生成的字幕行文件的语义完整性和合理性，便于用户理解音视频内容。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种字幕生成方法实施例的步骤流程图；

图2是本发明的一种字幕生成装置实施例的结构框图；

图3是本发明的一种用于生成字幕的装置800的框图；

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种字幕生成方法实施例的步骤流程图，所述方法具体可以包括如下步骤：

步骤101、对待处理的音视频信号进行语音识别处理，得到所述音视频信号对应的文本序列以及所述文本序列的时间戳映射表，所述时间戳映射表包括所述文本序列中各个分词对应的时间戳。

步骤102、在所述文本序列中确定边界分词。

步骤103、根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件。

需要说明的是，本发明实施例提供的字幕生成方法可以应用于视频直播、视频聊天、游戏等实时场景中，也可以应用于非实时场景中，例如，可以针对录制号的音视频文件生成对应的字幕行文件。

本发明实施例提供的字幕生成方法可以应用于具有字幕生成能力的音视频处理设备上，该音视频处理设备可以是终端设备，也可以是服务器。其中，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑等。

若该音视频处理设备是服务器，则服务器可以是独立服务器，也可以为集群服务器。当服务器利用该字幕生成方法得到字幕文本时，将该字幕文本作为所对应音视频流时间轴区间的字幕在用户对应的终端设备上进行展示，从而实现在视频直播过程中实时显示字幕行文本。

其中，待处理的音视频信号可以是基于实时场景生成的音视频信号，也可以是确定好的音视频文件对应的音频信号，例如录制、下载好的音视频文件。待处理的音视频信号中包括人物所发出的语音，可以是直播场景中直播者说话，也可以是播放的包括人物语音的音频文件，例如录音、歌曲等。

在本发明实施例中，文本序列可以是基于待处理的音视频信号中的语种识别出来的，但最终生成的字幕行文件不限于音视频信号中的语种。最终生成的字幕行文件的语种可以是基于用户需求确定出来的，可以是音视频信号中的语种，也可以是其他语种，还可以包括多种语种。例如，文本序列是英文，那么最终生成的字幕行文件可以是英文字幕，也可以是中文字幕，当然也可以是中英文字幕等。

文本序列的时间戳映射表中包含文本序列中每个分词对应的时间戳。需要说明的是，文本序列中的分词是词和短语的合称，包括词(含单词、合成词)和词组(又称短语)，是组成语句文章的最小组词结构形式单元。若文本序列的语种为汉语，所述分词可以为字、词、词组等；若文本序列的语种为英语，所述分词可以为英文单词等。

在本发明实施例中，在生成音视频信号对应的字幕行时，先对待处理的音视频信号整体进行语音识别处理，得到该音视频信号对应的文本序列以及文本序列的时间戳映射表。其中，可以采用语音识别模型对待处理的音视频信号进行语音识别处理。

得到音视频信号对应的文本序列之后，进一步确定该文本序列中的边界分词，以便基于边界分词对文本序列进行切分，生成音视频信号对应的字幕行。具体的，可以基于预先训练的边界检测模型确定文本序列对应的边界标签，将文本序列中边界标签标识为字幕边界的分词确定为边界分词；也可以通过对文本序列进行语义分析，确定文本序列中各个分词的语义类型，基于分词类型确定边界分词。

最后，根据文本序列的时间戳映射表和文本序列中的边界分词和边界分词对应的时间戳，生成音视频信号对应的字幕行文件。具体的，可以先确将确定的边界分词作为待生成的字幕行文本的左边界或右边界，每一个字幕行文本包含一个边界分词，并基于边界分词的时间戳确定字幕行文本对应的起止时间。

需要说明的是，在传统的字幕生成方法中，主要根据静音片段来处理音视频信号，以便生成字幕。静音片段可以在一定程度上体现说话者在表达时句子间的停顿，但是不同的说话者有不同的表达习惯，有些说话者可能在一句话中存在停顿，例如，在“我今天被人跟踪实在没地方可去迫不得已才来你家的”这句话中，由于有说话者的表达习惯或者在表达一句话时需要思考等，使得这句话在“迫不”和“得已”之间出现了表达停顿。

如果通过静音片段进行切分，那么，可能会把“我今天被人跟踪实在没地方可去迫不”对应的音频信号切分为一个语音片段，把“得已才来你家的”对应的音频信号切分为一个语音片段，然后对每个语音片段进行语音识别并生成相应的字幕行，这样就会把“我今天被人跟踪实在没地方可去迫不”作为一条字幕行，把“得已才来你家的”作为另一条字幕行。当显示字幕时，用户首先看到的字幕是“我今天被人跟踪实在没地方可去迫不”，然后，才看到字幕行“得已才来你家的”，可能会影响用户的理解，造成不良体验。并且，基于被切分的语音片段进行语音识别时，由于语音片段并不完整，容易导致识别结果不准确，依据语音识别结果生成的字幕行自然也就不准确。

相比于传统的字幕生成方法，本发明实施例并未对待处理的音视频信号进行切分，而是对音视频信号整体进行语音识别，可以保证语音识别对象的语义完整性，有利于提升语音识别的准确性和流畅度，从而提高了生成的字幕行的准确性和流畅度；并且，本发明实施例通过语音识别确定音视频信号对应的文本序列后，进一步确定文本序列中的边界分词，并基于边界分词和边界分词的时间戳生成字幕行文件，进一步保证生成的字幕行文件的合理性，便于用户理解音视频内容。

在本发明的一种可选实施例中，步骤102所述在所述文本序列中确定边界分词，包括：

步骤S11、基于预置的边界检测模型或者边界检测规则确定所述文本序列中各个分词的边界标签，根据所述边界标签确定所述文本序列中的边界分词；或者，

步骤S12、根据所述文本序列的文本语义确定所述文本序列中的边界分词。

在本发明实施例中，可以基于边界检测模型确定文本序列中各个分词的边界标签，将边界标签标识为字幕边界的分词确定为边界分词。例如，假设边界标签包含两种“True”和“False”，其中“True”用于指示对应的分词为字幕边界，“False”用于指示对应的分词不是字幕边界。对于文本序列“你怎么进来的我今天被人跟踪实在没地方可去迫不得已才来你家的”，分词“的”、“跟踪”、“去”、“你家的”对应的边界标签均为“True”，则可以确定分词“的”、“跟踪”、“去”、“你家的”均为边界分词，基于这些边界分词，最终生成的字幕行分别为：

字幕行1：你怎么进来的

字幕行2：我今天被人跟踪

字幕行3：实在没地方可去

字幕行4：迫不得已才来你家的

然后再基于时间戳映射表，分别确定字幕行1至字幕行4的第一个分词和最后一个分词对应的时间戳，进而确定各个字幕行的起止时间。生成字幕行之后，可以在音视频播放过程中按照字幕行的起止时间向用户展示对应的字幕行，便于用户理解音视频内容。

其中，在基于预先训练的边界检测模型确定文本序列对应的边界标签之前，可以先基于神经网络构建边界检测模型，然后采用大量的标注语料对构建的边界检测模型进行训练；也可以在语料不充足的情况下，在通用的序列标注模型的基础上使用字幕语料对序列标注目标进行迭代训练，调整模型参数，得到满足收敛条件的序列标注模型，将满足收敛条件的序列标注模型作为本发明实施例中的边界检测模型。其中，序列标注模型可以选用BERT(Bidirectional Encoder Representations from Transformers，基于多层注意力机制的双向编码器)模型，或其他擅长进行序列标注的神经网络模型。

除了基于边界检测模型确定文本序列的边界标签，还可以预先设置边界检测规则，然后基于预先设置的边界检测规则确定文本序列中各个分词对应的边界标签。例如，根据标点符号、字数、时长等设置边界检测规则，确定文本序列中各个分词对应的边界标签。但是，基于预先设定的边界检测规则确定文本序列中各个分词的边界标签，往往无法灵活满足不同的场景需求，泛化能力较差，且若基于字数、时长等设置边界检测规则，往往会导致生成的字幕行无法包含完整的语义，不利于用户理解音视频内容。因此，在实际应用中，采用基于边界检测模型的方法或语义分析的方法确定文本序列的边界标签更能够符合多元化的场景需求，无需根据不同场景设置不同的边界检测规则，有利于提升边界标签的确定效率，提高字幕行的生成效果。

此外，还可以通过对文本序列进行语义分词，确定文本序列中的边界分词。在本发明的一种可选实施例中，步骤S12所述根据所述文本序列的文本语义确定所述文本序列中的边界分词，包括：

子步骤S121、对所述文本序列进行语义分析，确定所述文本序列中各个分词对应的语义类型；

子步骤S122、按照所述语义类型对所述文本序列中的各个分词进行分组，确定语义类型相同的分词属于同一个分词组；

子步骤S123、根据所述分词组中的各个分词在所述文本序列中的位置确定所述分词组中的末位分词；

子步骤S124、将所述文本序列中的末位分词确定为边界分词。

在基于语义分析确定文本序列中各个分析对应的边界标签时，可以先依次确定文本序列中各个分词对应的语义类型，表达同一个完整语义的分词对应相同的语义类型。然后，按照语义类型对文本序列中的各个分词进行分组，使得表达同一个完整语义的分词归属为一个分词组，也就是说，一个分词组对应一种语义类型，且一个分词组的各个分词可以表达一个完整的语义。

按照每个分词组中的各个分词在文本序列中的位置就可以确定该分词组的末位分词，一个分词组对应一个末位分词，文本序列中末位分词的数目于该文本序列对应的分词组的数目相同。将文本序列中的各个末位分词确定为边界分词。根据边界分词就可以确定文本序列对应的字幕行文本。其中，每一个字幕行文本包含一个边界分词，步骤S123中的末位分词为字幕行的右边界。

当然，也可以根据分词组中的各个分词在文本序列中的位置确定分词组中的首位分词，将文本序列中首位分析对应的边界标签标识为字幕边界。其中，首位分词为字幕行的左边界。

在本发明的一种可选实施例中，步骤103所述根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件，包括：

步骤S21、根据所述边界分词对所述文本序列进行拆分处理，得到所述音视频信号对应的字幕行文本；

步骤S22、根据所述边界分词对应的时间戳确定每个字幕行文本对应的起止时间；

步骤S23、根据所述字幕行文本和所述字幕行文本对应的起止时间，生成所述音视频信号对应的字幕行文件。

其中，边界分词可以是子步骤S121至子步骤S124中确定的末位分词，也可以是各个分词组的首位分词，还可以是基于边界检测模型确定的边界标签标识为字幕边界的边界分词。

在本发明实施例中，字幕行文件包括字幕行文本和字幕行文本对应的起止时间，根据边界分词就可以将文本序列拆分为多个字幕行文本。然后，基于边界分词的时间戳就可以确定每个字幕行文本的起止时间。当播放音视频信号时，根据字幕行文本的起止时间显示字幕行文本，以便用户理解音视频信号的表达内容。

在本发明的一种可选实施例中，步骤S21所述根据所述边界分词对所述文本序列进行拆分处理，得到所述音视频信号对应的字幕行文本，包括：

子步骤S211、判断所述文本序列中是否存在与第一边界分词相对应的第二边界分词，所述第二边界分词位于所述第一边界分词之前；

子步骤S212、若所述文本序列中存在与第一边界分词相对应的第二边界分词，则从所述文本序列中提取所述第一边界分词与所述第二边界分词之间的各个分词，并对提取的各个分词进行合并处理，得到所述文本序列对应的字幕行文本；

子步骤S213、若所述文本序列中不存在与第一边界分词相对应的第二边界分词，则从所述文本序列中提取所述文本序列的起始位分词与所述第一边界分词之间的各个分词，并对提取的各个分词进行合并处理，得到所述文本序列对应的字幕行文本。

在本发明实施例中，根据边界分词的确定规则，边界分词可以为字幕行的右边界，也可以为字幕行的左边界。例如，若按照子步骤S121至子步骤S124确定边界分词，则边界分词为字幕行的右边界；若将各个分词组中的首位分词确定确定为边界分词，则最终确定的边界分词为字幕行的左边界。

以边界分词为字幕行的右边界为例，文本序列中包含两类边界分词：存在与之对应的第二边界分词、不存在与之对应的第二边界分词。假设边界分词A存在与之对应的第二边界分词，记为边界分词B，则从文本序列中将边界分词B与边界分词A之间的各个分词提取出来，然后按照各个分词在文本序列中的位置对提取的各个分词进行合并，就可以得到边界分词A对应的字幕行文本。其中，提取的分词包含边界分词A但不包含边界分词B，也即，边界分词与字幕行文本一一对应，边界分词A对应的字幕行文本中仅包含边界分词A这一个边界分词。

假设边界分词A不存在与之对应的第二边界分词，那么同样存在两种情况：1)文本序列中只有一个边界分词A，不存在其他边界分词；2)文本序列中存在至少两个边界分词，但边界分词A为文本序列中的第一个边界分词。对于文本序列中只有一个边界分词的情况，可以直接将该文本序列作为字幕行文本；对于文本序列中有至少两个边界分词的情况，从文本序列中提取文本序列的起始位分词与边界分词A之间的各个分词，并对提取的各个分词按照各个分词在文本序列中的位置进行合并处理，就可以得到边界分词A对应的字幕行文本。

如果确定的边界分词为字幕行的左边界，同样判断文本序列中是否存在与第三边界分词相对应的第四边界分词，第四边界分词位于第三边界分词之后；若文本序列中存在与第三边界分词相对应的第四边界分词，则从文本序列中提取所述第三边界分词与所述第四边界分词之间的各个分词，并对提取的各个分词进行合并处理，得到第三边界分词对应的字幕行文本；若文本序列中不存在与第三边界分词相对应的第四边界分词，则从文本序列中提取第三边界分词与所述文本序列的末位分词之间的各个分词，并对提取的各个分词进行合并处理，得到第三边界分词对应的字幕行文本。

在本发明实施例中，以边界分词作为文本序列的拆分依据，由于边界分词是通过对文本序列进行语义分析或基于边界检测模型对文本序列进行边界检测确定的，边界分词之间的分词能够体现合理的语义，因此，通过边界分词对文本序列进行拆分得到字幕行文本，可以降低字幕行文本中出现不完整句子的可能性，有利于帮助用户理解音视频内容。

在本发明的一种可选实施例中，所述方法还包括：

步骤S31、对所述字幕行文件包含的源语言字幕行文本进行合并处理，得到待翻译语句；

步骤S32、对所述待翻译语句进行翻译处理，得到目标语言语句；

步骤S33、对所述目标语言语句进行拆分处理，得到目标语言字幕行文本，所述目标语言字幕行文本与所述源语言字幕行文本一一对应；

步骤S34、根据所述字幕行和所述目标字幕行生成所述音视频信号的双语字幕文件。

在本发明实施例中，如果生成的字幕行文本是单一语种，还可以进一步对字幕行文本进行翻译处理，生成音视频信号对应的双语字幕文件。

由于在本发明实施例中，字幕行文件中的源语言字幕行文本是基于音视频信号的语义识别结果，也即文本序列拆分得到的短句，单个源语言字幕行文本往往与其他源语言字幕行文本之间存在语义上的关联关系，如果直接对源语言字幕行文本进行翻译，得到源语言字幕行文本对应的目标语言字幕行文本，得到的翻译结果的准确度不高，且目标语言字幕行文本之间的连贯性不高，不利于用户理解音视频内容。因此，为了保证翻译结果的准确度和连贯性，在音视频信号包含的语音信息较少的情况下，可以直接对音视频信号的语音识别结果，也即文本序列进行翻译，得到目标语句。在音视频信号包含的语音信息较多的情况下，在保证翻译结果的准确度和连贯性的同时，为了提高翻译效率，可以对音视频信号的源语言字幕行文本进行合并处理，得到待翻译语句，对待翻译语句进行翻译处理得到目标语言语句。其中，得到的待翻译语句为一个整句，包含完整的语义。

在最终呈现音视频信号的字幕行时，需要保证源语言字幕行文本与目标语言字幕行文本对齐，因此，在本发明实施例中，在得到目标语言语句之后，进一步对目标语言语句进行拆分处理，得到与源语言字幕行文本对齐的目标语言字幕行文本。需要说明的是，由于在呈现音视频信号对应的字幕行时，需要保证源语言字幕行文本与目标语言字幕行文本的同步输出，因此，直接将源语言字幕行文本的起止时间作为目标语言字幕行文本的起止时间即可。

最后，根据本发明实施例中生成的源语言字幕行文本、目标语言字幕行文本以及源语言字幕行文本的起止时间，就可以生成音视频信号对应的双语字幕文件。

在本发明的一种可选实施例中，所述方法还包括：

步骤S41、获取训练样本集，所述训练样本集包括字幕语料和所述字幕语料对应的边界标签；

步骤S42、将所述字幕语料输入至预设边界检测模型中进行边界检测，得到所述字幕语料对应的检测结果；

步骤S43、基于所述字幕语料对应的检测结果和边界标签计算所述预设边界检测模型的损失值，并根据所述损失值调整所述预设边界检测模型的模型参数，直至满足收敛条件得到训练完成的字幕边界检测模型。

在本发明实施例中，为了提高边界检测模型的训练效率，可以基于获取的训练样本集对预设边界检测模型的模型参数进行调整，得到符合本发明实施例需求的边界检测模型。其中，预设边界检测模型可以选用BERT模型，或其他擅长进行序列标注的神经网络模型。具体实施时，可以先对预设边界检测模型的各个参数进行初始化，在每轮训练中字幕语料的检测结果和训练样本集中字幕语料的边界标签，计算边界检测模型的损失值，并基于损失值计算边界检测模型中节点的梯度，然后根据梯度调整边界检测模型中对应节点的模型参数。在参数调整后，进入下一轮训练，直到损失值满足收敛条件时得到训练完成的边界检测模型。

基于训练完成的边界检测模型确定文本序列的边界标签更能够符合多元化的场景需求，无需根据不同场景设置不同的边界检测规则，有利于提升边界标签的确定效率，提高字幕行的生成效果。

综上，本发明实施例在生成音视频信号对应的字幕行的过程中，对待处理的音视频信号整体进行语音识别处理，相比于传统的根据静音片段将音视频信号切分为多个语音片段，再对每个语音片段进行语音识别得到该语音片段对应的字幕，本发明实施例可以保证语音识别对象的语义完整性，有利于提升语音识别的准确性和流畅度，从而提高了生成的字幕行文件的准确性和流畅度；并且，本发明实施例通过语音识别确定音视频信号对应的文本序列后，进一步确定文本序列中的边界分词，并基于边界分词和边界分词对应的时间戳生成字幕行文件，进一步保证生成的字幕行文件的合理性，便于用户理解音视频内容。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种字幕生成装置实施例的结构框图，所述装置可以包括：

语音识别模块201，用于对待处理的音视频信号进行语音识别处理，得到所述音视频信号对应的文本序列以及所述文本序列的时间戳映射表，所述时间戳映射表包括所述文本序列中各个分词对应的时间戳；

边界分词确定模块202，用于在所述文本序列中确定边界分词；

字幕生成模块203，用于根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件。

可选地，所述边界分词确定模块，包括：

可选地，所述语义分析子模块，包括：

可选地，所述字幕生成模块，包括：

可选地，所述字幕行文本确定子模块，包括：

可选地，所述装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于生成字幕的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

A11、对待处理的音视频信号进行语音识别处理，得到所述音视频信号对应的文本序列以及所述文本序列的时间戳映射表，所述时间戳映射表包括所述文本序列中各个分词对应的时间戳；

A12、在所述文本序列中确定边界分词；

A13、根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件。

可选地，所述在所述文本序列中确定边界分词，包括：

将所述文本序列中的末位分词确定为边界分词。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对所述待翻译语句进行翻译处理，得到目标语言语句；

图3是根据一示例性实施例示出的一种用于生成字幕的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以语音处理装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的字幕生成方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种字幕生成方法，所述方法包括：对待处理的音视频信号进行语音识别处理，得到所述音视频信号对应的文本序列以及所述文本序列的时间戳映射表，所述时间戳映射表包括所述文本序列中各个分词对应的时间戳；在所述文本序列中确定边界分词；根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种字幕生成方法、一种字幕生成装置和一种用于生成字幕的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种字幕生成方法，其特征在于，所述方法包括：

在所述文本序列中确定边界分词；

2.根据权利要求1所述的方法，其特征在于，所述在所述文本序列中确定边界分词，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本序列的文本语义确定所述文本序列中的边界分词，包括：

将所述文本序列中的末位分词确定为边界分词。

4.根据权利要求1所述的方法，其特征在于，所述根据所述边界分词和所述边界分词对应的时间戳对所述文本序列进行拆分处理，生成所述音视频信号对应的字幕行文件，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述边界分词对所述文本序列进行拆分处理，得到所述音视频信号对应的字幕行文本，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述待翻译语句进行翻译处理，得到目标语言语句；

根据所述源语言字幕行文本、所述目标语言字幕行文本，以及所述源语言字幕行文本的起止时间生成所述音视频信号的双语字幕文件。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种字幕生成装置，其特征在于，所述装置包括：

边界分词确定模块，用于在所述文本序列中确定边界分词；

9.根据权利要求8所述的装置，其特征在于，所述边界分词确定模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述语义分析子模块，包括：

11.根据权利要求8所述的装置，其特征在于，所述字幕生成模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述字幕行文本确定子模块，包括：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.一种用于生成字幕的装置，其特征在于，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1至7中任一所述的字幕生成方法的指令。

15.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的字幕生成方法。