CN114694657A

CN114694657A - 用于切割音频文件的方法及其相关产品

Info

Publication number: CN114694657A
Application number: CN202210369998.7A
Authority: CN
Inventors: 王艳; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-01

Abstract

本发明的实施方式提供了一种用于切割音频文件的方法及相关产品。其中，该方法包括：获取与所述音频文件时序相关的字幕文本；对所述字幕文本进行可视化展示；以及响应于对所展示的所述字幕文本的切割操作，同步对所述字幕文本和所述音频文件进行切割以生成多个新文件。通过本发明的方案，可以基于对可视化展示的字幕文本的切割处理，实现对音频文件和字幕文本的同步切割，有效提高了切割效率。此外，还提供了一种设备和计算机可读存储介质。

Description

用于切割音频文件的方法及其相关产品

技术领域

本发明的实施方式涉及信息处理技术领域，更具体地，本发明的实施方式涉及用于切割音频文件的方法、执行前述方法的设备和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

目前语音识别技术(Automatic Speech Recognition，ASR)已经广泛应用于商业、教育、医疗等产业。其中，在教育场景下该技术大多是应用在智能硬件或终端，从而为广大学习者提供便捷的资源输出和交互方式。不仅如此，该技术在人工辅助及工具化产品中也发挥了很大的价值，如辅助人工进行多媒体资源的生产加工(例如对音视频的切割)。现有技术多依赖于视频剪切软件进行音视频的切割。具体地，在切割过程中，需要介入人工来根据所观察到的音频波形或实际听到的语音进行音频切分。这种人工切割方式仅适用于短音频的切割场景，无法解决稍长音频或者有对相应字幕文本的切割需求的场景，使得整体切割效率低，切割效果不理想。

发明内容

已知的音频切割方法耗时耗力且切割效果不理想，这是非常令人烦恼的过程。

为此，非常需要一种改进的用于切割音频文件的方案及其相关产品，可以基于对可视化展示的字幕文本的切割处理，实现对音频文件和字幕文本的同步切割，有效提高了切割效率。

在本上下文中，本发明的实施方式期望提供一种用于切割音频文件的方案及其相关产品。

在本发明实施方式的第一方面中，提供了一种用于切割音频文件的方法，包括：获取与所述音频文件时序相关的字幕文本；对所述字幕文本进行可视化展示；以及响应于对所展示的所述字幕文本的切割操作，同步对所述字幕文本和所述音频文件进行切割以生成多个新文件。

在本发明的一个实施例中，获取与所述音频文件时序相关的字幕文本包括：获取所述音频文件的语音识别文本；以及基于所述语音识别文本，生成与所述音频文件时间戳相匹配的字幕文本。

在本发明的另一个实施例中，基于所述语音识别文本，生成与所述音频文件时间戳相匹配的字幕文本包括：对所述语音识别文本进行可视化增强处理；以及基于处理后的语音识别文本，生成与所述音频文件时间戳相匹配的字幕文本。

在本发明的又一个实施例中，对所述语音识别文本进行可视化增强处理包括：获取所述音频文件的原始字幕文本；结合所述原始字幕文本，对所述语音识别文本进行可视化增强处理，其中所述可视化增强处理至少包括断句处理。

在本发明的再一个实施例中，其中所述切割操作包括对所述字幕文本进行至少一次打标操作，针对每次打标操作，同步对所述字幕文本和所述音频文件进行切割以生成多个新文件包括：确定所述打标操作在所述字幕文本中打标位置处的时间戳；对所述音频文件中具有相同所述时间戳的音频进行打标；以及对经打标的所述字幕文本和所述音频文件进行切割处理以生成多个新文件，其中所生成的多个新文件中的每个音频文件与各自的字幕文本相对应。

在本发明的一个实施例中，其中所述切割操作还包括依据段落标记对所述字幕文本进行的至少一次切割操作，针对每次切割操作，同步对所述字幕文本和所述音频文件进行切割以生成多个新文件包括：记录所述段落标记处的时间戳；展示基于所述段落标记对所述字幕文本的切割结果；响应于用户对所述切割结果的确定，生成关于所述字幕文本的新文件；以及对所述音频文件中具有所述段落标记处的时间戳的音频进行同步切割，以生成关于所述音频文件的新文件，其中关于所述字幕文本的新文件和关于所述音频文本的新文件是依据所述段落标记命名的。

在本发明的另一个实施例中，其中所述打标操作包括以下任一或多种方式组合：用户输入的打标操作；和/或依据预定时间间隔周期性执行的打标操作；和/或依据字幕文本中关键字段执行的打标操作。

在本发明的又一个实施例中，还包括：根据预存储的文件命名数据和/或实时获取到的文件命名数据，对经切割处理得到的新文件进行命名。

在本发明的再一个实施例中，针对多个所述新文件，所述方法还包括：响应于对任一所述新文件的命名进行更新，根据更新后的命名提示对其他所述新文件的命名进行更新。

在本发明的一个实施例中，对所述字幕文本进行可视化展示包括：以单行短句形式对所述字幕文本进行展示。

在本发明的另一个实施例中，所述方法还包括：在切割所述字幕文本和所述音频文件过程中，支持同步播放所述音频文件，以基于播放的所述音频文件对所述字幕文本和时间戳进行校准。

在本发明实施方式的第二方面中，提供了一种设备，包括：处理器；以及存储器，其存储有用于切割音频文件的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据前文以及下文多个实施例所述的方法。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，包含用于切割音频文件的程序指令，当所述程序指令由处理器执行时，使得所述设备执行根据前文以及下文多个实施例所述的方法。

根据本发明实施方式的用于切割音频文件的方案及其相关产品，可以对音频文件时序相关的字幕文本进行可视化展示，并基于对该字幕文本的切割处理，实现对字幕文本和音频文件的同步切割。可以看出，本发明的方案无需过多人工干预，可实现对字幕文本和音频文件的高效切割。特别是针对多次切割需求的批量化切割场景，更能凸显其操作简便性以及高效性。在本发明的一些实施例中，字幕文本可以支持一次或多次打标操作，以支持对字幕文本和音频文件的多次同步切分。

另外，在本发明的一些实施例中，还可以依据段落标记对字幕文本和音频文件进行自动同步切割，并基于段落标记自动对文件名进行命名，从而大大节省了人力资源，进一步提高切割效率。

此外，在本发明的另一些实施例中，在切割字幕文本和音频文件过程中，可以同步播放音频文件，以便基于所播放的音频文件对字幕文本和时间戳进行校准，从而提高切割结果的准确性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；

图2示意性地示出了根据本发明一个实施例的用于切割音频文件的方法流程图；

图3示意性地示出了根据本发明另一个实施例的用于切割音频文件的方法流程图；

图4示意性地示出了根据本发明实施例的前置断句模型的训练框架图；

图5示意性地示出了根据本发明实施例的基于前置断句模型对音频文件中语音进行断句的处理流程图；

图6示意性地示出了根据本发明实施例的基于加权有限状态机的文本转化过程图；

图7示意性地示出了根据本发明实施例的标点模型的训练框架图；

图8示意性地示出了根据本发明实施例的后置断句模型的训练框架图；

图9示意性地示出了根据本发明实施例的基于后置断句模型对音频文件中语音进行断句的处理流程图；以及

图10示意性地示出了根据本发明实施例的设备的示意框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”“单元”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种用于切割音频文件的方法及其相关产品。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的音频切割方式耗时耗力。例如，现有技术局限于依赖人工观察的音频波形或听到的音频结果对音频进行切割。这种人工切割方式不仅投入大量的时间成本和人力成本，且无法应对多种切割场景(例如较大的音频文件的场景、有字幕切割需求的场景或者批量多次切割音频文件的场景等)。

基于此，发明人发现可以利用与音频文件时序相关的字幕文本实现对音频文件和字幕文本的同步切割。由此，在无需人工过多干预的情况下，可实现对字幕文本和音频文件的高效且精准的切割。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图2来描述根据本发明示例性实施方式的用于切割音频文件的方法。需要注意的是，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明一个实施例的用于切割音频文件的方法200流程图。如图2所示，在步骤S201处，可以获取音频文件时序相关的字幕文本。需要说明的是，这里的音频文件可以包括歌曲、书本附赠的音频、故事音频、影视剧音频或其他形式的音视频文件等。前述的字幕文本可以理解为与音频文件中音频在时间和次序上相匹配(例如时间上对齐以及次序上对齐)。

接着，在步骤S202处，可以对字幕文本进行可视化展示。可视化展示的方式包括多种。例如，可以通过设备本身的显示组件(例如显示屏)进行展示，或者发送至指定显示设备上进行展示。由此，通过字幕文本的可视化展示，一方面便于用户直观查看到字幕文本，另一方面为后续针对字幕文本的切割操作提供必要前提条件。

接着，在步骤S203处，可以响应于对所展示的字幕文本的切割操作，同步对字幕文本和音频文件进行切割以生成多个新文件。由此，在整个切割过程中，无需过多人工干预，可基于字幕文本与音频文件的时序相关性，通过对字幕文本的切割操作来实现对字幕文本和音频文件的同步高效切割。

进一步地，前述的字幕文本的可以包括多种获取方式。例如，可以通过语音识别技术对音频文件的识别处理来得到该字幕文本。优选地，还可以获取音频文件的语音识别文本，以及基于该语音识别文本生成与音频文件时间戳相匹配的字幕文本。在一些实施例，可以利用语音识别技术ASR将前述的音频文件转换成语音识别文本。该ASR技术可以使用机器自动将用户的语音内容转换为相应的文字。需要说明的是，这里仅以ASR技术为例进行说明，本发明的方案并不受此限制。例如，还可以采用其他能够实现语音自动转换文本的技术。

进一步地，还可以对前述的语音识别文本进行可视化增强处理，以基于处理后的语音识别文本，生成与音频文件时间戳相匹配的字幕文本。这里的可视化增强处理可以理解为是能够增加语音识别文本可视性的一些处理，例如标点的添加、字体格式调整(例如大小写、斜体、加粗等)、文本书面化调整和/或断句等。需要说明的是，这里对可视化增强处理的描述仅是示例性说明，本发明的方案并不受此限制。

进一步地，在一些实施例中，若还能获取到音频文件的原始字幕文本，可以结合原始字幕文本对语音识别文本进行可视化增强处理。其中，这里的可视化增强处理可以至少包括断句处理。而原始字幕文本可以理解为未经处理的文本，可以利用原始字幕文本与经语音识别获得的语音识别文本进行文本对齐。另外，还可以利用该原始字幕文本对该语音识别文本进行标点校准，以进行断句效果的优化。

以下结合图4至图9对可视化增强处理的过程的进行详细的描述。

可以对音频文件中语音进行前置断句处理。如前所述，可视化增强处理可以包括标点的添加、字体格式调整(例如大小写、斜体、加粗等)、文本书面化调整和/或断句等处理。其中，可以利用前置断句模型和/或强制断句来对语音识别文本进行前置断句处理。例如，在一些实施例中，可以先利用前置断句模型对语音识别文本进行初步断句处理。然后，对经初步断句处理后仍然超过预定时长的音频信息进行再次断句处理，以使语音识别文本不超过预定时长。需要说明的是，这里的预定时长可以根据实际设计需求进行调整(例如20s)。在另一些实施例中，若经前置断句模型对语音初步断句处理后，得到的音频信息均不超过预定时长，则无需再进行强制断句。在又一些实施例中，还可以先进行强制断句处理，再结合前置断句模型进一步进行断句处理。在再一些实施例中，也可以仅采用强制断句处理。

在一些实施例中，可以对本发明的上下文中的前置断句模型进行预先训练。图4示意性地示出了对前置断句模型的一种可行的训练架构图400。如图4所示，前置断句模型可以包括门控递归神经网络模型GRU和条件随机场解码模块CRF。其中对该前置断句模型的训练可以包括根据带有文本标注的训练音频生成训练语料。接着，可以利用门控递归神经网络模型GRU和条件随机场解码模块CRF，对每个音频帧进行时序上的逐帧预测以得到预测的断句标签。然后，基于标注的断句标签和预测的断句标签，对所述前置断句模型进行训练。

具体地，可以对训练音频Dtrain进行文本标注，然后利用语音识别技术ASR对该训练音频Dtrain进行强制对齐，以得到音频与所对应文字在时间维度上的对齐的训练语料Xt。另外，可以标注训练语料Xt中的每一音频帧的断句标签Yt。其中断句标签类型可以包括句首静音(0)、句中静音(2)、句尾静音(3)以及音频(1)。需要说明的是，这里对断句标签的类型的划分和对应的代表数字符号仅是示例性说明，本发明的方案并不受此限制。接着，门控递归神经网络模型GRU对训练语料Xt中的每一音频帧进行时序上的逐帧预测，以得到中间变量ht。接着，中间变量ht经由条件随机场解码模块CRF处理后，得到预测的断句标签

基于标注的断句标签Yt和预测的断句标签

得到损失函数Loss，利用损失函数Loss对前置断句模型进行训练。

进一步地，在一些实施例中，可以利用图4训练得到的前置断句模型对前述的语音识别文本进行断句处理。图5示意性地示出了利用该前置断句模型的一种可行的断句处理方法500。如图5所示，在步骤S501处，可以利用前置断句模型对音频文件中语音进行时序上的逐帧预测，以获得每个音频帧的断句标签。具体地，每个音频帧的断句标签可以为句首静音、句中静音、句尾静音以及音频中的任一类型。接着，在步骤S502处，可以将音频帧中的、且类型为句尾静音的首帧确定为断句点。例如，经过前述前置断句模型预测得到一段“0011211133”的音频帧的断句标签，该段音频帧中的第9帧为首帧句尾静音(3)。此时，可以将该段音频帧中的第9帧作为断句点。

在一些实施例中，可以利用文本转换模型来实现将口语化文本转换成书面化文本。图6示意性地示出了利用文本转换模型的一种可行的转换过程600。该文本转换模型可以采用加权有限状态机。具体地，可以根据口语化文本的文本反正则化规则构造加权有限状态机(Weighted Finite-State Transducers，下文简称WFST)。接着，利用该WFST对所输入文本进行转换。如图6所示，每个虚线框代表一个基础的有限状态机单元。当输入一条文本时，会自动按照一条权重和最小的路径进行文本转换。所以，当输入为“one hundred andthirteen”时，该条文本被转换为“113”(权重和为1.1)，而不是“100and 13”(权重和为12.2)。然后，可以对转换后的文本的时间戳进行合并，以实现文本时序对齐。例如，可以将“one hundred and thirteen”四个词的时间戳合并为一个，以与文本“113”对齐。这里的口语化文本包括但不限于数字文本、金钱文本、时间文本、日期文本、单位文本以及编号文本中的一种或多种。

需要说明的是，文本转换模型也可以通过Seq2Seq架构的端到端模型来实现，其涉及的编码器/解码器可以为循环神经网络模型，也可以为Transformer类的模型。当训练数据充足时，使用端到端模型进行文本反正则化一般会比WFST的效果更好，尤其是在有误识别噪声输入的情况下。

在一些实施例中，可以利用格式调整模型对经书面化形式调整的语音识别文本进行标点和/或大小写格式的调整。图7示意性地示出了该格式调整模型的一种可行的训练框架700。如图7所示，该格式调整模型可以包括编码器、标点解码器和大小写解码器。其中，编码器包括循环神经网络模型、Transformer、BERT等基于注意力机制的模型。标点解码器和大小写解码器可以包括多层感知机、条件随机场等模型。在训练格式调整模型时，可以将训练数据集Dtrain中的训练样本X送入编码器，得到编码后的向量H。接着，将编码后的向量H分别输入标点解码器。接着将标点解码器的输出和编码后的向量H拼接输入大写解码器，标点解码器和大写解码器分别输出句子的每个词对应的标点和大小写预测序列ypunct和ycapt。然后，使用标点和大小写预测序列ypunct和ycapt与训练数据集Ypunct和Ycapt计算损失值Lpunct和Lcapt。并以此进行反向传播调整参数，反复迭代至损失值收敛以对格式调整模型进行训练。

在一些实施例中，可以采用将校准文本(也即前述的原始字幕文本)与经语音识别获得的识别文本进行文本对齐。接着，可以利用校准文本对该识别文本进行标点校准，以作为前述的训练样本X。由此，通过在识别文本上还原正确的标点，可最大程度上保证模型训练的输入数据和实际使用场景一致。使用该训练样本训练格式调整模型，有助于大大增强格式调整模型在ASR技术误识别情况下的鲁棒性。

在一些实施例中，可以利用前述训练得到的格式调整模型中的编码器(例如循环神经网络模型、Transformer、BERT等)对语音识别文本进行编码。接着，可以利用标点解码器(例如多层感知机、条件随机场等模型)对编码器的编码输出进行解码，以得到标点输出。还可以利用大小写解码器(例如多层感知机、条件随机场等模型)对编码输出和标点输出进行解码，以得到大小写输出。由此，实现对语音识别文本进行标点和大小写格式的调整。

进一步地，在一些实施例中，还可以利用后置断句模型，结合前述的语音识别文本和音频信息进行断句处理。图8示意性地示出了该后置断句模型的一种可行的训练框架800。如图8所示，后置断句模型可以包括带有注意力机制的时间卷积神经网络模型TCN和条件随机场解码模块CRF。其中注意力机制可以采用attention机制(以下简称ATT)。对该后置断句模型的训练可以包括对训练音频Dtrain进行文本标注Text，然后利用语音识别技术ASR对该训练音频Dtrain进行强制对齐，以得到音频与所对应文字在时间维度上的对齐的训练语料X。另外，可以标注训练语料X中的每一音频帧的断句标签Y。其中断句标签类型可以包括句首静音、句中静音、句尾静音以及音频。

接着，时间卷积神经网络模型TCN对训练语料X中的每一音频帧进行时序上的逐帧预测，以得到中间变量htcn。接着，可以使用ATT将中间变量htcn和所标注的文本Text进行融合并输出隐变量hatt。然后，由条件随机场解码模块CRF处理后，得到预测的断句标签

基于标注的断句标签Y和预测的断句标签

得到损失函数Loss，利用损失函数Loss对后置断句模型进行训练。

进一步地，在一些实施例中，可以利用图8训练得到的后置断句模型进行断句处理。图9示意性地示出了利用该后置断句模型的一种可行的断句处理方法900。如图9所示，在步骤S901处，可以利用前述的时间卷积神经网络模型(例如TCN)对音频文件进行编码。接着，在步骤S902处，可以利用注意力机制(例如ATT)将时间卷积神经网络模型的编码输出和音频文件对应的语音识别文本进行融合，以得到融合信息。接着，在步骤S903处，可以利用条件随机场解码模块(例如CRF)对前述融合信息进行解码，以得到音频文件中每个音频帧的断句标签。如前所述，断句标签可以包括句首静音、句中静音、句尾静音以及音频四种类型。然后，在步骤S904处，可以将每段预定时长内音频帧中的、且类型为句尾静音的首帧确定为断句点。由此，通过引入后置断句模型结合语音识别文本和音频文件进行断句处理，以基于时间卷积神经网络模型和注意力机制相结合来实现文本和语音的多模态融合，从而进一步地加强断句的精准度。

需要说明的是，上述对语音识别文本的各种可视化增强处理仅是实例性说明，本发明的方案并不局限于此。

进一步地，本发明方案中的切割操作包括多种切割方式。在一些实施例中，前述的切割操作可以包括对字幕文本进行至少一次打标操作。在一些实施场景中，前述的打标操作可以包括用户输入的打标操作、依据预定时间间隔周期性执行的打标操作以及依据字幕文本中关键字段执行的打标操作中的一种或多种打标操作的组合。

针对每次打标操作，可以确定打标操作在字幕文本中打标位置处的时间戳。接着，可以对音频文件中具有相同时间戳的音频进行打标。然后，对经打标的字幕文本和音频文件进行切割处理以生成多个新文件。其中，所生成的多个新文件中的每个音频文件与各自的字幕文本相对应。由此，可以对字幕文本进行一次或多次打标操作，从而支持对字幕文本和音频文件的多次同步切分。特别针对批量化的切割场景，更能凸显其操作简便性以及高效性。

在另一些实施例中，前述的切割操作还包括依据段落标记对字幕文本进行的至少一次切割操作。针对每次切割操作，可以记录段落标记处的时间戳。接着，可以展示基于段落标记对字幕文本的切割结果，并响应于用户对切割结果的确定，生成关于字幕文本的新文件，以及对音频文件中具有段落标记处的时间戳的音频进行同步切割，以生成关于音频文件的新文件。其中，可以通过段落标记来命名关于字幕文本和音频文件的新文件。例如，在实际应用中，在检测到文档中包含段落标记(如“page”、“section”、“unit”等字段信息)，可以将自动对文件进行切割处理。此时可以记录段落标记处的文字及时间戳等信息。然后，可以展示字幕切分结果给用户，用户可以选择接受建议或重新进行自定义切割。若用户接受切割建议，则可以将自动使用段落标记为用户生成新文件名。例如，段落标记为“page”，原文件为unit1，新文件命名将会在原文件名基础上增加page信息并按序号排序(即“unit1page1”、“unit2 page2”)。接着，同步时间戳信息后，音频文件可以同步进行切割，并保存切分好的音频和字幕文本，并按新名称(例如可以采用前文所述的段落标记命名的方式)进行存储。由此，整个切割过程可以降低甚至完全不需要人工干预，大大节省了人力资源，进一步提高切割效率。

进一步地，在一些实施例中，新文件可以包括多种命名方式。例如，可以根据预存储的文件命名数据对对经切割处理得到的新文件进行命名。又例如，还可以根据实时获取到的文件命名数据(例如用户实时输入的命名)对经切割处理得到的新文件进行命名。需要说明的是，这里对文件的命名方式的描述仅是示例性说明，本发明的方案并不受此限制。

进一步地，在一些实施例中，响应于对任一新文件的命名进行更新，根据更新后的命名提示对其他新文件的命名进行更新。由此，可以有效简化用户操作过程，并提高对命名的更新效率。特别是针对批量化的命名更新操作。

进一步地，在一些实施例中，在切割字幕文本和音频文件过程中，支持同步播放音频文件，以基于播放的音频文件对字幕文本和时间戳进行校准。由此，可以进一步提高切割结果的准确性。

进一步地，在展示字幕文本时，优选地，以单行短句形式对字幕文本进行展示。由此，避免在进行切割操作时，过多的文本信息对用户形成干扰。特别是，针对单行字幕进行多次切割时，单行短句的展示形式能够提高切割准确性。当然，还可以根据实际需求，以多行形式或单行长句形式进行展示，本发明的方案对具体的展示形式不进行限制。

图3示意性地示出了根据本发明另一个实施例的用于切割音频文件的方法300流程图。需要说明的是，方法300可以理解为是对图2中各个步骤的进一步限定和补充。因此，前文结合图2的描述同样也适用于下文。

如图3所示，在步骤S301处，可以对用户上传的单独音频文件或同时上传音频文件及配套的原始字幕文本进行预处理，以得到与音频文件时序匹配的字幕文本。其中，预处理过程可以涉及：若为纯音频文件，则可以先经过ASR技术识别为语音识别文本，并利用语音断句算法和自然语音处理技术处理(例如可以参考前文所描述的可视化增强处理过程)，以得到与音频文件时间戳相匹配的字幕文本。若用户同时上传了未经处理的字幕文本(即原始字幕文本)，则可以在音频文件的ASR处理过程中匹配该原始字幕文本。由此，可以生成与音频文件时间戳匹配的字幕文本，且ASR处理结果会基于原始字幕文本进行断句效果优化。在实际应用中，经预处理得到的字幕文本多为单行、短句显示(例如类似歌词的展示样式)，以方便用户阅读观看。由此，音频切割过程就变得可视化，不必听完整的音频也可以自如的对音频文件进行切割。

接着，在步骤S302处，可以对得到的字幕文本进行切割处理。切割处理可以包括手动切割或自动切割。在一些实施例中，用户可以直接阅读字幕文本，并在想要切分的位置进行打标，此时字幕文本的打标点可以与音频文件同步。在一些实施例中，同一个文件可以选择多个打标点，也即同一文件可以根据需求切分为多个文件。例如，一段英文课文的音频录音包含3节课的内容，用户可以在每节课结束时打标且一共标记2次，就可以将该文件切分为3个音频文件，以分别对应所需要的3节课录音。需要说明的是，这里以用户手动打标过程对切割过程进行示例性说明，本发明的方案并不受此限制。例如，可以利用预定的时间周期、关键字段或者段落标记等进行自动切割。

接着，在步骤S303处，在打标过程中，系统会利用上传至数据库的已有文件名数据及用户输入情况智能命名新文件。例如，每增加一个新的打标点，都会自动生成一个新文件名。另外，在用户输入过程中，系统也会根据上述过程中存储的数据进行自动补全和建议。例如，原文件为《小学英语unit1》，切割一次后，系统自动生成2个文件名《小学英语unit1-1》、《小学英语unit1-2》。进一步，在一些实施例中，当用户自动更新第一个文件名时，系统通过前端数据记录用户更改的文件名并存入数据库。而在用户对第二个文件重名时，可以提示用户是否需要自动更新或补全文件名。例如，原文件为《小学英语unit1》，切割后用户更新第一个文件名为《小学英语unit1-lesson1》。而当用户重命名第二个文件名时，系统会优先提示《小学英语unit1-lesson2》作为文件名，并将《小学英语unit1-2》作为候选建议保留。前述的切割以及命名更新过程可以重复多次，直到用户提交最终的切分结果。

接着，在步骤S304处，可以将切分后的文件及原文件都保存在系统中，并且所有文件都包含音频及对照字幕文本。在后续使用过程中，用户可以根据需要选择导出的文件及其格式和类型。

由此，本发明的方案可以支持只有音频文件的切割处理，也可以处理音频文件及其原始字幕文本。当用户需要切割文件时，可以根据音频对照的字幕文本，可视化的选择想要切割的位置，可以支持一个文件多次切割、支持音频及文本对照切分以及支持文件命名自动填充等，并最终生成多个相配的音频文件及字幕文本。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图10对本发明示例性实施方式的用于切割音频文件的相关产品进行描述。

图10示意性地示出了根据本发明实施例的设备1000的示意框图。如图10所示，设备1000可以包括处理器1001和存储器1002。其中存储器1002存储有用于切割音频文件的计算机指令，当所述计算机指令由处理器1001运行时，使得设备1000执行根据前文结合图2、图3、图5以及图9所描述的方法。例如，在一些实施例中，设备1000可以执行对字幕文本的获取、对字幕文本的可视化展示、对字幕文本的音频文件的同步切割以及新文件的生成等。基于此，通过设备1000可以无需过多人工干预，即可实现对字幕文本和音频文件的同步高效切割。

在一些实施场景中，设备1000可以包括具有音频文件输入、语音信息处理功能及字幕展示功能的设备(例如手机、PC等各种智能电子产品等)。在实际应用中，设备1000可以由具有上述多种功能的设备来构成，也可以由多个具有部分功能的设备组合构成。本发明的方案对设备1000可具备的结构设计并不进行限制。

应当注意，尽管在上文详细描述中提及了用于切割音频文件的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于切割音频文件的方法，其特征在于，包括：

获取与所述音频文件时序相关的字幕文本；

对所述字幕文本进行可视化展示；以及

响应于对所展示的所述字幕文本的切割操作，同步对所述字幕文本和所述音频文件进行切割以生成多个新文件。

2.根据权利要求1所述的方法，其特征在于，获取与所述音频文件时序相关的字幕文本包括：

获取所述音频文件的语音识别文本；以及

基于所述语音识别文本，生成与所述音频文件时间戳相匹配的字幕文本。

3.根据权利要求2所述的方法，其特征在于，基于所述语音识别文本，生成与所述音频文件时间戳相匹配的字幕文本包括：

对所述语音识别文本进行可视化增强处理；以及

基于处理后的语音识别文本，生成与所述音频文件时间戳相匹配的字幕文本。

4.根据权利要求3所述的方法，其特征在于，对所述语音识别文本进行可视化增强处理包括：

获取所述音频文件的原始字幕文本；

结合所述原始字幕文本，对所述语音识别文本进行可视化增强处理，其中所述可视化增强处理至少包括断句处理。

5.根据权利要求2至4中任一项所述的方法，其特征在于，其中所述切割操作包括对所述字幕文本进行至少一次打标操作，针对每次打标操作，同步对所述字幕文本和所述音频文件进行切割以生成多个新文件包括：

确定所述打标操作在所述字幕文本中打标位置处的时间戳；

对所述音频文件中具有相同所述时间戳的音频进行打标；以及

对经打标的所述字幕文本和所述音频文件进行切割处理以生成多个新文件，其中所生成的多个新文件中的每个音频文件与各自的字幕文本相对应。

6.根据权利要求2至4所述的方法，其特征在于，其中所述切割操作还包括依据段落标记对所述字幕文本进行的至少一次切割操作，针对每次切割操作，同步对所述字幕文本和所述音频文件进行切割以生成多个新文件包括：

记录所述段落标记处的时间戳；

展示基于所述段落标记对所述字幕文本的切割结果；

响应于用户对所述切割结果的确定，生成关于所述字幕文本的新文件；以及

对所述音频文件中具有所述段落标记处的时间戳的音频进行同步切割，以生成关于所述音频文件的新文件，其中关于所述字幕文本的新文件和关于所述音频文本的新文件是依据所述段落标记命名的。

7.根据权利要求5所述的方法，其特征在于，对所述字幕文本进行可视化展示包括：

以单行短句形式对所述字幕文本进行展示。

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在切割所述字幕文本和所述音频文件过程中，支持同步播放所述音频文件，以基于播放的所述音频文件对所述字幕文本和时间戳进行校准。

9.一种设备，其特征在于，包括：

处理器；以及

存储器，其存储用于切割音频文件的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据权利要求1-8的任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包含用于切割音频文件的程序指令，当所述程序指令由处理器执行时，使得实现根据权利要求1-8的任意一项所述的方法。