CN109948124B

CN109948124B - 语音文件切分方法、装置及计算机设备

Info

Publication number: CN109948124B
Application number: CN201910199148.5A
Authority: CN
Inventors: 周小星; 洪国军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2022-12-23
Anticipated expiration: 2039-03-15
Also published as: CN109948124A

Abstract

本申请公开了一种语音文件切分方法、装置及计算机设备，该方法包括：获取配音文本文件及配音的语音文件；转换出该配音文本文件中各条配音文本的拼音序列；将该语音文件拆分为多个语音段；针对待处理的目标语音段，确定目标语音段对应的第二拼音序列，及最近一个语音段组对应的第三拼音序列；依据多条配音文本的第一拼音序列，该第二拼音序列以及该第三拼音序列，确定该目标语音段与该配音文本文件中配音文本的第一匹配度，及目标语音段组与配音文本文件中配音文本的第二匹配度；如第二匹配度小于第一匹配度，将最近一个语音段组的结束位置确定为文件切分点，以切分该语音文件。本申请的方案可以更为精准、合理的对配音的语音文件进行切分。

Description

语音文件切分方法、装置及计算机设备

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音文件切分方法、装置及计算机设备。

背景技术

配音语音文件是配音人员依据配音文本文件配音出的语音文件。一般情况下，配音人员会根据配音文本文件中的多条配音文本进行连续录音，从而使得配音语音文件是针对多条配音文本的连续多条语句。

而为了使得配音语音文件可以应用于视频等场景中，需要依据配音文本文件中的多条配音文本，将配音语音文件切分为分别对应不同配音文本的语音文件分片。

然而，目前的对配音语音文件的切分仅仅适用于每条配音文本都是一个单句的情况。而很多情况下，一条配音文本可能会包含不仅包含多条语句文本，这样就增加了对配音语音文件切分的难度，对于该种情况下，目前尚未很好的解决方法。因此，在配音文本可能包含多个语句的情况下，如何将配音语音文件切分为对应不同配音文本的多个分片是本领域技术人员迫切需要解决的技术问题。

发明内容

有鉴于此，本申请提供了一种语音文件切分方法、装置及计算机设备，以实现更为精准、合理的对配音的语音文件进行切分。

为实现上述目的，一方面，本申请提供了一种语音文件切分方法，包括：

获取配音文本文件以及语音文件，所述配音文本文件包括多条配音文本，所述语音文件为基于所述配音文本文件配音出的语音文件；

分别转换出所述配音文本文件中各条配音文本的第一拼音序列；

将所述语音文件拆分为具有先后顺序的多个语音段，其中，相邻语音段之间具有语音停顿；

从所述多个语音段中，确定顺序最靠前且尚未被处理的目标语音段；

确定所述目标语音段转换出的语音文本对应的第二拼音序列，以及最近一个语音段组转换出的语音文本对应的第三拼音序列，所述最近一个语音段组由处于所述目标语音段之前最近一个文件切分点与所述目标语音段的起始位置之间的至少一个语音段组成；

依据所述配音文本文件中多条配音文本的第一拼音序列，所述第二拼音序列以及所述第三拼音序列，确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与所述配音文本文件中的配音文本的第二匹配度，所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成；

在所述第二匹配度小于所述第一匹配度的情况下，将所述最近一个语音段组的结束位置确定为文件切分点，以便基于确定出的文件切分点切分所述语音文件。

优选的，所述依据所述配音文本文件中多条配音文本的第一拼音序列，所述第二拼音序列以及所述第三拼音序列，确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与所述配音文本文件中的配音文本的第二匹配度，包括：

依据所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序，将所述目标语音段对应的第二拼音序列与所述最近一个语音段组对应的第三拼音序列拼接为第四拼音序列，其中，所述第四拼音序列用于表征由所述目标语音段与所述最近一个语音段组中至少一个语音段按照先后顺序拼接出的目标语音段组所对应的拼音序列；

针对所述配音文本文件中每条配音文本，计算该目标语音段对应的第二拼音序列与该配音文本的第一拼音序列之间的编辑距离，并基于该编辑距离确定所述目标语音段与该配音文本之间的匹配度；

确定所述配音文本文件中与该目标语音段的匹配度最高的第一配音文本，并得到该第一配音文本与该目标语音段之间的第一匹配度；

针对所述配音文本文件中每条配音文本，计算该第四拼音序列与该配音文本的第一拼音序列之间的编辑距离，并基于该编辑距离确定所述目标语音段组与该配音文本之间的匹配度；

确定所述配音文本文件中与该目标语音段组的匹配度最高的第二配音文本，并得到该第二配音文本与该目标语音段组之间的第二匹配度。

又一方面，本申请还提供了一种语音文件切分装置，包括：

文件获取单元，用于获取配音文本文件以及语音文件，所述配音文本文件包括多条配音文本，所述语音文件为基于所述配音文本文件配音出的语音文件；

第一拼音确定单元，用于分别转换出所述配音文本文件中各条配音文本的第一拼音序列；

文件段拆分单元，用于将所述语音文件拆分为具有先后顺序的多个语音段，其中，相邻语音段之间具有语音停顿；

语音段选取单元，用于从所述多个语音段中，确定顺序最靠前且尚未被处理的目标语音段；

第二拼音确定单元，用于确定所述目标语音段转换出的语音文本对应的第二拼音序列，以及最近一个语音段组转换出的语音文本对应的第三拼音序列，所述最近一个语音段组由处于所述目标语音段之前最近一个文件切分点与所述目标语音段的起始位置之间的至少一个语音段组成；

匹配度确定单元，用于依据所述配音文本文件中多条配音文本的第一拼音序列，所述第二拼音序列以及所述第三拼音序列，确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与所述配音文本文件中的配音文本的第二匹配度，所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成；

文件切分确定单元，用于在所述第二匹配度小于所述第一匹配度的情况下，将所述最近一个语音段组的结束位置确定为文件切分点，以便基于确定出的文件切分点切分所述语音文件。

又一方面，本申请还提供了一种计算机设备，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于：

可见，本申请实施例，在将基于配音文本文件配音出的语音文件拆分为多个语音段之后，会按照该多个语音段的先后顺序确定出当前待处理的目标语音段。针对当前待处理的目标语音段，依据配音文本文件中各条配音文本的拼音序列、该目标语音段对应的拼音序列以及该目标语音段之前尚未确定结束位置的最近一个语音段组对应的拼音序列，确定该目标语音段与该配音文本文件中的配音文本的第一匹配度，以及目标语音段与最近一个语音段组组成的目标语音段组与该配音文本文件中的配音文本的第二匹配度。由于基于一条配音文本配音出的语音信号所转换出的拼音序列与该配音文本的拼音序列具有相似性，因此，如果第二匹配度小于第一匹配度，则说明该目标语音段与最近一个语音段组拼接后属于某一条配音文本的配音语音的可能性相对较低，即，该目标语音段与该最近一个语音段组与不同的配音文本匹配，在该种情况下，则可以确认需要将该最近一个语音段的结束位置确定为一个文件切分点，从而可以更为合理、准确的确定出语音文件的文件切分点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请的方案所适用的一种计算机设备的一种组成架构示意图；

图2示出了本申请一种语音文件切分方法一个实施例的流程示意图；

图3示出了本申请实现文件切分的整体流程框架的示意图；

图4示出了本申请一种语音文件切分方法又一个实施例的流程示意图；

图5示出了本申请计算机设备在语音文件切分中获取到的输入内容以及输出的输出内容的示意图；

图6示出了本申请一种语音文本切分装置的一种组成结构示意图；

图7示出了本申请中匹配度确定单元的一种组成结构示意图。

具体实施方式

本申请的方案适用于对配音出的语音文件进行切分，以将语音文件切分为多个对应不同配音文本的语音文件分片。

本申请的发明人经过研究发现：在如果配音文本文件中存在不仅包括一条语句的配音文本的情况下，那么为了能够从配音出的语音文件中拆分出对应各个配音文本的语句文件分片，则需要人工监听该语音文件，并根据听到的语音内容与配音文本文件中的配音文本进行比对，来确定出语音文件中对应一条配音文本的起始位置和结束位置，然后再进行语音文件的切分。但是这一过程需要用户反复播放语音文件并不断比对配音文本，整个过程耗时较长，较为耗费人力。

发明人进一步研究发现：对于一个配音文本文件而言，在得到配音的语音文件之后，通过语音识别将语音文件转换为语音文本，可以通过将语音文件转换出的语音文本与配音文本文件中的配音文本进行比对，来实现对语音文件进行拆分。但是，由于不同配音员的语速、音色以及文本内容等因素的影响，直接利用语音识别将语音文件转换为语音文本有可能会存在识别错误，从而导致基于语音文件识别来切分语音文本也会存在错误。然而，对于一条配音文本，不同配音员配音出的语音文件所转换出的语音文本与该配音文本的发音上存在相似性，且语音识别出的语音文本的文字长度也会该配音文本的文字长度一致。

基于以上发现，发明人想到，可以依据配音出的语音文件对应的语音文本所转换出的拼音序列，与配音文本文件中配音文本的拼音序列进行比对，以从语音文件中确定出与不同配音文本匹配的语音文件分片，从而切分出各个文件切分点，实现语音文件的切分。

本申请的方案可以应用于个人计算机、服务器等各种类型的计算机设备。如图1，示出了本申请适用的计算机设备的一种组成架构示意图。

由图1可以看出，该计算机设备100可以包括：处理器101、存储器102、通信接口103、输入单元104和显示器105和通信总线106。其中，处理器101、存储器102、通信接口103、输入单元104、显示器105、均通过通信总线106完成相互间的通信。

其中，该处理器101，可以为中央处理器或可编程逻辑器件等。该处理器可以调用存储器102中存储的程序，具体的，处理器可以执行如下图2以及图5所示流程中的操作。

存储器102中用于存放一个或一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请中，该存储器中至少存储有用于实现以下功能的程序：

获取配音文本文件以及语音文件，该配音文本文件包括多条配音文本，该语音文件为基于该配音文本文件配音出的语音文件；

分别转换出该配音文本文件中各条配音文本的第一拼音序列；

将该语音文件拆分为具有先后顺序的多个语音段，其中，相邻语音段之间具有语音停顿；

从该多个语音段中，确定顺序最靠前且尚未被处理的目标语音段；

确定该目标语音段转换出的语音文本对应的第二拼音序列，以及最近一个语音段组转换出的语音文本对应的第三拼音序列，该最近一个语音段组由处于该目标语音段之前最近一个文件切分点与该目标语音段的起始位置之间的至少一个语音段组成；

依据该配音文本文件中多条配音文本的第一拼音序列，该第二拼音序列以及该第三拼音序列，确定该目标语音段与该配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与该配音文本文件中的配音文本的第二匹配度，该目标语音段组由该最近一个语音段组中至少一个语音段与目标语音段组成；

在该第二匹配度小于该第一匹配度的情况下，将该最近一个语音段组的结束位置确定为文件切分点，以便基于确定出的文件切分点切分该语音文件。

在一种可能的实现方式中，该存储器102可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统等；存储数据区可存储根据计算机的使用过程中所创建的数据。

该通信接口103可以为通信模块的接口。本申请还可以包括显示器104和输入单元105，该显示器104包括显示面板，如触摸显示面板等；该输入单元可以触摸感应单元、键盘等等。

当然，图1所示的计算机设备结构并不构成对本申请实施例中计算机设备的限定，在实际应用中计算机设备可以包括比图1所示的更多或更少的部件，或者组合某些部件。

结合以上共性，下面对本申请的一种语音文件切分方法进行介绍。

如图2，其示出了本申请一种语音文件切分方法一个实施例的流程示意图，该方法应用于该计算机设备。本实施例的方法可以包括：

S201，获取配音文本文件以及语音文件。

其中，配音文本文件包括：多条配音文本。在本申请实施例中，每条配音文本可以包括一条或者多条语句文本。

该语音文件为基于该配音文本文件配音出的语音所组成的文件。

S202，分别转换出该配音文本文件中各条配音文本的第一拼音序列。

可以理解的是，由于配音文本是至少一条语句文本，因此可以将配音文本转换为其包含的至少一条语句文本对应的拼音序列。其中，为了便于区分，将配音文本转换出的拼音序列称为第一拼音序列。

可选的，为了避免提高后续确定匹配度的精准性，本申请实施例中的拼音序列均可以为无调的拼音序列，也就是说，拼音序列包括至少一个拼音字母，但不包含拼音声调。

可以理解是，在本申请将语句文本或者语音文本等转换为拼音序列的具体方式可以有多种，无论采取哪种方式均适用于本申请，对此不加限制。

S203，将该语音文件拆分为具有先后顺序的多个语音段。

其中，相邻语音段之间具有语音停顿。

可以理解的是，语音文件中语音停顿可以表示一句语句结束或者语句暂停等，因此，基于语音文件中的语音停顿将语音文件拆分为多个语音段，每个语句段表征一个短语句，从而在保证语音段中语句完整性的前提下，又有利于后续更为便捷的确定文件切分点。

如，在确定出多帧语音信号中的静音帧之后，可以将静音帧之后第一帧语音信号确定为一个语音段的开始，并将下一个静音帧的开始作为该语音段的结束。

其中，基于语音文件中的语音停顿将语音文件拆分多个语音段的实现可以有多种。如，在一种实现方式中，可以对语音文件进行分帧处理，以得到多帧语音信号。然后，确定该多帧语音信号中的静音帧，并基于确定出的静音帧，将该语音文件拆分为具有先后顺序的多个语音段。

其中，可以按照设定的语音帧长对语音文件进行分帧。

为了确定静音帧，可以设定用于判断语音起始和结束的能量阈值。相应的，如果一帧语音信号的帧能量，则该帧语音信号为静音帧。当然，还可以结合能量低于能量阈值的总时长超过保持时长，则判断该帧属于静音帧或者一段语音属于静音。

S204，从该多个语音段中，确定顺序最靠前且尚未被处理的目标语音段。

可以理解的是，本申请会按照多个语音段的先后顺序，依次将各个语音段作为当前待处理的语音段，因此，在每次会将顺序靠前且尚未被处理的语音段作为当前需处理的语音段。同时，为了便于区分，将当前待处理的语音段称为目标语音段。

如，多个语音段中最靠前的第一个语音段会被作为第一个目标语音段，则基于该第一个目标语音段执行了后续操作之后，会重新返回该步骤S204，并将第二个语音段作为目标语音段，并执行后续操作，直至所有语音段均已作为目标语音段被处理。

S205，确定该目标语音段转换出的语音文本对应的第二拼音序列，以及最近一个语音段组转换出的语音文本对应的第三拼音序列。

可以理解的是，为了便于区分，将目标语音段转换出的语音文本对应的拼音序列称为第二拼音序列，而将该最近一个语音段组转换出的语音文本所对应的拼音序列称为第三拼音序列。

其中，该最近一个语音段组由处于该目标语音段之前最近一个文件切分点与该目标语音段的起始位置之间的至少一个语音段组成。该最近一个语音段组可以看成由该目标语音段组之前最近一个未确定文件切分的切分结束位置的至少一个语音段组成。

如，假设目标语音段为多个语音段中排序为第三个的语音段，即第三个语音段，如果第一个语音段的结尾位置为一个文件切分点，则最近一个语音段组仅包括第二个语音段，则该最近一个语音段组对应的拼音序列就是第二个语音段转换的语义文本对应的拼音序列。如果该第三个语音段之前不存在文件切分点，则将该语音文本的开始位置确定为文件切分点，在该种情况下，则第一个语音段和第二个语音段就组成了最近一个语音段组，相应的，最近一个语音段组的拼音序列为由第一个语音段的语音文本转换出拼音序列与该第二个语音段的语音文本转换出的拼音序列按照先后顺序拼接而成。

可以理解的是，在目标语音段为第一个语音段的情况下，由于第一个语音段之前不存在语音段，所以无法得到第三拼音序列，自然也无法得到后续的第一匹配度。在该种情况下，只需确定该第一个语音段组的第二拼音序列，并确定出第一语音段对应的第一匹配度，并返回执行步骤S204。

S206，依据该配音文本文件中多条配音文本的第一拼音序列，该第二拼音序列以及该第三拼音序列，确定该目标语音段与该配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与该配音文本文件中的配音文本的第二匹配度。

其中，该目标语音段组由该最近一个语音段组中至少一个语音段与目标语音段组成。具体的，该最近一个语音段中的至少一个语音段与该目标语音段按照语音段的先后顺序组合为目标语音段组。

其中，为了便于区分，将目标语音段与配音文本文件中配音文本的匹配度称为第一匹配度，而将目标语音段组与该配音文本文件中的配音文本的匹配度称为第二匹配度。

可选的，由于配音文本文件中配音文本有多条，而考虑到配音文本与语音段或者语音段组的匹配度越高，则说明该语音段或者语音段组属于该配音文本对应配音的概率越大。因此，可以将与该目标语音段的匹配度最高的配音文本所对应的匹配度确定为第一匹配度。相应的，将配音文本文件中与该目标语音段组的匹配度最高的配音文本所对应的匹配度确定为该第二匹配度。

可以理解的是，由前面发明人的研究发现可知，通过目标语音段对应的第二拼音序列与配音文本的第一拼音序列的匹配度可以反映出该目标语音段与该配音文本的匹配度。因此，在该步骤S206中，可以计算第二拼音序列分别与配音文本的第一拼音序列的匹配度，从而基于第二拼音序列与配音文本的第一拼音序列的匹配度，确定目标语音段与该配音文本的匹配度。相应的，目标语音段组与该配音文本的匹配度也通过类似方式确定。

作为一种可选方式，该第一匹配度可以通过如下方式得到：

针对配音文本文件中每条配音文本，计算该目标语音段对应的第二拼音序列与该配音文本的第一拼音序列之间的编辑距离，并基于该编辑距离确定该目标语音段与该配音文本之间的匹配度。相应的，确定该配音文本文件中与该目标语音段的匹配度最高的第一配音文本，并将该第一配音文本与该目标语音段之间的匹配度确定为第一匹配度。

相应的，该第二匹配度可以通过如下方式得到：

依据该目标语音段与该最近一个语音段组中至少一个语音段之间的先后顺序，将该目标语音段对应的第二拼音序列与该最近一个语音段组对应的第三拼音序列拼接为第四拼音序列。其中，该第四拼音序列用于表征由该目标语音段与该最近一个语音段组中至少一个语音段按照先后顺序拼接出的目标语音段组所对应的拼音序列。

然后，针对该配音文本文件中每条配音文本，计算该第四拼音序列与该配音文本的第一拼音序列之间的编辑距离，并基于该编辑距离确定该目标语音段组与该配音文本之间的匹配度。最后，确定该配音文本文件中与该目标语音段组的匹配度最高的第二配音文本，并将该第二配音文本与该目标语音段组之间匹配度确定为第二匹配度。

S207，在该第二匹配度小于该第一匹配度的情况下，将该最近一个语音段组的结束位置确定为文件切分点，以便基于确定出的文件切分点切分该语音文件。

其中，文件切分点为该对该语音文件切分的切分位置点，通过文件切分点可以将语音文件切分为多个语音文件分片。

可以理解的是，如果该第二匹配度小于该第一匹配度，则说明相对于该目标语音段与配音文本文件中配音文本的匹配度，将该目标语音段与该最近一个语音段组拼接的目标语音段组之后，该目标语音段组与配音文本文件中的配音文本的匹配度更小。由此可知，该目标语音段不可能与最近一个语音段组拼接为与配音文本匹配的配音文本匹配度更高的配音，在该种情况下，则说明该目标语音段的开始位置就是最近一个语音段组对应的配音文本的配音的结束位置，因此，可以将该最近一个语音段的结束位置确定为该语音文件的文件切分点。

同时，本申请实施例中的方案可以实现由计算机设备来完成语音文件的文件切分，进而可以避免人工切分语音文件所导致的人力资源耗费以及效率低等问题。

可选的，本申请还可以确定该最近一个语音段组与该配音文本文件中的配音文本的第三匹配度。其中，第三匹配度为基于该最近一个语音段组的第三拼音序列以及该配音文本文件中多条配音文本的第一拼音序列得到的。相应的，如果该在第二匹配度小于该第三匹配度的情况下，也可以将该最近一个语音段组的结束位置确定为文件切分点。

其中，该第三匹配度可以按照前面计算第一匹配度和第一匹配度的方式计算得到。具体的，针对配音文本文件中每个配音文本，可以分别计算该最近一个语音段组的第三拼音序列与该配音文本的第一拼音序列的编辑距离，并基于该编辑距离确定该第三拼音序列与该配音文本的第一拼音序列的匹配度。然后，将与该第三拼音序列的匹配度最高的配音文本(为了便于区分，称为第三配音文本)与该第三拼音序列的匹配度，并将该匹配度确定为最近一个语音段组与该配音文本文件的配音文本的第三匹配度。

在实际应用中，针对该目标语音段，可以在需要该第三匹配度时，实时计算该第三匹配度。当然，考虑到处理该目标语音段之前的前一个语音段时，已经计算过该最近一个语音段组与配音文本文件的第三匹配度，则此处可以直接获取缓存的该第三匹配度。

可以理解的是，与前面第一匹配度与第二匹配度的关系相似，如果该第二匹配度小于该第三匹配度，则说明相对于该最近一个语音段组与配音文本文件中配音文本的匹配度，将该目标语音段与该最近一个语音段组拼接的目标语音段组之后，该目标语音段组与配音文本文件中的配音文本的匹配度更小，即相比较而言，配音文本文件中存在与该最近一个语音段组匹配度更高的配音文件。在该种情况下，则说明该目标语音段的开始位置就是最近一个语音段组对应的配音文本的配音的结束位置，因此，可以将该最近一个语音段的结束位置确定为该语音文件的文件切分点。

相反的，对于目标语音段与最近一个语音段组的至少一个语音段拼接出的目标语音段而言，如果该第二匹配度不小于该第一匹配度或者第二匹配度，则说明相当于目标语音段与配音文本文件中各个配音文件的匹配度，或者相对于最近一个语音段与配音文本的匹配度，该配音文本文件中存在与该目标语音段组的匹配度更高的配音文本。在该种情况下，则说明相对于目标语音段组或者最近一个语音段组作为配音文本中某个配音文本的完整配音的概率而言，该目标语音段组属于该配音文本文件中某个配音文本文件的完整配音的概率更大，因此，该目标语音段与最近一个语音段组之间不可能切分。

因此，在该第二匹配度不小于该第一匹配度和第三匹配度的情况下，则需要将该目标语音段与最近一个语音段拼接为目标语音段组。如，可以按照目标语音段与最近一个语音段组中至少一个语音段之间的先后顺序，将目标语音段与该最近一个语音段组中的至少一个语音段拼接为该目标语音段组。

可选的，为了处理目标语音段之后的下一个语音段时，可以快速确定下一个语音段对应的最近一个语音段组及其与配音文本文件的匹配度，还可以缓存该目标语音段以及该目标语音段对应的第三匹配度。

可以理解的是，在对语音文件切分时，为了能够确定出切分出的每个语音文件切片是配音文本文件中哪个配音文本对应的语音配音，还需要根据与该语音文件切片匹配的配音文本进行命名。

在一种实现方式中，本申请的配音文本文件中每条配音文本都对应一个唯一的标识号，其中，配音文本的标识号用于标识该配音文本。如，该标识号可以为配音文本在配音文本文件中的顺序编号或者索引。又如，该标识号可以为配音文本的文件名称。

相应的，在通过本申请以上提到的任意一种方式将该最近一个语音段组的结束位置确定为文件切分点之后，还需要确定配音文本文件中与该最近一个语音段组的匹配度最高的第三配音文本，将该第三配音文本确定为与该最近一个语音段组对应的语音文件切片匹配的配音文本。相应的，可以基于该第三配音文本的标识号确定该最近一个语音段组对应的语音文件切片的文件切片名称。其中，最近一个语音段组对应的语音文件切片，为该最近一个语音段组的起始位置到该当前确定出的文件切分点之间的语音文件部分。

其中，基于第三配音文本文的标识号确定该语音文件切片的文件切片名称的方式可以有多种。如，可以将该第二配音文本的编号或者文件名称作为该最近一个语音段组对应的语音文件切片的文件切片名称。

可以理解的是，为了便于完整理解本申请的方案，可以参见图3，其示出了本申请实现文件切分的整体流程框架的示意图。由图3可以看出：

对于配音文本文件，需要将将配音文本文件中每条配音文本转换为拼音序列。

对于语音文件，先将语音文件切分为语音段。而对于当前待处理的语音段，需要将该语音段通过语音识别转换为文本序列，然后再通过汉字转拼音的方式，转换出该语音段对应的拼音序列。同时，还需要将该语音段的拼音序列与语音文件中最近一个文件切分点到该语音段的起始位置之间的至少一个语音段的拼音序列进行拼音序列组合。

对于该语音段的拼音序列以及该拼音序列组合均需要与该配音文本文件中各条配音文本的拼音序列进行编辑距离计算，从而基于计算出的各个编辑距离，确定是否适合切分。同时，在切分语音文件之后，还可以根据配音文本的索引(也可以为编号等)，对切分出的语音文件进行文件命名。

下面结合图3的流程框架进行具体介绍。如图4，示出了本申请一种语音文件切分方法又一个实施例的流程示意图，该方法应用于计算机设备，包括：

S401，获取配音文本文件以及语音文件。

该语音文件为基于该配音文本文件配音出的语音文件。

S402，解析配音文本文件，确定出该配音文本文件中包括的多条配音文本以及每条配音文本的编号。

本实施例是以配音文本的标识号为编号为例，但是其他方式也同样适用。

S403，通过该汉字转拼音的方式，分别转换出该配音文本文件中每条配音文本各自的第一拼音序列。

其中，汉字转拼音是文本转换拼音序列的一种方式，对于其他方式同样适用于本实施例。

S404，对语音文件进行分帧处理，得到多帧语音信号。

S405，结合预设的能量阈值，确定出多帧语音信号中的静音帧，并基于静音帧将语音文件拆分为具有先后顺序的多个语音段。

S406，针对语音文件拆分出的每个语音段，将该语音段转换为语音文本，并将语音文本转换为拼音序列，得到该语音段对应的第二拼音序列。

其中，该步骤S404到S406对应图3中将语音文件进行语音分段的一种实现方式，对于其他情况也适用于本实施例，具体可以参见前面实施例的相关介绍，在此不再赘述。

需要说明的是，在本申请实施例中，是以将语音段与配音文本匹配之前，先转换出每个语音段的拼音序列，其目的是可以避免每次匹配语音段与配音文本都需要转换拼音序列，而导致匹配过程的复杂度较高。

S407，按照语音文件拆分出的多个语音段的先后顺序，确定出当前待处理的目标语音段。

S408，如果该目标语音段为语音文件拆分出的第一个语音段，则针对配音文本文件中的每条配音文本，计算该第一个语音段的第二拼音序列与该配音文本的第一拼音序列的编辑距离，并对该编辑距离进行归一化，得到该第一个语音段的第二拼音序列与该配音文本的第一拼音序列之间的匹配度，执行步骤S409。

其中，第一个语音段的拼音序列与该配音文本的拼音序列之间的匹配度实际上就是该第一个语音段与该配音文本的匹配度。

可以理解的是，两个拼音序列之间的匹配度(即相似性)可以通过多种方式确定，本实施例是以基于编辑距离确定两个拼音序列之间的匹配度为例。

其中，编辑距离是针对二个字符串(如，两个拼音序列)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。

为了便于理解，下面对本申请确定两个拼音序列之间的编辑距离的过程进行介绍。

其中，确定编辑距离涉及到以下几个参数：

(1)、词插入的距离代价insCost；

(2)、词删除的距离代价delCost；

(3)、词替代的距离代价wordCost；

其中，由于拼音字符分为声母sm和韵母ym，声母之间替换的代价表示为smCost，韵母之间的替换代价表示为ymCost，则词替代的距离代价wordCost可以表示为如下公式一：

wordCost＝sqrt(smCost*smCost+ymCost*ymCost)， (公式一)；

在本申请实施例中，考虑到对配音语音识别出的词个数的准确性最高，因此，可以设定词插入的距离代价最高，词删除的距离代价次之，而词替代的距离代价相对最低，基于此，可以预先设定词插入的距离大家、词删除的距离代价以及词替代的距离代价各自对应的代价值。如，可以设定insCost＝4，delCost＝2，smCost＝1，ymCost＝1。

在本申请，两个拼音序列之间的编辑距离可以通过动态规划算法得到。

如，假设存在两个拼音序列分别为：拼音序列S((sm1，ym1)，…，(smm,ymm))；拼音序列T((sm1,ym1)，…，(smn,ymn))。

其中，拼音序列S的长度为m，其中，拼音序列S中smi表示第i个拼音中的声母；ymi为第i个拼音中的韵母，i为从1到m的自然数；，拼音序列T的长度为n，在拼音序列T中smj表示第j个拼音中的声母；ymi为第j个拼音中的韵母，j为从1到m的自然数。

则，确定这两个拼音序列的编辑距离可以包括以下几个步骤：

(1)、初始化如下表1的距离矩阵：

表1

(2)、逐行逐列计算该距离矩阵中每项D(i，j)，该D(i，j)的计算公式参见如下公式二：

D(i，j)＝min(D(i-1，j)+insCost，D(i，j-1)+delCost，D(j，j)+wordCost)

(公式二)；

(3)确定拼音序列S和拼音序列T的编辑距离为：D(m，n)的取值。

当然，以上仅仅是计算编辑距离的一种方式，对于其他方式也同样适用于本申请实施例。

可以理解的两个拼音序列的编辑距离越小，这两个拼音序列的匹配度越高，即相似性越高。

为了能够比较不同对拼音序列之间的匹配度的高度，本申请以通过对两个拼音序列的编辑距离进行归一化来确定两个拼音序列的匹配度为例说明。

其中，对编辑距离进行归一化的方式也可以有多种，下面以一种方式为例说明。如，语音段(或者至少一个语音段组成的语音段组)的拼音序列与配音文本的拼音序列的匹配度可以通过如下公式三得到：

匹配度＝1-D/(L*wordCost) (公式三)；

其中，D为语音段的拼音序列与配音文本的拼音序列之间的编辑距离。L为配音文本的拼音序列的长度(拼音数量)，wordCost为前面提到的词替换的距离代价。其中，计算出的匹配度为大于等于0的数值。

可以理解的是，通过公式可以准确反映出语音段的拼音序列与配音文本的匹配程度。同时可以得到如下结论：

如果待匹配的拼音序列与配音文本的拼音序列完全一致，则D＝0，此时S＝1，表示待匹配的语音段(或者多个语音段组成的语音段组)与配音文本完全匹配；如果待匹配的拼音序列与配音文本的拼音序列的词完全替换，D＝L*wordCost，此时S＝0，则表示语音段(或者多个语音段组成的语音段组)与配音文本完全不匹配；待匹配的拼音序列中插入词越多，D越大，S越小；待匹配的拼音序列存在的遗漏词越多，D越大，S越小，但相比插入容忍度更高；待匹配的拼音序列存在的替换词越多，D越大，S越小，容忍度最高。

S409，从该配音文本文件中确定第一拼音序列与该第一个语音段的第二拼音序列之间的匹配度最高的第一配音文本，并确定该第一配音文本的第一拼音序列与该第一语音段的第二拼音序列之间的第一匹配度，返回步骤S407；

其中，为了便于区分，将第二拼音序列与当前待匹配的目标语音段的第一拼音序列的匹配度最高的配音文本称为第一配音文本。相应的，将第一配音文本的拼音序列与该目标语音段的拼音序列之间的匹配度称为第一匹配度。

其中，该第一匹配度就可以认为是该目标语音段与该第一配音文本之间的匹配度，也是该目标语音段与配音文本文件中各个配音文本的匹配度中的最大匹配度。

可以理解的是，由于第一个语音段的初始位置可以看成是该语音文件的一个文件切分点，但是该语音段之前并不存在其他语音段，从而无需执行后续匹配度比较的操作。

而且，对于第一个语音段只能是判断该第一个语音段是否为配音文本文件中某个配音文本对应的完整配音。而判断该第一个语音段是否为某个配音文本对应的完整配音，则需要结合该第一个语音段与各个配音文本的匹配度，以及第一个语音段与第二语音段拼接后的语音段组与各个配音文本的匹配度来综合确定，即需要在处理第二个语音段时，来判断该第一个语音段的结束位置是否为一个文件切分点。因此，对于第一个语音段，则仅需要该第一匹配文本以及相应的第一匹配度，以为后续处理第二个语音段做准备。

S410，如果该目标语音段不是该语音文件拆分出的第一个语音段，则针对配音文本文件中的每条配音文本，计算该目标语音段的第二拼音序列与该配音文本的第一拼音序列之间的编辑距离，并对该编辑距离进行归一化，得到该目标语音段的第一拼音序列与该配音文本的第二拼音序列之间的匹配度。

该步骤与前面步骤S408的过程相似，具体可以参见前面的相关介绍，在此不再赘述。

S411，从该配音文本文件中确定第一拼音序列与该目标语音段的第二拼音序列之间的匹配度最高的第一配音文本，并确定该第一配音文本的第一拼音序列与该目标语音段的第二拼音序列之间的第一匹配度。

S412，获取目标语音段之前的最近一个语音段组以及最近一个语音段组对应的第三拼音序列。

其中，该最近一个语音段组由处于该目标语音段的起始位置与该目标语音段之前最近一个文件切分点之间至少一个语音段组成。

该第三拼音序列由该最近一个语音段组中各个语音段的第二拼音序列拼接得到。

可以理解的是，该步骤S412可以是实时确定该最近一个语音段组的第三拼音序列，考虑到上一次匹配时，已经确定出该最近一个语音段组对应的拼音序列，则可以直接获取上一次匹配过程中确定出的该最近一个语音段组的拼音序列作为该第三拼音序列。

其中，该步骤S412的顺序并不限于图4所示，在实际应用中，该步骤S412也可以是确定出目标语音段不是该语音文件拆分出的第一个语音段之后任意一个时刻执行，如在步骤S410和S411之前执行，或者是与步骤S410或S411同时执行。

S413，依据该目标语音段与该最近一个语音段组中至少一个语音段之间的先后顺序，将目标语音段对应的第二拼音序列与该最近一个语音段组对应的该第三拼音序列拼接为第四拼音序列。

其中，该第四拼音序列用于表征由该目标语音段与该最近一个语音段组中至少一个语音段按照先后顺序拼接出的目标语音段组所对应的拼音序列。

可以理解的是，由于目标语音段为最近一个语音段组之后的语音段，因此，将最近一个语音段组的第三拼音序列之后拼接该第二拼音序列就得到了该第四拼接序列。

在本申请实施例中，将该目标语音段的第二拼音序列与该最近一个语音段对应的第三拼音序列拼接为第四拼接序列的目的是为了后续利用该第四拼音序列与配音文本文件中的配音文本计算匹配度，以得到将该目标语音段与该最近一个语音段组拼接成的目标语音段组与配音文本文件中的配音文本的匹配度。

举例说明，如果待匹配的目标语音段为语音文件拆分出的第二个语音段，由于第二个语音段的起始位置与最近一个文件切分点之间为第一个语音段，而该最近一个语音段组为第一个语音段，因此，第一个语音段对应的拼音序列为该第三拼音序列。相应的，将该第一个语音段的拼音序列与第二个语音段的拼音序列拼接到一起就组成了该第四拼音序列。该第四拼音序列表征该第一个语音段与第二个语音段拼接成的语音段组转换出的语音文本对应的拼音序列。

又如，假设目标语音段为第三个语音段，假设在处理第二个语音段的过程中确定出该第一个语音段与第二个语音段之间不存在文件切分点，则第三个语音段组对应的最近一个语音段组为由第一个和第二个语音段拼接成的语音段组。相应的，该最近一个语音段组对应的第三拼音序列为由第一个语音段的拼音序列与第二个语音段的拼音序列按照先后顺序拼接而成。同时，该第四拼音序列为由第一个语音段、第二个语音段以及第三个语音段的拼音序列依次拼接而成。如果假设第一个语音段的结束位置为一个文件切分点，则第三个语音段对应的最近一个语音段组就是由第二个语音段构成，其他类似。

S414，针对该配音文本文件中每条配音文本，计算该第四拼音序列与该配音文本的第一拼音序列之间的编辑距离，并对该编辑距离进行归一化，得到该第四拼音序列与该配音文本的第一拼音序列之间的匹配度。

S415，从配音文本文件中确定第一拼音序列与该第四拼音序列的匹配度最高的第二配音文本，并得到该第二配音文本的第一拼音序列与该第四拼音序列之间的第二匹配度。

其中，该第四拼音序列与该配音文本的第一拼音序列之间的匹配度就表征了该目标语音段与最近一个语音段组组成的目标语音段组与该配音文本之间的匹配度。相应的，由于该第二配音文本的第一拼音序列与该第四拼音序列的匹配度最高，因此，该目标语音段组与配音文本文件中该第二配音文本的匹配度最高，且匹配度为该第二匹配度。

与前面实施例相似，本申请实施例中，该第一匹配度与第二匹配度仅仅是为了区分两对拼音序列各自对应的匹配度，并不用于限制匹配度的大小与顺序。

需要说明的是，与步骤S412相似，该步骤S413到S415可以在步骤S412之后执行，但是顺序并不限于图4所示，在实际应用中，这几个步骤也可以是在S410和S411之前执行，或者与S410或S411同时执行。

S416，获取配音文本文件中第一拼音序列与该最近一个语音段组对应的第三拼音序列的匹配度最高的第三配音文本的编号，以及第三配音文本的第一拼音序列与该第三拼音序列之间的第三匹配度。

可以理解的是，配音文本文件中，对应的第一拼音序列与该最近一个语音段组的第三拼音序列匹配度最高的第三配音文本以及该第三匹配度可以是在确定出该目标语音段之后实时确定。考虑到在处理该目标语音段之前最近一个语音段时，会确定出该最近一个语音段的第三配音文本以及该第三匹配度，则可以直接获取缓存的该第三配音文本的编号以及该第三匹配度。

可以理解的是，在缓存有该最近一个语音段对应的拼音序列以及第三配音文本等数据的情况下，该步骤S416可以与步骤S412一并执行。当然，也可以根据需要在该步骤S412至S415之间的任意一个步骤执行。

S417，检测该第二匹配度是否不小于第一匹配度和第三匹配度，如果是，则执行步骤S418；如果否，则执行步骤S419；

由前面可知，第一匹配度实际上就表征了该第一配音文本与目标语音段的第一匹配度。相应的，第三匹配度表征目标语音段之前最近一个语音段组与第三配音文本的匹配度；而第二匹配度表征该最近一个语音段组与该目标语音段组成的目标语音段组与第二配音文本的匹配度。因此，如果第二匹配度大小第一匹配度或者第三匹配度，则说明将该目标语音段与最近一个语音段组拼接之后，会降低与配音文本文件中配音文本的匹配程度，从而得出目标语音段与最近一个语音段组之间不可能属于同一个配音文本对应的同一段配音，因此，需要执行S419的操作，以进行切分操作。

S418，在该第二匹配度不小于第一匹配度和第三匹配度的情况下，按照目标语音段与该最近一个语音段组中至少一个语音段之间的先后顺序，将该目标语音段与该最近一个语音段组中的至少一个语音段拼接为目标语音段组，并缓存该目标语音段组对应的该第四拼音序列、与该目标语音段的匹配度最高的第二配音文本以及第二匹配度，并执行S421；

可以理解的是，如果目标语音段与最近一个语音段组不适合切分的情况下，为了确定该目标语音段与该最近一个语音段组是否为一段配音文本的完整配音，则需要执行步骤S421检测该语音文件是否到达尾端，如果未到达尾端，则需要通过对目标语音段之后的下一个语音段的匹配，来最终确定该目标语音段组的结束位置是否为一个文件切分点。

由前面的步骤可知，该步骤S418为可选步骤，其目的是为了在处理该目标语音段之后的下一个语音段时，可以直接将该目标语音段组作为该下一个语音段对应的最近一个语音段组，从而直接获取相应的拼音序列以及匹配度最高的配音文本和最高匹配度。

S419，在该第二匹配度小于该第一匹配度或者第三匹配度的情况下，将该最近一个语音段的结束位置确定为语音文件的一个文件切分点。

可选的，在该步骤S419之后同样会缓存该目标语音段对应的第二拼音序列、第一配音文本以及第一配音文本与该目标语音段之间的第一匹配度，以便将该目标语音段作为下一个语音段的最近一个语音段时，可以直接获取到相应数据。

S420，将该第三配音文本确定为与该最近一个语音段组对应的语音文件切片匹配的配音文本，并基于该第三配音文本的编号确定该最近一个语音段组对应的语音文件切分的编号。

可以理解的是，在人工切分语音文件以及为切分出的语音文件进行命名的方式中，如果配音过程中出现中间缺语句或者语句重复等，则需要人工手动修改切分出的语音文件的编号，否则就可能出现命名错误。而本申请实施例由于每个语音段处理过程中，均会确定与语音段或者语音段对应的最近一个语音段组最匹配的配音文本，因此，即使语音文件中存在缺句以及语句重读等，也不会影响到配音文本的匹配，从而可以基于匹配出的配音文本的标号自动对切分出的语音文件分片进行编号或命名，有利于提高文件切分以及命名的效率。

S421，检测该语音文件拆分出的多个语音段中是否存在尚未被处理的语音段，如果是，则返回执行步骤S407；如果否，则结束。

可以理解是，如果语音文件中不存在尚未处理的语音段，则说明该语音文件处理完成，从而得到基于所有文件切分点切分出的多个语音文件切片。

可以理解的是，在本申请以上任意一个实施例中，考虑到配音过程中有可能会存在配音错误或者配音异常，而使得语音文件拆分出的某个语音段与配音文本文件中任意一个配音文本的匹配度均较低。因此，为了避免匹配错误，如果语音段或者至少一个语音段组成的语音段组与配音文本文件中的配音文本的匹配度较低，则需要将该语音段或者语音段组识别出异常语音，并最终输出异常语音，以便由人工再进行处理，以提高匹配的精准度。

如图5所示，本申请实施例中获取到配音文本文件和语音文件之后，最终不仅会得到配音文本文件以及语音文件中切分的语音文件，还会得到未经切分的语音文件。

具体的，在本申请以上任意一个实施例中，在确定出待处理的目标语音段与配音文本文件中的配音文本的第一匹配度之后，还需要检测该第一匹配度是否小于设定阈值。如果第一匹配度小于设定阈值，则会从多个语音段中，重新确定顺序最靠前且尚未被处理的目标语音段。相应的，在该第一匹配度不小于设定阈值的情况下，则可以检测该第二匹配度是否小于该第一匹配度。

可选的，在第一匹配度小于设定阈值的情况下，还可以检测该目标语音段之前的最近一个语音段组与配音文本文件中的配音文本的第三匹配度是否小于设定阈值。如果该第三匹配度也小于设定阈值，则将该最近一个语音短租与该目标语音段组拼接为目标语音段组，并执行从多个语音段中确定顺序最靠前且尚未被处理的语音段的操作，以重新确定下一个语音段。如果该第三匹配度不小于设定阈值，则可以直接执行确定下一个待匹配的语音段。

相应的，如果第一匹配度不小于设定阈值，而最近一个语音段组对应的第三匹配度小于设定阈值，则可以将最近一个语音段组标记为异常语音文件段并输出；同时，还会从语音文件中确定下一个待匹配的语音段。

可以理解的是，此处所提到的该第一匹配度、第二匹配度和第三匹配度可以参见前面任意一个实施例的相关介绍，在此不再赘述。

对应本申请的一种语音文件切分方法，本申请还提供了一种语音文件切分装置。

如图6，其示出了本申请一种语音文件切分装置一个实施例的组成结构示意图，本实施例的装置可以应用于计算机设备，包括：

文件获取单元601，用于获取配音文本文件以及语音文件，所述配音文本文件包括多条配音文本，所述语音文件为基于所述配音文本文件配音出的语音文件；

第一拼音确定单元602，用于分别转换出所述配音文本文件中各条配音文本的第一拼音序列；

文件段拆分单元603，用于将所述语音文件拆分为具有先后顺序的多个语音段，其中，相邻语音段之间具有语音停顿；

语音段选取单元604，用于从所述多个语音段中，确定顺序最靠前且尚未被处理的目标语音段；

第二拼音确定单元605，用于确定所述目标语音段转换出的语音文本对应的第二拼音序列，以及最近一个语音段组转换出的语音文本对应的第三拼音序列，所述最近一个语音段组由处于所述目标语音段之前最近一个文件切分点与所述目标语音段的起始位置之间的至少一个语音段组成；

匹配度确定单元606，用于依据所述配音文本文件中多条配音文本的第一拼音序列，所述第二拼音序列以及所述第三拼音序列，确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与所述配音文本文件中的配音文本的第二匹配度，所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成；

文件切分确定单元607，用于在所述第二匹配度小于所述第一匹配度的情况下，将所述最近一个语音段组的结束位置确定为文件切分点，以便基于确定出的文件切分点切分所述语音文件。

在一种可能的实现方式中，该匹配度确定单元606可以包括如下几个单元：

拼音拼接单元6061，用于依据所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序，将所述目标语音段对应的第二拼音序列与所述最近一个语音段组对应的第三拼音序列拼接为第四拼音序列，其中，所述第四拼音序列用于表征由所述目标语音段与所述最近一个语音段组中至少一个语音段按照先后顺序拼接出的目标语音段组所对应的拼音序列；

第一匹配计算单元6062，用于针对所述配音文本文件中每条配音文本，计算该目标语音段对应的第二拼音序列与该配音文本的第一拼音序列之间的编辑距离，并基于该编辑距离确定所述目标语音段与该配音文本之间的匹配度；

第一匹配确定单元6063，用于确定所述配音文本文件中与该目标语音段的匹配度最高的第一配音文本，并得到该第一配音文本与该目标语音段之间的第一匹配度；

第二匹配计算单元6064，用于针对所述配音文本文件中每条配音文本，计算该第四拼音序列与该配音文本的第一拼音序列之间的编辑距离，并基于该编辑距离确定所述目标语音段组与该配音文本之间的匹配度；

第二匹配确定单元6065，用于确定所述配音文本文件中与该目标语音段组的匹配度最高的第二配音文本，并得到该第二配音文本与该目标语音段组之间的第二匹配度。

可选的，在以上任意一个装置的实施例中，该文件获取单元获取到的配音文本文件中每条配音文本对应唯一的一个标识号；

相应的，该装置还可以包括：

文本确定单元，用于在将所述文件切分确定单元将最近一个语音段组的结束位置确定为文件切分点之后，从所述配音文本文件中确定与所述最近一个语音段组的匹配度最高的第三配音文本；

分片命名单元，用于将所述第三配音文本确定为与所述最近一个语音段组对应的语音文件切片匹配的配音文本，并基于所述第三配音文本的标识号确定所述最近一个语音段组对应的语音文件切片的文件切片名称。

可选的，以上任意一个装置的实施例中，该装置还可以包括：

组匹配确定单元，用于确定所述最近一个语音段组与所述配音文本文件中的配音文本的第三匹配度，所述第三匹配度为基于所述最近一个语音段组的第三拼音序列以及所述配音文本文件中多条配音文本的第一拼音序列得到的；

相应的，该文件切分确定单元，具体用于，在所述第二匹配度小于所述第一匹配度或者第三匹配度的情况下，将所述最近一个语音段组的结束位置确定为文件切分点。

可选的，该装置还可以包括：

段拼接单元，用于在所述第二匹配度不小于所述第一匹配度和第三匹配度的情况下，则按照所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序，将所述目标语音段与所述最近一个语音段组中的至少一个语音段拼接为所述目标语音段组。

可选的，在以上装置实施例中，该文件段拆分单元，包括：

文件分帧子单元，用于对所述语音文件进行分帧处理，得到多帧语音信号；

静音帧确定子单元，用于确定所述多帧语音信号中的静音帧；

段拆分子单元，用于基于确定出的静音帧，将所述语音文件拆分为具有先后顺序的多个语音段。

可选的，该装置还可以包括：

匹配阈值检测单元，用于在匹配度确定单元确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度之后，检测所述第一匹配度是否小于设定阈值；

异常标记单元，用于在所述第一匹配度小于设定阈值的情况下，将所述目标语音段标记为待人工处理的异常语音段，并返回执行语音段选取单元的操作；

匹配度比较单元，用于在所述第一匹配度不小于设定阈值的情况下，检测所述第二匹配度是否小于所述第一匹配度。

另一方面，本申请还提供了一种存储介质，该存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现如上任意一个实施例中所描述的语音文件切分方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音文件切分方法，其特征在于，包括：

依据所述配音文本文件中多条配音文本的第一拼音序列，所述第二拼音序列以及所述第三拼音序列，确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与所述配音文本文件中的配音文本的第二匹配度，所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成，其中，所述第一匹配度为通过所述第一拼音序列与所述第二拼音序列所确定的匹配度，所述第二匹配度为通过第四拼音序列与所述第一拼音序列所确定的匹配度，依据所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序，将所述目标语音段对应的第二拼音序列与所述最近一个语音段组对应的第三拼音序列拼接为所述第四拼音序列，所述第四拼音序列用于表征由所述目标语音段与所述最近一个语音段组中至少一个语音段按照先后顺序拼接出的目标语音段组所对应的拼音序列；

2.根据权利要求1所述的语音文件切分方法，其特征在于，所述依据所述配音文本文件中多条配音文本的第一拼音序列，所述第二拼音序列以及所述第三拼音序列，确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与所述配音文本文件中的配音文本的第二匹配度，包括：

3.根据权利要求1或2所述的语音文件切分方法，其特征在于，所述配音文本文件中每条配音文本对应唯一的一个标识号；

在将所述最近一个语音段组的结束位置确定为文件切分点之后，还包括：

从所述配音文本文件中确定与所述最近一个语音段组的匹配度最高的第三配音文本；

将所述第三配音文本确定为与所述最近一个语音段组对应的语音文件切片匹配的配音文本，并基于所述第三配音文本的标识号确定所述最近一个语音段组对应的语音文件切片的文件切片名称。

4.根据权利要求1或2所述的语音文件切分方法，其特征在于，还包括：

确定所述最近一个语音段组与所述配音文本文件中的配音文本的第三匹配度，所述第三匹配度为基于所述最近一个语音段组的第三拼音序列以及所述配音文本文件中多条配音文本的第一拼音序列得到的；

所述在所述第二匹配度小于所述第一匹配度的情况下，将所述最近一个语音段组的结束位置确定为文件切分点，包括：

在所述第二匹配度小于所述第一匹配度或者第三匹配度的情况下，将所述最近一个语音段组的结束位置确定为文件切分点。

5.根据权利要求4所述的语音文件切分方法，其特征在于，还包括：

在所述第二匹配度不小于所述第一匹配度和第三匹配度的情况下，按照所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序，将所述目标语音段与所述最近一个语音段组中的至少一个语音段拼接为所述目标语音段组。

6.根据权利要求1所述的语音文件切分方法，其特征在于，所述将所述语音文件拆分为具有先后顺序的多个语音段，包括：

对所述语音文件进行分帧处理，得到多帧语音信号；

确定所述多帧语音信号中的静音帧；

基于确定出的静音帧，将所述语音文件拆分为具有先后顺序的多个语音段。

7.根据权利要求1所述的语音文件切分方法，其特征在于，在确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度之后，还包括：

检测所述第一匹配度是否小于设定阈值；

在所述第一匹配度小于设定阈值的情况下，将所述目标语音段标记为待人工处理的异常语音段，并返回执行从所述多个语音段中，确定顺序最靠前且尚未被处理的目标语音段的操作；

在所述第一匹配度不小于设定阈值的情况下，检测所述第二匹配度是否小于所述第一匹配度。

8.一种语音文件切分装置，其特征在于，包括：

匹配度确定单元，用于依据所述配音文本文件中多条配音文本的第一拼音序列，所述第二拼音序列以及所述第三拼音序列，确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度，以及，目标语音段组与所述配音文本文件中的配音文本的第二匹配度，所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成，其中，所述第一匹配度为通过所述第一拼音序列与所述第二拼音序列所确定的匹配度，所述第二匹配度为通过第四拼音序列与所述第一拼音序列所确定的匹配度，依据所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序，将所述目标语音段对应的第二拼音序列与所述最近一个语音段组对应的第三拼音序列拼接为所述第四拼音序列，所述第四拼音序列用于表征由所述目标语音段与所述最近一个语音段组中至少一个语音段按照先后顺序拼接出的目标语音段组所对应的拼音序列；

9.根据权利要求8所述的语音文件切分装置，其特征在于，所述匹配度确定单元，包括：

第一匹配计算单元，用于针对所述配音文本文件中每条配音文本，计算该目标语音段对应的第二拼音序列与该配音文本的第一拼音序列之间的编辑距离，并基于该编辑距离确定所述目标语音段与该配音文本之间的匹配度；

第一匹配确定单元，用于确定所述配音文本文件中与该目标语音段的匹配度最高的第一配音文本，并得到该第一配音文本与该目标语音段之间的第一匹配度；

第二匹配计算单元，用于针对所述配音文本文件中每条配音文本，计算该第四拼音序列与该配音文本的第一拼音序列之间的编辑距离，并基于该编辑距离确定所述目标语音段组与该配音文本之间的匹配度；

第二匹配确定单元，用于确定所述配音文本文件中与该目标语音段组的匹配度最高的第二配音文本，并得到该第二配音文本与该目标语音段组之间的第二匹配度。

10.一种计算机设备，其特征在于，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于：