CN104978961B

CN104978961B - 一种音频处理方法、装置及终端

Info

Publication number: CN104978961B
Application number: CN201510270567.5A
Authority: CN
Inventors: 赵伟峰
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2019-10-15
Anticipated expiration: 2035-05-25
Also published as: CN104978961A

Abstract

本发明实施例提供一种音频处理方法、装置及终端，其中的方法可包括：获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成；根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素；按照预设段落总数对所述字幕特征序列进行优化；根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间；按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。本发明可基于音频文件对应的字幕文件中的字符单句的相似性实现对目标音频文件的段落划分，提升分段处理效率，提升音频处理的智能性。

Description

一种音频处理方法、装置及终端

技术领域

本发明互联网技术领域，具体涉及音频处理技术领域，尤其涉及一种音频处理方法、装置及终端。

背景技术

随着互联网技术的发展，互联网音频库中收录了大量的诸如歌曲、歌曲片段等音频文件，关于互联网音频的应用也日渐增多，例如：K歌系统、听歌系统等等。许多音频文件的应用场景需要对音频文件进行段落划分，例如：K歌系统中要实现歌曲分段合唱时，通常需要对歌曲进行段落划分；再如：听歌系统中需要重点听取歌曲片段时，通常需要对歌曲进行段落划分；等等。目前，通常采用人工对音频文件进行段落划分，分段处理效率较低，无法满足用户对音频文件的使用需求，从而降低了音频处理的智能性。

发明内容

本发明实施例提供一种音频处理方法、装置及终端，可基于音频文件对应的字幕文件中的字符单句的相似性实现对目标音频文件的段落划分，提升分段处理效率，提升音频处理的智能性。

本发明实施例第一方面提供一种音频处理方法，可包括：

获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成；

根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素；

按照预设段落总数对所述字幕特征序列进行优化；

根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间；

按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。

本发明实施例第二方面提供一种音频处理装置，可包括：

获取单元，用于获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成；

构建单元，用于根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素；

优化单元，用于按照预设段落总数对所述字幕特征序列进行优化；

确定单元，用于根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间；

分段单元，用于按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。

本发明实施例第三方面提供一种终端，可包括上述第二方面提供的音频处理装置。

实施本发明实施例，具有如下有益效果：

本发明实施例中，可根据目标音频文件对应的字幕文件中的至少一个字符单句之间的相似度构建字幕特征序列，按照预设段落总数对所述字幕特征序列进行优化，并根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间，然后按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落，该音频处理过程利用字幕段落之间的字符单句的相似性特点，基于字幕文件中的字符单句的相似性实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频处理方法的流程图；

图2为本发明实施例提供的另一种音频处理方法的流程图；

图3为本发明实施例提供的一种音频处理装置的结构示意图；

图4为图3所示的构建单元的实施例的结构示意图；

图5为图3所示的优化单元的实施例的结构示意图；

图6为图5所示的优化处理单元的实施例的结构示意图；

图7为图3所示的确定单元的实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段等文件。字幕文件可以包括但不限于：歌词、歌词片段等文件。一个音频文件可对应一个字幕文件。一个字幕文件可由至少一个字符单句顺序排列而成，以歌曲A为例，歌曲A对应的字幕文件可表示如下：

[641，770]，[641，20]a₁[661，60]a₂[721，170]a₃[891，200]a₄[1091，70]a₅[1161，180]a₆[1341，20]a₇[1361，50]a₈

[1541，180]，[1541，20]b₁[1561，50]b₂[1611，20]b₃[1631，30]b₄[1661，0]b₅[1661，10]b₆[1671，20]b₇[1701，30]b₈

[1871，730]，[1871，60]c₁[1931，100]c₂[2031，110]c₃[2141，200]c₄[2341，70]c₅[2411，60]c₆[2471，50]c₇[2421，80]c₈

……

上述歌曲A对应的字幕文件中，诸如“a₁a₂a₃a₄a₅a₆a₇a₈”、“b₁b₂b₃b₄b₅b₆b₇b₈”、“c₁c₂c₃c₄c₅c₆c₇c₈”可分别用于表示一个字符单句，各字符单句之前的“[]”用于描述对应的字符单句的时间属性，其单位时间通常为ms，例如：上述[641，770]用于描述字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的时间属性，其中的“641”表示字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的开始时间，“770”表示字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的持续时间，假设歌曲A共5分钟，字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”则从第641ms开始演唱，持续770ms结束演唱。各字符单句中，每个字符之前的“[]”用于描述对应的字符的时间属性，其单位时间通常为ms，例如：上述[641，20]用于描述字符“a₁”的时间属性，其中的“641”表示字符“a₁”的开始时间，“20”表示字符“a₁”的持续时间。按照开始时间的先后顺序，可确定字幕文件包含的各字符单句的顺序，例如：根据上述歌曲A对应的字幕文件的描述，字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”为第一个字符单句；字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”为第二个字符单句；字符单句“c₁c₂c₃c₄c₅c₆c₇c₈”为第三个字符单句，以此类推。其中，字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”和字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”为字符单句“c₁c₂c₃c₄c₅c₆c₇c₈”的在先字符单句，字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”和字符单句“c₁c₂c₃c₄c₅c₆c₇c₈”为字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的在后字符单句，以此类推。进一步，字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”为字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”的相邻在先字符单句；字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”为字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”的相邻在后字符单句，以此类推。

一个音频文件可以被划分为多个音频段落，音频段落之间通常具备一定的重复性；那么，一个字幕文件可对应分为多个字幕段落，字幕段落之间具备一定的相似性，也就是说，字幕段落之间所包含的字符单句存在一定的相似性。本发明实施例可利用上述的字幕段落之间的字符单句的相似性特点，基于字幕文件中的字符单句的相似性实现对目标音频文件的段落划分。

基于上述描述，下面将结合附图1-附图2，对本发明实施例提供的音频处理方法进行详细介绍。

请参见图1，为本发明实施例提供的一种音频处理方法的流程图；该方法可包括以下步骤S101-步骤S105。

S101，获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

一个音频文件对应一个字幕文件。通常，互联网音频库中会存储多个音频文件、每个音频文件的属性以及每个音频文件对应的字幕文件，其中，音频文件的属性可包括但不限于：音频文件的音频特征、音频文件的标识等等。本步骤中，可以从互联网音频库中获取目标音频文件对应的字幕文件；具体的获取方式可包括但不限于：可以根据目标音频文件的标识，在互联网音频库中查找该目标音频文件对应的字幕文件，并获取所查找到的字幕文件；或者，可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配，由此在互联网音频库中定位目标音频文件，并获取对应的字幕文件。

本发明实施例中，假设目标音频文件为歌曲A，歌曲A对应的字幕文件的结构可参见本实施例所示例子，假设所述字幕文件由N(N为正整数)个字符单句顺序组成，假设该N个字符单句采用p(0)至p(N-1)进行表示，那么，p(0)可用于表示第一个字符单句“a₁a₂a₃a₄a₅a₆a₇a₈”，p(1)可用于表示第二个字符单句“b₁b₂b₃b₄b₅b₆b₇b₈”，p(2)可用于表示第三个字符单句“c₁c₂c₃c₄c₅c₆c₇c₈”，以此类推，p(N-1)用于表示第N个字符单句。

S102，根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素。

所述字幕特征序列可用于反映所述至少一个字符单句之间的相似度。本步骤中，首先可以采用相似度算法计算所述至少一个字符单句之间的相似度，此处需要计算每个字符单句与其在后字符单句之间的相似度，也就是说，需要计算p(0)与p(1)之间的相似度、p(0)与p(2)之间的相似度……p(0)与p(N-1)之间的相似度；计算p(1)与p(2)之间的相似度、p(1)与p(3)之间的相似度……p(1)与p(N-1)之间的相似度；以此类推。其中，相似度算法可包括但不限于：编辑距离算法(Levenshtein Distance)、最长公共子串算法(LongestCommon Subsequences，LCS)、Heckel算法、贪心字符串匹配算法(Greedy String Tiling，GST)等等。其次可以根据所述至少一个字符单句的数量、顺序以及计算获得的相似度构建所述字幕特征序列。

按照本实施例所示例子，假设采用s(n)来表示所述字幕特征序列，则所构建的字幕特征序列s(n)共包括N个字符特征元素，分别为s(0)、s(1)…s(N-1)。其中，s(0)的数值可用于描述p(0)与其在后字符单句之间的相似情况；s(1)的数值可用于描述p(1)与其在后字符单句之间的相似情况；以此类推。

S103，按照预设段落总数对所述字幕特征序列进行优化。

所述预设段落总数可以根据用户对目标音频文件的实际分段需求设定。假设采用M(M为正整数且M>1)表示所述预设段落总数，则按照预设段落总数M对所述字幕特征序列s(n)进行优化的目的在于，使优化后的所述字幕特征序列s(n)刚好能够被划分为预设段落总数M个字幕段落，以满足对目标音频文件的实际分段需求。

S104，根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间。

其中，优化后的所述字幕特征序列s(n)刚好能够被划分为预设段落总数M个字幕段落，同时，所述字幕特征序列s(n)中的字符特征元素的数值可用于描述字符单句之间的相似情况，那么，根据优化后的所述字幕特征序列s(n)中的字符特征元素的数值可以确定M个字幕段落的转折点，进一步可从字幕文件中获得M个字幕段落的起止时间。

S105，按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。由于音频文件与字幕文件相互对应，那么，按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

本发明实施例中，可根据目标音频文件对应的字幕文件中的至少一个字符单句之间的相似度构建字幕特征序列，按照预设段落总数对所述字幕特征序列进行优化，并根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间，然后按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落，音频处理过程利用字幕段落之间的字符单句的相似性特点，基于字幕文件中的字符单句的相似性实现对目标音频文件的段落划分，可提升分段处理效率，提升音频处理的智能性。

请参见图2，为本发明实施例提供的另一种音频处理方法的流程图；该方法可包括以下步骤S201-步骤S213。

S201，获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

本实施例的步骤S201可参见图1所示实施例的步骤S101，在此不赘述。

S202，根据所述至少一个字符单句的数量确定构建字幕特征序列的字符特征元素的数量。

所述字幕文件由N(N为正整数)个字符单句顺序组成，即所述至少一个字符单句的数量为N，那么，本步骤可确定所述字幕特征序列的字符特征元素的数量也为N，即所述字幕特征序列的长度为N。假设采用s(n)来表示所述字幕特征序列，则所构建的字幕特征序列s(n)共包括N个字符特征元素，分别为s(0)、s(1)…s(N-1)。

S203，根据所述至少一个字符单句中各字符单句的顺序，确定构建所述字幕特征序列的各字符特征元素的索引。

所述字幕文件N个字符单句的顺序排列为p(0)、p(1)…p(N-1)，假设所述字幕特征序列s(n)中：s(0)对应p(0)，s(1)对应p(1)，以此类推、s(N-1)对应p(N-1)。那么，所述字幕特征序列s(n)中s(0)的索引为1，即第一个字符特征元素；s(1)的索引为2，即第二个字符特征元素；以此类推，s(N-1)的索引为N，即第N个字符特征元素。

S204，将构建所述字幕特征序列的各字符特征元素的数值均设置为初始值。

所述初始值可以根据实际需要进行设定，本实施例中可假设所述初始值为0，那么，本步骤可设置所述字幕特征序列s(n)中所有字符特征元素的数值均为0，也就是说，s(0)＝0，s(1)＝0…s(N-1)＝0。

S205，针对所述至少一个字符单句中的任一个目标字符单句，若所述目标字符单句与所述目标字符单句的在后字符单句之间的最大相似度大于预设相似阀值，将所述目标字符单句对应的字符特征元素的数值从初始值变更为目标值。

本步骤S205的具体处理过程可包括如下s11-s13：

s11，采用相似度算法计算所述至少一个字符单句之间的相似度，此处需要计算每个字符单句与其在后字符单句之间的相似度，也就是说，需要计算p(0)与p(1)之间的相似度、p(0)与p(2)之间的相似度……p(0)与p(N-1)之间的相似度；计算p(1)与p(2)之间的相似度、p(1)与p(3)之间的相似度……p(1)与p(N-1)之间的相似度；以此类推。其中，相似度算法可包括但不限于：编辑距离算法、最长公共子串算法、Heckel算法、贪心字符串匹配算法等等。需要说明的是，为了方便计算，计算获得的相似度均归一化至[0，1]的区间内，若某两个字符单句之间的相似度等于0，表明该两个字符单句完全不同；若某两个字符单句之间的相似度等于1，表明该两个字符单句完全相同。

s12，提取每个字符单句与其在后字符单句之间的最大相似度，例如：假设经过计算p(0)与其在后字符单句p(1)至p(N-1)之间，p(0)与p(2)之间的相似度最大为Q₀₂，则提取Q₀₂；再如：假设经过计算p(1)与其在后字符单句p(2)至p(N-1)之间，p(1)与p(5)之间的相似度最大为Q₁₅，则提取Q₁₅，等等。

s13，分别判断所提取的最大相似度是否大于预设相似阀值，根据判断结果变更设置相应字符特征元素的数值。其中，所述预设相似阀值可以根据实际需要进行设定，该预设相似阀值可采用Th表示，且0≤Th≤1。所述目标值可以根据实际需要进行设定，且所述目标值大于所述初始值，本实施例可设定所述目标值为1。按照步骤s12所示例子，例如：判断Q₀₂是否大于预设相似阀值Th，如果Q₀₂>Th，那么将p(0)对应的s(0)的数值从0变更为1，即s(0)＝1；再如：判断Q₁₅是否大于预设相似阀值Th，如果Q₁₅>Th，那么将p(1)对应的s(1)的数值从0变更为1，即s(1)＝1，等等。

S206，按照构建所述字幕特征序列的字符特征元素的数量、索引及数值，构建所述字幕特征序列。

所构建的所述字幕特征序列为s(n)，s(n)是由N个字符特征元素s(0)、s(1)…s(N-1)顺序组成，且所述字幕特征序列s(n)中各字符特征元素的数值形成由0和1组成的序列。

本实施例的步骤S202-步骤S206可以为图1所示实施例的步骤S102的具体细化步骤。

S207，统计所述字幕特征序列中数值为目标值的字符特征元素的数量。按照本实施例所示例子，本步骤需要统计所述字幕特征序列s(n)中数值为1的字符特征元素的数量。

S208，判断所述数量是否位于所述预设段落总数对应的容错区间内；若判断结果为是，转入步骤S210；若判断结果为否，转入步骤S209。

假设采用M(M为正整数且M>1)表示所述预设段落总数，所述预设段落总数M对应的容错区间可表示为[M-u，M+u](u为整数)，其中u表示一个整数范围区间，可以根据实际需要进行设定。本步骤中，需要判断所统计的所述字幕特征序列s(n)中数值为1的字符特征元素的数量是否位于[M-u，M+u]的区间内，如果判断结果为是，表明所述字幕特征序列s(n)能够被划分为预设段落总数M个字幕段落，以满足对目标音频文件的实际分段需求。如果判断结果为否，表明所述字幕特征序列s(n)无法很好地被划分为预设段落总数M个字幕段落，无法满足对目标音频文件的实际分段需求，需要进行一些调整。

S209，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值。

本步骤的调整过程可包括以下步骤s21-s22：

s21，若所述数量大于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长增大所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

如果所述数量大于M+u，则需要按照预设步长增大所述预设相似阀值Th的值，并重新执行上述步骤s13以调整所述字幕特征序列中的各字符特征元素的数值。

s22，若所述数量小于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长减小所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

如果所述数量小于M-u，则需要按照预设步长减小所述预设相似阀值Th的值，并重新执行上述步骤s13以调整所述字幕特征序列中的各字符特征元素的数值。

步骤s21-s22中，所述预设步长可以根据实际需要进行设定，所述预设步长可以为固定步长，即每次采用固定步长增大或减小所述预设相似阀值Th的值；所述预设步长也可以为随机步长，即每次采用不同步长增大或减小所述预设相似阀值Th的值。

本实施例的步骤S207-步骤S209可以为图1所示实施例的步骤S103的具体细化步骤。

S210，从优化后的所述字幕特征序列中获取数值为目标值的字符特征元素对应的目标索引。假设优化后的所述字幕特征序列s(n)中s(0)＝0，s(1)＝0…s(4)＝1…s(10)＝1…s(N-1)＝0，由于s(4)＝1和s(10)＝1，s(4)对应的索引为5，s(10)对应的索引为11，本步骤可获得目标索引为5和11。

S211，根据所述目标索引在所述字幕文件中定位段落转折的字符单句。

所述目标索引为5和11，则可在所述字幕文件中定位段落转折的字符单句为第5个字符单句和第11个字符单句，也就是说，第5个字符单句为一个字幕段落的起始位置，即所述字幕文件中第1-4个字符单句构成一个字幕段落；第11个字符单句为另一个字幕段落的起始位置，即所述字幕文件中第5-10个字符单句构成一个字幕段落。

S212，根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。

由于所述字幕文件中记录了每个字符单句的时间属性，包括每个字符单句的开始时间、持续时间、结束时间；本步骤可以从所述字幕文件中读取段落变化时间，按照本实施例所示例子，所述字幕文件中第1-4个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第4个字符单句的结束时间和第5个字符单句的开始时间；所述字幕文件中第5-10个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第10个字符单句的结束时间和第11个字符单句的开始时间。

本实施例的步骤S210-步骤S212可以为图1所示实施例的步骤S104的具体细化步骤。依据步骤S210-步骤S212可获得M个字幕段落的起止时间。

S213，按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。由于音频文件与字幕文件相互对应，那么，按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

本实施例的步骤S213可参见图1所示实施例的步骤S105，在此不赘述。

下述将结合附图3-附图7，对本发明实施例提供的音频处理装置的结构和功能进行详细介绍。需要说明的是，下述附图3-附图7的所示的装置可以运行于终端中，以被应用于执行上述附图1-附图2所示的方法。

请参见图3，为本发明实施例提供的一种音频处理装置的结构示意图；该装置可包括：获取单元101、构建单元102、优化单元103、确定单元104和分段单元105。

获取单元101，用于获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成。

一个音频文件对应一个字幕文件。通常，互联网音频库中会存储多个音频文件、每个音频文件的属性以及每个音频文件对应的字幕文件，其中，音频文件的属性可包括但不限于：音频文件的音频特征、音频文件的标识等等。所述获取单元101可以从互联网音频库中获取目标音频文件对应的字幕文件；具体的获取方式可包括但不限于：可以根据目标音频文件的标识，在互联网音频库中查找该目标音频文件对应的字幕文件，并获取所查找到的字幕文件；或者，可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配，由此在互联网音频库中定位目标音频文件，并获取对应的字幕文件。

构建单元102，用于根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素。

所述字幕特征序列可用于反映所述至少一个字符单句之间的相似度。首先所述构建单元102可以采用相似度算法计算所述至少一个字符单句之间的相似度，此处需要计算每个字符单句与其在后字符单句之间的相似度，也就是说，需要计算p(0)与p(1)之间的相似度、p(0)与p(2)之间的相似度……p(0)与p(N-1)之间的相似度；计算p(1)与p(2)之间的相似度、p(1)与p(3)之间的相似度……p(1)与p(N-1)之间的相似度；以此类推。其中，相似度算法可包括但不限于：编辑距离算法、最长公共子串算法、Heckel算法、贪心字符串匹配算法等等。其次所述构建单元102可以根据所述至少一个字符单句的数量、顺序以及计算获得的相似度构建所述字幕特征序列。

优化单元103，用于按照预设段落总数对所述字幕特征序列进行优化。

所述预设段落总数可以根据用户对目标音频文件的实际分段需求设定。假设采用M(M为正整数且M>1)表示所述预设段落总数，则所述优化单元103按照预设段落总数M对所述字幕特征序列s(n)进行优化的目的在于，使优化后的所述字幕特征序列s(n)刚好能够被划分为预设段落总数M个字幕段落，以满足对目标音频文件的实际分段需求。

确定单元104，用于根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间。

其中，优化后的所述字幕特征序列s(n)刚好能够被划分为预设段落总数M个字幕段落，同时，所述字幕特征序列s(n)中的字符特征元素的数值可用于描述字符单句之间的相似情况，那么，所述确定单元104根据优化后的所述字幕特征序列s(n)中的字符特征元素的数值可以确定M个字幕段落的转折点，进一步可从字幕文件中获得M个字幕段落的起止时间。

分段单元105，用于按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。

由于音频文件与字幕文件相互对应，那么，所述分段单元105按照所获得的M个字幕段落的起止时间，对应地可以对所述目标音频文件进行段落划分，获得M个音频段落。

请参见图4，为图3所示的构建单元的实施例的结构示意图；该构建单元102可包括：数量确定单元1001、索引确定单元1002、数值设置单元1003、数值变更单元1004和序列构建单元1005。

数量确定单元1001，用于根据所述至少一个字符单句的数量确定构建字幕特征序列的字符特征元素的数量。

所述字幕文件由N(N为正整数)个字符单句顺序组成，即所述至少一个字符单句的数量为N，那么，所述数量确定单元1001可确定所述字幕特征序列的字符特征元素的数量也为N，即所述字幕特征序列的长度为N。假设采用s(n)来表示所述字幕特征序列，则所构建的字幕特征序列s(n)共包括N个字符特征元素，分别为s(0)、s(1)…s(N-1)。

索引确定单元1002，用于根据所述至少一个字符单句中各字符单句的顺序，确定构建所述字幕特征序列的各字符特征元素的索引。

数值设置单元1003，用于将构建所述字幕特征序列的各字符特征元素的数值均设置为初始值。

所述初始值可以根据实际需要进行设定，本实施例中可假设所述初始值为0，那么，所述数值设置单元1003可设置所述字幕特征序列s(n)中所有字符特征元素的数值均为0，也就是说，s(0)＝0，s(1)＝0…s(N-1)＝0。

数值变更单元1004，用于针对所述至少一个字符单句中的任一个目标字符单句，若所述目标字符单句与所述目标字符单句的在后字符单句之间的最大相似度大于预设相似阀值，将所述目标字符单句对应的字符特征元素的数值从初始值变更为目标值。

所述数据变更单元1004的具体处理过程可包括以下A-C：

A、采用相似度算法计算所述至少一个字符单句之间的相似度，此处需要计算每个字符单句与其在后字符单句之间的相似度，也就是说，需要计算p(0)与p(1)之间的相似度、p(0)与p(2)之间的相似度……p(0)与p(N-1)之间的相似度；计算p(1)与p(2)之间的相似度、p(1)与p(3)之间的相似度……p(1)与p(N-1)之间的相似度；以此类推。其中，相似度算法可包括但不限于：编辑距离算法、最长公共子串算法、Heckel算法、贪心字符串匹配算法等等。需要说明的是，为了方便计算，计算获得的相似度均归一化至[0，1]的区间内，若某两个字符单句之间的相似度等于0，表明该两个字符单句完全不同；若某两个字符单句之间的相似度等于1，表明该两个字符单句完全相同。

B、提取每个字符单句与其在后字符单句之间的最大相似度，例如：假设经过计算p(0)与其在后字符单句p(1)至p(N-1)之间，p(0)与p(2)之间的相似度最大为Q₀₂，则提取Q₀₂；再如：假设经过计算p(1)与其在后字符单句p(2)至p(N-1)之间，p(1)与p(5)之间的相似度最大为Q₁₅，则提取Q₁₅，等等。

C、分别判断所提取的最大相似度是否大于预设相似阀值，根据判断结果变更设置相应字符特征元素的数值。其中，所述预设相似阀值可以根据实际需要进行设定，该预设相似阀值可采用Th表示，且0≤Th≤1。所述目标值可以根据实际需要进行设定，且所述目标值大于所述初始值，本实施例可设定所述目标值为1。按照本实施例所示例子，例如：判断Q₀₂是否大于预设相似阀值Th，如果Q₀₂>Th，那么将p(0)对应的s(0)的数值从0变更为1，即s(0)＝1；再如：判断Q₁₅是否大于预设相似阀值Th，如果Q₁₅>Th，那么将p(1)对应的s(1)的数值从0变更为1，即s(1)＝1，等等。

序列构建单元1005，用于按照构建所述字幕特征序列的字符特征元素的数量、索引及数值，构建所述字幕特征序列。

请参见图5，为图3所示的优化单元的实施例的结构示意图；该优化单元103可包括：数量统计单元2001、判断单元2002和优化处理单元2003。

数量统计单元2001，用于统计所述字幕特征序列中数值为目标值的字符特征元素的数量。按照图4所示实施例的例子，所述数量统计单元2001需要统计所述字幕特征序列s(n)中数值为1的字符特征元素的数量。

判断单元2002，用于判断所述数量是否位于所述预设段落总数对应的容错区间内。

假设采用M(M为正整数且M>1)表示所述预设段落总数，所述预设段落总数M对应的容错区间可表示为[M-u，M+u](u为整数)，其中u表示一个整数范围区间，可以根据实际需要进行设定。所述判断单元2002需要判断所统计的所述字幕特征序列s(n)中数值为1的字符特征元素的数量是否位于[M-u，M+u]的区间内，如果判断结果为是，表明所述字幕特征序列s(n)能够被划分为预设段落总数M个字幕段落，以满足对目标音频文件的实际分段需求。如果判断结果为否，表明所述字幕特征序列s(n)无法很好地被划分为预设段落总数M个字幕段落，无法满足对目标音频文件的实际分段需求，需要进行一些调整。

优化处理单元2003，用于若判断结果为否，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值。

请一并参见图6，为图5所示的优化处理单元的实施例的结构示意图；该优化处理单元2003包括：第一调整单元3001和第二调整单元3002。

第一调整单元3001，用于若所述数量大于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长增大所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

如果所述数量大于M+u，则所述第一调整单元3001需要按照预设步长增大所述预设相似阀值Th的值，并重新调整所述字幕特征序列中的各字符特征元素的数值。

第二调整单元3002，用于若所述数量小于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长减小所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

如果所述数量小于M-u，则所述第二调整单元3002需要按照预设步长减小所述预设相似阀值Th的值，并重新调整所述字幕特征序列中的各字符特征元素的数值。其中，所述预设步长可以根据实际需要进行设定，所述预设步长可以为固定步长，即每次采用固定步长增大或减小所述预设相似阀值Th的值；所述预设步长也可以为随机步长，即每次采用不同步长增大或减小所述预设相似阀值Th的值。

请参见图7，为图3所示的确定单元104的实施例的结构示意图；该确定单元104可包括：目标索引获取单元4001、定位单元4002和时间读取单元4003。

目标索引获取单元4001，用于从优化后的所述字幕特征序列中获取数值为目标值的字符特征元素对应的目标索引。

假设优化后的所述字幕特征序列s(n)中s(0)＝0，s(1)＝0…s(4)＝1…s(10)＝1…s(N-1)＝0，由于s(4)＝1和s(10)＝1，s(4)对应的索引为5，s(10)对应的索引为11，所述目标索引获取单元4001可获得目标索引为5和11。

定位单元4002，用于根据所述目标索引在所述字幕文件中定位段落转折的字符单句。

所述目标索引为5和11，所述定位单元4002则可在所述字幕文件中定位段落转折的字符单句为第5个字符单句和第11个字符单句，也就是说，第5个字符单句为一个字幕段落的起始位置，即所述字幕文件中第1-4个字符单句构成一个字幕段落；第11个字符单句为另一个字幕段落的起始位置，即所述字幕文件中第5-10个字符单句构成一个字幕段落。

时间读取单元4003，用于根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。

由于所述字幕文件中记录了每个字符单句的时间属性，包括每个字符单句的开始时间、持续时间、结束时间；所述时间读取单元4003可以从所述字幕文件中读取段落变化时间，按照本实施例所示例子，所述字幕文件中第1-4个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第4个字符单句的结束时间和第5个字符单句的开始时间；所述字幕文件中第5-10个字符单句构成一个字幕段落，那么所读取的段落变化时间为：第10个字符单句的结束时间和第11个字符单句的开始时间。

本发明实施例还公开了一种终端，该终端可以为PC(Personal Computer，个人计算机)、笔记本电脑、手机、PAD(平板电脑)、车载终端、智能可穿戴设备等设备。该终端中可包括一音频处理装置，该装置的结构和功能可参见上述图3-图7所示实施例的相关描述，在此不赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

根据所述至少一个字符单句的数量确定构建字幕特征序列的字符特征元素的数量；

根据所述至少一个字符单句中各字符单句的顺序，确定构建所述字幕特征序列的各字符特征元素的索引；

将构建所述字幕特征序列的各字符特征元素的数值均设置为初始值；

针对所述至少一个字符单句中的任一个目标字符单句，若所述目标字符单句与所述目标字符单句的在后字符单句之间的最大相似度大于预设相似阀值，将所述目标字符单句对应的字符特征元素的数值从初始值变更为目标值；

按照构建所述字幕特征序列的字符特征元素的数量、索引及数值，构建所述字幕特征序列，所述字幕特征序列包括至少一个字符特征元素；

按照预设段落总数对所述字幕特征序列进行优化；

2.如权利要求1所述的方法，其特征在于，所述按照预设段落总数对所述字幕特征序列进行优化，包括：

统计所述字幕特征序列中数值为目标值的字符特征元素的数量；

判断所述数量是否位于所述预设段落总数对应的容错区间内；

若否，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值。

3.如权利要求2所述的方法，其特征在于，所述若否，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值，包括：

若所述数量大于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长增大所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值；

若所述数量小于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长减小所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

4.如权利要求3所述的方法，其特征在于，所述根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间，包括：

从优化后的所述字幕特征序列中获取数值为目标值的字符特征元素对应的目标索引；

根据所述目标索引在所述字幕文件中定位段落转折的字符单句；

根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。

5.一种音频处理装置，其特征在于，包括：获取单元、构建单元、优化单元、确定单元、分段单元，

所述获取单元，用于获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成；

所述构建单元包括：

数量确定单元，用于根据所述至少一个字符单句的数量确定构建字幕特征序列的字符特征元素的数量；

索引确定单元，用于根据所述至少一个字符单句中各字符单句的顺序，确定构建所述字幕特征序列的各字符特征元素的索引；

数值设置单元，用于将构建所述字幕特征序列的各字符特征元素的数值均设置为初始值；

数值变更单元，用于针对所述至少一个字符单句中的任一个目标字符单句，若所述目标字符单句与所述目标字符单句的在后字符单句之间的最大相似度大于预设相似阀值，将所述目标字符单句对应的字符特征元素的数值从初始值变更为目标值；

序列构建单元，用于按照构建所述字幕特征序列的字符特征元素的数量、索引及数值，构建所述字幕特征序列，所述字幕特征序列包括至少一个字符特征元素；

所述优化单元，用于按照预设段落总数对所述字幕特征序列进行优化；

所述确定单元，用于根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间；

所述分段单元，用于按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。

6.如权利要求5所述的装置，其特征在于，所述优化单元包括：

数量统计单元，用于统计所述字幕特征序列中数值为目标值的字符特征元素的数量；

判断单元，用于判断所述数量是否位于所述预设段落总数对应的容错区间内；

优化处理单元，用于若判断结果为否，调整所述预设相似阀值的大小以调整所述字幕特征序列中的各字符特征元素的数值。

7.如权利要求6所述的装置，其特征在于，所述优化处理单元包括：

第一调整单元，用于若所述数量大于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长增大所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值；

第二调整单元，用于若所述数量小于所述预设段落总数对应的容错区间内的最大容错值，按照预设步长减小所述预设相似阀值以调整所述字幕特征序列中的各字符特征元素的数值。

8.如权利要求7所述的装置，其特征在于，所述确定单元包括：

目标索引获取单元，用于从优化后的所述字幕特征序列中获取数值为目标值的字符特征元素对应的目标索引；

定位单元，用于根据所述目标索引在所述字幕文件中定位段落转折的字符单句；

时间读取单元，用于根据所述段落转折的字符单句从所述字幕文件中读取段落变化时间。

9.一种终端，其特征在于，包括如权利要求5-8任一项所述的音频处理装置。