CN111276129A

CN111276129A - 一种电视剧音频分割方法和装置以及设备

Info

Publication number: CN111276129A
Application number: CN202010084690.9A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-12

Abstract

本发明公开了一种电视剧音频分割方法和装置以及设备。其中，所述方法包括：采用基线系统对电视剧音频进行原始分割，得到原始分割结果，和采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，和采用动态规划方式，对该语音识别编码结果和关联该电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率，和根据该词匹配率，对该原始分割结果中的每段音频进行重分割，和根据该进行重分割后的每段音频，对声学模型进行更新，以及根据该更新的声学模型，将该电视剧音频的语音段与对应文本标注对齐。通过上述方式，能够实现电视剧音频的语音段与对应文本标注的对齐。

Description

一种电视剧音频分割方法和装置以及设备

技术领域

本发明涉及音频技术领域，尤其涉及一种电视剧音频分割方法和装置以及设备。

背景技术

大数据时代移动互联网的发展正在改变传统音频识别语料的获取方式，特别是海量数据如新闻广播、电视语料等获取变得越来越容易。如何对海量语料过滤，筛选及切分成适合用于音频识别系统所需的音频段或句子等技术的研究显得日益迫切。

通常语音识别系统训练语料中的人工标注信息已包含了准确的语音段起始和结束时间标签，且语音段与其对应的文本标注是对齐的，即文本标注也是事先分好段的。

然而，现有的电视剧音频分割方案，因电视剧音频的声学环境复杂，往往只能获得整段电视音频及对应的文本标注，而无法得知电视剧音频的语音段与文本标注的对应关系，无法实现电视剧音频的语音段与对应文本标注的对齐。

发明内容

有鉴于此，本发明的目的在于提出一种电视剧音频分割方法和装置以及设备，能够实现电视剧音频的语音段与对应文本标注的对齐。

根据本发明的一个方面，提供一种电视剧音频分割方法，包括：采用基线系统对电视剧音频进行原始分割，得到原始分割结果；采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果；采用动态规划方式，对所述语音识别编码结果和关联所述电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率；根据所述词匹配率，对所述原始分割结果中的每段音频进行重分割；根据所述进行重分割后的每段音频，对声学模型进行更新；根据所述更新的声学模型，将所述电视剧音频的语音段与对应文本标注对齐。

其中，所述采用基线系统对电视剧音频进行原始分割，得到原始分割结果，包括：采用基线系统对电视剧音频提取感知线性预测系数和梅尔频率倒谱系数，根据所述感知线性预测系数和所述梅尔频率倒谱系数，使用已训练好的纯语音、音乐和背景噪声高斯混合模型分类器将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音的方式，对电视剧音频进行原始分割，得到原始分割结果。

其中，所述采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，包括：将与所述电视剧音频的关联的标注文本用来构建集内语文模型，并与采用集外文本数据训练的通用背景语言模型进行插值得到一个有偏的语言模型用于语音识别，根据所述有偏的语言模型，采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果。

其中，所述根据所述词匹配率，对所述原始分割结果中的每段音频进行重分割，包括：根据所述词匹配率，对所述原始分割结果中的任意音频分段所述原始分割结果的语言标签进行比较，若其对应的词匹配率不大于该语言标签时，则认为所述段音频的原始分割正确，将其从所述原始分割结果中移出放入新集合中，所述集合标记为保留段音频集合；和对于所述原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在所述音频分割段中间出现单词不同的持续时间小于预设时间，则将其从所述原始分割结果中移出放入所述保留段音频集合中；和对于所述原始分割结果中剩余的分割段音频经移出放入所述保留段音频集合后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将所述原始分割段从所述原始分割结果中移出合并成新的分段放入所述保留段音频集合中；和将经上述处理后所述原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有所述原始分割结果合并成一个新段；若所述显示接口对齐时存在于所述新段对齐的原始文本标注，则将其放入所述保留段音频集合中，否则认为其为非语音，直接舍弃；和对所述保留段音频集合中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内。

其中，所述根据所述进行重分割后的每段音频，对声学模型进行更新，包括：从所述经强制对齐后的分割音频段中筛选出词匹配率不小于所述语言标签的音频段，和将所述筛选出的音频段添加到所述训练语料中，对声学模型进行更新。

根据本发明的另一个方面，提供一种电视剧音频分割装置，包括：原始分割模块、语音识别模块、计算模块、重分割模块、模型更新模块和对齐模块；所述原始分割模块，用于采用基线系统对电视剧音频进行原始分割，得到原始分割结果；所述语音识别模块，用于采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果；所述计算模块，用于采用动态规划方式，对所述语音识别编码结果和关联所述电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率；所述重分割模块，用于根据所述词匹配率，对所述原始分割结果中的每段音频进行重分割；所述模型更新模块，用于根据所述进行重分割后的每段音频，对声学模型进行更新；所述对齐模块，用于根据所述更新的声学模型，将所述电视剧音频的语音段与对应文本标注对齐。

其中，所述原始分割模块，具体用于：采用基线系统对电视剧音频提取感知线性预测系数和梅尔频率倒谱系数，根据所述感知线性预测系数和所述梅尔频率倒谱系数，使用已训练好的纯语音、音乐和背景噪声高斯混合模型分类器将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音的方式，对电视剧音频进行原始分割，得到原始分割结果。

其中，所述语音识别模块，具体用于：将与所述电视剧音频的关联的标注文本用来构建集内语文模型，并与采用集外文本数据训练的通用背景语言模型进行插值得到一个有偏的语言模型用于语音识别，根据所述有偏的语言模型，采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果。

其中，所述重分割模块，具体用于：根据所述词匹配率，对所述原始分割结果中的任意音频分段所述原始分割结果的语言标签进行比较，若其对应的词匹配率不大于该语言标签时，则认为所述段音频的原始分割正确，将其从所述原始分割结果中移出放入新集合中，所述集合标记为保留段音频集合；和对于所述原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在所述音频分割段中间出现单词不同的持续时间小于预设时间，则将其从所述原始分割结果中移出放入所述保留段音频集合中；和对于所述原始分割结果中剩余的分割段音频经移出放入所述保留段音频集合后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将所述原始分割段从所述原始分割结果中移出合并成新的分段放入所述保留段音频集合中；和将经上述处理后所述原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有所述原始分割结果合并成一个新段；若所述显示接口对齐时存在于所述新段对齐的原始文本标注，则将其放入所述保留段音频集合中，否则认为其为非语音，直接舍弃；和对所述保留段音频集合中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内。

其中，所述模型更新模块，具体用于：从所述经强制对齐后的分割音频段中筛选出词匹配率不小于所述语言标签的音频段，和将所述筛选出的音频段添加到所述训练语料中，对声学模型进行更新。

根据本发明的又一个方面，提供一种电视剧音频分割设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的电视剧音频分割方法。

根据本发明的再一个方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的电视剧音频分割方法。

可以发现，以上方案，可以采用基线系统对电视剧音频进行原始分割，得到原始分割结果，和可以采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，和可以采用动态规划方式，对该语音识别编码结果和关联该电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率，和可以根据该词匹配率，对该原始分割结果中的每段音频进行重分割，和可以根据该进行重分割后的每段音频，对声学模型进行更新，以及可以根据该更新的声学模型，将该电视剧音频的语音段与对应文本标注对齐，能够实现电视剧音频的语音段与对应文本标注的对齐。

进一步的，以上方案，可以采用基线系统对电视剧音频提取感知线性预测系统和梅尔频率倒谱系数，根据该感知线性预测系数和该梅尔频率倒谱系数，使用已训练好的纯语音、音乐和背景噪声高斯混合模型分类器将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音的方式，对电视剧音频进行原始分割，得到原始分割结果，这样的好处是能够实现将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音，能够提高对电视剧音频分割的准确性。

进一步的，以上方案，可以将与该电视剧音频的关联的标注文本用来构建集内语文模型，并与采用集外文本数据训练的通用背景语言模型进行插值得到一个有偏的语言模型用于语音识别，根据该有偏的语言模型，采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，这样的好处是由于采用了与该电视剧音频的关联的标注文本来辅助对该原始分割结果中的每段音频进行自动语音识别，能够提高该得到的语音识别编码结果的准确性。

进一步的，以上方案，可以根据该词匹配率，对该原始分割结果中的任意音频分段该原始分割结果的语言标签进行比较，若其对应的词匹配率不大于该语言标签，则认为该段音频的原始分割正确，将其从该原始分割结果中移出放入新集合中，该集合标记为保留段音频集合；和对于该原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在该音频分割段中间出现单词不同的持续时间小于预设时间，则将其从该原始分割结果中移出放入该保留段音频集合中；和对于该原始分割结果中剩余的分割段音频经移出放入该保留段音频集合后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将该原始分割段从该原始分割结果中移出合并成新的分段放入该保留段音频集合中；和将经上述处理后该原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有该原始分割结果合并成一个新段；若该显示接口对齐时存在于该新段对齐的原始文本标注，则将其放入该保留段音频集合中，否则认为其为非语音，直接舍弃；和对该保留段音频集合中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内，这样的好处是能够通过对原始分割结果进行错误检测用以指导原始音频数据的重新分割，以达到提升电视剧音频自动分割性能的同时，还能保证分割后各语音段文本标注的自动对齐。

进一步的，以上方案，可以从该经强制对齐后的分割音频段中筛选出词匹配率不小于该语言标签的音频段，和将该筛选出的音频段添加到该训练语料中，对声学模型进行更新，这样的好处能够实现进一步提升语音识别编码结果识别率和原始音频重分割的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明电视剧音频分割方法一实施例的流程示意图；

图2是本发明电视剧音频分割装置一实施例的结构示意图；

图3是本发明电视剧音频分割设备一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种电视剧音频分割方法，能够实现电视剧音频的语音段与对应文本标注的对齐。

请参见图1，图1是本发明电视剧音频分割方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

S101：采用基线系统对电视剧音频进行原始分割，得到原始分割结果。

其中，该采用基线系统对电视剧音频进行原始分割，得到原始分割结果，可以包括：

采用基线系统对电视剧音频提取PLP(Perceptual Linear Predictive，感知线性预测系数)系数和MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)系数，根据该感知线性预测系数和该梅尔频率倒谱系数，使用已训练好的纯语音、音乐和背景噪声GMM(Gausan Mixed Model，高斯混合模型)分类器将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音的方式，对电视剧音频进行原始分割，得到原始分割结果，这样的好处是能够实现将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音，能够提高对电视剧音频分割的准确性。

S102：采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果。

其中，该采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，可以包括：

将与该电视剧音频的关联的标注文本用来构建集内语文模型，并与采用集外文本数据训练的通用背景语言模型进行插值得到一个有偏的语言模型用于语音识别，根据该有偏的语言模型，采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，这样的好处是由于采用了与该电视剧音频的关联的标注文本来辅助对该原始分割结果中的每段音频进行自动语音识别，能够提高该得到的语音识别编码结果的准确性。

在本实施例中，该插值仅重可以分别为0.9和0.1，也可以是其它取值，本发明不加以限定。

S103：采用动态规划方式，对该语音识别编码结果和关联该电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率(WMR)。

S104：根据该词匹配率，对该原始分割结果中的每段音频进行重分割。

其中，该根据该词匹配率，对该原始分割结果中的每段音频进行重分割，可以包括：

根据该词匹配率，对该原始分割结果中的任意音频分段该原始分割结果SI_t的语言标签(TR₁)进行比较，若其对应的WMR_t≤TR₁，则认为该段音频的原始分割正确，将其从该原始分割结果中移出放入新集合中，该集合标记为保留段音频集合R；

和对于该原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用DP(DisplayPort，显示接口)对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在该音频分割段中间出现单词不同的持续时间(TH)小于预设时间，则将其从该原始分割结果中移出放入该保留段音频集合R中；

和对于该原始分割结果中剩余的分割段音频经移出放入该保留段音频集合R后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将该原始分割段从该原始分割结果中移出合并成新的分段放入该保留段音频集合R中；

和将经上述处理后该原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有该原始分割结果合并成一个新段；若该显示接口对齐时存在于该新段对齐的原始文本标注，则将其放入该保留段音频集合R中，否则认为其为非语音，直接舍弃；

和对该保留段音频集合R中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内；这样的好处是能够通过对原始分割结果进行错误检测用以指导原始音频数据的重新分割，以达到提升电视剧音频自动分割性能的同时，还能保证分割后各语音段文本标注的自动对齐。

S105：根据该进行重分割后的每段音频，对声学模型进行更新。

其中，该根据该进行重分割后的每段音频，对声学模型进行更新，可以包括：

从该经强制对齐后的分割音频段中筛选出词匹配率不小于该语言标签的音频段，和将该筛选出的音频段添加到该训练语料中，对声学模型进行更新，这样的好处能够实现进一步提升语音识别编码结果识别率和原始音频重分割的准确率。

S106：根据该更新的声学模型，将该电视剧音频的语音段与对应文本标注对齐。

可以发现，在本实施例中，可以采用基线系统对电视剧音频进行原始分割，得到原始分割结果，和可以采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，和可以采用动态规划方式，对该语音识别编码结果和关联该电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率，和可以根据该词匹配率，对该原始分割结果中的每段音频进行重分割，和可以根据该进行重分割后的每段音频，对声学模型进行更新，以及可以根据该更新的声学模型，将该电视剧音频的语音段与对应文本标注对齐，能够实现电视剧音频的语音段与对应文本标注的对齐。

进一步的，在本实施例中，可以采用基线系统对电视剧音频提取感知线性预测系统和梅尔频率倒谱系数，根据该感知线性预测系数和该梅尔频率倒谱系数，使用已训练好的纯语音、音乐和背景噪声高斯混合模型分类器将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音的方式，对电视剧音频进行原始分割，得到原始分割结果，这样的好处是能够实现将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音，能够提高对电视剧音频分割的准确性。

进一步的，在本实施例中，可以将与该电视剧音频的关联的标注文本用来构建集内语文模型，并与采用集外文本数据训练的通用背景语言模型进行插值得到一个有偏的语言模型用于语音识别，根据该有偏的语言模型，采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，这样的好处是由于采用了与该电视剧音频的关联的标注文本来辅助对该原始分割结果中的每段音频进行自动语音识别，能够提高该得到的语音识别编码结果的准确性。

进一步的，在本实施例中，可以根据该词匹配率，对该原始分割结果中的任意音频分段该原始分割结果SI_t的语言标签TR₁进行比较，若其对应的WMR_t≤TR₁，则认为该段音频的原始分割正确，将其从该原始分割结果中移出放入新集合中，该集合标记为保留段音频集合R；和对于该原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用DP显示接口对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在该音频分割段中间出现单词不同的持续时间TH小于预设时间，则将其从该原始分割结果中移出放入该保留段音频集合R中；和对于该原始分割结果中剩余的分割段音频经移出放入该保留段音频集合R后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将该原始分割段从该原始分割结果中移出合并成新的分段放入该保留段音频集合R中；和将经上述处理后该原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有该原始分割结果合并成一个新段；若该显示接口对齐时存在于该新段对齐的原始文本标注，则将其放入该保留段音频集合R中，否则认为其为非语音，直接舍弃；和对该保留段音频集合R中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内，这样的好处是能够通过对原始分割结果进行错误检测用以指导原始音频数据的重新分割，以达到提升电视剧音频自动分割性能的同时，还能保证分割后各语音段文本标注的自动对齐。

进一步的，在本实施例中，可以从该经强制对齐后的分割音频段中筛选出词匹配率不小于该语言标签的音频段，和将该筛选出的音频段添加到该训练语料中，对声学模型进行更新，这样的好处能够实现进一步提升语音识别编码结果识别率和原始音频重分割的准确率。

本发明还提供一种电视剧音频分割装置，能够实现电视剧音频的语音段与对应文本标注的对齐。

请参见图2，图2是本发明电视剧音频分割装置一实施例的结构示意图。本实施例中，该电视剧音频分割装置20包括原始分割模块21、语音识别模块22、计算模块23、重分割模块24、模型更新模块25和对齐模块26。

该原始分割模块21，用于采用基线系统对电视剧音频进行原始分割，得到原始分割结果。

该语音识别模块22，用于采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果。

该计算模块23，用于采用动态规划方式，对该语音识别编码结果和关联该电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率。

该重分割模块24，用于根据该词匹配率，对该原始分割结果中的每段音频进行重分割。

该模型更新模块25，用于根据该进行重分割后的每段音频，对声学模型进行更新。

该对齐模块26，用于根据该更新的声学模型，将该电视剧音频的语音段与对应文本标注对齐。

可选地，该原始分割模块21，可以具体用于：

采用基线系统对电视剧音频提取感知线性预测系数和梅尔频率倒谱系数，根据该感知线性预测系数和该梅尔频率倒谱系数，使用已训练好的纯语音、音乐和背景噪声高斯混合模型分类器将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音的方式，对电视剧音频进行原始分割，得到原始分割结果。

可选地，该语音识别模块22，可以具体用于：

将与该电视剧音频的关联的标注文本用来构建集内语文模型，并与采用集外文本数据训练的通用背景语言模型进行插值得到一个有偏的语言模型用于语音识别，根据该有偏的语言模型，采用半监督自动语音识别方式，对该原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果。

可选地，该重分割模块24，可以具体用于：

根据该词匹配率，对该原始分割结果中的任意音频分段该原始分割结果SI_t的语言标签TR₁进行比较，若其对应的WMR_t≤TR₁，则认为该段音频的原始分割正确，将其从该原始分割结果中移出放入新集合中，该集合标记为保留段音频集合R；和对于该原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用DP显示接口对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在该音频分割段中间出现单词不同的持续时间TH小于预设时间，则将其从该原始分割结果中移出放入该保留段音频集合R中；和对于该原始分割结果中剩余的分割段音频经移出放入该保留段音频集合R后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将该原始分割段从该原始分割结果中移出合并成新的分段放入该保留段音频集合R中；和将经上述处理后该原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有该原始分割结果合并成一个新段；若该显示接口对齐时存在于该新段对齐的原始文本标注，则将其放入该保留段音频集合R中，否则认为其为非语音，直接舍弃；和对该保留段音频集合R中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内。

可选地，该模型更新模块25，可以具体用于：

从该经强制对齐后的分割音频段中筛选出词匹配率不小于该语言标签的音频段，和将该筛选出的音频段添加到该训练语料中，对声学模型进行更新。

该电视剧音频分割装置20的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明又提供一种电视剧音频分割设备，如图3所示，包括：至少一个处理器31；以及，与至少一个处理器31通信连接的存储器32；其中，存储器32存储有可被至少一个处理器31执行的指令，指令被至少一个处理器31执行，以使至少一个处理器31能够执行上述的电视剧音频分割方法。

其中，存储器32和处理器31采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器31和存储器32的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器31处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器31。

处理器31负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器32可以被用于存储处理器31在执行操作时所使用的数据。

本发明再提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

进一步的，以上方案，可以根据该词匹配率，对该原始分割结果中的任意音频分段该原始分割结果SI_t的语言标签TR₁进行比较，若其对应的WMR_t≤TR₁，则认为该段音频的原始分割正确，将其从该原始分割结果中移出放入新集合中，该集合标记为保留段音频集合R；和对于该原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用DP显示接口对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在该音频分割段中间出现单词不同的持续时间TH小于预设时间，则将其从该原始分割结果中移出放入该保留段音频集合R中；和对于该原始分割结果中剩余的分割段音频经移出放入该保留段音频集合R后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将该原始分割段从该原始分割结果中移出合并成新的分段放入该保留段音频集合R中；和将经上述处理后该原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有该原始分割结果合并成一个新段；若该显示接口对齐时存在于该新段对齐的原始文本标注，则将其放入该保留段音频集合R中，否则认为其为非语音，直接舍弃；和对该保留段音频集合R中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内，这样的好处是能够通过对原始分割结果进行错误检测用以指导原始音频数据的重新分割，以达到提升电视剧音频自动分割性能的同时，还能保证分割后各语音段文本标注的自动对齐。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电视剧音频分割方法，其特征在于，包括：

采用基线系统对电视剧音频进行原始分割，得到原始分割结果；

采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果；

采用动态规划方式，对所述语音识别编码结果和关联所述电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率；

根据所述词匹配率，对所述原始分割结果中的每段音频进行重分割；

根据所述进行重分割后的每段音频，对声学模型进行更新；

根据所述更新的声学模型，将所述电视剧音频的语音段与对应文本标注对齐。

2.如权利要求1所述的电视剧音频分割方法，其特征在于，所述采用基线系统对电视剧音频进行原始分割，得到原始分割结果，包括：

采用基线系统对电视剧音频提取感知线性预测系数和梅尔频率倒谱系数，根据所述感知线性预测系数和所述梅尔频率倒谱系数，使用已训练好的纯语音、音乐和背景噪声高斯混合模型分类器将电视剧音频分割成纯语音、纯音乐、纯背景噪声、带噪语音和带音乐语音的方式，对电视剧音频进行原始分割，得到原始分割结果。

3.如权利要求1所述的电视剧音频分割方法，其特征在于，所述采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果，包括：

将与所述电视剧音频的关联的标注文本用来构建集内语文模型，并与采用集外文本数据训练的通用背景语言模型进行插值得到一个有偏的语言模型用于语音识别，根据所述有偏的语言模型，采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果。

4.如权利要求1所述的电视剧音频分割方法，其特征在于，

所述根据所述词匹配率，对所述原始分割结果中的每段音频进行重分割，包括：

根据所述词匹配率，对所述原始分割结果中的任意音频分段所述原始分割结果的语言标签进行比较，若其对应的词匹配率不大于该语言标签时，则认为所述段音频的原始分割正确，将其从所述原始分割结果中移出放入新集合中，所述集合标记为保留段音频集合；

和对于所述原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在所述音频分割段中间出现单词不同的持续时间小于预设时间，则将其从所述原始分割结果中移出放入所述保留段音频集合中；

和对于所述原始分割结果中剩余的分割段音频经移出放入所述保留段音频集合后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将所述原始分割段从所述原始分割结果中移出合并成新的分段放入所述保留段音频集合中；

和将经上述处理后所述原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有所述原始分割结果合并成一个新段；若所述显示接口对齐时存在于所述新段对齐的原始文本标注，则将其放入所述保留段音频集合中，否则认为其为非语音，直接舍弃；

和对所述保留段音频集合中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内。

5.如权利要求1所述的电视剧音频分割方法，其特征在于，所述根据所述进行重分割后的每段音频，对声学模型进行更新，包括：

从所述经强制对齐后的分割音频段中筛选出词匹配率不小于所述语言标签的音频段，和将所述筛选出的音频段添加到所述训练语料中，对声学模型进行更新。

6.一种电视剧音频分割装置，其特征在于，包括：

原始分割模块、语音识别模块、计算模块、重分割模块、模型更新模块和对齐模块；

所述原始分割模块，用于采用基线系统对电视剧音频进行原始分割，得到原始分割结果；

所述语音识别模块，用于采用半监督自动语音识别方式，对所述原始分割结果中的每段音频进行自动语音识别，得到语音识别编码结果；

所述计算模块，用于采用动态规划方式，对所述语音识别编码结果和关联所述电视剧音频的原始标注文本进行对齐和比较，计算两者之间的词匹配率；

所述重分割模块，用于根据所述词匹配率，对所述原始分割结果中的每段音频进行重分割；

所述模型更新模块，用于根据所述进行重分割后的每段音频，对声学模型进行更新；

所述对齐模块，用于根据所述更新的声学模型，将所述电视剧音频的语音段与对应文本标注对齐。

7.如权利要求6所述的电视剧音频分割装置，其特征在于，所述原始分割模块，具体用于：

8.如权利要求6所述的电视剧音频分割装置，其特征在于，所述语音识别模块，具体用于：

9.如权利要求6所述的电视剧音频分割装置，其特征在于，所述重分割模块，具体用于：

根据所述词匹配率，对所述原始分割结果中的任意音频分段所述原始分割结果的语言标签进行比较，若其对应的词匹配率不大于该语言标签时，则认为所述段音频的原始分割正确，将其从所述原始分割结果中移出放入新集合中，所述集合标记为保留段音频集合；和对于所述原始分割结果中剩余的分割段音频，比较各段音频的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在预设音频段起始和结束边界处相同且在所述音频分割段中间出现单词不同的持续时间小于预设时间，则将其从所述原始分割结果中移出放入所述保留段音频集合中；和对于所述原始分割结果中剩余的分割段音频经移出放入所述保留段音频集合后的剩余音频段，按音频段起始时间从小到大排列，比较所有音频段分段的语音识别编码结果和采用显示接口对齐的原始文本标注，若两者在时间上连续的分段起始、或结束边界处相同，或连续相同的词序列之间的时间间隔不大于预设时间，则将所述原始分割段从所述原始分割结果中移出合并成新的分段放入所述保留段音频集合中；和将经上述处理后所述原始分割结果中的剩余音频段，从音频段起始时间最小的分割段开始，以当前段起始边界为起点，下一个满足以上述情况中任意情况的起始边界为结束点之间的所有所述原始分割结果合并成一个新段；若所述显示接口对齐时存在于所述新段对齐的原始文本标注，则将其放入所述保留段音频集合中，否则认为其为非语音，直接舍弃；和对所述保留段音频集合中所有分割音频段，用原始文本标注进行强制对齐，并根据对齐结果中连续静音帧长度情况对段边界作调整以保证各段长度不大于预设长度且各段边界处静音长度位于预设区间内。

10.如权利要求6所述的电视剧音频分割装置，其特征在于，所述模型更新模块，具体用于：