CN111105785B

CN111105785B - 一种文本韵律边界识别的方法及装置

Info

Publication number: CN111105785B
Application number: CN201911304110.6A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-06-16
Anticipated expiration: 2039-12-17
Also published as: CN111105785A

Abstract

本发明公开了一种文本韵律边界识别的方法及装置，属于语音处理技术领域，对标准语音数据集的录音和文本信息进行对齐训练，得到音频帧和音素的对齐模型；将待标注文本和录音预处理后输入对齐模型，得到音频帧和音素的对齐映射关系；根据音频帧和音素的对齐映射关系，推导得出未对齐的音频帧区间；按照韵律结构层级和文本间停顿时长的对应关系，设置不同层级的停顿阈值，计算上述音频帧区间的时长，通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。本发明建立音素与音频帧的对齐关系，通过统计对齐结果，能更直观的观察到不同等级的韵律边界与停顿时长的关系。

Description

一种文本韵律边界识别的方法及装置

技术领域

本发明涉及语音合成技术领域，特别是指一种文本韵律边界识别的方法及装置。

背景技术

目前对文本韵律边界识别的主要方法如下：

(1)基于手工定制规则的方法。在少量语料上，语言专家通过对常用助词组成韵律短语的各种情况进行分类，标注人员通过制定的韵律边界规则，手动标注文本的韵律边界；

(2)基于句法分析的方法。构造一个可靠的句法分析器，从语法结构和韵律结构的关系入手来寻找两者之间的对应关系，从而自动标注文本的韵律边界；

(3)基于机器学习算法的方法。使用诸如分类与回归树(CART)，决策树(DT)，基于转换的学习方法(TBL)，最大熵模型(MEM)等手段，通过分词边界的上下文信息，计算该边界作为韵律边界的概率，以概率大小来判定是否为韵律边界。

通过现有韵律边界预测的研究成果分析，可以知道人们对韵律边界的研究，主要从文本分析的角度出发，应用统计或基于知识推理的方法，目前这些方法存在如下不足：

(1)基于专家经验的规则归纳方法存在的缺点：归纳规则具有明显的条件性，扩展困难；人工标注工作量大，标注结果存在一定的因人而异的现象，结果不稳定。

(2)基于句法分析的方法存在的缺点：句法特征十分复杂，可靠的句法分析器很难训练；对输入文本的规范性要求较高，文本结构的好坏直接影响到韵律边界判定的准确性；虽然韵律结构和语法结构有很大的正相关性，但句法结构不是决定韵律结构的唯一因素，说话场景、说话人的语言能力、说话风格、情绪都是影响韵律结构的重要因素。

(3)基于机器学习算法存在的缺点：在输入特征上的选择具有局限性，通常只停留在词面、词性等较浅层上的语法信息，不足以描述韵律映射关系；基于机器学习算法的方式的学习效果很大程度取决于训练语料的质量，一般生成的模型有较大局限性。

发明内容

本发明提出一种文本韵律边界识别的方法及装置，利用音频和文本的对齐信息去标注文本韵律边界，为构造大规模标注文本韵律边界的语料库提供了一种高效、准确的方法。

本发明的技术方案是这样实现的：

一种文本韵律边界识别的方法，具体包括以下步骤：

S1，对标准语音数据集的录音和文本信息进行对齐训练，得到音频帧和音素的对齐模型；

S2，将待标注文本和录音预处理后输入对齐模型，得到音频帧和音素的对齐映射关系；

S3，根据音频帧和音素的对齐映射关系，推导得出未对齐的音频帧区间；

S4，按照韵律结构层级和文本间停顿时长的对应关系，设置不同层级的停顿阈值，计算上述音频帧区间的时长，通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。

作为本发明的一个优选实施例，步骤S1具体包括以下步骤：

S101，对标准语音数据集的录音和文本信息进行预处理，得到除去无效帧的音频帧集，将文本信息转化为音素，按文本内字符顺序构建有次序的音素集；

S102，对音频帧集中的有效音频帧进行声学特征提取，按音频帧顺序构建有次序的音频集；

S103，对有次序的音素集和音频集进行对齐训练，得到音频帧和音素的对齐模型。

作为本发明的一个优选实施例，步骤S2具体包括以下步骤：

S201，将待标注文本和录音进行预处理，得到除去无效帧的音频帧集，将待标注文本转化为音素，按文本内字符顺序构建有次序的待标注音素集；

S202，对音频帧集中的有效音频帧进行声学特征提取，按音频帧顺序构建有次序的音频集；

S203，将待标注音素集和音频集输入对齐模型，得到音频帧和音素的对齐映射关系。

作为本发明的一个优选实施例，步骤S1中，通过最大期望算法，对标准语音数据集的录音和文本信息进行对齐训练，得到音频帧和音素的对齐模型。

一种文本韵律边界识别的装置，具体包括

模型训练模块，对标准语音数据集的录音和文本信息进行对齐训练，得到音频帧和音素的对齐参数；

对齐模型模块，根据对齐参数建立对齐模型，将待标注文本和录音输入对齐模型，得到音频帧和音素的对齐映射关系；

字典，记录有效音频中音素和音频区间的对应关系，以及这些音频区间下界端点位置的音素符号及索引，构建音素符号和音频区间的映射字典、音素索引与有效音频中无音素对应关系的音频区间的映射字典；

韵律层级模块，按照韵律结构层级和文本间停顿时长的对应关系，设置不同层级的停顿阈值；

边界确定模块，根据无量纲参数和停顿阈值的关系判断出文本韵律边界。

作为本发明的一个优选实施例，还包括

预处理模块，对标准语音数据集的录音和文本信息/待标注的录音和文本信息进行预处理，得到有次序的音素集和音频集，输出至模型训练模块/对齐模型模块。

作为本发明的一个优选实施例，预处理模块包括

录音预处理子模块，对录音进行过滤和分帧操作，获得有效音频帧集，对有效音频帧进行特征提取和排序，得到有次序的音频集；

文本预处理子模块，对文本进行清洗和切词处理，将文本转化成音素，按文本内字符顺序构建有次序的音素集。

作为本发明的一个优选实施例，录音预处理子模块包括

有效音频筛选子模块，对原始录音进行过滤操作，通过话音激活检测，除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集；

音频次序排列子模块，对音频帧集中的有效音频帧进行声学特征提取，按音频帧的顺序，填入相应的MFCC或FBANK信息，构成有次序的音频集。

作为本发明的一个优选实施例，边界确定模块，根据无量纲参数和停顿阈值的关系判断出文本韵律边界具体指的是

边界确定模块，根据无量纲参数和停顿阈值的关系在文本对应的位置处插入韵律边界标志符。

本发明的有益效果在于：

(1)建立音素与音频帧的对齐关系，通过统计对齐结果，能更直观的观察到不同等级的韵律边界与停顿时长的关系，提供了一种从统计学的角度划分韵律边界等级的思路。

(2)借助录音的韵律边界切分模型能够利用说话人的语言能力、说话风格、情绪等影响韵律结构的因素，使得文本的韵律边界切分结果更贴近实际场景，更加准确；

(3)重复利用文本录音信息，不再只从文本角度进行分析，降低了对句法结构分析精度的依赖，使得模型的建立更加容易。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种文本韵律边界识别的方法的流程图；

图2为本发明一种文本韵律边界识别的装置的原理框图；

图3为本发明一种文本韵律边界识别的方法一个实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出了一种文本韵律边界识别的方法，具体包括以下步骤：

步骤S1具体包括以下步骤：

S101，对标准语音数据集的录音和文本信息进行预处理，得到除去无效帧的音频帧集，将文本信息转化为音素，按文本内字符顺序构建有次序的音素集；对原始录音进行过滤操作，通过话音激活检测(VAD),除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集；对文本进行简单清洗处理后，通过事先准备好的词典，将文本转化成音素，按文本内字符顺序构建有次序的音素集。

S102，对音频帧集中的有效音频帧进行声学特征提取，按音频帧顺序构建有次序的音频集；按音频帧顺序填入相应的MFCC或FBANK信息，构成有次序的音频集。

S103，对有次序的音素集和音频集进行对齐训练，得到音频帧和音素的对齐模型。通过最大期望(EM)算法，对上述步骤生成的有次序音素集和有次序音频集进行对齐训练，可以得到音频帧和音素的对齐模型。

步骤S2具体包括以下步骤：

如图2所示，本发明还提出了一种文本韵律边界识别的装置，具体包括

作为本发明的一个优选实施例，本发明还包括预处理模块，对标准语音数据集的录音和文本信息/待标注的录音和文本信息进行预处理，得到有次序的音素集和音频集，输出至模型训练模块/对齐模型模块。

作为本发明的一个优选实施例，预处理模块包括

作为本发明的一个优选实施例，录音预处理子模块包括

如图3所示，结合语音识别工具箱kaldi，举例说明一种本发明的具体实现手段。

(1)首先取数据集中的录音和文本进行预处理，生成kaldi训练需要的大量标注数据，基于kald工具包自带的DNN-HMM模型，得到相应的音频帧和音素对齐模型F2P；

(2)抽取数据集中的一段文本，记为S_in和其对应的录音，记为F；

(3)对录音F进行话音激活检测、分帧、加窗、快速傅立叶、mel频谱规整、取对数和离散余弦变换等音频处理操作后可得对应的MFCC特征(39维)序列，将声学特征序列转化成kaldi能识别的格式fr，以fr为值构造音频帧列表Fr＝[fr₁,fr₂,...,fr_m]；

(4)通过提前准备好的词典，将S_in中的字符拆分成音素，以音素所在位置pos为key，音素转化成kaldi能识别的格式p后作为value，构造音素字典P＝{pos₁:p₁,pos₂:p₂,...,pos_n:p_n}；

(5)通过对齐模型F2P确定音频帧fe和有效音素p的对应关系，并以音素p为key，音频帧fr为value，构造字典D1＝{p₁:fr₁,p₁:fr_i,p₂:fr_i+5,...,p_n:fr_m}；

(6)计算音频帧中与有效音素对齐以外的帧数目，并除以Fr总的帧数，得到无量纲参量L，与音素起始位置一起存入字典D2＝{p_i:L₁,p_j:L₂,...,p_k:L_s}；

(7)参考长句的停顿与韵律边界的判定准则，结合具体实验数据分析，将韵律层级根据停顿时间长度分为三级：一级停顿包括主谓之间；二级停顿包括偏正结构的不同修饰词之间；三级停顿包括述宾之间、带“的”或“地”的短语和词组。根据L与等级阈值的关系，在文本对应的位置p处插入韵律边界标志符，即可得到带有韵律边界的标注文本S_out。

本发明的有益效果在于：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本韵律边界识别的方法，其特征在于，具体包括以下步骤：

S4，按照韵律结构层级和文本间停顿时长的对应关系，设置不同层级的停顿阈值，计算上述音频帧区间的时长，通过比较该时长与停顿阈值的大小关系判断出文本韵律边界；

其中，步骤S1具体包括以下步骤：

2.根据权利要求1所述的一种文本韵律边界识别的方法，其特征在于，步骤S2具体包括以下步骤：

3.根据权利要求1-2任一项所述的一种文本韵律边界识别的方法，其特征在于，步骤S1中，通过最大期望算法，对标准语音数据集的录音和文本信息进行对齐训练，得到音频帧和音素的对齐模型。

4.一种文本韵律边界识别的装置，其特征在于，具体包括

边界确定模块，根据无量纲参数和停顿阈值的关系判断出文本韵律边界；

其中，所述模型训练模块，具体用于：对标准语音数据集的录音和文本信息进行预处理，得到除去无效帧的音频帧集，将文本信息转化为音素，按文本内字符顺序构建有次序的音素集；对音频帧集中的有效音频帧进行声学特征提取，按音频帧顺序构建有次序的音频集；对有次序的音素集和音频集进行对齐训练，得到音频帧和音素的对齐参数。

5.根据权利要求4所述的一种文本韵律边界识别的装置，其特征在于，还包括

预处理模块，对标准语音数据集的录音和文本信息进行预处理，得到有次序的音素集并输出至模型训练模块，对待标注的录音和文本信息进行预处理，得到有次序的音频集并输出至对齐模型模块。

6.根据权利要求5所述的一种文本韵律边界识别的装置，其特征在于，预处理模块包括

文本预处理子模块，对文本进行清洗切词处理，将文本转化成音素，按文本内字符顺序构建有次序的音素集。

7.根据权利要求6所述的一种文本韵律边界识别的装置，其特征在于，录音预处理子模块包括

8.根据权利要求4所述的一种文本韵律边界识别的装置，其特征在于，边界确定模块，根据无量纲参数和停顿阈值的关系判断出文本韵律边界具体指的是