CN115017883A

CN115017883A - 基于预训练融合语音特征的文本标点恢复方法

Info

Publication number: CN115017883A
Application number: CN202111557681.8A
Authority: CN
Inventors: 高盛祥; 孙童; 赖华; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-09-06
Anticipated expiration: 2041-12-20
Also published as: CN115017883B

Abstract

本发明涉及基于预训练融合语音特征的文本标点恢复方法，属于人工智能领域，本发明使用预训练语言模型获取到原始文本更丰富的信息特征，使用注意力机制对文本进行无视序列长度的语义对齐，将每个词编码成为包含全局语义的隐向量；此基础上将文本信息特征与其对应的原始音频特征在时间上进行对齐，在嵌入空间上进行融合，得到混合了语义信息与音频信息的融合特征，将更多文本无法有效包含的说话人声调、音高、停顿以及静默时间等特征信息提供给模型。

Description

基于预训练融合语音特征的文本标点恢复方法

技术领域：

本发明涉及基于预训练融合语音特征的文本标点恢复方法，属于人工智能技术领域。

背景技术：

目前主流自动语音识别系统(ASR System)通常会直接将输入语音转录为无标点的文本序列，该文本序列在难以阅读的同时会对下游自然语言处理任务造成不可忽视的性能损失。标点恢复工作早期仅对序列断句位置做出预测，无法高效准确的确定序列边界处具体的标点符号,故也被称作序列边界检测工作。由于序列标注任务输入输出序列等长的特性，目前标点恢复工作更多的关注更有效的提取文本语义特征，但完全丢弃文本对应的原始音频序列，仅凭借文本中包含的语义信息来推断其正确的标点符号。然而，音频中包含更丰富的说话人感情、语气等特征信息，这类信息相对于文本语音来讲对标点符号起到更加重要的作用。

发明内容：

本发明提出了基于预训练融合语音特征的文本标点恢复方法，该方法使用大型预训练语言模型作为文本特征提取器，给予模型理解文本的能力，令模型学习到更多关于句法结构的知识；并在上述基础上融合原始语音的音频特征信息，提供给模型更多关于说话人语气、声调、停顿时间等仅包含在原始语音中的信息，令模型能够对含有歧义的文本序列进行准确的标点恢复。

本发明的技术方案是：基于预训练融合语音特征的文本标点恢复方法，所述方法的具体步骤如下：

Step1、收集包含对应语音的带有完整高质量标点符号的英文文本作为训练语料和测试语料；

Step2、对数据集的文本进行预处理，构造“文本-标签”平行数据对；

Step3、对音频进行预处理，构造符合训练要求的音频文件；

Step4、在步骤Step2的基础上构建字母粒度的词表，选取特征空间；

Step5、对文本、音频在时域空间上进行毫秒级的帧对齐，获取文本中每个单词对应的时间片段；

Step6、使用预训练语言模型对文本进行特征提取、使用滤波器对对应的音频片段进行特征提取，压缩音频特征长度为1，并在特征空间上与文本特征进行拼接；

Step7、训练分类器，并在测试语料上进行标点恢复实验验证。

作为本发明的进一步方案，所述Step2中，对开源语音识别数据集进行了文本预处理，包括：去除特殊专有词汇，将所有字母更换为小写字母，词量统计，标点符号数量占比统计；重映射特殊的标点符号：引号、冒号、分号替换为逗号，叹号替换为句号，删除其余所有的标点符号；还原缩写单词为原单词；将文本与标点符号分离，构造单词序列-标签序列平行语料。

作为本发明的进一步方案，所述Step3中，借助于计算机自动文本处理工具sox 对音频文件进行重采样为比特率为16kHz的wav格式文件。

作为本发明的进一步方案，所述Step5中，借助于aeneas方法，对音频与其对应的文本进行毫秒级别的对齐，得到文本中每个单词对应的音频时间片段，用于方便后续处理中对于该单词对应的音频特征提取。

作为本发明的进一步方案，所述Step6中，使用预训练语言模型BERT的分词器将文本转为词表id，对于词表中未登录词汇使用<UNK>代替；词语id序列被输入进预训练语言模型BERT进行文本特征的提取，每个序列构成一个768维的矩阵，得到文本与音频对应的特征f_text、f_audio：

f_text＝BERT(X)

其中：X为输入的文本序列{X|X＝x₁,...,x_i}；此时序列中每个特征矩阵长度不同，对 f_audio的每个序列片段采用均值或方差的方式将长度压缩为1，得到长度为1、维度分别为80和512的音频特征矩阵：

f_audio＝feature_extractor(A)

f′_audio＝feature_conpress(f_audio)

其中：A为经过对齐的对应输入文本序列X的音频帧片段{A|A＝audio₁,...,audio_i}；此时，文本特征f_text与音频特征f′_audio只在词嵌入维度上不同，其余维度保持相同，在词嵌入维度上进行拼接得到混合特征

融合后词嵌入维度等于两种特征词嵌入维度的和：

作为本发明的进一步方案，在得到的混合特征的特征空间中，构造并训练一个文本分类器，对原始文本{X|x＝x₁,…,x_i}的每个单词推测一个标点符号并作为输出。

本发明的有益效果是：本方法提出基于预训练融合语音特征的文本标点恢复，使用预训练语言模型获取到原始文本更丰富的信息特征，其中的注意力机制帮助模型准确定位影响句中标点符号的核心词；在此基础上将文本信息特征与其对应的原始音频特征进行融合，将更多文本无法有效包含的说话人声调、音高、停顿以及静默时间等特征信息提供给模型。在纯文本数据集IWSLT上的实验相较于传统基于循环神经网络(RNN)进行文本特征提取的模型有近10％的可见性能提升。在音频-文本平行数据集LibriTTS上的音频特征融合实验相较于依赖纯文本特征的模型得到10％-20％的性能提升。

附图说明：

图1是本发明提出的基于预训练融合语音特征的文本标点恢复方法的模型结构图。

具体实现方式：

实施例1：如图1所示，基于预训练融合语音特征的文本标点恢复方法，所述方法的具体步骤如下：

Step1、收集包含对应语音的带有完整高质量标点符号的英文文本作为训练语料和测试语料；具体的，同时使用开源数据集IWSLT2(International Workshop on SpokenLanguage Translation)其数据主要来源于TED演讲、LibriTTS数据集进行实验。其中IWSLT 2012包含142k平行句对，作为训练集；IWSLT 2011作为测试集，该种实验设置被普遍用于纯文本的标点恢复任务实验。LibriTTS包含33k带标点句子及其对应的人工转录语音音频；方便测试提出的融合语音特征的模型性能。实验所采用的数据集详细数据统计如表1所示。

表1为数据集设置

经过处理后的输入序列为不带有标点的以空格作为分隔符的纯文本序列以及文本对应的原始音频文件路径，输出序列为对应每个单词后应该添加的标点标签，以空格作为分隔符。仅考虑以下三种标点符号：逗号、句号以及问号。与之相对应的，输出序列有四类：“,COMMA”、“.PERIOD”、“问号QUESRIONMARK”、“_SPACE”，其中“_SPACE”代表标签对应输入序列中该位置单词后无标点。经过上述处理，模型输入和输出序列如下：

-原序列：it can be a very complicated thing,the ocean.

-输入序列：it can be a very complicated thing the ocean

-音频路径：path/to/the/audio/16kHz-audio-file.wav

-输出序列：_SPACE_SPACE_SPACE_SPACE_SPACE_SPACE,COMMA _SPACE.PERIOD

Step3、对于音频，将文本对应的所有音频使借助于计算机自动文本处理工具sox对音频文件进行重采样为比特率为16kHz的wav格式文件；

Step5、借助于aeneas方法，对音频与其对应的文本进行毫秒级别的对齐，得到文本中每个单词对应的音频时间片段，用于方便后续处理中对于该单词对应的音频特征提取。

具体Step6包括：

Step6.1、使用预训练语言模型对文本进行特征提取包括：

BERT是一种基于自注意力机制(self-attention)的预训练语言模型，使用多层Transformer编码器框架，利用屏蔽语言模型(Masked Language Model,MLM)任务学习句子之间的关系，具有较强的表达能力。Transformer编码器先将词转化为词嵌入，并加入相对位置信息，之后经过注意力机制计算得分，寻找句中核心词，注意力机制可以表述为：

其中，Q代表查询序列；K,V为文本向量键值对；d_k为注意力头维度；

BERT预训练模型使用多头注意力机制并行计算多个注意力得分，加速注意力计算速度同时提升模型泛化性能，多头注意力机制表示为：

Multihead(Q,K,V)＝

Concat(head₁,head₂,...,head_k)W^o

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，W_i ^Q,W_i ^K,W_i ^V,W^o均为模型参数。最后模型输入一个两层的前馈网络全连接层，表示为：FFN(x)＝max(0,xW₁+b₁)W₂+b₂；其中，W₁,b₁,W₂,b₂为模型参数。

作为本发明的进一步方案，所述Step6中，对于模型输入的文本序列{X|x＝x₁,…,x_i} 首先经过处理将大写字母全部替换为小写，使用预训练语言模型BERT的分词器(tokenizer)将文本转为词表id，对于词表中未登录词汇使用<UNK>代替；词语id序列被输入进预训练语言模型BERT进行文本特征的提取，每个序列构成一个768维的矩阵

f_text＝BERT(X)；BERT中的自注意力机制能够对全局信息进行有效处理，词间距离缩小为1，更容易获取文本内部的依赖关系，寻找定位序列中的核心词汇，表现出相较于循环神经网络(RNN)更强的表达能力与效果。

Step6.2、文本与音频对齐和使用滤波器对对应的音频片段进行特征提取包括：

对于文本序列对应的原音频，首先将音频与文本使用aeneas进行强制文本对齐，该操作允许我们能够获取到文本序列中每个单词对应的音频帧的大致对齐。即对于序列{X|x＝x₁,…,x_i}可以得到{A|a＝a₁,…,a_i}个音频帧片段，其中a_i为x_i对应的音频帧，长度取决于x_i的持续时间。例如：

文本序列：his tender heir might bear his memory

音频对齐：16.080-16.880 His

16.880-17.120 tender

17.120-17.840 heir

17.840-18.520 might

18.520-19.040 bear

19.040-19.360 his

19.360-19.920 memory

对于A，将其中的每一个音频片段分别进行特征提取，得到序列

由于音频对齐片段时长不同，此时序列f_audio中每个特征矩阵长度不同，对f_audio的每个序列片段采用均值或方差的方式将长度压缩为 1，得到长度为1、维度分别为80和512的音频特征矩阵

f_audio＝feature_extractor(A)

f′_audio＝feature_conpress(f_audio)

Step6.3、文本特征与音频特征的融合：

上述得到的文本特征f_text与音频特征f′_audio只在词嵌入维度上不同，其余维度保持相同，在词嵌入维度上进行拼接得到混合特征

融合后词嵌入维度等于两种特征词嵌入维度的和：

将融合后的混合特征f_con输入一个线性分类层，最终经由一个softmax层输出该文本序列{X|x＝x₁,…,x_i}中每个单词对应的不同标点符号概率，取概率最大值即得到该单词对应的标点符号标签。

针对提出的以上方法，在英文数据集LibriTTS上进行了实验验证：

使用提出的方法构造标点恢复模型。

使用LibriTTS训练集、交叉熵损失函数对构造的模型进行训练。

使用LibriTTS开发集对训练完成的模型进行参数调整。

在LibriTTS的测试集上对调整完成的模型进行测试，对比基线模型。

本实验使用Hugging Face中基于Pytorch的预训练语言模型BERT-base-uncased作为文本特征提取器，Wav2vec1.0和python-speech-feature分别作为音频特征提取器。并使用均值算法作为音频特征长度压缩的算法。

表2为对比基线模型的标点恢复实验结果，其中：

1)Punctuator2：使用RNN(循环神经网络)提取文本特征，对特征计算注意力得分，使用线性层推测与输入序列等长的标点符号序列。

2)BERT&wav2vec：本发明工作，使用预训练语言模型BERT提取文本特征，预训练音频模型wav2vec提取高维卷积音频特征，拼接后使用线性层推测与输入序列等长的标点符号序列。

3)BERT&MFCC：本发明工作，使用预训练语言模型BERT提取文本特征， python-speech-features提取人工设计的音频梅尔倒频谱(MFCC)特征，拼接后使用线性层推测与输入序列等长的标点符号序列。表3展示了使用不同算法进行标点恢复的消融实验。

表2为对比音频特征融合的标点恢复模型效果

表3为使用不同算法进行标点恢复的消融实验结果

上表可以得出，在所有融入了语音信息特征的实验中，模型预测性能均得到了明显可见的提升，相较于使用RNN提取纯文本特征的标点恢复模型性能提升在30％左右；其中采用MFCC特征并使用均值进行长度压缩的模型在所有标点整体指标上达到最优效果。在融入语音特征之后，模型能够获取到更多包含在原始语音中丰富的说话人声调、音高、情绪以及停顿等信息，通过更加具有明确指向性的信息来推断句子的断句以及断句处的标点符号。在融入对应文本的语音信息特征之后，各项指标均得到不同程度的提升。其中，对于问号的推测性能提升较为明显，这是由于疑问句相较于陈述句等句式其语气有着更加突出的特征，而文本中无法包含“语气”特征，在添加了音频信息特征之后，模型能够更有效的掌握“疑问语气”，从而将依靠纯文本特征错误预测的句号纠正为问号。对于逗号的推测在融入语音信息之后同样有提升，在日常语音中，逗号、句号都表现为“一段时间的静默”，而自动语音识别(ASR)系统在对原始语音进行转录时，通常会直接将静默时间丢弃，以达到转录文本的流畅通顺，给下游的标点恢复模型分辨逗号句号带来一定的挑战。在融入原始语音信息之后，模型能够更有效的获取到当前静默的时间信息，从而将错误预测的句号纠正为逗号。

结果表明，基于BERT预训练能够更好的学习到语义表征来提升标点预测性能；同时，将文本对应的原始音频与文本特征在高阶特征层次上的深度融合，能使模型学习到说话人语气、声调、音高以及停顿等音频特征，相较于基线模型都有较大性能提升。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于预训练融合音频特征的文本标点恢复方法，其特征在于：所述方法的具体步骤如下：

Step3、对音频进行预处理，构造符合训练要求的音频文件；

2.根据权利要求1所述的基于预训练融合音频特征的文本标点恢复方法，其特征在于：所述Step2中，对开源语音识别数据集进行了文本预处理，包括：去除特殊专有词汇，将所有字母更换为小写字母，词量统计，标点符号数量占比统计；重映射特殊的标点符号：引号、冒号、分号替换为逗号，叹号替换为句号，删除其余所有的标点符号；还原缩写单词为原单词；将文本与标点符号分离，构造单词序列-标签序列平行语料。

3.根据权利要求1所述的基于预训练融合音频特征的文本标点恢复方法，其特征在于：所述Step3中，借助于计算机自动文本处理工具sox对音频文件进行重采样为比特率为16kHz的wav格式文件。

4.根据权利要求1所述的基于预训练融合音频特征的文本标点恢复方法，其特征在于：所述Step5中，借助于aeneas方法，对音频与其对应的文本进行毫秒级别的对齐，得到文本中每个单词对应的音频时间片段，用于方便后续处理中对于该单词对应的音频特征提取。

5.根据权利要求1所述的基于预训练融合音频特征的文本标点恢复方法，其特征在于：所述Step6中，使用预训练语言模型BERT的分词器将文本转为词表id，对于词表中未登录词汇使用<UNK>代替；词语id序列被输入进预训练语言模型BERT进行文本特征的提取，每个序列构成一个768维的矩阵，得到文本与音频对应的特征f_text、f_audio：

f_text＝BERT(X)

其中：X为输入的文本序列{X|X＝x₁,...,x_i}；此时序列中每个特征矩阵长度不同，对f_audio的每个序列片段采用均值或方差的方式将长度压缩为1，得到长度为1、维度分别为80和512的音频特征矩阵：

f_audio＝feature_extractor(A)

f′_audio＝feature_conpress(f_audio)

融合后词嵌入维度等于两种特征词嵌入维度的和：

6.根据权利要求5所述的基于预训练融合音频特征的文本标点恢复方法，其特征在于：在得到的混合特征的特征空间中，构造并训练一个文本分类器，对原始文本{X|x＝x₁,…,x_i}的每个单词推测一个标点符号并作为输出。