CN115188365B

CN115188365B - 一种停顿预测方法、装置、电子设备及存储介质

Info

Publication number: CN115188365B
Application number: CN202211098525.4A
Authority: CN
Inventors: 韩柳; 唐镇坤; 陈俊荣; 黄文辉; 崔权兴
Original assignee: China Post Consumer Finance Co ltd
Current assignee: China Post Consumer Finance Co ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-12-27
Anticipated expiration: 2042-09-09
Also published as: CN115188365A

Abstract

本发明涉及一种停顿预测方法、装置、电子设备及存储介质，包括如下步骤：S1:进行中文分词的文本数据的采集，根据采集的分词文本数据进行分词模型训练，采用语音合成模型进行与分词文本数据对应的音频数据的合成，并保存至语音合成数据库中；S2:获取音频数据中的停顿位置，并通过强制对齐工具获取分词文本数据中的停顿位置，得到预测停顿文本数据；S3:根据预测停顿文本数据进行分词模型的训练，得到目标停顿预测模型。本发明提供的停顿预测方法、装置、电子设备及存储介质，即使在缺少人工停顿标注数据的情况下，也可以训练出高准确率的前端停顿预测系统。

Description

一种停顿预测方法、装置、电子设备及存储介质

技术领域

本发明涉及中文语音合成技术领域，具体涉及一种停顿预测方法、装置、电子设备及存储介质。

背景技术

近年来，智能语音交互已然成为国内外学术界、工业界关注的研究热点话题，相关的智能语音产品如智能客服、智能聊天机器人等也走入了千家万户，深刻地改变着人们与计算机之间的交互模式。

作为智能语音领域核心技术之一的语音合成技术，其主要的功能是模仿人类的说话方式，通过文字产生相应的声音，从而实现机器“发声”。而评价一个语音合成系统是否足够优秀，就要考量它发出的声音是否接近于人类的真实说话风格，如声音是否清晰、词句的停顿是否自然等。因此，语音合成系统中的一个关键问题就是如何预测文字中的停顿，从而使得生成的声音有和人类相似的停顿习惯，提高声音的逼真程度。通常语音合成系统中，关于文字中停顿预测，是由语音合成系统的文本处理模块完成的，也常被成为前端模块。

前端模块的停顿预测类似于自然语言处理领域的分词预测任务，但又有所区别。相同点在于，停顿预测与分词预测的目标都是对句子中的词语进行切分，并做出标记；而不同点在于，自然语言处理领域的分词任务是基于词语划分的，但语音合成领域的停顿预测则是根据人们的说话习惯，对语句中应该停顿的地方进行标记，虽然通常标注的位置也位于词语的边界，但在人类的日常说话中，部分词语间是不存在停顿的。例如，对于“此次疫苗类型有生物科兴和智飞”这句话而言，分词任务的结果可能为“此次/疫苗/类型/有/生物/科兴/和/智飞”，而停顿预测的结果则可能是“此次疫苗类型有/生物/科兴/和智飞”。可见，停顿预测中的划分是需要根据人类说话习惯划分的，这就需要有相应的停顿标注数据集。

然而，此类标注数据集通常需要进行人工划分，因此目前可用的数据相对较少，不足以支撑一个足够鲁棒的文本停顿标注模型，而收集或购买数据的代价又相对昂贵。

发明内容

针对现有技术的不足，本发明提供了一种停顿预测方法、装置、电子设备及存储介质，利用分词预测和停顿预测任务的相似性，以及使用语音强制对齐工具产生少量标注数据，在进行分词模型和停顿预测模型之间的迁移，从而构成停顿预测模型。

为了实现本发明的目的，本发明提供一种停顿预测方法，包括：

S1:进行中文分词的文本数据的采集，根据采集的分词文本数据进行分词模型训练，采用语音合成模型进行与分词文本数据对应的音频数据的合成，并保存至语音合成数据库中；

S2:获取音频数据中的停顿位置，并通过强制对齐工具获取分词文本数据中的停顿位置，得到预测停顿文本数据；

S3:根据预测停顿文本数据进行分词模型的训练，得到目标停顿预测模型。

优选的，所述步骤S2之前还包括步骤S02，所述步骤S02包括：

对合成的音频数据进行单元的拆分，并在相邻两个单元之间插入音素。

优选的，所述步骤S2的具体步骤为：

计算音频数据中相邻两个单元之间的音素时长，将时长为预设值的音素作为音频数据的停顿位置，采用强制对齐工具进行音频数据和分词文本数据的强制对齐，得到预测停顿文本数据。

优选的，所述步骤S1中的分词模型为BERT或LSTM模型，所述音频数据的单元为字或拼音。

优选的，本发明还提供了一种停顿预测装置，包括：

采集模块：用于进行中文分词的文本数据的采集；

合成模块：用于进行与分词文本数据对应的音频数据的合成；

强制对齐模块：根据获取的音频数据中的停顿位置来获取分词文本数据中的停顿位置；

训练模块：用于对采集的分词文本数据和预测停顿文本数据进行分词训练。

优选的，所述强制对齐模块具体包括：

编辑模块：用于进行音频数据中单元的拆分，以及在相邻单元之间音素的添加。

优选的，在所述强制对齐模块中：

先计算音频数据中相邻两个单元之间的音素时长，将时长为预设值的音素作为音频数据的停顿位置，采用强制对齐工具进行音频数据和分词文本数据的强制对齐，得到预测停顿文本数据。

优选的，所述训练模块采用BERT或LSTM进行分词训练，所述编辑模块中的单元为字或拼音。

优选的，本发明还提供了一种电子设备，包括：

存储器和位于存储器上的至少一个计算机程序；

还包括至少一个处理器，用于处理所述存储器中的至少一个计算机程序，所述处理器执行所述计算机程序时，实现中文语音合成的停顿预测方法的步骤。

优选的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现中文语音合成的停顿预测方法的步骤。

本发明的有益效果为：本发明提供的停顿预测方法、装置、电子设备及计算机可读存储介质，通过文本和音频数据之间的强制对齐，以及利用分词模型和停顿预测模型之间的相似性，即使在缺少人工停顿标注数据的情况下，也可以训练出高准确率的前端停顿预测系统。

附图说明

通过附图中所示的本发明优选实施例更具体说明，本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分，且并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本的主旨。

图1为本发明实施例提供的停顿预测方法的流程示意图；

图2为本发明实施例提供的停顿预测方法提供的实施例的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步的详细描述，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

请参考图1-2，本发明实施例提供一种停顿预测方法，包括：

请参考图1-2，本发明提供的停顿预测方法，首先，进行中文分词的文本数据采集（文本数据集可为人民分词预料等数据集），具体为自然语言处理领域的分词数据采集（自然语言处理领域的分词任务已经存在成熟的解决方案，且有着丰富的相关标注文本数据集），然后通过分词模型对采集的文本数据进行分词训练，例如“达到了九百七十五万人”这句话，将这句话训练为“达到/了/九百/七十五/万/人”，也有可能为“达到了/九百/七十/五/万/人”等多种情况，通过语音合成模型进行这句话对应的音频数据的合成，此时得到音频和相应的文本并存储在语音合成数据库中留作备用；

根据说话习惯将音频数据中的内容进行停顿设置，还是采用这句话（达到了九百七十五万人），此时音频数据的停顿位置为：“达到了/九百/七十五/万人”或“达到了/九百七十五/万人”或“达到了/九百七十五/万/人”等多种情况，主要根据说话人的习惯来进行停顿预测，如存在一句话多种不同的停顿位置，可一并存储在模型中供其训练及使用，此时在采用强制对齐工具对文本数据和音频数据进行强制对齐，在根据音频数据的停顿位置来得到预测的停顿文本数据，在将文本数据进行分词模型的训练即可得到目标停顿预测模型。

本发明的有益效果为：利用分词预测和停顿预测任务的相似性（分词模型和停顿预测模型都是序列标签预测问题，且两者任务可以使用同样的标签符号），将分词模型迁移为停顿预测模型，同时本发明提供的停顿预测方法，即使在缺少人工停顿标注数据的情况下，也可以训练出高准确率的前端停顿预测系统。

请参考图1-2，在优选实施例中，所述步骤S2之前还包括步骤S02，所述步骤S02包括：

在音频数据合成之后，先对音频数据进行单个单元的拆分，并增加音素，具体为：（达到了九百七十五万人）拆分为：达-到-了-九-百-七-十-五-万-人或达到-了-九-百-七-十-五-万-人等多种类型；

例如：“达”字对应的是A1部分的音频，“到”字对应的是A2部分的音频，以此类推；

我们需要在每个单元之间插如（音素）静音符号，即“SIL”符，该符号在声学模型中通常表示静音片段。如此一来，待对齐的文本将变为“达SIL到SIL了SIL九SIL百SIL七SIL十SIL五SIL万SIL人”。

请参考图1-2，在优选实施例中，所述步骤S2的具体步骤为：

先将每个单元之间的“SIL”符进行时间长度的计算，然后将音素时长大于预设值的“SIL”符作为音频的停顿位置，然后将文本数据和音频数据进行强制对齐，强制对齐后，即可得到预测停顿文本数据，然后保存在数据库中备用，工后续进行分词模型的训练；

预设值主要根据说话人习惯来进行设定，通常情况下预设值为0.1、0.2、0.3s或0.1-0.3s。

强制对齐工具是语音识别系统在训练中的一个流程，只需要有预训练好的声学模型即可进行语音对齐，其功能是求取音频序列和对应文本序列的对应关系，也即是确定文本序列中每一个单元对应音频中的哪一段。

请参考图1-2，在优选实施例中，所述步骤S1中的分词模型包括但不限于BERT或LSTM模型，所述音频数据的单元为字或拼音，单元还可为词语、字符长度等。此处的单元指的是语音合成系统中文本的最小表示单位，包括但不限于字或拼音等。

请参考图1-2，在进一步的优选实施例中，本发明还提供了一种停顿预测装置，包括：

采集模块：用于进行中文分词的文本数据的采集；

请参考图1-2，在优选实施例中，所述强制对齐模块具体包括：

请参考图1-2，在优选实施例中，在所述强制对齐模块中：

请参考图1-2，在优选实施例中，所述训练模块采用BERT或LSTM进行分词训练，所述编辑模块中的单元为字或拼音。

请参考图1-2，在进一步的优选实施例中，本发明还提供了一种电子设备，包括：

存储器和位于存储器上的至少一个计算机程序；

处理器可以是集成电路芯片，也可以是通用处理器、数字信号处理器专用集成电路或微处理器等任何常规的处理器等。

请参考图1，在进一步的优选实施例中，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现中文语音合成的停顿预测方法的步骤。

该计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSSMemory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备(例如，计算机、手机)以能够读的形式存储或传输信息的任何介质，可以是只读存储器，磁盘或光盘等。

本发明的有益效果为：本发明提供了一种停顿预测方法、装置、电子设备及存储介质，通过在单元之间增加音素（静音片段），并计算音素的具体长度，来对分词文本数据和音频数据进行强制对齐，同时利用分词模型和停顿预测模型之间的相似度来构成目标停顿预测模型。

本发明提供的停顿预测方法、装置、电子设备及计算机可读存储介质，即使在缺少人工停顿标注数据的情况下，也可以训练出高准确率的前端停顿预测系统。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种停顿预测方法，其特征在于，包括如下步骤：

S1：进行中文分词的文本数据的采集，根据采集的分词文本数据进行分词模型训练，采用语音合成模型进行与分词文本数据对应的音频数据的合成，并保存至语音合成数据库中；

其中，所述分词模型为BERT或LSTM模型；

S02：对合成的音频数据进行单元的拆分，并在相邻两个单元之间插入音素；

其中，所述音频数据的单元为字或拼音；

S2：计算音频数据中相邻两个单元之间的音素时长，将时长为预设值的音素作为音频数据的停顿位置，采用强制对齐工具进行音频数据和分词文本数据的强制对齐，得到预测停顿文本数据；

S3：根据预测停顿文本数据进行分词模型的训练，得到目标停顿预测模型。

2.一种停顿预测装置，其特征在于，包括：

采集模块：用于进行中文分词的文本数据的采集；

编辑模块：位于强制对齐模块中，用于进行音频数据中单元的拆分，以及在相邻单元之间音素的添加，其中：单元为字或拼音；

强制对齐模块：先计算音频数据中相邻两个单元之间的音素时长，将时长为预设值的音素作为音频数据的停顿位置，采用强制对齐工具进行音频数据和分词文本数据的强制对齐，得到预测停顿文本数据；

训练模块：采用BERT或LSTM对采集的分词文本数据和预测停顿文本数据进行分词训练。

3.一种电子设备，其特征在于，包括：

存储器和位于存储器上的至少一个计算机程序；

还包括至少一个处理器，用于处理所述存储器中的至少一个计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1所述的停顿预测方法的步骤。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1所述的停顿预测方法的步骤。