CN110781651A

CN110781651A - 一种文字转语音插入停顿的方法

Info

Publication number: CN110781651A
Application number: CN201911005139.4A
Authority: CN
Inventors: 陈阳; 鲁永春; 王周
Original assignee: Hefei Mingyang Information Technology Co Ltd
Current assignee: Hefei Mingyang Information Technology Co Ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-11

Abstract

本发明公开了一种文字转语音插入停顿的方法，属于文语转换合成领域，包括以下步骤：S1：用正则表达式检测文本的停顿标记；S2：检索下一个字符是否是停顿标记，否则执行下一步，是则执行步骤S1；S3：计算出停顿总时长；S4：手机端根据停顿标记将文本切割成若干个文本片段，手机端发送文本片段到服务端；S5：服务端返回音频数据写入本地文件；S6：将停顿无发音数据写入音频文件；S7：剩余文本是否为空，否则执行步骤S1。本技术方案能够根据使用者的实际需要调整语音文件停顿时间和停顿的位置。

Description

一种文字转语音插入停顿的方法

技术领域

本发明涉及文语转换(TTS)合成领域，更具体地说，涉及一种文字转语音插入停顿的方法。

背景技术

文语转换(TTS)，通常也被称作连续文本到语音的合成，其允许电子设备接收输入的文本串并以合成语音的形式提供该文本串的转换后的表示。

为便于听者更好地理解播放的语音信息，需要在相应的位置适当的停顿。现有的技术直接将文本信息经文语转换(TTS)系统转换为语音信息，在在一些需要停顿的位置没有停顿。例如：将两端文字转换为语音文件，播放器播放语音文件，播放器播放完第一段文字信息后处理第二段文信息并播放，中间没有相应的停顿。需要播放完第一段语音后需要停顿10秒，以便给出适当的时间给听者留一段理解的时间，再播放其它内容。目前需要一种文语转换方法，能够根据使用者的实际需要随时随地的调整语音文件停顿时间和停顿的位置。

发明内容

针对现有技术的不足，本发明的目的在于提供一种文字转语音插入停顿的方法，能够根据使用者的实际需要调整语音文件停顿时间和停顿的位置。

本发明的目的可以通过以下技术方案实现：

一种文字转语音插入停顿的方法，包括以下步骤：

S1：用正则表达式检测文本的停顿标记；

S2：检索下一个字符是否是停顿标记，否则执行下一步，是则执行步骤S1；

S3：计算出停顿总时长；

S4：手机端根据停顿标记将文本切割成若干个文本片段，手机端发送文本片段到服务端；

S5：服务端返回音频数据写入本地文件；

S6：将停顿无发音数据写入音频文件；

S7：剩余文本是否为空，否则执行步骤S1。

作为本发明的一种优选方案，在步骤S1之前还包括步骤：

S0：手机端设置有文本编辑页面，文本编辑页面包含插入停顿按钮，将要转成语音的文字录入文本编辑页面时，将需要停顿的位置点击插入停顿按钮插入停顿标记。

作为本发明的一种优选方案，在步骤S3中，计算出停顿总时长之后，将停顿总时长写入本地文件。

作为本发明的一种优选方案，在步骤S5中，服务端接收到文本片段后，将文本片段处理成音频数据。

作为本发明的一种优选方案，在步骤S6中，手机端将相应的停顿标记转化为无发音数据，并将无发音数据写入应音频文件相应的位置。

作为本发明的一种优选方案，在步骤S7之后，还包括步骤：S8：将手机端的所有音频文件合成一个音频文件。

作为本发明的一种优选方案，所述文本的格式包括TXT、DOC、DOCX和WPS。

作为本发明的一种优选方案，音频文件的格式包括MP3、WAV、WMA和APE。

作为本发明的一种优选方案，手机端与服务端通过互联网连接。

本发明的有益效果：

在本文编辑页面中，将光标需要插入停顿的地方，插入停顿的标记，播放上述的文本处理后的语音文件，播放器在停顿的位置会播放无声音的语音数据，便于听者更好地理解播放的语音信息。使用者可编辑需要转换语音的文本，插入停顿的标记信息，再完成语音转化，实现使用者随时随地的调整语音文件停顿时间和停顿的位置的功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为文字转语音插入停顿方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，

一种文字转语音插入停顿的方法，包括以下步骤：

S1：用正则表达式检测文本的停顿标记；

S3：计算出停顿总时长；

S5：服务端返回音频数据写入本地文件；

S6：将停顿无发音数据写入音频文件；

S7：剩余文本是否为空，否则执行步骤S1。

作为本发明的一种优选方案，在步骤S1之前还包括步骤：

在步骤S3中，计算出停顿总时长之后，将停顿总时长写入本地文件。

在步骤S5中，服务端接收到文本片段后，将文本片段处理成音频数据。

在步骤S6中，手机端将相应的停顿标记转化为无发音数据，并将无发音数据写入应音频文件相应的位置。

在步骤S7之后，还包括步骤：S8：将手机端的所有音频文件合成一个音频文件。

所述文本的格式包括TXT、DOC、DOCX和WPS。

音频文件的格式包括MP3、WAV、WMA和APE。

手机端与服务端通过互联网连接。

用正则表达式匹配停顿标记，如果匹配出说明此处有插入停顿，取出中间的数值，继续检索看下一个字符是不是也是停顿标记，如果是，则继续检索，直到下一个字符不是停顿标记，然后将检索出所有停顿时长相加，作为此处的总停顿时长，例如[1S][1S],总时长为2秒，以此将文本切割成两段，将前面的文本发送到服务端语音合成，返回后将返回的语音数据写入到手机App本地音频文件，然后插入停顿时长的无发音数据到App本地音频文件，然后继续检索剩余的文本，直到所有停顿标记都被检索出来。

在本文编辑页面中，将光标需要插入停顿的地方，插入[1S]这样的标记，其中里面的数字是可以修改的，[1S]代表停顿1秒，[2S]或[1S][1S]代表停顿2秒，依次类推。播放上述的文本处理后的语音文件，播放器在停顿的位置会播放无声音的语音数据，便于听者更好地理解播放的语音信息，使用者可编辑需要转换语音的文本，插入停顿的标记信息，再完成语音转化，实现使用者随时随地的调整语音文件停顿时间和停顿的位置的功能。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种文字转语音插入停顿的方法，其特征在于，包括以下步骤：

S1：用正则表达式检测文本的停顿标记；

S3：计算出停顿总时长；

S5：服务端返回音频数据写入本地文件；

S6：将停顿无发音数据写入音频文件；

S7：剩余文本是否为空，否则执行步骤S1。

2.根据权利要求1所述的一种文字转语音插入停顿的方法，其特征在于，在步骤S1之前还包括步骤：

3.根据权利要求1所述的一种文字转语音插入停顿的方法，其特征在于，在步骤S3中，计算出停顿总时长之后，将停顿总时长写入本地文件。

4.根据权利要求1所述的一种文字转语音插入停顿的方法，其特征在于，在步骤S5中，服务端接收到文本片段后，将文本片段处理成音频数据。

5.根据权利要求1所述的一种文字转语音插入停顿的方法，其特征在于，在步骤S6中，手机端将相应的停顿标记转化为无发音数据，并将无发音数据写入应音频文件相应的位置。

6.根据权利要求1所述的一种文字转语音插入停顿的方法，其特征在于，在步骤S7之后，还包括步骤：S8：将手机端的所有音频文件合成一个音频文件。

7.根据权利要求1所述的一种文字转语音插入停顿的方法，其特征在于，所述文本的格式包括TXT、DOC、DOCX和WPS。

8.根据权利要求1所述的一种文字转语音插入停顿的方法，其特征在于，音频文件的格式包括MP3、WAV、WMA和APE。

9.根据权利要求1所述的一种文字转语音插入停顿的方法，其特征在于，手机端与服务端通过互联网连接。