CN110781651A - 一种文字转语音插入停顿的方法 - Google Patents

一种文字转语音插入停顿的方法 Download PDF

Info

Publication number
CN110781651A
CN110781651A CN201911005139.4A CN201911005139A CN110781651A CN 110781651 A CN110781651 A CN 110781651A CN 201911005139 A CN201911005139 A CN 201911005139A CN 110781651 A CN110781651 A CN 110781651A
Authority
CN
China
Prior art keywords
pause
text
mobile phone
data
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911005139.4A
Other languages
English (en)
Inventor
陈阳
鲁永春
王周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Mingyang Information Technology Co Ltd
Original Assignee
Hefei Mingyang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Mingyang Information Technology Co Ltd filed Critical Hefei Mingyang Information Technology Co Ltd
Priority to CN201911005139.4A priority Critical patent/CN110781651A/zh
Publication of CN110781651A publication Critical patent/CN110781651A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

本发明公开了一种文字转语音插入停顿的方法,属于文语转换合成领域,包括以下步骤:S1:用正则表达式检测文本的停顿标记;S2:检索下一个字符是否是停顿标记,否则执行下一步,是则执行步骤S1;S3:计算出停顿总时长;S4:手机端根据停顿标记将文本切割成若干个文本片段,手机端发送文本片段到服务端;S5:服务端返回音频数据写入本地文件;S6:将停顿无发音数据写入音频文件;S7:剩余文本是否为空,否则执行步骤S1。本技术方案能够根据使用者的实际需要调整语音文件停顿时间和停顿的位置。

Description

一种文字转语音插入停顿的方法
技术领域
本发明涉及文语转换(TTS)合成领域,更具体地说,涉及一种文字转语音插入停顿的方法。
背景技术
文语转换(TTS),通常也被称作连续文本到语音的合成,其允许电子设备接收输入的文本串并以合成语音的形式提供该文本串的转换后的表示。
为便于听者更好地理解播放的语音信息,需要在相应的位置适当的停顿。现有的技术直接将文本信息经文语转换(TTS)系统转换为语音信息,在在一些需要停顿的位置没有停顿。例如:将两端文字转换为语音文件,播放器播放语音文件,播放器播放完第一段文字信息后处理第二段文信息并播放,中间没有相应的停顿。需要播放完第一段语音后需要停顿10秒,以便给出适当的时间给听者留一段理解的时间,再播放其它内容。目前需要一种文语转换方法,能够根据使用者的实际需要随时随地的调整语音文件停顿时间和停顿的位置。
发明内容
针对现有技术的不足,本发明的目的在于提供一种文字转语音插入停顿的方法,能够根据使用者的实际需要调整语音文件停顿时间和停顿的位置。
本发明的目的可以通过以下技术方案实现:
一种文字转语音插入停顿的方法,包括以下步骤:
S1:用正则表达式检测文本的停顿标记;
S2:检索下一个字符是否是停顿标记,否则执行下一步,是则执行步骤S1;
S3:计算出停顿总时长;
S4:手机端根据停顿标记将文本切割成若干个文本片段,手机端发送文本片段到服务端;
S5:服务端返回音频数据写入本地文件;
S6:将停顿无发音数据写入音频文件;
S7:剩余文本是否为空,否则执行步骤S1。
作为本发明的一种优选方案,在步骤S1之前还包括步骤:
S0:手机端设置有文本编辑页面,文本编辑页面包含插入停顿按钮,将要转成语音的文字录入文本编辑页面时,将需要停顿的位置点击插入停顿按钮插入停顿标记。
作为本发明的一种优选方案,在步骤S3中,计算出停顿总时长之后,将停顿总时长写入本地文件。
作为本发明的一种优选方案,在步骤S5中,服务端接收到文本片段后,将文本片段处理成音频数据。
作为本发明的一种优选方案,在步骤S6中,手机端将相应的停顿标记转化为无发音数据,并将无发音数据写入应音频文件相应的位置。
作为本发明的一种优选方案,在步骤S7之后,还包括步骤:S8:将手机端的所有音频文件合成一个音频文件。
作为本发明的一种优选方案,所述文本的格式包括TXT、DOC、DOCX和WPS。
作为本发明的一种优选方案,音频文件的格式包括MP3、WAV、WMA和APE。
作为本发明的一种优选方案,手机端与服务端通过互联网连接。
本发明的有益效果:
在本文编辑页面中,将光标需要插入停顿的地方,插入停顿的标记,播放上述的文本处理后的语音文件,播放器在停顿的位置会播放无声音的语音数据,便于听者更好地理解播放的语音信息。使用者可编辑需要转换语音的文本,插入停顿的标记信息,再完成语音转化,实现使用者随时随地的调整语音文件停顿时间和停顿的位置的功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为文字转语音插入停顿方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,
一种文字转语音插入停顿的方法,包括以下步骤:
S1:用正则表达式检测文本的停顿标记;
S2:检索下一个字符是否是停顿标记,否则执行下一步,是则执行步骤S1;
S3:计算出停顿总时长;
S4:手机端根据停顿标记将文本切割成若干个文本片段,手机端发送文本片段到服务端;
S5:服务端返回音频数据写入本地文件;
S6:将停顿无发音数据写入音频文件;
S7:剩余文本是否为空,否则执行步骤S1。
作为本发明的一种优选方案,在步骤S1之前还包括步骤:
S0:手机端设置有文本编辑页面,文本编辑页面包含插入停顿按钮,将要转成语音的文字录入文本编辑页面时,将需要停顿的位置点击插入停顿按钮插入停顿标记。
在步骤S3中,计算出停顿总时长之后,将停顿总时长写入本地文件。
在步骤S5中,服务端接收到文本片段后,将文本片段处理成音频数据。
在步骤S6中,手机端将相应的停顿标记转化为无发音数据,并将无发音数据写入应音频文件相应的位置。
在步骤S7之后,还包括步骤:S8:将手机端的所有音频文件合成一个音频文件。
所述文本的格式包括TXT、DOC、DOCX和WPS。
音频文件的格式包括MP3、WAV、WMA和APE。
手机端与服务端通过互联网连接。
用正则表达式匹配停顿标记,如果匹配出说明此处有插入停顿,取出中间的数值,继续检索看下一个字符是不是也是停顿标记,如果是,则继续检索,直到下一个字符不是停顿标记,然后将检索出所有停顿时长相加,作为此处的总停顿时长,例如[1S][1S],总时长为2秒,以此将文本切割成两段,将前面的文本发送到服务端语音合成,返回后将返回的语音数据写入到手机App本地音频文件,然后插入停顿时长的无发音数据到App本地音频文件,然后继续检索剩余的文本,直到所有停顿标记都被检索出来。
在本文编辑页面中,将光标需要插入停顿的地方,插入[1S]这样的标记,其中里面的数字是可以修改的,[1S]代表停顿1秒,[2S]或[1S][1S]代表停顿2秒,依次类推。播放上述的文本处理后的语音文件,播放器在停顿的位置会播放无声音的语音数据,便于听者更好地理解播放的语音信息,使用者可编辑需要转换语音的文本,插入停顿的标记信息,再完成语音转化,实现使用者随时随地的调整语音文件停顿时间和停顿的位置的功能。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (9)

1.一种文字转语音插入停顿的方法,其特征在于,包括以下步骤:
S1:用正则表达式检测文本的停顿标记;
S2:检索下一个字符是否是停顿标记,否则执行下一步,是则执行步骤S1;
S3:计算出停顿总时长;
S4:手机端根据停顿标记将文本切割成若干个文本片段,手机端发送文本片段到服务端;
S5:服务端返回音频数据写入本地文件;
S6:将停顿无发音数据写入音频文件;
S7:剩余文本是否为空,否则执行步骤S1。
2.根据权利要求1所述的一种文字转语音插入停顿的方法,其特征在于,在步骤S1之前还包括步骤:
S0:手机端设置有文本编辑页面,文本编辑页面包含插入停顿按钮,将要转成语音的文字录入文本编辑页面时,将需要停顿的位置点击插入停顿按钮插入停顿标记。
3.根据权利要求1所述的一种文字转语音插入停顿的方法,其特征在于,在步骤S3中,计算出停顿总时长之后,将停顿总时长写入本地文件。
4.根据权利要求1所述的一种文字转语音插入停顿的方法,其特征在于,在步骤S5中,服务端接收到文本片段后,将文本片段处理成音频数据。
5.根据权利要求1所述的一种文字转语音插入停顿的方法,其特征在于,在步骤S6中,手机端将相应的停顿标记转化为无发音数据,并将无发音数据写入应音频文件相应的位置。
6.根据权利要求1所述的一种文字转语音插入停顿的方法,其特征在于,在步骤S7之后,还包括步骤:S8:将手机端的所有音频文件合成一个音频文件。
7.根据权利要求1所述的一种文字转语音插入停顿的方法,其特征在于,所述文本的格式包括TXT、DOC、DOCX和WPS。
8.根据权利要求1所述的一种文字转语音插入停顿的方法,其特征在于,音频文件的格式包括MP3、WAV、WMA和APE。
9.根据权利要求1所述的一种文字转语音插入停顿的方法,其特征在于,手机端与服务端通过互联网连接。
CN201911005139.4A 2019-10-22 2019-10-22 一种文字转语音插入停顿的方法 Pending CN110781651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911005139.4A CN110781651A (zh) 2019-10-22 2019-10-22 一种文字转语音插入停顿的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911005139.4A CN110781651A (zh) 2019-10-22 2019-10-22 一种文字转语音插入停顿的方法

Publications (1)

Publication Number Publication Date
CN110781651A true CN110781651A (zh) 2020-02-11

Family

ID=69384398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911005139.4A Pending CN110781651A (zh) 2019-10-22 2019-10-22 一种文字转语音插入停顿的方法

Country Status (1)

Country Link
CN (1) CN110781651A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1099165A (zh) * 1994-04-01 1995-02-22 清华大学 基于波形编辑的汉语文字-语音转换方法及系统
US20050033566A1 (en) * 2003-07-09 2005-02-10 Canon Kabushiki Kaisha Natural language processing method
CN1783212A (zh) * 2004-10-29 2006-06-07 微软公司 转换文本为语音的系统和方法
CN106412032A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 一种远程音频文字转换传输方法及系统
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1099165A (zh) * 1994-04-01 1995-02-22 清华大学 基于波形编辑的汉语文字-语音转换方法及系统
US20050033566A1 (en) * 2003-07-09 2005-02-10 Canon Kabushiki Kaisha Natural language processing method
CN1783212A (zh) * 2004-10-29 2006-06-07 微软公司 转换文本为语音的系统和方法
CN106412032A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 一种远程音频文字转换传输方法及系统
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及系统

Similar Documents

Publication Publication Date Title
US9865248B2 (en) Intelligent text-to-speech conversion
US9318100B2 (en) Supplementing audio recorded in a media file
CN101042752B (zh) 用于电子邮件管理的方法和系统
US8249857B2 (en) Multilingual administration of enterprise data with user selected target language translation
US7831432B2 (en) Audio menus describing media contents of media players
US20210158795A1 (en) Generating audio for a plain text document
US9196241B2 (en) Asynchronous communications using messages recorded on handheld devices
US7257534B2 (en) Speech synthesis system for naturally reading incomplete sentences
US9240180B2 (en) System and method for low-latency web-based text-to-speech without plugins
CN106575502A (zh) 用于在合成语音中提供非词汇线索的系统和方法
JP2003289387A (ja) ボイスメッセージ処理システムおよび方法
US6308154B1 (en) Method of natural language communication using a mark-up language
CN108305611B (zh) 文本转语音的方法、装置、存储介质和计算机设备
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
US20090299733A1 (en) Methods and system for creating and editing an xml-based speech synthesis document
US20080313308A1 (en) Recasting a web page as a multimedia playlist
CN109492126B (zh) 一种智能交互方法及装置
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
CN110781651A (zh) 一种文字转语音插入停顿的方法
WO2018113535A1 (zh) 一种自动生成配音文字的方法、装置以及电子设备
US8219402B2 (en) Asynchronous receipt of information from a user
EP4239558A1 (en) Method and system for inserting multimedia content while playing an audio track generated from a website
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JP2003150185A (ja) 音声合成システムとその方法及びそれを実現するためのプログラム
JPS58154900A (ja) 文章音声変換装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination