CN110970013A - 一种语音合成方法、装置以及计算机可读存储介质 - Google Patents

一种语音合成方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN110970013A
CN110970013A CN201911335928.4A CN201911335928A CN110970013A CN 110970013 A CN110970013 A CN 110970013A CN 201911335928 A CN201911335928 A CN 201911335928A CN 110970013 A CN110970013 A CN 110970013A
Authority
CN
China
Prior art keywords
pause
synthesis system
identifier
text
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911335928.4A
Other languages
English (en)
Inventor
冯小琴
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Information Technology Co Ltd
Chumen Wenwen Information Technology Co Ltd
Original Assignee
Mobvoi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Information Technology Co Ltd filed Critical Mobvoi Information Technology Co Ltd
Priority to CN201911335928.4A priority Critical patent/CN110970013A/zh
Publication of CN110970013A publication Critical patent/CN110970013A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Abstract

本发明公开了一种语音合成方法、装置以及计算机可读存储介质,包括:获得文本信息;在所获得的文本信息的文本区域内设置停顿标识符;将含有停顿标识符的文本信息作为语音合成系统的输入,并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,生成对应于所述文本信息的语音信息。由此,通过在文本中设置停顿标识符,语音合成系统在将文本转换成语音的过程中在设有停顿标识符处相应设置静音区间,使得得到的语音消息更加自然,提升用户体验。

Description

一种语音合成方法、装置以及计算机可读存储介质
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置以及计算机可读存储介质。
背景技术
目前面向文章的语音合成系统,存在一种问题:文章无段落标记或者标记位置不合适时,将导致整篇文章生成的音频不能有自然的段落停顿效果。
发明内容
本发明实施例提供了一种语音合成方法、装置以及计算机可读存储介质,使得到的语音更具有自然度,提升用户的体验。
本发明一方面提供一种语音合成方法,所述方法包括:获得文本信息;在所获得的文本信息的文本区域内设置停顿标识符;将含有停顿标识符的文本信息作为语音合成系统的输入,并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,生成对应于所述文本信息的语音信息。
在一可实施方式中,所述停顿标识符包括停顿标签,所述停顿标签中设有停顿时长;相应的,所述指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,包括:指示所述语音合成系统识别所述文本信息中的停顿标签;指示所述语音合成系统提取所识别的停顿标签中的停顿时长;指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间。
在一可实施方式中,所述停顿标签还包括处理方式,所述处理方式又包括后处理和前处理;相应的,在指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间之前,所述方法还包括:指示所述语音合成系统识别并判断所述停顿标签中的处理方式;若判定所识别得到的处理方式为前处理,则指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间;若判定所识别得到的处理方式为后处理,则指示所述语音合成系统将所提取的停顿时长替换由所述语音合成系统在所述位置预先设置的预设时长。
在一可实施方式中,所述停顿标签中的停顿时长为400ms、600ms和800ms的其中之一。
在一可实施方式中,所述停顿标识符还包括文章标签,所述文章标签又包括标题标签和正文标签:所述在所获得的文本信息的文本区域内设置停顿标识符,具体包括:在所获得的文本信息的任意文本区间设置文章标签;相应的,所述指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,包括指示所述语音合成系统识别所述文本信息中的文章标签;判断所识别的文章标签为标题标签或正文标签;根据判断结果在所述停顿标识符处设置静音区间。
在一可实施方式中,所述根据判断结果在所述停顿标识符处设置静音区间,包括:若判定所识别的文章标签为标题标签,则指示所述语音合成系统在所述文本区间末尾设置第一预设时长的静音区间;若判定所识别的文章标签为正文标签,则指示所述语音合成系统在所述文本区间末尾设置第二预设时长的静音区间。
本发明另一方面提供一种语音合成装置,所述装置包括:文本获取模块,用于获得文本信息;标识符设置模块,用于在所获得的文本信息的文本区域内设置停顿标识符;语音生成模块,用于将含有停顿标识符的文本信息作为语音合成系统的输入,并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,生成对应于所述文本信息的语音信息。
在一可实施方式中,所述停顿标识符包括停顿标签,所述停顿标签中设有停顿时长;相应的,所述语音生成模块在指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间的过程中,具体用于:指示所述语音合成系统识别所述文本信息中的停顿标签;指示所述语音合成系统提取所识别的停顿标签中的停顿时长;指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间。
在一可实施方式中,所述停顿标识符还包括文章标签,所述文章标签又包括标题标签和正文标签:所述标识符设置模块具体用于:在所获得的文本信息的任意文本区间设置文章标签;相应的,所述语音生成模块在指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间的过程中,具体用于:指示所述语音合成系统识别所述文本信息中的文章标签;判断所识别的文章标签为标题标签或正文标签;根据判断结果在所述停顿标识符处设置静音区间。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的一种语音合成方法。
在本发明实施例中,通过在文本中设置停顿标识符,语音合成系统在将文本转换成语音的过程中在设有停顿标识符处相应设置静音区间,使得得到的语音消息更加自然,提升用户体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种语音合成方法的实现流程示意图;
图2为本发明实施例一种语音合成装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种语音合成方法的实现流程示意图。
如图1所示,本发明一方面提供一种语音合成方法,方法包括:
步骤101,获得文本信息;
步骤102,在所获得的文本信息的文本区域内设置停顿标识符;
步骤103,将含有停顿标识符的文本信息作为语音合成系统的输入,并指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间,生成对应于文本信息的语音信息。
本实施例中,首先获得文本信息,其中文本信息可以是纯文本,也可以是已带有停顿标识符的文本,获取方式可以由用户自己编辑,也可以从线上直接获取。
接着用户可以根据文本内容在文本信息的文本区域内设置停顿标识符,获得含有停顿标识符的文本信息。其中,文本区域具体是指文本中标题以及每个段落的头部、中间以及尾部,也包括任意文本区间。
停顿标识符实则为一种标签,是由语音合成标记语言(SSML)来编写,其包括多种属性以及对应的属性值。例如</break time="400ms"tag=“forward”>其中,break代表停顿标签,time为属性,表示停顿时长,400ms为对应time的属性值。在设置参数的过程中,普通用户可通过相关工程师设计的一些可视化界面在文本的任意位置标签种类、停顿时长、处理方式等参数,后台通过普通用户提供的参数来在用户指定文本位置生成相应的停顿标识符。
然后将含有停顿标识符的文本信息输入于语音合成系统,语音合成系统将文本信息从头到尾依次转换为对应的语音信息。在转换过程中,若待转换的字符为文字,则将文字转换为对应的语音,若待转换的字符为换行符或者标点符号,则在该处插入系统中预设时长的静音区间,若遇到停顿标识符,则根据停顿标识符信息来设置相应的静音信息。其中,静音区间由若干个连续0分贝的音频组成,静音区间的宽窄与时长成正比。
由此,通过在文本中设置停顿标识符,语音合成系统在将文本转换成语音的过程中在设有停顿标识符处相应设置静音区间,使得得到的语音消息更加自然,提升用户体验。
在一可实施方式中,停顿标识符包括停顿标签,停顿标签中设有停顿时长;
相应的,将指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间,包括:
指示语音合成系统识别文本信息中的停顿标签;
指示语音合成系统提取所识别的停顿标签中的停顿时长;
指示语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间。
本实施例中,停顿标签中设有停顿时长,并且停顿标签可以设置在标题以及段落的头部、中间以及尾部;相应的,步骤103中“将指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间”的具体过程为:在将含有停顿标识符的文本信息输入于语音合成系统之后,语音合成系统在转换过程中,识别文本信息中的停顿标签,识别方式可以是通过识别例如</break time="400ms"tag=“forward”>中的break单词来判定该标签为停顿标签。
接着另语音合成系统提取所识别的停顿标签中的停顿时长,以</break time="400ms"tag=“forward”>为例,具体为识别time属性,再获取time属性对应的属性值,也就是停顿时长400ms。
然后另语音合成系统在该停顿标签所处位置插入所提取时长的静音区间,具体以</break time="400ms"tag=“forward”>为例,也就是插入400ms时长的静音区间。
在一可实施方式中,停顿标签还包括处理方式,处理方式又包括后处理和前处理;
相应的,在指示语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间之前,方法还包括:
指示语音合成系统识别并判断停顿标签中的处理方式;
若判定所识别得到的处理方式为前处理,则指示语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间;
若判定所识别得到的处理方式为后处理,则指示语音合成系统将所提取的停顿时长替换由语音合成系统在位置预先设置的原停顿时长
本实施例中,停顿标签还包括处理方式,处理方式又包括后处理和前处理;例如</break time="400ms"tag=“forward”>其中,tag属性代表处理方式,其属性值为forward或者backward,forward代表前处理,backward代表后处理。
上文中也提到语音合成系统是将文本信息从头到尾依次转换语音,在转换过程中,若判定所转换的字符是文字,则将其转换为语音,若判定所转换的字符是换行符或者是标点符号,则不予转换,而是在该处设置预设时长的静音区间,以表示语音停顿。
由此,在语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间之前,除了从停顿标签中提取停顿时长之外,还需从停顿标签中提取tag属性,也就是处理方式,并且获取tag属性对应的属性值。
若判定获取tag属性对应的属性值为forward,也就是前处理时,则按照先前的操作流程,指示语音合成系统在停顿标签所在位置处插入对应于停顿时长的静音区间,再通过语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间。因此,通常在增加停顿的时候选择前处理。
若判定获取tag属性对应的属性值为backward,也就是后处理时,则指示所提取的停顿时长替换由语音合成系统预设的预设时长。例如原先语音合成系统在某个标点符号出设置的停顿时长为1s,若用户在该标点符号出设置了停顿标签以及400ms的停顿时长。语音合成系统在转换过程中若识别出了该停顿标签,则将该停顿标签中400ms替换原先系统中预设的1s,再通过语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间。因此,通常在更新、删除标签的时候选择后处理。
在一可实施方式中,停顿标签中的停顿时长为400ms、600ms和800ms的其中之一。
本实施例中,停顿标签中的停顿时长优选为400ms、600ms和800ms,当然也可以其他任意数值。
在一可实施方式中,停顿标识符还包括文章标签,文章标签又包括标题标签和正文标签:
在所获得的文本信息的文本区域内设置停顿标识符,具体包括:
在所获得的文本信息的任意文本区间设置文章标签;
相应的,指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间,包括
指示语音合成系统识别文本信息中的文章标签;
判断所识别的文章标签为标题标签或正文标签;
根据判断结果在停顿标识符处设置静音区间。
本实施例中,除了在文本任意位置处设置停顿标签之外,用户还可以在文本信息中指定任意文本区间,对选中的文本设置文章标签。其中,文章标签具体为<article=‘header’></article>和“<article=‘text’></article>”,article代表文章标签,header代表标题标签,text代表正文标签,需要说明的是,这里所指的标题包括多级标题,所指的正文包括多级正文,同时用户也可自定义多类文章层级结构。
相应的,在步骤103中“指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间”的具体过程为:识别文本信息中的文章标签,识别方式与上文中识别停顿标签的方式类似。
接着另语音合成系统判断所识别的文章标签为标题标签或正文标签,具体为提取文章标签对应的属性值,若是header,则说明是标题标签,若是text,则说明是正文标签。
根据判断结果在停顿标识符处设置静音区间。
在一可实施方式中,根据判断结果在停顿标识符处设置静音区间,包括:
若判定所识别的文章标签为标题标签,则指示语音合成系统在文本区间末尾设置第一预设时长的静音区间;
若判定所识别的文章标签为正文标签,则指示语音合成系统在文本区间末尾设置第二预设时长的静音区间。
本实施例中,第一预设时长和第二预设时长为固定值,预设在语音合成系统中。
若判定所识别的文章标签为标题标签,则指示语音合成系统在文本区间末尾插入第一预设时长的静音区间;
若判定所识别的文章标签为正文标签,则指示语音合成系统在文本区间末尾插入第二预设时长的静音区间。
图2为本发明实施例一种语音合成装置的结构组成示意图。
如图2所示,基于上文提供的一种语音合成方法,本发明实施例还提供一种语音合成装置,装置包括:
文本获取模块201,用于获得文本信息;
标识符设置模块202,用于在所获得的文本信息的文本区域内设置停顿标识符;
语音生成模块203,用于将含有停顿标识符的文本信息作为语音合成系统的输入,并指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间,生成对应于文本信息的语音信息。
本实施例中,首先通过文本获取模块201获得文本信息,获取方式可以由用户自己编辑,也可以从线上直接获取。
接着通过标识符设置模块202根据文本内容在文本信息的文本区域内设置停顿标识符,获得含有停顿标识符的文本信息。其中,文本区域具体是指文本中标题以及每个段落的头部、中间以及尾部,也包括任意文本区间。
停顿标识符实则为一种标签,是由语音合成标记语言(SSML)来编写,其包括多种属性以及对应的属性值。例如</break time="400ms"tag=“forward”>其中,break代表停顿标签,time为属性,表示停顿时长,400ms为对应time的属性值。在设置参数的过程中,普通用户可通过相关工程师设计的一些可视化界面在文本的任意位置标签种类、停顿时长、处理方式等参数,后台通过普通用户提供的参数来在用户指定文本位置生成相应的停顿标识符。
然后通过语音生成模块203将含有停顿标识符的文本信息输入于语音合成系统,语音合成系统将文本信息从头到尾依次转换为对应的语音信息。在转换过程中,若待转换的字符为文字,则将文字转换为对应的语音,若待转换的字符为换行符或者标点符号,则在该处插入系统中预设时长的静音区间,若遇到停顿标识符,则根据停顿标识符信息来设置相应的静音信息。其中,静音区间由若干个连续0分贝的音频组成,静音区间的宽窄与时长成正比。
由此,通过在文本中设置停顿标识符,语音合成系统在将文本转换成语音的过程中在设有停顿标识符处相应设置静音区间,使得得到的语音消息更加自然,提升用户体验。
在一可实施方式中,停顿标识符包括停顿标签,停顿标签中设有停顿时长;
相应的,语音生成模块203在指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间的过程中,具体用于:
指示语音合成系统识别文本信息中的停顿标签;
指示语音合成系统提取所识别的停顿标签中的停顿时长;
指示语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间。
本实施例中,停顿标签中设有停顿时长,并且停顿标签可以设置在标题以及段落的头部、中间以及尾部。
相应的,语音生成模块203在指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间的过程中,具体用于:
在将含有停顿标识符的文本信息输入于语音合成系统之后,语音合成系统在转换过程中,识别文本信息中的停顿标签,识别方式可以是通过识别例如</break time="400ms"tag=“forward”>中的break单词来判定该标签为停顿标签。
接着另语音合成系统提取所识别的停顿标签中的停顿时长,以</break time="400ms"tag=“forward”>为例,具体为识别time属性,再获取time属性对应的属性值,也就是停顿时长400ms。
然后另语音合成系统在该停顿标签所处位置插入所提取时长的静音区间,具体以</break time="400ms"tag=“forward”>为例,也就是插入400ms时长的静音区间。
在一可实施方式中,停顿标识符还包括文章标签,文章标签又包括标题标签和正文标签:
标识符设置模块202具体用于:
在所获得的文本信息的任意文本区间设置文章标签;
相应的,语音生成模块203在指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间的过程中,具体用于:
指示语音合成系统识别文本信息中的文章标签;
判断所识别的文章标签为标题标签或正文标签;
根据判断结果在停顿标识符处设置静音区间。
本实施例中,除了在文本任意位置处设置停顿标签之外,用户还可以通过标识符设置模块202在文本信息中指定任意文本区间,对选中的文本设置文章标签。其中,文章标签具体为<article=‘header’></article>和“<article=‘text’></article>”,article代表文章标签,header代表标题标签,text代表正文标签,需要说明的是,这里所指的标题包括多级标题,所指的正文包括多级正文,同时用户也可自定义多类文章层级结构。
相应的,语音生成模块203在指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间的过程中,具体用于:
识别文本信息中的文章标签,识别方式与上文中识别停顿标签的方式类似。
接着另语音合成系统判断所识别的文章标签为标题标签或正文标签,具体为提取文章标签对应的属性值,若是header,则说明是标题标签,若是text,则说明是正文标签。
根据判断结果在停顿标识符处设置静音区间。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的语音合成方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获得文本信息;在所获得的文本信息的文本区域内设置停顿标识符;将含有停顿标识符的文本信息作为语音合成系统的输入,并指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间,生成对应于文本信息的语音信息。
由此,通过在文本中设置停顿标识符,语音合成系统在将文本转换成语音的过程中在设有停顿标识符处相应设置静音区间,使得得到的语音消息更加自然,提升用户体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
获得文本信息;
在所获得的文本信息的文本区域内设置停顿标识符;
将含有停顿标识符的文本信息作为语音合成系统的输入,并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,生成对应于所述文本信息的语音信息。
2.根据权利要求1所述的方法,其特征在于,所述停顿标识符包括停顿标签,所述停顿标签中设有停顿时长;
相应的,所述指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,包括:
指示所述语音合成系统识别所述文本信息中的停顿标签;
指示所述语音合成系统提取所识别的停顿标签中的停顿时长;
指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间。
3.根据权利要求2所述的方法,其特征在于,所述停顿标签还包括处理方式,所述处理方式又包括后处理和前处理;
相应的,在指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间之前,所述方法还包括:
指示所述语音合成系统识别并判断所述停顿标签中的处理方式;
若判定所识别得到的处理方式为前处理,则指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间;
若判定所识别得到的处理方式为后处理,则指示所述语音合成系统将所提取的停顿时长替换由所述语音合成系统在所述位置预先设置的预设时长。
4.根据权利要求2或3所述的方法,其特征在于,所述停顿标签中的停顿时长为400ms、600ms和800ms的其中之一。
5.根据权利要求1所述的方法,其特征在于,所述停顿标识符还包括文章标签,所述文章标签又包括标题标签和正文标签:
所述在所获得的文本信息的文本区域内设置停顿标识符,具体包括:
在所获得的文本信息的任意文本区间设置文章标签;
相应的,所述指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,包括
指示所述语音合成系统识别所述文本信息中的文章标签;
判断所识别的文章标签为标题标签或正文标签;
根据判断结果在所述停顿标识符处设置静音区间。
6.根据权利要求5所述的方法,其特征在于,所述根据判断结果在所述停顿标识符处设置静音区间,包括:
若判定所识别的文章标签为标题标签,则指示所述语音合成系统在所述文本区间末尾设置第一预设时长的静音区间;
若判定所识别的文章标签为正文标签,则指示所述语音合成系统在所述文本区间末尾设置第二预设时长的静音区间。
7.一种语音合成装置,其特征在于,所述装置包括:
文本获取模块,用于获得文本信息;
标识符设置模块,用于在所获得的文本信息的文本区域内设置停顿标识符;
语音生成模块,用于将含有停顿标识符的文本信息作为语音合成系统的输入,并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间,生成对应于所述文本信息的语音信息。
8.根据权利要求7所述的装置,其特征在于,所述停顿标识符包括停顿标签,所述停顿标签中设有停顿时长;
相应的,所述语音生成模块在指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间的过程中,具体用于:
指示所述语音合成系统识别所述文本信息中的停顿标签;
指示所述语音合成系统提取所识别的停顿标签中的停顿时长;
指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间。
9.根据权利要求8所述的装置,其特征在于,所述停顿标识符还包括文章标签,所述文章标签又包括标题标签和正文标签:
所述标识符设置模块具体用于:
在所获得的文本信息的任意文本区间设置文章标签;
相应的,所述语音生成模块在指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间的过程中,具体用于:
指示所述语音合成系统识别所述文本信息中的文章标签;
判断所识别的文章标签为标题标签或正文标签;
根据判断结果来在所述停顿标识符处设置静音区间。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-6任一项所述的一种语音合成方法。
CN201911335928.4A 2019-12-23 2019-12-23 一种语音合成方法、装置以及计算机可读存储介质 Pending CN110970013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911335928.4A CN110970013A (zh) 2019-12-23 2019-12-23 一种语音合成方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911335928.4A CN110970013A (zh) 2019-12-23 2019-12-23 一种语音合成方法、装置以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110970013A true CN110970013A (zh) 2020-04-07

Family

ID=70035776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911335928.4A Pending CN110970013A (zh) 2019-12-23 2019-12-23 一种语音合成方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110970013A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185341A (zh) * 2020-09-10 2021-01-05 广州多益网络股份有限公司 基于语音合成的配音方法、装置、设备和存储介质
CN113611282A (zh) * 2021-08-09 2021-11-05 苏州市广播电视总台 广播节目智能播报系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002006876A (ja) * 2000-06-26 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、音声合成方法および音声合成プログラムを記憶した記憶媒体
CN1496555A (zh) * 2001-02-09 2004-05-12 ��IJ�ݶ��ɷ����޹�˾ 对暂停消息编码和解码的方法和装置
CN1604183A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 标识文本串中的自然语音停顿
US20080071529A1 (en) * 2006-09-15 2008-03-20 Silverman Kim E A Using non-speech sounds during text-to-speech synthesis
CN105632484A (zh) * 2016-02-19 2016-06-01 上海语知义信息技术有限公司 语音合成数据库停顿信息自动标注方法及系统
CN107644637A (zh) * 2017-03-13 2018-01-30 平安科技(深圳)有限公司 语音合成方法和装置
CN108305611A (zh) * 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002006876A (ja) * 2000-06-26 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、音声合成方法および音声合成プログラムを記憶した記憶媒体
CN1496555A (zh) * 2001-02-09 2004-05-12 ��IJ�ݶ��ɷ����޹�˾ 对暂停消息编码和解码的方法和装置
CN1604183A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 标识文本串中的自然语音停顿
US20080071529A1 (en) * 2006-09-15 2008-03-20 Silverman Kim E A Using non-speech sounds during text-to-speech synthesis
CN105632484A (zh) * 2016-02-19 2016-06-01 上海语知义信息技术有限公司 语音合成数据库停顿信息自动标注方法及系统
CN107644637A (zh) * 2017-03-13 2018-01-30 平安科技(深圳)有限公司 语音合成方法和装置
CN108305611A (zh) * 2017-06-27 2018-07-20 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185341A (zh) * 2020-09-10 2021-01-05 广州多益网络股份有限公司 基于语音合成的配音方法、装置、设备和存储介质
CN113611282A (zh) * 2021-08-09 2021-11-05 苏州市广播电视总台 广播节目智能播报系统及方法

Similar Documents

Publication Publication Date Title
EP1490861B1 (en) Method, apparatus and computer program for voice synthesis
CN106384593B (zh) 一种语音信息转换、信息生成方法及装置
CN109523986B (zh) 语音合成方法、装置、设备以及存储介质
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
US20070118378A1 (en) Dynamically Changing Voice Attributes During Speech Synthesis Based upon Parameter Differentiation for Dialog Contexts
CN105895103A (zh) 一种语音识别方法及装置
KR101597286B1 (ko) 아바타 영상 메시지를 생성하는 장치 및 방법
CN110970013A (zh) 一种语音合成方法、装置以及计算机可读存储介质
CN108305611B (zh) 文本转语音的方法、装置、存储介质和计算机设备
CN114390220B (zh) 一种动画视频生成方法及相关装置
US8773696B2 (en) Method and system for generating document using speech data and image forming apparatus including the system
CN103632663A (zh) 一种基于hmm的蒙古语语音合成及前端处理的方法
JP4140745B2 (ja) 字幕へのタイミング情報付与方法
CN113096635B (zh) 一种音频和文本的同步方法、装置、设备以及介质
JPH0352058A (ja) 音声入力の文書処理装置
CN110853627A (zh) 用于语音标注的方法及系统
JP4210723B2 (ja) 自動字幕番組制作システム
CN112270917A (zh) 一种语音合成方法、装置、电子设备及可读存储介质
CN112133309B (zh) 音频和文本的同步方法、计算设备及存储介质
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
JP4140744B2 (ja) 字幕文テキストの自動分割方法
JP2001318915A (ja) フォント変換装置
JP2002342311A (ja) 字幕番組制作における表示単位字幕文の自動生成方法
CN111862980A (zh) 一种增量语义处理方法
CN112242132A (zh) 语音合成中的数据标注方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200407

RJ01 Rejection of invention patent application after publication