CN117475985A - 语音合成方法、装置、计算机设备及存储介质 - Google Patents
语音合成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117475985A CN117475985A CN202310714143.8A CN202310714143A CN117475985A CN 117475985 A CN117475985 A CN 117475985A CN 202310714143 A CN202310714143 A CN 202310714143A CN 117475985 A CN117475985 A CN 117475985A
- Authority
- CN
- China
- Prior art keywords
- text
- spoken
- written
- tag
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 14
- 238000013519 translation Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 49
- 238000004422 calculation algorithm Methods 0.000 claims description 39
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000003786 synthesis reaction Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 239000000945 filler Substances 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 230000033764 rhythmic process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及金融科技领域,本发明公开了一种语音合成方法、装置、计算机设备及存储介质,其方法包括:获取书面式文本;通过翻译模型翻译书面式文本,获得口语式文本;通过韵律模型为口语式文本添加韵律标签,获得标签文本;通过声学模型转换标签文本,合成目标语音。本发明通过翻译模型翻译书面式文本获得口语式文本,通过韵律模型添加韵律标签,最后通过声学模型合成目标语音,从而提高合成语音的口语化程度及合成语音的韵律自然度。
Description
技术领域
本发明涉及金融科技领域,尤其涉及一种语音合成方法、装置、计算机设备及存储介质。
背景技术
通常情况下,文本具有书面化文本和口语化文本两种风格。由于口语比书面语亲切自然,容易理解,因而,在语音技术发达的时代,金融行业的AI客服将书面化的文本转换为口语化文本与用户进行对话时,会让用户有种亲切感,提高用户的兴趣。
目前end-to-end(一种端到端的机器学习技术)语音合成模型在合成水平上已经能够达到接近人声的水平,同时合成速度也远远快于autoregressive模型(一种时间序列预测模型),但是绝大多数语音合成模型都是基于文本式语音数据进行训练的,因此模型合成的语音也是文本式风格。
发明内容
基于此,有必要针对上述技术问题,提供一种语音合成方法、装置、计算机设备及存储介质,以提高合成语音的口语化程度及合成语音的韵律自然度。
一种语音合成方法,包括:
获取书面式文本;
通过翻译模型翻译所述书面式文本,获得口语式文本;
通过韵律模型为所述口语式文本添加韵律标签,获得标签文本;
通过声学模型转换所述标签文本,合成目标语音。
一种语音合成装置,包括:
书面式文本获取模块,用于获取书面式文本;
口语式文本获取模块,用于通过翻译模型翻译所述书面式文本,获得口语式文本;
标签文本获取模块,用于通过韵律模型为所述口语式文本添加韵律标签,获得标签文本;
目标语音合成模块,用于通过声学模型转换所述标签文本,合成目标语音。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述语音合成方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音合成方法。
上述语音合成方法、装置、计算机设备及存储介质中,通过获取书面式文本,从而通过翻译模型翻译所述书面式文本,获得口语式文本,进而通过韵律模型为所述口语式文本添加韵律标签,获得标签文本,最后通过声学模型转换所述标签文本,合成目标语音。本发明通过翻译模型将书面式文本翻译为口语式文本,再通过韵律模型添加韵律标签,最后通过声学模型转换合成目标语音,从而提高合成语音的口语化程度及合成语音的韵律自然度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音合成方法的一流程示意图;
图2是本发明一实施例中语音合成装置的一结构示意图;
图3是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一实施例中,如图1所示,提供一种语音合成方法,包括如下步骤S10-S40。
S10、获取书面式文本。
可理解地,书面式文本是以书面语言的形式撰写的文本,在这里,书面语言可以是指以书面形式表达的语言,它更加正式,语法更加严谨,词汇更加丰富,句子更加复杂。
S20、通过翻译模型翻译所述书面式文本,获得口语式文本。
可理解地,翻译模型可以是根据输入的书面式文本输出相对应的口语式文本的模型。在本实施例中,翻译模型采用Transformer结构(一种深度学习模型,使用注意力机制来捕捉句子中的语义关系,从而更好地理解句子的含义)。口语式文本可以是以口语化语言的形式撰写的文本,在这里,口语化语言可以是以口头形式表达的语言。
具体地,将书面式文本输入到翻译模型中,通过翻译模型翻译书面式文本,从而获得翻译模型输出的口语式文本。
S30、通过韵律模型为所述口语式文本添加韵律标签,获得标签文本。
可理解地,韵律模型可以包括Bert嵌入模型(一种基于深度学习的自然语言处理模型,使用注意力机制来捕捉句子中的语义关系,从而更好地理解句子的含义)和韵律预测模型。在这里,韵律预测模型可以是基于机器学习的模型,用于预测句子中的韵律结构,识别句子中的韵律模式,从而更好地理解句子的含义。韵律是一种语言的节奏,是由一系列的音节组成的,每个音节都有特定的重音和时长。
具体地,将口语式文本输入到韵律模型中,通过韵律模型对口语式文本中的每个词语添加韵律标签,获得添加韵律标签后的文本,即为标签文本。
S40、通过声学模型转换所述标签文本,合成目标语音。
可理解地,声学模型可以是根据输入的标签文本进行转换,合成相对应的语音的模型。在本实施例中,声学模型采用VITS声学模型(一种基于深度学习的自然语言处理模型,用于识别语音,合成语音)。
具体地,将标签文本输入到声学模型中,通过声学模型转换标签文本,从而获得声学模型合成的目标语音。
在一具体实施例中,银行的AI客服在与用户对话时,获取匹配的书面式文本,通过翻译模型翻译书面式文本,获得口语式文本,通过韵律模型为口语式文本添加韵律标签,获得标签文本,最后通过声学模型转换标签文本,合成目标语音,通过目标语音完成与用户的对话。
本实施例通过翻译模型翻译书面式文本,获得口语式文本,通过韵律模型为口语式文本添加韵律标签,使得输入至声学模型中的始终为带有韵律标签的口语式文本,最后通过声学模型合成目标语音,提高了合成语音的口语化程度。
可选地,步骤S20之前,即所述通过翻译模型翻译所述书面式文本,获得口语式文本之前,还包括:
S201、建立对话脚本。
S202、根据所述对话脚本进行对话录音,获取对话语音。
S203、将所述对话语音转化为文字,获得口语式训练文本。
S204、对所述口语式训练文本进行修改,获得书面式训练文本。
可理解地,对话脚本可以是预设的能够自动生成口语式对话内容的脚本。
具体地,根据实际情况建立对话脚本,根据对话脚本进行人工对话,并对对话内容进行录音,获取对话语音。将对话的语音转化为文字的形式,获取口语式训练文本。对口语式训练文本中的口语词进行人工地改写或删减,由此获得书面式训练文本。
本实施例通过建立对话脚本,基于对话脚本获取口语式训练文本,人工对口语式训练文本进行修改,从而获得书面式训练文本,保证了口语式训练文本及书面式训练文本的准确性,从而提高了后续翻译模型翻译文本的准确性。
S205、根据所述口语式训练文本和所述书面式训练文本建立用于为所述翻译模型提供训练样本的文本语料库。
具体地,根据所有的口语式训练文本和与其相对应的书面式训练文本建立文本语料库,该文本语料库用于训练翻译模型。
本实施例根据所有的口语式训练文本和与其相对应的书面式训练文本建立文本语料库,从而便于后续的研究及对翻译模型的改进。
可选地,步骤S20,即所述通过翻译模型翻译所述书面式文本,获得口语式文本,包括:
S206、根据预设的文本生成算法处理所述书面式文本,生成口语式文本集合。
S207、根据随机采样算法对所述口语式文本集合进行采样,获得所述口语式文本。
可理解地,预设的文本生成算法可以是根据实际需求预先设置的文本生成算法。在本实施例中,随机采样算法采用top-K随机采样(一种机器学习技术,用于从大量文本中快速抽取出较符合预设规则的文本)。
具体地,根据预设的文本生成算法对书面式文本进行处理,生成多个口语式文本,该多个口语式文本共同组成口语式文本集合,根据top-K随机采样对口语式文本集合进行采样,选取在每一个时间点中,在采样输出概率分布中前k个最有可能的候选项中随机选出一个,作为口语式文本。k为大于零的整数。
本实施例通过top-K随机采样生成口语式文本,相较于完全随机采样算法,由于top-K随机采样算法只在前k个最有可能的候选项中随机抽样,因此能生成质量更好的文本;而相较于beam search算法(一种机器学习技术,用于从大量数据中搜索最优解),beamsearch算法倾向于生成训练数据中出现频率较高的短语,因此top-K随机采样能生成更具有多样性的文本,实现了后续合成语音的多样性。
可选地,步骤S30,即所述通过韵律模型为所述口语式文本添加韵律标签,获得标签文本,包括:
S301、根据预设的嵌入算法对所述口语式文本进行转换,获得包含上下文相关信息的嵌入文本。
可理解地,在本实施例中,预设的嵌入算法采用Bert嵌入模型。
具体地,根据Bert嵌入模型对口语式文本进行转换,对口语式文本进行关键词的插入,获得包含上下文相关信息的嵌入文本。
本实施例通过Bert嵌入模型对口语式文本进行转换,获得包含上下文相关信息的嵌入文本,提高了后续合成语音的准确性。
可选地,步骤S301之后,即所述根据预设的嵌入算法对所述口语式文本进行转换,获得包含上下文相关信息的嵌入文本之后,包括:
S302、根据预设的标签预测算法为所述嵌入文本中的每个词语添加所述韵律标签,获得所述标签文本。
可理解地,在本实施例中,预设的标签预测算法采用韵律预测模型。
具体地,提取嵌入文本中的每个词语,根据韵律预测模型为嵌入文本中的每个词语添加韵律标签,获得标签文本。例如,韵律预测器功能预测出四种韵律标签,分别是:韵律词#1、韵律短语#2、语调短语#3、句末#4,嵌入文本为:北京的主食厨房更丰富了百姓的家庭餐桌,通过韵律预测器对嵌入文本进行韵律预测,获得标签文本:北京的#2主食#1厨房#3更#1丰富了#3百姓的#3家庭#1餐桌#4。
本实施例通过韵律预测模型为嵌入文本中的每个词语添加韵律标签,获得标签文本,实现了对文本的韵律预测,提高了后续合成语音的口语化程度及合成语音的韵律自然度。
可选地,步骤S40,即所述通过声学模型转换所述标签文本,合成目标语音,包括:
S401、根据预设的停顿填充词识别算法对所述标签文本进行识别,获得包含停顿标签的预输出文本。
S402、根据预设的转换算法对所述预输出文本进行转换,获得所述目标语音。
可理解地,在本实施例中,预设的停顿填充词识别算法采用FP预测器(一种机器学习技术,用于对文本进行分类)。停顿填充词是一种特殊的词汇,用于填充文本中的空白,以便更好地表达上下文相关信息,使得文本更加口语式。停顿标签可以是区别停顿填充词的标签,由于英文中常见的停顿填充词为um,uh两种,因此将停顿标签设计为三类,1、无停顿标签,2、um停顿标签,3、uh停顿标签。预设的转换算法可以是根据实际需求预先设置的语音合成算法。
具体地,根据FP预测器对标签文本进行识别,对停顿填充词进行标记,获得包含停顿标签的预输出文本,根据预设的转换算法对预输出文本进行转换,获得目标语音。
本实施例根据FP预测器对标签文本进行识别,获得包含停顿标签的预输出文本,根据预设的转换算法对预输出文本进行转换,获得目标语音,提高了目标语音的口语化程度。
可选地,步骤S401,即所述根据预设的停顿填充词识别算法对所述标签文本进行识别,获得包含停顿标签的预输出文本,包括:
S4011、判断所述标签文本中的各个词语是否为停顿填充词。
S4012、若所述词语为停顿填充词,则为所述词语添加所述停顿标签,获得所述预输出文本。
具体地,提取标签文本中的各个词语,判断标签文本中的各个词语是否为停顿填充词,若词语为停顿填充词um,则为词语添加um停顿标签;若词语为停顿填充词uh,则为词语添加uh停顿标签;若词语无停顿填充词,则不添加停顿标签,将添加标签后的文本作为预输出文本。
本实施例通过判断标签文本中的各个词语是否为停顿填充词,并为词语添加停顿标签,获得预输出文本,提高了后续合成语音的韵律自然度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音合成装置,该语音合成装置与上述实施例中语音合成方法一一对应。如图2所示,该语音合成装置包括书面式文本获取模块10、口语式文本获取模块20、标签文本获取模块30和目标语音合成模块40。各功能模块详细说明如下:
书面式文本获取模块10,用于获取书面式文本;
口语式文本获取模块20,用于通过翻译模型翻译所述书面式文本,获得口语式文本;
标签文本获取模块30,用于通过韵律模型为所述口语式文本添加韵律标签,获得标签文本;
目标语音合成模块40,用于通过声学模型转换所述标签文本,合成目标语音。
可理解地,书面式文本是以书面语言的形式撰写的文本,在这里,书面语言可以是指以书面形式表达的语言,它更加正式,语法更加严谨,词汇更加丰富,句子更加复杂。
翻译模型可以是根据输入的书面式文本输出相对应的口语式文本的模型。口语式文本可以是以口语化语言的形式撰写的文本,在这里,口语化语言可以是以口头形式表达的语言。将书面式文本输入到翻译模型中,通过翻译模型翻译书面式文本,从而获得翻译模型输出的口语式文本。
韵律模型可以包括Bert嵌入模型和韵律预测模型。在这里,韵律预测模型可以是基于机器学习的模型,用于预测句子中的韵律结构,识别句子中的韵律模式,从而更好地理解句子的含义。韵律是一种语言的节奏,是由一系列的音节组成的,每个音节都有特定的重音和时长。将口语式文本输入到韵律模型中,通过韵律模型对口语式文本中的每个词语添加韵律标签,获得添加韵律标签后的文本,即为标签文本。
声学模型可以是根据输入的标签文本进行转换,合成相对应的语音的模型。将标签文本输入到声学模型中,通过声学模型转换标签文本,从而获得声学模型合成的目标语音。
通过翻译模型翻译书面式文本,获得口语式文本,通过韵律模型为口语式文本添加韵律标签,使得输入至声学模型中的始终为带有韵律标签的口语式文本,最后通过声学模型合成目标语音。
本实施例通过口语式文本获取模块获得口语式文本,通过标签文本获取模块为口语式文本添加韵律标签,使得输入至声学模型中的始终为带有韵律标签的口语式文本,最后通过目标语音合成模块合成目标语音,提高了合成语音的口语化程度。
优选地,口语式文本获取模块20包括:
对话脚本建立单元,用于建立对话脚本;
对话语音获取单元,用于根据所述对话脚本进行对话录音,获取对话语音;
口语式训练文本获取单元,用于将所述对话语音转化为文字,获得口语式训练文本;
书面式训练文本获取单元,用于对所述口语式训练文本进行修改,获得书面式训练文本;
文本语料库建立单元,用于根据所述口语式训练文本和所述书面式训练文本建立用于为所述翻译模型提供训练样本的文本语料库。
可理解地,对话脚本可以是预设的能够自动生成口语式对话内容的脚本,根据实际情况建立对话脚本,根据对话脚本进行人工对话,并对对话内容进行录音,获取对话语音。将对话的语音转化为文字的形式,获取口语式训练文本。对口语式训练文本中的口语词进行人工地改写或删减,由此获得书面式训练文本。根据所有的口语式训练文本和与其相对应的书面式训练文本建立文本语料库,该文本语料库用于训练翻译模型。
本实施例通过对话脚本建立单元建立对话脚本,通过对话语音获取对话语音,通过口语式训练文本获取单元获得口语式训练文本,通过书面式训练文本获取单元获取书面式训练文本,最后根据文本语料库建立单元建立文本语料库,从而便于后续的研究及对翻译模型的改进,保证了口语式训练文本及书面式训练文本的准确性,提高了后续翻译模型翻译文本的准确性。
优选地,口语式文本获取模块20包括:
口语式文本集合生成单元,用于根据预设的文本生成算法处理所述书面式文本,生成口语式文本集合;
口语式文本获取单元,用于根据随机采样算法对所述口语式文本集合进行采样,获得所述口语式文本。
可理解地,根据预设的文本生成算法对书面式文本进行处理,生成多个口语式文本,该多个口语式文本共同组成口语式文本集合,根据top-K随机采样对口语式文本集合进行采样,选取在每一个时间点中,在采样输出概率分布中前k个最有可能的候选项中随机选出一个,作为口语式文本。k为大于零的整数。从而实现了后续合成语音的多样性。
本实施例通过口语式文本集合生成单元生成口语式文本集合,通过口语式文本获取单元获得更具有多样性的口语式文本,实现了后续合成语音的多样性。
优选地,标签文本获取模块30包括:
嵌入文本获取单元,用于根据预设的嵌入算法对所述口语式文本进行转换,获得包含上下文相关信息的嵌入文本。
可理解地,根据Bert嵌入模型对口语式文本进行转换,对口语式文本进行关键词的插入,获得包含上下文相关信息的嵌入文本。
本实施例通过嵌入文本获取单元获得包含上下文相关信息的嵌入文本,从而提高了后续合成语音的准确性。
优选地,标签文本获取模块30包括:
韵律标签添加单元,用于根据预设的标签预测算法为所述嵌入文本中的每个词语添加所述韵律标签,获得所述标签文本。
可理解地,提取嵌入文本中的每个词语,根据韵律预测模型为嵌入文本中的每个词语添加韵律标签,获得标签文本。
本实施例通过韵律标签添加单元获得标签文本,从而实现了对文本的韵律预测,提高了后续合成语音的口语化程度及合成语音的韵律自然度。
优选地,目标语音合成模块40,包括:
预输出文本获取单元,用于根据预设的停顿填充词识别算法对所述标签文本进行识别,获得包含停顿标签的预输出文本;
目标语音获取单元,用于根据预设的转换算法对所述预输出文本进行转换,获得所述目标语音。
可理解地,停顿填充词是一种特殊的词汇,用于填充文本中的空白,以便更好地表达上下文相关信息,使得文本更加口语式。停顿标签可以是区别停顿填充词的标签,由于英文中常见的停顿填充词为um,uh两种,因此将停顿标签设计为三类,1、无停顿标签,2、um停顿标签,3、uh停顿标签。预设的转换算法可以是根据实际需求预先设置的语音合成算法。根据FP预测器对标签文本进行识别,对停顿填充词进行标记,获得包含停顿标签的预输出文本,根据预设的转换算法对预输出文本进行转换,获得目标语音。
本实施例通过预输出文本获取单元获得包含停顿标签的预输出文本,通过目标语音获取单元获得目标语音,从而提高了目标语音的口语化程度。
优选地,上述预输出文本获取单元还包括:
停顿填充词判断子单元,用于判断所述标签文本中的各个词语是否为停顿填充词;
停顿标签添加子单元,用于若所述词语为停顿填充词,则为所述词语添加所述停顿标签,获得所述预输出文本。
可理解地,提取标签文本中的各个词语,判断标签文本中的各个词语是否为停顿填充词,若词语为停顿填充词um,则为词语添加um停顿标签;若词语为停顿填充词uh,则为词语添加uh停顿标签;若词语无停顿填充词,则不添加停顿标签,将添加标签后的文本作为预输出文本。
本实施例通过停顿填充词判断子单元判断标签文本中的停顿填充词,通过停顿标签添加子单元获得预输出文本,从而提高了后续合成语音的韵律自然度。
关于语音合成装置的具体限定可以参见上文中对于语音合成方法的限定,在此不再赘述。上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音合成方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机可读指令时实现以下步骤:
获取书面式文本;
通过翻译模型翻译所述书面式文本,获得口语式文本;
通过韵律模型为所述口语式文本添加韵律标签,获得标签文本;
通过声学模型转换所述标签文本,合成目标语音。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
获取书面式文本;
通过翻译模型翻译所述书面式文本,获得口语式文本;
通过韵律模型为所述口语式文本添加韵律标签,获得标签文本;
通过声学模型转换所述标签文本,合成目标语音。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
获取书面式文本;
通过翻译模型翻译所述书面式文本,获得口语式文本;
通过韵律模型为所述口语式文本添加韵律标签,获得标签文本;
通过声学模型转换所述标签文本,合成目标语音。
2.如权利要求1所述的语音合成方法,其特征在于,所述通过翻译模型翻译所述书面式文本,获得口语式文本之前,还包括:
建立对话脚本;
根据所述对话脚本进行对话录音,获取对话语音;
将所述对话语音转化为文字,获得口语式训练文本;
对所述口语式训练文本进行修改,获得书面式训练文本;
根据所述口语式训练文本和所述书面式训练文本建立用于为所述翻译模型提供训练样本的文本语料库。
3.如权利要求1所述的语音合成方法,其特征在于,所述通过翻译模型翻译所述书面式文本,获得口语式文本,包括:
根据预设的文本生成算法处理所述书面式文本,生成口语式文本集合;
根据随机采样算法对所述口语式文本集合进行采样,获得所述口语式文本。
4.如权利要求1所述的语音合成方法,其特征在于,所述通过韵律模型为所述口语式文本添加韵律标签,获得标签文本,包括:
根据预设的嵌入算法对所述口语式文本进行转换,获得包含上下文相关信息的嵌入文本。
5.如权利要求4所述的语音合成方法,其特征在于,所述根据预设的嵌入算法对所述口语式文本进行转换,获得包含上下文相关信息的嵌入文本之后,包括:
根据预设的标签预测算法为所述嵌入文本中的每个词语添加所述韵律标签,获得所述标签文本。
6.如权利要求1所述的语音合成方法,其特征在于,所述通过声学模型转换所述标签文本,合成目标语音,包括:
根据预设的停顿填充词识别算法对所述标签文本进行识别,获得包含停顿标签的预输出文本;
根据预设的转换算法对所述预输出文本进行转换,获得所述目标语音。
7.如权利要求6所述的语音合成方法,其特征在于,所述根据预设的停顿填充词识别算法对所述标签文本进行识别,获得包含停顿标签的预输出文本,包括:
判断所述标签文本中的各个词语是否为停顿填充词;
若所述词语为停顿填充词,则为所述词语添加所述停顿标签,获得所述预输出文本。
8.一种语音合成装置,其特征在于,包括:
书面式文本获取模块,用于获取书面式文本;
口语式文本获取模块,用于通过翻译模型翻译所述书面式文本,获得口语式文本;
标签文本获取模块,用于通过韵律模型为所述口语式文本添加韵律标签,获得标签文本;
目标语音合成模块,用于通过声学模型转换所述标签文本,合成目标语音。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述语音合成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310714143.8A CN117475985A (zh) | 2023-06-15 | 2023-06-15 | 语音合成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310714143.8A CN117475985A (zh) | 2023-06-15 | 2023-06-15 | 语音合成方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117475985A true CN117475985A (zh) | 2024-01-30 |
Family
ID=89633727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310714143.8A Pending CN117475985A (zh) | 2023-06-15 | 2023-06-15 | 语音合成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117475985A (zh) |
-
2023
- 2023-06-15 CN CN202310714143.8A patent/CN117475985A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102265972B1 (ko) | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 | |
US11404043B2 (en) | Systems and methods for providing non-lexical cues in synthesized speech | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
US20090204401A1 (en) | Speech processing system, speech processing method, and speech processing program | |
Lu et al. | Implementing prosodic phrasing in chinese end-to-end speech synthesis | |
KR20160058470A (ko) | 음성 합성 장치 및 그 제어 방법 | |
CN111247581A (zh) | 一种多语言文本合成语音方法、装置、设备及存储介质 | |
Qian et al. | Capturing L2 segmental mispronunciations with joint-sequence models in computer-aided pronunciation training (CAPT) | |
CN113178188B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113380222B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US20220180864A1 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
CN111164674A (zh) | 语音合成方法、装置、终端及存储介质 | |
CN113302683B (zh) | 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN111370001B (zh) | 一种发音的纠正方法、智能终端及存储介质 | |
US20230206899A1 (en) | Spontaneous text to speech (tts) synthesis | |
CN113593522A (zh) | 一种语音数据标注方法和装置 | |
CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
CN117475985A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
Nursetyo | LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API | |
CN114255735A (zh) | 语音合成方法及系统 | |
US20240153486A1 (en) | Operation method of speech synthesis system | |
Dandge et al. | Multilingual Global Translation using Machine Learning | |
Tazakka et al. | Indonesian-English Code-Switching Speech Recognition using the Machine Speech Chain based Semi-Supervised Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |