CN114495896A - 一种语音播放方法及计算机设备 - Google Patents
一种语音播放方法及计算机设备 Download PDFInfo
- Publication number
- CN114495896A CN114495896A CN202111678366.0A CN202111678366A CN114495896A CN 114495896 A CN114495896 A CN 114495896A CN 202111678366 A CN202111678366 A CN 202111678366A CN 114495896 A CN114495896 A CN 114495896A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- features
- prosody
- text sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001228 spectrum Methods 0.000 claims abstract description 66
- 238000005065 mining Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims description 29
- 230000009466 transformation Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 32
- 239000013598 vector Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,提供了一种语音播放方法、语音播放装置、计算机设备及计算机可读存储介质。其中,一种语音播放方法,通过利用预设的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到文本序列的韵律特征,由于韵律特征能够用于表征文本序列中单位文本内容的声学特征,因此将文本特征与韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,使得输出的梅尔频谱能够用于表征文本序列中单位文本内容的声学特征、上下文依赖关系以及发音时机,最后基于梅尔频谱播放与文本序列对应的语音内容,能够在文本转换为语音的场景中,提高语音质量。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种语音播放方法、语音播放装置、计算机设备及计算机可读存储介质。
背景技术
如今,随着智能电子产品的普及,越来越多的电子设备具备语音交互功能。例如,智能音箱、智能读书机等。相应地,对电子设备播放语音的质量要求也越来越高。
在现有技术中,电子设备在实现语音交互时,先将获取到的文本文件转换成语音文件后再进行播放。虽然,在将文本文件转换成语音文件时,可以采样已有的转换模型将文本内容映射为语音内容,但是该方案仅是通过文本中各文字的音素进行对应映射,使得语音内容存在语气相对平稳,也即语音质量不好,影响用户体验度。
发明内容
有鉴于此,本申请实施例提供了一种语音播放方法、语音播放装置、计算机设备及计算机可读存储介质,以解决现有技术中语音播放方案在将文本转换为语音后,存在语音质量不好的问题。
本申请实施例的第一方面提供了一种语音播放方法,包括:
利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征;
将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,输出梅尔频谱;
基于所述梅尔频谱播放与所述文本序列对应的语音内容。
可选的,在所述利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征的步骤之前,还包括:
对文本序列样本与所述文本序列样本对应的语音样本分别进行分析处理,得到相互关联的文本样本特征与语音样本特征;
利用所述文本样本特征与所述语音样本特征作为第一训练样本,对韵律特征预测网络进行训练,得到训练好的韵律特征预测网络。
可选的,在所述将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,输出梅尔频谱的步骤之前,还包括:
利用所述文本样本特征与所述语音样本特征作为第二训练样本,对声学模型进行训练,得到训练后的声学模型。
可选的,所述利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征,包括:
通过长短时记忆网络基于文本序列的编码结果进行时间信息与上下文依赖关系抽取,得到所述文本序列的文本特征;其中,所述文本序列的编码结果是利用深度神经网络对文本序列进行编码得到;所述文本特征携带有所述文本序列的音素信息;
利用训练好的韵律特征预测网络,基于所述文本特征携带的音素信息进行韵律预测,得到所述文本序列的韵律特征。
可选的,所述将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖挖掘关系,输出梅尔频谱,包括:
为每一帧所述联合特征拼接位置编码,得到携带有位置编码的联合特征;
通过所述训练后的声学模型中的多头注意力模块,基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘,输出梅尔频谱。
可选的,所述通过所述训练后的声学模型中的多头注意力模块,基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘,输出梅尔频谱,包括:
通过所述训练后的声学模型中的第一多头注意力层对所述携带有位置编码的联合特征进行特征提取,且通过第一全连接层输出特征提取结果;
利用所述训练后的声学模型中的长度调节器与预设的时长模型,对所述特征提取结果沿时间维度进行特征扩展,得到扩展特征集;
通过所述训练后的声学模型中的第二多头注意力层,基于所述扩展特征集进行线性变换,输出梅尔频谱。
可选的,所述通过所述训练后的声学模型中的第二多头注意力层,基于所述扩展特征集进行线性变换,输出梅尔频谱,包括:
为所述扩展特征集中的每一帧扩展特征拼接位置编码,得到携带有位置编码的扩展特征集;
通过所述训练后的声学模型中的第二多头注意力层对所述携带有位置编码的扩展特征集进行非线性变换,且通过第二全连接层输出非线性变换结果;
通过所述训练后的声学模型中的卷积层对所述非线性变换结果进行残差计算,且通过线性层根据残差计算的结果进行回归预测,输出梅尔频谱。
本申请实施例的第二方面提供了一种语音播放装置,包括:
预测单元,用于利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征;
挖掘单元,用于将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,输出梅尔频谱;
输出单元,用于基于所述梅尔频谱播放与所述文本序列对应的语音内容。
本申请实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面或第一方面的任一可选方式所述的语音播放方法中的各个步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第一方面的任一可选方式所述的语音播放方法中的各个步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行上述第一方面或第一方面的任一可选方式所述的语音播放方法中的各个步骤。
实施本申请实施例提供的一种语音播放方法、语音播放装置、计算机设备、计算机可读存储介质及计算机程序产品具有以下有益效果:
本申请实施例,通过利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到文本序列的韵律特征,由于韵律特征能够用于表征文本序列中单位文本内容的声学特征,因此将文本特征与韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,使得输出的梅尔频谱能够用于表征文本序列中单位文本内容的声学特征、上下文依赖关系以及发音时机,最后基于梅尔频谱播放与文本序列对应的语音内容,能够在文本转换为语音的场景中,提高语音质量。此外,由于本申请实施例提供的一种语音播放方法,能够在文本转换为语音的场景中,提高语音质量,即令播放的语音内容听感更好,提高了用户体验度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音播放方法的实现流程图;
图2是本申请另一实施例提供的一种语音播放方法的实现流程图;
图3是本申请再一实施例提供的一种语音播放方法的实现流程图;
图4是本申请实施例提供的一种语音播放装置的结构框图;
图5是本申请实施例提供的一种计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本实施例提供的一种语音播放方法,执行主体为计算机设备,包括但不限于个人电脑、手机或者平板电脑等。通过对计算机设备或计算机设备中的应用配置目标脚本文件,由该目标脚本文件描述本实施例提供的语音播放方法,令计算机设备在实现语音交互时执行目标脚本文件,进而执行语音播放方法中的各个步骤。或者,同样由目标脚本文件描述本实施例提供的语音播放方法,将目标脚本文件配置于计算机设备中,且为计算机设备上安装的应用程序或者浏览器提供相应的调用接口,令计算机设备在加载具有语音交互功能的页面文件后,可以通过调用并执行目标脚本文件,进而语音播放方法中的各个步骤。
在实现时,计算机设备利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到文本序列的韵律特征,由于韵律特征能够用于表征文本序列中单位文本内容的声学特征,因此将文本特征与韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,使得输出的梅尔频谱能够用于表征文本序列中单位文本内容的声学特征、上下文依赖关系以及发音时机,最后计算机设备基于梅尔频谱播放与文本序列对应的语音内容,能够在文本转换为语音的场景中,提高语音质量。
此外,由于本申请实施例提供的一种语音播放方法,能够在文本转换为语音的场景中,提高语音质量,即令播放的语音内容听感更好,提高了用户体验度。
以下通过具体实现方式对本申请实施例提供的语音播放方法进行详细说明。
请参阅图1,为本申请实施例提供的一种语音播放方法的实现流程图,如图1所示,该语音播放方法可以包括S11~S13,详述如下:
S11:利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征。
在步骤S11中,文本序列表征的是待进行语音转换的文本内容。训练好的韵律特征预测网络用于描述文本特征与韵律特征之间的对应关系,也即,能够用于根据文本特征进行韵律预测,得到文本序列的韵律特征。
在本实施例中,韵律特征也被称为超音段特征。韵律特征是除了元音、辅音等音色特征以外,包括音高、音强、音长和其相互关系的一切特征。韵律特征在语音学中表现为声调、语调、重音、节奏。
在具体实现时,训练好的韵律特征预测网络可以是基于深度神经网络构建韵律特征预测网络后,采用预先配置好的训练样本对其进行映射关系训练得到。这里,训练样本包括文本样本特征与韵律标注,以文本样本特征作为该韵律特征预测网络的输入,以韵律标注作为其目标进行训练,使得训练好的韵律特征预测网络能够用于描述文本特征与韵律特征之间的对应关系。
在一些已有技术中,在进行语音播放时,将文本序列进行文本特征提取后,将文本特征直接与语音内容进行映射,进而输出与文本内容对应的语音内容。该语音内容在后期调整或优化时,只能从音色上进行调整,例如,用目标人物的语音样本进行音色特征抽取后,嵌入语音内容中,使得该段语音内容听起来接近目标人物的声音。但是,该段优化后的语音内容仅在音色上与目标人物接近,并不能从文本韵律的角度为语音内容进行优化或者润色。
本实施例中,考虑到在一些文本转换为语音的场景中,韵律特征决定了语音内容的渲染能力与听感舒适程度。例如,将古诗词文本转换成语音时,则需要考虑更多的韵律特征,如果只是将文本内容与语音模板进行简单映射,则容易导致转换后的语音内容无法更好地表达文本内容中的情感。基于此,利用训练好的韵律特征预测网络根据文本序列的文本特征进行韵律预测,得到文本序列的韵律特征,能够在对文本序列进行语音转换时,将韵律特征作为语音转换过程中考虑的元素之一,从而为提高语音质量提供了实现基础。
作为一个实施例,步骤S11包括以下步骤:
通过长短时记忆网络基于文本序列的编码结果进行时间信息与上下文依赖关系抽取,得到所述文本序列的文本特征;其中,所述文本序列的编码结果是利用深度神经网络对文本序列进行编码得到;所述文本特征携带有所述文本序列的音素信息;利用训练好的韵律特征预测网络,基于所述文本特征携带的音素信息进行韵律预测,得到所述文本序列的韵律特征。
在本实施例中,利用训练好的韵律特征预测网络根据文本序列的文本特征进行韵律预测,具体是根据文本特征的音素信息进行韵律预测。这里,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。同时,音素也是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。
需要说明的是,由于文本序列的编码结果是利用深度神经网络对文本序列进行编码得到,因此可以直接通过长短时记忆网络对文本序列的编码结果进行时间信息与上下文依赖关系抽取。这里,时间信息表征了音素信息在时间上的先后顺序,也即与韵律特征的时间维度相关。上下文依赖关系表征了文本内容中相互关联的部分文本在音素信息上的影响,也即与韵律特征中不同内容之间的韵律关联关系。
容易理解的是,在具体实现时,还可以采用其他深度神经网络或者其他规则模型对文本直接进行韵律预测。例如,通过预先配置不同文本之间的韵律关系网络,表征不同文本之间的韵律特征,进而利用该韵律关系网络直接对文本序列进行韵律挖掘或韵律预测,得到文本序列对应的韵律特征。
S12:将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,输出梅尔频谱。
在步骤S12中,联合特征包含了文本序列的文本特征与韵律特征。训练后的声学模型对联合特征进行上下文依赖关系挖掘,是为了避免出现多字、丢字的现象。
在本实施例中,将文本特征与韵律特征作为联合特征,具体可以是将文本特征与韵律特征进行拼接,也即将文本特征的向量与韵律特征的向量进行拼接,得到二维向量,以该二维向量作为韵律特征。
在具体实现时,由于韵律特征为二维向量,训练后的声学模型以表征联合特征的二维向量作为输入,能够对该二维向量进行更质量的高维度空间表达。这里,训练后的声学模型中包含有时长模型,用于进行时长预测,进而能够输出更加准确的发音时间,也即对单位文本内容的声学特征、上下文依赖关系以及发音时机进行预测与表达,使整体的合成语音节奏感更符合真实发声特点,且令语音起伏更明显,字与字之间停顿更加合理。
容易理解的是,由于梅尔频谱是由训练后的声学模型对联合特征进行上下文依赖关系挖掘得到,且联合特征是由文本特征与韵律特征拼接得到,因此基于梅尔频谱进行相位谱预测时,能够将文本序列的文本特征与韵律特征同时进行考虑,从而令预测得到的相位谱能够具有文本特征的部分与韵律特征的部分,使得相位谱对应的语音具有韵律感,变得更生动。
作为一个实施例,步骤S12具体包括以下步骤:
步骤1:为每一帧所述联合特征拼接位置编码,得到携带有位置编码的联合特征。
步骤2:通过所述训练后的声学模型中的多头注意力模块,基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘,输出梅尔频谱。
在本实施例中,位置编码用于表征各帧联合特征在整体联合特征中的位置。这里,位置编码可以是根据每一帧联合特征进行位置编码计算得到。例如,根据每帧联合特征的顺序数值进行余弦值测算,以测算得到的余弦值作为该帧联合特征对应的位置编码。
这里,将携带有位置编码的联合特征输入训练后的声学模型中,由模型中的多头注意力模块对该携带有位置编码的联合特征进行上下文依赖关系挖掘。在具体实现时,可以通过设置多组多头注意力模块实现。例如,由第一组多头注意力模块对携带有位置编码的联合特征进行编码,通过全连接层对编码结果进行拼接后,再通过第二组多头注意力模块对其进行解码和线性转换,输出梅尔频谱。
作为本实施例一种可能实现的方式,上述步骤:通过所述训练后的声学模型中的多头注意力模块,基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘,输出梅尔频谱,包括以下步骤:
步骤1:通过所述训练后的声学模型中的第一多头注意力层对所述携带有位置编码的联合特征进行特征提取,且通过第一全连接层输出特征提取结果。
步骤2:利用所述训练后的声学模型中的长度调节器与预设的时长模型,对所述特征提取结果沿时间维度进行特征扩展,得到扩展特征集。
步骤3:通过所述训练后的声学模型中的第二多头注意力层,基于所述扩展特征集进行线性变换,输出梅尔频谱。
在本实施例中,第一多头注意力模块中配置有多层注意力提取层,提取的特征内容经过带有激活函数的第一全连接层输出特征提取结果。将该特征提取结果传递至时长调节器与预设的时长模型。这里,预设的时长模型用于对特征提取结果进行复制扩展,也即为每一帧特征提取结果所对应的时长进行预测。例如,针对某一帧特征提取结果预测的时长为2时,对该帧特征提取结果进行复制,得到连续的两帧特征提取结果。
需要说明的是,由于预设的时长模型对特征提取结果进行复制扩展后,每帧特征提取结果被扩充,相应地整体特征提取结果被扩大。因此需要利用长度调节器协同进行时间维度的扩展。
可以理解的是,得到扩展特征集是在高维度空间的矩阵,故需要通过训练后的声学模型中的第二多头注意力层,基于扩展特征集进行线性变换,输出梅尔频谱。
作为一个实施例,上述步骤:通过所述训练后的声学模型中的第二多头注意力层,基于所述扩展特征集进行线性变换,输出梅尔频谱,包括以下步骤:
步骤1:为所述扩展特征集中的每一帧扩展特征拼接位置编码,得到携带有位置编码的扩展特征集。
步骤2:通过所述训练后的声学模型中的第二多头注意力层对所述携带有位置编码的扩展特征集进行非线性变换,且通过第二全连接层输出非线性变换结果。
步骤3:通过所述训练后的声学模型中的卷积层对所述非线性变换结果进行残差计算,且通过线性层根据残差计算的结果进行回归预测,输出梅尔频谱。
在本实施例中,由于扩展特征集是基于特征提取结果沿时间维度进行特征扩展得到,因此需要重新对扩展特征集中的每帧内容进行位置编码。这里,为扩展特征集中的每一帧扩展特征拼接位置编码,与为联合特征拼接位置编码相同,可以通过对每一帧扩展特征进行位置余弦值测算,进而将测算所得数值作为位置编码,进而得到携带有位置编码的控制特征集。
这里,通过训练后的声学模型中的第二多头注意力层对携带有位置编码的扩展特征集进行非线性变换,且通过第二全连接层输出非线性变换结果。与第一全连接层相似地,第二全连接层中也带有激活函数,通过将扩展特征集非线性变换结构进行连接后,输出非线性变换结果。训练后的声学模型中的卷积层对线性变换结果进行卷积与残差计算,且通过线性层根据残差计算的结果进行回归预测,输出梅尔频谱。
S13:基于所述梅尔频谱播放与所述文本序列对应的语音内容。
在步骤S13中,梅尔频谱用于描述文本序列的声音特征。这里,由于该梅尔频谱是由训练后的声学模型对联合特征进行上下文依赖关系挖掘得到,且联合特征是由文本序列的文本特征与韵律特征进行拼接得到,因此该梅尔频谱同时具有文本序列的上下文关系的表达,还具有文本上下文关系的韵律关联表达。
在实际应用时,由于得到的声谱图较大,为了得到合适大小的声音特征,通常将它通过梅尔尺度滤波器组(Mel-scale filter banks),变为梅尔频谱。相应地,基于梅尔频谱也能够通过逆向预测得到音频相位谱,该音频相位谱即可作为语音的完整映射进行语音内容播放。
在具体实现时,基于梅尔频谱播放与文本序列对应的语音内容,具体可以是利用声码器对该梅尔频谱进行音频相位谱预测,也即将该梅尔频谱转换成对应的音频相位谱,进而以该音频相位谱进行语音播放,也即播放与文本序列对应的语音内容。
上述方案,通过利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到文本序列的韵律特征,由于韵律特征能够用于表征文本序列中单位文本内容的声学特征,因此将文本特征与韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,使得输出的梅尔频谱能够用于表征文本序列中单位文本内容的声学特征、上下文依赖关系以及发音时机,最后基于梅尔频谱播放与文本序列对应的语音内容,能够在文本转换为语音的场景中,提高语音质量。
此外,由于本申请实施例提供的一种语音播放方法,能够在文本转换为语音的场景中,提高语音质量,即令播放的语音内容听感更好,提高了用户体验度。
请参阅图2,为本申请另一实施例提供的一种语音播放方法的流程图。图2示出的实施例,与图1示出的实施例之间的差别在于,步骤S11之前还包括步骤S21至S22,详述如下:
S21:对文本序列样本与所述文本序列样本对应的语音样本分别进行分析处理,得到相互关联的文本样本特征与语音样本特征。
S22:利用所述文本样本特征与所述语音样本特征作为第一训练样本,对韵律特征预测网络进行训练,得到训练好的韵律特征预测网络。
在本实施例中,文本序列样本与语音样本相互对应,也即语音样本的语音内容为文本序列的内容相同。也即,语音样本中的语音内容是对人物朗读文本序列时进行录制得到。基于此,语音样本中的韵律特征即为韵律特征预测网络的输出目标。
需要说明的是,对文本序列样本与所述文本序列样本对应的语音样本分别进行分析处理,得到相互关联的文本样本特征与语音样本特征,可以是通过两种不同的分析模块实现。这里,分析模块可以是包含有深度神经网络,利用该深度神经网络对文本序列进行编码,再通过长短时记忆网络对文本序列的编码结果进行时间信息与上下文依赖关系抽取,分别得到文本样本特征与语音样本特征。由于文本序列的编码结果是利用深度神经网络对文本序列进行编码得到,因此可以直接通过长短时记忆网络对文本序列的编码结果进行时间信息与上下文依赖关系抽取。
容易理解的是,与训练声学模型不同的是,利用第一训练样本对韵律特征预测网络进行训练时,文本样本特征作为韵律特征预测网络的输入,语音样本特征作为韵律特征预测网络的目标输出,使得训练好的韵律特征预测网络能够用于表征文本特征与韵律特征之间的对应关系。
请参阅图3,为本申请再一实施例提供的一种语音播放方法的流程图。图3示出的实施例,以图2示出的实施例为基础,作为一个实施例,在步骤S21之后,步骤S12之前,还包括步骤S31,详述如下:
S31:利用所述文本样本特征与所述语音样本特征作为第二训练样本,对声学模型进行训练,得到训练后的声学模型。
在本实施例中,文本序列样本与语音样本相互对应,也即语音样本的语音内容为文本序列的内容相同。也即,语音样本中的语音内容是对人物朗读文本序列时进行录制得到。因此文本样本特征与语音样本特征之间也存在关联关系。这里,语音样本特征为语音样本的韵律特征。第二训练样本即为文本样本特征与语音样本特征进行特征拼接之后得到的拼接样本。
这里,文本样本特征与语音样本特征进行特征拼接,可以是将该文本样本特征的向量与语音样本特征的向量进行拼接,得到二维向量,进而以该二维向量作为第二训练样本中的联合特征样本。
需要说明的是,由于文本序列样本与语音样本相互对应,也即语音样本的语音内容为文本序列的内容相同,因此可以从文本序列样本获取文本样本特征,从语音样本中获得语音样本特征,即语音样本的韵律特征。通过将文本样本特征与语音样本特征进行拼接,即可得到训练样本。
容易理解的是,在实际应用中,为了提高训练后的声学模型的泛化性,可以通过丰富第二训练样本的内容实现。例如,可以将不同的文本样本特征与相应的语音样本特征进行组合,进而丰富第二训练样本的内容,使得利用该第二训练样本对声学模型进行训练,能够提高训练后的声学模型的梅尔频谱输出效率。
请参阅图4,为本申请实施例提供的一种语音播放装置的结构框图。本实施例中该语音播放装置包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,语音播放装置40包括:预测单元41、挖掘单元42以及输出单元43。具体地:
预测单元41,用于利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征。
挖掘单元42,用于将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,输出梅尔频谱。
输出单元43,用于基于所述梅尔频谱播放与所述文本序列对应的语音内容。
作为一个实施例,语音播放装置40还包括:
分析单元,用于对文本序列样本与所述文本序列样本对应的语音样本分别进行分析处理,得到相互关联的文本样本特征与语音样本特征。
第一训练单元,用于利用所述文本样本特征与所述语音样本特征作为第一训练样本,对韵律特征预测网络进行训练,得到训练好的韵律特征预测网络。
作为一个实施例,语音播放装置40还包括:
第二训练单元,用于利用所述文本样本特征与所述语音样本特征作为第二训练样本,对声学模型进行训练,得到训练后的声学模型。
作为一个实施例,预测单元41包括:
第一特征获取单元,用于通过长短时记忆网络基于文本序列的编码结果进行时间信息与上下文依赖关系抽取,得到所述文本序列的文本特征;其中,所述文本序列的编码结果是利用深度神经网络对文本序列进行编码得到;所述文本特征携带有所述文本序列的音素信息。
韵律预测单元,用于利用训练好的韵律特征预测网络,基于所述文本特征携带的音素信息进行韵律预测,得到所述文本序列的韵律特征。
作为一个实施例,挖掘单元42包括:
第二特征获取单元,用于为每一帧所述联合特征拼接位置编码,得到携带有位置编码的联合特征。
梅尔频谱挖掘单元,用于通过所述训练后的声学模型中的多头注意力模块,基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘,输出梅尔频谱。
作为一个实施例,梅尔频谱挖掘单元具包括:
特征提取单元,用于通过所述训练后的声学模型中的第一多头注意力层对所述携带有位置编码的联合特征进行特征提取,且通过第一全连接层输出特征提取结果。
特征获取单元,用于利用所述训练后的声学模型中的长度调节器与预设的时长模型,对所述特征提取结果沿时间维度进行特征扩展,得到扩展特征集。
特征变换单元,用于通过所述训练后的声学模型中的第二多头注意力层,基于所述扩展特征集进行线性变换,输出梅尔频谱。
作为一个实施例,特征变换单元具体用于:
为所述扩展特征集中的每一帧扩展特征拼接位置编码,得到携带有位置编码的扩展特征集;
通过所述训练后的声学模型中的第二多头注意力层对所述携带有位置编码的扩展特征集进行非线性变换,且通过第二全连接层输出非线性变换结果;
通过所述训练后的声学模型中的卷积层对所述非线性变换结果进行残差计算,且通过线性层根据残差计算的结果进行回归预测,输出梅尔频谱。
应当理解的是,图4示出的语音播放装置的结构框图中,各单元用于执行图1至图3对应的实施例中的各步骤,而对于图1至图3对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述,此处不再赘述。
请参阅图5,为本申请实施例提供的一种计算机设备的结构框图。如图5所示,该实施例的计算机设备50包括:处理器51、存储器52以及存储在所述存储器52中并可在所述处理器51上运行的计算机程序53,例如语音播放方法的程序。处理器51执行所述计算机程序53时实现上述各个语音播放方法各实施例中的步骤,例如图1所示的S11至S13,或者图2所示的S21至S13,再或者图3所示的S21至S13以及S31,所述处理器51执行所述计算机程序53时实现上述图4对应的实施例中各单元的功能,例如,图4所示的单元41至43的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序53可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器52中,并由所述处理器51执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序53在所述计算机设备50中的执行过程。例如,所述计算机程序53可以被分割成预测单元、挖掘单元及输出单元,各单元具体功能如上所述。
计算机设备50可包括,但不仅限于,处理器51、存储器52。本领域技术人员可以理解,图5仅仅是计算机设备50的示例,并不构成对计算机设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备50还可以包括输入输出设备、网络接入设备、总线等。
所称处理器51可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器52可以是所述计算机设备50的内部存储单元,例如计算机设备50的硬盘或内存。所述存储器52也可以是所述计算机设备50的外部存储设备,例如所述计算机设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器52还可以既包括所述计算机设备50的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音播放方法,其特征在于,包括:
利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征;
将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,输出梅尔频谱;
基于所述梅尔频谱播放与所述文本序列对应的语音内容。
2.根据权利要求1所述的语音播放方法,其特征在于,在所述利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征的步骤之前,还包括:
对文本序列样本与所述文本序列样本对应的语音样本分别进行分析处理,得到相互关联的文本样本特征与语音样本特征;
利用所述文本样本特征与所述语音样本特征作为第一训练样本,对韵律特征预测网络进行训练,得到训练好的韵律特征预测网络。
3.根据权利要求2所述的语音播放方法,其特征在于,在所述将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,输出梅尔频谱的步骤之前,还包括:
利用所述文本样本特征与所述语音样本特征作为第二训练样本,对声学模型进行训练,得到训练后的声学模型。
4.根据权利要求1至3任一项所述的语音播放方法,其特征在于,所述利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征,包括:
通过长短时记忆网络基于文本序列的编码结果进行时间信息与上下文依赖关系抽取,得到所述文本序列的文本特征;其中,所述文本序列的编码结果是利用深度神经网络对文本序列进行编码得到;所述文本特征携带有所述文本序列的音素信息;
利用训练好的韵律特征预测网络,基于所述文本特征携带的音素信息进行韵律预测,得到所述文本序列的韵律特征。
5.根据权利要求1至3任一项所述的语音播放方法,其特征在于,所述将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖挖掘关系,输出梅尔频谱,包括:
为每一帧所述联合特征拼接位置编码,得到携带有位置编码的联合特征;
通过所述训练后的声学模型中的多头注意力模块,基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘,输出梅尔频谱。
6.根据权利要求5所述的语音播放方法,其特征在于,所述通过所述训练后的声学模型中的多头注意力模块,基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘,输出梅尔频谱,包括:
通过所述训练后的声学模型中的第一多头注意力层对所述携带有位置编码的联合特征进行特征提取,且通过第一全连接层输出特征提取结果;
利用所述训练后的声学模型中的长度调节器与预设的时长模型,对所述特征提取结果沿时间维度进行特征扩展,得到扩展特征集;
通过所述训练后的声学模型中的第二多头注意力层,基于所述扩展特征集进行线性变换,输出梅尔频谱。
7.根据权利要求6所述的语音播放方法,其特征在于,所述通过所述训练后的声学模型中的第二多头注意力层,基于所述扩展特征集进行线性变换,输出梅尔频谱,包括:
为所述扩展特征集中的每一帧扩展特征拼接位置编码,得到携带有位置编码的扩展特征集;
通过所述训练后的声学模型中的第二多头注意力层对所述携带有位置编码的扩展特征集进行非线性变换,且通过第二全连接层输出非线性变换结果;
通过所述训练后的声学模型中的卷积层对所述非线性变换结果进行残差计算,且通过线性层根据残差计算的结果进行回归预测,输出梅尔频谱。
8.一种语音播放装置,其特征在于,包括:
预测单元,用于利用训练好的韵律特征预测网络,根据文本序列的文本特征进行韵律预测,得到所述文本序列的韵律特征;
挖掘单元,用于将所述文本特征与所述韵律特征作为联合特征,输入训练后的声学模型进行上下文依赖关系挖掘,输出梅尔频谱;
输出单元,用于基于所述梅尔频谱播放与所述文本序列对应的语音内容。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111678366.0A CN114495896A (zh) | 2021-12-31 | 2021-12-31 | 一种语音播放方法及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111678366.0A CN114495896A (zh) | 2021-12-31 | 2021-12-31 | 一种语音播放方法及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114495896A true CN114495896A (zh) | 2022-05-13 |
Family
ID=81510715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111678366.0A Pending CN114495896A (zh) | 2021-12-31 | 2021-12-31 | 一种语音播放方法及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495896A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758938A (zh) * | 2023-08-21 | 2023-09-15 | 硕橙(厦门)科技有限公司 | 一种模切机音频感兴趣区域定位方法、装置、设备及介质 |
-
2021
- 2021-12-31 CN CN202111678366.0A patent/CN114495896A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758938A (zh) * | 2023-08-21 | 2023-09-15 | 硕橙(厦门)科技有限公司 | 一种模切机音频感兴趣区域定位方法、装置、设备及介质 |
CN116758938B (zh) * | 2023-08-21 | 2023-11-14 | 硕橙(厦门)科技有限公司 | 一种模切机音频感兴趣区域定位方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12033611B2 (en) | Generating expressive speech audio from text data | |
CN111489734B (zh) | 基于多说话人的模型训练方法以及装置 | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN111968618A (zh) | 语音合成方法、装置 | |
CN113539231B (zh) | 音频处理方法、声码器、装置、设备及存储介质 | |
CN113920977A (zh) | 一种语音合成模型、模型的训练方法以及语音合成方法 | |
CN113450765B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113327580A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN112992162B (zh) | 一种音色克隆方法、系统、装置及计算机可读存储介质 | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
KR102137523B1 (ko) | 텍스트-음성 변환 방법 및 시스템 | |
CN111627420A (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
KR102639322B1 (ko) | 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법 | |
CN114242093A (zh) | 语音音色转换方法、装置、计算机设备和存储介质 | |
CN113870827A (zh) | 一种语音合成模型的训练方法、装置、设备及介质 | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN113314097B (zh) | 语音合成方法、语音合成模型处理方法、装置和电子设备 | |
CN114495896A (zh) | 一种语音播放方法及计算机设备 | |
CN116665642A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
KR102626618B1 (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
CN116129859A (zh) | 韵律标注方法、声学模型训练方法、语音合成方法及装置 | |
CN113299270B (zh) | 语音合成系统的生成方法、装置、设备及存储介质 | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
CN114464163A (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |