CN109767752A - 一种基于注意力机制的语音合成方法及装置 - Google Patents
一种基于注意力机制的语音合成方法及装置 Download PDFInfo
- Publication number
- CN109767752A CN109767752A CN201910149065.5A CN201910149065A CN109767752A CN 109767752 A CN109767752 A CN 109767752A CN 201910149065 A CN201910149065 A CN 201910149065A CN 109767752 A CN109767752 A CN 109767752A
- Authority
- CN
- China
- Prior art keywords
- text
- audio
- matrix
- target
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 152
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000003860 storage Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 239000012528 membrane Substances 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 63
- 230000015572 biosynthetic process Effects 0.000 description 27
- 238000003786 synthesis reaction Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000000873 fovea centralis Anatomy 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01L—MEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
- G01L13/00—Devices or apparatus for measuring differences of two or more fluid pressure values
- G01L13/02—Devices or apparatus for measuring differences of two or more fluid pressure values using elastically-deformable members or pistons as sensing elements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种基于注意力机制的语音合成方法及装置,其中,一种基于注意力机制的语音合成方法,可包括:根据目标文本确定文本编码矩阵和音频编码矩阵;根据文本编码矩阵和音频编码矩阵,通过函数L(A)确定音频解码矩阵,其中,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数;根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。本申请可以在目标文本的对齐强度小于对齐强度阈值时,使Wnt呈线性变化,不仅可以大大降低原注意力机制中的算法难度,而且可以在不需要常需要大量的样本数据和训练时间的情况下,保证将明显位置偏离的文本和语音信号进行强制对齐。
Description
技术领域
本申请涉及语音合成技术领域,尤其涉及一种基于注意力机制的语音合成方法及装置。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术,又叫文语转换技术(Text to Speech,TTS),TTS技术隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。现有的基于注意力机制语音合成技术中原来的算法能够使得注意力机制具有将明显位置偏离的文本和语音信号进行强制对齐的性质,但是复杂度太高,通常需要大量的样本数据和训练时间才能达到预期效果,所以如何在保证将明显位置偏离的文本和语音信号进行强制对齐的性质的情况下降低算法的难度,是目前要解决的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于注意力机制的语音合成方法及装置。
第一方面,本申请实施例提供了一种基于注意力机制的语音合成方法,可包括:根据目标文本确定文本编码矩阵和音频编码矩阵;
根据文本编码矩阵和音频编码矩阵,通过函数L(A)确定音频解码矩阵,其中,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定,n大于0且小于或等于目标文本字符数,t大于0且小于或等于目标文本总发音的时间点;
根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。
通过第一方面提供的方法,可以根据目标文本的文本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后,进一步的根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。其中,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;进一步的目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定。若在目标文本的对齐强度小于对齐强度阈值时,使Wnt呈线性变化,不仅可以大大降低原注意力机制中的算法难度,而且可以在不需要常需要大量的样本数据和训练时间的情况下,保证将明显位置偏离的文本和语音信号进行强制对齐,有助于更快地使得注意力机制矩阵达到近似对齐的目的,从而使得语音合成更加有条理。
在一种可能实现的方式中,根据目标文本确定文本编码矩阵和音频编码矩阵包括:获取目标文本,所述目标文本包括N个字符的文字;获取偏移音频,所述偏移音频包括所述目标文本的时长为T的音频;根据所述目标文本确定所述文本编码矩阵;根据所述偏移音频确定所述音频编码矩阵。
在一种可能实现的方式中,根据所述目标文本确定所述文本编码矩阵,根据所述偏移音频确定所述音频编码矩阵,包括:通过文本编码器,根据输入的所述目标文本X=(x1,x2,…xn…,xN-1,xN)确定所述文本编码矩阵P=f(x1,x2,…xn…,xN-1,xN),其中,xn为第n个文本,f(xn)为输入的第n个文本xn通过第一编码变换确定的文本编码;通过音频编码器,根据输入的所述偏移音频Y=(y1,y2,…yt…,yT-1,yT)确定所述音频编码矩阵Q=g(y1,y2,…yt…,yT-1,yT),其中yt为第n个文字在输入所述偏移音频的时长为t时的音频,g(yt)为输入所述偏移音频的时长为t时的音频yt通过第二编码变换确定的音频编码;所述音频解码矩阵包括:所述音频解码矩阵S=(s1,s2,…sn…,sN-1,sN),其中sn=h(L(A),y1,y2,…yt-1),其中h为第一解码变换函数。
在一种可能实现的方式中,其中,为所述目标文本的对齐强度,θ为对齐强度阈值,N是所述目标文本的N个文字的字符总字符数,n是在N个文字中第n个字的字符数,T是所述目标文本的第N个文字发音时所在的时间点,t是第n个文字发音时所在的时间点。
在一种可能实现的方式中,对齐强度阈值θ为线性可调节,用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度,且θ的取值范围为θ∈(0,1)。
在一种可能实现的方式中,根据所述文本编码矩阵和所述音频编码矩阵,通过函数L(A)确定音频解码矩阵之前,还包括:根据样本文本和样本语音做所述函数L(A)模型训练,确定所述函数L(A)的对齐强度阈值θ。
在一种可能实现的方式中,根据样本文本和样本语音做所述函数L(A)模型训练,确定所述函数L(A)的对齐强度阈值θ包括:按预设间隔设置θ从0到1进行自动变化;对每次变化后的θ,根据样本文本和样本语音做所述函数L(A)训练;确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下,所述语音合成所费时间最短的θ为对齐强度阈值θ。
第二方面,本申请实施例提供了一种基于注意力机制的语音合成装置,可包括:第一确定单元,用于根据目标文本确定文本编码矩阵和音频编码矩阵;
第二确定单元,用于根据文本编码矩阵和音频编码矩阵,通过函数L(A)确定音频解码矩阵,其中,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定,n大于0且小于或等于目标文本字符数,t大于0且小于或等于目标文本总发音的时间点;
第三确定单元,用于根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。
在一种可能实现的方式中,第一确定单元具体用于:获取目标文本,所述目标文本包括N个字符的文字;获取偏移音频,所述偏移音频包括所述目标文本的时长为T的音频;根据所述目标文本确定所述文本编码矩阵;根据所述偏移音频确定所述音频编码矩阵。
在一种可能实现的方式中,第二确定单元具体用于:通过文本编码器,根据输入的所述目标文本X=(x1,x2,…xn…,xN-1,xN)确定所述文本编码矩阵P=f(x1,x2,…xn…,xN-1,xN),其中,xn为第n个文本,f(xn)为输入的第n个文本xn通过第一编码变换确定的文本编码;通过音频编码器,根据输入的所述偏移音频Y=(y1,y2,…yt…,yT-1,yT)确定所述音频编码矩阵Q=g(y1,y2,…yt…,yT-1,yT),其中yt为第n个文字在输入所述偏移音频的时长为t时的音频,g(yt)为输入所述偏移音频的时长为t时的音频yt通过第二编码变换确定的音频编码;所述音频解码矩阵包括:所述音频解码矩阵S=(s1,s2,…sn…,sN-1,sN),其中sn=h(L(A),y1,y2,…yt-1),其中h为第一解码变换函数。
在一种可能实现的方式中,其中,为所述目标文本的对齐强度,θ为对齐强度阈值,N是所述目标文本的N个文字的字符总字符数,n是在N个文字中第n个字的字符数,T是所述目标文本的第N个文字发音时所在的时间点,t是第n个文字发音时所在的时间点。
在一种可能实现的方式中,θ为线性可调节的对齐强度阈值,用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度,且θ的取值范围为θ∈(0,1)。
在一种可能实现的方式中,所述装置还包括第四确定单元,用于在根据所述文本编码矩阵和所述音频编码矩阵,通过函数L(A)确定音频解码矩阵之前,根据样本文本和样本语音做所述函数L(A)模型训练,确定所述函数L(A)的对齐强度阈值θ。
在一种可能实现的方式中,所述第四确定单元具体用于:按预设间隔设置θ从0到1进行自动变化;对每次变化后的θ,根据样本文本和样本语音做所述函数L(A)训练;确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下,所述语音合成所费时间最短的θ为对齐强度阈值θ。
第三方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有程序指令,该程序指令当被处理器运行时,该处理器执行上述第一方面的方法。
第四方面,本申请实施例提供了一种基于注意力机制的语音合成装置,包括存储组件,处理组件和通信组件,存储组件,处理组件和通信组件相互连接,其中,存储组件用于存储数据处理代码,通信组件用于与外部设备进行信息交互;处理组件被配置用于调用程序代码,执行第一方面所述的方法,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1是本申请实施例提供的一种基于注意力机制的语音合成系统架构的示意图;
图2是本申请实施例提供的一种合成语音时的终端界面示意图;
图3A是本申请实施例提供的一种基于注意力机制的语音合成方法流程的示意图;
图3B是本申请实施例提供的基于一种改进的基于注意力机制的语音合成技术方法框架示意图;
图4是本申请实施例提供的另一种基于注意力机制的语音合成方法流程的示意图;
图5是本申请实施例提供的一种基于注意力机制的语音合成装置的结构示意图;
图6是本申请实施例提供的一种简化的基于注意力机制的语音合成装置的实体装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例进行描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请中使用的术语“服务器”、“单元”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,服务器可以是但不限于,处理器,数据处理平台,计算设备,计算机,两个或更多个计算机等。
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)语音合成,语音合成是将一段文字输入进去输出与文字对应的一段语音,也是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
(2)注意力机制,注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。例如,人们在阅读时,通常只有少量要被读取的词会被关注和处理。综上,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。
(3)短时距傅里叶变换,短时距傅里叶变换是傅里叶变换的一种变形,用于决定随时间变化的信号局部部分的正弦频率和相位。实际上,计算短时傅里叶变换(STFT)的过程是将长时间信号分成数个较短的等长信号,然后再分别计算每个较短段的傅里叶变换。通常拿来描绘频域与时域上的变化,为时频分析中其中一个重要的工具。
其次,对本申请实施例所基于的其中一种基于注意力机制的语音合成系统架构进行描述。请参考附图1,图1是本申请实施例提供的一种基于注意力机制的语音合成系统架构的示意图,包括:基于注意力机制的语音合成装置101和终端装置102。
基于注意力机制的语音合成装置101,可以是服务器,其中服务器可以是但不限于,处理器,数据处理平台,计算设备,计算机,两个或更多个计算机等。例如当基于注意力机制的语音合成装置101为服务器时,服务器是一种通过获取、处理、分析和提取有价值的、海量和多样化数据,以交互数据为基础,为第三方使用带来各种便利的服务设备。基于注意力机制的语音合成装置101可以根据目标文本确定文本编码矩阵和音频编码矩阵;根据文本编码矩阵和音频编码矩阵,通过函数L(A)确定音频解码矩阵,其中,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定,n大于0且小于或等于目标文本字符数,t大于0且小于或等于目标文本总发音的时间点;根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。
终端装置102可以是通信终端、便携式终端、移动设备、用户终端、移动终端、无线通信设备、用户代理、用户装置、服务设备或用户设备(User Equipment,UE)等计算机网络中处于网络最外围的设备,主要用于数据的输入以及处理结果的输出或显示等,也可以是安装于或运行于上述任一一设备上的软件客户端、应用程度等。例如,客户端可以是目标用户或当前租赁用户所使用的智能手机、电脑、平板设备,或安装于或运行于智能手机、电脑、平板设备上的软件客户端、应用程度等。请见附图2,图2是本申请实施例提供的一种合成语音时的终端界面示意图。当终端装置102为电脑时,可以用于向基于注意力机制的语音合成装置101发送目标文本,接收并播放基于注意力机制的语音合成装置101发送的目标音频。
可以理解的是,基于注意力机制的语音合成装置101可以同时接收多个不同终端装置102发送的不同的目标文本。
参考附图3A,图3A是本申请实施例提供的一种基于注意力机制的语音合成方法流程的示意图。可应用于上述图1中的系统,下面将结合图3A以执行主体是基于注意力机制的语音合成装置101为例,从基于注意力机制的语音合成装置101的单侧进行描述。该方法可以包括以下步骤S301-步骤S303。
步骤S301:根据目标文本确定文本编码矩阵和音频编码矩阵。
具体地,根据目标文本确定文本编码矩阵和音频编码矩阵可以包括通过文本编码器Encoder,根据输入的所述目标文本X=(x1,x2,…xn…,xN-1,xN)确定所述文本编码矩阵P=f(x1,x2,…xn…,xN-1,xN),其中,xn为第n个文本,f(xn)为输入的第n个文本xn通过第一编码变换确定的文本编码;通过音频编码器Encoder,根据输入的所述偏移音频Y=(y1,y2,…yt…,yT-1,yT)确定所述音频编码矩阵Q=g(y1,y2,…yt…,yT-1,yT),其中yt为第n个文字在输入所述偏移音频的时长为t时的音频,g(yt)为输入所述偏移音频的时长为t时的音频yt通过第二编码变换确定的音频编码。可以理解的:文本编码是对输入目标文本X进行编码,将输入文本通过非线性变换转化为中间语义表示P,此过程即为文本编码。
可选的,根据目标文本确定文本编码矩阵和音频编码矩阵之前可以获取目标文本,所述目标文本包括N个字符的文字;获取偏移音频,所述偏移音频包括所述目标文本的时长为T的音频;再根据所述目标文本确定所述文本编码矩阵;根据所述偏移音频确定所述音频编码矩阵。举例来说:获取目标文本可以为接收用户输入的样本文本“平安科技技术有限公司”,对输入的文本进行字序标注,每个句子中的字体位置表示为向量X=(x1,x2,…xn…,xN-1,xN),N为源句子长度,其中xn为文本中第n个字字符的文本。获取偏移音频可以为根据所述目标文本,在语音库中匹配与所述目标文本相对应的音频,确定所述偏移音频。例如:样本文本“平安科技技术有限公司”可以在语音库中分别匹配“平”、“安”、“科”、“技”、“技”、“术”、“有”、“限”、“公”、“司”十个文字的对应音频,并组成偏移音频。其中,所述语音库可以包括文本与该文本发音音频的映射关系获取偏移音频还可以为接收输入的时长为T=5s的偏移音频“平安科技技术有限公司”的偏移音频。其中,可以为每个目标文本中的句子的发音表示为向量Y=(y1,y2,…yt…,yT-1,yT),T为目标字体的发音的时间长,其中yt为句子中第n个字的发音的时间帧t时的音频。可以理解的是,获取目标文本,所述目标文本包括N个字符的文字;获取偏移音频,所述偏移音频包括所述目标文本的时长为T的音频;根据所述目标文本确定所述文本编码矩阵;根据所述偏移音频确定所述音频编码矩阵,四个步骤的先后顺序并不做具体限定。举例来说:可以首先获取目标文本,根据所述目标文本确定所述文本编码矩阵后,再获取偏移音频,最后根据所述偏移音频确定所述音频编码矩阵。
步骤S302:根据文本编码矩阵和音频编码矩阵,通过函数L(A)确定音频解码矩阵。
具体地,对于音频解码矩阵来说可以利用解码器Decoder获得,即对于解码器Decoder来说,其任务是根据文本编码矩阵获得的文本X的中间语义表示P和音频编码矩阵获得的音频表示Q=g(y1,y2,…yt…,yT-1,yT)来生成t时刻要生成的音频yt,即所述音频解码矩阵。所述音频解码矩阵S=(s1,s2,…sn…,sN-1,sN),其中sn=h(L(A),y1,y2,…yt-1),其中h为第一解码变换函数。请参见图3,图3B是本申请实施例提供的基于一种改进的基于注意力机制的语音合成技术方法框架示意图,包括:文本编码模块、音频编码模块、注意力矩阵模块、音频解码模块和短时傅里叶频谱模块。其中,目标文本和偏移音频分别从文本编码模块和音频编码模块输入,获得对应的文本解码矩阵和音频解码矩阵,将所述音频解码矩阵与文本解码矩阵经注意力强制对齐后与所述文本解码矩阵输入音频解码模块中,得到与所述目标文本对应的目标音频。可以理解的,Encoder-Decoder是个非常通用的计算框架,至于Encoder和Decoder具体使用什么模型函数即都不做限定,举例来说:卷积神经网络CNN/循环神经网络RNN/双向长短时记忆循环神经网络BiRNN/门控循环单元GRU/长短期记忆网络LSTM等等,都可以做Encoder和Decoder的模型函数。
可选的,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定,n大于0且小于或等于目标文本字符数,t大于0且小于或等于目标文本总发音的时间点。预设函数L(A)可以为举例来说:函数L(A)应用于图3B所述注意力机制模块中的注意力机制矩阵A,A∈RN×T,其意义为评估第n次字符和T时间的对应关系,即第n个字符第1和第t个时间帧S1:F,t是相关的,其中Ant可以为意味着注意力机制模块在时间t处查看第n个字符,它将在随后的时间t+1处查看第n个字符或第n+1个字符或它们周围的字符,其中d为与文本长度相关的预设参数。即L(A)可以通过注意力机制,使用LSTM标准函数归一化指数函数(Softmax函数)去获得在训练过程中第n个字符声音特征的权重,然后进行求和后归一化,。
可选的,其中,为所述目标文本的对齐强度,θ为对齐强度阈值,N是所述目标文本的N个文字的字符总字符数,n是在N个文字中第n个字的字符数,T是所述目标文本的第N个文字发音时所在的时间点,t是第n个文字发音时所在的时间点。Wnt与所述目标文本对齐强度有关的分段函数,若目标文本的对齐强度小于对齐强度阈值,则Wnt随目标文本的增大而减小。
步骤S303:根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。
具体地,根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频具体为:根据音频解码矩阵确定梅尔倒谱系数,并将梅尔倒谱系数,进行短时傅里叶变换,再根据短时傅里叶频谱,确定目标音频。在声音处理领域中,梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示,可以在多个领域中使声音信号有更好的表示。举例来说,所述确定对应的梅尔倒谱系数,可以为先对音频解码矩阵的语音进行预加重、分帧和加窗;对每一个短时分析窗,可以通过离散傅氏变换的快速算法(Fast Fourier Transformation,FFT)得到对应的频谱;将上述频谱通过梅尔滤波器组得到梅尔频谱(Mel频谱)。其中,公式表述可以为:log X[k]=log(Mel-Spectrum)。因此我们可以在log X[k]上进行倒谱分析:1)取对数:log X[k]=log H[k]+log E[k];2)进行逆变换:x[k]=h[k]+e[k]。在Mel频谱上面获得的倒谱系数h[k]就称为梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)。根据梅尔倒谱系数确定目标音频,可以包括将梅尔倒谱系数转换为短时傅里叶频谱,可以得到一个随着时间变化的频谱图,所述频谱图这个就是描述语音信号的spectrogram声谱图,声谱图中可以表示目标音频。可以理解的是,本发明实施例对根据梅尔倒谱系数确定目标音频的方式不做具体限定。
实施本申请实施例,可以根据目标文本的文本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后,进一步的根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。其中,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;进一步的目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定。因此,在目标文本的对齐强度小于对齐强度阈值时,Wnt呈线性变化不仅可以大大降低原注意力机制中的算法难度,而且可以保证将明显位置偏离的文本和语音信号进行强制对齐,有助于更快地使得注意力机制矩阵达到近似对齐的目的,从而使得语音合成更加有条理。
参考附图4,图4是本申请实施例提供的另一种基于注意力机制的语音合成方法流程的示意图。可应用于上述图1中的系统,下面将结合图4从基于注意力机制的语音合成装置101的单侧进行描述。该方法可以包括以下步骤S401-步骤S403。
步骤S401:根据样本文本和样本语音做函数L(A)模型训练,确定函数L(A)的对齐强度阈值θ。
具体地,按预设间隔设置θ从0到1进行自动变化;对每次变化后的θ,根据样本文本和样本语音做所述函数L(A)训练;确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下,所述语音合成所费时间最短的θ为对齐强度阈值θ。举例来说,本申请实施例可应用于基于导向性注意力机制的语音合成的场景中,在语音合成建模过程中,文字和音频信号片段的位置有着大致的关联性。因此,当一个人说一句话的时候,文字所处的位置n与所在的时间点t有着近似的线性关系,即n~at,其中,a~N/T。进一步的将这样一个先验知识纳入到语音合成的注意力机制中。还可以先确定θ使字体位置和语音时间的对应强度较强的阈值范围,再按照预设间隔在其阈值范围进行自动变化,对每次变化后的θ,根据样本文本和样本语音做所述函数L(A)训练,所获得的训练后的θ可以更好地使字体位置和语音时间的对应强度越强。可以理解的是,本申请实施例对确定函数L(A)的对齐强度阈值θ的方法,不做具体限定。可选的,θ为线性可调节的对齐强度阈值,用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度,且θ的取值范围为θ∈(0,1)。当当阈值θ越接近零时,说明其获得的字体位置和语音时间的对应强度越强,及语音与文字的对应强度越高。
步骤S402:根据目标文本确定文本编码矩阵和音频编码矩阵。
步骤S403:根据文本编码矩阵和音频编码矩阵,通过函数L(A)确定音频解码矩阵。
步骤S404:根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。
具体地,上述对步骤S402-步骤S404的相关描述可以对应参照图3的步骤S301-步骤S303的相关描述,此处不再赘述。
实施本申请实施例,可以先对函数L(A)的模型做样本训练,再根据目标文本的文本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后,进一步的根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。其中,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;进一步的目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定。通过训练阈值θ的大小,确定在当阈值θ越接近零,目标文本的对齐强度越接近于阈值θ的时候,证明其字体位置和语音时间的对应强度越强,及语音与文字的对应强度越高。所以通过改进的注意力机制模型的语音合成技术,可以在保证将明显位置偏离的文本和语音信号进行强制对齐的性质的同时,降低算法的难度,大大减少了语音合成的时间。因此,在目标文本的对齐强度小于对齐强度阈值时,Wnt呈线性变化不仅可以大大降低原注意力机制中的算法难度,而且可以保证将明显位置偏离的文本和语音信号进行强制对齐,有助于更快地使得注意力机制矩阵达到近似对齐的目的,从而使得语音合成更加有条理。
总的来说,本申请可以根据目标文本的文本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后,进一步的根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。而注意力机制损失函数L(A)随在目标文本的对齐强度的变化而变化,当对齐强度阈值时,因Wnt呈线性变化,通过调整损失函数Wnt的计算方式,使得注意力机制矩阵的损失函数,具有线性可调节的θ阈值,使得损失函数变为线性,此时不仅可以大大降低原注意力机制中的算法难度,可以在不需要常需要大量的样本数据和训练时间的情况下,保证将明显位置偏离的文本和语音信号进行强制对齐。
上述详细阐述了本申请实施例的方法,下面提供了与本申请实施例的相关基于注意力机制的语音合成装置,基于注意力机制的语音合成装置可以是一种通过快速获取、处理、分析和提取有价值的数据,以交互数据为基础,为第三方使用带来各种便利的服务设备。请参考附图5,图5是本申请实施例提供的一种基于注意力机制的语音合成装置的结构示意图。可以包括第一确定单元501、第二确定单元502、第三确定单元503,还可以包括第四确定单元504。
第一确定单元501,用于根据目标文本确定文本编码矩阵和音频编码矩阵;
第二确定单元502,用于根据文本编码矩阵和音频编码矩阵,通过函数L(A)确定音频解码矩阵,其中,函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定,n大于0且小于或等于目标文本字符数,t大于0且小于或等于目标文本总发音的时间点;
第三确定单元503,用于根据音频解码矩阵确定梅尔倒谱系数,并根据梅尔倒谱系数确定目标音频。
在一种可能实现的方式中,第一确定单元501具体用于:获取目标文本,所述目标文本包括N个字符的文字;获取偏移音频,所述偏移音频包括所述目标文本的时长为T的音频;根据所述目标文本确定所述文本编码矩阵;根据所述偏移音频确定所述音频编码矩阵。
在一种可能实现的方式中,第二确定单元502具体用于:通过文本编码器,根据输入的所述目标文本X=(x1,x2,…xn…,xN-1,xN)确定所述文本编码矩阵P=f(x1,x2,…xn…,xN-1,xN),其中,xn为第n个文本,f(xn)为输入的第n个文本xn通过第一编码变换确定的文本编码;通过音频编码器,根据输入的所述偏移音频Y=(y1,y2,…yt…,yT-1,yT)确定所述音频编码矩阵Q=g(y1,y2,…yt…,yT-1,yT),其中yt为第n个文字在输入所述偏移音频的时长为t时的音频,g(yt)为输入所述偏移音频的时长为t时的音频yt通过第二编码变换确定的音频编码;所述音频解码矩阵包括:所述音频解码矩阵S=(s1,s2,…sn…,sN-1,sN),其中sn=h(L(A),y1,y2,…yt-1),其中h为第一解码变换函数。
在一种可能实现的方式中,其中,为所述目标文本的对齐强度,θ为对齐强度阈值,N是所述目标文本的N个文字的字符总字符数,n是在N个文字中第n个字的字符数,T是所述目标文本的第N个文字发音时所在的时间点,t是第n个文字发音时所在的时间点。
在一种可能实现的方式中,θ为线性可调节的对齐强度阈值,用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度,且θ的取值范围为θ∈(0,1)。
在一种可能实现的方式中,所述装置还包括第四确定单元504,用于在根据所述文本编码矩阵和所述音频编码矩阵,通过函数L(A)确定音频解码矩阵之前,根据样本文本和样本语音做所述函数L(A)模型训练,确定所述函数L(A)的对齐强度阈值θ。
在一种可能实现的方式中,所述第四确定单元504具体用于:按预设间隔设置θ从0到1进行自动变化;对每次变化后的θ,根据样本文本和样本语音做所述函数L(A)训练;确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下,所述语音合成所费时间最短的θ为对齐强度阈值θ。
请参考附图6,图6是本申请实施例提供的一种简化的基于注意力机制的语音合成装置的实体装置结构示意图,便于理解和图示方便,图6装置60中,可以包括以下一个或多个组件:存储组件601,处理组件602,通信组件603。
存储组件601可以包括一个或多个存储单元,每个单元可以包括一个或多个存储器,存储组件可用于存储程序和各种数据,并能在装置60运行过程中高速、自动地完成程序或数据的存取。可以采用具有两种稳定状态的物理器件来存储信息,所述两种稳定状态分别表示为“0”和“1”。当图6所示的装置60,为图1所述基于注意力机制的语音合成装置时,存储组件可以用来存储目标文本、目标音频以及其他相关数据等。
处理组件602,处理组件也可以称为处理器,处理单元,处理单板,处理模块、处理装置等。处理组件可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。当图6所示的装置60,为图1所述基于注意力机制的语音合成装置时,所述处理组件603用于调用所述存储组件601的数据执行上述图3A至图4所述方法的相关描述,此处不再赘述。
通信组件603,也可以称为收发机,或收发器等,其中可以包括用来进行无线、有线或其他通信方式的单元。可选的,可以将603部分中用于实现接收功能的器件视为接收单元,将用于实现发送功能的器件视为发送单元,即603部分可以接收目标文本或发送目标音频。
需要说明的是,各个操作的具体实现还可以对应参照图3A、图4所示的方法实施例的相应描述,此处不再赘述。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任意一种的部分或全部步骤。
本发明实施例还提供一种计算机程序,该计算机程序包括指令,当该计算机程序被计算机执行时,使得计算机可以执行任意一种基于注意力机制的语音合成方法的部分或全部步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如数字多功能光盘(digital versatile disc,DVD)、半导体介质(例如固态硬盘solid state disk,SSD)等。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在,也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述,然而,在实施例所要求保护的本申请过程中,本领域技术人员可理解并实现公开实施例的其他变化。
Claims (10)
1.一种基于注意力机制的语音合成方法,其特征在于,包括:
根据目标文本确定文本编码矩阵和音频编码矩阵;
根据所述文本编码矩阵和所述音频编码矩阵,通过函数L(A)确定音频解码矩阵,其中,所述函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若所述目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;所述目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定;
根据所述音频解码矩阵确定梅尔倒谱系数,并根据所述梅尔倒谱系数确定目标音频。
2.根据权利要求1所述方法,其特征在于,所述根据目标文本确定文本编码矩阵和音频编码矩阵包括:
获取目标文本,所述目标文本包括N个字符的文字;
获取偏移音频,所述偏移音频包括所述目标文本的时长为T的音频;
根据所述目标文本确定所述文本编码矩阵;
根据所述偏移音频确定所述音频编码矩阵。
3.根据权利要求2所述方法,其特征在于,所述根据所述目标文本确定所述文本编码矩阵,根据所述偏移音频确定所述音频编码矩阵,包括:
通过文本编码器,根据输入的所述目标文本X=(x1,x2,…xn…,xN-1,xN)确定所述文本编码矩阵P=f(x1,x2,…xn…,xN-1,xN),其中,xn为第n个文本,f(xn)为输入的第n个文本xn通过第一编码变换确定的文本编码;
通过音频编码器,根据输入的所述偏移音频Y=(y1,y2,…yt…,yT-1,yT)确定所述音频编码矩阵Q=g(y1,y2,…yt…,yT-1,yT),其中yt为第n个文字在输入所述偏移音频的时长为t时的音频,g(yt)为输入所述偏移音频的时长为t时的音频yt通过第二编码变换确定的音频编码;
所述音频解码矩阵包括:所述音频解码矩阵S=(s1,s2,…sn…,sN-1,sN),其中sn=h(L(A),y1,y2,…yt-1),其中h为第一解码变换函数。
4.根据权利要求1所述方法,其特征在于,对齐强度阈值θ为线性可调节,用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度,且θ的取值范围为θ∈(0,1)。
5.根据权利要求1所述方法,其特征在于,所述根据所述文本编码矩阵和所述音频编码矩阵,通过函数L(A)确定音频解码矩阵之前,还包括:
根据样本文本和样本语音做所述函数L(A)模型训练,确定所述函数L(A)的对齐强度阈值θ。
6.根据权利要求1-5任一项所述方法,其特征在于,
所述其中,为所述目标文本的对齐强度,θ为对齐强度阈值,N是所述目标文本的N个文字的字符总字符数,n是在N个文字中第n个字的字符数,T是所述目标文本的第N个文字发音时所在的时间点,t是第n个文字发音时所在的时间点。
7.根据权利要求5所述方法,其特征在于,所述根据样本文本和样本语音做所述函数L(A)模型训练,确定所述函数L(A)的对齐强度阈值θ包括:
按预设间隔设置θ从0到1进行自动变化;
对每次变化后的θ,根据样本文本和样本语音做所述函数L(A)训练;
确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下,所述语音合成所费时间最短的θ为对齐强度阈值θ。
8.一种基于注意力机制的语音合成装置,其特征在于,包括:
第一确定单元,用于根据目标文本确定文本编码矩阵和音频编码矩阵;
第二确定单元,用于根据所述文本编码矩阵和所述音频编码矩阵,通过函数L(A)确定音频解码矩阵,其中,所述函数L(A)为根据Ant以及Wnt确定的注意力机制损失函数,其中,Ant用于对所述文本编码矩阵进行转换,若所述目标文本的对齐强度小于对齐强度阈值,则Wnt呈线性变化;所述目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定;
第三确定单元,用于根据所述音频解码矩阵确定梅尔倒谱系数,并根据所述梅尔倒谱系数确定目标音频。
9.一种基于注意力机制的语音合成装置,其特征在于,包括处理组件、存储组件和通信模组件,处理组件、存储组件和通信组件相互连接,其中,存储组件用于存储数据处理代码,通信组件用于与外部设备进行信息交互;处理组件被配置用于调用程序代码,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910149065.5A CN109767752B (zh) | 2019-02-27 | 2019-02-27 | 一种基于注意力机制的语音合成方法及装置 |
PCT/CN2019/117785 WO2020173134A1 (zh) | 2019-02-27 | 2019-11-13 | 一种基于注意力机制的语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910149065.5A CN109767752B (zh) | 2019-02-27 | 2019-02-27 | 一种基于注意力机制的语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109767752A true CN109767752A (zh) | 2019-05-17 |
CN109767752B CN109767752B (zh) | 2023-05-26 |
Family
ID=66457333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910149065.5A Active CN109767752B (zh) | 2019-02-27 | 2019-02-27 | 一种基于注意力机制的语音合成方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109767752B (zh) |
WO (1) | WO2020173134A1 (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264991A (zh) * | 2019-05-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 |
CN110264987A (zh) * | 2019-06-18 | 2019-09-20 | 王子豪 | 基于深度学习的和弦进行生成方法 |
CN110808027A (zh) * | 2019-11-05 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置以及新闻播报方法、系统 |
CN111133506A (zh) * | 2019-12-23 | 2020-05-08 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN111259188A (zh) * | 2020-01-19 | 2020-06-09 | 成都嗨翻屋科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及系统 |
CN111508466A (zh) * | 2019-09-12 | 2020-08-07 | 马上消费金融股份有限公司 | 一种文本处理方法、装置、设备及计算机可读存储介质 |
CN111524503A (zh) * | 2020-04-15 | 2020-08-11 | 上海明略人工智能(集团)有限公司 | 音频数据的处理方法、装置、音频识别设备和存储介质 |
WO2020173134A1 (zh) * | 2019-02-27 | 2020-09-03 | 平安科技(深圳)有限公司 | 一种基于注意力机制的语音合成方法及装置 |
CN111862934A (zh) * | 2020-07-24 | 2020-10-30 | 苏州思必驰信息科技有限公司 | 语音合成模型的改进方法和语音合成方法及装置 |
CN112133279A (zh) * | 2019-06-06 | 2020-12-25 | Tcl集团股份有限公司 | 车载信息播报方法、装置及终端设备 |
CN112466272A (zh) * | 2020-10-23 | 2021-03-09 | 浙江同花顺智能科技有限公司 | 一种语音合成模型的评价方法、装置、设备及存储介质 |
CN112837673A (zh) * | 2020-12-31 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的语音合成方法、装置、计算机设备和介质 |
CN112908294A (zh) * | 2021-01-14 | 2021-06-04 | 杭州倒映有声科技有限公司 | 一种语音合成方法以及语音合成系统 |
CN113299268A (zh) * | 2021-07-28 | 2021-08-24 | 成都启英泰伦科技有限公司 | 一种基于流生成模型的语音合成方法 |
CN113314096A (zh) * | 2020-02-25 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
CN113345413A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于音频特征提取的语音合成方法、装置、设备及介质 |
US11183201B2 (en) * | 2019-06-10 | 2021-11-23 | John Alexander Angland | System and method for transferring a voice from one body of recordings to other recordings |
CN113707127A (zh) * | 2021-08-30 | 2021-11-26 | 中国科学院声学研究所 | 一种基于线性自注意力的语音合成方法及系统 |
CN115691476A (zh) * | 2022-06-06 | 2023-02-03 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
US11798527B2 (en) | 2020-08-19 | 2023-10-24 | Zhejiang Tonghu Ashun Intelligent Technology Co., Ltd. | Systems and methods for synthesizing speech |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257407B (zh) * | 2020-10-20 | 2024-05-14 | 网易(杭州)网络有限公司 | 音频中的文本对齐方法、装置、电子设备及可读存储介质 |
CN113112987B (zh) * | 2021-04-14 | 2024-05-03 | 北京地平线信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
CN113539232B (zh) * | 2021-07-10 | 2024-05-14 | 东南大学 | 一种基于慕课语音数据集的语音合成方法 |
CN115410550B (zh) * | 2022-06-02 | 2024-03-26 | 北京听见科技有限公司 | 一种细粒度韵律可控的情感语音合成方法、系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006053805A (ja) * | 2004-08-13 | 2006-02-23 | Kyocera Corp | 携帯端末装置及び音声信号の出力方法 |
CN101266789A (zh) * | 2007-03-14 | 2008-09-17 | 佳能株式会社 | 语音合成设备及方法 |
CN101651788A (zh) * | 2008-12-26 | 2010-02-17 | 中国科学院声学研究所 | 一种在线语音文本对齐系统及方法 |
JP2018036527A (ja) * | 2016-08-31 | 2018-03-08 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
CN107943405A (zh) * | 2016-10-13 | 2018-04-20 | 广州市动景计算机科技有限公司 | 语音播报装置、方法、浏览器及用户终端 |
CN109036371A (zh) * | 2018-07-19 | 2018-12-18 | 北京光年无限科技有限公司 | 用于语音合成的音频数据生成方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330713A1 (en) * | 2017-05-14 | 2018-11-15 | International Business Machines Corporation | Text-to-Speech Synthesis with Dynamically-Created Virtual Voices |
CN109767752B (zh) * | 2019-02-27 | 2023-05-26 | 平安科技(深圳)有限公司 | 一种基于注意力机制的语音合成方法及装置 |
-
2019
- 2019-02-27 CN CN201910149065.5A patent/CN109767752B/zh active Active
- 2019-11-13 WO PCT/CN2019/117785 patent/WO2020173134A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006053805A (ja) * | 2004-08-13 | 2006-02-23 | Kyocera Corp | 携帯端末装置及び音声信号の出力方法 |
CN101266789A (zh) * | 2007-03-14 | 2008-09-17 | 佳能株式会社 | 语音合成设备及方法 |
CN101651788A (zh) * | 2008-12-26 | 2010-02-17 | 中国科学院声学研究所 | 一种在线语音文本对齐系统及方法 |
JP2018036527A (ja) * | 2016-08-31 | 2018-03-08 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
CN107943405A (zh) * | 2016-10-13 | 2018-04-20 | 广州市动景计算机科技有限公司 | 语音播报装置、方法、浏览器及用户终端 |
CN109036371A (zh) * | 2018-07-19 | 2018-12-18 | 北京光年无限科技有限公司 | 用于语音合成的音频数据生成方法及系统 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173134A1 (zh) * | 2019-02-27 | 2020-09-03 | 平安科技(深圳)有限公司 | 一种基于注意力机制的语音合成方法及装置 |
CN110264991B (zh) * | 2019-05-20 | 2023-12-22 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 |
CN110264991A (zh) * | 2019-05-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 |
CN112133279A (zh) * | 2019-06-06 | 2020-12-25 | Tcl集团股份有限公司 | 车载信息播报方法、装置及终端设备 |
US11183201B2 (en) * | 2019-06-10 | 2021-11-23 | John Alexander Angland | System and method for transferring a voice from one body of recordings to other recordings |
CN110264987A (zh) * | 2019-06-18 | 2019-09-20 | 王子豪 | 基于深度学习的和弦进行生成方法 |
CN111508466A (zh) * | 2019-09-12 | 2020-08-07 | 马上消费金融股份有限公司 | 一种文本处理方法、装置、设备及计算机可读存储介质 |
CN110808027A (zh) * | 2019-11-05 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置以及新闻播报方法、系统 |
CN111133506A (zh) * | 2019-12-23 | 2020-05-08 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN111259188B (zh) * | 2020-01-19 | 2023-07-25 | 成都潜在人工智能科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及系统 |
CN111259188A (zh) * | 2020-01-19 | 2020-06-09 | 成都嗨翻屋科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及系统 |
CN113314096A (zh) * | 2020-02-25 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
CN111524503B (zh) * | 2020-04-15 | 2023-01-17 | 上海明略人工智能(集团)有限公司 | 音频数据的处理方法、装置、音频识别设备和存储介质 |
CN111524503A (zh) * | 2020-04-15 | 2020-08-11 | 上海明略人工智能(集团)有限公司 | 音频数据的处理方法、装置、音频识别设备和存储介质 |
CN111862934A (zh) * | 2020-07-24 | 2020-10-30 | 苏州思必驰信息科技有限公司 | 语音合成模型的改进方法和语音合成方法及装置 |
US11798527B2 (en) | 2020-08-19 | 2023-10-24 | Zhejiang Tonghu Ashun Intelligent Technology Co., Ltd. | Systems and methods for synthesizing speech |
CN112466272A (zh) * | 2020-10-23 | 2021-03-09 | 浙江同花顺智能科技有限公司 | 一种语音合成模型的评价方法、装置、设备及存储介质 |
CN112837673A (zh) * | 2020-12-31 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的语音合成方法、装置、计算机设备和介质 |
CN112837673B (zh) * | 2020-12-31 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于人工智能的语音合成方法、装置、计算机设备和介质 |
CN112908294A (zh) * | 2021-01-14 | 2021-06-04 | 杭州倒映有声科技有限公司 | 一种语音合成方法以及语音合成系统 |
CN112908294B (zh) * | 2021-01-14 | 2024-04-05 | 杭州倒映有声科技有限公司 | 一种语音合成方法以及语音合成系统 |
CN113345413A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于音频特征提取的语音合成方法、装置、设备及介质 |
CN113345413B (zh) * | 2021-06-01 | 2023-12-29 | 平安科技(深圳)有限公司 | 基于音频特征提取的语音合成方法、装置、设备及介质 |
CN113299268A (zh) * | 2021-07-28 | 2021-08-24 | 成都启英泰伦科技有限公司 | 一种基于流生成模型的语音合成方法 |
CN113707127A (zh) * | 2021-08-30 | 2021-11-26 | 中国科学院声学研究所 | 一种基于线性自注意力的语音合成方法及系统 |
CN113707127B (zh) * | 2021-08-30 | 2023-12-15 | 中国科学院声学研究所 | 一种基于线性自注意力的语音合成方法及系统 |
CN115691476A (zh) * | 2022-06-06 | 2023-02-03 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
CN115691476B (zh) * | 2022-06-06 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020173134A1 (zh) | 2020-09-03 |
CN109767752B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767752A (zh) | 一种基于注意力机制的语音合成方法及装置 | |
EP3469582B1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
Tirumala et al. | Speaker identification features extraction methods: A systematic review | |
Bozkurt et al. | Formant position based weighted spectral features for emotion recognition | |
CN108900725A (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
Moselhy et al. | LPC and MFCC performance evaluation with artificial neural network for spoken language identification | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
Casale et al. | Multistyle classification of speech under stress using feature subset selection based on genetic algorithms | |
US20210350791A1 (en) | Accent detection method and accent detection device, and non-transitory storage medium | |
Chaudhary et al. | Feature extraction methods for speaker recognition: A review | |
CN113539232B (zh) | 一种基于慕课语音数据集的语音合成方法 | |
Ali et al. | DWT features performance analysis for automatic speech recognition of Urdu | |
CN111292763B (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
CN102436815B (zh) | 一种应用于英语口语网络机考系统的语音识别装置 | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
US20180197535A1 (en) | Systems and Methods for Human Speech Training | |
Sharma et al. | Speech and language recognition using MFCC and DELTA-MFCC | |
Khanna et al. | Application of vector quantization in emotion recognition from human speech | |
Ribeiro et al. | Wavelet-based decomposition of F0 as a secondary task for DNN-based speech synthesis with multi-task learning | |
Mandel et al. | Learning a concatenative resynthesis system for noise suppression | |
Chelali et al. | MFCC and vector quantization for Arabic fricatives speech/speaker recognition | |
Hsu et al. | Dictionary update for NMF-based voice conversion using an encoder-decoder network | |
Anila et al. | Emotion recognition using continuous density HMM | |
Le Maguer et al. | Toward the use of information density based descriptive features in HMM based speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |