CN114187918A - 变声方法、变声系统、电子设备及存储介质 - Google Patents
变声方法、变声系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114187918A CN114187918A CN202111441755.1A CN202111441755A CN114187918A CN 114187918 A CN114187918 A CN 114187918A CN 202111441755 A CN202111441755 A CN 202111441755A CN 114187918 A CN114187918 A CN 114187918A
- Authority
- CN
- China
- Prior art keywords
- features
- speaker
- semantic
- feature block
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001228 spectrum Methods 0.000 claims abstract description 74
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 24
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002715 modification method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种变声方法、变声系统、电子设备及存储介质。其中,变声方法包括:获取原说话人语音信号;根据原说话人语音信号计算得到第一梅尔频谱;确定第一梅尔频谱中的新增帧数等于预设帧数,将新增帧数标识为目标特征块;根据目标特征块的第n时间步,得到第n‑1时间步的关联特征块;其中,关联特征块中的关联帧数等于预设帧数,n为大于或等于1的正整数;根据目标特征块、关联特征块和预设的语义编码器得到语义特征;获取目标说话人语音信号;根据目标说话人语音信号得到说话人特征;对语义特征、说话人特征进行拼接操作,得到第二梅尔频谱;根据第二梅尔频谱得到变声信号。本申请能够实现流式变声,从而在一定程度上降低变声时延。
Description
技术领域
本发明涉及变声技术领域,尤其涉及一种变声方法、变声系统、电子设备及存储介质。
背景技术
变声器,指能够将原说话人的语音信号转换为目标说话人语音信号的设备。
在相关技术中,变声器需要获取原说话人的完整语音信号才能进行变声转换,使得变声转换存在一定的使用延时,从而影响了变声效果。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种变声方法、变声系统、电子设备及存储介质,能够实现流式变声,从而在一定程度上降低变声时延。
根据本发明的第一方面实施例的变声方法,包括:获取原说话人语音信号;根据所述原说话人语音信号计算得到第一梅尔频谱;确定所述第一梅尔频谱中的新增帧数等于预设帧数,将所述新增帧数标识为目标特征块;根据所述目标特征块的第n时间步,得到第n-1时间步的关联特征块;其中,所述关联特征块中的关联帧数等于所述预设帧数,n为大于或等于1的正整数;根据所述目标特征块、所述关联特征块和预设的语义编码器得到语义特征;获取目标说话人语音信号;根据所述目标说话人语音信号得到说话人特征;对所述语义特征、所述说话人特征进行拼接操作,根据拼接操作后的所述语义特征、所述说话人特征和预设的解码器得到第二梅尔频谱;根据所述第二梅尔频谱和预设的声码器得到变声信号。
根据本发明实施例的变声方法,至少具有如下有益效果:根据预设帧数将第一梅尔频谱中的新增帧数标识为目标特征块。根据当前时间步(即第n时间步)对应的目标特征块、“上文”时间步(即第n-1时间步)对应的关联特征块和预设的语义编码器得到语义特征,即本申请实施例提供的变声方法不依赖于“下文”(即第n+1时间步对应的特征块)计算语义特征,因此,本申请实施例能够实现对语义特征的流式计算,避免了需要完整语音片段才能生成语义特征,进而实现了根据语义特征和说话人特征进行流式变声,并在一定程度上降低了变声时延。
根据本发明的一些实施例,所述语义编码器包括第一自注意力单元;所述根据所述目标特征块、所述关联特征块和预设的语义编码器得到语义特征,包括:根据所述目标特征块、所述关联特征块和所述第一自注意力单元得到语义建模单元概率分布;根据所述语义建模单元概率分布得到所述语义特征。
根据本发明的一些实施例,在所述对所述语义特征、所述说话人特征进行拼接操作之前,所述变声方法还包括:对所述语义特征和所述说话人特征进行第一互信息最小化操作;根据所述原说话人语音信号得到基频信号;对所述说话人特征和所述基频信号进行第二互信息最小化操作。
根据本发明的一些实施例,所述变声方法还包括:根据所述第一梅尔频谱和预设的韵律编码器得到韵律特征;对所述韵律特征和所述说话人特征进行第三互信息最小化操作;所述对所述语义特征、所述说话人特征进行拼接操作,根据拼接操作后的所述语义特征、所述说话人特征和预设的解码器生成第二梅尔频谱,包括:对所述语义特征、所述说话人特征、所述韵律特征进行拼接操作,根据拼接操作后的所述语义特征、所述说话人特征、所述韵律特征和所述解码器生成所述第二梅尔频谱。
根据本发明的一些实施例,所述解码器包括第二自注意力单元;所述对所述语义特征、所述说话人特征进行拼接操作,根据拼接操作后的所述语义特征、所述说话人特征和预设的解码器生成第二梅尔频谱,包括:所述第二自注意力单元对所述语义特征、所述说话人特征进行重构损失训练,以生成所述第二梅尔频谱。
根据本发明的第二方面实施例的变声系统,包括:音频采集模块,用于获取原说话人语音信号;变声计算模块,所述变声模块包括转换模块、语义编码器和目标说话人编码器,所述转换模块用于根据所述原说话人语音信号计算得到第一梅尔频谱,所述语义编码器用于确定所述第一梅尔频谱中的新增帧数等于预设帧数,将所述新增帧数标识为目标特征块;根据所述目标特征块的第n时间步,得到第n-1时间步的关联特征块;其中,所述关联特征块中的关联帧数等于所述预设帧数,n为大于或等于1的正整数;根据所述目标特征块、所述关联特征块和预设的语义编码器得到语义特征;所述目标说话人编码器用于根据目标说话人语音信号得到说话人特征;解码器,用于根据拼接操作后的所述语义特征、所述说话人特征生成第二梅尔频谱;声码器,用于根据所述第二梅尔频谱得到变声信号。
根据本发明的一些实施例,所述变声计算模块包括:韵律编码器,用于根据所述第一梅尔频谱得到韵律特征。
根据本发明的一些实施例,所述变声计算模块还包括:解耦单元,用于对所述语义特征和所述说话人特征进行第一互信息最小化操作,对所述说话人特征和基频信号进行第二互信息最小化操作,对所述韵律特征和所述说话人特征进行第三互信息最小化操作。
根据本发明的第三方面实施例的电子设备,其特征在于,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一方面所述的变声方法。
根据本发明的第四方面实施例的计算机可读存储介质,其中存储有处理器可执行指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于实现如第一方面所述的变声方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
下面结合附图和实施例对本发明做进一步的说明,其中:
图1为本发明实施例变声方法的一流程示意图;
图2为本发明实施例目标特征块和关联特征块的一示意图;
图3为本发明实施例变声方法的一流程示意图;
图4为本发明实施例变声方法的一流程示意图;
图5为本发明实施例变声方法的一流程示意图;
图6为本发明实施例变声系统的一示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
参照图1,本申请实施例提供了一种变声方法。该变声方法包括但不限于步骤S110至S190:
S110、获取原说话人语音信号;
S120、根据原说话人语音信号计算得到第一梅尔频谱;
具体地,原说话人表示用户,目标说话人表示该用户期望通过该变声方法得到的音频变声对象。通过音频采集模块对用户的音频信号进行采集,以得到原说话人语音信号。将原说话人语音信号进行声学特征变化,得到第一梅尔频谱。例如,通过离散傅里叶变换将原说话人语音信号转化为频域信号,根据梅尔量表将该频域信号转换为梅尔标度,对该梅尔标度取对数从而得到第一梅尔频谱。
S130、确定第一梅尔频谱中的新增帧数等于预设帧数,将新增帧数标识为目标特征块;
S140、根据目标特征块的第n时间步,得到第n-1时间步的关联特征块;其中,关联特征块中的关联帧数等于预设帧数,n为大于或等于1的正整数;
具体地,为了实现对原说话人语音信号的流式转换,设置单次推理预设帧数。当第一梅尔频谱中的新增帧数等于预设帧数时,将新增帧数对应的梅尔频谱特征标识为一个目标特征块,即以预设帧数为单位对第一梅尔频谱进行划分。例如,参照图2,假设预设帧数为两帧,则将第一梅尔频谱中的每新增的两帧信号标识为一个目标特征块。其中,一个目标特征块对应于一个时间步。因此,在第一时间步时,目标特征块包括第一帧信号和第二帧信号对应的梅尔频谱特征,此时关联特征块为“空”;在第二时间步时,目标特征块包括第三帧信号和第四帧信号对应的梅尔频谱特征,此时关联特征块包括第一帧信号和第二帧信号对应的梅尔频谱特征;在第三时间步时,目标特征块包括第五帧信号和第六帧信号对应的梅尔频谱特征,此时关联特征块包括第三帧信号和第四帧信号对应的梅尔频谱特征;在第四时间步时,目标特征块包括第七帧信号和第八帧信号对应的梅尔频谱特征,此时关联特征块包括第五帧信号和第六帧信号对应的梅尔频谱特征。可以理解的是,预设帧数的具体取值可以根据语义特征的准确性进行适应性调整,本申请实施例不作具体限定。
S150、根据目标特征块、关联特征块和预设的语义编码器得到语义特征;
具体地,将目标特征块和关联特征块作为预设语义编码器的输入信号,得到语义特征。即语义特征的获取不依赖于“下文”,只根据当前时间步对应的目标特征块和相邻“上文”(即关联特征块)求取得到,以实现对原说话人语音信号进行流式语义特征编码。可以理解的是,当将第一时间步对应的目标特征块(即第一帧信号和第二帧信号对应的梅尔频谱特征)作为语义编码器的输入信号,即n的取值为1时,“上文”内容为空,此时第一时间步对应的语义特征只需根据第一帧信号和第二帧信号对应的梅尔频谱特征求取。
S160、获取目标说话人语音信号;
S170、根据目标说话人语音信号得到说话人特征;
具体地,设置变声对象数据库,该变声对象数据库中存储有多个候选说话人语音信号,根据用户的变声选择,从多个候选说话人语音信号中得到目标说话人语音信号。对该目标说话人语音信号进行编码,以得到说话人特征。
S180、对语义特征、说话人特征进行拼接操作,根据拼接操作后的语义特征、说话人特征和预设的解码器生成第二梅尔频谱;
S190、根据第二梅尔频谱和预设的声码器得到变声信号。
具体地,将根据上述步骤得到的语义特征和说话人特征进行拼接操作,解码器根据拼接操作后的语义特征和说话人特征得到第二梅尔频谱。而后,声码器将该第二梅尔频谱转换为对应的变声信号,从而实现将原说话人语音信号变声为以目标说话人为对象的变声信号。
本申请实施例提供的变声方法根据预设帧数将第一梅尔频谱中的新增帧数标识为目标特征块。根据当前时间步(即第n时间步)对应的目标特征块、“上文”时间步(即第n-1时间步)对应的关联特征块和预设的语义编码器得到语义特征,即本申请实施例提供的变声方法不依赖于“下文”(即第n+1时间步对应的特征块)计算语义特征,因此,本申请实施例能够实现对语义特征的流式计算,避免了需要完整语音片段才能生成语义特征,进而实现了根据语义特征和说话人特征进行流式变声,并在一定程度上降低了变声时延。
参照图3,在一些实施例中,语义编码器包括第一自注意力单元。步骤S150包括但不限于子步骤S310至S320:
S310、根据目标特征块、关联特征块和第一自注意力单元得到语义建模单元概率分布;
S320、根据语义建模单元概率分布得到语义特征。
具体地,将目标特征块和关联特征块作为第一自注意力单元的输入信号,根据注意力机制进行特征变换后,得到语义建模单元概率分布,将该语义建模单元概率分布作为语义特征。例如,以第二时间步为例,目标特征块包括第三帧信号和第四帧信号对应的梅尔频谱特征,关联特征块包括第一帧信号和第二帧信号对应的梅尔频谱特征。第一自注意力单元根据softmax对第一帧信号至第四帧信号进行音素分类,并得到每一帧信号的音素概率,根据第三帧信号和第四帧信号对应的音素概率得到第二时间步的语义建模单元概率分布,即得到第二时间步的语义特征。可以理解的是,语义建模单元概率分布的计算方法还可以根据实际需要进行适应性调整,本申请实施例不作具体限定。
参照图4,在一些实施例中,在步骤S180之前,变声方法还包括步骤:
S410、对语义特征和说话人特征进行第一互信息最小化操作;
S420、根据原说话人语音信号得到基频信号;
S430、对说话人特征和基频信号进行第二互信息最小化操作。
具体地,利用基频提取器从原说话人特征中提取基频特征,分别将语义特征与说话人特征进行充分解耦(即进行第一互信息最小化操作)、将说话人特征与基频特征进行充分解耦(即进行第二互信息最小化操作),以在更换变声对象,即重新从多个候选说话人语音信号中得到新的目标说话人语音信号时,不需要对对应的解码器进行调整训练,从而提高了变声方法的适应性。
可以理解的是,语义编码器可使用有标注的数据集进行训练,并利用CTC损失函数,使得该语义编码器能够抽取对应目标特征块中的表意特征,滤除目标特征块中的副语言特征(如韵律特征等)。其中,第一自注意力单元根据该表意特征生成语义建模单元概率分布。
可以理解的是,在对语义编码器进行训练时,可将语义编码器的参数冻结,以提取出准确的语义特征,使得后续能够充分进行第一互信息最小化操作,并在一定程度上降低训练时间。
参照图5,在一些实施例中,变声方法还包括步骤:
S510、根据第一梅尔频谱和预设的韵律编码器得到韵律特征;
S520、对韵律特征和说话人特征进行第三互信息最小化操作。
步骤S180包括子步骤:
对语义特征、说话人特征、韵律特征进行拼接操作,根据拼接操作后的语义特征、说话人特征、韵律特征和解码器生成第二梅尔频谱。
具体地,为了提高变声信号的自然度,还可以通过韵律编码器对第一梅尔频谱中的基频、语音单元的长度、停顿、能量等韵律信息进行编码,以得到韵律特征。将韵律特征与说话人特征进行充分解耦,即进行第三互信息最小化操作,解码器根据充分解耦且拼接后的语义特征、说话人特征和韵律特征得到第二梅尔频谱,使得变声器能够根据该第二梅尔频谱得到自然度高,且流式变声的变声信号,即本申请实施例提供的变声方法能够实现保留原说话人语音信号中的语义特征和韵律特征,但说话人音色和风格变换为变声对象(即目标说话人)的功能。
可以理解的是,韵律编码器可采用VAE算法进行韵律信息编码,韵律信息包括可显示信息和无法显示信息。对于基频、能量等可显示信息可直接计算编码;对于语音单元的长度、停顿等无法显示信息,需控制神经网络关键层维度,使韵律编码器只保留关键信息,从而实现对该无法显示信息进行提取并编码。
在一些实施例中,步骤S180包括子步骤:
第二自注意力单元对语义特征、说话人特征进行重构损失训练,以生成第二梅尔频谱;
具体地,解码器包括第二自注意力单元,第二自注意力单元根据自注意力机制对语义特征、说话人特征的拼接特征进行重构损失训练,即进行特征变换,以得到第二梅尔频谱,使得声码器能够根据该第二梅尔频谱生成对应的变声信号。可以理解的是,当对第一梅尔频谱提取的特征包括韵律特征时,第二自注意力单元根据语义特征、说话人特征和韵律特征生成对应的第二梅尔频谱,即第二自注意力单元对语义特征、说话人特征和韵律特征进行重构损失训练,从而得到对应的第二梅尔频谱,此时声码器能够根据该第二梅尔频谱生成自然度高的变声信号。
参照图6,本申请实施例还提供了一种变声系统。该变声系统包括:
音频采集模块100,用于获取原说话人语音信号;
变声计算模块200,变声计算模块200包括语义编码器210和目标说话人编码器220和转换模块230,转换模块230用于根据原说话人语音信号计算得到第一梅尔频谱,语义编码器210用于确定第一梅尔频谱中的新增帧数等于预设帧数,将新增帧数标识为目标特征块;根据目标特征块的第n时间步,得到第n-1时间步的关联特征块;其中,关联特征块中的关联帧数等于预设帧数,n为大于或等于1的正整数;根据目标特征块、关联特征块和预设的语义编码器210得到语义特征;目标说话人编码器220用于根据目标说话人语音信号得到说话人特征;
解码器300,用于根据拼接操作后的语义特征、说话人特征生成第二梅尔频谱;
声码器400,用于根据第二梅尔频谱得到变声信号。
其中,变声计算模块200还包括韵律编码器240和解耦单元250。韵律编码器240用于根据第一梅尔频谱得到韵律特征;解耦单元250用于对语义特征和说话人特征进行第一互信息最小化操作,对说话人特征和基频信号进行第二互信息最小化操作,对韵律特征和说话人特征进行第三互信息最小化操作。
可见,上述变声方法实施例中的内容均适用于本变声系统的实施例中,本变声系统实施例所具体实现的功能与上述变声方法实施例相同,并且达到的有益效果与上述变声方法实施例所达到的有益效果也相同。
本申请实施例还提供了一种电子设备,该电子设备包括:至少一个处理器,以及与至少一个处理器通信连接的存储器。其中,存储器存储有指令,指令被至少一个处理器执行,以使至少一个处理器执行该指令时实现如上述任一实施例所描述的变声方法。
本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于:执行上述任一实施例所描述的变声方法。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本申请实施例作了详细说明,但是本申请不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下作出各种变化。此外,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
Claims (10)
1.变声方法,其特征在于,包括:
获取原说话人语音信号;
根据所述原说话人语音信号计算得到第一梅尔频谱;
确定所述第一梅尔频谱中的新增帧数等于预设帧数,将所述新增帧数标识为目标特征块;
根据所述目标特征块的第n时间步,得到第n-1时间步的关联特征块;其中,所述关联特征块中的关联帧数等于所述预设帧数,n为大于或等于1的正整数;
根据所述目标特征块、所述关联特征块和预设的语义编码器得到语义特征;
获取目标说话人语音信号;
根据所述目标说话人语音信号得到说话人特征;
对所述语义特征、所述说话人特征进行拼接操作,根据拼接操作后的所述语义特征、所述说话人特征和预设的解码器生成第二梅尔频谱;
根据所述第二梅尔频谱和预设的声码器得到变声信号。
2.根据权利要求1所述的变声方法,其特征在于,所述语义编码器包括第一自注意力单元;
所述根据所述目标特征块、所述关联特征块和预设的语义编码器得到语义特征,包括:
根据所述目标特征块、所述关联特征块和所述第一自注意力单元得到语义建模单元概率分布;
根据所述语义建模单元概率分布得到所述语义特征。
3.根据权利要求2所述的变声方法,其特征在于,在所述对所述语义特征、所述说话人特征进行拼接操作之前,所述变声方法还包括:
对所述语义特征和所述说话人特征进行第一互信息最小化操作;
根据所述原说话人语音信号得到基频信号;
对所述说话人特征和所述基频信号进行第二互信息最小化操作。
4.根据权利要求3所述的变声方法,其特征在于,所述变声方法还包括:
根据所述第一梅尔频谱和预设的韵律编码器得到韵律特征;
对所述韵律特征和所述说话人特征进行第三互信息最小化操作;
所述对所述语义特征、所述说话人特征进行拼接操作,根据拼接操作后的所述语义特征、所述说话人特征和预设的解码器生成第二梅尔频谱,包括:
对所述语义特征、所述说话人特征、所述韵律特征进行拼接操作,根据拼接操作后的所述语义特征、所述说话人特征、所述韵律特征和所述解码器生成所述第二梅尔频谱。
5.根据权利要求1至3任一项所述的变声方法,其特征在于,所述解码器包括第二自注意力单元;
所述对所述语义特征、所述说话人特征进行拼接操作,根据拼接操作后的所述语义特征、所述说话人特征和预设的解码器生成第二梅尔频谱,包括:
所述第二自注意力单元对所述语义特征、所述说话人特征进行重构损失训练,以生成所述第二梅尔频谱。
6.变声系统,其特征在于,包括:
音频采集模块,用于获取原说话人语音信号;
变声计算模块,所述变声模块包括转换模块、语义编码器和目标说话人编码器,所述转换模块用于根据所述原说话人语音信号计算得到第一梅尔频谱,所述语义编码器用于确定所述第一梅尔频谱中的新增帧数等于预设帧数,将所述新增帧数标识为目标特征块;根据所述目标特征块的第n时间步,得到第n-1时间步的关联特征块;其中,所述关联特征块中的关联帧数等于所述预设帧数,n为大于或等于1的正整数;根据所述目标特征块、所述关联特征块和预设的语义编码器得到语义特征;所述目标说话人编码器用于根据目标说话人语音信号得到说话人特征;
解码器,用于根据拼接操作后的所述语义特征、所述说话人特征生成第二梅尔频谱;
声码器,用于根据所述第二梅尔频谱得到变声信号。
7.根据权利要求6所述的变声系统,其特征在于,所述变声计算模块包括:
韵律编码器,用于根据所述第一梅尔频谱得到韵律特征。
8.根据权利要求7所述的变声系统,其特征在于,所述变声计算模块还包括:
解耦单元,用于对所述语义特征和所述说话人特征进行第一互信息最小化操作,对所述说话人特征和基频信号进行第二互信息最小化操作,对所述韵律特征和所述说话人特征进行第三互信息最小化操作。
9.电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至5中任一项所述的变声方法。
10.计算机可读存储介质,其中存储有处理器可执行指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于实现如权利要求1至5中任一项所述的变声方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111441755.1A CN114187918A (zh) | 2021-11-30 | 2021-11-30 | 变声方法、变声系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111441755.1A CN114187918A (zh) | 2021-11-30 | 2021-11-30 | 变声方法、变声系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114187918A true CN114187918A (zh) | 2022-03-15 |
Family
ID=80541793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111441755.1A Pending CN114187918A (zh) | 2021-11-30 | 2021-11-30 | 变声方法、变声系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187918A (zh) |
-
2021
- 2021-11-30 CN CN202111441755.1A patent/CN114187918A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113470662B (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
US12046226B2 (en) | Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
US20140114663A1 (en) | Guided speaker adaptive speech synthesis system and method and computer program product | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
CN111613215B (zh) | 一种语音识别的方法及其装置 | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN112908294A (zh) | 一种语音合成方法以及语音合成系统 | |
US11170755B2 (en) | Speech synthesis apparatus and method | |
CN110930975A (zh) | 用于输出信息的方法和装置 | |
CN113782042B (zh) | 语音合成方法、声码器的训练方法、装置、设备及介质 | |
CN113129864A (zh) | 语音特征预测方法、装置、设备及可读存储介质 | |
CN113345410B (zh) | 通用语音、目标语音合成模型的训练方法及相关装置 | |
CN117995163A (zh) | 语音编辑方法及装置 | |
CN112185340B (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
CN116486778A (zh) | 音频合成方法、计算机设备及存储介质、程序产品 | |
US11915714B2 (en) | Neural pitch-shifting and time-stretching | |
CN114187918A (zh) | 变声方法、变声系统、电子设备及存储介质 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN113299271B (zh) | 语音合成方法、语音交互方法、装置及设备 | |
KR20120041656A (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
CN112750423B (zh) | 个性化语音合成模型构建方法、装置、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |