CN108766450B - 一种基于谐波冲激分解的语音转换方法 - Google Patents

一种基于谐波冲激分解的语音转换方法 Download PDF

Info

Publication number
CN108766450B
CN108766450B CN201810335633.6A CN201810335633A CN108766450B CN 108766450 B CN108766450 B CN 108766450B CN 201810335633 A CN201810335633 A CN 201810335633A CN 108766450 B CN108766450 B CN 108766450B
Authority
CN
China
Prior art keywords
signal
voice
harmonic
speech
impulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810335633.6A
Other languages
English (en)
Other versions
CN108766450A (zh
Inventor
简志华
张石磊
郭珊
徐剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinma Intelligent Technology (Hangzhou) Co.,Ltd.
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810335633.6A priority Critical patent/CN108766450B/zh
Publication of CN108766450A publication Critical patent/CN108766450A/zh
Application granted granted Critical
Publication of CN108766450B publication Critical patent/CN108766450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提出一种基于谐波冲激分解的语音转换方法,包括如下步骤:S1,将语音信号分解成谐波信号和冲激信号;S2,将所述谐波信号进行语音转换,形成目标谐波信号;S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。本发明采用谐波冲激分解模型对语音信号进行分解,将语音信号分解成谐波信号部分和冲激信号部分,仅对谐波信号部分做频谱分解和稀疏表示,不对冲激信号做任何处理,既能够保证信息的完全性、又可以减少信息的丢失,还有利于提高转换后语音的质量,处理过程简单、方便,推广性强,具有较高的应用前景。

Description

一种基于谐波冲激分解的语音转换方法
技术领域
本发明属于语音转换技术领域,具体涉及一种基于谐波冲激分解的语音转换方法。
背景技术
说话人身份特征是语音信号中所包含的一种非常重要的特征信息。语音转换的处理对象就是语音信号中的身份特征信息,它的目的就是要改变源语音中的身份特征,使得转换后的语音听起来就像是特定的目标说话人的声音一样。语音转换技术具有广泛的应用前景,特别是应用于个性化的语音合成领域。
发明内容
本发明提出一种基于谐波冲激分解的语音转换方法,以提高语音转换后的语音质量,简化语音转换处理过程。
为实现本发明的目的,本发明采用以下技术方案:
一种基于谐波冲激分解的语音转换方法,包括如下步骤:
S1,将语音信号分解成谐波信号和冲激信号;
S2,将所述谐波信号进行语音转换,形成目标谐波信号;
S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。
进一步地,步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:
S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列
X,X表示成语音信号的语谱图;
S12,计算水平方向的幅度谱
Figure BDA0001629172540000011
和垂直方向的幅度谱
Figure BDA0001629172540000012
分别为:
Figure BDA0001629172540000021
Figure BDA0001629172540000022
其中m表示语谱图的时间点,k表示语谱图的频点;wh用来描述水平方向中值滤波器的长度;wp用来描述垂直方向中值滤波器的长度;median(·)表示中值滤波函数。
S13,对语音信号的语谱图X进行标记,得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp,即:
Figure BDA0001629172540000023
Figure BDA0001629172540000024
S14,计算所述语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:
Xh(m,k)=X(m,k)·Mh(m,k)
Xp(m,k)=X(m,k)·Mp(m,k)
进一步地,所述方法整体包括训练阶段和转换阶段,
在所述训练阶段,所述语音信号包括源语音信号和样本语音信号,所述步骤S1中,对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息;
在所述转换阶段,所述语音信号为源语音信号,所述步骤S1中,对所述源语音信号进行激光冲激分解。
进一步地,步骤S2中,将谐波信号进行语音转换形成目标谐波信号,是指对所述谐波信号频谱进行转换形成目标谐波信号频谱,具体为:
S21,根据所述时间对齐信息,随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B,并存储,之后结束所述训练阶段;
S22,在所述转换阶段,对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示;即
Xh(m,k)=AH
激励矩阵H∈RN×M,其中,N表示基矢量的个数,M表示语音信号的帧数,激励矩阵H由激励矢量h迭代求解,
Figure BDA0001629172540000031
其中,A是源语音字典,x∈RK×1表示一帧语音信号的幅度谱,K表示一帧幅度谱的维数,Ι表示K维的数值全为1的矢量,λ表示K维的惩罚因子矢量,T表示矩阵转置运算符,.×表示矩阵对应点之间相乘运算符;
S23,在所述转换阶段,利用源语音信号的激励矩阵H和样本语音信号的谐波信号样本字典B对源语音的谐波信号频谱进行转换,转换后的目标谐波信号频谱表示为
Figure BDA0001629172540000032
进一步地,步骤S3中,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号的具体步骤为:将转换后的目标谐波信号频谱
Figure BDA0001629172540000033
和未经过处理的源语音冲激信号部分进行叠加,得到转换后的目标语音频谱。
本发明与现有技术相比,有益效果是:
采用谐波冲激分解模型对语音信号进行分解,将语音信号分解成谐波信号部分和冲激信号部分,仅对谐波信号部分做频谱分解和稀疏表示,不对冲激信号做任何处理,既能够保证信息的完全性、又可以减少信息的丢失,还有利于提高转换后语音的质量,处理过程简单、方便,推广性强,具有较高的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于谐波冲激分解的语音转换原理框图;
图2是本发明的基于谐波冲激分解的语音转换整体框图;
具体实施方式
为了使本领域技术人员更好地理解本发明的技术方案,下面将结合附图以及具体的实施方式,对本发明进行详细地介绍说明。
如图1所示,本发明所述基于谐波冲激分解的语音转换方法,包括如下步骤:
S1,将语音信号分解成谐波信号和冲激信号;
S2,将所述谐波信号进行语音转换,形成目标谐波信号;
S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。
谐波信号是语音中具有固定基频的结构化的信号部分,而冲激信号是没有固定基频的信号部分。由于语音信号中说话人身份信息主要来自于说话人的声道特性和基频信号,而声道的共振特性是一个非常重要的因素,它和基频信号共同对语音信号中的谐波结构具有重要的影响。因此,谐波信号部分基本上包含了全部的说话人身份信息。而冲激信号部分具有散状的、不规律的频谱结构,含有语音频谱的细节成分,对于提高语音信号的质量很有作用。根据这一原理,在进行语音转换时,只对语音信号中的谐波部分进行转换,而保持冲激部分不变,有利于提高转换后的语音质量。
在进行语音转换时,尽可能分离出语音信号中的包含说话人身份信息的信号部分,而对未含有身份信息的语音部分不进行处理,这样就减少了不必要的信息处理过程,根据信息论的数据处理定理,可以减少信息的丢失,有利于提高转换后语音的质量。语音信号的谐波冲激分解是通过中值滤波实现的,中值滤波能够有效地分离出沿时间轴方向分布的谐波部分和沿频率轴方向分布的冲激部分。
根据上述思想,步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:
S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列X,X表示成语音信号的语谱图;
S12,在幅度谱水平方向(时间方向)和垂直方向(频率方向)分别进行中值滤波,得到水平方向的幅度谱
Figure BDA0001629172540000041
和垂直方向的幅度谱
Figure BDA0001629172540000042
分别为:
Figure BDA0001629172540000043
Figure BDA0001629172540000044
其中m表示语谱图的时间点,k表示语谱图的频点。wh是用来描述水平方向中值滤波器的长度,即水平方向中值滤波器的长度2wh+1;而wp是用来描述垂直方向中值滤波器的长度,即垂直方向中值滤波器的长度为2wp+1。median(·)是表示中值滤波函数。
S13,对于时频分布上任何一点的值,如果
Figure BDA0001629172540000051
则该频点判决为谐波信号成分,反之就是冲激信号成分。根据这个原则分别对语音信号的语谱图X进行标记,得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp,即:
Figure BDA0001629172540000052
Figure BDA0001629172540000053
S14,将谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp分别与源语音信号或目标语音信号的语谱图X进行点乘,即矩阵的对应点相乘,得到语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:
Xh(m,k)=X(m,k)·Mh(m,k) (5)
Xp(m,k)=X(m,k)·Mp(m,k) (6)
如图2所示,所述语音转换方法通过转换语音信号的频谱来实现,包括训练阶段和转换阶段,在所述训练阶段,语音信号包括源语音信号和样本语音信号,步骤S1对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息;在所述转换阶段,语音信号为源语音信号,步骤S1对所述源语音信号进行激光冲激分解。
训练阶段的目的是获取源语音信号频谱特征矢量空间与目标语音信号频谱特征矢量空间之间的映射关系,转换阶段是利用所述训练阶段所获得的映射关系实现对源语音信号频谱转换成目标语音频谱。
步骤S2中,将谐波信号进行语音转换形成目标谐波信号,是指对所述谐波信号频谱进行转换形成目标谐波信号频谱,具体为:
S21,根据所述时间对齐信息,随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B,并存储,之后结束所述训练阶段。
S22,在所述转换阶段,对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示;即
Xh(m,k)=AH (7)
激励矩阵H是N×M维的实数矩阵,其中,N表示基矢量的个数,M表示语音信号的帧数,激励矩阵H由激励矢量h迭代求解,
Figure BDA0001629172540000061
其中,A是源语音字典,x∈RK×1表示一帧语音信号的幅度谱,K表示一帧幅度谱的维数,Ι表示K维的数值全为1的矢量,λ表示K维的惩罚因子矢量,T表示矩阵转置运算符,.×表示矩阵对应点之间相乘运算符。
根据稀疏表示理论,该帧语音信号的频谱可以由多个基矢量的线性组合表示。在数学上可以表示为:
Figure BDA0001629172540000062
其中an表示基矢量空间中第n个基矢量,an的维数也为K,hn表示第n个基矢量所对应的权重系数,h=[h1,h2,...,hN]T称为激励矢量,N个基矢量的组合形成所述源语音字典A=[a1,a2,...,aN]∈RK×N,该字典是在训练阶段得到,在语音转换阶段固定不变。
激励矢量h是稀疏的,即矢量h的大部分元素都为零,只有部分元素是非零的。矢量h的值是在训练阶段通过非负矩阵分解法进行循环迭代求解,如公式(8)所示。
将一段语音信号进行分帧处理,分为M帧,其频谱矢量序列表示为X∈RK×M。对该矢量序列中的每一帧频谱参数采用公式(9)进行稀疏表示。
S23,在所述转换阶段,利用源语音信号的激励矩阵H和样本语音信号的谐波信号样本字典B对源语音的谐波信号频谱进行转换,转换后的目标谐波信号频谱表示为
Figure BDA0001629172540000063
步骤S3中,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号的具体步骤为:将转换后的目标谐波信号频谱
Figure BDA0001629172540000064
和未经过处理的源语音冲激信号部分进行叠加,得到转换后的目标语音频谱,从而实现语音转换。
本发明所述基于谐波冲激分解的语音转换方法,采用谐波冲激分解模型对语音信号进行分解,将语音信号分解成谐波信号部分和冲激信号部分,仅对谐波信号部分做频谱分解和稀疏表示,不对冲激信号做任何处理,既能够保证信息的完全性、又可以减少信息的丢失,还有利于提高转换后语音的质量,具有较高的应用前景。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于谐波冲激分解的语音转换方法,其特征在于,包括如下步骤:
S1,将语音信号分解成谐波信号和冲激信号;
S2,将所述谐波信号进行语音转换,形成目标谐波信号;
S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号;
步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:
S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列X,X表示成语音信号的语谱图;
S12,计算水平方向的幅度谱
Figure FDA0003829273540000011
和垂直方向的幅度谱
Figure FDA0003829273540000012
分别为:
Figure FDA0003829273540000013
Figure FDA0003829273540000014
其中m表示语谱图的时间点,k表示语谱图的频点;wh用来描述水平方向中值滤波器的长度;wp用来描述垂直方向中值滤波器的长度;median(·)表示中值滤波函数;
S13,对语音信号的语谱图X进行标记,得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp,即:
Figure FDA0003829273540000015
Figure FDA0003829273540000016
S14,计算所述语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:
Xh(m,k)=X(m,k)·Mh(m,k)
Xp(m,k)=X(m,k)·Mp(m,k)。
2.根据权利要求1所述的方法,其特征在于:所述方法包括训练阶段和转换阶段,在所述训练阶段,所述语音信号包括源语音信号和样本语音信号,步骤S1中,对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息;
在所述转换阶段,所述语音信号为源语音信号,步骤S1中,对所述源语音信号进行激光冲激分解。
3.根据权利要求2所述的方法,其特征在于:
步骤S2中,将谐波信号进行语音转换形成目标谐波信号,是指对所述谐波信号频谱进行转换形成目标谐波信号频谱,具体为:
S21,根据所述时间对齐信息,随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B,并存储,之后结束所述训练阶段;
S22,在所述转换阶段,对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示;即
Xh(m,k)=AH
激励矩阵H∈RN×M,其中,N表示基矢量的个数,M表示语音信号的帧数,激励矩阵H由激励矢量h迭代求解,
Figure FDA0003829273540000031
其中,A是源语音字典,x∈RK×1表示一帧语音信号的幅度谱,K表示一帧幅度谱的维数,I表示K维的数值全为1的矢量,λ表示K维的惩罚因子矢量,T表示矩阵转置运算符,.×表示矩阵对应点之间相乘运算符;
S23,在所述转换阶段,利用源语音信号的激励矩阵H和样本语音信号的谐波信号样本字典B对源语音的谐波信号频谱进行转换,转换后的目标谐波信号频谱表示为
Figure FDA0003829273540000032
4.根据权利要求3所述的方法,其特征在于:
步骤S3中,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号的具体步骤为:将转换后的目标谐波信号频谱
Figure FDA0003829273540000033
和未经过处理的源语音冲激信号部分进行叠加,得到转换后的目标语音频谱。
CN201810335633.6A 2018-04-16 2018-04-16 一种基于谐波冲激分解的语音转换方法 Active CN108766450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810335633.6A CN108766450B (zh) 2018-04-16 2018-04-16 一种基于谐波冲激分解的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810335633.6A CN108766450B (zh) 2018-04-16 2018-04-16 一种基于谐波冲激分解的语音转换方法

Publications (2)

Publication Number Publication Date
CN108766450A CN108766450A (zh) 2018-11-06
CN108766450B true CN108766450B (zh) 2023-02-17

Family

ID=64010844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810335633.6A Active CN108766450B (zh) 2018-04-16 2018-04-16 一种基于谐波冲激分解的语音转换方法

Country Status (1)

Country Link
CN (1) CN108766450B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995030983A1 (en) * 1994-05-04 1995-11-16 Georgia Tech Research Corporation Audio analysis/synthesis system
WO2002062120A2 (en) * 2001-02-02 2002-08-15 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
TW201001396A (en) * 2008-06-26 2010-01-01 Univ Nat Taiwan Science Tech Method for synthesizing speech
CN101751921A (zh) * 2009-12-16 2010-06-23 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法
CN102063899A (zh) * 2010-10-27 2011-05-18 南京邮电大学 一种非平行文本条件下的语音转换方法
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN102750955A (zh) * 2012-07-20 2012-10-24 中国科学院自动化研究所 基于残差信号频谱重构的声码器
CN103345920A (zh) * 2013-05-29 2013-10-09 河海大学常州校区 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法
CN107221321A (zh) * 2017-03-27 2017-09-29 杭州电子科技大学 一种用于任意源和目标语音之间的语音转换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2853125A1 (fr) * 2003-03-27 2004-10-01 France Telecom Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse.

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995030983A1 (en) * 1994-05-04 1995-11-16 Georgia Tech Research Corporation Audio analysis/synthesis system
WO2002062120A2 (en) * 2001-02-02 2002-08-15 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
TW201001396A (en) * 2008-06-26 2010-01-01 Univ Nat Taiwan Science Tech Method for synthesizing speech
CN101751921A (zh) * 2009-12-16 2010-06-23 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法
CN102063899A (zh) * 2010-10-27 2011-05-18 南京邮电大学 一种非平行文本条件下的语音转换方法
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN102750955A (zh) * 2012-07-20 2012-10-24 中国科学院自动化研究所 基于残差信号频谱重构的声码器
CN103345920A (zh) * 2013-05-29 2013-10-09 河海大学常州校区 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法
CN107221321A (zh) * 2017-03-27 2017-09-29 杭州电子科技大学 一种用于任意源和目标语音之间的语音转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于声调规范模型的声调变换方法;薛健等;《计算机工程与应用》;20051001(第10期);全文 *
一种改进的语音二项式正弦脉冲激励方案;邓立新等;《南京邮电学院学报》;20050330(第01期);全文 *
基于STRAIGHT算法的汉语语音morphing方法;甘振业等;《西北师范大学学报(自然科学版)》;20080915(第05期);全文 *

Also Published As

Publication number Publication date
CN108766450A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN111785261B (zh) 基于解纠缠和解释性表征的跨语种语音转换方法及系统
Défossez et al. Music source separation in the waveform domain
Kaneko et al. Generative adversarial network-based postfilter for STFT spectrograms
JP2956548B2 (ja) 音声帯域拡大装置
JP6783001B2 (ja) 逆離散コサイン変換のケプストラム係数の動的分割に基づく音声特徴抽出アルゴリズム
WO2020015270A1 (zh) 语音信号分离方法、装置、计算机设备以及存储介质
Jeong et al. Singing voice separation using RPCA with weighted-norm
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN106782599A (zh) 基于高斯过程输出后滤波的语音转换方法
Okamoto et al. Noise level limited sub-modeling for diffusion probabilistic vocoders
Saleem et al. Spectral phase estimation based on deep neural networks for single channel speech enhancement
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN108766450B (zh) 一种基于谐波冲激分解的语音转换方法
CN113782044A (zh) 一种语音增强方法及装置
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
Toda et al. Statistical approach to vocal tract transfer function estimation based on factor analyzed trajectory HMM
CN112863477B (zh) 一种语音合成方法、装置及存储介质
Ernawan et al. Efficient discrete tchebichef on spectrum analysis of speech recognition
Xie et al. Pitch transformation in neural network based voice conversion
CN115862590A (zh) 一种基于特征金字塔的文本驱动语音合成方法
Li et al. Weighted robust principal component analysis with gammatone auditory filterbank for singing voice separation
CN104282300A (zh) 一种非周期成分音节模型建立、及语音合成的方法和设备
TWI409802B (zh) 音頻特徵處理方法及其裝置
Wang et al. Improve gan-based neural vocoder using pointwise relativistic leastsquare gan

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240605

Address after: Room 329, Building 2, No. 26 Longquan Road, Cangqian Street, Yuhang District, Hangzhou City, Zhejiang Province, 310000

Patentee after: Jinma Intelligent Technology (Hangzhou) Co.,Ltd.

Country or region after: China

Address before: 310018 no.1158, No.2 street, Baiyang street, Hangzhou Economic and Technological Development Zone, Zhejiang Province

Patentee before: HANGZHOU DIANZI University

Country or region before: China