CN108766450B - 一种基于谐波冲激分解的语音转换方法 - Google Patents
一种基于谐波冲激分解的语音转换方法 Download PDFInfo
- Publication number
- CN108766450B CN108766450B CN201810335633.6A CN201810335633A CN108766450B CN 108766450 B CN108766450 B CN 108766450B CN 201810335633 A CN201810335633 A CN 201810335633A CN 108766450 B CN108766450 B CN 108766450B
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- harmonic
- speech
- impulse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 42
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims abstract description 60
- 239000013598 vector Substances 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000005284 excitation Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提出一种基于谐波冲激分解的语音转换方法,包括如下步骤:S1,将语音信号分解成谐波信号和冲激信号;S2,将所述谐波信号进行语音转换,形成目标谐波信号;S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。本发明采用谐波冲激分解模型对语音信号进行分解,将语音信号分解成谐波信号部分和冲激信号部分,仅对谐波信号部分做频谱分解和稀疏表示,不对冲激信号做任何处理,既能够保证信息的完全性、又可以减少信息的丢失,还有利于提高转换后语音的质量,处理过程简单、方便,推广性强,具有较高的应用前景。
Description
技术领域
本发明属于语音转换技术领域,具体涉及一种基于谐波冲激分解的语音转换方法。
背景技术
说话人身份特征是语音信号中所包含的一种非常重要的特征信息。语音转换的处理对象就是语音信号中的身份特征信息,它的目的就是要改变源语音中的身份特征,使得转换后的语音听起来就像是特定的目标说话人的声音一样。语音转换技术具有广泛的应用前景,特别是应用于个性化的语音合成领域。
发明内容
本发明提出一种基于谐波冲激分解的语音转换方法,以提高语音转换后的语音质量,简化语音转换处理过程。
为实现本发明的目的,本发明采用以下技术方案:
一种基于谐波冲激分解的语音转换方法,包括如下步骤:
S1,将语音信号分解成谐波信号和冲激信号;
S2,将所述谐波信号进行语音转换,形成目标谐波信号;
S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。
进一步地,步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:
S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列
X,X表示成语音信号的语谱图;
其中m表示语谱图的时间点,k表示语谱图的频点;wh用来描述水平方向中值滤波器的长度;wp用来描述垂直方向中值滤波器的长度;median(·)表示中值滤波函数。
S13,对语音信号的语谱图X进行标记,得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp,即:
S14,计算所述语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:
Xh(m,k)=X(m,k)·Mh(m,k)
Xp(m,k)=X(m,k)·Mp(m,k)
进一步地,所述方法整体包括训练阶段和转换阶段,
在所述训练阶段,所述语音信号包括源语音信号和样本语音信号,所述步骤S1中,对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息;
在所述转换阶段,所述语音信号为源语音信号,所述步骤S1中,对所述源语音信号进行激光冲激分解。
进一步地,步骤S2中,将谐波信号进行语音转换形成目标谐波信号,是指对所述谐波信号频谱进行转换形成目标谐波信号频谱,具体为:
S21,根据所述时间对齐信息,随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B,并存储,之后结束所述训练阶段;
S22,在所述转换阶段,对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示;即
Xh(m,k)=AH
激励矩阵H∈RN×M,其中,N表示基矢量的个数,M表示语音信号的帧数,激励矩阵H由激励矢量h迭代求解,
其中,A是源语音字典,x∈RK×1表示一帧语音信号的幅度谱,K表示一帧幅度谱的维数,Ι表示K维的数值全为1的矢量,λ表示K维的惩罚因子矢量,T表示矩阵转置运算符,.×表示矩阵对应点之间相乘运算符;
本发明与现有技术相比,有益效果是:
采用谐波冲激分解模型对语音信号进行分解,将语音信号分解成谐波信号部分和冲激信号部分,仅对谐波信号部分做频谱分解和稀疏表示,不对冲激信号做任何处理,既能够保证信息的完全性、又可以减少信息的丢失,还有利于提高转换后语音的质量,处理过程简单、方便,推广性强,具有较高的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于谐波冲激分解的语音转换原理框图;
图2是本发明的基于谐波冲激分解的语音转换整体框图;
具体实施方式
为了使本领域技术人员更好地理解本发明的技术方案,下面将结合附图以及具体的实施方式,对本发明进行详细地介绍说明。
如图1所示,本发明所述基于谐波冲激分解的语音转换方法,包括如下步骤:
S1,将语音信号分解成谐波信号和冲激信号;
S2,将所述谐波信号进行语音转换,形成目标谐波信号;
S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。
谐波信号是语音中具有固定基频的结构化的信号部分,而冲激信号是没有固定基频的信号部分。由于语音信号中说话人身份信息主要来自于说话人的声道特性和基频信号,而声道的共振特性是一个非常重要的因素,它和基频信号共同对语音信号中的谐波结构具有重要的影响。因此,谐波信号部分基本上包含了全部的说话人身份信息。而冲激信号部分具有散状的、不规律的频谱结构,含有语音频谱的细节成分,对于提高语音信号的质量很有作用。根据这一原理,在进行语音转换时,只对语音信号中的谐波部分进行转换,而保持冲激部分不变,有利于提高转换后的语音质量。
在进行语音转换时,尽可能分离出语音信号中的包含说话人身份信息的信号部分,而对未含有身份信息的语音部分不进行处理,这样就减少了不必要的信息处理过程,根据信息论的数据处理定理,可以减少信息的丢失,有利于提高转换后语音的质量。语音信号的谐波冲激分解是通过中值滤波实现的,中值滤波能够有效地分离出沿时间轴方向分布的谐波部分和沿频率轴方向分布的冲激部分。
根据上述思想,步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:
S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列X,X表示成语音信号的语谱图;
其中m表示语谱图的时间点,k表示语谱图的频点。wh是用来描述水平方向中值滤波器的长度,即水平方向中值滤波器的长度2wh+1;而wp是用来描述垂直方向中值滤波器的长度,即垂直方向中值滤波器的长度为2wp+1。median(·)是表示中值滤波函数。
S14,将谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp分别与源语音信号或目标语音信号的语谱图X进行点乘,即矩阵的对应点相乘,得到语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:
Xh(m,k)=X(m,k)·Mh(m,k) (5)
Xp(m,k)=X(m,k)·Mp(m,k) (6)
如图2所示,所述语音转换方法通过转换语音信号的频谱来实现,包括训练阶段和转换阶段,在所述训练阶段,语音信号包括源语音信号和样本语音信号,步骤S1对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息;在所述转换阶段,语音信号为源语音信号,步骤S1对所述源语音信号进行激光冲激分解。
训练阶段的目的是获取源语音信号频谱特征矢量空间与目标语音信号频谱特征矢量空间之间的映射关系,转换阶段是利用所述训练阶段所获得的映射关系实现对源语音信号频谱转换成目标语音频谱。
步骤S2中,将谐波信号进行语音转换形成目标谐波信号,是指对所述谐波信号频谱进行转换形成目标谐波信号频谱,具体为:
S21,根据所述时间对齐信息,随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B,并存储,之后结束所述训练阶段。
S22,在所述转换阶段,对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示;即
Xh(m,k)=AH (7)
激励矩阵H是N×M维的实数矩阵,其中,N表示基矢量的个数,M表示语音信号的帧数,激励矩阵H由激励矢量h迭代求解,
其中,A是源语音字典,x∈RK×1表示一帧语音信号的幅度谱,K表示一帧幅度谱的维数,Ι表示K维的数值全为1的矢量,λ表示K维的惩罚因子矢量,T表示矩阵转置运算符,.×表示矩阵对应点之间相乘运算符。
根据稀疏表示理论,该帧语音信号的频谱可以由多个基矢量的线性组合表示。在数学上可以表示为:
其中an表示基矢量空间中第n个基矢量,an的维数也为K,hn表示第n个基矢量所对应的权重系数,h=[h1,h2,...,hN]T称为激励矢量,N个基矢量的组合形成所述源语音字典A=[a1,a2,...,aN]∈RK×N,该字典是在训练阶段得到,在语音转换阶段固定不变。
激励矢量h是稀疏的,即矢量h的大部分元素都为零,只有部分元素是非零的。矢量h的值是在训练阶段通过非负矩阵分解法进行循环迭代求解,如公式(8)所示。
将一段语音信号进行分帧处理,分为M帧,其频谱矢量序列表示为X∈RK×M。对该矢量序列中的每一帧频谱参数采用公式(9)进行稀疏表示。
本发明所述基于谐波冲激分解的语音转换方法,采用谐波冲激分解模型对语音信号进行分解,将语音信号分解成谐波信号部分和冲激信号部分,仅对谐波信号部分做频谱分解和稀疏表示,不对冲激信号做任何处理,既能够保证信息的完全性、又可以减少信息的丢失,还有利于提高转换后语音的质量,具有较高的应用前景。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于谐波冲激分解的语音转换方法,其特征在于,包括如下步骤:
S1,将语音信号分解成谐波信号和冲激信号;
S2,将所述谐波信号进行语音转换,形成目标谐波信号;
S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号;
步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:
S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列X,X表示成语音信号的语谱图;
其中m表示语谱图的时间点,k表示语谱图的频点;wh用来描述水平方向中值滤波器的长度;wp用来描述垂直方向中值滤波器的长度;median(·)表示中值滤波函数;
S13,对语音信号的语谱图X进行标记,得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp,即:
S14,计算所述语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:
Xh(m,k)=X(m,k)·Mh(m,k)
Xp(m,k)=X(m,k)·Mp(m,k)。
2.根据权利要求1所述的方法,其特征在于:所述方法包括训练阶段和转换阶段,在所述训练阶段,所述语音信号包括源语音信号和样本语音信号,步骤S1中,对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息;
在所述转换阶段,所述语音信号为源语音信号,步骤S1中,对所述源语音信号进行激光冲激分解。
3.根据权利要求2所述的方法,其特征在于:
步骤S2中,将谐波信号进行语音转换形成目标谐波信号,是指对所述谐波信号频谱进行转换形成目标谐波信号频谱,具体为:
S21,根据所述时间对齐信息,随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B,并存储,之后结束所述训练阶段;
S22,在所述转换阶段,对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示;即
Xh(m,k)=AH
激励矩阵H∈RN×M,其中,N表示基矢量的个数,M表示语音信号的帧数,激励矩阵H由激励矢量h迭代求解,
其中,A是源语音字典,x∈RK×1表示一帧语音信号的幅度谱,K表示一帧幅度谱的维数,I表示K维的数值全为1的矢量,λ表示K维的惩罚因子矢量,T表示矩阵转置运算符,.×表示矩阵对应点之间相乘运算符;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810335633.6A CN108766450B (zh) | 2018-04-16 | 2018-04-16 | 一种基于谐波冲激分解的语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810335633.6A CN108766450B (zh) | 2018-04-16 | 2018-04-16 | 一种基于谐波冲激分解的语音转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108766450A CN108766450A (zh) | 2018-11-06 |
CN108766450B true CN108766450B (zh) | 2023-02-17 |
Family
ID=64010844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810335633.6A Active CN108766450B (zh) | 2018-04-16 | 2018-04-16 | 一种基于谐波冲激分解的语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108766450B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995030983A1 (en) * | 1994-05-04 | 1995-11-16 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
WO2002062120A2 (en) * | 2001-02-02 | 2002-08-15 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
TW201001396A (en) * | 2008-06-26 | 2010-01-01 | Univ Nat Taiwan Science Tech | Method for synthesizing speech |
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
CN102063899A (zh) * | 2010-10-27 | 2011-05-18 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN102664003A (zh) * | 2012-04-24 | 2012-09-12 | 南京邮电大学 | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 |
CN102750955A (zh) * | 2012-07-20 | 2012-10-24 | 中国科学院自动化研究所 | 基于残差信号频谱重构的声码器 |
CN103345920A (zh) * | 2013-05-29 | 2013-10-09 | 河海大学常州校区 | 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法 |
CN107221321A (zh) * | 2017-03-27 | 2017-09-29 | 杭州电子科技大学 | 一种用于任意源和目标语音之间的语音转换方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2853125A1 (fr) * | 2003-03-27 | 2004-10-01 | France Telecom | Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse. |
-
2018
- 2018-04-16 CN CN201810335633.6A patent/CN108766450B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995030983A1 (en) * | 1994-05-04 | 1995-11-16 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
WO2002062120A2 (en) * | 2001-02-02 | 2002-08-15 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
TW201001396A (en) * | 2008-06-26 | 2010-01-01 | Univ Nat Taiwan Science Tech | Method for synthesizing speech |
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
CN102063899A (zh) * | 2010-10-27 | 2011-05-18 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN102664003A (zh) * | 2012-04-24 | 2012-09-12 | 南京邮电大学 | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 |
CN102750955A (zh) * | 2012-07-20 | 2012-10-24 | 中国科学院自动化研究所 | 基于残差信号频谱重构的声码器 |
CN103345920A (zh) * | 2013-05-29 | 2013-10-09 | 河海大学常州校区 | 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法 |
CN107221321A (zh) * | 2017-03-27 | 2017-09-29 | 杭州电子科技大学 | 一种用于任意源和目标语音之间的语音转换方法 |
Non-Patent Citations (3)
Title |
---|
一种基于声调规范模型的声调变换方法;薛健等;《计算机工程与应用》;20051001(第10期);全文 * |
一种改进的语音二项式正弦脉冲激励方案;邓立新等;《南京邮电学院学报》;20050330(第01期);全文 * |
基于STRAIGHT算法的汉语语音morphing方法;甘振业等;《西北师范大学学报(自然科学版)》;20080915(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108766450A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Défossez et al. | Music source separation in the waveform domain | |
CN111785261B (zh) | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
JP2956548B2 (ja) | 音声帯域拡大装置 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
WO2020015270A1 (zh) | 语音信号分离方法、装置、计算机设备以及存储介质 | |
Jeong et al. | Singing voice separation using RPCA with weighted-norm | |
JP2015138053A (ja) | 音響信号処理装置およびその方法 | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Okamoto et al. | Noise level limited sub-modeling for diffusion probabilistic vocoders | |
KR20040088364A (ko) | 잔여 모델을 사용하여 포먼트 트랙킹을 하기 위한 방법 및장치 | |
Saleem et al. | Spectral phase estimation based on deep neural networks for single channel speech enhancement | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
CN108766450B (zh) | 一种基于谐波冲激分解的语音转换方法 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN113782044A (zh) | 一种语音增强方法及装置 | |
Toda et al. | Statistical approach to vocal tract transfer function estimation based on factor analyzed trajectory HMM | |
Hossain et al. | Dual-transform source separation using sparse nonnegative matrix factorization | |
CN107437421A (zh) | 信号处理器 | |
Ernawan et al. | Efficient discrete tchebichef on spectrum analysis of speech recognition | |
Li et al. | Weighted robust principal component analysis with gammatone auditory filterbank for singing voice separation | |
Xie et al. | Pitch transformation in neural network based voice conversion | |
CN104282300A (zh) | 一种非周期成分音节模型建立、及语音合成的方法和设备 | |
TWI409802B (zh) | 音頻特徵處理方法及其裝置 | |
Asakawa et al. | Automatic recognition of connected vowels only using speaker-invariant representation of speech dynamics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |