CN111816198A - 改变语音音调和音色的变声方法和系统 - Google Patents
改变语音音调和音色的变声方法和系统 Download PDFInfo
- Publication number
- CN111816198A CN111816198A CN202010780024.9A CN202010780024A CN111816198A CN 111816198 A CN111816198 A CN 111816198A CN 202010780024 A CN202010780024 A CN 202010780024A CN 111816198 A CN111816198 A CN 111816198A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- voice data
- cepstrum
- voice
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims abstract description 117
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims description 13
- 238000012952 Resampling Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 11
- 230000001755 vocal effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明提供了一种改变语音音调和音色的变声方法和系统,按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;利用音调保持,改变音调,将第二语音数据进行语音长度的缩放,输出第三语音数据;对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据,解决了基频和共振峰独立调节的问题。
Description
技术领域
本发明涉及语音音色调节技术领域,具体地,涉及一种改变语音音调和音色的变声方法和系统。
背景技术
基频和共振峰是语音中非常重要的特征,基频是发浊音时声带振动的频率,基频的高低与说话人的性别直接相关,一般男声的基频比较低,女声的基频较高,老年人的基频比青年人的基频低;共振峰是指声门波在声道离的共鸣频率,声道越长共振峰的频率越高,男子声道比女子声道要长一些。现有的绝大多数变声方案无法独立的调整基频和共振峰,只能同时调整这2个声音特性,而有的变声方案虽提供了独立的调节基频和共振峰的功能,但是为了保证一定连续性,需要在频域上进行相位展开,极大的降低了算法的鲁棒性、稳定性。
专利文献CN109697985A提供语音信号处理方法,包括:依据设定帧长度对语音信号分帧得到帧信号,提取每帧帧信号的音频参数;语音信号包括第一语音信号和第二语音信号,音频参数对应第一音频参数和第二音频参数;将第一语音信号的帧信号与对第二语音信号的帧信号对齐匹配;将第一语音信号的帧信号的第一音频参数替换为匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。上述专利文献能实现生成特定声音的效果,生成后语音信号仍保留第一语音信号对应原说话人的音调、语速发音特点,兼具第二语音信号对应变声对象声音,克服不能针对特定对象变声和变声效果差的技术缺陷,但是并未涉及基频和共振峰的独立调节。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种改变语音音调和音色的变声方法和系统。
根据本发明提供的一种改变语音音调和音色的变声方法,包括以下步骤:
步骤S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
步骤S2:利用音调保持算法,改变音调,将第二语音数据进行语音长度的缩放,输出第三语音数据;
步骤S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
步骤S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
优选地,所述音调保持算法采用WSOLA算法。
优选地,所述提取基频频谱是通过下式:
其中,Gr[k]表示基频频谱,Fr[k]表示幅度谱,Hr[k]表示频谱包络,k表示频率,r表示幅度。
优选地,所述新的幅度谱通过下式:
优选地,所述倒谱变换是指倒谱法变换,进行倒谱提取共振峰包络,将幅度谱转换成幅度谱的对数,然后变换得到所述对数的序列的逆傅里叶变换序列,即倒谱序列,结合第三语音数据,即倒谱空间的低通滤波器,用已对所述倒谱序列进行低通滤波,得到倒谱序列经过低通滤波之后的序列,变换得到共振峰包络线,之后得到最终的幅度谱共振峰包络线。
根据本发明提供的一种改变语音音调和音色的变声系统,包括以下模块:
模块S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
模块S2:利用音调保持算法,改变语音的速率,将第二语音数据进行语音长度的缩放,输出第三语音数据;
模块S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
模块S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
与现有技术相比,本发明具有如下的有益效果:
1、通过时域上的重采样和变调不变速,避免了相位展开,极大的增强了算法的鲁棒性和稳定性。
2、通过频域上的谱包络估计和频谱分离,解决了基频和共振峰独立调节的问题。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为倒普提取共振峰包络示意图;
图2为变声整体流程示意图;
图3为基频调节器示意图;
图4为共振峰提起调节器示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
本发明基于时域的“重采样和WSOLA”技术改变基频,然后通过倒谱法提取谱包络,利用谱包络(声道系统函数)移动共振峰而不改变基频。具体通过以下步骤实施,
首先,按照“基频比例调整因子b”的要求,在时域上对语音数据x[n]进行重采样,得到语音数据rs[n],rs[n]序列长度是x[n]序列长度的b倍。
其次,利用“WSOLA”等类似的音调保持算法,可以在不改变说话人音调的情况下,改变说话人的语速,将rs[n]缩放到原来的语音长度,输出ws[n],变调是基频改变,变速是说话速度改变,rs[n]是变调变速的语音数据,ws[n]是变调不变速的语音数据。
最后,按照“共振峰比例调整因子f”调整频谱包络:合成新的幅度谱将新的幅度谱和相位谱Fθ[k]合并然后极坐标转直角坐标做IFFT变换并做窗补偿生成新的语音数据out[n]。K表示频率,r表示幅度,θ表示相位。
其中,如图1所示,倒谱法变换是进行倒谱提取共振峰包络,将Fr[k]幅度谱转换成即Fr[k]的对数,然后变换得到即序列的逆傅里叶变换序列,即倒谱序列,结合w[n],即倒谱空间的低通滤波器,用已对序列进行低通滤波,得到hr[n],即倒谱序列经过低通滤波之后的序列,变换得到即hr[n]进行傅里叶变换后的共振峰包络线,之后得到Hr[k],即最终的幅度谱共振峰包络线。
如图2所示,语音数据x[n]按照“基频比例调整因子b”的要求,经过基频调节器,输出ws[n],按照共振峰因子f、基频因子b的要求,经过共振峰提取调节器,生成新的语音数据out[n]。
如图3所示,语音数据x[n]按照“基频比例调整因子b”的要求,经过重采样reampler,输出语音数据rs[n],再经过音调保持,输出变调不变速的语音数据ws[n]。
如图4所示,对语音数据ws[n]加窗进行FFT变换得到复频谱Fc[k],复频谱Fc[k]进行极坐标转换得到幅度谱Fr[k]和相位谱Fθ[k],对Fr[k]做倒谱法变换,具体是经过共振峰包括提取器,提取频谱包络Hr[k],经过基频频谱提取,提取基频频谱之后在进行共振峰调节,得到新的共振峰合并基频频谱和新的共振峰,得到新的幅度谱将新的幅度谱和相位谱相加,得到新的复频谱对新的复频谱进行IFFT变换并进行窗补偿,得到最终变声的语音数据out[n]。
实施例2
实施例2可以视为是实施例1的优选例。实施例2说明的改变语音音调和音色的变声的系统,利用了实施例1说明的改变语音音调和音色的变声的方法的步骤。
根据本发明提供的一种改变语音音调和音色的变声系统,包括以下模块:
模块S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
模块S2:利用音调保持算法,改变语音的速率,将第二语音数据进行语音长度的缩放,输出第三语音数据;
模块S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
模块S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种改变语音音调和音色的变声方法,其特征在于,包括以下步骤:
步骤S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
步骤S2:利用音调保持算法,改变语音的速率,将第二语音数据进行语音长度的缩放,输出第三语音数据;
步骤S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
步骤S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
2.根据权利要求1所述的改变语音音调和音色的变声方法,其特征在于,所述音调保持采用WSOLA算法。
5.根据权利要求1所述的改变语音音调和音色的变声方法,其特征在于,所述倒谱变换是指倒谱法变换,进行倒谱提取共振峰包络,将幅度谱转换成幅度谱的对数,然后变换得到所述对数的序列的逆傅里叶变换序列,即倒谱序列,结合第三语音数据,即倒谱空间的低通滤波器,用已对所述倒谱序列进行低通滤波,得到倒谱序列经过低通滤波之后的序列,变换得到共振峰包络线,之后得到最终的幅度谱共振峰包络线。
6.一种改变语音音调和音色的变声系统,其特征在于,包括以下模块:
模块S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
模块S2:利用音调保持算法,改变语音的速率,将第二语音数据进行语音长度的缩放,输出第三语音数据;
模块S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
模块S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
7.根据权利要求6所述的改变语音音调和音色的变声系统,其特征在于,所述音调保持采用WSOLA算法。
10.根据权利要求6所述的改变语音音调和音色的变声系统,其特征在于,所述倒谱变换是指倒谱法变换,进行倒谱提取共振峰包络,将幅度谱转换成幅度谱的对数,然后变换得到所述对数的序列的逆傅里叶变换序列,即倒谱序列,结合第三语音数据,即倒谱空间的低通滤波器,用已对所述倒谱序列进行低通滤波,得到倒谱序列经过低通滤波之后的序列,变换得到共振峰包络线,之后得到最终的幅度谱共振峰包络线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010780024.9A CN111816198A (zh) | 2020-08-05 | 2020-08-05 | 改变语音音调和音色的变声方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010780024.9A CN111816198A (zh) | 2020-08-05 | 2020-08-05 | 改变语音音调和音色的变声方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111816198A true CN111816198A (zh) | 2020-10-23 |
Family
ID=72864598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010780024.9A Pending CN111816198A (zh) | 2020-08-05 | 2020-08-05 | 改变语音音调和音色的变声方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816198A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112653756A (zh) * | 2020-12-20 | 2021-04-13 | 国网山东省电力公司临沂供电公司 | 物联网智能数据处理系统及方法 |
CN114822580A (zh) * | 2022-04-28 | 2022-07-29 | 北京奇音妙想科技有限公司 | 基于重采样加速计算的修正音频的音高及音色的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5920840A (en) * | 1995-02-28 | 1999-07-06 | Motorola, Inc. | Communication system and method using a speaker dependent time-scaling technique |
JP2002189472A (ja) * | 2000-12-22 | 2002-07-05 | Roland Corp | 音色制御装置 |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
CN1719514A (zh) * | 2004-07-06 | 2006-01-11 | 中国科学院自动化研究所 | 基于语音分析与合成的高品质实时变声方法 |
CN105304092A (zh) * | 2015-09-18 | 2016-02-03 | 深圳市海派通讯科技有限公司 | 一种基于智能终端的实时变声方法 |
CN109410973A (zh) * | 2018-11-07 | 2019-03-01 | 北京达佳互联信息技术有限公司 | 变声处理方法、装置和计算机可读存储介质 |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
-
2020
- 2020-08-05 CN CN202010780024.9A patent/CN111816198A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5920840A (en) * | 1995-02-28 | 1999-07-06 | Motorola, Inc. | Communication system and method using a speaker dependent time-scaling technique |
JP2002189472A (ja) * | 2000-12-22 | 2002-07-05 | Roland Corp | 音色制御装置 |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
CN1719514A (zh) * | 2004-07-06 | 2006-01-11 | 中国科学院自动化研究所 | 基于语音分析与合成的高品质实时变声方法 |
CN105304092A (zh) * | 2015-09-18 | 2016-02-03 | 深圳市海派通讯科技有限公司 | 一种基于智能终端的实时变声方法 |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
CN109410973A (zh) * | 2018-11-07 | 2019-03-01 | 北京达佳互联信息技术有限公司 | 变声处理方法、装置和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
宋知用: "《Matlab在语音信号分析与合成中的应用》", 第310-311页, pages: 310 - 311 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112653756A (zh) * | 2020-12-20 | 2021-04-13 | 国网山东省电力公司临沂供电公司 | 物联网智能数据处理系统及方法 |
CN112653756B (zh) * | 2020-12-20 | 2022-09-06 | 国网山东省电力公司临沂供电公司 | 物联网智能数据处理系统及方法 |
CN114822580A (zh) * | 2022-04-28 | 2022-07-29 | 北京奇音妙想科技有限公司 | 基于重采样加速计算的修正音频的音高及音色的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
EP0970466B1 (en) | Voice conversion | |
JP2956548B2 (ja) | 音声帯域拡大装置 | |
CN106228973A (zh) | 稳定音色的音乐语音变调方法 | |
WO2014046789A1 (en) | System and method for voice transformation, speech synthesis, and speech recognition | |
JPWO2011004579A1 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
CN111816198A (zh) | 改变语音音调和音色的变声方法和系统 | |
CN111916093B (zh) | 音频处理方法及装置 | |
CN110364140A (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
CN109616131B (zh) | 一种数字实时语音变音方法 | |
Tian et al. | A Speaker-Dependent WaveNet for Voice Conversion with Non-Parallel Data. | |
CN105321526B (zh) | 音频处理方法和电子设备 | |
CN112382308A (zh) | 基于深度学习与简单声学特征的零次语音转换系统和方法 | |
Degottex et al. | Pitch transposition and breathiness modification using a glottal source model and its adapted vocal-tract filter | |
Roebel | A shape-invariant phase vocoder for speech transformation | |
CN113421584B (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
Umesh | Studies on inter-speaker variability in speech and its application in automatic speech recognition | |
JP2002358090A (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
Kafentzis et al. | Pitch modifications of speech based on an adaptive harmonic model | |
Xie et al. | Pitch transformation in neural network based voice conversion | |
CN116168678A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
Huang et al. | Generalization of spectrum differential based direct waveform modification for voice conversion | |
Saitou et al. | Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice. | |
Lian et al. | ARVC: An Auto-Regressive Voice Conversion System Without Parallel Training Data. | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201023 |