CN111816198A - 改变语音音调和音色的变声方法和系统 - Google Patents

改变语音音调和音色的变声方法和系统 Download PDF

Info

Publication number
CN111816198A
CN111816198A CN202010780024.9A CN202010780024A CN111816198A CN 111816198 A CN111816198 A CN 111816198A CN 202010780024 A CN202010780024 A CN 202010780024A CN 111816198 A CN111816198 A CN 111816198A
Authority
CN
China
Prior art keywords
spectrum
voice data
cepstrum
voice
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010780024.9A
Other languages
English (en)
Inventor
邓海峰
林立
曹烈安
张鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yingzhuo Information Technology Co ltd
Original Assignee
Shanghai Yingzhuo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yingzhuo Information Technology Co ltd filed Critical Shanghai Yingzhuo Information Technology Co ltd
Priority to CN202010780024.9A priority Critical patent/CN111816198A/zh
Publication of CN111816198A publication Critical patent/CN111816198A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明提供了一种改变语音音调和音色的变声方法和系统,按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;利用音调保持,改变音调,将第二语音数据进行语音长度的缩放,输出第三语音数据;对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据,解决了基频和共振峰独立调节的问题。

Description

改变语音音调和音色的变声方法和系统
技术领域
本发明涉及语音音色调节技术领域,具体地,涉及一种改变语音音调和音色的变声方法和系统。
背景技术
基频和共振峰是语音中非常重要的特征,基频是发浊音时声带振动的频率,基频的高低与说话人的性别直接相关,一般男声的基频比较低,女声的基频较高,老年人的基频比青年人的基频低;共振峰是指声门波在声道离的共鸣频率,声道越长共振峰的频率越高,男子声道比女子声道要长一些。现有的绝大多数变声方案无法独立的调整基频和共振峰,只能同时调整这2个声音特性,而有的变声方案虽提供了独立的调节基频和共振峰的功能,但是为了保证一定连续性,需要在频域上进行相位展开,极大的降低了算法的鲁棒性、稳定性。
专利文献CN109697985A提供语音信号处理方法,包括:依据设定帧长度对语音信号分帧得到帧信号,提取每帧帧信号的音频参数;语音信号包括第一语音信号和第二语音信号,音频参数对应第一音频参数和第二音频参数;将第一语音信号的帧信号与对第二语音信号的帧信号对齐匹配;将第一语音信号的帧信号的第一音频参数替换为匹配的第二语音信号的帧信号的第二音频参数,并根据第一语音信号中帧信号的第二音频参数重新合成语音信号。上述专利文献能实现生成特定声音的效果,生成后语音信号仍保留第一语音信号对应原说话人的音调、语速发音特点,兼具第二语音信号对应变声对象声音,克服不能针对特定对象变声和变声效果差的技术缺陷,但是并未涉及基频和共振峰的独立调节。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种改变语音音调和音色的变声方法和系统。
根据本发明提供的一种改变语音音调和音色的变声方法,包括以下步骤:
步骤S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
步骤S2:利用音调保持算法,改变音调,将第二语音数据进行语音长度的缩放,输出第三语音数据;
步骤S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
步骤S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
优选地,所述音调保持算法采用WSOLA算法。
优选地,所述提取基频频谱是通过下式:
Figure BDA0002619876080000021
其中,Gr[k]表示基频频谱,Fr[k]表示幅度谱,Hr[k]表示频谱包络,k表示频率,r表示幅度。
优选地,所述新的幅度谱通过下式:
Figure BDA0002619876080000022
其中,
Figure BDA0002619876080000023
表示新的幅度谱。
优选地,所述倒谱变换是指倒谱法变换,进行倒谱提取共振峰包络,将幅度谱转换成幅度谱的对数,然后变换得到所述对数的序列的逆傅里叶变换序列,即倒谱序列,结合第三语音数据,即倒谱空间的低通滤波器,用已对所述倒谱序列进行低通滤波,得到倒谱序列经过低通滤波之后的序列,变换得到共振峰包络线,之后得到最终的幅度谱共振峰包络线。
根据本发明提供的一种改变语音音调和音色的变声系统,包括以下模块:
模块S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
模块S2:利用音调保持算法,改变语音的速率,将第二语音数据进行语音长度的缩放,输出第三语音数据;
模块S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
模块S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
与现有技术相比,本发明具有如下的有益效果:
1、通过时域上的重采样和变调不变速,避免了相位展开,极大的增强了算法的鲁棒性和稳定性。
2、通过频域上的谱包络估计和频谱分离,解决了基频和共振峰独立调节的问题。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为倒普提取共振峰包络示意图;
图2为变声整体流程示意图;
图3为基频调节器示意图;
图4为共振峰提起调节器示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
本发明基于时域的“重采样和WSOLA”技术改变基频,然后通过倒谱法提取谱包络,利用谱包络(声道系统函数)移动共振峰而不改变基频。具体通过以下步骤实施,
首先,按照“基频比例调整因子b”的要求,在时域上对语音数据x[n]进行重采样,得到语音数据rs[n],rs[n]序列长度是x[n]序列长度的b倍。
其次,利用“WSOLA”等类似的音调保持算法,可以在不改变说话人音调的情况下,改变说话人的语速,将rs[n]缩放到原来的语音长度,输出ws[n],变调是基频改变,变速是说话速度改变,rs[n]是变调变速的语音数据,ws[n]是变调不变速的语音数据。
再次,对ws[n]加窗进行FFT变换得到复频谱Fc[k],复频谱Fc[k]进行极坐标转换得到幅度谱Fr[k]和相位谱Fθ[k],对Fr[k]做倒谱法变换,提取频谱包络Hr[k],提取基频频谱
Figure BDA0002619876080000041
最后,按照“共振峰比例调整因子f”调整频谱包络:
Figure BDA0002619876080000042
合成新的幅度谱
Figure BDA0002619876080000043
将新的幅度谱
Figure BDA0002619876080000044
和相位谱Fθ[k]合并然后极坐标转直角坐标
Figure BDA0002619876080000045
做IFFT变换并做窗补偿生成新的语音数据out[n]。K表示频率,r表示幅度,θ表示相位。
其中,如图1所示,倒谱法变换是进行倒谱提取共振峰包络,将Fr[k]幅度谱转换成
Figure BDA0002619876080000046
即Fr[k]的对数,然后变换得到
Figure BDA0002619876080000047
Figure BDA0002619876080000048
序列的逆傅里叶变换序列,即倒谱序列,结合w[n],即倒谱空间的低通滤波器,用已对
Figure BDA0002619876080000049
序列进行低通滤波,得到hr[n],即倒谱序列经过低通滤波之后的序列,变换得到
Figure BDA00026198760800000410
即hr[n]进行傅里叶变换后的共振峰包络线,之后得到Hr[k],即最终的幅度谱共振峰包络线。
如图2所示,语音数据x[n]按照“基频比例调整因子b”的要求,经过基频调节器,输出ws[n],按照共振峰因子f、基频因子b的要求,经过共振峰提取调节器,生成新的语音数据out[n]。
如图3所示,语音数据x[n]按照“基频比例调整因子b”的要求,经过重采样reampler,输出语音数据rs[n],再经过音调保持,输出变调不变速的语音数据ws[n]。
如图4所示,对语音数据ws[n]加窗进行FFT变换得到复频谱Fc[k],复频谱Fc[k]进行极坐标转换得到幅度谱Fr[k]和相位谱Fθ[k],对Fr[k]做倒谱法变换,具体是经过共振峰包括提取器,提取频谱包络Hr[k],经过基频频谱提取,提取基频频谱
Figure BDA00026198760800000411
之后在进行共振峰调节,得到新的共振峰
Figure BDA00026198760800000412
合并基频频谱和新的共振峰,得到新的幅度谱
Figure BDA0002619876080000051
将新的幅度谱和相位谱相加,得到新的复频谱
Figure BDA0002619876080000052
对新的复频谱进行IFFT变换并进行窗补偿,得到最终变声的语音数据out[n]。
实施例2
实施例2可以视为是实施例1的优选例。实施例2说明的改变语音音调和音色的变声的系统,利用了实施例1说明的改变语音音调和音色的变声的方法的步骤。
根据本发明提供的一种改变语音音调和音色的变声系统,包括以下模块:
模块S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
模块S2:利用音调保持算法,改变语音的速率,将第二语音数据进行语音长度的缩放,输出第三语音数据;
模块S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
模块S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种改变语音音调和音色的变声方法,其特征在于,包括以下步骤:
步骤S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
步骤S2:利用音调保持算法,改变语音的速率,将第二语音数据进行语音长度的缩放,输出第三语音数据;
步骤S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
步骤S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
2.根据权利要求1所述的改变语音音调和音色的变声方法,其特征在于,所述音调保持采用WSOLA算法。
3.根据权利要求1所述的改变语音音调和音色的变声方法,其特征在于,所述提取基频频谱是通过下式:
Figure FDA0002619876070000011
其中,Gr[k]表示基频频谱,Fr[k]表示幅度谱,Hr[k]表示频谱包络,k表示频率,r表示幅度。
4.根据权利要求3所述的改变语音音调和音色的变声方法,其特征在于,所述新的幅度谱通过下式:
Figure FDA0002619876070000012
其中,
Figure FDA0002619876070000013
表示新的幅度谱。
5.根据权利要求1所述的改变语音音调和音色的变声方法,其特征在于,所述倒谱变换是指倒谱法变换,进行倒谱提取共振峰包络,将幅度谱转换成幅度谱的对数,然后变换得到所述对数的序列的逆傅里叶变换序列,即倒谱序列,结合第三语音数据,即倒谱空间的低通滤波器,用已对所述倒谱序列进行低通滤波,得到倒谱序列经过低通滤波之后的序列,变换得到共振峰包络线,之后得到最终的幅度谱共振峰包络线。
6.一种改变语音音调和音色的变声系统,其特征在于,包括以下模块:
模块S1:按照“基频比例调整因子b”的要求,在时域上对第一语音数据进行重采样,得到第二语音数据,第二语音数据的序列长度是第一语音数据的序列长度的b倍;
模块S2:利用音调保持算法,改变语音的速率,将第二语音数据进行语音长度的缩放,输出第三语音数据;
模块S3:对第三语音数据加窗进行变换得到复频谱,复频谱进行极坐标转换得到幅度谱和相位谱,对幅度谱做倒谱变换,提取频谱包络,提取基频频谱;
模块S4:按照“共振峰比例调整因子f”调整频谱包络,合成新的幅度谱,将新的幅度谱和相位谱合并,将极坐标转直角坐标,做IFFT变换,并做窗补偿生成新的第四语音数据。
7.根据权利要求6所述的改变语音音调和音色的变声系统,其特征在于,所述音调保持采用WSOLA算法。
8.根据权利要求6所述的改变语音音调和音色的变声系统,其特征在于,所述提取基频频谱是通过下式:
Figure FDA0002619876070000021
其中,Gr[k]表示基频频谱,Fr[k]表示幅度谱,Hr[k]表示频谱包络,k表示频率,r表示幅度。
9.根据权利要求8所述的改变语音音调和音色的变声系统,其特征在于,所述新的幅度谱通过下式:
Figure FDA0002619876070000022
其中,
Figure FDA0002619876070000023
表示新的幅度谱。
10.根据权利要求6所述的改变语音音调和音色的变声系统,其特征在于,所述倒谱变换是指倒谱法变换,进行倒谱提取共振峰包络,将幅度谱转换成幅度谱的对数,然后变换得到所述对数的序列的逆傅里叶变换序列,即倒谱序列,结合第三语音数据,即倒谱空间的低通滤波器,用已对所述倒谱序列进行低通滤波,得到倒谱序列经过低通滤波之后的序列,变换得到共振峰包络线,之后得到最终的幅度谱共振峰包络线。
CN202010780024.9A 2020-08-05 2020-08-05 改变语音音调和音色的变声方法和系统 Pending CN111816198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010780024.9A CN111816198A (zh) 2020-08-05 2020-08-05 改变语音音调和音色的变声方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010780024.9A CN111816198A (zh) 2020-08-05 2020-08-05 改变语音音调和音色的变声方法和系统

Publications (1)

Publication Number Publication Date
CN111816198A true CN111816198A (zh) 2020-10-23

Family

ID=72864598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010780024.9A Pending CN111816198A (zh) 2020-08-05 2020-08-05 改变语音音调和音色的变声方法和系统

Country Status (1)

Country Link
CN (1) CN111816198A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112653756A (zh) * 2020-12-20 2021-04-13 国网山东省电力公司临沂供电公司 物联网智能数据处理系统及方法
CN114822580A (zh) * 2022-04-28 2022-07-29 北京奇音妙想科技有限公司 基于重采样加速计算的修正音频的音高及音色的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920840A (en) * 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
JP2002189472A (ja) * 2000-12-22 2002-07-05 Roland Corp 音色制御装置
US20050065784A1 (en) * 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
CN1719514A (zh) * 2004-07-06 2006-01-11 中国科学院自动化研究所 基于语音分析与合成的高品质实时变声方法
CN105304092A (zh) * 2015-09-18 2016-02-03 深圳市海派通讯科技有限公司 一种基于智能终端的实时变声方法
CN109410973A (zh) * 2018-11-07 2019-03-01 北京达佳互联信息技术有限公司 变声处理方法、装置和计算机可读存储介质
CN110663080A (zh) * 2017-02-13 2020-01-07 法国国家科研中心 通过频谱包络共振峰的频移动态修改语音音色的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920840A (en) * 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
JP2002189472A (ja) * 2000-12-22 2002-07-05 Roland Corp 音色制御装置
US20050065784A1 (en) * 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
CN1719514A (zh) * 2004-07-06 2006-01-11 中国科学院自动化研究所 基于语音分析与合成的高品质实时变声方法
CN105304092A (zh) * 2015-09-18 2016-02-03 深圳市海派通讯科技有限公司 一种基于智能终端的实时变声方法
CN110663080A (zh) * 2017-02-13 2020-01-07 法国国家科研中心 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
CN109410973A (zh) * 2018-11-07 2019-03-01 北京达佳互联信息技术有限公司 变声处理方法、装置和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋知用: "《Matlab在语音信号分析与合成中的应用》", 第310-311页, pages: 310 - 311 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112653756A (zh) * 2020-12-20 2021-04-13 国网山东省电力公司临沂供电公司 物联网智能数据处理系统及方法
CN112653756B (zh) * 2020-12-20 2022-09-06 国网山东省电力公司临沂供电公司 物联网智能数据处理系统及方法
CN114822580A (zh) * 2022-04-28 2022-07-29 北京奇音妙想科技有限公司 基于重采样加速计算的修正音频的音高及音色的方法及装置

Similar Documents

Publication Publication Date Title
US8594993B2 (en) Frame mapping approach for cross-lingual voice transformation
EP0970466B1 (en) Voice conversion
US20110125493A1 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
JP2956548B2 (ja) 音声帯域拡大装置
WO2020006898A1 (zh) 音频数据的乐器识别方法及装置、电子设备、存储介质
WO2014046789A1 (en) System and method for voice transformation, speech synthesis, and speech recognition
CN111816198A (zh) 改变语音音调和音色的变声方法和系统
CN109616131B (zh) 一种数字实时语音变音方法
Degottex et al. Pitch transposition and breathiness modification using a glottal source model and its adapted vocal-tract filter
CN112382308A (zh) 基于深度学习与简单声学特征的零次语音转换系统和方法
Roebel A shape-invariant phase vocoder for speech transformation
CN111916093A (zh) 音频处理方法及装置
CN113421584B (zh) 音频降噪方法、装置、计算机设备及存储介质
Gao et al. Personalized Singing Voice Generation Using WaveRNN.
Tian et al. System fusion for high-performance voice conversion
Umesh Studies on inter-speaker variability in speech and its application in automatic speech recognition
Kafentzis et al. Pitch modifications of speech based on an adaptive harmonic model
CN116168678A (zh) 语音合成方法、装置、计算机设备和存储介质
Resna et al. Multi-voice singing synthesis from lyrics
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice
Huang et al. Generalization of spectrum differential based direct waveform modification for voice conversion
Xie et al. Pitch transformation in neural network based voice conversion
Jiang et al. Production based pitch modification of voiced speech
Lian et al. ARVC: An Auto-Regressive Voice Conversion System Without Parallel Training Data.
JP4468506B2 (ja) 音声データ作成装置および声質変換方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination