CN109410973B - 变声处理方法、装置和计算机可读存储介质 - Google Patents
变声处理方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN109410973B CN109410973B CN201811319935.0A CN201811319935A CN109410973B CN 109410973 B CN109410973 B CN 109410973B CN 201811319935 A CN201811319935 A CN 201811319935A CN 109410973 B CN109410973 B CN 109410973B
- Authority
- CN
- China
- Prior art keywords
- signal
- spectral envelope
- formants
- voice
- tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 5
- 230000003595 spectral effect Effects 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000001228 spectrum Methods 0.000 claims abstract description 39
- 230000008859 change Effects 0.000 claims abstract description 20
- 230000008451 emotion Effects 0.000 claims description 19
- 230000004048 modification Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 7
- 230000006872 improvement Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本申请是关于一种变声处理方法、装置和计算机存储介质。该变声处理方法包括:对语音信号进行变调处理,得到第一信号;根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,得到第二信号;以及将所述第二信号输出,得到变声后的语音信号。在该变声处理方法中,对语音信号进行变调处理后,根据男女声语音信号的幅度谱的共振峰位置,对所述第一信号的幅度谱进行分区域的频谱包络动态调整来优化音色,以提高变声后的语音信号的音质同时提高音质改进效果的稳定性。
Description
技术领域
本申请属于计算机软件应用领域,尤其是变声处理方法和装置。
背景技术
目前,语音通信涉及的范围越来越广,比如电话、手机、网络聊天、语音邮件等。出于军事安全、保护隐私或娱乐等方面的原因,人们在语音通信中希望通过改变自己的声音,来掩盖自己的身份、性别或年龄。语音的差异主要表现在音调和音色上。音调是由发音物体振动频率的高低决定的,频率高音调就高,频率低音调就低。比如,妇女和儿童发声时声带振动频率高,男人和老人发声时声带振动频率低,因而男人和老人的声音比妇女和儿童的声音更低沉。通过改变基频可以改变音调。音色取决于声波振动的形式,是不同的声音能够互相区别的最基本的特征。共振峰反映了声音中分量突出的谐波成分,从而共振峰的高度、位置和数量影响着音色。
相关技术中,基于女声比男声的基音频率高的特点,一般采用变调来实现男女声转换。男声转女声就是音调提高,女声转男声就是音调降低。但是,这种变声方法变声效果不自然,男声变女声时容易出现娃娃音,女声变男声又过于低沉。基于女声比男声的基音频率高一倍左右,但其共振峰只高百分之三十左右的特点,有时通过频谱包络的移动整形来调整音色,使男女声转换后音色更加自然。但是,这种变声方法的音质改进效果并不稳定,变声效果有时自然,有时却不自然。
发明内容
为克服相关技术中存在的问题,本申请公开一种变声处理方法和装置,对语音信号进行变调处理后,根据男女声语音信号的幅度谱的共振峰位置,对所述第一信号的幅度谱进行分区域的频谱包络动态调整来优化音色,以提高变声后的语音信号的音质同时提高音质改进效果的稳定性。
根据本申请实施例的第一方面,提供一种变声处理方法,包括:
对语音信号进行变调处理,得到第一信号;
根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,得到第二信号;以及
将所述第二信号输出,得到变声后的语音信号。
可选地,所述根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,包括:
根据元音或韵母的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子。
可选地,所述根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,包括:
根据说话人情感的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子。
可选地,所述根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,还包括:提取所述第一信号的第一谱包络;
基于共振峰位置的男女平均差异,选取主要决定所述第一信号的音色的多个共振峰;
在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络;以及
基于所述第一信号的所述第一谱包络和所述第二谱包络的加权系数,得到所述第二信号。
可选地,所述提取所述第一信号的第一谱包络,包括:
对所述第一信号进行进行加窗处理,得到第三信号;
将所述第三信号从时域转换到频域,得到第四信号;
从所述第四信号中提取频谱包络,得到所述第一信号的所述第一谱包络。
可选地,所述在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络,包括:
在所述多个共振峰的所述频率区域,分别将所述第一信号的所述第一谱包络与对应的所述谱包络调整因子相乘来对所述第一信号进行频谱包络的扩展或压缩,得到所述第一信号的所述第二谱包络。
可选地,所述基于所述第一信号的所述第一谱包络和所述第二谱包络的加权系数,得到所述第二信号,包括:
基于所述第一信号的所述第一谱包络和所述第二谱包络,确定所述第四信号的加权系数并对所述第四信号进行加权,得到第五信号;
将所述第五信号从频域变换到时域,得到第六信号;以及
对所述第六信号进行加窗处理,得到音色优化后的所述第二信号。
可选地,当所述谱包络调整因子大于1时,所述第一谱包络被压缩,所述第一信号的音色降低;
当所述谱包络调整因子小于1时,所述第一谱包络被扩展,所述第一信号的音色升高;以及
当所述谱包络调整因子等于1时,所述第一谱包络不变,所述第一信号的音色不变。
可选地,通过快速傅里叶变换将所述第三信号从时域转换到频域,得到第四信号。
可选地,通过快速傅里叶逆变换将所述第五信号从频域变换到时域,得到第六信号。
可选地,所述对语音信号进行变调处理,得到第一信号,包括:对所述语音信号进行基于同步波形叠加法(SOLA)的变速处理,得到第七信号;
对所述第七信号进行重采样处理,得到所述第一信号。
可选地,所述根据元音或韵母的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子,包括:
在所述多个共振峰的所述频率区域,根据元音或韵母的分类识别,对所述第一信号的发声进行元音或韵母分类;
基于不同元音或韵母发声下语音信号的谱包络的共振峰参数的男女平均差异,得到所述对应的谱包络调整因子。
可选地,所述根据说话人情感的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子,包括:
在所述多个共振峰的所述频率区域,根据说话人情感的分类识别,对所述第一信号的说话人情感进行分类;
基于不同情感下语音信号的谱包络的共振峰参数的男女平均差异,得到所述对应的谱包络调整因子。
可选地,所述共振峰参数包括以下参数中至少之一的参数:共振峰的位置、共振峰的数量和共振峰的高度。
根据本申请实施例的第二方面,提供一种变声处理装置,其特征在于,包括:
音调处理单元,用于对语音信号进行变调处理,得到第一信号;
音色优化单元,用于根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,得到第二信号;以及
输出单元,用于将所述第二信号输出,得到变声后的语音信号。
根据本发明实施例的第三方面,提供一种图像增强装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述的变声处理方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现如上所述的变声处理方法。
本申请的实施例提供的技术方案可以包括以下有益效果:
在该变声处理方法中,对语音信号进行变调处理后,根据男女声语音信号的幅度谱的共振峰位置,对所述第一信号的幅度谱进行分区域的频谱包络动态调整来优化音色,提高了变声后的语音信号的音质,同时提高了音质改进效果的稳定性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1是根据一示例性实施例示出的变声处理方法的流程图。
图2是根据一示例性实施例示出的变声处理方法的流程图。
图3是根据一示例性实施例示出的变声处理装置的示意图。
图4是根据一示例性实施例示出的一种执行变声处理方法的装置的框图。
图5是根据一示例性实施例示出的一种执行变声处理方法的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的变声处理方法的流程图,具体包括以下步骤:
在步骤S110中,对语音信号进行变调处理,得到第一信号。
在步骤S120中,根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,得到第二信号。
在步骤S130中,将所述第二信号输出,得到变声后的语音信号。
把一个人的声音变成别人的声音有二种情况:一种情况是:将一个人的声音,变成非特定人的声音,如:把男声变女声,或把小孩子声音变成老人声音。另一种情况是:将一个人的声音变成特定人的声音,有点像美国电影中那种,A可以通过使用变声技术发出B的声音。变声技术的应用领域:一是娱乐方面,如:聊天的搞笑声音---变音聊天。二是有关保密的方面,如某长官发布命令,在传播过程中进行变声,让敌方猜不出已方的领导人的身份。三是有可能被坏人利用来蓄意伪装自己身份。本发明主要针对变声技术在娱乐方面的应用,将非特定人的声音进行男女声转换。
在本申请的一个实施例中,获得一段语音信号后,首先,对语音信号的音调进行处理,得到第一信号。然后,根据男女声语音信号的幅度谱的共振峰位置,对所述第一信号的幅度谱进行分区域的频谱包络动态调整来优化音色,得到第二信号。最后,将所述第二信号输出,得到变声后的语音信号。
根据本申请实施例,对语音信号进行变调处理后,根据男女声语音信号的幅度谱的共振峰位置,对所述第一信号的幅度谱进行分区域的频谱包络动态调整来优化音色,提高了变声后的语音信号的音质,同时提高了音质改进效果的稳定性。
图2是根据一示例性实施例示出的变声处理方法的流程图,具体包括以下步骤:
在步骤S210中,对语音信号进行变调处理,得到第一信号。
在步骤S220中,根据元音或韵母的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子。
在步骤S230中,提取所述第一信号的第一谱包络。
在步骤S240中,基于共振峰位置的男女平均差异,选取主要决定所述第一信号的音色的多个共振峰。
在步骤S250中,在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络。
在步骤S260中,基于所述第一信号的所述第一谱包络和所述第二谱包络的加权系数,得到所述第二信号。
在步骤S270中,将所述第二信号输出,得到变声后的语音信号。
在本申请的一个实施例中,获得一段语音信号后,首先,对语音信号的音调进行处理,得到第一信号。然后,根据元音或韵母的分类识别,来动态调整所述第一信号的幅度谱的共振峰的频率区域和对应的谱包络调整因子。男女声在发元音或者韵母时,在幅度谱的不同共振峰的频率区域中,语音信号的共振峰参数存在普遍差异。其次,提取经过音调处理后的所述第一信号的第一谱包络。再次,基于语音信号的幅度谱的共振峰位置的男女平均差异,选取主要决定所述第一信号的音色的幅度谱的多个共振峰。所述共振峰的个数可根据实际中需要来选取。再次,在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络。各个所述频率区域可以分别应用相同的或者不同的所述对应的谱包络调整因子来对所述第一信号的所述第一谱包络进行动态调整。再次,基于所述第一信号的所述第一谱包络和所述第二谱包络的加权系数,得到所述第二信号。最后,将所述第二信号输出,得到变声后的语音信号。在一个实施例中,为了避免人工处理痕迹和失真,一般对很低频,比如300Hz以下,不做谱包络调整处理,以免产生低频噪声;同时对谱包络调整中的放大增益和压缩增益范围做限制。
根据本申请实施例,根据元音或韵母的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子。在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络。各个所述频率区域可以分别应用相同的或者不同的所述对应的谱包络调整因子来对所述第一信号的所述第一谱包络进行动态调整。分区域动态调整的频谱包络,优化了变声处理后语音信号的音色,同时提高了变声处理后语音信号的自然度。
在本发明的一个可选的实施例中,所述根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,包括:根据说话人情感的分类识别,来动态调整所述第一信号的幅度谱的共振峰的频率区域和对应的谱包络调整因子。在一个实施例中,获得一段语音信号后,首先,对语音信号的音调进行处理,得到第一信号。然后,根据说话人情感的分类识别,来动态调整幅度谱的共振峰的频率区域和对应的谱包络调整因子。男女声在有感情地说话时,在幅度谱的不同共振峰的频率区域中,语音信号的共振峰参数存在普遍差异。其次,提取经过音调处理后的所述第一信号的第一谱包络。再次,基于语音信号的幅度谱的共振峰位置的男女平均差异,选取主要决定所述第一信号的音色的幅度谱的多个共振峰。所述共振峰的个数可根据实际中需要来选取。再次,在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络。各个所述频率区域可以分别应用相同的或者不同的所述对应的谱包络调整因子来对所述第一信号的所述第一谱包络进行动态调整。再次,基于所述第一信号的所述第一谱包络和所述第二谱包络的加权系数,得到所述第二信号。最后,将所述第二信号输出,得到变声后的语音信号。在一个实施例中,为了避免人工处理痕迹和失真,一般对很低频,比如300Hz以下,不做谱包络调整处理,以免产生低频噪声;同时对谱包络调整中的放大增益和压缩增益范围做限制。
根据本申请实施例,根据说话人情感的分类识别,来动态调整所述第一信号的幅度谱的共振峰的频率区域和对应的谱包络调整因子。在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络。各个所述频率区域可以分别应用相同的或者不同的所述对应的谱包络调整因子来对所述第一信号的所述第一谱包络进行动态调整。分区域动态调整的频谱包络,优化了变声处理后语音信号的音色,同时提高了变声处理后语音信号的自然度。
在本申请的一个可选地实施例中,所述提取所述第一信号的第一谱包络,包括:对所述第一信号进行进行加窗处理,得到第三信号;将所述第三信号从时域转换到频域,得到第四信号;从所述第四信号中提取频谱包络,得到所述第一信号的所述第一谱包络。在一个实施例中,提取所述第一信号的第一谱包络的步骤包括:对所述第一信号进行语音信号的加窗处理,得到第三信号z(n);将经加窗处理后所述第三信号z(n)从时域转换到频域,得到所述第一信号的频谱信号,即第四信号Z(k);从Z(k)中提取幅度谱的谱包络,得到所述第一信号的所述第一谱包络U(k)。
在本申请的一个可选地实施例中,所述在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络,包括:在所述多个共振峰的所述频率区域,分别将所述第一信号的所述第一谱包络与对应的所述谱包络调整因子相乘来对所述第一信号进行频谱包络的扩展或压缩,得到所述第一信号的所述第二谱包络。在一个实施例中,将所述第一信号的幅度谱的所述第一谱包络U(k)中的变量k乘以一个系数β,得到所述第二谱包络U’(k),其表达式为:U’(k)=U(βk)。在一个实施例中,当所述谱包络调整因子β大于1时,所述第一谱包络被压缩,所述第一信号的音色降低;当所述谱包络调整因子β小于1时,所述第一谱包络被扩展,所述第一信号的音色升高;以及当所述谱包络调整因子β等于1时,所述第一谱包络不变,所述第一信号的音色不变。
在本申请的一个可选地实施例中,所述基于所述第一信号的所述第一谱包络和所述第二谱包络的加权系数,得到所述第二信号,包括:基于所述第一信号的所述第一谱包络和所述第二谱包络,确定所述第四信号的加权系数并对所述第四信号进行加权,得到第五信号;将所述第五信号从频域变换到时域,得到第六信号;以及对所述第六信号进行加窗处理,得到音色优化后的所述第二信号。在一个实施例中,所述第一信号的频谱信号,即第四信号Z(k),的加权系数为Uo(k),计算公式为Uo(k)=U’(k)/U(k);对所述第四信号进行加权,得到第五信号Z’(k),计算公式为Z’(k)=Z(k)*Uo(k);将所述第五信号Z’(k)从频域变换到时域,得到第六信号z’(n);对所述第六信号z’(n进行加窗处理,得到音色优化后的所述第二信号y(n)。
在本申请的一个可选地实施例中,通过快速傅里叶变换将所述第三信号从时域转换到频域,得到第四信号。在一个实施例中,将经加窗处理后的所述第三信号z(n)从时域转换到频域,得到所述第一信号的频谱信号,即第四信号,第四信号Z(k)的计算公式为:Z(k)=FFT[z(n)]。
在本申请的一个可选地实施例中,通过快速傅里叶逆变换将所述第五信号从频域变换到时域,得到第六信号。在一个实施例中,将经过加权处理后的所述第五信号Z′(k)从频域变换到时域,得到第六信号,第六信号z′(n)的计算公式为:z′(n)=IFFT[Z′(k)]。
在本申请的一个可选地实施例中,所述对语音信号进行变调处理,得到第一信号,包括:基于同步波形叠加法(SOLA)对所述语音信号进行的变速处理,得到第七信号;对所述第七信号进行重采样处理,得到变调不变速的所述第一信号。
在本申请的一个可选地实施例中,所述根据元音或韵母的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子,包括:在所述多个共振峰的所述频率区域,根据元音或韵母的分类识别,对所述第一信号的发声进行元音或韵母分类;基于不同元音或韵母发声下语音信号的谱包络的共振峰参数的男女平均差异,得到所述对应的谱包络调整因子。在一个实施例中,男女声在发元音或者韵母时,在不同共振峰的频率区域中,语音信号的共振峰参数存在普遍差异。分别计算男声和女声在多个共振峰的频率区域中,发元音或者韵母的语音信号的谱包络的多个共振峰参数的均值和方差;根据发元音或者韵母的语音信号的谱包络的多个共振峰参数的均值和方差,得到所述多个共振峰的所述频率区域对应的谱包络调整因子。
在本申请的一个可选地实施例中,所述根据说话人情感的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子,包括:在所述多个共振峰的所述频率区域,根据说话人情感的分类识别,对所述第一信号的说话人情感进行分类;基于不同情感下语音信号的谱包络的共振峰参数的男女平均差异,得到所述对应的谱包络调整因子。在一个实施例中,男女声在有感情地说话时,在不同共振峰的频率区域中,语音信号的共振峰参数存在普遍差异。分别计算男声和女声在多个共振峰的频率区域中,不同情感的语音信号的谱包络的多个共振峰参数的均值和方差;根据不同情感的语音信号的谱包络的多个共振峰参数的均值和方差,得到所述多个共振峰的所述频率区域对应的谱包络调整因子。
图3是根据一示例性实施例示出的变声处理装置的示意图。如图3所示,该装置30包括:音调处理单元310、音色优化单元320和输出单元330。
音调处理单元310,用于对语音信号进行变调处理,得到第一信号;
音色优化单元320,用于根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,得到第二信号;以及
输出单元330,用于将所述第二信号输出,得到变声后的语音信号。
在本申请的一个实施例中,音调处理单元310,用于对语音信号进行变调处理,得到第一信号;音色优化单元320,用于根据男女声语音信号的幅度谱的共振峰位置,对所述第一信号的幅度谱进行分区域的频谱包络动态调整来优化音色,得到第二信号;以及输出单元330,用于将所述第二信号输出,得到变声后的语音信号。
图4是根据一示例性实施例示出的一种执行变声处理方法的装置1200的框图。例如,交互装置1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制装置1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理组件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统,一个或多个电源,及其他与为装置1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当装置1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口1212为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为装置1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为装置1200的显示器和小键盘,传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变,用户与装置1200接触的存在或不存在,装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1204,上述指令可由装置1200的处理器1220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是根据一示例性实施例示出的一种执行变声处理方法的装置1300的框图。例如,装置1300可以被提供为一服务器。参照图5,装置1300包括处理组件1322,其进一步包括一个或多个处理器,以及由存储器1332所代表的存储器资源,用于存储可由处理组件1322的执行的指令,例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1322被配置为执行指令,以执行上述信息列表显示方法。
装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理,一个有线或无线网络接口1350被配置为将装置1300连接到网络,和一个输入输出(I/O)接口1358。装置1300可以操作基于存储在存储器1332的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (17)
1.一种变声处理方法,其特征在于,包括:
对语音信号进行变调处理,得到第一信号;
根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,得到第二信号,所述共振峰是决定所述第一信号的音色的多个共振峰,不同共振峰的频率区域分别对应着谱包络调整因子;以及
将所述第二信号输出,得到变声后的语音信号。
2.根据权利要求1所述的变声处理方法,其特征在于,所述根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,包括:
根据元音或韵母的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子。
3.根据权利要求1所述的变声处理方法,其特征在于,所述根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,包括:
根据说话人情感的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子。
4.根据权利要求2或3所述的变声处理方法,其特征在于,所述根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,还包括:提取所述第一信号的第一谱包络;
基于共振峰位置的男女平均差异,选取主要决定所述第一信号的音色的多个共振峰;
在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络;以及
基于所述第一信号的所述第一谱包络和所述第二谱包络的加权系数,得到所述第二信号。
5.根据权利要求4所述的变声处理方法,其特征在于,所述提取所述第一信号的第一谱包络,包括:
对所述第一信号进行加窗处理,得到第三信号;
将所述第三信号从时域转换到频域,得到第四信号;
从所述第四信号中提取频谱包络,得到所述第一信号的所述第一谱包络。
6.根据权利要求5所述的变声处理方法,其特征在于,所述在所述多个共振峰的所述频率区域,分别采用所述对应的谱包络调整因子对所述第一信号的所述第一谱包络进行动态调整,得到所述第一信号的第二谱包络,包括:
在所述多个共振峰的所述频率区域,分别将所述第一信号的所述第一谱包络与对应的所述谱包络调整因子相乘来对所述第一信号进行频谱包络的扩展或压缩,得到所述第一信号的所述第二谱包络。
7.根据权利要求6所述的变声处理方法,其特征在于,所述基于所述第一信号的所述第一谱包络和所述第二谱包络的加权系数,得到所述第二信号,包括:
基于所述第一信号的所述第一谱包络和所述第二谱包络,确定所述第四信号的加权系数并对所述第四信号进行加权,得到第五信号;
将所述第五信号从频域变换到时域,得到第六信号;以及
对所述第六信号进行加窗处理,得到音色优化后的所述第二信号。
8.根据权利要求7所述的变声处理方法,其特征在于,当所述谱包络调整因子大于1时,所述第一谱包络被压缩,所述第一信号的音色降低;
当所述谱包络调整因子小于1时,所述第一谱包络被扩展,所述第一信号的音色升高;以及
当所述谱包络调整因子等于1时,所述第一谱包络不变,所述第一信号的音色不变。
9.根据权利要求8所述的变声处理方法,其特征在于,通过快速傅里叶变换将所述第三信号从时域转换到频域,得到第四信号。
10.根据权利要求9所述的变声处理方法,其特征在于,通过快速傅里叶逆变换将所述第五信号从频域变换到时域,得到第六信号。
11.根据权利要求10所述的变声处理方法,其特征在于,所述对语音信号进行变调处理,得到第一信号,包括:对所述语音信号进行基于同步波形叠加法的变速处理,得到第七信号;
对所述第七信号进行重采样处理,得到所述第一信号。
12.根据权利要求11所述的变声处理方法,其特征在于,所述根据元音或韵母的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子,包括:
在所述多个共振峰的所述频率区域,根据元音或韵母的分类识别,对所述第一信号的发声进行元音或韵母分类;
基于不同元音或韵母发声下语音信号的谱包络的共振峰参数的男女平均差异,得到所述对应的谱包络调整因子。
13.根据权利要求11所述的变声处理方法,其特征在于,所述根据说话人情感的分类识别,来动态调整共振峰的频率区域和对应的谱包络调整因子,包括:
在所述多个共振峰的所述频率区域,根据说话人情感的分类识别,对所述第一信号的说话人情感进行分类;
基于不同情感下语音信号的谱包络的共振峰参数的男女平均差异,得到所述对应的谱包络调整因子。
14.根据权利要求12或13所述的变声处理方法,其特征在于,所述共振峰参数包括以下参数中至少之一的参数:共振峰的位置、共振峰的数量和共振峰的高度。
15.一种变声处理装置,其特征在于,包括:
音调处理单元,用于对语音信号进行变调处理,得到第一信号;
音色优化单元,用于根据共振峰位置,对所述第一信号进行分区域的频谱包络动态调整来优化音色,得到第二信号,所述共振峰是决定所述第一信号的音色的多个共振峰,不同共振峰的频率区域分别对应着谱包络调整因子;以及
输出单元,用于将所述第二信号输出,得到变声后的语音信号。
16.一种变声处理装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述权利要求1至14任意一项所述的变声处理方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现如权利要求1至14任一项所述的变声处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811319935.0A CN109410973B (zh) | 2018-11-07 | 2018-11-07 | 变声处理方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811319935.0A CN109410973B (zh) | 2018-11-07 | 2018-11-07 | 变声处理方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109410973A CN109410973A (zh) | 2019-03-01 |
CN109410973B true CN109410973B (zh) | 2021-11-16 |
Family
ID=65471902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811319935.0A Active CN109410973B (zh) | 2018-11-07 | 2018-11-07 | 变声处理方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410973B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063364B (zh) * | 2019-12-09 | 2024-05-10 | 广州酷狗计算机科技有限公司 | 生成音频的方法、装置、计算机设备和存储介质 |
CN111816198A (zh) * | 2020-08-05 | 2020-10-23 | 上海影卓信息科技有限公司 | 改变语音音调和音色的变声方法和系统 |
CN113395577A (zh) * | 2020-09-10 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 变声播放方法和装置、存储介质及电子设备 |
CN112908351A (zh) * | 2021-01-21 | 2021-06-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频变调方法、装置、设备及存储介质 |
CN113113033A (zh) * | 2021-04-29 | 2021-07-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、设备及可读存储介质 |
CN114449339B (zh) * | 2022-02-16 | 2024-04-12 | 深圳万兴软件有限公司 | 背景音效的转换方法、装置、计算机设备及存储介质 |
CN115424636B (zh) * | 2022-11-04 | 2023-02-03 | 广州声博士声学技术有限公司 | 一种基于语音传输指数的音质测量方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198091A (ja) * | 1996-01-18 | 1997-07-31 | Yamaha Corp | フォルマント変換装置およびカラオケ装置 |
CN1719514A (zh) * | 2004-07-06 | 2006-01-11 | 中国科学院自动化研究所 | 基于语音分析与合成的高品质实时变声方法 |
CN105304092A (zh) * | 2015-09-18 | 2016-02-03 | 深圳市海派通讯科技有限公司 | 一种基于智能终端的实时变声方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6950799B2 (en) * | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
KR102494080B1 (ko) * | 2016-06-01 | 2023-02-01 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 사운드 신호 보정 방법 |
-
2018
- 2018-11-07 CN CN201811319935.0A patent/CN109410973B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198091A (ja) * | 1996-01-18 | 1997-07-31 | Yamaha Corp | フォルマント変換装置およびカラオケ装置 |
CN1719514A (zh) * | 2004-07-06 | 2006-01-11 | 中国科学院自动化研究所 | 基于语音分析与合成的高品质实时变声方法 |
CN105304092A (zh) * | 2015-09-18 | 2016-02-03 | 深圳市海派通讯科技有限公司 | 一种基于智能终端的实时变声方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109410973A (zh) | 2019-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410973B (zh) | 变声处理方法、装置和计算机可读存储介质 | |
CN109801644B (zh) | 混合声音信号的分离方法、装置、电子设备和可读介质 | |
CN110136692B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN110097890B (zh) | 一种语音处理方法、装置和用于语音处理的装置 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN111583944A (zh) | 变声方法及装置 | |
CN113409764B (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
CN111508511A (zh) | 实时变声方法及装置 | |
CN107871494B (zh) | 一种语音合成的方法、装置及电子设备 | |
WO2022042129A1 (zh) | 音频处理方法及装置 | |
CN110503968B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN111128221A (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
WO2022147692A1 (zh) | 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质 | |
WO2021057239A1 (zh) | 语音数据的处理方法、装置、电子设备及可读存储介质 | |
CN110610720B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN113223542B (zh) | 音频的转换方法、装置、存储介质及电子设备 | |
CN115273831A (zh) | 语音转换模型训练方法、语音转换方法和装置 | |
CN107437412B (zh) | 一种声学模型处理方法、语音合成方法、装置及相关设备 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
CN111736798A (zh) | 音量调节方法、音量调节装置及计算机可读存储介质 | |
CN110580910B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN115396776A (zh) | 耳机的控制方法、装置、耳机及计算机可读存储介质 | |
CN111696566B (zh) | 语音处理方法、装置和介质 | |
CN114356068B (zh) | 一种数据处理方法、装置和电子设备 | |
CN113936676A (zh) | 声音调节方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |