CN105679331A - 一种声气信号分离与合成的方法及系统 - Google Patents

一种声气信号分离与合成的方法及系统 Download PDF

Info

Publication number
CN105679331A
CN105679331A CN201511033483.6A CN201511033483A CN105679331A CN 105679331 A CN105679331 A CN 105679331A CN 201511033483 A CN201511033483 A CN 201511033483A CN 105679331 A CN105679331 A CN 105679331A
Authority
CN
China
Prior art keywords
information
spectrogram
valley
aspirant
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511033483.6A
Other languages
English (en)
Other versions
CN105679331B (zh
Inventor
滕少华
霍颖翔
张巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201511033483.6A priority Critical patent/CN105679331B/zh
Publication of CN105679331A publication Critical patent/CN105679331A/zh
Application granted granted Critical
Publication of CN105679331B publication Critical patent/CN105679331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种声气信号分离与合成的方法及系统,方法包括:将采样的人声语音信号由时域转换到频域,得到原始的频谱图;根据原始的频谱图测定人声语音信号的基频;在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到对应的声音信息频谱图以及对应的气音信息频谱图;分别对声音信息和气音信息进行处理;将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号。本发明能将声音信息与气音信息进行分离,以单独对声音信号或气音信号进行修改等后续处理,可广泛应用于信号处理领域。

Description

一种声气信号分离与合成的方法及系统
技术领域
本发明涉及信号处理领域,尤其是一种声气信号分离与合成的方法及系统。
背景技术
语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类进行思维的一种依托。人类开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语音信息,这对于促进社会的发展具有十分重要的意义。最近几十年,对语音的研究使科学家和工程师们走到一起,从而形成了一门重要的学科:语音信号处理。语音信号处理技术简称语音处理,它与语言学、语音学、心理学、声学、计算机学以及人工智能等学科都有着紧密的联系,极大地推动了社会的科技进步,我们可以用自动语音识别技术,使手写文稿和手工打印文本变成自动听写机操作;把人工查阅各种书面文字资料的操作变为口呼自动查阅各种各样的数据库;可以采用语音合成技术,将存储的语音或文字资料转化为语音高质量的回放,甚至自动翻译成另一种语言的语音回放或进行文字显示。总而言之,语音信号处理技术的研究对于信息化社会的发展具有极其重要的意义。
然而,目前对人声的语音信号处理技术大多只能根据基频与共振峰的关系提取出声带与口腔共鸣发出的声音信号,尚未能从人声语音信号中提取出唇齿发出的气音信号,无法单独对声音信号或气音信号进行修改等后续处理。
发明内容
为解决上述问题,本发明的目的在于:提供一种能将声音信号和气音信号进行分离的,声气信号分离与合成的方法。
本发明的另一目的在于:提供一种能将声音信号和气音信号进行分离的,声气信号分离与合成的系统。
本发明所采取的技术方案是:
一种声气信号分离与合成的方法,包括:
A、将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
B、根据原始的频谱图测定人声语音信号的基频;
C、在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
D、从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
E、分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
F、将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号。
进一步,所述步骤A,其具体为:
采用至少0.02322*a点的重叠加窗快速傅里叶变换对采样的人声语音信号进行处理,得到原始的频谱图,其中,a为设定的采样频率。
进一步,所述步骤B,其具体为:
通过分片段重叠加窗测定时域信号周期序列的方法,准确测定出人声语音信号的信号流在不同时间点的基频,其中,片段的长度在快速傅里叶变换窗口长度的1到4倍的范围内,重叠加窗的间距小于等于快速傅里叶变换的窗间距。
进一步,所述步骤D,其包括:
将峰值的位置信息从原始的频谱图中提取出来,进而得到声音信息频谱图;
将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图。
进一步,所述将峰值的位置信息提取出来,得到声音信息频谱图这一步骤,其包括:
D11、计算快速傅里叶变换结果中的理论峰值位置p,所述理论峰值位置p的计算公式为:p=2 n z/a*m,其中,2 n 为快速傅里叶变换的点数,n和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0<p<2n-1
D12、判断理论峰值位置p是否为整数,若是,则以理论峰值位置p对应的信息作为提取出的声音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的声音信息。
进一步,所述步骤D12中采用四舍五入法或线性插值法进行处理,得到提取出的声音信息这一步骤,其具体为:
若采用四舍五入法,则对理论峰值位置p进行四舍五入,然后以p四舍五入后的结果对应的信息作为提取出的声音信息;
若采用线性插值法,则提取出的声音信息x的计算公式为:x=(1-(p-q))*fq+(p-q)*fp,其中,q为p向下取整的结果,fq和fp分别为快速傅里叶变换结果中位置q和位置p对应的分量。
进一步,所述将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图这一步骤,其包括:
D21、计算快速傅里叶变换结果中的理论谷值位置s,所述理论谷值位置s的计算公式为:s=2 n z/a*(m-0.5),其中,2 n 为快速傅里叶变换的点数,n和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0<s<2n-1
D22、判断理论谷值位置s是否为整数,若是,则以理论谷值位置s对应的信息作为提取出的气音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的气音信息。
进一步,所述步骤D22中采用四舍五入法或线性插值法进行处理,得到提取出的气音信息这一步骤,其具体为:
若采用四舍五入法,则对理论谷值位置s进行四舍五入,然后以s四舍五入后的结果对应的信息作为提取出的气音信息;
若采用线性插值法,则提取出的气音信息k的计算公式为:k=(1-(s-r))*fr+(s-r)*fs,其中,r为s向下取整的结果,fs和fr分别为快速傅里叶变换结果中位置s和位置r对应的分量。
进一步,所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后,还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。
本发明所采取的另一技术方案是:
一种声气信号分离与合成的系统,包括:
转换模块,用于将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
测定模块,用于根据原始的频谱图测定人声语音信号的基频;
标记模块,用于在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
提取模块,用于从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
单独处理模块,用于分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
合成模块,用于将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号;
所述转换模块的输出端依次通过测定模块、标记模块、提取模块和单独处理模块进而与合成模块的输入端连接。
本发明的方法的有益效果是:根据测定的基频来确定波峰和波谷的位置,然后根据波峰和波谷的位置将声音信号和气音信号从人声语言信号中分离出来,解决了现有技术只能提取声音信号而未能从人声语音信号中提取出唇齿发出的气音信号的问题,能单独对声音信号或气音信号进行修改等后续处理;能将处理后的气音信号和声音信号重新合成正常的人声语音信号,更加方便和全面。进一步,在提取声音信息频谱图以及气音信息频谱图时,能根据效率或精度的要求选择采用四舍五入法或线性插值法得到完整的频谱图,更加灵活。
本发明的系统的有益效果是:根据测定的基频来确定波峰和波谷的位置,然后提取模块根据波峰和波谷的位置将声音信号和气音信号从人声语言信号中分离出来,解决了现有技术只能提取声音信号而未能从人声语音信号中提取出唇齿发出的气音信号的问题,能单独对声音信号或气音信号进行修改等后续处理;合成模块能将处理后的气音信号和声音信号重新合成正常的人声语音信号,更加方便和全面。
附图说明
图1为本发明一种声气信号分离与合成的方法的整体流程图;
图2为本发明一种声气信号分离与合成的系统的结构框图;
图3为本发明实施例一的整体流程图。
具体实施方式
参照图1,一种声气信号分离与合成的方法,包括:
A、将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
B、根据原始的频谱图测定人声语音信号的基频;
C、在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
D、从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
E、分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
F、将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号。
其中,谷值的位置可取两峰之间的平分点位置(中间位置)或其它两峰之间的位置。
步骤E执行的处理包括但不限于修改。
进一步作为优选的实施方式,所述步骤A,其具体为:
采用至少0.02322*a点的重叠加窗快速傅里叶变换对采样的人声语音信号进行处理,得到原始的频谱图,其中,a为设定的采样频率。
进一步作为优选的实施方式,所述步骤B,其具体为:
通过分片段重叠加窗测定时域信号周期序列的方法,准确测定出人声语音信号的信号流在不同时间点的基频,其中,片段的长度在快速傅里叶变换窗口长度的1到4倍的范围内,重叠加窗的间距小于等于快速傅里叶变换的窗间距。
进一步作为优选的实施方式,所述步骤D,其包括:
将峰值的位置信息从原始的频谱图中提取出来,进而得到声音信息频谱图;
将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图。
进一步作为优选的实施方式,所述将峰值的位置信息提取出来,得到声音信息频谱图这一步骤,其包括:
D11、计算快速傅里叶变换结果中的理论峰值位置p,所述理论峰值位置p的计算公式为:p=2 n z/a*m,其中,2 n 为快速傅里叶变换的点数,n和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0<p<2n-1
D12、判断理论峰值位置p是否为整数,若是,则以理论峰值位置p对应的信息作为提取出的声音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的声音信息。
进一步作为优选的实施方式,所述步骤D12中采用四舍五入法或线性插值法进行处理,得到提取出的声音信息这一步骤,其具体为:
若采用四舍五入法,则对理论峰值位置p进行四舍五入,然后以p四舍五入后的结果对应的信息作为提取出的声音信息;
若采用线性插值法,则提取出的声音信息x的计算公式为:x=(1-(p-q))*fq+(p-q)*fp,其中,q为p向下取整的结果,fq和fp分别为快速傅里叶变换结果中位置q和位置p对应的分量。
进一步作为优选的实施方式,所述将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图这一步骤,其包括:
D21、计算快速傅里叶变换结果中的理论谷值位置s,所述理论谷值位置s的计算公式为:s=2 n z/a*(m-0.5),其中,2 n 为快速傅里叶变换的点数,n和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0<s<2n-1
D22、判断理论谷值位置s是否为整数,若是,则以理论谷值位置s对应的信息作为提取出的气音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的气音信息。
进一步作为优选的实施方式,所述步骤D22中采用四舍五入法或线性插值法进行处理,得到提取出的气音信息这一步骤,其具体为:
若采用四舍五入法,则对理论谷值位置s进行四舍五入,然后以s四舍五入后的结果对应的信息作为提取出的气音信息;
若采用线性插值法,则提取出的气音信息k的计算公式为:k=(1-(s-r))*fr+(s-r)*fs,其中,r为s向下取整的结果,fs和fr分别为快速傅里叶变换结果中位置s和位置r对应的分量。
进一步作为优选的实施方式,所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后,还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。
其中,从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来后即可得到两张频谱图,但这两张频谱图可能会存在沟壑,所以还需要先通过插值处理填平这两张频谱图的沟壑才能得到完整的声音信息频谱图和气音信息频谱图。
参照图2,一种声气信号分离与合成的系统,包括:
转换模块,用于将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
测定模块,用于根据原始的频谱图测定人声语音信号的基频;
标记模块,用于在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
提取模块,用于从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
单独处理模块,用于分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
合成模块,用于将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号;
所述转换模块的输出端依次通过测定模块、标记模块、提取模块和单独处理模块进而与合成模块的输入端连接。
下面结合说明书附图和具体实施例对本发明作进一步详细说明。
实施例一
本发明在现有技术基础上进一步将语音信号中声带与口腔共鸣发出的声音信号与唇齿发出的气音信号进行分离,从而能够对声音信号和气音信号单独做出修改等后续处理,并在修改等处理完成之后,可以再合成语音信号。参照图3,本发明可以将声带与口腔共鸣发出的声音信息与唇齿发出的气音信息进行提取分离,经处理后再进行合成声气信号,具体的实现步骤如下:
(一)将人声语音信号转换到频域,获取频谱图。
实际使用时,对获取的人声语音信号样本,常常通过快速傅里叶变换(即FFT变换)将时域信号转换到频域,以得到原始人声的频谱图。
设人声语音信号样本的采样率为a赫兹,为保持最基本的语音频域范围,a应不低于8000赫兹;对于采样率为a赫兹的人声语音信号,适宜使用0.02322*a点或0.02322*a点以上的重叠加窗FFT变换进行转换,FFT的点数应该向上取整为2的n次方,其中n为正整数;窗间距小于等于FFT长度的一半。
(二)通过分片段重叠加窗测定时域信号周期序列的方法,准确测定出人声语音信号的信号流在不同时间点的基频,其中,片段的长度适宜在FFT窗口的1到4倍之间,重叠加窗的间距应小于等于FFT的窗间距。
(三)在频谱图上将与基频整数倍关系的位置标记为峰值的位置,两峰之间则为波谷值位置。
根据先验知识,声带与口腔共鸣发出的声音信号对应频谱图上的峰值位置,唇齿发出的气音信号对应频谱图上的峰谷位置。峰值位置和峰谷位置确认后即可得到相应的声音信息频谱图和气音信息频谱图。
(四)提取声音信息频谱图和气音信息频谱图。
提取声音信息频谱图和气音信息频谱图这一过程可进一步细分为:
(1)将峰值位置的信息提取出来,得到相应的声音信息频谱图。
具体来说,设FFT窗对应位置的基频被测定为z赫兹,FFT的点数为2 n ,则FFT结果中的多个位置p=2 n z/a*m均为峰值所在的位置,其中,m>0,m为整数,0<p<2n-1,记f1,f2,f3…为FFT结果的各个分量。由上述公式计算出的位置p不一定为整数,而FFT结果中的分量位置为整数,故还应采取一定方法进行取数,以得到所需的声音信息,本发明所采用的方法有以下两种:
方法1:使用四舍五入法取整下标,则取得的数值(即提取出的声音信息)为x=f[p],其中[p]表示对p进行四舍五入。
方法2:如图3所示,使用线性插值取数方式,记q为p向下取整的结果;则取得的数值(即提取出的声音信息)为x=(1-(p-q))*fq+(p-q)*fp
以上两种方法中,方法1的效率较高,而方法2则能获得较高精度。在使用时,可根据实际的效率或精度要求进行灵活选取。
(2)将谷值位置的信息提取出来,可以得到相应的气音信息频谱图。
具体来说,设FFT窗对应位置的基频被测定为z赫兹,FFT的点数为2 n ,则FFT结果中的多个位置s=2 n z/a*(m-0.5)均为谷值所在的位置,其中,m>0,m为整数,0<s<2n-1,记f1,f2,f3…为FFT结果的各个分量。由上述公式计算出的位置s不一定为整数,而FFT结果中的分量位置为整数,故还应采取一定方法进行取数,以得到所需的气音信息,本发明所采用的方法有以下两种:
方法1:使用四舍五入法取整下标,则取得的数值(即提取出的气音信息)为k=f[s],其中[s]表示对s进行四舍五入。
方法2:如图3所示,使用线性插值取数方式,记r为s向下取整的结果;则取得的数值(即提取出的气音信息)为k=(1-(s-r))*fr+(s-r)*fs
以上两种方法中,方法1的效率较高,而方法2则能获得较高精度。在使用时,可根据实际的效率或精度要求进行灵活选取。
(五)分别对声音信息和气音信息进行修改。
经过步骤(四)可以得到两张独立的频谱图,可根据实际需要在这两张频谱图上分别对声音信息和气音信息进行修改。
(六)合成修改后的声音信息和气音信息,得到最终的人声语音信号。
声音信息和气音信息的单独修改结束后,可根据声音信息和气音信息相互之间的位置关系进行排序将两张频谱图合成,以还原为语音信号。
本实施例具有的有益效果是:
1)能够将声音信息与气音信息进行分离,从而能实现对这两者的单独修改操作。
2)可以将修改后的声音信息与气音信息合成,以恢复成正常的人类声音语音信号,更加方便和全面。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种声气信号分离与合成的方法,其特征在于:包括:
A、将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
B、根据原始的频谱图测定人声语音信号的基频;
C、在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
D、从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
E、分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
F、将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号。
2.根据权利要求1所述的一种声气信号分离与合成的方法,其特征在于:所述步骤A,其具体为:
采用至少0.02322*a点的重叠加窗快速傅里叶变换对采样的人声语音信号进行处理,得到原始的频谱图,其中,a为设定的采样频率。
3.根据权利要求2所述的一种声气信号分离与合成的方法,其特征在于:所述步骤A,其具体为:所述步骤B,其具体为:
通过分片段重叠加窗测定时域信号周期序列的方法,准确测定出人声语音信号的信号流在不同时间点的基频,其中,片段的长度在快速傅里叶变换窗口长度的1到4倍的范围内,重叠加窗的间距小于等于快速傅里叶变换的窗间距。
4.根据权利要求2所述的一种声气信号分离与合成的方法,其特征在于:所述步骤D,其包括:
将峰值的位置信息从原始的频谱图中提取出来,进而得到声音信息频谱图;
将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图。
5.根据权利要求4所述的一种声气信号分离与合成的方法,其特征在于:所述将峰值的位置信息提取出来,得到声音信息频谱图这一步骤,其包括:
D11、计算快速傅里叶变换结果中的理论峰值位置p,所述理论峰值位置p的计算公式为:p=2 n z/a*m,其中,2 n 为快速傅里叶变换的点数,n和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0<p<2n-1
D12、判断理论峰值位置p是否为整数,若是,则以理论峰值位置p对应的信息作为提取出的声音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的声音信息。
6.根据权利要求5所述的一种声气信号分离与合成的方法,其特征在于:所述步骤D12中采用四舍五入法或线性插值法进行处理,得到提取出的声音信息这一步骤,其具体为:
若采用四舍五入法,则对理论峰值位置p进行四舍五入,然后以p四舍五入后的结果对应的信息作为提取出的声音信息;
若采用线性插值法,则提取出的声音信息x的计算公式为:x=(1-(p-q))*fq+(p-q)*fp,其中,q为p向下取整的结果,fq和fp分别为快速傅里叶变换结果中位置q和位置p对应的分量。
7.根据权利要求4所述的一种声气信号分离与合成的方法,其特征在于:所述将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图这一步骤,其包括:
D21、计算快速傅里叶变换结果中的理论谷值位置s,所述理论谷值位置s的计算公式为:s=2 n z/a*(m-0.5),其中,2 n 为快速傅里叶变换的点数,n和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0<s<2n-1
D22、判断理论谷值位置s是否为整数,若是,则以理论谷值位置s对应的信息作为提取出的气音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的气音信息。
8.根据权利要求7所述的一种声气信号分离与合成的方法,其特征在于:所述步骤D22中采用四舍五入法或线性插值法进行处理,得到提取出的气音信息这一步骤,其具体为:
若采用四舍五入法,则对理论谷值位置s进行四舍五入,然后以s四舍五入后的结果对应的信息作为提取出的气音信息;
若采用线性插值法,则提取出的气音信息k的计算公式为:k=(1-(s-r))*fr+(s-r)*fs,其中,r为s向下取整的结果,fs和fr分别为快速傅里叶变换结果中位置s和位置r对应的分量。
9.根据权利要求1-8任一项所述的一种声气信号分离与合成的方法,其特征在于:所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后,还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。
10.一种声气信号分离与合成的系统,其特征在于:包括:
转换模块,用于将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
测定模块,用于根据原始的频谱图测定人声语音信号的基频;
标记模块,用于在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
提取模块,用于从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
单独处理模块,用于分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
合成模块,用于将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号;
所述转换模块的输出端依次通过测定模块、标记模块、提取模块和单独处理模块进而与合成模块的输入端连接。
CN201511033483.6A 2015-12-30 2015-12-30 一种声气信号分离与合成的方法及系统 Active CN105679331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511033483.6A CN105679331B (zh) 2015-12-30 2015-12-30 一种声气信号分离与合成的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511033483.6A CN105679331B (zh) 2015-12-30 2015-12-30 一种声气信号分离与合成的方法及系统

Publications (2)

Publication Number Publication Date
CN105679331A true CN105679331A (zh) 2016-06-15
CN105679331B CN105679331B (zh) 2019-09-06

Family

ID=56298637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511033483.6A Active CN105679331B (zh) 2015-12-30 2015-12-30 一种声气信号分离与合成的方法及系统

Country Status (1)

Country Link
CN (1) CN105679331B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN107657962A (zh) * 2017-08-14 2018-02-02 广东工业大学 一种语音信号的喉声和气声识别与分离方法及系统
CN109767750A (zh) * 2017-11-09 2019-05-17 南京理工大学 一种基于语音雷达与视频的语音合成方法
CN111128228A (zh) * 2019-12-31 2020-05-08 北京奇艺世纪科技有限公司 一种频谱提取方法及装置
CN111326143A (zh) * 2020-02-28 2020-06-23 科大讯飞股份有限公司 语音处理方法、装置、设备及存储介质
CN114449339A (zh) * 2022-02-16 2022-05-06 深圳万兴软件有限公司 背景音效的转换方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719514A (zh) * 2004-07-06 2006-01-11 中国科学院自动化研究所 基于语音分析与合成的高品质实时变声方法
CN1914666A (zh) * 2004-01-27 2007-02-14 松下电器产业株式会社 声音合成装置
CN102737645A (zh) * 2012-06-15 2012-10-17 武汉天喻信息产业股份有限公司 一种语音信号的基音周期估计算法
CN104091603A (zh) * 2014-05-23 2014-10-08 普强信息技术(北京)有限公司 基于基频的端点检测系统及其计算方法
CN104183233A (zh) * 2014-09-10 2014-12-03 华侃如 提高语音辅元衔接部分周期成分提取质量的方法
CN104778949A (zh) * 2014-01-09 2015-07-15 华硕电脑股份有限公司 音频处理方法及音频处理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1914666A (zh) * 2004-01-27 2007-02-14 松下电器产业株式会社 声音合成装置
CN1719514A (zh) * 2004-07-06 2006-01-11 中国科学院自动化研究所 基于语音分析与合成的高品质实时变声方法
CN102737645A (zh) * 2012-06-15 2012-10-17 武汉天喻信息产业股份有限公司 一种语音信号的基音周期估计算法
CN104778949A (zh) * 2014-01-09 2015-07-15 华硕电脑股份有限公司 音频处理方法及音频处理装置
CN104091603A (zh) * 2014-05-23 2014-10-08 普强信息技术(北京)有限公司 基于基频的端点检测系统及其计算方法
CN104183233A (zh) * 2014-09-10 2014-12-03 华侃如 提高语音辅元衔接部分周期成分提取质量的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN106847294B (zh) * 2017-01-17 2018-11-30 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN107657962A (zh) * 2017-08-14 2018-02-02 广东工业大学 一种语音信号的喉声和气声识别与分离方法及系统
CN107657962B (zh) * 2017-08-14 2020-06-12 广东工业大学 一种语音信号的喉声和气声识别与分离方法及系统
CN109767750A (zh) * 2017-11-09 2019-05-17 南京理工大学 一种基于语音雷达与视频的语音合成方法
CN111128228A (zh) * 2019-12-31 2020-05-08 北京奇艺世纪科技有限公司 一种频谱提取方法及装置
CN111128228B (zh) * 2019-12-31 2022-11-01 北京奇艺世纪科技有限公司 一种频谱提取方法及装置
CN111326143A (zh) * 2020-02-28 2020-06-23 科大讯飞股份有限公司 语音处理方法、装置、设备及存储介质
CN114449339A (zh) * 2022-02-16 2022-05-06 深圳万兴软件有限公司 背景音效的转换方法、装置、计算机设备及存储介质
CN114449339B (zh) * 2022-02-16 2024-04-12 深圳万兴软件有限公司 背景音效的转换方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN105679331B (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN105679331A (zh) 一种声气信号分离与合成的方法及系统
WO2017067206A1 (zh) 个性化多声学模型的训练方法、语音合成方法及装置
CN108231062B (zh) 一种语音翻译方法及装置
US20220122582A1 (en) Parallel Tacotron Non-Autoregressive and Controllable TTS
JP6638944B2 (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
EP4295353A1 (en) Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech
CN1991976A (zh) 基于音素的语音识别方法与系统
CN102231278A (zh) 实现语音识别中自动添加标点符号的方法及系统
CN112992162B (zh) 一种音色克隆方法、系统、装置及计算机可读存储介质
US8725498B1 (en) Mobile speech recognition with explicit tone features
JPS61186998A (ja) 音声の区分化方法
Akanksh et al. Interconversion of emotions in speech using td-psola
CN1032391C (zh) 基于波形编辑的汉语文字-语音转换方法及系统
Oyucu A Novel End-to-End Turkish Text-to-Speech (TTS) System via Deep Learning
US9196263B2 (en) Pitch period segmentation of speech signals
CN1009320B (zh) 语音识别
CN104282300A (zh) 一种非周期成分音节模型建立、及语音合成的方法和设备
Watada Speech recognition in a multi-speaker environment by using hidden markov model and mel-frequency approach
Reddy et al. Neutral to happy emotion conversion by blending prosody and laughter
Peng et al. Singing Voice Conversion Between Popular Music and Chinese Opera Based on VITS
CN115312029B (zh) 一种基于语音深度表征映射的语音翻译方法及系统
Sudhakar et al. Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil
CN102682766A (zh) 可自学习的情侣声音对换机
JPH07261798A (ja) 音声分析合成装置
Wang et al. Research on Speech Feature Extraction System in Oral English

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant