CN108281150A - 一种基于微分声门波模型的语音变调变嗓音方法 - Google Patents

一种基于微分声门波模型的语音变调变嗓音方法 Download PDF

Info

Publication number
CN108281150A
CN108281150A CN201810083797.4A CN201810083797A CN108281150A CN 108281150 A CN108281150 A CN 108281150A CN 201810083797 A CN201810083797 A CN 201810083797A CN 108281150 A CN108281150 A CN 108281150A
Authority
CN
China
Prior art keywords
frame
voice
signal
derivative
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810083797.4A
Other languages
English (en)
Other versions
CN108281150B (zh
Inventor
周林灿
申炎仃
黄昭鸣
孙海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tiger Rehabilitation Therapy Science And Technology Co Ltd
Original Assignee
Shanghai Tiger Rehabilitation Therapy Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tiger Rehabilitation Therapy Science And Technology Co Ltd filed Critical Shanghai Tiger Rehabilitation Therapy Science And Technology Co Ltd
Priority to CN201810083797.4A priority Critical patent/CN108281150B/zh
Publication of CN108281150A publication Critical patent/CN108281150A/zh
Application granted granted Critical
Publication of CN108281150B publication Critical patent/CN108281150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于微分声门波模型的语音变调变嗓音方法,本发明采用线性预测编码技术和微分声门波相结合的方法合成变调语音,将语音信号通过LPC逆滤波器得到的残差信号即为声门信号的一阶差分,用LF模型对其进行更细致的模拟得到高质量的声门激励信号,从而合成高质量的变调语音。本发明简单、有效、快速,通过te/tc和tp/tc能灵活控制嗓音源,具有广泛的实用价值。

Description

一种基于微分声门波模型的语音变调变嗓音方法
技术领域
本发明属于语音合成技术领域,涉及一种语音变调方法,尤其是涉及一 种基于微分声门波模型的语音变调、变嗓音方法。
背景技术
随着信息技术的发展,传统的音视频素材已无法满足人们的需求,融合 语言学、信号处理技术、计算机科学等多领域的语音合成技术应运而生。其 中的语音变调不变速技术具有广阔的应用市场,如保护说话人隐私,提供某 种娱乐效果,帮助语言功能不完善或受损的患者进行语音恢复,用作如语音 邮件、广播电台变声热线、多媒体音效处理、军事保密通信等,可广泛应用 于民用,商用,医用和军用等多个领域。
语音变调不变速指改变语音基音频率的大小,同时保持语速和语义不变, 即保持短时频谱包络和时间过程基本不变。语音变调不变速算法中,基于线 性预测的方法具有简单、完全自动的分析步骤,合成器结构简单,硬件实现 容易等优点,但嗓音源序列采用简单的脉冲和噪声激励模型,合成语音有严 重的机器声和噪声。对嗓音源序列建模拟合生成更为细致精确的嗓音源序列 以合成高质量的语音,是近年来的研究热点及难点。
申请号为200810222508.0的中国专利公开了一种语音变调方法及装置, 能够实现语音的自适应变调。但用户人群不同,需求也不同,由于该种变调 方式无法通过手工设置升降调的幅度,因此不适应于希望按照自己的需求来 固定地改变音调的用户。申请号为201610573399.1的中国专利公开了一种稳 定音色的音乐语音变调方法,通过语音信号的倒谱序列导出频谱包络,从中 分离出语音信号的激励分量,再计算经变调处理后的激励分量,并与频谱包 络重新合成音调改变但音色稳定的音乐语音信号。该方法同样无法实现对嗓 音源的灵活控制。
发明内容
本发明针对现有技术的不足,提出了一种基于微分声门波模型的语音变 调变嗓音方法。
本发明采用线性预测编码(LPC)技术和微分声门波(LF)相结合的方法 合成变调语音,将语音信号通过LPC逆滤波器得到的残差信号即为声门信号 的一阶差分,用LF模型对其进行更细致的模拟得到高质量的声门激励信号, 从而合成高质量的变调语音。LPC是目前最简单、最重要、最有效、最流行的 语音分析技术之一,普遍应用于语音信号处理的各个方面,具有低速率传输 和储存语音、计算简单快速,能够极为精确地估计语音参数等优点。LF模型 通过对嗓音源参数的灵活控制,可以合成不同音色的语音,且模型参数具有 明确的物理意义,属发音器官合成语音法范畴,是语音合成技术发展的潮流 之一。
本发明的目的就是提供一种更为简单、有效、快速的、能够灵活改变嗓 音源参数的语音变调、变嗓音的方法。本发明的目的可以通过以下技术方案 来实现:一种基于微分声门波模型的语音变调变嗓音方法,该方法包括:
Step1:数字语音信号记为S,采样频率记为fs,对S进行预处理,包括: 去除直流分量、预滤波、预加重、归一化一系列处理,得到预处理后的信号 S1;其中预加重系数k1范围为-1.0<k1<-0.90;预滤波器为带通滤波器记为 lvboqi1,通带频率范围60Hz~2000Hz,阻带范围55Hz~3400Hz;
Step2:对S1加窗分帧后得S2;
窗函数为矩形窗,分帧参数为:分段时长初步取tms,t范围10~30,精确值为 t×fs左右2的整次幂;帧长、帧移、帧叠分别记为wlen、inc、overlap,wlen=t×fs 左右2的整次幂,inc=wlen×k2,k2范围为1/5~1/2,帧叠overlap=wlen-inc,总帧 数fn=fix((N-wlen)/inc)+1,其中N为信号的长度,fix为取整;
Step3:对S2逐帧进行静音帧、清音帧和浊音帧的判别;
所述静音段、清音段和浊音段的判别步骤如下:
Step3.1:逐帧计算短时平均能量,记为ampi
Step3.2:逐帧计算短时平均过零率,记为zcri
Step3.3:设置短时平均能量较高的阈值ampth1和较低的阈值ampth2;
Step3.4:设置短时平均过零率的阈值zcrth;
Step3.5:短时平均能量和短时平均过零率双门限法进行判别:当 ampi>ampth1,该帧为浊音帧;当ampi<ampth2,该帧为静音帧;当 ampth2<ampi<ampth1,若zcri>zcrth,该帧为清音帧,若zcri<zcrth,该帧为 清音帧;
Step4:基音周期估计:提取基音频率f0i和基音周期T0i,根据 基音改变参数计算新的基音频率Nf0i和基音周期NT0i,下标i=1~fn, fn为总帧数,下同;
Step4.1:将预处理后的信号S1通过带通滤波器记为lvboqi2得S31, 滤波器的主要通带频率范围为60Hz~500Hz,阻带范围为20Hz~2000Hz, 通带波纹为x1dB,范围1≦x1≦5,阻带衰减为x2dB,30≦x2≦60;
Step4.2:对S31按wlen和inc加矩形窗分帧,得S32;
Step4.3:对S32中的浊音帧加汉明窗,用三电平削波法削波、互相关 函数法求取基音周期T0i和基音频率f0i
Step4.4:对超出基频范围f0i记为0,对应的T0i记为0;处理后的T0 i和f0i进行平滑处理得稳定的基音频率Dfreq和基音周期Dpitch;
Step4.5:新的基音频率Dfreqm=Dfreq×rate,基音周期 Dpitchm=Dpitch/rate,其中rate指新的基音频率是原基音频率的倍数;
Step5:依据言语产生的源滤波器模型理论,通过线性预测分析 技术(LPC)和逆滤波技术来估计残差信号ei和声道模型参数;
残差信号和声道模型系统函数通过以下步骤获得:
Step5.1:对分帧后的语音信号S2加汉明窗得S21;
Step5.2:对S21逐帧估计声道模型参数:先用一阶LPC分析估计声门 脉冲对语音信号频谱的倾斜效应,通过逆滤波得到消除倾斜效应后的信号 S22,再对S22进行高阶LPC分析,得到声道传递系数ari和增益Gaini
Step5.3:对残差信号ei的估计:使S21通过ari构成的逆滤波器即得 ei
Step6:逐帧合成新的激励NGi:静音帧的激励按随机噪声合成, 清音帧的激励按高斯白噪声合成,浊音帧的激励按LF模型的积分函 数即声门波函数,在新的基音周期基础上合成;其中LF模型即微分声 门波模型。
浊音激励信号按如下步骤合成:
Step6.1:将ei通过滤波器lvboqi2,得微分声门波信号LFi
Step6.2:从LFi提取单周期信号LF0i
Step6.3:对LF0i进行数值积分得声门波信号G0i
Step6.4:计算声门波模型函数表达式G;
LF模型函数表达式为当0<t<te,LF=E0×exp(-k1×t)×sin(wg×t),当 te<t<tc,LF=-Ee×(exp(-k2×(t-te)));则对LF模型函数积分可得声门波模型 函数表达式,即当0<t≦te,G=-(E0×exp(-k1×t)×cos(t×wg))/t,当te<t≦tc, G=(Ee×exp(-k2×(t-te)))/k2+C。其中,C为常数使得函数图像在te处连续; E0为G0i的正的最大值;Ee为G0i的负的最大值的绝对值;wg=pi/tp;te为 Ee对应的时刻;tp为微分声门波为0的时刻;tc=Dpitchmi/fs;k1=|real(log (Ee/(E0×sin(wg×te))))/te)|,real为取实部;
k2=abs(Ee×(wg^2+k1^2)/(E0×(exp(k1×te)
×(k1×sin(wg×te)-wg×cos(wg×te))+wg))),abs为取绝对值;
Step6.5:运用声门波模型对G0i拟合,得到拟合的声门激励信号GGi
Step6.6:对GGi变调处理得到基音频率改变的激励信号;
Step6.7:考虑到激励帧与帧间的连续性,引入一变量np,初始值为0, 第i帧的激励序列记为Ei(1:wlen),有效序列即与下一帧不重叠的序列 为Ei(1:inc),单个周期声门脉冲序列长度为n0,np为不足一周期的长 度,下一帧激励应接在np后,故下一帧激励序列为Ei+1(np+1:np+wlen), 有效序列为Ei+1(np+1:np+inc);为方便合成,帧激励取Ei(np+1:np+wlen), 合成语音帧通过叠加得到相位连续的语音信号。
Step7:将新的激励NGi通过声道模型系统函数构成的滤波器,合 成各帧语音s0i
Step8:对各帧语音信号s0i叠加,得到相位连续的、变调变嗓音 合成语音SS。帧语音叠加时,采用线性叠加法但不仅限于线性叠加, 帧与帧之间的连续通过激励信号的连续来实现。
Step9:通过控制te/tc和tp/tc来对嗓音源的控制,模拟声门的开闭情 况。其中的tc为基音周期,te为微分声门波达到负的最大值时对应时刻;tp 为微分声门波为0的时刻。一个基音周期内tp、te相对于tc的比例可以反映声 门张开和闭合的速度,tp/tc的实际物理意义是声门张至最大位置的快慢程 度,其值越大,表明声门由闭合到张开至最大的时刻越短,即声门很快张开; te/tc的实际物理意义是声门在闭合的过程中加速度的变化情况,其值越大, 表明声门以很大的加速度很快闭合。张开闭合比较剧烈时声音会变的“生硬”,类似与人喉部肌肉紧张、气息与震动不和谐的时发出的声音;而张开闭合相 对缓慢时声音趋于“轻柔”。
与现有技术相比,本发明提出了一种基于微分声门波模型的语音变调、 变嗓音方法,通过LPC提取声门波信号和估计声道模型系统函数;通过三电 平削波互相关函数法提取基音周期和基音频率,计算变调后的基音频率和基 音周期;通过LF微分声门波计算声门波模型,对提取的声门波进行拟合,根 据新的基音周期合成新的声门波;将合成的声门波通过声道模型,从而得到 音调改变而语音速度不变的语音信号。该方法简单、有效、快速,通过te/tc 和tp/tc能灵活控制嗓音源,具有广泛的实用价值。
附图说明
图1为本发明中一种基于微分声门波模型的语音变调、变嗓音方法的流 程图。
图2为本发明一实施例中原始语音信号的频谱图和基音轨迹图。
图3为本发明一实施例中采用该基于微分声门波模型的语音变调、变嗓 音方法变调处理后的语音信号的频谱图和基音轨迹图。
图4-1为本发明一实施例中微分声门波图;
图4-2为本发明一实施例中对应的声门波图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例:
如图1所示,本实施例中的语音信号选择稳态元音ai,采样频率 fs=44100Hz,步骤如下:
Step1:ai的语音信号记为S,预处理后的信号记为S1;
去除直流分量得S11=S-mean(S),其中mean为求均值;预滤波后得 S12,预滤波选择椭圆滤波器,该滤波器记为lvboqi1:通带频率范围 60~2000Hz,阻带范围55~3400Hz,通带波纹1dB,阻带衰减15dB;预加重系 数选择-0.95,预加重后的信号记为S13;归一化以信号绝对值的最大值为1 进行归一,归一化后的信号记为S1。
Step2:对S1加窗分帧后得S2;
窗函数选择矩形窗;分段时长初步取t,单位为ms,范围10~30,精确 值为t×fs左右2的整次幂;帧长wlen=t×fs左右2的整次幂,帧移inc=wlen ×k2,k2=1/2,帧叠overlap=wlen-inc,总帧数fn=fix((N-wlen)/win)+1, 其中N为信号的长度,fix为取整。每帧信号的起点n1=(i-1)×inc+1,终点 n2=n1+wlen-1,S2i=S1(n1:n2),i表示第i帧语音。
Step3:对S2逐帧进行静音帧、清音帧和浊音帧的判别;
逐帧计算短时平均能量ampi(1≦m≦wlen,i代表第i 帧信号)和短时平均过零率zcri;高阈值ampth1和低阈值ampth2:当 ampi>ampth1,该帧为浊音帧;当ampi<ampth2,该帧为静音帧;当 ampth2<ampi<ampth1,若zcri>zcrth,该帧为清音帧,若zcri<zcrth,该帧为 清音帧;
Step4:基音周期估计:提取基音频率f0i和基音周期T0i,根据基音改 变参数计算新的基音频率Nf0i和基音周期NT0i;如图2、图3所示;
将预处理后的信号S1通过带通滤波器lvboqi2得S31,lvboqi2参数: 通带频率范围60~500Hz,阻带范围20~2000Hz,通带波纹x1=1dB,阻带衰减 x2=35dB;
对S31按wlen和inc加矩形窗,按wlen和inc分帧得S32;
S32中的静音帧、清音帧,f0和T0均为0;浊音帧加汉明窗,用三电平 削波法进行削波处理,对削波后的信号运用互相关函数法求取基音周期T0i; 根据基音频率=采样频率/基音周期的关系,计算基音频率f0i
基频范围设为60~500Hz但不仅限于此范围,故对超出此范围的f0i记为 0,对应的T0i记为0;处理后的T0i和f0i用多次中值滤波的方法进行平滑处 理,得到稳定的基音频率Dfreq和基音周期Dpitch;
新的基音频率Dfreqm=Dfreq×rate,基音周期Dpitchm=Dpitch/rate, 其中rate指新的基音频率是原基音频率的倍数;
Step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术(LPC) 和逆滤波技术来估计残差信号ei和声道模型参数;
对分帧信号S2i加汉明窗得S21;对S21进行1阶LPC以消除声门脉冲对 语音信号频谱的倾斜效应,通过逆滤波得到消除倾斜效应后的信号S22;对 S22进行高阶LPC分析,得到声道传递系数ari和增益Gaini;使S21通过ar i构成的逆滤波器即得ei
Step6:如图4-1、图4-2所示,逐帧合成新的激励NGi:静音帧的激励按 随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按LF模型的 积分函数即声门波函数,在新的基音周期基础上合成。浊音帧的激励信号合 成步骤如下:
将ei通过滤波器lvboqi2,得微分声门波信号LFi
从LFi提取单周期信号LF0i,方法:求LFi的正的最大值Pmax,向前求临近 的过零点P1,向后求临近的过零点P2和P3,则LF0i=LFi(P1:P3);
对LF0i进行数值积分得声门波信号G0i
根据LF模型函数表达式计算声门波模型函数表达式:LF模型函数表达式 为当0<t≦te,LF=E0×exp(-k1×t)×sin(wg×t),当te<t≦tc,LF= -Ee×(exp(-k2×(t-te)));则对LF模型函数积分可得声门波模型函数表达 式,即当0<t≦te,G=-(E0×exp(-k1×t)×cos(t×wg))/t,当te<t≦tc, G=(Ee×exp(-k2×(t-te)))/k2+C。其中,C为常数使得函数图像在te处 连续;E0为G0i的正的最大值;Ee为G0i的负的最大值的绝对值;wg=pi/tp;te为Ee对应的时刻;tp为微分声门波为0的时刻;tc=Dpitchmi/fs;
k1=|real(log(Ee/(E0×sin(wg×te))))/te)|,real为取实部;
k2=|Ee×(wg^2+k1^2)/(E0×(exp(k1×te)
×(k1×sin(wg×te)-wg×cos(wg×te))+wg))|;
根据声门波模型对G0i进行模拟,并根据新的基音周期Dpitchmi合成新的 声门激励信号GGi
Step7:将新的激励NGi通过声道模型系统函数构成的滤波器,合成各帧 语音s0i
Step8:对各帧语音信号s0i叠加,得到相位连续的、变调变嗓音合成语 音SS。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使 用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改, 并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因 此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离 本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims (10)

1.一种基于微分声门波模型的语音变调变嗓音方法,其特征在于,该方法具体包括以下步骤:
Step1:采集的语音信号记为S,采样频率记为fs,对S进行预处理,包括:去除直流分量、预滤波、预加重、归一化一系列处理,得到预处理后的信号S1;
Step2:对S1加窗分帧后得S2;
Step3:对S2逐帧进行静音帧、清音帧和浊音帧的判别;
Step4:基音周期估计:提取基音频率f0i和基音周期T0i,根据基音改变参数计算新的基音频率Nf0i和基音周期NT0i,下标i=1~fn,fn为总帧数;
Step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术和逆滤波技术来估计残差信号ei和声道模型参数;
Step6:按照变调和变嗓音的要求逐帧合成新的激励NGi:静音帧的激励按随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按LF模型的积分函数即声门波函数,改变同一时间内的基音周期个数来实现变调,改变LF模型中关于声门开合速度的参数实现嗓音效果模拟在新的基音周期基础上合成;
Step7:将新的激励NGi通过声道模型系统函数构成的滤波器,合成各帧语音s0i
Step8:对各帧语音信号s0i叠加,得到相位连续的、变调变嗓音合成语音SS。
2.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step1中,预加重系数k1范围为-1.0<k1<-0.90;预滤波器为带通滤波器记为lvboqi1,主要参数为:通带频率范围60Hz~2000Hz,阻带范围55Hz~3400Hz。
3.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step2中,窗函数为矩形窗,分帧参数为:分段时长初步取tms,t范围10~30,精确值为t×fs左右2的整次幂;帧长、帧移、帧叠分别记为wlen、inc、overlap,wlen=t×fs左右2的整次幂,inc=wlen×k2,k2范围为1/5~1/2,帧叠overlap=wlen-inc,总帧数fn=fix((N-wlen)/inc)+1,其中N为信号的长度,fix为取整。
4.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step3中,所述静音段、清音段和浊音段的判别步骤如下:
Step4.1:逐帧计算短时平均能量,记为ampi
Step3.2:逐帧计算短时平均过零率,记为zcri
Step4.3:设置短时平均能量较高的阈值ampth1和较低的阈值ampth2;
Step4.4:设置短时平均过零率的阈值zcrth;
Step4.5:短时平均能量和短时平均过零率双门限法进行判别:当ampi>ampth1,该帧为浊音帧;当ampi<ampth2,该帧为静音帧;当ampth2<ampi<ampth1,若zcri>zcrth,该帧为清音帧,若zcri<zcrth,该帧为清音帧。
5.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step4中,基音周期的估计具体步骤如下:
Step5.1:将预处理后的信号S1通过带通滤波器记为lvboqi2得S31,滤波器的主要通带频率范围为60Hz~500Hz,阻带范围为20Hz~2000Hz,通带波纹为x1dB,范围1≦x1≦5,阻带衰减为x2dB,30≦x2≦60;
Step5.2:对S31按wlen和inc加矩形窗分帧,得S32;
Step5.3:对S32中的浊音帧加汉明窗,用三电平削波法削波、互相关函数法求取基音周期T0i和基音频率f0i
Step5.4:对超出基频范围f0i记为0,对应的T0i记为0;处理后的T0i和f0i进行平滑处理得稳定的基音频率Dfreq和基音周期Dpitch;
Step5.5:新的基音频率Dfreqm=Dfreq×rate,基音周期Dpitchm=Dpitch/rate,其中rate指新的基音频率是原基音频率的倍数。
6.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step5中,残差信号和声道模型系统函数通过以下步骤获得:
Step6.1:对分帧后的语音信号S2加汉明窗得S21;
Step6.2:对S21逐帧估计声道模型参数:先用1阶LPC分析估计声门脉冲对语音信号频谱的倾斜效应,通过逆滤波得到消除倾斜效应后的信号S22,再对S22进行高阶LPC分析,得到声道传递系数ari和增益Gaini
Step6.3:对残差信号ei的估计:使S21通过ari构成的逆滤波器即得ei
7.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step6中,浊音激励信号按如下步骤合成:
Step7.1:将ei通过滤波器lvboqi2,得微分声门波信号LFi
Step7.2:从LFi提取单周期信号LF0i
Step7.3:对LF0i进行数值积分得声门波信号G0i
Step7.4:计算声门波模型函数表达式G;
LF模型函数表达式为当0<t<te,LF=E0×exp(-k1×t)×sin(wg×t),当te<t<tc,LF=-Ee×(exp(-k2×(t-te)));则对LF模型函数积分可得声门波模型函数表达式,即当0<t≦te,G=-(E0×exp(-k1×t)×cos(t×wg))/t,当te<t≦tc,G=(Ee×exp(-k2×(t-te)))/k2+C;其中,C为常数使得函数图像在te处连续;E0为G0i的正的最大值;Ee为G0i的负的最大值的绝对值;wg=pi/tp;te为Ee对应的时刻;tp为微分声门波为0的时刻;tc=Dpitchmi/fs;k1=|real(log(Ee/(E0×sin(wg×te))))/te)|,real为取实部;k2=abs(Ee×(wg^2+k1^2)/(E0×(exp(k1×te)×(k1×sin(wg×te)-wg×cos(wg×te))+wg)));
Step7.4:运用声门波模型对G0i拟合,得到拟合的声门激励信号GGi
Step7.5:对GGi变调处理得到基音频率改变的激励信号;
Step7.6:考虑到激励帧与帧间的连续性,引入一变量np,初始值为0,第i帧的激励序列记为Ei(1:wlen),有效序列即与下一帧不重叠的序列为Ei(1:inc),单个周期声门脉冲序列长度为n0,np为不足一周期的长度,下一帧激励应接在np后,故下一帧激励序列为Ei+1(np+1:np+wlen),有效序列为Ei+1(np+1:np+inc);为方便合成,帧激励取Ei(np+1:np+wlen),合成语音帧通过叠加得到相位连续的语音信号。
8.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step7中,合成语音的声强通过增益Gaini控制。
9.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step8中,帧语音叠加时,采用线性叠加法但不仅限于线性叠加,帧与帧之间的连续通过激励信号的连续来实现。
10.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,通过控制te/tc和tp/tc来对嗓音源的控制,模拟声门的开闭情况;其中的tc为基音周期,te为微分声门波达到负的最大值时对应时刻;tp为微分声门波为0的时刻。
CN201810083797.4A 2018-01-29 2018-01-29 一种基于微分声门波模型的语音变调变嗓音方法 Active CN108281150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810083797.4A CN108281150B (zh) 2018-01-29 2018-01-29 一种基于微分声门波模型的语音变调变嗓音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810083797.4A CN108281150B (zh) 2018-01-29 2018-01-29 一种基于微分声门波模型的语音变调变嗓音方法

Publications (2)

Publication Number Publication Date
CN108281150A true CN108281150A (zh) 2018-07-13
CN108281150B CN108281150B (zh) 2020-11-17

Family

ID=62805490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810083797.4A Active CN108281150B (zh) 2018-01-29 2018-01-29 一种基于微分声门波模型的语音变调变嗓音方法

Country Status (1)

Country Link
CN (1) CN108281150B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147809A (zh) * 2018-09-20 2019-01-04 广州酷狗计算机科技有限公司 音频信号处理方法、装置、终端及存储介质
CN111081273A (zh) * 2019-12-31 2020-04-28 湖南景程电子科技有限公司 一种基于声门波信号特征提取的语音情感识别方法
CN111739544A (zh) * 2019-03-25 2020-10-02 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质
CN117975982A (zh) * 2024-04-01 2024-05-03 天津大学 一种基于g-lpc的病理嗓音增强方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0421360A2 (en) * 1989-10-02 1991-04-10 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
CN1274456A (zh) * 1998-05-21 2000-11-22 萨里大学 语音编码器
CN1424712A (zh) * 2002-12-19 2003-06-18 北京工业大学 2.3kb/s谐波激励线性预测语音编码方法
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN101847404A (zh) * 2010-03-18 2010-09-29 北京天籁传音数字技术有限公司 一种实现音频变调的方法和装置
EP2242045A1 (en) * 2009-04-16 2010-10-20 Faculte Polytechnique De Mons Speech synthesis and coding methods
CN102201240A (zh) * 2011-05-27 2011-09-28 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
US9135923B1 (en) * 2014-03-17 2015-09-15 Chengjun Julian Chen Pitch synchronous speech coding based on timbre vectors
CN106228973A (zh) * 2016-07-21 2016-12-14 福州大学 稳定音色的音乐语音变调方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0421360A2 (en) * 1989-10-02 1991-04-10 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
CN1274456A (zh) * 1998-05-21 2000-11-22 萨里大学 语音编码器
CN1424712A (zh) * 2002-12-19 2003-06-18 北京工业大学 2.3kb/s谐波激励线性预测语音编码方法
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
EP2242045A1 (en) * 2009-04-16 2010-10-20 Faculte Polytechnique De Mons Speech synthesis and coding methods
CN101847404A (zh) * 2010-03-18 2010-09-29 北京天籁传音数字技术有限公司 一种实现音频变调的方法和装置
CN102201240A (zh) * 2011-05-27 2011-09-28 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
US9135923B1 (en) * 2014-03-17 2015-09-15 Chengjun Julian Chen Pitch synchronous speech coding based on timbre vectors
CN106228973A (zh) * 2016-07-21 2016-12-14 福州大学 稳定音色的音乐语音变调方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
华南理工大学: "基于自相关法的语音基音周期估计概述", 《HTTPS://WWW.DOCIN.COM/P-1867466643.HTML》 *
吴丽君: "语音变调技术研究", 《中国优秀硕士学位论文全文数据库》 *
彭柏,等: "利用改进的LF模型进行语音嗓音源合成", 《电声技术》 *
杨阳: "汉语语音转换系统的研究", 《中国优秀硕士学位论文全文数据库》 *
肖玉娟,等: "基于MELP的变速率分类型语音编码算法", 《电声技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147809A (zh) * 2018-09-20 2019-01-04 广州酷狗计算机科技有限公司 音频信号处理方法、装置、终端及存储介质
CN111739544A (zh) * 2019-03-25 2020-10-02 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质
CN111739544B (zh) * 2019-03-25 2023-10-20 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质
CN111081273A (zh) * 2019-12-31 2020-04-28 湖南景程电子科技有限公司 一种基于声门波信号特征提取的语音情感识别方法
CN117975982A (zh) * 2024-04-01 2024-05-03 天津大学 一种基于g-lpc的病理嗓音增强方法及装置
CN117975982B (zh) * 2024-04-01 2024-06-04 天津大学 一种基于g-lpc的病理嗓音增强方法及装置

Also Published As

Publication number Publication date
CN108281150B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN108281150A (zh) 一种基于微分声门波模型的语音变调变嗓音方法
CN101625857B (zh) 一种自适应的语音端点检测方法
Schroeder Vocoders: Analysis and synthesis of speech
CN101589430B (zh) 声音分离装置、声音合成装置及音质变换装置
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
US20120150544A1 (en) Method and system for reconstructing speech from an input signal comprising whispers
CN110648684A (zh) 一种基于WaveNet的骨导语音增强波形生成方法
Pantazis et al. Improving the modeling of the noise part in the harmonic plus noise model of speech
Qi et al. Enhancement of female esophageal and tracheoesophageal speech
Kitamura Acoustic analysis of imitated voice produced by a professional impersonator.
CN109903778A (zh) 实时演唱评分的方法与系统
Qi Replacing tracheoesophageal voicing sources using LPC synthesis
CN101441868B (zh) 基于特征转换规则的汉语耳语音向自然语音实时转换方法
Bruce et al. Robust formant tracking in noise
CN105679332A (zh) 一种腭裂语音声韵母自动切分方法及系统
Prakash et al. Bessel features for detection of voice onset time using AM-FM signal
Greenberg et al. The analysis and representation of speech
CN114913844A (zh) 一种基音归一化重构的广播语种识别方法
Alku et al. Linear predictive method for improved spectral modeling of lower frequencies of speech with small prediction orders
Sharifzadeh et al. Regeneration of speech in voice-loss patients
Deng et al. Speech analysis: the production-perception perspective
Gobl Modelling aspiration noise during phonation using the LF voice source model
JP3035939B2 (ja) 音声分析合成装置
Thati et al. Analysis of breathy voice based on excitation characteristics of speech production
Burkhardt Rule-based voice quality variation with formant synthesis.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant