JP2004109809A - 音声分析合成方法及びその装置、音声分析合成プログラム及びそのプログラムを記録した記録媒体 - Google Patents

音声分析合成方法及びその装置、音声分析合成プログラム及びそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004109809A
JP2004109809A JP2002275159A JP2002275159A JP2004109809A JP 2004109809 A JP2004109809 A JP 2004109809A JP 2002275159 A JP2002275159 A JP 2002275159A JP 2002275159 A JP2002275159 A JP 2002275159A JP 2004109809 A JP2004109809 A JP 2004109809A
Authority
JP
Japan
Prior art keywords
instantaneous frequency
speech
analysis
synthesis
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002275159A
Other languages
English (en)
Inventor
Toshihiko Abe
阿部 敏彦
Masaaki Yoda
誉田 雅彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002275159A priority Critical patent/JP2004109809A/ja
Publication of JP2004109809A publication Critical patent/JP2004109809A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】出力音声の音質を向上させた、入力音声の正弦波成分を抽出し、抽出した正弦波成分を利用して音声合成を行う音声分析合成方法を提供する。
【解決手段】入力音声信号の調波成分を瞬時周波数アトラクタとして抽出することにより精度良く正弦波成分に分解して瞬時周波数を推定する手順と、また入力音声信号のスペクトル包絡を推定する手順と、推定した瞬時周波数と音声信号のスペクトル包絡により正弦波を駆動して音声を合成する手順とを備える。
【選択図】図1

Description

【0001】
【発明の属する技術分野】
この発明は、瞬時周波数アトラクタ(IF(instantaneous frequency)アトラクタ)に基づき音声信号を分析し、正弦波モデルに基づき再合成する音声分析合成方法及び装置に関し、特に音声信号のピッチや話速を変化させ再合成する、音声分析合成、及び音声信号の情報を圧縮して伝送する、音声符号化に関する技術に関する。
【0002】
【従来の技術】
瞬時周波数をパラメータとする音声分析合成法として、位相ボコーダがある(例えば、非特許文献1参照。)。この手法では、解析信号を出力するフィルタバンクにおいて、各フィルタの出力の瞬時周波数と瞬時振幅を求める。また得られた瞬時周波数と瞬時振幅から正弦波を駆動し、合成を行う。
また短時間スペクトルのピークを追跡することにより正弦波成分を抽出し、正弦波合成を行うものについては、正弦波モデルに基づく音声分析合成法がある(例えば、非特許文献2参照。)。
【0003】
【非特許文献1】
J.L.Flanagan and R.M.golden, ”Phase vocoder,” Bell Syst.tech.,vol.45,pp.1493−1509,1966
【非特許文献2】
McAulay,R.J. and Quatieri,T.F., ”Speech analysis/synthesis based on a sinusoidal representation,” IEEE Trans.Acoust.,Speech,Signal Processing,vol.ASSP−34,No.4,pp.744−754,1986
【0004】
【発明が解決しようとする課題】
従来の位相ボコーダでの音声分析では正弦波成分の抽出をしていないことと、瞬時周波数推定誤差の影響により隣り合うフィルタバンクの出力の位相が次第にずれていくことが原因となり、出力音声の品質に問題があった。
また正弦波モデルに基づく音声分析合成法については、短時間スペクトルのピークの追跡が難しく、追跡アルゴリズムが複雑になり、ピーク追跡が不安定になり、正弦波成分の抽出性能が低下し結果として出力音声の音質が悪くなるという問題点があった。またピッチの変化が速いと特に高次の正弦波成分の周波数が短時間スペクトルのピークに一致しないため、正弦波成分として抽出することができず、音質の低下がおきていた。
【0005】
【課題を解決するための手段】
この発明の音声分析合成方法及び装置は、音声信号の正弦波成分を瞬時周波数アトラクタとして抽出することにより、正弦波成分を精度良く抽出することが可能であり、また出力の位相誤差を打ち消すように瞬時周波数を補正するので、瞬時周波数を基に合成された出力音声の音質を改善することができる。
さらに時間軸伸縮によりピッチの変化が速くても安定して正弦波成分の抽出が行える分析方法を適用することで、元の音声と同程度の音質を得ることができた。
【0006】
【発明の実施の形態】
図1に本発明の音声分析合成装置の構成例を示す。
音声分析合成装置は、音声分析部と音声合成部から構成され、音声分析部は、音声信号を窓掛け処理を行う、窓掛け部1と窓掛け部2と、窓掛け処理した音声信号をフーリエ変換するFFT1,FFT2と、瞬時周波数を計算する瞬時周波数計算部と、アトラクタに対する瞬時周波数を計算するアトラクタ抽出部と、アトラクタ上の位相を計算する位相計算部と、音声信号のスペクトル包絡を計算するスペクトル包絡推定部とを備え、また音声合成部は、ピッチ変換と話速変換を行うピッチ変換/話速変換部と、正弦波合成部とを備える。
【0007】
(音声分析方法)
窓掛け部1は、音声信号x(t)に窓関数w(t)により窓掛け処理を行い、窓掛け部2は窓関数w(t)の時間導関数である窓関数w’(t)により窓掛け処理を行う。FFT1は窓関数w(t)で窓掛け処理した音声信号をフーリエ変換してフィルタバンク表現F(ω,t)を出力する。FFT2は窓関数w’(t)で窓掛け処理した音声信号をフーリエ変換してフィルタバンク表現F’(ω,t)を出力する。
音声信号x(t)の短時間フーリエ変換(STFT)は
【数1】
Figure 2004109809
により定義されている。ただし、ω(=2πf)は角周波数、tは時間、w(t)は窓関数、τは積分変数である。このX(ω,t)からフィルタバンク表現
F(ω,t)=eωX(ω,t)                (2)
を考えるとき、x(t)は基底関数f(ω,t)=w(t)eωの線形重ね合わせとして、
【数2】
Figure 2004109809
従ってF(ω,t)は基底関数f(ω,t)の係数とみなすことができる。
【0008】
瞬時周波数計算部は、フィルタバンク表現F(ω,t)、F’(ω,t)に基づいて瞬時周波数λ(ω,t)を計算する。
ここで点(ω,t)における瞬時周波数を
【数3】
Figure 2004109809
と定義する。ここでargは偏角を示す。
F(ω,t)=a+jbとおけば、瞬時周波数は
【数4】
Figure 2004109809
により与えられる。さらに
【数5】
Figure 2004109809
で置き換え、窓関数w(t)の時間導関数w’(t)を用いることで式(6)より求めることができる。
【0009】
アトラクタ抽出部は、瞬時周波数λ(ω,t)に基づいてアトラクタiに対する瞬時周波数λを抽出(計算)する。
瞬時周波数アトラクタは、μ(ω,t)=λ(ω,t)−ωとしたとき、
【数6】
Figure 2004109809
で定義される。図3(a)はある時刻tにおける角周波数ωに対する瞬時周波数λと対応する式(7)の関数μの例を示す。上式(7)を満たす点(i=1,2,3,・・・)の集合は一般に、各倍音成分の瞬時周波数の軌跡に対応する曲線群(図3(b)参照)である。各々の曲線は一つの正弦波成分に対応する。
なお、瞬時周波数アトラクタ(IFアトラクタ)に基づき音声信号を分析することにより瞬時周波数を求める方法は、「阿部 敏彦,  小林 隆夫,  今井 聖”IFスペクトログラム:音声信号の時間周波数表現の一手法”社団法人 電子情報通信学会 信学技報  SP96−121 (1997−02),  pp49−54」に詳細に説明されている。
従って、アトラクタ上の瞬時周波数で駆動された正弦波を生成し、各々のアトラクタに関して和を取れば、音声を再合成することができる。
【0010】
図1に示すように、入力音声信号x(t)に2種類の窓掛けをした後でFFTを行う。短時間フーリエ変換など一般の時間−周波数分析においては分析窓w(t)が用いられるが、発明者らはw(t)の時間導関数w’(t)=dw(t)/dtも用いることにより、瞬時周波数の推定において通常用いられる差分による近似を用いずに、精度良く瞬時周波数を推定することができる。
各アトラクタ(i=1,2,3,・・・)は始点と終点を持つ個々の曲線(図3(b)参照)となるので、i番目のアトラクタ上の位相は、
【数7】
Figure 2004109809
となる。ここでφはアトラクタの始点t=sにおけるF(λ,s)の位相である。
アトラクタ上の瞬時周波数λから、式(8)により位相を計算し、対応する正弦波成分を次式により再合成することができる。
【数8】
Figure 2004109809
ただし、A(ω(t))(Aは振幅を表す)は瞬時周波数λ(τ)に対応するスペクトル包絡振幅である。
【0011】
また、瞬時周波数アトラクタ軌跡(軌道)の瞬時周波数λと瞬時振幅A(ω)をパラメータとして用い情報圧縮して低ビットレートで符号化する。
ピッチ変換/話速変換部は、ピッチ変換、話速の変換を行う。
【数9】
Figure 2004109809
とすることで、再生速度を保ったまま、ピッチを変えることができる。合成音声のピッチは、元音声のc倍になる。また同時に求めたスペクトル包絡A(ω)を参照し、変更されたピッチの調波成分に対応する振幅を用いることで、ホルマントを変更せずにピッチを変えることができる。
【数10】
Figure 2004109809
このようにピッチ変換と話速変換を互いに独立に操作することが可能である。図4は、局所的時間軸伸縮、すなわち元の時間軸tを関数Pt0(t)により伸縮された時間軸ut0に変換するための説明図である。
【0012】
(音声合成法)
正弦波合成部における、正弦波合成のための、式(8)における位相θ(t)をディジタル信号処理によって推定する具体的な手順は以下のとおりである。
(1)各アトラクタの開始点の位相を初期値とする。
(2)開始点以外のアトラクタ上の点では瞬時周波数λを数値積分することで位相を推定する。
(3)各フレームの開始点で元信号の位相を参照し、誤差を打ち消すように式(8)の瞬時周波数λに補正を加える。
【0013】
手順(3)の計算の詳細は、以下の通りである。フレーム番号mでは、瞬時周波数アトラクタの軌跡(軌道)(ω,t)でt=mNにおいて得られた瞬時周波数をλ(ω,mN)とする。これよりフレーム内つまり0≦n<Nにおいて得られる位相の推定値を
【数11】
Figure 2004109809
とする。簡単のため添字iは省略する。ここで、推定した位相の誤差は、元信号の位相をθ(mN)として
【数12】
Figure 2004109809
となる。これを補正するように瞬時周波数の推定値を微小変化させ、
【数13】
Figure 2004109809
とする。こうすることで、現在のフレームの開始点での位相誤差は、フレーム内の区間全体に渡り線形に補正されることになり、位相の推定値は元信号の位相とほぼ一致するようになる。
【0014】
合成では、ピッチ変換/話速変換部は、補正された瞬時周波数を必要に応じて、
【数14】
Figure 2004109809
【数15】
Figure 2004109809
また平行して求めたスペクトル包絡A(ω)を参照し、振幅A(ω)求める。対応する振幅をrとすると、アトラクタiに対応する正弦波合成波形は、
【数16】
Figure 2004109809
となる。
このままではアトラクタの端点において不連続を生じ、雑音が生じるので、幅2Nのバートレット窓(三角窓)
(n)=n/N,          0≦n≦N
(n)=2−n/N,      N≦n≦2N       (15)
を掛けたあとで加算する。これによりアトラクタの端点での不連続が解消する。図5は、IFアトラクタに対する時間軸伸縮の効果を示す図である。図5を参照すると、倍音周波数推定精度が向上していることが分かる。
【0015】
本発明の音声分析合成装置は、CPUやメモリ等を有するコンピュータと、ユーザが利用する端末と、記録媒体とから構成される。記録媒体は、CD−ROM、磁気ディスク装置、半導体メモリ等の機械読み取り可能な記録媒体であり、ここに記録された音声分析合成プログラム、あるいは通信回線を介して伝送された音声分析合成プログラムはコンピュータに読み取られ、コンピュータ上に前述した構成要素を実現することができる。
【0016】
【発明の効果】
以上説明したように、本発明は、音声信号の正弦波成分を瞬時周波数アトラクタとして抽出することにより、正弦波成分を精度良く抽出することができ、また抽出された瞬時周波数(すなわち正弦波成分)とスペクトル包絡により正弦波を駆動して音声を合成するので出力音声の音質を改善することができる。
【図面の簡単な説明】
【図1】本発明における、音声分析合成装置の構成例を示す図。
【図2】図1における、正弦波合成部の構成例を示す図。
【図3】アトラクタを説明するための図。
【図4】局所的時間軸伸縮を説明するための図。
【図5】IFアトラクタに対する時間軸伸縮の効果を示す図。

Claims (20)

  1. 音声信号の調波成分を瞬時周波数アトラクタとして抽出することにより正弦波成分に分解して瞬時周波数を推定する手順と、
    音声信号のスペクトル包絡を推定する手順と、
    瞬時周波数と音声信号のスペクトル包絡により正弦波を駆動して音声を合成する手順と、を備えたことを特徴とする音声分析合成方法。
  2. 請求項1に記載の音声分析合成方法において、
    抽出した瞬時周波数アトラクタ軌道のパラメータを操作することにより、合成音声のピッチ又は話速を変更する手順を備えたことを特徴とする音声分析合成方法。
  3. 請求項2に記載の音声分析合成方法において、
    合成音声のピッチ又は話速を変更する手順は、瞬時周波数を操作することにより、入力音声信号のピッチを変換して音声合成することを特徴とする音声分析合成方法。
  4. 請求項1乃至3のいずれか1項に記載の音声分析合成方法において、
    抽出した瞬時周波数アトラクタ軌道の瞬時周波数とスペクトラム包絡から求めた瞬時振幅をパラメータとして用いることにより情報圧縮し低ビットレート符号化する手順を備えたことを特徴とする音声分析合成方法。
  5. 請求項1乃至4の何れか1項に記載の音声分析合成方法において、
    音声を合成する手順は、分析フレームごとに瞬時周波数アトラクタ上の位相を参照し、瞬時周波数推定値に補正を加えることによりフレーム区間に渡り位相の推定精度を高める手順を有することを特徴とする音声分析合成方法。
  6. 請求項5に記載の音声分析合成方法において、
    位相の推定精度を高める手順は、分析フレームごとに瞬時周波数の変化を打ち消すように時間軸を非線形伸縮し、瞬時周波数推定精度を高めることにより合成音声の品質を高めることを特徴とする音声分析合成方法。
  7. 音声信号の調波成分を瞬時周波数アトラクタとして抽出することにより正弦波成分に分解して瞬時周波数を推定する瞬時周波数推定部と、
    音声信号のスペクトル包絡を推定するスペクトル包絡推定部と、
    瞬時周波数と音声信号のスペクトル包絡により正弦波を駆動して音声を合成する音声合成部と、を備えたことを特徴とする音声分析合成装置。
  8. 請求項7に記載の音声分析合成装置において、
    音声合成部は、抽出した瞬時周波数アトラクタ軌道のパラメータを操作することにより、合成音声のピッチ又は話速を変更するピッチ変換/話速変換部を備えたことを特徴とする音声分析合成装置。
  9. 請求項8に記載の音声分析合成装置において、
    ピッチ変換/話速変換部は、瞬時周波数を操作することにより、入力音声信号のピッチを変換して音声合成することを特徴とする音声分析合成装置。
  10. 請求項7乃至9のいずれか1項に記載の音声分析合成装置において、
    抽出した瞬時周波数アトラクタ軌道の瞬時周波数と瞬時振幅をパラメータとして用いることにより情報圧縮し低ビットレート符号化する符号化部を備えたことを特徴とする音声分析合成装置。
  11. 請求項7乃至10の何れか1項に記載の音声分析合成装置において、
    音声合成部は、分析フレームごとに瞬時周波数アトラクタ上の位相を参照し、瞬時周波数推定値に補正を加えることによりフレーム区間に渡り位相の推定精度を高める手段を備えたことを特徴とする音声分析合成装置。
  12. 請求項11に記載の音声分析合成装置において、
    位相の推定精度を高める手段は、分析フレームごとに瞬時周波数の変化を打ち消すように時間軸を非線形伸縮し、瞬時周波数推定精度を高めることにより合成音声の品質を高める手段を有することを特徴とする音声分析合成装置。
  13. 音声信号の調波成分を瞬時周波数アトラクタとして抽出することにより正弦波成分に分解して瞬時周波数を推定する処理と、
    音声信号のスペクトル包絡を推定する処理と、
    瞬時周波数と音声信号のスペクトル包絡により正弦波を駆動して音声を合成する処理と、をコンピュータに実行させる音声分析合成プログラム。
  14. 請求項13に記載の音声分析合成プログラムにおいて、
    音声を合成する処理は、抽出した瞬時周波数アトラクタ軌道のパラメータを操作することにより、合成音声のピッチ又は話速を変更する処理を有する音声分析合成プログラム。
  15. 請求項13又は14に記載の音声分析合成プログラムにおいて、
    抽出した瞬時周波数アトラクタ軌道の瞬時周波数と瞬時振幅をパラメータとして用いることにより情報圧縮し低ビットレート符号化する処理を有する音声分析合成プログラム。
  16. 請求項13乃至15の何れか1項に記載の音声分析合成プログラムにおいて、
    音声を合成する処理は、分析フレームごとに瞬時周波数アトラクタ上の位相を参照し、分析フレームごとに瞬時周波数の変化を打ち消すように時間軸を非線形伸縮し、瞬時周波数推定精度を高めることにより合成音声の品質を高める処理を有する音声分析合成プログラム。
  17. 音声信号の調波成分を瞬時周波数アトラクタとして抽出することにより正弦波成分に分解して瞬時周波数を推定する処理と、
    音声信号のスペクトル包絡を推定する処理と、
    瞬時周波数と音声信号のスペクトル包絡により正弦波を駆動して音声を合成する処理と、をコンピュータに実行させる音声分析合成プログラムを記録した記録媒体。
  18. 請求項17に記載の音声分析合成プログラムを記録した記録媒体において、
    音声を合成する処理は、瞬時周波数アトラクタ軌道のパラメータを操作することにより、合成音声のピッチ又は話速を変更する処理を有する音声分析合成プログラムを記録した記録媒体。
  19. 請求項17又は18に記載の音声分析合成プログラムを記録した記録媒体において、
    抽出した瞬時周波数アトラクタ軌道の瞬時周波数と瞬時振幅をパラメータとして用いることにより情報圧縮し低ビットレート符号化する処理を有する音声分析合成プログラムを記録した記録媒体。
  20. 請求項17乃至19の何れか1項に記載の音声分析合成プログラムを記録した記録媒体において、
    音声を合成する処理は、分析フレームごとに瞬時周波数アトラクタ上の位相を参照し、分析フレームごとに瞬時周波数の変化を打ち消すように時間軸を非線形伸縮し、瞬時周波数推定精度を高めることにより合成音声の品質を高める処理を有する音声分析合成プログラムを記録した記録媒体。
JP2002275159A 2002-09-20 2002-09-20 音声分析合成方法及びその装置、音声分析合成プログラム及びそのプログラムを記録した記録媒体 Pending JP2004109809A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002275159A JP2004109809A (ja) 2002-09-20 2002-09-20 音声分析合成方法及びその装置、音声分析合成プログラム及びそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002275159A JP2004109809A (ja) 2002-09-20 2002-09-20 音声分析合成方法及びその装置、音声分析合成プログラム及びそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2004109809A true JP2004109809A (ja) 2004-04-08

Family

ID=32271432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002275159A Pending JP2004109809A (ja) 2002-09-20 2002-09-20 音声分析合成方法及びその装置、音声分析合成プログラム及びそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2004109809A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101662288B (zh) * 2008-08-28 2012-07-04 华为技术有限公司 音频编码、解码方法及装置、系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101662288B (zh) * 2008-08-28 2012-07-04 华为技术有限公司 音频编码、解码方法及装置、系统

Similar Documents

Publication Publication Date Title
JP6668372B2 (ja) 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US8280724B2 (en) Speech synthesis using complex spectral modeling
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
JP2010055002A (ja) 信号帯域拡張装置
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
US8492639B2 (en) Audio processing apparatus and method
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP6347536B2 (ja) 音合成方法及び音合成装置
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
JP2009501353A (ja) オーディオ信号合成
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
JP4766559B2 (ja) 音楽信号の帯域拡張方式
JP2004109809A (ja) 音声分析合成方法及びその装置、音声分析合成プログラム及びそのプログラムを記録した記録媒体
JP5163606B2 (ja) 音声分析合成装置、及びプログラム
JP4513556B2 (ja) 音声分析合成装置、及びプログラム
JP3731575B2 (ja) 符号化装置及び復号装置
CN107851433B (zh) 基于谐波模型和声源-声道特征分解的语音分析合成方法
JP3557124B2 (ja) 音声変形方法、その装置、及びプログラム記録媒体
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP2011247921A (ja) 信号合成方法、信号合成装置及びプログラム
Szeto et al. Sinusoidal modeling for piano tones
JPH0193796A (ja) 声質変換方法
JP5679451B2 (ja) 音声処理装置およびそのプログラム
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061226