JPH07234696A - 音声の複素ケプストラム分析装置 - Google Patents

音声の複素ケプストラム分析装置

Info

Publication number
JPH07234696A
JPH07234696A JP6024594A JP2459494A JPH07234696A JP H07234696 A JPH07234696 A JP H07234696A JP 6024594 A JP6024594 A JP 6024594A JP 2459494 A JP2459494 A JP 2459494A JP H07234696 A JPH07234696 A JP H07234696A
Authority
JP
Japan
Prior art keywords
spectrum
buffer storage
storage means
fourier transform
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6024594A
Other languages
English (en)
Other versions
JP2812184B2 (ja
Inventor
Yukio Mitome
幸夫 三留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6024594A priority Critical patent/JP2812184B2/ja
Priority to CA002142509A priority patent/CA2142509C/en
Priority to US08/392,482 priority patent/US5677984A/en
Publication of JPH07234696A publication Critical patent/JPH07234696A/ja
Application granted granted Critical
Publication of JP2812184B2 publication Critical patent/JP2812184B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R23/00Arrangements for measuring frequencies; Arrangements for analysing frequency spectra
    • G01R23/16Spectrum analysis; Fourier analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 【目的】音声信号をディジタル化したデータを分析し、
これの対数振幅スペクトルと位相特性を表すパラメータ
である複素ケプストラムを、比較的少ない演算量で高精
度に抽出すること。 【構成】窓を掛けた音声データの各サンプルを離散的フ
ーリエ変換器A1で変換し音声のスペクトルを求め、同
時に掛算器4で各サンプルの時刻に応じた値を掛け、そ
の結果を離散的フーリエ変換器B6で変換し微分スペク
トルを求める。商実数部算出器7でこの微分スペクトル
を音声のスペクトルで割った値の実数部を求め、これを
離散的逆フーリエ変換器B8で逆変換し、割算器9でそ
の結果である各サンプルの値を各時刻の値で割って位相
に対応する時間関数を求める。他方、対数振幅スペクト
ル算出器2と離散的逆フーリエ変換器A3によって、対
数振幅スペクトルに対応する時間関数を求め、加算器1
1で両時間関数を各時刻ごとに足し合わして複素ケプス
トラムを求める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声の複素ケプストラム
分析装置に関し、特に音声信号をディジタル化したデー
タを分析しデータの振幅スペクトルと位相特性を表すパ
ラメータである複素ケプストラムを抽出する音声の複素
ケプストラム分析装置に関する。
【0002】
【従来の技術】従来から、音声信号の分析、特に有声音
の分析においては、ケプストラム分析はスペクトル包絡
を表すパラメータを精度良く抽出できるという点で優れ
た分析法として知られている。
【0003】これは、例えば、次の文献1に示されてい
る。文献1、古井貞煕、ディジタル音声処理、第4章
4.4節、東海大学出版会。
【0004】ケプストラムは、対数振幅スペクトルの逆
フーリエ変換として以下のように求められる。
【0005】まず、x(n)を音声をサンプリングして
得られる離散的な信号で、さらに短時間分析のための窓
をかけたデータとする。窓の長さは、通常は10ミリ秒
ないし数十ミリ秒に設定される。
【0006】X(ω)をそのフーリエ変換とすると、式
(1)のように定義される。 X(ω) = Σx(n)・exp(−iωn) (1) nは離散的な時刻または時間。exp()は複素指数関
数、iは虚数単位、ωは角周波数である。式(1)の和
は時間nについての和であり、和の範囲は窓掛して得ら
れたデータの点数である。簡単のため、このフーリエ変
換を式(2)のように表すこととする。 X(ω) = F[x(n)] (2) このスペクトルの対数振幅スペクトルは次の式(3)で
定義される。 Y(ω) = log(|X(ω)|) (3) ここに、|X(ω)|はスペクトルの絶対値である。
【0007】これから、ケプストラムは次のように定義
される。 y(n) = FI [Y(ω)] = FI [log(|X(ω)|)] (4) ここにFI [・]は、かぎ括弧内の逆フーリエ変換を意
味するものとする。なお、ケプストラムの場合の時間変
数、即ち式(4)におけるnはケフレンシーと呼ばれる
ことがあるが、ここでは時刻または時間と表現すること
で統一する。
【0008】また、実際の計算においては、周波数を連
続値として求めることはできないので、離散的な周波数
として定義し、離散的フーリエ変換(DFT:ディー
エフティー)またはその改良法であり、より実用的な高
速フーリエ変換(FFT:エフ エフ ティー)を用い
て計算する。逆変換についても同様である。DFTはF
FTを含む概念と考えられるから、簡単のため以降の説
明ではDFTとしてのみ表現することにする。
【0009】このケプストラムを用いて、スペクトル包
絡を表すパラメータを抽出するときは、ピッチ周期程度
以下の時間の成分のみを取り出す処理が一般的である。
実際のスペクトル包絡は、この成分のケプストラムを再
びフーリエ変換して得られる。
【0010】さらに、ケプストラム分析によりスペクト
ル包絡の抽出をより高精度にする方法としては、特開平
2―134699号に示されたものがある。これは、ピ
ッチ周期程度以下の時間の成分のみを取り出すのではな
く、ピッチ周期の近傍を除いた成分全てを用いるもので
ある。この例においても、ケプストラム自体は前述の文
献1の方法と同様に求めている。
【0011】しかしながら、このケプストラム分析で
は、スペクトラム包絡は精度良く抽出されるものの位相
情報が切り捨てられるため、より高精度な音声分析の目
的のためには適さない。これに対しこのケプストラム分
析を発展させた複素ケプストラム分析は、スペクトル包
絡ばかりでなく位相をも抽出できるという特徴があるこ
とが知られている。
【0012】複素ケプストラムは式(5)ように、スペ
クトルX(ω)の複素対数の逆フーリエ変換として定義
される。ここに、複素対数とは、その実数部はスペクト
ルの絶対値の対数で、その虚数部は周波数の連続関数と
しての位相である。 c(n) = FI [log(X(ω))] (5) スペクトルの複素対数を次のように表現するとすれば、
式(5)は式(7)のように表すことができる。 C(ω) = log(X(ω)) (6) c(n) = FI [C(ω)] (7) なお、式(3)の対数は実数関数であり式(6)の対数
は複素対数であるが、式(3)においてスペクトルの絶
対値をとっているので、複素対数としても正しい定義で
あるから、どちらの対数関数も同一の表記を用いること
にする。
【0013】さて、この複素ケプストラムによる音声分
析を実現する場合、スペクトルの複素対数を求める際
に、実数部を求めることは容易に実現できるが、虚数部
については次のような困難が伴う。
【0014】即ち、通常は位相はスペクトルの実数部と
虚数部の偏角として求められるが、これは周波数の連続
関数とはならない。なぜならば、位相がπを越えてπ+
αになると、偏角としては−π+αとして観測されるた
め、ここで不連続な関数となるためである。
【0015】従来、この点を解決する方法として、以下
の3種類が知られている。 第一の従来法:位相アンラップ法。 第二の従来法:スペクトルの微分とフーリエ変換の関係
に基づく方法。 第三の従来法:因数分解による方法。
【0016】第一の従来法の位相アンラップ法は、例え
ば、次の文献に示されている。文献2、エイ.ブイ.オ
ッペンハイム、アール.ダブリュー.シェーファー
著、"デジタル シグナル プロセシング"、第10章、
1975年(A.V.Oppennheim and
R.W.Schafer、”Digital Sign
al Processing”、Chapter 1
0、1975、邦訳:伊達玄訳「ディジタル信号処
理」、コロナ社)。
【0017】前述の通常のケプストラムと同様に、スペ
クトルを離散的な周波数の関数として近似し、DFTを
用いて求める。そのスペクトルの複素対数関数として
は、実数部は絶対値の対数として求め、虚数部である位
相はまず偏角が−πからπに含まれる主値を求めて、位
相の連続性を判定しながら2πの倍数を加える処理を施
して求める。連続性の判定のためにはDFTの点数を多
くして、離散的な周波数の間隔を細かくする。そして、
隣り合った周波数のサンプルでの偏角の値がπ付近から
−π付近へ変化したら、それ以降は偏角に2πの倍数を
加える。倍数は、何回このような変化が検出されたかで
決まる値である。一方、偏角が−πからπに変化した
ら、2πの倍数を1減らすという処理を施す。
【0018】第二の従来法のスペクトルの微分とフーリ
エ変換の関係に基づく方法も、前述の文献2に示されて
いる。まず、式(1)を周波数について微分すると次式
を得る。 X'(ω) = Σ{−in・x(n)・exp(−iωn)} = F[−in・x(n)] (8) 従って、次の関係が成り立つ。これは、スペクトルばか
りでなく、フーリエ変換の関係にあるもの全てについて
成り立つ関係である。 iX'(ω)= F[n・x(n)] (9) x(n) = FI [iX’(ω)]/n (10) 一方、式(6)のC(ω)を微分すると、次式を得る。 C' (ω)= X'(ω)/X(ω) (11) 式(10)において、複素ケプストラムの場合を考える
と次の式が成り立つ。 c(n) = FI [iC’(ω)]/n (12) 式(12)に式(11)を代入し、さらに式(9)と式
(2)の関係を考えれば、複素ケプストラムは次に式
(13)のように表されることが分かる。 c(n) = FI [iX'(ω)/X(ω)]/n = FI [F[n・x(n)]/F[x(n)]]/n (13) 式(13)は、n・x(n)のフーリエ変換をx(n)
のフーリエ変換で割ったものを、逆変換してnで割れ
ば、n=0以外の複素ケプストラムが求まることを示し
ている。n=0のときの複素ケプストラムは、別途求め
る必要があるが、これは通常のケプストラムのn=0の
場合に等しい。この方法でも、実際のフーリエ変換の計
算にはDFTを用いる。
【0019】この第二の従来法の改良法として、以下の
文献に示されたものがある。文献3、ジェイ.トリボレ
ット、”ア ニュー フェーズ アンラッピング アル
ゴリズム”、アイ イー イー イー トランザクショ
ンズ、エイ エス エス ピー25.ページ170〜1
77、1977年4月、(J.Tribolet、”A
New Phase Unwrapping Alg
orithm”、IEEE Transaction
s,ASSP−25、pp.170−179、Apri
l 1977) この方法は、式(11)の右辺を式(8)を用いて求
め、数値積分によってC(ω)を求めるというものであ
る。ここでも、フーリエ変換にはDFTを用いる。ただ
し、この例では位相を求めることを目的としているの
で、C(ω)の位相に関する部分のみ数値積分を行って
いる。
【0020】第三の従来法の因数分解による方法は次の
文献に示されている。文献4、ケイ.スタイグリッツ、
ビー.ディッキンソン、”フェーズ アンラッピング
バイ ファクタライゼーション”、アイ イー イー
イー トランザクションズ、エイ エス エス ピー3
0.ページ984〜991、1982年12月、(K.
Steiglitz、”Phase Unwrappi
ng by Factorization”、IEEE
Transactions,ASSP−30、pp.
984−991、December 1982) これは、信号のスペクトルを表す関数を因数分解して、
その根から複素ケプストラムを求める方法である。因数
分解には数値解法によって高次方程式の根を求める方法
を用いる。スペクトルの関数が因数分解されていれば、
対数関数の性質から、スペクトルの対数は各因数の対数
の和で表される。従って、各項の複素ケプストラムが求
まれば、その和として全体の複素ケプストラムが求まる
ことになる。各項は一次の関数となるので、その複素ケ
プストラムは理論的に容易に求めることができることが
前述の文献2に示されている。
【0021】
【発明が解決しようとする課題】上述した従来の音声の
複素ケプストラム分析装置は、振幅スペクトルと位相特
性を表すパラメータである複素ケプストラムを抽出する
ことができるが、音声信号に適用しようとするとそれぞ
れ以下のような問題点がある。
【0022】第一の従来法である位相アンラップ法で
は、連続な変数である周波数の離散的な値においてスペ
クトルをサンプリングし、隣り合うサンプルの関数値が
連続であるか否かを判定するのでかなり無理があり、し
ばしば判定誤りを起すことがある。判定を誤って、2π
の倍数を足すべきところを足さなかったり、不必要な値
を足してしまったのでは正しい位相特性の推定はできな
い。非常に滑らかな位相特性ならば、周波数のサンプリ
ングをかなり細かくすることによってこのエラーは避け
られるが、音声信号、特に有声音の場合は、そのスペク
トルにピッチに応じた高調波構造が観測されるため、各
高調波の近傍で振幅スペクトルばかりでなく位相特性も
細かく変化する。その変化量はπに近いこともある。そ
のような場合は、2πの倍数を足すべきなのか引くべき
なのかの判定は困難であり、位相推定のエラーにつなが
ることになる。
【0023】次に、第二の従来法のスペクトルの微分と
フーリエ変換の関係に基づくものには以下のような問題
がある。理論的には、ケプストラムは通常のケプストラ
ムも複素ケプストラムも、無限の継続時間を有すること
が知られている。DFTを用いて計算する場合は、ωを
サンプリングすることになるため、無限の継続時間を有
するケプストラムは時間領域において折り返しが生じる
ことになる。これは、周波数領域において帯域制限され
ていない信号を時間領域でサンプリングすると周波数領
域において折り返しが生じて誤差の原因になるのと双対
な関係である。この時間領域での折返しは、ケプストラ
ムをDFTを用いて算出する際には避けがたい問題であ
るが、ケプストラムは値が時間の逆数に比例して減少す
ることが知られているので、DFTの点数を十分に大き
くとればあまり影響を受けず問題にならない。
【0024】しかし、スペクトルの微分の逆変換を求め
る場合は、式(13)にあるように1/n倍にするまえ
に逆変換を施すため、この段階で折り返しが生じてその
影響を受けやすい。特に有声音のスペクトルの場合は前
述のようにピッチに応じた高調波構造が観測され、この
微分は周波数領域においてピッチ周波数ごとのパルス列
のように観測されることになる。それを逆変換したもの
は時間領域でのピッチ周期ごとのパルス列となり、これ
が通常のケプストラムより強調されたように観測され折
返しの影響が避けられない。実際の音声信号を10kH
zでサンプリングし20ミリ秒から30ミリ秒の窓を掛
けたデータ、即ち200サンプルから300サンプル程
度のデータで分析実験を行ったところ、8192点の高
速フーリエ変換を用いて抽出したスペクトル包絡に折返
し誤差の影響が大きく表れていたことが確認された。
【0025】最後に第三の従来例の方法によれば、連続
性の判定エラーや、周波数のサンプリングによる時間領
域での折返し誤差の影響を受けることはない。しかしな
がら音声分析においては、例えばサンプリング周波数が
10kHz程度で、分析窓の長さが10ミリ秒から数十
ミリ秒とすると、少なくとも100点以上、数百点程度
のデータを用いて分析することになる。このため、この
ときのスペクトルの関数は100次ないし数百次の多項
式となる。このような高次の多項式の因数分解を、フレ
ームごとに行うのは膨大な演算を要し事実上不可能であ
る。また、数値解法によってすべての因数を求められる
保証もない。
【0026】以上述べたごとく、これらの従来の技術を
音声の複素ケプストラム分析に適用するには、判定エラ
ーや誤差の影響が避けられないといった問題点や、現実
的に求めることができない等の問題点がある。
【0027】本発明の目的は、音声信号をディジタル化
したデータを分析し、これの対数振幅スペクトルと位相
特性を表すパラメータである複素ケプストラムを、比較
的少ない演算量で高精度に抽出する音声の複素ケプスト
ラム分析装置を提供することにある。
【0028】
【課題を解決するための手段】第1の音声の複素ケプス
トラム分析装置は、音声信号をディジタル化して窓を掛
けたデータを分析し複素ケプストラムを抽出する音声の
複素ケプストラム分析装置において、前記窓を掛けた音
声データの各サンプルを入力する入力端子と、この入力
端子と接続し入力する前記窓を掛けた音声データの各サ
ンプルに離散的フーリエ変換を施して音声のスペクトル
を出力する第1の離散的フーリエ変換手段と、前記入力
端子と接続し入力する前記窓を掛けた音声データの各サ
ンプルに第1の時刻発生手段の発生する各時刻の値を掛
ける掛算手段と、この掛算手段の出力に離散的フーリエ
変換を施して微分スペクトルとして出力する第2の離散
的フーリエ変換手段と、前記第1の離散的フーリエ変換
手段の出力する音声のスペクトルの絶対値の対数を算出
し対数振幅スペクトルとして出力する対数振幅スペクト
ル算出手段と、この対数振幅スペクトル算出手段が出力
する対数振幅スペクトルに対し離散的逆フーリエ変換を
施して対数振幅スペクトルに対応する時間関数として出
力する第1の離散的逆フーリエ変換手段と、前記第2の
離散的フーリエ変換手段から入力する微分スペクトルを
前記第1の離散的フーリエ変換手段から入力する音声の
スペクトルで割った商の実数部を出力する商実数部算出
手段と、この商実数部算出手段の出力する商の実数部に
対し離散的逆フーリエ変換を施して前記商の実数部に対
応する時間関数を出力する第2の離散的逆フーリエ変換
手段と、前記商の実数部に対応する時間関数の各サンプ
ルの値を第2の時刻発生手段の発生する各時刻の値で割
算し音声のスペクトルの位相に対応する時間関数として
出力する割算手段と、この割算手段の出力する音声のス
ペクトルの位相に対応する時間関数と前記第1の離散的
逆フーリエ変換手段の出力する対数振幅スペクトルに対
応する時間関数との各時刻の値を加え合わせて複素ケプ
ストラムの各時刻の値として求め出力端子に出力する加
算手段とを有する構成である。
【0029】第2の音声の複素ケプストラム分析装置
は、音声信号をディジタル化して窓を掛けたデータを分
析し複素ケプストラムを抽出する音声の複素ケプストラ
ム分析装置において、前記窓を掛けた音声データの各サ
ンプルを入力する入力端子と接続する第1の緩衝記憶手
段と、前記入力端子と接続し入力する前記窓を掛けた音
声データの各サンプルに時刻発生手段の発生する各時刻
の値を掛ける掛算手段と、この掛算手段と接続し前記掛
算手段の出力を入力する第2の緩衝記憶手段と、前記第
1の緩衝記憶手段および第2の緩衝記憶手段と接続し入
力するデータに一時期には順変換および逆変換のいずれ
か一方の変換を行い結果を前記第1の緩衝記憶手段およ
び第2の緩衝記憶手段の前記データを入力した側の緩衝
記憶手段に折返し出力する離散的フーリエ変換手段とを
有し、まず前記第1の緩衝記憶手段に記憶した前記窓を
掛けた音声データの各サンプルに前記離散的フーリエ変
換手段が離散的フーリエ変換を施して出力する音声のス
ペクトルを前記第1の緩衝記憶手段に記憶し、続いて前
記第2の緩衝記憶手段に記憶した前記掛算手段の出力し
たデータの各サンプルに前記離散的フーリエ変換手段が
離散的フーリエ変換を施して出力する微分スペクトルを
前記第2の緩衝記憶手段に記憶し、さらに、前記第2の
緩衝記憶手段から入力した前記微分スペクトルを前記第
1の緩衝記憶手段から入力した前記音声のスペクトルで
割った商の実数部を前記第2の緩衝記憶手段に折返し出
力する商実数部算出手段と、前記第2の緩衝記憶手段に
入力した前記商の実数部に対し前記離散的フーリエ変換
手段が逆変換を施し前記第2の緩衝記憶手段に折返し格
納済の逆変換の結果に対し対応する時間関数の各サンプ
ルの値を前記時刻発生手段の発生する各時刻の値で割算
し音声のスペクトルの位相に対応する時間関数として前
記第2の緩衝記憶手段に折返し出力する割算手段と、前
記第1の緩衝記憶手段に記憶した前記音声のスペクトル
の絶対値の対数を算出し対数振幅スペクトルとして折返
し前記第1の緩衝記憶手段に出力する対数振幅スペクト
ル算出手段と、前記第1の緩衝記憶手段に入力した前記
対数振幅スペクトルに対し前記離散的フーリエ変換手段
が逆変換を施し前記第1の緩衝記憶手段に折返し格納済
の前記対数振幅スペクトルに対応する時間関数と前記第
2の緩衝記憶手段に格納済の音声のスペクトルの位相に
対応する時間関数との各時刻の値を加え合わせて複素ケ
プストラムの各時刻の値を求め出力端子に出力する加算
手段とを有する構成である。
【0030】第3の音声の複素ケプストラム分析装置
は、音声信号をディジタル化して窓を掛けたデータを分
析し複素ケプストラムを抽出する音声の複素ケプストラ
ム分析装置において、前記窓を掛けた音声データの各サ
ンプルを入力する入力端子と接続する第1の緩衝記憶手
段と、前記入力端子と接続し入力する前記窓を掛けた音
声データの各サンプルに時刻発生手段の発生する各時刻
の値を掛ける掛算手段と、この掛算手段と接続し前記掛
算手段の出力を入力する第2の緩衝記憶手段と、前記第
1の緩衝記憶手段および第2の緩衝記憶手段と接続し入
力するデータに一時期には順変換および逆変換のいずれ
か一方の変換を行い結果を前記第1の緩衝記憶手段およ
び第2の緩衝記憶手段の前記データを入力した側の緩衝
記憶手段に折返し出力する離散的フーリエ変換手段とを
有し、まず前記第1の緩衝記憶手段に記憶した前記窓を
掛けた音声データの各サンプルに前記離散的フーリエ変
換手段が離散的フーリエ変換を施して出力する音声のス
ペクトルを前記第1の緩衝記憶手段に記憶し、続いて前
記第2の緩衝記憶手段に記憶した前記掛算手段の出力し
たデータの各サンプルに前記離散的フーリエ変換手段が
離散的フーリエ変換を施して出力する微分スペクトルを
前記第2の緩衝記憶手段に記憶し、さらに、前記第2の
緩衝記憶手段から入力した前記微分スペクトルを前記第
1の緩衝記憶手段から入力した前記音声のスペクトルで
割った商の実数部を前記第2の緩衝記憶手段に折返し出
力する商実数部算出手段と、前記第2の緩衝記憶手段に
入力した前記商の実数部に対し前記離散的フーリエ変換
手段が逆変換を施し前記第2の緩衝記憶手段に折返し格
納済の逆変換の結果に対し対応する時間関数の各サンプ
ルの値を前記時刻発生手段の発生する各時刻の値で割算
し音声のスペクトルの位相に対応する時間関数として前
記第2の緩衝記憶手段に折返し出力する割算手段と、前
記離散的フーリエ変換手段が前記第2の緩衝記憶手段か
ら前記音声のスペクトルの位相に対応する時間関数を受
け、離散的フーリエ変換を施してスペクトルの位相を求
めて前記第2の緩衝記憶手段に折返し出力した後を受
け、前記第1の緩衝記憶手段から入力する前記音声のス
ペクトルの実数部と虚数部の逆正接を算出して偏角を求
める偏角算出手段と、前記第2の緩衝記憶手段に記憶し
たスペクトルの位相を受け前記偏角算出手段の算出した
偏角の値で補正し前記第2の緩衝記憶手段に出力する位
相補正手段と、前記離散的フーリエ変換手段が前記第2
の緩衝記憶手段に記憶した補正したスペクトルの位相に
対し離散的逆フーリエ変換を施して補正したスペクトル
の位相に対応する時間関数を求めて前記第2の緩衝記憶
手段に折返し出力した後を受け、前記第1の緩衝記憶手
段に記憶した前記音声のスペクトルの絶対値の対数を算
出し対数振幅スペクトルとして折返し前記第1の緩衝記
憶手段に出力する対数振幅スペクトル算出手段と、前記
第1の緩衝記憶手段に入力した前記対数振幅スペクトル
に対し前記離散的フーリエ変換手段が逆変換を施し前記
第1の緩衝記憶手段に折返し格納済の前記対数振幅スペ
クトルに対応する時間関数と前記第2の緩衝記憶手段に
格納済の位相補正済の音声のスペクトルの位相に対応す
る時間関数との各時刻の値を加え合わせて複素ケプスト
ラムの各時刻の値を求め出力端子に出力する加算手段と
を有する構成である。
【0031】また、第2,第3の音声の複素ケプストラ
ム分析装置の各手段間の接続を共通バスとし、緩衝記憶
手段と離散的フーリエ変換手段とを時分割多重使用して
もよい。
【0032】
【作用】本願発明では、複素ケプストラムのうち位相に
対応する成分と対数振幅に対応する成分を個別に求めて
それぞれの和で複素ケプストラムを求める点に特徴があ
る。その際、微分スペクトルを音声のスペクトルで割っ
た値の実数部を求め、これに対し離散的逆フーリエ変換
を施したものの各時刻のサンプルに各時刻の値をかけて
位相に対応する時間関数を求めている点が、特に従来の
複素ケプストラム分析と異なる点である。本発明でも、
位相に対応する成分を求める際には、第二の従来法と同
様に、スペクトルの微分とフーリエ変換の関係を利用し
ている。しかし、第二の従来法では、前述の式(13)
に従って、微分スペクトルを音声のスペクトルで割った
ものを逆変換し、さらに時刻の値を掛けて複素ケプスト
ラムを求めていたのに対し、本発明では微分スペクトル
を音声のスペクトルで割ったものの実数部のみを逆変換
し、さらに時刻の値を掛けて位相に対応する成分を求め
る点が異なっている。
【0033】この背景としては、対数振幅スペクトルと
位相とで微分による時間領域での折返しの影響が異なる
という音声の性質を利用しようとするものである。
【0034】即ち、前述の発明が解決しようとする課題
において指摘したように、音声の対数振幅スペクトルは
ピッチ周波数ごとの高調波構造があるため、これを微分
すると時間領域においては極めて長時間、理論的には無
限に継続するパルス列として観測されることになる。こ
のために、時間領域での折返しの影響を避けがたいとい
う問題があった。これに対し、スペクトルの位相は対数
振幅スペクトルに比べれば、ピッチ周波数ごとの変化は
比較的滑らかである。従って、これらの微分も対数振幅
スペクトルの微分のようにパルス状の特性にはならず、
また対応する時間関数も比較的短時間に減衰するという
性質があり折返しの影響を受けにくい。
【0035】なお、微分スペクトルをスペクトルで割っ
たものの実数部から位相に対応する成分が求められるこ
とは以下の原理による。まず、スペクトルの複素対数を
次のように表す。 C(ω)= log(X(ω)) = A(ω)+iB(ω) (14) このとき、実数部A(ω)が対数振幅スペクトルで、虚
数部B(ω)が位相である。それぞれの逆変換を次のよ
うにa(n)およびb(n)とすれば、複素ケプストラ
ムは式(17)のようになる。 a(n)= FI [A(ω)] (15) b(n)= FI [iB(ω)] (16) c(n)= a(n) + b(n) (17) 一方、式(13)から、微分スペクトルを音声のスペク
トルで割ったものは、式(14)を微分して虚数単位を
掛けたものであるから、これを求めると以下のようにな
る。 iC'(ω)= F[n・x(n)]/F[x(n)] = iA'(ω)−B'(ω) (18) これから次式を得る。 −B'(ω)= Re[F[n・x(n)]/F[x(n)]] (19) ここに、Re[ ]は実数部をとる演算を意味する。ここ
で、再び式(10)の関係に式(16)を適用して次式
が得られる。 b(n)= FI [ i(iB'(ω))]/n = FI [ −B'(ω))]/n = FI [Re[F[n・x(n)]/F[x(n)]]]/n (20) これは、微分スペクトルを音声のスペクトルで割ったも
のの実数部の逆変換の各時刻における値を時刻で割った
ものが、位相に対応する時間関数であることを示してい
る。このとき、割り算は複素数の演算として行う必要が
あるが、結果の実数部のみが必要なので、複素除算の後
に実数部を取り出すより、実数部のみを求めるようにし
た方が演算量は少ない。
【0036】なお、ここで微分スペクトルと略称してい
るものは、時間領域で時刻を掛けたもののフーリエ変換
であって、厳密には音声のスペクトルの微分に虚数単位
を掛けたものというべきであるが、簡単のためこのよう
に呼称する。
【0037】第3の発明では、第1の発明と同様にして
位相に対応する成分を求めた後、直ちに対数振幅スペク
トルの成分と加え合わせるのではなく、一旦周波数領域
に変換して位相の第一次近似とし、これともとのスペク
トルの偏角との比較を行い、位相の値を修正したものを
再び逆変換し、これと対数振幅スペクトルの成分と加え
合わせることでより高精度な分析を行うものである。折
返しによる誤差はごくわずかであるから、位相の第一次
近似と偏角とを比較すれば、連続性の判定を行うことな
く2πの倍数を誤りなく求められる。位相の第一次近似
と偏角との差を整数に丸めたものが2πの倍数であり、
このときの丸め誤差が折返しによる誤差である。これを
もとに第一次近似の位相をより正確な位相に修正し、こ
の逆変換と振幅スペクトルに対応する成分の和でより高
精度な複素ケプストラム分析が可能になる。
【0038】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0039】以下に述べる複数の実施例に共通な事項と
しては、まず、音声信号をディジタル化して窓を掛けた
データを入力とするものとして説明し、このデータを単
に音声データと呼ぶこととする。従って、時間的に変化
するスペクトルを分析するためには、異なる時間の音声
データを次々と本実施例の装置に供給することが必要で
あるが、ここでは音声データの1フレーム分の分析を行
うものとして説明する。窓関数としては、ハニング窓や
ハミング窓あるいは矩形窓など目的に合ったものならど
れでも良い。離散的フーリエ変換の点数と窓の長さとは
一般に異なるが、この場合は窓を掛けたデータ以外は0
であるとして分析を行うことになる。図1は第1の発明
の一実施例のブロック図である。
【0040】第1の発明の音声の複素ケプストラム分析
装置31は、窓を掛けた音声データの各サンプルを入力
する入力端子21と、入力端子21と接続し入力する音
声データの各サンプルに離散的フーリエ変換を施して音
声のスペクトルを出力する離散的フーリエ変換器A1
と、入力端子21と接続し入力する音声データの各サン
プルに時刻発生器A5の発生する各時刻の値を掛ける掛
算器4と、掛算器4の出力に離散的フーリエ変換を施し
て微分スペクトルとして出力する離散的フーリエ変換器
B6と、離散的フーリエ変換器A1の出力する音声のス
ペクトルの絶対値の対数を算出し対数振幅スペクトルと
して出力する対数振幅スペクトル算出器2と、対数振幅
スペクトル算出器2が出力する対数振幅スペクトルに対
し離散的逆フーリエ変換を施して対数振幅スペクトルに
対応する時間関数として出力する離散的逆フーリエ変換
器A3と、離散的フーリエ変換器B6から入力する微分
スペクトルを離散的フーリエ変換器A1から入力する音
声のスペクトルで割った商の実数部を出力する商実数部
算出器7と、商実数部算出器7の出力する商の実数部に
対し離散的逆フーリエ変換を施して商の実数部に対応す
る時間関数を出力する離散的逆フーリエ変換器B8と、
商の実数部に対応する時間関数の各サンプルの値を時刻
発生器B10の発生する各時刻の値で割算し音声のスペ
クトルの位相に対応する時間関数として出力する割算器
9と、割算器9の出力する音声のスペクトルの位相に対
応する時間関数と離散的逆フーリエ変換器A3の出力す
る対数振幅スペクトルに対応する時間関数との各時刻の
値を加え合わせて複素ケプストラムの各時刻の値として
求め出力端子22に出力する加算器11とで構成してい
る。
【0041】次に動作について説明する。
【0042】まず、離散的フーリエ変換器A1は、入力
端子21から信号線101を介して入力された音声デー
タに離散的フーリエ変換を施して当該音声データのスペ
クトルを求め、信号線102を介して対数振幅スペクト
ル算出器2と商実数部算出器7に送る。ここで得られる
音声データのスペクトルは、離散的な周波数における値
であり、複素数値である。対数振幅スペクトル算出器2
は、入力した音声データのスペクトルの絶対値の実数値
対数を各離散周波数ごとに求め、信号線103を介して
離散的逆フーリエ変換器A3に送る。離散的逆フーリエ
変換器A3は、入力した単数振幅スペクトルの逆フーリ
エ変換を求め、信号線104を介して加算器11に送
る。
【0043】一方、信号線101を介して入力された音
声データは、同時に掛算器4にも送られ、各サンプルの
時刻に応じた値を掛け、信号線105を介して離散的フ
ーリエ変換器B6に送られる。このとき、時刻発生器A
5では、入力信号に同期して時刻の値を発生し、掛算器
4の乗数として信号線111を介して送る。次に、離散
的フーリエ変換器B6は、掛算器4から送られる時刻の
値を掛けた音声データのフーリエ変換を出力し、信号線
106を介して商実数部算出器7に送る。このデータ
は、微分スペクトル、より正確にいえば微分スペクトル
に虚数単位を掛けたものに相当し、これも複素数データ
である。
【0044】商実数部算出器7は、離散的フーリエ変換
器B6から送られるデータを離散的フーリエ変換器A1
から送られるデータで割った値の実数部を求め、信号線
107を介して結果を離散的逆フーリエ変換器B8に送
る。離散的逆フーリエ変換器B8は、商実数部算出器7
の出力の逆フーリエ変換を求め、結果を信号線108を
介して割算器9に送る。
【0045】複素ケプストラムは、負の時刻においても
意味を持つものであるが、離散的逆フーリエ変換を用い
る場合は、データ点数のうち後半が等価的に負の時刻に
相当するものであるから、時刻発生器B10からは、後
半のデータの転送においてはここでの転送に同期して負
の値を減じるような時刻データを発生して信号線112
を介して割算器9に送る。
【0046】割算器9は、離散的逆フーリエ変換器B8
から送られるデータを、時刻発生器B10から送られる
等価的な時刻データで割った値を求め、信号線109を
介して加算器11に送る。加算器11では、離散的逆フ
ーリエ変換器A3から送られるデータと割算器9から送
られるデータを各時刻ごとに足し合わせて複素ケプスト
ラムデータとして信号線110を介して出力端子22に
出力する。
【0047】なお、離散的フーリエ変換器A1および離
散的フーリエ変換器B6は、サンプリング時刻の順に送
られるデータを内部でバッファメモリに一時記憶してフ
ーリエ変換を行う必要がある。いわゆる高速フーリエ変
換を用いる場合は離散的な周波数の点数分のメモリがあ
れば良いことはよく知られた通りである。変換の結果も
一時蓄えておき離散的な周波数の順に順次出力するもの
である。一方、離散的逆フーリエ変換器A3および離散
的逆フーリエ変換器B8も同様に、各周波数ごとのデー
タを一時記憶して変換を行い、結果を時刻の順に出力す
るものである。ただし、前述のように、後半については
等価的には負の時刻におけるデータであると解釈され
る。
【0048】図2は第2の発明の一実施例のブロック図
である。本実施例の動作原理は、前述の第1の発明と同
一であるが、第1の発明の一実施例における同種の機能
を持ったものを共通化し、時分割多重使用することで構
成を簡単にしたものである。同時に、離散的フーリエ変
換は、変換の係数の切り替えによって、逆変換も順変換
と同様に行えることを利用して共通化を図っている。ま
た、時刻発生についても、離散的フーリエ変換における
後半のデータが負の時刻におけるものと考えることは前
半の処理においても正しい結果になるので、これらを共
通化するものである。
【0049】なお、名称および符号については、図1と
完全に同一機能のものは同一名称および符号を使用して
いる。
【0050】第2の発明の音声の複素ケプストラム分析
装置32は、窓を掛けた音声データの各サンプルを入力
する入力端子21と、入力端子21と接続するバッファ
A12と、入力端子21と接続し入力する窓を掛けた音
声データの各サンプルに時刻発生器15の発生する各時
刻の値を掛ける掛算器4と、掛算器4と接続し掛算器4
の出力を入力するバッファB13と、バッファA12お
よびバッファB13と接続し入力するデータに一時期に
は順変換および逆変換のいずれか一方の変換を行い結果
をバッファA12およびバッファB13のデータを入力
した側のバッファに折返し出力する離散的フーリエ変換
器14と、離散的フーリエ変換器14が窓を掛けた音声
データの各サンプルに離散的フーリエ変換を施して出力
する音声のスペクトルをバッファA12を介して受信し
音声のスペクトルの絶対値の対数を算出し対数振幅スペ
クトルとして折返しバッファA12に出力する対数振幅
スペクトル算出器16と、バッファB13から入力した
微分スペクトルをバッファA12から入力した音声のス
ペクトルで割った商の実数部をバッファB13に折返し
出力する商実数部算出器17と、バッファB13に入力
した商の実数部に対し離散的フーリエ変換器14が逆変
換を施しバッファB13に折返し、格納済の逆変換の結
果に対し対応する時間関数の各サンプルの値を時刻発生
器15の発生する各時刻の値で割算し、音声のスペクト
ルの位相に対応する時間関数としてバッファB13に折
返し出力する割算器18と、バッファA12に入力した
対数振幅スペクトルに対し離散的フーリエ変換器14が
逆変換を施しバッファA12に折返し格納済の対数振幅
スペクトルに対応する時間関数とバッファB13に格納
済の音声のスペクトルの位相に対応する時間関数との各
時刻の値を加え合わせて複素ケプストラムの各時刻の値
を求め出力端子22に出力する加算器11とで構成して
いる。
【0051】次に動作について説明する。
【0052】まず音声データが入力端子21から信号線
201を介してバッファA12と掛算器4に入力され
る。バッファA12は、そのまま入力された音声データ
を一時記憶する。一方、掛算器4に入力される音声デー
タには、データの入力に同期して時刻発生器15から信
号線213を介して送られる時刻の値が乗じられて、結
果が信号線102を介してバッファB13に送られて一
時記憶される。
【0053】次にバッファA12は、音声データを信号
線203を介して離散的フーリエ変換器14に送る。離
散的フーリエ変換器14は、ここで順変換を施す。変換
された音声スペクトルデータは、信号線204を介して
バッファA12に送り返されここに記憶される。続いて
バッファB13は、時刻を乗じた音声データを信号線2
05を介して離散的フーリエ変換器14に送る。離散的
フーリエ変換器14は、ここで順変換を施す。変換によ
って得られる微分スペクトルは、信号線206を介して
バッファB13に送り返されここに記憶される。
【0054】次に、バッファA12は、音声スペクトル
データを信号線207を介して対数振幅スペクトル算出
器16および商実数部算出器17に送る。同時にバッフ
ァB13は、微分スペクトルのデータを、信号線208
を介して商実数部算出器17に送る。対数振幅スペクト
ル算出器16は、受信した音声スペクトルデータの絶対
値の実数値対数を求め、信号線210を介してバッファ
A12に送り返す。一方、商実数部算出器17は、バッ
ファB13からから送られる微分スペクトルデータをバ
ッファA12から送られる音声スペクトルデータで割っ
た値の実数部を求め、信号線209を介して結果をバッ
ファB13に送り返す。
【0055】次に、バッファA12から対数振幅スペク
トルが再び信号線203を介して離散的フーリエ変換器
14に送られ、今度は逆変換処理が施されて結果が信号
線204を介してバッファA12に送り返される。続い
て、バッファB13から信号線205を介して微分スペ
クトルをスペクトルで割った値の実数部が離散的フーリ
エ変換器14に送られ、逆変換が施されて結果が信号線
206を介してバッファB13に送り返される。さら
に、このデータは信号線211を介して割算器18に送
られ、そこでは時刻発生器5から送られる等価的な時刻
データで割った値を求め、結果は信号線212を介して
バッファB13に送り返される。
【0056】この段階でバッファA12には対数振幅ス
ペクトルに対応する複素ケプストラムの成分が記憶され
ており、バッファB13には位相に対応する複素ケプス
トラムの成分が記憶されている。最後に、バッファA1
2の内容が信号線215を介して加算器11に送られ、
バッファB13の内容が信号線216を介して加算器1
1に送られ、ここで足し合わされて複素ケプストラムが
求められ、信号線217を介して出力端子22に出力さ
れる。
【0057】図3は第3の発明の一実施例のブロック図
である。本実施例においても前述の第2の発明と同様
に、同種の機能を持ったものを共通化し、時分割多重使
用することで構成を簡単にしたものである。
【0058】なお、名称および符号については、図1,
2と完全に同一機能のものは同一名称および符号を使用
している。
【0059】第3の発明の音声の複素ケプストラム分析
装置33は、窓を掛けた音声データの各サンプルを入力
する入力端子21と、入力端子21と接続するバッファ
A12と、入力端子21と接続し入力する窓を掛けた音
声データの各サンプルに時刻発生器15の発生する各時
刻の値を掛ける掛算器4と、掛算器4と接続し掛算器4
の出力を入力するバッファB13と、バッファA12お
よびバッファB13と接続し入力するデータに一時期に
は順変換および逆変換のいずれか一方の変換を行い結果
をバッファA12およびバッファB13のデータを入力
した側のバッファに折返し出力する離散的フーリエ変換
器14と、離散的フーリエ変換器14が窓を掛けた音声
データの各サンプルに離散的フーリエ変換を施して出力
する音声のスペクトルをバッファA12を介して受信し
音声のスペクトルの絶対値の対数を算出し対数振幅スペ
クトルとして折返しバッファA12に出力する対数振幅
スペクトル算出器16と、バッファA12から入力する
音声のスペクトルの実数部と虚数部の逆正接を算出して
偏角を求める偏角算出器19と、バッファB13から入
力した微分スペクトルをバッファA12から入力した音
声のスペクトルで割った商の実数部をバッファB13に
折返し出力する商実数部算出器17と、バッファB13
に入力した商の実数部に対し離散的フーリエ変換器14
が逆変換を施しバッファB13に折返し、格納済の逆変
換の結果に対し対応する時間関数の各サンプルの値を時
刻発生器15の発生する各時刻の値で割算し、音声のス
ペクトルの位相に対応する時間関数としてバッファB1
3に折返し出力する割算器18と、バッファB13から
音声のスペクトルの位相に対応する時間関数を受け偏角
算出器19の算出した偏角の値で補正しバッファB13
に出力する位相補償器20と、バッファA12に入力し
た対数振幅スペクトルに対し離散的フーリエ変換器14
が逆変換を施しバッファA12に折返し格納済の対数振
幅スペクトルに対応する時間関数とバッファB13に格
納済の位相補正済の音声のスペクトルの位相に対応する
時間関数との各時刻の値を加え合わせて複素ケプストラ
ムの各時刻の値を求め出力端子22に出力する加算器1
1とで構成している。
【0060】次に動作について説明する。
【0061】まず音声データが入力端子21から信号線
301を介してバッファA12と掛算器4に入力され
る。バッファA12は、そのまま入力された音声データ
を一時記憶する。一方、掛算器4に入力される音声デー
タには、データの入力に同期して時刻発生器15から信
号線313を介して送られる時刻の値が乗じられて、結
果が信号線302を介してバッファB13に送られて一
時記憶される。
【0062】次にバッファA12は、音声データを信号
線303を介して離散的フーリエ変換器14に送る。離
散的フーリエ変換器14は、ここで順変換を施す。変換
された音声スペクトルデータは、信号線304を介して
バッファA12に送り返されここに記憶される。続いて
バッファB13は、時刻を乗じた音声データを信号線3
05を介して離散的フーリエ変換器14に送る。離散的
フーリエ変換器14は、ここで順変換を施す。変換によ
って得られる微分スペクトルは、信号線306を介して
バッファB13に送り返されここに記憶される。
【0063】次に、バッファA12は、音声スペクトル
データを信号線307を介して商実数部算出器17に送
る。同時にバッファB13は、微分スペクトルのデータ
を、信号線308を介して商実数部算出器17に送る。
商実数部算出器17は、バッファB13からから送られ
る微分スペクトルデータをバッファA12から送られる
音声スペクトルデータで割った値の実数部を求め、信号
線309を介して結果をバッファB13に送り返す。
【0064】なお、前述の第2の発明の実施例では、バ
ッファA12から信号線307を介して、音声スペクト
ルデータを対数振幅スペクトル算出器16および商実数
部算出器17に同時に送り、対数振幅スペクトルを算出
してたが、第3の発明では、このタイミングにおけるバ
ッファA12内に格納してある音声スペクトルデータを
保存しておき、位相の正確な値を求めてから対数振幅ス
ペクトルを算出するため、ここでは対数振幅スペクトル
算出器16へのデータ転送を行わない。これにより音声
スペクトルデータを保存しておくための、もう1つのバ
ッファを用意する必要がなくなる。
【0065】続いて、バッファB13は、信号線305
を介して微分スペクトルを音声のスペクトルで割った値
の実数部を離散的フーリエ変換器14に送り、離散的フ
ーリエ変換器14により逆変換が施されて結果が信号線
306を介してバッファB13に送り返される。さら
に、バッファB13は、このデータを信号線311を介
して割算器9に送る。割算器9は、このデータを時刻発
生器15から送られる等価的な時刻データで割って値を
求め、結果を信号線312を介してバッファB13に送
り返す。続いて、バッファB13は、このデータを信号
線305を介して離散的フーリエ変換器1に送り、順変
換が施された結果を信号線306を介して受け取る。こ
のデータは位相の第一次近似に相当するものである。
【0066】次に、バッファA12からは、音声スペク
トルデータが信号線307を介して偏角算出器19に送
られ、実数部と虚数部とから偏角の値が算出され、結果
は信号線319を介して位相補正器20に送られる。一
方、バッファB13からは、第一次近似の位相の値が信
号線318を介して位相補正器20に送られ、偏角の値
をもとに補正が行われ、より正確な位相の値が信号線3
20を介してバッファB13に送り返される。
【0067】この位相データは、バッファB13から信
号線305を介して離散的フーリエ変換器14に送ら
れ、逆変換が施されて位相に対応する複素ケプストラム
の成分が求まり、信号線316を介してバッファB13
に送り返される。
【0068】一方、バッファA12からは、音声スペク
トルデータが信号線307を介して対数振幅スペクトル
算出器16に送られ、対数振幅スペクトル算出器16
は、入力した音声スペクトルデータの絶対値の実数値対
数を求め、信号線310を介してバッファA12に送り
返す。次に、バッファA12は、この対数振幅スペクト
ルを再び信号線303を介して離散的フーリエ変換器1
4に送り、今度は逆変換処理が施された結果を信号線3
04を介して受け取る。このデータは対数振幅スペクト
ルに対応する複素ケプストラム成分である。
【0069】この段階でバッファA12には対数振幅ス
ペクトルに対応する複素ケプストラムの成分が記憶され
ており、バッファB13には補正された位相に対応する
複素ケプストラムの成分が記憶されている。最後に、バ
ッファA12は、格納しているデータを信号線315を
介して加算器11に送り、バッファB13も、格納して
いるデータを信号線316を介して加算器11に送る。
加算器11は、受信したデータを足し合わして複素ケプ
ストラムを求め、信号線317を介して出力端子22か
ら出力する。
【0070】
【発明の効果】以上説明したように、本発明は、入力さ
れた音声に対し、離散的フーリエ変換器でスペクトルを
求め、同時に掛算器で各サンプルの時刻に応じた値を掛
けて、結果を離散的フーリエ変換器で変換し微分スペク
トルを求め、商実数部算出器でこの微分スペクトルを音
声のスペクトルで割った値の実数部を求め、さらにこれ
を離散的逆フーリエ変換器で逆変換し、割算器でその結
果の各サンプルの値を各時刻の値で割って位相に対応す
る時間関数を求めておく。他方、対数振幅スペクトル算
出器と離散的逆フーリエ変換器によって、対数振幅スペ
クトルに対応する時間関数を求め、最後に加算器11で
両時間関数を各時刻ごとに足し合わして複素ケプストラ
を求めることにより、音声信号をディジタル化したデー
タを分析する場合に、音声信号の対数振幅スペクトルと
位相特性を表すパラメータである複素ケプストラムを、
比較的少ない演算量で高精度にかつ誤りなく抽出するこ
とができるという効果が有る。
【図面の簡単な説明】
【図1】第1の発明の一実施例のブロック図である。
【図2】第2の発明の一実施例のブロック図である。
【図3】第3の発明の一実施例のブロック図である。
【符号の説明】
1 離散的フーリエ変換器A 2,16 対数振幅スペクトル算出器 3 離散的逆フーリエ変換器A 4 掛算器 5 時刻発生器A 6 離散的フーリエ変換器B 7,17 商実数部算出器 8 離散的逆フーリエ変換器B 9,18 割算器 10 時刻発生器B 11 加算器 12 バッファA 13 バッファB 14 離散的フーリエ変換器 15 時刻発生器 19 偏角算出器 20 位相補償器 21 入力端子 22 出力端子 31 第1の発明の音声の複素ケプストラム分析装置 32 第2の発明の音声の複素ケプストラム分析装置 33 第3の発明の音声の複素ケプストラム分析装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声信号をディジタル化して窓を掛けた
    データを分析し複素ケプストラムを抽出する音声の複素
    ケプストラム分析装置において、前記窓を掛けた音声デ
    ータの各サンプルを入力する入力端子と、この入力端子
    と接続し入力する前記窓を掛けた音声データの各サンプ
    ルに離散的フーリエ変換を施して音声のスペクトルを出
    力する第1の離散的フーリエ変換手段と、前記入力端子
    と接続し入力する前記窓を掛けた音声データの各サンプ
    ルに第1の時刻発生手段の発生する各時刻の値を掛ける
    掛算手段と、この掛算手段の出力に離散的フーリエ変換
    を施して微分スペクトルとして出力する第2の離散的フ
    ーリエ変換手段と、前記第1の離散的フーリエ変換手段
    の出力する音声のスペクトルの絶対値の対数を算出し対
    数振幅スペクトルとして出力する対数振幅スペクトル算
    出手段と、この対数振幅スペクトル算出手段が出力する
    対数振幅スペクトルに対し離散的逆フーリエ変換を施し
    て対数振幅スペクトルに対応する時間関数として出力す
    る第1の離散的逆フーリエ変換手段と、前記第2の離散
    的フーリエ変換手段から入力する微分スペクトルを前記
    第1の離散的フーリエ変換手段から入力する音声のスペ
    クトルで割った商の実数部を出力する商実数部算出手段
    と、この商実数部算出手段の出力する商の実数部に対し
    離散的逆フーリエ変換を施して前記商の実数部に対応す
    る時間関数を出力する第2の離散的逆フーリエ変換手段
    と、前記商の実数部に対応する時間関数の各サンプルの
    値を第2の時刻発生手段の発生する各時刻の値で割算し
    音声のスペクトルの位相に対応する時間関数として出力
    する割算手段と、この割算手段の出力する音声のスペク
    トルの位相に対応する時間関数と前記第1の離散的逆フ
    ーリエ変換手段の出力する対数振幅スペクトルに対応す
    る時間関数との各時刻の値を加え合わせて複素ケプスト
    ラムの各時刻の値として求め出力端子に出力する加算手
    段とを有することを特徴とする音声の複素ケプストラム
    分析装置。
  2. 【請求項2】 音声信号をディジタル化して窓を掛けた
    データを分析し複素ケプストラムを抽出する音声の複素
    ケプストラム分析装置において、前記窓を掛けた音声デ
    ータの各サンプルを入力する入力端子と接続する第1の
    緩衝記憶手段と、前記入力端子と接続し入力する前記窓
    を掛けた音声データの各サンプルに時刻発生手段の発生
    する各時刻の値を掛ける掛算手段と、この掛算手段と接
    続し前記掛算手段の出力を入力する第2の緩衝記憶手段
    と、前記第1の緩衝記憶手段および第2の緩衝記憶手段
    と接続し入力するデータに一時期には順変換および逆変
    換のいずれか一方の変換を行い結果を前記第1の緩衝記
    憶手段および第2の緩衝記憶手段の前記データを入力し
    た側の緩衝記憶手段に折返し出力する離散的フーリエ変
    換手段とを有し、まず前記第1の緩衝記憶手段に記憶し
    た前記窓を掛けた音声データの各サンプルに前記離散的
    フーリエ変換手段が離散的フーリエ変換を施して出力す
    る音声のスペクトルを前記第1の緩衝記憶手段に記憶
    し、続いて前記第2の緩衝記憶手段に記憶した前記掛算
    手段の出力したデータの各サンプルに前記離散的フーリ
    エ変換手段が離散的フーリエ変換を施して出力する微分
    スペクトルを前記第2の緩衝記憶手段に記憶し、さら
    に、前記第2の緩衝記憶手段から入力した前記微分スペ
    クトルを前記第1の緩衝記憶手段から入力した前記音声
    のスペクトルで割った商の実数部を前記第2の緩衝記憶
    手段に折返し出力する商実数部算出手段と、前記第2の
    緩衝記憶手段に入力した前記商の実数部に対し前記離散
    的フーリエ変換手段が逆変換を施し前記第2の緩衝記憶
    手段に折返し格納済の逆変換の結果に対し対応する時間
    関数の各サンプルの値を前記時刻発生手段の発生する各
    時刻の値で割算し音声のスペクトルの位相に対応する時
    間関数として前記第2の緩衝記憶手段に折返し出力する
    割算手段と、前記第1の緩衝記憶手段に記憶した前記音
    声のスペクトルの絶対値の対数を算出し対数振幅スペク
    トルとして折返し前記第1の緩衝記憶手段に出力する対
    数振幅スペクトル算出手段と、前記第1の緩衝記憶手段
    に入力した前記対数振幅スペクトルに対し前記離散的フ
    ーリエ変換手段が逆変換を施し前記第1の緩衝記憶手段
    に折返し格納済の前記対数振幅スペクトルに対応する時
    間関数と前記第2の緩衝記憶手段に格納済の音声のスペ
    クトルの位相に対応する時間関数との各時刻の値を加え
    合わせて複素ケプストラムの各時刻の値を求め出力端子
    に出力する加算手段とを有することを特徴とする音声の
    複素ケプストラム分析装置。
  3. 【請求項3】 音声信号をディジタル化して窓を掛けた
    データを分析し複素ケプストラムを抽出する音声の複素
    ケプストラム分析装置において、前記窓を掛けた音声デ
    ータの各サンプルを入力する入力端子と接続する第1の
    緩衝記憶手段と、前記入力端子と接続し入力する前記窓
    を掛けた音声データの各サンプルに時刻発生手段の発生
    する各時刻の値を掛ける掛算手段と、この掛算手段と接
    続し前記掛算手段の出力を入力する第2の緩衝記憶手段
    と、前記第1の緩衝記憶手段および第2の緩衝記憶手段
    と接続し入力するデータに一時期には順変換および逆変
    換のいずれか一方の変換を行い結果を前記第1の緩衝記
    憶手段および第2の緩衝記憶手段の前記データを入力し
    た側の緩衝記憶手段に折返し出力する離散的フーリエ変
    換手段とを有し、まず前記第1の緩衝記憶手段に記憶し
    た前記窓を掛けた音声データの各サンプルに前記離散的
    フーリエ変換手段が離散的フーリエ変換を施して出力す
    る音声のスペクトルを前記第1の緩衝記憶手段に記憶
    し、続いて前記第2の緩衝記憶手段に記憶した前記掛算
    手段の出力したデータの各サンプルに前記離散的フーリ
    エ変換手段が離散的フーリエ変換を施して出力する微分
    スペクトルを前記第2の緩衝記憶手段に記憶し、さら
    に、前記第2の緩衝記憶手段から入力した前記微分スペ
    クトルを前記第1の緩衝記憶手段から入力した前記音声
    のスペクトルで割った商の実数部を前記第2の緩衝記憶
    手段に折返し出力する商実数部算出手段と、前記第2の
    緩衝記憶手段に入力した前記商の実数部に対し前記離散
    的フーリエ変換手段が逆変換を施し前記第2の緩衝記憶
    手段に折返し格納済の逆変換の結果に対し対応する時間
    関数の各サンプルの値を前記時刻発生手段の発生する各
    時刻の値で割算し音声のスペクトルの位相に対応する時
    間関数として前記第2の緩衝記憶手段に折返し出力する
    割算手段と、前記離散的フーリエ変換手段が前記第2の
    緩衝記憶手段から前記音声のスペクトルの位相に対応す
    る時間関数を受け、離散的フーリエ変換を施してスペク
    トルの位相を求めて前記第2の緩衝記憶手段に折返し出
    力した後を受け、前記第1の緩衝記憶手段から入力する
    前記音声のスペクトルの実数部と虚数部の逆正接を算出
    して偏角を求める偏角算出手段と、前記第2の緩衝記憶
    手段に記憶したスペクトルの位相を受け前記偏角算出手
    段の算出した偏角の値で補正し前記第2の緩衝記憶手段
    に出力する位相補正手段と、前記離散的フーリエ変換手
    段が前記第2の緩衝記憶手段に記憶した補正したスペク
    トルの位相に対し離散的逆フーリエ変換を施して補正し
    たスペクトルの位相に対応する時間関数を求めて前記第
    2の緩衝記憶手段に折返し出力した後を受け、前記第1
    の緩衝記憶手段に記憶した前記音声のスペクトルの絶対
    値の対数を算出し対数振幅スペクトルとして折返し前記
    第1の緩衝記憶手段に出力する対数振幅スペクトル算出
    手段と、前記第1の緩衝記憶手段に入力した前記対数振
    幅スペクトルに対し前記離散的フーリエ変換手段が逆変
    換を施し前記第1の緩衝記憶手段に折返し格納済の前記
    対数振幅スペクトルに対応する時間関数と前記第2の緩
    衝記憶手段に格納済の位相補正済の音声のスペクトルの
    位相に対応する時間関数との各時刻の値を加え合わせて
    複素ケプストラムの各時刻の値を求め出力端子に出力す
    る加算手段とを有することを特徴とする音声の複素ケプ
    ストラム分析装置。
JP6024594A 1994-02-23 1994-02-23 音声の複素ケプストラム分析装置 Expired - Fee Related JP2812184B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP6024594A JP2812184B2 (ja) 1994-02-23 1994-02-23 音声の複素ケプストラム分析装置
CA002142509A CA2142509C (en) 1994-02-23 1995-02-14 Complex cepstrum analyzer for speech signals
US08/392,482 US5677984A (en) 1994-02-23 1995-02-23 Complex cepstrum analyzer for speech signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6024594A JP2812184B2 (ja) 1994-02-23 1994-02-23 音声の複素ケプストラム分析装置

Publications (2)

Publication Number Publication Date
JPH07234696A true JPH07234696A (ja) 1995-09-05
JP2812184B2 JP2812184B2 (ja) 1998-10-22

Family

ID=12142489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6024594A Expired - Fee Related JP2812184B2 (ja) 1994-02-23 1994-02-23 音声の複素ケプストラム分析装置

Country Status (3)

Country Link
US (1) US5677984A (ja)
JP (1) JP2812184B2 (ja)
CA (1) CA2142509C (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6650918B2 (en) 2002-02-22 2003-11-18 Datex-Ohmeda, Inc. Cepstral domain pulse oximetry
US20040039273A1 (en) * 2002-02-22 2004-02-26 Terry Alvin Mark Cepstral domain pulse oximetry
US6751564B2 (en) * 2002-05-28 2004-06-15 David I. Dunthorn Waveform analysis
NZ594185A (en) * 2009-02-11 2013-12-20 Resmed Ltd Acoustic detection for respiratory treatment apparatus
JP2011038835A (ja) * 2009-08-07 2011-02-24 Kajima Corp トンネル覆工厚測定装置、測定方法および型枠
GB2508417B (en) 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
US20220168526A1 (en) * 2019-05-02 2022-06-02 ResMed Pty Ltd Acoustic component identification for respiratory therapy systems

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3662108A (en) * 1970-06-08 1972-05-09 Bell Telephone Labor Inc Apparatus for reducing multipath distortion of signals utilizing cepstrum technique
US4374304A (en) * 1980-09-26 1983-02-15 Bell Telephone Laboratories, Incorporated Spectrum division/multiplication communication arrangement for speech signals

Also Published As

Publication number Publication date
CA2142509A1 (en) 1995-08-24
JP2812184B2 (ja) 1998-10-22
CA2142509C (en) 1999-03-16
US5677984A (en) 1997-10-14

Similar Documents

Publication Publication Date Title
Ghahremani et al. A pitch extraction algorithm tuned for automatic speech recognition
Schafer et al. System for automatic formant analysis of voiced speech
Dolson The phase vocoder: A tutorial
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
Plante et al. Improvement of speech spectrogram accuracy by the method of reassignment
EP0853309B1 (en) Method and apparatus for signal analysis
Morise Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error
US20130311189A1 (en) Voice processing apparatus
US20100169085A1 (en) Model based real time pitch tracking system and singer evaluation method
EP0851405B1 (en) Method and apparatus of speech synthesis by means of concatenation of waveforms
JP2812184B2 (ja) 音声の複素ケプストラム分析装置
Bellur et al. A novel application of group delay function for identifying tonic in Carnatic music
Sluyter et al. A novel method for pitch extraction from speech and a hardware model applicable to vocoder systems
EP2519944B1 (en) Pitch period segmentation of speech signals
CN112505413B (zh) 一种时频分析方法和系统
Chowdhury et al. Formant estimation from speech signal using the magnitude spectrum modified with group delay spectrum
EP3447767A1 (en) Method for phase correction in a phase vocoder and device
Yeh et al. The expected amplitude of overlapping partials of harmonic sounds
Rao et al. A comparative study of various pitch detection algorithms
CN107657962A (zh) 一种语音信号的喉声和气声识别与分离方法及系统
Gaikwad et al. Tonic note extraction in indian music using hps and pole focussing technique
Mowlaee et al. Fundamentals of Phase-Based Signal Processing
Nechifor et al. COMPARISON OF ALGORITHMS FOR FUNDAMENTAL FREQUENCY DETECTION IN THE CONTEXT OF AUDIO PLUG-INS
Fulop et al. The Reassigned Spectrogram
MacKinlay et al. Mosaic Style Transfer Using Sparse Autocorrelograms.

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980707

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070807

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080807

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080807

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090807

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090807

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100807

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees