JP2003044077A

JP2003044077A - 音声特徴量抽出方法と装置及びプログラム

Info

Publication number: JP2003044077A
Application number: JP2001226230A
Authority: JP
Inventors: Ko Amada; 皇天田; Masaru Sakai; 優酒井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-07-26
Filing date: 2001-07-26
Publication date: 2003-02-14
Anticipated expiration: 2021-07-26
Also published as: JP3699912B2

Abstract

(57)【要約】【課題】音声スペクトルの動的特徴を的確に反映させた
音声特徴量を抽出する音声特徴量抽出装置を提供する。【解決手段】入力音声信号をフレーム分割部１１により
所定時間長に分割したフレーム毎に、周波数分析部１２
により周波数分析を行ってスペクトル形状ベクトルを生
成した後、セグメント化部１３によってスペクトル形状
ベクトルを時間方向に複数フレーム分連結して２次元行
列形状をなす時間−周波数セグメントを生成し、さらに
時間−周波数セグメントに対し２次元ＤＣＴ部１４でコ
サイン変換を施して２次元実数ケプストラムを生成し、
２次元実数ケプストラムの少なくとも一部の成分を音声
特徴量として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識や話者認
識などで用いられる音声特徴量を抽出する音声特徴量抽
出方法と装置及び音声特徴量抽出をコンピュータに実行
させるためのプログラムに関する。

【０００２】

【従来の技術】一般的に、音声認識では入力音声信号か
らその特徴を良く表す少数のパラメータ（音声特徴量と
いう）を抽出し、これを予め登録してあるモデルの特徴
量と照合して、最も近いモデルを認識結果とする方法が
とられる。この方法において音声特徴量の果たす役割は
重要であり、より少ないパラメータ数で精度良く音声の
特徴を表すようにするための様々な研究が行われてきて
いる。

【０００３】音声特徴量として、近年ではＭＦＣＣ(Mel
-Frequency Cepstrum Coefficient:メル周波数ケプスト
ラム係数）と呼ばれるパラメータがよく用いらる。ＭＦ
ＣＣは、音声の時間波形をフーリエ変換して対数スペク
トルを生成し、これをメルスケールで複数の帯域に分割
し、帯域毎に窓関数を用いて平均値を算出し、その平均
値をＤＣＴ変換する、という手順によって得られる。

【０００４】一方、音声特徴量の時間的な変化を表す動
的特徴（Δと称される）は、認識率の向上に効果的であ
ることが知られており、ＭＦＣＣに動的特徴を組み合わ
せたＭＦＣＣ−△ＭＦＣＣ混在型の音声特徴量が広く用
いられるようになってきている。

【０００５】動的特徴の別の導入方法として、ＭＦＣＣ
のような音声特徴量を複数のフレームに渡って観測し、
各フレームの音声特徴量を連結して２次元行列状のパラ
メータ（セグメントと呼ぶ）を作成し、これをＫＬ展開
などで次元圧縮して用いる方法が「セグメント統計量を
用いた隠れマルコフモデルによる音声認識」信学論、J7
9-DII，pp.2023〜，1996に記載されている。この方法に
よると、ＭＦＣＣをセグメント化することでパラメータ
間の時間方向の相関が表現される。この相関が主要な成
分であれば、ＫＬ展開によって動的特徴が抽出される。
この方法は、ＭＦＣＣ−△ＭＦＣＣ混在型と異なり、統
計的な手法で動的特徴を抽出することから、音声特徴量
として必要な成分を無駄なく抽出できることが期待され
る。

【０００６】

【発明が解決しようとする課題】ＭＦＣＣをセグメント
化する方法では、ＭＦＣＣの算出自体は入力音声信号の
フレームに対して行われるため、音声特徴量の抽出の段
階では動的特徴が考慮されていない。すなわち、ＭＦＣ
Ｃのセグメント化により抽出される動的特徴は、フレー
ム単位で抽出されたパラメータ間の時間相関に限られて
しまい、その他の動的特徴は抽出されないという問題が
ある。

【０００７】例えば、一部の子音などでは、時間−周波
数スペクトルはセグメントの前半と後半とでスペクトル
の形状やパワが２次元的に大きく変化する場合がある。
従って、入力音声信号のフレーム毎に音声特徴量を抽出
してそれらを結合する方法では、２次元的に変化する時
間−周波数スペクトルの特徴を十分に抽出できていると
は言えない。

【０００８】より詳細に説明すると、一般的にＭＦＣＣ
はパワを表す０次の項を使用しないことで、スペクトル
の凹凸の情報だけを表現する形式になっている。セグメ
ントの前半のフレームで音が小さく、後半にいくに従っ
て音が大きくなる場合などにおいては、通常のＭＦＣＣ
ではスペクトルの形状だけが抽出され、パワの変化の情
報が落とされてしまう。

【０００９】また、パラメータ数（ＭＦＣＣの数）が増
加する問題と引き替えに０次の項を用いた場合、フレー
ム毎の平均のパワの変化を表すことはできても、パワの
大きな帯域が時間とともにどの様に変化しているか、す
なわち時間−周波数に対して斜めの移動のようなパワの
変化とスペクトル形状の変化が連動している動きを直接
表すことはできない。

【００１０】本発明は、音声スペクトルの動的特徴を的
確に反映させた音声特徴量を抽出する音声特徴量抽出方
法及び装置を提供することを目的とする。

【００１１】

【課題を解決するための手段】上記の課題を解決するた
め、本発明の一つの態様では入力音声信号を所定の時間
長を有するフレームに分割し、フレーム毎に周波数分析
を行ってスペクトルの形状を表すスペクトル形状ベクト
ルを生成した後、これらのスペクトル形状ベクトルを時
間方向に複数フレーム分連結することによって、２次元
行列形状をなす時間−周波数セグメントを生成する。こ
の時間−周波数セグメントに２次元コサイン変換を施し
て２次元実数ケプストラムを生成し、この２次元実数ケ
プストラムの少なくとも一部の成分を音声特徴量として
出力する。

【００１２】このように２次元行列状の時間−周波数セ
グメントに直接２次元コサイン変換を適用することによ
り、セグメント内でパワやスペクトルの形状が関連して
変化する時間−周波数セグメントに対しても、その動的
特徴を詳細に表すことが可能となる。

【００１３】本発明の他の態様によると、時間−周波数
セグメントの一部の周波数帯域を選択し、その帯域選択
された時間−周波数セグメントに対し２次元コサイン変
換を施して２次元実数ケプストラムを生成して、２次元
実数ケプストラムの少なくとも一部の成分を音声特徴量
として出力する。

【００１４】このように帯域選択された時間−周波数セ
グメントに対して２次元コサイン変換を行うことで、特
定の帯域に雑音が重畳した場合などには、その帯域を避
けて音声認識を行うなどの応用が可能となる。

【００１５】

【発明の実施の形態】（第１の実施形態）図１は、本発
明の第１の実施形態に係る音声特徴量抽出装置の構成を
示すブロック図である。本実施形態の音声特徴量抽出装
置は、入力端子１０に入力される入力音声信号の音声特
徴量を抽出する装置であり、フレーム分割部１１、周波
数分析部１２、セグメント化部１３、２次元ＤＣＴ部１
４、及び必要に応じて設けられる低域選択部１５を有す
る。音声特徴量２０は、２次元ＤＣＴ部１４の出力また
は低域選択部１５の出力から出力される。

【００１６】フレーム分割部１１は、入力音声信号を所
定の時間長を有するフレームに分割する。このフレーム
は周波数分析の単位であるため、分析フレームと称す
る。周波数分析部１２は、分析フレームに対して周波数
分析を行うことによって、スペクトル形状をベクトル表
現したスペクトル形状ベクトルを生成する。セグメント
化部１３は、スペクトル形状ベクトルを時間方向に複数
フレーム分連結する。こうして時間方向に連結されたス
ペクトル形状ベクトルの２次元行列状の集合を時間−周
波数セグメントという。２次元ＤＣＴ部１４は、時間−
周波数セグメントに対し２次元コサイン変換である２次
元ＤＣＴを施して、２次元実数ケプストラムを生成す
る。

【００１７】次に、図２に示すフローチャート及び図３
〜図６を用いて本実施形態における音声特徴量抽出処理
の詳細な手順について述べる。入力端子１０には、通常
８〜２２ｋＨｚ程度のサンプリング周波数でサンプリン
グされ、ディジタル化された入力音声信号が入力され
る。入力音声信号は、まずフレーム分割部１１によって
所定の時間長のフレームに分割され、分析フレームが生
成される（ステップＳ２１）。より具体的には、例えば
分析フレームの長さ（分析フレーム長）は１０〜３０ｍ
ｓｅｃ程度であり、各分析フレームは５〜１５ｍｓｅｃ
程度のシフト幅だけシフトして生成される。すなわち、
各分析フレームはシフト幅分ずつオーバラップして生成
され、シフト幅に相当する周期（フレーム周期）で出力
される。

【００１８】図３に、この様子を示す。図３（ａ）に示
す入力音声信号に対して、フレーム分割部１１により、
図３（ｂ）に示すようにシフト幅だけオーバラップした
分析フレーム０，１，…，Ｋ−１が生成される。

【００１９】フレーム分割部１１によって生成された各
分析フレームは、フレーム周期で周波数分析部１２に入
力され、ここでフレーム単位で周波数分析が行われるこ
とにより、スペクトル形状を表すスペクトル形状ベクト
ルが生成される（ステップＳ２２）。このステップＳ２
２の処理を以下に具体的に説明する。

【００２０】周波数分析部１２では、まず時刻ｔでの分
析フレームＳｔ（ｎ）をフーリエ変換し、パワスペクト
ルＸｔ（ｗ）を求める。但し、ｎ＝０，…，Ｎ−１、ｗ
＝０，…，Ｎ／２であり、Ｎは１分析フレーム当たりの
サンプル数である。次に、パワスペクトルＸ（ｗ）をメ
ルスケールやバークスケールに合わせて非一様にＭ個に
分割する。Ｍは１５〜３０程度である。パワスペクトル
Ｘ（ｗ）を分割する前に、直流近辺や高域成分を削除す
る場合もある。メルスケールやバークスケールは、周波
数スケールの変換方法の一つであり、低域ほど周波数分
解能が高くなる人間の聴覚性質を近似しているため、音
声認識では広く用いられている。次に、Ｍ個に分割され
たパワスペクトルについて、各帯域毎に窓関数を用いて
平均値を一つずつ算出する。窓関数の窓形状としては、
矩形や三角窓を用いればよい。最後に、算出された平均
値の対数を求めることにより、図４に示すようなＭ次元
からなるスペクトル形状ベクトルＹｔ（ｍ）；ｍ＝０，
…，Ｍ−１がフレーム周期で出力される。

【００２１】こうして周波数分析部１２によって生成さ
れたスペクトル形状スペクトルＹｔ（ｍ）は、セグメン
ト化部１３によって連結され、２次元逆行列の時間−周
波数セグメントが生成される（ステップＳ２３）。具体
的には、Ｋ個の分析フレームのスペクトル形状ベクトル
（Ｙｔ（ｍ），Ｙｔ＋１（ｍ），…，Ｙｔ＋Ｋ−１
（ｍ））を連結することにより、図５に示すような２次
元行列状の時間−周波数セグメントＺｔが生成される。
時間−周波数セグメントＺｔのｍ行ｋ列（ｍ＝０，…，
Ｍ−１；ｋ＝０，…，Ｋ−１）の成分は、Ｚｔ（ｍ，
ｋ）＝Ｙｔ＋ｋ（ｍ）と表される。Ｋは通常４〜８程度
であり、時間的に隣り合うセグメントでは、Ｋ個のフレ
ームのうち１フレーム分だけが異なる値となる。

【００２２】このようにしてセグメント化部１３により
生成された時間−周波数セグメントに対し、２次元ＤＣ
Ｔ部１４によって２次元ＤＣＴが施され、例えば次式に
示す２次元実数ケプストラムＣｔ（ｍ，ｋ）が生成され
る（ステップＳ２４）。

【数１】

【００２３】但し、Ａは正規化の定数、ＰＩは円周率で
ある。基本的には、こうして生成された２次元実数ケプ
ストラムＣｔ（ｍ，ｋ）が音声特徴量として抽出され
る。ここで、従来の一般的な音声特徴量抽出方法と本実
施形態の音声特徴量抽出方法について、簡単な数式を用
いて比較を行う。従来の一般的な音声特徴量抽出方法で
は、入力音声信号をフレームに分割して周波数分析した
後、次式に示すように各分析フレームの周波数成分につ
いてケプストラム変換を行うことによって、音声特徴量
を求める。

【００２４】

【数２】

【００２５】ここで、Ｃは音声特徴量、Ｆはケプストラ
ム変換演算を表す。ｆ０（ω），ｆ１（ω），…，ｆＭ
（ω）は各分析フレームに対する周波数分析結果を表
し、スペクトル形状スペクトルに相当する。

【００２６】これに対し、本実施形態では入力音声信号
をフレームに分割して周波数分析した後、次式に示すよ
うに各分析フレームの周波数成分をまとめてケプストラ
ム変換することによって、音声特徴量を求める。

【００２７】次式となる。

【００２８】

【数３】

【００２９】式（３）は、式（１）を別の観点から書き
直したものに相当する。ところで、式（１）に示した２
次元実数ケプストラムＣｔ（ｍ，ｋ）はＭ×Ｋ個の要素
からなり、例えばＭ＝７，Ｋ＝１６の場合、要素数は１
１２個と比較的大きな数になる。抽出される音声特徴量
を音声認識や話者認識などに用いる場合は、モデルの音
声特徴量との照合にかかる計算量を減らし、システムの
応答時間を短くするためにも、抽出される音声特徴量の
要素数は少ないことが望ましい。

【００３０】そこで、音声認識における重要度や計算量
の削減のため、２次元実数ケプストラムＣｔ（ｍ，ｋ）
を構成する１１２個の要素を全て音声特徴量として出力
するのではなく、必要な要素を所定の複数（Ｄ）個選ん
で音声特徴量とすることが考えられる。通常、Ｄ＝３０
程度が適当である。このため、本実施形態では必要に応
じて図１に示すように２次元ＤＣＴ部１４に後段に低域
選択部１５が配置され、ここで２次元実数ケプストラム
Ｃｔ（ｍ，ｋ）の低域成分の要素のみが音声特徴量とし
て選択される（ステップＳ２５）。

【００３１】音声信号のスペクトル成分は一般的に滑ら
かであり、その時間変化も緩やかである。従って、時間
−周波数セグメントＺｔ（ｍ，ｋ）に対して２次元ＤＣ
Ｔを施すことにより得られる２次元実数ケプストラムＣ
ｔ（ｍ，ｋ）は、図６に示されるように細かい時間変化
を表す高域側の成分よりも、緩やかな時間変化を示す低
域側にそのパワーが集中する。

【００３２】この点に着目して、低域選択部１５では２
次元実数ケプストラムＣｔ（ｍ，ｋ）の低域成分とし
て、Ｃｔ（ｍ，ｋ）の時間平均パワの大きい要素から順
にＤ個の要素、つまり斜線を施して示す領域を選択す
る。この選択方法は、選択した要素だけで近似した時間
−周波数セグメントと、元の時間−周波数セグメントと
の２乗誤差を最小化することに対応する。

【００３３】このように本実施形態によれば、入力音声
信号の各周波数成分を周波数成分毎に複数フレーム分連
結して２次元行列形状をなす時間−周波数セグメントを
生成し、これらの時間−周波数セグメントに対して２次
元ＤＣＴを施すことで直接２次元実数ケプストラムを得
ることにより、音声の時間−周波数平面での平均的な音
声の特徴（静的特徴）のみならず、パワやスペクトルの
変化（動的特徴）をも２次元ＤＣＴによって一括して求
めることが可能となり、効率よく音声特徴量を抽出する
ことができる。

【００３４】（第２の実施形態）次に、本発明の第２の
実施形態について説明する。図７は本実施形態に係る音
声特徴量抽出装置の構成を示すブロック図であり、図８
はその処理手順を示すフローチャートである。図１及び
図２と同一部分については同一符号を付して、説明を行
う。

【００３５】本実施形態の音声特徴量抽出装置では、図
７に示されるように２次元ＤＣＴ部１４の後段に時間変
化成分抽出部１６が設けられ、２次元実数ケプストラム
から時間変化成分のみを抽出して音声特徴量とする点が
第１の実施形態と異なっている。一方、処理手順を示す
図８のフローチャートにおいては、図２で説明した２次
元ＤＣＴステップＳ１５の後に、時間変化成分抽出ステ
ップＳ２６が追加されている。

【００３６】２次元ＤＣＴは、ＫＬ展開などの統計的な
手法と異なり、各成分に物理的な意味がある。音声認識
に動的特徴が有効であることは、近年の研究において多
く報告されており、２次元実数ケプストラムから時間変
化成分を選択し、他の静的特徴と組み合わせることによ
り、音声認識や話者認識での認識率を大幅に改善するこ
とができる。

【００３７】まず、２次元実数ケプストラムの物理的な
意味を説明する。図９は、２次元実数ケプストラムをそ
の物理的な意味に基づいてグループ分けした結果を示し
ている。図９中のＡの部分（Ｃｔ（０，０））は、時間
−周波数セグメントＺｔ（ｍ，ｋ）の平均パワを表す。
これは式（１）でｍ＝０，ｋ＝０とおけば、コサインの
項が１となり、単純に音声セグメントの要素を足し合わ
せ、正規化係数を乗じる操作になっていることからも理
解できる。

【００３８】次に、図９中のＢの部分（Ｃｔ（０，
ｋ）；ｋ＝１，…，Ｋ−１）は、フレーム毎の平均パワ
を１次元ＤＣＴしたものになっており、言い換えればフ
レーム毎の平均パワが時間に対してどのような変化をし
ているかを表している。これも式（１）においてｍ＝０
とおくことで、ｍに関するコサインの項が１になり、事
実上１次元ＤＣＴになることから理解できる。

【００３９】次に、図９中のＣの部分（Ｃｔ（ｍ，
０）；ｍ＝１，…，Ｍ−１）は、Ｋフレームからなるセ
グメンの平均的なケプストラムを表している。これも式
（１）においてｋ＝０とおくことで、１次元ＤＣＴの式
になることが理解できる。また、式（１）は音声認識の
分野で多く用いられているＭＦＣＣの定義式と等価なも
のであり、Ｃの部分はＭＦＣＣに対応する音声特徴量で
あると言える。

【００４０】最後に、図９中のＤの部分（Ｃｔ（ｍ，
ｋ）；ｍ＝１，…，Ｍ−１、ｋ＝１，…，Ｋ−１）は、
時間及び周波数が同時に変化する成分であり、時間−周
波数の変化を関連付けて表している成分と考えられる。

【００４１】音声認識においては、音声特徴量の時間的
変化（動的特徴）が重要であることは既に述べた通りで
ある。本実施形態では、図９中のＢとＤの部分が時間変
化成分を有しているので、時間変化成分抽出部１６は基
本的にＢとＤの部分を抽出する。これにより第１の実施
形態と比較して、入力音声信号の動的特徴をより効果的
に抽出できる。

【００４２】Ｍ＝７，Ｋ＝１６の場合、音声特徴量の時
間変化成分は６×１６＝９６個存在する。計算量の都合
で重要な要素を選択する必要がある場合には、学習用の
音声に対して各成分の累計パワを求め、図６で説明した
と同様に大きいものからＤ個の要素を音声特徴量の時間
変化成分として抽出すればよい。すなわち、これらの時
間変化成分は第１の実施形態で述べた音声の性質によ
り、図１０の斜線を施した領域の低域成分に集中するの
で、この領域に存在するＤ個の要素を時間変換成分抽出
部１６によって抽出する。

【００４３】このように本実施形態によれば、音声特徴
量として抽出される２次元実数ケプストラムの物理的な
意味に基づいて動的特徴のみを抽出することができ、よ
り柔軟に音声特徴量を抽出することが可能になる。この
結果、抽出された音声特徴量に基づき音声認識を行う場
合、認識率を大幅に改善できる。

【００４４】（第３の実施形態）図１１に、第３の実施
形態に係る音声特徴量抽出装置の構成を示す。図１と同
一部分に同一符号を付して説明すると、本実施形態では
セグメント化部１３の後段に、時間−周波数セグメント
から特定の帯域を選択して帯域制限された複数組の時間
−周波数セグメントを生成する帯域選択部１７と、帯域
選択された各組の時間−周波数セグメントに対してそれ
ぞれ２次元ＤＣＴの処理を施すための帯域毎に備えられ
た２次元ＤＣＴ部１４−１〜１４−Ｎを有する２次元Ｄ
ＣＴバンク１８、及び２次元ＤＣＴバンク１８からの各
組の時間−周波数セグメントに対する２次元ＤＣＴ結果
を統合して一つの音響特徴量を構成する統合部１９が配
置されている。

【００４５】次に、本実施形態における処理手順につい
て述べる。セグメント化部１３から時間−周波数セグメ
ントを出力するまでの処理は、第１の実施形態で述べた
手順と同一であるため、説明を省略する。時間−周波数
セグメントは、帯域選択部２０５で帯域選択される。帯
域選択の方法は種々考えられるが、最も単純には例えば
低域成分と高域成分の２つの帯域を選択する。すなわ
ち、図１２に示すように時間−周波数セグメントの帯域
を２分割する。

【００４６】帯域選択された時間−周波数セグメントは
２次元ＤＣＴバンク１８に送られ、対応する２次元ＤＣ
Ｔ部によって２次元ＤＣＴが施されることにより、帯域
毎に第１の実施形態と同様にして２次元実数ケプストラ
ムが生成される。

【００４７】統合部１９では、２次元ＤＣＴバンク１８
より入力された帯域毎の２次元実数ケプストラムから各
要素の取捨選択を行い、音声特徴量を出力する。音声特
徴量は通常１組であるが、複数組の音声認識装置を用い
る方式に対応するために、複数組の音声特徴量を出力す
る場合もある。本実施形態のように時間−周波数セグメ
ントについて帯域選択を行い、帯域毎に２次元ＤＣＴを
行うことにより、以下に列挙する利点が得られる。

【００４８】第一の利点としては、背景雑音がある特定
の周波数に重畳した場合は、その周波数の含まれる帯域
を音声特徴量の抽出に用いず、それ以外の帯域で音声特
徴量を抽出することにより、音声認識や話者認識におけ
る認識率を高くできる点である。帯域選択を行わない場
合、式（１）から明らかなように全てのＤＣＴ成分に背
景雑音が混入してしまう。すなわち、ｉ０番目の帯域に
大きな背景雑音が加わると、ｉ０番目の帯域の時間−周
波数セグメントＺｔ（ｉ０，ｋ）は雑音で潰れた成分と
なり、２次元実数ケプストラムＣｔ（ｍ，ｋ）は、ｍ，
ｋの組合せに関わらずＺｔ（ｉ０，ｋ）を含む結果、背
景雑音の影響が全てのＣｔ（ｍ，ｋ）に広がってしま
う。これに対し、帯域選択を行えば、Ｚｔ（ｉ０，ｋ）
が含まれている帯域は雑音の影響を受けるが、含まれて
いない帯域は影響を受けずに済む。その結果、雑音の影
響を受けていない帯域の時間−周波数セグメントを手が
かり音声認識を行うことができ、雑音による認識率の劣
化を抑えることができる。

【００４９】第二の利点として、帯域選択を行った場
合、２次元実数ケプストラムを選択するときに、帯域毎
に選択する個数を自由に調節できる点が挙げられる。重
畳する雑音の種類や、音声そのものの特性などに基づい
て、各帯域から取り出す要素の個数を最適化すること
で、音声認識や話者認識における認識率を上げることが
できる。

【００５０】第三の利点としては、全帯域の周波数−時
間セグメントを使う場合に比べて２次元ＤＣＴに必要と
される計算量が下がる点が挙げられる。時間−周波数セ
グメントの分割帯域数（周波数方向）がＭで、フレーム
数（時間方向）がＫの場合、全帯域の周波数−時間セグ
メントについて２次元ＤＣＴ成分を求めるには、（Ｍ×
Ｋ）^２に比例した計算量を必要とするのに対して、帯域
方向にＮ等分した場合、Ｎ×（Ｍ／（Ｎ×Ｋ））^２＝
（Ｍ×Ｋ）^２／Ｎに比例した計算量になり、帯域をＮ分
割することにより、計算量を１／Ｎにすることができ
る。

【００５１】本発明によると、上述した音声特徴量抽出
の処理をコンピュータによって実行することも可能であ
り、以下のプログラムあるいはそれを記憶した記憶媒体
を提供することができる。

【００５２】（１）入力音声信号の特徴量を表す音声特
徴量を抽出する処理をコンピュータにより実行させるた
めのプログラムであって、入力音声信号を所定の時間長
を有するフレームに分割する処理と、フレーム毎に周波
数分析を行い、スペクトルの形状を表すスペクトル形状
ベクトルを生成する処理と、スペクトル形状ベクトルを
時間方向に複数フレーム分連結して、２次元行列形状を
なす時間−周波数セグメントを生成する処理と、時間−
周波数セグメントに対し２次元コサイン変換を施して２
次元実数ケプストラムを生成する処理と、生成された前
記２次元実数ケプストラムの少なくとも一部の成分を音
声特徴量として出力する処理とをコンピュータに実行さ
せるためのプログラム。

【００５３】（２）入力音声信号の特徴量を表す音声特
徴量を抽出する処理をコンピュータにより実行させるた
めのプログラムであって、入力音声信号を所定の時間長
を有するフレームに分割する処理と、フレーム毎に周波
数分析を行い、スペクトルの形状を表すスペクトル形状
ベクトルを生成する処理と、スペクトル形状ベクトルを
時間方向に複数フレーム分連結して、２次元行列形状を
なす時間−周波数セグメントを生成する処理と、時間−
周波数セグメントの一部の周波数帯域を選択する処理
と、帯域選択された時間−周波数セグメントに対し２次
元コサイン変換を施して２次元実数ケプストラムを生成
する処理と、生成された前記２次元実数ケプストラムの
少なくとも一部の成分を音声特徴量として出力する処理
とコンピュータに実行させるためのプログラム。

【００５４】ここで、２次元実数ケプストラムの少なく
とも一部の成分を音声特徴量として出力する処理は、２
次元実数ケプストラムの低次成分を音声特徴量として出
力する処理であってもよいし、２次元実数ケプストラム
の時間変化成分のみを音特徴量として出力する処理であ
ってもよい。

【００５５】

【発明の効果】以上説明したように、本発明によると時
間−周波数スペクトルに現われる音声の静的特徴と動的
特徴を一括して抽出することにより、少ないパラメータ
数で効率良く音声特徴量を抽出することができる。

【００５６】また、２次元ＤＣＴなどのコサイン変換に
よって生成される２次元実数ケプストラムの物理的な意
味に基づいて、動的特徴のみを取り出すことも可能とな
る。

【００５７】さらに、時間−周波数セグメントを帯域分
割して所望の帯域のみを選択し、選択された帯域の時間
−周波数セグメントのみを用いることにより、コサイン
変換に必要とされる計算量を下げるばかりでなく、雑音
耐性に優れ、要素選択の自由度を活用して、認識率のさ
らなる向上を図ることができる音声特徴量を抽出するこ
とが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声特徴量抽出
装置の構成を示すブロック図

【図２】同実施形態における音声特徴量抽出の処理手順
を示すフローチャート

【図３】同実施形態における入力音声信号とそのフレー
ム分割について説明する図

【図４】同実施形態におけるスペクトル形状スペクトル
の構成を示す図

【図５】同実施形態における時間−周波数セグメントの
構成を示す図

【図６】同実施形態における２次元実数ケプストラムの
構成及び低域選択部が選択する２次元実数ケプストラム
の領域について示す図

【図７】本発明の第２の実施形態に係る音声特徴量抽出
装置の構成を記すブロック図

【図８】同実施形態における音声特徴量抽出の処理手順
を示すフローチャート

【図９】２次元実数ケプストラムの物理的な意味につい
て説明する図

【図１０】同実施形態における２次元実数ケプストラム
の構成及び時間変化成分抽出部部が抽出する２次元実数
ケプストラムの領域について示す図

【図１１】本発明の第３の実施形態に係る音声特徴量抽
出装置の構成を示すブロック図

【図１２】同実施形態における時間−周波数セグメント
の帯域分割について説明する図

【符号の説明】

１０…入力端子１１…フレーム分割部１２…スペクトル形状分析部１３…セグメント化部１４…２次元ＤＣＴ部１５…低域選択部１６…時間変化成分抽出部１７…帯域選択部１８…２次元ＤＣＴバンク１９…統合部

Claims

【特許請求の範囲】

【請求項１】入力音声信号の特徴量を表す音声特徴量を
抽出する方法において、前記入力音声信号を所定の時間長を有するフレームに分
割するステップと、前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成するステップと、前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、２次元行列形状をなす時間−周波数セグメ
ントを生成するステップと、前記時間−周波数セグメントに対し２次元コサイン変換
を施して２次元実数ケプストラムを生成するステップ
と、生成された前記２次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力するステップとを具備
する音声特徴量抽出方法。
【請求項２】入力音声信号の特徴量を表す音声特徴量を
抽出する方法において、前記入力音声信号を所定の時間長を有するフレームに分
割するステップと、前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成するステップと、前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、２次元行列形状をなす時間−周波数セグメ
ントを生成するステップと、前記時間−周波数セグメントの一部の周波数帯域を選択
するステップと、帯域選択された時間−周波数セグメントに対し２次元コ
サイン変換を施して２次元実数ケプストラムを生成する
ステップと、生成された前記２次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力するステップとを具備
する音声特徴量抽出方法。
【請求項３】前記２次元実数ケプストラムの少なくとも
一部の成分を音声特徴量として出力するステップは、前
記２次元実数ケプストラムの低次成分を音声特徴量とし
て出力する請求項１または２記載の音声特徴量抽出方
法。
【請求項４】前記２次元実数ケプストラムの少なくとも
一部の成分を音声特徴量として出力するステップは、前
記２次元実数ケプストラムの時間変化成分のみを音特徴
量として出力する請求項１乃至３のいずれか１項に記載
の音声特徴量抽出方法。
【請求項５】入力音声信号の特徴量を表す音声特徴量を
抽出する装置において、前記入力音声信号を所定の時間長を有するフレームに分
割するフレーム分割部と、前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成する周波数分析部
と、前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、２次元行列形状をなす時間−周波数セグメ
ントを生成するセグメント化部と、前記時間−周波数セグメントに対し２次元コサイン変換
を施して２次元実数ケプストラムを生成する２次元コサ
イン変換部と、生成された前記２次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力する手段とを具備する
音声特徴量抽出装置。
【請求項６】入力音声信号の特徴量を表す音声特徴量を
抽出する装置において、前記入力音声信号を所定の時間長を有するフレームに分
割するフレーム分割部と、前記フレーム毎に周波数分析を行い、周波数スペクトル
の形状を表すスペクトル形状ベクトルを生成する周波数
分析部と、前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、２次元行列形状をなす時間−周波数セグメ
ントを生成するセグメント化部と、前記時間−周波数セグメントの一部の周波数帯域を選択
する帯域選択部と、帯域選択された時間−周波数セグメントに対し２次元コ
サイン変換を施して２次元実数ケプストラムを生成する
２次元コサイン変換部と、生成された前記２次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力する手段とを具備する
音声特徴量抽出装置。
【請求項７】入力音声信号の特徴量を表す音声特徴量を
抽出する処理をコンピュータにより実行させるためのプ
ログラムであって、前記入力音声信号を所定の時間長を有するフレームに分
割する処理と、前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成する処理と、前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、２次元行列形状をなす時間−周波数セグメ
ントを生成する処理と、前記時間−周波数セグメントに対し２次元コサイン変換
を施して２次元実数ケプストラムを生成する処理と、生成された前記２次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力する処理とをコンピュ
ータに実行させるためのプログラム。
【請求項８】入力音声信号の特徴量を表す音声特徴量を
抽出する処理をコンピュータにより実行させるためのプ
ログラムであって、前記入力音声信号を所定の時間長を有するフレームに分
割する処理と、前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成する処理と、前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、２次元行列形状をなす時間−周波数セグメ
ントを生成する処理と、前記時間−周波数セグメントの一部の周波数帯域を選択
する処理と、帯域選択された時間−周波数セグメントに対し２次元コ
サイン変換を施して２次元実数ケプストラムを生成する
処理と、生成された前記２次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力する処理とコンピュー
タに実行させるためのプログラム。