JP2007010822A

JP2007010822A - 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム

Info

Publication number: JP2007010822A
Application number: JP2005189280A
Authority: JP
Inventors: Takashi Masuko; 貴史益子
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-06-29
Filing date: 2005-06-29
Publication date: 2007-01-18
Anticipated expiration: 2025-06-29
Also published as: JP4550674B2

Abstract

【課題】正規化処理を行うことなく、声道長の変化による影響を受けない音声認識を可能とする音声特徴量抽出装置を提供する。
【解決手段】入力音声信号から音声特徴量を抽出する音声特徴量抽出装置であって、入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析手段１１０と、周波数分析手段１１０により得られた周波数特性に基づいて、聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出手段１２０とを備える。
【選択図】図１

Description

本発明は、入力音声信号から音声特徴量を抽出する音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラムに関するものである。

話者の声道長の違いは、メルや対数などの聴覚特性を模擬した周波数軸上でのフォルマントのシフトとして現れる。このフォルマントのシフトは、音声認識における性能劣化要因の一つとなる。従来の音声認識装置には、特許文献１および非特許文献１に開示されているように、音声特徴量を変換することにより周波数軸を伸縮させてフォルマントの位置を正規化するものがあったが、フォルマントの位置を正規化するには事前に正規化パラメータを推定する必要があった。

特開平１１−３２７５９２公報江森正ほか１名：「音声認識のための高速最ゆう推定を用いた声道長正規化」、電子情報通信学会論文誌Ｄ−ＩＩ、ｖｏｌ．Ｊ８３−Ｄ−ＩＩ、ｎｏ．１１、ｐｐ．２１０８−２１１７、２０００年１１月

しかしながら、正規化パラメータを精度よく推定するためには、推定のための音声データおよびその発話内容に関する情報が必要となる。また、正規化パラメータの推定を誤ると、かえって認識性能が劣化するという問題もあった。

本発明は、上記に鑑みてなされたものであって、正規化処理を行うことなく、声道長の変化による影響を受けない音声認識を可能とする音声特徴量抽出装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音声特徴量抽出装置であって、入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析手段と、前記周波数分析手段により得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出手段とを備えることを特徴とする。

また、本発明の他の形態は、音声特徴量抽出方法であって、入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、前記周波数分析ステップにおいて得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出ステップとを有することを特徴とする。

また、本発明の他の形態は、音声特徴量抽出処理をコンピュータに実行させる音声特徴量抽出プログラムであって、入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、前記周波数分析ステップにおいて得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出ステップとを有することを特徴とする。

本発明にかかる音声特徴量抽出装置は、人間の聴覚特性を模擬した周波数軸上におけるシフトによらず一定の不変特徴量に基づいて音声特徴量を算出するので、声道長の変化による影響を低減した音声特徴量を得ることができるという効果を奏する。

以下に、本発明にかかる音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

（実施の形態１）
図１は、音声特徴量抽出装置１００の基本的な構成の一例を示すブロック図である。音声特徴量抽出装置１００は、周波数分析部１１０と、周波数シフト不変特徴量算出部１２０と、周波数シフト可変特徴量算出部１３０と、特徴量統合部１４０とを備えている。

周波数分析部１１０は、外部から入力された入力音声から、聴覚周波数軸上における周波数分析を行い、入力音声信号の周波数特性を求める。ここで、聴覚周波数とは、人間の聴覚を模擬した周波数である。具体的には、対数メル周波数スペクトルを求める。

図２は、周波数分析部１１０の詳細な機能構成を示すブロック図である。周波数分析部１１０、フレーム分割部１１１と、第１分析窓部１１２と、第１フーリエ変換部１１３と、パワー算出部１１４と、フィルタバンク部１１５と、対数算出部１１６とを有している。

フレーム分割部１１１は、入力音声信号から適当な時間間隔で分析区間を切り出す。具体的には、フレーム分割部１１１は、入力音声信号から約８ｍｓ毎に約２３ｍｓ長の分析区間を切り出して出力する。フレーム分割部１１１から出力された分析区間は、第１分析窓部１１２に入力される。そして、第１分析窓部１１２において、分析窓が掛けられる。ここでは分析窓にはハミング窓を用いる。

第１分析窓部１１２の出力は、第１フーリエ変換部１１３に入力される。第１フーリエ変換部１１３は、フーリエ変換により周波数成分を求める。第１フーリエ変換部１１３の出力は、パワー算出部１１４に入力される。パワー算出部１１４は、周波数毎のパワーを求める。

パワー算出部１１４の出力は、フィルタバンク部１１５に入力される。フィルタバンク部１１５は、聴覚周波数軸上で等間隔となる帯域通過フィルタ（ＢＰＦ）群により、聴覚周波数軸上で周波数分析を行う。ＢＰＦ群は、人間の聴覚特性に基づく聴覚心理尺度の一つであるメル周波数軸上で等間隔となるように配置された３２チャネルのＢＰＦから構成されている。フィルタバンク部１１５は、この周波数分析により、メル周波数スペクトル

を得る。ここで、ｔは時間、ｆはＢＰＦ番号を表す。

フィルタバンク部１１５の出力であるメル周波数スペクトルは、対数算出部１１６に入力される。対数算出部１１６は、入力されたメル周波数スペクトルから式（１）に従って対数メル周波数スペクトル

を求める。

再び説明を図１に戻す。周波数シフト不変特徴量算出部１２０は、周波数分析部１１０により得られた周波数特性に基づいて、周波数シフト不変特徴量を抽出する。ここで、周波数シフト不変特徴量とは、入力音声の特徴量のうち、聴覚周波数軸上でのシフトによらず一定の特徴量のことである。すなわち、聴覚周波数軸上でのシフトに依存しない特徴量である。

図３は、周波数シフト不変特徴量算出部１２０の詳細な機能構成を示すブロック図である。周波数シフト不変特徴量算出部１２０は、正規化部１２１と、第２分析窓部１２２と、自己相関算出部１２３と、第２フーリエ変換部１２４と、平方根算出部１２５とを有している。

正規化部１２１は、対数算出部１１６の出力である対数メル周波数スペクトルを取得する。正規化部１２１は、対数メル周波数スペクトルを、時間ｔ毎に正規化する。具体的には、正規化部１２１は、時間ｔ毎に対数メル周波数スペクトルの平均が０となるように式（２）に従って正規化を行う。これにより、正規化対数メル周波数スペクトル

を求める。

ここで、Ｍ_tは次式（３）で示される。

なお、他の例としては、時間ｔ毎に正規化するのにかえて、入力音声全体で正規化してもよい。

正規化部１２１の出力である正規化対数メル周波数スペクトルは、第２分析窓部１２２に入力される。第２分析窓部１２２は、正規化対数メル周波数スペクトルに分析窓を掛け、窓掛けされた正規化対数メル周波数スペクトル

を求める。分析窓をＷ（ｆ）と表すと窓掛けされた正規化対数メル周波数スペクトルは式（４）で表される。

ここでは分析窓にはハミング窓を用いている。

第２分析窓部１２２の出力である窓掛けされた正規化対数メル周波数スペクトルは、自己相関算出部１２３に入力される。自己相関算出部１２３は、窓掛けされた正規化対数メル周波数スペクトルからメル周波数軸上での自己相関係数

を式（５）に従って求める。

自己相関算出部１２３の出力である自己相関係数は、第２フーリエ変換部１２４に入力される。第２フーリエ変換部１２４は、自己相関係数に対し、フーリエ変換を行う。以降、このフーリエ変換の結果をメルフィルタバンクパワーケプストラム（ＭＦＰＣＣ）と称し、

で表す。

第２フーリエ変換部１２４の出力であるＭＦＰＣＣは平方根算出部１２５に入力される。平方根算出部１２５は、ＭＦＰＣＣの平方根を求める。以降、このＭＦＰＣＣの平方根をメルフィルタバンク振幅ケプストラム（ＭＦＡＣＣ）と称し、

で表す。

再び説明を図１に戻す。周波数シフト可変特徴量算出部１３０は、周波数分析部１１０により得られた周波数特性に基づいて、周波数シフト可変特徴量を抽出する。ここで、周波数シフト可変特徴量とは、入力音声の特徴量のうち、聴覚周波数軸上でのシフトに応じて変化する特徴量、すなわち周波数シフトに依存する特徴量のことである。具体的には、周波数シフト可変特徴量算出部１３０は、対数算出部１１６の出力である対数メル周波数スペクトル

を取得する。そして、対数メル周波数スペクトルからコサイン変換により従来から広く用いられている音声特徴量であるメルフィルタバンクケプストラム係数（ＭＦＣＣ）

を求める。

特徴量統合部１４０は、周波数シフト不変特徴量算出部１２０が抽出した周波数シフト不変特徴量と、周波数シフト可変特徴量算出部１３０が抽出した周波数シフト可変特徴量とを統合し、入力音声の特徴量を算出する。具体的には、特徴量統合部１４０は、平方根算出部１２５の出力であるＭＦＡＣＣ

と周波数シフト可変特徴量算出部１３０の出力であるＭＦＣＣ

を取得する。そして、取得したＭＦＡＣＣとＭＦＣＣを統合した特徴量

を求める。

ここでは、１〜８次のＭＦＡＣＣ

および１〜８次のＭＦＣＣ

を単純に連結し、特徴量

を得る。さらに、特徴量

の１次および２次の微分特徴量である

を求める。そして、

を合わせて音声特徴量として出力する。

図４は、音声特徴量抽出装置１００の音声特徴量抽出処理を示すフローチャートである。まず、周波数分析部１１０のフレーム分割部１１１は、入力音声信号から適当な時間間隔で分析区間を切り出す(ステップＳ１００)。次に、第１分析窓部１１２において、分析窓が掛けられる(ステップＳ１０２)。次に、第１分析窓部１１２の出力は、第１フーリエ変換部１１３に入力される。そして、第１フーリエ変換部１１３は、フーリエ変換により周波数成分を求める(ステップＳ１０４)。次に、第１フーリエ変換部１１３の出力は、パワー算出部１１４に入力される。そして、パワー算出部１１４は、周波数毎のパワーを求める(ステップＳ１０６)。

次に、パワー算出部１１４の出力は、フィルタバンク部１１５に入力される。フィルタバンク部１１５は、帯域通過フィルタ（ＢＰＦ）群により、聴覚周波数軸上で周波数分析を行う(ステップＳ１０８)。次に、対数算出部１１６は、メル周波数スペクトルから対数メル周波数スペクトルを求める(ステップＳ１１０)。

次に、正規化部１２１は、対数メル周波数スペクトルを、時間ｔ毎に正規化し、正規化対数メル周波数スペクトルを求める(ステップＳ１１２)。次に、第２分析窓部１２２は、正規化対数メル周波数スペクトルに分析窓を掛け、窓掛けされた正規化対数メル周波数スペクトルを求める(ステップＳ１１４)。

次に、自己相関算出部１２３は、窓掛けされた正規化対数メル周波数スペクトルからメル周波数軸上での自己相関係数を求める(ステップＳ１１６)。第２フーリエ変換部１２４は、自己相関係数のフーリエ変換を求める(ステップＳ１１８)。平方根算出部１２５は、ＭＦＰＣＣの平方根を求める(ステップＳ１２０)。

一方、周波数シフト可変特徴量算出部１３０は、対数メル周波数スペクトルからコサイン変換によりメルフィルタバンクケプストラム係数（ＭＦＣＣ）を求める(ステップＳ１２２)。

そして、特徴量統合部１４０は、周波数シフト不変特徴量算出部１２０が抽出した周波数シフト不変特徴量と、周波数シフト可変特徴量算出部１３０が抽出した周波数シフト可変特徴量とを統合し、入力音声の特徴量を算出する(ステップＳ１２４)。以上で、音声特徴量抽出装置１００による音声特徴量抽出処理が完了する。

図５は、実施の形態１に係る音声特徴量抽出装置１００のハードウェア構成を示す図である。音声特徴量抽出装置１００は、ハードウェア構成として、音声特徴量抽出装置１００における音声特徴量抽出処理を実行する音声特徴量抽出プログラムなどが格納されているＲＯＭ５２と、ＲＯＭ５２内のプログラムに従って音声特徴量抽出装置１００の各部を制御するＣＰＵ５１と、音声特徴量抽出装置１００の制御に必要な種々のデータを記憶するＲＡＭ５３と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５７と、各部を接続するバス６２とを備えている。

先に述べた音声特徴量抽出装置１００における音声特徴量抽出プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（Ｒ）ディスク（ＦＤ）、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。

この場合には、音声特徴量抽出プログラムは、音声特徴量抽出装置１００において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、本実施の形態の音声特徴量抽出プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

（実施の形態２）
次に、実施の形態２にかかる音声特徴量抽出装置１００について説明する。図６は、実施の形態２にかかる周波数シフト不変特徴量算出部１２０の詳細な機能構成を示すブロック図である。

実施の形態２にかかる周波数シフト不変特徴量算出部１２０は、正規化部１２１と、第２分析窓部１２２と、第３フーリエ変換部１２６と、絶対値算出部１２７とを有している。

第３フーリエ変換部１２６は、第２分析窓部１２２の出力である窓掛けされた正規化対数メル周波数スペクトル

を入力とし、そのフーリエ変換

を求める。

第３フーリエ変換部１２６の出力は、絶対値算出部１２７に入力される。絶対値算出部１２７は、複素数である

の絶対値を求める。ここで、入力音声信号の自己相関係数のフーリエ変換の平方根は、信号のフーリエ変換の絶対値と等しい。したがって、

の絶対値は、実施の形態１において求められたメルフィルタバンク振幅ケプストラム（ＭＦＡＣＣ）

と等しい。ここでは、

の絶対値もまたＭＦＡＣＣと称し、

と表す。

絶対値算出部１２７の出力であるＭＦＡＣＣは、周波数シフト可変特徴量算出部１３０の出力であるＭＦＣＣとともに特徴量統合部１４０に入力される。特徴量統合部１４０は、入力されたＭＦＡＣＣおよびＭＦＣＣから、特徴量

を求め、音声特徴量として出力する。

図７は、実施の形態２にかかる音声特徴量抽出装置１００の音声特徴量抽出処理を示すフローチャートである。実施の形態２においては、ステップＳ１１４において窓掛けされた正規化対数メル周波数スペクトルを求めた後、第３フーリエ変換部１２６は、窓掛けされた正規化対数メル周波数スペクトルのフーリエ変換を求める(ステップＳ１３０)。次に、絶対値算出部１２７は、

から複素数である

の絶対値を求める(ステップＳ１３２)。そして、ステップＳ１２２へ進む。

なお、実施の形態２にかかる音声特徴量抽出装置１００のこれ以外の構成および処理は、実施の形態１にかかる音声特徴量抽出装置１００の構成および処理と同様である。

図８は、実施の形態１にかかる音声特徴量抽出装置１００により抽出した音声特徴量を用いて隠れマルコフモデル（ＨＭＭ）に基づく音声認識を行った結果と、従来の特徴量であるＭＦＣＣに基づく音声認識を行った結果とを示す図である。なお、実施の形態１にかかる音声特徴量抽出装置１００と、実施の形態２にかかる音声特徴量抽出装置１００とは、同じ特徴量が得られるので、いずれの音声特徴量抽出装置１００においても、同じ結果が得られる。

図８は、１００都市名を用いた孤立単語認識の結果を示している。ＨＭＭを女性の音声のみで学習し、女性音声を入力した場合（Ｆｅｍａｌｅ）、男性音声を入力した場合（Ｍａｌｅ）、および女性音声と男性音声とのトータル（Ｏｖｅｒａｌｌ）の認識率を示している。なお、従来特徴量には、１〜１６次のＭＦＣＣおよびその１次および２次の微分特徴量を用いている。

図８に示すように、従来特徴量では女性音声を入力した場合には高い認識率が得られているものの、男性音声を入力した場合には認識率が７０％以下となっている。これは、女性と男性の声道長の違いによるフォルマントのシフトの影響により、女性音声と男性音声とでは特徴量の値の分布が異なるためである。

一方、実施の形態１にかかる音声特徴量抽出装置１００により得られた特徴量では、女性音声を入力した場合には従来特徴量における場合と同等の認識率得られている。さらに、男性音声を入力した場合には、９０％以上の認識率が得られている。

このように、本実施の形態にかかる音声特徴量抽出装置１００においては、周波数シフト不変な特徴量（ＭＦＡＣＣ）と従来の特徴量（ＭＦＣＣ）とを統合することにより、入力話者の声道長の違いに頑健な音声特徴量を求めることができる。

以上、本発明を実施の形態を用いて説明したが、実施の形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、音声特徴量抽出装置１００を実現してもよい。実施の形態に示される音声特徴量抽出装置１００の全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせてもよい。

そうした第１の変更例としては、実施の形態１および実施の形態２にかかる音声特徴量抽出装置１００においては、周波数シフト不変な特徴量としてＭＦＡＣＣを用いているが、これに限るものではなく、例えば第２分析窓部１２２の出力である窓掛けされた正規化対数メル周波数スペクトルを入力として求められる自己相関係数、ＬＰＣ係数、ＬＰＣケプストラム係数、ＬＳＰ係数、ＰＡＲＣＯＲ係数などを用いてもよい。

第２の変更例としては、本実施の形態においては、周波数シフト不変特徴量算出部１２０および周波数シフト可変特徴量算出部１３０は、ともに周波数分析部１１０からの周波数分析結果に基づいて、それぞれ周波数シフト不変特徴量および周波数シフト可変特徴量を算出したが、周波数シフト不変特徴量算出部１２０および周波数シフト可変特徴量算出部１３０はそれぞれ異なる周波数分析により得られた結果に基づいて、それぞれ周波数シフト不変特徴量および周波数シフト可変特徴量を算出してもよい。

第３の変更例としては、周波数シフト可変特徴量算出部１３０および特徴量統合部１４０を設けなくともよい。この場合には、音声特徴量抽出装置１００は、周波数シフト不変特徴量算出部１２０により得られた周波数シフト不変特徴量を入力音声信号に対する音声特徴量として出力する。

音声特徴量抽出装置１００の基本的な構成の一例を示すブロック図である。周波数分析部１１０の詳細な機能構成を示すブロック図である。周波数シフト不変特徴量算出部１２０の詳細な機能構成を示すブロック図である。音声特徴量抽出装置１００の音声特徴量抽出処理を示すフローチャートである。実施の形態１に係る音声特徴量抽出装置１００のハードウェア構成を示す図である。実施の形態２にかかる周波数シフト不変特徴量算出部１２０の詳細な機能構成を示すブロック図である。実施の形態２にかかる音声特徴量抽出装置１００の音声特徴量抽出処理を示すフローチャートである。実施の形態１にかかる音声特徴量抽出装置１００により抽出した音声特徴量を用いて隠れマルコフモデル（ＨＭＭ）に基づく音声認識を行った結果と、従来の特徴量であるＭＦＣＣに基づく音声認識を行った結果とを示す図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５７通信Ｉ／Ｆ
６２バス
１００音声特徴量抽出装置
１１０周波数分析部
１１１フレーム分割部
１１２第１分析窓部
１１３第１フーリエ変換部
１１４パワー算出部
１１５フィルタバンク部
１１６対数算出部
１２０周波数シフト不変特徴量算出部
１２１正規化部
１２２第２分析窓部
１２３自己相関算出部
１２４第２フーリエ変換部
１２５平方根算出部
１２６第３フーリエ変換部
１２７絶対値算出部
１３０周波数シフト可変特徴量算出部
１４０特徴量統合部

Claims

入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析手段と、
前記周波数分析手段により得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出手段と
を備えることを特徴とする音声特徴量抽出装置。
前記周波数分析手段は、メルスケールにおける前記周波数特性を求めることを特徴とする請求項１に記載の音声特徴量抽出装置。
前記周波数分析手段は、対数周波数軸上における前記周波数特性を求めることを特徴とする請求項１に記載の音声特徴量抽出装置。
前記周波数分析手段により得られた前記周波数特性から、前記聴覚周波数軸上におけるシフトに応じて変化する可変特徴量を算出する可変特徴量算出手段と、
前記可変特徴量算出手段により算出された前記可変特徴量と、前記不変特徴量算出手段により算出された不変特徴量とに基づいて、前記入力音声信号の特徴量を算出する特徴量統合手段と
をさらに備えたことを特徴とする請求項１から３のいずれか一項に記載の音声特徴量抽出装置。
前記周波数分析手段により得られた前記周波数特性の自己相関係数を算出する自己相関係数算出手段をさらに備え、
前記不変特徴量算出手段は、前記自己相関係数算出手段により算出された前記自己相関係数に基づいて、前記不変特徴量を求めることを特徴とする請求項１から４のいずれか一項に記載の音声特徴量抽出装置。
前記不変特徴量算出手段は、前記周波数分析手段により得られた前記周波数特性に対し、フーリエ変換を行うフーリエ変換手段と、
前記フーリエ変換手段により得られた値の絶対値を求める絶対値算出手段と
をさらに備え、
前記不変特徴量算出手段は、前記絶対値算出手段により算出された前記絶対値に基づいて、前記不変特徴量を求めることを特徴とする請求項１から４のいずれか一項に記載の音声特徴量抽出装置。
入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、
前記周波数分析ステップにおいて得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出ステップと
を有することを特徴とする音声特徴量抽出方法。
音声特徴量抽出処理をコンピュータに実行させる音声特徴量抽出プログラムであって、
入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、
前記周波数分析ステップにおいて得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出ステップと
を有することを特徴とする音声特徴量抽出プログラム。