JP4240878B2

JP4240878B2 - 音声認識方法及び音声認識装置

Info

Publication number: JP4240878B2
Application number: JP2001379860A
Authority: JP
Inventors: 四一安藤; 健司藤井
Original assignee: 四一安藤
Priority date: 2001-12-13
Filing date: 2001-12-13
Publication date: 2009-03-18
Anticipated expiration: 2021-12-13
Also published as: US20050004792A1; JP2003177777A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識分野において利用される技術に関し、特に、実音場において音声特徴を抽出するのに適した音声認識方法及び音声認識装置に関する。
【０００２】
【従来の技術】
音声認識技術においては、入力された音声信号を一定の時間間隔で重なり合う短時間の分析区間（フレーム）ごとに解析して音声信号の特徴ベクトルを求め、その特徴ベクトルの時系列信号に基づいて音声のマッチングを行う方式が主流である。
【０００３】
この特徴ベクトルを分析する手法としては、これまでに様々なものが提案されており、代表的なものとして、ケプストラム分析、スペクトル分析などが挙げられる。
【０００４】
【発明が解決しようとする課題】
ところで、ケプストラム分析やスペクトル分析などの各種分析手法は、細部の違いはあるものの、結局は音声信号のスペクトルをどう推定するかという問題に収束する。音声信号の特徴はスペクトルの構造にあらわれるため、これらの手法は有効な手段となり得るものの、以下のような問題がある。
【０００５】
（１）音声信号は広範囲にわたる周波数情報を含むため、そのスペクトルを再現するためには複雑なパラメータが必要になる。また、それらパラメータの中には、聴感上それほど重要でないものが多く含まれており、予測誤差の原因ともなりうる。
【０００６】
（２）従来の分析手法は雑音に弱いという問題があり、暗騒音や残響などによって大きく形状が左右されるスペクトルを解析することには限界がある。
【０００７】
（３）実環境における音声認識を実現するためには、いわゆる“カクテルパーティー効果”を初めとする、話者の移動や複数の音源に対応することが必要となるが、従来の分析手法では、そのような音場の空間情報はあまり考慮されておらず、従って、実音場において人間の感覚を反映した音声特徴抽出を行うことは困難である。
【０００８】
本発明はそのような問題点を解決するためになされたもので、スペクトル解析を行うことなく、人間の聴感特性に対応した最小限のパラメータを利用して、実音場における音声特徴を抽出することが可能な音声認識方法及び音声認識装置を提供することを目的とする。
【０００９】
【課題を解決するための手段】
まず、本出願人・発明者らは研究によって、音声信号の自己相関関数に音声特徴に関する重要な情報が含まれていることを発見した。具体的には、自己相関関数の遅れ時間は０の値Φ(0)は音の大きさを表わすファクタ、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁は音声のピッチ（音の高さ）に相当する周波数とその強度を表わすファクタ、自己相関関数の有効継続時間τ_eは信号自身に含まれる繰り返し成分及び残響成分を表わすファクタであることを見出した。さらに、自己相関関数の第１ピークまでに現れる局所ピークは音色に関する情報を含むファクタであることも見出した（詳細は後述）。
【００１０】
また、バイノーラルで計測した音声信号の両耳間相互相関関数には、空間的特徴である方向定位と拡がり感と音源の幅に関連する重要な情報が含まれていることを発見した。具体的には、両耳間相互相関関数の最大値ＩＡＣＣは主観的拡散に関連するファクタ、両耳間相互相関関数のピーク遅れ時間τ_IACCは音源の水平方向の知覚に関する重要なファクタ、さらに両耳間相互相関関数の最大値ＩＡＣＣ及び両耳間相互相関関数の最大振幅の幅Ｗ_IACCは見かけの音源の幅（ＡＳＷ）の知覚に関するファクタであることを見出した（詳細は後述）。
【００１１】
本発明は、そのような点に着目し、自己相関関数及び両耳間相互相関関数に含まれる各ファクタ、つまり人間の聴感特性に対応した最小限のパラメータを利用して、スペクトル解析を行うことなく、実音場における音声特徴を抽出することが可能な音声特徴抽出方法及び音声特徴抽出装置と、音声認識方法及び音声認識装置を実現している。その具体的な構成を以下に示す。
【００１２】
本発明において用いられる音声特徴抽出方法は、音声認識に必要な音声特徴を抽出する方法であって、音声信号の自己相関関数を求め、その自己相関関数から、自己相関関数の遅れ時間が０の値Φ(0)、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、及び自己相関関数の有効継続時間τ_eを抽出するといったものである。
【００１４】
本発明において用いられる音声特徴抽出装置は、音声認識に必要な音声特徴を抽出する装置であって、マイクロフォンと、マイクロフォンにて採取された音声信号の自己相関関数を求める演算手段と、その自己相関関数から、自己相関関数の遅れ時間が０の値Φ(0)、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、及び自己相関関数の有効継続時間τ_eを抽出する抽出手段を備えたものである。
【００１６】
本発明の音声認識方法は、前記した音声特徴抽出方法にて抽出した、自己相関関数の遅れ時間が０の値Φ(0)、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、及び自己相関関数の有効継続時間τ_eの各データを、音声認識用のテンプレートと比較して音声を認識することによって特徴づけられる。
【００１７】
この発明の音声認識方法において、前記した音声の特徴量に加えて、自己相関関数の第１ピークまでの局所ピークを抽出し、その局所ピークを含めたデータをテンプレートと比較して音声を認識するようにしてもよい。
【００１８】
本発明の音声認識装置は、前記した音声特徴抽出装置と、この音声抽出装置にて抽出された、自己相関関数の遅れ時間が０の値Φ(0)、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、及び自己相関関数の有効継続時間τ_eの各データを、音声認識用のテンプレートと比較して音声を認識する認識手段を備えていることによって特徴づけられる。
【００１９】
この発明の音声認識装置において、前記した音声の特徴量に加えて、自己相関関数の第１ピークまでの局所ピークを抽出し、その局所ピークを含めたデータをテンプレートと比較して音声を認識するように構成してもよい。
【００２０】
本発明において用いられる音声特徴抽出方法は、音声認識に必要な音声特徴を抽出する方法であって、バイノーラルで計測した音声信号の自己相関関数及び両耳間相互相関関数をそれぞれ求め、その自己相関関数及び両耳間相互相関関数から、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、自己相関関数の有効継続時間τ_e、両耳間相互相関関数の最大値ＩＡＣＣ、両耳間相互相関関数のピーク遅れ時間τ_IACC、両耳間相互相関関数の最大振幅の幅Ｗ_IACC、及び、自己相関関数または両耳間相互相関関数の遅れ時間が０の値Φ(0)を抽出するといったものである。
【００２２】
本発明において用いられる音声特徴抽出装置は、音声認識に必要な音声特徴を抽出する装置であって、バイノーラルのマイクロフォンと、マイクロフォンにて採取された音声信号の自己相関関数及び両耳間相互相関関数をそれぞれ求める演算手段と、その自己相関関数及び両耳間相互相関関数から、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、自己相関関数の有効継続時間τ_e、両耳間相互相関関数の最大値ＩＡＣＣ、両耳間相互相関関数のピーク遅れ時間τ_IACC、両耳間相互相関関数の最大振幅の幅Ｗ_IACC、及び、自己相関関数または両耳間相互相関関数の遅れ時間が０の値Φ(0)を抽出する抽出手段を備えたものである。
【００２４】
本発明の音声認識方法は、前記した音声特徴抽出方法にて抽出した、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、自己相関関数の有効継続時間τ_e、両耳間相互相関関数の最大値ＩＡＣＣ、両耳間相互相関関数のピーク遅れ時間τ_IACC、両耳間相互相関関数の最大振幅の幅Ｗ_IACC、及び、自己相関関数または両耳間相互相関関数の遅れ時間が０の値Φ(0)の各データを、音声認識用のテンプレートと比較して音声を認識することを特徴とする。
【００２５】
この発明の音声認識方法において、前記した音声の特徴量に加えて、自己相関関数の第１ピークまでの局所ピークを抽出し、その局所ピークを含めたデータをテンプレートと比較して音声を認識するようにしてもよい。
【００２６】
本発明の音声認識装置は、前記した音声特徴抽出装置と、この音声抽出装置にて抽出された、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、自己相関関数の有効継続時間τ_e、両耳間相互相関関数の最大値ＩＡＣＣ、両耳間相互相関関数のピーク遅れ時間τ_IACC、両耳間相互相関関数の最大振幅の幅Ｗ_IACC、及び、自己相関関数または両耳間相互相関関数の遅れ時間が０の値Φ(0)の各データを、音声認識用のテンプレートと比較して音声を認識する認識手段を備えていることによって特徴づけられる。
【００２７】
この発明の音声認識装置において、前記した音声の特徴量に加えて、自己相関関数の第１ピークまでの局所ピークを抽出し、その局所ピークを含めたデータをテンプレートと比較して音声を認識するように構成してもよい。
【００２８】
ここで、本発明に用いる音声認識用のテンプレートは、例えば、あらかじめ計算された全音節に関する自己相関関数の特徴量（ＡＣＦファクタ）のセットである。また、テンプレートには、あらかじめ計算された両耳間相互相関関数の特徴量（ＩＡＣＦファクタ）のセットを含めておいてもよい。
【００２９】
以下、本発明を詳細に説明する。
【００３０】
まず、本発明に用いる音声信号の解析手法を説明する。
【００３１】
本発明において音声信号の解析手法は、図１に示す人間の聴覚機能モデルに基づいている。このモデルは、左右それぞれの経路におけるＡＣＦと両耳間のＩＡＣＦを計算する神経メカニズムから構成され、左右大脳半球の処理特性も考慮するものである。
【００３２】
図１において、ｒ₀は音源ｐ(t)の３次元空間における位置、ｒは受聴者の頭の中心の位置として定義される。ｈ_r,l(r/r₀,t)はｒ₀と左右の外耳道入り口間のインパルス応答である。外耳道と耳小骨のインパルス応答はそれぞれｅ_l,r(t)とｃ_l,r(t)で表される。基底膜の速度は、Ｖ_l,r(x,ω)で表される。
【００３３】
このようなＡＣＦ及びＩＡＣＦモデルの有効性は、音源の基本属性の知覚や、プリファレンス（好ましさ）をはじめとする音場の主観的評価に関する研究によって実証されてきた（Y. Ando (1998), Architectural acoustics, blending sound sources, sound fields, and listeners. AIP Press/Springer-Verlag, New-York参照）。
【００３４】
さらに最近の生理学分野の研究によって、聴覚神経の発火パターンが入力信号のＡＣＦに近いふるまいを示すことがわかってきており、神経メカニズムにおけるＡＣＦモデルの存在が明らかにされつつある（P. A. Cariani (1996), Neural correlates of the pitch of complex tones. I. Pitch and Pitch Salience, Journal of Neurophysiology, 76, 3, 1698-1716参照）。
【００３５】
ＡＣＦから抽出されるファクタによって、音の基本属性であるラウドネス（音の大きさ）、ピッチ（音の高さ）、音色の評価が可能であり、またＩＡＣＦから抽出されるファクタによって、音場の空間的特性である拡がり感、方向定位、音源の幅の評価が可能となる。
【００３６】
音場において、人間の耳に到達する音源信号のＡＣＦは次の式から得られる。
【００３７】
【数１】

【００３８】
ここでｐ'(t)=p(t)*s(t)で、ｓ（ｔ）は耳の感度である。通常ｓ（ｔ）にはＡ特性のインパルスレスポンスが用いられる。音源信号のパワースペクトルも次式のようにＡＣＦから得ることができる。
【００３９】
【数２】

【００４０】
このように、ＡＣＦとパワースペクトルは数学的に同じ情報を含んでいる。
【００４１】
ＡＣＦの重要な性質のひとつは、式（１）において遅れ時間τ＝０とした時に最大値をもつことである。この値をΦ_□(0)と定義することとする。Φ(0)は信号のエネルギを表すため、通常はこの値で除した正規化ＡＣＦ（φ（τ））を信号の解析に使用する。さらに、左右のΦ_□(0)の幾何平均を求め、１０倍の対数変換することによって頭部位置における相対的聴取音圧レベルＬＬが得られる。
【００４２】
ＡＣＦの解析において、これまで見逃されてきた最も重要なファクタ（特徴量）として、正規化ＡＣＦのエンベロープによって定義される有効継続時間τ_eがある。
【００４３】
有効継続時間τ_eは、図５に示すように１０パーセント遅れ時間として定義され、信号自身に含まれる繰り返し成分及び残響成分を表す。さらに、ピークやディップを含むＡＣＦの微細構造は、信号の周期性に関する多くの情報を含んでいる。音声信号の解析に際して最も有効なものはピッチに関する情報であり、ＡＣＦの第１ピークの遅れ時間τ₁と振幅φ₁（図６）は音声のピッチに相当する周波数とその強度を表すファクタである。
【００４４】
ここで、第１ピークとは、多くの場合ＡＣＦの最大ピークであり、その周期で後続の定期的なピークが現れる。また、第１ピークまでの時間に現れる局所的なピークは、信号の高周波数域の時間構造を表すもので、音色に関する情報を含んでいる。特に音声の場合、フォルマントと呼ばれる声道の共振周波数の特徴を表す。以上のＡＣＦファクタは、認識に必要な音声特徴をすべて含んでいる。
【００４５】
すなわち、ピッチとピッチ強度に対応するＡＣＦの第１ピークの遅れ時間と振幅、フォルマントに対応するＡＣＦの局所ピークによって音声を特定でき、有効継続時間τ_eによって実音場における騒音や残響の影響を考慮できる。
【００４６】
次に、ＩＡＣＦについて説明する。
【００４７】
長時間ＩＡＣＦは次式で求めることができる。
【００４８】
【数３】

【００４９】
ここでp’_{l, r}(t)=p_lr(t)*s(t)であり、左右外耳道入り口での音圧である。音源の水平面方向の知覚を含む空間情報は次式で表される。
【００５０】
【数４】

【００５１】
で定義される。
【００５２】
τＷ_IACC及びＷ_IACCは図７中に定義を示すとおり、ＩＡＣＦのピークの遅れ時間と幅である。これらのＩＡＣＣファクタの中で、−１ｍｓ〜＋１ｍｓの範囲内のτ_IACCは、音源の水平方向の知覚に関する重要なファクタである。
【００５３】
ＩＡＣＦの最大値であるＩＡＣＣが大きな値を持ち、正規化ＩＡＣＦが１つの鋭いピークを持つとき、明確な方向感が得られる。その方向は、τ_IACCが負の値を持つときは聴者の左、正の値を持つときは右となる。逆に、ＩＡＣＣが小さい値を持つときは、主観的拡がり感が大きくなり、方向感はあいまいになる。知覚される見かけの音源の幅は、ＩＡＣＣとＷ_IACCによって求めることができる。
【００５４】
以上説明したように、音声信号について、ＡＣＦの遅れ時間が０の値Φ(0)、ＡＣＦの第１ピークの遅れ時間τ₁と振幅φ₁、及びＡＣＦの有効継続時間τ_eを抽出すれば、その抽出したＡＣＦのΦ(0)から音の大きさを求めることができ、ＡＣＦの第１ピークの遅れ時間τ₁と振幅φ₁から音声のピッチ（音の高さ）とその強度を求めることができる。また、ＡＣＦの有効継続時間τ_eによって実音場における雑音や残響の影響を考慮することができる。
【００５５】
さらに、音声信号についてＡＣＦの第１ピークまでに現れる局所ピークを抽出すれば、その局所ピークから音声の音色を特定することも可能になる。
【００５６】
また、音声信号について、ＩＡＣＦの最大値ＩＡＣＣ、ＩＡＣＦのピーク遅れ時間τ_IACC、及びＩＡＣＦの最大振幅の幅Ｗ_IACCを抽出すれば、そのＩＡＣＦの最大値ＩＡＣＣから主観的広がり感を求めることができ、ＩＡＣＦのピーク遅れ時間τ_IACCから音源の水平方向の知覚を求めることができる。さらにＩＡＣＦの最大値ＩＡＣＣ及びＩＡＣＦの最大振幅の幅Ｗ_IACCから、知覚される見かけの音源の幅（ＡＳＷ）を求めることができる。
【００５７】
従って、これらＩＡＣＦファクタつまり音場の空間情報を音声認識に加えることにより、実音場での人間の感覚を反映した高い精度の認識が可能になる。
【００５８】
ここで、本発明において、以上説明したＡＣＦファクタ及びＩＡＣＦファクタの全てを抽出する必要はなく、それらファクタのうち、少なくともＡＣＦの遅れ時間が０の値Φ(0)、ＡＣＦの第１ピークの遅れ時間τ₁と振幅φ₁、及びＡＣＦの有効継続時間τ_eの４つのファクタがあれば、音声特徴を抽出することができ、音声の認識を確実に行うことができる。
【００５９】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて説明する。
【００６０】
図２は本発明の実施形態の構成を示すブロック図である。
【００６１】
図２に示す音声認識装置は、聴者の頭部模型１に装着されたバイノーラルのマイクロフォン２、マイクロフォン２にて採取された音声信号にＡ特性フィルタをかけるローパスフィルタ（ＬＰＦ）３、Ａ／Ｄコンバータ４、及びコンピュータ５を主体として構成されている。なお、Ａ特性フィルタとは、耳の感度ｓ（ｔ）に相当するフィルタのことである。
【００６２】
コンピュータ５は、記憶装置６、ＡＣＦ演算部７、ＩＡＣＦ演算部８、ＡＣＦファクタ抽出部９、ＩＡＣＦファクタ抽出部１０、音声認識部１１及びデータベース１２を備えている。
【００６３】
記憶装置６は、バイノーラルのマイクロフォン２にて採取された音声信号を格納する。
【００６４】
ＡＣＦ演算部７は、記憶装置６に格納された音声信号（左右２チャンネル）を読み出してＡＣＦ（自己相関関数）を計算する。計算処理の詳細は後述する。
【００６５】
ＩＡＣＦ演算部８は、記憶装置６に格納された音声信号を読み出してＩＡＣＦ（両耳間相互相関関数）を計算する。計算処理の詳細は後述する。
【００６６】
ＡＣＦファクタ抽出部９は、ＡＣＦ演算部７にて計算されたＡＣＦから、ＡＣＦの遅れ時間が０の値Φ(0)、ＡＣＦの第１ピークの遅れ時間τ₁と振幅φ₁、及びＡＣＦの有効継続時間τ_eの各ＡＣＦファクタを導出する。さらに、ＡＣＦの第１ピークまでの局所ピーク（図６に示す（τ'₁，φ'₁），（τ'₂，φ'₂），…）を導出する。計算処理の詳細は後述する。
【００６７】
ＩＡＣＦファクタ抽出部１０は、ＩＡＣＦ演算部８にて計算されたＩＡＣＦから、ＩＡＣＦの最大値ＩＡＣＣ、ＩＡＣＦのピーク遅れ時間τ_IACC、及びＩＡＣＦの最大振幅の幅Ｗ_IACCを各ＩＡＣＦファクタを導出する。計算処理の詳細は後述する。
【００６８】
音声認識部１１は、以上の処理によって求めれらた音声信号のＡＣＦファクタ及びＩＡＣＦファクタを、データベース１２に格納された音声認識用のテンプレートと比較して、音節を認識（同定）する。音節認識処理の詳細は後述する。
【００６９】
データベース１２に格納されるテンプレートは、あらかじめ計算された全音節に関するＡＣＦファクタのセットである。また、テンプレートには、あらかじめ計算されたＩＡＣＦファクタのセットも含まれる。
【００７０】
次に、本実施形態において実行する音節特定処理の動作を図３に示すフローチャートを参照しながら説明する。
【００７１】
まず、バイノーラルのマイクロフォン２にて音声信号が採取される（ステップＳ１）。採取された音声信号は、ローパスフィルタ３を介してＡ／Ｄコンバータに導かれてデジタル信号に変換され、そのデジタル変換後の音声信号がコンピュータ５内の記憶装置６に格納される（ステップＳ２）。
【００７２】
記憶装置６に格納された音声信号（デジタル信号）をＡＣＦ演算部７及びＩＡＣＦ演算部８が読み出し（ステップＳ３）、その音声信号のＡＣＦ及びＩＡＣＦをそれぞれ計算する（ステップＳ４）。
【００７３】
計算されたＡＣＦ及びＩＡＣＦはそれぞれＡＣＦファクタ抽出部９及びＩＡＣＦファクタ抽出部９に供給されてＡＣＦファクタ及びＩＡＣＦファクタが計算される（ステップＳ５）。
【００７４】
そして、以上の処理によって求められた音声信号のＡＣＦファクタ及びＩＡＣＦファクタを、データベース１２に格納されたテンプレートと比較して、後述する処理により音節を認識（同定）する（ステップＳ６，Ｓ７）。
【００７５】
ここで、図２に示す装置構成において、頭部模型１、バイノーラルのマイクロフォン２、ローパスフィルタ３、Ａ／Ｄコンバータ４、及びコンピュータ５の記憶装置６、ＡＣＦ演算部７、ＩＡＣＦ演算部８、ＡＣＦファクタ抽出部９、ＩＡＣＦファクタ抽出部１０を組み合わせることにより、ＡＣＦファクタ及びＩＡＣＦファクタ抽出用の音声特徴抽出装置を実現することができる。
【００７６】
また、頭部模型１、バイノーラルのマイクロフォン２、ローパスフィルタ３、Ａ／Ｄコンバータ４、及びコンピュータ５の記憶装置６、ＡＣＦ演算部７、ＡＣＦファクタ抽出部９を組み合わせることにより、ＡＣＦファクタ抽出用の音声特徴抽出装置を実現することができる。
【００７７】
次に、ＡＣＦ及びＩＡＣＦの具体的な計算方法について述べる。
【００７８】
図４に示すように、対象となる音声信号の継続時間内において、短時間のセグメント（以降フレームと呼ぶ）Ｆ_k（ｔ）に対して、ランニングＡＣＦ及びランニングＩＡＣＦを計算する。音声信号の特性は時間とともに変化するためこのような方法をとるものである。ＡＣＦの積分区間２ＴはＡＣＦから抽出されるτ_e［ｍｓ］の最小値の２０〜４０倍を選定する。
【００７９】
音声を分析する場合、フレームの長さは数ｍｓから数１０ｍｓを採用し、隣接するフレームは互いに重なり合うように設定する。本実施形態においては、フレームの長さを３０ｍｓとし、各フレームが５ｍｓずつ重なるように設定する。
【００８０】
遅れ時間τの関数である短時間ランニングＡＣＦは次のように計算される。
【００８１】
【数５】

【００８２】
である。
【００８３】
式（８）におけるｐ'（ｔ）は、採取された音声信号ｐ（ｔ）にＡ特性フィルタをかけた信号であることを示す。
【００８４】
式（７）の分母にあるΦ(0)は、遅れ時間τ＝０の時のＡＣＦの値であり、採取された音声信号のフレーム内における平均エネルギを表す。ＡＣＦは遅れ時間τ＝０で最大値を取るため、このように正規化されたＡＣＦは、τ＝０で最大値１を持つことになる。
【００８５】
Φ(0)左右の耳の位置で採取された信号に対するＡＣＦをそれぞれΦ_ll(τ)、Φ_rr(τ)で表すと、頭部の位置におけるバイノーラルの音圧レベル（ＳＰＬ:Sound pressure level）は次式で得られる。
【００８６】
【数６】

【００８７】
φ_ref(0)は、基準音圧値２０μＰにおけるΦ(0)である。
【００８８】
計算されたＡＣＦから、音節の認識に必要なファクタを導出する。以下に、それらのファクタの定義と導出方法を述べる。
【００８９】
正規化したＡＣＦの振幅が０．１に減衰するときの遅れ時間τによって、有効継続時間τ_eを定義する。
【００９０】
図５は、縦軸にＡＣＦの絶対値を対数で表示したグラフである。このように初期のＡＣＦが線形に減衰するのが一般的に観察されるため、線形回帰によりτ_eを容易に求めることができる。具体的には、ある一定時間Δτにおいて得られるＡＣＦのピークに対して、最小平均自乗法（ＬＭＳ）を用いてτ_eを決定する。
【００９１】
図６に正規化ＡＣＦの計算例を示す。ここで、正規化ＡＣＦの最大ピークを求め、その遅れ時間と振幅をそれぞれτ₁，φ₁と定義する。さらに、最大ピークまでの局所ピークを求め、その遅れ時間と振幅をτ'_k，φ'_k，ｋ＝１，２，…，Ｉと定義する。
【００９２】
ピークを求める区間は、遅れ時間τ＝０からＡＣＦの最大ピークが出現するまでの区間であり、ＡＣＦの１周期分に相当する。前述したように、ＡＣＦの最大ピークは音源のピッチに対応し、最大ピークまでの局所ピークはフォルマントに対応する。
【００９３】
次に、ＩＡＣＦの計算方法とそこから導出されるファクタについて述べる。
【００９４】
ＩＡＣＦは、次式で定義される。
【００９５】
【数７】

【００９６】
ここで、添え字のｌとｒは左右の耳に到達する信号であることを表す。
【００９７】
図７に正規化されたＩＡＣＦの例を示す。両耳の間の最大遅れ時間としては、−１ｍｓから＋１ｍｓを考慮すれば十分である。ＩＡＣＦの最大振幅ＩＡＣＣは主観的拡散に関連するファクタである。
【００９８】
次に、τ_IACCの値は、音源の到達方向を示すファクタである。例えばτ_IACCが正の値をとる場合、音源は聴者の右側に位置するか、あるいは音源は聴者の右側にあるかのように知覚される。τ_IACC＝０の場合、音源が聴者の正面に知覚されることを意味する。
【００９９】
また、最大振幅の幅Ｗ_IACCは、最大値から０．１下がったところの幅として定義する。この係数０．１は、実験により求められた値であり、概算的に用いられる。
【０１００】
次に、入力信号とテンプレートの音節間距離に基づいて音節を認識する方法について述べる。
【０１０１】
音節間距離は、採取された音声信号について求められたＡＣＦファクタ及びＩＡＣＦファクタと、データベースに格納されたテンプレートとの距離を計算するものである。テンプレートはあらかじめ計算された、全音節に関するＡＣＦファクタのセットである。ＡＣＦファクタは知覚される音の特徴を表すものであるので、音声が聴感的に類似しておれば、求められるファクタも当然類似したものとなることを利用した方法である。
【０１０２】
対象となる入力データ（記号ａで表す）とテンプレート（記号ｂで表す）と間の距離Ｄ（ｘ）(ｘ:Φ(0),τ_e,τ_k,φ_k,τ'_k,φ'_k,k=1,2,…,I)を次式のように計算する。
【０１０３】
【数８】

【０１０４】
式（１１）は、Φ(0)に関する距離を求めるものであり、Ｎは分析フレームの数を示す。計算の際に対数をとっているのは、人間の感覚が物理量に対して対数的な感度を持つためである。他の独立なファクタについても同様の式で距離が求められる。
【０１０５】
距離の総和Ｄは、各ファクタの距離Ｄ（ｘ）を加算した次式で表される。
【０１０６】
【数９】

【０１０７】
式（１２）におけるＭはファクタの数であり、Ｗは重み係数である。算出された距離Ｄが最も小さいテンプレートを、入力信号の音節であると判断する。後述するように、実音場においては、Ｄを求める際にＩＡＣＦファクタを追加することにより高い精度での認識が可能になる。この場合、Ｄ（ｘ）をＩＡＣＦファクタであるＩＡＣＣ，τ_IACC，Ｗ_IACCについても式（１１）に従い計算し、式（１２）に追加することとなる。
【０１０８】
以上説明したように、本実施形態によれば、音声信号について、ＡＣＦの遅時間が０の値Φ(0)、ＡＣＦの第１ピークの遅れ時間τ₁と振幅φ₁、及びＡＣＦの有効継続時間τ_eを抽出しているので、その抽出したＡＣＦのΦ(0)から音の大きさを求めることができ、ＡＣＦの第１ピークの遅れ時間τ₁と振幅φ₁から、音声のピッチ（音の高さ）とその強度を求めることができる。また、ＡＣＦの有効継続時間τ_eによって実音場における雑音や残響の影響を考慮することができる。
【０１０９】
このように、本実施形態によれば、人間の聴感特性に対応する４つのパラメータを利用して、音声の特徴を抽出することができるので、スペクトル解析を行う必要がなく、従来のものと比べてきわめて簡単な構成のもとに音声認識装置を実現することができる。
【０１１０】
しかも、本実施形態では、音声信号についてＡＣＦの第１ピークまでに現れる局所ピークも抽出しているので、その局所ピークから音声の音色を特定することも可能になる。
【０１１１】
また、本実施形態では、音声信号についてＩＡＣＦの最大値ＩＡＣＣ、ＩＡＣＦのピーク遅れ時間τ_IACC、及びＩＡＣＦの最大振幅の幅Ｗ_IACCを抽出しているので、そのＩＡＣＦの最大値ＩＡＣＣから主観的広がり感を求めることができ、ＩＡＣＦのピーク遅れ時間τ_IACCから音源の水平方向の知覚を求めることができる。さらにＩＡＣＦの最大値ＩＡＣＣ及びＩＡＣＦの最大振幅の幅Ｗ_IACCから、知覚される見かけの音源の幅（ＡＳＷ）を求めることができる。
【０１１２】
従って、これらＩＡＣＦファクタつまり音場の空間情報を音声認識に加えることにより、実音場での人間の感覚を反映した高い精度の認識が可能になる。
【０１１３】
なお、以上の実施形態においては、音の大きさに関する情報として、ＡＣＦの遅れ時間が０の値Φ(0)を抽出しているが、これに替えて、ＩＡＣＦの遅れ時間０の値Φ(0)を抽出して認識に用いてもよい。
【０１１４】
以上の実施形態では、ＡＣＦファクタ及びＩＡＣＦファクタの双方を抽出しているが、本発明はこれに限られることなく、ＡＣＦファクタのみを抽出するようにしてもよい。ＡＣＦファクタのみを抽出する場合、音声信号の採取にバイノーラルのマイクロフォンを用いてもよいし、モノラルのマイクロフォンを用いてもよい。
【０１１５】
ここで、図２に示す実施形態では、本発明の音声認識装置を機能ブロックによるハード構成で示しているが、本発明はこれに限れられることなく、例えば、図３に示す音声認識処理を行うための音声認識プログラムを、パーソナルコンピュータ等のコンピュータで読み取りが可能な記録媒体に記録しておき、その記憶したプログラムをコンピュータに実行させることにより、本発明の音声認識方法を実現するようにしてもよい。
【０１１６】
また、図３のステップＳ１〜ステップＳ５までの音声特徴抽出処理を行うための音声特徴抽出プログラムを、パーソナルコンピュータ等のコンピュータで読み取りが可能な記録媒体に記録しておき、その記憶したプログラムをコンピュータに実行させることにより、本発明において用いられる音声特徴抽出方法を実現するようにしてもよい。
【０１１７】
コンピュータが読み取り可能な記録媒体としては、ＲＯＭ等のコンピュータに内蔵されているメモリであってもよいし、また、コンピュータに設けられる読取装置（外部記憶装置）によって読み取り可能な記録媒体、例えば、磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスク系、ＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭ等による半導体メモリなどの記録媒体であってもよい。
【０１１８】
【実施例】
図２に示す装置の具体的な動作を示す実施例として、実音場における音声明瞭度の予測結果を示す。
【０１１９】
この実施例では、被験者の正面から単音節の対象音、側方から妨害音となるホワイトノイズもしくは別の単音節を同時に提示して、対象音を答えるという実験を行った。明瞭度は被験者の正答率として表される。なお、妨害音の提示角度は、３０°，６０°，１２０°，１８０°とした。
【０１２０】
明瞭度を予測するため、対象音のみ提示した場合のＡＣＦファクタ及びＩＡＣＦファクタをテンプレート（データベース）とし、上記実験条件での各ファクタとの距離を図２に示す装置で求めた。その結果（実測値）及び予測値を図８に示す。なお、予測値は、式（１２）で距離Ｄを求める際に、正規化ＡＣＦの局所ピークの遅れ時間と振幅である、τ'_k，φ'_kをファクタとして含めない場合の値とした。
【０１２１】
図８の結果から、本実施例の実験結果は計算による予測値と非常に近いものとなっており（予測率ｒ＝０．８６）、音場の空間情報を加えることで、実音場での人間の感覚を反映した認識が可能であることが判る。また、図２の装置を用いることにより、音場に強い妨害音が多く存在するような悪条件あっても、予測が可能であることが判る。
【０１２２】
【発明の効果】
以上説明したように、本発明によれば、音声信号のＡＣＦ（自己相関関数）を求め、そのＡＣＦからＡＣＦの遅れ時間が０の値Φ(0)、ＡＣＦの第１ピークの遅れ時間τ₁と振幅φ₁、及びＡＣＦの有効継続時間τ_eを導出しているので、処理が複雑なスペクトル解析を行うことなく、聴感特性に対応する最小限のパラメータを使用して、音声の特徴を抽出することができる。しかも、それらＡＣＦファクタは音声認識に重要な情報を含んでいるので、音声認識を高い精度で行うことができる。
【０１２３】
さらに、本発明においては、音声信号のＩＡＣＦ（両耳間相互相関関数）を求め、そのＩＡＣＦから、ＩＡＣＦの最大値ＩＡＣＣ、ＩＡＣＦのピーク遅れ時間τ_IACC、及びＩＡＣＦの最大振幅の幅Ｗ_IACCを抽出しているので、これらＩＡＣＦファクタつまり音場の空間情報を音声認識に加えることにより、実音場での人間の感覚を反映した高い精度の認識が可能になる。しかも、ＩＡＣＦの各ファクタを導入することにより、雑音に強い音声認識を実現できる。
【図面の簡単な説明】
【図１】聴覚機能モデルを示すブロック図である。
【図２】本発明の実施形態の構成を示すブロック図である。
【図３】本発明による音声特徴抽出音声認識を行う方法のフローチャートである。
【図４】ランニングＡＣＦ及びＩＡＣＦを計算する方法を説明する概念図である。
【図５】縦軸に正規化ＡＣＦの絶対値の対数、横軸に遅れ時間をとったグラフである。
【図６】縦軸に正規化ＡＣＦ、横軸に遅れ時間をとったグラフである。
【図７】縦軸に正規化ＩＡＣＦ、横軸に左右の信号の遅れ時間をとったグラフである。
【図８】実環境における音声明瞭度の予測結果である。
【符号の説明】
１頭部模型
２バイノーラルのマイクロフォン
３ローパスフィルタ
４Ａ／Ｄコンバータ
５コンピュータ
６記憶装置
７ＡＣＦ演算部
８ＩＡＣＦ演算部
９ＡＣＦファクタ抽出部
１０ＩＡＣＦファクタ抽出部
１１音声認識部
１２データベース

Claims

音声信号の自己相関関数を求め、その自己相関関数から、自己相関関数の遅れ時間が０の値Φ(0)、自己相関関数の第１ピークの遅れ時間τ₁と振幅φ₁、及び自己相関関数の有効継続時間τ_eを抽出して音声認識に必要な音声特徴を抽出する音声特徴抽出方法にて抽出した、自己相関関数の遅れ時間が０の値Φ (0) 、自己相関関数の第１ピークの遅れ時間τ ₁ と振幅φ ₁ 、及び自己相関関数の有効継続時間τ _e の各データを、音声認識用のテンプレートと比較して音声を認識することを特徴とする音声認識方法。
前記自己相関関数の第１ピークまでの局所ピークを抽出し、その局所ピークを含めたデータを、テンプレートと比較して音声を認識する請求項１記載の音声認識方法。
マイクロフォンと、マイクロフォンにて採取された音声信号の自己相関関数を求める演算手段と、その自己相関関数から、自己相関関数の遅れ時間が０の値Φ (0) 、自己相関関数の第１ピークの遅れ時間τ ₁ と振幅φ ₁ 、及び自己相関関数の有効継続時間τ _e を抽出する抽出手段とを備えた、音声認識に必要な音声特徴を抽出する音声特徴抽出装置と、
この音声特徴抽出装置にて抽出された、自己相関関数の遅れ時間が０の値Φ (0) 、自己相関関数の第１ピークの遅れ時間τ ₁ と振幅φ ₁ 、及び自己相関関数の有効継続時間τ _e の各データを、音声認識用のテンプレートと比較して音声を認識する認識手段とを備えている音声認識装置。
前記自己相関関数の第１ピークまでの局所ピークを抽出し、その局所ピークを含めたデータを、テンプレートと比較して音声を認識する請求項３記載の音声認識装置。
バイノーラルで計測した音声信号の自己相関関数及び両耳間相互相関関数をそれぞれ求め、その自己相関関数及び両耳間相互相関関数から、自己相関関数の第１ピークの遅れ時間τ ₁ と振幅φ ₁ 、自己相関関数の有効継続時間τ _e 、両耳間相互相関関数の最大値ＩＡＣＣ、両耳間相互相関関数のピーク遅れ時間τ _IACC 、両耳間相互相関関数の最大振幅の幅Ｗ _IACC 、及び、自己相関関数または両耳間相互相関関数の遅れ時間が０の値Φ (0) を抽出して、音声認識に必要な音声特徴を抽出する音声特徴抽出方法にて抽出した、自己相関関数の第１ピークの遅れ時間τ ₁ と振幅φ ₁ 、自己相関関数の有効継続時間τ _e 、両耳間相互相関関数の最大値ＩＡＣＣ、両耳間相互相関関数のピーク遅れ時間τ _IACC 、両耳間相互相関関数の最大振幅の幅Ｗ _IACC 、及び、自己相関関数または両耳間相互相関関数の遅れ時間が０の値Φ (0) の各データを、音声認識用のテンプレートと比較して音声を認識することを特徴とする音声認識方法。
前記自己相関関数の第１ピークまでの局所ピークを抽出し、その局所ピークを含めたデータを、テンプレートと比較して音声を認識する請求項５記載の音声認識方法。
バイノーラルのマイクロフォンと、マイクロフォンにて採取された音声信号の自己相関関数及び両耳間相互相関関数をそれぞれ求める演算手段と、その自己相関関数及び両耳間相互相関関数から、自己相関関数の第１ピークの遅れ時間τ ₁ と振幅φ ₁ 、自己相関関数の有効継続時間τ _e 、両耳間相互相関関数の最大値ＩＡＣＣ、両耳間相互相関関数のピーク遅れ時間τ _IACC 、両耳間相互相関関数の最大振幅の幅Ｗ _IACC 、及び、自己相関関数または両耳間相互相関関数の遅れ時間が０の値Φ (0) を抽出する抽出手段とを備えた、音声認識に必要な音声特徴を抽出する音声特徴抽出装置と、
この音声特徴抽出装置にて抽出された、自己相関関数の第１ピークの遅れ時間τ ₁ と振幅φ ₁ 、自己相関関数の有効継続時間τ _e 、両耳間相互相関関数の最大値ＩＡＣＣ、両耳間相互相関関数のピーク遅れ時間τ _IACC 、両耳間相互相関関数の最大振幅の幅Ｗ _IACC 、及び、自己相関関数または両耳間相互相関関数の遅れ時間が０の値Φ (0) の各データを、音声認識用のテンプレートと比較して音声を認識する認識手段とを備えている音声認識装置。
前記自己相関関数の第１ピークまでの局所ピークを抽出し、その局所ピークを含めたデータを、テンプレートと比較して音声を認識する請求項７記載の音声認識装置。