JP2009042552A

JP2009042552A - 音声処理装置及び方法

Info

Publication number: JP2009042552A
Application number: JP2007208090A
Authority: JP
Inventors: Ko Amada; 皇天田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-08-09
Filing date: 2007-08-09
Publication date: 2009-02-26
Anticipated expiration: 2027-08-09
Also published as: JP4469880B2; US8229739B2; US20090043566A1

Abstract

【課題】入力される音声を適切に処理し、音源認識、話者認識または音声認識を精度良く行う音声処理装置を提供する。
【解決手段】第１音源１００より発生された音声を受信して複数チャネルの第１音声信号を出力する複数のマイクロホン１０１と；前記チャネル間の相関を示す第１特徴量を算出する算出部１１０と；第２音源より発生された音声を前記複数のマイクロホン１０１により受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を予め記憶している記憶部１２０と；前記第１特徴量と前記第２特徴量を照合し、前記第１音源１００が前記第２音源に一致するか否かを判定する照合部１０２と；を具備する。
【選択図】図１

Description

本発明は、入力音声から音源認識、話者認識または音声認識を行う音声処理装置及び方法に関する。

個人認証技術の１つとして、入力音声の特徴量から話者を認識する話者認識技術が知られている。非特許文献１に開示されているように、話者認識技術はテキスト依存型、テキスト独立型及びテキスト指定型の３つの類型に分類される。

テキスト依存型の話者認識システムでは、認識対象の話者（ユーザという）による特定のテキストに対する発声内容と、事前にシステム側で用意されている同じテキストに対応する多数の話者による発声内容の特徴量との比較から話者を認識する。

テキスト独立型の話者認識システムでは、ユーザが発声するテキストは自由である。即ち、システムはユーザの発声内容を正規化して得た特徴量と、予め記録しておいた複数の話者の発声内容の特徴量とを照合することにより話者認識を行う。従って、上記テキスト依存型の話者認識に比べて困難であることが知られている。

テキスト指定型の話者認識システムでは、ユーザに対して発声を求めるテキストがシステム側から指定される。ユーザは指定されたテキストを実際に発声し、システムはこのユーザから得た特徴量と予め記録している特徴量との比較から話者を認識する。
古井他、「音声情報処理」、森北出版株式会社、１９９８

テキスト依存型及びテキスト独立型の話者認識システムは、スピーカ等を用いて他人の録音音声を再生することにより、本人を詐称する「なりすまし」によって欺かれるおそれがある。一方、テキスト指定型の話者認識システムは認証時にテキストを指定するため、テキスト依存型及びテキスト独立型の話者認識システムに比べて「なりすまし」への耐性が高いと考えられる。しかしながら、近年のデジタル信号処理技術の進歩を鑑みるに、音声合成技術を用いて他人の録音音声を合成することにより、指定されたテキストをその場で生成されることも想定する必要があると考えられる。また、テキスト依存型及びテキスト指定型の話者認識システムでは、ユーザはテキストを読み間違えてはならないため使い勝手が悪いという問題もある。

また、入力音声のスペクトル形状や時間変化などを比較して音源を識別する手法も知られているが、この手法では例えば犬と人間など明らかに種別の異なる音源の識別は可能であるが、実発声または録音音声のいずれであるかを識別することは困難である。

また、話者認識に限らず音声認識においてもユーザの周囲の環境音（テレビやラジオなどのスピーカから出力される音声）が入力に混入し、誤認識を誘発するおそれがある。

従って、本発明は入力される音声を適切に処理し、音源認識、話者認識または音声認識を精度良く行う音声処理装置を提供することを目的とする。

本発明の一態様に係る音声処理装置は、第１音源より発生された音声を受信して複数チャネルの第１音声信号を出力する複数のマイクロホンと；前記チャネル間の相関を示す第１特徴量を算出する算出部と；第２音源より発生された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を予め記憶している記憶部と；前記第１特徴量と前記第２特徴量を照合し、前記第１音源が前記第２音源に一致するか否かを判定する照合部と；を具備する。

本発明の他の態様に係る音声処理装置は、音源より発生された音声を受信して複数チャネルの第１音声信号を出力する複数のマイクロホンと；前記チャネル間の相関を示す第１特徴量を算出する算出部と；人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を予め記憶している第１の記憶部と；前記第１特徴量と前記第２特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第１の照合部と；前記音源による音声の特徴を示す第１話者特徴量を算出する第２の算出部と；特定の話者による発声音声の特徴を示す第２話者特徴量を予め記憶する第２の記憶部と；前記第１話者特徴量と前記第２話者特徴量を照合し、前記音源による音声が前記特定の話者による発声音声に一致するか否かを判定する第２の照合部と；前記第１の照合部における照合結果及び前記第２の照合部における照合結果に基づいて、前記音源が前記特定の話者の発声器官であるか否かを判定する判定部と；を具備する。

本発明の他の態様に係る音声処理装置は、音源より発生された音声を受信して複数チャネルの第１音声信号を出力する複数のマイクロホンと；前記チャネル間の相関を示す第１特徴量を算出する算出部と；人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を予め記憶している第１の記憶部と；前記第１特徴量と前記第２特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第１の照合部と；前記音源による音声の第１音声特徴量を算出する第２の算出部と；複数の単語列の第２音声特徴量が予め記憶されている第２の記憶部と；前記第１の照合部によって前記音源と前記人間の発声器官とが一致すると判定された場合に、前記第１音声特徴量と前記第２音声特徴量を照合し、前記音源による音声に最も近いらしい単語列を出力する第２の照合部と；を具備する。

本発明によれば、入力される音声を適切に処理し、音源認識、話者認識または音声認識を精度良く行うことができる。

以下、図面を参照して本発明の実施形態について説明する。
（第１の実施形態）
図１に示すように本発明の第１の実施形態に係る音声処理装置は、ｎ個のマイクロホン１０１−１〜１０１−ｎ、チャネル間特徴量算出部１１０、照合部１０２、及びチャネル間特徴量記憶部１２０を有する。チャネル間特徴量算出部１１０は、ｎ個のフーリエ変換部１１１−１〜１１１−ｎ及びコヒーレンス算出部１１２を含む。尚、マイクロホン１０１及びフーリエ変換部１１１の個数ｎは２以上の整数とする。以下、ｎ＝２として説明するが、これに限定されるものでない。

マイクロホン１０１−１及び１０１−２は、音源１００より発せられた音声を受信し、各マイクロホンに対応したチャネルの音声信号Ｘ１及びＸ２を出力する。音声信号Ｘ１及びＸ２は、フーリエ変換部１１１−１及び１１１−２に入力される。マイクロホン１０１−１及び１０１−２は様々な配置が可能である。例えば図２Ａ及び２Ｂに示すようにマイクロホン１０１−１及びマイクロホン１０１−２は近接して配置される。この場合、マイクロホン１０１−１及びマイクロホン１０１−２が近接し過ぎると、音声信号Ｘ１及びＸ２が近似してしまうため、チャネル間の相関を適切に見積もることができない。従って、マイクロホン１０１−１及び１０１−２の間隔は少なくとも人間の唇の幅程度とするのが望ましい。

図３Ａ及び３Ｂの例では、マイクロホン１０１−１は音源１００の正面に配置され、マイクロホン１０１−２は音源１００の側面に配置される。このようにマイクロホン１０１−１及びマイクロホン１０１−２を音源１００から異なる方向に配置すれば、音源１００の放射特性の変化が後述するチャネル間特徴量に反映されやすくなり、効果的に音源を識別できる。

また、マイクロホン１０１−１と音源１００間の垂直距離と、マイクロホン１０１−２と音源１００間の垂直距離とが異なるように配置しても、音源１００の放射特性の変化が後述するチャネル間特徴量に反映されやすくなり、効果的に音源を識別できる。例えば、図３Ａ及び３Ｂに示すように、マイクロホン１０１−１は音源１００よりも高く、マイクロホン１０１−２は音源１００よりも低く配置される。音源１００が人間の発声器官である場合、口だけでなく鼻及び喉などの部位からも音が放射されるため、マイクロホン１０１−１を鼻の近くに配置し、マイクロホン１０１−２を口の近くに配置することで、鼻と口による放射特性の差が後述するチャネル間特徴量に反映されやすくなり、効果的に音源を識別できる。例えば口を閉じて発声する音と口を開けて発声する音とでは、放射特性が大きく異なる。

図４Ａ及び４Ｂの例では、音源１００から一直線上にマイクロホン１０１−１及びマイクロホン１０１−２が配置される。このように音源１００とマイクロホン１０１−１との間の水平距離と、音源１００とマイクロホン１０１−２との間の水平距離とが異なるように配置しつつ、マイクロホン１０１−１及び１０１−２を配置することにより、設置スペースを節約することができる。

フーリエ変換部１１１−１及び１１１−２は、入力される音声信号Ｘ１及びＸ２をフーリエ変換し、フーリエ変換信号Ｘ１（１），…，Ｘ１（ｋ）及びＸ２（１），…，Ｘ２（ｋ）を出力する。ここで、ｋは周波数成分番号を示している。例えば、フーリエ変換部１１１−１及び１１１−２は音声信号Ｘ１及びＸ２を長さＬの窓で切り出した後、フーリエ変換を行い、長さＭシフトする処理を繰り返す。ここで、各切り出しで生成される単位をフレームと呼ぶ。フーリエ変換部１１１−１からのフーリエ変換信号Ｘ１（１），…，Ｘ１（ｋ）及びフーリエ変換部１１１−２からのフーリエ変換信号Ｘ２（１），…，Ｘ２（ｋ）は、コヒーレンス算出部１１２に入力される。

コヒーレンス算出部１１２は、フーリエ変換信号Ｘ１（１），…，Ｘ１（ｋ）及びフーリエ変換信号Ｘ２（１），…，Ｘ２（ｋ）を用いてコヒーレンスを算出する。ここで、コヒーレンスは信号間の関係を示す指標としてよく用いられ、例えば以下に示す複素コヒーレンスが知られている。

ここで、ｋは周波数番号、γ（ｋ）はｋ番目の複素コヒーレンス値、Ｅ（Ｘ）はＸの期待値、＊は複素共役を夫々示す。

通常、Ｅ（Ｘ）はＸの時間方向の期待値であり、計算済みのフレームにおけるＸの平均値を用いて導出することが多い。また、以下に示すように数式（１）のγ（ｋ）の絶対値を二乗した振幅二乗コヒーレンスも知られている。

コヒーレンス算出部１１２が算出するコヒーレンスは、数式（１）に示す複素コヒーレンス及び数式（２）に示す振幅二乗コヒーレンスのいずれであってもよい。例えば、数式（１）に示す複素コヒーレンスでは算出結果が複素数であるから、入力信号Ｘ１及びＸ（２）の位相差を反映した値が得られる。数式（２）に示す振幅二乗コヒーレンスでは算出結果が正数であるから、比較を含む各種処理を容易に実行できる。

ここで、チャネル間特徴量としてコヒーレンスを用いる技術的意義について説明する。例えば、文献 "Exploration of Pressure Field Around the Human Head During Speech" H. K. Dunn and D. W. Farnsworth, Bell Telephone Laboratories, New York, New York, January 1939 に示されるように、人間の発声音声の放射特性が方向によって異なることはよく知られている。この放射特性は、発声する音素によっても異なると考えられ、口以外にも鼻や喉など発声器官各部から音が放射され、これらの音の重ね合わせにより放射特性が時々刻々と変化する。従って、コヒーレンスγの算出において、期待値Ｅ（Ｘ）を求める時間長を十分長く、例えば単語長程度とすれば音声信号Ｘ１及びＸ２間の相関は小さくなり、コヒーレンスγも小さな値となる。一方、スピーカは音素に依存しない所定の放射特性を有しているため、人間の録音音声を再生する場合であっても、コヒーレンスγは最大値１に近い値を取る。

このように、同じ単語を人間の発声器官より発声した場合と、当該発声を録音してスピーカより再生した場合とではコヒーレンスγに違いが生じることとなる。本実施形態では、このコヒーレンスγの違いに着目し、音源１００がスピーカ及び人間の発声器官のいずれであるかを識別する。

一方、人間の実発声と録音音声との放射特性の違いのみに着目すれば、例えば音源の周囲に複数のマイクロホンを設けて得られた複数のパワを要素に持つベクトルを特徴量とする手法も考えられる。しかしながら、この手法では人間の平均的な放射特性を小型のスピーカを組み合わせて模擬することにより、「なりすまし」が可能となるおそれがある。従って、本実施形態に比べて音源識別の精度が低くなってしまう。

コヒーレンス算出部１１２は、算出したコヒーレンスγ（１），…，γ（ｋ）に基づいてチャネル間特徴量ｆを算出し、照合部１０２へと転送する。ここで、チャネル間特徴量ｆは例えば、コヒーレンス算出部１１２が算出したコヒーレンスγ（１），…，γ（ｋ）をそのままｋ個の成分として持つベクトルを用いる。また、ｋ個全ての成分を特徴量とする必要は無く、周波数方向に平均化して、次元を圧縮してもよい。例えば全周波数に亘って平均して１次元に圧縮したベクトルを用いてもよいし、サブバンド単位に平均化して次元を圧縮してもよい。この他、主成分分析や線形判別分析に基づく次元数の削減などの次元圧縮技術を用いることで効果的に次元を圧縮できる。次元を圧縮することで後述する照合部１０２における処理負担を軽減することができる。また、音声の主要な周波数帯域のみを選択する間引き処理を施してもよい。また、各成分を重み付けしたり、各成分に線形変換を施したりしてもよい。また、入力音声が連続単語であるなど十分な時間長を有する場合には、コヒーレンスを算出する時間長を時間軸上に複数個所設けて、複数のコヒーレンスの時系列データをチャネル間特徴量ｆとしてもよい。

実際の環境では、コヒーレンス算出部１１２が算出するコヒーレンスγは音源１００から直接受信した音声だけでなく、反射や残響に影響されるため、特定の周波数で大きくずれる場合がある。例えば、コヒーレンスγの値が特定の周波数でディップ状に低下することがある。このようなコヒーレンスγのずれによって、チャネル間特徴量ｆの値が変わるおそれがあり、照合部１０２による照合の精度を低下させる原因となる。しかしながら、上記ずれは音源１００の位置が微妙に変化するだけでも影響が大きく、未然に防ぐことは困難である。従って、事後的にコヒーレンスγを周波数方向に平滑化して、ずれを小さくすることが有効である。コヒーレンスγを周波数方向に平滑するために、コヒーレンス算出部１１２は例えば移動平均を算出したり、中央値フィルタを利用したりする。

チャネル間特徴量記憶部１２０には、特定音源Ａに関するチャネル間特徴量ｆＡが、当該特定音源Ａと対応付けられて予め格納されている。尚、チャネル間特徴量ｆＡの形式は、前述したコヒーレンス算出部１１２が算出するチャネル間特徴量ｆと一致しているものとする。

照合部１０２は、コヒーレンス算出部１１２より転送された音源１００に関するチャネル間特徴量ｆと、チャネル間特徴量記憶部１２０から読み出した特定音源Ａに関するチャネル間特徴量ｆＡを照合し、音源１００が特定音源Ａに一致するか否かを判定する。具体的には、照合部１０２は例えばチャネル間特徴量ｆ及びチャネル間特徴量ｆＡ間のユークリッド距離を予め定める閾値と比較して、音源１００が特定音源Ａに一致するか否かを判定する。また、照合部１０２は例えばチャネル間特徴量ｆ及びチャネル間特徴量ｆＡをパラメタとする確率モデルの尤度を予め定める閾値と比較して、音源１００が特定音源Ａに一致するか否かを判定してもよい。この他、パターンマッチング技術などにおける種々の手法が適用可能である。

また、チャネル間特徴量記憶部１２０は特定音源Ａとは異なる特定音源Ｂに関するチャネル間特徴量ｆＢを更に格納してもよい。この例では上記閾値を設けなくともよく、照合部１０２はチャネル間特徴量ｆ及びチャネル間特徴量ｆＡ間のユークリッド距離ｄＡと、チャネル間特徴量ｆ及びチャネル間特徴量ｆＢ間のユークリッド距離ｄＢとの大小を比較して、音源１００が特定音源Ａに一致するか否かを判定してもよい。また、チャネル間特徴量ｆ及びチャネル間特徴量ｆＡをパラメタとする確率モデルの尤度ＬＡと、チャネル間特徴量ｆ及びチャネル間特徴量ｆＢをパラメタとする上記確率モデルの尤度ＬＢとの大小を比較して、音源１００と特定音源Ａが一致するか否かを判定してもよい。また、前述したようにスピーカを音源とするチャネル間特徴量は、コヒーレンスが全周波数に亘ってほぼ１に近い値をとる。従って、チャネル間特徴量記憶部１２０を設けずに、音源１００に関して算出したコヒーレンスγが１と比べてどの程度小さいかによって、音源１００がスピーカであるか否かを判定してもよい。

また、特定音源Ａが人間の発声器官である場合、同一話者であっても発話内容によってコヒーレンスγが異なるため、特定音源Ａからから得られた複数の発話サンプルより算出したコヒーレンスをチャネル間特徴量ｆＡとしてチャネル間特徴量記憶部１２０に格納しておき、これらのいずれか１つとチャネル間特徴量ｆが近ければ、音源１００と特定音源Ａが一致すると判定することで、照合部１０２の照合精度を向上させることができる。また、上記複数の発話サンプルから得られたコヒーレンスの平均値を特定音源Ａに関するチャネル間特徴量ｆＡの代表値としてチャネル間特徴量記憶部１２０に格納するようにしてもよい。

以下、図６に示すフローチャートを用いて、本実施形態に係る音声処理装置の動作について説明する。
まず、マイクロホン１０１−１及び１０１−２は、音源１００より発せられた音響信号を受信し、入力信号Ｘ１及びＸ２としてフーリエ変換部１１１−１及び１１１−２に夫々転送する（ステップＳ２０１）。

次に、チャネル間特徴量算出部１１０はステップＳ２０１において受信した入力信号Ｘ１及びＸ２からチャネル間特徴量ｆを算出する（ステップＳ２０２）。即ち、フーリエ変換部１１１−１及び１１１−２は、ステップＳ２０１において受音された入力信号Ｘ１及びＸ２をｋ個の周波数成分からなるフーリエ変換信号Ｘ１（１），…，Ｘ１（ｋ）及びＸ２（１），…，Ｘ２（ｋ）に夫々変換し、コヒーレンス算出部１１２へと転送する。続いてコヒーレンス算出部１１２は、フーリエ変換信号Ｘ１（１），…，Ｘ１（ｋ）及びＸ２（１），…，Ｘ２（ｋ）から夫々算出したｋ個のコヒーレンスγ（１），…，γ（ｋ）に基づいてチャネル間特徴量ｆを算出して、照合部１０２へと転送する。

次に、照合部１０２はステップＳ２０２において算出したチャネル間特徴量ｆとチャネル間特徴量記憶部１２０より読み出した特定音源Ａに関するチャネル間特徴量ｆＡを照合する（ステップＳ２０３）。照合部１０２は、チャネル間特徴量ｆをチャネル間特徴量ｆＡとの一致度に基づき、音源１００が特定音源Ａに一致するか否かを示す判定結果を出力する。

以上説明したように、本実施形態では特定音源に関するチャネル間特徴量を予め記憶しておき、認識対象となる音源に関するチャネル間特徴量と照合することにより、当該認識対象となる音源が上記特定音源に一致するか否かを判定している。従って、本実施形態によれば、入力音声から精度良く音源認識する音声処理装置を提供できる。例えば特定音源を人間の発声器官とすれば、認識対象となる音源が人間の発声器官か否かを判定することができる。また、特定音源を人間の録音音声を再生するスピーカとすれば、認識対象となる音源が上記スピーカか否かを判定することができる。また、特定音源を複数の人間の発声器官とすれば、話者を認識することができる。

（第２の実施形態）
図７に示すように、本発明の第２の実施形態に係る音声処理装置では、図１に示す音声処理装置に加えて、更に総合判定部３０３及び話者認識部３３０を設けている。以下の説明では図７において、図１と同一部分には同一符号を付して詳細な説明を省略し、図１と異なる部分を中心に述べる。

総合判定部３０３は、照合部１０２から音源１００が人間の発声器官であるか否かを示す照合結果を受け、話者認識部３３０から音源１００に最も近いらしい話者を示す照合結果を受ける。総合判定部３０３は、これら照合結果を総合して、音源１００が話者の発声器官であるか否かを示す判定結果を出力する。具体的には、総合判定部３０３は、例えば音源１００が人間の発声器官であるとの照合結果が照合部１０２から得られた場合にのみ、話者認識部３３０からの照合結果にて示される特定の話者の発声器官に一致するとの判定結果を出力する。尚、総合判定部３０３の動作は上記に限られず、例えば照合部１０２からの照合結果と話者認識部３３０からの照合結果がスコアで得られるならば、両スコアの値または当該スコアをパラメタとする関数値と予め定める閾値との比較により、判定しても良い。

話者認識部３３０は、話者特徴量算出部３３１、照合部３３２及び話者特徴量記憶部３４０を有している。話者認識部３３０は、マイクロホン１０１−１及び１０１−２からの入力音声Ｘ１及びＸ２から音源１００に最も近いらしい話者を出力する。

話者特徴量算出部３３１は、マイクロホン１０１−１及び１０１−２からの入力音声Ｘ１及びＸ２に基づいて話者特徴量を算出し、照合部３３２へと転送する。照合部３３２は、話者特徴量算出部３３１より転送された話者特徴量と、話者特徴量記憶部３４０に記憶されている話者特徴量を照合し、音源１００に最も近いらしい話者を照合結果として総合判定部３０３へと通知する。話者特徴量記憶部３４０は、予め定める複数の話者について話者特徴量算出部３３１から取得した話者特徴量を話者に夫々対応付けて記憶している。

本実施形態では、上記第１の実施形態における音源識別と、一般的な話者認識とを組み合わせている。従って、本実施形態によれば「なりすまし」を防止しつつ、入力音声の特徴量から精度良く話者認識する音声処理装置を提供できる。

（第３の実施形態）
図８に示すように、本発明の第３の実施形態に係る音声処理装置では、図１に示す音声処理装置に加えて、更に音声認識部４５０を更に設けている。以下の説明では図８において、図１と同一部分には同一符号を付して詳細な説明を省略し、図１と異なる部分を中心に述べる。

音声認識部４５０は、音声特徴量算出部４５１、照合部４５２及び音響モデル記憶部４６０を有している。音声認識部４５０は、照合部１０２から音源１００が人間の発声器官に一致するとの照合結果を受けた場合にのみ、マイクロホン１０１−１及び１０１−２からの入力音声Ｘ１及びＸ２に最も近いらしい単語列を出力する。

音声特徴量算出部４５１は、マイクロホン１０１−１及び１０１−２からの入力音声Ｘ１及びＸ２に基づいて音声特徴量を算出し、照合部４５２へと転送する。照合部４５２は、音声特徴量算出部４５１より転送された音声特徴量と、音響モデル記憶部４６０に記憶されている音響モデルを照合し、音響的な一致度に基づいて入力音声に最も近いらしい単語列を出力する。音響モデル記憶部４６０は、複数の単語列の音声特徴量を格納している。格納方法として単語列そのものを記憶しておく方法もあるが、単語単位や音素単位で記憶することで記憶容量を削減できる。その場合はこれらを組み合わせて単語列を生成する。

本実施形態では、音源が人間であると識別された場合にのみ、音声認識結果を出力している。従って、本実施形態によれば、ユーザからの入力音声にテレビ音声などの環境音が混入する場合であっても、ユーザからの入力音声の特徴量のみを対象として精度よく音声認識する音声処理装置を提供できる。

尚、本実施形態において音声認識部は音響モデルを用いて音響的な一致度のみに基づいて音声認識を実行しているが、特に連続音声認識を実行する場合には言語モデルを用いて算出した言語的な一致度も併せて利用することが有効である。

（第４の実施形態）
図９に示すように、本発明の第４の実施形態に係る音声処理装置では、図１に示すチャネル間特徴量算出部１１０をチャネル間特徴量算出部５１０に、チャネル間特徴量記憶部１２０をチャネル間特徴量記憶部５２０に夫々置き換えている。以下の説明では図９において、図１と同一部分には同一符号を付して詳細な説明を省略し、図１と異なる部分を中心に述べる。尚、本実施形態に係る音声処理装置は上記に限られず、例えば図７または図８に示すチャネル間特徴量算出部１１０をチャネル間特徴量算出部５１０に、チャネル間特徴量記憶部１２０をチャネル間特徴量記憶部５２０に夫々置き換えてもよい。

チャネル間特徴量算出部５１０は、前述したチャネル間特徴量算出部１１０においてコヒーレンス算出部１１２をパワ比算出部５１２に置き換えている。チャネル間特徴量算出部５１０は、マイクロホン１０１−１及び１０１−２からの入力音声Ｘ１及びＸ２からチャネル間特徴量ｆを算出する。

パワ比算出部５１２は、フーリエ変換部１１１−１からの信号Ｘ１（１），…，Ｘ１（ｋ）及びフーリエ変換部１１１−２からの信号Ｘ２（１），…，Ｘ２（ｋ）からパワ比ｐ（１），…，ｐ（ｋ）を算出する。具体的には、パワ比算出部５１２は例えば以下に示す数式（３）を用いてパワ比ｐを算出する。

ここで、ｋは周波数成分番号、ｐ（ｋ）はｋ番目のパワ比を夫々示している。

パワ比算出部５１２はチャネル間特徴量ｆとして例えばｋ個の成分、即ち上記パワ比ｐ（１），…，ｐ（ｋ）を要素に持つベクトルを出力する。尚、パワ比算出部５１２が出力するチャネル間特徴量ｆは上記に限られず、例えば複数のサブバンド単位に集約したり、全周波数で１つの成分に集約したりするなどして次元を圧縮してもよい。また、入力音声Ｘ１及びＸ２の発声時間長が十分長い場合には、時間軸上の複数個所で上記パワ比ｐを算出して形成した時系列データをチャネル間特徴量ｆとして用いてもよい。チャネル間特徴量として時系列データを用いる場合には、例えば隠れマルコフモデルを用いることにより音素毎の継続時間の変動を吸収して、チャネル間特徴量ｆの質を向上することができる。

チャネル間特徴量記憶部５２０は、前述したチャネル間特徴量記憶部１２０と同様に、予め定める音源についてチャネル間特徴量算出部５１０から取得したチャネル間特徴量ｆを格納している。

本実施形態では、チャネル間特徴量としてパワ比を用いており、上記各実施形態におけるコヒーレンスを代替できる。また、上記コヒーレンスと併用することにより、音源認識、話者認識及び音声認識の精度を向上させることもできる。従って、本実施形態によれば入力音声の特徴量から精度良く音源認識、話者認識または音声認識する音声処理装置を提供できる。

（第５の実施形態）
図１０に示すように本発明の第５の実施形態に係る音声処理システムでは、上記各実施形態に係る音声処理装置が実装されており、端末６７０及びマイクロホン１０１−１及び１０１−２を有する。
マイクロホン１０１−１及び１０１−２は、音源１００及び音源６００から発される音声を受信し、端末６７０中の図示しない処理部へと転送する。ここで、音源６００は、音源１００を模した「なりすまし」を目的とする音源である。端末６７０は、上記各実施形態に係る音声処理装置のマイクロホン以外の構成要素が実装されており、マイクロホン１０１−１及び１０１−２が受信した音源１００及び音源６００からの音声に対して所定の処理を実行する。

以上説明したように、本実施形態よれば、「なりすまし」を目的とする音源を認識することができるため、システムに対する悪意ある操作を防ぐことができる。即ち、認識対象となる音源が「なりすまし」を目的とする音源であれば、以降の処理を実行しないなどの措置を採ることができる。

なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る音声処理装置を示すブロック図。図１に示すマイクロホンの第１の配置例を示す上面図。図１に示すマイクロホンの第１の配置例を示す正面図。図１に示すマイクロホンの第２の配置例を示す上面図。図１に示すマイクロホンの第２の配置例を示す正面図。図１に示すマイクロホンの第３の配置例を示す上面図。図１に示すマイクロホンの第３の配置例を示す正面図。図１に示すマイクロホンの第４の配置例を示す上面図。図１に示すマイクロホンの第４の配置例を示す正面図。図１に示す音声処理装置の動作を示すフローチャート。本発明の第２の実施形態に係る音声処理装置を示すブロック図。本発明の第３の実施形態に係る音声処理装置を示すブロック図。本発明の第４の実施形態に係る音声処理装置を示すブロック図。本発明の第５の実施形態に係る音声処理システムを示す図。

符号の説明

１００・・・音源
１０１・・・マイクロホン
１０２・・・照合部
１１０・・・チャネル間特徴量算出部
１１１・・・フーリエ変換部
１１２・・・コヒーレンス算出部
１２０・・・チャネル間特徴量記憶部
３０３・・・総合判定部
３３０・・・話者認識部
３３１・・・話者特徴量算出部
３３２・・・照合部
３４０・・・話者特徴量記憶部
４５０・・・音声認識部
４５１・・・音声特徴量算出部
４５２・・・照合部
４６０・・・音響モデル記憶部
５１０・・・チャネル間特徴量算出部
５１２・・・パワ比算出部
５２０・・・チャネル間特徴量記憶部
６００・・・音源
６７０・・・端末

Claims

第１音源より発生された音声を受信して複数チャネルの第１音声信号を出力する複数のマイクロホンと、
前記チャネル間の相関を示す第１特徴量を算出する算出部と、
第２音源より発生された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を予め記憶している記憶部と、
前記第１特徴量と前記第２特徴量を照合し、前記第１音源が前記第２音源に一致するか否かを判定する照合部と
を具備することを特徴とする音声処理装置。
前記第２音源は、人間の発声器官であることを特徴とする請求項１記載の音声処理装置。
前記第２音源は、人間の発声器官であり、
前記記憶部は、スピーカより再生された録音音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第３音声信号のチャネル間の相関を示す第３特徴量を更に記憶しており、
前記照合部は、更に前記第１特徴量と前記第３特徴量を照合し、前記第１特徴量が前記第３特徴量よりも前記第２特徴量に近ければ、前記第１音源が前記第２音源に一致すると判定することを特徴とする請求項１記載の音声処理装置。
前記第２音源は、特定の話者の発声器官であることを特徴とする請求項１記載の音声処理装置。
前記第２音源は、特定の話者の発声器官であり、
前記記憶部は、前記特定の話者とは異なる話者の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第４音声信号のチャネル間の相関を示す第４特徴量を更に記憶しており、
前記照合部は、更に前記第１特徴量と前記第４特徴量を照合し、前記第１特徴量が前記第４特徴量よりも前記第２特徴量に近ければ、前記第１音源が前記第２音源に一致すると判定することを特徴とする請求項４記載の音声処理装置。
前記第１特徴量及び第２特徴量は前記チャネル間のコヒーレンスであることを特徴とする請求項１記載の音声処理装置。
前記第１特徴量及び第２特徴量は前記チャネル間のコヒーレンスの線形変換であることを特徴とする請求項１記載の音声処理装置。
前記第１特徴量及び第２特徴量は前記チャネル間のパワ比であることを特徴とする請求項１記載の音声処理装置。
前記複数のマイクロホンは、第１マイクロホンと、前記第１のマイクロホンとの間に人間の唇の幅以上の間隔を空けて配置された第２マイクロホンとを含むことを特徴とする請求項１記載の音声処理装置。
前記複数のマイクロホンは、前記第１音源または前記第２音源から第１水平距離離れた位置に配置された第１マイクロホンと、前記第１音源または前記第２音源から第２水平距離離れた位置に配置された第２マイクロホンとを含むことを特徴とする請求項１記載の音声処理装置。
前記複数のマイクロホンは、前記第１音源または前記第２音源から第１垂直距離離れた位置に配置された第１マイクロホンと、前記第１音源または前記第２音源から第２垂直距離離れた位置に配置された第２マイクロホンとを含むことを特徴とする請求項１記載の音声処理装置。
前記複数のマイクロホンは、第１方向から前記第１音源または前記第２音源に向けて配置され第１マイクロホンと、第２方向から前記第１音源または前記第２音源に向けて配置された第２マイクロホンとを含むことを特徴とする請求項１記載の音声処理装置。
前記複数のマイクロホンは、第１地上高に配置された第１マイクロホンと、第２地上高に配置された第２マイクロホンとを含むことを特徴とする請求項１記載の音声処理装置。
前記第１地上高は前記第１音源または前記第２音源の位置よりも高く、前記第２地上高は前記第１音源または前記第２音源の位置よりも低いことを特徴とする請求項１３記載の音声処理装置。
音源より発生された音声を受信して複数チャネルの第１音声信号を出力する複数のマイクロホンと、
前記チャネル間の相関を示す第１特徴量を算出する算出部と、
人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を予め記憶している第１の記憶部と、
前記第１特徴量と前記第２特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第１の照合部と、
前記音源による音声の特徴を示す第１話者特徴量を算出する第２の算出部と、
特定の話者による発声音声の特徴を示す第２話者特徴量を予め記憶する第２の記憶部と、
前記第１話者特徴量と前記第２話者特徴量を照合し、前記音源による音声が前記特定の話者による発声音声に一致するか否かを判定する第２の照合部と、
前記第１の照合部における照合結果及び前記第２の照合部における照合結果に基づいて、前記音源が前記特定の話者の発声器官であるか否かを判定する判定部と
を具備することを特徴とする音声処理装置。
音源より発生された音声を受信して複数チャネルの第１音声信号を出力する複数のマイクロホンと、
前記チャネル間の相関を示す第１特徴量を算出する算出部と、
人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を予め記憶している第１の記憶部と、
前記第１特徴量と前記第２特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第１の照合部と、
前記音源による音声の第１音声特徴量を算出する第２の算出部と、
複数の単語列の第２音声特徴量が予め記憶されている第２の記憶部と、
前記第１の照合部によって前記音源と前記人間の発声器官とが一致すると判定された場合に、前記第１音声特徴量と前記第２音声特徴量を照合し、前記音源による音声に最も近いらしい単語列を出力する第２の照合部と
を具備することを特徴とする音声処理装置。
第１音源より発生された音声を受信して複数チャネルの第１音声信号を出力する受信ステップと、
前記チャネル間の相関を示す第１特徴量を算出する算出ステップと、
前記第１特徴量と、第２音源より発生された音声を前記受信ステップにより受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を照合し、前記第１音源が前記第２音源に一致するか否かを判定する照合ステップと
を具備することを特徴とする音声処理方法。
コンピュータを
第１音源より発生された音声を受信して複数チャネルの第１音声信号を出力する複数のマイクロホン、
前記チャネル間の相関を示す第１特徴量を算出する算出手段、
第２音源より発生された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第２音声信号のチャネル間の相関を示す第２特徴量を予め記憶している記憶手段、
前記第１特徴量と前記第２特徴量を照合し、前記第１音源が前記第２音源に一致するか否かを判定する照合手段
として機能させるための音声処理プログラム。