JP2012146116A

JP2012146116A - スピーチ内容を識別する装置及び方法

Info

Publication number: JP2012146116A
Application number: JP2011003782A
Authority: JP
Inventors: Toshimasa Yamazaki; 敏正山▲崎▼; Kenichi Kamijo; 憲一上條
Original assignee: Kyushu Institute of Technology NUC; NEC Corp
Current assignee: Kyushu Institute of Technology NUC; NEC Corp
Priority date: 2011-01-12
Filing date: 2011-01-12
Publication date: 2012-08-02

Abstract

【課題】計測された脳波から発話或いはサイレントスピーチの内容を識別する。
【解決手段】本発明は、学習時脳波信号に独立成分分析および射影実行を適用して、脳波データを再構成する。一方、学習時の音声信号を計測し、そのスペクトログラムを算出する。再構成された脳波データとスペクトログラムの関係をカルマンフィルターでモデル化し、そのモデル・パラメータを学習する。次に、スピーチ遂行時に計測された脳波信号に独立成分分析および射影実行を適用し、脳波データを再構成して、学習済みのカルマンフィルターモデルに入力する。モデルの出力値であるスペクトログラムからスピーチの内容を推定する。
【選択図】図２

Description

本発明は、発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する装置及び方法に関する。

脳波を利用したサイレントスピーチBCIが知られている。ブレイン・コンピュータ・インタフェースBCI（Brain-Computer Interface）とは、脳活動を反映し、ヒトの頭皮から直接検出可能な電気信号を、ユーザの意図を外界へ伝える出力に変換する方法である（非特許文献１）。従来のBCIは動作イメージを利用したものがほとんどである（特許文献１）。しかしながら、動作イメージBCIは被験者に課すタスクとしては非常に難しく、膨大な訓練時間を要することが最大の欠点である。

こうした問題を解決するために、被験者にとってより自然で直感的なタスクとしてサイレントスピーチを利用したBCI、サイレントスピーチBCI（以後、SSBCIと略す）に、最近、注目が集まっている。単一試行脳波図（Single-trial EEGs）を利用したSSBCIの研究は世界中を見渡しても研究途上である。強いて挙げれば、Wester（2006）（非特許文献２）は、silent speechやunspoken speechなどの遂行時に計測された脳波からspeech内容を推定しているが、脳波の特徴抽出や学習モデルは従来手法に基づいており、推定精度は30〜50％程度である。更に、運動野、Broca野、Wernicke野の脳活動に注目すべきことを示唆しているが電極位置からの推察に過ぎない。また、脳波と共に音声信号を同時記録しているが、この音声信号が活用されていない。

特開２００８−２２５８７７

ウルポー・J・R、マックファランド・D・J、「コントロール・オブ・ア・ツー・ディメンジョナル・ムーブメント・シグナル・バイ・ア・ノンインベイシブ・ブレイン−コンピュータ・インタフェース・イン・ヒューマンズ（Control of a two-dimensional movement signal by a noninvasive brain-computer interface in humans）」，プロシィーディングス・オブ・ザ・ナショナル・アカデミー・オブ・サイエンシィーズ・オブ・ザ・ユナイテッド・ステイツ・オブ・アメリカ，２００４年，Ｖｏｌ．１０１、ｐ．１７８４９−１７８５４ベスター・M、「アンスポークン・スピーチスピーチ・リコグニション・ベイスト・オン・エレクトロエンセファログラフィー（Unspoken speech: Speech recognition based on electroencephalography）」、修士論文、カールスルーエ大学、ドイツ（Universitat Karlsruhe(TH), Karlsrule, Germany）、２００６年カルドソ・J.-F、ソーローミアック・A、「ブラインド・ビーム−フォーミング・フォー・ガウシャン・シグナルズ（Blind beam-forming for Gaussian signals）」、アイ・イー・イー・プロシィーディングス−エフ、１９９３年、Ｖｏｌ．１４０，ｐ．３６２−３７０ヒベライネン・A、オジャ・E、「ア・ファスト・フィックスド−ポイント・アルゴリズム・フォー・インディペンデント・コンポーネント・アナリシス（A fast fixed-point algorithm for independent component analysis）」、ニューラル・コンピュテーション、１９９７年、Vol.9、No.7、ｐ．１４８３−１４９２アマリ・S、チェン・T、チチョッキ・A、「ノンホロノミック・オーソゴナル・ラーニング・アルゴリズム・フォー・ブラインド・ソース・セパレーション（Nonholonomic orthogonal learning algorithm for blind source separation）」、ニューラル・コンピュテーション、２０００年、Vol.12、ｐ．１４６３−１４８４チョイ・S、チチョッキ・A、アマリ・S、「フレキシブル・インディペンデント・コンポーネント・アナリシス（Flexible independent component analysis）」、ジャーナル・オブ・ブイエルエスアイ・シグナル・プロセシィング、２０００年、Vol.26、No.1/2、ｐ．２５−３８ゲンザー・F・H、ゴーシュ・S・S、ツアビル・J・A、「ニューラル・モデリング・アンド・イメージング・オブ・ザ・コーティカル・インタラクションズ・アンダーライング・シラブル・プロダクション（Neural modeling and imaging of the cortical interactions underlying syllable production）」、ブライン・アンド・ランゲージ、２００６年、Vol.96、p．２８０−３０１

本発明は、上記した従来技術の欠点を除くためになされたものであって、脳波を利用したブレイン・コンピュータ・インタフェースBCIにおいて、発話或いはサイレントスピーチをタスクとする課題遂行中に単一試行で計測された脳波から、スピーチの内容を推定および識別することを目的としている。これにより、ブレイン・コンピュータ・インタフェースBCIの適用範囲が大いに広がる事が期待される。

本発明の発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する装置は、被験者頭部に装着される複数個の脳波計測用電極と、脳波計測用電極により発話或いはサイレントスピーチを遂行した時の脳波データを計測する脳波計測部と、脳波データに独立成分分析を適用し、各独立成分の寄与を電極位置の空間に射影した時の値として算出する独立成分分析および射影実行部と、被験者が発した音声を計測する音声信号計測部と、計測した音声信号のスペクトログラムを算出するスペクトログラム計算部と、独立成分分析および射影実行部で得られた脳波データと、スペクトログラム計算部で得られたスペクトログラムを利用したデータ解析のために用いるカルマンフィルターモデルを設定するカルマンフィルターモデル設定部と、スペクトログラムの値が属する音声領域からスピーチされた内容を推定するスピーチ内容推定部と、を備える。学習時に独立成分分析および射影実行部で得られた脳波データとスペクトログラム計算部で得られたスペクトログラムの関係をカルマンフィルターモデルによって学習し、かつ、スピーチ遂行時に独立成分分析および射影実行部で得られた脳波データを学習済みの前記カルマンフィルターモデルに入力し、出力されたスペクトログラムからスピーチの内容を推定する。

また、本発明のスピーチ内容を識別する方法は、学習時に多チャネル電極で計測された脳波信号に独立成分分析を適用して独立成分に分解し、各独立成分について、各独立成分の寄与を電極位置の空間に射影した時の値として算出して脳波信号を再構成し、脳波信号と共に同時計測された音声信号のスペクトログラムを算出し、抽出された独立成分と算出されたスペクトログラムの関係をカルマンフィルターモデルによって学習する。スピーチ遂行時に多チャネル電極で計測された脳波信号に独立成分分析を適用して、独立成分に分解し、各独立成分について、各独立成分の寄与を電極位置の空間に射影した時の値として算出して脳波信号を再構成し、この射影後の脳波信号を学習済みの前記カルマンフィルターモデルに入力し、出力されたスペクトログラムからスピーチの内容を予測する。

独立成分分析により、u=Wx、として、uが独立成分となるように行列Wを求め、ここで、xは、脳波計測により得られたデジタル脳波データであり、電極数をｎ、サンプリング点の数をｐ、独立成分の数をｋとして、ｘはｎ×ｐ次の行列であり、ｕはｋ×ｐ次の行列であり、Wはk×n次の行列となる。

独立成分分析の結果から、元々の行列xを、x=W⁺u、と再構成し、更に、前記射影は、x_j= W⁺u_jにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する操作であり、但し、W⁺は、Wの逆行列であり、u_jは行列uのj番目の列のみで、それ以外はすべて０から成る行列とする。

カルマンフィルターモデルの学習は、該カルマンフィルターモデルに、独立成分分析および射影実行部で得られた脳波データとスペクトログラム計算部で得られたスペクトログラムを入力し、カルマンフィルターモデルを確定させるパラメータを推定し、この推定したパラメータをメモリに保存することによって行う。

射影された脳波データにダイポール解析を適用するダイポール解析実行部と、前記ダイポール解析により推定されたダイポールの位置を、解析に利用する脳波データと定める特定脳部位結果抽出部とをさらに備え、ダイポール解析の結果として得られたダイポールを、被験者のMRI画像から被験者の脳を３次元的に復元したものに、重ね合わせて表示することができる。

スピーチ内容推定は、スペクトログラム推定で得られたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属すかを調べ、属した音声を、発話或いはサイレントスピーチを含むスピーチ内容と推定することができる。

本発明により、ノイズ混入が十分考えられる、単一試行の下で計測された脳波信号から、発話或いはサイレントスピーチした内容を精度良くかつ効率的に推定および識別することが出来る。本発明は、脳波を利用したブレイン・コンピュータ・インタフェースにおいて、単一試行の下で計測された脳波でも、試行の違いを、計測された脳波から識別できる。

発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する本発明の装置（ブレイン・コンピュータ・インタフェースBCI）は、従来の動作イメージを利用したブレイン・コンピュータ・インタフェースBCIよりも、ユーザに対する負荷が大幅に軽減され、訓練時間もほとんど必要としない。

脳波信号の測定環境を例示する図である。発話或いはサイレントスピーチを含むスピーチ時の脳波からスピーチ内容を識別する本発明の装置を例示する概略図である。学習フェーズにおける動作を説明する動作フロー図である。予測フェーズにおける動作を説明する動作フロー図である。視覚刺激提示と、音声信号計測と、脳波計測の時間関係を示す図である。ソフトウエアICALABによる（ａ）独立成分分析ICA、及び（ｂ）射影（deflation）の結果を例示する図である。ダイポール解析ソフトウエアによりダイポールが運動前野に定位された例を示す図である。サイレントスピーチ「グー」に対して、予測されたスペクトログラムを示す図である。サイレントスピーチ「パー」に対して、予測されたスペクトログラムを示す図である。

以下、例示に基づき本発明を説明する。図１は、脳波信号の測定環境を例示する図である。図１に示すように、被験者を配置し、脳波（ＥＥＧ）のほかに眼球運動図（眼電図：ＥＯＧ）及び筋電図（ＥＭＧ）も取得する。眼電図（ＥＯＧ）と筋電図（ＥＭＧ）の計測により、眼球運動と（サイレントスピーチ時に間違って発話した時の）顔の筋肉の動きをモニタリングすることができる。脳波（ＥＥＧ）は、被験者の脳波を複数チャネル（例えば、１９ｃｈ）で計測する複数個の脳波計測用電極（生体電極）をヒト（被験者）頭皮表面に接着し、あるいは脳波計測電極が貼り付けられたキャップをヒト頭部に装着することによって取得される。生体電極は、例えばACT生体電極（AP-C100-0155、株式会社デジテックス研究所）を利用することが出来る。各電極から計測されるアナログ信号を生体信号用アンプ（例えば、POLYMATE AP1132、株式会社デジテックス研究所）で増幅し、A/D変換して、デジタル信号データxを得る。デジタル信号データxは、データ解析用ＰＣに送られる。マイクロホンは、この脳波図の取得と同時に、音声信号を計測する。眼球運動図（ＥＯＧ）および筋電図（ＥＭＧ）はまた、生体信号用アンプによって増幅されてデータ解析用ＰＣに送られる。

図２は、発話或いはサイレントスピーチを含むスピーチ時の脳波からスピーチ内容を識別する本発明の装置を例示する概略図である。本発明においては、学習フェーズにおいて学習し、得られた単一試行EEGデータを利用して、予測フェーズにおいて、スピーチされた内容を識別する。学習フェーズにおいては、複数種類の線画刺激、例えば、「グー」、「チョキ」、「パー」をランダムにモニタ上に提示し、線画と一致して「グー」、「チョキ」、「パー」のいずれかを発話するように被験者に教示する。刺激については、線画や写真などの視覚刺激に限らず、ヘッドホンなどによる聴覚刺激でも可能である。また、本発明の「発話或いはサイレントスピーチを含むスピーチ」として、単語「グー」、「チョキ」、「パー」を例として説明するが、刺激を与えることができるものであれば、例えば、「居間のソファで横になりたい」のような単語の組合せや文章に対しても適用可能である。

各試行の遂行時に、raw EEG（生の脳波図）を計測することにより得られる単一試行EEGデータを利用して、発話されたのが「グー」、「チョキ」、「パー」のどれかを学習する。即ち、ここでは、３種類の試行を、提示された刺激に応じて何回か繰り返すことになる。個々の刺激に対する試行が単一試行となる。予測フェーズにおいては、タスクとして発話或いはサイレントスピーチを遂行した時の脳波を同様に計測して、学習フェーズで得られた単一試行EEGデータを利用して、スピーチされた内容を識別する。例えば、「グー」単一の試行のみで、「グー」を識別することができる。但し、「グー」を識別できるためには、学習フェーズで「グー」が学習されていなければならない。このように、学習フェーズでは発話が、また、予測フェーズでは発話或いはサイレントスピーチがそれぞれタスクとなる。

図２に示す脳波計測部において、ヒト（被験者）頭部に装着した複数個の脳波計測用電極を通じて計測されるアナログ信号を、生体信号用アンプで増幅し、A/D変換してデジタル信号データとして蓄積する。学習フェーズにおいては、複数種類の線画刺激をランダムにモニタ上に提示し、線画と一致して発話するように被験者に教示する。各試行の遂行時に、デジタル脳波データxを計測する。予測フェーズにおいては、タスクとして発話或いはサイレントスピーチを遂行した時のデジタル脳波データxを同様に計測する。

独立成分分析および射影（deflation）実行部においては、デジタル脳波データxに独立成分分析を適用し、射影（deflation）により、各独立成分の寄与を電極位置の空間に射影した時の値として算出する。具体的には、x=W⁺u を満たす行列W⁺を算出する。但し、W⁺はu=Wxを満たすWのであり、uは独立成分である。また、電極数をn、脳波のサンプリング点の数をp、独立成分の数をkとすれば、xはn×p次の行列であり、uはk×p次の行列である。更に、x_j=W⁺u_jにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する。この操作が射影deflationである。但し、u_jは行列uのj番目の列（即ち、j番目の独立成分）のみで、それ以外はすべて０から成る行列とする。これによって得られた射影後の多チャネル脳波データは、以下のカルマンフィルターモデル設定部で利用されるが、この射影後の多チャネル脳波データに対して、以下のダイポール解析を行うことにより、不要な脳波データを排除することができる。

ダイポール解析実行部においては、射影された多チャネル脳波データにダイポール解析を適用する。解析結果は、各サンプリング点における脳内活動の場所（位置）である。

特定脳部位結果抽出部においては、上記で推定されたダイポールの位置が特定の脳部位であれば、対応する独立成分の射影deflation後の、解析に利用する脳波データと定めることができる。

音声信号計測部においては、学習フェーズにおいて、上述した脳波計測と同時に、被験者が発した音声を計測する。

スペクトログラム計算部においては、計測した音声信号のスペクトログラムを算出する。

カルマンフィルターモデル設定部においては、最初に、学習フェーズにおいてデータ解析のために用いるカルマンフィルターモデルを選択する。具体的には、最も簡単な線形離散時間システムとしてのカルマンフィルターモデル、適応カルマンフィルターモデル、非線形離散時間システムの線形近似である拡張カルマンフィルターモデル、非線形離散時間システムの2次近似であるアンセンテッドカルマンフィルターモデル、オンライン分類を可能にするSMC（sequential Monte Carlo）法などの中から１つのカルマンフィルターモデルを選択する。この選択は、得られるスペクトログラムの複雑さに応じて行う。次に、この選択されたカルマンフィルターモデルに、独立成分分析および射影実行部で得られ、望ましくは特定脳部位結果抽出部で確認された脳波データとスペクトログラム計算部で得られたスペクトログラムを入力し、カルマンフィルターモデルを確定させるパラメータを推定する。確定したカルマンフィルターモデルの種別とパラメータを、射影後の多チャネル脳波データ毎にメモリに保存する。これによって、学習フェーズを終了する。

予測フェーズにおいて、独立成分分析および射影実行部で得られ、望ましくは特定脳部位結果抽出部で確認された脳波データに基づいて、上記保存されているカルマンフィルターモデルを呼び出し、カルマンフィルターモデルの出力値としてスペクトログラムの値を算出する。

スピーチ内容推定部においては、この算出されたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属するかを調べ、属した音声をサイレントスピーチされた内容と決める。このようにして、本発明によれば、発話あるいはサイレントスピーチされた内容を識別することができる。次に、図３及び図４を参照して、学習フェーズ及び予測フェーズの動作について、さらに詳細に説明する。
＜学習フェーズ（Learning phase）＞
図３は、学習フェーズにおける動作を説明する動作フロー図である。以下では、図５に示す３種類の線画刺激「グー」、「チョキ」、「パー」を例として説明する。図５は、視覚刺激提示と、音声信号計測と、脳波計測の時間関係を示す図である。これら「グー」、「チョキ」、「パー」をランダムにモニタ上に提示し、線画と一致して「グー」、「チョキ」、「パー」のいずれかを発話するように被験者に教示する。各試行の遂行時に、複数チャネル、例えば、被験者の頭部に装着された19チャネルの電極を使って、被験者の頭皮上からraw EEG(electroencephlogram)（生の脳波図）を計測する。こうして得られる単一試行EEGデータを利用して、学習フェーズにおいては、発話されたのが「グー」、「チョキ」、「パー」のいずれであるのかを学習する。以下、図３に沿って説明する。
（Ｓ１）脳波計測
被験者頭部に装着した各電極から計測される複数チャンネルのアナログ信号を増幅し、A/D変換して、デジタル信号データxを得る。ここでは、電極数が19、各試行において、発話タスクを促す注視点の消失時刻を0 msとして、-400 msまでの脳波データ（図５参照）を、更なる解析のために切り出す。何故なら、この区間が運動準備電位の後期成分NS’に相当するからである。運動準備電位とは、運動開始前に観測される脳活動で、運動開始前約2秒からマイナスの電位変化として捉えられる。その後、運動開始前約0.4秒から変化が急になる。この後者の電位変化が後期成分NS’（negative slope）と呼ばれている。サンプリング周波数を1kHzとすると、400 msのサンプリング点の数ｐは、400となる。この時、デジタル信号データxは、各試行に対して、19×400次の行列となる。
（Ｓ２）独立成分分析および射影（deflation）実行
次に、上記（Ｓ１）脳波計測により得られたデジタル脳波データxに独立成分分析ICA（independent component analysis ）を適用する。独立成分分析ICAとは、統計的に独立な成分を抽出する方法であり、例えば、高次オーダ統計量に基づいて相互独立性を探索することにより実行可能である。具体的には、u=Wx、として、uが独立成分となるように行列Wを求めることに帰着される。電極数をｎ、サンプリング点の数をｐ、独立成分の数をｋとすれば、ｘはｎ×ｐ次の行列であり、ｕはｋ×ｐ次の行列である。Wはk×n次の行列となる。

行列Wを求めるアルゴリズムは、JADE (robust joint approximate diagonalization of eigen matrices)（非特許文献３）、Fast ICA（非特許文献４）、SANG (self adaptive natural gradient algorithm with nonholonomic constraints)（非特許文献５）、NG-FICA (natural gradient-flexible ICA)（非特許文献６）など様々なものが知られており、MATLAB Toolbox上で実行可能な、academic-freeソフトウエア（例えば、ICALAB for Signal Processing, http://www.bsp.brain.riken.jp/ICALAB/ICALABSignalProc/）を利用することが出来る。

上記の独立成分分析の結果から、元々の行列xは、x=W⁺u、と再構成出来る。但し、W⁺は、一般にk≠n（kは最大でp）なので、Wの一般化逆行列（n×k次）であり、uはk×p次の行列である。また、本実施例では、n=19、p=400、kは最大で19である。更に、x_j= W⁺u_jにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する。この操作が射影deflationである。但し、u_jは行列uのj番目の列（即ち、j番目の独立成分）のみで、それ以外はすべて０から成る行列とする。これによって得られた射影後に再構成された多チャネル脳波データは、以下のカルマンフィルターモデル設定で利用されるが、この射影後の多チャネル脳波データに対して、以下のダイポール解析を行うことにより、不要な脳波データを排除することができる。

図６は、上記のソフトウエアICALABによる（ａ）独立成分分析ICA、及び（ｂ）射影（deflation）の結果を例示している。右側（ｂ）の射影の結果が、次の（Ｓ３）ダイポール解析実行で解析に利用される。
（Ｓ３）ダイポール解析実行
射影された多チャネル脳波データにダイポール解析を適用する。各独立成分について、射影（deflation）後の脳波データx_jに対して、脳内等価電流双極子推定法（ここでは、以後、ダイポール解析、と呼ぶ）を適用する。このダイポール解析は、被験者の多チャネル脳波データと共に、MRI画像があれば、例えば、既存のダイポール解析ソフトウエア（例えば、「SynaCenter」、NEC）によって実行可能である。MRI画像によって、運動前野などの明確な脳内位置を知ることが可能になる。ダイポール解析の結果は、被験者のMRI画像から被験者の脳を３次元的に復元したものに、得られたダイポールを重ね合わせて表示することにより、このダイポールが脳内のどこに定位されるかが分かる。図７には、ダイポール解析ソフトウエア「SynaCenter」によりダイポール（図７中に表示した矢印参照）が運動前野に定位された例が示されている。
（Ｓ４）特定脳部位結果抽出
上記（Ｓ３）ダイポール解析実行で推定されたダイポールの位置が特定の脳部位であれば、対応する独立成分の射影（deflation）後の、解析に利用する脳波データz_k（kは時刻を表す）と定めることができる。例えば、特定の脳部位として、運動前野に定めることが出来る。何故なら、発話運動制御に関する神経計算論的モデルDIVA（Directions Into Velocities of Articulators）において基盤をなす仮説の１つとして、『発話時（直前）に、運動前野はホルマント周波数をencodeする』が知られているからである（非特許文献７）。他の特定脳部位として、Broca野、一次運動野も候補として考えて良い。
（Ｓ５）音声信号計測
「グー」、「チョキ」、「パー」のいずれかを発話した時の脳波を計測する場合、音声信号計測部では、同時に、例えば、マイクロホン（例えば、MS-STM87SV、エレコム株式会社）を使って音声信号を計測する。
（S６）スペクトログラム計算
上記（Ｓ５）音声信号計測で得られた音声信号のスペクトログラムx_k（kは時刻を表す）を算出する。算出には既存の音声処理ソフトウエア（例えば、Wavesurfer、KTH（スウェーデン））を使うことが出来る。例えば、スペクトログラムの中の第一ホルマント周波数と第二ホルマント周波数を利用するならば、x_kは２次元ベクトルの時系列データとなる。
（Ｓ７）カルマンフィルターモデル選択
上記（Ｓ２）独立成分分析および射影実行で得られ、かつ、望ましくは（Ｓ４）特定脳部位結果抽出で確認された脳波データz_kと、上記（Ｓ６）スペクトログラム計算で得られたスペクトログラムx_kを利用したデータ解析のために用いるカルマンフィルター（Kalman filter）モデルを選択する。具体的には、最も簡単な線形離散時間システムとしてのカルマンフィルターモデル、適応カルマンフィルターモデル、非線形離散時間システムの線形近似である拡張カルマンフィルターモデル、非線形離散時間システムの２次近似であるアンセンテッドカルマンフィルターモデル、オンライン分類を可能にするSMC（sequential Monte Carlo）法などの中から１つのカルマンフィルターモデルを決める。

以下では簡単のために、線形離散時間システムとしてのカルマンフィルターモデルについて説明する。
X_k+1=AX_k+W_k
Z_k=H_kX_k+q_k
但し、
X_k：第一ホルマント周波数と第二ホルマント周波数から成る２次元ベクトル、
Z_k：時刻kにおける神経活動から成るベクトル（射影された多チャネル脳波データ）
A: 過去と未来のホルマント周波数の関係、
H_k: ホルマント周波数の集合が与えられた時の神経活動の期待値、
W_k, q_k：平均０の正規分布に従うノイズ
とする。
（Ｓ８）カルマンフィルターモデルおよびパラメータ学習
上記（Ｓ７）カルマンフィルターモデル選択で選択されたカルマンフィルターモデルに、（Ｓ４）特定脳部位結果抽出で得られた脳波データと（Ｓ６）スペクトログラム計算で得られたスペクトログラムを入力し、カルマンフィルターモデルのパラメータを推定する。具体的な推定方法として、例えば、以下の式を利用することが出来る。

確定したカルマンフィルターモデルの種別とパラメータを、射影後の多チャネル脳波データ毎にメモリに保存する。メモリには、例えば、以下の項目を保存する。
（１）カルマンフィルターモデル種別
（２）パラメータ１（例えば、X_k：スペクトログラム計算で得られたスペクトログラム）
（３）パラメータ２（例えば、Z_k：射影された多チャネル脳波データ）
例えば、19個の電極、計測時間が400ms、サンプリング周波数が１kHzならば、各独立成分について、19×400次元の行列データとなる。（k=0,1,2,・・・が0ms,1ms,2ms,・・・に対応する）
（４）パラメータ３（例えば、A）
（５）パラメータ４（例えば、H_k）
（６）パラメータ５（例えば、W_k）
（７）パラメータ６（例えば、q_k）
＜予測フェーズ（decoding phase）＞
図４は、予測フェーズにおける動作を説明する動作フロー図である。予測フェーズにおいて、発話あるいはサイレントスピーチされた内容を識別することができる。
（Ｓ１１）脳波計測
タスクとして発話或いはサイレントスピーチを遂行した時の脳波を、学習フェーズの場合と同様に計測する。
（Ｓ１２）独立成分分析および射影deflation実行
計測された脳波データに、学習フェーズの場合と同様に、独立成分分析を適用し、射影deflationにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する。
（Ｓ１３）ダイポール解析実行
上記射影された多チャネル脳波データに、学習フェーズの場合と同様に、ダイポール解析を適用する。解析結果は、各サンプリング点における脳内活動の場所（位置）である。
（Ｓ１４）特定脳部位結果抽出
上記推定されたダイポールの位置が特定の脳部位であれば、対応する独立成分の射影deflation後の、解析に利用する脳波データと定めることができる。特定の脳部位は、学習フェーズの場合と同様である。
（Ｓ１５）カルマンフィルターモデル選択
（Ｓ１２）独立成分分析および射影実行で得られ、かつ、望ましくは（Ｓ１４）特定脳部位結果抽出で確認された脳波データに基づいて、上記学習フェーズの（Ｓ８）カルマンフィルターモデルおよびパラメータ学習によって確定したカルマンフィルターモデルをデータ解析用に利用する。
（Ｓ１６）スペクトログラム推定
上記選択されたカルマンフィルターモデルの出力値としてのスペクトログラムの値を推定する。具体的には、例えば、以下の式に従って推定することが出来る。

学習フェーズの発話時に計測された、各時刻kにおけるパラメータ１（スペクトログラム）とパラメータ２（各独立成分の射影された多チャネル脳波データ）の値を、［数１］に代入し、A（パラメータ３）,w（パラメータ５）,H（パラメータ４）,q（パラメータ６）を求める。

次に、予測フェーズのサイレントスピーチ時に計測されたパラメータ２（各独立成分の射影された多チャネル脳波データ）に基づいてメモリを参照し、これによって求められたパラメータA,w,H,qを［数２］に代入して、各時刻kにおけるスペクトログラムx_k（［数２］の２行目の1番目の等式）を算出する。具体的には、まず初めに［数２］の1行目の２つの等式を利用する。次に、［数２］の２行目の３番目の等式、次に［数２］の２行目の２番目の等式、最後に［数２］の２行目の1番目の等式を使用する。
（Ｓ１７）スピーチ内容推定
上記（Ｓ１６）スペクトログラム推定で得られたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属すかを調べ、属した音声を、サイレントスピーチの内容と決める。このF1（第一ホルマント周波数）-F2（第二ホルマント周波数）平面上で明確に領域が分離されている/a/、/u/、/o/の３つを識別し、かつ、F1-F2-F3（Ｆ３：第三ホルマント周波数）空間に拡張することにより、/i/、/e/を識別することができる。次に、子音を含む「か」と「さ」の識別などを通じてひらがなすべてを識別出来る。図８と図９には、それぞれ、「グー」と「パー」のサイレントスピーチ遂行時に計測された単一試行脳波から、カルマンフィルターモデルによって予測されたスペクトログラムの値がプロットされている。図中の横軸Ｆ１は、第一ホルマント周波数（Ｈｚ）を、また、縦軸Ｆ２は、第二ホルマント周波数（Ｈｚ）を示している。これらの図から明らかなように、それらプロットは、それぞれ、楕円で表された/u/と/a/の周波数分布領域に含まれており、サイレントスピーチされた「グー」と「パー」は母音に関して正しく認識されたことが分かる。

Claims

発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する装置において、
被験者頭部に装着される複数個の脳波計測用電極と、
前記脳波計測用電極により発話或いはサイレントスピーチを遂行した時の脳波データを計測する脳波計測部と、
前記脳波データに独立成分分析を適用し、各独立成分の寄与を電極位置の空間に射影した時の値として算出する独立成分分析および射影実行部と、
被験者が発した音声を計測する音声信号計測部と、
計測した音声信号のスペクトログラムを算出するスペクトログラム計算部と、
前記独立成分分析および射影実行部で得られた脳波データと、スペクトログラム計算部で得られたスペクトログラムを利用したデータ解析のために用いるカルマンフィルターモデルを設定するカルマンフィルターモデル設定部と、
スペクトログラムの値が属する音声領域からスピーチされた内容を推定するスピーチ内容推定部と、を備え、
学習時に前記独立成分分析および射影実行部で得られた脳波データとスペクトログラム計算部で得られたスペクトログラムの関係をカルマンフィルターモデルによって学習し、かつ、スピーチ遂行時に前記独立成分分析および射影実行部で得られた脳波データを学習済みの前記カルマンフィルターモデルに入力し、出力されたスペクトログラムからスピーチの内容を推定することから成るスピーチ内容識別装置。
前記独立成分分析により、u=Wx、として、uが独立成分となるように行列Wを求め、ここで、xは、脳波計測により得られたデジタル脳波データであり、電極数をｎ、サンプリング点の数をｐ、独立成分の数をｋとして、ｘはｎ×ｐ次の行列であり、ｕはｋ×ｐ次の行列であり、Wはk×n次の行列となる請求項１に記載のスピーチ内容識別装置。
前記独立成分分析の結果から、元々の行列xを、x=W⁺u、と再構成し、更に、前記射影は、x_j= W⁺u_jにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する操作であり、但し、W⁺は、Wの逆行列であり、u_jは行列uのj番目の列のみで、それ以外はすべて０から成る行列とする請求項２に記載のスピーチ内容識別装置。
前記カルマンフィルターモデルの学習は、該カルマンフィルターモデルに、前記独立成分分析および射影実行部で得られた脳波データとスペクトログラム計算部で得られたスペクトログラムを入力し、カルマンフィルターモデルを確定させるパラメータを推定し、この推定したパラメータをメモリに保存することによって行う請求項１に記載のスピーチ内容識別装置。
前記射影された脳波データにダイポール解析を適用するダイポール解析実行部と、前記ダイポール解析により推定されたダイポールの位置を、解析に利用する脳波データと定める特定脳部位結果抽出部とを備え、前記ダイポール解析の結果として得られたダイポールを、被験者のMRI画像から被験者の脳を３次元的に復元したものに、重ね合わせて表示する請求項１に記載のスピーチ内容識別装置。
前記スピーチ内容推定は、スペクトログラム推定で得られたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属すかを調べ、属した音声を、発話或いはサイレントスピーチを含むスピーチ内容と推定するものである請求項１に記載のスピーチ内容識別装置。
発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する方法において、
学習時に多チャネル電極で計測された脳波信号に独立成分分析を適用して独立成分に分解し、
各独立成分について、各独立成分の寄与を電極位置の空間に射影した時の値として算出して脳波信号を再構成し、
脳波信号と共に同時計測された音声信号のスペクトログラムを算出し、
抽出された独立成分と算出されたスペクトログラムの関係をカルマンフィルターモデルによって学習し、
スピーチ遂行時に多チャネル電極で計測された脳波信号に独立成分分析を適用して、独立成分に分解し、
各独立成分について、各独立成分の寄与を電極位置の空間に射影した時の値として算出して脳波信号を再構成し、
この射影後の脳波信号を学習済みの前記カルマンフィルターモデルに入力し、出力されたスペクトログラムからスピーチの内容を予測することから成るスピーチ内容識別方法。
前記独立成分分析により、u=Wx、として、uが独立成分となるように行列Wを求め、ここで、xは、脳波計測により得られたデジタル脳波データであり、電極数をｎ、サンプリング点の数をｐ、独立成分の数をｋとして、ｘはｎ×ｐ次の行列であり、ｕはｋ×ｐ次の行列であり、Wはk×n次の行列となる請求項７に記載のスピーチ内容識別方法。
前記独立成分分析の結果から、元々の行列xを、x=W⁺u、と再構成し、更に、前記射影は、x_j= W⁺u_jにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する操作であり、但し、W⁺は、Wの逆行列であり、u_jは行列uのj番目の列のみで、それ以外はすべて０から成る行列とする請求項８に記載のスピーチ内容識別方法。
前記カルマンフィルターモデルの学習は、該カルマンフィルターモデルに、前記射影後の脳波信号とスペクトログラム計算部で得られたスペクトログラムを入力し、カルマンフィルターモデルを確定させるパラメータを推定し、この推定したパラメータをメモリに保存することによって行う請求項７に記載のスピーチ内容識別方法。
前記学習時及び前記スピーチ遂行時に、前記射影後に再構成された脳波信号に脳内等価電流双極子推定を適用して、ダイポールが特定の脳部位に定位された独立成分を抽出し、この得られたダイポールを、被験者のMRI画像から被験者の脳を３次元的に復元したものに、重ね合わせて表示する請求項７に記載のスピーチ内容識別方法。
前記スピーチ内容推定は、スペクトログラム推定で得られたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属すかを調べ、属した音声を、発話或いはサイレントスピーチを含むスピーチ内容と推定するものである請求項７に記載のスピーチ内容識別方法。