JP2012146116A - スピーチ内容を識別する装置及び方法 - Google Patents

スピーチ内容を識別する装置及び方法 Download PDF

Info

Publication number
JP2012146116A
JP2012146116A JP2011003782A JP2011003782A JP2012146116A JP 2012146116 A JP2012146116 A JP 2012146116A JP 2011003782 A JP2011003782 A JP 2011003782A JP 2011003782 A JP2011003782 A JP 2011003782A JP 2012146116 A JP2012146116 A JP 2012146116A
Authority
JP
Japan
Prior art keywords
speech
independent component
spectrogram
electroencephalogram
kalman filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2011003782A
Other languages
English (en)
Inventor
Toshimasa Yamazaki
敏正 山▲崎▼
Kenichi Kamijo
憲一 上條
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
NEC Corp
Original Assignee
Kyushu Institute of Technology NUC
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC, NEC Corp filed Critical Kyushu Institute of Technology NUC
Priority to JP2011003782A priority Critical patent/JP2012146116A/ja
Publication of JP2012146116A publication Critical patent/JP2012146116A/ja
Ceased legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

【課題】計測された脳波から発話或いはサイレントスピーチの内容を識別する。
【解決手段】本発明は、学習時脳波信号に独立成分分析および射影実行を適用して、脳波データを再構成する。一方、学習時の音声信号を計測し、そのスペクトログラムを算出する。再構成された脳波データとスペクトログラムの関係をカルマンフィルターでモデル化し、そのモデル・パラメータを学習する。次に、スピーチ遂行時に計測された脳波信号に独立成分分析および射影実行を適用し、脳波データを再構成して、学習済みのカルマンフィルターモデルに入力する。モデルの出力値であるスペクトログラムからスピーチの内容を推定する。
【選択図】 図2

Description

本発明は、発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する装置及び方法に関する。
脳波を利用したサイレントスピーチBCIが知られている。ブレイン・コンピュータ・インタフェースBCI(Brain-Computer Interface)とは、脳活動を反映し、ヒトの頭皮から直接検出可能な電気信号を、ユーザの意図を外界へ伝える出力に変換する方法である(非特許文献1)。従来のBCIは動作イメージを利用したものがほとんどである(特許文献1)。しかしながら、動作イメージBCIは被験者に課すタスクとしては非常に難しく、膨大な訓練時間を要することが最大の欠点である。
こうした問題を解決するために、被験者にとってより自然で直感的なタスクとしてサイレントスピーチを利用したBCI、サイレントスピーチBCI(以後、SSBCIと略す)に、最近、注目が集まっている。単一試行脳波図(Single-trial EEGs)を利用したSSBCIの研究は世界中を見渡しても研究途上である。強いて挙げれば、Wester(2006)(非特許文献2)は、silent speechやunspoken speechなどの遂行時に計測された脳波からspeech内容を推定しているが、脳波の特徴抽出や学習モデルは従来手法に基づいており、推定精度は30〜50%程度である。更に、運動野、Broca野、Wernicke野の脳活動に注目すべきことを示唆しているが電極位置からの推察に過ぎない。また、脳波と共に音声信号を同時記録しているが、この音声信号が活用されていない。
特開2008−225877
ウルポー・J・R、マックファランド・D・J、「コントロール・オブ・ア・ツー・ディメンジョナル・ムーブメント・シグナル・バイ・ア・ノンインベイシブ・ブレイン−コンピュータ・インタフェース・イン・ヒューマンズ(Control of a two-dimensional movement signal by a noninvasive brain-computer interface in humans)」,プロシィーディングス・オブ・ザ・ナショナル・アカデミー・オブ・サイエンシィーズ・オブ・ザ・ユナイテッド・ステイツ・オブ・アメリカ,2004年,Vol.101、p.17849−17854 ベスター・M、「アンスポークン・スピーチ スピーチ・リコグニション・ベイスト・オン・エレクトロエンセファログラフィー(Unspoken speech: Speech recognition based on electroencephalography)」、修士論文、カールスルーエ大学、ドイツ(Universitat Karlsruhe(TH), Karlsrule, Germany)、2006年 カルドソ・J.-F、ソーローミアック・A、「ブラインド・ビーム−フォーミング・フォー・ガウシャン・シグナルズ(Blind beam-forming for Gaussian signals)」、アイ・イー・イー・プロシィーディングス−エフ、1993年、Vol.140,p.362−370 ヒベライネン・A、オジャ・E、「ア・ファスト・フィックスド−ポイント・アルゴリズム・フォー・インディペンデント・コンポーネント・アナリシス(A fast fixed-point algorithm for independent component analysis)」、ニューラル・コンピュテーション、1997年、Vol.9、No.7、p.1483−1492 アマリ・S、チェン・T、チチョッキ・A、「ノンホロノミック・オーソゴナル・ラーニング・アルゴリズム・フォー・ブラインド・ソース・セパレーション(Nonholonomic orthogonal learning algorithm for blind source separation)」、ニューラル・コンピュテーション、2000年、Vol.12、p.1463−1484 チョイ・S、チチョッキ・A、アマリ・S、「フレキシブル・インディペンデント・コンポーネント・アナリシス(Flexible independent component analysis)」、ジャーナル・オブ・ブイエルエスアイ・シグナル・プロセシィング、2000年、Vol.26、No.1/2、p.25−38 ゲンザー・F・H、ゴーシュ・S・S、ツアビル・J・A、「ニューラル・モデリング・アンド・イメージング・オブ・ザ・コーティカル・インタラクションズ・アンダーライング・シラブル・プロダクション(Neural modeling and imaging of the cortical interactions underlying syllable production)」、ブライン・アンド・ランゲージ、2006年、Vol.96、p.280−301
本発明は、上記した従来技術の欠点を除くためになされたものであって、脳波を利用したブレイン・コンピュータ・インタフェースBCIにおいて、発話或いはサイレントスピーチをタスクとする課題遂行中に単一試行で計測された脳波から、スピーチの内容を推定および識別することを目的としている。これにより、ブレイン・コンピュータ・インタフェースBCIの適用範囲が大いに広がる事が期待される。
本発明の発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する装置は、被験者頭部に装着される複数個の脳波計測用電極と、脳波計測用電極により発話或いはサイレントスピーチを遂行した時の脳波データを計測する脳波計測部と、脳波データに独立成分分析を適用し、各独立成分の寄与を電極位置の空間に射影した時の値として算出する独立成分分析および射影実行部と、被験者が発した音声を計測する音声信号計測部と、計測した音声信号のスペクトログラムを算出するスペクトログラム計算部と、独立成分分析および射影実行部で得られた脳波データと、スペクトログラム計算部で得られたスペクトログラムを利用したデータ解析のために用いるカルマンフィルターモデルを設定するカルマンフィルターモデル設定部と、スペクトログラムの値が属する音声領域からスピーチされた内容を推定するスピーチ内容推定部と、を備える。学習時に独立成分分析および射影実行部で得られた脳波データとスペクトログラム計算部で得られたスペクトログラムの関係をカルマンフィルターモデルによって学習し、かつ、スピーチ遂行時に独立成分分析および射影実行部で得られた脳波データを学習済みの前記カルマンフィルターモデルに入力し、出力されたスペクトログラムからスピーチの内容を推定する。
また、本発明のスピーチ内容を識別する方法は、学習時に多チャネル電極で計測された脳波信号に独立成分分析を適用して独立成分に分解し、各独立成分について、各独立成分の寄与を電極位置の空間に射影した時の値として算出して脳波信号を再構成し、脳波信号と共に同時計測された音声信号のスペクトログラムを算出し、抽出された独立成分と算出されたスペクトログラムの関係をカルマンフィルターモデルによって学習する。スピーチ遂行時に多チャネル電極で計測された脳波信号に独立成分分析を適用して、独立成分に分解し、各独立成分について、各独立成分の寄与を電極位置の空間に射影した時の値として算出して脳波信号を再構成し、この射影後の脳波信号を学習済みの前記カルマンフィルターモデルに入力し、出力されたスペクトログラムからスピーチの内容を予測する。
独立成分分析により、u=Wx、として、uが独立成分となるように行列Wを求め、ここで、xは、脳波計測により得られたデジタル脳波データであり、電極数をn、サンプリング点の数をp、独立成分の数をkとして、xはn×p次の行列であり、uはk×p次の行列であり、Wはk×n次の行列となる。
独立成分分析の結果から、元々の行列xを、x=W+u、と再構成し、更に、前記射影は、xj= W+ujにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する操作であり、但し、W+は、Wの逆行列であり、ujは行列uのj番目の列のみで、それ以外はすべて0から成る行列とする。
カルマンフィルターモデルの学習は、該カルマンフィルターモデルに、独立成分分析および射影実行部で得られた脳波データとスペクトログラム計算部で得られたスペクトログラムを入力し、カルマンフィルターモデルを確定させるパラメータを推定し、この推定したパラメータをメモリに保存することによって行う。
射影された脳波データにダイポール解析を適用するダイポール解析実行部と、前記ダイポール解析により推定されたダイポールの位置を、解析に利用する脳波データと定める特定脳部位結果抽出部とをさらに備え、ダイポール解析の結果として得られたダイポールを、被験者のMRI画像から被験者の脳を3次元的に復元したものに、重ね合わせて表示することができる。
スピーチ内容推定は、スペクトログラム推定で得られたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属すかを調べ、属した音声を、発話或いはサイレントスピーチを含むスピーチ内容と推定することができる。
本発明により、ノイズ混入が十分考えられる、単一試行の下で計測された脳波信号から、発話或いはサイレントスピーチした内容を精度良くかつ効率的に推定および識別することが出来る。本発明は、脳波を利用したブレイン・コンピュータ・インタフェースにおいて、単一試行の下で計測された脳波でも、試行の違いを、計測された脳波から識別できる。
発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する本発明の装置(ブレイン・コンピュータ・インタフェースBCI)は、従来の動作イメージを利用したブレイン・コンピュータ・インタフェースBCIよりも、ユーザに対する負荷が大幅に軽減され、訓練時間もほとんど必要としない。
脳波信号の測定環境を例示する図である。 発話或いはサイレントスピーチを含むスピーチ時の脳波からスピーチ内容を識別する本発明の装置を例示する概略図である。 学習フェーズにおける動作を説明する動作フロー図である。 予測フェーズにおける動作を説明する動作フロー図である。 視覚刺激提示と、音声信号計測と、脳波計測の時間関係を示す図である。 ソフトウエアICALABによる(a)独立成分分析ICA、及び(b)射影(deflation)の結果を例示する図である。 ダイポール解析ソフトウエアによりダイポールが運動前野に定位された例を示す図である。 サイレントスピーチ「グー」に対して、予測されたスペクトログラムを示す図である。 サイレントスピーチ「パー」に対して、予測されたスペクトログラムを示す図である。
以下、例示に基づき本発明を説明する。図1は、脳波信号の測定環境を例示する図である。図1に示すように、被験者を配置し、脳波(EEG)のほかに眼球運動図(眼電図:EOG)及び筋電図(EMG)も取得する。眼電図(EOG)と筋電図(EMG)の計測により、眼球運動と(サイレントスピーチ時に間違って発話した時の)顔の筋肉の動きをモニタリングすることができる。脳波(EEG)は、被験者の脳波を複数チャネル(例えば、19ch)で計測する複数個の脳波計測用電極(生体電極)をヒト(被験者)頭皮表面に接着し、あるいは脳波計測電極が貼り付けられたキャップをヒト頭部に装着することによって取得される。生体電極は、例えばACT生体電極(AP-C100-0155、株式会社デジテックス研究所)を利用することが出来る。各電極から計測されるアナログ信号を生体信号用アンプ(例えば、POLYMATE AP1132、株式会社デジテックス研究所)で増幅し、A/D変換して、デジタル信号データxを得る。デジタル信号データxは、データ解析用PCに送られる。マイクロホンは、この脳波図の取得と同時に、音声信号を計測する。眼球運動図(EOG)および筋電図(EMG)はまた、生体信号用アンプによって増幅されてデータ解析用PCに送られる。
図2は、発話或いはサイレントスピーチを含むスピーチ時の脳波からスピーチ内容を識別する本発明の装置を例示する概略図である。本発明においては、学習フェーズにおいて学習し、得られた単一試行EEGデータを利用して、予測フェーズにおいて、スピーチされた内容を識別する。学習フェーズにおいては、複数種類の線画刺激、例えば、「グー」、「チョキ」、「パー」をランダムにモニタ上に提示し、線画と一致して「グー」、「チョキ」、「パー」のいずれかを発話するように被験者に教示する。刺激については、線画や写真などの視覚刺激に限らず、ヘッドホンなどによる聴覚刺激でも可能である。また、本発明の「発話或いはサイレントスピーチを含むスピーチ」として、単語「グー」、「チョキ」、「パー」を例として説明するが、刺激を与えることができるものであれば、例えば、「居間のソファで横になりたい」のような単語の組合せや文章に対しても適用可能である。
各試行の遂行時に、raw EEG(生の脳波図)を計測することにより得られる単一試行EEGデータを利用して、発話されたのが「グー」、「チョキ」、「パー」のどれかを学習する。即ち、ここでは、3種類の試行を、提示された刺激に応じて何回か繰り返すことになる。個々の刺激に対する試行が単一試行となる。予測フェーズにおいては、タスクとして発話或いはサイレントスピーチを遂行した時の脳波を同様に計測して、学習フェーズで得られた単一試行EEGデータを利用して、スピーチされた内容を識別する。例えば、「グー」単一の試行のみで、「グー」を識別することができる。但し、「グー」を識別できるためには、学習フェーズで「グー」が学習されていなければならない。このように、学習フェーズでは発話が、また、予測フェーズでは発話或いはサイレントスピーチがそれぞれタスクとなる。
図2に示す脳波計測部において、ヒト(被験者)頭部に装着した複数個の脳波計測用電極を通じて計測されるアナログ信号を、生体信号用アンプで増幅し、A/D変換してデジタル信号データとして蓄積する。学習フェーズにおいては、複数種類の線画刺激をランダムにモニタ上に提示し、線画と一致して発話するように被験者に教示する。各試行の遂行時に、デジタル脳波データxを計測する。予測フェーズにおいては、タスクとして発話或いはサイレントスピーチを遂行した時のデジタル脳波データxを同様に計測する。
独立成分分析および射影(deflation)実行部においては、デジタル脳波データxに独立成分分析を適用し、射影(deflation)により、各独立成分の寄与を電極位置の空間に射影した時の値として算出する。具体的には、x=W+u を満たす行列W+を算出する。但し、W+はu=Wxを満たすWのであり、uは独立成分である。また、電極数をn、脳波のサンプリング点の数をp、独立成分の数をkとすれば、xはn×p次の行列であり、uはk×p次の行列である。更に、xj=W+ujにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する。この操作が射影deflationである。但し、ujは行列uのj番目の列(即ち、j番目の独立成分)のみで、それ以外はすべて0から成る行列とする。これによって得られた射影後の多チャネル脳波データは、以下のカルマンフィルターモデル設定部で利用されるが、この射影後の多チャネル脳波データに対して、以下のダイポール解析を行うことにより、不要な脳波データを排除することができる。
ダイポール解析実行部においては、射影された多チャネル脳波データにダイポール解析を適用する。解析結果は、各サンプリング点における脳内活動の場所(位置)である。
特定脳部位結果抽出部においては、上記で推定されたダイポールの位置が特定の脳部位であれば、対応する独立成分の射影deflation後の、解析に利用する脳波データと定めることができる。
音声信号計測部においては、学習フェーズにおいて、上述した脳波計測と同時に、被験者が発した音声を計測する。
スペクトログラム計算部においては、計測した音声信号のスペクトログラムを算出する。
カルマンフィルターモデル設定部においては、最初に、学習フェーズにおいてデータ解析のために用いるカルマンフィルターモデルを選択する。具体的には、最も簡単な線形離散時間システムとしてのカルマンフィルターモデル、適応カルマンフィルターモデル、非線形離散時間システムの線形近似である拡張カルマンフィルターモデル、非線形離散時間システムの2次近似であるアンセンテッドカルマンフィルターモデル、オンライン分類を可能にするSMC(sequential Monte Carlo)法などの中から1つのカルマンフィルターモデルを選択する。この選択は、得られるスペクトログラムの複雑さに応じて行う。次に、この選択されたカルマンフィルターモデルに、独立成分分析および射影実行部で得られ、望ましくは特定脳部位結果抽出部で確認された脳波データとスペクトログラム計算部で得られたスペクトログラムを入力し、カルマンフィルターモデルを確定させるパラメータを推定する。確定したカルマンフィルターモデルの種別とパラメータを、射影後の多チャネル脳波データ毎にメモリに保存する。これによって、学習フェーズを終了する。
予測フェーズにおいて、独立成分分析および射影実行部で得られ、望ましくは特定脳部位結果抽出部で確認された脳波データに基づいて、上記保存されているカルマンフィルターモデルを呼び出し、カルマンフィルターモデルの出力値としてスペクトログラムの値を算出する。
スピーチ内容推定部においては、この算出されたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属するかを調べ、属した音声をサイレントスピーチされた内容と決める。このようにして、本発明によれば、発話あるいはサイレントスピーチされた内容を識別することができる。次に、図3及び図4を参照して、学習フェーズ及び予測フェーズの動作について、さらに詳細に説明する。
<学習フェーズ(Learning phase)>
図3は、学習フェーズにおける動作を説明する動作フロー図である。以下では、図5に示す3種類の線画刺激「グー」、「チョキ」、「パー」を例として説明する。図5は、視覚刺激提示と、音声信号計測と、脳波計測の時間関係を示す図である。これら「グー」、「チョキ」、「パー」をランダムにモニタ上に提示し、線画と一致して「グー」、「チョキ」、「パー」のいずれかを発話するように被験者に教示する。各試行の遂行時に、複数チャネル、例えば、被験者の頭部に装着された19チャネルの電極を使って、被験者の頭皮上からraw EEG(electroencephlogram)(生の脳波図)を計測する。こうして得られる単一試行EEGデータを利用して、学習フェーズにおいては、発話されたのが「グー」、「チョキ」、「パー」のいずれであるのかを学習する。以下、図3に沿って説明する。
(S1)脳波計測
被験者頭部に装着した各電極から計測される複数チャンネルのアナログ信号を増幅し、A/D変換して、デジタル信号データxを得る。ここでは、電極数が19、各試行において、発話タスクを促す注視点の消失時刻を0 msとして、-400 msまでの脳波データ(図5参照)を、更なる解析のために切り出す。何故なら、この区間が運動準備電位の後期成分NS’に相当するからである。運動準備電位とは、運動開始前に観測される脳活動で、運動開始前約2秒からマイナスの電位変化として捉えられる。その後、運動開始前約0.4秒から変化が急になる。この後者の電位変化が後期成分NS’(negative slope)と呼ばれている。サンプリング周波数を1kHzとすると、400 msのサンプリング点の数pは、400となる。この時、デジタル信号データxは、各試行に対して、19×400次の行列となる。
(S2)独立成分分析および射影(deflation)実行
次に、上記(S1)脳波計測により得られたデジタル脳波データxに独立成分分析ICA(independent component analysis )を適用する。独立成分分析ICAとは、統計的に独立な成分を抽出する方法であり、例えば、高次オーダ統計量に基づいて相互独立性を探索することにより実行可能である。具体的には、u=Wx、として、uが独立成分となるように行列Wを求めることに帰着される。電極数をn、サンプリング点の数をp、独立成分の数をkとすれば、xはn×p次の行列であり、uはk×p次の行列である。Wはk×n次の行列となる。
行列Wを求めるアルゴリズムは、JADE (robust joint approximate diagonalization of eigen matrices)(非特許文献3)、Fast ICA(非特許文献4)、SANG (self adaptive natural gradient algorithm with nonholonomic constraints)(非特許文献5)、NG-FICA (natural gradient-flexible ICA)(非特許文献6)など様々なものが知られており、MATLAB Toolbox上で実行可能な、academic-freeソフトウエア(例えば、ICALAB for Signal Processing, http://www.bsp.brain.riken.jp/ICALAB/ICALABSignalProc/)を利用することが出来る。
上記の独立成分分析の結果から、元々の行列xは、x=W+u、と再構成出来る。但し、W+は、一般にk≠n(kは最大でp)なので、Wの一般化逆行列(n×k次)であり、uはk×p次の行列である。また、本実施例では、n=19、p=400、kは最大で19である。更に、xj= W+ujにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する。この操作が射影deflationである。但し、ujは行列uのj番目の列(即ち、j番目の独立成分)のみで、それ以外はすべて0から成る行列とする。これによって得られた射影後に再構成された多チャネル脳波データは、以下のカルマンフィルターモデル設定で利用されるが、この射影後の多チャネル脳波データに対して、以下のダイポール解析を行うことにより、不要な脳波データを排除することができる。
図6は、上記のソフトウエアICALABによる(a)独立成分分析ICA、及び(b)射影(deflation)の結果を例示している。右側(b)の射影の結果が、次の(S3)ダイポール解析実行で解析に利用される。
(S3)ダイポール解析実行
射影された多チャネル脳波データにダイポール解析を適用する。各独立成分について、射影(deflation)後の脳波データxjに対して、脳内等価電流双極子推定法(ここでは、以後、ダイポール解析、と呼ぶ)を適用する。このダイポール解析は、被験者の多チャネル脳波データと共に、MRI画像があれば、例えば、既存のダイポール解析ソフトウエア(例えば、「SynaCenter」、NEC)によって実行可能である。MRI画像によって、運動前野などの明確な脳内位置を知ることが可能になる。ダイポール解析の結果は、被験者のMRI画像から被験者の脳を3次元的に復元したものに、得られたダイポールを重ね合わせて表示することにより、このダイポールが脳内のどこに定位されるかが分かる。図7には、ダイポール解析ソフトウエア「SynaCenter」によりダイポール(図7中に表示した矢印参照)が運動前野に定位された例が示されている。
(S4)特定脳部位結果抽出
上記(S3)ダイポール解析実行で推定されたダイポールの位置が特定の脳部位であれば、対応する独立成分の射影(deflation)後の、解析に利用する脳波データzk(kは時刻を表す)と定めることができる。例えば、特定の脳部位として、運動前野に定めることが出来る。何故なら、発話運動制御に関する神経計算論的モデルDIVA(Directions Into Velocities of Articulators)において基盤をなす仮説の1つとして、『発話時(直前)に、運動前野はホルマント周波数をencodeする』が知られているからである(非特許文献7)。他の特定脳部位として、Broca野、一次運動野も候補として考えて良い。
(S5)音声信号計測
「グー」、「チョキ」、「パー」のいずれかを発話した時の脳波を計測する場合、音声信号計測部では、同時に、例えば、マイクロホン(例えば、MS-STM87SV、エレコム株式会社)を使って音声信号を計測する。
(S6)スペクトログラム計算
上記(S5)音声信号計測で得られた音声信号のスペクトログラムxk(kは時刻を表す)を算出する。算出には既存の音声処理ソフトウエア(例えば、Wavesurfer、KTH(スウェーデン))を使うことが出来る。例えば、スペクトログラムの中の第一ホルマント周波数と第二ホルマント周波数を利用するならば、xkは2次元ベクトルの時系列データとなる。
(S7)カルマンフィルターモデル選択
上記(S2)独立成分分析および射影実行で得られ、かつ、望ましくは(S4)特定脳部位結果抽出で確認された脳波データzkと、上記(S6)スペクトログラム計算で得られたスペクトログラムxkを利用したデータ解析のために用いるカルマンフィルター(Kalman filter)モデルを選択する。具体的には、最も簡単な線形離散時間システムとしてのカルマンフィルターモデル、適応カルマンフィルターモデル、非線形離散時間システムの線形近似である拡張カルマンフィルターモデル、非線形離散時間システムの2次近似であるアンセンテッドカルマンフィルターモデル、オンライン分類を可能にするSMC(sequential Monte Carlo)法などの中から1つのカルマンフィルターモデルを決める。
以下では簡単のために、線形離散時間システムとしてのカルマンフィルターモデルについて説明する。
Xk+1=AXk+Wk
Zk=HkXk+qk
但し、
Xk: 第一ホルマント周波数と第二ホルマント周波数から成る2次元ベクトル、
Zk: 時刻kにおける神経活動から成るベクトル(射影された多チャネル脳波データ)
A: 過去と未来のホルマント周波数の関係、
Hk: ホルマント周波数の集合が与えられた時の神経活動の期待値、
Wk, qk: 平均0の正規分布に従うノイズ
とする。
(S8)カルマンフィルターモデルおよびパラメータ学習
上記(S7)カルマンフィルターモデル選択で選択されたカルマンフィルターモデルに、(S4)特定脳部位結果抽出で得られた脳波データと(S6)スペクトログラム計算で得られたスペクトログラムを入力し、カルマンフィルターモデルのパラメータを推定する。具体的な推定方法として、例えば、以下の式を利用することが出来る。
Figure 2012146116
確定したカルマンフィルターモデルの種別とパラメータを、射影後の多チャネル脳波データ毎にメモリに保存する。メモリには、例えば、以下の項目を保存する。
(1)カルマンフィルターモデル種別
(2)パラメータ1(例えば、Xk:スペクトログラム計算で得られたスペクトログラム)
(3)パラメータ2(例えば、Zk:射影された多チャネル脳波データ)
例えば、19個の電極、計測時間が400ms、サンプリング周波数が1kHzならば、各独立成分について、19×400次元の行列データとなる。(k=0,1,2,・・・が0ms,1ms,2ms,・・・に対応する)
(4)パラメータ3(例えば、A)
(5)パラメータ4(例えば、Hk
(6)パラメータ5(例えば、Wk
(7)パラメータ6(例えば、qk
<予測フェーズ(decoding phase)>
図4は、予測フェーズにおける動作を説明する動作フロー図である。予測フェーズにおいて、発話あるいはサイレントスピーチされた内容を識別することができる。
(S11)脳波計測
タスクとして発話或いはサイレントスピーチを遂行した時の脳波を、学習フェーズの場合と同様に計測する。
(S12)独立成分分析および射影deflation実行
計測された脳波データに、学習フェーズの場合と同様に、独立成分分析を適用し、射影deflationにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する。
(S13)ダイポール解析実行
上記射影された多チャネル脳波データに、学習フェーズの場合と同様に、ダイポール解析を適用する。解析結果は、各サンプリング点における脳内活動の場所(位置)である。
(S14)特定脳部位結果抽出
上記推定されたダイポールの位置が特定の脳部位であれば、対応する独立成分の射影deflation後の、解析に利用する脳波データと定めることができる。特定の脳部位は、学習フェーズの場合と同様である。
(S15)カルマンフィルターモデル選択
(S12)独立成分分析および射影実行で得られ、かつ、望ましくは(S14)特定脳部位結果抽出で確認された脳波データに基づいて、上記学習フェーズの(S8)カルマンフィルターモデルおよびパラメータ学習によって確定したカルマンフィルターモデルをデータ解析用に利用する。
(S16)スペクトログラム推定
上記選択されたカルマンフィルターモデルの出力値としてのスペクトログラムの値を推定する。具体的には、例えば、以下の式に従って推定することが出来る。
Figure 2012146116
学習フェーズの発話時に計測された、各時刻kにおけるパラメータ1(スペクトログラム)とパラメータ2(各独立成分の射影された多チャネル脳波データ)の値を、[数1]に代入し、A(パラメータ3),w(パラメータ5),H(パラメータ4),q(パラメータ6)を求める。
次に、予測フェーズのサイレントスピーチ時に計測されたパラメータ2(各独立成分の射影された多チャネル脳波データ)に基づいてメモリを参照し、これによって求められたパラメータA,w,H,qを[数2]に代入して、各時刻kにおけるスペクトログラムxk([数2]の2行目の1番目の等式)を算出する。具体的には、まず初めに[数2]の1行目の2つの等式を利用する。次に、[数2]の2行目の3番目の等式、次に[数2]の2行目の2番目の等式、最後に[数2]の2行目の1番目の等式を使用する。
(S17)スピーチ内容推定
上記(S16)スペクトログラム推定で得られたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属すかを調べ、属した音声を、サイレントスピーチの内容と決める。このF1(第一ホルマント周波数)-F2(第二ホルマント周波数)平面上で明確に領域が分離されている/a/、/u/、/o/の3つを識別し、かつ、F1-F2-F3(F3:第三ホルマント周波数)空間に拡張することにより、/i/、/e/を識別することができる。次に、子音を含む「か」と「さ」の識別などを通じてひらがなすべてを識別出来る。図8と図9には、それぞれ、「グー」と「パー」のサイレントスピーチ遂行時に計測された単一試行脳波から、カルマンフィルターモデルによって予測されたスペクトログラムの値がプロットされている。図中の横軸F1は、第一ホルマント周波数(Hz)を、また、縦軸F2は、第二ホルマント周波数(Hz)を示している。これらの図から明らかなように、それらプロットは、それぞれ、楕円で表された/u/と/a/の周波数分布領域に含まれており、サイレントスピーチされた「グー」と「パー」は母音に関して正しく認識されたことが分かる。

Claims (12)

  1. 発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する装置において、
    被験者頭部に装着される複数個の脳波計測用電極と、
    前記脳波計測用電極により発話或いはサイレントスピーチを遂行した時の脳波データを計測する脳波計測部と、
    前記脳波データに独立成分分析を適用し、各独立成分の寄与を電極位置の空間に射影した時の値として算出する独立成分分析および射影実行部と、
    被験者が発した音声を計測する音声信号計測部と、
    計測した音声信号のスペクトログラムを算出するスペクトログラム計算部と、
    前記独立成分分析および射影実行部で得られた脳波データと、スペクトログラム計算部で得られたスペクトログラムを利用したデータ解析のために用いるカルマンフィルターモデルを設定するカルマンフィルターモデル設定部と、
    スペクトログラムの値が属する音声領域からスピーチされた内容を推定するスピーチ内容推定部と、を備え、
    学習時に前記独立成分分析および射影実行部で得られた脳波データとスペクトログラム計算部で得られたスペクトログラムの関係をカルマンフィルターモデルによって学習し、かつ、スピーチ遂行時に前記独立成分分析および射影実行部で得られた脳波データを学習済みの前記カルマンフィルターモデルに入力し、出力されたスペクトログラムからスピーチの内容を推定することから成るスピーチ内容識別装置。
  2. 前記独立成分分析により、u=Wx、として、uが独立成分となるように行列Wを求め、ここで、xは、脳波計測により得られたデジタル脳波データであり、電極数をn、サンプリング点の数をp、独立成分の数をkとして、xはn×p次の行列であり、uはk×p次の行列であり、Wはk×n次の行列となる請求項1に記載のスピーチ内容識別装置。
  3. 前記独立成分分析の結果から、元々の行列xを、x=W+u、と再構成し、更に、前記射影は、xj= W+ujにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する操作であり、但し、W+は、Wの逆行列であり、ujは行列uのj番目の列のみで、それ以外はすべて0から成る行列とする請求項2に記載のスピーチ内容識別装置。
  4. 前記カルマンフィルターモデルの学習は、該カルマンフィルターモデルに、前記独立成分分析および射影実行部で得られた脳波データとスペクトログラム計算部で得られたスペクトログラムを入力し、カルマンフィルターモデルを確定させるパラメータを推定し、この推定したパラメータをメモリに保存することによって行う請求項1に記載のスピーチ内容識別装置。
  5. 前記射影された脳波データにダイポール解析を適用するダイポール解析実行部と、前記ダイポール解析により推定されたダイポールの位置を、解析に利用する脳波データと定める特定脳部位結果抽出部とを備え、前記ダイポール解析の結果として得られたダイポールを、被験者のMRI画像から被験者の脳を3次元的に復元したものに、重ね合わせて表示する請求項1に記載のスピーチ内容識別装置。
  6. 前記スピーチ内容推定は、スペクトログラム推定で得られたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属すかを調べ、属した音声を、発話或いはサイレントスピーチを含むスピーチ内容と推定するものである請求項1に記載のスピーチ内容識別装置。
  7. 発話或いはサイレントスピーチを含むスピーチ時の脳波信号からスピーチ内容を識別する方法において、
    学習時に多チャネル電極で計測された脳波信号に独立成分分析を適用して独立成分に分解し、
    各独立成分について、各独立成分の寄与を電極位置の空間に射影した時の値として算出して脳波信号を再構成し、
    脳波信号と共に同時計測された音声信号のスペクトログラムを算出し、
    抽出された独立成分と算出されたスペクトログラムの関係をカルマンフィルターモデルによって学習し、
    スピーチ遂行時に多チャネル電極で計測された脳波信号に独立成分分析を適用して、独立成分に分解し、
    各独立成分について、各独立成分の寄与を電極位置の空間に射影した時の値として算出して脳波信号を再構成し、
    この射影後の脳波信号を学習済みの前記カルマンフィルターモデルに入力し、出力されたスペクトログラムからスピーチの内容を予測することから成るスピーチ内容識別方法。
  8. 前記独立成分分析により、u=Wx、として、uが独立成分となるように行列Wを求め、ここで、xは、脳波計測により得られたデジタル脳波データであり、電極数をn、サンプリング点の数をp、独立成分の数をkとして、xはn×p次の行列であり、uはk×p次の行列であり、Wはk×n次の行列となる請求項7に記載のスピーチ内容識別方法。
  9. 前記独立成分分析の結果から、元々の行列xを、x=W+u、と再構成し、更に、前記射影は、xj= W+ujにより、各独立成分の寄与を電極位置の空間に射影した時の値として算出する操作であり、但し、W+は、Wの逆行列であり、ujは行列uのj番目の列のみで、それ以外はすべて0から成る行列とする請求項8に記載のスピーチ内容識別方法。
  10. 前記カルマンフィルターモデルの学習は、該カルマンフィルターモデルに、前記射影後の脳波信号とスペクトログラム計算部で得られたスペクトログラムを入力し、カルマンフィルターモデルを確定させるパラメータを推定し、この推定したパラメータをメモリに保存することによって行う請求項7に記載のスピーチ内容識別方法。
  11. 前記学習時及び前記スピーチ遂行時に、前記射影後に再構成された脳波信号に脳内等価電流双極子推定を適用して、ダイポールが特定の脳部位に定位された独立成分を抽出し、この得られたダイポールを、被験者のMRI画像から被験者の脳を3次元的に復元したものに、重ね合わせて表示する請求項7に記載のスピーチ内容識別方法。
  12. 前記スピーチ内容推定は、スペクトログラム推定で得られたスペクトログラムの値を、ホルマント周波数を座標軸とする空間内にプロットし、どの音声領域に属すかを調べ、属した音声を、発話或いはサイレントスピーチを含むスピーチ内容と推定するものである請求項7に記載のスピーチ内容識別方法。
JP2011003782A 2011-01-12 2011-01-12 スピーチ内容を識別する装置及び方法 Ceased JP2012146116A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011003782A JP2012146116A (ja) 2011-01-12 2011-01-12 スピーチ内容を識別する装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011003782A JP2012146116A (ja) 2011-01-12 2011-01-12 スピーチ内容を識別する装置及び方法

Publications (1)

Publication Number Publication Date
JP2012146116A true JP2012146116A (ja) 2012-08-02

Family

ID=46789620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011003782A Ceased JP2012146116A (ja) 2011-01-12 2011-01-12 スピーチ内容を識別する装置及び方法

Country Status (1)

Country Link
JP (1) JP2012146116A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018153614A (ja) * 2017-03-17 2018-10-04 株式会社リコー 情報処理装置、情報処理方法、プログラムおよび生体信号計測システム
JP2019019783A (ja) * 2017-07-19 2019-02-07 国立研究開発法人 海上・港湾・航空技術研究所 エンジン状態観測器を用いたエンジン制御方法、エンジン制御プログラム及びエンジン制御装置
WO2019064412A1 (ja) * 2017-09-28 2019-04-04 特定非営利活動法人ニューロクリアティブ研究会 行動解析装置、行動解析プログラム、行動解析システム
CN110840411A (zh) * 2019-12-06 2020-02-28 深圳市德力凯医疗设备股份有限公司 一种麻醉深度的测量方法、存储介质及电子设备
JP2020186730A (ja) * 2020-08-13 2020-11-19 国立研究開発法人 海上・港湾・航空技術研究所 エンジン状態観測器を用いたエンジン制御方法、エンジン制御プログラム及びエンジン制御装置
CN113724687A (zh) * 2021-08-30 2021-11-30 深圳市神经科学研究院 基于脑电信号的语音生成方法、装置、终端及存储介质
CN114343675A (zh) * 2021-12-27 2022-04-15 深圳航天科技创新研究院 一种脑电成分提取方法
US11573635B1 (en) 2022-01-04 2023-02-07 United Arab Emirates University Face mask for accurate location of sensors relative to a users face, a communication enabling face mask and a communication system including the face mask

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02232783A (ja) * 1989-03-07 1990-09-14 Nippon Telegr & Teleph Corp <Ntt> 脳波トポグラフィによる音節認識装置
JP2001120511A (ja) * 1999-10-26 2001-05-08 Shimadzu Corp 生体信号計測装置
JP2006280806A (ja) * 2005-04-04 2006-10-19 Advanced Telecommunication Research Institute International 脳内電流源推定方法、生体情報推定方法、脳内電流源推定装置、及び生体情報推定装置
JP2008225877A (ja) * 2007-03-13 2008-09-25 Nec Corp ブレイン・コンピュータ・インタフェース

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02232783A (ja) * 1989-03-07 1990-09-14 Nippon Telegr & Teleph Corp <Ntt> 脳波トポグラフィによる音節認識装置
JP2001120511A (ja) * 1999-10-26 2001-05-08 Shimadzu Corp 生体信号計測装置
JP2006280806A (ja) * 2005-04-04 2006-10-19 Advanced Telecommunication Research Institute International 脳内電流源推定方法、生体情報推定方法、脳内電流源推定装置、及び生体情報推定装置
JP2008225877A (ja) * 2007-03-13 2008-09-25 Nec Corp ブレイン・コンピュータ・インタフェース

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7009906B2 (ja) 2017-03-17 2022-01-26 株式会社リコー 情報処理装置、情報処理方法、プログラムおよび生体信号計測システム
JP2018153614A (ja) * 2017-03-17 2018-10-04 株式会社リコー 情報処理装置、情報処理方法、プログラムおよび生体信号計測システム
JP2019019783A (ja) * 2017-07-19 2019-02-07 国立研究開発法人 海上・港湾・航空技術研究所 エンジン状態観測器を用いたエンジン制御方法、エンジン制御プログラム及びエンジン制御装置
WO2019064412A1 (ja) * 2017-09-28 2019-04-04 特定非営利活動法人ニューロクリアティブ研究会 行動解析装置、行動解析プログラム、行動解析システム
CN110840411A (zh) * 2019-12-06 2020-02-28 深圳市德力凯医疗设备股份有限公司 一种麻醉深度的测量方法、存储介质及电子设备
CN110840411B (zh) * 2019-12-06 2022-03-11 深圳市德力凯医疗设备股份有限公司 一种麻醉深度的测量装置、存储介质及电子设备
JP2020186730A (ja) * 2020-08-13 2020-11-19 国立研究開発法人 海上・港湾・航空技術研究所 エンジン状態観測器を用いたエンジン制御方法、エンジン制御プログラム及びエンジン制御装置
JP7232532B2 (ja) 2020-08-13 2023-03-03 国立研究開発法人 海上・港湾・航空技術研究所 エンジン状態観測器を用いたエンジン制御方法、エンジン制御プログラム及びエンジン制御装置
CN113724687A (zh) * 2021-08-30 2021-11-30 深圳市神经科学研究院 基于脑电信号的语音生成方法、装置、终端及存储介质
CN113724687B (zh) * 2021-08-30 2024-04-16 深圳市神经科学研究院 基于脑电信号的语音生成方法、装置、终端及存储介质
CN114343675A (zh) * 2021-12-27 2022-04-15 深圳航天科技创新研究院 一种脑电成分提取方法
CN114343675B (zh) * 2021-12-27 2023-05-30 深圳航天科技创新研究院 一种脑电成分提取方法
US11573635B1 (en) 2022-01-04 2023-02-07 United Arab Emirates University Face mask for accurate location of sensors relative to a users face, a communication enabling face mask and a communication system including the face mask

Similar Documents

Publication Publication Date Title
Mumtaz et al. Review of challenges associated with the EEG artifact removal methods
JP2012146116A (ja) スピーチ内容を識別する装置及び方法
Benalcázar et al. Hand gesture recognition using machine learning and the Myo armband
Sreeja et al. Removal of eye blink artifacts from EEG signals using sparsity
Reaz et al. Techniques of EMG signal analysis: detection, processing, classification and applications
Hsu EEG-based motor imagery classification using enhanced active segment selection and adaptive classifier
Álvarez-Meza et al. Time-series discrimination using feature relevance analysis in motor imagery classification
Khorshidtalab et al. EEG signal classification for real-time brain-computer interface applications: A review
Mohanchandra et al. A communication paradigm using subvocalized speech: translating brain signals into speech
Dash et al. Overt speech retrieval from neuromagnetic signals using wavelets and artificial neural networks
Tryon et al. Performance evaluation of EEG/EMG fusion methods for motion classification
JP2011076177A (ja) 歯の接触によって誘発された脳波を利用した機器制御方法及び機器制御装置
Kaczorowska et al. Comparison of the ICA and PCA methods in correction of EEG signal artefacts
JP7070253B2 (ja) パフォーマンス計測装置、パフォーマンス計測方法及びパフォーマンス計測プログラム
Khalighinejad et al. NAPLib: An open source toolbox for real-time and offline Neural Acoustic Processing
CN114298089A (zh) 一种多模态力量训练辅助方法和系统
Tiwari et al. Machine learning approach for the classification of EEG signals of multiple imagery tasks
Soon et al. Speech recognition using facial sEMG
Dash et al. Determining the optimal number of MEG trials: A machine learning and speech decoding perspective
Hurtado-Rincon et al. Motor imagery classification using feature relevance analysis: An Emotiv-based BCI system
Boubchir et al. EEG error potentials detection and classification using time-frequency features for robot reinforcement learning
Mahmoodi et al. A robust beamforming approach for early detection of readiness potential with application to brain-computer interface systems
Ghane et al. Robust understanding of EEG patterns in silent speech
Vargic et al. Human computer interaction using BCI based on sensorimotor rhythm
Onners et al. U-EEG: A Deep Learning Autoencoder for the Detection of Ocular Artifact in EEG Signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140804

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20150526