JP7623716B2

JP7623716B2 - 情報処理装置および情報処理方法

Info

Publication number: JP7623716B2
Application number: JP2022527621A
Authority: JP
Inventors: 奈津江吉村; 康晴小池
Original assignee: Tokyo Institute of Technology NUC; Institute of Science Tokyo
Current assignee: Tokyo Institute of Technology NUC; Institute of Science Tokyo
Priority date: 2020-05-27
Filing date: 2021-04-30
Publication date: 2025-01-29
Anticipated expiration: 2041-04-30
Also published as: EP4147636A4; US20230233132A1; JPWO2021241138A1; WO2021241138A1; EP4147636A1

Description

本開示はデータ処理技術に関し、特に情報処理装置および情報処理方法に関する。

被験者の脳波または脳活動データを利用して、その被験者に関する様々な分析を行う技術が提案されている。例えば、以下の特許文献１では、被験者の脳波を計測し、計測した脳波をもとに被験者の言語の習得レベルを判定する技術が提案されている。また、以下の特許文献２では、被験者が、デコーダのトレーニングの中で使用されなかった物体を含む物体画像を見ている間あるいは想像している間に計測された脳活動信号から、視認または想像された物体のカテゴリを識別する技術が提案されている。

特開２０１９－１２８５３３号公報特開２０１７－０７６１９３号公報

従来技術では、被験者の脳波または脳活動データをもとに、予め用意しておいた複数の選択肢の中から、被験者が認知する内容を判別または選択する。そのため、従来技術では、被験者（例えば健常者だけでなく植物状態や閉じ込め症候群等の意思表出が困難な被験者を含む）が、呈示された音声をどの程度認知したか（例えば言語として認識したか等）を判別することは困難であると本発明者は考えた。

本開示は、本発明者の上記課題認識に基づきなされたものであり、１つの目的は、呈示された音声が人にどのように聞こえているかの判別を支援する技術を提供することである。

上記課題を解決するために、本開示のある態様の情報処理装置は、所定の音声の情報と、所定の音声が呈示された第１被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能な装置であって、所定の音声が呈示された第２被験者の脳活動を示す信号を取得する脳活動取得部と、脳活動取得部により取得された脳活動を示す信号の態様に基づいて、第２被験者の脳の複数の領域の中から脳活動を示す信号の信号源を推定する信号源推定部と、信号源推定部により推定された信号源に関する情報をモデルに入力して、モデルから出力された、第２被験者が認識すると推定される音声である認識音声の情報を取得する認識音声取得部と、を備える。

本開示の別の態様もまた、情報処理装置である。この装置は、所定の音声の情報と、所定の音声が呈示された第１被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能な装置であって、任意の音声を想起した第２被験者の脳活動を示す信号を取得する脳活動取得部と、脳活動取得部により取得された脳活動を示す信号の態様に基づいて、第２被験者の脳の複数の領域の中から脳活動を示す信号の信号源を推定する信号源推定部と、信号源推定部により推定された信号源に関する情報をモデルに入力して、モデルから出力された、第２被験者が想起したと推定される音声の情報を取得する認識音声取得部と、を備える。

本開示のさらに別の態様は、情報処理方法である。この方法は、所定の音声の情報と、所定の音声が呈示された第１被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能なコンピュータが、所定の音声が呈示された第２被験者の脳活動を示す信号を取得するステップと、取得された脳活動を示す信号の態様に基づいて、第２被験者の脳の複数の領域の中から脳活動を示す信号の信号源を推定するステップと、推定された信号源に関する情報をモデルに入力して、モデルから出力された、第２被験者が認識すると推定される音声である認識音声の情報を取得するステップと、を実行する。

本開示のさらに別の態様もまた、情報処理方法である。この方法は、所定の音声の情報と、所定の音声が呈示された第１被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能なコンピュータが、任意の音声を想起した第２被験者の脳活動を示す信号を取得するステップと、取得された脳活動を示す信号の態様に基づいて、第２被験者の脳の複数の領域の中から脳活動を示す信号の信号源を推定するステップと、推定された信号源に関する情報をモデルに入力して、モデルから出力された、第２被験者が想起したと推定される音声の情報を取得するステップと、を実行する。

なお、以上の構成要素の任意の組合せ、本開示の表現を、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本開示の態様として有効である。

本開示によれば、呈示された音声が人にどのように聞こえているかの判別、または、人が思い浮かべた音声の判別を支援することができる。

実施例の推定システムの概要を示す図である。実施例の推定システムの構成を示す図である。図２のモデル生成装置の機能ブロックを示すブロック図である。音声推定モデルのネットワーク構成を示す図である。図２の推定装置の機能ブロックを示すブロック図である。比較画像の例を示す図である。脳内情報の生成方法を模式的に示す図である。脳内情報の例を示す図である。脳内情報の例を示す図である。図１０（ａ）と図１０（ｂ）は、実験結果を示すグラフである。

実施例の推定システムの構成を説明する前に概要を説明する。
実施例では、機械学習により構築した数理モデル（実施例ではニューラルネットワーク、以下「音声推定モデル」とも呼ぶ。）を用いて、呈示された音声が人にどのように聞こえているかを再現し、その判別を支援する技術を提案する。実施例では被験者の脳活動を示す信号として、脳波（頭皮脳波）を用いる。詳細は後述するが、被験者の脳活動を示す信号として、脳磁波を用いてもよく、近赤外線分光法（Near-infrared spectroscopy、NIRS）脳計測装置による計測結果を用いてもよい。

図１は、実施例の推定システムの概要を示す図である。学習フェーズにおいて、実施例の推定システムは、「あ」、「い」等の所定の音声（以下「オリジナル音声」とも呼ぶ。）を第１被験者に聞かせて第１被験者の脳波を計測し、脳波の信号源を推定する。推定システムは、第１被験者に関する信号源情報とオリジナル音声情報とに基づいて、信号源情報の入力を受け付け、かつ、オリジナル音声が呈示された人が認識すると推定される音声（以下「認識音声」とも呼ぶ。）の情報を出力する音声推定モデルを生成する。なお、オリジナル音声は、言語音でなくてもよい。オリジナル音声は、例えば、動物の鳴き声であってもよく、意味をなさない機械音等であってもよい。

また、推定フェーズにおいて、実施例の推定システムは、第２被験者に上記オリジナル音声を聞かせて第２被験者の脳波を計測し、脳波の信号源を推定する。推定システムは、第２被験者に関する信号源情報を音声推定モデルに入力して、オリジナル音声が呈示された第２被験者が認識すると推定される音声（認識音声）の情報を音声推定モデルから取得する。推定システムは、認識音声を再生することで、オリジナル音声が第２被験者にどのように聞こえているかを明らかにすることができる。

実施例における第１被験者と第２被験者は同一人物である。例えば、第１被験者と第２被験者は、１人の健常者（音声を理解でき、意思表出も可能な人）であってもよい。また、第１被験者と第２被験者は、聴覚に障害のある人、植物状態の人、閉じ込め症候群の人等、意思表出（意思疎通とも言える）が困難な人であってもよい。なお、後述するが、変形例として、第１被験者と第２被験者は異なる人であってもよい。実施例における「被験者」は、実験への「参加者」とも言える。

また、推定フェーズにおいて、推定システムは、第２被験者に関する信号源情報が入力された音声推定モデル内のデータを解析して、脳内の情報処理を可視化する。具体的には、第２被験者の脳の複数の領域それぞれの認識音声への影響度を示す脳内情報を生成する。これにより、脳のどの領域が、どのタイミングで使われているかを個人ごとに可視化することができる。

図２は、実施例の推定システム１０の構成を示す。推定システム１０は、脳波計１２、ｆＭＲＩ（functional Magnetic Resonance Imaging）装置１４、モデル生成装置１６、
推定装置１８を備える情報処理システムである。実施例では、図２の各装置は、ＬＡＮ等の通信網を介して接続され、オンラインでデータが送受信される。変形例として、ＵＳＢストレージ等の記録メディアを介して、オフラインでデータが交換されてもよい。

脳波計１２は、被験者の頭皮上に配置された複数の電極（言い換えればセンサ）を介して、被験者の脳波を示す信号（以下「脳波信号」と呼ぶ。）を検出する。電極の数は適宜変更可能であるが、実施例では３０個である。すなわち、脳波計１２は、３０チャネルの脳波信号を検出する。脳波計１２は、検出した３０チャネルの脳波信号を示すデータを、学習フェーズではモデル生成装置１６へ出力し、推定フェーズでは推定装置１８へ出力する。

脳波信号を示すデータは、例えば、時間と振幅を対応付けたデータであってもよい。また、周波数とパワースペクトル密度を対応付けたデータ、すなわち周波数特性を示すデータでもよい。脳波計１２は、公知の方法により、脳波信号を増幅してもよく、また、脳波信号からノイズを除去してもよい。

ｆＭＲＩ装置１４は、ＭＲＩ（Magnetic Resonance Imaging）を利用して、脳の活動に関連した血流動態反応を視覚化する装置である。ｆＭＲＩ装置１４は、被験者の脳において活動する脳部位を示すデータである脳活動データを、学習フェーズではモデル生成装置１６へ出力し、推定フェーズでは推定装置１８へ出力する。脳活動データは、実測に基づく脳波の信号源を示すデータとも言える。

モデル生成装置１６は、音声推定モデルを生成する情報処理装置（言い換えればコンピュータデバイス）である。推定装置１８は、モデル生成装置１６により生成された音声推定モデルを使用して、被験者の認識音声を推定する情報処理装置である。これらの装置の詳細な構成は後述する。

なお、図１の各装置の筐体数に制限はない。例えば、図１に示す少なくとも１つの装置は、複数の情報処理装置が連携することにより実現されてもよい。また、図１に示す複数の装置の機能が、単一の情報処理装置により実現されてもよい。例えば、モデル生成装置１６の機能と推定装置１８の機能は、単一の情報処理装置に実装されてもよい。

図３は、図２のモデル生成装置１６の機能ブロックを示すブロック図である。モデル生成装置１６は、ｆＭＲＩ結果取得部２０、信号源推定関数生成部２２、信号源推定関数記憶部２４、脳波取得部２６、信号源推定部２８、音声情報取得部３０、学習部３２、モデル出力部３４を備える。

本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのＣＰＵ・メモリをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。

また、図３に示す複数の機能ブロックのうち少なくとも一部の機能ブロックの機能が実装されたコンピュータプログラムが、所定の記録媒体に格納され、その記録媒体を介して、モデル生成装置１６のストレージにインストールされてもよい。または、上記コンピュータプログラムが、通信網を介してサーバからダウンロードされ、モデル生成装置１６のストレージにインストールされてもよい。モデル生成装置１６のＣＰＵは、上記コンピュータプログラムをメインメモリに読み出して実行することにより、図３に示す複数の機能ブロックの機能を発揮してもよい。

ｆＭＲＩ結果取得部２０は、ｆＭＲＩ装置１４から入力された、被験者（上記の第１被験者）の脳活動データを取得する。実施例において「データを取得する」とは、外部から送信されたデータを受信することを含み、また、受信したデータをメモリまたはストレージに記憶させることを含む。

実施例では、脳の表面（例えば大脳皮質）を所定の大きさに分割した複数の部位（「領域」とも言える。）を定義し、実施例では１００個の部位を定義する。これらの複数の部位は、例えば、扁桃体、島皮質、帯状回前部等の公知の部位を含んでもよく、それらの公知の部位をより細分化した部位を含んでもよい。信号源推定関数生成部２２は、脳波データから当該脳波の信号源を推定するための信号源推定関数を生成する。

実施例における信号源推定関数は、３０チャネルの脳波データを入力として受け付け、１００個の脳部位それぞれの活動の有無を示すデータを出力する関数である。言い換えれば、それぞれの脳部位が信号源か否かを示すデータを出力する関数である。信号源推定関数は、３０チャネルの脳波データから、１００個の脳部位それぞれに対して信号源としての重み付けを行う３０×１００の行列であってもよい。

信号源推定関数生成部２２の上記処理は、公知のソフトウェアである株式会社国際電気通信基礎技術研究所が提供するＶＢＭＥＧ（Variational Bayesian Multimodal EncephaloGraphy）により実現される。ＶＢＭＥＧは、脳波データに基づいて脳の皮質電流を推定
することにより信号源を推定するソフトウェアである。脳波データは、脳波の波形を示すデータでもよく、時系列での振幅の推移を示すデータでもよく、脳波の周波数特性を示すデータでもよい。

具体的には、信号源推定関数生成部２２は、ＶＢＭＥＧが提供する所定のＡＰＩ（Application Programming Interface）に、（１）ｆＭＲＩにより撮像された脳の構造を示す
画像データ、（２）ｆＭＲＩにより計測された脳活動データ、（３）頭皮上における電極の設置位置を示すデータ、（４）脳波取得部２６により取得された脳波信号のデータを入力することにより、ＶＢＭＥＧに信号源推定関数を生成させる。

信号源推定関数生成部２２は、生成した信号源推定関数を信号源推定関数記憶部２４に格納する。信号源推定関数記憶部２４は、信号源推定関数生成部２２により生成された信号源推定関数を記憶する記憶領域である。

脳波取得部２６は、脳活動取得部とも言える。脳波取得部２６は、被験者の脳活動を示す信号として、脳波計１２から入力された脳波信号のデータを取得する。脳波取得部２６は、取得した脳波信号のデータを信号源推定関数生成部２２と信号源推定部２８へ出力する。

信号源推定部２８は、脳波取得部２６により取得された、被験者の脳活動を示す信号としての脳波の態様に基づいて、被験者（ここでは第１被験者）の脳の複数の部位の中から脳波の信号源を１つ以上推定する。信号源推定部２８は、第１被験者の脳波に関する時空間情報（例えば、脳波の波形の形状や、脳波が計測された頭皮上の位置、複数の信号源の位置、大脳皮質の凹凸（いわゆる脳のシワ）の形状、頭皮と脳の間にある組織の導電率等）に基づいて、脳波の信号源を１つ以上推定してもよい。

実施例では、信号源推定部２８は、信号源推定関数記憶部２４に記憶された信号源推定関数に３０チャネルの脳波データを入力することにより、信号源推定関数の出力として、１つ以上の信号源に関するデータ（以下「信号源データ」とも呼ぶ。）を取得する。信号源推定部２８は、取得した信号源データを推定結果として学習部３２に渡す。

信号源推定部２８が出力する信号源データは、複数の信号源（の候補）のそれぞれについて、各信号源から出力された脳波の信号強度（電流の大きさ）の時系列での推移を示すデータである。具体的には、信号源データは、予め定められた１００個の信号源のそれぞれから出力された脳波について、０．３秒間内での７７時点の信号強度を示すデータである。後述の信号源推定部５０が出力する信号源データも同様である。

音声情報取得部３０は、脳波計１２により脳波が計測され、ｆＭＲＩ装置１４により脳活動が計測された被験者に対して呈示されたオリジナル音声のデータを外部の記憶装置等から取得する。音声情報取得部３０は、外部から取得したオリジナル音声のデータに対して、公知の音声分析（例えばメルケプストラム分析）を行うことにより、オリジナル音声に関する複数の特徴量（音響特徴量）の時系列での推移を示す情報であるオリジナル音声情報を生成する。図１に示したように、実施例のオリジナル音声情報は、５つの特徴量の時系列データである。

学習部３２は、モデル生成部とも言え、音声情報取得部３０により取得されたオリジナル音声情報と、信号源推定部２８により推定された信号源データとを教師データとして、公知の機械学習手法（実施例では深層学習）により音声推定モデルを生成する。音声推定モデルは、音声が呈示された被験者の脳波の信号源データを入力として受け付け、その被験者が認識すると推定される音声（認識音声）の情報を出力する畳み込みニューラルネットワークである。学習部３２は、Ｋｅｒａｓ等の公知のライブラリまたはフレームワークを使用して音声推定モデルを生成してもよい。

変形例として、学習部３２が実行する深層学習等の機械学習の処理（例えば音声推定モデルの生成）は、クラウド上のコンピュータ（クラウドコンピュータ）において実行されてもよい。この場合、モデル生成装置１６は、通信網を介して、教師データをクラウドコンピュータに渡し、クラウドコンピュータによる学習結果（例えば音声推定モデル）を取得して推定装置１８に提供してもよい。推定装置１８は、クラウドコンピュータによる学習結果を使用して、被験者の認識音声を推定してもよい。

図４は、音声推定モデルのネットワーク構成を示す。音声推定モデルは、入力層１００、複数の畳み込み層１０２、最大プーリング層１０４、全結合層１０６、出力層１０８を含む。入力層１００には、信号源データが示す、１００個の信号源のそれぞれについての信号強度の時系列データ（７７時点の信号強度）が入力される。出力層１０８からは、認識音声に関する複数の特徴量の時系列データであり、図４の例では、５つの特徴量について６０時点の値を示す認識音声情報が出力される。

図３に戻り、モデル出力部３４は、学習部３２により生成された音声推定モデルのデータを推定装置１８へ送信し、推定装置１８のモデル記憶部４０に音声推定モデルのデータを記憶させる。

図５は、図２の推定装置１８の機能ブロックを示すブロック図である。推定装置１８は、モデル記憶部４０、ｆＭＲＩ結果取得部４２、信号源推定関数生成部４４、信号源推定関数記憶部４６、脳波取得部４８、信号源推定部５０、認識音声推定部５２、認識音声記憶部５４、出力部５６、脳内情報生成部６２、脳内情報記憶部６４を備える。

図５に示す複数の機能ブロックのうち少なくとも一部の機能ブロックの機能が実装されたコンピュータプログラムが、所定の記録媒体に格納され、その記録媒体を介して、推定装置１８のストレージにインストールされてもよい。または、上記コンピュータプログラムが、通信網を介してサーバからダウンロードされ、推定装置１８のストレージにインストールされてもよい。推定装置１８のＣＰＵは、上記コンピュータプログラムをメインメモリに読み出して実行することにより、図５に示す複数の機能ブロックの機能を発揮してもよい。

モデル記憶部４０は、モデル生成装置１６から送信された音声推定モデルのデータを記憶する。変形例として、モデル生成装置１６が、音声推定モデルを記憶する記憶部を備える構成でもよく、この場合、推定装置１８は、通信網を介して、モデル生成装置１６に記憶された音声推定モデルを参照してもよい。すなわち、推定装置１８は、音声推定モデルを記憶するローカルまたはリモートの記憶部にアクセス可能であればよく、言い換えれば、推定装置１８は、ローカルまたはリモートの記憶部に記憶された音声推定モデルを参照可能であればよい。

ｆＭＲＩ結果取得部４２、信号源推定関数生成部４４、信号源推定関数記憶部４６、脳波取得部４８は、既述したモデル生成装置１６のｆＭＲＩ結果取得部２０、信号源推定関数生成部２２、信号源推定関数記憶部２４、脳波取得部２６に対応する。したがって、ｆＭＲＩ結果取得部４２、信号源推定関数生成部４４、信号源推定関数記憶部４６、脳波取得部４８について、対応する機能ブロックと共通する内容の説明は適宜省略し、主に、対応する機能ブロックと異なる点を説明する。

ｆＭＲＩ結果取得部４２は、ｆＭＲＩ装置１４から入力された、認識音声の推定対象の被験者（すなわちオリジナル音声が呈示された第２被験者）の脳活動データを取得する。脳波取得部４８は、脳活動取得部とも言える。脳波取得部４８は、被験者の脳活動を示す信号として、オリジナル音声が呈示された第２被験者の脳波信号のデータを取得する。

信号源推定関数生成部４４は、第２被験者の脳波信号のデータから当該脳波の信号源を推定するための信号源推定関数を生成する。信号源推定関数記憶部４６は、第２被験者に関する信号源推定関数を記憶する。なお、実施例では第１被験者と第２被験者が同一人物であるため、推定装置１８は、モデル生成装置１６により生成された（言い換えれば学習フェーズにおいて生成された）信号源推定関数を使用してもよく、信号源推定関数記憶部４６には、モデル生成装置１６により生成された信号源推定関数が格納されてもよい。

信号源推定部５０は、脳波取得部４８により取得された、被験者の脳活動を示す信号としての脳波の態様に基づいて、被験者（ここでは第２被験者）の脳の複数の部位の中から脳波の信号源を１つ以上推定する。信号源推定部５０は、第２被験者の脳波に関する時空間情報（例えば、脳波の波形の形状や、脳波が計測された頭皮上の位置、複数の信号源の位置、大脳皮質の凹凸（いわゆる脳のシワ）の形状、頭皮と脳の間にある組織の導電率等）に基づいて、脳波の信号源を１つ以上推定してもよい。

実施例では、信号源推定部５０は、信号源推定関数記憶部４６に記憶された信号源推定関数に３０チャネルの脳波データを入力することにより、信号源推定関数の出力として、１つ以上の信号源に関する信号源データを取得する。信号源推定部５０は、取得した信号源データを推定結果として認識音声推定部５２に渡す。

認識音声推定部５２は、認識音声取得部とも言え、モデル記憶部４０に記憶された音声推定モデルのデータをメインメモリに読み出し、信号源推定部５０により推定された信号源データを音声推定モデルの入力層に入力する。認識音声推定部５２は、音声推定モデルの出力層から出力された、第２被験者が認識すると推定される認識音声の特徴量に関する時系列データ（上述の認識音声情報）を取得する。

認識音声記憶部５４は、認識音声推定部５２により取得された認識音声情報を記憶する。認識音声推定部５２が、認識音声情報を認識音声記憶部５４に格納してもよく、認識音声記憶部５４が、認識音声推定部５２から認識音声情報を認識音声推定部５２から取得して記憶してもよい。また、認識音声記憶部５４は、揮発性の記憶領域であってもよく、不揮発性の記憶領域であってもよい。

出力部５６は、認識音声推定部５２により取得された認識音声情報を外部に出力し、実施例では、認識音声記憶部５４に記憶された認識音声情報を外部に出力する。出力部５６は、再生部５８と画像生成部６０を含む。再生部５８は、認識音声推定部５２により取得された認識音声情報であって、実施例では認識音声記憶部５４に記憶された認識音声情報に対して公知の音声合成処理を実行することにより、認識音声情報が示す音声を再生し、再生音声をスピーカ（不図示）から出力させる。

画像生成部６０は、第２被験者に呈示された音声（すなわちオリジナル音声）のデータを外部の記憶装置（不図示）から取得する。画像生成部６０は、オリジナル音声に対して公知のメルケプストラム分析を行い、オリジナル音声の複数の特徴量の推移を示す時系列データ（「オリジナル音声情報」）を生成する。また、画像生成部６０は、認識音声記憶部５４に記憶された認識音声情報、すなわち認識音声の複数の特徴量の推移を示す時系列データを読み込む。画像生成部６０は、オリジナル音声情報と認識音声情報とをもとに、オリジナル音声の波形と認識音声の波形の両方を示す画像（以下「比較画像」とも呼ぶ。）を生成する。

図６は、比較画像の例を示す。同図は、「あ」、「い」、雑音のそれぞれについて、オリジナル音声の波形を破線で示し、認識音声の波形を実線で示している。図６の例では、画像生成部６０は、「あ」、「い」、雑音のそれぞれについて、特徴量ごとに重ねた態様の比較画像を生成する。

画像生成部６０は、生成した比較画像のデータをローカルまたはリモートの記憶部に格納してもよい。または、画像生成部６０は、生成した比較画像のデータを不図示のディスプレイ装置に出力し、そのディスプレイ装置に比較画像を表示させてもよい。

脳内情報生成部６２は、認識音声推定部５２により信号源データが入力された音声推定モデルに記録された情報を参照して、第２被験者の脳の複数の領域それぞれの認識音声への影響度を示す情報である脳内情報を生成する。脳内情報生成部６２は、生成した脳内情報を脳内情報記憶部６４に格納する。脳内情報記憶部６４は、脳内情報生成部６２により生成された脳内情報を記憶する記憶領域である。出力部５６は、脳内情報記憶部６４に記憶された脳内情報を、ローカルまたはリモートの記憶装置に出力して記憶させ、または、ローカルまたはリモートの表示装置に出力して表示させる。

図７は、脳内情報の生成方法を模式的に示す。既述したが、音声推定モデルは、入力層１００、複数の畳み込み層１０２、最大プーリング層１０４、全結合層１０６、出力層１０８を含む。複数の畳み込み層１０２は、プーリング層を挟まない複数回のフィルタリング処理により認識音声への影響度が大きい信号源を抽出していくものである。畳み込み層１１０は、連続する複数の畳み込み層１０２の中で最後に位置する層であり、脳の複数の領域（すなわち複数の信号源）それぞれの認識音声への影響度に関する情報（重みとも言える）が最も明確に記録される。

脳内情報生成部６２は、認識音声推定部５２により信号源データが入力され、認識音声情報を出力した音声推定モデルを参照して、畳み込み層１１０に記録された情報、言い換えれば、畳み込み層１１０から出力された情報（重み情報とも言える）を読み出して配列７０を生成する。図７では、配列７０を、１００信号源×３２チャネル×６７時点の一次元配列として例示している。

脳内情報生成部６２は、脳内の複数の領域（例えば図７に記載のＭＯＧ、ＩＯＧ、ＦＦＧ等）のそれぞれについて、１つ以上の信号源との対応関係を予め記憶する。なお、同じ名称の領域であっても左脳と右脳は別領域として扱う。例えば、図７のＦＦＧのＬは、左脳のＦＦＧであり、図７のＦＦＧのＲは、右脳のＦＦＧである。脳内情報生成部６２は、脳内の複数の領域のそれぞれについて、対応する１つ以上の信号源に関する情報をもとに、脳内の各領域が認識音声に及ぼした影響の大きさを示す脳内情報を生成する。

具体的には、脳内情報生成部６２は、脳内の各領域について、対応する１つ以上の信号源に関する情報として、１つの信号源あたり３２×６７個の数値（認識音声への影響の大きさを示す値）の平均値を計算する。脳内情報生成部６２は、脳内の各領域の上記平均値を、脳内の各領域の認識音声への影響度を示す値として脳内情報に記録する。

図７の脳内情報７１では、オリジナル音声が「あ」の場合の、認識音声に対する脳内各領域の影響度を指標７２の長さで示している。また、脳内情報７１では、オリジナル音声が「い」の場合の、認識音声に対する脳内各領域の影響度を指標７４の長さで示している。また、脳内情報７１では、オリジナル音声が雑音（ホワイトノイズ）の場合の、認識音声に対する脳内各領域の影響度を指標７６の長さで示している。指標７２、指標７４、指標７６が長いほど、対応する音声の処理を活発に行っていることを示す。

図８と図９は、脳内情報の例を示す。図８は、第２被験者が「あ」、「い」等のオリジナル音声を聞いているときに生成された脳内情報７１であり、すなわち、オリジナル音声を聞いているときに音声処理している脳内領域を示す脳内情報７１を示している。一方、図９は、第２被験者が過去聞いたオリジナル音声を思い出しているときに生成された脳内情報７１であり、すなわち、過去聞いたオリジナル音声を思い出しているときに音声処理している脳内領域を示す脳内情報７１を示している。図８と図９の指標７２、指標７４、指標７６は、図７の指標７２、指標７４、指標７６に対応する。

図８の脳内情報７１と図９の脳内情報７１とを比較することで、音を聞いているときと、音を思い出しているときでの脳内の処理の違いが明らかになる。例えば、領域８０、領域８２、領域８４は、音を聞いているときと思いだしているときの両方で使用される傾向がある。一方、領域８６、領域８８、領域９０、領域９２は、音を聞いているときと思いだしているときとで必要性が異なる領域と考えられる。

脳内情報７１により、音を聞いているとき、および、音を思い出しているときに脳内のどの領域が活動しているかをリアルタイムに可視化できる。これにより、被験者が音を聞くときの意識の違いによる脳活動の変化を可視化できる。例えば、音が聞こえづらい人の脳活動を脳内情報７１により可視化することで、脳内のどの領域の活動が弱いかを把握することができる。また、被験者に音を呈示しつつ、被験者の脳内活動を脳内情報７１でリアルタイムに可視化することで、聴覚機能の改善に役立つ情報を得ることできる。

以上の構成による推定システム１０の動作を説明する。
まず、主にモデル生成装置１６が主体となる学習フェーズの動作を説明する。ｆＭＲＩ装置１４は、第１被験者の脳活動を計測し、計測した脳活動データをモデル生成装置１６へ出力する。モデル生成装置１６のｆＭＲＩ結果取得部２０は、脳活動データを取得し、信号源推定関数生成部２２は、ＶＢＭＥＧを起動して信号源推定関数を生成する。具体的には、信号源推定関数生成部２２は、第１被験者の脳構造データ、電極位置、脳活動データをパラメータとして、ＶＢＭＥＧが提供する公知の関数をコールすることにより第１被験者用の信号源推定関数を生成する。信号源推定関数生成部２２は、第１被験者用の信号源推定関数を信号源推定関数記憶部２４に格納する。

脳波計１２は、オリジナル音声（例えば「あ」、「い」、または雑音）が呈示された第１被験者の頭皮に設置された電極を介して、第１被験者の脳波を計測する。脳波計１２は、第１被験者の脳波データをモデル生成装置１６へ出力する。モデル生成装置１６の脳波取得部２６は、第１被験者の脳波データを取得し、信号源推定部２８は、第１被験者の脳波データと、信号源推定関数記憶部２４に格納された信号源推定関数とにしたがって、第１被験者の脳波の信号源を推定する。

学習部３２は、第１被験者に呈示されたオリジナル音声と、第１被験者の脳波の信号源データとを対応付けた教師データを生成し、その教師データをもとに機械学習を実行する。学習部３２は、信号源データを入力として受け付け、オリジナル音声を呈示された被験者が認識すると想定される認識音声情報を出力する音声推定モデルを生成する。モデル出力部３４は、音声推定モデルのデータを推定装置１８へ送信し、推定装置１８のモデル記憶部４０に記憶させる。

次に、主に推定装置１８が主体となる推定フェーズの動作を説明する。ｆＭＲＩ装置１４は、第２被験者の脳活動を計測し、計測した脳活動データを推定装置１８へ出力する。推定装置１８のｆＭＲＩ結果取得部４２は、脳活動データを取得し、信号源推定関数生成部４４は、ＶＢＭＥＧを起動して信号源推定関数を生成する。具体的には、信号源推定関数生成部４４は、第２被験者の脳構造データ、電極位置、脳活動データをパラメータとして、ＶＢＭＥＧが提供する公知の関数をコールすることにより第２被験者用の信号源推定関数を生成する。信号源推定関数生成部４４は、第２被験者用の信号源推定関数を信号源推定関数記憶部４６に格納する。

脳波計１２は、オリジナル音声が呈示された第２被験者の頭皮に設置された電極を介して、第２被験者の脳波を計測する。脳波計１２は、第２被験者の脳波データを推定装置１８へ出力する。推定装置１８の脳波取得部４８は、第２被験者の脳波データを取得し、信号源推定部５０は、第２被験者の脳波データと、信号源推定関数記憶部４６に格納された信号源推定関数とにしたがって、第２被験者の脳波の信号源を推定する。

認識音声推定部５２は、モデル記憶部４０に記憶された音声推定モデルを読み込む。認識音声推定部５２は、音声推定モデルに第２被験者の脳波の信号源データを入力し、音声推定モデルから出力された第２被験者に関する認識音声情報を取得する。認識音声推定部５２は、第２被験者に関する認識音声情報を認識音声記憶部５４に格納する。再生部５８は、認識音声記憶部５４に記憶された認識音声情報が示す音声を再生する。画像生成部６０は、オリジナル音声の波形と、認識音声記憶部５４に記憶された認識音声情報が示す認識音声の波形とを並べて示す比較画像を生成する。画像生成部６０は、生成した比較画像をローカルまたはリモートの表示装置に表示させる。

脳内情報生成部６２は、第２被験者の脳波の信号源データが入力された音声推定モデルに記録された情報を参照して、第２被験者の複数の領域それぞれの認識音声への影響度を示す脳内情報を生成する。脳内情報生成部６２は、生成した脳内情報を脳内情報記憶部６４に格納する。出力部５６は、脳内情報記憶部６４に記録された脳内情報を外部機器（記憶装置、表示装置等）に出力する。

実施例の推定システム１０によると、被験者（第２被験者）が認識したと想定される音声そのものの情報を生成する。これにより、被験者が健常者である場合に、その被験者が正しく音を認識できているかを調べることができる。また被験者が、植物状態や閉じ込め症候群、乳児等の意思表出ができないまたは困難な人の場合に、その被験者が、音が聞こえているか、また、音が聞こえるだけでなく言語として脳内で認識できているかを調べることができる。また、推定システム１０によると、被験者（第２被験者）の認識音声を再生し、または、オリジナル音声の波形と認識音声の波形とを比較容易な態様で示すことにより、呈示された音声が被験者にどのように聞こえているか、また、どの程度認識されているかの判別を支援することができる。

また、推定システム１０によると、補聴器を装着した被験者（第２被験者）にオリジナル音声を呈示して、その被験者の認識音声を調べることができる。これにより、使用者の聴覚認識レベルに基づいて、高品質な補聴器の開発を支援することができる。また、推定装置１８によると、被験者がオリジナル音声を思い出しているときの認識音声を確認することもできるため、被験者の認知機能の判定を支援することができる。

また、推定システム１０によると、被験者の脳内の各領域の活動状況を可視化することができる（例えば図８、図９の脳内情報７１）。多くの個人の脳内情報７１を蓄積することで、聴覚機能が衰えている人（例えば高齢者や、イヤホンを過度に使用する人）と、聴覚機能が正常な人との違いを、脳領域レベルで可視化することができ、また、健常な聴覚機能を維持するためのトレーニング方法の確立や評価を支援することができる。また、そのトレーニング方法が確立された後は、効果的にトレーニングできているか、また、脳機能が正常に近づいているかをリアルタイムに診断することができる。

また、脳内情報７１を提供することにより以下の効果も奏する。（１）授業等の音声を人が集中して聞いているかの判断を支援できる。（２）非母国語（日本人にとっての英語等）が聞き取れない原因が、脳のどこにあるかを調べることを支援できる。（３）音声を聞き間違う原因が、脳のどこにあるか調べることを支援できる。（４）幻聴、耳鳴り等の原因を脳活動の観点から調べることができ、ニューロフィードバックによる治療を支援することができる。

実施例の音声推定モデルの推定精度について補足する。図６に示した比較画像は、推定システム１０の実験結果を示すものであり、健常者に呈示されたオリジナル音声の波形と、その健常者の脳波から推定された認識音声の波形とを比較したものである。既述したように、この比較画像では、「あ」、「い」、雑音のそれぞれについて、オリジナル音声の波形を破線で示し、認識音声の波形を実線で示している。

本発明者は、オリジナル音声の波形と認識音声の波形とのズレを、決定係数Ｒ^２を計算することで評価した。波形が完全一致する場合、Ｒ^２＝１となる。
実験の結果、音声「あ」の場合のＲ^２は「０．９８３」、音声「い」の場合のＲ^２は「０．９５７」、雑音の場合のＲ^２は「０．９９７」となった。Ｒ^２が０．７程度でも波形は類似するため、音声推定モデルの推定精度、すなわち、脳波を用いた音声再合成の精度はかなり高いと言える。

ただし、Ｒ^２が高くても、認識音声情報をもとに実際に合成した音声（すなわち再生部５８により再生された音声）が、オリジナル音声と同じものとして聞こえないのでは意味がないとも言える。そこで、本発明者は、決定係数Ｒ^２がどの程度であれば、認識音声情報をもとに合成した音声が、オリジナル音声と同じものとして聞こえるかを実験により確認した。

図１０（ａ）と図１０（ｂ）は、実験結果を示すグラフである。図１０（ａ）は、被験者がオリジナル音声を耳で聞いているときの脳波から認識音声を合成（再生）した場合の結果を示している。また、図１０（ｂ）は、被験者がオリジナル音声を耳で聞いた後に、聞いた音を思い出しているときの脳波から認識音声を合成（再生）した場合の結果を示している。横軸は、オリジナル音声の波形と認識音声の波形とのズレを示す決定係数Ｒ^２である。折れ線グラフは、認識音声情報をもとに合成した音声がオリジナル音声と同じものとして認識された割合を示している。

実験結果によると、折れ線グラフで示す認識率が８０％以上になるためには、Ｒ^２が０．８～０．８５程度必要であることがわかった。さらに、図１０（ａ）と図１０（ｂ）におけるヒストグラムは、実際のデータのＲ^２分布を示している。図１０（ａ）と図１０（ｂ）では、０．８以上のＲ^２を示すデータが全体の７７．２％～７９．３％以上を占めており、音声推定モデルの推定精度が全体的に高いことが示された。

以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。以下、変形例を示す。

第１変形例を説明する。上記実施例では、音声推定モデルをニューラルネットワークにより実現したが、変形例として、他の機械学習の手法により音声推定モデルとしての数理モデルまたは関数を生成してもよい。例えば、モデル生成装置１６の学習部３２は、ＳＬＲ（Sparse Logistic Regression）またはＳＶＭ（Support Vector Machine）の手法により、入力された信号源データをもとに、被験者の認識音声（例えば認識音声のカテゴリ）を推定する音声推定モデルを生成してもよい。

第２変形例を説明する。上記実施例では、信号源を推定するためにＶＢＭＥＧを使用したが、他の手法により信号源を推定してもよい。例えば、ｓＬＯＲＥＴＡ（standardized
Low-Resolution Brain Electromagnetic Tomography）を使用して信号源を推定してもよい。ｓＬＯＲＥＴＡは、脳機能イメージング解析の手法であり、脳波や脳磁図による脳内神経活動を脳図譜（言い換えれば標準脳）に重畳して描く解析手法である。

第３変形例を説明する。上記実施例では、ｆＭＲＩ装置１４を使用して、ユーザの脳波の信号源（言い換えれば脳活動）を特定したが、ｆＭＲＩ装置１４を使用しない構成も可能である。例えば、解剖学的な知見、および／または、脳波計１２の電極の三次元位置から推定される頭蓋骨の形状に基づいて、脳波の態様と信号源との対応関係を仮定または特定する構成でもよく、この場合、ｆＭＲＩ装置１４は不要になる。信号源推定部２８は、上記対応関係に基づいて信号源を推定してもよい。

第４変形例を説明する。上記実施例では、第１被験者と第２被験者が同一人物であるとしたが、変形例として、第１被験者と第２被験者は異なる人であってもよい。例えば、第１被験者は、健常者（音声を理解でき、意思表出も可能な人）である一方、第２被験者は、聴覚に障害のある人、植物状態の人、閉じ込め症候群の人等、意思表出（意思疎通とも言える）が困難な人であってもよい。この場合、第１被験者としての健常者の脳波（及びその信号源）をもとに作成した音声推定モデルを用いて、第２被験者としての意思表出困難者が認識したと想定される音声を合成し、再現してもよい。

第５変形例を説明する。上記実施例に記載の技術を応用して、第２被験者が任意の音声を想起する（言い換えれば思い浮かべる、思い出す）場合に、第２被験者が想起した音声を推定する情報処理装置（推定装置１８）を実現することができる。本変形例の推定装置１８のモデル記憶部４０は、複数種類の音声の情報（例えば日本語の「あ」～「ん」）と、複数種類の音声のそれぞれが提示された第１被験者の脳波の信号源に関する情報とを教師データとして機械学習により構築された音声推定モデルのデータを記憶してもよい。推定装置１８の脳波取得部４８は、任意の音声（例えば「あ」～「ん」のいずれか）を想起した第２被験者の脳波を取得してもよい。推定装置１８の認識音声推定部５２は、第２被験者の脳波の信号源に関する情報を上記音声推定モデルに入力して、上記音声推定モデルから出力された、第２被験者が想起したと推定される音声（想起音声）の情報を取得してもよい。この態様によると、被験者（第２被験者）が思い浮かべたと想定される音声そのものの情報を生成することができる。

第５変形例の推定装置１８は、想起音声に関連して、実施例の認識音声と同様の処理、出力を実行してもよい。例えば、（１）推定装置１８の再生部５８は、想起音声の情報が示す音声を再生してもよい。また、（２）音声推定モデルには、第２被験者の脳の複数の領域それぞれの想起音声への影響度に関する情報が記録されてもよい。推定装置１８の脳内情報生成部６２は、音声推定モデルに記録された情報を参照して、第２被験者の脳の複数の領域それぞれの想起音声への影響度を示す脳内情報を生成してもよい。

想起音声は、第２被験者が頭に思い浮かべた音声（言葉を含む）であり、第２被験者が外部へ顕示しない音声を含む。また、想起音声は、第２被験者の頭に無意識に浮かんだ音声（言葉を含む）を含む。すなわち、第５変形例の推定システム１０によると、第２被験者が意識して考えなくても、第２被験者の頭に浮かんだ音声の情報を得ることができる。例えば、第２被験者が、外部へ顕示する建前を主に考え、頭の片隅で本音を思い浮かべていた場合、建前に関する音声と本音に関する音声の両方を含む情報を得ることができる。

第６変形例を説明する。上記の実施例および変形例では、第１被験者および第２被験者の脳活動を示す信号として、脳波を用いた。本変形例では、第１被験者および第２被験者の脳活動を示す信号として、脳磁波を用いてもよい。この場合、推定システム１０は、図２に示す脳波計１２に代えて、脳の電気的な活動によって生じる磁場を計測する脳磁計を備えてもよい。モデル生成装置１６および推定装置１８の脳活動取得部は、脳磁計により計測された脳磁波のデータを取得してもよい。モデル生成装置１６および推定装置１８の信号源推定部は、脳磁波の態様に基づいて脳磁波の信号源を推定してもよい。

第６変形例の別の態様として、第１被験者および第２被験者の脳活動を示す信号として、ＮＩＲＳ脳計測装置（光トポグラフィー（登録商標）とも言える）による計測結果を用いてもよい。ＮＩＲＳ脳計測装置は、大脳皮質における血流量や、ヘモグロビンの増減、酸素交換量等の指標となる信号を計測してもよい。この場合、推定システム１０は、図２に示す脳波計１２に代えて、ＮＩＲＳ脳計測装置を備えてもよい。モデル生成装置１６および推定装置１８の脳活動取得部は、ＮＩＲＳ脳計測装置により計測された信号のデータを取得してもよい。モデル生成装置１６および推定装置１８の信号源推定部は、ＮＩＲＳ脳計測装置により計測された信号の態様に基づいて当該信号の信号源を推定してもよい。

上述した実施の形態および変形例の任意の組み合わせもまた本開示の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施の形態および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。

本開示の技術は、人が認識または想起する音声を推定する装置またはシステムに適用することができる。

１０推定システム、１８推定装置、２６脳波取得部、２８信号源推定部、４０モデル記憶部、４８脳波取得部、５０信号源推定部、５２認識音声推定部、５４認識音声記憶部、５８再生部、６０画像生成部、６２脳内情報生成部。

Claims

所定の音声の情報と、前記所定の音声が呈示された第１被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能な装置であって、
前記所定の音声が呈示された第２被験者の脳活動を示す信号を取得する脳活動取得部と、
前記脳活動取得部により取得された脳活動を示す信号の態様に基づいて、前記第２被験者の脳の複数の領域の中から前記脳活動を示す信号の信号源を推定する信号源推定部と、
前記信号源推定部により推定された信号源に関する情報を前記モデルに入力して、前記モデルから出力された、前記第２被験者が認識すると推定される音声である認識音声の情報を取得する認識音声取得部と、
を備えることを特徴とする情報処理装置。
前記認識音声取得部により取得された認識音声の情報が示す音声を再生する再生部をさらに備えることを特徴とする請求項１に記載の情報処理装置。
脳内情報生成部をさらに備え、
前記信号源に関する情報が入力されたモデルには、前記第２被験者の脳の複数の領域それぞれの前記認識音声への影響度に関する情報が記録され、
前記脳内情報生成部は、前記モデルに記録された情報を参照して、前記第２被験者の脳の複数の領域それぞれの前記認識音声への影響度を示す脳内情報を生成することを特徴とする請求項１または２に記載の情報処理装置。
前記所定の音声の波形と、前記認識音声の波形の両方を示す画像を生成する画像生成部をさらに備えることを特徴とする請求項１から３のいずれかに記載の情報処理装置。
所定の音声の情報と、前記所定の音声が呈示された第１被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能な装置であって、
任意の音声を想起した第２被験者の脳活動を示す信号を取得する脳活動取得部と、
前記脳活動取得部により取得された脳活動を示す信号の態様に基づいて、前記第２被験者の脳の複数の領域の中から前記脳活動を示す信号の信号源を推定する信号源推定部と、
前記信号源推定部により推定された信号源に関する情報を前記モデルに入力して、前記モデルから出力された、前記第２被験者が想起したと推定される音声の情報を取得する音声取得部と、
脳内情報生成部と、
を備え、
前記モデルは、プーリング層を挟まずに連続する複数の畳み込み層を備えるニューラルネットワークであり、
前記複数の畳み込み層は、複数回のフィルタリング処理により前記第２被験者が想起したと推定される音声への影響度が大きい信号源を抽出していくものであり、
前記脳内情報生成部は、前記複数の畳み込み層の中で最後に位置する畳み込み層に記録された情報を参照して、前記第２被験者が想起したと推定される音声に対する前記第２被験者の脳の複数の領域それぞれの影響度を示す脳内情報を生成することを特徴とする情報処理装置。
所定の音声の情報と、前記所定の音声が呈示された第１被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能なコンピュータが、
前記所定の音声が呈示された第２被験者の脳活動を示す信号を取得するステップと、
取得された脳活動を示す信号の態様に基づいて、前記第２被験者の脳の複数の領域の中から前記脳活動を示す信号の信号源を推定するステップと、
推定された信号源に関する情報を前記モデルに入力して、前記モデルから出力された、前記第２被験者が認識すると推定される音声である認識音声の情報を取得するステップと、
を実行することを特徴とする情報処理方法。
所定の音声の情報と、前記所定の音声が呈示された第１被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能なコンピュータが、
任意の音声を想起した第２被験者の脳活動を示す信号を取得するステップと、
取得された脳活動を示す信号の態様に基づいて、前記第２被験者の脳の複数の領域の中から前記脳活動を示す信号の信号源を推定するステップと、
推定された信号源に関する情報を前記モデルに入力して、前記モデルから出力された、前記第２被験者が想起したと推定される音声の情報を取得するステップと、
を実行し、
前記モデルは、プーリング層を挟まずに連続する複数の畳み込み層を備えるニューラルネットワークであり、
前記複数の畳み込み層は、複数回のフィルタリング処理により前記第２被験者が想起したと推定される音声への影響度が大きい信号源を抽出していくものであり、
前記複数の畳み込み層の中で最後に位置する畳み込み層に記録された情報を参照して、前記第２被験者が想起したと推定される音声に対する前記第２被験者の脳の複数の領域それぞれの影響度を示す脳内情報を生成するステップを前記コンピュータがさらに実行することを特徴とする情報処理方法。