JP7623716B2 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP7623716B2
JP7623716B2 JP2022527621A JP2022527621A JP7623716B2 JP 7623716 B2 JP7623716 B2 JP 7623716B2 JP 2022527621 A JP2022527621 A JP 2022527621A JP 2022527621 A JP2022527621 A JP 2022527621A JP 7623716 B2 JP7623716 B2 JP 7623716B2
Authority
JP
Japan
Prior art keywords
information
subject
brain
signal source
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022527621A
Other languages
English (en)
Other versions
JPWO2021241138A5 (ja
JPWO2021241138A1 (ja
Inventor
奈津江 吉村
康晴 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Institute of Technology NUC
Institute of Science Tokyo
Original Assignee
Tokyo Institute of Technology NUC
Institute of Science Tokyo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Institute of Technology NUC, Institute of Science Tokyo filed Critical Tokyo Institute of Technology NUC
Publication of JPWO2021241138A1 publication Critical patent/JPWO2021241138A1/ja
Publication of JPWO2021241138A5 publication Critical patent/JPWO2021241138A5/ja
Application granted granted Critical
Publication of JP7623716B2 publication Critical patent/JP7623716B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/38Acoustic or auditory stimuli
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0033Features or image-related aspects of imaging apparatus, e.g. for MRI, optical tomography or impedance tomography apparatus; Arrangements of imaging apparatus in a room
    • A61B5/0035Features or image-related aspects of imaging apparatus, e.g. for MRI, optical tomography or impedance tomography apparatus; Arrangements of imaging apparatus in a room adapted for acquisition of images from more than one imaging mode, e.g. combining MRI and optical tomography
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves
    • A61B5/055Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/372Analysis of electroencephalograms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4058Detecting, measuring or recording for evaluating the nervous system for evaluating the central nervous system
    • A61B5/4064Evaluating the brain
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R33/00Arrangements or instruments for measuring magnetic variables
    • G01R33/20Arrangements or instruments for measuring magnetic variables involving magnetic resonance
    • G01R33/44Arrangements or instruments for measuring magnetic variables involving magnetic resonance using nuclear magnetic resonance [NMR]
    • G01R33/48NMR imaging systems
    • G01R33/4806Functional imaging of brain activation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Psychology (AREA)
  • Physiology (AREA)
  • Neurology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Fuzzy Systems (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Neurosurgery (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Social Psychology (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Description

本開示はデータ処理技術に関し、特に情報処理装置および情報処理方法に関する。
被験者の脳波または脳活動データを利用して、その被験者に関する様々な分析を行う技術が提案されている。例えば、以下の特許文献1では、被験者の脳波を計測し、計測した脳波をもとに被験者の言語の習得レベルを判定する技術が提案されている。また、以下の特許文献2では、被験者が、デコーダのトレーニングの中で使用されなかった物体を含む物体画像を見ている間あるいは想像している間に計測された脳活動信号から、視認または想像された物体のカテゴリを識別する技術が提案されている。
特開2019-128533号公報 特開2017-076193号公報
従来技術では、被験者の脳波または脳活動データをもとに、予め用意しておいた複数の選択肢の中から、被験者が認知する内容を判別または選択する。そのため、従来技術では、被験者(例えば健常者だけでなく植物状態や閉じ込め症候群等の意思表出が困難な被験者を含む)が、呈示された音声をどの程度認知したか(例えば言語として認識したか等)を判別することは困難であると本発明者は考えた。
本開示は、本発明者の上記課題認識に基づきなされたものであり、1つの目的は、呈示された音声が人にどのように聞こえているかの判別を支援する技術を提供することである。
上記課題を解決するために、本開示のある態様の情報処理装置は、所定の音声の情報と、所定の音声が呈示された第1被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能な装置であって、所定の音声が呈示された第2被験者の脳活動を示す信号を取得する脳活動取得部と、脳活動取得部により取得された脳活動を示す信号の態様に基づいて、第2被験者の脳の複数の領域の中から脳活動を示す信号の信号源を推定する信号源推定部と、信号源推定部により推定された信号源に関する情報をモデルに入力して、モデルから出力された、第2被験者が認識すると推定される音声である認識音声の情報を取得する認識音声取得部と、を備える。
本開示の別の態様もまた、情報処理装置である。この装置は、所定の音声の情報と、所定の音声が呈示された第1被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能な装置であって、任意の音声を想起した第2被験者の脳活動を示す信号を取得する脳活動取得部と、脳活動取得部により取得された脳活動を示す信号の態様に基づいて、第2被験者の脳の複数の領域の中から脳活動を示す信号の信号源を推定する信号源推定部と、信号源推定部により推定された信号源に関する情報をモデルに入力して、モデルから出力された、第2被験者が想起したと推定される音声の情報を取得する認識音声取得部と、を備える。
本開示のさらに別の態様は、情報処理方法である。この方法は、所定の音声の情報と、所定の音声が呈示された第1被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能なコンピュータが、所定の音声が呈示された第2被験者の脳活動を示す信号を取得するステップと、取得された脳活動を示す信号の態様に基づいて、第2被験者の脳の複数の領域の中から脳活動を示す信号の信号源を推定するステップと、推定された信号源に関する情報をモデルに入力して、モデルから出力された、第2被験者が認識すると推定される音声である認識音声の情報を取得するステップと、を実行する。
本開示のさらに別の態様もまた、情報処理方法である。この方法は、所定の音声の情報と、所定の音声が呈示された第1被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能なコンピュータが、任意の音声を想起した第2被験者の脳活動を示す信号を取得するステップと、取得された脳活動を示す信号の態様に基づいて、第2被験者の脳の複数の領域の中から脳活動を示す信号の信号源を推定するステップと、推定された信号源に関する情報をモデルに入力して、モデルから出力された、第2被験者が想起したと推定される音声の情報を取得するステップと、を実行する。
なお、以上の構成要素の任意の組合せ、本開示の表現を、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本開示の態様として有効である。
本開示によれば、呈示された音声が人にどのように聞こえているかの判別、または、人が思い浮かべた音声の判別を支援することができる。
実施例の推定システムの概要を示す図である。 実施例の推定システムの構成を示す図である。 図2のモデル生成装置の機能ブロックを示すブロック図である。 音声推定モデルのネットワーク構成を示す図である。 図2の推定装置の機能ブロックを示すブロック図である。 比較画像の例を示す図である。 脳内情報の生成方法を模式的に示す図である。 脳内情報の例を示す図である。 脳内情報の例を示す図である。 図10(a)と図10(b)は、実験結果を示すグラフである。
実施例の推定システムの構成を説明する前に概要を説明する。
実施例では、機械学習により構築した数理モデル(実施例ではニューラルネットワーク、以下「音声推定モデル」とも呼ぶ。)を用いて、呈示された音声が人にどのように聞こえているかを再現し、その判別を支援する技術を提案する。実施例では被験者の脳活動を示す信号として、脳波(頭皮脳波)を用いる。詳細は後述するが、被験者の脳活動を示す信号として、脳磁波を用いてもよく、近赤外線分光法(Near-infrared spectroscopy、NIRS)脳計測装置による計測結果を用いてもよい。
図1は、実施例の推定システムの概要を示す図である。学習フェーズにおいて、実施例の推定システムは、「あ」、「い」等の所定の音声(以下「オリジナル音声」とも呼ぶ。)を第1被験者に聞かせて第1被験者の脳波を計測し、脳波の信号源を推定する。推定システムは、第1被験者に関する信号源情報とオリジナル音声情報とに基づいて、信号源情報の入力を受け付け、かつ、オリジナル音声が呈示された人が認識すると推定される音声(以下「認識音声」とも呼ぶ。)の情報を出力する音声推定モデルを生成する。なお、オリジナル音声は、言語音でなくてもよい。オリジナル音声は、例えば、動物の鳴き声であってもよく、意味をなさない機械音等であってもよい。
また、推定フェーズにおいて、実施例の推定システムは、第2被験者に上記オリジナル音声を聞かせて第2被験者の脳波を計測し、脳波の信号源を推定する。推定システムは、第2被験者に関する信号源情報を音声推定モデルに入力して、オリジナル音声が呈示された第2被験者が認識すると推定される音声(認識音声)の情報を音声推定モデルから取得する。推定システムは、認識音声を再生することで、オリジナル音声が第2被験者にどのように聞こえているかを明らかにすることができる。
実施例における第1被験者と第2被験者は同一人物である。例えば、第1被験者と第2被験者は、1人の健常者(音声を理解でき、意思表出も可能な人)であってもよい。また、第1被験者と第2被験者は、聴覚に障害のある人、植物状態の人、閉じ込め症候群の人等、意思表出(意思疎通とも言える)が困難な人であってもよい。なお、後述するが、変形例として、第1被験者と第2被験者は異なる人であってもよい。実施例における「被験者」は、実験への「参加者」とも言える。
また、推定フェーズにおいて、推定システムは、第2被験者に関する信号源情報が入力された音声推定モデル内のデータを解析して、脳内の情報処理を可視化する。具体的には、第2被験者の脳の複数の領域それぞれの認識音声への影響度を示す脳内情報を生成する。これにより、脳のどの領域が、どのタイミングで使われているかを個人ごとに可視化することができる。
図2は、実施例の推定システム10の構成を示す。推定システム10は、脳波計12、fMRI(functional Magnetic Resonance Imaging)装置14、モデル生成装置16、
推定装置18を備える情報処理システムである。実施例では、図2の各装置は、LAN等の通信網を介して接続され、オンラインでデータが送受信される。変形例として、USBストレージ等の記録メディアを介して、オフラインでデータが交換されてもよい。
脳波計12は、被験者の頭皮上に配置された複数の電極(言い換えればセンサ)を介して、被験者の脳波を示す信号(以下「脳波信号」と呼ぶ。)を検出する。電極の数は適宜変更可能であるが、実施例では30個である。すなわち、脳波計12は、30チャネルの脳波信号を検出する。脳波計12は、検出した30チャネルの脳波信号を示すデータを、学習フェーズではモデル生成装置16へ出力し、推定フェーズでは推定装置18へ出力する。
脳波信号を示すデータは、例えば、時間と振幅を対応付けたデータであってもよい。また、周波数とパワースペクトル密度を対応付けたデータ、すなわち周波数特性を示すデータでもよい。脳波計12は、公知の方法により、脳波信号を増幅してもよく、また、脳波信号からノイズを除去してもよい。
fMRI装置14は、MRI(Magnetic Resonance Imaging)を利用して、脳の活動に関連した血流動態反応を視覚化する装置である。fMRI装置14は、被験者の脳において活動する脳部位を示すデータである脳活動データを、学習フェーズではモデル生成装置16へ出力し、推定フェーズでは推定装置18へ出力する。脳活動データは、実測に基づく脳波の信号源を示すデータとも言える。
モデル生成装置16は、音声推定モデルを生成する情報処理装置(言い換えればコンピュータデバイス)である。推定装置18は、モデル生成装置16により生成された音声推定モデルを使用して、被験者の認識音声を推定する情報処理装置である。これらの装置の詳細な構成は後述する。
なお、図1の各装置の筐体数に制限はない。例えば、図1に示す少なくとも1つの装置は、複数の情報処理装置が連携することにより実現されてもよい。また、図1に示す複数の装置の機能が、単一の情報処理装置により実現されてもよい。例えば、モデル生成装置16の機能と推定装置18の機能は、単一の情報処理装置に実装されてもよい。
図3は、図2のモデル生成装置16の機能ブロックを示すブロック図である。モデル生成装置16は、fMRI結果取得部20、信号源推定関数生成部22、信号源推定関数記憶部24、脳波取得部26、信号源推定部28、音声情報取得部30、学習部32、モデル出力部34を備える。
本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPU・メモリをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
また、図3に示す複数の機能ブロックのうち少なくとも一部の機能ブロックの機能が実装されたコンピュータプログラムが、所定の記録媒体に格納され、その記録媒体を介して、モデル生成装置16のストレージにインストールされてもよい。または、上記コンピュータプログラムが、通信網を介してサーバからダウンロードされ、モデル生成装置16のストレージにインストールされてもよい。モデル生成装置16のCPUは、上記コンピュータプログラムをメインメモリに読み出して実行することにより、図3に示す複数の機能ブロックの機能を発揮してもよい。
fMRI結果取得部20は、fMRI装置14から入力された、被験者(上記の第1被験者)の脳活動データを取得する。実施例において「データを取得する」とは、外部から送信されたデータを受信することを含み、また、受信したデータをメモリまたはストレージに記憶させることを含む。
実施例では、脳の表面(例えば大脳皮質)を所定の大きさに分割した複数の部位(「領域」とも言える。)を定義し、実施例では100個の部位を定義する。これらの複数の部位は、例えば、扁桃体、島皮質、帯状回前部等の公知の部位を含んでもよく、それらの公知の部位をより細分化した部位を含んでもよい。信号源推定関数生成部22は、脳波データから当該脳波の信号源を推定するための信号源推定関数を生成する。
実施例における信号源推定関数は、30チャネルの脳波データを入力として受け付け、100個の脳部位それぞれの活動の有無を示すデータを出力する関数である。言い換えれば、それぞれの脳部位が信号源か否かを示すデータを出力する関数である。信号源推定関数は、30チャネルの脳波データから、100個の脳部位それぞれに対して信号源としての重み付けを行う30×100の行列であってもよい。
信号源推定関数生成部22の上記処理は、公知のソフトウェアである株式会社国際電気通信基礎技術研究所が提供するVBMEG(Variational Bayesian Multimodal EncephaloGraphy)により実現される。VBMEGは、脳波データに基づいて脳の皮質電流を推定
することにより信号源を推定するソフトウェアである。脳波データは、脳波の波形を示すデータでもよく、時系列での振幅の推移を示すデータでもよく、脳波の周波数特性を示すデータでもよい。
具体的には、信号源推定関数生成部22は、VBMEGが提供する所定のAPI(Application Programming Interface)に、(1)fMRIにより撮像された脳の構造を示す
画像データ、(2)fMRIにより計測された脳活動データ、(3)頭皮上における電極の設置位置を示すデータ、(4)脳波取得部26により取得された脳波信号のデータを入力することにより、VBMEGに信号源推定関数を生成させる。
信号源推定関数生成部22は、生成した信号源推定関数を信号源推定関数記憶部24に格納する。信号源推定関数記憶部24は、信号源推定関数生成部22により生成された信号源推定関数を記憶する記憶領域である。
脳波取得部26は、脳活動取得部とも言える。脳波取得部26は、被験者の脳活動を示す信号として、脳波計12から入力された脳波信号のデータを取得する。脳波取得部26は、取得した脳波信号のデータを信号源推定関数生成部22と信号源推定部28へ出力する。
信号源推定部28は、脳波取得部26により取得された、被験者の脳活動を示す信号としての脳波の態様に基づいて、被験者(ここでは第1被験者)の脳の複数の部位の中から脳波の信号源を1つ以上推定する。信号源推定部28は、第1被験者の脳波に関する時空間情報(例えば、脳波の波形の形状や、脳波が計測された頭皮上の位置、複数の信号源の位置、大脳皮質の凹凸(いわゆる脳のシワ)の形状、頭皮と脳の間にある組織の導電率等)に基づいて、脳波の信号源を1つ以上推定してもよい。
実施例では、信号源推定部28は、信号源推定関数記憶部24に記憶された信号源推定関数に30チャネルの脳波データを入力することにより、信号源推定関数の出力として、1つ以上の信号源に関するデータ(以下「信号源データ」とも呼ぶ。)を取得する。信号源推定部28は、取得した信号源データを推定結果として学習部32に渡す。
信号源推定部28が出力する信号源データは、複数の信号源(の候補)のそれぞれについて、各信号源から出力された脳波の信号強度(電流の大きさ)の時系列での推移を示すデータである。具体的には、信号源データは、予め定められた100個の信号源のそれぞれから出力された脳波について、0.3秒間内での77時点の信号強度を示すデータである。後述の信号源推定部50が出力する信号源データも同様である。
音声情報取得部30は、脳波計12により脳波が計測され、fMRI装置14により脳活動が計測された被験者に対して呈示されたオリジナル音声のデータを外部の記憶装置等から取得する。音声情報取得部30は、外部から取得したオリジナル音声のデータに対して、公知の音声分析(例えばメルケプストラム分析)を行うことにより、オリジナル音声に関する複数の特徴量(音響特徴量)の時系列での推移を示す情報であるオリジナル音声情報を生成する。図1に示したように、実施例のオリジナル音声情報は、5つの特徴量の時系列データである。
学習部32は、モデル生成部とも言え、音声情報取得部30により取得されたオリジナル音声情報と、信号源推定部28により推定された信号源データとを教師データとして、公知の機械学習手法(実施例では深層学習)により音声推定モデルを生成する。音声推定モデルは、音声が呈示された被験者の脳波の信号源データを入力として受け付け、その被験者が認識すると推定される音声(認識音声)の情報を出力する畳み込みニューラルネットワークである。学習部32は、Keras等の公知のライブラリまたはフレームワークを使用して音声推定モデルを生成してもよい。
変形例として、学習部32が実行する深層学習等の機械学習の処理(例えば音声推定モデルの生成)は、クラウド上のコンピュータ(クラウドコンピュータ)において実行されてもよい。この場合、モデル生成装置16は、通信網を介して、教師データをクラウドコンピュータに渡し、クラウドコンピュータによる学習結果(例えば音声推定モデル)を取得して推定装置18に提供してもよい。推定装置18は、クラウドコンピュータによる学習結果を使用して、被験者の認識音声を推定してもよい。
図4は、音声推定モデルのネットワーク構成を示す。音声推定モデルは、入力層100、複数の畳み込み層102、最大プーリング層104、全結合層106、出力層108を含む。入力層100には、信号源データが示す、100個の信号源のそれぞれについての信号強度の時系列データ(77時点の信号強度)が入力される。出力層108からは、認識音声に関する複数の特徴量の時系列データであり、図4の例では、5つの特徴量について60時点の値を示す認識音声情報が出力される。
図3に戻り、モデル出力部34は、学習部32により生成された音声推定モデルのデータを推定装置18へ送信し、推定装置18のモデル記憶部40に音声推定モデルのデータを記憶させる。
図5は、図2の推定装置18の機能ブロックを示すブロック図である。推定装置18は、モデル記憶部40、fMRI結果取得部42、信号源推定関数生成部44、信号源推定関数記憶部46、脳波取得部48、信号源推定部50、認識音声推定部52、認識音声記憶部54、出力部56、脳内情報生成部62、脳内情報記憶部64を備える。
図5に示す複数の機能ブロックのうち少なくとも一部の機能ブロックの機能が実装されたコンピュータプログラムが、所定の記録媒体に格納され、その記録媒体を介して、推定装置18のストレージにインストールされてもよい。または、上記コンピュータプログラムが、通信網を介してサーバからダウンロードされ、推定装置18のストレージにインストールされてもよい。推定装置18のCPUは、上記コンピュータプログラムをメインメモリに読み出して実行することにより、図5に示す複数の機能ブロックの機能を発揮してもよい。
モデル記憶部40は、モデル生成装置16から送信された音声推定モデルのデータを記憶する。変形例として、モデル生成装置16が、音声推定モデルを記憶する記憶部を備える構成でもよく、この場合、推定装置18は、通信網を介して、モデル生成装置16に記憶された音声推定モデルを参照してもよい。すなわち、推定装置18は、音声推定モデルを記憶するローカルまたはリモートの記憶部にアクセス可能であればよく、言い換えれば、推定装置18は、ローカルまたはリモートの記憶部に記憶された音声推定モデルを参照可能であればよい。
fMRI結果取得部42、信号源推定関数生成部44、信号源推定関数記憶部46、脳波取得部48は、既述したモデル生成装置16のfMRI結果取得部20、信号源推定関数生成部22、信号源推定関数記憶部24、脳波取得部26に対応する。したがって、fMRI結果取得部42、信号源推定関数生成部44、信号源推定関数記憶部46、脳波取得部48について、対応する機能ブロックと共通する内容の説明は適宜省略し、主に、対応する機能ブロックと異なる点を説明する。
fMRI結果取得部42は、fMRI装置14から入力された、認識音声の推定対象の被験者(すなわちオリジナル音声が呈示された第2被験者)の脳活動データを取得する。脳波取得部48は、脳活動取得部とも言える。脳波取得部48は、被験者の脳活動を示す信号として、オリジナル音声が呈示された第2被験者の脳波信号のデータを取得する。
信号源推定関数生成部44は、第2被験者の脳波信号のデータから当該脳波の信号源を推定するための信号源推定関数を生成する。信号源推定関数記憶部46は、第2被験者に関する信号源推定関数を記憶する。なお、実施例では第1被験者と第2被験者が同一人物であるため、推定装置18は、モデル生成装置16により生成された(言い換えれば学習フェーズにおいて生成された)信号源推定関数を使用してもよく、信号源推定関数記憶部46には、モデル生成装置16により生成された信号源推定関数が格納されてもよい。
信号源推定部50は、脳波取得部48により取得された、被験者の脳活動を示す信号としての脳波の態様に基づいて、被験者(ここでは第2被験者)の脳の複数の部位の中から脳波の信号源を1つ以上推定する。信号源推定部50は、第2被験者の脳波に関する時空間情報(例えば、脳波の波形の形状や、脳波が計測された頭皮上の位置、複数の信号源の位置、大脳皮質の凹凸(いわゆる脳のシワ)の形状、頭皮と脳の間にある組織の導電率等)に基づいて、脳波の信号源を1つ以上推定してもよい。
実施例では、信号源推定部50は、信号源推定関数記憶部46に記憶された信号源推定関数に30チャネルの脳波データを入力することにより、信号源推定関数の出力として、1つ以上の信号源に関する信号源データを取得する。信号源推定部50は、取得した信号源データを推定結果として認識音声推定部52に渡す。
認識音声推定部52は、認識音声取得部とも言え、モデル記憶部40に記憶された音声推定モデルのデータをメインメモリに読み出し、信号源推定部50により推定された信号源データを音声推定モデルの入力層に入力する。認識音声推定部52は、音声推定モデルの出力層から出力された、第2被験者が認識すると推定される認識音声の特徴量に関する時系列データ(上述の認識音声情報)を取得する。
認識音声記憶部54は、認識音声推定部52により取得された認識音声情報を記憶する。認識音声推定部52が、認識音声情報を認識音声記憶部54に格納してもよく、認識音声記憶部54が、認識音声推定部52から認識音声情報を認識音声推定部52から取得して記憶してもよい。また、認識音声記憶部54は、揮発性の記憶領域であってもよく、不揮発性の記憶領域であってもよい。
出力部56は、認識音声推定部52により取得された認識音声情報を外部に出力し、実施例では、認識音声記憶部54に記憶された認識音声情報を外部に出力する。出力部56は、再生部58と画像生成部60を含む。再生部58は、認識音声推定部52により取得された認識音声情報であって、実施例では認識音声記憶部54に記憶された認識音声情報に対して公知の音声合成処理を実行することにより、認識音声情報が示す音声を再生し、再生音声をスピーカ(不図示)から出力させる。
画像生成部60は、第2被験者に呈示された音声(すなわちオリジナル音声)のデータを外部の記憶装置(不図示)から取得する。画像生成部60は、オリジナル音声に対して公知のメルケプストラム分析を行い、オリジナル音声の複数の特徴量の推移を示す時系列データ(「オリジナル音声情報」)を生成する。また、画像生成部60は、認識音声記憶部54に記憶された認識音声情報、すなわち認識音声の複数の特徴量の推移を示す時系列データを読み込む。画像生成部60は、オリジナル音声情報と認識音声情報とをもとに、オリジナル音声の波形と認識音声の波形の両方を示す画像(以下「比較画像」とも呼ぶ。)を生成する。
図6は、比較画像の例を示す。同図は、「あ」、「い」、雑音のそれぞれについて、オリジナル音声の波形を破線で示し、認識音声の波形を実線で示している。図6の例では、画像生成部60は、「あ」、「い」、雑音のそれぞれについて、特徴量ごとに重ねた態様の比較画像を生成する。
画像生成部60は、生成した比較画像のデータをローカルまたはリモートの記憶部に格納してもよい。または、画像生成部60は、生成した比較画像のデータを不図示のディスプレイ装置に出力し、そのディスプレイ装置に比較画像を表示させてもよい。
脳内情報生成部62は、認識音声推定部52により信号源データが入力された音声推定モデルに記録された情報を参照して、第2被験者の脳の複数の領域それぞれの認識音声への影響度を示す情報である脳内情報を生成する。脳内情報生成部62は、生成した脳内情報を脳内情報記憶部64に格納する。脳内情報記憶部64は、脳内情報生成部62により生成された脳内情報を記憶する記憶領域である。出力部56は、脳内情報記憶部64に記憶された脳内情報を、ローカルまたはリモートの記憶装置に出力して記憶させ、または、ローカルまたはリモートの表示装置に出力して表示させる。
図7は、脳内情報の生成方法を模式的に示す。既述したが、音声推定モデルは、入力層100、複数の畳み込み層102、最大プーリング層104、全結合層106、出力層108を含む。複数の畳み込み層102は、プーリング層を挟まない複数回のフィルタリング処理により認識音声への影響度が大きい信号源を抽出していくものである。畳み込み層110は、連続する複数の畳み込み層102の中で最後に位置する層であり、脳の複数の領域(すなわち複数の信号源)それぞれの認識音声への影響度に関する情報(重みとも言える)が最も明確に記録される。
脳内情報生成部62は、認識音声推定部52により信号源データが入力され、認識音声情報を出力した音声推定モデルを参照して、畳み込み層110に記録された情報、言い換えれば、畳み込み層110から出力された情報(重み情報とも言える)を読み出して配列70を生成する。図7では、配列70を、100信号源×32チャネル×67時点の一次元配列として例示している。
脳内情報生成部62は、脳内の複数の領域(例えば図7に記載のMOG、IOG、FFG等)のそれぞれについて、1つ以上の信号源との対応関係を予め記憶する。なお、同じ名称の領域であっても左脳と右脳は別領域として扱う。例えば、図7のFFGのLは、左脳のFFGであり、図7のFFGのRは、右脳のFFGである。脳内情報生成部62は、脳内の複数の領域のそれぞれについて、対応する1つ以上の信号源に関する情報をもとに、脳内の各領域が認識音声に及ぼした影響の大きさを示す脳内情報を生成する。
具体的には、脳内情報生成部62は、脳内の各領域について、対応する1つ以上の信号源に関する情報として、1つの信号源あたり32×67個の数値(認識音声への影響の大きさを示す値)の平均値を計算する。脳内情報生成部62は、脳内の各領域の上記平均値を、脳内の各領域の認識音声への影響度を示す値として脳内情報に記録する。
図7の脳内情報71では、オリジナル音声が「あ」の場合の、認識音声に対する脳内各領域の影響度を指標72の長さで示している。また、脳内情報71では、オリジナル音声が「い」の場合の、認識音声に対する脳内各領域の影響度を指標74の長さで示している。また、脳内情報71では、オリジナル音声が雑音(ホワイトノイズ)の場合の、認識音声に対する脳内各領域の影響度を指標76の長さで示している。指標72、指標74、指標76が長いほど、対応する音声の処理を活発に行っていることを示す。
図8と図9は、脳内情報の例を示す。図8は、第2被験者が「あ」、「い」等のオリジナル音声を聞いているときに生成された脳内情報71であり、すなわち、オリジナル音声を聞いているときに音声処理している脳内領域を示す脳内情報71を示している。一方、図9は、第2被験者が過去聞いたオリジナル音声を思い出しているときに生成された脳内情報71であり、すなわち、過去聞いたオリジナル音声を思い出しているときに音声処理している脳内領域を示す脳内情報71を示している。図8と図9の指標72、指標74、指標76は、図7の指標72、指標74、指標76に対応する。
図8の脳内情報71と図9の脳内情報71とを比較することで、音を聞いているときと、音を思い出しているときでの脳内の処理の違いが明らかになる。例えば、領域80、領域82、領域84は、音を聞いているときと思いだしているときの両方で使用される傾向がある。一方、領域86、領域88、領域90、領域92は、音を聞いているときと思いだしているときとで必要性が異なる領域と考えられる。
脳内情報71により、音を聞いているとき、および、音を思い出しているときに脳内のどの領域が活動しているかをリアルタイムに可視化できる。これにより、被験者が音を聞くときの意識の違いによる脳活動の変化を可視化できる。例えば、音が聞こえづらい人の脳活動を脳内情報71により可視化することで、脳内のどの領域の活動が弱いかを把握することができる。また、被験者に音を呈示しつつ、被験者の脳内活動を脳内情報71でリアルタイムに可視化することで、聴覚機能の改善に役立つ情報を得ることできる。
以上の構成による推定システム10の動作を説明する。
まず、主にモデル生成装置16が主体となる学習フェーズの動作を説明する。fMRI装置14は、第1被験者の脳活動を計測し、計測した脳活動データをモデル生成装置16へ出力する。モデル生成装置16のfMRI結果取得部20は、脳活動データを取得し、信号源推定関数生成部22は、VBMEGを起動して信号源推定関数を生成する。具体的には、信号源推定関数生成部22は、第1被験者の脳構造データ、電極位置、脳活動データをパラメータとして、VBMEGが提供する公知の関数をコールすることにより第1被験者用の信号源推定関数を生成する。信号源推定関数生成部22は、第1被験者用の信号源推定関数を信号源推定関数記憶部24に格納する。
脳波計12は、オリジナル音声(例えば「あ」、「い」、または雑音)が呈示された第1被験者の頭皮に設置された電極を介して、第1被験者の脳波を計測する。脳波計12は、第1被験者の脳波データをモデル生成装置16へ出力する。モデル生成装置16の脳波取得部26は、第1被験者の脳波データを取得し、信号源推定部28は、第1被験者の脳波データと、信号源推定関数記憶部24に格納された信号源推定関数とにしたがって、第1被験者の脳波の信号源を推定する。
学習部32は、第1被験者に呈示されたオリジナル音声と、第1被験者の脳波の信号源データとを対応付けた教師データを生成し、その教師データをもとに機械学習を実行する。学習部32は、信号源データを入力として受け付け、オリジナル音声を呈示された被験者が認識すると想定される認識音声情報を出力する音声推定モデルを生成する。モデル出力部34は、音声推定モデルのデータを推定装置18へ送信し、推定装置18のモデル記憶部40に記憶させる。
次に、主に推定装置18が主体となる推定フェーズの動作を説明する。fMRI装置14は、第2被験者の脳活動を計測し、計測した脳活動データを推定装置18へ出力する。推定装置18のfMRI結果取得部42は、脳活動データを取得し、信号源推定関数生成部44は、VBMEGを起動して信号源推定関数を生成する。具体的には、信号源推定関数生成部44は、第2被験者の脳構造データ、電極位置、脳活動データをパラメータとして、VBMEGが提供する公知の関数をコールすることにより第2被験者用の信号源推定関数を生成する。信号源推定関数生成部44は、第2被験者用の信号源推定関数を信号源推定関数記憶部46に格納する。
脳波計12は、オリジナル音声が呈示された第2被験者の頭皮に設置された電極を介して、第2被験者の脳波を計測する。脳波計12は、第2被験者の脳波データを推定装置18へ出力する。推定装置18の脳波取得部48は、第2被験者の脳波データを取得し、信号源推定部50は、第2被験者の脳波データと、信号源推定関数記憶部46に格納された信号源推定関数とにしたがって、第2被験者の脳波の信号源を推定する。
認識音声推定部52は、モデル記憶部40に記憶された音声推定モデルを読み込む。認識音声推定部52は、音声推定モデルに第2被験者の脳波の信号源データを入力し、音声推定モデルから出力された第2被験者に関する認識音声情報を取得する。認識音声推定部52は、第2被験者に関する認識音声情報を認識音声記憶部54に格納する。再生部58は、認識音声記憶部54に記憶された認識音声情報が示す音声を再生する。画像生成部60は、オリジナル音声の波形と、認識音声記憶部54に記憶された認識音声情報が示す認識音声の波形とを並べて示す比較画像を生成する。画像生成部60は、生成した比較画像をローカルまたはリモートの表示装置に表示させる。
脳内情報生成部62は、第2被験者の脳波の信号源データが入力された音声推定モデルに記録された情報を参照して、第2被験者の複数の領域それぞれの認識音声への影響度を示す脳内情報を生成する。脳内情報生成部62は、生成した脳内情報を脳内情報記憶部64に格納する。出力部56は、脳内情報記憶部64に記録された脳内情報を外部機器(記憶装置、表示装置等)に出力する。
実施例の推定システム10によると、被験者(第2被験者)が認識したと想定される音声そのものの情報を生成する。これにより、被験者が健常者である場合に、その被験者が正しく音を認識できているかを調べることができる。また被験者が、植物状態や閉じ込め症候群、乳児等の意思表出ができないまたは困難な人の場合に、その被験者が、音が聞こえているか、また、音が聞こえるだけでなく言語として脳内で認識できているかを調べることができる。また、推定システム10によると、被験者(第2被験者)の認識音声を再生し、または、オリジナル音声の波形と認識音声の波形とを比較容易な態様で示すことにより、呈示された音声が被験者にどのように聞こえているか、また、どの程度認識されているかの判別を支援することができる。
また、推定システム10によると、補聴器を装着した被験者(第2被験者)にオリジナル音声を呈示して、その被験者の認識音声を調べることができる。これにより、使用者の聴覚認識レベルに基づいて、高品質な補聴器の開発を支援することができる。また、推定装置18によると、被験者がオリジナル音声を思い出しているときの認識音声を確認することもできるため、被験者の認知機能の判定を支援することができる。
また、推定システム10によると、被験者の脳内の各領域の活動状況を可視化することができる(例えば図8、図9の脳内情報71)。多くの個人の脳内情報71を蓄積することで、聴覚機能が衰えている人(例えば高齢者や、イヤホンを過度に使用する人)と、聴覚機能が正常な人との違いを、脳領域レベルで可視化することができ、また、健常な聴覚機能を維持するためのトレーニング方法の確立や評価を支援することができる。また、そのトレーニング方法が確立された後は、効果的にトレーニングできているか、また、脳機能が正常に近づいているかをリアルタイムに診断することができる。
また、脳内情報71を提供することにより以下の効果も奏する。(1)授業等の音声を人が集中して聞いているかの判断を支援できる。(2)非母国語(日本人にとっての英語等)が聞き取れない原因が、脳のどこにあるかを調べることを支援できる。(3)音声を聞き間違う原因が、脳のどこにあるか調べることを支援できる。(4)幻聴、耳鳴り等の原因を脳活動の観点から調べることができ、ニューロフィードバックによる治療を支援することができる。
実施例の音声推定モデルの推定精度について補足する。図6に示した比較画像は、推定システム10の実験結果を示すものであり、健常者に呈示されたオリジナル音声の波形と、その健常者の脳波から推定された認識音声の波形とを比較したものである。既述したように、この比較画像では、「あ」、「い」、雑音のそれぞれについて、オリジナル音声の波形を破線で示し、認識音声の波形を実線で示している。
本発明者は、オリジナル音声の波形と認識音声の波形とのズレを、決定係数Rを計算することで評価した。波形が完全一致する場合、R=1となる。
実験の結果、音声「あ」の場合のRは「0.983」、音声「い」の場合のRは「0.957」、雑音の場合のRは「0.997」となった。Rが0.7程度でも波形は類似するため、音声推定モデルの推定精度、すなわち、脳波を用いた音声再合成の精度はかなり高いと言える。
ただし、Rが高くても、認識音声情報をもとに実際に合成した音声(すなわち再生部58により再生された音声)が、オリジナル音声と同じものとして聞こえないのでは意味がないとも言える。そこで、本発明者は、決定係数Rがどの程度であれば、認識音声情報をもとに合成した音声が、オリジナル音声と同じものとして聞こえるかを実験により確認した。
図10(a)と図10(b)は、実験結果を示すグラフである。図10(a)は、被験者がオリジナル音声を耳で聞いているときの脳波から認識音声を合成(再生)した場合の結果を示している。また、図10(b)は、被験者がオリジナル音声を耳で聞いた後に、聞いた音を思い出しているときの脳波から認識音声を合成(再生)した場合の結果を示している。横軸は、オリジナル音声の波形と認識音声の波形とのズレを示す決定係数Rである。折れ線グラフは、認識音声情報をもとに合成した音声がオリジナル音声と同じものとして認識された割合を示している。
実験結果によると、折れ線グラフで示す認識率が80%以上になるためには、Rが0.8~0.85程度必要であることがわかった。さらに、図10(a)と図10(b)におけるヒストグラムは、実際のデータのR分布を示している。図10(a)と図10(b)では、0.8以上のRを示すデータが全体の77.2%~79.3%以上を占めており、音声推定モデルの推定精度が全体的に高いことが示された。
以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。以下、変形例を示す。
第1変形例を説明する。上記実施例では、音声推定モデルをニューラルネットワークにより実現したが、変形例として、他の機械学習の手法により音声推定モデルとしての数理モデルまたは関数を生成してもよい。例えば、モデル生成装置16の学習部32は、SLR(Sparse Logistic Regression)またはSVM(Support Vector Machine)の手法により、入力された信号源データをもとに、被験者の認識音声(例えば認識音声のカテゴリ)を推定する音声推定モデルを生成してもよい。
第2変形例を説明する。上記実施例では、信号源を推定するためにVBMEGを使用したが、他の手法により信号源を推定してもよい。例えば、sLORETA(standardized
Low-Resolution Brain Electromagnetic Tomography)を使用して信号源を推定してもよい。sLORETAは、脳機能イメージング解析の手法であり、脳波や脳磁図による脳内神経活動を脳図譜(言い換えれば標準脳)に重畳して描く解析手法である。
第3変形例を説明する。上記実施例では、fMRI装置14を使用して、ユーザの脳波の信号源(言い換えれば脳活動)を特定したが、fMRI装置14を使用しない構成も可能である。例えば、解剖学的な知見、および/または、脳波計12の電極の三次元位置から推定される頭蓋骨の形状に基づいて、脳波の態様と信号源との対応関係を仮定または特定する構成でもよく、この場合、fMRI装置14は不要になる。信号源推定部28は、上記対応関係に基づいて信号源を推定してもよい。
第4変形例を説明する。上記実施例では、第1被験者と第2被験者が同一人物であるとしたが、変形例として、第1被験者と第2被験者は異なる人であってもよい。例えば、第1被験者は、健常者(音声を理解でき、意思表出も可能な人)である一方、第2被験者は、聴覚に障害のある人、植物状態の人、閉じ込め症候群の人等、意思表出(意思疎通とも言える)が困難な人であってもよい。この場合、第1被験者としての健常者の脳波(及びその信号源)をもとに作成した音声推定モデルを用いて、第2被験者としての意思表出困難者が認識したと想定される音声を合成し、再現してもよい。
第5変形例を説明する。上記実施例に記載の技術を応用して、第2被験者が任意の音声を想起する(言い換えれば思い浮かべる、思い出す)場合に、第2被験者が想起した音声を推定する情報処理装置(推定装置18)を実現することができる。本変形例の推定装置18のモデル記憶部40は、複数種類の音声の情報(例えば日本語の「あ」~「ん」)と、複数種類の音声のそれぞれが提示された第1被験者の脳波の信号源に関する情報とを教師データとして機械学習により構築された音声推定モデルのデータを記憶してもよい。推定装置18の脳波取得部48は、任意の音声(例えば「あ」~「ん」のいずれか)を想起した第2被験者の脳波を取得してもよい。推定装置18の認識音声推定部52は、第2被験者の脳波の信号源に関する情報を上記音声推定モデルに入力して、上記音声推定モデルから出力された、第2被験者が想起したと推定される音声(想起音声)の情報を取得してもよい。この態様によると、被験者(第2被験者)が思い浮かべたと想定される音声そのものの情報を生成することができる。
第5変形例の推定装置18は、想起音声に関連して、実施例の認識音声と同様の処理、出力を実行してもよい。例えば、(1)推定装置18の再生部58は、想起音声の情報が示す音声を再生してもよい。また、(2)音声推定モデルには、第2被験者の脳の複数の領域それぞれの想起音声への影響度に関する情報が記録されてもよい。推定装置18の脳内情報生成部62は、音声推定モデルに記録された情報を参照して、第2被験者の脳の複数の領域それぞれの想起音声への影響度を示す脳内情報を生成してもよい。
想起音声は、第2被験者が頭に思い浮かべた音声(言葉を含む)であり、第2被験者が外部へ顕示しない音声を含む。また、想起音声は、第2被験者の頭に無意識に浮かんだ音声(言葉を含む)を含む。すなわち、第5変形例の推定システム10によると、第2被験者が意識して考えなくても、第2被験者の頭に浮かんだ音声の情報を得ることができる。例えば、第2被験者が、外部へ顕示する建前を主に考え、頭の片隅で本音を思い浮かべていた場合、建前に関する音声と本音に関する音声の両方を含む情報を得ることができる。
第6変形例を説明する。上記の実施例および変形例では、第1被験者および第2被験者の脳活動を示す信号として、脳波を用いた。本変形例では、第1被験者および第2被験者の脳活動を示す信号として、脳磁波を用いてもよい。この場合、推定システム10は、図2に示す脳波計12に代えて、脳の電気的な活動によって生じる磁場を計測する脳磁計を備えてもよい。モデル生成装置16および推定装置18の脳活動取得部は、脳磁計により計測された脳磁波のデータを取得してもよい。モデル生成装置16および推定装置18の信号源推定部は、脳磁波の態様に基づいて脳磁波の信号源を推定してもよい。
第6変形例の別の態様として、第1被験者および第2被験者の脳活動を示す信号として、NIRS脳計測装置(光トポグラフィー(登録商標)とも言える)による計測結果を用いてもよい。NIRS脳計測装置は、大脳皮質における血流量や、ヘモグロビンの増減、酸素交換量等の指標となる信号を計測してもよい。この場合、推定システム10は、図2に示す脳波計12に代えて、NIRS脳計測装置を備えてもよい。モデル生成装置16および推定装置18の脳活動取得部は、NIRS脳計測装置により計測された信号のデータを取得してもよい。モデル生成装置16および推定装置18の信号源推定部は、NIRS脳計測装置により計測された信号の態様に基づいて当該信号の信号源を推定してもよい。
上述した実施の形態および変形例の任意の組み合わせもまた本開示の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施の形態および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。
本開示の技術は、人が認識または想起する音声を推定する装置またはシステムに適用することができる。
10 推定システム、 18 推定装置、 26 脳波取得部、 28 信号源推定部、 40 モデル記憶部、 48 脳波取得部、 50 信号源推定部、 52 認識音声推定部、 54 認識音声記憶部、 58 再生部、 60 画像生成部、 62 脳内情報生成部。

Claims (7)

  1. 所定の音声の情報と、前記所定の音声が呈示された第1被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能な装置であって、
    前記所定の音声が呈示された第2被験者の脳活動を示す信号を取得する脳活動取得部と、
    前記脳活動取得部により取得された脳活動を示す信号の態様に基づいて、前記第2被験者の脳の複数の領域の中から前記脳活動を示す信号の信号源を推定する信号源推定部と、
    前記信号源推定部により推定された信号源に関する情報を前記モデルに入力して、前記モデルから出力された、前記第2被験者が認識すると推定される音声である認識音声の情報を取得する認識音声取得部と、
    を備えることを特徴とする情報処理装置。
  2. 前記認識音声取得部により取得された認識音声の情報が示す音声を再生する再生部をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  3. 脳内情報生成部をさらに備え、
    前記信号源に関する情報が入力されたモデルには、前記第2被験者の脳の複数の領域それぞれの前記認識音声への影響度に関する情報が記録され、
    前記脳内情報生成部は、前記モデルに記録された情報を参照して、前記第2被験者の脳の複数の領域それぞれの前記認識音声への影響度を示す脳内情報を生成することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記所定の音声の波形と、前記認識音声の波形の両方を示す画像を生成する画像生成部をさらに備えることを特徴とする請求項1から3のいずれかに記載の情報処理装置。
  5. 所定の音声の情報と、前記所定の音声が呈示された第1被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能な装置であって、
    任意の音声を想起した第2被験者の脳活動を示す信号を取得する脳活動取得部と、
    前記脳活動取得部により取得された脳活動を示す信号の態様に基づいて、前記第2被験者の脳の複数の領域の中から前記脳活動を示す信号の信号源を推定する信号源推定部と、
    前記信号源推定部により推定された信号源に関する情報を前記モデルに入力して、前記モデルから出力された、前記第2被験者が想起したと推定される音声の情報を取得する音声取得部と、
    脳内情報生成部と、
    を備え、
    前記モデルは、プーリング層を挟まずに連続する複数の畳み込み層を備えるニューラルネットワークであり、
    前記複数の畳み込み層は、複数回のフィルタリング処理により前記第2被験者が想起したと推定される音声への影響度が大きい信号源を抽出していくものであり、
    前記脳内情報生成部は、前記複数の畳み込み層の中で最後に位置する畳み込み層に記録された情報を参照して、前記第2被験者が想起したと推定される音声に対する前記第2被験者の脳の複数の領域それぞれの影響度を示す脳内情報を生成することを特徴とする情報処理装置。
  6. 所定の音声の情報と、前記所定の音声が呈示された第1被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能なコンピュータが、
    前記所定の音声が呈示された第2被験者の脳活動を示す信号を取得するステップと、
    取得された脳活動を示す信号の態様に基づいて、前記第2被験者の脳の複数の領域の中から前記脳活動を示す信号の信号源を推定するステップと、
    推定された信号源に関する情報を前記モデルに入力して、前記モデルから出力された、前記第2被験者が認識すると推定される音声である認識音声の情報を取得するステップと、
    を実行することを特徴とする情報処理方法。
  7. 所定の音声の情報と、前記所定の音声が呈示された第1被験者の脳活動を示す信号の信号源に関する情報とを教師データとして機械学習により構築されたモデルであって、入力された被験者の脳活動を示す信号の信号源に関する情報をもとに、当該被験者が認識すると推定される音声の情報を出力するモデルを記憶するモデル記憶部にアクセス可能なコンピュータが、
    任意の音声を想起した第2被験者の脳活動を示す信号を取得するステップと、
    取得された脳活動を示す信号の態様に基づいて、前記第2被験者の脳の複数の領域の中から前記脳活動を示す信号の信号源を推定するステップと、
    推定された信号源に関する情報を前記モデルに入力して、前記モデルから出力された、前記第2被験者が想起したと推定される音声の情報を取得するステップと、
    を実行し、
    前記モデルは、プーリング層を挟まずに連続する複数の畳み込み層を備えるニューラルネットワークであり、
    前記複数の畳み込み層は、複数回のフィルタリング処理により前記第2被験者が想起したと推定される音声への影響度が大きい信号源を抽出していくものであり、
    前記複数の畳み込み層の中で最後に位置する畳み込み層に記録された情報を参照して、前記第2被験者が想起したと推定される音声に対する前記第2被験者の脳の複数の領域それぞれの影響度を示す脳内情報を生成するステップを前記コンピュータがさらに実行することを特徴とする情報処理方法。
JP2022527621A 2020-05-27 2021-04-30 情報処理装置および情報処理方法 Active JP7623716B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020092110 2020-05-27
JP2020092110 2020-05-27
PCT/JP2021/017180 WO2021241138A1 (ja) 2020-05-27 2021-04-30 情報処理装置および情報処理方法

Publications (3)

Publication Number Publication Date
JPWO2021241138A1 JPWO2021241138A1 (ja) 2021-12-02
JPWO2021241138A5 JPWO2021241138A5 (ja) 2023-03-23
JP7623716B2 true JP7623716B2 (ja) 2025-01-29

Family

ID=78744430

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527621A Active JP7623716B2 (ja) 2020-05-27 2021-04-30 情報処理装置および情報処理方法

Country Status (4)

Country Link
US (1) US20230233132A1 (ja)
EP (1) EP4147636A4 (ja)
JP (1) JP7623716B2 (ja)
WO (1) WO2021241138A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7840535B2 (ja) * 2022-05-30 2026-04-06 国立研究開発法人情報通信研究機構 気分推定プログラム
CN116211305A (zh) * 2022-12-20 2023-06-06 重庆邮电大学 动态实时情绪检测方法及系统
WO2025094727A1 (ja) * 2023-10-30 2025-05-08 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157482A1 (en) 2007-12-13 2009-06-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for indicating behavior in a population cohort
US20190107888A1 (en) 2017-10-06 2019-04-11 Holland Bloorview Kids Rehabilitation Hospital Brain-computer interface platform and process for classification of covert speech
WO2019146753A1 (ja) 2018-01-26 2019-08-01 国立研究開発法人情報通信研究機構 脳活動を利用した語学能力評価装置、及び語学能力評価システム
US20190333505A1 (en) 2018-04-30 2019-10-31 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Decoding Intended Speech from Neuronal Activity

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155559A (ja) * 2011-01-26 2012-08-16 Mariko Matsumoto 生体信号を用いた発話支援装置、発話支援システム、及びプログラム
JP6643771B2 (ja) * 2015-10-13 2020-02-12 株式会社国際電気通信基礎技術研究所 脳活動解析装置、脳活動解析方法および脳活動解析プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157482A1 (en) 2007-12-13 2009-06-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for indicating behavior in a population cohort
US20190107888A1 (en) 2017-10-06 2019-04-11 Holland Bloorview Kids Rehabilitation Hospital Brain-computer interface platform and process for classification of covert speech
WO2019146753A1 (ja) 2018-01-26 2019-08-01 国立研究開発法人情報通信研究機構 脳活動を利用した語学能力評価装置、及び語学能力評価システム
US20190333505A1 (en) 2018-04-30 2019-10-31 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Decoding Intended Speech from Neuronal Activity

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AKASHI Wataru et al.,Vowel Sound Synthesis from Electroencephalography during Listening and Recalling,Advanced Intelligent Systems,ドイツ,2021年01月07日,Volume.3, Issue2,https://doi.org/10.1002/aisy.202000164
西元 淳,脳活動信号を用いた音声識別,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2013年09月17日,Vol.113, No.223,pp.41-46

Also Published As

Publication number Publication date
EP4147636A4 (en) 2024-05-15
US20230233132A1 (en) 2023-07-27
JPWO2021241138A1 (ja) 2021-12-02
WO2021241138A1 (ja) 2021-12-02
EP4147636A1 (en) 2023-03-15

Similar Documents

Publication Publication Date Title
Li et al. Sensitivity analysis of changes in human physiological indicators observed in soundscapes
Aziz-Zadeh et al. Common premotor regions for the perception and production of prosody and correlations with empathy and prosodic ability
Coffey et al. Cortical contributions to the auditory frequency-following response revealed by MEG
Möttönen et al. Processing of changes in visual speech in the human auditory cortex
Giordano et al. The representational dynamics of perceived voice emotions evolve from categories to dimensions
Young et al. Evidence for a caregiving instinct: rapid differentiation of infant from adult vocalizations using magnetoencephalography
JP7623716B2 (ja) 情報処理装置および情報処理方法
CN117838154B (zh) 一种基于脑电的认知下降风险评估方法及系统
Liu et al. Auditory–articulatory neural alignment between listener and speaker during verbal communication
Schüller et al. Attentional modulation of the cortical contribution to the frequency-following response evoked by continuous speech
Shahin et al. Sensitivity of EEG and MEG to the N1 and P2 auditory evoked responses modulated by spectral complexity of sounds
Carey et al. Vocal tract images reveal neural representations of sensorimotor transformation during speech imitation
CN109102862A (zh) 正念减压系统及方法、存储介质、操作系统
Gupta et al. PhySyQX: A database for physiological evaluation of synthesised speech quality-of-experience
Saygin et al. Nonverbal auditory agnosia with lesion to Wernicke's area
Wisniewski et al. Familiarity with speech affects cortical processing of auditory distance cues and increases acuity
Jäncke et al. Pre-attentive modulation of brain responses to tones in coloured-hearing synesthetes
Schüller et al. The early subcortical response at the fundamental frequency of speech is temporally separated from later cortical contributions
TWI482611B (zh) Emotional brainwave imaging method
Hamzah et al. EEG‐Based Emotion Recognition Datasets for Virtual Environments: A Survey
JP7840535B2 (ja) 気分推定プログラム
JPS58500933A (ja) 脳の電気的活動状態のマッピング(ビ−ム)
Osnes et al. Increased activation in superior temporal gyri as a function of increment in phonetic features
Dourou et al. IoT-enabled analysis of subjective sound quality perception based on out-of-lab physiological measurements
WO2023074656A1 (ja) プログラム、情報処理方法、及び情報処理装置

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20221122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250109

R150 Certificate of patent or registration of utility model

Ref document number: 7623716

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150