JP2015132783A - 音の顕著度推定装置、その方法、及びプログラム - Google Patents

音の顕著度推定装置、その方法、及びプログラム Download PDF

Info

Publication number
JP2015132783A
JP2015132783A JP2014005528A JP2014005528A JP2015132783A JP 2015132783 A JP2015132783 A JP 2015132783A JP 2014005528 A JP2014005528 A JP 2014005528A JP 2014005528 A JP2014005528 A JP 2014005528A JP 2015132783 A JP2015132783 A JP 2015132783A
Authority
JP
Japan
Prior art keywords
sound
time interval
feature amount
feature
saliency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014005528A
Other languages
English (en)
Other versions
JP5718493B1 (ja
Inventor
惇 米家
Makoto Yoneya
惇 米家
シンイ リャオ
Hsin-I Liao
シンイ リャオ
茂人 古川
Shigehito Furukawa
茂人 古川
牧夫 柏野
Makio Kayano
牧夫 柏野
俊介 木谷
Shunsuke Kidani
俊介 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014005528A priority Critical patent/JP5718493B1/ja
Application granted granted Critical
Publication of JP5718493B1 publication Critical patent/JP5718493B1/ja
Publication of JP2015132783A publication Critical patent/JP2015132783A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Eye Examination Apparatus (AREA)
  • Complex Calculations (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

【課題】単一試行で対象音が目立つか否かを推定できる技術を提供する。【解決手段】音の顕著度推定装置は、第1時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第2時間区間を前記所定の音を受聴可能としない時間区間とし、第1時間区間においてヒトの瞳孔の大きさの変化を表す第1特徴量と、第2時間区間に対応するヒトの瞳孔の大きさの変化を表す第2特徴量と、を抽出する特徴量抽出部と、第1特徴量と第2特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定部とを含む。【選択図】図2

Description

本発明は、音の目立ち度合いを推定する技術に関する。
従来、同じ基準音を繰り返し呈示する中で、時々、基準音に代えて別の音(=目立つ音)を呈示するという実験において、別の音が呈示されたときの脳波(EEG)が大きな振幅を示すという知見(MMN: Mismatch-negativity)が知られている(非特許文献1参照)。
R. Naatanena, P. Paavilainena, T. Rinned, K. Alhod, "The mismatch negativity (MMN) in basic research of central auditory processing: A review", Clinical Neurophysiology, 2007, Volume 118, Issue 12, Pages 2544-2590.
MMNによれば、脳波の振幅を観測することで、対象者にとって、対象とする音(以下、「対象音」ともいう)が目立つ音か否かを推定することができる。
脳波はノイズを多く含むため、MMNは多数の試行平均から導かれる指標である。そのため、単一試行で対象音が目立つか否かを推定することはできない。
本発明は、単一試行で対象音が目立つか否か(すなわち音の目立ち度合い)を推定できる技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、音の顕著度推定装置は、第1時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第2時間区間を所定の音を受聴可能としない時間区間とし、第1時間区間に対応するヒトの瞳孔の大きさの変化を表す第1特徴量と、第2時間区間に対応するヒトの瞳孔の大きさの変化を表す第2特徴量と、を抽出する特徴量抽出部と、第1特徴量と第2特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定部とを含む。
上記の課題を解決するために、本発明の第二の態様によれば、音の顕著度推定方法は、第1時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第2時間区間を所定の音を受聴可能としない時間区間とし、第1時間区間に対応するヒトの瞳孔の大きさの変化を表す第1特徴量と、第2時間区間に対応するヒトの瞳孔の大きさの変化を表す第2特徴量と、を抽出する特徴量抽出ステップと、第1特徴量と第2特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定ステップとを含む。
上記の課題を解決するために、本発明の第三の態様によれば、音の顕著度推定方法は、モデル記憶部には、ヒトの瞳孔の大きさの変化を表す特徴量を少なくとも含む特徴量ベクトルと音の目立ち度合いとの相関性を記述したモデルである顕著度推定モデルが記憶されているものとして、所定の音を受聴可能なようにヒトに呈示する第1時間区間に対応するヒトの瞳孔の大きさの変化を表す第1特徴量を抽出する特徴量抽出ステップと、第1特徴量を入力として、顕著度推定モデルを参照することにより、所定の音の顕著度を推定する顕著度推定ステップとを含む。
本発明によれば、単一試行で対象音の目立ち度合いを推定できるという効果を奏する。
瞳孔の大きさの変化を表す図。 第一及び第二実施形態に係る音の顕著度推定装置の機能ブロック図。 第一及び第二実施形態に係る音の顕著度推定装置の処理フローの例を示す図。 速度が最大となる時刻Taと立ち上がり時間Tpとを説明するための図。 実験の一例について説明するための図。 実験結果を示す図。 マイクロサッカードを表す図。 第三及び第四実施形態に係る音の顕著度推定装置の機能ブロック図。 第三及び第四実施形態に係る音の顕著度推定装置の処理フローの例を示す図。 ドリフトの速度Vdを説明するための図。 基準振幅A'、オーバーシュートの振幅Ao及び立ち上がり時間Tp、最大速度Vmax及びオーバーシュートの速度Voを説明するための図。 実験結果を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態>
本実施形態では、人の瞳孔の大きさの変化に基づいて、音の目立ち度合いを推定する。なお、音の目立ち度合いを顕著度ともいい、「顕著度の高い音」としては、注意深く対象音を聴いているときに目立つ音だけでなく、注意せずに不意に聞こえて目立つ音をも含む。まず、瞳孔の大きさの変化について説明する。人がある一点を注視しているとき、瞳孔の大きさは一定ではなく、変化している。図1は瞳孔の大きさの変化を表す図であり、横軸は時間(秒)を、縦軸は瞳孔の大きさを表す。
瞳孔の大きさは交感神経系の支配を受けた瞳孔散大筋によって拡大(散瞳)し、副交感神経系の支配を受けた瞳孔括約筋によって収縮(縮瞳)する。図1では、破線部分は縮瞳を表し、二重線部分は散瞳を表す。瞳孔の大きさの変化は主に対光反射、輻輳反射、感情による変化の3つに区別される。対光反射は、網膜に入射する光量を制御するために瞳孔の大きさが変化する反応のことで、強い光に対しては縮瞳、暗所では散瞳が生じる。輻輳反射は、焦点を合わせる際に両眼が内転あるいは外転する運動(輻輳運動)に伴って瞳孔径が変化する反応のことで、近くを見るときには縮瞳、遠くを見るときには散瞳が生じる。感情による変化は、上記のいずれにもよらず外界のストレスに対して生じる反応のことで、怒りや驚き、活発な活動に伴って交感神経が優位となる際には散瞳が生じ、リラックスして副交感神経が優位となる際には縮瞳が生じる。目立つ音の知覚に際しても、驚きに近い感覚によって交感神経が優位となり、散瞳が生じやすいものと考えられる。そのため、縮瞳よりも散瞳に関する特徴のほうが、音の目立ち度合いの推定に適しているので、本実施形態では、瞳孔の大きさの変化のうち、散瞳に関する特徴に基づいて、顕著音を推定する。
図2は第一実施形態に係る音の顕著度推定装置10の機能ブロック図、図3はその処理フローの例を示す図である。
音の顕著度推定装置10は、音呈示部11、瞳孔情報取得部12、特徴量抽出部13及び顕著度推定部14を含む。
<音呈示部11>
音呈示部11は、第1時間区間においては、所定の音(推定対象の音であり、以下、対象音ともいう)を受聴可能なように人(以下、対象者ともいう)に呈示し、第1時間区間と異なる第2時間区間においては、上記所定の音が受聴可能でないものとする(s11)。例えば、第1時間区間においては、ヘッドホンやスピーカなどにより、受聴可能な音量で所定の音を呈示する。ただし所定の音の呈示時間が短い場合(〜数十ms程度など)、第1時間区間の中に散瞳を含むように、所定の音が呈示された直後の時間帯についても、所定の音以外の音を呈示していないという条件を満たす限り、数秒程度までであれば第1時間区間の定義として含めてもよい。第2時間区間においては、所定の音と異なる音を受聴可能なように対象者に呈示しても良いし、何も音を呈示しなくても良い。あるいは、所定の音を出力していても、音量が極めて小さいなど、対象者にとって受聴可能な状態でなければよい。ただし、第2時間区間は第1時間区間とは重複しないように設定され、第1時間区間と同じ長さの時間帯として設定される。
<瞳孔情報取得部12>
瞳孔情報取得部12は、第1時間区間および第2時間区間のそれぞれに対応する、対象者の瞳孔の大きさを取得し(s12)、特徴量抽出部13へ出力する。例えば、瞳孔の大きさとして、瞳孔径(瞳孔の半径)を用いる場合には、瞳孔径は、赤外線カメラを用いた画像処理法で計測される。第1時間区間および第2時間区間において、対象者には、ある1点を注視してもらうようにし、その時の瞳孔を赤外線カメラを用いて撮像する。そして、撮像した結果を画像処理することで、時間毎(例えば、1000Hz)の瞳孔径の時系列を取得する。なお、左右両方の瞳孔の大きさを取得してもよいし、何れか一方の瞳孔の大きさのみを取得してもよい。本実施形態では、一方の瞳孔の大きさのみを取得するものとする。例えば、瞳孔を撮影した画像に対して、瞳孔にフィッティングした円の半径を用いる。また、瞳孔径は微細に変動するため、所定の時間区間ごとにスムージング(平滑化)した値を用いるとよい。ここで、図1における瞳孔の大きさは、各時刻について取得した瞳孔径の全データの平均を0、標準偏差を1としたときのz-scoreを用いて表したものであり、約150ms間隔でスムージングしたものである。ただし、瞳孔情報取得部12で取得する瞳孔径はz-scoreでなくとも、瞳孔径の値そのものであっても良いし、瞳孔の面積や直径など、瞳孔の大きさに対応する値であれば何でも良い。瞳孔の面積や直径を用いる場合も、時間の経過とともに瞳孔の面積または直径が大きくなる区間が散瞳に対応し、時間の経過とともに瞳孔の面積または直径が小さくなる区間が縮瞳に対応する。すなわち、時間の経過とともに瞳孔の大きさが大きくなる区間が散瞳に対応し、時間の経過とともに瞳孔の大きさが小さくなる区間が縮瞳に対応する。
なお、一般に、対光反射に伴う瞳孔の大きさの変化量は、感情による変化量と比較して数倍程度の大きさとなり、瞳孔の大きさの変化量全体に対する大きな要因となる。対光反射および輻輳反射による変化を抑え、目立つ音の知覚に関する成分のみに着目しやすくするために、瞳孔径を取得するときの対象者に呈示する画面の輝度および画面から対象者までの距離は一定に保つものとする。
<特徴量抽出部13>
特徴量抽出部13は、第1時間区間および第2時間区間に対応する瞳孔の大きさの時系列を受け取り、それぞれの時間区間に対応する瞳孔の大きさの時系列から、第1時間区間と第2時間区間のそれぞれに対応する瞳孔の大きさの変化を表す特徴量を抽出し(s13)、顕著度推定部14に出力する。第1時間区間について抽出される特徴量を第1特徴量とし、第2時間区間について抽出される特徴量を第2特徴量とする。
瞳孔の大きさの変化を表す特徴量は、顕著度推定するための指標ともいえる。言い換えれば、瞳孔の大きさの時系列のうち、散瞳が起きている区間における瞳孔の大きさの変化を表す特徴量であり、具体的には、散瞳の平均速度V、散瞳の振幅A、散瞳が起きているときの瞳孔径の時系列を位置制御系のステップ応答としてモデル化したときの減衰係数ζの少なくともいずれか1つ以上を含む特徴量である。振幅Aは、極大点から極小点までの瞳孔径の差である(図1参照)。散瞳の平均速度Vは、(振幅A)/(立ち上がり時間Tp)である。立ち上がり時間Tpは極大点から極小点までの時間である(図1参照)。例えば、特徴量抽出部13は、瞳孔径の時系列から極大点及び極小点を検出し、それを用いて、振幅A、平均速度V、立ち上がり時間Tpを算出する。このとき、振幅が一定の値以上のもののみを算出する構成としてもよい。
なお、縮瞳及び散瞳は、サーボ系としての特徴を示し、面積制御系(三次遅れ系)のステップ応答として記述でき、本実施形態では位置制御系(二次遅れ系)のステップ応答として近似して考える。位置制御系のステップ応答は、固有角振動数をωとして、
Figure 2015132783
と表される。ここでG(s)は伝達係数,y(t)は位置, y'(t)は速度を表す。減衰係数ζの導出には、速度が最大となる時刻Taと立ち上がり時間Tpとの比を用いて(図4参照)、
Figure 2015132783
となることを利用する。そして、減衰係数ζ及び固有角振動数ωは、それぞれ
Figure 2015132783
と表される。ただし、tは時刻を表すインデックスであり、sはラプラス変換によるパラメタ(複素数)である。固有角振動数ωは瞳孔の大きさの変化における応答の速さを表す指標に相当し、減衰係数ζは、瞳孔の大きさの変化における応答の振動性に対応する指標に相当する。
なお、第1時間区間において、複数回の散瞳が含まれる場合には、それぞれの散瞳について求めた平均速度V、振幅Aまたは減衰係数ζの代表値を第1時間区間に対応する散瞳の特徴として用いる。代表値とは、例えば平均値、最大値、最小値、最初の散瞳に対応する値などである。特に平均値を用いることが好ましい。また、第1時間区間の中に1回も散瞳が含まれない場合は、第1時間区間の直後の散瞳(第1時間区間よりも時間的に後ろで、かつ、最も第1時間区間に近い時刻に生じる散瞳)について求めた平均速度V、振幅Aまたは減衰係数ζの代表値を第1時間区間に対応する散瞳の特徴として用いる。つまり、第1時間区間に対応する瞳孔の大きさに関する情報は、少なくとも1回散瞳を含むように取得されているものとする。第2時間区間についても同様のことが言える。
<顕著度推定部14>
顕著度推定部14は、第1時間区間について特徴量抽出部13が抽出した第1特徴量と、第2時間区間について特徴量抽出部13が抽出した第2特徴量との相違の度合いに基づいて、所定の音(対象音)の目立ち度合い(顕著度)を推定する(s14)。
具体的には、特徴量が散瞳の平均速度V及び散瞳の振幅Aである場合には、第1特徴量が第2特徴量よりも大きく、かつ、その差が大きいほど、顕著度が高いと推定する。
あるいは、特徴量が散瞳の減衰係数ζである場合には、第1特徴量が第2特徴量よりも小さく、かつ、その差が大きいほど、顕著度が高いと推定する。
これは、減衰係数ζや散瞳の平均速度V、振幅Aと対象音の顕著度との間に、以下のような相関関係があることが、実験により明らかになったことに基づく。
(1)散瞳の平均速度Vが増加するほど、顕著度が大きい。
(2)散瞳の振幅Aが増加するほど、顕著度が大きい。
(3)散瞳の減衰係数ζが減少するほど、顕著度が大きい。
なお、平均速度V、振幅A、減衰係数ζのいずれか1つを単独で用いてもよいし、組み合わせて用いてもよい。例えば、何れか二つを満たせばよい、三つ全てを満たせばよい、等と設定してもよい。すなわち、第1時間区間と第2時間区間についての、平均速度V、振幅A、減衰係数ζのいずれか1つ以上の特徴量の各々についての相違の度合いに基づき、対象音の目立ち度合いを推定してもよい。
散瞳の平均速度や振幅は交感神経の活動強度を反映するため、音の顕著度との相関がみられるものと考えられる。減衰係数ζは、散瞳を位置制御系(二次遅れ系)のステップ応答としてみたときの応答の振動性に対応する指標である。顕著度の高い音(顕著音)を聴いたときは、音に意識が向けられることで、瞳孔の制御に関わる脳の中枢あるいは瞳孔散大筋(または瞳孔括約筋)にも一時的な影響があらわれ、応答の振動性(減衰係数)の変化として観測できると考えられる。
以下に、図5を用いて実験の一例について説明する。同じ基準音(standard、図中、○で表す、例えば1000Hzの純音)を繰り返し呈示する中で、1%の頻度で基準音に代えて別の音(odd、図中、●で表す、例えば、白色雑音)を呈示する。この別の音(odd)は基準音と比較して呈示される頻度が少ないため、目立って聞こえる顕著音であると考えられることから、以下では顕著音(odd)とする。各音は300msの間隔で、50msの間、呈示する。このときの被験者(7人)の瞳孔径の時系列から上述の特徴量を測定した。平均速度の測定結果を図6に示す。各音の開始をt=0とした試行平均を示し、個人毎に-300ms〜0msまでの平均を0、標準偏差を1として正規化した。各時刻の値は、その時刻から+300msまでに生じた散瞳全体の統計量を表す。なお、基準音(standard)を表す破線と、顕著音(odd)を表す実線とは、それぞれ平均値を表し、各線の上下の網掛け部分はそれぞれの標準誤差を表す。
結果、顕著音の呈示直後には平均速度が増加する傾向にあることが確認された。すなわち、顕著音が呈示されている時間区間(第1時間区間)における散瞳の平均速度(第1特徴量)と、基準音が呈示されている時間区間(第2時間区間)における散瞳の平均速度(第2特徴量)とを比較すると、第1特徴量の方が第2特徴量よりも大きい傾向にある。また、音の顕著度が高いほど、第1特徴量と第2特徴量の差、すなわち平均速度の変化量の絶対値が増加する傾向がある。
また、実験の結果、顕著音が呈示されている時間区間(第1時間区間)における散瞳の振幅(第1特徴量)と、基準音が呈示されている時間区間(第2時間区間)における散瞳の振幅(第2特徴量)とを比較すると、平均速度と同様に、第1特徴量の方が第2特徴量よりも大きい傾向にあることが確認された。
さらに、実験の結果、顕著音が呈示されている時間区間(第1時間区間)における散瞳の減衰係数(第1特徴量)と、基準音が呈示されている時間区間(第2時間区間)における散瞳の減衰係数(第2特徴量)とを比較すると、第1特徴量の方が第2特徴量よりも小さい傾向にあることが確認された。これは、顕著音を聴いているときに生じる散瞳の振動性が高くなっていることを示している。
また、いずれの場合も、音の顕著度が高いほど、第1特徴量と第2特徴量の差(の絶対値)が大きい傾向にある。すなわち、音の顕著度が高いほど、平均速度、振幅、減衰係数の変化が顕著に表れる。
なお、実験では、対象音(顕著音)と基準音という2種類の音を用いたが、基準音として対象音と異なる音が発せられているとは限らず、何も音が発せられていなくても同様の傾向が観測される。要するに、所定の音(顕著音)が受聴可能なように呈示されている時間区間(第1時間区間)と、所定の音が受聴可能でない時間区間(第2時間区間)における瞳孔の大きさの変化に相違がある。
この知見に基づき、顕著度推定部14は、所定の音が受聴可能なように呈示されている第1時間区間における瞳孔の大きさの変化の特徴量である第1特徴量と、所定の音が受聴可能でない第2時間区間における瞳孔の大きさの変化の特徴である第2特徴量との相違の度合いに基づいて、所定の音の顕著度を推定する。
具体的には、特徴量が散瞳の減衰係数である場合には、第1特徴量の方が第2特徴量よりも小さい場合に、音の顕著度が高いと推定する。また、第1特徴量と第2特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第2時間区間において所定の音(第1時間区間の音)とは異なる音が呈示されているとすれば、第1特徴量と第2特徴量のうち小さい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。
特徴量が散瞳の平均速度または振幅である場合には、第1特徴量の方が第2特徴量よりも大きい場合に、音の顕著度が高いと推定する。また、第1特徴量と第2特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第2時間区間において所定の音(第1時間区間の音)とは異なる音が呈示されているとすれば、第1特徴量と第2特徴量のうち大きい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。
<効果>
このような構成により、瞳孔の大きさの変化に基づいて、対象者にとっての所定の音の目立ち度合いを推定することができる。瞳孔の大きさの変化は、計測ノイズが少ない特徴量なので、単一試行で所定の音の目立ち度合いを推定できる。また、一般的に、脳波を測定する機器等は大掛かりなものとなりやすく、労力的にも金銭的にもコストが高い。しかし、眼球の位置を測定する場合には、一般的に脳波を測定する機器に比べ、小さな規模で(対象者を拘束することなく)行うことができ、労力的にも金銭的にもコストを低減できる。
<変形例1>
顕著度推定装置10は、音呈示部11及び瞳孔情報取得部12を含まなくともよい。すなわち、音呈示部11及び瞳孔情報取得部12の少なくとも1つを別装置として構成し、別装置から対象音及び各時間区間ごとの瞳孔の大きさの少なくとも1つを受け取る構成とすればよい。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第二実施形態の音の顕著度推定装置20は、第一実施形態の特徴量抽出部13と顕著度推定部14の代わりに、特徴量抽出部23と顕著度推定部24を含み、さらに、モデル記憶部25を含む(図2参照)。第二実施形態では、第2時間区間について取得した第2特徴量を用いない点が異なる。すなわち、音呈示部11と瞳孔情報取得部12は第一実施形態とほとんど同じであるが、第2時間区間についての処理は行わない。顕著度推定部24では、第一実施形態のように第2時間区間との相対比較をしない代わりに、モデル記憶部25を参照することにより、対象者にとっての対象音(第1時間区間に呈示された音)の顕著度を推定する。
<特徴量抽出部23>
特徴量抽出部23は、第1時間区間に対応する瞳孔の大きさの時系列を受け取り、第1時間区間に対応する瞳孔の大きさの時系列から、瞳孔の大きさの変化を表す特徴量を抽出し(s23)、顕著度推定部24に出力する。
このとき、第一実施形態と同様に散瞳の平均速度V、散瞳の振幅A、散瞳が起きているときの瞳孔径の時系列を位置制御系のステップ応答としてモデル化したときの減衰係数ζの少なくとも何れか1つ以上を含む特徴量を抽出する。なお、本実施形態では上述の値の少なくとも何れか1つ以上を要素として含むベクトル(以下、「特徴量ベクトル」ともいう)を特徴量として抽出する。あるいは、散瞳の平均速度V、振幅A、減衰係数ζの少なくとも何れか1つに加えて、以下の値を要素として含む特徴量ベクトルを特徴量として抽出しても良い(図1参照)。
(1)散瞳が起きているときの瞳孔径の時系列を位置制御系のステップ応答としてモデル化したときの散瞳の固有角振動数ωn
(2)立ち上がり時間Tp
(3)発生頻度に対応するパラメータ
(3-1)直前(i-1番目)の散瞳から現在(i番目)の散瞳までの時間ΔTi
(3-2)現在(i番目)の散瞳から次(i+1番目)の散瞳までの時間ΔTi+1
なお、上記(3)に関しては、第1時間区間の時刻の先頭に近い散瞳から順に1番目、2番目、…と順序を付けているものとする。
(4)瞳孔の大きさの変化を表す特徴量として、縮瞳に関するパラメータを要素として含む特徴量ベクトルを抽出してもよい。例えば、縮瞳の平均速度、振幅、減衰係数、固有角振動数、立ち上がり時間、発生頻度に対応するパラメータ(直前の縮瞳から現在の縮瞳までの時間、現在の縮瞳から次の縮瞳までの時間)の何れか一つ以上を、特徴量ベクトルの要素として加えてもよい。なお、前述の通り、驚きを感じた際には交感神経が優位になるため、交感神経に支配される散瞳に関する特徴のほうが、縮瞳に関する特徴よりも音の目立ち度合いの推定に適していると考えられる。しかし、驚きを感じた際に副交感神経が働かないわけではないため、縮瞳に関する特徴も音の目立ち度合いと何らかの関係があり、音の目立ち度合いの推定に寄与するものと考えられる。
第一実施形態と同様に、第1時間区間の中に複数の散瞳や縮瞳が含まれる場合には、上述のV, A, ζ, ωn, Tp, ΔTi, ΔTi+1や縮瞳に関するパラメータは第1時間区間に含まれる各散瞳や各縮瞳について求めた値の代表値(例えば平均値)を用いるものとする。また、第1時間区間内に1回も散瞳や縮瞳が含まれない場合には、第1時間区間直後の散瞳や縮瞳の特徴量を、第1時間区間に対応する特徴量として用いる。
<顕著度推定部24>
顕著度推定部24は、第1時間区間について抽出した特徴量を受け取り、第1時間区間に呈示された音の顕著度を推定する(s24)。本実施形態では、第1時間区間について抽出された特徴量から顕著度推定モデルを用いて(参照することにより)、第1時間区間に呈示された音の顕著度を推定し、出力する。言い換えれば、顕著度推定部24は、特徴量抽出部23で抽出した第1時間区間についての特徴量を、モデル記憶部25に記憶された顕著度推定モデル(特徴量から顕著度を推定するためのモデル)にあてはめることにより、顕著度を推定し取得する。
<モデル記憶部25>
モデル記憶部25は、特徴量を入力として、顕著度を出力するような顕著度推定モデルが予め記録されている。顕著度推定モデルは、予め1人以上の人について取得した特徴量と顕著度との関係性を機械学習法により学習することで、作成される。つまり、顕著度推定モデルは、第1特徴量と顕著度との相関性を記述したモデルである。
例えば、学習用に用意した顕著度が分かっている所定の音をある時間区間において受聴可能なようにある人(対象者)に呈示し、その間の対象者の瞳孔の大きさの時系列を取得し、取得した瞳孔の大きさの時系列から、特徴量を抽出する。ここで抽出する特徴量は、特徴量抽出部23で抽出する特徴量と同じとする。
同様の特徴量抽出を複数の異なる所定の音について行い、所定の音に付与された顕著度とその音が呈示されている時間区間において抽出した特徴量とを組としたデータセットの複数の異なる音についての集合を学習用データとして用意しておく。なお、何も音を呈示していない時間区間において、対象者の対象者の瞳孔の大きさの時系列を取得し、取得した瞳孔の大きさの時系列から抽出した特徴量を、顕著度0と対応付けて学習データに含めてもよい。
この学習用データを入力データとし、機械学習法により、顕著度と特徴量との関係を学習する。
例えば、機械学習法としてサポートベクターマシン(Support vector machine、以下SVMともいう)等がある。この場合は、予め所定の音に付与する顕著度を、顕著度が高い(1)または顕著度が低い(0)の2値として、特徴量ベクトルの次元に対応する空間において、顕著度が高いときの特徴量ベクトルに対応する点群と、顕著度が低いときの特徴量ベクトルに対応する点群とを分離する超平面を求めることができる。これにより、得られる顕著度推定モデルに、顕著度が未知の特徴量(特徴量抽出部23で得られた特徴量)を入力すると、その特徴量が顕著音が高いことに対応するか、顕著音が低いことに対応するかを推定することができる。
例えば、散瞳の平均速度V、振幅A、減衰係数ζを単独で、または、それらの組合せを、要素として含む特徴量ベクトルを用いて、SVMにより学習を行う。
また、散瞳の平均速度V、振幅A、減衰係数ζ、固有角振動数ωn、立ち上がり時間Tp、散瞳までの時間ΔTi、ΔTi+1を要素として含む特徴量ベクトルを用いて、SVMにより学習を行う。この特徴量ベクトルに、さらに、縮瞳に関するパラメータ(例えば、縮瞳の平均速度、振幅、減衰係数、固有角振動数、立ち上がり時間、発生頻度に対応するパラメータ(直前の縮瞳から現在の縮瞳までの時間、現在の縮瞳から次の縮瞳までの時間))を要素として加えても良い。
要素の数を増やすことで、推定の精度を高めることができる。なお、散瞳の平均速度V、振幅A、減衰係数ζを要素として含む特徴量ベクトルを用いたときに、推定精度が高いことが実験等により明らかとなった。
顕著音が高い/低い、の2値分類に限らず、複数クラス(顕著度に対応するクラス)に分類するようにSVMを構成することも可能である。あるいは、複数クラス(顕著度に対応するクラス)識別分類するような機械学習法であれば、SVMに限らず他の機械学習法を用いてもよい。
なお、学習用データを取得する対象である対象者は、実際に顕著度を推定する人と同一人物である必要はない。また、複数の人について得られた学習データを基に顕著度推定モデルを学習すると、より精度の高い推定を行うことができる。また、対象者毎に、音の顕著度に対応して表れる特徴量が異なる場合があるので、学習データを取得する対象者を顕著度を推定する人と同一人物として対象者毎に、顕著度推定モデルを作成すれば、個人の特性に合わせたより精度の高い推定を行うことができる。
<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
本実施形態では、瞳孔の大きさの変化と、人の眼球の動きの表れる微細な跳躍性眼球運動(以下、マイクロサッカード(microsaccade)ともいう)とに基づいて、顕著度を推定する。まず、マイクロサッカードについて説明する。人がある一点を注視しているとき、眼球は完全に動きを止めているわけではなく、固視微動と呼ばれる三種類の眼球運動(ドリフト(drift,trendといってもよい)、トレマ、マイクロサッカード(フリックといってもよい))を行っている。ドリフトは小さな滑らかな動き、トレマは非常に小さな高周波の振動、マイクロサッカードは小さな跳ぶような動きである。図7はマイクロサッカードを表す図であり、横軸は時間(秒)を、縦軸は視野角を表す。詳しく説明すると、マイクロサッカードとは、ある一点を注視している状態において、1〜2秒の間に1回程度、対象者の意思とは関係なく(非随意的に)表れる眼球の動きであって、小さな跳ぶような動きのことである(図7の太線部分)。マイクロサッカードは、動きの水平方向の成分、垂直方向の成分のどちらからでも取得することができる。ただし、マイクロサッカードが水平方向に偏向する性質に基づき、本実施形態では、簡単のため水平方向の成分のみを用いる。なお、「水平方向」とは、地面と完全に平行な方向に限定する意味ではなく、顔に対しての水平方向(眼球の配列方向であり、横方向、幅方向といってもよい)や後述する眼球運動取得部32において水平方向と定義付られた方向を含む概念である。
図8は第一実施形態に係る音の顕著度推定装置30の機能ブロック図、図9はその処理フローの例を示す図である。
音の顕著度推定装置30は、音呈示部11、瞳孔情報取得部12、眼球運動取得部32、特徴量抽出部33及び顕著度推定部34を含む。音呈示部11及び瞳孔情報取得部12の処理内容は第一実施形態と同様である。
<眼球運動取得部32>
眼球運動取得部32は、第1時間区間および第2時間区間のそれぞれに対応する、対象者の眼球の位置情報を取得し(s32)、特徴量抽出部33へ出力する。例えば、第1時間区間および第2時間区間において、対象者には、ある1点を注視してもらうようにし、その時の眼球の動きを赤外線カメラを用いて撮像する。そして、撮像した結果を画像処理することで、時間毎(例えば、1000Hz)の眼球の位置の時系列を眼球の位置情報として取得する。
<特徴量抽出部33>
特徴量抽出部33は、特徴量抽出部13と同様の処理を行う。つまり、特徴量抽出部33は、第1時間区間および第2時間区間に対応する瞳孔径の時系列を受け取り、それぞれの時間区間に対応する瞳孔径の時系列から、第1時間区間と第2時間区間のそれぞれに対応する瞳孔の大きさの変化を表す特徴量を抽出し(s13)、顕著度推定部34に出力する。さらに、以下の処理を行う。
特徴量抽出部33は、第1時間区間および第2時間区間に対応する眼球の位置情報を受け取り、それぞれの時間区間に対応する眼球の位置情報の時系列から、第1時間区間と第2時間区間のそれぞれに対応するマイクロサッカードの特徴を特徴量として抽出し(s33)、顕著度推定部34に出力する。
例えば、眼球の位置情報の時系列について1次階差系列を計算し、階差系列の絶対値が所定の閾値を上回る時間区間をマイクロサッカードが起きている区間として検出する。取得された眼球の位置情報にノイズが多く含まれると判断される場合などには、1次階差系列の計算にあたって適当な範囲での移動平均値を用いても良い。検出に用いる閾値には、階差系列の標準偏差の6倍程度の値を用いることが好ましい。
マイクロサッカードの特徴に対応する特徴量は、音の顕著度を推定するための指標ともいえる。言い換えれば、眼球の位置情報の時系列のうち、マイクロサッカードが起きている区間における眼球運動を表す特徴量である。特徴量は、具体的には、マイクロサッカードが起きているときの眼球位置の時系列を位置制御系のステップ応答としてモデル化したときの減衰率λ、もしくは、減衰係数ζ'、または、マイクロサッカードの前後のドリフトの速度Vd(図10参照)の少なくとも何れか1つ以上を含む特徴量である。位置制御系のステップ応答は、固有角振動数をω'として、
Figure 2015132783
と表される。ここでG(s)は伝達係数,y(t)は位置, y'(t)は速度を表し、
Figure 2015132783
と表される。ただし、tは時刻を表すインデックスであり、sはラプラス変換によるパラメタ(複素数)である。固有角振動数ω'はマイクロサッカードの応答の速さを表す指標に相当し、減衰係数ζ'はマイクロサッカードの応答の正確性に対応する指標に相当する。また、A', Vmax, Ao, Vo, T'pはそれぞれ以下を表す(図11参照)。
(1)基準振幅A':マイクロサッカードによる眼球の動きが収束したときの移動量である。
(2)最大速度Vmax:基準振幅A'+オーバーシュートの振幅Aoに達するまでの最大の速度である。
(3)オーバーシュート(overshoot)の振幅Ao:マイクロサッカードによって基準振幅A'を超過した(行き過ぎた)部分の量である。オーバーシュートとは、波形の立ち上がり部分で、波形が基準振幅A'を超えて突出する現象、または、その突出した波形である。言い換えると、オーバーシュートの振幅とは、突出した部分の量である。
(4)オーバーシュートの速度Vo:基準振幅A'+オーバーシュートの振幅Aoから基準振幅A'に収束しようとする際の最大の速度である。
(5)立ち上がり時間T'p:基準振幅A'+オーバーシュートの振幅Aoに達する(立ち上がる)までにかかる時間である。なお、基準振幅A'+オーバーシュートの振幅Aoの値は、最大速度Vmaxからオーバーシュートの速度Voに達するまでにかかる時間と同じ値となる。
なお、第1時間区間において、複数回のマイクロサッカードが含まれる場合には、それぞれのマイクロサッカードについて求めた減衰率λ、もしくは、減衰係数ζ、または、マイクロサッカードの前後のドリフトの速度Vdの代表値を第1時間区間に対応するマイクロサッカードの特徴として用いる。代表値とは、例えば平均値、最大値、最小値、最初のマイクロサッカードに対応する値などである。特に平均値を用いることが好ましい。また、第1時間区間の中に1回もマイクロサッカードが含まれない場合は、第1時間区間の直後のマイクロサッカード(第1時間区間よりも時間的に後ろで、かつ、最も第1時間区間に近い時刻に生じるマイクロサッカード)について求めた減衰率λ、もしくは、減衰係数ζ、または、マイクロサッカードの前後のドリフトの速度Vdの代表値を第1時間区間に対応するマイクロサッカードの特徴として用いる。つまり、第1時間区間に対応する眼球の位置情報は、少なくとも1回マイクロサッカードを含むように取得されているものとする。第2時間区間についても同様のことが言える。
<顕著度推定部34>
顕著度推定部34は、第1時間区間について特徴量抽出部33が抽出した第1特徴量と、第2時間区間について特徴量抽出部33が抽出した第2特徴量との相違の度合いに基づいて、所定の音(対象音)の目立ち度合い(顕著度)を推定する(s34)。
なお、本実施形態では、第1特徴量及び第2特徴量に(1)平均速度V、振幅A、減衰係数ζのいずれか1つ、または、その組合せと、(2)減衰率λ、ドリフトの速度Vd、減衰係数ζ'のいずれか1つ、または、その組合せとが含まれる。
(1)平均速度V、振幅A、減衰係数ζと顕著度との関係は第一実施形態で説明した通りである。
ここで、(2)減衰率λ、ドリフトの速度Vd、減衰係数ζ'と顕著度との関係を説明する。
特徴量が減衰率λもしくはドリフトの速度Vdである場合には、第1特徴量が第2特徴量よりも大きく、かつ、その差が大きいほど、顕著度が高いと推定する。
あるいは、特徴量が減衰係数ζ'である場合には、第1特徴量が第2特徴量よりも小さく、かつ、その差が大きいほど、顕著度が高いと推定する。
これは、減衰係数ζ'や減衰率λ、ドリフトの速度Vdと対象音の顕著度との間に、以下のような相関関係があることが、実験により明らかになったことに基づく。
(1)減衰係数ζ'の変化量が大きいほど、顕著度が大きい。
(2)減衰率λの変化量が大きいほど、顕著度が大きい。なお、減衰係数と減衰率は負の相関関係にある。
(3)マイクロサッカードの前後のドリフトの速度Vdが増加するほど、顕著度が大きい。
なお、減衰係数ζ'、減衰率λ、ドリフトの速度Vdのいずれか1つを単独で用いてもよいし、組み合わせて用いてもよい。例えば、何れか二つを満たせばよい、三つ全てを満たせばよい、等と設定してもよい。すなわち、第1時間区間と第2時間区間についての、減衰係数ζ'、減衰率λ、ドリフトの速度Vdのいずれか1つ以上の特徴量の各々についての相違の度合いに基づき、対象音の目立ち度合いを推定してもよい。
なお、減衰係数ζ'は、マイクロサッカードを位置制御系(二次遅れ系)のステップ応答としてみたときの、応答の正確性に対応する指標である。顕著音を聴いているときは、音に意識が向けられることで、マイクロサッカードの制御に関わる脳の中枢あるいは外眼筋にも一時的な影響があらわれ、応答の正確性(減衰係数)の変化として観測できると考えられる。
図5の実験を行った場合の減衰係数ζ'の測定結果を図12に示す。ただし、被験者の人数を10人とした。結果、顕著音の呈示直後には減衰係数が減少する傾向にあることが確認された。すなわち、顕著音が呈示されている時間区間(第1時間区間)におけるマイクロサッカードの減衰係数(第1特徴量)と、基準音が呈示されている時間区間(第2時間区間)におけるマイクロサッカードの減衰係数(第2特徴量)とを比較すると、第1特徴量の方が第2特徴量よりも小さい傾向にある。また、音の顕著度が高いほど、第1特徴量と第2特徴量の差、すなわち減衰係数の変化量の絶対値が増加する傾向がある。
減衰率λは減衰係数ζと負の相関関係を持つ指標であるため、減衰係数ζとは逆に、顕著音が呈示されている時間区間(第1時間区間)におけるマイクロサッカードの減衰係数(第1特徴量)と、基準音が呈示されている時間区間(第2時間区間)におけるマイクロサッカードの減衰係数(第2特徴量)とを比較すると、第1特徴量の方が第2特徴量よりも大きい傾向にある。
また、ドリフトは前述の通り、固視微動の一つであり、人がある一点を注視しているときの眼球の小さな滑らかな動きのことであり、顕著音を聴いているときは、音に意識が向けられることで、マイクロサッカードの制御に関わる脳の中枢あるいは外眼筋にも一時的な影響があらわれることで、マイクロサッカードの前後のドリフトの速度Vdにも変化が表れる。実験では、減衰率と同様に、顕著音が呈示されている時間区間(第1時間区間)におけるマイクロサッカードの前後のドリフトの速度Vd(第1特徴量)と、基準音が呈示されている時間区間(第2時間区間)におけるマイクロサッカードの前後のドリフトの速度Vd(第2特徴量)とを比較すると、第1特徴量の方が第2特徴量よりも大きい傾向にあることが確認された。
また、いずれの場合も、音の顕著度が高いほど、第1特徴量と第2特徴量の差(の絶対値)が大きい傾向にある。すなわち、音の顕著度が高いほど、減衰係数や減衰率、ドリフトの速度の変化が顕著に表れる。
なお、実験では、対象音(顕著音)と基準音という2種類の音を用いたが、基準音として対象音と異なる音が発せられているとは限らず、何も音が発せられていなくても同様の傾向が観測される。要するに、所定の音(顕著音)が受聴可能なように呈示されている時間区間(第1時間区間)と、所定の音が受聴可能でない時間区間(第2時間区間)におけるマイクロサッカードの特徴に相違がある。
この知見に基づき、顕著度推定部34は、所定の音が受聴可能なように呈示されている第1時間区間におけるマイクロサッカードの特徴量である第1特徴量と、所定の音が受聴可能でない第2時間区間におけるマイクロサッカードの特徴である第2特徴量との相違の度合いに基づいて、所定の音の顕著度を推定する。
具体的には、特徴量がマイクロサッカードの減衰係数である場合には、第1特徴量の方が第2特徴量よりも小さい場合に、音の顕著度が高いと推定する。また、第1特徴量と第2特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第2時間区間において所定の音(第1時間区間の音)とは異なる音が呈示されているとすれば、第1特徴量と第2特徴量のうち小さい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。
特徴量がマイクロサッカードの減衰率またはドリフトの速度である場合には、第1特徴量の方が第2特徴量よりも大きい場合に、音の顕著度が高いと推定する。また、第1特徴量と第2特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第2時間区間において所定の音(第1時間区間の音)とは異なる音が呈示されているとすれば、第1特徴量と第2特徴量のうち大きい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。
本実施形態では、(1)平均速度V、振幅A、減衰係数ζのいずれか1つ、または、その組合せにおいて、上述の要件を満たし、かつ、(2)減衰率λ、ドリフトの速度Vd、減衰係数ζ'のいずれか1つ、または、その組合せにおいて、上述の要件を満たせばよい、等と設定してもよい。すなわち、第1時間区間と第2時間区間についての、(1)平均速度V、振幅A、減衰係数ζのいずれか1つ以上の特徴量の各々についての相違の度合いと、(2)減衰係数ζ'、減衰率λ、ドリフトの速度Vdのいずれか1つ以上の特徴量の各々についての相違の度合いとに基づき、対象音の目立ち度合いを推定してもよい。
<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、マイクロサッカードの特徴を考慮することで、推定精度を向上させることができる。
<変形例1>
顕著度推定装置30は、音呈示部11、瞳孔情報取得部12及び眼球運動取得部32を含まなくともよい。すなわち、音呈示部11、瞳孔情報取得部12及び眼球運動取得部32の少なくとも1つを別装置として構成し、別装置から対象音、各時間区間ごとの瞳孔の大きさ及び眼球の位置情報の少なくとも1つを受け取る構成とすればよい。
<第四実施形態>
第二実施形態と異なる部分を中心に説明する。
第四実施形態の音の顕著度推定装置40は、第二実施形態の特徴量抽出部23とモデル記憶部25の代わりに、特徴量抽出部43とモデル記憶部45を含み、さらに、眼球運動取得部32を含む(図8参照)。本実施形態では、モデル記憶部45を参照することにより、対象者にとっての対象音の顕著度を推定する。眼球運動取得部32の処理内容は、第三実施形態で説明した通りである。
<特徴量抽出部43>
特徴量抽出部43は、特徴量抽出部23と同様の処理を行う。つまり、第1時間区間に対応する瞳孔径の時系列を受け取り、第1時間区間に対応する瞳孔径の時系列から、瞳孔の大きさの変化を表す特徴量を抽出する(s23)。さらに、以下の処理を行う。
特徴量抽出部43は、第1時間区間に対応する眼球の位置情報を受け取り、第1時間区間に対応する眼球の位置情報の時系列から、マイクロサッカードの特徴に対応する値を抽出する(s43)。
瞳孔の大きさの変化に対応する値とマイクロサッカードの特徴に対応する値とを要素として含む特徴量ベクトルを顕著度推定部24に出力する。
瞳孔の大きさの変化に対応する値として、第二実施形態で説明した値が考えられる。例えば、散瞳の平均速度V、振幅A、減衰係数ζ、散瞳の固有角振動数ωn、立ち上がり時間Tp、発生頻度に対応するパラメータ(直前(i-1番目)の散瞳から現在(i番目)の散瞳までの時間ΔTi、現在(i番目)の散瞳から次(i+1番目)の散瞳までの時間ΔTi+1)、縮瞳に関するパラメータ等である。
マイクロサッカードの特徴に対応する値として、第三実施形態と同様にマイクロサッカードの減衰係数ζ、減衰率λ、ドリフトの速度Vdが考えられる。さらに、以下の値が考えられる(図7、10及び11参照)。
(1)基準振幅A':マイクロサッカードによる眼球の動きが収束したときの移動量。
(2)最大速度Vmax:基準振幅A'+オーバーシュートの振幅Aoに達するまでの最大の速度。
(3)立ち上がり時間T'p:基準振幅A'+オーバーシュートの振幅Aoに達する(立ち上がる)までにかかる時間である。なお、基準振幅A'+オーバーシュートの振幅Aoの値は、最大速度Vmaxからオーバーシュートの速度Voに達するまでにかかる時間と同じ値となる。
(4)オーバーシュート(overshoot)の振幅Ao:マイクロサッカードによって基準振幅A'を超過した(行き過ぎた)部分の量である。オーバーシュートとは、波形の立ち上がり部分で、波形が基準振幅A'を超えて突出する現象、または、その突出した波形である。言い換えると、オーバーシュートの振幅とは、突出した部分の量である。
(5)オーバーシュートの速度Vo:基準振幅A'+オーバーシュートの振幅Aoから基準振幅A'に収束しようとする際の最大の速度である。
(6)位置制御系のステップ応答としてモデル化したときの固有角振動数ω'n
(7)発生頻度に対応するパラメータ(図7参照)
(7−1)直前(i-1番目)のマイクロサッカードから現在(i番目)のマイクロサッカードまでの時間ΔT'i
(7−2)現在(i番目)のマイクロサッカードから次(i+1番目)のマイクロサッカードまでの時間ΔT'i+1
なお、上記(7)に関しては、第1時間区間の時刻の先頭に近いマイクロサッカードから順に1番目、2番目、…と順序を付けているものとする。
第三実施形態と同様に、第1時間区間の中に複数のマイクロサッカードが含まれる場合には、上述のA, Vmax, Tp, Ao, Vo, ωn, ΔTi, ΔTi+1は第1時間区間に含まれる各マイクロサッカードについて求めた値の代表値(例えば平均値)を用いるものとする。また、第1時間区間内に1回もマイクロサッカードが含まれない場合には、第1時間区間直後のマイクロサッカードの特徴量を、第1時間区間に対応する特徴量として用いる。
<モデル記憶部45>
モデル記憶部45は、特徴量を入力として、顕著度を出力するような顕著度推定モデルが予め記録されている。本実施形態では、特徴量として、第二実施形態で説明した特徴量に加え、特徴量抽出部43で抽出した特徴量の一部または全部を含む。つまり、特徴量ベクトルの要素として、第二実施形態で説明したものに加え、減衰係数(ζ'),減衰率(λ),ドリフトの速度(Vd)、基準振幅(A'),オーバーシュートの振幅(Ao),最大速度(Vmax),オーバーシュートの速度(Vo)、立ち上がり時間(T'p),発生頻度に関するパラメータ(ΔT'i,ΔT'i+1)、固有角振動数ω'nの中の一部または全部を含む。
要素の数を増やすことで、推定の精度を高めることができる。なお、減衰係数(ζ),減衰率(λ),ドリフトの速度(Vd)、基準振幅(A),オーバーシュートの振幅(Ao), 最大速度(Vmax),オーバーシュートの速度(Vo)を要素として含む特徴量ベクトルを用いたときに、推定精度が高いことが実験等により明らかとなった。
なお、顕著度推定モデルは、第二実施形態で説明した方法と同様の方法により作成することができる。
<効果>
このような構成により、第二実施形態と同様の効果を得ることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (10)

  1. 第1時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第2時間区間を前記所定の音を受聴可能としない時間区間とし、第1時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第1特徴量と、第2時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第2特徴量と、を抽出する特徴量抽出部と、
    前記第1特徴量と前記第2特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定部とを含む、
    音の顕著度推定装置。
  2. 第1時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第2時間区間を前記所定の音を受聴可能としない時間区間とし、第1時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第1特徴量と、第2時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第2特徴量と、を抽出する特徴量抽出ステップと、
    前記第1特徴量と前記第2特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定ステップとを含む、
    音の顕著度推定方法。
  3. 請求項2の音の顕著度推定方法であって、
    前記第1特徴量及び前記第2特徴量は、散瞳の平均速度、または、散瞳の振幅を少なくとも含み、
    前記顕著度推定ステップは、
    前記第2特徴量に含まれる散瞳の平均速度、または、散瞳の振幅よりも前記第1特徴量に含まれる散瞳の平均速度、または、散瞳の振幅が大きく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが大きいと推定する、
    および/または、
    前記第2特徴量に含まれる散瞳の平均速度、または、散瞳の振幅よりも前記第1特徴量に含まれる散瞳の平均速度、または、散瞳の振幅が小さく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが小さいと推定する、
    音の顕著度推定方法。
  4. 請求項2の音の顕著度推定方法であって、
    前記第1特徴量及び前記第2特徴量は、瞳孔の大きさの変化を位置制御系のステップ応答としてモデル化したときの減衰係数を少なくとも含み、
    前記顕著度推定ステップは、
    前記第2特徴量に含まれる減衰係数よりも前記第1特徴量に含まれる減衰係数が小さく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが大きいと推定する、
    および/または、
    前記第2特徴量に含まれる減衰係数よりも前記第1特徴量に含まれる減衰係数が大きく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが小さいと推定する、
    音の顕著度推定方法。
  5. 請求項2記載の音の顕著度推定方法であって、
    前記第2時間区間において前記所定の音と異なる第2の音を受聴可能なように前記ヒトに呈示するものとし、
    前第1特徴量及び前記第2特徴量は、散瞳の平均速度、または、散瞳の振幅を少なくとも含み、
    前記第1特徴量に含まれる散瞳の平均速度、または、散瞳の振幅と前記第2特徴量に含まれる散瞳の平均速度、または、散瞳の振幅のうち、値が大きい方の特徴量に対応する時間区間に呈示された音についての前記顕著度推定ステップの推定結果は、他方の時間区間に呈示された音についての前記顕著度推定ステップの推定結果よりも音の目立ち度合いが大きいことに対応する、
    ことを特徴とする音の顕著度推定方法。
  6. 請求項2の音の顕著度推定方法であって、
    前記第2時間区間において前記所定の音と異なる第2の音を受聴可能なように前記ヒトに呈示するものとし、
    前記第1特徴量及び前記第2特徴量は、瞳孔の大きさの変化を位置制御系のステップ応答としてモデル化したときの減衰係数を少なくとも含み、
    前記第1特徴量に含まれる減衰係数と前記第2特徴量に含まれる減衰係数のうち、値が小さい方の特徴量に対応する時間区間に呈示された音についての前記顕著度推定ステップの推定結果は、他方の時間区間に呈示された音についての前記顕著度推定ステップの推定結果よりも音の目立ち度合いが大きいことに対応する、
    ことを特徴とする音の顕著度推定方法。
  7. モデル記憶部には、ヒトの瞳孔の大きさの変化を表す特徴量を少なくとも含む特徴量ベクトルと音の目立ち度合いとの相関性を記述したモデルである顕著度推定モデルが記憶されているものとして、
    所定の音を受聴可能なようにヒトに呈示する第1時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第1特徴量を抽出する特徴量抽出ステップと、
    前記第1特徴量を入力として、前記顕著度推定モデルを参照することにより、前記所定の音の顕著度を推定する顕著度推定ステップとを含む、
    音の顕著度推定方法。
  8. 請求項7の音の顕著度推定方法であって、
    前記第1特徴量は、散瞳の平均速度、散瞳の振幅、及び、瞳孔の大きさの変化を位置制御系のステップ応答としてモデル化したときの減衰係数の少なくとも何れかを要素として含む特徴量ベクトルである、
    音の顕著度推定方法。
  9. 請求項2から6の何れかの音の顕著度推定方法であって、
    前記特徴量抽出ステップにおいて、第1時間区間に対応する前記ヒトの瞳孔の大きさの変化を表し、かつ、第1時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第1特徴量と、第2時間区間に対応する前記ヒトの瞳孔の大きさの変化を表し、かつ、第2時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第2特徴量と、を抽出し、
    前記顕著度推定ステップにおいて、第1時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す前記第1特徴量と、第2時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す前記第2特徴量との相違の度合いと、1時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する前記第1特徴量と、第2時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する前記第2特徴量との相違の度合いとに基づいて、前記所定の音の目立ち度合いを推定する、
    音の顕著度推定方法。
  10. 請求項2から9の何れかの音の顕著度推定方法をコンピュータに実行させるためのプログラム。
JP2014005528A 2014-01-16 2014-01-16 音の顕著度推定装置、その方法、及びプログラム Active JP5718493B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014005528A JP5718493B1 (ja) 2014-01-16 2014-01-16 音の顕著度推定装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014005528A JP5718493B1 (ja) 2014-01-16 2014-01-16 音の顕著度推定装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP5718493B1 JP5718493B1 (ja) 2015-05-13
JP2015132783A true JP2015132783A (ja) 2015-07-23

Family

ID=53277424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014005528A Active JP5718493B1 (ja) 2014-01-16 2014-01-16 音の顕著度推定装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5718493B1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017184996A (ja) * 2016-04-05 2017-10-12 渡 倉島 瞳孔径拡大による脳活動量判定装置およびプログラム
JP2017202047A (ja) * 2016-05-10 2017-11-16 日本電信電話株式会社 特徴量抽出装置、推定装置、それらの方法、およびプログラム
JP2019126423A (ja) * 2018-01-22 2019-08-01 日本電信電話株式会社 聴覚的注意推定装置、聴覚的注意推定方法、プログラム
KR102196096B1 (ko) * 2019-12-30 2020-12-30 박종화 음원의 음량 표준화 방법 및 장치
WO2021044249A1 (ja) * 2019-09-06 2021-03-11 株式会社半導体エネルギー研究所 情報処理装置
WO2021048682A1 (ja) * 2019-09-12 2021-03-18 株式会社半導体エネルギー研究所 分類方法
WO2023012941A1 (ja) * 2021-08-04 2023-02-09 日本電信電話株式会社 聴覚注意状態推定装置、学習装置、それらの方法、およびプログラム
KR102726873B1 (ko) * 2020-12-21 2024-11-06 박종화 음원의 음량 표준화 방법 및 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7415460B2 (ja) * 2019-11-11 2024-01-17 マツダ株式会社 車両制御装置及び運転者状態判定方法
JP7415459B2 (ja) * 2019-11-11 2024-01-17 マツダ株式会社 車両制御装置及び運転者状態判定方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4208614B2 (ja) * 2003-03-17 2009-01-14 亀山 渉 映像コンテンツの評価装置
JP4179968B2 (ja) * 2003-11-13 2008-11-12 花王株式会社 リラックス感評価用瞳孔対光反応計測具
WO2007102053A2 (en) * 2005-09-16 2007-09-13 Imotions-Emotion Technology Aps System and method for determining human emotion by analyzing eye properties

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017184996A (ja) * 2016-04-05 2017-10-12 渡 倉島 瞳孔径拡大による脳活動量判定装置およびプログラム
JP2017202047A (ja) * 2016-05-10 2017-11-16 日本電信電話株式会社 特徴量抽出装置、推定装置、それらの方法、およびプログラム
JP2019126423A (ja) * 2018-01-22 2019-08-01 日本電信電話株式会社 聴覚的注意推定装置、聴覚的注意推定方法、プログラム
WO2021044249A1 (ja) * 2019-09-06 2021-03-11 株式会社半導体エネルギー研究所 情報処理装置
JP7548914B2 (ja) 2019-09-06 2024-09-10 株式会社半導体エネルギー研究所 情報処理装置
WO2021048682A1 (ja) * 2019-09-12 2021-03-18 株式会社半導体エネルギー研究所 分類方法
JP7522746B2 (ja) 2019-09-12 2024-07-25 株式会社半導体エネルギー研究所 分類方法
US12080104B2 (en) 2019-09-12 2024-09-03 Semiconductor Energy Laboratory Co., Ltd. Classification method
KR102196096B1 (ko) * 2019-12-30 2020-12-30 박종화 음원의 음량 표준화 방법 및 장치
KR102726873B1 (ko) * 2020-12-21 2024-11-06 박종화 음원의 음량 표준화 방법 및 장치
WO2023012941A1 (ja) * 2021-08-04 2023-02-09 日本電信電話株式会社 聴覚注意状態推定装置、学習装置、それらの方法、およびプログラム

Also Published As

Publication number Publication date
JP5718493B1 (ja) 2015-05-13

Similar Documents

Publication Publication Date Title
JP5718493B1 (ja) 音の顕著度推定装置、その方法、及びプログラム
US10944708B2 (en) Conversation agent
JP6815486B2 (ja) 精神障害の療法のためのモバイルおよびウェアラブルビデオ捕捉およびフィードバックプラットフォーム
Komogortsev et al. Automated classification and scoring of smooth pursuit eye movements in the presence of fixations and saccades
Grossman et al. “Look who's talking!” gaze patterns for implicit and explicit audio‐visual speech synchrony detection in children with high‐functioning autism
JP2019519053A (ja) 視覚機能データを獲得し、分析し、生成する、かつデータに基づいてメディアを修正するための方法およびシステム
US20190139438A1 (en) System and method for guiding social interactions
Zhang et al. The effects of probe similarity on retrieval and comparison processes in associative recognition
US20210401339A1 (en) Adaptive behavioral training, and training of associated physiological responses, with assessment and diagnostic functionality
JP6479708B2 (ja) 特徴量抽出装置、推定装置、それらの方法、およびプログラム
JP2019522514A (ja) 視覚運動応答の定量的評価のための方法およびシステム
JP5718494B1 (ja) 印象推定装置、その方法、及びプログラム
JP6509712B2 (ja) 印象推定装置およびプログラム
US10646133B2 (en) Dominant eye determining method and device
JP5718492B1 (ja) 音の顕著度推定装置、その方法、及びプログラム
JP5718495B1 (ja) 印象推定装置、その方法、及びプログラム
JP6377545B2 (ja) 個人識別方法、個人識別装置、プログラム
Gehmacher et al. Eye movements track prioritized auditory features in selective attention to natural speech
Lawrence et al. Brain-computer interfaces and the right to be heard: calibrating legal and clinical norms in Pursuit of the Patient's Voice
US20210275016A1 (en) Reflectivity judgement apparatus, reflectivity judgement method, and program
Chen et al. Multimodal coordination measures to understand users and tasks
US20220230749A1 (en) Systems and methods for ophthalmic digital diagnostics via telemedicine
JP2017086530A (ja) 印象推定装置、印象推定方法、およびプログラム
EP4162345A1 (en) Eye-gaze based biofeedback
JP2017202048A (ja) 特徴量抽出装置、推定装置、それらの方法、およびプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150318

R150 Certificate of patent or registration of utility model

Ref document number: 5718493

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150