JP5718492B1

JP5718492B1 - 音の顕著度推定装置、その方法、及びプログラム

Info

Publication number: JP5718492B1
Application number: JP2014005527A
Authority: JP
Inventors: 惇米家; シンイリャオ; 茂人古川; 牧夫柏野; 俊介木谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-01-16
Filing date: 2014-01-16
Publication date: 2015-05-13
Anticipated expiration: 2034-01-16
Also published as: JP2015132782A

Abstract

【課題】単一試行で対象音が目立つか否かを推定できる技術を提供する。【解決手段】音の顕著度推定装置は、第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応するヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応するヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出部と、第１特徴量と第２特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定部とを含む。【選択図】図２

Description

本発明は、音の目立ち度合いを推定する技術に関する。

従来、同じ基準音を繰り返し呈示する中で、時々、基準音に代えて別の音(=目立つ音)を呈示するという実験において、別の音が呈示されたときの脳波(EEG)が大きな振幅を示すという知見（MMN: Mismatch-negativity）が知られている（非特許文献１参照）。

R. Naatanena, P. Paavilainena, T. Rinned, K. Alhod, "The mismatch negativity (MMN) in basic research of central auditory processing: A review", Clinical Neurophysiology, 2007, Volume 118, Issue 12, Pages 2544-2590.

MMNによれば、脳波の振幅を観測することで、対象者にとって、対象とする音（以下、「対象音」ともいう）が目立つ音か否かを推定することができる。

脳波はノイズを多く含むため、MMNは多数の試行平均から導かれる指標である。そのため、単一試行で対象音が目立つか否かを推定することはできない。

本発明は、単一試行で対象音が目立つか否か（すなわち音の目立ち度合い）を推定できる技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、音の顕著度推定装置は、第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を所定の音を受聴可能としない時間区間とし、第１時間区間に対応するヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応するヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出部と、第１特徴量と第２特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定部とを含む。

上記の課題を解決するために、本発明の第二の態様によれば、音の顕著度推定方法は、第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を所定の音を受聴可能としない時間区間とし、第１時間区間に対応するヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応するヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出ステップと、第１特徴量と第２特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定ステップとを含む。

上記の課題を解決するために、本発明の第三の態様によれば、モデル記憶部には、マイクロサッカードの特徴に対応する特徴量と音の目立ち度合いとの相関性を記述したモデルである顕著度推定モデルが記憶されているものとして、所定の音を受聴可能なようにヒトに呈示する時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量を抽出する特徴量抽出ステップと、前記特徴量抽出ステップで抽出した第１特徴量を入力として、前記顕著度推定モデルを参照することにより、前記所定の音の顕著度を推定する顕著度推定ステップを含む。

本発明によれば、単一試行で対象音の目立ち度合いを推定できるという効果を奏する。

マイクロサッカードを表す図。音の顕著度推定装置の機能ブロック図。音の顕著度推定装置の処理フローの例を示す図。ドリフトの速度V_dを説明するための図。基準振幅A、オーバーシュートの振幅A_o及び立ち上がり時間T_p、最大速度V_max及びオーバーシュートの速度V_oを説明するための図。実験の一例について説明するための図。実験結果を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態＞
本実施形態では、人の眼球の動きの表れる微細な跳躍性眼球運動（以下、マイクロサッカード(microsaccade)ともいう）に基づいて、音の目立ち度合いを推定する。なお、音の目立ち度合いを顕著度ともいい、「顕著度の高い音」としては、注意深く対象音を聴いているときに目立つ音だけでなく、注意せずに不意に聞こえて目立つ音をも含む。まず、マイクロサッカードについて説明する。人がある一点を注視しているとき、眼球は完全に動きを止めているわけではなく、固視微動と呼ばれる三種類の眼球運動（ドリフト(drift,trendといってもよい)、トレマ、マイクロサッカード(フリックといってもよい)）を行っている。ドリフトは小さな滑らかな動き、トレマは非常に小さな高周波の振動、マイクロサッカードは小さな跳ぶような動きである。図１はマイクロサッカードを表す図であり、横軸は時間（秒）を、縦軸は視野角を表す。詳しく説明すると、マイクロサッカードとは、ある一点を注視している状態において、１〜２秒の間に１回程度、対象者の意思とは関係なく（非随意的に）表れる眼球の動きであって、小さな跳ぶような動きのことである（図１の太線部分）。マイクロサッカードは、動きの水平方向の成分、垂直方向の成分のどちらからでも取得することができる。ただし、マイクロサッカードが水平方向に偏向する性質に基づき、本実施形態では、簡単のため水平方向の成分のみを用いる。なお、「水平方向」とは、地面と完全に平行な方向に限定する意味ではなく、顔に対しての水平方向（眼球の配列方向であり、横方向、幅方向といってもよい）や後述する眼球運動取得部１２において水平方向と定義付られた方向を含む概念である。

図２は第一実施形態に係る音の顕著度推定装置１０の機能ブロック図、図３はその処理フローの例を示す図である。

音の顕著度推定装置１０は、音呈示部１１、眼球運動取得部１２、特徴量抽出部１３及び顕著度推定部１４を含む。

＜音呈示部１１＞
音呈示部１１は、第１時間区間においては、所定の音（推定対象の音であり、以下、対象音ともいう）を受聴可能なように人（以下、対象者ともいう）に呈示し、第１時間区間と異なる第２時間区間においては、上記所定の音が受聴可能でないものとする（ｓ１１）。例えば、第１時間区間においては、ヘッドホンやスピーカなどにより、受聴可能な音量で所定の音を呈示する。ただし所定の音の呈示時間が短い場合（〜数十ms程度など）、第１時間区間の中にマイクロサッカードを含むように、所定の音が呈示された直後の時間帯についても、所定の音以外の音を呈示していないという条件を満たす限り、数秒程度までであれば第１時間区間の定義として含めてもよい。第２時間区間においては、所定の音と異なる音を受聴可能なように対象者に呈示しても良いし、何も音を呈示しなくても良い。あるいは、所定の音を出力していても、音量が極めて小さいなど、対象者にとって受聴可能な状態でなければよい。ただし、第２時間区間は第１時間区間とは重複しないように設定され、第１時間区間と同じ長さの時間帯として設定される。

＜眼球運動取得部１２＞
眼球運動取得部１２は、第１時間区間および第２時間区間のそれぞれに対応する、対象者の眼球の位置情報を取得し（ｓ１２）、特徴量抽出部１３へ出力する。例えば、第１時間区間および第２時間区間において、対象者には、ある１点を注視してもらうようにし、その時の眼球の動きを赤外線カメラを用いて撮像する。そして、撮像した結果を画像処理することで、時間毎（例えば、1000Hz）の眼球の位置の時系列を眼球の位置情報として取得する。なお、左右両方の眼球の位置情報を取得してもよいし、何れか一方の眼球の位置情報のみを取得してもよい。本実施形態では、一方の眼球の位置情報のみを取得するものとする。

＜特徴量抽出部１３＞
特徴量抽出部１３は、第１時間区間および第２時間区間に対応する眼球の位置情報を受け取り、それぞれの時間区間に対応する眼球の位置情報の時系列から、第１時間区間と第２時間区間のそれぞれに対応するマイクロサッカードの特徴を特徴量として抽出し（ｓ１３）、顕著度推定部１４に出力する。第１時間区間について抽出される特徴量を第１特徴量とし、第２時間区間について抽出される特徴量を第２特徴量とする。

例えば、眼球の位置情報の時系列について１次階差系列を計算し、階差系列の絶対値が所定の閾値を上回る時間区間をマイクロサッカードが起きている区間として検出する。取得された眼球の位置情報にノイズが多く含まれると判断される場合などには、１次階差系列の計算にあたって適当な範囲での移動平均値を用いても良い。検出に用いる閾値には、階差系列の標準偏差の6倍程度の値を用いることが好ましい。

特徴量は、顕著度を推定するための指標ともいえる。言い換えれば、眼球の位置情報の時系列のうち、マイクロサッカードが起きている区間における眼球運動を表す特徴量である。特徴量は、具体的には、マイクロサッカードが起きているときの眼球位置の時系列を位置制御系のステップ応答としてモデル化したときの減衰率λ、もしくは、減衰係数ζ、または、マイクロサッカードの前後のドリフトの速度V_d（図４参照）の少なくともいずれか１つ以上を含む特徴量である。位置制御系のステップ応答は、固有角振動数をω_ｎとして、

と表される。ここでG(s)は伝達係数,y(t)は位置, y'(t)は速度を表し、

と表される。ただし、ｔは時刻を表すインデックスであり、ｓはラプラス変換によるパラメタ（複素数）である。固有角振動数ω_ｎはマイクロサッカードの応答の速さを表す指標に相当し、減衰係数ζはマイクロサッカードの応答の正確性に対応する指標に相当する。また、A, V_max, A_o, V_o,T_pはそれぞれ以下を表す（図５参照）。

（１）基準振幅A:マイクロサッカードによる眼球の動きが収束したときの移動量である。

（２）最大速度V_max:基準振幅A＋オーバーシュートの振幅A_oに達するまでの最大の速度である。

（３）オーバーシュート(overshoot)の振幅A_o:マイクロサッカードによって基準振幅Aを超過した（行き過ぎた）部分の量である。オーバーシュートとは、波形の立ち上がり部分で、波形が基準振幅Aを超えて突出する現象、または、その突出した波形である。言い換えると、オーバーシュートの振幅とは、突出した部分の量である。

（４）オーバーシュートの速度V_o:基準振幅A＋オーバーシュートの振幅A_oから基準振幅Aに収束しようとする際の最大の速度である。

（５）立ち上がり時間T_p:基準振幅A＋オーバーシュートの振幅A_oに達する（立ち上がる）までにかかる時間である。なお、基準振幅A＋オーバーシュートの振幅A_oに達するまでにかかる時間は、最大速度V_maxからオーバーシュートの速度V_oに達するまでにかかる時間と同じ値となる。

なお、第１時間区間において、複数回のマイクロサッカードが含まれる場合には、それぞれのマイクロサッカードについて求めた減衰率λ、もしくは、減衰係数ζ、または、マイクロサッカードの前後のドリフトの速度V_dの代表値を第１時間区間に対応するマイクロサッカードの特徴として用いる。代表値とは、例えば平均値、最大値、最小値、最初のマイクロサッカードに対応する値などである。特に平均値を用いることが好ましい。また、第１時間区間の中に１回もマイクロサッカードが含まれない場合は、第１時間区間の直後のマイクロサッカード（第１時間区間よりも時間的に後ろで、かつ、最も第１時間区間に近い時刻に生じるマイクロサッカード）について求めた減衰率λ、もしくは、減衰係数ζ、または、マイクロサッカードの前後のドリフトの速度V_dの代表値を第１時間区間に対応するマイクロサッカードの特徴として用いる。つまり、第１時間区間に対応する眼球の位置情報は、少なくとも１回マイクロサッカードを含むように取得されているものとする。第２時間区間についても同様のことが言える。

＜顕著度推定部１４＞
顕著度推定部１４は、第１時間区間について特徴量抽出部１３が抽出した第１特徴量と、第２時間区間について特徴量抽出部１３が抽出した第２特徴量との相違の度合いに基づいて、所定の音（対象音）の目立ち度合い（顕著度）を推定する（ｓ１４）。

具体的には、特徴量が減衰率λもしくはドリフトの速度V_dである場合には、第１特徴量が第２特徴量よりも大きく、かつ、その差が大きいほど、顕著度が高いと推定する。

あるいは、特徴量が減衰係数ζである場合には、第１特徴量が第２特徴量よりも小さく、かつ、その差が大きいほど、顕著度が高いと推定する。

これは、減衰係数ζや減衰率λ、ドリフトの速度V_dと対象音の顕著度との間に、以下のような相関関係があることが、実験により明らかになったことに基づく。
(1)減衰係数ζの変化量が大きいほど、顕著度が大きい。
(2)減衰率λの変化量が大きいほど、顕著度が大きい。なお、減衰係数と減衰率は負の相関関係にある。
(3)マイクロサッカードの前後のドリフトの速度V_dが増加するほど、顕著度が大きい。

なお、減衰係数ζ、減衰率λ、ドリフトの速度V_dのいずれか１つを単独で用いてもよいし、組み合わせて用いてもよい。例えば、何れか二つを満たせばよい、三つ全てを満たせばよい、等と設定してもよい。すなわち、第１時間区間と第２時間区間についての、減衰係数ζ、減衰率λ、ドリフトの速度V_dのいずれか１つ以上の特徴量の各々についての相違の度合いに基づき、対象音の目立ち度合いを推定してもよい。

なお、減衰係数ζは、マイクロサッカードを位置制御系（二次遅れ系）のステップ応答としてみたときの、応答の正確性に対応する指標である。顕著度の高い音（顕著音）を聴いているときは、音に意識が向けられることで、マイクロサッカードの制御に関わる脳の中枢あるいは外眼筋にも一時的な影響があらわれ、応答の正確性（減衰係数）の変化として観測できると考えられる。

以下に、図６を用いて実験の一例について説明する。同じ基準音(standard、図中、○で表す、例えば1000Hzの純音)を繰り返し呈示する中で、1%の頻度で基準音に代えて別の音(odd、図中、●で表す、例えば、白色雑音)を呈示する。この別の音(odd)は基準音と比較して呈示される頻度が少ないため、目立って聞こえる顕著音であると考えられることから、以下では顕著音(odd)とする。各音は300msの間隔で、50msの間、呈示する。このときの被験者(10人)のマイクロサッカードから上述の特徴量を測定した。減衰係数ζの測定結果を図７に示す。各音の開始をt=0とした試行平均を示し、個人毎に-300ms〜0msまでの平均を0、標準偏差を1として正規化した。各時刻の値は、その時刻から＋300msまでに生じたマイクロサッカード全体の統計量を表す。なお、基準音(standard)を表す破線と、顕著音(odd)を表す実線とは、それぞれ平均値を表し、各線の上下の網掛け部分はそれぞれの標準誤差を表す。

結果、顕著音の呈示直後には減衰係数が減少する傾向にあることが確認された。すなわち、顕著音が呈示されている時間区間（第１時間区間）におけるマイクロサッカードの減衰係数（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）におけるマイクロサッカードの減衰係数（第２特徴量）とを比較すると、第１特徴量の方が第２特徴量よりも小さい傾向にある。また、音の顕著度が高いほど、第１特徴量と第２特徴量の差、すなわち減衰係数の変化量の絶対値が増加する傾向がある。

減衰率λは減衰係数ζと負の相関関係を持つ指標であるため、減衰係数ζとは逆に、顕著音が呈示されている時間区間（第１時間区間）におけるマイクロサッカードの減衰係数（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）におけるマイクロサッカードの減衰係数（第２特徴量）とを比較すると、第１特徴量の方が第２特徴量よりも大きい傾向にある。

また、ドリフトは前述の通り、固視微動の一つであり、人がある一点を注視しているときの眼球の小さな滑らかな動きのことであり、顕著音を聴いているときは、音に意識が向けられることで、マイクロサッカードの制御に関わる脳の中枢あるいは外眼筋にも一時的な影響があらわれることで、マイクロサッカードの前後のドリフトの速度V_dにも変化が表れる。実験では、減衰率と同様に、顕著音が呈示されている時間区間（第１時間区間）におけるマイクロサッカードの前後のドリフトの速度V_d（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）におけるマイクロサッカードの前後のドリフトの速度V_d（第２特徴量）とを比較すると、第１特徴量の方が第２特徴量よりも大きい傾向にあることが確認された。

また、いずれの場合も、音の顕著度が高いほど、第１特徴量と第２特徴量の差（の絶対値）が大きい傾向にある。すなわち、音の顕著度が高いほど、減衰係数や減衰率、ドリフトの速度の変化が顕著に表れる。

なお、実験では、対象音（顕著音）と基準音という２種類の音を用いたが、基準音として対象音と異なる音が発せられているとは限らず、何も音が発せられていなくても同様の傾向が観測される。要するに、所定の音（顕著音）が受聴可能なように呈示されている時間区間（第１時間区間）と、所定の音が受聴可能でない時間区間（第２時間区間）におけるマイクロサッカードの特徴に相違がある。

この知見に基づき、顕著度推定部１４は、所定の音が受聴可能なように呈示されている第１時間区間におけるマイクロサッカードの特徴量である第１特徴量と、所定の音が受聴可能でない第２時間区間におけるマイクロサッカードの特徴である第２特徴量との相違の度合いに基づいて、所定の音の顕著度を推定する。

具体的には、特徴量がマイクロサッカードの減衰係数である場合には、第１特徴量の方が第２特徴量よりも小さい場合に、音の顕著度が高いと推定する。また、第１特徴量と第２特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第２時間区間において所定の音（第１時間区間の音）とは異なる音が呈示されているとすれば、第１特徴量と第２特徴量のうち小さい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。

特徴量がマイクロサッカードの減衰率またはドリフトの速度である場合には、第１特徴量の方が第２特徴量よりも大きい場合に、音の顕著度が高いと推定する。また、第１特徴量と第２特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第２時間区間において所定の音（第１時間区間の音）とは異なる音が呈示されているとすれば、第１特徴量と第２特徴量のうち大きい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。

＜効果＞
このような構成により、マイクロサッカードに基づいて、対象者にとっての所定の音の目立ち度合いを推定することができる。マイクロサッカードは、計測ノイズが少ない特徴量なので、単一試行で所定の音の目立ち度合いを推定できる。また、一般的に、脳波を測定する機器等は大掛かりなものとなりやすく、労力的にも金銭的にもコストが高い。しかし、眼球の位置を測定する場合には、一般的に脳波を測定する機器に比べ、小さな規模で（対象者を拘束することなく）行うことができ、労力的にも金銭的にもコストを低減できる。

＜変形例１＞
顕著度推定装置１０は、音呈示部１１及び眼球運動取得部１２を含まなくともよい。すなわち、音呈示部１１及び眼球運動取得部１２の少なくとも１つを別装置として構成し、別装置から対象音及び各時間区間ごとの眼球の位置情報の少なくとも１つを受け取る構成とすればよい。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

第二実施形態の音の顕著度推定装置２０は、第一実施形態の特徴量抽出部１３と顕著度推定部１４の代わりに、特徴量抽出部２３と顕著度推定部２４を含み、さらに、モデル記憶部２５を含む（図２参照）。第二実施形態では、第２時間区間について取得した第２特徴量を用いない点が異なる。すなわち、音呈示部１１と眼球運動取得部１２は第一実施形態とほとんど同じであるが、第２時間区間についての処理は行わない。顕著度推定部２４では、第一実施形態のように第２時間区間との相対比較をしない代わりに、モデル記憶部２５を参照することにより、対象者にとっての対象音の顕著度を推定する。

＜特徴量抽出部２３＞
特徴量抽出部２３は、第１時間区間に対応する眼球の位置情報を受け取り、第１時間区間に対応する眼球の位置情報の時系列から、マイクロサッカードの特徴に対応する特徴量を抽出し（ｓ２３）、顕著度推定部２４に出力する。

このとき、第一実施形態と同様にマイクロサッカードの減衰係数ζ、減衰率λ、ドリフトの速度V_dの少なくとも何れか１つ以上を含む特徴量を抽出する。なお、本実施形態では上述の値の少なくとも何れか１つ以上を要素として含むベクトル（以下、「特徴量ベクトル」ともいう）を特徴量として抽出する。あるいは、マイクロサッカードの減衰係数ζ、減衰率λ、ドリフトの速度V_dの少なくとも何れか１つに加えて、以下の値を要素として含む特徴量ベクトルを特徴量として抽出しても良い（図１、４及び５参照）。

（１）基準振幅A:マイクロサッカードによる眼球の動きが収束したときの移動量。

（２）最大速度V_max:基準振幅A＋オーバーシュートの振幅A_oに達するまでの最大の速度。

（３）立ち上がり時間T_p:基準振幅A＋オーバーシュートの振幅A_oに達する（立ち上がる）までにかかる時間である。なお、基準振幅A＋オーバーシュートの振幅A_oの値は、最大速度V_maxからオーバーシュートの速度V_oに達するまでにかかる時間と同じ値となる。

（４）オーバーシュート(overshoot)の振幅A_o:マイクロサッカードによって基準振幅Aを超過した（行き過ぎた）部分の量である。オーバーシュートとは、波形の立ち上がり部分で、波形が基準振幅Aを超えて突出する現象、または、その突出した波形である。言い換えると、オーバーシュートの振幅とは、突出した部分の量である。

（５）オーバーシュートの速度V_o:基準振幅A＋オーバーシュートの振幅A_oから基準振幅Aに収束しようとする際の最大の速度である。

（６）位置制御系のステップ応答としてモデル化したときの固有角振動数ω_n

（７）発生頻度に対応するパラメータ（図１参照）
（７−１）直前（i-1番目）のマイクロサッカードから現在（i番目）のマイクロサッカードまでの時間ΔT_i
（７−２）現在（i番目）のマイクロサッカードから次（i+1番目）のマイクロサッカードまでの時間ΔT_i+1
なお、上記（７）に関しては、第１時間区間の時刻の先頭に近いマイクロサッカードから順に１番目、２番目、…と順序を付けているものとする。

第一実施形態と同様に、第１時間区間の中に複数のマイクロサッカードが含まれる場合には、上述のA, V_max, T_p, A_o, V_o, ω_n, ΔT_i, ΔT_i+1は第１時間区間に含まれる各マイクロサッカードについて求めた値の代表値（例えば平均値）を用いるものとする。また、第１時間区間内に１回もマイクロサッカードが含まれない場合には、第１時間区間直後のマイクロサッカードの特徴量を、第１時間区間に対応する特徴量として用いる。

＜顕著度推定部２４＞
顕著度推定部２４は、第１時間区間について抽出した特徴量を受け取り、第１時間区間に呈示された音の顕著度を推定する（ｓ２４）。本実施形態では、第１時間区間について抽出された特徴量から顕著度推定モデルを用いて（参照することにより）、第１時間区間に呈示された音の顕著度を推定し、出力する。言い換えれば、顕著度推定部２４は、特徴量抽出部２３で抽出した第１時間区間についての特徴量を、モデル記憶部２５に記憶された顕著度推定モデル（特徴量から顕著度を推定するためのモデル）にあてはめることにより、顕著度を推定し取得する。

＜モデル記憶部２５＞
モデル記憶部２５は、特徴量を入力として、顕著度を出力するような顕著度推定モデルが予め記録されている。顕著度推定モデルは、予め１人以上の人について取得した特徴量と顕著度との関係性を機械学習法により学習することで、作成される。つまり、顕著度推定モデルは、マイクロサッカードの特徴と顕著度との相関性を記述したモデルである。

例えば、学習用に用意した顕著度が分かっている所定の音を受聴可能なようにある人（対象者）に呈示し、そのときの対象者の眼球の位置の時系列情報を取得し、取得した眼球の位置の時系列情報からマイクロサッカードの特徴量を抽出する。ここで抽出する特徴量は、特徴量抽出部２３で抽出する特徴量と同じとする。

同様の特徴量抽出を、複数の異なる所定の音について行い、所定の音に付与された顕著度と抽出した特徴量とを組にしたデータセットの複数の異なる音についての集合を学習用データとして用意する。なお、何も音を呈示していない時間区間において、対象者の対象者の瞳孔の大きさの時系列を取得し、取得した瞳孔の大きさの時系列から抽出した特徴量を、顕著度０と対応付けて学習データに含めてもよい。

この学習用データを入力データとし、機械学習法により、顕著度と特徴量との関係を学習する。

例えば、機械学習法としてサポートベクターマシン(Support vector machine、以下SVMともいう)等がある。この場合は、予め所定の音に付与する顕著度を、顕著度が高い（１）または顕著度が低い（０）の２値として、特徴量ベクトルの次元に対応する空間において、顕著度が高いときの特徴量ベクトルに対応する点群と、顕著度が低いときの特徴量ベクトルに対応する点群とを分離する超平面を求めることができる。これにより、得られる顕著度推定モデルに、顕著度が未知の特徴量（特徴量抽出部２３で得られた特徴量）を入力すると、その特徴量が顕著音が高いことに対応するか、顕著音が低いことに対応するかを推定することができる。

例えば、減衰係数（ζ），減衰率（λ），ドリフトの速度(V_d)を単独で、または、それらの組合せを、要素として含む特徴量ベクトルを用いて、SVMにより学習を行う。

また、減衰係数（ζ），減衰率（λ），ドリフトの速度(V_d)、基準振幅(A)，オーバーシュートの振幅(A_o), 最大速度(V_max)，オーバーシュートの速度(V_o)を要素として含む特徴量ベクトルを用いて、SVMにより学習を行う。この特徴量ベクトルに、さらに、立ち上がり時間(T_p),発生頻度に関するパラメータ(ΔT_i,ΔT_i+1)、固有角振動数ω_nを要素として加えても良い。

要素の数を増やすことで、推定の精度を高めることができる。なお、減衰係数（ζ），減衰率（λ），ドリフトの速度(V_d)、基準振幅(A)，オーバーシュートの振幅(A_o), 最大速度(V_max)，オーバーシュートの速度(V_o)を要素として含む特徴量ベクトルを用いたときに、推定精度が高いことが実験等により明らかとなった。

顕著音が高い／低い、の２値分類に限らず、複数クラス（顕著度に対応するクラス）に分類するようにSVMを構成することも可能である。あるいは、複数クラス（顕著度に対応するクラス）識別分類するような機械学習法であれば、SVMに限らず他の機械学習法を用いてもよい。

なお、学習用データを取得する対象である対象者は、実際に顕著度を推定する人と同一人物である必要はない。また、複数の人について得られた学習データを基に顕著度推定モデルを学習すると、より精度の高い推定を行うことができる。また、対象者毎に、音の顕著度に対応して表れる特徴量が異なる場合があるので、学習データを取得する対象者を顕著度を推定する人と同一人物として対象者毎に、顕著度推定モデルを作成すれば、個人の特性に合わせたより精度の高い推定を行うことができる。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出ステップと、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定ステップとを含み、
前記マイクロサッカードの特徴は、マイクロサッカードの前後のドリフトの速度、または、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰率を少なくとも含み、
前記顕著度推定ステップは、
前記第２特徴量に含まれるドリフトの速度または減衰率よりも前記第１特徴量に含まれるドリフトの速度または減衰率が大きく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが大きいと推定する、
および／または、
前記第２特徴量に含まれるドリフトの速度または減衰率よりも前記第１特徴量に含まれるドリフトの速度または減衰率が小さく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが小さいと推定する、
音の顕著度推定方法。
第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出ステップと、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定ステップとを含み、
前記マイクロサッカードの特徴は、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰係数を少なくとも含み、
前記顕著度推定ステップは、
前記第２特徴量に含まれる減衰係数よりも前記第１特徴量に含まれる減衰係数が小さく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが大きいと推定する、
および／または、
前記第２特徴量に含まれる減衰係数よりも前記第１特徴量に含まれる減衰係数が大きく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが小さいと推定する、
音の顕著度推定方法。
第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出ステップと、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定ステップとを含み、
前記第２時間区間において前記所定の音と異なる第２の音を受聴可能なように前記ヒトに呈示するものとし、
前記マイクロサッカードの特徴は、マイクロサッカードの前後のドリフトの速度、または、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰率を少なくとも含み、
前記第１特徴量に含まれるドリフトの速度または減衰率と前記第２特徴量に含まれるドリフトの速度または減衰率のうち、値が大きい方の特徴量に対応する時間区間に呈示された音についての前記顕著度推定ステップの推定結果は、他方の時間区間に呈示された音についての前記顕著度推定ステップの推定結果よりも音の目立ち度合いが大きいことに対応する、
ことを特徴とする音の顕著度推定方法。
第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出ステップと、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定ステップとを含み、
前記第２時間区間において前記所定の音と異なる第２の音を受聴可能なように前記ヒトに呈示するものとし、
前記マイクロサッカードの特徴は、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰係数を少なくとも含み、
前記第１特徴量に含まれる減衰係数と前記第２特徴量の減衰係数のうち、値が小さい方の特徴量に対応する時間区間に呈示された音についての前記顕著度推定ステップの推定結果は、他方の時間区間に呈示された音についての前記顕著度推定ステップの推定結果よりも音の目立ち度合いが大きいことに対応する、
ことを特徴とする音の顕著度推定方法。
モデル記憶部には、マイクロサッカードの特徴に対応する特徴量と音の目立ち度合いとの相関性を記述したモデルである顕著度推定モデルが記憶されているものとして、
所定の音を受聴可能なようにヒトに呈示する時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップで抽出した第１特徴量を入力として、前記顕著度推定モデルを参照することにより、前記所定の音の顕著度を推定する前記顕著度推定ステップとを含み、
前記マイクロサッカードの特徴に対応する特徴量および前記第１特徴量は、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰係数及び減衰率、マイクロサッカードの基本振幅、オーバーシュートの振幅、最大速度及びオーバーシュートの速度、マイクロサッカードの前後のドリフトの速度の少なくとも１つを要素として含む特徴量ベクトルである、
音の顕著度推定方法。
第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出部と、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定部とを含み、
前記マイクロサッカードの特徴は、マイクロサッカードの前後のドリフトの速度、または、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰率を少なくとも含み、
前記顕著度推定部は、
前記第２特徴量に含まれるドリフトの速度または減衰率よりも前記第１特徴量に含まれるドリフトの速度または減衰率が大きく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが大きいと推定する、
および／または、
前記第２特徴量に含まれるドリフトの速度または減衰率よりも前記第１特徴量に含まれるドリフトの速度または減衰率が小さく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが小さいと推定する、
音の顕著度推定装置。
第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出部と、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定部とを含み、
前記マイクロサッカードの特徴は、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰係数を少なくとも含み、
前記顕著度推定部は、
前記第２特徴量に含まれる減衰係数よりも前記第１特徴量に含まれる減衰係数が小さく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが大きいと推定する、
および／または、
前記第２特徴量に含まれる減衰係数よりも前記第１特徴量に含まれる減衰係数が大きく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが小さいと推定する、
音の顕著度推定装置。
第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出部と、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定部とを含み、
前記第２時間区間において前記所定の音と異なる第２の音を受聴可能なように前記ヒトに呈示するものとし、
前記マイクロサッカードの特徴は、マイクロサッカードの前後のドリフトの速度、または、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰率を少なくとも含み、
前記第１特徴量に含まれるドリフトの速度または減衰率と前記第２特徴量に含まれるドリフトの速度または減衰率のうち、値が大きい方の特徴量に対応する時間区間に呈示された音についての前記顕著度推定部の推定結果は、他方の時間区間に呈示された音についての前記顕著度推定部の推定結果よりも音の目立ち度合いが大きいことに対応する、
ことを特徴とする音の顕著度推定装置。
第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出する特徴量抽出部と、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定部とを含み、
前記第２時間区間において前記所定の音と異なる第２の音を受聴可能なように前記ヒトに呈示するものとし、
前記マイクロサッカードの特徴は、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰係数を少なくとも含み、
前記第１特徴量に含まれる減衰係数と前記第２特徴量の減衰係数のうち、値が小さい方の特徴量に対応する時間区間に呈示された音についての前記顕著度推定部の推定結果は、他方の時間区間に呈示された音についての前記顕著度推定部の推定結果よりも音の目立ち度合いが大きいことに対応する、
ことを特徴とする音の顕著度推定装置。
モデル記憶部には、マイクロサッカードの特徴に対応する特徴量と音の目立ち度合いとの相関性を記述したモデルである顕著度推定モデルが記憶されているものとして、
所定の音を受聴可能なようにヒトに呈示する時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部で抽出した第１特徴量を入力として、前記顕著度推定モデルを参照することにより、前記所定の音の顕著度を推定する前記顕著度推定部とを含み、
前記マイクロサッカードの特徴に対応する特徴量および前記第１特徴量は、マイクロサッカードを位置制御系のステップ応答としてモデル化したときの減衰係数及び減衰率、マイクロサッカードの基本振幅、オーバーシュートの振幅、最大速度及びオーバーシュートの速度、マイクロサッカードの前後のドリフトの速度の少なくとも１つを要素として含む特徴量ベクトルである、
音の顕著度推定装置。
請求項１から５の何れかの音の顕著度推定方法をコンピュータに実行させるためのプログラム。