JP2015132783A

JP2015132783A - 音の顕著度推定装置、その方法、及びプログラム

Info

Publication number: JP2015132783A
Application number: JP2014005528A
Authority: JP
Inventors: 惇米家; Makoto Yoneya; シンイリャオ; Hsin-I Liao; 茂人古川; Shigehito Furukawa; 牧夫柏野; Makio Kayano; 俊介木谷; Shunsuke Kidani
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-01-16
Filing date: 2014-01-16
Publication date: 2015-07-23
Anticipated expiration: 2034-01-16
Also published as: JP5718493B1

Abstract

【課題】単一試行で対象音が目立つか否かを推定できる技術を提供する。【解決手段】音の顕著度推定装置は、第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間においてヒトの瞳孔の大きさの変化を表す第１特徴量と、第２時間区間に対応するヒトの瞳孔の大きさの変化を表す第２特徴量と、を抽出する特徴量抽出部と、第１特徴量と第２特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定部とを含む。【選択図】図２

Description

本発明は、音の目立ち度合いを推定する技術に関する。

従来、同じ基準音を繰り返し呈示する中で、時々、基準音に代えて別の音(=目立つ音)を呈示するという実験において、別の音が呈示されたときの脳波(EEG)が大きな振幅を示すという知見（MMN: Mismatch-negativity）が知られている（非特許文献１参照）。

R. Naatanena, P. Paavilainena, T. Rinned, K. Alhod, "The mismatch negativity (MMN) in basic research of central auditory processing: A review", Clinical Neurophysiology, 2007, Volume 118, Issue 12, Pages 2544-2590.

MMNによれば、脳波の振幅を観測することで、対象者にとって、対象とする音（以下、「対象音」ともいう）が目立つ音か否かを推定することができる。

脳波はノイズを多く含むため、MMNは多数の試行平均から導かれる指標である。そのため、単一試行で対象音が目立つか否かを推定することはできない。

本発明は、単一試行で対象音が目立つか否か（すなわち音の目立ち度合い）を推定できる技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、音の顕著度推定装置は、第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を所定の音を受聴可能としない時間区間とし、第１時間区間に対応するヒトの瞳孔の大きさの変化を表す第１特徴量と、第２時間区間に対応するヒトの瞳孔の大きさの変化を表す第２特徴量と、を抽出する特徴量抽出部と、第１特徴量と第２特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定部とを含む。

上記の課題を解決するために、本発明の第二の態様によれば、音の顕著度推定方法は、第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を所定の音を受聴可能としない時間区間とし、第１時間区間に対応するヒトの瞳孔の大きさの変化を表す第１特徴量と、第２時間区間に対応するヒトの瞳孔の大きさの変化を表す第２特徴量と、を抽出する特徴量抽出ステップと、第１特徴量と第２特徴量との相違の度合いに基づいて、所定の音の目立ち度合いを推定する顕著度推定ステップとを含む。

上記の課題を解決するために、本発明の第三の態様によれば、音の顕著度推定方法は、モデル記憶部には、ヒトの瞳孔の大きさの変化を表す特徴量を少なくとも含む特徴量ベクトルと音の目立ち度合いとの相関性を記述したモデルである顕著度推定モデルが記憶されているものとして、所定の音を受聴可能なようにヒトに呈示する第１時間区間に対応するヒトの瞳孔の大きさの変化を表す第１特徴量を抽出する特徴量抽出ステップと、第１特徴量を入力として、顕著度推定モデルを参照することにより、所定の音の顕著度を推定する顕著度推定ステップとを含む。

本発明によれば、単一試行で対象音の目立ち度合いを推定できるという効果を奏する。

瞳孔の大きさの変化を表す図。第一及び第二実施形態に係る音の顕著度推定装置の機能ブロック図。第一及び第二実施形態に係る音の顕著度推定装置の処理フローの例を示す図。速度が最大となる時刻T_aと立ち上がり時間T_pとを説明するための図。実験の一例について説明するための図。実験結果を示す図。マイクロサッカードを表す図。第三及び第四実施形態に係る音の顕著度推定装置の機能ブロック図。第三及び第四実施形態に係る音の顕著度推定装置の処理フローの例を示す図。ドリフトの速度V_dを説明するための図。基準振幅A'、オーバーシュートの振幅A_o及び立ち上がり時間T_p、最大速度V_max及びオーバーシュートの速度V_oを説明するための図。実験結果を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態＞
本実施形態では、人の瞳孔の大きさの変化に基づいて、音の目立ち度合いを推定する。なお、音の目立ち度合いを顕著度ともいい、「顕著度の高い音」としては、注意深く対象音を聴いているときに目立つ音だけでなく、注意せずに不意に聞こえて目立つ音をも含む。まず、瞳孔の大きさの変化について説明する。人がある一点を注視しているとき、瞳孔の大きさは一定ではなく、変化している。図１は瞳孔の大きさの変化を表す図であり、横軸は時間（秒）を、縦軸は瞳孔の大きさを表す。

瞳孔の大きさは交感神経系の支配を受けた瞳孔散大筋によって拡大（散瞳）し、副交感神経系の支配を受けた瞳孔括約筋によって収縮（縮瞳）する。図１では、破線部分は縮瞳を表し、二重線部分は散瞳を表す。瞳孔の大きさの変化は主に対光反射、輻輳反射、感情による変化の３つに区別される。対光反射は、網膜に入射する光量を制御するために瞳孔の大きさが変化する反応のことで、強い光に対しては縮瞳、暗所では散瞳が生じる。輻輳反射は、焦点を合わせる際に両眼が内転あるいは外転する運動（輻輳運動）に伴って瞳孔径が変化する反応のことで、近くを見るときには縮瞳、遠くを見るときには散瞳が生じる。感情による変化は、上記のいずれにもよらず外界のストレスに対して生じる反応のことで、怒りや驚き、活発な活動に伴って交感神経が優位となる際には散瞳が生じ、リラックスして副交感神経が優位となる際には縮瞳が生じる。目立つ音の知覚に際しても、驚きに近い感覚によって交感神経が優位となり、散瞳が生じやすいものと考えられる。そのため、縮瞳よりも散瞳に関する特徴のほうが、音の目立ち度合いの推定に適しているので、本実施形態では、瞳孔の大きさの変化のうち、散瞳に関する特徴に基づいて、顕著音を推定する。

図２は第一実施形態に係る音の顕著度推定装置１０の機能ブロック図、図３はその処理フローの例を示す図である。

音の顕著度推定装置１０は、音呈示部１１、瞳孔情報取得部１２、特徴量抽出部１３及び顕著度推定部１４を含む。

＜音呈示部１１＞
音呈示部１１は、第１時間区間においては、所定の音（推定対象の音であり、以下、対象音ともいう）を受聴可能なように人（以下、対象者ともいう）に呈示し、第１時間区間と異なる第２時間区間においては、上記所定の音が受聴可能でないものとする（ｓ１１）。例えば、第１時間区間においては、ヘッドホンやスピーカなどにより、受聴可能な音量で所定の音を呈示する。ただし所定の音の呈示時間が短い場合（〜数十ms程度など）、第１時間区間の中に散瞳を含むように、所定の音が呈示された直後の時間帯についても、所定の音以外の音を呈示していないという条件を満たす限り、数秒程度までであれば第１時間区間の定義として含めてもよい。第２時間区間においては、所定の音と異なる音を受聴可能なように対象者に呈示しても良いし、何も音を呈示しなくても良い。あるいは、所定の音を出力していても、音量が極めて小さいなど、対象者にとって受聴可能な状態でなければよい。ただし、第２時間区間は第１時間区間とは重複しないように設定され、第１時間区間と同じ長さの時間帯として設定される。

＜瞳孔情報取得部１２＞
瞳孔情報取得部１２は、第１時間区間および第２時間区間のそれぞれに対応する、対象者の瞳孔の大きさを取得し（ｓ１２）、特徴量抽出部１３へ出力する。例えば、瞳孔の大きさとして、瞳孔径（瞳孔の半径）を用いる場合には、瞳孔径は、赤外線カメラを用いた画像処理法で計測される。第１時間区間および第２時間区間において、対象者には、ある１点を注視してもらうようにし、その時の瞳孔を赤外線カメラを用いて撮像する。そして、撮像した結果を画像処理することで、時間毎（例えば、1000Hz）の瞳孔径の時系列を取得する。なお、左右両方の瞳孔の大きさを取得してもよいし、何れか一方の瞳孔の大きさのみを取得してもよい。本実施形態では、一方の瞳孔の大きさのみを取得するものとする。例えば、瞳孔を撮影した画像に対して、瞳孔にフィッティングした円の半径を用いる。また、瞳孔径は微細に変動するため、所定の時間区間ごとにスムージング(平滑化)した値を用いるとよい。ここで、図１における瞳孔の大きさは、各時刻について取得した瞳孔径の全データの平均を０、標準偏差を１としたときのz-scoreを用いて表したものであり、約150ms間隔でスムージングしたものである。ただし、瞳孔情報取得部１２で取得する瞳孔径はz-scoreでなくとも、瞳孔径の値そのものであっても良いし、瞳孔の面積や直径など、瞳孔の大きさに対応する値であれば何でも良い。瞳孔の面積や直径を用いる場合も、時間の経過とともに瞳孔の面積または直径が大きくなる区間が散瞳に対応し、時間の経過とともに瞳孔の面積または直径が小さくなる区間が縮瞳に対応する。すなわち、時間の経過とともに瞳孔の大きさが大きくなる区間が散瞳に対応し、時間の経過とともに瞳孔の大きさが小さくなる区間が縮瞳に対応する。

なお、一般に、対光反射に伴う瞳孔の大きさの変化量は、感情による変化量と比較して数倍程度の大きさとなり、瞳孔の大きさの変化量全体に対する大きな要因となる。対光反射および輻輳反射による変化を抑え、目立つ音の知覚に関する成分のみに着目しやすくするために、瞳孔径を取得するときの対象者に呈示する画面の輝度および画面から対象者までの距離は一定に保つものとする。

＜特徴量抽出部１３＞
特徴量抽出部１３は、第１時間区間および第２時間区間に対応する瞳孔の大きさの時系列を受け取り、それぞれの時間区間に対応する瞳孔の大きさの時系列から、第１時間区間と第２時間区間のそれぞれに対応する瞳孔の大きさの変化を表す特徴量を抽出し（ｓ１３）、顕著度推定部１４に出力する。第１時間区間について抽出される特徴量を第１特徴量とし、第２時間区間について抽出される特徴量を第２特徴量とする。

瞳孔の大きさの変化を表す特徴量は、顕著度推定するための指標ともいえる。言い換えれば、瞳孔の大きさの時系列のうち、散瞳が起きている区間における瞳孔の大きさの変化を表す特徴量であり、具体的には、散瞳の平均速度V、散瞳の振幅A、散瞳が起きているときの瞳孔径の時系列を位置制御系のステップ応答としてモデル化したときの減衰係数ζの少なくともいずれか１つ以上を含む特徴量である。振幅Aは、極大点から極小点までの瞳孔径の差である（図１参照）。散瞳の平均速度Vは、（振幅A）/(立ち上がり時間T_p)である。立ち上がり時間T_pは極大点から極小点までの時間である（図１参照）。例えば、特徴量抽出部１３は、瞳孔径の時系列から極大点及び極小点を検出し、それを用いて、振幅A、平均速度V、立ち上がり時間T_pを算出する。このとき、振幅が一定の値以上のもののみを算出する構成としてもよい。

なお、縮瞳及び散瞳は、サーボ系としての特徴を示し、面積制御系（三次遅れ系）のステップ応答として記述でき、本実施形態では位置制御系（二次遅れ系）のステップ応答として近似して考える。位置制御系のステップ応答は、固有角振動数をω_ｎとして、

と表される。ここでG(s)は伝達係数,y(t)は位置, y'(t)は速度を表す。減衰係数ζの導出には、速度が最大となる時刻T_aと立ち上がり時間T_pとの比を用いて（図４参照）、

となることを利用する。そして、減衰係数ζ及び固有角振動数ω_ｎは、それぞれ

と表される。ただし、ｔは時刻を表すインデックスであり、ｓはラプラス変換によるパラメタ（複素数）である。固有角振動数ω_ｎは瞳孔の大きさの変化における応答の速さを表す指標に相当し、減衰係数ζは、瞳孔の大きさの変化における応答の振動性に対応する指標に相当する。

なお、第１時間区間において、複数回の散瞳が含まれる場合には、それぞれの散瞳について求めた平均速度V、振幅Aまたは減衰係数ζの代表値を第１時間区間に対応する散瞳の特徴として用いる。代表値とは、例えば平均値、最大値、最小値、最初の散瞳に対応する値などである。特に平均値を用いることが好ましい。また、第１時間区間の中に１回も散瞳が含まれない場合は、第１時間区間の直後の散瞳（第１時間区間よりも時間的に後ろで、かつ、最も第１時間区間に近い時刻に生じる散瞳）について求めた平均速度V、振幅Aまたは減衰係数ζの代表値を第１時間区間に対応する散瞳の特徴として用いる。つまり、第１時間区間に対応する瞳孔の大きさに関する情報は、少なくとも１回散瞳を含むように取得されているものとする。第２時間区間についても同様のことが言える。

＜顕著度推定部１４＞
顕著度推定部１４は、第１時間区間について特徴量抽出部１３が抽出した第１特徴量と、第２時間区間について特徴量抽出部１３が抽出した第２特徴量との相違の度合いに基づいて、所定の音（対象音）の目立ち度合い（顕著度）を推定する（ｓ１４）。

具体的には、特徴量が散瞳の平均速度V及び散瞳の振幅Aである場合には、第１特徴量が第２特徴量よりも大きく、かつ、その差が大きいほど、顕著度が高いと推定する。

あるいは、特徴量が散瞳の減衰係数ζである場合には、第１特徴量が第２特徴量よりも小さく、かつ、その差が大きいほど、顕著度が高いと推定する。

これは、減衰係数ζや散瞳の平均速度V、振幅Aと対象音の顕著度との間に、以下のような相関関係があることが、実験により明らかになったことに基づく。
(1)散瞳の平均速度Vが増加するほど、顕著度が大きい。
(2)散瞳の振幅Aが増加するほど、顕著度が大きい。
(3)散瞳の減衰係数ζが減少するほど、顕著度が大きい。

なお、平均速度V、振幅A、減衰係数ζのいずれか１つを単独で用いてもよいし、組み合わせて用いてもよい。例えば、何れか二つを満たせばよい、三つ全てを満たせばよい、等と設定してもよい。すなわち、第１時間区間と第２時間区間についての、平均速度V、振幅A、減衰係数ζのいずれか１つ以上の特徴量の各々についての相違の度合いに基づき、対象音の目立ち度合いを推定してもよい。

散瞳の平均速度や振幅は交感神経の活動強度を反映するため、音の顕著度との相関がみられるものと考えられる。減衰係数ζは、散瞳を位置制御系（二次遅れ系）のステップ応答としてみたときの応答の振動性に対応する指標である。顕著度の高い音（顕著音）を聴いたときは、音に意識が向けられることで、瞳孔の制御に関わる脳の中枢あるいは瞳孔散大筋（または瞳孔括約筋）にも一時的な影響があらわれ、応答の振動性（減衰係数）の変化として観測できると考えられる。

以下に、図５を用いて実験の一例について説明する。同じ基準音(standard、図中、○で表す、例えば1000Hzの純音)を繰り返し呈示する中で、1%の頻度で基準音に代えて別の音(odd、図中、●で表す、例えば、白色雑音)を呈示する。この別の音(odd)は基準音と比較して呈示される頻度が少ないため、目立って聞こえる顕著音であると考えられることから、以下では顕著音(odd)とする。各音は300msの間隔で、50msの間、呈示する。このときの被験者(7人)の瞳孔径の時系列から上述の特徴量を測定した。平均速度の測定結果を図６に示す。各音の開始をt=0とした試行平均を示し、個人毎に-300ms〜0msまでの平均を0、標準偏差を1として正規化した。各時刻の値は、その時刻から＋300msまでに生じた散瞳全体の統計量を表す。なお、基準音(standard)を表す破線と、顕著音(odd)を表す実線とは、それぞれ平均値を表し、各線の上下の網掛け部分はそれぞれの標準誤差を表す。

結果、顕著音の呈示直後には平均速度が増加する傾向にあることが確認された。すなわち、顕著音が呈示されている時間区間（第１時間区間）における散瞳の平均速度（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）における散瞳の平均速度（第２特徴量）とを比較すると、第１特徴量の方が第２特徴量よりも大きい傾向にある。また、音の顕著度が高いほど、第１特徴量と第２特徴量の差、すなわち平均速度の変化量の絶対値が増加する傾向がある。

また、実験の結果、顕著音が呈示されている時間区間（第１時間区間）における散瞳の振幅（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）における散瞳の振幅（第２特徴量）とを比較すると、平均速度と同様に、第１特徴量の方が第２特徴量よりも大きい傾向にあることが確認された。

さらに、実験の結果、顕著音が呈示されている時間区間（第１時間区間）における散瞳の減衰係数（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）における散瞳の減衰係数（第２特徴量）とを比較すると、第１特徴量の方が第２特徴量よりも小さい傾向にあることが確認された。これは、顕著音を聴いているときに生じる散瞳の振動性が高くなっていることを示している。

また、いずれの場合も、音の顕著度が高いほど、第１特徴量と第２特徴量の差（の絶対値）が大きい傾向にある。すなわち、音の顕著度が高いほど、平均速度、振幅、減衰係数の変化が顕著に表れる。

なお、実験では、対象音（顕著音）と基準音という２種類の音を用いたが、基準音として対象音と異なる音が発せられているとは限らず、何も音が発せられていなくても同様の傾向が観測される。要するに、所定の音（顕著音）が受聴可能なように呈示されている時間区間（第１時間区間）と、所定の音が受聴可能でない時間区間（第２時間区間）における瞳孔の大きさの変化に相違がある。

この知見に基づき、顕著度推定部１４は、所定の音が受聴可能なように呈示されている第１時間区間における瞳孔の大きさの変化の特徴量である第１特徴量と、所定の音が受聴可能でない第２時間区間における瞳孔の大きさの変化の特徴である第２特徴量との相違の度合いに基づいて、所定の音の顕著度を推定する。

具体的には、特徴量が散瞳の減衰係数である場合には、第１特徴量の方が第２特徴量よりも小さい場合に、音の顕著度が高いと推定する。また、第１特徴量と第２特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第２時間区間において所定の音（第１時間区間の音）とは異なる音が呈示されているとすれば、第１特徴量と第２特徴量のうち小さい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。

特徴量が散瞳の平均速度または振幅である場合には、第１特徴量の方が第２特徴量よりも大きい場合に、音の顕著度が高いと推定する。また、第１特徴量と第２特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第２時間区間において所定の音（第１時間区間の音）とは異なる音が呈示されているとすれば、第１特徴量と第２特徴量のうち大きい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。

＜効果＞
このような構成により、瞳孔の大きさの変化に基づいて、対象者にとっての所定の音の目立ち度合いを推定することができる。瞳孔の大きさの変化は、計測ノイズが少ない特徴量なので、単一試行で所定の音の目立ち度合いを推定できる。また、一般的に、脳波を測定する機器等は大掛かりなものとなりやすく、労力的にも金銭的にもコストが高い。しかし、眼球の位置を測定する場合には、一般的に脳波を測定する機器に比べ、小さな規模で（対象者を拘束することなく）行うことができ、労力的にも金銭的にもコストを低減できる。

＜変形例１＞
顕著度推定装置１０は、音呈示部１１及び瞳孔情報取得部１２を含まなくともよい。すなわち、音呈示部１１及び瞳孔情報取得部１２の少なくとも１つを別装置として構成し、別装置から対象音及び各時間区間ごとの瞳孔の大きさの少なくとも１つを受け取る構成とすればよい。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

第二実施形態の音の顕著度推定装置２０は、第一実施形態の特徴量抽出部１３と顕著度推定部１４の代わりに、特徴量抽出部２３と顕著度推定部２４を含み、さらに、モデル記憶部２５を含む（図２参照）。第二実施形態では、第２時間区間について取得した第２特徴量を用いない点が異なる。すなわち、音呈示部１１と瞳孔情報取得部１２は第一実施形態とほとんど同じであるが、第２時間区間についての処理は行わない。顕著度推定部２４では、第一実施形態のように第２時間区間との相対比較をしない代わりに、モデル記憶部２５を参照することにより、対象者にとっての対象音（第１時間区間に呈示された音）の顕著度を推定する。

＜特徴量抽出部２３＞
特徴量抽出部２３は、第１時間区間に対応する瞳孔の大きさの時系列を受け取り、第１時間区間に対応する瞳孔の大きさの時系列から、瞳孔の大きさの変化を表す特徴量を抽出し（ｓ２３）、顕著度推定部２４に出力する。

このとき、第一実施形態と同様に散瞳の平均速度V、散瞳の振幅A、散瞳が起きているときの瞳孔径の時系列を位置制御系のステップ応答としてモデル化したときの減衰係数ζの少なくとも何れか１つ以上を含む特徴量を抽出する。なお、本実施形態では上述の値の少なくとも何れか１つ以上を要素として含むベクトル（以下、「特徴量ベクトル」ともいう）を特徴量として抽出する。あるいは、散瞳の平均速度V、振幅A、減衰係数ζの少なくとも何れか１つに加えて、以下の値を要素として含む特徴量ベクトルを特徴量として抽出しても良い（図１参照）。

(1)散瞳が起きているときの瞳孔径の時系列を位置制御系のステップ応答としてモデル化したときの散瞳の固有角振動数ω_n
(2)立ち上がり時間T_p
(3)発生頻度に対応するパラメータ
(3-1)直前（i-1番目）の散瞳から現在（i番目）の散瞳までの時間ΔT_i
(3-2)現在（i番目）の散瞳から次（i+1番目）の散瞳までの時間ΔT_i+1
なお、上記(3)に関しては、第１時間区間の時刻の先頭に近い散瞳から順に１番目、２番目、…と順序を付けているものとする。
(4)瞳孔の大きさの変化を表す特徴量として、縮瞳に関するパラメータを要素として含む特徴量ベクトルを抽出してもよい。例えば、縮瞳の平均速度、振幅、減衰係数、固有角振動数、立ち上がり時間、発生頻度に対応するパラメータ(直前の縮瞳から現在の縮瞳までの時間、現在の縮瞳から次の縮瞳までの時間)の何れか一つ以上を、特徴量ベクトルの要素として加えてもよい。なお、前述の通り、驚きを感じた際には交感神経が優位になるため、交感神経に支配される散瞳に関する特徴のほうが、縮瞳に関する特徴よりも音の目立ち度合いの推定に適していると考えられる。しかし、驚きを感じた際に副交感神経が働かないわけではないため、縮瞳に関する特徴も音の目立ち度合いと何らかの関係があり、音の目立ち度合いの推定に寄与するものと考えられる。

第一実施形態と同様に、第１時間区間の中に複数の散瞳や縮瞳が含まれる場合には、上述のV, A, ζ, ω_n, T_p, ΔT_i, ΔT_i+1や縮瞳に関するパラメータは第１時間区間に含まれる各散瞳や各縮瞳について求めた値の代表値（例えば平均値）を用いるものとする。また、第１時間区間内に１回も散瞳や縮瞳が含まれない場合には、第１時間区間直後の散瞳や縮瞳の特徴量を、第１時間区間に対応する特徴量として用いる。

＜顕著度推定部２４＞
顕著度推定部２４は、第１時間区間について抽出した特徴量を受け取り、第１時間区間に呈示された音の顕著度を推定する（ｓ２４）。本実施形態では、第１時間区間について抽出された特徴量から顕著度推定モデルを用いて（参照することにより）、第１時間区間に呈示された音の顕著度を推定し、出力する。言い換えれば、顕著度推定部２４は、特徴量抽出部２３で抽出した第１時間区間についての特徴量を、モデル記憶部２５に記憶された顕著度推定モデル（特徴量から顕著度を推定するためのモデル）にあてはめることにより、顕著度を推定し取得する。

＜モデル記憶部２５＞
モデル記憶部２５は、特徴量を入力として、顕著度を出力するような顕著度推定モデルが予め記録されている。顕著度推定モデルは、予め１人以上の人について取得した特徴量と顕著度との関係性を機械学習法により学習することで、作成される。つまり、顕著度推定モデルは、第１特徴量と顕著度との相関性を記述したモデルである。

例えば、学習用に用意した顕著度が分かっている所定の音をある時間区間において受聴可能なようにある人（対象者）に呈示し、その間の対象者の瞳孔の大きさの時系列を取得し、取得した瞳孔の大きさの時系列から、特徴量を抽出する。ここで抽出する特徴量は、特徴量抽出部２３で抽出する特徴量と同じとする。

同様の特徴量抽出を複数の異なる所定の音について行い、所定の音に付与された顕著度とその音が呈示されている時間区間において抽出した特徴量とを組としたデータセットの複数の異なる音についての集合を学習用データとして用意しておく。なお、何も音を呈示していない時間区間において、対象者の対象者の瞳孔の大きさの時系列を取得し、取得した瞳孔の大きさの時系列から抽出した特徴量を、顕著度０と対応付けて学習データに含めてもよい。

この学習用データを入力データとし、機械学習法により、顕著度と特徴量との関係を学習する。

例えば、機械学習法としてサポートベクターマシン(Support vector machine、以下SVMともいう)等がある。この場合は、予め所定の音に付与する顕著度を、顕著度が高い（１）または顕著度が低い（０）の２値として、特徴量ベクトルの次元に対応する空間において、顕著度が高いときの特徴量ベクトルに対応する点群と、顕著度が低いときの特徴量ベクトルに対応する点群とを分離する超平面を求めることができる。これにより、得られる顕著度推定モデルに、顕著度が未知の特徴量（特徴量抽出部２３で得られた特徴量）を入力すると、その特徴量が顕著音が高いことに対応するか、顕著音が低いことに対応するかを推定することができる。

例えば、散瞳の平均速度V、振幅A、減衰係数ζを単独で、または、それらの組合せを、要素として含む特徴量ベクトルを用いて、SVMにより学習を行う。

また、散瞳の平均速度V、振幅A、減衰係数ζ、固有角振動数ω_n、立ち上がり時間T_p、散瞳までの時間ΔT_i、ΔT_i+1を要素として含む特徴量ベクトルを用いて、SVMにより学習を行う。この特徴量ベクトルに、さらに、縮瞳に関するパラメータ（例えば、縮瞳の平均速度、振幅、減衰係数、固有角振動数、立ち上がり時間、発生頻度に対応するパラメータ(直前の縮瞳から現在の縮瞳までの時間、現在の縮瞳から次の縮瞳までの時間)）を要素として加えても良い。

要素の数を増やすことで、推定の精度を高めることができる。なお、散瞳の平均速度V、振幅A、減衰係数ζを要素として含む特徴量ベクトルを用いたときに、推定精度が高いことが実験等により明らかとなった。

顕著音が高い／低い、の２値分類に限らず、複数クラス（顕著度に対応するクラス）に分類するようにSVMを構成することも可能である。あるいは、複数クラス（顕著度に対応するクラス）識別分類するような機械学習法であれば、SVMに限らず他の機械学習法を用いてもよい。

なお、学習用データを取得する対象である対象者は、実際に顕著度を推定する人と同一人物である必要はない。また、複数の人について得られた学習データを基に顕著度推定モデルを学習すると、より精度の高い推定を行うことができる。また、対象者毎に、音の顕著度に対応して表れる特徴量が異なる場合があるので、学習データを取得する対象者を顕著度を推定する人と同一人物として対象者毎に、顕著度推定モデルを作成すれば、個人の特性に合わせたより精度の高い推定を行うことができる。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができる。

＜第三実施形態＞
第一実施形態と異なる部分を中心に説明する。

本実施形態では、瞳孔の大きさの変化と、人の眼球の動きの表れる微細な跳躍性眼球運動（以下、マイクロサッカード(microsaccade)ともいう）とに基づいて、顕著度を推定する。まず、マイクロサッカードについて説明する。人がある一点を注視しているとき、眼球は完全に動きを止めているわけではなく、固視微動と呼ばれる三種類の眼球運動（ドリフト(drift,trendといってもよい)、トレマ、マイクロサッカード(フリックといってもよい)）を行っている。ドリフトは小さな滑らかな動き、トレマは非常に小さな高周波の振動、マイクロサッカードは小さな跳ぶような動きである。図７はマイクロサッカードを表す図であり、横軸は時間（秒）を、縦軸は視野角を表す。詳しく説明すると、マイクロサッカードとは、ある一点を注視している状態において、１〜２秒の間に１回程度、対象者の意思とは関係なく（非随意的に）表れる眼球の動きであって、小さな跳ぶような動きのことである（図７の太線部分）。マイクロサッカードは、動きの水平方向の成分、垂直方向の成分のどちらからでも取得することができる。ただし、マイクロサッカードが水平方向に偏向する性質に基づき、本実施形態では、簡単のため水平方向の成分のみを用いる。なお、「水平方向」とは、地面と完全に平行な方向に限定する意味ではなく、顔に対しての水平方向（眼球の配列方向であり、横方向、幅方向といってもよい）や後述する眼球運動取得部３２において水平方向と定義付られた方向を含む概念である。

図８は第一実施形態に係る音の顕著度推定装置３０の機能ブロック図、図９はその処理フローの例を示す図である。

音の顕著度推定装置３０は、音呈示部１１、瞳孔情報取得部１２、眼球運動取得部３２、特徴量抽出部３３及び顕著度推定部３４を含む。音呈示部１１及び瞳孔情報取得部１２の処理内容は第一実施形態と同様である。

＜眼球運動取得部３２＞
眼球運動取得部３２は、第１時間区間および第２時間区間のそれぞれに対応する、対象者の眼球の位置情報を取得し（ｓ３２）、特徴量抽出部３３へ出力する。例えば、第１時間区間および第２時間区間において、対象者には、ある１点を注視してもらうようにし、その時の眼球の動きを赤外線カメラを用いて撮像する。そして、撮像した結果を画像処理することで、時間毎（例えば、1000Hz）の眼球の位置の時系列を眼球の位置情報として取得する。

＜特徴量抽出部３３＞
特徴量抽出部３３は、特徴量抽出部１３と同様の処理を行う。つまり、特徴量抽出部３３は、第１時間区間および第２時間区間に対応する瞳孔径の時系列を受け取り、それぞれの時間区間に対応する瞳孔径の時系列から、第１時間区間と第２時間区間のそれぞれに対応する瞳孔の大きさの変化を表す特徴量を抽出し（ｓ１３）、顕著度推定部３４に出力する。さらに、以下の処理を行う。

特徴量抽出部３３は、第１時間区間および第２時間区間に対応する眼球の位置情報を受け取り、それぞれの時間区間に対応する眼球の位置情報の時系列から、第１時間区間と第２時間区間のそれぞれに対応するマイクロサッカードの特徴を特徴量として抽出し（ｓ３３）、顕著度推定部３４に出力する。

例えば、眼球の位置情報の時系列について１次階差系列を計算し、階差系列の絶対値が所定の閾値を上回る時間区間をマイクロサッカードが起きている区間として検出する。取得された眼球の位置情報にノイズが多く含まれると判断される場合などには、１次階差系列の計算にあたって適当な範囲での移動平均値を用いても良い。検出に用いる閾値には、階差系列の標準偏差の6倍程度の値を用いることが好ましい。

マイクロサッカードの特徴に対応する特徴量は、音の顕著度を推定するための指標ともいえる。言い換えれば、眼球の位置情報の時系列のうち、マイクロサッカードが起きている区間における眼球運動を表す特徴量である。特徴量は、具体的には、マイクロサッカードが起きているときの眼球位置の時系列を位置制御系のステップ応答としてモデル化したときの減衰率λ、もしくは、減衰係数ζ'、または、マイクロサッカードの前後のドリフトの速度V_d（図１０参照）の少なくとも何れか１つ以上を含む特徴量である。位置制御系のステップ応答は、固有角振動数をω'_ｎとして、

と表される。ここでG(s)は伝達係数,y(t)は位置, y'(t)は速度を表し、

と表される。ただし、ｔは時刻を表すインデックスであり、ｓはラプラス変換によるパラメタ（複素数）である。固有角振動数ω'_ｎはマイクロサッカードの応答の速さを表す指標に相当し、減衰係数ζ'はマイクロサッカードの応答の正確性に対応する指標に相当する。また、A', V_max, A_o, V_o, T'_pはそれぞれ以下を表す（図１１参照）。

（１）基準振幅A':マイクロサッカードによる眼球の動きが収束したときの移動量である。

（２）最大速度V_max:基準振幅A'＋オーバーシュートの振幅A_oに達するまでの最大の速度である。

（３）オーバーシュート(overshoot)の振幅A_o:マイクロサッカードによって基準振幅A'を超過した（行き過ぎた）部分の量である。オーバーシュートとは、波形の立ち上がり部分で、波形が基準振幅A'を超えて突出する現象、または、その突出した波形である。言い換えると、オーバーシュートの振幅とは、突出した部分の量である。

（４）オーバーシュートの速度V_o:基準振幅A'＋オーバーシュートの振幅A_oから基準振幅A'に収束しようとする際の最大の速度である。

（５）立ち上がり時間T'_p:基準振幅A'＋オーバーシュートの振幅A_oに達する（立ち上がる）までにかかる時間である。なお、基準振幅A'＋オーバーシュートの振幅A_oの値は、最大速度V_maxからオーバーシュートの速度V_oに達するまでにかかる時間と同じ値となる。

なお、第１時間区間において、複数回のマイクロサッカードが含まれる場合には、それぞれのマイクロサッカードについて求めた減衰率λ、もしくは、減衰係数ζ、または、マイクロサッカードの前後のドリフトの速度V_dの代表値を第１時間区間に対応するマイクロサッカードの特徴として用いる。代表値とは、例えば平均値、最大値、最小値、最初のマイクロサッカードに対応する値などである。特に平均値を用いることが好ましい。また、第１時間区間の中に１回もマイクロサッカードが含まれない場合は、第１時間区間の直後のマイクロサッカード（第１時間区間よりも時間的に後ろで、かつ、最も第１時間区間に近い時刻に生じるマイクロサッカード）について求めた減衰率λ、もしくは、減衰係数ζ、または、マイクロサッカードの前後のドリフトの速度V_dの代表値を第１時間区間に対応するマイクロサッカードの特徴として用いる。つまり、第１時間区間に対応する眼球の位置情報は、少なくとも１回マイクロサッカードを含むように取得されているものとする。第２時間区間についても同様のことが言える。

＜顕著度推定部３４＞
顕著度推定部３４は、第１時間区間について特徴量抽出部３３が抽出した第１特徴量と、第２時間区間について特徴量抽出部３３が抽出した第２特徴量との相違の度合いに基づいて、所定の音（対象音）の目立ち度合い（顕著度）を推定する（ｓ３４）。

なお、本実施形態では、第１特徴量及び第２特徴量に(1)平均速度V、振幅A、減衰係数ζのいずれか１つ、または、その組合せと、(2)減衰率λ、ドリフトの速度V_d、減衰係数ζ'のいずれか１つ、または、その組合せとが含まれる。

(1)平均速度V、振幅A、減衰係数ζと顕著度との関係は第一実施形態で説明した通りである。

ここで、(2)減衰率λ、ドリフトの速度V_d、減衰係数ζ'と顕著度との関係を説明する。

特徴量が減衰率λもしくはドリフトの速度V_dである場合には、第１特徴量が第２特徴量よりも大きく、かつ、その差が大きいほど、顕著度が高いと推定する。

あるいは、特徴量が減衰係数ζ'である場合には、第１特徴量が第２特徴量よりも小さく、かつ、その差が大きいほど、顕著度が高いと推定する。

これは、減衰係数ζ'や減衰率λ、ドリフトの速度V_dと対象音の顕著度との間に、以下のような相関関係があることが、実験により明らかになったことに基づく。
(1)減衰係数ζ'の変化量が大きいほど、顕著度が大きい。
(2)減衰率λの変化量が大きいほど、顕著度が大きい。なお、減衰係数と減衰率は負の相関関係にある。
(3)マイクロサッカードの前後のドリフトの速度V_dが増加するほど、顕著度が大きい。

なお、減衰係数ζ'、減衰率λ、ドリフトの速度V_dのいずれか１つを単独で用いてもよいし、組み合わせて用いてもよい。例えば、何れか二つを満たせばよい、三つ全てを満たせばよい、等と設定してもよい。すなわち、第１時間区間と第２時間区間についての、減衰係数ζ'、減衰率λ、ドリフトの速度V_dのいずれか１つ以上の特徴量の各々についての相違の度合いに基づき、対象音の目立ち度合いを推定してもよい。

なお、減衰係数ζ'は、マイクロサッカードを位置制御系（二次遅れ系）のステップ応答としてみたときの、応答の正確性に対応する指標である。顕著音を聴いているときは、音に意識が向けられることで、マイクロサッカードの制御に関わる脳の中枢あるいは外眼筋にも一時的な影響があらわれ、応答の正確性（減衰係数）の変化として観測できると考えられる。

図５の実験を行った場合の減衰係数ζ'の測定結果を図１２に示す。ただし、被験者の人数を10人とした。結果、顕著音の呈示直後には減衰係数が減少する傾向にあることが確認された。すなわち、顕著音が呈示されている時間区間（第１時間区間）におけるマイクロサッカードの減衰係数（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）におけるマイクロサッカードの減衰係数（第２特徴量）とを比較すると、第１特徴量の方が第２特徴量よりも小さい傾向にある。また、音の顕著度が高いほど、第１特徴量と第２特徴量の差、すなわち減衰係数の変化量の絶対値が増加する傾向がある。

減衰率λは減衰係数ζと負の相関関係を持つ指標であるため、減衰係数ζとは逆に、顕著音が呈示されている時間区間（第１時間区間）におけるマイクロサッカードの減衰係数（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）におけるマイクロサッカードの減衰係数（第２特徴量）とを比較すると、第１特徴量の方が第２特徴量よりも大きい傾向にある。

また、ドリフトは前述の通り、固視微動の一つであり、人がある一点を注視しているときの眼球の小さな滑らかな動きのことであり、顕著音を聴いているときは、音に意識が向けられることで、マイクロサッカードの制御に関わる脳の中枢あるいは外眼筋にも一時的な影響があらわれることで、マイクロサッカードの前後のドリフトの速度V_dにも変化が表れる。実験では、減衰率と同様に、顕著音が呈示されている時間区間（第１時間区間）におけるマイクロサッカードの前後のドリフトの速度V_d（第１特徴量）と、基準音が呈示されている時間区間（第２時間区間）におけるマイクロサッカードの前後のドリフトの速度V_d（第２特徴量）とを比較すると、第１特徴量の方が第２特徴量よりも大きい傾向にあることが確認された。

また、いずれの場合も、音の顕著度が高いほど、第１特徴量と第２特徴量の差（の絶対値）が大きい傾向にある。すなわち、音の顕著度が高いほど、減衰係数や減衰率、ドリフトの速度の変化が顕著に表れる。

なお、実験では、対象音（顕著音）と基準音という２種類の音を用いたが、基準音として対象音と異なる音が発せられているとは限らず、何も音が発せられていなくても同様の傾向が観測される。要するに、所定の音（顕著音）が受聴可能なように呈示されている時間区間（第１時間区間）と、所定の音が受聴可能でない時間区間（第２時間区間）におけるマイクロサッカードの特徴に相違がある。

この知見に基づき、顕著度推定部３４は、所定の音が受聴可能なように呈示されている第１時間区間におけるマイクロサッカードの特徴量である第１特徴量と、所定の音が受聴可能でない第２時間区間におけるマイクロサッカードの特徴である第２特徴量との相違の度合いに基づいて、所定の音の顕著度を推定する。

具体的には、特徴量がマイクロサッカードの減衰係数である場合には、第１特徴量の方が第２特徴量よりも小さい場合に、音の顕著度が高いと推定する。また、第１特徴量と第２特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第２時間区間において所定の音（第１時間区間の音）とは異なる音が呈示されているとすれば、第１特徴量と第２特徴量のうち小さい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。

特徴量がマイクロサッカードの減衰率またはドリフトの速度である場合には、第１特徴量の方が第２特徴量よりも大きい場合に、音の顕著度が高いと推定する。また、第１特徴量と第２特徴量の差の絶対値が大きいほど、音の顕著度合いが高いと推定する。第２時間区間において所定の音（第１時間区間の音）とは異なる音が呈示されているとすれば、第１特徴量と第２特徴量のうち大きい方の特徴量に対応する時間区間に呈示されている音の方が顕著度が高いと推定されることになる。

本実施形態では、(1)平均速度V、振幅A、減衰係数ζのいずれか１つ、または、その組合せにおいて、上述の要件を満たし、かつ、(2)減衰率λ、ドリフトの速度V_d、減衰係数ζ'のいずれか１つ、または、その組合せにおいて、上述の要件を満たせばよい、等と設定してもよい。すなわち、第１時間区間と第２時間区間についての、(1)平均速度V、振幅A、減衰係数ζのいずれか１つ以上の特徴量の各々についての相違の度合いと、(2)減衰係数ζ'、減衰率λ、ドリフトの速度V_dのいずれか１つ以上の特徴量の各々についての相違の度合いとに基づき、対象音の目立ち度合いを推定してもよい。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、マイクロサッカードの特徴を考慮することで、推定精度を向上させることができる。

＜変形例１＞
顕著度推定装置３０は、音呈示部１１、瞳孔情報取得部１２及び眼球運動取得部３２を含まなくともよい。すなわち、音呈示部１１、瞳孔情報取得部１２及び眼球運動取得部３２の少なくとも１つを別装置として構成し、別装置から対象音、各時間区間ごとの瞳孔の大きさ及び眼球の位置情報の少なくとも１つを受け取る構成とすればよい。

＜第四実施形態＞
第二実施形態と異なる部分を中心に説明する。

第四実施形態の音の顕著度推定装置４０は、第二実施形態の特徴量抽出部２３とモデル記憶部２５の代わりに、特徴量抽出部４３とモデル記憶部４５を含み、さらに、眼球運動取得部３２を含む（図８参照）。本実施形態では、モデル記憶部４５を参照することにより、対象者にとっての対象音の顕著度を推定する。眼球運動取得部３２の処理内容は、第三実施形態で説明した通りである。

＜特徴量抽出部４３＞
特徴量抽出部４３は、特徴量抽出部２３と同様の処理を行う。つまり、第１時間区間に対応する瞳孔径の時系列を受け取り、第１時間区間に対応する瞳孔径の時系列から、瞳孔の大きさの変化を表す特徴量を抽出する（ｓ２３）。さらに、以下の処理を行う。

特徴量抽出部４３は、第１時間区間に対応する眼球の位置情報を受け取り、第１時間区間に対応する眼球の位置情報の時系列から、マイクロサッカードの特徴に対応する値を抽出する（ｓ４３）。

瞳孔の大きさの変化に対応する値とマイクロサッカードの特徴に対応する値とを要素として含む特徴量ベクトルを顕著度推定部２４に出力する。

瞳孔の大きさの変化に対応する値として、第二実施形態で説明した値が考えられる。例えば、散瞳の平均速度V、振幅A、減衰係数ζ、散瞳の固有角振動数ω_n、立ち上がり時間T_p、発生頻度に対応するパラメータ(直前（i-1番目）の散瞳から現在（i番目）の散瞳までの時間ΔT_i、現在（i番目）の散瞳から次（i+1番目）の散瞳までの時間ΔT_i+1)、縮瞳に関するパラメータ等である。

マイクロサッカードの特徴に対応する値として、第三実施形態と同様にマイクロサッカードの減衰係数ζ、減衰率λ、ドリフトの速度V_dが考えられる。さらに、以下の値が考えられる（図７、１０及び１１参照）。

（１）基準振幅A':マイクロサッカードによる眼球の動きが収束したときの移動量。

（２）最大速度V_max:基準振幅A'＋オーバーシュートの振幅A_oに達するまでの最大の速度。

（３）立ち上がり時間T'_p:基準振幅A'＋オーバーシュートの振幅A_oに達する（立ち上がる）までにかかる時間である。なお、基準振幅A'＋オーバーシュートの振幅A_oの値は、最大速度V_maxからオーバーシュートの速度V_oに達するまでにかかる時間と同じ値となる。

（４）オーバーシュート(overshoot)の振幅A_o:マイクロサッカードによって基準振幅A'を超過した（行き過ぎた）部分の量である。オーバーシュートとは、波形の立ち上がり部分で、波形が基準振幅A'を超えて突出する現象、または、その突出した波形である。言い換えると、オーバーシュートの振幅とは、突出した部分の量である。

（５）オーバーシュートの速度V_o:基準振幅A'＋オーバーシュートの振幅A_oから基準振幅A'に収束しようとする際の最大の速度である。

（６）位置制御系のステップ応答としてモデル化したときの固有角振動数ω'_n

（７）発生頻度に対応するパラメータ（図７参照）
（７−１）直前（i-1番目）のマイクロサッカードから現在（i番目）のマイクロサッカードまでの時間ΔT'_i
（７−２）現在（i番目）のマイクロサッカードから次（i+1番目）のマイクロサッカードまでの時間ΔT'_i+1
なお、上記（７）に関しては、第１時間区間の時刻の先頭に近いマイクロサッカードから順に１番目、２番目、…と順序を付けているものとする。

第三実施形態と同様に、第１時間区間の中に複数のマイクロサッカードが含まれる場合には、上述のA, V_max, T_p, A_o, V_o, ω_n, ΔT_i, ΔT_i+1は第１時間区間に含まれる各マイクロサッカードについて求めた値の代表値（例えば平均値）を用いるものとする。また、第１時間区間内に１回もマイクロサッカードが含まれない場合には、第１時間区間直後のマイクロサッカードの特徴量を、第１時間区間に対応する特徴量として用いる。

＜モデル記憶部４５＞
モデル記憶部４５は、特徴量を入力として、顕著度を出力するような顕著度推定モデルが予め記録されている。本実施形態では、特徴量として、第二実施形態で説明した特徴量に加え、特徴量抽出部４３で抽出した特徴量の一部または全部を含む。つまり、特徴量ベクトルの要素として、第二実施形態で説明したものに加え、減衰係数（ζ'），減衰率（λ），ドリフトの速度(V_d)、基準振幅(A')，オーバーシュートの振幅(A_o),最大速度(V_max)，オーバーシュートの速度(V_o)、立ち上がり時間(T'_p),発生頻度に関するパラメータ(ΔT'_i,ΔT'_i+1)、固有角振動数ω'_nの中の一部または全部を含む。

要素の数を増やすことで、推定の精度を高めることができる。なお、減衰係数（ζ），減衰率（λ），ドリフトの速度(V_d)、基準振幅(A)，オーバーシュートの振幅(A_o), 最大速度(V_max)，オーバーシュートの速度(V_o)を要素として含む特徴量ベクトルを用いたときに、推定精度が高いことが実験等により明らかとなった。

なお、顕著度推定モデルは、第二実施形態で説明した方法と同様の方法により作成することができる。

＜効果＞
このような構成により、第二実施形態と同様の効果を得ることができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第１特徴量と、第２時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第２特徴量と、を抽出する特徴量抽出部と、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定部とを含む、
音の顕著度推定装置。
第１時間区間を所定の音を受聴可能なようにヒトに呈示する時間区間、第２時間区間を前記所定の音を受聴可能としない時間区間とし、第１時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第１特徴量と、第２時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第２特徴量と、を抽出する特徴量抽出ステップと、
前記第１特徴量と前記第２特徴量との相違の度合いに基づいて、前記所定の音の目立ち度合いを推定する顕著度推定ステップとを含む、
音の顕著度推定方法。
請求項２の音の顕著度推定方法であって、
前記第１特徴量及び前記第２特徴量は、散瞳の平均速度、または、散瞳の振幅を少なくとも含み、
前記顕著度推定ステップは、
前記第２特徴量に含まれる散瞳の平均速度、または、散瞳の振幅よりも前記第１特徴量に含まれる散瞳の平均速度、または、散瞳の振幅が大きく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが大きいと推定する、
および／または、
前記第２特徴量に含まれる散瞳の平均速度、または、散瞳の振幅よりも前記第１特徴量に含まれる散瞳の平均速度、または、散瞳の振幅が小さく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが小さいと推定する、
音の顕著度推定方法。
請求項２の音の顕著度推定方法であって、
前記第１特徴量及び前記第２特徴量は、瞳孔の大きさの変化を位置制御系のステップ応答としてモデル化したときの減衰係数を少なくとも含み、
前記顕著度推定ステップは、
前記第２特徴量に含まれる減衰係数よりも前記第１特徴量に含まれる減衰係数が小さく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが大きいと推定する、
および／または、
前記第２特徴量に含まれる減衰係数よりも前記第１特徴量に含まれる減衰係数が大きく、かつ、その差の絶対値が大きいほど、音の目立ち度合いが小さいと推定する、
音の顕著度推定方法。
請求項２記載の音の顕著度推定方法であって、
前記第２時間区間において前記所定の音と異なる第２の音を受聴可能なように前記ヒトに呈示するものとし、
前第１特徴量及び前記第２特徴量は、散瞳の平均速度、または、散瞳の振幅を少なくとも含み、
前記第１特徴量に含まれる散瞳の平均速度、または、散瞳の振幅と前記第２特徴量に含まれる散瞳の平均速度、または、散瞳の振幅のうち、値が大きい方の特徴量に対応する時間区間に呈示された音についての前記顕著度推定ステップの推定結果は、他方の時間区間に呈示された音についての前記顕著度推定ステップの推定結果よりも音の目立ち度合いが大きいことに対応する、
ことを特徴とする音の顕著度推定方法。
請求項２の音の顕著度推定方法であって、
前記第２時間区間において前記所定の音と異なる第２の音を受聴可能なように前記ヒトに呈示するものとし、
前記第１特徴量及び前記第２特徴量は、瞳孔の大きさの変化を位置制御系のステップ応答としてモデル化したときの減衰係数を少なくとも含み、
前記第１特徴量に含まれる減衰係数と前記第２特徴量に含まれる減衰係数のうち、値が小さい方の特徴量に対応する時間区間に呈示された音についての前記顕著度推定ステップの推定結果は、他方の時間区間に呈示された音についての前記顕著度推定ステップの推定結果よりも音の目立ち度合いが大きいことに対応する、
ことを特徴とする音の顕著度推定方法。
モデル記憶部には、ヒトの瞳孔の大きさの変化を表す特徴量を少なくとも含む特徴量ベクトルと音の目立ち度合いとの相関性を記述したモデルである顕著度推定モデルが記憶されているものとして、
所定の音を受聴可能なようにヒトに呈示する第１時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す第１特徴量を抽出する特徴量抽出ステップと、
前記第１特徴量を入力として、前記顕著度推定モデルを参照することにより、前記所定の音の顕著度を推定する顕著度推定ステップとを含む、
音の顕著度推定方法。
請求項７の音の顕著度推定方法であって、
前記第１特徴量は、散瞳の平均速度、散瞳の振幅、及び、瞳孔の大きさの変化を位置制御系のステップ応答としてモデル化したときの減衰係数の少なくとも何れかを要素として含む特徴量ベクトルである、
音の顕著度推定方法。
請求項２から６の何れかの音の顕著度推定方法であって、
前記特徴量抽出ステップにおいて、第１時間区間に対応する前記ヒトの瞳孔の大きさの変化を表し、かつ、第１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第１特徴量と、第２時間区間に対応する前記ヒトの瞳孔の大きさの変化を表し、かつ、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する第２特徴量と、を抽出し、
前記顕著度推定ステップにおいて、第１時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す前記第１特徴量と、第２時間区間に対応する前記ヒトの瞳孔の大きさの変化を表す前記第２特徴量との相違の度合いと、１時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する前記第１特徴量と、第２時間区間に対応する前記ヒトの眼球の動きに表れるマイクロサッカードの特徴に対応する前記第２特徴量との相違の度合いとに基づいて、前記所定の音の目立ち度合いを推定する、
音の顕著度推定方法。
請求項２から９の何れかの音の顕著度推定方法をコンピュータに実行させるためのプログラム。