JP5941350B2

JP5941350B2 - 聴覚印象量推定装置及びそのプログラム

Info

Publication number: JP5941350B2
Application number: JP2012141774A
Authority: JP
Inventors: 大出　訓史; 訓史大出; 安藤　彰男; 彰男安藤; 賢司小澤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-06-25
Filing date: 2012-06-25
Publication date: 2016-06-29
Anticipated expiration: 2032-06-25
Also published as: JP2014006692A

Description

本発明は、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置及びそのプログラムに関する。

収音再生技術の発展に伴い、２２．２マルチチャンネル音響システムやＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓなど、臨場感が高い多様な音響システムが提案されている。このため、これら音響システムにおいて、その品質を客観的に評価することが求められている。

従来から、符号化された音に対する客観評価方法として、ＰＥＡＱ(Perceptual Evaluation of Audio Quality)が提案されており、ＩＴＵ（International Telecommunication Union）で規格化されている（非特許文献１参照）。この非特許文献１に記載の技術は、人の聴覚末梢系を模擬しており、聴覚中枢系を簡易なニューラルネットワークで代用したものである。

近年、収音再生技術の品質を評価する指標として、臨場感という感性情報が注目されている。この臨場感は、あたかもその場にいるような感じを示すが、音響空間の再現度だけでなく、心理効果（例えば、「心が揺さぶられた」）に対しても影響を受けることが知られている（非特許文献２参照）。また、臨場感の前提となる聴覚印象は、聴取者の嗜好や心理状態等の様々な条件によって、異なることが知られている（非特許文献３参照）。さらに、心理状態は、急速に変化してすぐに定常状態になる情動や、比較的長時間持続する情動など、情動の種類によって状態遷移の時定数が異なることが知られている。さらに、情動の種類によって、影響を与える聴覚印象が異なると考えられる。

ここで、人間が感じる音響品質の客観評価方法として、例えば、特許文献１に記載の発明が提案されている。この特許文献１に記載の発明は、音響特徴量から聴覚印象量を一意に決定し、その聴覚印象量から臨場感を推定するものである。

特開２０１１−２５００４９号公報

ＩＴＵ−ＲＢＳ．１３８７電子情報通信学会技術研究報告ＨＩＰ２００８−１３２，"「臨場感」に関するイメージ調査"，聴覚研究会資料Ｖｏｌ．４０，Ｎｏ．１，Ｈ−２０１０−１日本音響学会２０１０年度春季研究発表会講演論文集２−１−７，"A study of influences of word and phone accuracies on unsupervised HMM-based speech synthesis"

しかし、特許文献１に記載の発明では、音響特徴量から聴覚印象量を一意に決定するため、心理状態が聴覚印象量に反映されておらず、聴覚印象量が正確でないという問題がある。このため、特許文献１に記載の発明では、推定した臨場感が、必ずしも聴取者が実際に感じている臨場感を正確に表していない。

そこで、本発明は、前記した問題を解決し、正確な聴覚印象量を提示できる聴覚印象量推定装置及びそのプログラムを提供することを課題とする。

前記した課題に鑑みて、本願第１発明に係る聴覚印象量推定装置は、音響信号が再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置であって、音響信号分析手段と、心理状態遷移モデルデータベースと、心理状態推定手段と、確率分布モデルデータベースと、抽出条件生成手段と、聴覚印象量算出手段と、を備えることを特徴とする。

かかる構成によれば、聴覚印象量推定装置は、音響信号分析手段によって、音響信号が入力され、入力された音響信号の音響特徴量である音響分析値を、音響信号を音響分析して求める。

ここで、音響特徴量としては、例えば、基本周波数の時間変化パターン、周波数特性、周波数特性の分類クラス、レベルの時間変化パターン、ラウドネス、ラフネス、シャープネス、両耳間時間差、両耳間レベル差、両耳間相関度、両耳間相関関数の幅があげられる。そして、聴覚印象量推定装置は、これら音響特徴量の１つ以上を音響分析する。

また、聴覚印象量推定装置は、音響特徴量を評価条件とし、評価条件毎に心理状態に関する主観評価実験を行って被験者の心理状態の遷移確率を設定した心理状態遷移モデルが、心理状態遷移モデルデータベースに予め記憶されている。また、聴覚印象量推定装置は、心理状態推定手段によって、心理状態遷移モデルに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定する。

また、聴覚印象量推定装置は、被験者の心理状態毎に聴覚印象量に関する主観評価実験を行って聴覚印象量と音響特徴量とを予め対応付けた確率分布モデルが、確率分布モデルデータベースに記憶されている。従って、聴覚印象量推定装置は、確率分布モデル抽出手段によって、この確率分布モデルに含まれる被験者の心理状態と、心理状態推定手段で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成することができる。

また、聴覚印象量推定装置は、聴覚印象量算出手段によって、確率分布モデルから、抽出条件に対応する聴覚印象量及び音響特徴量を抽出し、抽出した聴覚印象量及び音響特徴量に、音響特徴量の区間毎に予め設定された確率関数を適用することで、音響分析値に対応する聴覚印象量を算出する。つまり、聴覚印象量推定装置は、確率分布モデルの全モデルデータ（聴覚印象量及び音響特徴量）のうち、聴取者の心理状態に対応するモデルデータのみを抽出する。従って、聴覚印象量推定装置が提示する聴覚印象量は、聴取者の心理状態が反映されることになる。

なお、心理状態とは、聴取者や被験者の気持ちを示すものである。
聴覚印象とは、聴取者や被験者が感じた音の特徴を言葉で表現（ラベリング）したものである。
聴覚印象量とは、聴覚印象の程度、つまり、聴覚印象を数値化したものである。
聴取者とは、音響信号を実際に聴取する者である。
被験者とは、心理状態遷移モデル又は確率分布モデルを構築するときの主観評価実験の対象者である。

また、本願第２発明に係る聴覚印象量推定装置は、聴取者に依存する設定パラメータとして、聴取者の嗜好が入力される設定パラメータ入力手段をさらに備え、心理状態遷移モデルデータベースが、評価条件に音響特徴量及び被験者の嗜好が含まれる心理状態遷移モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の嗜好を心理状態の推定結果に反映させることができる。
なお、嗜好とは、聴取者や被験者の好みを示すものである。

また、本願第３発明に係る聴覚印象量推定装置は、聴取者の生体情報を測定する生体情報測定手段をさらに備え、心理状態遷移モデルデータベースが、さらに、評価条件に被験者の生体情報が含まれる心理状態遷移モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の生体情報を心理状態の推定結果に反映させることができる。

また、本願第４発明に係る聴覚印象量推定装置は、心理状態遷移モデルデータベースが、被験者の心理状態が段階的に遷移する心理状態遷移モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の心理状態の遷移を詳細に把握することができる。

また、本願第５発明に係る聴覚印象量推定装置は、心理状態遷移モデルデータベースが、被験者の心理状態に含まれる内部状態が遷移する心理状態遷移モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の心理状態の遷移を詳細に把握することができる。
なお、内部状態とは、聴取者や被験者の心理状態を言葉で表現（ラベリング）したものである。ここでは、内部状態とは、心理状態遷移モデルを構成する１単位（１ユニット）のことである。

なお、本願第１発明に係る聴覚印象量推定装置は、ＣＰＵ、データベース等のハードウェア資源を備える一般的なコンピュータを、前記した各手段として協調動作させる聴覚印象量推定プログラムによって実現することもできる。この聴覚印象量推定プログラムは、通信回線を介して配布しても良く、ＣＤ−ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

本発明によれば、以下のような優れた効果を奏する。
本願第１発明によれば、聴取者の心理状態が聴覚印象量に反映されるため、正確な聴覚印象量を提示することができる。
本願第２発明によれば、聴取者の心理状態に加えて、聴取者の嗜好が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。

本願第３発明によれば、聴取者の生体情報が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。
本願第４，５発明によれば、聴取者の心理状態の遷移を詳細に把握できるため、より正確な聴覚印象量を提示することができる。

本発明の第１実施形態に係る聴覚印象量推定装置の構成を示すブロック図である。図１のデータベースに記憶された心理状態遷移モデルの第１例を説明する図である。図１のデータベースに記憶された心理状態遷移モデルの第２例を説明する図である。図１のデータベースに記憶された心理状態遷移モデルの第３例を説明する図である。（ａ）〜（ｃ）は第１実施形態において抽出条件の生成理由を説明する図である。（ａ）〜（ｅ）は第１実施形態において抽出条件の生成理由を説明する図である。図１の聴覚印象量算出手段による聴覚印象量の算出と、臨場感推定値算出手段による臨場感推定値の算出とを説明する図である。図１の聴覚印象量提示手段が聴覚印象量及び臨場感推定値を棒グラフ形式で提示した例を説明する図である。図１の聴覚印象量提示手段が聴覚印象量及び臨場感推定値を相関図形式で提示した例を説明する図である。本発明の第２実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値の算出を説明する図である。本発明の第２実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値を棒グラフ形式で提示した例を説明する図である。本発明の第２実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値をレーダーチャート形式で提示した例を説明する図である。本発明の第２実施形態に係る聴覚印象量推定装置の全体動作を示すフローチャートである。図１３のステップＳ１の動作を示すフローチャートである。図１３のステップＳ２の動作を示すフローチャートである。図１３のステップＳ３の動作を示すフローチャートである。図１３のステップＳ４の動作を示すフローチャートである。本発明の変形例１において、心理状態遷移モデルを説明する図である。本発明の変形例２において、心理状態遷移モデルを説明する図である。（ａ）〜（ｄ）は本発明の変形例２において遷移確率の設定を説明する図である。（ａ）及び（ｂ）は本発明の変形例２において遷移確率の選択を説明する図である。

以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。

（第１実施形態）
［聴覚印象量推定装置の構成］
図１を参照し、本発明の第１実施形態に係る聴覚印象量推定装置１の構成について説明する。
聴覚印象量推定装置１は、聴取者が再生音場音響信号（音響信号）を聴いたときの聴覚印象量と、臨場感の推定値とを提示するものである。このため、聴覚印象量推定装置１は、音響信号分析手段１０と、データベース２０と、心理状態推定手段３０と、確率分布モデル抽出手段（抽出条件生成手段）４０と、聴覚印象量推定手段５０とを備える。
なお、設定パラメータ入力手段６０及び生体情報測定手段７０は、後記する。

まず、音響信号分析手段１０に入力される再生音場音響信号について説明する。
再生音場音響信号は、再生音場で収音された音響信号（実際に再現された音響空間で計測された音響信号）である。例えば、再生音場音響信号は、コンサートホールでのオーケストラ生演奏を収音した音響信号を、リビングルームのオーディオ機器により再生して、その再生音を収音した音響信号である。

このとき、音響空間の計測（再生音場音響信号の収音）には、例えば、人間の頭部を模擬した計測装置（ダミーヘッドに設置されたマイクロホン）を用いることができる。
また、音響空間の計測には、複数のマイクロホンを用いて空間的な情報を取得できる計測装置を用いてもよい。例えば、複数のマイクロホンを配置して、音量や位相を比較することで、音の到来方向を算出することができる。このとき、信号間相関（ダミーヘッドの場合は、両耳間相関）を算出することで、音の拡がり感を空間的な情報として取得できる。

音響信号分析手段１０は、再生音場音響信号が入力され、入力された再生音場音響信号の音響特徴量である音響分析値を、再生音場音響信号を音響分析して求めるものである。例えば、音響信号分析手段１０は、ラウドネス推定値、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅等の音響特徴量を、音響分析値として算出する。そして、音響信号分析手段１０は、算出した音響分析値を、確率分布モデル抽出手段４０に出力する。

ここで、音響信号分析手段１０は、音響特徴量として、音像の方向を求めてもよい。例えば、両耳間レベル差及び両耳間位相差から、聴取者に対する音像の角度を求める。音像の方向を４方向で表す場合、音響信号分析手段１０は、求めた音像の角度が聴取者の正面９０°の範囲内であれば音像の方向を「正面」とし、この音像の角度が聴取者の左右９０°の範囲内であれば音像の方向を「側面」とし、この音像の角度が聴取者の背面９０°の範囲内であれば音像の方向を「背面」とする。
さらに、音響信号分析手段１０は、音像の方向を、４５°の範囲内で区分された８方向で表してもよい。

なお、これら音響分析の手法は、一般的なものであるため説明を省略する。また、音響信号分析手段１０が求める音響特徴量は、音響分析可能なものであればよく、これらに限定されないことは言うまでもない。また、音響信号分析手段１０がどの音響特徴量を求めるかは、手動で設定することができる。

データベース２０は、後記する心理状態推定手段３０及び聴覚印象量推定手段５０が用いる様々な情報が予め記憶されたデータベースである。例えば、データベース２０は、評価用音響信号と、心理状態遷移モデル２１と、確率分布モデル２３と、重み係数とを記憶している。

評価用音響信号は、心理状態遷移モデル２１及び確率分布モデル２３を構築するときの主観評価実験において、被験者が聴いた音響信号である。この評価用音響信号は、再生音場音響信号が含まれてもよく、再生音場音響信号が含まれなくてもよい。

心理状態遷移モデル２１は、音響特徴量を評価条件とし、評価条件毎に主観評価実験を行って被験者の心理状態間の遷移確率を求めたものである。
評価条件（メタデータ）とは、心理状態遷移モデル２１を構築するための主観評価実験を行った条件である。
なお、心理状態遷移モデル２１の構築については後記する。

心理状態とは、聴取者や被験者の気持ちを示すものであり、例えば、ゾクッとするような感動を示す「感動（ゾクッ）」、感動が特にない「平常」、ジーンとするような感動を示す「感動（ジーン）」といったものがある。

この他、心理状態には、例えば、「楽しい」、「悲しい」、「イライラ」といったものがある。
さらに、心理状態は、カテゴリーで区分してもよい。例えば、「抑鬱」というカテゴリーの心理状態には、「気がかりな」、「不安な」、「自信がない」という心理状態が含まれる。また、例えば、「敵意」というカテゴリーの心理状態には、「攻撃的な」、「憎らしい」、「むっとした」という心理状態が含まれる。また、例えば、「倦怠」というカテゴリーの心理状態には、「つまらない」、「疲れた」、「退屈な」という心理状態が含まれる。また、例えば、「活動的快」というカテゴリーの心理状態には、「活気のある」、「気力に満ちた」、「はつらつとした」という心理状態が含まれる。また、例えば、「非活動的快」というカテゴリーの心理状態には、「のんびりした」、「のどかな」、「おっとりした」という心理状態が含まれる。また、例えば、「親和」というカテゴリーの心理状態には、「いとおしい」、「愛らしい」、「すてきな」という心理状態が含まれる（参考文献１参照）。
参考文献１：「多面的感情状態尺度の作成」、寺崎他、心理学研究、第６２号、pp.350-356、1992

前記した心理状態とは別に、設定パラメータは、興味の有無を含めてもよい。
興味とは、評価対象（再生音場音響信号Ａ及び評価用音響信号）に対する聴取者や被験者の関心を示すものである。例えば、興味の有無は、「興味が有る」を‘０’、「興味が無い」を‘１’のような２値を設定してもよい。また、興味の有無として、「大変興味が有る」、「そこそこ興味が有る」、「全く興味が無い」等に対応する値を段階的に設定してもよい。

確率分布モデル２３は、被験者の心理状態毎に主観評価実験を行って、モデルデータ（聴覚印象量及び音響特徴量）を予め対応付けたものである。
聴覚印象とは、聴取者や被験者が感じた音の特徴を言葉で表現（ラベリング）したものであり、例えば、「広がり感」、「明るい」といったものがある。
聴覚印象量とは、聴覚印象の程度、つまり、聴覚印象を数値化したものである。
なお、確率分布モデル２３の構築については後記する。

重み係数は、臨場感推定値に対する聴覚印象量の寄与率を示すものであり、重回帰分析、数量化Ｉ類等の多変量解析により求めることができる。
重回帰分析では、複数の観測値（説明変数）から変数（目的変数）を予測するとき、予測誤差が最も少なくなるように寄与率を算出する。本実施形態では、観測値（説明変数）を音響特徴量の確率分布モデル２３から求めた聴覚印象量とし、変数（目的変数）を臨場感推定値とした重回帰分析を行う。このことから、重み係数は、データベース２０に記憶されている観測値に依存することになる。

なお、多変量解析により重み係数を求める例を説明したが、学習手法は、これに限定されない。例えば、重み係数は、ニューラルネットワーク、遺伝的アルゴリズム等の機械学習で求めることもできる。

＜心理状態遷移モデルの構築：第１例＞
以下、図２〜図４を参照し、心理状態遷移モデル２１の構築について、第１例〜第３例を説明する（適宜図１参照）。
図２に示すように、第１例の心理状態遷移モデル２１は、「感動（ゾクッ）」と、「平常」と、「感動（ジーン）」との間のように、ある心理状態から別の心理状態に遷移する。また、心理状態遷移モデル２１は、「平常」を維持するように、同一の心理状態を維持する。

この図２では、被験者の心理状態を、「感動（ゾクッ）」、「平常」、「感動（ジーン）」として説明する。
また、丸中の文字が心理状態を示し、心理状態が遷移する経路を矢印で示す（図３も同様）。
また、心理状態の遷移確率をＰ_ｘとする（ｘ＝１１，１２，１３，２１，２２，３１，３３）。例えば、遷移確率Ｐ_１１は、「平常」から遷移せずに「平常」を維持する確率を示す。また、例えば、遷移確率Ｐ_１２は、「平常」から「感動（ジーン）」へ遷移する確率を示す。

心理状態遷移モデル２１は、複数の被験者に主観評価実験を行って、構築できる。具体的には、評価用音響信号を被験者に聴かせながら、心理状態の変化（遷移）をフェーダにより入力させる。このフェーダは、左端が「感動（ゾクッ）」を示し、中央が「平常」を示し、右端が「感動（ジーン）」を示している。また、被験者がフェーダを移動させることで、評価用音響信号を聞いたときの心理状態の変化を入力できる。

また、評価用音響信号を被験者に聴かせている間、評価用音響信号の「ラウドネス」を測定しておく。そして、心理状態の変化及び「ラウドネス」の関係から、「感動（ゾクッ）」と、「平常」と、「感動（ジーン）」との間での遷移確率Ｐ_ｘを示す心理状態遷移モデル２１を求めることができる

ここで、急激な音量の変化があるとゾクッとするような感動が得られることが知られている（参考文献２参照）。このため、心理状態遷移モデル２１では、評価用音響信号の時刻ｔ_１，ｔ_２におけるラウドネス推定値の差分が予め設定された閾値以上となる場合、「平常」から「感動（ジーン）」への遷移確率Ｐ_１２の値を高く設定してもよい。

参考文献２：O.Grewe,et al,“Listening to music as a re-creative process:Physiological, psychological, and psychoacoustical correlates of chills and strong emotions. ”Music Perception,Vol.24,No.3,pp.297-314,2007.

＜心理状態遷移モデルの構築：第２例＞
図３に示すように、第２例の心理状態遷移モデル２１は、「感動（ジーン）高」と、「感動（ジーン）中」と、「感動（ジーン）低」との間のように、ある心理状態が段階的に遷移する。

例えば、心理状態遷移モデル２１では、ジーンとするような感動の強度に応じて、「感動（ジーン）高」と、「感動（ジーン）中」と、「感動（ジーン）低」というように３段階で設定されている。

ここで、「感動（ジーン）高」は、ジーンとするような感動の強度が高いことを示す。また、「感動（ジーン）低」は、ジーンとするような感動の強度が低いことを示す。また、「感動（ジーン）中」は、ジーンとするような感動の強度が「感動（ジーン）高」及び「感動（ジーン）低」との中間であることを示す。

以上のように、第２例では、心理状態の強度を反映させた心理状態遷移モデル２１を構築し、聴取者の心理状態の遷移を詳細に把握することが可能となる。
なお、第２例では、遷移確率Ｐ_ｘを第１例と同様に設定できるため、説明及び図示を省略した。

＜心理状態遷移モデルの構築：第３例＞
図４に示すように、第３例の心理状態遷移モデル２１は、「平常」に含まれる内部状態「無関心」と、「関心」と、「高関心」との間のように、同一の心理状態に含まれる内部状態が遷移する。また、心理状態遷移モデル２１は、「平常」に含まれる「高関心」と、「感動」に含まれる内部状態「感動低」との間のように、異なる心理状態に含まれる内部状態でも遷移する。

この内部状態とは、聴取者や被験者の心理状態を言葉で表現（ラベリング）したものである。ここで、内部状態とは、心理状態遷移モデル２１を構成する１単位（１ユニット）のことである。
例えば、心理状態が「平常」であれば、内部状態は、関心が無いことを示す「無関心」と、関心があることを示す「関心」と、関心が高いことを示す「高関心」とになる。
また、例えば、心理状態が「感動」であれば、内部状態は、感動が低いことを示す「感動低」と、感動が高いことを示す「感動高」とになる。
また、例えば、心理状態が「嫌悪」であれば、内部状態は、否定していることを示す「否定」と、険悪なことを示す「険悪」とになる。

このように、第３例では、「平常」という心理状態を内部状態で区別することで、各内部状態から別の心理状態である「感動」へ遷移する確率を変えることができる。従って、第３例では、聴取者の心理状態の遷移を詳細に把握することが可能となる。

また、一度、心理状態が「感動」になってから「平常」に戻った場合、そのときの内部状態が、次に「感動」に戻りやすい「高関心」であると考えられる。従って、図４に示すように、「感動低」から「関心」のように、ある内部状態に戻らない心理状態遷移モデル２１を構築することもできる。

なお、図４では、破線内側の文字が心理状態を示し、丸中の文字が内部状態を示し、心理状態が遷移する経路を矢印で示す。
また、第３例では、遷移確率Ｐ_ｘを第１例と同様に設定できるため、説明及び図示を省略した。
また、例えば、心理状態遷移モデル２１は、前記した第１例〜第３例のうち、任意の手法で構築できる。

＜確率分布モデルの構築＞
確率分布モデル２３の構築について説明する。
例えば、聴覚印象の「広がり感」、両耳間相互相関度、音圧レベル、音源の方向、直前の音の広がり、及び、聴取者の嗜好の影響を受けると考えられる。そこで、音響特徴量を「両耳間相互相関度」とし、聴覚印象を「広がり感」として説明する。

この確率分布モデル２３は、複数の聴取者（被験者）に対して主観評価実験を行って、構築できる。具体的には、評価用音響信号を被験者に聴かせると共に、評価用音響信号の「両耳間相互相関度」を測定しておく。また、「平常」といった被験者の心理状態も、この被験者に予め回答させておく。

ここで、様々な心理状態で評価用音響信号を聴いたときに感じた「広がり感」の程度を被験者に回答させて、「広がり感」の聴覚印象量として求める。そして、評価用音響信号の「両耳間相互相関度」と、被験者が回答した「広がり感」の聴覚印象量とを対応付けて、モデルデータとして求める。このとき、各モデルデータには、このモデルデータを対応付けたときの心理状態を付加する。この主観評価実験を、心理状態が「平常」や「感動（ゾクッ）」といった、複数の被験者に対して行い、様々な心理状態におけるモデルデータを求める。その結果、確率分布モデル２３は、「平常」、「感動（ゾクッ）」といった心理状態が個々のモデルデータに付加されることになる。

図１に戻り、聴覚印象量推定装置１の構成について、説明を続ける。
心理状態推定手段３０は、心理状態遷移モデル２１に設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。つまり、心理状態推定手段３０は、乱数発生処理を用いて確率的に、最も尤からしい聴取者の心理状態を推定する。

ここで、「平常」から「感動（ジーン）」と、「平常」から「感動（ゾクッ）」とのように、同一の心理状態から別々の心理状態に遷移する可能性がある（図２参照）。この場合、心理状態推定手段３０は、「平常」から「感動（ジーン）」及び「感動（ゾクッ）」に遷移するか否かを、遷移確率Ｐ_１２，Ｐ_１３と、遷移確率Ｐ_１２，Ｐ_１３それぞれで発生させた乱数との比較により判定する。例えば、遷移確率Ｐ_１２，Ｐ_１３の最大値、平均値又は中央値の何れかを基準値とし、この基準値と乱数とを比較し、基準値から乱数が最も離れている心理状態を推定結果としてもよい。そして、心理状態推定手段３０は、推定された聴取者の心理状態を確率分布モデル抽出手段４０に出力する。

確率分布モデル抽出手段４０は、確率分布モデル２３に含まれる被験者の心理状態と、心理状態推定手段３０で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成するものである。

例えば、確率分布モデル２３では、被験者の心理状態が「感動（ゾクッ）」及び「平常」であることとする。また、心理状態推定手段３０で推定された聴取者の心理状態が「感動（ゾクッ）」であることとする。この場合、確率分布モデル２３に含まれる全モデルデータの心理状態のなかで、心理状態推定手段３０の推定結果に一致する心理状態は、「感動（ゾクッ）」である。従って、確率分布モデル抽出手段４０は、例えば、「感動（ゾクッ）」を示す抽出条件を生成し、聴覚印象量推定手段５０に出力する。さらに、確率分布モデル抽出手段４０は、音響信号分析手段１０から入力された音響分析値を、聴覚印象量推定手段５０に出力する。

＜抽出条件の生成理由＞
図５，図６を参照し、抽出条件を生成する理由について、説明する。
図５（ａ）に示すように、音響特徴量は、音響信号の時間に応じて変化し、これに伴って聴覚印象量も変化する。このため、感動といった心理状態は、音響信号の途中（例えば、音楽を聴いている途中）で変化することがある。
この図５（ａ）では、各時間の音響特徴量を実線で図示し、この音響特徴量の平均値を破線で図示した。

従来の確率分布モデル９０では、図５（ｂ）に示すように、各モデルデータの音響特徴量に音響分析結果の平均値や最大値が用いられ、各モデルデータの聴覚印象量に聴取後の評価値が用いられている。
この図５（ｂ）では、音響信号の各時間でのモデルデータを黒丸で図示した。つまり、図５（ｂ）の確率分布モデル９０では、黒丸のそれぞれが、異なる時間でのモデルデータを示している。

しかし、図５（ｃ）に示すように、音響特徴量が同じ結果であっても、被験者の心理状態によって聴覚印象量が異なることがある。
この図５（ｃ）では、ある音響信号を聴取したとき、感動したと回答した被験者から求めた聴覚印象量の平均値を実線で図示し、全聴取者の平均値を破線で図示し、感動しないと回答した被験者から求めた聴覚印象量の平均値を一点鎖線で図示した。

例えば、図６（ａ）に示すように、確率分布モデル２３の全モデルデータから回帰直線を描く。
この図６では、評価用音響信号の各時間でのモデルデータを黒丸で図示した。つまり、図６の確率分布モデル２３では、黒丸のそれぞれが、異なる時間でのモデルデータを示している。

また、図６（ｂ）に示すように、確率分布モデル２３において、評価用音響信号の聴取後に感動したと回答した被験者から求めたモデルデータ（黒丸）と、評価用音響信号の聴取後に感動しないと回答した被験者から求めたモデルデータ（白丸）とを分類した。例えば、感動したと回答した被験者であっても、評価用音響信号の前半では感動していないことがあり、モデルデータの分散が大きくなる。その結果、図６（ｃ）に示すように、図６（ｂ）の全黒丸から求めた回帰直線（実線）と、全白丸から求めた回帰直線（破線）との誤差が大きくなる。

また、図６（ｄ）に示すように、確率分布モデル２３において、感動している心理状態の被験者から求めたモデルデータ（黒丸）と、感動していない心理状態の被験者から求めたモデルデータ（白丸）とを分類した。ここで、図６（ｂ）に示すように、評価用音響信号の聴取後に感動したと回答した被験者から求めたモデルデータにも、図６（ｄ）に示すように、時系列データとして扱うと、感動していない心理状態であった被験者から求めたモデルデータが含まれている（符号９１参照）。従って、図６（ｅ）に示すように、図６（ｄ）の全黒丸から求めた回帰直線と、全白丸から求めた回帰直線とを描くと、両者の誤差が小さくなる。言い換えるなら、抽出条件で確率分布モデル２３のモデルデータを絞り込むことで、回帰直線の誤差が小さくなる。

図１に戻り、聴覚印象量推定装置１の構成について、説明を続ける。
聴覚印象量推定手段５０は、聴覚印象量及び臨場感推定値を算出し、提示するものである。この聴覚印象量推定手段５０は、聴覚印象量算出手段５１と、臨場感推定値算出手段５３と、聴覚印象量提示手段５５とを備える。

聴覚印象量算出手段５１は、確率分布モデル２３から、確率分布モデル抽出手段４０で生成された抽出条件に一致するモデルデータを抽出し、抽出したモデルデータに、音響特徴量の区間毎に予め設定された確率関数を適用することで、確率分布モデル抽出手段４０から入力された音響分析値に対応する聴覚印象量を算出するものである。
臨場感推定値算出手段５３は、聴覚印象量算出手段５１が算出した聴覚印象量に、予め設定された重み係数を乗じた値を、臨場感推定値として算出するものである。

＜聴覚印象量及び臨場感推定値の算出＞
図７を参照し、聴覚印象量算出手段５１による聴覚印象量を算出と、臨場感推定値算出手段５３による臨場感推定値の算出とを説明する（適宜図１参照）。
聴覚印象量算出手段５１は、全てのモデルデータが含まれる確率分布モデル２３から、抽出条件に一致するモデルデータを抽出する。例えば、確率分布モデル２３に含まれる全モデルデータの心理状態が「感動（ゾクッ）」及び「平常」であり、抽出条件が「感動（ゾクッ）」である場合を考える。この場合、聴覚印象量算出手段５１は、確率分布モデル２３から、「感動（ゾクッ）」のモデルデータを抽出する。

また、聴覚印象量算出手段５１は、図７に示すように、確率分布モデルの音響特徴量（横軸方向）を所定の区間に分割する。そして、聴覚印象量算出手段５１は、分割した各区間のうち、音響分析値が含まれる区間を求める。さらに、聴覚印象量算出手段５１は、抽出したモデルデータに、求めた区間の確率関数（例えば、正規分布、二項分布）を適用し、音響特徴量に対応する聴覚印象量を求める。ここで、聴覚印象量算出手段５１は、確率関数に従って、聴覚印象量の存在確率を算出する。例えば、聴覚印象量算出手段５１は、乱数を発生させ、その乱数値を存在確率の累積度数とみなして、聴覚印象量を算出する。

このとき、臨場感推定値の信頼性を向上させるため、聴覚印象量算出手段５１は、乱数を複数回発生させて累積度数を複数回算出し、算出した全累積度数の平均値を、聴覚印象量として算出してもよい。さらに、聴覚印象量算出手段５１は、リアルタイムで臨場感推定値を算出する場合、聴覚印象量の時間変化が予め設定された範囲内に収まるようにしてもよい。

臨場感推定値算出手段５３は、データベース２０から、確率分布モデル２３に対応する重み係数を読み出す。そして、臨場感推定値算出手段５３は、算出した聴覚印象量と、読み出した重み係数とを乗じて、臨場感推定値を算出する。

図１に戻り、聴覚印象量推定手段５０の説明を続ける。
聴覚印象量提示手段５５は、聴覚印象量算出手段５１が算出した聴覚印象量と、臨場感推定値算出手段５３が算出した臨場感推定値とを提示するものである。ここで、聴覚印象量提示手段５５は、聴覚印象量及び臨場感推定値を、グラフィカルな形式で提示する。

＜聴覚印象量及び臨場感推定値の提示＞
図８，図９を参照し、聴覚印象量提示手段５５による聴覚印象量及び臨場感推定値の提示について、説明する。
図８に示すように、聴覚印象量提示手段５５は、例えば、聴覚印象量及び臨場感推定値を棒グラフ形式で提示する。具体的には、聴覚印象量提示手段５５は、聴覚印象量算出手段５１が算出した聴覚印象量（例えば、「広がり感」）を、棒グラフ９６として提示する。また、聴覚印象量提示手段５５は、臨場感推定値算出手段５３が算出した臨場感推定値を、棒グラフ９７として提示する。このとき、聴覚印象量提示手段５５は、確率分布モデル抽出手段４０が生成した抽出条件９８を提示してもよい。

また、図９に示すように、聴覚印象量提示手段５５は、聴覚印象量及び臨場感推定値を相関図形式で提示してもよい。この相関図は、縦軸が臨場感推定値を示し、横軸が聴覚印象量（例えば、「広がり感」）を示す。そして、聴覚印象量算出手段５１が算出した聴覚印象量と、臨場感推定値算出手段５３が算出した臨場感推定値とを示す点９９を、この相関図にプロットする。

以上のように、本発明の第１実施形態に係る聴覚印象量推定装置１は、聴覚印象量算出手段５１が、確率分布モデル２３の全てのモデルデータのうち、聴取者の心理状態に一致するモデルデータのみを抽出する。これによって、聴覚印象量推定装置１は、聴取者の心理状態を聴覚印象量に反映させ、正確な聴覚印象量を提示することができる。さらに、聴覚印象量推定装置１は、この聴覚印象量から臨場感の推定値を算出するため、聴取者が実際に感じている臨場感を正確に提示することができる。
なお、聴覚印象量推定装置１の動作は、第２実施形態と同様のため、説明を後記する。

（第２実施形態）
［聴覚印象量推定装置の構成］
図１０を参照し、本発明の第２実施形態に係る聴覚印象量推定装置１Ａの構成について、第１実施形態と異なる点を説明する（適宜図１参照）。
聴覚印象量推定装置１Ａは、ｉ種類の音響分析値からｊ種類の聴覚印象量を算出することが、第１実施形態と異なる（但し、ｉ＞１、ｊ＞１を満たす整数）。このため、聴覚印象量推定装置１Ａは、音響信号分析手段１０と、データベース２０と、心理状態推定手段３０と、確率分布モデル抽出手段４０Ａと、聴覚印象量推定手段５０Ａとを備える。
なお、本実施形態では、互いに異なる音響分析値及び聴覚印象量が１対１で対応付けられた確率分布モデルを記憶することとする（つまり、ｉ＝ｊ）。

音響信号分析手段１０は、ラウドネス推定値、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅等の音響特徴量のうち、ｉ種類を音響分析値として求める。

データベース２０は、評価用音響信号と、心理状態遷移モデル２１と、ｊ種類の確率分布モデルＱ_ｊと、確率分布モデルＱ_ｊ毎の重み係数Ｗ_ｊとを記憶する。
つまり、データベース２０は、図１０に示すように、１種類目の音響特徴量（音響分析値１）及び１種類目の聴覚印象量（聴覚印象量１）が対応付けられた確率分布モデルＱ_１を記憶する。
また、データベース２０は、２種類目の音響特徴量（音響分析値２）及び２種類目の聴覚印象量（聴覚印象量２）が対応付けられた確率分布モデルＱ_２を記憶する。
また、データベース２０は、３種類目の音響特徴量（音響分析値３）及び３種類目の聴覚印象量（聴覚印象量３）が対応付けられた確率分布モデルＱ_３を記憶する。
また、データベース２０は、４種類目の音響特徴量（音響分析値４）及び４種類目の聴覚印象量（聴覚印象量４）が対応付けられた確率分布モデルＱ_４を記憶する。
また、データベース２０は、ｉ種類目の音響特徴量（音響分析値ｉ）及びｊ種類目の聴覚印象量（聴覚印象量ｊ）が対応付けられた確率分布モデルＱ_ｊを記憶する。

聴覚印象量推定手段５０Ａは、聴覚印象量算出手段５１Ａと、臨場感推定値算出手段５３Ａと、聴覚印象量提示手段５５Ａとを備える。
聴覚印象量算出手段５１Ａは、ｊ種類の確率分布モデルＱ_ｊのそれぞれから、抽出条件に一致するモデルデータを抽出し、抽出したモデルデータを参照して、ｊ種類の聴覚印象量を算出する。
なお、聴覚印象量の算出方法は、聴覚印象量算出手段５１と同様のため、説明を省略する。

臨場感推定値算出手段５３Ａは、聴覚印象量算出手段５１Ａが算出したｊ種類の聴覚印象量と、確率分布モデルＱ_ｊ毎の重み係数Ｗ_ｊとを乗じた値の合計を、臨場感推定値として算出する。
具体的には、臨場感推定値算出手段５３Ａは、１種類目の聴覚印象量と、確率分布モデルＱ_１の重み係数Ｗ_１との乗算値を算出する。また、臨場感推定値算出手段５３Ａは、２種類目の聴覚印象量と、確率分布モデルＱ_２の重み係数Ｗ_２との乗算値を算出する。また、臨場感推定値算出手段５３Ａは、３種類目の聴覚印象量と、確率分布モデルＱ_３の重み係数Ｗ_３との乗算値を算出する。また、臨場感推定値算出手段５３Ａは、４種類目の聴覚印象量と、確率分布モデルＱ_４の重み係数Ｗ_４との乗算値を算出する。また、臨場感推定値算出手段５３Ａは、ｊ種類目の聴覚印象量と、確率分布モデルＱ_ｊの重み係数Ｗ_ｊとの乗算値を算出する。そして、臨場感推定値算出手段５３Ａは、ｊ個の乗算値を合計し、臨場感推定値を算出する

＜聴覚印象量及び臨場感推定値の提示＞
図１１，図１２を参照し、聴覚印象量提示手段５５Ａによる聴覚印象量及び臨場感推定値の提示について、説明する。
聴覚印象量提示手段５５Ａは、聴覚印象量及び臨場感推定値を、グラフィカルな形式で提示する。ここでは、聴覚印象量として、「移動感」及び「広がり感」を求めたこととする。

図１１に示すように、聴覚印象量提示手段５５Ａは、「移動感」と、「広がり感」と、臨場感推定値とを棒グラフ形式で提示してもよい。
また、図１２に示すように、聴覚印象量提示手段５５Ａは、「移動感」と、「広がり感」と、臨場感推定値とを、レーダーチャート形式で提示してもよい。

［聴覚印象量推定装置の全体動作］
図１３を参照し、聴覚印象量推定装置１Ａの全体動作について説明する（適宜図１参照）。
この図１３では、聴覚印象量推定装置１Ａは、入力された再生音場音響信号から、聴覚印象量及び臨場感推定値をリアルタイムで算出することとする。

聴覚印象量推定装置１Ａは、音響信号分析手段１０によって、再生音場音響信号を音響分析して、音響分析値を求める（ステップＳ１）。
聴覚印象量推定装置１Ａは、心理状態推定手段３０によって、聴取者の心理状態を推定する（ステップＳ２）。
聴覚印象量推定装置１Ａは、確率分布モデル抽出手段４０Ａによって、抽出条件を生成する（ステップＳ３）。

聴覚印象量推定装置１Ａは、聴覚印象量算出手段５１Ａによって聴覚印象量を算出し、臨場感推定値算出手段５３Ａによって臨場感推定値を算出する（ステップＳ４）。
聴覚印象量推定装置１Ａは、聴覚印象量提示手段５５Ａによって、リアルタイム処理中の聴覚印象量及び臨場感推定値を提示する（ステップＳ５）。

聴覚印象量推定装置１Ａは、再生音場音響信号が末尾に達したか否かによって、全体処理を終了するか否かを判定する（ステップＳ６）。
再生音場音響信号が末尾に達していない場合（ステップＳ６でＮｏ）、聴覚印象量推定装置１Ａは、全体処理を終了しないと判定し、後記するカウンタｃｉ，ｃｊをインクリメントし、ステップＳ１の処理に戻る。

再生音場音響信号が末尾に達した場合（ステップＳ６でＹｅｓ）、聴覚印象量推定装置１Ａは、全体処理を終了すると判定し、ステップＳ７の処理に進む。
聴覚印象量推定装置１Ａは、聴覚印象量提示手段５５Ａによって、全体処理終了後の聴覚印象量及び臨場感推定値を提示する（ステップＳ７）。

［音響信号分析処理］
図１４を参照し、図１３の音響信号分析処理（ステップＳ１）について説明する（適宜図１参照）。
音響信号分析手段１０は、再生音場音響信号から所定区間を切り出す（ステップＳ１１）。

音響信号分析手段１０は、過去に切り出した区間の再生音場音響信号を、図示を省略したメモリから読み出す（ステップＳ１２）。
なお、音響信号分析手段１０は、レベルの時間変化パターン等の音響特徴量を用いる場合、過去区間の再生音場音響信号が必要になるため、ステップＳ１２の処理を行う。

音響信号分析手段１０は、カウンタｃｉが音響特徴量種類数Ｎ以下であるか否かを判定する（ステップＳ１３）。
カウンタｃｉが音響特徴量種類数Ｎ以下の場合（ステップＳ１３でＹｅｓ）、音響信号分析手段１０は、ステップＳ１４の処理に進む。
なお、音響特徴量種類数Ｎは、音響分析の対象となる音響特徴量の種類数を示しており、予め設定される（Ｎ＝ｉ）。

音響信号分析手段１０は、ｃｉ個目の音響特徴量により音響分析値を算出する。そして、音響信号分析手段１０は、ステップＳ１１の処理に戻る（ステップＳ１４）。

カウンタｃｉが音響特徴量種類数Ｎを越える場合（ステップＳ１３でＮｏ）、音響信号分析手段１０は、ステップＳ１５の処理に進む。
音響信号分析手段１０は、ステップＳ１１で切り出した再生音場音響信号をメモリに記憶し、処理を終了する（ステップＳ１５）。
つまり、音響信号分析手段１０は、Ｎ種類の音響分析値を算出する。

［心理状態推定処理］
図１５を参照し、図１１の心理状態推定処理（ステップＳ２）について説明する（適宜図１参照）。
心理状態推定手段３０は、過去に推定した心理状態を、図示を省略したメモリから読み出す（ステップＳ２１）。

心理状態推定手段３０は、カウンタｃｊが聴覚印象種類数Ｌ以下であるか否かを判定する（ステップＳ２２）。
カウンタｃｉが聴覚印象種類数Ｌ以下の場合（ステップＳ２２でＹｅｓ）、心理状態推定手段３０は、ステップＳ２３の処理に進む。
心理状態推定手段３０は、心理状態遷移モデル２１に設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、心理状態を推定する（ステップＳ２３）。
聴覚印象種類数Ｌは、推定する聴覚印象の種類数を示している（Ｌ＝ｊ）。

カウンタｃｉが聴覚印象種類数Ｌを越える場合（ステップＳ２２でＮｏ）、心理状態推定手段３０は、ステップＳ２４の処理に進む。
心理状態推定手段３０は、ステップＳ２３で推定した心理状態をメモリに記憶し、処理を終了する（ステップＳ２４）。
なお、心理状態推定手段３０は、現在の心理状態を推定するため、心理状態推定モデル２１において、過去の心理状態から現在の心理状態に至った経路を参照する必要がるため、ステップＳ２４の処理を行う。

［抽出条件生成処理］
図１６を参照し、図１３の抽出条件生成処理（ステップＳ３）について説明する（適宜図１参照）。
確率分布モデル抽出手段４０Ａは、カウンタｃｉが、音響特徴量種類数Ｎ及びパラメータ設定種類数Ｍの加算値以下であるか否かを判定する（ステップＳ３１）。
なお、パラメータ設定種類数Ｍは、設定パラメータに設定されたパラメータの種類数であり、本実施形態では、設定パラメータを利用しないためゼロである。

カウンタｃｉが加算値（Ｎ＋Ｍ）以下の場合（ステップＳ３１でＹｅｓ）、確率分布モデル抽出手段４０Ａは、ステップＳ３２の処理に進む。
確率分布モデル抽出手段４０Ａは、確率分布モデルに含まれる被験者の心理状態と、心理状態推定手段３０で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成する（ステップＳ３２）。
確率分布モデル抽出手段４０Ａは、ｃｉ番目の抽出条件をメモリに記憶し、ステップＳ２１の処理に戻る（ステップＳ３３）。

カウンタｃｉが加算値（Ｎ＋Ｍ）を越える場合（ステップＳ３１でＮｏ）、確率分布モデル抽出手段４０Ａは、ステップＳ３４の処理に進む。
確率分布モデル抽出手段４０Ａは、ステップＳ３３で記憶した抽出条件を聴覚印象量推定手段５０に出力する（ステップＳ３４）。

［聴覚印象量・臨場感推定値算出処理］
図１７を参照し、図１３の聴覚印象量・臨場感推定値算出処理（ステップＳ４）について説明する（適宜図１参照）。
聴覚印象量推定手段５０Ａは、カウンタｃｊが聴覚印象種類数Ｌ以下であるか否かを判定する（ステップＳ４１）。
カウンタｃｊが聴覚印象種類数Ｌ以下の場合（ステップＳ４１でＹｅｓ）、聴覚印象量推定手段５０Ａは、ステップＳ４２の処理に進む。

聴覚印象量算出手段５１Ａは、確率分布モデルから、抽出条件に一致するモデルデータを抽出する（ステップＳ４２）。
聴覚印象量算出手段５１Ａは、抽出したモデルデータを参照して、音響分析値に対応するｊ番目の聴覚印象量を算出し、ステップＳ３１の処理に戻る（ステップＳ４３）。

カウンタｃｊが聴覚印象種類数Ｌを超える場合（ステップＳ４１でＮｏ）、聴覚印象量推定手段５０Ａは、ステップＳ４４の処理に進む。
臨場感推定値算出手段５３Ａは、各聴覚印象量と、各聴覚印象量を算出した確率分布モデルの重み係数とを乗じた値を、臨場感推定値として算出する（ステップＳ４４）。

以上のように、本発明の第２実施形態に係る聴覚印象量推定装置１Ａは、複数の音響特徴量が１つの聴覚印象に寄与する場合でも、第１実施形態と同様、聴覚印象量及び臨場感を正確に提示することができる。

（第３実施形態）
図１に戻り、本発明の第３実施形態に係る聴覚印象量推定装置１Ｂについて、第１実施形態と異なる点を説明する。

聴覚印象量推定装置１Ｂは、心理状態遷移モデル２１Ｂの評価条件に嗜好がさらに含まれる点が第１実施形態と異なる。このため、聴覚印象量推定装置１Ｂは、音響信号分析手段１０と、データベース２０Ｂと、心理状態推定手段３０Ｂと、確率分布モデル抽出手段４０と、聴覚印象量推定手段５０と、設定パラメータ入力手段６０とを備える。

データベース２０Ｂは、評価条件に嗜好がさらに含まれる心理状態遷移モデル２１Ｂを記憶する。
ここで、心理状態遷移モデル２１Ｂは、第１実施形態と同様、音響特徴量（例えば、ラウドネス推定値）を評価条件として、心理状態の遷移確率Ｐ_ｘが設定される。
なお、ラウドネス推定値を評価条件とした遷移確率Ｐ_ｘを「遷移確率Ｐ_ｘ｜Ｌ」と呼ぶ。

この場合、評価条件として、「穏やか」といった被験者の嗜好も、この被験者に予め回答させる。例えば、興味がある対象に対しては感動しやすいことが知られている（参考文献３参照）。このため、後記する設定パラメータの聴取者の嗜好と、被験者の嗜好とが一致する場合、「平常」から「感動（ジーン）」への遷移確率Ｐ_１２を高く設定する。このようにして、聴取者毎に固有の心理状態遷移モデル２１Ｂを構築することもできる。
参考文献３：戸梶、“『感動』喚起のメカニズムについて”，認知科学，Vol.8，No.4，pp.360-368，2001
なお、嗜好を評価条件とした遷移確率Ｐ_ｘを「遷移確率Ｐ_ｘ｜ｐ」と呼ぶ。

嗜好とは、聴取者や被験者の好みを示すものであり、例えば、「好き」、「嫌い」、「穏やか」、「激しい」といったものがある。また、嗜好は、「クラシックが好き」といったように、コンテンツの種類に対する聴取者の好みであってもよい。ここで、嗜好は、後記する主観評価実験により予め定義することができる。

ここでは、心理状態推定手段３０Ｂよりも先に設定パラメータ入力手段６０を説明する。
設定パラメータ入力手段６０は、聴取者に依存する設定パラメータを入力するものである。例えば、聴取者が、図示を省略したマウス、キーボードを介して、「穏やか」、「激しい」というように予め定義された嗜好から、この聴取者自身にあった嗜好（例えば、「穏やか」）を入力（選択）する。すると、設定パラメータ入力手段６０は、聴取者の嗜好が「穏やか」を示す設定パラメータを生成する。そして、設定パラメータ入力手段６０は、生成した設定パラメータを心理状態推定手段３０Ｂに出力する。

また、同じ音を聴いた場合でも聴取時間帯が異なると、聴取者のバイオリズムや疲労の影響により、聴覚印象が異なる場合も考えられる。そこで、設定パラメータは、このバイオリズムや疲労の影響を反映させるべく、聴取時間帯を含めてもよい。
聴取時間帯とは、聴取者や被験者が音（音楽）を聴く時間帯を示すものであり、例えば、「平日の２１時から２２時」、「休日の１０時から１２時」といったものがある。
なお、聴取者は、聴取者の嗜好と同様、聴取者の興味及び聴取時間帯といった設定パラメータを設定パラメータ入力手段６０に入力（選択）できる。

心理状態推定手段３０Ｂは、心理状態遷移モデル２１Ｂに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。

前記したように、心理状態遷移モデル２１Ｂは、「平常」から「感動（ジーン）」への同一経路であっても、評価条件に音響特徴量及び被験者の嗜好という２種類が含まれるため、２種類の遷移確率Ｐ_１２｜Ｌ，Ｐ_１２｜ｐが存在する。このため、心理状態推定手段３０Ｂは、以下で説明するように、心理状態を推定する。

例えば、遷移確率Ｐ_１２｜Ｌ，Ｐ_１２｜ｐが０．１から１．０までの値で正規化され、遷移確率Ｐ_１２｜Ｌ＝０．６、遷移確率Ｐ_１２｜ｐ＝０．４であるとする。この場合、乱数を生成し、生成した乱数が遷移確率Ｐ_１２｜Ｌを超えたか否かを判定する。ここで、乱数が遷移確率Ｐ_１２｜Ｌを超えた場合、心理状態推定手段３０Ｂは、「平常」から「感動（ジーン）」に遷移させる。一方、乱数が遷移確率Ｐ_１２｜Ｌを超えない場合、心理状態推定手段３０Ｂは、再度乱数を生成し、再生成した乱数が遷移確率Ｐ_１２｜ｐを超えたか否かにより、「平常」を「感動（ジーン）」に遷移させるか否かを判定する。

以上のように、本発明の第３実施形態に係る聴覚印象量推定装置１Ｂは、聴取者の心理状態に加えて、聴取者の嗜好が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。

（第４実施形態）
本発明の第４実施形態に係る聴覚印象量推定装置１Ｃについて、第３実施形態と異なる点を説明する。

聴覚印象量推定装置１Ｃは、心理状態遷移モデル２１Ｃの評価条件に生態情報がさらに含まれる点が第１実施形態と異なる。このため、聴覚印象量推定装置１Ｃは、音響信号分析手段１０と、データベース２０Ｃと、心理状態推定手段３０Ｃと、確率分布モデル抽出手段４０と、聴覚印象量推定手段５０と、設定パラメータ入力手段６０と、生体情報測定手段７０とを備える。

データベース２０Ｃは、評価条件に生体情報がさらに含まれる心理状態遷移モデル２１Ｃを記憶する。例えば、生体情報は、聴取者や被験者の脳波計測値、心拍数又は発汗量である。

ここで、心理状態遷移モデル２１Ｃは、第１実施形態と同様、音響特徴量（例えば、ラウドネス推定値）及び被験者の嗜好を評価条件として、心理状態の遷移確率が設定される。このとき、評価条件として、評価用音響信号を聴取している被験者の生態情報を予め測定する。このようにして、心理状態遷移モデル２１Ｃを構築することができる。

ここでは、心理状態推定手段３０Ｃよりも先に生体情報測定手段７０を説明する。
生体情報測定手段７０は、聴取者の生体情報を測定するものである。例えば、生体情報測定手段７０は、再生音場音響信号を聴いたときの聴取者の生体情報として計測する。そして、生体情報測定手段７０は、測定した生体情報を心理状態推定手段３０Ｃに出力する。

心理状態推定手段３０Ｃは、心理状態遷移モデル２１Ｃに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。

前記したように、心理状態遷移モデル２１Ｃは、「平常」から「感動（ジーン）」への同一経路であっても、評価条件に音響特徴量と被験者の嗜好と生態情報という３種類が含まれるため、３種類の遷移確率が存在する。従って、心理状態推定手段３０Ｃは、３種類の遷移確率毎に乱数を発生させ、予め設定した基準数（例えば、３）以上、発生させた乱数が遷移確率を超えたか否かを判定する。そして、基準数以上の乱数が遷移確率を超えた場合、心理状態推定手段３０Ｃは、心理状態を遷移させる。一方、基準数以上の乱数が遷移確率を超えない場合、心理状態推定手段３０Ｃは、心理状態を遷移させない。

以上のように、本発明の第４実施形態に係る聴覚印象量推定装置１Ｃは、聴取者の生体情報が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。

以上、本発明の各実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。実施形態の変形例を以下に示す。

（変形例１）
図１８を参照し、本発明の変形例１に係る聴覚印象量推定装置１について、第１実施形態と異なる点を説明する。
図１８に示すように、心理状態遷移モデル２１では、「感動（ジーン）」及び「感動（ゾクッ）」というように、２種類の心理状態を強度に応じて段階的に遷移させる点が第１実施形態と異なる。

ここで、心理状態遷移モデル２１では、「感動（ジーン）」及び「感動（ゾクッ）」のそれぞれが、強度に応じて３段階に設定されている。そして、心理状態遷移モデル２１では、「感動（ジーン）」及び「感動（ゾクッ）高」が段階毎に組み合わされている。例えば、「感動（ジーン・低）（ゾクッ・低）」は、ジーンとするような感動の強度が低く、かつ、ゾクッとするような感動の強度が低い心理状態を示す。

（変形例２）
図１９を参照し、本発明の変形例２に係る聴覚印象量推定装置１について、第１実施形態と異なる点を説明する（適宜図１参照）。
この変形例２では、心理状態推定手段３０が、音響信号分析手段１０から入力された音響分析値に従って、心理状態遷移モデル２１の遷移確率を選択することが、第１実施形態と異なる。

本変形例では、心理状態遷移モデル２１は、図１９に示すように、心理状態が「平常」及び「感動」との間で遷移する単純なモデルであることとする。また、音響分析値が「音圧レベル」であることとする。

心理状態遷移モデル２１は、「平常」から「感動」までの同一経路であっても、音圧レベルの差に応じて、複数の遷移確率Ｐ_１２を設定できる。例えば、心理状態遷移モデル２１は、音圧レベルの差が平坦なときの遷移確率Ｐ_１２｜平と、音圧レベルの差が上昇するときの遷移確率Ｐ_１２｜昇と、音圧レベルの差が下降するときの遷移確率Ｐ_１２｜降とを設定できる。

この音圧レベルの差は、「レベル差」と呼ぶ。本変形例では、音圧レベルの差は、音圧レベルが低から高に大きく変化する「上昇」と、音圧レベルが高から低に大きく変化する「下降」と、音圧レベルが大きく変化しない「平坦」とに区分される。

＜遷移確率の設定＞
図２０を参照し、心理状態遷移モデル２１に遷移確率を設定する手法を説明する。
図２０（ｂ）では、第１被験者の感動の変化を実線で図示し、第２被験者の感動の変化を破線で図示し、第３被験者の感動の変化を一点鎖線で図示した。
図２０（ｃ）では、図２０（ｂ）の各時刻をサンプル点１〜８として図示した。

図２０（ｄ）では、サンプル点１〜８において、レベル差と、被験者の感動の変化との関係を図示した。また、図２０（ｄ）では、レベル差が平坦な場合を「平」、レベル差が上昇の場合を「昇」、レベル差が下降の場合を「降」と略記した。また、図２０（ｄ）では、被験者の感動が高い状態を「高」と図示し、被験者の感動が低い状態を「低」と図示した。また、図２０（ｄ）では、第１被験者の感動状態を「感動状態１」と図示し、第２被験者の感動状態を「感動状態２」と図示し、第３被験者の感動状態を「感動状態３」と図示した。

まず、図２０（ａ）に示すように、評価用音響信号の音圧レベルを所定の時間単位で算出して、音圧レベルの変化を示すレベル差を求める。このとき、図２０（ｂ）に示すように、複数（例えば、３名）の被験者に評価用音響信号を聴かせながら、感動の変化をフェーダにより入力させる。
以後の説明では、評価用音響信号の聴取開始時、全被験者の感動が低い状態であることとする。

図２０（ｄ）に示すように、サンプル点１，２では、レベル差が「平坦」であり、被験者全員の感動が「低」から変化していない。このため、心理状態が「平常」を維持する可能性が高いと考えられる。従って、レベル差が「平坦」のときの遷移確率Ｐ_１１｜平は、全被験者の数と、感動が「低」から変化しなかった被験者数との比により、３/３となる。

また、サンプル点３では、レベル差が「上昇」であり、被験者のうち２人で感動が「低」から「高」に変化している。このため、心理状態が「平常」から「感動」に遷移する可能性が高いと考えられる。従って、レベル差が「上昇」のときの遷移確率Ｐ_１２｜昇は、全被験者の数と、感動が「低」から「高」に変化した被験者数との比により、２/３となる。

一方、サンプル点３において、被験者の残り１人は、感動が「低」から変化していない。従って、レベル差が「上昇」のときの遷移確率Ｐ_１１｜昇は、被験者全員と、感動が「低」から変化しなかった被験者との比で表すと、１/３となる。

以上の手順により、心理状態遷移モデル２１において、レベル差が「平坦」のときの遷移確率Ｐ_１１｜平，Ｐ_１２｜平，Ｐ_２１｜平，Ｐ_２２｜平と、レベル差が「上昇」のときの遷移確率Ｐ_１１｜昇，Ｐ_１２｜昇，Ｐ_２１｜昇，Ｐ_２２｜昇と、レベル差が「下降」のときの遷移確率Ｐ_１１｜降，Ｐ_１２｜降，Ｐ_２１｜降，Ｐ_２２｜降とを全て設定することが好ましい。
なお、評価用音響信号を別の信号に代えることや、主観評価実験を繰返し行うことで、遷移確率の正確性を向上させることができる。

＜遷移確率の選択＞
図２１を参照し、音響分析値に従って遷移確率を選択する手法について説明する。
この図２１では、心理状態が平常の場合を「常」、心理状態が感動の場合を「感」と略記した。

図２１（ａ）に示すように、心理状態推定手段３０は、時系列で入力される評価用音響信号の音圧レベルを、レベル差が同一となるような分割区間に分割する。そして、心理状態推定手段３０は、レベル差に従って、分割区間毎に遷移確率を選択する。

つまり、心理状態推定手段３０は、先頭の分割区間ではレベル差が「平坦」のため、心理状態遷移モデル２１に設定された１２種類の遷移確率のうち、レベル差が「平坦」に対応する遷移確率Ｐ_１１｜平，Ｐ_１２｜平，Ｐ_２１｜平，Ｐ_２２｜平を選択する。そして、心理状態推定手段３０は、第１実施形態と同様、選択した遷移確率Ｐ_１１｜平，Ｐ_１２｜平，Ｐ_２１｜平，Ｐ_２２｜平と、乱数とによって、先頭の分割区間における聴取者の心理状態を推定する。

また、心理状態推定手段３０は、２番目の分割区間ではレベル差が「上昇」のため、遷移確率Ｐ_１１｜昇，Ｐ_１２｜昇，Ｐ_２１｜昇，Ｐ_２２｜昇を選択し、第１実施形態と同様、２番目の分割区間における聴取者の心理状態を推定する。さらに、心理状態推定手段３０は、４番目の分割区間ではレベル差が「下降」のため、遷移確率Ｐ_１１｜降，Ｐ_１２｜降，Ｐ_２１｜降，Ｐ_２２｜降を選択し、第１実施形態と同様、４番目の分割区間における聴取者の心理状態を推定する。
なお、３，５番目の分割区間は、先頭の分割区間と同様に遷移確率を選択するため、説明を省略した。

前記したように、急激な音量の変化があると、感動が喚起されることが知られている（参考文献２参照）。そこで、心理状態推定手段３０は、「平常」から「感動」への遷移確率Ｐ_１２｜平，Ｐ_１２｜昇，Ｐ_１２｜降を、レベル差に従って選択できる。その結果、心理状態推定手段３０は、例えば、音圧レベルが大きく変化したタイミングで、「平常」から「感動」への遷移確率Ｐ_１２を高くできる。

なお、図２１（ｂ）に示すように、遷移確率を選択する条件が音圧レベル１種類だけに限定されず、平均音圧レベルといった他の音響特徴量、生体情報又は臨場感推定値を組み合わせてもよい。つまり、変形例２に係る聴覚印象量推定装置１は、第１実施形態と同様、第２〜４実施形態にも適用することができる。

（その他変形例）
前記した各実施形態では、心理状態遷移モデル２１及び確率分布モデル２３を記憶するデータベースを一体化して説明したが、本発明は、これに限定されない。つまり、本発明は、心理状態遷移モデル２１を記憶する心理状態遷移モデルデータベースと、確率分布モデル２３を記憶する確率分布モデルデータベースとを別々に構成してもよい。

前記した各実施形態では、臨場感推定値を算出することとして説明したが、本発明は、臨場感推定値を算出せずともよい。この場合、聴覚印象量推定装置１は、臨場感推定値算出手段５３を備えず、聴覚印象量提示手段５５が聴覚印象量のみを提示する。

前記した各実施形態では、心理状態が抽出条件であることとして説明したが、本発明は、これに限定されない。つまり、確率分布モデル２３は、音圧レベルや両耳間相互相関度等の音響特徴量及び被験者の嗜好でさらに細かく分類可能としてもよい。そして、確率分布モデル抽出手段４０は、音響信号分析手段１０の音響分析値や、設定パラメータ入力手段６０の設定パラメータを満たすモデルデータを抽出できるような抽出条件を生成する。

第２実施形態では、音響分析値及び聴覚印象量が１対１で対応付けられた確率分布モデルを説明したが、本発明の確率分布モデルは、これに限定されない。つまり、本発明は、条件付き確率として複数の音響分析値に、１つの音響分析値を対応付けた確率分布モデルを用いてもよい。

さらに、本発明では、複数の聴覚印象量から総合的な音響品質を評価する場合、ニューラルネットワーク又は重回帰分析を用いて、確率分布モデル２３を複数構築することができる。この場合、各聴覚印象量が総合印象へ与える影響度についても、聴取者の心理状態によって確率分布モデル２３を切り換えることで、心理状態が反映された音響品質の客観評価を行うことができる。
なお、総合印象とは、個別の印象に対する総合的な印象であり、好ましさ、ふさわしさと言うこともできる。

１，１Ａ，１Ｂ，１Ｃ聴覚印象量推定装置
１０音響信号分析手段
２０，２０Ｂ，２０Ｃデータベース（心理状態遷移モデルデータベース、確率分布モデルデータベース）
３０，３０Ｂ，３０Ｃ心理状態推定手段
４０，４０Ａ確率分布モデル抽出手段（抽出条件生成手段）
５０，５０Ａ聴覚印象量推定手段
５１，５１Ａ聴覚印象量算出手段
５３，５３Ａ臨場感推定値算出手段
５５，５５Ａ聴覚印象量提示手段
６０設定パラメータ入力手段
７０生体情報測定手段

Claims

音響信号が再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置であって、
前記音響信号が入力され、入力された前記音響信号の音響特徴量である音響分析値を、当該音響信号を音響分析して求める音響信号分析手段と、
前記音響特徴量を評価条件とし、前記評価条件毎に心理状態に関する主観評価実験を行って被験者の心理状態の遷移確率を設定した心理状態遷移モデルを、予め記憶する心理状態遷移モデルデータベースと、
前記心理状態遷移モデルに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、前記聴取者の心理状態を推定する心理状態推定手段と、
被験者の心理状態毎に前記聴覚印象量に関する主観評価実験を行って前記聴覚印象量と前記音響特徴量とを予め対応付けた確率分布モデルを、記憶する確率分布モデルデータベースと、
前記確率分布モデルに含まれる被験者の心理状態と、前記心理状態推定手段で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成する抽出条件生成手段と、
前記確率分布モデルから、前記抽出条件に対応する聴覚印象量及び音響特徴量を抽出し、抽出した前記聴覚印象量及び前記音響特徴量に、当該音響特徴量の区間毎に予め設定された確率関数を適用することで、前記音響分析値に対応する聴覚印象量を算出する聴覚印象量算出手段と、
を備えることを特徴とする聴覚印象量推定装置。
前記聴取者に依存する設定パラメータとして、前記聴取者の嗜好が入力される設定パラメータ入力手段をさらに備え、
前記心理状態遷移モデルデータベースは、前記評価条件に前記音響特徴量及び前記被験者の嗜好が含まれる心理状態遷移モデルを記憶することを特徴とする請求項１に記載の聴覚印象量推定装置。
前記聴取者の生体情報を測定する生体情報測定手段をさらに備え、
前記心理状態遷移モデルデータベースは、さらに、前記評価条件に前記被験者の生体情報が含まれる心理状態遷移モデルを記憶することを特徴とする請求項２に記載の聴覚印象量推定装置。
前記心理状態遷移モデルデータベースは、前記被験者の心理状態が段階的に遷移する心理状態遷移モデルを記憶することを特徴とする請求項１から請求項３の何れか一項に記載の聴覚印象量推定装置。
前記心理状態遷移モデルデータベースは、前記被験者の心理状態に含まれる内部状態が遷移する心理状態遷移モデルを記憶することを特徴とする請求項１から請求項３の何れか一項に記載の聴覚印象量推定装置。
音響信号が再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定するために、音響特徴量を評価条件とし、前記評価条件毎に心理状態に関する主観評価実験を行って被験者の心理状態間の遷移確率を求めた心理状態遷移モデルを予め記憶する心理状態遷移モデルデータベースと、前記被験者の心理状態毎に前記聴覚印象量に関する主観評価実験を行って前記聴覚印象量と音響特徴量とを予め対応付けた確率分布モデルを記憶する確率分布モデルデータベースとを備えるコンピュータを、
前記音響信号が入力され、入力された前記音響信号の音響特徴量である音響分析値を、当該音響信号を音響分析して求める音響信号分析手段、
前記心理状態遷移モデルに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、前記聴取者の心理状態を推定する心理状態推定手段、
前記確率分布モデルに含まれる被験者の心理状態と、前記心理状態推定手段で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成する抽出条件生成手段、
前記確率分布モデルから、前記抽出条件に対応する聴覚印象量及び音響特徴量を抽出し、抽出した前記聴覚印象量及び前記音響特徴量に、当該音響特徴量の区間毎に予め設定された確率関数を適用することで、前記音響分析値に対応する聴覚印象量を算出する聴覚印象量算出手段、
として機能させるための聴覚印象量推定プログラム。