JP5941350B2 - 聴覚印象量推定装置及びそのプログラム - Google Patents

聴覚印象量推定装置及びそのプログラム Download PDF

Info

Publication number
JP5941350B2
JP5941350B2 JP2012141774A JP2012141774A JP5941350B2 JP 5941350 B2 JP5941350 B2 JP 5941350B2 JP 2012141774 A JP2012141774 A JP 2012141774A JP 2012141774 A JP2012141774 A JP 2012141774A JP 5941350 B2 JP5941350 B2 JP 5941350B2
Authority
JP
Japan
Prior art keywords
psychological state
auditory impression
acoustic
amount
auditory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012141774A
Other languages
English (en)
Other versions
JP2014006692A (ja
Inventor
大出 訓史
訓史 大出
安藤 彰男
彰男 安藤
賢司 小澤
賢司 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012141774A priority Critical patent/JP5941350B2/ja
Publication of JP2014006692A publication Critical patent/JP2014006692A/ja
Application granted granted Critical
Publication of JP5941350B2 publication Critical patent/JP5941350B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置及びそのプログラムに関する。
収音再生技術の発展に伴い、22.2マルチチャンネル音響システムやWave Field Synthesisなど、臨場感が高い多様な音響システムが提案されている。このため、これら音響システムにおいて、その品質を客観的に評価することが求められている。
従来から、符号化された音に対する客観評価方法として、PEAQ(Perceptual Evaluation of Audio Quality)が提案されており、ITU(International Telecommunication Union)で規格化されている(非特許文献1参照)。この非特許文献1に記載の技術は、人の聴覚末梢系を模擬しており、聴覚中枢系を簡易なニューラルネットワークで代用したものである。
近年、収音再生技術の品質を評価する指標として、臨場感という感性情報が注目されている。この臨場感は、あたかもその場にいるような感じを示すが、音響空間の再現度だけでなく、心理効果(例えば、「心が揺さぶられた」)に対しても影響を受けることが知られている(非特許文献2参照)。また、臨場感の前提となる聴覚印象は、聴取者の嗜好や心理状態等の様々な条件によって、異なることが知られている(非特許文献3参照)。さらに、心理状態は、急速に変化してすぐに定常状態になる情動や、比較的長時間持続する情動など、情動の種類によって状態遷移の時定数が異なることが知られている。さらに、情動の種類によって、影響を与える聴覚印象が異なると考えられる。
ここで、人間が感じる音響品質の客観評価方法として、例えば、特許文献1に記載の発明が提案されている。この特許文献1に記載の発明は、音響特徴量から聴覚印象量を一意に決定し、その聴覚印象量から臨場感を推定するものである。
特開2011−250049号公報
ITU−R BS.1387 電子情報通信学会技術研究報告 HIP2008−132,"「臨場感」に関するイメージ調査",聴覚研究会資料 Vol.40,No.1,H−2010−1 日本音響学会2010年度春季研究発表会講演論文集2−1−7,"A study of influences of word and phone accuracies on unsupervised HMM-based speech synthesis"
しかし、特許文献1に記載の発明では、音響特徴量から聴覚印象量を一意に決定するため、心理状態が聴覚印象量に反映されておらず、聴覚印象量が正確でないという問題がある。このため、特許文献1に記載の発明では、推定した臨場感が、必ずしも聴取者が実際に感じている臨場感を正確に表していない。
そこで、本発明は、前記した問題を解決し、正確な聴覚印象量を提示できる聴覚印象量推定装置及びそのプログラムを提供することを課題とする。
前記した課題に鑑みて、本願第1発明に係る聴覚印象量推定装置は、音響信号が再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置であって、音響信号分析手段と、心理状態遷移モデルデータベースと、心理状態推定手段と、確率分布モデルデータベースと、抽出条件生成手段と、聴覚印象量算出手段と、を備えることを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、音響信号分析手段によって、音響信号が入力され、入力された音響信号の音響特徴量である音響分析値を、音響信号を音響分析して求める。
ここで、音響特徴量としては、例えば、基本周波数の時間変化パターン、周波数特性、周波数特性の分類クラス、レベルの時間変化パターン、ラウドネス、ラフネス、シャープネス、両耳間時間差、両耳間レベル差、両耳間相関度、両耳間相関関数の幅があげられる。そして、聴覚印象量推定装置は、これら音響特徴量の1つ以上を音響分析する。
また、聴覚印象量推定装置は、音響特徴量を評価条件とし、評価条件毎に心理状態に関する主観評価実験を行って被験者の心理状態の遷移確率を設定した心理状態遷移モデルが、心理状態遷移モデルデータベースに予め記憶されている。また、聴覚印象量推定装置は、心理状態推定手段によって、心理状態遷移モデルに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定する。
また、聴覚印象量推定装置は、被験者の心理状態毎に聴覚印象量に関する主観評価実験を行って聴覚印象量と音響特徴量とを予め対応付けた確率分布モデルが、確率分布モデルデータベースに記憶されている。従って、聴覚印象量推定装置は、確率分布モデル抽出手段によって、この確率分布モデルに含まれる被験者の心理状態と、心理状態推定手段で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成することができる。
また、聴覚印象量推定装置は、聴覚印象量算出手段によって、確率分布モデルから、抽出条件に対応する聴覚印象量及び音響特徴量を抽出し、抽出した聴覚印象量及び音響特徴量に、音響特徴量の区間毎に予め設定された確率関数を適用することで、音響分析値に対応する聴覚印象量を算出する。つまり、聴覚印象量推定装置は、確率分布モデルの全モデルデータ(聴覚印象量及び音響特徴量)のうち、聴取者の心理状態に対応するモデルデータのみを抽出する。従って、聴覚印象量推定装置が提示する聴覚印象量は、聴取者の心理状態が反映されることになる。
なお、心理状態とは、聴取者や被験者の気持ちを示すものである。
聴覚印象とは、聴取者や被験者が感じた音の特徴を言葉で表現(ラベリング)したものである。
聴覚印象量とは、聴覚印象の程度、つまり、聴覚印象を数値化したものである。
聴取者とは、音響信号を実際に聴取する者である。
被験者とは、心理状態遷移モデル又は確率分布モデルを構築するときの主観評価実験の対象者である。
また、本願第2発明に係る聴覚印象量推定装置は、聴取者に依存する設定パラメータとして、聴取者の嗜好が入力される設定パラメータ入力手段をさらに備え、心理状態遷移モデルデータベースが、評価条件に音響特徴量及び被験者の嗜好が含まれる心理状態遷移モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の嗜好を心理状態の推定結果に反映させることができる。
なお、嗜好とは、聴取者や被験者の好みを示すものである。
また、本願第3発明に係る聴覚印象量推定装置は、聴取者の生体情報を測定する生体情報測定手段をさらに備え、心理状態遷移モデルデータベースが、さらに、評価条件に被験者の生体情報が含まれる心理状態遷移モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の生体情報を心理状態の推定結果に反映させることができる。
また、本願第4発明に係る聴覚印象量推定装置は、心理状態遷移モデルデータベースが、被験者の心理状態が段階的に遷移する心理状態遷移モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の心理状態の遷移を詳細に把握することができる。
また、本願第5発明に係る聴覚印象量推定装置は、心理状態遷移モデルデータベースが、被験者の心理状態に含まれる内部状態が遷移する心理状態遷移モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の心理状態の遷移を詳細に把握することができる。
なお、内部状態とは、聴取者や被験者の心理状態を言葉で表現(ラベリング)したものである。ここでは、内部状態とは、心理状態遷移モデルを構成する1単位(1ユニット)のことである。
なお、本願第1発明に係る聴覚印象量推定装置は、CPU、データベース等のハードウェア資源を備える一般的なコンピュータを、前記した各手段として協調動作させる聴覚印象量推定プログラムによって実現することもできる。この聴覚印象量推定プログラムは、通信回線を介して配布しても良く、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
本発明によれば、以下のような優れた効果を奏する。
本願第1発明によれば、聴取者の心理状態が聴覚印象量に反映されるため、正確な聴覚印象量を提示することができる。
本願第2発明によれば、聴取者の心理状態に加えて、聴取者の嗜好が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。
本願第3発明によれば、聴取者の生体情報が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。
本願第4,5発明によれば、聴取者の心理状態の遷移を詳細に把握できるため、より正確な聴覚印象量を提示することができる。
本発明の第1実施形態に係る聴覚印象量推定装置の構成を示すブロック図である。 図1のデータベースに記憶された心理状態遷移モデルの第1例を説明する図である。 図1のデータベースに記憶された心理状態遷移モデルの第2例を説明する図である。 図1のデータベースに記憶された心理状態遷移モデルの第3例を説明する図である。 (a)〜(c)は第1実施形態において抽出条件の生成理由を説明する図である。 (a)〜(e)は第1実施形態において抽出条件の生成理由を説明する図である。 図1の聴覚印象量算出手段による聴覚印象量の算出と、臨場感推定値算出手段による臨場感推定値の算出とを説明する図である。 図1の聴覚印象量提示手段が聴覚印象量及び臨場感推定値を棒グラフ形式で提示した例を説明する図である。 図1の聴覚印象量提示手段が聴覚印象量及び臨場感推定値を相関図形式で提示した例を説明する図である。 本発明の第2実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値の算出を説明する図である。 本発明の第2実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値を棒グラフ形式で提示した例を説明する図である。 本発明の第2実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値をレーダーチャート形式で提示した例を説明する図である。 本発明の第2実施形態に係る聴覚印象量推定装置の全体動作を示すフローチャートである。 図13のステップS1の動作を示すフローチャートである。 図13のステップS2の動作を示すフローチャートである。 図13のステップS3の動作を示すフローチャートである。 図13のステップS4の動作を示すフローチャートである。 本発明の変形例1において、心理状態遷移モデルを説明する図である。 本発明の変形例2において、心理状態遷移モデルを説明する図である。 (a)〜(d)は本発明の変形例2において遷移確率の設定を説明する図である。 (a)及び(b)は本発明の変形例2において遷移確率の選択を説明する図である。
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。
(第1実施形態)
[聴覚印象量推定装置の構成]
図1を参照し、本発明の第1実施形態に係る聴覚印象量推定装置1の構成について説明する。
聴覚印象量推定装置1は、聴取者が再生音場音響信号(音響信号)を聴いたときの聴覚印象量と、臨場感の推定値とを提示するものである。このため、聴覚印象量推定装置1は、音響信号分析手段10と、データベース20と、心理状態推定手段30と、確率分布モデル抽出手段(抽出条件生成手段)40と、聴覚印象量推定手段50とを備える。
なお、設定パラメータ入力手段60及び生体情報測定手段70は、後記する。
まず、音響信号分析手段10に入力される再生音場音響信号について説明する。
再生音場音響信号は、再生音場で収音された音響信号(実際に再現された音響空間で計測された音響信号)である。例えば、再生音場音響信号は、コンサートホールでのオーケストラ生演奏を収音した音響信号を、リビングルームのオーディオ機器により再生して、その再生音を収音した音響信号である。
このとき、音響空間の計測(再生音場音響信号の収音)には、例えば、人間の頭部を模擬した計測装置(ダミーヘッドに設置されたマイクロホン)を用いることができる。
また、音響空間の計測には、複数のマイクロホンを用いて空間的な情報を取得できる計測装置を用いてもよい。例えば、複数のマイクロホンを配置して、音量や位相を比較することで、音の到来方向を算出することができる。このとき、信号間相関(ダミーヘッドの場合は、両耳間相関)を算出することで、音の拡がり感を空間的な情報として取得できる。
音響信号分析手段10は、再生音場音響信号が入力され、入力された再生音場音響信号の音響特徴量である音響分析値を、再生音場音響信号を音響分析して求めるものである。例えば、音響信号分析手段10は、ラウドネス推定値、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅等の音響特徴量を、音響分析値として算出する。そして、音響信号分析手段10は、算出した音響分析値を、確率分布モデル抽出手段40に出力する。
ここで、音響信号分析手段10は、音響特徴量として、音像の方向を求めてもよい。例えば、両耳間レベル差及び両耳間位相差から、聴取者に対する音像の角度を求める。音像の方向を4方向で表す場合、音響信号分析手段10は、求めた音像の角度が聴取者の正面90°の範囲内であれば音像の方向を「正面」とし、この音像の角度が聴取者の左右90°の範囲内であれば音像の方向を「側面」とし、この音像の角度が聴取者の背面90°の範囲内であれば音像の方向を「背面」とする。
さらに、音響信号分析手段10は、音像の方向を、45°の範囲内で区分された8方向で表してもよい。
なお、これら音響分析の手法は、一般的なものであるため説明を省略する。また、音響信号分析手段10が求める音響特徴量は、音響分析可能なものであればよく、これらに限定されないことは言うまでもない。また、音響信号分析手段10がどの音響特徴量を求めるかは、手動で設定することができる。
データベース20は、後記する心理状態推定手段30及び聴覚印象量推定手段50が用いる様々な情報が予め記憶されたデータベースである。例えば、データベース20は、評価用音響信号と、心理状態遷移モデル21と、確率分布モデル23と、重み係数とを記憶している。
評価用音響信号は、心理状態遷移モデル21及び確率分布モデル23を構築するときの主観評価実験において、被験者が聴いた音響信号である。この評価用音響信号は、再生音場音響信号が含まれてもよく、再生音場音響信号が含まれなくてもよい。
心理状態遷移モデル21は、音響特徴量を評価条件とし、評価条件毎に主観評価実験を行って被験者の心理状態間の遷移確率を求めたものである。
評価条件(メタデータ)とは、心理状態遷移モデル21を構築するための主観評価実験を行った条件である。
なお、心理状態遷移モデル21の構築については後記する。
心理状態とは、聴取者や被験者の気持ちを示すものであり、例えば、ゾクッとするような感動を示す「感動(ゾクッ)」、感動が特にない「平常」、ジーンとするような感動を示す「感動(ジーン)」といったものがある。
この他、心理状態には、例えば、「楽しい」、「悲しい」、「イライラ」といったものがある。
さらに、心理状態は、カテゴリーで区分してもよい。例えば、「抑鬱」というカテゴリーの心理状態には、「気がかりな」、「不安な」、「自信がない」という心理状態が含まれる。また、例えば、「敵意」というカテゴリーの心理状態には、「攻撃的な」、「憎らしい」、「むっとした」という心理状態が含まれる。また、例えば、「倦怠」というカテゴリーの心理状態には、「つまらない」、「疲れた」、「退屈な」という心理状態が含まれる。また、例えば、「活動的快」というカテゴリーの心理状態には、「活気のある」、「気力に満ちた」、「はつらつとした」という心理状態が含まれる。また、例えば、「非活動的快」というカテゴリーの心理状態には、「のんびりした」、「のどかな」、「おっとりした」という心理状態が含まれる。また、例えば、「親和」というカテゴリーの心理状態には、「いとおしい」、「愛らしい」、「すてきな」という心理状態が含まれる(参考文献1参照)。
参考文献1:「多面的感情状態尺度の作成」、寺崎他、心理学研究、第62号、pp.350-356、1992
前記した心理状態とは別に、設定パラメータは、興味の有無を含めてもよい。
興味とは、評価対象(再生音場音響信号A及び評価用音響信号)に対する聴取者や被験者の関心を示すものである。例えば、興味の有無は、「興味が有る」を‘0’、「興味が無い」を‘1’のような2値を設定してもよい。また、興味の有無として、「大変興味が有る」、「そこそこ興味が有る」、「全く興味が無い」等に対応する値を段階的に設定してもよい。
確率分布モデル23は、被験者の心理状態毎に主観評価実験を行って、モデルデータ(聴覚印象量及び音響特徴量)を予め対応付けたものである。
聴覚印象とは、聴取者や被験者が感じた音の特徴を言葉で表現(ラベリング)したものであり、例えば、「広がり感」、「明るい」といったものがある。
聴覚印象量とは、聴覚印象の程度、つまり、聴覚印象を数値化したものである。
なお、確率分布モデル23の構築については後記する。
重み係数は、臨場感推定値に対する聴覚印象量の寄与率を示すものであり、重回帰分析、数量化I類等の多変量解析により求めることができる。
重回帰分析では、複数の観測値(説明変数)から変数(目的変数)を予測するとき、予測誤差が最も少なくなるように寄与率を算出する。本実施形態では、観測値(説明変数)を音響特徴量の確率分布モデル23から求めた聴覚印象量とし、変数(目的変数)を臨場感推定値とした重回帰分析を行う。このことから、重み係数は、データベース20に記憶されている観測値に依存することになる。
なお、多変量解析により重み係数を求める例を説明したが、学習手法は、これに限定されない。例えば、重み係数は、ニューラルネットワーク、遺伝的アルゴリズム等の機械学習で求めることもできる。
<心理状態遷移モデルの構築:第1例>
以下、図2〜図4を参照し、心理状態遷移モデル21の構築について、第1例〜第3例を説明する(適宜図1参照)。
図2に示すように、第1例の心理状態遷移モデル21は、「感動(ゾクッ)」と、「平常」と、「感動(ジーン)」との間のように、ある心理状態から別の心理状態に遷移する。また、心理状態遷移モデル21は、「平常」を維持するように、同一の心理状態を維持する。
この図2では、被験者の心理状態を、「感動(ゾクッ)」、「平常」、「感動(ジーン)」として説明する。
また、丸中の文字が心理状態を示し、心理状態が遷移する経路を矢印で示す(図3も同様)。
また、心理状態の遷移確率をPとする(x=11,12,13,21,22,31,33)。例えば、遷移確率P11は、「平常」から遷移せずに「平常」を維持する確率を示す。また、例えば、遷移確率P12は、「平常」から「感動(ジーン)」へ遷移する確率を示す。
心理状態遷移モデル21は、複数の被験者に主観評価実験を行って、構築できる。具体的には、評価用音響信号を被験者に聴かせながら、心理状態の変化(遷移)をフェーダにより入力させる。このフェーダは、左端が「感動(ゾクッ)」を示し、中央が「平常」を示し、右端が「感動(ジーン)」を示している。また、被験者がフェーダを移動させることで、評価用音響信号を聞いたときの心理状態の変化を入力できる。
また、評価用音響信号を被験者に聴かせている間、評価用音響信号の「ラウドネス」を測定しておく。そして、心理状態の変化及び「ラウドネス」の関係から、「感動(ゾクッ)」と、「平常」と、「感動(ジーン)」との間での遷移確率Pを示す心理状態遷移モデル21を求めることができる
ここで、急激な音量の変化があるとゾクッとするような感動が得られることが知られている(参考文献2参照)。このため、心理状態遷移モデル21では、評価用音響信号の時刻t,tにおけるラウドネス推定値の差分が予め設定された閾値以上となる場合、「平常」から「感動(ジーン)」への遷移確率P12の値を高く設定してもよい。
参考文献2:O.Grewe,et al,“Listening to music as a re-creative process:Physiological, psychological, and psychoacoustical correlates of chills and strong emotions. ”Music Perception,Vol.24,No.3,pp.297-314,2007.
<心理状態遷移モデルの構築:第2例>
図3に示すように、第2例の心理状態遷移モデル21は、「感動(ジーン)高」と、「感動(ジーン)中」と、「感動(ジーン)低」との間のように、ある心理状態が段階的に遷移する。
例えば、心理状態遷移モデル21では、ジーンとするような感動の強度に応じて、「感動(ジーン)高」と、「感動(ジーン)中」と、「感動(ジーン)低」というように3段階で設定されている。
ここで、「感動(ジーン)高」は、ジーンとするような感動の強度が高いことを示す。また、「感動(ジーン)低」は、ジーンとするような感動の強度が低いことを示す。また、「感動(ジーン)中」は、ジーンとするような感動の強度が「感動(ジーン)高」及び「感動(ジーン)低」との中間であることを示す。
以上のように、第2例では、心理状態の強度を反映させた心理状態遷移モデル21を構築し、聴取者の心理状態の遷移を詳細に把握することが可能となる。
なお、第2例では、遷移確率Pを第1例と同様に設定できるため、説明及び図示を省略した。
<心理状態遷移モデルの構築:第3例>
図4に示すように、第3例の心理状態遷移モデル21は、「平常」に含まれる内部状態「無関心」と、「関心」と、「高関心」との間のように、同一の心理状態に含まれる内部状態が遷移する。また、心理状態遷移モデル21は、「平常」に含まれる「高関心」と、「感動」に含まれる内部状態「感動低」との間のように、異なる心理状態に含まれる内部状態でも遷移する。
この内部状態とは、聴取者や被験者の心理状態を言葉で表現(ラベリング)したものである。ここで、内部状態とは、心理状態遷移モデル21を構成する1単位(1ユニット)のことである。
例えば、心理状態が「平常」であれば、内部状態は、関心が無いことを示す「無関心」と、関心があることを示す「関心」と、関心が高いことを示す「高関心」とになる。
また、例えば、心理状態が「感動」であれば、内部状態は、感動が低いことを示す「感動低」と、感動が高いことを示す「感動高」とになる。
また、例えば、心理状態が「嫌悪」であれば、内部状態は、否定していることを示す「否定」と、険悪なことを示す「険悪」とになる。
このように、第3例では、「平常」という心理状態を内部状態で区別することで、各内部状態から別の心理状態である「感動」へ遷移する確率を変えることができる。従って、第3例では、聴取者の心理状態の遷移を詳細に把握することが可能となる。
また、一度、心理状態が「感動」になってから「平常」に戻った場合、そのときの内部状態が、次に「感動」に戻りやすい「高関心」であると考えられる。従って、図4に示すように、「感動低」から「関心」のように、ある内部状態に戻らない心理状態遷移モデル21を構築することもできる。
なお、図4では、破線内側の文字が心理状態を示し、丸中の文字が内部状態を示し、心理状態が遷移する経路を矢印で示す。
また、第3例では、遷移確率Pを第1例と同様に設定できるため、説明及び図示を省略した。
また、例えば、心理状態遷移モデル21は、前記した第1例〜第3例のうち、任意の手法で構築できる。
<確率分布モデルの構築>
確率分布モデル23の構築について説明する。
例えば、聴覚印象の「広がり感」、両耳間相互相関度、音圧レベル、音源の方向、直前の音の広がり、及び、聴取者の嗜好の影響を受けると考えられる。そこで、音響特徴量を「両耳間相互相関度」とし、聴覚印象を「広がり感」として説明する。
この確率分布モデル23は、複数の聴取者(被験者)に対して主観評価実験を行って、構築できる。具体的には、評価用音響信号を被験者に聴かせると共に、評価用音響信号の「両耳間相互相関度」を測定しておく。また、「平常」といった被験者の心理状態も、この被験者に予め回答させておく。
ここで、様々な心理状態で評価用音響信号を聴いたときに感じた「広がり感」の程度を被験者に回答させて、「広がり感」の聴覚印象量として求める。そして、評価用音響信号の「両耳間相互相関度」と、被験者が回答した「広がり感」の聴覚印象量とを対応付けて、モデルデータとして求める。このとき、各モデルデータには、このモデルデータを対応付けたときの心理状態を付加する。この主観評価実験を、心理状態が「平常」や「感動(ゾクッ)」といった、複数の被験者に対して行い、様々な心理状態におけるモデルデータを求める。その結果、確率分布モデル23は、「平常」、「感動(ゾクッ)」といった心理状態が個々のモデルデータに付加されることになる。
図1に戻り、聴覚印象量推定装置1の構成について、説明を続ける。
心理状態推定手段30は、心理状態遷移モデル21に設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。つまり、心理状態推定手段30は、乱数発生処理を用いて確率的に、最も尤からしい聴取者の心理状態を推定する。
ここで、「平常」から「感動(ジーン)」と、「平常」から「感動(ゾクッ)」とのように、同一の心理状態から別々の心理状態に遷移する可能性がある(図2参照)。この場合、心理状態推定手段30は、「平常」から「感動(ジーン)」及び「感動(ゾクッ)」に遷移するか否かを、遷移確率P12,P13と、遷移確率P12,P13それぞれで発生させた乱数との比較により判定する。例えば、遷移確率P12,P13の最大値、平均値又は中央値の何れかを基準値とし、この基準値と乱数とを比較し、基準値から乱数が最も離れている心理状態を推定結果としてもよい。そして、心理状態推定手段30は、推定された聴取者の心理状態を確率分布モデル抽出手段40に出力する。
確率分布モデル抽出手段40は、確率分布モデル23に含まれる被験者の心理状態と、心理状態推定手段30で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成するものである。
例えば、確率分布モデル23では、被験者の心理状態が「感動(ゾクッ)」及び「平常」であることとする。また、心理状態推定手段30で推定された聴取者の心理状態が「感動(ゾクッ)」であることとする。この場合、確率分布モデル23に含まれる全モデルデータの心理状態のなかで、心理状態推定手段30の推定結果に一致する心理状態は、「感動(ゾクッ)」である。従って、確率分布モデル抽出手段40は、例えば、「感動(ゾクッ)」を示す抽出条件を生成し、聴覚印象量推定手段50に出力する。さらに、確率分布モデル抽出手段40は、音響信号分析手段10から入力された音響分析値を、聴覚印象量推定手段50に出力する。
<抽出条件の生成理由>
図5,図6を参照し、抽出条件を生成する理由について、説明する。
図5(a)に示すように、音響特徴量は、音響信号の時間に応じて変化し、これに伴って聴覚印象量も変化する。このため、感動といった心理状態は、音響信号の途中(例えば、音楽を聴いている途中)で変化することがある。
この図5(a)では、各時間の音響特徴量を実線で図示し、この音響特徴量の平均値を破線で図示した。
従来の確率分布モデル90では、図5(b)に示すように、各モデルデータの音響特徴量に音響分析結果の平均値や最大値が用いられ、各モデルデータの聴覚印象量に聴取後の評価値が用いられている。
この図5(b)では、音響信号の各時間でのモデルデータを黒丸で図示した。つまり、図5(b)の確率分布モデル90では、黒丸のそれぞれが、異なる時間でのモデルデータを示している。
しかし、図5(c)に示すように、音響特徴量が同じ結果であっても、被験者の心理状態によって聴覚印象量が異なることがある。
この図5(c)では、ある音響信号を聴取したとき、感動したと回答した被験者から求めた聴覚印象量の平均値を実線で図示し、全聴取者の平均値を破線で図示し、感動しないと回答した被験者から求めた聴覚印象量の平均値を一点鎖線で図示した。
例えば、図6(a)に示すように、確率分布モデル23の全モデルデータから回帰直線を描く。
この図6では、評価用音響信号の各時間でのモデルデータを黒丸で図示した。つまり、図6の確率分布モデル23では、黒丸のそれぞれが、異なる時間でのモデルデータを示している。
また、図6(b)に示すように、確率分布モデル23において、評価用音響信号の聴取後に感動したと回答した被験者から求めたモデルデータ(黒丸)と、評価用音響信号の聴取後に感動しないと回答した被験者から求めたモデルデータ(白丸)とを分類した。例えば、感動したと回答した被験者であっても、評価用音響信号の前半では感動していないことがあり、モデルデータの分散が大きくなる。その結果、図6(c)に示すように、図6(b)の全黒丸から求めた回帰直線(実線)と、全白丸から求めた回帰直線(破線)との誤差が大きくなる。
また、図6(d)に示すように、確率分布モデル23において、感動している心理状態の被験者から求めたモデルデータ(黒丸)と、感動していない心理状態の被験者から求めたモデルデータ(白丸)とを分類した。ここで、図6(b)に示すように、評価用音響信号の聴取後に感動したと回答した被験者から求めたモデルデータにも、図6(d)に示すように、時系列データとして扱うと、感動していない心理状態であった被験者から求めたモデルデータが含まれている(符号91参照)。従って、図6(e)に示すように、図6(d)の全黒丸から求めた回帰直線と、全白丸から求めた回帰直線とを描くと、両者の誤差が小さくなる。言い換えるなら、抽出条件で確率分布モデル23のモデルデータを絞り込むことで、回帰直線の誤差が小さくなる。
図1に戻り、聴覚印象量推定装置1の構成について、説明を続ける。
聴覚印象量推定手段50は、聴覚印象量及び臨場感推定値を算出し、提示するものである。この聴覚印象量推定手段50は、聴覚印象量算出手段51と、臨場感推定値算出手段53と、聴覚印象量提示手段55とを備える。
聴覚印象量算出手段51は、確率分布モデル23から、確率分布モデル抽出手段40で生成された抽出条件に一致するモデルデータを抽出し、抽出したモデルデータに、音響特徴量の区間毎に予め設定された確率関数を適用することで、確率分布モデル抽出手段40から入力された音響分析値に対応する聴覚印象量を算出するものである。
臨場感推定値算出手段53は、聴覚印象量算出手段51が算出した聴覚印象量に、予め設定された重み係数を乗じた値を、臨場感推定値として算出するものである。
<聴覚印象量及び臨場感推定値の算出>
図7を参照し、聴覚印象量算出手段51による聴覚印象量を算出と、臨場感推定値算出手段53による臨場感推定値の算出とを説明する(適宜図1参照)。
聴覚印象量算出手段51は、全てのモデルデータが含まれる確率分布モデル23から、抽出条件に一致するモデルデータを抽出する。例えば、確率分布モデル23に含まれる全モデルデータの心理状態が「感動(ゾクッ)」及び「平常」であり、抽出条件が「感動(ゾクッ)」である場合を考える。この場合、聴覚印象量算出手段51は、確率分布モデル23から、「感動(ゾクッ)」のモデルデータを抽出する。
また、聴覚印象量算出手段51は、図7に示すように、確率分布モデルの音響特徴量(横軸方向)を所定の区間に分割する。そして、聴覚印象量算出手段51は、分割した各区間のうち、音響分析値が含まれる区間を求める。さらに、聴覚印象量算出手段51は、抽出したモデルデータに、求めた区間の確率関数(例えば、正規分布、二項分布)を適用し、音響特徴量に対応する聴覚印象量を求める。ここで、聴覚印象量算出手段51は、確率関数に従って、聴覚印象量の存在確率を算出する。例えば、聴覚印象量算出手段51は、乱数を発生させ、その乱数値を存在確率の累積度数とみなして、聴覚印象量を算出する。
このとき、臨場感推定値の信頼性を向上させるため、聴覚印象量算出手段51は、乱数を複数回発生させて累積度数を複数回算出し、算出した全累積度数の平均値を、聴覚印象量として算出してもよい。さらに、聴覚印象量算出手段51は、リアルタイムで臨場感推定値を算出する場合、聴覚印象量の時間変化が予め設定された範囲内に収まるようにしてもよい。
臨場感推定値算出手段53は、データベース20から、確率分布モデル23に対応する重み係数を読み出す。そして、臨場感推定値算出手段53は、算出した聴覚印象量と、読み出した重み係数とを乗じて、臨場感推定値を算出する。
図1に戻り、聴覚印象量推定手段50の説明を続ける。
聴覚印象量提示手段55は、聴覚印象量算出手段51が算出した聴覚印象量と、臨場感推定値算出手段53が算出した臨場感推定値とを提示するものである。ここで、聴覚印象量提示手段55は、聴覚印象量及び臨場感推定値を、グラフィカルな形式で提示する。
<聴覚印象量及び臨場感推定値の提示>
図8,図9を参照し、聴覚印象量提示手段55による聴覚印象量及び臨場感推定値の提示について、説明する。
図8に示すように、聴覚印象量提示手段55は、例えば、聴覚印象量及び臨場感推定値を棒グラフ形式で提示する。具体的には、聴覚印象量提示手段55は、聴覚印象量算出手段51が算出した聴覚印象量(例えば、「広がり感」)を、棒グラフ96として提示する。また、聴覚印象量提示手段55は、臨場感推定値算出手段53が算出した臨場感推定値を、棒グラフ97として提示する。このとき、聴覚印象量提示手段55は、確率分布モデル抽出手段40が生成した抽出条件98を提示してもよい。
また、図9に示すように、聴覚印象量提示手段55は、聴覚印象量及び臨場感推定値を相関図形式で提示してもよい。この相関図は、縦軸が臨場感推定値を示し、横軸が聴覚印象量(例えば、「広がり感」)を示す。そして、聴覚印象量算出手段51が算出した聴覚印象量と、臨場感推定値算出手段53が算出した臨場感推定値とを示す点99を、この相関図にプロットする。
以上のように、本発明の第1実施形態に係る聴覚印象量推定装置1は、聴覚印象量算出手段51が、確率分布モデル23の全てのモデルデータのうち、聴取者の心理状態に一致するモデルデータのみを抽出する。これによって、聴覚印象量推定装置1は、聴取者の心理状態を聴覚印象量に反映させ、正確な聴覚印象量を提示することができる。さらに、聴覚印象量推定装置1は、この聴覚印象量から臨場感の推定値を算出するため、聴取者が実際に感じている臨場感を正確に提示することができる。
なお、聴覚印象量推定装置1の動作は、第2実施形態と同様のため、説明を後記する。
(第2実施形態)
[聴覚印象量推定装置の構成]
図10を参照し、本発明の第2実施形態に係る聴覚印象量推定装置1Aの構成について、第1実施形態と異なる点を説明する(適宜図1参照)。
聴覚印象量推定装置1Aは、i種類の音響分析値からj種類の聴覚印象量を算出することが、第1実施形態と異なる(但し、i>1、j>1を満たす整数)。このため、聴覚印象量推定装置1Aは、音響信号分析手段10と、データベース20と、心理状態推定手段30と、確率分布モデル抽出手段40Aと、聴覚印象量推定手段50Aとを備える。
なお、本実施形態では、互いに異なる音響分析値及び聴覚印象量が1対1で対応付けられた確率分布モデルを記憶することとする(つまり、i=j)。
音響信号分析手段10は、ラウドネス推定値、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅等の音響特徴量のうち、i種類を音響分析値として求める。
データベース20は、評価用音響信号と、心理状態遷移モデル21と、j種類の確率分布モデルQと、確率分布モデルQ毎の重み係数Wとを記憶する。
つまり、データベース20は、図10に示すように、1種類目の音響特徴量(音響分析値1)及び1種類目の聴覚印象量(聴覚印象量1)が対応付けられた確率分布モデルQを記憶する。
また、データベース20は、2種類目の音響特徴量(音響分析値2)及び2種類目の聴覚印象量(聴覚印象量2)が対応付けられた確率分布モデルQを記憶する。
また、データベース20は、3種類目の音響特徴量(音響分析値3)及び3種類目の聴覚印象量(聴覚印象量3)が対応付けられた確率分布モデルQを記憶する。
また、データベース20は、4種類目の音響特徴量(音響分析値4)及び4種類目の聴覚印象量(聴覚印象量4)が対応付けられた確率分布モデルQを記憶する。
また、データベース20は、i種類目の音響特徴量(音響分析値i)及びj種類目の聴覚印象量(聴覚印象量j)が対応付けられた確率分布モデルQを記憶する。
聴覚印象量推定手段50Aは、聴覚印象量算出手段51Aと、臨場感推定値算出手段53Aと、聴覚印象量提示手段55Aとを備える。
聴覚印象量算出手段51Aは、j種類の確率分布モデルQのそれぞれから、抽出条件に一致するモデルデータを抽出し、抽出したモデルデータを参照して、j種類の聴覚印象量を算出する。
なお、聴覚印象量の算出方法は、聴覚印象量算出手段51と同様のため、説明を省略する。
臨場感推定値算出手段53Aは、聴覚印象量算出手段51Aが算出したj種類の聴覚印象量と、確率分布モデルQ毎の重み係数Wとを乗じた値の合計を、臨場感推定値として算出する。
具体的には、臨場感推定値算出手段53Aは、1種類目の聴覚印象量と、確率分布モデルQの重み係数Wとの乗算値を算出する。また、臨場感推定値算出手段53Aは、2種類目の聴覚印象量と、確率分布モデルQの重み係数Wとの乗算値を算出する。また、臨場感推定値算出手段53Aは、3種類目の聴覚印象量と、確率分布モデルQの重み係数Wとの乗算値を算出する。また、臨場感推定値算出手段53Aは、4種類目の聴覚印象量と、確率分布モデルQの重み係数Wとの乗算値を算出する。また、臨場感推定値算出手段53Aは、j種類目の聴覚印象量と、確率分布モデルQの重み係数Wとの乗算値を算出する。そして、臨場感推定値算出手段53Aは、j個の乗算値を合計し、臨場感推定値を算出する
<聴覚印象量及び臨場感推定値の提示>
図11,図12を参照し、聴覚印象量提示手段55Aによる聴覚印象量及び臨場感推定値の提示について、説明する。
聴覚印象量提示手段55Aは、聴覚印象量及び臨場感推定値を、グラフィカルな形式で提示する。ここでは、聴覚印象量として、「移動感」及び「広がり感」を求めたこととする。
図11に示すように、聴覚印象量提示手段55Aは、「移動感」と、「広がり感」と、臨場感推定値とを棒グラフ形式で提示してもよい。
また、図12に示すように、聴覚印象量提示手段55Aは、「移動感」と、「広がり感」と、臨場感推定値とを、レーダーチャート形式で提示してもよい。
[聴覚印象量推定装置の全体動作]
図13を参照し、聴覚印象量推定装置1Aの全体動作について説明する(適宜図1参照)。
この図13では、聴覚印象量推定装置1Aは、入力された再生音場音響信号から、聴覚印象量及び臨場感推定値をリアルタイムで算出することとする。
聴覚印象量推定装置1Aは、音響信号分析手段10によって、再生音場音響信号を音響分析して、音響分析値を求める(ステップS1)。
聴覚印象量推定装置1Aは、心理状態推定手段30によって、聴取者の心理状態を推定する(ステップS2)。
聴覚印象量推定装置1Aは、確率分布モデル抽出手段40Aによって、抽出条件を生成する(ステップS3)。
聴覚印象量推定装置1Aは、聴覚印象量算出手段51Aによって聴覚印象量を算出し、臨場感推定値算出手段53Aによって臨場感推定値を算出する(ステップS4)。
聴覚印象量推定装置1Aは、聴覚印象量提示手段55Aによって、リアルタイム処理中の聴覚印象量及び臨場感推定値を提示する(ステップS5)。
聴覚印象量推定装置1Aは、再生音場音響信号が末尾に達したか否かによって、全体処理を終了するか否かを判定する(ステップS6)。
再生音場音響信号が末尾に達していない場合(ステップS6でNo)、聴覚印象量推定装置1Aは、全体処理を終了しないと判定し、後記するカウンタci,cjをインクリメントし、ステップS1の処理に戻る。
再生音場音響信号が末尾に達した場合(ステップS6でYes)、聴覚印象量推定装置1Aは、全体処理を終了すると判定し、ステップS7の処理に進む。
聴覚印象量推定装置1Aは、聴覚印象量提示手段55Aによって、全体処理終了後の聴覚印象量及び臨場感推定値を提示する(ステップS7)。
[音響信号分析処理]
図14を参照し、図13の音響信号分析処理(ステップS1)について説明する(適宜図1参照)。
音響信号分析手段10は、再生音場音響信号から所定区間を切り出す(ステップS11)。
音響信号分析手段10は、過去に切り出した区間の再生音場音響信号を、図示を省略したメモリから読み出す(ステップS12)。
なお、音響信号分析手段10は、レベルの時間変化パターン等の音響特徴量を用いる場合、過去区間の再生音場音響信号が必要になるため、ステップS12の処理を行う。
音響信号分析手段10は、カウンタciが音響特徴量種類数N以下であるか否かを判定する(ステップS13)。
カウンタciが音響特徴量種類数N以下の場合(ステップS13でYes)、音響信号分析手段10は、ステップS14の処理に進む。
なお、音響特徴量種類数Nは、音響分析の対象となる音響特徴量の種類数を示しており、予め設定される(N=i)。
音響信号分析手段10は、ci個目の音響特徴量により音響分析値を算出する。そして、音響信号分析手段10は、ステップS11の処理に戻る(ステップS14)。
カウンタciが音響特徴量種類数Nを越える場合(ステップS13でNo)、音響信号分析手段10は、ステップS15の処理に進む。
音響信号分析手段10は、ステップS11で切り出した再生音場音響信号をメモリに記憶し、処理を終了する(ステップS15)。
つまり、音響信号分析手段10は、N種類の音響分析値を算出する。
[心理状態推定処理]
図15を参照し、図11の心理状態推定処理(ステップS2)について説明する(適宜図1参照)。
心理状態推定手段30は、過去に推定した心理状態を、図示を省略したメモリから読み出す(ステップS21)。
心理状態推定手段30は、カウンタcjが聴覚印象種類数L以下であるか否かを判定する(ステップS22)。
カウンタciが聴覚印象種類数L以下の場合(ステップS22でYes)、心理状態推定手段30は、ステップS23の処理に進む。
心理状態推定手段30は、心理状態遷移モデル21に設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、心理状態を推定する(ステップS23)。
聴覚印象種類数Lは、推定する聴覚印象の種類数を示している(L=j)。
カウンタciが聴覚印象種類数Lを越える場合(ステップS22でNo)、心理状態推定手段30は、ステップS24の処理に進む。
心理状態推定手段30は、ステップS23で推定した心理状態をメモリに記憶し、処理を終了する(ステップS24)。
なお、心理状態推定手段30は、現在の心理状態を推定するため、心理状態推定モデル21において、過去の心理状態から現在の心理状態に至った経路を参照する必要がるため、ステップS24の処理を行う。
[抽出条件生成処理]
図16を参照し、図13の抽出条件生成処理(ステップS3)について説明する(適宜図1参照)。
確率分布モデル抽出手段40Aは、カウンタciが、音響特徴量種類数N及びパラメータ設定種類数Mの加算値以下であるか否かを判定する(ステップS31)。
なお、パラメータ設定種類数Mは、設定パラメータに設定されたパラメータの種類数であり、本実施形態では、設定パラメータを利用しないためゼロである。
カウンタciが加算値(N+M)以下の場合(ステップS31でYes)、確率分布モデル抽出手段40Aは、ステップS32の処理に進む。
確率分布モデル抽出手段40Aは、確率分布モデルに含まれる被験者の心理状態と、心理状態推定手段30で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成する(ステップS32)。
確率分布モデル抽出手段40Aは、ci番目の抽出条件をメモリに記憶し、ステップS21の処理に戻る(ステップS33)。
カウンタciが加算値(N+M)を越える場合(ステップS31でNo)、確率分布モデル抽出手段40Aは、ステップS34の処理に進む。
確率分布モデル抽出手段40Aは、ステップS33で記憶した抽出条件を聴覚印象量推定手段50に出力する(ステップS34)。
[聴覚印象量・臨場感推定値算出処理]
図17を参照し、図13の聴覚印象量・臨場感推定値算出処理(ステップS4)について説明する(適宜図1参照)。
聴覚印象量推定手段50Aは、カウンタcjが聴覚印象種類数L以下であるか否かを判定する(ステップS41)。
カウンタcjが聴覚印象種類数L以下の場合(ステップS41でYes)、聴覚印象量推定手段50Aは、ステップS42の処理に進む。
聴覚印象量算出手段51Aは、確率分布モデルから、抽出条件に一致するモデルデータを抽出する(ステップS42)。
聴覚印象量算出手段51Aは、抽出したモデルデータを参照して、音響分析値に対応するj番目の聴覚印象量を算出し、ステップS31の処理に戻る(ステップS43)。
カウンタcjが聴覚印象種類数Lを超える場合(ステップS41でNo)、聴覚印象量推定手段50Aは、ステップS44の処理に進む。
臨場感推定値算出手段53Aは、各聴覚印象量と、各聴覚印象量を算出した確率分布モデルの重み係数とを乗じた値を、臨場感推定値として算出する(ステップS44)。
以上のように、本発明の第2実施形態に係る聴覚印象量推定装置1Aは、複数の音響特徴量が1つの聴覚印象に寄与する場合でも、第1実施形態と同様、聴覚印象量及び臨場感を正確に提示することができる。
(第3実施形態)
図1に戻り、本発明の第3実施形態に係る聴覚印象量推定装置1Bについて、第1実施形態と異なる点を説明する。
聴覚印象量推定装置1Bは、心理状態遷移モデル21Bの評価条件に嗜好がさらに含まれる点が第1実施形態と異なる。このため、聴覚印象量推定装置1Bは、音響信号分析手段10と、データベース20Bと、心理状態推定手段30Bと、確率分布モデル抽出手段40と、聴覚印象量推定手段50と、設定パラメータ入力手段60とを備える。
データベース20Bは、評価条件に嗜好がさらに含まれる心理状態遷移モデル21Bを記憶する。
ここで、心理状態遷移モデル21Bは、第1実施形態と同様、音響特徴量(例えば、ラウドネス推定値)を評価条件として、心理状態の遷移確率Pが設定される。
なお、ラウドネス推定値を評価条件とした遷移確率Pを「遷移確率Px|L」と呼ぶ。
この場合、評価条件として、「穏やか」といった被験者の嗜好も、この被験者に予め回答させる。例えば、興味がある対象に対しては感動しやすいことが知られている(参考文献3参照)。このため、後記する設定パラメータの聴取者の嗜好と、被験者の嗜好とが一致する場合、「平常」から「感動(ジーン)」への遷移確率P12を高く設定する。このようにして、聴取者毎に固有の心理状態遷移モデル21Bを構築することもできる。
参考文献3:戸梶、“『感動』喚起のメカニズムについて”,認知科学,Vol.8,No.4,pp.360-368,2001
なお、嗜好を評価条件とした遷移確率Pを「遷移確率Px|p」と呼ぶ。
嗜好とは、聴取者や被験者の好みを示すものであり、例えば、「好き」、「嫌い」、「穏やか」、「激しい」といったものがある。また、嗜好は、「クラシックが好き」といったように、コンテンツの種類に対する聴取者の好みであってもよい。ここで、嗜好は、後記する主観評価実験により予め定義することができる。
ここでは、心理状態推定手段30Bよりも先に設定パラメータ入力手段60を説明する。
設定パラメータ入力手段60は、聴取者に依存する設定パラメータを入力するものである。例えば、聴取者が、図示を省略したマウス、キーボードを介して、「穏やか」、「激しい」というように予め定義された嗜好から、この聴取者自身にあった嗜好(例えば、「穏やか」)を入力(選択)する。すると、設定パラメータ入力手段60は、聴取者の嗜好が「穏やか」を示す設定パラメータを生成する。そして、設定パラメータ入力手段60は、生成した設定パラメータを心理状態推定手段30Bに出力する。
前記した心理状態とは別に、設定パラメータは、興味の有無を含めてもよい。
興味とは、評価対象(再生音場音響信号A及び評価用音響信号)に対する聴取者や被験者の関心を示すものである。例えば、興味の有無は、「興味が有る」を‘0’、「興味が無い」を‘1’のような2値を設定してもよい。また、興味の有無として、「大変興味が有る」、「そこそこ興味が有る」、「全く興味が無い」等に対応する値を段階的に設定してもよい。
また、同じ音を聴いた場合でも聴取時間帯が異なると、聴取者のバイオリズムや疲労の影響により、聴覚印象が異なる場合も考えられる。そこで、設定パラメータは、このバイオリズムや疲労の影響を反映させるべく、聴取時間帯を含めてもよい。
聴取時間帯とは、聴取者や被験者が音(音楽)を聴く時間帯を示すものであり、例えば、「平日の21時から22時」、「休日の10時から12時」といったものがある。
なお、聴取者は、聴取者の嗜好と同様、聴取者の興味及び聴取時間帯といった設定パラメータを設定パラメータ入力手段60に入力(選択)できる。
心理状態推定手段30Bは、心理状態遷移モデル21Bに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。
前記したように、心理状態遷移モデル21Bは、「平常」から「感動(ジーン)」への同一経路であっても、評価条件に音響特徴量及び被験者の嗜好という2種類が含まれるため、2種類の遷移確率P12|L,P12|pが存在する。このため、心理状態推定手段30Bは、以下で説明するように、心理状態を推定する。
例えば、遷移確率P12|L,P12|pが0.1から1.0までの値で正規化され、遷移確率P12|L=0.6、遷移確率P12|p=0.4であるとする。この場合、乱数を生成し、生成した乱数が遷移確率P12|Lを超えたか否かを判定する。ここで、乱数が遷移確率P12|Lを超えた場合、心理状態推定手段30Bは、「平常」から「感動(ジーン)」に遷移させる。一方、乱数が遷移確率P12|Lを超えない場合、心理状態推定手段30Bは、再度乱数を生成し、再生成した乱数が遷移確率P12|pを超えたか否かにより、「平常」を「感動(ジーン)」に遷移させるか否かを判定する。
以上のように、本発明の第3実施形態に係る聴覚印象量推定装置1Bは、聴取者の心理状態に加えて、聴取者の嗜好が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。
(第4実施形態)
本発明の第4実施形態に係る聴覚印象量推定装置1Cについて、第3実施形態と異なる点を説明する。
聴覚印象量推定装置1Cは、心理状態遷移モデル21Cの評価条件に生態情報がさらに含まれる点が第1実施形態と異なる。このため、聴覚印象量推定装置1Cは、音響信号分析手段10と、データベース20Cと、心理状態推定手段30Cと、確率分布モデル抽出手段40と、聴覚印象量推定手段50と、設定パラメータ入力手段60と、生体情報測定手段70とを備える。
データベース20Cは、評価条件に生体情報がさらに含まれる心理状態遷移モデル21Cを記憶する。例えば、生体情報は、聴取者や被験者の脳波計測値、心拍数又は発汗量である。
ここで、心理状態遷移モデル21Cは、第1実施形態と同様、音響特徴量(例えば、ラウドネス推定値)及び被験者の嗜好を評価条件として、心理状態の遷移確率が設定される。このとき、評価条件として、評価用音響信号を聴取している被験者の生態情報を予め測定する。このようにして、心理状態遷移モデル21Cを構築することができる。
ここでは、心理状態推定手段30Cよりも先に生体情報測定手段70を説明する。
生体情報測定手段70は、聴取者の生体情報を測定するものである。例えば、生体情報測定手段70は、再生音場音響信号を聴いたときの聴取者の生体情報として計測する。そして、生体情報測定手段70は、測定した生体情報を心理状態推定手段30Cに出力する。
心理状態推定手段30Cは、心理状態遷移モデル21Cに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。
前記したように、心理状態遷移モデル21Cは、「平常」から「感動(ジーン)」への同一経路であっても、評価条件に音響特徴量と被験者の嗜好と生態情報という3種類が含まれるため、3種類の遷移確率が存在する。従って、心理状態推定手段30Cは、3種類の遷移確率毎に乱数を発生させ、予め設定した基準数(例えば、3)以上、発生させた乱数が遷移確率を超えたか否かを判定する。そして、基準数以上の乱数が遷移確率を超えた場合、心理状態推定手段30Cは、心理状態を遷移させる。一方、基準数以上の乱数が遷移確率を超えない場合、心理状態推定手段30Cは、心理状態を遷移させない。
以上のように、本発明の第4実施形態に係る聴覚印象量推定装置1Cは、聴取者の生体情報が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。
以上、本発明の各実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。実施形態の変形例を以下に示す。
(変形例1)
図18を参照し、本発明の変形例1に係る聴覚印象量推定装置1について、第1実施形態と異なる点を説明する。
図18に示すように、心理状態遷移モデル21では、「感動(ジーン)」及び「感動(ゾクッ)」というように、2種類の心理状態を強度に応じて段階的に遷移させる点が第1実施形態と異なる。
ここで、心理状態遷移モデル21では、「感動(ジーン)」及び「感動(ゾクッ)」のそれぞれが、強度に応じて3段階に設定されている。そして、心理状態遷移モデル21では、「感動(ジーン)」及び「感動(ゾクッ)高」が段階毎に組み合わされている。例えば、「感動(ジーン・低)(ゾクッ・低)」は、ジーンとするような感動の強度が低く、かつ、ゾクッとするような感動の強度が低い心理状態を示す。
(変形例2)
図19を参照し、本発明の変形例2に係る聴覚印象量推定装置1について、第1実施形態と異なる点を説明する(適宜図1参照)。
この変形例2では、心理状態推定手段30が、音響信号分析手段10から入力された音響分析値に従って、心理状態遷移モデル21の遷移確率を選択することが、第1実施形態と異なる。
本変形例では、心理状態遷移モデル21は、図19に示すように、心理状態が「平常」及び「感動」との間で遷移する単純なモデルであることとする。また、音響分析値が「音圧レベル」であることとする。
心理状態遷移モデル21は、「平常」から「感動」までの同一経路であっても、音圧レベルの差に応じて、複数の遷移確率P12を設定できる。例えば、心理状態遷移モデル21は、音圧レベルの差が平坦なときの遷移確率P12|平と、音圧レベルの差が上昇するときの遷移確率P12|昇と、音圧レベルの差が下降するときの遷移確率P12|降とを設定できる。
この音圧レベルの差は、「レベル差」と呼ぶ。本変形例では、音圧レベルの差は、音圧レベルが低から高に大きく変化する「上昇」と、音圧レベルが高から低に大きく変化する「下降」と、音圧レベルが大きく変化しない「平坦」とに区分される。
<遷移確率の設定>
図20を参照し、心理状態遷移モデル21に遷移確率を設定する手法を説明する。
図20(b)では、第1被験者の感動の変化を実線で図示し、第2被験者の感動の変化を破線で図示し、第3被験者の感動の変化を一点鎖線で図示した。
図20(c)では、図20(b)の各時刻をサンプル点1〜8として図示した。
図20(d)では、サンプル点1〜8において、レベル差と、被験者の感動の変化との関係を図示した。また、図20(d)では、レベル差が平坦な場合を「平」、レベル差が上昇の場合を「昇」、レベル差が下降の場合を「降」と略記した。また、図20(d)では、被験者の感動が高い状態を「高」と図示し、被験者の感動が低い状態を「低」と図示した。また、図20(d)では、第1被験者の感動状態を「感動状態1」と図示し、第2被験者の感動状態を「感動状態2」と図示し、第3被験者の感動状態を「感動状態3」と図示した。
まず、図20(a)に示すように、評価用音響信号の音圧レベルを所定の時間単位で算出して、音圧レベルの変化を示すレベル差を求める。このとき、図20(b)に示すように、複数(例えば、3名)の被験者に評価用音響信号を聴かせながら、感動の変化をフェーダにより入力させる。
以後の説明では、評価用音響信号の聴取開始時、全被験者の感動が低い状態であることとする。
図20(d)に示すように、サンプル点1,2では、レベル差が「平坦」であり、被験者全員の感動が「低」から変化していない。このため、心理状態が「平常」を維持する可能性が高いと考えられる。従って、レベル差が「平坦」のときの遷移確率P11|平は、全被験者の数と、感動が「低」から変化しなかった被験者数との比により、3/3となる。
また、サンプル点3では、レベル差が「上昇」であり、被験者のうち2人で感動が「低」から「高」に変化している。このため、心理状態が「平常」から「感動」に遷移する可能性が高いと考えられる。従って、レベル差が「上昇」のときの遷移確率P12|昇は、全被験者の数と、感動が「低」から「高」に変化した被験者数との比により、2/3となる。
一方、サンプル点3において、被験者の残り1人は、感動が「低」から変化していない。従って、レベル差が「上昇」のときの遷移確率P11|昇は、被験者全員と、感動が「低」から変化しなかった被験者との比で表すと、1/3となる。
以上の手順により、心理状態遷移モデル21において、レベル差が「平坦」のときの遷移確率P11|平,P12|平,P21|平,P22|平と、レベル差が「上昇」のときの遷移確率P11|昇,P12|昇,P21|昇,P22|昇と、レベル差が「下降」のときの遷移確率P11|降,P12|降,P21|降,P22|降とを全て設定することが好ましい。
なお、評価用音響信号を別の信号に代えることや、主観評価実験を繰返し行うことで、遷移確率の正確性を向上させることができる。
<遷移確率の選択>
図21を参照し、音響分析値に従って遷移確率を選択する手法について説明する。
この図21では、心理状態が平常の場合を「常」、心理状態が感動の場合を「感」と略記した。
図21(a)に示すように、心理状態推定手段30は、時系列で入力される評価用音響信号の音圧レベルを、レベル差が同一となるような分割区間に分割する。そして、心理状態推定手段30は、レベル差に従って、分割区間毎に遷移確率を選択する。
つまり、心理状態推定手段30は、先頭の分割区間ではレベル差が「平坦」のため、心理状態遷移モデル21に設定された12種類の遷移確率のうち、レベル差が「平坦」に対応する遷移確率P11|平,P12|平,P21|平,P22|平を選択する。そして、心理状態推定手段30は、第1実施形態と同様、選択した遷移確率P11|平,P12|平,P21|平,P22|平と、乱数とによって、先頭の分割区間における聴取者の心理状態を推定する。
また、心理状態推定手段30は、2番目の分割区間ではレベル差が「上昇」のため、遷移確率P11|昇,P12|昇,P21|昇,P22|昇を選択し、第1実施形態と同様、2番目の分割区間における聴取者の心理状態を推定する。さらに、心理状態推定手段30は、4番目の分割区間ではレベル差が「下降」のため、遷移確率P11|降,P12|降,P21|降,P22|降を選択し、第1実施形態と同様、4番目の分割区間における聴取者の心理状態を推定する。
なお、3,5番目の分割区間は、先頭の分割区間と同様に遷移確率を選択するため、説明を省略した。
前記したように、急激な音量の変化があると、感動が喚起されることが知られている(参考文献2参照)。そこで、心理状態推定手段30は、「平常」から「感動」への遷移確率P12|平,P12|昇,P12|降を、レベル差に従って選択できる。その結果、心理状態推定手段30は、例えば、音圧レベルが大きく変化したタイミングで、「平常」から「感動」への遷移確率P12を高くできる。
なお、図21(b)に示すように、遷移確率を選択する条件が音圧レベル1種類だけに限定されず、平均音圧レベルといった他の音響特徴量、生体情報又は臨場感推定値を組み合わせてもよい。つまり、変形例2に係る聴覚印象量推定装置1は、第1実施形態と同様、第2〜4実施形態にも適用することができる。
(その他変形例)
前記した各実施形態では、心理状態遷移モデル21及び確率分布モデル23を記憶するデータベースを一体化して説明したが、本発明は、これに限定されない。つまり、本発明は、心理状態遷移モデル21を記憶する心理状態遷移モデルデータベースと、確率分布モデル23を記憶する確率分布モデルデータベースとを別々に構成してもよい。
前記した各実施形態では、臨場感推定値を算出することとして説明したが、本発明は、臨場感推定値を算出せずともよい。この場合、聴覚印象量推定装置1は、臨場感推定値算出手段53を備えず、聴覚印象量提示手段55が聴覚印象量のみを提示する。
前記した各実施形態では、心理状態が抽出条件であることとして説明したが、本発明は、これに限定されない。つまり、確率分布モデル23は、音圧レベルや両耳間相互相関度等の音響特徴量及び被験者の嗜好でさらに細かく分類可能としてもよい。そして、確率分布モデル抽出手段40は、音響信号分析手段10の音響分析値や、設定パラメータ入力手段60の設定パラメータを満たすモデルデータを抽出できるような抽出条件を生成する。
第2実施形態では、音響分析値及び聴覚印象量が1対1で対応付けられた確率分布モデルを説明したが、本発明の確率分布モデルは、これに限定されない。つまり、本発明は、条件付き確率として複数の音響分析値に、1つの音響分析値を対応付けた確率分布モデルを用いてもよい。
さらに、本発明では、複数の聴覚印象量から総合的な音響品質を評価する場合、ニューラルネットワーク又は重回帰分析を用いて、確率分布モデル23を複数構築することができる。この場合、各聴覚印象量が総合印象へ与える影響度についても、聴取者の心理状態によって確率分布モデル23を切り換えることで、心理状態が反映された音響品質の客観評価を行うことができる。
なお、総合印象とは、個別の印象に対する総合的な印象であり、好ましさ、ふさわしさと言うこともできる。
1,1A,1B,1C 聴覚印象量推定装置
10 音響信号分析手段
20,20B,20C データベース(心理状態遷移モデルデータベース、確率分布モデルデータベース)
30,30B,30C 心理状態推定手段
40,40A 確率分布モデル抽出手段(抽出条件生成手段)
50,50A 聴覚印象量推定手段
51,51A 聴覚印象量算出手段
53,53A 臨場感推定値算出手段
55,55A 聴覚印象量提示手段
60 設定パラメータ入力手段
70 生体情報測定手段

Claims (6)

  1. 音響信号が再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置であって、
    前記音響信号が入力され、入力された前記音響信号の音響特徴量である音響分析値を、当該音響信号を音響分析して求める音響信号分析手段と、
    前記音響特徴量を評価条件とし、前記評価条件毎に心理状態に関する主観評価実験を行って被験者の心理状態の遷移確率を設定した心理状態遷移モデルを、予め記憶する心理状態遷移モデルデータベースと、
    前記心理状態遷移モデルに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、前記聴取者の心理状態を推定する心理状態推定手段と、
    被験者の心理状態毎に前記聴覚印象量に関する主観評価実験を行って前記聴覚印象量と前記音響特徴量とを予め対応付けた確率分布モデルを、記憶する確率分布モデルデータベースと、
    前記確率分布モデルに含まれる被験者の心理状態と、前記心理状態推定手段で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成する抽出条件生成手段と、
    前記確率分布モデルから、前記抽出条件に対応する聴覚印象量及び音響特徴量を抽出し、抽出した前記聴覚印象量及び前記音響特徴量に、当該音響特徴量の区間毎に予め設定された確率関数を適用することで、前記音響分析値に対応する聴覚印象量を算出する聴覚印象量算出手段と、
    を備えることを特徴とする聴覚印象量推定装置。
  2. 前記聴取者に依存する設定パラメータとして、前記聴取者の嗜好が入力される設定パラメータ入力手段をさらに備え、
    前記心理状態遷移モデルデータベースは、前記評価条件に前記音響特徴量及び前記被験者の嗜好が含まれる心理状態遷移モデルを記憶することを特徴とする請求項1に記載の聴覚印象量推定装置。
  3. 前記聴取者の生体情報を測定する生体情報測定手段をさらに備え、
    前記心理状態遷移モデルデータベースは、さらに、前記評価条件に前記被験者の生体情報が含まれる心理状態遷移モデルを記憶することを特徴とする請求項2に記載の聴覚印象量推定装置。
  4. 前記心理状態遷移モデルデータベースは、前記被験者の心理状態が段階的に遷移する心理状態遷移モデルを記憶することを特徴とする請求項1から請求項3の何れか一項に記載の聴覚印象量推定装置。
  5. 前記心理状態遷移モデルデータベースは、前記被験者の心理状態に含まれる内部状態が遷移する心理状態遷移モデルを記憶することを特徴とする請求項1から請求項3の何れか一項に記載の聴覚印象量推定装置。
  6. 音響信号が再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定するために、音響特徴量を評価条件とし、前記評価条件毎に心理状態に関する主観評価実験を行って被験者の心理状態間の遷移確率を求めた心理状態遷移モデルを予め記憶する心理状態遷移モデルデータベースと、前記被験者の心理状態毎に前記聴覚印象量に関する主観評価実験を行って前記聴覚印象量と音響特徴量とを予め対応付けた確率分布モデルを記憶する確率分布モデルデータベースとを備えるコンピュータを、
    前記音響信号が入力され、入力された前記音響信号の音響特徴量である音響分析値を、当該音響信号を音響分析して求める音響信号分析手段、
    前記心理状態遷移モデルに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、前記聴取者の心理状態を推定する心理状態推定手段、
    前記確率分布モデルに含まれる被験者の心理状態と、前記心理状態推定手段で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成する抽出条件生成手段、
    前記確率分布モデルから、前記抽出条件に対応する聴覚印象量及び音響特徴量を抽出し、抽出した前記聴覚印象量及び前記音響特徴量に、当該音響特徴量の区間毎に予め設定された確率関数を適用することで、前記音響分析値に対応する聴覚印象量を算出する聴覚印象量算出手段、
    として機能させるための聴覚印象量推定プログラム。
JP2012141774A 2012-06-25 2012-06-25 聴覚印象量推定装置及びそのプログラム Expired - Fee Related JP5941350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012141774A JP5941350B2 (ja) 2012-06-25 2012-06-25 聴覚印象量推定装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012141774A JP5941350B2 (ja) 2012-06-25 2012-06-25 聴覚印象量推定装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2014006692A JP2014006692A (ja) 2014-01-16
JP5941350B2 true JP5941350B2 (ja) 2016-06-29

Family

ID=50104354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012141774A Expired - Fee Related JP5941350B2 (ja) 2012-06-25 2012-06-25 聴覚印象量推定装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5941350B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6127245B2 (ja) * 2012-10-12 2017-05-17 株式会社ジャママ〜る 評価値収集方法
JP2016057570A (ja) * 2014-09-12 2016-04-21 ヤマハ株式会社 音響解析装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1244033A3 (en) * 2001-03-21 2004-09-01 Matsushita Electric Industrial Co., Ltd. Play list generation device, audio information provision device, system, method, program and recording medium
JP4246120B2 (ja) * 2004-07-21 2009-04-02 シャープ株式会社 楽曲検索システムおよび楽曲検索方法
JP2007041988A (ja) * 2005-08-05 2007-02-15 Sony Corp 情報処理装置および方法、並びにプログラム
JP4027405B2 (ja) * 2006-11-14 2007-12-26 松下電器産業株式会社 楽曲検索装置、楽曲検索方法、及びそのプログラムと記録媒体
JP2008197813A (ja) * 2007-02-09 2008-08-28 Toshiba Corp 楽曲提供システムおよび楽曲提供装置

Also Published As

Publication number Publication date
JP2014006692A (ja) 2014-01-16

Similar Documents

Publication Publication Date Title
Kang et al. Towards soundscape indices
Giannoulis et al. A database and challenge for acoustic scene classification and event detection
Cartwright et al. Social-EQ: Crowdsourcing an Equalization Descriptor Map.
McAdams et al. The psychomechanics of simulated sound sources: Material properties of impacted thin plates
Weinzierl et al. A measuring instrument for the auditory perception of rooms: The Room Acoustical Quality Inventory (RAQI)
JP6251145B2 (ja) 音声処理装置、音声処理方法およびプログラム
CN108596016B (zh) 一种基于深度神经网络的个性化头相关传输函数建模方法
Gontier et al. Estimation of the perceived time of presence of sources in urban acoustic environments using deep learning techniques
Anglada-Tort et al. Large-scale iterated singing experiments reveal oral transmission mechanisms underlying music evolution
Mehrabi et al. Similarity measures for vocal-based drum sample retrieval using deep convolutional auto-encoders
Schneider Pitch and pitch perception
US20100235169A1 (en) Speech differentiation
JP5961048B2 (ja) 聴覚印象量推定装置及びそのプログラム
JP5941350B2 (ja) 聴覚印象量推定装置及びそのプログラム
Francombe et al. A model of distraction in an audio-on-audio interference situation with music program material
Seiça et al. Contrasts and similarities between two audio research communities in evaluating auditory artefacts
Mumtaz et al. Nonintrusive perceptual audio quality assessment for user-generated content using deep learning
Adami et al. On similarity and density of applause sounds
Mo et al. An investigation into how reverberation effects the space of instrument emotional characteristics
JP5658483B2 (ja) 臨場感推定装置およびそのプログラム
CN109119089B (zh) 对音乐进行通透处理的方法及设备
JP4240878B2 (ja) 音声認識方法及び音声認識装置
Schmele et al. Three dimensional sonification of fMRI brain data in the musical composition neurospaces
Lindborg Correlations between acoustic features, personality traits and perception of soundscapes
WO2023233979A1 (ja) 気分推定プログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160520

R150 Certificate of patent or registration of utility model

Ref document number: 5941350

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees