JP5961048B2 - 聴覚印象量推定装置及びそのプログラム - Google Patents

聴覚印象量推定装置及びそのプログラム Download PDF

Info

Publication number
JP5961048B2
JP5961048B2 JP2012141773A JP2012141773A JP5961048B2 JP 5961048 B2 JP5961048 B2 JP 5961048B2 JP 2012141773 A JP2012141773 A JP 2012141773A JP 2012141773 A JP2012141773 A JP 2012141773A JP 5961048 B2 JP5961048 B2 JP 5961048B2
Authority
JP
Japan
Prior art keywords
sound field
auditory impression
acoustic signal
acoustic
impression amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012141773A
Other languages
English (en)
Other versions
JP2014007556A (ja
Inventor
大出 訓史
訓史 大出
安藤 彰男
彰男 安藤
賢司 小澤
賢司 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012141773A priority Critical patent/JP5961048B2/ja
Publication of JP2014007556A publication Critical patent/JP2014007556A/ja
Application granted granted Critical
Publication of JP5961048B2 publication Critical patent/JP5961048B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置及びそのプログラムに関する。
収音再生技術の発展に伴い、22.2マルチチャンネル音響システムやWave Field Synthesisなど、臨場感が高い多様な音響システムが提案されている。このため、これら音響システムにおいて、その品質を客観的に評価することが求められている。
従来から、符号化された音に対する客観評価方法として、PEAQ(Perceptual Evaluation of Audio Quality)が提案されており、ITU(International Telecommunication Union)で規格化されている(非特許文献1参照)。この非特許文献1に記載の技術は、人の聴覚末梢系を模擬しており、聴覚中枢系を簡易なニューラルネットワークで代用したものである。
近年、収音再生技術の品質を評価する指標として、臨場感という感性情報が注目されている。この臨場感は、あたかもその場にいるような感じを示すが、音響空間の再現度だけでなく、心理効果(例えば、「心が揺さぶられた」)に対しても影響を受けることが知られている(非特許文献2参照)。さらに、臨場感の前提となる聴覚印象は、聴取者の嗜好や心理状態等の様々な条件によって、異なることが知られている(非特許文献3参照)。
ここで、人間が感じる音響品質の客観評価方法として、例えば、特許文献1に記載の発明が提案されている。この特許文献1に記載の発明は、音響特徴量から聴覚印象量を一意に決定し、その聴覚印象量から臨場感を推定するものである。
特開2011−250049号公報
ITU−R BS.1387 電子情報通信学会技術研究報告 HIP2008−132,"「臨場感」に関するイメージ調査",聴覚研究会資料 Vol.40,No.1,H−2010−1 日本音響学会2010年度春季研究発表会講演論文集2−1−7,"A study of influences of word and phone accuracies on unsupervised HMM-based speech synthesis"
しかし、特許文献1に記載の発明では、音響特徴量から聴覚印象量を一意に決定するため、聴取者の嗜好や聴取する順序が聴覚印象量に反映されておらず、聴覚印象量が正確でないという問題がある。このため、特許文献1に記載の発明では、推定した臨場感が、必ずしも聴取者が実際に感じている臨場感を正確に表していない。
そこで、本発明は、前記した問題を解決し、正確な聴覚印象量を推定できる聴覚印象量推定装置及びそのプログラムを提供することを課題とする。
前記した課題に鑑みて、本願第1発明に係る聴覚印象量推定装置は、実音場での音を示す実音場音響信号が実音場と異なる再生音場で再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置であって、音響信号分析手段と、設定パラメータ入力手段と、データベースと、抽出条件生成手段と、聴覚印象量算出手段と、を備えることを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、音響信号分析手段によって、実音場音響信号を再生音場で再生した再生音場音響信号が入力され、入力された再生音場音響信号の音響特徴量である再生音場音響分析値を、再生音場音響信号を音響分析して求める。
ここで、音響特徴量としては、例えば、ラウドネス(ラウドネス推定値)、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅があげられる。そして、聴覚印象量推定装置は、これら音響特徴量の1つ以上を音響分析する。
また、聴覚印象量推定装置は、設定パラメータ入力手段によって、聴取者に依存する設定パラメータとして、聴取者の嗜好及び聴取時間帯が入力される。そして、聴覚印象量推定装置は、データベースによって、被験者の嗜好及び聴取時間帯を少なくとも評価条件とし、評価条件毎に主観評価実験を行って聴覚印象量と音響特徴量とを予め対応付けた確率分布モデルを、記憶する。さらに、聴覚印象量推定装置は、抽出条件生成手段によって、評価条件と設定パラメータとの間で一致する嗜好及び聴取時間帯を少なくとも示すように、設定パラメータが満たされる評価条件を、抽出条件として生成する。
また、聴覚印象量推定装置は、聴覚印象量算出手段によって、確率分布モデルから、抽出条件に一致する聴覚印象量及び音響特徴量を抽出し、抽出した聴覚印象量及び音響特徴量に、音響特徴量の区間毎に予め設定された確率関数を適用することで、再生音場音響分析値に対応する聴覚印象量を算出する。つまり、聴覚印象量算出手段は、確率分布モデルの全てのモデルデータ(聴覚印象量及び音響特徴量)から、聴取者の嗜好に一致する評価条件のモデルデータを抽出する。従って、聴覚印象量推定装置が推定した聴覚印象量は、聴取者の嗜好が反映されることになる。
なお、嗜好とは、聴取者や被験者の好みを示すものである。
聴覚印象とは、聴取者や被験者が感じた音の特徴を言葉で表現(ラベリング)したものである。
聴覚印象量とは、聴覚印象の程度、つまり、聴覚印象を数値化したものである。
聴取者とは、再生音場音響信号を実際に聴取する者である。
被験者とは、確率分布モデルを構築するときの主観評価実験の対象者である。
また、本願第2発明に係る聴覚印象量推定装置は、設定パラメータ入力手段が、さらに、設定パラメータとして、聴取者の心理状態及び興味の有無の少なくとも一つが入力され、データベースが、さらに、評価条件に被験者の心理状態及び興味の有無の少なくとも一つが含まれる確率分布モデルを記憶することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の嗜好及び聴取時間帯に加えて、聴取者の心理状態興味の有無を聴覚印象量の推定に反映させることができる。
心理状態とは、聴取者や被験者の気持ちを示すものである。
興味とは、聴取者や被験者の関心を示すものである。
聴取時間帯とは、聴取者や被験者が音(音楽)を聴く時間帯を示すものである。
また、本願第3発明に係る聴覚印象量推定装置は、データベースが、さらに、評価条件に音響特徴量が含まれる確率分布モデルを記憶し、抽出条件生成手段が、設定パラメータ及び再生音場音響分析値を満たす抽出条件を生成することを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の嗜好に加えて、音響信号の物理的特徴を聴覚印象量の推定に反映させることができる。
また、本願第4発明に係る聴覚印象量推定装置は、聴覚印象量算出手段が算出した聴覚印象量と、聴覚印象量を算出した確率分布モデル毎に予め設定された重み係数とを乗じた値の合計を、臨場感の推定値として算出する臨場感推定値算出手段、をさらに備えることを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、聴取者の嗜好が反映された聴覚印象量の推定値を用いて、臨場感の推定値を算出することができる。
また、本願第5発明に係る聴覚印象量推定装置は、音響信号分析手段が、実音場音響信号が入力され、入力された実音場音響信号の音響特徴量である実音場音響分析値を、実音場音響信号を音響分析して求めると共に、実音場音響信号又は実音場音響分析値の少なくとも一方が含まれる実音場評価対象信号と、再生音場音響信号又は再生音場音響分析値の少なくとも一方が含まれる再生音場評価対象信号とを出力し、音響信号分析手段が出力した再生音場評価対象信号と実音場評価対象信号との差に基づいて、再生音場音響信号と実音場音響信号との類似度である音響信号類似度を算出する音響信号類似度算出手段、をさらに備えることを特徴とする。
かかる構成によれば、聴覚印象量推定装置は、実音場音響信号と再生音場音響信号との間において、音響特徴量の類似度を算出することができる。
なお、本願第1発明に係る聴覚印象量推定装置は、CPU、データベース等のハードウェア資源を備える一般的なコンピュータを、前記した各手段として協調動作させる聴覚印象量推定プログラムによって実現することもできる。この聴覚印象量推定プログラムは、通信回線を介して配布しても良く、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
本発明によれば、以下のような優れた効果を奏する。
本願第1発明によれば、少なくとも聴取者の嗜好及び聴取時間帯が聴覚印象量の推定に反映されるため、正確な聴覚印象量を推定することができる。
本願第2発明によれば、聴取者の嗜好及び聴取時間帯に加えて、聴取者の心理状態興味の有無が聴覚印象量の推定に反映されるため、より正確な聴覚印象量を推定することができる。
本願第3発明によれば、聴取者の嗜好に加えて、音響信号の物理的特徴が聴覚印象量の推定に反映されるため、より正確な聴覚印象量を推定することができる。
本願第4発明によれば、聴取者の嗜好が反映された正確な聴覚印象量の推定値から臨場感の推定値を算出するため、聴取者が実際に感じている臨場感を正確に推定することができる。
本願第5発明によれば、実音場音響信号と再生音場音響信号との間において、音響特徴量の類似度を算出することができる。
本発明の第1実施形態に係る聴覚印象量推定装置の構成を示すブロック図である。 図1の聴覚印象量データベースに記憶された確率分布モデルの構築を説明する図であり、(a)は全てのモデルデータを示し、(b)は評価条件が音圧レベルのモデルデータを示し、(c)は評価条件が音像の方向のモデルデータを示し、(d)は評価条件が被験者の嗜好のモデルデータを示し、(e)は評価条件が上昇系列・下降系列のモデルデータを示し、(f)は抽出条件に一致するモデルデータを示す。 図1の確率分布モデル抽出手段が用いる抽出条件の設定を説明する図であり、(a)は全てのモデルデータを示し、(b)は音圧レベルでのグルーピングを示し、(c)は音像の方向でのグルーピングを示し、(d)は被験者の嗜好でのグルーピングを示し、(e)は上昇系列・下降系列でのグルーピングを示す。 図1の聴覚印象量算出手段による聴覚印象量の算出と、臨場感推定値算出手段による臨場感推定値の算出とを説明する図である。 (a)〜(d)は、図1の聴覚印象量データベースに記憶された確率分布モデルの補完を説明する図である。 図1の聴覚印象量提示手段が聴覚印象量及び臨場感推定値を棒グラフ形式で提示した例を説明する図である。 図1の聴覚印象量提示手段が聴覚印象量及び臨場感推定値を相関図形式で提示した例を説明する図である。 本発明の第2実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値の算出を説明する図である。 本発明の第2実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値を棒グラフ形式で提示した例を説明する図である。 本発明の第2実施形態に係る聴覚印象量推定装置において、聴覚印象量及び臨場感推定値をレーダーチャート形式で提示した例を説明する図である。 本発明の第2実施形態に係る聴覚印象量推定装置の全体動作を示すフローチャートである。 図11のステップS1の動作を示すフローチャートである。 図11のステップS2の動作を示すフローチャートである。 図11のステップS3の動作を示すフローチャートである。 本発明の第3実施形態に係る聴覚印象量推定装置の構成を示すブロック図である。 図15の音響信号類似度算出手段による音響信号類似度の算出を説明する説明図である。 図15の音響信号類似度提示手段が音響信号類似度を棒グラフ形式で提示した例を説明する図である。 図15の音響信号類似度提示手段が音響信号類似度をレーダーチャート形式で提示した例を説明する図である。
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。
(第1実施形態)
[聴覚印象量推定装置の構成]
図1を参照し、本発明の第1実施形態に係る聴覚印象量推定装置1の構成について説明する。
聴覚印象量推定装置1は、聴取者が再生音場音響信号Aを聴いたときの聴覚印象量と、臨場感の推定値とを提示するものである。このため、聴覚印象量推定装置1は、音響信号分析手段10と、設定パラメータ入力手段20と、聴覚印象量データベース(データベース)30と、確率分布モデル抽出手段(抽出条件生成手段)40と、聴覚印象量推定手段50とを備える。
まず、音響信号分析手段10に入力される再生音場音響信号Aについて説明する。
再生音場音響信号Aは、再生音場で収音された音響信号(実際に再現された音響空間で計測された音響信号)である。例えば、再生音場音響信号Aは、コンサートホールでのオーケストラ生演奏を収音した音響信号を、リビングルームのオーディオ機器により再生して、その再生音を収音した音響信号である。
このとき、音響空間の計測(再生音場音響信号Aの収音)には、例えば、人間の頭部を模擬した計測装置900(ダミーヘッドDHに設置されたマイクロホンMC)を用いることができる(図16参照)。
また、音響空間の計測には、複数のマイクロホンを用いて空間的な情報を取得できる計測装置を用いてもよい。例えば、複数のマイクロホンを配置して、音量や位相を比較することで、音の到来方向を算出することができる。このとき、信号間相関(ダミーヘッドDHの場合は、両耳間相互相関度)を算出することで、音の広がり感を空間的な情報として取得できる。
音響信号分析手段10は、再生音場音響信号Aが入力され、入力された再生音場音響信号Aの音響特徴量である再生音場音響分析値を、再生音場音響信号Aを音響分析して求めるものである。例えば、音響信号分析手段10は、ラウドネス推定値、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅等の音響特徴量を、再生音場音響分析値として求める。そして、音響信号分析手段10は、求めた再生音場音響分析値を、確率分布モデル抽出手段40に出力する。
ここで、音響信号分析手段10は、音響特徴量として、音像の方向を求めてもよい。例えば、両耳間レベル差及び両耳間位相差から、聴取者に対する音像の角度を求める。音像の方向を4方向で表す場合、音響信号分析手段10は、求めた音像の角度が聴取者の正面90°の範囲内であれば音像の方向を「正面」とし、この音像の角度が聴取者の左右90°の範囲内であれば音像の方向を「側面」とし、この音像の角度が聴取者の背面90°の範囲内であれば音像の方向を「背面」とする。
さらに、音響信号分析手段10は、音像の方向を、45°の範囲内で区分された8方向で表してもよい。
なお、これら音響分析の手法は、一般的なものであるため説明を省略する。また、音響信号分析手段10が求める音響特徴量は、音響分析可能なものであればよく、これらに限定されないことは言うまでもない。また、音響信号分析手段10がどの音響特徴量を求めるかは、手動で設定することができる。
設定パラメータ入力手段20は、聴取者に依存する設定パラメータを入力するものである。例えば、聴取者が、図示を省略したマウス、キーボードを介して、「穏やか」、「激しい」というように予め定義された嗜好から、この聴取者自身にあった嗜好(例えば、「穏やか」)を入力(選択)する。すると、設定パラメータ入力手段20は、聴取者の嗜好が「穏やか」を示す設定パラメータを生成する。そして、設定パラメータ入力手段20は、生成した設定パラメータを確率分布モデル抽出手段40に出力する。
嗜好とは、聴取者や被験者の好みを示すものであり、例えば、「好き」、「嫌い」、「穏やか」、「激しい」といったものがある。また、嗜好は、「クラシックが好き」といったように、コンテンツの種類に対する聴取者の好みであってもよい。ここで、嗜好は、後記する確率分布モデルを構築するときの主観評価実験において、「好きか」、「嫌いか」といった質問項目により、予め定義することができる。
また、設定パラメータは、少なくとも聴取者の嗜好が含まれており、さらに、聴取者の心理状態を含めてもよい。
心理状態とは、聴取者や被験者の気持ちを示すものであり、例えば、「楽しい」、「悲しい」、「イライラ」といったものがある。
ここで、心理状態は、カテゴリーで区分してもよい。例えば、「抑鬱」というカテゴリーの心理状態には、「気がかりな」、「不安な」、「自信がない」という心理状態が含まれる。また、例えば、「敵意」というカテゴリーの心理状態には、「攻撃的な」、「憎らしい」、「むっとした」という心理状態が含まれる。また、例えば、「倦怠」というカテゴリーの心理状態には、「つまらない」、「疲れた」、「退屈な」という心理状態が含まれる。また、例えば、「活動的快」というカテゴリーの心理状態には、「活気のある」、「気力に満ちた」、「はつらつとした」という心理状態が含まれる。また、例えば、「非活動的快」というカテゴリーの心理状態には、「のんびりした」、「のどかな」、「おっとりした」という心理状態が含まれる。また、例えば、「親和」というカテゴリーの心理状態には、「いとおしい」、「愛らしい」、「すてきな」という心理状態が含まれる。
このような、心理状態は、主観評価実験で予め定義することができる(参考文献1参照)。
参考文献1:「多面的感情状態尺度の作成」、寺崎他、心理学研究、第62号、pp.350-356、1992
前記した心理状態とは別に、設定パラメータは、興味の有無を含めてもよい。
興味とは、評価対象(例えば、再生音場音響信号A及び評価用音響信号)に対する聴取者や被験者の関心を示すものである。例えば、興味の有無は、「興味が有る」を‘0’、「興味が無い」を‘1’のような2値を設定してもよい。また、興味の有無として、「大変興味が有る」、「そこそこ興味が有る」、「全く興味が無い」等に対応する値を段階的に設定してもよい。
また、同じ音を聴いた場合でも聴取時間帯が異なると、聴取者のバイオリズムや疲労の影響により、聴覚印象が異なる場合も考えられる。そこで、設定パラメータは、このバイオリズムや疲労の影響を反映させるべく、聴取時間帯を含めてもよい。
聴取時間帯とは、聴取者や被験者が音(音楽)を聴く時間帯を示すものであり、例えば、「平日の21時から22時」、「休日の10時から12時」といったものがある。
なお、聴取者は、聴取者の嗜好と同様、聴取者の心理状態、興味及び聴取時間帯といった設定パラメータを設定パラメータ入力手段20に入力(選択)できる。
聴覚印象量データベース30は、後記する聴覚印象量推定手段50が用いる様々な情報が予め記憶されたデータベースである。例えば、聴覚印象量データベース30は、評価用音響信号と、確率分布モデルと、重み係数と、コンテンツタイプとを記憶している。
評価用音響信号は、確率分布モデルを構築するときの主観評価実験において、被験者が聴いた音響信号である。この評価用音響信号は、再生音場音響信号Aが含まれてもよく、再生音場音響信号Aが含まれなくてもよい。
確率分布モデルは、それぞれの評価条件で主観評価実験を行って、モデルデータ(聴覚印象量及び音響特徴量)を予め対応付けたものである。
評価条件(メタデータ)とは、個々の聴覚印象量と音響特徴量とを対応付けた条件、言い換えるなら、主観評価実験を行った条件である。
聴覚印象とは、聴取者や被験者が感じた音の特徴を言葉で表現(ラベリング)したものであり、例えば、「広がり感」、「明るい」といったものがある。
聴覚印象量とは、聴覚印象の程度、つまり、聴覚印象を数値化したものである。
<確率分布モデルの構築>
図2を参照し、聴覚印象量データベース30に記憶された確率分布モデルの構築について説明する(適宜図1参照)。
例えば、聴覚印象の「広がり感」は、両耳間相互相関度、音圧レベル、音源の方向、直前の音の広がり、及び、聴取者の嗜好の影響を受けると考えられる。そこで、本実施形態では、音響特徴量を「両耳間相互相関度」とし、聴覚印象を「広がり感」として説明する。
この確率分布モデルは、評価条件を全組み合わせて複数の被験者に主観評価実験を行って、構築できる。具体的には、評価用音響信号を、「60dB SPL以上、70dB SPL未満」又は「70dB SPL以上、80dB SPL未満」となる音圧レベルと、「正面」又は「側面」となる音像の方向とを全て組み合わせて、被験者に聴かせる。このとき、評価条件の全組み合わせで、評価用音響信号の「両耳間相互相関度」を測定しておく。また、「穏やか」といった被験者の嗜好も、各被験者に予め回答させておく。
ここで、様々な評価条件で評価用音響信号を聴いたときに感じた「広がり感」の程度を被験者に回答させて、「広がり感」の聴覚印象量として求める。そして、評価用音響信号の「両耳間相互相関度」と、被験者が回答した「広がり感」の聴覚印象量とを対応付けて、モデルデータとして求める。このとき、各モデルデータには、このモデルデータを対応付けたときの評価条件を付加する。図2の例では、評価条件が、音圧レベルと、音像の方向と、上昇系列・下降系列と、聴取者の嗜好とになる。このような主観評価実験を、嗜好が「穏やか」や「激しい」といった、複数の被験者に対して行い、様々な評価条件でモデルデータを複数求める。
なお、上昇系列・下降系列とは、音響特徴量の低い順に評価用音響信号を聴いたときが上昇系列となり、音響特徴量の高い順に評価用音響信号を聴いたときが下降系列となる。
その結果、図2に示すように、確率分布モデルでは、音圧レベルが「70dB SPL以上、80dB SPL未満」、かつ、音像の方向が「正面」、かつ、被験者の嗜好が「穏やか」といった評価条件が各モデルデータに付加されることになる。
なお、評価条件に含まれる音響特徴量は、聴覚印象量に対応付けられた音響特徴量(図2では「両耳間相互相関度」)以外、であれよく、音圧レベルや音像の方向に限定されない。また、評価条件は、聴取者の嗜好以外の設定パラメータ(心理状態及び聴取時間)や、コンテンツタイプが含まれてもよい。例えば、評価条件として、徐々に音が広がっていく場合と徐々に音が狭くなっていく場合で「広がり感」が異なるというように、様々な評価条件を設定可能である。
図1に戻り、聴覚印象量データベース30の説明を続ける。
重み係数は、臨場感推定値に対する聴覚印象量の寄与率を示すものであり、重回帰分析、数量化I類等の多変量解析により求めることができる。
重回帰分析では、複数の観測値(説明変数)から変数(目的変数)を予測するとき、予測誤差が最も少なくなるように重み係数を算出する。本実施形態では、観測値(説明変数)を音響特徴量の確率分布モデルから求めた聴覚印象量とし、変数(目的変数)を臨場感推定値とした重回帰分析を行う。このことから、重み係数は、聴覚印象量データベース30に記憶されている観測値に依存することになる。
なお、多変量解析により重み係数を求める例を説明したが、学習手法は、これに限定されない。例えば、重み係数は、ニューラルネットワーク、遺伝的アルゴリズム等の機械学習で求めることもできる。
コンテンツタイプとは、因子空間上での距離が近いコンテンツ(音)を同一の種類としてグルーピングしたものである。つまり、コンテンツタイプは、因子空間上での距離によって、グルーピングされるもので、音から受ける印象が似ていれば、クラシック、ジャズ、ロック、ポップス等の既存のジャンルによらない。また、コンテンツタイプは、クラシックであっても、テンポが速い曲と遅い曲で別のグループになることもあり、テンポの速いクラシックの曲とテンポの速いポップスが同じグループとして、グルーピングされる可能性もある。
なお、因子分析を用いたコンテンツタイプの分類手法は、例えば、参考文献2に記載されているため、説明を省略する。
参考文献2:「音楽と感情」、谷口高士著、株式会社 北大路書房、1998年1月
確率分布モデル抽出手段40は、設定パラメータ入力手段20から入力された設定パラメータと、音響信号分析手段10から入力された再生音場音響分析値とが満たされる評価条件を、抽出条件として生成するものである。ここで、確率分布モデル抽出手段40は、抽出対象となる条件項目を設定した後、条件項目毎に具体的な条件値を設定して、抽出条件を生成する。
<条件項目設定の第1例:手動設定>
図3を参照し、抽出条件の条件項目設定について、2つの具体例をあげて説明する(適宜図1参照)。
この第1例では、抽出条件の条件項目を手動設定する。図3(a)に示すように、確率分布モデルには、音圧レベル、音像の方向、上昇系列・下降系列、嗜好等の評価条件が含まれている。例えば、経験則により、音圧レベルと、音像の方向と、被験者の嗜好とを、抽出条件の条件項目として手動で設定する。一方、上昇系列・下降系列は、抽出条件の条件項目として設定されない。
<条件項目設定の第2例:グルーピングによる自動設定>
この第2例では、確率分布モデルのモデルデータをグルーピングして、抽出条件の条件項目を自動設定する。
図3(a)に示すように、確率分布モデル抽出手段40は、全てのモデルデータに対して、回帰直線等の近似式を求める(以後、「近似式ALL」)。また、確率分布モデル抽出手段40は、全てのモデルデータの実測値と近似式ALLとの誤差が予め設定した第1閾値以上となる場合、グルーピングによる自動設定を行う。
また、確率分布モデル抽出手段40は、確率分布モデルのモデルデータに対し、評価条件毎に条件値でグルーピングを行う。図3(b)に示すように、評価条件が音圧レベルであれば、確率分布モデル抽出手段40は、条件値が「70dB SPL以上、80dB SPL未満」のモデルデータをグループAとし、条件値が「60dB SPL以上、70dB SPL未満」のモデルデータをグループaとする。また、確率分布モデル抽出手段40は、グループAに含まれるモデルデータの近似式と、グループaに含まれるモデルデータの近似式とを求める。
そして、確率分布モデル抽出手段40は、グループAに含まれるモデルデータの実測値(以後、「実測値A」)と近似式Aとの誤差が予め設定した第2閾値以上で、かつ、グループaに含まれるモデルデータの実測値(以後、「実測値a」)と近似式aとの誤差が第2閾値以上であるか否かを判定する。例えば、確率分布モデル抽出手段40は、実測値A,aと近似式A,aとの両方の誤差が第2閾値以上でない場合、音圧レベルを条件項目として設定する。
また、図3(c)に示すように、評価条件が音像の方向であれば、確率分布モデル抽出手段40は、条件値が「正面」のモデルデータをグループBとし、条件値が「側面」のモデルデータをグループbとする。そして、確率分布モデル抽出手段40は、グループBに含まれるモデルデータの近似式と、グループbに含まれるモデルデータの近似式とを求める。
そして、確率分布モデル抽出手段40は、グループBに含まれるモデルデータの実測値(以後、「実測値B」)と近似式Bとの誤差が予め設定した第2閾値以上で、かつ、グループaに含まれるモデルデータの実測値(以後、「実測値b」)と近似式bとの誤差が第2閾値以上であるか否かを判定する。例えば、確率分布モデル抽出手段40は、実測値B,bと近似式B,bとの誤差の少なくとも一方が第2閾値以上の場合、音像の方向を条件項目として設定しない。その後、確率分布モデル抽出手段40は、音圧レベルや音像の方向と同様、被験者の嗜好や上昇系列・下降系列について、抽出条件の条件項目として適切であるか否かを判定する(図3(d),図3(e))。
なお、確率分布モデル抽出手段40は、第1例又は第2の何れを用いるか、手動で設定できる。
<条件値設定>
図2に戻り、確率分布モデル抽出手段40が用いる抽出条件の条件値設定について、説明する(適宜図1参照)。
ここで、再生音場音響分析値として、再生音場音響信号Aの音圧レベルと、両耳間レベル差と、両耳間位相差とが入力されるとする。
また、設定パラメータには、聴取者の嗜好が「穏やか」と設定されていることとする。
また、確率分布モデル抽出手段40は、抽出条件の条件項目として、音圧レベルと、音像の方向と、被験者の嗜好とが設定されたこととする。
図2(a)に示すように、確率分布モデルには、様々な条件値のモデルデータが含まれている。例えば、図2(b)では、評価条件としての音圧レベルに着目し、条件値が「70dB SPL以上、80dB SPL未満」のモデルデータを黒丸で図示し、「60dB SPL以上、70dB SPL未満」のモデルデータを白丸で図示した。また、例えば、図2(c)では、評価条件としての音像の方向に着目し、条件値が「正面」のモデルデータを黒丸で図示し、「側面」のモデルデータを白丸で図示した。また、例えば、図2(d)では、評価条件としての被験者の嗜好に着目し、条件値が「穏やか」のモデルデータを黒丸で図示し、「激しい」のモデルデータを白丸で図示した。さらに、例えば、図2(e)では、評価条件としての上昇系列・下降系列に着目し、条件値が「上昇系列」のモデルデータを黒丸で図示し、「下降系列」のモデルデータを白丸で図示した。
ここで、図2(a)のように、確率分布モデルの全てのモデルデータを用いると、設定ファイルで嗜好が「穏やか」にもかかわらず、嗜好の条件値が「激しい」のモデルデータも用いることになり、聴覚印象量の推定結果が正確でなくなってしまう。そこで、確率分布モデル抽出手段40は、図2(f)に示すように、条件項目として設定された抽出条件から、設定パラメータ及び音場音響分析値を満たす条件値を求める。
具体的には、確率分布モデル抽出手段40は、評価条件が数値範囲で表わされる場合、再生音場音響分析値が含まれる範囲を抽出条件として求める。例えば、再生音場音響信号Aの音圧レベルが「74 dB SPL」であるとする。この場合、確率分布モデル抽出手段40は、図2(b)に示すように、確率分布モデルで2種類の音圧レベルのうち、再生音場音響信号Aの音圧レベルが含まれる「70dB SPL以上、80dB SPL未満」を条件値として求める。
また、確率分布モデル抽出手段40は、音像の方向のように、評価条件が言葉や数値で表わされる場合、再生音場音響分析値に一致する言葉や数値を抽出条件として求める。例えば、再生音場音響信号Aの音像の方向が「正面」であるとする。この場合、確率分布モデル抽出手段40は、図2(c)に示すように、確率分布モデルで2種類の音像の方向のうち、再生音場音響信号Aの音像の方向に一致する「正面」を条件値として求める。また、例えば、設定パラメータで嗜好が「穏やか」であるとする。この場合、確率分布モデル抽出手段40は、図2(d)に示すように、確率分布モデルで2種類の被験者の嗜好のうち、設定パラメータの聴取者の嗜好に一致する「穏やか」を条件値として求める。このように、抽出条件は、少なくとも、評価条件と設定パラメータとの間で一致する嗜好を示す。
ここで、図2(b)〜(d)に示すように、音圧レベル、音像の方向及び聴取者の嗜好という3つの評価条件が用いられている。従って、確率分布モデル抽出手段40は、これら3つの評価条件をAND条件として扱う。つまり、図2(e)に示すように、確率分布モデル抽出手段40は、音圧レベルが「60dB SPL以上、70dB SPL未満」、かつ、音像の方向が「正面」かつ、嗜好が「穏やか」という抽出条件を生成する。そして、確率分布モデル抽出手段40は、生成した抽出条件と、音響信号分析手段10から入力された再生音場音響分析値とを、聴覚印象量推定手段50に出力する。
図1に戻り、聴覚印象量推定装置1の構成について、説明を続ける。
聴覚印象量推定手段50は、聴覚印象量及び臨場感推定値を算出し、提示するものである。この聴覚印象量推定手段50は、聴覚印象量算出手段51と、臨場感推定値算出手段53と、聴覚印象量提示手段55とを備える。
聴覚印象量算出手段51は、確率分布モデルから、確率分布モデル抽出手段40から入力された抽出条件に一致するモデルデータを抽出し、抽出したモデルデータに、音響特徴量の区間毎に予め設定された確率関数を適用することで、再生音場音響分析値に対応する聴覚印象量を算出するものである。
臨場感推定値算出手段53は、聴覚印象量算出手段51が算出した聴覚印象量に、予め設定された重み係数を乗じた値を、臨場感推定値として算出するものである。
<聴覚印象量及び臨場感推定値の算出>
図4を参照し、聴覚印象量算出手段51による聴覚印象量を算出と、臨場感推定値算出手段53による臨場感推定値の算出とを説明する(適宜図1参照)。
聴覚印象量算出手段51は、全てのモデルデータが含まれる確率分布モデルから、抽出条件に一致するモデルデータを抽出する(図2(f)参照)。
また、聴覚印象量算出手段51は、図4に示すように、確率分布モデルの両耳間相互相関(横軸方向)を所定の区間に分割する。そして、聴覚印象量算出手段51は、分割した各区間のうち、再生音場音響分析値が含まれる区間を求める。さらに、聴覚印象量算出手段51は、抽出したモデルデータに、求めた区間の確率関数(例えば、正規分布、二項分布)を適用し、両耳間相互相関に対応する広がり感を求める。ここで、聴覚印象量算出手段51は、確率関数に従って、広がり感の存在確率を算出する。例えば、聴覚印象量算出手段51は、乱数を発生させ、その乱数値を存在確率の累積度数とみなして、広がり感を算出する。
このとき、臨場感推定値の信頼性を向上させるため、聴覚印象量算出手段51は、乱数を複数回発生させて累積度数を複数回算出し、算出した全累積度数の平均値を、広がり感として算出してもよい。さらに、聴覚印象量算出手段51は、リアルタイムで臨場感推定値を算出する場合、広がり感の時間変化が予め設定された範囲内に収まるようにしてもよい。
臨場感推定値算出手段53は、聴覚印象量データベース30から、「広がり感」と「両耳間相互相関度」とに対応する確率分布モデルの重み係数を読み出す。そして、臨場感推定値算出手段53は、広がり感と、読み出した重み係数とを乗じて、臨場感推定値を算出する。
<確率分布モデルの補完>
ここで、図5(a)に示すように、確率分布モデルでは、「両耳間相互相関度」に空白区間90が生じるといったように、十分な数のモデルデータを求められないことがある。この場合、聴覚印象量算出手段51は、スプライン関数等の補完処理を行えばよい。
具体的には、図5(b)に示すように、確率分布モデルを横軸方向で所定の区間91に分割する。また、図5(c)に示すように、分割した区間91のそれぞれで、モデルデータの分布確率を示す存在確率92を算出する。例えば、正規分布、二項分布等の確率関数を予め何種類か定義しておき、各区間に含まれるモデルデータに最も近似する存在確率92を求める。さらに、各区間に含まれるモデルデータを多項式で近似して、存在確率92を求めてもよい。
また、それぞれの存在確率92に含まれる特徴点93を任意の数(例えば、3点)だけ算出する。例えば、特徴点93は、平均値及び±標準偏差の3点である。また、特徴点93は、中央値と、中央値の1/4及び3/4となる3点でもよい。また、特徴点93は、中央値と、中央値の1/3及び2/3となる3点でもよい。また、特徴点93は、分布確率の最大振幅と、この最大振幅1/2となる3点でもよい。さらに、多項式を用いた場合、3番目までの極大点を抽出して、特徴点93としてもよい。
この他、特徴点93は、中央値に対して1/6,2/6,4/6,5/6,6/6となる5点でもよい。
そして、それぞれの存在確率92で対応する特徴点93を仮想線94で結ぶ。そして、図3(d)に示すように、空白区間90に含まれる3点の特徴点93をスプライン曲線で結び、空白区間90での存在確率92を推定する。これによって、主観評価実験の手間を最小限に抑えることができる。
図1に戻り、聴覚印象量推定手段50の説明を続ける。
聴覚印象量提示手段55は、聴覚印象量算出手段51が算出した聴覚印象量と、臨場感推定値算出手段53が算出した臨場感推定値とを提示するものである。ここで、聴覚印象量提示手段55は、聴覚印象量及び臨場感推定値を、グラフィカルな形式で提示する。
<聴覚印象量及び臨場感推定値の提示>
図6,図7を参照し、聴覚印象量提示手段55による聴覚印象量及び臨場感推定値の提示について、説明する。
図6に示すように、聴覚印象量提示手段55は、例えば、聴覚印象量及び臨場感推定値を棒グラフ形式で提示する。具体的には、聴覚印象量提示手段55は、聴覚印象量算出手段51が算出した聴覚印象量(例えば、「広がり感」)を、棒グラフ96として提示する。また、聴覚印象量提示手段55は、臨場感推定値算出手段53が算出した臨場感推定値を、棒グラフ97として提示する。このとき、聴覚印象量提示手段55は、確率分布モデル抽出手段40が生成した抽出条件98を提示してもよい。
また、図7に示すように、聴覚印象量提示手段55は、聴覚印象量及び臨場感推定値を相関図形式で提示してもよい。この相関図は、縦軸が臨場感推定値を示し、横軸が聴覚印象量(例えば、「広がり感」)を示す。そして、聴覚印象量算出手段51が算出した聴覚印象量と、臨場感推定値算出手段53が算出した臨場感推定値とを示す点99を、この相関図にプロットする。
以上のように、本発明の第1実施形態に係る聴覚印象量推定装置1は、聴覚印象量算出手段51が、確率分布モデルの全てのモデルデータのうち、聴取者の嗜好にマッチするモデルデータのみを抽出する。これによって、聴覚印象量推定装置1は、聴取者の嗜好を聴覚印象量の推定に反映させ、正確な聴覚印象量を提示することができる。さらに、聴覚印象量推定装置1は、この聴覚印象量の推定値から臨場感の推定値を算出するため、聴取者が実際に感じている臨場感を正確に提示することができる。
なお、聴覚印象量推定装置1の動作は、第2実施形態と同様のため、説明を後記する。
(第2実施形態)
[聴覚印象量推定装置の構成]
図8を参照し、本発明の第2実施形態に係る聴覚印象量推定装置1Aの構成について、第1実施形態と異なる点を説明する(適宜図1参照)。
聴覚印象量推定装置1Aは、i種類の音響分析値からj種類の聴覚印象量を算出することが、第1実施形態と異なる(但し、i>1、j>1を満たす整数)。このため、聴覚印象量推定装置1Aは、音響信号分析手段10Aと、設定パラメータ入力手段20と、聴覚印象量データベース30Aと、確率分布モデル抽出手段40Aと、聴覚印象量推定手段50Aとを備える。
なお、本実施形態では、互いに異なる音響分析値及び聴覚印象量が1対1で対応付けられた確率分布モデルを記憶することとする(つまり、i=j)。
音響信号分析手段10Aは、ラウドネス推定値、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅等の音響特徴量のうち、i種類を再生音場音響分析値として求める。
聴覚印象量データベース30Aは、評価用音響信号と、j種類の確率分布モデルPと、確率分布モデルP毎の重み係数Wと、コンテンツタイプとを記憶する。
つまり、聴覚印象量データベース30Aは、図8に示すように、1種類目の音響特徴量(音響分析値1)及び1種類目の聴覚印象量(聴覚印象量1)が対応付けられた確率分布モデルPを記憶する。
また、聴覚印象量データベース30Aは、2種類目の音響特徴量(音響分析値2)及び2種類目の聴覚印象量(聴覚印象量2)が対応付けられた確率分布モデルPを記憶する。
また、聴覚印象量データベース30Aは、3種類目の音響特徴量(音響分析値3)及び3種類目の聴覚印象量(聴覚印象量3)が対応付けられた確率分布モデルPを記憶する。
また、聴覚印象量データベース30Aは、4種類目の音響特徴量(音響分析値4)及び4種類目の聴覚印象量(聴覚印象量4)が対応付けられた確率分布モデルPを記憶する。
また、聴覚印象量データベース30Aは、i種類目の音響特徴量(音響分析値i)及びj種類目の聴覚印象量(聴覚印象量j)が対応付けられた確率分布モデルPを記憶する。
確率分布モデル抽出手段40Aは、j種類の確率分布モデルPのそれぞれの評価条件について、設定パラメータ入力手段20から入力された設定パラメータと、音響信号分析手段10Aから入力された再生音場音響分析値とを満たす抽出条件を生成する。
なお、各抽出条件の設定方法は、確率分布モデル抽出手段40と同様のため、説明を省略する。
聴覚印象量推定手段50Aは、聴覚印象量算出手段51Aと、臨場感推定値算出手段53Aと、聴覚印象量提示手段55Aとを備える。
聴覚印象量算出手段51Aは、j種類の確率分布モデルPのそれぞれから、抽出条件に一致するモデルデータを抽出し、抽出したモデルデータを参照して、j種類の聴覚印象量を算出する。
なお、聴覚印象量の算出方法は、聴覚印象量算出手段51と同様のため、説明を省略する。
臨場感推定値算出手段53Aは、聴覚印象量算出手段51Aが算出したj種類の聴覚印象量と、確率分布モデルP毎の重み係数Wとを乗じた値の合計を、臨場感推定値として算出する。
具体的には、臨場感推定値算出手段53Aは、1種類目の聴覚印象量と、確率分布モデルPの重み係数Wとの乗算値を算出する。また、臨場感推定値算出手段53Aは、2種類目の聴覚印象量と、確率分布モデルPの重み係数Wとの乗算値を算出する。また、臨場感推定値算出手段53Aは、3種類目の聴覚印象量と、確率分布モデルPの重み係数Wとの乗算値を算出する。また、臨場感推定値算出手段53Aは、4種類目の聴覚印象量と、確率分布モデルPの重み係数Wとの乗算値を算出する。また、臨場感推定値算出手段53Aは、j種類目の聴覚印象量と、確率分布モデルPの重み係数Wとの乗算値を算出する。そして、臨場感推定値算出手段53Aは、j個の乗算値を合計し、臨場感推定値を算出する。
<聴覚印象量及び臨場感推定値の提示>
図9,図10を参照し、聴覚印象量提示手段55Aによる聴覚印象量及び臨場感推定値の提示について、説明する。
聴覚印象量提示手段55Aは、聴覚印象量及び臨場感推定値を、グラフィカルな形式で提示する。ここでは、聴覚印象量として、「移動感」及び「広がり感」を求めたこととする。
図9に示すように、聴覚印象量提示手段55Aは、「移動感」と、「広がり感」と、臨場感推定値とを棒グラフ形式で提示してもよい。
また、図10に示すように、聴覚印象量提示手段55Aは、「移動感」と、「広がり感」と、臨場感推定値とを、レーダーチャート形式で提示してもよい。
[聴覚印象量推定装置の全体動作]
図11を参照し、図8の聴覚印象量推定装置1Aの全体動作について説明する(適宜図1参照)。
この図11では、聴覚印象量推定装置1Aは、入力された再生音場音響信号Aから、聴覚印象量及び臨場感推定値をリアルタイムで算出することとする。
聴覚印象量推定装置1Aは、音響信号分析手段10Aによって、再生音場音響信号Aを音響分析して、再生音場音響分析値を求める(ステップS1)。
聴覚印象量推定装置1Aは、確率分布モデル抽出手段40Aによって、設定パラメータが満たされる評価条件を、抽出条件として生成する(ステップS2)。
聴覚印象量推定装置1Aは、聴覚印象量算出手段51Aによって聴覚印象量を算出し、臨場感推定値算出手段53Aによって臨場感推定値を算出する(ステップS3)。
聴覚印象量推定装置1Aは、聴覚印象量提示手段55Aによって、リアルタイム処理中の聴覚印象量及び臨場感推定値を提示する(ステップS4)。
聴覚印象量推定装置1Aは、再生音場音響信号Aが末尾に達したか否かによって、全体処理を終了するか否かを判定する(ステップS5)。
再生音場音響信号Aが末尾に達していない場合(ステップS5でNo)、聴覚印象量推定装置1Aは、全体処理を終了しないと判定し、後記するカウンタci,cjをインクリメントし、ステップS1の処理に戻る。
再生音場音響信号Aが末尾に達した場合(ステップS5でYes)、聴覚印象量推定装置1Aは、全体処理を終了すると判定し、ステップS6の処理に進む。
聴覚印象量推定装置1Aは、聴覚印象量提示手段55Aによって、全体処理終了後の聴覚印象量及び臨場感推定値を提示する(ステップS6)。
[音響信号分析処理]
図12を参照し、図11の音響信号分析処理(ステップS1)について説明する(適宜図1参照)。
音響信号分析手段10Aは、再生音場音響信号Aから所定区間を切り出す(ステップS11)。
音響信号分析手段10Aは、過去に切り出した区間の再生音場音響信号Aを、図示を省略したメモリから読み出す(ステップS12)。
なお、音響信号分析手段10は、レベルの時間変化パターン等の音響特徴量を用いる場合、過去区間の再生音場音響信号Aが必要になるため、ステップS12の処理を行う。
音響信号分析手段10Aは、カウンタciが音響特徴量種類数N以下であるか否かを判定する(ステップS13)。
カウンタciが音響特徴量種類数N以下の場合(ステップS13でYes)、音響信号分析手段10Aは、ステップS14の処理に進む。
なお、音響特徴量種類数Nは、音響分析の対象となる音響特徴量の種類数を示しており、予め設定される(N=i)。
音響信号分析手段10Aは、ci個目の音響特徴量により再生音場音響分析値を算出する。そして、音響信号分析手段10Aは、ステップS11の処理に戻る(ステップS14)。
カウンタciが音響特徴量種類数Nを越える場合(ステップS13でNo)、音響信号分析手段10は、ステップS15の処理に進む。
音響信号分析手段10Aは、ステップS11で切り出した再生音場音響信号Aをメモリに記憶し、処理を終了する(ステップS15)。
つまり、音響信号分析手段10Aは、N種類の音響分析値を算出する。
[抽出条件生成処理]
図13を参照し、図11の抽出条件生成処理(ステップS2)について説明する(適宜図1参照)。
確率分布モデル抽出手段40Aは、カウンタciが、音響特徴量種類数N及びパラメータ設定種類数Mの加算値以下であるか否かを判定する(ステップS21)。
なお、パラメータ設定種類数Mは、設定パラメータに設定されたパラメータの種類数である。
カウンタciが加算値(N+M)以下の場合(ステップS21でYes)、確率分布モデル抽出手段40Aは、ステップS22の処理に進む。
確率分布モデル抽出手段40Aは、設定パラメータ及び音場音響分析値を満たすci番目の抽出条件を求める(ステップS22)。
確率分布モデル抽出手段40Aは、ci番目の抽出条件をメモリに記憶し、ステップS21の処理に戻る(ステップS23)。
カウンタciが加算値(N+M)を越える場合(ステップS21でNo)、確率分布モデル抽出手段40Aは、ステップS24の処理に進む。
確率分布モデル抽出手段40Aは、ステップS23で記憶した抽出条件を聴覚印象量推定手段50に出力する(ステップS24)。
[聴覚印象量・臨場感推定値算出処理]
図14を参照し、図11の聴覚印象量・臨場感推定値算出処理(ステップS3)について説明する(適宜図1参照)。
聴覚印象量推定手段50Aは、カウンタcjが聴覚印象種類数L以下であるか否かを判定する(ステップS31)。
カウンタcjが聴覚印象種類数L以下の場合(ステップS31でYes)、聴覚印象量推定手段50Aは、ステップS32の処理に進む。
聴覚印象種類数Lは、推定する聴覚印象の種類数を示している(L=j)。
聴覚印象量算出手段51Aは、確率分布モデルから、抽出条件に一致するモデルデータを抽出する(ステップS32)。
聴覚印象量算出手段51Aは、抽出したモデルデータを参照して、再生音場音響分析値に対応するj番目の聴覚印象量を算出し、ステップS31の処理に戻る(ステップS33)。
カウンタcjが聴覚印象種類数Lを超える場合(ステップS31でNo)、聴覚印象量推定手段50Aは、ステップS34の処理に進む。
臨場感推定値算出手段53Aは、L種類の聴覚印象量と、各聴覚印象量を算出した確率分布モデルの重み係数とを乗じた値を、臨場感推定値として算出する(ステップS34)。
以上のように、本発明の第2実施形態に係る聴覚印象量推定装置1Aは、複数の音響特徴量が1つの聴覚印象に寄与する場合でも、第1実施形態と同様、聴覚印象量及び臨場感を正確に提示することができる。
(第3実施形態)
図15を参照し、本発明の第3実施形態に係る聴覚印象量推定装置1Bについて、第1実施形態と異なる点を説明する。
聴覚印象量推定装置1Bは、音響信号類似度を提示することが第1実施形態と異なる。このため、聴覚印象量推定装置1Bは、音響信号分析手段10と、設定パラメータ入力手段(設定パラメータ入力手段)20と、聴覚印象量データベース30と、確率分布モデル抽出手段40と、聴覚印象量推定手段50と、音場再現度提示手段60とを備える。
音響信号分析手段10は、再生音場音響信号Aに加えて、実音場音響信号Bが入力される。そして、音響信号分析手段10は、再生音場音響信号Aと同様、実音場音響信号Bの音響特徴量を示す実音場音響分析値を、実音場音響信号Bから音響分析する。
この実音場音響信号Bは、実音場で収音された音響信号(再生対象となった音響空間で計測された音響信号)であり、例えば、コンサートホールでのオーケストラ生演奏を収音した音響信号である。
音場再現度提示手段60は、音響信号類似度を算出及び提示するものであり、音響信号類似度算出手段61と、音響信号類似度提示手段63とを備える。
音響信号類似度は、再生音場音響信号Aと実音場音響信号Bとの類似度を示し、音場がどの程度再現されているかを示す音場再現度と呼ばれることもある。
音響信号類似度算出手段61は、音響信号分析手段10から実音場評価対象信号と再生音場評価対象信号とが入力されると共に、再生音場評価対象信号と実音場評価対象信号との差に基づいて、音響信号類似度を算出する。そして、音響信号類似度算出手段61は、算出した音響信号類似度を後記する音響信号類似度提示手段63に出力する。
<第1例:音響信号類似度の算出、音響信号>
以下、図16を参照して、音響信号類似度算出手段61による音響信号類似度の算出について、第1例〜第3例を説明する(適宜図11参照)。
なお、図16では、再生音場音響信号Aを「音響信号A」と図示し、実音場音響信号Bを「音響信号B」と図示している。
この第1例は、実音場評価対象信号として実音場音響信号Bが入力され、再生音場評価対象信号として再生音場音響信号Aが入力された例である。この場合、音響信号類似度算出手段61は、下記の式(1)に示すように、実音場音響信号Bと再生音場音響信号Aとの差分絶対値を2乗した値を、実音場音響信号Bの2乗値で除算する。そして、音響信号類似度算出手段61は、この除算した値の平方根を求めて、音響信号類似度を算出する。つまり、音響信号類似度算出手段61は、実音場音響信号Bと再生音場音響信号Aとの差に基づいて、音響信号類似度を算出している。
Figure 0005961048
この式(1)では、sig(s)が実音場音響信号B(時系列のサンプルリングデータ)であり、sig(s)が再生音場音響信号A(時系列のサンプルリングデータ)であり、Errorが音響信号類似度である。
この第1例によれば、臨場感推定装置1は、簡易な演算処理で音響信号類似度を算出できる。
<第2例:音響信号類似度の算出、1種類の音響分析値>
この第2例は、実音場評価対象信号として1種類の実音場音響分析値(例えば、実音場音響信号Bのラウドネス)が入力され、再生音場評価対象信号として同種の再生音場音響分析値(例えば、再生音場音響信号Aのラウドネス)が入力された例である。
この場合、音響信号類似度算出手段61は、実音場音響分析値と再生音場音響分析値との差に基づいて、音響信号類似度を算出することができる。例えば、音響信号類似度算出手段61は、前記した式(1)において、sig(s)を実音場音響信号Bのラウドネスとし、sig(s)を再生音場音響信号Aのラウドネスとすることで、音響信号類似度を算出できる。
この第2例によれば、臨場感推定装置1は、簡易な演算処理で音響信号類似度を算出できる。
<第3例:音響信号類似度の算出、音響信号及び音響分析値の2種類以上>
この第3例は、実音場評価対象信号として2種類の実音場音響分析値(例えば、実音場音響信号Bのラウドネスと両耳間相互相関度)が入力され、再生音場評価対象信号として同種の再生音場音響分析値(例えば、再生音場音響信号Aのラウドネスと両耳間相互相関度)が入力された例である。
この場合、音響信号類似度算出手段61は、前記した式(1)を用いて、実音場音響分析値の種類ごとに音響信号類似度を算出する。そして、音響信号類似度算出手段61は、その音響信号類似度に実音場音響分析値の種類ごとに予め設定した係数を乗算した乗算値を求め、その乗算値を総和した値を音響信号類似度として算出する。
より具体的には、音響信号類似度算出手段61は、前記した式(1)において、sig(s)を実音場音響信号Bのラウドネスとし、sig(s)を再生音場音響信号Aのラウドネスとすることで、1種類目の音響信号類似度を算出する。この1種類目の音響信号類似度をError1とする。次に、音響信号類似度算出手段61は、前記した式(1)において、sig(s)を実音場音響信号Bの両耳相関度とし、sig(s)を再生音場音響信号Aの両耳相関度とすることで、2種類目の音響信号類似度を算出する。この2種類目の音響信号類似度をError2とする。そして、音響信号類似度算出手段61は、下記の式(2)に示すように、1種類目の音響信号類似度Error1に係数k1を乗算した乗算値を求め、2種類目の音響信号類似度Error2に係数k2を乗算した乗算値を求め、これら乗算値の総和を係数k1,k2の和で除算して、音響信号類似度Errorを算出する。
Figure 0005961048
2種類の音響分析値を用いる例を説明したが、音響信号類似度算出手段61は、音響信号と1種類の音響分析値(例えば、ラウドネス)とを組み合わせて、音響信号類似度を算出してもよい。具体的には、音響信号類似度算出手段61は、前記した第1例と同様に、音響信号同士の差による音響信号類似度を算出し、この音響信号類似度をError1とする。また、音響信号類似度算出手段61は、前記した第2例と同様に、ラウドネスの差による音響信号類似度を算出し、この音響信号類似度をError2とする。そして、音響信号類似度算出手段61は、前記した式(2)を用いて、音響信号と音響分析値とを組み合わせた音響信号類似度を算出する。
さらに、音響信号類似度算出手段61は、音響信号及び音響分析値を合わせて3種類以上組み合わせて、音響信号類似度を算出してもよい。具体的には、音響信号類似度算出手段61は、前記した式(1)を用いて、1種類目〜M種類目までの音響信号類似度を算出する。そして、音響信号類似度算出手段61は、下記の式(3)に示すように、1種類目〜M種類目までの音響信号類似度Error1〜ErrorMに、それぞれの係数k1〜kMを乗算した乗算値を求め、これら乗算値の総和を係数k1〜kMの和で除算して、音響信号類似度を算出する(但し、Mは3以上の整数)。
Figure 0005961048
この式(3)では、k1,k2〜kMは、聴取者によって予め設定される係数である。
この第3例によれば、臨場感推定装置1は、音響信号及び音響分析値を複数組み合わせることで、より正確な音響信号類似度を算出できる。
なお、第2例、第3例では、ラウドネス及び両耳相関度を用いる例を説明したが、これに限定されない。例えば、音響信号類似度算出手段61は、基本周波数の時間変化パターン、周波数特性、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間時間差、両耳間レベル差、または、両耳間相関関数の幅の差に基づいて、音響信号類似度を算出できる。
また、前記した第1例〜第3例の何れを用いるかは、例えば、聴取者が手動で設定する。
なお、前記した式(1)ないし式(3)のErrorを音響信号類似度とする例で説明したがこれに限定されない。例えば、音響信号類似度算出手段61は、前記した式(1)ないし式(3)で算出したErrorの値を用いて、(1−Error)×100という計算を行い、その計算結果を音響信号類似度としてもよい。これによって、後記する音響信号類似度提示手段63は、音響信号類似度の値を百分率で提示することができる。
以下、図1に戻り、臨場感推定装置1の構成について説明を続ける。
音響信号類似度提示手段63は、音響信号類似度算出手段61から音響信号類似度が入力され、入力された音響信号類似度を提示する。ここで、音響信号類似度提示手段63は、例えば、この音響信号類似度を0以上1以下の範囲内で正規化した後、グラフィカルな形式で提示する。
図13に示すように、音響信号類似度提示手段63は、音響信号類似度を棒グラフ形式で提示してもよい。
また、図14に示すように、音響信号類似度提示手段63は、音響信号類似度をレーダーチャート形式で提示してもよい。
以上のように、本発明の第3実施形態に係る聴覚印象量推定装置1Bは、第1実施形態と同様に加えて、音響特徴量の類似度を提示することで、より客観的な臨場感の評価を可能とする。
なお、第3実施形態では、第1実施形態に係る聴覚印象量推定装置1に音場再現度提示手段60を適用した例で説明したが、本発明は、これに限定されない。つまり、本発明は、第2実施形態に係る聴覚印象量推定装置1Aに音場再現度提示手段60を適用してもよい。
なお、第1実施形態では、「両耳間相互相関度」と「広がり感」とを対応付けた確率分布モデルを説明したが、本発明の確率分布モデルは、これに限定されない。
また、第2実施形態では、音響分析値及び聴覚印象量が1対1で対応付けられた確率分布モデルを説明したが、本発明の確率分布モデルは、これに限定されない。つまり、本発明は、条件付き確率として複数の音響分析値に、1つの音響分析値を対応付けた確率分布モデルを用いてもよい。
なお、第1〜第3実施形態では、臨場感推定値を算出することとて説明したが、本発明は、これに限定されない。つまり、本発明は、聴覚印象量のみを算出してもよく、聴覚印象量及び音響信号類似度を算出してもよい。
1 聴覚印象量推定装置
10 音響信号分析手段
20 設定パラメータ入力手段
30,30A 聴覚印象量データベース(データベース)
40,40A 確率分布モデル抽出手段(抽出条件生成手段)
50,40A 聴覚印象量推定手段
51,51A 聴覚印象量算出手段
53,53A 臨場感推定値算出手段
55,55A 聴覚印象量提示手段
60 音場再現度提示手段
61 音響信号類似度算出手段
63 音響信号類似度提示手段

Claims (6)

  1. 実音場での音を示す実音場音響信号が前記実音場と異なる再生音場で再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定する聴覚印象量推定装置であって、
    前記実音場音響信号を前記再生音場で再生した再生音場音響信号が入力され、入力された前記再生音場音響信号の音響特徴量である再生音場音響分析値を、当該再生音場音響信号を音響分析して求める音響信号分析手段と、
    前記聴取者に依存する設定パラメータとして、前記聴取者の嗜好及び聴取時間帯が入力される設定パラメータ入力手段と、
    被験者の嗜好及び聴取時間帯を少なくとも評価条件とし、前記評価条件毎に主観評価実験を行って前記聴覚印象量と前記音響特徴量とを予め対応付けた確率分布モデルを、記憶するデータベースと、
    前記評価条件と前記設定パラメータとの間で一致する嗜好及び聴取時間帯を少なくとも示すように、前記設定パラメータが満たされる評価条件を、抽出条件として生成する抽出条件生成手段と、
    前記確率分布モデルから、前記抽出条件に一致する聴覚印象量及び音響特徴量を抽出し、抽出した前記聴覚印象量及び前記音響特徴量に、当該音響特徴量の区間毎に予め設定された確率関数を適用することで、前記再生音場音響分析値に対応する聴覚印象量を算出する聴覚印象量算出手段と、
    を備えることを特徴とする聴覚印象量推定装置。
  2. 前記設定パラメータ入力手段は、さらに、前記設定パラメータとして、前記聴取者の心理状態及び興味の有無の少なくとも一つが入力され、
    前記データベースは、さらに、前記評価条件に前記被験者の心理状態及び興味の有無の少なくとも一つが含まれる前記確率分布モデルを記憶することを特徴とする請求項1に記載の聴覚印象量推定装置。
  3. 前記データベースは、さらに、前記評価条件に前記音響特徴量が含まれる前記確率分布モデルを記憶し、
    前記抽出条件生成手段は、前記設定パラメータ及び前記再生音場音響分析値を満たす評価条件を、前記抽出条件として生成することを特徴とする請求項1又は請求項2に記載の聴覚印象量推定装置。
  4. 前記聴覚印象量算出手段が算出した聴覚印象量と、当該聴覚印象量を算出した確率分布モデル毎に予め設定された重み係数とを乗じた値の合計を、臨場感の推定値として算出する臨場感推定値算出手段、
    をさらに備えることを特徴とする請求項1から請求項3の何れか一項に記載の聴覚印象量推定装置。
  5. 前記音響信号分析手段は、前記実音場音響信号が入力され、入力された前記実音場音響信号の音響特徴量である実音場音響分析値を、当該実音場音響信号を音響分析して求めると共に、前記実音場音響信号又は前記実音場音響分析値の少なくとも一方が含まれる実音場評価対象信号と、前記再生音場音響信号又は前記再生音場音響分析値の少なくとも一方が含まれる再生音場評価対象信号とを出力し、
    前記音響信号分析手段が出力した再生音場評価対象信号と実音場評価対象信号との差に基づいて、前記再生音場音響信号と前記実音場音響信号との類似度である音響信号類似度を算出する音響信号類似度算出手段、
    をさらに備えることを特徴とする請求項1から請求項4の何れか一項に記載の聴覚印象量推定装置。
  6. 実音場での音を示す実音場音響信号が前記実音場と異なる再生音場で再生されたときの、聴取者が感じた音の特徴の程度を示す聴覚印象量を推定するために、被験者の嗜好及び聴取時間帯を少なくとも評価条件とし、前記評価条件毎に主観評価実験を行って前記聴覚印象量と音響特徴量とを予め対応付けた確率分布モデルを記憶するデータベースが備えられるコンピュータを、
    前記実音場音響信号を前記再生音場で再生した再生音場音響信号が入力され、入力された前記再生音場音響信号の音響特徴量である再生音場音響分析値を、当該再生音場音響信号を音響分析して求める音響信号分析手段、
    前記聴取者に依存する設定パラメータとして、前記聴取者の嗜好及び聴取時間帯が入力される設定パラメータ入力手段、
    前記評価条件と前記設定パラメータとの間で一致する嗜好及び聴取時間帯を少なくとも示すように、前記設定パラメータが満たされる評価条件を、抽出条件として生成する抽出条件生成手段、
    前記確率分布モデルから、前記抽出条件に一致する聴覚印象量及び音響特徴量を抽出し、抽出した前記聴覚印象量及び音響特徴量に、当該音響特徴量の区間毎に予め設定された確率関数を適用することで、前記再生音場音響分析値に対応する聴覚印象量を算出する聴覚印象量算出手段、
    として機能させるための聴覚印象量推定プログラム。
JP2012141773A 2012-06-25 2012-06-25 聴覚印象量推定装置及びそのプログラム Expired - Fee Related JP5961048B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012141773A JP5961048B2 (ja) 2012-06-25 2012-06-25 聴覚印象量推定装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012141773A JP5961048B2 (ja) 2012-06-25 2012-06-25 聴覚印象量推定装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2014007556A JP2014007556A (ja) 2014-01-16
JP5961048B2 true JP5961048B2 (ja) 2016-08-02

Family

ID=50104932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012141773A Expired - Fee Related JP5961048B2 (ja) 2012-06-25 2012-06-25 聴覚印象量推定装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5961048B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6688179B2 (ja) * 2016-07-06 2020-04-28 日本放送協会 シーン抽出装置およびそのプログラム
JP7329640B1 (ja) 2022-02-18 2023-08-18 株式会社小野測器 サウンドデザインシステム
CN117135530B (zh) * 2023-10-26 2024-03-29 中科新声(苏州)科技有限公司 听音空间感知信息的获取方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008004576A1 (fr) * 2006-07-06 2008-01-10 Pioneer Corporation Dispositif de recherche/évaluation de contenu
JP4982860B2 (ja) * 2007-07-31 2012-07-25 学校法人 中央大学 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
JP2010118885A (ja) * 2008-11-13 2010-05-27 Nippon Hoso Kyokai <Nhk> 音響信号再生装置

Also Published As

Publication number Publication date
JP2014007556A (ja) 2014-01-16

Similar Documents

Publication Publication Date Title
Giannoulis et al. Detection and classification of acoustic scenes and events: An IEEE AASP challenge
McAdams et al. The psychomechanics of simulated sound sources: Material properties of impacted thin plates
Ranjard et al. Unsupervised bird song syllable classification using evolving neural networks
Chourdakis et al. A machine-learning approach to application of intelligent artificial reverberation
Lundén et al. On urban soundscape mapping: A computer can predict the outcome of soundscape assessments
Gontier et al. Estimation of the perceived time of presence of sources in urban acoustic environments using deep learning techniques
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN109147816B (zh) 对音乐进行音量调节的方法及设备
Olivieri et al. Audio information retrieval and musical acoustics
Mehrabi et al. Similarity measures for vocal-based drum sample retrieval using deep convolutional auto-encoders
JP5961048B2 (ja) 聴覚印象量推定装置及びそのプログラム
Schneider Pitch and pitch perception
Götz et al. Online reverberation time and clarity estimation in dynamic acoustic conditions
JP5941350B2 (ja) 聴覚印象量推定装置及びそのプログラム
Mo et al. An investigation into how reverberation effects the space of instrument emotional characteristics
CN109031202B (zh) 基于听觉场景分析的室内环境区域定位系统及方法
JP5658483B2 (ja) 臨場感推定装置およびそのプログラム
CN113297412A (zh) 音乐推荐方法、装置、电子设备和存储介质
Korhonen Modeling continuous emotional appraisals of music using system identification
Devaney Inter-versus intra-singer similarity and variation in vocal performances
JP4982860B2 (ja) 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
JP4240878B2 (ja) 音声認識方法及び音声認識装置
Liusong et al. Voice quality evaluation of singing art based on 1DCNN model
JP3584287B2 (ja) 音響評価方法およびそのシステム
Wang et al. The analysis and comparison of vital acoustic features in content-based classification of music genre

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160624

R150 Certificate of patent or registration of utility model

Ref document number: 5961048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees