JP2016057571A

JP2016057571A - 音響解析装置

Info

Publication number: JP2016057571A
Application number: JP2014186192A
Authority: JP
Inventors: 舞小池; Mai Koike; 英樹阪梨; Hideki Sakanashi; 隆一成山; Ryuichi Nariyama; 紀行畑; Noriyuki Hata
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-09-12
Filing date: 2014-09-12
Publication date: 2016-04-21
Also published as: WO2016039464A1

Abstract

【課題】音響の主観的な印象を適切に評価する。【解決手段】特徴抽出部２２は、歌唱音声Ｖの特徴指標Ｘnを抽出する。印象特定部２４は、参照音の聴覚印象を示す印象指標ｙmと当該参照音の音響特徴を示す特徴指標ｘnとを相互に対応させた複数の参照データｒ、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データＤCを利用して設定され、関係性記述データＤCで規定される対応関係における聴覚印象の印象指標Ｙmと複数種の音響特徴の特徴指標Ｘnとの関係を表現する関連式Ｆmに、特徴抽出部２２が抽出した特徴指標Ｘnを適用することで、歌唱音声Ｖの印象指標Ｙmを算定する。情報生成部３２は、印象特定部２４が特定した印象指標Ｙmに応じた提示データＱを生成する。提示処理部２６は、情報生成部３２が生成した提示データＱを利用者に提示する。【選択図】図１

Description

本発明は、音響を解析する技術に関する。

楽曲の歌唱を評価する技術が従来から提案されている。例えば特許文献１には、歌唱音声の音高に加えてビブラートや抑揚等の歌唱表現を加味して歌唱を評価する技術が開示されている。また、特許文献２には、歌唱音声の音高（基本周波数）や音量に応じて歌唱を評価する技術が開示されている。

特開２００５−１０７３３７号公報特開２０１３−０２０２６５号公報

しかし、特許文献１や特許文献２の技術では、模範的な歌唱を示す基準値と評価対象の歌唱音声の特徴量との差異のみに着目した歌唱の客観的な巧拙が解析されるに過ぎず、歌唱音声の受聴者が感取する主観的な印象を解析することはできない。なお、以上の説明では歌唱音声の評価を例示したが、楽器の演奏音や音響機器の再生音等の各種の音響についても、受聴者が感取する主観的な印象を解析できないという事情は同様に存在する。以上の事情を考慮して、本発明は、音響の主観的な印象を適切に評価することを目的とする。

以上の課題を解決するために、本発明の音響解析装置は、解析対象音の特徴指標を抽出する特徴抽出手段と、音響の聴覚印象を示す印象指標と当該音響の音響特徴を示す複数の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する印象特定手段と、印象特定手段が特定した印象指標に応じた提示データを生成する情報生成手段と、情報生成手段が生成した提示データを利用者に提示する提示処理手段とを具備する。以上の構成では、聴覚印象の印象指標と各音響特徴の特徴指標との関係を表現する関連式に解析対象音の各特徴指標を適用することで、解析対象音の主観的な印象を適切に評価することが可能である。また、印象特定手段が特定した印象指標に応じた提示データが利用者に提示されるから、印象指標の各数値自体を利用者に提示する構成と比較すると、利用者に好都合な態様で解析対象音の聴覚印象を提示できるという利点がある。

ところで、参照データの統計的な解析のみで関連式を設定する構成では、疑似相関（特定の特徴指標が実際には特定の聴覚印象に相関しないのに潜在的な要因によって恰も相関するかのように推測される見掛け上の関係）の影響で、実際には聴覚印象に相関しない特徴指標が当該聴覚印象に優勢に影響するような関連式が導出される可能性がある。本発明では、印象指標と特徴指標とを相互に対応させた複数の参照データに加え、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して関連式が設定される。したがって、参照データのみを利用して関連式を設定する構成と比較して、印象指標と複数の特徴指標との実際の相関を適切に反映した関連式（すなわち聴覚印象を適切に評価できる関連式）を設定できるという利点がある。

本発明の好適例に係る第１態様において、情報生成手段は、印象特定手段が特定した印象指標に応じた楽曲の関連情報を示す関連データを提示データとして生成する。以上の態様では、印象特定部が特定した印象指標に応じた楽曲の関連情報が利用者に提示されるから、解析対象音の聴覚印象（例えば歌唱スタイル）に対応した楽曲を利用者が把握できるという利点がある。

本発明の好適例に係る第２態様において、情報生成手段は、印象特定手段が特定した印象指標が示す聴覚印象を表象する画像を示す画像データを提示データとして生成する。以上の態様では、印象特定部が特定した聴覚印象を表象する画像（文字や記号を含む）が利用者に提示されるから、解析対象音の聴覚印象を利用者が直観的に把握できるという利点がある。第２態様の具体例において、印象特定手段は、解析対象音を時間軸上で区分した複数の単位区間の各々について印象指標を特定し、情報生成手段は、複数の単位区間の各々について当該単位区間の印象指標に応じた画像データを特定し、各単位区間の画像データの組合せで表現される画像を示す提示データを生成する。以上の態様では、各単位区間の印象指標に応じた画像を複数の単位区間について相互に組合せた画像が利用者に提示されるから、利用者に提示される画像が多様化されて興趣性を高めることが可能である。

本発明の好適例に係る第３態様において、情報生成手段は、印象特定手段が特定した印象指標に応じて、解析対象音の発声者の性状を示す性状データを提示データとして生成する。以上の態様では、解析対象音の印象指標から推定される当該解析対象音の発声者の性状が利用者に提示される。なお、利用者の性状とは、利用者の性質（気質，性格）や状態（例えば精神的または肉体的な状況）を意味する。第３態様の具体例において、情報生成手段は、印象特定手段が解析対象音の発声者について順次に特定した印象指標の時系列に応じて、当該発声者の性状を示す性状データを特定する。以上の態様では、聴覚印象の時間変化を加味した性状を推定できるという利点がある。

以上の各態様に係る音響解析装置は、専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、以上の各態様に係る音響解析装置の動作方法（音響解析方法）としても本発明は特定される。

本発明の第１実施形態に係る音響解析装置の構成図である。関係性記述データで規定される聴覚印象と音響特徴との対応関係の説明図である。歌唱音声を解析する動作のフローチャートである。第２実施形態に係る音響解析装置の構成図である。第２実施形態の変形例の説明図である。第３実施形態に係る音響解析装置の構成図である。第３実施形態における性状推定の説明図である。第３実施形態における性状推定の説明図である。解析結果の表示例である。変形例に係る音響解析装置の構成図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響解析装置１００Aの構成図である。第１実施形態の音響解析装置１００Aは、演算処理装置１０と記憶装置１２と入力装置１４と収音装置１６と表示装置１８とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置１００Aとして利用され得る。

収音装置１６は、周囲の音響を収音する機器（マイクロホン）である。第１実施形態の収音装置１６は、利用者が楽曲を歌唱した歌唱音声Ｖを収音する。音響解析装置１００Aは、楽曲の伴奏音と歌唱音声Ｖとを混合して再生するカラオケ装置としても利用され得る。なお、収音装置１６が収音した歌唱音声Ｖの信号をアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。

表示装置１８（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１４は、音響解析装置１００Aに対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置１８と一体に構成されたタッチパネルを入力装置１４として利用することも可能である。記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。

第１実施形態の音響解析装置１００Aは、収音装置１６が収音した歌唱音声Ｖを解析する信号処理装置である。演算処理装置１０は、記憶装置１２に記憶されたプログラムを実行することで、歌唱音声Ｖを解析するための複数の機能（特徴抽出部２２，印象特定部２４，提示処理部２６，関連式設定部４０，情報生成部３２）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、演算処理装置１０の機能の一部を専用の電子回路が実現する構成も採用され得る。

特徴抽出部２２は、収音装置１６が収音した歌唱音声Ｖを解析することで、相異なる種類の音響特徴を示す複数（Ｎ個）の特徴指標Ｘ1〜ＸNを抽出する（Ｎは自然数）。音響特徴は、歌唱音声Ｖの受聴者が感取する聴感的な印象（以下「聴覚印象」という）に影響する歌唱音声Ｖの音響的な特徴を意味する。具体的には、音高（ピッチ）の安定度，ビブラートの深度（音高の振幅），周波数特性等の多様な音響特徴の各々を数値化した特徴指標Ｘn（ｎ＝１〜Ｎ）が歌唱音声Ｖから抽出される。第１実施形態の特徴抽出部２２が抽出するＮ個の特徴指標Ｘ1〜ＸNの数値範囲は共通する。以上の説明から理解される通り、聴覚印象は、歌唱音声Ｖの受聴者が感取する主観的ないし感覚的な特徴（印象）を意味し、音響特徴は、歌唱音声Ｖの解析で抽出される客観的ないし物理的な特徴（特性）を意味する。

印象特定部２４は、特徴抽出部２２が抽出したＮ個の特徴指標Ｘ1〜ＸNを利用して歌唱音声Ｖの聴覚印象を特定する。第１実施形態の印象特定部２４は、歌唱音声Ｖの相異なる聴覚印象を示す複数（Ｍ個）の印象指標Ｙ1〜ＹMを算定する（Ｍは自然数）。第１実施形態における任意の１個の印象指標Ｙm（ｍ＝１〜Ｍ）は、相互に対立する２種類の印象の程度を数値化した指標である。具体的には、長幼（大人っぽい／子供っぽい），明暗（明るい／暗い），清濁（清らかで透明感がある／嗄れて濁っている）等の多様な聴覚印象の各々を数値化した印象指標Ｙmが特定される。例えば長幼に関する１個の印象指標Ｙmが正数の範囲で大きいほど大人っぽい音声を意味し、当該印象指標Ｙmが負数の範囲で小さいほど子供っぽい音声を意味する。

Ｎ個の特徴指標Ｘ1〜ＸNに応じた印象指標Ｙm（Ｙ1〜ＹM）の算定には、印象指標Ｙm毎に事前に設定された演算式（以下「関連式」という）Ｆmが利用される。任意の１個の関連式Ｆmは、印象指標ＹmとＮ個の特徴指標Ｘ1〜ＸNとの関係を表現する演算式である。第１実施形態の関連式Ｆmは、以下に例示される通り、Ｎ個の特徴指標Ｘ1〜ＸNの一次式で各印象指標Ｙmを表現する。

以上に例示した関連式Ｆmの係数ａnm（ａ11〜ａNM）は、特徴指標Ｘnと印象指標Ｙmとの相関の度合に応じた定数（特徴指標Ｘnに対する印象指標Ｙmの勾配）であり、係数ｂm（ｂ1〜ｂM）は所定の定数（切片）である。係数ａnmは、印象指標Ｙmに対する特徴指標Ｘnの寄与度（加重値）とも換言され得る。印象特定部２４は、特徴抽出部２２が抽出したＮ個の特徴指標Ｘ1〜ＸNを関連式Ｆ1〜ＦMの各々に適用することで、相異なる聴覚印象に対応するＭ個の印象指標Ｙ1〜ＹMを算定する。第１実施形態の印象特定部２４は、各特徴指標Ｘnから算定したＭ個の印象指標Ｙ1〜ＹMに応じた歌唱スタイル情報Ｓを生成する。具体的には、Ｍ個の印象指標Ｙ1〜ＹMを要素とするＭ次元のベクトルが歌唱スタイル情報Ｓとして生成される。以上の説明から理解される通り、歌唱スタイル情報Ｓは、歌唱音声ＶのＭ種類の聴覚印象（受聴者が感取する主観的な歌唱スタイル）を総合的に表現する。なお、第１実施形態では前述の通り線形システムを例示するが、隠れマルコフモデルやニューラルネットワーク（多層パーセプトロン）等の非線形システムを印象指標Ｙm（Ｙ1〜ＹM）の算定に利用することも可能である。

図１の関連式設定部４０は、各聴覚印象の印象指標Ｙmの算定に利用される関連式Ｆm（Ｆ1〜ＦM）を設定する。図１に例示される通り、第１実施形態の記憶装置１２には、参照データ群ＤRと関係性記述データＤCとが格納される。関連式設定部４０は、参照データ群ＤRと関係性記述データＤCとを利用してＭ個の関連式Ｆ1〜ＦMを設定する。

参照データ群ＤRは、複数の参照データｒの集合（データベース）である。参照データ群ＤRに包含される複数の参照データｒは、不特定多数の発声者が発音した音声（以下「参照音」という）を利用して事前に生成される。例えば任意の発声者が任意の楽曲を歌唱した音声が参照音として収録されて参照データｒの生成に利用される。図１に例示される通り、任意の１個の参照データｒは、参照音の各印象指標ｙm（ｙ1〜ｙM）と当該参照音の特徴指標ｘn（ｘ1〜ｘN）とを相互に対応させたデータである。印象指標ｙmは、参照音の受聴者が実際に感取した聴覚印象に応じた数値に設定され、特徴指標ｘnは、特徴抽出部２２と同様の処理で参照音から抽出された音響特徴の数値に設定される。すなわち、各参照データｒは、印象指標ｙmと特徴指標ｘnとの関係を実際に観測した資料（学習データ）に相当する。

関係性記述データＤCは、聴覚印象と複数の音響特徴との間の対応関係（相関関係）を規定する。図２は、第１実施形態の関係性記述データＤCで規定される対応関係を例示する説明図である。図２に例示される通り、第１実施形態の関係性記述データＤCは、相異なる印象指標Ｙmに対応するＭ種類の聴覚印象ＥY（ＥY1〜ＥYM）の各々について、当該聴覚印象ＥYmに影響する複数種の音響特徴ＥXとの対応関係λm（λ1〜λM）を規定する。図２には、長幼と清濁と明暗との３種類の聴覚印象ＥY1〜ＥY3の各々について複数種の音響特徴ＥXとの対応関係λ1〜λ3が例示されている。

各聴覚印象ＥYmに相関する音響特徴ＥXの具体的な内容は以下の通りである。以下に例示する各音響特徴ＥXの数値が前述の特徴指標Ｘnに相当する。
・音高の安定度：時間的な音高の微小変化（揺らぎ）の度合
・立上がりの速度：発音直後の音量の増加の度合
・フォール：音高を基準値（音符の音高）から低下させる歌唱表現の度合（例えば回数）
・しゃくり：音高を基準値から経時的に上昇させる歌唱表現の度合（例えば回数）
・ビブラートの深度：ビブラートにおける音高の変化の度合（例えば振幅や回数）
・輪郭：音響の明瞭性の度合。例えば、低域成分に対する高域成分の音量比が好適。
・滑舌：音響特性の時間的な変化の度合。例えば、周波数特性（例えばホルマント周波数や基本周波数）の時間的な変化の度合（典型的には時間変化率）が好適。
・アタック：発音直後の音量
・クレッシェンド：音量の経時的な増加の度合
・周波数特性：周波数スペクトルの形状
・高次倍音：高次側（高域側）の倍音成分の強度

図２に例示される通り、第１実施形態の関係性記述データＤCが任意の１種類の聴覚印象ＥYmについて規定する対応関係λmは、当該聴覚印象ＥYmに関連する複数種の中間要素ＥZを聴覚印象ＥYmと各音響特徴ＥXとの間に介在させた階層関係（階層構造）である。１種類の聴覚印象ＥYmに関連する複数種の中間要素ＥZは、当該聴覚印象ＥYmを受聴者に知覚させる要因となる印象や当該聴覚印象ＥYmを複数に細分化した印象に相当する。任意の１個の中間要素ＥZには、当該中間要素ＥZに影響する複数種の音響特徴ＥXが対応付けられる。

関係性記述データＤCで規定される各対応関係λmは、例えば、音楽や音声（歌唱）に関する専門的な知識が豊富な識者（例えば音楽の制作者または指導者や歌手等）に対する調査（インタビューやアンケート）により、各聴覚印象ＥYmと各音響特徴ＥXとの間の相関（どのような音響特徴ＥXの音声から受聴者が如何なる聴覚印象ＥYmを感取する傾向があるのか）を解析することで構築される。対応関係λmの構築には、評価グリッド法等に代表される公知の調査手法が任意に採用され得る。

以上に説明した関係性記述データＤCは、対応関係λmに包含される各要素（音響特徴ＥX，中間要素ＥZ，聴覚印象ＥYm）の相互的な関係（連結）のみを規定し、各要素間の相関の度合については規定されない。以上の観点からすると、関係性記述データＤCで規定される各対応関係λmは、現実に不特定多数の発声者から収集した参照音から観測される音響特徴ＥXと聴覚印象ＥYmとの実際の相関（すなわち、現実の参照音の傾向が反映された参照データ群ＤRから統計的に観測される各印象指標ｙmと各特徴指標ｘnとの実際の関係）までは反映されていない仮説的な関係であると言える。

以上に説明した参照データ群ＤRと関係性記述データＤCとが事前に作成されて記憶装置１２に格納される。図１の関連式設定部４０は、記憶装置１２に格納された参照データ群ＤRと関係性記述データＤCとを利用してＭ個の関連式Ｆ1〜ＦMを設定する。すなわち、関連式設定部４０は、関係性記述データＤCが規定する各対応関係λmのもとで聴覚印象ＥYmの印象指標Ｙmと音響特徴ＥXの各特徴指標Ｘnとの関係を表現する関連式Ｆmを、Ｍ個の印象指標Ｙ1〜ＹMの各々について設定する。具体的には、参照データ群ＤRの複数の参照データｒにおける印象指標ｙmと特徴指標ｘnとの相関の度合を関係性記述データＤCの対応関係λmに反映した関係が関連式Ｆmで表現されるように、関連式設定部４０は、各関連式ＦmのＮ個の係数ａ1m〜ａNmと１個の係数ｂmとを設定する。関連式設定部４０による各関連式Ｆmの設定には、例えば、構造方程式モデリング（SEM：Structural Equation Modeling）や多変量解析（例えば重回帰分析）等の公知の統計処理が任意に採用され得る。なお、図２の例示から理解される通り、関係性記述データＤCで表現される対応関係λmのもとで聴覚印象ＥYmとの相関が規定される音響特徴ＥXの種類や総数は、実際には聴覚印象ＥYm毎に相違するが、前掲の各関連式Ｆmに包含される特徴指標Ｘnの種類や総数はＭ個の関連式Ｆ1〜ＦMにわたり共通する。対応関係λmのもとで聴覚印象ＥYmとの相関が規定されていない音響特徴ＥXの特徴指標Ｘnに対応する係数ａnmは、関連式Ｆmにてゼロに設定される（すなわち、当該特徴指標Ｘnは印象指標Ｙmに影響しない）。

以上の手順で関連式設定部４０が設定したＭ個の関連式（例えば構造方程式や重回帰式）Ｆ1〜ＦMは記憶装置１２に格納される。具体的には、Ｎ個の係数ａ1m〜ａNmと１個の係数ｂmとがＭ個の関連式Ｆ1〜ＦMの各々について記憶装置１２に格納される。前述の通り、印象特定部２４は、関連式設定部４０が設定したＭ個の関連式Ｆ1〜ＦMの各々にＮ個の特徴指標Ｘ1〜ＸNを適用することでＭ種類の印象指標Ｙ1〜ＹMを算定する。

以上に説明した通り、第１実施形態では、歌唱音声Ｖから抽出される各特徴指標Ｘnと歌唱音声Ｖの聴覚印象を示す印象指標Ｙmとの関係を規定する関連式Ｆmを利用して、歌唱音声Ｖの聴覚印象（印象指標Ｙ1〜ＹM）が特定される。したがって、例えば模範的な歌唱を示す基準値と歌唱音声Ｖの特徴指標Ｘnとの差異のみに着目して歌唱の巧拙を評価する技術と比較して、歌唱音声Ｖの受聴者が実際に感取する主観的な印象を適切に評価することが可能である。

ところで、参照データ群ＤRの複数の参照データｒのみを解析することで印象指標ｙmと特徴指標ｘnとの相関の傾向を統計的に解析して関連式Ｆmを設定する構成（以下「対比例」という）も想定され得る。すなわち、対比例では関連式Ｆmの設定に関係性記述データＤCが利用されない。しかし、対比例では、実際には聴覚印象ＥYmに相関しない特定の音響特徴ＥXが潜在的な要因に起因して恰も聴覚印象ＥYmに相関するかのように認識される見掛け上の関係（疑似相関）の影響で、実際には印象指標Ｙmに相関しない特徴指標Ｘnが当該印象指標Ｙmに優勢に影響するような関連式Ｆmが導出される可能性がある。他方、第１実施形態では、各聴覚印象ＥYmと各音響特徴ＥXとの仮説的な対応関係λmを規定する関係性記述データＤCが参照データ群ＤRとともに関連式Ｆmの設定に利用されるから、聴覚印象ＥYmと音響特徴ＥXとの疑似相関の影響が低減（理想的には排除）される。したがって、聴覚印象ＥYmと各音響特徴ＥXとの実際の相関を適切に表現した関連式Ｆmを設定できるという利点がある。第１実施形態では、聴覚印象ＥYmに関連する複数の中間要素ＥZを介した聴覚印象ＥYmと各音響特徴ＥXとの対応関係λmが関係性記述データＤCで規定されるから、聴覚印象ＥYmと各音響特徴ＥXとを直接的に相関させた構成（対応関係λmが聴覚印象ＥYmおよび音響特徴ＥXのみを包含する構成）と比較して、聴覚印象ＥYmと各音響特徴ＥXとの実際の相関を関連式Ｆmで適切に表現できるという前述の効果は格別に顕著である。

図１の情報生成部３２は、印象特定部２４が第１実施形態と同様に特定した聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）に応じた提示データＱを生成する。すなわち、情報生成部３２は、Ｍ個の印象指標Ｙ1〜ＹMを提示データＱに変換する要素とも換言され得る。第１実施形態の提示処理部２６は、情報生成部３２が生成した提示データＱを利用者に提示する。具体的には、提示処理部２６は、提示データＱの内容を表示装置１８に表示させる。

第１実施形態の情報生成部３２は、印象特定部２４が特定したＭ個の印象指標Ｙ1〜ＹM（歌唱スタイル情報Ｓ）に応じた楽曲の関連データｄAを提示データＱとして生成する。具体的には、情報生成部３２は、Ｍ個の印象指標Ｙ1〜ＹMに応じた楽曲を複数の候補から検索し、当該楽曲の関連データｄAを取得する。関連データｄAは、楽曲に関連する情報である。例えば、楽曲の識別情報（例えば楽曲番号）のほか楽曲名や歌手名やジャンル等の属性情報が関連データｄAに包含される。

情報生成部３２による楽曲の検索（関連データｄAの生成）には、記憶装置１２に記憶された検索用データＷAが利用される。検索用データＷAは、歌唱スタイル情報Ｓ（Ｍ個の印象指標Ｙ1〜ＹM）と楽曲との関係を規定する。具体的には、第１実施形態の検索用データＷAは、相異なる歌唱スタイルに対応する複数のクラスＣL（ＣL1，ＣL2，……）の各々について楽曲の関連データｄA（ｄA1，ｄA2，……）を指定する。

具体的には、任意の楽曲の歌唱音声Ｖから生成された多数の歌唱スタイル情報Ｓが複数のクラスＣLに分類され、任意の１個のクラスＣLに分類された各歌唱スタイル情報Ｓの歌唱音声Ｖにて例えば歌唱回数が最多である１個の楽曲の関連データｄAが検索用データＷAにて当該クラスＣLに指定される。すなわち、任意の１種類の歌唱スタイルに対応するクラスＣLについては、多数の歌唱者が当該歌唱スタイルで歌唱する傾向がある楽曲の関連データｄAが指定される。歌唱スタイル情報Ｓの分類には公知の統計処理（クラスタリング）が任意に採用され、複数のクラスＣLは、例えば、各クラスＣLに属する歌唱スタイル情報Ｓの分布を近似する混合正規分布で表現される。

情報生成部３２は、検索用データＷAに登録された複数のクラスＣLのうち印象特定部２４が生成した歌唱スタイル情報Ｓ（Ｍ個の印象指標Ｙ1〜ＹM）が属する１個のクラスＣLを特定し、検索用データＷAにて当該クラスＣLに指定された楽曲の関連データｄAを提示データＱとして選択する。提示処理部２６は、情報生成部３２が生成した提示データＱ（関連データｄA）を表示装置１８に表示させる。すなわち、楽曲の識別情報や属性情報が表示装置１８に表示される。以上の説明から理解される通り、歌唱音声Ｖと同様の歌唱スタイルで多数の歌唱者が歌唱する傾向がある楽曲（すなわち、歌唱音声Ｖと同様の歌唱スタイルで歌唱し易い楽曲）が利用者に提示される。

また、第１実施形態の情報生成部３２は、収音装置１６が収音した歌唱音声Ｖを利用して検索用データＷAを更新することが可能である。具体的には、情報生成部３２は、任意の１個の楽曲の歌唱音声Ｖから生成された歌唱スタイル情報Ｓを当該楽曲の関連データｄAとともに記憶装置１２に順次に蓄積し、記憶装置１２に蓄積された歌唱スタイル情報Ｓと関連データｄAの関係が反映されるように例えば公知の機械学習により検索用データＷAを更新する。以上の説明から理解される通り、第１実施形態では、楽曲自体の特性（曲調等）を基準に楽曲が検索されるのではなく、多数の歌唱者が過去に歌唱した歌唱スタイルを基準に楽曲が検索される。例えば、歌唱音声Ｖの聴覚印象が「情熱的で明るい音声」であれば、同様に「情熱的で明るい音声」の歌唱スタイルで多数の歌唱者が過去に歌唱した楽曲が検索される。

図３は、提示データＱを生成する動作のフローチャートである。例えば入力装置１４に対する利用者からの操作（解析開始の指示）を契機として図３の処理が開始される。図３の処理を開始すると、特徴抽出部２２は、収音装置１６が収音した歌唱音声Ｖを取得し（Ｓ1）、歌唱音声Ｖのうち解析区間の音響特徴を示すＮ個の特徴指標Ｘ1〜ＸNを抽出する（Ｓ2）。解析区間は、歌唱音声Ｖのうち聴覚印象の解析対象となる区間であり、例えば歌唱音声Ｖの全区間または一部の区間（例えばサビ区間）である。印象特定部２４は、特徴抽出部２２が抽出したＮ個の特徴指標Ｘ1〜ＸNを各関連式Ｆmに適用することでＭ個の印象指標Ｙ1〜ＹMを算定する（Ｓ3）。情報生成部３２は、Ｍ個の印象指標Ｙ1〜ＹMに応じた楽曲を検索用データＷAから検索し、当該楽曲の関連データｄAを提示データＱとして特定する（Ｓ4）。提示処理部２６は、情報生成部３２が生成した提示データＱを表示装置１８に表示させる（Ｓ5）。

ところで、利用者の要求に適合する楽曲を検索する技術は従来から提案されている。例えば特開２０１１−１９７３４５号公報には、利用者が指定したキーワードに対応する楽曲を検索して利用者に提示する技術が開示されている。しかし、以上の技術では、利用者が指定したキーワードに形式的に関連する楽曲が検索されるに過ぎない。第１実施形態では、印象特定部２４が特定した歌唱音声Ｖの聴覚印象（歌唱スタイル）に応じた楽曲が利用者に提示されるから、歌唱音声Ｖを発声した利用者が自身の歌唱スタイルに適合する楽曲（自身の歌唱スタイルで歌唱し易い楽曲）を認識できるという利点がある。

＜第１実施形態の変形例＞
（１）以上の説明では、歌唱スタイル情報Ｓの複数のクラスＣLの各々について検索用データＷAが１個の楽曲を指定する構成を例示したが、任意の１個のクラスＣLについて、当該クラスＣLに分類された歌唱スタイルの各歌唱音声Ｖにて歌唱された複数の楽曲の関連データｄAを指定することも可能である。情報生成部３２は、印象特定部２４が特定した歌唱スタイル情報Ｓが属する１個のクラスＣLに指定された複数の楽曲の関連データｄAを提示データＱとして生成する。すなわち、歌唱音声Ｖと同様の歌唱スタイルで歌唱される傾向がある複数の楽曲が利用者に提示される。

（２）歌唱スタイル情報Ｓが属する１個のクラスＣLに指定された複数の楽曲のうち１個の楽曲の関連データｄAを選択的に提示することも可能である。１個のクラスＣLに指定された複数の楽曲から１個の楽曲を選択する条件は任意であるが、例えば、当該クラスＣLに分類された各歌唱音声Ｖでの歌唱回数が最多である楽曲を選択する構成や、当該クラスＣLに指定された複数の楽曲のうち利用者からの指示（例えば利用者が指定した「９０年代」等の選択条件や利用者の年齢等の属性情報）に応じた１個の楽曲を選択する構成が好適である。

（３）歌唱音声Ｖの歌唱スタイル情報Ｓと当該歌唱音声Ｖの楽曲との関係が反映されるように検索用データＷAを随時に更新することも可能である。もっとも、聴覚印象が適切でない歌唱音声Ｖの歌唱スタイル情報Ｓが検索用データＷAに反映されると、楽曲の適切な検索が阻害される可能性がある。そこで、検索用データＷAに反映させる歌唱スタイル情報Ｓを選別する構成が好適である。例えば、歌唱音声Ｖの実際の聴覚印象の適否を利用者（発声者や受聴者）が入力装置１４の操作で指定し、聴覚印象が適切と判定された歌唱音声Ｖについては歌唱スタイル情報Ｓと楽曲との関係が検索用データＷAに反映され、聴覚印象が不適切と判定された歌唱音声Ｖの歌唱スタイル情報Ｓは検索用データＷAに反映されない。以上の構成によれば、多数の歌唱者の歌唱スタイルを反映した検索用データＷAを生成できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図４は、第２実施形態の音響解析装置１００Bの構成図である。図４に例示される通り、第２実施形態の音響解析装置１００Bは、第１実施形態の音響解析装置１００A（図１）と同様の要素を含んで構成される。特徴抽出部２２によるＮ個の特徴指標Ｘ1〜ＸNの抽出と、印象特定部２４によるＭ個の印象指標Ｙ1〜ＹMの特定と、関連式設定部４０によるＭ個の関連式Ｆ1〜ＦMの設定とは、第１実施形態と同様である。したがって、第２実施形態においても、第１実施形態と同様に、歌唱音声Ｖの受聴者が実際に感取する主観的な印象を適切に評価できるという効果が実現される。

第２実施形態の記憶装置１２は、聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）を表象する複数の画像データｄBを記憶する。各画像データｄBは、聴覚印象を比喩的ないし模式的に表象する画像（記号や文字を含む）を表現する。例えば、印象特定部２４が特定した聴覚印象に適合したキャラクタ（動物等）や有名人等の画像が画像データｄBとして好適である。第１実施形態の情報生成部３２は、記憶装置１２に記憶された複数の画像データｄBのうち印象特定部２４が特定した聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）を表象する画像データｄBを提示データＱとして選択する。情報生成部３２による画像データｄBの選択には、記憶装置１２に記憶された変換用データＷBが利用される。

変換用データＷBは、Ｍ個の印象指標Ｙ1〜ＹM（歌唱スタイル情報Ｓ）と画像データｄBとの関係を規定する。具体的には、変換用データＷBは、Ｍ個の印象指標Ｙ1〜ＹMと画像データｄBとの相関を規定する構造方程式を表現する。各構造方程式の設定には、第１実施形態で例示したＭ個の関連式Ｆ1〜ＦMの設定と同様に、例えば構造方程式モデリング（SEM）が好適に利用される。すなわち、例えば、Ｍ個の印象指標Ｙ1〜ＹMと画像データｄBとを相互に対応させた複数の学習データ（学習データ）と、Ｍ種類の聴覚印象と画像データｄBとの対応関係を規定する関係性記述データとを利用した構造方程式モデリングで、Ｍ個の印象指標Ｙ1〜ＹMと画像データｄBとの関係を規定する構造方程式が事前に設定され、変換用データＷBとして記憶装置１２に格納される。例えば、長幼に関する印象指標Ｙmが子供っぽい音声を示す場合には子供っぽいキャラクタの画像を示す画像データｄBが生成され、明暗に関する印象指標Ｙmが明るい音声を示す場合には明るい表情のキャラクタの画像を示す画像データｄBが生成されるように、変換用データＷBが設定および記憶される。

情報生成部３２は、印象特定部２４が特定したＭ個の印象指標Ｙ1〜ＹMを変換用データＷBの構造方程式に適用することで画像データｄBを特定し、記憶装置１２に記憶された当該画像データｄBを提示データＱとして取得する。提示処理部２６は、情報生成部３２が生成した提示データＱを表示装置１８に表示させる。以上の説明から理解される通り、歌唱音声Ｖの聴覚印象（歌唱スタイル）を比喩的または模式的に表象する画像が表示装置１８に表示される。利用者は、表示装置１８に表示された画像を視認することで、歌唱音声Ｖの聴覚印象を視覚的および直観的に把握することが可能である。

ところで、例えば特開２００２−０４１０６３号公報には、楽曲名や歌唱回数や採点結果等の情報に応じたキャラクタの画像を表示する技術が開示されている。しかし、以上の技術では、歌唱音声の聴覚印象とは無関係な画像が表示されるに過ぎない。第２実施形態では、印象特定部２４が特定した歌唱音声Ｖの聴覚印象に応じた画像（歌唱スタイルを表象する画像）が提示されるから、歌唱音声Ｖの聴覚印象を利用者が直観的に把握できるという利点や利用者に興趣性を提供できるという利点がある。

なお、単純に歌唱音声Ｖの特性に応じた画像データｄBを選択するならば、歌唱音声Ｖの各特徴指標Ｘnと画像データｄBとの間の直接的な関係を事前に決定し、特徴抽出部２２が抽出した各特徴指標Ｘnに応じた画像データｄBを選択する構成も想定され得る。しかし、各特徴指標Ｘnの具体的な数値が何れの聴覚印象に対応するのかを把握することは困難であるから、歌唱音声Ｖの聴覚印象を表象する画像データｄBを特徴指標Ｘnに適切に対応させることは実際には困難である。第２実施形態では、聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）と画像データｄBとの関係が変換用データＷBで規定されるから、各聴覚印象に相応しい画像データｄBを変換用データＷBにて各印象指標Ｙmに対応させることが可能である。また、関連式Ｆ1〜ＦMとは独立に、聴覚印象と画像データｄBとの関係を変更できるという利点もある。

＜第２実施形態の変形例＞
（１）歌唱音声Ｖの聴覚印象に応じた複数の画像データｄBを提示データＱとして生成することも可能である。具体的には、記憶装置１２に記憶された複数の画像データｄBが複数（Ｋ個）のグループ（カテゴリ）に分類され、相異なるグループから選択したＫ個の画像データｄBを含む提示データＱを情報生成部３２が生成する。図５に例示される通り、各グループは、特定の物品を構成する各要素に対応する。例えば、「トッピング」と「クリーム」と「ベース」とを要素として構成される「ケーキ」を想定すると（Ｋ＝３）、「トッピング」の各画像を示す複数の画像データｄBと、「クリーム」の各画像を示す複数の画像データｄBと、「ベース」の各画像を示す複数の画像データｄBとが記憶装置１２に記憶される。

特徴抽出部２２によるＮ個の特徴指標Ｘ1〜ＸNの抽出と印象特定部２４によるＭ個の印象指標Ｙ1〜ＹMの特定とが、歌唱音声Ｖを時間軸上で区分したＫ個の単位区間の各々について順次に実行される。歌唱音声Ｖを複数の単位区間に区分する方法は任意であるが、例えば図５に例示される通り、楽曲の音楽的な意味に応じて歌唱音声Ｖを複数の単位区間（Ａ〜Ｃメロ，サビ１，サビ２）に区分することが可能である。Ｋ個の単位区間の各々は画像データｄBの１個のグループに対応する。情報生成部３２は、歌唱音声ＶのＫ個の単位区間の各々について、当該単位区間に対応するグループの複数の画像データｄBのうち当該単位区間のＭ個の印象指標Ｙ1〜ＹMに応じた１個の画像データｄBを選択する。すなわち、歌唱音声Ｖの単位区間毎に１個の画像データｄBが選択され、最終的には、相異なる単位区間に対応するＫ個の画像データｄBを含む提示データＱが生成される。具体的には、歌唱音声Ｖのうち「Ａ〜Ｃメロ」の単位区間から特定されたＭ個の印象指標Ｙ1〜ＹMに応じて「トッピング」のグループから１個の画像データｄB（図５の例示では「イチゴ」の画像）が選択され、「サビ１」の単位区間のＭ個の印象指標Ｙ1〜ＹMに応じて「クリーム」のグループから１個の画像データｄB（図５の例示では「ホイップクリーム」の画像）が選択され、「サビ２」の単位区間のＭ個の印象指標Ｙ1〜ＹMに応じて「ベース」のグループから１個の画像データｄB（図５の例示では「円盤状のスポンジ」の画像）が選択される。

提示処理部２６は、楽曲の歌唱の終了後に、提示データＱに包含されるＫ個の画像データｄBを組合せた画像を表示装置１８に表示させる。具体的には、図５に例示される通り、「トッピング」の画像データｄBと「クリーム」の画像データｄBと「ベース」の画像データｄBとを組合せた「ケーキ」の画像が表示装置１８に表示される。各単位区間の画像データｄBは当該単位区間の聴覚印象に応じて選択されるから、提示データＱに応じて表示される物品の画像の内容（物品を構成する各要素の態様）は各単位区間の聴覚印象に応じて変化する。したがって、利用者に提示される画像が多様化されて興趣性を提供することが可能である。なお、複数の画像データｄBの組合せで表示される画像の内容は以上の例示（ケーキ）に限定されない。例えば、利用者を表象するアバター等のキャラクタを表示する構成では、キャラクタを構成する各要素（例えば衣服または髪型等の各要素や、顔を構成する目や口等の各要素）の画像を示す画像データｄBが歌唱音声Ｖの単位区間毎に選択される。

なお、以上の例示では、歌唱音声Ｖを時間軸上で区分した単位区間毎に画像データｄBを選択したが、単位区間以外の要素毎に画像データｄBを選択することも可能である。例えば、情報生成部３２が、Ｍ種類の聴覚印象の各々について（すなわち聴覚印象毎に）当該聴覚印象の印象指標Ｙmに応じた画像データｄBを選択する構成も採用され得る。

（２）事前に用意された複数の画像データｄBを複数のグループ（カテゴリ）に分類し、複数のグループのうち所定の条件で選択された１個のグループからＭ個の印象指標Ｙ1〜ＹMに応じた画像データｄBを情報生成部３２が提示データＱとして選択することも可能である。１個のグループを選択する条件は任意であるが、例えば、複数のグループのうち利用者が入力装置１４に対する操作で指定したグループから画像データｄBを選択する構成や、複数のグループのうち利用者の属性情報（例えば年齢や性別等）に応じて選択したグループから画像データｄBを選択する構成が好適である。また、複数の利用者の属性情報に応じて画像データｄBのグループを選択することも可能である。

（３）以上の説明では、各印象指標Ｙmと画像データｄBとの相関を規定する構造方程式を表現する変換用データＷBを例示したが、各印象指標Ｙmと画像データｄBとを相互に対応させたデータテーブルを変換用データＷBとして利用することも可能である。

＜第３実施形態＞
図６は、第３実施形態の音響解析装置１００Cの構成図である。図６に例示される通り、第３実施形態の音響解析装置１００Cは、第１実施形態の音響解析装置１００A（図１）と同様の要素を含んで構成される。特徴抽出部２２によるＮ個の特徴指標Ｘ1〜ＸNの抽出と、印象特定部２４によるＭ個の印象指標Ｙ1〜ＹMの特定と、関連式設定部４０によるＭ個の関連式Ｆ1〜ＦMの設定とは、第１実施形態と同様である。したがって、第２実施形態においても、第１実施形態と同様に、歌唱音声Ｖの受聴者が実際に感取する主観的な印象を適切に評価できるという効果が実現される。

第３実施形態では、歌唱音声Ｖの聴覚印象の履歴を示す履歴データＨが利用者毎に記憶装置１２に記憶される。図６に例示される通り、履歴データＨは、利用者情報ｈAと印象履歴ｈBとを含んで構成される。利用者情報ｈAは、歌唱音声Ｖを発声した利用者の識別情報や属性情報（例えば年齢や性別）を包含する。印象履歴ｈBは、利用者の歌唱音声Ｖから印象特定部２４が過去に特定した各印象指標Ｙmの時系列である。歌唱音声ＶのＭ個の印象指標Ｙ1〜ＹM（歌唱スタイル情報Ｓ）を特定すると、印象特定部２４は、当該歌唱音声Ｖを発声した利用者の履歴データＨの印象履歴ｈBに当該印象指標Ｙ1〜ＹMを追加する。以上の説明から理解される通り、履歴データＨは、各利用者の歌唱スタイルの時間的な遷移を表現する時系列データとも換言され得る。

第３実施形態の記憶装置１２は、利用者の性状を表現する複数の性状データｄCを記憶する。具体的には、性状データｄCは、利用者の性状を意味する文字列を表現する。利用者の性状とは、利用者の性質（気質，性格）や状態（例えば精神的または肉体的な状況）である。例えば、公知の性格分類（例えばクレッチマー気質分類，ユング分類，エニアグラム分類）で規定される複数の性格が性状データｄCで表現される。

第３実施形態の情報生成部３２は、利用者の歌唱音声Ｖについて印象特定部２４が過去に特定した聴覚印象に応じて当該利用者の性状を推定する。具体的には、情報生成部３２は、記憶装置１２に記憶された複数の性状データｄCのうち利用者の履歴データＨが示す聴覚印象の履歴に応じた性状データｄCを提示データＱとして選択する。情報生成部３２による性状データｄCの選択（利用者の性状の推定）には、記憶装置１２に記憶された変換用データＷCが利用される。

変換用データＷCは、印象履歴ｈB（聴覚印象の時系列）と性状データｄCとの関係を規定する。具体的には、第３実施形態の変換用データＷCは、印象履歴ｈB（ｈB1，ｈB2，……）と性状データｄC（ｄC1，ｄC2，……）とを相互に対応させたデータテーブルである。例えば、図７に例示される通り、明暗に関する印象指標Ｙmの時系列において明暗（明るい／暗い）が交互に現れる印象履歴ｈBには、クレッチマー気質分類における「循環型気質」の性状データｄCが対応する。また、図８に例示される通り、活動性（強勢な／静穏な）に関する印象指標Ｙmの時系列において強勢な（激しい）音声から静穏な音声に変化する印象履歴ｈBには「今日はお疲れですか」等の状態を示す性状データｄCが対応する。

利用者は、入力装置１４に対する操作で自身の識別情報を指定したうえで楽曲を歌唱する。情報生成部３２は、記憶装置１２に記憶された複数の性状データｄCのうち、識別情報で特定される利用者の履歴データＨの印象履歴ｈBに変換用データＷCにて対応づけられた性状データｄCを提示データＱとして特定する。提示処理部２６は、情報生成部３２が生成した提示データＱを表示装置１８に表示させる。以上の説明から理解される通り、第３実施形態では、歌唱音声Ｖの聴覚印象を参照して利用者の性状を推定した結果（性状データｄC）が表示装置１８に表示される。利用者は、表示装置１８に表示された画像を視認することで、自身の性状の推定結果を確認することが可能である。第３実施形態では特に、歌唱音声Ｖの各印象指標Ｙmの時系列（印象履歴ｈB）を利用して発声者の性状が推定されるから、歌唱音声Ｖの聴覚印象の時間変化を加味した適切な性状を推定できるという利点がある。

なお、特許文献１や特許文献２の技術では、模範的な歌唱音声と評価対象の歌唱音声との特徴量の相違のみに着目した歌唱の客観的な巧拙が評価されるに過ぎない。第３実施形態によれば、歌唱音声Ｖの聴覚印象に応じて利用者の性状が推定および提示されるから、演出的な効果や興趣性を利用者に付与することが可能である。また、第３実施形態にて歌唱音声Ｖから利用者の性状を推定した結果を、利用者の精神的／肉体的な状態の管理等（例えば心理カウンセリング，健康管理，セラピー，自己啓発）に利用することも可能である。また、表示装置１８に提示される自分の性状が目標に近付くように歌唱スタイルを調整することで、所望の印象を他者に付与できるような歌唱スタイルを習得することも可能である。

＜第３実施形態の変形例＞
（１）事前に用意された複数の性状データｄCを複数のグループ（カテゴリ）に分類し、複数のグループのうち所定の条件で選択された１個のグループから履歴データＨ（印象履歴ｈB）に応じた性状データｄCを情報生成部３２が特定することも可能である。１個のグループを選択する条件は任意であるが、例えば、複数のグループのうち利用者が入力装置１４に対する操作で指定したグループから性状データｄCを選択する構成や、複数のグループのうち利用者の属性情報（例えば年齢や性別等）に応じて選択したグループから性状データｄCを選択する構成が好適である。また、複数の利用者の属性情報に応じて性状データｄCのグループを選択することも可能である。

（２）履歴データＨの印象履歴ｈBの内容は以上の例示（印象指標Ｙmの時系列）に限定されない。例えば、印象指標Ｙmの数値毎の頻度や変動率（単位時間内の変化量）を印象履歴ｈBとして利用することも可能である。また、楽曲のうち特定の区間（例えばサビ）の印象指標Ｙmの時系列を印象履歴ｈBとして履歴データＨを生成する構成や、特定の期間毎（例えば１日毎，１週毎，１月毎）に履歴データＨを生成する構成も採用され得る。また、楽曲の曲調に応じて歌唱の仕方が相違し得ることを考慮すると、楽曲毎（または楽曲のジャンル毎）に履歴データＨを生成する構成も好適である。

（３）以上の説明では、利用者の性状を意味する文字列を示す性状データｄCを例示したが、利用者の性状を表象する画像（例えば似顔絵やキャラクタ）の画像データを性状データｄCとして利用することも可能である。また、性状データｄCが共通する利用者や有名人を提示する構成や、性状データｄCが示す性状とは反対の性状を利用者に提案する構成も採用され得る。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は適宜に併合され得る。

（１）印象特定部２４が特定した歌唱音声ＶのＭ個の印象指標Ｙ1〜ＹM（歌唱スタイル情報Ｓ）を表現する解析結果画像７０を提示処理部２６が表示装置１８に表示させる構成も好適である。図９は、Ｍ種類の印象指標Ｙ1〜ＹMのうち長幼（大人っぽい／子供っぽい）に関する１個の印象指標Ｙ1と清濁（清らかで透明感がある／嗄れて濁っている）に関する１個の印象指標Ｙ2とを表象する解析結果画像７０の表示例である。図９から理解される通り、解析結果画像７０は、印象指標Ｙ1の数値を示す第１軸７１と印象指標Ｙ2の数値を示す第２軸７２とが設定された座標平面を包含する。第１軸７１のうち印象特定部２４が算定した印象指標Ｙ1の数値と、第２軸７２のうち印象特定部２４が算定した印象指標Ｙ2の数値とに対応した座標位置に、歌唱音声Ｖの聴覚印象を意味する画像（アイコン）７４が配置される。以上の説明から理解される通り、解析結果画像７０は、歌唱音声Ｖの聴覚印象を表象する画像（長幼や清濁を含む歌唱スタイルを表象する画像）である。利用者は、表示装置１８に表示された解析結果画像７０を視認することで、歌唱音声Ｖの聴覚印象を視覚的および直観的に把握することが可能である。

（２）前述の各形態では、複数の参照データｒが記憶装置１２に事前に記憶された場合を例示したが、以下に例示される通り、収音装置１６が収音した歌唱音声Ｖを参照音とした新規な参照データｒを利用して各関連式Ｆmを更新することも可能である。

利用者（歌唱音声Ｖの発声者や受聴者）は、楽曲の終了後に、入力装置１４を適宜に操作することで歌唱音声Ｖの聴覚印象を指定する。例えば、Ｍ種類の聴覚印象の各々について印象指標Ｙmの複数の選択肢（複数段階の評価）が表示装置１８に表示され、利用者は、聴覚印象毎に所望の１個の選択肢を指定する。

図１に破線の矢印で図示される通り、関連式設定部４０は、利用者が指定した各聴覚印象の印象指標ｙm（ｙ1〜ｙm）と歌唱音声Ｖについて特徴抽出部２２が抽出した各特徴指標ｘn（ｘ1〜ｘN）とを含む参照データｒを取得して記憶装置１２に格納する。そして、関連式設定部４０は、歌唱音声Ｖに応じた新規な参照データｒを包含する参照データ群ＤRを利用して、第１実施形態と同様の方法で関連式Ｆm（Ｆ1〜ＦM）を設定および記憶する。すなわち、収音装置１６が収音した歌唱音声Ｖの聴覚印象（印象指標ｙm）と音響特徴（特徴指標ｘn）との関係を反映した内容に既定の関連式Ｆm（Ｆ1〜ＦM）が更新される。以上の構成によれば、関連式Ｆ1〜ＦMを、実際の歌唱音声Ｖの聴覚印象と音響特徴との関係を反映した内容に更新できるという利点がある。なお、参照データ群ＤRを利用した関連式Ｆmの設定（更新）の時期は任意である。例えば、歌唱音声Ｖに応じた参照データｒの取得毎に関連式Ｆmを更新する構成や、新規な参照データｒが所定数だけ蓄積された場合に関連式Ｆmを更新する構成が採用され得る。

（３）前述の各形態では、楽曲の全区間にわたる歌唱音声Ｖを対象として聴覚印象を特定したが、歌唱音声Ｖを時間軸上で区分した複数の区間の各々について聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）を順次に特定することも可能である。歌唱音声Ｖの区間毎に聴覚印象を順次に特定する場合、第１実施形態から第３実施形態で例示した提示データＱを、歌唱音声Ｖの各区間の聴覚印象に応じて区間毎に順次に（実時間的に）更新する構成も採用され得る。

（４）前述の各形態では、収音装置１６が収音した歌唱音声Ｖを解析する要素（特徴抽出部２２，印象特定部２４，提示処理部２６，情報生成部３２）と、各関連式Ｆmを設定する関連式設定部４０との双方を具備する音響解析装置１００（１００A，１００B，１００C）を例示したが、関連式設定部４０を他の要素とは別体の装置に搭載することも可能である。

例えば図１０に例示される通り、通信網２００（例えばインターネット）を介して相互に通信する音響解析装置１１０と音響解析装置１２０とに、前述の各形態で例示した機能を分担させることも可能である。音響解析装置（関連式設定装置）１１０は、参照データ群ＤRと関係性記述データＤCとを利用して第１実施形態と同様の方法でＭ個の関連式Ｆ1〜ＦMを設定する関連式設定部４０を具備する。例えば通信網２００に接続されたサーバ装置で音響解析装置１１０は実現される。図１０に例示される通り、音響解析装置１１０（関連式設定部４０）が設定したＭ個の関連式Ｆ1〜ＦMは、通信網２００を介して音響解析装置１２０に転送される。音響解析装置１１０から複数の音響解析装置１２０にＭ個の関連式Ｆ1〜ＦMを共通に転送することも可能である。音響解析装置１２０は、特徴抽出部２２と印象特定部２４とを含んで構成され、音響解析装置１１０から転送されたＭ個の関連式Ｆ1〜ＦMを利用して第１実施形態と同様に歌唱音声Ｖを解析することで歌唱音声Ｖの聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）を特定する。音響解析装置１２０には、第１実施形態から第３実施形態と同様の情報生成部３２が設置され得る。図１０の構成では、参照データ群ＤRおよび関係性記述データＤCの保持や各関連式Ｆmの設定を音響解析装置１２０に実行させる必要がないから、音響解析装置１２０の構成および処理が簡素化されるという利点がある。

（５）前述の各形態において、各種の機器を制御するための制御データを提示データＱとして歌唱音声Ｖの聴覚印象に応じて設定することも可能である。制御データは、例えば楽曲の歌唱中に表示装置１８に表示される画像（背景画像）の制御や、再生機器（カラオケ装置）が再生する伴奏音の再生、照明機器等の演出効果の制御に適用される。カラオケ店等の店舗内で注文可能な飲食物を提示データＱに応じて変更することも可能である。また、歌唱音声Ｖの聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）を歌唱評価（採点）に応用することも可能である。例えば、歌唱評価に適用される変数を提示データＱAに応じて調整する構成や、楽曲毎に事前に登録された印象と歌唱音声Ｖの聴覚印象との類似度（異同）を評価結果に反映させる構成（例えば両者が類似するほど加点を増加させる構成）が好適に採用される。

（６）前述の各形態では、参照データ群ＤRと関係性記述データＤCとを利用して設定された関連式Ｆmを例示したが、関連式Ｆmの設定方法は本発明において任意である。例えば、前述の疑似相関が特段の問題とならない場合、対比例と同様に、関係性記述データＤCを利用せずに、参照データ群ＤRの複数の参照データｒのみを利用して印象指標ｙmと特徴指標ｘnとの相関の傾向を統計的に解析することで各印象指標Ｙmの関連式Ｆmを設定することも可能である。

（７）前述の各形態では、利用者が楽曲を歌唱した歌唱音声Ｖを例示したが、解析対象は歌唱音声Ｖに限定されない。例えば、会話音等の音声や楽器の演奏音（楽音）、音声合成技術で生成された合成音声（歌唱音声や会話音）について各関連式Ｆmを利用した解析で聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）を特定することも可能である。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声（例えば会議での会話音）や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響（解析対象音）の具体的な内容（種類）や発音の原理等は任意である。

１００（１００A，１００B，１００C），１１０，１２０……音響解析装置、１０……演算処理装置、１２……記憶装置、１４……入力装置、１６……収音装置、１８……表示装置、２２……特徴抽出部、２４……印象特定部、２６……提示処理部、３２……情報生成部、４０……関連式設定部、４２……目標設定部、４４……解析処理部、４６……音響処理部。

（７）前述の各形態では、利用者が楽曲を歌唱した歌唱音声Ｖを例示したが、解析対象は歌唱音声Ｖに限定されない。例えば、会話音等の音声や楽器の演奏音（楽音）、音声合成技術で生成された合成音声（歌唱音声や会話音）について各関連式Ｆmを利用した解析で聴覚印象（Ｍ個の印象指標Ｙ1〜ＹM）を特定することも可能である。例えば、楽器の演奏音の解析では、前述の各形態と同様に、例えば明暗や清濁等の印象指標Ｙmが特定され得る。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声（例えば会議での会話音）や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響（解析対象音）の具体的な内容（種類）や発音の原理等は任意である。

Claims

解析対象音の特徴指標を抽出する特徴抽出手段と、
参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、前記聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して設定され、前記関係性記述データで規定される対応関係における前記聴覚印象の印象指標と前記複数種の音響特徴の特徴指標との関係を表現する関連式に、前記特徴抽出手段が抽出した特徴指標を適用することで、前記解析対象音の印象指標を算定する印象特定手段と
前記印象特定手段が特定した印象指標に応じた提示データを生成する情報生成手段と、
前記情報生成手段が生成した提示データを利用者に提示する提示処理手段と
を具備する音響解析装置。
前記情報生成手段は、前記印象特定手段が特定した印象指標に応じた楽曲の関連情報を示す関連データを前記提示データとして生成する
請求項１の音響解析装置。
前記情報生成手段は、前記印象特定手段が特定した印象指標が示す聴覚印象を表象する画像を示す画像データを前記提示データとして生成する
請求項１の音響解析装置。
前記印象特定手段は、前記解析対象音を時間軸上で区分した複数の単位区間の各々について前記印象指標を特定し、
前記情報生成手段は、前記複数の単位区間の各々について当該単位区間の印象指標に応じた画像データを特定し、前記各単位区間の画像データの組合せで表現される画像を示す前記提示データを生成する
請求項３の音響解析装置。
前記情報生成手段は、前記印象特定手段が前記解析対象音の発声者について順次に特定した印象指標の時系列に応じて、当該発声者の性状を示す前記性状データを前記提示データとして生成する
請求項１の音響解析装置。