JP2016057571A - 音響解析装置 - Google Patents
音響解析装置 Download PDFInfo
- Publication number
- JP2016057571A JP2016057571A JP2014186192A JP2014186192A JP2016057571A JP 2016057571 A JP2016057571 A JP 2016057571A JP 2014186192 A JP2014186192 A JP 2014186192A JP 2014186192 A JP2014186192 A JP 2014186192A JP 2016057571 A JP2016057571 A JP 2016057571A
- Authority
- JP
- Japan
- Prior art keywords
- impression
- data
- index
- feature
- auditory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims description 69
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000014509 gene expression Effects 0.000 claims description 65
- 239000000284 extract Substances 0.000 abstract description 3
- 230000001105 regulatory effect Effects 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 34
- 238000000034 method Methods 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 14
- 230000008901 benefit Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 239000006071 cream Substances 0.000 description 3
- 230000003340 mental effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 235000016623 Fragaria vesca Nutrition 0.000 description 1
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 1
- 241001608711 Melo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000008256 whipped cream Substances 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/04—Sound-producing devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】音響の主観的な印象を適切に評価する。【解決手段】特徴抽出部22は、歌唱音声Vの特徴指標Xnを抽出する。印象特定部24は、参照音の聴覚印象を示す印象指標ymと当該参照音の音響特徴を示す特徴指標xnとを相互に対応させた複数の参照データr、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データDCを利用して設定され、関係性記述データDCで規定される対応関係における聴覚印象の印象指標Ymと複数種の音響特徴の特徴指標Xnとの関係を表現する関連式Fmに、特徴抽出部22が抽出した特徴指標Xnを適用することで、歌唱音声Vの印象指標Ymを算定する。情報生成部32は、印象特定部24が特定した印象指標Ymに応じた提示データQを生成する。提示処理部26は、情報生成部32が生成した提示データQを利用者に提示する。【選択図】図1
Description
本発明は、音響を解析する技術に関する。
楽曲の歌唱を評価する技術が従来から提案されている。例えば特許文献1には、歌唱音声の音高に加えてビブラートや抑揚等の歌唱表現を加味して歌唱を評価する技術が開示されている。また、特許文献2には、歌唱音声の音高(基本周波数)や音量に応じて歌唱を評価する技術が開示されている。
しかし、特許文献1や特許文献2の技術では、模範的な歌唱を示す基準値と評価対象の歌唱音声の特徴量との差異のみに着目した歌唱の客観的な巧拙が解析されるに過ぎず、歌唱音声の受聴者が感取する主観的な印象を解析することはできない。なお、以上の説明では歌唱音声の評価を例示したが、楽器の演奏音や音響機器の再生音等の各種の音響についても、受聴者が感取する主観的な印象を解析できないという事情は同様に存在する。以上の事情を考慮して、本発明は、音響の主観的な印象を適切に評価することを目的とする。
以上の課題を解決するために、本発明の音響解析装置は、解析対象音の特徴指標を抽出する特徴抽出手段と、音響の聴覚印象を示す印象指標と当該音響の音響特徴を示す複数の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する印象特定手段と、印象特定手段が特定した印象指標に応じた提示データを生成する情報生成手段と、情報生成手段が生成した提示データを利用者に提示する提示処理手段とを具備する。以上の構成では、聴覚印象の印象指標と各音響特徴の特徴指標との関係を表現する関連式に解析対象音の各特徴指標を適用することで、解析対象音の主観的な印象を適切に評価することが可能である。また、印象特定手段が特定した印象指標に応じた提示データが利用者に提示されるから、印象指標の各数値自体を利用者に提示する構成と比較すると、利用者に好都合な態様で解析対象音の聴覚印象を提示できるという利点がある。
ところで、参照データの統計的な解析のみで関連式を設定する構成では、疑似相関(特定の特徴指標が実際には特定の聴覚印象に相関しないのに潜在的な要因によって恰も相関するかのように推測される見掛け上の関係)の影響で、実際には聴覚印象に相関しない特徴指標が当該聴覚印象に優勢に影響するような関連式が導出される可能性がある。本発明では、印象指標と特徴指標とを相互に対応させた複数の参照データに加え、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して関連式が設定される。したがって、参照データのみを利用して関連式を設定する構成と比較して、印象指標と複数の特徴指標との実際の相関を適切に反映した関連式(すなわち聴覚印象を適切に評価できる関連式)を設定できるという利点がある。
本発明の好適例に係る第1態様において、情報生成手段は、印象特定手段が特定した印象指標に応じた楽曲の関連情報を示す関連データを提示データとして生成する。以上の態様では、印象特定部が特定した印象指標に応じた楽曲の関連情報が利用者に提示されるから、解析対象音の聴覚印象(例えば歌唱スタイル)に対応した楽曲を利用者が把握できるという利点がある。
本発明の好適例に係る第2態様において、情報生成手段は、印象特定手段が特定した印象指標が示す聴覚印象を表象する画像を示す画像データを提示データとして生成する。以上の態様では、印象特定部が特定した聴覚印象を表象する画像(文字や記号を含む)が利用者に提示されるから、解析対象音の聴覚印象を利用者が直観的に把握できるという利点がある。第2態様の具体例において、印象特定手段は、解析対象音を時間軸上で区分した複数の単位区間の各々について印象指標を特定し、情報生成手段は、複数の単位区間の各々について当該単位区間の印象指標に応じた画像データを特定し、各単位区間の画像データの組合せで表現される画像を示す提示データを生成する。以上の態様では、各単位区間の印象指標に応じた画像を複数の単位区間について相互に組合せた画像が利用者に提示されるから、利用者に提示される画像が多様化されて興趣性を高めることが可能である。
本発明の好適例に係る第3態様において、情報生成手段は、印象特定手段が特定した印象指標に応じて、解析対象音の発声者の性状を示す性状データを提示データとして生成する。以上の態様では、解析対象音の印象指標から推定される当該解析対象音の発声者の性状が利用者に提示される。なお、利用者の性状とは、利用者の性質(気質,性格)や状態(例えば精神的または肉体的な状況)を意味する。第3態様の具体例において、情報生成手段は、印象特定手段が解析対象音の発声者について順次に特定した印象指標の時系列に応じて、当該発声者の性状を示す性状データを特定する。以上の態様では、聴覚印象の時間変化を加味した性状を推定できるという利点がある。
以上の各態様に係る音響解析装置は、専用の電子回路で実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、以上の各態様に係る音響解析装置の動作方法(音響解析方法)としても本発明は特定される。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100Aの構成図である。第1実施形態の音響解析装置100Aは、演算処理装置10と記憶装置12と入力装置14と収音装置16と表示装置18とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置100Aとして利用され得る。
図1は、本発明の第1実施形態に係る音響解析装置100Aの構成図である。第1実施形態の音響解析装置100Aは、演算処理装置10と記憶装置12と入力装置14と収音装置16と表示装置18とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置100Aとして利用され得る。
収音装置16は、周囲の音響を収音する機器(マイクロホン)である。第1実施形態の収音装置16は、利用者が楽曲を歌唱した歌唱音声Vを収音する。音響解析装置100Aは、楽曲の伴奏音と歌唱音声Vとを混合して再生するカラオケ装置としても利用され得る。なお、収音装置16が収音した歌唱音声Vの信号をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
表示装置18(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置14は、音響解析装置100Aに対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置18と一体に構成されたタッチパネルを入力装置14として利用することも可能である。記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。
第1実施形態の音響解析装置100Aは、収音装置16が収音した歌唱音声Vを解析する信号処理装置である。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、歌唱音声Vを解析するための複数の機能(特徴抽出部22,印象特定部24,提示処理部26,関連式設定部40,情報生成部32)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、演算処理装置10の機能の一部を専用の電子回路が実現する構成も採用され得る。
特徴抽出部22は、収音装置16が収音した歌唱音声Vを解析することで、相異なる種類の音響特徴を示す複数(N個)の特徴指標X1〜XNを抽出する(Nは自然数)。音響特徴は、歌唱音声Vの受聴者が感取する聴感的な印象(以下「聴覚印象」という)に影響する歌唱音声Vの音響的な特徴を意味する。具体的には、音高(ピッチ)の安定度,ビブラートの深度(音高の振幅),周波数特性等の多様な音響特徴の各々を数値化した特徴指標Xn(n=1〜N)が歌唱音声Vから抽出される。第1実施形態の特徴抽出部22が抽出するN個の特徴指標X1〜XNの数値範囲は共通する。以上の説明から理解される通り、聴覚印象は、歌唱音声Vの受聴者が感取する主観的ないし感覚的な特徴(印象)を意味し、音響特徴は、歌唱音声Vの解析で抽出される客観的ないし物理的な特徴(特性)を意味する。
印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを利用して歌唱音声Vの聴覚印象を特定する。第1実施形態の印象特定部24は、歌唱音声Vの相異なる聴覚印象を示す複数(M個)の印象指標Y1〜YMを算定する(Mは自然数)。第1実施形態における任意の1個の印象指標Ym(m=1〜M)は、相互に対立する2種類の印象の程度を数値化した指標である。具体的には、長幼(大人っぽい/子供っぽい),明暗(明るい/暗い),清濁(清らかで透明感がある/嗄れて濁っている)等の多様な聴覚印象の各々を数値化した印象指標Ymが特定される。例えば長幼に関する1個の印象指標Ymが正数の範囲で大きいほど大人っぽい音声を意味し、当該印象指標Ymが負数の範囲で小さいほど子供っぽい音声を意味する。
N個の特徴指標X1〜XNに応じた印象指標Ym(Y1〜YM)の算定には、印象指標Ym毎に事前に設定された演算式(以下「関連式」という)Fmが利用される。任意の1個の関連式Fmは、印象指標YmとN個の特徴指標X1〜XNとの関係を表現する演算式である。第1実施形態の関連式Fmは、以下に例示される通り、N個の特徴指標X1〜XNの一次式で各印象指標Ymを表現する。
以上に例示した関連式Fmの係数anm(a11〜aNM)は、特徴指標Xnと印象指標Ymとの相関の度合に応じた定数(特徴指標Xnに対する印象指標Ymの勾配)であり、係数bm(b1〜bM)は所定の定数(切片)である。係数anmは、印象指標Ymに対する特徴指標Xnの寄与度(加重値)とも換言され得る。印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを関連式F1〜FMの各々に適用することで、相異なる聴覚印象に対応するM個の印象指標Y1〜YMを算定する。第1実施形態の印象特定部24は、各特徴指標Xnから算定したM個の印象指標Y1〜YMに応じた歌唱スタイル情報Sを生成する。具体的には、M個の印象指標Y1〜YMを要素とするM次元のベクトルが歌唱スタイル情報Sとして生成される。以上の説明から理解される通り、歌唱スタイル情報Sは、歌唱音声VのM種類の聴覚印象(受聴者が感取する主観的な歌唱スタイル)を総合的に表現する。なお、第1実施形態では前述の通り線形システムを例示するが、隠れマルコフモデルやニューラルネットワーク(多層パーセプトロン)等の非線形システムを印象指標Ym(Y1〜YM)の算定に利用することも可能である。
図1の関連式設定部40は、各聴覚印象の印象指標Ymの算定に利用される関連式Fm(F1〜FM)を設定する。図1に例示される通り、第1実施形態の記憶装置12には、参照データ群DRと関係性記述データDCとが格納される。関連式設定部40は、参照データ群DRと関係性記述データDCとを利用してM個の関連式F1〜FMを設定する。
参照データ群DRは、複数の参照データrの集合(データベース)である。参照データ群DRに包含される複数の参照データrは、不特定多数の発声者が発音した音声(以下「参照音」という)を利用して事前に生成される。例えば任意の発声者が任意の楽曲を歌唱した音声が参照音として収録されて参照データrの生成に利用される。図1に例示される通り、任意の1個の参照データrは、参照音の各印象指標ym(y1〜yM)と当該参照音の特徴指標xn(x1〜xN)とを相互に対応させたデータである。印象指標ymは、参照音の受聴者が実際に感取した聴覚印象に応じた数値に設定され、特徴指標xnは、特徴抽出部22と同様の処理で参照音から抽出された音響特徴の数値に設定される。すなわち、各参照データrは、印象指標ymと特徴指標xnとの関係を実際に観測した資料(学習データ)に相当する。
関係性記述データDCは、聴覚印象と複数の音響特徴との間の対応関係(相関関係)を規定する。図2は、第1実施形態の関係性記述データDCで規定される対応関係を例示する説明図である。図2に例示される通り、第1実施形態の関係性記述データDCは、相異なる印象指標Ymに対応するM種類の聴覚印象EY(EY1〜EYM)の各々について、当該聴覚印象EYmに影響する複数種の音響特徴EXとの対応関係λm(λ1〜λM)を規定する。図2には、長幼と清濁と明暗との3種類の聴覚印象EY1〜EY3の各々について複数種の音響特徴EXとの対応関係λ1〜λ3が例示されている。
各聴覚印象EYmに相関する音響特徴EXの具体的な内容は以下の通りである。以下に例示する各音響特徴EXの数値が前述の特徴指標Xnに相当する。
・音高の安定度:時間的な音高の微小変化(揺らぎ)の度合
・立上がりの速度:発音直後の音量の増加の度合
・フォール:音高を基準値(音符の音高)から低下させる歌唱表現の度合(例えば回数)
・しゃくり:音高を基準値から経時的に上昇させる歌唱表現の度合(例えば回数)
・ビブラートの深度:ビブラートにおける音高の変化の度合(例えば振幅や回数)
・輪郭:音響の明瞭性の度合。例えば、低域成分に対する高域成分の音量比が好適。
・滑舌:音響特性の時間的な変化の度合。例えば、周波数特性(例えばホルマント周波数や基本周波数)の時間的な変化の度合(典型的には時間変化率)が好適。
・アタック:発音直後の音量
・クレッシェンド:音量の経時的な増加の度合
・周波数特性:周波数スペクトルの形状
・高次倍音:高次側(高域側)の倍音成分の強度
・音高の安定度:時間的な音高の微小変化(揺らぎ)の度合
・立上がりの速度:発音直後の音量の増加の度合
・フォール:音高を基準値(音符の音高)から低下させる歌唱表現の度合(例えば回数)
・しゃくり:音高を基準値から経時的に上昇させる歌唱表現の度合(例えば回数)
・ビブラートの深度:ビブラートにおける音高の変化の度合(例えば振幅や回数)
・輪郭:音響の明瞭性の度合。例えば、低域成分に対する高域成分の音量比が好適。
・滑舌:音響特性の時間的な変化の度合。例えば、周波数特性(例えばホルマント周波数や基本周波数)の時間的な変化の度合(典型的には時間変化率)が好適。
・アタック:発音直後の音量
・クレッシェンド:音量の経時的な増加の度合
・周波数特性:周波数スペクトルの形状
・高次倍音:高次側(高域側)の倍音成分の強度
図2に例示される通り、第1実施形態の関係性記述データDCが任意の1種類の聴覚印象EYmについて規定する対応関係λmは、当該聴覚印象EYmに関連する複数種の中間要素EZを聴覚印象EYmと各音響特徴EXとの間に介在させた階層関係(階層構造)である。1種類の聴覚印象EYmに関連する複数種の中間要素EZは、当該聴覚印象EYmを受聴者に知覚させる要因となる印象や当該聴覚印象EYmを複数に細分化した印象に相当する。任意の1個の中間要素EZには、当該中間要素EZに影響する複数種の音響特徴EXが対応付けられる。
関係性記述データDCで規定される各対応関係λmは、例えば、音楽や音声(歌唱)に関する専門的な知識が豊富な識者(例えば音楽の制作者または指導者や歌手等)に対する調査(インタビューやアンケート)により、各聴覚印象EYmと各音響特徴EXとの間の相関(どのような音響特徴EXの音声から受聴者が如何なる聴覚印象EYmを感取する傾向があるのか)を解析することで構築される。対応関係λmの構築には、評価グリッド法等に代表される公知の調査手法が任意に採用され得る。
以上に説明した関係性記述データDCは、対応関係λmに包含される各要素(音響特徴EX,中間要素EZ,聴覚印象EYm)の相互的な関係(連結)のみを規定し、各要素間の相関の度合については規定されない。以上の観点からすると、関係性記述データDCで規定される各対応関係λmは、現実に不特定多数の発声者から収集した参照音から観測される音響特徴EXと聴覚印象EYmとの実際の相関(すなわち、現実の参照音の傾向が反映された参照データ群DRから統計的に観測される各印象指標ymと各特徴指標xnとの実際の関係)までは反映されていない仮説的な関係であると言える。
以上に説明した参照データ群DRと関係性記述データDCとが事前に作成されて記憶装置12に格納される。図1の関連式設定部40は、記憶装置12に格納された参照データ群DRと関係性記述データDCとを利用してM個の関連式F1〜FMを設定する。すなわち、関連式設定部40は、関係性記述データDCが規定する各対応関係λmのもとで聴覚印象EYmの印象指標Ymと音響特徴EXの各特徴指標Xnとの関係を表現する関連式Fmを、M個の印象指標Y1〜YMの各々について設定する。具体的には、参照データ群DRの複数の参照データrにおける印象指標ymと特徴指標xnとの相関の度合を関係性記述データDCの対応関係λmに反映した関係が関連式Fmで表現されるように、関連式設定部40は、各関連式FmのN個の係数a1m〜aNmと1個の係数bmとを設定する。関連式設定部40による各関連式Fmの設定には、例えば、構造方程式モデリング(SEM:Structural Equation Modeling)や多変量解析(例えば重回帰分析)等の公知の統計処理が任意に採用され得る。なお、図2の例示から理解される通り、関係性記述データDCで表現される対応関係λmのもとで聴覚印象EYmとの相関が規定される音響特徴EXの種類や総数は、実際には聴覚印象EYm毎に相違するが、前掲の各関連式Fmに包含される特徴指標Xnの種類や総数はM個の関連式F1〜FMにわたり共通する。対応関係λmのもとで聴覚印象EYmとの相関が規定されていない音響特徴EXの特徴指標Xnに対応する係数anmは、関連式Fmにてゼロに設定される(すなわち、当該特徴指標Xnは印象指標Ymに影響しない)。
以上の手順で関連式設定部40が設定したM個の関連式(例えば構造方程式や重回帰式)F1〜FMは記憶装置12に格納される。具体的には、N個の係数a1m〜aNmと1個の係数bmとがM個の関連式F1〜FMの各々について記憶装置12に格納される。前述の通り、印象特定部24は、関連式設定部40が設定したM個の関連式F1〜FMの各々にN個の特徴指標X1〜XNを適用することでM種類の印象指標Y1〜YMを算定する。
以上に説明した通り、第1実施形態では、歌唱音声Vから抽出される各特徴指標Xnと歌唱音声Vの聴覚印象を示す印象指標Ymとの関係を規定する関連式Fmを利用して、歌唱音声Vの聴覚印象(印象指標Y1〜YM)が特定される。したがって、例えば模範的な歌唱を示す基準値と歌唱音声Vの特徴指標Xnとの差異のみに着目して歌唱の巧拙を評価する技術と比較して、歌唱音声Vの受聴者が実際に感取する主観的な印象を適切に評価することが可能である。
ところで、参照データ群DRの複数の参照データrのみを解析することで印象指標ymと特徴指標xnとの相関の傾向を統計的に解析して関連式Fmを設定する構成(以下「対比例」という)も想定され得る。すなわち、対比例では関連式Fmの設定に関係性記述データDCが利用されない。しかし、対比例では、実際には聴覚印象EYmに相関しない特定の音響特徴EXが潜在的な要因に起因して恰も聴覚印象EYmに相関するかのように認識される見掛け上の関係(疑似相関)の影響で、実際には印象指標Ymに相関しない特徴指標Xnが当該印象指標Ymに優勢に影響するような関連式Fmが導出される可能性がある。他方、第1実施形態では、各聴覚印象EYmと各音響特徴EXとの仮説的な対応関係λmを規定する関係性記述データDCが参照データ群DRとともに関連式Fmの設定に利用されるから、聴覚印象EYmと音響特徴EXとの疑似相関の影響が低減(理想的には排除)される。したがって、聴覚印象EYmと各音響特徴EXとの実際の相関を適切に表現した関連式Fmを設定できるという利点がある。第1実施形態では、聴覚印象EYmに関連する複数の中間要素EZを介した聴覚印象EYmと各音響特徴EXとの対応関係λmが関係性記述データDCで規定されるから、聴覚印象EYmと各音響特徴EXとを直接的に相関させた構成(対応関係λmが聴覚印象EYmおよび音響特徴EXのみを包含する構成)と比較して、聴覚印象EYmと各音響特徴EXとの実際の相関を関連式Fmで適切に表現できるという前述の効果は格別に顕著である。
図1の情報生成部32は、印象特定部24が第1実施形態と同様に特定した聴覚印象(M個の印象指標Y1〜YM)に応じた提示データQを生成する。すなわち、情報生成部32は、M個の印象指標Y1〜YMを提示データQに変換する要素とも換言され得る。第1実施形態の提示処理部26は、情報生成部32が生成した提示データQを利用者に提示する。具体的には、提示処理部26は、提示データQの内容を表示装置18に表示させる。
第1実施形態の情報生成部32は、印象特定部24が特定したM個の印象指標Y1〜YM(歌唱スタイル情報S)に応じた楽曲の関連データdAを提示データQとして生成する。具体的には、情報生成部32は、M個の印象指標Y1〜YMに応じた楽曲を複数の候補から検索し、当該楽曲の関連データdAを取得する。関連データdAは、楽曲に関連する情報である。例えば、楽曲の識別情報(例えば楽曲番号)のほか楽曲名や歌手名やジャンル等の属性情報が関連データdAに包含される。
情報生成部32による楽曲の検索(関連データdAの生成)には、記憶装置12に記憶された検索用データWAが利用される。検索用データWAは、歌唱スタイル情報S(M個の印象指標Y1〜YM)と楽曲との関係を規定する。具体的には、第1実施形態の検索用データWAは、相異なる歌唱スタイルに対応する複数のクラスCL(CL1,CL2,……)の各々について楽曲の関連データdA(dA1,dA2,……)を指定する。
具体的には、任意の楽曲の歌唱音声Vから生成された多数の歌唱スタイル情報Sが複数のクラスCLに分類され、任意の1個のクラスCLに分類された各歌唱スタイル情報Sの歌唱音声Vにて例えば歌唱回数が最多である1個の楽曲の関連データdAが検索用データWAにて当該クラスCLに指定される。すなわち、任意の1種類の歌唱スタイルに対応するクラスCLについては、多数の歌唱者が当該歌唱スタイルで歌唱する傾向がある楽曲の関連データdAが指定される。歌唱スタイル情報Sの分類には公知の統計処理(クラスタリング)が任意に採用され、複数のクラスCLは、例えば、各クラスCLに属する歌唱スタイル情報Sの分布を近似する混合正規分布で表現される。
情報生成部32は、検索用データWAに登録された複数のクラスCLのうち印象特定部24が生成した歌唱スタイル情報S(M個の印象指標Y1〜YM)が属する1個のクラスCLを特定し、検索用データWAにて当該クラスCLに指定された楽曲の関連データdAを提示データQとして選択する。提示処理部26は、情報生成部32が生成した提示データQ(関連データdA)を表示装置18に表示させる。すなわち、楽曲の識別情報や属性情報が表示装置18に表示される。以上の説明から理解される通り、歌唱音声Vと同様の歌唱スタイルで多数の歌唱者が歌唱する傾向がある楽曲(すなわち、歌唱音声Vと同様の歌唱スタイルで歌唱し易い楽曲)が利用者に提示される。
また、第1実施形態の情報生成部32は、収音装置16が収音した歌唱音声Vを利用して検索用データWAを更新することが可能である。具体的には、情報生成部32は、任意の1個の楽曲の歌唱音声Vから生成された歌唱スタイル情報Sを当該楽曲の関連データdAとともに記憶装置12に順次に蓄積し、記憶装置12に蓄積された歌唱スタイル情報Sと関連データdAの関係が反映されるように例えば公知の機械学習により検索用データWAを更新する。以上の説明から理解される通り、第1実施形態では、楽曲自体の特性(曲調等)を基準に楽曲が検索されるのではなく、多数の歌唱者が過去に歌唱した歌唱スタイルを基準に楽曲が検索される。例えば、歌唱音声Vの聴覚印象が「情熱的で明るい音声」であれば、同様に「情熱的で明るい音声」の歌唱スタイルで多数の歌唱者が過去に歌唱した楽曲が検索される。
図3は、提示データQを生成する動作のフローチャートである。例えば入力装置14に対する利用者からの操作(解析開始の指示)を契機として図3の処理が開始される。図3の処理を開始すると、特徴抽出部22は、収音装置16が収音した歌唱音声Vを取得し(S1)、歌唱音声Vのうち解析区間の音響特徴を示すN個の特徴指標X1〜XNを抽出する(S2)。解析区間は、歌唱音声Vのうち聴覚印象の解析対象となる区間であり、例えば歌唱音声Vの全区間または一部の区間(例えばサビ区間)である。印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを各関連式Fmに適用することでM個の印象指標Y1〜YMを算定する(S3)。情報生成部32は、M個の印象指標Y1〜YMに応じた楽曲を検索用データWAから検索し、当該楽曲の関連データdAを提示データQとして特定する(S4)。提示処理部26は、情報生成部32が生成した提示データQを表示装置18に表示させる(S5)。
ところで、利用者の要求に適合する楽曲を検索する技術は従来から提案されている。例えば特開2011−197345号公報には、利用者が指定したキーワードに対応する楽曲を検索して利用者に提示する技術が開示されている。しかし、以上の技術では、利用者が指定したキーワードに形式的に関連する楽曲が検索されるに過ぎない。第1実施形態では、印象特定部24が特定した歌唱音声Vの聴覚印象(歌唱スタイル)に応じた楽曲が利用者に提示されるから、歌唱音声Vを発声した利用者が自身の歌唱スタイルに適合する楽曲(自身の歌唱スタイルで歌唱し易い楽曲)を認識できるという利点がある。
<第1実施形態の変形例>
(1)以上の説明では、歌唱スタイル情報Sの複数のクラスCLの各々について検索用データWAが1個の楽曲を指定する構成を例示したが、任意の1個のクラスCLについて、当該クラスCLに分類された歌唱スタイルの各歌唱音声Vにて歌唱された複数の楽曲の関連データdAを指定することも可能である。情報生成部32は、印象特定部24が特定した歌唱スタイル情報Sが属する1個のクラスCLに指定された複数の楽曲の関連データdAを提示データQとして生成する。すなわち、歌唱音声Vと同様の歌唱スタイルで歌唱される傾向がある複数の楽曲が利用者に提示される。
(1)以上の説明では、歌唱スタイル情報Sの複数のクラスCLの各々について検索用データWAが1個の楽曲を指定する構成を例示したが、任意の1個のクラスCLについて、当該クラスCLに分類された歌唱スタイルの各歌唱音声Vにて歌唱された複数の楽曲の関連データdAを指定することも可能である。情報生成部32は、印象特定部24が特定した歌唱スタイル情報Sが属する1個のクラスCLに指定された複数の楽曲の関連データdAを提示データQとして生成する。すなわち、歌唱音声Vと同様の歌唱スタイルで歌唱される傾向がある複数の楽曲が利用者に提示される。
(2)歌唱スタイル情報Sが属する1個のクラスCLに指定された複数の楽曲のうち1個の楽曲の関連データdAを選択的に提示することも可能である。1個のクラスCLに指定された複数の楽曲から1個の楽曲を選択する条件は任意であるが、例えば、当該クラスCLに分類された各歌唱音声Vでの歌唱回数が最多である楽曲を選択する構成や、当該クラスCLに指定された複数の楽曲のうち利用者からの指示(例えば利用者が指定した「90年代」等の選択条件や利用者の年齢等の属性情報)に応じた1個の楽曲を選択する構成が好適である。
(3)歌唱音声Vの歌唱スタイル情報Sと当該歌唱音声Vの楽曲との関係が反映されるように検索用データWAを随時に更新することも可能である。もっとも、聴覚印象が適切でない歌唱音声Vの歌唱スタイル情報Sが検索用データWAに反映されると、楽曲の適切な検索が阻害される可能性がある。そこで、検索用データWAに反映させる歌唱スタイル情報Sを選別する構成が好適である。例えば、歌唱音声Vの実際の聴覚印象の適否を利用者(発声者や受聴者)が入力装置14の操作で指定し、聴覚印象が適切と判定された歌唱音声Vについては歌唱スタイル情報Sと楽曲との関係が検索用データWAに反映され、聴覚印象が不適切と判定された歌唱音声Vの歌唱スタイル情報Sは検索用データWAに反映されない。以上の構成によれば、多数の歌唱者の歌唱スタイルを反映した検索用データWAを生成できるという利点がある。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図4は、第2実施形態の音響解析装置100Bの構成図である。図4に例示される通り、第2実施形態の音響解析装置100Bは、第1実施形態の音響解析装置100A(図1)と同様の要素を含んで構成される。特徴抽出部22によるN個の特徴指標X1〜XNの抽出と、印象特定部24によるM個の印象指標Y1〜YMの特定と、関連式設定部40によるM個の関連式F1〜FMの設定とは、第1実施形態と同様である。したがって、第2実施形態においても、第1実施形態と同様に、歌唱音声Vの受聴者が実際に感取する主観的な印象を適切に評価できるという効果が実現される。
第2実施形態の記憶装置12は、聴覚印象(M個の印象指標Y1〜YM)を表象する複数の画像データdBを記憶する。各画像データdBは、聴覚印象を比喩的ないし模式的に表象する画像(記号や文字を含む)を表現する。例えば、印象特定部24が特定した聴覚印象に適合したキャラクタ(動物等)や有名人等の画像が画像データdBとして好適である。第1実施形態の情報生成部32は、記憶装置12に記憶された複数の画像データdBのうち印象特定部24が特定した聴覚印象(M個の印象指標Y1〜YM)を表象する画像データdBを提示データQとして選択する。情報生成部32による画像データdBの選択には、記憶装置12に記憶された変換用データWBが利用される。
変換用データWBは、M個の印象指標Y1〜YM(歌唱スタイル情報S)と画像データdBとの関係を規定する。具体的には、変換用データWBは、M個の印象指標Y1〜YMと画像データdBとの相関を規定する構造方程式を表現する。各構造方程式の設定には、第1実施形態で例示したM個の関連式F1〜FMの設定と同様に、例えば構造方程式モデリング(SEM)が好適に利用される。すなわち、例えば、M個の印象指標Y1〜YMと画像データdBとを相互に対応させた複数の学習データ(学習データ)と、M種類の聴覚印象と画像データdBとの対応関係を規定する関係性記述データとを利用した構造方程式モデリングで、M個の印象指標Y1〜YMと画像データdBとの関係を規定する構造方程式が事前に設定され、変換用データWBとして記憶装置12に格納される。例えば、長幼に関する印象指標Ymが子供っぽい音声を示す場合には子供っぽいキャラクタの画像を示す画像データdBが生成され、明暗に関する印象指標Ymが明るい音声を示す場合には明るい表情のキャラクタの画像を示す画像データdBが生成されるように、変換用データWBが設定および記憶される。
情報生成部32は、印象特定部24が特定したM個の印象指標Y1〜YMを変換用データWBの構造方程式に適用することで画像データdBを特定し、記憶装置12に記憶された当該画像データdBを提示データQとして取得する。提示処理部26は、情報生成部32が生成した提示データQを表示装置18に表示させる。以上の説明から理解される通り、歌唱音声Vの聴覚印象(歌唱スタイル)を比喩的または模式的に表象する画像が表示装置18に表示される。利用者は、表示装置18に表示された画像を視認することで、歌唱音声Vの聴覚印象を視覚的および直観的に把握することが可能である。
ところで、例えば特開2002−041063号公報には、楽曲名や歌唱回数や採点結果等の情報に応じたキャラクタの画像を表示する技術が開示されている。しかし、以上の技術では、歌唱音声の聴覚印象とは無関係な画像が表示されるに過ぎない。第2実施形態では、印象特定部24が特定した歌唱音声Vの聴覚印象に応じた画像(歌唱スタイルを表象する画像)が提示されるから、歌唱音声Vの聴覚印象を利用者が直観的に把握できるという利点や利用者に興趣性を提供できるという利点がある。
なお、単純に歌唱音声Vの特性に応じた画像データdBを選択するならば、歌唱音声Vの各特徴指標Xnと画像データdBとの間の直接的な関係を事前に決定し、特徴抽出部22が抽出した各特徴指標Xnに応じた画像データdBを選択する構成も想定され得る。しかし、各特徴指標Xnの具体的な数値が何れの聴覚印象に対応するのかを把握することは困難であるから、歌唱音声Vの聴覚印象を表象する画像データdBを特徴指標Xnに適切に対応させることは実際には困難である。第2実施形態では、聴覚印象(M個の印象指標Y1〜YM)と画像データdBとの関係が変換用データWBで規定されるから、各聴覚印象に相応しい画像データdBを変換用データWBにて各印象指標Ymに対応させることが可能である。また、関連式F1〜FMとは独立に、聴覚印象と画像データdBとの関係を変更できるという利点もある。
<第2実施形態の変形例>
(1)歌唱音声Vの聴覚印象に応じた複数の画像データdBを提示データQとして生成することも可能である。具体的には、記憶装置12に記憶された複数の画像データdBが複数(K個)のグループ(カテゴリ)に分類され、相異なるグループから選択したK個の画像データdBを含む提示データQを情報生成部32が生成する。図5に例示される通り、各グループは、特定の物品を構成する各要素に対応する。例えば、「トッピング」と「クリーム」と「ベース」とを要素として構成される「ケーキ」を想定すると(K=3)、「トッピング」の各画像を示す複数の画像データdBと、「クリーム」の各画像を示す複数の画像データdBと、「ベース」の各画像を示す複数の画像データdBとが記憶装置12に記憶される。
(1)歌唱音声Vの聴覚印象に応じた複数の画像データdBを提示データQとして生成することも可能である。具体的には、記憶装置12に記憶された複数の画像データdBが複数(K個)のグループ(カテゴリ)に分類され、相異なるグループから選択したK個の画像データdBを含む提示データQを情報生成部32が生成する。図5に例示される通り、各グループは、特定の物品を構成する各要素に対応する。例えば、「トッピング」と「クリーム」と「ベース」とを要素として構成される「ケーキ」を想定すると(K=3)、「トッピング」の各画像を示す複数の画像データdBと、「クリーム」の各画像を示す複数の画像データdBと、「ベース」の各画像を示す複数の画像データdBとが記憶装置12に記憶される。
特徴抽出部22によるN個の特徴指標X1〜XNの抽出と印象特定部24によるM個の印象指標Y1〜YMの特定とが、歌唱音声Vを時間軸上で区分したK個の単位区間の各々について順次に実行される。歌唱音声Vを複数の単位区間に区分する方法は任意であるが、例えば図5に例示される通り、楽曲の音楽的な意味に応じて歌唱音声Vを複数の単位区間(A〜Cメロ,サビ1,サビ2)に区分することが可能である。K個の単位区間の各々は画像データdBの1個のグループに対応する。情報生成部32は、歌唱音声VのK個の単位区間の各々について、当該単位区間に対応するグループの複数の画像データdBのうち当該単位区間のM個の印象指標Y1〜YMに応じた1個の画像データdBを選択する。すなわち、歌唱音声Vの単位区間毎に1個の画像データdBが選択され、最終的には、相異なる単位区間に対応するK個の画像データdBを含む提示データQが生成される。具体的には、歌唱音声Vのうち「A〜Cメロ」の単位区間から特定されたM個の印象指標Y1〜YMに応じて「トッピング」のグループから1個の画像データdB(図5の例示では「イチゴ」の画像)が選択され、「サビ1」の単位区間のM個の印象指標Y1〜YMに応じて「クリーム」のグループから1個の画像データdB(図5の例示では「ホイップクリーム」の画像)が選択され、「サビ2」の単位区間のM個の印象指標Y1〜YMに応じて「ベース」のグループから1個の画像データdB(図5の例示では「円盤状のスポンジ」の画像)が選択される。
提示処理部26は、楽曲の歌唱の終了後に、提示データQに包含されるK個の画像データdBを組合せた画像を表示装置18に表示させる。具体的には、図5に例示される通り、「トッピング」の画像データdBと「クリーム」の画像データdBと「ベース」の画像データdBとを組合せた「ケーキ」の画像が表示装置18に表示される。各単位区間の画像データdBは当該単位区間の聴覚印象に応じて選択されるから、提示データQに応じて表示される物品の画像の内容(物品を構成する各要素の態様)は各単位区間の聴覚印象に応じて変化する。したがって、利用者に提示される画像が多様化されて興趣性を提供することが可能である。なお、複数の画像データdBの組合せで表示される画像の内容は以上の例示(ケーキ)に限定されない。例えば、利用者を表象するアバター等のキャラクタを表示する構成では、キャラクタを構成する各要素(例えば衣服または髪型等の各要素や、顔を構成する目や口等の各要素)の画像を示す画像データdBが歌唱音声Vの単位区間毎に選択される。
なお、以上の例示では、歌唱音声Vを時間軸上で区分した単位区間毎に画像データdBを選択したが、単位区間以外の要素毎に画像データdBを選択することも可能である。例えば、情報生成部32が、M種類の聴覚印象の各々について(すなわち聴覚印象毎に)当該聴覚印象の印象指標Ymに応じた画像データdBを選択する構成も採用され得る。
(2)事前に用意された複数の画像データdBを複数のグループ(カテゴリ)に分類し、複数のグループのうち所定の条件で選択された1個のグループからM個の印象指標Y1〜YMに応じた画像データdBを情報生成部32が提示データQとして選択することも可能である。1個のグループを選択する条件は任意であるが、例えば、複数のグループのうち利用者が入力装置14に対する操作で指定したグループから画像データdBを選択する構成や、複数のグループのうち利用者の属性情報(例えば年齢や性別等)に応じて選択したグループから画像データdBを選択する構成が好適である。また、複数の利用者の属性情報に応じて画像データdBのグループを選択することも可能である。
(3)以上の説明では、各印象指標Ymと画像データdBとの相関を規定する構造方程式を表現する変換用データWBを例示したが、各印象指標Ymと画像データdBとを相互に対応させたデータテーブルを変換用データWBとして利用することも可能である。
<第3実施形態>
図6は、第3実施形態の音響解析装置100Cの構成図である。図6に例示される通り、第3実施形態の音響解析装置100Cは、第1実施形態の音響解析装置100A(図1)と同様の要素を含んで構成される。特徴抽出部22によるN個の特徴指標X1〜XNの抽出と、印象特定部24によるM個の印象指標Y1〜YMの特定と、関連式設定部40によるM個の関連式F1〜FMの設定とは、第1実施形態と同様である。したがって、第2実施形態においても、第1実施形態と同様に、歌唱音声Vの受聴者が実際に感取する主観的な印象を適切に評価できるという効果が実現される。
図6は、第3実施形態の音響解析装置100Cの構成図である。図6に例示される通り、第3実施形態の音響解析装置100Cは、第1実施形態の音響解析装置100A(図1)と同様の要素を含んで構成される。特徴抽出部22によるN個の特徴指標X1〜XNの抽出と、印象特定部24によるM個の印象指標Y1〜YMの特定と、関連式設定部40によるM個の関連式F1〜FMの設定とは、第1実施形態と同様である。したがって、第2実施形態においても、第1実施形態と同様に、歌唱音声Vの受聴者が実際に感取する主観的な印象を適切に評価できるという効果が実現される。
第3実施形態では、歌唱音声Vの聴覚印象の履歴を示す履歴データHが利用者毎に記憶装置12に記憶される。図6に例示される通り、履歴データHは、利用者情報hAと印象履歴hBとを含んで構成される。利用者情報hAは、歌唱音声Vを発声した利用者の識別情報や属性情報(例えば年齢や性別)を包含する。印象履歴hBは、利用者の歌唱音声Vから印象特定部24が過去に特定した各印象指標Ymの時系列である。歌唱音声VのM個の印象指標Y1〜YM(歌唱スタイル情報S)を特定すると、印象特定部24は、当該歌唱音声Vを発声した利用者の履歴データHの印象履歴hBに当該印象指標Y1〜YMを追加する。以上の説明から理解される通り、履歴データHは、各利用者の歌唱スタイルの時間的な遷移を表現する時系列データとも換言され得る。
第3実施形態の記憶装置12は、利用者の性状を表現する複数の性状データdCを記憶する。具体的には、性状データdCは、利用者の性状を意味する文字列を表現する。利用者の性状とは、利用者の性質(気質,性格)や状態(例えば精神的または肉体的な状況)である。例えば、公知の性格分類(例えばクレッチマー気質分類,ユング分類,エニアグラム分類)で規定される複数の性格が性状データdCで表現される。
第3実施形態の情報生成部32は、利用者の歌唱音声Vについて印象特定部24が過去に特定した聴覚印象に応じて当該利用者の性状を推定する。具体的には、情報生成部32は、記憶装置12に記憶された複数の性状データdCのうち利用者の履歴データHが示す聴覚印象の履歴に応じた性状データdCを提示データQとして選択する。情報生成部32による性状データdCの選択(利用者の性状の推定)には、記憶装置12に記憶された変換用データWCが利用される。
変換用データWCは、印象履歴hB(聴覚印象の時系列)と性状データdCとの関係を規定する。具体的には、第3実施形態の変換用データWCは、印象履歴hB(hB1,hB2,……)と性状データdC(dC1,dC2,……)とを相互に対応させたデータテーブルである。例えば、図7に例示される通り、明暗に関する印象指標Ymの時系列において明暗(明るい/暗い)が交互に現れる印象履歴hBには、クレッチマー気質分類における「循環型気質」の性状データdCが対応する。また、図8に例示される通り、活動性(強勢な/静穏な)に関する印象指標Ymの時系列において強勢な(激しい)音声から静穏な音声に変化する印象履歴hBには「今日はお疲れですか」等の状態を示す性状データdCが対応する。
利用者は、入力装置14に対する操作で自身の識別情報を指定したうえで楽曲を歌唱する。情報生成部32は、記憶装置12に記憶された複数の性状データdCのうち、識別情報で特定される利用者の履歴データHの印象履歴hBに変換用データWCにて対応づけられた性状データdCを提示データQとして特定する。提示処理部26は、情報生成部32が生成した提示データQを表示装置18に表示させる。以上の説明から理解される通り、第3実施形態では、歌唱音声Vの聴覚印象を参照して利用者の性状を推定した結果(性状データdC)が表示装置18に表示される。利用者は、表示装置18に表示された画像を視認することで、自身の性状の推定結果を確認することが可能である。第3実施形態では特に、歌唱音声Vの各印象指標Ymの時系列(印象履歴hB)を利用して発声者の性状が推定されるから、歌唱音声Vの聴覚印象の時間変化を加味した適切な性状を推定できるという利点がある。
なお、特許文献1や特許文献2の技術では、模範的な歌唱音声と評価対象の歌唱音声との特徴量の相違のみに着目した歌唱の客観的な巧拙が評価されるに過ぎない。第3実施形態によれば、歌唱音声Vの聴覚印象に応じて利用者の性状が推定および提示されるから、演出的な効果や興趣性を利用者に付与することが可能である。また、第3実施形態にて歌唱音声Vから利用者の性状を推定した結果を、利用者の精神的/肉体的な状態の管理等(例えば心理カウンセリング,健康管理,セラピー,自己啓発)に利用することも可能である。また、表示装置18に提示される自分の性状が目標に近付くように歌唱スタイルを調整することで、所望の印象を他者に付与できるような歌唱スタイルを習得することも可能である。
<第3実施形態の変形例>
(1)事前に用意された複数の性状データdCを複数のグループ(カテゴリ)に分類し、複数のグループのうち所定の条件で選択された1個のグループから履歴データH(印象履歴hB)に応じた性状データdCを情報生成部32が特定することも可能である。1個のグループを選択する条件は任意であるが、例えば、複数のグループのうち利用者が入力装置14に対する操作で指定したグループから性状データdCを選択する構成や、複数のグループのうち利用者の属性情報(例えば年齢や性別等)に応じて選択したグループから性状データdCを選択する構成が好適である。また、複数の利用者の属性情報に応じて性状データdCのグループを選択することも可能である。
(1)事前に用意された複数の性状データdCを複数のグループ(カテゴリ)に分類し、複数のグループのうち所定の条件で選択された1個のグループから履歴データH(印象履歴hB)に応じた性状データdCを情報生成部32が特定することも可能である。1個のグループを選択する条件は任意であるが、例えば、複数のグループのうち利用者が入力装置14に対する操作で指定したグループから性状データdCを選択する構成や、複数のグループのうち利用者の属性情報(例えば年齢や性別等)に応じて選択したグループから性状データdCを選択する構成が好適である。また、複数の利用者の属性情報に応じて性状データdCのグループを選択することも可能である。
(2)履歴データHの印象履歴hBの内容は以上の例示(印象指標Ymの時系列)に限定されない。例えば、印象指標Ymの数値毎の頻度や変動率(単位時間内の変化量)を印象履歴hBとして利用することも可能である。また、楽曲のうち特定の区間(例えばサビ)の印象指標Ymの時系列を印象履歴hBとして履歴データHを生成する構成や、特定の期間毎(例えば1日毎,1週毎,1月毎)に履歴データHを生成する構成も採用され得る。また、楽曲の曲調に応じて歌唱の仕方が相違し得ることを考慮すると、楽曲毎(または楽曲のジャンル毎)に履歴データHを生成する構成も好適である。
(3)以上の説明では、利用者の性状を意味する文字列を示す性状データdCを例示したが、利用者の性状を表象する画像(例えば似顔絵やキャラクタ)の画像データを性状データdCとして利用することも可能である。また、性状データdCが共通する利用者や有名人を提示する構成や、性状データdCが示す性状とは反対の性状を利用者に提案する構成も採用され得る。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は適宜に併合され得る。
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は適宜に併合され得る。
(1)印象特定部24が特定した歌唱音声VのM個の印象指標Y1〜YM(歌唱スタイル情報S)を表現する解析結果画像70を提示処理部26が表示装置18に表示させる構成も好適である。図9は、M種類の印象指標Y1〜YMのうち長幼(大人っぽい/子供っぽい)に関する1個の印象指標Y1と清濁(清らかで透明感がある/嗄れて濁っている)に関する1個の印象指標Y2とを表象する解析結果画像70の表示例である。図9から理解される通り、解析結果画像70は、印象指標Y1の数値を示す第1軸71と印象指標Y2の数値を示す第2軸72とが設定された座標平面を包含する。第1軸71のうち印象特定部24が算定した印象指標Y1の数値と、第2軸72のうち印象特定部24が算定した印象指標Y2の数値とに対応した座標位置に、歌唱音声Vの聴覚印象を意味する画像(アイコン)74が配置される。以上の説明から理解される通り、解析結果画像70は、歌唱音声Vの聴覚印象を表象する画像(長幼や清濁を含む歌唱スタイルを表象する画像)である。利用者は、表示装置18に表示された解析結果画像70を視認することで、歌唱音声Vの聴覚印象を視覚的および直観的に把握することが可能である。
(2)前述の各形態では、複数の参照データrが記憶装置12に事前に記憶された場合を例示したが、以下に例示される通り、収音装置16が収音した歌唱音声Vを参照音とした新規な参照データrを利用して各関連式Fmを更新することも可能である。
利用者(歌唱音声Vの発声者や受聴者)は、楽曲の終了後に、入力装置14を適宜に操作することで歌唱音声Vの聴覚印象を指定する。例えば、M種類の聴覚印象の各々について印象指標Ymの複数の選択肢(複数段階の評価)が表示装置18に表示され、利用者は、聴覚印象毎に所望の1個の選択肢を指定する。
図1に破線の矢印で図示される通り、関連式設定部40は、利用者が指定した各聴覚印象の印象指標ym(y1〜ym)と歌唱音声Vについて特徴抽出部22が抽出した各特徴指標xn(x1〜xN)とを含む参照データrを取得して記憶装置12に格納する。そして、関連式設定部40は、歌唱音声Vに応じた新規な参照データrを包含する参照データ群DRを利用して、第1実施形態と同様の方法で関連式Fm(F1〜FM)を設定および記憶する。すなわち、収音装置16が収音した歌唱音声Vの聴覚印象(印象指標ym)と音響特徴(特徴指標xn)との関係を反映した内容に既定の関連式Fm(F1〜FM)が更新される。以上の構成によれば、関連式F1〜FMを、実際の歌唱音声Vの聴覚印象と音響特徴との関係を反映した内容に更新できるという利点がある。なお、参照データ群DRを利用した関連式Fmの設定(更新)の時期は任意である。例えば、歌唱音声Vに応じた参照データrの取得毎に関連式Fmを更新する構成や、新規な参照データrが所定数だけ蓄積された場合に関連式Fmを更新する構成が採用され得る。
(3)前述の各形態では、楽曲の全区間にわたる歌唱音声Vを対象として聴覚印象を特定したが、歌唱音声Vを時間軸上で区分した複数の区間の各々について聴覚印象(M個の印象指標Y1〜YM)を順次に特定することも可能である。歌唱音声Vの区間毎に聴覚印象を順次に特定する場合、第1実施形態から第3実施形態で例示した提示データQを、歌唱音声Vの各区間の聴覚印象に応じて区間毎に順次に(実時間的に)更新する構成も採用され得る。
(4)前述の各形態では、収音装置16が収音した歌唱音声Vを解析する要素(特徴抽出部22,印象特定部24,提示処理部26,情報生成部32)と、各関連式Fmを設定する関連式設定部40との双方を具備する音響解析装置100(100A,100B,100C)を例示したが、関連式設定部40を他の要素とは別体の装置に搭載することも可能である。
例えば図10に例示される通り、通信網200(例えばインターネット)を介して相互に通信する音響解析装置110と音響解析装置120とに、前述の各形態で例示した機能を分担させることも可能である。音響解析装置(関連式設定装置)110は、参照データ群DRと関係性記述データDCとを利用して第1実施形態と同様の方法でM個の関連式F1〜FMを設定する関連式設定部40を具備する。例えば通信網200に接続されたサーバ装置で音響解析装置110は実現される。図10に例示される通り、音響解析装置110(関連式設定部40)が設定したM個の関連式F1〜FMは、通信網200を介して音響解析装置120に転送される。音響解析装置110から複数の音響解析装置120にM個の関連式F1〜FMを共通に転送することも可能である。音響解析装置120は、特徴抽出部22と印象特定部24とを含んで構成され、音響解析装置110から転送されたM個の関連式F1〜FMを利用して第1実施形態と同様に歌唱音声Vを解析することで歌唱音声Vの聴覚印象(M個の印象指標Y1〜YM)を特定する。音響解析装置120には、第1実施形態から第3実施形態と同様の情報生成部32が設置され得る。図10の構成では、参照データ群DRおよび関係性記述データDCの保持や各関連式Fmの設定を音響解析装置120に実行させる必要がないから、音響解析装置120の構成および処理が簡素化されるという利点がある。
(5)前述の各形態において、各種の機器を制御するための制御データを提示データQとして歌唱音声Vの聴覚印象に応じて設定することも可能である。制御データは、例えば楽曲の歌唱中に表示装置18に表示される画像(背景画像)の制御や、再生機器(カラオケ装置)が再生する伴奏音の再生、照明機器等の演出効果の制御に適用される。カラオケ店等の店舗内で注文可能な飲食物を提示データQに応じて変更することも可能である。また、歌唱音声Vの聴覚印象(M個の印象指標Y1〜YM)を歌唱評価(採点)に応用することも可能である。例えば、歌唱評価に適用される変数を提示データQAに応じて調整する構成や、楽曲毎に事前に登録された印象と歌唱音声Vの聴覚印象との類似度(異同)を評価結果に反映させる構成(例えば両者が類似するほど加点を増加させる構成)が好適に採用される。
(6)前述の各形態では、参照データ群DRと関係性記述データDCとを利用して設定された関連式Fmを例示したが、関連式Fmの設定方法は本発明において任意である。例えば、前述の疑似相関が特段の問題とならない場合、対比例と同様に、関係性記述データDCを利用せずに、参照データ群DRの複数の参照データrのみを利用して印象指標ymと特徴指標xnとの相関の傾向を統計的に解析することで各印象指標Ymの関連式Fmを設定することも可能である。
(7)前述の各形態では、利用者が楽曲を歌唱した歌唱音声Vを例示したが、解析対象は歌唱音声Vに限定されない。例えば、会話音等の音声や楽器の演奏音(楽音)、音声合成技術で生成された合成音声(歌唱音声や会話音)について各関連式Fmを利用した解析で聴覚印象(M個の印象指標Y1〜YM)を特定することも可能である。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声(例えば会議での会話音)や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響(解析対象音)の具体的な内容(種類)や発音の原理等は任意である。
100(100A,100B,100C),110,120……音響解析装置、10……演算処理装置、12……記憶装置、14……入力装置、16……収音装置、18……表示装置、22……特徴抽出部、24……印象特定部、26……提示処理部、32……情報生成部、40……関連式設定部、42……目標設定部、44……解析処理部、46……音響処理部。
(7)前述の各形態では、利用者が楽曲を歌唱した歌唱音声Vを例示したが、解析対象は歌唱音声Vに限定されない。例えば、会話音等の音声や楽器の演奏音(楽音)、音声合成技術で生成された合成音声(歌唱音声や会話音)について各関連式Fmを利用した解析で聴覚印象(M個の印象指標Y1〜YM)を特定することも可能である。例えば、楽器の演奏音の解析では、前述の各形態と同様に、例えば明暗や清濁等の印象指標Ymが特定され得る。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声(例えば会議での会話音)や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響(解析対象音)の具体的な内容(種類)や発音の原理等は任意である。
Claims (5)
- 解析対象音の特徴指標を抽出する特徴抽出手段と、
参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、前記聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して設定され、前記関係性記述データで規定される対応関係における前記聴覚印象の印象指標と前記複数種の音響特徴の特徴指標との関係を表現する関連式に、前記特徴抽出手段が抽出した特徴指標を適用することで、前記解析対象音の印象指標を算定する印象特定手段と
前記印象特定手段が特定した印象指標に応じた提示データを生成する情報生成手段と、
前記情報生成手段が生成した提示データを利用者に提示する提示処理手段と
を具備する音響解析装置。 - 前記情報生成手段は、前記印象特定手段が特定した印象指標に応じた楽曲の関連情報を示す関連データを前記提示データとして生成する
請求項1の音響解析装置。 - 前記情報生成手段は、前記印象特定手段が特定した印象指標が示す聴覚印象を表象する画像を示す画像データを前記提示データとして生成する
請求項1の音響解析装置。 - 前記印象特定手段は、前記解析対象音を時間軸上で区分した複数の単位区間の各々について前記印象指標を特定し、
前記情報生成手段は、前記複数の単位区間の各々について当該単位区間の印象指標に応じた画像データを特定し、前記各単位区間の画像データの組合せで表現される画像を示す前記提示データを生成する
請求項3の音響解析装置。 - 前記情報生成手段は、前記印象特定手段が前記解析対象音の発声者について順次に特定した印象指標の時系列に応じて、当該発声者の性状を示す前記性状データを前記提示データとして生成する
請求項1の音響解析装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014186192A JP2016057571A (ja) | 2014-09-12 | 2014-09-12 | 音響解析装置 |
PCT/JP2015/075924 WO2016039464A1 (ja) | 2014-09-12 | 2015-09-11 | 音響解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014186192A JP2016057571A (ja) | 2014-09-12 | 2014-09-12 | 音響解析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016057571A true JP2016057571A (ja) | 2016-04-21 |
Family
ID=55459207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014186192A Pending JP2016057571A (ja) | 2014-09-12 | 2014-09-12 | 音響解析装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2016057571A (ja) |
WO (1) | WO2016039464A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4622199B2 (ja) * | 2001-09-21 | 2011-02-02 | 日本ビクター株式会社 | 楽曲検索装置及び楽曲検索方法 |
JP6114980B2 (ja) * | 2012-10-16 | 2017-04-19 | Kddi株式会社 | 楽曲処理装置および楽曲処理方法 |
-
2014
- 2014-09-12 JP JP2014186192A patent/JP2016057571A/ja active Pending
-
2015
- 2015-09-11 WO PCT/JP2015/075924 patent/WO2016039464A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2016039464A1 (ja) | 2016-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI307493B (ja) | ||
Meyers | A mood-based music classification and exploration system | |
Waddell et al. | Eye of the beholder: Stage entrance behavior and facial expression affect continuous quality ratings in music performance | |
Mion et al. | Score-independent audio features for description of music expression | |
Davis et al. | Generating music from literature | |
US20210303612A1 (en) | Identifying media content | |
Xu et al. | Predicting the preference for sad music: the role of gender, personality, and audio features | |
CN102880693A (zh) | 一种基于个体发声能力的音乐推荐方法 | |
Chau et al. | The emotional characteristics of piano sounds with different pitch and dynamics | |
Proutskova et al. | Breathy, resonant, pressed–automatic detection of phonation mode from audio recordings of singing | |
CN109920409A (zh) | 一种声音检索方法、装置、系统及存储介质 | |
Brunkan | Relationships of a circular singer arm gesture to acoustical and perceptual measures of singing: A motion capture study | |
Yang et al. | Examining emotion perception agreement in live music performance | |
JP6350325B2 (ja) | 音声解析装置およびプログラム | |
Beveridge et al. | Popular music and the role of vocal melody in perceived emotion | |
US10403304B1 (en) | Neural networks for identifying the potential of digitized audio to induce frisson in listeners | |
WO2016039463A1 (ja) | 音響解析装置 | |
Tulilaulu et al. | Data musicalization | |
CN109802987A (zh) | 用于显示装置的内容推送方法、推送装置和显示设备 | |
WO2016039464A1 (ja) | 音響解析装置 | |
WO2016039465A1 (ja) | 音響解析装置 | |
Liu et al. | Emotion Recognition of Violin Music based on Strings Music Theory for Mascot Robot System. | |
KR102623459B1 (ko) | 사용자의 보컬 평가에 기반한 오디션 이벤트 서비스 제공 방법, 장치 및 시스템 | |
Rao et al. | A study on music based audio and brain signal processing | |
Mohd Norowi | An artificial intelligence approach to concatenative sound synthesis |