JP2016057572A - 音響解析装置 - Google Patents

音響解析装置 Download PDF

Info

Publication number
JP2016057572A
JP2016057572A JP2014186193A JP2014186193A JP2016057572A JP 2016057572 A JP2016057572 A JP 2016057572A JP 2014186193 A JP2014186193 A JP 2014186193A JP 2014186193 A JP2014186193 A JP 2014186193A JP 2016057572 A JP2016057572 A JP 2016057572A
Authority
JP
Japan
Prior art keywords
impression
index
feature
acoustic
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014186193A
Other languages
English (en)
Inventor
隆一 成山
Ryuichi Nariyama
隆一 成山
英樹 阪梨
Hideki Sakanashi
英樹 阪梨
舞 小池
Mai Koike
舞 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014186193A priority Critical patent/JP2016057572A/ja
Priority to PCT/JP2015/075925 priority patent/WO2016039465A1/ja
Publication of JP2016057572A publication Critical patent/JP2016057572A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに音響の聴覚印象を目標に近付ける。
【解決手段】特徴抽出部22は、歌唱音声Vの特徴指標Xnを抽出する。印象特定部24は、参照音の聴覚印象を示す印象指標ymと当該参照音の音響特徴を示す特徴指標xnとを相互に対応させた複数の参照データr、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データDCを利用して設定され、関係性記述データDCで規定される対応関係における聴覚印象の印象指標Ymと複数種の音響特徴の特徴指標Xnとの関係を表現する関連式Fmに、特徴抽出部22が抽出した特徴指標Xnを適用することで、歌唱音声Vの印象指標Ymを算定する。目標設定部42は、印象指標Ymの目標値Amを設定する。解析処理部44は、印象特定部24が算定した歌唱音声Vの印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴を特定する。
【選択図】図1

Description

本発明は、音響を解析する技術に関する。
歌唱音声等の音響を目標の音響特性に近付けるための各種の技術が従来から提案されている。例えば特許文献1には、模範的な歌唱を示す基準値(目標)と評価対象の歌唱音声の特徴(音響特徴)との差異を順次に評価し、「発音は明瞭に」「はっきりと」等の音響特徴の改善点のコメントを評価結果に応じて利用者に提示する技術が開示されている。また、特許文献2には、合成音声の音響特徴を調整するための複数種の制御変数を利用者からの指示に応じて設定する構成が開示されている。
特開2008−020798号公報 特開2011−095397号公報
しかし、特許文献1の技術では、模範的な歌唱を実現するための音響特徴の改善点が利用者に提示されるに過ぎず、受聴者に特定の聴覚印象(例えば「大人っぽい歌唱」等)を感取させ得る歌唱を実現することは困難である。また、特許文献2の技術では、複数種の制御変数のうちの何れを如何に調整すれば所望の聴覚印象の音声が実現されるのかを利用者が明確に把握することは困難である。以上の通り、特許文献1および特許文献2の何れの技術のもとでも、所望の聴覚印象が感取され得る音響を実現するためには、音響特徴と聴覚印象との相関(所望の聴覚印象を実現するために変化させるべき音響特徴)に関する専門的な知識が必要である。以上の事情を考慮して、本発明は、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに音響の聴覚印象を目標に近付けることを目的とする。
以上の課題を解決するために、本発明の音響解析装置は、解析対象音の特徴指標を抽出する特徴抽出手段と、音響の聴覚印象を示す印象指標と当該音響の音響特徴を示す複数の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する印象特定手段と、印象指標の目標値を設定する目標設定手段と、印象特定手段が算定した解析対象音の印象指標を目標値に近付けるために変化させるべき音響特徴を特定する解析処理手段とを具備する。以上の構成では、解析対象音の特徴指標を関連式に適用することで解析対象音の聴覚印象の印象指標が算定され、印象指標を目標値に近付けるために変化させるべき音響特徴が特定される。したがって、音響特徴と聴覚指標との相関に関する専門的な知識を必要とせずに、解析対象音の聴覚印象を目標に近付けるための音響特徴を特定することが可能である。
本発明の好適な態様において、印象特定手段は、参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して設定され、関係性記述データで規定される対応関係における聴覚印象の印象指標と複数種の音響特徴の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する。参照データの統計的な解析のみで関連式を設定する構成では、疑似相関(特定の特徴指標が実際には特定の聴覚印象に相関しないのに潜在的な要因によって恰も相関するかのように推測される見掛け上の関係)の影響で、実際には聴覚印象に相関しない特徴指標が当該聴覚印象に優勢に影響するような関連式が導出される可能性がある。以上の態様では、印象指標と特徴指標とを相互に対応させた複数の参照データに加え、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して関連式が設定される。したがって、参照データのみを利用して関連式を設定する構成と比較して、印象指標と複数の特徴指標との実際の相関が適切に反映された関連式を利用して解析対象音の聴覚印象を適切に評価することが可能である。
本発明の好適な態様に係る音響解析装置は、解析処理手段が特定した音響特徴を利用者に提示する提示処理手段を具備する。以上の態様では、解析処理手段が特定した音響特徴が利用者に提示されるから、解析対象音の印象指標を目標値に近付けるために変化させるべき音響特徴を利用者が把握できる(ひいては当該音響特徴を改善できる)という利点がある。
本発明の好適な態様に係る音響解析装置は、解析処理手段が特定した音響特徴を変化させる音響処理を解析対象音に対して実行する音響処理手段を具備する。以上の態様では、解析処理手段が特定した音響特徴を変化させる音響処理が解析対象音に対して実行されるから、目標の聴覚印象の音響を生成することが可能である。
本発明の好適な態様において、目標設定手段は、利用者からの指示に応じて目標値を設定する。以上の態様では、印象指標の目標値が利用者からの指示に応じて設定されるから、解析対象音の聴覚印象を利用者の所望の印象に近付けるための音響特徴を特定できるという利点がある。
以上の各態様に係る音響解析装置は、専用の電子回路で実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、以上の各態様に係る音響解析装置の動作方法(音響解析方法)としても本発明は特定される。
本発明の第1実施形態に係る音響解析装置の構成図である。 関係性記述データで規定される聴覚印象と音響特徴との対応関係の説明図である。 操作画面の説明図である。 歌唱音声を解析する動作のフローチャートである。 第2実施形態に係る音響解析装置の構成図である。 解析結果の表示例である。 変形例に係る音響解析装置の構成図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100Aの構成図である。第1実施形態の音響解析装置100Aは、演算処理装置10と記憶装置12と入力装置14と収音装置16と表示装置18とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置100Aとして利用され得る。
収音装置16は、周囲の音響を収音する機器(マイクロホン)である。第1実施形態の収音装置16は、利用者が楽曲を歌唱した歌唱音声Vを収音する。音響解析装置100Aは、楽曲の伴奏音と歌唱音声Vとを混合して再生するカラオケ装置としても利用され得る。なお、収音装置16が収音した歌唱音声Vの信号をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
表示装置18(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置14は、音響解析装置100Aに対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置18と一体に構成されたタッチパネルを入力装置14として利用することも可能である。記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。
第1実施形態の音響解析装置100Aは、収音装置16が収音した歌唱音声Vを解析する信号処理装置である。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、歌唱音声Vを解析するための複数の機能(特徴抽出部22,印象特定部24,提示処理部26,関連式設定部40,目標設定部42,解析処理部44)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、演算処理装置10の機能の一部を専用の電子回路が実現する構成も採用され得る。
特徴抽出部22は、収音装置16が収音した歌唱音声Vを解析することで、相異なる種類の音響特徴を示す複数(N個)の特徴指標X1〜XNを抽出する(Nは自然数)。音響特徴は、歌唱音声Vの受聴者が感取する聴感的な印象(以下「聴覚印象」という)に影響する歌唱音声Vの音響的な特徴を意味する。具体的には、音高(ピッチ)の安定度,ビブラートの深度(音高の振幅),周波数特性等の多様な音響特徴の各々を数値化した特徴指標Xn(n=1〜N)が歌唱音声Vから抽出される。第1実施形態の特徴抽出部22が抽出するN個の特徴指標X1〜XNの数値範囲は共通する。以上の説明から理解される通り、聴覚印象は、歌唱音声Vの受聴者が感取する主観的ないし感覚的な特徴(印象)を意味し、音響特徴は、歌唱音声Vの解析で抽出される客観的ないし物理的な特徴(特性)を意味する。
印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを利用して歌唱音声Vの聴覚印象を特定する。第1実施形態の印象特定部24は、歌唱音声Vの相異なる聴覚印象を示す複数(M個)の印象指標Y1〜YMを算定する(Mは自然数)。M個の印象指標Y1〜YMは、歌唱音声Vの受聴者が感取する主観的な歌唱スタイルの情報とも換言され得る。第1実施形態における任意の1個の印象指標Ym(m=1〜M)は、相互に対立する2種類の印象の程度を数値化した指標である。具体的には、長幼(大人っぽい/子供っぽい),明暗(明るい/暗い),清濁(清らかで透明感がある/嗄れて濁っている)等の多様な聴覚印象の各々を数値化した印象指標Ymが特定される。例えば長幼に関する1個の印象指標Ymが正数の範囲で大きいほど大人っぽい音声を意味し、当該印象指標Ymが負数の範囲で小さいほど子供っぽい音声を意味する。
N個の特徴指標X1〜XNに応じた印象指標Ym(Y1〜YM)の算定には、印象指標Ym毎に事前に設定された演算式(以下「関連式」という)Fmが利用される。任意の1個の関連式Fmは、印象指標YmとN個の特徴指標X1〜XNとの関係を表現する演算式である。第1実施形態の関連式Fmは、以下に例示される通り、N個の特徴指標X1〜XNの一次式で各印象指標Ymを表現する。
Figure 2016057572
以上に例示した関連式Fmの係数anm(a11〜aNM)は、特徴指標Xnと印象指標Ymとの相関の度合に応じた定数(特徴指標Xnに対する印象指標Ymの勾配)であり、係数bm(b1〜bM)は所定の定数(切片)である。係数anmは、印象指標Ymに対する特徴指標Xnの寄与度(加重値)とも換言され得る。印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを関連式F1〜FMの各々に適用することで、相異なる聴覚印象に対応するM個の印象指標Y1〜YMを算定する。なお、第1実施形態では前述の通り線形システムを例示するが、隠れマルコフモデルやニューラルネットワーク(多層パーセプトロン)等の非線形システムを印象指標Ym(Y1〜YM)の算定に利用することも可能である。
図1の関連式設定部40は、各聴覚印象の印象指標Ymの算定に利用される関連式Fm(F1〜FM)を設定する。図1に例示される通り、第1実施形態の記憶装置12には、参照データ群DRと関係性記述データDCとが格納される。関連式設定部40は、参照データ群DRと関係性記述データDCとを利用してM個の関連式F1〜FMを設定する。
参照データ群DRは、複数の参照データrの集合(データベース)である。参照データ群DRに包含される複数の参照データrは、不特定多数の発声者が発音した音声(以下「参照音」という)を利用して事前に生成される。例えば任意の発声者が任意の楽曲を歌唱した音声が参照音として収録されて参照データrの生成に利用される。図1に例示される通り、任意の1個の参照データrは、参照音の各印象指標ym(y1〜yM)と当該参照音の特徴指標xn(x1〜xN)とを相互に対応させたデータである。印象指標ymは、参照音の受聴者が実際に感取した聴覚印象に応じた数値に設定され、特徴指標xnは、特徴抽出部22と同様の処理で参照音から抽出された音響特徴の数値に設定される。すなわち、各参照データrは、印象指標ymと特徴指標xnとの関係を実際に観測した資料(学習データ)に相当する。
関係性記述データDCは、聴覚印象と複数の音響特徴との間の対応関係(相関関係)を規定する。図2は、第1実施形態の関係性記述データDCで規定される対応関係を例示する説明図である。図2に例示される通り、第1実施形態の関係性記述データDCは、相異なる印象指標Ymに対応するM種類の聴覚印象EY(EY1〜EYM)の各々について、当該聴覚印象EYmに影響する複数種の音響特徴EXとの対応関係λm(λ1〜λM)を規定する。図2には、長幼と清濁と明暗との3種類の聴覚印象EY1〜EY3の各々について複数種の音響特徴EXとの対応関係λ1〜λ3が例示されている。
各聴覚印象EYmに相関する音響特徴EXの具体的な内容は以下の通りである。以下に例示する各音響特徴EXの数値が前述の特徴指標Xnに相当する。
・音高の安定度:時間的な音高の微小変化(揺らぎ)の度合
・立上がりの速度:発音直後の音量の増加の度合
・フォール:音高を基準値(音符の音高)から低下させる歌唱表現の度合(例えば回数)
・しゃくり:音高を基準値から経時的に上昇させる歌唱表現の度合(例えば回数)
・ビブラートの深度:ビブラートにおける音高の変化の度合(例えば振幅や回数)
・輪郭:音響の明瞭性の度合。例えば、低域成分に対する高域成分の音量比が好適。
・滑舌:音響特性の時間的な変化の度合。例えば、周波数特性(例えばホルマント周波数や基本周波数)の時間的な変化の度合(典型的には時間変化率)が好適。
・アタック:発音直後の音量
・クレッシェンド:音量の経時的な増加の度合
・周波数特性:周波数スペクトルの形状
・高次倍音:高次側(高域側)の倍音成分の強度
図2に例示される通り、第1実施形態の関係性記述データDCが任意の1種類の聴覚印象EYmについて規定する対応関係λmは、当該聴覚印象EYmに関連する複数種の中間要素EZを聴覚印象EYmと各音響特徴EXとの間に介在させた階層関係(階層構造)である。1種類の聴覚印象EYmに関連する複数種の中間要素EZは、当該聴覚印象EYmを受聴者に知覚させる要因となる印象や当該聴覚印象EYmを複数に細分化した印象に相当する。任意の1個の中間要素EZには、当該中間要素EZに影響する複数種の音響特徴EXが対応付けられる。
関係性記述データDCで規定される各対応関係λmは、例えば、音楽や音声(歌唱)に関する専門的な知識が豊富な識者(例えば音楽の制作者または指導者や歌手等)に対する調査(インタビューやアンケート)により、各聴覚印象EYmと各音響特徴EXとの間の相関(どのような音響特徴EXの音声から受聴者が如何なる聴覚印象EYmを感取する傾向があるのか)を解析することで構築される。対応関係λmの構築には、評価グリッド法等に代表される公知の調査手法が任意に採用され得る。
以上に説明した関係性記述データDCは、対応関係λmに包含される各要素(音響特徴EX,中間要素EZ,聴覚印象EYm)の相互的な関係(連結)のみを規定し、各要素間の相関の度合については規定されない。以上の観点からすると、関係性記述データDCで規定される各対応関係λmは、現実に不特定多数の発声者から収集した参照音から観測される音響特徴EXと聴覚印象EYmとの実際の相関(すなわち、現実の参照音の傾向が反映された参照データ群DRから統計的に観測される各印象指標ymと各特徴指標xnとの実際の関係)までは反映されていない仮説的な関係であると言える。
以上に説明した参照データ群DRと関係性記述データDCとが事前に作成されて記憶装置12に格納される。図1の関連式設定部40は、記憶装置12に格納された参照データ群DRと関係性記述データDCとを利用してM個の関連式F1〜FMを設定する。すなわち、関連式設定部40は、関係性記述データDCが規定する各対応関係λmのもとで聴覚印象EYmの印象指標Ymと音響特徴EXの各特徴指標Xnとの関係を表現する関連式Fmを、M個の印象指標Y1〜YMの各々について設定する。具体的には、参照データ群DRの複数の参照データrにおける印象指標ymと特徴指標xnとの相関の度合を関係性記述データDCの対応関係λmに反映した関係が関連式Fmで表現されるように、関連式設定部40は、各関連式FmのN個の係数a1m〜aNmと1個の係数bmとを設定する。関連式設定部40による各関連式Fmの設定には、例えば、構造方程式モデリング(SEM:Structural Equation Modeling)や多変量解析(例えば重回帰分析)等の公知の統計処理が任意に採用され得る。なお、図2の例示から理解される通り、関係性記述データDCで表現される対応関係λmのもとで聴覚印象EYmとの相関が規定される音響特徴EXの種類や総数は、実際には聴覚印象EYm毎に相違するが、前掲の各関連式Fmに包含される特徴指標Xnの種類や総数はM個の関連式F1〜FMにわたり共通する。対応関係λmのもとで聴覚印象EYmとの相関が規定されていない音響特徴EXの特徴指標Xnに対応する係数anmは、関連式Fmにてゼロに設定される(すなわち、当該特徴指標Xnは印象指標Ymに影響しない)。
以上の手順で関連式設定部40が設定したM個の関連式(例えば構造方程式や重回帰式)F1〜FMは記憶装置12に格納される。具体的には、N個の係数a1m〜aNmと1個の係数bmとがM個の関連式F1〜FMの各々について記憶装置12に格納される。前述の通り、印象特定部24は、関連式設定部40が設定したM個の関連式F1〜FMの各々にN個の特徴指標X1〜XNを適用することでM種類の印象指標Y1〜YMを算定する。
以上に説明した通り、第1実施形態では、歌唱音声Vから抽出される各特徴指標Xnと歌唱音声Vの聴覚印象を示す印象指標Ymとの関係を規定する関連式Fmを利用して、歌唱音声Vの聴覚印象(印象指標Y1〜YM)が特定される。したがって、例えば模範的な歌唱を示す基準値と歌唱音声Vの特徴指標Xnとの差異のみに着目して歌唱の巧拙を評価する技術と比較して、歌唱音声Vの受聴者が実際に感取する主観的な印象を適切に評価することが可能である。
ところで、参照データ群DRの複数の参照データrのみを解析することで印象指標ymと特徴指標xnとの相関の傾向を統計的に解析して関連式Fmを設定する構成(以下「対比例」という)も想定され得る。すなわち、対比例では関連式Fmの設定に関係性記述データDCが利用されない。しかし、対比例では、実際には聴覚印象EYmに相関しない特定の音響特徴EXが潜在的な要因に起因して恰も聴覚印象EYmに相関するかのように認識される見掛け上の関係(疑似相関)の影響で、実際には印象指標Ymに相関しない特徴指標Xnが当該印象指標Ymに優勢に影響するような関連式Fmが導出される可能性がある。他方、第1実施形態では、各聴覚印象EYmと各音響特徴EXとの仮説的な対応関係λmを規定する関係性記述データDCが参照データ群DRとともに関連式Fmの設定に利用されるから、聴覚印象EYmと音響特徴EXとの疑似相関の影響が低減(理想的には排除)される。したがって、聴覚印象EYmと各音響特徴EXとの実際の相関を適切に表現した関連式Fmを設定できるという利点がある。第1実施形態では、聴覚印象EYmに関連する複数の中間要素EZを介した聴覚印象EYmと各音響特徴EXとの対応関係λmが関係性記述データDCで規定されるから、聴覚印象EYmと各音響特徴EXとを直接的に相関させた構成(対応関係λmが聴覚印象EYmおよび音響特徴EXのみを包含する構成)と比較して、聴覚印象EYmと各音響特徴EXとの実際の相関を関連式Fmで適切に表現できるという前述の効果は格別に顕著である。
図1の提示処理部26は、利用者に情報を提示する。第1実施形態の提示処理部26は、表示装置18に各種の画像を表示させることで利用者に情報を提示する。具体的には、提示処理部26は、歌唱音声Vを解析した結果を表現する画像や、利用者からの指示を受付るための画像を表示装置18に表示させる。
図1の目標設定部42は、M個の印象指標Y1〜YMの各々について目標値Am(A1〜AM)を設定する。具体的には、目標設定部42は、入力装置14に対する利用者からの指示に応じて各目標値Amを可変に設定する。
例えば提示処理部26は、各印象指標Ymの目標値Amの指示を受付ける図3の操作画面80を表示装置18に表示させる。操作画面80は、M個の印象指標Y1〜YM(図3の例示ではM=3)の各々に対応する操作子画像82を包含する。各操作子画像82は、入力装置14に対する利用者からの指示に応じて移動するスライダ型の操作子の画像であり、利用者による目標値Amの指示を受付ける。目標設定部42は、各操作子画像82の位置に応じて各印象指標Ymの目標値Amを設定する。なお、操作画面80の複数の操作子画像82は各々が個別に移動され得るが、各操作子画像82を相互に連動して移動させることも可能である。
図1の解析処理部44は、印象特定部24が歌唱音声Vについて特定した各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴(特徴指標Xn)を特定する。第1実施形態の解析処理部44は、各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴と当該変化の方向(増加/減少)とを指定する解析データQを生成する。提示処理部26は、解析処理部44が生成した解析データQの内容(変化対象の音響特徴と変化方向)を表示装置18に表示させる。したがって、利用者は、自身の歌唱を目標の聴覚印象に近付けるための改善点を把握することが可能である。以上の説明から理解される通り、解析データQの提示は、目標の聴覚印象を実現するための歌唱指導に相当する。
第1実施形態の解析処理部44は、印象指標Ymと目標値Amとの差分の絶対値|Ym−Am|をM個の聴覚印象について合計した数値(以下「合計差分」という)δを最小化するために変化させるべき音響特徴をN種類の音響特徴から特定する。具体的には、解析処理部44は、N種類のうち任意の1種類の音響特徴の特徴指標Xnを所定の変化量pだけ変化させたと仮定した場合の合計差分δを、変化対象の音響特徴を相違させた複数の場合について算定したうえで相互に比較し、合計差分δが最小となる場合の変化対象の音響特徴と当該変化の方向(増加/現象)とを指定する解析データQを生成する。
任意の1個の特徴指標Xnを変化量pだけ変化させた場合の合計差分δは、以下の数式(A)で表現される。
Figure 2016057572

数式(A)のうち変化量pと係数anmとの乗算値の減算は、特徴指標Xnを変化量pだけ変化させる処理に相当する。解析処理部44は、変化量pの正負を反転させた2通りの場合(p=±1)について、特徴指標Xnを変化量pだけ変化させた数式(A)の合計差分δを算定し、合計差分δが最小化された場合の変化対象の音響特徴と変化の方向(変化量pの正負)とを特定する。
例えば、長幼の印象指標Y1および清濁の印象指標Y2と、ビブラートの深度を示す特徴指標X1および音高の正確性を示す特徴指標X2とに着目し(M=N=2)、関連式F1および関連式F2を以下のように仮定する(a11=0.7,a21=0.3,a12=−0.4,a22=0.7)。
Figure 2016057572
いま、印象指標Y1が5であるのに対して目標値A1が4であり、印象指標Y2が4であるのに対して目標値A2が6である場合を想定する((Y1,Y2)=(5,4),(A1,A2)=(4,6))。すなわち、評価済の歌唱音声Vと比較して「子供っぽく清らかな音声」(Y1:5→4,Y2:4→6)を実現するために変化させるべき特徴指標Xnを探索する。
[1]p=1(特徴指標Xnの増加を仮定)
・条件1a:特徴指標X1の変化を仮定(ビブラートの深度を増加させる場合)
δ=|A1−Y1−p・a11|+|A2−Y2−p・a12|
=|4−5−1・0.7|+|6−4−1・(−0.4)|
=1.7+2.4=4.1
・条件1b:特徴指標X2の変化を仮定(音高の正確性を増加させる場合)
δ=|A1−Y1−p・a21|+|A2−Y2−p・a22|
=|4−5−1・0.3|+|6−4−1・0.7|
=1.3+1.3=2.6
[2]p=−1(特徴指標Xnの減少を仮定)
・条件2a:特徴指標X1の変化を仮定(ビブラートの深度を減少させる場合)
δ=|A1−Y1−p・a11|+|A2−Y2−p・a12|
=|4−5−(−1)・0.7|+|6−4−(−1)・(−0.4)|
=0.3+1.6=1.9
・条件2b:特徴指標X2の変化を仮定(音高の正確性を減少させる場合)
δ=|A1−Y1−p・a21|+|A2−Y2−p・a22|
=|4−5−(−1)・0.3|+|6−4−(−1)・0.7|
=0.7+2.7=3.4
以上の通り、特徴指標X1を減少させる条件2aのもとで合計差分δは最小値(δ=1.9)となる。したがって、解析処理部44は、歌唱音声Vを目標(A1,A2)に近付けるための条件として「ビブラートの深度の減少」(音響特徴=ビブラートの深度,変化方向=減少)を指定する解析データQを生成する。以上の説明から理解される通り、目標値Amと相違する印象指標Ymの関連式Fmにおいて係数anmが大きい特徴指標Xn(すなわち印象指標Ymに対する影響が相対的に大きい特徴指標Xn)が、当該印象指標Ymを目標値Amに近付けるために変化させるべき特徴指標Xnとして優先的に選択される。解析処理部44による解析の結果(解析データQ)を表示装置18で確認した利用者は、自身が目指す「子供っぽく清らかな音声」を実現するには「ビブラートの深度を減少させる」という方策が最善であると把握できる。
図4は、解析データQを生成する動作のフローチャートである。例えば入力装置14に対する利用者からの操作(解析開始の指示)を契機として図4の処理が開始される。図4の処理を開始すると、特徴抽出部22は、収音装置16が収音した歌唱音声Vを取得し(S1)、歌唱音声Vのうち解析区間の音響特徴を示すN個の特徴指標X1〜XNを抽出する(S2)。解析区間は、歌唱音声Vのうち聴覚印象の解析対象となる区間であり、例えば歌唱音声Vの全区間または一部の区間(例えばサビ区間)である。印象特定部24は、特徴抽出部22が抽出したN個の特徴指標X1〜XNを各関連式Fmに適用することでM個の印象指標Y1〜YMを算定する(S3)。解析処理部44は、印象特定部24が算定した各印象指標Ymを目標設定部42が設定した目標値Amに近付けるために変化させるべき音響特徴(特徴指標Xn)を特定して解析データQを生成する(S4)。提示処理部26は、解析処理部44が生成した解析データQの内容(変化対象の音響特徴と変化方向)を表示装置18に表示させる(S5)。
以上に説明した通り、第1実施形態では、歌唱音声Vの特徴指標Xnを各関連式Fmに適用することで歌唱音声Vの印象指標Ymが算定され、各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴が特定および提示される。したがって、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに、歌唱音声Vの聴覚印象を目標に近付けるための最適な改善点(音響特徴)を利用者が把握し、歌唱音声Vの聴覚印象を効果的に目標に近付けることが可能である。なお、目標に近付くように利用者が自身の歌唱を改善することで、自己実現や健康維持(心理療法やフィットネス)の手法としての応用も期待できる。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図5は、第2実施形態の音響解析装置100Bの構成図である。図5に例示される通り、第2実施形態の音響解析装置100Bは、第1実施形態と同様の要素(特徴抽出部22,印象特定部24,関連式設定部40,目標設定部42,解析処理部44)に音響処理部46を追加した構成である。
第2実施形態の目標設定部42は、第1実施形態と同様に、例えば利用者からの指示に応じて各印象指標Ymの目標値Amを設定する。解析処理部44は、印象特定部24が歌唱音声Vについて特定した各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴(特徴指標Xn)を指定する解析データQを第1実施形態と同様の方法で生成する。
図5の音響処理部46は、解析処理部44が特定した音響特徴を変化させる音響処理を歌唱音声Vに対して実行する。具体的には、音響処理部46は、解析処理部44が生成した解析データQで指定される音響特徴が、当該解析データQで指定される方向に変化(増加/減少)するように、収音装置16が収音した歌唱音声Vに対して音響処理を実行する。すなわち、歌唱音声VのN個の特徴指標X1〜XNのうち、目標値Amと相違する印象指標Ymの関連式Fmにおいて係数(印象指標Ymに対する寄与度)anmが大きい特徴指標Xn(すなわち印象指標Ymを効率的に目標値Amに近付けることが可能な特徴指標Xn)が、音響処理部46による音響処理で優先的に変更される。
歌唱音声Vに対して実行される具体的な音響処理には、変更対象の音響特徴の種類に応じた公知の音響処理技術が任意に採用される。例えば、清濁に関する印象指標Ymを目標値Amに近付けるための特徴指標Xnが「ノイズ感」である場合、音響処理部46は、歌唱音声Vに雑音成分を付与する音響処理(雑音付与処理)を実行する。また、例えば、前述の第1実施形態の例示のように「ビブラートの深度の減少」を解析データQが指定する場合、音響処理部46は、歌唱音声Vにおける音高の微小な変動を抑制する音響処理を歌唱音声Vに対して実行する。音響処理部46による処理後の歌唱音声Vは例えば放音装置17(スピーカやヘッドホン)から再生される。なお、歌唱音声Vの再生に代えて(または再生とともに)、音響処理部46による処理後の歌唱音声Vのファイルを生成することも可能である。
なお、解析データQが指定する特徴指標Xn(以下では便宜的に「優先指標」という)を歌唱音声Vにて充分に(すなわち印象指標Ymが目標値Amに充分に近似する程度に)変動させることができない場合がある。例えば、解析データQが「ビブラートの深度の増加」を指定しても、ビブラートが付加され得る程度の時間長にわたり音高が維持される区間を歌唱音声Vが包含しない場合には、優先指標である「ビブラートの深度」の増加により印象指標Ymを目標値Amに充分に近付けることはできない。以上の場合、音響処理部46は、歌唱音声VのN個の特徴指標X1〜XNのうち各印象指標YMを目標値Amに近付けるために有効な順番(合計差分δの昇順)で優先指標の次位に位置する特徴指標Xnが変化するように歌唱音声Vに対する音響処理を実行する。以上の構成によれば、歌唱音声Vの特性に関わらず各印象指標Ymを有効に目標値Amに近付けることが可能である。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、歌唱音声Vの特徴指標Xnを各関連式Fmに適用することで歌唱音声Vの印象指標Ymが算定され、各印象指標Ymを目標値Amに近付けるために変化させるべき音響特徴が特定されたうえで、当該音響特徴を変化させる音響処理が歌唱音声Vに対して実行される。したがって、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに、目標の聴覚印象の歌唱音声Vを生成することが可能である。第2実施形態では、各聴覚印象の目標値Amが利用者からの指示に応じて設定されるから、利用者の所望の聴覚印象の歌唱音声Vを有効に生成できるという利点がある。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は適宜に併合され得る。
(1)印象特定部24が特定した歌唱音声VのM個の印象指標Y1〜YMを表現する解析結果画像70を提示処理部26が表示装置18に表示させる構成も好適である。図6は、M種類の印象指標Y1〜YMのうち長幼(大人っぽい/子供っぽい)に関する1個の印象指標Y1と清濁(清らかで透明感がある/嗄れて濁っている)に関する1個の印象指標Y2とを表象する解析結果画像70の表示例である。図6から理解される通り、解析結果画像70は、印象指標Y1の数値を示す第1軸71と印象指標Y2の数値を示す第2軸72とが設定された座標平面を包含する。第1軸71のうち印象特定部24が算定した印象指標Y1の数値と、第2軸72のうち印象特定部24が算定した印象指標Y2の数値とに対応した座標位置に、歌唱音声Vの聴覚印象を意味する画像(アイコン)74が配置される。以上の説明から理解される通り、解析結果画像70は、歌唱音声Vの聴覚印象を表象する画像(長幼や清濁を含む歌唱スタイルを表象する画像)である。利用者は、表示装置18に表示された解析結果画像70を視認することで、歌唱音声Vの聴覚印象を視覚的および直観的に把握することが可能である。
(2)前述の各形態では、複数の参照データrが記憶装置12に事前に記憶された場合を例示したが、以下に例示される通り、収音装置16が収音した歌唱音声Vを参照音とした新規な参照データrを利用して各関連式Fmを更新することも可能である。
利用者(歌唱音声Vの発声者や受聴者)は、楽曲の終了後に、入力装置14を適宜に操作することで歌唱音声Vの聴覚印象を指定する。例えば、M種類の聴覚印象の各々について印象指標Ymの複数の選択肢(複数段階の評価)が表示装置18に表示され、利用者は、聴覚印象毎に所望の1個の選択肢を指定する。
図1に破線の矢印で図示される通り、関連式設定部40は、利用者が指定した各聴覚印象の印象指標ym(y1〜ym)と歌唱音声Vについて特徴抽出部22が抽出した各特徴指標xn(x1〜xN)とを含む参照データrを取得して記憶装置12に格納する。そして、関連式設定部40は、歌唱音声Vに応じた新規な参照データrを包含する参照データ群DRを利用して、第1実施形態と同様の方法で関連式Fm(F1〜FM)を設定および記憶する。すなわち、収音装置16が収音した歌唱音声Vの聴覚印象(印象指標ym)と音響特徴(特徴指標xn)との関係を反映した内容に既定の関連式Fm(F1〜FM)が更新される。以上の構成によれば、関連式F1〜FMを、実際の歌唱音声Vの聴覚印象と音響特徴との関係を反映した内容に更新できるという利点がある。なお、参照データ群DRを利用した関連式Fmの設定(更新)の時期は任意である。例えば、歌唱音声Vに応じた参照データrの取得毎に関連式Fmを更新する構成や、新規な参照データrが所定数だけ蓄積された場合に関連式Fmを更新する構成が採用され得る。
(3)前述の各形態では、楽曲の全区間にわたる歌唱音声Vを対象として聴覚印象を特定したが、歌唱音声Vを時間軸上で区分した複数の区間の各々について聴覚印象(M個の印象指標Y1〜YM)を順次に特定することも可能である。歌唱音声Vの区間毎に聴覚印象を順次に特定する場合、前述の各形態で例示した解析データQを、歌唱音声Vの各区間の聴覚印象に応じて区間毎に順次に(実時間的に)更新する構成も採用され得る。
(4)前述の各形態では、収音装置16が収音した歌唱音声Vを解析する要素(特徴抽出部22,印象特定部24,提示処理部26,目標設定部42,解析処理部44,音響処理部46)と、各関連式Fmを設定する関連式設定部40との双方を具備する音響解析装置100(100A,100B)を例示したが、関連式設定部40を他の要素とは別体の装置に搭載することも可能である。
例えば図7に例示される通り、通信網200(例えばインターネット)を介して相互に通信する音響解析装置110と音響解析装置120とに、前述の各形態で例示した機能を分担させることも可能である。音響解析装置(関連式設定装置)110は、参照データ群DRと関係性記述データDCとを利用して第1実施形態と同様の方法でM個の関連式F1〜FMを設定する関連式設定部40を具備する。例えば通信網200に接続されたサーバ装置で音響解析装置110は実現される。図7に例示される通り、音響解析装置110(関連式設定部40)が設定したM個の関連式F1〜FMは、通信網200を介して音響解析装置120に転送される。音響解析装置110から複数の音響解析装置120にM個の関連式F1〜FMを共通に転送することも可能である。音響解析装置120は、特徴抽出部22と印象特定部24とを含んで構成され、音響解析装置110から転送されたM個の関連式F1〜FMを利用して第1実施形態と同様に歌唱音声Vを解析することで歌唱音声Vの聴覚印象(M個の印象指標Y1〜YM)を特定する。音響解析装置120には、第1実施形態および第2実施形態と同様の目標設定部42および解析処理部44が設置され得る。図7の構成では、参照データ群DRおよび関係性記述データDCの保持や各関連式Fmの設定を音響解析装置120に実行させる必要がないから、音響解析装置120の構成および処理が簡素化されるという利点がある。
(5)前述の各形態では、利用者からの指示に応じて各目標値Amを設定したが、目標値Amの設定の方法は以上の例示に限定されない。例えば、楽曲毎に目標値Am(A1〜AM)を事前に選定し、利用者が実際に歌唱する楽曲の目標値Amを目標設定部42が選択する構成も採用され得る。また、利用者が歌唱する楽曲の属性(主旋律,ジャンル,歌手等)に応じて目標設定部42が各目標値Amを可変に設定することも可能である。
(6)前述の各形態では、参照データ群DRと関係性記述データDCとを利用して設定された関連式Fmを例示したが、関連式Fmの設定方法は本発明において任意である。例えば、前述の疑似相関が特段の問題とならない場合、対比例と同様に、関係性記述データDCを利用せずに、参照データ群DRの複数の参照データrのみを利用して印象指標ymと特徴指標xnとの相関の傾向を統計的に解析することで各印象指標Ymの関連式Fmを設定することも可能である。
(7)前述の各形態では、利用者が楽曲を歌唱した歌唱音声Vを例示したが、解析対象は歌唱音声Vに限定されない。例えば、会話音等の音声や楽器の演奏音(楽音)、音声合成技術で生成された合成音声(歌唱音声や会話音)について各関連式Fmを利用した解析で聴覚印象(M個の印象指標Y1〜YM)を特定することも可能である。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声(例えば会議での会話音)や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響(解析対象音)の具体的な内容(種類)や発音の原理等は任意である。
100(100A,100B),110,120……音響解析装置、10……演算処理装置、12……記憶装置、14……入力装置、16……収音装置、18……表示装置、22……特徴抽出部、24……印象特定部、26……提示処理部、40……関連式設定部、42……目標設定部、44……解析処理部、46……音響処理部。
(7)前述の各形態では、利用者が楽曲を歌唱した歌唱音声Vを例示したが、解析対象は歌唱音声Vに限定されない。例えば、会話音等の音声や楽器の演奏音(楽音)、音声合成技術で生成された合成音声(歌唱音声や会話音)について各関連式Fmを利用した解析で聴覚印象(M個の印象指標Y1〜YM)を特定することも可能である。例えば、楽器の演奏音の解析では、前述の各形態と同様に、例えば明暗や清濁等の印象指標Ymが特定され得る。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声(例えば会議での会話音)や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響(解析対象音)の具体的な内容(種類)や発音の原理等は任意である。

Claims (4)

  1. 解析対象音の特徴指標を抽出する特徴抽出手段と、
    参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、前記聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して設定され、前記関係性記述データで規定される対応関係における前記聴覚印象の印象指標と前記複数種の音響特徴の特徴指標との関係を表現する関連式に、前記特徴抽出手段が抽出した特徴指標を適用することで、前記解析対象音の印象指標を算定する印象特定手段と
    印象指標の目標値を設定する目標設定手段と、
    前記印象特定手段が算定した前記解析対象音の印象指標を前記目標値に近付けるために変化させるべき音響特徴を特定する解析処理手段と
    を具備する音響解析装置。
  2. 前記解析処理手段が特定した音響特徴を利用者に提示する提示処理手段
    を具備する請求項1の音響解析装置。
  3. 前記解析処理手段が特定した音響特徴を変化させる音響処理を前記解析対象音に対して実行する音響処理手段
    を具備する請求項1の音響解析装置。
  4. 前記目標設定手段は、利用者からの指示に応じて前記目標値を設定する
    請求項1から請求項3の何れかの音響解析装置。
JP2014186193A 2014-09-12 2014-09-12 音響解析装置 Pending JP2016057572A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014186193A JP2016057572A (ja) 2014-09-12 2014-09-12 音響解析装置
PCT/JP2015/075925 WO2016039465A1 (ja) 2014-09-12 2015-09-11 音響解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014186193A JP2016057572A (ja) 2014-09-12 2014-09-12 音響解析装置

Publications (1)

Publication Number Publication Date
JP2016057572A true JP2016057572A (ja) 2016-04-21

Family

ID=55459208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014186193A Pending JP2016057572A (ja) 2014-09-12 2014-09-12 音響解析装置

Country Status (2)

Country Link
JP (1) JP2016057572A (ja)
WO (1) WO2016039465A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022102105A1 (ja) * 2020-11-13 2022-05-19 日本電信電話株式会社 変換装置、変換方法及び変換プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3450020B2 (ja) * 1992-09-28 2003-09-22 ヤマハ株式会社 カラオケ装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH10187178A (ja) * 1996-10-28 1998-07-14 Omron Corp 歌唱の感情分析装置並びに採点装置

Also Published As

Publication number Publication date
WO2016039465A1 (ja) 2016-03-17

Similar Documents

Publication Publication Date Title
JP4851447B2 (ja) ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
Airas TKK Aparat: An environment for voice inverse filtering and parameterization
CN101645268B (zh) 一种演唱和演奏的计算机实时分析系统
US9552741B2 (en) Systems and methods for quantifying a sound into dynamic pitch-based graphs
Lima et al. A survey of music visualization techniques
CN106383676B (zh) 用于声音的即时光色渲染系统及其应用
Feugère et al. Cantor Digitalis: chironomic parametric synthesis of singing
Proutskova et al. Breathy, resonant, pressed–automatic detection of phonation mode from audio recordings of singing
Yang et al. Examining emotion perception agreement in live music performance
Chau et al. The emotional characteristics of bowed string instruments with different pitch and dynamics
Zhang Application of audio visual tuning detection software in piano tuning teaching
US10403304B1 (en) Neural networks for identifying the potential of digitized audio to induce frisson in listeners
JP2015191194A (ja) 演奏評価システム、サーバ装置、端末装置、演奏評価方法及びコンピュータプログラム
WO2016039465A1 (ja) 音響解析装置
Gu Recognition algorithm of piano playing music in intelligent background
Wilmering et al. Audio effect classification based on auditory perceptual attributes
WO2016039463A1 (ja) 音響解析装置
Siegel Timbral Transformations in Kaija Saariaho's From the Grammar of Dreams
Eerola Analysing Emotions in Schubert's Erlkönig: a Computational Approach
Liu et al. Emotion Recognition of Violin Music based on Strings Music Theory for Mascot Robot System.
Serrano A neural analysis-synthesis approach to learning procedural audio models
WO2016039464A1 (ja) 音響解析装置
Sephus et al. Enhancing online music lessons with applications in automating self-learning tutorials and performance assessment
JP6135229B2 (ja) 歌唱評価装置
Tardón et al. 16th Sound and Music Computing Conference SMC 2019 (28–31 May 2019, Malaga, Spain)