JP2015219304A - 音響解析装置 - Google Patents

音響解析装置 Download PDF

Info

Publication number
JP2015219304A
JP2015219304A JP2014101405A JP2014101405A JP2015219304A JP 2015219304 A JP2015219304 A JP 2015219304A JP 2014101405 A JP2014101405 A JP 2014101405A JP 2014101405 A JP2014101405 A JP 2014101405A JP 2015219304 A JP2015219304 A JP 2015219304A
Authority
JP
Japan
Prior art keywords
acoustic
analysis
markov model
state
acoustic signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014101405A
Other languages
English (en)
Other versions
JP6323159B2 (ja
Inventor
陽 前澤
Akira Maezawa
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014101405A priority Critical patent/JP6323159B2/ja
Publication of JP2015219304A publication Critical patent/JP2015219304A/ja
Application granted granted Critical
Publication of JP6323159B2 publication Critical patent/JP6323159B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

【課題】複数の音響信号の間で時間軸上の対応を高精度に解析する。【解決手段】音響解析装置100は、任意の状態間を遷移可能なエルゴード型の第1マルコフモデルから生成されてD個の音響信号A1〜ADに共通する基礎構造を表現する基礎状態系列と共通の順序で同数の状態が配列されたleft-to-right型の第2マルコフモデルを利用して、D個の音響信号A1〜ADの各々について、複数の状態の遷移を示す解析状態系列を特定する解析処理手段を具備する。【選択図】図1

Description

本発明は、音響信号を解析する技術に関する。
共通の楽曲を別個に演奏したときの演奏音を収録した複数の音響信号の間で時間軸上の対応を解析する技術が従来から提案されている。例えば非特許文献1には、所定個の状態が特定の順番で遷移するleft-to-right型のHMM(Hidden Markov Model:隠れマルコフモデル)を利用して、複数の音響信号の間の時間軸上の対応を解析する技術が開示されている。
前澤 陽,奥乃 博,「楽曲パート混合オーディオ同士の楽譜なしアライメント手法」,情報処理学会研究報告,Vol.2013-MUS-100,No.14,2013/9/1
ところで、1個の楽曲には、複数回にわたり反復される構造(主題)が内包され得る。以上の傾向を前提とすると、事前に設定された固定の順番で所定個の状態を配列した非特許文献1のleft-to-right型のHMMは、1個の楽曲内で反復的に出現する構造のモデルとして必ずしも適切ではなく、結果的に、複数の音響信号の間の対応を高精度に解析できない可能性がある。なお、以上の説明では便宜的に楽曲の演奏音に着目したが、演奏音以外にも、例えば共通の詩を相異なる人間が朗読したときの音声を収録した複数の音響信号の間で時間軸上の対応を解析する場合も同様の問題が発生し得る。以上の事情を考慮して、本発明は、複数の音響信号の間で時間軸上の対応を高精度に解析することを目的とする。
以上の課題を解決するために、本発明に係る音響解析装置は、任意の状態間を遷移可能なエルゴード型の第1マルコフモデルから生成されて複数の音響信号に共通する基礎構造を複数の状態で表現する基礎状態系列と共通の順序で同数の状態が配列されたleft-to-right型の第2マルコフモデルを利用して、複数の音響信号の各々について、複数の状態の遷移を示す解析状態系列を特定する解析処理手段を具備する。以上の構成では、任意の状態間を遷移可能なエルゴード型の第1マルコフモデルから生成されて複数の音響信号に共通する基礎構造を表現する基礎状態系列と共通の順序で同数の状態を配列したledf-to-right型の第2マルコフモデルが複数の音響信号の各々の解析状態系列の特定に利用される。したがって、事前に固定的に設定された個数および順番で各状態を配列したleft-to-right型のHMMを利用する非特許文献1の技術と比較すると、複数の音響信号の間の時間軸上の対応を高精度に解析することが可能である。
本発明の好適な態様において、第1マルコフモデルは、状態数が無限化されたマルコフモデルである。以上の態様では、第1マルコフモデルの状態数が無限化されるから、複数の音響信号の各々の特性(特徴量の複雑性)に関わらず各音響信号の時間軸上の対応を高精度に解析できるという利点がある。
本発明の好適な態様において、第2マルコフモデルは、各状態の継続長の確率分布が規定されたexplicit-duration型のマルコフモデルである。以上の態様では、各状態の継続長の確率分布が規定されたexplicit-duration型のマルコフモデルが第2マルコフモデルとして利用されるから、例えば、各音響信号における各音符の継続長が楽曲の所期の継続長(例えば楽譜上の音価)に集中するという傾向を加味して各音響信号の時間軸上の対応を高精度に解析できるという利点がある。
本発明の好適な態様において、解析処理手段は、複数の音響信号の各々について、当該音響信号の解析状態系列における相異なる状態の境界の時点を特定し、音響信号の時間軸上の波形と、当該波形のうち解析処理手段が当該音響信号について特定した境界の時点とを、複数の音響信号について共通の時間軸のもとで表示装置に表示させる表示制御手段を具備する。以上の態様では、音響信号の時間軸上の波形と当該音響信号について特定された境界の時点とが複数の音響信号について共通の時間軸のもとで表示されるから、複数の音響信号における時間軸上の対応を利用者が直観的および視覚的に把握できるという利点がある。
さらに好適な態様に係る音響解析装置は、解析処理手段が特定した各境界の時点で複数の単位区間に区分された複数の音響信号の各々から利用者が選択した単位区間を相互に連結した音響信号を生成する音響処理手段を具備する。以上の態様では、複数の音響信号の各々から利用者が選択した単位区間を時間軸上で相互に連結した多様な音響信号を生成できるという利点がある。
以上の各態様に係る音響解析装置は、音響の解析に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。本発明のプログラムは、例えば通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に例示した各態様に係る音響解析装置の動作方法(音響解析方法)としても特定される。
本発明の第1実施形態に係る音響解析装置の構成図である。 解析結果画面の説明図である。 解析結果画面の説明図である。 時間軸対応解析の説明図である。 解析処理部の動作のフローチャートである。 第4実施形態に係る音響解析装置の構成図である。 第4実施形態における解析結果画面の説明図である。 変形例に係る解析処理部の動作のフローチャートである。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100の構成図である。図1に例示される通り、第1実施形態の音響解析装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置100として利用され得る。
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音響解析装置100に対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置14と一体に構成されたタッチパネルを入力装置16として利用することも可能である。
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。
第1実施形態の記憶装置12は、D個(Dは2以上の自然数)の音響信号A1〜ADを記憶する。各音響信号Ad(d=1〜D)は、特定の楽曲(以下「対象楽曲」という)を楽器で演奏した楽音等の演奏音の時間軸上の波形を表現する。なお、対象楽曲には、単一の楽曲のほか、相異なる複数の楽曲を連結した楽曲群(メドレー曲)も包含される。対象楽曲はD個の音響信号A1〜ADで共通するが、当該楽曲の演奏者は音響信号Ad毎に相違する。したがって、演奏音を構成する音符の個数や順序はD個の音響信号A1〜ADで基本的に共通するが、各演奏者の意図(解釈や表現)を反映した相違がD個の音響信号A1〜ADの間には存在する。例えば、対象楽曲の演奏速度(テンポ)は各音響信号Adで相違するから、音響信号Adの時間長や各音符の時間軸上の位置はD個の音響信号A1〜ADで相違し得る。なお、以上の説明では、各音響信号Adで演奏者を相違させた場合を例示したが、共通の演奏者が別個の機会に演奏した演奏音をD個の音響信号A1〜ADで表現することも可能である。また、D個の音響信号A1〜ADを外部装置(例えば光学式記録媒体や磁気記録媒体等の記録媒体から各音響信号Adを読出す再生装置)から音響解析装置100に供給する構成も採用され得る。
第1実施形態の音響解析装置100は、記憶装置12に記憶されたD個の音響信号A1〜ADの間における時間軸上の対応を解析(アライメント)する信号処理装置である。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、各音響信号Adの時間軸上の対応を解析および提示するための複数の機能(特徴抽出部22,解析処理部24,表示制御部26)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、演算処理装置10の機能の一部を専用の電子回路が実現する構成も採用され得る。
特徴抽出部22は、D個の音響信号A1〜ADの各々の特徴量x(d,t)を時間軸上のフレーム毎に順次に抽出する。記号tは、音響信号Adを時間軸上で区分したTd個(Tdは2以上の自然数)のフレームのうち任意の1個を指示する変数(t=1〜Td)である。前述の通り、各音響信号Adは例えば対象楽曲の演奏速度(テンポ)が相違するから、音響信号Adのフレームの総数Td(音響信号Adの時間長)はD個の音響信号A1〜ADの間で相違し得る。
任意の1個の音響信号Adから抽出される各特徴量x(d,t)(x(d,1)〜x(d,Td))は、音響信号Adのうち第t番目のフレームの音響的または音楽的な特性を示す指標値である。例えば音響信号Adのクロマベクトルが特徴量x(d,t)として好適に利用される。クロマベクトルは、相異なる音名(例えば平均律の12半音の各音名)に対応する複数の要素の各々が、音響信号Adのうち当該音名に対応する各音高の強度を複数のオクターブにわたり加算した数値に設定されたベクトルである。ただし、特徴量x(d,t)はクロマベクトルに限定されない。
図1の解析処理部24は、特徴抽出部22が抽出した各特徴量x(d,t)を利用した各音響信号Adの解析でD個の音響信号A1〜ADの間における時間軸上の対応を特定する。具体的には、解析処理部24は、D個の音響信号A1〜ADの各々について時間軸上のI個の時点(以下「遷移点」という)を特定する。音響信号Adの各遷移点は、音響信号Adのうち相前後する各音符の境界の時点(音符が変化する時点)である。対象楽曲を構成する音符の個数はD個の音響信号A1〜ADで共通するから、遷移点の個数IはD個の音響信号A1〜ADにわたり共通する。以上の説明から理解される通り、各音響信号Adの第i番目(i=1〜I)の遷移点は、D個の音響信号A1〜ADの間で相互に対応する時点(対象楽曲内の共通の箇所)に相当する。
表示制御部26は、表示装置14に画像を表示させる。第1実施形態の表示制御部26は、解析処理部24による解析結果を表現する図2の解析結果画面40を表示装置14に表示させる。解析結果画面40は、図2に例示される通り、相異なる音響信号Ad(Audio No.1〜Audio No.3)に対応するD個の表示領域W1〜WD(図2の例示ではD=3)を包含する。任意の1個の表示領域Wdには、音響信号Adの時間軸(横軸)上の波形が表示される。D個の表示領域W1〜WDの間で時間軸は共通する。
各表示領域Wdに表示された音響信号Adの波形は、解析処理部24が特定した遷移点を境界として時間軸上でK個の単位区間U(d,1)〜U(d,K)に区分される。時間軸上で相前後する各単位区間U(d,k)(k=1〜K)は、相異なる態様(階調や色彩等の視覚的に知覚できる性状)で表示される。また、D個の音響信号A1〜ADの間で相互に対応する各単位区間U(d,k)(U(1,k)〜U(D,k))の表示の態様は共通する。以上の説明から理解される通り、音響信号ADの各遷移点がD個の音響信号A1〜ADについて共通の時間軸のもとで表示される。したがって、利用者は、D個の音響信号A1〜ADにおける時間軸上の対応を直観的および視覚的に把握することが可能である。
利用者は、入力装置16を適宜に操作することで、任意の音響信号AdのK個の単位区間U(d,1)〜U(d,K)のうち所望の1個(第k番目)の単位区間U(d,k)を選択することが可能である。図2に例示される通り、表示制御部26は、D個の音響信号A1〜ADの各々における第k番目の単位区間U(d,k)(U(1,k)〜U(D,k))を強調表示する。図2では、利用者が選択した第k番目のD個の単位区間U(1,k)〜U(D,k)を太線により強調表示した場合が例示されている。また、表示制御部26は、利用者が選択した第k番目のD個の単位区間U(1,k)〜U(D,k)をD個の音響信号A1〜ADにわたり相互に連結する連結画像42を各表示領域Wdの間の領域に表示する。したがって、D個の音響信号A1〜ADにわたる単位区間U(1,k)〜U(D,k)の対応を利用者は直観的および視覚的に把握することが可能である。
また、図3に例示される通り、利用者は、入力装置16に対する操作で、任意の1個の音響信号Adにて相前後する単位区間U(d,k)と単位区間U(d,k+1)とを選択することが可能である。単位区間U(d,k)と単位区間U(d,k+1)とが選択された状態で入力装置16に所定の操作が付与されると、表示制御部26は、図3に例示される通り、D個の音響信号A1〜ADの各々について、利用者が選択した単位区間U(d,k)と単位区間U(d,k+1)とを時間軸上で相互に連結して1個の単位区間U(d,k)を生成する。なお、以上の説明では複数の単位区間U(d,k)の連結を例示したが、1個の単位区間U(d,k)を利用者からの指示に応じて複数個に分割することも可能である。すなわち、利用者は、解析処理部24による解析結果の表示を適宜に修正することが可能である。
<時間軸対応解析(アライメント)>
図1の解析処理部24がD個の音響信号A1〜ADの間の時間軸上の対応を解析する処理(以下「時間軸対応解析」という)の具体例を以下に詳述する。図4は、時間軸対応解析の説明図である。図4に例示される通り、第1実施形態の時間軸対応解析では、第1マルコフモデルと第2マルコフモデルとが階層的に利用される。第1マルコフモデルおよび第2マルコフモデルは、特徴量x(d,t)の生成過程を複数の状態で記述する確率モデルである。第1マルコフモデルは、任意の状態間の遷移が許容されるエルゴード(Ergodic)型のマルコフモデルであり、第2マルコフモデルは、複数の状態の配列に沿う単方向(左→右)の遷移のみが許容されるleft-to-right型のマルコフモデルである。
図4に例示される通り、解析処理部24は、第1マルコフモデルから生成される基礎状態系列Zと共通の順序で同数(N個)の状態Z(1)〜Z(N)が配列された第2マルコフモデルを利用して、D個の音響信号A1〜ADの各々について解析状態系列Qd(Q1〜QD)を特定する。
図4に例示される通り、第1マルコフモデルは、S個の状態E1〜ESで定義される。任意の1個の状態Es(s=1〜S)は、例えば対象楽曲の1個の構成音(単音または和音)に対応する。したがって、第1マルコフモデルの状態数Sは、対象楽曲の構成音の種類数の最大値に設定される。D個の音響信号A1〜ADから抽出された特徴量x(d,t)を利用した学習処理で第1マルコフモデルの各状態Esを規定する変数が更新され、更新後の第1マルコフモデルから基礎状態系列Zが生成される。
基礎状態系列Zは、第1マルコフモデルから生成されて対象楽曲の進行(楽曲進行)を表現する状態系列であり、時系列に配列されたN個の状態Z(1)〜Z(N)で表現される(図4の例示ではN=5)。すなわち、基礎状態系列Zは、D個の音響信号A1〜ADに共通する時間軸上の構造(基礎構造)をN個の状態Z(1)〜Z(N)で表現する。
図4に例示される通り、各状態Z(n)には、第1マルコフモデルのS個の状態E1〜ESの何れか(対象楽曲の1個の構成音)が付与される。例えば図4では、基礎状態系列Zの状態Z(1)に状態E1が割当てられ、状態Z(2)と状態Z(3)と状態Z(5)とに状態E2が割当てられ、状態Z(4)に状態E3が割当てられた場合が例示されている。すなわち、基礎状態系列Zは、対象楽曲の基礎構造を表現するN個の状態Z(1)〜Z(N)の各々に対象楽曲の1個の構成音を対応付ける情報とも換言され得る。以上の説明から理解される通り、N個の状態Z(1)〜Z(N)で対象楽曲の進行(基礎構造)を表現するということは、対象楽曲において最大でN回にわたり構成音が変化すると仮定することに相当する。対象楽曲に想定される構成音の変化の回数に応じて基礎状態系列Zの状態数Nが選定されるとも換言され得る。
図4の第2マルコフモデルは、第1マルコフモデルから生成される基礎状態系列Zと共通の順序で同数(N個)の状態Z(1)〜Z(N)を配列した確率モデルである。解析処理部24は、D個の音響信号A1〜ADの各々について、第2マルコフモデルを利用して基礎状態系列Zの各状態Z(n)に対する時間的な対応を解析することで解析状態系列Qd(Q1〜QD)を特定する。解析状態系列Qdは、音響信号Adと基礎状態系列Zの各状態Z(n)との時間的な対応を表現する。
図4に例示される通り、任意の1個の解析状態系列Qdは、音響信号Adの相異なるフレームに対応するTd個の状態Q(d,1)〜Q(d,Td)の時系列である。解析状態系列Qdの各状態Q(d,t)は、基礎状態系列ZのN個の状態Z(1)〜Z(N)の何れか(対象楽曲のS個の状態E1〜ESの何れか)に対応する。以上の説明から理解される通り、解析状態系列Qdの任意の1個の状態Q(d,t)が状態Esに対応するということは、音響信号Adの第t番目のフレームが、対象楽曲のうち状態Esに対応した構成音(単音または和音)に該当することを意味する。前述の通り、第2マルコフモデルは、単方向の状態遷移のみを許容するleft-to-right型のマルコフモデルであるから、各状態Z(n)の配列の順序(状態Esの配列の順序)はD個の解析状態系列Q1〜QDについて共通する。すなわち、対象楽曲に包含される各構成音の出現の順序がD個の音響信号A1〜ADにわたり共通するという条件(状態遷移順序の同一性が保証された条件)のもとで、各音響信号Adと基礎状態系列Zとの時間軸上の対応が解析される。
解析処理部24は、音響信号Adについて算定した解析状態系列Qd(状態Q(d,1)〜Q(d,Td))を参照することで、音響信号AdのI個の遷移点を特定する。具体的には、第1実施形態の解析処理部24は、音響信号Adについて算定した解析状態系列Qdのうち時間的に相前後する状態Q(d,t)と状態Q(d,t+1)との間で状態Z(n)の遷移(Z(n)→Z(n+1))が発生する場合に、音響信号Adのうち第t番目のフレームと第(t+1)番目のフレームとの間の時点を、対象楽曲内で音符が変化する遷移点として特定する。
以上に説明した時間軸対応解析の定式化を検討する。初期状態πと状態遷移確率τとで規定される第1マルコフモデルのもとで基礎状態系列Zが生成される尤度p(Z|π,τ)は、以下の数式(1)で表現される。なお、初期状態πの事前分布や状態遷移確率τの事前分布は、ディリクレ(Dirichlet)分布等の公知の適切な確率分布に設定される。
Figure 2015219304
なお、数式(1)では、基礎状態系列Zの任意の1個の状態Z(n)を、相異なる状態Esに対応するS個の要素z1(n)〜zS(n)を含むS次元ベクトルとして表現した。各要素zs(n)は、one-of-Sの2値変数である。すなわち、状態Z(n)が状態Esである場合には、S個の要素z1(n)〜zS(n)のうち第s番目の1個の要素zs(n)が数値1に設定され、残余の(S−1)個の要素は数値0に設定される。
他方、状態遷移確率η(d,n)で状態が遷移する第2マルコフモデルのもとで解析状態系列Qdが生成される尤度p(Qd)は、以下の数式(2)で表現される。
Figure 2015219304
数式(2)の記号δ( )は、括弧内の数値が相等しい場合に数値1に設定され、括弧内の数値が相違する場合に数値0に設定される関数(Kronecker Delta)である。状態遷移確率η(d,n)の事前分布は公知の適切な確率分布(例えばベータ分布)に設定される。また、数式(2)では、解析状態系列Qdの任意の1個の状態Q(d,t)を、相異なる状態Esに対応するS個の要素q1(d,t)〜qS(d,t)を含むS次元ベクトルとして表現した。各要素qs(d,t)は、前述の基礎状態系列Zの各要素zs(n)と同様にone-of-Sの2値変数である。すなわち、状態Q(d,t)が状態Esに該当する場合には、S個の要素q1(d,t)〜qS(d,t)のうち第s番目の1個の要素qs(d,t)が数値1に設定され、残余の(S−1)個の要素は数値0に設定される。
各音響信号Adの特徴量x(d,t)が生成される過程の確率モデル(以下「観測モデル」という)を想定し、音響信号Adの第t番目のフレームで特徴量x(d,t)が観測される尤度p(x(d,t)|Z,Qd)を、以下の数式(3)で表現する。
Figure 2015219304
第1マルコフモデルの各状態Esには、対象楽曲の音響的または音楽的な特性に関連する変数(短時間の音響信号Adの生成過程に関連するパラメータ)θ(s)が割当てられる。具体的には、対象楽曲の構成音の音高を指定する変数θ(s)が状態Esに割当てられる。数式(3)の記号p(x(d,t)|θ(s))は、変数θ(s)で規定される状態Esのもとで特徴量x(d,t)が観測される尤度である。観測尤度p(x(d,t)|Z,Qd)の確率分布は、例えば特徴量x(d,t)と同次元の正規分布とされ、変数θ(s)は、例えば正規-ガンマ(Normal-Gamma)分布等の事前分布p(θ(s)|θ0)から生成されると仮定する。
第1実施形態の解析処理部24は、各音響信号Adの観測モデルの事後分布を特定し、解析状態系列Qdの最大事後確率(MAP)の推定値をD個の音響信号A1〜ADの各々について算定する。以上の解析の結果を利用して、解析処理部24は、D個の音響信号A1〜ADの各々についてI個の遷移点を特定する。
図5は、第1実施形態の時間軸対応解析のうち各音響信号Adの観測モデルの事後分布を特定する処理のフローチャートである。以下の説明では、第1マルコフモデル(基礎状態系列Z)と第2マルコフモデルと観測モデルとの独立性を仮定した変分ベイズ法により観測モデルの事後分布を特定する。例えば入力装置16に対する利用者からの指示(解析開始指示)を契機として図5の処理が開始される。
図5の処理を開始すると、特徴抽出部22は、D個の音響信号A1〜ADの各々について特徴量x(d,t)(x(d,1)〜x(d,Td))を抽出する(SA1)。そして、解析処理部24は、各種の変数を初期化する(SA2〜SA4)。具体的には、第1マルコフモデルの初期化(SA2)と各状態Esに関する変数θ(s)の確率分布の初期化(SA3)と各音響信号Adの第2マルコフモデルの初期化(SA4)とが実行される。第1マルコフモデルの初期化(SA2)および第2マルコフモデルの初期化(SA4)では、例えば、前向き後向き(forward-backward)アルゴリズムに適用される変数の確保と、状態遷移行列の確率分布(S次元のS個のディリクレ分布)の生成および初期化と、初期状態πの確率分布(例えばS次元のディリクレ分布)の生成および初期化とが実行される。また、各変数θ(s)の確率分布の初期化(SA3)では、正規分布の共役事前分布である正規-ウィシャート(Normal-Wishart)分布の変数(超パラメータ)が設定され、当該分布に応じて代表的な正規分布が生成される。
以上に例示した初期化が完了すると、解析処理部24は、特徴抽出部22が各音響信号Adについて抽出(SA1)した特徴量x(d,t)を利用して各モデルの変分事後分布を反復的に更新する(SA5〜SA8)。すなわち、特徴量x(d,t)を利用した学習処理で各モデルの変分事後分布が特定される。具体的には、解析処理部24は、第1マルコフモデルの変分事後分布の更新(SA6)と、各音響信号Adの第2マルコフモデルの変分事後分布の更新(SA7)と、観測モデルの変分事後分布の更新(SA8)とを以上の順番で順次に実行する。各変分事後分布の更新(SA6〜SA8)は、所定の収束条件の成立まで累積的に反復される(SA5:NO)。収束条件の内容は任意であるが、例えば、各変分事後分布の更新の回数が所定値に到達することが収束条件として好適に採用され得る。
第1マルコフモデルの変分事後分布の更新(SA6)および各音響信号Adの第2マルコフモデルの変分事後分布の更新(SA7)には、例えば、第1マルコフモデルと第2マルコフモデルと観測モデルとの独立性を仮定した平均場近似におけるバウム-ウェルチ(Baum-Welch)アルゴリズム(前向き後向きアルゴリズム)が好適に利用される。また、観測モデルの変分事後分布の更新(SA8)には、例えば、第1マルコフモデルと第2マルコフモデルと観測モデルとの独立性を仮定した平均場近似の変分ベイズ法が好適に利用される。
例えば、基礎状態系列Zの状態Z(n)に対する状態Esの出現確率Os(n)と状態遷移確率Ts,s'(n)とは、例えば以下の数式(4A)および数式(4B)で表現される。なお、以下に例示する数式の記号〈〉は期待値を意味する。
Figure 2015219304
音響信号Adの第t番目のフレームにおける状態Z(n)の出現確率On(d,t)と状態遷移確率Tn,n'(d)とは、例えば以下の数式(5A)および数式(5B)で表現される。
Figure 2015219304
収束条件が成立した時点(SA5:YES)での観測モデルの最新の変分事後分布が観測モデルの事後分布として特定される。解析処理部24は、前述の通り、以上に例示した手順で特定された観測モデルの事後分布を利用して、D個の音響信号A1〜ADの各々についてI個の遷移点を特定する。
以上に説明した通り、第1実施形態では、任意の状態間を遷移可能なエルゴード型の第1マルコフモデルから生成された基礎状態系列Zと共通の順序で同数(N個)の状態Z(1)〜Z(N)が配列されたleft-to-right型の第2マルコフモデルが各音響信号Adの解析状態系列Qdの特定に利用される。したがって、第1マルコフモデルの各状態Esの変数(出現確率Os(n),状態遷移確率Ts,s'(n))の更新には、D個の音響信号A1〜ADにわたる特徴量x(d,t)のうち当該状態Esに対応するフレームの特徴量x(d,t)が利用され得る。例えば、図4の例示のように基礎状態系列Zの状態Z(2)と状態Z(3)と状態Z(5)とに対して共通の状態E2が対応する場合を想定すると、音響信号Ad(解析状態系列Qd)のうち状態E2に対応する複数の状態Z(n)(Z(2),Z(3),Z(5))のフレームの特徴量x(d,t)をD個の音響信号A1〜ADから抽出して、第1マルコフモデルの1個の状態E2の変数の更新に利用することが可能である。すなわち、状態Z(2)と状態Z(3)と状態Z(5)とが共通の状態E2に対応するという事実を第1マルコフモデルの学習処理に反映させることが可能である。したがって、事前に固定的に設定された個数および順番で状態を配列したleft-to-right型のHMMを利用する非特許文献1の技術と比較すると、同様の構造が反復的に出現する対象楽曲の複数の音響信号A1〜ADについて特に、時間軸上の対応を高精度に解析できるという利点がある。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、第1マルコフモデルの状態数Sを所定値に固定した。第2実施形態では、状態数Sが無限化されたマルコフモデルを第1マルコフモデルとして利用する。具体的には、各状態Esをディリクレ過程としてモデル化したノンパラメトリックベイズ(Nonparametric Bayesian)マルコフモデルを第1マルコフモデルとして利用することで、第1マルコフモデルの実質的な状態数Sを、音響信号Adの各特徴量x(d,t)の複雑性に依存する可変値とする。
第2実施形態の第1マルコフモデルでは、各状態遷移確率τ(m)の事前分布が以下の数式(6)で表現される。
Figure 2015219304

数式(6)の記号GEM(α)は、全長1の棒を1対αの比率で反復的に折り取る棒折過程を意味し、以下の数式(7)で表現される確率過程(ベータ分布)で生成される変数に相当する。
Figure 2015219304
第2実施形態においても第1実施形態と同様の効果が実現される。なお、第1マルコフモデルの状態数Sが所定値に固定される第1実施形態では、状態数Sの設定値と各音響信号Adの特性(各特徴量x(d,t)の複雑性)とに応じて推定精度が変動し得る。第2実施形態では、第1マルコフモデルの状態数Sが無限化されるから、D個の音響信号A1〜ADの間の時間軸上の対応を音響信号Adの特性に関わらず高精度に解析できるという利点がある。
<第3実施形態>
各音響信号Adの各音符の継続長(1個の状態Z(n)に停留する時間長)は、演奏者の意図に応じて音響信号Ad毎に相違し得る。ただし、対象楽曲が共通する以上、各音響信号Adの音符の継続長の分布は、対象楽曲の楽譜上の継続長(音価)に集中するという傾向がある。以上の傾向を考慮して、第3実施形態では、各状態Z(n)の継続長の確率分布を明示的に規定したexplicit-duration型のマルコフモデルを、各音響信号Adの第2マルコフモデルとして利用する。
具体的には、以下の数式(8)で表現される通り、第2マルコフモデルの各状態Z(n)の継続長(停留時間)の確率分布を正規分布とした構成が好適である。
Figure 2015219304

任意の1個の状態Z(n)に停留する時間を最大でフレームのL個分と仮定し、各音響信号Adの第2マルコフモデルの状態空間を(N×L)の積空間に拡張した場合を想定すると、数式(8)の確率p(l|μ(n),c)は、状態Z(n,l)から状態Z(n+1,l)に遷移する確率を意味する。なお、状態Z(n,l)から状態Z(n,l+1)に遷移する確率は1に設定され、それ以外の遷移確率は0に設定される。記号cは所定の定数に設定される。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、各状態Z(n)の継続長の確率分布を規定するexplicit-duration型のマルコフモデルが第2マルコフモデルとして利用されるから、各音響信号Adにおける各音符の継続長が対象楽曲の所期の継続長(楽譜上の音価)に集中するという傾向を加味して各音響信号Adの時間軸上の対応を高精度に解析できるという利点がある。
<第4実施形態>
図6は、第4実施形態に係る音響解析装置100の構成図である。図6に例示される通り、第4実施形態の音響解析装置100の演算処理装置10は、第1実施形態と同様の要素(特徴抽出部22,解析処理部24,表示制御部26)に加えて音響処理部28として機能する。音響処理部28は、解析処理部24による解析結果を利用して各音響信号Adを処理する。
第4実施形態の表示制御部26は、第1実施形態と同様に、解析結果画面40のD個の表示領域W1〜WDの各々に音響信号Adの波形を表示し、解析処理部24が特定した遷移点を境界として各音響信号Adの波形をK個の単位区間U(d,1)〜U(d,K)に区分する。すなわち、時間軸上で相互に対応するD個の単位区間U(1,k)〜U(D,k)のK組分(以下では各組を「対応区間群」という)が表示装置14に表示される。利用者は、入力装置16を適宜に操作することで、K個の対応区間群の各々について、当該対応区間群のD個の単位区間U(1,k)〜U(D,k)から任意の1個の単位区間U(d,k)を選択することが可能である。表示制御部26は、図7に例示される通り、利用者が各対応区間群から選択したK個の単位区間U(d,k)の各々を強調表示するとともに、各単位区間U(d,k)を時間軸上の順番で相互に連結する連結画像44を表示装置14に表示させる。
音響処理部28は、図7に例示される通り、利用者が対応区間群毎に選択した単位区間U(d,k)の音響信号AdをK個の対応区間群にわたり相互に連結した音響信号Bを生成する。すなわち、D個の音響信号A1〜ADの各々から利用者の所望の単位区間U(d,k)を選択的に抽出して相互に組合せた音響信号Bが生成される。例えば、演奏者が相違するD個の音響信号A1〜ADを想定すると、区間毎に演奏者が変化する対象楽曲の演奏音の音響信号Bが生成される。音響処理部28が生成した音響信号Bは、例えばスピーカ等の放音装置(図示略)により音波として再生される。なお、音響処理部28が生成した音響信号Bを記録媒体に格納する構成や音響信号Bを外部装置に送信する構成も採用され得る。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、D個の音響信号A1〜ADの各々から利用者が選択した単位区間U(d,k)を相互に連結した音響信号Bが生成されるから、例えば相異なる演奏者による演奏を組合せた多様な音響を生成することが可能である。また、解析処理部24は、音響信号Adのうち音符が変化する時点を遷移点として特定する(各音響信号Adが音符単位で各単位区間に区分される)から、相前後する各単位区間U(d,k)の境界で音響が自然に遷移する音響信号Bを生成できる(音響の不連続な変化を抑制できる)という利点もある。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、変分ベイズ法を利用して各音響信号Adの観測モデルの事後分布を特定したが、観測モデルの事後分布の特定には公知の技術が任意に採用され得る。図8は、ギブスサンプリング(Gibbs sampling)を利用して各音響信号Adの観測モデルの事後分布を特定する処理のフローチャートである。
第1実施形態と同様に、特徴抽出部22が各音響信号Adの特徴量x(d,t)を抽出すると(SB1)、解析処理部24は、第1マルコフモデルの初期化(SB2)と各状態Esに関する変数θ(s)の確率分布の初期化(SB3)と各音響信号Adの第2マルコフモデルの初期化(SB4)とを実行する。第1マルコフモデルの初期化(SB2)および第2マルコフモデルの初期化(SB4)では、状態遷移行列の確率分布(S次元のS個のディリクレ分布)の生成および初期化と、初期状態の確率分布(例えばS次元のディリクレ分布)の生成および初期化とが実行され、初期化後の各確率分布を利用して状態遷移行列と初期状態と状態系列とがサンプリングされる。また、各変数θ(s)の確率分布の初期化(SB3)では、第1実施形態と同様に正規-ウィシャート分布の変数が設定され、当該分布を利用して正規分布の変数(平均と共分散行列)がサンプリングされる。
以上に説明した初期化が完了すると、解析処理部24は、特徴抽出部22が各音響信号Adについて抽出(SB1)した特徴量x(d,t)を利用したサンプリングを反復的に実行することで観測モデルの事後分布を特定する(SB5〜SB8)。具体的には、解析処理部24は、第1マルコフモデル以外の変数を固定した場合の第1マルコフモデルの状態系列をサンプリングし(SB6)、D個の音響信号A1〜ADの各々について、当該音響信号Ad以外の音響信号Ad'(d'≠d)の第2マルコフモデルの変数を固定した場合の音響信号Adの第2マルコフモデルの状態系列をサンプリングする(SB7)。そして、解析処理部24は、以上の処理を踏まえて各音響信号Adの観測モデルから事後分布の変数をサンプリングする。所定の収束条件の成立(SB5:YES)まで以上の処理を累積的に反復することで、解析処理部24は、各音響信号Adの観測モデルの事後分布を確定する。なお、演算量の削減の観点からは、前述の各形態で例示した変分ベイズ法が有利である。
(2)第4実施形態の音響処理部28が実行する処理は、各単位区間U(d,k)の連結に限定されない。例えば、時間軸上で相互に対応する複数(D個以下)の単位区間U(d,k)の音響信号Adを、音響処理部28が相互に合成(モーフィング)することも可能である。歌唱音声や朗読音声等の音声の音響信号Adを解析する場合には特に、各音響信号Adの音素ラベルを必要とせずに、相互に対応する音素の単位区間U(d,k)を合成できるという利点がある。
(3)第4実施形態において、利用者が選択した各単位区間U(d,k)を相互に連結する方法は適宜に変更される。例えば、利用者が選択した第1単位区間U1と第2単位区間U2とを相互に連結する場合を想定すると、第1単位区間U1と直後の所定長の補助区間とを音響信号Aから抽出するとともに、第2単位区間U2と直前の所定長の補助区間とを音響信号Aから抽出し、第1単位区間U1と第2単位区間U2との間で補助区間同士を相互に混合(例えばクロスフェードする)ことも可能である。また、演奏速度が音響信号Ad毎に相違し得ることを考慮すると、利用者が選択した各単位区間U(d,k)について時間軸伸張(タイムストレッチ)等の調整処理を実行することで演奏速度を相互に近似または合致させてから各単位区間U(d,k)を連結する構成も好適である。以上に例示した各構成によれば、各単位区間U(d,k)の境界で音響を自然に遷移させ得るという第4実施形態の効果が補強される。
(4)前述の各形態では、対象楽曲の演奏音を収録した音響信号Adを例示したが、音響信号Adが表す音響は楽器の演奏音に限定されない。例えば、対象楽曲の歌唱音声を表す音響信号Adや詩等の作品の朗読音声を表す音響信号Adを解析することも可能である。ただし、同様の構造が時間軸上で反復的に出現する素材の複数の音響信号の解析に本発明は特に好適に利用される。なお、音響信号Adが音声を表す場合には、例えばMFCC(Mel-Frequency Cepstral Coefficients)等が特徴量x(d,t)として好適に抽出され得る。また、例えば音響信号以外の時系列データと音響信号との間で前述の各形態と同様の時間軸対応解析を実行することも可能である。音響信号と対比される時系列データとしては、対象楽曲の楽譜画像から抽出される音高を時系列に指定するデータが例示され得る。
(5)携帯電話機やスマートフォン等の端末装置と通信するサーバ装置で音響解析装置100を実現することも可能である。例えば、音響解析装置100は、端末装置から受信したD個の音響信号A1〜ADについて前述の各形態と同様の時間軸対応解析を実行し、解析結果に応じた画像データを端末装置に送信することで解析結果画面40を表示させる。なお、D個の音響信号A1〜ADの各々から抽出された特徴量x(d,t)が端末装置から音響解析装置100に送信される構成(例えば端末装置が特徴抽出部22を具備する構成)では音響解析装置100から特徴抽出部22が省略される。
100……音響解析装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、22……特徴抽出部、24……解析処理部、26……表示制御部、28……音響処理部。

Claims (5)

  1. 任意の状態間を遷移可能なエルゴード型の第1マルコフモデルから生成されて複数の音響信号に共通する基礎構造を複数の状態で表現する基礎状態系列と共通の順序で同数の状態が配列されたleft-to-right型の第2マルコフモデルを利用して、前記複数の音響信号の各々について、前記複数の状態の遷移を示す解析状態系列を特定する解析処理手段
    を具備する音響解析装置。
  2. 前記第1マルコフモデルは、状態数が無限化されたマルコフモデルである
    請求項1の音響解析装置。
  3. 前記第2マルコフモデルは、各状態の継続長の確率分布が規定されたexplicit-duration型のマルコフモデルである
    請求項1または請求項2の音響解析装置。
  4. 前記解析処理手段は、前記複数の音響信号の各々について、当該音響信号の前記解析状態系列における相異なる状態の境界の時点を特定し、
    前記音響信号の時間軸上の波形と、当該波形のうち前記解析処理手段が当該音響信号について特定した境界の時点とを、前記複数の音響信号について共通の時間軸のもとで表示装置に表示させる表示制御手段
    を具備する請求項1から請求項3の何れかの音響解析装置。
  5. 前記解析処理手段が特定した各境界の時点で複数の単位区間に区分された前記複数の音響信号の各々から利用者が選択した単位区間を相互に連結した音響信号を生成する音響処理手段
    を具備する請求項4の音響解析装置。
JP2014101405A 2014-05-15 2014-05-15 音響解析装置 Expired - Fee Related JP6323159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014101405A JP6323159B2 (ja) 2014-05-15 2014-05-15 音響解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014101405A JP6323159B2 (ja) 2014-05-15 2014-05-15 音響解析装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018075348A Division JP6489261B2 (ja) 2018-04-10 2018-04-10 音響解析方法および音響解析装置

Publications (2)

Publication Number Publication Date
JP2015219304A true JP2015219304A (ja) 2015-12-07
JP6323159B2 JP6323159B2 (ja) 2018-05-16

Family

ID=54778746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014101405A Expired - Fee Related JP6323159B2 (ja) 2014-05-15 2014-05-15 音響解析装置

Country Status (1)

Country Link
JP (1) JP6323159B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020064262A (ja) * 2018-10-19 2020-04-23 ヤマハ株式会社 情報処理方法および情報処理システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290474A (ja) * 2000-04-06 2001-10-19 Japan Science & Technology Corp 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置
JP2013105436A (ja) * 2011-11-16 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 対話モデル構築装置、方法、及びプログラム
JP2015036710A (ja) * 2013-08-12 2015-02-23 ヤマハ株式会社 音響信号のアライメント装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290474A (ja) * 2000-04-06 2001-10-19 Japan Science & Technology Corp 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置
JP2013105436A (ja) * 2011-11-16 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 対話モデル構築装置、方法、及びプログラム
JP2015036710A (ja) * 2013-08-12 2015-02-23 ヤマハ株式会社 音響信号のアライメント装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
前澤陽、奥乃博: "楽曲パート混合オーディオ同士の楽譜なしアライメント手法", 情報処理学会 研究報告 音楽情報科学(MUS) 2013−MUS−100, JPN6018008930, 24 August 2013 (2013-08-24), JP, pages 1 - 6, ISSN: 0003756404 *
山本龍一、酒向慎司、北村正: "隠れセミマルコフモデルと線形動的システムを組み合わせた音楽音響信号と楽譜の実時間アライメント手法", 情報処理学会研究報告 研究報告 音楽情報科学(MUS) NO.96, JPN6018008937, 15 October 2012 (2012-10-15), JP, pages 1 - 6, ISSN: 0003756406 *
斉藤 翔一郎、武田晴登、西本卓也、嵯峨山茂樹: "Specmurt分析とChroma Vectorを用いたHMMによる音楽音響信号の調認識", 情報処理学会研究報告 2005−MUS−61 音楽情報科学, vol. 2005, no. 82, JPN6018008934, 5 August 2005 (2005-08-05), JP, pages 85 - 90, ISSN: 0003756405 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020064262A (ja) * 2018-10-19 2020-04-23 ヤマハ株式会社 情報処理方法および情報処理システム
JP7200597B2 (ja) 2018-10-19 2023-01-10 ヤマハ株式会社 情報処理方法および情報処理システム

Also Published As

Publication number Publication date
JP6323159B2 (ja) 2018-05-16

Similar Documents

Publication Publication Date Title
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
WO2018084305A1 (ja) 音声合成方法
JP2017097176A (ja) 音声合成装置および音声合成方法
CN108986841B (zh) 音频信息处理方法、装置及存储介质
Verfaille et al. Mapping strategies for gestural and adaptive control of digital audio effects
CN108766409A (zh) 一种戏曲合成方法、装置和计算机可读存储介质
JP2015169698A (ja) 音声検索装置、音声検索方法及びプログラム
JP2017111372A (ja) 音声合成方法、音声合成制御方法、音声合成装置および音声合成制御装置
CN116504218A (zh) 声音合成方法、声音合成系统
JP2018004870A (ja) 音声合成装置および音声合成方法
US11842720B2 (en) Audio processing method and audio processing system
US20210366454A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
JP2018077283A (ja) 音声合成方法
JP6489261B2 (ja) 音響解析方法および音響解析装置
JP6323159B2 (ja) 音響解析装置
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
KR20150118974A (ko) 음성 처리 장치
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP6680029B2 (ja) 音響処理方法および音響処理装置
JP6683103B2 (ja) 音声合成方法
CN113255313B (zh) 音乐生成方法、装置、电子设备和存储介质
CN113421544B (zh) 歌声合成方法、装置、计算机设备及存储介质
JP2018077281A (ja) 音声合成方法
CN113488007B (zh) 信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180326

R151 Written notification of patent or utility model registration

Ref document number: 6323159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees