<第1実施形態>
図1は、本発明の第1実施形態の音響処理装置12の構成図である。図1に例示される通り、音響処理装置12には複数の収音装置14と放音装置16とが接続される。複数の収音装置14の各々は、当該収音装置14の周囲の音響を表す音響信号XAを生成する。音響信号XAは、例えば左右2チャネルのステレオ形式の信号である。複数の収音装置14が生成した複数の音響信号XAが音響処理装置12に並列に供給される。なお、収音装置14が生成した音響信号XAをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
各収音装置14は相異なる発音源の近傍に配置される。発音源は、例えば演奏により楽音を発音する楽器や歌唱音声を発音する歌唱者である。第1実施形態では、収録スタジオ等の音響空間の内部で歌唱者と複数の楽器とにより音楽を演奏する場合を想定する。各収音装置14が生成する音響信号XAには、当該収音装置14の近傍の発音源から発音された音響が優勢に含有されるが、当該音響と比較して小音量で他の発音源の音響も含有され得る。
第1実施形態の各発音源は、調波音または非調波音を発音する。調波音は、基本周波数の基音成分と複数の倍音成分とを周波数軸上に配列した調波構造が明瞭に観測される調波性の音響である。例えば弦楽器または管楽器等の調波楽器の楽音や歌唱音声等の人間の発声音が調波音の典型例である。他方、非調波音は、調波構造が明瞭に観測されない非調波性の音響である。例えばドラムやシンバル等の打楽器の楽音が非調波音の典型例である。
なお、調波音は、調波性の音響成分を非調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては調波性が優勢である音響も、調波音の概念に包含される。同様に、非調波音は、非調波性の音響成分を調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、非調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては非調波性が優勢である音響も、非調波音の概念に包含される。以下の説明では、調波音に関連する要素の符号に添字H(H:Harmonic)を付加し、非調波音に関連する要素の符号に添字P(P:Percussive)を付加する場合がある。
音響処理装置12は、複数の音響信号XAに対する音響処理で音響信号XBを生成する。具体的には、第1実施形態の音響処理装置12は、複数の音響信号XAの混合(ミキシング)により左右2チャネルのステレオ形式の音響信号XBを生成する。放音装置16(例えばスピーカやヘッドホン)は、音響処理装置12が生成した音響信号XBに応じた音響を放音する。なお、音響処理装置12が生成した音響信号XBをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。また、図1では各収音装置14と放音装置16とを音響処理装置12とは別個の要素として図示したが、複数の収音装置14と放音装置16とを音響処理装置12に搭載することも可能である。
図1に例示される通り、音響処理装置12は、制御装置122と記憶装置124とを具備するコンピュータシステムで実現される。記憶装置124は、例えば磁気記録媒体や半導体記録媒体等の公知の記録媒体または複数種の記録媒体の組合せであり、制御装置122が実行するプログラムや制御装置122が使用する各種のデータを記憶する。制御装置122は、記憶装置124が記憶するプログラムを実行することで、複数の音響信号XAの各々を解析する音響解析部20と、音響解析部20による解析結果を利用して複数の音響信号XAから音響信号XBを生成する音響処理部30とを実現する。なお、制御装置122の機能の一部または全部を専用の電子回路で実現する構成や、制御装置122の機能を複数の装置に分散した構成も採用され得る。
音響解析部20は、複数の収音装置14から供給される複数の音響信号XAの各々について、当該音響信号XAが表す音響の発音源の種類を特定する。具体的には、音響解析部20は、各音響信号XAの発音源の種類を示す情報(以下「音源識別情報」という)Dを生成する。音源識別情報Dは、例えば発音源の名称(具体的には楽器名や演奏パート名)である。
図2は、音響解析部20の構成図である。図2に例示される通り、第1実施形態の音響解析部20は、発音区間検出部40と特徴量抽出部50と音源識別部60とを具備する。なお、以下の説明では、任意の1系統の音響信号XAに対する処理に便宜的に着目するが、複数の音響信号XAの各々について同様の処理が実行される。
図2の発音区間検出部40は、音響信号XAについて複数の発音区間Pを検出する。図3には、音響信号XAの波形と発音区間Pとの関係が図示されている。図3から理解される通り、各発音区間Pは、音響信号XAが表す音響が発音される時間軸上の区間であり、音響の発音が開始する時点(以下「発音始点」という)TSから終点(以下「発音終点」という)TEまでの区間である。
具体的には、第1実施形態の発音区間検出部40は、音響信号XAの強度が閾値ATHを上回る時点を発音始点TSとして特定し、発音始点TSから所定の時間が経過した時点を発音終点TEとして特定する。閾値ATHの選定方法は任意であるが、音響信号XAの強度の最大値Amaxに対して1未満の正数(例えば0.5)を乗算した数値が閾値ATHとして好適である。任意の1系統の音響信号XAでは、当該音響信号XAの供給元の収音装置14の近傍に位置する発音源の音量が他の発音源の音量を上回る。したがって、任意の1個の収音装置14が生成した音響信号XAからは、当該収音装置14の近傍の発音源による発音のみを反映した(すなわち他の発音源の影響が除去された)発音区間Pが特定される。なお、発音始点TSの経過後に音響信号XAの強度が所定の閾値(例えば最大値Amaxに応じた数値)まで減衰した時点を発音終点TEとして特定することも可能である。
図2の特徴量抽出部50は、音響信号XAの特徴量Fを抽出する。第1実施形態の特徴量抽出部50は、発音区間検出部40が検出した発音区間P毎に特徴量Fを順次に抽出する。特徴量Fは、発音区間P内の音響信号XAの音響的な特徴を表す指標である。第1実施形態の特徴量Fは、相異なる複数種の特性値f(f1,f2,……)を包含するベクトルで表現される。具体的には、音響信号XAの音色を表すMFCC(Mel-frequency cepstral coefficients),発音区間P内の音響の立上がりの急峻度,基音成分に対する倍音成分の強度比,音響信号XAの強度の符号が反転する回数または頻度である零交差数等の複数種の特性値fが特徴量Fに包含される。
各発音源が発音する音響の特徴は、発音始点TSの直後に特に顕著となる。第1実施形態では、音響信号XAの発音始点TS毎(発音区間P毎)に音響信号XAの特徴量Fが抽出されるから、発音の有無や時点とは無関係に音響信号XAを区分した区間毎に特徴量Fを抽出する構成と比較して、発音源の種類毎に固有の特徴が顕著に反映された特徴量Fを抽出できるという利点がある。もっとも、発音源による発音の有無や時点とは無関係に音響信号XAを時間軸上で区分した区間毎に特徴量Fを抽出する(したがって発音区間検出部40は省略される)ことも可能である。音源識別部60は、特徴量抽出部50が抽出した特徴量Fを利用して音響信号XAの発音源の種類を識別することで音源識別情報Dを生成する。
図1の音響処理部30は、音響解析部20が音響信号XA毎に解析した音源識別情報Dを参照して複数の音響信号XAに音響処理を実行することで音響信号XBを生成する。具体的には、音響信号XAの音源識別情報Dが示す発音源の種類毎に事前に設定された音響処理が当該音響信号XAに対して実行される。音響信号XAに対する音響処理としては、例えば残響効果や歪効果等の各種の音響効果を付与する効果付与処理(エフェクタ)や、周波数帯域毎の音量を調整する特性調整処理(イコライザ),音像が定位する位置を調整する定位調整処理(パン),音量を調整する音量調整処理が例示される。効果付与処理で音響信号XAに付与される音響効果の種類や度合,特性調整処理で音響信号XAに付与される周波数特性,定位調整処理で調整される音像の位置,音量調整処理による調整内容(ゲイン)等の各種のパラメータが、音源識別情報Dが示す発音源の種類毎に個別に設定される。そして、音響処理部30は、以上に例示した音響処理後の複数の音響信号XAを混合(ミキシング)することで音響信号XBを生成する。すなわち、第1実施形態の音響処理部30は、調波性解析部62による発音源の識別結果を反映した自動ミキシングを実現する。
<音源識別部60>
図4は、第1実施形態の音源識別部60の構成図である。図4に例示される通り、第1実施形態の音源識別部60は、調波性解析部62と第1解析部64と第2解析部66と音源特定部68とを具備する。
調波性解析部62は、音響信号XAが表す音響(以下「対象音」という)が調波音および非調波音の何れに該当するかを音響信号XAの特徴量Fから解析する。第1実施形態の調波性解析部62は、対象音が調波音に該当する確度WH(第1確度)と対象音が非調波音に該当する確度WP(第2確度)とを算定する。
具体的には、特徴量Fの解析で調波音と非調波音とを判別する公知のパターン認識器が調波性解析部62として任意に利用される。第1実施形態では、教師あり学習を利用した統計モデルの代表例であるサポートベクターマシーン(SVM:Support Vector Machine)を調波性解析部62として例示する。すなわち、調波性解析部62は、調波音と非調波音とを含む多数の音響の学習データを適用した機械学習で事前に決定された超平面を利用して、特徴量Fの対象音が調波音および非調波音の何れに該当するかを特徴量F毎(発音区間P毎)に順次に判別する。そして、調波性解析部62は、例えば所定の期間内に対象音が調波音であると判別した回数の比率(調波音と判別した回数/当該期間内の判別の総回数)を調波音の確度WHとして算定する一方、対象音が非調波音であると判別した回数の比率を非調波音の確度WPとして算定する(WH+WP=1)。以上の説明から理解される通り、音響信号XAの対象音が調波音である可能性(尤度)が高いほど確度WHは大きい数値となり、対象音が非調波音である可能性が高いほど確度WPは大きい数値となる。
第1解析部64は、音響信号XAの対象音の発音源が複数種の調波音源の何れに該当するかを音響信号XAの特徴量Fから解析する。調波音源は、調波音を発音する発音源(例えば調波楽器)を意味する。図4では、ベース(Bass),ギター(Guitar),男性歌唱者(male Vo.),女性歌唱者(female Vo.)の4種類が、対象音の発音源の候補となる調波音源として例示されている。具体的には、第1実施形態の第1解析部64は、N種類(Nは2以上の自然数)の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度に応じた評価値EH(n)(EH(1)〜EH(N))を設定する。
図5は、第1解析部64が評価値EH(1)〜EH(N)を設定する処理(以下「調波解析処理」という)のフローチャートである。特徴量抽出部50による特徴量Fの抽出毎(したがって発音区間P毎)に図5の調波解析処理が実行される。
調波解析処理を開始すると、第1解析部64は、事前に選定されたN種類の調波音源から任意の2種類の調波音源を選択する全通り(NC2通り)の組合せの各々について、対象音の発音源が当該組合せの2種類の調波音源の何れに該当するかを、特徴量Fを利用して判別する(SA1)。以上の判別には、2種類の調波音源を判別候補とするサポートベクターマシーンが好適に利用される。すなわち、調波音源の組合せに相当するNC2通りのサポートベクターマシーンに特徴量Fを適用することで、当該組合せ毎に対象音の発音源が2種類の調波音源から選択される。
第1解析部64は、N種類の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度CH(n)(CH(1)〜CH(N))を算定する(SA2)。任意の1個(第n番目)の調波音源の確度CH(n)は、例えば、合計NC2回にわたる判別のうち対象音の発音源が第n番目の調波音源に該当すると判別された回数の比率(調波音源に該当すると判別された回数/NC2)である。以上の説明から理解される通り、音響信号XAの対象音の発音源がN種類のうち第n番目の調波音源に該当する可能性(尤度)が高いほど確度CH(n)は大きい数値となる。
第1解析部64は、調波音源毎に算定された確度CH(n)の順位に対応した数値(得点)を評価値EH(n)としてN種類の調波音源の各々について設定する(SA3)。具体的には、確度CH(n)が大きいほど評価値EH(n)が大きい数値となるように確度CH(n)の順位に応じた数値が各調波音源の評価値EH(n)に付与される。例えば、確度CH(n)の降順で最上位に位置する調波音源の評価値EH(n)は数値ε1(例えばε1=100)に設定され、確度CH(n)が第2位に位置する調波音源の評価値EH(n)は数値ε1を下回る数値ε2(例えばε2=80)に設定され、確度CH(n)が第3位に位置する調波音源の評価値EH(n)は数値ε2を下回る数値ε3(例えばε3=60)に設定され、所定の順位を下回る残余の調波音源の評価値EH(n)は最小値(例えば0)に設定される、という具合である。以上の説明から理解される通り、音響信号XAの対象音の発音源がN種類のうち第n番目の調波音源に該当する可能性が高いほど評価値EH(n)は大きい数値となる。以上が調波解析処理の好適例である。
図4の第2解析部66は、音響信号XAの対象音の発音源が複数種の非調波音源の何れに該当するかを音響信号XAの特徴量Fから解析する。非調波音源は、非調波音を発音する発音源(例えば打楽器等の非調波楽器)を意味する。図4では、バスドラム(Kick),スネアドラム(Snare),ハイハット(Hi-Hat),フロアタム(F-Tom),シンバル(Cymbal)の5種類が、対象音の発音源の候補となる非調波音源として例示されている。具体的には、第1実施形態の第2解析部66は、M種類(Mは2以上の自然数)の非調波音源の各々について、対象音の発音源が当該非調波音源に該当する確度に応じた評価値EP(m)(EP(1)〜EP(M))を設定する。なお、調波音源の種類数Nと非調波音源の種類数Mとの異同は不問である。
第2解析部66によるM個の評価値EP(1)〜EP(M)の設定(非調波解析処理)は、図5に例示した調波解析処理(第1解析部64による評価値EH(n)の設定)と同様である。具体的には、第2解析部66は、M種類の非調波音源から2種類を選択する全通り(MC2通り)の組合せの各々について、対象音の発音源が当該組合せの2種類の非調波音源の何れに該当するかを判別し、対象音の発音源が第m番目の非調波音源に該当する確度CP(m)を非調波音源毎に算定する。非調波音源の判別には、調波解析処理での調波音源の判別と同様にサポートベクターマシーンが好適に利用される。
そして、第2解析部66は、M種類の非調波音源の各々について、確度CP(m)の順位に対応した数値を評価値EP(m)として設定する。確度CP(m)の任意の順位に位置する非調波音源の評価値EP(m)には、確度CH(n)の順番で同順位に位置する調波音源の評価値EH(n)と同等の数値が付与される。具体的には、確度CP(m)の降順で最上位に位置する非調波音源の評価値EP(m)は数値ε1に設定され、確度CP(m)が第2位に位置する非調波音源の評価値EP(m)は数値ε2に設定され、確度CP(m)が第3位に位置する非調波音源の評価値EP(m)は数値ε3に設定され、所定の順位を下回る残余の調波音源の評価値EP(m)は最小値(例えば0)に設定される。したがって、音響信号XAの対象音の発音源がM種類のうち第m番目の非調波音源に該当する可能性(尤度)が高いほど評価値EP(m)は大きい数値となる。
特徴量抽出部50が音響信号XAから抽出する任意の1個の特徴量Fは、前述の通り、相異なる特性値f1(第1特性値)および特性値f2(第2特性値)を含む複数の特性値fで構成される。第1実施形態の第1解析部64は、特徴量Fの特性値f1を利用して、対象音の発音源がN種類の調波音源の各々に該当する確度CH(n)を解析する。他方、第2解析部66は、特徴量Fの特性値f2を利用して、対象音の発音源がM種類の非調波音源の各々に該当する確度CP(m)を解析する。すなわち、第1解析部64が調波音源の確度CH(n)の算定に利用する特徴量F(特性値f1)と第2解析部66が非調波音源の確度CP(m)の算定に適用する特徴量F(特性値f2)とは相違する。
具体的には、第1解析部64による確度CH(n)の算定には、調波音源の種類毎に相違が顕著となる特性値f1が利用される。例えば、音色を表すMFCCや、基音成分に対する倍音成分の強度比等の特性値f1が、調波音の確度CH(n)の算定に好適に利用される。他方、第2解析部66による確度CP(m)の算定には、非調波音源の種類毎に相違が顕著となる特性値f2が利用される。例えば、音響の立上がりの急峻度や零交差数等の特性値f2が、非調波音の確度CP(m)の算定に好適に利用される。なお、第1解析部64が利用する特性値f1と第2解析部66が利用する特性値f2とを部分的に共通させることも可能である。
図4の音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる以上の解析の結果に応じて音響信号XAの発音源の種類を特定する。発音源の種類の特定は発音区間P毎に実行される。図4に例示される通り、第1実施形態の音源特定部68は、乗算部682と乗算部684と選択処理部686とを包含する。
乗算部682は、第1解析部64がN種類の調波音源について設定したN個の評価値EH(1)〜EH(N)の各々に、調波性解析部62が解析した調波音の確度WHを乗算することでN個の識別指標R(R=EH(n)×WH)を算定する。他方、乗算部684は、第2解析部66がM種類の非調波音源について設定したM個の評価値EP(1)〜EP(M)の各々に、調波性解析部62が解析した非調波音の確度WPを乗算することでM個の識別指標R(R=EP(m)×WP)を算定する。乗算部682および乗算部684の処理により、N種類の調波音源とM種類の非調波音源とを含むK種類(K=N+M)の候補音源の各々について識別指標Rが算定される。以上の説明から理解される通り、確度WHは、調波音の各評価値EH(n)に対する加重値に相当し、確度WPは、非調波音の各評価値EP(m)に対する加重値に相当する。対象音が調波音に該当する確度WHが大きいほど調波音源の識別指標Rが相対的に優勢となり、対象音が非調波音に該当する確度WPが大きいほど非調波音源の識別指標Rが相対的に優勢となる。
選択処理部686は、乗算部682および乗算部684が算定したK個の識別指標Rに応じて音響信号XAの対象音の発音源の種類を特定し、当該発音源の種類を示す音源識別情報D(例えば楽器名)を生成する。具体的には、選択処理部686は、K種類の候補音源のうち識別指標Rが最大となる1種類の候補音源を対象音の発音源として選択し、当該候補音源を指定する音源識別情報Dを生成する。すなわち、音響信号XAの対象音の発音源の種類が識別される。以上に例示した処理が複数の音響信号XAの各々について実行されることで、対象音の発音源の種類を示す音源識別情報Dが音響信号XA毎に生成される。音響解析部20の具体例は以上の通りである。
図6は、第1実施形態の音源識別部60が任意の1系統の音響信号XAについて対象音の発音源の種類を特定する処理(以下「音源識別処理」という)のフローチャートである。複数の音響信号XAの各々について、特徴量抽出部50による特徴量Fの抽出毎(発音区間P毎)に図6の音源識別処理が実行される。
音源識別処理を開始すると、調波性解析部62は、音響信号XAが表す対象音が調波音および非調波音の何れに該当するかを音響信号XAの特徴量Fから解析する(SB1)。他方、第1解析部64は、図5を参照して説明した調波解析処理によりN種類の調波音源の各々について評価値EH(n)(EH(1)〜EH(N))を算定し(SB2)、第2解析部66は、調波解析処理と同様の非調波解析処理によりM種類の非調波音源の各々について評価値EP(m)(EP(1)〜EP(M))を算定する(SB3)。そして、音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる以上の解析の結果に応じて音響信号XAの発音源の種類を特定する(SB4)。なお、調波性解析部62による調波性の解析と、第1解析部64による調波解析処理と、第2解析部66による非調波解析処理との順序は任意である。例えば調波解析処理(SB2)および非調波解析処理(SB3)の実行後に調波性解析部62が調波性を解析することも可能である。
以上に説明した通り、第1実施形態では、調波音と非調波音とを相互に区別して対象音の発音源の種類が特定される。具体的には、対象音が調波音および非調波音の各々に該当する確度(WH,WP)を調波性解析部62が解析した結果と、対象音の発音源がN種類の調波音源の各々に該当する確度CH(n)を第1解析部64が解析した結果と、対象音の発音源がM種類の非調波音源の各々に該当する確度CP(m)を第2解析部66が解析した結果とを利用して、対象音の発音源の種類が特定される。したがって、調波音と非調波音とを区別せずに発音源の種類を特定する構成と比較して対象音の発音源の種類を高精度に特定することが可能である。第1解析部64や第2解析部66の未学習の発音源についても音響処理部30による調波音/非調波音の識別は可能であるという利点もある。
また、第1実施形態では、対象音が調波音に該当する確度WHと各調波音源の評価値EH(n)との乗算、および、対象音が非調波音に該当する確度WPと各非調波音源の評価値EP(m)との乗算により、K種類の候補楽器(N種類の調波音源およびM種類の非調波音源)の各々について識別指標Rが算定され、各識別指標Rに応じて対象音の発音源の種類が特定される。すなわち、対象音が調波音に該当する確度WHが大きいほど調波音源の識別指標Rが相対的に優勢となり、対象音が非調波音に該当する確度WPが大きいほど非調波音源の識別指標Rが相対的に優勢となる。したがって、K個の識別指標Rの比較により対象音の発音源の種類を簡便かつ高精度に特定できるという利点がある。
ところで、例えば対象音の発音源が調波音源に該当する確度CH(n)を評価値EH(n)として利用するとともに対象音の発音源が非調波音源に該当する確度CP(m)を評価値EP(m)として利用する構成(以下「比較例」という)では、評価値EH(n)の数値が調波音源の種類数Nに依存するとともに評価値EP(m)の数値が非調波音源の種類数Mに依存する。例えば、調波音源の種類数Nが多いほど確度CH(n)は小さい数値となる。したがって、調波音源の種類数Nと非調波音源の種類数Mとが相違する場合には、評価値EH(n)と評価値EP(m)とを適切に比較できないという問題がある。第1実施形態では、対象音の発音源が調波音源に該当する確度CH(n)の順位に応じた数値が評価値EH(n)として調波音源毎に設定され、対象音の発音源が非調波音源に該当する確度CP(m)の順位に応じた数値が評価値EP(m)として非調波音源毎に設定される。すなわち、評価値EH(n)は調波音源の種類数Nに依存しない数値に設定され、評価値EP(m)は非調波音源の種類数Mに依存しない数値に設定される。したがって、第1実施形態によれば、例えば調波音源の種類数Nと非調波音源の種類数Mとが相違する場合でも評価値EH(n)と評価値EP(m)とを適切に比較できるという利点がある。調波音源の種類数Nおよび非調波音源の種類数Mの制約が緩和されると換言することも可能である。ただし、前述の比較例も本発明の範囲には包含される。
また、第1実施形態では、第1解析部64が調波音源の確度CH(n)の算定に利用する特徴量F(特性値f1)と第2解析部66が非調波音源の確度CP(m)の算定に適用する特徴量F(特性値f2)とが相違する。具体的には、例えば第1解析部64による確度CH(n)の算定には調波音の識別に好適な特性値f1が利用され、第2解析部66による確度CP(m)の算定には非調波音の識別に好適な特性値f2が利用される。したがって、調波音源の確度CH(n)の算定と非調波音源の確度CP(m)の算定とに同種の特徴量を利用する構成と比較して、対象音の発音源を高精度に特定できるという利点がある。ただし、第1解析部64と第2解析部66とが共通の特徴量Fを利用することも可能である。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の音響処理装置12は、第1実施形態の発音区間検出部40を図7の発音区間検出部40Aに置換した構成である。図7に例示される通り、第2実施形態の発音区間検出部40Aは、信号処理部42と始点解析部44と終点解析部46とを具備する。なお、以下の説明では、第1実施形態と同様に、任意の1系統の音響信号XAに対する処理に便宜的に着目するが、実際には複数の音響信号XAの各々について同様の処理が実行される。
信号処理部42は、収音装置14から供給される音響信号XAの信号処理で音響信号XEを生成する。音響信号XEは、音響信号XAの時間軸上の包絡線(エンベロープ)に相当する。具体的には、信号処理部42は、音響信号XAの各信号値を絶対値に変換したうえで高周波成分を抑圧(平滑化処理)することで音響信号XEを生成する。音響信号XEの波形が図8に例示されている。なお、外部装置で生成された音響信号XEが音響処理装置12に供給される構成では、音響処理装置12から信号処理部42が省略され得る。
図7の始点解析部44は、音響信号XEのうち音響の発音が開始される発音始点TSを特定する。終点解析部46は、音響信号XEのうち音響の発音が終了する発音終点TEを特定する。第1実施形態では、始点解析部44による発音始点TSの特定と終点解析部46による発音終点TEの特定とが、音響信号XEの生成に並行して実時間的に音響信号XEの始点から時間の経過とともに順次に実行される。始点解析部44および終点解析部46の各々の動作を以下に説明する。
<始点解析部44>
図8に例示される通り、第1実施形態の始点解析部44は、音響信号XEの強度(振幅またはパワー)Qが増加から減少に反転する極大点(ピーク)xHを発音始点TSとして特定する。ただし、第1実施形態の始点解析部44は、音響信号XEから検出される全部の極大点xHを発音始点TSとするのではなく、音響信号XEから検出される複数の極大点xHのうち所定の条件を充足する極大点xHを選択的に発音始点TSとして特定する。
具体的には、始点解析部44は、図8に例示された極大点xH1のように、極大点xHでの音響信号XEの強度QHと基準値QREFとの差分(QH−QREF)に応じた変動指標δが所定の閾値(以下「始点閾値」という)ZSを上回る場合(δ>ZS)に当該極大点xHを発音始点TSとして確定する。他方、図8に例示された極大点xH0のように、変動指標δが始点閾値ZSを下回る極大値xHは発音始点TSとされない。
基準値QREFは、直前の発音始点TS(処理開始の直後は音響信号XEの始点)以降における音響信号XEの強度Qの最小値となるように発音始点TSの解析処理の進行とともに随時に更新される。変動指標δは、例えば、極大点xHでの強度QHと基準値QREFとの差分(QH−QREF)を当該強度QHで除算した数値(δ=(QH−QREF)/QH)である。強度QHでの除算により、変動指標δは、音響信号XEの全体的な音量の大小に依存しない数値に正規化される。始点閾値ZSは、事前に選定された所定の正数である。
図9は、始点解析部44が発音始点TSを特定する処理(以下「始点解析処理」という)のフローチャートである。始点解析部44は、音響信号XEの始点から順次に極大点xHを検出し、極大点xHの検出毎に図9の始点解析処理を開始する。
音響信号XEの極大点xHの検出を契機として始点解析処理を開始すると、始点解析部44は、当該極大点xHでの強度QHと現時点での基準値QREFとの差分(QH−QREF)に応じた変動指標δが始点閾値ZSを上回るか否かを判定する(SC1)。変動指標δが始点閾値ZSを下回る場合(SC1:NO)、始点解析部44は、今回の極大点xHを発音始点TSとして特定することなく始点解析処理を終了する。他方、変動指標δが始点閾値ZSを上回る場合(SC1:YES)、始点解析部44は、今回の極大点xHを発音始点TSとして特定する(SC2)。そして、始点解析部44は、基準値QREFを今回の極大点xHでの強度QHに更新する(SC3)。発音始点TSが経過すると音響信号XEは減衰するから、発音始点TSの経過後は基準値QREFは経時的に減少していく。以上が始点解析処理の好適例である。
<終点解析部46>
図7の終点解析部46は、前述の通り、音響信号XEのうち音響の発音が終了する発音終点TEを特定する。図10は、終点解析部46が発音終点TEを特定する処理(以下「終点解析処理」という)のフローチャートである。始点解析部44による発音始点TSの特定(SC2)を契機として図10の終点解析処理が開始される。
発音始点TSの特定を契機として終点解析処理を開始すると、終点解析部46は、当該発音始点TSから所定の時間τが経過したか否かを判定する(SD1)。発音始点TSから所定の時間τが経過していない場合(SD1:NO)、終点解析部46は、現時点の音響信号XEの強度Qが所定の閾値(以下「減衰閾値」という)Z0を下回るか否かを判定する(SD2)。減衰閾値Z0は、直前の発音始点TSでの音響信号XEの強度QHに応じた数値に設定される。具体的には、発音始点TSでの強度QHに1未満の正数(例えば0.4〜0.6の任意の数値)を乗算した数値が減衰閾値Z0として好適である。強度Qが閾値Z0を下回る場合(SD2:YES)、終点解析部46は現時点を発音終点TEとして特定する(SD3)。すなわち、発音始点TSの経過後で音響信号XEの強度Qが減衰閾値Z0を下回るまで減少した時点が発音終点TEとして特定される。
ところで、例えば打楽器が素早く連打された場合のように発音源が短い間隔で複数回にわたり発音した場合には、最初の発音による音響が充分に減衰する以前に直後の発音が開始する。したがって、音響信号XEの強度Qが減衰閾値Z0を下回る時点を発音終点TEとして特定するだけでは、発音始点TSから発音終点TEまでの1個の発音区間Pに発音源の複数回にわたる発音が包含される結果となる。しかし、例えば特徴量抽出部50による特徴量Fの抽出や音源識別部60による発音源の種類の識別等の音響信号XAの解析の場面では、発音源の発音の開始直後の特性の解析が重要である。以上の事情を考慮して、第2実施形態の終点解析部46は、発音源が短い間隔で複数回にわたり発音した場合でも、発音始点TSに対応する最初の発音のみを発音区間Pが包含するように(すなわち第2回目以降の発音が発音区間Pに包含されないように)、発音終点TEを特定する。
具体的には、音響信号XEの強度Qが減衰閾値Z0を上回る場合(SD2:NO)、終点解析部46は、発音始点TS以降に音響信号XEの強度Qが減少から増加に反転する極小点(ディップ)xLが検出されたか否かを判定する(SD4)。極小点xLが検出されない場合(SD4:NO)、終点解析部46は処理をステップSD1に移行して、発音始点TSから時間τが経過するか(SD1:YES)、音響信号XEの強度Qが減衰閾値Z0を下回るまで(SD2:YES)、極小点xLの発生を監視する。
他方、音響信号XEの強度Qが減衰閾値Z0を下回る以前に極小点(以下では特に「対象極小点」という)xLが検出されると(SD4:YES)、終点解析部46は、対象極小点xLの直後の極大点xHが検出されたか否かを判定する(SD5)。極大点xHが検出されない場合(SD5:NO)、終点解析部46は処理をステップSD1に移行する。なお、対象極小点xLが検出された場合(SD4:YES)に、当該対象極小点xLでの強度Qが現時点の基準値QREFを下回るときには(Q<QREF)、基準値QREFが当該対象極小点xLでの強度Qに更新される。すなわち、基準値QREFは、前述の通り、発音始点TS以降における強度Qの最小値(例えば対象極小点xLでの強度Q)となるように更新される。
図8には、対象極小点xLの直後の極大点xH2が例示されている。極大点xH2が検出されると(SD5:YES)、終点解析部46は、当該極大点xH2での強度QHと現時点での基準値QREFとの差分(QH−QREF)に応じた変動指標δが終点閾値ZEを上回るか否かを判定する(SD6)。変動指標δは、前述の通り、強度QHと基準値QREFとの差分(QH−QREF)を当該強度QHで除算した数値である。なお、現時点の基準値QREFは、対象極小点xLでの強度Qである可能性が高い。また、終点閾値ZEは、発音始点TSの特定に利用される前述の始点閾値ZSを下回る所定の正数に設定される(ZE<ZS)。
変動指標δが終点閾値ZEを下回る場合(SD6:NO)には、対象極小点xLの直後に極大点xHが観測されたものの発音始点TSの直後の発音源の発音による強度Qの増加(第2回目以降の発音)とまでは推定できない。したがって、発音終点TEをまだ確定せずに引続き音響信号XEの強度Qを監視する必要がある。そこで、終点解析部46は、処理をステップSD1に移行して、発音始点TSから時間τが経過するか(SD1:YES)、音響信号XEの強度Qが減衰閾値Z0を下回るまで(SD2:YES)、極小点xLの発生を監視する。
他方、変動指標δが終点閾値ZEを上回るほど極大点xHの強度Qが増加した場合(SD6:YES)には、対象極小点xLの直後の極大点xHは、発音始点TSの直後の発音源の発音(すなわち最初の発音の直後の第2回目以降の発音)による強度Qの増加と推定される。したがって、発音始点TSから対象極小点xLまでを発音区間Pとして確定し、第2回目以降の発音に対応する直後の極大点xHは発音区間Pから除外する必要がある。そこで、終点解析部46は、対象極小点xLを発音終点TEとして特定する(SD7)。すなわち、対象極小点xLの直後の極大点xHについて変動指標δが終点閾値ZEを上回る場合に、当該対象極小点xLが事後的に発音終点TEとして確定される。
以上の説明から理解される通り、第2実施形態の終点解析部46は、発音始点TSの経過後に音響信号XEの強度Qが経時的に減少する過程で検出される対象極小点xLを、変動指標δが終点閾値ZEを上回る場合(SD6:YES)に発音終点TEとして特定し(SD7)、変動指標δが終点閾値ZEを下回る場合(SD6:NO)には発音終点TEとしない。なお、対象極小点xLの直後に検出された図8の極大点xH2については、図9を参照して説明した通り、変動指標δが始点閾値ZSを上回ることを条件として発音始点TSとして特定される。変動指標δが始点閾値ZSを上回る場合には終点閾値ZEも当然に上回るから、当該極大点xHの直前の対象極小点xLは発音終点TEとして確定される。
他方、音響信号XEの強度Qが減衰閾値Z0を下回る(SD2:YES)ことも、発音始点TSの経過後の極小点xLが発音終点TEとして特定される(SD7)こともなく、直前の発音始点TSから時間τが経過すると(SD1:YES)、終点解析部46は、発音始点TSから時間τが経過した時点を発音終点TEとして特定する(SD8)。以上の説明から理解される通り、終点解析部46は、基本的には音響信号XEの強度Qが減衰閾値Z0を下回る時点を発音終点TEとして特定する一方(SD3)、発音始点TSの直後の発音源の発音が推定される場合(SD6:YES)には、発音区間Pから当該発音が除外されるように極小点xLを発音終点TEとして確定し(SD7)、何れの条件も成立しない場合には発音始点TSから時間τが経過した時点を発音終点TEとして特定する(SD8)。
以上に説明した通り、第2実施形態では、発音始点TSの経過後に音響信号XEの強度Qが経時的に減少する過程で強度Qが増加に反転する極小点xLを、変動指標δが終点閾値ZEを上回る場合に発音終点TEとして特定する。すなわち、発音源が短い間隔で複数回にわたり発音した場合(最初の発音による音響が充分に減衰する以前に直後の発音が開始する場合)には、発音始点TSに対応する最初の発音のみを発音区間Pが包含するように発音終点TEが特定される。したがって、音響信号XAの解析に重要な発音直後の区間を発音区間Pとして高精度に特定することが可能である。音源識別部60による音源識別処理には、発音源の種類毎の相違が顕著となる発音直後の特性が特に重要である。したがって、発音直後の区間を発音区間Pとして高精度に特定できる第2実施形態は格別に好適である。
また、第2実施形態では、変動指標δが終点閾値ZEを上回る極小点xLの到来前に、発音始点TSでの強度QHに応じた減衰閾値Z0を下回るまで音響信号XEの強度Qが発音始点TSと比較して減少した場合(SD2:YES)に、当該強度Qが減衰閾値Z0を下回る時点が発音終点TEとして特定される。したがって、発音始点TSの経過後に発音源が発音することなく音響信号XEが減衰する場合に、発音始点TSからの減衰の度合に応じた適切な発音終点TEを設定できるという利点がある。
第2実施形態では、音響信号XEの強度Qの極大点xHを順次に検出する一方、極大点xHでの強度QHと当該極大点xHまでの強度Qの最小値である基準値QREFとの差分(QH−QREF)に応じた変動指標δが始点閾値ZSを上回る場合に、当該極大点xHが発音始点TSとして特定される。したがって、音響信号XEから検出される複数の極大点xHのうち発音源の明瞭な発音の開始を発音始点TSとして高精度に特定できるという利点がある。
また、極大点xHでの強度QHと当該極大点xHまでの強度Qの最小値である基準値QREFとの差分(QH−QREF)を極大点xHでの強度QHにより除算することで変動指標δが算定される。すなわち、差分(QH−QREF)が音響信号XEの音量の大小に依存しない数値に正規化される。したがって、音響信号XEの音量に関わらず発音始点TSおよび発音終点TEを適切に特定することが可能である。
<第3実施形態>
図11に例示される通り、発音源による1回の発音(例えば打楽器の1回の打撃による発音)の開始直後に強度Qが増加する過程において複数回の極大点xH(xH1,xH2)が観測される場合がある。図11の極大点xH1の変動指標δは始点閾値ZSを上回るから、変動指標δが始点閾値ZSを上回る全部の極大点xHを発音始点TSとして確定する第2実施形態では、極大点xH1および極大点xH2の双方が発音始点TSとして特定される。しかし、音響信号XEの強度は、極大点xH1の直後の極大点xH2まで増加する。すなわち、極大点xH1および極大点xH2は、実際には発音源の1回の発音に対応すると推定される。したがって、極大点xH1を発音始点TSとして特定することなく直後の極大点xH2のみを発音始点TSとして特定し、極大点xH1および極大点xH2の双方を1個の発音区間Pに包含させるべきである。以上の事情を考慮して、第3実施形態では、音響信号XEの強度Qの1個の極大点xH1の直後に、当該極大点xH1を上回る強度Qの極大点xH2を検出した場合に、先行の極大点xH1を発音始点TSの候補から除外する。
具体的には、変動指標δが始点閾値ZSを上回る任意の1個の極大点xH1(第1極大点)を第2実施形態と同様の方法で検出すると、始点解析部44は、図11に例示される通り、当該極大点xH1に対応する時間軸上の位置に待機区間Vを設定する。待機区間Vは、極大点xH1を発音始点TSとして確定することを留保する区間であり、極大点xH1以降に設定される。第3実施形態の始点解析部44は、極大点xH1を始点とする所定長の待機区間Vを設定する。
待機区間Vを設定すると、始点解析部44は、極大点xH1以降の音響信号XEについて極大点xHの探索を継続する。前述の通り、音響信号XEの強度Qは、極大点xH1以降に増加する可能性がある。極大点xH1を上回る強度の極大点xH2(第2極大点)を待機区間V内に検出した場合、始点解析部44は、先行の極大点xH1を発音始点TSの候補から除外する。以上の処理を順次に実行し、検出済の極大点xHを上回る強度の極大点xHを検出することなく待機区間Vが経過すると、始点解析部44は、待機区間Vの満了前に最後に検出した極大点xHを発音始点TSとして確定する。
以上の説明から理解される通り、第3実施形態では、音響信号XEの強度Qの極大点xH1以降の待機区間V内に、当該極大点xH1を上回る強度Qの極大点xH2が検出された場合に、極大点xH1が発音始点TSの候補から除外される。したがって、発音源による1回の発音の開始から音響信号XEの強度Qが増加する過程で複数の極大点xHが検出される場合でも、当該発音に対応した1個の極大点xHを含む発音区間Pを適切に特定することが可能である。
なお、第3実施形態では、1個の極大点xH1を始点とする待機区間Vを設定したが、極大点xH1を上回る強度Qの極大点xH2を検出した場合に、当該極大点xH2を始点とする待機区間Vを新規に設定する(すなわち極大点xHの検出毎に待機区間Vを更新する)ことも可能である。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、調波性解析部62がサポートベクターマシンにより調波音と非調波音とを判別したが、調波性解析部62による調波音/非調波音の判別方法は以上の例示に限定されない。例えば、調波音および非調波音の各々の特徴量Fの分布傾向を表現する混合正規分布を利用して対象音を調波音と非調波音とに判別する方法や、K-meansアルゴリズムを利用したクラスタリングで対象音を調波音と非調波音とに判別する方法も採用され得る。第1解析部64および第2解析部66の各々が対象音の発音源の種類を推定する方法についても同様に、前述の各形態で例示したサポートベクターマシンには限定されず、公知のパターン認識技術を任意に採用することが可能である。
(2)前述の各形態では、調波性解析部62が解析した調波音の確度WHをN個の評価値EH(1)〜EH(N)に乗算するとともに非調波音の確度WPをM個の評価値EP(1)〜EP(M)に乗算したが、調波音の確度WHおよび非調波音の確度WPを音響信号XAの発音源の種類に反映させる方法は以上の例示に限定されない。例えば、音響信号XAの対象音が調波音および非調波音の何れに該当するかを確度WHおよび確度WPに応じて判別し、N個の評価値EH(1)〜EH(N)およびM個の評価値EP(1)〜EP(M)の何れかを調波性の判別結果に応じて選択的に利用して、音源特定部68が発音源の種類を特定することも可能である。
具体的には、調波性解析部62は、確度WHが確度WPを上回る場合には対象音を調波音と判別し、確度WPが確度WHを上回る場合には対象音を非調波音と判別する。音源特定部68は、対象音が調波音であると判別された場合には、第1解析部64が算定したN個の評価値EH(1)〜EH(N)のなかの最大値に対応する調波音源を発音源の種類として特定する一方、対象音が非調波音であると判別された場合には、第2解析部66が算定したM個の評価値EP(1)〜EP(M)のなかの最大値に対応する非調波音源を発音源の種類として特定する。以上に例示した構成は、前述の各形態において、確度WHおよび確度WPの一方を1に設定するとともに他方を0に設定した構成とも換言される。なお、対象音が調波音であると調波性解析部62が判別した場合に第2解析部66による非調波解析処理(M個の評価値EP(1)〜EP(M)の算定)を省略する構成や、対象音が非調波音であると調波性解析部62が解析した場合に第1解析部64による調波解析処理(N個の評価値EH(1)〜EH(N)の算定)を省略する構成も採用され得る。
以上の例示から理解される通り、音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる解析結果に応じて対象音の発音源の種類を特定する要素として包括的に表現され、第1解析部64および第2解析部66の双方の解析結果を利用するか一方の解析結果のみを利用するかは、本発明において不問である。
(3)第2実施形態および第3実施形態では始点閾値ZSを固定値としたが、始点閾値ZSを可変値とすることも可能である。例えば、極大点xHでの音響信号XEの強度QHに応じた数値(例えば強度QHを所定値に乗算した数値)を始点閾値ZSとして利用し、図9のステップSC1では、極大点xHでの強度QHと基準値QREFとの差分(QH−QREF)を変動指標δとして始点閾値ZSと比較することも可能である。終点閾値ZEについても同様に可変値とすることが可能である。また、始点閾値ZSまたは終点閾値ZEを利用者からの指示に応じて可変に設定することも可能である。
(4)移動体通信網やインターネット等の通信網を介して端末装置(例えば携帯電話機やスマートフォン)と通信するサーバ装置で音響処理装置12を実現することも可能である。具体的には、音響処理装置12は、端末装置から通信網を介して受信した複数の音響信号XAから前述の各形態と同様の処理で音響信号XBを生成して端末装置に送信する。なお、音響信号XAの発音区間P毎の特徴量Fが端末装置から音響処理装置12に送信される構成(例えば端末装置が発音区間検出部40および特徴量抽出部50を具備する構成)では、音響処理装置12の音響解析部20から発音区間検出部40と特徴量抽出部50とが省略される。
また、端末装置から受信した複数の音響信号XAの各々の発音源の種類(音源識別情報D)を音響解析部20が識別して端末装置に通知し、端末装置に搭載された音響処理部30が識別結果に応じて複数の音響信号XAから音響信号XBを生成することも可能である。すなわち、音響処理部30は音響処理装置12から省略され得る。以上の説明から理解される通り、本発明の好適な態様は、音響信号XAが表す対象音の発音源の種類を特定する装置(音響解析装置)として包括的に表現される。音響解析装置における音響処理部30の有無は不問である。
(5)前述の各形態で例示した音響処理装置12は、前述の通り制御装置122とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
(6)本発明は、前述の各形態に係る音響処理装置12の動作方法としても特定される。例えば、音源識別部60が対象音の発音源の種類を特定する方法(音響解析方法)においては、コンピュータ(単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む)が、音響信号XAが表す対象音が調波音および非調波音の各々に該当する確度(WH,WP)を音響信号XAの特徴量Fから解析し(SB1)、対象音の発音源がN種類の調波音源の各々に該当する確度CH(n)を音響信号XAの特徴量Fから解析し(SB2)、対象音の発音源がM種類の非調波音源の各々に該当する確度CP(m)を音響信号XAの特徴量Fから解析し(SB3)、各解析の結果に応じて対象音の発音源の種類を特定する(SB4)。