JP6565548B2

JP6565548B2 - 音響解析装置

Info

Publication number: JP6565548B2
Application number: JP2015191026A
Authority: JP
Inventors: 慶太有元
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2019-08-28
Anticipated expiration: 2035-09-29
Also published as: JP2017067901A

Description

本発明は、音響を解析する技術に関する。

歌唱音声や楽器の演奏音等の各種の音響から発音源の種類を特定する技術が従来から提案されている。例えば特許文献１には、収録音の解析で生成された特徴データを、発音源の種類毎に音源データベースに登録された登録特徴データと順次に照合することで、収録音の発音源の種類を特定する技術が開示されている。

特開２０１３−１５６０１号公報

しかし、特許文献１の技術では、多種多様な発音源の登録特徴データが特段の区別なく相互に対等に解析対象の音響の特徴データと照合されるから、実際には発音源の種類を高精度に特定することは困難である。以上の事情を考慮して、本発明は、音響の発音源の種類を高精度に特定することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音響解析装置は、音響信号が表す対象音が調波音および非調波音の各々に該当する確度を音響信号の特徴量から解析する調波性解析部と、調波音を発音する複数種の調波音源の各々に対象音の発音源が該当する確度を音響信号の特徴量から解析する第１解析部と、非調波音を発音する複数種の非調波音源の各々に対象音の発音源が該当する確度を音響信号の特徴量から解析する第２解析部と、調波性解析部と第１解析部と第２解析部とによる解析の結果に応じて対象音の発音源の種類を特定する音源特定部とを具備する。以上の構成では、調波音と非調波音とを相互に区別して対象音の発音源の種類が特定される。具体的には、対象音が調波音および非調波音の各々に該当する確度を調波性解析部が解析した結果と、対象音の発音源が複数種の調波音源の各々に該当する確度を第１解析部が解析した結果と、対象音の発音源が複数種の非調波音源の各々に該当する確度を第２解析部が解析した結果とを利用して、対象音の発音源の種類が特定される。したがって、調波音と非調波音とを区別せずに発音源の種類を特定する構成と比較して対象音の発音源の種類を高精度に特定することが可能である。

本発明の好適な態様において、調波性解析部は、対象音が調波音に該当する第１確度と対象音が非調波音に該当する第２確度とを算定し、第１解析部は、複数種の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度に応じた第１評価値を算定し、第２解析部は、複数種の非調波音源の各々について、対象音の発音源が当該非調波音源に該当する確度に応じた第２評価値を算定し、音源特定部は、各調波音源の第１評価値に第１確度を乗算して識別指標を算定するとともに各非調波音源の第２評価値に第２確度を乗算して識別指標を算定し、複数の識別指標に応じて対象音の発音源の種類を特定する。以上の態様では、対象音が調波音に該当する確度と各調波音源の第１評価値との乗算、および、対象音が非調波音に該当する確度と各非調波音源の第２評価値との乗算により、発音源の候補毎に識別指標が算定され、識別指標に応じて対象音の発音源の種類が特定される。すなわち、対象音が調波音に該当する確度が大きいほど調波音源の識別指標が相対的に優勢となり、対象音が非調波音に該当する確度が大きいほど非調波音源の識別指標が相対的に優勢となる。したがって、複数の識別指標の比較により対象音の発音源の種類を簡便かつ高精度に特定できるという利点がある。

ところで、例えば対象音の発音源が調波音源に該当する確度を第１評価値として設定するとともに対象音の発音源が非調波音源に該当する確度を第２評価値として設定する構成では、調波音源の種類数と非調波音源の種類数との相違に起因して第１評価値と第２評価値との数値範囲が相互に整合しない可能性がある。そこで、本発明の好適な態様では、第１解析部は、対象音の発音源が調波音源に該当する確度の順位に対応した数値を第１評価値として複数種の調波音源の各々に設定し、第２解析部は、対象音の発音源が非調波音源に該当する確度の順位に対応した数値を第２評価値として複数種の非調波音源の各々に設定する。以上の態様では、調波音源の確度の順位に対応した数値が第１評価値として調波音源毎に設定されるとともに非調波音源の確度の順位に対応した数値が第２評価値として非調波音源毎に設定される。したがって、対象音の発音源の候補となる調波音源の種類数と非調波音源の種類数とが相違する場合でも、対象音の発音源を高精度に特定できるという利点がある。

本発明の好適な態様において、音響信号の特徴量は、相異なる種類の第１特性値と第２特性値とを含み、第１解析部は、対象音の発音源が複数種の調波音源の各々に該当する確度を第１特性値から解析し、第２解析部は、対象音の発音源が複数種の非調波音源の各々に該当する確度を第２特性値から解析する。以上の態様では、第１解析部による解析と第２解析部による解析とに相異なる種類の特性値が利用される。したがって、例えば第１解析部による解析には、調波音の識別に好適な第１特性値を利用し、第２解析部による解析には、非調波音の識別に好適な第２特性値を利用することで、対象音の発音源を高精度に特定することが可能である。

本発明の好適な態様に係る音響解析装置は、音響信号の発音始点毎に当該音響信号の特徴量を抽出する特徴量抽出部を具備する。以上の態様では、音響信号の発音始点毎に特徴量が抽出されるから、発音の有無や時点とは無関係に音響信号を区分した区間毎に特徴量を抽出する構成と比較して、発音源の種類毎に固有の特徴が顕著に反映された特徴量を抽出できるという利点がある。

本発明の第１実施形態に係る音響処理装置の構成図である。音響解析部の構成図である。音響信号の各発音区間の説明図である。音源識別部の構成図である。調波解析処理のフローチャートである。音源識別処理のフローチャートである。第２実施形態における発音区間検出部の構成図である。第２実施形態のける発音区間検出部の動作の説明図である。第２実施形態における始点解析処理のフローチャートである。第２実施形態における終点解析処理のフローチャートである。第３実施形態における始点解析処理の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態の音響処理装置１２の構成図である。図１に例示される通り、音響処理装置１２には複数の収音装置１４と放音装置１６とが接続される。複数の収音装置１４の各々は、当該収音装置１４の周囲の音響を表す音響信号ＸAを生成する。音響信号ＸAは、例えば左右２チャネルのステレオ形式の信号である。複数の収音装置１４が生成した複数の音響信号ＸAが音響処理装置１２に並列に供給される。なお、収音装置１４が生成した音響信号ＸAをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。

各収音装置１４は相異なる発音源の近傍に配置される。発音源は、例えば演奏により楽音を発音する楽器や歌唱音声を発音する歌唱者である。第１実施形態では、収録スタジオ等の音響空間の内部で歌唱者と複数の楽器とにより音楽を演奏する場合を想定する。各収音装置１４が生成する音響信号ＸAには、当該収音装置１４の近傍の発音源から発音された音響が優勢に含有されるが、当該音響と比較して小音量で他の発音源の音響も含有され得る。

第１実施形態の各発音源は、調波音または非調波音を発音する。調波音は、基本周波数の基音成分と複数の倍音成分とを周波数軸上に配列した調波構造が明瞭に観測される調波性の音響である。例えば弦楽器または管楽器等の調波楽器の楽音や歌唱音声等の人間の発声音が調波音の典型例である。他方、非調波音は、調波構造が明瞭に観測されない非調波性の音響である。例えばドラムやシンバル等の打楽器の楽音が非調波音の典型例である。

なお、調波音は、調波性の音響成分を非調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては調波性が優勢である音響も、調波音の概念に包含される。同様に、非調波音は、非調波性の音響成分を調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、非調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては非調波性が優勢である音響も、非調波音の概念に包含される。以下の説明では、調波音に関連する要素の符号に添字Ｈ（Ｈ：Harmonic）を付加し、非調波音に関連する要素の符号に添字Ｐ（Ｐ：Percussive）を付加する場合がある。

音響処理装置１２は、複数の音響信号ＸAに対する音響処理で音響信号ＸBを生成する。具体的には、第１実施形態の音響処理装置１２は、複数の音響信号ＸAの混合（ミキシング）により左右２チャネルのステレオ形式の音響信号ＸBを生成する。放音装置１６（例えばスピーカやヘッドホン）は、音響処理装置１２が生成した音響信号ＸBに応じた音響を放音する。なお、音響処理装置１２が生成した音響信号ＸBをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。また、図１では各収音装置１４と放音装置１６とを音響処理装置１２とは別個の要素として図示したが、複数の収音装置１４と放音装置１６とを音響処理装置１２に搭載することも可能である。

図１に例示される通り、音響処理装置１２は、制御装置１２２と記憶装置１２４とを具備するコンピュータシステムで実現される。記憶装置１２４は、例えば磁気記録媒体や半導体記録媒体等の公知の記録媒体または複数種の記録媒体の組合せであり、制御装置１２２が実行するプログラムや制御装置１２２が使用する各種のデータを記憶する。制御装置１２２は、記憶装置１２４が記憶するプログラムを実行することで、複数の音響信号ＸAの各々を解析する音響解析部２０と、音響解析部２０による解析結果を利用して複数の音響信号ＸAから音響信号ＸBを生成する音響処理部３０とを実現する。なお、制御装置１２２の機能の一部または全部を専用の電子回路で実現する構成や、制御装置１２２の機能を複数の装置に分散した構成も採用され得る。

音響解析部２０は、複数の収音装置１４から供給される複数の音響信号ＸAの各々について、当該音響信号ＸAが表す音響の発音源の種類を特定する。具体的には、音響解析部２０は、各音響信号ＸAの発音源の種類を示す情報（以下「音源識別情報」という）Ｄを生成する。音源識別情報Ｄは、例えば発音源の名称（具体的には楽器名や演奏パート名）である。

図２は、音響解析部２０の構成図である。図２に例示される通り、第１実施形態の音響解析部２０は、発音区間検出部４０と特徴量抽出部５０と音源識別部６０とを具備する。なお、以下の説明では、任意の１系統の音響信号ＸAに対する処理に便宜的に着目するが、複数の音響信号ＸAの各々について同様の処理が実行される。

図２の発音区間検出部４０は、音響信号ＸAについて複数の発音区間Ｐを検出する。図３には、音響信号ＸAの波形と発音区間Ｐとの関係が図示されている。図３から理解される通り、各発音区間Ｐは、音響信号ＸAが表す音響が発音される時間軸上の区間であり、音響の発音が開始する時点（以下「発音始点」という）ＴSから終点（以下「発音終点」という）ＴEまでの区間である。

具体的には、第１実施形態の発音区間検出部４０は、音響信号ＸAの強度が閾値ＡTHを上回る時点を発音始点ＴSとして特定し、発音始点ＴSから所定の時間が経過した時点を発音終点ＴEとして特定する。閾値ＡTHの選定方法は任意であるが、音響信号ＸAの強度の最大値Ａmaxに対して１未満の正数（例えば０.５）を乗算した数値が閾値ＡTHとして好適である。任意の１系統の音響信号ＸAでは、当該音響信号ＸAの供給元の収音装置１４の近傍に位置する発音源の音量が他の発音源の音量を上回る。したがって、任意の１個の収音装置１４が生成した音響信号ＸAからは、当該収音装置１４の近傍の発音源による発音のみを反映した（すなわち他の発音源の影響が除去された）発音区間Ｐが特定される。なお、発音始点ＴSの経過後に音響信号ＸAの強度が所定の閾値（例えば最大値Ａmaxに応じた数値）まで減衰した時点を発音終点ＴEとして特定することも可能である。

図２の特徴量抽出部５０は、音響信号ＸAの特徴量Ｆを抽出する。第１実施形態の特徴量抽出部５０は、発音区間検出部４０が検出した発音区間Ｐ毎に特徴量Ｆを順次に抽出する。特徴量Ｆは、発音区間Ｐ内の音響信号ＸAの音響的な特徴を表す指標である。第１実施形態の特徴量Ｆは、相異なる複数種の特性値ｆ（ｆ1，ｆ2，……）を包含するベクトルで表現される。具体的には、音響信号ＸAの音色を表すＭＦＣＣ（Mel-frequency cepstral coefficients），発音区間Ｐ内の音響の立上がりの急峻度，基音成分に対する倍音成分の強度比，音響信号ＸAの強度の符号が反転する回数または頻度である零交差数等の複数種の特性値ｆが特徴量Ｆに包含される。

各発音源が発音する音響の特徴は、発音始点ＴSの直後に特に顕著となる。第１実施形態では、音響信号ＸAの発音始点ＴS毎（発音区間Ｐ毎）に音響信号ＸAの特徴量Ｆが抽出されるから、発音の有無や時点とは無関係に音響信号ＸAを区分した区間毎に特徴量Ｆを抽出する構成と比較して、発音源の種類毎に固有の特徴が顕著に反映された特徴量Ｆを抽出できるという利点がある。もっとも、発音源による発音の有無や時点とは無関係に音響信号ＸAを時間軸上で区分した区間毎に特徴量Ｆを抽出する（したがって発音区間検出部４０は省略される）ことも可能である。音源識別部６０は、特徴量抽出部５０が抽出した特徴量Ｆを利用して音響信号ＸAの発音源の種類を識別することで音源識別情報Ｄを生成する。

図１の音響処理部３０は、音響解析部２０が音響信号ＸA毎に解析した音源識別情報Ｄを参照して複数の音響信号ＸAに音響処理を実行することで音響信号ＸBを生成する。具体的には、音響信号ＸAの音源識別情報Ｄが示す発音源の種類毎に事前に設定された音響処理が当該音響信号ＸAに対して実行される。音響信号ＸAに対する音響処理としては、例えば残響効果や歪効果等の各種の音響効果を付与する効果付与処理（エフェクタ）や、周波数帯域毎の音量を調整する特性調整処理（イコライザ），音像が定位する位置を調整する定位調整処理（パン），音量を調整する音量調整処理が例示される。効果付与処理で音響信号ＸAに付与される音響効果の種類や度合，特性調整処理で音響信号ＸAに付与される周波数特性，定位調整処理で調整される音像の位置，音量調整処理による調整内容（ゲイン）等の各種のパラメータが、音源識別情報Ｄが示す発音源の種類毎に個別に設定される。そして、音響処理部３０は、以上に例示した音響処理後の複数の音響信号ＸAを混合（ミキシング）することで音響信号ＸBを生成する。すなわち、第１実施形態の音響処理部３０は、調波性解析部６２による発音源の識別結果を反映した自動ミキシングを実現する。

＜音源識別部６０＞
図４は、第１実施形態の音源識別部６０の構成図である。図４に例示される通り、第１実施形態の音源識別部６０は、調波性解析部６２と第１解析部６４と第２解析部６６と音源特定部６８とを具備する。

調波性解析部６２は、音響信号ＸAが表す音響（以下「対象音」という）が調波音および非調波音の何れに該当するかを音響信号ＸAの特徴量Ｆから解析する。第１実施形態の調波性解析部６２は、対象音が調波音に該当する確度ＷH（第１確度）と対象音が非調波音に該当する確度ＷP（第２確度）とを算定する。

具体的には、特徴量Ｆの解析で調波音と非調波音とを判別する公知のパターン認識器が調波性解析部６２として任意に利用される。第１実施形態では、教師あり学習を利用した統計モデルの代表例であるサポートベクターマシーン（ＳＶＭ：Support Vector Machine）を調波性解析部６２として例示する。すなわち、調波性解析部６２は、調波音と非調波音とを含む多数の音響の学習データを適用した機械学習で事前に決定された超平面を利用して、特徴量Ｆの対象音が調波音および非調波音の何れに該当するかを特徴量Ｆ毎（発音区間Ｐ毎）に順次に判別する。そして、調波性解析部６２は、例えば所定の期間内に対象音が調波音であると判別した回数の比率（調波音と判別した回数／当該期間内の判別の総回数）を調波音の確度ＷHとして算定する一方、対象音が非調波音であると判別した回数の比率を非調波音の確度ＷPとして算定する（ＷH＋ＷP＝１）。以上の説明から理解される通り、音響信号ＸAの対象音が調波音である可能性（尤度）が高いほど確度ＷHは大きい数値となり、対象音が非調波音である可能性が高いほど確度ＷPは大きい数値となる。

第１解析部６４は、音響信号ＸAの対象音の発音源が複数種の調波音源の何れに該当するかを音響信号ＸAの特徴量Ｆから解析する。調波音源は、調波音を発音する発音源（例えば調波楽器）を意味する。図４では、ベース（Bass），ギター（Guitar），男性歌唱者（male Vo.），女性歌唱者（female Vo.）の４種類が、対象音の発音源の候補となる調波音源として例示されている。具体的には、第１実施形態の第１解析部６４は、Ｎ種類（Ｎは２以上の自然数）の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度に応じた評価値ＥH(n)（ＥH(1)〜ＥH(N)）を設定する。

図５は、第１解析部６４が評価値ＥH(1)〜ＥH(N)を設定する処理（以下「調波解析処理」という）のフローチャートである。特徴量抽出部５０による特徴量Ｆの抽出毎（したがって発音区間Ｐ毎）に図５の調波解析処理が実行される。

調波解析処理を開始すると、第１解析部６４は、事前に選定されたＮ種類の調波音源から任意の２種類の調波音源を選択する全通り（_NＣ₂通り）の組合せの各々について、対象音の発音源が当該組合せの２種類の調波音源の何れに該当するかを、特徴量Ｆを利用して判別する（ＳA1）。以上の判別には、２種類の調波音源を判別候補とするサポートベクターマシーンが好適に利用される。すなわち、調波音源の組合せに相当する_NＣ₂通りのサポートベクターマシーンに特徴量Ｆを適用することで、当該組合せ毎に対象音の発音源が２種類の調波音源から選択される。

第１解析部６４は、Ｎ種類の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度ＣH(n)（ＣH(1)〜ＣH(N)）を算定する（ＳA2）。任意の１個（第ｎ番目）の調波音源の確度ＣH(n)は、例えば、合計_NＣ₂回にわたる判別のうち対象音の発音源が第ｎ番目の調波音源に該当すると判別された回数の比率（調波音源に該当すると判別された回数／_NＣ₂）である。以上の説明から理解される通り、音響信号ＸAの対象音の発音源がＮ種類のうち第ｎ番目の調波音源に該当する可能性（尤度）が高いほど確度ＣH(n)は大きい数値となる。

第１解析部６４は、調波音源毎に算定された確度ＣH(n)の順位に対応した数値（得点）を評価値ＥH(n)としてＮ種類の調波音源の各々について設定する（ＳA3）。具体的には、確度ＣH(n)が大きいほど評価値ＥH(n)が大きい数値となるように確度ＣH(n)の順位に応じた数値が各調波音源の評価値ＥH(n)に付与される。例えば、確度ＣH(n)の降順で最上位に位置する調波音源の評価値ＥH(n)は数値ε1（例えばε1＝１００）に設定され、確度ＣH(n)が第２位に位置する調波音源の評価値ＥH(n)は数値ε1を下回る数値ε2（例えばε2＝８０）に設定され、確度ＣH(n)が第３位に位置する調波音源の評価値ＥH(n)は数値ε2を下回る数値ε3（例えばε3＝６０）に設定され、所定の順位を下回る残余の調波音源の評価値ＥH(n)は最小値（例えば０）に設定される、という具合である。以上の説明から理解される通り、音響信号ＸAの対象音の発音源がＮ種類のうち第ｎ番目の調波音源に該当する可能性が高いほど評価値ＥH(n)は大きい数値となる。以上が調波解析処理の好適例である。

図４の第２解析部６６は、音響信号ＸAの対象音の発音源が複数種の非調波音源の何れに該当するかを音響信号ＸAの特徴量Ｆから解析する。非調波音源は、非調波音を発音する発音源（例えば打楽器等の非調波楽器）を意味する。図４では、バスドラム（Kick），スネアドラム（Snare），ハイハット（Hi-Hat），フロアタム（F-Tom），シンバル（Cymbal）の５種類が、対象音の発音源の候補となる非調波音源として例示されている。具体的には、第１実施形態の第２解析部６６は、Ｍ種類（Ｍは２以上の自然数）の非調波音源の各々について、対象音の発音源が当該非調波音源に該当する確度に応じた評価値ＥP(m)（ＥP(1)〜ＥP(M)）を設定する。なお、調波音源の種類数Ｎと非調波音源の種類数Ｍとの異同は不問である。

第２解析部６６によるＭ個の評価値ＥP(1)〜ＥP(M)の設定（非調波解析処理）は、図５に例示した調波解析処理（第１解析部６４による評価値ＥH(n)の設定）と同様である。具体的には、第２解析部６６は、Ｍ種類の非調波音源から２種類を選択する全通り（_MＣ₂通り）の組合せの各々について、対象音の発音源が当該組合せの２種類の非調波音源の何れに該当するかを判別し、対象音の発音源が第ｍ番目の非調波音源に該当する確度ＣP(m)を非調波音源毎に算定する。非調波音源の判別には、調波解析処理での調波音源の判別と同様にサポートベクターマシーンが好適に利用される。

そして、第２解析部６６は、Ｍ種類の非調波音源の各々について、確度ＣP(m)の順位に対応した数値を評価値ＥP(m)として設定する。確度ＣP(m)の任意の順位に位置する非調波音源の評価値ＥP(m)には、確度ＣH(n)の順番で同順位に位置する調波音源の評価値ＥH(n)と同等の数値が付与される。具体的には、確度ＣP(m)の降順で最上位に位置する非調波音源の評価値ＥP(m)は数値ε1に設定され、確度ＣP(m)が第２位に位置する非調波音源の評価値ＥP(m)は数値ε2に設定され、確度ＣP(m)が第３位に位置する非調波音源の評価値ＥP(m)は数値ε3に設定され、所定の順位を下回る残余の調波音源の評価値ＥP(m)は最小値（例えば０）に設定される。したがって、音響信号ＸAの対象音の発音源がＭ種類のうち第ｍ番目の非調波音源に該当する可能性（尤度）が高いほど評価値ＥP(m)は大きい数値となる。

特徴量抽出部５０が音響信号ＸAから抽出する任意の１個の特徴量Ｆは、前述の通り、相異なる特性値ｆ1（第１特性値）および特性値ｆ2（第２特性値）を含む複数の特性値ｆで構成される。第１実施形態の第１解析部６４は、特徴量Ｆの特性値ｆ1を利用して、対象音の発音源がＮ種類の調波音源の各々に該当する確度ＣH(n)を解析する。他方、第２解析部６６は、特徴量Ｆの特性値ｆ2を利用して、対象音の発音源がＭ種類の非調波音源の各々に該当する確度ＣP(m)を解析する。すなわち、第１解析部６４が調波音源の確度ＣH(n)の算定に利用する特徴量Ｆ（特性値ｆ1）と第２解析部６６が非調波音源の確度ＣP(m)の算定に適用する特徴量Ｆ（特性値ｆ2）とは相違する。

具体的には、第１解析部６４による確度ＣH(n)の算定には、調波音源の種類毎に相違が顕著となる特性値ｆ1が利用される。例えば、音色を表すＭＦＣＣや、基音成分に対する倍音成分の強度比等の特性値ｆ1が、調波音の確度ＣH(n)の算定に好適に利用される。他方、第２解析部６６による確度ＣP(m)の算定には、非調波音源の種類毎に相違が顕著となる特性値ｆ2が利用される。例えば、音響の立上がりの急峻度や零交差数等の特性値ｆ2が、非調波音の確度ＣP(m)の算定に好適に利用される。なお、第１解析部６４が利用する特性値ｆ1と第２解析部６６が利用する特性値ｆ2とを部分的に共通させることも可能である。

図４の音源特定部６８は、調波性解析部６２と第１解析部６４と第２解析部６６とによる以上の解析の結果に応じて音響信号ＸAの発音源の種類を特定する。発音源の種類の特定は発音区間Ｐ毎に実行される。図４に例示される通り、第１実施形態の音源特定部６８は、乗算部６８２と乗算部６８４と選択処理部６８６とを包含する。

乗算部６８２は、第１解析部６４がＮ種類の調波音源について設定したＮ個の評価値ＥH(1)〜ＥH(N)の各々に、調波性解析部６２が解析した調波音の確度ＷHを乗算することでＮ個の識別指標Ｒ（Ｒ＝ＥH(n)×ＷH）を算定する。他方、乗算部６８４は、第２解析部６６がＭ種類の非調波音源について設定したＭ個の評価値ＥP(1)〜ＥP(M)の各々に、調波性解析部６２が解析した非調波音の確度ＷPを乗算することでＭ個の識別指標Ｒ（Ｒ＝ＥP(m)×ＷP）を算定する。乗算部６８２および乗算部６８４の処理により、Ｎ種類の調波音源とＭ種類の非調波音源とを含むＫ種類（Ｋ＝Ｎ＋Ｍ）の候補音源の各々について識別指標Ｒが算定される。以上の説明から理解される通り、確度ＷHは、調波音の各評価値ＥH(n)に対する加重値に相当し、確度ＷPは、非調波音の各評価値ＥP(m)に対する加重値に相当する。対象音が調波音に該当する確度ＷHが大きいほど調波音源の識別指標Ｒが相対的に優勢となり、対象音が非調波音に該当する確度ＷPが大きいほど非調波音源の識別指標Ｒが相対的に優勢となる。

選択処理部６８６は、乗算部６８２および乗算部６８４が算定したＫ個の識別指標Ｒに応じて音響信号ＸAの対象音の発音源の種類を特定し、当該発音源の種類を示す音源識別情報Ｄ（例えば楽器名）を生成する。具体的には、選択処理部６８６は、Ｋ種類の候補音源のうち識別指標Ｒが最大となる１種類の候補音源を対象音の発音源として選択し、当該候補音源を指定する音源識別情報Ｄを生成する。すなわち、音響信号ＸAの対象音の発音源の種類が識別される。以上に例示した処理が複数の音響信号ＸAの各々について実行されることで、対象音の発音源の種類を示す音源識別情報Ｄが音響信号ＸA毎に生成される。音響解析部２０の具体例は以上の通りである。

図６は、第１実施形態の音源識別部６０が任意の１系統の音響信号ＸAについて対象音の発音源の種類を特定する処理（以下「音源識別処理」という）のフローチャートである。複数の音響信号ＸAの各々について、特徴量抽出部５０による特徴量Ｆの抽出毎（発音区間Ｐ毎）に図６の音源識別処理が実行される。

音源識別処理を開始すると、調波性解析部６２は、音響信号ＸAが表す対象音が調波音および非調波音の何れに該当するかを音響信号ＸAの特徴量Ｆから解析する（ＳB1）。他方、第１解析部６４は、図５を参照して説明した調波解析処理によりＮ種類の調波音源の各々について評価値ＥH(n)（ＥH(1)〜ＥH(N)）を算定し（ＳB2）、第２解析部６６は、調波解析処理と同様の非調波解析処理によりＭ種類の非調波音源の各々について評価値ＥP(m)（ＥP(1)〜ＥP(M)）を算定する（ＳB3）。そして、音源特定部６８は、調波性解析部６２と第１解析部６４と第２解析部６６とによる以上の解析の結果に応じて音響信号ＸAの発音源の種類を特定する（ＳB4）。なお、調波性解析部６２による調波性の解析と、第１解析部６４による調波解析処理と、第２解析部６６による非調波解析処理との順序は任意である。例えば調波解析処理（ＳB2）および非調波解析処理（ＳB3）の実行後に調波性解析部６２が調波性を解析することも可能である。

以上に説明した通り、第１実施形態では、調波音と非調波音とを相互に区別して対象音の発音源の種類が特定される。具体的には、対象音が調波音および非調波音の各々に該当する確度（ＷH，ＷP）を調波性解析部６２が解析した結果と、対象音の発音源がＮ種類の調波音源の各々に該当する確度ＣH(n)を第１解析部６４が解析した結果と、対象音の発音源がＭ種類の非調波音源の各々に該当する確度ＣP(m)を第２解析部６６が解析した結果とを利用して、対象音の発音源の種類が特定される。したがって、調波音と非調波音とを区別せずに発音源の種類を特定する構成と比較して対象音の発音源の種類を高精度に特定することが可能である。第１解析部６４や第２解析部６６の未学習の発音源についても音響処理部３０による調波音／非調波音の識別は可能であるという利点もある。

また、第１実施形態では、対象音が調波音に該当する確度ＷHと各調波音源の評価値ＥH(n)との乗算、および、対象音が非調波音に該当する確度ＷPと各非調波音源の評価値ＥP(m)との乗算により、Ｋ種類の候補楽器（Ｎ種類の調波音源およびＭ種類の非調波音源）の各々について識別指標Ｒが算定され、各識別指標Ｒに応じて対象音の発音源の種類が特定される。すなわち、対象音が調波音に該当する確度ＷHが大きいほど調波音源の識別指標Ｒが相対的に優勢となり、対象音が非調波音に該当する確度ＷPが大きいほど非調波音源の識別指標Ｒが相対的に優勢となる。したがって、Ｋ個の識別指標Ｒの比較により対象音の発音源の種類を簡便かつ高精度に特定できるという利点がある。

ところで、例えば対象音の発音源が調波音源に該当する確度ＣH(n)を評価値ＥH(n)として利用するとともに対象音の発音源が非調波音源に該当する確度ＣP(m)を評価値ＥP(m)として利用する構成（以下「比較例」という）では、評価値ＥH(n)の数値が調波音源の種類数Ｎに依存するとともに評価値ＥP(m)の数値が非調波音源の種類数Ｍに依存する。例えば、調波音源の種類数Ｎが多いほど確度ＣH(n)は小さい数値となる。したがって、調波音源の種類数Ｎと非調波音源の種類数Ｍとが相違する場合には、評価値ＥH(n)と評価値ＥP(m)とを適切に比較できないという問題がある。第１実施形態では、対象音の発音源が調波音源に該当する確度ＣH(n)の順位に応じた数値が評価値ＥH(n)として調波音源毎に設定され、対象音の発音源が非調波音源に該当する確度ＣP(m)の順位に応じた数値が評価値ＥP(m)として非調波音源毎に設定される。すなわち、評価値ＥH(n)は調波音源の種類数Ｎに依存しない数値に設定され、評価値ＥP(m)は非調波音源の種類数Ｍに依存しない数値に設定される。したがって、第１実施形態によれば、例えば調波音源の種類数Ｎと非調波音源の種類数Ｍとが相違する場合でも評価値ＥH(n)と評価値ＥP(m)とを適切に比較できるという利点がある。調波音源の種類数Ｎおよび非調波音源の種類数Ｍの制約が緩和されると換言することも可能である。ただし、前述の比較例も本発明の範囲には包含される。

また、第１実施形態では、第１解析部６４が調波音源の確度ＣH(n)の算定に利用する特徴量Ｆ（特性値ｆ1）と第２解析部６６が非調波音源の確度ＣP(m)の算定に適用する特徴量Ｆ（特性値ｆ2）とが相違する。具体的には、例えば第１解析部６４による確度ＣH(n)の算定には調波音の識別に好適な特性値ｆ1が利用され、第２解析部６６による確度ＣP(m)の算定には非調波音の識別に好適な特性値ｆ2が利用される。したがって、調波音源の確度ＣH(n)の算定と非調波音源の確度ＣP(m)の算定とに同種の特徴量を利用する構成と比較して、対象音の発音源を高精度に特定できるという利点がある。ただし、第１解析部６４と第２解析部６６とが共通の特徴量Ｆを利用することも可能である。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態の音響処理装置１２は、第１実施形態の発音区間検出部４０を図７の発音区間検出部４０Aに置換した構成である。図７に例示される通り、第２実施形態の発音区間検出部４０Aは、信号処理部４２と始点解析部４４と終点解析部４６とを具備する。なお、以下の説明では、第１実施形態と同様に、任意の１系統の音響信号ＸAに対する処理に便宜的に着目するが、実際には複数の音響信号ＸAの各々について同様の処理が実行される。

信号処理部４２は、収音装置１４から供給される音響信号ＸAの信号処理で音響信号ＸEを生成する。音響信号ＸEは、音響信号ＸAの時間軸上の包絡線（エンベロープ）に相当する。具体的には、信号処理部４２は、音響信号ＸAの各信号値を絶対値に変換したうえで高周波成分を抑圧（平滑化処理）することで音響信号ＸEを生成する。音響信号ＸEの波形が図８に例示されている。なお、外部装置で生成された音響信号ＸEが音響処理装置１２に供給される構成では、音響処理装置１２から信号処理部４２が省略され得る。

図７の始点解析部４４は、音響信号ＸEのうち音響の発音が開始される発音始点ＴSを特定する。終点解析部４６は、音響信号ＸEのうち音響の発音が終了する発音終点ＴEを特定する。第１実施形態では、始点解析部４４による発音始点ＴSの特定と終点解析部４６による発音終点ＴEの特定とが、音響信号ＸEの生成に並行して実時間的に音響信号ＸEの始点から時間の経過とともに順次に実行される。始点解析部４４および終点解析部４６の各々の動作を以下に説明する。

＜始点解析部４４＞
図８に例示される通り、第１実施形態の始点解析部４４は、音響信号ＸEの強度（振幅またはパワー）Ｑが増加から減少に反転する極大点（ピーク）ｘHを発音始点ＴSとして特定する。ただし、第１実施形態の始点解析部４４は、音響信号ＸEから検出される全部の極大点ｘHを発音始点ＴSとするのではなく、音響信号ＸEから検出される複数の極大点ｘHのうち所定の条件を充足する極大点ｘHを選択的に発音始点ＴSとして特定する。

具体的には、始点解析部４４は、図８に例示された極大点ｘH1のように、極大点ｘHでの音響信号ＸEの強度ＱHと基準値ＱREFとの差分(ＱH−ＱREF)に応じた変動指標δが所定の閾値（以下「始点閾値」という）ＺSを上回る場合（δ＞ＺS）に当該極大点ｘHを発音始点ＴSとして確定する。他方、図８に例示された極大点ｘH0のように、変動指標δが始点閾値ＺSを下回る極大値ｘHは発音始点ＴSとされない。

基準値ＱREFは、直前の発音始点ＴS（処理開始の直後は音響信号ＸEの始点）以降における音響信号ＸEの強度Ｑの最小値となるように発音始点ＴSの解析処理の進行とともに随時に更新される。変動指標δは、例えば、極大点ｘHでの強度ＱHと基準値ＱREFとの差分(ＱH−ＱREF)を当該強度ＱHで除算した数値（δ＝(ＱH−ＱREF)／ＱH）である。強度ＱHでの除算により、変動指標δは、音響信号ＸEの全体的な音量の大小に依存しない数値に正規化される。始点閾値ＺSは、事前に選定された所定の正数である。

図９は、始点解析部４４が発音始点ＴSを特定する処理（以下「始点解析処理」という）のフローチャートである。始点解析部４４は、音響信号ＸEの始点から順次に極大点ｘHを検出し、極大点ｘHの検出毎に図９の始点解析処理を開始する。

音響信号ＸEの極大点ｘHの検出を契機として始点解析処理を開始すると、始点解析部４４は、当該極大点ｘHでの強度ＱHと現時点での基準値ＱREFとの差分(ＱH−ＱREF)に応じた変動指標δが始点閾値ＺSを上回るか否かを判定する（ＳC1）。変動指標δが始点閾値ＺSを下回る場合（ＳC1：NO）、始点解析部４４は、今回の極大点ｘHを発音始点ＴSとして特定することなく始点解析処理を終了する。他方、変動指標δが始点閾値ＺSを上回る場合（ＳC1：YES）、始点解析部４４は、今回の極大点ｘHを発音始点ＴSとして特定する（ＳC2）。そして、始点解析部４４は、基準値ＱREFを今回の極大点ｘHでの強度ＱHに更新する（ＳC3）。発音始点ＴSが経過すると音響信号ＸEは減衰するから、発音始点ＴSの経過後は基準値ＱREFは経時的に減少していく。以上が始点解析処理の好適例である。

＜終点解析部４６＞
図７の終点解析部４６は、前述の通り、音響信号ＸEのうち音響の発音が終了する発音終点ＴEを特定する。図１０は、終点解析部４６が発音終点ＴEを特定する処理（以下「終点解析処理」という）のフローチャートである。始点解析部４４による発音始点ＴSの特定（ＳC2）を契機として図１０の終点解析処理が開始される。

発音始点ＴSの特定を契機として終点解析処理を開始すると、終点解析部４６は、当該発音始点ＴSから所定の時間τが経過したか否かを判定する（ＳD1）。発音始点ＴSから所定の時間τが経過していない場合（ＳD1：NO）、終点解析部４６は、現時点の音響信号ＸEの強度Ｑが所定の閾値（以下「減衰閾値」という）Ｚ0を下回るか否かを判定する（ＳD2）。減衰閾値Ｚ0は、直前の発音始点ＴSでの音響信号ＸEの強度ＱHに応じた数値に設定される。具体的には、発音始点ＴSでの強度ＱHに１未満の正数（例えば０.４〜０.６の任意の数値）を乗算した数値が減衰閾値Ｚ0として好適である。強度Ｑが閾値Ｚ0を下回る場合（ＳD2：YES）、終点解析部４６は現時点を発音終点ＴEとして特定する（ＳD3）。すなわち、発音始点ＴSの経過後で音響信号ＸEの強度Ｑが減衰閾値Ｚ0を下回るまで減少した時点が発音終点ＴEとして特定される。

ところで、例えば打楽器が素早く連打された場合のように発音源が短い間隔で複数回にわたり発音した場合には、最初の発音による音響が充分に減衰する以前に直後の発音が開始する。したがって、音響信号ＸEの強度Ｑが減衰閾値Ｚ0を下回る時点を発音終点ＴEとして特定するだけでは、発音始点ＴSから発音終点ＴEまでの１個の発音区間Ｐに発音源の複数回にわたる発音が包含される結果となる。しかし、例えば特徴量抽出部５０による特徴量Ｆの抽出や音源識別部６０による発音源の種類の識別等の音響信号ＸAの解析の場面では、発音源の発音の開始直後の特性の解析が重要である。以上の事情を考慮して、第２実施形態の終点解析部４６は、発音源が短い間隔で複数回にわたり発音した場合でも、発音始点ＴSに対応する最初の発音のみを発音区間Ｐが包含するように（すなわち第２回目以降の発音が発音区間Ｐに包含されないように）、発音終点ＴEを特定する。

具体的には、音響信号ＸEの強度Ｑが減衰閾値Ｚ0を上回る場合（ＳD2：NO）、終点解析部４６は、発音始点ＴS以降に音響信号ＸEの強度Ｑが減少から増加に反転する極小点（ディップ）ｘLが検出されたか否かを判定する（ＳD4）。極小点ｘLが検出されない場合（ＳD4：NO）、終点解析部４６は処理をステップＳD1に移行して、発音始点ＴSから時間τが経過するか（ＳD1：YES）、音響信号ＸEの強度Ｑが減衰閾値Ｚ0を下回るまで（ＳD2：YES）、極小点ｘLの発生を監視する。

他方、音響信号ＸEの強度Ｑが減衰閾値Ｚ0を下回る以前に極小点（以下では特に「対象極小点」という）ｘLが検出されると（ＳD4：YES）、終点解析部４６は、対象極小点ｘLの直後の極大点ｘHが検出されたか否かを判定する（ＳD5）。極大点ｘHが検出されない場合（ＳD5：NO）、終点解析部４６は処理をステップＳD1に移行する。なお、対象極小点ｘLが検出された場合（ＳD4：YES）に、当該対象極小点ｘLでの強度Ｑが現時点の基準値ＱREFを下回るときには（Ｑ＜ＱREF）、基準値ＱREFが当該対象極小点ｘLでの強度Ｑに更新される。すなわち、基準値ＱREFは、前述の通り、発音始点ＴS以降における強度Ｑの最小値（例えば対象極小点ｘLでの強度Ｑ）となるように更新される。

図８には、対象極小点ｘLの直後の極大点ｘH2が例示されている。極大点ｘH2が検出されると（ＳD5：YES）、終点解析部４６は、当該極大点ｘH2での強度ＱHと現時点での基準値ＱREFとの差分(ＱH−ＱREF)に応じた変動指標δが終点閾値ＺEを上回るか否かを判定する（ＳD6）。変動指標δは、前述の通り、強度ＱHと基準値ＱREFとの差分(ＱH−ＱREF)を当該強度ＱHで除算した数値である。なお、現時点の基準値ＱREFは、対象極小点ｘLでの強度Ｑである可能性が高い。また、終点閾値ＺEは、発音始点ＴSの特定に利用される前述の始点閾値ＺSを下回る所定の正数に設定される（ＺE＜ＺS）。

変動指標δが終点閾値ＺEを下回る場合（ＳD6：NO）には、対象極小点ｘLの直後に極大点ｘHが観測されたものの発音始点ＴSの直後の発音源の発音による強度Ｑの増加（第２回目以降の発音）とまでは推定できない。したがって、発音終点ＴEをまだ確定せずに引続き音響信号ＸEの強度Ｑを監視する必要がある。そこで、終点解析部４６は、処理をステップＳD1に移行して、発音始点ＴSから時間τが経過するか（ＳD1：YES）、音響信号ＸEの強度Ｑが減衰閾値Ｚ0を下回るまで（ＳD2：YES）、極小点ｘLの発生を監視する。

他方、変動指標δが終点閾値ＺEを上回るほど極大点ｘHの強度Ｑが増加した場合（ＳD6：YES）には、対象極小点ｘLの直後の極大点ｘHは、発音始点ＴSの直後の発音源の発音（すなわち最初の発音の直後の第２回目以降の発音）による強度Ｑの増加と推定される。したがって、発音始点ＴSから対象極小点ｘLまでを発音区間Ｐとして確定し、第２回目以降の発音に対応する直後の極大点ｘHは発音区間Ｐから除外する必要がある。そこで、終点解析部４６は、対象極小点ｘLを発音終点ＴEとして特定する（ＳD7）。すなわち、対象極小点ｘLの直後の極大点ｘHについて変動指標δが終点閾値ＺEを上回る場合に、当該対象極小点ｘLが事後的に発音終点ＴEとして確定される。

以上の説明から理解される通り、第２実施形態の終点解析部４６は、発音始点ＴSの経過後に音響信号ＸEの強度Ｑが経時的に減少する過程で検出される対象極小点ｘLを、変動指標δが終点閾値ＺEを上回る場合（ＳD6：YES）に発音終点ＴEとして特定し（ＳD7）、変動指標δが終点閾値ＺEを下回る場合（ＳD6：NO）には発音終点ＴEとしない。なお、対象極小点ｘLの直後に検出された図８の極大点ｘH2については、図９を参照して説明した通り、変動指標δが始点閾値ＺSを上回ることを条件として発音始点ＴSとして特定される。変動指標δが始点閾値ＺSを上回る場合には終点閾値ＺEも当然に上回るから、当該極大点ｘHの直前の対象極小点ｘLは発音終点ＴEとして確定される。

他方、音響信号ＸEの強度Ｑが減衰閾値Ｚ0を下回る（ＳD2：YES）ことも、発音始点ＴSの経過後の極小点ｘLが発音終点ＴEとして特定される（ＳD7）こともなく、直前の発音始点ＴSから時間τが経過すると（ＳD1：YES）、終点解析部４６は、発音始点ＴSから時間τが経過した時点を発音終点ＴEとして特定する（ＳD8）。以上の説明から理解される通り、終点解析部４６は、基本的には音響信号ＸEの強度Ｑが減衰閾値Ｚ0を下回る時点を発音終点ＴEとして特定する一方（ＳD3）、発音始点ＴSの直後の発音源の発音が推定される場合（ＳD6：YES）には、発音区間Ｐから当該発音が除外されるように極小点ｘLを発音終点ＴEとして確定し（ＳD7）、何れの条件も成立しない場合には発音始点ＴSから時間τが経過した時点を発音終点ＴEとして特定する（ＳD8）。

以上に説明した通り、第２実施形態では、発音始点ＴSの経過後に音響信号ＸEの強度Ｑが経時的に減少する過程で強度Ｑが増加に反転する極小点ｘLを、変動指標δが終点閾値ＺEを上回る場合に発音終点ＴEとして特定する。すなわち、発音源が短い間隔で複数回にわたり発音した場合（最初の発音による音響が充分に減衰する以前に直後の発音が開始する場合）には、発音始点ＴSに対応する最初の発音のみを発音区間Ｐが包含するように発音終点ＴEが特定される。したがって、音響信号ＸAの解析に重要な発音直後の区間を発音区間Ｐとして高精度に特定することが可能である。音源識別部６０による音源識別処理には、発音源の種類毎の相違が顕著となる発音直後の特性が特に重要である。したがって、発音直後の区間を発音区間Ｐとして高精度に特定できる第２実施形態は格別に好適である。

また、第２実施形態では、変動指標δが終点閾値ＺEを上回る極小点ｘLの到来前に、発音始点ＴSでの強度ＱHに応じた減衰閾値Ｚ0を下回るまで音響信号ＸEの強度Ｑが発音始点ＴSと比較して減少した場合（ＳD2：YES）に、当該強度Ｑが減衰閾値Ｚ0を下回る時点が発音終点ＴEとして特定される。したがって、発音始点ＴSの経過後に発音源が発音することなく音響信号ＸEが減衰する場合に、発音始点ＴSからの減衰の度合に応じた適切な発音終点ＴEを設定できるという利点がある。

第２実施形態では、音響信号ＸEの強度Ｑの極大点ｘHを順次に検出する一方、極大点ｘHでの強度ＱHと当該極大点ｘHまでの強度Ｑの最小値である基準値ＱREFとの差分(ＱH−ＱREF)に応じた変動指標δが始点閾値ＺSを上回る場合に、当該極大点ｘHが発音始点ＴSとして特定される。したがって、音響信号ＸEから検出される複数の極大点ｘHのうち発音源の明瞭な発音の開始を発音始点ＴSとして高精度に特定できるという利点がある。

また、極大点ｘHでの強度ＱHと当該極大点ｘHまでの強度Ｑの最小値である基準値ＱREFとの差分(ＱH−ＱREF)を極大点ｘHでの強度ＱHにより除算することで変動指標δが算定される。すなわち、差分(ＱH−ＱREF)が音響信号ＸEの音量の大小に依存しない数値に正規化される。したがって、音響信号ＸEの音量に関わらず発音始点ＴSおよび発音終点ＴEを適切に特定することが可能である。

＜第３実施形態＞
図１１に例示される通り、発音源による１回の発音（例えば打楽器の１回の打撃による発音）の開始直後に強度Ｑが増加する過程において複数回の極大点ｘH（ｘH1，ｘH2）が観測される場合がある。図１１の極大点ｘH1の変動指標δは始点閾値ＺSを上回るから、変動指標δが始点閾値ＺSを上回る全部の極大点ｘHを発音始点ＴSとして確定する第２実施形態では、極大点ｘH1および極大点ｘH2の双方が発音始点ＴSとして特定される。しかし、音響信号ＸEの強度は、極大点ｘH1の直後の極大点ｘH2まで増加する。すなわち、極大点ｘH1および極大点ｘH2は、実際には発音源の１回の発音に対応すると推定される。したがって、極大点ｘH1を発音始点ＴSとして特定することなく直後の極大点ｘH2のみを発音始点ＴSとして特定し、極大点ｘH1および極大点ｘH2の双方を１個の発音区間Ｐに包含させるべきである。以上の事情を考慮して、第３実施形態では、音響信号ＸEの強度Ｑの１個の極大点ｘH1の直後に、当該極大点ｘH1を上回る強度Ｑの極大点ｘH2を検出した場合に、先行の極大点ｘH1を発音始点ＴSの候補から除外する。

具体的には、変動指標δが始点閾値ＺSを上回る任意の１個の極大点ｘH1（第１極大点）を第２実施形態と同様の方法で検出すると、始点解析部４４は、図１１に例示される通り、当該極大点ｘH1に対応する時間軸上の位置に待機区間Ｖを設定する。待機区間Ｖは、極大点ｘH1を発音始点ＴSとして確定することを留保する区間であり、極大点ｘH1以降に設定される。第３実施形態の始点解析部４４は、極大点ｘH1を始点とする所定長の待機区間Ｖを設定する。

待機区間Ｖを設定すると、始点解析部４４は、極大点ｘH1以降の音響信号ＸEについて極大点ｘHの探索を継続する。前述の通り、音響信号ＸEの強度Ｑは、極大点ｘH1以降に増加する可能性がある。極大点ｘH1を上回る強度の極大点ｘH2（第２極大点）を待機区間Ｖ内に検出した場合、始点解析部４４は、先行の極大点ｘH1を発音始点ＴSの候補から除外する。以上の処理を順次に実行し、検出済の極大点ｘHを上回る強度の極大点ｘHを検出することなく待機区間Ｖが経過すると、始点解析部４４は、待機区間Ｖの満了前に最後に検出した極大点ｘHを発音始点ＴSとして確定する。

以上の説明から理解される通り、第３実施形態では、音響信号ＸEの強度Ｑの極大点ｘH1以降の待機区間Ｖ内に、当該極大点ｘH1を上回る強度Ｑの極大点ｘH2が検出された場合に、極大点ｘH1が発音始点ＴSの候補から除外される。したがって、発音源による１回の発音の開始から音響信号ＸEの強度Ｑが増加する過程で複数の極大点ｘHが検出される場合でも、当該発音に対応した１個の極大点ｘHを含む発音区間Ｐを適切に特定することが可能である。

なお、第３実施形態では、１個の極大点ｘH1を始点とする待機区間Ｖを設定したが、極大点ｘH1を上回る強度Ｑの極大点ｘH2を検出した場合に、当該極大点ｘH2を始点とする待機区間Ｖを新規に設定する（すなわち極大点ｘHの検出毎に待機区間Ｖを更新する）ことも可能である。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、調波性解析部６２がサポートベクターマシンにより調波音と非調波音とを判別したが、調波性解析部６２による調波音／非調波音の判別方法は以上の例示に限定されない。例えば、調波音および非調波音の各々の特徴量Ｆの分布傾向を表現する混合正規分布を利用して対象音を調波音と非調波音とに判別する方法や、K-meansアルゴリズムを利用したクラスタリングで対象音を調波音と非調波音とに判別する方法も採用され得る。第１解析部６４および第２解析部６６の各々が対象音の発音源の種類を推定する方法についても同様に、前述の各形態で例示したサポートベクターマシンには限定されず、公知のパターン認識技術を任意に採用することが可能である。

（２）前述の各形態では、調波性解析部６２が解析した調波音の確度ＷHをＮ個の評価値ＥH(1)〜ＥH(N)に乗算するとともに非調波音の確度ＷPをＭ個の評価値ＥP(1)〜ＥP(M)に乗算したが、調波音の確度ＷHおよび非調波音の確度ＷPを音響信号ＸAの発音源の種類に反映させる方法は以上の例示に限定されない。例えば、音響信号ＸAの対象音が調波音および非調波音の何れに該当するかを確度ＷHおよび確度ＷPに応じて判別し、Ｎ個の評価値ＥH(1)〜ＥH(N)およびＭ個の評価値ＥP(1)〜ＥP(M)の何れかを調波性の判別結果に応じて選択的に利用して、音源特定部６８が発音源の種類を特定することも可能である。

具体的には、調波性解析部６２は、確度ＷHが確度ＷPを上回る場合には対象音を調波音と判別し、確度ＷPが確度ＷHを上回る場合には対象音を非調波音と判別する。音源特定部６８は、対象音が調波音であると判別された場合には、第１解析部６４が算定したＮ個の評価値ＥH(1)〜ＥH(N)のなかの最大値に対応する調波音源を発音源の種類として特定する一方、対象音が非調波音であると判別された場合には、第２解析部６６が算定したＭ個の評価値ＥP(1)〜ＥP(M)のなかの最大値に対応する非調波音源を発音源の種類として特定する。以上に例示した構成は、前述の各形態において、確度ＷHおよび確度ＷPの一方を１に設定するとともに他方を０に設定した構成とも換言される。なお、対象音が調波音であると調波性解析部６２が判別した場合に第２解析部６６による非調波解析処理（Ｍ個の評価値ＥP(1)〜ＥP(M)の算定）を省略する構成や、対象音が非調波音であると調波性解析部６２が解析した場合に第１解析部６４による調波解析処理（Ｎ個の評価値ＥH(1)〜ＥH(N)の算定）を省略する構成も採用され得る。

以上の例示から理解される通り、音源特定部６８は、調波性解析部６２と第１解析部６４と第２解析部６６とによる解析結果に応じて対象音の発音源の種類を特定する要素として包括的に表現され、第１解析部６４および第２解析部６６の双方の解析結果を利用するか一方の解析結果のみを利用するかは、本発明において不問である。

（３）第２実施形態および第３実施形態では始点閾値ＺSを固定値としたが、始点閾値ＺSを可変値とすることも可能である。例えば、極大点ｘHでの音響信号ＸEの強度ＱHに応じた数値（例えば強度ＱHを所定値に乗算した数値）を始点閾値ＺSとして利用し、図９のステップＳC1では、極大点ｘHでの強度ＱHと基準値ＱREFとの差分(ＱH−ＱREF)を変動指標δとして始点閾値ＺSと比較することも可能である。終点閾値ＺEについても同様に可変値とすることが可能である。また、始点閾値ＺSまたは終点閾値ＺEを利用者からの指示に応じて可変に設定することも可能である。

（４）移動体通信網やインターネット等の通信網を介して端末装置（例えば携帯電話機やスマートフォン）と通信するサーバ装置で音響処理装置１２を実現することも可能である。具体的には、音響処理装置１２は、端末装置から通信網を介して受信した複数の音響信号ＸAから前述の各形態と同様の処理で音響信号ＸBを生成して端末装置に送信する。なお、音響信号ＸAの発音区間Ｐ毎の特徴量Ｆが端末装置から音響処理装置１２に送信される構成（例えば端末装置が発音区間検出部４０および特徴量抽出部５０を具備する構成）では、音響処理装置１２の音響解析部２０から発音区間検出部４０と特徴量抽出部５０とが省略される。

また、端末装置から受信した複数の音響信号ＸAの各々の発音源の種類（音源識別情報Ｄ）を音響解析部２０が識別して端末装置に通知し、端末装置に搭載された音響処理部３０が識別結果に応じて複数の音響信号ＸAから音響信号ＸBを生成することも可能である。すなわち、音響処理部３０は音響処理装置１２から省略され得る。以上の説明から理解される通り、本発明の好適な態様は、音響信号ＸAが表す対象音の発音源の種類を特定する装置（音響解析装置）として包括的に表現される。音響解析装置における音響処理部３０の有無は不問である。

（５）前述の各形態で例示した音響処理装置１２は、前述の通り制御装置１２２とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

（６）本発明は、前述の各形態に係る音響処理装置１２の動作方法としても特定される。例えば、音源識別部６０が対象音の発音源の種類を特定する方法（音響解析方法）においては、コンピュータ（単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む）が、音響信号ＸAが表す対象音が調波音および非調波音の各々に該当する確度（ＷH，ＷP）を音響信号ＸAの特徴量Ｆから解析し（ＳB1）、対象音の発音源がＮ種類の調波音源の各々に該当する確度ＣH(n)を音響信号ＸAの特徴量Ｆから解析し（ＳB2）、対象音の発音源がＭ種類の非調波音源の各々に該当する確度ＣP(m)を音響信号ＸAの特徴量Ｆから解析し（ＳB3）、各解析の結果に応じて対象音の発音源の種類を特定する（ＳB4）。

１２……音響処理装置、１４……収音装置、１６……放音装置、１２２……制御装置、１２４……記憶装置、２０……音響解析部、３０……音響処理部、４０，４０A……発音区間検出部、４２……信号処理部、４４……始点解析部、４６……終点解析部、５０……特徴量抽出部、６０……音源識別部、６２……調波性解析部、６４……第１解析部６４、６６……第２解析部、６８……音源特定部、６８２……乗算部、６８４……乗算部、６８６……選択処理部。

Claims

音響信号が表す対象音が調波音および非調波音の各々に該当する確度を前記音響信号の特徴量から解析する調波性解析部と、
調波音を発音する複数種の調波音源の各々に前記対象音の発音源が該当する確度を前記音響信号の特徴量から解析する第１解析部と、
非調波音を発音する複数種の非調波音源の各々に前記対象音の発音源が該当する確度を前記音響信号の特徴量から解析する第２解析部と、
前記調波性解析部と前記第１解析部と前記第２解析部とによる解析の結果に応じて前記対象音の発音源の種類を特定する音源特定部と
を具備する音響解析装置。
前記調波性解析部は、前記対象音が調波音に該当する第１確度と前記対象音が非調波音に該当する第２確度とを算定し、
前記第１解析部は、前記複数種の調波音源の各々について、前記対象音の発音源が当該調波音源に該当する確度に応じた第１評価値を算定し、
前記第２解析部は、前記複数種の非調波音源の各々について、前記対象音の発音源が当該非調波音源に該当する確度に応じた第２評価値を算定し、
前記音源特定部は、前記各調波音源の第１評価値に前記第１確度を乗算して識別指標を算定するとともに前記各非調波音源の第２評価値に前記第２確度を乗算して識別指標を算定し、前記複数の識別指標に応じて前記対象音の発音源の種類を特定する
請求項１の音響解析装置。
前記第１解析部は、前記対象音の発音源が前記調波音源に該当する確度の順位に対応した数値を前記第１評価値として前記複数種の調波音源の各々に設定し、
前記第２解析部は、前記対象音の発音源が前記非調波音源に該当する確度の順位に対応した数値を前記第２評価値として前記複数種の非調波音源の各々に設定する
請求項２の音響解析装置。
前記音響信号の特徴量は、相異なる種類の第１特性値と第２特性値とを含み、
前記第１解析部は、前記対象音の発音源が前記複数種の調波音源の各々に該当する確度を前記第１特性値から解析し、
前記第２解析部は、前記対象音の発音源が前記複数種の非調波音源の各々に該当する確度を前記第２特性値から解析する
請求項１から請求項３の何れかの音響解析装置。
前記音響信号の発音始点毎に当該音響信号の前記特徴量を抽出する特徴量抽出部
を具備する請求項１から請求項４の何れかの音響解析装置。