JP2016050995A

JP2016050995A - 音響処理装置

Info

Publication number: JP2016050995A
Application number: JP2014175157A
Authority: JP
Inventors: ジェイナージョルディ; Janner Geordi; ゴルロウスタニスロウ; Gorlow Stanislaw; 慶太有元; Keita Arimoto
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2016-04-11
Anticipated expiration: 2034-08-29
Also published as: JP6409417B2

Abstract

【課題】音響信号のうち特定の音響の音高を変更する場合の音質の低下を抑制する。
【解決手段】音響処理装置は、対象音とは相違する音色で対象音と同等の音高の参照音Ｑ1を表す参照信号Ｒ1と、対象音の音高とは相違する目標音高で参照音Ｑ1と同等の音色の参照音Ｑ2を表す参照信号Ｒ2とを取得する参照音取得部５２と、対象音を表す対象信号ＹBと参照信号Ｒ1とを利用して、参照音Ｑ1を対象音の音色に近付けるための変換フィルタＨを生成する解析処理部６２と、変換フィルタＨを参照信号Ｒ2に適用することで、対象音に近似した音色で目標音高の音響を表す変換信号ＹCを生成する音響処理部６４とを具備する。
【選択図】図５

Description

本発明は、音響信号を処理する技術に関する。

音声や楽音等の音響の音高を変更する各種の技術が従来から提案されている。例えば特許文献１には、利用者が発音した音声の音高を変更する技術が開示されている。また、例えば特許文献２には、歌唱音声を歌唱音声を調波成分と非調波成分とに分解して声質変換を実行する構成が開示されている。

特開２００５−０２５２３４号公報特開２０００−０１０６００号公報

収録済の音響信号のうち特定の音響（以下「対象音」という）と同等の音色で所望の音高（以下「目標音高」という）の音響を生成する構成としては、例えば、音響信号から抽出される対象音の音高を目標音高に変更し、変更後に音色を対象音に近付ける構成（ピッチシフト→モーフィング）が想定され得る。しかし、例えば対象音を含む複数の音響成分を音響信号が包含する場合には、処理対象の対象音のみを高精度に抽出することは困難であり、対象音以外の音響成分が不可避的に対象音に付随し得る。以上の状況では、対象音に付随する対象音以外の音響成分が音高の変更に起因して顕在化し、更に音色の変換に起因して顕在化するという問題がある。以上の事情を考慮して、本発明は、音響信号のうち特定の音響の音高を変更する場合の音質の低下を抑制することを目的とする。

以上の課題を解決するために、本発明の音響処理装置は、対象音とは相違する音色で対象音と同等の音高の第１参照音を表す第１参照信号と、対象音の音高とは相違する目標音高で第１参照音と同等の音色の第２参照音を表す第２参照信号とを取得する参照音取得手段と、対象音を表す対象信号と第１参照信号とを利用して、第１参照音を対象音の音色に近付けるための変換フィルタを生成する解析処理手段と、変換フィルタを第２参照信号に適用することで、対象音に近似した音色で目標音高の音響を表す変換信号を生成する音響処理手段とを具備する。以上の態様では、対象音と同等の音高の第１参照音を対象音の音色に近付けるための変換フィルタが対象信号と第１参照信号とに応じて生成され、目標音高の第２参照音を表す第２参照信号に変換フィルタを適用することで変換信号が生成される。すなわち、対象音の音高の変換は原理的に不要である。したがって、対象音の音高の変更に起因した音質の低下を防止できるという利点がある。

本発明の好適な態様において、参照音取得手段は、対象信号および第１参照信号の一方の音高を他方の音高に調整する。以上の態様では、対象信号および第２参照信号とを同等の音高に調整したうえで変換フィルタが生成されるから、対象信号と第１参照信号とで音高が相違した状態で変換フィルタを生成する場合と比較して、参照音を対象音の音色に高精度に変換可能な変換フィルタを生成できるという利点がある。

例えば、音響信号から対象音以外の音響を抑圧することで対象信号を生成する成分抽出手段を具備する構成では、対象音以外の残差成分が対象信号に付随し得る。したがって、対象信号を第１参照信号の音高に変更する構成では、音高の変更に起因して残差成分が顕在化する可能性がある。したがって、参照音取得手段が第１参照信号を対象信号と同等の音高に調整する構成が好適である。

本発明の構成は、音響信号の特定の音響の音高を変更する構成に好適に採用される。具体的には、音響信号の音高の時系列を解析する音高解析手段と、音高解析手段が解析した音高の時系列において音高を変更すべき対象音と変更後の目標音高との指示を利用者から受付ける指示受付手段と、外部音源が生成した参照音を表す参照信号を取得する参照音取得手段と、参照音取得手段が取得した参照信号の参照音を対象音の音色に近付けた目標音高の変換信号を生成する音色変換手段と、成分抽出手段が生成した分離信号と音色変換手段が生成した変換信号とを混合する混合処理手段とを具備する音響処理装置において、音色変換手段に前述の各形態が利用され得る。

以上の各態様に係る音響処理装置は、音響信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

本発明の第１実施形態に係る音響処理装置の構成図である。音高系列を生成する処理（非負値行列因子分解）の説明図である。音高遷移画像の模式図である。音響編集処理のフローチャートである。音響加工部の構成図である。音色変換処理のフローチャートである。音色変換処理の説明図である。第２実施形態における発音範囲の説明図である。第３実施形態における音色変換処理のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響処理装置１００の構成図である。図１に例示される通り、音響処理装置１００は、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と信号供給装置２２と音源装置２４と放音装置２６とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響処理装置１００として利用され得る。

信号供給装置２２は、音響の時間波形を表す音響信号Ｘを出力する。第１実施形態の音響信号Ｘは、例えばライブハウスやコンサートホール等の固有の音響特性の音響空間で収録された信号であり、楽曲の歌唱音と楽器（以下「対象楽器」という）の演奏音との混合音の波形を表現する。なお、対象楽器以外の楽器の演奏音を包含する音響信号Ｘも処理可能である。可搬型または内蔵型の記録媒体から音響信号Ｘを取得して出力する再生装置や、通信網から音響信号Ｘを受信して出力する通信装置が信号供給装置２２として利用され得る。第１実施形態の音響処理装置１００は、信号供給装置２２が出力する音響信号Ｘのうち対象楽器の演奏音の特定の箇所（例えば演奏者が対象楽器の演奏を失敗した箇所）を変更することで音響信号Ｚを生成する信号処理装置である。

表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音響処理装置１００に対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を包含する。表示装置１４と一体に構成されたタッチパネルを入力装置１６として利用することも可能である。放音装置２６（例えばスピーカやヘッドホン）は、演算処理装置１０が生成した音響信号Ｚに応じた音響を放音する。

音源装置２４は、対象楽器の演奏音を表す音響信号（以下「参照信号」という）Ｒを生成する外部音源である。第１実施形態の音源装置２４は、任意の音高の参照信号Ｒを生成可能である。例えばＰＣＭ（Pulse Code Modulation）音源等の公知の音源が音源装置２４として任意に採用され得る。また、記憶装置１２に記憶されたプログラムを演算処理装置１０が実行することで音源装置２４の機能を実現することも可能である。

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。演算処理装置１０は、記憶装置１２に記憶されたプログラムを実行することで、音響信号Ｘから音響信号Ｚを生成するための複数の機能（音源分離部３２，音高解析部３４，表示制御部３６，指示受付部３８，成分抽出部４０，音響加工部４２，混合処理部４４）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、演算処理装置１０の機能の一部を専用の電子回路が実現する構成も採用され得る。

音源分離部３２は、信号供給装置２２が出力する音響信号Ｘから音響信号ＸAと音響信号ＸBとを生成する。音響信号ＸAは、音響信号Ｘのうち歌唱音が強調された信号（理想的には対象楽器の演奏音が除去された信号）であり、音響信号ＸBは、音響信号Ｘのうち対象楽器の演奏音が強調された信号（理想的には歌唱音が除去された信号）である。音響信号ＸAおよび音響信号ＸBの生成には公知の技術が任意に採用され得る。例えば、歌唱音および演奏音の音像が定位する位置の相違を利用して歌唱音と演奏音とを分離する音源分離処理が音響信号ＸAおよび音響信号ＸBの生成に好適に利用される。

音高解析部３４は、音源分離部３２による分離後の音響信号ＸBにおける音高の時系列（以下「音高系列」という）Ｓを解析する。音高系列Ｓは、対象楽器の演奏音の音高の時間的な遷移とも換言され得る。第１実施形態の音高解析部３４は、音響信号ＸBに対する非負値行列因子分解（NMF：Nonnegative Matrix Factorization）で音高系列Ｓを生成する。

図２は、第１実施形態における非負値行列因子分解の説明図である。図２に例示される通り、音高解析部３４は、音響信号ＸBを表現する観測行列Ｗを基底行列Ｂと係数行列Ｇとに分解する。観測行列Ｗは、音響信号ＸBを時間軸上で区分したＮ個のフレームの各々の強度スペクトルを時系列に配列したＭ行Ｎ列の非負値行列である。任意の１個のフレームの強度スペクトルは、周波数軸上のＭ個の周波数の各々における強度（振幅やパワー）の系列である。以上の説明から理解される通り、観測行列Ｗは、音響信号ＸBのスペクトログラムを表現する。

基底行列Ｂは、対象楽器の演奏音の音響特性を表現する。第１実施形態の基底行列Ｂは、図２に例示される通り、対象楽器の相異なる音高の演奏音に対応するＫ個の基底ベクトルｂ[1]〜ｂ[K]を横方向に配列したＭ行Ｋ列の非負値行列である。任意の１個の基底ベクトルｂ[k]（ｋ＝１〜Ｋ）は、対象楽器が発音可能なＫ種類（例えばピアノの８８音）の音高のうち第ｋ番目の音高の演奏音の強度スペクトルに相当し、周波数軸上のＭ個の周波数の各々における強度の系列である。基底行列Ｂは、対象楽器の演奏音の解析で生成されて記憶装置１２に事前に格納される。第１実施形態の音高解析部３４は、記憶装置１２に記憶された基底行列Ｂを教師情報（事前情報）として利用した音響信号ＸBの教師あり非負値行列因子分解（Supervised NMF）で係数行列Ｇを生成する。

係数行列Ｇは、図２に例示される通り、基底行列Ｂの相異なる基底ベクトルｂ[k]に対応するＫ個の係数ベクトルｇ[1]〜ｇ[K]を縦方向に配列したＫ行Ｎ列の非負値行列である。係数行列Ｇの第ｋ行の係数ベクトルｇ[k]は、時間軸上の相異なるフレームに対応するＮ個の係数ａ[k,1]〜ａ[k,N]で構成される。係数ベクトルｇ[k]の任意の１個の係数ａ[k,n]（ｎ＝１〜Ｎ）は、基底行列Ｂの基底ベクトルｂ[k]に対する加重値を意味する。具体的には、係数ベクトルｇ[k]を構成するＮ個の係数ａ[k,1]〜ａ[k,N]は、対象楽器のＫ種類の音高のうち基底ベクトルｂ[k]に対応する第ｋ番目の音高の音響成分の強度（活性度）の時系列に相当する。すなわち、係数ａ[k,n]が大きい第ｎ番目のフレームでは、対象楽器の第ｋ番目の音高の音響成分が優勢に存在する。以上の傾向を考慮して、第１実施形態の音高解析部３４は、係数行列Ｇを音高系列Ｓとして算定する。具体的には、音高解析部３４は、基底行列Ｂと係数行列Ｇとの行列積が観測行列Ｗに接近するように係数行列Ｇを更新する演算処理の反復で係数行列Ｇを逐次的に更新し、所定の収束条件が成立した時点（例えば更新演算の所定値に到達した時点）の係数行列Ｇを音高系列Ｓとして確定する。第１回目の演算処理に適用される係数行列Ｇの各係数ａ[k,n]（初期値）は、例えば乱数に設定される。

図１の表示制御部３６は、音高解析部３４が解析した音高系列Ｓを表象する図３の音高遷移画像１４２を表示装置１４に表示させる。図３に例示される通り、音高遷移画像１４２は、時間軸（横軸）と音高軸（縦軸）とが設定された座標平面に音高系列Ｓを描画したピアノロール状の画像である。時間軸上の各地点はＮ個のフレームの各々に対応し、音高軸上の各地点はＫ個の音高の各々に対応する。時間軸上の第ｎ番目のフレームと音高軸上の第ｋ番目の音高とに対応する地点は、音高系列Ｓ（係数行列Ｇ）の係数ａ[k,n]の大小に応じた態様（例えば階調や色彩）で表示される。すなわち、音響信号ＸBに包含される各音響（音符毎の単音）の音高と発音期間とが音高遷移画像１４２で表現される。したがって、利用者は、音高遷移画像１４２を視認することで対象楽器の演奏音の時系列（各音高の発音期間や発音強度）を直観的に把握することが可能である。

図１の指示受付部３８は、入力装置１６に対する利用者からの指示を受付ける。第１実施形態の指示受付部３８は、音高解析部３４が解析した音高系列Ｓ（表示制御部３６が表示装置１４に表示させた音高遷移画像１４２）から音高を変更すべき任意の演奏音（以下「対象音」という）Ｔの指示を利用者から受付ける。図３に例示されるとおり、利用者は、例えば音高遷移画像１４２を視認しながら入力装置１６を適宜に操作することで、音高遷移画像１４２で表現された複数の演奏音のうち音高の変更を希望する対象音Ｔを選択するとともに、当該対象音Ｔの変更後の音高（以下「目標音高」という）Ｐを指定することが可能である。指示受付部３８は、音高遷移画像１４２に対する対象音Ｔの指示と目標音高Ｐの指示とを利用者から受付ける。なお、相異なる複数の対象音Ｔの指示と対象音Ｔ毎の目標音高Ｐの指示とを指示受付部３８が受付けることも可能である。

図１の成分抽出部４０は、対象楽器の演奏音が強調された音響信号ＸBから分離信号ＹAと対象信号ＹBとを生成する。分離信号ＹAは、音響信号ＸBのうち利用者が指示した対象音Ｔを抑圧（理想的には除去）した音響信号であり、対象信号ＹBは、音響信号ＸBのうち対象音Ｔを強調した音響信号（理想的には対象音Ｔ以外の演奏音が除去された音響信号）である。分離信号ＹAおよび対象信号ＹBの生成には公知の技術が任意に採用され得るが、例えばウィナー（Wiener）フィルター等を利用した周波数領域での音源分離処理（対象音Ｔの分離）が好適である。

音響加工部４２は、対象楽器による目標音高Ｐの演奏音を表す音響信号（以下「変換信号」という）ＹCを生成する。具体的には、音響加工部４２は、音源装置２４が生成する参照信号Ｒに対する処理で目標音高Ｐの変換信号ＹCを生成する。図１に例示される通り、第１実施形態の音響加工部４２は、参照音取得部５２と音色変換部５４とを包含する。参照音取得部５２は、音源装置２４が生成した参照信号Ｒを取得する。

音源装置２４が生成する目標音高Ｐの参照音で音響信号ＸBの対象音Ｔを置換すれば、形式的には対象音Ｔを目標音高Ｐに変更した音響信号Ｚを生成することも可能である。しかし、音響信号ＸBには収録環境（例えばライブハウス等の音響空間）に固有の音響特性が付随するから、音源装置２４が生成する参照音で音響信号ＸBの対象音Ｔを単純に置換しただけでは、音響信号ＸBの既存の演奏音と置換後の演奏音（参照音）とで音響特性が顕著に相違する。したがって、再生音の受聴者が聴覚的な違和感を知覚する可能性がある。以上の事情を考慮して、第１実施形態の音色変換部５４は、参照音取得部５２が取得した参照信号Ｒの音色を音響信号ＸBの対象音Ｔの音色に近付けた目標音高Ｐの変換信号ＹCを生成する。参照信号Ｒの音色を対象音Ｔの音色に変換する処理（以下「音色変換処理」という）の具体的な内容については後述する。

図１の混合処理部４４は、音源分離部３２が生成した歌唱音の音響信号ＸAと、成分抽出部４０が生成した対象音Ｔ以外の分離信号ＹAと、音響加工部４２（音色変換部５４）が生成した変換信号ＹCとを混合（例えば加重和）することで音響信号Ｚを生成する。すなわち、音響信号Ｘのうち対象楽器の対象音Ｔの音高を目標音高Ｐに変更した音響信号Ｚが生成される。

第１実施形態の混合処理部４４は、音響信号ＸAと分離信号ＹAと変換信号ＹCとの混合の前後に各種の音響処理を実行する。例えば、各信号の周波数特性を調整する調整処理（イコライジング）が実行される。なお、音響信号ＸAおよび分離信号ＹAと変換信号ＹCとでは残響の度合が相違し得る。したがって、混合前の各信号から残響成分を抑圧する残響抑圧処理と、混合後の音響信号Ｚに適度な残響成分を付与する残響付与処理とを順次に実行することで、残響感が統一された音響信号Ｚを生成することが可能である。混合処理部４４が生成した音響信号Ｚの再生音が放音装置２６から放音される。以上の説明から理解される通り、音響信号Ｘが表現する音響のうち利用者が指示した対象音Ｔの音高を目標音高Ｐに変更した再生音が放音装置２６から放音される。

図４は、演算処理装置１０が音響信号Ｘから音響信号Ｚを生成する動作（以下「音響編集処理」という）のフローチャートである。入力装置１６に対する利用者からの指示（音響処理の開始指示）を契機として音響編集処理が開始される。

音響編集処理を開始すると、音源分離部３２は、信号供給装置２２が出力する音響信号Ｘから歌唱音の音響信号ＸAと対象楽器の演奏音の音響信号ＸBとを生成する（ＳA1）。音高解析部３４は、記憶装置１２に記憶された基底行列Ｂを教師情報とする非負値行列因子分解を音響信号ＸBの観測行列Ｗに対して実行することで音高系列Ｓ（係数行列Ｇ）を生成し（ＳA2）、表示制御部３６は、音高系列Ｓを表象する音高遷移画像１４２を表示装置１４に表示させる（ＳA3）。

音高遷移画像１４２に対する対象音Ｔおよび目標音高Ｐの指示を指示受付部３８が利用者から受付けると（ＳA4：YES）、成分抽出部４０は、音源分離部３２が生成した音響信号ＸBから対象音Ｔ以外の分離信号ＹAと対象音Ｔの対象信号ＹBとを生成する（ＳA5）。音響加工部４２は、音源装置２４が生成する参照信号Ｒに対象音Ｔの音色に近付ける音色変換処理（モーフィング）で変換信号ＹCを生成する（ＳA6）。混合処理部４４は、音響信号ＸAと分離信号ＹAと変換信号ＹCとの混合で音響信号Ｚを生成する（ＳA7）。

＜音響加工部４２＞
図５は、音響加工部４２の具体的な構成図である。図５に例示される通り、第１実施形態における音響加工部４２の音色変換部５４は、解析処理部６２と音響処理部６４とを包含する。図６は、第１実施形態の音響加工部４２（参照音取得部５２，音色変換部５４）が実行する音色変換処理ＳA6のフローチャートであり、図７は音色変換処理ＳA6の説明図である。

音色変換処理ＳA6を開始すると、参照音取得部５２は、対象信号ＹBの対象音Ｔの音高を特定し（ＳB1）、対象音Ｔと同等の音高の参照音Ｑ1を表す参照信号Ｒ1を音源装置２４から取得する（ＳB2）。前述の通り、参照音Ｑ1の音色は音響信号ＸBの対象音Ｔとは相違する。図５および図７に例示される通り、解析処理部６２は、成分抽出部４０が生成した対象信号ＹBと参照音取得部５２がステップＳB2で取得した参照信号Ｒ1とを利用して変換フィルタＨを生成する（ＳB3）。変換フィルタＨは、音源装置２４が生成した参照音Ｑ1の音色を対象音Ｔの音色に近付けるためのフィルタである。

具体的には、解析処理部６２は、対象信号ＹBと参照信号Ｒ1との間で相互に対応する各フレーム（例えば音響的な特徴量が相互に類似するフレーム）の対毎に変換フィルタＨを生成する。対象信号ＹBと参照信号Ｒ1との間の各フレームの対応の解析には動的計画法等の公知の技術が任意に採用される。第１実施形態の変換フィルタＨは、周波数軸上に設定された複数の帯域（以下「解析帯域」という）の各々に対応する調整値（ゲイン）ｈの系列である。各解析帯域は、単純には相等しい帯域幅に設定されるが、人間の聴覚特性の傾向が反映されるように各解析帯域の帯域幅を対数的な関係に設定することも可能である。変換フィルタＨのうち任意の１個の解析帯域の調整値ｈは、例えば、参照信号Ｒ1の強度ＶRに対する対象信号ＹBの強度ＶYの相対比（ｈ＝ＶY／ＶR）として算定される。参照信号Ｒ1の強度ＶRは、参照信号Ｒ1の強度スペクトルのうち解析帯域内の複数の周波数にわたる強度の総和であり、対象信号ＹBの強度ＶYは、対象信号ＹBの強度スペクトルのうち解析帯域内の複数の周波数にわたる強度の総和である。変換フィルタＨを構成する複数の調整値ｈの平均がゼロとなるように（ゼロ平均）、各調整値ｈを調整する構成も採用され得る。

以上に例示された手順で解析処理部６２が変換フィルタＨを生成すると、参照音取得部５２は、目標音高Ｐ（対象音Ｔとは相違する音高）の参照音Ｑ2を表す参照信号Ｒ2を音源装置２４から取得する（ＳB4）。参照音Ｑ2の音色は参照音Ｑ1と同等である。図５および図７に例示される通り、音響処理部６４は、解析処理部６２がステップＳB3で生成した変換フィルタＨを参照信号Ｒ2に適用することで変換信号ＹCを生成する（ＳB5）。具体的には、音響処理部６４は、参照信号Ｒ2の各フレームの強度スペクトルを周波数軸上で区分した各解析帯域に変換フィルタＨの各調整値ｈを乗算する。前述の通り、変換フィルタＨは、参照音Ｑ1の音色を対象音Ｔの音色に近付けるように作用するから、変換フィルタＨを参照信号Ｒ2に適用することで、対象音Ｔに近似した音色で目標音高Ｐの音響を表す変換信号ＹCが生成される。以上が音色変換処理ＳA6の具体的な内容である。

以上の説明から理解される通り、第１実施形態では、音源装置２４から取得した参照信号Ｒの加工で生成された目標音高Ｐの変換信号ＹCが対象音Ｔの抑圧後の分離信号ＹAに混合されるから、対象音Ｔの対象信号ＹBを目標音高Ｐに変換する構成と比較して音響信号Ｚの音質の低下を抑制することが可能である。成分抽出部４０が生成する対象信号ＹBは、理想的には対象音のみで構成されるが、実際には対象音以外の音響（以下「残差成分」という）も含有する。対象信号ＹBの音高を目標音高Ｐに変換する構成では、音高の変更に起因して残差成分が特に顕在化する。他方、参照信号Ｒから生成された目標音高Ｐの変換信号ＹCを分離信号ＹAに混合する第１実施形態では、対象信号ＹBの音高の変更が不要であるから、成分抽出部４０の処理精度が低い場合（対象信号ＹBに残差成分が含有される場合）でも高音質の音響信号Ｚを生成できるという利点がある。他方、音響信号ＸBとは無関係に生成された参照信号Ｒを単純に分離信号ＹAに混合する構成では、両者間の音色の相違に起因した聴覚的な違和感が問題となるが、第１実施形態では、参照信号Ｒの参照音が対象音Ｔの音色に変換されるから、音響信号ＸBの音色と参照音の音色との相違に起因した聴覚的な違和感を解消することが可能である。

ところで、対象音Ｔと同等の音色で目標音高Ｐの音響を生成する構成としては、例えば、対象音Ｔの音高を目標音高Ｐに変更し、変更後に音色を対象音Ｔに近付ける構成（ピッチシフト→モーフィング）が想定され得る。しかし、前述の通り、対象音Ｔの音高の変更に起因して顕在化した残差成分が音色の変換で更に顕在化するという問題がある。以上の事情に対し、第１実施形態では、対象音Ｔと同等の音高の参照音Ｑ1を対象音Ｔの音色に近付けるための変換フィルタＨを対象信号ＹBと参照信号Ｒ1とから生成し、目標音高Ｐの参照音Ｑ2の参照信号Ｒ2に変換フィルタＨに適用することで変換信号ＹCを生成する。すなわち、対象音Ｔの音高の変換は原理的に不要である。したがって、第１実施形態によれば、対象音Ｔの音高の変更に起因した音質の低下を防止できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各構成において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

音高解析部３４が生成する係数行列Ｇ（音高系列Ｓ）では、理想的には、対象楽器の実際の演奏音に対応する係数ａ[k,n]のみが有意な数値に設定されるが、現実的には、例えば対象楽器の演奏音に対して特定の関係（例えば５度の音程）にある音高の係数ａ[k,n]が、実際には当該音高が演奏されていないのに有意な数値となる可能性がある。すなわち、音響信号ＸBにおける対象楽器の演奏音の実際の音高が分布する音高範囲の外側にも、有意な数値の係数ａ[k,n]が存在し得る。利用者は、入力装置１６を適宜に操作することで、図８に例示される通り、表示装置１４に表示された音高遷移画像１４２のうち音響信号ＸBの音響（対象楽器の演奏音）が存在すると推測される時間軸上および音高軸上の範囲（以下「発音範囲」という）Ａを指示することが可能である。例えば、対象楽器として鍵盤楽器（例えばピアノ）を想定すると、演奏者の右手で演奏される高域側の音高範囲と左手で演奏される低域側の音高範囲とが発音範囲Ａとして指示される。第２実施形態の指示受付部３８は、以上に説明した発音範囲Ａの指示を利用者から受付ける。

第２実施形態の音高解析部３４は、指示受付部３８が受付けた発音範囲Ａを加味して音高系列Ｓを再解析する。具体的には、音高解析部３４は、図８に例示される通り、利用者から指示された発音範囲Ａの外側の各係数ａ[k,n]がゼロに設定されるとともに発音範囲Ａの内側の各係数ａ[k,n]がゼロ以外の有意な数値λに設定された行列を、係数行列Ｇの初期値（初期行列）として利用した非負値行列因子分解で音高系列Ｓを算定する。数値λは例えば乱数に設定される。表示制御部３６は、音高解析部３４が再解析した音高系列Ｓを表象する音高遷移画像１４２を表示装置１４に表示させる。音高遷移画像１４２に対する利用者からの指示に応じて音響信号Ｚを生成する処理は第１実施形態と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、発音範囲Ａの外側の各係数ａ[k,n]がゼロに設定された行列を係数行列Ｇの初期値として利用した非負値行列因子分解で音高系列Ｓが生成される。すなわち、利用者が指示した発音範囲Ａが反映されるように音高系列Ｓが更新される。したがって、音高系列Ｓに発音範囲Ａの指示を反映させない構成と比較して音高系列Ｓを高精度に生成できるという利点がある。

＜第３実施形態＞
図９は、第３実施形態の音響加工部４２（参照音取得部５２，音色変換部５４）が実行する音色変換処理ＳA6のフローチャートである。第１実施形態では、対象音Ｔと参照音Ｑ1とが同等の音高である場合を想定して対象信号ＹBと参照信号Ｒ1とに応じた変換フィルタＨの生成を例示したが、実際には、例えば音響信号ＸBにおける対象楽器の調律や調弦の状況に起因して、対象音Ｔと参照音Ｑ1とで音高が相違する可能性がある。以上の事情を考慮して、第３実施形態の参照音取得部５２は、図９に例示される通り、対象音Ｔと参照音Ｑ1とを同等の音高に調整する処理（ＳB10）を、参照信号Ｒ1の取得（ＳB2）と変換フィルタＨの生成（ＳB3）との間に実行する。具体的には、第３実施形態の参照音取得部５２は、参照音Ｑ1の参照信号Ｒ1を処理することで参照音Ｑ1を対象音Ｔの音高に調整する。参照信号Ｒ1の音高の変更には公知の技術（ピッチシフト）が任意に採用される。解析処理部６２は、調整後の参照信号Ｒ1と対象音Ｔの対象信号ＹBとを利用して、第１実施形態と同様の方法で変換フィルタＨを生成する（ＳB3）。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、対象音Ｔと参照音Ｑ1とを同等の音高に調整したうえで変換フィルタＨを生成するから、対象音Ｔと参照音Ｑ1とで音高が相違した状態で変換フィルタＨを生成する場合と比較して、参照音Ｑ1（ひいては参照音Ｑ2）を対象音Ｔの音色に高精度に変換可能な変換フィルタＨを生成できるという利点がある。なお、以上の説明では、参照音Ｑ1を対象音Ｔの音高に調整する構成を例示したが、対象音Ｔを参照音Ｑ1と同等の音高に調整することも可能である。ただし、前述の通り、対象音Ｔには対象音以外の残差成分が包含され、対象音Ｔの音高の変更に起因して残差成分が顕在化する可能性がある。以上の事情を考慮すると、参照信号Ｒ1の参照音Ｑ1を対象音Ｔの音高に調整する構成が格別に好適である。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、音響信号ＸBに対する非負値行列因子分解で音高系列Ｓを生成したた、音高系列Ｓを生成する方法は以上の例示に限定されない。例えば、自動採譜等の公知の解析技術を音高系列Ｓの生成に利用することも可能である。また、第２実施形態では、非負値行列因子分解以外の方法で暫定的な音高系列Ｓを生成し、当該音高系列Ｓの音高遷移画像１４２のうち発音範囲Ａの外側に対応する各係数ａ[k,n]がゼロに設定された係数行列Ｇを初期値として観測行列Ｗの非負値行列因子分解を実行することで確定的な音高系列Ｓを再解析することも可能である。すなわち、発音範囲Ａの指示前の暫定的な音高系列Ｓを生成する方法と発音範囲Ａを反映した確定的な音高系列Ｓを生成する方法とは相違し得る。なお、発音範囲Ａの指示と音高系列Ｓの再解析とを複数回にわたり反復することも可能である。

（２）前述の各形態では、対象楽器の相異なる音高の演奏音に対応するＫ個の基底行列Ｂを利用した観測行列Ｗの非負値行列因子分解で係数行列Ｇを算定したが、観測行列Ｗに対して実行される非負値行列因子分解の内容は適宜に変更され得る。例えば、各要素が乱数で初期化されたＫ個の基底ベクトル（以下「暫定基底ベクトル」という）で構成される基底行列Ｂを非負値行列因子分解の反復的な演算で係数行列Ｇとともに順次に更新する構成も採用される。

また、対象楽器の演奏音について事前に用意された基底ベクトルと任意の暫定基底ベクトルとを混在させた基底行列Ｂを非負値行列因子分解に利用することも可能である。対象楽器の基底ベクトルと任意の暫定基底ベクトルとを基底行列Ｂに混在させた構成では、例えば対象楽器のほかに対象楽器以外の楽器（以下「他楽器」という）の演奏音が音響信号ＸBに包含される場合に、他楽器の演奏音が暫定基底ベクトルに反映されるように基底行列Ｂが順次に更新される。したがって、他楽器の演奏音が音響信号ＸBに包含される場合でも対象楽器の音高系列Ｓを高精度に特定できるという利点がある。なお、対象楽器の基底ベクトルと任意の暫定基底ベクトルとを基底行列Ｂに混在させた以上の構成に第２実施形態を適用する場合には、初期的な係数行列Ｇのうち対象楽器の各基底ベクトルに対応する係数ベクトルｇ[k]のみについて、発音範囲Ａの外側の各係数ａ[k,n]をゼロに設定する構成（各暫定基底ベクトルに対応する係数ベクトルｇ[k]については各係数ａ[k,n]をゼロとしない構成）が好適である。また、観測行列Ｗの非負値行列因子分解には、例えば特開２０１３−０３３１９６号公報に例示された拘束条件を適用することも可能である。

（３）音源装置２４が複数種の楽器（同種だが音色が相違する楽器は別種と区別され得る）の演奏音の参照信号Ｒを生成可能な構成では、複数種の楽器のうち利用者が選択した楽器（音響信号Ｘの再生音から音響特性が近似すると推測される楽器）の演奏音の参照信号Ｒを参照音取得部５２が取得することも可能である。

（４）第２実施形態では、利用者が発音範囲Ａを指示する構成を例示したが、発音範囲Ａを設定する方法は以上の例示に限定されない。例えば、音響信号Ｘの楽曲の演奏内容（音符の時系列）を指定する楽曲データ（例えばMIDI規格に準拠した時系列データ）を参照することで時間軸上および音高軸上の各音符の分布範囲を特定し、音高解析部３４が当該範囲を発音範囲Ａとして設定することも可能である。また、実際に演奏音が存在する地点の係数ａ[k,n]は相対的に大きい数値に設定されるという傾向を前提とすれば、係数行列Ｇ（音高系列Ｓ）のうち閾値を上回る係数ａ[k,n]が分布する範囲を発音範囲Ａとして設定することも可能である。なお、第２実施形態では音高軸上の範囲および時間軸上の範囲の双方で発音範囲Ａを画定したが、音高軸上の範囲（時間軸上は全範囲）を発音範囲Ａとして設定する構成や、時間軸上の範囲（音高軸上は全範囲）を発音範囲Ａとして設定する構成も採用され得る。

（５）前述の各形態では、対象音の音高を変更する場合を便宜的に例示したが、対象音の発音期間（始点および終点）を音高とともに変更することも可能である。例えば、参照音取得部５２が取得した参照信号Ｒ2を音色変換部５４（変換処理部６４）が目標の継続長に伸縮したうえで変換フィルタＨを適用する構成や、参照信号Ｒ2に対する変換フィルタＨの適用で生成した変換信号ＹCを音色変換部５４（変換処理部６４）が目標の継続長に伸縮する構成が採用され得る。

（６）音高遷移画像１４２において対象音Ｔと目標音高Ｐとが暫定的に指示された場合に、変換信号ＹCを生成して放音装置２６から放音することも可能である。以上の構成によれば、対象音Ｔの変更結果を利用者が事前に試聴できるという利点がある。

（７）第３実施形態では対象信号ＹBおよび参照信号Ｒ1の一方を他方の音高に調整する構成を例示したが、対象信号ＹBおよび参照信号Ｒ1の音高を、事前に設定された複数の音高のうち最も近似する音高に変更（クオンタイズ）する構成も採用され得る。また、対象信号ＹBの対象音Ｔや参照信号Ｒ1の参照音Ｑ1に音高の微小変動（揺れ）が存在する場合には、微小変動を抑制（理想的には除去）したうえで変換フィルタＨを生成することも可能である。例えば、音声合成で生成された歌唱音の音響信号ＸBにはビブラート等の微小変動が付随し得るから、対象信号ＹBから音高の微小変動を抑制する構成が格別に好適である。また、残差成分や雑音成分を対象信号ＹBから除去したうえで変換フィルタＨを生成することも可能である。

（８）前述の各形態では、音源装置２４が生成した参照信号Ｒを参照音取得部５２が取得する構成を例示したが、音源装置２４が生成した参照信号Ｒを事前に記憶装置１２に格納し、参照音取得部５２が記憶装置１２から参照信号Ｒを取得する構成も採用され得る。また、音源装置２４が生成した各音高の参照信号Ｒを周波数領域に変換することで基底行列Ｂ（各基底ベクトルｂ[k]）を生成することも可能である。

（９）前述の各形態では、音響信号Ｘを歌唱音の音響信号ＸAと対象楽器の演奏音の音響信号ＸBとに分離したが、歌唱音の音響信号ＸAを分離する構成は省略され得る。例えば、歌唱音を含まない音響信号Ｘを処理する構成では、音源分離部３２が省略されるとともに、混合処理部４４は、分離信号ＹAと変換信号ＹCとの混合で音響信号Ｚを生成する。

（１０）携帯電話機等の端末装置と通信するサーバ装置で音響処理装置１００を実現することも可能である。例えば、音響処理装置１００は、端末装置から受信した音響信号Ｘから音響信号Ｚを生成して端末装置に送信する。

１００……音響処理装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、２２……信号供給装置、２４……音源装置、２６……放音装置、３２……音源分離部、３４……音高解析部、３６……表示制御部、３８……指示受付部、４０……成分抽出部、４２……音響加工部、４４……混合処理部、５２……参照音取得部、５４……音色変換部、６２……解析処理部、６４……音響処理部。

Claims

対象音とは相違する音色で前記対象音と同等の音高の第１参照音を表す第１参照信号と、前記対象音の音高とは相違する目標音高で前記第１参照音と同等の音色の第２参照音を表す第２参照信号とを取得する参照音取得手段と、
前記対象音を表す対象信号と前記第１参照信号とを利用して、前記第１参照音を前記対象音の音色に近付けるための変換フィルタを生成する解析処理手段と、
前記変換フィルタを前記第２参照信号に適用することで、前記対象音に近似した音色で前記目標音高の音響を表す変換信号を生成する音響処理手段と
を具備する音響処理装置。
前記参照音取得手段は、前記対象信号および前記第１参照信号の一方の音高を他方の音高に調整する
請求項１の音響処理装置。
前記音響信号から前記対象音以外の音響を抑圧することで前記対象信号を生成する成分抽出手段を具備し、
前記参照音取得手段は、前記第１参照信号を前記対象信号と同等の音高に調整する
請求項２の音響処理装置。