JP2015079122A

JP2015079122A - 音響処理装置

Info

Publication number: JP2015079122A
Application number: JP2013216141A
Authority: JP
Inventors: 慶太有元; Keita Arimoto; 近藤　多伸; Kazunobu Kondo; 多伸近藤; 祐高橋; Yu Takahashi
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-10-17
Filing date: 2013-10-17
Publication date: 2015-04-23
Anticipated expiration: 2033-10-17
Also published as: JP6299140B2

Abstract

【課題】音響信号から高精度に歌唱音を分離する。【解決手段】音声解析部３２は、利用者が対象楽曲を歌唱した歌唱音を表す参照音響信号ＳREFについて有声区間ＱVと無声区間ＱUとを特定する。有声分離部５２は、対象楽曲の歌唱音と伴奏音との混合音の音響信号ＳAのうち音声解析部３２が特定した有声区間ＱVについて歌唱音の有声成分Ｖを分離する。無声分離部５４は、音響信号ＳAのうち音声解析部３２が特定した無声区間ＱUについて歌唱音の無声成分Ｕを分離する。合成処理部５６は、有声分離部５２が分離した有声成分Ｖと無声分離部５４が分離した無声成分Ｕとを合成することで音響信号ＳBを生成する。【選択図】図２

Description

本発明は、音響を表す音響信号を処理する技術に関する。

相異なる音源が発音した複数の音響成分の混合音から特定の音響成分を分離する音源分離技術が従来から提案されている。例えば非特許文献１や非特許文献２には、調波特性（source）と包絡特性（filter）とで歌唱音の周波数特性を表現するソースフィルタモデルを利用して、楽曲の歌唱音と伴奏音との混合音の音響信号から歌唱音を分離する技術が開示されている。

Jean-Louis Durrieu, et al., "MAIN INSTRUMENT SEPARATION FROM STEREOPHONIC AUDIO SIGNALS USING A SOURCE/FILTER MODEL", in Proc. EUSIPCO, p.15-18, 2009 Jean-Louis Durrieu, et al., "A musically motivated mid-level representation for pitch estimation and musical audio source separation", IEEE Journal of Selected Topics on Signal Processing 5(6), p.1180-1191, 2011

しかし、非特許文献１や非特許文献２の技術のもとでは、実際には歌唱音が存在しない区間において、音響特性が歌唱音に類似する音響成分（例えば子音の音響特性に類似する打楽器の演奏音の音響成分）が歌唱音として誤抽出される可能性がある。以上の事情を考慮して、本発明は、音響信号から高精度に歌唱音を分離することを目的とする。

以上の課題を解決するために、本発明の音響処理装置は、利用者が楽曲を歌唱した歌唱音を表す参照音響信号について有声区間と無声区間とを特定する音声解析手段と、楽曲の歌唱音と伴奏音との混合音の音響信号のうち音声解析手段が特定した有声区間について歌唱音の有声成分を分離する有声分離手段と、音響信号のうち音声解析手段が特定した無声区間について歌唱音の無声成分を分離する無声分離手段と、有声分離手段が分離した有声成分と無声分離手段が分離した無声成分とを合成する合成処理手段とを具備する。以上の構成では、利用者が楽曲を歌唱した歌唱音の参照音響信号から有声区間と無声区間とが特定され、音響信号の有声区間から有声成分が分離されるとともに無声区間から無声成分が分離される。したがって、参照音響信号を利用せずに音響信号から有声成分および無声成分を分離する構成と比較して高精度に歌唱音を分離できるという利点がある。

なお、有声区間とは、調波構造が明確に観測される有声成分が優勢に存在する区間を意味する。他方、無声区間とは、調波構造が明確に観測されない無声成分が優勢に存在する区間であり、音声が存在しない無音区間とは区別される。

本発明の好適な態様において、音声解析手段は、参照音響信号の有声区間と無声区間とを特定する区間特定手段と、参照音響信号に対する歌詞認識で無声区間のうち歌唱音の子音に対応する子音区間を特定する歌詞認識手段とを含み、無声分離手段は、音響信号のうち歌詞認識手段が特定した子音区間について歌唱音の無声成分を分離する。以上の態様では、参照音響信号の無声区間のうち歌唱音の子音に対応する子音区間が歌詞認識で特定され、音響信号の子音区間から無声成分が分離される。したがって、参照音響信号が歌唱音の子音以外の無声音を包含する場合でも、音響信号から高精度に歌唱音を分離できるという利点がある。

本発明の好適な態様において、歌詞認識手段は、参照音響信号の子音を歌詞認識で特定し、無声分離手段は、相異なる子音の周波数特性を表す複数の基底行列のうち、歌詞認識手段が特定した子音の基底行列を教師情報として利用した教師あり非負値行列因子分解で無声成分を分離する。以上の態様では、参照音響信号の歌詞認識で特定された子音に対応する基底行列が、音響信号から無声成分を分離するための教師あり非負値行列因子分解に適用される。したがって、音響信号のうち歌唱音の子音を高精度に無声成分として分離できるという利点がある。

本発明の好適な態様に係る音響処理装置は、参照音響信号のうち区間特定手段が特定した無声区間を利用した学習処理で基底行列を生成する学習処理手段を具備する。以上の態様では、無声成分の分離に適用される基底行列が参照音響信号に対する学習処理で生成されるから、基底行列を事前に用意する必要がないという利点がある。なお、学習処理手段を具備する構成にとって歌詞認識手段の有無は不問である。

以上の各態様に係る音響処理装置は、音響信号の処理に専用されるＤＳＰ（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音響処理装置の動作方法（音響処理方法）としても特定される。

本発明の第１実施形態に係る音響処理装置の構成図である。音響処理装置の具体的な構成図である。音響処理装置の動作のフローチャートである。第２実施形態に係る音響処理装置の構成図である。

図１は、本発明の第１実施形態に係る音響処理装置１００の構成図である。図１に例示される通り、音響処理装置１００には信号供給装置１２と放音装置１４と収音装置１６とが接続される。信号供給装置１２は、音響信号ＳAを音響処理装置１００に供給する。音響信号ＳAは、音響特性が相違する複数の音響成分（例えば音声や楽音）の混合音の波形を表す時間領域信号である。例えば可搬型または内蔵型の記録媒体（典型的には音楽ＣＤ）から音響信号ＳAを取得して音響処理装置１００に供給する再生装置が信号供給装置１２として採用され得る。なお、信号供給装置１２を音響処理装置１００と一体に構成することも可能である。

第１実施形態では、特定の楽曲（以下「対象楽曲」という）の歌唱音と伴奏音との混合音の音響信号ＳAが信号供給装置１２から音響処理装置１００に供給される。歌唱音は、有声成分と無声成分とを包含し得る。有声成分は、基音成分と複数の倍音成分とを周波数軸上で基本周波数の整数倍の周波数に配列した調波構造（倍音構造）が観測される音響成分である。無声成分は、明確な調波構造が観測されない音響成分である。典型的には、歌唱音の母音が有声成分に相当し、摩擦音や破裂音等の子音（無声子音）が無声成分に相当する。他方、伴奏音は、相異なる複数種の楽器の楽音を含んで構成される。

第１実施形態の音響処理装置１００は、信号供給装置１２から供給される音響信号ＳAに対する音響処理で音響信号ＳBを生成する信号処理装置（音源分離装置）である。音響信号ＳBは、音響信号ＳAに包含される歌唱音を分離した音響（すなわち楽曲の伴奏音を抑制した音響）の波形を表す時間領域信号である。放音装置１４（例えばスピーカやヘッドホン）は、音響処理装置１００が生成した音響信号ＳBに応じた音波を放射する。なお、音響信号ＳBをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

収音装置１６は、周囲の音響を収音して音響の時間波形を表す音響信号を生成する。第１実施形態の収音装置１６は、利用者が対象楽曲（歌唱パート）を歌唱した歌唱音の音響信号（以下「参照音響信号」という）ＳREFを音響処理装置１００に供給する。収音装置１６から音響処理装置１００に対する参照音響信号ＳREFの供給（利用者による対象楽曲の歌唱）と、音響信号ＳAの音響処理および処理後の音響信号ＳBの再生とが、実時間的に並行して実行される。なお、参照音響信号ＳREFをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。

図１に例示される通り、音響処理装置１００は、演算処理装置２２と記憶装置２４とを具備するコンピュータシステムで実現される。記憶装置２４は、演算処理装置２２が実行するプログラムや演算処理装置２２が使用する各種のデータを記憶する。半導体記録媒体または磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置２４として任意に採用される。音響信号ＳAを記憶装置２４に記憶した構成（したがって信号供給装置１２は省略され得る）も好適である。

第１実施形態の記憶装置２４は、相異なる子音に対応する複数の基底行列Ｍを記憶する。任意の１種類の子音に対応する基底行列Ｍは、当該子音の周波数特性を表現する音響モデル（子音モデル）である。第１実施形態の基底行列Ｍは、図１に例示される通り、典型的な子音の周波数特性（周波数スペクトル）を表す複数の基底ベクトルｍを列方向に配列した非負値行列であり、音響信号ＳAに対する非負値行列因子分解（ＮＭＦ：Non-negative Matrix Factorization）にて教師情報（事前情報）として利用される。

演算処理装置２２は、記憶装置２４に記憶されたプログラムを実行することで、音響信号ＳAから音響信号ＳBを生成するための複数の機能（音声解析部３２，信号処理部３４）を実現する。音声解析部３２は、収音装置１６から供給される参照音響信号ＳREFの音響特性を解析する。信号処理部３４は、音声解析部３２による参照音響信号ＳREFの解析の結果を利用して音響信号ＳAから音響信号ＳBを生成する。すなわち、第１実施形態では、利用者が対象楽曲を歌唱した歌唱音の参照音響信号ＳREFが、音響信号ＳAに対する音源分離を補助する情報として利用される。なお、演算処理装置２２の各機能を複数の集積回路に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置２２の一部の機能を実現する構成も採用され得る。また、実際には、時間領域の音響信号ＳAを例えば離散フーリエ変換で周波数領域に変換する要素や、周波数領域の音響信号ＳBを例えば離散逆フーリエ変換で時間領域に変換する要素が設置されるが、以下では説明や図示を便宜的に省略する。

図２は、音響処理装置１００の具体的な構成図である。音声解析部３２は、収音装置１６から供給される参照音響信号ＳREFから時間軸上の有声区間ＱV（Ｖ：Voiced）と無声区間ＱU（Ｕ：Unvoiced）とを順次に特定する。有声区間ＱVは、参照音響信号ＳREFの音声区間（音声が存在する区間）のうち有声成分が優勢に存在する区間であり、無声区間ＱUは、参照音響信号ＳREFの音声区間のうち無声成分が優勢に存在する区間である。図２に例示される通り、第１実施形態の音声解析部３２は、区間特定部４２と歌詞認識部４４とを含んで構成される。

区間特定部４２は、参照音響信号ＳREFの有声区間ＱVと無声区間ＱU0（無声区間ＱUの基礎となる区間）とを順次に特定する。有声区間ＱVおよび無声区間ＱU0の特定には公知の技術が任意に採用される。例えば、区間特定部４２は、参照音響信号ＳREFのうち歌唱音が存在する音声区間を公知の音声区間検出（ＶＡＤ：Voice Activity Detection）で検出し、音声区間のうち有意な音高（ピッチ）が観測される区間（すなわち明確な調波構造が存在する区間）を有声区間ＱVとして特定するとともに音声区間のうち有意な音高が観測されない区間（すなわち明確な調波構造が存在しない区間）を無声区間ＱU0として特定する。

歌詞認識部４４は、参照音響信号ＳREFに対する歌詞認識を実行する。第１実施形態の歌詞認識部４４は、参照音響信号ＳREFに対する歌詞認識で、区間特定部４２が特定した無声区間ＱU0のうち歌唱音の子音に対応する区間（子音区間）を無声区間ＱUとして順次に特定するとともに、参照音響信号ＳREFの無声区間ＱU0内に存在する子音（発音内容）Ｃを順次に特定する。無声区間ＱUは、区間特定部４２が特定した初期的な無声区間ＱU0のうち歌唱音以外の無声音（例えば打楽器の演奏音等）が優勢に存在する区間を除外した区間である。すなわち、無声区間ＱU0の一部が無声区間ＱU（子音区間）として特定される。歌詞認識部４４による歌詞認識（音声認識）には公知の音声認識技術が任意に採用される。

信号処理部３４は、音声解析部３２が特定した有声区間ＱVおよび無声区間ＱUと子音Ｃとを適用した信号処理（音源分離）で音響信号ＳAから音響信号ＳBを生成する。信号処理部３４による音響信号ＳBの生成は、利用者による歌唱（歌唱音の参照音響信号ＳREFに対する音声解析部３２の処理）に並行して実時間的に実行される。図２に例示される通り、第１実施形態の信号処理部３４は、有声分離部５２と無声分離部５４と合成処理部５６とを含んで構成される。

有声分離部５２は、信号供給装置１２から供給される音響信号ＳAのうち音声解析部３２（区間特定部４２）が特定した各有声区間ＱVから歌唱音の有声成分Ｖを分離（強調ないし抽出）する。有声成分Ｖの分離には公知の音源分離技術が任意に採用される。具体的には、調波特性と包絡特性とで歌唱音の有声成分を表現するソースフィルタモデルを利用した非特許文献１や非特許文献２の音源分離技術（Ｖ-ＩＭＭ："Voiced"-Instantaneous Mixture Model）が、有声分離部５２による有声成分Ｖの分離に好適に採用される。すなわち、声帯等の発音源の振動に由来する調波特性（source）の時系列に相当する非負値行列と、声道等の共鳴管内での変調に由来する包絡特性（filter）の時系列に相当する非負値行列との要素毎の乗算（アダマール積）で有声成分Ｖを表現し、有声成分Ｖと有声成分Ｖ以外の音響成分との加算が音響信号ＳAの周波数特性（スペクトログラムを表現する観測行列）に近似するように所定の更新式の演算を反復することで有声成分Ｖが推定される。

無声分離部５４は、信号供給装置１２から供給される音響信号ＳAのうち音声解析部３２（歌詞認識部４４）が特定した各無声区間ＱUから歌唱音の無声成分Ｕを分離（強調ないし抽出）する。無声成分Ｕの分離には公知の音源分離技術が任意に採用され得るが、第１実施形態の無声分離部５４は、記憶装置２４に記憶された基底行列Ｍを利用した非負値行列因子分解で無声成分Ｕを推定する。具体的には、無声分離部５４は、記憶装置２４に記憶された複数の基底行列Ｍのうち歌詞認識部４４が特定した子音Ｃに対応する基底行列Ｍを探索し、当該基底行列Ｍを教師情報（事前情報）として利用した教師あり非負値行列因子分解（Supervised-NMF）で無声成分Ｕを分離する。無声分離部５４による教師あり非負値行列因子分解には、例えば特開２０１３−３３１９６号公報に開示された技術が好適に採用される。具体的には、子音Ｃの基底行列Ｍと各基底ベクトルｍの加重値の時系列を意味する係数行列との行列積で表現される無声成分Ｕと、無声成分Ｕ以外の音響成分との加算が音響信号ＳAの周波数特性（観測行列）に近似するように所定の更新式の演算を反復することで無声成分Ｕが推定される。以上の説明から理解される通り、第１実施形態では、音響信号ＳAの歌唱音の有声成分Ｖと無声成分Ｕとが相異なる方法で分離される。

合成処理部５６は、有声分離部５２が分離した有声成分Ｖと無声分離部５４が分離した無声成分Ｕとを合成することで音響信号ＳBを生成する。具体的には、合成処理部５６は、有声分離部５２が有声区間ＱV毎に生成した有声成分Ｖと無声分離部５４が無声区間ＱU毎に生成した無声成分Ｕとを時間軸上に配列することで時間領域の音響信号ＳBを生成する。したがって、対象楽曲の歌唱音と伴奏音との混合音の音響信号ＳAから歌唱音を選択的に抽出した音響信号ＳBが生成される。合成処理部５６が生成した音響信号ＳBが放音装置１４に供給されることで音波として放射される。

図３は、演算処理装置２２が実行する動作のフローチャートである。参照音響信号ＳREFおよび音響信号ＳAを時間軸上で区分した単位区間毎に図３の処理が反復的に実行される。図３の処理を開始すると、演算処理装置２２（音声解析部３２）は、参照音響信号ＳREFの単位区間から有声区間ＱVと無声区間ＱUとを特定する音声解析ＰAを実行する。具体的には、演算処理装置２２（区間特定部４２）は、参照音響信号ＳREFの単位区間から有声区間ＱVと無声区間ＱU0とを特定する（ＰA1）。そして、演算処理装置２２（歌詞認識部４４）は、参照音響信号ＳREFの単位区間に対する歌詞認識で無声区間ＱU0の無声区間ＱUと子音Ｃとを特定する（ＰA2）。

音声解析ＰAを実行すると、演算処理装置２２（信号処理部３４）は、音声解析ＰAで特定した有声区間ＱVと無声区間ＱUと子音Ｃを利用して音響信号ＳAの単位区間から音響信号ＳBを生成する信号処理ＰBを実行する。具体的には、演算処理装置２２は、単位区間内の有声区間ＱVから有声成分Ｖを分離する処理（ＰB1／有声分離部５２）と、単位区間内の無声区間ＱUから無声成分Ｕを分離する処理（ＰB2／無声分離部５４）とを実行する。無声成分Ｕの分離には子音Ｃが適用される。そして、演算処理装置２２（合成処理部５６）は、単位区間内の有声成分Ｖと無声成分Ｕとを合成することで音響信号ＳBを生成する（ＰB3）。

以上に説明した通り、第１実施形態では、利用者が対象楽曲を歌唱した歌唱音の参照音響信号ＳREFから有声区間ＱVと無声区間ＱUとが特定され、音響信号ＳAの有声区間ＱVから有声成分Ｖが分離されるとともに音響信号ＳAの無声区間ＱUから無声成分Ｕが分離される。すなわち、参照音響信号ＳREFが補助的な情報として有声成分Ｖおよび無声成分Ｕの音源分離に適用される。したがって、参照音響信号ＳREFを利用せずに音響信号ＳAのみから有声成分Ｖおよび無声成分Ｕを分離する構成と比較して、対象楽曲の音響信号ＳAから高精度に歌唱音（有声成分Ｖおよび無声成分Ｕ）を分離できるという利点がある。

第１実施形態では、参照音響信号ＳREFの無声区間ＱU0のうち歌唱音の子音に対応する無声区間（子音区間）ＱUが歌詞認識で特定され、音響信号ＳAの無声区間ＱUから無声成分Ｕが分離される。したがって、参照音響信号ＳREFの無声区間ＱU0に歌唱音の子音以外の無声音（例えば打楽器の演奏音）が包含される場合でも、歌唱音の子音のみが選択的に無声成分Ｕとして分離される。すなわち、音響信号ＳAの歌唱音を高精度に分離できるという効果は格別に顕著である。

第１実施形態では、記憶装置２４に記憶された複数の基底行列Ｍのうち、参照音響信号ＳREFの無声区間ＱU0に対する歌詞認識で特定された子音Ｃに対応する基底行列Ｍが、無声分離部５４による無声成分Ｕの分離（教師あり非負値行列因子分解）に適用される。したがって、音響信号ＳAのうち歌唱音の子音を高精度に無声成分Ｕとして分離できる（ひいては音響信号ＳAの歌唱音を高精度に分離できる）という利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図４は、第２実施形態における音響処理装置１００の構成図である。図４に例示される通り、第２実施形態の演算処理装置２２は、第１実施形態と同様の要素（音声解析部３２，信号処理部３４）に加えて学習処理部３６として機能する。学習処理部３６は、収音装置１６から供給される参照音響信号ＳREFのうち音声解析部３２（区間特定部４２）が特定した無声区間ＱUを適用した学習処理で基底行列Ｍを順次に生成する。学習処理には公知の機械学習技術が任意に採用される。信号処理部３４の無声分離部５４は、学習処理部３６が順次に生成する基底行列Ｍを教師情報として利用した教師あり非負値行列因子分解で、音響信号ＳAのうち音声解析部３２（歌詞認識部４４）が特定した無声区間ＱUから無声成分Ｕを分離する。

なお、第１実施形態では、利用者による歌唱（参照音響信号ＳREFの生成）と音響信号ＳBの生成とを実時間的に並行して実行した。第２実施形態では、参照音響信号ＳREFを利用した基底行列Ｍの生成後に、各基底行列Ｍを適用した音響信号ＳBの生成を実行する構成（すなわち、利用者による対象楽曲の歌唱後に音響信号ＳAから音響信号ＳBを生成する構成）が好適である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、無声成分Ｕの分離に適用される基底行列Ｍが参照音響信号ＳREFに対する学習処理で生成されるから、基底行列Ｍを事前に用意する必要がないという利点がある。なお、前述の例示では、音響信号ＳAのうち歌詞認識部４４が特定した無声区間ＱUから無声成分Ｕを分離したが、音響信号ＳAのうち区間特定部４２が特定した無声区間ＱU0から無声成分Ｕを分離することも可能である。したがって、第２実施形態では歌詞認識部４４は省略され得る。

＜変形例＞
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）第１実施形態では、対象楽曲の音響信号ＳAのうち歌詞認識部４４が特定した無声区間ＱUから無声成分Ｕを分離したが、音響信号ＳAのうち区間特定部４２が特定した無声区間ＱU0から無声分離部５４が無声成分Ｕを分離することも可能である。すなわち、歌唱音の子音に対応する無声区間ＱUを歌詞認識部４４が特定する処理は省略され得る。以上の説明から理解される通り、前述の各形態の音声解析部３２が参照音響信号ＳREFから特定する無声区間は、参照音響信号ＳREFの音声区間のうち有声区間ＱV以外の無声区間ＱU0と、無声区間ＱU0の一部の区間（無声区間ＱU0のうち歌唱音の子音に対応する子音区間）ＱUとの双方を包含する。

（２）信号処理部３４による音源分離を補助するために参照音響信号ＳREFから抽出される情報は、前述の各形態で例示した情報（有声区間ＱV，無声区間ＱU，子音Ｃ）に限定されない。例えば、参照音響信号ＳREFから抽出される音高（ピッチ）を、有声分離部５２による有声成分Ｖの分離に利用することも可能である。例えば、対象楽曲の音響信号ＳAのうち、参照音響信号ＳREFから抽出される音高に対して所定の範囲内にある音響成分を有声成分Ｖの候補として抽出すれば、参照音響信号ＳREFの音高を利用しない構成と比較して高精度に有声成分Ｖを分離することが可能である。なお、参照音響信号ＳREFの音高の推定には公知の音高推定技術が任意に採用され得る。

（３）利用者の歌唱が下手な場合には、参照音響信号ＳREFと音響信号ＳAとの間で有声区間ＱVや無声区間ＱUが合致しない可能性がある。したがって、参照音響信号ＳREFを調整したうえで有声区間ＱVや無声区間ＱUを特定する構成が好適である。例えば、音声解析部３２（区間特定部４２）は、参照音響信号ＳREFの時間軸上の各時点が対象楽曲内で対応する時点に時点に合致するように参照音響信号ＳREFを時間軸上で調整（アライメント）したうえで有声区間ＱVや無声区間ＱU（ＱU0）を特定する。以上の構成によれば、利用者の歌唱が下手な場合でも高精度に対象楽曲の歌唱音を分離できるという利点がある。

（４）前述の各形態では、有声分離部５２による有声成分Ｖの分離と無声分離部５４による無声成分Ｕの分離とを個別に実行したが、有声成分Ｖおよび無声成分Ｕの双方を音響信号ＳAから一括的に分離する構成も採用され得る。すなわち、有声分離部５２と無声分離部５４とを一体の要素として把握することも可能である。

（５）前述の各形態では、歌唱音と伴奏音との混合音の音響信号ＳAから歌唱音を抽出したが、音響信号ＳAから伴奏音を抽出することも可能である。例えば、前述の各形態で生成された音響信号ＳBを音響信号ＳAから減算することで、対象楽曲の伴奏音を分離（強調または抽出）した音響信号を生成することが可能である。

（６）携帯電話機等の端末装置と通信するサーバ装置で音響処理装置１００を実現することも可能である。例えば、音響処理装置１００は、端末装置から通信網を介して受信した参照音響信号ＳREFを利用して音響信号ＳAから音響信号ＳBを生成して端末装置に送信する。処理対象の音響信号ＳAは、音響処理装置１００に接続された信号供給装置１２から供給された信号、または、音響処理装置１００が端末装置から通信網を介して受信した信号である。

１００……音響処理装置、１２……信号供給装置、１４……放音装置、１６……収音装置、２２……演算処理装置、２４……記憶装置、３２……音声解析部、３４……信号処理部、３６……学習処理部、４２……区間特定部、４４……歌詞認識部、５２……有声分離部、５４……無声分離部、５６……合成処理部。

Claims

利用者が楽曲を歌唱した歌唱音を表す参照音響信号について有声区間と無声区間とを特定する音声解析手段と、
前記楽曲の歌唱音と伴奏音との混合音の音響信号のうち前記音声解析手段が特定した有声区間について歌唱音の有声成分を分離する有声分離手段と、
前記音響信号のうち前記音声解析手段が特定した無声区間について歌唱音の無声成分を分離する無声分離手段と、
前記有声分離手段が分離した有声成分と前記無声分離手段が分離した無声成分とを合成する合成処理手段と
を具備する音響処理装置。
前記音声解析手段は、
前記参照音響信号の有声区間と無声区間とを特定する区間特定手段と、
前記参照音響信号に対する歌詞認識で前記無声区間のうち歌唱音の子音に対応する子音区間を特定する歌詞認識手段とを含み、
前記無声分離手段は、前記音響信号のうち前記歌詞認識手段が特定した子音区間について歌唱音の無声成分を分離する
請求項１の音響処理装置。
前記歌詞認識手段は、前記参照音響信号の子音を前記歌詞認識で特定し、
前記無声分離手段は、相異なる子音の周波数特性を表す複数の基底行列のうち、前記歌詞認識手段が特定した子音の基底行列を教師情報として利用した教師あり非負値行列因子分解で無声成分を分離する
請求項２の音響処理装置。
前記参照音響信号のうち前記区間特定手段が特定した無声区間を利用した学習処理で前記基底行列を生成する学習処理手段
を具備する請求項３の音響処理装置。
前記参照音響信号のうち前記区間特定手段が特定した無声区間を利用した学習処理で前記基底行列を生成する学習処理手段を具備し、
前記無声分離手段は、前記学習処理手段が生成した基底行列を教師情報として利用した教師あり非負値行列因子分解で無声成分を分離する
請求項１の音響処理装置。