JP7439432B2

JP7439432B2 - 音響処理方法、音響処理装置およびプログラム

Info

Publication number: JP7439432B2
Application number: JP2019177965A
Authority: JP
Inventors: 賀文水野; 祐高橋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2024-02-28
Anticipated expiration: 2039-09-27
Also published as: JP2021056318A

Description

本開示は、例えば楽器等の音源からの音を収音した音信号を処理する技術に関する。

例えば複数の楽器の演奏音を収録する場面では、楽器毎に別個の収音機器が設置される場合がある。収音機器により収音される音には、当該収音機器が設置された楽器からの音が優勢に含まれるが、当該楽器以外の楽器から到達する音（いわゆる被り音）も含まれる。特許文献１には、複数の音源の相互間で発生する被り音の伝達特性を推定し、収音機器により収音される音から他の音源からの被り音を除去する構成が開示されている。

特開２０１３－６６０７９号公報

しかし、特許文献１の技術では、各音源の相互間で発生する被り音の伝達特性を推定するための処理負荷が大きいという課題がある。また、音源毎の音自体の分離までは必要ではなく、音源毎の音のレベルを取得できれば充分であるケースが想定される。以上の事情を考慮して、本開示のひとつの態様は、音源毎の音のレベルを取得するための処理負荷を軽減することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、第１音源からの音を収音した第１音信号の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得し、前記第１観測包絡線における前記第２音源からの被り音の混合比と、前記第２観測包絡線における前記第１音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第１観測包絡線における前記第１音源からの音の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の概形を表す第２出力包絡線と、を含む複数の出力包絡線を生成する。

本開示の他の態様に係る音響処理方法は、第１音源からの音を収音した第１音信号の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得し、前記第１観測包絡線における前記第２音源からの被り音の混合比、および、前記第２観測包絡線における前記第１音源からの被り音の混合比、を含む混合行列と、前記第１観測包絡線における前記第１音源からの音の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の概形を表す第２出力包絡線と、を含む複数の出力包絡線と、を前記複数の観測包絡線から生成する。

本開示のひとつの態様に係る音響処理装置は、第１音源からの音を収音した第１音信号の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部と、前記第１観測包絡線における前記第２音源からの被り音の混合比と、前記第２観測包絡線における前記第１音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第１観測包絡線における前記第１音源からの音の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の概形を表す強調した第２出力包絡線と、を含む複数の出力包絡線を生成する信号処理部とを具備する。

本開示の他の態様に係る音響処理装置は、第１音源からの音を収音した第１音信号の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部と、前記第１観測包絡線における前記第２音源からの被り音の混合比、および、前記第２観測包絡線における前記第１音源からの被り音の混合比、を含む混合行列と、前記第１観測包絡線における前記第１音源からの音の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の概形を表す第２出力包絡線と、を含む複数の出力包絡線と、を前記複数の観測包絡線から生成する信号処理部とを具備する。

本開示のひとつの態様に係るプログラムは、第１音源からの音を収音した第１音信号の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部、および、前記第１観測包絡線における前記第２音源からの被り音の混合比と、前記第２観測包絡線における前記第１音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第１観測包絡線における前記第１音源からの音の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の概形を表す第２出力包絡線と、を含む複数の出力包絡線を生成する信号処理部としてコンピュータを機能させる。

本開示の他の態様に係るプログラムは、第１音源からの音を収音した第１音信号の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部、および、前記第１観測包絡線における前記第２音源からの被り音の混合比、および、前記第２観測包絡線における前記第１音源からの被り音の混合比、を含む混合行列と、前記第１観測包絡線における前記第１音源からの音の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の概形を表す第２出力包絡線と、を含む複数の出力包絡線と、を前記複数の観測包絡線から生成する信号処理部としてコンピュータを機能させるプログラム。

音響処理システムの構成を例示するブロック図である。音響処理装置の構成を例示するブロック図である。制御装置の機能的な構成を例示するブロック図である。観測包絡線の説明図である。推定処理部による推定処理の説明図である。推定処理の具体的な手順を例示するフローチャートである。学習処理の具体的な手順を例示するフローチャートである。解析画像の模式図である。解析画像の模式図である。解析画像の模式図である。解析画像の模式図である。音響処理部が実行するゲート処理の説明図である。音響処理部が実行するコンプレッサ処理の説明図である。音響処理装置の全体的な動作の手順を例示するフローチャートである。第２実施形態における推定処理の説明図である。第３実施形態における推定処理の説明図である。変形例における解析画像の模式図である。

Ａ：第１実施形態
図１は、本開示の第１実施形態に係る音響処理システム１００の構成を例示するブロック図である。音響処理システム１００は、Ｎ個（Ｎは２以上の自然数）の音源Ｓ[1]～Ｓ[N]から発生する音響を収音および処理する音楽制作用の録音システムである。各音源Ｓ[n]（ｎ＝１～Ｎ）は、例えば演奏により発音する楽器である。例えばドラムセットを構成する複数の打楽器（例えばシンバル，キックドラム，スネアドラム，ハイハットおよびフロアタム等）の各々が音源Ｓ[n]に相当する。Ｎ個の音源Ｓ[1]～Ｓ[N]は、ひとつの音響空間内に相互に近接して設置される。なお、２個以上の楽器の組合せを音源Ｓ[n]としてもよい。

音響処理システム１００は、Ｎ個の収音装置Ｄ[1]～Ｄ[N]と音響処理装置１０と再生装置２０とを具備する。各収音装置Ｄ[n]は、有線または無線により音響処理装置１０に接続される。再生装置２０も同様に、有線または無線により音響処理装置１０に接続される。なお、音響処理装置１０と再生装置２０とを一体に構成してもよい。

Ｎ個の収音装置Ｄ[1]～Ｄ[N]の各々は、Ｎ個の音源Ｓ[1]～Ｓ[N]の何れかに対応する。すなわち、Ｎ個の収音装置Ｄ[1]～Ｄ[N]とＮ個の音源Ｓ[1]～Ｓ[N]とは１対１に対応する。各収音装置Ｄ[n]は、周囲の音を収音するマイクロホンである。例えば、収音装置Ｄ[n]は、音源Ｓ[n]に指向する指向性のマイクロホンである。収音装置Ｄ[n]は、周囲の音の波形を表す音信号Ａ[n]を生成する。Ｎチャネルの音信号Ａ[1]～Ａ[N]が音響処理装置１０に並列に供給される。

各収音装置Ｄ[n]は、音源Ｓ[n]から発生した音（以下「目的音」という）の収音を目的として音源Ｓ[n]の近傍に設置される。したがって、収音装置Ｄ[n]には音源Ｓ[n]からの目的音が優勢に到達する。ただし、各音源Ｓ[n]は相互に近接して設置されるから、各収音装置Ｄ[n]には、当該収音装置Ｄ[n]に対応する音源Ｓ[n]以外の音源Ｓ[n']（ｎ'＝１～Ｎ，ｎ'≠ｎ）から発生した音（以下「被り音」という）も到達する。すなわち、収音装置Ｄ[n]が生成する音信号Ａ[n]は、音源Ｓ[n]から到達する目的音の成分を優勢に含むほか、当該音源Ｓ[n]の周囲に位置する他の音源Ｓ[n']から到達する被り音（spill，bleed，leakage）の成分も含む。なお、各音信号Ａ[n]をアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。

音響処理装置１０は、Ｎチャネルの音信号Ａ[1]～Ａ[N]を処理するためのコンピュータシステムである。具体的には、音響処理装置１０は、Ｎチャネルの音信号Ａ[1]～Ａ[N]に対する音響処理により複数のチャネルの音信号Ｂを生成する。再生装置２０は、音信号Ｂが表す音を再生する。具体的には、再生装置２０は、音信号Ｂをデジタルからアナログに変換するＤ/Ａ変換器と、音信号Ｂを増幅する増幅器と、音信号Ｂに応じた音響を放音する放音装置とを具備する。

図２は、音響処理装置１０の構成を例示するブロック図である。音響処理装置１０は、制御装置１１と記憶装置１２と表示装置１３と操作装置１４と通信装置１５とを具備するコンピュータシステムで実現される。なお、音響処理装置１０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置（すなわちシステム）でも実現される。

制御装置１１は、音響処理装置１０の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサで構成される。通信装置１５は、Ｎ個の収音装置Ｄ[1]～Ｄ[N]および再生装置２０との間で通信する。例えば、通信装置１５は、各収音装置Ｄ[n]が接続される入力ポートと、再生装置２０が接続される出力ポートとを具備する。

表示装置１３は、制御装置１１から指示された画像を表示する。表示装置１３は、例えば液晶表示パネルまたは有機ＥＬ表示パネルである。操作装置１４は、利用者による操作を受付ける。操作装置１４は、例えば表示装置１３の表示面に対する接触を検知するタッチパネル、または、利用者が操作する操作子である。

記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用するデータとを記憶する単数または複数のメモリである。具体的には、記憶装置１２は、推定処理プログラムＰ1と学習処理プログラムＰ2と表示制御プログラムＰ3と音響処理プログラムＰ4とを記憶する。記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、音響処理装置１０に着脱可能な可搬型の記録媒体、または、音響処理装置１０が通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。

図３は、音響処理装置１０の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで複数の機能（推定処理部３１，学習処理部３２，表示制御部３３，音響処理部３４）を実現する。制御装置１１が実現する各機能について以下に詳述する。

[１]推定処理部３１
制御装置１１は、推定処理プログラムＰ1を実行することで推定処理部３１として機能する。推定処理部３１は、Ｎチャネルの音信号Ａ[1]～Ａ[N]を解析する。具体的には、推定処理部３１は、包絡線取得部３１１と信号処理部３１２とを具備する。

包絡線取得部３１１は、Ｎチャネルの音信号Ａ[1]～Ａ[N]の各々について観測包絡線Ｅx[n]（Ｅx[1]～Ｅx[N]）を生成する。各音信号Ａ[n]の観測包絡線Ｅx[n]は、時間軸上における当該音信号Ａ[n]の波形の概形（エンベロープ）を表す時間領域の信号である。

図４は、観測包絡線Ｅx[n]の説明図である。時間軸上の所定長の期間（以下「解析期間」という）Ｔa毎にＮチャネルの観測包絡線Ｅx[1]～Ｅx[N]が生成される。各解析期間Ｔaは、時間軸上のＭ個（Ｍは２以上の自然数）の単位期間Ｔu[1]～Ｔu[M]で構成される。各単位期間Ｔu[m]（ｍ＝１～Ｍ）は、音信号Ａ[n]を構成する信号値（サンプル）のＵ個分に相当する時間長の期間である。包絡線取得部３１１は、単位期間Ｔu[m]毎に観測包絡線Ｅx[n]のレベルｘ[n,m]を音信号Ａ[n]から算定する。１個の解析期間Ｔaにおける第ｎチャネルの観測包絡線Ｅx[n]は、当該解析期間Ｔa内のＭ個のレベルｘ[n,1]～ｘ[n,M]の時系列で表現される。観測包絡線Ｅx[n]における任意の１個のレベルｘ[n,m]は、例えば以下の数式(1)で表現される。

数式(1)の記号ａ[n,u]は、単位期間Ｔu[m]内における第ｎチャネルの音信号Ａ[n]を構成するＵ個の信号値ａ[n,1]～ａ[n,U]のうち第ｕ番目（ｕ＝１～Ｕ）の１個の信号値を意味する。数式(1)から理解される通り、観測包絡線Ｅx[n]の各レベルｘ[n,m]は、音信号Ａ[n]の２乗平均平方根（ＲＭＳ：Root Mean Square）に相当する非負の実効値である。以上の説明から理解される通り、包絡線取得部３１１は、Ｎチャネルの各々について、単位期間Ｔu[m]毎にレベルｘ[n,m]を生成し、当該レベルｘ[n,m]のＭ個分の時系列（レベルｘ[n,1]～ｘ[n,M]）を観測包絡線Ｅx[n]とする。すなわち、各チャネルの観測包絡線Ｅx[n]は、Ｍ個のレベルｘ[n,1]～ｘ[n,M]を要素とするＭ次元ベクトルで表現される。

図５は、推定処理部３１の動作の説明図である。以上に説明した観測包絡線Ｅx[n]が、Ｎチャネルの音信号Ａ[1]～Ａ[N]の各々について生成される。したがって、Ｎ個の観測包絡線Ｅx[1]～Ｅx[N]を縦方向に配列したＮ行Ｍ列の非負行列（以下「観測行列」という）Ｘが解析期間Ｔa毎に生成される。観測行列Ｘにおける第ｎ行第ｍ列の要素は、第ｎチャネルの観測包絡線Ｅx[n]における第ｍ番目のレベルｘ[n,m]である。なお、以下の各図面においては、音信号Ａ[n]のチャネルの総数Ｎが３である場合が例示されている。

図３の信号処理部３１２は、Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]からＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]を生成する。図５に例示される通り、観測包絡線Ｅx[n]に対応する出力包絡線Ｅy[n]は、当該観測包絡線Ｅx[n]における音源Ｓ[n]からの目的音を強調（理想的には抽出）した時間領域信号である。すなわち、出力包絡線Ｅy[n]においては、音源Ｓ[n]以外の各音源Ｓ[n']からの被り音のレベルが低減（理想的には除去）される。以上の説明から理解される通り、出力包絡線Ｅy[n]は、音源Ｓ[n]から発生した目的音のレベルの時間的な変化を表す。したがって、第１実施形態によれば、各音源Ｓ[n]からの目的音のレベルの時間的な変化を利用者が正確に把握できるという利点がある。

信号処理部３１２は、各解析期間ＴaにおけるＮチャネルの観測包絡線Ｅx[1]～Ｅx[N]から当該解析期間ＴaにおけるＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]を生成する。すなわち、Ｎチャネルの出力包絡線Ｅy[1]～Ｅy[N]は解析期間Ｔa毎に生成される。１個の解析期間Ｔaにおける第ｎチャネルの出力包絡線Ｅy[n]は、当該解析期間Ｔa内の相異なる単位期間Ｔu[m]に対応するＭ個のレベルｙ[n,1]～ｙ[n,M]の時系列で表現される。すなわち、各出力包絡線Ｅy[n]は、Ｍ個のレベルｙ[n,1]～ｙ[n,M]を要素とするＭ次元ベクトルで表現される。信号処理部３１２が生成するＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]は、Ｎ行Ｍ列の非負行列（以下「係数行列」という）Ｙを構成する。係数行列Ｙ（アクティベーション行列）における第ｎ行第ｍ列の要素は、出力包絡線Ｅy[n]における第ｍ番目のレベルｙ[n,m]である。

１個の解析期間Ｔaにおいて、信号処理部３１２は、既知の混合行列Ｑ（基底行列）を利用した非負値行列因子分解（ＮＭＦ：Non-negative Matrix Factorization）により、観測行列Ｘから係数行列Ｙを生成する。混合行列Ｑは、複数の混合比ｑ[n1,n2]（ｎ1＝１～Ｎ，ｎ2＝１～Ｎ）を配列したＮ行Ｎ列の正方行列である。混合行列Ｑは、機械学習により事前に生成されたうえで記憶装置１２に記憶される。混合行列Ｑの対角要素である各混合比ｑ[n,n]（ｎ1＝ｎ2＝ｎ）は、基準値（具体的には１）に設定される。

各観測包絡線Ｅx[n]は以下の数式(2)で表現される。

Ｅx[n]≒ｑ[n,1]Ｅy[1]＋ｑ[n,2]Ｅy[2]＋…＋ｑ[n,N]Ｅy[N] (2)

すなわち、観測包絡線Ｅx[n]に対応するＮ個の混合比ｑ[n,1]～ｑ[n,N]は、当該観測包絡線Ｅx[n]をＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]の加重和で近似的に表現した場合における各出力包絡線Ｅy[n]の加重値に相当する。

すなわち、混合行列Ｑの各混合比ｑ[n1,n2]は、観測包絡線Ｅx[n1]において音源Ｓ[n2]からの被り音が混合された度合を表す指標である。混合比ｑ[n1,n2]は、収音装置Ｄ[n1]に対して音源Ｓ[n2]から到達する被り音の到達率（ないし減衰率）に関する指標とも換言される。具体的には、混合比ｑ[n1,n2]は、収音装置Ｄ[n1]が音源Ｓ[n1]から収音した目的音の音量を１（基準値）とした場合に、当該収音装置Ｄ[n1]が他の音源Ｓ[n2]から収音した被り音の音量の比率である。したがって、混合比ｑ[n1,n2]と出力包絡線Ｅy[n2]のレベルｙ[n2,m]との積ｑ[n1,n2]ｙ[n2,m]は、音源Ｓ[n2]から収音装置Ｄ[n1]に到達する被り音の音量に相当する。

例えば、図５の混合行列Ｑにおける混合比ｑ[1,2]は０.１であるから、観測包絡線Ｅx[1]においては、音源Ｓ[1]からの目的音に対して音源Ｓ[2]からの被り音が０.１の割合で混合されていることを意味する。また、混合比ｑ[1,3]は０.２であるから、観測包絡線Ｅx[1]においては、音源Ｓ[1]からの目的音に対して音源Ｓ[3]からの被り音が０.２の割合で混合されていることを意味する。同様に、例えば混合比[3,1]は０.２であるから、観測包絡線Ｅx[3]においては、音源Ｓ[3]からの目的音に対して音源Ｓ[1]からの被り音が０.２の割合で混合されていることを意味する。すなわち、混合比ｑ[n1,n2]が大きいほど、音源Ｓ[n2]から収音装置Ｄ[n1]に到達する被り音が大きいことを意味する。

第１実施形態の信号処理部３１２は、混合行列Ｑと係数行列Ｙとの積ＱＹが観測行列Ｘに近付くように係数行列Ｙを反復的に更新する。例えば、信号処理部３１２は、観測行列Ｘと積ＱＹとの距離を表す評価関数Ｆ(X|QY)が最小となるように係数行列Ｙを算定する。評価関数Ｆ(X|QY)は、例えばユークリッド距離，ＫＬ（Kullback-Leibler）ダイバージェンス，板倉齋藤距離，またはβダイバージェンス等の任意の距離規範である。

Ｎ個の音源Ｓ[1]～Ｓ[N]のうち任意の２個の音源Ｓ[k1]および音源Ｓ[k2]に着目する（ｋ1＝１～Ｎ，ｋ2＝１～Ｎ，ｋ1≠ｋ2）。Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]は、観測包絡線Ｅx[k1]と観測包絡線Ｅx[k2]とを含む。観測包絡線Ｅx[k1]は、音源Ｓ[k1]からの目的音を収音した音信号Ａ[k1]の概形である。観測包絡線Ｅx[k1]は「第１観測包絡線」の一例であり、音源Ｓ[k1]は「第１音源」の一例であり、音信号Ａ[k1]は「第１音信号」の一例である。他方、観測包絡線Ｅx[k2]は、音源Ｓ[k2]からの目的音を収音した音信号Ａ[k2]の概形である。観測包絡線Ｅx[k2]は「第２観測包絡線」の一例であり、音源Ｓ[k2]は「第２音源」の一例であり、音信号Ａ[k2]は「第２音信号」の一例である。

混合行列Ｑは、混合比ｑ[k1,k2]と混合比ｑ[k2,k1]とを含む。混合比ｑ[k1,k2]は、観測包絡線Ｅx[k1]における音源Ｓ[k2]からの被り音の混合比であり、混合比ｑ[k2,k1]は、観測包絡線Ｅx[k2]における音源Ｓ[k1]からの被り音の混合比である。Ｎチャネルの出力包絡線Ｅy[1]～Ｅy[N]は、出力包絡線Ｅy[k1]と出力包絡線Ｅy[k2]とを含む。出力包絡線Ｅy[k1]は、「第１出力包絡線」の一例であり、観測包絡線Ｅx[k1]における音源Ｓ[k1]からの目的音の概形を表す信号を意味する。他方、出力包絡線Ｅy[k2]は、「第２出力包絡線」の一例であり、観測包絡線Ｅx[k2]における音源Ｓ[k2]からの目的音の概形を表す信号を意味する。

図６は、制御装置１１が係数行列Ｙを生成する処理（以下「推定処理」という）Ｓaの具体的な手順を例示するフローチャートである。推定処理Ｓaは、操作装置１４に対する利用者からの指示を契機として開始され、Ｎ個の音源Ｓ[1]～Ｓ[N]による発音に並行して実行される。例えば、音響処理システム１００の利用者は、音源Ｓ[n]としての楽器を演奏する。複数の利用者による演奏に並行して推定処理Ｓaが実行される。推定処理Ｓaは、解析期間Ｔa毎に実行される。

推定処理Ｓaを開始すると、包絡線取得部３１１は、Ｎチャネルの音信号Ａ[1]～Ａ[N]からＮチャネルの観測包絡線Ｅx[1]～Ｅx[N]（すなわち観測行列Ｘ）を生成する（Ｓa1）。具体的には、包絡線取得部３１１は、前掲の数式(1)の演算により各観測包絡線Ｅx[n]におけるレベルｘ[n,m]を算定する。

信号処理部３１２は、係数行列Ｙを初期化する（Ｓa2）。例えば、信号処理部３１２は、直前の解析期間Ｔaにおける観測行列Ｘを現在の解析期間Ｔaにおける係数行列Ｙの初期値として設定する。なお、係数行列Ｙの初期化の方法は以上の例示に限定されない。例えば、信号処理部３１２は、現在の解析期間Ｔaについて生成した観測行列Ｘを、現在の解析期間Ｔaにおける係数行列Ｙの初期値として設定してもよい。また、信号処理部３１２は、直前の解析期間Ｔaにおける観測行列Ｘまたは係数行列Ｙの各要素に乱数を加算した行列を、現在の解析期間Ｔaにおける係数行列Ｙの初期値として設定してもよい。

信号処理部３１２は、既知の混合行列Ｑと現在の係数行列Ｙとの積ＱＹと、現在の解析期間Ｔaの観測行列Ｘとの距離を表す評価関数Ｆ(X|QY)を算定する（Ｓa3）。信号処理部３１２は、所定の終了条件が成立したか否かを判定する（Ｓa4）。終了条件は、例えば評価関数Ｆ(X|QY)が所定の閾値を下回ること、または、係数行列Ｙを更新した回数が所定の閾値に到達したことである。

終了条件が成立していない場合（Ｓa4：NO）、信号処理部３１２は、評価関数Ｆ(X|QY)が減少するように係数行列Ｙを更新する（Ｓa5）。終了条件が成立するまで（Ｓa4：YES）、評価関数Ｆ(X|QY)の算定（Ｓa3）と係数行列Ｙの更新（Ｓa5）とが反復される。係数行列Ｙは、終了条件が成立した段階（Ｓa4：YES）の数値で確定される。

Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]の生成（Ｓa1）と複数の出力包絡線Ｅy[1]～Ｅy[N]の生成（Ｓa2～Ｓa5）とは、Ｎ個の音源Ｓ[1]～Ｓ[N]からの収音に並行して解析期間Ｔa毎に実行される。

以上の説明から理解される通り、第１実施形態においては、各音信号Ａ[n]の概形を表す観測包絡線Ｅx[n]に対する処理で出力包絡線Ｅy[n]が生成されるから、各音信号Ａ[n]を解析する構成と比較して、音源Ｓ[n]毎の目的音（出力包絡線Ｅy[n]）のレベルを推定する推定処理Ｓaの負荷を軽減することが可能である。

［２］学習処理部３２
図３に例示される通り、制御装置１１は、学習処理プログラムＰ2を実行することで学習処理部３２として機能する。学習処理部３２は、推定処理Ｓaに使用される混合行列Ｑを生成する。混合行列Ｑは、推定処理Ｓaの実行前の任意の時点において生成（ないし訓練）される。具体的には、初期的な混合行列Ｑが新規に生成されるほか、生成済の混合行列Ｑが訓練（再訓練）される。学習処理部３２は、包絡線取得部３２１と信号処理部３２２とを具備する。

包絡線取得部３２１は、訓練用に準備されたＮチャネルの音信号Ａ[1]～Ａ[N]の各々について観測包絡線Ｅx[n]（Ｅx[1]～Ｅx[N]）を生成する。訓練用の音信号Ａ[n]の時間長は、Ｍ個の単位期間Ｔu[1]～Ｔu[M]の時間長（すなわち解析期間Ｔaの時間長）に相当する。すなわち、Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]を含むＮ行Ｍ列の観測行列Ｘが生成される。包絡線取得部３２１による動作は包絡線取得部３１１による動作と同様である。

信号処理部３２２は、解析期間ＴaにおけるＮチャネルの観測包絡線Ｅx[1]～Ｅx[N]から混合行列ＱとＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]とを生成する。すなわち、観測行列Ｘから混合行列Ｑと係数行列Ｙとが生成される。Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]を利用して混合行列Ｑを更新する処理を１エポックとして、所定の終了条件が成立するまで当該エポックを複数回にわたり反復することで、推定処理Ｓaに使用される混合行列Ｑが確定される。終了条件は、前述の推定処理Ｓaの終了条件とは相違してよい。信号処理部３２２が生成した混合行列Ｑは記憶装置１２に記憶される。

信号処理部３２２は、非負値行列因子分解により観測行列Ｘから混合行列Ｑと係数行列Ｙとを生成する。すなわち、信号処理部３２２は、エポック毎に、混合行列Ｑと係数行列Ｙとの積ＱＹが観測行列Ｘに近付くように係数行列Ｙを更新する。信号処理部３２２は、係数行列Ｙの更新を複数のエポックにわたり反復し、観測行列Ｘと積ＱＹとの距離を表す評価関数Ｆ(X|QY)が徐々に減少するように係数行列Ｙを算定する。

図７は、制御装置１１が混合行列Ｑを生成（すなわち訓練）する処理（以下「学習処理」という）Ｓbの具体的な手順を例示するフローチャートである。学習処理Ｓbは、操作装置１４に対する利用者からの指示を契機として開始される。例えば、推定処理Ｓaが実行される正式な演奏の開始前（例えばリハーサル）に音源Ｓ[n]としての楽器を演奏者が演奏する。音響処理システム１００の利用者は、演奏音を収音することで訓練用のＮチャネルの音信号Ａ[1]～Ａ[N]を取得する。

なお、音源Ｓ[n]の位置、収音装置Ｄ[n]の位置、または音源Ｓ[n]と収音装置Ｄ[n]の相対的な位置関係等の収音条件が変化すると、各収音装置Ｄ[n]に他の音源Ｓ[n']から到達する被り音の程度も変化する。したがって、収音条件が変更されるたびに、利用者からの指示に応じて学習処理Ｓbが実行されることで混合行列Ｑが更新される。

なお、各楽器の演奏に並行した推定処理Ｓaの実行中に収音条件の変化または推定結果の誤差に気付いた場合、利用者は、音響処理システム１００に対して混合行列Ｑの再訓練を指示する。音響処理システム１００は、利用者からの指示に応じて、現時点の混合行列Ｑを利用した推定処理Ｓaを実行しながら、現在の演奏を収録することで訓練用の音信号Ａ[n]を取得する。学習処理部３２は、訓練用の音信号Ａ[n]を利用した学習処理Ｓbにより混合行列Ｑを再訓練する。推定処理部３１は、再訓練後の混合行列Ｑを、以後の演奏に対する推定処理Ｓaに利用する。すなわち、演奏の途中で混合行列Ｑが更新される。

学習処理Ｓbを開始すると、包絡線取得部３２１は、訓練用のＮチャネルの音信号Ａ[1]～Ａ[N]からＮチャネルの観測包絡線Ｅx[1]～Ｅx[N]を生成する（Ｓb1）。具体的には、包絡線取得部３２１は、前掲の数式(1)の演算により各観測包絡線Ｅx[n]におけるレベルｘ[n,m]を算定する。

信号処理部３２２は、混合行列Ｑおよび係数行列Ｙを初期化する（Ｓb2）。例えば、信号処理部３２２は、対角要素（ｑ[n,n]）を１に設定し、対角要素以外の各要素を乱数に設定する。なお、混合行列Ｑの初期化の方法は以上の例示に限定されない。例えば、過去の学習処理Ｓbで生成された混合行列Ｑを、今回の学習処理Ｓbにおける初期的な混合行列Ｑとして再訓練してもよい。また、信号処理部３２２は、例えば観測行列Ｘを係数行列Ｙの初期値として設定する。なお、係数行列Ｙの初期化の方法は以上の例示に限定されない。例えば、過去の学習処理Ｓbにおいて今回と同じ音信号Ａ[n]が利用される場合、信号処理部３２２は、その学習処理Ｓbにより生成した係数行列Ｙを、今回の学習処理Ｓbにおける係数行列Ｙの初期値としてもよい。また、信号処理部３２２は、以上に例示した観測行列Ｘまたは係数行列Ｙの各要素に乱数を加算した行列を、現在の解析期間Ｔaにおける係数行列Ｙの初期値として設定してもよい。

信号処理部３２２は、混合行列Ｑと係数行列Ｙとの積ＱＹと、現在の解析期間Ｔaの観測行列Ｘとの距離を表す評価関数Ｆ(X|QY)を算定する（Ｓb3）。信号処理部３２２は、所定の終了条件が成立したか否かを判定する（Ｓb4）。学習処理Ｓbの終了条件は、例えば、評価関数Ｆ(X|QY)が所定の閾値を下回ること、または、係数行列Ｙを更新した回数が所定の閾値に到達したことである。

終了条件が成立していない場合（Ｓb4：NO）、信号処理部３２２は、評価関数Ｆ(X|QY)が減少するように混合行列Ｑおよび係数行列Ｙを更新する（Ｓb5）。混合行列Ｑおよび係数行列Ｙの更新（Ｓb5）と評価関数Ｆ(X|QY)の算定（Ｓb3）とを１エポックとして、終了条件が成立するまで（Ｓb4：YES）、当該エポックが反復される。混合行列Ｑは、終了条件が成立した段階（Ｓb4：YES）の数値で確定される。

以上の説明から理解される通り、第１実施形態においては、各観測包絡線Ｅx[n]における他の音源Ｓ[n']からの被り音の混合比ｑ[n,n']を含む混合行列Ｑが、訓練用のＮチャネルの観測包絡線Ｅx[1]～Ｅx[N]から事前に生成される。混合行列Ｑは、各音源Ｓ[n]に対応する音信号Ａ[n]に他の音源Ｓ[n']からの被り音が含まれる度合（音被りの度合）を表す。ここでは、音信号Ａ[n]の概形を表す観測包絡線Ｅx[n]が処理されるから、音信号Ａ[n]を処理する構成と比較して、混合行列Ｑを生成する学習処理Ｓbの負荷を軽減することが可能である。

なお、推定処理Ｓaと学習処理Ｓbとの相違点は、推定処理Ｓaでは混合行列Ｑが固定されるのに対して学習処理Ｓbでは混合行列Ｑが係数行列Ｙとともに更新される点である。すなわち、混合行列Ｑの更新の有無以外の点については推定処理Ｓaと学習処理Ｓbとは共通する。したがって、学習処理部３２の機能を推定処理部３１として利用してもよい。すなわち、学習処理部３２による学習処理Ｓbにおいて混合行列Ｑを固定し、かつ、単位期間Ｔu[m]のＭ個分にわたる観測包絡線Ｅx[n]を纏めて処理することで推定処理Ｓaが実現される。前述の例示では、推定処理部３１と学習処理部３２とを別個の要素として説明したが、推定処理部３１と学習処理部３２とを１個の要素として音響処理装置１０に搭載してもよい。

［３］表示制御部３３
図３に例示される通り、制御装置１１は、表示制御プログラムＰ3を実行することで表示制御部３３として機能する。表示制御部３３は、推定処理Ｓaまたは学習処理Ｓbによる処理の結果を表す画像（以下「解析画像」という）Ｚを表示装置１３に表示させる。具体的には、表示制御部３３は、複数の解析画像Ｚ（Ｚa～Ｚd）の何れかを、例えば操作装置１４に対する利用者からの指示に応じて表示装置１３に表示させる。表示装置１３による解析画像Ｚの表示は、操作装置１４に対する利用者からの指示を契機として開始され、Ｎ個の音源Ｓ[1]～Ｓ[N]による発音に並行して実行される。すなわち、音響処理システム１００の利用者は、Ｎ個の音源Ｓ[1]～Ｓ[N]による発音（例えば楽器の演奏）に並行して実時間的に解析画像Ｚを視認することが可能である。なお、解析画像Ｚにおける各数値は、例えばデシベル値で表示される。

［３Ａ］解析画像Ｚa
図８は、解析画像Ｚaの模式図である。解析画像Ｚaは、相異なるチャネル（CH）に対応するＮ個の単位画像Ｇa[1]～Ｇa[N]を含む。各単位画像Ｇa[n]は、音量を表す画像である。具体的には、各単位画像Ｇa[n]は、最小値Ｌminを表す下端と最大値Ｌmaxを表す上端とにわたる帯状の画像である。最小値Ｌminは無音（－∞ｄＢ）を意味する。なお、解析画像Ｚaは「第４画像」の一例である。

任意の１個の音源Ｓ[n]に対応する単位画像Ｇa[n]は、時間軸上の１個の時点における観測包絡線Ｅx[n]のレベルｘ[n,m]と出力包絡線Ｅy[n]のレベルｙ[n,m]とを表す画像である。具体的には、各単位画像Ｇa[n]は、範囲Ｒaと範囲Ｒbとを含む。範囲Ｒaと範囲Ｒbとは相異なる態様で表示される。なお、本明細書において画像の「態様」とは、観察者が視覚的に弁別可能な画像の性状を意味する。例えば、色の３属性である色相（色調）、彩度および明度（階調）のほか、サイズおよび画像内容（例えば模様または形状）も、「態様」の概念に包含される。

単位画像Ｇa[n]における範囲Ｒaの上端は、出力包絡線Ｅy[n,m]のレベルｙ[n,m]を表す。他方、範囲Ｒbの上端は、観測包絡線Ｅx[n]のレベルｘ[n,m]を表す。したがって、範囲Ｒaは、収音装置Ｄ[n]が音源Ｓ[n]から収音した目的音のレベルを意味し、範囲Ｒbは、収音装置Ｄ[n]が他の(N-1)個の音源Ｓ[n']から収音した被り音によるレベルの増加比を意味する。収音装置Ｄ[n]に対する目的音および被り音のレベルは時間的に変動するから、各単位画像Ｇa[n]は、時間の経過（具体的には演奏の進行）とともに刻々と変化する。

以上の説明から理解される通り、利用者は、解析画像Ｚaを視認することで、収音装置Ｄ[n]に到達する目的音に対する被り音の程度を、収音装置Ｄ[n]毎（チャネル毎）に視覚的に比較することが可能である。例えば図８に例示された解析画像Ｚaからは、収音装置Ｄ[1]には目的音と同等のレベルの被り音が到達し、収音装置Ｄ[2]には目的音よりも充分に小さいレベルの被り音が到達していることを把握できる。そして、収音装置Ｄ[n]に対する被り音の程度が大きい場合、利用者は、当該収音装置Ｄ[n]の位置または方向を調整できる。収音装置Ｄ[n]の調整後には前述の学習処理Ｓbが実行される。

［３Ｂ］解析画像Ｚb
図９は、解析画像Ｚbの模式図である。解析画像Ｚbは、相異なるチャネル（CH）に対応するＮ個の単位画像Ｇb［1］～Ｇb［N］を含む。各チャネルは音源Ｓ[n]に対応するから、Ｎ個の単位画像Ｇb[1]～Ｇb[N]は、相異なる音源Ｓ[n]に対応する画像とも換言される。各単位画像Ｇb［n］は、単位画像Ｇa［n］と同様に、最小値Ｌminを表す下端と最大値Ｌmaxを表す上端とにわたる帯状の画像である。なお、解析画像Ｚbは「第１画像」の一例である。

利用者は、操作装置１４を適宜に操作することでＮ個の音源Ｓ[1]～Ｓ[N]の何れかを選択できる。Ｎ個の音源Ｓ[1]～Ｓ[N]のうち利用者が選択した１個の音源Ｓ[n]を以下では第１音源Ｓ[k1]と表記し、第１音源Ｓ[k1]以外の(N-1)個の音源Ｓ[n]を以下では第２音源Ｓ[k2]と表記する。図９においては、音源Ｓ[1]が第１音源Ｓ[k1]として選択され、音源Ｓ[2]および音源Ｓ[3]の各々が第２音源Ｓ[k2]である場合が例示されている。Ｎ個の単位画像Ｇb[1]～Ｇb[N]のうち第１音源Ｓ[k1]に対応する単位画像Ｇb[k1]の態様は、解析画像Ｚaにおける単位画像Ｇa[n]と同様である。すなわち、単位画像Ｇb[k1]は、観測包絡線Ｅx[k1]のレベルｘ[k1,m]と出力包絡線Ｅy[k1]のレベルｙ[k1,m]とを表す。

Ｎ個の単位画像Ｇb[1]～Ｇb[N]のうち各第２音源Ｓ[k2]に対応する単位画像Ｇb[k2]は、第１音源Ｓ[k1]の観測包絡線Ｅx[k1]における当該第２音源Ｓ[k2]からの被り音のレベル（以下「被り量」という）Ｌb[k2]を表す。被り量Ｌb[k2]は、第２音源Ｓ[k2]から収音装置Ｄ[k1]に到達する被り音のレベルを意味する。具体的には、単位画像Ｇb[k2]には範囲Ｒbが表示される。単位画像Ｇb[k2]における範囲Ｒbの上端が、被り量Ｌb[k2]を意味する。表示制御部３３は、混合行列Ｑにおける混合比ｑ[k1,k2]と出力包絡線Ｅy[k2]のレベルｙ[k2,m]とを乗算することで被り量Ｌb[k2]（Ｌb[k2]＝ｑ[k1,k2]ｙ[k2,m]）を算定する。

例えば、図９における被り量Ｌb[2]は、収音装置Ｄ[1]に対する音源Ｓ[2]からの被り音のレベルを意味し、混合行列Ｑにおける混合比ｑ[1,2]と出力包絡線Ｅy[2]のレベルｙ[2,m]とを乗算することで算定される（Ｌb[2]＝ｑ[1,2]ｙ[2,m]）。また、図９における被り量Ｌb[3]は、収音装置Ｄ[1]に対する音源Ｓ[3]からの被り音のレベルを意味し、混合行列Ｑにおける混合比ｑ[1,3]と出力包絡線Ｅy[3]のレベルｙ[3,m]とを乗算することで算定される（Ｌb[3]＝ｑ[1,3]ｙ[3,m]）。

以上の説明から理解される通り、(N-1)個の第２音源Ｓ[k2]にわたる被り量Ｌb[k2]の合計は、当該(N-1)個の第２音源Ｓ[k2]から収音装置Ｄ[k1]に到達する被り音の合計レベル（すなわち単位画像Ｇb[k1]の範囲Ｒb）に相当する。収音装置Ｄ[k1]に対する被り音のレベルは時間的に変動するから、単位画像Ｇb[k1]および各単位画像Ｇb[k2]は、時間の経過（具体的には演奏の進行）とともに刻々と変化する。

以上の説明から理解される通り、利用者は、解析画像Ｚbを視認することで、第１音源Ｓ[k1]からの目的音を収音した音信号Ａ[k1]に対して各第２音源Ｓ[k2]からの被り音が影響する度合を視覚的に把握できる。例えば、図９に例示された解析画像Ｚbからは、収音装置Ｄ[1]に対して音源Ｓ[2]から到達する被り音のレベルが、音源Ｓ[3]から到達する被り音のレベルを上回ることを把握できる。そして、第２音源Ｓ[k2]からの被り音の程度が大きい場合、利用者は、第２音源Ｓ[k2]からの被り音が低減されるように、各収音装置Ｄ[n]の位置または方向を調整できる。収音装置Ｄ[n]の調整後には前述の学習処理Ｓbが実行される。

［３Ｃ］解析画像Ｚc
図１０は、解析画像Ｚcの模式図である。解析画像Ｚcは、相異なるチャネル（CH）に対応するＮ個の単位画像Ｇc［1］～Ｇc［N］を含む。Ｎ個の単位画像Ｇc[1]～Ｇc[N]は、相異なる音源Ｓ[n]に対応する画像とも換言される。各単位画像Ｇc［n］は、単位画像Ｇa［n］と同様に、最小値Ｌminを表す下端と最大値Ｌmaxを表す上端とにわたる帯状の画像である。なお、解析画像Ｚcは「第２画像」の一例である。

利用者は、操作装置１４を適宜に操作することでＮ個の音源Ｓ[1]～Ｓ[N]の何れかを第１音源Ｓ[k1]として選択できる。Ｎ個の音源Ｓ[1]～Ｓ[N]のうち第１音源Ｓ[k1]以外の(N-1)個の音源Ｓ[n]は第２音源Ｓ[k2]である。図１０においては、音源Ｓ[2]が第１音源Ｓ[k1]として選択され、音源Ｓ[1]および音源Ｓ[3]の各々が第２音源Ｓ[k2]である場合が例示されている。Ｎ個の単位画像Ｇc[1]～Ｇc[N]のうち第１音源Ｓ[k1]に対応する単位画像Ｇc[k1]の態様は、解析画像Ｚaにおける単位画像Ｇa[n]と同様である。すなわち、単位画像Ｇc[k1]は、観測包絡線Ｅx[k1]のレベルｘ[k1,m]と出力包絡線Ｅy[k1]のレベルｙ[k1,m]とを表す。

Ｎ個の単位画像Ｇc[1]～Ｇc[N]のうち各第２音源Ｓ[k2]に対応する単位画像Ｇc[k2]は、当該第２音源Ｓ[k2]の観測包絡線Ｅx[k2]における第１音源Ｓ[k1]からの被り量Ｌc[k1]を表す。被り量Ｌc[k2]は、第１音源Ｓ[k1]から各収音装置Ｄ[k2]に到達する被り音のレベルを意味する。具体的には、単位画像Ｇc[k2]には範囲Ｒbが表示される。単位画像Ｇc[k2]における範囲Ｒbの上端が、被り量Ｌc[k2]を意味する。表示制御部３３は、混合行列Ｑにおける混合比ｑ[k2,k1]と出力包絡線Ｅy[k1]のレベルｙ[k1,m]とを乗算することで被り量Ｌc[k2]（Ｌc[k2]＝ｑ[k2,k1]ｙ[k1,m]）を算定する。

例えば、図１０における被り量Ｌc[1]は、収音装置Ｄ[1]に対する音源Ｓ[2]からの被り音のレベルを意味し、混合行列Ｑにおける混合比ｑ[1,2]と出力包絡線Ｅy[2]のレベルｙ[2,m]とを乗算することで算定される（Ｌc[1]＝ｑ[1,2]ｙ[2,m]）。また、図１０における被り量Ｌc[3]は、収音装置Ｄ[3]に対する音源Ｓ[2]からの被り音のレベルを意味し、混合行列Ｑにおける混合比ｑ[3,2]と出力包絡線Ｅy[2]のレベルｙ[2,m]とを乗算することで算定される（Ｌc[3]＝ｑ[3,2]ｙ[2,m]）。

収音装置Ｄ[k1]に対する被り音のレベルは時間的に変動するから、単位画像Ｇc[k1]および各単位画像Ｇc[k2]は、時間の経過（具体的には演奏の進行）とともに刻々と変化する。

以上の説明から理解される通り、利用者は、解析画像Ｚcを視認することで、各第２音源Ｓ[k2]からの目的音を収音した音信号Ａ[k2]に対して第１音源Ｓ[k1]からの被り音が影響する度合を視覚的に把握できる。例えば、図１０に例示された解析画像Ｚcからは、収音装置Ｄ[1]に対して音源Ｓ[2]から到達する被り音のレベルが、収音装置Ｄ[3]に対して音源Ｓ[2]から到達する被り音のレベルを下回ることを把握できる。

［３Ｄ］解析画像Ｚd
図１１は、解析画像Ｚdの模式図である。解析画像Ｚdは、混合行列Ｑを表す画像である。具体的には、解析画像Ｚdは、混合行列Ｑと同様にＮ行Ｎ列に行列状に配列されたＮ²個の単位画像Ｇd[1,1]～Ｇd[N,N]を含む。

解析画像Ｚdにおける任意の１個の単位画像Ｇd[n1,n2]は、混合行列Ｑにおける第ｎ1行第ｎ2列に位置する混合比ｑ[n1,n2]を表す。具体的には、単位画像Ｇd[n1,n2]は、混合比ｑ[n1,n2]に応じた態様（例えば色相または明度）で表示される。例えば、混合比ｑ[n1,n2]が大きいほど単位画像Ｇd[n1,n2]が長波長側の色相で表示される構成、または、混合比ｑ[n1,n2]が大きいほど単位画像Ｇd[n1,n2]が高明度（淡い階調）で表示される構成が想定される。すなわち、解析画像Ｚdは、Ｎ個の音源Ｓ[1]～Ｓ[N]の各々について、当該音源Ｓ[n]からの目的音と他の音源Ｓ[n']からの被り音との混合比ｑ[n,n']を配列した画像である。解析画像Ｚdは「第３画像」の一例である。

以上の説明から理解される通り、利用者は、Ｎ個の音源Ｓ[1]～Ｓ[N]のうち任意の２個の音源（Ｓ[n]，Ｓ[n']）の組合せについて、音源Ｓ[n]が音源Ｓ[n']に影響する度合を視覚的に把握できる。

［４］音響処理部３４
図３に例示される通り、制御装置１１は、音響処理プログラムＰ4を実行することで音響処理部３４として機能する。音響処理部３４は、Ｎチャネルの音信号Ａ[1]～Ａ[N]の各々に対して音響処理を実行することで音信号Ｂ[n]（Ｂ[1]～Ｂ[N]）を生成する。具体的には、音響処理部３４は、推定処理部３１が生成した出力包絡線Ｅy[n]のレベルｙ[n,m]に応じた音響処理を、音信号Ａ[n]に対して実行する。出力包絡線Ｅy[n]は、前述の通り、音信号Ａ[n]における音源Ｓ[n]からの目的音の概形を表す包絡線である。具体的には、音響処理部３４は、出力包絡線Ｅy[n]のレベルｙ[n,m]に応じて音信号Ａ[n]に設定された複数の処理期間Ｈの各々について音響処理を実行する。

例えば、Ｎ個の音源Ｓ[1]～Ｓ[N]のうち任意の２個の音源Ｓ[k1]および音源Ｓ[k2]に着目する。音響処理部３４は、音信号Ａ[k1]に対して出力包絡線Ｅy[k1]のレベルｙ[k1,m]に応じた音響処理を実行し、音信号Ａ[k2]に対して出力包絡線Ｅy[k2]のレベルｙ[k2,m]に応じた音響処理を実行する。

音響処理部３４は、Ｎチャネルの音信号Ｂ[1]～Ｂ[N]から音信号Ｂを生成する。具体的には、音響処理部３４は、Ｎチャネルの音信号Ｂ[1]～Ｂ[N]の各々に係数を乗算したうえでＮチャネル分を混合することで音信号Ｂを生成する。各音信号Ｂ[n]の係数（すなわち加重値）は、例えば操作装置１４に対する利用者からの指示に応じて設定される。

音響処理部３４は、音信号Ａ[n]の音量を制御するダイナミクス制御を含む音響処理を実行する。ダイナミクス制御は、例えばゲート処理およびコンプレッサ処理等のエフェクタ処理を含む。利用者は、操作装置１４を適宜に操作することで音響処理の種類を選択することが可能である。音響処理の種類は、Ｎチャネルの音信号Ａ[1]～Ａ[N]の各々について個別に選択されてもよいし、Ｎチャネルの音信号Ａ[1]～Ａ[N]について一括的に選択されてもよい。

［４Ａ］ゲート処理
図１２は、音響処理のうちゲート処理の説明図である。利用者がゲート処理を選択した場合、音響処理部３４は、出力包絡線Ｅy[n]のレベルｙ[n,m]が所定の閾値ｙTH1を下回る可変長の期間を処理期間Ｈとして設定する。閾値ｙTH1は、例えば操作装置１４に対する利用者からの指示に応じた可変値である。ただし、閾値ｙTH1を所定値に固定してもよい。

音響処理部３４は、音信号Ａ[n]における各処理期間Ｈの音量を低減する。具体的には、音響処理部３４は、処理期間Ｈ内における音信号Ａ[n]のレベルをゼロに設定（すなわち消音）する。以上に例示したゲート処理によれば、音信号Ａ[n]における他の音源Ｓ[n']からの被り音を有効に低減できる。

［４Ｂ］コンプレッサ処理
図１３は、音響処理のうちコンプレッサ処理の説明図である。利用者がコンプレッサ処理を選択した場合、音響処理部３４は、第ｎチャネルの出力包絡線Ｅy[n]のレベルｙ[n,m]が所定の閾値ｙTH2を上回る処理期間Ｈにおいて、当該第ｎチャネルの音信号Ａ[n]のゲインを低下させる。閾値ｙTH2は、例えば操作装置１４に対する利用者からの指示に応じた可変値である。ただし、閾値ｙTH2を所定値に固定してもよい。

音響処理部３４は、音信号Ａ[n]における各処理期間Ｈの音量を低減する。具体的には、音響処理部３４は、音信号Ａ[n]の各処理期間Ｈについてゲインを低下させることで信号値を低減する。音信号Ａ[n]のゲインを低減する度合（レシオ）は、例えば操作装置１４に対する利用者からの指示に応じて設定される。前述の通り、出力包絡線Ｅy[n]は音源Ｓ[n]からの目的音の概形を表す信号である。したがって、出力包絡線Ｅy[n]のレベルｙ[n,m]が閾値ｙTH2を上回る処理期間Ｈについて音信号Ａ[n]の音量を低減することで、音信号Ａ[n]の目的音における音量の変化を有効に制御できる。

図１４は、音響処理装置１０の制御装置１１が実行する全体的な動作を例示するフローチャートである。例えばＮ個の音源Ｓ[1]～Ｓ[N]の発音に並行して、解析期間Ｔa毎に図１４の処理が実行される。

制御装置１１（推定処理部３１）は、前述の推定処理Ｓaにより、Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]と、混合行列Ｑとから、Ｎチャネルの出力包絡線Ｅy[1]～Ｅy[N]を生成する（Ｓ1）。具体的には、制御装置１１は、第１に、Ｎチャネルの音信号Ａ[1]～Ａ[N]から観測包絡線Ｅx[1]～Ｅx[N]を生成する。第２に、制御装置１１は、Ｎチャネルの出力包絡線Ｅy[1]～Ｅy[N]を図６の推定処理Ｓaにより生成する。

制御装置１１（表示制御部３３）は、解析画像Ｚを表示装置１３に表示させる（Ｓ2）。例えば、制御装置１１は、Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]とＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]とに応じた解析画像Ｚaを表示装置１３に表示させる。また、制御装置１１は、混合行列ＱとＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]とに応じた解析画像Ｚbまたは解析画像Ｚcを表示装置１３に表示させる。制御装置１１は、混合行列Ｑに応じた解析画像Ｚdを表示装置１３に表示させる。解析画像Ｚは解析期間Ｔa毎に順次に更新される。

制御装置１１（音響処理部３４）は、Ｎチャネルの音信号Ａ[1]～Ａ[N]の各々に対して出力包絡線Ｅy[n]のレベルｙ[n,m]に応じた音響処理を実行する（Ｓ3）。具体的には、制御装置１１は、出力包絡線Ｅy[n]のレベルｙ[n,m]に応じて音信号Ａ[n]に設定される各処理期間Ｈについて音響処理を実行する。

以上に説明した通り、第１実施形態においては、観測包絡線Ｅx[n]における音源Ｓ[n]からの目的音の概形を表す出力包絡線Ｅy[n]のレベルｙ[n,m]に応じた音響処理が音信号Ａ[n]に対して実行されるから、音信号Ａ[n]に含まれる被り音の影響を低減して適切な音響処理を音信号Ａ[n]に対して実行することが可能である。

Ｂ：第２実施形態
第２実施形態について説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態においては、複数の単位期間Ｔu[m]（Ｔu[1]～Ｔu[M]）を含む解析期間Ｔa毎に推定処理Ｓaが実行される。第２実施形態においては、単位期間Ｔu[m]毎に推定処理Ｓaが実行される。すなわち、第２実施形態は、第１実施形態における１個の解析期間Ｔaに含まれる単位期間Ｔu[m]の個数Ｍを１に限定した形態である。

図１５は、第２実施形態における推定処理Ｓaの説明図である。第２実施形態においては、時間軸上の単位期間Ｔu[i]毎（ｉは自然数）毎にＮチャネルのレベルｘ[1,i]～ｘ[N,i]が生成される。観測行列Ｘは、１個の単位期間Ｔu[i]に対応するＮチャネルのレベルｘ[1,i]～ｘ[N,i]を縦方向に配列したＮ行１列の非負行列である。したがって、複数の単位期間Ｔu[i]にわたる観測行列Ｘの時系列が、Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]に相当する。すなわち、第ｎチャネルの観測包絡線Ｅx[n]は、複数の単位期間Ｔu[i]にわたるレベルｘ[n,i]の時系列で表現される。同様に、係数行列Ｙは、１個の単位期間Ｔu[i]に対応するＮチャネルのレベルｙ[1,i]～ｙ[N,i]を縦方向に配列したＮ行１列の非負行列である。したがって、複数の単位期間Ｔu[i]にわたる係数行列Ｙの時系列が、Ｎチャネルの出力包絡線Ｅy[1]～Ｅy[N]に相当する。混合行列Ｑは、第１実施形態と同様に、複数の混合比ｑ[n1,n2]を配列したＮ行Ｎ列の正方行列である。

第１実施形態においては、Ｍ個の単位期間Ｔu[1]～Ｔu[M]を含む解析期間Ｔa毎に図６の推定処理Ｓaが実行される。第２実施形態においては、単位期間Ｔu[i]毎に推定処理Ｓaが実行される。すなわち、Ｎ個の音源Ｓ[1]～Ｓ[N]による発音に並行して実時間的に推定処理Ｓaが実行される。なお、推定処理Ｓaの内容は第１実施形態と同様である。他方、学習処理Ｓbは、第１実施形態と同様に、Ｍ個の単位期間Ｔu[1]～Ｔu[m]を含むう１個の解析期間Ｔaについて実行される。すなわち、第２実施形態においては、推定処理Ｓaが単位期間Ｔu[i]毎のレベルｙ[n,i]を算定するリアルタイム処理であるのに対し、学習処理Ｓbは、複数の単位期間Ｔu[1]～Ｔu[M]にわたる出力包絡線Ｅy[n]を算定するノンリアルタイム処理である。

以上の説明から理解される通り、第２実施形態によれば、Ｎ個の音源Ｓ[1]～Ｓ[N]による発音に対する出力包絡線Ｅy[n]の遅延が低減される。すなわち、Ｎ個の音源Ｓ[1]～Ｓ[N]による発音に並行して実時間的に各出力包絡線Ｅy[n]を生成できる。

図１４に例示した処理（Ｓ1～Ｓ3）は、単位期間Ｔu[i]毎に実行される。したがって、制御装置１１（表示制御部３３）は、表示装置１３に表示された解析画像Ｚ（Ｚa，Ｚb，Ｚc，Ｚd）を単位期間Ｔu[i]毎に更新する（Ｓ2）。すなわち、解析画像Ｚは、Ｎ個の音源Ｓ[1]～Ｓ[N]による発音に並行して実時間的に更新される。以上の説明から理解される通り、第２実施形態によれば、Ｎ個の音源Ｓ[1]～Ｓ[N]の発音に対して遅延なく解析画像Ｚが更新される。したがって、利用者は、各チャネルにおける被り音の変化を実時間的に視認できる。例えば、解析画像Ｚaにおいては、１個の単位期間Ｔu[i]における観測包絡線Ｅx[n]のレベルｘ[n,i]と出力包絡線Ｅy[n]のレベルｙ[n,i]とがチャネル毎に表示装置１３に表示され、当該解析画像Ｚaが単位期間Ｔu[i]毎に順次に更新される。

また、制御装置１１（音響処理部３４）は、音信号Ａ[n]に対する音響処理を単位期間Ｔu[i]毎に実行する（Ｓ3）。したがって、Ｎ個の音源Ｓ[1]～Ｓ[N]の発音に対して遅延なく各音信号Ａ[n]を処理できる。

Ｃ：第３実施形態
図１６は、第３実施形態における推定処理Ｓaの説明図である。第１実施形態の推定処理部３１における包絡線取得部３１１は、相異なる音源Ｓ[n]に対応するＮチャネルの観測包絡線Ｅx[1]～Ｅx[N]を生成する。第３実施形態の包絡線取得部３１１は、相異なる周波数帯域に対応する３系統の観測包絡線Ｅx[n]（Ｅx[n]_L，Ｅx[n]_M，Ｅx[n]_H）をチャネル毎に生成する。観測包絡線Ｅx[n]_Lは低周波数帯域に対応し、観測包絡線Ｅx[n]_Mは中周波数帯域に対応し、観測包絡線Ｅx[n]_Hは高周波数帯域に対応する。低周波数帯域は中周波数帯域の低域側に位置し、高周波数帯域は中周波数帯域の高域側に位置する。具体的には、低周波数帯域は中周波数帯域の下端値を下回る周波数帯域であり、高周波数帯域は中周波数帯域の上端値を上回る周波数帯域である。なお、観測包絡線Ｅx[n]が算定される周波数帯域の総数は３に限定されず任意である。なお、低周波数帯域と中周波数帯域と高周波数帯域とは、部分的に相互に重複してもよい。

包絡線取得部３１１は、各音信号Ａ[n]を低周波数帯域と中周波数帯域と高周波数帯域の３個の周波数帯域に分割し、第１実施形態と同様の方法により周波数帯域毎に観測包絡線Ｅx[n]（Ｅx[n]_L，Ｅx[n]_M，Ｅx[n]_H）生成する。以上の説明から理解される通り、観測行列Ｘは、３系統の観測包絡線Ｅx[n]（Ｅx[n]_L，Ｅx[n]_M，Ｅx[n]_H）をＮチャネルにわたり配列した３Ｎ行Ｍ列の非負行列である。また、混合行列Ｑは、相異なる周波数帯域に対応する３個の要素をＮチャネルにわたり配列した３Ｎ行３Ｎ列の正方行列である。

信号処理部３１２は、相異なる周波数帯域に対応する３系統の出力包絡線Ｅy[n]（Ｅy[n]_L，Ｅy[n]_M，Ｅy[n]_H）をＮチャネルの各々について生成する。出力包絡線Ｅy[n]_Lは低周波数帯域に対応し、出力包絡線Ｅy[n]_Mは中周波数帯域に対応し、出力包絡線Ｅy[n]_Hは高周波数帯域に対応する。したがって、係数行列Ｙは、３系統の出力包絡線Ｅy[n]（Ｅy[n]_L，Ｅy[n]_M，Ｅy[n]_H）をＮチャネルにわたり配列した３Ｎ行Ｍ列の非負行列である。信号処理部３１２は、既知の混合行列Ｑを利用した非負値行列因子分解により、観測行列Ｘから係数行列Ｙを生成する。

以上の説明では推定処理Ｓaに着目したが、学習処理Ｓbについても同様である。具体的には、学習処理部３２の包絡線取得部３２１は、相異なる周波数帯域に対応する３系統の観測包絡線Ｅx[n]（Ｅx[n]_L，Ｅx[n]_M，Ｅx[n]_H）をＮチャネルの各々の音信号Ａ[n]から生成する。すなわち、包絡線取得部３２１は、３系統の観測包絡線Ｅx[n]（Ｅx[n]_L，Ｅx[n]_M，Ｅx[n]_H）をＮチャネルにわたり配列した３Ｎ行Ｎ列の観測行列Ｘを生成する。混合行列Ｑは、相異なる周波数帯域に対応する３個の要素をＮチャネルにわたり配列した９行９列の正方行列である。係数行列Ｙは、相異なる周波数帯域に対応する３系統の出力包絡線Ｅy[n]（Ｅy[n]_L，Ｅy[n]_M，Ｅy[n]_H）をＮチャネルにわたり配列した３Ｎ行Ｎ列の非負行列である。信号処理部３２２は、非負値行列因子分解により観測行列Ｘから混合行列Ｑと係数行列Ｙとを生成する。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、各チャネルの観測包絡線Ｅx[n]および出力包絡線Ｅy[n]が複数の周波数帯域に分離されるから、音源Ｓ[n]の目的音を高精度に反映した観測包絡線Ｅx[n]および出力包絡線Ｅy[n]を生成できるという利点がある。なお、図１６においては第１実施形態を基礎とした構成を例示したが、単位期間Ｔu[i]毎に推定処理Ｓaを実行する第２実施形態にも、第３実施形態の構成は同様に適用される。

Ｄ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、前掲の数式(1)の演算により各音信号Ａ[n]の観測包絡線Ｅx[n]を生成したが、包絡線取得部３１１または包絡線取得部３２１が観測包絡線Ｅx[n]を生成する方法は以上の例示に限定されない。例えば、音信号Ａ[n]の正側の各ピークから経時的に減衰する曲線または直線により観測包絡線Ｅx[n]を構成してもよい。また、音信号Ａ[n]の正側の成分を平滑化することで観測包絡線Ｅx[N]を生成してもよい。

（２）前述の各形態では、音響処理装置１０の包絡線取得部３１１および包絡線取得部３２１が各音信号Ａ[n]から観測包絡線Ｅx[n]を生成したが、外部装置で生成された観測包絡線Ｅx[n]を包絡線取得部３１１または包絡線取得部３２１が受信してもよい。すなわち、包絡線取得部３１１または包絡線取得部３２１は、音信号Ａ[n]に対する処理で観測包絡線Ｅx[n]を生成する要素と、外部装置により生成された観測包絡線Ｅx[n]を受信する要素との双方を含む。

（３）前述の各形態では非負値行列因子分解を例示したが、Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]からＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]を生成するための方法は以上の例示に限定されない。例えば、非負拘束最小２乗法（ＮＮＬＳ：Non-Negative Least Squares）を利用して各出力包絡線Ｅy[n]を生成してもよい。すなわち、混合行列Ｑと係数行列Ｙとにより観測行列Ｘを近似する任意の最適化手法が利用される。

（４）前述の各形態では、時間軸上の１個の時点における観測包絡線Ｅx[n]のレベルｘ[n,m]と出力包絡線Ｅy[n]のレベルｙ[n,m]とを表す解析画像Ｚaを例示したが、解析画像Ｚaの内容は以上の例示に限定されない。例えば、図１７に例示される通り、観測包絡線Ｅx[n]と出力包絡線Ｅy[n]とを共通の時間軸のもとで配置した解析画像Ｚaを表示制御部３３が表示装置１３に表示させてもよい。観測包絡線Ｅx[n]と出力包絡線Ｅy[n]との差分が、音源Ｓ[n]以外の音源Ｓ[n']から収音装置Ｄ[n]に到達した被り音の音量に相当する。以上の例示から理解される通り、解析画像Ｚa（第４画像）は、音源Ｓ[n]と観測包絡線Ｅx[n]のレベルｘ[n,m]と当該音源Ｓ[n]の出力包絡線Ｅy[n]のレベルｙ[n,m]とを表す画像として包括的に表現される。

（５）前述の各形態では、音響処理部３４が音信号Ａ[n]に対してゲート処理またはコンプレッサ処理を実行する構成を例示したが、音響処理部３４が実行する音響処理の内容は以上の例示に限定されない。ゲート処理またはコンプレッサ処理のほか、例えばリミッタ処理、エクスパンダ処理またはマキシマイザ処理等のダイナミクス処理を、音響処理部３４が実行してもよい。リミッタ処理は、例えば、音信号Ａ[n]において出力包絡線Ｅy[n]のレベルｙ[n,m]が閾値を上回る各処理期間Ｈについて、所定値を上回る音量を当該所定値に設定する処理である。エクスパンダ処理は、音信号Ａ[n]における各処理期間Ｈの音量を減少させる処理である。また、マキシマイザ処理は、音信号Ａ[n]における各処理期間Ｈの音量を増加させる処理である。また、音響処理は、音信号Ａ[n]の音量を制御するダイナミクス処理に限定されない。例えば、音信号Ａ[n]の各処理期間Ｈに波形の歪を発生させるディストーション処理、または、音信号Ａ[n]の各処理期間Ｈに残響を付与するリバーブ処理、等の各種の音響処理が、音響処理部３４により実行される。

（６）携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により音響処理装置１０を実現してもよい。例えば、音響処理装置１０は、端末装置から受信したＮチャネルの音信号Ａ[1]～Ａ[N]に対する推定処理Ｓaまたは学習処理Ｓbにより、Ｎチャネルの出力包絡線Ｅy[1]～Ｅy[N]を生成する。なお、Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]が端末装置から送信される構成では、包絡線取得部３１１または包絡線取得部３２１がＮチャネルの観測包絡線Ｅx[1]～Ｅx[N]を端末装置から受信する。

音響処理装置１０の表示制御部３３は、Ｎチャネルの観測包絡線Ｅx[1]～Ｅx[N]と混合行列ＱとＮチャネルの出力包絡線Ｅy[1]～Ｅy[N]に応じた解析画像Ｚを表す画像データを生成し、当該画像データを端末装置に送信することで当該解析画像Ｚを端末装置に表示させる。音響処理装置１０の音響処理部３４は、各音信号Ａ[n]に対する音響処理で生成した音信号Ｂを端末装置に送信する。

（７）前述の各形態においては、推定処理部３１と学習処理部３２と表示制御部３３と音響処理部３４とを具備する音響処理装置１０を例示したが、音響処理装置１０の一部の要素を省略してもよい。例えば、外部装置により生成された混合行列Ｑが音響処理装置１０に供給される構成では学習処理部３２が省略される。表示制御部３３および音響処理部３４の一方または双方を省略してもよい。また、混合行列Ｑを生成する学習処理部３２を具備する装置は、機械学習装置とも換言される。解析画像Ｚを表示させる表示制御部３３を具備する装置は、表示制御装置とも換言される。

（８）以上に例示した音響処理装置１０の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと記憶装置１２に記憶されたプログラム（Ｐ1～Ｐ4）との協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。

Ｅ：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係る音響処理方法は、第１音源からの音を収音した第１音信号の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得し、前記第１観測包絡線における前記第２音源からの被り音の混合比と、前記第２観測包絡線における前記第１音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第１観測包絡線における前記第１音源からの音の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の概形を表す第２出力包絡線と、を含む複数の出力包絡線を生成する。

以上の態様では、第１観測包絡線における第１音源からの音の概形を表す第１出力包絡線と、第２観測包絡線における第２音源からの音の概形を表す第２出力包絡線と、を含む複数の出力包絡線が生成される。したがって、第１音源および第２音源の各々の音のレベルの時間的な変化を正確に把握できる。また、音信号の概形を表す観測包絡線が処理されるから、音信号を処理する構成と比較して処理負荷が軽減される。

「観測包絡線の取得」は、音信号に対する信号処理で観測包絡線を生成する動作と、他装置により生成された観測包絡線を受信する動作との双方を含む。また、「第１観測包絡線における第１音源からの音の概形を表す第１出力包絡線」とは、第１観測包絡線における第１音源以外の音源からの被り音が抑圧（理想的には除去）された包絡線を意味する。第２観測包絡線および第２出力包絡線についても同様である。

態様１の具体例（態様２）において、前記複数の出力包絡線の生成においては、前記複数の観測包絡線を表す非負の観測行列に対する非負値行列因子分解により、事前に用意された非負の前記混合行列と、前記複数の出力包絡線を表す非負の係数行列とを生成する。以上の態様では、複数の観測包絡線を表す観測行列に対する非負値行列因子分解により、複数の出力包絡線を表す非負の係数行列を簡便に生成できるという利点がある。

態様１または態様２の具体例（態様３）において、前記複数の観測包絡線の取得と、前記複数の出力包絡線の生成とは、時間軸上の複数の解析期間の各々について、前記第１音源および前記第２音源からの収音に並行して順次に実行される。以上の態様では、複数の観測包絡線の取得と複数の出力包絡線の生成とが、第１音信号および第２音信号の収音に並行して順次に実行される。したがって、第１音源および第２音源の各々からの音のレベルの時間的な変化を実時間的に把握できる。

態様３の具体例（態様４）において、前記複数の解析期間の各々は、前記複数の観測包絡線の各々における１個のレベルが算定される単位期間である。以上の態様によれば、第１音源および第２音源による発音に対する第１出力包絡線および第２出力包絡線の遅延を充分に低減できる。

態様４の具体例（態様５）において、前記単位期間毎に、当該単位期間における前記第１観測包絡線のレベルと、当該単位期間における前記第１出力包絡線のレベルとを、表示装置に表示させる。以上の態様によれば、第１音源および第２音源による発音に対して遅延なく、第１観測包絡線のレベルと第１出力包絡線のレベルとの関係を利用者が視認できる。

本開示のひとつの態様（態様６）に係る音響処理方法は、第１音源からの音を収音した第１音信号の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得し、前記第１観測包絡線における前記第２音源からの被り音の混合比、および、前記第２観測包絡線における前記第１音源からの被り音の混合比、を含む混合行列と、前記第１観測包絡線における前記第１音源からの音の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の概形を表す第２出力包絡線と、を含む複数の出力包絡線と、を前記複数の観測包絡線から生成する。

以上の態様では、第１観測包絡線における第２音源からの被り音の混合比と、第２観測包絡線における第１音源からの被り音の混合比とを含む混合行列が、複数の観測包絡線から生成される。したがって、各音源に対応する音信号に他の音源からの被り音が含まれる度合（音被りの度合）を評価できる。また、音信号の概形を表す観測包絡線が処理されるから、音信号を処理する構成と比較して処理負荷が軽減される。

本開示のひとつの態様に係る音響処理装置は、以上に例示した各態様の音響処理方法を実行する。また、本開示のひとつの態様に係るプログラムは、以上に例示した各態様の音響処理方法をコンピュータに実行させる。

１００…音響処理システム、１０…音響処理装置、２０…再生装置、Ｄ[n]（Ｄ[1]～Ｄ[N]）…収音装置、１１…制御装置、１２…記憶装置、１３…表示装置、１４…操作装置、１５…通信装置、３１…推定処理部、３１１…包絡線取得部、３１２…信号処理部、３２…学習処理部、３２１…包絡線取得部、３２２…信号処理部、３３…表示制御部、３４…音響処理部、Ｚ（Ｚa，Ｚb，Ｚc，Ｚd）…解析画像。

Claims

第１音源からの音を収音した第１音信号の時間軸上における波形の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の時間軸上における波形の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得し、
前記第１観測包絡線における前記第２音源からの被り音の混合比と、前記第２観測包絡線における前記第１音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第１観測包絡線における前記第１音源からの音の時間軸上における波形の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の時間軸上における波形の概形を表す第２出力包絡線と、を含む複数の出力包絡線を生成する
コンピュータにより実現される音響処理方法。
前記複数の出力包絡線の生成においては、
前記複数の観測包絡線を表す非負の観測行列に対する非負値行列因子分解により、事前に用意された非負の前記混合行列と、前記複数の出力包絡線を表す非負の係数行列とを生成する
請求項１の音響処理方法。
前記複数の観測包絡線の取得と、前記複数の出力包絡線の生成とは、時間軸上の複数の解析期間の各々について、前記第１音源および前記第２音源からの収音に並行して順次に実行される
請求項１または請求項２の音響処理方法。
前記複数の解析期間の各々は、前記複数の観測包絡線の各々における１個のレベルが算定される単位期間である
請求項３の音響処理方法。
前記単位期間毎に、当該単位期間における前記第１観測包絡線のレベルと、当該単位期間における前記第１出力包絡線のレベルとを、表示装置に表示させる
請求項４の音響処理方法。
第１音源からの音を収音した第１音信号の時間軸上における波形の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の時間軸上における波形の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得し、
前記第１観測包絡線における前記第２音源からの被り音の混合比、および、前記第２観測包絡線における前記第１音源からの被り音の混合比、を含む混合行列と、
前記第１観測包絡線における前記第１音源からの音の時間軸上における波形の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の時間軸上における波形の概形を表す第２出力包絡線と、を含む複数の出力包絡線と、
を前記複数の観測包絡線から生成する
コンピュータにより実現される音響処理方法。
第１音源からの音を収音した第１音信号の時間軸上における波形の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の時間軸上における波形の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部と、
前記第１観測包絡線における前記第２音源からの被り音の混合比と、前記第２観測包絡線における前記第１音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第１観測包絡線における前記第１音源からの音の時間軸上における波形の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の時間軸上における波形の概形を表す第２出力包絡線と、を含む複数の出力包絡線を生成する信号処理部と
を具備する音響処理装置。
第１音源からの音を収音した第１音信号の時間軸上における波形の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の時間軸上における波形の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部と、
前記第１観測包絡線における前記第２音源からの被り音の混合比、および、前記第２観測包絡線における前記第１音源からの被り音の混合比、を含む混合行列と、
前記第１観測包絡線における前記第１音源からの音の時間軸上における波形の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の時間軸上における波形の概形を表す第２出力包絡線と、を含む複数の出力包絡線と、
を前記複数の観測包絡線から生成する信号処理部と
を具備する音響処理装置。
第１音源からの音を収音した第１音信号の時間軸上における波形の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の時間軸上における波形の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部、および、
前記第１観測包絡線における前記第２音源からの被り音の混合比と、前記第２観測包絡線における前記第１音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第１観測包絡線における前記第１音源からの音の時間軸上における波形の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の時間軸上における波形の概形を表す第２出力包絡線と、を含む複数の出力包絡線を生成する信号処理部
としてコンピュータを機能させるプログラム。
第１音源からの音を収音した第１音信号の時間軸上における波形の概形を表す第１観測包絡線と、第２音源からの音を収音した第２音信号の時間軸上における波形の概形を表す第２観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部、および、
前記第１観測包絡線における前記第２音源からの被り音の混合比、および、前記第２観測包絡線における前記第１音源からの被り音の混合比、を含む混合行列と、
前記第１観測包絡線における前記第１音源からの音の時間軸上における波形の概形を表す第１出力包絡線と、前記第２観測包絡線における前記第２音源からの音の時間軸上における波形の概形を表す第２出力包絡線と、を含む複数の出力包絡線と、
を前記複数の観測包絡線から生成する信号処理部
としてコンピュータを機能させるプログラム。