JP6818445B2

JP6818445B2 - 音データ処理装置および音データ処理方法

Info

Publication number: JP6818445B2
Application number: JP2016126937A
Authority: JP
Inventors: 恭平北澤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2021-01-20
Anticipated expiration: 2036-06-27
Also published as: US10219076B2; US20170374463A1; JP2018006826A

Description

本発明は音データ処理装置および音データ処理方法に関する。

従来、空間を複数のエリアに分割してエリアごとの音声を取得（収音）する技術が知られている（特許文献１）。近年では、より指向性の高い収音技術が提案され、遠方の音声をクリアに録音・強調することが可能になってきている（特許文献２）。特許文献２のように、より指向性が鋭く、遠距離の音声まで録音可能なマイクを使って目的エリアの収音をすると、かなり広範囲な空間を細かいエリアに分けて収音することが可能になる。

特開２０１４−７２７０８号公報特開２０１２−１６５１８９号公報

しかしながら、広範囲な空間を細かいエリアに分割してエリアごとに収音すると、収音エリア数が多くなる。エコー除去やノイズ除去などの音声信号処理は収音エリアごとに行うので、収音エリア数が増加すると、音声信号処理量も増加する。収音エリア数が多い場合に、収音した音声をリアルタイム再生しようとすると、音声信号処理が間に合わず音声データが欠損してしまう（音声が途切れてしまう）可能性がある。
本発明は上記した従来技術の課題を解決するために考案されたものであり、音声信号処理終了までの時間が限られているリアルタイム再生においても所定（所望）の音声を欠損させない音声信号処理装置を提供することを目的とする。

本発明の１つの態様によれば、収音対象空間の音を収音することで生成される音データを取得する取得手段と、前記収音対象空間内の複数のエリアの少なくとも１つの優先度を決定する決定手段と、前記取得手段により取得された音データを処理することにより得られる処理済みデータであって前記複数のエリアそれぞれに対応する処理済みデータを出力する出力手段と、を有する音データ処理装置であって、前記出力手段は、前記複数のエリアそれぞれに対応する処理済みデータを得るための処理に係る処理時間が所定の閾値より長い場合に、前記取得手段により取得された音データに対して前記所定の閾値以下の処理時間の処理を行うことにより得られる第１の処理済みデータであって前記複数のエリアのうち前記決定手段により決定された優先度に基づいて選択された１以上のエリアに対応する前記第１の処理済みデータを出力した後に、前記取得手段により取得された音データを処理することにより得られる第２の処理済みデータであって前記複数のエリアのうち前記１以上のエリアとは異なるエリアを含む他の１以上のエリアに対応する前記第２の処理済みデータを出力する、音データ処理装置が提供される。

本発明によれば、所定の条件に基づいて設定した順序で音声信号の処理または送信を行うので、リアルタイム再生においても所定（所望）の音声が欠損することはない。

実施形態１の音声信号処理装置の機能構成を示すブロック図。実施形態１の音声信号処理を示すフローチャート。実施形態１の音声信号処理装置のハードウェア構成を示すブロック図。実施形態２の音声信号処理システムの構成を示すブロック図。実施形態２の音声信号処理を示すフローチャート。実施形態３の撮影処理システムの構成を示すブロック図。実施形態３における音声の分離状況を説明する図。実施形態３の音声信号処理を示すフローチャート。

以下、本発明の音声信号処理装置の実施形態を、添付図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。実施形態の構成は、本発明が適用される装置の仕様や各種条件（使用条件、使用環境等）によって適宜修正又は変更され得る。なお、以下の記載においては、同一の構成については、同じ符号を付して説明する。本明細書において、音声とは、人の発する声に限定されず、人や動物の声はもとより楽音や環境音などの音一般を意味する。

実施形態１
実施形態１の音声信号処理装置は、音響システムの一部であるとして説明をする。音響システムは、例えばスポーツ中継などにおいて、リアルタイム放送（生放送）と、リアルタイム放送とは異なる視点（カメラの向き）のリプレイ放送とを行う中継システムに用いられる音響システムである。
（音声信号処理装置の構成）
図１は音声信号処理装置１０の構成を示す機能ブロック図である。音声信号処理装置１０は、マイクアレイ１１、音源分離部１２、処理順序制御部１３、音声信号処理部１４、記憶部１５、リアルタイム再生用信号生成部１６およびリプレイ再生用信号生成部１７を有する。音声信号処理装置１０の各構成要素は、バス１８により相互接続されている。音声信号処理装置１０は、有線または無線により、再生装置１９に接続されている。

マイクアレイ１１は複数のマイクロホンからなる。マイクアレイ１１は、音源分離部１２に接続されている。マイクアレイ１１は、空間の音声をマイクロホンで収音し、収音した音声の音声信号をＡ／Ｄ変換したのち、音源分離部１２へ出力する。マイクアレイ１１は、収音部である。
音源分離部１２は、マイクアレイ１１から入力された音声信号を用いて空間をＮ（Ｎ＞１）のエリアに分割するように音源分離処理を行う。音源分離処理は、処理フレームごと、つまり所定の時間（時間間隔、時間単位）ごとに行われる。音源分離部１２は、例えば前記所定の時間ごとにビームフォーミング処理を行い、エリア（ａ）ごとの音声信号を取得する。取得した音声信号は、時間（ｔ）情報と共に処理順序制御部１３へ出力される。

処理順序制御部１３は、音源分離部１２から時間（t）およびエリア（a）ごとの音声信号Ｓ（ｔ,ａ）を受け取る。処理順序制御部１３は、音声信号Ｓ（ｔ，ａ）から取得した時間およびエリアの情報に基づいて、音声信号処理部１４における時間およびエリアごと音声信号処理の順番（順序）を制御する信号を出力する。例えば、処理順序制御部１３は、取得した時間の音声について隣接するエリア同士を比較し、あるエリアの音声信号が隣接するエリアの音によってマスキングされるか否かを判定する。判定の結果、マスキングされてしまうエリアについて、処理順序制御部１３は、音声信号処理の順序を遅らせるように設定する。本実施形態では、マスキングされるエリアは重要度（優先度）が低いと考える。つまり、処理順序制御部１３は、複数のエリアについて優先度を決定し、優先度の高いエリアの音声信号処理順序を早くし（優先し）、優先度の低いエリアの音声信号処理を遅くするという設定をする。処理順序制御部１３は、処理順序を設定する手段である。処理順序は、重要度（優先度）の高い方から低い方へ設定される。処理順序制御部１３は、マスキングされるかどうかという所定の条件に基づいて、エリアごとの音声信号の処理順序を設定している。

音声信号処理部１４は、例えばマイクロプロセッサなどの処理装置からなる。音声信号処理部１４は、処理順序制御部１３の出力信号（音声信号処理の順序を制御・設定する信号）を受け取る。また、音声信号処理部１４は、音声信号処理装置１０の処理量（負荷状態）を逐次モニタリングする。音声信号処理部１４は、時間およびエリアごとの音声信号を、音声信号処理の順序の制御信号（設定信号）に従って処理する。音声信号処理部１４で行われる処理は、例えば収音部（マイクアレイ１１）からエリアまでの距離による影響を補正するための遅延補正処理、ゲイン補正処理、エコー除去処理などを含む。本実施形態において、音声信号処理部１４で行われる複数の処理（遅延補正処理、ゲイン補正処理、エコー除去処理など）の順序は、固定されているとする。

(処理装置の処理量が所定量より小さい場合)
処理装置の処理量（負荷）が所定量より小さい場合、ある処理フレームの全エリアの音声信号の処理が所定時間内に終了可能である。この場合、音声信号処理部１４は、全エリアについてすべての処理をした音声信号を、リアルタイム再生用信号生成部１６および記憶部１５へ出力する。ある処理フレームの全エリアの音声信号の処理が音声信号処理部１４において所定時間内に終了可能であれば、リアルタイム再生用信号生成部１６は全エリアについてすべての処理がなされたリアルタイム再生用信号を生成することができる。

(処理装置の処理量が所定量以上の場合)
処理装置の処理量が所定量以上の場合、ある時間（ある処理フレーム）の全エリアの音声信号を処理すると、リアルタイム再生用信号が生成できなくなる。処理装置の処理量が所定量以上である場合、音声信号処理部１４は以下のような信号処理を行う。
音声信号処理部１４ではリアルタイム再生までの残時間と、各処理終了までにかかる時間などを管理している。各処理に係る時間は処理装置の負荷に応じて変化するため、処理終了までの時間は処理装置の負荷に応じて変化する。リアルタイム再生までの残時間よりも処理終了までの時間が長くなってしまった場合、音声信号処理部１４は一部の処理を行っていないエリアの音声信号をリアルタイム再生用信号生成部１６および記憶部１５へ出力する。リアルタイム再生までの残時間よりも処理終了までの時間が長くなってしまった場合とは、すべての処理を行うとすると、リアルタイム再生に間に合わない場合である。この場合、処理順序制御部１３が設定した処理順序に従って、重要度（優先度）の高い順に、リアルタイム再生に間に合う範囲で（リアルタイム再生に間に合うと判定されたエリアについて）、すべての処理が行われる。そして、処理後の音声信号がリアルタイム再生用信号生成部１６および記憶部１５へ出力される。一方、リアルタイム再生に間に合わないと判定されたエリアについては、一部の処理を行わずにリアルタイム再生用信号生成部１６および記憶部１５へ出力される。一部の処理を行わないとは、例えば、３つの処理を行うべきであったのに、１つの処理が行われないことを意味する。３つの処理には優先順位が付けられており、処理が間に合わない場合には、後段の処理から処理を行わないようにする。行われなかった処理の情報は処理待ちリストに記録される。例えば処理待ちリストには処理が行われなかったエリア、時間、そして行われなかった処理の内容が記載される。

音声信号処理部１４は、すべてのエリアの処理がリアルタイム再生に間に合うか否かを判定しているので、所定時間内にすべてのエリアの音声信号の処理が実行可能か否かを判定していると言える。また、所定時間内にすべてのエリアの音声信号の処理が実行できない場合、処理が実行できなかったエリアの情報は、記憶部１５に記憶される。
音声信号処理部１４では処理負荷に余裕ができた時点で記憶部１５から上述した処理待ちリストに基づき、一部処理を行っていないエリアの音声信号を取得し、残りの処理を施し、記憶部１５へ出力する。処理が終わったものについては処理待ちリストから削除される。
記憶部１５は、例えばＨＤＤ、ＳＳＤ、メモリのような記憶装置で、音声信号処理部１４から出力された音声信号を時間とエリアに対応づけて記憶する。

リアルタイム再生用信号生成部１６は、音声信号処理部１４から得たエリアごとの音声をミキシングすることでリアルタイム再生用の信号を生成し、当該信号を再生装置１９に出力する。例えば、リアルタイム再生用信号生成部１６は、外部から時間に応じて変化する空間内の仮想の聴取点（聴取者の位置）と、仮想の聴取者の向きと、再生環境の情報とを取得し音源のミキシングを行う。再生環境とは、例えば、リアルタイム再生用信号生成部１６で生成した信号を再生する再生装置１９の種類（スピーカか、ヘッドホンかなど）を意味する。
リプレイ再生用信号生成部１７は、時刻を指定されてリプレイ再生が要求された場合に、該当する時刻の音声データを記憶部１５から取得し、リアルタイム再生用信号生成部１６と同様の処理を行い出力する。つまり、リプレイ再生用信号生成部１７は、記憶部１５から得たエリアごとの音声信号をミキシングすることでリプレイ再生用の信号を生成し、当該音声信号を再生装置１９に出力する。

（音声信号処理のフロー）
図２（Ａ）から図２（Ｃ）は、本実施形態の音声信号処理装置１０が実行する処理を示すフローチャートである。
図２（Ａ）は、収音からリアルタイム再生用信号を生成するまでのフローを示す。図２（Ａ）に示されているように、はじめに、マイクアレイ１１により、空間内の音声の収音が行われる（Ｓ１）。収音された各チャンネルの音声の音声信号は、マイクアレイ１１から音源分離部１２へ出力される。
次に、音源分離部１２は、あらかじめ設定された境界（前記空間を分割するための情報）に基づき前記空間を分割したエリアごとの音源を取得するための音源分離を行う（Ｓ２）。分離されたエリアごとの音声信号は、音源分離部１２から処理順序制御部１３へ出力される。

次に、処理順序制御部１３は、分離音解析(Ｓ３)および処理順序設定（Ｓ４）を行う。より詳しくは、処理順序制御部１３による分離音解析（Ｓ３）では、入力されたエリアごとの音声信号を用いて、対象エリアの音声信号とその周辺エリアの音声信号との比較を行い、対象エリアの音声が周辺エリアの音声にマスキングされるか否かを解析・判定する。この解析の結果に基づいて、処理順序制御部１３による処理順序設定（Ｓ４）では、エリアごとの音声信号の処理順序が設定される。処理順序を設定されたエリアごとの音声信号は、処理順序制御部１３から音声信号処理部１４へ出力される。処理順序設定は、処理順序制御と称してもよい。

続いて、音声信号処理部１４は、入力されたエリアごとの音声信号の処理がリアルタイム出力（再生）に間に合うか否かを判定する（Ｓ５）。より詳しくは、音声信号処理部１４は、音声信号処理装置１０の負荷状態を逐次モニタリングし、負荷状態に応じてリアルタイム出力に間に合うか否かを判定する（Ｓ５）。つまり、Ｓ５において、音声信号処理部１４は、信号処理の処理量が所定量以上であるかを判定する。音声信号処理装置１０の負荷が軽く処理が間に合う場合（Ｓ５：Ｙｅｓ）、音声信号処理部１４は、全てのエリアに対応する音声信号に対して処理を行う。Ｓ６では全てのエリアに対応する音声信号に対して処理を行うので、図２（Ａ）のＳ６は「全部処理」と記載してある。その後、音声信号処理部１４は、処理後の音声信号をリアルタイム再生用信号生成部１６および記憶部１５へ出力する。音声信号処理装置１０の負荷が軽い場合とは、負荷が所定量より低い場合のことである。処理が（リアルタイム再生に）間に合うとは、処理が所定時間内に終了することである。

Ｓ５の判定がＮｏの場合、音声信号処理部１４は、処理順序制御部１３で設定された順序に基づいて処理順序が遅い一部のエリアの音声信号は処理を行わずに、音声信号をリアルタイム再生用信号生成部１６と記憶部１５へ出力する（Ｓ９）。それとともに処理が行われなかったエリアの情報は処理待ちリストに記録される。図２（Ａ）では、Ｓ５の判断がＮｏの場合、一部のエリアの音声は処理を行わないので、Ｓ９は「一部を除いた処理」と記載している。Ｓ９では、リアルタイム再生に間に合う範囲で、処理順序の早い順に処理を行うので、処理順序が早いエリアの音声信号にはすべての処理が実行される。

Ｓ６またはＳ９の後、リアルタイム再生用信号生成部１６により、リアルタイム再生用の音声のミキシングが行われる（Ｓ７）。リアルタイム再生用にミキシングされた音声（信号）は、リアルタイム再生用信号として、外部の再生装置１９に出力される。なお、リアルタイム再生用信号は、再生装置１９に出力せずに、放送用信号として音声信号処理装置１０から他の機器に出力（送信）されてもよい。
その後、記憶部１５により、入力された各エリアの音声信号の記録が行われる（Ｓ８）。
なお、リプレイ再生用の音声信号は、記憶部１５のエリアごとの音声信号を用いて作成される。

次に、図２（Ｂ）を用いて、図２（Ａ）のＳ９の後に、音声信号処理装置１０の負荷が小さくなった場合の処理を説明する。より詳しくは、リアルタイム再生に処理が間に合わなかったために、一部の処理が行われていないエリアの音声信号が記憶部１５に記録された後に、音声信号処理装置１０の負荷が減少した場合の処理を説明する。一部の処理が行われていない例として、遅延補正処理、ゲイン補正処理およびエコー除去処理を行うべきであったが、エコー除去処理が行われていない場合を説明する。

音声信号処理部１４は、音声信号処理装置１０の負荷が所定量より小さくなると、処理待ちリストに基づいて記憶部１５から未処理状態のエリアの音声信号の読み出しを行う（Ｓ１１）。このステップは、一部のエリアの信号処理であるので、図２（Ｂ）では「一部読み出し」と記載してある。
続いて、音声信号処理部１４は、処理待ちリストに記録されている処理（音声信号処理部１４において実施されていなかったエコー除去処理）を行う（Ｓ１２）。本実施形態では、遅延補正処理およびゲイン補正処理は行われているがエコー除去処理が行われていなかったエリアの音声信号に対して、エコー除去処理のみを行う。エコー除去処理が行われた音声信号は、記憶部１５へ出力される。

記憶部１５は、入力されたエリアの音声信号を以前のデータ（音声信号）に上書きし記録する（Ｓ１３）。
図２（Ｃ）は、リプレイ再生が要求された場合の処理フローを示している。リプレイ再生が要求されると、リプレイ再生用信号生成部１７は、記憶部１５からリプレイ時間に対応したエリアごとの音声信号を読み出す（Ｓ２１）。
続いてリプレイ再生用信号生成部１７は、リプレイ再生用の音声信号のミキシングを行う（Ｓ２２）。リプレイ再生用にミキシングされた音声信号は、再生装置１９へ出力されるか放送用信号として他の機器に出力される。

（実施形態１の効果）
以上説明したように、本実施形態の音声信号処理装置１０は、エリアごとの音声信号に基づいてエリアごとの信号処理順序を制御（設定）することで、重要度（優先度）の高いエリアに対して確実に音声処理を行いリアルタイム放送することができる。より詳しくは、音声信号処理部１４における信号処理の処理量が所定量以上である場合、従来の手法では、リアルタイム再生時に音声が欠損する可能性があった。これに対し、本実施形態では、音声信号処理部１４における信号処理の処理量が所定量以上である場合、リアルタイム再生に間に合う範囲で、処理順序が早い順に音声信号処理部１４による信号処理を全部行って、音声信号を音声再生部に供給している。よって、重要度の高いエリアについてはすべての音声処理を行って、リアルタイム再生されるようにしている。
また、本実施形態では、リアルタイム再生時にはすべての音声処理が間に合わなかったエリア（重要度の低いエリア）に対しても、後にすべての音声処理を行うので、リプレイ再生時には、完全に音声処理された音声信号を使って再生音を生成できる。

（変形例）
なお、本実施形態においてマイクアレイ１１はマイクロホンからなるとしたが、マイクロホンと反射板などの構造物との組み合わせからなってもよい。
またマイクアレイ１１で使用するマイクロホンは、無指向性マイクロホンであってもよいし、指向性マイクロホンであってもよいし、それらの組み合わせでもよい。つまり、マイクアレイ１１は、少なくとも１つの指向性マイクホンを含んでよい。
本実施形態において音源分離部１２はビームフォーミングを用いてエリアごとの音声収音を行ったが、その他の音源分離の手法を用いてもよい。例えばエリアごとのパワースペクトル密度(ＰＳＤ)を推定し、推定したＰＳＤに基づいてウィナーフィルタによる分離を行ってもよい。ＰＳＤは、ＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙの略である。

本実施形態において処理順序制御部１３は、対象エリアと隣接エリアと比較した場合のマスキングに応じて処理順序を設定したが、処理順序の設定には他の情報・条件を用いてもよい。例えば、イベントの発生するエリアが早く処理されるように設定してもよい。より具体的には、スポーツならゴールの付近が早く処理されるように設定してよいし、街中ならば交差点の付近等多くの人や車が通過する場所が早く処理されるように設定してもよい。あるいは、エリアからの収音により取得した音声信号の特徴に基づいて処理順序を設定してもよい。例えば、音声信号処理装置１０は、エリアの収音信号（音声信号）に人の声を表す音声信号が含まれているか否かを判定する手段を備え、人の声の有無に応じて処理順序を早くする（優先する）ようにしてもよい。あるいは、エリアの収音信号（音声信号）のレベル同士を比較し、比較結果に基づいて、レベルの高いエリアの音声信号の処理順序を早くするようにしてもよい。

あるいはリアルタイム再生用信号生成で設定される仮想の聴取点（仮想の聴取者の位置）および仮想の聴取者の向きに応じて処理順序を制御（設定）するようにしてもよい。例えば、仮想の聴取点からの距離が近いエリアの収音信号ほど処理の順序を早くしてもよい。またマスキングの影響を比較する場合、隣接するエリアと比較するのではなく、聴取点と聴取者の向きから所定の角度範囲を設定してその中のエリアに対してマスキングの影響を比較するようにしてもよい。その際、仮想の聴取点からの距離に応じて遅延補正や音量補正を行った後マスキングの比較をするとよい。この場合、音声信号処理装置１０は、マイクアレイ１１からそれぞれのエリアまでの距離を取得する距離取得部を備える。

また本実施形態において処理順序制御部１３は複数の処理（遅延補正、ゲイン補正、エコー除去処理など）に対して同一の処理順序を設定した（処理順序は固定されていた）が、収音状況（長距離収音、短距離収音等）に応じて異なる処理順序を設定してもよい。一般に、マイクアレイから収音エリアまでの距離が遠い（長い）ほどエコーの影響が強いと考えられる。したがってマイクアレイから収音エリアまでの距離が遠いときは（長距離収音）、遅延補正処理やゲイン補正処理よりもエコー除去処理の順序を早くするという設定をする。しかしながら、マイクアレイから収音エリアまでの距離が近いときは（短距離収音）、エコー除去処理の処理順序は遅くしてもよい。その場合、エリアに対する遅延補正処理やゲイン補正処理などはエコー除去処理よりも処理順序が早くなるように設定する。さらに上述のような複数の条件に応じて、複合的に処理順序を決定してもよい。
本実施形態において音声信号処理部１４は、遅延補正処理、ゲイン補正処理およびエコー除去を行うとしたが、他の処理も行ってもよい。例えば、音声信号処理部１４は、エリアごとの雑音除去処理などを行ってもよい。
また、上記した実施形態では、音声信号処理部１４の処理量が所定量以上の場合、処理順序の遅いエリアについては一部の処理を行わないという説明をしたが、すべての処理を行わないようにしてもよい。

本実施形態においてリプレイ再生用信号生成部１７とリアルタイム再生用信号生成部１６は同様の処理（ミキシング）を行うとした。しかしリプレイ再生用信号生成部１７とリアルタイム再生用信号生成部１６では異なるミキシングをしてもよい。例えば、リアルタイム再生用信号生成部１６には音声信号処理部１４において処理を行っていない音声が入力される可能性があるため、リアルタイム再生用信号生成部１６は、処理の実施済みか否かに応じてミキシングのレベル（クオリティ）を変えてもよい。例えば処理を行っていない音声が入力された場合、アルタイム再生用信号生成部１６はミキシングのレベルを下げてもよい。
図１の構成ではマイクアレイ１１が音声信号処理装置１０に含まれているが、マイクアレイ１１は音声信号処理装置１０に含まれなくてもよい。その場合、音源分離部１２は外部装置であるマイクアレイ１１から音声信号を受け取る。

（ハードウェア構成）
図１に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、たとえば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからＦＰＧＡ上に自動的に専用回路を生成すればよい。ＦＰＧＡは、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウェアとして実現するようにしてもよい。さらに、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。

図３は音声信号処理装置１０のハードウェア構成の一例を示す図である。この例において、音声信号処理装置１０は、ＣＰＵ１０ａ、ＲＡＭ１０ｂ、ＲＯＭ１０ｃ、外部メモリ１０ｄ、通信インターフェース（Ｉ／Ｆ）１０ｅ、表示部１０ｆ、入力部１０ｇ及びマイクアレイ１１を有する。ＣＰＵ１０ａは、ＲＡＭ１０ｂ、ＲＯＭ１０ｃ、外部メモリ１０ｄ等に格納されたプログラムを実行することにより、上記した実施形態１の音声信号処理装置１０の各部の機能を実現することができる。音声信号処理装置１０は、ＣＰＵ１０ａが必要なプログラムを読み出して実行することにより、図２に示す各処理を実現することができる。通信Ｉ／Ｆ１０ｅは、外部の装置や機器との通信を行うインターフェースである。音声信号処理装置１０は、通信Ｉ／Ｆ１０ｅを介して、図１の再生装置１９と通信することができる。表示部１０ｆは、各種ディスプレイにより構成することができる。表示部１０ｆは、例えば、音源分離処理の分離状況を表示することができる。入力部１０ｇは、キーボード、ポインティングデバイス（マウスなど）、タッチパネルおよび各種スイッチにより構成することができる。ユーザは、入力部１０ｇを用いて、音声信号処理装置１０にリプレイ再生を要求することができる。なお、音声信号処理装置１０は、エリア内に存在する被写体の撮像を行う撮像部をさらに備えてもよい。

実施形態２
実施形態１ではマイクアレイ１１と音声信号処理部１４とリアルタイム再生用信号生成部１６とリプレイ再生用信号生成部１７とが１つの装置１０に含まれる構成を説明したが、本発明はこのような構成に限定されない。例えば、マイクアレイと音声信号処理部とを１つの装置に含むようにし、再生用信号生成部は当該装置から分離した構成（システム）でも実施することができる。また、マイクアレイは指向性マイクアレイを採用してもよい。指向性マイクアレイで収音した音声の音声信号は、直ちに、音声信号処理部で処理してもよい。このような構成を有する音声信号処理システムを、実施形態２として説明する。なお、実施形態１と同様な構成部には同じ参照符号を付ける。

（音声信号処理システム２０の構成）
図４は実施形態２の音声信号処理システム２０の構成を示すブロック図である。音声信号処理システム２０は、収音処理部２０ａと再生信号生成部２０ｂとを有する。収音処理部２０ａと再生信号生成部２０ｂは、有線もしくは無線で相互接続されており、互いに有線通信手段もしくは無線通信手段によってデータの送受信を行う。
収音処理部２０ａは、指向性マイクアレイ２１、音声信号処理部２２、伝送順序（送信順序）制御部２３、送信部２４および第１記憶部２５を有する。第１記憶部２５は未送信リストを保持している。収音処理部２０ａの各構成部は、バス１８ａにより相互接続されている。

指向性マイクアレイ２１は、例えば複数のショットガンマイクなどからなり、空間をＮ（Ｎ＞１）のエリアに分割した各エリアの音声を収音するように配置される。収音したエリアごとの音声は、Ａ／Ｄ変換されたのち、所定の時間フレームサイズごとに音声信号処理部２２へ出力される。
音声信号処理部２２は、実施形態１の音声信号処理部１４のように遅延補正処理、ゲイン補正処理、雑音除去処理およびエコー除去処理などを行う。処理を行ったエリアごとの音声信号は、音声信号処理部２２から伝送順序制御部２３へ出力される。

伝送順序制御部２３は、実施形態１の処理順序制御部１３と同様に、エリアの音声のマスキングの影響や、エリアの音声のレベル（大小）、エリアの音声の特徴量、エリアの音声の定常性などから伝送順序を制御（設定）する。伝送順序制御部２３は、たとえば、時間ｔおよびエリアaにおける音声信号Ｓ（t，a）の非定常性を判定する。所定の時間区間内に非定常音が発生している場合、伝送順序制御部２３は、そのエリアにおいて重要なイベントが発生している可能性が高いと判断し、非定常音の頻度が大きい順に伝送を行うように伝送順序を設定する。つまり、非定常音の頻度が大きいエリアは重要度（優先度）が高いエリアであると考える。本実施形態の伝送順序制御部２３は、非定常音の頻度の大きさという所定の条件に基づいて、複数のエリアについて優先度を決め、優先度の高いエリアの伝送順序を早くし（優先し）、優先度の低いエリアの伝送順序を遅くするという設定をする。

さらに、伝送順序制御部２３は、収音処理部２０ａと再生信号生成部２０ｂとの間の信号伝送量と、設定された伝送順序（音声信号送信の順序）とに基づいて、音声信号Ｓ（t，a）がリアルタイム再生（放送）に間に合うか否かをエリアごとに判定する。この判定は、例えば、収音処理部２０ａと再生信号生成部２０ｂとの間の信号伝送量が所定量以上いか否かにより行われる。リアルタイム再生に間に合うと判定されたエリアの音声信号は、伝送順序制御部２３から送信部２４へ出力される。一方、間に合わないと判定されたエリアの音声信号（信号伝送量が所定量以上の場合であって、伝送順序が遅いエリアの音声信号）は、伝送順序制御部２３から第１記憶部２５へ出力される。送信されなかった音声データは、第１記憶部２５内の未送信リストで管理（記憶）される。つまり、送信部２４からの音声信号の送信量が所定量以上である場合、送信順序が遅いエリアについては、送信部２４による送信を行わないようにしている。

収音処理部２０ａと再生信号生成部２０ｂとの信号伝送量が所定量よりも小さくなると、伝送順序制御部２３は、第１記憶部２５に記憶された未送信のエリアの音声信号を読み出し、送信部２４へ出力する。
送信部２４は、伝送順序制御部２３から入力されたエリアごとの音声信号を再生信号生成部２０ｂへ順次送信する。再生信号生成部２０ｂは音声再生部と称することができる。
再生信号生成部２０ｂは、受信部２６、リアルタイム再生用信号生成部２７、第２記憶部２８およびリプレイ再生用信号生成部２９を有する。再生信号生成部２０ｂの各構成部は、バス１８ｂにより相互接続されている。
受信部２６は、送信部２４から出力された音声信号を受信し、音声信号をリアルタイム再生用信号生成部２７および第２記憶部２８へ出力する。
リアルタイム再生用信号生成部２７、第２記憶部２８およびリプレイ再生用信号生成部２９は、実施形態１のリアルタイム再生用信号生成部１６、記憶部１５およびリプレイ再生用信号生成部１７とほぼ同様の機能を有するので、説明を省略する。

（音声信号処理システム２０の処理フロー）
次に、音声信号処理システム２０の処理フローを、図５（Ａ）から図５（Ｃ）を参照して説明する。
図５（Ａ）に示すように、はじめに、指向性マイクアレイ２１において空間内の音の収音が行われる（Ｓ３１）。収音された各エリアの音声の音声信号は、指向性マイクアレイ２１から音声信号処理部２２へ出力される。
入力された音声信号に対して、音声信号処理部２２は遅延補正などの処理を行う（Ｓ３２）。処理された音声信号は、音声信号処理部２２から伝送順序制御部２３へ出力される。

伝送順序制御部２３は、入力された処理済み音声信号を用いてエリアごとの音声の非定常性の検出（検知）を行う（Ｓ３３）。つまり、伝送順序制御部２３において、エリアごとの音声信号に非定常音を表す音声信号が含まれているか否かを検知する非定常音検知が行われる。
また、伝送順序制御部２３は、Ｓ３３の非定常音検知の結果に応じて伝送順序を設定する（Ｓ３４）。伝送順序制御部２３は、例えば、非定常音が検知されたエリアについて伝送順序が早くなるよう（優先されるよう）にエリアごとの音声信号の伝送順序を設定する。
さらに、伝送順序制御部２３は、処理済の音声信号の伝送がリアルタイム再生に間に合うかの判定（Ｓ３５）を行う。より詳しくは、エリアごとの（に）順番が設定されたデータ（音声信号）について、伝送順序制御部２３は、送信部２４と受信部２６との間の通信負荷状態に応じて、音声信号の伝送完了までの時間を推定し、リアルタイム再生に間に合うか否かを判定する。判定結果に基づいて、リアルタイム再生に間に合うと判定された場合、当該エリアの音声データ（音声信号）は伝送順序制御部２３から送信部２４へ出力される。そして、送信部２４は、エリアの音声データを受信部２６に送信する（Ｓ３６）。

受信部２６は、送信部２４から送信されたエリアの音声信号を受信する（Ｓ３７）。受信されたエリアの音声信号は、受信部２６からリアルタイム再生用信号生成部２７および第２記憶部２８へ出力される。
Ｓ３８およびＳ３９は、実施形態１のＳ１７およびＳ１８（図２）と同様のため、説明は省略する。
一方、Ｓ３５において処理済の音声信号の伝送（音声信号送信）がリアルタイム再生に間に合わないと判定された場合、当該エリアの音声データ（音声信号）は、伝送順序制御部２３から第１記憶部２５へ出力され、第１記憶部２５に記録される（Ｓ４０）。音声データは、第１記憶部２５において、処理フレーム番号（もしくは時間）、どのエリアの音であるか等が分かるように記録される。つまり第１記憶部２５内で、音声データは所定の情報と紐づけられて記録（記憶）される。

次に、図５（Ａ）のステップＳ３５において処理音声伝送がリアルタイム再生に間に合わなかった場合で、当該エリアの音声信号が第１記憶部２５に記録された場合の処理を図５（Ｂ）に基づいて説明する。
伝送順序制御部２３は、送信部２４と受信部２６との間の伝送負荷が所定量より小さくなると、第１記憶部２５から未送信のエリアの音声信号の読み出しを行う（Ｓ４１）。読み出しは、音声信号のフレーム番号の小さいものから行う。つまり、読み出しは、より古い時間の音声信号から行う。読み出された音声信号は、伝送順序制御部２３から送信部２４へ出力される。
Ｓ４２はＳ３６と同様のため説明を省略する。
Ｓ４２の後、受信部２６において音声データを受信する（Ｓ４３）。受信した音声データは、受信部２６から第２記憶部２８に出力される。
Ｓ４４はＳ３９と同様のため説明を省略する。
リプレイ再生が要求された場合の処理フローは図５（Ｃ）に示されている。この処理フローのＳ５１とＳ５２は実施形態１のＳ２１とＳ２２（図２（Ｃ））と同様のため説明を省略する。

（実施形態２の効果）
以上説明したように、実施形態２では、エリアごとの音声信号の非定常性（非定常音の発生頻度）に基づいて音声信号の伝送順序を制御・設定することで、より重要度の高いエリアに対して、確実に音声処理を行った音声信号でリアルタイム放送することができる。より詳しくは、送信部２４から受信部２６への信号送信量が所定量以上である場合、従来の手法ではリアルタイム再生時に音声が欠損する可能性がある。これに対し、本実施形態では、リアルタイム再生に間に合う範囲で、設定された送信順序に従って音声信号を送信部２４から送信している。そして、送信順序が遅いエリアについては送信部２４による送信を行わないようにしている。よって、重要度の高いエリア（送信順序が早いエリア）については、確実に音声信号が受信部２６により受信されてリアルタイム再生用信号生成部２７に届くようになっている。このように、実施形態２の信号処理システム２０では、重要度の高い音声信号はリアルタイム再生に間に合うように音声再生部に送信される。
また、本実施形態では、リアルタイム再生には伝送（送信）が間に合わなかったエリア（重要度の低いエリア）に対しても、後に音声信号を受信部２６に送信するので、リプレイ再生時には、すべてのエリアの音声信号音を使って再生音を生成できる。

（変形例）
なお、実施形態２ではエリアごとの音声の収音には指向性マイクアレイ２１を用いたが、実施形態１のようにマイクアレイを用いて収音した後、音源分離を行ってもよい。また、無指向性のマイクロホンを、設定したエリアそれぞれの略中心に配置して音声を取得するようにしてもよい。
図４の構成では指向性マイクアレイ２１が収音処理部２０ａに含まれているが、指向性マイクアレイ２１は収音処理部２０ａに含まれなくてもよい。その場合、音声信号処理部２２は外部装置である指向性マイクアレイ２１から音声信号を受け取る。

実施形態３
実施形態１では音声信号のみを処理する音声信号処理装置を説明したが、本発明は音声信号と映像信号を処理するシステムでも実施することができる。音声信号処理と映像信号処理が可能なシステムを、撮影処理システムと称して、以下に説明する。なお、本実施形態の撮影処理システムは音声映像出力システムと称することもできる。また、実施形態１と同様な構成部には同じ参照符号を付ける。
図６は撮影処理システム３０の構成を示すブロック図である。撮影処理システム３０は、音声収音制御装置３０ａと映像撮影制御装置３０ｂとを有する。音声収音制御装置３０ａと映像撮影制御装置３０ｂは、バス１８により相互接続されている。
音声収音制御装置３０ａは、マイクアレイ３１、分離順序制御部３２、音源分離部３３、記憶部３４、リアルタイム再生用信号生成部３５、リプレイ再生用信号生成部３６および分離状況表示部３７を有する。音声収音制御装置３０ａの各構成部は、バス１８により相互接続されている。
マイクアレイ３１は実施形態１のマイクアレイ１１と同様であるので、マイクアレイ３１の説明は省略する。

分離順序制御部３２は、後述する撮像部４１が撮像した映像を複数のエリア（例えば、エリアＡ、Ｂ、Ｃ、…）に分割し、分割したエリア内に例えば人、車、楽器のような音源となりうる被写体があるか否かを判定する。判定結果に基づいて、分離順序制御部３２は、音源分離処理の処理順序を設定する。より詳しくは、エリア内に音源となりうる被写体があった場合、分離順序制御部３２は、当該エリアの音源分離処理の処理順序（順番）を早くするように設定する。エリア内に音源となりうる被写体が複数ある場合（例えば、エリア内に人が複数人いる場合）、分離順序制御部３２は、被写体の数に応じて音源分離処理の処理順序を早くするように設定する。例えば、エリアＡに１人の被写体がいて、エリアＢに５人の被写体がいた場合、エリアＢの音源分離処理がエリアＡの音源分離処理より早くなるように処理順序を設定する。つまり、被写体の数が多いエリアは、音源候補となる物体（者・物）が多いので、重要度（優先度）の高いエリアであると考える。本実施形態の分離順序制御部３２は、所定の条件に基づいて、複数のエリアについて優先度を決め、優先度の高いエリアの分離順序を早くし、優先度の低いエリアの分離順序を遅くするという設定をする。

また、分離順序制御部３２は、後述するリプレイ設定部４４においてリプレイ再生が設定されると、リプレイ再生（放送）の開始時刻、終了時刻、リプレイ放送までの残り時間、リプレイでの視点（カメラの向き）などをリプレイ設定部４４から受信する。そして、受信した情報に基づいて、分離順序制御部３２は、音源分離処理の処理順序を再設定する。より詳しくは、分離順序制御部３２は、後述する未分離リストを参照し、リプレイ開始からリプレイ終了までの間の未分離エリアを抽出する。そして、抽出されたエリアの音源分離処理順序が早くなる（優先される）ように音源分離処理の処理順序を再設定する。なお、リプレイ再生が設定された時点においてもリアルタイム再生のための音源分離処理が行われている場合は、リプレイ再生の処理はリアルタイム再生の処理を邪魔しないように実行される。そのため、リプレイ再生が設定された場合のリプレイ再生処理とリアルタイム再生処理の割合を、予め設定しておいてもよい。例えば、リプレイ再生が設定された場合、リアルタイム再生処理は全エリアのうち処理優先順位の８０％に対して実行され、残りの時間はリプレイ再生処理に充てる（リプレイ再生処理は、残りの２０％に対して実行される）ようにしてもよい。

分離順序制御部３２は、設定した音源分離処理の処理順序の情報を音源分離部３３および分離状況表示部３７へ出力する。
音源分離部３３は、分離順序制御部３２から入力された処理順序に従って音源分離処理を行う。音源分離処理の内容は、実施形態１と同様であるため説明を省略する。本実施形態の音源分離部３３は、さらに、音源分離処理の処理量（負荷状態）を監視し、指定された順序どおりにエリアの音声（音源）の分離処理を行い、全エリアの音源分離処理がリアルタイム再生に間に合うかを判定する。リアルタイム再生に間に合わないと判定した場合、音源分離部３３は、一部の音声信号の音源分離処理を行わず、当該音声信号に関する情報を未分離リストとして分離順序制御部３２へ出力する。より詳しくは、リアルタイム再生に間に合う範囲で、処理順序の早い順に（重要度の高い順に）音源分離処理を行い、処理順序の遅いエリアについては音源分離処理を行わない。未分離リストには音源分離処理しなかった音声信号のエリアや時間などの情報（時間情報は処理フレーム番号などの時間に対応する情報でもよい）が記録される。音源分離処理された音声信号は、音源分離部３３からリアルタイム再生用信号生成部３５および記憶部３４へ出力される。

未分離リストの音声については、音源分離処理の負荷が所定値よりも低くなった時点で、未分離リストに記録されている情報により特定される音声信号が、記憶部３４から音源分離部３３によって読み出される。音源分離部３３は、当該音声信号を分離処理し、再度、記憶部３４へ出力（記録）する。音源分離処理が実行された音声信号のエリアおよび時間の情報は、未分離リストから削除される。
記憶部３４は、マイクアレイ３１に接続されており、マイクアレイ３１が収音した全てのチャンネルの音声は、記憶部３４に記録される。また記憶部３４は、音源分離部３３にも接続されており、音源分離部３３で分離された音声信号はエリアおよび時間と対応づけられて記憶部３４に記録される。

リアルタイム再生用信号生成部３５は、後述するリアルタイム視点切替部４３からの視点（カメラの向き）切替に応じた音声信号を生成し、当該音声信号を再生装置１９ａへ出力する。本実施形態の再生装置１９ａは、音声の再生と映像の再生を行うことができる。
リプレイ再生用信号生成部３６は、後述するリプレイ設定部４４からの視点およびリプレイの開始時刻と終了時刻に応じて、記憶部３４から該当する時間のエリアごとの分離音声信号を取得する。そして、リプレイ再生用信号生成部３６は、当該分離音声信号をリプレイ再生音声信号として、再生装置１９ａに出力する。

分離状況表示部３７は表示装置であり、分離順序制御部３２に接続されており、未分離リストから時間ごとのエリアの音声の分離状況を表示する。図７（Ａ）は、分離状況表示部３７の表示画面６０の一例を示している。表示画面６０は、タイムバー６１、タイムカーソル６２、分離終了割合表示６３、全体エリア表示６４、未分離エリア６５および分離済みエリア６６を有する。
タイムバー６１は、現在までの録音時間を表すバーで、タイムカーソル６２の位置が表示画面の時間を表す。分離終了割合表示６３は、全エリア中何割のエリアの分離処理が終了しているか表示する。図７（Ａ）の例ではエリアは４０個あり、その中、２０個のエリアの分離処理が終了しているため、分離終了割合表示６３は５０％となっている。全体エリア表示６４は、対象としているエリア全体を示す。
全体エリア表示６４内の小さな四角がエリア分割を表しており、分離処理が終わっていないエリアは白いエリア（未分離エリア）６５として表示され、分離処理が終わっているエリアは黒いエリア（分離済みエリア）６６として表示されている。未分離エリア６５と分離済みエリア６６は、違いが分かる形で表示する。

映像撮影制御装置３０ｂは、撮像部４１、画像記憶部４２、リアルタイム視点切替部４３およびリプレイ設定部４４を有する。映像撮影制御装置３０ｂの各構成部は、バス１８により相互接続されている。
撮像部４１は、複数のカメラ（図示せず）を有する。各カメラは、動画を撮影（撮像）することができる。撮像部４１は、マイクアレイ３１で収音する全てのエリア含む空間を撮像する。撮像した映像（画像）は、撮像部４１から画像記憶部４２へ出力される。
画像記憶部４２は、記憶装置であり、撮影した全カメラ分の画像を記録（記憶）する。

リアルタイム視点切替部４３は、例えば撮像部４１の複数台のカメラを切り替えるスイッチャーであり、切り替えた（選択された）カメラの映像をリアルタイム映像出力として再生装置１９ａへ出力する。また、リアルタイム視点切替部４３は、切り替えたカメラの視点情報をリアルタイム再生用信号生成部３５へ出力する。
リプレイ設定部４４は、リプレイの開始時刻、リプレイの終了時刻、リプレイを放送する時刻、リプレイの映像視点などを設定する。リプレイ設定部４４は、設定した情報に基づいて画像記憶部４２から映像を読み出し、リプレイ映像出力として再生装置１９ａへ出力する。さらに、リプレイ設定部４４は、設定した情報を分離順序制御部３２およびリプレイ再生用信号生成部３６へ出力する。

（撮影処理システム３０の処理フロー）
図８（Ａ）と図８（Ｂ）は、本実施形態の撮影処理システム３０の動作および処理を説明するフローチャートである。なお、以下の説明において、リアルタイム視点切替部４３は、所定のタイミングで（Ｓ７３）、撮像部４１のカメラを切り替える（カメラは複数あり、現在使用しているカメラ以外のカメラを選択するという意）とする。
図８（Ａ）に基づいて、リアルタイム再生を行う場合を説明する。
まず、マイクアレイ３１において収音が行われ（Ｓ６１）、撮像部４１において撮像が行われる（Ｓ７１）。マイクアレイ３１を介して取得された音声データ（音声信号）は、記憶部３４および音源分離部３３へ出力される。撮像部４１を介して取得された画像データ（画像信号）は、画像記憶部４２、リアルタイム視点切替部４３および分離順序制御部３２へ出力される。

次に、記憶部３４に入力された音声データは、記憶部３４に記録される(Ｓ６２)。また、画像記憶部４２に入力された画像データは、画像記憶部４２に記録される(Ｓ７２)。
続いて、分離順序制御部３２は、入力された画像データからエリアごとの音源となりうる被写体を検出する（Ｓ６３）。分離順序制御部３２は、例えば、顔認識技術やオブジェクト認識技術により被写体の検出を行う。
さらに分離順序制御部３２は、Ｓ６３において検出されたエリアごとの音源となりうる被写体の数に基づいて、音源分離の順序を設定する（Ｓ６４）。つまり、本実施形態では、音源位置情報に基づいて音源分離の順序を設定している。設定された音源分離の順序は、分離順序制御部３２から音源分離部３３へ出力される。

次に、音源分離部３３において音源分離の処理負荷状況に応じてリアルタイム再生に全エリアの音源分離処理が間に合うか否かを判定する（Ｓ６５）。この判定はエリアごと行われる。つまり、リアルタイム再生に間に合う範囲で、分離順序の早い順に、どのエリアまで音源の分離処理を行うかを判定する（決める）。
Ｓ６５において音源分離処理がリアルタイム再生に間に合うと判定されたエリアは、マイクアレイ３１から入力された複数チャンネルの音声信号を用いて音源分離処理される（音源分離部３３が、エリアの音声信号を分離して抽出する）（Ｓ６６）。分離されたエリアの音声信号は、音源分離部３３から記憶部３４およびリアルタイム再生用信号生成部３５へ出力される。
記憶部３４は、Ｓ６６で生成されたエリアの分離音声の音声信号を記録する（Ｓ６７）。

ここで、リアルタイム視点切替部４３により、視点の切り替えが行われたとする（Ｓ７３）。この視点切替により、別のカメラが選択される。切り替えられた視点情報は、リアルタイム視点切替部４３からリアルタイム再生用信号生成部３５へ出力される。
リアルタイム再生用信号生成部３５は、音源分離部３３から入力されたエリアごとの分離音（音声信号）とリアルタイム視点切替部４３から入力された視点情報とに基づいて、リアルタイム再生用の音声信号を生成する（Ｓ６８）。Ｓ６８におけるリアルタイム再生用の音声信号の生成は、図８ではリアルタイムレンダリングと記載した。
最後に、Ｓ６８で生成されたリアルタイム再生用の音声信号とＳ７３の視点切替により選択されたカメラの映像とが、再生装置１９ａに出力される（Ｓ６９、Ｓ７４）。
なお、Ｓ６５においてリアルタイム再生に音源分離処理が間に合わないと判定されたエリアについては、未分離の時間情報とエリア情報が未分離リストに記録（追加）されることにより、未分離リストが生成される（Ｓ７０）。

続いて図８（Ｂ）を用いてリプレイ設定部４４においてリプレイが設定された場合のフローを説明する。
はじめにリプレイ設定部４４においてリプレイの設定が行われる（Ｓ８１）。設定されたリプレイ開始時刻、終了時刻、視点情報などは、リプレイ設定部４４から分離順序制御部３２とリプレイ再生用信号生成部３６へ出力される。
続いて、分離順序制御部３２は、未分離リストの確認を行う（Ｓ８２）。分離順序制御部３２は、未分離リストからリプレイ時間に含まれる未分離エリアの情報を抽出する。そして、分離順序制御部３２は、抽出した未分離エリアの情報に基づいて、分離順序を再設定する（Ｓ８３）。再設定された分離順序は、分離順序制御部３２から音源分離部３３へ出力される。その後、音源分離（Ｓ８４）と記録（Ｓ８５）が実行される。Ｓ８４は図８（Ａ）のＳ６６と同様な処理であり、Ｓ８５は図８（Ａ）のＳ６７と同様な処理であるので、詳細は省略する。

続いて、リプレイ再生用信号生成部３６は、リプレイ設定部４４からの入力に基づいて、記憶部３４から該当する時間およびエリアの音声信号を読み出す（Ｓ８６）。
一方、リプレイ設定部４４は、画像記憶部４２から、リプレイ時間および視点（選択されているカメラ）に対応する映像（画像データ）を読み出す（Ｓ８７）。
続いて、リプレイ再生用信号生成部３６は、リプレイ再生用信号を生成する（Ｓ８８）。Ｓ８８におけるリプレイ再生用の音声信号の生成は、図８ではリプレイレンダリングと記載した。
最後に、Ｓ８８で生成された音声信号は、リプレイ音声出力として、リプレイ再生用信号生成部３６から再生装置１９ａに出力される（Ｓ８９）。また、この音声信号と同期して、Ｓ８７で読み出された映像データは、リプレイ設定部４４からリプレイ映像出力として再生装置１９ａに出力される（Ｓ９０）。

（実施形態３の効果）
本実施形態によれば、音源位置情報に応じて音源分離の順序を設定することで、処理負荷によってすべてのエリアの音源分離がリアルタイム再生に間に合わない場合でも、音源（候補）のあるエリアの音声信号は優先的に音源分離され音声信号を取得できる。音源候補のあるエリアは、重要度の高いエリアである。したがって、本実施形態によれば、重要度の高いエリアの音声信号を欠くことなくリアルタイム音声再生を行うことができる。

（変形例）
なお、本実施形態において分離順序制御部３２は撮像部４１で撮像した映像を元に分離順序を制御したが、分離順序制御部３２はその他の情報を元に分離順序を制御・設定してもよい。例えば、撮影処理システム３０は、マイクアレイ３１からエリアまでの距離を取得する距離取得部をさらに備えてもよい。そして、分離順序制御部３２は、距離取得部が取得した距離に基づいて、分離順序を制御してもよい。マイクアレイ３１から遠いエリアと近いエリアでは音声の伝搬にかかる時間が異なる。つまり、遠いエリアの音声は伝搬にかかる時間が長いので、遅延量が大きくなる。よって、通りエリアの音声については、分離処理を急ぐ必要がある。そこで、分離順序制御部３２は、マイクアレイ３１からの距離が遠いエリアほど処理のタイミングを早くするという設定をしてもよい。

テレビ放送などの生中継では、時間調整や不慮の事態に対応するため、実際の撮影から一定時間の遅延（例えば、数秒から数分程度の遅延）を持たせて放送するようなシステム（技法）が知られている。そのようなシステムを用いた場合、分離順序制御部３２は撮像部４１で撮像した遅延時間分の映像に含まれる事象に応じて分離順序を制御してもよい。例えば、スポーツの試合のライブ中継において２分の遅延を持たせて放送する場合、２分間の試合展開から注目領域を設定して、その注目領域に応じて各エリアの分離順序を制御してもよい。

また、音声の連続性を確保するため、分離順序制御部３２は音源分離部３３の音源分離の結果からエリアごとの複数の処理フレームの平均音量を取得し、当該平均音量に基づいて音源分離の順序を制御してもよい。例えば、過去（直近の）の所定数のフレームのエリアごとの平均音量から、当該エリアに音源が存在する度合い（音源存在度）を推定し、音源存在度の高いエリアの処理順序を早くなるように設定してもよい。また音源は移動する可能性があるため、音源存在度の高いエリアの周辺も処理順序が早くなるように設定されてもよい。
本実施形態において記憶部３４は、マイクアレイ３１が収音した全てのチャンネルの音声の音声信号を記録したが、撮影時間やマイクロホンの数によっては音声信号の記録量が大きくなってしまう可能性がある。記録量があまり大きくなるのを防ぐために、記憶部３４は、全エリアの分離処理が行われた時間に対応する音声信号を削除してもよい。

本実施形態において、分離状況表示部３７の表示画面６０（図７（Ａ））は、分離処理が完了しているか否かの表示を白黒で行ったが、分離順序制御部３２で設定された分離順序を表示してもよい。例えば、図７（Ｂ）に示すように、表示画面６０において、エリア表示の中に、分離順序を示す数字（図中、１〜１３の数字）が表示されてもよい。あるいは、図７（Ｂ）の１〜１３の数字の代わりに（または１〜１３の数字に加えて）、分離順序に応じたカラー（グラデーションを含む）を用いた表示をしてもよい。

また、分離状況表示部３７は、図７（Ａ）または図７（Ｂ）の表示画面６０に、リアルタイム再生時の視点、リプレイ再生時の視点、被写体の位置などを重ねて表示するようにしてもよい。さらに、分離状況表示部３７は、図７（Ａ）または図７（Ｂ）の全エリア表示６４を、実際の空間の画像に重ねて表示してもよい。
なお、分離状況表示部３７による表示は、図７（Ａ）や図７（Ｂ）のような表示に限定されず、処理の状態（分離状況）が分かるような表示であればよい。例えば、図７（Ｃ）のように、分離状況は、分離終了パーセント（分離終了割合表示）を縦軸とし、時間を横軸にしたグラフで示してもよい。図７（Ｃ）は、分離終了パーセントを時系列に折れ線グラフで表示したものであり、シンプルな形式で分離状況を示している。

本実施形態では分離状況表示部３７は表示機能だけを有するとしたが、ユーザインタフェース機能も有してもよい。例えば、表示画面６０がタッチパネルを構成し、当該タッチパネルが分離順序制御部３２に対するユーザインタフェースとして機能してもよい。このような構成にすると、例えば、ユーザが表示画面６０上の未分離エリア６５を少なくとも１つ選択し、タイムカーソル６２を用いて時間区間を選択することで、指定されたエリアおよび指定された時間区間の分離の順序を早くできるようになる。
図６に示した構成には、遅延補正、ゲイン補正、エコー除去等を行う音声信号処理部（図１の音声信号処理部１４と同様な処理部）が含まれていないが、必要に応じて、例えば、音源分離部３３と記憶部３４の間に音声信号処理部を設けてもよい。
図６の構成ではマイクアレイ３１が音声収音制御装置３０ａに含まれているが、マイクアレイ３１は音声収音制御装置３０ａに含まれなくてもよい。その場合、音源分離部３３は外部装置であるマイクアレイ３１から音声信号を受け取る。

（他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラム（コンピュータプログラム）を、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（たとえば、ＡＳＩＣ）によっても実現可能である。

１０…音声信号処理装置、１１…マイクアレイ、１２…音源分離部、１３…処理順序制御部、１４…音声信号処理部、１５…記憶部、１６…リアルタイム再生用信号生成部

Claims

収音対象空間の音を収音することで生成される音データを取得する取得手段と、
前記収音対象空間内の複数のエリアの少なくとも１つの優先度を決定する決定手段と、
前記取得手段により取得された音データを処理することにより得られる処理済みデータであって前記複数のエリアそれぞれに対応する処理済みデータを出力する出力手段と、を有し、
前記出力手段は、前記複数のエリアそれぞれに対応する処理済みデータを得るための処理に係る処理時間が所定の閾値より長い場合に、前記取得手段により取得された音データに対して前記所定の閾値以下の処理時間の処理を行うことにより得られる第１の処理済みデータであって前記複数のエリアのうち前記決定手段により決定された優先度に基づいて選択された１以上のエリアに対応する前記第１の処理済みデータを出力した後に、前記取得手段により取得された音データを処理することにより得られる第２の処理済みデータであって前記複数のエリアのうち前記１以上のエリアとは異なるエリアを含む他の１以上のエリアに対応する前記第２の処理済みデータを出力することを特徴とする音データ処理装置。
前記第１の処理済みデータを得るための処理および前記第２の処理済みデータを得るための処理は、遅延補正処理、ゲイン補正処理およびエコー除去処理の少なくとも１つを含むことを特徴とする請求項１に記載の音データ処理装置。
前記第１の処理済みデータを得るための処理および前記第２の処理済みデータを得るための処理は、前記音データから特定のエリアの音を抽出する音源分離処理を含むことを特徴とする請求項１に記載の音データ処理装置。
前記収音対象空間の撮像画像を取得する第２の取得手段をさらに有し、
前記決定手段は、前記優先度を、前記第２の取得手段により取得された撮像画像内の所定の物体の位置に基づいて決定することを特徴とする請求項１乃至３の何れか１項に記載の音データ処理装置。
前記優先度は、前記所定の物体の位置を含まないエリアに比べて、前記所定の物体の位置を含むエリアに高い優先度が設定されるように決定されることを特徴とする請求項４に記載の音データ処理装置。
前記取得手段により取得された音データに基づく音と共に再生される画像に対応する視点情報を取得する第３の取得手段をさらに有し、
前記決定手段は、前記優先度を、前記第３の取得手段により取得された視点情報に基づいて決定することを特徴とする請求項１乃至３の何れか１項に記載の音データ処理装置。
前記優先度は、前記視点情報に対応する視点の位置を含まないエリアに比べて、前記視点情報に対応する視点の位置を含むエリアに高い優先度が設定されるように決定されることを特徴とする請求項６に記載の音データ処理装置。
前記優先度は、前記視点情報に対応する視線と物体との交点の位置を含まないエリアに比べて、前記視点情報に対応する視線と物体との交点の位置を含むエリアに高い優先度が設定されるように決定されることを特徴とする請求項６に記載の音データ処理装置。
前記取得手段により取得された音データに基づく再生音に対応する聴取点に関する情報を取得する第４の取得手段をさらに有し、
前記決定手段は、前記優先度を、前記第４の取得手段により取得された聴取点に関する情報に基づいて決定することを特徴とする請求項１乃至３の何れか１項に記載の音データ処理装置。
前記優先度は、前記聴取点の位置を含まないエリアに比べて、前記聴取点の位置を含むエリアに高い優先度が設定されるように決定されることを特徴とする請求項９に記載の音データ処理装置。
前記取得手段により取得された音データに基づいて、前記収音対象空間内における所定のイベントの発生位置を判定する判定手段をさらに有し、
前記決定手段は、前記優先度を、前記判定手段により判定された発生位置に基づいて決定することを特徴とする請求項１乃至３の何れか１項に記載の音データ処理装置。
前記優先度は、前記所定のイベントの発生位置を含まないエリアに比べて、前記所定のイベントの発生の位置を含むエリアに高い優先度が設定されるように決定されることを特徴とする請求項１１に記載の音データ処理装置。
前記決定手段により決定された優先度に基づいて、前記複数のエリアの処理順序を設定する設定手段と、
前記設定手段により設定された前記処理順序に従って、前記複数のエリアそれぞれに対応する処理済みデータを得るための処理を実行する実行手段と、
をさらに有し、
前記出力手段は、前記実行手段により実行される処理に含まれる処理によって得られた前記第１の処理済みデータを出力することを特徴とする請求項１乃至１２の何れか１項に記載の音データ処理装置。
前記決定手段は、前記取得手段により取得される音データを生成するために前記収音対象空間内の音を収音するマイクロホンの位置に基づいて前記優先度を決定することを特徴とする請求項１乃至１３の何れか１項に記載の音データ処理装置。
前記出力手段により出力された前記第１の処理済みデータには、前記決定手段により決定された優先度に基づいて選択された前記１以上のエリアに対応する音のデータが含まれ、前記１以上のエリアとは異なるエリアに対応する音のデータは含まれないことを特徴とする請求項１乃至１４の何れか１項に記載の音データ処理装置。
前記決定手段は、各エリアに対応する音量と各エリアに対応するマスキングの影響との少なくとも何れかに基づいて前記優先度を決定することを特徴とする請求項１乃至１５の何れか１項に記載の音データ処理装置。
収音対象空間の音を収音することで生成される音データを取得する取得工程と、
前記収音対象空間内の複数のエリアの少なくとも１つの優先度を決定する決定工程と、
前記取得工程で取得された音データを処理することにより得られる処理済みデータであって前記複数のエリアそれぞれに対応する処理済みデータを出力する出力工程と、を有し、
前記出力工程においては、前記複数のエリアそれぞれに対応する処理済みデータを得るための処理に係る処理時間が所定の閾値より長い場合に、前記取得工程により取得された音データに対して前記所定の閾値以下の処理時間の処理を行うことにより得られる第１の処理済みデータであって前記複数のエリアのうち前記決定工程で決定された優先度に基づいて選択された１以上のエリアに対応する前記第１の処理済みデータが出力された後に、前記取得工程で取得された音データを処理することにより得られる第２の処理済みデータであって前記複数のエリアのうち前記１以上のエリアとは異なるエリアを含む他の１以上のエリアに対応する前記第２の処理済みデータが出力されることを特徴とする音データ処理方法。
前記第２の処理済みデータは、前記取得工程により取得された音データに対して前記所定の閾値より長い処理時間の処理を行うことにより得られることを特徴とする請求項１７に記載の音データ処理方法。
コンピュータを請求項１〜１６の何れか１項に記載の音データ処理装置の各手段として機能させるためのプログラム。