JP7140542B2

JP7140542B2 - 信号処理装置、信号処理方法、およびプログラム

Info

Publication number: JP7140542B2
Application number: JP2018090689A
Authority: JP
Inventors: 正伸船越
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2022-09-21
Anticipated expiration: 2038-05-09
Also published as: US11024330B2; US20190348066A1; JP2019197136A

Description

本発明は、複数の収音位置での収音に基づく音響信号を処理する技術に関する。

公共の場所において、放送・蓄積などを目的とした収音を行う場合、個人的な会話などのプライバシー音声が公開されないように保護する必要がある。この対策として、プライベートな音声を検知して、マスク処理を行う技術がある。

特許文献１には、プライバシーエリアで発生した発話音声が紛れ込んでいるターゲットエリアに向かう音声に対して、マスキングなどの制御が行われる技術が記載されている。

特開２０１７－１２６８８８号公報

例えばスポーツ競技場などの会場における試合などのイベントの音を収音して再生する場合においては、臨場感を演出するために、観客席の近くでサポーターの声援、野次、歌などの歓声音が収音される。このような会場においては、プライベートな会話も観客席の至る所で発生している。つまり、再生されるべき歓声音と再生されるべきでないプライベートな会話が発生する場所は同じである。従って、特許文献１の技術のように音の発生場所によってその音がプライベート音声かを判別することはできない。なお、同様の課題は収音対象の場所がライブ会場などである場合にも同様に存在する。

本発明は、同一の領域から発せられ収音された音に含まれる、抑制すべき音と抑制すべきでない音とを区別して処理できるようにすることを目的とする。

本発明の一態様に係る信号処理装置は、複数の収音位置での収音に基づく複数チャンネルの音響信号を取得する取得手段と、前記複数チャンネルのうち、所定範囲内の収音位置に対応する少なくとも２つのチャンネルの前記音響信号の類似度を決定する決定手段と、前記決定手段により決定された前記類似度が第一の閾値未満である場合には、前記少なくとも２つのチャンネルの音響信号の何れかに含まれる音を抑制すべき音と判定する判定手段と、前記音響信号の音圧レベルを計測する計測手段と、を備え、前記判定手段は、前記計測手段によって前記音圧レベルが第二の閾値を超えていることが計測された場合、前記音響信号には前記抑制すべき音が含まれていないと判定することを特徴とする。

本発明によれば、同一の領域から発せられ収音された音に含まれる、抑制すべき音と抑制すべきでない音とを区別して処理することができる。

信号処理装置の一例を示すブロック図。信号処理システムのブロック図。競技場における収音用マイクロホンの設置状態を示す模式図。信号処理を示すフローチャート。収音チャンネル情報のデータ構成を示す模式図。チャンネル間相関決定処理を示すフローチャート。チャンネル間相関値情報のデータ構成を示す模式図。プライベート音声判定処理を示すフローチャート。信号処理システムのブロック図。信号処理を示すフローチャート。同テキスト列検知処理を示すフローチャート。同テキスト列検知結果情報のデータ構成を示す模式図。プライベート音声判定処理を示すフローチャート。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜＜実施形態１＞＞
＜信号処理装置の構成＞
図１は、本実施形態における信号処理装置１００の構成の一例を示す図である。図１に示す信号処理装置１００は、ＣＰＵ１０１、メインメモリ１０２、記憶部１０３、入力部１０４、および出力部１０５を備え、各部がバス１０８を介して接続されている。ＣＰＵ１０１は、信号処理装置１００を統括的に制御する演算処理装置であり、記憶部１０３等に格納された各種プログラムを実行して様々な処理を行う。メインメモリ１０２は、各種処理で用いられるデータおよびパラメータなどを一時的に格納するほか、ＣＰＵ１０１に作業領域を提供する。記憶部１０３は、各種プログラムおよび各種データを記憶する大容量記憶装置である。記憶部１０３としては、例えばハードディスクまたはシリコンディスク等の不揮発性メモリが用いられる。入力部１０４は、マイクロホンなどによって収音された収音信号を入力する。出力部１０５は、信号処理が行われた音響信号を出力する。

＜システム構成図＞
図２は、本実施形態における信号処理を行う信号処理システム２００のブロック図である。図１に示す信号処理装置１００は、図２に示す信号処理システム２００の少なくとも一部の処理を行う装置である。

信号処理システム２００は、収音部２０１、音声検出部２０２、チャンネル間相関決定部２０３、プライベート音声判定部２０４、音声マスク部２０５、音響信号生成部２０６、チャンネル位置データ保持部２０７を有する。さらに、音響再生部２０８、スピーカーアレイ２０９、通信部２１０、端子出力部２１２を有する。なお、本実施形態においては、「音声」は人の声に対応する音を意味し、「音響」には音声以外の音も含まれるものとする。

本実施形態においては、図１のＣＰＵ１０１が所定のプログラムを実行することにより、音声検出部２０２、チャンネル間相関決定部２０３、プライベート音声判定部２０４、音声マスク部２０５、音響信号生成部２０６として機能する。図１の入力部１０４は、音声検出部２０２として機能し、収音部２０１において収音された収音信号を含むデータを入力する。図１の記憶部１０３は、チャンネル位置データ保持部２０７として機能する。図１の出力部１０５は、音響再生部２０８、端子出力部２１２、および通信部２１０として機能する。なお、信号処理装置１００と信号処理システム２００との対応は、この限りではなく、様々な対応付けが可能である。また、図２に示す信号処理システムは、一例に過ぎない。他の構成がさらに備えられても良い。また、音響再生部２０８、通信部２１０、および端子出力部２１２は、いずれも備わっていなくても良く、出力部１０５は、不図示の外部記憶装置に信号処理された信号を出力する形態でも良い。以下、各構成を説明する。

収音部２０１は、収音対象となる会場の観客席近傍に設置された複数のマイクロホンによる収音信号を、適宜増幅し、チャンネル別にデジタル信号に変換して音声検出部２０２に送出する。本実施形態では、マイクロホン毎に異なるチャンネルが割り当てられているものとする。ここでは単一の収音部２０１が各マイクロホンによる収音信号を増幅して音声検出部２０２に送出する形態を示しているが、各マイクロホンに対応した数の収音部２０１が備えられていても良い。

図３は、サッカー競技場における歓声収音用マイクロホンの設置状態を示す模式図である。図３を用いて競技場における歓声収音用マイクロホンの設置例を説明する。図３には、観客席エリア３０１、競技グラウンド３０２、および複数のマイクロホン３０３が示されている。図３に示すように、本実施形態においては、観客席エリア３０１の全体を万遍無く収音できるように、複数のマイクロホン３０３が所定の距離を開けて設置されている。ただし、複数のマイクロホン３０３は観客席エリア３０１の全周ではなく一部の領域に設置されていてもよい。また、隣接するマイクロホン３０３の間隔は均一でなくてもよい。また、設置される複数のマイクロホン３０３には、それぞれ特性の異なる複数種類のマイクロホンが含まれていてもよい。また、マイクロホン３０３の設置場所は競技場に限らず、例えばライブ会場などであってもよい。

図２に戻る。以下、構成の概略を説明する。詳細な説明については後述する。音声検出部２０２は、収音部２０１から受信した各チャンネルの収音信号から音声信号を検出する処理を行う。チャンネル間相関決定部２０３は、マイクロホン設置位置が近接しているチャンネル間における類似度（相関値）を決定する。プライベート音声判定部２０４は、各収音信号チャンネルにプライベート音声が含まれているかを判定する。本実施形態におけるプライベート音声は、観客の会話音であり、再生時に抑制されるべき音の例である。音声マスク部２０５は、プライベート音声が含まれるとプライベート音声判定部２０４によって判定されたチャンネルの収音信号に音声マスキング処理を行う。音響信号生成部２０６は、音声マスク部２０５によってプライベート音声のマスキングが行われたチャンネルの収音信号を少なくとも用いて、２ｃｈステレオや５．１ｃｈサラウンドなどの既定の音響出力フォーマットに合わせた音響信号を生成する。

チャンネル位置データ保持部２０７は、収音信号の各チャンネルの収音位置の座標、即ち、各チャンネルの収音信号を収音するマイクロホンの設置位置の座標を保持している。チャンネル位置データは、収音部２０１およびチャンネル間相関決定部２０３に出力される。

音響再生部２０８は、音響信号生成部２０６によって生成された音響信号を適宜増幅し、アナログ信号に変換して、予め定められた音響出力フォーマットに準じるスピーカーアレイ２０９に出力する。スピーカーアレイ２０９は、音響再生部２０８から出力されるアナログ音響信号を、アレイを構成する個々のスピーカーにおいて音に変換して出力する。通信部２１０は、音響信号生成部２０６から出力される音響信号を、通信網２１１を介して外部に出力する。通信網２１１は、インターネットや一般電話回線などである。本実施形態では、通信網２１１を介してシステム外の機器に対して音響信号を出力することができる。端子出力部２１２は、出力端子に接続した不図示の外部機器に、音響信号生成部２０６によって生成された音響信号を出力する。

なお、これらの構成要素は、ＣＰＵ１０１によって実現される例を説明したが、これに限られない。ＡＳＩＣや電子回路等のハードウェアで実現しても良く、各部がＣＰＵ１０１に制御バスを介して接続されており、ＣＰＵ１０１からの命令指示に従ってその動作が統合制御されても良い。

＜フローチャート＞
次に、図２に示す構成において、プライベート音声が含まれているかを判定し、プライベート音声に対して音声マスキングを行う処理をフローチャートに従って説明する。

図４は、本実施形態の信号処理のフローチャートの一例を示す図である。なお、各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味する。

Ｓ４０１で、観客席近傍に設置された各マイクロホン３０３において、予め定めた一定時間分の収音が行われる。収音部２０１は、各マイクロホン３０３で収音されたアナログ音響信号を適宜増幅し、デジタル信号に変換する。収音部２０１は、チャンネル毎に収音チャンネル情報を生成し、各チャンネルの収音チャンネル情報を音声検出部２０２へ送信する。ここで、収音チャンネル情報とは、収音データと、それに関連するメタデータをまとめたデータ構造の事である。

図５は、本実施形態における収音チャンネル情報５００のデータ構成を示す模式図である。図５に示すように、収音チャンネル情報５００は、チャンネルＩＤ５０１、マイクロホン座標５０２、音声検出フラグ５０３、プライベート音声フラグ５０４、および収音データ５０５を含むものである。チャンネルＩＤ５０１は、収音信号のチャンネルを識別する番号であり、収音する各マイクロホン３０３と一対一で対応する番号である。マイクロホン座標５０２は、チャンネルＩＤ５０１で識別されるチャンネル信号を収音したマイクロホン３０３が設置される座標を格納する。マイクロホン座標５０２には、チャンネル位置データ保持部２０７で保持されているチャンネル位置データに基づく座標が格納される。音声検出フラグ５０３は、チャンネルＩＤ５０１で識別されるチャンネルに音声が含まれているかどうかを示すフラグである。音声検出フラグ５０３には、音声検出部２０２による音声検出の結果が入力されることになる。音声検出部２０２の処理の前の時点では、初期値が入力されている。プライベート音声フラグ５０４は、チャンネルＩＤ５０１で識別されるチャンネルに含まれる音声がプライベート音声であるかを示すフラグである。プライベート音声フラグ５０４には、プライベート音声判定部２０４による判定の結果が入力されることとなる。プライベート音声判定部２０４の処理の前の時点では、初期値が入力されている。収音データ５０５には、チャンネルＩＤ５０１で識別されるチャンネルの収音信号そのものが格納される。

Ｓ４０１で収音部２０１は、各チャンネルに関して、収音チャンネル情報５００のデータ構成のうち、チャンネルＩＤ５０１、マイクロホン座標５０２、および収音データ５０５を格納する。音声検出フラグ５０３およびプライベート音声フラグ５０４には、初期値として「０」が設定される。収音部２０１は、各チャンネルの収音チャンネル情報５００を音声検出部２０２に出力する。なお、本実施形態では、収音部２０１が、収音チャンネル情報５００のデータ形式で音声検出部２０２にデータを出力する例を説明するが、これに限られない。収音部２０１は、収音データのみを音声検出部２０２に出力しても良い。そして、音声検出部２０２が、収音チャンネル情報５００のデータ形式でその後の処理を行っても良い。この場合、音声検出部２０２は、各収音部２０１のチャンネルＩＤ５０１およびマイクロホン座標５０２の情報を取得できるように構成されていれば良い。また、図５に示す収音チャンネル情報５００のデータ形式は、一例に過ぎず、これに限られない。

Ｓ４０２で音声検出部２０２は、各チャンネルの収音チャンネル情報５００に含まれている収音データ５０５を解析することにより、音声データ（人が発する声に対応する音のデータ）が含まれているかを検出することができる。この検出は、例えば、収音データ５０５に対して短時間フーリエ変換（ＳＴＦＴ）を行ってスペクトログラムを生成し、音声に特徴的なフォルマント構造が現れているかを解析することで行われる。このような処理は、音声信号処理において一般的に行われている処理を適用すれば良く、詳細な説明については省略する。音声検出部２０２が音声を検出した場合は、当該収音チャンネル情報５００の音声検出フラグ５０３に「１」を設定する。本実施形態において、音声検出フラグ５０３に「０」が設定されている場合には、音声が検出されていないことを示し、「１」が設定されている場合には、音声が検出されていることを示す。音声検出部２０２が、全てのチャンネルに対して処理を終えると、Ｓ４０３へ進む。音声検出部２０２は、各チャンネルの収音チャンネル情報５００をチャンネル間相関決定部２０３に出力する。

Ｓ４０３でチャンネル間相関決定部２０３は、Ｓ４０２で音声が検知されたチャンネルに対し、隣り合うチャンネルとの類似度（チャンネル間相関値）を決定する。この処理の詳細については、図６を用いて後述することとする。

Ｓ４０４でプライベート音声判定部２０４は、Ｓ４０３で決定されたチャンネル間相関値に基づき、各チャンネルにプライベート音声が含まれているかを判定する。この処理の詳細については、図８を用いて後述することとする。なお、プライベート音声が含まれていると判定された場合、当該チャンネルの収音チャンネル情報５００のプライベート音声フラグ５０４に「１」が設定されることになる。本実施形態において、プライベート音声フラグ５０４に「１」が設定されている場合には、プライベート音声が含まれていることを示し、「０」が設定されている場合には、プライベート音声が含まれていないことを示す。プライベート音声判定部２０４は、各チャンネルの収音チャンネル情報５００を音声マスク部２０５に出力する。

Ｓ４０５で音声マスク部２０５は、Ｓ４０４でプライベート音声が検知されたチャンネルの収音データ５０５（収音信号）に対して、音声マスク処理を行う。例えば、プライベート音声が検知された収音チャンネル情報５００の収音データ５０５に基づいて所定のマスク音を生成し、収音データ５０５をマスク音に置き換えたり、収音データ５０５にマスク音を合成したりする。また、収音データ５０５を予め定められたマスク音に置換等する処理でもよいし、ノイズ音を付加する処理でも良いし、当該チャンネルの収音データ５０５の音量を低減又は無音化する処理でも良い。その他、一般的に行われている音声マスク処理を用いることができる。

Ｓ４０６で音響信号生成部２０６は、Ｓ４０５までの処理によって、プライベート音声に音声マスク処理が行われた複数チャンネルの収音信号を適宜ミキシングすることにより、所望するフォーマットに準じた音響信号を生成する。このような処理は音響再生装置において一般的に行われている処理であり、詳細な説明については省略する。

Ｓ４０７で音響信号生成部２０６は、Ｓ４０６で生成した音響信号の出力先を判定する。出力先が、音響再生機器の場合は、Ｓ４０８へ進む。通信網である場合は、Ｓ４０９へ進む。外部機器の場合は、Ｓ４１０へ進む。出力先は、予めユーザによって設定されていて良い。

Ｓ４０８で音響再生部２０８は、Ｓ４０６において生成された音響信号を適宜増幅し、アナログ変換し、スピーカーアレイ２０９などの音響再生機器へ出力することにより、音響再生する。処理を終えると、Ｓ４１１へ進む。

Ｓ４０９で通信部２１０は、Ｓ４０６において生成された音響信号を通信網２１１へ送出する。これにより、通信網２１１に接続された外部機器において、音響再生を行うことが可能になる。処理を終えると、Ｓ４１１へ進む。

Ｓ４１０で端子出力部２１２は、出力端子に接続された外部機器に、Ｓ４０６において生成された音響信号を出力する。処理を終えると、Ｓ４１１へ進む。

Ｓ４１１でＣＰＵ１０１は、信号処理を終了するかどうかを判定する。信号処理を終了する場合は、本フローチャートの処理を終了する。信号処理を終了しない場合は、Ｓ４０１へ処理が戻り、次の単位時間における収音から音響信号出力までの処理を繰り返す。

上記の説明のように、Ｓ４０２で音声が検出されたチャンネルをプライベート音声の判定及び音声マスクの対象とすることで、局所的に発せられた音のうち人の声だけをマスクすることができる。これにより、例えば観客が鳴らした楽器の音は残して臨場感を高めつつ、観客のプライベートな会話の音を抑制した再生音響信号を生成することができる。ただし、Ｓ４０２の処理を省略して、収音が行われた全チャンネルをプライベート音声の判定及び音声マスクの対象としてもよい。この方法によっても、局所的に発せられた音を抑制した再生音響信号を生成することができ、且つ、信号処理装置１００の処理負荷を低減することができる。

＜チャンネル間相関値の決定＞
図６は、本実施形態におけるＳ４０３のチャンネル間相関決定処理の詳細を説明するフローチャートである。なお、図６の処理は、全てチャンネル間相関決定部２０３において行われる。

Ｓ６０１でチャンネル間相関決定部２０３は、チャンネル間相関値リストを初期化する。チャンネル間相関値リストとは、チャンネル間相関値情報をリスト化してまとめたデータである。チャンネル間相関値情報には、音声が検出されたチャンネル間の収音データの相関値が格納される。本実施形態では、音声が検出されたチャンネルであって、互いに近傍に位置するチャンネル間の収音データの相関値が格納される。例えば、音声が検出された第１のチャンネルの収音データと、第１のチャンネルのマイクロホンと隣り合う位置の第２のマイクロホンで収音された第２のチャンネルの収音データとの相関値が格納される。隣り合う位置とは、図３に示すように複数存在するマイクロホンを考えた場合に、例えば第１のマイクロホンと第２のマイクロホンとが隣り合っていることを意味している。即ち、本実施形態では、第１のマイクロホンと第２のマイクロホンとの距離が、離れていても隣り合っているものとして扱う。ただしこれに限らず、所定の距離以上離れている複数のマイクロホンは隣り合っていないものとして扱ってもよい。また、近傍に位置する複数のマイクロホンであっても、その間に壁などの遮蔽物が存在する場合には、それらのマイクロホンは隣り合っていないものとして扱ってもよい。

図７は、チャンネル間相関値リスト７００の一例を示す図である。図７に示すように、チャンネル間相関値情報７１０は、第１チャンネルＩＤ７１１、第２チャンネルＩＤ７１２、およびチャンネル間相関値７１３を含む。このうち、第１チャンネルＩＤ７１１と第２チャンネルＩＤ７１２とには、チャンネル間相関値を求める対象となる二つのチャンネルのＩＤが格納される。チャンネル間相関値７１３には、第１チャンネルＩＤ７１１の収音データと第２チャンネルＩＤ７１２の収音データとに基づいて決定された相関値のピーク値が格納される。本実施形態では、これらのチャンネル間相関値情報７１０をリスト化してまとめたデータ構成を、チャンネル間相関値リスト７００とする。

Ｓ６０２からＳ６１３までの処理は、全ての収音チャンネルに関するループ処理である。即ち、チャンネル間相関決定部２０３は、未処理の収音チャンネル情報の中から処理対象の収音チャンネル情報を決定し、Ｓ６０２からＳ６１３までの処理を行う。チャンネル間相関決定部２０３は、全ての収音チャンネルの処理が終了するまで処理を繰り返す。

Ｓ６０３でチャンネル間相関決定部２０３は、処理対象の収音チャンネル情報５００の音声検出フラグ５０３の値に基づいて、処理対象の収音チャンネル（以下、処理対象チャンネルという）において音声が検出されているかを判定する。本実施形態では、音声検出フラグ５０３の値が「１」の場合は、処理対象チャンネルにおいて音声が検出されている。従って、音声検出フラグ５０３の値が「１」の場合、Ｓ６０４へ進む。音声検出フラグ５０３の値が「０」の場合は、処理対象チャンネルにおいて音声が検出されていないので、Ｓ６１３へ進み、処理対象チャンネルを対象とした処理を終了する。そして、未処理の収音チャンネルがある場合、Ｓ６０２に戻り、未処理の収音チャンネルの中から処理対象チャンネルを決定し、処理が繰り替えされる。

Ｓ６０４でチャンネル間相関決定部２０３は、チャンネル位置データ保持部２０７に保持されているチャンネル位置データを検索して処理対象チャンネルの収音位置の近傍の収音位置のチャンネルを特定する。本実施形態では、処理対象チャンネルの収音位置の近傍の収音位置のチャンネルとして、処理対象のチャンネルの収音位置に隣接する収音位置のチャンネル（以下、隣接チャンネルという）を特定する。Ｓ６０５からＳ６１２までの処理は、Ｓ６０４で特定した隣接チャンネルに対するループ処理が行われる。例えば、隣接チャンネルとして第１のチャンネルと第２のチャンネルとが特定されている場合、第１のチャンネルを隣接チャンネルとする処理と、第２のチャンネルを隣接チャンネルとする処理とがそれぞれ行われることになる。

Ｓ６０６でチャンネル間相関決定部２０３は、現在の処理対象の隣接チャンネルの収音チャンネル情報５００を参照し、隣接チャンネルにおいて音声が検出されているかを判定する。音声が検出されている場合、即ち、隣接チャンネルの音声検出フラグ５０３の値が「１」の場合はＳ６０７へ進む。音声が検出されていない場合、即ち、音声検出フラグの値が「０」の場合は、Ｓ６１２へ進み、現在の処理対象の隣接チャンネルに対する処理を終了する。その後、Ｓ６０４で特定された隣接チャンネルの中で未処理の隣接チャンネルがあれば、当該未処理の隣接チャンネルを処理対象の隣接チャンネルとして用いてＳ６０６に進む。Ｓ６０４で特定された隣接チャンネルの全てに対して処理が行われた場合、Ｓ６１３に進む。

Ｓ６０７でチャンネル間相関決定部２０３は、チャンネル間相関値リスト７００に、処理対象チャンネルと隣接チャンネルとの組み合わせのチャンネル間相関値情報７１０があるかを判定する。このチャンネルの組み合わせが既にある場合は、以降の処理は重複した処理になるので、Ｓ６１２へ進み、現在の処理対象の隣接チャンネルに対する処理を終了する。組み合わせがない場合はＳ６０８へ進む。

Ｓ６０８でチャンネル間相関決定部２０３は、処理対象チャンネルおよび隣接チャンネルのそれぞれの収音チャンネル情報５００から、これらのチャンネルを収音したマイクロホン間の距離を取得する。例えば、収音チャンネル情報５００のマイクロホン座標５０２から、マイクロホン間の距離を算出して取得する。

Ｓ６０９でチャンネル間相関決定部２０３は、Ｓ６０８で取得したマイクロホン間の距離に基づき、相関値計算を行う時間幅を決定する。例えば、処理単位時間の時間長をｌ［ｓｅｃ］、マイクロホン間の距離をｒ［ｍ］、チャンネル間相関を計算する時間幅をｔ［ｓｅｃ］とする。マイクロホン間では、最大で距離遅延の分だけ双方の時間がずれる可能性があるため式（１）のように時間幅ｔを計算する。

ｔ＝ｌ＋ｒ／Ｃ（１）
ここで、Ｃは音速であり、常温でおよそ３４０ｍ／ｓｅｃである。

Ｓ６１０でチャンネル間相関決定部２０３は、Ｓ６０９で決定した時間幅に基づき、チャンネル間相関決定部２０３の内部ＲＡＭ（不図示）に格納された、前回の処理時の収音信号を用いて、二つのチャンネルの収音信号の時間幅を拡張する。前回の処理時の収音信号とは、図４のＳ４０１で説明したように、予め定めた一定時間分の収音信号のことである。即ち、前回のＳ４０１の処理時の収音信号のことである。本実施形態では、後述するように、２つのチャンネル間での相関値を求め、その相関値に基づいて、複数のマイクロホンに跨って収音された音声か否かが決定されることになる。このとき、マイクロホン間の距離に応じて、各マイクロホンにおいて音声が収音されるタイミングがずれる場合がある。よって、Ｓ６０８では、チャンネル間相関を計算する時間幅を、マイクロホン間の距離に応じて決定する処理が行われることになる。このように、本実施形態では、２つのチャンネルを収音したマイクロホン間の距離による遅延を考慮したチャンネル間相関値の決定処理を行う。

Ｓ６１１でチャンネル間相関決定部２０３は、処理対象チャンネルと、隣接チャンネルとの間のチャンネル間相関値を決定する。具体的には、Ｓ２１０で拡張された時間幅に対応するそれぞれの収音信号の相関値を決定する。チャンネル間相関値は、処理対象チャンネルの収音信号と隣接チャンネルの収音信号との相関を示す値であり、公知の手法を用いて求めることができる。例えば、二つの収音信号の共分散をそれぞれの収音信号の標準偏差で割ることによって相関値を求めることができる。相関値の最大値は１であり、相関が高いほど、相関値は１に近づく値となる。チャンネル間相関決定部２０３は、相関値のピーク値をチャンネル間相関値リスト７００に格納する。具体的には、チャンネル間相関決定部２０３は、処理対象チャンネルを第１チャンネルＩＤ７１１、隣接チャンネルを第２チャンネルＩＤ７１２、決定した相関値のピーク値をチャンネル間相関値７１３に格納したチャンネル間相関値情報７１０を生成する。そして、このチャンネル間相関値情報７１０をチャンネル間相関値リスト７００に追加する。なお、第１チャンネルＩＤ７１１に隣接チャンネルのＩＤが格納されても良く、第２チャンネルＩＤ７１２に、処理対象チャンネルのＩＤが格納されても良い。このように、チャンネル間相関値リスト７００には、相関値が決定されたチャンネルの組み合わせのチャンネル間相関値情報７１０がリスト化して格納されることになる。その後、Ｓ６１２に進み、前述したように、全ての隣接チャンネルに対する処理が終了した場合、Ｓ６０５からＳ６１２のループ処理を終了する。

Ｓ６１３では、前述したように、全ての収音チャンネルを処理対象のチャンネルとする処理が終了した場合、Ｓ６０２からＳ６１３のループ処理を終了する。

Ｓ６１４でチャンネル間相関決定部２０３は、次の処理単位時間の処理のために、全チャンネルの収音信号を、チャンネル間相関決定部２０３の内部ＲＡＭに格納する。Ｓ６１５でチャンネル間相関決定部２０３は、ここまでの処理で生成したチャンネル間相関値リスト７００を各チャンネルの収音チャンネル情報５００とともにプライベート音声判定部２０４に出力し、チャンネル間相関決定処理を終了する。

なお、上記の説明では複数のチャンネルの収音信号を比較することで相関値を決定するものとしたが、相関値の決定方法はこれに限らず、複数の収音位置での収音に基づく音響信号を用いて相関値を決定すればよい。例えば、複数のチャンネルの収音信号それぞれから人の声に対応する音声信号を抽出し、抽出された複数の音声信号を比較することでチャンネルの相関値を決定してもよい。この方法によれば、複数のチャンネルの収音信号に同じ音声が含まれるかをより高精度に判定することができる。

＜プライベート音声判定処理＞
図８は、本実施形態におけるＳ４０４のプライベート音声判定処理を詳細化したフローである。なお、本フローにおける処理は全てプライベート音声判定部２０４において行われる。

Ｓ８０１からＳ８０４までの処理は、全ての収音チャンネルに対して行われるループ処理である。即ち、全ての収音チャンネルの中から処理対象のチャンネル（処理対象チャンネル）を決定し、Ｓ８０１からＳ８０４の処理を行う。その後、未処理の収音チャンネルの中から処理対象チャンネルを決定し、処理を繰り返す。

Ｓ８０２でプライベート音声判定部２０４は、処理対象チャンネルにおいて音声が検出されており、かつ、その近傍に位置するマイクロホンで収音されたチャンネルには音声が検出されていないかを判定する。即ち、プライベート音声判定部２０４は、処理対象チャンネルの収音チャンネル情報５００の音声検出フラグ５０３の値が「１」であり、かつ、チャンネルＩＤ５０１がチャンネル間相関値リスト７００に含まれていないかを判定する。この判定に該当する場合はＳ８０３に進む。該当しない場合はＳ８０４へ進んで、この処理対象のチャンネルの処理を終える。そして、未処理のチャンネルを処理対象のチャンネルとしてＳ８０１からの処理を繰り返す。

Ｓ８０３でプライベート音声判定部２０４は、処理対象チャンネルの収音チャンネル情報５００のプライベート音声フラグ５０４の値を「１」に設定する。即ち、Ｓ８０３でプライベート音声判定部２０４は、処理対象チャンネルには、プライベート音声が含まれると判定する。つまり、一方の処理対象チャンネルに音声が検出されているものの、その近傍の（例えば隣り合う）位置の他方のマイクロホンのチャンネルでは音声が検出されていない場合には、その音声はプライベート音声であると判定される。歓声音は、複数の位置のマイクロホンで収音される可能性が高い。一方、プライベート音声は、歓声音に比べて声量が小さいので、複数の位置のマイクロホンで収音される可能性が低い。従って、チャンネル間相関値リスト７００に処理対象チャンネルのチャンネルＩＤ５０１が含まれていない場合、プライベート音声判定部２０４は、処理対象チャンネルの音声が、プライベート音声であると判定する。本実施形態では、プライベート音声フラグ５０４の値が「１」の場合、プライベート音声が含まれているとして扱われる。Ｓ８０４でプライベート音声判定部２０４は、全てのチャンネルに対する処理が終了したかどうかを確認し、終了した場合はループ処理を終了する。

次に、Ｓ８０５からＳ８１０までの処理は、チャンネル間相関決定部２０３から送信されたチャンネル間相関値リスト７００に記載されている全てのチャンネルに対して行われるループ処理である。つまり、チャンネル間相関値リスト７００に記載されていないチャンネルについては、Ｓ８０５からＳ８１０までの処理は行われない。チャンネル間相関値リスト７００に記載されているチャンネルとは、自身のチャンネルと隣接チャンネルとの間で、音声が検出されているチャンネルであり、隣接チャンネルとの間のチャンネル間相関値７１３に値が格納されているものである。Ｓ８０５からＳ８１０までの処理は、チャンネル間相関値リスト７００に記載されているチャンネルの中で未処理のチャンネルを処理対象チャンネルとして繰り返し行われる処理である。

Ｓ８０６でプライベート音声判定部２０４は、チャンネル間相関値リスト全体を検索して、処理対象チャンネルが記載されているチャンネル間相関値情報７１０を取得する。次に、Ｓ８０７でプライベート音声判定部２０４は、Ｓ８０６で集めたチャンネル間相関値情報７１０に記載されてるチャンネル間相関値７１３（相関値のピーク値）の全てが、予め定めた閾値未満かどうかを判定する。チャンネル間相関値７１３の一つでも閾値以上である場合は、同様な音声信号が他のマイクロホンでも収音されていることになる。従って、処理対象のチャンネルには、プライベート音声は含まれないと判定する。よって、Ｓ８０９へ進み、この対象チャンネルの処理を終える。

一方、全ての相関値が閾値未満の場合は、同様な音声信号が他のマイクロホンでは収音されていないことになる。このため、Ｓ８０８へ進み、プライベート音声判定部２０４は、処理対象チャンネルがプライベート音声を含むと判定する。そして、プライベート音声判定部２０４は、当該処理対象チャンネルの収音チャンネル情報５００のプライベート音声フラグ５０４に「１」を設定する。なお、上記の相関値に関する閾値は、信号処理装置１００に対するユーザ操作に基づいて設定されてもよいし、過去に収音された音などに基づいて自動で設定されてもよい。

Ｓ８０９でプライベート音声判定部２０４は、チャンネル間相関値リスト７００に記載がある全てのチャンネルに対する処理を終えたかどうかを確認し、終えた場合はループを終了する。Ｓ８１０でプライベート音声判定部２０４は、これまでの処理でプライベート音声の検出結果が格納されている各チャンネルの収音チャンネル情報５００を、音声マスク部２０５に出力する。

以上説明したように、本実施形態では、近傍に位置するマイクロホンの両方のチャンネルで音声を検出した場合、その音声が、臨場感再現に用いることができる歓声音か、プライベート音声かを切り分ける処理が行われる。即ち、近傍に位置するマイクロホンの両方のチャンネルのチャンネル間相関値が所定の閾値未満の場合、片方のマイクロホンのみに収音されている音声であるので、プライベート音声が含まれていると判定される。一方、チャンネル間相関値が所定の閾値以上の場合、両方のマイクロホンで収音されている音声であるので、歓声音と判定することができる。また、近傍に位置するマイクロホンの一方のチャンネルでしか音声を検出しない場合も、片方のマイクロホンのみに収音されている音声であるので、プライベート音声が含まれていると判定される。このように、本実施形態の処理によれば、競技場などの会場において、臨場感再現に用いることができる歓声音を残しつつ、観客のプライベート音声を抑制することができる。

なお、本実施形態では、収音した信号をリアルタイムで処理する場合について説明したが、外部記憶メディアなどに一旦記録して、時間をおいて後で処理を行ってもよい。また、本実施形態では、隣接するチャンネル間の相関値を算出し、これに基づいてプライベート音声判定を行っているが、隣接していなくとも一定の距離内（所定範囲内）にあるチャンネル間で相関値を算出してもよい。

＜＜実施形態２＞＞
実施形態１では、収音チャンネル間の類似度として相関値を用いてプライベート音声判定を行う形態を説明した。本実施形態では、収音チャンネル間の類似度としてチャンネル毎の音声認識結果を用いる形態を説明する。なお、実施形態１と重複する部分については説明を省略する。

図９は、本実施形態における信号処理を行う信号処理システム９００のブロック図である。図９の信号処理システム９００は、図２の信号処理システム２００のチャンネル間相関決定部２０３の代わりに同テキスト列検知部９０３が備えられている。また、プライベート音声判定部９０４の処理が実施形態１と異なる。その他の構成については、実施形態１で説明した図２の信号処理システム２００と同様であるため、説明を省略する。

同テキスト列検知部９０３は、音声が検出された各入力チャンネルの音声信号に対して音声認識を行う。また、マイクロホン設置位置が近接しているチャンネル間において、同じテキスト列が含まれているかどうかの判定を行い、判定結果をプライベート音声判定部９０４へ出力する。プライベート音声判定部９０４は、この判定結果に基づいて、各チャンネルにプライベート音声が含まれているかどうかを判定する。

図１０は、本実施形態におけるメイン処理を示すフローチャートである。図１０のＳ１００１およびＳ１００２は、実施形態１における図４のＳ４０１およびＳ４０２と同様であるため説明を省略する。

Ｓ１００３において同テキスト列検知部９０３は、音声が検知されたチャンネルに対する音声認識を行い、マイクロホン設置位置が近接しているチャンネル間において、同じテキスト列が含まれているかどうかの判定を行う。この処理の詳細は、図１１を用いて後述する。処理を終えると、Ｓ１００４へ進む。

Ｓ１００４においてプライベート音声判定部９０４は、Ｓ１００３で行われた同テキスト列判定を用いて、各収音チャンネルにプライベート音声が含まれているかどうかを判定する。この処理の詳細は図１３を用いて後述する。

残りのＳ１００５からＳ１０１１までの処理は、実施形態１における図４のＳ４０５からＳ４１１と同様であるため、説明を省略する。

図１１は、本実施形態におけるＳ１００３の同テキスト列検知処理のフローチャートである。なお、本フローの処理は全て同テキスト列検知部９０３によって実行される。また、本フローの処理は実施形態１における図６のチャンネル間相関決定処理フローと同様の処理が含まれており、図６のフローと同様な処理については詳細な説明を省略する。

Ｓ１１０１で同テキスト列検知部９０３は、同テキスト列検知結果リストを初期化する。同テキスト列検知結果リストとは、同テキスト列検知結果情報をリスト化してまとめたデータである。同テキスト列検知結果情報とは、音声が検出されたチャンネル信号に対して、近傍に位置する２つのチャンネル間に同じテキスト列が現れているかを示す情報である。

図１２は、同テキスト列検知結果リスト１２００の一例を示す図である。図１２に示すように、同テキスト列検知結果情報１２１０は、第１チャンネルＩＤ１２１１、第２チャンネルＩＤ１２１２、および同テキスト列検知結果１２１３を含む。このうち、第１チャンネルＩＤ１２１１と第２チャンネルＩＤ１２１２とには、位置的に隣接し、音声認識を行う二つのチャンネルのＩＤが格納される。また、同テキスト列検知結果１２１３には、第１チャンネルＩＤ１２１１と第２チャンネルＩＤ１２１２との音声認識の結果、この二つのチャンネルに同じテキスト列が現れるかを示す情報が格納される。

Ｓ１１０２からＳ１１１６までの処理は、全ての収音チャンネルに対するループ処理である。即ち、同テキスト列検知部９０３は、未処理の収音チャンネル情報の中から処理対象の収音チャンネル情報を決定し、Ｓ１１０２からＳ１１１６までの処理を行う。同テキスト列検知部９０３は、全ての収音チャンネルの処理が終了するまで処理を繰り返す。

Ｓ１１０３からＳ１１１０までの処理は、図６のチャンネル間相関値リストを同テキスト列検知結果リストと読み替えれば、実施形態１における図６のＳ６０３からＳ６１０までの処理とほぼ同様であるため説明を省略する。

Ｓ１１１１において同テキスト列検知部９０３は、Ｓ１１１０で時間幅を拡張した処理対象チャンネルと、隣接チャンネルとに対して音声認識処理を行う。音声認識処理の結果として得られた二つのテキスト列を、同テキスト列検知部９０３の内部ＲＡＭ（不図示）に一時保存する。なお、本実施形態では、言語に関わらず表音文字で音声認識結果をテキスト化するが、音声認識の処理結果の形式はこれに限定されない。

Ｓ１１１２において同テキスト列検知部９０３は、Ｓ１１１１で得られた二つのテキスト列が所定量以上で一致するかを判定する。即ち、同テキスト列検知部９０３は、二つのテキスト列の一致度が所定の閾値以上かを判定する。この閾値は、ユーザ操作に基づいて設定されてもよいし、過去の音声認識の結果等に基づいて自動で認識されてもよい。本実施形態では、音声認識における誤認識や周辺の騒音が多いことも想定し、二つのテキスト列の８０％以上が同じであれば一致すると判定する。一致しないと判定した場合は、Ｓ１１１３へ進む。一致すると判定した場合は、Ｓ１１１４へ進む。

Ｓ１１１３で同テキスト列検知部９０３は、処理対象となっている二つのチャンネルＩＤと、同テキスト列検知結果（＝０）とを格納した同テキスト列検知結果情報１２１０を作成し、同テキスト列検知結果リスト１２００に追加する。一方、Ｓ１１１４では、同テキスト列検知部９０３は、処理対象となっている二つのチャンネルＩＤと、同テキスト列検知結果（＝１）とを格納した同テキスト列検知結果情報１２１０を作成し、同テキスト列検知結果リスト１２００に追加する。本実施形態では、同テキスト列検知結果の値が「１」を示す場合、二つのテキスト列が一致している結果を示すものとする。Ｓ１１１３およびＳ１１１４の処理が終了すると、Ｓ１１１５へ進む。

Ｓ１１１５からＳ１１１８までの処理は、図６におけるチャンネル間相関値リストを同テキスト列検知結果リストと読み替えれば、実施形態１における図６のＳ６１２からＳ６１５とほぼ同様であるため説明を省略する。

図１１の同テキスト列検知処理によって、全ての近接する収音チャンネルのペアにおいて、音声認識の結果得られるテキスト列に同じものが現れるかを格納した同テキスト列検知結果リストが得られる。

図１３は、本実施形態におけるＳ１００４のプライベート音声判定処理を詳細化したフローチャートである。なお、本フローの処理は全てプライベート音声判定部９０４において実行される。また、本フローの処理は実施形態１の図８に示すプライベート音声判定処理と同様の処理を含んでおり、図８と同様な処理については説明を省略する。

Ｓ１３０１からＳ１３０６までの処理は、図８のチャンネル間相関値リストを同テキスト列検知結果リストに読み替えれば、図８のＳ８０１からＳ８０６までの処理とほぼ同様であるため、説明を省略する。

Ｓ１３０７でプライベート音声判定部９０４は、Ｓ１３０６で集めた同テキスト列検知結果情報の全ての値が、「０」であるかどうかを判定する。同テキスト列検知結果情報の全ての値が「０」である場合は、Ｓ１３０８へ進み、処理対象チャンネルにプライベート音声が含まれると判定し、処理対象のチャンネルの収音チャンネル情報５００のプライベート音声フラグ５０４の値を「１」に設定する。全ての検知フラグの値が「０」でない場合は、Ｓ１３０９へ進む。Ｓ１３０９とＳ１３１０は、図８のＳ８０９とＳ８１０と同様であるため説明を省略する。

以上説明したように、本実施形態では、音声が検出されたチャンネルに対して音声認識処理を行い、音声をテキスト化する。そして、距離が近いチャンネル間で同じテキスト列が現れるかどうかを判定する。そして、距離が近いチャンネル間で同じテキスト列が全く現れないチャンネルを、プライベート音声が含まれないチャンネルと判定する。従って、競技場などの会場において、臨場感再現に用いることができる歓声音を残しつつ、観客のプライベート音声を抑制することができる。

＜＜その他の実施形態＞＞
実施形態１および２では、全ての収音チャンネル信号に対して一律にプライベート判定を行う形態を例に挙げて説明したが、これに限られない。プライベート判定処理の負荷を軽減するために、マイクロホンの設置状況に応じてプライベート判定方法を変更してもよい。例えば、競技場の特徴や、スポーツ競技自体の特徴に基づき、観客席エリアによって、マイクロホンの設置間隔が変化する場合を考える。マイクロホンの設置間隔が所定の閾値よりも広いエリアでは、たとえ歓声であってもマイク毎に同様な音が収録できないことがある。例えば、サッカーの競技場において、メインスタンド中央の前に設置したマイクロホンと、設置間隔が所定の閾値を超えて設置される、ゴール裏に設置したマイクロホンとでは、同じ音は収音されない。このような場合は、設置間隔が所定の閾値を超えているエリアではチャンネル間の処理は行わず、チャンネル単独の処理のみでプライベート音声判定を行ってもよい。例えば、単独のチャンネルに対して音声認識処理を行い、特定のキーワードが検出された場合にプライベート音声と判定するようにしてもよい。また、音声の音圧レベルの推移や抑揚から、遠くに対する大声か近くの人への話し声かを判定することにより、プライベート音声を判定してもよい。そして、マイクロホンの設置間隔が所定の閾値よりも小さい、狭いエリアに限り、実施形態１および２で説明した複数チャンネル間の処理結果に基づいたプライベート音声判定を行うようにしてもよい。

即ち、収音位置の間の距離が第１の距離である第１のチャンネル群と、収音位置の間の距離が第１の距離よりも長い第２の距離である第２のチャンネル群との収音信号を取得可能な場面を想定する。この場合、第１のチャンネル群に含まれるチャンネルに関しては、信号処理装置１００は、近傍のチャンネル間の類似度を用いたプライベート音声判定処理を行うことができる。また、第２のチャンネル群に含まれるチャンネルに関しては、信号処理装置１００は、近傍のチャンネル間の類似度を用いたプライベート音声判定処理は行わずに、単独のチャンネルでのプライベート音声判定処理を行うことができる。

また、実施形態１および２では、隣接して設定されているマイクロホンのチャンネルを用いてプライベート音声判定を行う形態を例に挙げて説明したが、所定の範囲内の近傍に位置するマイクロホンであれば良く、隣接しているものに限られない。例えば、所定の範囲内に３つのマイクロホンが、第１のマイクロホン、第２のマイクロホン、第３のマイクロホンの順に設置されている場合を想定する。この場合、歓声が第１のマイクロホンで収音され、かつ第２のマイクロホンで収音される場合もあれば、第１のマイクロホンで収音され、かつ第３のマイクロホンで収音される場合もあり得る。従って、必ずしも隣接して設置されているマイクロホン同士のチャンネルに基づいてプライベート音声判定を行わなくても良い。

また、実施形態１および２では、隣接する２つのチャンネル間での類似度を判定する形態を説明したが、近傍の３つのチャンネル間での類似度を判定しても良い。例えば、所定の範囲内に３つのマイクロホンが、第１のマイクロホン、第２のマイクロホン、第３のマイクロホンの順に設置されている場合を想定する。この場合、歓声が第１のマイクロホン、第２のマイクロホン、第３のマイクロホンのいずれでも収音される場合もあり得る。よって、３つのマイクロホンの間の類似度を判定して、実施形態１または２で説明した処理を行っても良い。このように、少なくとも２つのチャンネル間での類似度に基づく処理を行うことができる。

また、全体の歓声が盛り上がるような場合は、プライベート音声が発生したとしても全体の歓声にかき消されて聴こえないことがある。そこで、収音チャンネル全てをまとめた時の音圧を計測しておき、この音圧が一定の閾値以上であれば、音声自体の検出処理をキャンセルするようにしてもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２０１収音部
２０２音声検出部
２０３チャンネル間相関決定部
２０４プライベート音声判定部
２０５音声マスク部

Claims

複数の収音位置での収音に基づく複数チャンネルの音響信号を取得する取得手段と、
前記複数チャンネルのうち、所定範囲内の収音位置に対応する少なくとも２つのチャンネルの前記音響信号の類似度を決定する決定手段と、
前記決定手段により決定された前記類似度が第一の閾値未満である場合には、前記少なくとも２つのチャンネルの音響信号の何れかに含まれる音を抑制すべき音と判定する判定手段と、
前記音響信号の音圧レベルを計測する計測手段と、を備え、
前記判定手段は、前記計測手段によって前記音圧レベルが第二の閾値を超えていることが計測された場合、前記音響信号には前記抑制すべき音が含まれていないと判定する
ことを特徴とする信号処理装置。
前記取得手段により取得される音響信号に含まれる音声を検出する検出手段を有し、
前記決定手段は、前記少なくとも２つのチャンネルのいずれのチャンネルにおいても音声が検出された場合に、前記類似度を決定することを特徴とする請求項１に記載の信号処理装置。
前記決定手段は、
前記少なくとも２つのチャンネルの前記収音位置の距離に応じて前記音響信号の時間幅を拡張し、
前記時間幅を拡張した音響信号を用いて前記類似度を決定することを特徴とする請求項１または２に記載の信号処理装置。
前記取得手段は、一定時間分の前記音響信号を取得し、
前記拡張された時間幅は、前記一定時間よりも長いことを特徴とする請求項３に記載の信号処理装置。
前記類似度は、前記少なくとも２つのチャンネル間の前記音響信号の相関値であることを特徴とする請求項１から４のいずれか一項に記載の信号処理装置。
前記決定手段は、
前記少なくとも２つのチャンネル間の前記音響信号から音声認識処理によって各チャンネルの音声を認識し、
前記認識された音声の結果に基づいて前記類似度を決定することを特徴とする請求項１から４のいずれか一項に記載の信号処理装置。
前記類似度は、前記認識された音声のテキスト列の一致度であることを特徴とする請求項６に記載の信号処理装置。
前記判定手段は、
前記類似度が前記第一の閾値以上の場合、前記少なくとも２つのチャンネルには抑制すべき音声が含まれていないと判定することを特徴とする請求項１から７のいずれか一項に記載の信号処理装置。
前記決定手段は、前記所定範囲内の収音位置のチャンネルのうち、一方のチャンネルにおいて音声が検出され、他方のチャンネルにおいて音声が検出されていない場合、前記類似度を決定する処理を行なわず、
前記判定手段は、前記一方のチャンネルにおいて検出された音声を前記抑制すべき音と判定することを特徴とする請求項２に記載の信号処理装置。
前記決定手段は、前記収音位置が隣り合う２つのチャンネルの前記類似度を決定することを特徴とする請求項１から９のいずれか一項に記載の信号処理装置。
前記取得手段は、前記収音位置の間の距離が第１の距離である第１のチャンネル群と、前記収音位置の間の距離が前記第１の距離よりも長い第２の距離である第２のチャンネル群との音響信号を取得可能であり、
前記決定手段は、前記第１のチャンネル群に含まれるチャンネルに関して前記類似度を決定する処理を行い、
前記決定手段は、前記第２のチャンネル群に含まれるチャンネルに関して前記類似度を決定する処理を行わないことを特徴とする請求項１から１０のいずれか一項に記載の信号処理装置。
前記判定手段は、前記第２のチャンネル群に含まれる各チャンネルの音声が抑制すべき音かを、各チャンネルの音響信号に基づいて判定することを特徴とする請求項１１に記載の信号処理装置。
前記判定手段によって抑制すべき音であると判定された音を抑制するための処理を行う処理手段をさらに備えることを特徴とする請求項１から１２のいずれか一項に記載の信号処理装置。
複数の収音位置での収音に基づく複数チャンネルの音響信号を取得する取得ステップと、
前記複数チャンネルのうち、所定範囲内の収音位置に対応する少なくとも２つのチャンネルの前記音響信号の類似度を決定する決定ステップと、
前記決定ステップにより決定された前記類似度が閾値未満である場合には、前記少なくとも２つのチャンネルの音響信号の何れかに含まれる音を抑制すべき音と判定する判定ステップと、
前記音響信号の音圧レベルを計測する計測ステップと、を備え、
前記判定ステップでは、前記計測ステップにおいて前記音圧レベルが第二の閾値を超えていることが計測された場合、前記音響信号には前記抑制すべき音が含まれていないと判定する
ことを特徴とする信号処理方法。
コンピュータを、請求項１から１３のいずれか一項に記載の信号処理装置の各手段として機能させるためのプログラム。