JP7207170B2

JP7207170B2 - 収音装置、収音プログラム、収音方法、及び収音システム

Info

Publication number: JP7207170B2
Application number: JP2019099683A
Authority: JP
Inventors: 隆矢頭
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2023-01-18
Anticipated expiration: 2039-05-28
Also published as: JP2020195069A

Description

この発明は、収音装置、収音プログラム、収音方法、及び収音システムに関し、例えば、雑音環境下で用いられる対面録音システム等の特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。

現在、顧客との電話応対業務を行なうコールセンタを構成するシステムでは、オペレータの応対技術向上やコンプライアンス遵守やトラブル防止／対策等のため、オペレータと顧客との間の会話内容を記録（録音）する通話録音システム（収音システム）の導入が進んでいる。また、通常、ＢｔｏＣ（ＢｕｓｉｎｅｓｓｔｏＣｏｎｓｕｍｅｒ）ビジネスを行う企業においてコールセンタ以外の顧客との接点として、電話応対ではなく顧客と対面して直接対話を行なう各種営業店窓口がある。住宅ローン、相続、資産運用などの相談を行なう金融機関相談窓口が、その代表的なものである。現在、このような営業店窓口でも、前記コールセンタと同様の目的で、対応者と相談者（顧客）の対話内容を記録したいという要望が高まっている。以下では、前記の「通話録音システム」に対し、こちらを「対面録音システム」と呼ぶ。

従来の通話録音システムでは、オペレータ側と顧客側では、発話の場もヘッドセットや受話器等の受音デバイスも分離されており、会話はオペレータの声と顧客の声は、労せずに分離収録可能である。一方、従来の対面録音システムでは、通常、対応者と相談者の間の卓上１箇所に置かれたマイクロホン（モノラルまたはステレオ）によって収録されるため、対応者、相談者の声は区別されることなく混在して録音されることになる。このことは、録音データを用いた対話内容の確認や、音声認識技術を用いた対話内容のテキスト化や、ナレッジマネジメント（例えば、テキストマイニング）への活用等、その後のデータ活用に対して大きな障害となる。収録音声に音声認識を適用するには、対応者と相談者の音声が分離されていることは勿論、実環境における様々な周囲音（隣接ブースにおける会話音、バックオフィスの会話、機器騒音、待合室会話、順番を告げる呼び出しアナウンス等々）の混入を防ぐ必要がある。

ところで、雑音環境下で音声通録システムや音声認識応用システムを利用する場合、必要な目的音声と同時に混入する周囲の雑音は、対話内容の聞き取りを阻害し、収録された音声の音声認識率の低下をもたらす厄介な存在である。従来、このような複数の音源が存在する環境下において、特定の方向の音のみ分離・収音することで不要音の混入を避け必要な目的音を得る技術として、マイクアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下、「ＢＦ」とも呼ぶ）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である（非特許文献１参照）。ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型ＢＦに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図１１は、マイクロホン数が２個（Ｍ１、Ｍ２）の場合の減算型ＢＦ４００に係る構成を示すブロック図である。

減算型ＢＦ４００は、遅延器４１０と減算器４２０を有している。

減算型ＢＦ４００は、目的とする方向に存在する音（以下、「目的音」と呼ぶ）が各マイクロホンに到来する信号の時間差を算出し、遅延器４１０により遅延を加えることにより目的音の位相を合わせる。このときの時間差は下記（１）式により算出される。ここで、ｄはマイクロホン間の距離であり、ｃは音速であり、τ_ｉは遅延量であり、θ_Ｌは各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。

また、ここで、遅延器４１０は、死角がマイクロホンＭ１とマイクロホンＭ２の中心に対し、マイクロホンＭ１の方向に存在する場合、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、減算器４２０が、（２）式に従った減算処理を行う。

減算器４２０では、周波数領域でも同様に減算処理を行うことができ、その場合（２）式は以下の（３）式のように変更される。

ここでθ_Ｌ＝±π／２の場合、形成される指向性は図１２（ａ）に示すように、カージオイド型の単一指向性となり、θ_Ｌ＝０，πの場合は、図１２（ｂ）のような８の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。

減算器４２０では、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；以下、「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。ＳＳによる指向性は、（４）式に従い全周波数、もしくは指定した周波数帯域で形成される。（４）式では、マイクロホンＭ１の入力信号Ｘ_１を用いているが、マイクロホンＭ２の入力信号Ｘ_２でも同様の効果を得ることができる。ここでβはＳＳの強度を調節するための係数である。（４）式に従ってＳＳの処理を行う際、減算時に値がマイナスになった場合は、０または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音（以下、「非目的音」と呼ぶ）を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音方向を強調することができる。

ある特定のエリア内に存在する音（以下、「目的エリア音」と呼ぶ）だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する音源（以下、「非目的エリア音」と呼ぶ）も収音してしまう可能性がある。そこで、特許文献１の記載技術では、複数のマイクアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法（エリア収音）を提案している。

図１３は、２つのマイクアレイＭＡ１、ＭＡ２を用いて、目的エリアの音源からの目的エリア音を収音する処理について示した説明図である。

図１３（ａ）は、各マイクアレイの構成例について示した説明図である。図１３（ｂ）、図１３（ｃ）は、それぞれ図１３（ａ）に示すマイクアレイＭＡ１、ＭＡ２のＢＦ出力について周波数領域で示したグラフ（イメージ図）である。エリア収音では、図１３（ａ）に示すようは、マイクアレイＭＡ１、ＭＡ２の指向性を別々の方向から収音したいエリア（目的エリア）で交差させて収音する。図１３（ａ）の状態では、各マイクアレイＭＡ１、ＭＡ２の指向性に目的エリア内に存在する音（目的エリア音）だけでなく、目的エリア方向の雑音（非目的エリア音）も含まれている。しかし、図１３（ｂ）、図１３（ｃ）に示すように、マイクアレイＭＡ１、ＭＡ２の指向性を周波数領域で比較すると、目的エリア音成分はどちらの出力にも含まれるが、非目的エリア音成分は各マイクアレイで異なることになる。従来のエリア収音技術では、このような特性を利用し、２つのマイクアレイＭＡ１、ＭＡ２のＢＦ出力に、共通に含まれる成分以外を抑圧することで目的エリア音のみ抽出することができる。

図１３（ａ）のような環境で従来のエリア収音処理を行う場合、まず各マイクアレイのＢＦ出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする例として２つのマイクアレイを使用することになる。このとき、目的エリア音振幅スペクトルの補正係数は、「（５）、（６）式」または「（７）、（８）式」により算出される。ここで、Ｙ_１ｋ（ｎ）、Ｙ_２ｋ（ｎ）はマイクアレイＭＡ１、ＭＡ２のＢＦ出力の振幅スペクトルであり、Ｎは周波数ビンの総数であり、ｋは周波数であり、α_１（ｎ）、α_２（ｎ）は各ＢＦ出力に対する振幅スペクトル補正係数である。また、ここで、ｍｏｄｅは最頻値、ｍｅｄｉａｎは中央値を表している。

その後、補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的エリア方向に存在する非目的エリア音を抽出することができる。さらに、抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより目的エリア音を抽出することができる。例えば、マイクアレイＭＡ１からみた目的エリア方向に存在する非目的エリア音Ｎ_１（ｎ）を抽出するには、（９）式に示すように、マイクアレイＭＡ１のＢＦ出力Ｙ_１（ｎ）からマイクアレイＭＡ２のＢＦ出力Ｙ_２（ｎ）に振幅スペクトル補正係数的を掛けたものをＳＳする。同様に（１０）式に従い、マイクアレイＭＡ２からみた目的エリア方向に存在する非目的エリア音Ｎ_２（ｎ）を抽出する。

その後、（１１）、（１２）式に従い、各ＢＦ出力から非目的エリア音をＳＳして目的エリア音を抽出することができる。（１１）式は、マイクアレイＭＡ１を基準として、また（１２）式は、マイクアレイＭＡ２を基準として目的エリア音を抽出することを示している。なお、（１１）式、（１２）式において、γ_１（ｎ）、γ_２（ｎ）はＳＳ時の強度を変更するための係数である。

以上のように、特許文献１の手法では、複数のマイクアレイの指向性を異なる方向から目的エリアに向けて交差させ、各マイクアレイの指向性出力から共通に含まれる成分を抽出する。これにより、特許文献１の手法では、周囲に種々の不要音源が存在する環境であっても、対応者席、相談者席といった特定のエリアの音を強調・収音することができる。

特許文献１に記載された前記エリア収音処理では、目的エリア音抽出の際に行うＳＳにより、目的エリア音の歪やミュージカルノイズという耳障りな異音が発生する場合がある。そこで、特許文献２の手法では、マイクの入力信号を、抽出した目的エリア音に混合することで、マイク入力信号に含まれる目的エリア音の成分により目的エリア音の歪みを補正し、音質を改善している（ミキシングエリア収音）。

特開２０１４－０７２７０８特開２０１７－１８３９０２

浅野太著，"音響テクノロジーシリーズ１６音のアレイ信号処理－音源の定位・追跡と分離－"，日本音響学会編，コロナ社，２０１１年２月２５日発行

ところで、対面の相談窓口では、応対者席とカウンターを挟んで対面する相談者席の２つのエリアを個別に強調・収録する必要がある。また、図１４に示すように、実際の相談窓口では、対応者側は通常１人だが、相談者側は必ずしも１人とは限らない。例えば、相談者は家族（例えば、親兄弟や配偶者など）を伴って訪れる場合も少なくない。

以上のように、相談窓口おついて対応者と相談者の発話した音声を録音する場合、対応者席とカウンターを挟んで対面する相談者席、２つのエリアを個別に強調・収録する必要がある。また、対応者側は通常１人（図１４（ａ）参照）だが、上述の通り相談者側は近親者を伴って２人で訪れる場合も少なくない（図１４（ｂ）参照）。そのため相談窓口では、相談者側に２席用意されているのが一般的である。

したがって対面記録では、対応者と相談者のそれぞれが位置する複数のエリアを個別に強調・収音する必要がある。これら複数のエリアは、テーブル１つを挟んで対応者と相談者、あるいは席の隣り合う相談者というように、近接して配置されることになる。そのため、エリア収音処理で生じる目的音の歪低減のため、先に述べたミキシング処理を行うと、目的エリア音に妨害音となる他エリアの音源が必要以上に混合し、収録音の聴取確認や音声認識によるテキスト化などの後工程に支障を来たすという問題がある。

以上のような問題に鑑みて、話者が存在する第１の側の収音エリア（例えば、相談窓口における応対者側の席）と第２の側の収音エリア（例えば、相談窓口における相談者側の席）のエリア収音を行う際に、各話者の音声を収音する際の音質改善と妨害音の混入防止を同時に実現することが望まれている。

第１の本発明の収音装置は、（１）１又は複数の話者が位置する第１の話者エリアと、前記第１の話者エリアの話者と対話する１又は複数の話者が位置する第２の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第１の話者エリア及び前記第２の話者エリアに対してエリア収音処理を行うエリア音抽出手段と、（２）前記第１の話者エリアと前記第２の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、（３）前記第１の話者エリアと前記第２の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定する混合内容決定手段と、（４）前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する信号混合手段を有することを特徴とする。

第２の本発明の収音プログラムは、コンピュータを、（１）１又は複数の話者が位置する第１の話者エリアと、前記第１の話者エリアの話者と対話する１又は複数の話者が位置する第２の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第１の話者エリア及び前記第２の話者エリアに対してエリア収音処理を行うエリア音抽出手段と、（２）前記第１の話者エリアと前記第２の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、（３）前記第１の話者エリアと前記第２の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定する混合内容決定手段と、（４）前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する信号混合手段として機能させることを特徴とする。

第３の本発明は、収音装置が行う収音方法において、（１）エリア音抽出手段、エリア音検出手段、混合内容決定手段及び信号混合手段を有し、（２）前記エリア音抽出手段は、１又は複数の話者が位置する第１の話者エリアと、前記第１の話者エリアの話者と対話する１又は複数の話者が位置する第２の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第１の話者エリア及び前記第２の話者エリアに対してエリア収音処理を行い、（３）前記エリア音検出手段は、前記第１の話者エリアと前記第２の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行い、（４）前記混合内容決定手段は、前記第１の話者エリアと前記第２の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定し、（５）前記信号混合手段は、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力することを特徴とする。

第４の本発明は、１又は複数の話者が位置する第１の話者エリアと、前記第１の話者エリアの話者と対話する１又は複数の話者が位置する第２の話者エリアに指向性を向けることが可能な複数のマイクアレイユニットと、前記第１の話者エリア及び前記第２の話者エリアのエリア収音処理を行う収音装置を備える収音システムにおいて、前記収音装置として第１の本発明の収音装置を適用したことを特徴とする。

本発明によれば、話者が存在する第１の側の収音エリアと第２の側の収音エリアのエリア収音を行う際に、各話者の音声を収音する際の音質改善と妨害音の混入防止を同時に実現することができる。

第１の実施形態に係る収音システム（収音装置を含む）の機能的構成について示したブロック図である。第の１実施形態で設定する収音エリア及びマイクアレイユニットの配置について示した説明図（イメージ図）である。第１の実施形態に係る各マイクアレイユニットの構成について示した図である。第１の実施形態に係る各マイクアレイユニットで形成されるマイクアレイの構成について示した図である。第１の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。第２の実施形態に係る収音システム（収音装置を含む）の機能的構成について示したブロック図である。第の２実施形態で設定する収音エリアについて示した説明図（イメージ図）である。第２の実施形態に係るマイクアレイユニットの配置イメージの例について示した図である。第２の実施形態に係る各マイクアレイユニットの構成について示した図である。第２の実施形態に係る各マイクアレイユニットで形成されるマイクアレイの構成について示した図である。従来の減算型ＢＦ（マイクロホンの数が２個の場合）の構成を示すブロック図。従来の減算型ＢＦ（マイクロホンの数が２個の場合）により形成される指向性フィルタの例について示した説明図。従来の収音装置において、２つのマイクアレイのビームフォーマ（ＢＦ）による指向性を別々の方向から目的エリアへ向けた場合の構成例について示した説明図。相談窓における人員配置のバリエーションを示した説明図（イメージ図）である。

（Ａ）第１の実施形態
以下、本発明による収音装置、収音プログラム、収音方法、及び収音システムの第１の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを対面録音システムに適用した例について説明する。

（Ａ－１）第１の実施形態の構成
図１は、第１の実施形態の対面録音システム１の全体構成を示すブロック図である。

対面録音システム１は、相談窓口等において対応者と相談者の音声を区別して収音し、記録する装置であり、マイクアレイ部１００、収音装置２００、及び記録装置３００を有している。

マイクアレイ部１００は、相談窓口において対応者及び相談者の音声を捕捉する手段である。

収音装置２００は、マイクアレイ部１００で捕捉した音響信号に基づいて、対応者と相談者の音声を区別して収音する装置である。

記録装置３００は、収音装置２００が収音した音声（対応者及び相談者の音声）を記録する装置である。記録装置３００に記録された音声は、例えば、音声認識処理によりテキスト化等されて種々の目的に活用される。

図２は、第１の実施形態の収音装置２００により収音される収音エリアと、マイクアレイユニットＭＡＵ１、ＭＡＵ２の配置構成の例について示した図である。

図２では、上方向からマイクアレイユニットＭＡＵ１、ＭＡＵ２が配置された領域を見た場合の図となっている。

図２では、矩形のカウンターテーブルＣＴを挟んで対応者と相談者が位置する例について示している。すなわち、図２では、カウンターテーブルＣＴを挟んで対向する位置に、対応者が位置する対応者エリアＡ１と相談者が位置する相談者エリアＡ２が設定された例となっている。なお、第１の実施形態では、対応者及び相談者はいずれも１名の場合の構成であるものとする。

また、図２では、対応者エリアＡ１（例えば、対応者エリアＡ１の中心点）と相談者エリアＡ２（例えば、相談者エリアＡ２の中心点）とを結ぶ線ＣＬ１と、線ＣＬ１と直交する線ＣＬ２とが図示されている。この実施形態の例では、図２に示す通り、線ＣＬ１の中間点とカウンターテーブルＣＴの中心点が一致し、線ＣＬ２は線ＣＬ１の中心点を通る線であるものとする。

第１の実施形態のマイクアレイ部１００では、線ＣＬ１の左右に分けて（線ＣＬ１の周辺を避けて）マイクアレイユニットＭＡＵ１、ＭＡＵ２を配置する構成となっている。図２の例では、マイクアレイユニットＭＡＵ１、ＭＡＵ２は、線ＣＬ２上で線ＣＬ１を挟んで対照となる位置に配置されている。言い換えると、図２の例では、相談者席から見てカウンターテーブルＣＴの左側にマイクアレイユニットＭＡＵ１が配置され、同じく右側にマイクアレイユニットＭＡＵ２が配置された構成となっている。

次に、第１の実施形態における各マイクアレイユニットの構成について図３を用いて説明する。

図３は、マイクアレイユニットＭＡＵ１、ＭＡＵ２を構成するマイクロホンの配置構成について示した図である。

図３（ａ）に示すように、マイクアレイユニットＭＡＵ１は、マイクロホンｍｃ１と、マイクロホンｍｃ１を端点としてマイクロホンｍｃ１から見て対応者エリアＡ１の方向に略直交する線分上に配置したマイクロホンｍｃ２と、マイクロホンｍｃ１を端点としてマイクロホンｍｃ１から見て相談者エリアＡ２の方向に略直交する線分上に配置されるマイクロホンｍｃ３の３つのマイクロホンから構成されている。

また、図３（ｂ）に示すように、マイクアレイユニットＭＡＵ２は、マイクアレイユニットＭＡＵ１と左右対称に、マイクロホンｍｃ４と、マイクロホンｍｃ４を端点としてマイクロホンｍｃ４から見て対応者エリアＡ１の方向に略直交する線分上に配置されたマイクロホンｍｃ５と、マイクロホンｍｃ４を端点としてマイクロホンｍｃ４から見て相談者エリアＡ２の方向に略直交する線分上に配置されるマイクロホンｍｃ６の３つのマイクロホンから構成される。

図４は、マイクアレイ部１００の各マイクアレイユニットで形成されるマイクアレイで用いられるマイクロホンの組み合わせについて示した図である。

マイクアレイ部１００では、マイクアレイユニットＭＡＵ１、ＭＡＵ２を構成する６つのマイクロホンｍｃ１～ｍｃ６の組み合わせによってマイクアレイを構成することができる。この実施形態では、図４（ａ）に示すようにマイクロホンｍｃ１、ｍｃ２によりマイクアレイＭＡ１が形成され、マイクロホンｍｃ１、ｍｃ３によりマイクアレイＭＡ２が形成されるものとする。また、この実施形態では、図４（ｂ）に示すように、マイクロホンｍｃ４とマイクロホンｍｃ５によりマイクアレイＭＡ３が形成され、マイクロホンｍｃ４とマイクロホンｍｃ６によりマイクアレイＭＡ４が形成されるものとする。

次に、収音装置２００の内部構成について説明する。

図１に示すように、収音装置２００は、信号入力部２０１、時間／周波数変換部２０２、指向性形成部２０３、エリア音抽出部２０４、エリア音検出部２０６、信号混合部２０７、及び周波数／時間変換部２０８を有している。収音装置２００を構成する各要素の詳細については後述する。

収音装置２００は、例えば、プロセッサやメモリ等を備えるコンピュータにプログラム（実施形態に係る収音プログラムを含む）を実行させるようにしてもよいが、その場合であっても、機能的には、図１のように示すことができる。収音装置２００の各構成要素の処理の詳細については後述する。

図６は、収音装置２００のハードウェア構成の例について示したブロック図である。なお、図６における括弧内の符号は後述する第２の実施形態で用いられる符号である。

図６では、収音装置２００をソフトウェア（コンピュータ）を用いて構成する際の構成について示している。

図６に示す収音装置２００は、ハードウェア的な構成要素として、少なくとも信号入力部２０１と、プログラム（実施形態の収音プログラムを含むプログラム）がインストールされたコンピュータ５００を有している。

信号入力部２０１は、例えば、Ａ／Ｄコンバータを用いて構成することができる。なお、コンピュータ５００自体にＡ／Ｄコンバータが搭載されていれば、信号入力部２０１を別途設ける必要はない。

コンピュータ５００は、信号入力部２０１から供給される音響信号（デジタル音響信号）にエリア収音処理を施して出力する処理を行う。この実施形態では、コンピュータ５００に、この実施形態の収音プログラムを含むプログラム（ソフトウェア）がインストールされているものとする。

なお、コンピュータ５００は、収音プログラム専用のコンピュータとしてもよいし、他の機能（例えば、記録装置３００）のプログラムと共用される構成としてもよい。

図６に示すコンピュータ５００は、プロセッサ５０１、一次記憶部５０２、及び二次記憶部５０３を有している。一次記憶部５０２は、プロセッサ５０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリが適用される。二次記憶部５０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨメモリやＨＤＤ等の不揮発性メモリが適用される。この実施形態のコンピュータ５００では、プロセッサ５０１が起動する際、二次記憶部５０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部５０２上に展開して実行する。

なお、コンピュータ５００の具体的な構成は図６の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部５０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次メモリについては除外した構成としてもよい。

次に、記録装置３００の機能的構成について説明する。

記録装置３００は、対話記録部３０１及び対話蓄積部３０２を有している。

記録装置３００についても、コンピュータにプログラムを実行させることでソフトウェア的に構成してもよいが、その場合であっても、機能的には、図１のように示すことができる。収音装置２００の各構成要素の処理の詳細については後述する。

（Ａ－２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の対面録音システム１の動作を説明する。

以下、図１を用いて本発明の実施形態に対面録音システム１の動作を詳細に説明する。

信号入力部２０１は、６つのマイクロホンｍｃ１～ｍｃ６で収音した音響信号をアナログ信号からデジタル信号に変換し、時間／周波数変換部２０２に供給する。以下では、マイクロホンｍｃ１～ｍｃ６で収音したデジタル形式の音響信号（以下、「入力信号」とも呼ぶ）を、それぞれｘ１～ｘ６と表す。

時間／周波数変換部２０２ではマイクロホン信号を時間領域から周波数領域へ変換する。以下では、入力信号ｘ１～ｘ６を周波数領域に変換した信号を、それぞれＸ１～Ｘ６と表す。

指向性形成部２０３は、周波数変換された各マイクロホンの入力信号（Ｘ１～Ｘ６）を用いてＢＦにより指向性を形成する。以下では、マイクアレイＭＡ１～ＭＡ４のそれぞれによるＢＦ出力をＹ１、Ｙ２、Ｙ３、Ｙ４とする。Ｙ１の指向性は対応者エリア方向に、Ｙ２の指向性は相談者エリア中心方向に、Ｙ３の指向性は対応者方向に、Ｙ４の指向性は相談者エリア方向を向いている（図２参照）。

エリア音抽出部２０４は、指向性形成部２０３で生成されたＢＦ出力Ｙ１～Ｙ４の互いに指向性が交差する２つの組み合わせから、前記従来技術で示した（９）式、もしくは（１０）式と同様の方法でＳＳし、目的エリア方向に存在する非目的エリア音を抽出する。さらに抽出した雑音を各ＢＦの出力から（１１）式、もしくは（１２）式と同様の方法でＳＳすることにより目的エリア音を抽出する。

エリア音抽出部２０４は、ＢＦ出力Ｙ１とＢＦ出力Ｙ３に基づいて対応者エリアＡ１を目的エリアとするエリア収音処理を行った結果（以下、「対応者エリア音Ｚ１」と表す）を取得し、ＢＦ出力Ｙ２とＢＦ出力Ｙ４に基づいて相談者席中央エリアＡ２を目的エリアとするエリア収音処理を行った結果（この実施形態では、「相談者エリア音Ｚ２」と呼ぶ）を強調・抽出（取得）する。

上述したように、特許文献２の記載技術を用いれば、エリア音出力Ｚ１、Ｚ２に混合用信号としての入力信号を少量混合（レベル（ゲイン）を低く調整して混合）すれば、エリア収音処理によって生じる目的音の歪みを軽減することが出来る。しかし、対応者と相談者双方が同時に発話している状況で、無処理のマイクロホンからの入力信号を混合すれば、抽出された対応者エリア音Ｚ１および相談者エリア音Ｚ２のそれぞれに他方の話者の発話が重畳される。このとき、抽出されたエリア音は２話者（応対者と相談者）の発話が混ざり合った音となり、記録した会話の音声認識によるテキスト化など、後の処理（例えば、記録装置３００における処理）に支障を来たす。

そこで本実施形態の収音装置２００では、対応者エリアＡ１、相談者エリアＡ２それぞれの収音エリア内の目的エリア音の有無（対応者、相談者のそれぞれが発話しているか否か）を判定し、２つのエリア双方同時に目的音が存在する場合には、各エリア音出力に対する入力信号の混合を中止、もしくは混合する入力信号のレベル（以下、「混合レベル」と呼ぶ）を低く調整する等の混合軽減措置を行なうものとする。

すなわち、エリア音検出部２０６は、対応者エリアＡ１、相談者エリアＡ２のそれぞれに対して、エリア音（対応者又は相談者が発話した音声）が存在するか否かを判定する。エリア音検出部２０６において、各収音エリア内のエリア音の存在の有無を判定する方法としては種々の方法を適用することができる。

収音エリア内の目的エリア音の存在の有無を判定するには、例えば、以下の参考文献１に記載されたエリア収音出力と入力音との振幅スペクトル比を用いる方法や、エリア収音を行なう際のＢＦ出力間のコヒーレンスを用いる方法などがあるが、この実施形態のエリア音検出部２０６では、振幅スペクトル比を用いる方法で構成するものとする。
参考文献１：特開２０１６－１２７４５７

振幅スペクトル比算出部２０５は、時間／周波数変換部２０２からは、対応者エリア、および、相談者エリアの２つのエリア音抽出に係る入力信号Ｘ１～Ｘ６を、エリア音抽出部２０４からはエリア音出力Ｚ１、Ｚ２を取得して、振幅スペクトル比の算出を行う。例えば振幅スペクトル比算出部２０５は、下記（１３）式、（１４）式を用いて、エリア音出力Ｚ１、Ｚ２と入力信号の振幅スペクトル比を周波数ごとに算出する。さらに下記（１５）式、（１６）式を用いて、全周波数の振幅スペクトル比を加算して、振幅スペクトル比加算値Ｕ１、Ｕ２を求める。

ここで（１３）式、（１４）式において、Ｗｉｎ_１は、エリア音出力Ｚ１算出に用いたマイクアレイの入力信号の振幅スペクトルであり、Ｗｉｎ_２は、エリア音出力Ｚ２算出に用いたマイクアレイの入力信号の振幅スペクトルである。エリア音出力Ｚ１、Ｚ１それぞれマイクアレイＭＡ１、ＭＡ３、マイクアレイＭＡ２、ＭＡ４の組み合せによって得られたエリア音出力であることから、Ｗｉｎ_１、Ｗｉｎ_２には、エリア音出力Ｚ１、Ｚ２の算出で、それぞれメインとして使用したマイクアレイの振幅スペクトルを充てる。各マイクアレイの振幅スペクトルには、それぞれのマイクアレイを構成する２つマイクロホンの何れか一方の入力信号の振幅スペクトルであってもよいし、２つマイクロホンの入力信号の平均であってもよい。

（１５）式を用いて行われる処理において得られるＵ１は、エリア音出力Ｚ１の各周波数の振幅スペクトル比Ｒ_１ｉ（ｉは周波数）を周波数の下限ｊから上限ｋでの帯域で足し合わせた振幅スペクトル比加算値である。（１６）式の処理を用いて行われるＵ２は、エリア音出力Ｚ２の各周波数の振幅スペクトル比Ｒ_２ｉ（ｉは周波数）を、周波数の下限ｊから上限ｋでの帯域で足し合わせたものである。ここで、振幅スペクトル比算出部２０５において演算対象とする周波数の帯域を制限しても良い。例えば、演算対象を音声情報が十分に含まれる１００Ｈｚから６ｋＨｚに制限して、上記演算を行うようにしても良い。

そして、エリア音検出部２０６は、振幅スペクトル比算出部２０５により算出した振幅スペクトル比加算値を予め設定した閾値と比較し、エリア音が存在するかしないかを判定し、その判定結果を信号混合部２０７に供給する。以下では、対応者エリアＡ１、相談者エリアＡ２のそれぞれに対する目的エリア音検出の判定結果をステータスＳ１、Ｓ２（エリア音存在ステータス）と表すものとする。Ｓ１、Ｓ２は、それぞれ目的エリア音有りを示す「ｔｒｕｅ」又は目的エリア音無し（目的エリア音不検出）を示す「ｆａｌｓｅ」のいずれかの値で示されるものとして説明する。

信号混合部２０７は、エリア音存在ステータスＳ１、Ｓ２の情報を元に、それぞれのエリア音出力Ｚ１、Ｚ２に対して混合用信号としての入力信号を混合する内容（以下、「混合内容」と呼ぶ）を決定し、決定した混合内容に従って、入力信号をエリア音出力Ｚ１、Ｚ２に混合する混合処理を行って出力する。具体的には、この実施形態の信号混合部２０７は、エリア音存在ステータスＳ１、Ｓ２の情報を元に、目的エリア音に入力信号を混合するか否かを判断する。Ｓ１、Ｓ２が共にｔｒｕｅ、すなわち対応者と相談者が同時に発話している場合は、信号混合部２０７は、エリア音出力Ｚ１、Ｚ２に対して入力音の混合は行なわず、それ以外の場合は、抽出されたエリア音出力Ｚ１、Ｚ２に対して入力音を混合する。Ｓ１、Ｓ２が共にｔｒｕｅの場合、入力音を全く混合しないのではなく、その他の場合の入力信号の混合に比べ、混合割合（混合レベル）を減らすなどとしてもよい。例えば、「Ｓ１、Ｓ２が共にｔｒｕｅの場合」以外の場合（Ｓ１、Ｓ２のうち一方のみがｔｒｕｅ、又は、Ｓ１、Ｓ２の両方がｆａｌｓｅの場合）の混合レベル（入力信号の調整に用いるレベル）をＧｓとすれば、「Ｓ１、Ｓ２が共にｔｒｕｅの場合」の混合レベルを０．５Ｇｓに調整するようにしてもよい。

なお、エリア音出力ごとに混合用信号として用いられる入力信号は、エリア音抽出（上記の（１１）式又は（１２）式）で基準として用いられたマイクアレイを構成するマイクロホンの入力信号を適用することが望ましい。例えば、エリア音出力Ｚ１について、エリア音を抽出する際に、上記の（１１）式が適用され、（１１）式でエリア音抽出の基準となっているＹ_１（ｎ）がマイクアレイＭＡ１のＢＦ出力であった場合を想定する。この場合は、エリア音出力Ｚ１の混合用信号としては、マイクアレイＭＡ１を構成するマイクロホンｍｃ１、ｍｃ２からの入力信号Ｘ１、Ｘ２のいずれかを適用することが望ましい。

信号混合部２０７で混合処理された対応者エリア音Ｗ１、相談者エリア音Ｗ２は、周波数／時間変換部２０８で時間信号に変換さ、記録装置３００に供給される。

次に、記録装置３００の動作について説明する。

記録装置３００では、収音装置２００から対話音声（対応者エリア音Ｗ１、相談者エリア音Ｗ２）が供給されると、対話記録部３０１に供給される。

対話記録部３０１は、供給される対話音声のデータを対話蓄積部３０２に供給して蓄積・保持させる。

以上のように、この実施形態では、収音装置２００で取得された対話音声が、記録装置３００に供給され、記録・活用される。

（Ａ－３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の収音装置２００では、対応者エリアＡ１と相談者エリアＡ２の目的音源の有無を判定し、対応者と相談者が同時に発話していると判定された場合は、抽出されたそれぞれの目的エリア音に対する入力信号の混合を抑制しているため、エリア音出力に対する音質改善と共に、それぞれ抽出されたエリア音出力（目的音）への妨害音の混入を避けることができる。

（Ｂ）第２の実施形態
以下、本発明による収音装置、収音プログラム、収音方法、及び収音システムの第２の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを対面録音システムに適用した例について説明する。

（Ｂ－１）第２の実施形態の構成
図６は、第２の実施形態の対面録音システム１Ａの全体構成を示すブロック図である。

図６では、上述の図１と同一又は対応する部分に、同一又は対応する符号を付している。以下では、第２の実施形態について第２の実施形態との差異を中心に説明する。

第２の実施形態の対面録音システム１Ａでは、マイクアレイ部１００と収音装置２００とが、それぞれマイクアレイ部１００Ａと収音装置２００Ａに置き換わっている点で第２の実施形態と異なっている。

また、第２の実施形態の収音装置２００Ａでは、信号混合部２０７が、信号混合部２０７Ａに置き換わり、さらに混合レベル算出部２０９が追加されている点で第１の実施形態と異なっている。

さらに、第２の実施形態のマイクアレイ部１００Ａでは、マイクアレイユニットＭＡＵ１、ＭＡＵ２が、それぞれマイクアレイユニットＭＡＵ１Ａ、ＭＡＵ２Ａに置き換わっている点で第２の実施形態と異なっている。

第１の実施形態では、対応者側、相談者側それぞれ１つの収音エリアを設定したが、第２の実施形態では、マイクアレイユニットＭＡＵ１Ａ、ＭＡＵ２Ａにおけるマイクロホンの構成（マイクロホンの数や配置位置）を変更することで、相談者が２人の場合の収音エリア設定が可能となっている。すなわち、第２の実施形態の収音装置２００では、相談者側の相談者エリアＡ２が、２つの収音エリア（サブエリア）に分割されており、それぞれの収音エリアについて別個に収音可能であるものとする。

図７は、第２の実施形態の対面録音システム１Ａにおいて、収音する対象となる収音エリアとその周辺の環境について示した図である。

第２の実施形態では、マイクアレイユニットＭＡＵ１Ａ、ＭＡＵ２Ａのマイクロホン配置を調整することで、図７に示すように、相談者が１人の場合および相談者が２人の場合を２つの収音エリア（サブエリア）でカバーするものとする。第２の実施形態では、相談者エリアＡ２に、収録すべき相談者側の収音エリア（サブエリア）として、相談者側から見て右側のエリア（以下、「相談者右側席エリアＡ２－１」と呼ぶ）と、相談者側から見て左側のエリア（以下、「相談者左側席エリアＡ２－２」と呼ぶ）の２箇所の収音エリアが設定されているものとする。なお、この実施形態では、図７に示すように、相談者右側席エリアＡ２－１と相談者左側席エリアＡ２－２とは、線ＣＬ１の周辺で重複する領域が存在するものとする。

次に、マイクアレイ部１００Ａの内部構成について説明する。

図８は、マイクアレイユニットＭＡＵ１Ａ、ＭＡＵ２Ａの配置構成の例について示した図である。

図８では、上方向からマイクアレイユニットＭＡＵ１Ａ、ＭＡＵ２Ａが配置された領域を見た場合の図となっている。

図８に示すように、第２の実施形態のマイクアレイ部１００Ａにおいて、マイクアレイユニットＭＡＵ１Ａ、ＭＡＵ２Ａを配置する位置は、第１の実施形態と同様であるため詳しい説明を省略する。

次に、第２の実施形態における各マイクアレイユニットＭＡＵ１Ａ、ＭＡＵ２Ａの構成について図９を用いて説明する。

図９（ａ）に示すように、相談者側から見て左側に設置されたマイクアレイユニットＭＡＵ１Ａは、マイクロホンｍｃ１を端点としてマイクロホンｍｃ１から見て対応者席方向に略直交する線分上に配置したマイクロホンｍｃ２と、マイクロホンｍｃ１を端点としてマイクロホンｍｃ１から見て相談者右側席エリアＡ２－１の方向に略直交する線分上に配置されるマイクロホンｍｃ３と、マイクロホンｍｃ１を端点としてマイクロホンｍｃ１から見て相談者左側席エリアＡ２－２に略直交する線分上に配置されるマイクロホンｍｃ４とを有している。

図９（ｂ）に示すように、相談者側から見て右側に設置されたマイクアレイユニットＭＡＵ２Ａは、マイクロホンｍｃ５を端点としてマイクロホンｍｃ５から見て対応者席方向に略直交する線分上に配置したマイクロホンｍｃ６と、マイクロホンｍｃ５を端点としてマイクロホンｍｃ５から見て相談者左側席エリアＡ２－２方向に略直交する線分上に配置されるマイクロホンｍｃ７と、マイクロホンｍｃ５を端点としてマイクロホンｍｃ５から相談者右側席エリアＡ２－１方向に略直交する線分上に配置されるマイクロホンｍｃ８とを有している。

図１０は、マイクアレイ部１００Ａの各マイクアレイユニットで形成されるマイクアレイで用いられるマイクロホンの組み合わせについて示した図である。

図１０に示すように、マイクアレイユニットＭＡＵ１Ａ、マイクアレイユニットＭＡＵ２Ａを構成する８つのマイクロホンｍｃ１～ｍｃ８によりマイクアレイＭＡ１～ＭＡ６が形成される。具体的には、マイクアレイ部１００では、マイクアレイユニットＭＡＵ１Ａ、ＭＡＵ２Ａを構成する８つのマイクロホンｍｃ１～ｍｃ８の組み合わせによってマイクアレイを構成することができる。この実施形態では、図１０（ａ）に示すようにマイクロホンｍｃ１、ｍｃ２によりマイクアレイＭＡ１が形成され、マイクロホンｍｃ１、ｍｃ３によりマイクアレイＭＡ２が形成され、マイクロホンｍｃ１、ｍｃ４により、マイクアレイＭＡ３が形成されるものとする。また、この実施形態では、図１０（ｂ）に示すように、マイクロホンｍｃ５とマイクロホンｍｃ６によりマイクアレイＭＡ４が形成され、マイクロホンｍｃ５とマイクロホンｍｃ７によりマイクアレイＭＡ５が形成され、マイクロホンｍｃ５とマイクロホンｍｃ８によりマイクアレイＭＡ６が形成されるものとする。

（Ｂ－２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の対面録音システム１Ａの動作を説明する。

信号入力部２０１は、マイクアレイ部１００Ａの８つのマイクロホンでｍｃ１～ｍｃ８収音した音響信号をアナログ信号からデジタル信号（入力信号）に変換し、時間／周波数変換部２０２に供給する。以下では、マイクロホンｍｃ１～ｍｃ８で収音した入力信号を、それぞれｘ１～ｘ８と表す。

時間／周波数変換部２０２ではマイクロホン信号を時間領域から周波数領域へ変換する。以下では、入力信号ｘ１～ｘ８を周波数領域に変換した信号を、それぞれＸ１～Ｘ８と表す。

指向性形成部２０３は、周波数変換された各マイクロホンの入力信号（Ｘ１～Ｘ８）を用いてＢＦにより指向性を形成する。

以下では、マイクアレイＭＡ１～ＭＡ６のそれぞれによるＢＦ出力をＹ１、Ｙ２、Ｙ３、Ｙ４、Ｙ５、Ｙ６とする。図８に示すように、Ｙ１の指向性は対応者エリアＡ１の方向に向けられており、Ｙ２の指向性は相談者右側席エリアＡ２－１の方向にむけられており、Ｙ３の指向性は相談者左側席エリアＡ２－２の方向に向けられている。また、図８に示すように、Ｙ４の指向性は対応者エリアＡ１の方向に向けられており、Ｙ５の指向性は相談者左側席エリアＡ２－２の方向に向けられており、Ｙ６の指向性は相談者右側席エリアＡ２－１の方向に向けられている。

エリア音抽出部２０４は、指向性形成部２０３で生成されたＢＦ出力Ｙ１～Ｙ６の互いに指向性が交差する２つの組み合わせから、目的エリア音を抽出する。図８に示すように、ＢＦ出力Ｙ１とＹ４は対応者エリアＡ１で交差し、ＢＦ出力Ｙ２とＹ６は相談者右側席エリアＡ２－１で交差し、ＢＦ出力Ｙ３とＹ５は相談者左側席エリアＡ２－２で交差する。エリア音抽出部２０４は、互いに交差するＢＦ出力からそれぞれ、対応者エリア音Ｚ１、相談者右側エリア音Ｚ２、相談者左側エリア音Ｚ３を強調・抽出する。すなわち、エリア音抽出部２０４は、指向性形成部２０３で生成されたＢＦ出力Ｙ１～Ｙ６の互いに指向性が交差する２つの組み合わせから、前記従来技術で示した（９）式、もしくは（１０）式と同様の方法でＳＳし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、エリア音抽出部２０４は、抽出した雑音を各ＢＦの出力から（１１）式、もしくは（１２）式と同様の方法でＳＳすることにより目的エリア音を抽出する。

具体的には、エリア音抽出部２０４は、ＢＦ出力Ｙ１とＢＦ出力Ｙ４に基づいて対応者エリアＡ１を目的エリアとするエリア収音処理を行った結果（対応者エリア音Ｚ１）を取得し、ＢＦ出力Ｙ２とＢＦ出力Ｙ６に基づいて相談者右側席エリアＡ２－１を目的エリアとするエリア収音処理を行った結果（相談者右側席エリア音Ｚ２）を取得し、ＢＦ出力Ｙ３とＢＦ出力Ｙ５に基づいて相談者左側席エリアＡ２－２を目的エリアとするエリア収音処理を行った結果（相談者左側席エリア音Ｚ３）を取得する。

振幅スペクトル比算出部２０５は、第１の実施形態と同様の手法により、対応者エリアＡ１と２つの相談者エリア（Ａ２－１、Ａ２－２）のそれぞれの振幅スペクトル比加算値Ｕ１、Ｕ２、Ｕ３を求める。

振幅スペクトル比算出部２０５は、上記（１３）式、（１４）式、及び下記（１７）を用いて、エリア音出力Ｚ１、Ｚ２、Ｚ３と入力信号の振幅スペクトル比を周波数ごとに算出する。さらに、振幅スペクトル比算出部２０５は、上記（１５）式、（１６）式、及び下記（１８）式を用いて、全周波数の振幅スペクトル比を加算して、振幅スペクトル比加算値Ｕ１、Ｕ２、Ｕ３を求める。

第２の実施形態では、（１５）式を用いて行われる処理において得られるＵ１は、エリア音出力Ｚ１の各周波数の振幅スペクトル比Ｒ_１ｉ（ｉは周波数）を周波数の下限ｊから上限ｋでの帯域で足し合わせた振幅スペクトル比加算値である。また、（１６）式の処理を用いて行われるＵ２は、エリア音出力Ｚ２の各周波数の振幅スペクトル比Ｒ_２ｉ（ｉは周波数）を、周波数の下限ｊから上限ｋでの帯域で足し合わせたものである。さらに、（１８）式の処理を用いて行われるＵ３は、エリア音出力Ｚ３の各周波数の振幅スペクトル比Ｒ_３ｉ（ｉは周波数）を、周波数の下限ｊから上限ｋでの帯域で足し合わせたものである。

エリア音検出部２０６は、振幅スペクトル比算出部２０５で算出した振幅スペクトル比加算値を予め設定した閾値と比較し、各エリアに目的エリア音が存在するかしないかを判定し、判定結果として、対応者エリアＡ１、相談者右側席エリアＡ２－１、相談者左側席エリアＡ２－２のそれぞれのエリア音存在ステータスＳ１、Ｓ２、Ｓ３を出力する。

混合レベル算出部２０９は、ステータスＳ１、Ｓ２、Ｓ３の組み合わせのパターン（以下、「ステータスパターン」と呼ぶ）に応じて、エリア音出力Ｚ１、Ｚ２、Ｚ３に、混合用信号としての入力信号（例えば、エリア音抽出の際に基準となるマイクアレイを構成するマイクロホンからの入力信号）を混合する際の混合レベルを算出する。以下では、ステータスパターンごとに、混合レベル算出部２０９が各エリア音出力Ｚ１、Ｚ２、Ｚ３に適用する混合レベルを決定する処理について説明する。以下では、エリア音出力Ｚ１、Ｚ２、Ｚ３に対する混合レベルを、それぞれＧ１、Ｇ２、Ｇ３と表すものとする。また、以下では、エリア音出力Ｚ１、Ｚ２、Ｚ３に適用する標準（デフォルト）の混合レベルをＧｓとして説明する。すなわち、混合レベル算出部２０９では、原則としては、エリア音出力Ｚ１、Ｚ２、Ｚ３に適用する混合レベルＧ１、Ｇ２、Ｇ３をＧｓとし、ステータスパターンに応じて、各混合レベル（Ｇ１、Ｇ２、Ｇ３）を調整する処理を行う。

[第１のステータスパターン]
「Ｓ１、Ｓ２」又は「Ｓ１、Ｓ３」が共にｔｒｕｅとなったステータスパターン（以下、「第１のステータスパターン」と呼ぶ）が発生した場合は、対応者と相談者が同時に発話している場合であると推定される。そこで、混合レベル算出部２０９は、第１のステータスパターンが発生した場合、各話者が単独に発話した場合の混合レベル（標準混合レベルＧとする）に対し、たとえば半減したゲインを与える。

例えば、混合レベル算出部２０９は、「Ｓ１＝ｔｒｕｅ、Ｓ２＝ｔｒｕｅ、Ｓ３＝ｆａｌｓｅ」のとき、「Ｇ１＝０．５、Ｇ２＝０．５Ｇｓ、Ｇ３＝０」を設定する。また、例えば、混合レベル算出部２０９は、「Ｓ１＝ｔｒｕｅ、Ｓ２＝ｆａｌｓｅ、Ｓ３＝ｔｒｕｅ」のとき「Ｇ１＝０．５Ｇｓ、Ｇ２＝０、Ｇ２＝０．５」を設定する。

なお、この実施形態では、第１のステータスパターンが発生した場合、混合レベル算出部２０９は、エリア音存在ステータスがｆａｌｓｅのエリア音出力の混合レベルを０に設定するものとするが、エリア音存在ステータスがｆａｌｓｅのエリア音出力について、混合レベルに０以外を設定して信号混合部２０７Ａ側で混合用信号を混合しない処理を行うようにしてもよい。

[第２のステータスパターン]
Ｓ２とＳ３が共にｔｒｕｅとなったステータスパターン（以下、「第２のステータスパターン」と呼ぶ）が発生した場合は、２人の相談者が同時に発話している状態であると推定される。相談者右側席エリアＡ２－１と相談者左側席エリアＡ２－２は、非常に近接しているため、分離・抽出された目的音（エリア音出力Ｚ２、Ｚ３）に入力信号を混合した場合、混合によって隣接話者の発話が混ざり合う危険性がさらに高くなる。例えば、相談者右側席エリア音Ｚ２に、相談者左側席エリアＡ２－２の話者の音声が混ざり合う危険性がさらに高かうなる。

そこで、第２のステータスパターンが発生した場合、混合レベル算出部２０９は、第１のステータスパターンの場合（前記対応者と相談者（１人）が同時に発話した場合）に比べ、混合レベルを一段と小さくするものとする。

例えば、「Ｓ１＝ｆａｌｓｅ、Ｓ２＝ｔｒｕｅ、Ｓ３＝ｔｒｕｅ」のとき混合レベル算出部２０９は、「Ｇ１＝０、Ｇ２＝０．１Ｇｓ、Ｇ３＝０．１Ｇｓ」とするようにしてもよい。

なお、この実施形態では、第２のステータスパターンが発生した場合、混合レベル算出部２０９は、エリア音存在ステータスがｆａｌｓｅのエリア音出力の混合レベルを０に設定するものとするが、エリア音存在ステータスがｆａｌｓｅのエリア音出力について、混合レベルに０以外を設定して信号混合部２０７Ａ側で混合用信号を混合しない処理を行うようにしてもよい。

[第３のステータスパターン]
Ｓ１、Ｓ２、Ｓ３がすべてｔｒｕｅとなったステータスパターン（以下、「第３のステータスパターン」と呼ぶ）が発生した場合は、３人が同時に発話したと推定することができる。そのため、第３のステータスパターンが発生した場合、混合レベル算出部２０９が混合処理を行えば、一層、各目的音（エリア音出力Ｚ１、Ｚ２、Ｚ３）へ妨害音が混入する恐れが増大する。したがって、第３のステータスパターンが発生した場合、混合レベル算出部２０９は、混合処理は見合わせる。

例えば、「Ｓ１＝ｔｒｕｅ、Ｓ２＝ｔｒｕｅ、Ｓ３＝ｔｒｕｅ」のとき、混合レベル算出部２０９は、「Ｇ１＝０、Ｇ２＝０、Ｇ３＝０」とするようにしてもよい。

なお、この実施形態では、第３のステータスパターンが発生した場合、混合レベル算出部２０９は、各エリア音出力の混合レベルを０に設定するものとするが、各エリア音出力に対する混合レベルに０以外を設定して信号混合部２０７Ａ側で混合用信号を混合しない処理を行うようにしてもよい。

[第４のステータスパターン]
Ｓ１、Ｓ２、Ｓ３の何れか１つがｔｒｕｅとなったステータスパターン（以下、「第４のステータスパターン」と呼ぶ）が発生した場合、各収音エリアの話者が単独で発話している場合であり、信号混合による妨害音の影響は少ないと考えられる。そこで、第４のステータスパターンが発生した場合、混合レベル算出部２０９は、ため、ステータスがｔｒｕｅとなったエリア音出力に対してのみ標準の混合レベルＧｓを与える。

例えば、「Ｓ１＝ｔｒｕｅ、Ｓ２＝ｆａｌｓｅ、Ｓ３＝ｆａｌｓｅ」のとき、混合レベル算出部２０９は、「Ｇ１＝Ｇｓ、Ｇ２＝０、Ｇ３＝０」とするようにしてもよい。また、例えば、「Ｓ２＝ｔｒｕｅ、Ｓ１＝ｆａｌｓｅ、Ｓ３＝ｆａｌｓｅ」のとき、混合レベル算出部２０９は、「Ｇ２＝Ｇｓ、Ｇ１＝０、Ｇ３＝０」とするようにしてもよい。さらに、例えば、「Ｓ１＝ｆａｌｓｅ、Ｓ２＝ｆａｌｓｅ、Ｓ３＝ｔｒｕｅ」のとき、混合レベル算出部２０９は、「Ｇ１＝０、Ｇ２＝０、Ｇ３＝Ｇｓ」とするようにしてもよい。

なお、この実施形態では、第４のステータスパターンが発生した場合、混合レベル算出部２０９は、エリア音存在ステータスがｆａｌｓｅのエリア音出力の混合レベルを０に設定するものとするが、エリア音存在ステータスがｆａｌｓｅのエリア音出力について、混合レベルに０以外を設定して信号混合部２０７Ａ側で混合用信号を混合しない処理を行うようにしてもよい。

以上のように、この実施形態における混合レベル算出部２０９は、ステータスパターンに応じて、各エリア音出力Ｚ１、Ｚ２、Ｚ３に適用する混合レベルを決定する。上記のステータスパターンごとに、各エリア収音出力に設定する混合レベルの設定方法は一例であり、抽出すべき収音エリアの配置や同時発話した場合の信号混合の程度などによって実験的、経験的に好適な値を定めることが望ましい。

信号混合部２０７Ａは、目的エリア音出力Ｚ１、Ｚ２、Ｚ３に対し、混合レベル算出部２０９で算出された混合レベルＧ１、Ｇ２、Ｇ３にしたがって入力信号の混合を行なう。具体的には、信号混合部２０７Ａは、目的エリア音出力Ｚ１に対して、混合レベルＧ１に応じたレベルに調整された入力信号を混合し、混合した信号（以下、「対応者エリア音Ｗ１」と呼ぶ）を生成する。また、信号混合部２０７Ａは、目的エリア音出力Ｚ２に対して、混合レベルＧ２に応じたレベルに調整された入力信号を混合し、混合した信号（以下、「相談者左側席エリア音Ｗ２」と呼ぶ）を生成する。さらに、信号混合部２０７Ａは、目的エリア音出力Ｚ３に対して、混合レベルＧ３に応じたレベルに調整された入力信号を混合し、混合した信号（以下、「相談者右側席エリア音Ｗ３」と呼ぶ）を生成する。なお、Ｗ１、Ｗ２、Ｗ３には、結果として入力信号（混合用信号）が混合されないこともあり得る。

信号混合部２０７Ａで混合処理された対応者エリア音Ｗ１、相談者左側席エリア音Ｗ２、相談者右側席エリア音Ｗ３は、周波数／時間変換部２０８で時間信号に変換され、記録装置３００に供給される。

次に、記録装置３００の動作について説明する。

記録装置３００では、収音装置２００Ａから対話音声（対応者エリア音Ｗ１、相談者左側席エリア音Ｗ２、相談者右側席エリア音Ｗ３）が供給されると、対話記録部３０１に供給される。

以上のように、この実施形態では、収音装置２００Ａで取得された対話音声が、記録装置３００に供給され、記録・活用される。

（Ｂ－３）第２の実施形態の効果
第２の実施形態によれば、以下のような効果を奏することができる。

第２の実施形態の収音装置２００Ａでは、近接した複数の収音エリアにおける目的音源の有無を判定し、その判定結果のパターン（ステータスパターン）に応じて、各収音エリアから抽出されたエリア音出力に対する混合用信号（入力信号）の混合量（混合レベル）を適切に定めることによって、出力するエリア音出力における目的音の音質改善と妨害音の混入防止を同時に実現できる。

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｃ－１）上記の各実施形態では本発明の収音装置を対面収録に適用した場合について記しているが、本発明の収音装置の適用範囲は、対面収録に限定されるものではない。例えば、本発明の収音装置を近接した複数のエリアのエリア収音を行なう利用状況の何れにも適用可能である。

（Ｃ－２）上記の各実施形態では２つのマイクアレイユニットを用いて対応者エリアと相談者エリアを収音する例について示したが、対応者エリアＡ１、及び相談者エリアＡ２の各サブエリアを別個にエリア収音することができれば、具体的なマイクアレイユニットの数や各マイクアレイユニットの構成については限定されないものである。例えば、マイクアレイユニットの数は３つ以上であってもよい。

（Ｃ－３）上記の各実施形態では、相談者エリアＡ２におけるサブエリアが１つの場合と２つの場合について示したが、相談者エリアＡ２内のサブエリアの数は限定されないものである。例えば、相談者エリアＡ２内で、３つ以上のサブエリアを設けて、別個に収音可能な構成としてもよい。

（Ｃ－４）第２の実施形態では、相談者側の収音エリアのみを複数のサブエリアに分割して収音したが、対応者側でも分野の専門家を交えて相談するケースもあり、対応者側の収音エリアも複数のサブエリアに分割して収音するようにしてもよい。

１、１Ａ…対面録音システム、１００、１００Ａ…マイクアレイ部、ＭＡＵ１、ＭＡＵ１Ａ、ＭＡＵ２、ＭＡＵ２Ａ…マイクアレイユニット、ＭＡ１～ＭＡ６…マイクアレイ、ｍｃ１～ｍｃ８…マイクロホン、２００、２００Ａ…収音装置、２０１…信号入力部、２０２…時間／周波数変換部、２０３…指向性形成部、２０４…エリア音抽出部、２０５…振幅スペクトル比算出部、２０６、２０６Ａ…エリア音検出部、２０７、２０７Ａ…信号混合部、２０８、２０８Ａ…周波数／時間変換部、２０９…混合レベル算出部、３００…記録装置、３０１…対話記録部、３０２…対話蓄積部、５００…コンピュータ、５０１…プロセッサ、５０２…一次記憶部、５０３…二次記憶部。

Claims

１又は複数の話者が位置する第１の話者エリアと、前記第１の話者エリアの話者と対話する１又は複数の話者が位置する第２の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第１の話者エリア及び前記第２の話者エリアに対してエリア収音処理を行うエリア音抽出手段と、
前記第１の話者エリアと前記第２の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、
前記第１の話者エリアと前記第２の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定する混合内容決定手段と、
前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する信号混合手段と
を有することを特徴とする収音装置。
前記混合内容決定手段は、前記第１の話者エリアと前記第２の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して混合用信号を混合するか否かを決定し、
前記信号混合手段は、前記混合内容決定手段で混合用信号を混合すると決定されたエリア収音結果について混合用信号を混合して出力する
ことを特徴とする請求項１に記載の収音装置。
前記混合内容決定手段は、前記第１の話者エリアと前記第２の話者エリアの両方についてエリア音検出処理によりエリア音が検出された場合、記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して混合用信号を混合しないと決定し、それ以外の場合には記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して混合用信号を混合すると決定することを特徴とする請求項２に記載の収音装置。
それぞれの前記マイクアレイユニットは、前記第２の話者エリア内の複数のサブエリアに指向性を向けることが可能であり、
前記エリア音抽出手段は、前記第２の話者エリア内の複数のサブエリアのそれぞれについてエリア収音処理を行うことが可能であり、
前記エリア音検出手段は、それぞれのサブエリアについてもエリア音検出処理を行い、
前記混合内容決定手段は、前記第１の話者エリアと前記第２の話者エリア内の各サブエリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリア内の各サブエリアのエリア収音結果に対する混合用信号の混合内容を決定し、
前記信号混合手段は、前記第１の話者エリア及び前記第２の話者エリアの各サブエリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する
ことを特徴とする請求項１に記載の収音装置。
前記混合内容決定手段は、前記第１の話者エリアと前記第２の話者エリアの各サブエリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリアの各サブエリアのエリア収音結果に対する混合用信号の混合レベルを算出し、
前記信号混合手段は、前記第１の話者エリア及び前記第２の話者エリアの各サブエリアのエリア収音結果に対して、前記混合内容決定手段が算出した混合レベルに応じた混合レベルに調整された混合用信号を混合して出力する
ことを特徴とする請求項４に記載の収音装置。
前記エリア音抽出手段は、前記第２の話者エリア内の第１のサブエリアと、前記第１のサブエリアから前記第１の話者エリアを見た場合に前記第１のサブエリアの左側又は右側に隣接する第２のサブエリアについてエリア収音処理を行うことを特徴とする請求項５に記載の収音装置。
前記混合内容決定手段は、エリア音検出処理の結果、前記第１の話者エリアと前記第１のサブエリアについてだけエリア音が発生しているという判定結果だった場合、又は、前記第１の話者エリアと前記第２のサブエリアについてだけエリア音が発生しているという判定結果だった場合、エリア音が発生していた収音エリアに対する混合レベルを下げるように調整することを特徴とする請求項６に記載の収音装置。
前記混合内容決定手段は、前記第１のサブエリアと前記第２のサブエリアについてだけエリア音が発生しているという判定結果だった場合、前記第１のサブエリア、及び前記第２のサブエリアのエリア収音結果に対する混合用信号の混合レベルを下げるように調整することを特徴とする請求項６又は７に記載の収音装置。
前記混合内容決定手段は、エリア音検出処理の結果、前記第１の話者エリア、前記第１のサブエリア、及び前記第２のサブエリアの全てについてエリア音が発生しているという判定結果だった場合、前記第１の話者エリア、前記第１のサブエリア、及び前記第２のサブエリアに対して０の混合レベルを設定することを特徴とする請求項６～８のいずれかに記載の収音装置。
前記混合内容決定手段は、エリア音検出処理の結果、前記第１の話者エリア、前記第１のサブエリア、及び前記第２のサブエリアの３つの収音エリアのうち、１つについてのみエリア音が発生しているという判定結果だった場合、エリア音が発生していた収音エリアに対する混合レベルを調整しないことを特徴とする請求項６～９のいずれかに記載の収音装置。
コンピュータを、
１又は複数の話者が位置する第１の話者エリアと、前記第１の話者エリアの話者と対話する１又は複数の話者が位置する第２の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第１の話者エリア及び前記第２の話者エリアに対してエリア収音処理を行うエリア音抽出手段と、
前記第１の話者エリアと前記第２の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、
前記第１の話者エリアと前記第２の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定する混合内容決定手段と、
前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する信号混合手段と
して機能させることを特徴とする収音プログラム。
収音装置が行う収音方法において、
エリア音抽出手段、エリア音検出手段、混合内容決定手段及び信号混合手段を有し、
前記エリア音抽出手段は、１又は複数の話者が位置する第１の話者エリアと、前記第１の話者エリアの話者と対話する１又は複数の話者が位置する第２の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第１の話者エリア及び前記第２の話者エリアに対してエリア収音処理を行い、
前記エリア音検出手段は、前記第１の話者エリアと前記第２の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行い、
前記混合内容決定手段は、前記第１の話者エリアと前記第２の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定し、
前記信号混合手段は、前記第１の話者エリア及び前記第２の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する
ことを特徴とする収音方法。
１又は複数の話者が位置する第１の話者エリアと、前記第１の話者エリアの話者と対話する１又は複数の話者が位置する第２の話者エリアに指向性を向けることが可能な複数のマイクアレイユニットと、前記第１の話者エリア及び前記第２の話者エリアのエリア収音処理を行う収音装置を備える収音システムにおいて、前記収音装置として請求項１～１０のいずれかに記載の収音装置を適用したことを特徴とする収音システム。
前記収音装置によるエリア収音処理の結果を記録する記録装置をさらに備えることを特徴とする請求項１３に記載の収音システム。