JP7207170B2 - 収音装置、収音プログラム、収音方法、及び収音システム - Google Patents

収音装置、収音プログラム、収音方法、及び収音システム Download PDF

Info

Publication number
JP7207170B2
JP7207170B2 JP2019099683A JP2019099683A JP7207170B2 JP 7207170 B2 JP7207170 B2 JP 7207170B2 JP 2019099683 A JP2019099683 A JP 2019099683A JP 2019099683 A JP2019099683 A JP 2019099683A JP 7207170 B2 JP7207170 B2 JP 7207170B2
Authority
JP
Japan
Prior art keywords
area
sound
speaker
mixing
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019099683A
Other languages
English (en)
Other versions
JP2020195069A (ja
Inventor
隆 矢頭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2019099683A priority Critical patent/JP7207170B2/ja
Publication of JP2020195069A publication Critical patent/JP2020195069A/ja
Application granted granted Critical
Publication of JP7207170B2 publication Critical patent/JP7207170B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、収音装置、収音プログラム、収音方法、及び収音システムに関し、例えば、雑音環境下で用いられる対面録音システム等の特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。
現在、顧客との電話応対業務を行なうコールセンタを構成するシステムでは、オペレータの応対技術向上やコンプライアンス遵守やトラブル防止/対策等のため、オペレータと顧客との間の会話内容を記録(録音)する通話録音システム(収音システム)の導入が進んでいる。また、通常、BtoC(Business to Consumer)ビジネスを行う企業においてコールセンタ以外の顧客との接点として、電話応対ではなく顧客と対面して直接対話を行なう各種営業店窓口がある。住宅ローン、相続、資産運用などの相談を行なう金融機関相談窓口が、その代表的なものである。現在、このような営業店窓口でも、前記コールセンタと同様の目的で、対応者と相談者(顧客)の対話内容を記録したいという要望が高まっている。以下では、前記の「通話録音システム」に対し、こちらを「対面録音システム」と呼ぶ。
従来の通話録音システムでは、オペレータ側と顧客側では、発話の場もヘッドセットや受話器等の受音デバイスも分離されており、会話はオペレータの声と顧客の声は、労せずに分離収録可能である。一方、従来の対面録音システムでは、通常、対応者と相談者の間の卓上1箇所に置かれたマイクロホン(モノラルまたはステレオ)によって収録されるため、対応者、相談者の声は区別されることなく混在して録音されることになる。このことは、録音データを用いた対話内容の確認や、音声認識技術を用いた対話内容のテキスト化や、ナレッジマネジメント(例えば、テキストマイニング)への活用等、その後のデータ活用に対して大きな障害となる。収録音声に音声認識を適用するには、対応者と相談者の音声が分離されていることは勿論、実環境における様々な周囲音(隣接ブースにおける会話音、バックオフィスの会話、機器騒音、待合室会話、順番を告げる呼び出しアナウンス等々)の混入を防ぐ必要がある。
ところで、雑音環境下で音声通録システムや音声認識応用システムを利用する場合、必要な目的音声と同時に混入する周囲の雑音は、対話内容の聞き取りを阻害し、収録された音声の音声認識率の低下をもたらす厄介な存在である。従来、このような複数の音源が存在する環境下において、特定の方向の音のみ分離・収音することで不要音の混入を避け必要な目的音を得る技術として、マイクアレイを用いたビームフォーマ(Beam Former;以下、「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
図11は、マイクロホン数が2個(M1、M2)の場合の減算型BF400に係る構成を示すブロック図である。
減算型BF400は、遅延器410と減算器420を有している。
減算型BF400は、目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延器410により遅延を加えることにより目的音の位相を合わせる。このときの時間差は下記(1)式により算出される。ここで、dはマイクロホン間の距離であり、cは音速であり、τは遅延量であり、θは各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
また、ここで、遅延器410は、死角がマイクロホンM1とマイクロホンM2の中心に対し、マイクロホンM1の方向に存在する場合、マイクロホンM1の入力信号x(t)に対し遅延処理を行う。その後、減算器420が、(2)式に従った減算処理を行う。
減算器420では、周波数領域でも同様に減算処理を行うことができ、その場合(2)式は以下の(3)式のように変更される。
Figure 0007207170000001
ここでθ=±π/2の場合、形成される指向性は図12(a)に示すように、カージオイド型の単一指向性となり、θ=0,πの場合は、図12(b)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。
減算器420では、スペクトル減算法(Spectral Subtraction;以下、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。(4)式では、マイクロホンM1の入力信号Xを用いているが、マイクロホンM2の入力信号Xでも同様の効果を得ることができる。ここでβはSSの強度を調節するための係数である。(4)式に従ってSSの処理を行う際、減算時に値がマイナスになった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音方向を強調することができる。
Figure 0007207170000002
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1の記載技術では、複数のマイクアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(エリア収音)を提案している。
図13は、2つのマイクアレイMA1、MA2を用いて、目的エリアの音源からの目的エリア音を収音する処理について示した説明図である。
図13(a)は、各マイクアレイの構成例について示した説明図である。図13(b)、図13(c)は、それぞれ図13(a)に示すマイクアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。エリア収音では、図13(a)に示すようは、マイクアレイMA1、MA2の指向性を別々の方向から収音したいエリア(目的エリア)で交差させて収音する。図13(a)の状態では、各マイクアレイMA1、MA2の指向性に目的エリア内に存在する音(目的エリア音)だけでなく、目的エリア方向の雑音(非目的エリア音)も含まれている。しかし、図13(b)、図13(c)に示すように、マイクアレイMA1、MA2の指向性を周波数領域で比較すると、目的エリア音成分はどちらの出力にも含まれるが、非目的エリア音成分は各マイクアレイで異なることになる。従来のエリア収音技術では、このような特性を利用し、2つのマイクアレイMA1、MA2のBF出力に、共通に含まれる成分以外を抑圧することで目的エリア音のみ抽出することができる。
図13(a)のような環境で従来のエリア収音処理を行う場合、まず各マイクアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする例として2つのマイクアレイを使用することになる。このとき、目的エリア音振幅スペクトルの補正係数は、「(5)、(6)式」または「(7)、(8)式」により算出される。ここで、Y1k(n)、Y2k(n)はマイクアレイMA1、MA2のBF出力の振幅スペクトルであり、Nは周波数ビンの総数であり、kは周波数であり、α(n)、α(n)は各BF出力に対する振幅スペクトル補正係数である。また、ここで、modeは最頻値、medianは中央値を表している。
Figure 0007207170000003
その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出することができる。さらに、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。例えば、マイクアレイMA1からみた目的エリア方向に存在する非目的エリア音N(n)を抽出するには、(9)式に示すように、マイクアレイMA1のBF出力Y(n)からマイクアレイMA2のBF出力Y(n)に振幅スペクトル補正係数的を掛けたものをSSする。同様に(10)式に従い、マイクアレイMA2からみた目的エリア方向に存在する非目的エリア音N(n)を抽出する。
その後、(11)、(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出することができる。(11)式は、マイクアレイMA1を基準として、また(12)式は、マイクアレイMA2を基準として目的エリア音を抽出することを示している。なお、(11)式、(12)式において、γ(n)、γ(n)はSS時の強度を変更するための係数である。
Figure 0007207170000004
以上のように、特許文献1の手法では、複数のマイクアレイの指向性を異なる方向から目的エリアに向けて交差させ、各マイクアレイの指向性出力から共通に含まれる成分を抽出する。これにより、特許文献1の手法では、周囲に種々の不要音源が存在する環境であっても、対応者席、相談者席といった特定のエリアの音を強調・収音することができる。
特許文献1に記載された前記エリア収音処理では、目的エリア音抽出の際に行うSSにより、目的エリア音の歪やミュージカルノイズという耳障りな異音が発生する場合がある。そこで、特許文献2の手法では、マイクの入力信号を、抽出した目的エリア音に混合することで、マイク入力信号に含まれる目的エリア音の成分により目的エリア音の歪みを補正し、音質を改善している(ミキシングエリア収音)。
特開2014-072708 特開2017-183902
浅野太著,"音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-",日本音響学会編,コロナ社,2011年2月25日発行
ところで、対面の相談窓口では、応対者席とカウンターを挟んで対面する相談者席の2つのエリアを個別に強調・収録する必要がある。また、図14に示すように、実際の相談窓口では、対応者側は通常1人だが、相談者側は必ずしも1人とは限らない。例えば、相談者は家族(例えば、親兄弟や配偶者など)を伴って訪れる場合も少なくない。
以上のように、相談窓口おついて対応者と相談者の発話した音声を録音する場合、対応者席とカウンターを挟んで対面する相談者席、2つのエリアを個別に強調・収録する必要がある。また、対応者側は通常1人(図14(a)参照)だが、上述の通り相談者側は近親者を伴って2人で訪れる場合も少なくない(図14(b)参照)。そのため相談窓口では、相談者側に2席用意されているのが一般的である。
したがって対面記録では、対応者と相談者のそれぞれが位置する複数のエリアを個別に強調・収音する必要がある。これら複数のエリアは、テーブル1つを挟んで対応者と相談者、あるいは席の隣り合う相談者というように、近接して配置されることになる。そのため、エリア収音処理で生じる目的音の歪低減のため、先に述べたミキシング処理を行うと、目的エリア音に妨害音となる他エリアの音源が必要以上に混合し、収録音の聴取確認や音声認識によるテキスト化などの後工程に支障を来たすという問題がある。
以上のような問題に鑑みて、話者が存在する第1の側の収音エリア(例えば、相談窓口における応対者側の席)と第2の側の収音エリア(例えば、相談窓口における相談者側の席)のエリア収音を行う際に、各話者の音声を収音する際の音質改善と妨害音の混入防止を同時に実現することが望まれている。
第1の本発明の収音装置は、(1)1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア及び前記第2の話者エリアに対してエリア収音処理を行うエリア音抽出手段と、(2)前記第1の話者エリアと前記第2の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、(3)前記第1の話者エリアと前記第2の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定する混合内容決定手段と、(4)前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する信号混合手段を有することを特徴とする。
第2の本発明の収音プログラムは、コンピュータを、(1)1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア及び前記第2の話者エリアに対してエリア収音処理を行うエリア音抽出手段と、(2)前記第1の話者エリアと前記第2の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、(3)前記第1の話者エリアと前記第2の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定する混合内容決定手段と、(4)前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する信号混合手段として機能させることを特徴とする。
第3の本発明は、収音装置が行う収音方法において、(1)エリア音抽出手段、エリア音検出手段、混合内容決定手段及び信号混合手段を有し、(2)前記エリア音抽出手段は、1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア及び前記第2の話者エリアに対してエリア収音処理を行い、(3)前記エリア音検出手段は、前記第1の話者エリアと前記第2の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行い、(4)前記混合内容決定手段は、前記第1の話者エリアと前記第2の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定し、(5)前記信号混合手段は、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力することを特徴とする。
第4の本発明は、1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリアに指向性を向けることが可能な複数のマイクアレイユニットと、前記第1の話者エリア及び前記第2の話者エリアのエリア収音処理を行う収音装置を備える収音システムにおいて、前記収音装置として第1の本発明の収音装置を適用したことを特徴とする。
本発明によれば、話者が存在する第1の側の収音エリアと第2の側の収音エリアのエリア収音を行う際に、各話者の音声を収音する際の音質改善と妨害音の混入防止を同時に実現することができる。
第1の実施形態に係る収音システム(収音装置を含む)の機能的構成について示したブロック図である。 第の1実施形態で設定する収音エリア及びマイクアレイユニットの配置について示した説明図(イメージ図)である。 第1の実施形態に係る各マイクアレイユニットの構成について示した図である。 第1の実施形態に係る各マイクアレイユニットで形成されるマイクアレイの構成について示した図である。 第1の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。 第2の実施形態に係る収音システム(収音装置を含む)の機能的構成について示したブロック図である。 第の2実施形態で設定する収音エリアについて示した説明図(イメージ図)である。 第2の実施形態に係るマイクアレイユニットの配置イメージの例について示した図である。 第2の実施形態に係る各マイクアレイユニットの構成について示した図である。 第2の実施形態に係る各マイクアレイユニットで形成されるマイクアレイの構成について示した図である。 従来の減算型BF(マイクロホンの数が2個の場合)の構成を示すブロック図。 従来の減算型BF(マイクロホンの数が2個の場合)により形成される指向性フィルタの例について示した説明図。 従来の収音装置において、2つのマイクアレイのビームフォーマ(BF)による指向性を別々の方向から目的エリアへ向けた場合の構成例について示した説明図。 相談窓における人員配置のバリエーションを示した説明図(イメージ図)である。
(A)第1の実施形態
以下、本発明による収音装置、収音プログラム、収音方法、及び収音システムの第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを対面録音システムに適用した例について説明する。
(A-1)第1の実施形態の構成
図1は、第1の実施形態の対面録音システム1の全体構成を示すブロック図である。
対面録音システム1は、相談窓口等において対応者と相談者の音声を区別して収音し、記録する装置であり、マイクアレイ部100、収音装置200、及び記録装置300を有している。
マイクアレイ部100は、相談窓口において対応者及び相談者の音声を捕捉する手段である。
収音装置200は、マイクアレイ部100で捕捉した音響信号に基づいて、対応者と相談者の音声を区別して収音する装置である。
記録装置300は、収音装置200が収音した音声(対応者及び相談者の音声)を記録する装置である。記録装置300に記録された音声は、例えば、音声認識処理によりテキスト化等されて種々の目的に活用される。
図2は、第1の実施形態の収音装置200により収音される収音エリアと、マイクアレイユニットMAU1、MAU2の配置構成の例について示した図である。
図2では、上方向からマイクアレイユニットMAU1、MAU2が配置された領域を見た場合の図となっている。
図2では、矩形のカウンターテーブルCTを挟んで対応者と相談者が位置する例について示している。すなわち、図2では、カウンターテーブルCTを挟んで対向する位置に、対応者が位置する対応者エリアA1と相談者が位置する相談者エリアA2が設定された例となっている。なお、第1の実施形態では、対応者及び相談者はいずれも1名の場合の構成であるものとする。
また、図2では、対応者エリアA1(例えば、対応者エリアA1の中心点)と相談者エリアA2(例えば、相談者エリアA2の中心点)とを結ぶ線CL1と、線CL1と直交する線CL2とが図示されている。この実施形態の例では、図2に示す通り、線CL1の中間点とカウンターテーブルCTの中心点が一致し、線CL2は線CL1の中心点を通る線であるものとする。
第1の実施形態のマイクアレイ部100では、線CL1の左右に分けて(線CL1の周辺を避けて)マイクアレイユニットMAU1、MAU2を配置する構成となっている。図2の例では、マイクアレイユニットMAU1、MAU2は、線CL2上で線CL1を挟んで対照となる位置に配置されている。言い換えると、図2の例では、相談者席から見てカウンターテーブルCTの左側にマイクアレイユニットMAU1が配置され、同じく右側にマイクアレイユニットMAU2が配置された構成となっている。
次に、第1の実施形態における各マイクアレイユニットの構成について図3を用いて説明する。
図3は、マイクアレイユニットMAU1、MAU2を構成するマイクロホンの配置構成について示した図である。
図3(a)に示すように、マイクアレイユニットMAU1は、マイクロホンmc1と、マイクロホンmc1を端点としてマイクロホンmc1から見て対応者エリアA1の方向に略直交する線分上に配置したマイクロホンmc2と、マイクロホンmc1を端点としてマイクロホンmc1から見て相談者エリアA2の方向に略直交する線分上に配置されるマイクロホンmc3の3つのマイクロホンから構成されている。
また、図3(b)に示すように、マイクアレイユニットMAU2は、マイクアレイユニットMAU1と左右対称に、マイクロホンmc4と、マイクロホンmc4を端点としてマイクロホンmc4から見て対応者エリアA1の方向に略直交する線分上に配置されたマイクロホンmc5と、マイクロホンmc4を端点としてマイクロホンmc4から見て相談者エリアA2の方向に略直交する線分上に配置されるマイクロホンmc6の3つのマイクロホンから構成される。
図4は、マイクアレイ部100の各マイクアレイユニットで形成されるマイクアレイで用いられるマイクロホンの組み合わせについて示した図である。
マイクアレイ部100では、マイクアレイユニットMAU1、MAU2を構成する6つのマイクロホンmc1~mc6の組み合わせによってマイクアレイを構成することができる。この実施形態では、図4(a)に示すようにマイクロホンmc1、mc2によりマイクアレイMA1が形成され、マイクロホンmc1、mc3によりマイクアレイMA2が形成されるものとする。また、この実施形態では、図4(b)に示すように、マイクロホンmc4とマイクロホンmc5によりマイクアレイMA3が形成され、マイクロホンmc4とマイクロホンmc6によりマイクアレイMA4が形成されるものとする。
次に、収音装置200の内部構成について説明する。
図1に示すように、収音装置200は、信号入力部201、時間/周波数変換部202、指向性形成部203、エリア音抽出部204、エリア音検出部206、信号混合部207、及び周波数/時間変換部208を有している。収音装置200を構成する各要素の詳細については後述する。
収音装置200は、例えば、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る収音プログラムを含む)を実行させるようにしてもよいが、その場合であっても、機能的には、図1のように示すことができる。収音装置200の各構成要素の処理の詳細については後述する。
図6は、収音装置200のハードウェア構成の例について示したブロック図である。なお、図6における括弧内の符号は後述する第2の実施形態で用いられる符号である。
図6では、収音装置200をソフトウェア(コンピュータ)を用いて構成する際の構成について示している。
図6に示す収音装置200は、ハードウェア的な構成要素として、少なくとも信号入力部201と、プログラム(実施形態の収音プログラムを含むプログラム)がインストールされたコンピュータ500を有している。
信号入力部201は、例えば、A/Dコンバータを用いて構成することができる。なお、コンピュータ500自体にA/Dコンバータが搭載されていれば、信号入力部201を別途設ける必要はない。
コンピュータ500は、信号入力部201から供給される音響信号(デジタル音響信号)にエリア収音処理を施して出力する処理を行う。この実施形態では、コンピュータ500に、この実施形態の収音プログラムを含むプログラム(ソフトウェア)がインストールされているものとする。
なお、コンピュータ500は、収音プログラム専用のコンピュータとしてもよいし、他の機能(例えば、記録装置300)のプログラムと共用される構成としてもよい。
図6に示すコンピュータ500は、プロセッサ501、一次記憶部502、及び二次記憶部503を有している。一次記憶部502は、プロセッサ501の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。二次記憶部503は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD等の不揮発性メモリが適用される。この実施形態のコンピュータ500では、プロセッサ501が起動する際、二次記憶部503に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部502上に展開して実行する。
なお、コンピュータ500の具体的な構成は図6の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部502が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次メモリについては除外した構成としてもよい。
次に、記録装置300の機能的構成について説明する。
記録装置300は、対話記録部301及び対話蓄積部302を有している。
記録装置300についても、コンピュータにプログラムを実行させることでソフトウェア的に構成してもよいが、その場合であっても、機能的には、図1のように示すことができる。収音装置200の各構成要素の処理の詳細については後述する。
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の対面録音システム1の動作を説明する。
以下、図1を用いて本発明の実施形態に対面録音システム1の動作を詳細に説明する。
信号入力部201は、6つのマイクロホンmc1~mc6で収音した音響信号をアナログ信号からデジタル信号に変換し、時間/周波数変換部202に供給する。以下では、マイクロホンmc1~mc6で収音したデジタル形式の音響信号(以下、「入力信号」とも呼ぶ)を、それぞれx1~x6と表す。
時間/周波数変換部202ではマイクロホン信号を時間領域から周波数領域へ変換する。以下では、入力信号x1~x6を周波数領域に変換した信号を、それぞれX1~X6と表す。
指向性形成部203は、周波数変換された各マイクロホンの入力信号(X1~X6)を用いてBFにより指向性を形成する。以下では、マイクアレイMA1~MA4のそれぞれによるBF出力をY1、Y2、Y3、Y4とする。Y1の指向性は対応者エリア方向に、Y2の指向性は相談者エリア中心方向に、Y3の指向性は対応者方向に、Y4の指向性は相談者エリア方向を向いている(図2参照)。
エリア音抽出部204は、指向性形成部203で生成されたBF出力Y1~Y4の互いに指向性が交差する2つの組み合わせから、前記従来技術で示した(9)式、もしくは(10)式と同様の方法でSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに抽出した雑音を各BFの出力から(11)式、もしくは(12)式と同様の方法でSSすることにより目的エリア音を抽出する。
エリア音抽出部204は、BF出力Y1とBF出力Y3に基づいて対応者エリアA1を目的エリアとするエリア収音処理を行った結果(以下、「対応者エリア音Z1」と表す)を取得し、BF出力Y2とBF出力Y4に基づいて相談者席中央エリアA2を目的エリアとするエリア収音処理を行った結果(この実施形態では、「相談者エリア音Z2」と呼ぶ)を強調・抽出(取得)する。
上述したように、特許文献2の記載技術を用いれば、エリア音出力Z1、Z2に混合用信号としての入力信号を少量混合(レベル(ゲイン)を低く調整して混合)すれば、エリア収音処理によって生じる目的音の歪みを軽減することが出来る。しかし、対応者と相談者双方が同時に発話している状況で、無処理のマイクロホンからの入力信号を混合すれば、抽出された対応者エリア音Z1および相談者エリア音Z2のそれぞれに他方の話者の発話が重畳される。このとき、抽出されたエリア音は2話者(応対者と相談者)の発話が混ざり合った音となり、記録した会話の音声認識によるテキスト化など、後の処理(例えば、記録装置300における処理)に支障を来たす。
そこで本実施形態の収音装置200では、対応者エリアA1、相談者エリアA2それぞれの収音エリア内の目的エリア音の有無(対応者、相談者のそれぞれが発話しているか否か)を判定し、2つのエリア双方同時に目的音が存在する場合には、各エリア音出力に対する入力信号の混合を中止、もしくは混合する入力信号のレベル(以下、「混合レベル」と呼ぶ)を低く調整する等の混合軽減措置を行なうものとする。
すなわち、エリア音検出部206は、対応者エリアA1、相談者エリアA2のそれぞれに対して、エリア音(対応者又は相談者が発話した音声)が存在するか否かを判定する。エリア音検出部206において、各収音エリア内のエリア音の存在の有無を判定する方法としては種々の方法を適用することができる。
収音エリア内の目的エリア音の存在の有無を判定するには、例えば、以下の参考文献1に記載されたエリア収音出力と入力音との振幅スペクトル比を用いる方法や、エリア収音を行なう際のBF出力間のコヒーレンスを用いる方法などがあるが、この実施形態のエリア音検出部206では、振幅スペクトル比を用いる方法で構成するものとする。
参考文献1:特開2016-127457
振幅スペクトル比算出部205は、時間/周波数変換部202からは、対応者エリア、および、相談者エリアの2つのエリア音抽出に係る入力信号X1~X6を、エリア音抽出部204からはエリア音出力Z1、Z2を取得して、振幅スペクトル比の算出を行う。例えば振幅スペクトル比算出部205は、下記(13)式、(14)式を用いて、エリア音出力Z1、Z2と入力信号の振幅スペクトル比を周波数ごとに算出する。さらに下記(15)式、(16)式を用いて、全周波数の振幅スペクトル比を加算して、振幅スペクトル比加算値U1、U2を求める。
Figure 0007207170000005
ここで(13)式、(14)式において、Winは、エリア音出力Z1算出に用いたマイクアレイの入力信号の振幅スペクトルであり、Winは、エリア音出力Z2算出に用いたマイクアレイの入力信号の振幅スペクトルである。エリア音出力Z1、Z1それぞれマイクアレイMA1、MA3、マイクアレイMA2、MA4の組み合せによって得られたエリア音出力であることから、Win、Winには、エリア音出力Z1、Z2の算出で、それぞれメインとして使用したマイクアレイの振幅スペクトルを充てる。各マイクアレイの振幅スペクトルには、それぞれのマイクアレイを構成する2つマイクロホンの何れか一方の入力信号の振幅スペクトルであってもよいし、2つマイクロホンの入力信号の平均であってもよい。
(15)式を用いて行われる処理において得られるU1は、エリア音出力Z1の各周波数の振幅スペクトル比R1i(iは周波数)を周波数の下限jから上限kでの帯域で足し合わせた振幅スペクトル比加算値である。(16)式の処理を用いて行われるU2は、エリア音出力Z2の各周波数の振幅スペクトル比R2i(iは周波数)を、周波数の下限jから上限kでの帯域で足し合わせたものである。ここで、振幅スペクトル比算出部205において演算対象とする周波数の帯域を制限しても良い。例えば、演算対象を音声情報が十分に含まれる100Hzから6kHzに制限して、上記演算を行うようにしても良い。
そして、エリア音検出部206は、振幅スペクトル比算出部205により算出した振幅スペクトル比加算値を予め設定した閾値と比較し、エリア音が存在するかしないかを判定し、その判定結果を信号混合部207に供給する。以下では、対応者エリアA1、相談者エリアA2のそれぞれに対する目的エリア音検出の判定結果をステータスS1、S2(エリア音存在ステータス)と表すものとする。S1、S2は、それぞれ目的エリア音有りを示す「true」又は目的エリア音無し(目的エリア音不検出)を示す「false」のいずれかの値で示されるものとして説明する。
信号混合部207は、エリア音存在ステータスS1、S2の情報を元に、それぞれのエリア音出力Z1、Z2に対して混合用信号としての入力信号を混合する内容(以下、「混合内容」と呼ぶ)を決定し、決定した混合内容に従って、入力信号をエリア音出力Z1、Z2に混合する混合処理を行って出力する。具体的には、この実施形態の信号混合部207は、エリア音存在ステータスS1、S2の情報を元に、目的エリア音に入力信号を混合するか否かを判断する。S1、S2が共にtrue、すなわち対応者と相談者が同時に発話している場合は、信号混合部207は、エリア音出力Z1、Z2に対して入力音の混合は行なわず、それ以外の場合は、抽出されたエリア音出力Z1、Z2に対して入力音を混合する。S1、S2が共にtrueの場合、入力音を全く混合しないのではなく、その他の場合の入力信号の混合に比べ、混合割合(混合レベル)を減らすなどとしてもよい。例えば、「S1、S2が共にtrueの場合」以外の場合(S1、S2のうち一方のみがtrue、又は、S1、S2の両方がfalseの場合)の混合レベル(入力信号の調整に用いるレベル)をGsとすれば、「S1、S2が共にtrueの場合」の混合レベルを0.5Gsに調整するようにしてもよい。
なお、エリア音出力ごとに混合用信号として用いられる入力信号は、エリア音抽出(上記の(11)式又は(12)式)で基準として用いられたマイクアレイを構成するマイクロホンの入力信号を適用することが望ましい。例えば、エリア音出力Z1について、エリア音を抽出する際に、上記の(11)式が適用され、(11)式でエリア音抽出の基準となっているY(n)がマイクアレイMA1のBF出力であった場合を想定する。この場合は、エリア音出力Z1の混合用信号としては、マイクアレイMA1を構成するマイクロホンmc1、mc2からの入力信号X1、X2のいずれかを適用することが望ましい。
信号混合部207で混合処理された対応者エリア音W1、相談者エリア音W2は、周波数/時間変換部208で時間信号に変換さ、記録装置300に供給される。
次に、記録装置300の動作について説明する。
記録装置300では、収音装置200から対話音声(対応者エリア音W1、相談者エリア音W2)が供給されると、対話記録部301に供給される。
対話記録部301は、供給される対話音声のデータを対話蓄積部302に供給して蓄積・保持させる。
以上のように、この実施形態では、収音装置200で取得された対話音声が、記録装置300に供給され、記録・活用される。
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施形態の収音装置200では、対応者エリアA1と相談者エリアA2の目的音源の有無を判定し、対応者と相談者が同時に発話していると判定された場合は、抽出されたそれぞれの目的エリア音に対する入力信号の混合を抑制しているため、エリア音出力に対する音質改善と共に、それぞれ抽出されたエリア音出力(目的音)への妨害音の混入を避けることができる。
(B)第2の実施形態
以下、本発明による収音装置、収音プログラム、収音方法、及び収音システムの第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを対面録音システムに適用した例について説明する。
(B-1)第2の実施形態の構成
図6は、第2の実施形態の対面録音システム1Aの全体構成を示すブロック図である。
図6では、上述の図1と同一又は対応する部分に、同一又は対応する符号を付している。以下では、第2の実施形態について第2の実施形態との差異を中心に説明する。
第2の実施形態の対面録音システム1Aでは、マイクアレイ部100と収音装置200とが、それぞれマイクアレイ部100Aと収音装置200Aに置き換わっている点で第2の実施形態と異なっている。
また、第2の実施形態の収音装置200Aでは、信号混合部207が、信号混合部207Aに置き換わり、さらに混合レベル算出部209が追加されている点で第1の実施形態と異なっている。
さらに、第2の実施形態のマイクアレイ部100Aでは、マイクアレイユニットMAU1、MAU2が、それぞれマイクアレイユニットMAU1A、MAU2Aに置き換わっている点で第2の実施形態と異なっている。
第1の実施形態では、対応者側、相談者側それぞれ1つの収音エリアを設定したが、第2の実施形態では、マイクアレイユニットMAU1A、MAU2Aにおけるマイクロホンの構成(マイクロホンの数や配置位置)を変更することで、相談者が2人の場合の収音エリア設定が可能となっている。すなわち、第2の実施形態の収音装置200では、相談者側の相談者エリアA2が、2つの収音エリア(サブエリア)に分割されており、それぞれの収音エリアについて別個に収音可能であるものとする。
図7は、第2の実施形態の対面録音システム1Aにおいて、収音する対象となる収音エリアとその周辺の環境について示した図である。
第2の実施形態では、マイクアレイユニットMAU1A、MAU2Aのマイクロホン配置を調整することで、図7に示すように、相談者が1人の場合および相談者が2人の場合を2つの収音エリア(サブエリア)でカバーするものとする。第2の実施形態では、相談者エリアA2に、収録すべき相談者側の収音エリア(サブエリア)として、相談者側から見て右側のエリア(以下、「相談者右側席エリアA2-1」と呼ぶ)と、相談者側から見て左側のエリア(以下、「相談者左側席エリアA2-2」と呼ぶ)の2箇所の収音エリアが設定されているものとする。なお、この実施形態では、図7に示すように、相談者右側席エリアA2-1と相談者左側席エリアA2-2とは、線CL1の周辺で重複する領域が存在するものとする。
次に、マイクアレイ部100Aの内部構成について説明する。
図8は、マイクアレイユニットMAU1A、MAU2Aの配置構成の例について示した図である。
図8では、上方向からマイクアレイユニットMAU1A、MAU2Aが配置された領域を見た場合の図となっている。
図8に示すように、第2の実施形態のマイクアレイ部100Aにおいて、マイクアレイユニットMAU1A、MAU2Aを配置する位置は、第1の実施形態と同様であるため詳しい説明を省略する。
次に、第2の実施形態における各マイクアレイユニットMAU1A、MAU2Aの構成について図9を用いて説明する。
図9(a)に示すように、相談者側から見て左側に設置されたマイクアレイユニットMAU1Aは、マイクロホンmc1を端点としてマイクロホンmc1から見て対応者席方向に略直交する線分上に配置したマイクロホンmc2と、マイクロホンmc1を端点としてマイクロホンmc1から見て相談者右側席エリアA2-1の方向に略直交する線分上に配置されるマイクロホンmc3と、マイクロホンmc1を端点としてマイクロホンmc1から見て相談者左側席エリアA2-2に略直交する線分上に配置されるマイクロホンmc4とを有している。
図9(b)に示すように、相談者側から見て右側に設置されたマイクアレイユニットMAU2Aは、マイクロホンmc5を端点としてマイクロホンmc5から見て対応者席方向に略直交する線分上に配置したマイクロホンmc6と、マイクロホンmc5を端点としてマイクロホンmc5から見て相談者左側席エリアA2-2方向に略直交する線分上に配置されるマイクロホンmc7と、マイクロホンmc5を端点としてマイクロホンmc5から相談者右側席エリアA2-1方向に略直交する線分上に配置されるマイクロホンmc8とを有している。
図10は、マイクアレイ部100Aの各マイクアレイユニットで形成されるマイクアレイで用いられるマイクロホンの組み合わせについて示した図である。
図10に示すように、マイクアレイユニットMAU1A、マイクアレイユニットMAU2Aを構成する8つのマイクロホンmc1~mc8によりマイクアレイMA1~MA6が形成される。具体的には、マイクアレイ部100では、マイクアレイユニットMAU1A、MAU2Aを構成する8つのマイクロホンmc1~mc8の組み合わせによってマイクアレイを構成することができる。この実施形態では、図10(a)に示すようにマイクロホンmc1、mc2によりマイクアレイMA1が形成され、マイクロホンmc1、mc3によりマイクアレイMA2が形成され、マイクロホンmc1、mc4により、マイクアレイMA3が形成されるものとする。また、この実施形態では、図10(b)に示すように、マイクロホンmc5とマイクロホンmc6によりマイクアレイMA4が形成され、マイクロホンmc5とマイクロホンmc7によりマイクアレイMA5が形成され、マイクロホンmc5とマイクロホンmc8によりマイクアレイMA6が形成されるものとする。
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の対面録音システム1Aの動作を説明する。
信号入力部201は、マイクアレイ部100Aの8つのマイクロホンでmc1~mc8収音した音響信号をアナログ信号からデジタル信号(入力信号)に変換し、時間/周波数変換部202に供給する。以下では、マイクロホンmc1~mc8で収音した入力信号を、それぞれx1~x8と表す。
時間/周波数変換部202ではマイクロホン信号を時間領域から周波数領域へ変換する。以下では、入力信号x1~x8を周波数領域に変換した信号を、それぞれX1~X8と表す。
指向性形成部203は、周波数変換された各マイクロホンの入力信号(X1~X8)を用いてBFにより指向性を形成する。
以下では、マイクアレイMA1~MA6のそれぞれによるBF出力をY1、Y2、Y3、Y4、Y5、Y6とする。図8に示すように、Y1の指向性は対応者エリアA1の方向に向けられており、Y2の指向性は相談者右側席エリアA2-1の方向にむけられており、Y3の指向性は相談者左側席エリアA2-2の方向に向けられている。また、図8に示すように、Y4の指向性は対応者エリアA1の方向に向けられており、Y5の指向性は相談者左側席エリアA2-2の方向に向けられており、Y6の指向性は相談者右側席エリアA2-1の方向に向けられている。
エリア音抽出部204は、指向性形成部203で生成されたBF出力Y1~Y6の互いに指向性が交差する2つの組み合わせから、目的エリア音を抽出する。図8に示すように、BF出力Y1とY4は対応者エリアA1で交差し、BF出力Y2とY6は相談者右側席エリアA2-1で交差し、BF出力Y3とY5は相談者左側席エリアA2-2で交差する。エリア音抽出部204は、互いに交差するBF出力からそれぞれ、対応者エリア音Z1、相談者右側エリア音Z2、相談者左側エリア音Z3を強調・抽出する。すなわち、エリア音抽出部204は、指向性形成部203で生成されたBF出力Y1~Y6の互いに指向性が交差する2つの組み合わせから、前記従来技術で示した(9)式、もしくは(10)式と同様の方法でSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、エリア音抽出部204は、抽出した雑音を各BFの出力から(11)式、もしくは(12)式と同様の方法でSSすることにより目的エリア音を抽出する。
具体的には、エリア音抽出部204は、BF出力Y1とBF出力Y4に基づいて対応者エリアA1を目的エリアとするエリア収音処理を行った結果(対応者エリア音Z1)を取得し、BF出力Y2とBF出力Y6に基づいて相談者右側席エリアA2-1を目的エリアとするエリア収音処理を行った結果(相談者右側席エリア音Z2)を取得し、BF出力Y3とBF出力Y5に基づいて相談者左側席エリアA2-2を目的エリアとするエリア収音処理を行った結果(相談者左側席エリア音Z3)を取得する。
振幅スペクトル比算出部205は、第1の実施形態と同様の手法により、対応者エリアA1と2つの相談者エリア(A2-1、A2-2)のそれぞれの振幅スペクトル比加算値U1、U2、U3を求める。
振幅スペクトル比算出部205は、上記(13)式、(14)式、及び下記(17)を用いて、エリア音出力Z1、Z2、Z3と入力信号の振幅スペクトル比を周波数ごとに算出する。さらに、振幅スペクトル比算出部205は、上記(15)式、(16)式、及び下記(18)式を用いて、全周波数の振幅スペクトル比を加算して、振幅スペクトル比加算値U1、U2、U3を求める。
第2の実施形態では、(15)式を用いて行われる処理において得られるU1は、エリア音出力Z1の各周波数の振幅スペクトル比R1i(iは周波数)を周波数の下限jから上限kでの帯域で足し合わせた振幅スペクトル比加算値である。また、(16)式の処理を用いて行われるU2は、エリア音出力Z2の各周波数の振幅スペクトル比R2i(iは周波数)を、周波数の下限jから上限kでの帯域で足し合わせたものである。さらに、(18)式の処理を用いて行われるU3は、エリア音出力Z3の各周波数の振幅スペクトル比R3i(iは周波数)を、周波数の下限jから上限kでの帯域で足し合わせたものである。
Figure 0007207170000006
エリア音検出部206は、振幅スペクトル比算出部205で算出した振幅スペクトル比加算値を予め設定した閾値と比較し、各エリアに目的エリア音が存在するかしないかを判定し、判定結果として、対応者エリアA1、相談者右側席エリアA2-1、相談者左側席エリアA2-2のそれぞれのエリア音存在ステータスS1、S2、S3を出力する。
混合レベル算出部209は、ステータスS1、S2、S3の組み合わせのパターン(以下、「ステータスパターン」と呼ぶ)に応じて、エリア音出力Z1、Z2、Z3に、混合用信号としての入力信号(例えば、エリア音抽出の際に基準となるマイクアレイを構成するマイクロホンからの入力信号)を混合する際の混合レベルを算出する。以下では、ステータスパターンごとに、混合レベル算出部209が各エリア音出力Z1、Z2、Z3に適用する混合レベルを決定する処理について説明する。以下では、エリア音出力Z1、Z2、Z3に対する混合レベルを、それぞれG1、G2、G3と表すものとする。また、以下では、エリア音出力Z1、Z2、Z3に適用する標準(デフォルト)の混合レベルをGsとして説明する。すなわち、混合レベル算出部209では、原則としては、エリア音出力Z1、Z2、Z3に適用する混合レベルG1、G2、G3をGsとし、ステータスパターンに応じて、各混合レベル(G1、G2、G3)を調整する処理を行う。
[第1のステータスパターン]
「S1、S2」又は「S1、S3」が共にtrueとなったステータスパターン(以下、「第1のステータスパターン」と呼ぶ)が発生した場合は、対応者と相談者が同時に発話している場合であると推定される。そこで、混合レベル算出部209は、第1のステータスパターンが発生した場合、各話者が単独に発話した場合の混合レベル(標準混合レベルGとする)に対し、たとえば半減したゲインを与える。
例えば、混合レベル算出部209は、「S1=true、S2=true、S3=false」のとき、「G1=0.5、G2=0.5Gs、G3=0」を設定する。また、例えば、混合レベル算出部209は、「S1=true、S2=false、S3=true」のとき「G1=0.5Gs、G2=0、G2=0.5」を設定する。
なお、この実施形態では、第1のステータスパターンが発生した場合、混合レベル算出部209は、エリア音存在ステータスがfalseのエリア音出力の混合レベルを0に設定するものとするが、エリア音存在ステータスがfalseのエリア音出力について、混合レベルに0以外を設定して信号混合部207A側で混合用信号を混合しない処理を行うようにしてもよい。
[第2のステータスパターン]
S2とS3が共にtrueとなったステータスパターン(以下、「第2のステータスパターン」と呼ぶ)が発生した場合は、2人の相談者が同時に発話している状態であると推定される。相談者右側席エリアA2-1と相談者左側席エリアA2-2は、非常に近接しているため、分離・抽出された目的音(エリア音出力Z2、Z3)に入力信号を混合した場合、混合によって隣接話者の発話が混ざり合う危険性がさらに高くなる。例えば、相談者右側席エリア音Z2に、相談者左側席エリアA2-2の話者の音声が混ざり合う危険性がさらに高かうなる。
そこで、第2のステータスパターンが発生した場合、混合レベル算出部209は、第1のステータスパターンの場合(前記対応者と相談者(1人)が同時に発話した場合)に比べ、混合レベルを一段と小さくするものとする。
例えば、「S1=false、S2=true、S3=true」のとき混合レベル算出部209は、「G1=0、G2=0.1Gs、G3=0.1Gs」とするようにしてもよい。
なお、この実施形態では、第2のステータスパターンが発生した場合、混合レベル算出部209は、エリア音存在ステータスがfalseのエリア音出力の混合レベルを0に設定するものとするが、エリア音存在ステータスがfalseのエリア音出力について、混合レベルに0以外を設定して信号混合部207A側で混合用信号を混合しない処理を行うようにしてもよい。
[第3のステータスパターン]
S1、S2、S3がすべてtrueとなったステータスパターン(以下、「第3のステータスパターン」と呼ぶ)が発生した場合は、3人が同時に発話したと推定することができる。そのため、第3のステータスパターンが発生した場合、混合レベル算出部209が混合処理を行えば、一層、各目的音(エリア音出力Z1、Z2、Z3)へ妨害音が混入する恐れが増大する。したがって、第3のステータスパターンが発生した場合、混合レベル算出部209は、混合処理は見合わせる。
例えば、「S1=true、S2=true、S3=true」のとき、混合レベル算出部209は、「G1=0、G2=0、G3=0」とするようにしてもよい。
なお、この実施形態では、第3のステータスパターンが発生した場合、混合レベル算出部209は、各エリア音出力の混合レベルを0に設定するものとするが、各エリア音出力に対する混合レベルに0以外を設定して信号混合部207A側で混合用信号を混合しない処理を行うようにしてもよい。
[第4のステータスパターン]
S1、S2、S3の何れか1つがtrueとなったステータスパターン(以下、「第4のステータスパターン」と呼ぶ)が発生した場合、各収音エリアの話者が単独で発話している場合であり、信号混合による妨害音の影響は少ないと考えられる。そこで、第4のステータスパターンが発生した場合、混合レベル算出部209は、ため、ステータスがtrueとなったエリア音出力に対してのみ標準の混合レベルGsを与える。
例えば、「S1=true、S2=false、S3=false」のとき、混合レベル算出部209は、「G1=Gs、G2=0、G3=0」とするようにしてもよい。また、例えば、「S2=true、S1=false、S3=false」のとき、混合レベル算出部209は、「G2=Gs、G1=0、G3=0」とするようにしてもよい。さらに、例えば、「S1=false、S2=false、S3=true」のとき、混合レベル算出部209は、「G1=0、G2=0、G3=Gs」とするようにしてもよい。
なお、この実施形態では、第4のステータスパターンが発生した場合、混合レベル算出部209は、エリア音存在ステータスがfalseのエリア音出力の混合レベルを0に設定するものとするが、エリア音存在ステータスがfalseのエリア音出力について、混合レベルに0以外を設定して信号混合部207A側で混合用信号を混合しない処理を行うようにしてもよい。
以上のように、この実施形態における混合レベル算出部209は、ステータスパターンに応じて、各エリア音出力Z1、Z2、Z3に適用する混合レベルを決定する。上記のステータスパターンごとに、各エリア収音出力に設定する混合レベルの設定方法は一例であり、抽出すべき収音エリアの配置や同時発話した場合の信号混合の程度などによって実験的、経験的に好適な値を定めることが望ましい。
信号混合部207Aは、目的エリア音出力Z1、Z2、Z3に対し、混合レベル算出部209で算出された混合レベルG1、G2、G3にしたがって入力信号の混合を行なう。具体的には、信号混合部207Aは、目的エリア音出力Z1に対して、混合レベルG1に応じたレベルに調整された入力信号を混合し、混合した信号(以下、「対応者エリア音W1」と呼ぶ)を生成する。また、信号混合部207Aは、目的エリア音出力Z2に対して、混合レベルG2に応じたレベルに調整された入力信号を混合し、混合した信号(以下、「相談者左側席エリア音W2」と呼ぶ)を生成する。さらに、信号混合部207Aは、目的エリア音出力Z3に対して、混合レベルG3に応じたレベルに調整された入力信号を混合し、混合した信号(以下、「相談者右側席エリア音W3」と呼ぶ)を生成する。なお、W1、W2、W3には、結果として入力信号(混合用信号)が混合されないこともあり得る。
信号混合部207Aで混合処理された対応者エリア音W1、相談者左側席エリア音W2、相談者右側席エリア音W3は、周波数/時間変換部208で時間信号に変換され、記録装置300に供給される。
次に、記録装置300の動作について説明する。
記録装置300では、収音装置200Aから対話音声(対応者エリア音W1、相談者左側席エリア音W2、相談者右側席エリア音W3)が供給されると、対話記録部301に供給される。
対話記録部301は、供給される対話音声のデータを対話蓄積部302に供給して蓄積・保持させる。
以上のように、この実施形態では、収音装置200Aで取得された対話音声が、記録装置300に供給され、記録・活用される。
(B-3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
第2の実施形態の収音装置200Aでは、近接した複数の収音エリアにおける目的音源の有無を判定し、その判定結果のパターン(ステータスパターン)に応じて、各収音エリアから抽出されたエリア音出力に対する混合用信号(入力信号)の混合量(混合レベル)を適切に定めることによって、出力するエリア音出力における目的音の音質改善と妨害音の混入防止を同時に実現できる。
(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C-1)上記の各実施形態では本発明の収音装置を対面収録に適用した場合について記しているが、本発明の収音装置の適用範囲は、対面収録に限定されるものではない。例えば、本発明の収音装置を近接した複数のエリアのエリア収音を行なう利用状況の何れにも適用可能である。
(C-2)上記の各実施形態では2つのマイクアレイユニットを用いて対応者エリアと相談者エリアを収音する例について示したが、対応者エリアA1、及び相談者エリアA2の各サブエリアを別個にエリア収音することができれば、具体的なマイクアレイユニットの数や各マイクアレイユニットの構成については限定されないものである。例えば、マイクアレイユニットの数は3つ以上であってもよい。
(C-3)上記の各実施形態では、相談者エリアA2におけるサブエリアが1つの場合と2つの場合について示したが、相談者エリアA2内のサブエリアの数は限定されないものである。例えば、相談者エリアA2内で、3つ以上のサブエリアを設けて、別個に収音可能な構成としてもよい。
(C-4)第2の実施形態では、相談者側の収音エリアのみを複数のサブエリアに分割して収音したが、対応者側でも分野の専門家を交えて相談するケースもあり、対応者側の収音エリアも複数のサブエリアに分割して収音するようにしてもよい。
1、1A…対面録音システム、100、100A…マイクアレイ部、MAU1、MAU1A、MAU2、MAU2A…マイクアレイユニット、MA1~MA6…マイクアレイ、mc1~mc8…マイクロホン、200、200A…収音装置、201…信号入力部、202…時間/周波数変換部、203…指向性形成部、204…エリア音抽出部、205…振幅スペクトル比算出部、206、206A…エリア音検出部、207、207A…信号混合部、208、208A…周波数/時間変換部、209…混合レベル算出部、300…記録装置、301…対話記録部、302…対話蓄積部、500…コンピュータ、501…プロセッサ、502…一次記憶部、503…二次記憶部。

Claims (14)

  1. 1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア及び前記第2の話者エリアに対してエリア収音処理を行うエリア音抽出手段と、
    前記第1の話者エリアと前記第2の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、
    前記第1の話者エリアと前記第2の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定する混合内容決定手段と、
    前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する信号混合手段と
    を有することを特徴とする収音装置。
  2. 前記混合内容決定手段は、前記第1の話者エリアと前記第2の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して混合用信号を混合するか否かを決定し、
    前記信号混合手段は、前記混合内容決定手段で混合用信号を混合すると決定されたエリア収音結果について混合用信号を混合して出力する
    ことを特徴とする請求項1に記載の収音装置。
  3. 前記混合内容決定手段は、前記第1の話者エリアと前記第2の話者エリアの両方についてエリア音検出処理によりエリア音が検出された場合、記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して混合用信号を混合しないと決定し、それ以外の場合には記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して混合用信号を混合すると決定することを特徴とする請求項2に記載の収音装置。
  4. それぞれの前記マイクアレイユニットは、前記第2の話者エリア内の複数のサブエリアに指向性を向けることが可能であり、
    前記エリア音抽出手段は、前記第2の話者エリア内の複数のサブエリアのそれぞれについてエリア収音処理を行うことが可能であり、
    前記エリア音検出手段は、それぞれのサブエリアについてもエリア音検出処理を行い、
    前記混合内容決定手段は、前記第1の話者エリアと前記第2の話者エリア内の各サブエリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリア内の各サブエリアのエリア収音結果に対する混合用信号の混合内容を決定し、
    前記信号混合手段は、前記第1の話者エリア及び前記第2の話者エリアの各サブエリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する
    ことを特徴とする請求項1に記載の収音装置。
  5. 前記混合内容決定手段は、前記第1の話者エリアと前記第2の話者エリアの各サブエリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリアの各サブエリアのエリア収音結果に対する混合用信号の混合レベルを算出し、
    前記信号混合手段は、前記第1の話者エリア及び前記第2の話者エリアの各サブエリアのエリア収音結果に対して、前記混合内容決定手段が算出した混合レベルに応じた混合レベルに調整された混合用信号を混合して出力する
    ことを特徴とする請求項4に記載の収音装置。
  6. 前記エリア音抽出手段は、前記第2の話者エリア内の第1のサブエリアと、前記第1のサブエリアから前記第1の話者エリアを見た場合に前記第1のサブエリアの左側又は右側に隣接する第2のサブエリアについてエリア収音処理を行うことを特徴とする請求項5に記載の収音装置。
  7. 前記混合内容決定手段は、エリア音検出処理の結果、前記第1の話者エリアと前記第1のサブエリアについてだけエリア音が発生しているという判定結果だった場合、又は、前記第1の話者エリアと前記第2のサブエリアについてだけエリア音が発生しているという判定結果だった場合、エリア音が発生していた収音エリアに対する混合レベルを下げるように調整することを特徴とする請求項6に記載の収音装置。
  8. 前記混合内容決定手段は、前記第1のサブエリアと前記第2のサブエリアについてだけエリア音が発生しているという判定結果だった場合、前記第1のサブエリア、及び前記第2のサブエリアのエリア収音結果に対する混合用信号の混合レベルを下げるように調整することを特徴とする請求項6又は7に記載の収音装置。
  9. 前記混合内容決定手段は、エリア音検出処理の結果、前記第1の話者エリア、前記第1のサブエリア、及び前記第2のサブエリアの全てについてエリア音が発生しているという判定結果だった場合、前記第1の話者エリア、前記第1のサブエリア、及び前記第2のサブエリアに対して0の混合レベルを設定することを特徴とする請求項6~8のいずれかに記載の収音装置。
  10. 前記混合内容決定手段は、エリア音検出処理の結果、前記第1の話者エリア、前記第1のサブエリア、及び前記第2のサブエリアの3つの収音エリアのうち、1つについてのみエリア音が発生しているという判定結果だった場合、エリア音が発生していた収音エリアに対する混合レベルを調整しないことを特徴とする請求項6~9のいずれかに記載の収音装置。
  11. コンピュータを、
    1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア及び前記第2の話者エリアに対してエリア収音処理を行うエリア音抽出手段と、
    前記第1の話者エリアと前記第2の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、
    前記第1の話者エリアと前記第2の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定する混合内容決定手段と、
    前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する信号混合手段と
    して機能させることを特徴とする収音プログラム。
  12. 収音装置が行う収音方法において、
    エリア音抽出手段、エリア音検出手段、混合内容決定手段及び信号混合手段を有し、
    前記エリア音抽出手段は、1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア及び前記第2の話者エリアに対してエリア収音処理を行い、
    前記エリア音検出手段は、前記第1の話者エリアと前記第2の話者エリアについて、エリア音が発生しているか否かを検出するエリア音検出処理を行い、
    前記混合内容決定手段は、前記第1の話者エリアと前記第2の話者エリアのエリア音検出処理の判定結果のパターンに応じて、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対する混合用信号の混合内容を決定し、
    前記信号混合手段は、前記第1の話者エリア及び前記第2の話者エリアのエリア収音結果に対して、前記混合内容決定手段が決定した内容に従った混合用信号の混合処理を行って出力する
    ことを特徴とする収音方法。
  13. 1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリアに指向性を向けることが可能な複数のマイクアレイユニットと、前記第1の話者エリア及び前記第2の話者エリアのエリア収音処理を行う収音装置を備える収音システムにおいて、前記収音装置として請求項1~10のいずれかに記載の収音装置を適用したことを特徴とする収音システム。
  14. 前記収音装置によるエリア収音処理の結果を記録する記録装置をさらに備えることを特徴とする請求項13に記載の収音システム。
JP2019099683A 2019-05-28 2019-05-28 収音装置、収音プログラム、収音方法、及び収音システム Active JP7207170B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019099683A JP7207170B2 (ja) 2019-05-28 2019-05-28 収音装置、収音プログラム、収音方法、及び収音システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019099683A JP7207170B2 (ja) 2019-05-28 2019-05-28 収音装置、収音プログラム、収音方法、及び収音システム

Publications (2)

Publication Number Publication Date
JP2020195069A JP2020195069A (ja) 2020-12-03
JP7207170B2 true JP7207170B2 (ja) 2023-01-18

Family

ID=73546579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019099683A Active JP7207170B2 (ja) 2019-05-28 2019-05-28 収音装置、収音プログラム、収音方法、及び収音システム

Country Status (1)

Country Link
JP (1) JP7207170B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003319095A (ja) 2002-04-26 2003-11-07 Matsushita Electric Ind Co Ltd 音声制御装置
JP2007295104A (ja) 2006-04-21 2007-11-08 Yamaha Corp 収音装置および音声会議装置
JP2010232862A (ja) 2009-03-26 2010-10-14 Toshiba Corp 音声処理装置、音声処理方法、及び、プログラム
JP2014183902A (ja) 2013-03-22 2014-10-02 Kyoraku Sangyo Co Ltd 遊技機
JP2016127457A (ja) 2015-01-05 2016-07-11 沖電気工業株式会社 収音装置、プログラム及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003319095A (ja) 2002-04-26 2003-11-07 Matsushita Electric Ind Co Ltd 音声制御装置
JP2007295104A (ja) 2006-04-21 2007-11-08 Yamaha Corp 収音装置および音声会議装置
JP2010232862A (ja) 2009-03-26 2010-10-14 Toshiba Corp 音声処理装置、音声処理方法、及び、プログラム
JP2014183902A (ja) 2013-03-22 2014-10-02 Kyoraku Sangyo Co Ltd 遊技機
JP2016127457A (ja) 2015-01-05 2016-07-11 沖電気工業株式会社 収音装置、プログラム及び方法

Also Published As

Publication number Publication date
JP2020195069A (ja) 2020-12-03

Similar Documents

Publication Publication Date Title
JP5675848B2 (ja) レベルキューによる適応ノイズ抑制
US9232309B2 (en) Microphone array processing system
US9986332B2 (en) Sound pick-up apparatus and method
JP5772151B2 (ja) 音源分離装置、プログラム及び方法
Shabtai et al. Generalized spherical array beamforming for binaural speech reproduction
JP5295115B2 (ja) 補聴器の駆動方法および補聴器
JP6943120B2 (ja) 収音装置、プログラム及び方法
JP2020155971A (ja) 収音装置、収音プログラム、収音方法、及び収音システム
JP6436180B2 (ja) 収音装置、プログラム及び方法
JP2016163135A (ja) 収音装置、プログラム及び方法
JP7207170B2 (ja) 収音装置、収音プログラム、収音方法、及び収音システム
JP7207159B2 (ja) 収音装置、収音プログラム、収音方法、及び収音システム
US11095979B2 (en) Sound pick-up apparatus, recording medium, and sound pick-up method
WO2021019844A1 (ja) 収音装置、記憶媒体、及び収音方法
JP6624256B1 (ja) 収音装置、プログラム及び方法
JP6725014B1 (ja) 収音装置、収音プログラム及び収音方法
Reindl et al. An acoustic front-end for interactive TV incorporating multichannel acoustic echo cancellation and blind signal extraction
JP7158976B2 (ja) 収音装置、収音プログラム及び収音方法
As' ad et al. Perceptually motivated binaural beamforming with cues preservation for hearing aids
JP6624255B1 (ja) 収音装置、プログラム及び方法
JP6669219B2 (ja) 収音装置、プログラム及び方法
JP6923025B1 (ja) 収音装置、プログラム及び方法
JP2024027617A (ja) 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法
JP6885483B1 (ja) 収音装置、収音プログラム及び収音方法
Kellermann Echoes and noise with seamless acoustic man-machine interfaces–the challenge persists

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221219

R150 Certificate of patent or registration of utility model

Ref document number: 7207170

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150