JP6241520B1 - 収音装置、プログラム及び方法 - Google Patents

収音装置、プログラム及び方法 Download PDF

Info

Publication number
JP6241520B1
JP6241520B1 JP2016169349A JP2016169349A JP6241520B1 JP 6241520 B1 JP6241520 B1 JP 6241520B1 JP 2016169349 A JP2016169349 A JP 2016169349A JP 2016169349 A JP2016169349 A JP 2016169349A JP 6241520 B1 JP6241520 B1 JP 6241520B1
Authority
JP
Japan
Prior art keywords
target area
area sound
sound
output
directivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016169349A
Other languages
English (en)
Other versions
JP2018037844A (ja
Inventor
一浩 片桐
一浩 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2016169349A priority Critical patent/JP6241520B1/ja
Priority to PCT/JP2017/018871 priority patent/WO2018042773A1/ja
Application granted granted Critical
Publication of JP6241520B1 publication Critical patent/JP6241520B1/ja
Publication of JP2018037844A publication Critical patent/JP2018037844A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】 エリア収音を行う際のミュージカルノイズ等を抑制する。【解決手段】 本発明は、収音装置に関する。そして本発明の収音装置は、入力信号からビームフォーマにより目的エリア方向に指向性を形成する指向性形成手段と、指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、非目的エリア音抽出手段で抽出された非目的エリア音とビームフォーマの出力に入力信号の位相情報を用いて、非目的エリア音の位相を反転させ、ビームフォーマの出力に加算する目的エリア音強調手段とを有することを特徴とする。【選択図】 図1

Description

本発明は、収音装置、プログラム及び方法に関し、例えば特定のエリアの音を強調し、それ以外のエリアの音を抑圧する装置に適用し得る。
複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下BF)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、加算型と減算型の大きく2つの種類に分けられる。
特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
図7は、従来の減算型BFに係る構成を示すブロック図である。
図7に示す従来の減算型BFでは、マイクロホン数が2個となっている。
従来の減算型BFは、まず遅延器により目的とする方向に存在する音(以下、「目的音」とも呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。従来の減算型BFの遅延器では、時間差は下記(1)式により算出される。
下記の(1)式において、dはマイクロホン間の距離、cは音速、τは遅延量である。また、下記の(1)式において、θは、各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
τ=(dsinθ)/c …(1)
ここで、死角が第1のマイクロホンと第2のマイクロホンの中心に対し、第1のマイクロホンの方向に存在する場合、従来の減算型BFにおける遅延器は、第1のマイクロホンの入力信号x(t)に対し遅延処理を行う。その後、遅延処理された入力信号x(t)は、(2)式に従い減算処理される。
(t)=x(t)−x(t−τ) …(2)
従来の減算型BFにおける減算処理は、周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)式のように変更される。
Figure 0006241520
ここでθ=±π/2の場合、形成される指向性は図8(A)に示すように、カージオイド型の単一指向性となり、θ=0,πの場合は、図8(B)のような8の字型の双指向性となる。以下では、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。
また、従来の収音装置において、スペクトル減算法(Spectral Subtraction;以下「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。(4)式では、第1のマイクロホンの入力信号Xを用いているが、第2のマイクロホンの入力信号Xでも同様の効果を得ることができる。ここでβはSSの強度を調節するための係数である。減算時に値がマイナスなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」とも呼ぶ)を抽出し、抽出した非目的音の振幅スペクトル|M|を入力信号の振幅スペクトル|X|から減算することで、目的音|Y|を強調することができる。なお周波数毎の振幅スペクトル|X1k|,|M1k|は(5)式及び(6)式から算出する。ここでReとImはそれぞれ実数部と虚数部、kは周波数を表している。
Figure 0006241520
ある特定のエリア内(収音対象のエリア内)に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、従来の減算型BFの指向性は直線的に形成されるため、その指向性を目的エリア方向に向けるだけでは、目的エリアの外に存在する音源(以下、「非目的エリア音」と呼ぶ)であっても、目的エリア方向に存在する音源は全て収音してしまう。
そこで特許文献1では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(エリア収音)を提案している。
特許文献1に記載されたエリア収音手法では、まず、各マイクロホンアレイのBF出力に含まれる目的エリア音のパワーの比率を推定し、それを補正係数とする。例えば、2つのマイクロホンアレイを用いて、特許文献1に記載されたエリア収音を行う場合、目的エリア音パワーの補正係数は、(7)式または(8)式により算出される。
Figure 0006241520
(7)式、(8)式において、|Y1k|は第1のマイクロホンアレイのBF出力の振幅スペクトル、|Y2k|は第2のマイクロホンアレイのBF出力の振幅スペクトル、mは周波数ビンの総数、αはBF出力に対するパワー補正係数である。また、(7)式、(8)式において、modeは最頻値、medianは中央値を表している。
特許文献1に記載されたエリア収音手法では、その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。特許文献1に記載されたエリア収音手法では、更に抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
そして、特許文献1に記載されたエリア収音手法では、第1のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音|N|を抽出する際、(9)式に示すように、第1のマイクロホンアレイのBF出力|Y|から、第2のマイクロホンアレイのBF出力|Y|にパワー補正係数αを掛けたものをSSする。
|N|=|Y|−α|Y| …(9)
その後、特許文献1に記載されたエリア収音手法では、(10)式に従い、BF出力から非目的エリア音をSSして目的エリア音を抽出する。γはSS時の強度を変更するための係数である。
|Z|=|Y|−γ|N| …(10)
特開2014−72708号公報
浅野太著,"音響テクノロジーシリーズ16 音のアレイ信号処理−音源の定位・追跡と分離−",日本音響学会編,コロナ社,2011年2月25日発行
しかしながら、特許文献1のエリア収音手法では、背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際にSSを行うと、雑音の引き残しによりミュージカルノイズという耳障りな異音が発生したり、非目的エリア音だけでなく目的エリア音も抑圧してしまい音が歪んだりする可能性がある。
そのため、特許文献1のエリア収音手法では、これらの影響により音が聞き取り難くなり、音による円滑なコミュニケーションが阻害される恐れがある。
そのため、エリア収音を行う際のミュージカルノイズ等を抑制することができる収音装置、プログラム及び方法が望まれている。
第1の本発明の収音装置は、(1)入力信号からビームフォーマにより目的エリア方向に指向性を形成する指向性形成手段と、(2)前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、(3)前記非目的エリア音抽出手段で抽出された非目的エリア音と前記ビームフォーマの出力に前記入力信号の位相情報を用いて、前記非目的エリア音の位相を反転させ、前記ビームフォーマの出力に加算する目的エリア音強調手段とを有することを特徴とする。
第2の本発明の収音プログラムは、コンピュータを、(1)入力信号からビームフォーマにより目的エリア方向に指向性を形成する指向性形成手段と、(2)前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、(3)前記非目的エリア音抽出手段で抽出された非目的エリア音と前記ビームフォーマの出力に前記入力信号の位相情報を用いて、前記非目的エリア音の位相を反転させ、前記ビームフォーマの出力に加算する目的エリア音強調手段として機能させることを特徴とする。
第3の本発明は、収音装置が行う収音方法において、(1)指向性形成手段、非目的エリア音抽出手段、及び目的エリア音強調手段を有し、(2)前記指向性形成手段は、入力信号からビームフォーマにより目的エリア方向に指向性を形成し、(3)前記非目的エリア音抽出手段は、前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出し、(4)前記目的エリア音強調手段は、前記非目的エリア音抽出手段で抽出された非目的エリア音と前記ビームフォーマの出力に前記入力信号の位相情報を用いて、前記非目的エリア音の位相を反転させ、前記ビームフォーマの出力に加算することを特徴とする。
本発明によれば、エリア収音を行う際のミュージカルノイズ等を抑制することができる。
第1の実施形態に係る収音装置の機能的構成について示したブロック図である。 第1の実施形態に係る2つのマイクロホンアレイのビームフォーマ(BF)による指向性を別々の方向から目的エリアへ向けた場合の構成例について示した説明図である。 第1の実施形態に係る収音装置で処理するBF出力の例について示した説明図である。 第1の実施形態に係る収音装置の性能を確認するための実験結果について示した説明図である。 第2の実施形態に係る収音装置の機能的構成について示したブロック図である。 第3の実施形態に係る収音装置の機能的構成について示したブロック図である。 従来の収音装置の構成について示したブロック図である。 従来の指向性フィルタにより形成される指向特性の一例を説明する説明図である。
(A)第1の実施形態
以下、本発明による収音装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A−1)第1の実施形態の構成
図1は、この実施形態の収音装置100の機能的構成について示したブロック図である。
収音装置100は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
マイクロホンアレイMA1、MA2は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、例えば、図2に示すように、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとして説明する。すなわち、各マイクロホンアレイMAは、2chマイクロホンアレイを構成している。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。なお、この実施系他愛では、マイクロホンアレイの代わりにショットガンマイクなどの指向性マイクロホンを使用するようにしてもよい。
収音装置100は、信号入力部1、指向性形成部2、遅延補正部3、空間座標データ4、目的エリア音パワー補正係数算出部5、非目的エリア音抽出部6、目的エリア音強調部7を有している。収音装置100を構成する各機能ブロックの詳細処理については後述する。
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の収音装置100の動作(実施形態に係る収音方法)を説明する。
信号入力部1は、各マイクロホンアレイMA1、MA2で収音した音響信号をアナログ信号からデジタル信号に変換する。そして、信号入力部1は、当該デジタル信号について、変換処理(例えば、高速フーリエ変換等を用いて時間領域から周波数領域へ変換する処理)を行う。
指向性形成部2は、マイクロホンアレイMA毎に、目的方向以外に存在する非目的エリア音を抽出(例えば、双指向性フィルタにより抽出)し、抽出した非目的エリア音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的エリア方向に指向性を形成した音(BF出力)を取得する。具体的には、指向性形成部2は、マイクロホンアレイMA毎に雑音抑圧部8により背景雑音を抑圧した信号に対し、(4)式に従いBFにより目的エリア方向に指向性を形成した音をBF出力として取得する。なお、入力される信号が、マイクロホンアレイMAではなく、指向性マイクロホンから入力される信号である場合、指向性形成部2の処理を省略して、入力信号をそのまま後段側に供給するようにしてもよい。
遅延補正部3は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正する。まず空間座標データ4から目的エリアの位置とマイクロホンアレイの位置を取得し、各マイクロホンアレイへの目的エリア音の到達時間の差を算出する。次に最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。
空間座標データ4は、全ての目的エリアと各マイクロホンアレイと各マイクロホンアレイを構成するマイクロホンの位置情報を保持する。
目的エリア音パワー補正係数算出部5は、各BF出力に含まれる目的エリア音成分のパワーを同じにするための補正係数を上記の(7)式または(8)式に従い算出する。
非目的エリア音抽出部6は、目的エリア音パワー補正係数算出部5で算出した補正係数により補正した各BF出力データを以下の(9)式に従いSSし、目的エリア方向に存在する非目的エリア音を抽出する。
目的エリア音強調部7は、ミュージカルノイズ発生の原因になり得る目的エリア音抽出時のSSを行わず、位相情報を用いて非目的エリア音を抑圧し、目的エリア音を強調する。
入力信号の位相情報は、離散フーリエ変換を行った入力信号の実数部と虚数部をそれぞれ入力信号の振幅スペクトルで除算して得ることが出来る。目的エリア音強調部7では、この位相情報を非目的エリア音とBF出力の振幅スペクトルに乗算することで、入力信号と同じ位相を持たせることができる。入力信号の位相情報には、もともとBFにおける目的音の位相が含まれている。BF出力には目的エリア音と非目的エリア音が含まれているので、BF出力に入力信号の位相情報を付与すれば、BF出力中の目的エリア音と非目的エリア音の位相が復元することができる。また、目的エリア音強調部7では、同様に抽出した非目的エリア音の位相も復元することができる。このことから、目的エリア音強調部7では、抽出した非目的エリア音の位相を逆位相にしてBF出力と足し合わせれば、BF出力中の非目的エリア音成分は、抽出した非目的エリア音成分と打ち消し合って抑圧される。その結果、目的エリア音強調部7では、BF出力中の目的エリア音のみを強調することが可能となる。
以下、目的エリア音強調部7の具体的な処理の例について説明する。
上述の通り、エリア収音処理の過程で抽出された非目的エリア音は、振幅スペクトルであり位相情報が失われているので、目的エリア音強調部7では、これに入力信号の位相情報を付与する。また、BF出力も振幅スペクトルなので、目的エリア音強調部7は、同様に入力信号の位相情報を与える。
目的エリア音強調部7は、具体的には以下の(11)式に従い、抽出した非目的エリア音|N|に入力信号の位相情報を与える。また、目的エリア音強調部7は、以下のお(12)式に従い、BF出力|Y|にも入力信号の位相情報を与える。
目的エリア音強調部7は、その後、全帯域もしくは制限した帯域で(13)式に従い非目的エリア音の位相を反転させ、BF出力に足し合わせてBF出力中の非目的エリア音成分を抑圧し、目的エリア音を強調する。ここでμは非目的エリア音の振幅の大きさを制御する係数である。目的エリア音強調部7では、非目的エリア音の抑圧は、周波数領域で行っても良いし、逆フーリエ変換により時間領域に戻した後に行っても良い。
Figure 0006241520
(A−3)第1の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
第1の実施形態の収音装置100では、非目的エリア音の抑圧に、ミュージカルノイズ発生の原因になり得る目的エリア音抽出時のSSを行わずに、BF出力中の非目的エリア音成分に対して、抽出した非目的エリア音を逆位相にして打ち消すことにより目的エリア音を強調している。これにより、第1の実施形態の収音装置100では、ミュージカルノイズの発生を低減し、かつ、目的エリア音を抑圧して歪ませてしまうことを低減するという効果を奏する。非目的エリア音を逆位相にして打ち消す処理は、SSのように非線形的な処理ではなく線形的な処理となるため、SSのようにミュージカルノイズを発生させることを抑制することができる。
次に、出願人が実際に第1の実施形態の収音装置100を構築して行った実験(以下、「本実験」と呼ぶ)について図4、図5のグラフを用いて説明する。
図4は、本実験において目的エリア音強調部7で処理される信号のスペクトルについて示したグラフである。図4(a)は、本実験において目的エリア音強調部7に供給されたBF出力のスペクトルについて示したグラフである。図4(b)は、図4(a)に示すBF出力に含まれる目的エリア音のスペクトルについて示したグラフである。
図5は、この実施形態の収音装置100(目的エリア音強調部7)を用いて、非目的エリア音を抑圧して目的エリア音を強調した場合の性能について示したグラフである。
図5(a)は、従来のスペクトル減算(SS)により、図4(a)に示すBF出力から非目的エリア音を抑圧して目的エリア音を強調した信号のスペクトルについて示したグラフである。
一方、図5(b)は、目的エリア音強調部7を用いて、図4(a)に示すBF出力から非目的エリア音を抑圧して目的エリア音を強調した信号のスペクトルについて示したグラフである。すなわち、図5(b)に示すスペクトルは、図4(a)に示すBF出力から、非目的エリア音を逆位相にして打ち消した結果について示している。
図5に示す実験結果から、グラフ上の見た目では、この実施形態の非目的エリア音の抑圧方式(BF出力から非目的エリア音を逆位相にして打ち消す方式)を用いても、従来のスペクトル減算(SS)と非目的エリア音の抑圧性能は同程度であることが分かる。したがって、図5に示す実験結果から、この実施形態の非目的エリア音の抑圧方式(BF出力から非目的エリア音を逆位相にして打ち消す方式)を用いた場合でも、従来のスペクトル減算(SS)と比較して非目的エリア音の抑圧性能を維持しつつ、ミュージカルノイズや目的エリア音の歪みの発生を抑制することができるということが分かる。
(B)第2の実施形態
以下、本発明による収音装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B−1)第2の実施形態の構成
図5は、この実施形態の収音装置100Aの機能的構成について示したブロック図である。図5では、上述の図1と同一部分又は対応部分に同一符号又は対応符号を付している。
以下では、第2の実施形態の収音装置100Aについて、第1の実施形態との差異を説明する。
収音装置100Aでは、目的エリア音強調部7が目的エリア音強調部7Aに置き換わり、さらに、雑音抑圧部8が追加されている点で、第1の実施形態と異なっている。
雑音抑圧部8は、信号入力部1で取得した信号に含まれる背景雑音の成分を推定して抑圧する処理を行う。また、雑音抑圧部8は、圧背景雑音のレベルを、目的エリア音強調部7Aに供給する。
目的エリア音強調部7Aは、背景雑音のレベルと非目的エリア音の振幅スペクトルの値に基づき、上記の(13)式におけるμを更新する処理を行う。
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置100Aの動作を説明する。
以下では、第2の実施形態の収音装置100Aについて、第1の実施形態との差異点についてのみ説明する。
雑音抑圧部8は、信号入力部1で取得した信号に含まれる背景雑音の成分を推定し、雑音抑圧後の信号を、指向性形成部2に供給する。雑音抑圧部8において、雑音抑圧には、例えばSSやウィーナーフィルタリング法(Wiener filtering)などを用いることができる。
目的エリア音強調部7Aは、雑音抑圧部8において推定した背景雑音のレベルと非目的エリア音抽出部6で抽出した非目的エリア音の振幅スペクトルの値から上記の(13)式のμを更新する。
背景雑音が大きく雑音抑圧部8で背景雑音が抑圧しきれない場合、上記の(9)式により抽出した非目的エリア音の振幅スペクトルが小さくなる可能性がある。この状態では上記の(13)式による非目的エリア音の抑圧効果が弱くなるため、目的エリア音強調部7Aは、雑音抑圧部8で推定した背景雑音のレベルに比例してμの値を大きくすることが望ましい。なお非目的エリア音の振幅スペクトルが予め設定した閾値Τよりも小さい場合、目的エリア音強調部7Aは、目的エリア音が存在していないとみなし、μを初期値(予め設定された所定の初期値)に戻すようにしてもよい。
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と比較して以下のような効果を奏することができる。
第2の実施形態の収音装置100Aでは、雑音抑圧部8を追加することで、入力信号の背景雑音を抑制した上で目的エリア音の強調を行うため、目的エリア音の音声等がより強調されることになる。
また、第2の実施形態の収音装置100Aでは、雑音抑圧部8で推定した背景雑音のレベルに比例して、μ(非目的エリア音の振幅の大きさを制御する係数)の値を大きくしている。これにより、第2の実施形態の収音装置100Aでは、背景雑音が大きく雑音抑圧部8で背景雑音が抑圧しきれない場合であっても、十分に非目的エリア音を抑圧(目的エリア音を強調)する係数μを設定することが可能となる。
(C)第3の実施形態
以下、本発明による収音装置、プログラム及び方法の第3の実施形態を、図面を参照しながら詳述する。
(C−1)第3の実施形態の構成
図6は、この実施形態の収音装置100Bの機能的構成について示したブロック図である。図6では、上述の図2と同一部分又は対応部分に同一符号又は対応符号を付している。
以下では、第3の実施形態の収音装置100Bについて、第2の実施形態との差異を説明する。
収音装置100Bでは、目的エリア音強調部7Aが目的エリア音強調部7Bに置き換わっている点で、第2の実施形態と異なっている。
目的エリア音強調部7Bは、位相による非目的エリア音の抑圧と、SSによる非目的エリア音の抑圧を状況により切替えて目的エリア音を強調する。
目的エリア音強調部7Bは、位相による非目的エリア音の抑圧処理を行う非目的エリア音位相抑圧部7−1と、SSによる非目的エリア音の抑圧処理を行う非目的エリア音スペクトル減算部7−2とを有し、いずれか一方に切り替えて非目的エリア音の抑圧(目的エリア音の強調)を行う。
(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の収音装置100Bの動作を説明する。
以下では、第3の実施形態の収音装置100Bについて、第2の実施形態との差異点についてのみ説明する。
目的エリア音強調部7Bは、雑音抑圧部8で推定した背景雑音のレベルと非目的エリア音抽出部6で抽出した非目的エリア音の振幅スペクトルの値から、非目的エリア音位相抑圧部7−1と非目的エリア音スペクトル減算部7−2を切替えて非目的エリア音の抑圧を行う。
非目的エリア音位相抑圧部7−1は、上記の(13)式に従い非目的エリア音の抑圧を行い、非目的エリア音スペクトル減算部7−2は上記の(10)式に従い非目的エリア音の抑圧を行う。
目的エリア音強調部7Bにおいて、これらの処理の切り替え条件は限定されないものである。目的エリア音強調部7Bは、例えば、「背景雑音のレベルが閾値Τよりも小さい」、かつ、「非目的エリア音の振幅スペクトルが閾値Τよりも小さい」という条件を満たす場合に、非目的エリア音スペクトル減算部7−2による非目的エリア音の抑圧を行い、上述の条件を満たさない場合に非目的エリア音位相抑圧部7−1による非目的エリア音の抑圧処理を行うようにしてもよい。なおμを設定する際の非目的エリア音の振幅スペクトルの閾値ΤとΤの関係はΤ<Τとする。
(C−3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
第3の実施形態の収音装置100Bでは、雑音抑圧部8で推定した背景雑音のレベルと非目的エリア音抽出部6で抽出した非目的エリア音の振幅スペクトルの値に基づき、非目的エリア音位相抑圧部7−1と非目的エリア音スペクトル減算部7−2のうち、適切な手法(より高品質な処理を行うことができる手法)を選択して、非目的エリア音の抑圧(目的エリア音の強調)に適用している。
具体的には、第3の実施形態の収音装置100Bでは、背景雑音や非目的エリア音の音量レベルが大きい場合に、非目的エリア音位相抑圧部7−1を適用することで、雑音の引き残しによりミュージカルノイズの発生や、目的エリア音も抑圧してしまうことを低減している。また、第3の実施形態の収音装置100Bでは、背景雑音や非目的エリア音の音量レベルが小さい場合に非目的エリア音スペクトル減算部7−2を適用することで、精度良く非目的エリア音の抑圧を行うことができる。また、背景雑音や非目的エリア音の音量レベルが小さい場合には、SSによる目的エリア音の抑圧処理を行っても、ミュージカルノイズの発生や目的エリア音も抑圧してしまうことを低減することができ、さらに、非目的エリア音位相抑圧部7−1による処理よりも精度よく非目的エリア音の抑圧を行うことができる。
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(D−1)第2の実施形態の収音装置100Aにおいて、雑音抑圧部8を、信号入力部1で取得した信号に含まれる背景雑音の成分を推定して背景雑音レベルの取得のみを行い目的エリア音強調部7に供給する手段(以下、「推定手段」と呼ぶ)に置き換えるようにしてもよい。この場合、第1の実施形態と同様に、信号入力部1から出力される信号は、そのまま指向性形成部2に供給される。
また、第3の実施形態の100Bにおいても同様に、雑音抑圧部8を、信号入力部1で取得した信号に含まれる背景雑音の成分を推定して背景雑音レベルの取得のみを行い目的エリア音強調部7に供給する推定手段に置き換えるようにしてもよい。
(D−2)第3の実施形態において、目的エリア音強調部7Bでは、非目的エリア音位相抑圧部7−1と非目的エリア音スペクトル減算部7−2の処理を同時に行い、それぞれの出力を混合して最終出力としても良い。
(D−3)第3の実施形態において、目的エリア音強調部7Bは、背景雑音のレベル及び非目的エリア音の振幅スペクトルを考慮して、非目的エリア音の抑圧手法(非目的エリア音位相抑圧部7−1又は、非目的エリア音スペクトル減算部7−2)を選択しているが、背景雑音のレベル又は非目的エリア音の振幅スペクトルの一方のみを用いて、非目的エリア音の抑圧手法を選択するようにしてもよい。
例えば、目的エリア音強調部7Bは、背景雑音のレベルが閾値Τよりも小さい場合に、非目的エリア音スペクトル減算部7−2を選択し、そうでない場合に非目的エリア音位相抑圧部7−1を選択するように構成してもよい。また、目的エリア音強調部7Bは、非目的エリア音の振幅スペクトルが閾値Τよりも小さい場合に、非目的エリア音スペクトル減算部7−2を選択し、そうでない場合に非目的エリア音位相抑圧部7−1を選択するように構成してもよい。
100、100A、100B…収音装置、1…信号入力部、2…指向性形成部、3…遅延補正部、4…空間座標データ、5…目的エリア音パワー補正係数算出部、6…目的エリア音抽出部、7、7A、7B…目的エリア音強調部、7−1…非目的エリア音位相抑圧部、7−2…非目的エリア音スペクトル減算部。

Claims (7)

  1. 入力信号からビームフォーマにより目的エリア方向に指向性を形成する指向性形成手段と、
    前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、
    前記非目的エリア音抽出手段で抽出された非目的エリア音と前記ビームフォーマの出力に前記入力信号の位相情報を用いて、前記非目的エリア音の位相を反転させ、前記ビームフォーマの出力に加算する目的エリア音強調手段と
    を有することを特徴とする収音装置。
  2. 前記入力信号に含まれる背景雑音レベルを推定する推定手段をさらに有し、
    前記目的エリア音強調手段は、前記推定手段が推定した背景雑音レベルと、前記非目的エリア音抽出手段で抽出された非目的エリア音の振幅スペクトルの値とに基づいて、前記ビームフォーマの出力に加算する非目的エリア音の振幅の大きさを制御する制御係数を更新する
    ことを特徴とする請求項1に記載の収音装置。
  3. 非目的エリア音の振幅スペクトルが第1の閾値以下の場合、前記制御係数を所定の初期値に戻すことを特徴とする請求項2に記載の収音装置。
  4. 前記入力信号に含まれる背景雑音レベルを推定する推定手段をさらに有し、
    前記目的エリア音強調手段は、
    前記非目的エリア音抽出手段で抽出された非目的エリア音と前記ビームフォーマの出力に前記入力信号の位相情報を用いて、前記非目的エリア音の位相を反転させ、前記ビームフォーマの出力に加算する第1の抑圧手段と、
    前記ビームフォーマの出力から前記非目的エリア音に基づく信号をスペクトル減算することで、前記ビームフォーマの出力の非目的エリア音の成分を抑圧する第2の抑圧手段とを有し、
    前記目的エリア音強調手段は、前記推定手段が推定した背景雑音レベルと、前記非目的エリア音抽出手段で抽出された非目的エリア音の振幅スペクトルの値とに基づいて、前記第1の抑圧手段又は前記第2の抑圧手段のいずれかを選択して前記ビームフォーマの出力における非目的エリア音の成分を抑圧する
    ことを特徴とする請求項1に記載の収音装置。
  5. 前記目的エリア音強調手段は、背景雑音のレベルが第2の閾値よりも小さい、かつ、非目的エリア音の振幅スペクトルが第3の閾値よりも小さいという所定の条件を満たす場合に、前記第2の抑圧手段を選択し、前記所定の条件を満たさない場合に前記第1の抑圧手段を選択することを特徴とする請求項4に記載の収音装置。
  6. コンピュータを、
    入力信号からビームフォーマにより目的エリア方向に指向性を形成する指向性形成手段と、
    前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出する非目的エリア音抽出手段と、
    前記非目的エリア音抽出手段で抽出された非目的エリア音と前記ビームフォーマの出力に前記入力信号の位相情報を用いて、前記非目的エリア音の位相を反転させ、前記ビームフォーマの出力に加算する目的エリア音強調手段と
    して機能させることを特徴とする収音プログラム。
  7. 収音装置が行う収音方法において、
    指向性形成手段、非目的エリア音抽出手段、及び目的エリア音強調手段を有し、
    前記指向性形成手段は、入力信号からビームフォーマにより目的エリア方向に指向性を形成し、
    前記非目的エリア音抽出手段は、前記指向性形成手段で形成された指向性による目的エリア方向に存在する非目的エリア音を抽出し、
    前記目的エリア音強調手段は、前記非目的エリア音抽出手段で抽出された非目的エリア音と前記ビームフォーマの出力に前記入力信号の位相情報を用いて、前記非目的エリア音の位相を反転させ、前記ビームフォーマの出力に加算する
    ことを特徴とする収音装置。
JP2016169349A 2016-08-31 2016-08-31 収音装置、プログラム及び方法 Active JP6241520B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016169349A JP6241520B1 (ja) 2016-08-31 2016-08-31 収音装置、プログラム及び方法
PCT/JP2017/018871 WO2018042773A1 (ja) 2016-08-31 2017-05-19 収音装置、記録媒体及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016169349A JP6241520B1 (ja) 2016-08-31 2016-08-31 収音装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP6241520B1 true JP6241520B1 (ja) 2017-12-06
JP2018037844A JP2018037844A (ja) 2018-03-08

Family

ID=60570432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016169349A Active JP6241520B1 (ja) 2016-08-31 2016-08-31 収音装置、プログラム及び方法

Country Status (2)

Country Link
JP (1) JP6241520B1 (ja)
WO (1) WO2018042773A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6822505B2 (ja) 2019-03-20 2021-01-27 沖電気工業株式会社 収音装置、収音プログラム及び収音方法
CN113270095B (zh) * 2021-04-26 2022-04-08 镁佳(北京)科技有限公司 语音处理方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014072708A (ja) * 2012-09-28 2014-04-21 Oki Electric Ind Co Ltd 収音装置及びプログラム
US20160198258A1 (en) * 2015-01-05 2016-07-07 Oki Electric Industry Co., Ltd. Sound pickup device, program recorded medium, and method
JP2016127458A (ja) * 2015-01-05 2016-07-11 沖電気工業株式会社 収音装置、プログラム及び方法
JP2016127459A (ja) * 2015-01-05 2016-07-11 沖電気工業株式会社 収音装置、プログラム及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014072708A (ja) * 2012-09-28 2014-04-21 Oki Electric Ind Co Ltd 収音装置及びプログラム
US20160198258A1 (en) * 2015-01-05 2016-07-07 Oki Electric Industry Co., Ltd. Sound pickup device, program recorded medium, and method
JP2016127458A (ja) * 2015-01-05 2016-07-11 沖電気工業株式会社 収音装置、プログラム及び方法
JP2016127459A (ja) * 2015-01-05 2016-07-11 沖電気工業株式会社 収音装置、プログラム及び方法

Also Published As

Publication number Publication date
WO2018042773A1 (ja) 2018-03-08
JP2018037844A (ja) 2018-03-08

Similar Documents

Publication Publication Date Title
JP5482854B2 (ja) 収音装置及びプログラム
JP6703525B2 (ja) 音源を強調するための方法及び機器
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
CN105981404B (zh) 使用麦克风阵列的混响声的提取
JP6065028B2 (ja) 収音装置、プログラム及び方法
JP6187626B1 (ja) 収音装置及びプログラム
JP4986248B2 (ja) 音源分離装置、方法及びプログラム
JP6131989B2 (ja) 収音装置、プログラム及び方法
JP6065030B2 (ja) 収音装置、プログラム及び方法
JP5772151B2 (ja) 音源分離装置、プログラム及び方法
WO2014024248A1 (ja) ビームフォーミング装置
JP6763332B2 (ja) 収音装置、プログラム及び方法
JP2018132737A (ja) 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
WO2016076123A1 (ja) 音声処理装置、音声処理方法、並びにプログラム
JP6241520B1 (ja) 収音装置、プログラム及び方法
JP6436180B2 (ja) 収音装置、プログラム及び方法
JP2016163135A (ja) 収音装置、プログラム及び方法
JP2011203414A (ja) 雑音及び残響抑圧装置及びその方法
JP6260666B1 (ja) 収音装置、プログラム及び方法
JP2019068133A (ja) 収音装置、プログラム及び方法
US11095979B2 (en) Sound pick-up apparatus, recording medium, and sound pick-up method
JP6863004B2 (ja) 収音装置、プログラム及び方法
JP6624256B1 (ja) 収音装置、プログラム及び方法
JP6065029B2 (ja) 収音装置、プログラム及び方法
JP6879340B2 (ja) 収音装置、収音プログラム、及び収音方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171023

R150 Certificate of patent or registration of utility model

Ref document number: 6241520

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150