JP4893146B2 - 収音装置 - Google Patents

収音装置 Download PDF

Info

Publication number
JP4893146B2
JP4893146B2 JP2006214691A JP2006214691A JP4893146B2 JP 4893146 B2 JP4893146 B2 JP 4893146B2 JP 2006214691 A JP2006214691 A JP 2006214691A JP 2006214691 A JP2006214691 A JP 2006214691A JP 4893146 B2 JP4893146 B2 JP 4893146B2
Authority
JP
Japan
Prior art keywords
sound
signal
output
sensitivity
sound collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006214691A
Other languages
English (en)
Other versions
JP2008042549A (ja
Inventor
茂 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006214691A priority Critical patent/JP4893146B2/ja
Priority to PCT/JP2007/065173 priority patent/WO2008018362A1/ja
Priority to EP07805894A priority patent/EP2059065A1/en
Priority to US12/376,682 priority patent/US8103018B2/en
Priority to CN2007800294126A priority patent/CN101502129B/zh
Publication of JP2008042549A publication Critical patent/JP2008042549A/ja
Application granted granted Critical
Publication of JP4893146B2 publication Critical patent/JP4893146B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

この発明は、会議などに用いられ、会議参加者の発話音声を収音する収音装置に関するものである。
近年、IP電話等では音声の有無を検出する機能としてVAD(Voice ActivityDetection)が搭載されており、無音時には音声情報を送信しない機能としてDTX(Discontinuous transmission)が搭載されているものが多い(例えば非特許文献1、非特許文献2参照)。無音時に音声情報を送信しない構成(以下、無音圧縮と言う)とすることで、送信する情報量(平均ビットレート)を下げることができる。しかし、無音圧縮を行うと、無音から有音に変化する場合に音声部分の頭が途切れる不都合が生じる。
そこで、収音した音声を一旦メモリへ格納し、無音から有音に変化する時にメモリから過去の音声を読み出して送信することで、立上がり時の音声が途切れないようにした音声圧縮方法が提案されている(例えば特許文献1参照)。
ITU-T G.711 Appendix II toRecommendation G.711 (02/2000) RFC3389 Real-time TransportProtocol (RTP) Payload for Comfort Noise (CN) 特開2005−266411号公報
しかし、特許文献1の方法では、マイクの感度が足りずに適正な音声信号を取得できないときは、立上がりの音を検出できないという問題が有った。一方で、立上がりの音を検出するためにマイクの感度を上げた場合、無音区間を有音区間として誤った認識をする可能性が有った。また、マイクの感度を上げた場合、立上がり時に大きな音が入力された場合に、許容入力限界を超えてしまう(クリップしてしまう)という問題が有った。
本発明は、無音圧縮を行う場合に、立上がりの音を正確に検出し、かつ、立上がり時に大きな音が入力された場合であってもクリップすることのない収音装置を提供することを目的とする。
この発明の収音装置は、複数のマイクを配列してなるマイクアレイと、前記複数のマイクが収音した音声信号を入力し、後段に分配出力する信号分配手段と、前記信号分配手段が分配出力した音声信号毎に、同じ領域に強い指向性を有する収音ビーム信号をそれぞれ生成する複数の収音信号処理手段と、前記複数の収音信号処理手段が生成する収音ビーム信号の感度をそれぞれ高感度、または低感度に設定するレベル設定手段と、前記複数の収音信号処理手段が生成した収音ビーム信号をそれぞれ格納する複数のメモリと、前記複数の収音信号処理手段が生成した収音ビーム信号の信号レベルを検出し、有音、無音を判定するとともに、許容入力限界を超える高感度の収音ビーム信号を検出する音声判定部と、前記複数のメモリに格納されている収音ビーム信号を読み出し、いずれかを選択して出力するセレクタと、前記音声判定部が許容入力限界を超える高感度の収音ビーム信号を検出していないとき、無音から有音に判定を変更したタイミングで、前記セレクタに、前記複数のメモリに格納されている収音ビーム信号のうち、読み出しする収音ビーム信号を高感度の収音ビーム信号に切り替えさせ、高感度の収音ビーム信号を出力するように設定し、前記音声判定部が許容入力限界を超える高感度の収音ビーム信号を検出しているとき、無音から有音に判定を変更したタイミングで、前記セレクタに、前記複数のメモリに格納されている収音ビーム信号のうち、読み出しする収音ビーム信号を低感度の収音ビーム信号に切り替えさせ、低感度の収音ビーム信号を出力するように設定する制御部と、を備えたことを特徴とする。
この構成では、複数のマイクで収音した音声信号を、信号分配手段が複数の収音信号処理手段に分配出力する。それぞれの収音信号処理手段は収音ビーム信号を生成し、これらの収音ビーム信号は、それぞれ高感度、低感度に設定される。高感度の収音ビーム信号、低感度の収音ビーム信号は、それぞれメモリに格納される。セレクタは、制御部から指定されるタイミングでメモリに格納されている収音ビーム信号のいずれかを過去のものから順次読み出し、出力する。音声判定部は、収音ビーム信号の有音、無音を検出し、さらに許容入力限界を超える(クリップする)収音ビーム信号を検出する。制御部は、音声判定部の判定結果を入力する。制御部は、収音ビーム信号がクリップしてない場合において、無音→有音の判定結果が入力されたとき、セレクタに、高感度の収音ビーム信号を選択して読み出すように設定する。また、制御部は、収音ビーム信号がクリップしている場合において、無音→有音の判定結果が入力されたとき、セレクタに、低感度の収音ビーム信号を選択して読み出すように設定する。
また、この発明の収音装置は、前記制御部は、前記音声判定部が所定時間以上有音判定を行っている場合、前記信号分配手段に、全てのマイクが収音した音声信号を単一の収音信号処理手段に出力するよう指示し、前記レベル設定手段に、前記収音信号処理手段が生成する収音ビームを高感度に設定するよう指示し、前記セレクタに、高感度の収音ビーム信号を出力するように指示する通常出力処理を行うことを特徴とする。
この構成では、所定時間以上安定して有音の判定結果が入力されている場合に、全てのマイクが収音した音声から単一の高感度の収音ビーム信号を生成し、この収音ビーム信号を出力する処理である通常出力処理を行う。これにより安定して有音と判定されている場合には、発話音声を確実に出力する。
また、この発明の収音装置は、前記制御部は、前記音声判定部が有音から無音に判定を変更したときに、前記通常出力処理から、前記信号分配手段に、音声信号を複数の信号処理手段に分配出力するよう指示し、前記レベル設定手段に、収音信号処理手段が生成する収音ビーム信号の感度をそれぞれ高感度、または低感度に設定するよう指示し、前記セレクタに、前記音声判定部が許容入力限界を超える高感度の収音ビーム信号を検出していないとき、無音から有音に判定を変更したタイミングで、高感度の収音ビーム信号を出力するように設定し、前記音声判定部が許容入力限界を超える高感度の収音ビーム信号を検出しているとき、無音から有音に判定を変更したタイミングで、低感度の収音ビーム信号を出力するように設定する検出モードへ処理を変更することを特徴とする。
この構成では、所定時間以上安定して有音の判定結果が入力されている状態から、無音の判定結果が入力された場合に、上記通常出力処理から、高感度、低感度の収音ビーム信号を用いて無音→有音検出を行う検出モードに移行する。
また、この発明の収音装置は、前記レベル設定手段は、前記複数のマイクが収音した音声信号のレベルを変更して前記収音信号処理手段に入力させることにより収音ビーム信号をそれぞれ高感度、または低感度に設定することを特徴とする。
また、この発明の収音装置は、前記レベル設定手段は、前記収音信号処理手段の入力、出力レベル比を変更することにより収音ビーム信号をそれぞれ高感度、または低感度に設定することを特徴とする。
この発明によれば、低感度の収音ビーム、高感度の収音ビームを設定し、高感度の収音ビームで無音→有音のタイミングを確実に検出するとともに、高感度の収音ビームがクリップしたときに、出力を低感度の収音ビームに切り換えることで、立上がりの音を正確に検出し、かつ、立上がり時に大きな音が入力された場合であってもクリップすることが無くなる。
この発明の実施形態に係る収音装置は、複数のマイクで収音した音声信号を所定時間遅延して合成することにより、特定の領域の音声を高感度で収音した収音ビーム(信号)を生成する。この収音ビームの信号レベルを監視することにより、有音、無音(発話音声の有無)を検出する。所定時間以上安定して有音を検出している時には全マイクで収音した音声信号を所定時間遅延して合成することにより収音ビームを生成する(これを通常モードとする)。一方で、発話音声が収音されなくなった場合、(機能的に)2つに分割した信号処理部に各マイクで収音した音声信号を分配入力し、各信号処理部にて同一収音領域に対応する感度の異なる収音ビームを生成する。この場合、高感度の収音ビームで無音→有音を検出し、高感度の収音ビームの信号レベルがクリップした時には低感度の収音ビームを後段に出力する(これをVADモードとする)。
以下、本発明の実施形態の収音装置について図面を参照して説明する。
図1は、本実施形態に係る収音装置のマイク配置を示す図である。
本実施形態の収音装置は、筐体101に、複数のマイク11〜18を備えている。
筐体101は一方向に長尺な略直方体形状からなる。以下の説明では、筐体101の四側面のうち、長尺な面を長尺面、短尺な面を短尺面と称する。
筐体101のいずれか一の長尺面には、同スペックのマイク11〜18が設置されている。これらマイク11〜18は長尺方向に沿って一定の間隔で直線状に設置されており、これによりマイクアレイが構成される。
なお、本実施形態では、マイクアレイのマイク数を8本としたが、これに限ることなく、仕様に応じてマイク数は適宜設定すればよい。また、マイクアレイの各マイク間隔は一定でなくてもよく、例えば、長尺方向に沿って中央部で密に配置され、両端部に向かうに従って疎に配置されるような態様でもよい。
マイク11〜18よりなるマイクアレイは、特定の領域201〜204に強い指向性を有する収音ビームを生成する。本実施形態の収音装置は、マイクアレイの各マイクが収音する音声をそれぞれ所定時間遅延し、遅延後の音声信号を合成することで、特定の領域201〜204に対応する収音ビームを複数生成する。詳細は後述する。
次に、図2は、本実施形態に係る収音装置の構成を示すブロック図である。図2に示すブロック図は、上記複数の収音ビームのうち1つの収音ビームの処理系等について示すものである。図2に示すように、本実施形態の収音装置は、マイク11〜18、入出力I/F21、フロントエンドの複数(同図において8つ)のアンプ22、8チャンネルのA/Dコンバータ23、デジタルオーディオパッチ24、収音ビーム生成部25(25A,25B)、FIFOメモリ26(26A,26B)、音声検出器27、制御部28、およびエンコーダ29、を備えている。収音ビーム生成部25、およびFIFOメモリ26は、通常モード時には1つの構成部として動作するが、VADモード時には機能的に2つに分割されて、それぞれ異なる収音ビームを処理するように動作する。通常モード、VADモードの切り換えは、制御部28により指示される。
入出力I/F21は、収音装置が収音した音声信号を外部に出力する。なお、入出力I/F21は、音声信号を、ネットワークに対応するデータ形式(プロトコル)に変換して外部に出力することもでき、無論、デジタル音声信号をそのまま外部に出力することも可能である。なお、入出力I/F21は、必要に応じてD/Aコンバータを内蔵しており、アナログ音声信号を外部に出力することも可能である。
マイクアレイの各マイク11〜18は、無指向性であっても有指向性であってもよいが、有指向性であることが望ましく、収音装置の外部からの音声を収音して収音信号S1〜S8を各アンプ22に出力する。
各アンプ22は、収音信号S1〜S8をそれぞれAMP22で増幅してA/Dコンバータ23に与える。A/Dコンバータ23は、収音信号S1〜S8をそれぞれデジタル変換してデジタルオーディオパッチ24に出力する。なお、A/Dコンバータ23は、各収音信号毎に個別のゲイン(入力アナログ信号と出力デジタル信号のレベル比)を設定することができ、各収音信号毎のゲインは制御部28により設定される。
デジタルオーディオパッチ24は、通常モード時には図3(B)に示すように、収音ビーム生成部25に収音信号S1〜S8を出力する。デジタルオーディオパッチ24は、VADモード時には図3(A)に示すように、A/Dコンバータ23から入力される収音信号S1〜S8を収音ビーム生成部25A、25Bのそれぞれに分配して出力する。デジタルオーディオパッチ24は、収音ビーム生成部25A,25Bに分配出力する収音信号の数を0〜8まで変更することができる。出力する収音信号の数、および収音信号の組み合わせは制御部28により設定される。すなわち、デジタルオーディオパッチ24は、マイクアレイのマイク配置、マイク数を自由に変更することができるものである。
収音ビーム生成部25は、デジタルオーディオパッチ24から出力された収音信号に対して所定の遅延処理を行い、筐体101の周囲所定方位(領域201〜204のいずれか)に強い指向性を有する収音ビーム信号MBを生成する。
例えば全てのマイクに前方から同タイミングで音波が到来したとすると、各マイクから出力された収音信号は、合成によって強められる。一方で、これ以外の方向から音波が到来すると、各マイクから出力される収音信号はそれぞれ位相が異なるために合成されることによって弱められる。したがって、マイクアレイの感度はビーム状に絞り込まれて前方にのみ収音ビームを生成する。
収音ビーム生成部25は、各収音信号にそれぞれ所定の遅延時間を付与することで収音ビームを斜めに向けることができる。収音ビームを斜めにする場合、一方の端部マイクから所定時間が経過する毎に順次隣のマイクから音声信号を出力するように設定する。例えば音源がマイクアレイの一方の端部前方に存在する場合、音源に最も近い一方の端部から音波が到来し、反対の端部に最後に音波が到来するが、収音ビーム生成部25は、この伝搬時間差を補正するように各マイクの収音信号に遅延時間を付与した後合成する。制御部28は、各収音信号に対応するマイク位置の情報を所持しているため、各収音信号の遅延時間を個別に制御する。したがって、特定の方向の音声信号を合成によって強められる。このように、一列に並んでいるマイクから出力する音声信号を一端から他端に向けて順次遅延することにより、収音ビームは、その遅延時間に応じて傾斜する。
VADモード時には、収音ビーム生成部25が機能的に収音ビーム生成部25A,25Bに分割される。収音ビーム生成部25A,25Bは、それぞれデジタルオーディオパッチ24から出力された収音信号に対して所定の遅延処理を行い、筐体101の周囲所定方位(領域201〜204のいずれか)に強い指向性を有する収音ビーム信号MB1,MB2を生成する。収音ビーム信号MB1,MB2は、同じ領域の音声を異なる感度で収音したものである。なお、通常モード時、VADモード時ともに同じ領域(領域201〜204のいずれか)を収音するため、各収音信号に付与する遅延量は、通常モード時、VADモード時にかかわらず同じ値である。
収音ビーム生成部25は、通常モード時には、収音ビーム信号MBをFIFOメモリ26、および音声検出器27に出力する。また、VADモード時の収音ビーム生成部25A,25Bは、収音ビーム信号MB1、MB2をそれぞれ機能的に分割されたFIFOメモリ26A,26Bに出力する。また、収音ビーム生成部25A,25Bは、収音ビーム信号MB1、およびMB2を音声検出器27に出力する。
FIFOメモリ26は、入力された収音ビーム信号MBを順次格納する。FIFOメモリ26は、格納した収音ビーム信号MBを過去のものから順次エンコーダ29に出力する。出力タイミング(周期)は制御部28により指定される。これにより収音ビーム信号MBは、FIFOメモリ26に所定時間分バッファされる。VADモード時のFIFOメモリ26A,26Bは、入力された収音ビーム信号MB1、MB2をそれぞれ順次格納し、収音ビーム信号MB1、MB2をそれぞれ過去のものから順次エンコーダ29に出力する。この場合も出力タイミング(周期)は制御部28により指定される。これにより収音ビーム信号MB1、MB2は、FIFOメモリ26A,26Bに所定時間分バッファされる。
音声検出器27は、入力された収音ビーム信号MBの信号レベルを検出する。音声検出器27は、検出した信号レベルから有音、無音の判定を行う。すなわち、音声検出器27は、収音ビーム信号の信号レベルが所定の閾値未満から閾値以上に変化した場合(信号レベルが閾値以上となった時)、無音→有音と判定する。一方で、音声検出器27は、収音ビーム信号の信号レベルが所定の閾値以上から閾値未満となった場合、閾値未満となる時間が所定時間以上続く場合にのみ有音→無音と判定する。閾値未満となった時間が所定時間よりも少ない場合は、有音が継続していると判断する。判定結果は制御部28に出力される。
また、音声検出器27は、VADモード時に入力された収音ビーム信号MB1、MB2の信号レベルをそれぞれ検出する。音声検出器27は、高感度の収音ビーム信号MB1の信号レベルから有音、無音の判定を行う。判定結果は制御部28に出力される。
エンコーダ29は、通常モード時には、FIFOメモリ26から入力された収音ビーム信号MBを音声圧縮し、入出力I/F21に出力する。音声圧縮方式はどのような方式に基づいてもよいが、例えばITU−T G.711に基づく。
また、エンコーダ29は、VADモード時には、FIFOメモリ26A,26Bから入力された収音ビーム信号MB1,MB2のいずれかを音声圧縮し、入出力I/F21に出力する。収音ビーム信号MB1,MB2のどちらを圧縮して出力するかは制御部28により設定される。また、エンコーダ29は、制御部28により、音声圧縮の有無が設定される。すなわち、制御部28は、音声検出器27から有音、無音の判定を受信し、無音と判定された場合に、エンコーダ29で音声圧縮をせずに、入出力I/F21に圧縮音声を出力しないように設定する。
収音ビーム信号MB1,MB2は、FIFOメモリ26A,26Bに所定時間分バッファされるため、制御部28が音声検出器27から無音→有音の判定結果を受信してエンコーダ29に有音圧縮に切り換え指示を行ったとき、立上がり時の音声が途切れることはない。
しかし、全てのマイク感度が低く、収音ビーム信号MB1、MB2の信号レベルが低すぎる場合は音声検出器27が無音→有音の判定を行うことができず、有音、無音判定閾値を下げた場合には本来無音である場合も有音と判定してしまう。一方でマイク感度が高く、収音ビーム信号MB1、MB2の信号レベルが高すぎる場合は、許容入力限界を超えてしまう(クリップする)。
そこで、本実施形態の収音装置は、VADモード時には、デジタルオーディオパッチ24により、マイクアレイのマイク個数、配置を変更し、高感度用の収音ビーム生成部、低感度用の収音ビーム生成部を設定することで、無音→有音を確実に検出しつつ、無音→有音時に大きな音が入力された場合にクリップを防止する。
この収音装置の具体的な動作について説明する。図3は、マイク個数、マイク配置を示す概念図であり、図4は、マイクアレイが音声を収音する収音領域を示した図である。図3(A)は、VADモード時の処理系統を示した図であり、収音信号S1,S3,S5,およびS7を収音ビーム生成部25Bに、収音信号S2,S4,S6,およびS8を収音ビーム生成部25Aに入力する。図3(B)は、通常モード時の処理系統を示した図であり、収音信号S1〜S8を全て収音ビーム生成部25に入力する例を示した図である。制御部28は、音声検出器27から安定して(所定の時間以上)クリップが無く、有音の判定結果が入力されている場合、この図3(B)の通常モード時の設定を行う。
通常モード時には、デジタルオーディオパッチ24は、マイク11〜18の入力系統を全て収音ビーム生成部25に接続するように設定する。A/Dコンバータ23は、マイク11〜18からの入力系統を全て高ゲインに設定し、収音信号S1〜S8を高レベルで出力する。これらの設定は、制御部28により指示される。
収音ビーム生成部25は、高レベルの収音信号S1〜S8を合成し、高レベルの収音ビーム信号MBを生成する。この例において収音ビーム信号MBは、例えば図4(B)に示すように、領域202の音声を収音する。収音ビーム信号MBは、FIFOメモリ26に入力される。制御部28は、FIFOメモリ26の出力タイミングを設定し、FIFOメモリ26はバッファした収音ビーム信号MBをエンコーダ29に出力する。
また、収音ビーム信号MBは、音声検出器27に入力される。音声検出器27は、入力された収音ビーム信号MBの信号レベルを検出し、有音、無音の判定を行う。有音、無音の判定結果は制御部28に出力される。
制御部28は、音声検出器27から有音の判定結果が入力された場合、エンコーダ29に対し、収音ビーム信号MBを音声圧縮して出力するように設定する。この通常モード時において、制御部28は、音声検出器27から有音→無音の判定結果が入力された場合、VADモードに移行し、収音ビーム生成部25、およびFIFOメモリ26を2分割し、A/Dコンバータ23、およびデジタルオーディオパッチ24に以下のような設定を行うよう指示する。
デジタルオーディオパッチ24は、マイク11、マイク13、マイク15、およびマイク17からの入力系統を収音ビーム生成部25Bに接続し、マイク12、マイク14、マイク16、およびマイク18からの入力系統を収音ビーム生成部25Aに接続するように設定する。
A/Dコンバータ23は、マイク11、マイク13、マイク15、およびマイク17からの入力系統を低ゲインに設定し、収音信号S1,S3,S5,S7を低レベルで出力する。また、A/Dコンバータ23は、マイク12、マイク14、マイク16、およびマイク18からの入力系統を高ゲインに設定し、収音信号S2,S4,S6,S8を高レベルで出力する。
収音ビーム生成部25Aは、高レベルの収音信号S2,S4,S6,S8を合成し、高レベルの収音ビーム信号MB1を生成する。また、収音ビーム生成部25Bは、低レベルの収音信号S1,S3,S5,S7を合成し、低レベルの収音ビーム信号MB2を生成する。ここで、収音ビーム信号MB1と収音ビーム信号MB2は、図4(A)に示すように、それぞれ同じ領域(同図においては領域202)の音声を収音する。
収音ビーム信号MB1は、FIFOメモリ26Aに入力され、収音ビーム信号MB2は、FIFOメモリ26Bに入力される。制御部28は、FIFOメモリ26A、およびFIFOメモリ26Bの出力タイミングを設定し、FIFOメモリ26A、およびFIFOメモリ26Bはバッファした収音ビーム信号MB1、および収音ビーム信号MB2をエンコーダ29に出力する。
また、収音ビーム信号MB1、および収音ビーム信号MB2は、音声検出器27に入力される。音声検出器27は、上述したように、入力された収音ビーム信号MB1、収音ビーム信号MB2の信号レベルをそれぞれ検出し、有音、無音の判定を行う。ここで、音声検出器27は、通常時には高レベルの収音ビーム信号MB1の信号レベルから有音、無音の判定を行い、判定結果を制御部28に出力する。この高レベルの収音ビーム信号MB1の信号レベルがクリップした場合(許容入力限界を超えた場合)、クリップした旨の結果を制御部28に出力する。
制御部28は、音声検出器27から無音の判定結果が入力されている場合には、エンコーダ29に対し、音声圧縮をせずに、圧縮音声を出力しないように設定する。一方、制御部28は、音声検出器27からクリップが無く、有音の判定結果が入力された場合、エンコーダ29に対し、高レベルの収音ビーム信号MB1を音声圧縮して出力するように設定する。また、制御部28は、音声検出器27からクリップが有り、有音の判定結果が入力された場合、エンコーダ29に対し、低レベルの収音ビーム信号MB2を音声圧縮して出力するように設定する。さらに、制御部28は、音声検出器27から安定して(所定の時間以上)クリップが無く、有音の判定結果が入力されている場合、VADモードから通常モードに移行する。
以上のようにして、音声検出器27は、高レベルの収音ビーム信号MB1の信号レベルより、無音→有音を確実に検出することができる。また、無音→有音時に大きな音が入力された場合には、制御部28がエンコーダ29に低レベルの収音ビーム信号MB2を音声圧縮して出力するように設定するので、外部には音割れ等のない音声が出力されることとなる。無論、FIFOメモリ26A,およびFIFOメモリ26Bにより収音ビーム信号MB1、および収音ビーム信号MB2がバッファされているため、制御部28が無音→有音の判定結果を受信してエンコーダ29に有音圧縮への切り換え指示を行ったとき、立上がり時の音声が途切れることはない。
また、音声検出器27が安定して(所定の時間以上)クリップが無く、有音の判定結果を出力している場合、通常モードに移行して、全てのマイク11〜18を用いて収音ビームを生成するため、音質が向上し、発話者の音声を確実に収音する。音声検出器27が有音→無音の判定結果を出力した場合、制御部28は、VADモードに移行するため、無音圧縮を行う場合には、高レベルの収音ビーム信号と低レベルの収音ビーム信号により無音→有音を確実に判定しながらクリップを防止することができ、有音圧縮を行う場合には全マイクの高音質の収音ビーム信号により発話者の音声を確実に収音、出力することができる。
なお、上記例では、制御部28がA/Dコンバータ23の各入出力系統のゲインを個別に設定することで、高レベルの収音ビーム信号と低レベルの収音ビーム信号を生成する例について示したが、A/Dコンバータ23の全系統について同じゲインを設定するようにしてもよい。この場合、収音ビーム生成部25Aと収音ビーム生成部25Bとでゲイン(各収音信号に対する出力信号のレベル)が異なるように設定すればよい。同じレベルの収音信号が入力されても、収音ビーム生成部25Aは高レベルの収音ビーム信号を出力し、収音ビーム生成部25は低レベルの収音ビーム信号を出力すればよい。
本実施形態に係る収音装置のマイク配置を示す平面図を示す図 本実施形態の収音装置の構成を示すブロック図 マイク個数、マイク配置を示す概念図 マイクアレイが音声を収音する収音領域を示した図
符号の説明
101−筐体
11〜18−マイク
21−入出力I/F
22−収音用アンプ
23−A/Dコンバータ
24−デジタルオーディオパッチ
25A,25B−収音ビーム生成部
26A,26B−FIFOメモリ
27−音声検出器
28−制御部
29−エンコーダ

Claims (5)

  1. 複数のマイクを配列してなるマイクアレイと、
    前記複数のマイクが収音した音声信号を入力し、後段に分配出力する信号分配手段と、
    前記信号分配手段が分配出力した音声信号毎に、同じ領域に強い指向性を有する収音ビーム信号をそれぞれ生成する複数の収音信号処理手段と、
    前記複数の収音信号処理手段が生成する収音ビーム信号の感度をそれぞれ高感度、または低感度に設定するレベル設定手段と、
    前記複数の収音信号処理手段が生成した収音ビーム信号をそれぞれ格納する複数のメモリと、
    前記複数の収音信号処理手段が生成した収音ビーム信号の信号レベルを検出し、有音、無音を判定するとともに、許容入力限界を超える高感度の収音ビーム信号を検出する音声判定部と、
    前記複数のメモリに格納されている収音ビーム信号を読み出し、いずれかを選択して出力するセレクタと、
    前記音声判定部が許容入力限界を超える高感度の収音ビーム信号を検出していないとき、無音から有音に判定を変更したタイミングで、前記セレクタに、前記複数のメモリに格納されている収音ビーム信号のうち、読み出しする収音ビーム信号を高感度の収音ビーム信号に切り替えさせ、高感度の収音ビーム信号を出力するように設定し、
    前記音声判定部が許容入力限界を超える高感度の収音ビーム信号を検出しているとき、無音から有音に判定を変更したタイミングで、前記セレクタに、前記複数のメモリに格納されている収音ビーム信号のうち、読み出しする収音ビーム信号を低感度の収音ビーム信号に切り替えさせ、低感度の収音ビーム信号を出力するように設定する制御部と、
    を備えた収音装置。
  2. 前記制御部は、前記音声判定部が所定時間以上有音判定を行っている場合、
    前記信号分配手段に、全てのマイクが収音した音声信号を単一の収音信号処理手段に出力するよう指示し、
    前記レベル設定手段に、前記収音信号処理手段が生成する収音ビーム信号を高感度に設定するよう指示し、
    前記セレクタに、高感度の収音ビーム信号を出力するように指示する通常出力処理を行う請求項1に記載の収音装置。
  3. 前記制御部は、前記音声判定部が有音から無音に判定を変更したときに、前記通常出力処理から、
    前記信号分配手段に、音声信号を複数の信号処理手段に分配出力するよう指示し、
    前記レベル設定手段に、収音信号処理手段が生成する収音ビーム信号の感度をそれぞれ高感度、または低感度に設定するよう指示し、
    前記セレクタに、前記音声判定部が許容入力限界を超える高感度の収音ビーム信号を検出していないとき、無音から有音に判定を変更したタイミングで、高感度の収音ビーム信号を出力するように設定し、
    前記音声判定部が許容入力限界を超える高感度の収音ビーム信号を検出しているとき、無音から有音に判定を変更したタイミングで、低感度の収音ビーム信号を出力するように設定する検出モードへ処理を変更する請求項2に記載の収音装置。
  4. 前記レベル設定手段は、前記複数のマイクが収音した音声信号のレベルを変更して前記収音信号処理手段に入力させることにより収音ビーム信号をそれぞれ高感度、または低感度に設定する請求項1、請求項2、または請求項3に記載の収音装置。
  5. 前記レベル設定手段は、前記収音信号処理手段の入力、出力レベル比を変更することにより収音ビーム信号をそれぞれ高感度、または低感度に設定する請求項1、請求項2、または請求項3に記載の収音装置。
JP2006214691A 2006-08-07 2006-08-07 収音装置 Active JP4893146B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2006214691A JP4893146B2 (ja) 2006-08-07 2006-08-07 収音装置
PCT/JP2007/065173 WO2008018362A1 (fr) 2006-08-07 2007-08-02 dispositif de collecte sonore
EP07805894A EP2059065A1 (en) 2006-08-07 2007-08-02 Sound collection device
US12/376,682 US8103018B2 (en) 2006-08-07 2007-08-02 Sound pickup apparatus
CN2007800294126A CN101502129B (zh) 2006-08-07 2007-08-02 声音收集设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006214691A JP4893146B2 (ja) 2006-08-07 2006-08-07 収音装置

Publications (2)

Publication Number Publication Date
JP2008042549A JP2008042549A (ja) 2008-02-21
JP4893146B2 true JP4893146B2 (ja) 2012-03-07

Family

ID=39032894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006214691A Active JP4893146B2 (ja) 2006-08-07 2006-08-07 収音装置

Country Status (5)

Country Link
US (1) US8103018B2 (ja)
EP (1) EP2059065A1 (ja)
JP (1) JP4893146B2 (ja)
CN (1) CN101502129B (ja)
WO (1) WO2008018362A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010245657A (ja) * 2009-04-02 2010-10-28 Sony Corp 信号処理装置及び方法、並びにプログラム
US9813262B2 (en) 2012-12-03 2017-11-07 Google Technology Holdings LLC Method and apparatus for selectively transmitting data using spatial diversity
CN108769883B (zh) * 2012-12-17 2021-09-14 联想(北京)有限公司 头戴式电子设备和声音采集方法
US9591508B2 (en) 2012-12-20 2017-03-07 Google Technology Holdings LLC Methods and apparatus for transmitting data between different peer-to-peer communication groups
US9979531B2 (en) 2013-01-03 2018-05-22 Google Technology Holdings LLC Method and apparatus for tuning a communication device for multi band operation
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
CN104066036A (zh) 2014-06-19 2014-09-24 华为技术有限公司 拾音装置及拾音方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335011A (en) 1993-01-12 1994-08-02 Bell Communications Research, Inc. Sound localization system for teleconferencing using self-steering microphone arrays
JPH10116099A (ja) * 1996-10-11 1998-05-06 Olympus Optical Co Ltd 音声起動録音装置
JP4248636B2 (ja) * 1998-10-30 2009-04-02 オリンパス株式会社 音声録音装置
DE1239698T1 (de) * 1999-12-13 2003-04-10 Kabushiki Kaisha Kenwood, Tokio/Tokyo Optischer elektroakustischer wandler
US20030161485A1 (en) * 2002-02-27 2003-08-28 Shure Incorporated Multiple beam automatic mixing microphone array processing via speech detection
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
US7190775B2 (en) * 2003-10-29 2007-03-13 Broadcom Corporation High quality audio conferencing with adaptive beamforming
JP2005266411A (ja) 2004-03-19 2005-09-29 Matsushita Electric Ind Co Ltd 音声圧縮方法および電話器
US7991167B2 (en) * 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
JP4747949B2 (ja) * 2006-05-25 2011-08-17 ヤマハ株式会社 音声会議装置
JP2008154056A (ja) * 2006-12-19 2008-07-03 Yamaha Corp 音声会議装置および音声会議システム

Also Published As

Publication number Publication date
US20100046763A1 (en) 2010-02-25
WO2008018362A1 (fr) 2008-02-14
CN101502129A (zh) 2009-08-05
JP2008042549A (ja) 2008-02-21
US8103018B2 (en) 2012-01-24
CN101502129B (zh) 2012-11-14
EP2059065A1 (en) 2009-05-13

Similar Documents

Publication Publication Date Title
JP4893146B2 (ja) 収音装置
US11190872B2 (en) Signal processing system and signal processing meihod
JP5003531B2 (ja) 音声会議システム
EP1400814A3 (en) Directional setting apparatus, directional setting system, directional setting method and directional setting program
AU2007221816B2 (en) Estimating own-voice activity in a hearing-instrument system from direct-to-reverberant ratio
TW200514022A (en) Acoustic processing system, acoustic processing device, acoustic processing method, acoustic processing program, and storage medium
JP2008193420A (ja) ヘッドフォン装置、音声再生システム、音声再生方法
WO2005032206A3 (en) Adjustable speaker systems and methods
WO2007018802A3 (en) Method and system for operation of a voice activity detector
JPH07336790A (ja) マイクロホンシステム
US8731212B2 (en) Sound collecting device, acoustic communication system, and computer-readable storage medium
JP2007181099A (ja) 放収音装置
US8054999B2 (en) Audio system with varying time delay and method for processing audio signals
JP2007318550A (ja) 放収音装置
EP1357543A3 (en) Beamformer delay compensation during handsfree speech recognition
JP2008061186A (ja) 指向特性制御装置、収音装置および収音システム
JP2008048342A (ja) 収音装置
US20230247361A1 (en) Sound collection system, sound collection method, and non-transitory storage medium
JP2008294600A (ja) 放収音装置、および放収音システム
JP5024010B2 (ja) 音声会議用システム
JP2006114990A (ja) 音響装置
JP4760795B2 (ja) 拡声システム
JP4052313B2 (ja) 音声入出力装置
JP2003316382A (ja) 音声入力装置、音声入力方法及びそのプログラム
JP2008032933A (ja) 音声通信装置、および音声通信システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111102

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

R150 Certificate of patent or registration of utility model

Ref document number: 4893146

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532