JP7370014B2 - 収音装置、収音方法、及びプログラム - Google Patents
収音装置、収音方法、及びプログラム Download PDFInfo
- Publication number
- JP7370014B2 JP7370014B2 JP2020525268A JP2020525268A JP7370014B2 JP 7370014 B2 JP7370014 B2 JP 7370014B2 JP 2020525268 A JP2020525268 A JP 2020525268A JP 2020525268 A JP2020525268 A JP 2020525268A JP 7370014 B2 JP7370014 B2 JP 7370014B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- noise
- noise source
- source
- collection device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000012545 processing Methods 0.000 claims description 32
- 238000012795 verification Methods 0.000 claims description 29
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 96
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
Landscapes
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
特許文献1の信号処理装置は、収音信号の振幅スペクトルに含まれたノイズレベルからノイズ源の方向を特定している。しかし、ノイズレベルだけではノイズ源の方向を精度良く特定することは難しい。本開示の収音装置は、カメラから取得した画像データとマイクアレイから取得した音響信号の少なくともいずれか一方を、雑音源又は目的音源の特徴量を示すデータと照合することによって、雑音源の方向を特定する。これにより、精度良く雑音源の方向を特定して、特定した方向から到来する雑音を信号処理によって抑圧することができる。雑音を精度良く抑圧することによって、目的音の収音の精度が向上する。
以下、実施形態について、図面を参照しながら説明する。本実施形態では、人物の音声を目的音として収音する例について説明する。
図1は、本開示の収音装置の構成を示している。収音装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60を備える。収音装置1は、例えば、会議中の人の音声を収音する。本実施形態において、収音装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60が一体化された専用の収音機である。
2.1 信号処理の概要
図3は、収音装置1が、周囲にある目的音源が発する目的音と雑音源が発する雑音を収音する例を模式的に示している。図4は、目的音を強調し且つ雑音を抑圧する信号処理の一例を示している。図4の横軸は、目的音及び雑音が到来する方向、すなわち収音装置1に対する目的音源及び雑音源の角度を示す。図4の縦軸は、音響信号のゲインを示す。図3に示すように、収音装置1の周囲に雑音源があると、マイクアレイ20は雑音を含む音響信号を出力する。よって、本実施形態の収音装置1は、図4に示すように、雑音源方向に対して、ビームフォーム処理により死角を形成する。すなわち、収音装置1は、音響信号に対して雑音を抑圧するような信号処理を行う。これにより、精度良く目的音を収音することができる。収音装置1は、さらに、音響信号に対して目的音源方向から到来する音を強調するような信号処理を行う。これにより、より精度良く目的音を収音することができる。
図5は、制御部30による収音動作を示している。
図7から図11を参照して、雑音源方向の推定について説明する。図7は、雑音源方向の推定(S1)の詳細を示している。図7において、ステップS11に示す非目的物の検出と、ステップS12に示す雑音の検出の順序は、逆であってもよい。
図12から図15を参照して、目的音源方向の推定について説明する。図12は、目的音源方向の推定(S2)の詳細を示している。図12において、ステップS21における目的物の検出とステップS22における音源の検出の順序は、逆であってもよい。
雑音源方向(θn,φn)と目的音源方向(θt,φt)が決定された後のビームフォーム部33によるビームフォーム処理(S3)について説明する。ビームフォーム処理の方法は任意である。一例として、ビームフォーム部33は、一般化サイドローブキャンセラ(GSC)を利用する(電子情報通信学会技術研究報告、No.DSP2001-108、ICD2001-113、IE2001-92、pp.61-68、October,2001.「一般化サイドローブキャンセラを用いた2チャンネルマイクロホンアレーにおける適応話者追尾アルゴリズムの提案」を参照)。図16は、一般化サイドローブキャンセラ(GSC)を利用したビームフォーム部33の機能的構成を示している。
本実施形態の収音装置1は、入力部と、記憶部40と、制御部30とを備える。カメラ10及びマイクアレイ20を内蔵する収音装置1における入力部は、制御部30である。入力部は、マイクアレイ20から出力される音響信号とカメラ10によって生成された画像データを入力する。記憶部40は、雑音源となる非目的物の画像特徴量を示す非目的物データ41aと、雑音源が出力する雑音の音響特徴量を示す雑音データ41bを記憶する。制御部30は、画像データを非目的物データ41aと照合する第1の照合(S113)と、音響信号を雑音データ41bと照合する第2の照合(S123)を行うことによって、雑音源の方向を特定する(S133)。制御部30は、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う(S3)。
本実施形態では、判定領域r(θn,φn)の方向に雑音源があるか否かの判定が第1実施形態と異なる。第1実施形態では、非目的物検出部32aは、類似度P(θn,φn|v)を所定値と比較して、判定領域r(θn,φn)内の画像が非目的物か否かを判定した。雑音検出部32bは、類似度P(θn,φn|s)を所定値と比較して、判定領域r(θn,φn)の方向から到来する音が雑音か否かを判定した。雑音源方向決定部32cは、非目的物であり且つ雑音である場合に、判定領域r(θn,φn)の方向に雑音源があると判断した。
本実施形態は、照合するデータが第1実施形態と異なる。第1実施形態では、記憶部40には、雑音源の特徴量を示す雑音源データ41が格納され、雑音源方向推定部32は雑音源データ41を用いて、雑音源方向を推定した。本実施形態では、記憶部40には、目的音源の特徴量を示す目的音源データが格納され、雑音源方向推定部32は目的音源データを用いて、雑音源方向を推定する。
以上のように、本出願において開示する技術の例示として、第1~第3実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。そこで、以下、他の実施形態を例示する。
(1)本開示の収音装置は、雑音を抑圧して収音する収音装置であって、カメラによって生成された画像データを入力する第1の入力部と、マイクアレイから出力される音響信号を入力する第2の入力部と、雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータを記憶する記憶部と、画像データを第1のデータと照合する第1の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う制御部と、を備える。
10 カメラ
20 マイクアレイ
30 制御部
31 目的音源方向推定部
31a 目的物検出部
31b 音源検出部
31c 目的音源方向決定部
32 雑音源方向推定部
32a 非目的物検出部
32b 雑音検出部
32c 雑音源方向決定部
33 ビームフォーム部
40 記憶部
50 入出力インタフェース部
60 バス
Claims (17)
- 雑音を抑圧して収音する収音装置であって、
カメラによって生成された画像データを入力する第1の入力部と、
マイクアレイから出力される音響信号を入力する第2の入力部と、
雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータと、前記物体から出力される音の特徴量を示す第2のデータとを記憶する記憶部と、
前記画像データを前記第1のデータと照合する第1の照合と前記音響信号を前記第2のデータと照合する第2の照合とを行い、前記第1の照合の結果と前記第2の照合の結果とに基づいて、前記雑音源の方向を特定し、特定した前記雑音源の方向から到来する音を抑圧するような信号処理を前記音響信号に対して行う制御部と、
を備える、収音装置。 - 前記制御部は、前記第1の照合の結果と前記第2の照合の結果とに基づいて、前記目的音源の方向を特定し、特定した前記目的音源の方向から到来する音を強調するような信号処理を前記音響信号に対して行う、
請求項1に記載の収音装置。 - 前記第1のデータは、前記雑音源となる物体の画像の特徴量を示し、
前記制御部は、前記第1の照合を行い、前記画像データから前記物体と類似する物体を検出したときに、検出した前記物体の方向を前記雑音源の方向として特定する、
請求項1に記載の収音装置。 - 前記第1のデータは、前記目的音源となる物体の画像の特徴量を示し、
前記制御部は、前記第1の照合を行い、前記画像データから前記物体と類似していない物体を検出したときに、検出した前記物体の方向を前記雑音源の方向として特定する、
請求項1に記載の収音装置。 - 前記制御部は、前記第1の照合において、前記画像データを複数の判定領域に分割し、各判定領域内の画像を前記第1のデータと照合して、検出した前記物体を含む判定領域の前記画像データ内における位置に基づいて前記雑音源の方向を特定する、
請求項3又は請求項4に記載の収音装置。 - 前記第2のデータは、前記雑音源から出力される雑音の特徴量を示し、
前記制御部は、前記第2の照合を行い、前記音響信号から前記雑音と類似する音を検出したときに、検出した前記音が到来する方向を前記雑音源の方向として特定する、
請求項2に記載の収音装置。 - 前記第2のデータは、前記目的音源から出力される目的音の特徴量を示し、
前記制御部は、前記第2の照合を行い、前記音響信号から前記目的音と類似していない音を検出したときに、検出した前記音が到来する方向を前記雑音源の方向として特定する、
請求項2に記載の収音装置。 - 前記制御部は、前記第2の照合において、複数の判定方向の各々に指向性を向けて前記音響信号を収音し、収音した前記音響信号を前記第2のデータと照合して、前記音を検出した判定方向を前記雑音源の方向として特定する、
請求項6又は請求項7に記載の収音装置。 - 前記第1の照合と前記第2の照合のいずれか一方において前記雑音源の方向を特定できたときに、前記雑音源の方向から到来する音を抑圧する、
請求項2に記載の収音装置。 - 前記第1の照合と前記第2の照合の両方において前記雑音源の方向を特定できたときに、前記雑音源の方向から到来する音を抑圧する、
請求項2に記載の収音装置。 - 前記第1の照合によって前記雑音源が存在する第1の確度を算出し、且つ、前記第2の照合によって前記雑音源が存在する第2の確度を算出し、前記第1の確度と前記第2の確度に基づいて算出される算出値が所定の閾値以上のときに、前記雑音源の方向を特定し、特定した前記雑音源の方向から到来する音を抑圧する、
請求項2に記載の収音装置。 - 前記制御部は、前記画像データを複数の判定領域に分割し、各判定領域に対して前記算出値を算出し、前記算出値が所定の閾値以上である判定領域に対応する角度を雑音源方向として特定する、
請求項11に記載の収音装置。 - 前記算出値は、前記第1の確度と前記第2の確度の積、和、重み付き積、および、重み付き和のいずれかである、
請求項11に記載の収音装置。 - 前記制御部は、前記画像データと前記音響信号とに基づいて、前記目的音源が存在する目的音源方向を決定して、前記目的音源方向から到来する音を強調するような信号処理を前記音響信号に対して行う、
請求項1から請求項13のいずれかに記載の収音装置。 - 前記カメラ及び前記マイクアレイのうちの少なくとも一方を備える、
請求項1に記載の収音装置。 - 演算部により雑音を抑圧して収音する収音方法であって、
カメラによって生成された画像データを入力するステップと、
マイクアレイから出力される音響信号を入力するステップと、
雑音源又は目的音源を示す物体の画像の特徴量を示す第1のデータと、前記物体から出力される音の特徴量を示す第2のデータとを取得するステップと、
前記画像データを前記第1のデータと照合する第1の照合と前記音響信号を前記第2のデータと照合する第2の照合とを行い、前記第1の照合の結果と前記第2の照合の結果とに基づいて、前記雑音源の方向を特定し、特定した前記雑音源の方向から到来する音を抑圧するような信号処理を前記音響信号に対して行うステップと、
を含む、収音方法。 - コンピュータに請求項16に記載の収音方法を実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018112160 | 2018-06-12 | ||
JP2018112160 | 2018-06-12 | ||
PCT/JP2019/011503 WO2019239667A1 (ja) | 2018-06-12 | 2019-03-19 | 収音装置、収音方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019239667A1 JPWO2019239667A1 (ja) | 2021-07-08 |
JP7370014B2 true JP7370014B2 (ja) | 2023-10-27 |
Family
ID=68842854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020525268A Active JP7370014B2 (ja) | 2018-06-12 | 2019-03-19 | 収音装置、収音方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11375309B2 (ja) |
JP (1) | JP7370014B2 (ja) |
WO (1) | WO2019239667A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6935425B2 (ja) * | 2016-12-22 | 2021-09-15 | ヌヴォトンテクノロジージャパン株式会社 | ノイズ抑圧装置、ノイズ抑圧方法、及びこれらを用いた受信装置、受信方法 |
WO2021124537A1 (ja) * | 2019-12-20 | 2021-06-24 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
EP4115404A1 (en) * | 2020-03-06 | 2023-01-11 | Cerence Operating Company | System and method for integrated emergency vehicle detection and localization |
JP2022119582A (ja) * | 2021-02-04 | 2022-08-17 | 株式会社日立エルジーデータストレージ | 音声取得装置および音声取得方法 |
CN114255733B (zh) * | 2021-12-21 | 2023-05-23 | 中国空气动力研究与发展中心低速空气动力研究所 | 自噪声掩蔽系统及飞行设备 |
WO2023149254A1 (ja) * | 2022-02-02 | 2023-08-10 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声信号処理装置、音声信号処理方法及び音声信号処理プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039267A (ja) | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006039447A (ja) | 2004-07-30 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2014153663A (ja) | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
US20150365759A1 (en) | 2014-06-11 | 2015-12-17 | At&T Intellectual Property I, L.P. | Exploiting Visual Information For Enhancing Audio Signals Via Source Separation And Beamforming |
US20180176680A1 (en) | 2016-12-21 | 2018-06-21 | Laura Elizabeth Knight | Systems and methods for audio detection using audio beams |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5060631B1 (ja) | 2011-03-31 | 2012-10-31 | 株式会社東芝 | 信号処理装置及び信号処理方法 |
CN103310339A (zh) * | 2012-03-15 | 2013-09-18 | 凹凸电子(武汉)有限公司 | 身份识别装置和方法以及支付系统和方法 |
-
2019
- 2019-03-19 WO PCT/JP2019/011503 patent/WO2019239667A1/ja active Application Filing
- 2019-03-19 JP JP2020525268A patent/JP7370014B2/ja active Active
-
2020
- 2020-12-09 US US17/116,192 patent/US11375309B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039267A (ja) | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006039447A (ja) | 2004-07-30 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2014153663A (ja) | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
US20150365759A1 (en) | 2014-06-11 | 2015-12-17 | At&T Intellectual Property I, L.P. | Exploiting Visual Information For Enhancing Audio Signals Via Source Separation And Beamforming |
US20180176680A1 (en) | 2016-12-21 | 2018-06-21 | Laura Elizabeth Knight | Systems and methods for audio detection using audio beams |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019239667A1 (ja) | 2021-07-08 |
US11375309B2 (en) | 2022-06-28 |
WO2019239667A1 (ja) | 2019-12-19 |
US20210120333A1 (en) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7370014B2 (ja) | 収音装置、収音方法、及びプログラム | |
JP7233035B2 (ja) | 収音装置、収音方法、及びプログラム | |
CN112088315B (zh) | 多模式语音定位 | |
EP3791390B1 (en) | Voice identification enrollment | |
CN106653041B (zh) | 音频信号处理设备、方法和电子设备 | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
US11158333B2 (en) | Multi-stream target-speech detection and channel fusion | |
US9881610B2 (en) | Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities | |
JP7194897B2 (ja) | 信号処理装置及び信号処理方法 | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
US11790900B2 (en) | System and method for audio-visual multi-speaker speech separation with location-based selection | |
JP6888627B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US11443760B2 (en) | Active sound control | |
Nakadai et al. | Footstep detection and classification using distributed microphones | |
US11114108B1 (en) | Acoustic source classification using hyperset of fused voice biometric and spatial features | |
Wang et al. | Real-time automated video and audio capture with multiple cameras and microphones | |
Choi et al. | Real-time audio-visual localization of user using microphone array and vision camera | |
Ishi et al. | Sound interval detection of multiple sources based on sound directivity | |
Aubrey et al. | Study of video assisted BSS for convolutive mixtures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231006 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7370014 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |