JP7060905B1 - Sound collection system, sound collection method and program - Google Patents
Sound collection system, sound collection method and program Download PDFInfo
- Publication number
- JP7060905B1 JP7060905B1 JP2022502563A JP2022502563A JP7060905B1 JP 7060905 B1 JP7060905 B1 JP 7060905B1 JP 2022502563 A JP2022502563 A JP 2022502563A JP 2022502563 A JP2022502563 A JP 2022502563A JP 7060905 B1 JP7060905 B1 JP 7060905B1
- Authority
- JP
- Japan
- Prior art keywords
- sound
- signal
- sound source
- beam former
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 230000005236 sound signal Effects 0.000 claims abstract description 75
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 230000007423 decrease Effects 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000013016 damping Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
収音システムSは、複数のマイクロフォン2を含むマイクロホンアレイ1と、複数のマイクロフォン2に到来した音に基づく複数の音信号のうち第1範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第1信号を出力する第1ビームフォーマ152と、複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第2信号を出力する第2ビームフォーマ153と、複数のマイクロフォン2に到来した音を発した音源方向を検出する音源方向検出部151と、第1ビームフォーマ152が第1信号を出力している間に、音源方向検出部151が検出した音源の方向の単位時間あたりの変化角度が閾値以上と判定した場合、第2ビームフォーマ153に第2信号を出力させる指向性制御部155と、を有する。The sound collecting system S includes a microphone array 1 including a plurality of microphones 2, and a sound signal based on a sound arriving from a direction within the first range among a plurality of sound signals arriving at the plurality of microphones 2. The first beam former 152 that outputs the first signal emphasized more than the sound signal based on the sound coming from the direction, and the other sound signals based on the sound coming from the direction within the second range among the plurality of sound signals. A second beam former 153 that outputs a second signal that is emphasized more than a sound signal based on a sound arriving from a direction, a sound source direction detection unit 151 that detects a sound source direction that emits a sound arriving at a plurality of microphones 2, and a sound source direction detection unit 151. When the change angle per unit time of the direction of the sound source detected by the sound source direction detection unit 151 is determined to be equal to or more than the threshold value while the first beam former 152 is outputting the first signal, the second beam former 153 is subjected to the second. It has a directional control unit 155 that outputs two signals.
Description
本発明は、収音システム、収音方法及びプログラムに関する。 The present invention relates to a sound collecting system, a sound collecting method and a program.
複数のマイクで観測された音声信号の位相差を利用してビームフォーミング処理をすることにより、音源方向に指向性がある状態で収音するためのビームフォーミング処理装置が知られている(例えば、特許文献1を参照)。 A beamforming processing device for collecting sound in a state of directivity in the sound source direction by performing beamforming processing using the phase difference of audio signals observed by a plurality of microphones is known (for example). See Patent Document 1).
従来のビームフォーミング処理装置においては、音源が一つであることが想定されていた。したがって、従来のビームフォーミング処理装置では、1人の話者の方向に指向性がある状態で収音しているときに別の話者が発言すると、別の話者の音声を収音できないという問題が生じていた。 In the conventional beamforming processing device, it was assumed that there was only one sound source. Therefore, in the conventional beamforming processing device, if another speaker speaks while the sound is picked up in a state of directivity in the direction of one speaker, the voice of another speaker cannot be picked up. There was a problem.
そこで、本発明はこれらの点に鑑みてなされたものであり、複数の話者の音声の収音を可能にすることを目的とする。 Therefore, the present invention has been made in view of these points, and an object thereof is to enable sound collection of voices of a plurality of speakers.
本発明の第1の態様に係る収音システムは、複数のマイクロフォンを含むマイクロホンアレイと、前記複数のマイクロフォンに到来した音に基づく複数の音信号のうち第1範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第1信号を出力する第1ビームフォーマと、前記複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第2信号を出力する第2ビームフォーマと、前記複数のマイクロフォンに到来した音を発した音源の方向を検出する音源方向検出部と、前記第1ビームフォーマが前記第1信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第2ビームフォーマに前記第2信号を出力させる指向性制御部と、を有する。 The sound collecting system according to the first aspect of the present invention includes a microphone array including a plurality of microphones and a plurality of sound signals based on the sounds arriving at the plurality of microphones, which are sound arriving from a direction within the first range. A first beam former that outputs a first signal that emphasizes a sound signal based on a sound signal that is based on a sound that arrives from another direction, and a sound that arrives from a direction within the second range of the plurality of sound signals. A second beam former that outputs a second signal that emphasizes the sound signal based on the sound signal that is based on the sound that arrives from another direction, and a sound source that detects the direction of the sound source that emits the sound that arrives at the plurality of microphones. While the direction detection unit and the first beam former output the first signal, it is determined that the change angle per unit time of the direction of the sound source detected by the sound source direction detection unit is equal to or greater than the threshold value. In this case, it has a directional control unit that causes the second beam former to output the second signal.
前記指向性制御部は、前記第1ビームフォーマが前記第1信号を出力している間に、前記音源の方向の単位時間あたりの変化角度が閾値未満であると判定した場合に、前記第1範囲を変更した状態で前記第1ビームフォーマに前記第1信号を継続して出力させてもよい。 When the directivity control unit determines that the change angle per unit time in the direction of the sound source is less than the threshold value while the first beam former outputs the first signal, the first one. The first signal may be continuously output to the first beam former in a state where the range is changed.
前記指向性制御部は、前記第1ビームフォーマが前記第1信号を出力している間に前記変化角度が閾値以上であると判定した場合に、前記第1信号の出力レベルを減少させてもよい。 Even if the directivity control unit reduces the output level of the first signal when it is determined that the change angle is equal to or greater than the threshold value while the first beam former outputs the first signal. good.
前記指向性制御部は、前記変化角度が閾値以上であると判定してからの経過時間に基づく減衰率で前記第1信号の出力レベルを減少させてもよい。 The directivity control unit may reduce the output level of the first signal by an attenuation factor based on the elapsed time from the determination that the change angle is equal to or greater than the threshold value.
前記指向性制御部は、前記第1信号の出力レベルを減少させる間に前記第2信号の出力レベルを増加させてもよい。 The directivity control unit may increase the output level of the second signal while decreasing the output level of the first signal.
前記指向性制御部は、前記第1信号の出力レベルを減少させる変化速度よりも大きい変化速度で前記第2信号の出力レベルを増加させてもよい。 The directivity control unit may increase the output level of the second signal at a rate of change larger than the rate of change that decreases the output level of the first signal.
前記指向性制御部は、前記音源の方向が前記第1範囲に含まれていないと判定した場合に、前記第2ビームフォーマに前記第2信号を出力させてもよい。 When the directivity control unit determines that the direction of the sound source is not included in the first range, the second beam former may output the second signal.
前記指向性制御部は、前記第2ビームフォーマに前記第2信号を出力させる前に、前記音源の方向を含むように前記第2範囲を決定してもよい。 The directivity control unit may determine the second range so as to include the direction of the sound source before causing the second beam former to output the second signal.
前記指向性制御部は、前記第2ビームフォーマが前記第2信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第1ビームフォーマに前記第1信号を出力させてもよい。 The directivity control unit determines that the change angle per unit time of the direction of the sound source detected by the sound source direction detection unit is equal to or greater than the threshold value while the second beam former outputs the second signal. When the determination is made, the first beam former may be made to output the first signal.
前記収音システムは、前記音源方向検出部が検出した前記音源の方向と、ビームフォーマ係数とを関連付けて記憶する記憶部をさらに有し、前記指向性制御部は、前記音源方向検出部が検出した前記音源の方向に関連付けて前記記憶部に記憶された前記ビームフォーマ係数を用いて前記第1ビームフォーマ又は前記第2ビームフォーマに前記第1信号又は前記第2信号を出力させてもよい。 The sound collecting system further has a storage unit that stores the direction of the sound source detected by the sound source direction detection unit in association with the beamformer coefficient, and the directional control unit is detected by the sound source direction detection unit. The first beam former or the second beam former may be made to output the first signal or the second signal by using the beam former coefficient stored in the storage unit in association with the direction of the sound source.
前記記憶部は、前記音源方向検出部が過去に検出した音源の方向と、当該方向に基づいて指向性制御部が過去の算出したビームフォーマ係数と、を関連付けて記憶し、前記指向性制御部は、前記音源方向検出部が新たに検出した音源の方向と前記記憶部が記憶している前記過去に検出した音源の方向とが同じであると判定した場合に、前記過去に検出した音源の方向に関連付けて記憶された前記ビームフォーマ係数を使用してもよい。 The storage unit stores the direction of the sound source previously detected by the sound source direction detection unit and the beam former coefficient calculated in the past by the direction control unit based on the direction, and stores the direction control unit. When it is determined that the direction of the sound source newly detected by the sound source direction detection unit and the direction of the previously detected sound source stored in the storage unit are the same, The beamformer coefficient stored in association with the direction may be used.
本発明の第2の態様に係る収音方法は、複数のマイクロフォンに到来した音に基づく複数の音信号のうち第1範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第1信号を出力するステップと、前記複数のマイクロフォンに到来した音を発した音源の方向を検出するステップと、前記第1信号を出力している間に、前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第2信号を出力するステップと、を有する。 In the sound collecting method according to the second aspect of the present invention, a sound signal based on a sound arriving from a direction within the first range among a plurality of sound signals arriving at a plurality of microphones is arriving from another direction. While outputting the first signal that is emphasized more than the sound signal based on the sound, the step of detecting the direction of the sound source that emitted the sound arriving at the plurality of microphones, and the step of outputting the first signal. When it is determined that the change angle per unit time in the direction of the sound source is equal to or greater than the threshold value, a sound signal based on a sound coming from a direction within the second range of the plurality of sound signals arrives from another direction. It has a step of outputting a second signal that is emphasized more than a sound signal based on the sound.
本発明の第3の態様に係るプログラムは、コンピュータを、複数のマイクロフォンに到来した音に基づく複数の音信号のうち第1範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第1信号を出力する第1ビームフォーマ、前記複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第2信号を出力する第2ビームフォーマ、前記複数のマイクロフォンに到来した音を発した音源の方向を検出する音源方向検出部、及び前記第1ビームフォーマが前記第1信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第2ビームフォーマに前記第2信号を出力させる指向性制御部、として機能させる。 In the program according to the third aspect of the present invention, the computer receives a sound signal based on a sound arriving from a direction within the first range among a plurality of sound signals arriving at a plurality of microphones from another direction. A first beam former that outputs a first signal that is emphasized more than a sound signal based on the sound, and a sound signal based on a sound that arrives from a direction within the second range of the plurality of sound signals arrives from another direction. The second beam former that outputs a second signal that is emphasized more than the sound signal based on sound, the sound source direction detection unit that detects the direction of the sound source that emitted the sound that arrived at the plurality of microphones, and the first beam former When it is determined that the change angle per unit time of the direction of the sound source detected by the sound source direction detection unit is equal to or greater than the threshold value while the first signal is being output, the second beam former is subjected to the second beam former. It functions as a directional control unit that outputs two signals.
本発明によれば、複数の話者の音声の収音を可能にするという効果を奏する。 According to the present invention, there is an effect that the sound of a plurality of speakers can be picked up.
<本実施形態に係る収音システムSの概要>
図1は、本実施形態に係る収音システムSの概要を説明するための図である。図1は、空間Rの側面から空間Rの内部を見た図である。空間Rは、例えば、建物内の部屋であるが、これに限らず、建物内の廊下、ラウンジ、階段スペース等であってもよい。図1に示すように、空間Rの上面には収音システムSが設置されており、空間Rには話者A1、話者A2、及び話者A3が滞在している。図1における音声B1、B2、B3は、それぞれ話者A1、A2、A3が発する音声である。図1においては、収音システムSは空間Rの上面に設置されている。なお、収音システムSは空間Rの側面又は底面に設置されていてもよい。<Overview of the sound collecting system S according to this embodiment>
FIG. 1 is a diagram for explaining an outline of the sound collecting system S according to the present embodiment. FIG. 1 is a view of the inside of the space R from the side surface of the space R. The space R is, for example, a room in the building, but is not limited to this, and may be a corridor, a lounge, a staircase space, or the like in the building. As shown in FIG. 1, a sound collecting system S is installed on the upper surface of the space R, and a speaker A1, a speaker A2, and a speaker A3 are staying in the space R. The voices B1, B2, and B3 in FIG. 1 are voices emitted by the speakers A1, A2, and A3, respectively. In FIG. 1, the sound collecting system S is installed on the upper surface of the space R. The sound collecting system S may be installed on the side surface or the bottom surface of the space R.
収音システムSは、複数のマイクロフォンを含むマイクロホンアレイと、信号処理装置とを有する。信号処理装置は、マイクロホンアレイに到達した音を信号処理する複数のビームフォーマを有する。収音システムSは、複数のビームフォーマそれぞれが検出した音源方向に対応するビームフォーマ係数を用いることでビームフォーミングを行い、複数の指向性マイクロフォンを疑似的に構成する。ビームフォーマ係数については後述する。 The sound collecting system S includes a microphone array including a plurality of microphones and a signal processing device. The signal processing device has a plurality of beam formers that signal-process the sound that reaches the microphone array. The sound collecting system S performs beamforming by using beamforming coefficients corresponding to the sound source directions detected by each of the plurality of beamformers, and pseudo-configures a plurality of directional microphones. The beamformer coefficient will be described later.
図2は、複数の話者が発した複数の音声を収音システムSが収音する動作を時系列で示した図である。図2の横軸は時刻を示している。図2の縦軸に示す「話者A1」、「話者A2」、「話者A3」は、それぞれ話者A1、A2、A3が音声B1、B2、B3を発している期間を示している。図2の縦軸に示す「第1ビームフォーマ」及び「第2ビームフォーマ」は、収音システムSが有する第1ビームフォーマ及び第2ビームフォーマがビームフォーミング処理を実行する期間とビームフォーミング処理により特定した音源方向の音声とを示している。「出力音」は、収音システムSが収音して外部装置に出力する音声を示している。外部装置は、例えば通信ネットワークに接続されたルータ又は記憶媒体を有するコンピュータである。 FIG. 2 is a diagram showing an operation in which the sound collecting system S picks up a plurality of sounds emitted by a plurality of speakers in chronological order. The horizontal axis of FIG. 2 indicates the time. “Speaker A1”, “speaker A2”, and “speaker A3” shown on the vertical axis of FIG. 2 indicate the period during which the speakers A1, A2, and A3 emit voices B1, B2, and B3, respectively. .. The "first beamformer" and "second beamformer" shown on the vertical axis of FIG. 2 are based on the period during which the first beamformer and the second beamformer of the sound source system S execute the beamforming process and the beamforming process. It shows the sound in the specified sound source direction. The “output sound” indicates a sound collected by the sound collecting system S and output to an external device. The external device is, for example, a router or a computer having a storage medium connected to a communication network.
図2に示すように、時刻T1から時刻T3において、話者A1は音声B1を発し、時刻T2から時刻T5において、話者A2は音声B2を発し、時刻T4から時刻T6において話者A3は音声B3を発する。時刻T1において、収音システムSは、音声B1を検出することで、第1ビームフォーマによりビームフォーミング処理を開始し、音声B1の音源方向を特定する。時刻T2において、収音システムSは、音声B1とは異なる方向である音声B2を検出し、第2ビームフォーマによりビームフォーミング処理を開始することで音声B2の音源方向を特定する。時刻T3において、収音システムSは、第1ビームフォーマのビームフォーミング処理を停止する。 As shown in FIG. 2, from time T1 to time T3, speaker A1 emits voice B1, from time T2 to time T5, speaker A2 emits voice B2, and from time T4 to time T6, speaker A3 emits voice. Emit B3. At time T1, the sound collecting system S detects the sound B1 and starts the beamforming process by the first beamformer to specify the sound source direction of the sound B1. At time T2, the sound collecting system S detects the voice B2 in a direction different from that of the voice B1, and starts the beamforming process by the second beamformer to specify the sound source direction of the voice B2. At time T3, the sound collecting system S stops the beamforming process of the first beamformer.
時刻T4において、収音システムSは、音声B3の音源方向を検出し、第1ビームフォーマによるビームフォーミング処理を開始する。時刻T5において、収音システムSは、第2ビームフォーマによるビームフォーミング処理を停止する。その結果、収音システムSは、時刻T1から時刻T2において音声B1を収音し、時刻T2から時刻T3において音声B1と音声B2とを収音する。収音システムSは、時刻T3から時刻T4において音声B2を収音し、時刻T4から時刻T5において音声B2と音声B3とを収音する。時刻T5から時刻T6において、収音システムSは、音声B3を収音する。 At time T4, the sound collecting system S detects the sound source direction of the voice B3 and starts the beamforming process by the first beamformer. At time T5, the sound collecting system S stops the beamforming process by the second beamformer. As a result, the sound collecting system S picks up the voice B1 from the time T1 to the time T2, and picks up the voice B1 and the voice B2 from the time T2 to the time T3. The sound collecting system S picks up the voice B2 from the time T3 to the time T4, and picks up the voice B2 and the voice B3 from the time T4 to the time T5. From time T5 to time T6, the sound collecting system S picks up the sound B3.
収音システムSがこのように複数のビームフォーマを有することで、収音システムSは、複数の狭指向性マイクロフォンをそれぞれの音源方向に向けた状態と同じ状況を疑似的に実現し、収音する。さらに、収音システムSは、複数のビームフォーマを切り替えることで、ビームフォーマの数よりも多い数の話者がいる状況であって音声を発する話者が切り替わる場合にも、途切れることなく複数の話者の音声を収音することができる。 By having the sound collecting system S having a plurality of beam formers in this way, the sound collecting system S realizes the same situation as when a plurality of narrow directional microphones are pointed in the respective sound source directions in a pseudo manner, and the sound collecting system S realizes the same situation. do. Further, the sound collecting system S switches between a plurality of beam formers, so that even if there are more speakers than the number of beam formers and the speakers that emit voice are switched, a plurality of speakers are used without interruption. The voice of the speaker can be picked up.
なお、図2における収音システムSは、話者が発する音声の停止とともにビームフォーミング処理を停止しているが、話者が発する音声が停止した後もビームフォーミング処理を継続してもよい。例えば、収音システムSは、時刻T1に開始した第1ビームフォーマのビームフォーミング処理を、時刻T3ではなく時刻T3から一定時間が経過した後の時刻に停止してもよい。また、収音システムSは、時刻T3において第1ビームフォーマによるビームフォーミング処理を停止せずに、ビームフォーミング処理を継続してもよい。この場合、収音システムSは、時刻T4において音声B3の音源方向を検出すると、第1ビームフォーマによるビームフォーミングの方向を音声B3の音源方向に切り替える。 Although the sound collecting system S in FIG. 2 stops the beamforming process when the voice emitted by the speaker is stopped, the beamforming process may be continued even after the voice emitted by the speaker is stopped. For example, the sound collecting system S may stop the beamforming process of the first beamformer that started at the time T1 at a time after a certain time has elapsed from the time T3 instead of the time T3. Further, the sound collecting system S may continue the beamforming process without stopping the beamforming process by the first beamformer at time T3. In this case, when the sound collecting system S detects the sound source direction of the voice B3 at the time T4, the sound collecting system S switches the direction of beamforming by the first beamformer to the sound source direction of the voice B3.
<収音システムSの構成>
図3は、収音システムSの構成を説明するための図である。収音システムSは、マイクロホンアレイ1と信号処理装置10とを有する。マイクロホンアレイ1は、複数のマイクロフォン2(マイクロフォン2a,2b,2c,2d)を含む。複数のマイクロフォン2は、到来した音に基づく電気信号を出力する。信号処理装置10は、複数のマイクロフォン2が出力する電気信号を処理して音源方向の指向性を高めることにより、音源が発した音を強調して出力する。<Configuration of sound collection system S>
FIG. 3 is a diagram for explaining the configuration of the sound collecting system S. The sound collecting system S includes a microphone array 1 and a
信号処理装置10は、入力部11、第1減衰部12、第2減衰部13、出力部14、及びビームフォーミング処理部15を有する。入力部11は、例えばプリアンプとA/D(アナログ/デジタル)変換器とを備えている。入力部11は、複数のマイクロフォン2それぞれから入力された複数のアナログ電気信号を複数のデジタル信号に変換することにより複数の音信号を生成する。入力部11は、例えば複数のマイクロフォン2それぞれから入力されるアナログ電気信号を増幅した複数の増幅信号を生成する。入力部11は、複数の増幅信号を複数のデジタル信号に変換することにより、複数の音信号を生成する。入力部11は、生成した複数の音信号をビームフォーミング処理部15に出力する。
The
第1減衰部12及び第2減衰部13は、ビームフォーミング処理部15から入力された信号のレベルを減少又は増加させる。第1減衰部12及び第2減衰部13は、ビームフォーミング処理部15から取得したアッテネータゲインに基づいて、ビームフォーミング処理部15が出力した信号のレベルを減少又は増加させる。アッテネータゲインは、第1減衰部12及び第2減衰部13において信号のレベルを減少又は増加させる前の信号のレベルに対する信号のレベルの減少量又は増加量である減衰率に対応する。第1減衰部12及び第2減衰部13は、信号のレベルを減少又は増加させた後の信号を出力部14に出力する。
The
出力部14は、第1減衰部12及び第2減衰部13から入力された信号を出力する。出力部14は、第1減衰部12が出力した信号と第2減衰部13が出力した信号とを加算した出力音信号を生成し、生成した出力音信号を出力する。出力部14は、例えば、D/A(デジタル/アナログ)変換器を備えており、デジタルの出力音信号をアナログ信号に変換し、変換後のアナログ信号を出力する。
The
ビームフォーミング処理部15は、音源方向検出部151、第1ビームフォーマ152、第2ビームフォーマ153、記憶部154、及び指向性制御部155を有する。ビームフォーミング処理部15は、例えばデジタル信号処理用プロセッサにより構成されている。
The
音源方向検出部151は、複数のマイクロフォン2に到来した音を発した音源の方向を検出する。音源の方向は、例えば、マイクロホンアレイ1が空間の上面に設置されている場合、マイクロホンアレイ1の中心位置から鉛直方向に進む直線と、マイクロフォン2の位置と音源の位置とを結んだ直線と、の角度により表される。音源方向検出部151は、例えば、複数のマイクロフォン2それぞれに音が到来した時刻の差に基づいて、遅延和アレイ法を用いることにより音源の方向を検出する。音源方向検出部151は、検出した音源の方向を指向性制御部155に通知する。
The sound source
第1ビームフォーマ152は、複数のマイクロフォン2が収音した音に基づく複数の音信号のうち、第1範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第1信号を出力する。第1範囲は、音源方向検出部151から通知された第1の音源の方向を中心とする範囲である。第1範囲の大きさは、例えば、複数のマイクロフォン2の数、及び第1ビームフォーマ152に設定されるビームフォーマ係数によって定まる。
The first beam former 152 is a sound based on a sound signal coming from a direction within the first range among a plurality of sound signals based on the sound picked up by the plurality of microphones 2, and a sound based on a sound coming from another direction. The first signal emphasized more than the signal is output. The first range is a range centered on the direction of the first sound source notified from the sound source
第1ビームフォーマ152は、入力部11から入力された複数の音信号を合成することにより第1信号を生成する。第1ビームフォーマ152は、指向性制御部155から入力されるビームフォーマ係数を用いて、第1範囲内の方向から到来した音に基づく音信号のレベルが他の方向から到来した音に基づく音信号のレベルよりも大きくなるように複数の音信号を生成する。第1ビームフォーマ152は、生成した複数の音信号を合成することにより、第1信号を生成する。第1ビームフォーマ152は、生成した第1信号を第1減衰部12に出力する。
The first beam former 152 generates the first signal by synthesizing a plurality of sound signals input from the
図4は、第1ビームフォーマ152の構成を説明するための図である。第1ビームフォーマ152は、複数の可変遅延部161(可変遅延部161a,161b,161c,161d)、複数のゲイン調整部162(ゲイン調整部162a,162b,162c,162d)、及び加算部163を有する。
FIG. 4 is a diagram for explaining the configuration of the first beam former 152. The first beam former 152 includes a plurality of variable delay units 161 (
可変遅延部161は、入力部11から取得した複数の音信号を、指向性制御部155から入力された遅延量に基づいて遅延させる。ビームフォーマ係数は、音源から複数のマイクロフォン2のそれぞれまでの距離(以下、「伝搬距離」という)の差に対応する時間である遅延量に対応しており、可変遅延部161は、例えばビームフォーマ係数の遅延量に基づいて音信号を遅延させる。可変遅延部161が、伝搬距離の差に対応する時間だけ音信号を遅延させることで、複数のマイクロフォン2に複数の音が到来したタイミングの差が補正され、第1ビームフォーマ152の指向性が最も強い方向からの複数の音信号が同相になる。
The variable delay unit 161 delays a plurality of sound signals acquired from the
ゲイン調整部162は、可変遅延部161が遅延させた後の信号のゲインを調整する。ビームフォーマ係数はゲインに対応しており、ゲイン調整部162は、例えばビームフォーマ係数に対応するゲインに基づいて、可変遅延部161が遅延させた後の信号を増幅又は減衰させる。複数のゲイン調整部162それぞれのゲインは、ビームフォーマ係数に応じて定められる。 The gain adjusting unit 162 adjusts the gain of the signal after the delay by the variable delay unit 161. The beamformer coefficient corresponds to the gain, and the gain adjusting unit 162 amplifies or attenuates the signal after the delay by the variable delay unit 161 based on the gain corresponding to the beamformer coefficient, for example. The gain of each of the plurality of gain adjusting units 162 is determined according to the beamformer coefficient.
加算部163は、複数のゲイン調整部162が生成した複数の信号を加算する。第1範囲内の方向に対応するゲイン調整部162が出力する信号は、他のゲイン調整部162が出力する信号よりも大きい。したがって、加算部163は、複数の信号を加算することで、第1範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第1信号を生成する。 The addition unit 163 adds a plurality of signals generated by the plurality of gain adjustment units 162. The signal output by the gain adjusting unit 162 corresponding to the direction in the first range is larger than the signal output by the other gain adjusting unit 162. Therefore, the addition unit 163 adds a plurality of signals to emphasize the sound signal based on the sound arriving from the direction within the first range more than the sound signal based on the sound arriving from the other direction. To generate.
図3に戻って、第2ビームフォーマ153は、入力部11から入力された複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第2信号を出力する。第2範囲は、音源方向検出部151から通知された第2の音源の方向を中心とする範囲である。第2範囲の大きさは、例えば、複数のマイクロフォン2の数、及び第2ビームフォーマ153に設定されるビームフォーマ係数によって定まる。
Returning to FIG. 3, the second beam former 153 uses a sound signal based on a sound coming from a direction within the second range among a plurality of sound signals input from the
第2ビームフォーマ153は、入力部11から入力された複数の音信号を合成することにより第2信号を生成する。第2ビームフォーマ153は、指向性制御部155から入力されるビームフォーマ係数を用いて、第2範囲内の方向から到来した音に基づく音信号のレベルが他の方向から到来した音に基づく音信号のレベルよりも大きくなるように複数の音信号を生成する。第2ビームフォーマ153は、生成した複数の音信号を合成することにより、第2信号を生成する。第2ビームフォーマ153は、生成した第2信号を第2減衰部13に出力する。第2ビームフォーマ153の構成は、図4に示した第1ビームフォーマ152の構成の構成と同等である。
The second beam former 153 generates a second signal by synthesizing a plurality of sound signals input from the
記憶部154は、RAM(Random Access Memory)及びSSD(Solid State Drive)等の記憶媒体を有する。記憶部154は、第1減衰部12及び第2減衰部13が用いるアッテネータゲインを算出するための減衰係数を記憶している。また、記憶部154は、音源の方向に関連付けてビームフォーマ係数を記憶している。
The
記憶部154は、音源方向検出部151が検出した音源の方向と、ビームフォーマ係数とを関連付けて記憶してもよい。記憶部154は、例えば、過去に音源方向検出部151が検出した音源の方向と、当該方向に基づいて指向性制御部155が過去に算出したビームフォーマ係数とを関連付けて記憶する。
The
また、記憶部154は、音源方向検出部151、第1ビームフォーマ152、第2ビームフォーマ153及び指向性制御部155として機能するプロセッサを機能させるためのプログラムを記憶している。
Further, the
指向性制御部155は、音源方向検出部151から通知された音源の方向に基づいて、第1ビームフォーマ152及び第2ビームフォーマ153のビームフォーマ係数を決定し、第1ビームフォーマ152及び第2ビームフォーマ153を制御する。指向性制御部155は、例えば、音源方向検出部151が検出した音源の方向に関連付けて記憶部154に記憶されたビームフォーマ係数を用いて第1ビームフォーマ152又は第2ビームフォーマ153に第1信号又は第2信号を出力させる。また、指向性制御部155は、第1減衰部12及び第2減衰部13の減衰率を制御する。
The
指向性制御部155は、音源方向検出部151から通知された音源の方向に基づいて、音を発している音源が変化したと判定した場合に、第1ビームフォーマ152及び第2ビームフォーマ153に設定するビームフォーマ係数、並びに第1減衰部12及び第2減衰部13の減衰率を変化させる。指向性制御部155は、音源が変化又は移動したことを検出するために、音源方向検出部151から通知された音源の方向を示す角度情報を記憶部154に記憶させる。指向性制御部155は、現在の時刻において音源方向検出部151が検出した角度と記憶部154が記憶している単位時間前の角度情報が示す角度(以下、「直前の角度」という)との差である変化角度を算出する。
When the
現在の時刻と直前の時刻との時刻の差である単位時間あたりの変化角度が閾値以上である場合、指向性制御部155は、音を発している音源が変化したと判定する。一方、変化角度が閾値未満である場合、指向性制御部155は、音を発している音源が移動したと判定する。単位時間は、例えば0.1秒である。閾値は、複数の音源の最小方向差に基づいて設定された値であり、例えば10度である。
When the change angle per unit time, which is the difference between the current time and the immediately preceding time, is equal to or greater than the threshold value, the
指向性制御部155は、新しい音源を検出したと判定した場合、複数のビームフォーマのうち使用していないビームフォーマを用いて、新しい音源を含む範囲の信号処理を実行する。具体的には、指向性制御部155は、第1ビームフォーマ152が第1信号を出力している間に、音源方向検出部151が検出した音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、第2ビームフォーマ153に第2信号を出力させる。すなわち、指向性制御部155は、音源方向検出部151が検出した音源の方向が第1範囲に含まれていない新たな音源の方向であると判定した場合に、第2ビームフォーマ153に第2信号を出力させる。
When the
指向性制御部155は、第2ビームフォーマ153に第2信号を出力させる前に、新たに検出された音源の方向を含むように第2範囲を決定する。指向性制御部155は、決定した第2範囲に対応するビームフォーマ係数を算出し、算出したビームフォーマ係数を複数のゲイン調整部162に設定することで第2ビームフォーマ153に第2信号を出力させる。指向性制御部155がこのように動作することで、信号処理装置10は、新たな音源が音を発し始めた場合に、新たな音源の方向にも指向性がある状態で収音できる。
The
一方、指向性制御部155は、第1ビームフォーマ152が第1信号を出力している間に、音源の方向の単位時間あたりの変化角度が閾値未満であると判定した場合に、第1範囲を変更した状態で第1ビームフォーマ152に第1信号を継続して出力させる。すなわち、指向性制御部155は、現在の時刻において直前の時刻と同じ音源を検出したと判定し、検出した音源を含む範囲に指向性がある状態で収音しているビームフォーマを継続して用いる。
On the other hand, when the
このように、指向性制御部155は、検出した音源が直前の時刻と異なる位置であると判定した場合であっても、音源の方向の単位時間あたりの変化角度が閾値未満であると判定した場合、動作させるビームフォーマを切り替えない。すなわち、指向性制御部155は、音源の位置が変わっていても、音源の方向の単位時間あたりの変化角度が閾値未満である場合、直前の時刻と同じ音源を検出したと判定する。そして、指向性制御部155は、変化した角度に基づいて、動作中のビームフォーマに設定するビームフォーマ係数を変更することにより指向方向を変化させる。このように指向性制御部155が動作することで、信号処理装置10は、例えば、話者が移動しながら音声を発する場合にはビームフォーマを切り替えることなく収音できるので、収音した音のレベルの変動を抑制できる。
In this way, the
指向性制御部155は、第2ビームフォーマ153が第2信号を出力している間に、さらに新しい音源(第3方向の音源)を検出した場合、第1ビームフォーマ152を用いて、検出した新しい音源が発した音を収音する。指向性制御部155は、第2ビームフォーマ153が第2信号を出力している間に、音源方向検出部151が検出した音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、第1ビームフォーマ152に第1信号を出力させる。
When the
指向性制御部155は、検出された新しい音源の方向が過去に検出された音源の方向と同じである場合、過去に検出した音源の方向に関連付けられたビームフォーマ係数を使用してもよい。具体的には、指向性制御部155は、音源方向検出部151が新たに検出した音源の方向(第3方向)が過去に検出した第1方向と同じであると判定した場合に、第1方向に関連付けて記憶部154に記憶されたビームフォーマ係数を用いて第1ビームフォーマ152に第1信号を出力させる。指向性制御部155が、記憶部154に記憶されたビームフォーマ係数を用いることにより、ビームフォーマが動作を開始するまでに要する時間を短縮することができる。
The
このように、指向性制御部155は、新しい音源を検出する度に第1ビームフォーマ152と第2ビームフォーマ153とを交互に使用する。その結果、信号処理装置10は、音源が切り替わる際に複数の音源から同時に音が発せられる期間がある場合であっても、複数の音源が発する音を収音することができる。
In this way, the
続いて、指向性制御部155が、第1減衰部12及び第2減衰部13を制御する動作を説明する。指向性制御部155は、新しい音源を検出した時刻からの経過時間に基づいて、第1減衰部12及び第2減衰部13のアッテネータゲインを算出する。指向性制御部155は、算出したアッテネータゲインを第1減衰部12及び第2減衰部13に設定することで、第1減衰部12及び第2減衰部13が出力する信号のレベルを調整する。
Subsequently, the operation in which the
指向性制御部155は、新しい音源を検出した場合、新しい音源を含む範囲に対応するビームフォーマの後段の減衰部の出力レベルを増加させる。一方、指向性制御部155は、新しい音源を含まない範囲に対応するビームフォーマの後段の減衰部の出力レベルを減少させる。以下に、第1ビームフォーマが出力する第1信号に対応する第1範囲が時間の経過とともに音源を含まなくなるとともに、第2ビームフォーマが出力する第2信号に対応する第2範囲が時間の経過とともに新しい音源を含むように変化する場合を例示する。この場合、第1ビームフォーマの後段の減衰部であって信号のレベルを減少させる減衰部は第1減衰部12であり、第2ビームフォーマの後段の減衰部であって信号のレベルを増加させる減衰部は第2減衰部13である。
When the
指向性制御部155は、第1ビームフォーマ153が第1信号を出力している間に変化角度が閾値以上であると判定した場合に第1信号の出力レベルを減少させる。指向性制御部155は、第1信号の出力レベルを減少させる場合、変化角度が閾値以上であると判定してからの経過時間に基づく減衰率で第1信号の出力レベルを減少させる。指向性制御部155は、減衰係数及び経過時間に基づいて定められるアッテネータゲインに対応する減衰率で第1減衰部12を動作させる。
The
アッテネータゲインは、例えば、減衰係数Cと経過時間Tとを乗算することにより定められる。減衰係数Cは、例えば負の固定値である。このように、経過時間に基づいて算出したアッテネータゲインを第1減衰部12に設定することで、指向性制御部155は、第1信号を段階的に減衰させることができるので、音源が発している音が急に消えてしまうことを防げる。
The attenuator gain is determined, for example, by multiplying the attenuation coefficient C by the elapsed time T. The attenuation coefficient C is, for example, a negative fixed value. By setting the attenuator gain calculated based on the elapsed time in the
また、指向性制御部155は、第2ビームフォーマ153が出力する第2信号の出力レベルを増加させる。指向性制御部155は、例えば、第1信号の出力レベルを減少させる変化速度よりも大きい変化速度で第2信号の出力レベルを増加させる。変化速度は、単位時間あたりの出力レベルの変化量により定められる。このように、指向性制御部155が、第1信号の出力レベルを減少させる変化速度よりも大きい変化速度で第2信号の出力レベルを増加させることで、第2信号の出力レベルが短時間で増加するので、信号処理装置10は、発言を始めた人の声を最初から十分な大きさで出力することができる。指向性制御部155は、第1信号の出力レベルを減少させる間に第2信号の出力レベルを増加させてもよい。このように指向性制御部155が動作することで、信号処理装置10は、第1信号と第2信号を切り替えて出力する場合、第1信号と第2信号との間に無音の期間が生じることを防止できる。
Further, the
<新しい音源の検出処理の流れ>
図5は、新しい音源を検出したか否かをビームフォーミング処理部15が判定する処理の流れを示すフローチャートである。音源方向検出部151は、入力部11が増幅した後の複数の音信号を取得する(S11)。音源方向検出部151は、取得した複数の音信号に基づいて音源方向を検出する(S12)。<Flow of detection processing of new sound source>
FIG. 5 is a flowchart showing a flow of processing in which the
指向性制御部155は、音源方向検出部151が検出した現在の時刻の音源方向と直前の時刻の音源方向との差を算出する(S13)。算出した音源方向の差が閾値以上である場合(S14のYES)、指向性制御部155は、新しい音源を検出したと判定する(S15)。算出した音源方向の差が閾値未満である場合(S14のNO)、指向性制御部155は、直前の時刻と同じ音源を検出したと判定する(S16)。
The
新しい音源の検出処理を終了するための操作が行われていない場合(S17のNO)、ビームフォーミング処理部15は、S11からS17までの処理を繰り返す。新しい音源の検出処理を終了するための操作が行われた場合(S17のYES)、ビームフォーミング処理部15は、新しい音源の検出処理を終了する。
If the operation for terminating the detection process of the new sound source has not been performed (NO in S17), the
<ビームフォーマの制御処理の流れ>
図6は、新しい音源を検出したことに基づいてビームフォーミング処理部15がビームフォーマを制御する処理の流れを示すフローチャートである。図6は、信号処理装置10が有する複数のビームフォーマのうち1つのビームフォーマを指向性制御部155が制御する際の処理の流れを示している。図6に示すフローチャートは、第1ビームフォーマ152が第1音源の方向に指向性がある状態で第1信号を出力している時点から開始している。<Flow of beam former control process>
FIG. 6 is a flowchart showing a flow of processing in which the
第1ビームフォーマ152は、第1音源用のビームフォーマ係数で動作している(S21)。指向性制御部155は、第2音源を検出していない場合(S22のNO)、第2音源を検出する処理を繰り返す。指向性制御部155は、第2音源を検出した場合(S22のYES)、経過時間の計測を開始する(S23)。指向性制御部155は、計測した経過時間に基づいて第1音源用のアッテネータゲインを算出し、第1音源用のアッテネータゲインを減衰させる(S24)。
The first beam former 152 operates with the beam former coefficient for the first sound source (S21). When the
第1ビームフォーマ152が動作していない状態で、指向性制御部155が第2音源以外の音源(例えば第3音源)を検出した場合(S25のYES)、指向性制御部155は、第3音源用に算出したビームフォーマ係数を第1ビームフォーマ152に適用する(S26)。指向性制御部155は、記憶部154を参照することにより、第3音源用のビームフォーマ係数を取得してもよい。第1ビームフォーマ152は、指向性制御部155が適用した第3音源用のビームフォーマ係数に基づいて動作を開始する(S27)。指向性制御部155は、第3音源用のアッテネータゲインを増加させる(S28)。
When the
第1ビームフォーマ152が動作していない状態で、指向性制御部155が第3音源を検出していない場合(S25のNO)、指向性制御部155は、第3音源を検出する処理を繰り返す。ビームフォーマを制御する処理を終了するための操作が行われていない場合(S29のNO)、ビームフォーミング処理部15は、S21からS28までの処理を繰り返す。ビームフォーマを制御する処理を終了するための操作が行われた場合(S29のYES)、ビームフォーミング処理部15は、ビームフォーマを制御する処理を終了する。
When the
<収音システムSの効果>
以上のとおり、収音システムSは、複数のマイクロフォン2に到来した音に基づく音信号のうち第1範囲内の方向から到来した音に基づく音信号を強調させた第1信号を出力する第1ビームフォーマ152と、複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を強調させた第2信号を出力する第2ビームフォーマ153とを有する。そして、指向性制御部155が、音源の方向に基づいて、ビームフォーミング処理を行わせるビームフォーマを切り替える。<Effect of sound collection system S>
As described above, the sound collecting system S outputs the first signal that emphasizes the sound signal based on the sound arriving from the direction within the first range among the sound signals based on the sound arriving at the plurality of microphones 2. It has a beam former 152 and a second beam former 153 that outputs a second signal that emphasizes a sound signal based on a sound coming from a direction within the second range among a plurality of sound signals. Then, the
収音システムSは、複数の話者のうち音声を発する話者が切り替わった場合であっても、複数の話者が発する音声が途切れることなく、複数の音声を収音することができる。 The sound collecting system S can pick up a plurality of sounds without interruption even when the speaker that emits the sound is switched among the plurality of speakers.
なお、図1においては3人の話者がいる場合を例示したが、収音システムSは4人以上の話者がいる環境においても使用可能である。また、以上の説明においては、収音システムSが備える2つのビームフォーマを用いて説明したが、収音システムSは、3つ以上のビームフォーマを備えることにより、3つ以上の音源方向それぞれに指向性がある状態で収音してもよい。 Although the case where there are three speakers is illustrated in FIG. 1, the sound collecting system S can be used even in an environment where there are four or more speakers. Further, in the above description, the two beam formers included in the sound collecting system S have been used, but the sound collecting system S is provided with three or more beam formers in each of three or more sound source directions. Sound may be picked up in a directional state.
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。 Although the present invention has been described above using the embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments, and various modifications and changes can be made within the scope of the gist. be. For example, all or part of the device can be functionally or physically distributed / integrated in any unit. Also included in the embodiments of the present invention are new embodiments resulting from any combination of the plurality of embodiments. The effect of the new embodiment produced by the combination has the effect of the original embodiment together.
1 マイクロホンアレイ
2 マイクロフォン
10 信号処理装置
11 入力部
12 第1減衰部
13 第2減衰部
14 出力部
15 ビームフォーミング処理部
151 音源方向検出部
152 第1ビームフォーマ
153 第2ビームフォーマ
154 記憶部
155 指向性制御部
161 可変遅延部
162 ゲイン調整部
163 加算部1 Microphone array 2
Claims (13)
前記複数のマイクロフォンに到来した音に基づく複数の音信号のうち第1範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第1信号を出力する第1ビームフォーマと、
前記複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第2信号を出力する第2ビームフォーマと、
前記複数のマイクロフォンに到来した音を発した音源の方向を検出する音源方向検出部と、
前記第1ビームフォーマが前記第1信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第2ビームフォーマに前記第2信号を出力させる指向性制御部と、
を有する収音システム。With a microphone array containing multiple microphones,
The first signal in which the sound signal based on the sound arriving from the direction within the first range is emphasized more than the sound signal based on the sound arriving from the other direction among the plurality of sound signals based on the sound arriving at the plurality of microphones. The first beam former that outputs
A second beam former that outputs a second signal in which a sound signal based on a sound arriving from a direction within the second range is emphasized more than a sound signal based on a sound arriving from another direction among the plurality of sound signals.
A sound source direction detection unit that detects the direction of the sound source that emitted the sound that arrived at the plurality of microphones, and
When it is determined that the change angle per unit time in the direction of the sound source detected by the sound source direction detection unit is equal to or greater than the threshold value while the first beam former is outputting the first signal, the first beam former. A directivity control unit that causes the two-beam former to output the second signal,
Sound collection system with.
請求項1に記載の収音システム。When the directivity control unit determines that the change angle per unit time in the direction of the sound source is less than the threshold value while the first beam former outputs the first signal, the first one. The first beam former is made to continuously output the first signal in a state where the range is changed.
The sound collecting system according to claim 1.
請求項1又は2に記載の収音システム。The directivity control unit reduces the output level of the first signal when it is determined that the change angle is equal to or greater than the threshold value while the first beam former outputs the first signal.
The sound collecting system according to claim 1 or 2.
請求項3に記載の収音システム。The directivity control unit reduces the output level of the first signal by an attenuation factor based on the elapsed time from the determination that the change angle is equal to or greater than the threshold value.
The sound collecting system according to claim 3.
請求項3又は4に記載の収音システム。The directivity control unit increases the output level of the second signal while decreasing the output level of the first signal.
The sound collecting system according to claim 3 or 4.
請求項3から5のいずれか一項に記載の収音システム。The directivity control unit increases the output level of the second signal at a rate of change larger than the rate of change that decreases the output level of the first signal.
The sound collecting system according to any one of claims 3 to 5.
請求項1から6のいずれか一項に記載の収音システム。When the directivity control unit determines that the direction of the sound source is not included in the first range, the directivity control unit causes the second beam former to output the second signal.
The sound collecting system according to any one of claims 1 to 6.
請求項1から7のいずれか一項に記載の収音システム。The directivity control unit determines the second range so as to include the direction of the sound source before causing the second beam former to output the second signal.
The sound collecting system according to any one of claims 1 to 7.
請求項1から8のいずれか一項に記載の収音システム。The directivity control unit determines that the change angle per unit time of the direction of the sound source detected by the sound source direction detection unit is equal to or greater than the threshold value while the second beam former outputs the second signal. When the determination is made, the first beam former is made to output the first signal.
The sound collecting system according to any one of claims 1 to 8.
前記指向性制御部は、前記音源方向検出部が検出した前記音源の方向に関連付けて前記記憶部に記憶された前記ビームフォーマ係数を用いて前記第1ビームフォーマ又は前記第2ビームフォーマに前記第1信号又は前記第2信号を出力させる、
請求項1から9のいずれか一項に記載の収音システム。Further, it has a storage unit that stores the direction of the sound source detected by the sound source direction detection unit in association with the beamformer coefficient.
The directivity control unit uses the beamformer coefficient stored in the storage unit in association with the direction of the sound source detected by the sound source direction detection unit to the first beamformer or the second beamformer. Output one signal or the second signal.
The sound collecting system according to any one of claims 1 to 9.
前記指向性制御部は、前記音源方向検出部が新たに検出した音源の方向と前記記憶部が記憶している前記過去に検出した音源の方向とが同じであると判定した場合に、前記過去に検出した音源の方向に関連付けて記憶された前記ビームフォーマ係数を使用する、
請求項10に記載の収音システム。The storage unit stores the direction of the sound source previously detected by the sound source direction detection unit and the beam former coefficient calculated in the past by the directivity control unit based on the direction in association with each other.
When the directional control unit determines that the direction of the sound source newly detected by the sound source direction detection unit and the direction of the previously detected sound source stored in the storage unit are the same, the past Using the beamformer coefficient stored in association with the direction of the detected sound source,
The sound collecting system according to claim 10.
前記複数のマイクロフォンに到来した音を発した音源の方向を検出するステップと、
前記第1信号を出力している間に、前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第2信号を出力するステップと、
を有する収音方法。Of the multiple sound signals based on the sound arriving at the plurality of microphones, the first signal in which the sound signal based on the sound arriving from the direction within the first range is emphasized more than the sound signal based on the sound arriving from the other direction is emphasized. Steps to output and
The step of detecting the direction of the sound source that emitted the sound that arrived at the plurality of microphones, and
When it is determined that the change angle per unit time in the direction of the sound source is equal to or greater than the threshold value while the first signal is being output, the sound signals come from a direction within the second range of the plurality of sound signals. A step of outputting a second signal that emphasizes a sound signal based on sound more than a sound signal based on sound coming from another direction, and
Sound collection method having.
複数のマイクロフォンに到来した音に基づく複数の音信号のうち第1範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第1信号を出力する第1ビームフォーマ、
前記複数の音信号のうち第2範囲内の方向から到来した音に基づく音信号を他の方向から到来した音に基づく音信号よりも強調させた第2信号を出力する第2ビームフォーマ、
前記複数のマイクロフォンに到来した音を発した音源の方向を検出する音源方向検出部、及び
前記第1ビームフォーマが前記第1信号を出力している間に、前記音源方向検出部が検出した前記音源の方向の単位時間あたりの変化角度が閾値以上であると判定した場合に、前記第2ビームフォーマに前記第2信号を出力させる指向性制御部、
として機能させるためのプログラム。
Computer,
Of the multiple sound signals based on the sound arriving at the plurality of microphones, the first signal in which the sound signal based on the sound arriving from the direction within the first range is emphasized more than the sound signal based on the sound arriving from the other direction is emphasized. First beam former to output,
A second beam former that outputs a second signal in which a sound signal based on a sound arriving from a direction within the second range is emphasized more than a sound signal based on a sound arriving from another direction among the plurality of sound signals.
The sound source direction detection unit that detects the direction of the sound source that emitted the sound arriving at the plurality of microphones, and the sound source direction detection unit that detects the sound source direction detection unit while the first beam former outputs the first signal. A directional control unit that causes the second beam former to output the second signal when it is determined that the change angle per unit time in the direction of the sound source is equal to or greater than the threshold value.
A program to function as.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020187841 | 2020-11-11 | ||
JP2020187841 | 2020-11-11 | ||
PCT/JP2021/037733 WO2022102322A1 (en) | 2020-11-11 | 2021-10-12 | Sound collection system, sound collection method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7060905B1 true JP7060905B1 (en) | 2022-04-27 |
JPWO2022102322A1 JPWO2022102322A1 (en) | 2022-05-19 |
Family
ID=81390815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022502563A Active JP7060905B1 (en) | 2020-11-11 | 2021-10-12 | Sound collection system, sound collection method and program |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230247361A1 (en) |
EP (1) | EP4207196A4 (en) |
JP (1) | JP7060905B1 (en) |
CN (1) | CN116490924A (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11978467B2 (en) * | 2022-07-21 | 2024-05-07 | Dell Products Lp | Method and apparatus for voice perception management in a multi-user environment |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009288215A (en) * | 2008-06-02 | 2009-12-10 | Toshiba Corp | Acoustic processing device and method therefor |
JP2016167645A (en) * | 2015-03-09 | 2016-09-15 | アイシン精機株式会社 | Voice processing device and control device |
JP2017153065A (en) * | 2016-02-25 | 2017-08-31 | パナソニック株式会社 | Voice recognition method, voice recognition device, and program |
US20170280235A1 (en) * | 2016-03-24 | 2017-09-28 | Intel Corporation | Creating an audio envelope based on angular information |
JP2018155996A (en) * | 2017-03-21 | 2018-10-04 | 富士通株式会社 | Audio processing computer program, audio processing apparatus and audio processing method |
JP2019176332A (en) * | 2018-03-28 | 2019-10-10 | 株式会社フュートレック | Speech extracting device and speech extracting method |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3939367A4 (en) * | 2019-03-13 | 2022-10-19 | Nokia Technologies OY | Device, method and computer readable medium for adjusting beamforming profiles |
-
2021
- 2021-10-12 JP JP2022502563A patent/JP7060905B1/en active Active
- 2021-10-12 CN CN202180068862.6A patent/CN116490924A/en active Pending
- 2021-10-12 EP EP21891569.2A patent/EP4207196A4/en active Pending
-
2023
- 2023-03-22 US US18/187,914 patent/US20230247361A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009288215A (en) * | 2008-06-02 | 2009-12-10 | Toshiba Corp | Acoustic processing device and method therefor |
JP2016167645A (en) * | 2015-03-09 | 2016-09-15 | アイシン精機株式会社 | Voice processing device and control device |
JP2017153065A (en) * | 2016-02-25 | 2017-08-31 | パナソニック株式会社 | Voice recognition method, voice recognition device, and program |
US20170280235A1 (en) * | 2016-03-24 | 2017-09-28 | Intel Corporation | Creating an audio envelope based on angular information |
JP2018155996A (en) * | 2017-03-21 | 2018-10-04 | 富士通株式会社 | Audio processing computer program, audio processing apparatus and audio processing method |
JP2019176332A (en) * | 2018-03-28 | 2019-10-10 | 株式会社フュートレック | Speech extracting device and speech extracting method |
Also Published As
Publication number | Publication date |
---|---|
EP4207196A1 (en) | 2023-07-05 |
US20230247361A1 (en) | 2023-08-03 |
CN116490924A (en) | 2023-07-25 |
EP4207196A4 (en) | 2024-03-06 |
JPWO2022102322A1 (en) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8098841B2 (en) | Sound field controlling apparatus | |
JP5654513B2 (en) | Sound identification method and apparatus | |
TWI713844B (en) | Method and integrated circuit for voice processing | |
US9338549B2 (en) | Acoustic localization of a speaker | |
KR101715779B1 (en) | Apparatus for sound source signal processing and method thereof | |
US8204198B2 (en) | Method and apparatus for selecting an audio stream | |
JP5446275B2 (en) | Loudspeaker system | |
RU2591026C2 (en) | Audio system system and operation method thereof | |
JP4752403B2 (en) | Loudspeaker system | |
JP6643818B2 (en) | Omnidirectional sensing in a binaural hearing aid system | |
KR20120101457A (en) | Audio zoom | |
JP2008259022A (en) | Sound emitting/collecting device | |
JP2009278620A (en) | Sound pickup apparatus and conference telephone | |
JP7060905B1 (en) | Sound collection system, sound collection method and program | |
JP6631010B2 (en) | Microphone selection device, microphone system, and microphone selection method | |
JP2010011269A (en) | Speaker array unit | |
JP7271862B2 (en) | audio processor | |
JP3154468B2 (en) | Sound receiving method and device | |
WO2022102322A1 (en) | Sound collection system, sound collection method, and program | |
JP3932928B2 (en) | Loudspeaker | |
KR20150107699A (en) | Device and method for correcting a sound by comparing the specific envelope | |
JP5141442B2 (en) | Sound collecting device and sound emitting and collecting device | |
JP2008245203A (en) | Loudspeaker system, delay time determination method of loudspeaker system and filter coefficient determination method of loudspeaker system | |
JPH0722878A (en) | Loud speaker | |
JP2008294600A (en) | Sound emission and collection apparatus and sound emission and collection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220114 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7060905 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |