JP2023053670A - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP2023053670A JP2023053670A JP2021162852A JP2021162852A JP2023053670A JP 2023053670 A JP2023053670 A JP 2023053670A JP 2021162852 A JP2021162852 A JP 2021162852A JP 2021162852 A JP2021162852 A JP 2021162852A JP 2023053670 A JP2023053670 A JP 2023053670A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- speaker
- microphone
- information processing
- sound collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 90
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 47
- 238000001514 detection method Methods 0.000 claims description 34
- 210000000988 bone and bone Anatomy 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 30
- 239000000758 substrate Substances 0.000 description 10
- 210000003128 head Anatomy 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 230000035945 sensitivity Effects 0.000 description 8
- 238000000926 separation method Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
本技術は、集音システム等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。 The present technology relates to an information processing device, an information processing method, and a program applicable to a sound collection system or the like.
近年、音源を分離して集音を行う技術が開発されている。例えば、特定の方向から発せられた音を選択的に集音することで、様々な音の中から目的とする音を分離することができる。方向を指定して集音を行う方法としては、例えばアレイ状に配意された複数のマイクの出力を処理して特定の方向の音源を分離するビームフォーミング技術が知られている。 In recent years, techniques for separating sound sources and collecting sounds have been developed. For example, by selectively collecting sounds emitted from a specific direction, a desired sound can be separated from various sounds. As a method of collecting sound by designating a direction, for example, beamforming technology is known, which processes outputs of a plurality of microphones arranged in an array to separate a sound source in a specific direction.
特許文献1には、ビームフォーミング技術を用いた音声認識システムについて記載されている。このシステムでは、アレイマイク周辺を撮影した画像から人体が検出される。アレイマイクから見て人体がある方向は集音方向に設定され、人体がない方向はノイズ方向に設定される。またビームフォーミング処理が実行され、アレイマイクの出力から集音方向の音源(目的音)とノイズ方向の音源(ノイズ音)とが分離される。この目的音からノイズ音をキャンセルすることで、高精度なノイズキャンセルが可能となっている(特許文献1の明細書段落[0017][0018][0023][0024]図3等)。
特許文献1のように、目的音からノイズ音をキャンセルできたとしても、目的音が発せられる方向によっては、所望の音質が得られないこともあり得る。このため、目的とする音そのものをより高い品質で集音する技術が求められている。
Even if the noise sound can be canceled from the target sound as in
以上のような事情に鑑み、本技術の目的は、音源が発する音を高品質に集音することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。 In view of the circumstances as described above, an object of the present technology is to provide an information processing device, an information processing method, and a program capable of collecting sound emitted by a sound source with high quality.
上記目的を達成するため、本技術の一形態に係る情報処理装置は、情報取得部と、集音制御部とを具備する。
前記情報取得部は、音源の位置と前記音源が音を発する方向とを示す音源情報を取得する。
前記集音制御部は、前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する。
To achieve the above object, an information processing apparatus according to an aspect of the present technology includes an information acquisition unit and a sound collection control unit.
The information acquisition unit acquires sound source information indicating a position of a sound source and a direction in which the sound source emits sound.
Based on the sound source information, the sound collection control unit selects at least one target device that is used to collect sound emitted by the sound source from among a plurality of sound collection devices that are arranged around the sound source and whose sound collection direction can be set. to select.
この情報処理装置では、音源の周辺に配置された複数の集音装置から、音源の音を集音するための対象装置が少なくとも1つ選択される。各集音装置は、集音方向を設定できる装置であり、対象装置の選択には、音源の位置及び音源が音を発する方向を示す音源情報が用いられる。これにより、例えば音源の位置や音の出る方向に適応した集音装置を用いることが可能となり、音源が発する音を高品質に集音することが可能となる。 In this information processing device, at least one target device for collecting the sound of the sound source is selected from a plurality of sound collectors arranged around the sound source. Each sound collecting device is a device capable of setting a sound collecting direction, and sound source information indicating the position of the sound source and the direction in which the sound source emits sound is used for selecting the target device. As a result, it becomes possible to use a sound collector adapted to, for example, the position of the sound source and the direction from which the sound is emitted, and it is possible to collect the sound emitted by the sound source with high quality.
前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定してもよい。 The sound collection control unit may set a sound collection direction of the target device based on the sound source information.
前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定してもよい。 The sound collection control unit may set a direction from the target device toward the sound source as a sound collection direction of the target device.
前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択してもよい。 The sound collection control unit may determine the sound collection device capable of collecting the direct sound emitted by the sound source based on the direction in which the sound source emits sound, and select the sound collection device as the target device. .
前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成されてもよい。この場合、前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択してもよい。 The plurality of sound collecting devices may be configured such that the sound collecting direction can be set within an allocation range allocated according to each arrangement. In this case, the sound collection control unit may select, as the target device, the sound collection device whose direction in which the sound source emits sound corresponds to the central direction of the allocation range.
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択してもよい。 The sound collection control unit is capable of collecting sound along the direction in which the sound source emits sound when there is no sound collection device in which the direction in which the sound source emits sound corresponds to the center direction of the allocation range, The sound collecting device closest to the sound source may be selected as the target device.
前記情報取得部は、複数の音源ごとに前記音源情報を取得してもよい。この場合、前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択してもよい。 The information acquisition unit may acquire the sound source information for each of a plurality of sound sources. In this case, the sound collection control unit may select the target device for each of the plurality of sound sources based on the sound source information for each of the plurality of sound sources.
前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択してもよい。 The sound collection control unit is capable of setting the sound collection direction so as to collect direct sound emitted by a sound source to be processed and not to collect direct sound emitted by a sound source different from the sound source to be processed. may be selected as the target device.
前記情報処理装置は、さらに、前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備してもよい。 The information processing device may further include a sound collection processing unit that generates sound data representing the sound emitted by the sound source based on the output of the at least one target device.
前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含んでもよい。この場合、前記集音制御部は、前記複数の候補装置から前記対象装置を選択してもよい。また、前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させてもよい。 The plurality of sound collecting devices may include a plurality of candidate devices whose sound collecting directions are set in advance. In this case, the sound collection control unit may select the target device from the plurality of candidate devices. Further, the sound collection processing unit may make the candidate device that is not selected as the target device stand by in a sound collection state.
前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択してもよい。 The sound collection control unit may select a plurality of target devices from the plurality of sound collection devices for the single sound source.
前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成してもよい。 The sound collection processing unit may generate the sound data of the sound source by synthesizing data collected by the plurality of target devices.
前記音源は、発話者であってもよい。この場合、前記音源が音を発する方向は、前記発話者の発話方向であってもよい。 The sound source may be a speaker. In this case, the direction in which the sound source emits sound may be the utterance direction of the speaker.
前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定してもよい。 The information acquisition unit may estimate the speech direction of the speaker by performing bone detection on the speaker based on image data of the speaker.
前記情報取得部は、前記発話者のジェスチャーを検出してもよい。
前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御してもよい。
The information acquisition unit may detect a gesture of the speaker.
The sound collection processing unit may control sound collection processing for collecting the voice of the speaker according to the gesture of the speaker.
前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止してもよい。 The sound collection processing unit preferentially executes the sound collection processing for the speaker when a gesture of the speaker raising a hand is detected, and a gesture of the speaker covering the mouth with a hand is detected. case, the sound collection process for the speaker may be stopped.
前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離してもよい。 The sound collection processing unit may separate the speech of the speaker and the gesture sound of the speaker from the data collected by the target device.
前記集音装置は、複数のマイクが配置されたマイクアレイであってもよい。この場合、前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向であってもよい。 The sound collecting device may be a microphone array in which a plurality of microphones are arranged. In this case, the sound collection direction may be a beam direction set by beamforming processing for the microphone array.
本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、音源の位置と前記音源が音を発する方向とを示す音源情報を取得することを含む。
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置が選択される。
An information processing method according to an embodiment of the present technology is an information processing method executed by a computer system, and includes acquiring sound source information indicating a position of a sound source and a direction in which the sound source emits sound.
Based on the sound source information, at least one target device used to collect the sound emitted by the sound source is selected from a plurality of sound collectors arranged around the sound source and capable of setting a sound collection direction.
本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップ。
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップ。
A program according to an embodiment of the present technology causes a computer system to execute the following steps.
Obtaining sound source information indicating the position of a sound source and the direction in which the sound source emits sound.
Based on the sound source information, selecting at least one target device to be used for collecting the sound emitted by the sound source from a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction.
以下、本技術に係る実施形態を、図面を参照しながら説明する。 Hereinafter, embodiments according to the present technology will be described with reference to the drawings.
[集音システムの構成]
図1は、本技術の一実施形態に係る集音システムの構成例を示すブロック図である。集音システム100は、集音対象となる空間内にいる発話者1の音声5を集音して、発話者1の音声データ6を生成するシステムである。本実施形態では、発話者1は音源の一例であり、発話者1の音声5が集音対象となる音(目的音)となる。
図1に示すように、集音システム100は、複数のBFマイクMと、検出カメラ10と、記憶部11と、コントローラ20とを有する。
[Configuration of sound collection system]
FIG. 1 is a block diagram showing a configuration example of a sound collection system according to an embodiment of the present technology. The
As shown in FIG. 1 , the
複数のBFマイクMは、各々がビームフォーミング(BF)技術を用いて特定方向に対する集音を行うことが可能な集音装置である。
図1には、複数のBFマイクMとして、4つのBFマイクM1~M4が模式的に図示されている。なおBFマイクMの個数は限定されない。
ここでビームフォーミング技術は、BFマイクMから特定の方向に伸びるビームを設定し、そのビームに沿って到来する音波を高感度に集音する技術である。この場合、ビームが設定される方向は、BFマイクMの集音方向となる。
各BFマイクMは、発話者1がいる空間に設定された所定の位置にそれぞれ配置される。集音システム100におけるBFマイクMの配置例については、後に詳しく説明する。
このように、各BFマイクMは、音源である発話者1の周辺に配置され集音方向を設定可能な装置である。本実施形態では、BFマイクMは、集音装置に相当する。
A plurality of BF microphones M are sound collecting devices each capable of collecting sound in a specific direction using beam forming (BF) technology.
Four BF microphones M1 to M4 are schematically illustrated as the plurality of BF microphones M in FIG. Note that the number of BF microphones M is not limited.
Here, the beamforming technique is a technique of setting a beam extending in a specific direction from the BF microphone M and collecting sound waves arriving along the beam with high sensitivity. In this case, the direction in which the beam is set is the direction in which the BF microphone M collects sound.
Each BF microphone M is arranged at a predetermined position set in the space where the
In this way, each BF microphone M is a device that is arranged around the
図2は、BFマイクMの構成例を示す模式図である。図3は、BFマイクMに設定されるビーム7の一例を示す模式図である。
図2に示すBFマイクMは、平板状の基板15と、基板15に配置された複数のマイク16とを有する。すなわち、BFマイクMは、複数のマイク16が配置されたマイクアレイである。
図2Aは、基板15と直交する方向から見たBFマイクMの平面図であり、図2Bは、基板15と平行な方向から見たBFマイクMの側面図である。
FIG. 2 is a schematic diagram showing a configuration example of the BF microphone M. As shown in FIG. FIG. 3 is a schematic diagram showing an example of the
The BF microphone M shown in FIG. 2 has a
2A is a plan view of the BF microphone M seen from a direction orthogonal to the
基板15は、平面形状が円形の板状部材であり、第1の面17aと、第1の面17aとは反対側の第2の面17bとを有する。第1の面17aは、複数のマイク16が配置される面である。図2Aは、BFマイクMの第1の面17aを見た平面図である。また図2Bでは、基板15の図中上側の表面が第1の面17aであり、基板15の図中下側の表面が第2の面17bである。
複数のマイク16は、音波に応じた電気信号(音信号)を発生させる素子である。各マイク16は、無指向性マイクとして構成され、音波の到来方向によらず略一定の感度で音波を検出する。マイク16としては、例えばダイナミック型のマイクロフォンや、コンデンサ型のマイクロフォン等が用いられる。
The
The
図2Bに示す例では、各マイク16は、音波を受ける受音部分を基板15とは反対側に向けて配置される。この場合、第1の面17a側がBFマイクMの受音側となる。この構成では、例えば第1の面17a側に各マイク16を保護するカバー等が設けられてもよい。
これに限定されず、第2の面17a側がBFマイクMの受音側となるようにBFマイクMを構成してもよい。この場合、基板15上の各マイク16の配置位置には、第1の面17aから第2の面17bに貫通するマイク孔が設けられる。また各マイク16は、受音部分をマイク孔に向けて配置される。
In the example shown in FIG. 2B , each
The configuration is not limited to this, and the BF microphone M may be configured such that the
図2Aに示すように、BFマイクMには、8つのマイク16a~16hが設けられる。各マイク16a~16hは、第1の面17aにおける基板15の中心(基板中心C)を基準として回転対称となるように配置される。従って、基板中心Cと、互いに隣接する2つのマイク16とを結ぶ2つの線分のなす角度(角度間隔)は45°となる。
以下では、基板中心Cから見たマイク16aの方位角φを0°とする。また図2Aにおいて時計回りの方向(基板中心Cを右側に見ながら回転する右回りの方向)に方位角φが増えるものとする。従ってマイク16a~16hが配置される方位角は0°、45°、90°、135°、180°、225°、270°、及び315°となる。
As shown in FIG. 2A, the BF microphone M is provided with eight
In the following, the azimuth angle φ of the
BFマイクMは、典型的には、基板15(第1の面17a又は第2の面17b)が水平となるように配置して用いられる。従って、マイク16a~16hの方位角は水平面における方位角として扱うことができる。なお、BFマイクMの姿勢は限定されない。例えばBFマイクMを水平面に対して傾けて配置することも可能である。
The BF microphone M is typically used with the substrate 15 (
BFマイクMからは、マイク16a~16hが生成した各音信号が出力される。すなわち、複数のマイク16a~16hが生成する多チャンネルの音信号が、BFマイクMの出力となる。
これらの音信号に対して、後述するコントローラ20(集音処理部23)によりビームフォーミング処理が実行される。
ビームフォーミング処理では、特定の方向を向いたビーム7が設定され、ビーム7に沿って到来する音波を集音する処理が行われる。例えば、ビーム7に沿って到来する音波の各マイク16a~16hへの伝搬遅延(到達時間のずれ)が補正される。また伝搬遅延が補正された信号が適宜加算され、ビーム7に沿って到来する音波を強調した信号が生成される。これにより、ビーム7に沿って到来する音波を選択的に集音することが可能となる。
このように、BFマイクMの集音方向3は、BFマイクMに関するビームフォーミング処理で設定されるビーム7の方向である。
The BF microphone M outputs each sound signal generated by the
A controller 20 (sound collection processing unit 23), which will be described later, performs beamforming processing on these sound signals.
In the beamforming process, a
Thus, the
図3には、BFマイクMに設定されるビーム7の範囲が灰色の領域を用いて模式的に図示されている。BFマイクMでは、基板中心Cから集音方向3を中心に扇状に広がる範囲が、ビーム7の範囲となる。このビーム7の範囲は、集音方位角A及びビーム幅βで規定される。
FIG. 3 schematically shows the range of the
集音方位角Aは、集音方向3の中心角を表す方位角度である。例えばBFマイクMを集音方向3に指向性をもつマイクと見做した場合に、集音方位角Aは、指向性をもつマイクの向きに相当する。
BFマイクMでは、8つのマイク16a~16hを回転対象に配置することで、集音方位角Aを360°の全方位にわたって設定すること、すなわち360°の全方位に向けてビームを張ることが可能となっている。従って、図2に示すBFマイクMは、音源方位360°対応のビームフォーミングマイクアレイであると言える。
A sound collection azimuth angle A is an azimuth angle representing the central angle of the
In the BF microphone M, by arranging the eight
ビーム幅βは、集音方位角Aに対するBFマイクMの指向性を表す角度である。ビーム幅βが小さいほど、指向性が高くなる。またビーム幅βが大きいほど、集音可能な範囲が広くなる。本実施形態では、ビーム幅βは一定の値に設定されるものとする。
なお、マイク16の個数やマイクアレイの直径等のBFマイクMの装置規模を拡大することで、ビーム幅βを可変にすることも可能である。この場合、例えば発話者1の状況やシーンに応じてビーム幅βを変更するといった処理が行われてもよい。
The beam width β is an angle representing the directivity of the BF microphone M with respect to the sound collection azimuth A. The smaller the beam width β, the higher the directivity. Also, the larger the beam width β, the wider the sound-collectable range. In this embodiment, the beam width β is set to a constant value.
The beam width β can be made variable by increasing the size of the BF microphone M, such as the number of
本実施形態では、集音方位角Aは、外部のセンサ(検出カメラ10)を用いて検出された発話者1の位置の情報をもとに、発話者1を逐次追従するように設定される。集音対象となる発話者1に対して、ビーム7の方位角度の範囲をA±βに制御することで、目的音である発話者1の音声5の高品位な集音を実現することが可能となる。
集音方位角Aを設定する方法については、後に詳しく説明する。
In this embodiment, the sound collection azimuth angle A is set so as to sequentially follow the
A method for setting the sound collection azimuth angle A will be described later in detail.
図1に戻り、検出カメラ10は、音源である発話者1を撮影するカメラである。検出カメラ10は、例えば発話者1がいる空間に向けて配置され、集音システム100の動作中に発話者1を撮影する。
検出カメラ10としては、CMOSやCCD等のイメージセンサを備えたデジタルカメラが用いられる。また検出カメラ10として、例えばステレオカメラやToFカメラ等の奥行きを測定可能な測距カメラが用いられてもよい。
なお検出カメラ10は、1台でもよいし、複数の検出カメラ10が用いられてもよい。
Returning to FIG. 1, the
As the
One
記憶部11は、不揮発性の記憶デバイスであり、例えばSSD(Solid State Drive)やHDD(Hard Disk Drive)等が用いられる。その他、コンピュータが読み取り可能な非一過性の任意の記録媒体が用いられてよい。
図1に示すように記憶部11には、制御プログラム12と、マイク情報13と、音声データベース(音声DB14)とが記憶される。
The
As shown in FIG. 1, the
制御プログラム12は、集音システム100全体の動作を制御するプログラムである。
マイク情報13は、複数のBFマイクMに関する情報である。例えば各BFマイクMが配置された位置の3次元座標や、各BFマイクMの姿勢等がマイク情報として格納される。これらのマイク情報は、ビームフォーミング処理を実行する際に適宜参照される。この他、BFマイクMの種類や型番等がマイク情報13として格納されてもよい。
音声DB14は、発話者1の音声データ6を記録したデータベースである。例えばコントローラ20で生成された音声データ6が、発話者1のラベルとともに逐次記録される。また例えば、複数の発話者1がいる場合には、各発話者1ごとに音声データ6が記録される。
The
The
The
コントローラ20は、集音システム100が有する各ブロックの動作を制御する。コントローラ20は、例えばCPUやメモリ(RAM、ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが記憶部11に記憶されている制御プログラム12をRAMにロードして実行することにより、種々の処理が実行される。
The
コントローラ20は、例えばPC等のコンピュータを用いて構成される。またコントローラ20として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。
The
本実施形態では、コントローラ20のCPUが本実施形態に係る制御プログラム12を実行することで、機能ブロックとして、画像処理部21、集音制御部22、及び集音処理部23が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
In this embodiment, the CPU of the
画像処理部21は、検出カメラ10が撮影した画像に対して各種の画像処理を実行して音源情報を生成する。ここで音源情報とは、集音システム100の集音対象となる音源に関する情報である。
音源情報には、音源を識別する情報が含まれる。例えば複数の音源が集音対象となっている場合には、各音源を識別するID等が音源情報として生成される。
また音源情報には、音源の位置を示す情報、音源が音を発する方向を示す情報が含まれる。すなわち、音源が音を発する位置及び方向を示す情報が音源情報として生成される。
このように、画像処理部21は、音源の位置と音源が音を発する方向とを示す音源情報を取得する。本実施形態では、画像処理部21は、音源情報を取得する情報取得部に相当する。
The
The sound source information includes information for identifying the sound source. For example, when a plurality of sound sources are targeted for sound collection, an ID or the like for identifying each sound source is generated as sound source information.
The sound source information includes information indicating the position of the sound source and information indicating the direction in which the sound source emits sound. That is, information indicating the position and direction in which the sound source emits sound is generated as the sound source information.
Thus, the
本実施形態では、音源である発話者1を対象とした音源情報が生成される。
このため、音源を識別する情報は、発話者1を識別する情報(発話者1の名称やID等)となる。画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データから発話者1が識別される。発話者1の識別には、例えば画像認識技術を利用した個人識別等の処理が用いられる。
In this embodiment, sound source information is generated for the
Therefore, the information identifying the sound source is the information identifying the speaker 1 (name, ID, etc. of the speaker 1). The
また音源の位置を示す情報は、発話者1の位置を示す情報となる。
画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データから発話者1の位置が算出される。発話者1の位置を示す情報は、発話者1がいる床面における2次元座標でもよいし、発話者1の頭部の3次元座標でもよい。
発話者1の位置を算出する方法は限定されない。
Information indicating the position of the sound source is information indicating the position of the
The
A method for calculating the position of
また音源が音を発する方向は、発話者1の発話方向である。発話方向は、例えば発話者1の頭部正面が向けられた方向である。音源情報には、このような発話者1の発話方向を示す情報(例えば発話者1の頭部の向き等を示す情報)が含まれる。
画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データに基づいて、発話者1に関するボーン検出(骨格推定)が実行され発話者1の発話方向が推定される。ボーン検出を用いることで、発話方向を精度よく推定することが可能である。また複数の発話者1が存在する場合であっても、各発話者1の発話方向を容易に推定可能である。
なお発話方向を検出する方法は、ボーン検出を用いた方法に限定されず、例えば頭部の向き等を推定可能な任意の方法が用いられてよい。
Also, the direction in which the sound source emits sound is the speaking direction of
The
Note that the method of detecting the speech direction is not limited to the method using bone detection, and any method that can estimate the orientation of the head, for example, may be used.
例えば、発話者1が特定できている場合には、その発話者1の位置や発話方向が逐次算出される。また、複数の発話者1が存在する場合には、各発話者1が個別に識別され、発話者1ごとに音源情報(位置や発話方向)が算出される。
このように、集音システム100では、検出カメラ10と、画像処理部21とにより、集音対象となる発話者1を識別し、発話者1の位置及び発話方向を検出する検出装置が構成される。
For example, when
As described above, in the
集音制御部22は、集音システム100による集音動作を制御する。
本実施形態では、集音制御部22は、上記した音源情報に基づいて、音源(発話者1)の周辺に配置され集音方向3を設定可能な複数のBFマイクMから、音源が発する音(発話者1の音声5)の集音に用いる少なくとも1つの対象マイク25を選択する。
ここで対象マイク25とは、集音対象となる発話者1の音声データ6の生成に使用されるBFマイクMである。すなわち、対象マイク25として選択されたBFマイクMの出力が、音声データ6の元データとして用いられる。
The sound
In the present embodiment, the sound
Here, the
対象マイク25は、音源情報が示す発話者1の位置や発話方向をもとに選択される。
この処理では、例えば発話者1の音声5を十分な感度で検出することができるBFマイクMが、対象マイク25として選択される。選択されるBFマイクMは1つでもよいし、複数でもよい。これにより、発話者1の状態にあった適切なBFマイクMを対象マイク25として選択することが可能となる。
図1に示す例では、BFマイクM1が対象マイク25に選択されている。
The
In this process, for example, the BF microphone M that can detect the
In the example shown in FIG. 1, the BF microphone M1 is selected as the
また本実施形態では、集音制御部22は、音源情報に基づいて、対象マイク25の集音方向3を設定する。すなわち、音源情報が示す発話者1の位置や発話方向をもとに、対象マイク25のビーム7の方向が設定される。
この処理では、例えば発話者1の発話方向に沿った集音が可能となるように、集音方向3(ビーム7の方向)が設定される。これにより、発話方向2にあった適切な集音方向を設定することが可能となる。
Further, in this embodiment, the sound
In this process, the sound collection direction 3 (the direction of the beam 7) is set so that the sound can be collected along the utterance direction of the
なお、複数の発話者1が集音対象となる場合には、各発話者1の音源情報をもとに、各発話者1ごとに対象マイク25が選択されその集音方向3が設定される。
When a plurality of
図1に示すように、集音制御部22では、複数のBFマイクMのうち対象マイク25を指定する信号(音声選択信号)と、対象マイク25に関する集音方向3を指定する信号(集音方向信号)とが生成される。
音声選択信号は、集音処理部23に出力される。また対象マイク25として選択されたBFマイクMについては、集音方向信号が指定する方向にその集音方向3が設定される。
なお図1では、各BFマイクMに対して集音方向信号が出力される様子が模式的に図示されている。実際には、集音方向信号は、集音処理部23に出力され、集音処理部23により実行される対象マイク25に関するビームフォーミング処理に用いられる。
As shown in FIG. 1, in the sound
The audio selection signal is output to the sound
Note that FIG. 1 schematically shows how the sound collection direction signal is output to each BF microphone M. As shown in FIG. In practice, the sound collection direction signal is output to the sound
集音処理部23は、少なくとも1つの対象マイク25の出力に基づいて、発話者1が発する音声5を表す音声データ6を生成する。
上記したように対象マイク25の出力は、対象マイク25を構成する複数のマイク16a~16hが生成する音信号である。これらの音信号に対して、ビームフォーミング処理が実行され、発話者1の音声5を集音した音声データ6が生成される。本実施形態では、音声データ6は、音源が発する音を表す音データに相当する。
図1に示すように、集音処理部23は、マイク切替部27と、音声データ生成部28とを有する。
The sound
As described above, the output of the
As shown in FIG. 1 , the sound
マイク切替部27は、音声選択信号に基づいて、複数のBFマイクMから対象マイク25を選択する。マイク切替部27は、全てのBFマイクMの出力を読み込むことが可能である。このうち、音声選択信号により対象マイク25に指定されたBFマイクMの出力が読み込まれる。従ってマイク切替部27は、複数のBFマイクMの出力のうち対象マイク25の出力を読み込むことで、対象マイク25を選択するとも言える。
The
なお図1に示すマイク切替部27は、4つのBFマイクM1~M4のうち、単一のBFマイクMを対象マイク25として選択する切替スイッチとして模式的に図示されている。これに限定されず、マイク切替部27は、4つのBFマイクM1~M4のうち、複数のBFマイクMを対象マイク25として選択することも可能である。
Note that the
音声データ生成部28は、マイク切替部27により読み込まれた対象マイク25の出力(マイク16a~16hの音信号)にビームフォーミング処理を実行し音声データ6を生成する。
ビームフォーミング処理では、集音方向信号が指定する集音方向3にビーム7が設定される。そして設定されたビーム7に沿って到来する音波について、伝搬遅延を補正する処理や、補正後の音信号を加算する処理等が実行される。
またビームフォーミング処理の他にも、各音信号の強度を調整する処理や、ノイズを除去する処理等が実行されてもよい。
The audio
In the beamforming process, the
In addition to the beamforming process, a process of adjusting the intensity of each sound signal, a process of removing noise, and the like may be performed.
音声データ生成部28により生成された音声データ6は、所定の再生装置29に出力される。あるいは、音声データ6は、記憶部11に構成された音声DB14に格納される。
なお、複数の発話者1が集音対象となる場合には、各発話者1ごとに選択された対象マイク25の出力をもとに、各発話者1ごとに音声データ6が生成される。
The audio data 6 generated by the
Note that when a plurality of
図4は、集音システム100の基本的な集音動作を示す模式図である。図4には、発話者1と、2つのBFマイクM1及びM2と、検出カメラ10とが模式的に図示されている。
以下では、発話者1の位置をQと記載し、BFマイクM1及びM2の位置をそれぞれP1及びP2と記載する。また発話者1の発話方向2やBFマイクMの集音方向3が水平面内の方向であるものとして説明を行う。図4には発話方向2及び集音方向3が、それぞれ白抜きの実線の矢印及び黒抜きの実線の矢印を用いて模式的に図示されている。
また、発話者1の発話方向2と、発話者1から見たBFマイクMの方向とのなす角度を、BFマイクMの集音角度と記載する。
FIG. 4 is a schematic diagram showing the basic sound collection operation of the
In the following, the position of
Also, the angle formed by the
図4では、発話者1は、図中の右側を向いている。従って、発話者1の発話方向2は、図中の右側に向かう方向となる。
また発話者1の正面から左側にずれた位置には、BFマイクM1が配置されており、発話者1から見て右側にはBFマイクM2が配置されている。従って、BFマイクM1の集音角度は、BFマイクM2の集音角度よりも小さい。なお、発話者1から見て、BFマイクM1の位置は、BFマイクM2の位置よりも離れている。
In FIG. 4,
A BF microphone M1 is arranged at a position shifted to the left side from the front of the
例えば検出カメラ10により検出された発話者1の位置情報だけを用いて、発話者1の音声5を集音するためのBFマイクMを選択する場合を考える。位置情報だけを参照した場合、例えば発話者1に最も近い位置にあるBFマイクM2が選択される。
For example, consider the case of selecting the BF microphone M for collecting the
ところで、図4に示すシーンでは、発話者1は、BFマイクM2の方向を向いておらず、発話者1の発話方向2と、発話者1から見たBFマイクM2の方向(点Qから点P2に向かう方向)とのなす集音角度が90°を超えている。
例えば、発話位置(発話者1の口元)で発話された音声5を点音源とすると、発話者1自身が障害物となる。このため、BFマイクM2は、口元で発せられた直接音ではなく回折音を集音することになる。
By the way, in the scene shown in FIG. 4, the
For example, if the
ここで、直接音とは、障害物等によって遮られることなく、音源からBFマイクMに到達する音声5である。
一方で、障害物によって遮られ障害物を回り込んで伝搬された音声5(障害物による回折を受けた音声5)は、回折音となる。例えば、集音角度が十分に大きくなると音声5の回折数が多くなり、その分だけ音声5の減衰量も大きくなる。
Here, the direct sound is the
On the other hand, the
また図4に示すように、BFマイクM2では、発話者1の左側から到来する環境雑音30が直接集音される。従って、BFマイクM2を用いて発話者1の音声5を集音する場合、目的音である音声5に比べ環境雑音30の音量レベルが高くなる。
Further, as shown in FIG. 4, the BF microphone M2 directly picks up ambient noise 30 coming from the left side of the
これに対し、図4に示すシーンでは、BFマイクM1は、発話者1の正面近くに配置される。このため、発話方向2に対するBFマイクM1の集音角度は90°未満となる。従って、BFマイクM1を用いた場合、発話者1が発した直接音を集音可能となり、回折音を集音する場合に比べて音声5の減衰量を十分に抑制することができる。
またBFマイクM1は、環境雑音30を直接集音することはない。これにより、発話者1の音声5の雑音レベルを十分に抑制することが可能である。
On the other hand, in the scene shown in FIG. 4, the BF microphone M1 is arranged near the front of the
Also, the BF microphone M1 does not directly pick up the environmental noise 30 . Thereby, the noise level of the
そこで、集音システム100では、検出カメラ10で撮影した映像信号(画像データ)をもとに、画像処理部21により発話者1の位置検出と同時に、発話者1のボーン検出が実行されその発話方向2が検出される。
このようにして得られた発話者1の位置Q及び発話方向2の情報(音源情報)から、集音制御部22により発話者1の音声5を集音するBFマイクM(対象マイク25)が選択される。また集音制御部22により対象マイク25の集音方向3が設定される。
Therefore, in the
Based on the information (sound source information) of the position Q of the
対象マイク25を選択する処理では、音源である発話者1が音声5を発する発話方向2を基準として発話者1が発する直接音を集音可能なBFマイクMが判定され、当該BFマイクMが対象マイク25として選択される。
例えば発話方向2を中心とする所定の範囲に集音方向3を設定可能であるか否かを判定することで、直接音を集音可能であるか否かが判定される。例えば音源が発話者1である場合、発話方向2を中心として±90°の範囲が、所定の範囲として設定される。
直接音を集音可能であるか否かを判定する方法は限定されず、例えば障害物の有無等に応じて判定されてもよい。
図4に示す例では、発話方向2から左側にずれて配置されたBFマイクM1が、直接音を集音可能であるとして、対象マイク25として選択される。
In the process of selecting the
For example, by determining whether or not the
The method of determining whether direct sound can be collected is not limited, and determination may be made according to the presence or absence of an obstacle, for example.
In the example shown in FIG. 4, the BF microphone M1, which is displaced to the left from the speaking
また集音方向3を設定する処理では、対象マイク25から発話者1に向かう方向が対象マイク25の集音方向3に設定される。これにより、発話者1が発する直接音を最も効率的に集音することが可能となる。
図4に示す例では、対象マイク25であるBFマイクM1の位置P1から、発話者1の位置Qに向かう方向が、BFマイクM1の集音方向3に設定される。またBFマイクM1のビーム7の範囲は、発話者1に向かう集音方向3を中心として±βの角度で広がる扇状の領域となる。
In the process of setting the
In the example shown in FIG. 4, the direction from the position P1 of the BF microphone M1, which is the
このように、集音システム100には、特定方向からの音を集音可能な複数の集音装置(BFマイクM)と、集音対象となる発話者1の位置Q及び発話方向2を検出する機構(検出カメラ10及び画像処理部21)が設けられる。そして、集音制御部22により発話者1の位置Q及び発話方向2にあったBFマイクMが選択され、集音処理部23により発話者1の音声データ6が生成される。これにより、発話者1の音声5を品質よく集音することが可能となる。
In this way, the
例えば、発話者1の近くにある集音マイクを用いて集音を行うような会議システムでは、発話者1が集音マイクに背を向けていた場合、発話方向2とは反対の方向から集音を行うことになり、音量や音質が大幅に低下する可能性があった。例えばビームフォーミング技術を備えたマイクアレイを用いる場合でも同様の問題が発生する。
For example, in a conference system that collects sound using a sound collecting microphone near
これに対して、本実施形態に係る集音システム100では、複数のBFマイクMから、発話者1の位置Q及び発話方向2にあったBFマイクMを選択して集音動作が実行される。
例えば映像コンテンツの制作現場等では、演者の正面から集音するようにマイクの位置を移動させている。また演者の正面から集音する場合に、その背後からくる雑音の混入が想定される場合には、マイクの指向範囲にノイズ源が入らないようにマイクの位置や姿勢を変化させて高音質な集音を実現している。
集音システム100で行われる集音動作は、発話者1を正面から集音を出来るBFマイクMを選択することで、上記した制作現場での集音方法と同様の効果を発揮するものである。
On the other hand, in the
For example, at a video content production site, etc., the position of the microphone is moved so as to collect sound from the front of the performer. Also, when collecting sound from the front of the performer, if noise coming from behind is expected to be mixed in, change the position and posture of the microphone so that the noise source does not enter the directional range of the microphone to achieve high sound quality. Sound collection is realized.
In the sound collection operation performed by the
また集音システム100では、集音動作が行われている間に、上記した画像処理部21により所定のフレームレートで発話者1の音源情報(位置Q及び発話方向2)を算出する処理が繰り返し実行される。従って画像処理部21は、音源情報をモニタリングするともいえる。
また、集音制御部22により、音源情報のモニタリング結果に応じて、対象マイク25と対象マイク25の集音方向とを指定する信号(音声選択信号及び集音方向信号)を動的に算出される。そして、集音処理部23により、音声選択信号及び集音方向信号に基づいて、音声データ6が生成される。
これにより、各タイミングでの発話者1の位置や発話方向に応じて、動的に集音動作を行うことが可能となり、発話者1の音声5を常時高感度で集音することが可能となる。
Further, in the
In addition, the sound
As a result, it is possible to dynamically collect sound according to the position and speaking direction of the
図5は、集音システムの動作例を示すフローチャートである。図6は、BFマイクMの配置例を示す模式図である。
図5に示す処理は、図6に示すように配置された4つのBFマイクM1~M4から集音に用いる対象マイク25を選択する処理である。なお対象マイク25についての集音方向を設定する処理や、対象マイク25の出力から音声データ6を生成する処理等は、対象マイク25を選択した後に適宜実行される。
また図5に示す処理は、集音動作が行われている間に所定のフレームレートで繰り返し実行されるループ処理である。
FIG. 5 is a flowchart showing an operation example of the sound collection system. FIG. 6 is a schematic diagram showing an arrangement example of the BF microphones M. As shown in FIG.
The processing shown in FIG. 5 is processing for selecting the
The processing shown in FIG. 5 is loop processing that is repeatedly executed at a predetermined frame rate while the sound collection operation is being performed.
まず、図6に示すBFマイクMの配置について説明する。ここでは、4つのBFマイクM1~M4が、正方形状の領域の4つの頂点にそれぞれ配置される。この正方形状の領域が、集音システム100の集音対象領域40である。ここでは、集音対象領域40内の各点において、図中上方向の方位角を0°とし、時計回りの方向に方位角が増えるものとする。
BFマイクM1は図中右上の頂点に配置され、BFマイクM2は図中右下の頂点に配置され、BFマイクM3は図中左下の頂点に配置され、BFマイクM4は図中左上の頂点に配置される。
First, the arrangement of the BF microphones M shown in FIG. 6 will be described. Here, four BF microphones M1 to M4 are arranged at four vertices of a square area. This square area is the sound
The BF microphone M1 is placed at the upper right vertex in the figure, the BF microphone M2 is placed at the lower right vertex in the figure, the BF microphone M3 is placed at the lower left vertex in the figure, and the BF microphone M4 is placed at the upper left vertex in the figure. placed.
また本実施形態では、複数のBFマイクMは、各々の配置に応じて割り当てられた割当範囲41に集音方向3を設定可能なように構成される。
割当範囲41は、例えば各BFマイクMが集音を担当する角度範囲であり、典型的には水平面における方位角度の範囲である。割当範囲41は、各BFマイクMの位置や、集音対象領域40の形状に合わせて適宜設定される。
Further, in this embodiment, the plurality of BF microphones M are configured so that the
The
図6には、円弧状の矢印を用いてBFマイクM1の割当範囲41が模式的に図示されている。BFマイクM1の割当範囲41は、BFマイクM1を基準として180°から270°の範囲である。同様に、BFマイクM2の割当範囲41は、270°から360°の範囲であり、BFマイクM3の割当範囲41は、0°から90°の範囲であり、BFマイクM4の割当範囲41は、90°から180°の範囲である。
各BFマイクMは、少なくとも上記した割当範囲41内に集音方向3を設定可能である。
FIG. 6 schematically illustrates the
Each BF microphone M can set the
図5に示すように、まず画像処理部21により、検出カメラ10が撮影した画像データから発話者1が検出される(ステップ101)。発話者1の検出には、例えば人物を検出する任意の画像処理が用いられる。この時、発話者1の識別が行われてもよい。
As shown in FIG. 5, the
またステップ101では、発話者1が検出された場合、発話者1の位置座標が検出される。ここでは、集音対象領域40における発話者1の位置Qの2次元座標(xy座標)が検出される。
またステップ101では、発話者1に対してボーン検出が実行され、発話者1の発話方向2が検出される。ここでは、集音対象領域40における発話方向2の方位角度(正面角度)が検出される。
Also, in step 101, when the
Also, in step 101, bone detection is performed for
図7は、発話者1の発話方向2の一例を示す模式図である。
図7に示すように、発話者1の位置Qを基準に算出される。ここでは、発話者1の位置Qから見て、図中上方向の方位角を0°とする。また図中右方向の方位角を90°とし、図中下方向の方位角を180°とし、図中左方向の方位角を270°とする。
発話者1の発話方向2、すなわち発話者1の正面角度θは、0°~360°の方位角度として算出される。例えば図7に示す発話方向2の角度θは、およそ120°である。
FIG. 7 is a schematic diagram showing an example of the
As shown in FIG. 7, it is calculated based on the position Q of
The
なお、発話者1の位置Qや発話方向2が検出できない場合には、各パラメータの検出ができない旨の情報が記録されてもよい。
If the position Q and the
次に、発話方向2が検出可能であるか否かが判定される(ステップ102)。
例えば画像処理部21により発話方向2が検出されない場合、発話方向2が検出できない状態であると判定され(ステップ102のNo)、発話者1の位置Q(xy座標)が取得可能であるか否かが判定される(ステップ103)。
例えば画像処理部21により発話者1の位置Qが検出されない場合、発話者1の位置Qが検出できない状態であると判定され(ステップ103のNo)、再度ステップ101が実行される。
Next, it is determined whether
For example, when the
For example, when the position Q of the
一方で、発話者1の位置Qが検出された場合、発話者1の位置Qが検出可能な状態であると判定され(ステップ103のYes)、発話者1の位置Qに最寄りのBFマイクMが、対象マイク25として選択される(ステップ104)。
このように、発話方向2が不明であるが、発話者1の位置Qがわかっている場合には、発話者1に直近にあるBFマイクM(図5ではBFマイク(N)と記載している)が選択される。なおNはBFマイクMを表すインデックスであり、N=1、2、3、4である。
ステップ104で、対象マイク25が選択されると、次のループ処理が実行される。
On the other hand, when the position Q of the
In this way, when the
At step 104, when the
ステップ102に戻り、画像処理部21により発話方向2が検出された場合、発話方向2が検出可能な状態であると判定され(ステップ102のYes)、発話方向2に最も適したBFマイクMの有無が判定される(ステップ105)。
Returning to step 102, when the
ここで、発話方向2に最も適したBFマイクMとは、発話方向2と割当範囲41の中心方向とが対応しているBFマイクMである。
このようなBFマイクMを用いることで、割当範囲41の中心に沿って到来する音声5を集音することが可能となる。この結果、効果的に音声5を強調することや、他のノイズを抑制するといった処理が可能となり、高品質な音声データ6を生成可能となる。
具体的には発話方向2の角度θが、以下の関係を満たすか否かが判定される。
θ=90°×N-45° ・・・(1)
Here, the BF microphone M most suitable for the
By using such a BF microphone M, it is possible to collect the
Specifically, it is determined whether or not the angle θ of the speaking
θ=90°×N-45° (1)
(1)式より、N=1の場合、θ=45°となる。このθ=45°の発話方向2は、BFマイクM1の割当範囲41(180°から270°)の中心方向(225°)を180°回転させた方向であり、中心方向に沿ってBFマイクM1に進行する方向である。すなわち、θ=45°の発話方向2は、BFマイクM1の割当範囲41の中心方向と対応している。この場合、BFマイクM1が、発話方向2に最も適したBFマイクMとなる。
同様に、N=2、3、4について、(1)式が満たされる場合には、BFマイクM2、M3、及びM4が、それぞれ発話方向2に最も適したBFマイクMとなる。
From the equation (1), when N=1, θ=45°. This
Similarly, for N=2, 3, and 4, BF microphones M2, M3, and M4 are the most suitable BF microphones M for
なおステップ105では、(1)式によるθの判定に一定の幅αを持たせた処理が実行されてもよい。例えば、発話方向2の角度θが(90°×N-45°-α)≦θ≦(90°×N-45°+α)を満たすか否かが、各Nについて判定される。このように、発話方向2と割当範囲41の中心方向とが多少ずれていた場合であっても、高品質な音声データ6を生成可能である。
Note that in step 105, processing may be performed in which a certain width α is given to the determination of θ by equation (1). For example, it is determined for each N whether the angle θ of the speaking
(1)式を満たすNが存在した場合(ステップ105のYes)、(1)式を満たすBFマイク(N)が、発話方向2に最も適したBFマイクMとして対象マイク25に選択される(ステップ106)。
このように、本実施形態では、割当範囲41の中心方向が発話方向2と対応しているBFマイクMが対象マイク25として選択される。これにより、発話者1の音声5を十分高い音質で集音するといったことが可能となる。
ステップ106で、対象マイク25が選択されると、次のループ処理が実行される。
If there is N that satisfies the expression (1) (Yes in step 105), the BF microphone (N) that satisfies the expression (1) is selected as the
Thus, in this embodiment, the BF microphone M whose center direction of the
At step 106, when the
ステップ105に戻り、(1)式を満たすNが存在しない場合(ステップ105のNo)、発話者1の位置Qのxy座標から、発話者1に最寄りのBFマイクMが検出される(ステップ107)。
例えば図6に示す例では、発話者1の発話方向2について(1)式を満たすNは存在しないと判定され、発話者1に最も近いBFマイクM4(N=4)が検出される。
Returning to step 105, if there is no N satisfying the formula (1) (No in step 105), the BF microphone M closest to
For example, in the example shown in FIG. 6, it is determined that there is no N that satisfies the expression (1) for the
ステップ107で検出されたBFマイクMについて、発話方向2に沿った集音が可能であるか否かが判定される(ステップ108)。ここで、発話方向2に沿った集音とは、発話方向2がビーム7の方向範囲に含まれた状態で行われる集音動作である。
図6を参照して説明したように、ここでは各BFマイクMが、90°の割当範囲41内で集音方向3を設定可能である。従って、N番目のBFマイクMが設定可能な方位角の範囲は、90°×(N-1)-βから、90°×N+βまでの範囲となる。
ステップ108では、発話者1に最も近いBFマイク(N)について、発話方向2の角度θが上記したビーム7を設定可能な範囲に収まるか否かが判定される。これは、以下の関係を満たすか否かを判定する処理である。
90×(N-1)-β≦θ≦90°×N+β ・・・(2)
For the BF microphone M detected in step 107, it is determined whether or not sound can be collected along the speaking direction 2 (step 108). Here, the sound collection along the
As explained with reference to FIG. 6, here each BF microphone M can set the
At step 108, for the BF microphone (N) closest to the
90×(N−1)−β≦θ≦90°×N+β (2)
図6を参照して(2)式の判定について説明する。ここでは、BFマイクM4(N=4)が最寄りのBFマイクMとして検出されているため、(2)式は、270-β≦θ≦360°+βとなる。これは、BFマイクM4の割当範囲41に集音方向3を設定するという条件のもとで設定可能なビーム7の範囲に対応する。この範囲に、発話方向2の角度θが含まれているかどうかが判定される。
これにより、発話者1に最も近いBFマイクMにおいて、発話方向2に沿った集音が可能であるかどうかがわかる。
The determination of expression (2) will be described with reference to FIG. Here, since the BF microphone M4 (N=4) is detected as the nearest BF microphone M, the formula (2) is 270-β≤θ≤360°+β. This corresponds to the range of the
Thus, it can be determined whether or not the BF microphone M closest to the
(2)式が満たされる場合(ステップ108のYes)、ステップ107で検出された最寄りのBFマイク(N)が対象マイク25に選択される(ステップ109)。これにより、発話者1に最も近い位置から十分な感度で音声5を集音することが可能となる。
ステップ109で、対象マイク25が選択されると、次のループ処理が実行される。
If the expression (2) is satisfied (Yes in step 108), the nearest BF microphone (N) detected in step 107 is selected as the target microphone 25 (step 109). This makes it possible to collect the
At step 109, when the
また(2)式が満たされない場合(ステップ108のNo)、ステップ107で検出された最寄りのBFマイク(N)は対象マイク25としては選択されない。この場合、次のBFマイク(N+1)について、発話方向2に沿った集音が可能であるか否かが判定される(ステップ110)。
この処理では、発話方向2の角度θが以下の関係を満たすか否かが判定される。
90×N+β<θ≦90×(N+1)+β ・・・(3)
Also, if the formula (2) is not satisfied (No in step 108), the nearest BF microphone (N) detected in step 107 is not selected as the
In this process, it is determined whether or not the angle θ of the speaking
90×N+β<θ≦90×(N+1)+β (3)
(3)式は、発話者1の最寄りのBFマイク(N)に隣接するBFマイク(N+1)が、設定可能なビーム7の範囲のうち、BFマイク(N)と重複しない範囲に発話方向2の角度θが含まれているかどうかを判定する条件式である。
図6に示す例では、最寄りのBFマイクM4であった。この場合ステップ110では、その次のBFマイクM1(N=1)がBFマイクM4とは別に設定可能なビーム7の範囲を対象として判定処理が実行される。
Expression (3) is such that the BF microphone (N+1) adjacent to the BF microphone (N) closest to the
In the example shown in FIG. 6, it was the nearest BF microphone M4. In this case, in step 110, determination processing is executed for the range of the
(3)式が満たされる場合(ステップ110のYes)、最寄りのBFマイク(N)に隣接するBFマイク(N+1)が対象マイク25に選択される(ステップ111)。これにより、発話者1に2番目(又は3番目)に近い位置から十分な感度で音声5を集音することが可能となる。
ステップ111で、対象マイク25が選択されると、次のループ処理が実行される。
If the expression (3) is satisfied (Yes in step 110), the BF microphone (N+1) adjacent to the nearest BF microphone (N) is selected as the target microphone 25 (step 111). This makes it possible to collect the
At step 111, when the
また(3)式が満たされない場合(ステップ110のNo)、最寄りのBFマイク(N)にBFマイク(N+1)とは反対側で隣接するBFマイク(N-1)が対象マイク25に選択される(ステップ112)。これにより、BFマイク(N+1)が選択された場合と同様に、発話者1に十分近い位置から十分な感度で音声5を集音することが可能となる。
ステップ112で、対象マイク25が選択されると、次のループ処理が実行される。
Further, if the formula (3) is not satisfied (No in step 110), the BF microphone (N−1) adjacent to the nearest BF microphone (N) on the opposite side of the BF microphone (N+1) is selected as the
At step 112, when the
ステップ107~ステップ112で行われる処理は、発話方向2に沿った集音が可能なBFマイクMを近い順番に検索して対象マイク25に設定する処理である。このように、本実施形態では、発話方向2が割当範囲41の中心方向に対応するBFマイクMが存在しない場合、発話方向2に沿った集音が可能であり、音源との距離が最も近いBFマイクMが対象マイクとして選択される。
これにより、可能な限り高い感度で音声5を集音することが可能なBFマイクMを対象マイク25に設定することが可能となる。この結果、音声データ6の音質を十分に向上することが可能となる。
The process performed in steps 107 to 112 is a process of retrieving BF microphones M capable of collecting sound along the speaking
This makes it possible to set the BF microphone M capable of collecting the
図8は、複数の発話者1に対する集音動作について説明するための模式図である。以下では、集音対象領域40に複数の発話者1が居る場合の集音動作について説明する。
ここでは、正方形状の集音対象領域40の中心に置かれた机43の周りに座っている4人の発話者1A、1B、1C、及び1Dを対象として集音動作が行われものとする。発話者1A、1B、1C、及び1Dは、集音対象領域40の中心から見て図中の左上、右上、右下、及び左下に位置し、互いに向かい合うようにして会話をしている。
また集音対象領域40の4つの頂点には、図6と同様にBFマイクM1~M4がそれぞれ配置される。
FIG. 8 is a schematic diagram for explaining the sound collection operation for a plurality of
Here, it is assumed that four
BF microphones M1 to M4 are arranged at the four vertices of the sound
複数の発話者1が集音対象となる場合、画像処理部21は、複数の発話者1(音源)ごとに音源情報を取得する。
具体的には、集音対象領域40を図示しない検出カメラ10で撮影した画像データから、発話者1A、1B、1C、及び1Dの各々について、各発話者1の位置と発話方向2とがそれぞれ検出される。
When a plurality of
Specifically, from the image data captured by the detection camera 10 (not shown) of the sound
各発話者1の音源情報が取得されると、集音制御部22は、複数の発話者1ごとの音源情報に基づいて、複数の発話者1ごとに対象マイク25をそれぞれ選択する。また集音制御部22は、複数の発話者1ごとに選択された各対象マイク25について、集音方向3をそれぞれ設定する。
図8に示す例では、発話者1Aの対象マイク25として、集音対象領域40の右上に配置されたBFマイクM1が選択される。また、発話者1Bの対象マイク25として、集音対象領域40の左上に配置されたBFマイクM4が選択される。また、発話者1Cの対象マイク25として、集音対象領域40の左下に配置されたBFマイクM3が選択される。また、発話者1Dの対象マイク25として、集音対象領域40の右下に配置されたBFマイクM2が選択される。
When the sound source information of each
In the example shown in FIG. 8, the BF microphone M1 arranged at the upper right of the sound
例えば、発話者1Aの音声5の集音に、発話者1Aの直近に配置されたBFマイクM4を用いるとする。ここでは、発話者1Aは、机を挟んで対峙している発話者1B及び発話者1Cのほうを向いて会話をしている。このため、発話者1Aの発話方向2に対するBFマイクM4の集音角度は、90°以上である。さらにBFマイクM4を用いて発話者1Aの音声5を集音する場合、発話者1B及び1Cの発話方向2の90°以内にビームフォーミングの集音方向3を設定することになる。
この結果、BFマイクM4では、発話者1Aの回折音と、発話者1B及び1Cの直接音とを集音することになり、発話者1Aの音声5を選択的に集音することが難しくなる。
For example, suppose that the BF microphone M4 arranged in the immediate vicinity of the
As a result, the BF microphone M4 collects the diffracted sound of the
これに対し、例えば図5を参照して説明した処理のように、発話方向2の情報を加味することで、発話者1Aの音声を集音する対象マイク25として、BFマイクM1を選択することが可能である。BFマイクM1を用いることで、発話者1Aの直接音を集音することが可能となる。またBFマイクM1から発話者1Aに向けて設定される集音方向3は、発話者1B及び1Cの音声5をほとんど集音しない。このように、発話者1B及び1Cをビームフォーミングの集音範囲外にすることが可能となるので、集音対象でない発話者1の影響を十分に抑えることが可能となる。
On the other hand, the BF microphone M1 can be selected as the
発話者1B~1Dに対して設定される対象マイク25についても、上記と同様の効果を発揮することが可能である。これにより、複数の発話者1が居る場合であっても、各発話者1の音声5を個別にかつ良好な音質で集音することが可能となる。
The same effects as described above can be exhibited for the
図9は、複数のBFマイクMを用いた集音動作の一例を示す模式図である。
図9では、複数のBFマイクMを使って一人の発話者1の音声を集音する例について説明する。この場合、集音制御部22では、単一の音源(一人の発話者1)について、複数のBFマイクMから複数の対象マイク25が選択される。
ここでは、図6や図8と同様に4つのBFマイクM1~M4が正方形状の集音対象領域40に配置される。
FIG. 9 is a schematic diagram showing an example of sound collection operation using a plurality of BF microphones M. FIG.
In FIG. 9, an example of collecting the voice of one
Here, as in FIGS. 6 and 8, four BF microphones M1 to M4 are arranged in a square sound
図9に示す発話者1は、集音対象領域40の中心よりも図中上側に位置した状態で、図中下側を向いて音声5を発している。このため、発話者1に近接するBFマイクM1やM4では、発話者1の直接音の集音が難しい。
このような場合、集音制御部22により、集音対象領域40において発話者1の正面側(発話方向2が向けられた側)にあるBFマイクM2及びM3がともに発話者1の対象マイクとして選択される。また集音処理部23により、BFマイクM2及びM3使って、発話者1の音声5が同時に集音され、各集音結果を加算(合成)して音声データ6が生成される。
このように2つのBFマイクM2及びM3を用いることで、遠距離集音時の集音レベルを向上することが可能となり、品質を低下させることなく発話者1の音声5を集音することが可能となる。
A
In such a case, the sound
By using the two BF microphones M2 and M3 in this way, it is possible to improve the sound collection level at the time of long-distance sound collection, and it is possible to collect the
図10は、発話者1が移動する際の集音動作の一例を示す模式図である。図11は、音声5の合成処理について説明するための模式図である。ここでは、図10及び図11を参照して、集音対象領域40内を発話者1が移動する場合の対象マイク25の選択動作について説明する。
発話者1は、集音対象領域40の左上から中央右側を通って左下に向けて移動するものとする。図10には、時刻T1、T2、T3、及びT4における発話者1の位置及び発話方向2が模式的に図示されている。またビーム7の範囲を表すグレーの色は各時刻に対応しており、色が濃いほど後の時刻に設定されたビーム7を表している。
FIG. 10 is a schematic diagram showing an example of the sound collection operation when the
It is assumed that the
例えば時刻T1では、発話者1は、集音対象領域40の左上に位置し発話方向2は図中右側に向けられている。この場合、BFマイクM1が対象マイク25となり、発話者1に向けてビーム7が設定される。
時刻T2では、発話者1は、BFマイクM1に接近しており発話方向2は図中右下に向けられている。この場合、BFマイクM1とともに、BFマイクM2が対象マイク25として選択される。
時刻T3では、発話者1は、集音対象領域40の中央右側に位置し発話方向2は図中下側に向けられている。この場合、BFマイクM1は対象マイク25から外されており、BFマイクM2が対象マイク25として選択される。
時刻T4では、発話者1は、BFマイクM2に接近しており発話方向2は図中左下のBFマイクM3に向けられている。この場合、BFマイクM2とともに、BFマイクM3が対象マイク25として選択される。
For example, at time T1, the
At time T2,
At time T3, the
At time T4, the
このように、本実施形態では、発話者1の移動に伴い、複数のBFマイクMを適宜切り替えて対象マイク25が設定される。
また時刻T2やT4のように、2つのBFマイクMで集音が可能な場合には、両方のBFマイクMが対象マイク25として設定され、そのデータを用いて音声データ6が合成される。すなわち、集音処理部23では、複数の対象マイク25により集音されたデータを合成して、発話者1の音声データ6が生成される。
以下では、時刻T2の場合を例に挙げて、対象マイク25として選択された2つのBFマイクM1及びM2を用いて音声データ6を合成する方法について説明する。
As described above, in the present embodiment, the
Also, when sound can be collected by two BF microphones M, such as times T2 and T4, both BF microphones M are set as the
A method of synthesizing the audio data 6 using the two BF microphones M1 and M2 selected as the
図11には、時刻T2における発話者1とBFマイクM1及びM2との配置関係が模式的に図示されている。
発話者1からBFマイクM1に向かう方向(QからP1に向かう方向)と発話方向2とのなす角度をγ1と記載し、発話者1からBFマイクM2に向かう方向(QからP2に向かう方向)と発話方向2とのなす角度をγ2と記載する。また、発話者1とBFマイクM1との距離(QとP1との距離)をL1と記載し、発話者1とBFマイクM2との距離(QとP2との距離)をL2と記載する。
(γ1、γ2、L1、L2)は、例えば画像処理部21によるボーン検出及び人位置検出の各処理を用いてそれぞれ算出される。
FIG. 11 schematically shows the positional relationship between
The angle between the direction from
(γ 1 , γ 2 , L 1 , L 2 ) are calculated using bone detection and human position detection processing by the
ここで、発話者1の正面で集音を行った場合に、必要な発話レベルAを集音可能な距離を、基準集音距離Lと記載する。
例えば、基準集音距離Lに対して、発話者1から距離L1だけ離れた位置で集音するBFマイクM1の集音レベルA1は、以下の式で表される。
A1=A×(L/L1)2 ・・・(4)
同様に、基準集音距離Lに対して、発話者1から距離L2だけ離れた位置で集音するBFマイクM2の集音レベルA2は、以下の式で表される。
A2=A×(L/L2)2 ・・・(5)
Here, a reference sound collection distance L is the distance at which the necessary speech level A can be collected when the sound is collected in front of the
For example, the sound collection level A1 of the BF microphone M1 that collects sound at a position separated from the
A1=A×(L/ L1 ) 2 (4)
Similarly, the sound collection level A2 of the BF microphone M2 that collects sound at a position separated from the
A2=A×(L/L 2 ) 2 (5)
また、BFマイクM1及びM2の各出力を以下の式に従って合成する。
Amix=sqrt{(A1×(L1/L)2×cosγ) 2+(A1×(L1/L)2×cosγ) 2}
・・・(6)
ここでAmixは、BFマイクM1及びM2の各出力を合成した合成レベルである。
またsqrt{}は、{}内の値に対する平方根を意味する。
またγは、上記した(γ1、γ2)のどちらか一方である。
Also, each output of the BF microphones M1 and M2 is synthesized according to the following formula.
A mix =sqrt{(A1×(L 1 /L) 2 ×cosγ) 2 +(A1×(L 1 /L) 2 ×cosγ) 2 }
... (6)
Here, A mix is a synthesis level obtained by synthesizing the outputs of the BF microphones M1 and M2.
Also, sqrt{} means the square root of the value in {}.
γ is either one of (γ 1 , γ 2 ) described above.
(4)及び(5)式より、必要な発話レベルAは、以下のように表される。
A=A1×(L1/L)2=A2×(L2/L)2 ・・・(7)
従って、(6)式に従って合成される合成レベルAmixは、Amix=Aとなる。
このように、(6)式を用いることで、合成レベルAmixを常に発話レベルAと同等のレベルとすることが可能となる。
From the equations (4) and (5), the required speech level A is expressed as follows.
A=A1×( L1 /L) 2 =A2×( L2 /L) 2 (7)
Therefore, the synthesis level A mix synthesized according to the formula (6) is A mix =A.
Thus, by using the equation (6), the synthesis level A mix can always be kept at the same level as the speech level A.
また、(6)式のγは、例えば2つのBFマイクM(ここではM1及びM2)のうち、メインに集音を行うBFマイクM(主マイクアレイ)の発話方向2に対する集音角度である。
例えば、発話者1の位置Q及び発話方向2をもとに、集音角度γが-90°≦γ≦90°となり、発話者1に近接する2つのBFマイクMが対象マイク25として選択される。また、選択された2つのBFマイクMのうち、発話者1に近いほうが、メインに集音を行うBFマイクMに設定され、その集音角度が(6)式のγとして用いられる。
In addition, γ in equation (6) is, for example, the sound collection angle of the BF microphone M (main microphone array) that mainly collects sound, out of the two BF microphones M (here, M1 and M2), with respect to the
For example, based on the position Q of the
例えば、図11に示す状況では、発話者1に近いBFマイクM1がメインに集音を行うBFマイクMに設定され、その集音角度γ1が(6)式のγとして用いられる。
また時刻T2以降に発話者1が移動して、γ1=90°(またはγ1=-90°)となった場合、メインに集音を行うBFマイクMは、BFマイクM2に切り替えられ、(6)式のγが集音角度γ1に切り替えられる。
これにより、隣接するBFマイクMの連続的な切替えを実現することが可能となる。この結果、不自然な音切れ等を発生させることなく、集音レベルの高い高品質な集音を継続して行うことが可能となる。
For example, in the situation shown in FIG. 11, the BF microphone M1 close to the
Further, when the
This makes it possible to realize continuous switching of adjacent BF microphones M. FIG. As a result, it is possible to continuously perform high-quality sound collection at a high sound collection level without causing unnatural sound interruptions or the like.
図12は、複数の発話者1が移動する際の集音動作の一例を示す模式図である。
図12では、複数の発話者1が移動し、かつ各発話者1に対する集音動作が干渉する場合について説明する。
ここでは、集音対象領域40内を2人の発話者1A及び1Bが、図中の太い矢印に沿ってそれぞれ移動するものとする。図12A及び図12Bには、時刻T1及び時刻T2での発話者1A及び1Bの配置が模式的に図示されている。
また発話者1Aの対象マイク25のビーム7の範囲が薄いグレーの領域で示されており、発話者1Bの対象マイク25のビーム7の範囲が濃いグレーの領域で示されている。また、ドットの領域は、比較のために示した仮想的なビーム7の範囲を表している。
FIG. 12 is a schematic diagram showing an example of a sound collection operation when a plurality of
FIG. 12 illustrates a case where a plurality of
Here, it is assumed that two
The range of the
図12Aでは、発話者1Aは集音対象領域40の左上の外周近くに位置し、発話者1Aの発話方向2は図中右側を向いている。また発話者1Bは集音対象領域40の中央下側の外周近くに位置し、発話者1Bの発話方向2は図中左上を向いている。
In FIG. 12A, the
図12Aに示す状況では、発話者1Aの正面側にある直近のBFマイクM1で、発話者1Aの音声5を集音してもその集音方向3(ビーム7aの方向)に他者(発話者1B)が重ならない。このため、BFマイクM1が発話者1Aの対象マイク25として選択され、発話者1Aに向けてビーム7aが設定される。
同様に、発話者1Bの正面側にある直近のBFマイクM3で、発話者1Bの音声5を集音してもその集音方向3(ビーム7cの方向)に他者(発話者1A)が重ならない。このため、BFマイクM3が発話者1Bの対象マイク25として選択され、発話者1Bに向けてビーム7bが設定される。
In the situation shown in FIG. 12A, even if the
Similarly, even if the
なお、発話者1Aに最も近い位置にあるBFマイクM4では、発話者1Aにビーム7dを向けたとしても、発話者1Aを背後から集音することになる。同様に、発話者1Bに最も近い位置にあるBFマイクM2では、発話者1Bにビーム7bを向けたとしても、発話者1Bを背後から集音することになる。従ってBFマイクM4のビーム7dや、BFマイクM2のビーム7bでは、発話者1の直接音が集音できないため、音質が低下する可能性がある。
Even if the
図12Bでは、発話者1Aは集音対象領域40の中心の右上に位置し、発話者1Aの発話方向2は図中右下を向いている。また発話者1Bは集音対象領域40の中心の左下に位置し、発話者1Bの発話方向2は図中上側を向いている。
In FIG. 12B, the
図12Bに示す状況では、図12Aと同様にBFマイクM1を用いて発話者1Aを集音した場合、BFマイクM1のビーム7a'上に、他者(発話者1B)が重なっている。また発話者1Bの発話方向2に対するBFマイクM1の集音角度が90°以下であるため、ビーム7a'を用いた場合、発話者1Bが発する直接音が集音される可能性がある。
一方で、発話者1Aの正面側にあるもう一方のBFマイクM2を用いて発話者1Aを集音した場合、BFマイクM2のビーム7b'上に、他者(発話者1B)が重ならない。このため、図12Bでは、BFマイクM2が発話者1Aの対象マイク25として選択され、発話者1Aに向けてビーム7b'が設定される。これにより、発話者1Aの音声5だけを高品質に集音することが可能である。
In the situation shown in FIG. 12B, when the
On the other hand, when the other BF microphone M2 in front of the
図12Bに示す発話者1Bについても同様に対象マイク25が切り替えられる。例えば、
図12Aと同様にBFマイクM3を用いて発話者1Bを集音した場合、BFマイクM3のビーム7c'には、他者(発話者1A)が重なっており、発話者1Aが発する直接音が集音される可能性がある。
一方で、発話者1Bの正面側にあるBFマイクM4を用いて発話者1Bを集音した場合、BFマイクM4のビーム7d'上に、他者(発話者1A)が重ならない。このため、図12Bでは、BFマイクM4が発話者1Bの対象マイク25として選択され、発話者1Bに向けてビーム7d'が設定される。これにより、発話者1Bの音声5だけを高品質に集音することが可能である。
The
When the
On the other hand, when the BF microphone M4 in front of the
このように本実施形態では、処理対象(集音対象)の発話者1が発する直接音を集音し処理対象とは異なる他の発話者1が発する直接音を集音しないように集音方向3を設定可能なBFマイクMが対象マイク25として選択される。
これにより、例えば処理対象の発話者1が発した音声5を選択的に集音した音声データ6を生成することが可能となる。
As described above, in this embodiment, the sound collection direction is changed so as to collect the direct sound uttered by the
As a result, for example, it is possible to generate voice data 6 by selectively collecting the
図13は、発話者1の発話方向2を想定した集音動作の一例を示す模式図である。
図13では、複数の発話方向2にむけた発話が想定可能であり、発話方向2が比較的頻繁に切り替わるような状況での集音動作について説明する。
ここでは、一例としてリモート会議が行われている状況を想定する。集音対象領域40には、発話者1A及び1Bが左右に分かれて座っている。また集音対象領域40の中央上側に設けられたモニター44には、リモート会議の参加者である発話者1Cが映し出されている。
13A and 13B are schematic diagrams showing an example of the sound collection operation assuming the speaking
FIG. 13 illustrates a sound collection operation in a situation where it is possible to assume speech directed toward a plurality of
Here, as an example, it is assumed that a remote conference is being held.
複数の発話方向2が想定される場合には、対応するBFマイクMに対して、想定される発話方向2に応じた集音方向3が予め設定される。集音方向3が予め設定されたBFマイクMは、対象マイク25の候補となる候補マイク26となる。
このように、複数のBFマイクMには、予め集音方向3が設定された複数の候補マイク26が含まれる。本実施形態では、候補マイク26は、候補装置に相当する。
When a plurality of
Thus, the multiple BF microphones M include
発話者1Aに着目すると、図13に示す状況では、発話者1Aが発話者1Cに向かって発話する場合(発話方向2が上側に向けられる場合)と、発話者1Aが発話者1Bに向かって発話する場合(発話方向2が右側に向けられる場合)とが想定される。
この場合、BFマイクM4及びM1が、発話者1Aの音声5を集音する候補マイク26として設定される。
例えば、発話者1Aが発話者1Cに向かって発話する際の上側に向けられる発話方向2aに対応して、BFマイクM4に集音方向3aが設定される。同様に、発話者1Aが発話者1Bに向かって発話する際の右側に向けられる発話方向2bに対応して、BFマイクM1に集音方向3bが設定される。
Focusing on
In this case, the BF microphones M4 and M1 are set as
For example, a sound collection direction 3a is set for the BF microphone M4 corresponding to an
このように、候補マイク26が設定された状態で、発話者1に対する集音動作が実行される。具体的には、集音制御部22により、複数の候補マイク26から対象マイク25が選択される。例えば、発話者1の実際の発話方向2がモニタリングされ、そのモニタリング結果に応じて、各候補マイク26から対象マイク25が選択される。
図13では、発話者1Aが発話者1Cに向かって発話しているとする。この場合、発話方向2aに対応する集音方向3aが設定されたBFマイクM4が対象マイク25として選択される。そして、BFマイクM4により集音方向3aに沿って発話者1Aの音声5が集音される。
In this way, the sound collecting operation for the
In FIG. 13, it is assumed that
また、集音処理部23は、対象マイク25として選択されない候補マイク26を集音状態で待機させる。ここで集音状態での待機とは、例えば対象マイク25による集音動作のバックグラウンドで集音処理(ビームフォーミング処理)を継続する処理である。なお待機中に生成された音声データ6は適宜削除される。
図13では、BFマイクM4が対象マイク25として選択されるため、もう一方の候補マイク26であるBFマイクM1が集音状態で待機することになる。このときBFマイクM1は集音方向3bに対する集音動作を継続している。
これにより、発話方向2が急に変化した場合であっても、待機させた候補マイク26での集音に切り替えることで、高品質な集音を継続して行うことが可能となる。
In addition, the sound
In FIG. 13, since the BF microphone M4 is selected as the
As a result, even when the
例えば図13では、発話者1Aの隣席に発話者1Bが居るため、発話者1Aがメインの方向(発話方向2a)を向いて発話者1Cと話していたとしても、急に発話者1Bとの会話が始まる可能性がある。そこで、上記したように予め隣席方向(発話方向2b)に対してもBFマイクM1を集音状態で待機すれば、発話者1Aが頻繁に且つ早急に向きを変えて隣席の発話者1Bと会話を始めても、頭切れをせずに発話者1Aの音声5を集音することが可能となる。
For example, in FIG. 13, since
図14は、ジャスチャーに応じた集音動作の一例を示す模式図である。
図14では、発話者1のジェスチャー(特定動作)に応じて発話者1に対する集音処理を制御する方法について説明する。
ここでは、画像処理部21により、発話者1のジェスチャーが検出される。本実施形態では、発話者1の発話方向2を検出するボーン検出機能を利用して、発話者1の骨格の情報から発話者1のジェスチャーが検出される。発話者1のジェスチャーは、静的なジェスチャー(ポーズ)であってもよいし、動的なジェスチャー(動作)であってもよい。
FIG. 14 is a schematic diagram showing an example of a sound collection operation according to a gesture.
In FIG. 14, a method of controlling sound collection processing for
Here, the gesture of
図14(a)~(c)には、発話者1の骨格を用いて、発話者1の姿勢が模式的に図示されている。発話者1の骨格は、複数の座標点45で表されており、例えば発話者1の頭部は、頭座標点45aと、首座標点45bとで表されている。また発話者1の右手は、右手首及び右手のひらを表す座標点45のペア46Rで表されており、発話者1の左手は、左手首及び左手のひらを表す座標点45のペア46Lで表されている。
これに限定されず、例えば、目、鼻、耳等の他の部分を表す座標点45が用いられてもよい。
14A to 14C schematically show the posture of
It is not limited to this, and for example, coordinate
本実施形態では、集音処理部23により、発話者1のジェスチャーに応じて、発話者1の音声5を集音する集音処理が制御される。
ここで集音処理とは、例えば発話者1の音声5を集音するために必要となる一連の処理である。集音処理には、音声データ6を生成するビームフォーミング処理の他、画像処理部21による発話者1の位置Q及び発話方向2の検出処理や、集音制御部22による対象マイク25を選択する処理や集音方向3を設定する処理が含まれる。
これらの処理が、発話者1のジェスチャーに応じて制御される。
In this embodiment, the sound
Here, the sound collection process is a series of processes necessary for collecting the
These processes are controlled according to the gesture of
図14(a)には、発話者1の一般姿勢が示されている。一般姿勢は、例えば発話者1の通常の姿勢であり、左右の手を下におろして直立した状態である。なお、左右の手(ペア46L及び46R)の位置が例えば肩の座標点45よりも低い位置にある場合を一般姿勢に設定してもよい。
一般姿勢が検出された場合、発話者1に対して通常の集音処理が実行される。
FIG. 14( a ) shows the general posture of
When the general posture is detected, normal sound collection processing is performed for
図14(b)には、集音を停止する停止ジェスチャーが示されている。停止ジェスチャーは、口前に手をかざす姿勢である。このように、発話者1が手で口を遮る停止ジェスチャーが検出された場合、発話者に対する集音処理が停止される。
ここでは、発話者1の右手(ペア46R)が、頭座標点45a及び首座標点45bの間と重なる位置で検出される。このようなジェスチャーが検出された場合には、発話者1が口を塞いだとみなして、発話者1を対象とする集音処理が停止される。これにより、例えば発話者1が集音したくない会話等が集音される事態を回避することが可能となる。
なお、他の発話者1に対して実行されている集音処理はそのまま継続される。
FIG. 14(b) shows a stop gesture for stopping sound collection. A stop gesture is a posture of holding a hand in front of the mouth. In this way, when the stop gesture of
Here, the right hand (
Note that the sound collection processing that is being executed for the
図14(c)には、集音を優先する優先ジェスチャーが示されている。優先ジェスチャーは、左右どちらかの手を頭部より上にかざす姿勢である。このように、発話者1が手を挙げる優先ジェスチャーが検出された場合、発話者1に対する集音処理が優先して実行される。
ここでは、発話者1の左手(ペア46L)が、頭座標点45aよりも高い位置で検出される。このようなジェスチャーが検出された場合には、発話者1が発言のために挙手をしたとみなして、発話者1を優先的に集音する集音処理(優先集音)が実行される。
優先集音では、例えば発話者1の音声を集音するためのビームフォーミング処理の精度が引き上げられる。あるいは、発話者1の発話方向2等の検出精度が引き上げられる。逆に、他の発話者1に対して実行されている集音処理の精度が引き下げられてもよい。また、発話者1の音声5を単独で集音するといった処理が実行されてもよい。これにより、例えば発言を希望する発話者1の音声を高品質に集音することが可能となる。
FIG. 14(c) shows a priority gesture that prioritizes sound collection. A priority gesture is a posture in which either the left or right hand is held above the head. In this way, when the priority gesture of raising the hand of
Here,
In the priority sound collection, for example, the accuracy of beam forming processing for collecting the voice of
図15は、音声と動作音とを集音する集音動作の一例を示す模式図である。
図15では、発話者1の移動等の動作に伴う所作音8を分離して集音する方法について説明する。以下では所作音の一例として、発話者1が移動した際に発生する足音を例に挙げて説明する。この処理は、例えばボーン検出や位置検出により、発話者1の移動が検出された場合に実行される。なお、発話者1の移動の有無に関わらず、所作音8(足音)を分離する処理が実行されてもよい。
FIG. 15 is a schematic diagram showing an example of sound collection operation for collecting voice and operation sound.
With reference to FIG. 15, a method of separating and collecting a gesture sound 8 accompanying an action such as movement of the
図15Aは、対象マイク25(BFマイクM)から発話者1に向けられたビーム7の垂直方向の広がりを示す模式図である。例えば対象マイク25に設定されたビーム7は、図15Aに示すように上下方向に広がる。このため、対象マイク25は、発話者1の音声5とともに、発話者1の足元で発生する足音(所作音8)も集音することが可能である。
従って、対象マイク25の出力をもとに生成された音声データ6には、発話者1の音声5と所作音8が含まれている。
FIG. 15A is a schematic diagram showing the spread of the
Therefore, the voice data 6 generated based on the output of the
本実施形態では、集音処理部23により、対象マイク25により集音された音声データ6から、発話者1の音声5と、発話者1の所作音8とが分離される。
例えば音声データ6から発話成分を分離することで、発話者1の所作音8(足音)を集音した所作音データ等を生成することが可能である。
In this embodiment, the sound
For example, by separating the utterance component from the voice data 6, it is possible to generate gesture sound data or the like in which the gesture sound 8 (footsteps) of the
図15Bは、所作音8を分離する集音処理部23の構成例を示すブロック図である。この集音処理部23には、図1を参照して説明した音声データ生成部28の後段に、音源分離部35が設けられる。
音源分離部35は、対象マイク25を用いて生成された音声データ6から発話者1の音声5を除去して、所作音8を抽出する。所作音8の抽出には、データの内容や集音環境等に応じて分離周波数等のパラメータを変化させる適応型の音源分離処理が用いられる。あるいは、所作音8の特徴に合わせて固定型の帯域通過フィルタ(BPF)等が用いられてもよい。
FIG. 15B is a block diagram showing a configuration example of the sound
The sound
図15Cは、音声5及び所作音8に関する集音レベルの周波数分布を示す模式的なグラフである。グラフの横軸は、周波数であり、縦軸は、集音レベルである。音声5及び所作音8の集音レベルは、実線のグラフ及び一点鎖線のグラフを用いてそれぞれ示されている。
例えば音声5は、1kHzを中心として比較的急峻なピーク状に分布しており、1kHzよりも十分に周波数が高い領域(または低い領域)には周波数成分を持たない。一方で、所作音8は、音声5よりも広い周波数範囲に分布した比較的ブロードな分布を示す。すなわち音声5が周波数成分を持たない領域にも、所作音8の周波数成分が分布している。
FIG. 15C is a schematic graph showing the frequency distribution of collected sound levels for
For example, the
このように、音声5の周波数成分は1kHz近辺に集中している。そこで、音源分離部35では、音声データ6から1kHz近辺の周波数成分を除去する処理が実行される。このように、音源分離部35は、1kHz近辺の周波数成分を除去したデータを所作音8(足音)とみなして集音する。
図15Cには、1kHz近辺の周波数成分を除去するBPFの周波数特性が、破線のグラフを用いて示されている。このようなBPFを音声データ6に作用させることで、音声5が除去されて所作音8が抽出された所作音データが生成される。
この他、所作音8を抽出する方法は限定されず、例えば機械学習等を用いた音源分離技術等が適宜用いられてもよい。
Thus, the frequency components of
FIG. 15C shows the frequency characteristics of a BPF that removes frequency components around 1 kHz using a dashed line graph. By applying such a BPF to the voice data 6, gesture sound data in which the
In addition, the method of extracting the gesture sound 8 is not limited, and for example, a sound source separation technique using machine learning or the like may be used as appropriate.
音声5と分離された所作音8(所作音データ)は、例えば音声5とは別のトラックの音データとして、再生装置29や記憶部11に出力される。
例えば、発話者1の挙動を遠隔地で再生するようなアプリケーション(リモート会議やリモートプレゼンテーション等)では、音声5と所作音8とを分けて再生することで、臨場感の向上をはかることが可能である。
また例えば、映像コンテンツの収録を行う際に、所作音8を音声5とは別トラックで記録することが可能となり、コンテンツの品質を向上することが可能となる。
The action sound 8 (action sound data) separated from the
For example, in an application that reproduces the behavior of the
Also, for example, when recording video content, it is possible to record the gesture sound 8 on a separate track from the
以上、本実施形態に係るコントローラ20では、音源である発話者1の周辺に配置された複数のBFマイクMから、発話者1の音声5を集音するための対象マイク25が少なくとも1つ選択される。各BFマイクMは、集音方向3を設定できる装置であり、対象マイク25の選択には、発話者1の位置Q及び発話者1が音声を発する発話方向2を示す音源情報が用いられる。これにより、例えば発話者1の位置や音声5の出る方向に適応したBFマイクMを用いることが可能となり、発話者1が発する音声5を高品質に集音することが可能となる。
As described above, in the
音源の音を集音する方法として、例えば目的音以外の音を除去するノイズキャンセルを用いる方法が考えられる。例えば特許文献1では、一つのマイクアレイを用いたビームフォーミング技術によるノイズキャンセルの方法が記載されている。この方法では、マイクアレイとは別の画像処理装置を用いて集音対象となる人物の配置が検出され、集音対象の配置に基づいてノイズ方向が設定される。そして集音対象が存在する方向の音からノイズ方向の音を差し引くことで、ノイズがキャンセルされる。
As a method for collecting sound from a sound source, for example, a method using noise cancellation for removing sounds other than the target sound is conceivable. For example,
しかしながら、例えば集音対象となる人物がマイクアレイに背を向けた場合には、発話方向とは反対側から人物の音声を集音することになり、そもそも集音対象の音を高品質で集音することが難しい。また集音対象とノイズ源との配置関係によっては、目的音より雑音が大きく集音されることになる。この場合、目的音となる発話情報を雑音情報の中から抜き出すことになるので、音声の品質が劣化する可能性がある。 However, for example, when the target person turns his/her back to the microphone array, the person's voice is collected from the opposite side of the speaking direction. difficult to make a sound Also, depending on the positional relationship between the sound collection target and the noise source, the noise may be louder than the target sound. In this case, since the utterance information, which is the target sound, is extracted from the noise information, there is a possibility that the quality of the speech will be degraded.
本実施形態では、集音対象となる音源(発話者1)の位置Q及び発話方向2が音源情報として検出される。この音源情報をもとに、任意の方向に集音方向3を設定可能な複数の集音装置を制御して発話者1の音声5が集音される。これにより、様々な方向を向いている複数の発話者1から発せられる音声5を個別かつ同時に集音することが可能となる。
また複数の発話者1が同時に発話しても、各発話者1の音声データ6を別々のオブジェクトとして発話数分だけ集音することが可能である。これにより、音声データ6の取り扱いが容易になる。
In this embodiment, the position Q and the
Even if a plurality of
また、複数のBFマイクMから、対象マイク25を選択しその集音方向3を設定する方法は、発話者1の音声5を良い音質で集音可能な状況を作り出すことを目的としている。これは、ノイズをキャンセルする前の段階で、おおもとのデータにおける音質を向上させる方法であると言える。
このように、集音システム100で行われる集音方法は、ノイズ除去ではないので、再生した場合に明瞭に聞くことが可能な音声データ6を提供することが可能となる。
The method of selecting the
Thus, since the sound collection method performed by the
<その他の実施形態>
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
<Other embodiments>
The present technology is not limited to the embodiments described above, and various other embodiments can be implemented.
上記では、各BFマイクMに対して、1つのビーム7を設定して集音を行う方法について説明した。これに限定されず、例えば1つのBFマイクMに対して、複数のビーム7(集音方向3)を設定することも可能である。これにより、例えばBFマイクMの数よりも発話者1が多いような場合であっても、発話者1ごとの高品質な集音を実現することが可能となる。
A method of setting one
図1を参照して説明した構成では、集音処理部23によりビームフォーミング処理が実行された。例えば、各BFマイクMがそれぞれビームフォーミング処理を実行可能なように構成されてもよい。この場合、各BFマイクMでは、集音方向信号が指定する集音方向3の音波を集音するビームフォーミング処理が実行され、各BFマイクMからは、集音方向3の音声データ6が出力される。このような構成であっても、発話者1の音声5を高品質に集音することが可能である。
In the configuration described with reference to FIG. 1, the sound
集音方向3を設定可能な集音装置として、BFマイクMに代えて、単一指向性マイク等が用いられてもよい。この場合、例えば多数の単一指向性マイクが発話者1の周辺に配置される。そして発話者1の発話方向2にあった集音方向3をもつ単一指向性マイクが選択され、対象マイク25として用いられる。このような構成であっても、発話者1の音声5を高品質に集音することが可能である。
A unidirectional microphone or the like may be used instead of the BF microphone M as a sound collecting device capable of setting the
上記では集音システムのコンピュータ(コントローラ)により、本技術に係る情報処理方法が実行される場合を説明した。しかしながら集音システムのコンピュータとネットワーク等を介して通信可能な他のコンピュータとにより、本技術に係る情報処理方法、及びプログラムが実行されてもよい。 A case has been described above in which the computer (controller) of the sound collection system executes the information processing method according to the present technology. However, the computer of the sound collection system and another computer that can communicate via a network or the like may execute the information processing method and the program according to the present technology.
すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。 That is, the information processing method and program according to the present technology can be executed not only in a computer system configured by a single computer, but also in a computer system in which a plurality of computers work together. In the present disclosure, a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules within a single housing, are both systems.
コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば音源情報を取得する処理及び対象マイクを選択する処理が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。 The computer system executes the information processing method and program according to the present technology, for example, when the process of acquiring sound source information and the process of selecting a target microphone are executed by a single computer, and each process is executed by a different computer. includes both cases where Execution of each process by a predetermined computer includes causing another computer to execute part or all of the process and obtaining the result.
すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。 That is, the information processing method and program according to the present technology can also be applied to a configuration of cloud computing in which a plurality of devices share and jointly process one function via a network.
以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。 It is also possible to combine at least two characteristic portions among the characteristic portions according to the present technology described above. That is, various characteristic portions described in each embodiment may be combined arbitrarily without distinguishing between each embodiment. Moreover, the various effects described above are only examples and are not limited, and other effects may be exhibited.
本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。 In the present disclosure, the terms “same”, “equal”, “orthogonal”, etc. are concepts including “substantially the same”, “substantially equal”, “substantially orthogonal”, and the like. For example, states included in a predetermined range (for example, a range of ±10%) based on "exactly the same", "exactly equal", "perfectly orthogonal", etc. are also included.
なお、本技術は以下のような構成も採ることができる。
(1)音源の位置と前記音源が音を発する方向とを示す音源情報を取得する情報取得部と、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する集音制御部と
を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定する
情報処理装置。
(3)(2)に記載の情報処理装置であって、
前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定する
情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択する
情報処理装置。
(5)(4)に記載の情報処理装置であって、
前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成され、
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択する
情報処理装置。
(6)(5)に記載の情報処理装置であって、
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択する
情報処理装置。
(7)(1)から(6)のうちいずれか1つに記載の情報処理装置であって、
前記情報取得部は、複数の音源ごとに前記音源情報を取得し、
前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択する
情報処理装置。
(8)(7)に記載の情報処理装置であって、
前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択する
情報処理装置。
(9)(1)から(8)のうちいずれか1つに記載の情報処理装置であって、さらに、
前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備する
情報処理装置。
(10)(9)に記載の情報処理装置であって、
前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含み、
前記集音制御部は、前記複数の候補装置から前記対象装置を選択し、
前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させる
情報処理装置。
(11)(9)又は(10)に記載の情報処理装置であって、
前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択する
情報処理装置。
(12)(11)に記載の情報処理装置であって、
前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成する
情報処理装置。
(13)(9)から(12)のうちいずれか1つに記載の情報処理装置であって、
前記音源は、発話者であり、
前記音源が音を発する方向は、前記発話者の発話方向である
情報処理装置。
(14)(13)に記載の情報処理装置であって、
前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定する
情報処理装置。
(15)(13)又は(14)に記載の情報処理装置であって、
前記情報取得部は、前記発話者のジェスチャーを検出し、
前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御する
情報処理装置。
(16)(15)に記載の情報処理装置であって、
前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止する
情報処理装置。
(17)(13)から(16)のうちいずれか1つに記載の情報処理装置であって、
前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離する
情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
前記集音装置は、複数のマイクが配置されたマイクアレイであり、
前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向である
情報処理装置。
(19)音源の位置と前記音源が音を発する方向とを示す音源情報を取得し、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する
ことをコンピュータシステムが実行する情報処理方法。
(20)音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップと、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップと
をコンピュータシステムに実行させるプログラム。
Note that the present technology can also adopt the following configuration.
(1) an information acquisition unit that acquires sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
A sound collection control unit that selects, based on the sound source information, at least one target device used for collecting sound emitted by the sound source from a plurality of sound collection devices arranged around the sound source and capable of setting a sound collection direction. An information processing device comprising and.
(2) The information processing device according to (1),
The information processing apparatus, wherein the sound collection control unit sets a sound collection direction of the target device based on the sound source information.
(3) The information processing device according to (2),
The information processing apparatus, wherein the sound collection control unit sets a direction from the target device toward the sound source as a sound collection direction of the target device.
(4) The information processing device according to any one of (1) to (3),
The sound collection control unit determines the sound collection device capable of collecting the direct sound emitted by the sound source based on the direction in which the sound source emits sound, and selects the sound collection device as the target device. .
(5) The information processing device according to (4),
The plurality of sound collecting devices are configured to be able to set the sound collecting direction in an allocation range allocated according to each arrangement,
The information processing device, wherein the sound collection control unit selects, as the target device, the sound collection device whose direction in which the sound source emits sound corresponds to the center direction of the allocation range.
(6) The information processing device according to (5),
The sound collection control unit is capable of collecting sound along the direction in which the sound source emits sound when there is no sound collection device in which the direction in which the sound source emits sound corresponds to the center direction of the allocation range, An information processing device that selects the sound collecting device closest to the sound source as the target device.
(7) The information processing device according to any one of (1) to (6),
The information acquisition unit acquires the sound source information for each of a plurality of sound sources,
The information processing apparatus, wherein the sound collection control unit selects the target device for each of the plurality of sound sources based on the sound source information for each of the plurality of sound sources.
(8) The information processing device according to (7),
The sound collection control unit is capable of setting the sound collection direction so as to collect direct sound emitted by a sound source to be processed and not to collect direct sound emitted by a sound source different from the sound source to be processed. as the target device. Information processing device.
(9) The information processing device according to any one of (1) to (8), further comprising:
An information processing apparatus comprising a sound collection processing unit that generates sound data representing the sound emitted by the sound source based on the output of the at least one target device.
(10) The information processing device according to (9),
The plurality of sound collecting devices includes a plurality of candidate devices whose sound collecting directions are set in advance,
The sound collection control unit selects the target device from the plurality of candidate devices,
The information processing device, wherein the sound collection processing unit makes a candidate device that is not selected as the target device stand by in a sound collection state.
(11) The information processing device according to (9) or (10),
The information processing device, wherein the sound collection control unit selects a plurality of target devices from the plurality of sound collectors for the single sound source.
(12) The information processing device according to (11),
The information processing device, wherein the sound collection processing unit synthesizes data collected by the plurality of target devices to generate the sound data of the sound source.
(13) The information processing device according to any one of (9) to (12),
The sound source is a speaker,
The information processing apparatus, wherein the direction in which the sound source emits sound is the utterance direction of the speaker.
(14) The information processing device according to (13),
The information processing apparatus, wherein the information acquisition unit estimates a speech direction of the speaker by performing bone detection on the speaker based on image data of the speaker.
(15) The information processing device according to (13) or (14),
The information acquisition unit detects a gesture of the speaker,
The information processing apparatus, wherein the sound collection processing unit controls sound collection processing for collecting the voice of the speaker according to the gesture of the speaker.
(16) The information processing device according to (15),
The sound collection processing unit preferentially executes the sound collection processing for the speaker when a gesture of the speaker raising a hand is detected, and a gesture of the speaker covering the mouth with a hand is detected. information processing device that stops the sound collection process for the speaker if the
(17) The information processing device according to any one of (13) to (16),
The information processing device, wherein the sound collection processing unit separates the speech of the speaker and the gesture sound of the speaker from the data collected by the target device.
(18) The information processing device according to any one of (1) to (17),
The sound collecting device is a microphone array in which a plurality of microphones are arranged,
The information processing apparatus, wherein the sound collection direction is a beam direction set in beamforming processing for the microphone array.
(19) obtaining sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
selecting at least one target device used for collecting sound emitted by the sound source from a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction, based on the sound source information. Information processing methods performed by
(20) obtaining sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
selecting, based on the sound source information, at least one target device used to collect the sound emitted by the sound source from among a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction; A program that you want the system to run.
M、M1~M4…BFマイク
1、1A~1D…発話者
2…発話方向
3…集音方向
5…音声
10…検出カメラ
11…記憶部
12…制御プログラム
16…マイク
20…コントローラ
21…画像処理部
22…集音制御部
23…集音処理部
25…対象マイク
26…候補マイク
35…音源分離部
41…割当範囲
100…集音システム
M, M1 to M4...
Claims (20)
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する集音制御部と
を具備する情報処理装置。 an information acquisition unit that acquires sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
A sound collection control unit that selects, based on the sound source information, at least one target device used for collecting sound emitted by the sound source from a plurality of sound collection devices arranged around the sound source and capable of setting a sound collection direction. An information processing device comprising and.
前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定する
情報処理装置。 The information processing device according to claim 1,
The information processing apparatus, wherein the sound collection control unit sets a sound collection direction of the target device based on the sound source information.
前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定する
情報処理装置。 The information processing device according to claim 2,
The information processing apparatus, wherein the sound collection control unit sets a direction from the target device toward the sound source as a sound collection direction of the target device.
前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択する
情報処理装置。 The information processing device according to claim 1,
The sound collection control unit determines the sound collection device capable of collecting the direct sound emitted by the sound source based on the direction in which the sound source emits sound, and selects the sound collection device as the target device. .
前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成され、
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択する
情報処理装置。 The information processing device according to claim 4,
The plurality of sound collecting devices are configured to be able to set the sound collecting direction in an allocation range allocated according to each arrangement,
The information processing device, wherein the sound collection control unit selects, as the target device, the sound collection device whose direction in which the sound source emits sound corresponds to the center direction of the allocation range.
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択する
情報処理装置。 The information processing device according to claim 5,
The sound collection control unit is capable of collecting sound along the direction in which the sound source emits sound when there is no sound collection device in which the direction in which the sound source emits sound corresponds to the center direction of the allocation range, An information processing device that selects the sound collecting device closest to the sound source as the target device.
前記情報取得部は、複数の音源ごとに前記音源情報を取得し、
前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択する
情報処理装置。 The information processing device according to claim 1,
The information acquisition unit acquires the sound source information for each of a plurality of sound sources,
The information processing apparatus, wherein the sound collection control unit selects the target device for each of the plurality of sound sources based on the sound source information for each of the plurality of sound sources.
前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択する
情報処理装置。 The information processing device according to claim 7,
The sound collection control unit is capable of setting the sound collection direction so as to collect direct sound emitted by a sound source to be processed and not to collect direct sound emitted by a sound source different from the sound source to be processed. as the target device. Information processing device.
前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備する
情報処理装置。 The information processing apparatus according to claim 1, further comprising:
An information processing apparatus comprising a sound collection processing unit that generates sound data representing the sound emitted by the sound source based on the output of the at least one target device.
前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含み、
前記集音制御部は、前記複数の候補装置から前記対象装置を選択し、
前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させる
情報処理装置。 The information processing device according to claim 9,
The plurality of sound collecting devices includes a plurality of candidate devices whose sound collecting directions are set in advance,
The sound collection control unit selects the target device from the plurality of candidate devices,
The information processing device, wherein the sound collection processing unit makes a candidate device that is not selected as the target device stand by in a sound collection state.
前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択する
情報処理装置。 The information processing device according to claim 9,
The information processing device, wherein the sound collection control unit selects a plurality of target devices from the plurality of sound collectors for the single sound source.
前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成する
情報処理装置。 The information processing device according to claim 11,
The information processing device, wherein the sound collection processing unit synthesizes data collected by the plurality of target devices to generate the sound data of the sound source.
前記音源は、発話者であり、
前記音源が音を発する方向は、前記発話者の発話方向である
情報処理装置。 The information processing device according to claim 9,
The sound source is a speaker,
The information processing apparatus, wherein the direction in which the sound source emits sound is the utterance direction of the speaker.
前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定する
情報処理装置。 The information processing device according to claim 13,
The information processing apparatus, wherein the information acquisition unit estimates a speech direction of the speaker by performing bone detection on the speaker based on image data of the speaker.
前記情報取得部は、前記発話者のジェスチャーを検出し、
前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御する
情報処理装置。 The information processing device according to claim 13,
The information acquisition unit detects a gesture of the speaker,
The information processing apparatus, wherein the sound collection processing unit controls sound collection processing for collecting the voice of the speaker according to the gesture of the speaker.
前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止する
情報処理装置。 The information processing device according to claim 15,
The sound collection processing unit preferentially executes the sound collection processing for the speaker when a gesture of the speaker raising a hand is detected, and a gesture of the speaker covering the mouth with a hand is detected. information processing device that stops the sound collection process for the speaker if the
前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離する
情報処理装置。 The information processing device according to claim 13,
The information processing device, wherein the sound collection processing unit separates the speech of the speaker and the gesture sound of the speaker from the data collected by the target device.
前記集音装置は、複数のマイクが配置されたマイクアレイであり、
前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向である
情報処理装置。 The information processing device according to claim 1,
The sound collecting device is a microphone array in which a plurality of microphones are arranged,
The information processing apparatus, wherein the sound collection direction is a beam direction set by beamforming processing for the microphone array.
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する
ことをコンピュータシステムが実行する情報処理方法。 Acquiring sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
selecting at least one target device used for collecting sound emitted by the sound source from a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction, based on the sound source information. Information processing methods performed by
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップと
をコンピュータシステムに実行させるプログラム。 obtaining sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
selecting, based on the sound source information, at least one target device used to collect the sound emitted by the sound source from among a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction; A program that you want the system to run.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021162852A JP2023053670A (en) | 2021-10-01 | 2021-10-01 | Information processing device, information processing method, and program |
PCT/JP2022/034914 WO2023054047A1 (en) | 2021-10-01 | 2022-09-20 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021162852A JP2023053670A (en) | 2021-10-01 | 2021-10-01 | Information processing device, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023053670A true JP2023053670A (en) | 2023-04-13 |
Family
ID=85782523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021162852A Pending JP2023053670A (en) | 2021-10-01 | 2021-10-01 | Information processing device, information processing method, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023053670A (en) |
WO (1) | WO2023054047A1 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105474667B (en) * | 2014-05-09 | 2018-11-27 | 松下知识产权经营株式会社 | Directivity control method and directive property control system |
JP6798502B2 (en) * | 2015-12-11 | 2020-12-09 | ソニー株式会社 | Information processing equipment, information processing methods, and programs |
JP2017175598A (en) * | 2016-03-22 | 2017-09-28 | パナソニックIpマネジメント株式会社 | Sound collecting device and sound collecting method |
JP7126143B2 (en) * | 2018-07-18 | 2022-08-26 | パナソニックIpマネジメント株式会社 | Unmanned flying object, information processing method and program |
JP7484233B2 (en) * | 2020-03-04 | 2024-05-16 | 富士フイルムビジネスイノベーション株式会社 | Display system, display control device and program |
-
2021
- 2021-10-01 JP JP2021162852A patent/JP2023053670A/en active Pending
-
2022
- 2022-09-20 WO PCT/JP2022/034914 patent/WO2023054047A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2023054047A1 (en) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106653041B (en) | Audio signal processing apparatus, method and electronic apparatus | |
EP3440538B1 (en) | Spatialized audio output based on predicted position data | |
US10027888B1 (en) | Determining area of interest in a panoramic video or photo | |
KR101797804B1 (en) | Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field | |
JP6101989B2 (en) | Signal-enhanced beamforming in an augmented reality environment | |
CN107534725B (en) | Voice signal processing method and device | |
CN105874408B (en) | Gesture interactive wearable spatial audio system | |
US6005610A (en) | Audio-visual object localization and tracking system and method therefor | |
US10388268B2 (en) | Apparatus and method for processing volumetric audio | |
JP5564873B2 (en) | Sound collection processing device, sound collection processing method, and program | |
TW201120469A (en) | Method, computer readable storage medium and system for localizing acoustic source | |
US11496830B2 (en) | Methods and systems for recording mixed audio signal and reproducing directional audio | |
US10664128B2 (en) | Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium | |
JP6410769B2 (en) | Information processing system, control method therefor, and computer program | |
CN112637529B (en) | Video processing method and device, storage medium and electronic equipment | |
JP2003251583A (en) | Robot audio-visual system | |
US20230088530A1 (en) | Sound-generating device, display device, sound-generating controlling method, and sound-generating controlling device | |
US9756421B2 (en) | Audio refocusing methods and electronic devices utilizing the same | |
CN113676592A (en) | Recording method, recording device, electronic equipment and computer readable medium | |
JP2004198656A (en) | Robot audio-visual system | |
CN113853529A (en) | Apparatus, and associated method, for spatial audio capture | |
WO2023054047A1 (en) | Information processing device, information processing method, and program | |
US9992532B1 (en) | Hand-held electronic apparatus, audio video broadcasting apparatus and broadcasting method thereof | |
JP3843743B2 (en) | Robot audio-visual system | |
JP2018019295A (en) | Information processing system, control method therefor, and computer program |